CN117077018B - 基于机器学习的数据处理方法、装置及存储介质 - Google Patents
基于机器学习的数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117077018B CN117077018B CN202311320534.8A CN202311320534A CN117077018B CN 117077018 B CN117077018 B CN 117077018B CN 202311320534 A CN202311320534 A CN 202311320534A CN 117077018 B CN117077018 B CN 117077018B
- Authority
- CN
- China
- Prior art keywords
- behavior
- event group
- log
- behavior event
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000010801 machine learning Methods 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 2093
- 239000013598 vector Substances 0.000 claims abstract description 548
- 238000012512 characterization method Methods 0.000 claims abstract description 484
- 238000005065 mining Methods 0.000 claims abstract description 211
- 230000010354 integration Effects 0.000 claims abstract description 165
- 230000003542 behavioural effect Effects 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000009471 action Effects 0.000 claims description 56
- 238000005259 measurement Methods 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012423 maintenance Methods 0.000 claims description 10
- 230000009191 jumping Effects 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims 1
- 238000013507 mapping Methods 0.000 description 62
- 238000000605 extraction Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供的基于机器学习的数据处理方法、装置及存储介质,在行为特征挖掘网络的调试过程中,挖掘行为日志的行为事件组表征向量和行为事件组描述表征向量,整合行为日志样本的行为事件组表征向量和行为事件组描述表征向量得到行为事件组整合表征向量,行为事件组整合表征向量包括不同模态的表征信息,能更加全面和准确地对行为日志中的行为事件组进行指示和表达。对于各类特征信息不用额外单独生成一个对应的网络,调试获得的目标行为特征挖掘网络能抽取到行为日志对应的行为事件组整合表征向量,行为事件组整合表征向量能更加全面和准确地对行为日志中的行为事件组进行指示和表达,行为事件组整合表征向量提高行为分类结果的精确性。
Description
技术领域
本申请涉及机器学习领域,具体而言,涉及一种基于机器学习的数据处理方法、装置及存储介质。
背景技术
随着互联网的快速发展,互联网用户数量越来越多,互联网业务数据分析是各互联网平台都重点关注的环节,互联网业务数据分析包括对用户数据、行为数据和业务数据等数据进行分析,得到诸如活跃用户、转化率、留存率、用户倾向分类、用户画像等结果。在用户行为数据分析时,通过对用户在互联网平台的行为,如PV、UV数据,或者更下位来说,用户的登陆、点击、收藏、转发、评论等行为,采用预设的埋点进行采集得到的行为数据进行总结分析,可以得到对应的行为分类,例如一个采集周期中包括的各个行为事件,进行合理分组分类后,可以得到一个或多个行为分类,这些行为分类可以帮助互联网平台进行细粒度、动态性且实时的用户画像更新,有利于互联网平台调节业务运营策略,如信息推送、业务或产品调节等等。那么,如何准确高效地进行用户行为分类是业务数据分析的重点。
发明内容
本申请的目的在于提供一种基于机器学习的数据处理方法、装置及存储介质。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种基于机器学习的数据处理方法,所述方法包括:获取行为日志,所述行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,所述行为日志包括至少一个行为事件组;将所述行为日志加载到预先调试完成的行为特征挖掘网络,得到所述行为日志中包含的行为事件组整合表征向量;基于所述行为事件组整合表征向量,采用预设的分类器对所述行为事件组分类,得到行为分类结果;其中,所述行为特征挖掘网络通过以下步骤调试得到:获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络;所述第一行为日志样本集合包括多个行为日志样本组,所述行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记;对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量;根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差;根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至所述获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;所述目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量。
可选地,所述获取第一行为日志样本集合,包括:获取多个行为事件组线索样本各自对应的目标行为事件组子集集合;所述行为事件组线索样本是从包含行为事件组的行为日志数据库样本中获取的,所述目标行为事件组子集集合中的行为事件组子集是对行为事件组线索样本所属行为日志数据库样本中对应的行为日志进行行为事件组识别得到的;分别对各个目标行为事件组子集集合进行抽样,得到多个积极行为日志二元组样本;在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中获取当下积极行为日志二元组样本所对应的消极行为日志样本;根据积极行为日志二元组样本和对应的消极行为日志样本构建行为日志样本组;根据各个行为日志样本组得到所述第一行为日志样本集合。
可选地,所述获取多个行为事件组线索样本各自对应的目标行为事件组子集集合,包括:获取多个行为日志数据库样本集合;其中,相同行为日志数据库样本集合中的行为日志属于相同行为日志数据库样本;对所述行为日志数据库样本集合中的行为日志进行行为事件组识别,得到行为日志中的行为事件组子集,将行为事件组子集加载到拟调试行为特征挖掘网络,得到行为事件组子集对应的行为事件组整合表征向量;根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果;根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合。
可选地,所述根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果,包括:在当下行为日志集合中确定目标行为日志;将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集;根据目标行为事件组子集对应的行为事件组整合表征向量分别和目标靠后行为日志中的各个行为事件组子集对应的行为事件组整合表征向量之间的空间相似性,从所述目标靠后行为日志对应的各个行为事件组子集中确定目标行为事件组子集对应的备选行为事件组子集,将与目标行为事件组子集的空间相似性大于预设值的备选行为事件组子集确定为目标行为事件组子集对应的靠后相似行为事件组子集;所述目标靠后行为日志为目标行为日志的邻接的靠后行为日志;根据各个目标行为事件组子集和对应的靠后相似行为事件组子集得到目标行为日志和目标靠后行为日志之间的行为事件组共性度量结果;在所述当下行为日志集合中获取后一行为日志确定为目标行为日志,跳转至所述将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集的步骤进行重复,直到获得所述当下行为日志集合中各个邻接的行为日志各自对应的行为事件组共性度量结果。
可选地,所述行为事件组共性度量结果包括由目标行为事件组子集和对应的靠后相似行为事件组子集构建的行为事件组子集对和行为事件组子集对所对应的线索指示信息,其中,具有相同行为事件组子集的不同行为事件组子集对所对应的线索指示信息相同;所述根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合,包括:在当下行为日志集合的各个邻接的行为日志对应的行为事件组共性度量结果中,获取当下线索指示信息对应的行为事件组子集对构建所述当下线索指示信息对应的当下行为事件组子集对集合;将所述当下行为事件组子集对集合中的各个行为事件组子集依据对应行为日志的行为日志先后次序进行排列,得到所述当下线索指示信息对应的当下初步行为事件组子集集合;对所述当下初步行为事件组子集集合对应的各个行为事件组整合表征向量进行归集,得到当下行为事件组代表表征向量;根据所述当下初步行为事件组子集集合对应的各个行为事件组整合表征向量分别和所述当下行为事件组代表表征向量之间的空间相似性,从所述当下初步行为事件组子集集合中,依据空间相似性的降序清洗掉M个行为事件组子集,得到所述当下线索指示信息对应的目标行为事件组子集集合,所述M≥1。
可选地,在当下表征向量为行为事件组描述表征向量时,当下指示信息为行为事件组描述标记,当下识别误差为行为事件组描述识别误差;在当下表征向量为行为事件组表征向量时,当下指示信息为行为事件组标记,当下识别误差为行为事件组识别误差;所述当下识别误差通过以下步骤进行获取:获取不同当下指示信息各自对应的示例行为事件组表征向量集;所述示例行为事件组表征向量集包括相同的当下指示信息对应的多个示例行为事件组表征向量,所述示例行为事件组表征向量是在当下表征向量库中,在当下指示信息对应的各个当下表征向量中获取和当下指示信息对应的质心空间相似性最大的当下表征向量得到的,所述质心是对当下表征向量库中相同的当下指示信息对应的各个当下表征向量进行分桶得到的;在各个示例行为事件组表征向量集中获取和当下行为日志样本对应的当下表征向量的空间相似性最大的示例行为事件组表征向量作为当下行为日志样本对应的对照行为事件组表征向量;根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差。
可选地,所述当下表征向量和所述对照行为事件组表征向量的元素数量为设定数量;所述根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差,包括:获取元素数量为所述设定数量的任意表征向量,将所述任意表征向量中数值不小于设定值的元素对应的位置确定为维持位;根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量在相同维持位上的数值误差,得到所述当下识别误差。
可选地,所述拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块,所述行为事件组描述识别模块用于得到行为事件组描述表征向量,所述行为事件组识别模块用于得到行为事件组表征向量,所述表征向量整合模块用于得到行为事件组整合表征向量;所述根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,包括:根据所述行为事件组描述识别误差依据第一调谐参数优化所述行为事件组描述识别模块的内部配置变量,根据所述行为事件组识别误差依据第二调谐参数优化所述行为事件组识别模块的内部配置变量,根据所述整合误差依据第三调谐参数优化所述行为事件组描述识别模块、所述行为事件组识别模块和所述表征向量整合模块的内部配置变量,得到过渡行为特征挖掘网络;其中,所述第一调谐参数和所述第二调谐参数都大于所述第三调谐参数。
根据本申请实施例的另一个方面,提供一种数据处理装置,包括:日志获取模块,用于获取行为日志,所述行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,所述行为日志包括至少一个行为事件组;特征挖掘模块,用于将所述行为日志加载到预先调试完成的行为特征挖掘网络,得到所述行为日志中包含的行为事件组整合表征向量;行为分类模块,用于基于所述行为事件组整合表征向量,采用预设的分类器对所述行为事件组分类,得到行为分类结果;网络调试模块,用于对所述行为特征挖掘网络进行调试,在调试过程中,包括以下步骤:获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络;所述第一行为日志样本集合包括多个行为日志样本组,所述行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记;对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量;根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差;根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至所述获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;所述目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量。
根据本申请实施例的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
本申请至少具有以下有益效果:本申请提供的基于机器学习的数据处理方法、装置及存储介质,在行为特征挖掘网络的调试过程中,挖掘行为日志的行为事件组表征向量和行为事件组描述表征向量,整合行为日志样本的行为事件组表征向量和行为事件组描述表征向量得到行为事件组整合表征向量,行为事件组整合表征向量包括不同模态的表征信息,能更加全面和准确地对行为日志中的行为事件组进行指示和表达。并且,对于各类特征信息,不用额外单独生成一个对应的网络,这样就不用得到多个网络,在网络的调校过程中,在一个网络中抽取得到相同行为日志样本对应的行为事件组表征向量、行为事件组描述表征向量、行为事件组整合表征向量,根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记确定行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记确定行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量确定整合误差,根据行为事件组描述识别误差、行为事件组识别误差和整合误差进行协同调试,最后获得在不同特征的表征向量抽取上都表征精准的网络。调试获得的目标行为特征挖掘网络能抽取到行为日志对应的行为事件组整合表征向量,行为事件组整合表征向量能更加全面和准确地对行为日志中的行为事件组进行指示和表达,行为事件组整合表征向量提高行为分类结果的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于机器学习的数据处理方法的流程示意图。
图2是本申请实施例提供的一种行为特征挖掘网络的调试过程的流程示意图。
图3和图4是本申请实施例提供的拟调试行为特征挖掘网络的两种不同的组成结构示意图。
图5是本申请实施例提供的数据处理装置的功能模块架构示意图。
图6是本申请实施例提供的一种电子设备的组成示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
请参照图1,是本申请实施例提供的一种基于机器学习的数据处理方法的流程示意图,包括以下步骤:
步骤S110,获取行为日志,行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,行为日志包括至少一个行为事件组。
本申请实施例中,预设数据采集周期是事先设定的周期,例如一周、一天,通过对目标用户的业务行为进行采集,以生成行为日志,行为日志中包括当前采集周期中目标用户的行为数据,行为数据包含至少一个行为事件组,行为事件组由至少一个行为事件构成,一个行为事件为系统(例如电子设备)按照预设的埋点种类在被触发时拦截的用户行为数据,例如目标用户针对某一界面控件(如点赞、收藏、转发、举报等)的点击操作而产生的行为数据。多个行为事件可以构成一个行为事件组,因为通常而言,对目标用户的行为分类往往需要连续的多个行为才能表现出来,例如在一个时间段中连续的多个行为数据为针对业务领域为A的业务信息(如汽车领域文章)进行操作1两次、操作2三次和操作3一次,操作1为点赞,操作2为转发,操作3为收藏,那么大致分析目标用户的行为分类结果为A-I,表示目标用户对汽车领域关注度较高,当然,以上示例仅作为举例说明,在实际实施时,分类的标准可以不同,例如分类的粒度可以更加细化,例如针对具体的汽车类型、品牌、价位等文章的倾向性。不同的行为数据可以事先进行编码,例如点赞、转发、收藏、评论等行为可以进行对应数值编码,而涉及的具体内容也可以按照分类进行预编码,在采集到对应行为数据时,编码得到行为日志,完成数据的量化。
步骤S120,将行为日志加载到预先调试完成的行为特征挖掘网络,得到行为日志中包含的行为事件组整合表征向量。
在本申请实施例中,对目标用户的行为进行分类的方式是采用机器学习模型进行的,具体采用深度神经网络,如CNN、RNN、LSTM、Transformer等网络进行数据分类识别,得到对应的行为分类结果。在机器学习中,对数据进行特征挖掘是学习的基础,本申请实施例预先调试完成一个行为特征挖掘网络,用以挖掘行为日志中表征行为分类的特征信息,即行为事件组整合表征向量,其是一个用以表征对应行为事件组的行为特征的特征向量。
步骤S130,基于行为事件组整合表征向量,采用预设的分类器对进行行为事件组分类,得到行为分类结果。
在获取到行为事件组整合表征向量后,可以采用预先设置的分类器进行分类,得到行为分类结果,由于行为分类通常是一个多分类任务,可以采用如Softmax、全连接层、SVM等多类分类器执行,分类的原理为现有技术,此处不做赘述。
本申请实施例中,为了提高获取的行为分类结果的准确可靠度,在行为特征地挖掘时,提供新的行为特征挖掘网络,其在调试过程中,请参照图2,具体可以包括以下步骤:
步骤S210,获取第一行为日志样本集合,将第一行为日志样本集合加载到拟调试行为特征挖掘网络。
第一行为日志样本集合包括多个行为日志样本组,行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记。其中,行为日志样本集合包括多个行为日志样本组,行为日志样本组为一个三元组样本,即一个行为日志样本组包括3个用于彼此对应,或者说对照的行为日志样本。行为日志样本组包括积极行为日志二元组样本、积极行为日志二元组样本对应的消极行为日志样本。积极行为日志二元组样本包括一对积极行为日志样本(也即positiveexample,正样本)。积极行为日志二元组样本中的行为日志样本为相似的行为日志。消极行为日志样本为和积极行为日志二元组样本中的行为日志不相近的行为日志。换言之,积极行为日志二元组样本中行为日志样本之间的共性程度大于积极行为日志二元组样本中任一个行为日志和消极行为日志样本之间的共性程度。将行为日志样本组中的积极行为日志二元组样本中的任一行为日志样本确定为参考行为日志,积极行为日志二元组样本中的另一行为日志样本就是参考行为日志对应的正行为日志,行为日志样本组包含的消极行为日志样本就是参考行为日志对应的负行为日志。行为日志样本集合中的各个行为日志样本都包括行为事件组。行为事件组的划分可以是按照数据采集周期中的行为频率划分的,例如预定的统计时间中超过行为事件数量阈值的一个统计时间,所包含的行为事件构成一个行为事件组,或者,可以按照不同的时间节点(如18:00~23:00)中涉及的行为事件构成一个行为事件组,具体的划分标准不做限定,根据实际的分析需求进行设置。
行为日志样本具有相应的行为事件组标记和行为事件组描述标记,行为事件组标记和行为事件组描述标记是用于网络调试时指示正确信息的指示信息,行为事件组标记和行为事件组描述标记是与行为日志样本中的行为事件组相关的指示信息,一个行为事件组具有相应的行为事件组标记和行为事件组描述标记,一个行为事件组对应的行为事件组描述标记可以为一个或多个。行为事件组标记用于指示行为日志中的行为事件组对应的行为分类。行为事件组描述标记用于指示行为日志中的行为事件组相关的维度描述信息,不同的行为事件组描述标记用于标记不同的维度信息。行为事件组相关的维度描述信息为行为日志中与行为事件组相关的行为描述信息,即分析行为分类所参考的行为维度,如点击、点赞、转发、收藏、打赏等行为维度。
行为特征挖掘网络的输入信息为包含行为事件组的行为日志,输出结果为行为日志中的行为事件组对应的特征(即整合表征向量),拟调试行为特征挖掘网络可以是完成参数预配置(即进行初始化)后的行为特征挖掘网络,或者是预训练后的行为特征挖掘网络,第一行为日志样本集合为调校拟调试行为特征挖掘网络的行为日志样本集合。
作为一种实施方式,可以在网络或者第三方设备获取第一行为日志样本集合,将第一行为日志样本集合加载到拟调试行为特征挖掘网络,通过拟调试行为特征挖掘网络挖掘第一行为日志样本集合中的行为日志样本各自对应的特征。
步骤S220,对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量。
行为事件组描述表征向量抽取是抽取行为日志对应的行为事件组描述表征向量,行为事件组描述表征向量用于表征行为日志中的行为事件组相关的维度描述信息的特征。行为事件组表征向量抽取是抽取行为日志对应的行为事件组表征向量。行为事件组表征向量用于表征行为日志中的行为事件组对应的数据整体的特征。行为事件组整合表征向量是将属于相同行为日志的行为事件组描述表征向量和行为事件组表征向量进行整合获得的表征向量,行为事件组整合表征向量包含行为日志中的行为事件组相关的维度描述信息和行为事件组对应的数据整体的特征,能更精准表征行为日志中的行为事件组。
将第一行为日志样本集合加载到拟调试行为特征挖掘网络后,通过拟调试行为特征挖掘网络对行为日志样本进行行为事件组描述表征向量抽取,得到第一行为日志样本集合中各个行为日志样本各自对应的行为事件组描述表征向量,基于拟调试行为特征挖掘网络对行为日志样本进行行为事件组表征向量抽取,得到第一行为日志样本集合中各个行为日志样本各自对应的行为事件组表征向量,基于拟调试行为特征挖掘网络将相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量进行整合,得到各个行为日志样本各自对应的行为事件组整合表征向量。
步骤S230,根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差。
行为事件组描述识别误差是行为事件组描述表征向量表征的特征信息与行为事件组描述标记表征的特征信息之间的误差,或称损失、代价。行为事件组描述识别误差越小,挖掘的行为事件组描述表征向量越精确,行为事件组识别误差是行为事件组表征向量表征的特征信息和行为事件组标记表征的特征信息之间的误差,同理,行为事件组识别误差越小,说明挖掘的行为事件组表征向量越精确。整合误差是行为日志样本组中积极行为日志样本间的行为事件组整合表征向量距离和积极行为日志样本和消极行为日志样本间的行为事件组整合表征向量距离的误差,整合误差越小,积极行为日志样本间的行为事件组整合表征向量越近,积极行为日志样本和消极行为日志样本间的行为事件组整合表征向量越远。可以根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记确定行为事件组描述识别子误差,根据各个行为日志样本各自对应的行为事件组描述识别子误差得到行为事件组描述识别误差。根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记确定行为事件组识别子误差,根据各个行为日志样本各自对应的行为事件组识别子误差得到行为事件组识别误差。根据相同行为日志样本组对应的各个行为事件组整合表征向量确定整合子误差,根据各个行为日志样本组各自对应的整合子误差得到整合误差。
可选地,根据行为日志样本对应的行为事件组描述表征向量得到第一推理指示信息,然后根据相同行为日志样本对应的第一推理指示信息和行为事件组描述标记得到行为事件组描述识别误差。行为事件组描述标记为真实指示信息,是希望网络可以产生的指示信息,第一推理指示信息为推理指示信息,是网络实际得到的指示信息,在网络调试时,网络可以产出和行为事件组描述标记越一致越好的推理指示信息,如果网络能输出和行为事件组描述标记相近或相同的推理指示信息,则视网络已经能抽取到符合要求的行为事件组描述表征向量。基于相同思路,可以根据行为日志样本对应的行为事件组表征向量得到第二推理指示信息,根据相同行为日志样本对应的第二推理指示信息和行为事件组标记得到行为事件组识别误差。
步骤S240,根据行为事件组描述识别误差、行为事件组识别误差和整合误差,优化拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至获取第一行为日志样本集合,将第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量。
其中,目标行为特征挖掘网络为当下调试好的行为特征挖掘网络。调试停止要求是网络收敛的要求,如调试的次数(轮次)达到预设此处、网络的误差值小于预设的误差等。根据行为事件组描述识别误差、行为事件组识别误差和整合误差进行反向传递以优化拟调试行为特征挖掘网络的网络内部配置变量(即网络内部配置的参数),得到过渡行为特征挖掘网络,例如基于通用的梯度优化算法进行优化。将过渡行为特征挖掘网络确定为拟调试行为特征挖掘网络,跳转至获取第一行为日志样本集合,将第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复以进行网络反复调试,直到达到第一调试停止要求,得到目标行为特征挖掘网络。
上述网络调试方式,挖掘行为日志的行为事件组表征向量、行为事件组描述表征向量,整合行为日志样本的行为事件组表征向量和行为事件组描述表征向量得到行为事件组整合表征向量,行为事件组整合表征向量包括不同模态的表征信息,能更加全面和准确地对行为日志中的行为事件组进行指示和表达。此外,对于各类特征信息,不用额外单独生成一个对应的网络,这样就不用得到多个网络,在网络的调校过程中,在一个网络中抽取得到相同行为日志样本对应的行为事件组表征向量、行为事件组描述表征向量、行为事件组整合表征向量,根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记确定行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记确定行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量确定整合误差,根据行为事件组描述识别误差、行为事件组识别误差和整合误差进行协同调试,最后获得在不同特征的表征向量抽取上都表征精准的网络。调试获得的目标行为特征挖掘网络能抽取到行为日志对应的、准确可靠的行为事件组整合表征向量,行为事件组整合表征向量能更加全面和准确地对行为日志中的行为事件组进行指示和表达,行为事件组整合表征向量提高行为分类结果的精确性。
可选地,上述内容中,获取第一行为日志样本集合,具体可以包括:获取多个行为事件组线索样本各自对应的目标行为事件组子集集合;行为事件组线索样本是在包含行为事件组的行为日志数据库样本中获取的,目标行为事件组子集集合中的行为事件组子集是对行为事件组线索样本所属行为日志数据库样本中对应的行为日志进行行为事件组识别得到的;分别对各个目标行为事件组子集集合进行抽样,得到多个积极行为日志二元组样本;在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中,获取当下积极行为日志二元组样本所对应的消极行为日志样本;获取积极行为日志二元组样本中行为日志样本内的行为事件组所对应的行为事件组标记和行为事件组描述标记,根据积极行为日志二元组样本和对应的消极行为日志样本构建行为日志样本组;根据各个行为日志样本组得到第一行为日志样本集合。
行为日志数据库样本是针对目标用户进行周期性行为数据采集构建的数据库,数据库中包含多个目标用户的行为日志样本。行为事件组线索是行为日志数据库中的行为事件组(即当下需要分析的行为事件组,例如A)对应的存在线索(即在不同的行为日志样本中存在的痕迹,或者说存在的记录),那么,一个行为日志数据库中可以包括一个或多个行为事件组,相同行为事件组(即对应类似的行为数据构成的行为事件组)对应一个或多个行为事件组线索。
行为事件组线索具有相应的目标行为事件组子集集合,该集合可以是一个序列型集合,即各个行为事件组子集是按照顺序排布的,例如时序。目标行为事件组子集集合包括相同的行为事件组对应的多个行为事件组子集,行为事件组子集表征行为事件组在行为日志数据库的行为日志中的存在位置或者说分布位置,相同的目标行为事件组子集集合中的不同行为事件组子集对应相同行为日志数据库中的不同行为日志,行为事件组子集为对行为日志数据库中的行为日志进行行为事件组识别得到的,行为事件组识别的过程是检测行为日志中是否有行为事件组的过程,以及确定行为事件组在行为日志中的位置。在目标行为事件组子集集合中,行为事件组子集的顺序例如是依据行为事件组子集所属行为日志的行为日志先后次序来排布。行为事件组线索样本是在包含行为事件组的行为日志数据库样本中获取的行为事件组线索。对于行为事件组线索样本对应的目标行为事件组子集集合,目标行为事件组子集集合中的各行为事件组子集是在行为事件组线索样本所属行为日志数据库样本中,对涵盖相同行为事件组的多个行为日志分别进行行为事件组识别得到的。当下积极行为日志二元组样本为当下处理的积极行为日志二元组样本,当下积极行为日志二元组样本可以为抽样获得的多个积极行为日志二元组样本中的任一积极行为日志二元组样本。
在构建行为日志样本集合时,先获取积极行为日志二元组样本,然后获取积极行为日志二元组样本对应的消极行为日志样本,将积极行为日志二元组样本和对应的消极行为日志样本构建行为日志样本组,将多个行为日志样本组构建行为日志样本集合。在获取积极行为日志二元组样本时,获取多个行为事件组线索样本各自对应的目标行为事件组子集集合,得到多个目标行为事件组子集集合,分别对各个目标行为事件组子集集合进行抽样,得到多个积极行为日志二元组样本。比如在目标行为事件组子集集合中获取邻接的行为事件组子集作为积极行为日志二元组样本,在一个目标行为事件组子集集合中可以抽样得到一个或多个积极行为日志二元组样本,对各个目标行为事件组子集集合均进行抽样,可获得多个积极行为日志二元组样本。在获取积极行为日志二元组样本对应的消极行为日志样本时,将抽样获得的多个积极行为日志二元组样本中任一积极行为日志二元组样本作为当下积极行为日志二元组样本,在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中,获取一个或多个积极行为日志样本作为当下积极行为日志二元组样本对应的消极行为日志样本。行为日志样本内的行为事件组所对应的行为事件组标记和行为事件组描述标记可以是根据行为日志样本的行为日志进行标记获得,一个积极行为日志二元组样本对应一行为日志样本组。
以上实施方式在行为事件组线索样本中抽样得到积极行为日志二元组样本,可以确保积极行为日志二元组样本是由相似的行为日志构建得到,在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中,获取当下积极行为日志二元组样本对应的消极行为日志样本,可以高效确定积极行为日志二元组样本对应的消极行为日志样本。
可选地,获取多个行为事件组线索样本各自对应的目标行为事件组子集集合,具体可以包括:获取多个行为日志数据库样本集合;相同行为日志数据库样本集合中的行为日志属于相同行为日志数据库样本;对行为日志数据库样本集合中的行为日志进行行为事件组识别,得到行为日志中的行为事件组子集,将行为事件组子集加载到拟调试行为特征挖掘网络,得到行为事件组子集对应的行为事件组整合表征向量;根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果;根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合。
行为日志集合是不同的行为日志的集合,例如是一个序列型结合,即其中的各个行为日志按照一定的顺序,例如先后顺序进行排布。行为日志集合包括相同的行为日志数据库对应的多个行为日志。行为日志数据库样本集合是行为日志数据库样本对应的行为日志集合。行为事件组共性计算用于确定相同行为事件组在一组邻接的行为日志中各自对应的行为事件组子集,一组邻接的行为日志对应的行为事件组共性度量结果包括第一个行为日志中的各个共性程度高,即匹配程度大的行为事件组子集和各自在靠后行为日志中对应的相似行为事件组子集,靠后行为日志是一组邻接的行为日志数据库中的第二个行为日志,相似行为事件组子集是在靠后行为日志中确定的共性程度满足要求(例如大于共性阈值)的行为事件组子集。
行为线索整理用于在相同的行为日志数据库样本集合的各个邻接的行为日志的行为事件组共性度量结果中,确定属于相同行为事件组的各个行为事件组子集,也即将属于相同行为事件组的各个线索整合以生成行为事件组线索。目标行为事件组子集集合可以采取人力进行标记,或者,目标行为事件组子集集合通过自动在行为日志数据库中挖掘获得。在获取行为事件组线索对应的目标行为事件组子集集合时,对行为日志数据库对应的行为日志集合中的行为日志进行行为事件组识别得到行为事件组子集,通过行为特征挖掘网络挖掘行为事件组子集对应的行为事件组整合表征向量,将根据行为事件组整合表征向量在邻接的行为日志中确定的彼此匹配的行为事件组子集确定为属于相同行为事件组的行为事件组子集,将行为日志集合的各个邻接的行为日志中属于相同行为事件组的各个行为事件组子集进行组合得到目标行为事件组子集集合。
在获取多个行为事件组线索样本各自对应的目标行为事件组子集集合时,先获取多个行为日志数据库样本集合,再对行为日志数据库样本集合中的行为日志进行行为事件组识别,得到行为日志中的行为事件组子集。在进行行为事件组识别时,将行为日志数据库样本集合中的行为日志加载到初始行为事件组识别网络,初始行为事件组识别网络输出行为日志中的行为事件组推理窗口,将行为事件组推理窗口所框选的行为日志数据范围确定为行为事件组子集。在获取到行为事件组子集后,将行为事件组子集加载到拟调试行为特征挖掘网络,得到行为事件组子集对应的行为事件组整合表征向量。为了得到行为事件组线索,需确定行为事件组的各个线索锚点,那么,根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,确定在一组邻接的行为日志中彼此对应(即彼此匹配)的行为事件组子集,得到各个邻接的行为日志各自对应的行为事件组共性度量结果(即相似性度量结果)。在邻接的行为日志中彼此对应的行为事件组子集可以视作是相同行为事件组在邻接的行为日志中的体现,用于确定相同行为事件组邻接的的两个线索锚点。根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理构建行为事件组线索样本对应的目标行为事件组子集集合,在相同行为日志数据库样本集合的各个邻接的行为日志各自对应的行为事件组共性度量结果中,确定出属于相同行为事件组的各个行为事件组共性度量结果,根据属于相同行为事件组的各个行为事件组共性度量结果得到行为事件组线索样本对应的目标行为事件组子集集合。
目标行为事件组子集集合用于构建行为事件组线索,可将目标行为事件组子集集合中的目标行为事件组子集作为线索锚点,根据各个线索锚点得到行为事件组线索。网络调试时,每次重复即获得新的拟调试行为特征挖掘网络,每一次获取到新的拟调试行为特征挖掘网络,即根据新的拟调试行为特征挖掘网络构建新的行为日志样本集合。可选地,行为日志数据库样本集合可以是对行为日志数据库样本进行抽样得到,譬如随机抽样或均匀抽样。
可选地,将行为日志数据库样本集合中的行为日志加载到行为事件组识别模型,行为事件组识别模型输出行为事件组推理窗口和行为事件组推理窗口对应的推理置信度(即行为事件组推理窗口中存在行为事件组的置信度)。将推理置信度大于预设置信度的行为事件组推理窗口所框选的行为日志数据范围确定为行为事件组子集。
以上实施方式通过行为事件组识别、机器学习网络处理、行为事件组共性确定和行为线索整理可以自动地在行为日志数据库对应的行为日志集合中挖掘行为事件组线索和行为事件组线索对应的目标行为事件组子集集合,实现降本增效。
可选地,根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果,具体可以包括:在当下行为日志集合中确定目标行为日志;将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集;根据目标行为事件组子集对应的行为事件组整合表征向量分别和目标靠后行为日志中的各个行为事件组子集对应的行为事件组整合表征向量之间的空间相似性,从目标靠后行为日志对应的各个行为事件组子集中确定目标行为事件组子集对应的备选行为事件组子集,将与目标行为事件组子集的空间相似性大于预设值的备选行为事件组子集确定为目标行为事件组子集对应的靠后相似行为事件组子集;目标靠后行为日志为目标行为日志的邻接的靠后行为日志;根据各个目标行为事件组子集和对应的靠后相似行为事件组子集得到目标行为日志和目标靠后行为日志之间的行为事件组共性度量结果;在当下行为日志集合中获取后一行为日志确定为目标行为日志,跳转至将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集的步骤进行重复,直到获得当下行为日志集合中各个邻接的行为日志各自对应的行为事件组共性度量结果。其中,当下行为日志集合为当下处理的行为日志数据库样本集合,当下行为日志集合可以是多个行为日志数据库样本集合中的任一行为日志集合。目标靠后行为日志为目标行为日志的邻接的靠后行为日志,目标行为日志的邻接的靠后行为日志为位于目标行为日志之后,同时和目标行为日志邻接的的行为日志。举例而言,当下行为日志集合为一个序列,包含行为日志1-行为日志2-行为日志3,如果目标行为日志为行为日志1,那么目标靠后行为日志为行为日志2;如果目标行为日志为行为日志2,那么目标靠后行为日志为行为日志3。
目标行为事件组子集对应的备选行为事件组子集为在目标靠后行为日志中,与目标行为事件组子集的空间相似性最大的行为事件组子集,空间相似性为二者的向量距离,向量距离越大,空间相似性越小,反之空间相似性越大。目标行为事件组子集对应的备选行为事件组子集可视作在目标靠后行为日志中与目标行为事件组子集最类似的行为事件组子集,目标行为事件组子集对应的靠后相似行为事件组子集为在目标靠后行为日志中和目标行为事件组子集匹配的行为事件组子集。目标行为事件组子集对应的靠后相似行为事件组子集可视作在目标靠后行为日志中与目标行为事件组子集相似,同时属于相同行为事件组的行为事件组子集。
通过获取不同行为事件组整合表征向量之间的距离,将其确定为不同行为事件组整合表征向量之间的空间相似性,譬如将不同行为事件组整合表征向量之间的欧几里得距离确定为空间相似性。在进行行为事件组共性计算时,对于一组邻接的行为日志,从靠后行为日志中确定和第一个行为日志中的某行为事件组子集对应(即匹配)的行为事件组子集,根据第一个行为日志中全部行为事件组子集的确定结果,获得一组邻接的行为日志对应的行为事件组共性度量结果,相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组匹配过程一致,可以得到相同行为日志数据库样本集合中各个邻接的行为日志各自对应的行为事件组共性度量结果。在进行行为事件组共性计算时,在各行为日志数据库样本集合中获取任一行为日志数据库样本集合作为当下行为日志集合,在当下行为日志集合中获取第一个行为日志作为目标行为日志,将目标行为日志对应的各行为事件组子集逐一确定为目标行为事件组子集,在目标靠后行为日志中逐一确定各目标行为事件组子集各自对应的靠后相似行为事件组子集,根据具有靠后相似行为事件组子集的各目标行为事件组子集和对应的靠后相似行为事件组子集得到目标行为日志和目标靠后行为日志之间的行为事件组共性度量结果。在当下行为日志集合中获取下一行为日志为新的目标行为日志,获得新的目标行为日志和目标靠后行为日志之间的行为事件组共性度量结果。基于此,获得当下行为日志集合中各个邻接的行为日志各自对应的行为事件组共性度量结果。
在确定目标行为事件组子集对应的靠后相似行为事件组子集时,获取目标行为事件组子集对应的行为事件组整合表征向量分别和目标靠后行为日志中的各行为事件组子集对应的行为事件组整合表征向量之间的空间相似性,根据空间相似性在目标靠后行为日志对应的各行为事件组子集中确定目标行为事件组子集对应的备选行为事件组子集。例如,在各个空间相似性中获取最大的空间相似性在目标靠后行为日志中对应的行为事件组子集,将其确定为目标行为事件组子集对应的备选行为事件组子集。由于相似行为事件组子集可能不属于相同行为事件组,那么,还可以根据行为事件组子集之间的空间相似性分析备选行为事件组子集是否和目标行为事件组子集属于相同行为事件组。确定目标行为事件组子集和对应的备选行为事件组子集之间的空间相似性,将与目标行为事件组子集的空间相似性大于预设值的备选行为事件组子集确定为目标行为事件组子集对应的靠后相似行为事件组子集。
以上实施方式在进行行为事件组共性计算时,根据空间相似性从目标靠后行为日志对应的各个行为事件组子集中确定目标行为事件组子集对应的备选行为事件组子集,再根据空间相似性从备选行为事件组子集中确定目标行为事件组子集对应的靠后相似行为事件组子集,可以增加目标行为事件组子集和对应的靠后相似行为事件组子集属于相同行为事件组的精确度。如此确保获取的各个邻接的行为日志对应的行为事件组共性度量结果的精确度。可选地,行为事件组共性度量结果包括由目标行为事件组子集和对应的靠后相似行为事件组子集构建的行为事件组子集对和行为事件组子集对对应的线索指示信息,具有相同行为事件组子集的不同行为事件组子集对所对应的线索指示信息相同。
根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合,具体可以包括:在当下行为日志集合的各个邻接的行为日志对应的行为事件组共性度量结果中,获取当下线索指示信息对应的行为事件组子集对构建当下线索指示信息对应的当下行为事件组子集对集合;将当下行为事件组子集对集合中的各个行为事件组子集依据对应行为日志的行为日志先后次序进行排列,得到当下线索指示信息对应的当下初步行为事件组子集集合;对当下初步行为事件组子集集合对应的各个行为事件组整合表征向量进行归集,得到当下行为事件组代表表征向量;根据当下初步行为事件组子集集合对应的各个行为事件组整合表征向量分别和当下行为事件组代表表征向量之间的空间相似性,在当下初步行为事件组子集集合中,依据空间相似性的降序清洗掉M个的行为事件组子集,得到当下线索指示信息对应的目标行为事件组子集集合,其中,M≥1。线索指示信息用于对线索进行标记,属于相同行为事件组线索的各个行为事件组子集对对应一致的线索指示信息,具有相同行为事件组子集的不同行为事件组子集对对应相同的线索指示信息。举例而言,行为日志1中的行为事件组子集11和行为日志2中的行为事件组子集22构建一个行为事件组子集对,行为日志2中的行为事件组子集22和行为日志3中的行为事件组子集33构建一个行为事件组子集对,由于两个行为事件组子集对都包括行为日志2中的行为事件组子集22,该两个行为事件组子集对为具有相同行为事件组子集的不同行为事件组子集对,两个行为事件组子集对对应相同的线索指示信息,行为事件组子集11、行为事件组子集22、行为事件组子集33体现了相同行为事件组在三个行为日志中的信息,可以认为是相同行为事件组在三个行为日志中各自对应的线索锚点。当下线索指示信息为当下处理的线索指示信息,是当下行为日志集合对应的各个行为事件组共性度量结果中任一线索指示信息。
行为线索整理过程中,根据相同行为日志集合的各个邻接的行为日志对应的行为事件组共性度量结果中各个行为事件组子集对各自对应的线索指示信息,将相同线索指示信息对应的各个行为事件组子集对整合以获得线索指示信息对应的初始行为事件组子集集合,将初始行为事件组子集集合确定为目标行为事件组子集集合,或者再对初始行为事件组子集集合进行删减以获得目标行为事件组子集集合。在对当下行为日志集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理时,在当下行为日志集合的各个邻接的行为日志对应的行为事件组共性度量结果中,获取当下线索指示信息对应的各个行为事件组子集对,将当下线索指示信息对应的各个行为事件组子集对构建当下线索指示信息对应的当下行为事件组子集对集合,将当下行为事件组子集对集合中的各个行为事件组子集依据对应行为日志的行为日志先后次序进行排序,得到当下线索指示信息对应的当下初步行为事件组子集集合,换言之,当下初步行为事件组子集集合为一个序列型集合。接着,对当下初步行为事件组子集集合对应的各个行为事件组整合表征向量进行归集,得到当下行为事件组代表表征向量,归集的方式可以采用通用可行的统计算法进行,比如计算当下初步行为事件组子集集合对应的各行为事件组整合表征向量的平均值,将平均值确定为当下行为事件组代表表征向量,之后,以当下行为事件组代表表征向量为参考,计算当下初步行为事件组子集集合对应的各个行为事件组整合表征向量分别和当下行为事件组代表表征向量之间的空间相似性。一行为事件组子集对应的空间相似性越大,该行为事件组子集和集合中的其余行为事件组子集体现的行为日志内容相似,视为该行为事件组子集和集合中的其余行为事件组子集属于相同行为事件组。为防止当下初步行为事件组子集集合中具有其他行为事件组对应的行为事件组子集,在当下初步行为事件组子集集合中,依据空间相似性的降序清洗掉M个的行为事件组子集,将清洗掉后的当下初步行为事件组子集集合作为当下线索指示信息对应的目标行为事件组子集集合。各线索指示信息对应的行为线索整理方式是一样的,最后获得多个线索指示信息各自对应的目标行为事件组子集集合。
以上实施方式在进行行为线索整理时,根据线索指示信息从行为事件组共性度量结果中高效获取行为事件组对应的初始行为事件组子集集合,根据行为事件组代表表征向量对初始行为事件组子集集合进行删减得到目标行为事件组子集集合,减小目标行为事件组子集集合中出现不同行为事件组对应的目标行为事件组子集的可能性,增加目标行为事件组子集集合的精确度。
可选地,空间相似性的预设值可以动态调整,其通过在每完成N组邻接的行为日志的行为事件组相似性确定后,对新的目标行为事件组子集和对应的靠后相似行为事件组子集之间的空间相似性进行归集得到。例如,每完成N组邻接的行为日志的行为事件组相似性确定后,对因行为事件组相似性确定而新产生的目标行为事件组子集和对应的靠后相似行为事件组子集之间的空间相似性进行归集,根据归集结果得到新的预设值。在后续的N组邻接的行为日志的行为事件组相似性确定中,根据新的预设值确定靠后相似行为事件组子集。
可选地,在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中,获取当下积极行为日志二元组样本所对应的消极行为日志样本,具体可以包括:在当下积极行为日志二元组样本中获取行为日志样本作为目标积极行为日志样本,在各个其余积极行为日志二元组样本中获取行为日志样本作为备选行为日志;根据目标积极行为日志样本分别和各个备选行为日志之间的行为日志距离,对各个备选行为日志依据行为日志距离按照递增进行排列,得到备选行为日志集合;从备选行为日志集合中依据行为日志距离按照递增顺序清洗掉P个备选行为日志,得到更新行为日志集合,在更新行为日志集合中依据行为日志距离按照递增顺序获取Q个备选行为日志分别作为当下积极行为日志二元组样本对应的消极行为日志样本。其中,行为日志距离可以体现不同行为日志之间的误差,可以根据两个行为日志各自对应的行为事件组整合表征向量之间的空间相似性作为两个行为日志之间的行为日志距离,P和Q为正整数。
本申请实施例在当下积极行为日志二元组样本中获取任一行为日志样本作为目标积极行为日志样本,分别在各个其他积极行为日志二元组样本中获取积极行为日志二元组样本中的任一行为日志样本作为备选行为日志,计算目标积极行为日志样本分别和各个备选行为日志之间的行为日志距离,对各备选行为日志依据行为日志距离按照递增进行排列,得到备选行为日志集合,从备选行为日志集合中依据行为日志距离按照递增顺序清洗掉P个备选行为日志,得到更新行为日志集合。行为日志距离越小,代表目标积极行为日志样本和备选行为日志越相近,和目标积极行为日志样本过于相近的备选行为日志无法作为目标积极行为日志二元组样本应的消极行为日志样本。基于此,为了确保行为日志样本集合中具有包含难消极样本(hard negative example)的行为日志样本组,在更新行为日志集合中依据行为日志距离按递增顺序获取Q个的备选行为日志分别作为当下积极行为日志二元组样本对应的消极行为日志样本,得到当下积极行为日志二元组样本对应的各个消极行为日志样本。在各个消极行为日志样本中,行为日志距离更小的消极行为日志样本为hard negative example,可以提高网络调试效果。生成行为日志样本组时,根据当下积极行为日志二元组样本和对应的一个消极行为日志样本得到一个行为日志样本组,若当下积极行为日志二元组样本具有多个消极行为日志样本,则获得多个行为日志样本组。
以上实施方式从备选行为日志集合中依据行为日志距离按递增顺序清洗掉P个的备选行为日志,得到更新行为日志集合,在更新行为日志集合中依据行为日志距离按递增顺序获取Q个的备选行为日志作为当下积极行为日志二元组样本所对应的消极行为日志样本,可以保证消极行为日志样本为hard negative example,以提升网络调试效果。
可选地,在当下表征向量为行为事件组描述表征向量时,当下指示信息为行为事件组描述标记,当下识别误差为行为事件组描述识别误差;在当下表征向量为行为事件组表征向量时,当下指示信息为行为事件组标记,当下识别误差为行为事件组识别误差。
当下识别误差的获取方式,具体可以包括:获取不同当下指示信息各自对应的示例行为事件组表征向量集;示例行为事件组表征向量集包括相同的当下指示信息对应的多个示例行为事件组表征向量,示例行为事件组表征向量是在当下表征向量库中,在当下指示信息对应的各个当下表征向量中获取和当下指示信息对应的质心空间相似性最大的当下表征向量得到的,质心是对当下表征向量库中相同的当下指示信息对应的各个当下表征向量进行分桶得到的;从各个示例行为事件组表征向量集中,获取和当下行为日志样本对应的当下表征向量的空间相似性最大的示例行为事件组表征向量作为当下行为日志样本对应的对照行为事件组表征向量;根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差。其中,示例行为事件组表征向量集包括相同的当下指示信息对应的多个示例行为事件组表征向量。比如,如果当下表征向量为行为事件组表征向量,当下指示信息为行为事件组标记,行为事件组标记包括事件组1、事件组2和事件组3,事件组1具有相应的示例行为事件组表征向量集1,事件组2具有相应的示例行为事件组表征向量集2,事件组3具有相应的示例行为事件组表征向量集3。当下表征向量库为当下表征向量对应的特征集合,当下表征向量库包括多个当下表征向量。在当下表征向量为行为事件组表征向量时,当下表征向量库为行为事件组表征向量库;在当下表征向量为行为事件组描述表征向量时,当下表征向量库为行为事件组描述表征向量库。对当下表征向量库中相同的当下指示信息对应的各个当下表征向量进行分桶,也就是聚类,具体可以采用通用的聚类算法实现,获得不同当下指示信息各自对应的多个质心,质心是分桶时的参考中心。当下指示信息对应的当下表征向量为属于当下指示信息的行为日志样本对应的当下表征向量。在当下表征向量库中,在一种当下指示信息对应的各当下表征向量中分别获取和当下指示信息对应的各个质心空间相似性最大的当下表征向量,得到当下指示信息的各质心各自对应的最近当下表征向量,将各最近当下表征向量分别作为该当下指示信息对应的示例行为事件组表征向量,得到当下指示信息对应的各示例行为事件组表征向量。相较当下指示信息对应的各个当下表征向量,示例行为事件组表征向量的更有参考性,能优异地体现属于相同类型指示信息的各个行为日志样本对应的当下表征向量的相似性,一种当下指示信息对应的各示例行为事件组表征向量构建一个示例行为事件组表征向量集。
行为事件组描述识别误差和行为事件组识别误差可以根据示例行为事件组表征向量的误差计算方法,获取不同当下指示信息各自对应的示例行为事件组表征向量集,在各个示例行为事件组表征向量集中分别获取各行为日志样本各自对应的对照行为事件组表征向量,根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差计算当下识别子误差,根据各个行为日志样本各自对应的当下识别子误差得到当下识别误差。在获取行为日志样本对应的对照行为事件组表征向量时,获取任意行为日志样本确定为当下行为日志样本,确定示例行为事件组表征向量集中各示例行为事件组表征向量分别和当下行为日志样本对应的当下表征向量之间的空间相似性,在各示例行为事件组表征向量集中获取最大空间相似性对应的示例行为事件组表征向量,将其确定为当下行为日志样本对应的对照行为事件组表征向量。
以上实施方式根据示例行为事件组表征向量的误差获取方式确定行为事件组描述识别误差或行为事件组识别误差,在优化网络内部配置变量时,可以防止过拟合,以加强网络能力。
可选地,在确定示例行为事件组表征向量集的时,可以包括以下过程:每调试R个批,即batch,根据当下表征向量库确定不同当下指示信息各自对应的示例行为事件组表征向量集;在靠后网络迭代时,每调试S个批,根据当下表征向量库确定不同当下指示信息各自对应的示例行为事件组表征向量集;其中,S>R;每调试一个批,将获得的各个当下表征向量保存到当下表征向量库,每确定一次示例行为事件组表征向量集,则删除当下表征向量库。以上实施方式在网络迭代时,每调试R个批,根据当下表征向量库确定不同当下指示信息各自对应的示例行为事件组表征向量集,每调试大于R的S个批,根据当下表征向量库确定不同当下指示信息各自对应的示例行为事件组表征向量集,可以确保网络的调试结果优异,同时调试效率高。
作为一个实施例,拟调试行为特征挖掘网络包括行为事件组识别模块,行为事件组识别模块用于挖掘行为事件组表征向量,行为事件组识别模块包括降维单元、分类映射单元和相似性确定单元,分类映射单元用于输出行为事件组表征向量,相似性确定单元用于确定对照行为事件组表征向量。在获取行为事件组识别误差时,获取不同行为事件组标记各自对应的示例行为事件组表征向量集,在各个示例行为事件组表征向量集中,根据行为日志样本对应的行为事件组表征向量获取行为日志样本对应的对照行为事件组表征向量,根据相同行为日志样本对应的行为事件组表征向量和对照行为事件组表征向量确定行为事件组识别误差。
示例行为事件组表征向量集在迭代时不用在每一批迭代网络内部配置变量时都迭代示例行为事件组表征向量集,在每一批存储行为事件组表征向量到行为事件组表征向量库,基于预设的评估标准控制根据行为事件组表征向量库确定示例行为事件组表征向量集的时间点。在符合评估标准时,通过行为事件组表征向量库迭代示例行为事件组表征向量集,迭代后删除行为事件组表征向量库,以让迭代后的网络再次挖掘新的行为事件组表征向量,保存到行为事件组表征向量库。
可选地,当下表征向量和对照行为事件组表征向量的元素数量为设定数量,即表征向量的维数为预定的维数。根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差,具体可以包括:获取元素数量为设定数量的任意表征向量,将任意表征向量中数值不小于设定值的元素对应的位置确定为维持位;根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量在相同维持位上的数值误差,得到当下识别误差。
其中,当下表征向量和对照行为事件组表征向量的元素数量为设定数量。在根据当下表征向量和对照行为事件组表征向量计算当下识别误差时,可以直接根据当下表征向量和对照行为事件组表征向量计算当下识别误差,或者随机删除当下表征向量和对照行为事件组表征向量中的一些元素,根据当下表征向量和对照行为事件组表征向量中剩下的元素计算当下识别误差,以防止过拟合现象。本申请通过随机生成设定数量维元素的任意表征向量,将任意表征向量中数值小于设定值的元素对应的位置设置为删除位,将任意表征向量中数值不小于设定值的元素对应的位置确定为维持位。根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量在相同维持位上的数值误差得到当下识别子误差,根据各个行为日志样本各自对应的当下识别子误差得到当下识别误差,可以每调试一个批时,生成一个新的任意表征向量。
以上实施方式行为事件组描述识别误差或行为事件组识别误差是根据示例行为事件组表征向量的随机删除误差,在优化网络内部配置变量时,可以防止过拟合,以加强网络能力。可选地,在当下表征向量为行为事件组描述表征向量时,当下指示信息为行为事件组描述标记,当下识别误差为行为事件组描述识别误差;在当下表征向量为行为事件组表征向量时,当下指示信息为行为事件组标记,当下识别误差为行为事件组识别误差。
当下识别误差的获取方式可以包括如下步骤:根据行为日志样本对应的当下表征向量得到行为日志样本对应的推理置信度;根据相同行为日志样本对应的推理置信度和当下指示信息,得到当下识别误差。
其中,推理置信度为网络推理得到的行为日志样本分别属于不同当下指示信息的置信度。行为事件组描述识别误差和行为事件组识别误差可以采取根据推理置信度的误差获取方式。根据行为日志样本对应的当下表征向量得到行为日志样本对应的推理置信度,根据相同行为日志样本对应的推理置信度和当下指示信息之间的误差得到当下识别子误差,根据各个行为日志样本各自对应的当下识别子误差得到当下识别误差。可选地,可计算交叉熵的方式得到当下识别误差。以上实施方式根据推理置信度的误差获取方式计算行为事件组描述识别误差或行为事件组识别误差,可以高效确定行为事件组描述识别误差或行为事件组识别误差。
举例而言,以行为事件组识别误差为例,根据示例行为事件组表征向量的误差获取方式中,网络对行为日志样本进行行为事件组表征向量抽取,得到行为日志样本对应的行为事件组表征向量,行为事件组表征向量为1×N的特征向量,若直接基于交叉熵计算误差,可能导致行为事件组表征向量从高维迅速降维引起误差过大,在逆向传递优化网络内部配置变量时,导致网络过拟合,为了克服此问题,可以将识别误差变成回归误差,也就是基于均方误差对行为事件组表征向量与示例行为事件组表征向量以欧几里得距离方式进行相似性评估。具体地,可以包括如下两种相似性评估方法:
一、根据相似性的误差:对每个行为日志样本,网络输出行为日志样本对应的行为事件组表征向量,计算行为事件组表征向量与全部的分类示例(也就是全部的示例行为事件组表征向量)的欧几里得距离,择取欧几里得距离最近的示例(设置为对照示例,即对照行为事件组表征向量)的分类为推理结果。举例而言,一行为日志样本的行为事件组表征向量与事件组1的一个示例行为事件组表征向量的欧几里得距离最近,则网络视该行为日志样本对应事件组1,若该行为日志样本的行为事件组标记也是事件组1,代表该行为日志样本识别正确,如果该行为日志样本的行为事件组标记并非事件组1,代表网络推理错误。
二、根据随机删除的误差:在获取回归误差时,在一个批调试的过程中,基于高斯分布得到的N个0~1的随机结果,选择小于预设值的任意位置作为删除位,其他为维持位,接着对行为事件组识别时仅留下维持位的误差。
可选地,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差,包括:根据相同行为日志样本组中积极行为日志二元组样本对应的各个行为事件组整合表征向量之间的误差,得到第一误差;从积极行为日志二元组样本中确定参考积极行为日志样本,根据相同行为日志样本组中参考积极行为日志样本和消极行为日志样本所对应的行为事件组整合表征向量之间的误差,得到第二误差;根据相同行为日志样本组对应的第一误差和第二误差的距离和设定的距离,得到整合误差。例如,在获取整合误差时,根据相同行为日志样本组中积极行为日志二元组样本所对应的行为事件组整合表征向量之间的误差,得到第一误差,根据相同行为日志样本组中任意积极行为日志二元组样本和消极行为日志样本对应的行为事件组整合表征向量之间的误差,得到第二误差,根据相同行为日志样本组对应的第一误差和第二误差得到整合误差。在获取第二误差时,在积极行为日志二元组样本中获取任一积极行为日志样本作为参考积极行为日志样本,根据相同行为日志样本组中参考积极行为日志样本和消极行为日志样本对应的行为事件组整合表征向量之间的误差,得到第一误差。在根据相同行为日志样本组对应的第一误差和第二误差得到整合误差时,根据相同行为日志样本组对应的第一误差和第二误差的距离和设定的距离得到整合误差。譬如整合第一误差和第二误差的距离与设定的距离,得到整合距离,在整合距离和事先设定的值中选择最大的值,将其确定为整合误差。以上实施方式根据相同行为日志样本组对应的第一误差和第二误差的距离和设定的距离确定整合误差,根据如此的整合误差优化网络内部配置变量可以强化网络特征鉴别能力,令积极行为日志样本和消极行为日志样本各自对应的行为事件组整合表征向量具有更大的区别。
可选地,拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块,行为事件组描述识别模块用于得到行为事件组描述表征向量,行为事件组识别模块用于得到行为事件组表征向量,表征向量整合模块用于得到行为事件组整合表征向量。
根据行为事件组描述识别误差、行为事件组识别误差和整合误差,优化拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,可以包括:根据行为事件组描述识别误差依据第一调谐参数优化行为事件组描述识别模块的内部配置变量,根据行为事件组识别误差依据第二调谐参数优化行为事件组识别模块的内部配置变量,根据整合误差依据第三调谐参数优化行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块的内部配置变量,得到过渡行为特征挖掘网络,第一调谐参数和第二调谐参数都大于第三调谐参数,谐参数可以为网络的学习率参数。
拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块。通过行为事件组描述识别模块对行为日志进行行为事件组描述表征向量抽取得到行为日志对应的行为事件组描述表征向量,通过行为事件组识别模块对行为日志进行行为事件组表征向量抽取得到行为日志对应的行为事件组表征向量,通过表征向量整合模块对相同行为日志对应的行为事件组描述表征向量和行为事件组表征向量进行整合得到行为日志对应的行为事件组整合表征向量。在根据行为事件组描述识别误差、行为事件组识别误差和整合误差优化拟调试行为特征挖掘网络的网络内部配置变量时,根据行为事件组描述识别误差优化行为事件组描述识别模块的内部配置变量,根据行为事件组识别误差优化行为事件组识别模块的内部配置变量,根据整合误差优化行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块的内部配置变量,完成针对性优化。在优化内部配置变量时,根据行为事件组描述识别误差依据第一调谐参数优化行为事件组描述识别模块的内部配置变量,根据行为事件组识别误差依据第二调谐参数优化行为事件组识别模块的内部配置变量,根据整合误差依据第三调谐参数优化行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块的内部配置变量。由于用以获取整合误差的行为事件组整合表征向量是根据行为事件组描述识别模块和行为事件组识别模块输出的行为事件组描述表征向量和行为事件组表征向量得到,则可以将网络的训练侧重于行为事件组描述识别模块和行为事件组识别模块,则可以令第一调谐参数大于第三调谐参数,第二调谐参数大于第三调谐参数,确保网络对行为事件组描述识别模块和行为事件组识别模块的拟合。
以上实施方式在网络的调试过程中,依据第一调谐参数优化行为事件组描述识别模块和行为事件组识别模块的内部配置变量,依据第二调谐参数优化行为事件组识别模块的内部配置变量,根据整合误差依据小于第一调谐参数、第二调谐参数的第三调谐参数优化行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块的内部配置变量,可以让不同的模块的调试效率接近,从而提高最后的网络调试效果。
可选地,请参照图3,拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块。拟调试行为特征挖掘网络的输入信息为行为日志。行为事件组描述识别模块包括卷积单元、第一降维单元、第一分类映射单元(是一个全连接网络)和第二分类映射单元,第一分类映射单元用于输出行为事件组描述表征向量,即嵌入向量,第二分类映射单元用于输出推理置信度。行为事件组描述识别模块和行为事件组识别模块主干卷积单元,行为事件组识别模块包括卷积单元、第二降维单元、第三分类映射单元和行为事件组相似性确定单元,第三分类映射单元用于输出行为事件组表征向量。将相同行为日志对应的行为事件组描述表征向量和行为事件组表征向量融合后(例如相加或拼接)加载到表征向量整合模块。表征向量整合模块包括第四分类映射单元和第五分类映射单元,第五分类映射单元用于输出行为事件组整合表征向量。
行为事件组描述识别模块输出行为日志样本在行为事件组描述识别时对应的推理置信度,根据相同行为日志样本对应的推理置信度和行为事件组描述标记确定行为事件组描述识别误差E1。行为事件组识别模块输出行为日志样本对应的行为事件组表征向量和对照行为事件组表征向量,根据相同行为日志样本对应的行为事件组表征向量和对照行为事件组表征向量确定行为事件组识别误差Ea。表征向量整合模块输出行为日志样本对应的行为事件组整合表征向量,根据相同行为日志样本组对应的各个行为事件组整合表征向量确定整合误差Eb。E1用于迭代行为事件组描述识别模块的内部配置变量,Ea用于迭代行为事件组识别模块的内部配置变量,Eb用于迭代行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块的内部配置变量。
可选地,请参照图4,拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块,拟调试行为特征挖掘网络的输入信息为行为日志。行为事件组描述识别模块包括主干卷积单元、第一卷积单元、第一分类映射单元和第二分类映射单元,第一分类映射单元用于输出行为事件组描述表征向量,第二分类映射单元用于输出推理置信度。行为事件组识别模块包括主干卷积单元、第二卷积单元、第三分类映射单元和第四分类映射单元,第三分类映射单元用于输出行为事件组表征向量,第四分类映射单元用于输出推理置信度。将相同行为日志对应的行为事件组描述表征向量和行为事件组表征向量拼接后加载到表征向量整合模块。表征向量整合模块包括第五分类映射单元,第五分类映射单元用于输出行为事件组整合表征向量。行为事件组描述识别模块输出行为日志样本在行为事件组描述识别时对应的推理置信度,根据相同行为日志样本对应的推理置信度和行为事件组描述标记确定行为事件组描述识别误差E1。行为事件组识别模块输出行为日志样本在行为事件组分类任务上对应的推理置信度,根据相同行为日志样本对应的推理置信度和行为事件组标记确定行为事件组识别误差E2。表征向量整合模块输出行为日志样本对应的行为事件组整合表征向量,根据相同行为日志样本组对应的各个行为事件组整合表征向量确定整合误差Eb。
其中,也可以行为事件组识别模块输出行为日志样本对应的行为事件组表征向量和在行为事件组描述识别任务上对应的对照行为事件组表征向量,根据相同行为日志样本对应的行为事件组表征向量和对照行为事件组表征向量确定行为事件组识别误差Ea1。或者是行为事件组识别模块输出行为日志样本对应的行为事件组表征向量和在行为事件组识别时对应的对照行为事件组表征向量,根据相同行为日志样本对应的行为事件组表征向量和对照行为事件组表征向量确定行为事件组识别误差Ea2。
可选地,在获取第一行为日志样本集合之前,行为特征挖掘网络的调试过程还包括:
步骤S310,获取第二行为日志样本集合,将第二行为日志样本集合加载到拟调试的基础行为特征挖掘网络,得到第二行为日志样本集合中各个行为日志样本各自对应的基础行为事件组表征向量;基础行为特征挖掘网络包括表征向量抽取单元和分类映射单元。
步骤S320,根据第二行为日志样本集合中相同行为日志样本组对应的各个基础行为事件组表征向量,得到原始误差。
步骤330,根据原始误差优化基础行为特征挖掘网络的网络内部配置变量,直到达到第二调试停止要求,得到调试好的基础行为特征挖掘网络。
步骤340,根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中的分类映射单元进行参数预配置,得到拟调试行为特征挖掘网络。
其中,备选行为特征挖掘网络与拟调试行为特征挖掘网络的架构一致,第二行为日志样本集合为调试基础行为特征挖掘网络的行为日志样本集合,基础行为特征挖掘网络和备选行为特征挖掘网络都包括表征向量抽取单元和分类映射单元。表征向量抽取单元用于挖掘特征信息,分类映射单元用于完成特征的碰撞整合,通过表征向量抽取单元和分类映射单元能抽取到的特征(表征向量)具有良好的信息表征能力。基础行为特征挖掘网络的输入信息为行为日志,输出结果为行为日志对应的基础行为事件组表征向量。基础行为特征挖掘网络包括级联的表征向量抽取单元和分类映射单元,分类映射单元用于输出基础行为事件组表征向量。备选行为特征挖掘网络的输入信息为行为日志,输出结果包括行为日志对应的行为事件组表征向量、行为事件组描述表征向量和整合行为事件组表征向量。备选行为特征挖掘网络包括一个或多个表征向量抽取单元和多个分类映射单元,备选行为特征挖掘网络包括用于输出行为事件组表征向量的分类映射单元,用于输出行为事件组描述表征向量的分类映射单元,用于输出整合行为事件组表征向量的分类映射单元。第二调试停止要求请参照第一调试停止要求,具体数值根据实际情况进行配置。
为了提升拟调试行为特征挖掘网络的参数预配置的精度,先对基础行为特征挖掘网络进行调试,再根据调试好的基础行为特征挖掘网络初始化备选行为特征挖掘网络的内部配置变量,以得到拟调试行为特征挖掘网络。可以互联网或者第三方,抑或历史数据获取第二行为日志样本集合,根据第二行为日志样本集合对基础行为特征挖掘网络进行调试。将第二行为日志样本集合加载到拟调试的基础行为特征挖掘网络,得到第二行为日志样本集合中各个行为日志样本各自对应的基础行为事件组表征向量,与获取整合误差的方式一致,根据第二行为日志样本集合中相同行为日志样本组对应的各个基础行为事件组表征向量确定原始误差,进而根据原始误差进行梯度优化来优化基础行为特征挖掘网络的网络内部配置变量,通过多次网络反复调试,直到达到第二调试停止要求,得到调试好的基础行为特征挖掘网络。因为基础行为特征挖掘网络和备选行为特征挖掘网络都包括表征向量抽取单元和分类映射单元,则可以根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中的分类映射单元进行参数预配置,将得到的备选行为特征挖掘网络作为拟调试行为特征挖掘网络。
以上实施方式根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中的分类映射单元进行参数预配置,得到拟调试行为特征挖掘网络,可以确保拟调试行为特征挖掘网络具备一定的精度,提升拟调试行为特征挖掘网络的调试效率。可选地,根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中的分类映射单元进行参数预配置,得到拟调试行为特征挖掘网络,具体可以包括:根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中行为事件组描述识别模块和行为事件组识别模块之间一起使用的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中行为事件组描述识别模块的分类映射单元、行为事件组识别模块的分类映射单元进行参数预配置,得到拟调试行为特征挖掘网络。
其中,备选行为特征挖掘网络包括行为事件组描述识别模块和行为事件组识别模块,和基础行为特征挖掘网络的架构相近,行为事件组描述识别模块包括级联的表征向量抽取单元和分类映射单元,行为事件组识别模块包括级联的表征向量抽取单元和分类映射单元。在备选行为特征挖掘网络中,行为事件组描述识别模块和行为事件组识别模块之间主干表征向量抽取单元,即共享的表征向量抽取单元,行为事件组描述识别模块的分类映射单元用于输出行为事件组描述表征向量,行为事件组识别模块的分类映射单元用于输出行为事件组表征向量。
备选行为特征挖掘网络还包括表征向量整合模块,表征向量整合模块用于进行表征向量整合。表征向量整合模块也包括分类映射单元,由于表征向量整合模块的架构与行为事件组描述识别模块和行为事件组识别模块不一样,可以不根据调试好的基础行为特征挖掘网络中的分类映射单元对备选行为特征挖掘网络中表征向量整合模块的分类映射单元进行参数预配置。例如,在根据调试好的基础行为特征挖掘网络对备选行为特征挖掘网络的网络内部配置变量进行参数预配置时,可以根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中行为事件组描述识别模块和行为事件组识别模块之间一起使用的表征向量抽取单元进行参数预配置,以使备选行为特征挖掘网络中的表征向量抽取单元具有较好的表征向量抽取能力,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中行为事件组描述识别模块的分类映射单元、行为事件组识别模块的分类映射单元进行参数预配置,以使备选行为特征挖掘网络中行为事件组描述识别模块和行为事件组识别模块的分类映射单元具备优异的特征信息整合交互效果。
以上实施方式根据调试好的基础行为特征挖掘网络中的表征向量抽取单元,对备选行为特征挖掘网络中行为事件组描述识别模块和行为事件组识别模块之间一起使用的表征向量抽取单元进行参数预配置,根据调试好的基础行为特征挖掘网络中的分类映射单元,对备选行为特征挖掘网络中行为事件组描述识别模块的分类映射单元、行为事件组识别模块的分类映射单元进行参数预配置,可以确保和基础行为特征挖掘网络具有类似架构的行为事件组描述识别模块和行为事件组识别模块的预配置参数的精度。
可选地,基础行为特征挖掘网络包括表征向量抽取单元(即卷积单元)、降维单元、分类映射单元0。基础行为特征挖掘网络的输入信息为行为日志,基础行为特征挖掘网络输出基础行为事件组表征向量,根据相同行为日志样本组对应的各个基础行为事件组表征向量确定原始误差Eb。在基础行为特征挖掘网络调试完成后,基础行为特征挖掘网络中的分类映射单元0用于预配置上述的第一分类映射单元、第三分类映射单元,基础行为特征挖掘网络中的卷积单元用于预配置卷积单元。
可选地,行为特征挖掘网络在调试时还可以包括以下步骤:
步骤S410,获取第三行为日志样本集合,将第三行为日志样本集合加载到目标行为特征挖掘网络,得到第三行为日志样本集合中各个行为日志样本各自对应的行为事件组整合表征向量。
步骤S420,根据第三行为日志样本集合中相同行为日志样本组对应的各个行为事件组整合表征向量,得到迭代误差。
步骤S430,根据迭代误差优化目标行为特征挖掘网络的网络内部配置变量,直到达到第三调试停止要求,得到迭代行为特征挖掘网络。
第三行为日志样本集合用于调试目标行为特征挖掘网络的行为日志样本集合。第三调试停止要求请参照第一调试停止要求,具体数值选择根据实际情况进行确定。
本申请实施例可以在互联网、第三方或者历史数据中获取第三行为日志样本集合,根据第三行为日志样本集合对目标行为特征挖掘网络进行调试,将第三行为日志样本集合加载到目标行为特征挖掘网络,得到第三行为日志样本集合中各个行为日志样本各自对应的行为事件组整合表征向量,与计算整合误差的过程一样,根据第三行为日志样本集合中相同行为日志样本组对应的各个行为事件组整合表征向量确定迭代误差,进而根据迭代误差进行梯度优化来优化目标行为特征挖掘网络的网络内部配置变量,通过多次网络反复调试,直到达到第三调试停止要求,得到迭代行为特征挖掘网络。迭代行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量。以上实施方式对目标行为特征挖掘网络进行更深一步的调试能够获得精准的迭代行为特征挖掘网络,迭代行为特征挖掘网络输出的行为事件组整合表征向量的更准确。
可选地,在对目标行为特征挖掘网络进行调试时,不迭代行为事件组描述识别模块和行为事件组识别模块的识别模块(即行为事件组描述识别模块和行为事件组识别模块的识别单元或相似性确定单元)。行为事件组描述识别模块输出行为事件组描述表征向量,行为事件组识别模块输出行为事件组表征向量,将相同行为日志对应的行为事件组描述表征向量和行为事件组表征向量融合后加载到表征向量整合模块,表征向量整合模块输出行为事件组整合表征向量。根据相同行为日志样本组对应的各个行为事件组整合表征向量确定迭代误差Eb。应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于机器学习的数据处理方法。图5示意性地示出了本申请实施例提供的数据处理装置的结构框图。如图5所示,数据处理装置200包括:
日志获取模块210,用于获取行为日志,所述行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,所述行为日志包括至少一个行为事件组;
特征挖掘模块220,用于将所述行为日志加载到预先调试完成的行为特征挖掘网络,得到所述行为日志中包含的行为事件组整合表征向量;
行为分类模块230,用于基于所述行为事件组整合表征向量,采用预设的分类器对所述进行行为事件组分类,得到行为分类结果;
网络调试模块240,用于对所述行为特征挖掘网络进行调试,在调试过程中,包括以下步骤:
获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络;所述第一行为日志样本集合包括多个行为日志样本组,所述行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记;对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量;根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差;根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至所述获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;所述目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量。
本申请各实施例中提供的数据处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图6示意性地示出了用于实现本申请实施例提供的方法的电子设备的计算机系统结构框图。需要说明的是,图6示出的电子设备的计算机系统300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统300包括中央处理器301(Central Processing Unit,CPU),其可以根据存储在只读存储器302(Read-Only Memory,ROM)中的程序或者从存储部分308加载到随机访问存储器303(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器303中,还存储有系统操作所需的各种程序和数据。中央处理器301、在只读存储器302以及随机访问存储器303通过总线304彼此相连。输入/输出接口305(Input/Output接口,即I/O接口)也连接至总线304。
以下部件连接至输入/输出接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至输入/输出接口305。存储介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从存储介质311被安装。在该计算机程序被中央处理器301执行时,执行本申请的系统中限定的各种功能。需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (9)
1.一种基于机器学习的数据处理方法,其特征在于,所述方法包括:
获取行为日志,所述行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,所述行为日志包括至少一个行为事件组;
将所述行为日志加载到预先调试完成的行为特征挖掘网络,得到所述行为日志中包含的行为事件组整合表征向量;
基于所述行为事件组整合表征向量,采用预设的分类器对所述行为事件组分类,得到行为分类结果;
其中,所述行为特征挖掘网络通过以下步骤调试得到:
获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络;所述第一行为日志样本集合包括多个行为日志样本组,所述行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记;
对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量;
根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差;
根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至所述获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;所述目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量;
其中,所述获取第一行为日志样本集合,包括:
获取多个行为事件组线索样本各自对应的目标行为事件组子集集合;所述行为事件组线索样本是从包含行为事件组的行为日志数据库样本中获取的,所述目标行为事件组子集集合中的行为事件组子集是对行为事件组线索样本所属行为日志数据库样本中对应的行为日志进行行为事件组识别得到的;
分别对各个目标行为事件组子集集合进行抽样,得到多个积极行为日志二元组样本;
在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中获取当下积极行为日志二元组样本所对应的消极行为日志样本;
根据积极行为日志二元组样本和对应的消极行为日志样本构建行为日志样本组;
根据各个行为日志样本组得到所述第一行为日志样本集合。
2.根据权利要求1所述的方法,其特征在于,所述获取多个行为事件组线索样本各自对应的目标行为事件组子集集合,包括:
获取多个行为日志数据库样本集合;其中,相同行为日志数据库样本集合中的行为日志属于相同行为日志数据库样本;
对所述行为日志数据库样本集合中的行为日志进行行为事件组识别,得到行为日志中的行为事件组子集,将行为事件组子集加载到拟调试行为特征挖掘网络,得到行为事件组子集对应的行为事件组整合表征向量;
根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果;
根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合。
3.根据权利要求2所述的方法,其特征在于,所述根据邻接的行为日志中各个行为事件组子集和对应的行为事件组整合表征向量,对相同行为日志数据库样本集合中的邻接的行为日志进行行为事件组共性计算,得到各个邻接的行为日志各自对应的行为事件组共性度量结果,包括:
在当下行为日志集合中确定目标行为日志;
将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集;
根据目标行为事件组子集对应的行为事件组整合表征向量分别和目标靠后行为日志中的各个行为事件组子集对应的行为事件组整合表征向量之间的空间相似性,从所述目标靠后行为日志对应的各个行为事件组子集中确定目标行为事件组子集对应的备选行为事件组子集,将与目标行为事件组子集的空间相似性大于预设值的备选行为事件组子集确定为目标行为事件组子集对应的靠后相似行为事件组子集;所述目标靠后行为日志为目标行为日志的邻接的靠后行为日志;
根据各个目标行为事件组子集和对应的靠后相似行为事件组子集得到目标行为日志和目标靠后行为日志之间的行为事件组共性度量结果;
在所述当下行为日志集合中获取后一行为日志确定为目标行为日志,跳转至所述将目标行为日志对应的各个行为事件组子集逐一确定为目标行为事件组子集的步骤进行重复,直到获得所述当下行为日志集合中各个邻接的行为日志各自对应的行为事件组共性度量结果。
4.根据权利要求3所述的方法,其特征在于,所述行为事件组共性度量结果包括由目标行为事件组子集和对应的靠后相似行为事件组子集构建的行为事件组子集对和行为事件组子集对所对应的线索指示信息,其中,具有相同行为事件组子集的不同行为事件组子集对所对应的线索指示信息相同;所述根据相同行为日志数据库样本集合中各个邻接的行为日志的行为事件组共性度量结果进行行为线索整理,得到多个行为事件组线索样本各自对应的目标行为事件组子集集合,包括:
在当下行为日志集合的各个邻接的行为日志对应的行为事件组共性度量结果中,获取当下线索指示信息对应的行为事件组子集对构建所述当下线索指示信息对应的当下行为事件组子集对集合;
将所述当下行为事件组子集对集合中的各个行为事件组子集依据对应行为日志的行为日志先后次序进行排列,得到所述当下线索指示信息对应的当下初步行为事件组子集集合;
对所述当下初步行为事件组子集集合对应的各个行为事件组整合表征向量进行归集,得到当下行为事件组代表表征向量;
根据所述当下初步行为事件组子集集合对应的各个行为事件组整合表征向量分别和所述当下行为事件组代表表征向量之间的空间相似性,从所述当下初步行为事件组子集集合中,依据空间相似性的降序清洗掉M个行为事件组子集,得到所述当下线索指示信息对应的目标行为事件组子集集合,所述M≥1。
5.根据权利要求1所述的方法,其特征在于,在当下表征向量为行为事件组描述表征向量时,当下指示信息为行为事件组描述标记,当下识别误差为行为事件组描述识别误差;
在当下表征向量为行为事件组表征向量时,当下指示信息为行为事件组标记,当下识别误差为行为事件组识别误差;
所述当下识别误差通过以下步骤进行获取:
获取不同当下指示信息各自对应的示例行为事件组表征向量集;所述示例行为事件组表征向量集包括相同的当下指示信息对应的多个示例行为事件组表征向量,所述示例行为事件组表征向量是在当下表征向量库中,在当下指示信息对应的各个当下表征向量中获取和当下指示信息对应的质心空间相似性最大的当下表征向量得到的,所述质心是对当下表征向量库中相同的当下指示信息对应的各个当下表征向量进行分桶得到的;
在各个示例行为事件组表征向量集中获取和当下行为日志样本对应的当下表征向量的空间相似性最大的示例行为事件组表征向量作为当下行为日志样本对应的对照行为事件组表征向量;
根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差。
6.根据权利要求5所述的方法,其特征在于,所述当下表征向量和所述对照行为事件组表征向量的元素数量为设定数量;
所述根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量之间的误差,得到当下识别误差,包括:
获取元素数量为所述设定数量的任意表征向量,将所述任意表征向量中数值不小于设定值的元素对应的位置确定为维持位;
根据相同行为日志样本对应的当下表征向量和对照行为事件组表征向量在相同维持位上的数值误差,得到所述当下识别误差。
7.根据权利要求1所述的方法,其特征在于,所述拟调试行为特征挖掘网络包括行为事件组描述识别模块、行为事件组识别模块和表征向量整合模块,所述行为事件组描述识别模块用于得到行为事件组描述表征向量,所述行为事件组识别模块用于得到行为事件组表征向量,所述表征向量整合模块用于得到行为事件组整合表征向量;
所述根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,包括:
根据所述行为事件组描述识别误差依据第一调谐参数优化所述行为事件组描述识别模块的内部配置变量,根据所述行为事件组识别误差依据第二调谐参数优化所述行为事件组识别模块的内部配置变量,根据所述整合误差依据第三调谐参数优化所述行为事件组描述识别模块、所述行为事件组识别模块和所述表征向量整合模块的内部配置变量,得到过渡行为特征挖掘网络;其中,所述第一调谐参数和所述第二调谐参数都大于所述第三调谐参数。
8.一种数据处理装置,其特征在于,包括:
日志获取模块,用于获取行为日志,所述行为日志为按照预设数据采集周期采集的目标用户的业务行为数据集合,所述行为日志包括至少一个行为事件组;
特征挖掘模块,用于将所述行为日志加载到预先调试完成的行为特征挖掘网络,得到所述行为日志中包含的行为事件组整合表征向量;
行为分类模块,用于基于所述行为事件组整合表征向量,采用预设的分类器对所述行为事件组分类,得到行为分类结果;
网络调试模块,用于对所述行为特征挖掘网络进行调试,在调试过程中,包括以下步骤:
获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络;所述第一行为日志样本集合包括多个行为日志样本组,所述行为日志样本组包括多个彼此对应的行为日志样本,各个行为日志样本中的行为事件组具有相应的行为事件组标记和行为事件组描述标记;
对行为日志样本进行行为事件组描述表征向量抽取,得到各个行为日志样本各自对应的行为事件组描述表征向量,对行为日志样本进行行为事件组表征向量抽取,得到各个行为日志样本各自对应的行为事件组表征向量,整合相同行为日志样本对应的行为事件组表征向量和行为事件组描述表征向量,得到各个行为日志样本各自对应的行为事件组整合表征向量;
根据相同行为日志样本对应的行为事件组描述表征向量和行为事件组描述标记,得到行为事件组描述识别误差,根据相同行为日志样本对应的行为事件组表征向量和行为事件组标记,得到行为事件组识别误差,根据相同行为日志样本组对应的各个行为事件组整合表征向量,得到整合误差;
根据所述行为事件组描述识别误差、所述行为事件组识别误差和所述整合误差,优化所述拟调试行为特征挖掘网络的网络内部配置变量,得到过渡行为特征挖掘网络,将过渡行为特征挖掘网络作为拟调试行为特征挖掘网络,跳转至所述获取第一行为日志样本集合,将所述第一行为日志样本集合加载到拟调试行为特征挖掘网络的步骤进行重复,直到达到第一调试停止要求,得到目标行为特征挖掘网络;所述目标行为特征挖掘网络用于抽取加载的行为日志对应的行为事件组整合表征向量;
其中,所述获取第一行为日志样本集合,包括:
获取多个行为事件组线索样本各自对应的目标行为事件组子集集合;所述行为事件组线索样本是从包含行为事件组的行为日志数据库样本中获取的,所述目标行为事件组子集集合中的行为事件组子集是对行为事件组线索样本所属行为日志数据库样本中对应的行为日志进行行为事件组识别得到的;
分别对各个目标行为事件组子集集合进行抽样,得到多个积极行为日志二元组样本;
在当下积极行为日志二元组样本外的其余积极行为日志二元组样本中获取当下积极行为日志二元组样本所对应的消极行为日志样本;
根据积极行为日志二元组样本和对应的消极行为日志样本构建行为日志样本组;
根据各个行为日志样本组得到所述第一行为日志样本集合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320534.8A CN117077018B (zh) | 2023-10-12 | 2023-10-12 | 基于机器学习的数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320534.8A CN117077018B (zh) | 2023-10-12 | 2023-10-12 | 基于机器学习的数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077018A CN117077018A (zh) | 2023-11-17 |
CN117077018B true CN117077018B (zh) | 2023-12-19 |
Family
ID=88711959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311320534.8A Active CN117077018B (zh) | 2023-10-12 | 2023-10-12 | 基于机器学习的数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077018B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117807434B (zh) * | 2023-12-06 | 2024-07-16 | 中国信息通信研究院 | 一种通信数据集处理方法和装置 |
CN118260347B (zh) * | 2024-05-30 | 2024-07-19 | 成都万维图新信息技术有限公司 | 基于人工智能的数据采集分析方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103119607A (zh) * | 2010-07-08 | 2013-05-22 | 国际商业机器公司 | 根据视频的人的活动确定的优化 |
WO2019156103A1 (ja) * | 2018-02-09 | 2019-08-15 | 日本電信電話株式会社 | Faq整備支援装置、faq整備支援方法、及びプログラム |
CN111935192A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 网络攻击事件溯源处理方法、装置、设备和存储介质 |
CN113469663A (zh) * | 2021-08-02 | 2021-10-01 | 东莞市爱学爱玩教育科技有限公司 | 一种结合人工智能的智慧业务信息分析方法及系统 |
CN114168966A (zh) * | 2021-12-07 | 2022-03-11 | 哈尔滨利云科技有限公司 | 基于大数据分析的安全防护升级挖掘方法及信息安全系统 |
CN115455300A (zh) * | 2022-09-29 | 2022-12-09 | 吴敬晗 | 基于人工智能的数据推送方法、系统及云平台 |
CN115766258A (zh) * | 2022-11-23 | 2023-03-07 | 西安电子科技大学 | 一种基于因果关系图的多阶段攻击趋势预测方法、设备及存储介质 |
CN115860836A (zh) * | 2022-12-07 | 2023-03-28 | 广东南粤分享汇控股有限公司 | 一种基于用户行为大数据分析的电商服务推送方法及系统 |
CN116089729A (zh) * | 2023-03-31 | 2023-05-09 | 浙江口碑网络技术有限公司 | 搜索推荐方法、设备及存储介质 |
CN116340315A (zh) * | 2023-03-09 | 2023-06-27 | 杨光城 | 基于数字工厂的数据归档方法及ai系统 |
-
2023
- 2023-10-12 CN CN202311320534.8A patent/CN117077018B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103119607A (zh) * | 2010-07-08 | 2013-05-22 | 国际商业机器公司 | 根据视频的人的活动确定的优化 |
WO2019156103A1 (ja) * | 2018-02-09 | 2019-08-15 | 日本電信電話株式会社 | Faq整備支援装置、faq整備支援方法、及びプログラム |
CN111935192A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 网络攻击事件溯源处理方法、装置、设备和存储介质 |
CN113469663A (zh) * | 2021-08-02 | 2021-10-01 | 东莞市爱学爱玩教育科技有限公司 | 一种结合人工智能的智慧业务信息分析方法及系统 |
CN114168966A (zh) * | 2021-12-07 | 2022-03-11 | 哈尔滨利云科技有限公司 | 基于大数据分析的安全防护升级挖掘方法及信息安全系统 |
CN115455300A (zh) * | 2022-09-29 | 2022-12-09 | 吴敬晗 | 基于人工智能的数据推送方法、系统及云平台 |
CN115766258A (zh) * | 2022-11-23 | 2023-03-07 | 西安电子科技大学 | 一种基于因果关系图的多阶段攻击趋势预测方法、设备及存储介质 |
CN115860836A (zh) * | 2022-12-07 | 2023-03-28 | 广东南粤分享汇控股有限公司 | 一种基于用户行为大数据分析的电商服务推送方法及系统 |
CN116340315A (zh) * | 2023-03-09 | 2023-06-27 | 杨光城 | 基于数字工厂的数据归档方法及ai系统 |
CN116089729A (zh) * | 2023-03-31 | 2023-05-09 | 浙江口碑网络技术有限公司 | 搜索推荐方法、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
System log clustering approaches for cyber security applications: A survey;Max Landauer 等;《Computers & Security》;1-17 * |
基于Apriori改进算法的Web日志挖掘系统的研究与实现;郑玮;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;I138-963 * |
基于归一化特征判别的日志模板挖掘算法;双锴 等;《北京邮电大学学报》;第43卷(第1期);68-73 * |
基于数据挖掘和信息化体系的高校图书馆个性化服务研究;王磊;《枣庄学院图书馆》;78-80 * |
基于日志挖掘的学术搜索困难度量方法研究;陈翀 等;《图书情报工作》;第65卷(第9期);79-88 * |
Also Published As
Publication number | Publication date |
---|---|
CN117077018A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117077018B (zh) | 基于机器学习的数据处理方法、装置及存储介质 | |
CN111178380B (zh) | 数据分类方法、装置及电子设备 | |
CN110390396B (zh) | 用于估计观测变量之间的因果关系的方法、装置和系统 | |
CN111274134A (zh) | 基于图神经网络的漏洞识别与预测方法、系统、计算机设备和存储介质 | |
CN108876166A (zh) | 财务风险验证处理方法、装置、计算机设备及存储介质 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN108876213B (zh) | 基于区块链的产品管理方法、装置、介质及电子设备 | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN113438114B (zh) | 互联网系统的运行状态监控方法、装置、设备及存储介质 | |
CN111126420A (zh) | 一种建立识别模型的方法及装置 | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
CN114330533A (zh) | 设备屏幕老化二分类模型训练方法及设备屏幕老化检测方法 | |
CN117785993A (zh) | 图模式的挖掘方法及装置 | |
CN113642727A (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN112131199A (zh) | 一种日志处理方法、装置、设备及介质 | |
CN111753546A (zh) | 文书信息抽取方法、装置、计算机设备及存储介质 | |
CN112906824B (zh) | 车辆聚类方法、系统、设备及存储介质 | |
CN115757034A (zh) | 日志的分析处理方法、装置、计算机设备和存储介质 | |
CN115563186A (zh) | 基于大数据分析的用户行为意图输出方法及大数据系统 | |
CN110334277B (zh) | 用户搜索行为的识别方法及装置 | |
CN111815442B (zh) | 一种链接预测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |