CN117909970A - 一种数据处理方法、装置、设备及介质 - Google Patents
一种数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117909970A CN117909970A CN202410101895.1A CN202410101895A CN117909970A CN 117909970 A CN117909970 A CN 117909970A CN 202410101895 A CN202410101895 A CN 202410101895A CN 117909970 A CN117909970 A CN 117909970A
- Authority
- CN
- China
- Prior art keywords
- data
- operation data
- abnormal
- determining
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 176
- 238000012544 monitoring process Methods 0.000 claims abstract description 98
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000005856 abnormality Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000006399 behavior Effects 0.000 claims description 88
- 238000012545 processing Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 230000001960 triggered effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、装置、设备及介质。本发明涉及大数据技术领域。该方法包括:获取目标对象在当前页面中的操作数据;基于操作数据以及目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常;其中,行为监测模型是基于异常操作数据来训练的,异常操作数据是基于密度的异常检测算法确定的。本发明的技术方案,能够达到在提高异常监测准确性的同时,提高异常监测的及时性,提高系统安全性的效果。
Description
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
为了提高系统的安全性,通常会对系统上的操作用户的操作数据进行管控,以避免不正当的操作,造成数据泄露或者使用风险等。
目前,对用户操作行为的管控方式通常是先将用户的操作日志进行保存,然后,针对各个功能的操作频率进行统计评估分析,人为观测功能使用频率是否超过设定阈值,进行操作行为的风险评估。这种方式需要全局观测用户的整体操作行为,存在风险遗漏的问题,且无法及时的、有效的发现异常操作,导致安全性低的问题。
发明内容
本发明实施例提供一种数据处理方法、装置、设备及介质,以实现在提高异常监测准确性的同时,提高异常监测的及时性,达到提高系统安全性的效果。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取目标对象在当前页面中的操作数据;
基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;
将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;
其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
操作数据获取模块,用于获取目标对象在当前页面中的操作数据;
待使用数据确定模块,用于基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;
异常监测模块,用于将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;
其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
本发明实施例中,通过获取目标对象在当前页面中的操作数据;基于操作数据以及目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常;其中,行为监测模型是基于异常操作数据来训练的,异常操作数据是基于密度的异常检测算法确定的,解决了现有技术中通过基于人工统计用户操作日志中的操作数据进行异常检测,导致异常检测准确性差,效率低的问题,实现了通过基于密度的异常检测算法确定异常操作数据,进而基于异常操作数据训练行为监测模型,提高模型的检测精度,进而通过目标对象在当前页面中的操作数据以及目标对象在至少一个固有属性下的属性特征,筛选到受影响的异常数据,得到待使用数据,通过行为监测模型对待使用数据进行异常检测,实现提高异常监测准确性的同时,提高异常监测的及时性,达到提高系统安全性的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是根据本发明实施例提供的一种数据处理方法的流程图;
图2是根据本发明实施例提供的一种数据处理方法的流程图;
图3是根据本发明实施例提供的一种数据处理方法的流程图;
图4是根据本发明实施例提供的数据处理装置的结构示意图;
图5是根据本发明实施例提供的一种数据处理方法的流程图;
图6是根据本发明实施例提供的一种数据处理装置的结构示意图;
图7是实现本发明实施例的数据处理方法的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1是根据本发明实施例提供的一种数据处理方法的流程图,本实施例可适用于监测用户操作行为的情况,该方法可以由数据处理装置来执行,该数据处理装置可以采用硬件和/或软件的形式实现。如图1所示,该方法包括:
S110、获取目标对象在当前页面中的操作数据。
其中,操作数据中包括但不限于操作页面、触发至少一个功能控件的次数、每次触发平均时长、登录地址、登录IP以及日常登录时间等。
在本实施例中,可以在目标对象打开或登录系统后,通过埋点监听目标对象在当前页面中的操作数据,监听到的操作数据可以被收集到日志中。可以实时或周期性的从日志中获取目标对象在当前页面中的操作数据。或者,也可以是目标对象在当前页面中触发相应请求时,系统获取目标对象的请求数据,从而获取到目标对象在当前页面中的操作数据。
S120、基于操作数据以及目标对象在至少一个固有属性下的属性特征,确定待使用数据。
其中,固有属性可以用于表征属性特征所属的类别。例如,至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种。固有属性还可以包括行为属性、基本信息属性等等。
在本实施例中,可以将获取到的操作数据作为待使用数据。例如,系统可以按小时抽取日志中存储的操作数据作为待使用数据,以基于待使用数据进行模型监测,判断数据特征值中是否有异常操作行为。又考虑到在一些特殊的固有属性特征下,目标对象的操作数据可能呈现出异常趋势(如点击次数过多或频率过高),但由于其属性的特殊性,该异常可认为是正常现象。基于此,也可以根据目标对象在至少一个固有属性下的属性特征,对操作数据进行初步筛选,得到待使用数据。例如,特殊的固有属性特征为岗位A,如果目标对象的岗位属性的属性特征为岗位A,其操作数据中的点击次数过多,认为是正常数据,可以将该点击次数筛掉,剩下的操作数据作为待使用数据;又或者,特殊的固有属性特征为用户角色B,如果目标对象的用户角色属性的属性特征为角色B,其操作数据中的点击频率过高,认为是正常数据,可以将该点击频率筛掉,剩下的操作数据作为待使用数据,保证数据的正确性,提高异常检测的准确性。
S130、将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常。
其中,行为监测模型是基于异常操作数据来训练的,异常操作数据是基于密度的异常检测算法确定的。例如,基于密度的异常检测算法可以为局部异常因子(LocalOutlier Factor,LOF)算法。
在本实施例中,可以基于密度的异常检测算法从历史操作数据中选取出异常操作数据,进而使用异常操作数据训练得到行为监测模型。在确定待使用数据之后,可以将待使用数据作为行为监测模型的输入,行为监测模型对待使用数据进行异常检测处理,确定目标对象的操作行为是否异常,以在异常时进行预警提示,提高监测效果。此种设置的好处在于,通过先筛选出异常操作数据,再使用异常数据进行模型训练,由于异常操作数据具有一些特殊的异常特征或属性,这些特征或属性可以对模型的训练产生干扰,可以为模型提供更全面的训练样本,从而有助于模型更好地学习数据的分布规律和特征,提高模型的性能,同时也能够让模型更好地适应这些干扰,更好地解释这些特征或属性,从而提高模型的鲁棒性以及检测精度。
本实施例通过获取目标对象在当前页面中的操作数据;基于操作数据以及目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常;其中,行为监测模型是基于异常操作数据来训练的,异常操作数据是基于密度的异常检测算法确定的,解决了现有技术中通过基于人工统计用户操作日志中的操作数据进行异常检测,导致异常检测准确性差,效率低的问题,实现了通过基于密度的异常检测算法确定异常操作数据,进而基于异常操作数据训练行为监测模型,提高模型的检测精度,进而通过目标对象在当前页面中的操作数据以及目标对象在至少一个固有属性下的属性特征,筛选到受影响的异常数据,得到待使用数据,通过行为监测模型对待使用数据进行异常检测,实现提高异常监测准确性的同时,提高异常监测的及时性,达到提高系统安全性的效果。
在上述实施例的基础上,还可以预先确定行为监测模型,以将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常,相应的,本发明提出如下实施例:图2是根据本发明实施例提供的一种数据处理方法的流程图。如图2所示,数据处理方法,包括如下步骤:
S210、基于系统日志获取多个操作对象的历史原始操作数据。
其中,历史原始操作数据是预先设置的埋点信息确定的。埋点信息可以是指在系统中插入的代码或工具,以记录对象的操作数据。操作数据可以包括用户点击、浏览、购买、注册等操作行为的信息,以及与这些行为相关的属性信息,如时间戳、行为类型、页面路径、设备信息等等。
在本实施例中,可以根据对操作对象的操作数据的管控需求,在系统中设置对应的埋点,将埋点代码部署到相应位置。通过埋点监听操作对象的行为,并收集操作对象的操作数据存储在埋点日志中,如获取用户在系统中点击的按钮、操作时间、操作页面、操作内容等。进一步的,可以调取埋点日志,埋点日志中的包含的多个操作对象的操作数据即为历史原始操作数据。
示例性的,可以利用lua+nginx+kafka+logstash抽取埋点日志,获取多个操作对象的历史原始操作数据。其中,Lua是指用于嵌入式应用程序开发的轻量级的脚本语言。Nginx是指Web服务器和反向代理服务器,用于处理HTTP请求和提供静态文件服务。Kafka是指分布式流处理平台,用于处理实时数据流。Logstash是指数据收集引擎,用于对日志数据进行解析、过滤和转换。例如,使用Lua和Nginx开发系统,使用Kafka来处理系统中的实时数据流,然后使用Logstash来收集和分析系统埋点日志数据。
S220、通过对历史原始操作数据进行处理,得到目标格式下的历史操作数据。
其中,历史操作数据中包括操作时间、操作页面标识以及操作内容。目标格式可以为json格式。
在本实施例中,可以根据历史原始操作数据的格式,编写一个目标格式的模板,该模板中包含所有必要的字段和数据类型。可以将历史原始操作数据按照目标格式的模板进行转换,确保每个字段的值与模板中的数据类型和格式相匹配,得到目标格式的历史操作数据。
示例性的,以目标格式可以为json格式为例,可以使用lua将日志(历史原始操作数据以日志的形式存储)整理成统一的json格式,通过producer将json格式下的历史操作数据异步发送到kafka集群,再通过logstash将数据落地到hdfs分布式文件存储系统,以备调用。
为了提高对操作数据异常检测的准确性,还可以对历史原始操作数据进行特征处理,确定操作关联数据,基于操作关联数据更新历史原始操作数据,以基于更新后的历史原始操作数据确定目标格式下的历史操作数据。
在本实施例中,历史原始操作数据可以为时间序列数据,可以利用延迟计算函数(lag)计算历史原始操作数据之间的延迟相关性作为操作关联数据。例如,可以将历史原始操作数据分为多个滞后项,使用相关系数或协方差等指标衡量滞后项与当前项之间的相关性,计算每个滞后项与当前项之间的相关性,将相关性作为操作关联数据添加至历史原始操作数据中,便于更好地理解时间序列的操作数据之间的关联关系。还可以将历史原始操作数据划分为多个连续的窗口,分析每个窗口内的操作数据,得到每个窗口内操作数据的统计指标值,如均值、方差等指标值,将统计指标值作为操作关联数据添加至历史原始操作数据中,便于更好地理解时间序列的操作数据的动态特征。还可以将历史原始操作数据按照预设特征进行分组,并对每个分组内的操作数据进行统计分析,如根据操作数据的特征,如长期特征(如包含点击关键功能页面的次数、频率、每次点击平均操作时长、登录地址、登录时间等特征)、短期特征(如包含操作页面、操作内容)等,将历史原始操作数据划分为不同的组。然后,对每个分组内的操作数据进行统计分析,将分析结果作为操作关联数据添加至历史原始操作数据中,以便了解不同组之间的差异和相似性。进一步的,将历史原始操作数据转换成目标格式下的历史操作数据。
示例性的,可以按照时序对历史原始操作数据进行lag计算、滑窗分析以及分组统计等初步特征处理,将处理后的历史原始操作数据整理成结构化的数据。此种设置的好处在于,通过对历史原始操作数据进行时序分析处理,充分挖掘时间序列的操作数据的内在规律和趋势,为后续的异常检测提供依据,从而提高异常检测的准确性。
S230、采用异常检测算法对历史操作数据进行处理,确定异常操作数据。
在本实施例中,可以使用异常检测算法对历史操作数据进行异常检测,判断历史操作数据是否存在异常,可以将判断为异常的操作数据作为异常操作数据。可选的,异常检测算法可以包含多种,例如,可以是基于统计的异常检测算法,如,孤立森林、高斯混合模型等,利用统计学原理对操作数据进行建模,通过计算操作数据与模型之间的距离来检测操作数据是否异常;或者,基于距离的异常检测算法,如K-近邻算法、DBSCAN聚类算法等,通过计算操作数据之间的距离来判断是否为异常。或者,基于密度的异常检测算法,如局部接近度度量算法等,通过计算操作数据的密度来判断是否为异常。或者,基于分类的异常检测算法,如支持向量机(Support Vector Machine,SVM)、随机森林等,通过训练分类器来识别异常数据。或者,基于深度学习的异常检测算法,如自编码器(Autoencoder)、生成对抗网络(Generative Adversarial Networks,GAN)等,利用深度学习模型对数据进行学习,然后通过计算操作数据与模型之间的差异来检测异常。
示例性的,可以在离线情况下通过python读取库中的历史操作数据,使用异常检测算法进行异常检测,确定异常操作数据。
S240、基于异常操作数据确定行为监测模型。
在本实施例中,在确定异常操作数据之后,可以基于异常操作数据确定训练样本,进而使用训练样本对行为监测模型进行训练,得到训练好的行为监测模型。然后,可以使用训练好的行为监测模型对待使用数据进行异常监测,以确定目标对象的操作行为是否异常。
在本实施例中,在确定异常操作数据之后,还可以对异常操作数据进行编码,使其能够适应模型训练。具体来说,可以确定异常操作数据在至少一个固有属性下所对应的类别编码;基于异常操作数据在至少一个固有属性下的风险概率,更新类别编码;基于更新后的类别编码更新异常操作数据;通过对异常操作数据进行归一化处理,得到参与训练行为监测模型的异常操作数据。
其中,风险概率可以用于表征存在风险的程度。
在实际应用中,可以识别异常操作数据在至少一个固有属性下的属性特征,进而,利用类别编码技术进行类别编码,将特征数据的固有属性标签转换为编码值,该编码值即为与该固有属性相对应的类别编码。相应的,可以得到异常操作数据在至少一个固有属性下的类别编码,不同固有属性的类别编码不同,保证类别信息传递的正确性。例如,可以使用LabelEncoder将异常操作数据下的每个固有属性标签映射到一个唯一的数值,转换为数值型特征,实现分类数据的数值编码。为了评估出不同固有属性类别的风险概率,可以根据异常操作数据在至少一个固有属性下的属性特征,确定异常操作数据在至少一个固有属性下的风险概率。例如,行为属性下的点击频率越高,其风险概率越大,每次点击平均操作时长越长,其风险概率越大。需要说明的是,考虑到异常操作数据出现异常的原因可能是受某些特定的原因或条件所导致的,例如,特定的原因可以为岗位(如销售、采购、推广、财务等等)、用户角色(如管理员、普通用户等)、高峰时段等。为了保证模型对异常监测的准确率,可以根据预先设置的影响因素,对异常操作数据在至少一个固有属性下的风险概率进行修正,得到修正后的风险概率。例如,影响因素包括岗位、用户角色、高峰时间段等,在设定岗位下的用户的异常操作数据可能呈现出异常趋势(如点击次数过多),但由于其岗位的特殊性,可认为该异常为正常。可以对该异常操作数据中与设定岗位相对应的固有属性下的风险概率进行修正,如降低风险概率。又或者,在设定高峰时间段下的用户的异常操作数据也会可能呈现出异常趋势,但由于其高峰时间段的特殊性,可认为该异常为正常。可以对异常操作数据中与设定高峰时间段相对应的固有属性下的风险概率进行修正,如降低风险概率。进一步的,可以将异常操作数据在同一固有属性下所对应的类别编码以及风险概率进行整合,得到该固有属性下的新的类别编码。进而,可以将异常操作数据在同一固有属性下的新的类别编码和属性特征进行整合,得到新的异常操作数据,使得异常操作数据中携带有不同固有属性下所对应的属性特征和类别编码。
示例性的,可以将异常操作数据中的属性特征将输入修正装置,适配用户角色、岗位、高峰时间段等影响因素,进行特征修正。以用户角色为例,根据用户的角色类型进行类别编码,当用户角色类型过多时,对固有属性下的风险概率进行修正。
进一步的,通过利用归一化算法对各异常操作数据中同一固有属性下的属性特征进行归一化处理,得到参与训练行为监测模型的异常操作数据。
示例性的,以固有属性为用户角色属性为例,使用归一化算法针对所有用户角色属性下的属性特征进行归一化处理,得到归一化后的数值,替换原属性特征值。归一化算法可以表示为:
其中,min(x)表示同一角色属性下的最小特征值,max(x)表示同一角色属性下的最大特征值,x表示同一角色属性下的原始特征值,x′表示同一角色属性下的原始特征值的替换值,即归一化后的数值。
本实施例所提供的技术方案通过根据设定的影响因素对属性特征的风险概率进行修正,提高异常标注的准确性,提升异常监控准确率。同时,通过对异常操作数据进行归一化处理,保证样本数据的真实性,进而根据处理后的异常操作数据进行模型训练,提高模型对异常监测的精确性。
在本实施例中,还可以部署预先训练得到的行为监测模型,以基于行为监测模型确定待使用数据所对应的分类结果,并基于分类结果确定待使用数据是否异常。
具体的,可以将行为监测模型部署在监测系统中,使得系统采集到用户的操作数据之后,可以使用行为监测模型确定操作数据中的待使用数据的分类结果,通过分类结果判断待使用数据中是否有异常操作行为。
示例性的,模型训练后,可以使用gunicorn(green unicorn)和flask部署行为监测模型,使得可以使用行为监测模型进行模型监测,判断待使用数据中是否有异常操作行为,从而保障系统运行的安全性和稳定性,降低系统的监测压力。其中,gunicorn是指服务器网关接口的HTTP服务器。flask是指用于构建Web应用程序的轻量级的Python Web框架。
本实施例通过基于系统日志获取多个操作对象的历史原始操作数据,进而对历史原始操作数据进行处理,得到目标格式下的历史操作数据,采用异常检测算法对历史操作数据进行处理,筛选出异常操作数据,进而使用异常操作数据进行模型训练,得到行为监测模型,提高模型精度,进而提高异常检测的准确性。
在上述实施例的基础上,在采用异常检测算法对历史操作数据进行处理,确定异常操作数据时,可以当前历史操作数据与其各邻居数据之间的可达距离进行确定,相应的,本发明提出如下实施例:图3是根据本发明实施例提供的一种数据处理方法的流程图。如图3所示,数据处理方法,包括如下步骤:
S310、对于各历史操作数据,确定当前历史操作数据和其他历史操作数据之间的距离信息,并依据距离信息从其他历史操作数据中确定与当前历史操作数据相对应的至少一个邻居数据。
需要说明的是,确定与每个历史操作数据相对应的至少一个邻居数据的方式均相同,可以将其中任一历史操作数据作为当前历史操作数据,以确定当前历史操作数据所对应的至少一个邻居数据为例进行介绍。
在本实施例中,可以利用距离计算方法计算当前历史操作数据和其他各历史操作数据之间的距离信息,例如,距离计算方法可以为欧氏距离、曼哈顿距离、余弦距离、雅卡尔距离等等。进一步的,可以依据距离信息,从其他历史操作数据中选取出与当前历史操作数据相对应的至少一个邻居数据。例如,可以将距离信息从小到大排序,选取出排在前面的预设数据的其他历史操作数据均作为与当前历史操作数据相对应的邻居数据。
在本实施例中,依据距离信息从其他历史操作数据中确定与当前历史操作数据相对应的至少一个邻居数据,包括:依据距离信息,确定与当前历史操作数据相对应的距离领域;基于在距离领域内的其他历史操作数据,确定与当前历史操作数据相对应的至少一个邻居数据。
在本实施例,可以依据距离信息确定当前历史操作数据所对应的第K距离,其中,K可以为预设的数值。例如,可以将第K个与当前历史操作数据距离最近的其他历史操作数据的距离信息作为第K距离。基于第K距离确定与当前历史操作数据相对应的距离领域。例如,可以以当前历史操作数据为原点,以第K距离为半径画圆,这个圆以内的范围即为第K距离领域。进一步的,将在距离领域内的其他历史操作数据均作为与当前历史操作数据相对应的邻居数据,邻居数据可以为一个,也可以为多个。
示例性的,当前历史操作数据p所对应的第K距离为dkp=d(p,o)。其中,d(p,o)表示p和o之间的距离,即表示o为距离p最近的第k个历史操作数据,当然,也可能存在与o距离p相同的其他历史操作数据。按照几何图像表示来看,在p与o点这个距离空间内包含至少k个历史操作数据。可以将第K距离领域以内的除p外的所有历史操作数据作为与p相对应的邻居数据,第K距离领域内的邻居数据的数量|Nkp|≥k。也就是说,与p相对应的邻居数据中包含小于o与p之间距离的其他历史操作数据,以及等于o与p之间距离的历史操作数据。
S320、确定当前历史操作数据与各邻居数据之间的可达距离。
在本实施例中,可以将当前历史操作数据与邻居数据之间的距离信息作为当前历史操作数据与该邻居数据之间的可达距离。或者,也可以从当前历史操作数据与各邻居数据之间的距离信息中选取出一个作为距离信息,作为当前历史操作数据与各邻居数据之间的可达距离。
在本实施例中,确定当前历史操作数据与各邻居数据之间的可达距离,包括:将所述当前历史操作数据与各所述邻居数据之间的距离信息中的最大的距离值作为所述可达距离。
具体的,可以从当前历史操作数据与各邻居数据之间的距离信息中选取出最大的距离信息,进而将该最大的距离值作为当前历史操作数据与各邻居数据之间的可达距离。也就是说,当前历史操作数据与各邻居数据之间的可达距离均一致。示例性的,当前历史操作数据p与各邻居数据之间的可达距离可以表示为:reach-distancek(p,o)=max{dko,d(p,o)}。表示p到离其最近的k个邻居数据的可达距离是相等的,且都等于dko。
S330、基于各可达距离以及邻居数据的数量,确定当前历史操作数据所对应的局部立群因子。
其中,局部立群因子可以用于表征被检测数据的离群程度,局部立群因子越大,表示该数据的离群程度越明显。
在本实施例中,可以统计与当前历史操作数据相对应的邻居数据的数量,进而,根据各可达距离以及邻居数据的数量,计算得到当前历史操作数据所对应的局部立群因子。
在本实施例中,基于各可达距离以及邻居数据的数量,确定当前历史操作数据所对应的局部立群因子,包括:基于各可达距离以及邻居数据的数量,确定与当前历史操作数据相对应的局部可达密度;基于与当前历史操作数据相对应的局部可达密度、与各邻居数据相对应的局部可达密度以及邻居数据的数量,确定当前历史操作数据所对应的局部立群因子。
具体的,可以对各可达距离进行求和,得到总可达距离,进而,可以对总可达距离和邻居数据的数量作商处理,得到商值。对商值求倒数,得到的倒数可以作为与当前历史操作数据相对应的局部可达密度。同理,也可以计算得到与当前历史操作数据相对应的各邻居数据所对应的局部可达密度,不做赘述。
示例性的,局部可达密度可以表示为:
其中,lrdk(p)表示为历史操作数据p的局部可达密度,Nkp表示为第K距离领域;|Nkp|表示第K距离领域内邻居数据的数量。需要说明的是,局部可达密度可以用于衡量数据点在局部区域内与其邻居数据的平均可达距离的倒数。局部可达密度越大,表示该点与其邻居数据的可达距离越小,也就是说该点与其邻居数据的密度越大,越可能认为属于同一簇。密度越小,越可能是离群点,如果p和周围邻居数据是同一簇,那么可达距离可能为较小的dko,导致可达距离之和较小,密度值较高;p和周围邻居数据较远,那么可达距离可能为较大的dko,导致可达距离之和较大,密度值较小,离群点概率大。基于此,也可以根据与当前历史操作数据相对应的局部可达密度判断当前历史操作数据是否为异常操作数据,例如,如果一个历史操作数据的局部可达密度比其邻居数据的局部可达密度小,那么这个历史操作数据可能是一个异常操作数据。
进一步的,可以基于当前历史操作数据所对应的局部可达密度与各邻居数据所对应的局部可达密度,确定当前历史操作数据所对应的局部相对密度,进而根据局部相对密度和邻居数据的数量,确定当前历史操作数据所对应的局部立群因子。例如,可以分别计算每个邻居数据所对应的局部可达密度与当前历史操作数据所对应的局部可达密度的比值,得到多个比值,对多个比值求和,得到的和值再与邻居数据的数量作商值处理,得到的商值可以作为当前历史操作数据所对应的局部立群因子。
示例性的,当前历史操作数据p所对应的局部立群因子LOFk(p)可以表示为:
可选的,基于与当前历史操作数据相对应的局部可达密度、与各邻居数据相对应的局部可达密度以及邻居数据的数量,确定当前历史操作数据所对应的局部立群因子,还包括:基于与各邻居数据相对应的局部可达密度以及邻居数据的数量,确定密度平均值;基于与当前历史操作数据相对应的局部可达密度以及密度平均值,确定当前历史操作数据所对应的局部立群因子。
具体的,可以计算各邻居数据所对应的局部可达密度之和,得到和值;再将该和值与邻居数据的数量作商处理,得到的商值可作为密度平均值。进而,可以将密度平均值与当前历史操作数据所对应的局部可达密度作商处理,得到当前历史操作数据所对应的局部立群因子。
示例性的,当前历史操作数据p所对应的局部立群因子LOFk(p)可以表示为:
S340、基于各历史操作数据的局部立群因子,确定异常操作数据。
在本实施例中,如果历史操作数据的局部立群因子越大,则表示该历史操作数据的密度小于其邻居节点密度,该历史操作数据的越可能是异常数据。例如,可以将大于预设阈值的局部立群因子所对应的历史操作数据作为异常操作数据。
在本实施例中,在本实施例中,基于各历史操作数据的局部立群因子,确定异常操作数据,包括:依据历史操作数据的局部立群因子确定预设数量的历史操作数据,作为异常操作数据;或,将局部立群因子大于预设阈值的历史操作数据作为异常操作数据。
其中,预设数量和预设阈值均为自定义数值,可以由技术人员根据实际工作需求进行确定,此处不做限定。
具体的,可以对各局部立群因子从大到小进行排序,将排在前面的预设数量的局部立群因子所隶属的历史操作数据作为异常操作数据。或者,还可以是将局部立群因子与预设阈值进行比对,将局部立群因子大于预设阈值的所有历史操作数据作为异常操作数据。可以将异常操作数据作为异常样本存入训练库中,以基于异常操作数据得到行为监测模型。在本实施例中,还可以基于局部立群因子对各历史操作数据进行排序展示,例如,局部立群因子越大的历史操作数据越靠前展示,使得用户能够通过展示的信息获知到哪些历史操作数据越异常,使得监测可视化,提高监测效果。
本实施例通过利用基于密度的异常检测算法确定各历史操作数据的局部立群因子,量化每个历史操作数据的异常程度,进而根据局部立群因子选取离群程度明显的历史操作数据作为异常操作数据,提高异常操作数据选取的便捷性和准确性。
作为上述实施例的一可选实施例,图4是根据本发明实施例提供的数据处理装置的结构示意图。具体的,可以参见下述具体内容。
如图4所示,本实施例所提供的技术方案可以由数据处理装置进行实现,数据处理装置包括信息采集单元、训练样本构建单元以及行为监测单元。其中,信息采集单元,用于根据预先设置的埋点信息获取用户的操作时间、操作页面、操作内容等操作数据,整理历史操作数据,利用lua+nginx+kafka+logstash抽取埋点日志,挖掘用户的可疑异常操作数据,按照时间序列整理浏览记录等。例如,可以将系统线上请求转向nginx后,使用lua将日志整理成统一的json格式后,通过producer异步发送到kafka集群,再通过logstash将历史操作数据落地到hdfs分布式文件存储系统。训练样本构建单元,用于在离线情况下读取分布式文件存储系统中的历史操作数据进行异常检测,得到历史操作数据的局部立群因子;根据局部立群因子找出排名靠前的异常操作数据进行标注,将其操作序列以及相关特征存入库中进行展示。示例性的,可以使用基于密度的LOF异常检测算法对历史操作数据进行异常检测,得到异常操作数据。
基于密度的LOF异常检测算法确定异常操作数据的实现方式可以是:基于公式(1)确定历史操作数据p的局部立群因子LOFk(p):
/>
其中,LOFk(p)表示p周围的邻居数据所处位置的平均密度与该p所在位置的密度之间的比值,如果这个比值越大于1,说明p的密度小于其领域邻居数据密度,p越可能是异常点。lrdk(p)表示为p的局部可达密度,Nkp表示为第K距离领域;|Nkp|表示第K距离领域内邻居数据的数量,|Nkp|≥k。公式(2)可以按照密度进行理解,密度越高,越可能认为可能属于同一簇,密度越低,越可能是离群点,如果p和周围领域邻居数据是同一簇,那么可达距离可能为较小的dko,导致可达距离之和较小,密度值较高;p和周围邻居数据较远,那么可达距离可能为较大的dko,导致可达距离之和较大,密度值较小,离群点概率大。reach-distancek(p,o)=max{dko,d(p,o)}(3),reach-distancek(p,o)表示p与o之间的可达距离,公式(3)表示p到离其最近的k个邻居数据的可达距离是相等的,且都等于dko。dkp=d(p,o),d(p,o)表示p和o之间的距离。
在上述技术方案的基础上,训练样本构建单元,还用于将异常操作数据作为训练样本存入训练库,将训练样本的特征输入修正装置,适配用户角色/岗位/高峰工作时期等因素进行特征修正。以用户角色为例,根据用户角色属性进行类别编码;当用户角色类型过多时,选择进行目标编码。然后,按照各角色分类,针对各个特征值进行归一化处理,即按照各自角色情况下的范围进行约束,得到归一化后的数值。在本实施例中,还可以对操作特征按照人为维度进行长期特征以及短期特征画像构建,长期特征主要涉及范围为点击关键功能页面的次数、频率、每次点击平均操作时长、登录地址、登录ip、日常登录时间点等特征,进行人员风险建模,便于挖掘该账号是否有异常操作行为以及该账号是否有被盗用的风险,从账号的维度进行风险剖析。还可以使用短期特征等针对账号单天操作行为序列进行编码,便于针对账号短期内出现的异常操作行为,及时发出预警分析。
在上述技术方案的基础上,行为监测单元,用于基于训练样本进行模型训练,得到行为监测模型;通过gunicorn+flask部署行为监测模型;系统根据日志按小时生成用户特征使用行为监测模型进行模型监测,判断截止到当前的特征值中是否有异常操作行为,保障系统的安全运行,减轻系统压力。
为了使本领域技术人员进一步清楚本发明实施例的技术方案,给出具体的应用场景实例。示例性的,参见图5,首先,可以收集用户登录系统之后操作的日志,进行分析整理,按照时序进行lag计算、滑窗分析以及分组统计等进行特征处理,将用户日志整理成结构化的数据。之后,采用LOF异常检测算法对结构化的数据进行常检测,挖掘用户的异常操作行为,针对筛选出来的疑似异常操作行为进行展示判断。其次,对挖掘出来的疑似异常操作确认后,作为训练样本进行LGB(LightGBM)树模型训练,该样本的特征将进入修正装置,适配用户角色/岗位/高峰工作时期等因素进行特征修正,利用修正后的指标构建行为监测模型,用于检测用户异常操作行为,提高预警准确率。
本实施例所提供的技术方案一方面通过异常检测自主挖掘异常操作数据,减少人员的判定量,提高模型异常检测精度;另一方面,通过设定的影响因素对特征进行修正,提升异常监控准确率,从而精准定位异常操作行为并发出相关预警。
图6是根据本发明实施例提供的一种数据处理装置的结构示意图。如图6所示,该装置包括:操作数据获取模块410、待使用数据确定模块420和异常监测模块430。
其中,操作数据获取模块410,用于获取目标对象在当前页面中的操作数据;待使用数据确定模块420,用于基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;异常监测模块430,用于将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
本实施例的技术方案,通过获取目标对象在当前页面中的操作数据;基于操作数据以及目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;将待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定目标对象的操作行为是否异常;其中,行为监测模型是基于异常操作数据来训练的,异常操作数据是基于密度的异常检测算法确定的,解决了现有技术中通过基于人工统计用户操作日志中的操作数据进行异常检测,导致异常检测准确性差,效率低的问题,实现了通过基于密度的异常检测算法确定异常操作数据,进而基于异常操作数据训练行为监测模型,提高模型的检测精度,进而通过目标对象在当前页面中的操作数据以及目标对象在至少一个固有属性下的属性特征,筛选到受影响的异常数据,得到待使用数据,通过行为监测模型对待使用数据进行异常检测,实现提高异常监测准确性的同时,提高异常监测的及时性,达到提高系统安全性的效果。
在上述装置的基础上,可选的,所述装置还包括异常操作数据确定模块,异常操作数据确定模块包括历史原始操作数据获取单元、历史操作数据确定单元和异常操作数据确定单元。
历史原始操作数据获取单元,用于基于系统日志获取多个操作对象的历史原始操作数据;其中,所述历史原始操作数据是预先设置的埋点信息确定的;
历史操作数据确定单元,用于通过对所述历史原始操作数据进行处理,得到目标格式下的历史操作数据;其中,所述历史操作数据中包括操作时间、操作页面标识以及操作内容;
异常操作数据确定单元,用于采用异常检测算法对所述历史操作数据进行处理,确定异常操作数据,以基于所述异常操作数据确定所述行为监测模型。
在上述装置的基础上,可选的,异常操作数据确定单元包括邻居数据确定单元、可达距离确定单元、局部立群因子确定单元和异常操作数据确定子单元。
邻居数据确定单元,用于对于各历史操作数据,确定当前历史操作数据和其他历史操作数据之间的距离信息,并依据所述距离信息从所述其他历史操作数据中确定与所述当前历史操作数据相对应的至少一个邻居数据;其中,所述至少一个邻居数据包含多个;
可达距离确定单元,用于确定所述当前历史操作数据与各所述邻居数据之间的可达距离;
局部立群因子确定单元,用于基于各所述可达距离以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子;
异常操作数据确定子单元,用于基于各历史操作数据的局部立群因子,确定异常操作数据。
在上述装置的基础上,可选的,邻居数据确定单元包括距离领域确定单元和邻居数据确定子单元。
距离领域确定单元,用于依据所述距离信息,确定与所述当前历史操作数据相对应的距离领域;
邻居数据确定子单元,用于基于在所述距离领域内的其他历史操作数据,确定与所述当前历史操作数据相对应的至少一个邻居数据。
在上述装置的基础上,可选的,可达距离确定单元,用于将所述当前历史操作数据与各所述邻居数据之间的距离信息中的最大的距离值作为所述可达距离。
在上述装置的基础上,可选的,局部立群因子确定单元包括局部可达密度确定单元和局部立群因子确定子单元。
局部可达密度确定单元,用于基于各所述可达距离以及所述邻居数据的数量,确定与所述当前历史操作数据相对应的局部可达密度;
局部立群因子确定子单元,用于基于与所述当前历史操作数据相对应的局部可达密度、与各所述邻居数据相对应的局部可达密度以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子。
在上述装置的基础上,可选的,局部立群因子确定子单元包括密度平均值确定单元和局部立群因子确定小单元。
密度平均值确定单元,用于基于与各所述邻居数据相对应的局部可达密度以及所述邻居数据的数量,确定密度平均值;
局部立群因子确定小单元,用于基于与所述当前历史操作数据相对应的局部可达密度以及所述密度平均值,确定所述当前历史操作数据所对应的局部立群因子。
在上述装置的基础上,可选的,异常操作数据确定子单元,用于依据所述历史操作数据的局部立群因子确定预设数量的历史操作数据,作为所述异常操作数据;或,将所述局部立群因子大于预设阈值的历史操作数据作为所述异常操作数据。
在上述装置的基础上,可选的,所述装置还包括:编码模块,编码模块包括类别编码确定单元、类别编码更新单元、异常操作数据更新单元和归一化单元。
类别编码确定单元,用于确定所述异常操作数据在至少一个固有属性下所对应的类别编码;
类别编码更新单元,用于基于所述异常操作数据在至少一个固有属性下的风险概率,更新所述类别编码;
异常操作数据更新单元,用于基于更新后的所述类别编码更新所述异常操作数据;
归一化单元,用于通过对所述异常操作数据进行归一化处理,得到参与训练所述行为监测模型的异常操作数据。
在上述装置的基础上,可选的,所述操作数据包括操作页面、触发至少一个功能控件的次数、每次触发平均时长、登录地址、登录IP以及日常登录时间。
在上述装置的基础上,可选的,所述装置还包括:部署模块,部署模块,用于部署预先训练得到的行为监测模型,以基于所述行为监测模型确定待使用数据所对应的分类结果,并基于所述分类结果确定所述待使用数据是否异常。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
图7为本发明实施例所提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施例实施方式的示例性电子设备60的框图。图7显示的电子设备60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备60以通用计算设备的形式表现。电子设备60的组件可以包括但不限于:一个或者多个处理器或者处理单元601,系统存储器602,连接不同系统组件(包括系统存储器602和处理单元601)的总线603。
总线603表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备60访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器602可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)604和/或高速缓存存储器605。电子设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统606可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线603相连。存储器602可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块607的程序/实用工具608,可以存储在例如存储器602中,这样的程序模块607包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块607通常执行本发明所描述的实施例中的功能和/或方法。
电子设备60也可以与一个或多个外部设备609(例如键盘、指向设备、显示器610等)通信,还可与一个或者多个使得用户能与该电子设备60交互的设备通信,和/或与使得该电子设备60能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口611进行。并且,电子设备60还可以通过网络适配器612与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器612通过总线603与电子设备60的其它模块通信。应当明白,尽管图7中未示出,可以结合电子设备60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元601通过运行存储在系统存储器602中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据处理方法。
本发明实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种数据处理方法,该方法包括:
获取目标对象在当前页面中的操作数据;
基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;
将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;
其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现如本申请任一实施例所提供的数据处理方法。
计算机程序产品在实现的过程中,可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
获取目标对象在当前页面中的操作数据;
基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;
将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;
其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于系统日志获取多个操作对象的历史原始操作数据;其中,所述历史原始操作数据是预先设置的埋点信息确定的;
通过对所述历史原始操作数据进行处理,得到目标格式下的历史操作数据;其中,所述历史操作数据中包括操作时间、操作页面标识以及操作内容;
采用异常检测算法对所述历史操作数据进行处理,确定异常操作数据,以基于所述异常操作数据确定所述行为监测模型。
3.根据权利要求2所述的方法,其特征在于,所述采用异常检测算法对所述历史操作数据进行处理,确定异常操作数据,包括:
对于各历史操作数据,确定当前历史操作数据和其他历史操作数据之间的距离信息,并依据所述距离信息从所述其他历史操作数据中确定与所述当前历史操作数据相对应的至少一个邻居数据;其中,所述至少一个邻居数据包含多个;
确定所述当前历史操作数据与各所述邻居数据之间的可达距离;
基于各所述可达距离以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子;
基于各历史操作数据的局部立群因子,确定异常操作数据。
4.根据权利要求3所述的方法,其特征在于,所述依据所述距离信息从所述其他历史操作数据中确定与所述当前历史操作数据相对应的至少一个邻居数据,包括:
依据所述距离信息,确定与所述当前历史操作数据相对应的距离领域;
基于在所述距离领域内的其他历史操作数据,确定与所述当前历史操作数据相对应的至少一个邻居数据。
5.根据权利要求3所述的方法,其特征在于,所述确定所述当前历史操作数据与各所述邻居数据之间的可达距离,包括:
将所述当前历史操作数据与各所述邻居数据之间的距离信息中的最大的距离值作为所述可达距离。
6.根据权利要求3所述的方法,其特征在于,所述基于各所述可达距离以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子,包括:
基于各所述可达距离以及所述邻居数据的数量,确定与所述当前历史操作数据相对应的局部可达密度;
基于与所述当前历史操作数据相对应的局部可达密度、与各所述邻居数据相对应的局部可达密度以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子。
7.根据权利要求6所述的方法,其特征在于,所述基于与所述当前历史操作数据相对应的局部可达密度、与各所述邻居数据相对应的局部可达密度以及所述邻居数据的数量,确定所述当前历史操作数据所对应的局部立群因子,包括:
基于与各所述邻居数据相对应的局部可达密度以及所述邻居数据的数量,确定密度平均值;
基于与所述当前历史操作数据相对应的局部可达密度以及所述密度平均值,确定所述当前历史操作数据所对应的局部立群因子。
8.根据权利要求3所述的方法,其特征在于,所述基于各历史操作数据的局部立群因子,确定异常操作数据,包括:
依据所述历史操作数据的局部立群因子确定预设数量的历史操作数据,作为所述异常操作数据;或,
将所述局部立群因子大于预设阈值的历史操作数据作为所述异常操作数据。
9.根据权利要求3所述的方法,其特征在于,还包括:
确定所述异常操作数据在至少一个固有属性下所对应的类别编码;
基于所述异常操作数据在至少一个固有属性下的风险概率,更新所述类别编码;
基于更新后的所述类别编码更新所述异常操作数据;
通过对所述异常操作数据进行归一化处理,得到参与训练所述行为监测模型的异常操作数据。
10.根据权利要求1所述的方法,其特征在于,所述操作数据包括操作页面、触发至少一个功能控件的次数、每次触发平均时长、登录地址、登录IP以及日常登录时间。
11.根据权利要求1所述的方法,其特征在于,还包括:
部署预先训练得到的行为监测模型,以基于所述行为监测模型确定待使用数据所对应的分类结果,并基于所述分类结果确定所述待使用数据是否异常。
12.一种数据处理装置,其特征在于,包括:
操作数据获取模块,用于获取目标对象在当前页面中的操作数据;
待使用数据确定模块,用于基于所述操作数据以及所述目标对象在至少一个固有属性下的属性特征,确定待使用数据;其中,所述至少一个固有属性包括用户角色属性、高峰时间段属性以及岗位属性中的至少一种;
异常监测模块,用于将所述待使用数据输入至预先训练得到的行为监测模型中进行异常监测,确定所述目标对象的操作行为是否异常;
其中,所述行为监测模型是基于异常操作数据来训练的,所述异常操作数据是基于密度的异常检测算法确定的。
13.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11中任一项所述的数据处理方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的数据处理方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-11中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101895.1A CN117909970A (zh) | 2024-01-24 | 2024-01-24 | 一种数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101895.1A CN117909970A (zh) | 2024-01-24 | 2024-01-24 | 一种数据处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117909970A true CN117909970A (zh) | 2024-04-19 |
Family
ID=90685752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410101895.1A Pending CN117909970A (zh) | 2024-01-24 | 2024-01-24 | 一种数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909970A (zh) |
-
2024
- 2024-01-24 CN CN202410101895.1A patent/CN117909970A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Semi-supervised log-based anomaly detection via probabilistic label estimation | |
CN111475804B (zh) | 一种告警预测方法及系统 | |
CN110928718B (zh) | 一种基于关联分析的异常处理方法、系统、终端及介质 | |
CN110321371B (zh) | 日志数据异常检测方法、装置、终端及介质 | |
CN106790256B (zh) | 用于危险主机监测的主动机器学习系统 | |
US10679135B2 (en) | Periodicity analysis on heterogeneous logs | |
US20150121136A1 (en) | System and method for automatically managing fault events of data center | |
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN109784042B (zh) | 时间序列中异常点的检测方法、装置、电子设备及存储介质 | |
AU2017274576B2 (en) | Classification of log data | |
US20180039914A1 (en) | Machine learning techniques for providing enriched root causes based on machine-generated data | |
CN111709765A (zh) | 一种用户画像评分方法、装置和存储介质 | |
Dutta et al. | Big data architecture for environmental analytics | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
CN112039907A (zh) | 一种基于物联网终端评测平台的自动测试方法及系统 | |
CN115344563B (zh) | 数据去重方法及装置、存储介质、电子设备 | |
CN117909970A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 | |
CN113781068A (zh) | 线上问题解决方法、装置、电子设备和存储介质 | |
CN115237739B (zh) | 板卡运行环境的分析方法、装置、设备及可读存储介质 | |
CN117473571B (zh) | 一种数据信息安全处理方法及系统 | |
CN113761914B (zh) | 一种基于svm模型的互联网文本气象灾害事件识别方法 | |
CN113343051B (zh) | 一种异常sql检测模型构建方法及检测方法 | |
Kumar et al. | Non-Deterministic and Semi-Supervised Log-based Anomaly Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |