CN110443274B - 异常检测方法、装置、计算机设备及存储介质 - Google Patents
异常检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110443274B CN110443274B CN201910575550.9A CN201910575550A CN110443274B CN 110443274 B CN110443274 B CN 110443274B CN 201910575550 A CN201910575550 A CN 201910575550A CN 110443274 B CN110443274 B CN 110443274B
- Authority
- CN
- China
- Prior art keywords
- data
- combined
- detection model
- detection
- operation terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 228
- 230000005856 abnormality Effects 0.000 title claims description 25
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 abstract description 19
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 7
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种异常检测方法,包括:获取用户进行注册或验证时的操作终端数据,其中,操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;将操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,组合检测模型中包括两个或两个以上的检测模型,每个检测模型均输出对应的子结果,多个子结果生成组合结果信息;对组合结果信息进行投票,以得到最终结果信息。本申请中采用特征转化方法,将难以理解的多个属性数据结合样本分布情况,转化为0‑1二值的组合特征,生成具有区分性的组合特征集合,构建Bagging策略下的检测模型,较为全面的判断注册、验证用户是否异常,提高了异常检测的准确率。
Description
技术领域
本发明涉及计算机应用技术领域,具体而言,本发明涉及一种异常检测方法、装置、计算机设备及存储介质。
背景技术
用户异常行为是指违反社会文明准则或成群体行为习惯和标准的“反常”行为。特别是随着人们对公共安全意识、网络安全意识的提高,因此对人群场景、网络等环境中的异常行为检测的关注度越来越高。
目前对用户行为异常检测,通常依据个体异常行为的特征进行匹配检测,或依据个体正常行为的特征进行对比检测。但由于样本的属性基本为标称属性,仅分辨率等少量属性为数值型。复杂的文本型设备数据和难以理解的标称属性数据,难以挖掘有效分类特征,进而不能得到好的异常检测模型,导致了异常检测的准确率很低。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,公开一种异常检测方法、装置、计算机设备及存储介质,能够全面地获取光标的触发数据,以精确地识别异常的光标触发数据。
为了达到上述目的,本发明公开一种异常检测方法,包括:
获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;
将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;
对所述组合结果信息进行投票,以得到最终结果信息。
可选的,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型。
可选的,所述组合检测模型的训练方法包括:
获取样本数据以构造组合特征集,其中,所述组合特征集包括正样本和负样本;
所述Naive Bayes检测模型同时学习正样本和负样本的识别;
所述正类的OneClassSVM检测模型和所述正类的孤立森林分类与检测模型学习正样本的识别;
所述负类的OneClassSVM检测模型和负类的孤立森林分类与检测模型学习负样本的识别。
可选的,所述获取样本数据以构造组合特征集的方法包括:
将通过至少两种获取方式而获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取;
计算每一种获取方式所获取的样本数据的支持度和置信度;
选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;
将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
可选的,所述获取所述用户进行注册或验证时的操作终端数据的方法包括:通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取。
可选的,所述第一规则为:所述操作终端数据中与基准数据相同的数据标记为1,作为正样本,与所述基准数据不同的标记为0,作为负样本。
可选的,所述对所述组合结果信息进行投票,以得到最终结果信息的方法包括:
将获取的组合结果信息根据Bagging策略进行投票;
选取标记数量最多的结果信息作为最终结果。
另一方面,本申请公开一种异常检测装置,包括:
获取模块:被配置为执行获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;
处理模块:被配置为执行将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;
执行模块:被配置为执行对所述组合结果信息进行投票,以得到最终结果信息。
可选的,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型,所述Naive Bayes检测模型同时学习正样本和负样本的识别;所述正类的OneClassSVM检测模型和所述正类的孤立森林分类与检测模型学习正样本的识别;所述负类的OneClassSVM检测模型和负类的孤立森林分类与检测模型学习负样本的识别。
可选的,所述处理模块中还包括:
特征集构建模块:被配置为获取样本数据以构造组合特征集,其中,所述组合特征集包括正样本和负样本。
可选的,所述特征集构建模块还包括:
样本获取模块:被配置为执行将通过至少两种获取方式而获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取;
计算模块:被配置为执行计算每一种获取方式所获取的样本数据的支持度和置信度;
第一选取模块:被配置为执行选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;
标记模块:被配置为执将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
可选的,所述获取所述用户进行注册或验证时的操作终端数据的方法包括:通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取。
可选的,所述第一规则为:所述操作终端数据中与基准数据相同的数据标记为1,作为正样本,与所述基准数据不同的标记为0,作为负样本。
可选的,所述执行模块包括:
投票模块:被配置为执行将获取的组合结果信息根据Bagging策略进行投票;
第二选取模块:被配置为执行选取标记数量最多的结果信息作为最终结果。
另一方面,本申请公开一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述任一项所述的异常检测方法的步骤。
另一方面,本申请公开一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一项所述的异常检测方法的步骤。
本发明的有益效果是:在本申请中公开的异常检测方法及装置,通过分解复杂的文本型设备数据,采用有效的特征转化方法,将难以理解的多个标称属性数据结合样本分布情况,转化为0-1二值的组合特征,生成具有区分性的组合特征集合,挖掘出有效的分类特征集,即可利用此特征集进行模型训练,得到更好的异常检测模型,同时,采用五种算法构建Bagging策略下的检测模型,根据Bagging策略,构建多模型用于异常检测,NaiveBayes从样本整体分布上给出一个综合概率,OneClassSVM和孤立森林分别从正常、异常方面给出样本的检测结果,利用五者的判定结果,能够较为全面的判断注册、验证用户是否异常,有效的避免了只利用数据量较多的正常样本训练出单一检测模型的片面性问题可在一定程度上避免由于样本不均衡导致Naive Bayes分类不准确的问题,提高了异常检测的准确率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一种异常检测方法示意图;
图2为本发明组合检测模型的训练方法的流程图;
图3为本发明获取样本数据以构造组合特征集的方法流程图;
图4为本发明对得到最终结果信息的方法流程图;
图5为本发明一种异常检测装置的结构示意图;
图6为本发明计算机设备基本结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体的,请参阅图1,本发明公开一种异常检测方法,包括:
S1000、获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;
本申请的技术方案主要用于验证用户操作异常行为的检测,尤其是在监控用户在注册新账号或者登陆时进行验证过程中的异常操作。
在获取用户通过客户端发送注册信息至服务器端的数据中,包括用户注册的账号信息、身份信息,同时还会携带客户端所在设备的IP地址,进一步的通过设置获取参数,还可以进一步获取得到关于客户端所在设备的设备类型以及系统信息。这里的设备类型包括设备的硬件支持,比如手机、平板、电脑终端或者其他设备,而系统信息为这些硬件支持的软件,比如IOS系统、OS系统、WINDOWS系统、Andriod系统,进一步的,系统信息还包括具体的系统版本号信息以及系统的分辨率等信息。在本申请中,所述操作终端数据至少包括设备类型、系统信息和IP地址中的两种或两种以上的组合信息。例如,其组合信息可以为设备类型、系统类型、IP地址这三种数据,可以是设备类型、系统类型、版本号、IP地址这四种数据,也可以是设备类型、系统类型、版本号、分辨率、IP地址这五个,还可以是其他的数据,以及这些数据的任意组合。
S2000、将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;
通过步骤S1000可知,获取的操作终端数据为组合信息,该组合信息至少包括设备类型、系统信息和IP地址中的两种或两种以上,将这些组合信息输入至组合检测模型中进行检测,即可得到对应的组合结果信息。在本申请中,组合检测模型包括至少两个检测模型,每个检测模型输出结果都相互独立,因此针对组合信息会输出至少两组结果信息。例如,组合信息为设备类型、系统类型和IP地址这三种,而组合检测模型中包括A、B、C、D和E五种,每个检测模型都相互独立,因此可得到五组针对设备类型、系统类型和IP地址的组合信息的结果信息,比如结果信息分别为(A1、A2、A3)、(B1、B2、B3)、(C1、C2、C3)、(D1、D2、D3)以及(E1、E2、E3),标号1表示设备类型的检测结果信息,标号2表示系统类型的检测结果,标号3表示IP地址的检测结果。
S3000、对所述组合结果信息进行投票,以得到最终结果信息。
组合检测模块中的多个检测模型分别针对同样的操作终端数据输出对应的子结果后生成组合结果信息,随后,对组合结果信息中的子结果按照一定的规则进行投票以得最终结果信息。这里公开的一定的规则包括但不限于选取子结果相同的数量最多的作为最终结果。
本申请通过获取用户的操作终端数据,并从中提取多个数据作为组合数据进行识别,通过组合数据使判断结果更准确,此外识别组合数据的检测模型也是组合检测模型,通过多种训练方式训练出来的不同的检测模型对统一组合数据进行识别,以投票的方式来获取最终的结果信息,全面地判断注册、验证用户是否异常,有效的避免了只利用数据量较多的正常样训练出单一检测模型的片面性问题,同时降低了由于样本不均衡导致单一的检测模型的不准确性,提高了异常检测的准确率。
在一实施例中,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型。
Naive Bayes(朴素贝叶斯模型)检测模型是一种分类算法,且借助了贝叶斯定理。另外,它是一种生成模型(generative model),采用直接对联合概率P(x,c)建模,以获得目标概率值的方法。贝叶斯定理描述了一个事件的可能性,这个可能性是基于了预先对于一些与该事件相关的情况的知识,用数学公式来表述贝叶斯定理:
用数学公式来表述贝叶斯定理:
P(c∣x)=P(x)P(x∣c)/P(c)=P(x,c)/P(x)
c表示的是随机事件发生的一种情况。x表示的就是证据(evidence)\状况(condition),泛指与随机事件相关的因素。
P(c|x):在x的条件下,随机事件出现c情况的概率(后验概率)。
P(c):(不考虑相关因素)随机事件出现c情况的概率(先验概率)。
P(x|c):在已知事件出现c情况的条件下,条件x出现的概率(后验概率)。
P(x):x出现的概率(先验概率)。
OneClassSVM检测模型是指在训练数据中只有正样本和负样本,符合要求的为正样本,所有其他不符合要求的则为负样本,利用One-Class SVM,它有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果,例如两个截然分开的数据集。严格来说,一分类的SVM并不是一个异常点监测算法,而是一个奇异点检测算法:它的训练集不能包含异常样本,否则的话,可能在训练时影响边界的选取。本申请中,OneClassSVM检测模型包括正类的OneClassSVM检测模型、负类的OneClassSVM检测模型,其中,正类的OneClassSVM检测模型只给定正样本进行训练,而负类的OneClassSVM检测模型只给定负样本进行训练。
孤立森林分类与检测模型(Isolation Forest)是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。适用与连续数据(Continuous numerical data)的异常检测,将异常定义为“容易被孤立的离群点(more likely to be separated)”——可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。在本申请中孤立森林分类与检测模型也包括正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型,其中正类的孤立森林分类与检测模型通过正样本训练,负类的孤立森林分类与检测模型通过负样本训练。
在一实施例中,请参阅图2,上述五种检测模型构成的组合检测模型的训练方法包括:
S2100、获取样本数据以构造组合特征集,其中,所述组合特征集包括正样本和负样本;
上述公开的正样本为根据可能的识别目的,选取的符合该目的数据信息,这些数据信息的表现形式可以是文字、数字、字符串,也可以是图片、声音等。本申请的面对是用户检测用户异常输入行为,其是通过用户客户端的设备类型、系统信息以及IP地址等信息来判断的,因此在本申请中,该正样本是指合法的设备类型、系统信息和IP地址,比如合法的设备类型包括手机端、PC端、平板端和电脑端,当识别出登录和注册信息是来自于上述公开的设备类型时,则为正样本,当识别出的登录和注册信息是不是属于手机、PC端、平板和电脑端的任意一种,而是通过智能手环等一些未被认定为合法设备类型的终端时,则该智能手环的设备数据为负样本。这些样本数据通过收集而得到。
在一实施例中,请参阅图3,所述获取样本数据以构造组合特征集的方法包括:
S2110、将通过至少两种获取方式而获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取;
在一实施例中,样本数据来源于不同的获取方式,比如,通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取。通过爬虫算法获取为通过编译一段爬虫代码以对用户的登录进行监控,获取用户在注册或者验证时的所有操作终端数据,此过程采集的数据,除了最终的注册信息以及验证信息外,还包括中间信息,比如在传输过程中是否被截取等。设备检测为通过客户端自身识别到的数据,即在客户端,当通过输入工具输入注册信息或者验证信息之后,在最终发送之前,由客户端上自身的输入工具监测到的注册信息或验证信息;而用户发送的注册或验证信息为用户通过客户端发送,且通过后端服务器端接收到的注册或验证信息的。可以说,通过设备检测获得的数据为用户输入的原始数据,而通过爬虫算法获取的数据为原始数据从客户端发送到服务器端过程中的数据,而从用户发送的数据为服务器端接收到的原始数据,从数据输入、传输到接收三个阶段对同一数据进行监控,可以确保数据的一致性。只要任何一个环节中,对比得到的数据不一致,则表示用户注册或验证的数据有异常。
S2120、计算每一种获取方式所获取的样本数据的支持度和置信度;
这里的支持度揭示了上述几种方式获取的数据同时出现的概率,置信度为表示上述各种方式获取的数据的可信度,通过验证可以得出各种获取样本数据的准确度,根据准确度来对各种方式设置一个数值,以代表其置信度,阈值越高,代表这种方式获取的数据越可信,每种方式都有一个数值来表示其置信度,例如,在上述实施例中,通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中三种方式获取用户注册或验证的数据,通过前期的数据对比和测算,可对三种方式分别设置一个置信度,比如通过爬虫算法获取的数据置信度为A,通过设备检测方式获取的数据置信度为B,通过用户发送的注册或验证信息的方式置信度为C,当通过步骤S2110方式获取了数据后,则根据数据的来源,匹配对应的置信度。
S2130、选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;
支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度(Confidence)的公式式:Confidence(A->B)=P(A|B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。
在本申请中,由于上述的操作终端数据来自于不同的获取方式,因此可以获取得到多组操作终端数据,每一组操作终端数据的每一个数据都会按照支持度和置信度的公式计算得到对应的数值,选取对应的项目下支持度和置信度都最大的数据,组合起来作为本次计算的基准数据。
S2140、将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
由于可以从多种途径下获取到操作终端数据,将操作终端数据与基准数据进行对比,按照第一规则进行标记,则可得到一组特征数据,这组特征数据为特征集。
在一实施例中,所述第一规则为,所述操作终端数据中与基准数据相同的数据标记为1,作为正样本,与所述基准数据不同的标记为0,作为负样本。这样,上述多组操作终端数据则构成了由0或1组成的特征集。
S2200、所述Naive Bayes检测模型同时学习正样本和负样本的识别;所述正类的OneClassSVM检测模型和所述正类的孤立森林分类与检测模型学习正样本的识别;所述负类的OneClassSVM检测模型和负类的孤立森林分类与检测模型学习负样本的识别。
Naive Bayes检测模型为一种分类算法,对其分别进行正样本和负样本的识别,例如,当输入需要识别的数据时,输出是正类或负类,其中,与正样本一样时,为正类,输出1,与负样本一样时,为负类,输出-1。由于在Naive Bayes检测模型中既进行了正样本的训练,又进行了负样本的训练,因此能够较为准确地得到正类输出和负类输出。正类的OneClassSVM检测模型主要通过正样本进行训练,因此对于正类的输出较为准确,负类的OneClassSVM检测模型主要通过负样本进行训练,因此对于负类的输出较为准确,同样,正类的孤立森林分类与检测模型主要对于正类的输出较为准确,负类的孤立森林分类与检测模型对于负类的输出较为准确。
当通过上述步骤S2000获取了组合结果信息后,则对所述组合结果信息进行投票,以得到最终结果信息,具体的,请参阅图4,对所述组合结果信息进行投票以得到最终结果信息的方法包括:
S3100、将获取的组合结果信息根据Bagging策略进行投票;
S3200、选取标记数量最多的结果信息作为最终结果。
在本申请中,操作终端数据是通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取,获取的方式有多种,每一种方式获取的数据可能相同也可能不同,这就导致了操作终端数据的多样性,而操作终端数据输入至组合检测模型中进行检测后,得到组合结果信息,其中组合检测模型的检测结果是相互独立的,不同的检测模型其训练的原理不同,训练的数据也可能不一样,每个检测模型都有自己的特点,因此得到的组合结果信息也可能不一样,将不同的检测模型得到的检测结果组合起来就得到了组合结果信息。将获取的组合结果信息根据Bagging策略进行投票。
Bagging(装袋)又叫自助聚集,是一种根据均匀概率分布从数据中重复抽样(有放回)的技术。每个抽样生成的自助样本集上,训练一个基分类器;对训练过的分类器进行投票,将测试样本指派到得票最高的类中。每个自助样本集都和原数据一样大。有放回抽样,一些样本可能在同一训练集中出现多次,一些可能被忽略。
通过对组合结果信息进行对比,选取相同数据最多的作为最终结果。例如,在一实施例中,假设获取的操作终端数据为:设备类型、系统类型、版本号、分辨率、IP地址,在构建组合特征集步骤中,通过
假设采用Naive Bayes检测模型、正类和负类的OneClassSVM检测模型、正类和负类的孤立森林分类与检测模型五种检测模型得到的组合结果信息如下:
上述示例中,五种检测模型分别输出五组数据,由于每组数据都是对操作终端数据的输出结果与基准数据进行对比后,按照第一规则进行标记后构成的数据,因此,每组数据都具有统一性,即被归纳为0或1的数据,这样方便进行对比投票,从上述五组数据种,可以看出,对于数据1,出现“1”数量最多,因此数据1的最终结果为“1”,数据2的最终结果为“1”,数据3的最终结果为“0”,数据4的最终结果为“0”,数据5的最终结果为“1”,因此最终结果为“1、1、0、0、1”。
本申请的技术方案中,通过分解复杂的文本型设备数据,采用有效的特征转化方法,将难以理解的多个标称属性数据结合样本分布情况,转化为0-1二值的组合特征,生成具有区分性的组合特征集合,挖掘出有效的分类特征集,即可利用此特征集进行模型训练,得到更好的异常检测模型,同时,采用五种算法构建Bagging策略下的检测模型,根据Bagging策略,构建多模型用于异常检测,Naive Bayes从样本整体分布上给出一个综合概率,OneClassSVM和孤立森林分别从正常、异常方面给出样本的检测结果,利用五者的判定结果,能够较为全面的判断注册、验证用户是否异常,有效的避免了只利用数据量较多的正常样训练出单一检测模型的片面性问题,同时降低了由于样本不均衡导致Naive Bayes分类的不准性,提高了异常检测的准确率。
另一方面,请参阅图5,本申请公开一种异常检测装置,包括:
获取模块1000:被配置为执行通过获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;处理模块2000:被配置为执行将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;执行模块3000:被配置为执行对所述组合结果信息进行投票,以得到最终结果信息。
可选的,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型,所述Naive Bayes检测模型同时学习正样本和负样本的识别;所述正类的OneClassSVM检测模型和所述正类的孤立森林分类与检测模型学习正样本的识别;所述负类的OneClassSVM检测模型和负类的孤立森林分类与检测模型学习负样本的识别。
可选的,所述处理模块中还包括:特征集构建模块:被配置为获取样本数据以构造组合特征集,其中,所述组合特征集包括正样本和负样本。
可选的,所述特征集构建模块还包括:样本获取模块:被配置为执行将通过至少两种获取方式而获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取;计算模块:被配置为执行计算每一种获取方式所获取的样本数据的支持度和置信度;第一选取模块:被配置为执行选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;标记模块:被配置为执将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
可选的,所述获取所述用户进行注册或验证时的操作终端数据的方法包括:通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取。
可选的,所述第一规则为:所述操作终端数据中与基准数据相同的数据标记为1,作为正样本,与所述基准数据不同的标记为0,作为负样本。
可选的,所述执行模块包括:投票模块:被配置为执行将获取的组合结果信息根据Bagging策略进行投票;第二选取模块:被配置为执行选取标记数量最多的结果信息作为最终结果。
由于上述的异常检测装置是异常检测方法一一对应的装置,其功能和执行原理一样,此处不再赘述。
本发明实施例提供计算机设备基本结构框图请参阅图6。
该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种异常检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种异常检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
计算机设备通过接收关联的客户端发送的提示行为的状态信息,即关联终端是否开启提示以及贷款人是否关闭该提示任务。通过验证上述任务条件是否达成,进而向关联终端发送对应的预设指令,以使关联终端能够根据该预设指令执行相应的操作,从而实现了对关联终端的有效监管。同时,在提示信息状态与预设的状态指令不相同时,服务器端控制关联终端持续进行响铃,以防止关联终端的提示任务在执行一段时间后自动终止的问题。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述的异常检测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种异常检测方法,其特征在于,包括:
获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;
将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;
对所述组合结果信息进行投票,以得到最终结果信息;
所述组合检测模型通过由样本数据构造的组合特征集训练得到,所述样本数据构造组合特征集的方法包括:
将通过至少两种获取方式获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取,所述设备检测获得用户注册或验证时输入阶段的操作终端数据,所述爬虫算法获取用户注册或验证时传输阶段的操作终端数据,所述用户发送的注册或验证信息中获取用户注册或验证时接收阶段的操作终端数据;
计算每一种获取方式所获取的样本数据的支持度和置信度;
选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;
将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
2.根据权利要求1所述的异常检测方法,其特征在于,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型。
3.根据权利要求2所述的异常检测方法,其特征在于,所述组合检测模型的训练方法包括:
获取样本数据以构造组合特征集,其中,所述组合特征集包括正样本和负样本;
所述Naive Bayes检测模型同时学习正样本和负样本的识别;
所述正类的OneClassSVM检测模型和所述正类的孤立森林分类与检测模型学习正样本的识别;
所述负类的OneClassSVM检测模型和负类的孤立森林分类与检测模型学习负样本的识别。
4.根据权利要求1所述的异常检测方法,其特征在于,所述第一规则为:所述操作终端数据中与基准数据相同的数据标记为1,作为正样本,与所述基准数据不同的标记为0,作为负样本。
5.根据权利要求1所述的异常检测方法,其特征在于,所述对所述组合结果信息进行投票,以得到最终结果信息的方法包括:
将获取的组合结果信息根据Bagging策略进行投票;
选取标记数量最多的结果信息作为最终结果。
6.一种异常检测装置,其特征在于,包括:
获取模块:被配置为执行通过获取用户进行注册或验证时的操作终端数据,其中,所述操作终端数据为包括设备类型、系统信息和IP地址中的两种或两种以上的组合数据;
处理模块:被配置为执行将所述操作终端数据输入至组合检测模型中进行检测以得到组合结果信息,其中,所述组合检测模型中包括两个或两个以上的检测模型,每个所述检测模型均输出对应的子结果,多个所述子结果生成组合结果信息;
执行模块:被配置为执行对所述组合结果信息进行投票,以得到最终结果信息;
所述组合检测模型通过由样本数据构造的组合特征集训练得到,所述样本数据构造组合特征集的方法包括:
将通过至少两种获取方式获取的用户注册或验证时的操作终端数据作为样本数据,其中,所述获取方式包括通过爬虫算法获取、设备检测获得以及从用户发送的注册或验证信息中获取,所述设备检测获得用户注册或验证时输入阶段的操作终端数据,所述爬虫算法获取用户注册或验证时传输阶段的操作终端数据,所述用户发送的注册或验证信息中获取用户注册或验证时接收阶段的操作终端数据;
计算每一种获取方式所获取的样本数据的支持度和置信度;
选取所述支持度和置信度最大的操作终端数据的组合作为基准数据;
将每一种所述获取方式所获取的操作终端数据与所述基准数据的比对结果按照第一规则进行标记,构成特征集。
7.根据权利要求6所述的异常检测装置,其特征在于,所述组合检测模型中的检测模型包括:Naive Bayes检测模型、正类的OneClassSVM检测模型、负类的OneClassSVM检测模型、正类的孤立森林分类与检测模型和负类的孤立森林分类与检测模型。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述的异常检测方法的步骤。
9.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述的异常检测方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575550.9A CN110443274B (zh) | 2019-06-28 | 2019-06-28 | 异常检测方法、装置、计算机设备及存储介质 |
PCT/CN2019/117607 WO2020258657A1 (zh) | 2019-06-28 | 2019-11-12 | 异常检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575550.9A CN110443274B (zh) | 2019-06-28 | 2019-06-28 | 异常检测方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443274A CN110443274A (zh) | 2019-11-12 |
CN110443274B true CN110443274B (zh) | 2024-05-07 |
Family
ID=68428777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910575550.9A Active CN110443274B (zh) | 2019-06-28 | 2019-06-28 | 异常检测方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110443274B (zh) |
WO (1) | WO2020258657A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956143A (zh) * | 2019-12-03 | 2020-04-03 | 交控科技股份有限公司 | 一种异常行为检测方法、装置、电子设备及存储介质 |
CN112906727A (zh) * | 2019-12-04 | 2021-06-04 | 中国电信股份有限公司 | 用于实时在线检测虚拟机状态的方法和系统 |
CN110969514A (zh) * | 2019-12-04 | 2020-04-07 | 重庆特斯联智慧科技股份有限公司 | 一种基于物联网的租房安防方法和系统 |
CN111259985B (zh) * | 2020-02-19 | 2023-06-30 | 腾讯云计算(长沙)有限责任公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
CN111707355A (zh) * | 2020-06-19 | 2020-09-25 | 浙江讯飞智能科技有限公司 | 设备运行状态检测方法、装置、设备及存储介质 |
CN111783883A (zh) * | 2020-06-30 | 2020-10-16 | 平安普惠企业管理有限公司 | 一种异常数据的检测方法及装置 |
CN112541536A (zh) * | 2020-12-09 | 2021-03-23 | 长沙理工大学 | 用于信用评分的欠采样分类集成方法、设备及存储介质 |
CN112817452A (zh) * | 2021-01-28 | 2021-05-18 | Oppo广东移动通信有限公司 | 样本数据的获取方法、装置、电子设备及存储介质 |
CN112905488A (zh) * | 2021-03-30 | 2021-06-04 | 平安国际智慧城市科技股份有限公司 | 链路测试方法、装置、计算机设备及存储介质 |
CN113657461A (zh) * | 2021-07-28 | 2021-11-16 | 北京宝兰德软件股份有限公司 | 基于文本分类的日志异常检测方法、系统、设备及介质 |
CN113627551A (zh) * | 2021-08-17 | 2021-11-09 | 平安普惠企业管理有限公司 | 基于多模型的证件分类方法、装置、设备和存储介质 |
CN113537642A (zh) * | 2021-08-20 | 2021-10-22 | 日月光半导体制造股份有限公司 | 产品品质预测方法、装置、电子设备及存储介质 |
CN114065187B (zh) * | 2022-01-18 | 2022-04-08 | 中诚华隆计算机技术有限公司 | 异常登录检测方法、装置、计算设备及存储介质 |
CN115134153A (zh) * | 2022-06-30 | 2022-09-30 | 中国电信股份有限公司 | 安全评估方法、装置和模型训练方法、装置 |
CN117150403B (zh) * | 2023-08-22 | 2024-05-28 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种决策节点行为异常检测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN107612938A (zh) * | 2017-10-27 | 2018-01-19 | 朱秋华 | 一种网络用户异常行为检测方法、装置、设备及存储介质 |
CN109032829A (zh) * | 2018-07-23 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 数据异常检测方法、装置、计算机设备及存储介质 |
CN109936561A (zh) * | 2019-01-08 | 2019-06-25 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147049B2 (en) * | 2015-08-31 | 2018-12-04 | International Business Machines Corporation | Automatic generation of training data for anomaly detection using other user's data samples |
US10915558B2 (en) * | 2017-01-25 | 2021-02-09 | General Electric Company | Anomaly classifier |
CN108881194B (zh) * | 2018-06-07 | 2020-12-11 | 中国人民解放军战略支援部队信息工程大学 | 企业内部用户异常行为检测方法和装置 |
CN110166462B (zh) * | 2019-05-25 | 2022-02-25 | 深圳市元征科技股份有限公司 | 访问控制方法、系统、电子设备及计算机存储介质 |
-
2019
- 2019-06-28 CN CN201910575550.9A patent/CN110443274B/zh active Active
- 2019-11-12 WO PCT/CN2019/117607 patent/WO2020258657A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN107612938A (zh) * | 2017-10-27 | 2018-01-19 | 朱秋华 | 一种网络用户异常行为检测方法、装置、设备及存储介质 |
CN109032829A (zh) * | 2018-07-23 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 数据异常检测方法、装置、计算机设备及存储介质 |
CN109936561A (zh) * | 2019-01-08 | 2019-06-25 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020258657A1 (zh) | 2020-12-30 |
CN110443274A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443274B (zh) | 异常检测方法、装置、计算机设备及存储介质 | |
US10929722B2 (en) | Anomaly detection in streaming networks | |
CN109936561B (zh) | 用户请求的检测方法、装置、计算机设备及存储介质 | |
CN112395159B (zh) | 一种日志检测方法、系统、设备及介质 | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN109886290B (zh) | 用户请求的检测方法、装置、计算机设备及存储介质 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
WO2016177069A1 (zh) | 一种管理方法、装置、垃圾短信监控系统及计算机存储介质 | |
US11586838B2 (en) | End-to-end fuzzy entity matching | |
US11854113B2 (en) | Deep learning methods for event verification and image re-purposing detection | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
US11055631B2 (en) | Automated meta parameter search for invariant based anomaly detectors in log analytics | |
US10291483B2 (en) | Entity embedding-based anomaly detection for heterogeneous categorical events | |
JP7274162B2 (ja) | 異常操作検知装置、異常操作検知方法、およびプログラム | |
US11527091B2 (en) | Analyzing apparatus, control method, and program | |
CN117435999A (zh) | 一种风险评估方法、装置、设备以及介质 | |
US20190318223A1 (en) | Methods and Systems for Data Analysis by Text Embeddings | |
CN113935034A (zh) | 基于图神经网络的恶意代码家族分类方法、装置和存储介质 | |
CN110288272B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
WO2021160822A1 (en) | A method for linking a cve with at least one synthetic cpe | |
JP7401747B2 (ja) | 類別プログラム、類別装置及び類別方法 | |
CN113726785B (zh) | 网络入侵检测方法、装置、计算机设备以及存储介质 | |
US20240185090A1 (en) | Assessment of artificial intelligence errors using machine learning | |
US10296990B2 (en) | Verifying compliance of a land parcel to an approved usage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |