CN105847302A

CN105847302A - 一种异常检测方法及装置

Info

Publication number: CN105847302A
Application number: CN201610377469.6A
Authority: CN
Inventors: 宗志远
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-08-10
Anticipated expiration: 2036-05-31
Also published as: CN105847302B

Abstract

本发明实施例公开了一种异常检测方法及装置，应用于服务器，其中方法中包括：获取多个待检测样本；针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量；对具有第二特征向量的待检测样本进行异常检测，并输出异常检测结果。其中，所述最大频繁项集为利用FPGrowth关联分析算法获得的正常样本群体的正常特征的集合。应用本发明实施例，将先验知识用于了异常检测，使正常样本和异常样本能够更好的区分。

Description

一种异常检测方法及装置

技术领域

本发明涉及信息安全技术领域，特别涉及一种异常检测方法及装置。

背景技术

在信息安全技术领域，一个很重要的问题是如何在海量日志数据样本中检测出异常的行为，因此有很多的人力财力投入到异常检测中。异常检测是根据目标系统的正常行为轮廓特征训练出正常行为模型，如果检测到当前行为偏离了正常行为模型，则认为系统遭到入侵。异常检测适应性较好，具备检测未知入侵的能力，因此受到了更多的青睐，许多领域和学科的技术渗入到异常检测技术中，使该技术不断完善和发展。

但是，目前的异常检测方法主要是通过对样本特征值估计概率统计分布或者计算相似度距离来实现的，这些方法中缺少标注数据这类先验知识，因此存在正常样本与异常样本不能更好的区分的问题。

发明内容

本发明实施例公开了一种异常检测方法及装置，将先验知识应用于异常检测方法中，以更好的区分异常样本和正常样本。

为达到上述目的，本发明实施例公开了一种异常检测方法，应用于服务器，包括：

获取多个待检测样本；

针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量；

对具有第二特征向量的待检测样本进行异常检测，并输出异常检测结果。

较佳地，所述预设的最大频繁项集为利用FPGrowth关联分析算法获得的正常样本群体的最常出现的特征的集合。

较佳地，所述对具有第二特征向量的待检测样本进行异常检测，包括：

采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法计算每个具有第二特征向量的待检测样本的离群属性值；

对所述离群属性值进行判决，获得离群判决结果；

将离群判决结果进行投票合并，获得每个具有第二特征向量的待检测样本的异常检测结果。

较佳地，所述Jaccard相似度为：

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|

其中，Ai为第i个待检测样本的第一特征向量，Bj为第j个最大频繁项集。

为达到上述目的，本发明实施例还公开了一种异常检测装置，应用于服务器，包括：

样本获取模块，用于获取多个待检测样本；

相似度确定模块，用于针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量；

异常检测模块，用于对具有第二特征向量的待检测样本进行异常检测，并输出异常检测结果。

较佳地，所述异常检测模块包括：

离群属性获取子模块，用于采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法计算每个具有第二特征向量的待检测样本的离群属性值；

离群属性判决子模块，用于对所述离群属性值进行判决，获得离群判决结果；

样本异常判决子模块，用于将离群判决结果进行投票合并，获得每个具有第二特征向量的待检测样本的异常检测结果；

检测结果输出子模块，用于输出所述异常检测结果。

较佳地，所述Jaccard相似度为：

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|

由上述技术方案可知，本发明实施例公开了一种异常检测方法及装置，应用于服务器，方法中包括获取多个待检测样本；针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量；对具有第二特征向量的待检测样本进行异常检测，并输出异常样本。其中，所述最大频繁项集为利用FPGrowth关联分析算法获得的正常样本群体的最常出现的特征的集合。

应用本发明实施例，通过利用FPGrowth关联分析算法获得了正常样本群体的最常出现的特征的集合，并针对每一个待检测样本的第一特征向量，分别与每一个最大频繁项集求Jaccard相似度，这样便将先验知识用于了异常检测，使正常样本和异常样本能够更好的区分，采用多种异常检测方法进行异常检测，从而能够适用于复杂的安全分析等场景。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的异常检测方法的流程示意图；

图2为本发明实施例二提供的异常检测方法的流程示意图；

图3为本发明实施例三提供的异常检测方法的流程示意图；

图4为本发明实施例四提供的异常检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种异常检测方法及装置，以下进行详细说明。

实施例一

本实施例提供了一种异常检测方法，如图1所示，所述方法应用于风险控制系统，风险控制系统配置在用于监控的服务器上，所述方法包括以下步骤：

步骤S110，获取多个待检测样本。

所述待检测样本为用户行为数据，包括但不限于以下数据：用户登录时间，IP地址，观看的视频种类，登录的设备，用户未登录观看视频的数据等等。具体地，用户对系统数据的操作在数据库日志中留下了痕迹，日志记录的数据包括操作人员的名称、操作的时间、操作内容等。对这些日志数据进行预处理，便可以得到反映用户行为的用户行为数据。对日志数据进行预处理的过程属于现有技术，本实施例不再赘述。

所述待检测样本可以是帐号安全(防盗号，撞库等)、支付安全(如支付宝之类的支付时的安全)、防刷(如企业有优惠活动时，防止羊毛党恶意抢企业的优惠活动，如优惠券)等场景中的用户行为数据。

步骤S120，针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量。

第一特征向量为待检测样本的特征属性值构成的集合，例如，待检测样本的第一特征向量可以为(13点,Andorid6.0)，其中13点为“登录时间”这一特征的属性值，Andorid6.0为“用户设备”这一特征的属性值。

最大频繁项集为正常样本群体的最常出现的特征的集合。

作为本实施例的一种优选方案，预设的最大频繁项集可以利用FPGrowth关联分析算法获得的正常样本群体的最常出现的特征的集合。正常样本群体可以包括全量日志数据，利用FPGrowth关联分析算法获得日志数据的最大频繁项集属于现有技术，本实施例不再赘述。

作为本实施例的另一种优选方案，针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，所述Jaccard相似度可以为：

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|

其中，Ai为第i个待检测样本的第一特征向量，Bj为第j个最大频繁项集，Ai intersect Bj为Ai和Bj两个集合中的元素的交集中的元素数目，AiunionBj为Ai和Bj两个集合中的元素的并集中的元素数目。

通过利用FPGrowth关联分析算法获得了正常样本群体的最常出现的特征的集合，并针对每一个待检测样本的第一特征向量，分别与每一个最大频繁项集求Jaccard相似度，这样便将先验知识用于了异常检测，使正常样本和异常样本能够更好的区分。

将获得的对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量。

步骤S130，对具有第二特征向量的待检测样本进行异常检测，并输出异常检测结果。

为了获得更好的检测性能，对具有第二特征向量的待检测样本进行异常检测时，可构建高维特征空间，在构建高维特征空间中进行异常检测。

具体地，根据预设的最大频繁项集以及具有第二特征向量的待检测样本构建高维特征空间，高维特征空间的维数等于最大频繁项集的个数，在高维特征空间中的待检测样本为具有第二特征向量的待检测样本。例如，假设获取是待检测样本的特征空间为三维特征空间，预设的最大频繁项集为五个，则构建的高维特征空间为五维特征空间，在五维特征空间中，待检测样本为步骤120获得的具有第二特征向量的待检测样本，这样就将原来三维特征空间里的待检测样本映射到了五维特征空间里，且在五维特征空间里的待检测样本具有新的特征向量(即第二特征向量)。

通过在构建的高维特征空间中进行异常检测，能够使正常样本和异常样本更好的区别开，获得更好的检测性能。

为了使该异常检测方法适用于复杂的安全分析场景，对具有第二特征向量的待检测样本进行异常检测时，可以采用多种异常检测方法进行异常检测，采用的异常检测方法包括但不限于：幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法。

输出对具有第二特征向量的待检测样本进行异常检测的异常检测结果，当异常检测结果为异常时，可向客户端发出报警信号，有助于用户及时发现威胁。

应用本实施例，通过利用FPGrowth关联分析算法获得了正常样本群体的最常出现的特征的集合，并针对每一个待检测样本的第一特征向量，分别与每一个最大频繁项集求Jaccard相似度，这样便将先验知识用于了异常检测，使正常样本和异常样本能够更好的区分。

实施例二

作为实施例一的一种优选方案，实施例二与实施例一不同的地方在于，本实施例中采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法进行异常检测，如图2所示，包括以下步骤：

步骤S210，获取多个待检测样本。

步骤S220，针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量。

步骤S210和步骤S220对应的过程与实施例一一样，本实施例不重复赘述。

步骤S230，采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法计算每个具有第二特征向量的待检测样本的离群属性值。

具体地，幂律分布离群点检测方法通过构建数学模型计算待检测样本的离群属性值，所述离群属性值为待检测样本出现概率，即待检测样本满足预设的数学分布的可能性，该数学分布为根据已有样本通过幂律分布构建出来的数学分布，根据构建好的数学分布计算待检测样本出现的概率。具体构建数学分布的过程以及根据构建好的数学分布计算样本出现概率的过程属于现有技术，本实施例不再赘述。

高斯分布离群点检测方法也通过构建数学模型计算待检测样本的离群属性值，所述离群属性值为待检测样本出现概率，即待检测样本满足预设的数学分布的可能性，该数学分布为根据已有样本通过高斯分布构建出来的数学分布，根据构建好的数学分布计算待检测样本出现的概率。具体构建数学分布的过程以及根据构建好的数学分布计算样本出现概率的过程属于现有技术，本实施例不再赘述。

相对密度离群点检测方法是基于欧式距离来计算待检测样本的离群属性值的，所述离群属性值为待检测样本相对于已有样本的欧氏距离的比值。具体计算欧式距离的过程属于现有技术，本实施例不再赘述。

步骤S240，对所述离群属性值进行判决，获得离群判决结果。

可以采用0-1判决方法对所述离群属性值进行判决，当离群属性值小于预设的阈值时，判决结果为“0”，否则，判决结果为“1”。

对于幂律分布离群点检测方法和高斯分布离群点检测方法，判断这两种方法计算出的出现概率是否小于预设的阈值，若小于，判决结果为“0”，否则，判决结果为“1”。

对于相对密度离群点检测方法，判断该方法计算出来的欧氏距离比值是否小于预设的阈值，若小于，判决结果为“0”，否则，判决结果为“1”。

步骤S250，将离群判决结果进行投票合并，获得每个具有第二特征向量样本的异常检测结果。

具体地，可以采用大数判决方法对判决结果进行合并，例如，三种异常检测方法获得的离群判决结果分别为“0”，“0”，“1”，则最终判决结果为“0”，则检测结果为该样本异常。

当然，也可以混合使用其他异常检测方法进行异常检测，混合使用的异常检测方法也可以包括五种，或更多种。

应用本实施例，通过将多种异常检测方法进行融合，能够使该异常检测方法适用于复杂的安全分析场景。

实施例三

本实施例以两个样本为例，对本发明实施例提供的异常检测方法进行了详细说明，如图3所示，包括以下步骤：

步骤S310，获取多个待检测样本。

假设获取的待检测样本为样本1和样本2。

步骤S320，针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量。

第一特征向量为待检测样本特征属性值的集合，假设样本1的第一特征向量为A₁＝(a1,b2,c2,d3)，样本2的第一特征向量为A₂＝(a2,b2,c3,d1)，利用用FPGrowth关联分析算法获得的最大频繁项集为B₁＝(a1,d3)，B₂＝(a2,c3)，B₃＝(b2,d3)，B₄＝(c2,d1)B₅＝(c3,d1)，其中，a1,a2为特征a的属性值，b1,b2为特征b的属性值，c1,c2,c3为特征c的属性值，d1,d2,d3为特征d的属性值。

样本1的第一特征向量A₁，分别与每一个最大频繁项集求Jaccard相似度为：

Jaccard(A₁,B₁)＝|A₁intersect B₁|/|A₁union B₁|＝2/4＝0.5

Jaccard(A₁,B₂)＝|A₁intersect B₂|/|A₁union B₂|＝0/6＝0

Jaccard(A₁,B₃)＝|A₁intersect B₃|/|A₁union B₃|＝2/4＝0.5

Jaccard(A₁,B₄)＝|A₁intersect B₄|/|A₁union B₄|＝1/5＝0.2

Jaccard(A₁,B₅)＝|A₁intersect B₅|/|A₁union B₅|＝0/6＝0

样本2的第一特征向量A2，分别与每一个最大频繁项集求Jaccard相似度为：

Jaccard(A₂,B₁)＝|A₂intersect B₁|/|A₂union B₁|＝0/6＝0

Jaccard(A₂,B₂)＝|A₂intersect B₂|/|A₂union B₂|＝2/4＝0.5

Jaccard(A₂,B₃)＝|A₂intersect B₃|/|A₂union B₃|＝1/5＝0.2

Jaccard(A₂,B₄)＝|A₂intersect B₄|/|A₂union B₄|＝1/5＝0.2

Jaccard(A₂,B₅)＝|A₂intersect B₅|/|A₂union B₅|＝2/4＝0.5

将对应于样本1的所有Jaccard相似度(0.5,0,0.5,0.2,0)确定为样本1的第二特征向量，将对应于样本2的所有Jaccard相似度(0,0.5,0.2,0.2,0.5)确定为样本2的第二特征向量。

步骤S330，构建高维特征空间，并将获取的的待检测样本映射到高维特征空间中。

根据最大频繁项集的个数为五个，构建五维特征空间，并将样本1和样本2映射到五维特征空间中，即在五维特征空间中，待检测样本为特征向量为(0.5,0,0.5,0.2,0)的样本1和特征向量为(0,0.5,0.2,0.2,0.5)的样本2。

步骤S340，采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法计算每个具有第二特征向量的待检测样本的离群属性值。

采用幂律分布离群点检测方法计算每个具有第二特征向量的待检测样本离群属性值为每个待检测样本的出现概率。具体计算过程属于现有技术，本实施例不再赘述。

采用高斯分布离群点检测方法计算每个具有第二特征向量的待检测样本离群属性值为每个待检测样本的出现概率。具体计算过程属于现有技术，本实施例不再赘述。

采用相对密度离群点检测方法计算每个具有第二特征向量的待检测样本离群属性值为每个待检测样本相对于已有样本的欧氏距离比值。具体计算过程属于现有技术，本实施例不再赘述。

步骤S350，对所述离群属性值进行判决，获得离群判决结果。

假设，样本1通过三种异常检测方法获得的离群判决结果分别为“0”，“0”，“1”；样本2通过三种异常检测方法获得的离群判决结果分别为“1”，“0”，“1”。

步骤S360，将离群判决结果进行投票合并，获得每个样本的异常检测结果。

可以采用大数判决方法对判决结果进行合并，样本1通过三种异常检测方法获得的离群判决结果分别为“0”，“0”，“1”，则样本1的最终判决结果为“0”，则可获得样本1的异常检测结果为样本1异常；样本2通过三种异常检测方法获得的离群判决结果分别为“1”，“0”，“1”，则样本2的最终判决结果为“1”，则可获得样本1的异常检测结果为样本2正常。

步骤S370，若异常检测结果为异常，则向客户端发送报警信息。

样本1的异常检测结果为异常，则向客户端发送异常报警信息，向客户端发送报警信息属于现有技术，本实施例不赘述。

实施例四

本发明实施例还提供了一种异常检测装置，如图4所示，应用于服务器，包括：

样本获取模块410，用于获取多个待检测样本。

所述待检测样本可以是帐号安全(防盗号，撞库等)、支付安全(如支付宝之类的支付时的安全)、防刷(如企业有优惠活动时，防止羊毛党恶意抢企业的优惠活动，如优惠券)等系统中的用户行为数据。

相似度确定模块420，用于针对每一个待检测样本的第一特征向量，分别与每一个预设的最大频繁项集求Jaccard相似度，并将对应于每一个待检测样本的所有Jaccard相似度确定为该待检测样本的第二特征向量。

最大频繁项集为正常样本群体的最常出现的特征的集合。

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|

异常检测模块430，用于对具有第二特征向量的待检测样本进行异常检测，并输出异常检测结果。

具体地，根据预设的最大频繁项集以及具有第二特征向量的待检测样本构建高维特征空间，高维特征空间的维数等于最大频繁项集的个数，在高维特征空间中的待检测样本为具有第二特征向量的待检测样本。例如，假设获取是待检测样本的特征空间为三维特征空间，预设的最大频繁项集为五个，则构建的高维特征空间为五维特征空间，在五维特征空间中，待检测样本为步骤102获得的具有第二特征向量的待检测样本，这样就将原来三维特征空间里的待检测样本映射到了五维特征空间里，且在五维特征空间里的待检测样本具有新的特征向量(即第二特征向量)。

为了使该异常检测方法适用于复杂的安全分析场景，对具有第二特征向量的待检测样本进行异常检测时，可以采用多种异常检测方法进行异常检测

，采用的异常检测方法包括但不限于：幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法。

作为本实施例的又一种优选方案，异常检测模块还可以包括，离群属性获取子模块(图4中未示出)，用于采用幂律分布离群点检测方法、高斯分布离群点检测方法和相对密度离群点检测方法计算每个具有第二特征向量的待检测样本的离群属性值；离群属性判决子模块(图4中未示出)，用于对所述离群属性值进行判决，获得离群判决结果；样本异常判决子模块(图4中未示出)，用于将离群判决结果进行投票合并，获得每个具有第二特征向量的待检测样本的异常检测结果；检测结果输出模块(图4中未示出)，用于输出所述异常检测结果。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常检测方法，其特征在于，应用于服务器，包括：

获取多个待检测样本；

2.根据权利要求1所述的方法，其特征在于，所述预设的最大频繁项集为利用FPGrowth关联分析算法获得的正常样本群体的最常出现的特征的集合。

3.根据权利要求1所述的方法，其特征在于，所述对具有第二特征向量的待检测样本进行异常检测，包括：

对所述离群属性值进行判决，获得离群判决结果；

4.根据权利要求1所述的方法，其特征在于，所述Jaccard相似度为：

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|

5.一种异常检测装置，其特征在于，应用于服务器，包括：

样本获取模块，用于获取多个待检测样本；

6.根据权利要求5所述的装置，其特征在于，所述预设的最大频繁项集为利用FPGrowth关联分析算法获得的正常样本群体的最常出现的特征的集合。

7.根据权利要求5所述的装置，其特征在于，所述异常检测模块包括：

检测结果输出子模块，用于输出所述异常检测结果。

8.根据权利要求5所述的装置，其特征在于，所述Jaccard相似度为：

Jaccard(Ai,Bj)＝|AiintersectBj|/|AiunionBj|