CN109376138A

CN109376138A - 一种多维数据的异常组合检测方法及装置

Info

Publication number: CN109376138A
Application number: CN201811440835.3A
Authority: CN
Inventors: 宗志远
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-02-22
Anticipated expiration: 2038-11-29
Also published as: CN109376138B

Abstract

本发明公开了一种多维数据的异常组合检测方法，包括：获取待分析的样本集；待分析的样本集中包含特征数据，特征数据包含特征字段和属性值；依据预设的关联分析算法和待分析的样本集中每个特征出现的次数，从样本集中挖掘出特征的最大频繁项集；基于特征的最大频繁项集构建异常组合检测字典；异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；依据异常组合检测字典，检测待检测的样本集中异常的特征组合。由此，解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题，提高了异常检测效率和准确度。

Description

一种多维数据的异常组合检测方法及装置

技术领域

本发明涉及信息安全领域，尤其涉及一种多维数据的异常组合检测方法及装置。

背景技术

随着互联网技术的飞速发展，信息安全成为了人们越来越关注的问题，为了保证信息安全，需要在海量的数据中发现异常的行为。然而，异常的行为越来越多样，例如有一种异常行为多维数据的不断组合，例如，在登录风险检测中，某一设备、IP和用户的组合不断尝试登录，其中，设备、IP和用户均属于不同的维度，设备、IP和用户也就是一种多维数据的组合，而且，多维数据过于频繁的组合行为不断出现，这种批量行为很有可能是黑产通过机器实现的，目的是为了从平台非法获取利益。

但是，传统的多维数据的异常组合的检测方法，通常是通过对样本特征值估计概率统计分布或者计算相似度距离进行的，然而，由于互联网信息越来越复杂，数据维度越来越多，异常数据的组合中，包含的数据维度也越来越多，传统的异常检测方法的计算开销成指数级增长。另一方面，频繁出现的异常多维度数据也不符合传统异常检测所要求的“离群点”原则。也就是说传统的异常检测方法无法实现对多维数据的异常组合行为进行检测。

发明内容

有鉴于此，本发明实施例公开了一种多维数据的异常组合检测方法及装置，解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题。

获取待分析的样本集；所述待分析的样本集中包含特征数据，所述特征数据包括特征字段和属性值；

依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集；

基于特征的最大频繁项集构建异常组合检测字典；所述异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；

依据所述异常组合检测字典，检测待检测的样本集中异常的特征组合。

可选的，所述获取待分析的样本集包括：

获取原始的样本集；

从原始的样本集中剔除掉无效的特征数据，得到待分析的样本集。

可选的，所述从原始的样本集中筛选出影响异常组合检测的特征数据，得到待分析的样本集，包括：

获取所述原始的样本集中每个特征字段的属性值；

依据每个特征字段的属性值，计算每个特征的熵；

选取熵值排名在前N的N个特征。

可选的，所述依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集，包括：

记录所述待分析的样本集中每个特征出现的次数；

基于预设的最小支持度，过滤掉小于最小支持度的特征；所述支持度表示特征出现的次数；

依据特征出现的次数，构建频繁模式FP树；

基于所述频繁模式FP树挖掘最大频繁项集。

可选的，所述基于特征的最大频繁项集构建异常组合检测字典，包括：

获取每个最大频繁项集中的特征字段，并将同一个最大频繁项集中的特征字段进行组合，得到特征字段组合项；

从每个最大频繁项集中获取每个特征字段的属性值，并将同一个最大频繁项集中的属性值进行组合，得到属性组合项；

建立属于同一个最大频繁项集中的特征字段组合项和属性组合项的关联关系。

可选的，所述依据所述异常组合检测字典，检测待检测的样本集中的异常的特征组合，包括：

将所述待检测的样本集中的各个特征进行组合，得到待检测的多个特征组合项；所述待检测的多个特征组合项包括：待检测的特征字段的组合项和属性的组合项；

将每个待检测的特征字段组合项与所述异常组合检测字典中的各个特征字段组合项进行匹配；

若匹配成功，判断所述待检测的特征字段组合项对应的待检测的属性的组合项是否与相应的异常检测组合字典中的特征字段组合项对应的属性值组合项相匹配；

若匹配成功，则表示所述待检测的特征组合项为异常组合，所述异常组合包含的特征为异常样本。

本发明实施例还公开了一种多维数据的异常组合检测装置，包括：

获取单元，用于获取待分析的样本集；所述待分析的样本集中包含特征数据，所述特征数据包括特征字段和属性值；

最大频繁项集挖掘单元，用于依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集；

异常组合检测子典构建子单元，用于基于特征的最大频繁项集构建异常组合检测字典；所述异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；

异常组合检测单元，用于依据所述异常组合检测字典，检测待检测的样本集中异常的特征组合。

可选的，所述获取单元包括：

获取子单元，用于获取原始的样本集；

剔除子单元，用于从原始的样本集中剔除掉无效的特征数据，得到待分析的样本集。

可选的，所述异常组合检测子典构建子单元，包括：

特征字段组合项获取子单元，用于获取每个最大频繁项集中的特征字段，并将同一个最大频繁项集中的特征字段进行组合，得到特征字段组合项；

属性组合项获取子单元，用于从每个最大频繁项集中获取每个特征字段的属性值，并将同一个最大频繁项集中的属性值进行组合，得到属性组合项；

关联关系建立子单元，用于建立属于同一个最大频繁项集中的特征字段组合项和属性组合项的关联关系。

可选的，所述异常组合检测单元，包括：

特征组合项获取子单元，用于将所述待检测的样本集中的各个特征进行组合，得到待检测的多个特征组合项；所述待检测的多个特征组合项包括：待检测的特征字段的组合项和属性的组合项；

第一匹配子单元，用于将每个待检测的特征字段组合项与所述异常组合检测字典中的各个特征字段组合项进行匹配；

第二匹配子单元，用于若匹配成功，判断所述待检测的特征字段组合项对应的待检测的属性的组合项是否与相应的异常检测组合字典中的特征字段组合项对应的属性值组合项相匹配；

异常组合确定子单元，用于若匹配成功，则表示所述待检测的特征组合项为异常组合，所述异常组合包含的特征为异常样本。

本发明公开了一种多维数据的异常组合检测方法，包括：获取待分析的样本集；待分析的样本集中包含特征数据，特征数据包含特征字段和属性值；依据预设的关联分析算法和待分析的样本集中每个特征出现的次数，从样本集中挖掘出特征的最大频繁项集；基于特征的最大频繁项集构建异常组合检测字典；异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；依据异常组合检测字典，检测待检测的样本集中异常的特征组合。这样，通过对最大频繁项集的挖掘，挖局出频繁的特征组合项，并构建包含频繁的特征组合项的异常检测字典，依据该字典对异常组合进行检测，解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题，提高了异常检测效率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种多维数据的异常组合检测方法的流程示意图；

图2-图10示出了本发明实施例提供的一种最大频繁项集挖掘过程的示意图示意图；

图11示出了本发明实施例提供的一种多维数据的异常组合检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种多维数据的异常组合检测方法的流程示意图，在本实施例中，该方法包括：

S101:获取待分析的样本集；所述待分析的样本集中包含特征数据，所述特征数据包括特征字段和属性值；

本实施例中，待分析的样本集为用于进行构建异常组合检测字典的样本集，该样本集中包含大量的特征数据。

其中，特征数据表示为与登录某个平台相关的数据，例如包括与注册账号相关的数据以及与登录账号相关的数据，具体的，包括：注册或者登陆的IP、user-agent、设备指纹信息、浏览器识别码、用户名、登陆城市、访问时间、手机型号等。

其中，上述特征数据的获取可以从日志信息中获取，因此，待分析的样本集可以为日志信息。

需要知道的是，不同的特征表示为不同维度的数据。

除此之外，对于一些公共的特征，可能会包含大量的组合，但是这些组合不属于异常的情况，例如用户使用的业务端特征(IOS系统或者安卓系统)，或者用户使用的网络(2G网络、3G网络、4G网络、wi-fi网络)，这些特征虽然会频繁的组合，但是并不是异常的。并且，构建的异常检测字典中包含的是异常的特征组合，因此，上述的公共特征对于异常组合字典的检测会产生干扰，属于无效的数据。

因此，为了消除对异常组合字典的构建有干扰的数据，可以从待原始的样本集中剔除掉无效的数据，得到待分析的样本集，具体的，包括：

获取原始的样本集；

从原始的样本集中剔除无效的特征数据，得到待分析的样本集。

其中，筛选方式可以包括多种，本实施例中，不进行限定。

优选的，可以采用如下的方式：

获取所述原始的样本集中每个特征字段的属性值；

依据每个特征字段的属性值，计算每个特征的熵；

选取熵值排名在前N的N个特征。

举例说明：可以通过如下的公式1)计算每个特征的熵：

1)

其中，C_i表示特征i的熵值，P_ij表示第i个特征第j个属性值的概率。

S102:依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集；

本实施例中，最大频繁项集表示各特征的组合项中，组合较为频繁的特征，具体的挖掘方法如下。

其中，待分析的样本集中的各个特征之间具有一定的联系，例如对于出现在同一条日志中的多个特征就是具有组合关系的特征。在本实施例中，可以通过预设的关联算法，通过特征之间的联系，挖掘出出现次数比较多的特征组合，即最大频繁项集。

本实施例中，例如可以通过FP-growth算法对最大频繁项集进行挖掘。FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式(FrequentPattern)。一棵FP树看上去与计算机科学中的其他树结构类似，但是它通过链接(link)来连接相似元素，被连起来的元素项可以看成一个链表。其中，一个元素项可以在一棵FP树中出现多次。FP树会存储项集的出现频率，而每个项集会以路径的方式存储在树中。存在相似元素的集合会共享树的一部分。只有当集合之间完全不同时，树才会分叉。树节点上给出集合中的单个元素及其在序列中的出现次数，路径会给出该序列的出现次数。

具体的，采用FP-growth算法从所述样本集中挖掘最大频繁项集包括：

记录所述待分析的样本集中每个特征出现的次数；

依据特征项出现的次数，构建频繁模式FP树；

基于所述频繁模式FP树挖掘最大频繁项集。

本实施例中，同一个特征可能会出现在不同的日志中，例如可以通过特征在不同日志中出现的次数来统计该特征出现的次数。

对于出现次数较少的特征，和其它特征的组合也不会太频繁，不会出现异常的情况，因此滤除掉出现次数较少的特征。本实施例中，将特征出现的次数表示为支持度，滤除掉出现次数较少的特征，也就是滤除掉支持度较小的特征。

除此之外，在依据特征出现的次数，构建FP树之前，还需要按照特征出现的次数，对各个特征进行排序。

其中，有了FP树之后，利用FP树来挖掘最大频繁项集的过程，具体包括：

(1)从FP树中获得条件模式基；

(2)利用条件模式基，构建一个条件FP树；

(3)迭代重复步骤(1)步骤(2),直到树包含一个元素项为止。

接下来重点关注第(1)步，即寻找条件模式基的过程，之后，为每一个条件模式基创建对应的条件FP树，最后需要构造少许代码来封装上述两个函数，并从FP树中获得频繁项集。

其中，条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前辍路径(prefix path)。简而言之，一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

本实施例中，需要说明的是，上述提到的元素项，在本实施例中为样本集中的各个特征。

举例说明：1)扫描样本集中各个特征出现的次数，如下表1所示：

表1

I1	I2	I3	I4	I5	I6	I7
							6	7	6	2	2	2	1

2)定义最小支持度为2，即出现次数为两次为最小支持度，删除出现次数小于两次的特征；

3)按照降序重新排列样本集的特征：

I2	I1	I3	I4	I5
					7	6	6	2	2

4)按照特征出现的次数重新调整样本集中特征的组合：

Tid	Items
		1	I2,I1,I5
2	I2,I4
		3	I2,I3
4	I2,I1,I4
		5	I1,I3
6	I2,I3
		7	I1,I3
8	I2,I1,I3,I5
		9	I2,I1,I3

5)构建FP树；

首先如图2所示，加入第一条清单(I2,I1,I5)：

如图3所示，加入第二条清单(I2,I4)；

如图4所示，加入第三条清单(I2,I3)；

如图5所示，加入第四条清单(I2,I1,I4)；

如图6所示，加入第五条清单(I1,I3)；

如图7所示，加入第六条清单(I2,I3)；

如图8所示，加入第七条清单(I1,I3)；

如图9所示，加入第八条清单(I2,I1,I3,I5)；

如图10所示，加入第九条清单(I2,I1,I3)。

6)基于条件模式基，挖掘频繁出现的特征的组合项。

其中，可以通过上述构建的FP树，从上到下的找出频繁出现的特征组合项。

S103：基于特征的最大频繁项集构建异常组合检测字典；所述异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；

本实施例中，构建的异常检测字典包括多个检测项，每个检测项包含一个最大频繁项集中的特征字段的组合项和属性值的组合项，具体的，构建过程包括：

本实施例中，每一个最大频繁项集中包含多个特征字段的组合以及每个特征字段的属性值。对于异常组合检测字典的构建，先获取每个最大频繁项集中的特征字段进行组合，并获取每个特征字段的属性值进行组合，并且将一个最大频繁项集的特征字段的组合项和属性值的组合项进行关联，这样得到异常组合字典的一个检测项。

举例说明：假设异常组合检测字典为一个key-value的字典，其中，key表示为特征的特征名的组合项，例如：特征1/特征2/特征3组合，value表示组合项中每个特征的特征值，例如，特征1的属性值/特征2的属性值/特征3的属性值。

需要说明的是，挖掘出的最大频繁项为异常的组合项，根据最大频繁项构建的异常组合检测字典，为包含异常组合项的异常组合字典。

S104：依据所述异常组合检测字典，检测待检测的样本集中异常的特征组合；

本实施例中，待检测样本集中任何一个特征可以与其它特征有多种组合方式，得到多项特征组合，每项特征组合又包含特征字段的组合以及属性值的组合，将待检测的样本集中每项特征组合与异常组合检测的字典进行匹配，异常组合检测字典中包含异常的特征组合项，若待检测的样本集中每项特征组合与异常组合检测字典相匹配，则该特征的组合项为异常组合，具体的，S105包括：

举例说明：得到待检测的特征组合项后，判断得到的组合项中的各个特征是否与字典中的组合项相匹配，也就是判断是否能够匹配上异常检测字典中的组合项中的特征字段，若可以与字典中的字段相匹配，再判断组合项的各个特征值的属性值是否与特征字段对应的属性值相匹配。

需要知道的是，同一个特征会包含不同的属性值，例如IP特征可能包含几十亿个不同的值，因此即使组合项中的特征字段匹配，仍需要判断属性值是否匹配。

本实施例中，获取待分析的样本集；所述待分析的样本集中包含特征数据，所述特征数据包含特征字段和属性值；依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集；基于特征的最大频繁项集构建异常组合检测字典；所述异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；依据所述异常组合检测字典，检测待检测的样本集中异常的特征组合。这样，通过对最大频繁项集的挖掘，挖局出频繁的特征组合项，并构建包含频繁的特征组合项的异常检测字典，依据该字典对异常组合进行检测，解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题，提高了异常检测效率和准确度。

参考图11，示出了本发明实施例提供的一种多维数据的异常组合检测装置的结构示意图，在本实施例中，该装置包括：

获取单元201，用于获取待分析的样本集；所述待分析的样本集中包含特征数据，所述特征数据包括特征字段和属性值；

最大频繁项集挖掘单元202，用于依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集；

异常组合检测子典构建子单元203，用于基于特征的最大频繁项集构建异常组合检测字典；所述异常组合检测字典包括：每个最大频繁项集中的特征字段的组合以及每个特征字段的属性值的组合；

异常组合检测单元204，用于依据所述异常组合检测字典，检测待检测的样本集中异常的特征组合。

可选的，所述获取单元包括：

获取子单元，用于获取原始的样本集；

筛选子单元，用于从原始的样本集中剔除掉无效的特征数据，得到待分析的样本集。

可选的，所述筛选子单元，用于：

获取所述原始的样本集中每个特征字段的属性值；

依据每个特征字段的属性值，计算每个特征的熵；

选取熵值排名在前N的N个特征。

可选的，所述最大频繁项集挖掘单元，用于：

记录所述待分析的样本集中每个特征出现的次数；

依据特征出现的次数，构建频繁模式FP树；

基于所述频繁模式FP树挖掘最大频繁项集。

可选的，所述异常组合检测子典构建子单元，包括：

可选的，所述异常组合检测单元，包括：

通过本实施例的装置，解决了现有技术中传统的异常检测方法无法实现高效的对多维数据的异常组合行为进行检测的问题。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多维数据的异常组合检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待分析的样本集包括：

获取原始的样本集；

3.根据权利要求1所述的方法，其特征在于，所述从原始的样本集中筛选出影响异常组合检测的特征数据，得到待分析的样本集，包括：

获取所述原始的样本集中每个特征字段的属性值；

依据每个特征字段的属性值，计算每个特征的熵；

选取熵值排名在前N的N个特征。

4.根据权利要求1所述的方法，其特征在于，所述依据预设的关联分析算法和所述待分析的样本集中每个特征出现的次数，从所述样本集中挖掘出特征的最大频繁项集，包括：

记录所述待分析的样本集中每个特征出现的次数；

依据特征出现的次数，构建频繁模式FP树；

基于所述频繁模式FP树挖掘最大频繁项集。

5.根据权利要求1所述的方法，其特征在于，所述基于特征的最大频繁项集构建异常组合检测字典，包括：

6.根据权利要求5所述的方法，其特征在于，所述依据所述异常组合检测字典，检测待检测的样本集中的异常的特征组合，包括：

7.一种多维数据的异常组合检测装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述获取单元包括：

获取子单元，用于获取原始的样本集；

9.根据权利要求7所述的装置，其特征在于，所述异常组合检测子典构建子单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述异常组合检测单元，包括：