CN109873812A

CN109873812A - 异常检测方法、装置及计算机设备

Info

Publication number: CN109873812A
Application number: CN201910080856.7A
Authority: CN
Inventors: 梁肖; 胡少锋; 梁焯佳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-11
Anticipated expiration: 2039-01-28
Also published as: CN109873812B

Abstract

本申请涉及一种异常检测方法、装置及计算机设备，该方法包括：获取各用户标识分别对应的用户行为记录；提取各所述用户行为记录中包括的特征；确定所述用户行为记录中对应于各所述特征的各属性值的异常度；根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别；确定每个用户组别的异常度；选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。本申请的方案，降低了异常检测成本。

Description

异常检测方法、装置及计算机设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种异常检测方法、装置及计算机设备。

背景技术

随着科学技术的飞速发展，互联网时代已然到来。然而，伴随着互联网行业蓬勃发展的同时，为了获利，一些不法的黑色产业也逐步产生。黑色产业往往会通过批量注册和操纵大量的恶意用户账号来最大化地获取利益，因此，识别出这些恶意用户账号非常重要。

传统方法中，通常是使用人工添加标注的样本数据进行有监督的机器学习训练，以训练出分类器模型，通过训练好的分类器模型来检测异常的恶意的用户账号，从而识别出属于黑色产业的恶意团伙。然而，人工添加标注会耗费大量人工成本。

发明内容

基于此，有必要针对传统方法中耗费大量人工成本的问题，提供一种异常检测方法、装置、计算机设备及存储介质。

一种异常检测方法，所述方法包括：

获取各用户标识分别对应的用户行为记录；

提取各所述用户行为记录中包括的特征；

确定所述用户行为记录中对应于各所述特征的各属性值的异常度；

根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别；

确定每个用户组别的异常度；

选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。

一种异常检测装置，所述装置包括：

特征提取模块，用于获取各用户标识分别对应的用户行为记录；提取各所述用户行为记录中包括的特征；

属性异常度评估模块，用于确定所述用户行为记录中对应于各所述特征的各属性值的异常度；

聚类模块，用于根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别；

组别异常度评估模块，用于确定每个用户组别的异常度；

异常识别模块，用于选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。

一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取各用户标识分别对应的用户行为记录；

提取各所述用户行为记录中包括的特征；

确定每个用户组别的异常度；

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取各用户标识分别对应的用户行为记录；

提取各所述用户行为记录中包括的特征；

确定每个用户组别的异常度；

上述异常检测方法、装置、计算机设备和存储介质，通过对用户行为记录进行特征分析，并分析各特征下的各属性值的异常度，根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别。由于用户行为记录中包括了用户上网时的一系列特征，因此，各特征下的属性值的异常情况能够一定程度上反映用户是否异常，所以，根据各属性值的异常度对各用户标识进行聚类，很大程度上能够将异常用户划分在一个用户组别，进而，再分析各个用户组别的异常度，筛选异常度大于预设异常阈值的用户组别，得到异常用户组别。从而，在无任何人工标记的情况下，无监督地识别出异常用户组别(即恶意团伙)，相较于需要添加人工标注的有监督方法而言，降低了成本。

附图说明

图1为一个实施例中异常检测方法的应用场景图；

图2为一个实施例中异常检测方法的流程示意图；

图3为一个实施例中计算用户相似度的原理解释示意图；

图4为一个实施例中用户组别划分步骤的流程示意图；

图5为一个实施例中异常检测方法的系统架构图；

图6为一个实施例中异常检测装置的框图；

图7为另一个实施例中异常检测装置的框图；

图8为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中异常检测方法的应用场景图。参照图1，该应用场景中包括通过网络连接的终端110和服务器120。终端110可以是智能电视机、台式计算机或移动终端，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。

可以理解，多个用户可以使用各自的终端110通过注册的用户标识访问服务器120，并基于终端110进行相应的访问操作。服务器120可以收集访问的各用户的用户行为记录，并使用本申请各实施例中提出的异常检测方法对各用户的用户行为记录进行异常检测分析。

服务器120可以获取使用各终端110的各用户标识分别对应的用户行为记录；提取各所述用户行为记录中包括的特征；确定所述用户行为记录中对应于各所述特征的各属性值的异常度；根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别；确定每个用户组别的异常度。服务器120可以选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。可以理解，该异常用户组别即为恶意团伙，处于该异常用户组别中的各用户标识所对应的用户即为恶意用户。

图2为一个实施例中异常检测方法的流程示意图。本实施例主要以该异常检测方法应用于计算机设备进行举例说明，该计算机设备可以是图1中的服务器120。参照图2，该方法具体包括如下步骤：

S202，获取各用户标识分别对应的用户行为记录。

其中，用户行为记录，是用户在进行上网行为时所产生的相关记录。

在一个实施例中，用户行为记录包括行为数据。可以理解，行为数据，是指用户上网后进行的具体操作行为和行为对象信息。行为对象，是操作行为所针对的对象。比如，阅读某个文本、打开某个视频、发送某个视频等这些具体操作行为，而被阅读的文本、被打开或发送的视频等即为行为对象。

可以理解，通常情况下，平台与平台之间是有限制的，一个平台往往只能获取发生在自身平台内的用户行为记录，所以，步骤S202中获取的用户行为记录可以是发生在计算机设备所提供的上网平台内的用户行为记录。需要说明的是，如果条件许可的情况下，计算机设备也可以获取非自身平台内发生的用户行为记录。这里对用户行为记录的来源并不做限定。

在一个实施例中，用户行为记录还可以包括上网环境信息。在一个实施例中，上网环境信息包括上网设备、IP(Internet Protocol，网际协议)地址和上网使用的Wi-Fi信息等中的至少一种信息。其中，Wi-Fi，是指一种无线局域网技术。

需要说明的是，由于一个用户可以不仅仅产生一次上网行为，所以一个用户标识可以对应至少一条用户行为记录，而并不限定用户标识和用户行为记录一一对应。

S204，提取各用户行为记录中包括的特征。

在一个实施例中，特征包括行为特征、行为对象特征和上网环境特征等多种特征中的至少一种。

行为特征，是用户产生的行为数据的特征。行为对象特征，是操作行为所针对的对象的特征。上网环境特征，是上网环境信息的特征。

在一个实施例中，上网环境特征可以包括IP特征、设备特征和Wifi特征等多种特征中的至少一种。行为对象特征可以包括文本特征和音视频特征等多种特征中的至少一种。

S206，确定用户行为记录中对应于各特征的各属性值的异常度。

可以理解，特征，是某一类属性值的统称概念，而非具体的值。属性值，是该特征的具体的值。一个特征可以对应至少一个属性值。

为了便于理解，现举例说明特征和属性值之间的关系。比如，有5个用户，每个用户有1条用户行为记录，那么，一共就有5条用户行为记录。对这5条用户行为记录进行特征提取，发现这5条用户行为记录中都包括IP地址这一项特征，所以，统称的“IP地址”这一名称即为特征，每条用户行为记录中所包括的具体的IP地址(比如，IP地址：111.222.33.4即为具体的IP地址)即为该特征所对应的属性值。

具体地，计算机设备可以以特征为单位，根据每个特征下的属性值的分布情况，确定该特征下每个属性值的异常度。在一个实施例中，计算机设备可以根据每个特征下的属性值的出现频率之间的差异，来确定每个属性值的异常度。

可以理解，针对不同特征的属性值，计算机设备在确定该特征下的每个属性值的异常度时，也可以针对属性值的特征采用不同的算法进行处理。比如，对于上网环境特征下的属性值，可以使用孤立森林方法计算该属性值的异常度，而对于非上网环境特征下的属性值，可以采用基于密度的方法来计算属性值的异常度。

在一个实施例中，计算机设备也可以将根据属性值分布情况确定出的该特征下每个属性值的异常度，与不同特征下的属性值之间的共现关系结合，确定每个属性值最终的异常度。

S208，根据各属性值的异常度对各用户标识进行聚类，得到用户组别。

在一个实施例中，计算机设备根据各用户标识所对应的各属性值的异常度，对两两成对的用户标识进行相似度计算，并根据计算得到的相似度，对各用户标识进行聚类，得到用户组别。

在一个实施例中，为了避免两两成对计算用户之间的相似度造成计算复杂度较高的问题，计算机设备也可以统一对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别。从而降低计算复杂度，提高效率。

在一个实施例中，计算机设备也可以对各个用户标识进行多轮分组，在每一轮分组中，将各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别。那么，在多轮分组后，每个用户标识则可以对应多个用户组别。

S210，确定每个用户组别的异常度。

具体地，计算机设备可以对每个用户组别进行特征提取，根据提取的特征，计算每个用户组别的异常度。

在一个实施例中，步骤S210包括：针对每个用户组别，确定用户组别所关联的属性值；根据每个所关联的属性值在用户组别中对应的用户标识的数量与用户组别中用户标识的总数量的比值，得到各属性值的用户覆盖比例；筛选用户覆盖比例大于或等于预设聚集阈值的属性值，得到聚集属性值；获取用户组别中各聚集属性值的个数；根据用户组别中用户标识的总数量、各聚集属性值及各聚集属性值的数量，确定用户组别的异常度。

其中，用户组别所关联的属性值，是指该用户组别中的用户标识所对应的属性值。用户标识所对应的属性值，即为用户标识所对应的用户行为记录中包括的特征下的属性值。属性值的用户覆盖比例，是指在用户组别中，使用该属性值的用户占比。预设聚集阈值，是预先设置的用于筛选出聚集属性值的阈值。

针对每个用户组别，计算机设备可以统计每个所关联的属性值在该用户组别中对应的用户标识的数量。可以理解，一个属性值可以对应多个用户标识。因为，比如黑色产业的账号，就可能使用多个用户标识(比如，用户账号)登录同一个IP地址，这种情况下，一个IP地址就会存在于多个用户标识所对应的用户行为记录中，则该IP地址就会对应多个用户标识。

进一步地，计算机设备可以获取该用户组别中用户标识的总数量。计算机设备可以将每个所关联的属性值在用户组别中对应的用户标识的数量除以该用户组别中用户标识的总数量，得到各属性值的用户覆盖比例。

为了便于理解现举例说明。比如，一个用户组别中有5个用户标识，每个用户标识对应一条用户行为记录，即有5条用户行为记录，每条用户行为记录中都包括一个具体的IP地址。其中，有3条用户行为记录中包括相同的IP地址，比如IP1，而其余两条用户行为记录中的IP地址分别为IP2和IP3。那么，该用户组别所关联的IP特征的属性值就有3个，IP1～IP3，其中，IP1在该用户组别中对应的用户标识的数量为3，IP2和IP3在该用户组别中对应的用户标识的数量都为1。那么，IP1在该用户组别中的用户覆盖比例为3/5，IP2和IP3在该用户组别中的用户覆盖比例即为1/5。

计算机设备可以将每个属性值的用户覆盖比例与预设聚集阈值进行比对，将用户覆盖比例大于或等于预设聚集阈值的属性值作为聚集属性值。计算机设备进而可以统计该用户组别中各聚集属性值的个数，将用户组别中用户标识的总数量、各聚集属性值及各聚集属性值的数量的作为该用户组别的特征数据，根据这些特征数据分析用户组别的异常度。

在一个实施例中，计算机设备可以将用户组别中用户标识的总数量、各聚集属性值及各聚集属性值的数量的作为该用户组别的特征数据，输入孤立森林算法模型中，输出该用户组别的异常度。其中，孤立森林算法(iForest，Isolation Forest)是一种基于Ensemble的快速异常检测方法。

在另一个实施例中，计算机设备也可以将用户组别中用户标识的总数量、各聚集属性值及各聚集属性值的数量的作为该用户组别的特征数据，输入预先训练的组别异常度评估模型中，输出该用户组别的异常度。

在一个实施例中，在训练异常度评估模型时，可以先根据孤立森林算法模型无监督地对不带标记的样本用户组别数据进行异常预测，就会对各个样本用户组别数据添加预测的标记。然后计算机设备可以获取对误分类的样本用户组别数据通过人工添加正确的样本标记。这样一来，就可以得到全部携带正确标记的样本用户组别数据，计算机设备则可以根据携带正确标记的样本用户组别数据，进行有监督训练组别异常度评估模型。可以理解，这样一来，就不需要人工对全部样本数据添加标记，仅对分类错误的添加标记，节省了人工成本。

在一个实施例中，组别异常度评估模型，可以是基于第一属性值xgboost算法(eXtreme Gradient Boosting，极端梯度提升算法)训练的、且针对用户组别进行异常度评估的机器学习模型。

上述实施例中，在识别用户组别是否异常时，考虑了聚集属性值和聚集属性值的个数这一具有聚集性的属性特征。由于黑色产业攻击模式通常具有批量申请账号等聚集性特征，所以根据具有聚集性的属性特征进行异常用户组别的判别，能够给出较强的可解释性。

S212，选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。

其中，预设异常阈值，是预先设置的用于筛选出异常用户组别的阈值。

具体地，计算机设备可以将每个用户组别分别与预设异常阈值进行比对，将异常度大于或等于预设异常阈值的用户组别，判定为异常用户组别。

在一个实施例中，当之前对各个用户标识进行多轮分组时，每个用户标识则对应多个用户组别，这种情况下，计算机设备可以从每个用户标识所对应的多个用户组别中，选取异常度最大的用户组别作为该用户标识所对应的最终用户组别。进而，可以将异常度大于或等于预设异常阈值的最终用户组别判定为异常用户组别。

上述异常检测方法，通过对用户行为记录进行特征分析，并分析各特征下的各属性值的异常度，根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别。由于用户行为记录中包括了用户上网时的一系列特征，因此，各特征下的属性值的异常情况能够一定程度上反映用户是否异常，所以，根据各属性值的异常度对各用户标识进行聚类，很大程度上能够将异常用户划分在一个用户组别，进而，再分析各个用户组别的异常度，筛选异常度大于预设异常阈值的用户组别，得到异常用户组别。从而，在无任何人工标记的情况下，无监督地识别出异常用户组别(即恶意团伙)，相较于需要添加人工标注的有监督方法而言，降低了成本。

此外，该方法为无监督的较为鲁棒的方法，可以根据用户行为记录数据进行自适应的分析和调整，具有较强的动态适应能力，因此在一定程度上可以适应黑产攻击模式的变更，这样就不需要像有监督模型一样频繁对模型参数等进行调整，降低了运营和维护的成本。

在一个实施例中，步骤S206包括：分别获取对应于每个特征的各属性值在用户行为记录中的出现频率；针对每个特征，确定对应于特征的出现频率最高的趋势属性值；根据趋势属性值的出现频率，确定趋势属性值的异常度；分别确定对应于特征的各属性值的出现频率与趋势属性值的出现频率之间的差异；根据趋势属性值的异常度和各差异，确定对应于特征的各属性值的异常度。

需要说明的是，本实施例是针对非上网环境特征下的属性值进行的异常度计算，即采用的基于密度的算法来计算属性值的异常度。

其中，趋势属性值，是能够反映属性值分布的集中趋势的属性值。可以理解，非上网环境特征下的正常属性值，能够反映属性值分布的集中趋势，因为在海量的数据中，正常属性值毕竟属于多数，所以能够反映集中趋势，而异常的属性值反而显得比较突兀，本申请实施例正是基于这个原理，计算非上网环境特征下的属性值相应的异常度。

具体地，针对每个特征，计算机设备可以获取该特征下的每个属性值在所获取的全量用户行为记录中的出现次数，以及统计所获取的全量用户行为记录的总数量，计算机设备可以根据出现次数和总数量，确定各属性值的出现频率。计算机设备可以从中选取该特征下的出现频率最高的属性值，得到趋势属性值。

计算机设备可以根据趋势属性值的出现频率，确定趋势属性值的异常度。在一个实施例中，计算机设备可以用1减去该趋势属性值的出现频率，得到该趋势属性值的异常度。可以理解，趋势属性值的出现频率表明正常的出现频率，那么，用1减去该正常的出现频率，则为异常的出现频率，即能够表征该趋势属性值的异常度。

进一步地，针对每个属性值，计算机设备可以确定该属性值的出现频率与趋势属性值的出现频率之间的差异；根据趋势属性值的异常度和各差异，确定对应于特征的各属性值的异常度。

在一个实施例中，计算机设备可以按照以下公式计算各属性值的异常度：

其中，v∈dom(f)v是特征f下的属性值，f是指特征，δ_v是属性值v的异常度；m是趋势属性值,dev(v)用来衡量属性值v的出现频率与趋势属性值m的出现频率之间的差异，且有

其中，p(m)表示趋势属性值m的出现频率；p(v)表示属性值v的出现频率；base(m)表示趋势属性值m的异常度，base(m)＝1-p(m)(公式3)。

上述实施例中，以特征为单位，根据属性值的出现频率与体现该特征下属性值整体分布的集中趋势的属性值的出现频率之间的差异，可以快速、准确地确定该特征下各属性值的异常度。

在一个实施例中，根据趋势属性值的异常度和各差异，确定对应于特征的各属性值的异常度包括：根据趋势属性值的异常度和各差异，确定对应于特征的各属性值的初始异常度。

可以理解，计算机设备可以将以特征为单位计算的对应于特征的各属性值的异常度，作为初始异常度。

本实施例中，该方法还包括：对共现于同一用户行为记录中的对应于不同特征的属性值两两建边；针对每条边，根据对应于该边的第一属性值对该边所对应的第二属性值的异常影响度和第二属性值的初始异常度，确定该边的权重；在带有权重的各边所形成的有向带权图中进行随机游走直至达到停止条件，得到每个属性值最终的异常度。

可以理解，计算机设备可以将每个属性值的初始异常度，与不同特征下的属性值之间的共现关系结合，确定每个属性值最终的异常度。

其中，共现，是指共同出现。异常影响度，是指异常影响程度。

具体地，计算机设备可以对每条用户行为记录进行遍历，对共同出现在同一条用户行为记录中的不同属性值两两之间建边；并为每条边分配权重。可以理解，建边的两个属性值即为对应于该边的两个顶点。

在一个实施例中，计算机设备可以过滤掉所对应的共现次数小于预设次数阈值的边，并为过滤后剩余的每条边分配权重。

针对每条边，计算机设备可以获取对应于该边的第二属性值和第一属性值(可以理解，第二属性值和第一属性值即为对应于同一条边的两个属性值)，并确定该第一属性值对第二属性值的异常影响度。

在一个实施例中，还包括：针对每条边，获取对应于该边的第二属性值和第一属性值在各所述用户行为记录中的共现频率；根据所述共现频率和所述第一属性值在所述用户行为记录中的出现频率的比值，得到所述第二属性值对第一属性值的异常影响度。

在一个实施例中，计算机设备可以按照以下公式计算第一属性值对第二属性值的异常影响度：

其中，v为第二属性值；u为第一属性值；A(u,v)表示第一属性值u对第二属性值v的异常影响度；p(u,v)表示第一属性值u与第二属性值v共现的频率；p(v)表示第二属性值v的出现频率。

在一个实施例中，计算机设备可以获取第二属性值和第一属性值共同出现的用户行为记录的数量，根据该数量与全量用户行为记录的总数量的比值，得到第一属性值与第二属性值共现的频率。

进而，计算机设备可以根据该第一属性值对第二属性值的异常影响度和该第二属性值的初始异常度，确定由第一属性值到第二属性值的这条边的权重。可以理解，该边是有向的边，由于该边的权重，是根据第一属性值对第二属性值的异常影响度确定的，所以，该边的方向，是由第一属性值指向第二属性值。

在一个实施例中，计算机设备可以按照以下公式确定由第一属性值到第二属性值的这条边的权重：

其中，W(u,v)表示第一属性值u到第二属性值v的这条边的权重；δ_v是第二属性值v的初始异常度；V指有向带权图中所有顶点表示的属性值；A(u,v)表示第一属性值u对第二属性值v的异常影响度。可以理解，公式(5)，相当于根据第二属性值的初始异常度和第一属性值对第二属性值的异常影响度的乘积，除以第一属性值对有向带权图中的除了该第一属性值以外的各其他属性值的异常影响度和各其他属性值的初始异常度的乘积之和，得到第一属性值到第二属性值的这条边的权重。

可以理解，在对每条边都确定相应权重后，根据带有权重的各边就可以形成有向带权图中。其中，有向带权图是指由属性值作为顶点、以属性值之间建立的带有权重和方向的边形成的图。

计算机设备可以在带有权重的各边所形成的有向带权图中进行随机游走直至达到停止条件，得到每个属性值最终的异常度。在一个实施例中，计算机设备可以通过随机游走算法，在有向带权图中进行迭代地随机游走，在每次游走时，可以将当前顶点的异常度按照随机游走的边的权重，传播给该边所指向的下一顶点，依次类推，在不断迭代地随机游走过程中，将前一顶点的异常度按照随机游走的边的权重，传播给该边所指向的下一顶点，直至达到停止条件，即停止随机游走，得到每个属性值最终的异常度。

在一个实施例中，停止条件包括迭代次数达到预设次数阈值，或者该有向带权图中各顶点的异常度基本不变或变化不超过预设变化阈值，即图达到收敛状态。

上述实施例中，将各特征属性的初始异常度和属性间的共现关系相结合，对属性值进行多层次、多方面的异常评估，提高了属性值异常度评估的准确性。

在一个实施例中，该方法还包括：根据每个特征所对应的各属性值的异常度，确定所述特征的绝对异常度；根据每个特征的绝对异常度与各特征的绝对异常度总和的比值，得到每个特征的相对异常度；根据每个特征的相对异常度，将对应于所述特征的各属性值最终的异常度进行归一化处理，得到各属性值的归一化后的异常度。

可以理解，在根据各属性值的异常度对各用户标识进行聚类之前，计算机设备还可以对各属性值的异常度进行归一化处理，并根据各属性值的归一化后的异常度对各用户标识进行聚类。

具体地，计算机设备可以根据每个特征所对应的各属性值的异常度之和与每个属性值的出现频次之和的比值，得到该特征的绝对异常度。

在一个实施例中，计算机设备可以按照以下公式计算特征的绝对异常度：

其中，f为特征；rel(f)为特征f的绝对异常度；v为属性值；score(v)为属性值v最终的异常度；freq(v)为每个属性值的出现频次。可以理解，特征的绝对异常度，可以理解为每个特征下属性值每次出现所贡献的平均异常度。

计算机设备可以根据每个特征的绝对异常度与各特征的绝对异常度总和的比值，得到每个特征的相对异常度。

在一个实施例中，计算机设备可以按照以下公式计算特征的相对异常度：

其中，f为特征；w_f为特征f的相对异常度；rel(f)为特征f的绝对异常度；F表示整个特征空间；即为各特征的绝对异常度总和。可以理解，各特征的绝对异常度总和，即为将各特征的绝对异常度相加得到的总和。

计算机设备可以根据每个特征的相对异常度，将对应于该特征的各属性值最终的异常度进行归一化处理，得到各属性值的归一化后的异常度。

在一个实施例中，计算机设备可以按照以下公式计算各属性值的归一化后的异常度：

其中，f_v表示属性值v对应的特征；为属性值v对应的特征f的相对异常度；score(v)为属性值v最终的异常度；n_score(v)为属性值v的归一化后的异常度。

需要说明的是，上述公式(7)和(8)仅以每个属性值最终的异常度为例来说明归一化处理方法。在其他实施例中，计算机设备也可以仅以根据趋势属性值的异常度和各差异确定的各属性值的异常度来对各用户标识进行聚类，而并不与共现关系结合得到最终的异常度，所以，计算机设备也可以对根据趋势属性值的异常度和各差异确定的各属性值的异常度进行归一化处理，这种情况下，可以将上述公式(7)和(8)中的score(v)替换为δ_v即可。

上述实施例中，以特征为单位，将各属性值的异常度进行归一化处理，降低了数据处理的复杂度，从而提高了异常检测效率。

在一个实施例中，步骤S208包括：确定各所述用户标识对应的用户属性集合；根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度；根据用户之间的相似度对各用户标识进行聚类，得到用户组别。

具体地，计算机设备可以获取各用户标识所对应的属性值，根据每个用户标识所对应的属性值，得到该用户标识所对应的用户属性集合。其中，一个用户属性集合中包括至少一个属性值。

计算机设备可以对两两成对的用户标识进行相似度计算，根据用户之间的相似度对各用户标识进行聚类，得到用户组别。具体地，计算机设备可以将用户之间的相似度与预设聚类阈值进行比对，将相似度大于或等于预设聚类阈值的用户所对应的用户标识归为一个用户组别，以此得到各用户标识所对应的用户组别。

可以理解，在对两两成对的用户标识进行相似度计算时，如果将每个用户看做一个文档，用户所对应的属性值看做文档里的词的话，衡量两个用户的相似度，相当于要计算两个用户所分别对应的用户属性集合之间的相似度。进而计算机设备可以根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度。

在一个实施例中，所述根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度包括：根据各属性值的异常度，确定各属性值的权重；针对任意两用户标识所对应的用户属性集合，确定位于两个用户属性集合之间的交集中的各属性值的权重之和，得到第一权重总和；确定位于所述两个用户属性集合之间的并集中的各属性值的权重之和，得到第二权重总和；根据所述第一权重总和与第二权重总和的比值，得到所述任意两用户标识所对应用户之间的相似度。

具体地，计算机设备可以直接将所确定各属性值的异常度，作为各属性值的权重。计算机设备也可以根据各属性值的异常度结合预设权重参考系数，确定各属性值的权重。比如，计算机设备可以将各属性值的异常度乘以预设权重参考系数，得到各属性值的权重。

可以理解，如果将每个用户看做一个文档，用户所对应的属性值看做文档里的词的话，若要衡量两个用户的相似度，可以结合各属性值的权重计算两个用户属性集合之间的加权杰卡德相似系数。将该加权杰卡德相似系数作为该任意两用户标识所对应用户之间的相似度。其中，杰卡德相似系数(jaccard similarity coefficient)，是用来衡量两个集合相似度的一种指标。

具体地，计算机设备针对任意两用户标识所对应的用户属性集合，确定该两个用户属性集合之间的交集，对位于交集中的各属性值的权重求和，得到第一权重总和。计算机设备可以确定该两个用户属性集合之间的并集，对位于该并集中的各属性值的权重求和，得到第二权重总和。计算机设备可以根据所述第一权重总和与第二权重总和的比值，得到所述任意两用户标识所对应用户之间的相似度。

在一个实施例中，计算机设备可以按照以下公式计算两个用户之间的相似度：

其中，U₁和U₂分别表示两个用户；sim(U₁,U₂)表示用户U₁和用户U₂之间的相似度；i为对属性值进行编号的索引编号；K表示属性值的总数；U_1i表示用户U₁对应的索引为i的属性值的权重；U_2i表示用户U₂对应的索引为i的属性值的权重；min(U_1i,U_2i)表示对U_1i和U_2i取最小值；max(U_1i,U_2i)表示对U_1i和U_2i取最大值。

需要说明的是，上述公式所表示的方案中，计算机设备可以对用户U₁和用户U₂所对应的属性值进行汇总编号，K则可以表示用户U₁和用户U₂所对应的属性值的总数。计算机设备也可以对所有用户标识所对应的全量属性值进行汇总编号，K则可以表示全量属性值的总数。进一步地，计算机设备可以对得到的K个属性值进行编号，则每个属性值都具有对应的索引编号。

可以理解，对于一个索引编号的属性值来说，如果两个用户都对应于该索引编号的属性值，就说明这个属性值是这两个用户对应用户属性集合的交集中的元素，那么，对这两个用户共同对应的属性值的权重取最小值，就会是这个权重本身；如果两个用户中只有其中一个用户对应该索引编号的属性值，相当于这个索引编号的属性值不存在于两个用户属性集合的交集中，其中一个用户在该索引编号下就不存在对应属性值的权重，那么，对两个用户在这个索引编号下对应的属性值的权重取最小值即为0。因此，在对所有索引编号对应的属性值依次处理后，将各取最小值的权重相加，即相当于对位于两个用户属性集合的交集中的属性值的权重求和。结合(公式9)，即相当于对位于两个用户属性集合的交集中的属性值的权重求和。

同样地，对于一个索引编号下的属性值，只要两个用户有用户对应于该索引编号的属性值，则说明该属性值是两个用户对应用户属性集合的并集中的元素，所以，对两个用户在所有索引编号下对应的属性值的权重取最大值之后再相加，即相当于对位于两个用户属性集合的并集中的属性值的权重求和。结合(公式9)，即相当于对位于两个用户属性集合的并集中的属性值的权重求和。

为了便于理解公式(9)，现结合图(3)进行解释说明。图3为一个实施例中计算用户相似度的原理解释示意图。需要说明的是，因为除两个用户所对应的属性值以外的属性值，对两个用户的相似度计算没有影响，所以图3仅以两个用户所对应的属性值为例进行说明，而并未示出所有用户的属性值。参照图3，假设用户U1和U2一共对应5个属性值v1～v5，v1～v5分别对应的属性值为权重1～权重5。从首位索引编码0起，发现用户U1和用户U2都对应于该索引编码0所对应的属性值v1，那么，对用户U1和用户U2所对应属性值v1的权重取最小值和最大值，都是属性值v1的权重1。接着，当索引编码为1时，只有用户U1与索引编码1所指向的属性值v2相对应，那么，当索引编码为1时，对用户U1和用户U2所对应属性值的权重取最小值则为0，取最大值则为属性值v2的权重2。依次类推，直到索引编码为4时，对用户U1和用户U2所对应属性值的权重取最小值则为0，取最大值则为属性值v5的权重5。这样一来，将所有取的最小值相加为：权重1+权重4，相当于对位于两个用户属性集合的交集中的属性值的权重求和，将所有取的最大值相加即为：权重1+权重2+……+权重5，就相当于将对位于两个用户属性集合的并集中的属性值的权重求和。然后根据取的各最小值相加之和除以取的各最大值相加之和，就相当于对杰卡德相似系数的变形，即相当于求加权杰卡德相似系数，也就得到两个用户之间的相似度。

可以理解，一般情况下，计算两个集合之间的相似度可以用两个集合的交集大小除以两个集合的并集大小，本实施例中对该相似度计算方法进行变形，结合两个用户属性集合中元素(即属性值)的权重进行加权计算，即可以根据位于交集中的各属性值的权重求和得到的第一权重总和，与位于并集中的各属性值的权重求和得到的第二权重总和的比值，得到两个用户属性集合之间的相似度。

上述实施例中，通过各属性值的异常度确定各属性值的权重，将计算用户相似度的问题，转换为计算用户属性集合之间的加权杰卡德相似系数，使得对用户相似度的求取更加快速，然后根据相似度对用户标识划分组别，从而提高了异常检测的效率。

在一个实施例中，步骤S208包括：针对当前轮，对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别，并将下一轮作为当前轮，返回所述针对当前轮，对各用户标识对应的各属性值进行哈希处理的步骤以继续处理，直至达到预设轮数停止；获取在执行预设轮数后各用户标识所对应的多个用户组别。本实施例中，步骤S212包括：针对每个用户标识，选取所述用户标识对应的异常度最大的用户组别，作为该用户标识对应的最终用户组别；筛选异常度大于或等于预设异常阈值的最终用户组别，得到异常用户组别。

其中，当前轮，是当前进行哈希处理的一个轮次。预设轮数，是预先指定的需要进行哈希处理的轮数。

可以理解，本实施例中可以预先指定哈希处理轮数，即预设轮数。计算机设备可以对各用户标识对应的各属性值按照预设轮数对用户标识进行多轮分组处理，在当前轮分组处理完毕后，将用户标识划分到一个用户组别，然后再将下一轮当作当前轮(即开始下一轮)再次进行分组处理，以重新对用户标识进行用户组别划分，以此进行迭代处理，直至迭代至预设轮数停止。这样一来，在在执行预设轮数的分组处理后，每个用户标识则可以被划分至多个用户组别，即每个用户标识可以对应多个用户组别。

具体地，在当前轮对用户标识进行分组处理时，计算机设备可以对各用户标识对应的各属性值进行哈希处理，得到各属性值相应的哈希签名。计算机设备可以根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识在当前轮所对应的用户组别。

计算机设备可以按照步骤S210对各个用户组别进行异常度计算，确定各个用户组别的异常度。由于每个用户标识对应多个用户组别，所以，针对每个用户标识，计算机设备可以从该用户标识所对应的多个用户组别中，选取异常度最大的用户组别，座位该用户标识对应的最终用户组别。这样一来，就可以确定每个用户标识所对应的最终用户组别。计算机设备可以将在步骤S210中求得的各个最终用户组别的异常度与预设异常阈值进行比对，将异常度大于或等于预设异常阈值的最终用户组别判定为异常用户组别。

上述实施例中，通过多轮的哈希处理将一个用户分别划分到多个用户组别中，能够使得对用户分类更加的全面，然后，再结合组别的异常度的考量，再从多个组别中选取异常度最大的组别，作为该用户的最终用户组别，提高了聚类的准确性。进而提高了异常检测的准确性。

如图4所示，在一个实施例中，对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别(简称用户组别划分步骤)，具体包括以下步骤：

S402，针对每个用户标识，从预设数量的随机种子中依次选取当次随机种子。

可以理解，在对用户标识进行一次组别划分处理时，计算机设备可以获取预先设置预设数量的随机种子。预设数量可以为一个或多个。当随机种子为一个时，相当于需要对每个用户标识所对应的每个属性值都进行一次哈希处理，则可以根据一次哈希处理的结果，对用户标识划分用户组别。当随机种子有多个时，需要对每个用户标识所对应的每个属性值都进行多次哈希处理，则可以根据多次哈希处理的结果，对用户标识划分一次用户组别。

当次随机种子，是指对用户标识所对应的每个属性值进行当次哈希处理时所使用的随机种子。可以理解，随机种子(Random Seed)是计算机专业术语，随机种子，即为真随机数。可以以一个随机种子(即真随机数)为初始条件，基于该随机种子用一定的算法产生随机数。

具体地，在根据随机种子进行每一次哈希处理时，针对每个用户标识，计算机设备可以从预设数量的随机种子中依次选取当次随机种子。

S404，将所述用户标识对应的每个属性值分别按照当次随机种子进行当次哈希处理，生成各所述属性值当次的哈希签名和随机数。

具体地，计算机设备可以将该用户标识对应的每个属性值分别按照当次随机种子进行当次哈希处理，生成各属性值所对应的当次的哈希签名和当次的随机数。需要说明的是，随机数的取值位于0.0到1.0(左开右闭)之间。

比如，一个用户A，其对应5个属性值，计算机设备则可以分别将5个属性值都按照当次随机种子进行当次哈希处理，生成这5个属性值分别对应的当次的哈希签名和随机数。即，可以得到5个当次的哈希签名和5个随机数。

S406，按各属性值的异常度和对应的当次的随机数，生成各属性值的异常度最小哈希值。

可以理解，针对该用户标识对应的每个属性值，计算机设备可以按照该属性值对应的当次的随机数，对该属性值的异常度进行最小哈希计算，得到该该属性值在当次的异常度最小哈希值。

在一个实施例中，计算机设备可以按照以下公式计算属性值的异常度最小哈希值：

其中，v为属性值；k为第k次哈希处理；min hash_score(v,k)为属性值v在第k次哈希处理时的异常度最小哈希值；n_score(v)为属性值v的异常度；rand(v,k)为属性值v在第k次哈希处理时生成的随机数。其中，k∈(0,M]，M为随机种子的预设数量。

公式(10)可以理解为在当次哈希处理时，根据当次哈希处理生成的随机数的对数，与属性值的异常度的比值，得到该属性值的异常度最小哈希值。

S408，筛选异常度最小哈希值最小的属性值所对应的当次的哈希签名，得到当次的最终哈希签名。

具体地，针对每个用户标识，计算机设备可以将该用户标识所对应的各属性值的异常度最小哈希值进行大小比对，从中选取最小的异常度最小哈希值，查找该最小的异常度最小哈希值所对应的属性值，并将查找的该属性值所对应当次的哈希签名，作为当次哈希处理得到的最终哈希签名。

比如，一个用户A，其对应5个属性值v1～v5，计算机设备则可以分别将5个属性值都按照当次随机种子进行当次哈希处理，生成这5个属性值分别对应的当次的哈希签名和随机数。即，属性值v1～v5分别具有一个对应的当次的哈希签名和随机数。那么，针对v1，计算机设备可以根据该v1的异常度和所对应的随机数，得到该v1的异常度最小哈希值。同理，针对v2～v5，也会得到各自对应的异常度最小哈希值，则一共就有5个异常度最小哈希值。接着，可以从这5个异常度最小哈希值中选取最小的一个。假设，最小的异常度最小哈希值对应于v1，那么，就可以将v1所对应的当次的哈希签名，作为当次哈希处理得到的最终的哈希签名。

可以理解，在得到当次的最终哈希签名后，计算机设备可以选取下一随机种子重新作为当次随机种子以继续执行步骤S402～S408。由于，在每次哈希处理时都会得到一个最终的哈希签名，所以在根据预设数量的随机种子都进行哈希处理后，就可以得到符合与随机种子的预设数量的最终哈希签名。比如，随机种子的预设数量为M个，就可以得到M个最终哈希签名。

需要说明的是，在其他实施例中，可以用余弦距离(也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量)或欧式距离哈希算法等其他LSH(Locality Sensitive Hashing，局部敏感哈希)族哈希算法，根据各属性值对应的当次的随机数，对该属性值的异常度进行转换，生成一个筛选参考值来替换本申请实施例中的异常度最小哈希值。然后根据各该筛选参考值，从各属性值对应的当次的哈希签名中，选取当次哈希处理的最终哈希签名。

S410，获取得到的符合预设数量的最终哈希签名；将符合预设数量的最终哈希签名进行拼接，生成所述用户标识对应的用户组别标识。

具体地，计算机设备可以将得到的符合预设数量的最终哈希签名进行依次拼接，拼接得到的字符串即为用户标识对应的用户组别标识。

在一个实施例中，计算机设备可以将符合预设数量的最终哈希签名按照生成顺序依次拼接，得到用户标识对应的用户组别标识。

比如，第1～5次哈希处理取的最终哈希签名为h1～h5，则可以将h1～h5依次拼接，得到用户标识对应的用户组别标识。

S412，将对应于同一用户组别标识的用户标识，划分为同一用户组别。

可以理解，在对各用户标识都执行步骤S402～S408的处理后，就能够得到各用户标识所对应的用户组别标识。计算机设备可以将对应于同一用户组别标识的用户标识，划分为同一用户组别。

需要说明的是，步骤S402～S412描述的是针对各用户标识进行一轮次划分组别时的处理步骤。当需要对各用户标识进行多轮划分组别时，则可以预先针对每一轮都设置预设数量的随机种子，并可以在每轮处理时，执行步骤S402～S412，以将一个用户标识进行多次组别划分，使得一个用户标识对应多个用户组别。比如，通过q轮划分即可得到q个不同的划分结果，即每个用户会被划分到q个不同的用户组别中去。

上述实施例中，在用户聚类时，采用了一种低复杂度的哈希算法，能够降低计算难度，从而提高异常检测效率。此外，通过引入哈希算法，该方法具有极强的可扩展性，可较为容易地扩展到亿级别数据上，这样极大的拓展了方法的应用场景。

图5为一个实施例中异常检测方法的系统架构图。参照图5，本申请各实施例中的无监督异常检测方法主要包括用户画像、属性异常度评估、子空间聚类和组别异常度评估这四个模块。其中，用户画像模块从包括上网环境信息、行为数据和用户属性等的用户行为记录中抽取出各种特征，包括但不限于IP特征、设备特征、Wi-Fi特征、文本特征和行为特征等，因此可以得到对应于各特征的画像，比如图5中对应于IP特征的IP画像等。属性异常度评估模块根据用户画像模块得到的特征计算不同特征下每个属性的异常度。其中，可以先以特征为单位，根据单个特征下的属性分布情况，得到每个属性值的初始异常度。具体地，可以根据孤立森林异常度评估方法评估上网环境特征下的各属性值的初始异常度，针对非上网环境特征下的各属性值可以结合趋势属性值(指出现频率最大的属性值，即属性Mode)来进行异常度评估，比如，可以采用与趋势属性值(指出现频率最大的属性值，即属性Mode)的出现频率的差异来取的各属性值的初始异常度。然后再考虑各属性值之间的属性共现关系，结合随机游走算法，根据各属性值的初始异常度，得到该属性值最终的异常度。子空间聚类模块根据属性异常度评估模块得到的属性值最终的异常度将各用户标识划分到不同的用户组别中，完成用户的聚类。组别异常度评估模块可以针对子空间聚类结果得到的不同用户组别，计算每个用户组别的异常度，并从中找到恶意团伙。其中，组别异常度评估模块可以先根据孤立森林算法对每个用户组别进行粗粒度的异常度评估。由于粗粒度的异常度评估算法可能会有少量的误判，为了提高方法的准确率，可利用粗粒度的异常度评估算法误分类的用户组别重新进行人工标注，并进行机器学习训练，得到更为细粒度的组别异常度评估模型。可以理解，基于细粒度的异常度评估模型能对异常度评估进行优化，在使用细粒度的异常度评估模型对用户组别进行评估时，能够更准确地找到恶意团伙。

需要说明的是，上述实施例中的无监督的异常检测架构中，针对不同业务场景，将各模块中的具体算法进行相应的插拔替换，比如，可以选用其他自定义的属性异常评估方法，可以选择不同于Weighted MinHash的哈希策略，可以使用不同的方法来评估组别的异常度。上述实施例的框架中，可以提升框架中具体算法设计的灵活性。

如图6所示，在一个实施例中，提供了一种异常检测装置600，该装置600包括：特征提取模块602、属性异常度评估模块604、聚类模块606、组别异常度评估模块608以及异常识别模块610，其中：

特征提取模块602，用于获取各用户标识分别对应的用户行为记录；提取各所述用户行为记录中包括的特征。

属性异常度评估模块604，用于确定所述用户行为记录中对应于各所述特征的各属性值的异常度。

聚类模块606，用于根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别。

组别异常度评估模块608，用于确定每个用户组别的异常度。

异常识别模块610，用于选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。

在一个实施例中，属性异常度评估模块604还用于分别获取对应于每个特征的各属性值在所述用户行为记录中的出现频率；针对每个特征，确定对应于所述特征的出现频率最高的趋势属性值；根据所述趋势属性值的出现频率，确定所述趋势属性值的异常度；分别确定对应于所述特征的各属性值的出现频率与所述趋势属性值的出现频率之间的差异；根据所述趋势属性值的异常度和各所述差异，确定对应于所述特征的各属性值的异常度。

在一个实施例中，属性异常度评估模块604还用于根据所述趋势属性值的异常度和各所述差异，确定对应于所述特征的各属性值的初始异常度；对共现于同一用户行为记录中的不同属性值两两建边；针对每条边，根据对应于该边的第一属性值对该边所对应的第二属性值的异常影响度和第二属性值的初始异常度，确定该边的权重；在带有权重的各边所形成的有向带权图中进行随机游走直至达到停止条件，得到每个属性值最终的异常度。

在一个实施例中，属性异常度评估模块604还用于针对每条边，获取对应于该边的第二属性值和第一属性值在各所述用户行为记录中的共现频率；根据所述共现频率和所述第一属性值在所述用户行为记录中的出现频率的比值，得到所述第二属性值对第一属性值的异常影响度。

如图7所示，在一个实施例中，该装置600还包括：

归一化模块605，用于根据每个特征所对应的各属性值的异常度，确定所述特征的绝对异常度；根据每个特征的绝对异常度与各特征的绝对异常度总和的比值，得到每个特征的相对异常度；根据每个特征的相对异常度，将对应于所述特征的各属性值最终的异常度进行归一化处理，得到各属性值的归一化后的异常度。

在一个实施例中，聚类模块606还用于确定各所述用户标识对应的用户属性集合；根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度；根据用户之间的相似度对各用户标识进行聚类，得到用户组别。

在一个实施例中，聚类模块606还用于根据各属性值的异常度，确定各属性值的权重；针对任意两用户标识所对应的用户属性集合，确定位于两个用户属性集合之间的交集中的各属性值的权重之和，得到第一权重总和；确定位于所述两个用户属性集合之间的并集中的各属性值的权重之和，得到第二权重总和；根据所述第一权重总和与第二权重总和的比值，得到所述任意两用户标识所对应用户之间的相似度。

在一个实施例中，聚类模块606还用于对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别。

在一个实施例中，聚类模块606还用于针对当前轮，对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别，并将下一轮作为当前轮，返回所述针对当前轮，对各用户标识对应的各属性值进行哈希处理的步骤以继续处理，直至达到预设轮数停止；获取在执行预设轮数后各用户标识所对应的多个用户组别。本实施例中，异常识别模块610还用于针对每个用户标识，选取所述用户标识对应的异常度最大的用户组别，作为该用户标识对应的最终用户组别；筛选异常度大于或等于预设异常阈值的最终用户组别，得到异常用户组别。

在一个实施例中，聚类模块606还用于针对每个用户标识，从预设数量的随机种子中依次选取当次随机种子，将所述用户标识对应的每个属性值分别按照当次随机种子进行当次哈希处理，生成各所述属性值当次的哈希签名和随机数；按各属性值的异常度和对应的当次的随机数，生成各属性值的异常度最小哈希值；筛选异常度最小哈希值最小的属性值所对应的当次的哈希签名，得到当次的最终哈希签名；并选取下一随机种子重新作为当次随机种子以继续执行，直至得到符合所述预设数量的最终哈希签名；将符合所述预设数量的最终哈希签名进行拼接，生成所述用户标识对应的用户组别标识；将对应于同一用户组别标识的用户标识，划分为同一用户组别。

在一个实施例中，组别异常度评估模块608还用于针对每个用户组别，确定所述用户组别所关联的属性值；根据每个所关联的属性值在所述用户组别中对应的用户标识的数量与所述用户组别中用户标识的总数量的比值，得到各属性值的用户覆盖比例；筛选用户覆盖比例大于或等于预设聚集阈值的属性值，得到聚集属性值；获取所述用户组别中各所述聚集属性值的个数；根据所述用户组别中用户标识的总数量、各所述聚集属性值及各聚集属性值的数量，确定所述用户组别的异常度。

图8为一个实施例中计算机设备的内部结构示意图。参照图8，该计算机设备可以是图1中所示的服务器120。可以理解，计算机设备也可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得处理器执行一种异常检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种异常检测方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的异常检测装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该异常检测装置的各个程序模块，比如，图6所示的特征提取模块602、属性异常度评估模块604、聚类模块606、组别异常度评估模块608以及异常识别模块610。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的异常检测方法中的步骤，例如，计算机设备可以通过如图6所示的异常检测装置600中的特征提取模块602获取各用户标识分别对应的用户行为记录；提取各所述用户行为记录中包括的特征。计算机设备可以通过属性异常度评估模块604确定所述用户行为记录中对应于各所述特征的各属性值的异常度。计算机设备可以通过聚类模块606根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别。计算机设备可以通过组别异常度评估模块608确定每个用户组别的异常度。计算机设备可以通过异常识别模块610选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别。

需要说明的是，本申请各实施例中的“第一”和“第二”仅用作区分，而并不用于大小、先后、从属等方面的限定。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种异常检测方法，所述方法包括：

获取各用户标识分别对应的用户行为记录；

提取各所述用户行为记录中包括的特征；

确定每个用户组别的异常度；

2.根据权利要求1所述的方法，其特征在于，所述确定所述用户行为记录中对应于各所述特征的各属性值的异常度包括：

分别获取对应于每个特征的各属性值在所述用户行为记录中的出现频率；

针对每个特征，确定对应于所述特征的出现频率最高的趋势属性值；

根据所述趋势属性值的出现频率，确定所述趋势属性值的异常度；

分别确定对应于所述特征的各属性值的出现频率与所述趋势属性值的出现频率之间的差异；

根据所述趋势属性值的异常度和各所述差异，确定对应于所述特征的各属性值的异常度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述趋势属性值的异常度和各所述差异，确定对应于所述特征的各属性值的异常度包括：

根据所述趋势属性值的异常度和各所述差异，确定对应于所述特征的各属性值的初始异常度；

所述方法还包括：

对共现于同一用户行为记录中的不同属性值两两建边；

针对每条边，根据对应于该边的第一属性值对该边所对应的第二属性值的异常影响度和第二属性值的初始异常度，确定该边的权重；

在带有权重的各边所形成的有向带权图中进行随机游走直至达到停止条件，得到各属性值最终的异常度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别包括：

确定各所述用户标识对应的用户属性集合；

根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度；

根据用户之间的相似度对各用户标识进行聚类，得到用户组别。

5.根据权利要求4所述的方法，其特征在于，所述根据任意两用户标识对应的用户属性集合中各属性值的异常度，确定所述任意两用户标识所对应用户之间的相似度包括：

根据各属性值的异常度，确定各属性值的权重；

针对任意两用户标识所对应的用户属性集合，确定位于两个用户属性集合之间的交集中的各属性值的权重之和，得到第一权重总和；

确定位于所述两个用户属性集合之间的并集中的各属性值的权重之和，得到第二权重总和；

根据所述第一权重总和与第二权重总和的比值，得到所述任意两用户标识所对应用户之间的相似度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述各属性值的异常度对各所述用户标识进行聚类，得到用户组别包括：

针对当前轮，对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别，并将下一轮作为当前轮，返回所述针对当前轮，对各用户标识对应的各属性值进行哈希处理的步骤以继续处理，直至达到预设轮数停止；

获取在执行预设轮数后各用户标识所对应的多个用户组别；

所述选取异常度大于或等于预设异常阈值的用户组别，得到异常用户组别包括：

针对每个用户标识，选取所述用户标识对应的异常度最大的用户组别，作为该用户标识对应的最终用户组别；

筛选异常度大于或等于预设异常阈值的最终用户组别，得到异常用户组别。

7.根据权利要求6所述的方法，其特征在于，所述对各用户标识对应的各属性值进行哈希处理，并根据处理得到的各属性值的哈希签名和各属性值的异常度，确定各用户标识所对应的用户组别包括：

针对每个用户标识，从预设数量的随机种子中依次选取当次随机种子，将所述用户标识对应的每个属性值分别按照当次随机种子进行当次哈希处理，生成各所述属性值当次的哈希签名和随机数；

按各属性值的异常度和对应的当次的随机数，生成各属性值的异常度最小哈希值；

筛选异常度最小哈希值最小的属性值所对应的当次的哈希签名，得到当次的最终哈希签名；并选取下一随机种子重新作为当次随机种子以继续执行，直至得到符合所述预设数量的最终哈希签名；

将符合所述预设数量的最终哈希签名进行拼接，生成所述用户标识对应的用户组别标识；

将对应于同一用户组别标识的用户标识，划分为同一用户组别。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述确定每个用户组别的异常度包括：

针对每个用户组别，确定所述用户组别所关联的属性值；

根据每个所关联的属性值在所述用户组别中对应的用户标识的数量与所述用户组别中用户标识的总数量的比值，得到各属性值的用户覆盖比例；

筛选用户覆盖比例大于或等于预设聚集阈值的属性值，得到聚集属性值；

获取所述用户组别中各所述聚集属性值的个数；

根据所述用户组别中用户标识的总数量、各所述聚集属性值及各聚集属性值的数量，确定所述用户组别的异常度。

9.一种异常检测装置，其特征在于，所述装置包括：

组别异常度评估模块，用于确定每个用户组别的异常度；

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至8中任一项所述方法的步骤。