CN114416916A

CN114416916A - 异常用户检测方法、装置、设备及存储介质

Info

Publication number: CN114416916A
Application number: CN202011084616.3A
Authority: CN
Inventors: 卢永頔; 王鑫; 刘虹; 夏敬侃; 隋亚芹; 陈蕾; 姜宁; 兰天; 刘煜; 张雷
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-04-29

Abstract

本申请实施例提供一种异常用户检测方法、装置、设备及存储介质。该方法包括：获取多个用户的行为数据；根据多个用户中每个用户的行为数据，对每个用户进行聚类；根据聚类后的每个类别中的用户的行为数据进行关联规则提取，得到每个类别的关联规则；根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。根据本申请实施例，能够提高异常用户检测准确率以及运维效率。

Description

异常用户检测方法、装置、设备及存储介质

技术领域

本申请涉及运维技术领域，尤其涉及一种异常用户检测方法、装置、设备及存储介质。

背景技术

目前，异常用户检测是智能运维中的重要环节，主要是通过检测用户的行为数据是否异常，来及时发现用户是否异常。

传统的异常用户检测方案一般是根据用户的行为数据进行关键词匹配，或者专业人员基于经验进行核查，但是基于上述方案容易检测出无效的异常用户，准确率较低。

发明内容

本申请实施例提供了一种异常用户检测方法、装置、设备及存储介质，能够提高异常用户检测准确率以及运维效率。

第一方面，本申请实施例提供一种异常用户检测方法，该方法包括：

获取多个用户的行为数据；

根据多个用户中每个用户的行为数据，对每个用户进行聚类；

根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到每个类别的关联规则；

根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。

在第一方面的一些可实现方式中，根据多个用户中每个用户的行为数据，对每个用户进行聚类，包括：

根据每个用户的行为数据，确定每个用户的特征向量；

根据每个用户的特征向量，对每个用户进行聚类。

在第一方面的一些可实现方式中，根据每个用户的行为数据，确定每个用户的特征向量，包括：

根据每个用户的行为数据与词频-逆文件频率(Term Frequency-InverseDocument Frequency，TF-IDF)算法或者Word2vec算法，计算每个用户的特征向量。

在第一方面的一些可实现方式中，根据每个用户的特征向量，对每个用户进行聚类，包括：

根据每个用户的特征向量与DBSCAN算法或者K-means算法，对每个用户进行聚类。

在第一方面的一些可实现方式中，根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到每个类别的关联规则，包括：

根据每个类别中的用户的行为数据与Apriori算法或者FP-Growth算法，进行关联规则提取，得到每个类别的关联规则。

在第一方面的一些可实现方式中，根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户，包括：

根据每个用户的行为数据与每个类别的关联规则，计算每个用户的行为分数；

在行为分数小于或等于预设分数阈值的情况下，确定行为分数对应的用户为异常用户。

在第一方面的一些可实现方式中，每个类别的关联规则包括多个关联元素；

根据每个用户的行为数据与每个类别的关联规则，计算每个用户的行为分数，包括：

确定每个类别的关联规则中的每个关联元素对应的权重；

根据每个用户的行为数据、每个类别的关联规则、每个类别的关联规则中的每个关联元素对应的权重、多个用户的数量、每个类别中的用户的数量，计算每个用户的行为分数。

第二方面，本申请实施例提供一种异常用户检测装置，该装置包括：

获取模块，用于获取多个用户的行为数据；

聚类模块，用于根据多个用户中每个用户的行为数据，对每个用户进行聚类；

提取模块，用于根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到每个类别的关联规则；

检测模块，用于根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。

在第二方面的一些可实现方式中，聚类模块包括：

第一确定单元，用于根据每个用户的行为数据，确定每个用户的特征向量；

聚类单元，用于根据每个用户的特征向量，对每个用户进行聚类。

在第二方面的一些可实现方式中，第一确定单元具体用于：根据每个用户的行为数据与词频-逆文件频率TF-IDF算法或者Word2vec算法，计算每个用户的特征向量。

在第二方面的一些可实现方式中，聚类单元具体用于：根据每个用户的特征向量与DBSCAN算法或者K-means算法，对每个用户进行聚类。

在第二方面的一些可实现方式中，提取模块包括：

提取单元，用于根据每个类别中的用户的行为数据与Apriori算法或者FP-Growth算法，进行关联规则提取，得到每个类别的关联规则。

在第二方面的一些可实现方式中，检测模块包括：

计算单元，用于根据每个用户的行为数据与每个类别的关联规则，计算每个用户的行为分数；

第二确定单元，用于在行为分数小于或等于预设分数阈值的情况下，确定行为分数对应的用户为异常用户。

在第二方面的一些可实现方式中，每个类别的关联规则包括多个关联元素；

计算单元具体用于：确定每个类别的关联规则中的每个关联元素对应的权重；

第三方面，本申请实施例提供一种异常用户检测设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的异常用户检测方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的异常用户检测方法。

本申请实施例提供的一种异常用户检测方法、装置、设备及存储介质，可以根据每个用户的行为数据，对每个用户进行聚类，接着根据聚类后的每个类别中的用户的行为数据进行关联规则提取，得到每个类别的关联规则，然后根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。如此能够获得更加细化、更加具有针对性的关联规则，基于该关联规则进行异常用户检测，可以提高异常用户检测准确率以及运维效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种DBSCAN算法的效果示意图；

图2是本申请实施例提供的一种异常用户检测系统的架构示意图；

图3是本申请实施例提供的一种异常用户检测方法的流程示意图；

图4是本申请实施例提供的一种操作日志示意图；

图5是本申请实施例提供的一种TF-IDF的计算结果示意图；

图6是本申请实施例提供的一种类别示意图；

图7是本申请实施例提供的一种频繁项集示意图；

图8是本申请实施例提供的一种异常用户检测装置的结构示意图；

图9是本申请实施例提供的一种异常用户检测设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，传统的异常用户检测方案除了根据用户的行为数据进行关键词匹配，专业人员基于经验进行核查之外，还可以将所有的数据糅合成一个大的数据集合，随后利用关联规则算法从数据集合中获取相应的关联规则，然后使用关联规则对用户行为进行检测，得到检测结果。但是基于该方案生成的规则较多，且不具有针对性，与上述两个方案相同的是容易检测出无效的异常用户，准确率较低。

为了解决现有技术问题，本申请实施例提供了一种异常用户检测方法、装置、设备及存储介质，可以应用于内网或外网的应用场景。能够根据每个用户的行为数据，对每个用户进行聚类，接着根据聚类后的每个类别中的用户的行为数据进行关联规则提取，得到每个类别的关联规则，然后根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。如此能够获得更加细化、更加具有针对性的关联规则，基于该关联规则进行异常用户检测，可以提高异常用户检测准确率以及运维效率。

在介绍本申请之前，首先介绍下本申请涉及到的一些名词，具体如下：

TF-IDF算法：该算法是一种常常被用在文本挖掘中加权算法，用于评估一个字词对一个文件集合或者一个语料库的其中一份文件的重要程度。字词的重要性对着它在文件中出现的次数成正比增加，同时会随着它在语料库中出现的频率成反比下降。其核心思想是：如果某个词在一篇文章的频率较高，并且在其它文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来区分各个文章所属的主题。

DBSCAN算法：该算法是一种比较有代表性的基于密度的聚类算法，与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。具体地，DBSCAN算法需要设置两个超参数，即Minpts，ε。其中，Minpts表示邻域内样本个数最小阈值，如果样本x_j的ε-邻域中至少含有Minpts个样本，即|N_ε(x_j)|≥Minpts，其中，|N_ε(x_j)|表示ε-邻域中的样本个数，那么x_j是一个核心对象。ε表示邻域范围，对于样本集合D中的每一格样本x_j，其ε-邻域包括样本集合D中与x_j距离不大于ε的样本，即N_ε(x_j)＝{x_i∈D|dist(x_i,x_J)≤ε}。其中，N_ε(x_j)表示ε-邻域中的样本，dist()函数可以是计算两点间距离的函数。

下面介绍DBSCAN算法中的主要定义，密度直达：若x_j位于x_i的ε-邻域中，且x_i是核心对象，则称x_j由x_i密度直达。例如，在核心对象x_i处画一个半径为ε的圆，x_j恰好在这个圆里面，那么x_j可以由x_i直接到达。需要注意的是这个直达是有方向的，是从核心顶点射出到另一个点的；密度可达：对于x_i与x_j，若存在一个样本序列p₁，p₂，...，p_n，其中p₁＝x_i，pn＝x_j且p_i+1由pi密度直达，则称x_j由x_i密度可达。即，现在有n个顶点，第一个顶点是x_i，第n个顶点是x_j，而且x_i可以密度直达x_i+1这个点，x_i+1这个点可以密度直达x_i+2这个点，直到到达第n个顶点，也就是x_j这个点；密度相连：对x_i与x_j，若存在x_k使得x_i与x_j均由x_k密度可达，则称x_i与x_j密度相连。

示例性地，图1是本申请实施例提供的一种DBSCAN算法的效果示意图，如图1所示，Minpts＝3，虚线显示出ε-邻域，x_i是核心对象，x₂由x₁密度直达，x₃由x₁密度可达，x₃与x₄密度相连。

在实际应用中，DBSCAN算法先选择样本集合中的一个核心对象作为起始点，对这个起始点根据定义的ε-邻域以及Minpts限制其可以传导的范围，接着去寻找相应的聚类簇。找完一个聚类簇以后，再换一个核心对象继续寻找，直到所有的核心对象均被访问过为止。作为一个示例，DBSCAN算法的实现可以如表1所示：

表1

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的异常用户检测方法、装置、设备和存储介质进行详细地说明。

图2是本申请实施例提供的一种异常用户检测系统的架构示意图，如图2所示，该异常用户检测系统可以包括电子设备210和服务器220，其中，电子设备210可以为移动电子设备，也可以为非移动电子设备。例如，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑或者超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)等等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)或者个人计算机(Personal Computer，PC)等等。服务器220是目标系统对应的服务器，代表被监控的目标系统，可以为通信、金融、社交或者娱乐等系统。电子设备210与服务器220之间通过网络进行通信，其中，网络可以是有线通信网络或无线通信网络。

作为一个示例，该异常用户检测系统可以应用于监控通信、金融、社交或者娱乐等系统的场景，在此不做限制。

参见图2，电子设备210可以接收服务器220发送的多个用户的行为数据。示例性地，行为数据可以是服务器220记录的用户的操作日志。接着对每个用户进行聚类，根据聚类后的每个类别中的用户的行为数据进行关联规则提取，得到每个类别的关联规则。然后根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。如此能够获得更加细化、更加具有针对性的关联规则，基于该关联规则进行异常用户检测，提高异常用户检测的准确率以及运维效率。

下面将介绍本申请实施例提供的异常用户检测方法。其中，该异常用户检测方法的执行主体可以是图2所示的异常用户检测系统中的电子设备210，或者电子设备210中的模块。

图3是本申请实施例提供的一种异常用户检测方法的流程示意图，如图3所示，该异常用户检测方法可以包括以下步骤：

S310，获取多个用户的行为数据。

其中，行为数据可以包括多个行为元素，行为元素用于表示用户的操作行为。如图4所示，行为数据可以是一段时间内的操作日志。

作为一个示例，可以获取多个用户的原始行为数据，对每个用户的原始行为数据进行数据清洗。其中，数据清洗可以包括：破损数据的清除、错误值的检测及清除、重读数据的检测及清除、一致性的调整等等。接着对清洗后的每个用户的原始行为数据进行分析，根据行为分布规律删减清洗后的每个用户的原始行为数据中的无效部分，得到每个用户的行为数据。

S320，根据多个用户中每个用户的行为数据，对每个用户进行聚类。

在一些实施例中，可以根据每个用户的行为数据，确定每个用户的特征向量。具体地，可以根据每个用户的行为数据与TF-IDF算法或者Word2vec算法，计算每个用户的特征向量，通过特征向量更加针对性地表示用户。接着根据每个用户的特征向量，对每个用户进行聚类。具体地，可以根据每个用户的特征向量与DBSCAN算法或者K-means算法，对每个用户进行聚类，使用户归属到合适的类别。

作为一个示例，可以取每个用户的行为数据的并集构建第一数据库，以及构建包括每个用户的行为数据的第二数据库。其中，第二数据库中的用户的行为数据可以如表2、表3所示：

表2

行为元素	cd	vi	cat	scp	ssh	...	sudo
								频次	6	10	12	10	3	...	9

表3

行为元素	cd	vi	cat	scp	ssh	...	sudo
								频次	7	10	2	3	20	...	1

接着利用TF-IDF算法计算第二数据库中的每个行为数据中的每个行为元素的TF-IDF值。具体地，可以如以下公式所示：

TF-IDF＝TF*IDF (1)

其中，n_i,j表示行为元素在该行为数据中出现的次数，∑_kn_k,j表示该行为数据中的全部行为元素的出现的次数之和，N代表第二数据库中的行为数据总数，而N(x)代表第二数据库中出现行为元素x的行为数据个数。

根据实际需要可以对公式(3)做一些平滑处理，得到以下公式。

图5是本申请实施例提供的一种TF-IDF的计算结果示意图，如图5所示，示出了第二数据库中的一个行为数据中的行为元素以及行为元素对应的TF-IDF值。可知，该行为数据中的每个行为元素都有不同的TF-IDF值。

然后基于第一数据库对第二数据库中的每个行为数据中的每个行为元素的TF-IDF值进行向量表示，得到第二数据库中的每个行为数据对应的特征向量，即每个用户的特征向量。

进而以全部用户的特征向量作为样本集合，使用DBSCAN算法对样本集合进行计算，即对每个用户进行聚类，得到若干聚类簇，即类别。示例性地，类别可以如图6所示，A项是用户标识，用于唯一表示用户，B项是用户类别标识，用于表示用户所属的类别。其中，类别的数量在5-8个比较合适。可选地，可以通过调整Minpts及ε调整最后得到的类别的数量。

S330，根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到每个类别的关联规则。

在一些实施例中，可以根据每个类别中的用户的行为数据与Apriori算法或者FP-Growth算法，进行关联规则提取，得到每个类别的关联规则。

需要注意的是，在进行关联规则提取中，两个最重要的概念就是支持度与置信度。假设I＝{I1,I2,I3,...,Im}是行为元素的集合，给定一个行为数据集合BD，BD中每个事务t是I的非空子集，每一个事务t都与一个唯一的标识TID对应。关联规则在BD中的支持度是BD中事务t同时包含X、Y的百分比，即概率；置信度是BD中事务t已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有意义的。

作为一个示例，Apriori算法的实现可以如表4所示：

表4

示例性地，频繁项集可以如图7所示，左边是频繁项集，右边是对应的支持度以及置信度。在给定最小支持度和最小置信度的情况下，根据频繁项集生成关联规则。从而针对一个类别，以一个类别中的全部用户的行为数据作为行为数据集合，进行关联规则提取，可以得到一个类别的关联规则，针对每个类别，则可以得到每个类别的关联规则。

示例性地，关联规则可以如表5所示：

表5

其中，规则1表示，类别2中的用户数量占所有用户数量的24.57％，在该类别中有29.93％的用户登录了ecip这个账号，并且操作次数在200～300次之间，时间为9:00～10:00之间，主要动作为select，操作对象为位于10.255.X.X设备的xxxxx_daily_detail表。

S340，根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。

为了避免检测结果只有“匹配成功”、“匹配失败”两种状态，在一些实施例中，可以根据每个用户的行为数据与每个类别的关联规则，计算每个用户的行为分数。示例性地，每个类别的关联规则包括多个关联元素，可以确定每个类别的关联规则中的每个关联元素对应的权重，根据每个用户的行为数据、每个类别的关联规则、每个类别的关联规则中的每个关联元素对应的权重、多个用户的数量、每个类别中的用户的数量，计算每个用户的行为分数。在对行为分数进行计算后，可以对行为分数进行排序。行为分数越高越安全，行为分数较低的越危险。因此可以在行为分数小于或等于预设分数阈值的情况下，确定行为分数对应的用户为异常用户。其中预设分数阈值可以根据实际需要灵活设置。如此可以灵活地对用户行为进行评价，提高评价结果的可用性和可读性。

作为一个示例，可以先从以关联元素为索引存储的多个权重中确定每个类别的关联规则中的每个关联元素对应的权重。示例性地，确定的每个关联元素对应的权重可以如表6所示：

表6

关联元素

Name

OP_Times

OP_Time

OP

OP_Object

Device_IP

权重

15％

20％

15％

接着根据分数计算公式计算每个用户的行为分数，可选地，分数计算公式可以如下所示：

其中，User Behavior表示用户的行为数据，L代表类别的个数，M是类别的关联规则的数量，|C_i|表示第i个类别中的用户的数量，|S|表示多个用户的数量，即用户总数。从用户多的类中挖掘出的规则重要性应该更大，相应地

更大，起到加权作用。RM_j是规则匹配函数，表示匹配第j个规则，用于根据规则j中的关联元素对用户的行为数据中的行为元素进行匹配，匹配成功则获得对应的权重，并将获得的权重相加。

作为一个示例，分数计算公式的算法实现可以如表7所示：

表7

在本申请实施例中，能够根据每个用户的行为数据，对每个用户进行聚类，接着根据聚类后的每个类别中的用户的行为数据进行关联规则提取，得到每个类别的关联规则，然后根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。如此能够获得更加细化、更加具有针对性的关联规则，基于该关联规则进行异常用户检测，可以提高异常用户检测准确率以及运维效率。

基于本申请实施例的提供的异常用户检测方法，本申请实施例还提供了一种异常用户检测装置，如图8所示，异常用户检测装置800可以包括：获取模块810、聚类模块820、提取模块830、检测模块840。

其中，获取模块810，用于获取多个用户的行为数据。

聚类模块820，用于根据多个用户中每个用户的行为数据，对每个用户进行聚类。

提取模块830，用于根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到每个类别的关联规则。

检测模块840，用于根据每个用户的行为数据与每个类别的关联规则，检测多个用户中的异常用户。

在一些实施例中，聚类模块820包括：

第一确定单元，用于根据每个用户的行为数据，确定每个用户的特征向量。

在一些实施例中，第一确定单元具体用于：根据每个用户的行为数据与词频-逆文件频率TF-IDF算法或者Word2vec算法，计算每个用户的特征向量。

在一些实施例中，聚类单元具体用于：根据每个用户的特征向量与DBSCAN算法或者K-means算法，对每个用户进行聚类。

在一些实施例中，提取模块830包括：

在一些实施例中，检测模块840包括：

计算单元，用于根据每个用户的行为数据与每个类别的关联规则，计算每个用户的行为分数。

在一些实施例中，每个类别的关联规则包括多个关联元素。

计算单元具体用于：确定每个类别的关联规则中的每个关联元素对应的权重。

可以理解的是，图8所示异常用户检测装置800中的各个模块/单元具有实现本申请实施例提供的异常用户检测方法中的各个步骤的功能，并能达到其相应的技术效果，为了简洁，在此不再赘述。

图9是本申请实施例提供的一种异常用户检测设备的结构示意图。如图9所示，本实施例中的异常用户检测设备900包括输入设备901、输入接口902、中央处理器903、存储器904、输出接口905、以及输出设备906。其中，输入接口902、中央处理器903、存储器904、以及输出接口905通过总线910相互连接，输入设备901和输出设备906分别通过输入接口902和输出接口905与总线910连接，进而与异常用户检测设备900的其他组件连接。

具体地，输入设备901接收来自外部的输入信息，并通过输入接口902将输入信息传送到中央处理器903；中央处理器903基于存储器904中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器904中，然后通过输出接口905将输出信息传送到输出设备906；输出设备906将输出信息输出到异常用户检测设备900的外部供用户使用。

在一些实施例中，图9所示的异常用户检测设备900包括：存储器904，用于存储程序；处理器903，用于运行存储器中存储的程序，以实现本申请实施例提供的异常用户检测方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本申请实施例提供的异常用户检测方法。

需要明确的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，为了简洁，不再赘述。本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种异常用户检测方法，其特征在于，所述方法包括：

获取多个用户的行为数据；

根据所述多个用户中每个用户的行为数据，对所述每个用户进行聚类；

根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到所述每个类别的关联规则；

根据所述每个用户的行为数据与所述每个类别的关联规则，检测所述多个用户中的异常用户。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个用户中每个用户的行为数据，对所述每个用户进行聚类，包括：

根据所述每个用户的行为数据，确定所述每个用户的特征向量；

根据所述每个用户的特征向量，对所述每个用户进行聚类。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个用户的行为数据，确定所述每个用户的特征向量，包括：

根据所述每个用户的行为数据与词频-逆文件频率TF-IDF算法或者Word2vec算法，计算所述每个用户的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个用户的特征向量，对所述每个用户进行聚类，包括：

根据所述每个用户的特征向量与DBSCAN算法或者K-means算法，对所述每个用户进行聚类。

5.根据权利要求1所述的方法，其特征在于，所述根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到所述每个类别的关联规则，包括：

根据所述每个类别中的用户的行为数据与Apriori算法或者FP-Growth算法，进行关联规则提取，得到所述每个类别的关联规则。

6.根据权利要求1所述的方法，其特征在于，所述根据所述每个用户的行为数据与所述每个类别的关联规则，检测所述多个用户中的异常用户，包括：

根据所述每个用户的行为数据与所述每个类别的关联规则，计算所述每个用户的行为分数；

在所述行为分数小于或等于预设分数阈值的情况下，确定所述行为分数对应的用户为所述异常用户。

7.根据权利要求6所述的方法，其特征在于，所述每个类别的关联规则包括多个关联元素；

所述根据所述每个用户的行为数据与所述每个类别的关联规则，计算所述每个用户的行为分数，包括：

确定所述每个类别的关联规则中的每个关联元素对应的权重；

根据所述每个用户的行为数据、所述每个类别的关联规则、所述每个类别的关联规则中的每个关联元素对应的权重、所述多个用户的数量、所述每个类别中的用户的数量，计算所述每个用户的行为分数。

8.一种异常用户检测装置，其特征在于，所述装置包括：

获取模块，用于获取多个用户的行为数据；

聚类模块，用于根据所述多个用户中每个用户的行为数据，对所述每个用户进行聚类；

提取模块，用于根据聚类后的每个类别中的用户的行为数据，进行关联规则提取，得到所述每个类别的关联规则；

检测模块，用于根据所述每个用户的行为数据与所述每个类别的关联规则，检测所述多个用户中的异常用户。

9.一种异常用户检测设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的异常用户检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的异常用户检测方法。