CN110798440B

CN110798440B - 异常用户检测方法、装置、系统及计算机存储介质

Info

Publication number: CN110798440B
Application number: CN201910746287.5A
Authority: CN
Inventors: 殷腾飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2021-10-15
Anticipated expiration: 2039-08-13
Also published as: CN110798440A

Abstract

本申请实施例公开了一种异常用户检测方法、装置、系统以及计算机存储介质，其中方法包括：获取关于多个目标用户的初始操作数据集合，该初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据，该初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上进行的操作；对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据；对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据；将该目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。采用本申请实施例，可以提高异常用户检测的准确性。

Description

异常用户检测方法、装置、系统及计算机存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及异常用户检测方法、装置、系统及计算机存储介质。

背景技术

异常用户检测是维护软件产品生态和保护正常用户权益必不可少的手段。尤其是针对即时通讯(Instant Message，IM)客户端产品，异常用户通过脚本模拟操作群发消息、群加好友的方式(如外挂或者按键精灵)层出不穷，会对其他用户造成极大的骚扰。

目前，常用的打击方式是通过后台统计指定操作的次数和频率进行异常用户检测。但是，不同操作需要设定各自的统计逻辑，导致检测效率低下，在很多情况下并不能准确检测出异常用户。

发明内容

本申请实施例提供一种异常用户检测方法、装置、系统及计算机存储介质，可以提高异常用户检测的准确性。

本申请实施例第一方面提供了一种异常用户检测方法，该方法包括：

获取关于多个目标用户的初始操作数据集合，所述初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据，所述初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上进行的操作；

对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，所述操作轨迹文本数据用于表示目标用户标识所指示的用户在其所在终端设备安装的客户端上进行多次操作的行为轨迹；

对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据；

将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。

本申请实施例第二方面提供了一种异常用户检测装置，该装置包括：

第一获取单元，用于获取关于多个目标用户的初始操作数据集合，所述初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据，所述初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上进行的操作；

第一组合单元，用于对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，所述操作轨迹文本数据用于表示目标用户标识所指示的用户在其所在终端设备安装的客户端上进行多次操作的行为轨迹；

分析单元，用于对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据；

第一确定单元，用于将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。

本申请实施例第三方面提供了一种异常用户检测系统，该系统包括：

终端设备，用于获取关于目标用户的初始操作数据，所述初始操作数据用于表示目标用户标识所指示的用户在所述终端设备中安装的客户端进行的操作；

该终端设备，还用于将所述关于目标用户的初始操作数据上报给服务器；

该服务器，用于获取关于多个目标用户的初始操作数据集合，所述初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据；

该服务器，还用于对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，所述操作轨迹文本数据用于表示目标用户标识所指示的用户在其所在终端设备安装的客户端上进行多次操作的行为轨迹；

该服务器，还用于对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据；

该服务器，还用于将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。

本申请实施例第四方面提供了一种服务器，包括：处理器和存储器；

该处理器和存储器相连，其中，该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行如本申请实施例中第一方面中的方法。

本申请实施例第五方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时，执行如本申请实施例中第一方面中的方法。

本申请实施例通过将同一目标用户在客户端上进行多次的操作组合成目标用户的行为轨迹，并将目标用户的行为轨迹作为检测依据，以此作为用户操作的上下文特征，既可以使得异常用户检测更加细致和全面，提高检测效率，又可以较好地区分目标用户的行为轨迹是脚本模拟操作还是人为操作形成的。此外，本申请实施例通过异常检测方法分析目标用户的行为轨迹以确定出与大部分目标用户的行为轨迹差异较大的异常行为轨迹，可以较好地提高异常用户检测的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种异常用户检测系统的架构示意图；

图2是本申请实施例提供的一种终端设备的工作流程示意图；

图3是本申请实施例提供的一种异常用户检测方法的流程示意图；

图4是本申请实施例提供的一种异常用户检测装置的框架示意图；

图5是本申请实施例提供的又一种异常用户检测装置的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例所涉及的异常用户检测主要是检测出对某个应用的操作行为明显与其他用户不一致的用户。例如，检查出一些通过脚本文件来对目标应用进行操作的用户，经过一段时间的积累，重复执行某些动作的用户会与其他正常用户之间的操作存在较大的区别，找到这些用户，可以有效地避免诸如恶意攻击服务器的行为，例如，可以检测出通过脚本文件不断地向服务器发送各种请求，这些请求如果量足够大，将使得服务器耗尽处理资源导致死机。

在对可能存在异常用户进行检测时，具体可以通过统计用户对某些功能进行操作的频率和次数进行异常用户检测，如发现用户短时间内频繁发消息或者频繁加好友可确定其为异常用户。也可以通过收集客户端使用信息(如登录地点、登录IP、登录设备标识、登录时间等)对比历史数据进行异常用户检测，如发现跟历史数据差异很大可认为当前用户为异常用户。还可以记录用户使用客户端的操作习惯信息(如键盘的敲击频率、使用功能的顺序等)进行异常用户检测，如发现用户操作风格变化很大可认为当前用户为异常用户。

在实际情况下，也可能会结合上述几种方法来进行异常用户检测。首先，上述方法与用户的操作行为特征结合不够紧密，不仅忽略了操作之间的顺序关系，还忽略了很多与功能关系不大的行为细节，如通过发消息频率进行异常用户检测，并不能分辨用户是从哪个入口打开的聊天窗口；其次，上述方法难以区分用户操作是脚本模拟操作还是人为操作；再次，上述方法需要特定的策略或规则去辨别特定的行为，无法识别未知的异常行为。为解决上述问题，本申请实施例提供一种异常用户检测方法、异常用户检测装置、异常用户检测系统及计算机可读存储介质。

请参见图1，是本申请实施例提供的一种异常用户检测系统的架构示意图。该系统架构可以包括服务器10和多个终端设备(举例来说，包括如图1所示的第一终端设备20a、第二终端设备20b和第三终端设备20c)，该服务器10可以通过网络与每个终端设备进行数据传输。

其中，该终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(Mobile Internet Device,MID)、可穿戴设备(例如智能手表、智能手环等)等。每个终端设备均安装有指定客户端(如QQ、企点等IM客户端)，该服务器10可以为该指定客户端对应的后台服务器，因此，每个终端设备均可以通过该指定客户端与该服务器10进行数据传输。

下面以该第一终端设备20a的工作流程为例对该多个终端设备的工作流程进行示意性说明。当检测到目标用户对该指定客户端的界面A(或界面B、界面C)上的控件进行操作时，该第一终端设备20a启动事件监听处理逻辑，获取关于该目标用户的初始操作数据，并将该初始操作数据上报给该服务器10，如图2所示。其中，该初始操作数据可以包括但不限于操作时间字段，操作类型字段、控件标识字段和目标用户标识字段。所述的控件主要是指能够接收用户操作的各种界面元素，例如界面上的按钮、菜单项等等，例如即时通讯应用会话界面上的“发送”按钮、“关闭”按钮、“发红包”按钮等等。

在本申请实施例中，初始操作数据的上报是以单次操作为单位的，即目标用户每对控件进行一次操作，该第一终端设备20a就会上报一次初始操作数据给该服务器10。

可以理解，当检测到目标用户对该指定客户端的界面上的控件进行操作时，该第二终端设备20b等其他终端设备的工作流程与该第一终端设备20a的工作流程相同。

进一步地，该服务器10将接收到的该初始操作数据存储到数据库中。其中，该数据库中存储有关于多个目标用户的初始操作数据。

当需要根据预设时间段内的用户操作进行异常用户检测时，该服务器10根据操作时间字段在该数据库中找出在该预设时间段内的多条初始操作数据。进一步地，该服务器10根据目标用户标识字段从中找出在该预设时间段内关于同一目标用户的多条初始操作数据，然后按照操作时间的先后顺序将在该预设时间段内关于同一目标用户的多条初始操作数据中的操作类型字段和控件标识字段组合成关于该目标用户的操作轨迹文本数据。其中，该操作轨迹文本数据用于表示该目标用户在其所在终端设备安装的指定客户端上控件进行多次操作的行为轨迹。

具体地，在该操作轨迹文本数据中，同一条初始操作数据中的操作类型字段和控件标识字段之间用第一符号连接，相邻两条初始操作数据之间的操作类型字段和控件标识字段之间用第二符号连接。

在生成关于所有目标用户的操作轨迹文本数据之后，该服务器10可以根据自然语言处理(Natural Language Processing，NLP)的原理，通过特征提取算法将关于各个目标用户的操作轨迹文本数据转换为数值类型的操作特征向量。此外，由于时间特征在行为轨迹中是至关重要的特征，因此该服务器10还可以将用户操作的时间特征作为额外的特征维度添加到该操作特征向量中。

进一步地，该服务器10可以通过机器学习中的异常检测算法，找出关于各个目标用户的操作特征向量中比较孤立的跟大部分操作特征向量差异较大的操作特征向量作为目标特征向量。其中，操作特征向量比较孤立跟大部分操作特征向量差异较大说明该操作特征向量对应的目标用户的行为轨迹与大部分目标用户的行为轨迹差异较大，因此该服务器10可以进一步将该目标特征向量对应的目标用户确定为行为异常的用户，并输出异常用户列表。

在具体的实施过程中，该服务器10还可以直接对关于各个目标用户的操作轨迹文本数据进行分析。举例来说，由于脚本模拟操作形成的行为轨迹一般都是一段一段重复出现的操作，因此若某个操作轨迹文本数据包括一长串重复的初始操作数据，则该服务器10可以将该操作轨迹文本数据对应的目标用户确定为行为异常的用户。

在本申请实施例中，通过将同一目标用户对客户端上控件进行多次操作的行为组合成目标用户的行为轨迹，并将目标用户的行为轨迹作为检测依据，保留了用户操作的上下文特征，既可以使得异常用户检测更加细致和全面，提高检测效率，又可以区分用户的行为轨迹是脚本模拟操作还是人为操作形成的。此外，本申请实施例通过异常检测算法分析目标用户的行为轨迹以确定出与大部分目标用户的行为轨迹差异较大的异常行为轨迹，可以自动发现行为异常的目标用户。综上所述，本申请实施例可以提高异常用户检测的准确性。

请参见图3，是本申请实施例提供的一种异常用户检测方法的流程示意图。其中，该异常用户检测方法可以具体应用于服务器中。如图3所示，该异常用户检测方法可以包括以下步骤：

步骤S31，确定目标语言模型。

在本申请实施例中，该服务器确定目标语言模型可以具体包括：预设初始语言模型；获取获取样本轨迹文本数据集合，该样本轨迹文本数据集合中包括多条样本轨迹文本数据，其中至少一条样本轨迹文本数据为异常轨迹文本数据，该异常轨迹本文数据至少与预设数量的样本轨迹文本数据的相似度低于相似阈值；调用该初始语言模型，将各条样本轨迹文本数据转换为样本特征向量，该样本特征向量与样本轨迹文本数据具有一一对应关系；确定各个样本特征向量之间的相似度，并将至少与预设数量的样本特征向量的相似度低于相似阈值的样本特征向量确定为异常特征向量；若该异常特征向量对应的样本轨迹文本数据包括该异常轨迹文本数据，则将该初始语言模型确定为目标语言模型。

其中，该目标语言模型用于将用户的轨迹文本数据转换为特征向量。该初始语言模型可以为该服务器从NLP模型中任意选择的用于将文本数据转换为向量的模型，如Doc2Vec模型。由于轨迹文本数据里都是操作类型字段和操作对象字段，词库比较特殊，因此该服务器需要用收集到的大量的轨迹文本数据对该初始语言模型进行训练。进一步地，该服务器可以调用该初始语言模型将多条样本轨迹文本数据转换为样本特征向量，若通过异常检测方法能成功从样本特征向量中找出异常轨迹文本数据对应的样本特征向量，即通过该异常检测方法确定的异常特征向量对应的样本轨迹文本数据为异常轨迹文本数据，则该服务器可以将该初始语言模型确定为目标语言模型。

在具体的实施过程中，该异常检测方法可以为机器学习中的异常检测算法，例如可以为孤立森林算法。其中，孤立森林算法将异常定义为在特征空间里分布稀疏且离密度高的群体较远的点。从而，该服务器通过孤立森林算法可以找出样本特征向量中比较孤立的跟大部分样本特征向量差异较大的样本特征向量作为异常特征向量。

步骤S32，获取关于多个目标用户的初始操作数据集合。

在本申请实施例中，该初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据，该初始操作数据用于表示目标用户标识所指示的用户(即目标用户)在其所在终端设备中安装的客户端上进行的操作。具体地，一条初始操作数据用于表示目标用户对其所在终端设备中安装的指定客户端上控件进行一次操作的行为，该指定客户端具体可以为安装在该终端设备中的IM客户端。从而，该异常用户检测方法可以用于检测使用该指定客户端的异常用户。其中，一个终端设备上的指定客户端可以由一个目标用户单独使用，也可以由多个目标用户在不同的时间段分别使用。

在具体的实施过程中，该服务器可以接收来自一个或多个终端设备的初始操作数据，该一个或多个终端设备均安装有该指定客户端，并通过该指定客户端将检测到目标用户对该指定客户端上的控件进行操作时获取的初始操作数据上报给该服务器。

其中，该初始操作数据可以包括但不限于操作时间字段，操作类型字段、操作对象字段和目标用户标识字段。在本申请实施例中，由于目标用户在该指定客户端上的操作对象为控件，因此操作对象字段即为控件标识字段。其中，该操作时间字段、操作类型字段和操作对象字段之间可以用任意符号(例如两个空格)连接。举例来说，当用户A在2019年5月1日06:00对该指定客户端上的按钮1进行左键单击操作时，用户A所在终端设备获取的关于用户A的初始操作数据具体可以为：

2019-5-1 06:00:00 LClick(左键单击)Button1(按钮1)

进一步地，该服务器可以将接收到的来自一个或多个终端设备的关于多个目标用户的初始操作数据存储到数据库中。从而，当需要进行异常用户检测时，该服务器可以在该数据库中获取关于多个目标用户的初始操作数据集合。

步骤S33，对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据。

其中，一个目标用户标识用于唯一指示一个用户。因此在本申请实施例中，目标用户标识对应的多条初始操作数据即为关于该目标用户标识所指示的用户的多条初始操作数据，目标用户标识对应的操作轨迹文本数据即为关于该目标用户标识所指示的用户的操作轨迹文本数据。

在本申请实施例中，该操作轨迹文本数据用于表示目标用户标识所指示的用户对客户端上控件进行多次操作的行为轨迹。从而，通过对在预设时间段内关于同一目标用户标识所指示的用户的多条初始操作数据进行组合处理生成关于该目标用户标识所标识的用户的操作轨迹文本数据，该服务器可以将在预设时间段内同一目标用户标识所指示的用户对客户端上控件的多次操作进行组合以还原该目标用户标识所指示的用户在该预设时间段内的行为轨迹。

在本申请实施例中，该服务器对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据可以具体包括：获取在预设时间段内各个目标用户标识对应的多条初始操作数据，该初始操作数据包括操作时间字段、操作类型字段和操作对象字段；按照操作时间的先后顺序，将同一个目标用户标识对应的多条初始操作数据中的操作类型字段和操作对象字段组合成该目标用户标识对应的操作轨迹文本数据。

在具体的实施过程中，当需要根据预设时间段内的用户操作进行异常用户检测时，该服务器可以根据操作时间字段在存储初始操作数据的数据库中找出在该预设时间段内的各个目标用户标识对应的多条初始操作数据。其中，该预设时间段可以根据实际情况灵活设定，例如可以为06:00至07:00。进一步地，该服务器可以根据目标用户标识从该预设时间段内的各个目标用户标识对应的多条初始操作数据中找出同一目标用户标识对应的多条初始操作数据，然后按照操作时间的先后顺序将在该预设时间段内同一目标用户标识对应的多条初始操作数据中的操作类型字段和操作对象字段组合成该目标用户标识对应的操作轨迹文本数据。

具体地，在该操作轨迹文本数据中，同一条初始操作数据中的操作类型字段和操作对象字段之间用第一符号连接，相邻两条初始操作数据之间的操作类型字段和操作对象字段之间用第二符号连接。例如，当需要根据在2019年5月1日06:00至07:00的用户操作进行异常用户检测时，若用户A在2019年5月1日06:00至07:00的多条初始操作数据包括：

2019-5-1 06:00:00 LClick(左键单击)Button1(按钮1)

2019-5-1 06:00:02 DClick(左键双击)Button2(按钮2)

2019-5-1 06:00:04 RClick(右键单击)Button3(按钮3)

2019-5-1 06:00:06 LClick Button4(按钮4)

以该第一符号为“-”，该第二符号为空格为例，那么用户A的操作轨迹文本数据为：

LClick-Button1 DClick-Button2 RClick-Button3 LClick-Button4

步骤S34，调用该目标语言模型，将各个目标用户标识对应的操作轨迹文本数据转换为各个目标用户标识对应的操作特征向量。

其中，操作特征向量与操作轨迹文本数据具有一一对应关系。

在本申请实施例中，该服务器可以调用该目标语言模型，将该操作轨迹文本数据转换为数值类型的操作特征向量，以便于通过数学方法对目标用户的行为轨迹进行分析。

由于时间特征是行为轨迹中至关重要的特征，因此该服务器还可以将用户操作的时间特征添加到该操作特征向量中。在本申请实施例中，该时间特征可以包括但不限于操作时间的平均时间间隔和时间间隔方差。在具体的实施过程中，该服务器将该操作轨迹文本数据转换为操作特征向量可以具体包括：获取各个目标用户标识对应的操作轨迹文本数据中的操作时间字段；根据该操作时间字段确定各个目标用户标识所指示的用户的操作时间间隔均值和操作时间间隔方差；根据该操作时间间隔均值和操作时间间隔方差，更新各个目标用户标识对应的操作特征向量。

步骤S35，确定各个目标用户标识对应的操作特征向量之间的相似度，将至少与预设数量的操作特征向量的相似度低于相似阈值的操作特征向量确定为目标特征向量，并将该目标特征向量对应的目标用户标识所指示的用户确定为异常用户。

在本申请实施例中，该服务器首先根据操作特征向量之间的相似度从各个目标用户标识对应的操作特征向量中确定出目标特征向量，然后将该目标特征向量对应的操作轨迹文本数据对应的目标用户确定为异常用户。具体地，该服务器可以将至少与预设数量的操作特征向量的相似度低于相似阈值的操作特征向量确定为目标特征向量。

作为一种可选的实施方式，该预设数量可以为一个具体的操作特征向量数目。例如，当操作特征向量总数为100时，若某个操作特征向量的相似度至少与90个操作特征向量的相似度低于相似阈值，则该服务器可以将该操作特征向量确定为目标特征向量。

作为另一种可选的实施方式，该预设数量也可以为百分比。例如，若某个操作特征向量的相似度至少与90％的操作特征向量的相似度低于相似阈值，则该服务器可以将该操作特征向量确定为目标特征向量。

在本申请实施例中，该操作特征向量之间的相似度可以为操作特征向量之间的距离的倒数。例如，当操作特征向量总数为100时，若某个操作特征向量至少与90个操作特征向量的距离的倒数低于1时，则该服务器可以将该操作特征向量确定为目标特征向量。

在具体的实施过程中，该服务器可以通过异常检测方法来确定目标特征向量。其中，该异常检测方法可以为机器学习中的异常检测算法，如孤立森林算法。从而，该服务器通过孤立森林算法可以找出多个目标用户标识对应的操作特征向量中比较孤立的跟大部分操作特征向量差异较大(即距离较远)的操作特征向量作为目标特征向量，并将该目标特征向量对应的目标用户标识所指示的用户确定为异常用户。具体地，该服务器可以将该目标特征向量对应的操作轨迹文本数据确定为目标轨迹文本数据，并将该目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。

其中，该服务器将该异常的操作特征向量对应的用户确定为异常用户可以具体包括：将该异常的操作特征向量对应的操作轨迹文本数据确定为异常的操作轨迹文本数据，并将该异常的操作轨迹文本数据对应的用户确定为异常用户。从而，该服务器可以将行为轨迹异常的用户确定为异常用户。

作为一种可选的实施方式，该服务器还可以直接根据操作轨迹文本数据之间的相似度从各个目标用户标识对应的操作轨迹文本数据中确定出目标轨迹文本数据，然后将该目标轨迹文本数据对应的目标用户确定为异常用户。

具体地，该服务器可以首先确定各个目标用户标识对应的操作轨迹文本数据之间的相似度，然后将至少与预设数量的操作轨迹文本数据的相似度低于相似阈值的操作轨迹文本数据确定为目标轨迹文本数据。

在本申请实施例中，该操作轨迹文本数据之间的相似度可以为操作轨迹文本数据之间相同字段的占比。例如，若某个操作轨迹文本数据至少与90％的操作轨迹文本数据之间的相同字段的占比低于相似阈值(例如可以为一个具体的百分比)时，则该服务器可以将该操作轨迹文本数据确定为目标轨迹文本数据。

本申请实施例通过将同一目标用户对客户端上控件进行多次操作的行为组合成目标用户的行为轨迹，并将目标用户的行为轨迹作为检测依据，保留了用户操作的上下文特征，既可以使得异常用户检测更加细致和全面，提高检测效率，又可以区分用户的行为轨迹是脚本模拟操作还是人为操作形成的。此外，本申请实施例通过异常检测方法分析目标用户的行为轨迹以确定出与大部分目标用户的行为轨迹差异较大的异常行为轨迹，可以自动发现行为异常的目标用户。并且，这种检测方式并不针对任何单个功能，也不需要事先定义好匹配规则，能够发现未知的异常行为。综上所述，本申请实施例可以提高异常用户检测的准确性。

请参见图4，是本申请实施例提供的一种异常用户检测装置的框架示意图。如图4所示，该异常用户检测装置40可以应用于上述图1所对应实施例中的服务器10，该异常用户检测装置40可以包括第一获取单元41、第一组合单元42、分析单元43以及第一确定单元44。

其中，该第一获取单元41，用于获取关于多个目标用户的初始操作数据集合。在本申请实施例中，所述初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据，所述初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上进行的操作。

该第一组合单元42，用于对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，所述操作轨迹文本数据用于表示目标用户标识所指示的用户在其所在终端设备安装的客户端上进行多次操作的行为轨迹。

该分析单元43，用于对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据。

该第一确定单元44，用于将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户。

在本申请实施例中，该第一组合单元42可以包括第二获取单元421和第二组合单元422。

其中，该第二获取单元421，用于获取在预设时间段内各个目标用户标识对应的多条初始操作数据，所述初始操作数据包括操作时间字段、操作类型字段和操作对象字段。

该第二组合单元422，用于按照操作时间的先后顺序，将同一个目标用户标识对应的多条初始操作数据中的操作类型字段和操作对象字段组合成所述目标用户标识对应的操作轨迹文本数据。

作为一种可选的实施方式，该初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上对控件进行的操作，该操作对象字段记录了控件标识。

作为一种可选的实施方式，该分析单元43可以具体包括第二确定单元431和第三确定单元432。

其中，该第二确定单元431，用于确定各个目标用户标识对应的操作轨迹文本数据之间的相似度。

该第三确定单元432，用于将至少与预设数量的操作轨迹文本数据的相似度低于相似阈值的操作轨迹文本数据确定为目标轨迹文本数据。

作为另一种可选的实施方式，该分析单元43可以具体包括第一转换单元433、第四确定单元434和第五确定单元435。

其中，该第一转换单元433，用于调用目标语言模型，将各个目标用户标识对应的操作轨迹文本数据转换为各个目标用户标识对应的操作特征向量，其中操作特征向量与操作轨迹文本数据具有一一对应关系。

该第四确定单元434，用于根据异常检测方法，确定各个目标用户标识对应的操作特征向量之间的相似度。

该第五确定单元435，用于将至少与预设数量的操作特征向量的相似度低于相似阈值的操作特征向量确定为目标特征向量，并将所述目标特征向量对应的操作轨迹文本数据确定为目标轨迹文本数据。

作为一种可选的实施方式，该异常检测方法包括机器学习中的异常检测算法。

作为一种可选的实施方式，该异常检测算法包括孤立森林算法。

在本申请实施例中，该异常用户检测装置40还可以包括更新单元45。

在这种情形下，该第一获取单元41，还用于获取各个目标用户标识对应的操作轨迹文本数据中的操作时间字段。

该第一确定单元44，还用于根据所述操作时间字段确定各个目标用户标识所指示的用户的操作时间间隔均值和操作时间间隔方差。

该更新单元45，用于根据所述操作时间间隔均值和操作时间间隔方差，更新各个目标用户标识对应的操作特征向量。

在本申请实施例中，该异常用户检测装置40还可以包括设置单元46和第二转换单元47。

其中，该设置单元46，用于预设初始语言模型。

该第一获取单元41，还用于获取样本轨迹文本数据集合，所述样本轨迹文本数据集合中包括多条样本轨迹文本数据，其中至少一条样本轨迹文本数据为异常轨迹文本数据，所述异常轨迹本文数据至少与预设数量的样本轨迹文本数据的相似度低于相似阈值。

该第二转换单元47，用于调用所述初始语言模型，将各条样本轨迹文本数据转换为样本特征向量，所述样本特征向量与样本轨迹文本数据具有一一对应关系。

该第一确定单元44，还用于确定各个样本特征向量之间的相似度，并将至少与预设数量的样本特征向量的相似度低于相似阈值的样本特征向量确定为异常特征向量。

该第一确定单元44，还用于当所述异常特征向量对应的样本轨迹文本数据包括所述异常轨迹文本数据时，将所述初始语言模型确定为目标语言模型。

其中，本发明实施例提供的异常用户检测装置40的具体工作流程请参考本发明实施例提供的异常用户检测方法流程部分，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图5，图5是本申请实施例提供的又一种异常用户检测装置的框架示意图。如图5所示，该异常用户检测装置50可以对应于上述图1所对应实施例中的服务器10，该异常用户检测装置50可以包括：处理器51，网络接口54和存储器55，此外，上述异常用户检测装置50还可以包括：用户接口53，和至少一个通信总线52。其中，通信总线52用于实现这些组件之间的连接通信。其中，用户接口53可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口53还可以包括标准的有线接口、无线接口。网络接口54可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器54可以是高速随机存储存储器(Random AccessMemory，RAM)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器55可选的还可以是至少一个位于远离前述处理器51的存储装置。如图5所示，作为一种计算机可读存储介质的存储器55中可以包括操作系统、网络通信模块、用户接口模块以及异常用户检测程序指令。

在如图5所示的异常用户检测装置50中，网络接口54可提供网络通讯功能；而用户接口53主要用于为用户提供输入的接口；而处理器51可以用于调用存储器55中存储的异常用户检测程序指令，以实现上述图3所对应实施例中对异常用户检测方法的描述，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

应当理解，本申请实施例中所描述的异常用户检测装置50可执行前文图3、所对应实施例中对异常用户检测方法的描述，也可执行前文图4所对应实施例中对异常用户检测装置40的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的异常用户检测装置40所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3所对应实施例中对异常用户检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory，ROM)或RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种异常用户检测方法，其特征在于，包括：

将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户；

其中，所述对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据包括：根据操作轨迹文本数据之间的相似度从各个目标用户标识对应的操作轨迹文本数据中确定出目标轨迹文本数据；或者，所述对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据包括：根据各个目标用户标识对应的操作特征向量之间的相似度从各个目标用户标识对应的操作轨迹文本数据中确定出目标轨迹文本数据，操作轨迹文本数据对应的操作特征向量是通过对各个目标用户标识对应的操作轨迹文本数据进行转换得到的。

2.根据权利要求1所述的方法，其特征在于，所述对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，包括：

获取在预设时间段内各个目标用户标识对应的多条初始操作数据，所述初始操作数据包括操作时间字段、操作类型字段和操作对象字段；

按照操作时间的先后顺序，将同一个目标用户标识对应的多条初始操作数据中的操作类型字段和操作对象字段组合成所述目标用户标识对应的操作轨迹文本数据。

3.根据权利要求2所述的方法，其特征在于，所述初始操作数据用于表示目标用户标识所指示的用户在其所在终端设备中安装的客户端上对控件进行的操作，所述操作对象字段记录了控件标识。

4.根据权利要求1所述的方法，其特征在于，所述对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据，包括：

确定各个目标用户标识对应的操作轨迹文本数据之间的相似度；

将至少与预设数量的操作轨迹文本数据的相似度低于相似阈值的操作轨迹文本数据确定为目标轨迹文本数据。

5.根据权利要求1所述的方法，其特征在于，所述对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据，包括：

调用目标语言模型，将各个目标用户标识对应的操作轨迹文本数据转换为各个目标用户标识对应的操作特征向量，其中操作特征向量与操作轨迹文本数据具有一一对应关系；

根据异常检测方法，确定各个目标用户标识对应的操作特征向量之间的相似度，并将至少与预设数量的操作特征向量的相似度低于相似阈值的操作特征向量确定为目标特征向量；

将所述目标特征向量对应的操作轨迹文本数据确定为目标轨迹文本数据。

6.根据权利要求5所述的方法，其特征在于，所述异常检测方法包括机器学习中的异常检测算法，或所述异常检测算法包括孤立森林算法。

7.根据权利要求5所述的方法，其特征在于，在所述将各个目标用户标识对应的操作轨迹文本数据转换为各个目标用户标识对应的操作特征向量之后，所述方法还包括：

获取各个目标用户标识对应的操作轨迹文本数据中的操作时间字段；

根据所述操作时间字段确定各个目标用户标识所指示的用户的操作时间间隔均值和操作时间间隔方差；

根据所述操作时间间隔均值和操作时间间隔方差，更新各个目标用户标识对应的操作特征向量。

8.根据权利要求5所述的方法，其特征在于，在所述获取关于多个目标用户的初始操作数据集合之前，所述方法还包括：

预设初始语言模型；

获取样本轨迹文本数据集合，所述样本轨迹文本数据集合中包括多条样本轨迹文本数据，其中至少一条样本轨迹文本数据为异常轨迹文本数据，所述异常轨迹本文数据至少与预设数量的样本轨迹文本数据的相似度低于相似阈值；

调用所述初始语言模型，将各条样本轨迹文本数据转换为样本特征向量，所述样本特征向量与样本轨迹文本数据具有一一对应关系；

确定各个样本特征向量之间的相似度，并将至少与预设数量的样本特征向量的相似度低于相似阈值的样本特征向量确定为异常特征向量；

若所述异常特征向量对应的样本轨迹文本数据包括所述异常轨迹文本数据，则将所述初始语言模型确定为目标语言模型。

9.一种异常用户检测装置，其特征在于，包括用于执行如权利要求1-8任一项所述的方法的单元。

10.一种异常用户检测系统，其特征在于，包括：

所述终端设备，还用于将所述关于目标用户的初始操作数据上报给服务器；

所述服务器，用于获取关于多个目标用户的初始操作数据集合，所述初始操作数据集合中包括各个目标用户所在终端设备上报的初始操作数据；

所述服务器，还用于对在预设时间段内同一目标用户标识对应的多条初始操作数据进行组合处理，分别生成每一个目标用户标识对应的操作轨迹文本数据，所述操作轨迹文本数据用于表示目标用户标识所指示的用户在其所在终端设备安装的客户端上进行多次操作的行为轨迹；

所述服务器，还用于对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据；

所述服务器，还用于将所述目标轨迹文本数据对应的目标用户标识所指示的用户确定为异常用户；

其中，所述服务器对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据包括：根据操作轨迹文本数据之间的相似度从各个目标用户标识对应的操作轨迹文本数据中确定出目标轨迹文本数据；

或者，所述服务器对各个目标用户标识对应的操作轨迹文本数据进行分析处理，从中确定出目标轨迹文本数据包括：根据各个目标用户标识对应的操作特征向量之间的相似度从各个目标用户标识对应的操作轨迹文本数据中确定出目标轨迹文本数据，操作轨迹文本数据对应的操作特征向量是通过对各个目标用户标识对应的操作轨迹文本数据进行转换得到的。

11.一种服务器，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-8任一项所述的方法。