CN110929203B

CN110929203B - 异常用户的识别方法、装置、设备及存储介质

Info

Publication number: CN110929203B
Application number: CN201910993376.XA
Authority: CN
Inventors: 刘玉洁; 杨冬艳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2024-03-22
Anticipated expiration: 2039-10-18
Also published as: CN110929203A

Abstract

本发明涉及大数据技术领域，公开了异常用户的识别方法、装置、设备及存储介质，能够根据用户的动态行为信息计算行为轨迹风险概率，并结合静态的用户基础信息通过分类模型识别用户异常行为，提高了识别异常用户的准确性。本发明方法包括：通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；将目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；通过预置评分模型计算目标用户的行为轨迹风险概率；根据目标用户的行为轨迹风险概率以及目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；输出识别结果。

Description

异常用户的识别方法、装置、设备及存储介质

技术领域

本发明涉及大数据技术领域领域，尤其涉及异常用户的识别方法、装置、设备及存储介质。

背景技术

正常用户在企业主页网站、活动营销页面、广告页面等进行操作时，总会有意无意地形成有一定规律的行为轨迹，而异常用户比如与网络黑灰产相关的用户，则呈现出异常性，比如存在盗用账号、行为轨迹异常、登录时段或频次异常、登录地址或设备信息异常以及未认证等情况；异常用户的存在，既影响企业营销活动效果，也损害了正常用户的利益，严重时甚至影响企业以及用户的财产安全。

目前对于识别网络黑灰产相关的异常用户，主要依赖于人工分析并设置异常用户的行为规则，比如基于用户画像形成的登录频次、登录设备以及其他常用信息设置判断规则，并根据用户行为与规则的匹配情况来分析用户是否为异常用户。此类手段在早期是直接且有效的，然而随着此类异常用户攻击手段更新以及黑灰产产业化，此类识别方案耗时耗力且依赖于人的经验知识，并且无法灵活应对黑灰产的新型手段。

发明内容

本发明提供了一种异常用户的识别方法、装置、设备及存储介质，能够根据用户的动态行为信息计算用户的行为轨迹风险概率，并结合静态的用户基础信息通过分类模型识别用户异常行为，提高了识别异常用户的准确性。

本发明实施例的第一方面提供一种异常用户的识别方法，包括：通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；输出识别结果，所述识别结果为用于区分异常用户的标识。

可选的，在本发明实施例第一方面的第一种实现方式中，所述根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率，包括：获取通过预置评分模型得到的操作概率参数，所述操作概率参数包括各种操作的初始发生概率、转移概率以及观测概率；根据所述操作概率参数，通过预置概率公式计算目标用户的行为轨迹风险概率，所述预置概率公式为：

其中，P(O/λ)表示在所述预置评分模型中所述目标用户的当前操作序列的发生概率，λ表示在所述预置评分模型的前置条件下，O为所述目标用户的当前操作序列，I表示所有可能发生O的操作序列，π为初始发生概率，a为转移概率，b为观测概率。

可选的，在本发明实施例第一方面的第二种实现方式中，所述根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为风险用户，包括：将所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过所述预置分类模型中的预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；获取所述目标用户在所述预置分类模型中的预置分类边界，所述预置分类边界为根据所述目标用户的预置历史时段数据，通过所述预置分类模型生成的多维特征空间分类边界，所述预置历史时段数据为所述目标用户在预置时段内的动态行为信息和用户基础信息；判断所述目标用户的特征坐标是否在所述预置分类边界内；若所述目标用户的特征坐标不在所述预置分类边界内，则确定目标用户是异常用户；若所述目标用户的特征坐标在所述预置分类边界内，则确定目标用户不是异常用户。

可选的，在本发明实施例第一方面的第三种实现方式中，通过所述预置分类模型生成所述预置分类边界的步骤，包括：将所述目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；计算所述历史数据坐标集的质心坐标，以及所述历史数据坐标集中每个历史数据坐标与所述质心坐标的距离；按照距离从小到大的顺序从所述历史数据坐标集中获取预置比例的坐标，作为所述目标用户的行为坐标；基于所述目标用户的行为坐标生成预置分类边界，所述行为坐标在所述预置分类边界之内。

可选的，在本发明实施例第一方面的第四种实现方式中所述动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息，所述将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集，包括：对所述页面信息进行信息分类编码；根据所述session信息，将进行信息分类编码后的所述页面信息根据所述页面操作信息进行排序，得到目标用户的当前操作序列；将所述目标用户基础信息进行特征转换，得到目标用户的基础属性特征集。

可选的，在本发明实施例第一方面的第五种实现方式中，所述对所述页面信息进行信息分类编码，包括：根据所述页面信息将不同的页面分类至不同的功能点，所述功能点用于区分页面的功能以及用户的操作；将各个所述功能点通过预置编码器转换成对应的预置数值。

可选的，在本发明实施例第一方面的第六种实现方式中，所述将目标用户基础信息进行特征转换，得到目标用户的基础属性特征集，包括：将所述目标用户的用户基础信息离散化；根据离散化的所述用户基础信息提取基础属性特征；将所述基础属性特征通过哑变量变换转换为数值型特征，得到目标用户的基础属性特征集。

本发明实施例的第二方面提供了一种异常用户的识别装置，包括：获取单元，用于通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；处理单元，用于将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；计算单元，用于根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；识别单元，用于根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；输出单元，用于输出识别结果，所述识别结果为用于区分异常用户的标识。

可选的，在本发明实施例第二方面的第一种实现方式中，所述计算单元具体用于：获取通过预置评分模型得到的操作概率参数，所述操作概率参数包括各种操作的初始发生概率、转移概率以及观测概率；根据所述操作概率参数，通过预置概率公式计算目标用户的行为轨迹风险概率，所述预置概率公式为：

可选的，在本发明实施例第二方面的第二种实现方式中，所述识别单元包括：映射模块，用于将所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集通过所述预置分类模型中的预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；获取模块，用于获取所述目标用户在所述预置分类模型中的预置分类边界，所述预置分类边界为根据所述目标用户的预置历史时段数据，通过所述预置分类模型生成的多维特征空间分类边界，所述预置历史时段数据为所述目标用户在预置时段内的动态行为信息和用户基础信息；判断模块，用于判断所述目标用户的特征坐标是否在所述预置分类边界内；确定模块，用于若所述目标用户的特征坐标不在所述预置分类边界内，则确定目标用户是异常用户；所述确定模块，还用于若所述目标用户的特征坐标在所述预置分类边界内，则确定目标用户不是异常用户。

可选的，在本发明实施例第二方面的第三种实现方式中，通过所述预置分类模型生成所述预置分类边界的步骤，包括：将所述目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；计算所述历史数据坐标集的质心坐标，以及所述历史数据坐标集中每个历史数据坐标与所述质心坐标的距离；按照距离从小到大的顺序从所述历史数据坐标集中获取预置比例的坐标，作为所述目标用户的行为坐标；基于所述目标用户的行为坐标生成预置分类边界，所述行为坐标在所述预置分类边界之内。

可选的，在本发明实施例第二方面的第四种实现方式中，所述动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息，所述处理单元包括：编码模块，用于对所述页面信息进行信息分类编码；排序模块，用于根据所述session信息，将进行信息分类编码后的所述页面信息根据所述页面操作信息进行排序，得到目标用户的当前操作序列；转换模块，用于将所述目标用户基础信息进行特征转换，得到目标用户的基础属性特征集。

可选的，在本发明实施例第二方面的第五种实现方式中，所述编码模块具体用于：根据所述页面信息将不同的页面分类至不同的功能点，所述功能点用于区分页面的功能以及用户的操作；将各个所述功能点通过预置编码器转换成对应的预置数值。

可选的，在本发明实施例第二方面的第六种实现方式中，所述转换模块具体用于：将所述目标用户的用户基础信息离散化；根据离散化的所述用户基础信息提取基础属性特征；将所述基础属性特征通过哑变量变换转换为数值型特征，得到目标用户的基础属性特征集。

本发明实施例的第三方面提供了一种异常用户的识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的异常用户的识别方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的异常用户的识别方法的步骤。

本发明实施例提供的技术方案中，通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；输出识别结果，所述识别结果为用于区分异常用户的标识。本发明实施例，能够根据用户的动态行为信息计算用户行为轨迹风险概率，并结合静态的用户基础信息通过分类模型识别用户异常行为，提高了识别异常用户的准确性。

附图说明

图1为本发明实施例中异常用户的识别方法的一个实施例示意图；

图2为本发明实施例中异常用户的识别方法的另一个实施例示意图；

图3为本发明实施例中异常用户的识别装置的一个实施例示意图；

图4为本发明实施例中异常用户的识别装置的另一个实施例示意图；

图5为本发明实施例中异常用户的识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种异常用户的识别方法、装置、设备及存储介质，能够计算用户行为的风险概率，并结合用户的静态身份特征通过分类模型识别用户异常行为，提高了识别异常用户的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的一种异常用户的识别方法的流程图，具体包括：

101、通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息。

服务器获取目用户的动态行为信息以及用户基础信息，具体的，服务器通过预置的脚本采集网页的页面信息，页面信息包括用户的动态行为信息以及用户基础信息，预置JS脚本是在服务器后端通过预置模版嵌入到网页页面上的JS(javascript)脚本，和/或，服务器通过预置的日志采集接口获取应用(application，APP)的页面信息。

需要说明得是，用户基础信息包括用户的服务器账号信息、设备账号信息以及身份信息以及登陆信息。

102、将目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集。

服务器将目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集。动态行为信息包括页面信息、页面操作信息以及会话对象(session)信息。页面操作信息包括操作时刻以及操作内容。

103、根据目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率。

服务器根据用户的当前操作序列，通过预置评分模型计算用户的行为轨迹风险概率。预置评分模型是根据用户最新周期数据进行训练的隐马尔科夫模型。用户最新周期数据是在最近的预设周期内，用户所有的动态行为信息以及基础用户信息。预设周期可以根据模型训练需求进行调整，可以是一个星期，也可以是一个月，具体此处不做限制。

服务器通过预置评分模型计算目标用户的行为轨迹风险概率的具体过程为：服务器获取通过预置评分模型得到的操作概率参数，操作概率参数包括各种操作的初始发生概率、转移概率以及观测概率，其中，操作概率参数是预置评分模型在训练过程中根据用户最新周期数据计算得到的频率；服务器根据操作概率参数，通过预置概率公式计算目标用户的行为轨迹风险概率。

预置概率公式为：

其中，P(O/λ)表示在预置评分模型中目标用户的当前操作序列的发生概率，λ表示在所述预置评分模型的前置条件下，O表示用户的当前操作序列，I表示所有可能发生O的操作序列，π为初始发生概率，a为转移概率，a_kl表示从操作k转移至操作l的概率，b为观测概率，b_lm表示当操作类型l时操作内容为m的发生概率，i_N为序列I中的操作类型，o_N为当作操作序列O中的操作内容。

需要说明得是，用户的操作在相同的页面上，会对应多种操作内容，例如功能为搜索的页面上，操作内容包括对不同信息的搜索。操作的观测概率为在相同的功能点，不同操作内容发生的概率。

举例说明，当目标用户的当前操作序列包含登陆下载页面和下载保密文件两个操作时，服务器计算通过预置评分模型的概率参数计算当前操作序列的实际发生概率P(O/λ)为0.8，并得到目标用户的行为轨迹风险概率为0.2。

104、根据目标用户的行为轨迹风险概率以及目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户。

服务器根据用户的行为轨迹风险概率以及用户的基础属性特征集，通过预置的分类模型判断用户是否为风险用户。预置的分类模型是根据用户最新周期数据训练的单类支持向量机(one class support vector machine，OCSVM)分类模型。具体通过预置分类模型识别目标用户是否为异常用户的过程为：服务器将目标用户的行为轨迹风险概率以及目标用户的基础属性特征集通过预置分类模型中的预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；服务器获取目标用户在预置分类模型中的预置分类边界，预置分类边界为根据目标用户的预置历史时段数据，通过预置分类模型生成的多维特征空间分类边界，预置历史时段数据为目标用户在预置时段内的动态行为信息和用户基础信息；服务器判断目标用户的特征坐标是否在预置分类边界内；若目标用户的特征坐标不在预置分类边界内，服务器则确定目标用户是异常用户；若目标用户的特征坐标在预置分类边界内，服务器则确定目标用户不是异常用户。

其中，服务器通过预置分类模型生成预置分类边界的过程为：服务器将目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；服务器将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；服务器计算历史数据坐标集的质心坐标，以及历史数据坐标集中每个历史数据坐标与质心坐标的距离；服务器按照距离从小到大的顺序从历史数据坐标集中获取预置比例的坐标，作为目标用户的行为坐标；服务器基于目标用户的行为坐标生成预置分类边界，行为坐标在预置分类边界之内。

其中，质心坐标通过质心计算公式：

计算得到，历史数据坐标集合包括(a_1i，a_2i，…,a_Ni)，a_1i、a_2i、…、a_Ni为任一实数，N表示基础属性特征和行为风险概率的总类别数量，也表示多维特征空间的维度，k表示历史数据坐标集中的坐标数量。

可选地，服务器根据目标用户的行为坐标生成预置分类边界，具体为：按照距离从小到大的顺序依次连接用户的行为坐标，直至得到一个封闭的多维空间，将该封闭的多维空间作为预置的分类边界，用户的所有行为坐标在预置的分类边界内。

可以理解的是，在预置的分类边界内，所有的坐标点都代表用户正常的行为轨迹概率以及基础属性特征集，当用户的行为轨迹概率或者基础属性特征集出现异常时，转换得到的坐标会在预置的分类边界之外。

105、输出识别结果，识别结果为用于区分异常用户的标识。

服务器输出识别结果，识别结果为用于区分风险用户的标识。具体的，服务器根据服务器识别目标用户是否为异常用户，输出一个预置标识来显示识别结果。

可以理解的是，预置标识为机器可识别的字符形式，可以是字母、数字或者其他符号，具体此处不做限制。

可选地，服务器根据识别结果对用户进行标记，方便对用户的账号执行后续的操作。具体的，服务器在用户的预置权限标识集合中添加对用户的识别结果。

本发明实施例，根据用户的动态行为信息计算用户行为轨迹风险概率，并结合静态的用户基础信息通过分类模型识别用户异常行为，提高了识别异常用户的准确性。

请参阅图2，本发明实施例中异常用户的识别方法的另一个实施例包括：

201、通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息,动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息。

服务器获取目用户的动态行为信息以及用户基础信息，动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息,具体的，服务器通过预置的脚本采集网页的页面信息，页面信息包括用户的动态行为信息以及用户基础信息，预置JS脚本是在服务器后端通过预置模版嵌入到网页页面上的JS脚本，和/或，服务器通过预置的日志采集接口获取APP的页面信息。

202、对页面信息进行信息分类编码。

服务器对用户的网址信息进行信息分类编码，不同的网址可对应不同的网页功能，具体的，服务器根据页面信息将不同的页面分类到不同的功能点，功能点用于区分页面的功能以及用户的操作，比如详情页、登录页以及搜索页；服务器将功能点通过预置编码器转换成预置数值。

需要说明得是，页面都有统一资源定位符(uniform resource locator，URL)地址,服务器将不同的URL地址映射到相应的功能点，例如所有用于登录的URL地址映射到功能点“登录页”。

203、根据session信息，将进行信息分类编码后的页面信息根据页面操作信息进行排序，得到目标用户的当前操作序列。

服务器根据session信息，将进行信息分类编码后的页面信息根据页面操作信息中的操作时刻进行排序，得到目标用户的当前操作序列。页面操作信息包括操作时刻以及操作内容。需要说明得是，服务器根据用户的session信息来划分用户的操作序列，session相同的操作划分到一个操作序列。

204、将目标用户基础信息进行特征转换，得到目标用户的基础属性特征集。

服务器将目标用户的用户基础信息进行特征转换，得到用户的基础属性特征集。具体的，服务器将连续的用户基础信息离散化；服务器根据离散化的用户基础信息提取基础属性特征；服务器将基础属性特征通过哑变量变换转换为数值型特征，得到用户的基础属性特征集。

举例说明，针对用户A的用户账号以及用户账号相关联的移动终端，服务器将用户A的用户基础信息离散化后得到用户的数字账号、设备号码以及手机号码，根据用户的数字账号、设备号码和手机号码以及预置数据库的记录，提取用户A数字账号下相关联的移动终端数量变量、设备号码是否与常用设备号码一致的变量以及手机号码是否注册过账号的变量等，服务器再将提取到的变量通过哑变量变换转换为数值型特征：“210”，其中，“2”表示相关联的移动终端数量，“1”表示用户A的设备号码与常用设备号码一致，“0”表示用户A的手机号码没有注册过账号。

205、根据目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率。

服务器根据目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率。预置评分模型是根据目标用户的预置时段数据进行训练的隐马尔科夫模型。目标用户的预置时段数据是在最近的预设周期内，目标用户所有的动态行为信息以及基础用户信息。预设周期可以根据模型训练需求进行调整，可以是一个星期，也可以是一个月，具体此处不做限制。

预置概率公式为：

206、根据目标用户的行为轨迹风险概率以及目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户。

服务器根据目标用户的行为轨迹风险概率以及用户的基础属性特征集，通过预置的分类模型判断用户是否为风险用户。预置的分类模型是根据用户最新周期数据训练的OCSVM分类模型。具体通过预置分类模型识别目标用户是否为异常用户的过程为：服务器将目标用户的行为轨迹风险概率以及目标用户的基础属性特征集通过预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；服务器获取目标用户在预置分类模型中的预置分类边界，预置分类边界为根据目标用户的预置历史时段数据，通过预置分类模型生成的多维特征空间分类边界，预置历史时段数据为目标用户在预置时段内的动态行为信息和用户基础信息；服务器判断目标用户的特征坐标是否在预置分类边界内；若目标用户的特征坐标不在预置分类边界内，服务器则确定目标用户是异常用户；若目标用户的特征坐标在预置分类边界内，服务器则确定目标用户不是异常用户。

其中，质心坐标通过质心计算公式：

207、输出识别结果，识别结果为用于区分异常用户的标识。

上面对本发明实施例中异常用户的识别方法进行了描述，下面对本发明实施例中异常用户的识别装置进行描述，请参阅图3，本发明实施例中异常用户的识别装置的一个实施例包括：

获取单元301，用于通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；

处理单元302，用于将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；

计算单元303，用于根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；

识别单元304，用于根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；

输出单元305，用于输出识别结果，所述识别结果为用于区分异常用户的标识。

请参阅图4，本发明实施例中异常用户的识别装置的一个实施例包括：

可选的，计算单元303具体用于：

获取通过预置评分模型得到的操作概率参数，所述操作概率参数包括各种操作的初始发生概率、转移概率以及观测概率；根据所述操作概率参数，通过预置概率公式计算目标用户的行为轨迹风险概率，所述预置概率公式为：

可选的，识别单元304包括：

映射模块3041，用于将所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集通过预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；

获取模块3042，用于获取所述目标用户在所述预置分类模型中的预置分类边界，所述预置分类边界为根据所述目标用户的预置历史时段数据，通过所述预置分类模型生成的多维特征空间分类边界，所述预置历史时段数据为所述目标用户在预置时段内的动态行为信息和用户基础信息；

判断模块3043，用于判断所述目标用户的特征坐标是否在所述预置分类边界内；

确定模块3044，用于若所述目标用户的特征坐标不在所述预置分类边界内，则确定目标用户是异常用户。

所述确定模块3044，还用于若所述目标用户的特征坐标在所述预置分类边界内，则确定目标用户不是异常用户。

可选的，通过所述预置分类模型生成所述预置分类边界的步骤，包括：

将所述目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；计算所述历史数据坐标集的质心坐标，以及所述历史数据坐标集中每个历史数据坐标与所述质心坐标的距离；按照距离从小到大的顺序从所述历史数据坐标集中获取预置比例的坐标，作为所述目标用户的行为坐标；基于所述目标用户的行为坐标生成预置分类边界，所述行为坐标在所述预置分类边界之内。

可选的，所述动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息，所述处理单元302包括：编码模块3021，用于对所述页面信息进行信息分类编码；排序模块3022，用于根据所述session信息，将进行信息分类编码后的所述页面信息根据所述页面操作信息进行排序，得到目标用户的当前操作序列；转换模块3023，用于将所述目标用户基础信息进行特征转换，得到目标用户的基础属性特征集。

可选的，编码模块3021具体用于：

根据所述页面信息将不同的页面分类至不同的功能点，所述功能点用于区分页面的功能以及用户的操作；将各个所述功能点通过预置编码器转换成对应的预置数值。

可选的，转换模块3023具体用于：

将所述目标用户的用户基础信息离散化；根据离散化的所述用户基础信息提取基础属性特征；将所述基础属性特征通过哑变量变换转换为数值型特征，得到目标用户的基础属性特征集。

上面图3至图4从模块化功能实体的角度对本发明实施例中的异常用户的识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中异常用户的识别设备进行详细描述。

图5是本发明实施例提供的一种异常用户的识别设备的结构示意图，该异常用户的识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对异常用户的识别设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在异常用户的识别设备500上执行存储介质508中的一系列指令操作。

异常用户的识别设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的异常用户的识别设备结构并不构成对异常用户的识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、处理单元302、计算单元303、识别单元304和输出单元305的功能。

下面结合图5对异常用户的识别设备的各个构成部件进行具体的介绍：

处理器501是异常用户的识别设备的控制中心，可以按照设置的异常用户的识别方法进行处理。处理器501利用各种接口和线路连接整个异常用户的识别设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行异常用户的识别设备的各种功能和处理数据，从而实现对异常用户的识别。存储介质508和存储器509都是存储数据的载体，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行异常用户的识别设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如计算行为轨迹风险概率的程序等)等；存储数据区可存储根据异常用户的识别设备的使用所创建的数据(比如识别结果等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本发明实施例中提供的异常用户的识别方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种异常用户的识别方法，其特征在于，包括：

通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；

将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；

根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；

根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；

输出识别结果，所述识别结果为用于区分异常用户的标识；

所述根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为风险用户，包括：

将所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过所述预置分类模型中的预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；

获取所述目标用户在所述预置分类模型中的预置分类边界，所述预置分类边界为根据所述目标用户的预置历史时段数据，通过所述预置分类模型生成的多维特征空间分类边界，所述预置历史时段数据为所述目标用户在预置时段内的动态行为信息和用户基础信息；

判断所述目标用户的特征坐标是否在所述预置分类边界内；

若所述目标用户的特征坐标不在所述预置分类边界内，则确定目标用户是异常用户；

若所述目标用户的特征坐标在所述预置分类边界内，则确定目标用户不是异常用户；

通过所述预置分类模型生成所述预置分类边界的步骤，包括：

将所述目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；

将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；

计算所述历史数据坐标集的质心坐标，以及所述历史数据坐标集中每个历史数据坐标与所述质心坐标的距离；

按照距离从小到大的顺序从所述历史数据坐标集中获取预置比例的坐标，作为所述目标用户的行为坐标；

基于所述目标用户的行为坐标生成预置分类边界，所述行为坐标在所述预置分类边界之内；

所述基于所述目标用户的行为坐标生成预置分类边界，包括：按照距离从小到大的顺序依次连接用户的行为坐标，直至得到一个封闭的多维空间，将该封闭的多维空间作为预置的分类边界。

2.根据权利要求1所述的异常用户的识别方法，其特征在于，所述根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率，包括：

获取通过预置评分模型得到的操作概率参数，所述操作概率参数包括各种操作的初始发生概率、转移概率以及观测概率；

根据所述操作概率参数，通过预置概率公式计算目标用户的行为轨迹风险概率，所述预置概率公式为：

3.根据权利要求1-2中任一项所述的异常用户的识别方法，其特征在于，所述动态行为信息包括目标用户的页面信息、页面操作信息以及会话对象信息session信息，所述将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集，包括：

对所述页面信息进行信息分类编码；

根据所述session信息，将进行信息分类编码后的所述页面信息根据所述页面操作信息进行排序，得到目标用户的当前操作序列；

将所述目标用户基础信息进行特征转换，得到目标用户的基础属性特征集。

4.根据权利要求3所述的异常用户的识别方法，其特征在于，所述对所述页面信息进行信息分类编码，包括：

根据所述页面信息将不同的页面分类至不同的功能点，所述功能点用于区分页面的功能以及用户的操作；

将各个所述功能点通过预置编码器转换成对应的预置数值。

5.根据权利要求3所述的异常用户的识别方法，其特征在于，所述将目标用户基础信息进行特征转换，得到目标用户的基础属性特征集，包括：

将所述目标用户的用户基础信息离散化；

根据离散化的所述用户基础信息提取基础属性特征；

将所述基础属性特征通过哑变量变换转换为数值型特征，得到目标用户的基础属性特征集。

6.一种异常用户的识别装置，其特征在于，包括：

获取单元，用于通过预置的脚本和/或预置的日志采集接口从页面上获取目标用户的动态行为信息以及用户基础信息；

处理单元，用于将所述目标用户的动态行为信息以及用户基础信息进行筛选和编码，得到目标用户的当前操作序列以及基础属性特征集；

计算单元，用于根据所述目标用户的当前操作序列，通过预置评分模型计算目标用户的行为轨迹风险概率；

识别单元，用于根据所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过预置分类模型识别目标用户是否为异常用户；

输出单元，用于输出识别结果，所述识别结果为用于区分异常用户的标识；

识别单元，还用于将所述目标用户的行为轨迹风险概率以及所述目标用户的基础属性特征集，通过所述预置分类模型中的预置核函数映射到预置的多维特征空间，得到目标用户的特征坐标；获取所述目标用户在所述预置分类模型中的预置分类边界，所述预置分类边界为根据所述目标用户的预置历史时段数据，通过所述预置分类模型生成的多维特征空间分类边界，所述预置历史时段数据为所述目标用户在预置时段内的动态行为信息和用户基础信息；判断所述目标用户的特征坐标是否在所述预置分类边界内；若所述目标用户的特征坐标不在所述预置分类边界内，则确定目标用户是异常用户；若所述目标用户的特征坐标在所述预置分类边界内，则确定目标用户不是异常用户；

识别单元，还用于将所述目标用户的预置历史时段数据进行处理，得到所述目标用户的历史特征集合，所述历史特征集合包括多个历史行为轨迹风险概率以及与每个所述历史行为轨迹风险概率对应的历史基础属性特征集；将所述历史特征集合映射到所述多维特征空间，得到历史数据坐标集；计算所述历史数据坐标集的质心坐标，以及所述历史数据坐标集中每个历史数据坐标与所述质心坐标的距离；按照距离从小到大的顺序从所述历史数据坐标集中获取预置比例的坐标，作为所述目标用户的行为坐标；基于所述目标用户的行为坐标生成预置分类边界，所述行为坐标在所述预置分类边界之内；

识别单元，还用于：按照距离从小到大的顺序依次连接用户的行为坐标，直至得到一个封闭的多维空间，将该封闭的多维空间作为预置的分类边界。

7.一种异常用户的识别设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任意一项所述的异常用户的识别方法。

8.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-5中任意一项所述的异常用户的识别方法。