CN109325691A

CN109325691A - 异常行为分析方法、电子设备及计算机程序产品

Info

Publication number: CN109325691A
Application number: CN201811127266.7A
Authority: CN
Inventors: 夏玉明; 魏国富; 汲丽
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-02-12
Anticipated expiration: 2038-09-27
Also published as: CN109325691B

Abstract

本申请实施例中提供了一种异常行为分析方法、电子设备及计算机程序产品。采用本申请中的方案，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

Description

异常行为分析方法、电子设备及计算机程序产品

技术领域

本申请涉及信息安全技术，具体地，涉及一种异常行为分析方法、电子设备及计算机程序产品。

背景技术

随着互联网本地在线服务的快速发展，越来越多的交易正在从传统的线下传统渠道迁移到在线、实时的平台上，互联网平台为了培育市场，也在运营和推广中投入了大量资金。但从另一个角度来看，这也给互联网“黑色产业”提供了滋生的土壤。有别于传统风控，互联网在线业务风控面临的风险形式多样、变化快，可以利用的信息冗杂，长此以往，电商不仅宣传力度大打折扣，店铺利润也因薅羊毛行为大幅下滑，因此，对线上异常风险的挖掘是很有必要的。

当今技术主要停留在事后分析层面，风控部门往往是在交易发生之后拿到相关数据进行单纯的数据统计分析，得到相关维度后进行可视化，由峰值或者曲线异常点发现问题所在，再回溯到源数据中找到相关用户标识，最后以该用户的其他相关信息，找出可疑用户关联的IP地址、useragent(用户代理)以及deviceID(设备标识)，再根据这些信息关联出其他用户标识，以此来发现批量注册的存在。

但此种分析方法发生在交易完成之后，且过于被动，分析滞后时间过长，反馈不及时，造成的损失同样无法弥补。

发明内容

本申请实施例中提供了一种异常行为分析方法、电子设备及计算机程序产品。

根据本申请实施例的第一个方面，提供了一种异常行为分析方法，包括：

S101，获取第一风控数据，所述第一风控数据的字段包括用户标识openID；

S102，提取所述第一风控数据的特征，得到各openID的第一特征；

S103，对各openID的第一特征进行首次异常行为识别，得到各openID的初始异常行为分析结果；

S104，根据各openID的初始异常行为识别结果和各openID的第一特征，形成各openID的第二特征；

S105，对各openID的第二特征进行再次异常行为识别，得到各openID的最终异常行为分析结果。

根据本申请实施例的第二个方面，提供了一种电子设备，所述电子设备包括：显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行上述第一个方面任一所述方法中各个步骤的指令。

根据本申请实施例的第三个方面，提供了一种计算机程序产品，所述计算机程序产品对用于执行一种过程的指令进行编码，所述过程包括上述第一个方面中任一项所述的方法。

采用本申请实施例中提供的方法，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一实施例提供的一种异常行为分析方法的流程示意图；

图2为本申请一实施例提供的一种电子设备结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现，现有的方法主要停留在事后分析层面，风控部门往往是在交易发生之后拿到相关数据进行单纯的数据统计分析，得到相关维度后进行可视化，由峰值或者曲线异常点发现问题所在，再回溯到源数据中找到相关用户标识，最后以该用户的其他相关信息，找出可疑用户关联的IP地址、useragent(用户代理)以及deviceID(设备标识)，再根据这些信息关联出其他用户标识，以此来发现批量注册的存在。此种分析方法发生在交易完成之后，且过于被动，分析滞后时间过长，反馈不及时，造成的损失同样无法弥补。

在电商的运营平台中，会采集到许多有用的信息，但随着时代科技的进步，犯罪手法的高明，许多有用的信息存在故意篡改的现象，因此之前的由单一特征或者几个特征进行互相关联找出批量机器行为的做法已经有失成效。但是如果提升一个角度来看问题，可以发现当机器行为发生时，他们都会有相似的行为特点，如注册请求间隔时间短且高频率发生或者注册请求存在绕过风控规则的行为等。

电商的机器行为，算是用户异常的一种形式，本申请现有技术的问题以及电商运营平台的上述现状，本申请实施例中提供了一种异常行为分析方法、电子设备及计算机程序产品，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

另外，本申请的方法可以让机器按照自己的理解划分出行为模式不同的用户，当的电商系统中出现大量机器行为的异常用户时，可以根据其大量的相似行为快速聚类，以和正常用户作出区分。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明实施例中所有使用“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

参见图1，本实施例所示的异常行为分析方法的实现流程如下：

S101，获取第一风控数据。

通过风控系统中的风控数据和每天产生的用户事件，基于历史对统计特征进行整理，同时取其中一部分全量特征的数据集进行训练和学习，从而可以对异常用户进行打标签，产生一部分训练数据。

因此，在进行异常行为分析之前，首先获取风控数据。

其中，本实施例中的风控数据，无论是第一风控数据，还是第二风控数据、第三风控数据、第四风控数据、第五风控数据、第六风控数据等，只要是风控数据，其包括的字段均相同。

具体包括用户标识openID。

除此之外，风控数据的字段还包括：登陆账号account_name、品牌brand、浏览器指纹标识browser_fingerprint_id、手机号码、cookie标识cookie_id、优惠券名称、风控事件类型、IP地址、订单标识、订单商品金额、下单渠道、收货地址、用户代理useragent、事件发生时间、令牌标识Tokenid、设备是否为虚拟机的标识device_vm、设备标识deviceID、登录是否成功的标识、是否被退单的标识等。

S102，提取第一风控数据的特征，得到各openID的第一特征。

在获取到第一风控数据后，本步骤会对第一风控数据进行特征识别与整理，每一个用户(以openID作为用户的唯一标识)产生的用户事件为一条数据，该用户对应的特征(为了与后续特征进行区分，此处的特征用第一特征表示)间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。

第一特征包括的内容较多，包括：风控数据中的所有字段、不同useragent的总数量、不同IP地址的总数量、不同deviceID的总数量、登录成功总次数、登录失败总次数、不同订单标识的总数量、退单总数量、活跃总天数、触发每类风控规则的数量、手机注册省、手机注册市、触发风控事件的总数量、均值标准差、各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量、设备信息。

上述第一特征包括的内容大致可分为3类：

第一类：控数据中的所有字段

即openID、account_name、brand、browser_fingerprint_id、手机号码、cookie_id、优惠券名称、风控事件类型、IP地址、订单标识、订单商品金额、下单渠道、收货地址、useragent、事件发生时间、Tokenid、device_vm、deviceID、登录是否成功的标识、是否被退单的标识。

第二类：基础特征

基础特征是在风控数据的基础上提取的用户行为数据。

包括：不同useragent的总数量、不同IP地址的总数量、不同deviceID的总数量、登录成功总次数、登录失败总次数、不同订单标识的总数量、退单总数量、活跃总天数、触发每类风控规则的数量。

第三类：个性特征

个性特征是在风控数据的基础上结合业务逻辑，对风控中的某些特定特征进行更深入的数据挖掘，进而提取出的“个性化特征值”。

包括：手机注册省、手机注册市、触发风控事件的总数量、均值标准差、各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量、设备信息。

下面以任一用户(如该任一用户的openID为用户i)为例，对用户i的各基础特征和个性特征的确定方法进行说明。

对于任一openID(如用户i)，将包含用户i的第一风控数据确定为第二风控数据。第二风控数据是从第一风控数据中选出的(即含用户i的第一风控数据)，第二风控数据中包括的字段与第一风控数据中包括的字段相同，也为openID、account_name、brand、browser_fingerprint_id、手机号码、cookie_id、优惠券名称、风控事件类型、IP地址、订单标识、订单商品金额、下单渠道、收货地址、useragent、事件发生时间、Tokenid、device_vm、deviceID、登录是否成功的标识、是否被退单的标识。因此，第二风控数据组成的集合为第一风控数据组成的集合的子集。

1、用户i基础特征的确定方案如下：

1)不同useragent的总数量

具体实现方式为：提取第二风控数据中不同useragent的总数量。

此特征描述用户i所涉及到的useragent数量。通过用户i所使用过的所有useragent的数量总和得到。在具体实现时，可以将此特征简记为user_agent_no。

2)不同IP地址的总数量

具体实现方式为：提取第二风控数据中不同IP地址的总数量。

此特征描述用户i关联到的IP数量。通过用户i所使用过的所有IP的数量总和得到。在具体实现时，可以将此特征简记为ip_no。

3)不同deviceID的总数量

具体实现方式为：提取第二风控数据中不同deviceID的总数量。

此特征描述用户i与其他多数设备发生信息交互。通过用户i账户存续期间使用过的设备信息总和得到。在具体实现时，可以将此特征简记为Device_finger_no。

4)登录成功总次数

具体实现方式为：根据第二风控数据的IP地址和登录是否成功的标识，提取用户i的登录成功总次数。

此特征描述用户i登录成功的次数。通过用户i在账号存续期间登录成功的次数得到。在具体实现时，可以将此特征简记为enter_succeed_no。

5)登录失败总次数

具体实现方式为：根据第二风控数据的IP地址和登录是否成功的标识，提取用户i的登录失败总次数。

此特征描述用户i登录失败的次数。通过用户i在账号存续期间登录失败的次数得到。在具体实现时，可以将此特征简记为enter_failure_no。

6)不同订单标识的总数量

具体实现方式为：提取第二风控数据中不同订单标识的总数量。

此特征描述用户i下单数量。通过用户i在账号存续期间所有的订单数量总和得到。在具体实现时，可以将此特征简记为user_order_no。

7)退单总数量

具体实现方式为：根据第二风控数据的是否被退单的标识，提取用户i的退单总数量。

此特征描述用户i退单数量。通过用户i在账号存续期间所有的退单数量总和得到。在具体实现时，可以将此特征简记为user_back_no。

8)活跃总天数

具体实现方式为：根据第二风控数据的事件发生时间，提取用户i的活跃总天数。

此特征描述用户i活跃天数。通过用户i在账号存续期间的活跃(如登录、签到、下单等)总天数得到。在具体实现时，可以将此特征简记为activity_day。

9)触发每类风控规则的数量。

具体实现方式为：根据第二风控数据的风控事件类型，提取用户i触发每类风控规则的数量。

此特征描述用户i触发各中风控事件类型的数量。通过用户i触发各风控规则的次数总和得到。

本实施例中风控类型和风控规则一一对应，即有多少中风控规则，就有多少种风控类型。风控类型只是风控规则的简要描述。

此时，有多少种风控规则，就会得到多少个数量。当风控规则较多时，或者，当不需要进行如此细致的分类时，或者其他原因时(本实施例不对具体原因进行限定)，还可以将风控风控规则分组，如用户安全相关的风控规则(如登录、注册、找回密码、优惠代码验证等)归为一组，交易安全的风控规则(如支付方式验证、订单提交验证等)归为一组。

归类后，提取用户i触发每组风控规则的数量。如用户i触发用户安全相关的风控规则(如登录、注册、找回密码、优惠代码验证等)的次数总和，在具体实现时，可以将此特征简记为eventtype001_no。如用户i触发交易安全的风控规则(如支付方式验证、订单提交验证等)的次数总和，在具体实现时，可以将此特征简记为eventtype002_no。

2、用户i个性特征的确定方案如下：

1)手机注册省

有些黑产大量注册手机号码，但手机注册地与会员注册地并非同一省份同一地级市，因此提取的手机号码注册的省作为特征之一。

具体实现方式为：根据第二风控数据的手机号码，提取用户i的手机注册省。

2)手机注册市

有些黑产大量注册手机号码，但手机注册地与会员注册地并非同一省份同一地级市，因此提取的手机号码注册的市作为特征之一。

具体实现方式为：根据第二风控数据的手机号码，提取用户i的手机注册市。

3)触发风控事件的总数量

在实际应用中，基于风控事件类型与风险规则的一一对应关系，会针对触发风险规则的不同，对用户单条行为进行风险分值的判定，并基于判定结果采用不同的风控手段，如风险分值为0分，则正常操作；风险分值为60分，则给予滑动验证码验证；风险分值为80分，则给予短信验证码验证；风险分值为100分，则拒绝用户进行此操作行为。触发风控事件的数量与行为是否异常密切相关，因此提取触发风控事件的总数量作为特征之一。

具体实现方式为：根据第二风控数据的风控事件类型，提取用户i触发风控事件的总数量。

4)均值标准差

用户在触动APP启动之后，每次操作动作都会有一次时间点的记录(即事件发生时间)，通过均值标准差即可衡量用户基于正常用户均值的离散程度，因此将均值标准差作为特征之一。

具体实现方式为：根据第二风控数据的事件发生时间，提取用户i的均值标准差。

对于根据第二风控数据的事件发生时间，提取用户i的均值标准差的实现方案，可以为：

1.1，确定第二风控数据的最早事件发生时间t_i1。

t_i1为用户i的所有第二风控数据中最早的事件发生时间。

1.2，在第二风控数据中，确定与注册完成相对应的风控数据，并获取与注册完成相对应的风控数据的事件发生时间t_i2。

t_i2为与用户i注册完成相对应的风控数据的事件发生时间。

由于用户i的每一个操作均会记录成一条风控数据，因此在用户i的所有第二风控数据中找到注册完成那个操作对应的数据，获取该数据的事件发生时间。

1.3，获取模拟用户的第三风控数据。

此处的第三风控时间，是模拟真实用户操作得到的数据。用于确定正常用户的特征。

1.4，根据第三风控数据，确定各模拟用户最早的事件发生时间t_n1。

其中，n为模拟用户标识，1≤n≤N，N为不同模拟用户的总数量，t_n1为模拟用户n最早的事件发生时间。

1.5，在第三风控数据中，确定与各模拟用户注册完成相对应的风控数据，并获取与各模拟用户注册完成相对应的风控数据的事件发生时间t_n2。

其中，t_n2与模拟用户n注册完成相对应的风控数据的事件发生时间。

1.6，计算注册平均用时

1.7，用户i对应的均值标准差

在具体实现时，用户在触动APP启动之后，每次操作动作都会有一次时间点的记录(即事件发生时间)，用户i新下载APP后进行第一次点触打开，产生一次事件发生时间(即打开APP)的记录记为t_i1，随后经历填写个人信息、输入手机号码、获取短信验证码、点击注册等一系列步骤；再次记录该模拟用户点击‘注册完成，请登录’的事件发生时间为t_i2。

某位模拟用户n新下载APP后进行第一次点触打开，产生一次事件发生时间(即打开APP)的记录记为t_n1，随后经历填写个人信息、输入手机号码、获取短信验证码、点击注册等一系列步骤；再次记录该模拟用户点击‘注册完成，请登录’的事件发生时间为t_n2。

由全部模拟用户的t_n1、t_n2和模拟用户个数N计算出用户注册的平均用时

用户i对应的均值标准差

5)各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量

具体实现方式为：根据第二风控数据的deviceID和Tokenid，提取任一openID各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量。

在电商特定的业务场景下，openID为具有唯一标识性的字段，在用openID为主键对用户所涉及的deviceID、Tokenid进行统计，由于一段时间的数据量并不具有对比性，而全量数据又太过巨大，因此采用了‘rolling’的方式对数据进行处理，最后将统计结果与openID进行整合作为特征之一。

具体的，

2.1，根据第二风控数据的事件发生时间，确定第二风控数据中距当前日期的最近日。

如果根据第二风控数据的事件发生时间确定，第二风控数据中包含执行本实施例提供的异常行为分析方法进行分析的当天的数据，则最近日为当前日期。否则，选择距当前日期最近的日期。

2.2，在第二风控数据中，以1日为时间窗口，以1日为滑动步长，从最近日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第四风控数据。

2.3，根据每个第四风控数据中不同deviceID总数量，确定任一openID的各日不同deviceID总数量。

2.4，根据每个第四风控数据中不同Tokenid总数量，确定任一openID的各日不同Tokenid总数量。

2.5，在第二风控数据中，以1日为时间窗口，以7日为滑动步长，从最早日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第五风控数据。

2.6，根据每个第五风控数据中不同deviceID总数量，确定任一openID的各周不同deviceID总数量。

2.7，根据每个第五风控数据中不同Tokenid总数量，确定任一openID的各周不同Tokenid总数量。

2.8，在第二风控数据中，以1日为时间窗口，以30日为滑动步长，从最早日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第六风控数据。

2.9，根据每个第六风控数据中不同deviceID总数量，确定任一openID的各月不同deviceID总数量。

2.10，根据每个第六风控数据中不同Tokenid总数量，确定任一openID的各月不同Tokenid总数量。

其中，2.2-2.4会得到各日不同deviceID总数量和各日不同Tokenid总数量。2.5-2.7会得到各周不同deviceID总数量和各周不同Tokenid总数量。2.8-2.10会得到各月不同deviceID总数量和各月不同Tokenid总数量。

另外，2.2-2.4、2.5-2.7、2.8-2.10的执行顺序本实施例不做限定。上述仅以先2.2-2.4，然后2.5-2.7，最后2.8-2.10为例进行的说明。在具体实施时，也可以先2.2-2.4，然后2.8-2.10，最后2.5-2.7，还可以先2.5-2.7，然后2.8-2.10，最后2.2-2.4，或者，先2.5-2.7，然后2.2-2.4，最后2.8-2.10，或者，先2.8-2.10，然后2.2-2.4，最后2.5-2.7，或者，先2.8-2.10，然后2.5-2.7，最后2.2-2.4，或者，同时执行2.8-2.10、2.2-2.4、2.5-2.7。

例如，

1)将单日数据按照以openID为主键的形式进行提取，此时同一openID可能对应不同的deviceID、Tokenid，因此对每一openID对应的个数进行统计，整理成表1所示的形式：

表1

openID	deviceID	Tokenid
			o1Z-rjn5sm7fMGy72JL05xXxDBqw	5	2
......	......	......
			ojBv60HFPxxnyVla-XnpWBE9OFxo	3	1

2)由于全量数据巨大，考虑到效率问题，本实施例采用了‘rolling’的方式对数据进行处理，即从当前数据日期出发向前推日、周、月三种时间跨度的数据进行再次统计。

例如，以周为单位的统计结果如表2所示。

表2

openID	deviceID	Tokenid
			o1Z-rjn5sm7fMGy72JL05xXxDBqw	30	2
......	......	......
			ojBv60HFPxxnyVla-XnpWBE9OFxo	3	4

以月为单位的统计结果如表3所示。

表3

openID	deviceID	Tokenid
			o1Z-rjn5sm7fMGy72JL05xXxDBqw	37	4
......	......	......
			ojBv60HFPxxnyVla-XnpWBE9OFxo	5	7

3)固定好时间窗口后，按照时间顺序每隔一天做平滑的时间窗口去框取数据进行分框统计，从而达到在有限的资源中数据利用最大化的目标。

以第二风控数据的事件发生时间为2018-5-1至2018-6-1，共32天(5月31天+6.1所在的1天)为例。

步骤2.2-2.4的实现过程如下：

以1日为时间窗口，以1日为滑动步长，从2018-7-1开始，获取每一天的风控数据，将每一天的风控数据均作为第四风控数据。即获取32个第四风控数据。根据每个第四风控数据中不同deviceID总数量，确定用户i的各日不同deviceID总数量。根据每个第四风控数据中不同Tokenid总数量，确定户i的各日不同Tokenid总数量。

步骤2.5-2.8的实现过程如下：

以7日为时间窗口，以1日为滑动步长，从2018-6-1开始，获取每7日的风控数据，将每7日的风控数据作为一个第四风控数据。2018-6-1至2018-5-26的数据为一个第四风控数据，2018-5-31至2018-5-25的数据为一个第四风控数据，2018-5-30至2018-5-24的数据为一个第四风控数据，……，2018-5-9至2018-5-3的数据为一个第四风控数据，2018-5-8至2018-5-2的数据为一个第四风控数据，2018-5-7至2018-5-1的数据为一个第四风控数据。此时，2018-5-6至2018-5-1的数据不满足时间窗口(7日)的要求，因此不再滑动取第四风控数据，则总共获取26个第四风控数据。根据每个第四风控数据中不同deviceID总数量，确定用户i的各周不同deviceID总数量。根据每个第四风控数据中不同Tokenid总数量，确定户i的各周不同Tokenid总数量。

步骤2.8-2.10的实现过程如下：

以30日为时间窗口，以1日为滑动步长，从2018-6-1开始，获取每30日的风控数据，将每30日的风控数据作为一个第四风控数据。2018-6-1至2018-5-3的数据为一个第四风控数据，2018-5-31至2018-5-2的数据为一个第四风控数据，2018-5-30至2018-5-1的数据为一个第四风控数据。此时，2018-5-29至2018-5-1的数据不满足时间窗口(30日)的要求，因此不再滑动取第四风控数据，则总共获取3个第四风控数据。根据每个第四风控数据中不同deviceID总数量，确定用户i的各月不同deviceID总数量。根据每个第四风控数据中不同Tokenid总数量，确定户i的各月不同Tokenid总数量。

6)设备信息

Useragent中含有大量的用户行为信息，因此本实施例的方法将IP和Useragent进行结合确定设备信息作为统计特征之一。

具体实现方式为：根据第一风控数据的useragent，提取用户i的设备信息。

本实施例提供的方法采用可以过滤掉常见词语，而保留重要词语的方法确定设备信息，假设useragent为Mozilla/5.0(iPhone；CPU iPhone OS 11_4_1like Mac OS X)AppleWebKit/605.1.15(KHTML,like Gecko)Mobile/15G77MicroMessenger/6.7.1NetType/4G Language/zh_CN，该useragent中的“Mozilla/5.0”、“iPhone”等均作为一个词条，则根据第一风控数据的useragent，提取用户i的设备信息的具体实现方案为：

3.1，将第一风控数据分为第一预设数量份。

如第一风控数据为10万条，第一预设数量为10，则3.1中将10万条的数据分为10份。

此处可以均分，也可以不均分。本实施例仅以均分为例。

分后则10份，每份1万条。

3.2，通过下式计算各风控数据useragent包括的各词条的词频

其中，j为第一风控数据标识，p为词条标识，q为份标识，TF_jp为第j条风控数据useragent包括的词条p的词频，A_qp为第j条风控数据所对应的份q第二风控数据出现词条p的总次数，A_q为第j条风控数据所对应的份q中useragent出现不同词条的总数量。

若第j条风控数据所在的份为第3份，则A_qp为：第3份的1万条数据的useragent中，出现词条p的次数。A_q为第3份的1万条数据的useragent中包括的不同词条的总数量。

3.3，通过下式计算各风控数据useragent包括的各词条的逆向文件频率：

IDF_jp＝第一预设数量/词条p相关份的总数量。

其中，IDF_jp为第j条风控数据useragent包括词条p的逆向文件频率，词条p相关份的第二风控数据useragent中包括词条p。

若仅第1份、第3份和第10份的风控数据useragent中出现过词条p，则IDF_jp＝100000/3。

3.4，通过下式计算各风控数据的权重：

其中，W_j为第j条风控数据的权重。

3.5，根据各风控数据的权重，将第一风控数据聚为第二预设数量类。

本步骤的聚类算法可以为现有的任一聚类算法，本实施例不做限定。

第二预设数量的具体值本实施例也不做限定，例如为8。则本步骤会将第一风控数据聚为8类。

聚类后，每一类代表一种设备类型，根据风控数据所属的类别即可知道对应的用户的设备信息。

3.6，根据第二风控数据的所属类别，确定用户i对应的设备信息。

至此，将第二风控数据中的所有字段、不同useragent的总数量、不同IP地址的总数量、不同deviceID的总数量、登录成功总次数、登录失败总次数、不同订单标识的总数量、退单总数量、活跃总天数、触发每类风控规则的数量、手机注册省、手机注册市、触发风控事件的总数量、均值标准差、各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量、设备信息均作为用户i的第一特征。

本实施例提供地方法在特征的选取上，按照“风控数据检查，业务数据验证”的思维模式，采用风控系统下的风控行为数据和用户事件中的业务数据相结合的方式选取数据集对拥有可疑机器行为的用户进行判别。

具体判别过程如下：

S103，对各openID的第一特征进行首次异常行为识别，得到各openID的初始异常行为分析结果。

本步骤在具体实现时，可以采用无监督的分类算法实现。无监督的分类算法需要部分真实的风控行为的数据作为训练集，放入到模型进行训练，如基于密度的聚类算法，能够将具有足够凝聚力的区域的点划分为同一簇，并能在具有高噪声的训练数据集中发现任意形状的簇，这里簇定义为密度相连点的最大集合，也就是说该方法的聚类效果不受数据分布形状的制约。由于本实施例提供的方法对异常的机器行为并没有明确的定义，因此通过无监督的分类算法进行首次异常行为识别，检测离群点，为后续的再次异常行为识别做铺垫。

具体实现方案为：

4.1，将每个openID及对应的第一特征组成的向量作为一个第一识别数据。

4.2，任选一个第一识别数据。

4.3，确定除任选的第一识别数据外的其他第一识别数据与任选的第一识别数据之间的第一距离。

4.4，按第一距离从小到大将除任选的第一识别数据外的其他第一识别数据排序，得到第一序列。

4.5，将第一序列中，依次选择满足动态阈值的第一识别数据作为核心对象，加入核心对象集合，核心对象集合的初始值为空。

4.6，依次取核心对象集合中的一个核心对象，确定除所取核心对象外的其他第一识别数据与所取核心对象之间的第二距离；按第二距离从小到大将除所取核心对象外的其他第一识别数据排序，得到第二序列；将第二序列中排序靠前的第三预设数量个第一识别数据与所取核心对象确定为一类。

4.7，根据各第一识别数据所属类，确定各openID的初始异常行为分析结果。

S104，根据各openID的初始异常行为识别结果和各openID的第一特征，形成各openID的第二特征。

此步骤中，将初始异常行为识别结果作为一个新的第一特征，将该特征与步骤S102中得到的第一特征一起，均作为openID的特征，此处将初始异常行为识别结果以及步骤S102中得到的第一特征重新命名为第二特征。

即第二特征＝openID的初始异常行为识别结果+步骤S102中得到的第一特征。

此处的识别方法与S103中的识别方法可以相同也可以不同。

优选的，S103中的识别方法为无监督的分类算法，S105中的识别方法为有监督的聚类算法。

在S103中无监督的分类算法给出相应聚类结果后，可以运用有监督式的聚类算法再次识别，以无监督学习作为一种特征抽取方式来辅助监督学习，该模型使用同样的特征集，但本次为全量数据，让模型自动根据产生的标签数据来进行异常分值的判定。具体实现方案为：

S105-1，将每个openID及对应的第二特征组成的向量作为一个第二识别数据。

S105-2，随机选择第四预设数量个第二识别数据作为样本数据，将样本数据放入根节点。

S105-3，产生随机数O，基于O将根节点中的样本数据分为2类，1类放入根节点的左孩子节点，1类放入根节点的右孩子节点。

S105-4，若左孩子节点中的样本数据非1个，且右孩子节点中的样本数据非1个，则将左孩子节点和右孩子节点依次视为根节点，重复执行S4。

若左孩子节点中的样本数据为1个，但右孩子节点中的样本数据非1个，则将右孩子节点视为根节点，重复执行S105-3。

若左孩子节点中的样本数据非1个，但右孩子节点中的样本数据为1个，则将左孩子节点视为根节点，重复执行S105-3。

若左孩子节点中的样本数据为1个，且右孩子节点中的样本数据为1个，则将所有节点形成一棵树。

S105-5，重复执行S105-2至S105-4，直至形成第五预设数量棵树。

S105-6，将未作为样本数据的第二识别数据作为训练数据。

S105-7，确定每个训练数据位于每棵树中的节点。

S105-8，通过如下公式，确定每个第二识别数据的异常分数，并将每个第二识别数据的异常分数作为各openID的初始异常行为分析结果。

S(x,y)＝2^{E(h(x,y))/c(y)}。

其中，x为第二识别数据标识，y为树标识，S(x,y)为第二识别数据x的异常分数，h(x)为第二识别数据x在树y中节点至树y根节点之间的路径长度，E(h(x))为第二识别数据x在所有树中的路径长度均值，C(y)为树y的平均路径长度，C(y)＝2H(n_y-1)-(2(n_y-1)/n_y)，n_y为树y节点总数，H(n_y-1)＝ln(n_y-1)+R，R为欧拉常数。

上述方法中，将所有数据放入根节点后，随机指定一个维度(attribute)，在当前节点数据中随机产生一个切割点O，切割点产生于当前节点数据中指定维度的最大值和最小值之间。以此切割点生成了一个超平面，然后将当前节点数据空间划分为2个子空间：把指定维度里小于p的数据放在当前节点的左孩子，把大于等于p的数据放在当前节点的右孩子。在孩子节点中递归上述内容，不断构造新的孩子节点，直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度。获得第五预设数量个iTree之后，将训练数据x放入，我们令其遍历每一棵iTree，每个第二识别数据的异常分数。

至此，异常行为分析完毕。

但是在实际过程中，可能由于第一特征的选取偏差造成异常行为分析结果不准确。因此，本实施例提供的方法在执行步骤S105之后，还会进行结果监控的步骤，以纠正由于第一特征的选取偏差造成的异常行为分析结果错误。

具体纠正方案为：

S106-1，将每个openID及对应的第二特征组成的向量作为一个第二识别数据。

S106-2，通过如下公式计算每个第二识别数据的标准评分：

Score_x＝A-B*log(P_x/(1-P_x))。

其中，x为第二识别数据标识，Score_x为第二识别数据x的标准评分，A为补偿系数，B为刻度，P_x为第二识别数据x的异常行为发生概率。

A、B通过解如下方程得到：

其中，S₀为预先设置的正常用户的标准评分，P为预先设置的异常行为发生概率。

S106-2采用逻辑回归的形式对数据进行建模，考虑到逻辑回归的输出结果为概率的形式，因此需要进一步的转化才能输出到分数的形式上。

假设用户事件发生的几率为odds，则设某用户异常的概率为P，则其正常的概率为1-P，那么我们所设odds则为用户异常的概率和正常的概率之比：odds＝p/(1-P)；则此时客户为机器行为的概率P可表示为odds/(1+odds)。

设A为补偿系数，设B为刻度，则标准评分达式为：Score＝A–B*log(odds)。由于log函数为单调递增函数，所以当某用户异常概率odds越大时，得分越低。

根据场景和业务的不同，假定出某特定odds值时的Score值和该特定odds值翻倍时的Score增加值△S，代入公式可得出A与B的值。

本实施例依照二元逻辑回归构造预测函数：

其中，θ为参数估计，T为转质计算。

当结果取1时，当结果取0时，则即可将求解用户评分的问题转化为求用户违约概率log(odds)的问题，其中：

为了寻找最理想的θ使得模型预测的概率相对已有的样本最为准确，本实施例使用损失函数的最小化，利用梯度下降法求得minL(θ)，代入得出自身体系下的标准评分。

S106-3，确定各openID的最终异常行为分析结果与对应标准评分之间的差。

S106-4，若存在差大于预设阈值的openID，则通过稀疏规则算子调整差大于预设阈值的openID的第一特征，再次执行S103、S104、S105、S106-1、S106-2、S106-3的步骤，直至不存在差大于预设阈值的openID。

本实施例提供的方法，首先获取风控行为数据作为基础，再根据业务特征进行业务数据的统计特征分析，筛选出具有强特征的业务数据共同作为特征进行无监督的异常行为分析，如首次分析结果为k1、k2、k3、k4、k5类，针对聚类结果进而指导有监督的聚类算法进行二次异常行为分析，取k1、k2、k3、k4、k5五大类的中心点，将其特征值带入监督模型中，得出异常分值。

由于在电商领域中，数据量巨大，且没有清楚的异常用户的定义，因此在得到二次异常行为分析结果后，会对该结果进一步验证，才能明确其真实性和准确性，所以将监督模型输出的风险分值同标准评分结果进行比对，得出分类器的准确率，再通过反复调整参数，确定最佳效果的模型。

例如，

第一步：将聚类结果k1、k2、k3、k4、k5三大类的中心点回溯源数据后得出标签：0分、3分、5分、7分、10分；

第二步：将带有标签数据的数据集作为训练数据集，投入到有监督的聚类算法得到的模型中，训练得出结果后，要将异常分值同原手机号码作出关联，为之后与标准评分的对比做准备，如采用对应序列号的方式进行匹配，只取出手机号码和异常分值两列；

第三步：计算标准评分和最终异常行为分析结果的匹配度，如将最终异常行为分析结果进行等级的划分，利用五分位数将原风险风险分值划分为五个等级，再与标准评分进行比对。在若发现匹配度有所欠缺，只有64％，于是回溯调整第一参数。

第四步：找到风险等级相差最大的类别，则认为相差最大的分类是由某个或者某些特征值具有过强的表现力，因此需要用某一指标弱化此特征的表现力，本实施例中，采用稀疏规则算子来完成特征的自动筛选，它会学习地去去掉这些没有信息的特征。

第五步：在利用稀疏规则算子L1范数进行规则化后，重新进行两次初始异常行为识别得到最终异常行为分析结果，再继续比较异常行为分析结果与标准评分进行比对，直到标准评分和最终异常行为分析结果契合度达到85％以上时，即可相信模型的准确性达到预期效果。

本实施例提供的方法采用“无监督模型辅助监督模型，业务数据辅助风控数据，标准评分验证异常行为分析结果”，可以对用户行为进行准确的分析，该方法可以应用到风控产品中，对机器行为用户进行准确判断。

针对电商的这种‘薅羊毛’的行为，通常是拥有大量账户的团伙犯罪，因此当准确发现某异常用户之后，还可以利用图数据库分析来牵扯出更深度的二度人脉，如采用TigerGraph进行网络可视化，首先将产生的异常用户的手机账号等信息打包成一个csv文件，再加载至图数据库中，放在层次结构的顶部，将用户的UA、IP、deviceID等信息放在下一级，最后将所有用户的用户信息，打包成csv文件喂给图模型进行计算，加载全量数据后，可以查找匹配，这会提交到一个查询数据库来查找所有与异常用户、异常用户信息(包括UA、IP、Device ID)相关联的其他信息，以共享其公有的异常网络。

本实施例提供的方法，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

基于同一发明构思，本实施例提供了一种电子设备，参见图2，包括存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序，所述处理器202执行所述程序时实现如下步骤。

S101，获取第一风控数据，第一风控数据的字段包括用户标识openID；

S102，提取第一风控数据的特征，得到各openID的第一特征；

可选地，风控数据中的字段还包括：登陆账号account_name、品牌、浏览器指纹标识、手机号码、cookie标识、优惠券名称、风控事件类型、IP地址、订单标识、订单商品金额、下单渠道、收货地址、用户代理useragent、事件发生时间、令牌标识Tokenid、设备是否为虚拟机的标识、设备标识deviceID、登录是否成功的标识、是否被退单的标识；

S102，包括：

对于任一openID，

将包含任一openID的第一风控数据确定为第二风控数据；

提取第二风控数据中不同useragent的总数量；

提取第二风控数据中不同IP地址的总数量；

提取第二风控数据中不同deviceID的总数量；

根据第二风控数据的IP地址和登录是否成功的标识，提取任一openID的登录成功总次数和登录失败总次数；

提取第二风控数据中不同订单标识的总数量；

根据第二风控数据的是否被退单的标识，提取任一openID的退单总数量；

根据第二风控数据的事件发生时间，提取任一openID的活跃总天数；

根据第二风控数据的风控事件类型，提取任一openID触发每类风控规则的数量；

根据第二风控数据的手机号码，提取任一openID的手机注册省和手机注册市；

根据第二风控数据的风控事件类型，提取任一openID触发风控事件的总数量；

根据第二风控数据的事件发生时间，提取任一openID的均值标准差；

根据第二风控数据的deviceID和Tokenid，提取任一openID各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量；

根据第一风控数据的useragent，提取任一openID的设备信息；

将第二风控数据中的所有字段、不同useragent的总数量、不同IP地址的总数量、不同deviceID的总数量、登录成功总次数、登录失败总次数、不同订单标识的总数量、退单总数量、活跃总天数、触发每类风控规则的数量、手机注册省、手机注册市、触发风控事件的总数量、均值标准差、各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量、设备信息均作为任一openID的第一特征。

可选地，根据第二风控数据的事件发生时间，提取任一openID的均值标准差，包括：

确定第二风控数据的最早事件发生时间t_i1；

在第二风控数据中，确定与注册完成相对应的风控数据，并获取与注册完成相对应的风控数据的事件发生时间t_i2；

获取模拟用户的第三风控数据；

根据第三风控数据，确定各模拟用户最早的事件发生时间t_n1，其中，n为模拟用户标识，1≤n≤N，N为不同模拟用户的总数量，t_n1为模拟用户n最早的事件发生时间；

在第三风控数据中，确定与各模拟用户注册完成相对应的风控数据，并获取与各模拟用户注册完成相对应的风控数据的事件发生时间t_n2，其中，t_n2与模拟用户n注册完成相对应的风控数据的事件发生时间；

计算注册平均用时

任一openID对应的均值标准差

可选地，根据第二风控数据的deviceID和Tokenid，提取任一openID各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量，包括：

根据第二风控数据的事件发生时间，确定第二风控数据中距当前日期的最近日；

在第二风控数据中，以1日为时间窗口，以1日为滑动步长，从最近日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第四风控数据；

根据每个第四风控数据中不同deviceID总数量，确定任一openID的各日不同deviceID总数量；

根据每个第四风控数据中不同Tokenid总数量，确定任一openID的各日不同Tokenid总数量；

在第二风控数据中，以1日为时间窗口，以7日为滑动步长，从最早日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第五风控数据；

根据每个第五风控数据中不同deviceID总数量，确定任一openID的各周不同deviceID总数量；

根据每个第五风控数据中不同Tokenid总数量，确定任一openID的各周不同Tokenid总数量；

在第二风控数据中，以1日为时间窗口，以30日为滑动步长，从最早日开始每隔滑动步长，获取一次满足时间窗口的风控数据，将获取的满足时间窗口的风控数据确定为第六风控数据；

根据每个第六风控数据中不同deviceID总数量，确定任一openID的各月不同deviceID总数量；

根据每个第六风控数据中不同Tokenid总数量，确定任一openID的各月不同Tokenid总数量。

可选地，useragent包括至少一个词条；

根据第一风控数据的useragent，提取任一openID的设备信息，包括：

将第一风控数据分为第一预设数量份；

通过下式计算各风控数据useragent包括的各词条的词频：

通过下式计算各风控数据useragent包括的各词条的逆向文件频率：

IDF_jp＝第一预设数量/词条p相关份的总数量，其中，词条p相关份的第二风控数据useragent中包括词条p；

通过下式计算各风控数据的权重：

根据各风控数据的权重，将第一风控数据聚为第二预设数量类；

根据第二风控数据的所属类别，确定任一openID对应的设备信息；

其中，j为第一风控数据标识，p为词条标识，q为份标识，TF_jp为第j条风控数据useragent包括的词条p的词频，A_qp为第j条风控数据所对应的份q第二风控数据出现词条p的总次数，A_q为第j条风控数据所对应的份q中useragent出现不同词条的总数量，IDF_jp为第j条风控数据useragent包括词条p的逆向文件频率，W_j为第j条风控数据的权重。

可选地，S103，包括：

将每个openID及对应的第一特征组成的向量作为一个第一识别数据；

任选一个第一识别数据；

确定除任选的第一识别数据外的其他第一识别数据与任选的第一识别数据之间的第一距离；

按第一距离从小到大将除任选的第一识别数据外的其他第一识别数据排序，得到第一序列；

将第一序列中，依次选择满足动态阈值的第一识别数据作为核心对象，加入核心对象集合，核心对象集合的初始值为空；

依次取核心对象集合中的一个核心对象，确定除所取核心对象外的其他第一识别数据与所取核心对象之间的第二距离；按第二距离从小到大将除所取核心对象外的其他第一识别数据排序，得到第二序列；将第二序列中排序靠前的第三预设数量个第一识别数据与所取核心对象确定为一类；

根据各第一识别数据所属类，确定各openID的初始异常行为分析结果。

可选地，S105，包括：

S105-1，将每个openID及对应的第二特征组成的向量作为一个第二识别数据；

S105-2，随机选择第四预设数量个第二识别数据作为样本数据，将样本数据放入根节点；

S105-3，产生随机数O，基于O将根节点中的样本数据分为2类，1类放入根节点的左孩子节点，1类放入根节点的右孩子节点；

S105-4，若左孩子节点中的样本数据非1个，且右孩子节点中的样本数据非1个，则将左孩子节点和右孩子节点依次视为根节点，重复执行S4；

若左孩子节点中的样本数据为1个，但右孩子节点中的样本数据非1个，则将右孩子节点视为根节点，重复执行S105-3；

若左孩子节点中的样本数据非1个，但右孩子节点中的样本数据为1个，则将左孩子节点视为根节点，重复执行S105-3；

若左孩子节点中的样本数据为1个，且右孩子节点中的样本数据为1个，则将所有节点形成一棵树；

S105-5，重复执行S105-2至S105-4，直至形成第五预设数量棵树；

S105-6，将未作为样本数据的第二识别数据作为训练数据；

S105-7，确定每个训练数据位于每棵树中的节点；

S105-8，通过如下公式，确定每个第二识别数据的异常分数，并将每个第二识别数据的异常分数作为各openID的初始异常行为分析结果；

S(x,y)＝2^{E(h(x,y))/c(y)}；

可选地，S105之后，还包括：

S106-1，将每个openID及对应的第二特征组成的向量作为一个第二识别数据；

S106-2，通过如下公式计算每个第二识别数据的标准评分：

Score_x＝A-B*log(P_x/(1-P_x))；

S106-3，确定各openID的最终异常行为分析结果与对应标准评分之间的差；

S106-4，若存在差大于预设阈值的openID，则通过稀疏规则算子调整差大于预设阈值的openID的第一特征，再次执行S103、S104、S105、S106-1、S106-2、S106-3的步骤，直至不存在差大于预设阈值的openID；

其中，x为第二识别数据标识，Score_x为第二识别数据x的标准评分，A为补偿系数，B为刻度，P_x为第二识别数据x的异常行为发生概率；

A、B通过解如下方程得到：

本实施例提供的电子设备，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

基于同一发明构思，本实施例提供了一种计算机存储介质，其上存储有计算机程序所述程序被处理器执行时实现如下步骤。

S102，提取第一风控数据的特征，得到各openID的第一特征；

S102，包括：

对于任一openID，

将包含任一openID的第一风控数据确定为第二风控数据；

提取第二风控数据中不同useragent的总数量；

提取第二风控数据中不同IP地址的总数量；

提取第二风控数据中不同deviceID的总数量；

提取第二风控数据中不同订单标识的总数量；

根据第一风控数据的useragent，提取任一openID的设备信息；

确定第二风控数据的最早事件发生时间t_i1；

获取模拟用户的第三风控数据；

计算注册平均用时

任一openID对应的均值标准差

可选地，useragent包括至少一个词条；

将第一风控数据分为第一预设数量份；

通过下式计算各风控数据useragent包括的各词条的词频：

通过下式计算各风控数据的权重：

可选地，S103，包括：

任选一个第一识别数据；

可选地，S105，包括：

S105-5，重复执行S105-2至S105-4，直至形成第五预设数量棵树；

S105-6，将未作为样本数据的第二识别数据作为训练数据；

S105-7，确定每个训练数据位于每棵树中的节点；

S(x,y)＝2^{E(h(x,y))/c(y)}；

可选地，S105之后，还包括：

S106-2，通过如下公式计算每个第二识别数据的标准评分：

Score_x＝A-B*log(P_x/(1-P_x))；

A、B通过解如下方程得到：

本实施例提供的计算机存储介质，根据用户标识openID对风控数据进行特征提取，得到各openID的特征，再对各openID的特征进行首次异常行为识别，并将分析结果作为新特征加入openID特征中，再对加入后的openID特征进行再次异常行为识别，得到最终的识别结果，本申请分析的风控数据不再基于发现问题再回溯源数据确定异常行为，而是基于数据本身确定异常行为，可以进行及时反馈，避免造成损失。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种异常行为分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述风控数据中的字段还包括：登陆账号account_name、品牌、浏览器指纹标识、手机号码、cookie标识、优惠券名称、风控事件类型、IP地址、订单标识、订单商品金额、下单渠道、收货地址、用户代理useragent、事件发生时间、令牌标识Tokenid、设备是否为虚拟机的标识、设备标识deviceID、登录是否成功的标识、是否被退单的标识；

所述S102，包括：

对于任一openID，

将包含所述任一openID的第一风控数据确定为第二风控数据；

提取所述第二风控数据中不同useragent的总数量；

提取所述第二风控数据中不同IP地址的总数量；

提取所述第二风控数据中不同deviceID的总数量；

根据所述第二风控数据的IP地址和登录是否成功的标识，提取所述任一openID的登录成功总次数和登录失败总次数；

提取所述第二风控数据中不同订单标识的总数量；

根据所述第二风控数据的是否被退单的标识，提取所述任一openID的退单总数量；

根据所述第二风控数据的事件发生时间，提取所述任一openID的活跃总天数；

根据所述第二风控数据的风控事件类型，提取所述任一openID触发每类风控规则的数量；

根据所述第二风控数据的手机号码，提取所述任一openID的手机注册省和手机注册市；

根据所述第二风控数据的风控事件类型，提取所述任一openID触发风控事件的总数量；

根据所述第二风控数据的事件发生时间，提取所述任一openID的均值标准差；

根据所述第二风控数据的deviceID和Tokenid，提取所述任一openID各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量；

根据所述第一风控数据的useragent，提取所述任一openID的设备信息；

将所述第二风控数据中的所有字段、不同useragent的总数量、不同IP地址的总数量、不同deviceID的总数量、登录成功总次数、登录失败总次数、不同订单标识的总数量、退单总数量、活跃总天数、触发每类风控规则的数量、手机注册省、手机注册市、触发风控事件的总数量、均值标准差、各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量、设备信息均作为所述任一openID的第一特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二风控数据的事件发生时间，提取所述任一openID的均值标准差，包括：

确定第二风控数据的最早事件发生时间t_i1；

获取模拟用户的第三风控数据；

计算注册平均用时

所述任一openID对应的均值标准差

4.根据权利要求2所述的方法，其特征在于，所述根据所述第二风控数据的deviceID和Tokenid，提取所述任一openID各日不同deviceID总数量、各日不同Tokenid总数量、各周不同deviceID总数量、各周不同Tokenid总数量、各月不同deviceID总数量、各月不同Tokenid总数量，包括：

根据所述第二风控数据的事件发生时间，确定所述第二风控数据中距当前日期的最近日；

在所述第二风控数据中，以1日为时间窗口，以1日为滑动步长，从所述最近日开始每隔所述滑动步长，获取一次满足所述时间窗口的风控数据，将获取的满足所述时间窗口的风控数据确定为第四风控数据；

根据每个第四风控数据中不同deviceID总数量，确定所述任一openID的各日不同deviceID总数量；

根据每个第四风控数据中不同Tokenid总数量，确定所述任一openID的各日不同Tokenid总数量；

在所述第二风控数据中，以1日为时间窗口，以7日为滑动步长，从所述最早日开始每隔所述滑动步长，获取一次满足所述时间窗口的风控数据，将获取的满足所述时间窗口的风控数据确定为第五风控数据；

根据每个第五风控数据中不同deviceID总数量，确定所述任一openID的各周不同deviceID总数量；

根据每个第五风控数据中不同Tokenid总数量，确定所述任一openID的各周不同Tokenid总数量；

在所述第二风控数据中，以1日为时间窗口，以30日为滑动步长，从所述最早日开始每隔所述滑动步长，获取一次满足所述时间窗口的风控数据，将获取的满足所述时间窗口的风控数据确定为第六风控数据；

根据每个第六风控数据中不同deviceID总数量，确定所述任一openID的各月不同deviceID总数量；

根据每个第六风控数据中不同Tokenid总数量，确定所述任一openID的各月不同Tokenid总数量。

5.根据权利要求2所述的方法，其特征在于，所述useragent包括至少一个词条；

所述根据所述第一风控数据的useragent，提取所述任一openID的设备信息，包括：

将所述第一风控数据分为第一预设数量份；

通过下式计算各风控数据useragent包括的各词条的词频：

通过下式计算各风控数据的权重：

根据所述第二风控数据的所属类别，确定所述任一openID对应的设备信息；

6.根据权利要求1所述的方法，其特征在于，所述S103，包括：

任选一个第一识别数据；

确定除所述任选的第一识别数据外的其他第一识别数据与所述任选的第一识别数据之间的第一距离；

按第一距离从小到大将除所述任选的第一识别数据外的其他第一识别数据排序，得到第一序列；

将所述第一序列中，依次选择满足动态阈值的第一识别数据作为核心对象，加入核心对象集合，所述核心对象集合的初始值为空；

7.根据权利要求1所述的方法，其特征在于，所述S105，包括：

S105-3，产生随机数O，基于所述O将根节点中的样本数据分为2类，1类放入根节点的左孩子节点，1类放入根节点的右孩子节点；

S105-5，重复执行S105-2至S105-4，直至形成第五预设数量棵树；

S105-6，将未作为样本数据的第二识别数据作为训练数据；

S105-7，确定每个训练数据位于每棵树中的节点；

S(x,y)＝2^{E(h(x,y))/c(y)}；

8.根据权利要求1至7任一权利要求所述的方法，其特征在于，所述S105之后，还包括：

S106-2，通过如下公式计算每个第二识别数据的标准评分：

Score_x＝A-B*log(P_x/(1-P_x))；

A、B通过解如下方程得到：

9.一种电子设备，其特征在于，所述电子设备包括：显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行权利要求1-8中任一所述方法中各个步骤的指令。

10.一种计算机程序产品，所述计算机程序产品对用于执行一种过程的指令进行编码，所述过程包括根据权利要求1-8中任一项所述的方法。