CN111340574B

CN111340574B - 风险用户的识别方法、装置和电子设备

Info

Publication number: CN111340574B
Application number: CN202010413438.8A
Authority: CN
Inventors: 徐健乔; 李成泽; 杨斌; 冯陈澄
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-25
Anticipated expiration: 2040-05-15
Also published as: CN111340574A

Abstract

本说明书实施例提出了一种风险用户的识别方法、装置和电子设备，其中，上述风险用户的识别方法中，第三方支付平台的服务器获取第三方支付平台的用户数据之后，可以将上述用户数据切分为字符串，获得预处理数据，然后获取当前时刻之前第一预定时长和第二预定时长的预处理数据，进而生成第一转移概率矩阵，以及生成第二转移概率矩阵，然后，获取第二预定时长的预处理数据中目标用户的预处理数据，进而根据上述第一转移概率矩阵计算上述目标用户的第一转移概率，以及根据上述第二转移概率矩阵，计算上述目标用户的第二转移概率，最后，根据第一转移概率与第二转移概率，获得目标用户是否为风险用户的识别结果。

Description

风险用户的识别方法、装置和电子设备

技术领域

本说明书实施例涉及人工智能技术领域，尤其涉及一种风险用户的识别方法、装置和电子设备。

背景技术

第三方支付平台每年将大量的资金投入营销策略中，而营销策略中人传人拉新模式又是重要的拉新手段。以拉新人为例，发出邀请的用户（简称邀请者），每邀请一个好友，该好友可以获得被邀请人奖励，在该好友完成实名认证之后，邀请者可获得邀请人奖励。在这样的活动规则下，某些恶意邀请者可能批量寻找可用身份，邀请这些身份注册账号，从而获取邀请人奖励与被邀请人奖励。

在实际的活动运营中，发现有恶意邀请者去线下农村等地区，邀请当地留守老人批量注册第三方支付平台的账号，获取邀请人奖励和被邀请人奖励，然后给予留守老人一些低价的米面油作为奖品。这些老人仅提供身份和认证信息换取恶意邀请者的奖品，对第三方支付平台并无感知；新注册的账号也很容易落入恶意邀请者手中，被转卖或被用于一些恶意行为。

在这样的情况下，由于恶意邀请者是去线下某个村镇批量邀请注册，因此第三方支付平台经常发现某个身份证号段、银行卡号段和/或手机号段被邀请的注册量陡增。

基于以上问题，需要提供一种对恶意邀请者进行识别的方案。

发明内容

本说明书实施例提供了一种风险用户的识别方法、装置和电子设备，以实现对风险用户进行识别，提高风险防控能力。

第一方面，本说明书实施例提供一种风险用户的识别方法，包括：

获取第三方支付平台的用户数据，所述用户数据包括被邀请注册所述第三方支付平台账号的用户数据；

将所述用户数据切分为字符串，获得预处理数据；

获取当前时刻之前第一预定时长和第二预定时长的预处理数据；

根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵；

获取所述第二预定时长的预处理数据中目标用户的预处理数据；

根据所述第一转移概率矩阵，计算所述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第一转移概率；以及根据所述第二转移概率矩阵，计算所述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第二转移概率；

根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果。

上述风险用户的识别方法中，第三方支付平台的服务器获取第三方支付平台的用户数据之后，可以将上述用户数据切分为字符串，获得预处理数据，然后获取当前时刻之前第一预定时长和第二预定时长的预处理数据，进而根据上述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据上述第二预定时长的预处理数据生成第二转移概率矩阵，然后，获取第二预定时长的预处理数据中目标用户的预处理数据，进而根据上述第一转移概率矩阵计算上述目标用户的第一转移概率，以及根据上述第二转移概率矩阵，计算上述目标用户的第二转移概率，最后，根据第一转移概率与第二转移概率，获得目标用户是否为风险用户的识别结果。从而可以实现对风险用户进行识别，提高风险防控能力，并且通过转移概率的对比进行风险用户的识别，可以有效利用数据之间的关联信息，减少号段内样本太少导致的误报或信息损失，使用较少量的数据即可进行异常检测，减少了识别的时效延迟。

其中一种可能实现方式中，所述将所述用户数据切分为字符串，获得预处理数据包括：

根据所述用户数据中每个号段的含义，将所述用户数据切分为字符串，获得预处理数据。

其中一种可能实现方式中，所述根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵包括：

根据所述第一预定时长的预处理数据所包括的用户数量，顺序计算所述第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据所述第二预定时长的预处理数据所包括的用户数量，顺序计算所述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵。

其中一种可能的实现方式中，所述根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果包括：

根据所述第一转移概率与所述第二转移概率，确定所述目标用户的概率异常得分；

如果所述目标用户的概率异常得分大于或等于预定的第一阈值，则确定所述目标用户为风险用户；

如果所述目标用户的概率异常得分小于所述第一阈值，则确定所述目标用户不是风险用户。

其中一种可能的实现方式中，所述根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果之后，还包括：

当确定所述目标用户为风险用户时，如果再次接收到所述目标用户的活动咨询请求，则对所述目标用户进行二次校验，以确定所述目标用户的身份的真实性。

其中一种可能的实现方式中，所述根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵之后，还包括：

获取所述第二预定时长的预处理数据中的目标预处理数据所属的目标数据段；

根据所述第一转移概率矩阵，计算所述目标数据段所包括的字符串从当前字符串到下一个字符串的第三转移概率；以及根据所述第二转移概率矩阵，计算所述目标数据段所包括的字符串从当前字符串到下一个字符串的第四转移概率；

根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果。

其中一种可能的实现方式中，所述根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果包括：

将所述第四转移概率除以所述第三转移概率，获得对应的商值；

如果所述商值大于或等于预定的第二阈值，则确定所述目标数据段为风险数据段；

如果所述商值小于所述第二阈值，则确定所述目标数据段不是风险数据段。

其中一种可能的实现方式中，所述根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果之后，还包括：

如果确定所述目标数据段为风险数据段，则当注册所述第三方支付平台账号的新用户数据包括所述目标数据段时，对所述新用户进行认证等级高于预定级别的身份认证。

第二方面，本说明书实施例提供一种风险用户的检测装置，包括：

获取模块，用于获取第三方支付平台的用户数据，所述用户数据包括被邀请注册所述第三方支付平台账号的用户数据；

切分模块，用于将所述用户数据切分为字符串，获得预处理数据；

所述获取模块，还用于获取当前时刻之前第一预定时长和第二预定时长的预处理数据；

生成模块，用于根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵；

所述获取模块，还用于获取所述第二预定时长的预处理数据中目标用户的预处理数据；

计算模块，用于根据所述第一转移概率矩阵，计算所述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第一转移概率；以及根据所述第二转移概率矩阵，计算所述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第二转移概率；

识别模块，用于根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果。

其中一种可能的实现方式中，所述切分模块，具体用于根据所述用户数据中每个号段的含义，将所述用户数据切分为字符串，获得预处理数据。

其中一种可能的实现方式中，所述计算模块，具体用于根据所述第一预定时长的预处理数据所包括的用户数量，顺序计算所述第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据所述第二预定时长的预处理数据所包括的用户数量，顺序计算所述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵。

其中一种可能的实现方式中，所述识别模块包括：

得分确定子模块，用于根据所述第一转移概率与所述第二转移概率，确定所述目标用户的概率异常得分；

风险用户确定子模块，用于当所述目标用户的概率异常得分大于或等于预定的第一阈值时，确定所述目标用户为风险用户；当所述目标用户的概率异常得分小于所述第一阈值时，则确定所述目标用户不是风险用户。

其中一种可能的实现方式中，还包括：

校验模块，用于在所述识别模块获得所述目标用户是否为风险用户的识别结果之后，当所述识别模块确定所述目标用户为风险用户时，如果再次接收到所述目标用户的活动咨询请求，则对所述目标用户进行二次校验，以确定所述目标用户的身份的真实性。

其中一种可能的实现方式中，所述获取模块，还用于在所述生成模块根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵之后，获取所述第二预定时长的预处理数据中的目标预处理数据所属的目标数据段；

所述计算模块，还用于根据所述第一转移概率矩阵，计算所述目标数据段所包括的字符串从当前字符串到下一个字符串的第三转移概率；以及根据所述第二转移概率矩阵，计算所述目标数据段所包括的字符串从当前字符串到下一个字符串的第四转移概率；

所述识别模块，还用于根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果。

其中一种可能的实现方式中，所述识别模块包括：

商值计算子模块，用于将所述第四转移概率除以所述第三转移概率，获得对应的商值；

风险数据段确定子模块，用于当所述商值大于或等于预定的第二阈值时，确定所述目标数据段为风险数据段；当所述商值小于所述第二阈值时，确定所述目标数据段不是风险数据段。

其中一种可能的实现方式中，所述装置还包括：

校验模块，用于在所述识别模块根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果之后，当所述识别模块确定所述目标数据段为风险数据段时，如果注册所述第三方支付平台账号的新用户数据包括所述目标数据段，则对所述新用户进行认证等级高于预定级别的身份认证。

第三方面，本说明书实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面提供的方法。

第四方面，本说明书实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的方法。

应当理解的是，本说明书实施例的第二~四方面与本说明书实施例的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书风险用户的识别方法一个实施例的流程图；

图2为本说明书风险用户的识别方法另一个实施例的流程图；

图3为本说明书风险用户的识别方法再一个实施例的流程图；

图4为本说明书一个实施例中转移概率矩阵的生成方式的示意图；

图5为本说明书风险用户的识别方法再一个实施例的流程图；

图6为本说明书风险用户的识别方法再一个实施例的流程图；

图7为本说明书风险用户的识别方法再一个实施例的流程图；

图8为本说明书实施例提供的风险用户的识别方法的应用场景的示意图；

图9为本说明书风险用户的识别方法再一个实施例的实现示意图；

图10为本说明书风险用户的检测装置一个实施例的结构示意图；

图11为本说明书风险用户的检测装置另一个实施例的结构示意图；

图12为本说明书电子设备一个实施例的结构示意图。

具体实施方式

为了更好的理解本说明书的技术方案，下面结合附图对本说明书实施例进行详细描述。

应当明确，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本说明书保护的范围。

在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

现有相关技术中，第三方支付平台每年将大量的资金投入营销策略中，而营销策略中人传人拉新模式又是重要的拉新手段。以拉新人为例，发出邀请的用户（简称邀请者），每邀请一个好友，该好友可以获得被邀请人奖励，在该好友完成实名认证之后，邀请者可获得邀请人奖励。在这样的活动规则下，某些恶意邀请者可能批量寻找可用身份，邀请这些身份注册账号，从而获取邀请人奖励与被邀请人奖励。

在实际的活动运营中，发现有恶意邀请者去线下农村等地区，邀请当地留守老人批量注册第三方支付平台的账号，获取邀请人奖励和被邀请人奖励，在这样的情况下，由于恶意邀请者是去线下某个村镇批量邀请注册，因此第三方支付平台经常发现某个身份证号段、银行卡号段和/或手机号段被邀请的注册量陡增。

目前识别注册量异常突增的方式，主要是固定号段量级突增的识别方式：比如基于身份证号前6或前8位，监控注册量级，如果发现注册量级突增则进行识别。

但是，上述识别方式中，由于号段间是没有关联的，这导致两个重要的缺陷：

1、在部分案例中，一些连号段会出现共同上涨的现象，上述识别方式对于这种现象无法有效识别；

2、部分号段的注册量级很小，很容易出现正常波动误处罚，或者识别不到的现象。比如某个身份证号段平日注册量级仅2个/天，当涨到10个/天便已经上涨五倍，对于这种情况策略上只能忽略这类号段的信息，从而造成信息损失。

基于以上问题，本说明书实施例提供一种风险用户的识别方法，将单独号段的对比，转化为一个转移概率间的对比。本说明书实施例提供的风险用户的识别方法，首先增强了数据间的关联性，比如当000、001和002这3个号段的注册量均有上涨，现有相关技术中的识别方式仅能将其看作没有关系的3个单独号段中的注册量增长，而本说明书实施例提供的风险用户的识别方法则会认为0->0–>*的转移概率整体上涨，有效利用了数据之间的关联信息，符合业务假设。其次，本说明书实施例提供的风险用户的识别方法可以将000、001和002号段的信息一起运算，减少了号段内样本太少导致的误报或信息损失，因此可以实现使用较少量的数据进行异常检测，减少识别的时效延迟。

图1为本说明书风险用户的识别方法一个实施例的流程图，如图1所示，上述风险用户的识别方法可以包括：

步骤102，获取第三方支付平台的用户数据，上述用户数据包括被邀请注册上述第三方支付平台账号的用户数据。

本实施例中，当一个用户被邀请注册第三方支付平台的账号时，需要接受邀请、注册和完成实名认证才能拿到被邀请人奖励，同时邀请者才能获得邀请人奖励。这样，上述用户数据可以包括以下之一或组合：

1）注册阶段用户使用的设备信息、用户识别模块（subscriber identity module，SIM）卡串号、设备的国际移动设备识别码（international mobile equipment identity，IMEI）串号、客户端版本号、用户使用的手机或邮箱信息；

2）认证阶段用户绑定的银行卡号；

3）参与活动阶段的活动信息、时间和/或邀请人信息等。

步骤104，将上述用户数据切分为字符串，获得预处理数据。

具体地，可以按照上述用户数据中具有特定含义的号段，将上述用户数据切分为字符串，获得预处理数据。

步骤106，获取当前时刻之前第一预定时长和第二预定时长的预处理数据,。

具体地，第一预定时长和第二预定时长的长短可以在具体实现时自行设定，本实施例对第一预定时长和第二预定时长的长短不作限定。举例来说，当前时刻之前的第一预定时长可以为当天之前的7天，当前时刻之前的第二预定时长可以为当前时刻之前的1小时。

步骤108，根据上述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据上述第二预定时长的预处理数据生成第二转移概率矩阵。

步骤110，获取上述第二预定时长的预处理数据中目标用户的预处理数据。

具体地，上述目标用户可以为在第二预定时长中被邀请注册第三方支付平台的账号的用户。

步骤112，根据上述第一转移概率矩阵，计算上述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第一转移概率；以及根据上述第二转移概率矩阵，计算上述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第二转移概率。

具体地，以上述目标用户的预处理数据为身份证号为例，假设上述目标用户的身份证号包括的字符串为“43->01->05->mid_age->男”，那么可以根据第一转移概率矩阵获得从“43”到“01”的概率，从“01”到“05”的概率，从“05”到“mid_age”的概率，以及从“mid_age”到“男”的概率，然后将上述每一步转移的概率相乘，即可获得第一转移概率。

同理，可以根据第二转移概率矩阵获得上述每一步转移的概率，然后将每一步转移的概率相乘，即可获得第二转移概率。

步骤114，根据上述第一转移概率与上述第二转移概率，获得上述目标用户是否为风险用户的识别结果。

图2为本说明书风险用户的识别方法另一个实施例的流程图，如图2所示，本说明书图1所示实施例中，步骤104可以为：

步骤202，根据上述用户数据中每个号段的含义，将上述用户数据切分为字符串，获得预处理数据。

具体地，一般情况下，用户数据中，例如：身份证号、手机号或银行卡号，每个号段都有自身的含义，因此可以根据上述用户数据中每个号段的含义，将用户数据切分为字符串，获得预处理数据。举例来说，以身份证号为例，43010519800112****按照每个号段的含义经过处理后，获得的字符串为43->01->05->mid_age，号段含义依次为某个省->市->区->年龄。

图3为本说明书风险用户的识别方法再一个实施例的流程图，如图3所示，本说明书图1所示实施例中，步骤108可以为：

步骤302，根据上述第一预定时长的预处理数据所包括的用户数量，顺序计算上述第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据上述第二预定时长的预处理数据所包括的用户数量，顺序计算上述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵。

具体地，上述第一预定时长的预处理数据所包括的用户数量为上述第一预定时长内被邀请注册第三方支付平台的账号的用户数量；上述第二预定时长的预处理数据所包括的用户数量为上述第二预定时长内被邀请注册第三方支付平台的账号的用户数量。

具体地，上述第一转移概率矩阵和第二转移概率矩阵，可以利用马尔科夫链的算法进行计算。

马尔可夫链因俄国数学家安德烈·马尔可夫得名，为状态空间中从一个状态到另一个状态转换的随机过程。在马尔可夫链的每一步，系统根据概率分布，可以从一个状态转换到另一个状态，也可以保持当前状态。状态的转换叫做转移，与不同的状态转换相关的概率叫做转移概率。假设序列状态是…，Xt−2，Xt−1，Xt，Xt+1，…那么在时刻Xt+1的状态的条件概率仅仅依赖于时刻Xt，即：

P（Xt+1|…，Xt−2，Xt−1，Xt）= P（Xt+1|Xt）

假若只有3个状态，每个状态转移至下一状态的概率可以如图4所示，通过矩阵的方式记录上述状态之间的转移概率，即为转移概率矩阵，图4为本说明书一个实施例中转移概率矩阵的生成方式的示意图。

图5为本说明书风险用户的识别方法再一个实施例的流程图，如图5所示，本说明书图1所示实施例中，步骤114可以包括：

步骤502，根据上述第一转移概率与上述第二转移概率，确定上述目标用户的概率异常得分。然后执行步骤504或步骤506。

具体地，可以针对目标用户的预处理数据中每种类型的数据，包括手机号、身份证号、银行卡号和/或设备SIM卡号等，计算每种类型的数据的第一转移概率与第二转移概率，然后比对每种类型的数据的第一转移概率与第二转移概率，获得上述目标用户的概率异常得分。

步骤504，如果上述目标用户的概率异常得分大于或等于预定的第一阈值，则确定上述目标用户为风险用户。然后执行步骤508。

其中，第一阈值可以在具体实现时自行设定，本实施例对第一阈值的大小不作限定。

步骤506，如果上述目标用户的概率异常得分小于第一阈值，则确定上述目标用户不是风险用户。本次流程结束。

步骤508，当确定上述目标用户为风险用户时，如果再次接收到上述目标用户的活动咨询请求，则对上述目标用户进行二次校验，以确定上述目标用户的身份的真实性。

具体地，当确定上述目标用户为风险用户时，如果再次接收到上述目标用户的活动咨询请求，第三方支付平台的服务器可以要求上述目标用户进行二次校验，例如，再次通过人脸校验的方式，确认上述目标用户身份的真实性。

图6为本说明书风险用户的识别方法再一个实施例的流程图，如图6所示，本说明书图1所示实施例中，步骤108之后，还可以包括：

步骤602，获取上述第二预定时长的预处理数据中的目标预处理数据所属的目标数据段。

举例来说，假设第二预定时长的预处理数据中的目标预处理数据为“43->01->05->mid_age->男”，那么该目标预处理数据所属的目标数据段为“43->01->05”。

步骤604，根据上述第一转移概率矩阵，计算上述目标数据段所包括的字符串从当前字符串到下一个字符串的第三转移概率；以及根据上述第二转移概率矩阵，计算上述目标数据段所包括的字符串从当前字符串到下一个字符串的第四转移概率。

步骤606，根据上述第三转移概率与上述第四转移概率，获得上述目标数据段是否为风险数据段的识别结果。

本实施例中，步骤602~步骤606与步骤110~步骤114可以并行执行，也可以先后执行，本实施例对步骤602~步骤606与步骤110~步骤114的执行顺序不作限定。

图7为本说明书风险用户的识别方法再一个实施例的流程图，如图7所示，本说明书图6所示实施例中，步骤606可以包括：

步骤702，将上述第四转移概率除以上述第三转移概率，获得对应的商值。然后执行步骤704或步骤706。

步骤704，如果上述商值大于或等于预定的第二阈值，则确定上述目标数据段为风险数据段。

其中，第二阈值可以在具体实现时自行设定，本实施例对第二阈值的大小不作限定。

步骤706，如果上述商值小于第二阈值，则确定上述目标数据段不是风险数据段。

也就是说，如果第二预定时长内目标数据段的出现概率相比第一预定时长内的出现概率升高的倍数大于或等于第二阈值，则确定上述目标数据段为风险数据段。

进一步地，步骤704之后，还可以包括：

步骤708，如果确定上述目标数据段为风险数据段，则当注册第三方支付平台账号的新用户数据包括上述目标数据段时，对上述新用户进行认证等级高于预定级别的身份认证。

其中，上述预定级别可以在具体实现时自行设定，本实施例对上述预定级别不作限定，举例来说，上述预定级别可以为银行卡号认证，这样，高于预定级别的身份认证可以为人脸校验。

也就是说，当确定上述目标数据段为风险数据段时，第三方支付平台的服务器可以对上述风险数据段注册进来的新用户升级认证等级。

图8为本说明书实施例提供的风险用户的识别方法的应用场景的示意图，如图8所示，为了促进业务发展，第三方支付平台尝试通过人传人的方式拉新，用户邀请其他人注册第三方支付平台的账号，被邀请者注册且实名认证后，邀请者和被邀请者均可获得奖励。这种情况下，恶意邀请者为了获得人传人奖励，通过线下扫村的方式，通过赠送洗衣液和/或小米等诱骗老人注册第三方支付平台的账号。在这个过程中，老人有可能对第三方支付平台无感知，操作的手机号、设备和/或银行卡等也可能由恶意邀请者提供。新注册的账号也很容易落入恶意邀请者手中，被事后转卖或用于赌博、刷单等恶意行为。

本说明书实施例提供的风险用户的识别方法综合注册、认证和/或参与活动的用户数据，提供准实时的风险防控能力。在识别作弊场景，通过识别异常突增的身份证号、手机号和/或银行卡号等，要求风险数据段注册进来的用户升级认证级别，才能获得相应的营销奖励。另外，对于识别出的风险用户，可以采取风险入库的形式，当前主要以风险用户再次进行活动咨询时，要求风险用户进行二次校验，比如再次通过人脸校验的方式，确认风险用户身份的真实性。

在数据表现上，恶意邀请者在某个区域通过人传人的方式拉新，导致第三支付平台在该区域的用户注册量飙升，这部分新注册用户使用相似的设备、手机号和/或银行卡号等。原有的号段突增识别方案，只能针对某个号段进行检测，而该区域的新注册用户可能是手机号和/或银行卡号的相连的几个号段同时上涨。利用马尔可夫的思想，这种变化可以看做是某种字符链的出现概率增加，在数学表达上认为成一串转移概率的出现比例增加。

以身份证号为例，身份证号由省、市、区、年龄和其他等信息组成，在正常情况下来自某个地区的参与活动的用户是一个较为稳定的比例。在数据上的表现，身份证号的某个号段出现的概率是稳定的。当恶意邀请者进行恶意拉新时，由于某个省->市->区->年龄->其他每一步转移概率均增加，导致这个身份证号段出现的概率明显高于平时。本说明书实施例提供的风险用户的识别方法中，可以使用当天以前7天的用户数据用于转移矩阵的计算，当前时刻之前1小时的用户数据用于识别风险用户和风险数据段。

本说明书实施例提供的风险用户的识别方法可以由数据整合、分布式计算和本地计算综合输出这三部分组成。由于第三方支付平台的用户众多，注册和参与活动的用户的数量巨大，计算任务无法在单一机器上完成，所以本说明书实施例采取分布式计算本地节点整合的模式。字符串的转移概率使用分布式计算完成，再将转移概率的计算结果传递给本地节点进行拼接和突增异常检测。图9为本说明书风险用户的识别方法再一个实施例的实现示意图，参见图9，实现上述风险用户的识别方法的系统架构包括数据层、分布式计算层、本地计算层和应用层。

数据层用于进行数据整合：当一个用户被邀请注册第三方支付平台的账号时，需要接受邀请、注册和完成实名认证才能拿到被邀请人奖励，同时邀请者获得邀请人奖励。数据层需要在多个状态获取相关数据并整合至用户标识维度，整合获得的用户数据可以包括以下之一或组合：

1）注册阶段用户使用的设备信息、SIM卡串号、设备的IMEI串号、客户端版本号、用户使用的手机或邮箱信息；

2）认证阶段用户绑定的银行卡号；

3）参与活动阶段的活动信息、时间和/或邀请人信息等。

分布式计算层用于进行数据预处理和计算转移概率：

数据预处理：将用户数据切分为字符串，获得预处理数据。以身份证号为例，假设用户的身份证号为“43010519800112****”，那么可以按照省->市->区->年龄->其他的方式将上述身份证号切分为字符串，获得上述身份证号的预处理数据为“43->01->05->mid_age”。

计算转移概率：对于预处理数据，可以根据时间，将预处理数据切分为第一预定时长的预处理数据和第二预定时长的预处理数据。然后计算第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，以及计算上述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率。

本地计算层：根据第一预定时长的预处理数据计算出的转移概率生成第一转移概率矩阵；根据第二预定时长的预处理数据计算出的转移概率生成第二转移概率矩阵；存储第一转移概率矩阵和第二转移概率矩阵作为本地计算层的输出。

然后，一种实现方式中，获取上述第二预定时长的预处理数据中目标用户的预处理数据，根据上述第一转移概率矩阵，计算上述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第一转移概率；以及根据上述第二转移概率矩阵，计算上述目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第二转移概率。

另一种实现方式中，获取上述第二预定时长的预处理数据中的目标预处理数据所属的目标数据段，根据上述第一转移概率矩阵，计算上述目标数据段所包括的字符串从当前字符串到下一个字符串的第三转移概率；以及根据上述第二转移概率矩阵，计算上述目标数据段所包括的字符串从当前字符串到下一个字符串的第四转移概率。

应用输出层：以目标用户的维度进行判断，根据第一转移概率与第二转移概率，确定目标用户的概率异常得分，将概率异常得分与第一阈值进行比对，有两种结果：如果概率异常得分大于或者等于第一阈值，确定目标用户为风险用户。这样，如果再次接收到目标用户的活动咨询请求，则对目标用户进行二次校验例如再次通过人脸校验的方式，确认用户身份的真实性。而如果概率异常得分小于第一阈值，则确定目标用户不是风险用户。

以目标数据段的维度进行判断，可以将上述第四转移概率除以上述第三转移概率，获得对应的商值，将上述商值与第二阈值进行比对，有两种结果：

如果上述商值大于或者等于第二阈值，则确定目标数据段为风险数据段，该风险数据段注册进来的新用户要求升级认证等级；

如果上述商值小于第二阈值，则确定目标数据段不是风险数据段。

图9所示的系统架构可以采用读取模型或实时计算的方式部署，实际部署中为保障时效性和运算资源，采用模型读取的方式，每天仅更新一次过去7天的转移概率矩阵。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图10为本说明书风险用户的检测装置一个实施例的结构示意图，如图10所示，上述风险用户的检测装置可以包括：获取模块1001、切分模块1002、生成模块1003、计算模块1004和识别模块1005；

获取模块1001，用于获取第三方支付平台的用户数据，用户数据包括被邀请注册第三方支付平台账号的用户数据；

切分模块1002，用于将用户数据切分为字符串，获得预处理数据；

获取模块1001，还用于获取当前时刻之前第一预定时长和第二预定时长的预处理数据；

生成模块1003，用于根据第一预定时长的预处理数据生成第一转移概率矩阵，以及根据第二预定时长的预处理数据生成第二转移概率矩阵；

获取模块1001，还用于获取第二预定时长的预处理数据中目标用户的预处理数据；

计算模块1004，用于根据第一转移概率矩阵，计算目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第一转移概率；以及根据第二转移概率矩阵，计算目标用户的预处理数据所包括的字符串从当前字符串到下一个字符串的第二转移概率；

识别模块1005，用于根据第一转移概率与第二转移概率，获得目标用户是否为风险用户的识别结果。

图10所示实施例提供的风险用户的检测装置可用于执行本说明书图1所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图11为本说明书风险用户的检测装置另一个实施例的结构示意图，本实施例中，切分模块1002，具体用于根据用户数据中每个号段的含义，将用户数据切分为字符串，获得预处理数据。

计算模块1004，具体用于根据第一预定时长的预处理数据所包括的用户数量，顺序计算第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据第二预定时长的预处理数据所包括的用户数量，顺序计算第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵。

进一步地，识别模块1005还可以包括：

得分确定子模块10051，用于根据第一转移概率与第二转移概率，确定上述目标用户的概率异常得分；

风险用户确定子模块10052，用于当目标用户的概率异常得分大于或等于预定的第一阈值时，确定目标用户为风险用户；当目标用户的概率异常得分小于第一阈值时，则确定目标用户不是风险用户。

进一步地，上述风险用户的检测装置还可以包括：

校验模块1006，用于在识别模块1005获得目标用户是否为风险用户的识别结果之后，当识别模块1005确定目标用户为风险用户时，如果再次接收到目标用户的活动咨询请求，则对目标用户进行二次校验，以确定目标用户的身份的真实性。

本实施例中，获取模块1001，还用于在生成模块1003根据第一预定时长的预处理数据生成第一转移概率矩阵，以及根据第二预定时长的预处理数据生成第二转移概率矩阵之后，获取第二预定时长的预处理数据中的目标预处理数据所属的目标数据段；

计算模块1004，还用于根据第一转移概率矩阵，计算目标数据段所包括的字符串从当前字符串到下一个字符串的第三转移概率；以及根据第二转移概率矩阵，计算目标数据段所包括的字符串从当前字符串到下一个字符串的第四转移概率；

识别模块1005，还用于根据第三转移概率与第四转移概率，获得目标数据段是否为风险数据段的识别结果。

具体地，识别模块1005可以包括：

商值计算子模块10053，用于将第四转移概率除以第三转移概率，获得对应的商值；

风险数据段确定子模块10054，用于当商值大于或等于预定的第二阈值时，确定目标数据段为风险数据段；当商值小于所述第二阈值时，确定目标数据段不是风险数据段。

这时，校验模块1006，用于在识别模块1005根据所述第三转移概率与第四转移概率，获得目标数据段是否为风险数据段的识别结果之后，当识别模块1005确定目标数据段为风险数据段时，如果注册第三方支付平台账号的新用户数据包括目标数据段，则对新用户进行认证等级高于预定级别的身份认证。

图11所示实施例提供的风险用户的检测装置可用于执行本申请图1~图9所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图12为本说明书电子设备一个实施例的结构示意图，如图12所示，上述电子设备可以包括至少一个处理器；以及与上述处理器通信连接的至少一个存储器，其中：存储器存储有可被处理器执行的程序指令，上述处理器调用上述程序指令能够执行本说明书图1~图9所示实施例提供的风险用户的识别方法。

其中，上述电子设备可以为服务器，例如：普通的物理服务器或云服务器等，本实施例对上述电子设备的形式不作限定。

图12示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图12显示的电子设备仅仅是一个示例，不应对本说明书实施例的功能和使用范围带来任何限制。

如图12所示，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器410，通信接口420，存储器430，以及连接不同组件（包括存储器430、通信接口420和处理单元410）的通信总线440。

通信总线440表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，或者使用多种总线结构中的任意总线结构的局域总线。举例来说，通信总线440可以包括但不限于工业标准体系结构（industry standardarchitecture，ISA）总线，微通道体系结构（micro channel architecture，MAC）总线，增强型ISA总线、视频电子标准协会（video electronics standards association，VESA）局域总线以及外围组件互连（peripheral component interconnection，PCI）总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器430可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（random access memory，RAM）和/或高速缓存存储器。存储器430可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本说明书图1~图9所示实施例的功能。

具有一组（至少一个）程序模块的程序/实用工具，可以存储在存储器430中，这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书图1~图9所描述的实施例中的功能和/或方法。

处理器410通过运行存储在存储器430中的程序，从而执行各种功能应用以及数据处理，例如实现本说明书图1~图9所示实施例提供的风险用户的识别方法。

本说明书实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本说明书图1~图9所示实施例提供的风险用户的识别方法。

上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（read only memory，ROM）、可擦式可编程只读存储器（erasable programmable read onlymemory，EPROM）或闪存、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、射频（radio frequency，RF）等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（localarea network，LAN）或广域网（wide area network，WAN）连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本说明书的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本说明书的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要说明的是，本说明书实施例中所涉及的终端可以包括但不限于个人计算机（personal computer，PC）、个人数字助理（personal digital assistant，PDA）、无线手持设备、平板电脑（tablet computer）、手机、MP3播放器、MP4播放器等。

在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人计算机，服务器，或者网络装置等）或处理器（processor）执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM）、随机存取存储器（RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种风险用户的识别方法，包括：

将所述用户数据切分为字符串，获得预处理数据；

根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果；

其中，所述根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵包括：

根据所述第一预定时长的预处理数据所包括的用户数量，顺序计算所述第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据所述第二预定时长的预处理数据所包括的用户数量，顺序计算所述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵；

所述根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果包括：

2.根据权利要求1所述的方法，其中，所述将所述用户数据切分为字符串，获得预处理数据包括：

3.根据权利要求1所述的方法，其中，所述根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果之后，还包括：

4.根据权利要求1所述的方法，其中，所述根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵之后，还包括：

5.根据权利要求4所述的方法，其中，所述根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果包括：

6.根据权利要求4或5所述的方法，其中，所述根据所述第三转移概率与所述第四转移概率，获得所述目标数据段是否为风险数据段的识别结果之后，还包括：

7.一种风险用户的检测装置，包括：

识别模块，用于根据所述第一转移概率与所述第二转移概率，获得所述目标用户是否为风险用户的识别结果；

其中，所述计算模块，具体用于根据所述第一预定时长的预处理数据所包括的用户数量，顺序计算所述第一预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第一转移概率矩阵；以及根据所述第二预定时长的预处理数据所包括的用户数量，顺序计算所述第二预定时长的预处理数据中的字符串从当前字符串到下一个字符串的转移概率，并根据计算获得的转移概率生成第二转移概率矩阵；

所述识别模块包括：得分确定子模块，用于根据所述第一转移概率与所述第二转移概率，确定所述目标用户的概率异常得分；风险用户确定子模块，用于当所述目标用户的概率异常得分大于或等于预定的第一阈值时，确定所述目标用户为风险用户；当所述目标用户的概率异常得分小于所述第一阈值时，则确定所述目标用户不是风险用户。

8.根据权利要求7所述的装置，其中，所述切分模块，具体用于根据所述用户数据中每个号段的含义，将所述用户数据切分为字符串，获得预处理数据。

9.根据权利要求7所述的装置，还包括：

10.根据权利要求7所述的装置，其中，

所述获取模块，还用于在所述生成模块根据所述第一预定时长的预处理数据生成第一转移概率矩阵，以及根据所述第二预定时长的预处理数据生成第二转移概率矩阵之后，获取所述第二预定时长的预处理数据中的目标预处理数据所属的目标数据段；

11.根据权利要求10所述的装置，其中，所述识别模块包括：

12.根据权利要求10或11所述的装置，还包括：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

14.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。