CN109598513A

CN109598513A - 一种风险识别方法和装置

Info

Publication number: CN109598513A
Application number: CN201811397332.2A
Authority: CN
Inventors: 李厚意; 曹绍升; 叶小萌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-04-09
Anticipated expiration: 2038-11-22
Also published as: CN109598513B

Abstract

本发明提供了一种风险识别方法和装置，其中，该方法包括：确定存量事件所属的群组和所述存量事件的事件标签；根据所述存量事件所属的群组和所述存量事件的事件标签，训练预设的分类器；根据训练得到的分类模型，确定待识别事件是否存在风险。

Description

一种风险识别方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种风险识别方法和装置。

背景技术

风险识别被广泛应用于各种业务场景。例如，反盗卡场景、反盗号场景、反欺诈场景和反垃圾小号注册场景等。在各个业务场景中，会产生一些事件。例如，在支付反盗用的场景中，存在支付事件、注册事件和登录事件等。

在风险识别过程中，常常需要根据已经发生的事件(存量事件)建立预测模型，并通过该预测模型确定待识别事件是否存在风险。

在此基础上，如何提高风险识别的准确性是技术人员比较关注的问题。

发明内容

鉴于此，本发明实施例提供了一种风险识别方法和装置，能够提高风险识别的准确性。

第一方面，本发明实施例提供了一种风险识别方法，包括：

确定存量事件所属的群组和所述存量事件的事件标签；

根据所述存量事件所属的群组和所述存量事件的事件标签，训练预设的分类器；

根据训练得到的分类模型，确定待识别事件是否存在风险。

第二方面，本发明实施例提供了一种风险识别装置，包括：

第一确定单元，用于确定存量事件所属的群组和所述存量事件的事件标签；

训练单元，用于根据所述存量事件所属的群组和所述存量事件的事件标签，训练预设的分类器；

第二确定单元，用于根据训练得到的分类模型，确定待识别事件是否存在风险。

本发明实施例采用的上述至少一个技术方案能够达到以下有益效果：该方法根据存量事件所属的群组训练分类器，将不同的存量事件关联起来，使分类器能够学习到群组的特征，进而从群组的角度识别出存量事件存在的风险。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种风险识别方法的流程图；

图2是本发明一个实施例提供的一个构图结果中的一个群组的结构示意图；

图3是本发明一个实施例提供的一个构图结果中的另一个群组的结构示意图；

图4是本发明另一个实施例提供的一种风险识别方法的流程图；

图5是本发明一个实施例提供的一种风险识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的风险识别是转化为二分类问题进行处理。即将存量事件的事件标签、存量事件的特征和存量事件所关联的介质特征输入分类器，使分类器进行有监督学习，得到分类模型，利用分类模型对待识别事件进行风险识别。

然而，有些存量事件孤立来看是一个正常的事件，而从群组角度看则存在风险。例如，一个用户买了一个20元的东西，从存量事件本身来说，该存量事件并不存在风险。但是，一群都是杭州的用户，都在相似的IP上，都用工商银行广州分行卡在相近的时间购买同一件商品，则可能存在风险。

鉴于此，本发明实施例提供了一种风险识别方法，如图1所示，该方法可以包括以下步骤：

步骤101：确定存量事件所属的群组和存量事件的事件标签。

事件标签在不同的应用场景中，可能存在不同的类型。

例如，在反盗用的场景中，存量事件为支付事件，这笔支付被人举报且经过校验核实，则这笔支付带有负标签；若这笔支付长期无人举报且经过校验核实，则这笔支付带有正标签。由上述内容可知，在反盗用的场景存在两种类型的事件标签，即正标签和负标签。在其他的应用场景中，事件标签还可以为“少年、青年、中年、老年”等。

存量事件指的是曾经已经发生的事件，可以仅包括一种事件，也可以包括多种事件。例如，在支付反盗用的场景中，存量事件可以仅包括支付事件，也可以同时包括支付事件、注册事件和登录事件。

上述确定存量事件所属的群组，具体包括：

a1：根据存量事件构图。

构图的目的是确定存量事件所属的群组。除了构图，还可以通过聚类的方式确定存量事件所属的群组。本发明实施例仅以构图为例，对该方法进行说明。

本发明实施例提供了以下三种构图方式：

构图方式1：利用事件信息构图。

根据存量事件构图，包括：

根据存量事件的事件信息，确定第一边权重和第一点；

根据第一边权重和第一点构图；其中，事件信息中包括：主体ID、客体ID、事件时间、事件类型、事件属性和事件结果中任意一种或多种。

利用事件构图是在站在事件的角度上来描述点和点之间的相似性，用事件将点和点之间关联起来。

本方法并不限制存量事件的格式，实际上在不同的应用场景存量事件的格式是可以不一样的。为了方便描述，存量事件一般可以抽象为表1。

表1不同应用场景下的存量事件

主体ID	客体ID	事件时间	事件类型	事件属性	事件结果
						用户1	商品1	2016/2/1	购买	金额299	成功
用户1	IP1、设备1	2016/1/1	登录	-	失败
						银行卡1	用户2	2015/10/3	转账/充值	金额500	成功

主体ID逻辑上是事件的发起方，客体ID逻辑上是事件的承受方。主体ID、客体ID都可以是多个ID。例如，在电商场景中，主体ID可以是用户ID，客体ID可以是商品ID，则购买事件可以描述为表1的第1行。如果某个用户在某一个设备或者IP上登录可以描述为表1的第2行。如果某一银行卡向某一个用户转账可以描述为表1的第3行。

在实际应用场景中，可以使用主体ID或客体ID为点，还可以使用主体ID和客体ID为点进行构图。当然，还可以采用事件类型等其他事件信息为点进行构图。

例如，针对上述的表1的第1行其构图方法可以是：以用户为第一点，若在半年内两个用户都购买过两个以上相同的商品，则将两个用户连接起来。第一边权重可以是两个用户购买过相同商品的个数，也可以是两个用户的相似度。其中，两个用户的相似度可以根据事件信息确定。

针对上述的表1的第1行其构图方法还可以是：以用户和商品为第一点，若用户在一年之内成功购买过这个商品则将用户和该商品连接起来。第一边权重的值是当前时间与用户最近一次购买该商品的时间差的倒数。

针对上述的表1的第2行其构图方法还可以是：以用户、设备、IP为第一点，若用户成功登陆，则将这笔登陆事件中涉及的用户、设备、IP两两连接起来。第一边权重可以是登录的次数。

针对上述的表1的第3行其构图方法还可以是：以用户、银行卡为第一点，若发生过成功的转账/充值，则将该用户和该银行卡连接起来。第一边权重可以是历史上所有转账金额之和。

综上，点i和点j之间的第一边权重可以写成如下的形式：

w_i，j(t)＝f(E_i(t)，E_j(t)，t)

其中，E_i(t)用于表征发生在时间t之前涉及到点i的所有事件，E_j(t)用于表征发生在时间t之前涉及到点j的所有事件，w_i，j(t)用于表征点i和点j之间的第一边权重。

当点i和点j之间的第一边权重只涉及点i和点j共同参与的事件时，第一边权重为：

w_i，j(t)＝f(E_ij(t)，t)

其中，E_ij(t)用于表征在时间t之前同时涉及到点i和点j的所有事件。

当不考虑时间因素时，第一边权重为：

w_i，j(t)＝f(E_ij(t))

在这种情况下，若[t，t+Δτ)这段时间内，没有同时涉及到点i和点j的事件发生，则有如下：

w_ij(t+Δτ)＝w_ij(t)

现以用户的登录事件为例，来描述一下如何依据事件信息进行构图。例如，在这种场景中采用的构图方法为：以用户、设备、IP为第一点，若用户成功登陆，则将这笔登录事件中涉及的用户、设备、IP两两连接起来。第一边权重为当前时间减去事件发生时间的天数加1的倒数之和，即：

其中E_ij(t)表示在时间t之前同时涉及到点i和点j的所有事件，d_t是当前时间，d_x是事件x发生时间。

表2为登录场景下的存量事件，其中，只涉及User1和User2两个用户的行为。按照上述的登录事件的构图方法得到的构图结果中包括图2和图3两个群组。具体地，应该加入点为：User1、Ip1、Device1、Ip2、Device2、User2、Ip3，后文中简称为U1、I1、D1、I2、D2、U2、I3。应该加入的边为：U1-I1、U1-D1、I1-D1、U1-I2、U1-D2、I2-D2、U2-I3。

表2登录场景下的存量事件

主体ID	客体ID	事件时间	事件类型	事件属性	事件结果
						User1	Ip1/Device1	2018/5/26	登录	-	成功
User1	Ip2/Device2	2018/5/27	登录	-	成功
						User1	Ip1/Device2	2018/5/29	登录	-	失败
User1	Ip2/Device2	2018/5/29	登录	-	成功
						User1	Ip2/Device2	2018/5/29	登录	-	成功
User2	Ip3/Device3	2018/5/29	登录	-	失败
						User2	Ip3/-	2018/5/29	登录	-	成功

假设是在2018年5月30日运行这个全量初始化的，那么这七条边的第一边权重分别为：

构图方式2：利用介质信息构图。

根据存量事件构图，包括：

根据存量事件的介质信息，确定第二边权重和第二点；

根据第二边权重和第二点构图；其中，介质信息中包括：介质种类、介质ID和介质属性中任意一种或多种。

利用介质信息来构图，是利用介质信息发掘介质和介质之间的相似度。该方法不限制介质描述的格式，实际上在不同的应用场景存量事件的格式是可以不一样的。

为了方便描述，存量事件一般可以抽象为表2。介质信息一般可以抽象为介质种类、介质ID、介质属性1、介质属性2...介质属性n。对于不同种类的介质可以有不同的属性。例如，用户、银行卡，支付时所用到的IP、设备，接受支付的卖家等可以视为不同种类的介质。

唯一能代表这些介质的ID，就被称作介质ID。例如，用户的身份证号、银行卡号、IP地址等。

对于用户这种介质而言，介质信息可以包括注册时间、注册邮箱、注册省份等等。对于银行卡而言，介质信息为开卡行、开卡时间、开卡身份证等。

表3存量事件的介质信息

介质种类	介质ID	属性1	属性2	属性3	属性4
						用户	账号	帐龄	会员等级	注册Email	昵称
银行卡	银行卡号	开户行	开卡时间
						IP	IP地址	所属地域
卖家	卖家账号	账龄	主营品种	所属地域

用介质来构图，可以是直接根据介质信息之间的相似性来将介质和介质相连。也可以将某一个介质信息抽取处理作为第二点，然后将介质和介质信息相连。

以下是几个用介质来构图的例子：

例1：以用户作为第二点，若两个用户的注册邮箱地址相似则将在两个用户之间连接一条边，第二边权重即为两个用户注册邮箱地址的相似度。可以采用如下的算法衡量注册邮箱地址之间的相似度：

S_ij＝f(em_i，em_j)

其中，S_ij用于表征用户i的注册邮箱地址和用户j的注册邮箱地址的相似度，em_i用于表征用户i的注册邮箱地址，em_j用于表征用户j的注册邮箱地址。上述构图过程可以重新描述为：以用户作为点，若两个用户的S_ij大于某个阈值则将在两个用户之间连接一条边，第二边权重即为S_ij。

例2：以银行卡和“开户行+开卡时间”为第二点，将银行卡和与其对应的“开户行+开卡时间”连接起来，第二边权重都为1。例如，某张银行卡是在2017年6月3日杭州西湖工商银行开户，则以这张银行卡、“2017年6月3日+杭州西湖工商银行”为点，则把这张银行卡和“2017年6月3日+杭州西湖工商银行”之间连接一条权重为1的边。

例3：以卖家、IP、地域为第二点，将卖家和卖家所属地连接起来、IP和IP所属地连接起立，第二边权重都为1。

构图方式3：利用事件信息和介质信息构图。

该构图方式就是将以上两种构图方式结合起来。例如，采用商家、银行卡、“开户行+开卡时间”为点，边权重为1进行构图。详细过程不再赘述。

在实际应用场景中，由于存在不同的构图方式，每一种构图方式又存在不同的构图方法，每一种结构方法对应一个构图结果。因此，存量事件可以对应多种构图结果。

需要说明的是，事件信息和介质信息是从不同的角度描述事件，并不意味着两者内容完全不重合。

不同的构图方法，意味着不同的相似维度。也就是说该方法可以从不同的角度确定事件与群组的关系，能够提高风险识别的准确性。

a2：根据构图的结果，确定存量事件所属的群组。

存量事件中包括：介质；

a2具体包括：

a21：根据构图的结果，确定介质所属的群组。

对于每一种构图方法，可以采用对应的社区发现方法，得到基于这种构图方法的社区划分，每一个社区即为一个群组。

例如，对于账号1来说，它在构图结果1中属于群组A，在构图结果2中属于群组B，在构图结果3中没有出现。对于账号2来说，它在构图结果1中没有出现，在构图结果2中属于群组B，在构图结果3中属于群组C。

也就是说，一个账号、银行卡或者其他介质在不同的构图结果中属于不同的群组，而不同的介质可以在同一构图结果中属于同一个群组。

a22：根据介质所属的群组，确定存量事件所属的群组。

一个存量事件可能包括多个不同的介质，可以通过求众数、为介质设置优先级等方式确定存量事件的群组。

例如，某一笔支付事件涉及到用户1、银行卡1、IP1。在构图结果1中，用户1属于群组A，银行卡1属于群组B，IP1属于群组A。那么这笔事件在构图结果1中属于群组A。

在构图结果2中不包括用户1、银行卡1，而包括IP1，其属于群组C。那么这笔事件在构图结果2中属于群组B。

步骤102：根据存量事件所属的群组和存量事件的事件标签，训练预设的分类器。

本发明实施例将分为以下三种情况对步骤102进行详细的说明。

情况1：利用存量事件的群组标签和存量事件的事件标签训练分类器。

步骤102具体包括：

b1：根据存量事件所属的群组，确定存量事件的群组标签；其中，存量事件的群组标签用于标识存量事件所属的群组。

其中，每一个群组都会有全局唯一的群组ID。

沿用上述A21中的例子，例如，构图结果1中的群组A的群组ID可以写作A1，构图结果2中的群组B的群组ID可以写作B2，构图结果3中的群组C的群组ID可以写作C3。此时，账号1的群组标签为A1，B2，空。账号1的群组标签为空，B2，C3。此时，每个介质都会得到N个群组标签，来表示这个介质在N种构图结果中的所属社区。若某一个介质不属于某种构图结果，则对于这种构图结果来说它的群组ID为空。

沿用上述A22中的例子，在构图结果1中，群组A的群组ID为A1，群组B的群组ID为B1。那么这笔事件在构图结果1中的群组标签为A1。在构图结果2中群组C的群组ID为C1。那么，这笔事件在构图结果2中的群组标签为C1。

b2：根据存量事件的群组标签和存量事件的事件标签，训练分类器。

以存量事件的群组标签和存量事件的事件标签为输入训练分类器，使分类器进行监督学习。

该方法通过群组标签将存量事件与群组相关联，能够发现存量事件的在群组层面的属性。例如，在群组A中90％成员具有负标签，如果待识别事件属于群组A，则说明其具有负标签的概率较大。通过该方法可以确定待识别事件在群组层面存在的风险。

情况2：利用存量事件的群组特征和存量事件的事件标签训练分类器。

步骤102具体包括：

c1：根据存量事件所属的群组，确定存量事件的群组特征；其中，存量事件的群组特征用于表征存量事件所属的群组内成员的统计特征。

每一个群组标签对应的群组，都有自身的一些属性，这些属性往往是这个群组成员的统计特征。例如，群组的成员个数、群组下所有的成员的近期总交易数等。

以三种构图方法(对应三种构图结果)为例，事件1在构图结果1中属于群组A1，A1的成员有10个，这10个成员在过去一个月里发生了29笔交易。那么事件1的群组特征可以表示为[10，29]。类似地，事件1可以获得在构图结果2、构图结果3中的群组特征。

c2：根据存量事件的群组特征和存量事件的事件标签，训练分类器。

以存量事件的群组特征和存量事件的事件标签为输出，训练分类器。

该方法通过群组特征在群组层面对事件进行描述，使得分类器能够发现事件存在的群组属性，能够确定待识别事件在群组层面存在的风险。

情况3：利用存量事件的事件标签、存量事件的介质特征、存量事件的群组标签和/或存量事件的群组特征训练分类器。

在情况3中，可以利用存量事件的事件标签、存量事件的介质特征和存量事件的群组标签，训练分类器；可以用存量事件的事件标签、存量事件的介质特征和存量事件的群组特征训练分类器；还可以用存量事件的事件标签、存量事件的介质特征、存量事件的群组标签和存量事件的群组特征训练分类器。

存量事件中包括：介质；

步骤102具体包括：

d1：确定介质的特征。

d2：根据介质的特征，确定存量事件的介质特征。

d3：根据存量事件所属的群组、存量事件的事件标签和存量事件的介质特征，训练分类器。

现以第一种介质为支付账户，第二种介质为银行卡，第三种介质为卖家的支付事件为例。

如表4所示，每一个事件都会得到3组特征。例如，事件1涉及到了用户1、银行卡1、卖家1，则用和用户1相关的这4样信息作为事件1的介质特征1，用银行卡1相关的这2种信息作为事件1的介质特征2，用和卖家1相关的这2种信息作为事件1的介质特征3。那么，事件1就获得了由8种信息组成的介质特征。

表4中所示的One-hot指的是One-hot向量，即这个向量中只有一个元素为1，其他为0，用来表示种类信息。例如，一共有34个省，若用户1属于第2个省份，那么该用户的用户省份ID就是一个长度为34，第二个元素为1，其他为元素为0的向量。

存量事件的介质特征可以包括不同介质的特征，而每个介质可以对应有各个不同方面的特征。在实际应用场景中，描述一种介质的多个特征被称作为特征组。若一个事件涉及到M种介质，则在本方案将得到M个特征组。

表4存量事件的介质特征

该方法使用的分类器是一个有监督、可训练的分类器，包括但不限于以下几种：逻辑回归、决策树、朴素贝叶斯、随机森林、GBM(Gradient Boosting Machine，梯度提升树算法)、XGBoost、Wide&Deep、深度神经网络等。

其中，损失函数可以为：

Loss＝L(y，y′)

一个存量事件可以写成[x₀，x₁，…，x_n，y]，一个待识别事件可以写成[x₀，x₁，…，x_n]，而一个分类函数可以写成：

y′＝f(x₀，x₁，…，x_n|w)

其中，w是分类函数的参数，在训练时会被不断调整。而在预测的时候参数是固定的。

步骤103：根据训练得到的分类模型，确定待识别事件是否存在风险。

步骤103具体包括：

e1：确定待识别事件所属的群组。

确定待识别事件所属的群组的方法与上述确定存量事件的方法是类似的，此处不再赘述。在实际应用场景中，确定待识别事件所属的群组需要依赖于存量事件所属的群组。例如，利用存量事件的构图结果，确定待识别事件所属的群组。但是，其确定过程与存量事件是类似的。

e2：根据待识别事件所属的群组和分类模型，确定待识别事件是否存在风险。

通过上述方法，可以确定待识别事件具有各类事件标签的概率，根据该概率，可以确定待识别事件是否存在风险。如上，存量事件的事件标签为正标签和负标签，则该方法可以确定待识别事件具有正标签的概率和具有负标签的概率。

在实际应用场景中，可以设置一个风险范围，通过比较风险范围和概率，确定待识别事件是否存在风险。例如，设置与负标签对应的风险范围为大于60％，当待识别事件具有负标签的概率为70％时，确定待识别事件存在风险。

该方法可以应用于不同的业务场景中，例如，在反盗号场景中，在用户登录的过程中，识别登录事件是否是盗号登录；在反盗用场景中，在用户支付、转账、发红包等事件中，识别支付事件是否盗用；在反垃圾小号注册场景中，在用户注册的过程中，识别注册事件是否是小号注册。将根据识别的结果判断拦截还是放过该事件。

对于反盗号场景来说，存量事件就是存量的登录事件中有标签的事件，待识别事件就是实时的用户登录事件。对于反盗用场景来说，存量事件就是存量的支付、转账、发红包事件中有标签的事件，待识别事件就是实时的用户支付、转账、发红包事件。对于反垃圾小号注册场景来说，存量事件就是存量的注册事件中有标签的事件，待识别事件就是实时的用户注册事件。

该方法根据存量事件所属的群组训练分类器，将不同的存量事件关联起来，使分类器能够学习到群组的特征，进而从群组的角度识别出存量事件存在的风险。

如图4所示，本发明提供了一种风险识别方法，该方法包括：

步骤401：获取存量事件，存量事件中包括：介质。

步骤402：确定存量事件的事件标签。

步骤403：根据存量事件的介质信息，确定第二边权重和第二点。

步骤404：根据第二边权重和第二点构图；其中，介质信息中包括：介质种类、介质ID和介质属性中任意一种或多种。

步骤405：根据构图的结果，确定介质所属的群组。

步骤406：根据介质所属的群组，确定存量事件所属的群组。

步骤407：根据存量事件所属的群组，确定存量事件的群组标签；其中，存量事件的群组标签用于标识存量事件所属的群组。

步骤408：根据存量事件所属的群组，确定存量事件的群组特征；其中，存量事件的群组特征用于表征存量事件所属的群组内成员的统计特征。

步骤409：确定介质的特征。

步骤410：根据介质的特征，确定存量事件的介质特征。

步骤411：根据存量事件的群组特征、存量事件的群组标签、存量事件的事件标签和存量事件的介质特征，训练分类器。

步骤412：确定待识别事件所属的群组。

步骤413：根据待识别事件所属的群组和训练得到的分类模型，确定待识别事件是否存在风险。

该方法将事件和群组联系起来，使得分类器不仅可以学习事件自身的特征，还可以学习与群组相关的特征，即，对于一个事件来说，分类器不仅观察到这个事件是什么、干了什么，观察到了这个事件所对应的介质是什么、干了什么，还观察到了这个事件的相似事件干了些什么。因此，该方法能够提高风险识别的准确性。

如图5所示，本发明实施例提供了一种风险识别装置，包括：

第一确定单元501，用于确定存量事件所属的群组和存量事件的事件标签；

训练单元502，用于根据存量事件所属的群组和存量事件的事件标签，训练预设的分类器；

第二确定单元503，用于根据训练得到的分类模型，确定待识别事件是否存在风险。

在本发明的一个实施例中，第一确定单元501，用于根据存量事件构图；根据构图的结果，确定存量事件所属的群组。

在本发明的一个实施例中，第一确定单元501，用于根据存量事件的事件信息，确定第一边权重和第一点；根据第一边权重和第一点构图；其中，事件信息中包括：主体ID、客体ID、事件时间、事件类型、事件属性和事件结果中任意一种或多种。

在本发明的一个实施例中，第一确定单元501，用于根据存量事件的介质信息，确定第二边权重和第二点；根据第二边权重和第二点构图；其中，介质信息中包括：介质种类、介质ID和介质属性中任意一种或多种。

在本发明的一个实施例中，存量事件中包括：介质；

第一确定单元501，用于根据构图的结果，确定介质所属的群组；根据介质所属的群组，确定存量事件所属的群组。

在本发明的一个实施例中，存量事件中包括：介质；

训练单元502，用于确定介质的特征；根据介质的特征，确定存量事件的介质特征；根据存量事件所属的群组、存量事件的事件标签和存量事件的介质特征，训练分类器。

在本发明的一个实施例中，训练单元502，用于根据存量事件所属的群组，确定存量事件的群组标签；其中，存量事件的群组标签用于标识存量事件所属的群组；根据存量事件的群组标签和存量事件的事件标签，训练分类器。

在本发明的一个实施例中，训练单元502，用于根据存量事件所属的群组，确定存量事件的群组特征；其中，存量事件的群组特征用于表征存量事件所属的群组内成员的统计特征；根据存量事件的群组特征和存量事件的事件标签，训练分类器。

在本发明的一个实施例中，第二确定单元503，用于确定待识别事件所属的群组；根据待识别事件所属的群组和分类模型，确定待识别事件是否存在风险。

本发明实施例提供了一种风险识别设备，包括：处理器和存储器；

存储器用于存储执行指令，处理器用于执行存储器存储的执行指令以实现上述任一实施例的方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机.程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种风险识别方法，包括：

确定存量事件所属的群组和所述存量事件的事件标签；

根据训练得到的分类模型，确定待识别事件是否存在风险。

2.如权利要求1所述的风险识别方法，

所述确定存量事件所属的群组，包括：

根据所述存量事件构图；

根据所述构图的结果，确定所述存量事件所属的群组。

3.如权利要求2所述的风险识别方法，

所述根据所述存量事件构图，包括：

根据所述存量事件的事件信息，确定第一边权重和第一点；

根据所述第一边权重和所述第一点构图；其中，所述事件信息中包括：主体ID、客体ID、事件时间、事件类型、事件属性和事件结果中任意一种或多种。

4.如权利要求2所述的风险识别方法，

所述根据所述存量事件构图，包括：

根据所述存量事件的介质信息，确定第二边权重和第二点；

根据所述第二边权重和所述第二点构图；其中，所述介质信息中包括：介质种类、介质ID和介质属性中任意一种或多种。

5.如权利要求2所述的风险识别方法，

所述存量事件中包括：介质；

所述根据所述构图的结果，确定所述存量事件所属的群组，包括：

根据所述构图的结果，确定所述介质所属的群组；

根据所述介质所属的群组，确定所述存量事件所属的群组。

6.如权利要求1所述的风险识别方法，

所述存量事件中包括：介质；

所述根据所述存量事件所属的群组和所述存量事件的事件标签，训练预设的分类器，包括：

确定所述介质的特征；

根据所述介质的特征，确定所述存量事件的介质特征；

根据所述存量事件所属的群组、所述存量事件的事件标签和所述存量事件的介质特征，训练所述分类器。

7.如权利要求1所述的风险识别方法，

根据所述存量事件所属的群组，确定所述存量事件的群组标签；其中，所述存量事件的群组标签用于标识所述存量事件所属的群组；

根据所述存量事件的群组标签和所述存量事件的事件标签，训练所述分类器。

8.如权利要求1所述的风险识别方法，

根据所述存量事件所属的群组，确定所述存量事件的群组特征；其中，所述存量事件的群组特征用于表征所述存量事件所属的群组内成员的统计特征；

根据所述存量事件的群组特征和所述存量事件的事件标签，训练所述分类器。

9.如权利要求1-8中任一所述的风险识别方法，

所述根据训练得到的分类模型，确定待识别事件是否存在风险，包括：

确定所述待识别事件所属的群组；

根据所述待识别事件所属的群组和所述分类模型，确定所述待识别事件是否存在风险。

10.一种风险识别装置，包括：

11.如权利要求10所述的风险识别装置，

所述第一确定单元，用于根据所述存量事件构图；根据所述构图的结果，确定所述存量事件所属的群组。

12.如权利要求11所述的风险识别装置，

所述第一确定单元，用于根据所述存量事件的事件信息，确定第一边权重和第一点；根据所述第一边权重和所述第一点构图；其中，所述事件信息中包括：主体ID、客体ID、事件时间、事件类型、事件属性和事件结果中任意一种或多种。

13.如权利要求11所述的风险识别装置，

所述第一确定单元，用于根据所述存量事件的介质信息，确定第二边权重和第二点；根据所述第二边权重和所述第二点构图；其中，所述介质信息中包括：介质种类、介质ID和介质属性中任意一种或多种。

14.如权利要求11所述的风险识别装置，

所述存量事件中包括：介质；

所述第一确定单元，用于根据所述构图的结果，确定所述介质所属的群组；根据所述介质所属的群组，确定所述存量事件所属的群组。

15.如权利要求10所述的风险识别装置，

所述存量事件中包括：介质；

所述训练单元，用于确定所述介质的特征；根据所述介质的特征，确定所述存量事件的介质特征；根据所述存量事件所属的群组、所述存量事件的事件标签和所述存量事件的介质特征，训练所述分类器。

16.如权利要求10所述的风险识别装置，

所述训练单元，用于根据所述存量事件所属的群组，确定所述存量事件的群组标签；其中，所述存量事件的群组标签用于标识所述存量事件所属的群组；根据所述存量事件的群组标签和所述存量事件的事件标签，训练所述分类器。

17.如权利要求10所述的风险识别装置，

所述训练单元，用于根据所述存量事件所属的群组，确定所述存量事件的群组特征；其中，所述存量事件的群组特征用于表征所述存量事件所属的群组内成员的统计特征；根据所述存量事件的群组特征和所述存量事件的事件标签，训练所述分类器。

18.如权利要求10-17中任一所述的风险识别装置，

所述第二确定单元，用于确定所述待识别事件所属的群组；根据所述待识别事件所属的群组和所述分类模型，确定所述待识别事件是否存在风险。