一种识别风险对象的方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其是涉及一种识别风险对象的方法、装置及设备。
背景技术
互联网技术的蓬勃发展给人们带来了便捷的生活。与此同时,也给人们的生活带来了诸多的弊端。例如,目前网络上出现了盗卡、盗号、欺诈和垃圾小号注册等风险行为。
传统的风控系统通常将识别上述风险行为的问题转化为二分类问题(通过机器学习解决二分类问题)或者直接用专家系统。然而,专家系统对一些阈值的把握存在主观臆断,会扭曲客观事实,导致识别出的风险对象准确率低。而机器学习可以学习到训练样本每一个特征的阈值和权重。但在机器学习当中有标签的待预测样本(目标对象)是比较少的,随着特征越来越多,在有监督学习系统之中很容易出现过拟合的情况。例如,只有1000个黑样本,但是有10万个特征。该通过机器学习识别风险对象的方法鲁棒性较差。此外,另一种在风控场景下最常用的半监督方法是标签传播方法。但这种方法会强依赖于构图,即构图时以什么作为点、什么作为边,边的权重如何产生将很大程度的影响最后的算法效果,因此,利用该种方法识别风险对象适用范围较窄。
由此可见,目前,在样本比较少的风控场景中,不存在一个准确率高、覆盖率广、鲁棒性强的识别风险对象的方案。
发明内容
本说明书实施例提供一种识别风险对象的方法、装置及设备。解决了在样本比较少的风控场景中,不存在一个准确率高、覆盖率广、鲁棒性强的识别风险对象的模型的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种识别风险对象的方法,该方法包括:
获取多个待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
优选地,所述根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图,包括:以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图,得到至少一种构图。
优选地,所述以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图,得到至少一种构图,包括:
以所述事件作为点,以所述事件之间的权重作为边,创建构图,得到至少一种构图;或
以所述介质信息作为点,以所述介质信息之间的权重作为边,创建构图,得到至少一种构图;或
以所述事件和所述介质信息作为点,以所述事件之间的权重、所述介质信息之间的权重及所述事件和所述介质信息之间的权重作为边,创建构图,得到至少一种构图。
优选地,所述对构图上某一时间点前的事件和/或介质信息进行打标,包括:确定某一时间点前样本事件和/或介质信息的样本性质,所述样本性质包括黑样本、白样本和属性不确定样本;将某一时间点前的黑样本事件和/或介质信息打标为第一标签,白样本事件和/或介质信息打标为第二标签,属性不确定样本事件和/或介质信息不打标签。
优选地,所述确定构图上的每个事件和/或介质信息的特征,包括:
根据构图上的各个点的原始标签和当前标签、该各个点的邻居节点的当前标签以及该各个点和其邻居节点之间边的权重,获得该各个点的下一轮标签;
根据获得的该各个点的下一轮标签,确定该各个点的特征。
优选地,所述根据构图上的各个点的原始标签和当前标签、该各个点的邻居节点的当前标签以及该各个点和其邻居节点之间边的权重,获得该各个点的下一轮标签,包括:利用如下公式计算构图上的每个事件和/或介质信息的得分,将该得分作为该各个点的下一轮标签:
其中,α、β、γ都是超参数,
表示点i在第t轮中的分数,
表示点i在未迭代时的分数,
表示点i在第t-1轮中的分数,
表示点i的邻居节点j在第t-1轮中的分数,N(i)表示点i的邻居节点,w
i,j表示连接点i、点j的边权重;
所述根据获得的该各个点的下一轮标签,确定该各个点的特征,包括:将计算的构图上的各个事件和/或介质信息的得分作为该各个点的特征。
本说明书实施例提供的一种识别风险对象的装置,该装置包括:获取模块、创建模块、确定模块和分类模块;
所述获取模块,用于获取多个待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
所述创建模块,用于根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
所述确定模块,用于根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
所述分类模块,用于根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
优选地,所述创建模块,具体用于以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图。
优选地,所述以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图,得到至少一种构图,包括:
以所述事件作为点,以所述事件之间的权重作为边,创建构图,得到至少一种构图;或
以所述介质信息作为点,以所述介质信息之间的权重作为边,创建构图,得到至少一种构图;或
以所述事件和所述介质信息作为点,以所述事件之间的权重、所述介质信息之间的权重及所述事件和所述介质信息之间的权重作为边,创建构图,得到至少一种构图。
优选地,所述根据训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标,包括:具体用于确定某一时间点前样本事件和/或介质信息的样本性质,所述样本性质包括黑样本、白样本和属性不确定样本;将某一时间点前的黑样本事件和/或介质信息打标为第一标签,白样本事件和/或介质信息打标为第二标签,属性不确定样本事件和/或介质信息不打标签。
优选地,所述确定模块,包括获得模块和特征确定模块;
其中,所述获得模块,用于根据构图上的各个点的原始标签和当前标签、该各个点的邻居节点的当前标签以及该各个点和其邻居节点之间边的权重,获得该各个点的下一轮标签;
所述特征确定模块,用于根据获得的该各个点的下一轮标签,确定该各个点的特征。
优选地,所述获得模块,具体用于利用如下公式计算构图上的每个事件和/或介质信息的得分,将该得分作为该各个点的下一轮标签:
其中,α、β、γ都是超参数,
表示点i在第t轮中的分数,
表示点i在未迭代时的分数,
表示点i在第t-1轮中的分数,
表示点i的邻居节点j在第t-1轮中的分数,N(i)表示点i的邻居节点,w
i,j表示连接点i、点j的边权重;
所述特征确定模块,具体用于将计算的构图上的各个事件和/或介质信息的得分作为该各个点的特征。
本说明书实施例提供的一种识别风险对象的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取多个待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:在标签少的情况下,采用多种构图方法,如以事件作为构图依据、以介质信息作为构图依据或以事件和介质信息作为构图依据,克服了专家系统对一些阈值的把握存在主观臆断,扭曲客观事实的问题,解决了有监督部分容易产生过拟合的问题,改善了最常用的半监督方法(标签传播算法)对构图过于依赖的情况。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种识别风险对象的方法的流程示意图;
图2为本说明书实施例提供的一种利用事件进行构图得到的示意图;
图3为本说明书实施例提供的一种利用介质信息进行构图得到的示意图;
图4为本说明书实施例提供的一种利用事件和介质信息进行构图得到的示意图;
图5为本说明书实施例提供的一种识别风险对象的装置的结构示意图;
图6为本说明书实施例提供的一种识别风险对象的设备的结构示意图。
具体实施方式
本说明书实施例提供一种识别风险对象的方法、装置以及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本说明书实施例中,存量事件指的是某一时间点前已经发生的事件。存量事件可以是一种事件或者多种事件的组合。例如在支付反盗用的场景中,存量事件可以只是支付事件,也可以是支付事件、注册事件和登录事件的组合。本说明书实施例并不限制存量事件的格式,实际上在不同的应用场景存量事件的格式是可以不一样的。但为了方便描述,存量事件一般可以抽象为如表1所示。而一笔支付事件中涉及到了发起支付的用户、银行卡,支付时所用到的IP、设备,接受支付的卖家等等。这些都被称作为这笔支付事件的介质信息。那么唯一能代表这些介质信息的ID,就被称作为介质信息ID,例如用户的身份证号,银行卡号、IP地址等。而对于用户这种介质信息而言,这个用户的注册时间、注册邮箱、注册省份等等可以作为该用户的介质信息。对于银行卡这种介质信息而言,介质信息为开卡行、开卡时间、开卡身份证号等。本说明书实施例同样不限制介质描述的格式。为了方便描述,介质信息一般可以抽象为介质ID、介质属性1、介质属性2…介质属性n,如表2所示。对于不同种类的介质可以有不同的属性,如下表各类介质信息的例子。
各类介质信息的例子
介质种类 |
介质ID |
属性1 |
属性2 |
属性3 |
属性4 |
用户 |
账号 |
账龄 |
会员等级 |
注册Email |
昵称 |
银行卡 |
银行卡号 |
开户行 |
开卡时间 |
|
|
IP |
IP地址 |
所属地域 |
|
|
|
图1为本说明书实施例提供的一种识别风险对象的方法的流程示意图,该流程示意图包括:
步骤105,获取多个待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
在本说明书实施例中,获取如表1所示为电商场景下的存量事件。
表1电商场景下的存量事件
主体ID |
客体ID |
事件时间 |
事件类型 |
事件属性 |
成功与否 |
用户1 |
商品1 |
2016/2/1 |
购买 |
金额299 |
成功 |
用户1 |
IP1,设备1 |
2016/1/1 |
登录 |
- |
失败 |
银行卡1 |
用户2 |
2015/10/3 |
转账/充值 |
金额:500 |
成功 |
主体ID逻辑上是事件的发起方,客体ID逻辑上是事件的承受方。主体ID、客体ID都可以是多个ID。上表的第一行是描述购买事件的例子。上表的第二行是描述某个用户在某一个设备或者IP上登录事件的例子。上表的第三行是描述某一银行卡向某一个用户转账事件的例子。
步骤110,根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
所谓构图需要包括以下主要内容:1、以什么作为点;2、满足什么样的条件则在点和点之间建立边;3、按照一定的算法计算出每一条边的权重值。因此并不是每一种构图都包含了所有事件和/或介质信息。而构图方法也有三类,一类是利用存量事件构图,一类是利用介质信息构图,另外一类是同时利用存量事件和介质信息构图。一般来说,利用事件构图是站在事件的角度上来描述点和点之间的相似性,用事件将点和点之间关联起来。而仅用介质信息构图是利用介质信息发掘介质和介质之间的相似度。本方案也不限制具体的构图方法。不同的场景、不同实现中可以采用不同的构图方法。
作为一种可选地实施方式,在本说明书实施例中,以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建多种构图,得到至少一种构图。进一步地,以所述事件作为点,以所述事件之间的权重作为边,创建构图,得到至少一种构图;或以所述介质信息作为点,以所述介质信息之间的权重作为边,创建构图,得到至少一种构图;或以所述事件和所述介质信息作为点,以所述事件之间的权重、所述介质信息之间的权重及所述事件和所述介质信息之间的权重作为边,创建构图,得到至少一种构图。对于上述表1的第1行其构图方法可以是:以用户为点;若在半年内两个用户都购买过两个以上相同的商品,则将两个用户连接起来;边的权重可以是两个用户购买过相同商品的个数,也可以是各种User-CF算法中的用户相似度。对于上述表1的第1行其构图方法也可以是:以用户和商品为点;若用户在一年之内成功购买过这个商品则将用户和该商品连接起来;边权重的值是当前时间与用户最近一次购买该商品的时间差的倒数。对于上述表1的第2行其构图方法可以是:以用户、设备、IP为点;若用户成功登录,则将这笔登录事件中涉及的用户、设备、IP两两连接起来;边权重可以是登录的次数,也可以是将时间考虑进去的更复杂的形式。对于上述表1的第3行其构图方法可以是:以用户、银行卡为点,若发生过成功的转账/充值则将该用户和该银行卡连接起来,其权重可以是历史上所有转账金额之和,也可以是将时间考虑进去的更复杂的形式。综上,一个点(点i)和另一个点(点j)之间的权重可以写成如下的形式:
wi,j(t)=f(Ei(t),Ej(t),t),其中,Ei(t)和Ej(t)是发生在时间t之前涉及到点i和点j的所有事件。
对于一部分情况,点i和点j之间的权重只涉及点i和点j共同参与的事件,边的权重退化为:wi,j(t)=f(Eij(t),t),其中,Eij(t)表示在时间t之前同时涉及到点i和点j的所有事件。
对于某些并没有把时间因素考虑进去的情况,边的权重退化为:
wi,j(t)=f(Eij(t)),在这种情况下,若[t,t+Δτ)这段时间内,没有同时涉及到点i和点j的事件发生,则有如下:wij(t+Δτ)=wij(t)
在本说明书实施例中,以用户的登录事件为例进行构图。例如在这种场景中用户采用的构图方法为:以用户、设备、IP为点;若用户成功登录,则将这笔登录事件中涉及的用户、设备、IP两两连接起来;边权重为当前时间减去事件时间的天数加1的倒数之和,即:
其中Eij(t)表示在时间t之前同时涉及到点i和点j的所有事件,dt是当前时间所对应的天数,dx是事件x发生时间对应的天数。表2为登录场景下的存量事件的一个例子,例子中只涉及User1和User2两个用户的行为。按照上面描述的利用事件进行构图的构图方法得到图2所示的示意图。具体地,应该加入点为:User1、Ip1、Device1、Ip2、Device2、User2、Ip3,后文中简称为U1、I1、D1、I2、D2、U2、I3。应该加入的边为:U1-I1、U1-D1、I1-D1、U1-I2、U1-D2、I2-D2、U2-I3。假设是在2018年5月30日运行这个全量初始化的,那么这七条边的权重分别为:
表2登录场景下的存量事件
主体ID |
客体ID |
事件时间 |
事件类型 |
事件属性 |
成功与否 |
User1 |
Ip1/Device1 |
2018/5/26 |
登录 |
- |
成功 |
User1 |
Ip2/Device2 |
2018/5/27 |
登录 |
- |
成功 |
User1 |
Ip1/Device2 |
2018/5/29 |
登录 |
- |
失败 |
User1 |
Ip2/Device2 |
2018/5/29 |
登录 |
- |
成功 |
User1 |
Ip2/Device2 |
2018/5/29 |
登录 |
- |
成功 |
User2 |
Ip3/Device3 |
2018/5/29 |
登录 |
- |
失败 |
User2 |
Ip3/- |
2018/5/29 |
登录 |
- |
成功 |
在此需要说明的是,用介质来构图是用介质信息将点和点关联起来,可以是直接根据介质信息之间的相似性将介质和介质相连。也可以将某一种单独的介质信息抽取处理作为点,然后将介质和介质信息相连。如以用户作为点,若两个用户的注册邮箱相似则将在两个用户之间连接一条边,这条边的权重即为两个用户注册邮箱的相似度。本技术方案采用了一种来衡量电子邮箱地址之间相似度的算法,算法如下:
Sij=f(emi,emj),其中Sij为用户i和用户j的相似度,emi,emj为用户i、用户j的电子邮箱地址。按照利用介质信息构图方法,以用户作为点,若两个用户的Sij大于某个阈值则将在两个用户之间连接一条边,这条边的权重即为Sij。又如,以银行卡和“开户行+日期”为点,将银行卡和自己响应的“开户行+日期”连接起来,边权重都为1。例如某张银行卡是在2017/6/3日杭州西湖工商银行开户,则以这张银行卡、“2017/6/3+杭州西湖工商银行”为点,把这张银行卡和“2017/6/3+杭州西湖工商银行”之间连接一条权重为1的边。再如,以卖家、IP、地域为点,将卖家和卖家所属地连接起来、IP和IP所属地连接起来,边权重都为1。
根据上面描述的构图方法,根据表3中的信息,以主体ID和客体ID中的IP信息进行构图得到如图3所示的示意图。具体地,应该加入点为:User1、Ip1、User3、Ip2、User4、Ip2、User2、Ip4,后文中简称为U1、I1、U3、I2、U4、I2、U2、I4。应该加入的边为:U1-I1、U3-I2、U4-I2、U2-I4。假设U1-I1之间的权重为0.4、U3-I2之间的权重为0.6、U4-I2之间的权重为0.3、U2-I4之间的权重为0.6。
表3登录场景下的存量事件
主体ID |
客体ID |
事件时间 |
事件类型 |
事件属性 |
成功与否 |
User1 |
Device1/Ip1 |
2018/5/26 |
登录 |
- |
成功 |
User3 |
Device1/Ip2 |
2018/5/27 |
登录 |
- |
成功 |
User4 |
Device1/Ip2 |
2018/5/29 |
登录 |
- |
成功 |
User2 |
Device1/Ip4 |
2018/5/29 |
登录 |
- |
成功 |
在此还需要说明的是,利用事件和介质信息构图,一部分点和点之间用事件进行关联,一部分点和点之间用介质信息进行关联。如表4中的登录场景下的存量事件和使用的介质信息。按照上面描述的利用事件和介质信息进行构图的构图方法得到如图4所示的示意图。具体地,应该加入点为:User1、Ip3、User3、Ip2、User2、Ip3、User3、Ip4,后文中简称为U1、I3、U3、I2、U2、I3、U3、I4。应该加入的边为:U1-I3、U3-I2、U2-I3、U3-I4。假设U1-I3之间的权重为0.2、U3-I2之间的权重为0.6、U2-I3之间的权重为0.5、U3-I4之间的权重为0.7。
表4登录场景下的存量事件
步骤115,根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
作为一种可选地实施方式,在本说明书实施例中,在训练分类器之前确定某一时间点前样本事件和/或介质信息的样本性质,所述样本性质包括黑样本、白样本和属性不确定样本;在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标。具体而言,将2K天前的黑样本事件和/或介质信息打标为第一标签,白样本事件和/或介质信息打标为第二标签,属性不确定样本事件和/或介质信息不打标签。进一步地,基于2K天前事件的已知标签在得到的每一个构图上跑标签传播,从而得到0到2K-1天事件的得分。上述得分作为0到2K-1天事件的特征。其中,K到2K-1天的事件用于训练分类器,并利用训练好的分类器预测0到K-1天的事件。在此需要说明的是,为提高预测结果的准确性。在预测阶段,获取全量事件,并对K天前的事件进行打标。进一步地,基于K天前事件的已知标签在得到的每一个构图上跑标签传播,从而得到0到K-1天事件的得分。上述得分作为0到K-1天事件的特征。利用训练好的分类器预测0到K-1天的事件。作为一种可选地实施方式,在本说明书实施例中,通过某一函数整合构图上的各个点的原始标签和当前标签、该各个点的邻居节点的当前标签以及该各个点和其邻居节点之间边的权重,获得该各个点的下一轮标签。重复上述步骤R轮,输出构图中各个点的最终标签。具体而言,利用如下公式计算构图上的每个事件和/或介质信息的得分,将该得分作为该各个点的下一轮标签:
其中,α、β、γ都是超参数,
表示点i在第t轮中的分数,
表示点i在未迭代时的分数,
表示点i在第t-1轮中的分数,
表示点i的邻居节点j在第t-1轮中的分数,N(i)表示点i的邻居节点,w
i,j表示连接点i、点j的边权重;根据获得的该各个点的下一轮标签,确定该各个点的特征。相当于根据构图上各个点的最终标签,确定构图上各个点的最终标签。进一步地,将计算的构图上的各个事件和/或介质信息的得分作为该各个点的特征。由于存在多种构图,各个事件和/或介质信息不止出现在一个构图,因此,各个事件和/或介质信息具有N个特征。
步骤120,根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
在本说明书实施例中,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类。得到风险对象之前,需要先训练分类器。上述分类器包括但不限于逻辑回归、决策树、朴素贝叶斯、随机森林、GBDT(Gradient Boosting Decision Tree,梯度提升树)、深度神经网络中的一种。在此需要说明的是,最近K天的事件是不知道样本标签的,由于有些案件用户还没有报案,或者有些案件就算已经报案也没有确案,无法判断最近K天的事件是黑样本还是白样本。因此,K天内的事件是本技术方案要预测的目标事件。在真正实施本技术方案的过程中,最产生价值的是刚刚发生或者正在发生的事件。因此,获取K天之前的事件,对2K天前的事件打标,在得到的每一个构图上跑标签传播。训练分类器的方法具体步骤如下:步骤1:获取K天前的存量事件,和存量事件所对应的介质信息;步骤2:采用N种构图方法,每一种构图方法对应一种构图,从而得到N个构图。N为大于等于1的整数;步骤3:对于N种构图的每一个构图上的2K天前的事件打标,在得到的每一个构图上跑标签传播;步骤4:用K到2K-1天的事件训练分类器。在此需要说明的是,为了获取更多的用于训练分类器的样本,可以将日期向前滑动。比如,对3K天前的事件打标,在得到的每一个构图上跑标签传播。然后用K到3K-1天的事件训练分类器。进一步地,根据步骤115中得到的构图上的事件和/或介质信息的特征,对0到K-1天内的事件和/或介质信息进行分类。分类结果为[0,1]之间的实数。将大于或等于预设值0.5的事件归为风险事件。将小于预设值0.5的事件归为正常事件。
与现有技术相比,本说明书实施例采用的上述技术方案能够达到以下有益效果:在标签少的情况下,采用多种构图方法,如以事件作为构图依据、以介质信息作为构图依据或以事件和介质信息作为构图依据,克服了专家系统对一些阈值的把握存在主观臆断,扭曲客观事实的问题,解决了有监督部分容易产生过拟合的问题,改善了最常用的半监督方法(标签传播算法)对构图过于依赖的情况。
图5为本说明书实施例提供的一种识别风险对象的装置的结构示意图,该结构示意图包括:获取模块505、创建模块510、确定模块515、和分类模块520;
所述获取模块505,用于获取待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
所述创建模块510,用于根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
所述确定模块515,用于根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
所述分类模块520,用于根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
优选地,所述创建模块510,具体用于以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图,得到至少一种构图。
优选地,所述以所述事件和/或所述事件对应的介质信息作为点,以所述事件和/或所述事件对应的介质信息之间的权重作为边,创建构图,得到至少一种构图,包括:
以所述事件作为点,以所述事件之间的权重作为边,创建构图,得到至少一种构图;或
以所述介质信息作为点,以所述介质信息之间的权重作为边,创建构图,得到至少一种构图;或
以所述事件和所述介质信息作为点,以所述事件之间的权重、所述介质信息之间的权重及所述事件和所述介质信息之间的权重作为边,创建构图,得到至少一种构图。
优选地,所述根据训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标,包括:具体用于确定某一时间点前样本事件和/或介质信息的样本性质,所述样本性质包括黑样本、白样本和属性不确定样本;将某一时间点前的黑样本事件和/或介质信息打标为第一标签,白样本事件和/或介质信息打标为第二标签,属性不确定样本事件和/或介质信息不打标签。
优选地,所述确定模块515,包括获得模块和特征确定模块;
其中,所述获得模块,用于根据构图上的各个点的原始标签和当前标签、该各个点的邻居节点的当前标签以及该各个点和其邻居节点之间边的权重,获得该各个点的下一轮标签;
所述特征确定模块,用于根据获得的该各个点的下一轮标签,确定该各个点的特征。
优选地,所述获得模块,具体用于利用如下公式计算构图上的每个事件和/或介质信息的得分,将该得分作为该各个点的下一轮标签:
其中,α、β、γ都是超参数,
表示点i在第t轮中的分数,
表示点i在未迭代时的分数,
表示点i在第t-1轮中的分数,
表示点i的邻居节点j在第t-1轮中的分数,N(i)表示点i的邻居节点,w
i,j表示连接点i、点j的边权重;
所述特征确定模块,具体用于将计算的构图上的各个事件和/或介质信息的得分作为该各个点的特征。
图6为本说明书实施例提供的一种识别风险对象的设备,包括:
至少一个处理器605;以及,
与所述至少一个处理器通信连接的存储器610;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待识别对象,所述待识别对象至少包括事件和/或所述事件对应的介质信息;
根据所述事件和/或所述事件对应的介质信息,创建构图,得到至少一种构图;
根据在训练分类器过程中对构图上某一时间点前的事件和/或介质信息进行打标的标签信息及构图上边的权重,确定构图上的每个事件和/或介质信息的特征;
根据构图上的事件和/或介质信息的特征,利用训练好的分类器对某一时间点后的事件和/或介质信息进行分类,得到待识别对象中的风险对象。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质信息(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质信息中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质信息的示例。
计算机可读介质信息包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质信息的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质信息,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质信息不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。