一种处理实体的方法和设备
技术领域
本公开涉及网络技术领域,特别是涉及一种处理实体的方法和设备。
背景技术
近些年,各个支付平台的盗卡和盗帐户案件已经积累了很多,并形成了相应的黑名单。如何有效的利用这些黑名单是一个很重要的课题。现有的黑名单应用一般是直接做查询使用,即只是利用黑名单本身,对黑名单中的实体进行处罚动作。
基于黑名单的拓展应用目前一般是挖掘隐藏在其中的作案团伙,研究黑名单中的实体的行为方式等。
基于通过黑名单挖掘隐案,一般是通过反查的方式进行,即从单个黑名单中的实体出发,根据业务逻辑,向非黑实体一层层的进行反查,然后找出隐藏的有过非法行为但是没有被发现的实体。
另外,隐案挖掘的方式还可以通过标签扩散算法,进行半监督学习,通过不断的迭代,在算法稳定后会对非黑实体进行标注,然后选择标注成有非法行为的实体进行处罚动作。
经过研究,发现现有技术至少存在以下问题:
通过反查进行隐案的挖掘时只对黑名单实体有直接关系的实体进行反查,这样覆盖率不高,且会遗漏存在隐案的实体,标签扩散算法是双向扩散的,即一个实体的判断逻辑,会在迭代过程中不断受到同一个实体的影响,最终结果没法判别到底是什么原因导致的,结果的准确率不是很高,同时,因为标签扩散算法是迭代机制的,只适用于离线模型训练,对于实时性支持不够。
发明内容
本公开提出了一种处理实体的方法和设备,本公开的技术方案可以有效用于通过黑名单去发现隐案,以及预测非黑实体的作案可能性等。
本公开的技术方案如下:
一种处理实体的方法,应用于包括多个实体的实体网络关系中,其中相邻两个实体之间通过边进行连接,风险经由所述边进行传播是有方向的,所述方法包括:
根据起始实体的风险概率以及每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定所述实体网络关系中的每一个实体的综合风险概率;
根据各实体的综合风险概率,来处理所述各实体。
可选的,所述起始实体为风险概率已知的实体,所述每一条边的扩散系数是基于所述实体网络关系确定的,具体的确定过程包括以下步骤:
步骤A、根据所述实体网络关系确定各所述边的衰减系数、各所述边的风险传播概率,以及各所述边的边权重系数;
步骤B、根据各所述边的衰减系数、各所述边的风险传播概率,各所述边的边权重系数三者的乘积来确定各所述边的扩散系数。
可选的,各所述边的衰减系数是根据各所述边的业务属性来确定的;
各所述边的风险传播概率是根据各所述边所连接的相邻两个实体的历史行为而确定的;
各所述边的边权重系数是根据各所述边所连接的相邻两个实体发生的历史行为的次数来确定的。
可选的,所述根据起始实体的风险概率以及每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定所述实体网络关系中的每一个实体的综合风险概率,具体包括以下步骤:
步骤1、以多个起始实体中的第N个起始实体为起点,确定与所述第N个起始实体相关联的多条风险传播路径,N为大于0的正整数;
步骤2、对于所述多条风险传播路径中的每一条风险传播路径,确定所述风险传播路径上的第M个实体是否已计算了所述第M个实体对于所述第N个起始实体的风险概率,M为大于0的正整数;
如已计算,则跳过并计算所述风险传播路径上的下一个第M+1个实体;
如没有计算,则计算所述第M个实体对于所述第N个起始实体的风险概率=第M-1个实体对于所述第N个起始实体的风险概率×所述第M-1个实体和所述第M个实体之间的边的扩散系数,之后跳转到计算所述风险传播路径上的下一个第M+1个实体;
步骤3、重复步骤2,直至对于所述第N个起始实体,计算完成了所有风险传播路径中的所有实体对于所述第N个起始实体的风险概率;
步骤4、对于所述多个起始实体中的第N+1个起始实体重复步骤1-3;直至计算了所述实体网络关系中的每一个实体对于所述多个起始实体中的每一个起始实体的风险概率;
步骤5、对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率。
可选的,对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率,具体包括:
对于所述实体网络关系中的每一个实体,汇总所述每一个实体分别对于所述多个起始实体中的每一个起始实体的风险概率,以得到所述每一个实体的综合风险概率。
可选的,根据各实体的综合风险概率,来处理所述各实体,具体包括:
根据各实体的综合风险概率构建风险网络;
基于所述风险网络处理各实体。
可选的,基于所述风险网络处理各实体,具体包括:
根据各所述实体在所述风险网络中的综合风险概率、各所述实体的历史行为和各所述实体的静态属性,对各所述实体进行风险评估生成各所述实体的综合得分;
确定综合得分大于预先设定的阈值的实体,以确定出所述风险网络中风险最大的实体群;
基于各所述实体的综合得分,对各所述实体执行与所述综合得分对应的处理;
其中,当实体为账号时,所述静态属性包括其中一个或多个的任意组合:所述账号对应的证件号,注册时间、使用者年龄、资产数量、使用者职业,教育水平;当所述实体为除账号之外的其他实体时,所述静态属性包括:所述实体第一次出现的时间和与所述实体有关联的账号的数量。
一种处理实体的设备,应用于包括多个实体的实体网络关系中,其中相邻两个实体之间通过边进行连接,风险经由所述边进行传播是有方向的,所述设备包括:
第一确定模块,用于根据起始实体的风险概率以及每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定所述实体网络关系中的每一个实体的综合风险概率;
处理模块,用于根据各实体的综合风险概率,来处理所述各实体。
可选的,所述起始实体为风险概率已知的实体;所述设备还包括:第二确定模块,用于基于所述实体网络关系确定每一条边的扩散系数,其中具体的确定过程包括以下步骤:
步骤A、根据所述实体网络关系确定各所述边的衰减系数、各所述边的风险传播概率,以及各所述边的边权重系数;
步骤B、根据各所述边的衰减系数、各所述边的风险传播概率,各所述边的边权重系数三者的乘积来确定各所述边的扩散系数。
可选的,各所述边的衰减系数是根据各所述边的业务属性来确定的;
各所述边的风险传播概率是根据各所述边所连接的相邻两个实体的历史行为而确定的;
各所述边的边权重系数是根据各所述边所连接的相邻两个实体发生的历史行为的次数来确定的。
可选的,所述第一确定模块,具体用于执行以下步骤:
步骤1、以多个起始实体中的第N个起始实体为起点,确定与所述第N个起始实体相关联的多条风险传播路径,N为大于0的正整数;
步骤2、对于所述多条风险传播路径中的每一条风险传播路径,确定所述风险传播路径上的第M个实体是否已计算了所述第M个实体对于所述第N个起始实体的风险概率,M为大于0的正整数;
如已计算,则跳过并计算所述风险传播路径上的下一个第M+1个实体;
如没有计算,则计算所述第M个实体对于所述第N个起始实体的风险概率=第M-1个实体对于所述第N个起始实体的风险概率×所述第M-1个实体和所述第M个实体之间的边的扩散系数,之后跳转到计算所述风险传播路径上的下一个第M+1个实体;
步骤3、重复步骤2,直至对于所述第N个起始实体,计算完成了所有风险传播路径中的所有实体对于所述第N个起始实体的风险概率;
步骤4、对于所述多个起始实体中的第N+1个起始实体重复步骤1-3;直至计算了所述实体网络关系中的每一个实体对于所述多个起始实体中的每一个起始实体的风险概率;
步骤5、对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率。
可选的,所述第一确定模块对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率,具体包括:
对于所述实体网络关系中的每一个实体,汇总所述每一个实体分别对于所述多个起始实体中的每一个起始实体的风险概率,以得到所述每一个实体的综合风险概率。
可选的,所述处理模块,具体用于:
根据各实体的综合风险概率构建风险网络;
基于所述风险网络处理各实体。
可选的,所述处理模块基于所述风险网络处理各实体,具体包括:
根据各所述实体在所述风险网络中的综合风险概率、各所述实体的历史行为和各所述实体的静态属性,对各所述实体进行风险评估生成各所述实体的综合得分;
确定综合得分大于预先设定的阈值的实体,以确定出所述风险网络中风险最大的实体群;
基于各所述实体的综合得分,对各所述实体执行与所述综合得分对应的处理;
其中,当实体为账号时,所述静态属性包括其中一个或多个的任意组合:所述账号对应的证件号,注册时间、使用者年龄、资产数量、使用者职业,教育水平;当所述实体为除账号之外的其他实体时,所述静态属性包括:所述实体第一次出现的时间和与所述实体有关联的账号的数量。
本公开中通过实体网络关系确定出连接各相邻实体的边的衰减系数、风险传播概率以及边权重系数,再根据上述确定出的信息确定各边的扩散系数,并基于以上信息与起始实体的风险概率逐一确定出各实体的综合风险概率,以根据确定出的综合风险概率判断非黑实体出现隐案的可能性,通过上述方法在挖掘隐案时涉及到了所有关联的实体,扩大了实体的覆盖率,并且准确率还得到了提高,同时,能够确定存在隐案的非黑实体是受哪些实体的影响,还能够支持实时性的隐案挖掘。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对本公开或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中的一种处理实体的方法流程图;
图2为本公开实施例中的一种实体网络关系示意图;
图3为本公开实施例中的一种部分实体网络关系示意图;
图4为本公开实施例中的一种添加扩散系数后的实体网络关系示意图;
图5为本公开实施例中的一种确定实体综合风险概率的方法流程示意图;
图6为本公开实施例中的一种处理实体的设备结构示意图。
具体实施方式
下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员获得的其他实施例,都属于本公开保护的范围。
根据本申请的一个实施例,提出了一种处理实体的方法,应用于包括多个实体的实体网络关系中,其中相邻的实体和实体之前发生过业务关系则以一条逻辑连线来表示,该逻辑连线在此称为实体与实体之间的边,边代表了所连接的两个实体之间由于业务而存在一定的关系。风险经由所述边进行传播,且风险经由边进行传播是有方向的。其中,实体可以被表征为mac(Media Access Control,媒体访问控制)地址,ip(Internet Protocol,网络协议)地址,具体的,实体为可能会存在风险的节点,并不限于mac地址、ip地址这两种表现形式,也可以是使用者ID、账号、使用者的移动设备IMEI(移动设备国际身份码)、SIM卡标识符、等等其他可以用于表征使用者身份的信息。
而具体的,本申请认为,风险的传播扩散过程可以理解为在密度不相等的水中,滴入N滴墨水(即N个风险污染源),墨水(即风险)会以滴入点为中心进行扩散。由此会有以下三个特征:
特征1、扩散过程中墨水的浓度会衰减(也即离污染源越近,影响越大,随着风险的传播,风险的影响也逐渐减小);
特征2、墨水交汇处墨水浓度叠加(也即与污染源关系越多,风险越大);
特征3、墨水的扩散过程中,浓度的衰减与水的密度有关系(也即在扩散的过程中,扩散系数还受到扩散过程中涉及到的介质的影响,对应于具体的风险传播,风险的扩散衰减程度受到实体之间的边的扩散性质的影响。在下文中,将详细定义边的扩散系数=边的衰减系数×边的风险传播概率×边的边权重)。
如图1所示,根据本申请的一个实施例的风险网络构建方法包括以下步骤:
步骤101、根据起始实体的风险概率以及每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定实体网络关系中的每一个实体的综合风险概率;
步骤102、根据各实体的综合风险概率,来处理各实体。
具体的,在步骤101中的起始实体为风险概率已知的实体。可以是由黑名单数据,或者是其他的数据来确定,只要数据中包含的实体的风险概率已知,就可以作为起始实体。风险概率为0到1之间的数值。在此,以黑名单数据为例,可以将黑名单数据中的实体作为实体网络关系中的起始实体,如此该起始实体有预先设定好的风险概率,例如可以设置为1,也即对应图2中的全黑实体。起始实体并不一定是全黑实体,对应图2中的全黑点,起始实体还可以是白点(对应风险概率为0),也可以是半黑点(对应风险概率为0.5),后续同样可以导出扩散后各个实体的风险概率。
如图2所示,风险沿着边进行扩散,风险的扩散是有方向的,以图2中的账号1为例来进行说明,其中,账号1为风险扩散的起始实体,风险沿着边扩散的方向是从账号1到MAC5、MAC3、MAC2、MAC4,并进而再从MAC4到IP1、从MAC2到IP2、从MAC5到IP3。以此类推,从账号2开始的风险会传播到MAC5(随后到IP3)、MAC1、MAC6、MAC7。在另一个实例中,若是出现如图3中所示的实体网络关系,以账号1为起始实体,对应的风险传播方向为从账号1到MAC,再从MAC到IP;若是以账号2为起始实体,对应的风险传播方向为从账号2到IP,再从IP到MAC。
在步骤101中的每一条边的扩散系数是基于实体网络关系确定的,具体的确定过程包括以下步骤:
步骤A、根据所述实体网络关系确定各所述边的衰减系数、各所述边的风险传播概率,以及各所述边的边权重系数;
步骤B、根据各所述边的衰减系数、各所述边的风险传播概率,各所述边的边权重系数三者的乘积来确定各所述边的扩散系数。
具体而言,各所述边的衰减系数是基于各所述边的业务属性来预先确定的。例如,以图2为例,账号1到MAC2的边的衰减系数,根据实体(账号1)和实体(MAC2)之间的业务关系(例如,登陆、访问、读取),被定义为0.2。MAC2到IP2的边的衰减系数,根据实体(MAC2)和实体(IP2)之间的业务关系(例如,映射、关联),被定义为0.4。帐号2到MAC6的边的衰减系数,根据实体(账号2)和实体(MAC6)之间的业务关系(例如,转账,交易),被定义为0.5。账号2到MAC1的边的衰减系数,根据实体(账号2)和实体(MAC1)之间的业务关系(例如,请求,验证,授权),被定义为0.3。衰减系数的作用是体现了风险随着实体之间的传播而逐渐减小。以图2中账号1为起始实体为例来进行说明,账号1通过边1连接MAC2,而MAC2再通过边2连接IP2,风险从账号1扩散到IP2,需要先扩散到MAC2,再扩散到IP2,由此,来自账号1的风险需要经过两个边(账号1到MAC2的边、MAC2到IP2的边)的迭代传递,会被乘以两个衰减系数0.2和0.4,由此风险扩散到IP2时会变小。
各所述边的风险传播概率是根据各所述边所连接的相邻两个实体的历史行为而确定的;例如某个账号在某个MAC地址上登陆过,以及某个账号在某个IP地址上做过交易等等,选择其中影响最大的行为(例如,诈骗行为、一直被认为是风险行为中的影响最大的行为之一)作为确定这两个实体之间的边的风险传播概率的一个方面的依据,除此以外,在边的风险传播概率时不仅考虑该边所连接的两个实体间的行为,还考虑另一方面,即该边连接的两个实体,若其中有实体的风险概率较大,例如有实体为全黑实体(对应风险概率为1),将会提高风险传播概率,例如:非黑实体间发生行为时,对应的边的风险传播概率为0.2,那么,黑名单中的实体间发生该行为时,对应的边的风险转播概率可能为1,黑名单中的实体与非黑实体间发生该行为时,对应的边的风险传播概率可能为0.8。其中,在设定边的风险传播概率时可以根据实际情况进行设定,所述风险传播概率为不大于1的正数。
例如相邻两个实体分别为账号1和IP1,账号1在IP1上发生过很多历史行为,例如账号1在IP1上登陆过,账号1在IP1上进行了交易活动,账号1在IP1上进行了诈骗活动;发生的各历史行为预设有风险传播概率,例如发生诈骗活动,比登陆或者交易活动的风险传播概率要大,若账号1在IP1发生的诈骗活动是这两个实体的历史行为中风险传播概率最高的,则以诈骗活动作为确定连接账号1与IP1的边的风险传播概率的依据。
而除了考虑账号1与IP1之间的历史行为以外,确定风险传播概率还考虑另一方面的因素,也即账号1以及IP1本身,实体(账号1或IP1)本身是会影响到连接账号1与IP1的边的风险传播概率的,例如,若是在黑名单数据中,有账号1和IP1,则在综合了账号1与IP1的诈骗历史行为之后,边对应的风险传播概率相应会很高,例如可以设置为1;若是只有IP1在黑名单中,对应的可以设置边的风险传播概率为0.8;若是都没在黑名单中,可以设置边的风险传播概率为0.6。
各所述边的边权重系数是根据各所述边所连接的相邻两个实体发生的历史行为的次数来确定的。实体之间行为发生的次数越多,对应的权重系数越大。其中,所述边权重系数可以根据实际情况进行设定,所述边权重系数为不大于1的正数,边权重系数用于衡量相邻两个实体关系的紧密程度。仍以账号1与IP1这两个实体为例来进行说明,当这两个实体发生的历史行为,例如交易,登陆,转账等等的次数越多,表示这两个实体的关系越紧密,对应的,连接账号1与IP1的边的权重系数就越大。例如,历史行为的次数为100次,对应的边的权重系数可能为0.6,而若历史行为的次数为500次,对应的边的权重系数可能就为0.8、当然具体的可基于实际情况进行设置。
具体的如图2所示,图2中黑点表示已确定的黑名单中的实体(风险概率为1),其他非黑点表示非黑实体(风险概率为0到1之间的值),所述实体网络关系中涉及到的是相互之间存在业务关系的实体。在风险传播过程中,风险分别从起始实体为中心开始向外扩散,具体的以图2中的账号1为例,风险扩散将会有:(1)从账号1扩散到MAC5;(2)从账号1扩散到MAC3;(3)从账号1扩散到MAC2,再经MAC2扩散到IP2;(4)从账号1扩散到MAC4,再经MAC4扩散到IP1。根据前文所提到的风险传播特征,由此针对从同一个起始实体扩散传播出的风险,越外围的实体被扩散到的风险值越小。
在步骤101中的每一条边的扩散系数的确定公式可以为:边的扩散系数=边的衰减系数×边的风险传播概率×边的边权重系数,如图2所示,以确定连接IP2与MAC2的边(例如为边A)来进行说明,边A的扩散系数=边A的衰减系数×边A的风险传播概率×边A的边权重系数。确定各边的扩散系数后可以将所述扩散系数添加到所述实体关系网络中,如图4所示。
在另一个实例中,如图3所示的实体关系,账号1和账号2为黑点,以实体节点MAC为例,连接MAC有两个边,这两个边各自具有扩散系数。
其中,当MAC受到账号1的影响时,也即需要确定连接账号1与MAC的边(例如命名为边B)的扩散系数,就需要确定边B的衰减系数以及边B的风险传播概率以及边B的边权重系数;
而当需要确定MAC受到账号2的影响时,由于MAC受到账号2的影响是在风险从账号2先扩散到IP之后,再经由IP扩散到MAC的,涉及到两个边,一个边连接账号2与IP,例如命名为边C,还有一个边连接IP与MAC,例如命名为边D,为此,需要确定边C的扩散系数和边D的扩散系数,具体的,也就需要确定边C的衰减系数、边C的风险传播概率和边C的边权重系数,以及边D的衰减系数、边D的风险传播概率和边D的边权重系数。也即风险从账号2扩散到MAC,需要经过边C的扩散系数和边D的扩散系数的两次影响。其他边的不同扩散系数同样根据该方法进行确定。
进一步的,在步骤101中,根据所述起始实体的风险概率以及所述每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定所述实体网络关系中的每一个实体的综合风险概率,如图5所示,具体包括以下步骤:
步骤1、以多个起始实体中的第N个起始实体为起点,确定与所述第N个起始实体相关联的多条风险传播路径,N为大于0的正整数。每一条风险传播路径是以某个起始实体为起点的遍历多个实体的风险单向传播通路,风险从起始实体开始,进过该通路,逐级传播通过该多个实体,并经历衰减;
步骤2、对于所述多条风险传播路径中的每一条风险传播路径,确定所述风险传播路径上的第M个实体是否已计算了所述第M个实体对于所述第N个起始实体的风险概率,M为大于0的正整数;
如已计算,则跳过并计算所述风险传播路径上的下一个第M+1个实体;
如没有计算,则计算所述第M个实体对于所述第N个起始实体的风险概率=第M-1个实体对于所述第N个起始实体的风险概率×所述第M-1个实体和所述第M个实体之间的边的扩散系数,之后跳转到计算所述风险传播路径上的下一个第M+1个实体;
步骤3、重复步骤2,直至对于所述第N个起始实体,计算完成了所有风险传播路径中的所有实体对于所述风险传播路径上的第N个起始实体的风险概率;
步骤4、对于所述多个起始实体中的第N+1个起始实体重复步骤1-3;直至计算了所述实体网络关系中的每一个实体对于所述多个起始实体中的每一个起始实体的风险概率;
步骤5、对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率。
具体的,由于实体网络关系中可能存在多个起始实体,针对每一个起始实体,会有一条或多条与该起始实体相关联的风险传播路径,例如图2中有两个起始实体,分别为账号1和账号2,其中以账号1为例来进行说明,该账号1作为起始实体,与之相关联的风险传播路径有四条,分别为:路径1:账号1-MAC4-IP1;路径2:账号1-MAC3;路径3:账号1-MAC5-IP3;路径4:账号1-MAC2-IP2。
具体的,如图2中的账号1作为起始实体,先计算路径1上的实体MAC4、IP1对于账号1的风险概率,具体的计算方式为:路径1上的第M个实体对于账号1的风险概率=第M-1个实体对于账号1的风险概率×第M-1个实体和第M个实体之间的边的扩散系数,以该路径1中的实体MAC4为例,首先判断MAC4对于账号1的风险概率未计算,则计算MAC4对于账号1的风险概率为账号1对于账号1的风险概率(即,账号1为起始实体,则即为账号1的风险概率)×连接MAC4与账号1的边的扩散系数;接下来,进展到路径1中的下一个实体IP1,判断IP1对于账号1的风险概率未计算,则将IP1对于账号1的风险概率计算为=MAC4对于账号1的风险概率×连接MAC4与IP1的边的扩散系数;若该路径还有其他的实体,按照该方法进行迭代处理,直到确定该路径上所有的实体对于账号1的风险概率。至于由账号1起始的其他风险传播路径,按照上述与路径1的相同方法进行处理,得到账号1的所有风险传播路径中所有实体对于账号1的风险概率。
另外若是由账号1起始的风险传播路径中,某一路径有与其他路径的重复部分,例如路径1为:账号1-MAC4-IP1;而还有路径5为:账号1-MAC4-IP2,其中MAC4以及连接MAC4与账号1的边是重复的。则例如在路径1中已计算了MAC4对于帐号1的风险概率的计算,则后续针对路径5的处理过程中,判断MAC4对于账号1的风险概率已被计算,则不再进行路径5中MAC4对于帐号1的风险概率的计算,而跳跃到路径5中的下一个实体IP2的计算。当然,该一个具体的例子中只有一个实体是重复的,若在重复部分中有多个实体,则这多个实体对于同一个起始实体的风险概率也只被计算一次。
以上只确定了对于一个起始实体的所有风险传播路径中所有实体对于该起始实体的风险概率,而事实上,实体网络关系中还可能有多个起始实体,例如图2中,还会有起始实体为账号2,关于账号2,重复进行上述针对账号1的相同的处理方式,确定账号2的所有风险传播路径中所有实体对于账号2的风险概率,若实体网络关系中还存在有其他的起始实体,按照同样的方式来确定与其他各起始实体相关联的风险传播路径中所有实体对于其他各起始实体的风险概率。由此最终确定了实体网络关系中所有实体对于每一个起始实体的风险概率。
由前述步骤,获取了实体网络关系中与每一个起始实体相关联的风险传播路径中所有实体对于该起始实体的风险概率,由于实体网络关系中的某些实体,例如以实体MAC1为例,可能会被多个起始实体影响,也即实体MAC1会有分别对于多个起始实体中的每一个起始实体的风险概率,针对这种情况,综合风险概率具体的确定方式为:对于实体网络关系中的任意实体a,汇总其分别对于多个起始实体中的每一个起始实体的风险概率,以得到该实体a的综合风险概率。计算公式为:Qi=1-(1-Ri1)×(1-Ri2)×…×(1-Rin);其中,Qi为实体i的综合风险概率,Ri1为实体i对于起始实体1的风险概率,Ri2为实体i对于起始实体2的风险概率,以此类推,Rin为实体i对于起始实体n的风险概率,在此已确定实体i受到起始实体1,2…n的风险影响。
在此以一个具体的例子来进行说明,如图4所示的实体MAC5,由于其受到两个起始实体,也即账号1和账号2的影响,假如MAC5对于账号1的风险概率为0.4,MAC5对于账号2的风险概率为0.3,则MAC5对于这两个起始实体的综合风险概率为:1-(1-0.4)×(1-0.3)=0.58,因此在进行汇总时,以实体MAC1受两个起始实体(例如分别为账号1和账号2)的影响为例来进行说明,确定MAC1的综合风险概率的汇总公式可以为QMAC1=1-(1-RMAC1-1)×(1-RMAC1-2),其中QMAC1为实体MAC1的综合风险概率,RMAC1为MAC1对于账号1的风险概率,RMAC1-2为MAC1对于账号2的风险概率。若是受到三个起始实体的影响,例如若MAC1还受到第三个起始实体(例如为账号3)的影响,则计算MAC1的综合风险概率的汇总公式可以为QMAC1=1-(1-RMAC1-1)×(1-RMAC1-2)×(1-RMAC1-3),RMAC1-3为MAC1对于账号3的风险概率。若受到其他数量的起始实体的影响,按照类似方式对公式进行拓展。
再例如,再次回到图3。如图3所示的实体之间的关系,账号1和账号2为黑名单中的实体,其风险概率都为1,如果连接账号1与MAC的边的扩散系数为0.5,那么实体MAC对于账号1的风险概率为0.5×1=0.5,MAC对于账号2的风险概率通过IP对于账号2的风险概率和连接IP与MAC的边的扩散系数确定,如果连接账号2与IP的边的扩散系数为0.,6,那么IP对于账号2的风险概率为0.6,如果连接IP与MAC的边的扩散系数为0.5,那么MAC对于账号2的风险概率为0.6×0.5=0.3,因此MAC的综合风险概率为1-(1-0.5)×(1-0.3)=0.85。
实体关系网络中的非黑实体关联到的黑名单中的实体的个数越多,那么该非黑实体的综合风险概率就越大,若实体网络关系中的某实体只关联到一个起始实体,则该实体对于这一个起始实体的风险概率同时也是该实体的综合风险概率。
在步骤102中,在确定了实体网络关系中各实体的综合风险概率之后,将各实体与对应的综合风险概率关联,构建风险网络,并基于风险网络处理各实体;其中构建的风险网络具体可以如图4所示。
具体的,基于风险网络处理各实体,包括:
根据各所述实体在所述风险网络中的综合风险概率、各所述实体的历史行为和各所述实体的静态属性,对各所述实体进行风险评估生成各所述实体的综合得分;
确定综合得分大于预先设定的阈值的实体,以确定出所述风险网络中风险最大的实体群;
基于各实体的综合得分,对各实体执行与综合得分对应的处理;
具体的,可部分地根据所述各实体的综合风险概率得出得分,也可以在其他实施例中,结合所述各实体的历史行为和/或所述各实体的静态属性对所述各实体进行计算,生成各实体的综合得分,该综合得分代表了该实体的风险情况,根据不同的计算方式,可以将得分最高的实体标记为风险最高(正向计分),或是将得分最低的实体标记为风险最高(负向计分);确定综合得分大于预先设定的阈值(对应的若是进行反向记分,则是低于预先设定的阈值)的实体,以确定出风险最大的实体群。
其中,当实体为账号时,所述静态属性至少可以包括如下的一个或多个:所述账号对应的证件号、注册时间、使用者年龄、资产数量、使用者职业,教育水平等。
当所述实体为除账号之外的其他实体时,所述静态属性包括:所述实体第一次出现的时间和与所述实体有关联的账号的数量。
具体的,所述实体的历史行为可以为经由所述实体进行过的交易,交易金额等行为信息,为了进一步避免由于个别原因导致个别的实体由于综合风险概率过大造成的误判,以及进一步确定风险过大的实体确实具有高风险,在确定出各实体的综合风险概率后,还要根据各实体的历史行为和静态属性对各实体进行风险评估,例如:当实体为账号时,当所述账号的综合风险概率为0.9时,但是其历史行为良好,如:在该账号上进行过很多次交易,交易的金额也比较大,同时,该账号注册了很长时间,注册时使用的证件号也是正确的,如:身份证号,或其他能够表明真实身份的其他证件号,那么表明可能是由于个别原因导致该账号的综合风险概率过高,该账号可能不具有高风险,因此需要再根据该账号的历史行为和静态属性对该账号重新进行风险评估,根据确定的综合得分来判断所述账号是否真的具有高风险,如果真的具有高风险,那么就需要将所述账号确定出来,以对所述账号进行与综合得分相应的处理,例如降低所述账号的信誉度、标识所述账号为风险过高的实体,或者直接对所述账号进行处罚,若账号不具备高风险,则可以将对其进行与综合得分相应的处理,例如加入白名单,或者标识该账号为风险很低的实体等等。
本公开中通过实体网络关系确定出连接各相邻实体的边的衰减系数、风险传播概率以及边权重系数,再根据上述确定出的信息确定各边的扩散系数,并基于以上信息与起始实体的风险概率逐一确定出各实体的综合风险概率,以根据确定出的综合风险概率判断非黑实体出现隐案的可能性,通过上述方法在挖掘隐案时涉及到了所有关联的实体,扩大了实体的覆盖率,并且准确率还得到了提高,同时,能够确定存在隐案的非黑实体是受哪些实体的影响,还能够支持实时性的隐案挖掘。
基于与上述方法同样的公开构思,本公开还提出了一种具有数据处理能力的设备,该设备可以为服务器,或者具有计算能力的终端设备,例如,便携式终端。该设备内部包括有多个模块,各个模块之间可以进行信息和/或数据的互联互通。该设备应用于包括多个实体的实体网络关系中,用于对实体网络关系中的实体进行数据处理,其中相邻两个实体之间通过边进行连接,风险经由所述边进行传播是有方向的,如图6所示,该设备包括:
第一确定模块601,用于根据起始实体的风险概率以及每一条边的扩散系数,按照风险传播的方向进行迭代处理,以确定所述实体网络关系中的每一个实体的综合风险概率;其中第一模块601具体可以为CPU(中央处理器)、GPU(图形处理器)或其他处理部件,并用于基于获取到起始实体的风险概率,每一条边的扩散系数,以及风险传播的方向,进行不断的迭代处理,计算出实体网络关系中的每一个实体的综合风险概率。
处理模块602,用于根据各实体的综合风险概率,来处理所述各实体。
具体的,所述起始实体具体为风险概率已知的实体;所述设备还包括:第二确定模块,用于基于所述实体网络关系确定所述每一条边的扩散系数,其中,具体的确定过程包括以下步骤:
步骤A、根据所述实体网络关系确定各所述边的衰减系数、各所述边的风险传播概率,以及各所述边的边权重系数;
步骤B、根据各所述边的衰减系数、各所述边的风险传播概率,各所述边的边权重系数三者的乘积来确定各所述边的扩散系数;
其中,各所述边的衰减系数是根据各所述边的业务属性来确定的;
各所述边的风险传播概率是根据各所述边所连接的相邻两个实体的历史行为而确定的;
各所述边的边权重系数是根据各所述边所连接的相邻两个实体发生的历史行为的次数来确定的。
所述第一确定模块601,具体用于执行以下步骤:
步骤1、以多个起始实体中的第N个起始实体为起点,确定与所述第N个起始实体相关联的多条风险传播路径,N为大于0的正整数;
步骤2、对于所述多条风险传播路径中的每一条风险传播路径,确定所述风险传播路径上的第M个实体是否已计算了所述第M个实体对于所述第N个起始实体的风险概率,M为大于0的正整数;此时,第一确定模块601对每一个实体都构建一个风险概率数据存储表,其中标注了该实体对于多个起始实体中的每一个起始实体的风险概率,在确定某个实体是否已进行了风险概率的计算时,可以通过查该风险概率数据存储表来实现,若能查到该实体对于某个起始实体的风险概率,则表示已进行了风险概率的计算;若是没有查到该实体对于某个起始实体的风险概率,则表示没有进行风险概率的计算;
如已计算,则跳过并计算所述风险传播路径上的下一个第M+1个实体;
如没有计算,则计算所述第M个实体对于所述第N个起始实体的风险概率=第M-1个实体对于所述第N个起始实体的风险概率×所述第M-1个实体和所述第M个实体之间的边的扩散系数,之后跳转到计算所述风险传播路径上的下一个第M+1个实体;
步骤3、重复步骤2,直至对于所述第N个起始实体,计算完成了所有风险传播路径中的所有实体对于第N个起始实体的风险概率;
步骤4、对于所述多个起始实体中的第N+1个起始实体重复步骤1-3;直至计算了所述实体网络关系中的每一个实体对于所述多个起始实体中的每一个起始实体的风险概率;
步骤5、对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率。
所述第一确定模块601对于所述实体网络关系中的每一个实体,根据其分别对于所述多个起始实体中的每一个起始实体的风险概率,计算所述每一个实体的综合风险概率,具体包括:
对于所述实体网络关系中的每一个实体,汇总所述每一个实体分别对于所述多个起始实体中的每一个起始实体的风险概率,以得到所述每一个实体的综合风险概率。
所述处理模块602,具体用于:
根据各实体的综合风险概率构建风险网络;
基于所述风险网络处理各实体。
其中,该处理模块602中可以包括图形化设备,在获取到各个实体的综合风险概率之后,在实体网络关系中各个实体对应的位置标注上该设备的综合风险概率。
所述处理模块602基于所述风险网络处理各实体,具体包括:
根据各所述实体在所述风险网络中的综合风险概率、各所述实体的历史行为和各所述实体的静态属性,对各所述实体进行风险评估生成各所述实体的综合得分;
确定综合得分大于预先设定的阈值的实体,以确定出所述风险网络中风险最大的实体群;
基于各所述实体的综合得分,对各所述实体执行与所述综合得分对应的处理;
其中,当实体为账号时,所述静态属性包括其中一个或多个的任意组合:所述账号对应的证件号,注册时间、使用者年龄、资产数量、使用者职业,教育水平;当所述实体为除账号之外的其他实体时,所述静态属性包括:所述实体第一次出现的时间和与所述实体有关联的账号的数量。
本公开中通过实体网络关系确定出连接各相邻实体的边的衰减系数、风险传播概率以及边权重系数,再根据上述确定出的信息确定各边的扩散系数,并基于以上信息与起始实体的风险概率逐一确定出各实体的综合风险概率,以根据确定出的综合风险概率判断非黑实体出现隐案的可能性,通过上述方法在挖掘隐案时涉及到了所有关联的实体,扩大了实体的覆盖率,并且准确率还得到了提高,同时,能够确定存在隐案的非黑实体是受哪些实体的影响,还能够支持实时性的隐案挖掘。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本公开可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
以上所述仅是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本公开的保护范围。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆分成多个子模块。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本公开的几个具体实施例,但是,本公开并非局限于此,任何本领域的技术人员能思之的变化都应落入本公开的保护范围。