一种高危交易主体的识别方法、装置及服务器
技术领域
本说明书涉及计算机技术领域,尤其涉及一种高危交易主体的识别方法、装置及服务器。
背景技术
随着移动互联网的蓬勃发展,越来越多的普通消费者选择使用支付宝等第三方支付工具代替现金支付完成交易。这些支付工具极大的方便了普通消费者,不管是去商店购物,菜市场买菜,还是乘坐公交地铁,只需要通过手机App就可以完成支付,不需要携带现金。第三方支付的蓬勃发展也使得一些影响资金数据安全的新型的风险开始出现。比如,一些商家通过虚假交易的方式来进行信用卡套现,欺诈,或者套取相关公司的营销资金。这些风险的出现,既扰乱了的正常的市场秩序,也给相关公司带来了巨大的损失。在此背景下,这种危害往往事后发生时才予以发现,而且此时危害规模或损失已经较大,事后补救往往人力和物理的成本都非常巨大,且成效微弱。由此需要更早识别出交易数据中的可能涉及高危交易行为和高危交易双方的潜在的影响数据安全的风险,迅速提供应对措施,从而及时防范并且大大降低可能的损失。
发明内容
鉴于上述问题,提出了本说明书以便提供一种克服上述问题或者至少部分地解决上述问题的识别高危交易主体的方法、装置及服务器。
第一方面,本说明书提供一种高危交易主体的识别方法,包括:收集交易数据信息,所述交易数据信息包括各交易主体的信息以及不同交易主体之间的交易记录,其中,所述交易主体的一部分为已知高危,另一部分为未知高危;根据所述各交易主体的信息以及不同交易主体之间的交易记录,获得所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络及其相关数据;根据所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络的相关数据,推算所述未知高危的交易主体为高危的概率;如果所述概率满足预置高危条件,则将所述未知高危的交易主体识别为高危。
第二方面,本说明书提供一种高危交易主体的识别装置,包括:交易数据收集单元,用于收集交易数据信息,所述交易数据信息包括各交易主体的信息以及不同交易主体之间的交易记录,其中,所述交易主体的一部分为已知高危,另一部分为未知高危;交易关系网络单元,用于根据所述各交易主体的信息以及不同交易主体之间的交易记录,获得所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络及其相关数据;概率推算单元,用于根据所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络的相关数据,推算所述未知高危的交易主体为高危的概率;高危交易主体识别单元,用于如果所述概率满足预置高危条件,则将所述未知高危的交易主体识别为高危。
第三方面,本说明书提供一种服务器,包括处理器和存储器:所述存储器用于存储上述任一项所述方法的程序;所述处理器被配置为用于执行所述存储器中存储的程序实现上述任一项所述方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本说明书上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在实施本说明书的技术方案中,通过构建交易关系网络,买家和卖家都存在于一个网络模型之中,因此只需要一个网络模型就可以同时找出高危买家和卖家,不需要为了分别找出高危买卖家而分别建模,从而能够有效、及时的帮助电商平台、第三方支付公司等防范或者降低可能的损失,保障公司业务的正常进行,维护正常的市场秩序。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本说明书的方案的一个应用场景例子的示意图;
图2为本说明书第一实施例中的一种高危交易主体的识别方法的流程图;
图3为本说明书第二实施例中的一种高危交易主体的识别装置的模块示意图;
图4为本说明书实施例提供的技术方案相关的服务器组成结构框图。
具体实施方式
下面通过附图以及具体实施例对本说明书技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例
请参考图1,本说明书的技术方案涉及的一个实施例的应用场景示意图。电商交易平台负责接入买家1、2……n,以及卖家1、2……n,在所述平台上促成买家和卖家的交易以及后续支付过程。所述平台中存有交易日志,其日志记录了每笔电商交易相关的数据信息,比如买家ID,卖家ID,交易类型、交易时间,交易金额,支付方式(比如信用卡、储蓄卡、货到付款等)、交易次数、交易总金额等字段信息。所述平台基于各种策略将各个电商交易相关数据信息发给高危交易主体的识别装置,用于识别高危新的交易主体及相关事件,从而识别出影响数据安全的新涉及到的高危买家和高危卖家,此种策略可以分为线上模式和离线模式。
线上模式采用平台实时将每笔交易数据都发给所述识别装置进行实时性的分析判断和高危交易识别,这样可以第一时间终止高危交易的继续进行,以防交易风险扩大,限制可能损失的范围。但线上模式对平台系统和所述识别装置的运载开销比较大,需要实时运算并占用较多平台系统资源及大量的处理带宽,尤其当所述平台支持的同时在线交易规模处于千万量级甚至亿级以上时,这种线上模式同时记录的交易数据量也异常庞大,比如双十一、双十二这种电商购物节的活动时段,本身活动集中爆发的交易量已经对平台系统的负荷非常巨大,再实时接入所述识别装置的数据处理交互,有可能对平台自身的交易业务产生巨大影响,所以在更多情况下,进一步可以采用离线模式对新的高危交易主体进行识别。
所述离线模式通过平台将一定时间间隔内(比如一周、一个月、一天)已经发生并记录的电商交易相关数据发给高危交易主体的识别装置进行分析。另一方面,所述识别装置不限于仅从上述平台获取交易数据,还可以通过其他途径收集一些电商交易相关数据,或者用爬虫技术等从其他平台抓取一些交易数据进行分析识别。这样通过离线模式进行高危交易主体的识别,虽然不是实时分析识别并反馈,但大大降低了平台的系统处理负担,基于管理员的配置也更加灵活。
请参考图2,本说明书第一实施例提供一种高危交易主体的识别方法,其包括如下步骤:
S201:收集交易数据信息,所述交易数据信息包括各交易主体的信息以及不同交易主体之间的交易记录,其中,所述交易主体的一部分为已知高危,另一部分为未知高危。
其中,需要收集和分析的交易数量可能是成千上万,甚至亿万级的海量数据,这些交易数据信息中包括各个交易主体的信息和不同交易主体之间的交易记录,例如买家和卖家的信息、买家和卖家之间发生的一对多、多对多、一对一的交易的记录等。
具体以电商交易为例,交易主体包括买家和卖家,买家和卖家之间可以是一对一的发生交易(即存在交易记录),也可以是多对一的形式发生交易,因此,此步骤收集到的交易数据信息需要进行策略上的筛选和限定,比如收集一定时间窗口内的交易数据信息(比如一周、一个月、三天等等),或者限定买家或卖家IP地址的交易数据信息,再或者限定买家注册日期、卖家开店日期、买家信用等级、卖家店铺信用等级,又或者限定一定交易金额范围内的交易数据信息等等。
另一方面,收集来源可以是通过电商交易平台发过来的日志中记录的交易相关的离线数据,也可以是从其他平台或途径获取到的交易数据,还有可能是通过爬虫技术抓取来的一些交易数据,用以对交易过程中的高危情况加以识别。
进一步地,收集到的电商交易的交易数据信息中,包括交易主体的信息以及不同交易主体之间的交易记录,其中,众多的交易主体中有一部分为已知高危的交易主体,另一部分为未知高危,即需要一部分已知为高危交易的数据信息,同时还需要一部分待识别是否为高危的交易的数据信息,对这些交易数据信息中对应的不同交易主体进行提取,例如买家和卖家,这些买家和卖家有部分是高危的买家和卖家,有部分是未知是否高危的买家和卖家。在后续构建的交易关系网络中要根据已知高危和未知高危的情况,为高危买家和高危卖家设置特殊的标签。具体例如,所述交易数据信息,包括但不限于,买家ID、卖家ID、交易类型、交易时间、交易金额、支付方式(比如信用卡、储蓄卡、货到付款等)、交易次数、和/或交易总金额等字段信息。另外收集到的交易数据信息可以先存储在数据库中待后续交易关系网络构建中使用。
S202:根据所述各交易主体的信息以及不同交易主体之间的交易记录,获得所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络及其相关数据。
其中,通过交易数据信息中的交易主体的信息和交易记录,可以将每个所述交易主体设置为节点,将存在交易记录的交易主体对应的节点之间进行无向边连接,从而构建所述交易关系网络。
以电商交易为例,作为交易主体的比如买家和卖家,分别设置为一个个独立的节点,然后将交易数据信息中提取的存在交易记录的两方节点(即做过交易的买家和卖家)以无向边连接,这样,形成一个交易关系网络或者一个交易关系网络图。其中所述无向边表示没有方向仅代表连接的边。
例如,对于交易中的每一个买家都作为交易关系网络中的一个节点,每一个卖家也作为交易关系网络中的一个节点,如果买家和卖家(即不同交易主体)之间有做过交易,则买卖家两个节点之间就连一条无向边。这样所有的节点、边就构成了一个表征买卖家交易关系的交易关系网络。
其中,根据所述各交易主体的信息,为已知高危的交易主体对应的节点和未知高危的交易主体对应的节点,分别设置不同的节点标签值;根据不同交易主体之间的交易记录,为节点之间连接的无向边设置权值;从而获得所述交易关系网络的相关数据,即该相关数据至少包括所述节点的标签值和权值。具体地,可以将已知高危的交易主体对应的节点的标签值设置为第一数值,表示该节点是已知高危的交易主体的节点,比如设置为1;将未知高危的交易主体对应的节点的标签值设置为不同于第一数值的第二数值,表示并非已经确认为高危的交易主体的节点,比如设置为0;并且根据不同交易主体之间的交易记录确定不同交易主体之间的交易次数,以该次数作为存在交易的节点之间的权值。
以电商交易为例,作为交易主体的比如买家和卖家作为交易关系网络中的节点,为这些节点设置。
标签,将已知高危交易的买家和卖家节点的标签值设置为1,其他(待识别的、未知是否高危)的买家和卖家节点的标签值设置为0。根据两方节点之间交易过的次数,设置所述无向边的权值。具体地,可以对买家和卖家的交易关系网络中的节点标签值和无向边的权值进行初始化。
例如,设置高危买家和高危卖家标签值都为1,非高危的买家或者卖家标签值为0,基于此情况下,可以将构建的交易关系网络中事先已知的这部分高危买家和卖家都标记为1。如果交易关系网络中买家Vi和卖家Vj之间交易过w次,则将节点Vi和Vj之间的无向边的权值Wij设为w。标签值1或0、无向边的权值(交易次数w)都作为交易关系网络中的相关数据。
S203:根据所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络的相关数据,推算所述未知高危的交易主体为高危的概率。
其中,根据所述交易关系网络的相关数据,比如交易关系网络中节点的标签值和无向边的权值,进行迭代收敛,从而推算出未知高危的交易主体转移为高危的概率,比如未知高危的交易主体对应的节点的标签值从0转移为1的概率。
具体地,可以根据节点的标签值以及节点之间连接的无向边的权值,分别定义标签概率矩阵及概率转移矩阵,并基于所述标签概率矩阵及概率转移矩阵进行迭代收敛。
其中,定义概率转移矩阵T包括:定义概率转移矩阵中的元素为交易关系网络中一节点向另一节点转移的概率。而定义标签概率矩阵Y包括:定义标签概率矩阵中的元素为交易关系网络中的节点标签值为1和标签值为0的概率。
以电商交易为例,买家节点和卖家节点的标签值,即0或1,已经根据其是否为已知高危的买家和卖家设置好,并确定了交易次数即无向边的权值w,然后进行风险传播,由已知高危的买家和卖家推算出未知是否高危的买家和卖家为高危的概率。然后根据这些标签值和权值,分别定义概率转移矩阵T及标签概率矩阵Y。定义概率转移矩阵中的元素为交易关系网络中一节点向另一节点转移的概率。定义标签概率矩阵中的元素为节点分别属于标签0和标签1的概率。进一步地,此步骤主要基于风险传播的原理,对于交易关系网络中的买家节点和卖家节点的标签进行迭代式更新,直到收敛。具体地,假设交易关系网络中共有k个节点(包括买家和卖家),随机的将这些节点标记为V_1,V_2,…,V_k,为了描述方便,我们定义一个k*k(即:有k行k列的方阵)的概率转移矩阵T,其中矩阵T中的元素Tij表示节点j向节点i转移的概率。Tij的计算方式如下:
Tij=Wij/sum_{i=1…k}Wi.j
这里的Wij为在前一个步骤中确定的节点i和节点j之间的权值w;sum_{i=1...k}Wij为所有节点与节点j之间的权值w之和。
同时,我们定义一个k*2(即:有k行2列的矩阵)的标签概率矩阵Y,其中第i行表示第i个节点分别属于标签0、标签1的概率,即:Yi0=P(i=0),Yi1=P(i=1)。对于在前一个步骤中,假设某节点m为标记为1的节点(即:已知节点m为一个高危的买家或者卖家),则将Ym0设置为0,Ym1设置为1。对于在前一个步骤中没有被标记的节点n,Yn0随机取一个【0,1】范围内的值,Ynl设置为1-Yn0。
进一步地,基于概率转移矩阵及标签概率矩阵对所述交易关系网络汇总的数据进行迭代收敛。其中,所述迭代收敛的结束条件包括:迭代次数超过指定的次数;和/或迭代后概率转移矩阵的取值与迭代前一次的取值相差低于设定的收敛判定值。假如,在定义好概率矩阵T和Y之后,对所述交易关系网络中的相关数据基于矩阵T、Y进行迭代的流程如下:
第一步,矩阵T和Y相乘后的值作为新的Y,即更新Y<-TY。
第二步,对于更新后的矩阵Y的每一行进行重新归一化。所述归一化具体地,先对这行所有元素值求和,然后对于每一个元素值都除以这个和值,这样就可以使得这一行的元素值归一化,即此行所有元素值加起来结果等于1。
第三步,重复上述第一步和第二步,直到收敛。此迭代收敛的结束条件可以为:概率矩阵Y的取值,在上一轮跟这一轮更新后的取值一样,或者相差很小,比如设置0.001的阈值;或者,迭代次数超过指定的迭代次数M。
迭代过程中,对于事先已知的高危买卖家的标签保持不变,即对于每一个已知的高危买卖家,属于标签1的概率为1,属于标签0的概率为0,迭代过程中保持不变。
S204:如果所述概率满足预置高危条件,则将所述未知高危的交易主体识别为高危。其中,可以对推算输出的概率结果进行识别,比如识别迭代收敛后输出的数据中,各个节点的标签值为1的概率。如果节点的标签值为1的概率大于了预先设置的高危阈值,则所述节点的标签值设置为1,并识别对应的未知高危的交易主体为高危。
以电商交易为例,可以通过已知高危的交易事件中的买家和卖家,根据交易关系网络中的交易次数和标签值的迭代收敛处理的输出数据来确定新的高危节点即高危买家和卖家,从而得到对应都交易双方为高危买家和卖家的高危交易事件。
具体地,对于步骤S203的最终收敛结果,如果买家节点i属于标签1的概率大于预先设置的高危阈值a1,则认为是高危买家,如果卖家节点j属于标签1的概率大于高危阈值a2,则认为其为高危卖家。这里买家高危阈值a1和卖家高危阈值a2的取值需要数据分析人员根据实际情况进行设定。比如,a1和a2的取值一般设置为明显不同,或稍有差异,但也可以设置相同,比如设置为0.5,只要大于0.5则判断为高危。但是,在具体场景里,可能对于覆盖率、准确率的要求不一样。如果对于准确率的要求特别高,那可以考虑设置一个大一些的阈值,比如,大于0.8的一个阈值。如果对于准确率要求没有特别高,希望尽量覆盖多的高危买家,即要求覆盖率更高的情况下,设置为0.5就可以。当然其准确率如何评估,需要使用这个方案的数据分析人员根据数据情况来自行评估,或者,综合考虑实际抽样,人工经验之后的准确度来进一步确定。
确定高危买家和高危卖家之后,如果某一条交易的买卖家双方都是高危,则该交易也标记为高危交易事件,进而,还可以一并将识别出的新的高危的买家、卖家、交易事件等输出。
需要补充说明的是:1.已知的高危买家、高危卖家可以来源为业务规则识别、或者其他虚假交易模型识别、或者来自举报投诉等等。2.如果高危买卖家的来源比较稳定,比如其他业务规则每日都有识别一批高准确度的高危买卖家,则上述流程可以每日运行一次,每日产出。
本说明书实施例采用将交易数据信息转换成交易关系网络之后,高危交易主体,比如买家和卖家,将自己的风险向跟他关系紧密的买家/卖家扩散,被扩散的买卖家在继续往周围扩散。等于,在训练过程中,既利用了有标签的高危买卖家这部分信息,也利用了部分没有标签的买卖家的信息。这样的话,在训练时候,就不需要特别多的标签,适合标签不多的情况。由此可见,本说明书实施例属于半监督的方法,训练中同时使用了部分有标签的数据、无标签的数据进行计算,因而对于标签数据的依赖相对小一些。本说明书实施例主要使用的是交易主体比如买卖家之间的交易关系信息,如果买卖家之间交易次数越多,则他们的危险程度越相似,这样不需要额外耗费大量时间计算额外的特征,工作量相对较小,基于交易关系网络的风险传播,很好的保存了买卖家之间的交易关系信息。
请参照图3,本说明书第二实施例还提供了一种高危交易主体的识别装置,包括:
交易数据收集单元301,用于收集交易数据信息,所述交易数据信息包括各交易主体的信息以及不同交易主体之间的交易记录,其中,所述交易主体的一部分为已知高危,另一部分为未知高危。交易主体例如交易中的买家和卖家,其中可以有已知高危的买家和卖家,也有未知是否高危的买家和卖家等待识别。
交易关系网络单元302,用于根据所述各交易主体的信息以及不同交易主体之间的交易记录,获得所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络及其相关数据。
概率推算单元303,用于根据所述已知高危的交易主体与所述未知高危的交易主体之间的交易关系网络的相关数据,推算所述未知高危的交易主体为高危的概率。
高危交易主体识别单元304,用于如果所述概率满足预置高危条件,则将所述未知高危的交易主体识别为高危。
具体的,在本实施例中,此高危交易主体的识别装置通常设置在服务器中,也可以设置在服务器集群中,还可以设置在终端设备,如手机、ipad、平板电脑、笔记本电脑等设备,还可以是台式电脑等设备,当然还可以是其它电子设备,在此,本说明书不做限制。开户服务系统进行开户任务处理的方法已在前述第一实施例中进行详细阐述,在此,本实施例不再赘述。
交易数据收集单元301,具体地,需要收集和分析的交易数量可能是成千上万,甚至亿万级的海量数据。这些交易数据信息中包括各个交易主体的信息和不同交易主体之间的交易记录,例如买家和卖家的信息、买家和卖家之间发生的一对多、多对多、一对一的交易的记录等。
以电商交易为例,交易主体包括买家和卖家,买家和卖家之间可以是一对一的发生交易(即存在交易记录),也可以是多对一的形式发生交易,因此,此步骤收集到的交易数据信息需要进行策略上的筛选和限定,比如收集一定时间窗口内的交易数据信息(比如一周、一个月、三天等等),或者限定买家或卖家IP地址的交易数据信息,再或者限定买家注册日期、卖家开店日期、买家信用等级、卖家店铺信用等级,又或者限定一定交易金额范围内的交易数据信息等等。
另一方面,收集来源可以是通过电商交易平台发过来的日志中记录的交易相关的离线数据,也可以是从其他平台或途径获取到的交易数据,还有可能是通过爬虫技术抓取来的一些交易数据,用以对交易过程中的高危情况加以识别。
进一步地,收集到的电商交易的交易数据信息中,包括交易主体的信息以及不同交易主体之间的交易记录,其中,众多的交易主体中有一部分为已知高危的交易主体,另一部分为未知高危,即需要一部分已知为高危交易的数据信息,同时还需要一部分待识别是否为高危的交易的数据信息,对这些交易数据信息中对应的不同交易主体进行提取,例如买家和卖家,这些买家和卖家有部分是高危的买家和卖家,有部分是未知是否高危的买家和卖家。在后续构建的交易关系网络中要根据已知高危和未知高危的情况,为高危买家和高危卖家设置特殊的标签。具体例如,所述交易数据信息,包括但不限于,买家ID、卖家ID、交易类型、交易时间、交易金额、支付方式(比如信用卡、储蓄卡、货到付款等)、交易次数、和/或交易总金额等字段信息。另外收集到的交易数据信息可以先存储在数据库中待后续交易关系网络构建中使用。
交易关系网络单元302,具体可以通过交易数据信息中的交易主体的信息和交易记录,将每个所述交易主体设置为节点,将存在交易记录的交易主体对应的节点之间进行无向边连接,从而构建所述交易关系网络。
以电商交易为例,作为交易主体的比如买家和卖家,分别设置为一个个独立的节点,然后将交易数据信息中提取的存在交易记录的两方节点(即做过交易的买家和卖家)以无向边连接,这样,形成一个交易关系网络或者一个交易关系网络图。其中所述无向边表示没有方向仅代表连接的边。
例如,对于交易中的每一个买家都作为交易关系网络中的一个节点,每一个卖家也作为交易关系网络中的一个节点,如果买家和卖家(即不同交易主体)之间有做过交易,则买卖家两个节点之间就连一条无向边。这样所有的节点、边就构成了一个表征买卖家交易关系的交易关系网络。
其中,根据所述各交易主体的信息,为已知高危的交易主体对应的节点和未知高危的交易主体对应的节点,分别设置不同的节点标签值;根据不同交易主体之间的交易记录,为节点之间连接的无向边设置权值;从而获得所述交易关系网络的相关数据,即该相关数据至少包括所述节点的标签值和权值。具体地,可以将已知高危的交易主体对应的节点的标签值设置为第一数值,表示该节点是已知高危的交易主体的节点,比如设置为1;将未知高危的交易主体对应的节点的标签值设置为不同于第一数值的第二数值,表示并非已经确认为高危的交易主体的节点,比如设置为0;并且根据不同交易主体之间的交易记录确定不同交易主体之间的交易次数,以该次数作为存在交易的节点之间的权值。
以电商交易为例,作为交易主体的比如买家和卖家作为交易关系网络中的节点,为这些节点设置标签,将已知高危交易的买家和卖家节点的标签值设置为1,其他(待识别的、未知是否高危)的买家和卖家节点的标签值设置为0。根据两方节点之间交易过的次数,设置所述无向边的权值。具体地,可以对买家和卖家的交易关系网络中的节点标签值和无向边的权值进行初始化。
例如,设置高危买家和高危卖家标签值都为1,非高危的买家或者卖家标签值为0,基于此情况下,可以将构建的交易关系网络中事先已知的这部分高危买家和卖家都标记为1。如果交易关系网络中买家Vi和卖家Vj之间交易过w次,则将节点Vi和Vj之间的无向边的权值Wij设为w。标签值1或0、无向边的权值(交易次数w)都作为交易关系网络中的相关数据。
概率推算单元303,还根据所述交易关系网络的相关数据,比如交易关系网络中节点的标签值和无向边的权值,进行迭代收敛,从而推算出未知高危的交易主体转移为高危的概率,比如未知高危的交易主体对应的节点的标签值从0转移为1的概率。
具体地,可以根据节点的标签值以及节点之间连接的无向边的权值,分别定义标签概率矩阵及概率转移矩阵,并基于所述标签概率矩阵及概率转移矩阵进行迭代收敛。
其中,定义概率转移矩阵T包括:定义概率转移矩阵中的元素为交易关系网络中一节点向另一节点转移的概率。而定义标签概率矩阵Y包括:定义标签概率矩阵中的元素为交易关系网络中的节点标签值为1和标签值为0的概率。
以电商交易为例,买家节点和卖家节点的标签值,即0或1,已经根据其是否为已知高危的买家和卖家设置好,并确定了交易次数即无向边的权值w,然后进行风险传播,由已知高危的买家和卖家推算出未知是否高危的买家和卖家为高危的概率。然后根据这些标签值和权值,分别定义概率转移矩阵T及标签概率矩阵Y。定义概率转移矩阵中的元素为交易关系网络中一节点向另一节点转移的概率。定义标签概率矩阵中的元素为节点分别属于标签0和标签1的概率。进一步地,此步骤主要基于风险传播的原理,对于交易关系网络中的买家节点和卖家节点的标签进行迭代式更新,直到收敛。具体地,假设交易关系网络中共有k个节点(包括买家和卖家),随机的将这些节点标记为V_1,V_2,…,V_k,为了描述方便,我们定义一个k*k(即:有k行k列的方阵)的概率转移矩阵T,其中矩阵T中的元素Tij表示节点j向节点i转移的概率。Tij的计算方式如下:
Tij=Wij/sum_{i=1…k}Wij
这里的Wij为在前一个步骤中确定的节点i和节点j之间的权值w;sum_{i=1...k}Wij为所有节点与节点j之间的权值w之和。
同时,我们定义一个k*2(即:有k行2列的矩阵)的标签概率矩阵Y,其中第i行表示第i个节点分别属于标签0、标签1的概率,即:Yi0=P(i=0),Yi1=P(i=1)。对于在前一个步骤中,假设某节点m为标记为1的节点(即:已知节点m为一个高危的买家或者卖家),则将Ym0设置为0,Ym1设置为1。对于在前一个步骤中没有被标记的节点n,Yn0随机取一个【0,1】范围内的值,Yn1设置为1-Yn0。
进一步地,基于概率转移矩阵及标签概率矩阵对所述交易关系网络汇总的数据进行迭代收敛。其中,所述迭代收敛的结束条件包括:迭代次数超过指定的次数;和/或迭代后概率转移矩阵的取值与迭代前一次的取值相差低于设定的收敛判定值。假如,在定义好概率矩阵T和Y之后,对所述交易关系网络中的相关数据基于矩阵T、Y进行迭代的流程如下:
第一步,矩阵T和Y相乘后的值作为新的Y,即更新Y<-TY。
第二步,对于更新后的矩阵Y的每一行进行重新归一化。所述归一化具体地,先对这行所有元素值求和,然后对于每一个元素值都除以这个和值,这样就可以使得这一行的元素值归一化,即此行所有元素值加起来结果等于1。
第三步,重复上述第一步和第二步,直到收敛。此迭代收敛的结束条件可以为:概率矩阵Y的取值,在上一轮跟这一轮更新后的取值一样,或者相差很小,比如设置0.001的阈值;或者,迭代次数超过指定的迭代次数M。
迭代过程中,对于事先已知的高危买卖家的标签保持不变,即对于每一个已知的高危买卖家,属于标签1的概率为1,属于标签0的概率为0,迭代过程中保持不变。
高危交易主体识别单元304,还可以对推算输出的概率结果进行识别,比如识别迭代收敛后输出的数据中,各个节点的标签值为1的概率。如果节点的标签值为1的概率大于了预先设置的高危阈值,则所述节点的标签值设置为1,并识别对应的未知高危的交易主体为高危。
以电商交易为例,可以通过已知高危的交易事件中的买家和卖家,根据交易关系网络中的交易次数和标签值的迭代收敛处理的输出数据来确定新的高危节点即高危买家和卖家,从而得到对应都交易双方为高危买家和卖家的高危交易事件。
具体地,对于概率推算单元303的最终收敛结果,如果买家节点i属于标签1的概率大于预先设置的高危阈值a1,则认为是高危买家,如果卖家节点j属于标签1的概率大于高危阈值a2,则认为其为高危卖家。这里买家高危阈值a1和卖家高危阈值a2的取值需要数据分析人员根据实际情况进行设定。比如,a1和a2的取值一般设置为明显不同,或稍有差异,但也可以设置相同,比如设置为0.5,只要大于0.5则判断为高危。但是,在具体场景里,可能对于覆盖率、准确率的要求不一样。如果对于准确率的要求特别高,那可以考虑设置一个大一些的阈值,比如,大于0.8的一个阈值。如果对于准确率要求没有特别高,希望尽量覆盖多的高危买家,即要求覆盖率更高的情况下,设置为0.5就可以。当然其准确率如何评估,需要使用这个方案的数据分析人员根据数据情况来自行评估,或者,综合考虑实际抽样,人工经验之后的准确度来进一步确定。
确定高危买家和高危卖家之后,如果某一条交易的买卖家双方都是高危,则该交易也标记为高危交易事件,进而,还可以一并将识别出的新的高危的买家、卖家、交易事件等输出。
需要补充说明的是:1.已知的高危买家、高危卖家可以来源为业务规则识别、或者其他虚假交易模型识别、或者来自举报投诉等等。2.如果高危买卖家的来源比较稳定,比如其他业务规则每日都有识别一批高准确度的高危买卖家,则上述流程可以每日运行一次,每日产出。
本说明书实施例采用将交易数据信息转换成交易关系网络之后,高危交易主体,比如买家和卖家,将自己的风险向跟他关系紧密的买家/卖家扩散,被扩散的买卖家在继续往周围扩散。等于,在训练过程中,既利用了有标签的高危买卖家这部分信息,也利用了部分没有标签的买卖家的信息。这样的话,在训练时候,就不需要特别多的标签,适合标签不多的情况。由此可见,本说明书实施例属于半监督的方法,训练中同时使用了部分有标签的数据、无标签的数据进行计算,因而对于标签数据的依赖相对小一些。本说明书实施例主要使用的是交易主体比如买卖家之间的交易关系信息,如果买卖家之间交易次数越多,则他们的危险程度越相似,这样不需要额外耗费大量时间计算额外的特征,工作量相对较小,基于交易关系网络的风险传播,很好的保存了买卖家之间的交易关系信息。
具体地,图4示出的与本说明书实施例提供的技术方案相关的服务器组成结构框图,总线400可以包括任意数量的互联的总线和桥,其将包括由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403在总线400和接收器和/或发送器404之间提供接口,接收器和/或发送器404可以是分开独立的接收器或发送器也可以是同一个元件如收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器401负责管理总线400和通常的处理,而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
基于这样的理解,本说明书实现上述第一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。