一种识别模型的训练方法、装置及电子设备
技术领域
本申请实施例涉及风险识别技术领域,尤其涉及一种识别模型的训练方法、 装置及电子设备。
背景技术
非法金融活动(如赌博、传销、刷单、套现等)是支付平台管理体系的重 点防控对象。目前,传统的用于识别用户参与非法金融活动的深度学习模型是 基于交易样本数据中的交易特征所训练得到的,模型的识别完全依赖于交易特 征。随着对抗的升级,已有一部分团伙在参与非法金融活动时会刻意规避掉这 些交易特征,以绕开模型的识别监管。
有鉴于此,如何提高模型对参与非法金融活动的用户的识别能力,是本申 请所要解决的技术问题。
发明内容
本申请实施例目的是提供一种识别模型的训练方法、装置及电子设备,能 够提高模型对参与非法金融活动的用户的识别能力。
为了实现上述目的,本申请实施例是这样实现的:
第一方面,提供一种识别模型的训练方法,包括:
基于交易样本集,构建关于支付方和被支付方的二部图,所述交易样本集 中的交易样本对应有标签;
基于社区发现算法,对所述二部图中支付方和被支付方划分社区;
将被支付方所属社区在二部图中的图特征作为识别模型的输入,将被支付 方所属交易样本对应的标签作为所述识别模型的输出,对所述识别模型进行训 练。
第二方面,提供一种识别模型的训练装置,包括:
二部图构建模块,基于交易样本集,构建关于支付方和被支付方的二部图; 所述交易样本集中的交易样本对应有标签;
社区发现模块,基于社区发现算法,对所述二部图中支付方和被支付方划 分社区;
模型训练模块,将被支付方所属社区在二部图中的图特征作为识别模型的 输入,将被支付方所属交易样本对应的标签作为所述识别模型的输出,对所述 识别模型进行训练。
第三方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器 上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
基于交易样本集,构建关于支付方和被支付方的二部图;所述交易样本集 中的交易样本对应有标签;
基于社区发现算法,对所述二部图中支付方和被支付方划分社区;
将被支付方所属社区在二部图中的图特征作为识别模型的输入,将被支付 方所属交易样本对应的标签作为所述识别模型的输出,对所述识别模型进行训 练。
第四方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储 有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
基于交易样本集,构建关于支付方和被支付方的二部图;所述交易样本集 中的交易样本对应有标签;
基于社区发现算法,对所述二部图中支付方和被支付方划分社区;
将被支付方所属社区在二部图中的图特征作为识别模型的输入,将被支付 方所属交易样本对应的标签作为所述识别模型的输出,对所述识别模型进行训 练。
由以上本申请实施例提供的技术方案可见,本申请实施例基于交易样本集, 构建支付方和被支付方的二部图,之后对二部图中的支付方和被支付方划分社 区,利用被支付方所属社区在二部图中的图特征训练识别模型,从而丰富模型 识别内在稽核的关联内因,可显著提高识别模型的覆盖率和准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的识别模型的训练方法的第一种步骤示意图。
图2为本申请实施例提供的识别模型的训练方法的第二种步骤示意图。
图3为本申请实施例提供的识别模型的训练装置的结构示意图。
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基 于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都应当属于本申请保护的范围。
如前所述,目前传统的用于识别用户参与非法金融活动的学习模型是基于 交易样本集的交易特征训练得到的。随着对抗的升级,用户在参与非法金融活 动时会刻意规避一些交易特征,以绕开识别模型的监管,使得识别模型的覆盖 率和准确率不佳。有鉴于此,本申请旨在提供一种能够提高识别模型性能的技 术方案。
图1是本申请实施例识别模型的训练方法的流程图。图1所示的方法可以 由下文相对应的装置执行,包括:
步骤S102,基于交易样本集,构建关于支付方和被支付方的二部图,交易 样本集中的交易样本对应有标签。
针对步骤S102而言:
交易样本集中的交易样本可以分为黑白样本,并由标签进行标示。每个交 易样本对应有不少于一个的支付方和被支付方。其中,支付方和被支付方作为 二部图的节点,支付方和被支付方之间的交易关系作为二部图的边。
步骤S104,基于社区发现算法,对二部图中支付方和被支付方划分社区。
针对步骤S104而言:
社区是指网络中的一组节点间具有较大的相似性,从而形成的一种内部连 接紧密,而外部稀疏的群体结构。社区反映的是网络中的个体行为的局部性特 征以及其相互之间的关联关系。
非法金融活动能够体现出支付方与被支付方间的聚集关系,因此本步骤通 过对二部图进行社区发现,可以找到非法金融活动的社交圈,从而获取社交圈 的隐性特征。
其中需要给予说明的是,社区发现算法并不唯一,可以但不限于是标签传 播算法或Louvain算法,本申请实施例不对其作具体限定。
步骤S106,将被支付方所属社区在二部图中的图特征作为识别模型的输入, 将被支付方所属交易样本对应的标签作为所述识别模型的输出,对识别模型进 行训练。
针对步骤S106而言:
本步骤以有监督的方式对识别模型进行训练。在训练过程中,将图特征输 入至识别模型后,可以得到识别模型所输出的训练结果。之后,根据最大似然 估计所推导出的损失函数计算训练结果与实际结果(实际结果为标签指示的结 果,比如黑样本的标签指示交易样本为非法金融活动)的误差,并以降低误差 为目的,优化调整学习模型中图特征所对应的权重值,以实现训练意义。
其中,被支付方所属社区在二部图中的图特征可以但不限于是:被支付方 所属社区在二部图中的标签浓度(黑样本对应的标签浓度)、度中心性、相对 中介度、相对紧密度以及成员数量(被支付方所属社区包含的支付方与被支付 方的数量总和)等。
应理解,这些图特征能够反映出支付方与被支付方之间的聚集关系,因此 训练完成后的识别模型能够以社区中隐性特征为因子,推测识别出参与非法金 融活动的用户。
通过图1所示的训练方法可以知道,本申请实施例基于交易样本集构建支 付方和被支付方的二部图,之后对二部图中的支付方和被支付方划分社区,利 用被支付方所属社区在二部图中的图特征训练识别模型,从而丰富模型识别内 在稽核的关联内因,可显著提高识别模型的覆盖率和准确率。
下面对本申请实施例的训练方法进行详细介绍。
本申请实施例的训练方法的主要流程包括:
步骤S201,基于支付方与被支付方的交易明细,构建由黑白样本组成的交 易样本集。
其中,支付方和被支付方是否参与非法金融活动是已知信息,本步骤将参 与非法金融活动的支付方和被支付方之间的交易明细作为黑样本,并以黑样本 对应的标签进行标注;同理,将参与合法金融活动的支付方和被支付方之间的 交易明细作为白样本,并以白样本对应的标签进行标注。
步骤S202,基于交易样本集,构建关于支付方和被支付方的二部图。
其中,二部图G=(V,E)是一个无向图,顶点V可分割为两个互不相交的 子集(A,B)。子集A由支付方组成,子集B由被支付方组成,并且图中的每 条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B)。
步骤S203,对二部图的边进行筛选处理,降低后续对二部图划分社区的计 算复杂度。
其中,本步骤可以基于已有的k-core算法,或者muliti-kcore算法,对二 部图进行切边过滤。
以基于k-core算法进行切边过滤为例,本步骤可以计算二部图中每个顶点 的core值。对于core值小于k的顶点,则将其以及关联的边从二部图中删除。 之后,更新二部图中剩余顶点的core值,并继续删除二部图中core值小于k 的顶点以及关联的边。在迭代一定次数之后,达到过滤的目的。
步骤S204,对二部图中支付方和被支付方划分社区。
具体地,本步骤迭代执行子步骤a)至子步骤c):
a)构建与二部图的节点一一对应的社区;其中,二部图的支付方和被支 付方作为二部图的初始节点。
b)基于节点针对各个社区的模块度增量,确定节点对应的目标社区,并 将节点归入至对应的目标社区内,直到所有节点的所属社区不再变化。
需要说明的是,模块度增量是根据节点的边权重和环权重所确定得到,由 于属于现有技术,本文不再举例赘述。
c)将归入至同一社区的所有节点合并为一个新节点,使得合并前社区内节 点之间的边权重转化为合并后新节点的环权重,合并前社区间的边权重转化为 合并后新节点间的边权重;其中,合并而成的新节点作为二部图更新后的节点; 若本轮迭代构建的社区与上轮迭代构建的社区之间的差异社区数量小于或等 于预设阈值,则迭代结束;或者,若本轮迭代达到预设迭代次数,则迭代结束。
其中,本步骤可以将迭代过程中构建得到的二部图的社区以及社区包含的 支付方和被支付方,或者将最后一轮迭代过程中构建得到的所述二部图的社区 以及社区包含的支付方和被支付方,作为二部图的社区发现结果。
步骤S205,将被支付方所属交易样本对应的交易特征和被支付方所属社区 在二部图中的图特征作为识别模型的输入,将被支付方所属交易样本对应的标 签作为识别模型的输出,对识别模型进行训练。
应理解,训练后的识别模型将二部图中具有社区性质的图特征添加为内在 稽核的关联内因,从而不再仅依赖于有限的样本数据中的交易特征进行风险识 别,可以显著提高识别的覆盖率以及准确率。
下面对本申请实施例的训练方法的实际应用,进行详细介绍。
本申请实施例的训练方法可以训练用于识别支付平台中的涉赌商户。
具体地,本申请实施例的训练方法对支付平台进行数据采集,得到近期(如 最近7天内)的作为支付方的已知涉赌买家与作为被支付方的已知涉赌商户之 间的交易样本集。
在得到交易样本集后,构建涉赌买家-涉赌商户的二部图,并如前所述, 可以采用k-core算法或者muliti-kcore算法,对二部图进行切边过滤。
之后,采用Louvain算法,对二部图进行社区发现,包括:
a)将二部图的每个节点看成一个独立的社区,社区与节点一一对应。
b)对每个节点i,依次尝试把节点i分配到其每个邻居节点所在的社区, 计算分配前与分配后的模块度变化ΔQ,并记录ΔQ最大的那个邻居节点,如 果maxΔQ>0,则把节点i分配ΔQ最大的那个邻居节点所在的社区,否则保 持不变。
c)重复b),直到所有节点的所属社区不再变化。
d)对二部图进行压缩,将所有在同一个社区的节点压缩成一个新节点, 原社区内节点之间的边的权重转化为新节点的环权重,原社区间的边权重转化 为新节点间的边权重。
重复a)-d)直到整个二部图的模块度不再发生变化。
之后,基于社区发现结果,计算涉赌商户在二部图的团伙大小、团伙中已 知赌徒浓度、度中心性、相对中介度、相对紧密度来做图特征。
最后,基于图特征对传统的深度学习模型进行训练;或者,重新构建一个 新的深度学习模型,并基于图特征以及涉赌商户在交易样本集中呈现的交易特 征,对深度学习模型进行训练。
在训练完成后,深度学习模型可以根据赌博活动中的呈聚集性的隐性特征, 来识别涉赌商户。比如,支付平台中的交易数据反应出的某一社区中涉赌用户 的浓度大于一定标准时,可以将该社区未记录的商户标记为涉赌商户或者是候 选涉赌商户。
应理解,识别模型具体采用的函数类别并不唯一,本申请实施例对此不作 具体限定。作为示例介绍,识别模型可以采用的函数可以但不限于是:
迭代决策树模型函数、逻辑回归模型函数、随机森林模型函数、朴素贝叶 斯型函数中的任一者。
以上是对本申请实施例的训练方法的介绍。在不脱离本文上述原理基础之 上,还可以进行适当的变化,这些变化也应视为本申请实施例的保护范围。
与上述训练方法相对应地,如图3所示,本申请实施例还提供一种训练装 置300,包括:
二部图构建模块310,基于交易样本集,构建关于支付方和被支付方的二 部图,所述交易样本集中的交易样本对应有标签。
其中,交易样本集中的交易样本可以分为黑白样本,并由标签进行标示。 每个交易样本对应有不少于一个的支付方和被支付方。其中,支付方和被支付 方作为二部图的节点,支付方和被支付方之间的交易关系作为二部图的边。
社区发现模块320,基于社区发现算法,对所述二部图中支付方和被支付 方划分社区。
社区是指网络中的一组节点间具有较大的相似性,从而形成的一种内部连 接紧密,而外部稀疏的群体结构。社区反映的是网络中的个体行为的局部性特 征以及其相互之间的关联关系。
非法金融活动能够体现出支付方与被支付方间的聚集关系,因此社区发现 模块320通过对二部图进行社区发现,可以找到非法金融活动的社交圈,从而 获取社交圈的隐性特征。
其中需要给予说明的是,社区发现算法并不唯一,可以但不限于是标签传 播算法或Louvain算法,本申请实施例不对其作具体限定。
模型训练模块330,将被支付方所属社区在二部图中的图特征作为识别模 型的输入,将被支付方所属交易样本对应的标签作为所述识别模型的输出,对 所述识别模型进行训练。
其中,模型训练模块330采用有监督的方式对识别模型进行训练。在训练 过程中,将图特征输入至识别模型后,可以得到识别模型所输出的训练结果。 之后,根据最大似然估计所推导出的损失函数计算训练结果与实际结果(实际 结果为标签指示的结果)的误差,并以降低误差为目的,优化调整学习模型中 图特征所对应的权重值,以实现训练意义。
其中,被支付方所属社区在二部图中的图特征可以但不限于是:被支付方 所属社区在二部图中的标签浓度(黑样本对应的标签浓度)、度中心性、相对 中介度、相对紧密度以及成员数量(被支付方所属社区包含的支付方与被支付 方的数量总和)等。
应理解,这些图特征能够反映出支付方与被支付方之间的聚集关系,因此 训练完成后的识别模型能够以社区中隐性特征为因子,推测识别出参与非法金 融活动的用户。
通过图3所示的训练装置可以知道,本申请实施例基于交易样本集构建支 付方和被支付方的二部图,之后对二部图中的支付方和被支付方划分社区,利 用被支付方所属社区在二部图中的图特征训练识别模型,从而丰富模型识别内 在稽核的关联内因,可显著提高识别模型的覆盖率和准确率。
下面对本申请实施例的训练装置进行详细介绍。
具体地,本申请实施例的社区发现模块320在对二部图中支付方和被支付 方划分社区时,具体用于迭代执行以下过程:
构建与所述二部图的节点一一对应的社区;基于节点针对各个社区的模块 度增量,确定节点对应的目标社区,并将节点归入至对应的目标社区内;将归 入至同一社区的所有节点合并为一个新节点;其中,合并而成的新节点作为所 述二部图更新后的节点,所述二部图的支付方和被支付方作为所述二部图的初 始节点;若本轮迭代构建的社区与上轮迭代构建的社区之间的差异社区数量小 于或等于预设阈值,则迭代结束;或者,若本轮迭代达到预设迭代次数,则迭 代结束。
其中,社区发现模块320可以将迭代过程中构建得到的所述二部图的社区 以及社区包含的支付方和被支付方,或者将最后一轮迭代过程中构建得到的所 述二部图的社区以及社区包含的支付方和被支付方,作为所述二部图的社区发 现结果。
在获得二部图中支付方和被支付方的社区划分结果后,模型训练模块330 即可基于将被支付方所属社区在二部图中的图特征,对识别模型进行训练。
在实际应用中,模型训练模块330可以对新建立的识别模型进行训练,即 模型训练模块330将被支付方所属交易样本对应的交易特征和被支付方所属社 区在二部图中的图特征作为识别模型的输入,将被支付方所属交易样本对应的 标签作为识别模型的输出,对识别模型进行训练。应理解,训练后的识别模型 可以结合本申请新引入的图特征以及传统的交易特征,对被支付方是否参与非 法金融活动的进行识别。
或者,模型训练模块330也可以对传统的识别模型进行训练,即模型训练 模块330只需要将被支付方所属交易样本对应的交易特征作为识别模型的输入, 将被支付方所属交易样本对应的标签作为识别模型的输出,对识别模型进行训 练。
应理解,训练后的识别模型将二部图中具有社区性质的图特征添加为内在 稽核的关联内因,从而不再仅依赖于有限的样本数据中的交易特征进行风险识 别,可以显著提高识别的覆盖率以及准确率。
此外,在本申请实施例还可以对二部图中的边进行简化,以降低计算负载 度。即在上述基础之上,本申请实施例的训练装置还包括:
切边模块,用于基于K-Core算法,对二部图的边进行筛选处理,从而降 低后续社区发现模块320对二部图划分社区的计算复杂度。
其中,切边模块可以计算二部图中每个顶点的core值。对于core值小于k 的顶点,则将其以及关联的边从二部图中删除。之后,更新二部图中剩余顶点 的core值,并继续删除二部图中core值小于k的顶点以及关联的边。在迭代 一定次数之后,达到过滤的目的。
在实际应用中,本申请实施例的识别模型可以用于识别任何类别的非法金 融活动的风险。非法金融活动可以但不限于是:赌博、传销、刷单、套现、借 贷等。
作为示例性介绍,若识别模型为用于识别赌博风险的深度学习模型,则交 易样本集可以包括:作为支付方的已知涉赌买家与作为被支付方的已知涉赌商 户之间的交易明细。
显然,本申请实施例的训练装置可以作为上述图1所示的训练方法的执行 主体,因此该训练装置能够实现训练方法在图1和图2所实现的功能。由于原 理相同,本文不再赘述。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件 层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。 其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory, RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个 磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以 是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总 线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但 并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码 包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提 供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在 逻辑层面上形成问答对数据挖掘装置。处理器,执行存储器所存放的程序,并 具体用于执行以下操作:
基于交易样本集,构建关于支付方和被支付方的二部图,所述交易样本集 中的交易样本对应有标签。
基于社区发现算法,对所述二部图中支付方和被支付方划分社区。
将被支付方所属社区在二部图中的图特征作为识别模型的输入,将被支付 方所属交易样本对应的标签作为所述识别模型的输出,对所述识别模型进行训 练。
基于本申请实施例的电子设备,本申请实施例基于交易样本集构建支付方 和被支付方的二部图,之后对二部图中的支付方和被支付方划分社区,利用被 支付方所属社区在二部图中的图特征训练识别模型,从而丰富模型识别内在稽 核的关联内因,可显著提高识别模型的覆盖率和准确率。
上述如本申请图1所示实施例揭示的训练方法可以应用于处理器中,或者 由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实 现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软 件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是 数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、 分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻 辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器 等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执 行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以 位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程 存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器 读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本申请实施例的电子设备可以实现训练装置在图1和图2所示的 实施例的功能,本文不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式, 比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体 并不限定于各个逻辑单元,也可以是硬件或逻辑器件。此外,本申请实施例图 4的电子设备可以直接作为本文所述的训练装置,也可以作为本文所述的训练 装置中的一部分。
此外,本申请实施例还提出了一种计算机可读存储介质,该计算机可读存 储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多 个应用程序的便携式终端设备执行时,能够使该便携式终端设备执行图1所示 实施例的方法,并具体用于执行以下方法:
基于交易样本集,构建关于支付方和被支付方的二部图,所述交易样本集 中的交易样本对应有标签。
基于社区发现算法,对所述二部图中支付方和被支付方划分社区。
将被支付方所属社区在二部图中的图特征作为识别模型的输入,将被支付 方所属交易样本对应的标签作为所述识别模型的输出,对所述识别模型进行训 练。
应理解,上述指令当被包括多个应用程序的便携式终端设备执行时,能够 使上文所述的训练装置实现图1和图2所示实施例的功能,本文不再举例赘述。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机 程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软 件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含 有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的 范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实 施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过 程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施 方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技 术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之 内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围 之内。