CN116029808B - 一种风险识别模型训练方法、装置及电子设备 - Google Patents

一种风险识别模型训练方法、装置及电子设备 Download PDF

Info

Publication number
CN116029808B
CN116029808B CN202310302884.5A CN202310302884A CN116029808B CN 116029808 B CN116029808 B CN 116029808B CN 202310302884 A CN202310302884 A CN 202310302884A CN 116029808 B CN116029808 B CN 116029808B
Authority
CN
China
Prior art keywords
risk
sequence
sample
value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310302884.5A
Other languages
English (en)
Other versions
CN116029808A (zh
Inventor
刘博文
徐子皓
孙悦
蔡准
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202310302884.5A priority Critical patent/CN116029808B/zh
Publication of CN116029808A publication Critical patent/CN116029808A/zh
Application granted granted Critical
Publication of CN116029808B publication Critical patent/CN116029808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本申请提供了一种风险识别模型训练方法、装置及电子设备;所述方法包括:获取包括风险正样本和风险负样本的样本集;风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;确定所述风险序列中类别为第一类别的第一风险序列;基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。本申请提供的风险识别模型训练方法提升了风险识别的效率和准确率。

Description

一种风险识别模型训练方法、装置及电子设备
1.1.1技术领域
本申请涉及人工智能技术领域,尤其涉及一种风险识别模型训练方法、装置及电子设备。
1.1.2背景技术
目前,银行行业应对黑产的风控方法主要依靠业务专家对账号的消费行为记录以及交易特征,通过业务专家进行人工审核或构建专家规则进行识别。
基于业务专家直接进行审核的方法,一方面由于不同专家的评判标准不同,导致审核结果的主观性太大,使得审核结果的稳定性太差;另一方面因为审核量较大,导致效率审核效率非常低下,完全不适用于当下电子或电子银行大规模记录的业务场景需求。
构建专家规则的方法,由于专家规则单一且固定,因此会造成比较大的漏报率。
1.1.3发明内容
本申请实施例提供一种风险识别模型训练方法、装置及电子设备,可以提升风险识别的效率和准确率。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种风险识别模型训练方法,包括:
获取包括风险正样本和风险负样本的样本集;
风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;
确定所述风险序列中类别为第一类别的第一风险序列;
基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;
基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
在上述方案中,所述获取包括风险正样本和风险负样本的样本集,包括:
基于交易账号和资金流向构建交易流程图;
基于风险标注账号在所述交易流程图中对应的节点,获取风险标注序列;
根据所述风险标注序列的长度和所述交易流程图确定所述风险正样本和所述风险负样本。
在上述方案中,所述基于风险标注账号在所述交易流程图中对应的节点,获取风险标注序列,包括:
将所述风险标注账号在所述交易流程图中对应的节点进行标注,得到标注节点;
将所述标注节点进行两两配对,得到所有组合的配对节点;
将所述配对节点分别作为所述风险标注序列的开始和结尾,根据所述交易流程图中节点之间的连接关系,确定所述风险标注序列。
在上述方案中,所述根据所述风险标注序列的长度和所述交易流程图确定所述风险正样本和所述风险负样本,包括:
将序列长度在第一数值和第二数值之间的风险标注序列确定为所述风险正样本;
根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本;
其中,所述第一数值和所述第二数值为正整数,并且所述第一数值小于所述第二数值;所述第三数值为正整数,并且所述第三数值大于所述第二数值;所述风险正样本的数量与所述风险负样本的数量相等。
在上述方案中,所述根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本,包括:
获取序列长度大于所述第三数值的风险标注序列;
将获取到的风险标注序列删除首尾节点,得到第一子序列;
将序列长度在所述第一数值和所述第二数值之间的第一子序列确定为所述风险负样本。
在上述方案中,所述根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本,包括:
确定所述交易流程图中序列长度在所述第一数值和所述第二数值之间的候选序列,所述候选序列中不包含有所述风险标注账号对应的节点;
在所述候选序列中确定所述风险负样本。
在上述方案中,所述在所述候选序列中确定所述风险负样本,包括:
对所述候选序列按照序列长度进行分组,基于分组进行负样本的抽取;
每个候选序列最多被抽中一次;
针对所述风险负样本中相同长度的序列,每个交易账号被抽中的次数小于或者等于第四数值,所述第四数值为正整数。
在上述方案中,所述风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别,包括:
将所述样本集中各样本基于序列长度进行分组;
针对每个分组,获取所述分组中所有序列的序列特征;
根据所述序列特征和所述序列长度,确定所述序列的预测类别;
基于所述序列的预测类别和所述序列的实际类别,对所述风险识别模型进行参数调整;
根据参数调整后的风险识别模型,确定所述样本集中各样本构成的风险序列的类别。
在上述方案中,所述基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率,包括:
针对每个第一风险序列,将第一系数和所述第一风险序列的序列长度之间比值的平方与第二系数进行相乘得到的结果向下取整之后的值,与第三系数相加后得到的和,确定为所述第一风险概率;
根据所述第一风险序列对应的第一风险概率的和确定所述预测风险概率。
第二方面,本申请实施例提供一种风险识别模型训练装置,所述风险识别模型训练装置包括:
第一获取模块,用于获取包括风险正样本和风险负样本的样本集;
第二获取模块,用于风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;
第三获取模块,用于确定所述风险序列中所述类别为第一类别的第一风险序列;
风险预测模块,用于基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;
参数调整模块,用于基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的风险识别模型训练方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行本申请实施例提供的风险识别模型训练方法。
本申请实施例提供的风险识别模型训练方法,获取包括风险正样本和风险负样本的样本集;风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;确定所述风险序列中类别为第一类别的第一风险序列;基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。本申请的风险识别模型训练方法首先通过风险正样本和风险负样本以及各样本所对应的序列长度进行风险识别模型对判定风险类别的训练,再基于第一类别的第一风险序列的第一风险概率进行风险识别模型对预测风险概率的训练,提升了风险识别模型的识别的准确性。同时,本申请中风险识别模型的方法也提升了风险识别的效率。
1.1.4附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的风险识别模型训练方法的一种可选处理流程示意图;
图2是本申请实施例提供的获取风险标注序列的示意图;
图3是本申请实施例提供的确定预测风险概率的示意图;
图4是本申请实施例提供的风险识别方法的一种可选处理流程示意图;
图5是本申请实施例提供的风险识别方法的另一种可选处理流程示意图;
图6是本申请实施例提供的风险识别模型训练装置的一种可选结构示意图;
图7是本申请实施例提供的一种可选电子设备示意性框图。
1.1.5具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
下面将介绍本申请实施例提供的一种风险识别模型训练方法,参见图1,图1是本申请实施例提供的风险识别模型训练方法的一种可选处理流程示意图,下面将结合图1示出的步骤S101-S105进行说明。
步骤S101,获取包括风险正样本和风险负样本的样本集。
在一些实施例中,可以将获取的交易账号的交易数据转化为交易流程图。可以将每个交易账号作为交易流程图的节点,将发生资金流向的两个交易账号对应的节点进行连线,箭头指向交易接收方,构建交易流程图。在交易流程图中,节点代表交易账号,边代表资金流向。
在一些实施例中,可以基于风险标注账号在交易流程图中对应的节点,获取风险标注序列。其中,风险标注账号可以通过金融机构的工作人员或者风险账号识别系统,将涉嫌黑产活动的账号筛选处理,并将这些账号进行标注,得到风险标注账号。可以将得到的风险标注账号在交易流程图中对应的节点进行标注,得到标注节点;将标注节点进行两两配对进行组合,得到所有组合的配对节点;将配对节点分别作为开始和结束的节点,根据交易流程图中节点之间的连接关系,确定风险标注序列。
作为示例,获取风险标注序列如图2所示。若风险标注账号在交易流程图中对应的标注节点分别为A和J,则将A和J分别作为开始和结束的节点。根据交易流程图中A到J之间节点的连接关系,可以确定三个风险序列。分别是:ABGJ、ABFGJ和ABGJ。
在一些实施例中,通过大量的数据实验可知,序列长度可以作为序列风险性判别的依据。若序列长度越短,其序列的风险可能性越大,序列长度越长,其序列风险可能性越小。因此,可以通过序列长度确定序列的风险性。在训练模型时,可以基于获取的风险标注序列的长度,进行风险正样本和风险负样本的样本标注。
在一些实施例中,可以将风险标注序列的序列长度在第一数值和第二数值之间的序列确定为风险正样本。其中,第一数值和第二数值为正整数,第一数值小于第二数值。
作为示例,若第一数值为3,第二数值为6,则序列长度在3~6之间的风险标注序列为风险正样本。
在一些实施例中,风险负样本可以基于两种方式分别进行确定。可以根据序列长度大于第三数值的风险标注序列确定为风险负样本,以及根据交易流程图确定风险负样本。其中,基于这两种方式确定的风险负样本的总数量与风险正样本的总数量是相等的,可以基于一定的比例分别确定两种方式生成的负样本的数量。第三数值为正整数,并且第三数值大于第二数值。
在一些实施例中,根据序列长度在大于第三数值的风险标注序列确定风险负样本的过程可以为步骤201-步骤203所示。其中,步骤201-步骤203在说明书附图中未示出。
步骤201、获取序列长度大于第三数值的风险序列。
步骤202、将获取到的风险序列删除首尾节点,得到第一子序列。
步骤203、将序列长度在第一数值和第二数值之间的第一子序列确定为风险负样本。其中,第一数值、第二数值和第三数值为正整数,第一数值小于第二数值,第三数值大于第二数值。
作为示例,若第一数值为3、第二数值为6、第三数值为10,则从风险标注序列中筛选出序列长度>10的风险标注序列。由于风险标注序列的长度过长,黑产团伙几乎不会在相同金融机构如银行进行如此长链的交易行为。所以其风险性必然较低。可以从提取到的序列长度>10的风险标注序列中,将每一个风险标注序列的首尾节点删除后得到第一子序列,从第一子序列中,随机提取序列长度为3-6的非首尾节点账号序列作为风险负样本。
在一些实施例中,根据交易流程图确定风险负样本的过程可以如步骤301-步骤-302所示。其中,步骤301-步骤302在说明书附图中未示出。
步骤301、根据交易流程图,获取序列长度在第一数值和第二数值之间的候选序列,并且候选序列中不包含有风险标注账号对应的节点。
步骤302、根据负样本抽取规则,从候选序列中抽取风险负样本。其中,负样本抽取规则包含三条:1)对候选序列按照序列长度进行分组,在每个分组中进行负样本的抽取;2)每个序列最多被抽中一次;3)针对风险负样本中相同长度的序列,同样的交易账号被抽中的次数小于或者等于第四数值。其中,第四数值为正整数,可以根据实际需求进行确定,如可以确定为3。
在一些实施例中,由于两种方式获得的风险负样本的数量与风险正样本的数量是一致的,在获得风险正样本之后,可以根据实际需求,将两种方式获取风险负样本的方式按照一定的比例抽取一定数量的风险负样本。
步骤S102、风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别。
在一些实施例中,可以对获取到的风险正样本和所述风险负样本提取序列特征,基于所述序列特征对风险识别模型进行训练。
在一些实施例中,在获取到风险正样本和风险正样本之后,可以将具有相同序列长度下的风险正样本的序列特征和风险负样本的序列特征进行提取,为数据建模做准备。其中,提取的序列特征如表一所示。
表一
Figure SMS_1
在一些实施例中,可以将上述获取的风险正样本和风险负样本对应的序列进行类别标记。可以将风险正样本标记为第一类别的序列,将风险负样本标记为第二类别的序列。将样本集中不同的序列长度进行分组,可以基于分组后的每个组内的序列特征和序列长度,确定序列的预测类别,再基于序列的预测类别与序列的实际类别之间的差异,对模型在风险判断训练的过程中的相应参数进行调整。在训练过程中,正风险样本对应的第一序列的标签可以设置为1,负风险样本的标签可以设置为0。
作为示例,以长度序列3~6之间的风险标注序列为例,对模型进行训练时,可以将训练分为4组,对模型进行分组训练,得到四组训练完成的模型。
在一些实施例中,可以针对上述训练完成的模型,对样本集中各样本构成的风险序列进行风险性判断,确定每个风险序列的类别。其中,风险序列可以表征团伙中每个序列,通过确定团伙中每个序列的风险性,可以进一步判断团伙的风险性。
采用分组训练的方法,有别于传统模型基于全部的正负样本进行模型训练的方法,由于不同长度的序列所携带的信息是不同的,基于不同长度的正负样本进行分别训练的方法,避免了不同长度序列混合输入模型后,因不同长度序列的互相干扰导致模型训练出现偏差的问题。
同时,采用分组训练的方法基于序列特征判断风险性的另一个优势是,由于判断序列的风险性是接下来风险预测的关键步骤。若直接基于风险正样本和风险负样本进行风险预测的训练,由于风险正样本和风险负样本的本身的风险值不同,一般来说,风险正样本的风险值大于0,风险负样本的风险值等于0。因此,直接基于风险正样本和风险负样本对模型进行训练,可能会导致模型预测不准确的问题。而分组训练的方法会使得模型的训练效果更好,准确性更高。
步骤S103、确定所述风险序列中类别为第一类别的第一风险序列。
在一些实施例中,可以通过风险识别模型,针对每一个风险序列的序列长度和序列特征,得到风险序列中类别为第一类别的第一风险序列。其中,第一风险序列表征风险序列中具有风险性的序列,第一风险序列可以有0个或多个。
步骤S104、基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率。
在一些实施例中,针对每个第一风险序列,在计算第一风险概率时,可以将第一系数和第一风险序列的序列长度之间比值的平方与第二系数进行相乘得到的结果向下取整之后的值,与第三系数相加后得到的和,确定为所述第一风险概率。如公式(1)所示。在公式(1)中,Riskscore表示第一风险概率,length表示第一风险序列的序列长度。第一风险概率用来表征第一风险序列发生风险的可能性的大小,可以用概率值、百分数或者0-100之间的数值表示。若第一风险概率用0-100之间的数值表示,第一系数可以设置为2,第二系数可以设置为100,第三系数可以设置为50。若第一风险概率为概率值,第一系数、第二系数和第三系数可以根据经验进行配置。
Figure SMS_2
(1)
作为示例,当第一系数设置为2,第二系数设置为100,第三系数设置为50时,以序列长度为3的风险序列为例,针对第一类别的长度为3的每个风险序列,基于上述公式(1),每个风险序列对应的第一风险概率对应的数值值为94分。同理,序列长度3~6之间的第一类别的第一风险序列的第一风险概率如表二所示。
表二
Figure SMS_3
在一些实施例中,在风险序列中,可以根据每个第一类别的第一风险序列对应的第一风险概率,得到风险序列对应的节点集合的预测风险概率。
作为示例,如图3所示。在图3中左侧的交易流程图可以表示交易账号包括ABCDE的团伙资金流向图,通过确定团伙中的风险序列的风险性,可以进一步判断团伙的风险性。通过图3可以确定,风险序列包含四个,分别是ABD、ABC、BDE、ABDE。其中第一类别的第一风险序列有两个,分别是ABD、ABDE。若第一风险概率用0-100之间的数值表示,从图3的行为序列风险计算结果可以确定,ABD的第一风险概率即风险得分为94分,ABDE的第一风险概率即风险得分为75分,则风险序列中第一类别的第一风险序列的第一风险概率对应的数值的总和即序列风险聚合后结果为169分。因此,可以确定,风险序列对应的节点集合即{A,B,C,D,E}所构成的团伙的预测风险概率即风险总分为169分。
在一些实施例中,第一风险概率也可以用概率值表示,可以基于风险序列中第一类别的第一风险序的第一风险概率对应的概率值,得到风险序列对应的节点集合的预测风险概率。
步骤S105、基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
在一些实施例中, 可以基于预测风险概率与所述节点集合的真实风险概率之间的差异,调整风险识别模型的参数。如可以调整风险识别模型在计算预测风险概率时所用到的第一系数、第二系数和第三系数的参数,或者调整每个第一风险序列对应的权重,再基于权重对第一风险序列对应的第一风险概率进行累加等。
下面将介绍本申请实施例提供的风险识别方法,参见图4,下面将结合图4示出的步骤401-403进行说明。
步骤401、基于待测序列中每个序列对应的序列长度,确定所述序列的类别。
在一些实施例中,可以根据交易账号和资金流向构建交易流程图;根据待测账号在所述交易流程图中对应的节点,获取待测序列;针对待测序列中每个序列,根据所述序列的序列长度和序列特征,利用训练好的风险识别模型,确定所述序列的类别。
步骤402、确定待测序列中的类别为第一类别的第一风险序列。
在一些实施例中,可以根据训练好的风险识别模型,确定待测序列中的类别为第一类别的第一风险序列。其中,第一类别可以用于表示待测序列中具有风险性的序列的类别,第二类别可以用于表示待测序列中无风险性的序列的类别。
步骤403、基于所述第一风险序列的第一风险概率确定所述待测序列对应的节点集合的预测风险概率。
在一些实施例中,可以根据训练好的风险识别模型,确定待测序列中,所有第一风险序列的第一风险概率,确定待测序列对应的节点集合的预测风险概率。若预测风险概率大于预设的风险阈值,则确定待测序列对应的节点集合为风险团伙。其中,第一风险概率可以用概率值、百分数或者0-100之间的数值表示等。在基于每个第一风险概率确定待测序列对应的节点集合的预测风险概率时,可以根据需求将第一风险概率直接进行相加,或者赋予每个第一风险序列一定的权重再进行累加,或者选择其中的某项第一风险序列的第一风险概率进行预测风险概率的确定。
下面将介绍本申请实施例提供的风险识别的另一种方法,参见图5,下面将结合图5进行说明。
在一些实施例中,在针对风险团伙中的交易数据进行风险识别的方法可以包括风险识别模型的训练,以及基于风险识别模型对交易数据进行风险识别。
在一些实施例中,在风险识别模型的训练中,主要包括七个模块,分别为交易流程图模块,候选序列获取模块、风险标注序列模块、风险正负样本确定模块、序列特征获取模块、序列风险概率预测模块和团伙风险概率预测模块。
在一些实施例中,可以获取金融机构的交易数据的包括风险正样本和风险负样本的样本集。将获取的样本集通过交易流程图模块转换为对应的有向图构成的交易流程图。在交易流程图中,节点表示用户的交易账号,边表示资金流向。交易流程图是风险序列生成的基础。
在一些实施例中,可以获取金融结构提前标注好的涉嫌风险行为活动如黑产活动的账号作为风险标注账号。
在一些实施例中,风险标注序列模块可以基于风险标注账号和交易流程图,将风险标注账号在交易流程图中对应的节点进行标注,得到标注节点。再将标注节点进行两两配对,得到所有组合的配对节点。最后将配对节点分别作为所述风险标注序列的开始和结尾,根据交易流程图中节点之间的连接关系,确定风险标注序列。
在一些实施例中,候选序列获取模块可以基于交易流程图模块生成的交易流程图,根据风险标注账号,确定候选序列模块。
获取候选序列过程可以为:确定交易流程图中序列长度在第一数值和第二数值之间的序列,筛选出将这些序列中不包含风险标注账号对应的节点的序列作为候选序列。其中,第一数值和所述第二数值为正整数,并且所述第一数值小于所述第二数值。如第一数值为3,第二数值为6。
在一些实施例中,风险正负样本确定模块可以基于风险标注序列模块得到的风险标注序列,以及候选序列获取模块得到的候选序列,确定风险正样本和风险负样本。其中,获取的风险正样本的数量与风险负样本的数量相等。
风险正样本的确定过程为:将序列长度在第一数值和第二数值之间的风险标注序列确定为风险正样本。其中,第一数值和第二数值为正整数,并且第一数值小于第二数值。
风险负样本可以通过两种方式共同确定。可以通过序列长度大于第三数值的风险标注序列和候选序列,共同确定所述风险负样本。
通过序列长度大于第三数值的风险标注序列确定风险负样本的过程为:获取序列长度大于第三数值的风险标注序列;将获取到的风险标注序列删除首尾节点,得到第一子序列;将序列长度在第一数值和第二数值之间的第一子序列确定为风险负样本。其中,第三数值为正整数,并且第三数值大于第二数值。
通过候选序列确定风险负样本的抽取规则为:对候选序列按照序列长度进行分组,基于分组进行负样本的抽取;每个候选序列最多被抽中一次;针对风险负样本中相同长度的序列,每个交易账号被抽中的次数小于或者等于第四数值。其中,第四数值为正整数。
在一些实施例中,可以通过序列特征获取模块,将获取到的风险正负样本进行特征提取。在特征提取时,可以将风险正样本和风险负样本按照长度进行分组,针对每组的样本,提取的特征包括以下至少一项:总转移金额、总转移时间长度、单步转移操作的平均时间、起始点的转账时段、结束点的接收时段、起始点的转入总金额、结束点的转出总金额和不同的网络地址的个数。
在一些实施例中,序列风险概率预测模块可以包括风险类别判断子模块和风险概率预测子模块。由于不同长度的序列所携带的信息是不同的,序列风险概率预测模块在训练时,会基于不同长度的正负样本进行分别训练的方法,避免了不同长度序列混合输入模型后,因不同长度序列的互相干扰导致模型训练出现偏差的问题。同时,对风险序列进行类别判定再预测风险概率的方法,可以避免直接预测风险概率带来的准确率不高的问题。
可以将每组中提取到的风险序列的特征和对应的风险正样本或者风险负样本的类别,进行风险类别判断子模块的训练。在训练时,可以将风险正样本的类别标记为第一类别,将风险负样本的类别标记为第二类别。在风险类别判断子模块训练完毕之后,可以通过风险类别判断子模块获取风险序列中类别为第一类别的第一风险序列。
可以基于风险概率预测子模块针对第一风险序列的长度,确定第一风险序列的第一风险概率。其中,第一风险概率用于表征第一风险序列发生风险的可能性,可以自定义表示形式,如概率值、百分数或者是0-100之间的数值表示。
在一些实施例中,可以基于团伙风险概率预测模块,根据风险序列中第一类别的第一风险序列的第一风险概率,确定风险序列对应的节点集合的预测风险概率。其中,在确定节点集合的预测风险概率时,若第一风险概率为0-100之间的数值表示,则可以将全部第一类别的第一风险序列对应的第一风险概率直接相加,得到最终的节点集合的预测风险概率。
在得到节点集合的预测风险概率之后,可以通过预测风险概率与节点集合的真实风险概率之间的差异,调整团伙风险概率预测模块的参数。其中,可以调整第一类别中的第一风险序列的权重的参数等。
在一些实施例中,可以将待测序列通过训练完成的风险识别模型,得到待测序列对应的团伙预测风险概率。其中,训练完成的风险识别模块可以基于待测序列中每个序列对应的序列长度,确定待测序列中的类别为第一类别的第一风险序列。并基于第一风险序列的第一风险概率确定待测序列对应的节点集合即团伙的预测风险概率。可以根据团伙预测风险概率与预设的风险阈值,判断团伙是否是风险团伙如黑产团伙等。
下面介绍本申请实施例提供的风险识别模型训练装置的一种可选装置结构示意图,风险识别模型训练装置600包括第一获取模块601、第二获取模块602、第三获取模块603、风险预测模块604和参数调整模块605。其中,
第一获取模块601,用于获取包括风险正样本和风险负样本的样本集;
第二获取模块602,用于风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;
第三获取模块603,用于确定所述风险序列中所述类别为第一类别的第一风险序列;
风险预测模块604,用于基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;
参数调整模块605,用于基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
在一些实施例中,第一获取模块601还用于:基于交易账号和资金流向构建交易流程图;基于风险标注账号在所述交易流程图中对应的节点,获取风险标注序列;根据所述风险标注序列的长度和所述交易流程图确定所述风险正样本和所述风险负样本。
在一些实施例中,第一获取模块601还用于:将所述风险标注账号在所述交易流程图中对应的节点进行标注,得到标注节点;将所述标注节点进行两两配对,得到所有组合的配对节点;将所述配对节点分别作为所述风险标注序列的开始和结尾,根据所述交易流程图中节点之间的连接关系,确定所述风险标注序列。
在一些实施例中,第一获取模块601还用于:将序列长度在第一数值和第二数值之间的风险标注序列确定为所述风险正样本; 根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本;其中,所述第一数值和所述第二数值为正整数,并且所述第一数值小于所述第二数值;所述第三数值为正整数,并且所述第三数值大于所述第二数值;所述风险正样本的数量与所述风险负样本的数量相等。
在一些实施例中,第一获取模块601还用于:获取序列长度大于所述第三数值的风险标注序列;将获取到的风险标注序列删除首尾节点,得到第一子序列;将序列长度在所述第一数值和所述第二数值之间的第一子序列确定为所述风险负样本。
在一些实施例中,第一获取模块601还用于:确定所述交易流程图中序列长度在所述第一数值和所述第二数值之间的候选序列,所述候选序列中不包含有所述风险标注账号对应的节点;在所述候选序列中确定所述风险负样本。
在一些实施例中,第一获取模块601还用于:对所述候选序列按照序列长度进行分组,基于分组进行负样本的抽取;每个候选序列最多被抽中一次;针对所述风险负样本中相同长度的序列,每个交易账号被抽中的次数小于或者等于第四数值,所述第四数值为正整数。
在一些实施例中,第二获取模块602还用于:将所述样本集中各样本基于序列长度进行分组;针对每个分组,获取所述分组中所有序列的序列特征;根据所述序列特征和所述序列长度,确定所述序列的预测类别;基于所述序列的预测类别和所述序列的实际类别,对所述风险识别模型进行参数调整;根据参数调整后的风险识别模型,确定所述样本集中各样本构成的风险序列的类别。
在一些实施例中,风险预测模块604还用于:针对每个第一风险序列,将第一系数和所述第一风险序列的序列长度之间比值的平方与第二系数进行相乘得到的结果向下取整之后的值,与第三系数相加后得到的和,确定为所述第一风险概率;根据所述第一风险序列对应的第一风险概率的和确定所述预测风险概率。
需要说明的是,本申请实施例的风险识别模型训练装置与上述风险识别模型训练方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本申请实施例提供的风险识别模型训练装置中未尽的技术细节,可以根据图1至图5中任一附图的说明而理解。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备700用于实施本公开实施例的风险识别模型训练方法。在一些可选实施例中,电子设备700可以通过运行计算机程序来实现本申请实施例提供的风险识别模型训练方法,例如,计算机程序可以是操作系统中的软件模块;可以是本地(Native)APP(Application,应用程序),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在实际应用中,电子设备700可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备700可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如风险识别模型训练方法。例如,在一些可选实施例中,风险识别模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些可选实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的风险识别模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为风险识别模型训练方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的风险识别模型训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
应理解,在本申请的各种实施例中,各实施过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (9)

1.一种风险识别模型训练方法,其特征在于,所述方法包括:
获取包括风险正样本和风险负样本的样本集;
其中,所述获取包括风险正样本和风险负样本的样本集包括:基于交易账号和资金流向构建交易流程图;将风险标注账号在所述交易流程图中对应的节点进行标注,得到标注节点;将所述标注节点进行两两配对,得到所有组合的配对节点;将所述配对节点分别作为风险标注序列的开始和结尾,根据所述交易流程图中节点之间的连接关系,确定所述风险标注序列;将序列长度在第一数值和第二数值之间的风险标注序列确定为所述风险正样本; 根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本;其中,所述第一数值和所述第二数值为正整数,并且所述第一数值小于所述第二数值;所述第三数值为正整数,并且所述第三数值大于所述第二数值;所述风险正样本的数量与所述风险负样本的数量相等;
风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;
确定所述风险序列中类别为第一类别的第一风险序列;
基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;
基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本,包括:
获取序列长度大于所述第三数值的风险标注序列;
将获取到的风险标注序列删除首尾节点,得到第一子序列;
将序列长度在所述第一数值和所述第二数值之间的第一子序列确定为所述风险负样本。
3.根据权利要求1所述的方法,其特征在于,所述根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本,包括:
确定所述交易流程图中序列长度在所述第一数值和所述第二数值之间的候选序列,所述候选序列中不包含有所述风险标注账号对应的节点;
在所述候选序列中确定所述风险负样本。
4.根据权利要求3所述的方法,其特征在于,所述在所述候选序列中确定所述风险负样本,包括:
对所述候选序列按照序列长度进行分组,基于分组进行负样本的抽取;
每个候选序列最多被抽中一次;
针对所述风险负样本中相同长度的序列,每个交易账号被抽中的次数小于或者等于第四数值,所述第四数值为正整数。
5.根据权利要求1所述的方法,其特征在于,所述风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别,包括:
将所述样本集中各样本基于序列长度进行分组;
针对每个分组,获取所述分组中所有序列的序列特征;
根据所述序列特征和所述序列长度,确定所述序列的预测类别;
基于所述序列的预测类别和所述序列的实际类别,对所述风险识别模型进行参数调整;
根据参数调整后的风险识别模型,确定所述样本集中各样本构成的风险序列的类别。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率,包括:
针对每个第一风险序列,将第一系数和所述第一风险序列的序列长度之间比值的平方与第二系数进行相乘得到的结果向下取整之后的值,与第三系数相加后得到的和,确定为所述第一风险概率;
根据所述第一风险序列对应的第一风险概率的和确定所述预测风险概率。
7.一种风险识别模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取包括风险正样本和风险负样本的样本集;
所述第一获取模块,具体用于基于交易账号和资金流向构建交易流程图;将风险标注账号在所述交易流程图中对应的节点进行标注,得到标注节点;将所述标注节点进行两两配对,得到所有组合的配对节点;将所述配对节点分别作为风险标注序列的开始和结尾,根据所述交易流程图中节点之间的连接关系,确定所述风险标注序列;将序列长度在第一数值和第二数值之间的风险标注序列确定为所述风险正样本; 根据序列长度大于第三数值的风险标注序列和所述交易流程图,确定所述风险负样本;其中,所述第一数值和所述第二数值为正整数,并且所述第一数值小于所述第二数值;所述第三数值为正整数,并且所述第三数值大于所述第二数值;所述风险正样本的数量与所述风险负样本的数量相等;
第二获取模块,用于风险识别模型按照所述样本集中各样本所对应的序列长度,确定所述样本集中各样本构成的风险序列的类别;
第三获取模块,用于确定所述风险序列中所述类别为第一类别的第一风险序列;
风险预测模块,用于基于所述第一风险序列的第一风险概率确定所述风险序列对应的节点集合的预测风险概率;
参数调整模块,用于基于所述预测风险概率与所述节点集合的真实风险概率之间的差异,调整所述风险识别模型的参数。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6中任一项所述的风险识别模型训练方法。
CN202310302884.5A 2023-03-23 2023-03-23 一种风险识别模型训练方法、装置及电子设备 Active CN116029808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310302884.5A CN116029808B (zh) 2023-03-23 2023-03-23 一种风险识别模型训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310302884.5A CN116029808B (zh) 2023-03-23 2023-03-23 一种风险识别模型训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116029808A CN116029808A (zh) 2023-04-28
CN116029808B true CN116029808B (zh) 2023-06-30

Family

ID=86077901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310302884.5A Active CN116029808B (zh) 2023-03-23 2023-03-23 一种风险识别模型训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116029808B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734380B (zh) * 2018-04-08 2022-02-01 创新先进技术有限公司 风险账户判定方法、装置及计算设备
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN110751400B (zh) * 2019-10-22 2022-08-02 宜人恒业科技发展(北京)有限公司 一种风险评估方法及装置
CN112581271B (zh) * 2020-12-21 2022-11-15 上海浦东发展银行股份有限公司 一种商户交易风险监测方法、装置、设备及存储介质
CN113988458A (zh) * 2021-11-10 2022-01-28 中国工商银行股份有限公司 反洗钱风险监控方法和模型训练方法、装置、设备及介质
CN114549001A (zh) * 2022-02-08 2022-05-27 支付宝(杭州)信息技术有限公司 训练风险交易识别模型、识别风险交易的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Research on Purchase Intention of Fresh Agricultural Products Based on TAM Model in Pre-sale Mode;Wanyi Yang et al.;《IEEE Xplore》;全文 *
基于隐马尔可夫模型的信息系统风险评估方法;潘恒;盛剑会;郑秋生;;中原工学院学报(第04期);全文 *

Also Published As

Publication number Publication date
CN116029808A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN110992169B (zh) 一种风险评估方法、装置、服务器及存储介质
TWI726341B (zh) 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN112785086A (zh) 信贷逾期风险预测方法及装置
CN112085087B (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN112580733B (zh) 分类模型的训练方法、装置、设备以及存储介质
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN112214775A (zh) 对图数据的注入式攻击方法、装置、介质及电子设备
CN110798467A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN114861746A (zh) 基于大数据的反欺诈识别方法、装置及相关设备
CN113240177B (zh) 训练预测模型的方法、预测方法、装置、电子设备及介质
CN116029808B (zh) 一种风险识别模型训练方法、装置及电子设备
CN116860856A (zh) 一种财务数据处理方法、装置、计算机设备及存储介质
CN116684330A (zh) 基于人工智能的流量预测方法、装置、设备及存储介质
CN115935265A (zh) 训练风险识别模型的方法、风险识别方法及对应装置
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN113936677A (zh) 音色转换方法、装置、计算机设备及存储介质
CN113590721B (zh) 一种区块链地址分类方法和装置
CN115037655B (zh) 压测方法和系统
CN116109394A (zh) 团伙挖掘方法、装置、电子设备及计算机可读存储介质
CN117668596A (zh) 一种聚类方法、装置、设备和存储介质
CN115099927A (zh) 基于社会网络分析的贷款风险分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant