CN112634048A - 一种反洗钱模型的训练方法及装置 - Google Patents

一种反洗钱模型的训练方法及装置 Download PDF

Info

Publication number
CN112634048A
CN112634048A CN202011625865.9A CN202011625865A CN112634048A CN 112634048 A CN112634048 A CN 112634048A CN 202011625865 A CN202011625865 A CN 202011625865A CN 112634048 A CN112634048 A CN 112634048A
Authority
CN
China
Prior art keywords
sample set
domain sample
source domain
target domain
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011625865.9A
Other languages
English (en)
Other versions
CN112634048B (zh
Inventor
徐紫绮
朱晓丹
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202011625865.9A priority Critical patent/CN112634048B/zh
Publication of CN112634048A publication Critical patent/CN112634048A/zh
Priority to PCT/CN2021/140997 priority patent/WO2022143431A1/zh
Application granted granted Critical
Publication of CN112634048B publication Critical patent/CN112634048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种反洗钱模型的训练方法及装置,涉及计算机技术领域,主要技术方案包括:获取源域样本集和目标域样本集,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;对源域样本集和目标域样本集所涉及的特征进行分类,确定源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集和目标域样本集的特有特征集;将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中;合并统一编码后的源域样本集和目标域样本集;基于合并后的样本集训练反洗钱模型。

Description

一种反洗钱模型的训练方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种反洗钱模型的训练方法及装置。
背景技术
随着互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的洗钱行为逐渐渗入到互联网中。洗钱,是指通过合法的活动或建设将违法获得的收入隐藏、伪装或投资的过程,为了维护社会公正和打击腐败等经济犯罪,需要在互联网中进行洗钱监控。互联网中的洗钱监控主要通过反洗钱模型分析识别互联网数据完成。
传统的反洗钱方法通常使用反洗钱模型进行洗钱行为识别。反洗钱模型需要大量已知标签的样本训练而得。样本的标签来源主要依据规则体系,规则体系由具有较高的业务素养的专业人员来设定,样本标签的质量可能参差不齐。因此为了训练出洗钱行为识别能力较好的反洗钱模型,需要长期投入大量的人力资源进行标签审核,但是标签审核存在操作风险,审核人员的经验可能失效,且以往的样本所涉及的已知特征等已有知识不易沉淀和传承。
发明内容
有鉴于此,本发明提出了一种反洗钱模型的训练方法及装置,主要目的在于通过引入源域样本集的特征完成目标域样本集的反洗钱模型训练任务,以提高反洗钱识别的效果。主要的技术方案包括:
第一方面,本发明提供了一种反洗钱模型的训练方法,该方法包括:
获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并统一编码后的所述源域样本集和所述目标域样本集;
基于合并后的样本集训练反洗钱模型。
第二方面,本发明提供了一种反洗钱模型的训练装置,该装置包括:
获取单元,用于获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
分类单元,用于对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
编码单元,用于将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并单元,用于合并统一编码后的所述源域样本集和所述目标域样本集;
训练单元,用于基于合并后的样本集训练反洗钱模型。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的反洗钱模型的训练。
第四方面,本发明提供了一种存储管理设备,所述存储管理设备包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面所述的反洗钱模型的训练。
借由上述技术方案,本发明提供的一种反洗钱模型的训练方法和装置,首先获取源域样本集和目标域样本集,并对源域样本集和目标域样本集所涉及的特征进行分类,确定源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集和目标域样本集的特有特征集。将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中。合并统一编码后的源域样本集和目标域样本集,并基于合并后的样本集训练反洗钱模型。可见,本发明提供的方案通过引入源域样本集的特征完成目标域样本集的反洗钱模型训练任务,使反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,即实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种反洗钱模型的训练方法的流程图;
图2示出了本发明另一个实施例提供的一种反洗钱模型的训练方法的流程图;
图3示出了本发明一个实施例提供的一种反洗钱模型的训练装置的结构示意图;
图4示出了本发明另一个实施例提供的一种反洗钱模型的训练装置的结构示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
洗钱行为往往隐藏在金融领域的交易过程中,故金融领域的交易过程中的交易行为所产生的数据中包括有大量洗钱行为相关的特征,而这些特征可以作为反洗钱模型的训练基础。目前对于小型金融机构或新创建的金融机构来说,其可能并没有足够的数据供其训练出反洗钱效果较好的反洗钱模型,因此需要引用具有已有的知识源域样本集和具有要学习新知识的目标域样本集,来训练反洗钱模型。这样训练而得的反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,即实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
如图1所示,本发明实施例提供了一种反洗钱模型的训练方法,该方法主要包括:
101、获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本。
洗钱行为往往隐藏在金融领域的交易过程中,故金融领域的交易过程中的交易行为所产生的数据中包括有大量洗钱行为相关的特征,而这些特征可以作为反洗钱模型的训练基础,故获取的源域样本集和目标域样本集均为面向金融领域的数据集。源域样本集中的源域样本和目标域样本集中的源域样本均为训练反洗钱模型的交易样本,而这些交易样本均具有其各自对应的二分类标签,而二分类标签用于表征交易样本是洗钱行为还是合法行为。
源域样本集中交易样本以及目标域样本集中交易样本的确定过程基本相同,二者之间的区别仅为源域样本集所涉及的知识为已有的知识,而目标域样本集中涉及有需要学习的新知识。下面对交易样本的确定过程进行说明,该过程包括如下步骤一和步骤二:
步骤一、确定交易样本,并定义交易样本的标签。
客户在金融交易过程中会存在大量的交易记录,这些交易记录是确定交易样本的基础。在确定交易样本时,首先需要定义时间粒度,然后将客户在该时间粒度下产生的交易记录确定为待选样本,再从待选样本中选取出交易样本。交易样本用于训练反洗钱模型,交易样本需要能够明确出是洗钱行为还是合法行为,因此,选取能够明确确定出是洗钱行为还是合法行为的待选样本为交易样本,而不能明确确定出是洗钱行为还是合法行为的待选样本不能作为交易样本,需要被排除。
示例性的,时间粒度为天粒度。在客户天粒度下,从金融机构的交易记录中筛选出客户有交易的日期,形成客户-天粒度的交易记录,并将一个客户一天中产生的交易记录确定为一个待选样本。然后从待选样本中筛选出交易样本,该筛选过程具体包括如下几个操作:一是,确定客户-天粒度的交易记录中是否存在洗钱报告日期与洗钱活动日期相差较大的交易记录,若存在,则将这部分交易记录对应的待选样本排除,不作为交易样本选取。其中,洗钱报告日期为人工上报的日期,洗钱活动日期为金融机构的洗钱规则系统上报的日期,若两者的差异较大,则说明不能准确确定是否为洗钱行为。二是,银行等金融机构的反洗钱规则系统针对某个客户触发的洗钱上报,则将该客户对应的上报日期的交易记录以及该上报日期之前N(N大于或等于1,示例性的,N=30)天内的交易记录对应的待选样本分别筛选为交易样本,并将这些交易样本视为可疑行为,标注可疑行为的标签,label=1。三是,经过上述两个操作后,剩余的那部分待选样本均选取为交易样本,并将这些交易样本视为合法行为,标注合法行为的标签,label=0。
需要说明的是,源域样本集和目标域样本集的交易样本的来源不同,源域样本集所涉及的知识为已有的知识,而目标域样本集中涉及有需要学习的新知识。示例性的,源域样本集的来源为金融机构A在1月所产生的交易记录,这部分交易记录中的特征已成为已有知识,目标域样本集为金融机构A在2月所产生的交易记录,这部分交易记录中包括有需要学习的新知识。为了便于知识的积累和传承,则需要获取源域样本集和目标域样本集,以利用迁移学习的方式,使反洗钱模型既可以学习到源域样本集所涉及的已有知识,又可学习到目标域样本集中所涉及需要学习的新知识。
步骤二、对交易样本进行特征拼接。
交易样本的特征主要包括用户类特征和用户行为类特征,其中,用户类特征主要描述用户的特征信息,比如,年龄、性别、存款余额、家庭成员数量等。用户行为特征类特征主要描述用户交易行为相关的信息,比如,用户深夜转账金额、用户ATM取钱笔数、一周内用户柜面存储笔数等。
对交易样本进行特征拼接,主要用于丰富交易样本的特征,以便反洗钱模型可以学习到更多有用的反洗钱信息。在对交易样本进行特征拼接时,实际上依据交易样本现有的特征进行特征衍生。示例性的,交易样本中存在一周内用户柜面存款笔数以及一周内用户柜面每笔存储的存储金额,则可衍生出特征“一周内用用户柜面存款总金额”。
示例性的,表-1为特征拼接后的交易样本。
表-1
客户ID 交易日期 F1(ATM取款数) F2(存款金额/万元) F3(分行号) 交易行为
123 2020.1.2 10000 0 203 可疑
124 2020.1.2 20000 20000000 304 合法
125 2020.1.3 3000 33999 335 合法
123 2020.1.3 30 44888 445 合法
126 2020.1.3 100000 90189 515 合法
122 2020.1.4 20000 1000000 895 合法
128 2020.1.4 3000 55888 233 合法
124 2020.1.4 43 32 452 可疑
在得到源域样本集和目标域样本集之后,可按照日分区(切片表)或全量表(拉链表),以多副本的方式将源域样本集和目标域样本集存储在数据库内。
102、对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集。
对源域样本集和目标域样本集所涉及的特征进行分类的主要作用有以下两个方面:第一方面,为了检验源域样本集和目标域样本集是否共享反洗钱模型的一些参数,其中该参数包括模型的参数或模型的超参数。若检验出源域样本集和目标域样本集存在共享参数,则说明可以采用迁移学习的方式,使用源域样本集和目标域样本集训练反洗钱模型。若检验出源域样本集和目标域样本集不存在共享参数,则说明不能采用迁移学习的方式,使用源域样本集和目标域样本集训练反洗钱模型,告知业务人员重新选用源域样本集和目标域样本集即可。需要说明的是,检验源域样本集和目标域样本集是否共享反洗钱模型的一些参数的过程,实质上就是确定源域样本集和目标域样本集是否存在共有特征集的过程。第二方面,在确定源域样本集和目标域样本集共享参数时,找出源域样本集和目标域样本集在各自的洗钱任务上的共有参数和特有参数。
下面对源域样本集和目标域样本集所涉及的特征进行分类的过程进行说明,该过程具体包括如下步骤一和步骤二:
步骤一、确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标。
具体的,可通过如下公式,确定源域样本集和目标域样本集所涉及的各连续特征的稳定性指标。对于任意一个连续特征而言,其对应的稳定性指标能够反映出其在源域样本集和目标域样本集分布上的差异,可根据这个差异确定该连续特征是两个样本集的共有特征还是属于一个样本集的特有特征。
确定源域样本集和目标域样本集所涉及的各连续特征的稳定性指标的公式为:
Figure BDA0002874829420000071
其中,PSI(Ye,Y;B)j表征所述源域样本集和所述目标域样本集所涉及的各连续特征中第j个连续特征的稳定性指标;Ye表征预期分布,所述预期分布为所述目标域样本集全量数据;Y表征实际分布,所述实际分布为所述源域样本集全量数据;B表征预设的分桶数量;yi表征第j个连续特征在所述源域样本集的第i个分桶中的占比;yeij表征第j个连续特征在所述目标域样本集的第i个分桶中的占比。
具体的,分桶数量可以基于业务要求确定,本实施例中不做具体限定。需要注意的是,若分桶数量太多,可能会导致每个分桶内的样本数量太少,从而失去统计意义。若分桶数量太少,则有会导致计算结果精度较低。因此,在确定分桶数量时需要合理考虑源域样本集和目标域样本集中的样本总量。在分桶时,可以采用等量的分桶方式进行分桶。示例性的,分桶数量为15。
具体的,连续特征的稳定性指标越小,说明该连续特征在两个样本集之间的差异越小,其为两个样本集的共有特征。连续特征的稳定性指标越大,说明该连续特征在两个样本集之间的差异越大,其为其所对应的样本集的特有特征。
步骤二、基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类。
对于任意一个连续特征而言,其对应的稳定性指标能够反映出其在源域样本集和目标域样本集分布上的差异,因此可以基于连续特征的稳定性指标的大小对连续特征进行分类。
下面对基于各连续特征的稳定性指标的大小对各连续特征进行分类的过程进行说明,该过程具体包括如下三步:
一是、将所述稳定性指标小于第一阈值的连续特征,分类至所述源域样本集和所述目标域样本集的共有特征集。
对于稳定性指标小于第一阈值的连续特征,说明该连续特征在两个样本集之间的差异较小,其为两个样本集共有特征,因此,将这部分连续特征分类至源域样本集和目标域样本集的共有特征集。
具体的,第一阈值的大小可以基于业务要求确定,本实施例不做具体限定。可选的,第一阈值为0.25,也就是说,将稳定性指标小于0.25的所有的连续特征均分类至共有特征集。
示例性的,如表-2所示,示例了经过稳定性指标计算之后,确定哪些连续特征为两个样本集的共有特征,哪些特征为两个样本集的非共有特征,其中,非共有特征还要进一步确定其是哪个样本集的特有特征。
表-2
特征 PSI值 特征分类
F1(ATM取款数) 0.23 共有
F2(存款金额/万元) 0.25 非共有
F3(夜间交易次数) 0.001 共有
F4(夜间收款金额) 0.004 共有
F5(1天借方交易金额) 0.3 非共有
F6(3天交易总金额) 0.123 共有
F7(3天交易总笔数) 0.03 共有
F8(10天借贷金额比例) 0.02 共有
二是、将所述稳定性指标不小于所述第一阈值的所述源域样本集所涉及的连续特征,分类至所述源域样本集的特有特征集。
对于稳定性指标小于第一阈值的源域样本集所涉及的连续特征,说明该连续特征在两个样本集之间的差异越大,其为其所对应的源域样本集的特有特征,故将其分类至源域样本集的特有特征集。
示例性的,第一阈值为0.25,将稳定性指标大于或等于0.25的所有源域样本集所涉及的连续特征均分类至源域样本集的特有特征集。
三是、将所述稳定指标不小于所述第一阈值的所述目标域样本集所涉及的连续特征,分类至所述目标域样本集的特有特征集。
对于稳定性指标小于第一阈值的目标域样本集所涉及的连续特征,说明该连续特征在两个样本集之间的差异越大,其为其所对应的目标域样本集的特有特征,故将其分类至目标域样本集的特有特征集。
示例性的,第一阈值为0.25,将稳定性指标大于或等于0.25的所有目标域样本集所涉及的连续特征均分类至目标域样本集的特有特征集。
进一步的,由于源域样本集和目标域样本集所涉及的特征中不仅存在连续特征,还存在有离散特征,因此除了上述步骤一和步骤二所示的对源域样本集和目标域样本集所涉及的特征进行分类的过程外,还包括如下对所述源域样本集和所述目标域样本集所涉及的特征进行分类的过程:将所述源域样本集所涉及的离散特征分类至所述源域样本集的特有特征集;将所述目标域样本集所涉及的离散特征分类至所述目标域样本集的特有特征集。由于两个样本集所涉及的离散特征基本为用户类特征,其属于垂直隔离特征,为各自样本集特有的特征,因此直接将各样本集所涉及的离散特征分类至其各自对应的特有特征集即可。
103、将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中。
为了使反洗钱模型既可以学习到源域样本集中的特征又可以学习到目标域集中的特征,因此需要将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和所述目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中,这样处理能够使反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,既可以实现已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
反洗钱模型需要的数据是数字型的,因为只有数字类型才能进行计算。因此,对于各种特征,都需要对其进行相应的编码,也是量化的过程。在编码过程中通过预设的编码机制,将将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和所述目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中。该编码机制可以根据业务要求确定,本实施例中不做具体限定。可选地,该编码机制可以为one-hot encoding。
具体的,在对共有特征编码时,对于源域样本集和目标域样本集的共有特征,比如交易行为,客户的人口统计属性等,源域样本集和目标域样本集的样本可以统一做特征编码,即单独针对特征空间做编码,直接合并样本后,统一进入特征抽取算子。
具体的,在对两个样本集的离散特征形式的特有特征编码时,由于离散特征两个样本集的垂直隔离的特征,比如客户所属分行,交易所用的ATM编号等,则在有取值时编码,无取值时特征置空处理。
具体的,在对两个样本集的连续特征形式的特有特征编码时,对于源域样本集和目标域样本集的特有特征,进行单独的空间位置分隔。源域样本集的特有特征为一个位置,目标域样本集的特有特征为一个位置。
示例性的,如表-3所示,示例了经过特征编码之后,形成的数据。
表-3
Figure BDA0002874829420000111
在进行上述特征编码后,得到了一个特征空间,该特征空间中包括源域样本集和目标域样本集的共有特征集中的特征、源域样本集的特有特征集中的特征以及目标域样本集的特有特征集中的特征。该特征空间为后续反洗钱模型的训练提供了数据基础。
104、合并统一编码后的所述源域样本集和所述目标域样本集。
反洗钱模型需要的数据是数字型的,因为只有数字类型才能进行计算。因此,在对各种特征编码后,完成了特征量化过程,合并统一编码后的源域样本集和目标域样本集,便可以形成训练反洗钱模型的训练数据。
105、基于合并后的样本集训练反洗钱模型。
反洗钱模型用于对金融交易过程中产生的数据进行洗钱活动识别,其用于识别该数据是洗钱行为还是合法行为,因此反洗钱模型为二分类模型。在实际应用中,反洗钱模型的具体类型可以基于业务要求确定,本实施例中不做具体限定。可选的,反洗钱模型为GBDT(梯度提升树)或LR(逻辑回归)。
基于合并后的样本集训练反洗钱模型的过程,与输入模型参与训练的样本有关,且至少包括如下几种:
第一种,使用合并后的样本集中所有样本输入反洗钱模型进行训练。
此种方式,由于使用了样本集中的所有数据,因此输入的模型中的特征丰富,使得这样处理能够使反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,既实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
第二种,从合并后的样本集中提取设定数量的样本,将所提取的样本输入反洗钱模型进行训练。
具体的,提取的样本中涉及的特征中同时包括源域样本集和目标域样本集的共有特征、源域样本集的特有特征集和目标域样本集的特有特征集。由于仅提取了设定数量的样本,因此可以付出较小的算力,便可训练出反洗钱模型,且反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,既实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
示例性的,如表-4所示,该表-4为从合并后的样本集中选取的用于训练反洗钱模型的样本。
表-4
Figure BDA0002874829420000121
Figure BDA0002874829420000131
本发明实施例提供的一种反洗钱模型的训练方法,首先获取源域样本集和目标域样本集,并对源域样本集和目标域样本集所涉及的特征进行分类,确定源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集和目标域样本集的特有特征集。将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中。合并统一编码后的源域样本集和目标域样本集,并基于合并后的样本集训练反洗钱模型。可见,本发明实施例提供的方案通过引入源域样本集的特征完成目标域样本集的反洗钱模型训练任务,使反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,即实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
进一步的,根据图1所示的方法,本发明的另一个实施例还提供了一种反洗钱模型的训练方法,如图2所示,所述方法主要包括:
201、获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本。
202、判断所述源域样本集所涉及的特征中是否存在预设类别的离散特征;若存在,执行203;否则,执行204。
若源域样本集中涵盖静态客户熟悉属性、交易使用的IP、交易地区、交易对手账户等预设类别的离散特征时,将影响反洗钱模型训练的效率。且这些离散特征在反洗钱场景中,在源域样本集和目标域样本集中分布差异很大,如果直接将源域样本集中这些离散特征应用到目标域样本集中,这些离散特征将失效,训练出的反洗钱模型将不能学习到这些特征,导致反洗钱模型的反洗钱效果较差。因此,为了将源域样本集中这部分预设类别的离散特征能够被反洗钱模型学习到,需要判断源域样本集所涉及的特征中是否存在预设类别的离散特征。
若判断出源域样本集所涉及的特征中存在预设类别的离散特征,则执行步骤203,以将预设类别的离散特征转换为连续特征,从而保证这部分离散特征能够被反洗钱模型学习到。
若判断出源域样本集所涉及的特征中不存在预设类别的离散特征,则说明不用进行任何的特征转换,源域样本集中的特征均可被反洗钱模型学习到,执行步骤204即可。
203、将所述预设类别的离散特征转换为连续特征。
为了使在源域样本集的预设类别的离散特征带到目标域样本集中,则对预设类别的离散特征做离散转连续的改造。将预设类别的离散特征转换为连续特征的过程包括如下步骤一至步骤二:
步骤一、统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况。
统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况的主要目的包括如下两点:一是,通过何种关联关系将可疑风险传播出现,风险传播给了谁。二是,某种关联关系的紧密程度有多大,通过该关联关系传播到个体的风险有多大。
统计所述源域样本集中与每一个预设类别的离散特征相关联的样本情况的具体过程为:针对每一个预设类别的离散特征均执行:统计预设时间段内与该离线特征相关的特征情况,将该特征情况确定为与该离散特征相关联的样本情况。
具体的,样本情况至少包括如下中的一种:正交易样本数量、负交易样本数量、负交易样本在所述源域样本集中的占比、正交易样本在所述源域样本集中的占比、任一个体的交易额交易次数在所述源域样本集中所述个体的总交易额交易次数的占比;其中,所述源域样本集中交易类型是合法行为的为正交易样本,交易类型为可疑行为的为负交易样本。
示例性,统计一段时间内,在源域样本集中与离散特征X相关联的负样本个数或负样本占总样本的比例。将负样本个数或负样本占总样本的比例确定为离散特征X的样本情况。
步骤二、将各所述预设类别的离散特征的样本情况,确定为各所述预设类别的离散特征对应的连续特征。
204、对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集。
205、将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中。
206、合并统一编码后的所述源域样本集和所述目标域样本集。
207、基于合并后的样本集训练反洗钱模型。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种反洗钱模型的训练装置,如图3所示,所述装置包括:
获取单元31,用于获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
分类单元32,用于对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
编码单元33,用于将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并单元34,用于合并统一编码后的所述源域样本集和所述目标域样本集;
训练单元35,用于基于合并后的样本集训练反洗钱模型。
本发明实施例提供的一种反洗钱模型的训练装置,首先获取源域样本集和目标域样本集,并对源域样本集和目标域样本集所涉及的特征进行分类,确定源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集和目标域样本集的特有特征集。将源域样本集中的特征和目标域样本集中的特征,统一编码到源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中。合并统一编码后的源域样本集和目标域样本集,并基于合并后的样本集训练反洗钱模型。可见,本发明实施例提供的方案通过引入源域样本集的特征完成目标域样本集的反洗钱模型训练任务,使反洗钱模型既可以学习到源域样本集中的已有知识,又可以学习到目标域样本集中新的知识,即实现了已有知识的积累沉淀又实现了新知识的学习,从而能够提高反洗钱模型的反洗钱识别的效果。
可选的,如图4所示,所述分类单元32包括:
确定模块321,用于确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
第一分类模块322,用于基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类。
可选的,如图4所示,所述确定模块321,用于通过如下公式,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
所述公式为:
Figure BDA0002874829420000161
其中,PSI(Ye,Y;B)j表征所述源域样本集和所述目标域样本集所涉及的各连续特征中第j个连续特征的稳定性指标;Ye表征预期分布,所述预期分布为所述目标域样本集全量数据;Y表征实际分布,所述实际分布为所述源域样本集全量数据;B表征预设的分桶数量;yi表征第j个连续特征在所述源域样本集的第i个分桶中的占比;yeij表征第j个连续特征在所述目标域样本集的第i个分桶中的占比。
可选的,如图4所示,所述第一分类模块322,用于将所述稳定性指标小于第一阈值的连续特征,分类至所述源域样本集和所述目标域样本集的共有特征集;将所述稳定性指标不小于所述第一阈值的所述源域样本集所涉及的连续特征,分类至所述源域样本集的特有特征集;将所述稳定指标不小于所述第一阈值的所述目标域样本集所涉及的连续特征,分类至所述目标域样本集的特有特征集。
可选的,如图4所示,所述分类单元32包括:
第二分类模块323,用于将所述源域样本集所涉及的离散特征分类至所述源域样本集的特有特征集;将所述目标域样本集所涉及的离散特征分类至所述目标域样本集的特有特征集。
可选的,如图4所示,所述装置还包括:
判断单元36,用于在所述分类单元32对所述源域样本集和所述目标域样本集所涉及的特征进行分类之前,判断所述源域样本集所涉及的特征中是否存在预设类别的离散特征;若存在,触发转换单元37;
所述转换单元37,用于在所述判断单元36的触发下,将所述预设类别的离散特征转换为连续特征。
可选的,如图4所示,所述转换单元37,用于统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况;将各所述预设类别的离散特征的样本情况,确定为各所述预设类别的离散特征对应的连续特征。
可选的,如图4所示,所述转换单元37所涉及的所述样本情况至少包括如下中的一种:正交易样本数量、负交易样本数量、负交易样本在所述源域样本集中的占比、正交易样本在所述源域样本集中的占比、任一个体的交易额交易次数在所述源域样本集中所述个体的总交易额交易次数的占比;其中,所述源域样本集中交易类型是合法行为的为正交易样本,交易类型为可疑行为的为负交易样本。
本发明实施例提供的反洗钱模型的训练装置中,各个功能模块运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解,在此不再赘述。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行图1或图2所述的反洗钱模型的训练方法。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储管理设备,其特征在于,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行图1或图2所述的反洗钱模型的训练方法。
本发明公开了如下内容:
A1.一种反洗钱模型的训练方法,包括:
获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并统一编码后的所述源域样本集和所述目标域样本集;
基于合并后的样本集训练反洗钱模型。
A2.根据A1所述的方法,对所述源域样本集和所述目标域样本集所涉及的特征进行分类,包括:
确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类。
A3.根据A2所述的方法,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标,包括:
通过如下公式,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
所述公式为:
Figure BDA0002874829420000191
其中,PSI(Ye,Y;B)j表征所述源域样本集和所述目标域样本集所涉及的各连续特征中第j个连续特征的稳定性指标;Ye表征预期分布,所述预期分布为所述目标域样本集全量数据;Y表征实际分布,所述实际分布为所述源域样本集全量数据;B表征预设的分桶数量;yi表征第j个连续特征在所述源域样本集的第i个分桶中的占比;yeij表征第j个连续特征在所述目标域样本集的第i个分桶中的占比。
A4.根据A2所述的方法,基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类,包括:
将所述稳定性指标小于第一阈值的连续特征,分类至所述源域样本集和所述目标域样本集的共有特征集;
将所述稳定性指标不小于所述第一阈值的所述源域样本集所涉及的连续特征,分类至所述源域样本集的特有特征集;
将所述稳定指标不小于所述第一阈值的所述目标域样本集所涉及的连续特征,分类至所述目标域样本集的特有特征集。
A5.根据A1或2所述的方法,对所述源域样本集和所述目标域样本集所涉及的特征进行分类,包括:
将所述源域样本集所涉及的离散特征分类至所述源域样本集的特有特征集;
将所述目标域样本集所涉及的离散特征分类至所述目标域样本集的特有特征集。
A6.根据A1所述的方法,对所述源域样本集和所述目标域样本集所涉及的特征进行分类之前,所述方法还包括:
判断所述源域样本集所涉及的特征中是否存在预设类别的离散特征;
若存在,将所述预设类别的离散特征转换为连续特征。
A7.根据A6所述的方法,将所述预设类别的离散特征转换为连续特征,包括:
统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况;
将各所述预设类别的离散特征的样本情况,确定为各所述预设类别的离散特征对应的连续特征。
A8.根据A7所述的方法,所述样本情况至少包括如下中的一种:正交易样本数量、负交易样本数量、负交易样本在所述源域样本集中的占比、正交易样本在所述源域样本集中的占比、任一个体的交易额交易次数在所述源域样本集中所述个体的总交易额交易次数的占比;其中,所述源域样本集中交易类型是合法行为的为正交易样本,交易类型为可疑行为的为负交易样本。
B1.一种反洗钱模型的训练装置,包括:
获取单元,用于获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
分类单元,用于对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
编码单元,用于将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并单元,用于合并统一编码后的所述源域样本集和所述目标域样本集;
训练单元,用于基于合并后的样本集训练反洗钱模型。
B2.根据B1所述的装置,所述分类单元包括:
确定模块,用于确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
第一分类模块,用于基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类。
B3.根据B2所述的装置,所述确定模块,用于通过如下公式,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
所述公式为:
Figure BDA0002874829420000211
其中,PSI(Ye,Y;B)j表征所述源域样本集和所述目标域样本集所涉及的各连续特征中第j个连续特征的稳定性指标;Ye表征预期分布,所述预期分布为所述目标域样本集全量数据;Y表征实际分布,所述实际分布为所述源域样本集全量数据;B表征预设的分桶数量;yi表征第j个连续特征在所述源域样本集的第i个分桶中的占比;yeij表征第j个连续特征在所述目标域样本集的第i个分桶中的占比。
B4.根据B2所述的装置,所述第一分类模块,用于将所述稳定性指标小于第一阈值的连续特征,分类至所述源域样本集和所述目标域样本集的共有特征集;将所述稳定性指标不小于所述第一阈值的所述源域样本集所涉及的连续特征,分类至所述源域样本集的特有特征集;将所述稳定指标不小于所述第一阈值的所述目标域样本集所涉及的连续特征,分类至所述目标域样本集的特有特征集。
B5.根据B1或B2所述的装置,所述分类单元包括:
第二分类模块,用于将所述源域样本集所涉及的离散特征分类至所述源域样本集的特有特征集;将所述目标域样本集所涉及的离散特征分类至所述目标域样本集的特有特征集。
B6.根据B1所述的装置,所述装置还包括:
判断单元,用于在所述分类单元对所述源域样本集和所述目标域样本集所涉及的特征进行分类之前,判断所述源域样本集所涉及的特征中是否存在预设类别的离散特征;若存在,触发转换单元;
所述转换单元,用于在所述判断单元的触发下,将所述预设类别的离散特征转换为连续特征。
B7.根据B6所述的装置,所述转换单元,用于统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况;将各所述预设类别的离散特征的样本情况,确定为各所述预设类别的离散特征对应的连续特征。
B8.根据B7所述的装置,所述转换单元所涉及的所述样本情况至少包括如下中的一种:正交易样本数量、负交易样本数量、负交易样本在所述源域样本集中的占比、正交易样本在所述源域样本集中的占比、任一个体的交易额交易次数在所述源域样本集中所述个体的总交易额交易次数的占比;其中,所述源域样本集中交易类型是合法行为的为正交易样本,交易类型为可疑行为的为负交易样本。
C1.一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行A1至A8中任意一项所述的反洗钱模型的训练方法。
D1.一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行A1至A8中任意一项所述的反洗钱模型的训练方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种反洗钱模型的训练方法,其特征在于,包括:
获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并统一编码后的所述源域样本集和所述目标域样本集;
基于合并后的样本集训练反洗钱模型。
2.根据权利要求1所述的方法,其特征在于,对所述源域样本集和所述目标域样本集所涉及的特征进行分类,包括:
确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类。
3.根据权利要求2所述的方法,其特征在于,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标,包括:
通过如下公式,确定所述源域样本集和所述目标域样本集所涉及的各连续特征的稳定性指标;
所述公式为:
Figure FDA0002874829410000011
其中,PSI(Ye,Y;B)j表征所述源域样本集和所述目标域样本集所涉及的各连续特征中第j个连续特征的稳定性指标;Ye表征预期分布,所述预期分布为所述目标域样本集全量数据;Y表征实际分布,所述实际分布为所述源域样本集全量数据;B表征预设的分桶数量;yi表征第j个连续特征在所述源域样本集的第i个分桶中的占比;yeij表征第j个连续特征在所述目标域样本集的第i个分桶中的占比。
4.根据权利要求2所述的方法,其特征在于,基于各所述连续特征的稳定性指标的大小,对各所述连续特征进行分类,包括:
将所述稳定性指标小于第一阈值的连续特征,分类至所述源域样本集和所述目标域样本集的共有特征集;
将所述稳定性指标不小于所述第一阈值的所述源域样本集所涉及的连续特征,分类至所述源域样本集的特有特征集;
将所述稳定指标不小于所述第一阈值的所述目标域样本集所涉及的连续特征,分类至所述目标域样本集的特有特征集。
5.根据权利要求1或2所述的方法,其特征在于,对所述源域样本集和所述目标域样本集所涉及的特征进行分类,包括:
将所述源域样本集所涉及的离散特征分类至所述源域样本集的特有特征集;
将所述目标域样本集所涉及的离散特征分类至所述目标域样本集的特有特征集。
6.根据权利要求1所述的方法,其特征在于,对所述源域样本集和所述目标域样本集所涉及的特征进行分类之前,所述方法还包括:
判断所述源域样本集所涉及的特征中是否存在预设类别的离散特征;
若存在,将所述预设类别的离散特征转换为连续特征。
7.根据权利要求6所述的方法,其特征在于,将所述预设类别的离散特征转换为连续特征,包括:
统计所述源域样本集中与每一个所述预设类别的离散特征相关联的样本情况;
将各所述预设类别的离散特征的样本情况,确定为各所述预设类别的离散特征对应的连续特征。
8.一种反洗钱模型的训练装置,其特征在于,包括:
获取单元,用于获取源域样本集和目标域样本集,其中,源域样本和目标域样本均为用于训练反洗钱模型的交易样本;
分类单元,用于对所述源域样本集和所述目标域样本集所涉及的特征进行分类,确定所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集和所述目标域样本集的特有特征集;
编码单元,用于将所述源域样本集中的特征和所述目标域样本集中的特征,统一编码到所述源域样本集和所述目标域样本集的共有特征集、所述源域样本集的特有特征集以及所述目标域样本集的特有特征集三者并集对应的特征空间中;
合并单元,用于合并统一编码后的所述源域样本集和所述目标域样本集;
训练单元,用于基于合并后的样本集训练反洗钱模型。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的反洗钱模型的训练方法。
10.一种存储管理设备,其特征在于,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行权利要求1至权利要求7中任意一项所述的反洗钱模型的训练方法。
CN202011625865.9A 2020-12-30 2020-12-30 一种反洗钱模型的训练方法及装置 Active CN112634048B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011625865.9A CN112634048B (zh) 2020-12-30 2020-12-30 一种反洗钱模型的训练方法及装置
PCT/CN2021/140997 WO2022143431A1 (zh) 2020-12-30 2021-12-23 一种反洗钱模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011625865.9A CN112634048B (zh) 2020-12-30 2020-12-30 一种反洗钱模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN112634048A true CN112634048A (zh) 2021-04-09
CN112634048B CN112634048B (zh) 2023-06-13

Family

ID=75290309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011625865.9A Active CN112634048B (zh) 2020-12-30 2020-12-30 一种反洗钱模型的训练方法及装置

Country Status (2)

Country Link
CN (1) CN112634048B (zh)
WO (1) WO2022143431A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022143431A1 (zh) * 2020-12-30 2022-07-07 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
US20180024968A1 (en) * 2016-07-22 2018-01-25 Xerox Corporation System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN108197643A (zh) * 2017-12-27 2018-06-22 佛山科学技术学院 一种基于无监督聚类和度量学习的迁移学习方法
CN108304876A (zh) * 2018-01-31 2018-07-20 国信优易数据有限公司 分类模型训练方法、装置及分类方法及装置
US20180218284A1 (en) * 2017-01-31 2018-08-02 Xerox Corporation Method and system for learning transferable feature representations from a source domain for a target domain
CN109214421A (zh) * 2018-07-27 2019-01-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置、及计算机设备
WO2019228358A1 (zh) * 2018-05-31 2019-12-05 华为技术有限公司 深度神经网络的训练方法和装置
CN110659744A (zh) * 2019-09-26 2020-01-07 支付宝(杭州)信息技术有限公司 训练事件预测模型、评估操作事件的方法及装置
CN110852446A (zh) * 2019-11-13 2020-02-28 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机可读存储介质
CN111444951A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN111724083A (zh) * 2020-07-21 2020-09-29 腾讯科技(深圳)有限公司 金融风险识别模型的训练方法、装置、计算机设备及介质
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
CN112116025A (zh) * 2020-09-28 2020-12-22 北京嘀嘀无限科技发展有限公司 用户分类模型的训练方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020069534A1 (en) * 2018-09-29 2020-04-02 Brainworks Data representations and architectures, systems, and methods for multi-sensory fusion, computing, and cross-domain generalization
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111951050B (zh) * 2020-08-14 2023-08-11 中国工商银行股份有限公司 理财产品推荐方法及装置
CN112634048B (zh) * 2020-12-30 2023-06-13 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729648A (zh) * 2014-01-07 2014-04-16 中国科学院计算技术研究所 领域自适应模式识别方法及系统
US20180024968A1 (en) * 2016-07-22 2018-01-25 Xerox Corporation System and method for domain adaptation using marginalized stacked denoising autoencoders with domain prediction regularization
US20180218284A1 (en) * 2017-01-31 2018-08-02 Xerox Corporation Method and system for learning transferable feature representations from a source domain for a target domain
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN108197643A (zh) * 2017-12-27 2018-06-22 佛山科学技术学院 一种基于无监督聚类和度量学习的迁移学习方法
CN108304876A (zh) * 2018-01-31 2018-07-20 国信优易数据有限公司 分类模型训练方法、装置及分类方法及装置
WO2019228358A1 (zh) * 2018-05-31 2019-12-05 华为技术有限公司 深度神经网络的训练方法和装置
CN109214421A (zh) * 2018-07-27 2019-01-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置、及计算机设备
CN110659744A (zh) * 2019-09-26 2020-01-07 支付宝(杭州)信息技术有限公司 训练事件预测模型、评估操作事件的方法及装置
CN110852446A (zh) * 2019-11-13 2020-02-28 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机可读存储介质
CN111444951A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN111724083A (zh) * 2020-07-21 2020-09-29 腾讯科技(深圳)有限公司 金融风险识别模型的训练方法、装置、计算机设备及介质
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
CN112116025A (zh) * 2020-09-28 2020-12-22 北京嘀嘀无限科技发展有限公司 用户分类模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于迁移学习技术的反洗钱建模研究和实现" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022143431A1 (zh) * 2020-12-30 2022-07-07 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置

Also Published As

Publication number Publication date
WO2022143431A1 (zh) 2022-07-07
CN112634048B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
US20220405860A1 (en) Artificial intelligence transaction risk scoring and anomaly detection
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
Franceschetti et al. Do bankrupt companies manipulate earnings more than the non-bankrupt ones?
US20150363875A1 (en) System and Method for Filtering and Analyzing Transaction Information
US20210373721A1 (en) Artificial intelligence assisted evaluations and user interface for same
Schreyer et al. Adversarial learning of deepfakes in accounting
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
Papik et al. Detection models for unintentional financial restatements
CN110895758B (zh) 存在作弊交易的信用卡账户的筛选方法、装置及系统
CN111985937A (zh) 交易商价值信息评估方法、系统、存储介质、计算机设备
CN110659961A (zh) 一种用于识别线下商户的方法和装置
CN113609193A (zh) 训练用于预测客户交易行为的预测模型的方法及装置
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN115526700A (zh) 风险的预测方法、装置及电子设备
Hu Predicting and improving invoice-to-cash collection through machine learning
CN112419030B (zh) 财务舞弊风险评估的方法、系统及设备
CN112634048A (zh) 一种反洗钱模型的训练方法及装置
CN113159796A (zh) 一种贸易合同验证方法及装置
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
Del Pilar et al. Towards the Improvement of Credit Card Approval Process Using Classification Algorithm
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114741501A (zh) 舆情预警方法、装置、可读存储介质及电子设备
CN113420909A (zh) 一种用户响应信息预测模型建立方法及信息预测方法
Lawrencia et al. Fraud detection decision support system for Indonesian financial institution
Lee et al. Application of machine learning in credit risk scorecard

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant