CN112927072B

CN112927072B - 一种基于区块链的反洗钱仲裁方法、系统及相关装置

Info

Publication number: CN112927072B
Application number: CN202110078506.4A
Authority: CN
Inventors: 王乾宇; 蔡维德; 王荣
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-08-29
Anticipated expiration: 2041-01-20
Also published as: CN112927072A

Abstract

本发明提出一种基于区块链的反洗钱仲裁方法、系统及相关装置，该方法包括：获取交易数据；构建关系型数据库；清洗数据并对六维数据特征建模；生成原始数据集；采用支持向量机算法对交易数据做行为建模操作，将结果划分为三类，类别为：可疑交易、安全交易、待定交易；使用最大熵算法对待定交易做链路分析操作，通过确定特征函数和约束条件得到待定交易预测结果；使用朴素贝叶斯算法对安全交易做异常检测操作并决定仲裁最终结果，结果均为通过本次交易方可执行，任何一步否决则交易终止。仲裁过程中的交易数据、结果数据均存储在区块链节点上。

Description

一种基于区块链的反洗钱仲裁方法、系统及相关装置

技术领域

本发明属于机器学习领域，具体涉及一种基于区块链的反洗钱仲裁方法、系统及相关装置。

背景技术

根据IMF统计,全球每年洗钱的总数约有10000至30000亿美元之多，金融的洗钱犯罪占了全球GDP的2％至5％，每年涉及到的资金超过2万亿美金。目前国际上的AML的规则只能抓住不到1％的非法现金流转。即使是这样的效率，其各大银行花费在AML合规上的费用也超过了千亿元，其中美国每年用在反洗钱上的资金投入就超过了500亿美元。面对日趋严峻的洗钱形势，很多国家都出台了相应法律法规，加大对洗钱行为的监管和处罚力度；国际社会也成立了多个反洗钱组织如FATF，以求加强国际间合作，共同打击跨国洗钱犯罪。

从当前形势来看,作为洗钱的重灾区,银行、证券、保险等金融行业在反洗钱工作上付出了巨大的监管成本，并在反洗钱工作上取得了一定的成果，但从目前各金融机构反洗钱机制来看，仍然存在着客户身份识别效率低、反洗钱工作信息化程度低、反洗钱监管成本高以及金融机构间相关数据不同步不共享等问题。随着互联网和移动支付等技术的发展，各种金融产品和支付方式相继出现，这些新的金融创新成果，既为企业和个人带来了便利，也为反洗钱工作带来了较大的挑战。移动支付和线上支付带来了海量交易，很多交易行为具有小额高频的特点，导致金融机构很难从海量交易中识别可疑交易。历史交易无法回溯进行计算和识别，影响反洗钱工作的有效性。

常见的反洗钱方案有两种，一种为基于规则的反洗钱识别，另一种为应用机器学习技术的反洗钱算法。传统规则引擎无法对隐藏在正常贸易交易和低频转账交易中的可疑行为进行有效识别，也无法对海量交易和复杂交易手段的洗钱行为进行识别。机器学习能大幅提升可疑交易甄选效率，处理海量历史数据，有效降低反洗钱人工审核压力。但由于机器学习算法单一性、不可解释性等局限，对复杂关联交易、偶发低频交易的诊断准确率较低。

发明内容

为解决现有技术中的上述问题，即为了解决现有模型算法对小额高频交易、复杂关联交易、偶发低频交易识别精度低，历史交易难溯源的问题，本发明第一方面，提出了一种基于区块链的反洗钱仲裁方法，该方法包含以下步骤：

步骤S10，基于已由的交易数据构建第一关系型数据库；所述第一关系型数据库包括自然人客户“身份基本信息”九要素，法人、其他组织和个体工商客户身份基本信息“十五要素”，以及基本交易数据等信息；

步骤S20，基于所述第一关系型数据库，采用Pandas方法获得原始状态数据，并根据六维特征对原始态数据建模，并用结果数据构建第二关系型数据库，其中六维特征包括：基本信息、客户肖像、账户维度、交易金额、交易笔数维度、对手维度；

步骤S30，采用SVM算法(Support Vector Machine,支持向量机)对所述第二关系型数据库的数据做行为建模，建立2个决策边界实现交易行为三分类；

步骤S40，选用Sigmoid核函数，设定阶为1并构建线性分类器对建模后的数据分类，将所得三分类结果安全交易、可疑交易和待定交易分别存放在第一区块、第二区块和第三区块中；

步骤S50，按照所述第三区块的数据特征设置约束条件并构造拉格朗日函数，并对第二关系型数据库做链路分析建模进而求解出最大熵模型，预测结果若为安全交易则存入第一区块，否则存入第二区块；

步骤S60，结合第二关系型数据库中的交易行为数据，对第一区块中的安全交易数据构建交易特征，应用朴素贝叶斯算法进行异常检测，若分类结果为安全交易存入第四区块，否则存入第二区块；

步骤S70，经过步骤S30至步骤S60四步的仲裁后，将第二区块及第四区块的结果数据构建第三关系型数据库，并将判定结果返回，若返回结果为安全交易则交易判定通过，若返回结果为可疑交易则交易判定不通过。

在一些优选的实施例中，步骤S30中“采用SVM算法对所述第二关系型数据库的数据做行为建模”之前还设置有坏点数据去除的步骤，包括：

步骤M10，计算交易数据中客户年龄与交易金额的加权平均值：

其中，为客户年龄或交易金额的加权平均值，x₁、x₂......x_n为对应的客户年龄或交易金额，f₁、f₂......f_n为相应客户年龄或交易金额的函数值，n为交易总数量；

步骤M20，交易数据的加权平均值高于预设阈值为坏点数据，删除所述坏点数据。

在一些优选的实施例中，步骤S40中所述Sigmoid函数的计算方法为：

其中X₁，X₂是对应两个类别的数据，κ(X₁，X₂)是正定核的充要条件，a用来设置核函数中的gamma参数设置，默认值是1/k(k是类别数)，-b用来设置核函数中的coef0，默认值是0。

在一些优选的实施例中，步骤S50中“并对第二关系型数据库做链路分析建模进而求解出最大熵模型”时需设置约束条件并对应交易数据求最大熵，包括：

步骤N10，构造拉格朗日函数对约束条件建模得到MaxEnt模型：

这里f_i(x，y)代表特征函数，w_i代表特征函数的权值，P_w(y|x)即为MaxEnt模型，现在内部的极小化求解得到关于w的函数，求其对偶问题的外部极大化即可，将最优解记做w*：

在最大熵模型转为求解ψ(w)的极大化问题，求解最优的w^*后，便得到了所要求的MaxEnt模型；

步骤N20，计算交易数据信息熵，其计算方法为：

H＝-∑p(x)logp(x)

其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集。p(x)表示输出概率函数。H代表信息熵，变量的不确定性越大，熵也就越大。

在一些优选的实施例中，步骤S60中“应用朴素贝叶斯算法进行异常检测”之后还设置有验证步骤，其方法为:

步骤P10，以第二关系型数据库中特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，求出使得后验概率最大的输出；

步骤P20，采用10重交叉验证法对所述分类结果进行验证，分类结果未达到预设的准确率则重复进行步骤S60直至分类结果达到预设准确率。

在一些优选的实施例中，所述异常交易可以采用知识图谱的方法展示。

本发明的第二方面，提出了一种基于区块链的反洗钱仲裁系统，具体包括：数据整合模块、数据深加工模块、特征标记模块、行为建模模块、链路分析模块、异常检测模块、可疑交易展示模块；

所述数据整合模块，配置为将获取的数据信息整合存储为第一关系型数据库；

所述数据深加工模块，配置为将第一关系型数据库的数据深加工为原始状态数据，构成第二关系型数据库；

所述特征标记模块，配置为跟据六维特征对原始态数据建模，并利用该特征分别对所述第二关系型数据库中数据进行标记，更新第二关系型数据库；

所述行为建模模块，配置为按照所述第二关系型数据库的数据特征设置Sigmoid核函数，构建2个决策边界，并采用SVM算对所述第二关系型数据库进行三分类，获得第一区块、第二区块和第三区块；

所述链路分析模块，配置为结合第三区块的数据特征设置约束条件并构造拉格朗日函数求解出最大熵模型，更新第一区块、第二区块；

所述异常检测模块，配置为对第一区块中的安全交易数据构建交易特征，应用朴素贝叶斯算法进行异常检测，更新第二区块，获得第四区块；

所述可疑交易展示模块，配置为采用知识图谱的方式展示仲裁后的安全及可疑交易。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所属程序适于由处理器加载并执行以实现上述的一种基于区块链的反洗钱仲裁方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种基于区块链的反洗钱仲裁方法。

本发明的有益效果：

(1)本发明采用行为建模、链路分析与异常检测相结合的反洗钱仲裁方法，可通过交易数据有效检测出企业可能存在的洗钱风险，可以为银行等金融机构提供建议，丰富检测手段。

(2)本发明有效挖掘个人或企业存在的洗钱风险，从而达到为银行等金融机构节约人力资源和时间成本的效果。

(3)本发明可应用于跨银行、跨地区、跨币种、跨语言等多领域多模态交易仲裁，不受交易的时空规模限制。

(4)本发明完善了区块链的应用场景，解决了历史交易难溯源的通用难题，提升了传统统计分析方法的效率与准确率。

(5)本发明丰富了机器学习技术的领域场景，使得小额高频交易、复杂关联交易、偶发低频交易识别精度低误差打的问题得到了解决。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显:

图1是本发明一种基于区块链的反洗钱仲裁方法的流程示意图；

图2是本发明一种基于区块链的反洗钱仲裁方法实施例的SVM算法行为建模模式图；

图3是本发明一种基于区块链的反洗钱仲裁方法实施例的最大熵算法链路分析原理示意图；

图4是本发明一种基于区块链的反洗钱仲裁方法实施例的朴素贝叶斯算法异常检测逻辑图；

图5是本发明一种基于区块链的反洗钱仲裁方法实施例的洗钱交易结果图谱展示图。

具体实施案例

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅出示了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于区块链的反洗钱仲裁方法，用来对数据进行深层次的检测仲裁，找出企业可能存在的洗钱风险，可以为银行等金融机构提供建议。可应用于跨银行、跨地区、跨币种、跨语言等多领域多模态交易仲裁，不受交易的时空规模限制。本发明能有效挖掘个人或企业存在的洗钱风险，从而达到为银行等金融机构节约人力资源和时间成本的效果。

本发明的一种基于区块链的反洗钱仲裁方法，包括：

为了更清晰地对本发明一种基于区块链的反洗钱仲裁方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种基于区块链的反洗钱仲裁方法，包括步骤S10-步骤S70，各步骤详细描述如下:

使用关系型数据库整合所述获取的金融交易数据，对应个人交易数据、组织和个体工商客户交易数据，将整合后的数据存储到关系型数据库中。

本发明优选的实施例中，获取UCI等渠道平台个人及企业金融交易数据，包含：归属地、开户时长、离岸账户、高风险地区、多币种交易、大额消费激增、贷款比例过高等信息，采用MySQL关系型数据库将获取的数据整合存储。

对没有列头、一个列有多个参数、列数据的单位不统一、缺失值、空行、重复数据、非ASCII字符等情况的数据进行深度加工处理，从而达到数据清洁的原始状态。并将47维度的原始数据映射为六维特征数据。

在一些优选的实施例中，步骤S30中“采用SVM算法对所述第二关系型数据库的数据做行为建模”之前还设置有坏点数据去除的步骤，包括:

步骤M10，计算交易数据中客户年龄与交易金额的加权平均值，如式(1)所示:

其中，为客户年龄或交易金额的加权平均值，x₁、x₂……x_n为对应的客户年龄或交易金额，f₁、f₂……f_n为相应客户年龄或交易金额的函数值，n为交易总数量；

本发明优选的实施例中，首先计算好各交易数据中客户年龄与交易金额的加权平均值，清除高于预设阈值的对应的交易数据，使得分类算法的准确率更高。

本发明优选的实施例中，随机建立两个决策边界，第一个决策边界采用OVR(一对多)法则，训练时将安全交易样本归为一类，其他归为第二类。第二个决策边界采用OVO(一对一)法则，根据投票将剩余样本分为可疑交易和待定交易。如图2所示，为本发明一种基于区块链的反洗钱仲裁方法实施例的SVM算法行为建模模式图。

在一些优选的实施例中，步骤S40中所述Sigmoid函数的计算方法，如式(2)所示：

本发明优选的实施例中，确定k值为3，通过训练集的结果调节惩罚系数，从而确定a与b的取值为-1.8，2.4时模型表现最佳。

步骤N10，构造拉格朗日函数对约束条件建模得到MaxEnt模型，如式(3)所示：

这里f_i(x，y)代表特征函数，w_i代表特征函数的权值，P_w(y|x)即为MaxEnt模型，现在内部的极小化求解得到关于w的函数，求其对偶问题的外部极大化即可，将最优解记做w*，求w*如式(4)所示：

步骤N20，计算交易数据信息熵，其计算方法如式(5)所示：

H＝-∑p(x)logp(x) 式(5)

本发明优选的实施例中，将第三区块中的待定交易数据做链路分析计算，依次通过公式求出最优解w*，以及MaxEnt中的P_w(y|x)，之后计算出每一笔交易对应的信息熵，并通过最大熵算法筛选出待定数据中的安全交易，并将其他样本统一归类为可疑交易。如图3所示，为本发明一种基于区块链的反洗钱仲裁方法实施例的最大熵算法链路分析原理示意图。

在一些优选的实施例中，步骤S60中“应用朴素贝叶斯算法进行异常检测”之后还设置有验证步骤，其方法为：

本发明优选的实施例中，获取步骤S30、步骤S40、步骤S50中生成的第一区块数据，再次确定分类种类以及提取的特征为数据设置规则。通过Bayesian条件概率重新计算所有安全交易的可以概率并二次判别仲裁，并进行10重交叉验证。此次判别具有一票否决权，即本次分类为非安全交易的数据全部归为可疑交易。如图4所示，为本发明一种基于区块链的反洗钱仲裁方法实施例的朴素贝叶斯算法异常检测逻辑图。

本发明优选的实施例中，将存入第二区块与第四区块中的结果数据整合，构建第三关系型数据库，其中，第二区块中的数据存为可疑交易数据，第四区块中的数据存为安全交易数据。结果需由三重算法共同仲裁，结果全部判定为正方可使交易通过。仲裁流程中的所有结果数据及过程数据均存放在区块链上，交易数据可随时溯回，也可及时发现问题出现的步骤，并采用知识图谱的方法展示所获取的可疑洗钱交易。如图5所示，为本发明一种基于区块链的反洗钱仲裁方法实施例的洗钱交易知识图谱展示图。

结合以上7个步骤，我们可以高效地发现金融交易中潜在的洗钱行为。通过知识图谱的形式更能直观的展现可疑交易的类型特征和属性。以实验结果为例，标号为0127的个人或企业交易行为被标记为可疑交易，经知识图谱可发现，此次交易中，对方账户为离岸账户且开户地区被标记为高风险地区，同时账户开户时间过短，因此交易被拦截；标号为0749的个人或企业交易行为被标记为可疑交易，经知识图谱可发现，该账户在2018年9月20日至2020年5月3日存在10笔以上大额跨境交易，并且资金在账户中存留时间过短；标号0844的个人或企业交易行为被标记为可疑交易，经知识图谱可发现，该账户所有者年龄过大，且账户归属地与所有者身份地址不符，由区块链溯源发现，此次交易在异常检测中被仲裁为可疑交易，此前一直标记为安全交易。

本发明第二实施例的一种基于区块链的反洗钱仲裁系统，包括数据整合模块、数据深加工模块、特征标记模块、行为建模模块、链路分析模块、异常检测模块、可疑交易展示模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的一种基于区块链的反洗钱仲裁方法，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的一种基于区块链的反洗钱仲裁方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；所述处理器，适于于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种基于区块链的反洗钱仲裁方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于区块链的反洗钱仲裁方法，其特征在于，包括：

步骤S10，基于已有的交易数据构建第一关系型数据库；所述第一关系型数据库包括自然人客户“身份基本信息”九要素，法人、其他组织和个体工商客户身份基本信息“十五要素”，以及基本交易数据等信息；

2.根据权利要求1所述的一种基于区块链的反洗钱仲裁方法，其特征在于，步骤S30中“采用SVM算法对所述第二关系型数据库的数据做行为建模”之前还设置有坏点数据去除的步骤，包括:

步骤M10，计算交易数据中客户年龄与交易金额的加权平均值:

3.根据权利要求1所述的一种基于区块链的反洗钱仲裁方法，其特征在于，步骤S40中所述Sigmoid核函数的计算方法为:

其中X₁，X₂是对应两个类别的数据，κ(X₁,X₂)是正定核的充要条件，a用来设置核函数中的gamma参数设置，默认值是1/k，k是类别数，-b用来设置核函数中的coef0，默认值是0。

4.根据权利要求1所述的一种基于区块链的反洗钱仲裁方法，其特征在于，步骤S50中“并对第二关系型数据库做链路分析建模进而求解出最大熵模型”时需设置约束条件并对应交易数据求最大熵，包括：

步骤N10，构造拉格朗日函数对约束条件建模得到MaxEnt模型：

这里f_i(x,y)代表特征函数，w_i代表特征函数的权值，P_w(y|x)即为MaxEnt模型，现在内部的极小化求解得到关于w的函数，求其对偶问题的外部极大化即可，将最优解记做w*:

步骤N20，计算交易数据信息熵，其计算方法为:

H＝-∑p(x)logp(x)

其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集，p(x)表示输出概率函数，H代表信息熵，变量的不确定性越大，熵也就越大。

5.根据权利要求1所述的一种基于区块链的反洗钱仲裁方法，其特征在于，步骤S60中“应用朴素贝叶斯算法进行异常检测”之后还设置有验证步骤，其方法为:

6.根据权利要求1所述的一种基于区块链的反洗钱仲裁方法，其特征在于，所述安全交易、可疑交易、待定交易可以采用知识图谱的方法展示。

7.一种基于区块链的反洗钱仲裁系统，其特征在于，包括：数据整合模块、数据深加工模块、特征标记模块、行为建模模块、链路分析模块、异常检测模块、可疑交易展示模块；

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的一种基于区块链的反洗钱仲裁方法。

9.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现:

权利要求1-6任一项所述的一种基于区块链的反洗钱仲裁方法。