CN109815268A

CN109815268A - 一种交易制裁名单匹配系统

Info

Publication number: CN109815268A
Application number: CN201811568432.7A
Authority: CN
Inventors: 王子剑; 严武; 陈龙; 曹磊
Original assignee: Shanghai Connaught Intelligent Technology Co Ltd
Current assignee: Shanghai Connaught Intelligent Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-05-28

Abstract

本发明公开一种交易制裁名单匹配系统，它包括消息队列模块、客户名称解析模块和模糊匹配模块，消息队列模块主要负责不间断的订阅收取交易信息流，并解析交易信息提取客户信息，客户名称解析模块使用机器学习算法训练的NLP技术构建的NLP模型，在已提取的客户信息中提取并解析客户名称，最终在模糊匹配模块中为客户名称模糊匹配制裁名单并输出。本发明可将传统的制裁客户身份名单系统误匹配率降低50％以上；本发明可将客户身份识别从字符匹配提升到客户信息关联匹配水平，大大提升身份认证匹配的可靠性。

Description

一种交易制裁名单匹配系统

技术领域

本发明涉及身份认证领域，尤其是一种交易制裁名单匹配系统，主要针对特定客户身份名单中客户(包括个人、公司或者机构等)交易时进行身份确认。

背景技术

客户身份匹配识别业务大范围的应用于身份认证及识别过程中，在特殊场景下因客户对于身份的隐藏需求，而导致识别人员需要通过多种身份信息(姓名、国籍、出生日期、公司名、办公地址等)进行综合比对，才能完成实际身份的确认。

国际商业机器公司曾就中文姓名匹配提出了一种用于中文姓名匹配的方法和系统(申请号：201410060194.4，申请日：2014-02-21)，该专利可用于对音译姓名的中文字符模糊匹配，并提供匹配的关联程度表征。尽管如此，在金融国家化的趋势下，多国间的金融合作日益频繁，因此，涉及多国客户的身份识别在身份认证领域依然没有可靠的方法予以解决。

发明内容

针对上述问题，本发明提供一种交易制裁名单匹配系统。

为实现上述目的，本发明采用下述技术方案：

一种交易制裁名单匹配系统，它包括消息队列模块、客户名称解析模块和模糊匹配模块，消息队列模块主要负责不间断的订阅收取交易信息流，并解析交易信息提取客户信息，客户名称解析模块使用机器学习算法训练的NLP技术构建的NLP模型，在已提取的客户信息中提取并解析客户名称，最终在模糊匹配模块中为客户名称模糊匹配制裁名单并输出。

进一步地，消息队列模块使用包括Kafka/RabbitMQ/Redis/ZeroMQ/ActivateMQ的消息订阅发布框架实现实时获取发起的交易信息，并根据消息格式选择通过正则表达式、json解析组件和xml解析组件解析交易信息中的客户信息，并将客户信息输出给客户名称解析模块。

进一步地，客户名称解析模块主要训练并使用人工智能的NLP模型及文本模板匹配确定客户名称及类型，其中NLP模型包括短文本分类模型和命名实体识别模型。

进一步地，短文本分类模型包括Input层、Embedding层、LSTM层和Output层，Input层输入文本，Embedding层内嵌开源的已训练的词向量工具，将文本转换为向量形式，LSTM层使用长短时记忆模型网络结构计算后，最终在Output层计算出客户文本为客户名称的概率。

进一步地，短文本分类模型在训练时输入语料为客户名称库、地址库以及对应的目标分类标签，在训练完成后使用时输入语料为客户信息中的分割文本。

进一步地，使用短文本分类模型计算出的客户名称的概率>0.8，则判断当前客户为个人客户，否则判断为公司客户。

进一步地，命名实体识别模型实现客户名称初步分割的具体步骤如下：

首先，构建一个包括已有词向量工具的Embedding层、BLSTM算法层、CNN算法层和CRF算法层的深度学习模型；

然后，准备大量标注语料，对模型进行训练，语料包含对每一个词的类型标注；

最终，将客户信息输入训练完成的模型，输出客户信息中每一个词的类型，选择其中连续的Person/Organisation类型词，认为这些连续的词合并即是初步识别的客户名称。

进一步地，使用命名实体识别模型得出的标记结果为person，则判断当前客户为个人客户；使用命名实体识别模型得出的标记结果为organization，则判断当前客户为公司客户。

进一步地，在模糊匹配模块中，首先将客户名称做变体，然后计算原客户名称、所有客户名称变体与身份名单中所有名称的Levenshtein距离，将Levenshtein距离小于D的客户身份名单认为是相似客户身份名单项，其中D<＝5，最终提取所有相似客户名称项作为被匹配上的客户身份信息名单，展示给客户并保存至数据库。

进一步地，在模糊匹配模块中，将客户名称做变体包括分别将原客户名称中的每一个单词分别变体为缩写形式和将客户名称中每一个单词顺序做全排列。

有益效果：

1.本发明可将传统的制裁客户身份名单系统误匹配率降低50％以上。

2.本发明可将客户身份识别从字符匹配提升到客户信息关联匹配水平，大大提升身份认证匹配的可靠性。

附图说明

图1是本发明的交易制裁名单匹配流程图；

图2是本发明的交易制裁名单匹配系统架构图；

图3是本发明的消息队列模块架构图；

图4是本发明的客户名称解析模块架构图；

图5是本发明使用短文本分类模型的流程图；

图6是本发明使用命名实体识别模型的流程图；

图7是本发明的模糊匹配模块架构图；

图中：1-消息队列模块、2-客户名称解析模块、3-模糊匹配模块。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

客户名称可能存在其他关联表述，具体的情况包括存在别名、姓名存在错字，姓名缩写、姓名别称等，因此本发明提出一种适应客户名称模糊匹配的方法匹配客户名称。由于部分类型交易信息中，客户信息包括客户名称及地址，无法通过简单的分隔符进行分割，因此本发明使用机器学习算法训练的自然语言处理(NLP)技术构建的NLP模型，智能识别客户信息中的客户名称并应用于制裁名单模糊匹配。如图1所示，本发明的具体步骤如下：

1.交易信息流获取：交易信息是快速且不间断的导入系统中的，因此本发明使用Kafka/RabbitMQ等开源组件获取交易流信息，一般每一个流包括一个或多个完整的交易信息，本发明的后续处理均针对一个单独的交易信息进行处理；

2.交易信息解析：一般交易信息为SWIFT报文格式，报文信息中存在包括汇款人信息、收款人信息等客户身份信息，客户身份信息内容包括客户名称及地址，但名称及地址是被自由填写在客户身份信息中的难以分割，因此本发明将使用NLP模型+模板匹配方法识别客户名称；

3.训练文本实体识别模型识别客户名称：

(a)收集训练语料并标注；

(b)使用标注后的语料训练文本实体识别模型，包括两类模型：短文本分类模型以及命名实体识别模型；

(c)使用训练成熟的NLP模型配合预定义的特殊客户名称模板提取客户信息中的客户名称；

4.提取完成客户名称后，本发明将使用模糊匹配模块以及制裁名单库，以保证不会发生制裁名单客户交易漏报情况；

5.最终寻找到匹配的制裁名单展示并提供用户做最终的人工审查。

如图2所示，本发明主要包括三个模块：消息队列模块1、客户名称解析模块2和模糊匹配模块3。消息队列模块1主要负责不间断的订阅收取交易信息流，并解析交易信息提取客户信息；客户名称解析模块2在已提取的客户信息中提取并解析客户名称；最后在模糊匹配模块3中为客户名称模糊匹配制裁名单并输出。

1.消息队列模块

如图3所示，消息队列模块1使用Kafka/RabbitMQ/Redis/ZeroMQ/ActivateMQ等消息订阅发布框架实现实时获取发起的交易信息，并根据消息格式选择通过正则表达式、json解析组件和xml解析组件解析交易信息中的客户信息，并将客户信息输出给客户名称解析模块2。

例如，一条客户交易的SWIFT报文信息如下所示：{1:F01AAAAGRA0AXXX0057000289}{2:O1030919010321BBBBGRA0AXXX00570001710103210920N}{4::20:5387354:23B:CRED:23E:PHOB/20.527.19.60:32A:000526USD1101,50:33B:USD1121,50:50K:FRANZ HOLZAPFELGMBH VIENNA:52A:BKAUATWW:59:C.KLEINBLOEMENGRACHT15AMSTERDAM:71A:SHA:71F:USD10,:71F:USD10,:72:/INS/CHAS US33-}{5:{MAC:75D138E4}{CHK:DE1B0D71FA96}}。

经过json解析组件和xml解析组件可按冒号“:”区分对应内容，再由正则表达解析交易信息中的涉及客户信息的为：

1)50K:FRANZ HOLZAPFEL GMBH VIENNA，其中FRANZ HOLZAPFEL GMBH VIENNA为客户信息；

2)59:C.KLEIN BLOEMENGRACHT 15 AMSTERDAM，其中C.KLEIN BLOEMENGRACHT15AMSTERDAM为客户信息。

2.客户名称解析模块

如图4所示，客户名称解析模块2主要训练并使用人工智能的NLP模型及文本模板匹配确定客户名称。分别有两类可选的NLP模型可以应用于此模块：短文本分类模型和命名实体识别(NER)模型。识别中，可任选一种进行识别。

短文本分类模型结构、训练方式以及使用输出结果如图5所示，使用一个LSTM深度神经网络训练短文本分类模型，第一层Input层输入文本(在训练时输入语料：客户名称库、地址库以及对应的标签，训练完成后使用时输入客户信息中的分割文本)，第二层Embedding层内嵌开源的已训练的词向量工具，将文本转换为向量形式，第三层使用长短时记忆模型(lstm)网络结构计算之后最终在第四层Output层计算出客户文本为客户名称的概率。

短文本分类模型在训练时输入语料为客户名称库、地址库等，目标为对应的分类标签，一般各类文本的数量在30万到1000万间不等。通过迭代训练减少模型输出与目标分类标签的差距达到训练目标。使用时直接输入文本后，输出文本为客户名称的概率。

例如：客户名称库类的客户姓名包括Andy、Barry、Zhang Rui、C.Jones、HuaweiCo.ltd、Starbucks S.A.等，地址库包括No.4800Caoan Road,Shanghai,China等。

完成短文本分类模型训练后，通过以下步骤实现客户名称初步分割：

(a)因为客户名称极大概率写在地址的左侧，所以从左至右依次截取字符串；

例如，上述解析后的C.KLEIN BLOEMENGRACHT 15 AMSTERDAM，分别按C.KLEIN、C.KLEIN BLOEMENGRACHT、C.KLEIN BLOEMENGRACHT 15、C.KLEIN BLOEMENGRACHT 15AMSTERDAM作为输入模型判断是否为客户名称的字段。

(b)将截取的字符串放入训练好的短文本分类模型中，计算当前文本为客户名称的概率P_i；

例如，C.KLEIN输入后得到概率P1为0.9，C.KLEIN BLOEMENGRACHT输入后得到概率P2为0.5、C.KLEIN BLOEMENGRACHT 15输入后得到概率P3为0.3、C.KLEIN BLOEMENGRACHT15 AMSTERDAM输入后得到概率P4为0.2。

(c)获得P₁...P_n，定义ΔP_i＝P_i-P_i-1，原客户信息为s，则s[0:l]为初步识别客户名称，l＝i-1 condition：max(ΔP_i)and P_i-1＞0.9；

例如，上述四类情况，最终确定i为1时满足此条件，即通过分析C.KLEIN最有可能为客户名称。

除了使用短文本分类模型，还可以使用NER模型实现客户名称初步分割，如图6所示，具体步骤如下：

(a)构建一个具有Embedding层(已有词向量工具)、BLSTM算法层、CNN算法层、CRF算法层的深度学习模型；

(b)准备大量标注语料，对模型进行训练，语料应包含对每一个词的类型标注(例如，姓名语料Andy、Barry、Zhang Rui、C.Jones等，地址库包括No.4800Caoan Road,Shanghai,China等，公司语料包括Huawei Co.ltd、Starbucks S.A.等，每类语料数目可在20万到1000万不等)；

(c)将客户信息输入训练完成的模型，输出客户信息中每一个词的类型，选择其中连续的Person/Organisation类型词(分别代表个人客户和公司客户)，认为这些连续的词合并即是初步识别的客户名称。

例如，上述识别出来的C.KLEIN认为是客户名称。

随后，使用文本模板匹配的方法确定最终客户类型：

(a)在初步确定客户名称中寻找是否存在常见的公司名称结尾，如co.,ltd,LLD,S.A.等，若存在将公司名称尾部右边文本删去，保留文本为客户名称，且确定客户类型为公司客户；

(b)寻找去除文本中是否存在常见的公司名称结尾，如co.,ltd,LLD,S.A.等，若存在则将对应尾部左侧文本全部保留，保留文本为客户名称，且确定客户类型为公司客户。

例如，C.KLEIN BLOEMENGRACHT 15AMSTERDAM确定按C.KLEIN和BLOEMENGRACHT15AMSTERDAM分割为左右两部分，C.KLEIN中不含有co.,ltd,LLD,S.A，直接确认为是个人名称，又BLOEMENGRACHT 15 AMSTERDAM不含有co.,ltd,LLD,S.A等，则确认刚才分割是正确的，且C.KLEIN为人名。

最后我们根据使用模型(短文本分类模型或NER模型)再次确定上述客户类型分类的正确性：若流程中使用短文本分类模型，则用同样方法训练个人客户名称/公司客户名称分类模型，使用分类模型计算出个人客户的概率Q，因为个人客户在汇款中出现概率较低，所以若Q>0.8则判断为个人客户，否则判断为公司客户；若流程中使用NER模型，则根据NER模型标记结果判断，若标记结果为person，则判断当前客户为个人客户，若结果为organization，则判断当前客户为公司客户。

例如，C.KLEIN识别为person个人名的概率为0.9，识别为organization公司名的概率为0.3，则进一步确认C.KLEIN为个人名。

3.模糊匹配模块

如图7所示，在模糊匹配模块3中，首先将客户名称做变体：

(a)分别将原客户名称中的每一个单词分别变体为缩写形式，

例如，Susan Simon变体为S.Susan以及Susan Simon；

(b)将客户名称中每一个单词顺序做全排列，

例如，Susan Simon变体为Simon Susan。

计算原客户名称、所有客户名称变体与身份名单中所有名称的Levenshtein距离(Levenshtein距离(也叫做Edit Distance)，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。)。本发明将距离小于D的客户身份名单认为是相似客户身份名单项，D一般<＝5。

最终提取所有相似客户名称项作为被匹配上的客户身份信息名单，展示给客户并保存至数据库。

对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种交易制裁名单匹配系统，其特征在于：它包括消息队列模块(1)、客户名称解析模块(2)和模糊匹配模块(3)，所述消息队列模块(1)主要负责不间断的订阅收取交易信息流，并解析交易信息提取客户信息，所述客户名称解析模块(2)使用机器学习算法训练的NLP技术构建的NLP模型，在已提取的客户信息中提取并解析客户名称，最终在所述模糊匹配模块(3)中为客户名称模糊匹配制裁名单并输出。

2.根据权利要求1所述的交易制裁名单匹配系统，其特征在于：所述消息队列模块(1)使用包括Kafka/RabbitMQ/Redis/ZeroMQ/ActivateMQ的消息订阅发布框架实现实时获取发起的交易信息，并根据消息格式选择通过正则表达式、json解析组件和xml解析组件解析交易信息中的客户信息，并将客户信息输出给所述客户名称解析模块(2)。

3.根据权利要求1所述的交易制裁名单匹配系统，其特征在于：所述客户名称解析模块(2)主要训练并使用人工智能的NLP模型及文本模板匹配确定客户名称及类型，其中NLP模型包括短文本分类模型和命名实体识别模型。

4.根据权利要求3所述的交易制裁名单匹配系统，其特征在于：所述短文本分类模型包括Input层、Embedding层、LSTM层和Output层，Input层输入文本，Embedding层内嵌开源的已训练的词向量工具，将文本转换为向量形式，LSTM层使用长短时记忆模型网络结构计算后，最终在Output层计算出客户文本为客户名称的概率。

5.根据权利要求4所述的交易制裁名单匹配系统，其特征在于：所述短文本分类模型在训练时输入语料为客户名称库、地址库以及对应的目标分类标签，在训练完成后使用时输入语料为客户信息中的分割文本。

6.根据权利要求4所述的交易制裁名单匹配系统，其特征在于：使用所述短文本分类模型计算出的客户名称的概率>0.8，则判断当前客户为个人客户，否则判断为公司客户。

7.根据权利要求3所述的交易制裁名单匹配系统，其特征在于：所述命名实体识别模型实现客户名称初步分割的具体步骤如下：

8.根据权利要求7所述的交易制裁名单匹配系统，其特征在于：使用所述命名实体识别模型得出的标记结果为person，则判断当前客户为个人客户；使用所述命名实体识别模型得出的标记结果为organization，则判断当前客户为公司客户。

9.根据权利要求1所述的交易制裁名单匹配系统，其特征在于：在所述模糊匹配模块(3)中，首先将客户名称做变体，然后计算原客户名称、所有客户名称变体与身份名单中所有名称的Levenshtein距离，将Levenshtein距离小于D的客户身份名单认为是相似客户身份名单项，其中D<＝5，最终提取所有相似客户名称项作为被匹配上的客户身份信息名单，展示给客户并保存至数据库。

10.根据权利要求9所述的交易制裁名单匹配系统，其特征在于：在所述模糊匹配模块(3)中，将客户名称做变体包括分别将原客户名称中的每一个单词分别变体为缩写形式和将客户名称中每一个单词顺序做全排列。