CN112215698A

CN112215698A - 一种金融信用度的模糊动态加权匹配方法及系统

Info

Publication number: CN112215698A
Application number: CN202011077166.5A
Authority: CN
Inventors: 李金�; 李梦颖; 施兴森
Original assignee: Shanghai Kingstar Fintech Co Ltd
Current assignee: Shanghai Kingstar Fintech Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-12

Abstract

本发明公开了一种金融信用度的模糊动态加权匹配方法及系统，由设有神经网络架构的模型内的程序或系统进行完成具体包括如下步骤：(1)收集目标客户的指标明细表，(2)按照预定规则对指标明细表进行权重比划分，构建系统的核心指标参数，(3)关联与目标客户的核心指标参数的基本数据，(4)对所述核心指标参数的基本数据进行英文和/或数字化表达，(5)分别对基本数据进行定义编号，根据公式计算核心指标参数进行单一的匹配度和相似度计算，(6)根据定义好的基本数据的权重比进行综合加权匹配度计算，(7)输出匹配度阈值列表结果。本发明通过模糊动态加权匹配以提高目标客户的身份识别管理效率以及信用精准度可信度的问题。

Description

一种金融信用度的模糊动态加权匹配方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及是一种金融信用度的模糊动态加权匹配方法及系统。

背景技术

现有技术中，有较多的反洗钱的系统和方法，但其系统本身受限于自身对客户身份识别的能力，现有技术的系统对已有黑名单匹配方法主要存在以下三个问题：

一是对第三方黑名单数据库中客户的信息利用不全面，比如对住址信息等文本数据的挖掘有限；

二是黑名单匹配规则存在不合理现象，不能实现真正的动态加权；

三是部分黑名单匹配方式不支持多语言的模糊搜索。

因此，在实现在建立客户关系以及处理客户资金交易环节等场景中自然人或机构客户及其受益人的身份识别管理问题存在一定技术缺陷。

发明内容

本发明的目的在于提供一种金融信用度的模糊动态加权匹配方法，以解决提高目标客户的身份识别管理效率以及信用精准度可信度的问题。

为实现上述目的，本发明提供如下技术方案：

一种金融信用度的模糊动态加权匹配方法，具体包括如下步骤：

(1)收集目标客户的指标明细表，

(2)按照预定规则对指标明细表进行权重比划分，构建系统的核心指标参数，

(3)关联与目标客户的核心指标参数的基本数据，

(4)对所述核心指标参数的基本数据进行英文和/或数字化表达，

(5)分别对基本数据进行定义编号，根据公式计算核心指标参数进行单一的匹配度和相似度计算，

(6)根据定义好的基本数据的权重比进行综合加权匹配度计算，

(7)输出匹配度阈值列表结果。

优选地，所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。

优选地，所述预定规则为。

优选地，所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。

优选地，所述匹配度计算公式为

其中,d(NP_i,NP_j)表示输入自然人客户或机构客户的名称字符串NP_i和黑名单数据库中疑似自然人客户或机构客户的名称字符串NP_j的最短编辑距离；

lNP_i和lNP_j分别表示自然人客户或机构客户的名称字符串NP_i和NP_j的长度；

max(lNP_i,lNP_j)表示lNP_i和lNP_j中的最大值；PP₀₁为控制参数。

优选地，所述相似度运算公式为

其中，a,b分别为地址字符串在空间向量模型中的向量，a_i,b_i分别为向量a,b的第i个元素。结果越接近1表示两地址相似性越高；越接近于0，表示两地址越不相近。

优选地，所述综合加权匹配度的公式为

优选地，所述匹配度阈值的可信度定义如下：

M_P≥90定为精确，M_P≥70定为近似，M_P≥50定为广泛。

本发明还提供了一种金融信用度的模糊动态加权匹配系统，由设有神经网络架构的模型内的程序或系统进行完成。

与现有技术相比，本发明具有以下几个方面的有益效果：

1.基于人工智能构建反洗钱黑名单匹配模型，提高整体匹配的速度和准确度。特别地，对于地址信息采用Doc2vec空间向量模型对文本数据进行深度挖掘和语义分析，以达到根据不同国籍不同情境也能自学习文本语义，具备高度自适应性的效果，从而提高文本匹配的准确度。

2.模糊匹配与精准匹配相结合，根据机构输入客户信息和主流黑名单数据库中客户信息的存储数据自身属性特征和不同国籍的风俗习惯施以不同的匹配方法和权重，实现个性化的反洗钱黑名单模糊匹配方案。

3.基于客户核心指标构建动态加权综合匹配模型，开发了支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言、广泛、近似、精确等多层次检索的反洗钱黑名单模糊匹配系统。

附图说明

图1为反洗钱黑名单模糊动态加权匹配流程图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步详细地说明。

实施例

本实施例公开了一种金融信用度的模糊动态加权匹配方法，具体包括如下步骤：

(1)收集目标客户的指标明细表，

(3)关联与目标客户的核心指标参数的基本数据，

301、输入自然人客户或机构客户的名称；

302、输入自然人客户或机构客户的证件类型和证件号码；

301、302必须选一项；

303、输入自然人客户的出生日期(YYYYMMDD)；

304、输入自然人客户的性别(可选)；

305、输入自然人客户或机构客户的国籍(可选)；

306、输入自然人客户或机构客户的地址(可选)；

307、输入机构客户的行业(可选)。

401、将自然人客户的名称按名、中间字和姓存放，非拼音形式转化为拼音形式；

402、将自然人客户的第一代身份证号码转变为二代身份证号码；

403、将自然人客户的出生日期按YYYYMMDD形式存放，区分年月日；对于缺少信息的情形，统一预处理修正为YYYY、MM和DD的不同组合形式；

404、将自然人客户的性别男/male转化为0，女/female转化为1；

405、将自然人客户或机构客户的非英语形式的国籍转化为英语；

406、将自然人客户或机构客户的地址按照国籍+城市/区域(省+市+区)+乡镇/街道+详细地址的结构翻译为英语，构建住址词典库与住址停用词库(包括road，city等)，利用TF-IDF权重提取法、词典匹配法提取地址的关键词信息；

407、将机构客户的非英语形式的行业转化为英语；

501、自然人客户或机构客户的名称匹配度M_P1的计算

502、计算自然人客户或机构客户的证件号码匹配度M_P2。

503、计算自然人客户的出生日期匹配度M_P3的计算。

504、计算自然人客户的性别匹配度M_P4的计算。

505、计算自然人客户或机构客户的国籍匹配度M_P5的计算。

506、基于相似度计算自然人客户或机构客户的住址匹配度M_P6。

(7)输出匹配度阈值列表结果。

特别指出的是，所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。针对输入的客户信息以及市场上主要黑名单数据库中客户信息存储的语言形式，基于词典库将中文简体、中文繁体转化为中文拼音，构建和开发支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言形式，有效提高的检索方式模糊状态语义检索。

所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。

所述匹配度计算公式为

lNP_i和lNP_j分别表示自然人客户或机构客户的名称字符串NP_i和NP_j的长度；max(lNP_i,lNP_j)表示lNP_i和lNP_j中的最大值；PP₀₁为控制参数。

所述相似度运算公式为

所述综合加权匹配度的公式为

根据输入的客户信息以及市场上主要黑名单数据库中客户信息构建动态累计加权模糊综合评价模型，实现对一条或多条信息搜索的匹配度计算。

所述匹配度阈值的可信度定义如下：

M_P≥90定为精确，M_P≥70定为近似，M_P≥50定为广泛。

利用人工智能算法中的Doc2vec向量空间模型进行文本数据模糊匹配，针对输入的客户住址信息以及市场上主要黑名单数据库中客户住址信息等文本数据。

本发明主要是基于反洗钱业务需要，完善黑名单匹配规则，构建一套可灵活配置的黑名单匹配模型。

基于编辑距离、精准匹配和人工智能相结合的技术，实现高度吻合实际需求可分别进行广泛、近似、精确检索，针对黑名单用户的名称、证件号码、出生日期、性别、国籍和住址信息数据建立改进型模糊匹配的数学模型，以实现黑名单检索精度和广度兼顾的要求。同时，设定加权组合的评分规则，对检索结果进行综合评分及排序。

匹配度模型的细节设置中也可凸显许多灵活设置以适应各国不同情况的设计，

例如基于AI的文本数据挖掘对住址信息进行检索中，由于各国住址信息的变动和差异，因此要求算法具备高度自适应性。

除了基于Python对数据进行预处理、提取关键词、计算编辑距离和统计相似性方法的计算以外，结合Word2vec的改进模型，即Doc2vec模型对文本进行深度挖掘和学习，以提高文本匹配的准确度。

再如，基于编辑距离对名称进行检索中，针对名称要素，对中国人而言更看重姓氏，故评分规则会对姓氏的权重较大；而对外国人而言更看重名字，故评分规则会对名字的权重较大。又如，基于精准匹配对性别进行检索中，由于数据库中的性别大多以数字0和1形式存在，故不同于其他检索要素，对性别要素的匹配采取精准匹配，以达到匹配速度和匹配精准度兼顾的效果。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种金融信用度的模糊动态加权匹配方法，其特征在于，具体包括如下步骤：

(1)收集目标客户的指标明细表，

(3)关联与目标客户的核心指标参数的基本数据，

(7)输出匹配度阈值列表结果。

2.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。

3.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。

4.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述匹配度计算公式为

max(lNP_i,lNP_j)表示lNP_i和lNP_j中的最大值；PP₀₁为控制参数。

5.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述相似度运算公式为

6.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述综合加权匹配度的公式为

7.根据权利要求1所述的金融信用度的模糊动态加权匹配方法，其特征在于，所述匹配度阈值的可信度定义如下：

M_P≥90定为精确，M_P≥70定为近似，M_P≥50定为广泛。

8.一种金融信用度的模糊动态加权匹配系统，其特征在于，包含权利要求1-7所述的金融信用度的模糊动态加权匹配方法，由设有神经网络架构的模型内的程序或系统进行完成。