CN112215698A - 一种金融信用度的模糊动态加权匹配方法及系统 - Google Patents

一种金融信用度的模糊动态加权匹配方法及系统 Download PDF

Info

Publication number
CN112215698A
CN112215698A CN202011077166.5A CN202011077166A CN112215698A CN 112215698 A CN112215698 A CN 112215698A CN 202011077166 A CN202011077166 A CN 202011077166A CN 112215698 A CN112215698 A CN 112215698A
Authority
CN
China
Prior art keywords
matching
client
basic data
fuzzy
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011077166.5A
Other languages
English (en)
Inventor
李金�
李梦颖
施兴森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kingstar Fintech Co Ltd
Original Assignee
Shanghai Kingstar Fintech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kingstar Fintech Co Ltd filed Critical Shanghai Kingstar Fintech Co Ltd
Priority to CN202011077166.5A priority Critical patent/CN112215698A/zh
Publication of CN112215698A publication Critical patent/CN112215698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种金融信用度的模糊动态加权匹配方法及系统,由设有神经网络架构的模型内的程序或系统进行完成具体包括如下步骤:(1)收集目标客户的指标明细表,(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,(3)关联与目标客户的核心指标参数的基本数据,(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,(7)输出匹配度阈值列表结果。本发明通过模糊动态加权匹配以提高目标客户的身份识别管理效率以及信用精准度可信度的问题。

Description

一种金融信用度的模糊动态加权匹配方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及是一种金融信用度的模糊动态加权匹配方法及系统。
背景技术
现有技术中,有较多的反洗钱的系统和方法,但其系统本身受限于自身对客户身份识别的能力,现有技术的系统对已有黑名单匹配方法主要存在以下三个问题:
一是对第三方黑名单数据库中客户的信息利用不全面,比如对住址信息等文本数据的挖掘有限;
二是黑名单匹配规则存在不合理现象,不能实现真正的动态加权;
三是部分黑名单匹配方式不支持多语言的模糊搜索。
因此,在实现在建立客户关系以及处理客户资金交易环节等场景中自然人或机构客户及其受益人的身份识别管理问题存在一定技术缺陷。
发明内容
本发明的目的在于提供一种金融信用度的模糊动态加权匹配方法,以解决提高目标客户的身份识别管理效率以及信用精准度可信度的问题。
为实现上述目的,本发明提供如下技术方案:
一种金融信用度的模糊动态加权匹配方法,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
优选地,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。
优选地,所述预定规则为。
优选地,所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
优选地,所述匹配度计算公式为
Figure BDA0002717070260000021
其中,d(NPi,NPj)表示输入自然人客户或机构客户的名称字符串NPi和黑名单数据库中疑似自然人客户或机构客户的名称字符串NPj的最短编辑距离;
lNPi和lNPj分别表示自然人客户或机构客户的名称字符串NPi和NPj的长度;
max(lNPi,lNPj)表示lNPi和lNPj中的最大值;PP01为控制参数。
优选地,所述相似度运算公式为
Figure BDA0002717070260000022
其中,a,b分别为地址字符串在空间向量模型中的向量,ai,bi分别为向量a,b的第i个元素。结果越接近1表示两地址相似性越高;越接近于0,表示两地址越不相近。
优选地,所述综合加权匹配度的公式为
Figure BDA0002717070260000023
优选地,所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
本发明还提供了一种金融信用度的模糊动态加权匹配系统,由设有神经网络架构的模型内的程序或系统进行完成。
与现有技术相比,本发明具有以下几个方面的有益效果:
1.基于人工智能构建反洗钱黑名单匹配模型,提高整体匹配的速度和准确度。特别地,对于地址信息采用Doc2vec空间向量模型对文本数据进行深度挖掘和语义分析,以达到根据不同国籍不同情境也能自学习文本语义,具备高度自适应性的效果,从而提高文本匹配的准确度。
2.模糊匹配与精准匹配相结合,根据机构输入客户信息和主流黑名单数据库中客户信息的存储数据自身属性特征和不同国籍的风俗习惯施以不同的匹配方法和权重,实现个性化的反洗钱黑名单模糊匹配方案。
3.基于客户核心指标构建动态加权综合匹配模型,开发了支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言、广泛、近似、精确等多层次检索的反洗钱黑名单模糊匹配系统。
附图说明
图1为反洗钱黑名单模糊动态加权匹配流程图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步详细地说明。
实施例
本实施例公开了一种金融信用度的模糊动态加权匹配方法,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
301、输入自然人客户或机构客户的名称;
302、输入自然人客户或机构客户的证件类型和证件号码;
301、302必须选一项;
303、输入自然人客户的出生日期(YYYYMMDD);
304、输入自然人客户的性别(可选);
305、输入自然人客户或机构客户的国籍(可选);
306、输入自然人客户或机构客户的地址(可选);
307、输入机构客户的行业(可选)。
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
401、将自然人客户的名称按名、中间字和姓存放,非拼音形式转化为拼音形式;
402、将自然人客户的第一代身份证号码转变为二代身份证号码;
403、将自然人客户的出生日期按YYYYMMDD形式存放,区分年月日;对于缺少信息的情形,统一预处理修正为YYYY、MM和DD的不同组合形式;
404、将自然人客户的性别男/male转化为0,女/female转化为1;
405、将自然人客户或机构客户的非英语形式的国籍转化为英语;
406、将自然人客户或机构客户的地址按照国籍+城市/区域(省+市+区)+乡镇/街道+详细地址的结构翻译为英语,构建住址词典库与住址停用词库(包括road,city等),利用TF-IDF权重提取法、词典匹配法提取地址的关键词信息;
407、将机构客户的非英语形式的行业转化为英语;
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
501、自然人客户或机构客户的名称匹配度MP1的计算
Figure BDA0002717070260000041
502、计算自然人客户或机构客户的证件号码匹配度MP2
503、计算自然人客户的出生日期匹配度MP3的计算。
504、计算自然人客户的性别匹配度MP4的计算。
505、计算自然人客户或机构客户的国籍匹配度MP5的计算。
506、基于相似度计算自然人客户或机构客户的住址匹配度MP6
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
特别指出的是,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。针对输入的客户信息以及市场上主要黑名单数据库中客户信息存储的语言形式,基于词典库将中文简体、中文繁体转化为中文拼音,构建和开发支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言形式,有效提高的检索方式模糊状态语义检索。
所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
所述匹配度计算公式为
Figure BDA0002717070260000051
其中,d(NPi,NPj)表示输入自然人客户或机构客户的名称字符串NPi和黑名单数据库中疑似自然人客户或机构客户的名称字符串NPj的最短编辑距离;
lNPi和lNPj分别表示自然人客户或机构客户的名称字符串NPi和NPj的长度;max(lNPi,lNPj)表示lNPi和lNPj中的最大值;PP01为控制参数。
所述相似度运算公式为
Figure BDA0002717070260000052
其中,a,b分别为地址字符串在空间向量模型中的向量,ai,bi分别为向量a,b的第i个元素。结果越接近1表示两地址相似性越高;越接近于0,表示两地址越不相近。
所述综合加权匹配度的公式为
Figure BDA0002717070260000061
根据输入的客户信息以及市场上主要黑名单数据库中客户信息构建动态累计加权模糊综合评价模型,实现对一条或多条信息搜索的匹配度计算。
所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
利用人工智能算法中的Doc2vec向量空间模型进行文本数据模糊匹配,针对输入的客户住址信息以及市场上主要黑名单数据库中客户住址信息等文本数据。
本发明主要是基于反洗钱业务需要,完善黑名单匹配规则,构建一套可灵活配置的黑名单匹配模型。
基于编辑距离、精准匹配和人工智能相结合的技术,实现高度吻合实际需求可分别进行广泛、近似、精确检索,针对黑名单用户的名称、证件号码、出生日期、性别、国籍和住址信息数据建立改进型模糊匹配的数学模型,以实现黑名单检索精度和广度兼顾的要求。同时,设定加权组合的评分规则,对检索结果进行综合评分及排序。
匹配度模型的细节设置中也可凸显许多灵活设置以适应各国不同情况的设计,
例如基于AI的文本数据挖掘对住址信息进行检索中,由于各国住址信息的变动和差异,因此要求算法具备高度自适应性。
除了基于Python对数据进行预处理、提取关键词、计算编辑距离和统计相似性方法的计算以外,结合Word2vec的改进模型,即Doc2vec模型对文本进行深度挖掘和学习,以提高文本匹配的准确度。
再如,基于编辑距离对名称进行检索中,针对名称要素,对中国人而言更看重姓氏,故评分规则会对姓氏的权重较大;而对外国人而言更看重名字,故评分规则会对名字的权重较大。又如,基于精准匹配对性别进行检索中,由于数据库中的性别大多以数字0和1形式存在,故不同于其他检索要素,对性别要素的匹配采取精准匹配,以达到匹配速度和匹配精准度兼顾的效果。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims (8)

1.一种金融信用度的模糊动态加权匹配方法,其特征在于,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
2.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。
3.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
4.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述匹配度计算公式为
Figure FDA0002717070250000011
其中,d(NPi,NPj)表示输入自然人客户或机构客户的名称字符串NPi和黑名单数据库中疑似自然人客户或机构客户的名称字符串NPj的最短编辑距离;
lNPi和lNPj分别表示自然人客户或机构客户的名称字符串NPi和NPj的长度;
max(lNPi,lNPj)表示lNPi和lNPj中的最大值;PP01为控制参数。
5.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述相似度运算公式为
Figure FDA0002717070250000021
其中,a,b分别为地址字符串在空间向量模型中的向量,ai,bi分别为向量a,b的第i个元素。结果越接近1表示两地址相似性越高;越接近于0,表示两地址越不相近。
6.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述综合加权匹配度的公式为
Figure FDA0002717070250000022
7.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
8.一种金融信用度的模糊动态加权匹配系统,其特征在于,包含权利要求1-7所述的金融信用度的模糊动态加权匹配方法,由设有神经网络架构的模型内的程序或系统进行完成。
CN202011077166.5A 2020-10-10 2020-10-10 一种金融信用度的模糊动态加权匹配方法及系统 Pending CN112215698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011077166.5A CN112215698A (zh) 2020-10-10 2020-10-10 一种金融信用度的模糊动态加权匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011077166.5A CN112215698A (zh) 2020-10-10 2020-10-10 一种金融信用度的模糊动态加权匹配方法及系统

Publications (1)

Publication Number Publication Date
CN112215698A true CN112215698A (zh) 2021-01-12

Family

ID=74052990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011077166.5A Pending CN112215698A (zh) 2020-10-10 2020-10-10 一种金融信用度的模糊动态加权匹配方法及系统

Country Status (1)

Country Link
CN (1) CN112215698A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577744A (zh) * 2017-08-28 2018-01-12 苏州科技大学 非标地址自动匹配模型、匹配方法以及模型建立方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577744A (zh) * 2017-08-28 2018-01-12 苏州科技大学 非标地址自动匹配模型、匹配方法以及模型建立方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统

Similar Documents

Publication Publication Date Title
US10095692B2 (en) Template bootstrapping for domain-adaptable natural language generation
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
Fang et al. Domain adaptation for sentiment classification in light of multiple sources
US11610271B1 (en) Transaction data processing systems and methods
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Hättasch et al. It's ai match: A two-step approach for schema matching using embeddings
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
Khalid et al. Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
Li et al. Abstractive financial news summarization via transformer-BiLSTM encoder and graph attention-based decoder
Duman Social media analytical CRM: a case study in a bank
Ma et al. Identifying purchase intention through deep learning: analyzing the Q &D text of an E-Commerce platform
CN112215698A (zh) 一种金融信用度的模糊动态加权匹配方法及系统
CN110532538A (zh) 财产纠纷裁判文书关键实体抽取算法
CN115204959A (zh) 广告文案生成方法及其装置、设备、介质
Jiang et al. A study on the application of sentiment-support words on aspect-based sentiment analysis
Handayani et al. Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method
Li et al. A multi-granularity semantic space learning approach for cross-lingual open domain question answering
Bansal et al. Online Insurance Business Analytics Approach for Customer Segmentation
Zhuang et al. A novel method for open relation extraction from public announcements of chinese listed companies
US11983486B1 (en) Machine learning techniques for updating documents generated by a natural language generation (NLG) engine
Chen et al. Enhancing cross-lingual medical concept alignment by leveraging synonyms and translations of the unified medical language system
Chen et al. Neural Entity Linking For Company Names

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination