CN112215698A - 一种金融信用度的模糊动态加权匹配方法及系统 - Google Patents
一种金融信用度的模糊动态加权匹配方法及系统 Download PDFInfo
- Publication number
- CN112215698A CN112215698A CN202011077166.5A CN202011077166A CN112215698A CN 112215698 A CN112215698 A CN 112215698A CN 202011077166 A CN202011077166 A CN 202011077166A CN 112215698 A CN112215698 A CN 112215698A
- Authority
- CN
- China
- Prior art keywords
- matching
- client
- basic data
- fuzzy
- financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 10
- 230000008520 organization Effects 0.000 claims description 9
- 239000004743 Polypropylene Substances 0.000 claims description 6
- -1 polypropylene Polymers 0.000 claims description 3
- 229920001155 polypropylene Polymers 0.000 claims description 3
- 238000004900 laundering Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种金融信用度的模糊动态加权匹配方法及系统,由设有神经网络架构的模型内的程序或系统进行完成具体包括如下步骤:(1)收集目标客户的指标明细表,(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,(3)关联与目标客户的核心指标参数的基本数据,(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,(7)输出匹配度阈值列表结果。本发明通过模糊动态加权匹配以提高目标客户的身份识别管理效率以及信用精准度可信度的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及是一种金融信用度的模糊动态加权匹配方法及系统。
背景技术
现有技术中,有较多的反洗钱的系统和方法,但其系统本身受限于自身对客户身份识别的能力,现有技术的系统对已有黑名单匹配方法主要存在以下三个问题:
一是对第三方黑名单数据库中客户的信息利用不全面,比如对住址信息等文本数据的挖掘有限;
二是黑名单匹配规则存在不合理现象,不能实现真正的动态加权;
三是部分黑名单匹配方式不支持多语言的模糊搜索。
因此,在实现在建立客户关系以及处理客户资金交易环节等场景中自然人或机构客户及其受益人的身份识别管理问题存在一定技术缺陷。
发明内容
本发明的目的在于提供一种金融信用度的模糊动态加权匹配方法,以解决提高目标客户的身份识别管理效率以及信用精准度可信度的问题。
为实现上述目的,本发明提供如下技术方案:
一种金融信用度的模糊动态加权匹配方法,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
优选地,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。
优选地,所述预定规则为。
优选地,所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
优选地,所述匹配度计算公式为
其中,d(NPi,NPj)表示输入自然人客户或机构客户的名称字符串NPi和黑名单数据库中疑似自然人客户或机构客户的名称字符串NPj的最短编辑距离;
lNPi和lNPj分别表示自然人客户或机构客户的名称字符串NPi和NPj的长度;
max(lNPi,lNPj)表示lNPi和lNPj中的最大值;PP01为控制参数。
优选地,所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
本发明还提供了一种金融信用度的模糊动态加权匹配系统,由设有神经网络架构的模型内的程序或系统进行完成。
与现有技术相比,本发明具有以下几个方面的有益效果:
1.基于人工智能构建反洗钱黑名单匹配模型,提高整体匹配的速度和准确度。特别地,对于地址信息采用Doc2vec空间向量模型对文本数据进行深度挖掘和语义分析,以达到根据不同国籍不同情境也能自学习文本语义,具备高度自适应性的效果,从而提高文本匹配的准确度。
2.模糊匹配与精准匹配相结合,根据机构输入客户信息和主流黑名单数据库中客户信息的存储数据自身属性特征和不同国籍的风俗习惯施以不同的匹配方法和权重,实现个性化的反洗钱黑名单模糊匹配方案。
3.基于客户核心指标构建动态加权综合匹配模型,开发了支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言、广泛、近似、精确等多层次检索的反洗钱黑名单模糊匹配系统。
附图说明
图1为反洗钱黑名单模糊动态加权匹配流程图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步详细地说明。
实施例
本实施例公开了一种金融信用度的模糊动态加权匹配方法,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
301、输入自然人客户或机构客户的名称;
302、输入自然人客户或机构客户的证件类型和证件号码;
301、302必须选一项;
303、输入自然人客户的出生日期(YYYYMMDD);
304、输入自然人客户的性别(可选);
305、输入自然人客户或机构客户的国籍(可选);
306、输入自然人客户或机构客户的地址(可选);
307、输入机构客户的行业(可选)。
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
401、将自然人客户的名称按名、中间字和姓存放,非拼音形式转化为拼音形式;
402、将自然人客户的第一代身份证号码转变为二代身份证号码;
403、将自然人客户的出生日期按YYYYMMDD形式存放,区分年月日;对于缺少信息的情形,统一预处理修正为YYYY、MM和DD的不同组合形式;
404、将自然人客户的性别男/male转化为0,女/female转化为1;
405、将自然人客户或机构客户的非英语形式的国籍转化为英语;
406、将自然人客户或机构客户的地址按照国籍+城市/区域(省+市+区)+乡镇/街道+详细地址的结构翻译为英语,构建住址词典库与住址停用词库(包括road,city等),利用TF-IDF权重提取法、词典匹配法提取地址的关键词信息;
407、将机构客户的非英语形式的行业转化为英语;
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
501、自然人客户或机构客户的名称匹配度MP1的计算
502、计算自然人客户或机构客户的证件号码匹配度MP2。
503、计算自然人客户的出生日期匹配度MP3的计算。
504、计算自然人客户的性别匹配度MP4的计算。
505、计算自然人客户或机构客户的国籍匹配度MP5的计算。
506、基于相似度计算自然人客户或机构客户的住址匹配度MP6。
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
特别指出的是,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。针对输入的客户信息以及市场上主要黑名单数据库中客户信息存储的语言形式,基于词典库将中文简体、中文繁体转化为中文拼音,构建和开发支持中文简体、中文繁体、中文拼音、粤语拼音和英语等主流语言形式,有效提高的检索方式模糊状态语义检索。
所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
其中,d(NPi,NPj)表示输入自然人客户或机构客户的名称字符串NPi和黑名单数据库中疑似自然人客户或机构客户的名称字符串NPj的最短编辑距离;
lNPi和lNPj分别表示自然人客户或机构客户的名称字符串NPi和NPj的长度;max(lNPi,lNPj)表示lNPi和lNPj中的最大值;PP01为控制参数。
所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
利用人工智能算法中的Doc2vec向量空间模型进行文本数据模糊匹配,针对输入的客户住址信息以及市场上主要黑名单数据库中客户住址信息等文本数据。
本发明主要是基于反洗钱业务需要,完善黑名单匹配规则,构建一套可灵活配置的黑名单匹配模型。
基于编辑距离、精准匹配和人工智能相结合的技术,实现高度吻合实际需求可分别进行广泛、近似、精确检索,针对黑名单用户的名称、证件号码、出生日期、性别、国籍和住址信息数据建立改进型模糊匹配的数学模型,以实现黑名单检索精度和广度兼顾的要求。同时,设定加权组合的评分规则,对检索结果进行综合评分及排序。
匹配度模型的细节设置中也可凸显许多灵活设置以适应各国不同情况的设计,
例如基于AI的文本数据挖掘对住址信息进行检索中,由于各国住址信息的变动和差异,因此要求算法具备高度自适应性。
除了基于Python对数据进行预处理、提取关键词、计算编辑距离和统计相似性方法的计算以外,结合Word2vec的改进模型,即Doc2vec模型对文本进行深度挖掘和学习,以提高文本匹配的准确度。
再如,基于编辑距离对名称进行检索中,针对名称要素,对中国人而言更看重姓氏,故评分规则会对姓氏的权重较大;而对外国人而言更看重名字,故评分规则会对名字的权重较大。又如,基于精准匹配对性别进行检索中,由于数据库中的性别大多以数字0和1形式存在,故不同于其他检索要素,对性别要素的匹配采取精准匹配,以达到匹配速度和匹配精准度兼顾的效果。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。
Claims (8)
1.一种金融信用度的模糊动态加权匹配方法,其特征在于,具体包括如下步骤:
(1)收集目标客户的指标明细表,
(2)按照预定规则对指标明细表进行权重比划分,构建系统的核心指标参数,
(3)关联与目标客户的核心指标参数的基本数据,
(4)对所述核心指标参数的基本数据进行英文和/或数字化表达,
(5)分别对基本数据进行定义编号,根据公式计算核心指标参数进行单一的匹配度和相似度计算,
(6)根据定义好的基本数据的权重比进行综合加权匹配度计算,
(7)输出匹配度阈值列表结果。
2.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述指标明细表包括但不限于来源于人民银行公共信用信息系统、金融机构的违约信息和事业单位缴费信息数据。
3.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述基本数据包括但不限于目标客户的名称、证件类型、证件号码、出生/注册日期、性别属性、国籍、籍贯和所属行业。
7.根据权利要求1所述的金融信用度的模糊动态加权匹配方法,其特征在于,所述匹配度阈值的可信度定义如下:
MP≥90定为精确,MP≥70定为近似,MP≥50定为广泛。
8.一种金融信用度的模糊动态加权匹配系统,其特征在于,包含权利要求1-7所述的金融信用度的模糊动态加权匹配方法,由设有神经网络架构的模型内的程序或系统进行完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077166.5A CN112215698A (zh) | 2020-10-10 | 2020-10-10 | 一种金融信用度的模糊动态加权匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077166.5A CN112215698A (zh) | 2020-10-10 | 2020-10-10 | 一种金融信用度的模糊动态加权匹配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112215698A true CN112215698A (zh) | 2021-01-12 |
Family
ID=74052990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011077166.5A Pending CN112215698A (zh) | 2020-10-10 | 2020-10-10 | 一种金融信用度的模糊动态加权匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215698A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577744A (zh) * | 2017-08-28 | 2018-01-12 | 苏州科技大学 | 非标地址自动匹配模型、匹配方法以及模型建立方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109840316A (zh) * | 2018-12-21 | 2019-06-04 | 上海诺悦智能科技有限公司 | 一种客户信息制裁名单匹配系统 |
-
2020
- 2020-10-10 CN CN202011077166.5A patent/CN112215698A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577744A (zh) * | 2017-08-28 | 2018-01-12 | 苏州科技大学 | 非标地址自动匹配模型、匹配方法以及模型建立方法 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109840316A (zh) * | 2018-12-21 | 2019-06-04 | 上海诺悦智能科技有限公司 | 一种客户信息制裁名单匹配系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095692B2 (en) | Template bootstrapping for domain-adaptable natural language generation | |
CN105373365B (zh) | 用于管理关于近似串匹配的档案的方法和系统 | |
US11610271B1 (en) | Transaction data processing systems and methods | |
Fang et al. | Domain adaptation for sentiment classification in light of multiple sources | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
Hättasch et al. | It's ai match: A two-step approach for schema matching using embeddings | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Chen et al. | Sentiment classification of tourism based on rules and LDA topic model | |
WO2023071120A1 (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
Li et al. | Abstractive financial news summarization via transformer-BiLSTM encoder and graph attention-based decoder | |
Abbasiantaeb et al. | Entity-aware answer sentence selection for question answering with transformer-based language models | |
Duman | Social media analytical CRM: a case study in a bank | |
CN112215698A (zh) | 一种金融信用度的模糊动态加权匹配方法及系统 | |
CN110532538A (zh) | 财产纠纷裁判文书关键实体抽取算法 | |
CN115204959A (zh) | 广告文案生成方法及其装置、设备、介质 | |
Lokman et al. | A conceptual IR chatbot framework with automated keywords-based vector representation generation | |
Handayani et al. | Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method | |
Li et al. | A multi-granularity semantic space learning approach for cross-lingual open domain question answering | |
Bansal et al. | Online insurance business analytics approach for customer segmentation | |
Zhong et al. | A text matching model based on dynamic multi‐mask and augmented adversarial | |
Chen et al. | Enhancing cross-lingual medical concept alignment by leveraging synonyms and translations of the unified medical language system | |
Zhuang et al. | A novel method for open relation extraction from public announcements of chinese listed companies | |
Chen et al. | Neural entity linking for company names | |
Zheng et al. | Utilization of Question Categories in Multi-Document Machine Reading Comprehension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 210 Liangjing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant after: Shanghai Jinshida Software Technology Co.,Ltd. Address before: 210 Liangjing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant before: Shanghai Kingstar Software Technology Co.,Ltd. Country or region before: China |