CN108734571A - 一种信贷反欺诈侦测模糊匹配算法 - Google Patents

一种信贷反欺诈侦测模糊匹配算法 Download PDF

Info

Publication number
CN108734571A
CN108734571A CN201810526329.XA CN201810526329A CN108734571A CN 108734571 A CN108734571 A CN 108734571A CN 201810526329 A CN201810526329 A CN 201810526329A CN 108734571 A CN108734571 A CN 108734571A
Authority
CN
China
Prior art keywords
algorithm
fuzzy matching
result
fuzzymatchresult
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810526329.XA
Other languages
English (en)
Inventor
杨维俊
李翼岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Jin Jing Micro Reading Mdt Infotech Ltd
Original Assignee
Foshan Jin Jing Micro Reading Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Jin Jing Micro Reading Mdt Infotech Ltd filed Critical Foshan Jin Jing Micro Reading Mdt Infotech Ltd
Priority to CN201810526329.XA priority Critical patent/CN108734571A/zh
Publication of CN108734571A publication Critical patent/CN108734571A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种信贷反欺诈侦测模糊匹配算法,本算法以相似度算法为基础,通过增加偏移量参数省略编辑距离算法,相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。同时,本发明优化了上述算法,即将相似度算法和Myers diff改良算法结合来计算模糊匹配结果,引入Myers diff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。

Description

一种信贷反欺诈侦测模糊匹配算法
技术领域
本发明涉及一种信贷反欺诈侦测模糊匹配算法,属于互联网金融技术领域。
背景技术
随着经济和社会的不断发展,信贷业务已深入社会各阶层,影响着企业、机构、组织的运转以及个人的生活,同时信贷反欺诈技术也成为了信贷业务正常运转的基础。模糊匹配在反欺诈侦测中广泛应用,但普通模糊匹配算法达不到系统对性能的要求。
目前广泛应用的模糊匹配算法包括相似度算法(Similarity Metric)、编辑距离算法(Levenshtein Distance Algorithm)和Myers diff算法等。在反欺诈侦测中,单纯应用这些算法无法满足海量数据匹配的效率要求以及匹配准确度要求。目前的反欺诈产品,理论上模糊匹配的精确度基本满足要求,但在执行模糊匹配运算前,强制要求缩小匹配范围,如增加额外过滤条件来缩小比对范围,实际每次最多允许比对几百到几千个字符串,以保证运行效率,这样就造成模糊匹配算法实际适用范围降低,以及由于强制增加的过滤条件造成模糊匹配结果的干扰。
通过对流行算法的分析以及大量数据模糊匹配运算的测试实验,发现效率瓶颈主要是模糊匹配算法中的迭代运算所造成,这样在长字符串的模糊匹配运算中,效率急剧降低。比如姓名字符串“张大明”和“张达明”,迭代次数为9,不会出现效率问题,但对于全地址字符串,比如“天津市滨海新区第二大道188号A区渤海大厦塔楼,18楼1802室”和“天津市塘沽开发区第2大道渤海大楼B座,1802”需要迭代32*23=736次,如果需要和数据库中数以百万计数据进行模糊匹配计算,则无法满足反欺诈侦测系统所需要的毫秒级效率要求。
发明内容
本发明提供了一种信贷反欺诈侦测模糊匹配算法,以相似度算法(SimilarityMetric)为基础,通过增加偏移量参数省略编辑距离算法(Levenshtein DistanceAlgorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:
首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;
其次,应用预先设定经验值偏移量(LevDist),建议值为0.3;
最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。
通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。
基于以上“一种信贷反欺诈侦测模糊匹配算法”,本发明对此算法进行优化,即将相似度算法(Similarity Metric)和Myers diff改良算法结合来计算模糊匹配结果,本优化算法引入Myers diff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。其具体步骤如下:
首先,设定模糊匹配结果值,如0.75;
其次,对两个字符串应用相似度算法(Similarity Metric),结果表示为Sim_Metric;
最后,应用改良后的Myers diff改良算法按步骤计算两个字符串变更一致所需次数,但是并不需要计算全部结果,一旦某一步骤结果达到预先设定阈值(LevDist)就立即停止。预先通过参数设定模糊匹配结果FuzzyMatchResult(如>0.75),那么在Myers diff算法中某一步骤结果一旦LevDist>=Sim_Metric*2–FuzzyMatchResult*2.5+1,立即停止计算,并返回布尔值,标识这两个字符串模糊匹配结果FuzzyMatchResult小于等于预先设定值(如0.75),从而不能匹配。
本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。
实施方式
一种信贷反欺诈侦测模糊匹配算法,以相似度算法(Similarity Metric)为基础,通过增加偏移量参数省略编辑距离算法(Levenshtein Distance Algorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:
首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;
其次,应用预先设定经验值偏移量(LevDist),建议值为0.3;
最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。
通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。
基于以上“一种信贷反欺诈侦测模糊匹配算法”,本发明对此算法进行优化,即将相似度算法(Similarity Metric)和Myers diff改良算法结合来计算模糊匹配结果,本优化算法引入Myers diff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。其具体步骤如下:
首先,设定模糊匹配结果值,如0.75;
其次,对两个字符串应用相似度算法(Similarity Metric),结果表示为Sim_Metric;
最后,应用改良后的Myers diff改良算法按步骤计算两个字符串变更一致所需次数,但是并不需要计算全部结果,一旦某一步骤结果达到预先设定阈值(LevDist)就立即停止。预先通过参数设定模糊匹配结果FuzzyMatchResult(如>0.75),那么在Myers diff算法中某一步骤结果一旦LevDist>=Sim_Metric*2–FuzzyMatchResult*2.5+1,立即停止计算,并返回布尔值,标识这两个字符串模糊匹配结果FuzzyMatchResult小于等于预先设定值(如0.75),从而不能匹配。
本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。

Claims (3)

1.一种信贷反欺诈侦测模糊匹配算法,其特征在于:
以相似度算法(Similarity Metric)为基础,通过增加偏移量参数省略编辑距离算法(Levenshtein Distance Algorithm),由于相似度算法不涉及迭代运算,因此其不构成效率瓶颈,通常运算为毫秒级。其具体步骤如下:
首先,对两个字符串应用相似度算法,结果表示为Sim_Metric;
其次,应用预先设定经验值偏移量(LevDist);
最终模糊匹配结果可表示为:FuzzyMatchResult=Minmum(Sim_Metric*0.9+(1-LevDist)*0.2,1),其中FuzzyMatchResult>=0,FuzzyMatchResult<=1),函数Minmum取两个参数中最小值,以保证最终结果<=1,建议设定可接受模糊匹配相似字符结果为FuzzyMatchResult>=0.75,即FuzzyMatchResult>=0.75可视为匹配字符。
通过大量数据计算实验,本算法在计算字符串模糊匹配结果值FuzzyMatchResult>0.70时,其偏差大约为+-(2-7%),相比于传统模糊匹配算法,本算法极大地减少了内存等服务器资源的占用,运算效率提高将近10倍。
2.如权利要求1所述的一种信贷反欺诈侦测模糊匹配算法,其特征在于:所述应用预先设定经验值偏移量,其建议值为0.3。
3.一种优化信贷反欺诈侦测模糊匹配算法,其特征在于:
“一种信贷反欺诈侦测模糊匹配算法”的优化算法,即将相似度算法(SimilarityMetric)和Myers diff改良算法结合来计算模糊匹配结果,本优化算法引入Myers diff改良算法,并将两个结果修正加权然后相加得到最终模糊匹配结果。其具体步骤如下:
首先,设定模糊匹配结果值,如0.75;
其次,对两个字符串应用相似度算法(Similarity Metric),结果表示为Sim_Metric;
最后,应用改良后的Myers diff改良算法按步骤计算两个字符串变更一致所需次数,但是并不需要计算全部结果,一旦某一步骤结果达到预先设定阈值(LevDist)就立即停止。预先通过参数设定模糊匹配结果FuzzyMatchResult(如>0.75),那么在Myers diff算法中某一步骤结果一旦LevDist>=Sim_Metric*2–FuzzyMatchResult*2.5+1,立即停止计算,并返回布尔值,标识这两个字符串模糊匹配结果FuzzyMatchResult小于等于预先设定值(如0.75),从而不能匹配。本优化算法适合大部分数据差异较小,而且要求模糊匹配计算精度较高的场景。这样可以最小化迭代次数同时模糊匹配结果值相对精确。
CN201810526329.XA 2018-05-29 2018-05-29 一种信贷反欺诈侦测模糊匹配算法 Pending CN108734571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810526329.XA CN108734571A (zh) 2018-05-29 2018-05-29 一种信贷反欺诈侦测模糊匹配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810526329.XA CN108734571A (zh) 2018-05-29 2018-05-29 一种信贷反欺诈侦测模糊匹配算法

Publications (1)

Publication Number Publication Date
CN108734571A true CN108734571A (zh) 2018-11-02

Family

ID=63935579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810526329.XA Pending CN108734571A (zh) 2018-05-29 2018-05-29 一种信贷反欺诈侦测模糊匹配算法

Country Status (1)

Country Link
CN (1) CN108734571A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统
CN110322883A (zh) * 2019-06-27 2019-10-11 上海麦克风文化传媒有限公司 一种高效语音转文字效果评价优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610119A (zh) * 2012-03-22 2012-07-25 广州杰赛科技股份有限公司 反向寻车的方法及反向寻车的系统
CN106021504A (zh) * 2016-05-20 2016-10-12 深圳Tcl数字技术有限公司 字符串模糊匹配方法及装置
US20180004976A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Adaptive data obfuscation
CN107977422A (zh) * 2017-11-27 2018-05-01 中国电子科技集团公司第二十八研究所 一种装备型号名称的模糊匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102610119A (zh) * 2012-03-22 2012-07-25 广州杰赛科技股份有限公司 反向寻车的方法及反向寻车的系统
CN106021504A (zh) * 2016-05-20 2016-10-12 深圳Tcl数字技术有限公司 字符串模糊匹配方法及装置
US20180004976A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Adaptive data obfuscation
CN107977422A (zh) * 2017-11-27 2018-05-01 中国电子科技集团公司第二十八研究所 一种装备型号名称的模糊匹配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统
CN110322883A (zh) * 2019-06-27 2019-10-11 上海麦克风文化传媒有限公司 一种高效语音转文字效果评价优化方法
CN110322883B (zh) * 2019-06-27 2023-02-17 上海麦克风文化传媒有限公司 一种语音转文字效果评价优化方法

Similar Documents

Publication Publication Date Title
CN111177417B (zh) 基于网络安全知识图谱的安全事件关联方法、系统、介质
US9330416B1 (en) Visualization of fraud patterns
US20210124983A1 (en) Device and method for anomaly detection on an input stream of events
CN105183794B (zh) 业务流水号生成装置和方法
CN105681339A (zh) 一种融合粗糙集与ds证据理论的增量式入侵检测方法
CN108734571A (zh) 一种信贷反欺诈侦测模糊匹配算法
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
US8938443B2 (en) Runtime optimization of spatiotemporal events processing
CN111861463A (zh) 基于区块链和人工智能的信息智能识别方法及大数据平台
CN110995769A (zh) 深度数据包检测方法、装置及可读存储介质
Haesaert et al. Temporal logic control of general Markov decision processes by approximate policy refinement
CN113449753B (zh) 业务风险预测方法、装置和系统
Min et al. Symmetric continuous subgraph matching with bidirectional dynamic programming
CN116349211A (zh) 基于自注意力的深度学习的分布式轨迹异常检测
CN112861894A (zh) 一种数据流分类方法、装置及系统
CN109474691A (zh) 一种物联网设备识别的方法及装置
CN111970400A (zh) 骚扰电话识别方法及装置
CN112217834A (zh) 一种基于图结构的互联网加密流量交互特征提取方法
Yang et al. A fast and efficient local outlier detection in data streams
Nguyen et al. InfoCNF: An efficient conditional continuous normalizing flow with adaptive solvers
US11848959B2 (en) Method for detecting and defending DDoS attack in SDN environment
CN110138681A (zh) 一种基于tcp报文特征的网络流量识别方法及装置
JP2004177944A (ja) Opcの高速化のための一次近似システム
US20230186122A1 (en) Inference-oriented method and system for application flow and index vectorization
CN110286587A (zh) 实现模型迭代控制的方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181102