CN112069374A - 一种银行多个客户编号的识别方法及装置 - Google Patents

一种银行多个客户编号的识别方法及装置 Download PDF

Info

Publication number
CN112069374A
CN112069374A CN202010984261.7A CN202010984261A CN112069374A CN 112069374 A CN112069374 A CN 112069374A CN 202010984261 A CN202010984261 A CN 202010984261A CN 112069374 A CN112069374 A CN 112069374A
Authority
CN
China
Prior art keywords
character string
str
character
weighted
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010984261.7A
Other languages
English (en)
Other versions
CN112069374B (zh
Inventor
朱晓洁
武妍格
胡伟斌
陈芷征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010984261.7A priority Critical patent/CN112069374B/zh
Publication of CN112069374A publication Critical patent/CN112069374A/zh
Application granted granted Critical
Publication of CN112069374B publication Critical patent/CN112069374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种银行多个客户编号的识别方法及装置,涉及数据处理技术领域,可用于金融领域或其他技术领域。所述方法包括:获取客户的开户信息;若根据证件类型和所述证件编号,获得证件类型和证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将开户姓名转换成第一字符串;根据第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得第一字符串与每个已有姓名对应的字符串的加权编辑距离;若判断获知第一字符串与已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出已有姓名。所述装置用于执行上述方法。本发明实施例提供的银行多个客户编号的识别方法及装置,提高了客户开户信息的准确性。

Description

一种银行多个客户编号的识别方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种银行多个客户编号的识别方法及装置。
背景技术
目前,银行在客户开户的时候采用证件类型、证件号码和姓名三要素为客户建立唯一的客户编号。
客户在银行办理开户业务的时候,业务人员录入客户姓名的过程中,存在录入错误的情况,例如错误输入空格、特殊符号、大小写、姓名缩写等多种情况,使得同一客户在银行建立多个客户编号,对后续开展业务、监管报送等管理造成影响。
因此,如何提出一种银行多个客户编号的识别方法,能够发现同一客户存在多个客户编号的情况,以保证客户的客户编号的唯一性成为本领域需要解决的重要课题。
发明内容
针对现有技术中的问题,本发明实施例提供一种银行多个客户编号的识别方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种银行多个客户编号的识别方法,包括:
获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;
若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;
根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;
若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
另一方面,本发明提供一种银行多个客户编号的识别装置,包括:
获取单元,用于获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;
第一转换单元,用于在根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名之后,将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;
第一获得单元,用于根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;
输出单元,用于在判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出所述已有姓名。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述银行多个客户编号的识别方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述银行多个客户编号的识别方法的步骤。
本发明实施例提供的银行多个客户编号的识别方法及装置,获取客户的开户信息,若根据证件类型和证件编号,获得证件类型和证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将开户姓名转换成第一字符串,根据第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得第一字符串与每个已有姓名对应的字符串的加权编辑距离,在判断获知第一字符串与已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出已有姓名,能够避免为相同客户建立多个客户编号,提高了客户开户信息的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的银行多个客户编号的识别方法的流程示意图。
图2是本发明另一实施例提供的银行多个客户编号的识别方法的流程示意图。
图3是本发明又一实施例提供的银行多个客户编号的识别方法的流程示意图。
图4是本发明一实施例提供的银行多个客户编号的识别装置的结构示意图。
图5是本发明另一实施例提供的银行多个客户编号的识别装置的结构示意图。
图6是本发明又一实施例提供的银行多个客户编号的识别装置的结构示意图。
图7是本发明再一实施例提供的银行多个客户编号的识别装置的结构示意图。
图8是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的研究背景进行简单说明。客户在银行开户时,由于录入的错误,会导致同一个客户出现多个客户编号。传统的模糊匹配方法则要求字符串前几位完全匹配,匹配位数需要提前指定,无法识别出由于错误输入空格、特殊符号、大小写、姓名缩写等情况导致的字符串不匹配,而实际上由于空格、特殊符号、大小写、姓名缩写等情况产生的两个及两个以上的开户信息,很可能是同一个客户。因此,本发明实施例提供一种银行多个客户编号的识别方法,能够识别出由于字符串不匹配导致的同一个客户开出多个客户标号的问题。
图1是本发明一实施例提供的银行多个客户编号的识别方法的流程示意图,如图1所示,本发明实施例提供的银行多个客户编号的识别方法,包括:
S101、获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;
具体地,客户在银行办理开户的时候,需要提供开户信息,银行柜员会将客户提供的开户信息录入到业务终端中,所述业务终端将所述开户信息发送给服务器,所述服务器可以获取到所述开户信息。其中,所述开户信息包括证件类型、证件编号和开户姓名。所述开户姓名包括但不限于中文姓名和英文姓名。所述业务终端包括但不限于台式机。本发明实施例提供的银行多个客户编号的识别方法的执行主体包括但不限于服务器。
S102、若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;
具体地,所述服务器在获得所述开户信息之后,可以根据所述证件类型和所述证件编号在数据库中查找对应的姓名,如果查询到与所述证件类型和所述证件编号对应的已有姓名,那么将每个已有姓名转换成字符串,获得每个已有姓名对应的字符串。所述服务器还会将所述开户姓名转成成第一字符串。可理解的是,与所述证件类型和所述证件编号对应的已有姓名可以有一个,两个或者两个以上。
例如,已有姓名和开户姓名都是汉字,可以将已有姓名和开户姓名分别转换成汉语拼音,从而获得已有姓名对应的字符串和开户姓名对应的第一字符串。
S103、根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;
具体地,所述服务器在获得每个已有姓名对应的字符串和所述开户姓名对应的第一字符串之后,可以根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离。其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的。
其中,加权编辑距离是基于编辑距离演变而来的。编辑距离是指一个字符串转换成另一个字符串的最少编辑次数。为了将一个字符串转换成另一个字符串,有效的编辑操作为删除字符,新增字符和替换字符。假设现在有两个字符串Str1(1...N)和Str2(1...M),其中N为字符串Str1的长度,M为字符串Str2的长度,且N和M为正整数。L(N,M)为字符串Str1转换为字符串Str2的编辑距离。根据编辑距离的定义,我们知道字符串Str1要转换为字符串Str2,可以存在如下三种情况:
1)将字符串Str1(1...N-1)先转换为Str2(1...M),再删除字符串Str1的第N个字符;
2)将Str1(1...N)先转换为Str2(1...M-1),再添加字符串Str2的第M个字符;
3)将Str1(1...N-1)先转换为Str2(1...M-1),再将字符串Str1的第N个字符替换为字符串Str2的第M个字符,如果字符串Str1的第N个字符等于符串Str2的第M个字符,则不需要编辑操作;
由此得到编辑距离的计算公式为:
L(N,M)=min(L(N-1,M)+1,L(N,M-1)+1,L(N-1,M-1)+(Str1[N]==Str2[M]?0:1))
其中,?为多目运算符,字符串Str1的第N个字符等于符串Str2的第M个字符,取值为0,字符串Str1的第N个字符不等于符串Str2的第M个字符,取值为1。
从上述过程可看出,编辑距离的计算过程中将所有的字符编辑操作都认为是等价的,而在本申请中,由于(1)在输入姓名的过程中不同字符之间的操作失误的可能性时不同的;(2)匹配的字符串为姓名,不应该出现本地语言字符(如英文字母,汉字)或空格以外的特殊字符,因此提出加权编辑距离,在姓名的字符串的匹配过程中,对于编辑操作进行加权。所述编辑操作加权规则可以包括如下内容:
1)对于新增操作,输入的特殊字符(包括并不限于空格、*、#、$、%、^、&等)的编辑权重为0;
2)对于新增操作,输入与前一字符相同的字符的编辑权重为0.5;
3)对于新增或替换操作,如果是非特殊字符,同手指或相邻手指控制键盘字符的编辑权重为0.5,间隔一个手指控制的字符的编辑权重为1,间隔1个以上手指的编辑距离权重为手指的间隔个数;其中,上述编辑权重的计算是基于标准的键盘打字手势得出的;
4)字母大小写不敏感,即字符进行大小写转换的编辑权重为0;
5)如果满足上述4条原则中两条以及两条以上的原则,那么取两个以及两个以上个编辑权重的最小值。
基于所述编辑操作加权规则,可以获得加权编辑距离计算公式为:
L(N,M)=min(L(N-1,M)+Winsert,L(N,M-1)+Wdelete,L(N-1,M-1)+(Str1[N]==Str2[M]?0:Wreplace))
其中,Winsert表示添加字符时的编辑权重,Wdelete表示删除字符时的编辑权重,Wreplace表示替换字符时的编辑权重,M和N为正整数。
S104、若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
具体地,所述服务器在获得所述第一字符串与所述已有姓名对应的字符串的加权编辑距离之后,将上述加权编辑距离与第一阈值进行比较,如果上述加权编辑距离小于所述第一阈值,那么输出小于所述第一阈值的加权编辑距离对应的已有姓名。其中,在输出已有姓名的同时,可以将对应的证件类型和证件编号一同输出,提供给银行柜员查看。其中,所述第一阈值根据实际经验进行设置,本发明实施例不做限定。
例如,将所有小于所述第一阈值的加权编辑距离对应的已有姓名以及对应的证件类型和证件编号以清单的形式输出。
本发明实施例提供的银行多个客户编号的识别方法,获取客户的开户信息,若根据证件类型和证件编号,获得证件类型和证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将开户姓名转换成第一字符串,根据第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得第一字符串与每个已有姓名对应的字符串的加权编辑距离,在判断获知第一字符串与已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出已有姓名,能够避免为相同客户建立多个客户编号,提高了客户开户信息的准确性。此外,每个客户具有唯一对应的客户编号,便于银行进行客户管理,建立统一视图以及应对各种监管报送。
图2是本发明另一实施例提供的银行多个客户编号的识别方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,本发明实施例提供的银行多个客户编号的识别方法还包括:
S201、将所述开户姓名转换成第二字符串,所述第二字符串包括n个子字符串且各个子字符串之间以分隔符隔开;
具体地,在实际业务中,还存在使用缩写名称替代姓名的情况,姓名缩写通常为首字母缩写。为了识别姓名缩写与姓名全拼,所述服务器可以将所述开户姓名转换成第二字符串,所述第二字符串是所述开户姓名中每个字的汉语拼音的组合,将所述开户姓名的每个字的汉语拼音作为所述第二字符串的一个子字符串,各个子字符串之间以分隔符隔开。其中,所述第二字符串包括n个子字符串,n为所述开户姓名中包括的汉字或者单词的数量。所述分隔符包括但不限于空格,根据实际需要进行设置,本发明实施例不做限定。
S202、根据n个子字符串以及n个子字符串的首字母,组合成2n个待匹配字符串;
具体地,所述服务器可以获取每个字字符串的首字母,然后根据n个子字符串以及n个子字符串的首字母组合成2n个待匹配字符串。
例如,开户姓名为Vladimir Levenshtein,包括两个英文单词,n等于2,Vladimir的首字母为V,Levenshtein的首字母为L。所述服务器可以根据Vladimir、Levenshtein、V和L组合出四个待匹配字符串:VL,VLevenshtein,VladimirL,Vladimir Levenshtein。
S203、根据2n个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离;
具体地,所述服务器在获得2n个待匹配字符串之后,可以根据2n个待匹配字符串中每个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。对于每个已有姓名对应的字符串,所述服务器可以获得2n个加权编辑距离,然后从2n个加权编辑距离中获取最小的加权编辑距离作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。其中,每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离的具体获得过程,与步骤S103所述第一字符串与每个已有姓名对应的字符串的加权编辑距离的具体获得过程类似,此处不进行赘述。
S204、若判断获知所述第二字符串与所述已有姓名对应的字符串的加权编辑距离小于第二阈值,则输出所述已有姓名。
具体地,所述服务器将所述第二字符串与每个已有姓名对应的字符串的加权编辑距离与第二阈值进行比较,如果上述加权编辑距离小于所述第二阈值,那么输出小于所述第二阈值的加权编辑距离对应的已有姓名。其中,在输出已有姓名的同时,可以将对应的证件类型和证件编号一同输出,提供给银行柜员查看。其中,所述第二阈值根据实际经验进行设置,本发明实施例不做限定。
图3是本发明又一实施例提供的银行多个客户编号的识别方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,所述根据2n个待匹配字符串和每个已有姓名对应的字符串以及加权编辑距离计算公式,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离包括:
S2031、根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离;
具体地,所述服务器根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,可以获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。对于2n个待匹配字符串,所述服务器可以获得2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。
S2032、获取2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离的最小加权编辑距离,作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
具体地,所述服务器对比2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离,可以从2n个加权编辑距离中获得加权编辑距离最小值,作为最小加权编辑距离,所述最小加权编辑距离即为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
在上述各实施例的基础上,进一步地,所述加权编辑距离计算公式为:
L(N,M)=min(L(N-1,M)+Wdelete,L(N,M-1)+Winsert,L(N-1,M-1)+
(Str1[N]==Str2[M]?0:Wreplace))
其中,L(N,M)表示字符串Str1(1...N)与Str2(1...M)的加权编辑距离,L(N-1,M)表示字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离,L(N,M-1)表示字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离,L(N-1,M-1)表示字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离,Str1[N]表示字符串Str1(1...N)的第N个字符,Str2[M]表示字符串Str2(1...M)的第M个字符,Wdelete表示字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重,Winsert表示字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,Wreplace表示字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重,?表示多目运算符。
具体地,对于两个字符串Str1(1...N)与Str2(1...M),要计算字符串Str1(1...N)与Str2(1...M)的加权编辑距离L(N,M),需要计算出字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离L(N-1,M),并确定字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重Wdelete,需要计算出字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离L(N,M-1),并确定字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,需要计算出字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离L(N-1,M-1),并确定字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重。所述服务器计算L(N-1,M)+Wdelete和L(N,M-1)+Winsert,所述服务器计算L(N-1,M-1)+β,β为0或者Wreplace,字符Str1[N]和Str2[M]相同时β取值为0,字符Str1[N]和Str2[M]不同时β取值为Wreplace。所述服务器从L(N-1,M)+Wdelete、L(N,M-1)+Winsert和L(N-1,M-1)+β三个值中取最小值作为字符串Str1(1...N)与Str2(1...M)的加权编辑距离L(N,M)。
下面以一个具体的例子来说明两个字符串的加权编辑距离的计算过程。
有两个字符串“star”和“ste r”,第二个字符串的字母e和r之间存在空格字符。字符串“star”共有4个字符,字符串“ste r”有5个字符,字符串“star”和“ste r”的加权编辑距离可以表示为L(4,5),其中:
L(4,5)=min(L(3,5)+Wdelete,L(4,4)+Winsert,L(3,4)+(Str1[4]==Str2[5]?0:Wreplace))
由于L(3,5)、L(4,4)和L(3,4)分别涉及到两个字符的加权编辑距离的计算,可以分别表示如下:
L(3,5)=min(L(2,5)+Wdelete,L(3,4)+Winsert,L(2,4)+(Str1[3]==Str2[5]?0:Wreplace))
L(4,4)=min(L(3,4)+Wdelete,L(4,3)+Winsert,L(3,3)+(Str1[4]==Str2[4]?0:Wreplace))
L(3,4)=min(L(2,4)+Wdelete,L(3,3)+Winsert,L(2,3)+(Str1[3]==Str2[4]?0:Wreplace))
以此类推,字符串“star”和“ste r”的加权编辑距离L(4,5)的计算,需要计算L(i,j),i大于等于0小于等于4,j大于等于0小于等于5。下面以L(1,3)的计算过程为例进行说明。
为了简化计算过程,可以根据所述编辑操作加权规则,预先设置加权编辑权重表,如表1所示。表1中,第一行为字母、删除键和空格键的ASCII码,第二行为字母、删除键和空格键;第一列为字母、删除键和空格键的ASCII码,第二列为字母、删除键和空格键。
Figure BDA0002688614320000101
L(1,3)=min(L(0,3)+Wdelete,L(1,2)+Winsert,L(0,2)+(Str1[1]==Str2[3]?0:Wreplace))
(1)L(0,3)为空字符转换成字符串“ste”的加权编辑距离,根据所述编辑操作加权规则,空字符转换成字符“s”为新增操作,编辑权重为1,根据表1查询“s”到“t”对应的编辑权重为1,“t”到“e”对应的编辑权重为0.5,L(0,3)=1+1+0.5=2.5;空字符转换成字符串“ste”后删除字符“s”的编辑权重可以根据表1查询“s”到“删除键”对应的编辑权重为7,那么L(0,3)+Wdelete=2.5+7=9。
(2)L(1,2)为字符“s”转换成字符串“st”的加权编辑距离,根据所述编辑操作加权规则,字符“s”转换成字符串“st”需要新增字符“t”,为新增操作,编辑权重为1,L(1,2)=1;字符“s”转换成字符串“st”后添加字符“e”的编辑权重,可以根据表1查询“t”到“e”对应的编辑权重为0.5,那么L(1,2)+Winsert=1+0.5=1.5。
(3)L(0,2)为空字符转换成字符串“st”的加权编辑距离,根据所述编辑操作加权规则,空字符转换成字符“s”为新增操作,编辑权重为1,根据表1查询“s”到“t”对应的编辑权重为1,L(0,2)=1+1=2;字符“s”和字符“e”不相同,将字符“s”替换为字符“e”的编辑权重,可以根据表1查询“s”到“e”对应的编辑权重为0.5,那么L(0,2)+(Str1[1]==Str2[3]?0:Wreplace=2+0.5=2.5。
从9,1.5和2中取最小值作为L(1,3)的值,因此,L(1,3)=1.5。
同理,对于字符串“star”和“ste r”,可以计算出每个L(i,j),获得的结果如表2所示,最终可以得到L(4,5)=0.5。
表2两个字符串的加权编辑距离计算结果
j 0 1 2 3 4 5
i s t e (空格) r
0 0 1 2 2.5 2.5 3.5
1 s 7 0 1 1.5 1.5 2.5
2 t 14 6 0 0.5 0.5 1.5
3 a 20 14 8 1 0.5 1.5
4 r 28 19 13 6 1 0.5
在上述各实施例的基础上,进一步地,本发明实施例提供的银行多个客户编号的识别方法还包括:
若根据所述证件类型和所述证件编号,没有获得所述证件类型和所述证件编号对应的已有姓名,则提示所述客户未开户。
具体地,所述服务器根据所述证件类型和所述证件编号在数据库中查找对应的姓名,如果没有查询到与所述证件类型和所述证件编号对应的已有姓名,说明所述客户没有进行过开户,可以提示所述客户未开户。
本发明实施例提供的银行多个客户编号的识别方法,基于模糊匹配算法解决银行多客编问题,解决由于输入失误、姓名缩写、大小写等原因造成的同一客户存在多个客户编号的问题,实现了同一客户多个客户编号的快速识别,有利于提高业务系统中客户数据的准确性,便于银行进行客户管理,建立统一视图以及应对各种监管报送。
图4是本发明一实施例提供的银行多个客户编号的识别装置的结构示意图,如图4所示,本发明实施例提供的银行多个客户编号的识别装置包括获取单元401、第一转换单元402、第一获得单元403和第一输出单元404,其中:
获取单元401用于获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;第一转换单元402用于在根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名之后,将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;第一获得单元403用于根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;第一输出单元404用于在判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出所述已有姓名。
具体地,客户在银行办理开户的时候,需要提供开户信息,银行柜员会将客户提供的开户信息录入到业务终端中,所述业务终端将所述开户信息发送给获取单元401,获取单元401可以获取到所述开户信息。其中,所述开户信息包括证件类型、证件编号和开户姓名。所述开户姓名包括但不限于中文姓名和英文姓名。所述业务终端包括但不限于台式机。
在获得所述开户信息之后,第一转换单元402可以根据所述证件类型和所述证件编号在数据库中查找对应的姓名,如果查询到与所述证件类型和所述证件编号对应的已有姓名,那么将每个已有姓名转换成字符串,获得每个已有姓名对应的字符串。所述服务器还会将所述开户姓名转成成第一字符串。可理解的是,与所述证件类型和所述证件编号对应的已有姓名可以有一个,两个或者两个以上。
在获得每个已有姓名对应的字符串和所述开户姓名对应的第一字符串之后,第一获得单元403可以根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离。其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的。
在获得所述第一字符串与所述已有姓名对应的字符串的加权编辑距离之后,第一输出单元404将上述加权编辑距离与第一阈值进行比较,如果上述加权编辑距离小于所述第一阈值,那么输出小于所述第一阈值的加权编辑距离对应的已有姓名。其中,在输出已有姓名的同时,可以将对应的证件类型和证件编号一同输出,提供给银行柜员查看。其中,所述第一阈值根据实际经验进行设置,本发明实施例不做限定。
本发明实施例提供的银行多个客户编号的识别装置,获取客户的开户信息,若根据证件类型和证件编号,获得证件类型和证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将开户姓名转换成第一字符串,根据第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得第一字符串与每个已有姓名对应的字符串的加权编辑距离,在判断获知第一字符串与已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出已有姓名,能够避免为相同客户建立多个客户编号,提高了客户开户信息的准确性。此外,每个客户具有唯一对应的客户编号,便于银行进行客户管理,建立统一视图以及应对各种监管报送。
图5是本发明另一实施例提供的银行多个客户编号的识别装置的结构示意图,如图5所示,在上述各实施例的基础上,进一步地,本发明实施例提供的银行多个客户编号的识别装置还包括第二转换单元405、组合单元406、第二获得单元407和第二输出单元408,其中:
第二转换单元405用于将所述开户姓名转换成第二字符串,所述第二字符串包括n个子字符串且各个子字符串之间以分隔符隔开;组合单元406用于根据n个子字符串以及n个子字符串的首字母,组合成2n个待匹配字符串;第二获得单元407用于根据2n个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离;第二输出单元408用于在判断获知所述第二字符串与所述已有姓名对应的字符串的加权编辑距离小于第二阈值之后,输出所述已有姓名。
具体地,在实际业务中,还存在使用缩写名称替代姓名的情况,姓名缩写通常为首字母缩写。为了识别姓名缩写与姓名全拼,第二转换单元405可以将所述开户姓名转换成第二字符串,所述第二字符串是所述开户姓名中每个字的汉语拼音的组合,将所述开户姓名的每个字的汉语拼音作为所述第二字符串的一个子字符串,各个子字符串之间以分隔符隔开。其中,所述第二字符串包括n个子字符串,n为所述开户姓名中包括的汉字或者单词的数量。所述分隔符包括但不限于空格,根据实际需要进行设置,本发明实施例不做限定。
组合单元406可以获取每个字字符串的首字母,然后根据n个子字符串以及n个子字符串的首字母组合成2n个待匹配字符串。
在获得2n个待匹配字符串之后,第二获得单元407可以根据2n个待匹配字符串中每个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。对于每个已有姓名对应的字符串,第二获得单元407可以获得2n个加权编辑距离,然后从2n个加权编辑距离中获取最小的加权编辑距离作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
第二输出单元408将所述第二字符串与每个已有姓名对应的字符串的加权编辑距离与第二阈值进行比较,如果上述加权编辑距离小于所述第二阈值,那么输出小于所述第二阈值的加权编辑距离对应的已有姓名。其中,在输出已有姓名的同时,可以将对应的证件类型和证件编号一同输出,提供给银行柜员查看。其中,所述第二阈值根据实际经验进行设置,本发明实施例不做限定。
图6是本发明又一实施例提供的银行多个客户编号的识别装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,第二获得单元407包括获得子单元4071和获取子单元4072,其中:
获得子单元4071用于根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离;获取子单元4072用于获取2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离的最小加权编辑距离,作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
具体地,获得子单元4071根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,可以获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。对于2n个待匹配字符串,所述服务器可以获得2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离。
获取子单元4072对比2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离,可以从2n个加权编辑距离中获得加权编辑距离最小值,作为最小加权编辑距离,所述最小加权编辑距离即为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
在上述各实施例的基础上,进一步地,所述加权编辑距离计算公式为:
L(N,M)=min(L(N-1,M)+Wdelete,L(N,M-1)+Winsert,L(N-1,M-1)+(Str1[N]==Str2[M]?0:Wreplace))
其中,L(N,M)表示字符串Str1(1...N)与Str2(1...M)的加权编辑距离,L(N-1,M)表示字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离,L(N,M-1)表示字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离,L(N-1,M-1)表示字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离,Str1[N]表示字符串Str1(1...N)的第N个字符,Str2[M]表示字符串Str2(1...M)的第M个字符,Wdelete表示字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重,Winsert表示字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,Wreplace表示字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重,?表示多目运算符。
具体地,对于两个字符串Str1(1...N)与Str2(1...M),要计算字符串Str1(1...N)与Str2(1...M)的加权编辑距离L(N,M),需要计算出字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离L(N-1,M),并确定字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重Wdelete,需要计算出字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离L(N,M-1),并确定字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,需要计算出字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离L(N-1,M-1),并确定字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重。所述服务器计算L(N-1,M)+Wdelete和L(N,M-1)+Winsert,所述服务器计算L(N-1,M-1)+β,β为0或者Wreplace,字符Str1[N]和Str2[M]相同时β取值为0,字符Str1[N]和Str2[M]不同时β取值为Wreplace。所述服务器从L(N-1,M)+Wdelete、L(N,M-1)+Winsert和L(N-1,M-1)+β三个值中取最小值作为字符串Str1(1...N)与Str2(1...M)的加权编辑距离L(N,M)。
图7是本发明再一实施例提供的银行多个客户编号的识别装置的结构示意图,如图7所示,在上述各实施例的基础上,进一步地,本发明实施例提供的银行多个客户编号的识别装置还包括提示单元409,其中:
提示单元409用于在根据所述证件类型和所述证件编号,没有获得所述证件类型和所述证件编号对应的已有姓名之后,提示所述客户未开户。
具体地,提示单元409根据所述证件类型和所述证件编号在数据库中查找对应的姓名,如果没有查询到与所述证件类型和所述证件编号对应的已有姓名,说明所述客户没有进行过开户,可以提示所述客户未开户。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
需要说明的是,本发明实施例提供的银行多个客户编号的识别方法及装置可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对银行多个客户编号的识别方法及装置的应用领域不做限定。
图8是本发明一实施例提供的电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行如下方法:获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种银行多个客户编号的识别方法,其特征在于,包括:
获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;
若根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名,则将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;
根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;
若判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值,则输出所述已有姓名。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述开户姓名转换成第二字符串,所述第二字符串包括n个子字符串且各个子字符串之间以分隔符隔开;
根据n个子字符串以及n个子字符串的首字母,组合成2n个待匹配字符串;
根据2n个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离;
若判断获知所述第二字符串与所述已有姓名对应的字符串的加权编辑距离小于第二阈值,则输出所述已有姓名。
3.根据权利要求2所述的方法,其特征在于,所述根据2n个待匹配字符串和每个已有姓名对应的字符串以及加权编辑距离计算公式,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离包括:
根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离;
获取2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离的最小加权编辑距离,作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
4.根据权利要求1所述的方法,其特征在于,所述加权编辑距离计算公式为:
L(N,M)=min(L(N-1,M)+Wdelete,L(N,M-1)+Winsert,L(N-1,M-1)+(Str1[N]==Str2[M]?0:Wreplace))
其中,L(N,M)表示字符串Str1(1...N)与Str2(1...M)的加权编辑距离,L(N-1,M)表示字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离,L(N,M-1)表示字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离,L(N-1,M-1)表示字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离,Str1[N]表示字符串Str1(1...N)的第N个字符,Str2[M]表示字符串Str2(1...M)的第M个字符,Wdelete表示字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重,Winsert表示字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,Wreplace表示字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重,?表示多目运算符。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
若根据所述证件类型和所述证件编号,没有获得所述证件类型和所述证件编号对应的已有姓名,则提示所述客户未开户。
6.一种银行多个客户编号的识别装置,其特征在于,包括:
获取单元,用于获取客户的开户信息,所述开户信息包括证件类型、证件编号和开户姓名;
第一转换单元,用于在根据所述证件类型和所述证件编号,获得所述证件类型和所述证件编号对应的已有姓名之后,将每个已有姓名转换成字符串和将所述开户姓名转换成第一字符串;
第一获得单元,用于根据所述第一字符串、每个已有姓名对应的字符串、加权编辑距离计算公式以及编辑操作加权规则,获得所述第一字符串与每个已有姓名对应的字符串的加权编辑距离;其中,所述加权编辑距离计算公式和编辑操作加权规则是预设的;
第一输出单元,用于在判断获知所述第一字符串与所述已有姓名对应的字符串的加权编辑距离小于第一阈值之后,输出所述已有姓名。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二转换单元,用于将所述开户姓名转换成第二字符串,所述第二字符串包括n个子字符串且各个子字符串之间以分隔符隔开;
组合单元,用于根据n个子字符串以及n个子字符串的首字母,组合成2n个待匹配字符串;
第二获得单元,用于根据2n个待匹配字符串、每个已有姓名对应的字符串、所述加权编辑距离计算公式以及所述编辑操作加权规则,获得所述第二字符串与每个已有姓名对应的字符串的加权编辑距离;
第二输出单元,用于在判断获知所述第二字符串与所述已有姓名对应的字符串的加权编辑距离小于第二阈值之后,输出所述已有姓名。
8.根据权利要求7所述的装置,其特征在于,所述第二获得单元包括:
获得子单元,用于根据每个待匹配字符串和每个已有姓名对应的字符串以及所述加权编辑距离计算公式,获得每个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离;
获取子单元,用于获取2n个待匹配字符串与每个已有姓名对应的字符串的加权编辑距离的最小加权编辑距离,作为所述第二字符串与每个已有姓名对应的字符串的加权编辑距离。
9.根据权利要求6所述的装置,其特征在于,所述加权编辑距离计算公式为:
L(N,M)=min(L(N-1,M)+Wdelete,L(N,M-1)+Winsert,L(N-1,M-1)+(Str1[N]==Str2[M]?0:Wreplace))
其中,L(N,M)表示字符串Str1(1...N)与Str2(1...M)的加权编辑距离,L(N-1,M)表示字符串Str1(1...N-1)与Str2(1...M)的加权编辑距离,L(N,M-1)表示字符串Str1(1...N)与Str2(1...M-1)的加权编辑距离,L(N-1,M-1)表示字符串Str1(1...N-1)与Str2(1...M-1)的加权编辑距离,Str1[N]表示字符串Str1(1...N)的第N个字符,Str2[M]表示字符串Str2(1...M)的第M个字符,Wdelete表示字符串Str1(1...N-1)转换为字符串Str2(1...M)后删除字符Str1[N]的编辑权重,Winsert表示字符串Str1(1...N)转换为字符串Str2(1...M-1)后添加字符Str2[M]的编辑权重,Wreplace表示字符串Str1(1...N)转换成字符串Str2(1...M-1)后将字符Str1[N]替换为字符Str2[M]的编辑权重,?表示多目运算符。
10.根据权利要求6至9任一项所述的装置,其特征在于,还包括:
提示单元,用于在根据所述证件类型和所述证件编号,没有获得所述证件类型和所述证件编号对应的已有姓名之后,提示所述客户未开户。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN202010984261.7A 2020-09-18 2020-09-18 一种银行多个客户编号的识别方法及装置 Active CN112069374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010984261.7A CN112069374B (zh) 2020-09-18 2020-09-18 一种银行多个客户编号的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010984261.7A CN112069374B (zh) 2020-09-18 2020-09-18 一种银行多个客户编号的识别方法及装置

Publications (2)

Publication Number Publication Date
CN112069374A true CN112069374A (zh) 2020-12-11
CN112069374B CN112069374B (zh) 2024-04-30

Family

ID=73681564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010984261.7A Active CN112069374B (zh) 2020-09-18 2020-09-18 一种银行多个客户编号的识别方法及装置

Country Status (1)

Country Link
CN (1) CN112069374B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法
CN106168954A (zh) * 2016-06-07 2016-11-30 中国人民解放军国防科学技术大学 一种基于编辑距离的负面信息模式模糊匹配方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
US20170046668A1 (en) * 2015-08-16 2017-02-16 Google Inc. Comparing An Extracted User Name with Stored User Data
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102214238A (zh) * 2011-07-01 2011-10-12 临沂大学 一种汉语词语相近性匹配装置及方法
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
US20170046668A1 (en) * 2015-08-16 2017-02-16 Google Inc. Comparing An Extracted User Name with Stored User Data
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法
CN106168954A (zh) * 2016-06-07 2016-11-30 中国人民解放军国防科学技术大学 一种基于编辑距离的负面信息模式模糊匹配方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
CN111669451A (zh) * 2019-03-07 2020-09-15 顺丰科技有限公司 私人邮箱判断方法及判断装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙威: "姓名模糊检索的实现", 公安大学学报(自然科学版), no. 04, 10 October 2000 (2000-10-10) *

Also Published As

Publication number Publication date
CN112069374B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
US10229108B2 (en) System and method for adaptive spell checking
CN107145516B (zh) 一种文本聚类方法及系统
CN112732899A (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN112559672B (zh) 信息检测方法、电子设备及计算机存储介质
WO2011087391A1 (en) Automatic transliteration of a record in a first language to a word in a second language
US20190303437A1 (en) Status reporting with natural language processing risk assessment
US9442901B2 (en) Resembling character data search supporting method, resembling candidate extracting method, and resembling candidate extracting apparatus
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN112182353B (zh) 用于信息搜索的方法、电子设备和存储介质
CN113743082A (zh) 一种数据处理方法、系统、存储介质及电子设备
CN112527819A (zh) 通讯录信息检索方法、装置、电子设备及存储介质
CN112069374B (zh) 一种银行多个客户编号的识别方法及装置
CN115936010A (zh) 文本缩写数据处理方法、装置
CN115712715A (zh) 问答方法、装置、电子设备以及存储介质进行介绍
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN111026929B (zh) 文本审批方法、装置及存储介质
CN114021564A (zh) 一种针对社交文本的切分取词方法及系统
CN112632526A (zh) 一种基于综合分段的用户口令建模与强度评估方法
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
CN116361517B (zh) 一种企业字号查重方法、装置、设备和介质
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
CN112016328B (zh) 基于文本特征的学术机构名称实体对齐方法
US20130311489A1 (en) Systems and Methods for Extracting Names From Documents
AU2015202043B2 (en) Managing an archive for approximate string matching
Idrees et al. Building a Knowledge Base Shell Based on Exploring Text Semantic Relations from Arabic Text.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant