CN108376365B - 一种银行编号确定方法及装置 - Google Patents
一种银行编号确定方法及装置 Download PDFInfo
- Publication number
- CN108376365B CN108376365B CN201810239803.0A CN201810239803A CN108376365B CN 108376365 B CN108376365 B CN 108376365B CN 201810239803 A CN201810239803 A CN 201810239803A CN 108376365 B CN108376365 B CN 108376365B
- Authority
- CN
- China
- Prior art keywords
- bank
- information
- name
- target
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种银行编号确定方法及装置,因为采用前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,选择标准银行信息中与待检测的银行信息最匹配的银行信息,所以,具有较高的准确性。并且,通过在内存中分类别存放标准银行信息,因此,在计算分数的过程中,可以只计算类别相同的标准银行信息的分数,从而减小计算量和内存的占用程度,具有计算快捷的优势。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种银行编号确定方法及装置。
背景技术
银行的支付清算,例如客户转账场景中,需要客户填写收款银行的名称,银行系统依据收款银行的名称,查询到收款银行的编号并录入,才能够成功转账。
而在实际中,客户填写的银行名称往往不规范,系统无法识别,使得需要人工手工录入银行编号,效率极低。因为,如何精准并快速查询到不规范的银行名称对应的编号,成为目前亟待解决的问题。
发明内容
本申请提供了一种银行编号确定方法及装置,目的在于解决如何精准并快速查询到不规范的银行名称对应的编号的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种银行编号确定方法,包括:
获取标准银行信息,任意一条所述标准银行信息中包括:银行编号和银行名称、银行别名;
获取待检测的银行信息,所述待检测的银行信息中包括不规范的银行名称;
计算所述词库中的目标银行信息的关键词匹配分、前向单词匹配分和前向连续词匹配分;其中,所述关键词匹配分为所述目标银行信息中的银行名称与测试关键词中相同的汉字对应的权重之和;所述前向单词匹配分为所述目标银行信息中的银行别名与测试别名中相同的汉字的数量;所述前向连续词匹配分为所述目标银行信息中的银行别名与所述测试别名中相同的连续字的权重分之和;所述测试关键词和所述测试别名依据所述不规范的银行名称生成;所述目标银行信息为所述标准银行信息中的任意一条银行信息;
计算所述前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为所述目标银行信息的综合分;
将匹配银行信息中的银行编号,作为所述不规范的银行名称对应的银行编号,所述匹配银行信息为所述词库中所述综合分满足预设的条件的银行信息。
可选的,所述计算所述目标银行信息的关键词匹配分包括:
依据不规范的银行名称生成测试关键词;
确定所述目标银行信息中的银行名称与所述测试关键词中相同的汉字;
依据预设的汉字类别与权重的对应关系,确定所述相同的汉字对应的权重;
所有所述相同的汉字对应的权重之和,为所述关键词匹配分。
可选的,所述依据不规范的银行名称生成测试关键词包括:
从所述不规范的银行名称中查找预设的目标名称,并依次存储所述目标名称,其中,预设的目标名称包括:“行”名称、“省”名称、“自治区”名称、“市”名称、“县”名称、“区”名称、“分行”名称、“支行”名称、以及农商行名称,所述农商行名称包括“农村”、“农商”、“农信”或“农合”名称;
重新查找“支行”名称,如果“支行”前的汉字的长度为5个或者4个,且前导词为“银行”,“工行”,“中行”,“招行”,“平安”,则补充存储关键词“深圳”到存储的所述目标名称中;
合并所述目标名称,得到所述测试关键词。
可选的,所述计算所述目标银行信息的前向连续词匹配分包括:
从前到后依次将所述测试别名中的单个汉字作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的汉字;
如果找到,将所述目标银行信息的前向单词匹配分加1,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0。
可选的,所述计算所述目标银行信息的前向连续词匹配分包括:
从前到后依次将所述测试别名中的字块作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的字块,所述字块为至少包括两个汉字的连续汉字;
对于每个目标对象,从目标银行信息中查找相同的字块;
如果找到,将所述目标银行信息的前向连续词匹配分加预设的权重分,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0,所述相同的字块中的汉字的数量越多,所述权重分越高。
可选的,所述预设条件包括:
所述综合分最高且银行名称最短。
可选的,所述获取标准银行信息包括:
在内存中开辟临时词库单元,并将所述预设的词库释放到临时词库单元中;
获取所述词库中的银行信息的银行分类信息,所述银行分类信息包括:银行别名和银行类别;
在内存中开辟标准词库单元,并在所述标准词库单元中按照所述银行类别存储所述标准银行信息,所述标准银行信息包括所述词库中的银行信息和所述银行分类信息;
释放所述临时词库单元。
可选的,所述获取所述词库中的银行信息的银行分类信息包括:
对待处理银行信息中的银行名称进行处理,所述处理包括:去除待处理银行信息中的银行名称中的无用词语,所述待处理银行信息为所述词库中的任意一条银行信息;依据预设的目标关键词与转换关键词的对应关系,将所述待处理银行信息中的银行名称中的目标关键词转换为转换关键词;以及,将所述待处理银行信息中的银行名称中的不规范关键词转换为规范关键词;
精简处理后的银行名称中的关键词,得到银行别名;
按照预设的类别编号,为银行别名分配相应的类别编号。
可选的,还包括:
从所述标准词库单元中定位与所述待检测的银行信息具有相同类别相同的标准银行信息的存放内存块,所述存放内存块中的任意一条银行信息为所述目标银行信息。
一种银行编号确定装置,包括:
第一获取模块,用于获取标准银行信息,任意一条所述标准银行信息中包括:银行编号和银行名称、银行别名;
第二获取模块,用于获取待检测的银行信息,所述待检测的银行信息中包括不规范的银行名称;
第一计算模块,用于计算所述词库中的目标银行信息的关键词匹配分、前向单词匹配分和前向连续词匹配分;其中,所述关键词匹配分为所述目标银行信息中的银行名称与测试关键词中相同的汉字对应的权重之和;所述前向单词匹配分为所述目标银行信息中的银行别名与测试别名中相同的汉字的数量;所述前向连续词匹配分为所述目标银行信息中的银行别名与所述测试别名中相同的连续字的权重分之和;所述测试关键词和所述测试别名依据所述不规范的银行名称生成;所述目标银行信息为所述标准银行信息中的任意一条银行信息;
第二计算模块,用于计算所述前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为所述目标银行信息的综合分;
确定模块,用于将匹配银行信息中的银行编号,作为所述不规范的银行名称对应的银行编号,所述匹配银行信息为所述词库中所述综合分满足预设的条件的银行信息。
可选的,所述第一计算模块用于计算所述目标银行信息的关键词匹配分包括:
所述第一计算模块具体用于,依据不规范的银行名称生成测试关键词;确定所述目标银行信息中的银行名称与所述测试关键词中相同的汉字;依据预设的汉字类别与权重的对应关系,确定所述相同的汉字对应的权重;所有所述相同的汉字对应的权重之和,为所述关键词匹配分。
可选的,还包括:
测试关键词生成模块,用于从所述不规范的银行名称中查找预设的目标名称,并依次存储所述目标名称,其中,预设的目标名称包括:“行”名称、“省”名称、“自治区”名称、“市”名称、“县”名称、“区”名称、“分行”名称、“支行”名称、以及农商行名称,所述农商行名称包括“农村”、“农商”、“农信”或“农合”名称;重新查找“支行”名称,如果“支行”前的汉字的长度为5个或者4个,且前导词为“银行”,“工行”,“中行”,“招行”,“平安”,则补充存储关键词“深圳”到存储的所述目标名称中;合并所述目标名称,得到所述测试关键词。
可选的,所述第一计算模块用于计算所述目标银行信息的前向连续词匹配分包括:
所述第一计算模块具体用于,从前到后依次将所述测试别名中的单个汉字作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的汉字;如果找到,将所述目标银行信息的前向单词匹配分加1,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0。
可选的,所述第一计算模块用于计算所述目标银行信息的前向连续词匹配分包括:
所述第一计算模块具体用于,从前到后依次将所述测试别名中的字块作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的字块,所述字块为至少包括两个汉字的连续汉字;对于每个目标对象,从目标银行信息中查找相同的字块;如果找到,将所述目标银行信息的前向连续词匹配分加预设的权重分,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0,所述相同的字块中的汉字的数量越多,所述权重分越高。
可选的,所述预设条件包括:
所述综合分最高且银行名称最短。
可选的,所述第一获取模块用于获取标准银行信息包括:
所述第一获取模块具体用于,在内存中开辟临时词库单元,并将所述预设的词库释放到临时词库单元中;获取所述词库中的银行信息的银行分类信息,所述银行分类信息包括:银行别名和银行类别;在内存中开辟标准词库单元,并在所述标准词库单元中按照所述银行类别存储所述标准银行信息,所述标准银行信息包括所述词库中的银行信息和所述银行分类信息;释放所述临时词库单元。
可选的,所述第一获取模块用于获取所述词库中的银行信息的银行分类信息包括:
所述第一获取模块具体用于,对待处理银行信息中的银行名称进行处理,所述处理包括:去除待处理银行信息中的银行名称中的无用词语,所述待处理银行信息为所述词库中的任意一条银行信息;依据预设的目标关键词与转换关键词的对应关系,将所述待处理银行信息中的银行名称中的目标关键词转换为转换关键词;以及,将所述待处理银行信息中的银行名称中的不规范关键词转换为规范关键词;精简处理后的银行名称中的关键词,得到银行别名;按照预设的类别编号,为银行别名分配相应的类别编号。
可选的,还包括:
定位模块,用于从所述标准词库单元中定位与所述待检测的银行信息具有相同类别相同的标准银行信息的存放内存块,所述存放内存块中的任意一条银行信息为所述目标银行信息。
本申请所述的银行编号确定方法及装置,因为采用前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,选择标准银行信息中与待检测的银行信息最匹配的银行信息,所以,具有较高的准确性。并且,通过在内存中分类别存放标准银行信息,因此,在计算分数的过程中,可以只计算类别相同的标准银行信息的分数,从而减小计算量和内存的占用程度,具有计算快捷的优势。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种银行编号确定方法的流程图;
图2为本申请实施例公开的银行信息进行分类的方法的流程图;
图3为本申请实施例公开的测试关键词生成方法的流程图;
图4为本申请实施例公开的一种银行编号确定装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种银行编号确定方法,包括以下步骤:
S101:在内存中开辟临时词库单元,并将预设的词库释放到临时词库单元中。
其中,词库包括多条银行信息,任意一条银行信息中包括:银行编号和银行名称。
S102:对临时词库单元中的银行信息进行分类,获取银行分类信息。
其中,银行分类信息包括:银行别名、银行类别和银行别名长度。
具体的,按照图2所示的流程,对临时词库单元中的每一条银行信息进行分类,得到每一条银行信息对应的银行分类信息。
图2中包括以下步骤:
S201:对银行名称进行清洗,即去除银行名称中的无用词语。
无用词语可以预先设置,例如,“股份有限公司”,“有限责任公司”,“股份有限”,“分社”,“中国”,“储蓄专柜”,“壮族”,“维吾尔族”等,均为无用词语。
S202:依据预设的目标关键词与转换关键词的对应关系,将银行名称中的目标关键词转换为转换关键词。
本实施例中,预设的目标关键词为预先设置的、容易混淆的银行名称,例如“深圳发展银行”、“农村信用合作社”等。可以预先为目标关键词设置对应的转换关键词,将目标关键词转换为转换关键词。例如,“深圳发展银行”转换为了“中国平安银行”(转换关键词),“农村信用合作社”和“信用联社”转换为了“农商行”等。
S203:将银行名称中的不规范关键词转换为规范关键词。
其中,不规范关键词、规范关键词以及两者间的对应关系,均可以预先设置。例如,“中国银”,“中行”,“中银”,“国银行”都规范为“中行”。“中国邮政”,“邮储银行”,“邮储”,“邮局”都规范为“邮储”。
S204:精简银行名称中的关键词,得到银行别名。
具体的,可以预先设置关键词和精简词的对应关系,例如“中国银行”精简为“中行”,自贸区“FTU”精简为“F”,“中国邮政储蓄”精简为“邮储”,“农村商业银行”精简为“农商行”等,如果检测到银行名称中的上述关键词,则将其转换为对应的精简词。
S205:按照预设的类别编号,为银行别名分配相应的类别编号。
例如,根据银行别名所属银行,划分为32大类,预设的类别编号为工行-0(数字表示编号),农行-1,中行-2,建行-3,农商行-7,汇丰-28,国家金库-31等。
可见,经过图2所示的过程,可以得到银行名称对应的银行别名、银行别名长度以及银行类别。
因此,在临时词库单元中,使用以下数据结构存储每一条银行信息:
银行编号、银行名称、银行别名、银行类别(即类别编号)、银行别名长度。
如前所述,银行编号和银行名称通过解析词库得到,银行别名、银行类别、银行别名长度通过将银行名称输入图2所示的分类过程得到。
S103:在内存中开辟标准词库单元,将临时词库单元中的银行信息,按照类别存储在标准词库单元中,其中,属于同一个类别的银行信息存储在连续的内存单元中。
例如,类别编号为2(表示类别为中行)的银行信息,存储在连续的内存单元中,该类别的所有银行信息存储完成后,再存储其它类别的银行信息。如图1所示,标准词库单元中,依次存储A类、B类、N类…银行信息,每一类占用连续的内存单元。
这样存储的目的在于,后续在匹配的过程中,可以以一类存储块为单位,进行计算,从而实现快速查找的目的。
这里将标准词库单元中的银行信息称为标准银行信息,每一条标准银行信息的数据结构为:
类别编号、分类总数、分类起始位置、分类结束位置、银行编号、银行名称、银行别名、银行类别、银行别名长度、前向单词匹配分、前向连续词匹配分、关键词匹配分。
其中,分类总数为类别的总数,例如,前述32类,分类总数为32。分类起始位置为属于该分类的银行信息在标准词库单元中占用的最靠前的内存单元地址信息,分类结束位置为属于该分类的银行信息在标准词库单元中占用的最靠后的内存单元地址信息。也就是说,在图1所示的标准词库单元中,每一个类别占用一块内存,分类起始位置为一个类别占用的一块内存的起始内存地址信息,分类结束位置为一个类别占用的一块内存的结束内存地址信息。
银行编号、银行名称、银行别名、银行类别、银行别名长度直接从临时词库单元复制即可。
前向单词匹配分、前向连续词匹配分、关键词匹配分将在后续步骤中获得,并填写到此处。
在完成S103之后,可以释放临时词库单元,以节省内存资源。
S104:在内存中开辟测试数据单元,测试数据单元用于存储待检测的银行信息,待检测的银行信息中包括客户填写的不规范的银行名称。
测试数据单元中的银行信息的数据结构包括:
银行编号、银行名称(客户填写的不规范的银行名称)、银行别名、银行类别、银行别名长度、匹配银行编号、匹配银行名称、匹配银行别名。
其中,银行别名、银行类别、银行别名长度通过将客户填写的不规范的银行名称作为输入,执行图2所示的分类过程得到,这里不再赘述。匹配银行编号、匹配银行名称、匹配银行别名经过后续步骤得到,并回填到这里。
S105:计算标准银行信息与待检测的银行信息中的银行名称的关键词匹配分。
具体的,先采用图3所示的流程,得到客户填写的不规范的银行名称的关键词,这里简称为测试关键词。图3包括以下步骤:
S301:从客户填写的不规范的银行名称中查找“行”名称,如果查找到,且在“行”字前超过两个汉字,则截取“行”字前的两个汉字,存储到词组中的第0组。
S302:从客户填写的不规范的银行名称中查找“省”名称,存储到词组中的第1组。
S303:从客户填写的不规范的银行名称中查找“自治区”名称,存储到词组中的第2组。
S304:从客户填写的不规范的银行名称中查找“市”名称,存储到词组中的第3组。
S305:从客户填写的不规范的银行名称中查找“县”名称,存储到词组中的第4组。
S306:从客户填写的不规范的银行名称中查找“区”名称(不包括“自治区”),存储到词组中的第5组。
S307:从客户填写的不规范的银行名称中查找“分行”名称(不包括“省分行”、“市分行”、“县分行”和“区分行”),存储到词组中的第6组。
S308:从客户填写的不规范的银行名称中查找“支行”名称,存储到词组中的第7组。
具体的,如果是“支行”汉字前4个汉字中包含“省行”、“市行”或“分行”,而仅截取“支行”名称,存储到词组中的第7组。如果碰到“支行”汉字前一个汉字为“省”、“市”、“县”或“区”,则跳过,否则截取“支行”汉字前2个汉字为支行名称到第7组中。
S309:如果查找到“农村”、“农商”、“农信”或“农合”名称,且这些名称之前的汉字的数量超过1个,则截取这些名词之前的汉字中的2个汉字,否则截取这些名词之前的汉字中的1个汉字,存入名称到第8组中。例如“广东顺德农商银行”,则“农商”前面汉字是4个,超过1个汉字,则取“顺德”两个字。
S310:重新查找“支行”名称,如果“支行”前的汉字的长度为5个或者4个,且前导词为“银行”,“工行”,“中行”,“招行”,“平安”等,则补充关键词“深圳”等到第9组中。其中,前导词为“支行”之前的汉字中开头的两个汉字。例如“工行科技园支行”、“中行南头支行”、“平安红岭支行”,前导词分别为“工行”“中行”“平安”。
S311:合并9组中存储的词语,得到测试关键词。
在得到测试关键词之后,依据测试数据单元中的银行类别,定位测试关键词在标准词库单元中的存放内存块,依次计算存放内存块中的每一条银行信息与测试关键词的关键词匹配分。
存放内存块中的任意一条银行信息(简称为目标银行信息)的关键词匹配分的计算方式为:确定目标银行信息与测试关键词中相同的汉字,并依据预设的汉字类别与权重的对应关系,确定这些相同的汉字对应的权重,所有相同的汉字对应的权重之和,即为关键词匹配分。例如,目标银行信息与测试关键词中相同的汉字为支行名称,则权重为3,目标银行信息与测试关键词中相同的汉字为省名称,则权重为2。
计算得到关键词匹配分后,将银行信息的关键词匹配分回填到标准词库单元中目标银行信息的关键词匹配分数据结构项中。
S106:计算标准银行信息与待检测的银行信息中的银行别名的前向单词匹配分。
依据测试数据单元中的银行类别,定位测试数据单元中银行别名在标准词库单元中的存放内存块,依次计算存放内存块中的目标银行信息与测试数据单元中的银行别名的前向单词匹配分。
前向单词匹配分的具体计算方式为:从前到后依次将测试数据单元中的银行别名(简称为测试别名)中的单个汉字作为目标对象,对于每个目标对象,从存放内存块中的逐条银行别名中查找相同的汉字,如果找到,则与目标对象具有相同汉字的银行信息的前向单词匹配分加1(前向单词匹配分的初始值为0),直到遍历所有相同的汉字。可以看出,前向单词匹配分为目标银行信息中的银行别名与测试别名中相同的汉字的数量。
可选的,还可以使用“相同的汉字在目标对象中的位置:相同的汉字在银行信息中的位置”的格式,记录相同的汉字在测试别名中和目标银行信息中的位置。
将计算得到的前向单词匹配分回填到标准词库单元中的目标银行信息的前向单词匹配分数据结构项中。
S107:计算标准银行信息与待检测的银行信息的前向连续词匹配分。
依据测试数据单元中的银行类别,定位测试数据单元中银行别名在标准词库单元中的存放内存块,依次计算存放内存块中的目标银行信息与测试数据单元中的银行别名的前向连续词匹配分。
前向连续词匹配分的具体计算方式为:从前到后依次将测试数据单元中的银行别名中的字块(至少包括两个汉字的连续汉字)作为目标对象,对于每个目标对象,从目标银行信息中查找相同的字块,如果相同的汉字在目标银行信息中的位置编号中较大者与较小者之差为1,则确认找到相同字块,则在前向连续词匹配分加权重分(前向连续词匹配分的初始值为0)。
字块中包括的汉字的数量越多,则权重分越高。例如,如图4所示,训练数据中的“AB”汉字和词库词条的“AB”汉字连续匹配,则计分为1,训练数据中的“EFG”汉字和词库词条的“EFG”汉字连续匹配,则计分为2。连续汉字的数量与分数的对应关系可以预先设置。可以看出,前向连续词匹配分为目标银行信息中的银行别名与测试别名中相同的字块的权重分之和。
将计算得到的前向连续词匹配分回填到标准词库单元中的前向连续词匹配分数据结构项中。
S108:计算标准银行信息的前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为综合分。
前向单词匹配分、前向连续词匹配分和关键词匹配分的权值可以预先设置。
S109:将标准银行信息中综合分最高的银行信息作为匹配银行信息。
如果综合分最高的银行信息为多条,则选择银行名称最短的银行信息作为匹配银行信息。
S110:将匹配银行信息写入测试数据单元中的银行信息的数据结构项中。
具体的,将匹配银行信息中的银行编号写入测试数据单元中的银行信息的匹配银行编号项中,将匹配银行信息中的银行名称写入测试数据单元中的银行信息的匹配银行名称项中,将匹配银行信息中的银行别名写入测试数据单元中的银行信息的银行别名项中。
至此,可以输出测试数据单元中的银行信息的银行编号。
S111:由工作人员人工识别并填写测试数据单元中的银行信息的银行编号,并识别银行编号与匹配银行编号是否相同,相同则成功值加1(成功值的初始值为0),并输出成功日志文件,内容包括:[银行编号=匹配银行编号][银行名称:匹配银行名称]。如果银行编号与匹配银行编号不同,则输出错误日志文件,内容格式同上。遍历内存中所有的测试数据单元记录,统计出银行编号成功匹配的总数,计算输出测试数据集的成功率。
从上述过程可以看出,因为采用前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,选择标准银行信息中与待检测的银行信息最匹配的银行信息,所以,具有较高的准确性。并且,通过在内存中分类别存放标准银行信息,因此,在计算分数的过程中,可以只计算类别相同的标准银行信息的分数,从而减小计算量和内存的占用程度,具有计算快捷的优势。
图4为本申请实施例公开的一种银行编号确定装置,包括:第一获取模块、第二获取模块、第一计算模块、第二计算模块和确定模块。可选的,还可以包括定位模块。
第一获取模块用于获取标准银行信息,任意一条所述标准银行信息中包括:银行编号和银行名称、银行别名。第二获取模块用于获取待检测的银行信息,所述待检测的银行信息中包括不规范的银行名称。第一计算模块用于计算所述词库中的目标银行信息的关键词匹配分、前向单词匹配分和前向连续词匹配分。第二计算模块用于计算所述前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为所述目标银行信息的综合分。确定模块用于将匹配银行信息中的银行编号,作为所述不规范的银行名称对应的银行编号,所述匹配银行信息为所述词库中所述综合分满足预设的条件的银行信息。定位模块用于从所述标准词库单元中定位与所述待检测的银行信息具有相同类别相同的标准银行信息的存放内存块,所述存放内存块中的任意一条银行信息为所述目标银行信息。
以上各个模块的功能的具体实现方式可以参见现有技术,这里不再赘述。
所述装置能够准确且快捷地确定不规范的银行名称对应的银行编号。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种银行编号确定方法,其特征在于,包括:
获取标准银行信息,任意一条所述标准银行信息中包括:银行编号和银行名称、银行别名;
获取待检测的银行信息,所述待检测的银行信息中包括不规范的银行名称;
计算词库中的目标银行信息的关键词匹配分、前向单词匹配分和前向连续词匹配分;其中,所述关键词匹配分为所述目标银行信息中的银行名称与测试关键词中相同的汉字对应的权重之和;所述前向单词匹配分为所述目标银行信息中的银行别名与测试别名中相同的汉字的数量;所述前向连续词匹配分为所述目标银行信息中的银行别名与所述测试别名中相同的连续字的权重分之和;所述测试关键词和所述测试别名依据所述不规范的银行名称生成;所述目标银行信息为所述标准银行信息中的任意一条银行信息;
计算所述前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为所述目标银行信息的综合分;其中,所述前向单词匹配分、前向连续词匹配分和关键词匹配分的权值为预先设置的权值;
将匹配银行信息中的银行编号,作为所述不规范的银行名称对应的银行编号,所述匹配银行信息为所述词库中所述综合分满足预设的条件的银行信息。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标银行信息的关键词匹配分包括:
依据不规范的银行名称生成测试关键词;
确定所述目标银行信息中的银行名称与所述测试关键词中相同的汉字;
依据预设的汉字类别与权重的对应关系,确定所述相同的汉字对应的权重;
所有所述相同的汉字对应的权重之和,为所述关键词匹配分。
3.根据权利要求2所述的方法,其特征在于,所述依据不规范的银行名称生成测试关键词包括:
从所述不规范的银行名称中查找预设的目标名称,并依次存储所述目标名称,其中,预设的目标名称包括:“行”名称、“省”名称、“自治区”名称、“市”名称、“县”名称、“区”名称、“分行”名称、“支行”名称、以及农商行名称,所述农商行名称包括“农村”、“农商”、“农信”或“农合”名称;
重新查找“支行”名称,如果“支行”前的汉字的长度为5个或者4个,且前导词为“银行”,“工行”,“中行”,“招行”,“平安”,则补充存储关键词“深圳”到存储的所述目标名称中;
合并所述目标名称,得到所述测试关键词。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标银行信息的前向单词匹配分包括:
从前到后依次将所述测试别名中的单个汉字作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的汉字;
如果找到,将所述目标银行信息的前向单词匹配分加1,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0。
5.根据权利要求1所述的方法,其特征在于,所述计算所述目标银行信息的前向连续词匹配分包括:
从前到后依次将所述测试别名中的字块作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的字块,所述字块为至少包括两个汉字的连续汉字;
如果找到,将所述目标银行信息的前向连续词匹配分加预设的权重分,直至遍历完所有相同的字块,所述前向连续词匹配分的初始值为0,所述相同的字块中的汉字的数量越多,所述权重分越高。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述预设的条件包括:
所述综合分最高且银行名称最短。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述获取标准银行信息包括:
在内存中开辟临时词库单元,并将预设的词库释放到临时词库单元中;
获取所述词库中的银行信息的银行分类信息,所述银行分类信息包括:银行别名和银行类别;
在内存中开辟标准词库单元,并在所述标准词库单元中按照所述银行类别存储所述标准银行信息,所述标准银行信息包括所述词库中的银行信息和所述银行分类信息;
释放所述临时词库单元。
8.根据权利要求7所述的方法,其特征在于,所述获取所述词库中的银行信息的银行分类信息包括:
对待处理银行信息中的银行名称进行处理,所述处理包括:去除待处理银行信息中的银行名称中的无用词语,所述待处理银行信息为所述词库中的任意一条银行信息;依据预设的目标关键词与转换关键词的对应关系,将所述待处理银行信息中的银行名称中的目标关键词转换为转换关键词;以及,将所述待处理银行信息中的银行名称中的不规范关键词转换为规范关键词;
精简处理后的银行名称中的关键词,得到银行别名;
按照预设的类别编号,为银行别名分配相应的类别编号。
9.根据权利要求7所述的方法,其特征在于,还包括:
从所述标准词库单元中定位与所述待检测的银行信息具有相同类别相同的标准银行信息的存放内存块,所述存放内存块中的任意一条银行信息为所述目标银行信息。
10.一种银行编号确定装置,其特征在于,包括:
第一获取模块,用于获取标准银行信息,任意一条所述标准银行信息中包括:银行编号和银行名称、银行别名;
第二获取模块,用于获取待检测的银行信息,所述待检测的银行信息中包括不规范的银行名称;
第一计算模块,用于计算词库中的目标银行信息的关键词匹配分、前向单词匹配分和前向连续词匹配分;其中,所述关键词匹配分为所述目标银行信息中的银行名称与测试关键词中相同的汉字对应的权重之和;所述前向单词匹配分为所述目标银行信息中的银行别名与测试别名中相同的汉字的数量;所述前向连续词匹配分为所述目标银行信息中的银行别名与所述测试别名中相同的连续字的权重分之和;所述测试关键词和所述测试别名依据所述不规范的银行名称生成;所述目标银行信息为所述标准银行信息中的任意一条银行信息;
第二计算模块,用于计算所述前向单词匹配分、前向连续词匹配分和关键词匹配分的加权和,作为所述目标银行信息的综合分;其中,所述前向单词匹配分、前向连续词匹配分和关键词匹配分的权值为预先设置的权值;
确定模块,用于将匹配银行信息中的银行编号,作为所述不规范的银行名称对应的银行编号,所述匹配银行信息为所述词库中所述综合分满足预设的条件的银行信息。
11.根据权利要求10所述的装置,其特征在于,所述第一计算模块用于计算所述目标银行信息的关键词匹配分包括:
所述第一计算模块具体用于,依据不规范的银行名称生成测试关键词;确定所述目标银行信息中的银行名称与所述测试关键词中相同的汉字;依据预设的汉字类别与权重的对应关系,确定所述相同的汉字对应的权重;所有所述相同的汉字对应的权重之和,为所述关键词匹配分。
12.根据权利要求11所述的装置,其特征在于,还包括:
测试关键词生成模块,用于从所述不规范的银行名称中查找预设的目标名称,并依次存储所述目标名称,其中,预设的目标名称包括:“行”名称、“省”名称、“自治区”名称、“市”名称、“县”名称、“区”名称、“分行”名称、“支行”名称、以及农商行名称,所述农商行名称包括“农村”、“农商”、“农信”或“农合”名称;重新查找“支行”名称,如果“支行”前的汉字的长度为5个或者4个,且前导词为“银行”,“工行”,“中行”,“招行”,“平安”,则补充存储关键词“深圳”到存储的所述目标名称中;合并所述目标名称,得到所述测试关键词。
13.根据权利要求10所述的装置,其特征在于,所述第一计算模块用于计算所述目标银行信息的前向单词匹配分包括:
所述第一计算模块具体用于,从前到后依次将所述测试别名中的单个汉字作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的汉字;如果找到,将所述目标银行信息的前向单词匹配分加1,直至遍历完所有相同的汉字,所述前向单词匹配分的初始值为0。
14.根据权利要求10所述的装置,其特征在于,所述第一计算模块用于计算所述目标银行信息的前向连续词匹配分包括:
所述第一计算模块具体用于,从前到后依次将所述测试别名中的字块作为目标对象,对于任意一个目标对象,从所述目标银行信息的银行别名中查找相同的字块,所述字块为至少包括两个汉字的连续汉字;如果找到,将所述目标银行信息的前向连续词匹配分加预设的权重分,直至遍历完所有相同的字块,所述前向连续词匹配分的初始值为0,所述相同的字块中的汉字的数量越多,所述权重分越高。
15.根据权利要求10-14任一项所述的装置,其特征在于,所述预设的条件包括:
所述综合分最高且银行名称最短。
16.根据权利要求10-14任一项所述的装置,其特征在于,所述第一获取模块用于获取标准银行信息包括:
所述第一获取模块具体用于,在内存中开辟临时词库单元,并将预设的词库释放到临时词库单元中;获取所述词库中的银行信息的银行分类信息,所述银行分类信息包括:银行别名和银行类别;在内存中开辟标准词库单元,并在所述标准词库单元中按照所述银行类别存储所述标准银行信息,所述标准银行信息包括所述词库中的银行信息和所述银行分类信息;释放所述临时词库单元。
17.根据权利要求16所述的装置,其特征在于,所述第一获取模块用于获取所述词库中的银行信息的银行分类信息包括:
所述第一获取模块具体用于,对待处理银行信息中的银行名称进行处理,所述处理包括:去除待处理银行信息中的银行名称中的无用词语,所述待处理银行信息为所述词库中的任意一条银行信息;依据预设的目标关键词与转换关键词的对应关系,将所述待处理银行信息中的银行名称中的目标关键词转换为转换关键词;以及,将所述待处理银行信息中的银行名称中的不规范关键词转换为规范关键词;精简处理后的银行名称中的关键词,得到银行别名;按照预设的类别编号,为银行别名分配相应的类别编号。
18.根据权利要求16所述的装置,其特征在于,还包括:
定位模块,用于从所述标准词库单元中定位与所述待检测的银行信息具有相同类别相同的标准银行信息的存放内存块,所述存放内存块中的任意一条银行信息为所述目标银行信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239803.0A CN108376365B (zh) | 2018-03-22 | 2018-03-22 | 一种银行编号确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239803.0A CN108376365B (zh) | 2018-03-22 | 2018-03-22 | 一种银行编号确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108376365A CN108376365A (zh) | 2018-08-07 |
CN108376365B true CN108376365B (zh) | 2021-06-18 |
Family
ID=63019029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810239803.0A Active CN108376365B (zh) | 2018-03-22 | 2018-03-22 | 一种银行编号确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108376365B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540721B (zh) * | 2024-01-09 | 2024-04-12 | 北京大数元科技发展有限公司 | 一种银行回单信息提取方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1670723A (zh) * | 2004-03-16 | 2005-09-21 | 微软公司 | 改进的拼写检查系统和方法 |
CN101075980A (zh) * | 2006-07-26 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 对通讯系统中的通讯信息进行过滤的方法和过滤系统 |
CN101844135A (zh) * | 2010-05-11 | 2010-09-29 | 上海邮政科学研究院 | 一种地址信息库驱动下的邮政信函按址分拣方法 |
CN102023984A (zh) * | 2009-09-10 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 甄别重复实体数据的方法和系统 |
CN104809141A (zh) * | 2014-01-29 | 2015-07-29 | 携程计算机技术(上海)有限公司 | 酒店数据的匹配系统及方法 |
CN104881503A (zh) * | 2015-06-24 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种数据处理方法和装置 |
CN106557971A (zh) * | 2016-11-18 | 2017-04-05 | 畅捷通信息技术股份有限公司 | 基于语音识别技术的财务数据处理方法、系统及终端 |
CN107153652A (zh) * | 2016-03-03 | 2017-09-12 | 阿里巴巴集团控股有限公司 | 将目标字符串转化为规范化字符串的方法及装置 |
CN107818124A (zh) * | 2017-03-03 | 2018-03-20 | 平安医疗健康管理股份有限公司 | 数据匹配方法及装置 |
-
2018
- 2018-03-22 CN CN201810239803.0A patent/CN108376365B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1670723A (zh) * | 2004-03-16 | 2005-09-21 | 微软公司 | 改进的拼写检查系统和方法 |
CN101075980A (zh) * | 2006-07-26 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 对通讯系统中的通讯信息进行过滤的方法和过滤系统 |
CN102023984A (zh) * | 2009-09-10 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 甄别重复实体数据的方法和系统 |
CN101844135A (zh) * | 2010-05-11 | 2010-09-29 | 上海邮政科学研究院 | 一种地址信息库驱动下的邮政信函按址分拣方法 |
CN104809141A (zh) * | 2014-01-29 | 2015-07-29 | 携程计算机技术(上海)有限公司 | 酒店数据的匹配系统及方法 |
CN104881503A (zh) * | 2015-06-24 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种数据处理方法和装置 |
CN107153652A (zh) * | 2016-03-03 | 2017-09-12 | 阿里巴巴集团控股有限公司 | 将目标字符串转化为规范化字符串的方法及装置 |
CN106557971A (zh) * | 2016-11-18 | 2017-04-05 | 畅捷通信息技术股份有限公司 | 基于语音识别技术的财务数据处理方法、系统及终端 |
CN107818124A (zh) * | 2017-03-03 | 2018-03-20 | 平安医疗健康管理股份有限公司 | 数据匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108376365A (zh) | 2018-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087163B (zh) | 信用评估的方法及装置 | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN111327514B (zh) | 微信图文消息群发方法、系统、服务器及存储介质 | |
CN105740466A (zh) | 一种挖掘热点概念之间关联关系的方法和装置 | |
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN111476651A (zh) | 数据结算方法及装置、存储介质及电子设备 | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
CN110765760A (zh) | 一种法律案件分配方法、装置、存储介质和服务器 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN114840527A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN111898611A (zh) | 一种结合rpa和ai的收款凭证生成方法、装置、设备及介质 | |
CN108376365B (zh) | 一种银行编号确定方法及装置 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
CN111597813A (zh) | 一种基于命名实体识别提取短信文本摘要的方法及装置 | |
CN116226354A (zh) | 一种问答信息的确定方法及装置 | |
CN113472686B (zh) | 信息识别方法、装置、设备及存储介质 | |
CN114971637A (zh) | 一种风险预警方法、装置、设备及介质 | |
CN110309235B (zh) | 一种数据处理方法、装置、设备及介质 | |
CN112488748A (zh) | 数据标识匹配方法及装置、存储介质、计算设备 | |
CN111324732A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN112559674A (zh) | 裁判文书中法条内容的查询方法及相关装置 | |
CN111832998B (zh) | 一种判断寄递电话号码真实使用者的方法及装置 | |
CN116244353A (zh) | 一种计数方法及装置、存储介质、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |