CN105426351B

CN105426351B - 一种客户地址信息的分词处理方法和系统

Info

Publication number: CN105426351B
Application number: CN201510769798.0A
Authority: CN
Inventors: 冯瑞飞; 熊潇; 陈帆; 胡汝敖
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2019-01-25
Anticipated expiration: 2035-11-11
Also published as: CN105426351A

Abstract

本发明提供一种客户地址信息的分词处理方法和系统，预先存储有用于定义所有行政区域的代码的行政区域匹配清单，方法包括：确定当前待处理的客户地址信息；将当前待处理的客户地址信息进行处理，获取到符合处理标准的客户地址信息；按照最长匹配原则，将符合处理标准的客户地址信息中的各个子地址信息分别与行政区域匹配清单进行匹配；当符合处理标准的客户地址信息中的第一子地址信息与行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定第一子地址信息的第一代码；获取符合处理标准的客户地址信息中所有子地址信息的代码，生成规范化的客户地址信息。本发明实现了将人工录入的客户地址信息规范化，提高了银行系统的分词准确性。

Description

一种客户地址信息的分词处理方法和系统

技术领域

本发明涉及信息处理技术领域，更具体地说，涉及一种客户地址信息的分词处理方法和系统。

背景技术

在银行信息处理技术领域中，常常需要对人工录入的信息，如输入的客户地址信息、电话信息等进行解析并存储。

在实际应用过程中，银行系统对这些人工录入的客户地址信息、电话信息等采用中文分词算法进行分词，进而逐个保存分词后的各个词汇。

然而由于银行系统的非智能化，以及人工录入的客户地址信息、电话信息等并不规范，尤其在当录入的信息存在歧义时，银行系统会将出现歧义的信息处理为错误的分词，出错率较高。

发明内容

有鉴于此，本发明提供一种客户地址信息的分词处理方法和系统，以实现将人工录入的客户地址信息规范化，从而提高银行系统对客户地址信息的识别率，以提高银行系统的分词准确性。技术方案如下：

基于本发明的一方面，本发明提供一种客户地址信息的分词处理方法，预先存储有用于定义所有行政区域的代码的行政区域匹配清单，所述方法包括：

确定当前待处理的客户地址信息；

将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息；

按照最长匹配原则，将所述符合处理标准的客户地址信息中的各个子地址信息分别与所述行政区域匹配清单进行匹配；

当所述符合处理标准的客户地址信息中的第一子地址信息与所述行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定所述第一子地址信息的第一代码；其中所述第一代码与所述第一行政区域对应；

获取所述符合处理标准的客户地址信息中所有子地址信息的代码，生成规范化的客户地址信息。

优选地，所述将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息包括：

将所述当前待处理的客户地址信息中的全角字符转换为半角字符；

将所述当前待处理的客户地址信息中的分隔符去掉。

优选地，所述规范化的客户地址信息包括符合预设规则的客户地址信息；

所述预设规则包括国家、省、市、区县。

优选地，还包括：

当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码。

优选地，还包括：

当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，不处理所述第三子地址信息。

优选地，还包括：

将所述第三子地址信息中之前包括的分隔符还原。

优选地，还包括：

当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，不处理所述第四子地址信息。

优选地，所述不处理规则包括：

地址信息以大学、小区、展览馆、苑、园、花园、大道、弄、里、堡、巷、道、中心、广场、街道、街、路、大厦、楼、博物馆、局、分局、铁路局、中学、小学、分行、政府、公安局、厂、公司开头；

或，地址信息以中国开头，且后续字符串不满足省市县规则。

基于本发明的另一方面，本发明还提供一种客户地址信息的分词处理系统，预先存储有用于定义所有行政区域的代码的行政区域匹配清单，所述系统包括：

确定模块，用于确定当前待处理的客户地址信息；

信息处理模块，用于将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息；

匹配模块，用于按照最长匹配原则，将所述符合处理标准的客户地址信息中的各个子地址信息分别与所述行政区域匹配清单进行匹配；

第一确定模块，用于当所述符合处理标准的客户地址信息中的第一子地址信息与所述行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定所述第一子地址信息的第一代码；其中所述第一代码与所述第一行政区域对应；

获取模块，用于获取所述符合处理标准的客户地址信息中所有子地址信息的代码；

生成模块，用于生成规范化的客户地址信息。

优选地，所述信息处理模块包括：

第一处理子模块，用于将所述当前待处理的客户地址信息中的全角字符转换为半角字符；

第二处理子模块，用于将所述当前待处理的客户地址信息中的分隔符去掉。

所述预设规则包括国家、省、市、区县。

优选地，还包括：

第二确定模块，用于当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码。

优选地，还包括：

第三确定模块，用于当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，确定不处理所述第三子地址信息。

优选地，还包括：

还原模块，用于将所述第三子地址信息中之前包括的分隔符还原。

优选地，还包括：

第四确定模块，用于当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，确定不处理所述第四子地址信息。

优选地，所述不处理规则包括：

应用本发明的上述技术方案，本发明提供的客户地址信息的分词处理方法中预先存储有用于定义所有行政区域的代码的行政区域匹配清单。方法具体包括：确定当前待处理的客户地址信息；将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息；按照最长匹配原则，将所述符合处理标准的客户地址信息中的各个子地址信息分别与所述行政区域匹配清单进行匹配；当所述符合处理标准的客户地址信息中的第一子地址信息与所述行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定所述第一子地址信息的第一代码；其中所述第一代码与所述第一行政区域对应；获取所述符合处理标准的客户地址信息中所有子地址信息的代码，生成规范化的客户地址信息。因此本发明能够依据预先存储的行政区域匹配清单对客户地址信息中的各个子地址信息分别进行匹配、处理，从而准确地获知客户地址信息中的各个子地址信息的代码，并生成规范化的客户地址信息。因此本发明实现了将人工录入的客户地址信息规范化，从而提高了银行系统对客户地址信息的识别率，即提高了银行系统的分词准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种客户地址信息的分词处理方法的流程图；

图2为本发明提供的一种客户地址信息的分词处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的设计思想之一包括但不限于，预先存储有用于定义所有行政区域的代码的行政区域匹配清单。本发明通过将客户地址信息中的各个子地址信息分别与行政区域匹配清单中的行政区域进行匹配，从而精确地确定出客户地址信息，实现了将人工录入的客户地址信息规范化，提高了银行系统对客户地址信息的识别率，提高了银行系统的分词准确性。

那么具体地，本发明在银行系统具体实现对客户地址信息的分词处理前，首先存储一个用于定义所有行政区域的代码的行政区域匹配清单。

具体地例如下表1所示：

代码	行政区域(中文)	行政区域(英文)
			510000	四川省	Sichuan_Prov
510100	成都市	ChengduCity
			510101	市辖区	MncpDstc
510104	锦江区	JingjiangZon
			510105	青羊区	QingyangZon
510106	金牛区	JinniuZon
			510107	武侯区	WuhouZon
510108	成华区	ChenghuaZon

510112

龙泉驿区

LongchuanyiZon

表1

除此之外，本发明还设置了一些等价规则，如：

一、行政单位可省略规则。

即对于本发明中地址信息中的市、县、区、自治县、自治区、自治州、旗、联合旗、自治旗、特别行政区等信息可以省略。

比如：四川省等价于四川，成都市等价于成都，双流县等价于双流。

但是值得注意的是，如果本发明中的地址信息省略掉行政单位后只剩下一个字符，则不可省略行政单位，例如郫县，其省略“县”后只剩下一个字符“郫”，此时本发明不可省略该“县”。

二、民族可省略规则。

同样地，对于本发明中地址信息中的“族”可省略。

比如：维吾尔族等价于维吾尔，土家族等价于土家。

但是同样需要注意的是，如果本发明中的地址信息省略掉“族”后只剩下一个字符，则不可省略“族”。例如满族、回族，其省略掉“族”后只剩下一个字符“满”、“回”，此时本发明不可省略该“族”。

三、上级行政单位合并规则。

在本发明中，所有的行政单位都可以和上级、上上级行政单位合并，形成等价的行政单位。上级行政单位可以跨越形成等价地址。

例如，“510100成都市”可以形成如下等价地址：

510100成都；

510100成都市；

510100四川成都；

510100四川省成都市；

510100四川成都市；

510100中国四川成都；

510100中国四川成都市；

510100中国四川省成都市；

510100中国四川省成都；

510100中国成都。

再例如，少数民族区县地址：

印江土家族苗族【自治县】；

印江土家族；

印江土家；

印江土家苗族；

印江；

印江自治县；

印江土家自治县；

印江土家族自治县。

再例如，市州部地址：

铜仁市+上述所有的组合；

铜仁+上述所有的组合。

再例如，省级地址：

四川省+【市州部地址】+【区县地址】；

四川+【市州部地址】+【区县地址】。

再例如，国家级名称：

中国+【省级地址]+【市州部地址】+【区县地址】。

本发明在完成上述等价规则的设置以及存储了用于定义所有行政区域的代码的行政区域匹配清单后，执行图1所示的方法，该方法应用于银行系统，具体包括：

步骤101，确定当前待处理的客户地址信息。

在本发明中，当前业务员在银行系统中输入完成一串客户地址信息后，银行系统可以默认该输入完成的客户地址信息为当前待处理的客户地址信息。

当然本发明也可以为银行系统从已完成输入的客户地址信息中选择调取出一个客户地址信息作为当前待处理的客户地址信息。

步骤102，将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息。

一般地，业务员或其他操作人员输入到银行系统的客户地址信息都不规范，这就导致银行系统对该不规范的客户地址信息产生错误的分词，降低了分词准确性。基于此，本发明在处理客户地址信息前，首先将当前待处理的客户地址信息处理为银行系统可识别且能够大大提高识别效率的符合处理标准的客户地址信息。

具体地，本发明中步骤102具体包括：

步骤1021，将所述当前待处理的客户地址信息中的全角字符转换为半角字符。

步骤1022，将所述当前待处理的客户地址信息中的分隔符去掉。

举例来说，比如对于当前待处理的客户地址信息为“四川，成都，新光华街3-2-1”来说，首先将其“，”、数字等全角字符转换为半角字符，得到“四川,成都,新光华街3-2-1”。进而将其分隔符去掉，最终得到符合处理标准的客户地址信息“四川成都新光华街321”。

步骤103，按照最长匹配原则，将所述符合处理标准的客户地址信息中的各个子地址信息分别与所述行政区域匹配清单进行匹配。

其中，本发明中的最长匹配原则指的是能够表示一个完整的行政区域的最长字符串。本发明中子地址信息与行政区域匹配清单中行政区域进行匹配的基础为前文所述事先定义的等价规则。

具体地仍以前述符合处理标准的客户地址信息为“四川成都新光华街321”为例来说，其包括“四川”、“成都”、“新光华街321”三个子地址信息。那么基于前文本发明预先存储的行政区域匹配清单，以及预先定义的等价规则可以确定，“四川”等价于“四川省”，即该“四川”子地址信息与行政区域匹配清单中的“四川省”行政区域匹配；“成都”等价于“成都市”，即该“成都”子地址信息与行政区域匹配清单中的“成都市”行政区域匹配；“新光华街321”与行政区域匹配清单中的行政区域均不匹配。

步骤104，当所述符合处理标准的客户地址信息中的第一子地址信息与所述行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定所述第一子地址信息的第一代码；其中所述第一代码与所述第一行政区域对应。

仍以前述为例继续说明，通过步骤103将符合处理标准的客户地址信息中的各个子地址信息分别与行政区域匹配清单进行匹配后可知，“四川”子地址信息与行政区域匹配清单中的“四川省”行政区域匹配，且该匹配结果唯一，此时确定“四川”的代码信息“510000”；“成都”子地址信息与行政区域匹配清单中的“成都市”行政区域匹配，且该匹配结果唯一，此时确定“成都”的代码信息“510100”。

步骤105，获取所述符合处理标准的客户地址信息中所有子地址信息的代码，生成规范化的客户地址信息。

其中，规范化的客户地址信息包括符合预设规则的客户地址信息；所述预设规则包括国家、省、市、区县。因此本发明以“四川成都”为例来说的话，即按照国家、省、市、区县的规则来生成的规范化的客户地址信息为“四川省成都市”，其相应的代码为“510000510100”。

因此应用本发明的上述技术方案，本发明能够依据预先存储的行政区域匹配清单对客户地址信息中的各个子地址信息分别进行匹配、处理，从而准确地获知客户地址信息中的各个子地址信息的代码，并生成规范化的客户地址信息。因此本发明实现了将人工录入的客户地址信息规范化，从而提高了银行系统对客户地址信息的识别率，即提高了银行系统的分词准确性。

在实际应用过程中，在银行系统中输入的客户地址信息中的各个子地址信息并不是均能够正确且唯一的与行政区域匹配清单中的某一个行政区域匹配，根据本发明事先定义的等价规则，有时一个子地址信息可能对应行政区域匹配清单中的至少两个行政区域，有时一个子地址信息与行政区域匹配清单中任意一个行政区域均不匹配，那么针对这种情况，本发明在上述实施例的基础上，还可以包括：

步骤106，当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码。

具体地例如，客户地址信息中的第二子地址信息为“沙湾”时，该“沙湾”同时与代码为511111的沙湾区以及代码为654223沙湾县均匹配，此时，匹配结果不唯一，那么本发明便只确定该第二子地址信息“沙湾”的国家代码，即对应的“中国”代码。

以及还包括：

步骤107，当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，不处理所述第三子地址信息。

仍以前述事例为例继续说明，其前文涉及到子地址信息“新光华街321”，且该“新光华街321”与行政区域匹配清单中的行政区域均不匹配。那么在本实施例中，因为该第三子地址信息“新光华街321”与行政区域匹配清单中的任意一个行政区域均不匹配，此时本发明对于该第三子地址信息“新光华街321”不作处理。

此外，在本实施例中还需注意的是，由于该第三子地址信息“新光华街321”在被处理之前，即步骤101中首次确定的当前待处理的客户地址信息中的“新光华街321”的原始描述为“新光华街3-2-1”，其经过步骤102的处理后去掉了里面的分隔符。那么在本实施例中，当确定该第三子地址信息“新光华街321”不作处理时，还需进一步将该第三子地址信息中之前包括的分隔符还原，即将“新光华街321”还原为原始描述“新光华街3-2-1”。此时对于“四川成都新光华街321”来说，其最终生成的规范化的客户地址信息为“四川省成都市新光华街3-2-1”。

在本发明上述实施例的基础上，本发明还针对一些特殊的地址信息，设定了不处理规则。所述不处理规则包括：地址信息以大学、小区、展览馆、苑、园、花园、大道、弄、里、堡、巷、道、中心、广场、街道、街、路、大厦、楼、博物馆、局、分局、铁路局、中学、小学、分行、政府、公安局、厂、公司开头；或，地址信息以中国开头，且后续字符串不满足省市县规则。

那么本发明还包括：

步骤108，当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，不处理所述第四子地址信息。

具体地，例如地址信息为“北京大厦6楼”时，如果将“北京”与行政区域匹配清单中的北京市匹配后，其后续字符串(即第四子地址信息)为“大厦6楼”，而显然该“大厦6楼”的描述与实际情况不符，并不正确。再例如，对于地址信息为“四川大学江安校区”来说，如果将“四川”与行政区域匹配清单中的四川省匹配后，其后续字符串为“大学江安校区”，而显然该“大学江安校区”的描述与实际情况不符，并不正确。再例如，对于地址信息为“中国石化四川分公司”来说，如果将“中国”与行政区域匹配清单中的中国国家匹配后，其后续字符串为“石化四川分公司”，而显然该“石化四川分公司”的描述与实际情况也不符，也不正确。

因此，本发明针对上述特殊情况，设定了相应的不处理规则。当确定符合处理标准的客户地址信息中的子地址信息满足不处理规则时，不处理所述子地址信息。

基于前文本发明提供的一种客户地址信息的分词处理方法，本发明还提供一种客户地址信息的分词处理系统，如图2所示，该系统预先存储有用于定义所有行政区域的代码的行政区域匹配清单，系统具体包括：

确定模块100，用于确定当前待处理的客户地址信息；

信息处理模块200，用于将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息；

其中优选地，所述信息处理模块200包括：

第一处理子模块201，用于将所述当前待处理的客户地址信息中的全角字符转换为半角字符；

第二处理子模块202，用于将所述当前待处理的客户地址信息中的分隔符去掉。

匹配模块300，用于按照最长匹配原则，将所述符合处理标准的客户地址信息中的各个子地址信息分别与所述行政区域匹配清单进行匹配；

第一确定模块400，用于当所述符合处理标准的客户地址信息中的第一子地址信息与所述行政区域匹配清单中的第一行政区域匹配，且匹配结果唯一时，确定所述第一子地址信息的第一代码；其中所述第一代码与所述第一行政区域对应；

获取模块500，用于获取所述符合处理标准的客户地址信息中所有子地址信息的代码；

生成模块600，用于生成规范化的客户地址信息。

其中，所述规范化的客户地址信息包括符合预设规则的客户地址信息；

所述预设规则包括国家、省、市、区县。

作为优选地，本发明还可以包括：

第二确定模块700，用于当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码。

第三确定模块800，用于当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，确定不处理所述第三子地址信息。

还原模块900，用于将所述第三子地址信息中之前包括的分隔符还原。

以及，第四确定模块1000，用于当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，确定不处理所述第四子地址信息。

其中，所述不处理规则包括：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种客户地址信息的分词处理方法和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种客户地址信息的分词处理方法，其特征在于，预先存储有用于定义所有行政区域的代码的行政区域匹配清单，所述方法包括：

确定当前待处理的客户地址信息；

获取所述符合处理标准的客户地址信息中所有子地址信息的代码，生成规范化的客户地址信息；

所述方法还包括：

当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码；

当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，不处理所述第三子地址信息，将所述第三子地址信息中之前包括的分隔符还原；

所述方法还包括：

当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，不处理所述第四子地址信息；

所述不处理规则包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述当前待处理的客户地址信息进行处理，以获取到符合处理标准的客户地址信息包括：

将所述当前待处理的客户地址信息中的分隔符去掉。

3.根据权利要求1所述的方法，其特征在于，所述规范化的客户地址信息包括符合预设规则的客户地址信息；

所述预设规则包括国家、省、市、区县。

4.一种客户地址信息的分词处理系统，其特征在于，预先存储有用于定义所有行政区域的代码的行政区域匹配清单，所述系统包括：

确定模块，用于确定当前待处理的客户地址信息；

生成模块，用于生成规范化的客户地址信息；

所述系统包括：

第二确定模块，用于当所述符合处理标准的客户地址信息中的第二子地址信息与所述行政区域匹配清单中的至少两个行政区域匹配，匹配结果不唯一时，确定所述第二子地址信息的国家代码；

第三确定模块，用于当所述符合处理标准的客户地址信息中的第三子地址信息与所述行政区域匹配清单中的任意一个行政区域均不匹配时，确定不处理所述第三子地址信息；

还原模块，用于将所述第三子地址信息中之前包括的分隔符还原；

其中所述系统包括：

第四确定模块，用于当所述符合处理标准的客户地址信息中的第四子地址信息满足不处理规则时，确定不处理所述第四子地址信息；

所述不处理规则包括：

5.根据权利要求4所述的系统，其特征在于，所述信息处理模块包括：

6.根据权利要求4所述的系统，其特征在于，所述规范化的客户地址信息包括符合预设规则的客户地址信息；

所述预设规则包括国家、省、市、区县。