CN110188184A

CN110188184A - 一种地址信息比对的处理方法、存储介质及终端设备

Info

Publication number: CN110188184A
Application number: CN201910482755.2A
Authority: CN
Inventors: 谷国良; 彭青齐; 宋智刚; 罗学权; 许曲; 罗毅虎; 樊洋; 佟禹; 周太威; 张昕
Original assignee: PENGYUAN CREDIT CO Ltd
Current assignee: PENGYUAN CREDIT CO Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-08-30

Abstract

本发明公开了一种地址信息比对的处理方法、存储介质及终端设备，其包括：获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项；按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码；根据各结果编码计算第一地址信息和第二地址信息的相似度；当所述相似度满足预设阈值时，判定第一地址信息与第二地址信息相同。本发明实现了对地址进行有效和正确的切分，在切分之后的地址子项的基础上面进行比对，并且实现了对多个地址信息的比较，能准确的确定多个地址的比对结果和相似度。

Description

一种地址信息比对的处理方法、存储介质及终端设备

技术领域

本发明涉及中文信息处理技术领域，特别涉及一种地址信息比对的处理方法、存储介质及终端设备。

背景技术

近年来，随着自然语言处理技术的发展，越来越多的中文文本处理任务通过程序自动完成，在文本处理中，可以提取出大量的地址信息；比如用户在申请信用卡时，银行需要将用户录入的工作单位地址或者居住地址跟其它信息源（比如社保系统）的工作单位地址进行比对校验，而由于缩写等原因，许多地址信息存在不统一和不规范的表述。例如“广东省深圳市福田区中心四路1号嘉里建设广场”还可能被表述为：“深圳市福田区福华路嘉里建设广场”、“广东省深圳市福田区中心四路1号”、“深圳市福田区中心四路嘉里建设广场”等名称，为判断不同表示的地址信息是否指代同一个地址，需要对地址信息各地址子项进行切分，并识别每个子项的类型；

比如，有两个地址A和B，针对这两个地址分析子项比对如何判断地址子项的比对结果。首先两个待比较的地址信息如下：

A为“广东省深圳市福田区中心四路1号嘉里建设广场1座”

B为“深圳市福田区中心四路嘉里建设广场”

首先，切分并识别地址A为“广东省/pyd 深圳市/pyd 福田区/pyd 中心四路/pydr 1号/pyd 嘉里建设广场/pydb 1座/pyd”；B为“深圳市/pyd 福田区/pyd 中心四路/pydr 嘉里建设广场/pydb”;

区划词子项比对：识别出的地址子项中前五级区划词，A地址的为：广东省/pyd 深圳市/pyd 福田区，B地址的为：深圳市/pyd 福田区/pyd，AB两个地址都可以获取到区划代码440304，根据区划的比对规则，区划编码完全相等判断地址中的地址区划子项相等，结果编码为D01；

街巷比对：识别出地址子项中的街巷和道路信息，AB地址的都为：中心四路，根据街巷和道路的比对规则，道路信息完全相同，街巷比对的结果为相等，结果编码为R01；

道路号比对：识别出地址子项中的街巷和道路信息中的道路号信息，A地址的道路号为：1，B地址没有道路号信息，根据街巷和道路号的比对规则，道路号信息为B单边缺失，道路号比对的结果为B单边缺失，结果编码为M04；

小区比对：识别出地址子项中的小区信息，A地址和B地址的小区都为缺失，故小区子项的比对结果为双边缺失，结果编码为G07；

大楼比对：识别出地址子项中的大楼信息，A地址和B地址的大楼信息都为“嘉里建设广场”，故，大楼的比对结果为相等，结果编码为B01；

标志物比对：识别出地址子项中的标志物信息，A地址的标志物为1座，B地址没有标注标志物信息，故，地址的标志物比对结果为B单边缺失，结果编码为W03；

方位词比对：识别出地址子项中的方位词信息，A地址和B地址都没有方位词信息，故，地址的方位词的比对结果为方位词双边缺失，结果编码为F05；

地址相似度比对：根据AB两个地址词计算出地址的相似度,得出连个地址的相似对为0.78，可以根据地址相似度比对的规则得出，地址基本相等，结果编码为S02；

计算地址的距离：通过调用百度提供的地址计算的API获取到两个地址的距离，AB两个地址计算的结果为1000，根据规则，算出的结果为相等，结果编码为J03;

最后利用比对的总规则，对所有的地址子项的计算结果进行计算，得出两个地址的计算结果为相等。

目前，市面上面没有专门针对地址比对的相关软件，地址比对的技术难点在于切分的地址子项的准确性和子项比对规则的合理性和完善性，分词准确性又受限于词库的完整性和对未登录地址词以及对特殊词切分结果的调整。而且用户在输入地址的时候，随意性太大，有可能一个标准地址在当地人的叫法上又不同，这个又增加了地址分词和比对的复杂度，降低了比对的准确性。

也就是说，现有技术中，对于地址信息细分分词和比对的准确性和效率都不高，有很多地名识别不准确，不能对地址信息中的各元素进行准确切分，无法进行有效的识别和比对。

因而现有技术还有待改进和提高。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种地址信息比对的处理方法、存储介质及终端设备，旨在实现对地址信息进行有效和正确切分，以及地址子项的正确识别，提供一套比对规则，实现地址比对，提升地址比对的准确性和效率。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种地址信息比对的处理方法，其包括：

获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项；

按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码；

根据各结果编码计算第一地址信息和第二地址信息的相似度；

当所述相似度满足预设阈值时，判定第一地址信息与第二地址信息相同。

所述地址信息比对的处理方法，其中，所述获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括：

预先定义不同地址子项的名称，搜集并补充地址子项词库。

所述地址信息比对的处理方法，其中，所述预先定义不同地址子项的名称，搜集并补充地址子项词库具体包括：

根据地址信息中出现的地址子项类型定义地址子项词库；

搜集地名词用于补充所述地址子项词库。

所述地址信息比对的处理方法，其中，所述获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项具体包括：

获取待对比的第一地址信息和第二地址信息；

通过改进的隐马尔科夫模型对所述第一地址信息和第二地址信息进行全切分，以生成第一词图和第二词图，其中，所述第一词图包括第一地址信息的各地址子项，所述第二词图包括第二地址信息的各地址子项。

所述地址信息比对的处理方法，其中，所述第一地址子项和第二地址子项具体包括：

省市（区|县）乡镇标准区划、道路（街巷）、道路号、小区、大楼、标志物、方位词以及地址距离。

所述地址信息比对的处理方法，其中，所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码之前还包括：

获取第一地址子项的第一地名词子项和第二地址子项的第二地名词子项；

对第一地名词子项和第二地名词子项进行识别，以得到对应的的第一区划编码和第二区划编码。

所述地址信息比对的处理方法，其中，所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码具体为：

采用可配置的规则表对各类地址子项的比对则进行配置，根据地址子项比对规则计算第一地址子项和第二地址子项的比对结果，每一条地址子项比对规则对应到具体的地址子项规则比对类中的具体方法，在方法中实现规则中的逻辑。

所述地址信息比对的处理方法，其还包括：

当检测到的地址子项不存在地址子项词库时，识别所述地址子项的类型，并手动将所述地址子项更新至所述地址子项词库。

一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任意一项所述的地址信息比对的处理方法中的步骤。

一种终端设备，其中，包括：处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上任意一项所述的地址信息比对的处理方法中的步骤。

有益效果：与现有技术相比，本发明提供了一种地址信息比对的处理方法、存储介质及终端设备，其包括：获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项；按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码；根据各结果编码计算第一地址信息和第二地址信息的相似度；当所述相似度满足预设阈值时，判定第一地址信息与第二地址信息相同。本发明实现了对地址进行有效和正确的切分，在切分之后的地址子项的基础上面进行比对，并且实现了对多个地址信息的比较，能准确的确定多个地址的比对结果和相似度。

附图说明

图1为本发明提供的地址信息比对的处理方法较佳实施例的流程图。

图2为本发明提供的地址信息比对的处理方法中步骤S10较佳实施例的流程图。

图3为本发明提供的地址信息比对的处理方法中步骤S100较佳实施例的流程图。

图4为本发明提供的终端设备较佳实施例的结构原理图。

具体实施方式

本发明提供一种地址信息比对的处理方法、存储介质及终端设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

请参照图1，图1为本发明提供的一种地址信息比对的处理方法的较佳实施例的流程图。所述方法包括：

S10、获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项。

具体地，如图2所示，图2为本发明提供的地址信息比对的处理方法中步骤S10较佳实施例的流程图。其具体包括：

S11、获取待对比的第一地址信息和第二地址信息；

S12、通过改进的隐马尔科夫模型对所述第一地址信息和第二地址信息进行全切分，以生成第一词图和第二词图，其中，所述第一词图包括第一地址信息的各地址子项，所述第二词图包括第二地址信息的各地址子项。

具体地，发明基于改进的隐马尔可夫模型设计开发除了一套比较完善的中文分词系统，通过对现有的分词系统的改造和配置，其完全适用于地址分词，且能够保证地址子项拆分的正确性。进一步，本实施例中在进行信息比对时还包括以下步骤：

本实施例中，首先要标识出各地址信息的地名词所有可能的区划编码，再进行前后地名词区划编码的匹配，并可以根据地名后缀，消除地名变更的影响。本实施例中，对于区划编码不匹配的地名词，通过修改模型中条件概率的计算方式，减小其成词概率。以此来避免小地名词对分词结果的影响。

进一步，所述获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括：

S100、预先定义不同地址子项的名称，搜集并补充地址子项词库。

具体地，如图3所示，图3为本发明提供的地址信息比对的处理方法中步骤S100较佳实施例的流程图。所述预先定义不同地址子项的名称，搜集并补充地址子项词库具体包括：

S101、根据地址信息中出现的地址子项类型定义地址子项词库；

S102、搜集地名词用于补充所述地址子项词库。

具体地，预先定义地址子项词库，例如：

名称	描述	示例
			pyd	地址词	广东省/pyd，深圳市/pyd
pydg	小区	东海花园/pydg
			pydb	大厦	阳光高尔夫大厦/pydb
pydr	道路、街巷	深南大道/pydr
			pyf	方位词	西北角/pyf

其中，搜集并补充词库，主要是大量的地名词、道路、小区花园等。五级区划信息、一般的道路信息、小区大厦信息都可以直接从全国的地址信息库中获取到，直接可以加入到地址子项词库中。值得说明的是，本发明当检测到的地址子项不存在地址子项词库时，识别所述地址子项的类型，并手动将所述地址子项更新至所述地址子项词库。

S20、按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码。

本实施例中，所述地址子项具体包括：省市（区|县）乡镇标准区划、道路（街巷）、道路号、小区、大楼、标志物、方位词以及地址距离。其中，所述各地址子项的比对规则如下表所示：

区划比对：

编码	分类	判定结果	判定结果编码
				101	区划完全相等	相等	D01
102	区划编码不同，区划词名称相等（这种情况多见于四级五级行政区划词）	相等	D01
				103	区划编码不同，区划词名称相似（单边缺失弱地名词）	相等	D01
201	区划词A单边缺失	A单边缺失	D02
				202	区划词B单边缺失	B单边缺失	D03
301	区划编码包含（A包含B）	区划编码A包含B	D04
				302	区划编码包含（B包含A）	区划编码B包含A	D05
303	忽略区划编码，区划词字符串包含（A包含B），暂定忽略关键字，但是要同一个区划级别	字符串A包含B	D06
				304	忽略区划编码，区划词字符串包含（B包含A），暂定忽略关键字，但是要同一个区划级别	字符串B包含A	D08
401	区划词拼音完全相等	相等	D01
				501	区划词双边缺失	双边缺失	D09
901	区划词编码不缺失，省市区不等	不等	D90
				902	区划词编码不缺失，省市区相等，四五级不等	不等	D90

街巷比对：

编码	分类	判定结果	判定结果编码
				101	街巷完全相等	相等	R01
102	忽略关键字后完全相等	不等	R02
				201	A、B有多个街巷词，至少一个完全相等	相似	R03
301	街巷信息A单边缺失	A单边缺失	R04
				302	街巷信息B单边缺失	B单边缺失	R05
401	街巷信息双边缺失	双边缺失	R06
				901	街巷信息不等	不等	R90

道路号比对：

编码	分类	判定结果	判定结果编码
				101	道路信息完全相等	相等	M01
102	忽略号等关键字后完全相等	相等	M01
				103	道路号提取数字后，数字完全相等	相等	M01
104	道路号提取数字后，数字左包含关系	相等	M01
				201	A、B有多个道路号词，至少一个完全相等	相似	M02
301	道路号信息A单边缺失	A单边缺失	M03
				302	道路号信息A单边缺失	B单边缺失	M04
401	街巷信息双边缺失	双边缺失	M05
				901	街巷信息完全不等	不等	M90

小区比对：

编码	分类	判定结果	判定结果编码
				109	小区个数不等，其中有某一项相似，如A地址有三个小区，B地址只有两个小区，A中的某一项与B中的某一项相似。	相等	G01
101	小区信息完全相等	相等	G01
				102	小区名字完全相等，附属信息相似	相等	G01
103	小区名字完全相等，附属信息不等	相似	G02
				104	小区名称相同，但关键字不匹配，如大楼小区等关键字没有匹配上，附属信息相等	相等	G01
105	小区名称相同，但关键字不匹配，如大楼小区等关键字没有匹配上，附属信息相似	相似	G02
				106	小区名称相同，但关键字不匹配，如大楼，小区等关键字没有匹配上，附属信息不等	相似	G02
107	小区名称完全相等，附属信息A缺失	相似	G02
				108	小区名称完全相等，附属信息B缺失	相似	G02
201	小区字符串信息包含（A包含B）	A包含B	G03
				202	小区字符串信息包含（B包含A）	B包含A	G04
301	A地址小区单边缺失	A单边缺失	G05
				302	B地址小区单边缺失	B单边缺失	G06
401	地址小区信息双边缺失	双边缺失	G07
				901	小区信息不同	不等	G90

大楼比对：

编码	分类	判定结果	判定结果编码
				109	大楼个数不等，其中有某一项相似，如A地址有三个大楼信息，B地址只有两个，A中的某一项与B中的某一项相似。	相等	B01
101	大楼信息完全相等	相等	B01
				102	大楼名字完全相等，附属信息相似	相等	B01
103	大楼名字完全相等，附属信息不等	相似	B02
				104	大楼名称相同，但关键字不匹配，如大楼大楼等关键字没有匹配上，附属信息相等	相等	B01
105	大楼名称相同，但关键字不匹配，如大楼小区等关键字没有匹配上，附属信息相似	相似	B02
				106	大楼名称相同，但关键字不匹配，如大楼，小区等关键字没有匹配上，附属信息不等	相似	B02
107	大楼名称完全相等，附属信息A缺失	相似	B02
				108	大楼名称完全相等，附属信息B缺失	相似	B02
201	大楼字符串信息包含（A包含B）	A包含B	B03
				202	大楼字符串信息包含（B包含A）	B包含A	B04
301	A地址的大楼信息单边缺失	A单边缺失	B05
				302	B地址的大楼信息单边缺失	B单边缺失	B06
401	地址的大楼信息双边缺失	双边缺失	B07
				901	地址的大楼信息不等	不等	B90

标志物比对：

编码	分类	判定结果	判定结果编码
				101	标志物完全相等	相等	W01
201	忽略关键字后完全相等	相等	W01
				301	标志物信息A单边缺失	A单边缺失	W02
302	标志物信息B单边缺失	B单边缺失	W03
				401	相似（熵值服务或字符串比对）	相等	W01
501	标志物信息双边缺失	双边缺失	W04
				901	标志物信息不等	不等	W90

方位词比对：

编码	分类	判定结果	判定结果编码
				101	方位词完全相等	相等	F01
201	方位词近义相等	相等	F01
				301	方位词信息A单边缺失	A单边缺失	F03
302	方位词信息B单边缺失	B单边缺失	F04
				401	方位词信息双边缺失	双边缺失	F05

子地址相似度比对：

编码	分类	判定结果	判定结果编码
				101	自地址相似度大于等于0.8	相等	S01
102	自地址相似度大于等于0.5，小于0.8	基本相等	S01
				103	自地址相似度小于0.5	不相等	S03

地址距离比对：

编码	分类	判定结果	判定结果编码
				101	两地地址距离小于等于1000米	相等	J01
102	两地距离大于1000米，小于等于2000米	基本相等	J01
				103	两地距离大于2000米	不相等	J03

本实施例中，以“广东省深圳市福田区中心4路1号嘉里建设广场1座”和“深圳市福田区中心4路嘉里建设广场”两个地址为例针对这两个地址分析子项比对如何判断地址子项的比对结果。首先两个待比较的地址信息如下：

A为“广东省深圳市福田区中心4路1号嘉里建设广场1座”

B为“深圳市福田区中心4路嘉里建设广场”

计算地址的距离：通过调用百度提供的地址计算的API获取到两个地址的距离，AB两个地址计算的结果为1000，根据规则，算出的结果为相等，结果编码为J03。

S30、根据各结果编码计算第一地址信息和第二地址信息的相似度。

S40、当所述相似度满足预设阈值时，判定第一地址信息与第二地址信息相同。

具体地，在上述对地址信息的每个地址子项对比后，最后再利用比对的总规则（可配置的规则表），对所有的地址子项的计算结果进行计算，得出两个地址的计算结果为相等，其中所述总规则具体如下表所示：

行政区划：

编码	规则描述	区划（D）	区划子项比对结果编码
				A0001	区划不等，比对结果不等	不相等	D90
A0002	区划包含，其他缺失，比对结果相等。	包含	D04;D05
				A0003	相等和双边缺失的组合，比对结果相等	相等，双边缺失，区划包含	D01;D09;D04;D05

编码	规则描述	街巷（R）	街巷编码	街巷门牌	街巷门牌编码
						A0001	区划不等，比对结果不等	不相等
A0002	区划包含，其他缺失，比对结果相等。	双边缺失	R06	双边缺失	M06
						A0003	相等和双边缺失的组合，比对结果相等	相等，双边缺失	R01;R06	相等，双边缺失	M01;M06

编码	规则描述	小区（R）	比对编码	小区号	比对编码
						A0001	区划不等，比对结果不等	不相等
A0002	区划包含，其他缺失，比对结果相等。	双边缺失	G06	双边缺失	G05
						A0003	相等和双边缺失的组合，比对结果相等	相等，双边缺失	G01;G06	相等，双边缺失	G01;G05

编码	规则描述	大楼（R）	比对编码	大楼号	比对编码
						A0001	区划不等，比对结果不等	不相等
A0002	区划包含，其他缺失，比对结果相等。	双边缺失	B06	双边缺失	B06
						A0003	相等和双边缺失的组合，比对结果相等	相等，双边缺失	B01;B06	相等，双边缺失	B01;B06

编码	规则描述	标志物（R）	比对编码	方位词	比对编码
						A0001	区划不等，比对结果不等	不相等
A0002	区划包含，其他缺失，比对结果相等。	双边缺失	W04	双边缺失	F05
						A0003	相等和双边缺失的组合，比对结果相等	相等，双边缺失	W01;W04	相等，双边缺失	F01;F05

编码	规则描述	比对结果
			A0001	区划不等，比对结果不等	不相等
A0002	区划包含，其他缺失，比对结果相等。	不相等
			A0003	相等和双边缺失的组合，比对结果相等	相等

本发明通过定义地址子项类型，构建词库；通过改进的隐马尔科夫模型对地址信息进行分词，并标出地址子项、以及区划编码；对未登录地名词进行识别；通过一套地址子项的比对规则和一套总的比对规则对地址的内容进行比较，得出地址的比对结果，总比对规则的可配置化可以方便的满足不同的客户对于定制不同比对规则的需求；识别出未登录的地址词，通过自动和人工标注的方式加入到词库中。通过本发明的比对方法，可实现对地址信息的切分和比对结果正确性达到99%以上。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的地址信息比对的处理方法中的步骤。

本发明还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种地址信息比对的处理方法，其特征在于，其包括：

2.根据权利要求1所述地址信息比对的处理方法，其特征在于，所述获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括：

预先定义不同地址子项的名称，搜集并补充地址子项词库。

3.根据权利要求2所述地址信息比对的处理方法，其特征在于，所述预先定义不同地址子项的名称，搜集并补充地址子项词库具体包括：

根据地址信息中出现的地址子项类型定义地址子项词库；

搜集地名词用于补充所述地址子项词库。

4.根据权利要求1所述地址信息比对的处理方法，其特征在于，所述获取待对比的第一地址信息和第二地址信息，分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词，以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项具体包括：

获取待对比的第一地址信息和第二地址信息；

5.根据权利要求1所述地址信息比对的处理方法，其特征在于，所述第一地址子项和第二地址子项具体包括：

6.根据权利要求1所述地址信息比对的处理方法，其特征在于，所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码之前还包括：

7.根据权利要求5所述地址信息比对的处理方法，其特征在于，所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较，并获取各比较结果对应的结果编码具体为：

8.根据权利要求2所述地址信息比对的处理方法，其特征在于，其还包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～8任意一项所述的地址信息比对的处理方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如权利要求1～8任意一项所述的地址信息比对的处理方法中的步骤。