CN102402533A

CN102402533A - 地址匹配方法及系统

Info

Publication number: CN102402533A
Application number: CN2010102809987A
Authority: CN
Inventors: 王生; 周大良; 郑佳栋; 李强
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2010-09-13
Filing date: 2010-09-13
Publication date: 2012-04-04

Abstract

本发明提供了一种地址匹配方法及系统，其中，该方法包括：根据预设的各级标签表述地址信息；对地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到地址信息的匹配值。本发明扩大了可表述的地址信息范围，提高匹配分析的正确率。

Description

地址匹配方法及系统

技术领域

本发明涉及地址信息的分析及匹配领域，具体涉及一种地址匹配方法及系统。

背景技术

现有地址匹配的方法和系统中，如申请号为200710119220的专利申请，没有关于地址数据本身的模型分析，导致难以确定地址数据的不同模型间的转化关系；没有基于同模型间地址数据的相似性，比较方法，以及比较结果的应用分析；没有关注大规模的地址，无限增长的地址数据的工业利用方法，无法解决当前计算机和网络等硬件限制下的地址匹配问题；没有对计算机软件在运行时，通过不断执行分析中获得的经验，进行保存。计算机软件的地址模型的建立与分析，仅能利用人工方式获取和建立，无法利用计算机自动建立，完善。软件在使用中，无法自行完善，没有自行进化的能力；缺少对于信息捕获，模式捕获的相关技术深入研究，造成软件近似于专家系统，而不能自行演化，今后有待加入神经网络模型，信息自动捕获等神经系统，以获得软件运行时自我完善能力。

发明内容

本发明的第一目的是提出一种效率高的地址匹配方法。

本发明的第二目的是提出一种效率高的地址匹配系统。

为实现上述第一目的，本发明提供了一种地址匹配方法包括：根据预设的各级标签表述地址信息；对地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到地址信息的匹配值。

为实现上述第二目的，本发明提供了一种地址匹配系统，包括：至少一个地址库，用于根据预设的各级标签表述地址信息；至少一个地址匹配服务器，用于对地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到地址信息的匹配值。

本发明各个实施例中，通过各级标签表述地址信息扩大了可表述的地址信息范围；对地址信息进行拆分，并根据各拆分段确定匹配值，提高匹配分析的正确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一并用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的地址匹配方法的实施例一流程图；

图2为本发明的地址匹配方法的实施例二流程图；

图3为本发明的地址匹配方法的实施例三流程图；

图4为本发明的地址匹配系统的实施例二结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

方法实施例

图1为本发明的地址匹配方法的实施例一流程图。如图1所示，本实施例包括：

步骤102：根据预设的各级标签表述地址信息；具体参见图2的解释说明；

步骤104：对地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到地址信息的匹配值；具体参见图2及图3的解释说明。

本实施例通过各级标签表述地址信息扩大了可表述的地址信息范围；对地址信息进行拆分，并根据各拆分段确定匹配值，提高匹配分析的正确率。

图2及图3为本发明的地址匹配方法的实施例二及实时例三流程图，以下结合图2及图3进行解释说明。如图2所示，本实施例包括：

步骤201：建立地址模型，该地址模型可以理解为一种用来描述地址的方法；具体如下：

地址模型文件名可为[AddrModel]，地址模型文件内可以支持标签[名称]{1}，该标签可以书写地址模型的名称，还可以支持标签[地址段]{l，n}，该地址段内写地址段的文件夹名称；其中，地址段文件夹名称和地址模型中声明的一样，地址段文件夹内有地址段定义文档，如[AddrPart]，地址段定义文档内可以支持标签[名称]{1}及标签[类型]{1}，二者分别写地址段的名称及地址段的类型，该地址段的类型具体可以包括[字典]和[门牌]两种类型；此外，地址段文件夹内可以有匹配规则配置文件[*.am]{1，n}，每个匹配规则对应一个am文件；

匹配规则文件的名称可为[rulename.am]，匹配规则文件内可以支持标签[类型]{1}，该匹配规则的类型可以包括[后缀]和[名称]两种；还可以支持标签[内容]{1，n}用于写规则的基本内容；其中，[名称]类型的规则可以有多个内容，每个内容可以有多个短句，短句间使用“；”分割开；还可以支持标签[长度约束]{0，1}用以对[后缀]类型的规则的长度限制，即对后缀前的字符串的长度限制，具体操作时，可以设置“不填写则表征没有长度限制”；还可以支持标签[动作约束]{0，1}用以规则当所有约束都跳过时的默认动作，具体操作时，可以设置“如果不填写，则默认为应用”；还可以支持标签[应用约束]{0，n}用以表征判断规则是否成立的判断条件，其语法可以设置如下：对于动作，“应用”设置为(Apply)A，“不应用”设置为(Skip)S；对于位置，“前面”设置为(Before)B，“上一个”设置为(Previous)P；“当前”设置为(Current)C，“后面”设置为(Next)N；对于条件，“存在”设置为(Exist)E；“不存在”设置为(NotExist)N；对于内容：设置为字节String；

门牌类型地址段，可以定义一个door.am规则文件，具体为：定义标签[数字前项]表示数字的字符，用于表示数字的前缀；定义标签[数字后项]表示数字的字符，用于表示数字的后缀；定义标签[数字]表示数字的字符，对于上述标签[数字前项]、[数字后项]及[数字]，具体操作时，可以设置字符和字符相邻，并用″[″和″]″包裹起来，其是一个正则式；标签[后缀]定义各种门牌后缀，使用[后缀|后缀...]形式，其是一个正则式；标签[连接符]定义各种门牌和门牌的连接符号，使用[连接符|连接符...]形式，其是一个正则式；标签[并列符]定义各种门牌和门牌的并列符号，使用[并列符|并列符...]形式，其是一个正则式；标签[模式]可以使用${名称}引用之前定义的数字，后缀，连接符，并列符四个选项，使用正则式定义模式，模式之间也可以顺序引用，后面的可以引用前面的；上述地址模型的中的各级地址要素(也就是说，具体的地址信息根据下述的一个或者多个地理要素组成)详见表1-表33；

表1

表2

表3

表4

表5

表6

表7

表8

表9

要素名称	街路巷类型
		定义	定义街路巷的类型通名
定义来源	新定义
		已有标准	无
域值	大街，街，路，巷，胡同，道，排，弄等
		示例	“西直门大街”中的“大街”，“正义路”中的“路”

表10

表11

表12

要素名称	门牌号码前缀
		定义	在门牌号码数值的前缀和修饰信息
示例	“龙翔路甲10号”中的“甲”

表13

要素名称	门牌号码
		定义	权威部门确定的描述门牌的数值标识符
源值	与本地地址取值范围一致
		示例	“中关村大街19号”中的“19”

表14

要素名称	门牌号码后缀
		定义	定义门牌号码的后缀和修饰情况
源值	“中关村大街19临号”中的“临”

表15

要素名称	门牌号码类型
		定义	定义门牌号码的类型通名
域值	号、号院
		示例	“中关村大街19号”中的“号”

表16

要素名称	门牌号码分隔符
		定义	用于将几个门牌号码数值隔开的标识符
域值	“-”、“～”、“&”、“和”、“与”
		示例	“中关村大街19-1号”中的“-”

表17

表18

要素名称	范围门牌号码
		定义	{完整门牌号码(低)}+{分隔符}+{完整门牌号码(高)}
示例	中关村大街19号-25号

表19

要素名称	多级组合门牌号码
		定义	{完整门牌号码}+{...}+{完整门牌号码}
示例	中关村大街19号内1号

表20

表21

要素名称	住宅小区类型
		定义	定义住宅小区的类型通名
定义来源	新定义
		已有标准	无
域值	园、里、区、院、家园、苑等
		示例	“百旺家园”中的“家园”，“上地东里”中的“里”

表22

表23

表24

要素名称	建筑物类型
		定义	定义建筑物描述的类型通名
域值	栋、楼、号楼、楼斋、堂、公寓、宅、房、座、大厦等
		示例	上地南路14号院7号楼

表25

要素名称	楼牌号码
		定义	描述楼牌的数值标识符
源值	与本地地址取值范围一致
		示例	上地南路14号院7号楼

表26

要素名称	建筑物要素
		定义	{楼牌号码}+{建筑物类型}
示例	上地南路14号院7号楼

表27

要素名称	单元类型
		定义	定义单元描述的类型通名
域值	门、单元、座等
		示例	上地南路14号院7号楼8门101室

表28

要素名称	单元号码
		定义	权威部门确定的描述单元的数值标识符
源值	与本地定义数值一致
		示例	上地南路14号院7号楼8门101室

表29

要素名称	单元要素
		定义	{单元号码}+{单元类型}
示例	上地南路14号院7号楼8门101室

表30

要素名称	房间类型
		定义	定义描述房间的类型通名
域值	室、房、间等
		示例	上地南路14号院7号楼8门101室

表31

要素名称	房间号码
		定义	描述房间的数值标识符
示例	上地南路14号院7号楼8门101室

表32

要素名称	房间要素
		定义	{房间号码}+{房间类型}
示例	上地南路14号院7号楼8门101室

表33

要素名称	完整使用标识符
		其它名称	{建筑物元素}+{单元元素}+{房间}

步骤202：根据建立的地址模型及预设的地址名称近似度算法(即拆分操作及根据拆分段进行分析)，进行地址匹配分析；对应参见图3，具体包括：

步骤301，根据预设的地址规则应用(如可以根据上述步骤201中的各地址要素进行拆分)，对地址信息进行拆分；

步骤302，对每个拆分段，按照最简约的名字短语再进行拆分得到细分结果；具体操作时，细分结果对应的名字短语可以包括区域限定、形容限定、主要名词结构、以及名词分类限定等各项，将每一项进行对应比较得到比较结果(如进行区域比较、形容比较、名词比较级分类名字比较等)，并对每项的比较结果进行加权合成(如加权求和)得到每个拆分段的匹配度，上述加权操作的权值可以按照每一项对于理解产生的贡献度，以及各项之间的关系度来确定；

步骤303，根据各段的比较结果，获得整体地址的相似度比较结果；如可以将各段的比较结果的均值作为整体的匹配度，该匹配度大于预设阈值时，则判定为地址相似，即地址匹配；

需要说明的是，在提供大量地址样本进行训练学习时，可以利用神经网络等自适应的机器学习方法，确定各权值和上述预设阈值，得到自学习的比较器进行地址匹配分析，从而产生规则可知的地址模型；为解决地址中的别字错误，判断比较时可以使用郑码和/或拼音像似度进行字比较，还可以记录日常错误到配置中，保证错误被有效消除；此外，可以使用地址段前后项相干性判断以解决对于地址中的少写及漏写等误操作；

步骤203：根据待匹配分析的地址信息及负载均衡的当前信息，确定用于匹配分析的地址匹配服务器进行上述步骤201及202的操作，具体可以包括：

首先，地址匹配分布计算器根据地址匹配负载均衡器提供的当前负载信息，确定用于匹配分析的一个或多个地址匹配服务器(称为初始地址匹配服务器)；

其次，地址匹配分布计算器根据待匹配分析的地址信息的属性信息，如分布特点及命名特点，在上述初始地址匹配服务器确定用于匹配分析的一个或多个地址匹配服务器；

这样，在对外提供服务时，使用用于分布计算分配和负载均衡的分布集成服务，将后端拥有不同数据但是功能相同的各个服务结点并联和串联组合起来，达到了既可以满足负载均衡要求，又能满足分布计算和处理要求的分布负载体系，实现了用于大规模地址匹配服务搭建的可随意扩展的分布式集群处理模型。

本实施例提供了地址模型的抽象语法模型，使地址的分析能力从行政区划的城市地址扩展到一般性的名称，扩大了可表述的地址信息范围；提供了适用于全国城市地址的可继续扩充的完善的地址模型，可将城市地址的分析，准确到可识别的语素；分析了中国地址模型特点，建立了适于国内地址比较的近似度计算算法，从而将习惯性的省略，错误等实际地址特征在比较中，影响压缩到尽量小；考虑到中国地址信息库的巨量，分布，信息混存度高，命名方式不同的各种各样的问题，建立了可以用于分布地址库，分布计算，独立更新，负载均衡，快速定位的分布负载服务模型。

装置实施例

图4为本发明的地址匹配系统的实施例结构图。图1-图3所示的各方法实施例均可适用于本实施例。本实施例包括：至少一个地址库，用于根据预设的各级标签表述地址信息；至少一个地址匹配服务器，用于对地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到地址信息的匹配值。

具体操作时，该地址匹配系统还可以包括：至少一个地址匹配负载均衡器，用于与一个或多个地址匹配服务器连接，提供连接的地址匹配服务器的当前负载信息；地址匹配分布计算器，用于根据地址匹配负载均衡器提供的当前负载信息及地址信息，确定用于匹配分析的一个或多个地址匹配服务器。

每一地址匹配服务器可以包括：拆分模块(图未示)，用于根据预设的地址规则应用，对地址信息进行拆分得到各拆分段；处理模块(图未示)，用于对每个拆分段，按照最简约的名字短语再进行拆分得到细分结果；并根据每一细分结果得到对应的比较结果，对每一比较结果加权求和得到对应拆分端的匹配值，以及将各拆分端的匹配值的平均值作为地址信息的匹配值。

需要说明的是，具体操作时，该至少一个地址匹配负载均衡器及地址匹配分布计算器可以封装为地址匹配服务接口，用于提供服务接口和定义，在对外提供服务时，使用用于分布计算分配和负载均衡的分布集成服务，将后端拥有不同数据但是功能相同的各个服务结点并联和串联组合起来，达到了既可以满足负载均衡要求，又能满足分布计算和处理要求的分布负载体系，且此体系还可以在更高层次上集成。

本实施例使计算机利用已有的地址名称的相关知识，推知未知地址名称的信息的能力；分析地址名称的分类，惯例，模型，建立了地址名称抽象模型；针对中国城市地址信息模型进行了详细的分析，提高获得地址正确性；针对中国地址命名的特点，提供了符合中国自然语言特征的相似性比较方式，建立了可以支持巨型地址信息库的地址拆分、自动匹配、单点和多点比对等的方法。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种地址匹配方法，其特征在于，包括：

根据预设的各级标签表述地址信息；

对所述地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到所述地址信息的匹配值。

2.根据权利要求1所述的地址匹配方法，其特征在于，所述根据预设的各级标签表述地址信息的步骤包括：

根据地址模型文件内的地址模型名称标签及地址段的文件夹名标签、地址段定义文档内地址段的名称标签及地址段的类型标签、匹配规则文件内的匹配规则类型标签、匹配规则内容标签及匹配规则长度约束标签，表述地址信息。

3.根据权利要求1或2所述的地址匹配方法，其特征在于，所述对所述地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值的步骤包括：

根据预设的地址规则应用，对所述地址信息进行拆分得到各拆分段；

对每个拆分段，按照最简约的名字短语再进行拆分得到细分结果；并根据每一细分结果得到对应的比较结果，以及对每一比较结果加权求和得到对应拆分端的匹配值。

4.根据权利要求3所述的地址匹配方法，其特征在于，所述根据各拆分端的匹配值得到所述地址信息的匹配值的步骤包括：

将各拆分端的匹配值的平均值作为所述地址信息的匹配值。

5.一种地址匹配系统，其特征在于，包括：

至少一个地址库，用于根据预设的各级标签表述地址信息；

至少一个地址匹配服务器，用于对所述地址信息进行拆分得到各拆分段，根据各拆分段及预设的匹配方法得到各拆分端的匹配值，以及根据各拆分端的匹配值得到所述地址信息的匹配值。

6.根据权利要求5中所述的地址匹配系统，其特征在于，每一地址匹配服务器包括：

拆分模块，用于根据预设的地址规则应用，对所述地址信息进行拆分得到各拆分段；

处理模块，用于对每个拆分段，按照最简约的名字短语再进行拆分得到细分结果；并根据每一细分结果得到对应的比较结果，对每一比较结果加权求和得到对应拆分端的匹配值，以及将各拆分端的匹配值的平均值作为所述地址信息的匹配值。

7.根据权利要求5或6所述的地址匹配系统，其特征在于，还包括：

至少一个地址匹配负载均衡器，用于与一个或多个所述地址匹配服务器连接，提供连接的所述地址匹配服务器的当前负载信息。

8.根据权利要求7所述的地址匹配系统，其特征在于，还包括：

地址匹配分布计算器，用于根据所述地址匹配负载均衡器提供的当前负载信息及所述地址信息，确定用于匹配分析的一个或多个所述地址匹配服务器。