CN111523321A

CN111523321A - 基于规则和统计分词的地址差异性判断方法

Info

Publication number: CN111523321A
Application number: CN202010331451.9A
Authority: CN
Inventors: 宗阳; 高亢
Original assignee: Tianjin Yiweike Information Technology Co ltd
Current assignee: Tianjin Yiweike Information Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11

Abstract

本发明公开了一种基于规则和统计分词的地址差异性判断方法，包括：获取全国三级行政区域地址数据；获取用户输入的用户地址数据，并将该用户地址数据分成省市区三级的行政区域地址和详细地址；以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理；将详细地址进行分词处理；将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并；通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。该方法可以节省大量的人工标注任务和计算机存储空间。

Description

基于规则和统计分词的地址差异性判断方法

技术领域

本发明涉及地理信息处理技术领域，特别是涉及一种基于规则和统计分词的地址差异性判断方法。

背景技术

申请号为CN201910246155.6，名称为地址标准化处理方法和设备的中国发明专利申请。该方案包括涉及一种地址标准化处理方法和设备，该方法包括:获取初始地址；对初始地址进行预处理得到预处理后的地址；在预处理后的地址中提取至少一个已记录在规范化地址信息库中的地址名称，规范化地址信息库为预先建立的，其中记录国家的各级地址的标准名称和级别信息和各级地址的别名名称，各级地址包括省级地址、市级地址和区县级地址，级别信息用于表明各级地址的上下级关系；根据所提取的地址名称对应的级别信息在所提取的地址名称中确定最低级别的地址名称，并根据所述规范化地址信息库确定其对应的至少一级地址的标准名称；将该标准名称作为标准化处理后的地址。本申请可以根据初始地址得到国家省级地址、市级地址以及区县级地址的标准名称。

申请号为CN 201510493012.7，名称为一种中文地址分词方法及系统的中国发明专利申请。该方案公开一种中文地址分词方法及系统。方法包括：获取地址词典表，将地址词典表中所包括的地址元素采用词典标签进行标识得到标签地址元素词典；获取包括至少一个字的待分词地址，将所述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素，执行预设的规则将待匹配字符采用地址分词标签分别进行标识；对待分词地址中的待匹配字符，执行预设的规则根据所标识的地址分词标签所包括的词典标签进行分词。本发明对地址的每个字均采用标签进行标识，从而使得分词时能够根据该标签进行分割，将地址元素信息降维，使得分词更为简单快捷。

但是，上述方案一通过获取用户数据和标准地址来生成省-市-区的标准化解决方案。比如，河南省周口市扶沟县金海花苑3号501和河南省扶沟县金海花苑3号501，这两个地址代表同一个地方，但后者缺少周口市。有的地址是省市区全称，有的是简称。比如，全称地址是河南省周口市扶沟县，简称地址是河南周口扶沟县。就上述问题该方法可以解决到河南省周口市扶沟县这一层级地域，但是对详细地址(金海花苑3号501)缺乏处理。另外，此方法对存储空间要求巨大，需要存储国家地址树结构才能进行后续的查找匹配。不能很好的解决缺省信息严重的地址标准化问题，也不能处理详细地址信息。

方案二通过设计分词标注规则，标注大量的地址信息语料进行分词。算法的准确率依赖于标注的准确性，而标注是一项耗费人力的大工程。分词是人工智能领域自然语言处理中不可或缺的步骤，但是大规模的地址标注数据不公开使得这一技术难点主要体现在标注数据的获取上面。

发明内容

本发明的目的在于提供一种基于规则和统计分词的地址差异性判断方法，可以节省大量的人工标注任务和计算机存储空间。

为实现上述目的，本发明提供了一种基于规则和统计分词的地址差异性判断方法，包括：获取全国三级行政区域地址数据；获取用户输入的用户地址数据，并将该用户地址数据分成省市区三级的行政区域地址和详细地址；以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理；将详细地址进行分词处理；将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并；通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。

可选的或优选的，通过地址层次词语构建地址层次列表，根据递归算法和基于统计方法来进行分词。

可选的或优选的，将地址分词以后的词典作为列表，通过MinHash来计算地址文本相似度。

可选的或优选的，通过设定七级地址等级关键词进行分词。

可选的或优选的，所述七级地址等级关键词如下：

第一级＝['省','市','区','县','村','镇']；

第二级＝['路','大道','街','巷','胡同','道','里']；

第三级＝['号','弄','期']；

第四级＝['园','城','府','苑','墅','馆','寓','城','院','堂','庄']；

第五级＝['号','栋','幢']；

第六级＝['层','楼','元','座']；

第七级＝['室','号']。

可选的或优选的，计算地址文本相似度大于某阈值时判断两个地址为同一个地址。

可选的或优选的，利用正反向最大匹配规则进行详细地址分词处理。

本发明提供的技术方案带来的有益效果是：通过获取国家三级行政区域地址标准，对缺省或者不标准的三级地址信息进行补全或者更正，这比直接进行分词处理更加标准。对于详细地址的处理，通过分词来进行实现。分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。将地址分词以后的词典作为列表通过MinHash来计算相似度，另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合，大大的提高了准确度。

附图说明

图1是本发明实施例提供的基于规则和分词的地址差异性判断的流程图。

图2是本发明实施例提供的基于规则和分词的地址差异性判断的具体实例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例实际上仅仅是说明性的或者示例性的，决不作为对本发明及其应用或使用的任何限制。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的全部细节均已了解的情况下实施。下面对实施例的描述仅仅是为了通过展示本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供一种基于规则和统计分词的地址差异性判断方法，基于规则来进行缺省地址补全为标准化地址，并对详细地址(到门牌号)进行规则加统计方法的分词实现。最终通过minHash算法计算两个相似地址的相似度，设置两个地址相等程度的阈值。并通过规则最终确定两个地址(标准地址与冗余地址；标准地址与缺省地址；两个相似的地址)是否是同一个地址。

通过本技术方案，对于缺省的行政地址区域，本方案可以补全缺省的省市区地址信息。同时在风控系统用户画像判断两个地址是否是同一个地址时，本方案不需要进行大规模的地址语料库标注数据和分词训练，通过地址层次词语构建地址层次列表，根据递归的算法设计解决来进行分词。节省大量的人工标注任务和计算机存储空间。

结合图2，具体地：

第一步：获取全国三级行政区域地址数据，例如：江苏南京西城标准的国家区域划分为：江苏省南京市西城区。

第二步：获取用户输入的用户地址数据，如下：

1.江苏省南京市西城区牛街东里一区x号楼y层110。

2.南京市西城区牛街东里一区xy110。

并将该地址分成行政区域地址(省市区)和详细地址，行政区域地址例如：江苏省南京市西城区，详细地址例如：牛街东里一区x号楼y层110。

第三步：根据国家发布的行政区域划分对行政区域地址进行处理，包括补全缺省信息或更正，将行政区域地址标准化，例如地址2处理由南京市西城区得到江苏省南京市西城区。这比直接进行分词处理更加标准。

第四步：详细地址进行分词处理，例如：西城区牛街东里一区x号楼y层110分词得到：

[西城区,牛街东里,一区,x号楼,y层,110室]

该分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。

第五步：合并数据，比如：

地址1.[江苏省，南京市，西城区,牛街东里,一区,x号楼,y层,110室]；

地址2.[南京市，西城区,牛街东里,一区,x,y,110]。

第六步：判断地址数字特征值是否相等。

第七步：通过分词结果，基于minhash算法进行相似度计算。

通过上述第六步和第七步，将地址分词以后的词典作为列表通过MinHash来计算相似度，另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合，大大的提高了准确度。

第八步：返回结果

综上，通过获取国家三级行政区域地址标准，对缺省或者不标准的三级地址信息进行补全或者更正，这比直接进行分词处理更加标准。对于详细地址的处理，通过分词来进行实现。分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。将地址分词以后的词典作为列表通过MinHash来计算相似度，另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合，大大的提高了准确度。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利发明说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

以上所述仅为本发明的示例实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于规则和统计分词的地址差异性判断方法，其特征在于，包括：

获取全国三级行政区域地址数据；

获取用户输入的用户地址数据，并将该用户地址数据分成省市区三级的行政区域地址和详细地址；

以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理；

将详细地址进行分词处理；

将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并；

通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。

2.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法，其特征在于，通过地址层次词语构建地址层次列表，根据递归算法和基于统计方法来进行分词。

3.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法，其特征在于，将地址分词以后的词典作为列表，通过MinHash来计算地址文本相似度。

4.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法，其特征在于，通过设定七级地址等级关键词进行分词。

5.根据权利要求4所述的基于规则和统计分词的地址差异性判断方法，其特征在于，所述七级地址等级关键词如下：