CN112380858A

CN112380858A - 基于政务大数据的地址补全和纠正方法

Info

Publication number: CN112380858A
Application number: CN202011258738.XA
Authority: CN
Inventors: 骆文辉; 陈剑
Original assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Current assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-19

Abstract

本发明公开了一种基于政务大数据的地址补全和纠正方法，包括：构建基于Tire树的标准地址；地址分词；构建语料库；若待测试地址中包含四级行政区域，根据Tire树，查找街道或者镇是否符合规范，若符合规范，则不需要匹配，直接跳到步骤六；若不符合，则获取切分地址之后的最小地址，利用改进的词向量相似度算法匹配语料库，匹配到最大的相似度所对应街道(镇)，跳到步骤六；若待测试地址中不包含街道或者镇，则获取切分地址之后的最小地址，利用词向量相似度算法匹配语料库，匹配到最大的相似度所对应街道(镇)，跳到步骤六；步骤六、利用Tire树补全地址。该方法功能全面，补全和纠正准确高效。

Description

基于政务大数据的地址补全和纠正方法

技术领域

本发明涉及一种基于政务大数据的地址补全和纠正方法。

背景技术

大数据时代，每天都会产生大量信息，包含大量数据地址的产生。由于语言方式，命名习惯的不同，会出现对同一地址存在多种表达方式，往往也存在地址错误表述，因此有必要进行地址的规范化。作为智慧城市建设中最重要的环节，它的匹配率和准确率直接影响智慧城市建设的水平，所以提高匹配率和准确率是一个重要的问题。

现有的地址补全和纠正方法大多是采用单个地址匹配算法或多策略结合的地址匹配算法，存在匹配率和准确率低等问题。

具体的，当前非标准地址或者错误地址有以下几种情况：

1、行政区划地址要素不完整，例如缺少区、县、或者街道、镇；

2、行政区划地址要素错误，可能的原因为，一是由于行政区划的调整，区、县、街道、镇发生了变动，但是仍然采用过去的表述；二是地址登记失误导致输入地址拼写错误。

发明内容

本发明的目的是提供一种基于政务大数据的地址补全和纠正方法，该方法能够对地址中的行政区划不完整进行补全，也能够对最小地址元素进行查找匹配，补全行政区划地址，还能够对地址中的行政区划错误地址进行纠正，功能全面，准确高效。

为了实现上述目的，本发明提供了一种基于政务大数据的地址补全和纠正方法，包括：

步骤一、构建基于Tire树的标准地址；

步骤二、地址分词；

步骤三、构建语料库；

步骤四、若待测试地址中包含省，市，区(县)，街道(镇)四级行政区域，根据Tire树，查找街道或者镇是否符合规范，若符合规范，则不需要匹配，直接跳到步骤六；若不符合，则获取切分地址之后的最小地址，利用改进的词向量相似度算法匹配语料库，匹配到最大的相似度所对应街道(镇)，跳到步骤六；

步骤五、若待测试地址中不包含街道或者镇，则获取切分地址之后的最小地址，利用词向量相似度算法匹配语料库，匹配到最大的相似度所对应街道(镇)，跳到步骤六；

步骤六、利用Tire树，根据街道(镇)补全省，市，区(县)地址。

优选地，步骤一中的地址树支持四级行政区域划分，即省，市，区(县)，街道(镇)，可由子节点查找到所有父节点。

优选地，步骤二包括根据行政区划名称将源地址划分为多个子地址，并去除数字和特殊字符。

优选地，步骤三包括根据公安标准地址建立语料库，语料库按照街道和镇进行切分。

优选地，步骤四和步骤五中，在匹配前采用余弦函数改进的TF-IDF算法进行文本权重的设置，包括：

将地址切分成N个词，第一个词的权重为cos(π/2(N+1))，第二个词的权重为cos(2*π/2(N+1))，第N个词的权重为cos(N*π/2(N+1))，然后进行归一化处理。

优选地，步骤二中地址分词采用Jieba分词，并且加载自定义分词语料库，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词。

根据上述技术方案，本发明创建了一个基于Tire树结构的行政区域，提供了地址信息向后级反查功能，并给出一种基于Tire树和改进的TF-IDF算法地名地址匹配方法，该方法依据政务大数据多年积累的政务业务部门数据，可以准确的进行地址补全和纠正。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明中基于改进的TF-IDF地址匹配模型图；

图2是本发明中基于Tire树的地址匹配模型。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明中，在未作相反说明的情况下，包含在术语中的方位词仅代表该术语在常规使用状态下的方位，或为本领域技术人员理解的俗称，而不应视为对该术语的限制。

参见图1和图2，本发明提供一种基于政务大数据的地址补全和纠正方法，包括：

步骤一、构建基于Tire树的标准地址；

步骤二、地址分词；

步骤三、构建语料库；

其中，

步骤一中的地址树支持四级行政区域划分，即省，市，区(县)，街道(镇)，可由子节点查找到所有父节点。例如：输入“第一区”，即能够匹配到“第一省第一市第一区”；输入“第一街道”，即能够匹配到“第一省第一市第一区第一街道”。

步骤二包括根据行政区划名称将源地址划分为多个子地址，并去除数字和特殊字符。例如：“第一省第一市第一区第一街道第一小区”的分词结果为“第一省+第一市+第一区+第一街道+第一小区”。

步骤三包括根据公安标准地址建立语料库，语料库按照街道和镇进行切分。例如：“第一省第一市第一区第一街道第一小区”和“第一省第一市第一区第一街道第二小区”，语料库的构建以“第一街道”为名，包含子地址“第一小区”和“第二小区”。

在政务领域，地址匹配往往通过个人认知和经验手动进行匹配，这种方法准确的完全依赖于个人水平，存在不可控性和准确度低的情况。在大数据时代，对于海量地址信息的匹配，仍通过人为手动匹配这种方式显然是不可取的。

TF-IDF算法虽考虑了词频和逆文档频率，但是却不能反应词的位置信息，在对关键词进行提取的时候，词的不同位置的信息量是不同的，应该赋予不同权重。例如在地址补全中，待匹配中文地址经过分词之后，按照中文描述地址的习惯，习惯将有意义的词，或者具体地址的词放在前面进行表述，因此应该对每个词赋予不同的权重。

在址补全纠正和补全方法中，待匹配的地址一般形如：“第一村第一村民组”，“第一小区6号1楼”，“第一小区4区11栋1号”，“第一商城E5-6”，“第一路第一小区1幢11号门面”。由此可见，往往优先的词是地址中前段部分，而且越靠前的信息量越大。因此，本发明采用余弦函数改进的TF-IDF算法，进行文本权重的设置。假设地址切分成N个词，每个词的权重按照如下方法设置：第一个词的权重为cos(π/2(N+1))，第二个词的权重为cos(2*π/2(N+1))，第N个词的权重为cos(N*π/2(N+1))，然后进行归一化处理，权证设置可以保证前段部分所占比重大，后段部分比重小，符合上文中所述地址的表述习惯。

通过基于改进的TF-IDF算法，比较待查询地址与建立的语料库，找到符合最佳的相似度，对应的街道(镇)，再根据事先建立好的管辖机关字典，查找此街道对应的管辖机关。

此外，步骤二中地址分词采用Jieba分词，并且加载自定义分词语料库，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词。

通过上述技术方案，本发明基于政务大数据，利用Tire树和改进的TF-IDF匹配算法，进行地址的匹配和补全。提出一种基于相似度的地址补全模型，基于政务大数据的地址语料库，并按照街道(镇)切分。假设当前语料库共有k个，每个语料库中包含的地址为A_i个(i的取值范围从1到k)，即第一个预料库中的地址有A₁个，第二个预料库中的地址有A₂个，第k个预料库地址有A_k。假设待匹配地址的总数为N个，对于待匹配地址切分之后的最小地址Addr_n(n取值从1到N)，利用改进的TF-IDF算法循环遍历k个语料库中的所有地址，匹配的地址和对应的相似度共计：

并得到词相似度值，设定阈值T，比较相似度大小，该地址最佳的匹配地址和所对应的街道。若阈值小于T，进入人工匹配阶段。

综上所述，本发明基于Tire树地址匹配算法，对地址中的行政区划不完整进行补全；基于改进的TF-IDF算法，对最小地址元素进行查找匹配，补全行政区划地址；基于Tire树和改进的TF-IDF算法，对地址中的行政区划错误地址进行纠正。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于政务大数据的地址补全和纠正方法，其特征在于，包括：

步骤一、构建基于Tire树的标准地址；

步骤二、地址分词；

步骤三、构建语料库；

2.根据权利要求1所述的基于政务大数据的地址补全和纠正方法，其特征在于，步骤一中的地址树支持四级行政区域划分，即省，市，区(县)，街道(镇)，可由子节点查找到所有父节点。

3.根据权利要求1所述的基于政务大数据的地址补全和纠正方法，其特征在于，步骤二包括根据行政区划名称将源地址划分为多个子地址，并去除数字和特殊字符。

4.根据权利要求1所述的基于政务大数据的地址补全和纠正方法，其特征在于，步骤三包括根据公安标准地址建立语料库，语料库按照街道和镇进行切分。

5.根据权利要求1所述的基于政务大数据的地址补全和纠正方法，其特征在于，步骤四和步骤五中，在匹配前采用余弦函数改进的TF-IDF算法进行文本权重的设置，包括：

6.根据权利要求1所述的基于政务大数据的地址补全和纠正方法，其特征在于，步骤二中地址分词采用Jieba分词，并且加载自定义分词语料库，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词。