CN112434160B

CN112434160B - 一种地址信息数据的处理方法

Info

Publication number: CN112434160B
Application number: CN202011319163.8A
Authority: CN
Inventors: 陈恒; 陈海珍; 陈小松; 包颖; 吴亚文; 邵月中; 王智慧
Original assignee: Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology
Current assignee: Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2024-05-07
Anticipated expiration: 2040-11-23
Also published as: CN112434160A

Abstract

本发明涉及一种地址信息数据的处理方法，将自动或半自动融合后的标准地址数据库作为初始地址数据库，对初始地址数据库的所有地址文本信息做简化去冗余处理，得到简化地址信息数据库，对简化地址信息数据库内所有地址文本信息聚类处理，得到多个地址组团，根据地址组团内各空间化地址位置点所对应的最短空间直线距离与预设空间直线距离阈值比较判断出存疑地址点，求得与存疑地址点最临近的K个空间化地址位置点，进行二次判断，降低存疑地址点的误判率。此外，获取各地址组团外接矩形，根据组团外地址点判断出存疑地址点，实现在海量地址信息数据中筛选出部分存疑数据，提高针对存疑地址点的查找标记效率，进一步提高处理后地址信息数据的准确性。

Description

一种地址信息数据的处理方法

技术领域

本发明涉及地理信息处理领域，尤其涉及一种地址信息数据的处理方法。

背景技术

地址信息在邮政通信、城市规划建设和对外交流方面具有重要的作用。

但在地址信息数据的实际应用场景中，诸如民政、住建和公安等不同部门数据标准不一，且各部门之间未形成地址数据联动更新机制，导致地址信息数据来源多样化、地址信息数据编码标准不统一以及地址信息数据重复等现象普遍存在，这给人们的工作生活以及经济社会的正常有序发展带来不便。面对地址信息数据编码标准不统一以及地址信息数据重复等现象，各地现已开展地址信息数据融合和数据清洗工作，目前多采用自动融合或者半自动融合的方式进行，得到标准化的地址信息数据，并进行地址解析，将地址空间化，匹配到相对应的空间位置。

在实际的处理工作中，面对庞大的地址信息数据，在半自动融合处理和地址解析过程中通常会存在误差或者错误，目前多采用在使用过程中随机发现错误并改正方式，或以人工遍历的方式在庞大的地址信息数据库中查找出现误差或者错误的地址信息数据，并且标记出存疑地址信息数据以及改正这些存疑地址信息数据。

然而，采用人工遍历地址信息数据库及标记存疑地址信息数据的方法不仅效率低，而且无法满足在海量地址信息数据库中快速查找存疑地址点的实际需求，也无法确保地址信息数据库中的地址信息数据准确性。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种地址信息数据的处理方法。

本发明解决上述技术问题所采用的技术方案为：一种地址信息数据的处理方法，其特征在于，包括如下步骤：

步骤1，将自动或半自动融合后的标准地址数据库作为初始地址数据库；其中，初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库，初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点；

步骤2，将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字，以得到多个简化地址文本信息，并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库；其中，简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点；

步骤3，对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理，得到多个地址组团；

步骤4，对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度，并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点；其中，针对任一个地址组团，初始置信度的数值为该地址组团内所有地址信息的总数量；

步骤5，计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离，并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离；

步骤6，根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记：

当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时，将该空间化地址位置点标记为存疑地址点，转入步骤7；否则，不予处理该空间化地址位置点；

步骤7，求解与该存疑地址点最临近的K个空间化地址位置点，并根据求解结果做出判断处理：

当所得K个空间化地址位置点中存在有该存疑地址点所处地址组团内的空间化地址位置点时，将该存疑地址点标记为正常地址点，转入步骤8；否则，将该存疑地址点所对应地址信息的置信度值设置为-1；

步骤8，获取各地址组团的质心点，并将各质心点分别沿横坐标和纵坐标移动预设距离，且以移动预设距离后的质心点作为对应组团的辅助点；

步骤9，将各组团内所有空间化地址位置点、组团质心点和组团辅助点作为各组团点集合，获取各组团点集合的外接矩形，将各外接矩形作为对应地址组团的组团外接矩形；其中，位于组团外接矩形范围内的非该组团的空间化地址位置点为对应地址组团的组团外地址点；

步骤10，对各地址组团外接矩形范围内的组团外地址点做出判断处理：

当任一地址组团的组团外地址点所对应地址信息的置信度数值小于预设置信度阈值时，标记该组团外地址点为存疑地址点，并将该存疑地址点所对应地址信息的置信度设置为-1；否则，不予处理该组团外地址点。

改进地，为了进一步降低错误空间化地址位置点的漏查率，在该发明的所述地址信息数据的处理方法中，在步骤10之后还包括：设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值；以及将置信度数值小于所述核验阈值的地址信息对应的空间化地址位置点标记为奇异点，并进行奇异点人工核验操作。其中，在针对奇异点人工核验操作过程中，优先遍历存疑地址点的人工检核，而后再进行奇异点的人工核验操作。

进一步地，在所述地址信息数据的处理方法中，所述K的数值可以根据需要进行调整设置。例如，可以将K的数值设置为2或3。

进一步地，在所述地址信息数据的处理方法中，所述预设置信度阈值可以根据需要进行调整设置。例如，可以将预设置信度阈值的数值设置为10。

再进一步地，在所述地址信息数据的处理方法中，所述核验阈值可以根据需要进行调整设置。例如，可以将上述核验阈值的数值设置为4或5。

为了避免经聚类处理后得到的地址组团点集无法直接生成外接矩形(例如组团内只有2个空间化地址位置点，或者因地址组团内的空间化地址位置点呈直线分布)，改进地，在所述地址信息数据的处理方法中，步骤8中的所述预设距离可以根据需要进行调整设置。例如，可以将该预设距离的数值设置在区间(0.1m,1m)以内。

作为改进地，为了在形成的初始地址数据库内筛选出具有较大概率发生地址错误或地理编码过程中出错的空间化地址位置点，在该发明中，步骤6中的所述预设空间直线距离阈值也可以根据需要进行调整设置。例如，该发明中的预设空间直线距离阈值设置为150m。

在实际的地址信息数据处理操作中，所述预设空间直线距离阈值的设置规则可改进为：当地址信息文本分词中含有道路名称时，预设空间直线距离阈值设置为100m；含有小区名称时，预设空间直线距离阈值设置为80m；其余不含上述字样(地址文本分词既不含道路名称，又不含小区名称的情况)时，预设空间直线距离阈值设置为150m。

与现有技术相比，本发明的优点在于：该发明通过将自动或半自动融合后的标准地址数据库作为初始地址数据库，且对该初始地址数据库的所有地址文本信息做冗余简化处理，得到简化地址信息数据库，然后对简化地址信息数据库内所有地址文本做聚类处理，得到多个地址组团，而后根据地址组团内各空间化地址位置点所对应的最短空间直线距离与预设空间直线距离阈值的比较判断出存疑地址点，再求得与存疑地址点最临近的K个空间化地址位置点以及各地址组团外接矩形，最终根据组团外地址点判断出存疑地址点，从而实现在海量地址信息数据中筛选出部分存疑数据，有利于降低地址信息数据查错过程中的工作量，提高针对存疑地址点的查找标记效率，进一步提高了处理后地址信息数据的准确性。

附图说明

图1为本发明实施例中地址信息数据的处理方法流程示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本实施例提供一种地址信息数据的处理方法，用来在大量的地址信息数据中找到可能出现错误或者不准确的存疑地址信息数据。具体地，参见图1所示，该实施例中的地址信息数据的处理方法，包括如下步骤：

空间化地址位置点也称之为地址点，初始地址数据库内的地址文本信息为初始地址文本信息；此处的预设地址层级标准化为含有预设行政区域地址文字和详细地址文字的地址文本信息，预设行政区域地址文字为省级、市级、区县级和乡镇街道级行政区域地址词条；

例如，针对某城市内部，其初始地址数据库中的大量的初始地址信息，假设初始地址信息的总数量标记为N，且按照预设地址层级标准化及空间化处理后，初始地址文本信息示例如下：

初始地址文本信息1：X省Y市S₁区W₁街道U₁路P₁号；

初始地址文本信息2：X省Y市S₁区W₂街道U₂路P₂号；

初始地址文本信息3：X省Y市S₂区W₃街道U₃路P₃号；

初始地址文本信息4：X省Y市S₃区W₄街道U₂路P₄号；

以此类推；

初始地址文本信息N-1：X省Y市S₃区W₄街道U₃路P_i号；i>0，且i∈Z，Z为正数；

初始地址文本信息N：X省Y市S₁区W₁街道U₁路P_j号；j>0，且i∈Z，Z为正数；

步骤2，将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字，以得到多个简化地址文本信息，并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库；其中，简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点；冗余的地址文字为全部或部分行政区域词条。

在实际的应用场景中，例如，针对某城市内部，信息冗余的行政区域文字为省级、市级行政区域地址词条。简化处理是将初始地址文本信息前方的省和市行政区域剔除掉，简化处理后的地址信息为形成简化地址信息数据库的简化地址文本信息；那么，所得到的简化地址文本信息示例如下：

简化地址文本信息1：S₁区W₁街道U₁路P₁号；

简化地址文本信息2：S₁区W₂街道U₂路P₂号；

简化地址文本信息3：S₂区W₃街道U₃路P₃号；

简化地址文本信息4：S₃区W₄街道U₂路P₄号；

以此类推；

简化地址文本信息N-1：S₃区W₄街道U₃路P_i号；

简化地址文本信息N：S₁区W₁街道U₁路P_j号；

步骤3，对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理，得到多个地址组团；其中，在该实施例中，每一个地址组团内至少具有两个简化地址信息，每一个简化地址信息对应着一个简化地址文本和一个空间化地址位置点；

需要说明的是，针对所得到的上述简化地址信息数据库，可以根据需求选用文本聚类方法，实例中采用k-means算法，将所得到的这N个简化地址文本信息做文本聚类分组，从而得到了M个地址组团。例如，这M个地址组团分别是地址组团C₁、地址组团C₂、地址组团C₃、…、地址组团C_M-1和地址组团C_M；

并且再假设，经聚类处理后，地址组团C₁内的简化地址信息数据是简化地址文本1、简化地址文本2、简化地址文本3、简化地址文本4、简化地址文本5和简化地址文本6，地址组团C₂内的简化地址信息数据是简化地址文本8、简化地址文本9和简化地址文本10，地址组团C_M内的简化地址信息数据是简化地址文本N-3、简化地址文本N-2、简化地址文本N-1、简化地址文本N，其他地址组团内的简化地址信息数据也类似；

其中，在地址组团C₁内，该地址组团C₁内初始地址信息所对应的地址点分别是地址点1、地址点2、地址点3、地址点4、地址点5和地址点6；

在地址组团C₂内，该地址组团C₂内简化地址信息数据所对应的地址点是地址点8、地址点9和地址点10；

在地址组团C_M内，该地址组团C_M内简化地址信息数据所对应的地址点分别是地址点N-3、地址点N-2、地址点N-1和地址点N；

例如，在实例中地址组团C₁共有6个地址信息，分别是地址信息1、地址信息2、地址信息3、地址信息4、地址信息5和地址信息6，则地址信息1、地址信息2、地址信息3、地址信息4、地址信息5和地址信息6的初始置信度是6。同理，可得其他组团各地址信息的初始置信度值。

例如，针对地址组团C₁，地址点1与C₁组团内其他地址点的空间直线距离分别为L₁₂、L₁₃、L₁₄、L₁₅和L₁₆，求解地址点1的最短距离L_1min：

L_1min＝min(L₁₂,L₁₃,L₁₄,L₁₅,L₁₆)。

同理，分别得到地址组团C₁内其他地址点的最短空间直线距离分别为L_2min、L_3min、L_4min、L_5min和L_6min。

同样地，再分别计算得到地址组团C₂至地址组团C_N内各地址点的最短空间直线距离；

当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时，将该空间化地址位置点标记为存疑地址点(或称为存疑点)，转入步骤7；否则，不予处理该空间化地址位置点；

在该实施例中，预设空间直线距离阈值L_g为150m，当任一个空间化地址位置点i所对应的最短空间直线距离L_imin大于预设空间直线距离阈值L_g时，说明该空间化地址位置点距离同一组团内的所有空间化地址位置点的距离都较远，该空间化地址位置点错误或地址编码中出错的概率较大，标记为存疑地址点。

针对地址组团C₁，如果经过比较判断，地址点1所对应的两个最短空间直线距离中的最短空间直线距离L_1min大于预设空间直线距离阈值150m，那么，就将该地址点1标记为存疑地址点，然后转入步骤7；当然，如果L_1min小于预设空间直线距离阈值150m，则不处理地址点1；同理，按照同样的方式来判断标记C₁组团内剩余地址点及其他地址组团内各地址点。

作为改进的，在实际的地址信息数据处理操作中，此处的预设空间距离阈值设置规则可进一步设置为：含有地址文本分词含有道路名称时，预设空间距离阈值L_g设置为100m；含有小区名称时，预设空间距离阈值L_g设置为80m，其余不含上述字样(既不含地址文本分词，又不含道路名称的情况)时，预设空间距离阈值L_g设置为150m。

其中，K的数值可以根据需要进行调整设置，此处K的数值为2或3，比如假设为K＝3；

在该实施例中，假设组团C₁中地址点5被标记为存疑地址点，此处以被标记为存疑地址点的地址点5来进行说明：

通过常规邻近算法计算出与地址点5最临近的3个空间化地址位置点，假设这3个空间化地址位置点分别是地址点Q₁、地址点Q₂和地址点Q₃；

一旦判断这三个地址点(地址点Q₁、地址点Q₂和地址点Q₃)中的任一个地址点是地址组团C₁内的地址点时，那么就将该地址点5标记为正常地址点，转入步骤8；若这三个地址点(地址点Q₁、地址点Q₂和地址点Q₃)中不存在位于地址组团C₁内的地址点时，就将该存疑地址点(即地址点5)所对应地址信息5的置信度值做调整处理，将地址点5所对应地址信息5的置信度值标记为-1；

需要说明的是，该步骤7处通过求解该存疑点最临近的K个空间化地址位置点，可以避免将一些偏远地区的飞点类型的地址错判为存疑点，从而降低了存疑点的误判概率，提高了后续的地址点是否为存疑点的判断准确性；

步骤8，获取各地址组团的质心点，并将各质心点分别沿横坐标和纵坐标移动预设距离D，且以移动预设距离D后的质心点作为对应组团的辅助点；

其中，该实施例中的预设距离D的取值位于区间(0.1m,1m)以内；其中，通过如此设置该预设距离D的取值区间，可以避免经聚类处理后得到的地址组团内只有一个地址点，或者因地址组团内的地址点呈直线分布而导致无法得到最小面积外接矩形的情况发生；

具体到该步骤8，针对M个地址组团中的地址组团C₁，通过常规技术手段获取到该地址组团C₁的质心点，假设地址组团C₁的质心点标记为O₁(x_O,y_O)，然后再把质心点O₁的横坐标x_O和纵坐标y_O分别移动预设距离0.5m，从而得到一个对应原来质心点O₁的质心点O₁’(x_O’,y_O’)；可以知道，x_O’＝x_O+0.5，y_O’＝y_O+0.5；然后，再将该质心点O₁’作为对应地址组团C₁的辅助点；同理，可以得到其他各地址组团的质心点以及对应的辅助点，此处不再赘述；

具体地，以上述的M个地址组团为例，针对地址组团C₁，以该地址组团C₁内所有的地址点(即地址点1、地址点2、地址点3、地址点4、地址点5和地址点6)以及该地址组团C₁的质心点O₁、该地址组团C₁的辅助点O₁’作为地址组团C₁的点集合，该点集合所处空间位置所形成的外接矩形作为该地址组团C₁的组团外接矩形；同理，可以得到其他各地址组团所对应的组团外接矩形；

在该实施例中，假设预设置信度阈值标记为G，预设置信度阈值G的数值可以根据需要进行调整设置。例如，可以将预设置信度阈值G的数值设置为10。

针对上述M个地址组团，假设地址组团C₁的组团外地址点T所对应地址信息T的置信度数值小于预设置信度阈值10时，判定组团外地址点T为存疑点且标记组团外地址点T为存疑地址点，并将该存疑地址点T所对应地址信息T的置信度设置为-1；否则，不予处理该组团外地址点T。

为了进一步降低错误地址的漏查率，在步骤10之后，该实施例还会设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值R；以及将置信度数值小于核验阈值R的地址信息对应的空间化地址位置点标记为奇异点，并进行奇异点人工核验操作。其中，在针对奇异点人工核验操作过程中，优先遍历存疑地址点的人工检核，而后再进行奇异点的人工核验操作。

尽管以上详细地描述了本发明的优选实施例，但是应该清楚地理解，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种地址信息数据的处理方法，其特征在于，包括如下步骤：

步骤7，求解与该存疑地址点最邻近的K个空间化地址位置点，并根据求解结果做出判断处理：

2.根据权利要求1所述的地址信息数据的处理方法，其特征在于，在步骤10之后还包括：设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值；以及将置信度数值小于所述核验阈值的地址信息对应的空间化地址位置点标记为奇异点，并进行奇异点人工核验操作。

3.根据权利要求1所述的地址信息数据的处理方法，其特征在于，所述K的数值为2或3。

4.根据权利要求1所述的地址信息数据的处理方法，其特征在于，所述预设置信度阈值设置为10。

5.根据权利要求1所述的地址信息数据的处理方法，其特征在于，步骤6中的所述预设空间直线距离阈值位于区间(50m,300m)以内。

6.根据权利要求5所述的地址信息数据的处理方法，其特征在于，步骤8中的所述预设距离位于区间(0.1m,1m)以内。