CN112434160B - 一种地址信息数据的处理方法 - Google Patents

一种地址信息数据的处理方法 Download PDF

Info

Publication number
CN112434160B
CN112434160B CN202011319163.8A CN202011319163A CN112434160B CN 112434160 B CN112434160 B CN 112434160B CN 202011319163 A CN202011319163 A CN 202011319163A CN 112434160 B CN112434160 B CN 112434160B
Authority
CN
China
Prior art keywords
address
group
points
point
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011319163.8A
Other languages
English (en)
Other versions
CN112434160A (zh
Inventor
陈恒
陈海珍
陈小松
包颖
吴亚文
邵月中
王智慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology
Original Assignee
Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology filed Critical Ningbo Institute Of Surveying And Mapping And Remote Sensing Technology
Priority to CN202011319163.8A priority Critical patent/CN112434160B/zh
Publication of CN112434160A publication Critical patent/CN112434160A/zh
Application granted granted Critical
Publication of CN112434160B publication Critical patent/CN112434160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种地址信息数据的处理方法,将自动或半自动融合后的标准地址数据库作为初始地址数据库,对初始地址数据库的所有地址文本信息做简化去冗余处理,得到简化地址信息数据库,对简化地址信息数据库内所有地址文本信息聚类处理,得到多个地址组团,根据地址组团内各空间化地址位置点所对应的最短空间直线距离与预设空间直线距离阈值比较判断出存疑地址点,求得与存疑地址点最临近的K个空间化地址位置点,进行二次判断,降低存疑地址点的误判率。此外,获取各地址组团外接矩形,根据组团外地址点判断出存疑地址点,实现在海量地址信息数据中筛选出部分存疑数据,提高针对存疑地址点的查找标记效率,进一步提高处理后地址信息数据的准确性。

Description

一种地址信息数据的处理方法
技术领域
本发明涉及地理信息处理领域,尤其涉及一种地址信息数据的处理方法。
背景技术
地址信息在邮政通信、城市规划建设和对外交流方面具有重要的作用。
但在地址信息数据的实际应用场景中,诸如民政、住建和公安等不同部门数据标准不一,且各部门之间未形成地址数据联动更新机制,导致地址信息数据来源多样化、地址信息数据编码标准不统一以及地址信息数据重复等现象普遍存在,这给人们的工作生活以及经济社会的正常有序发展带来不便。面对地址信息数据编码标准不统一以及地址信息数据重复等现象,各地现已开展地址信息数据融合和数据清洗工作,目前多采用自动融合或者半自动融合的方式进行,得到标准化的地址信息数据,并进行地址解析,将地址空间化,匹配到相对应的空间位置。
在实际的处理工作中,面对庞大的地址信息数据,在半自动融合处理和地址解析过程中通常会存在误差或者错误,目前多采用在使用过程中随机发现错误并改正方式,或以人工遍历的方式在庞大的地址信息数据库中查找出现误差或者错误的地址信息数据,并且标记出存疑地址信息数据以及改正这些存疑地址信息数据。
然而,采用人工遍历地址信息数据库及标记存疑地址信息数据的方法不仅效率低,而且无法满足在海量地址信息数据库中快速查找存疑地址点的实际需求,也无法确保地址信息数据库中的地址信息数据准确性。
发明内容
本发明所要解决的技术问题是针对上述现有技术提供一种地址信息数据的处理方法。
本发明解决上述技术问题所采用的技术方案为:一种地址信息数据的处理方法,其特征在于,包括如下步骤:
步骤1,将自动或半自动融合后的标准地址数据库作为初始地址数据库;其中,初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库,初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点;
步骤2,将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字,以得到多个简化地址文本信息,并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库;其中,简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点;
步骤3,对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理,得到多个地址组团;
步骤4,对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度,并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点;其中,针对任一个地址组团,初始置信度的数值为该地址组团内所有地址信息的总数量;
步骤5,计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离,并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离;
步骤6,根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记:
当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时,将该空间化地址位置点标记为存疑地址点,转入步骤7;否则,不予处理该空间化地址位置点;
步骤7,求解与该存疑地址点最临近的K个空间化地址位置点,并根据求解结果做出判断处理:
当所得K个空间化地址位置点中存在有该存疑地址点所处地址组团内的空间化地址位置点时,将该存疑地址点标记为正常地址点,转入步骤8;否则,将该存疑地址点所对应地址信息的置信度值设置为-1;
步骤8,获取各地址组团的质心点,并将各质心点分别沿横坐标和纵坐标移动预设距离,且以移动预设距离后的质心点作为对应组团的辅助点;
步骤9,将各组团内所有空间化地址位置点、组团质心点和组团辅助点作为各组团点集合,获取各组团点集合的外接矩形,将各外接矩形作为对应地址组团的组团外接矩形;其中,位于组团外接矩形范围内的非该组团的空间化地址位置点为对应地址组团的组团外地址点;
步骤10,对各地址组团外接矩形范围内的组团外地址点做出判断处理:
当任一地址组团的组团外地址点所对应地址信息的置信度数值小于预设置信度阈值时,标记该组团外地址点为存疑地址点,并将该存疑地址点所对应地址信息的置信度设置为-1;否则,不予处理该组团外地址点。
改进地,为了进一步降低错误空间化地址位置点的漏查率,在该发明的所述地址信息数据的处理方法中,在步骤10之后还包括:设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值;以及将置信度数值小于所述核验阈值的地址信息对应的空间化地址位置点标记为奇异点,并进行奇异点人工核验操作。其中,在针对奇异点人工核验操作过程中,优先遍历存疑地址点的人工检核,而后再进行奇异点的人工核验操作。
进一步地,在所述地址信息数据的处理方法中,所述K的数值可以根据需要进行调整设置。例如,可以将K的数值设置为2或3。
进一步地,在所述地址信息数据的处理方法中,所述预设置信度阈值可以根据需要进行调整设置。例如,可以将预设置信度阈值的数值设置为10。
再进一步地,在所述地址信息数据的处理方法中,所述核验阈值可以根据需要进行调整设置。例如,可以将上述核验阈值的数值设置为4或5。
为了避免经聚类处理后得到的地址组团点集无法直接生成外接矩形(例如组团内只有2个空间化地址位置点,或者因地址组团内的空间化地址位置点呈直线分布),改进地,在所述地址信息数据的处理方法中,步骤8中的所述预设距离可以根据需要进行调整设置。例如,可以将该预设距离的数值设置在区间(0.1m,1m)以内。
作为改进地,为了在形成的初始地址数据库内筛选出具有较大概率发生地址错误或地理编码过程中出错的空间化地址位置点,在该发明中,步骤6中的所述预设空间直线距离阈值也可以根据需要进行调整设置。例如,该发明中的预设空间直线距离阈值设置为150m。
在实际的地址信息数据处理操作中,所述预设空间直线距离阈值的设置规则可改进为:当地址信息文本分词中含有道路名称时,预设空间直线距离阈值设置为100m;含有小区名称时,预设空间直线距离阈值设置为80m;其余不含上述字样(地址文本分词既不含道路名称,又不含小区名称的情况)时,预设空间直线距离阈值设置为150m。
与现有技术相比,本发明的优点在于:该发明通过将自动或半自动融合后的标准地址数据库作为初始地址数据库,且对该初始地址数据库的所有地址文本信息做冗余简化处理,得到简化地址信息数据库,然后对简化地址信息数据库内所有地址文本做聚类处理,得到多个地址组团,而后根据地址组团内各空间化地址位置点所对应的最短空间直线距离与预设空间直线距离阈值的比较判断出存疑地址点,再求得与存疑地址点最临近的K个空间化地址位置点以及各地址组团外接矩形,最终根据组团外地址点判断出存疑地址点,从而实现在海量地址信息数据中筛选出部分存疑数据,有利于降低地址信息数据查错过程中的工作量,提高针对存疑地址点的查找标记效率,进一步提高了处理后地址信息数据的准确性。
附图说明
图1为本发明实施例中地址信息数据的处理方法流程示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本实施例提供一种地址信息数据的处理方法,用来在大量的地址信息数据中找到可能出现错误或者不准确的存疑地址信息数据。具体地,参见图1所示,该实施例中的地址信息数据的处理方法,包括如下步骤:
步骤1,将自动或半自动融合后的标准地址数据库作为初始地址数据库;其中,初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库,初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点;
空间化地址位置点也称之为地址点,初始地址数据库内的地址文本信息为初始地址文本信息;此处的预设地址层级标准化为含有预设行政区域地址文字和详细地址文字的地址文本信息,预设行政区域地址文字为省级、市级、区县级和乡镇街道级行政区域地址词条;
例如,针对某城市内部,其初始地址数据库中的大量的初始地址信息,假设初始地址信息的总数量标记为N,且按照预设地址层级标准化及空间化处理后,初始地址文本信息示例如下:
初始地址文本信息1:X省Y市S1区W1街道U1路P1号;
初始地址文本信息2:X省Y市S1区W2街道U2路P2号;
初始地址文本信息3:X省Y市S2区W3街道U3路P3号;
初始地址文本信息4:X省Y市S3区W4街道U2路P4号;
以此类推;
初始地址文本信息N-1:X省Y市S3区W4街道U3路Pi号;i>0,且i∈Z,Z为正数;
初始地址文本信息N:X省Y市S1区W1街道U1路Pj号;j>0,且i∈Z,Z为正数;
步骤2,将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字,以得到多个简化地址文本信息,并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库;其中,简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点;冗余的地址文字为全部或部分行政区域词条。
在实际的应用场景中,例如,针对某城市内部,信息冗余的行政区域文字为省级、市级行政区域地址词条。简化处理是将初始地址文本信息前方的省和市行政区域剔除掉,简化处理后的地址信息为形成简化地址信息数据库的简化地址文本信息;那么,所得到的简化地址文本信息示例如下:
简化地址文本信息1:S1区W1街道U1路P1号;
简化地址文本信息2:S1区W2街道U2路P2号;
简化地址文本信息3:S2区W3街道U3路P3号;
简化地址文本信息4:S3区W4街道U2路P4号;
以此类推;
简化地址文本信息N-1:S3区W4街道U3路Pi号;
简化地址文本信息N:S1区W1街道U1路Pj号;
步骤3,对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理,得到多个地址组团;其中,在该实施例中,每一个地址组团内至少具有两个简化地址信息,每一个简化地址信息对应着一个简化地址文本和一个空间化地址位置点;
需要说明的是,针对所得到的上述简化地址信息数据库,可以根据需求选用文本聚类方法,实例中采用k-means算法,将所得到的这N个简化地址文本信息做文本聚类分组,从而得到了M个地址组团。例如,这M个地址组团分别是地址组团C1、地址组团C2、地址组团C3、…、地址组团CM-1和地址组团CM
并且再假设,经聚类处理后,地址组团C1内的简化地址信息数据是简化地址文本1、简化地址文本2、简化地址文本3、简化地址文本4、简化地址文本5和简化地址文本6,地址组团C2内的简化地址信息数据是简化地址文本8、简化地址文本9和简化地址文本10,地址组团CM内的简化地址信息数据是简化地址文本N-3、简化地址文本N-2、简化地址文本N-1、简化地址文本N,其他地址组团内的简化地址信息数据也类似;
其中,在地址组团C1内,该地址组团C1内初始地址信息所对应的地址点分别是地址点1、地址点2、地址点3、地址点4、地址点5和地址点6;
在地址组团C2内,该地址组团C2内简化地址信息数据所对应的地址点是地址点8、地址点9和地址点10;
在地址组团CM内,该地址组团CM内简化地址信息数据所对应的地址点分别是地址点N-3、地址点N-2、地址点N-1和地址点N;
步骤4,对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度,并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点;其中,针对任一个地址组团,初始置信度的数值为该地址组团内所有地址信息的总数量;
例如,在实例中地址组团C1共有6个地址信息,分别是地址信息1、地址信息2、地址信息3、地址信息4、地址信息5和地址信息6,则地址信息1、地址信息2、地址信息3、地址信息4、地址信息5和地址信息6的初始置信度是6。同理,可得其他组团各地址信息的初始置信度值。
步骤5,计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离,并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离;
例如,针对地址组团C1,地址点1与C1组团内其他地址点的空间直线距离分别为L12、L13、L14、L15和L16,求解地址点1的最短距离L1min
L1min=min(L12,L13,L14,L15,L16)。
同理,分别得到地址组团C1内其他地址点的最短空间直线距离分别为L2min、L3min、L4min、L5min和L6min
同样地,再分别计算得到地址组团C2至地址组团CN内各地址点的最短空间直线距离;
步骤6,根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记:
当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时,将该空间化地址位置点标记为存疑地址点(或称为存疑点),转入步骤7;否则,不予处理该空间化地址位置点;
在该实施例中,预设空间直线距离阈值Lg为150m,当任一个空间化地址位置点i所对应的最短空间直线距离Limin大于预设空间直线距离阈值Lg时,说明该空间化地址位置点距离同一组团内的所有空间化地址位置点的距离都较远,该空间化地址位置点错误或地址编码中出错的概率较大,标记为存疑地址点。
针对地址组团C1,如果经过比较判断,地址点1所对应的两个最短空间直线距离中的最短空间直线距离L1min大于预设空间直线距离阈值150m,那么,就将该地址点1标记为存疑地址点,然后转入步骤7;当然,如果L1min小于预设空间直线距离阈值150m,则不处理地址点1;同理,按照同样的方式来判断标记C1组团内剩余地址点及其他地址组团内各地址点。
作为改进的,在实际的地址信息数据处理操作中,此处的预设空间距离阈值设置规则可进一步设置为:含有地址文本分词含有道路名称时,预设空间距离阈值Lg设置为100m;含有小区名称时,预设空间距离阈值Lg设置为80m,其余不含上述字样(既不含地址文本分词,又不含道路名称的情况)时,预设空间距离阈值Lg设置为150m。
步骤7,求解与该存疑地址点最临近的K个空间化地址位置点,并根据求解结果做出判断处理:
当所得K个空间化地址位置点中存在有该存疑地址点所处地址组团内的空间化地址位置点时,将该存疑地址点标记为正常地址点,转入步骤8;否则,将该存疑地址点所对应地址信息的置信度值设置为-1;
其中,K的数值可以根据需要进行调整设置,此处K的数值为2或3,比如假设为K=3;
在该实施例中,假设组团C1中地址点5被标记为存疑地址点,此处以被标记为存疑地址点的地址点5来进行说明:
通过常规邻近算法计算出与地址点5最临近的3个空间化地址位置点,假设这3个空间化地址位置点分别是地址点Q1、地址点Q2和地址点Q3
一旦判断这三个地址点(地址点Q1、地址点Q2和地址点Q3)中的任一个地址点是地址组团C1内的地址点时,那么就将该地址点5标记为正常地址点,转入步骤8;若这三个地址点(地址点Q1、地址点Q2和地址点Q3)中不存在位于地址组团C1内的地址点时,就将该存疑地址点(即地址点5)所对应地址信息5的置信度值做调整处理,将地址点5所对应地址信息5的置信度值标记为-1;
需要说明的是,该步骤7处通过求解该存疑点最临近的K个空间化地址位置点,可以避免将一些偏远地区的飞点类型的地址错判为存疑点,从而降低了存疑点的误判概率,提高了后续的地址点是否为存疑点的判断准确性;
步骤8,获取各地址组团的质心点,并将各质心点分别沿横坐标和纵坐标移动预设距离D,且以移动预设距离D后的质心点作为对应组团的辅助点;
其中,该实施例中的预设距离D的取值位于区间(0.1m,1m)以内;其中,通过如此设置该预设距离D的取值区间,可以避免经聚类处理后得到的地址组团内只有一个地址点,或者因地址组团内的地址点呈直线分布而导致无法得到最小面积外接矩形的情况发生;
具体到该步骤8,针对M个地址组团中的地址组团C1,通过常规技术手段获取到该地址组团C1的质心点,假设地址组团C1的质心点标记为O1(xO,yO),然后再把质心点O1的横坐标xO和纵坐标yO分别移动预设距离0.5m,从而得到一个对应原来质心点O1的质心点O1’(xO’,yO’);可以知道,xO’=xO+0.5,yO’=yO+0.5;然后,再将该质心点O1’作为对应地址组团C1的辅助点;同理,可以得到其他各地址组团的质心点以及对应的辅助点,此处不再赘述;
步骤9,将各组团内所有空间化地址位置点、组团质心点和组团辅助点作为各组团点集合,获取各组团点集合的外接矩形,将各外接矩形作为对应地址组团的组团外接矩形;其中,位于组团外接矩形范围内的非该组团的空间化地址位置点为对应地址组团的组团外地址点;
具体地,以上述的M个地址组团为例,针对地址组团C1,以该地址组团C1内所有的地址点(即地址点1、地址点2、地址点3、地址点4、地址点5和地址点6)以及该地址组团C1的质心点O1、该地址组团C1的辅助点O1’作为地址组团C1的点集合,该点集合所处空间位置所形成的外接矩形作为该地址组团C1的组团外接矩形;同理,可以得到其他各地址组团所对应的组团外接矩形;
步骤10,对各地址组团外接矩形范围内的组团外地址点做出判断处理:
当任一地址组团的组团外地址点所对应地址信息的置信度数值小于预设置信度阈值时,标记该组团外地址点为存疑地址点,并将该存疑地址点所对应地址信息的置信度设置为-1;否则,不予处理该组团外地址点。
在该实施例中,假设预设置信度阈值标记为G,预设置信度阈值G的数值可以根据需要进行调整设置。例如,可以将预设置信度阈值G的数值设置为10。
针对上述M个地址组团,假设地址组团C1的组团外地址点T所对应地址信息T的置信度数值小于预设置信度阈值10时,判定组团外地址点T为存疑点且标记组团外地址点T为存疑地址点,并将该存疑地址点T所对应地址信息T的置信度设置为-1;否则,不予处理该组团外地址点T。
为了进一步降低错误地址的漏查率,在步骤10之后,该实施例还会设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值R;以及将置信度数值小于核验阈值R的地址信息对应的空间化地址位置点标记为奇异点,并进行奇异点人工核验操作。其中,在针对奇异点人工核验操作过程中,优先遍历存疑地址点的人工检核,而后再进行奇异点的人工核验操作。
尽管以上详细地描述了本发明的优选实施例,但是应该清楚地理解,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种地址信息数据的处理方法,其特征在于,包括如下步骤:
步骤1,将自动或半自动融合后的标准地址数据库作为初始地址数据库;其中,初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库,初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点;
步骤2,将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字,以得到多个简化地址文本信息,并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库;其中,简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点;
步骤3,对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理,得到多个地址组团;
步骤4,对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度,并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点;其中,针对任一个地址组团,初始置信度的数值为该地址组团内所有地址信息的总数量;
步骤5,计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离,并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离;
步骤6,根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记:
当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时,将该空间化地址位置点标记为存疑地址点,转入步骤7;否则,不予处理该空间化地址位置点;
步骤7,求解与该存疑地址点最邻近的K个空间化地址位置点,并根据求解结果做出判断处理:
当所得K个空间化地址位置点中存在有该存疑地址点所处地址组团内的空间化地址位置点时,将该存疑地址点标记为正常地址点,转入步骤8;否则,将该存疑地址点所对应地址信息的置信度值设置为-1;
步骤8,获取各地址组团的质心点,并将各质心点分别沿横坐标和纵坐标移动预设距离,且以移动预设距离后的质心点作为对应组团的辅助点;
步骤9,将各组团内所有空间化地址位置点、组团质心点和组团辅助点作为各组团点集合,获取各组团点集合的外接矩形,将各外接矩形作为对应地址组团的组团外接矩形;其中,位于组团外接矩形范围内的非该组团的空间化地址位置点为对应地址组团的组团外地址点;
步骤10,对各地址组团外接矩形范围内的组团外地址点做出判断处理:
当任一地址组团的组团外地址点所对应地址信息的置信度数值小于预设置信度阈值时,标记该组团外地址点为存疑地址点,并将该存疑地址点所对应地址信息的置信度设置为-1;否则,不予处理该组团外地址点。
2.根据权利要求1所述的地址信息数据的处理方法,其特征在于,在步骤10之后还包括:设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值;以及将置信度数值小于所述核验阈值的地址信息对应的空间化地址位置点标记为奇异点,并进行奇异点人工核验操作。
3.根据权利要求1所述的地址信息数据的处理方法,其特征在于,所述K的数值为2或3。
4.根据权利要求1所述的地址信息数据的处理方法,其特征在于,所述预设置信度阈值设置为10。
5.根据权利要求1所述的地址信息数据的处理方法,其特征在于,步骤6中的所述预设空间直线距离阈值位于区间(50m,300m)以内。
6.根据权利要求5所述的地址信息数据的处理方法,其特征在于,步骤8中的所述预设距离位于区间(0.1m,1m)以内。
CN202011319163.8A 2020-11-23 2020-11-23 一种地址信息数据的处理方法 Active CN112434160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011319163.8A CN112434160B (zh) 2020-11-23 2020-11-23 一种地址信息数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011319163.8A CN112434160B (zh) 2020-11-23 2020-11-23 一种地址信息数据的处理方法

Publications (2)

Publication Number Publication Date
CN112434160A CN112434160A (zh) 2021-03-02
CN112434160B true CN112434160B (zh) 2024-05-07

Family

ID=74693546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011319163.8A Active CN112434160B (zh) 2020-11-23 2020-11-23 一种地址信息数据的处理方法

Country Status (1)

Country Link
CN (1) CN112434160B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223459A (ja) * 2002-01-31 2003-08-08 Daikei Data Processing Co Ltd 住所情報の管理方法
KR101768015B1 (ko) * 2016-11-07 2017-08-22 대한민국 실시간 및 시계열 국가공간정보 기반을 통한 텍스트 위치정보의 공간시각화시스템
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN109344209A (zh) * 2018-08-20 2019-02-15 中国平安人寿保险股份有限公司 一种基于大数据的地址测试方法及终端设备
CN110019625A (zh) * 2017-12-20 2019-07-16 中国电信股份有限公司 文本标准地址空间化方法和装置、计算机可读存储介质
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682898B2 (en) * 2010-04-30 2014-03-25 International Business Machines Corporation Systems and methods for discovering synonymous elements using context over multiple similar addresses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223459A (ja) * 2002-01-31 2003-08-08 Daikei Data Processing Co Ltd 住所情報の管理方法
KR101768015B1 (ko) * 2016-11-07 2017-08-22 대한민국 실시간 및 시계열 국가공간정보 기반을 통한 텍스트 위치정보의 공간시각화시스템
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN110019625A (zh) * 2017-12-20 2019-07-16 中国电信股份有限公司 文本标准地址空间化方法和装置、计算机可读存储介质
CN109344209A (zh) * 2018-08-20 2019-02-15 中国平安人寿保险股份有限公司 一种基于大数据的地址测试方法及终端设备
CN110928971A (zh) * 2019-11-21 2020-03-27 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置

Also Published As

Publication number Publication date
CN112434160A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
US6529722B1 (en) System and method for enhanced 9-1-1 address development, maintenance and call routing using road access zones
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
CN103514235B (zh) 一种增量码库的建立方法和装置
CN111797182A (zh) 一种地址编码解析方法及系统
CN110807547A (zh) 家庭人口结构的预测方法及系统
CN112434160B (zh) 一种地址信息数据的处理方法
CN112988715A (zh) 一种基于开源方式的全球网络地名数据库的构建方法
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN116383937A (zh) 一种村落数字孪生保护评估方法
CN109271625B (zh) 一种汉语地名的拼音拼写规范化方法
CN108021638B (zh) 一种离线地理编码非结构化地址解析系统
CN111859956B (zh) 一种用于金融行业的地址分词方法
CN114398934A (zh) 一种基于聚类算法的高危地区识别方法
CN110609874B (zh) 一种基于密度聚类算法的地址实体共指消解方法
CN112347221A (zh) 一种房屋地址相似度分析方法及装置
CN118410122B (zh) 一种空间地理数据处理方法和装置
CN110880244B (zh) 一种辨别出租车是否为克隆车的方法及系统
CN116431624A (zh) 业务网点分配方法、装置、设备和存储介质
CN116501897B (zh) 基于模糊匹配构建知识图谱的方法
CN114997147B (zh) 基于混合mask的poi地址纠错方法、装置、存储介质和设备
CN111597277A (zh) 电子地图中的站点聚合方法、装置、计算机设备和介质
CN105205120B (zh) 中文地址数字分级匹配方法
CN115658717A (zh) 基于多要素编辑距离算法对比人员自动分配镇街村居方法
CN112115214B (zh) 地址标准化方法、地址标准化装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant