CN111444299A - 基于地址树模型的中文地址提取方法 - Google Patents

基于地址树模型的中文地址提取方法 Download PDF

Info

Publication number
CN111444299A
CN111444299A CN202010216951.8A CN202010216951A CN111444299A CN 111444299 A CN111444299 A CN 111444299A CN 202010216951 A CN202010216951 A CN 202010216951A CN 111444299 A CN111444299 A CN 111444299A
Authority
CN
China
Prior art keywords
address
node
semantic
tree
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010216951.8A
Other languages
English (en)
Inventor
张平
亢孟军
汪艳霞
叶蕾
刘越
曾伟东
陈建
黄磊
刘仁
林熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fu Zhoushikanceyuan
Original Assignee
Fu Zhoushikanceyuan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fu Zhoushikanceyuan filed Critical Fu Zhoushikanceyuan
Priority to CN202010216951.8A priority Critical patent/CN111444299A/zh
Publication of CN111444299A publication Critical patent/CN111444299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于地址树模型的中文地址提取方法,包括以下步骤:步骤S1:对地址字符串进行分词和识别,生成地址元素集合以及地址元素语义集合;步骤S2:建立根结点root,提取地址元素,遍历地址元素的语义集,构建地址语义结点,并依次连结到根节点;步骤S3:提取后续地址元素,遍历其语义结点;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。

Description

基于地址树模型的中文地址提取方法
技术领域
本发明涉及计算机技术、数据检索、计算机数据处理领域,尤其涉及一种基于地址树模型的中文地址提取方法。
背景技术
地址是一种对个体地域空间位置信息的编码方法,在我国,由于城市快速发展,地址规划相对落后,非标准地址大量存在。
以门牌的管理为例,如说明书附图图1所示,“福州市勘测院”所在的地址为“福州市鼓楼区湖东路188号”,该地址模型为“市|区|道路|门牌号”,其中,“市|区”部分由民政部地名办公室管理,“道路”由区(县)地名办公室管理,而“门牌号”由公安部门管理。目前全国到各省市,尚无一个统一的协调机构,这种突出的矛盾已经无法满足城市规划和信息化发展的需求。
表1福州市地址模型示例
Figure BDA0002424702840000011
中文地址模型研究已经得到越来越多学者关注,在《福州市居民地地名标志设置规范》中,已经对福州市的地址模型进行了全面的规范。表1通过分析福州市部分地址,提取了几种常用的地址模型,可以得到以下四个结论:
(1)行政区划在地址模型中作用重要,作为主要的空间区域约束元素;(2)由于缺乏唯一、标准的地址表述,在描述地址时,人们总是提供尽可能多的描述信息,导致地址描述的信息冗余,这种冗余亦可能导致地址歧义;(3)在有明确门牌号的情况下,人们愿意选择门牌描述地址。但是由于门牌规划、标示不充分,导致用户不得不选择公共设施、单位名等稳定性低的地名作为地址描述;(4)新旧城区无统一标准,部分城中村编码方案混乱,有采用门牌号的,也有采用楼栋号的;
地址模型是地址标准化的核心,也是实施地理编码的核心。地址模型的确立需要有完善的规划方案作为前提,同时要兼顾用户的空间认知习惯,以引导为主,逐步推进地址规范化的有效实施。而针对目前的非标准地址大量存在的现实,通过人工识别分类等方式难以有效进行大量的地址提取,因此通过计算机程序实现有效的地址提取算法是唯一解决办法。
发明内容
为了解决现有技术存在的缺陷和不足的问题,本发明提出了一种基于地址树模型的中文地址提取方法,该方法以地址元素的空间约束关系为条件,提出一种地址树模型,通过地址元素的识别、空间约束关系的重构、地址原始指向的识别、错误地址元素剔除以及地址冗余信息的过滤,提取标准地址,提高地址匹配的准确性。地址提取的过程是在地址元素的语义集合中,寻找一条符合空间约束关系的连通路径,每条子地址可看作地址描述的一个子树,这种特点适合用树模型进行地址解析。实验证明,该方法有较高的地址匹配率。
其具体采用以下技术方案:
一种基于地址树模型的中文地址提取方法,其特征在于,包括以下步骤:
步骤S1:对地址字符串进行分词和识别,生成地址元素集合X以及地址元素语义集合S;
步骤S2:建立根结点root,提取地址元素x1,遍历地址元素x1的语义集S1,构建地址语义结点,并依次连结到根节点;
步骤S3:提取后续地址元素xi,遍历其语义结点Si;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。
优选地,步骤S3具体包括:
步骤S31:对于结点sim(m=1,2,3…),依次与当前地址树的叶子节点li比较语义级别,若结点sim语义级别低于叶子节点li,则执行步骤S32:
步骤S32:比较结点sim与叶子节点li的空间约束关系一致性,
若空间约束关系一致,则结点Sil连结到当前叶子节点li
若空间约束关系不一致,则沿当前地址树上溯,直到找到当前地址树的叶子节点li′,满足叶子节点li′语义大于结点sim;此时比较两节点的空间约束一致性:
若不一致,则回到步骤S31,比较结点sim与地址树的下一叶子节点;
若一致,比较结点sim与叶子节点li′后一结点的空间约束关系,若一致,则把结点sim插入到该子树当前位置,若不一致,则回到步骤S31,比较结点sim与地址树的下一叶子节点;
步骤S33:若结点sim上溯到根结点,仍未连结,则把该节点连接到地址树的最右边,作为一条新的子树。
优选地,在步骤S3中,对于同一地址元素,若AddrLevel(si)≠AddrLevel(sj)(i≠j),并且sj已经成为地址树的叶子节点,则跳过该叶子结点。
优选地,在步骤S3中,以拓扑关系作为空间约束关系是否一致的判断标准。
实现执行以上步骤,可以从非标准地址中提取标准地址,并剔除非标准和错误地址元素。
本发明及其优选方案通过地址元素的识别、空间约束关系的重构、地址原始指向的识别、错误地址元素剔除以及地址冗余信息的过滤,提取标准地址,提高了地址匹配的准确性。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为中国地名管理体系示例示意图;
图2为本发明实施例地址、地址元素、地址语义关系示意图;
图3为本发明实施例建筑物所在地址匹配结果示意图;
图4为本发明实施例整体流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下:
本实施例考虑到组成标准地址的地址元素之间需要具有空间约束关系,可用拓扑关系表示这种约束,具体的拓扑关系类型要根据地址元素的几何类型确定,一般要保证地址元素间的包含或关联关系:
1.利用九交模型描述地址模型空间约束关系
在本实施例中,组成标准地址的地址元素之间需要具有空间约束关系,如公式1中的
Figure BDA0002424702840000041
xi≠xj,可用拓扑关系表示这种约束,具体的拓扑关系类型要根据地址元素的几何类型确定,一般要保证地址元素间的包含或关联关系。这里分别以“行政区划|道路|门牌号|公共设施”(Street Network Model)和“行政区划|片区|门牌号|公共设施”(AddressParcel Model)两种常用地址模型说明。
表2地址元素空间约束关系的九交模型表达
Figure BDA0002424702840000042
Figure BDA0002424702840000051
路网模型(Street Network Model)是约束关系最复杂的一种模型,道路是地址信息的主要载体,行政区划与道路关系主要有三种:包含、关联和相交,如表2所示,例1是最常见的地址模型。中文地址的组织,往往从高级别行政区划开始,以空间上的包含关系来逐步限定地址表述目标,这种特点比较符合点状模型或者分区模型,但也被应用于路网模型。多数道路也适合这种“包含于”行政区划的特征,但是,道路经常作为行政区划的分界,或者出现跨越行政区划的现象,如示例2-5,这时,地址元素的层次关系表达不代表其“包含”的空间关系,只代表其空间上的关联关系,这种组织方式可以明确路段信息,使地址指向更加明确。
门牌号与道路是拓扑关联关系,总体上沿道路按照线性特征分布。通过对部分城市门牌数据的分析发现,绝大多数门牌分布在道路400米以内,部分区域由于路网稀疏,居民点密集,门牌呈聚集状分布。
分区模型(Address Parcel),是以居住区为单位的面状区域地址元素,例如城中村、社区分区或工业区等,如表2示例6。这类地址元素一般“包含于”行政区划,同时分区也包含一定的门牌号或楼栋号,这种空间约束不同于道路门牌的线状关系,一般呈面状聚集特征,因此这类匹配一般把分区的行政中心或几何中心作为结果返回。
示例4中,“工业路”作为鼓楼区和台江区的行政区划边界,地址描述根据门牌具体所属的行政区划组织,从而出现了,同一道路门牌,行政区划的限定地址元素不同的现象。这种地址组织方式说明了拓扑包含这种空间关系在人们进行空间认知和表达中的重要性,同时,增强了地址的指向性。
2.地址模型错误空间约束关系的归纳
标准的地址模型是指地址描述中包含完整的行政区划信息、详细地址元素,并且指向性明确。但在实际基础地理信息普查或地址应用中,非标准地址或错误地址大量出现,严重影响了地址匹配的精度。非标准地址或错误地址主要有以下五种情况:
(1)行政区划地址元素不完善,但整条地址指向性明确。这类地址在实际应用中出现较多,属于非标准地址,需要标准化;
(2)行政区划地址元素不完善,整条地址指向性不明确。例如肯德基或银行类公共设施,在一定行政区划内分布数量较多,需要补充附加描述信息。地址匹配时,可提供该类公共设施结果集或上一级地址元素作为查询结果;
(3)地址元素空间约束级别倒置、混乱。这类地址由于书写的随意性,或对其空间位置的不确定性,将地址元素错误排列并增加其他相关位置描述信息。在地址匹配过程中,需要对地址元素识别并重建其空间约束关系,同时过滤关联关系弱的描述信息,是地址匹配需要重点解决的一类错误情况;
(4)地址元素空间约束关系错误。这类错误较多出现在基础地理信息普查过程中,地址元素子集的空间指向性和整条地址是分离、不相关的。地址匹配时,需要识别地址的真实指向,并剔除错误地址元素,是地址匹配的难点;
实际应用的地址多是以上几种情况的混合,增加了地址匹配的难度和工作量,本文提出一种地址树模型,通过地址元素的识别、空间约束关系的重构、地址原始指向的识别、错误地址元素剔除以及地址冗余信息的过滤,提取标准地址,提高地址匹配的准确性。
3.地址树模型及提取算法
为了解决以上问题,本实施例进行了如下定义:
定义1:地址是地址元素的集合,也是子地址集合。一个地址描述可能具有多个指向目标,可表示为:
Figure BDA0002424702840000071
公式2中Ai表示地址A的一个指向目标。
定义2:每个地址元素对应n个地址语义,地址语义指地址元素实际指向的个体地域目标,对应于实际的“同名不同址”问题。可表示为:
Figure BDA0002424702840000072
xi表示任意地址元素,S表示地址元素xi的语义集合,si表示xi的任意地址语义。
定义3:语义级别指按照地址元素类型的分级信息,行政区划级别高,详细地址元素级别低,语义si的语义级别表示为AddrLevel(si)。
如图2所示,地址提取的过程是在地址元素的语义集合中,寻找一条符合空间约束关系的连通路径,每条子地址可看作地址描述的一个子树,这种特点适合用树模型进行地址解析。
如图4所示,本实施例提供的基于地址树模型的标准地址提取算法如下:
(1)假设地址字符串已经分词、识别,生成地址元素集合X以及地址元素语义集合S;(在本实施例中,不提供现有技术当中的分词、识别之外的其他新的方法,本领域技术人员通过现有技术当中已有的针对中文的分词、识别可以实现本发明的目的。)
(2)建立根结点root,提取地址元素x1,遍历x1的语义集S1,构建地址语义结点,并依次连结到根节点;
(3)提取后续地址元素xi,遍历其语义结点Si。比如,对于结点Si1,依次与当前地址树的叶子节点li比较。首先比较其语义级别,若Si1语义级别低于li,则比较Si1与li的空间约束关系一致性,若空间约束关系一致,则Si1连结到当前叶子节点li
若不一致,则沿该子树上溯,直到找到该子树的结点li′,满足li′语义大于Si1。此时比较两节点的空间约束一致性,若不一致,则比较Si1与地址树的下一叶子节点,重复步骤(3);若一致,比较Si1与li′后一结点的空间约束关系,若一致,则把Si1插入到该子树当前位置,若不一致,则比较Si1与地址树的下一叶子节点,重复步骤(3)。
若Si1上溯到根结点,仍未连结,则把该节点连接到地址树的最右边,作为一条新的子树。
(4)对于同一地址元素,若AddrLevel(si)≠AddrLevel(sj)(i≠j),并且sj已经成为地址树的叶子节点,则跳过该叶子结点。
空间约束关系一致是指地址元素拓扑关系符合表2的约束规则。具体实施可采用两种方法:(1)实时计算地址元素拓扑关系。该方法运算量大,响应时间长,但反映拓扑关系准确;(2)对地址元素预处理,通过一定地理编码方案,记录地址元素的拓扑关系。一般的编码方案只记录拓扑“包含”,对于路网并不适应,可扩展编码方法,对路网的“关联”关系进行适当记录。该方法运算量小,响应时间短,但地址元素变化后,需要更新编码以维护其空间关系。对于实际应用而言,主要地址元素,如行政区划等,其稳定性较高,采用第二种方法更方便。
4.地址提取算法评价
非标准地址经过地址模型提取后,得到子地址集合,需要对子地址集合按照空间指向相关系进行评价、排序,得到最符合原始地址指向目标的标准地址。评价方法主要从以下三个指标进行评价:有意义比例、完整度、和基于地址元素权重的评分。
有意义比例,是指可识别的地址元素占所有地址元素的比例,反映当前子地址的可靠性,若有意义比例过低,则该子地址的指向目标是不可靠的;完整度,是子地址树的深度和地址元素集合数目的比。完整度为1的子地址与原始地址的指向性完全一致;基于地址元素权重的评分方法,假设一个地址严格按照标准地址模型组织,每个地址元素对应一个严格的位置,若子地址中某地址元素偏离其标准位置越远,则得分越低,反之,则得分越高,再结合该地址元素的权重,可计算子地址打分。
在实际应用中,可先设置有意义比例的阈值,高于阈值的子地址集合比较其完整度,完整度小于1的子地址集合,再计算其评分,按该流程对子地址排序,获取最符合原始地址的指向目标的子地址。
本实施例选取福州市建筑物普查377条数据作为实验数据,原始数据包含建筑物的面状空间信息和地址描述。其中,存在两种特殊情况:(1)一个建筑物对应多个门牌;(2)多个建筑物属于同一个门牌。这两种情况会影响到地址匹配精度。
提取建筑物的地址,采用地址匹配软件进行地址匹配,生成建筑物所属地址的点状要素数据和地址匹配统计信息,匹配情况如图3所示。
如表3所示,实验结果显示地址匹配度100%的条目占到总条目的94.96%,这类地址描述相对规范,符合基本的地址模型规则,对地址匹配的干扰较小,匹配率较高。
表3建筑物地址匹配率统计结果
匹配度区间 匹配条目 匹配率
0-50% 3 0.8%
50%-60% 0 0
60%-70% 4 1.1%
70%-80% 0 0
80%-90% 12 3.18%
90%-100% 0 0
100% 358 94.96%
总条目 377
表4列举了几种低匹配率地址情况,主要有以下原因:(1)地址参考库的数据不完善;(2)地址含有非标准的公共设施名称;(3)采用相对位置关系、方位关系描述地址;(4)采用路口描述地址。因此,在地址参考库不变的情况下,规范地址描述,可以极大的提高地址匹配率。
表4低匹配率地址匹配结果
Figure BDA0002424702840000101
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于地址树模型的中文地址提取方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (4)

1.一种基于地址树模型的中文地址提取方法,其特征在于,包括以下步骤:
步骤S1:对地址字符串进行分词和识别,生成地址元素集合X以及地址元素语义集合S;
步骤S2:建立根结点root,提取地址元素x1,遍历地址元素x1的语义集S1,构建地址语义结点,并依次连结到根节点;
步骤S3:提取后续地址元素xi,遍历其语义结点Si;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。
2.根据权利要求1所述基于地址树模型的中文地址提取方法,其特征在于:步骤S3具体包括:
步骤S31:对于结点Sim(m=1,2,3…),依次与当前地址树的叶子节点li比较语义级别,若结点Sim语义级别低于叶子节点li,则执行步骤S32:
步骤S32:比较结点Sim与叶子节点li的空间约束关系一致性,
若空间约束关系一致,则结点Si1连结到当前叶子节点li
若空间约束关系不一致,则沿当前地址树上溯,直到找到当前地址树的叶子节点li′,满足叶子节点li′语义大于结点Sim;此时比较两节点的空间约束一致性:
若不一致,则回到步骤S31,比较结点Sim与地址树的下一叶子节点;
若一致,比较结点Sim与叶子节点li′后一结点的空间约束关系,若一致,则把结点Sim插入到该子树当前位置,若不一致,则回到步骤S31,比较结点Sim与地址树的下一叶子节点;
步骤S33:若结点Sim上溯到根结点,仍未连结,则把该节点连接到地址树的最右边,作为一条新的子树。
3.根据权利要求2所述基于地址树模型的中文地址提取方法,其特征在于:在步骤S3中,对于同一地址元素,若AddrLevel(si)≠AddrLevel(sj)(i≠j),并且sj已经成为地址树的叶子节点,则跳过该叶子结点。
4.根据权利要求2所述基于地址树模型的中文地址提取方法,其特征在于:在步骤S3中,以拓扑关系作为空间约束关系是否一致的判断标准。
CN202010216951.8A 2020-03-25 2020-03-25 基于地址树模型的中文地址提取方法 Pending CN111444299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010216951.8A CN111444299A (zh) 2020-03-25 2020-03-25 基于地址树模型的中文地址提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010216951.8A CN111444299A (zh) 2020-03-25 2020-03-25 基于地址树模型的中文地址提取方法

Publications (1)

Publication Number Publication Date
CN111444299A true CN111444299A (zh) 2020-07-24

Family

ID=71650963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010216951.8A Pending CN111444299A (zh) 2020-03-25 2020-03-25 基于地址树模型的中文地址提取方法

Country Status (1)

Country Link
CN (1) CN111444299A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181978A (zh) * 2020-08-19 2021-01-05 杭州数梦工场科技有限公司 地址存储结构、地址解析方法、装置、介质及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8069023B1 (en) * 2008-09-02 2011-11-29 Juniper Networks, Inc. Hardware support for instruction set emulation
CN106649464A (zh) * 2016-09-26 2017-05-10 深圳市数字城市工程研究中心 一种中文地址树的构建方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8069023B1 (en) * 2008-09-02 2011-11-29 Juniper Networks, Inc. Hardware support for instruction set emulation
CN106649464A (zh) * 2016-09-26 2017-05-10 深圳市数字城市工程研究中心 一种中文地址树的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
亢孟军: "地址树模型的中文地址提取方法", 《测绘学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181978A (zh) * 2020-08-19 2021-01-05 杭州数梦工场科技有限公司 地址存储结构、地址解析方法、装置、介质及计算机设备

Similar Documents

Publication Publication Date Title
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109657074B (zh) 基于地址树的新闻知识图谱构建方法
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
CN109344213B (zh) 一种基于字典树的中文地理编码方法
CN106651247A (zh) 基于gis拓扑分析的地址匹配区域块方法和系统
CN106462624A (zh) 基于图块的地理编码器
CN112612863B (zh) 一种基于中文分词器的地址匹配方法及系统
CN111291099B (zh) 一种地址模糊匹配方法、系统及计算机设备
CN114417802B (zh) 一种智能化报表生成系统
Christen et al. A probabilistic geocoding system based on a national address file
CN108733810A (zh) 一种地址数据匹配方法及装置
CN108268445A (zh) 一种处理地址信息的方法及装置
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN114168705B (zh) 一种基于地址要素索引的中文地址匹配方法
Bermingham et al. Mining place-matching patterns from spatio-temporal trajectories using complex real-world places
Nguyen et al. A multi-perspective approach to interpreting spatio-semantic changes of large 3D city models in CityGML using a graph database
CN111813819A (zh) 一种基于时空大数据的地名地址在线匹配方法
CN106126681B (zh) 一种增量式流式数据聚类方法及系统
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN111444299A (zh) 基于地址树模型的中文地址提取方法
CN107463559A (zh) 一种企业位置信息获取分析及存储系统
CN117076590A (zh) 地址标准化方法、装置、计算机设备及可读存储介质
Xiang Region2vec: An Approach for Urban Land Use Detection by Fusing Multiple Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724