CN109299402A - 基于要素预分段的地址匹配方法 - Google Patents

基于要素预分段的地址匹配方法 Download PDF

Info

Publication number
CN109299402A
CN109299402A CN201810811557.1A CN201810811557A CN109299402A CN 109299402 A CN109299402 A CN 109299402A CN 201810811557 A CN201810811557 A CN 201810811557A CN 109299402 A CN109299402 A CN 109299402A
Authority
CN
China
Prior art keywords
address
factor
word segmentation
matching
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810811557.1A
Other languages
English (en)
Inventor
黄鸿
张磊
邓晓光
刘爽
李悦
赵志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU OCN NETWORK TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU OCN NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU OCN NETWORK TECHNOLOGY Co Ltd filed Critical GUANGZHOU OCN NETWORK TECHNOLOGY Co Ltd
Priority to CN201810811557.1A priority Critical patent/CN109299402A/zh
Publication of CN109299402A publication Critical patent/CN109299402A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供基于要素预分段的地址匹配方法,包括以下步骤:地址分段,对待匹配地址进行分段处理,生成地址段;匹配要素范围,将地址段作为输入,匹配地址段对应的地址要素范围;分词处理,根据地址要素范围对地址段进行分词处理,获得地址要素;计算空间坐标,将地址要素组成分词结果,将分词结果与标准地址库进行匹配,生成空间坐标。本发明能预先对地址要素进行分段,使每一地址段对应到特定的一个或多个地址要素上,减小分词过程中的误差,提高匹配的准确率。

Description

基于要素预分段的地址匹配方法
技术领域
本发明涉及数据处理技术领域,尤其涉及基于要素预分段的地址匹配方法。
背景技术
现有技术中地址匹配流程为:输入地址字符串,对输入地址字符串进行分词,解析为单个地址要素,根据分词结果与标准地址库中的记录进行比较,赋予或计算对应的空间坐标,返回匹配结果。匹配过程中的每一步都可能产生误差,并且误差会不断累积,从而影响最终的匹配结果。对输入地址字符串进行分词的准确程度对匹配结果的准确率至关重要,目前存在有种类繁多的分词算法,但都存在一定的误差,很难实现对地址要素的完美解析。因此,亟需一种能预先对地址要素进行分段,使每一地址段对应到特定的一个或多个地址要素上,减小分词过程中的误差,提高匹配的准确率的地址匹配方法。
发明内容
为了克服现有技术的不足,本发明的目的在于提供基于要素预分段的地址匹配方法,能预先对地址要素进行分段,使每一地址段对应到特定的一个或多个地址要素上,减小分词过程中的误差,提高匹配的准确率。
本发明提供基于要素预分段的地址匹配方法,包括以下步骤:
地址分段,对待匹配地址进行分段处理,生成地址段;
匹配要素范围,将所述地址段作为输入,匹配所述地址段对应的地址要素范围;
分词处理,根据所述地址要素范围对所述地址段进行分词处理,获得地址要素;
计算空间坐标,将所述地址要素组成分词结果,将所述分词结果与标准地址库进行匹配,生成空间坐标。
进一步地,所述匹配要素范围中,根据地址模型匹配所述地址段对应的地址要素范围,所述地址要素范围包含若干地址要素。
进一步地,所述匹配要素范围还包括检查不同的所述地址段对应的地址要素是否重合,是则匹配失败,否则跳转至所述步骤分词处理。
进一步地,所述分词处理中,若所述地址要素范围包含至少两个地址要素,则根据所述地址要素范围对所述地址段进行分词处理,获得所述地址要素。
进一步地,所述分词处理中,若所述地址要素范围仅包含单个地址要素,则判断所述地址段与所述地址要素范围是否匹配。
进一步地,所述匹配要素范围中,所述地址模型对应的地址要素包括省、市、县、乡、道路、门牌号、小区,根据所述地址模型匹配所述地址段对应的地址要素范围,所述地址要素范围为省、市、县、乡、道路、门牌号、小区的任意组合。
相比现有技术,本发明的有益效果在于:
本发明提供基于要素预分段的地址匹配方法,包括以下步骤:地址分段,对待匹配地址进行分段处理,生成地址段;匹配要素范围,将地址段作为输入,匹配地址段对应的地址要素范围;分词处理,根据地址要素范围对地址段进行分词处理,获得地址要素;计算空间坐标,将地址要素组成分词结果,将分词结果与标准地址库进行匹配,生成空间坐标。本发明能预先对地址要素进行分段,使每一地址段对应到特定的一个或多个地址要素上,减小分词过程中的误差,提高匹配的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于要素预分段的地址匹配方法流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
基于要素预分段的地址匹配方法,如图1所示,包括以下步骤:
地址分段,对待匹配地址进行分段处理,生成地址段。
匹配要素范围,将地址段作为地址匹配的输入,匹配地址段对应的地址要素范围;优选的,匹配要素范围中,根据地址模型匹配地址段对应的地址要素范围,地址要素范围包含若干地址要素,即地址段可以对应到单个地址要素,也可以对应到多个地址要素,地址要素的类型取决于采用的地址模型,不同的地址模型的地址要素构成和名称都有差异。优选的,匹配要素范围还包括检查不同的地址段对应的地址要素是否重合,是则说明输入的地址段有误,匹配失败,否则跳转至步骤分词处理。
分词处理,由于每个地址段已指定其对应的地址要素类型,根据地址要素范围对地址段进行分词处理,获得独立的地址要素;优选的,分词处理中,若地址要素范围包含至少两个地址要素,则根据地址要素范围对地址段进行分词处理,获得地址要素。优选的,分词处理中,若地址要素范围仅包含单个地址要素,则判断地址段与地址要素范围是否匹配。
计算空间坐标,将地址要素组成分词结果,将分词结果与标准地址库进行匹配,生成空间坐标,返回空间坐标。
在一实施例中,对于待匹配地址“湖北省武汉市洪山区123路00号”进行分段处理,生成地址段:“湖北省武汉市”、“洪山区”、“123路00号”,优选的,匹配要素范围中,将地址段“湖北省武汉市”、“洪山区”、“123路00号”作为输入,地址模型对应的地址要素包括省、市、县、乡、道路、门牌号、小区,根据地址模型匹配地址段对应的地址要素范围,地址要素范围为省、市、县、乡、道路、门牌号、小区的任意组合,得到地址段“湖北省武汉市”、“洪山区”、“123路00号”对应的地址要素范围分别为“省、市”、“乡”、“道路、门牌号”。检查地址段“湖北省武汉市”、“洪山区”、“123路00号”对应的地址要素无重复,由于地址段“湖北省武汉市”对应的地址要素包括“省”和“市”,将其进一步分词为“湖北省”和“武汉市”,由于地址段“洪山区”仅包含单个地址要素,不需要进一步分词,但需要验证“洪山区”是否与“乡”匹配,验证结果为真,由于地址段“123路00号”对应的地址要素包括“道路”和“门牌号”,将其进一步分词为“123路”和“00号”。将各地址段分解后的地址要素合并,形成统一的分词结果:“湖北省”、“武汉市”、“洪山区”、“123路”、“00号”,对分词结果与标准地址库进行匹配,得到空间坐标,返回空间坐标。
本发明提供基于要素预分段的地址匹配方法,包括以下步骤:地址分段,对待匹配地址进行分段处理,生成地址段;匹配要素范围,将地址段作为输入,匹配地址段对应的地址要素范围;分词处理,根据地址要素范围对地址段进行分词处理,获得地址要素;计算空间坐标,将地址要素组成分词结果,将分词结果与标准地址库进行匹配,生成空间坐标。本发明能预先对地址要素进行分段,使每一地址段对应到特定的一个或多个地址要素上,减小分词过程中的误差,提高匹配的准确率。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (6)

1.基于要素预分段的地址匹配方法,其特征在于包括以下步骤:
地址分段,对待匹配地址进行分段处理,生成地址段;
匹配要素范围,将所述地址段作为输入,匹配所述地址段对应的地址要素范围;
分词处理,根据所述地址要素范围对所述地址段进行分词处理,获得地址要素;
计算空间坐标,将所述地址要素组成分词结果,将所述分词结果与标准地址库进行匹配,生成空间坐标。
2.如权利要求1所述的基于要素预分段的地址匹配方法,其特征在于:所述匹配要素范围中,根据地址模型匹配所述地址段对应的地址要素范围,所述地址要素范围包含若干地址要素。
3.如权利要求2所述的基于要素预分段的地址匹配方法,其特征在于:所述匹配要素范围还包括检查不同的所述地址段对应的地址要素是否重合,是则匹配失败,否则跳转至所述步骤分词处理。
4.如权利要求3所述的基于要素预分段的地址匹配方法,其特征在于:所述分词处理中,若所述地址要素范围包含至少两个地址要素,则根据所述地址要素范围对所述地址段进行分词处理,获得所述地址要素。
5.如权利要求4所述的基于要素预分段的地址匹配方法,其特征在于:所述分词处理中,若所述地址要素范围仅包含单个地址要素,则判断所述地址段与所述地址要素范围是否匹配。
6.如权利要求2所述的基于要素预分段的地址匹配方法,其特征在于:所述匹配要素范围中,所述地址模型对应的地址要素包括省、市、县、乡、道路、门牌号、小区,根据所述地址模型匹配所述地址段对应的地址要素范围,所述地址要素范围为省、市、县、乡、道路、门牌号、小区的任意组合。
CN201810811557.1A 2018-07-23 2018-07-23 基于要素预分段的地址匹配方法 Pending CN109299402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810811557.1A CN109299402A (zh) 2018-07-23 2018-07-23 基于要素预分段的地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810811557.1A CN109299402A (zh) 2018-07-23 2018-07-23 基于要素预分段的地址匹配方法

Publications (1)

Publication Number Publication Date
CN109299402A true CN109299402A (zh) 2019-02-01

Family

ID=65167948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810811557.1A Pending CN109299402A (zh) 2018-07-23 2018-07-23 基于要素预分段的地址匹配方法

Country Status (1)

Country Link
CN (1) CN109299402A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852620A (zh) * 2019-11-12 2020-02-28 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN111625732A (zh) * 2020-05-25 2020-09-04 鼎富智能科技有限公司 地址匹配方法及装置
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN102402533A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 地址匹配方法及系统
CN105512121A (zh) * 2014-09-23 2016-04-20 北京汇通天下物联科技有限公司 基于关键词的地址查询方法
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN108228825A (zh) * 2018-01-02 2018-06-29 北京市燃气集团有限责任公司 一种基于分词的用户地址数据清洗方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402533A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 地址匹配方法及系统
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN105512121A (zh) * 2014-09-23 2016-04-20 北京汇通天下物联科技有限公司 基于关键词的地址查询方法
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN108228825A (zh) * 2018-01-02 2018-06-29 北京市燃气集团有限责任公司 一种基于分词的用户地址数据清洗方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852620A (zh) * 2019-11-12 2020-02-28 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN110852620B (zh) * 2019-11-12 2024-03-05 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN111625732A (zh) * 2020-05-25 2020-09-04 鼎富智能科技有限公司 地址匹配方法及装置
CN111625732B (zh) * 2020-05-25 2023-06-23 鼎富智能科技有限公司 地址匹配方法及装置
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法
CN112528664B (zh) * 2021-02-05 2021-04-27 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法

Similar Documents

Publication Publication Date Title
CN109299402A (zh) 基于要素预分段的地址匹配方法
CN105976604A (zh) 一种基于gis和公交gps数据的公交线路匹配方法
CN106649464B (zh) 一种中文地址树的构建方法及装置
CN107145523B (zh) 基于迭代匹配的大型异构知识库对齐方法
CN112699623B (zh) 基于非结构网格规则化重构技术的高精度热流计算方法
CN105095237B (zh) 用于生成非关系数据库的模式的方法和设备
CN106156004A (zh) 基于词向量的针对电影评论信息的情感分析系统及方法
CN106777292A (zh) 一种数据序列化方法及装置
CN106470122A (zh) 一种网络故障定位方法及装置
CN107729316A (zh) 中文交互式问答文本中错别字的识别和纠错的方法及装置
CN103324632B (zh) 一种基于协同学习的概念识别方法及装置
CN104142962B (zh) 一种对电子地图的线要素进行处理的方法
CN103473388A (zh) 实现流程图自动布局的系统及装置
CN107329950A (zh) 一种基于无词典的中文地址分词方法
CN106547741B (zh) 一种基于搭配的汉语文本自动校对方法
CN103020267A (zh) 基于三角簇多标签传播的复杂网络社区结构挖掘方法
CN109145287A (zh) 印尼语单词检错纠错方法及系统
CN105389596A (zh) 卷积神经网络适用于识别多种尺寸图片的方法
CN104166776B (zh) 一种基于ansys的输电线路导线找形方法
CN108874663A (zh) 黑盒故障注入方法和系统及介质设备
CN107480213A (zh) 基于时序文本网络的社区检测与用户关系预测方法
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN105740521A (zh) 油藏数值模拟系统求解过程中的小网格剔除方法和装置
CN112231775A (zh) 一种基于Adaboost算法的硬件木马检测方法
CN110363848A (zh) 一种基于数字岩心的孔隙网络模型的可视化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201