CN108062365B - 一种提高地址解析准确度的方法 - Google Patents

一种提高地址解析准确度的方法 Download PDF

Info

Publication number
CN108062365B
CN108062365B CN201711279020.7A CN201711279020A CN108062365B CN 108062365 B CN108062365 B CN 108062365B CN 201711279020 A CN201711279020 A CN 201711279020A CN 108062365 B CN108062365 B CN 108062365B
Authority
CN
China
Prior art keywords
address
data
establishing
client
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711279020.7A
Other languages
English (en)
Other versions
CN108062365A (zh
Inventor
王君
刘玉霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiqi Chengdu Technology Co ltd
Original Assignee
Jiqi Chengdu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiqi Chengdu Technology Co ltd filed Critical Jiqi Chengdu Technology Co ltd
Priority to CN201711279020.7A priority Critical patent/CN108062365B/zh
Publication of CN108062365A publication Critical patent/CN108062365A/zh
Application granted granted Critical
Publication of CN108062365B publication Critical patent/CN108062365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。

Description

一种提高地址解析准确度的方法
技术领域
本发明涉及地址解析技术领域,具体为一种提高地址解析准确度的方法。
背景技术
一个精确解析的地址才可以准确的使用在物流运输的订单配送中,帮助物流行业实现派单,提高配送的效率。而在实际过程中,因为第三方地图厂商数据不完整、解析不准确、解析精度不够等原因,造成订单无法派单,订单配送错误,造成订单被打回、丢单、被客户投诉、赔偿等问题,因此极大的增加了配送时间和运力成本。
目前还没有专门的提高物流地址解析准确度方法的技术。已有的提高地址解析方法主要依赖于第三方地图厂商,将解析不准确的地址反馈给地图厂商,等待他们更正。这种方法是可行的。但缺陷是更正不及时,需要大量人工处理,且成本较高。
发明内容
本发明的目的在于提供一种提高地址解析准确度的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;包括以下步骤:
A、将汇通天下DSP的数据库里的数十万条货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路等数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词等信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户可以自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同等,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析等级精度高的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
优选的,所述步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
优选的,所述步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取。
c、多个点距离和最短的点是比较靠近中心,也是点比较集中的区域,通常是认为比较靠谱的。
与现有技术相比,本发明的有益效果是:本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。
附图说明
图1为本发明整体流程图;
图2为本发明私有库检索流程图;
图3为本发明第三方地址解析流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;包括以下步骤:
A、将汇通天下DSP的数据库里的数十万条货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路等数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词等信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户可以自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同等,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析等级精度高的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
本发明中,步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
本发明中,步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取。
c、多个点距离和最短的点是比较靠近中心,也是点比较集中的区域,通常是认为比较靠谱的。
本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;其特征在于:包括以下步骤:
A、将汇通天下DSP的数据库里的货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析高精度的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
2.根据权利要求1所述的一种提高地址解析准确度的方法,其特征在于:所述步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
3.根据权利要求1所述的一种提高地址解析准确度的方法,其特征在于:所述步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取;
c、多个点距离和最短的点是靠近中心,也是点集中的区域,认为靠谱的。
CN201711279020.7A 2017-12-06 2017-12-06 一种提高地址解析准确度的方法 Active CN108062365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711279020.7A CN108062365B (zh) 2017-12-06 2017-12-06 一种提高地址解析准确度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711279020.7A CN108062365B (zh) 2017-12-06 2017-12-06 一种提高地址解析准确度的方法

Publications (2)

Publication Number Publication Date
CN108062365A CN108062365A (zh) 2018-05-22
CN108062365B true CN108062365B (zh) 2021-01-26

Family

ID=62136249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711279020.7A Active CN108062365B (zh) 2017-12-06 2017-12-06 一种提高地址解析准确度的方法

Country Status (1)

Country Link
CN (1) CN108062365B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960795B (zh) * 2019-02-18 2024-05-07 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN111984748A (zh) * 2019-05-22 2020-11-24 深圳中兴飞贷金融科技有限公司 地址信息处理方法和装置、存储介质及电子设备
CN112307169B (zh) * 2020-10-30 2023-12-15 中国平安财产保险股份有限公司 地址数据的匹配方法、装置、计算机设备及存储介质
CN113779370B (zh) * 2020-11-03 2023-09-26 北京京东振世信息技术有限公司 一种地址检索方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8262001B2 (en) * 2010-12-30 2012-09-11 Mitsubishi Electric Research Laboratories, Inc. Method for physically marking objects using continuous functions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于地址分词的自动地理编码算法";马照亭 等;《测绘通报》;20110225(第02期);论文第59-62页 *
"地址匹配技术及在物流网点查询服务中的应用研究";邓峣;《万方数据知识服务平台》;20150520;论文第i7-45页 *

Also Published As

Publication number Publication date
CN108062365A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN108062365B (zh) 一种提高地址解析准确度的方法
Koukoletsos et al. Assessing data completeness of VGI through an automated matching procedure for linear data
CN106600960B (zh) 基于时空聚类分析算法的交通出行起讫点识别方法
CN104750799B (zh) 一种基于地址解析数据的建设用地类型快速识别方法
CN101350012B (zh) 一种地址匹配的方法和系统
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和系统
CN111324679B (zh) 地址信息的处理方法、装置和系统
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN106874384B (zh) 一种异构地址标准转换及匹配方法
CN111625732B (zh) 地址匹配方法及装置
CN111159973B (zh) 一种中文地址的行政区划补齐及标准化方法
CN112988715B (zh) 一种基于开源方式的全球网络地名数据库的构建方法
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN114780680A (zh) 基于地名地址数据库的检索与补全方法及系统
CN110060472B (zh) 道路交通事件定位方法、系统、可读存储介质和设备
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN116955541B (zh) 融合地理要素语义分割与相似度的地址匹配方法和系统
CN108021638B (zh) 一种离线地理编码非结构化地址解析系统
Sarretta et al. Towards the integration of authoritative and OpenStreetMap geospatial datasets in support of the European strategy for data
CN101567150A (zh) 一种数字地图精确定位的方法
Kaur et al. An automated approach for quality assessment of openstreetmap data
CN113268568A (zh) 一种基于分词技术的电力工单重复诉求分析方法
Du et al. A novel semantic recognition framework of urban functional zones supporting urban land structure analytics based on open‐source data
CN115658918A (zh) 一种基于Elasticsearch索引和四段码的地址知识图谱构建系统及构建方法
CN117592462B (zh) 基于地物群的开源地名数据的相关性处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant