CN108062365A - 一种提高地址解析准确度的方法 - Google Patents
一种提高地址解析准确度的方法 Download PDFInfo
- Publication number
- CN108062365A CN108062365A CN201711279020.7A CN201711279020A CN108062365A CN 108062365 A CN108062365 A CN 108062365A CN 201711279020 A CN201711279020 A CN 201711279020A CN 108062365 A CN108062365 A CN 108062365A
- Authority
- CN
- China
- Prior art keywords
- address
- data
- client
- parsing
- established
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。
Description
技术领域
本发明涉及地址解析技术领域,具体为一种提高地址解析准确度的方法。
背景技术
一个精确解析的地址才可以准确的使用在物流运输的订单配送中,帮助物流行业实现派单,提高配送的效率。而在实际过程中,因为第三方地图厂商数据不完整、解析不准确、解析精度不够等原因,造成订单无法派单,订单配送错误,造成订单被打回、丢单、被客户投诉、赔偿等问题,因此极大的增加了配送时间和运力成本。
目前还没有专门的提高物流地址解析准确度方法的技术。已有的提高地址解析方法主要依赖于第三方地图厂商,将解析不准确的地址反馈给地图厂商,等待他们更正。这种方法是可行的。但缺陷是更正不及时,需要大量人工处理,且成本较高。
发明内容
本发明的目的在于提供一种提高地址解析准确度的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;包括以下步骤:
A、将汇通天下DSP的数据库里的数十万条货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路等数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词等信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户可以自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同等,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析等级精度高的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
优选的,所述步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
优选的,所述步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取。
c、多个点距离和最短的点是比较靠近中心,也是点比较集中的区域,通常是认为比较靠谱的。
与现有技术相比,本发明的有益效果是:本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。
附图说明
图1为本发明整体流程图;
图2为本发明私有库检索流程图;
图3为本发明第三方地址解析流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;包括以下步骤:
A、将汇通天下DSP的数据库里的数十万条货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路等数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词等信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户可以自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同等,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析等级精度高的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
本发明中,步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
本发明中,步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取。
c、多个点距离和最短的点是比较靠近中心,也是点比较集中的区域,通常是认为比较靠谱的。
本发明能够易于修改和维护地址库,并构建一个可自我学习的地址库,不断丰富完善,提高匹配范围和匹配精度,从而提高地址解析的精准度;本发明能够快速响应客户处理存在解析问题的地址,通过客户标注一个地址,解决同一块区域的解析问题,而不用这个区域每个地址去标注,从而提高客户处理问题地址的效率;本发明根据系统里数十万条真实货车轨迹解析数据不断丰富地址库,有效地避免了人工采集、记录可能存在的错误,使得公用库的命中结果有极高的准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种提高地址解析准确度的方法,包括建立字典库和公共库,建立地址私有库,建立缓存,第三方结果选取四部分;其特征在于:包括以下步骤:
A、将汇通天下DSP的数据库里的数十万条货车行车轨迹解析数据,按轨迹点的密集度抽稀数据,通过分级地址数据的方法建立地址库,除去高速路等数据,抽取城市道路和小区、园区数据不断丰富地址库;具体流程为:
a、根据行政区划,爬取道路、小区、边界词、地名、人名、同义词、相似词关键词信息建立字典库;
b、通过分级地址数据的方法,并转换为地址要素库,采用基于地址词典的中文分词技术,实现地址与经纬度的转换,建立公共库;
c、抽取的轨迹解析数据,通过地址分词划分分级地址,并统计分析数据,基于词频统计分析自动识别未登录词等信息,去重和过滤信息不完整的数据,将准确和完整的数据入库,丰富公共库;
d、公共库在解析数据中有客户反馈不准确的,系统会纠正或标记,如果有标记,系统会自动去验证这条数据并试图在丰富公有库的过程中去修复,自动维护公共库;
B、建立客户私有数据库,NOSQL的数据模型,针对不规范和不完整的地址,客户可以自行标注这些地址存入到私有库,同一个地方的多个地址,门址号不同等,客户标注一个中心点即可,不用每个去标注;
C、建立缓存数据库,当解析等级精度高的地址会存入到缓存数据库,NOSQL的数据模型,存入的地址会建立相应的分词分级地址索引,查询的时候根据分词索引来命中,最终将会计算匹配的分词等级,返回高等级的结果;
D、第三方地址解析,能利用网络丰富的资源为客户提供全面,最精确的解析服务;多个第三方结果如何选取,通过和原始地址做一个分词的相似度计算,可以拿到一个最相似的结果地址,如果高相似度并且高等级精度,认为可用,如果相似度不够,选取高等级精度的地址,取与多点间距离和最短的地址。
2.根据权利要求1所述的一种提高地址解析准确度的方法,其特征在于:所述步骤B的具体流程为:
a、建立客户的组织机构,通过客户注册的方式获取组织机构;
b、解析地址时,客户传入组织机构码,根据地址和组织机构码检索私有库;
c、检索会根据分词索引命中标注的地址。
3.根据权利要求1所述的一种提高地址解析准确度的方法,其特征在于:所述步骤D的具体流程为:
a、通过标注样本地址,跑出相似度的选取参考值;
b、大于等于相似度参考值和大于等于指定解析等级精度的第三方结果才能选取。
c、多个点距离和最短的点是比较靠近中心,也是点比较集中的区域,通常是认为比较靠谱的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279020.7A CN108062365B (zh) | 2017-12-06 | 2017-12-06 | 一种提高地址解析准确度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279020.7A CN108062365B (zh) | 2017-12-06 | 2017-12-06 | 一种提高地址解析准确度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108062365A true CN108062365A (zh) | 2018-05-22 |
CN108062365B CN108062365B (zh) | 2021-01-26 |
Family
ID=62136249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711279020.7A Active CN108062365B (zh) | 2017-12-06 | 2017-12-06 | 一种提高地址解析准确度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108062365B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111984748A (zh) * | 2019-05-22 | 2020-11-24 | 深圳中兴飞贷金融科技有限公司 | 地址信息处理方法和装置、存储介质及电子设备 |
CN112307169A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安财产保险股份有限公司 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
CN113779370A (zh) * | 2020-11-03 | 2021-12-10 | 北京京东振世信息技术有限公司 | 一种地址检索方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
US20120168523A1 (en) * | 2010-12-30 | 2012-07-05 | Raymond Yim | Method for Physically Making Objects Continuous Functions |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
-
2017
- 2017-12-06 CN CN201711279020.7A patent/CN108062365B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120168523A1 (en) * | 2010-12-30 | 2012-07-05 | Raymond Yim | Method for Physically Making Objects Continuous Functions |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
Non-Patent Citations (2)
Title |
---|
邓峣: ""地址匹配技术及在物流网点查询服务中的应用研究"", 《万方数据知识服务平台》 * |
马照亭 等: ""一种基于地址分词的自动地理编码算法"", 《测绘通报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN109960795B (zh) * | 2019-02-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111984748A (zh) * | 2019-05-22 | 2020-11-24 | 深圳中兴飞贷金融科技有限公司 | 地址信息处理方法和装置、存储介质及电子设备 |
CN112307169A (zh) * | 2020-10-30 | 2021-02-02 | 中国平安财产保险股份有限公司 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
CN112307169B (zh) * | 2020-10-30 | 2023-12-15 | 中国平安财产保险股份有限公司 | 地址数据的匹配方法、装置、计算机设备及存储介质 |
CN113779370A (zh) * | 2020-11-03 | 2021-12-10 | 北京京东振世信息技术有限公司 | 一种地址检索方法和装置 |
CN113779370B (zh) * | 2020-11-03 | 2023-09-26 | 北京京东振世信息技术有限公司 | 一种地址检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108062365B (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062365A (zh) | 一种提高地址解析准确度的方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN109359200A (zh) | 地名地址数据智能解析系统 | |
CN101882163A (zh) | 一种基于匹配规则的模糊中文地址地理赋值方法 | |
CN107016042B (zh) | 一种基于用户位置日志的地址信息校验系统 | |
CN110990585A (zh) | 构建行业知识图谱的多源数据和时间序列处理方法及装置 | |
CN106874384A (zh) | 一种异构地址标准转换及匹配方法 | |
CN111291277A (zh) | 一种基于语义识别和高级语言搜索的地址标准化方法 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN104199840A (zh) | 基于统计模型的智能地名识别技术 | |
CN107577791A (zh) | 一种企业征信人名重名消歧的方法及运用该方法的征信系统 | |
CN107577744A (zh) | 非标地址自动匹配模型、匹配方法以及模型建立方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114417802A (zh) | 一种智能化报表生成系统 | |
CN111488409A (zh) | 一种城市地址库构建方法、检索方法及装置 | |
CN114168705A (zh) | 一种基于地址要素索引的中文地址匹配方法 | |
CN106980639A (zh) | 短文本数据聚合系统及方法 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN117370539A (zh) | 一种基于知识库和大模型的法律条文信息推荐系统 | |
CN113569005B (zh) | 一种基于数据内容的大规模数据特征智能化提取方法 | |
CN108153860A (zh) | 一种基于多语言新闻的地理位置分析方法 | |
CN111625549B (zh) | 一种不动产登记空间数据户落幢快速模糊匹配方法 | |
CN114358546A (zh) | 一种造价指标收集及分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |