CN111523321A - 基于规则和统计分词的地址差异性判断方法 - Google Patents

基于规则和统计分词的地址差异性判断方法 Download PDF

Info

Publication number
CN111523321A
CN111523321A CN202010331451.9A CN202010331451A CN111523321A CN 111523321 A CN111523321 A CN 111523321A CN 202010331451 A CN202010331451 A CN 202010331451A CN 111523321 A CN111523321 A CN 111523321A
Authority
CN
China
Prior art keywords
address
word segmentation
level
rules
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010331451.9A
Other languages
English (en)
Inventor
宗阳
高亢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yiweike Information Technology Co ltd
Original Assignee
Tianjin Yiweike Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Yiweike Information Technology Co ltd filed Critical Tianjin Yiweike Information Technology Co ltd
Priority to CN202010331451.9A priority Critical patent/CN111523321A/zh
Publication of CN111523321A publication Critical patent/CN111523321A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于规则和统计分词的地址差异性判断方法,包括:获取全国三级行政区域地址数据;获取用户输入的用户地址数据,并将该用户地址数据分成省市区三级的行政区域地址和详细地址;以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理;将详细地址进行分词处理;将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并;通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。该方法可以节省大量的人工标注任务和计算机存储空间。

Description

基于规则和统计分词的地址差异性判断方法
技术领域
本发明涉及地理信息处理技术领域,特别是涉及一种基于规则和统计分词的地址差异性判断方法。
背景技术
申请号为CN201910246155.6,名称为地址标准化处理方法和设备的中国发明专利申请。该方案包括涉及一种地址标准化处理方法和设备,该方法包括:获取初始地址;对初始地址进行预处理得到预处理后的地址;在预处理后的地址中提取至少一个已记录在规范化地址信息库中的地址名称,规范化地址信息库为预先建立的,其中记录国家的各级地址的标准名称和级别信息和各级地址的别名名称,各级地址包括省级地址、市级地址和区县级地址,级别信息用于表明各级地址的上下级关系;根据所提取的地址名称对应的级别信息在所提取的地址名称中确定最低级别的地址名称,并根据所述规范化地址信息库确定其对应的至少一级地址的标准名称;将该标准名称作为标准化处理后的地址。本申请可以根据初始地址得到国家省级地址、市级地址以及区县级地址的标准名称。
申请号为CN 201510493012.7,名称为一种中文地址分词方法及系统的中国发明专利申请。该方案公开一种中文地址分词方法及系统。方法包括:获取地址词典表,将地址词典表中所包括的地址元素采用词典标签进行标识得到标签地址元素词典;获取包括至少一个字的待分词地址,将所述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素,执行预设的规则将待匹配字符采用地址分词标签分别进行标识;对待分词地址中的待匹配字符,执行预设的规则根据所标识的地址分词标签所包括的词典标签进行分词。本发明对地址的每个字均采用标签进行标识,从而使得分词时能够根据该标签进行分割,将地址元素信息降维,使得分词更为简单快捷。
但是,上述方案一通过获取用户数据和标准地址来生成省-市-区的标准化解决方案。比如,河南省周口市扶沟县金海花苑3号501和河南省扶沟县金海花苑3号501,这两个地址代表同一个地方,但后者缺少周口市。有的地址是省市区全称,有的是简称。比如,全称地址是河南省周口市扶沟县,简称地址是河南周口扶沟县。就上述问题该方法可以解决到河南省周口市扶沟县这一层级地域,但是对详细地址(金海花苑3号501)缺乏处理。另外,此方法对存储空间要求巨大,需要存储国家地址树结构才能进行后续的查找匹配。不能很好的解决缺省信息严重的地址标准化问题,也不能处理详细地址信息。
方案二通过设计分词标注规则,标注大量的地址信息语料进行分词。算法的准确率依赖于标注的准确性,而标注是一项耗费人力的大工程。分词是人工智能领域自然语言处理中不可或缺的步骤,但是大规模的地址标注数据不公开使得这一技术难点主要体现在标注数据的获取上面。
发明内容
本发明的目的在于提供一种基于规则和统计分词的地址差异性判断方法,可以节省大量的人工标注任务和计算机存储空间。
为实现上述目的,本发明提供了一种基于规则和统计分词的地址差异性判断方法,包括:获取全国三级行政区域地址数据;获取用户输入的用户地址数据,并将该用户地址数据分成省市区三级的行政区域地址和详细地址;以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理;将详细地址进行分词处理;将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并;通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。
可选的或优选的,通过地址层次词语构建地址层次列表,根据递归算法和基于统计方法来进行分词。
可选的或优选的,将地址分词以后的词典作为列表,通过MinHash来计算地址文本相似度。
可选的或优选的,通过设定七级地址等级关键词进行分词。
可选的或优选的,所述七级地址等级关键词如下:
第一级=['省','市','区','县','村','镇'];
第二级=['路','大道','街','巷','胡同','道','里'];
第三级=['号','弄','期'];
第四级=['园','城','府','苑','墅','馆','寓','城','院','堂','庄'];
第五级=['号','栋','幢'];
第六级=['层','楼','元','座'];
第七级=['室','号']。
可选的或优选的,计算地址文本相似度大于某阈值时判断两个地址为同一个地址。
可选的或优选的,利用正反向最大匹配规则进行详细地址分词处理。
本发明提供的技术方案带来的有益效果是:通过获取国家三级行政区域地址标准,对缺省或者不标准的三级地址信息进行补全或者更正,这比直接进行分词处理更加标准。对于详细地址的处理,通过分词来进行实现。分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。将地址分词以后的词典作为列表通过MinHash来计算相似度,另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合,大大的提高了准确度。
附图说明
图1是本发明实施例提供的基于规则和分词的地址差异性判断的流程图。
图2是本发明实施例提供的基于规则和分词的地址差异性判断的具体实例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。显然,所描述的实施例实际上仅仅是说明性的或者示例性的,决不作为对本发明及其应用或使用的任何限制。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的全部细节均已了解的情况下实施。下面对实施例的描述仅仅是为了通过展示本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供一种基于规则和统计分词的地址差异性判断方法,基于规则来进行缺省地址补全为标准化地址,并对详细地址(到门牌号)进行规则加统计方法的分词实现。最终通过minHash算法计算两个相似地址的相似度,设置两个地址相等程度的阈值。并通过规则最终确定两个地址(标准地址与冗余地址;标准地址与缺省地址;两个相似的地址)是否是同一个地址。
通过本技术方案,对于缺省的行政地址区域,本方案可以补全缺省的省市区地址信息。同时在风控系统用户画像判断两个地址是否是同一个地址时,本方案不需要进行大规模的地址语料库标注数据和分词训练,通过地址层次词语构建地址层次列表,根据递归的算法设计解决来进行分词。节省大量的人工标注任务和计算机存储空间。
结合图2,具体地:
第一步:获取全国三级行政区域地址数据,例如:江苏南京西城标准的国家区域划分为:江苏省南京市西城区。
第二步:获取用户输入的用户地址数据,如下:
1.江苏省南京市西城区牛街东里一区x号楼y层110。
2.南京市西城区牛街东里一区xy110。
并将该地址分成行政区域地址(省市区)和详细地址,行政区域地址例如:江苏省南京市西城区,详细地址例如:牛街东里一区x号楼y层110。
第三步:根据国家发布的行政区域划分对行政区域地址进行处理,包括补全缺省信息或更正,将行政区域地址标准化,例如地址2处理由南京市西城区得到江苏省南京市西城区。这比直接进行分词处理更加标准。
第四步:详细地址进行分词处理,例如:西城区牛街东里一区x号楼y层110分词得到:
[西城区,牛街东里,一区,x号楼,y层,110室]
该分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。
第五步:合并数据,比如:
地址1.[江苏省,南京市,西城区,牛街东里,一区,x号楼,y层,110室];
地址2.[南京市,西城区,牛街东里,一区,x,y,110]。
第六步:判断地址数字特征值是否相等。
第七步:通过分词结果,基于minhash算法进行相似度计算。
通过上述第六步和第七步,将地址分词以后的词典作为列表通过MinHash来计算相似度,另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合,大大的提高了准确度。
第八步:返回结果
综上,通过获取国家三级行政区域地址标准,对缺省或者不标准的三级地址信息进行补全或者更正,这比直接进行分词处理更加标准。对于详细地址的处理,通过分词来进行实现。分词主要整理地址层次词列表通过递归算法和基于统计的方法配合来进行分词。将地址分词以后的词典作为列表通过MinHash来计算相似度,另一方面提取地址数字特征。当地址数字特征完全相同且相似度大于阈值时即认为两个地址相同。通过地址数字特征和相似度计算的方法结合,大大的提高了准确度。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利发明说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
以上所述仅为本发明的示例实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于规则和统计分词的地址差异性判断方法,其特征在于,包括:
获取全国三级行政区域地址数据;
获取用户输入的用户地址数据,并将该用户地址数据分成省市区三级的行政区域地址和详细地址;
以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理;
将详细地址进行分词处理;
将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并;
通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。
2.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,通过地址层次词语构建地址层次列表,根据递归算法和基于统计方法来进行分词。
3.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法,其特征在于,将地址分词以后的词典作为列表,通过MinHash来计算地址文本相似度。
4.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法,其特征在于,通过设定七级地址等级关键词进行分词。
5.根据权利要求4所述的基于规则和统计分词的地址差异性判断方法,其特征在于,所述七级地址等级关键词如下:
第一级=['省','市','区','县','村','镇'];
第二级=['路','大道','街','巷','胡同','道','里'];
第三级=['号','弄','期'];
第四级=['园','城','府','苑','墅','馆','寓','城','院','堂','庄'];
第五级=['号','栋','幢'];
第六级=['层','楼','元','座'];
第七级=['室','号']。
6.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,计算地址文本相似度大于某阈值时判断两个地址为同一个地址。
7.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,利用正反向最大匹配规则进行详细地址分词处理。
CN202010331451.9A 2020-04-24 2020-04-24 基于规则和统计分词的地址差异性判断方法 Withdrawn CN111523321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331451.9A CN111523321A (zh) 2020-04-24 2020-04-24 基于规则和统计分词的地址差异性判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331451.9A CN111523321A (zh) 2020-04-24 2020-04-24 基于规则和统计分词的地址差异性判断方法

Publications (1)

Publication Number Publication Date
CN111523321A true CN111523321A (zh) 2020-08-11

Family

ID=71903233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331451.9A Withdrawn CN111523321A (zh) 2020-04-24 2020-04-24 基于规则和统计分词的地址差异性判断方法

Country Status (1)

Country Link
CN (1) CN111523321A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686732A (zh) * 2021-01-06 2021-04-20 中国联合网络通信集团有限公司 异常地址数据识别方法、装置、设备、介质及产品
CN112887423A (zh) * 2021-02-24 2021-06-01 三川智慧科技股份有限公司 一种远程调试水表的方法及系统
CN113343688A (zh) * 2021-06-22 2021-09-03 南京星云数字技术有限公司 地址相似度确定方法、装置和计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686732A (zh) * 2021-01-06 2021-04-20 中国联合网络通信集团有限公司 异常地址数据识别方法、装置、设备、介质及产品
CN112686732B (zh) * 2021-01-06 2023-07-11 中国联合网络通信集团有限公司 异常地址数据识别方法、装置、设备、介质
CN112887423A (zh) * 2021-02-24 2021-06-01 三川智慧科技股份有限公司 一种远程调试水表的方法及系统
CN113343688A (zh) * 2021-06-22 2021-09-03 南京星云数字技术有限公司 地址相似度确定方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111523321A (zh) 基于规则和统计分词的地址差异性判断方法
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
US10783171B2 (en) Address search method and device
CN103440311A (zh) 一种地名实体识别的方法及系统
CN101393544A (zh) 面向地址编码的中文地址语义解析方法
CN106777300A (zh) 基础地址库构建方法及系统
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN107025232A (zh) 物流系统中地址信息的处理方法及装置
CN103678385B (zh) 一种适用于移动搜索的个性化词典构造方法
CN110399613B (zh) 一种基于词性标注的互联网新闻涉及地名识别方法及系统
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质
CN109522335B (zh) 一种信息获取方法、装置及计算机可读存储介质
CN110147420A (zh) 一种基于图谱模型的地名地址匹配查询方法及系统
CN112287657B (zh) 基于文本相似度的信息匹配系统
CN112307169A (zh) 地址数据的匹配方法、装置、计算机设备及存储介质
CN112015865A (zh) 基于分词的全称匹配搜索方法、装置、设备及存储介质
CN115062108A (zh) 一种获取标准化房产地址的方法
CN113901792A (zh) 一种快递地址标准化方法、系统和计算机程序
CN113221558B (zh) 一种快递地址纠错方法、装置、存储介质及电子设备
CN114003812A (zh) 地址匹配方法、系统、设备及存储介质
CN109299456B (zh) 一种地名识别方法
CN109727591B (zh) 一种语音搜索的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200811