CN112380858A - 基于政务大数据的地址补全和纠正方法 - Google Patents
基于政务大数据的地址补全和纠正方法 Download PDFInfo
- Publication number
- CN112380858A CN112380858A CN202011258738.XA CN202011258738A CN112380858A CN 112380858 A CN112380858 A CN 112380858A CN 202011258738 A CN202011258738 A CN 202011258738A CN 112380858 A CN112380858 A CN 112380858A
- Authority
- CN
- China
- Prior art keywords
- address
- street
- matching
- town
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 230000009191 jumping Effects 0.000 claims abstract description 9
- 239000013589 supplement Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 5
- 230000014509 gene expression Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于政务大数据的地址补全和纠正方法,包括:构建基于Tire树的标准地址;地址分词;构建语料库;若待测试地址中包含四级行政区域,根据Tire树,查找街道或者镇是否符合规范,若符合规范,则不需要匹配,直接跳到步骤六;若不符合,则获取切分地址之后的最小地址,利用改进的词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;若待测试地址中不包含街道或者镇,则获取切分地址之后的最小地址,利用词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;步骤六、利用Tire树补全地址。该方法功能全面,补全和纠正准确高效。
Description
技术领域
本发明涉及一种基于政务大数据的地址补全和纠正方法。
背景技术
大数据时代,每天都会产生大量信息,包含大量数据地址的产生。由于语言方式,命名习惯的不同,会出现对同一地址存在多种表达方式,往往也存在地址错误表述,因此有必要进行地址的规范化。作为智慧城市建设中最重要的环节,它的匹配率和准确率直接影响智慧城市建设的水平,所以提高匹配率和准确率是一个重要的问题。
现有的地址补全和纠正方法大多是采用单个地址匹配算法或多策略结合的地址匹配算法,存在匹配率和准确率低等问题。
具体的,当前非标准地址或者错误地址有以下几种情况:
1、行政区划地址要素不完整,例如缺少区、县、或者街道、镇;
2、行政区划地址要素错误,可能的原因为,一是由于行政区划的调整,区、县、街道、镇发生了变动,但是仍然采用过去的表述;二是地址登记失误导致输入地址拼写错误。
发明内容
本发明的目的是提供一种基于政务大数据的地址补全和纠正方法,该方法能够对地址中的行政区划不完整进行补全,也能够对最小地址元素进行查找匹配,补全行政区划地址,还能够对地址中的行政区划错误地址进行纠正,功能全面,准确高效。
为了实现上述目的,本发明提供了一种基于政务大数据的地址补全和纠正方法,包括:
步骤一、构建基于Tire树的标准地址;
步骤二、地址分词;
步骤三、构建语料库;
步骤四、若待测试地址中包含省,市,区(县),街道(镇)四级行政区域,根据Tire树,查找街道或者镇是否符合规范,若符合规范,则不需要匹配,直接跳到步骤六;若不符合,则获取切分地址之后的最小地址,利用改进的词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤五、若待测试地址中不包含街道或者镇,则获取切分地址之后的最小地址,利用词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤六、利用Tire树,根据街道(镇)补全省,市,区(县)地址。
优选地,步骤一中的地址树支持四级行政区域划分,即省,市,区(县),街道(镇),可由子节点查找到所有父节点。
优选地,步骤二包括根据行政区划名称将源地址划分为多个子地址,并去除数字和特殊字符。
优选地,步骤三包括根据公安标准地址建立语料库,语料库按照街道和镇进行切分。
优选地,步骤四和步骤五中,在匹配前采用余弦函数改进的TF-IDF算法进行文本权重的设置,包括:
将地址切分成N个词,第一个词的权重为cos(π/2(N+1)),第二个词的权重为cos(2*π/2(N+1)),第N个词的权重为cos(N*π/2(N+1)),然后进行归一化处理。
优选地,步骤二中地址分词采用Jieba分词,并且加载自定义分词语料库,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词。
根据上述技术方案,本发明创建了一个基于Tire树结构的行政区域,提供了地址信息向后级反查功能,并给出一种基于Tire树和改进的TF-IDF算法地名地址匹配方法,该方法依据政务大数据多年积累的政务业务部门数据,可以准确的进行地址补全和纠正。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明中基于改进的TF-IDF地址匹配模型图;
图2是本发明中基于Tire树的地址匹配模型。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在本发明中,在未作相反说明的情况下,包含在术语中的方位词仅代表该术语在常规使用状态下的方位,或为本领域技术人员理解的俗称,而不应视为对该术语的限制。
参见图1和图2,本发明提供一种基于政务大数据的地址补全和纠正方法,包括:
步骤一、构建基于Tire树的标准地址;
步骤二、地址分词;
步骤三、构建语料库;
步骤四、若待测试地址中包含省,市,区(县),街道(镇)四级行政区域,根据Tire树,查找街道或者镇是否符合规范,若符合规范,则不需要匹配,直接跳到步骤六;若不符合,则获取切分地址之后的最小地址,利用改进的词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤五、若待测试地址中不包含街道或者镇,则获取切分地址之后的最小地址,利用词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤六、利用Tire树,根据街道(镇)补全省,市,区(县)地址。
其中,
步骤一中的地址树支持四级行政区域划分,即省,市,区(县),街道(镇),可由子节点查找到所有父节点。例如:输入“第一区”,即能够匹配到“第一省第一市第一区”;输入“第一街道”,即能够匹配到“第一省第一市第一区第一街道”。
步骤二包括根据行政区划名称将源地址划分为多个子地址,并去除数字和特殊字符。例如:“第一省第一市第一区第一街道第一小区”的分词结果为“第一省+第一市+第一区+第一街道+第一小区”。
步骤三包括根据公安标准地址建立语料库,语料库按照街道和镇进行切分。例如:“第一省第一市第一区第一街道第一小区”和“第一省第一市第一区第一街道第二小区”,语料库的构建以“第一街道”为名,包含子地址“第一小区”和“第二小区”。
在政务领域,地址匹配往往通过个人认知和经验手动进行匹配,这种方法准确的完全依赖于个人水平,存在不可控性和准确度低的情况。在大数据时代,对于海量地址信息的匹配,仍通过人为手动匹配这种方式显然是不可取的。
TF-IDF算法虽考虑了词频和逆文档频率,但是却不能反应词的位置信息,在对关键词进行提取的时候,词的不同位置的信息量是不同的,应该赋予不同权重。例如在地址补全中,待匹配中文地址经过分词之后,按照中文描述地址的习惯,习惯将有意义的词,或者具体地址的词放在前面进行表述,因此应该对每个词赋予不同的权重。
在址补全纠正和补全方法中,待匹配的地址一般形如:“第一村第一村民组”,“第一小区6号1楼”,“第一小区4区11栋1号”,“第一商城E5-6”,“第一路第一小区1幢11号门面”。由此可见,往往优先的词是地址中前段部分,而且越靠前的信息量越大。因此,本发明采用余弦函数改进的TF-IDF算法,进行文本权重的设置。假设地址切分成N个词,每个词的权重按照如下方法设置:第一个词的权重为cos(π/2(N+1)),第二个词的权重为cos(2*π/2(N+1)),第N个词的权重为cos(N*π/2(N+1)),然后进行归一化处理,权证设置可以保证前段部分所占比重大,后段部分比重小,符合上文中所述地址的表述习惯。
通过基于改进的TF-IDF算法,比较待查询地址与建立的语料库,找到符合最佳的相似度,对应的街道(镇),再根据事先建立好的管辖机关字典,查找此街道对应的管辖机关。
此外,步骤二中地址分词采用Jieba分词,并且加载自定义分词语料库,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词。
通过上述技术方案,本发明基于政务大数据,利用Tire树和改进的TF-IDF匹配算法,进行地址的匹配和补全。提出一种基于相似度的地址补全模型,基于政务大数据的地址语料库,并按照街道(镇)切分。假设当前语料库共有k个,每个语料库中包含的地址为Ai个(i的取值范围从1到k),即第一个预料库中的地址有A1个,第二个预料库中的地址有A2个,第k个预料库地址有Ak。假设待匹配地址的总数为N个,对于待匹配地址切分之后的最小地址Addrn(n取值从1到N),利用改进的TF-IDF算法循环遍历k个语料库中的所有地址,匹配的地址和对应的相似度共计:并得到词相似度值,设定阈值T,比较相似度大小,该地址最佳的匹配地址和所对应的街道。若阈值小于T,进入人工匹配阶段。
综上所述,本发明基于Tire树地址匹配算法,对地址中的行政区划不完整进行补全;基于改进的TF-IDF算法,对最小地址元素进行查找匹配,补全行政区划地址;基于Tire树和改进的TF-IDF算法,对地址中的行政区划错误地址进行纠正。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (6)
1.一种基于政务大数据的地址补全和纠正方法,其特征在于,包括:
步骤一、构建基于Tire树的标准地址;
步骤二、地址分词;
步骤三、构建语料库;
步骤四、若待测试地址中包含省,市,区(县),街道(镇)四级行政区域,根据Tire树,查找街道或者镇是否符合规范,若符合规范,则不需要匹配,直接跳到步骤六;若不符合,则获取切分地址之后的最小地址,利用改进的词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤五、若待测试地址中不包含街道或者镇,则获取切分地址之后的最小地址,利用词向量相似度算法匹配语料库,匹配到最大的相似度所对应街道(镇),跳到步骤六;
步骤六、利用Tire树,根据街道(镇)补全省,市,区(县)地址。
2.根据权利要求1所述的基于政务大数据的地址补全和纠正方法,其特征在于,步骤一中的地址树支持四级行政区域划分,即省,市,区(县),街道(镇),可由子节点查找到所有父节点。
3.根据权利要求1所述的基于政务大数据的地址补全和纠正方法,其特征在于,步骤二包括根据行政区划名称将源地址划分为多个子地址,并去除数字和特殊字符。
4.根据权利要求1所述的基于政务大数据的地址补全和纠正方法,其特征在于,步骤三包括根据公安标准地址建立语料库,语料库按照街道和镇进行切分。
5.根据权利要求1所述的基于政务大数据的地址补全和纠正方法,其特征在于,步骤四和步骤五中,在匹配前采用余弦函数改进的TF-IDF算法进行文本权重的设置,包括:
将地址切分成N个词,第一个词的权重为cos(π/2(N+1)),第二个词的权重为cos(2*π/2(N+1)),第N个词的权重为cos(N*π/2(N+1)),然后进行归一化处理。
6.根据权利要求1所述的基于政务大数据的地址补全和纠正方法,其特征在于,步骤二中地址分词采用Jieba分词,并且加载自定义分词语料库,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258738.XA CN112380858A (zh) | 2020-11-12 | 2020-11-12 | 基于政务大数据的地址补全和纠正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258738.XA CN112380858A (zh) | 2020-11-12 | 2020-11-12 | 基于政务大数据的地址补全和纠正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380858A true CN112380858A (zh) | 2021-02-19 |
Family
ID=74582958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011258738.XA Pending CN112380858A (zh) | 2020-11-12 | 2020-11-12 | 基于政务大数据的地址补全和纠正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380858A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491089A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536677A (zh) * | 2018-04-09 | 2018-09-14 | 北京信息科技大学 | 一种专利文本相似度计算方法 |
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
-
2020
- 2020-11-12 CN CN202011258738.XA patent/CN112380858A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804398A (zh) * | 2017-05-03 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 地址文本的相似度计算方法及装置 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN108536677A (zh) * | 2018-04-09 | 2018-09-14 | 北京信息科技大学 | 一种专利文本相似度计算方法 |
CN109815498A (zh) * | 2019-01-25 | 2019-05-28 | 深圳市小赢信息技术有限责任公司 | 一种中文地址标准化方法、装置及电子设备 |
CN111159973A (zh) * | 2019-12-13 | 2020-05-15 | 中关村科技软件股份有限公司 | 一种中文地址的行政区划补齐及标准化方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491089A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
CN114491089B (zh) * | 2022-01-28 | 2023-08-29 | 北京百度网讯科技有限公司 | 地址获取方法、装置、电子设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558179B1 (en) | Training a probabilistic spelling checker from structured data | |
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
US20200349175A1 (en) | Address Search Method and Device | |
CN107145545B (zh) | 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法 | |
CN110019647B (zh) | 一种关键词搜索方法、装置和搜索引擎 | |
CN104143331B (zh) | 一种添加标点的方法和系统 | |
CN108549629B (zh) | 一种结合相似度和图匹配的老-汉双语句子对齐方法 | |
CN111639566B (zh) | 一种提取表单信息的方法及装置 | |
CN106874287A (zh) | 一种兴趣点poi地址编码的处理方法及装置 | |
CN106021336A (zh) | 一种对批量地址信息进行自动行政区划划分的方法 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN111291099B (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN104679801A (zh) | 一种兴趣点搜索方法和装置 | |
CN112559658B (zh) | 一种地址匹配方法及装置 | |
CN107153687B (zh) | 一种社交网络文本数据的索引方法 | |
US20210026893A1 (en) | System and method for improving geocoding performance | |
CN109522335B (zh) | 一种信息获取方法、装置及计算机可读存储介质 | |
CN112380858A (zh) | 基于政务大数据的地址补全和纠正方法 | |
CN112069824B (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN109871536B (zh) | 地名识别方法和装置 | |
CN113515677B (zh) | 地址匹配方法、装置及计算机可读存储介质 | |
CN114003812A (zh) | 地址匹配方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |
|
RJ01 | Rejection of invention patent application after publication |