CN114780680A - 基于地名地址数据库的检索与补全方法及系统 - Google Patents
基于地名地址数据库的检索与补全方法及系统 Download PDFInfo
- Publication number
- CN114780680A CN114780680A CN202210421308.8A CN202210421308A CN114780680A CN 114780680 A CN114780680 A CN 114780680A CN 202210421308 A CN202210421308 A CN 202210421308A CN 114780680 A CN114780680 A CN 114780680A
- Authority
- CN
- China
- Prior art keywords
- address
- place name
- similarity
- characters
- place
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 93
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 101
- 230000009466 transformation Effects 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于地名地址数据库的检索与补全方法及系统,该方法包括:构建地名地址数据库;构建地名地址数据库知识图谱;根据输入的检索内容判定输入类型;若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全等问题。
Description
技术领域
本发明属于地理信息检索与补全技术领域,尤其涉及一种基于地名地址数据库的检索与补全方法及系统。
背景技术
为推动国家民政、公安、工商、自然资源等部门的信息整合,全国各地都开展了地名地址数据的调查和建库工作。目前全国的地名地址工作已进入收尾阶段,大部门省市县基本完成了该库的建设。检索查询和少量地名地址补全工作成为了后续应用非常重要的方面,传统的检索工作基本都是应用的关键字查询,针对如此巨大的数据库,关键字返回的信息量过大,大部分非用户需要的信息。全文匹配的标准过于“硬”,用户很难准确记得某一个地名或地址的具体信息,且当用户输入搜索信息的过程中不可避免存在漏字、错别字、信息不全、地址名老旧的情况,以上两种方法都很难满足现今的需求。此外由于地址数据量过大,不可避免存在遗漏。
发明内容
本发明针对现有地址检索存在的返回信息量过大、信息不全等问题,提出一种基于地名地址数据库的检索与补全方法及系统。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种基于地名地址数据库的检索与补全方法,包括:
步骤A,构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;
步骤B,构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性,time属性为now 或者before,如果time属性为now,则该权属关系具有现势性,name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系, name属性值为该权属关系存在的时间段;
步骤C,根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;
步骤D,若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;
步骤E,若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
进一步地,所述步骤C包括:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
进一步地,所述步骤D包括:
步骤D1,基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;
步骤D2,将匹配到的别称结果更改为标准地名;
步骤D3,将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;
步骤D4,计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
步骤D5,计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时, b为所有形近字转换后的距离之和加1的倒数,否则b为1;
步骤D6,将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
步骤D7,根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
进一步地,所述步骤E包括:
步骤E1,采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;
步骤E2,地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;
步骤E3,去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;
步骤E4,纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;
步骤E5,基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;
步骤E6,补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;
步骤E7,基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为 now的关联实体替换上级实体;
步骤E8,排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
本发明另一方面提出一种基于地名地址数据库的检索与补全系统,包括:
地名地址数据库构建模块,用于构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;
知识图谱构建模块,用于构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性, time属性为now或者before,如果time属性为now,则该权属关系具有现势性, name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;
输入类型判定模块,用于根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;
地名检索模块,用于若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;
地址检索补全模块,用于若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
进一步地,所述输入类型判定模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
进一步地,所述地名检索模块具体用于:
基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;
将匹配到的别称结果更改为标准地名;
将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;将音近字转换后的相似度a 和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
进一步地,所述地址检索补全模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;
地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;
去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;
纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;
基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;
补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;
基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体;
排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后地名相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
与现有技术相比,本发明具有的有益效果:
本发明首先构建地名地址数据库;然后构建地名地址数据库知识图谱;并根据输入的检索内容判定输入类型;若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。本发明提出了一种地名和地址相似度计算方法,可以科学地衡量返回结果与用户输入内容的语义相似程度,进一步对结果进行排序处理,使得更接近用户意图的结果更靠前。本发明采用推理的方法,基于用户的知识实时对庞大地名地址进行查缺补漏。本发明针对用户认知不足导致返回结果为空时,具有多级应对举措。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全、用户输入错误等问题。
附图说明
图1为本发明实施例一种基于地名地址数据库的检索与补全方法的基本流程图;
图2为本发明实施例一种基于地名地址数据库的检索与补全方法构建的地名地址数据库知识图谱示例图;
图3为本发明实施例一种基于地名地址数据库的检索与补全系统的架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于地名地址数据库的检索与补全方法,包括:
步骤A,构建地名地址数据库;具体地,可参见CH/Z 9002-2007《数字城市地理空间信息公共平台地名/地址分类、描述及编码规则》,第一段为行政区域地名(省/市/县(区),乡镇(街道)/村(社区)可省略),第二段为街路巷名或小区名,第三段为标志物名、门牌号或兴趣点名;值得说明的是,该三段中必须不能同时全部为空项;基于mysql构建地名地址数据库;具体地,地名表、地址表分别如表1、表2所示。
表1地名表(部分示例)
表2地址表(部分示例)
步骤B,构建地名地址数据库知识图谱,即地名地址图数据库,如图2所示;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组(小区、自然村、队、组),标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性,time属性为now或者before,如果 time属性为now,则该权属关系具有现势性,name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;具体地,本发明的地名地址图数据库为原生图数据库 neo4j。
1)城市标准地址格式通常为:
行政区划(省、市、县、街道)+街路巷(街、路、巷、城中村)+门牌号+小区组(小区、建筑物)+楼排号
2)农村标准地址的组成根据行政村是否下设区、组、队或自然村的情况标准地址组成是有差别的。对于农村中下设有区、组、队或自然村的行政村中的农村标准地址组成为:
行政区划(省、市、县、区)+乡镇+街路巷(行政村)+小区组(自然村、队、组)+楼排号;
对于农村中行政村没有下设区、组、队或自然村的农村标准地址组成一般为:
行政区划(省、市、县、区)+乡镇(街道)+街路巷(行政村)+门牌号。
具体地,别称实体来源于地名地址数据库和人工制作;行政区划的权属关系对应的time属性信息来源于行政部门的官网和其他类似的网站。
步骤C,根据输入的检索内容判定输入类型;所述输入类型包括地名、地址。
步骤D,若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回。
步骤E,若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
进一步地,所述步骤C包括:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
具体地,所述步骤C包括:
根据地名和地址的特征,先分词,采用决策树的方法进行分类。比如地址中包含有行政区划的特征以及第二段和第三段地名组合,地名则是要素单一的地址组成要素之一。
分词采用bert+bilstm+CRF算法。其中使用bert预训练模型将单词转化为词向量,作为输入,选用双向长短时记忆网络和条件随机场组成的网络训练模型,预测分词结果。采用决策树进行分类,最终分类结果有2类,分别是单一地名和地址。
进一步地,所述步骤D包括:
步骤D1,基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;具体地,音近字转换使用基于pypinyin库和搜集整理的地名地址数据库(具体为地名表)构建的地名音近字词典库匹配得到;形近字转换基于形近字字典(具体基于外语教学与研究出版社出版,冉红编著的《形近字字典》图书电子版整理得到)和地名地址数据库(具体为地名表)构造的地名形近字词典库匹配得到。
具体地,地名音近字词典库的构建过程如下:首先使用python语言基于 pypinyin库将地名表中地名转化为对应的拼音,并进行平翘舌音和前后鼻音转换,得到地名对应的音近字拼音,从而构成地名音近字词典库。
具体地,地名形近字词典库的构建过程如下:首先基于形近字字典与地名表中地名对应的汉字进行匹配,得到地名对应的形近字,按照地名对应汉字的顺序将匹配得到的各形近字拼接,得到地名形近字;通过上述方式,最终得到各地名对应的地名形近字,从而构成地名形近字词典库。
步骤D2,将匹配到的别称结果更改为标准地名;
步骤D3,考虑到行政区划省、市、县层级输错的概率较小,因此将音近字和形近字转换匹配到的该层级的地名去掉;
步骤D4,计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
步骤D5,计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时, b为所有形近字转换后的距离之和加1的倒数,否则b为1;
步骤D6,将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
步骤D7,根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
进一步地,所述步骤E包括:
步骤E1,采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果。
步骤E2,地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体(即除别称实体之外的实体),将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果。
步骤E3,进一步筛选,由于行政区划省、市、县层级的实体输错的概率较小,去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果。
步骤E4,纠正县级以下地址错误输入:由于用户经常对某一个地方的权属判断不清,导致输入行政区划权属错误,比如将郑州市金水区北林路街道北环路100号,输入为郑州市金水区文化路街道北环路100号等时有发生。因此有必要对此问题进行纠正。由于县级及其以上具体地址实体的输入可能性较小,因此纠正县级以下地址实体。因此当原检索内容的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图,作为候选项地址分词结果。如存在小区名、标志物名、兴趣点等地名,则删除街道、村、门牌的地址实体,获取唯一子图,作为候选项地址分词结果。
步骤E5,基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整(省级除外),根据具体地址实体获取与位置临近具体地址,比如郑州市金水区北林路街道北环路100号,检索地名地址数据库中是否存在郑州市金水区北林路街道北环路101号和郑州市金水区北林路街道北环路99 号,则可推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱(地名地址图数据库)、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果。
步骤E6,补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息。
步骤E7,基于权属关系time属性进行输入地址纠正:随着时间的变化,行政区划的权属关系会发生变化,不少检索者对这种信息并非十分清楚,检索的依旧是旧的权属关系,因此有必要基于time(时间)属性对检索内容进行纠正。针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体。
步骤E8,排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。在上述实施例的基础上,如图3所示,本发明另一方面提出一种基于地名地址数据库的检索与补全系统,包括:
地名地址数据库构建模块,用于构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;
知识图谱构建模块,用于构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性, time属性为now或者before,如果time属性为now,则该权属关系具有现势性, name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;
输入类型判定模块,用于根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;
地名检索模块,用于若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;
地址检索补全模块,用于若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
进一步地,所述输入类型判定模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
进一步地,所述地名检索模块具体用于:
基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;
将匹配到的别称结果更改为标准地名;
将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;将音近字转换后的相似度a 和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
进一步地,所述地址检索补全模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;
地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;
去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;
纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;
基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;
补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;
基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体;
排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加 1的倒数,否则a为1;
计算形近字转换后地名相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
综上,本发明首先构建地名地址数据库;然后构建地名地址数据库知识图谱;并根据输入的检索内容判定输入类型;若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。本发明提出了一种地名和地址相似度计算方法,可以科学地衡量返回结果与用户输入内容的语义相似程度,进一步对结果进行排序处理,使得更接近用户意图的结果更靠前。本发明采用推理的方法,基于用户的知识实时对庞大地名地址进行查缺补漏。本发明针对用户认知不足导致返回结果为空时,具有多级应对举措。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全、用户输入错误等问题。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于地名地址数据库的检索与补全方法,其特征在于,包括:
步骤A,构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;
步骤B,构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性,time属性为now或者before,如果time属性为now,则该权属关系具有现势性,name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;
步骤C,根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;
步骤D,若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;
步骤E,若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
2.根据权利要求1所述的基于地名地址数据库的检索与补全方法,其特征在于,所述步骤C包括:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
3.根据权利要求1所述的基于地名地址数据库的检索与补全方法,其特征在于,所述步骤D包括:
步骤D1,基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;
步骤D2,将匹配到的别称结果更改为标准地名;
步骤D3,将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;
步骤D4,计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
步骤D5,计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
步骤D6,将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
步骤D7,根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
4.根据权利要求3所述的基于地名地址数据库的检索与补全方法,其特征在于,所述步骤E包括:
步骤E1,采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;
步骤E2,地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;
步骤E3,去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;
步骤E4,纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;
步骤E5,基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;
步骤E6,补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;
步骤E7,基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体;
步骤E8,排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
5.一种基于地名地址数据库的检索与补全系统,其特征在于,包括:
地名地址数据库构建模块,用于构建地名地址数据库;所述数据库包含:行政区域地名,街路巷名或小区名,标志物名、门牌号或兴趣点名,各级地名组成的地址;
知识图谱构建模块,用于构建地名地址数据库知识图谱;所述知识图谱的实体包括省、市、县、乡、村5级行政区划,街路巷,小区组,标志物,门牌,兴趣点,别称;所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系,及地名与别称具有的等价关系;所述权属关系具有time属性和name属性,time属性为now或者before,如果time属性为now,则该权属关系具有现势性,name属性值为该权属关系存在的起始时间,如果time属性为before,则该权属关系为历史关系,name属性值为该权属关系存在的时间段;
输入类型判定模块,用于根据输入的检索内容判定输入类型;所述输入类型包括地名、地址;
地名检索模块,用于若输入类型为地名,则查找输入地名的相似地名,并计算查找到的各相似地名的地名整体相似度,按照地名整体相似度由大到小进行排序后返回;
地址检索补全模块,用于若输入类型为地址,则基于输入的检索内容进行分词和地址实体标签确定,去除省、市、县三个层级的地址分词结果,纠正县级以下地址错误输入,补全从省到最小地名实体信息,基于权属关系的time属性对输入的检索内容进行纠正,计算地址整体相似度,并按照地址整体相似度由大到小进行排序后返回。
6.根据权利要求5所述的基于地名地址数据库的检索与补全系统,其特征在于,所述输入类型判定模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,采用决策树的方法进行分类,得到分类结果为地名或地址。
7.根据权利要求5所述的基于地名地址数据库的检索与补全系统,其特征在于,所述地名检索模块具体用于:
基于检索内容原语句、音近字和形近字转换进行匹配,查找输入地名的相似地名候选项;其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到;形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到;
将匹配到的别称结果更改为标准地名;
将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉;
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
计算形近字转换后的相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c:
c=a×b;
根据地名整体相似度由大到小进行排序,若地名整体相似度小于设定的阈值,则去除相应的地名候选项,并将其余地名候选项作为检索结果进行返回。
8.根据权利要求7所述的基于地名地址数据库的检索与补全系统,其特征在于,所述地址检索补全模块具体用于:
采用bert+bilstm+CRF算法对输入的检索内容进行分词,利用音近字转换、形近字转换得出多个分词结果;
地址实体标签确定:根据分词结果匹配地名地址数据库知识图谱,得到词级对应的标签,其中匹配的别称实体转化为与之相关的标准实体,将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果;
去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果;
纠正县级以下地址错误输入:当原检索内容对应的候选项地址分词结果为空时,删除街道或者村的地址实体,获取唯一子图作为候选项地址分词结果;
基于推理验证补全地名地址数据库:当候选地址分词结果为空且输入地址信息结构完整,根据具体地址实体获取与位置临近具体地址,推理输入信息是否正确,若正确则将分词结果及详细地址存储至地名地址数据库中,同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新,并将分词结果作为候选地址分词结果;
补全地址:利用唯一子图路径上的实体,补全从省到最小地名实体信息;
基于权属关系time属性进行输入地址纠正:针对各级实体路径,对于下级到上级的权属关系,time属性为before的,由下级到上级time属性为now的关联实体替换上级实体;
排序:
计算音近字转换后的相似度a,如果拼音相同,则该字的编辑距离为1,如果拼音是通过平翘舌音和前后鼻音转换而来,则该字的编辑距离为2,当所有音近字转换后的编辑距离之和大于0时,a为所有音近字转换后的编辑距离之和加1的倒数,否则a为1;
计算形近字转换后地名相似度b,如果转换后的字与原字笔画数相同,则编辑距离为1,否则为2,当所有形近字转换后的编辑距离之和大于0时,b为所有形近字转换后的距离之和加1的倒数,否则b为1;
计算补全相似度d,当子图连续补全的实体个数大于1时,所述补全相似度由子图连续补全的实体个数的倒数计算得到,否则d为1;
将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e:
e=a×b×d;
根据地址整体相似度由大到小进行排序,若地址整体相似度小于设定的阈值,则去除相应的地址候选项,并将其余地址候选项作为检索结果进行返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210421308.8A CN114780680A (zh) | 2022-04-21 | 2022-04-21 | 基于地名地址数据库的检索与补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210421308.8A CN114780680A (zh) | 2022-04-21 | 2022-04-21 | 基于地名地址数据库的检索与补全方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114780680A true CN114780680A (zh) | 2022-07-22 |
Family
ID=82430588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210421308.8A Pending CN114780680A (zh) | 2022-04-21 | 2022-04-21 | 基于地名地址数据库的检索与补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780680A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618867A (zh) * | 2022-10-27 | 2023-01-17 | 中科星图数字地球合肥有限公司 | 地址纠错方法、装置、计算机设备和存储介质 |
CN116910386A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN117874214A (zh) * | 2024-03-12 | 2024-04-12 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
CN118193664A (zh) * | 2024-05-13 | 2024-06-14 | 云南省标准化研究院 | 一种统一社会信用代码行政区划数据补全方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160701A (ja) * | 1993-12-13 | 1995-06-23 | Sharp Corp | 住所情報検索装置 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN109145169A (zh) * | 2018-07-26 | 2019-01-04 | 浙江省测绘科学技术研究院 | 一种基于统计分词的地址匹配方法 |
CN112364113A (zh) * | 2020-11-13 | 2021-02-12 | 北京明略软件系统有限公司 | 一种地址纠错方法及系统 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN112612863A (zh) * | 2020-12-23 | 2021-04-06 | 武汉大学 | 一种基于中文分词器的地址匹配方法及系统 |
-
2022
- 2022-04-21 CN CN202210421308.8A patent/CN114780680A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160701A (ja) * | 1993-12-13 | 1995-06-23 | Sharp Corp | 住所情報検索装置 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN109145169A (zh) * | 2018-07-26 | 2019-01-04 | 浙江省测绘科学技术研究院 | 一种基于统计分词的地址匹配方法 |
CN112364113A (zh) * | 2020-11-13 | 2021-02-12 | 北京明略软件系统有限公司 | 一种地址纠错方法及系统 |
CN112528174A (zh) * | 2020-11-27 | 2021-03-19 | 暨南大学 | 基于知识图谱和多重匹配的地址修整补全方法及应用 |
CN112612863A (zh) * | 2020-12-23 | 2021-04-06 | 武汉大学 | 一种基于中文分词器的地址匹配方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618867A (zh) * | 2022-10-27 | 2023-01-17 | 中科星图数字地球合肥有限公司 | 地址纠错方法、装置、计算机设备和存储介质 |
CN116910386A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN116910386B (zh) * | 2023-09-14 | 2024-02-02 | 深圳市智慧城市科技发展集团有限公司 | 地址补全方法、终端设备及计算机可读存储介质 |
CN117874214A (zh) * | 2024-03-12 | 2024-04-12 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
CN117874214B (zh) * | 2024-03-12 | 2024-06-11 | 长威信息科技发展股份有限公司 | 一种地址信息的标准化治理及动态匹配的方法及设备 |
CN118193664A (zh) * | 2024-05-13 | 2024-06-14 | 云南省标准化研究院 | 一种统一社会信用代码行政区划数据补全方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN104679885B (zh) | 一种基于语义特征模型的用户搜索串机构名识别方法 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN103412888B (zh) | 一种兴趣点识别方法和装置 | |
CN106909611A (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN107908627A (zh) | 一种多语言的地图poi 搜索系统 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN112749265A (zh) | 一种基于多信息源的智能问答系统 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN114168705B (zh) | 一种基于地址要素索引的中文地址匹配方法 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
CN112069824A (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
CN111325235A (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN113626536B (zh) | 一种基于深度学习的新闻地理编码方法 | |
CN113535883A (zh) | 商业场所实体链接方法、系统、电子设备及存储介质 | |
CN114792091A (zh) | 基于词汇增强的中文地址要素解析方法、设备及存储介质 | |
Chang et al. | On chinese postal address and associated information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |