CN104572992A - 基于多约束推理的互联网地理位置信息规范化方法 - Google Patents
基于多约束推理的互联网地理位置信息规范化方法 Download PDFInfo
- Publication number
- CN104572992A CN104572992A CN201510004485.6A CN201510004485A CN104572992A CN 104572992 A CN104572992 A CN 104572992A CN 201510004485 A CN201510004485 A CN 201510004485A CN 104572992 A CN104572992 A CN 104572992A
- Authority
- CN
- China
- Prior art keywords
- geographical
- internet
- information
- address
- location information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种基于多约束推理的互联网地理位置信息规范化方法,首先利用爬虫从互联网上挖掘需要的原始文本地理信息,然后利用自定义的地理规范化模型,对从互联网中获取的零散的、不易理解的地理信息进行规范化,将他们进行分词,按照规范化的格式进行存储,最后结合贝叶斯公式进行计算判断信息的可信度,进行信息库的更新,使已经建立的规范化的地理文本信息库不断的完善和充实,信息的准确性和可靠性不断的提升。本发明提出了基于多约束的贝叶斯算法,提高了地理信息的准确性。
Description
技术领域
本发明涉及地理位置信息消歧领域,具体涉及基于多约束推理的互联网地理位置信息规范化方法。
背景技术
科技的不断发展,人们对生活中各个方面的需求不断提升,服务化社会成为未来发展的趋势。作为服务化中的一种形式,当今地理信息位置服务是通过国家地理信息普查、实地勘察等方式获取数据建立一个标准的中文地址库,然后通过匹配进行信息返回。然而,这种形式存在随着社会的不断发展居民区、道路等因素的不断变化,为标准参考数据集的建立带来障碍。面对这个问题,将互联网看成信息量大,并且不断更新的大型数据库。从互联网中挖掘出相关的地理文本信息弥补地理信息服务中面临的主要问题。
互联网的不断发展,网络上正误交织的地理文本信息与日俱增,如何从这些纷繁复杂的信息中,辨别出相对于用户需要的信任度比较高的信息,构建一个正确性相对比较高的地理信息库,在当今地理信息位置服务方面变得十分必要,一个基于多约束推理的地理信息挖掘算法随着用户的需要而产生。
兰州大学的杜萍博士将地理本体与中文地名识别与抽取有机结合在一起,重点研究消除地名歧义,设计了一种基于本体的地名识别与抽取框架,并且实现了地名识别与抽取系统,这里只是重点消除歧义并没有综合判断获得的信息的正误。国内外目前有关地理文本信息挖掘方面的研究主要集中在如何有效的主题信息,并没有对所挖掘的地理信息进行有效的判断实现真正意义上的地理信息挖掘。
发明内容
本发明要解决的技术问题是:提供一种基于多约束推理的互联网地理位置信息规范化方法,
本发明为解决上述技术问题所采取的技术方案为:一种基于多约束推理的互联网地理位置信息规范化方法,其特征在于:它包括以下步骤:
S1、通过网络爬虫从互联网上爬取原始地理位置信息,建立原始地理位置信息的语料库;
S2、对S1的语料库进行统计,建立行政区划、电话、邮编之间的地址关系,得到规范的地理文本信息,规范化模型为省+市+县+乡镇+村+路;
S3、利用建立的地址关系、语料库统计的词频进行地址分词。
按上述方法,它还包括S4、定期或不定期的从互联网上获取原始地理位置信息,按S2方法得到规范的地理文本信息,利用贝叶斯算法,对规范的地理文本信息进行推理判断,如果存在有歧义的地址,则对该地址进行消歧,完成对地理文本信息库的更新。
按上述方法,所述的S4具体为:
4.1、将规范的地理文本信息进行地址分词,分成的词按照区域从大到小排序,大的在前,小的在后,得到每个词出现的概率;
4.2、计算相邻两个词之间,当出现后一词时,出现前一词的概率;P(A|B)表示在事件B出现时,事件A出现的概率,P(A|C)表示事件C出现时,事件A出现的概率;通过对比P(A|B)和P(A|C)的大小,判断较大的值所对应的地址可信度更大,较小的值所对应的地址可能存在歧义;
4.3、预设概率阈值,当得出的概率值小于该概率阈值时,对该概率值对应的地址进行消岐。
本发明的有益效果为:利用互联网文本信息挖掘方法,结合自定义的面向地理位置服务的互联网数据规范表达模型,根据行政区域划分和地理位置信息的特点将地理文本信息进行规范化,并针对其中可能存在的信息缺失和错误进行补充和纠正,从而,从互联网中获取需要的、相对完整的、规范化的地理文本信息。
附图说明
图1本发明实施例的流程图
具体实施方式
下面结合附图和实例对本发明作进一步说明。
本发明提供一种基于多约束推理的互联网地理位置信息规范化方法,包括以下步骤:
S1、通过网络爬虫从互联网爬取原始地理位置信息,建立原始地理位置信息的语料库;
以爱帮网为例,通过爬虫从该网址上爬取一条地理信息为:湖北省武汉市洪山区,电话027-87451069,邮编430074,其中对应的地区的电话区号和邮编的前3位等作为辅助信息。
S2、对S1的语料库进行统计,建立行政区划(省、地、县)、电话、邮编之间的地址关系,得到规范的地理文本信息,规范化模型为省+市+县+乡镇+村+路。
通过统计整个地理文本信息库,知道某条地址和区号、邮编之间存在关系。例如:湖北省武汉市可能与区号027、邮编430存在着联系。
S3、利用建立的地址关系、语料库统计的词频进行地址分词。
在数以千计的互联网网页中获取的地理文本信息有时可能存在以下几种问题:
(1)关键字丢失(省略省一级行政区划):例如从互联网中获取的信息可能是“江苏南通海安县海安镇海化路28号”,或者是“南通市海安县海安镇海化路28号”。
(2)关键字并不是单字构成:例如“新疆维吾尔族自治区”而不是“新疆省”。
(3)地址信息中有错误或者空格信息:例如“湖北省深圳市”,或者“湖北省武汉市”。
(4)少数情况下行政级别名相同:例如“吉林省吉林市”。
在收到原始地理位置信息后,首先进行预处理去除空格等干扰分词的字符;对预处理后的信息从左边开始遍历,依次截取行政区域划分模块中的关键字为“省”“市”等的子串,分别存储在不同级别的区域中,最后将各个级别的信息汇总放入行政区域划分模块;
为了能够对基本地理文本信息库进行更新和纠错,还包括S4、定期或不定期的从互联网上获取原始地理位置信息,按S2方法得到规范的地理文本信息,利用贝叶斯算法,对规范的地理文本信息进行推理判断,如果存在有歧义的地址,则对该地址进行消歧,完成对地理文本信息库的更新。
所述的S4具体为:
4.1、将规范的地理文本信息进行地址分词,分成的词按照区域从大到小排序,大的在前,小的在后,得到每个词出现的概率;例如“鼓楼区,区号025”,此时地址缺失了省、地市,存在歧义,需要用到电话号码或邮编等作为约束来消除歧义。如果区号是南京则地址为江苏省南京市鼓楼区,如果区号是福州,则地址为福建省福州市鼓楼区。
4.2、计算相邻两个词之间,当出现后一词时,出现前一词的概率;例如P(A|B)表示在事件B“武汉市”出现时,事件A“湖北省”出现的概率,P(B|C)表示时间C“洪山区”出现时,“武汉市”出现的概率;例如“湖北省深圳市”,P(A|B)表示在事件B“深圳市”出现时,事件“A”湖北省出现的概率,通过对比两个P(A|B)的概率,如果前者大,则说明湖北省武汉市这条地址的可信度越高,后者的地址可能存在歧义。
通过贝叶斯公式的推断计算出P(B|A)的值,其中P(B|A)表示事件A出现时事件B出现的概率。例如通过计算P(B|A)的值可以判断武汉市与湖北省的紧密程度,概率越高表示A与B关系越紧密,它们之间的信任程度就越高,则这条信息的可靠信就越高。
以下提供实验对比说明本方法的有效性。
采用了基于信任的贝叶斯算法,该算法从互联网上随机爬取了26160个地址作为训练集,然后从26160条记录中取了25600个地址作为测试集。
在结果准确率上,为了和其他方法进行对比,本发明实施例中选取统计分词算法作为比较对象,测试样本与该实施例中的样本数量一致,测试结果如表所示:
其中,需要对以下几个概念进行介绍:
(1)有效:这里的有效是指,按照目前的9级行政区划进行划分,将互联网中获取的一条地理信息的记录中含有前三级行政区划(省、市、县)的记录,记为有效的地理信息记录。
(2)无效:与有效相对应的,在一条地理信息记录中不包含有9级行政区划中的前3级的地理信息记录,或者前三级行政区划划分信息有所缺失的现象。
(3)直接解析:对一条新地理信息记录,直接按照前面定义的规范化模型在已有的地址信息库中进行解析。
(4)信任解析:根据信任传播的思想结合贝叶斯推断对一些存在歧义现象的地理信息记录进行解析。
(5)匹配:相比规范化以后的地理信息库中的信息,可以直接匹配。
(6)非匹配:相比规范化以后的地理信息库中的信息,不能直接进行匹配。
由上表可以看出:
(1)通过直接解析进行解析的时候只能解析部分的信息,不能解析匹配和非匹配信息中的全部信息,通过引入信任解析可以对直接解析不能解析的信息进行解析,大大提高了效率,提高了互联网中挖掘的信息的整体效率,使地理信息库中有效的地理信息条目数量有了一个很大的提升。
(2)通过引入信任解析,辨别出更多的非匹配的信息,从而提高获取地理信息记录的正确性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (3)
1.一种基于多约束推理的互联网地理位置信息规范化方法,其特征在于:它包括以下步骤:
S1、通过网络爬虫从互联网上爬取原始地理位置信息,建立原始地理位置信息的语料库;
S2、对S1的语料库进行统计,建立行政区划、电话、邮编之间的地址关系,得到规范的地理文本信息,规范化模型为省+市+县+乡镇+村+路;
S3、利用建立的地址关系、语料库统计的词频进行地址分词。
2.根据权利要求1所述的一种基于多约束推理的互联网地理位置信息规范化方法,其特征在于:它还包括S4、定期或不定期的从互联网上获取原始地理位置信息,按S2方法得到规范的地理文本信息,利用贝叶斯算法,对规范的地理文本信息进行推理判断,如果存在有歧义的地址,则对该地址进行消歧,完成对地理文本信息库的更新。
3.根据权利要求1所述的一种基于多约束推理的互联网地理位置信息规范化方法,其特征在于:所述的S4具体为:
4.1、将规范的地理文本信息进行地址分词,分成的词按照区域从大到小排序,大的在前,小的在后,得到每个词出现的概率;
4.2、计算相邻两个词之间,当出现后一词时,出现前一词的概率;P(A|B)表示在事件B出现时,事件A出现的概率,P(A|C)表示事件C出现时,事件A出现的概率;通过对比P(A|B)和P(A|C)的大小,判断较大的值所对应的地址可信度更大,较小的值所对应的地址可能存在歧义;
4.3、预设概率阈值,当得出的概率值小于该概率阈值时,对该概率值对应的地址进行消岐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004485.6A CN104572992B (zh) | 2015-01-06 | 2015-01-06 | 基于多约束推理的互联网地理位置信息规范化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004485.6A CN104572992B (zh) | 2015-01-06 | 2015-01-06 | 基于多约束推理的互联网地理位置信息规范化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572992A true CN104572992A (zh) | 2015-04-29 |
CN104572992B CN104572992B (zh) | 2018-07-17 |
Family
ID=53089054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510004485.6A Expired - Fee Related CN104572992B (zh) | 2015-01-06 | 2015-01-06 | 基于多约束推理的互联网地理位置信息规范化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572992B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108572948A (zh) * | 2017-03-14 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 门牌信息的处理方法及装置 |
CN109190997A (zh) * | 2018-09-18 | 2019-01-11 | 广东电网有限责任公司 | 中文地址层级化解析与规范处理方法和系统 |
CN110413715A (zh) * | 2019-07-16 | 2019-11-05 | 联动优势科技有限公司 | 一种地址的标准化处理方法及装置 |
CN111797628A (zh) * | 2020-06-03 | 2020-10-20 | 武汉理工大学 | 一种基于时间地理学的游记地名消歧方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
CN102880721A (zh) * | 2012-10-15 | 2013-01-16 | 瑞庭网络技术(上海)有限公司 | 垂直搜索引擎的实现方法 |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
-
2015
- 2015-01-06 CN CN201510004485.6A patent/CN104572992B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
CN102880721A (zh) * | 2012-10-15 | 2013-01-16 | 瑞庭网络技术(上海)有限公司 | 垂直搜索引擎的实现方法 |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
杜萍,刘勇: "中文地名识别与歧义消除", 《遥感技术与应用》 * |
詹毅: "朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析", 《成都大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108572948A (zh) * | 2017-03-14 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 门牌信息的处理方法及装置 |
CN109190997A (zh) * | 2018-09-18 | 2019-01-11 | 广东电网有限责任公司 | 中文地址层级化解析与规范处理方法和系统 |
CN110413715A (zh) * | 2019-07-16 | 2019-11-05 | 联动优势科技有限公司 | 一种地址的标准化处理方法及装置 |
CN111797628A (zh) * | 2020-06-03 | 2020-10-20 | 武汉理工大学 | 一种基于时间地理学的游记地名消歧方法 |
CN111797628B (zh) * | 2020-06-03 | 2024-03-08 | 武汉理工大学 | 一种基于时间地理学的游记地名消歧方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104572992B (zh) | 2018-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695355B (zh) | 地址文本识别方法、装置、介质、电子设备 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
CN112069276B (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN102955833B (zh) | 一种通讯地址识别、标准化的方法 | |
CN104572992A (zh) | 基于多约束推理的互联网地理位置信息规范化方法 | |
CN112528174B (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
Tempelmeier et al. | Linking OpenStreetMap with knowledge graphs—Link discovery for schema-agnostic volunteered geographic information | |
Nesi et al. | Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering | |
CN102253972A (zh) | 基于网络爬虫的地名数据库维护方法 | |
CN111899821A (zh) | 处理医疗机构数据的方法、构建数据库的方法和装置 | |
CN111899822B (zh) | 医疗机构数据库构建方法、查询方法、装置、设备和介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
Starikovskaya | Computing lempel-ziv factorization online | |
Cheng et al. | Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations | |
CN102460440B (zh) | 搜索方法和设备 | |
CN112069824A (zh) | 基于上下文概率和引证的地域识别方法、装置及介质 | |
Katz et al. | To learn or to rule: two approaches for extracting geographical information from unstructured text | |
CN118278381A (zh) | 基于知识图谱的运单生成方法及装置 | |
Xiao et al. | BugRadar: Bug localization by knowledge graph link prediction | |
CN110119424A (zh) | 基于圆桌流感算法的稀疏信任挖掘方法 | |
CN104657486A (zh) | 一种基于多因子的行政区划的可信度计算的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180717 Termination date: 20210106 |