CN104572992A

CN104572992A - 基于多约束推理的互联网地理位置信息规范化方法

Info

Publication number: CN104572992A
Application number: CN201510004485.6A
Authority: CN
Inventors: 李晓林; 魏运运; 张彦铎; 卢涛; 段艳会; 张玉敏; 黄爽; 万永静; 杨威
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2015-01-06
Filing date: 2015-01-06
Publication date: 2015-04-29
Anticipated expiration: 2035-01-06
Also published as: CN104572992B

Abstract

本发明提供一种基于多约束推理的互联网地理位置信息规范化方法，首先利用爬虫从互联网上挖掘需要的原始文本地理信息，然后利用自定义的地理规范化模型，对从互联网中获取的零散的、不易理解的地理信息进行规范化，将他们进行分词，按照规范化的格式进行存储，最后结合贝叶斯公式进行计算判断信息的可信度，进行信息库的更新，使已经建立的规范化的地理文本信息库不断的完善和充实，信息的准确性和可靠性不断的提升。本发明提出了基于多约束的贝叶斯算法，提高了地理信息的准确性。

Description

基于多约束推理的互联网地理位置信息规范化方法

技术领域

本发明涉及地理位置信息消歧领域，具体涉及基于多约束推理的互联网地理位置信息规范化方法。

背景技术

科技的不断发展，人们对生活中各个方面的需求不断提升，服务化社会成为未来发展的趋势。作为服务化中的一种形式，当今地理信息位置服务是通过国家地理信息普查、实地勘察等方式获取数据建立一个标准的中文地址库，然后通过匹配进行信息返回。然而，这种形式存在随着社会的不断发展居民区、道路等因素的不断变化，为标准参考数据集的建立带来障碍。面对这个问题，将互联网看成信息量大，并且不断更新的大型数据库。从互联网中挖掘出相关的地理文本信息弥补地理信息服务中面临的主要问题。

互联网的不断发展，网络上正误交织的地理文本信息与日俱增，如何从这些纷繁复杂的信息中，辨别出相对于用户需要的信任度比较高的信息，构建一个正确性相对比较高的地理信息库，在当今地理信息位置服务方面变得十分必要，一个基于多约束推理的地理信息挖掘算法随着用户的需要而产生。

兰州大学的杜萍博士将地理本体与中文地名识别与抽取有机结合在一起，重点研究消除地名歧义，设计了一种基于本体的地名识别与抽取框架，并且实现了地名识别与抽取系统，这里只是重点消除歧义并没有综合判断获得的信息的正误。国内外目前有关地理文本信息挖掘方面的研究主要集中在如何有效的主题信息，并没有对所挖掘的地理信息进行有效的判断实现真正意义上的地理信息挖掘。

发明内容

本发明要解决的技术问题是：提供一种基于多约束推理的互联网地理位置信息规范化方法，

本发明为解决上述技术问题所采取的技术方案为：一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：它包括以下步骤：

S1、通过网络爬虫从互联网上爬取原始地理位置信息，建立原始地理位置信息的语料库；

S2、对S1的语料库进行统计，建立行政区划、电话、邮编之间的地址关系，得到规范的地理文本信息，规范化模型为省+市+县+乡镇+村+路；

S3、利用建立的地址关系、语料库统计的词频进行地址分词。

按上述方法，它还包括S4、定期或不定期的从互联网上获取原始地理位置信息，按S2方法得到规范的地理文本信息，利用贝叶斯算法，对规范的地理文本信息进行推理判断，如果存在有歧义的地址，则对该地址进行消歧，完成对地理文本信息库的更新。

按上述方法，所述的S4具体为：

4.1、将规范的地理文本信息进行地址分词，分成的词按照区域从大到小排序，大的在前，小的在后，得到每个词出现的概率；

4.2、计算相邻两个词之间，当出现后一词时，出现前一词的概率；P(A|B)表示在事件B出现时，事件A出现的概率，P(A|C)表示事件C出现时，事件A出现的概率；通过对比P(A|B)和P(A|C)的大小，判断较大的值所对应的地址可信度更大，较小的值所对应的地址可能存在歧义；

4.3、预设概率阈值，当得出的概率值小于该概率阈值时，对该概率值对应的地址进行消岐。

本发明的有益效果为：利用互联网文本信息挖掘方法，结合自定义的面向地理位置服务的互联网数据规范表达模型，根据行政区域划分和地理位置信息的特点将地理文本信息进行规范化，并针对其中可能存在的信息缺失和错误进行补充和纠正，从而，从互联网中获取需要的、相对完整的、规范化的地理文本信息。

附图说明

图1本发明实施例的流程图

具体实施方式

下面结合附图和实例对本发明作进一步说明。

本发明提供一种基于多约束推理的互联网地理位置信息规范化方法，包括以下步骤：

S1、通过网络爬虫从互联网爬取原始地理位置信息，建立原始地理位置信息的语料库；

以爱帮网为例，通过爬虫从该网址上爬取一条地理信息为：湖北省武汉市洪山区，电话027-87451069，邮编430074，其中对应的地区的电话区号和邮编的前3位等作为辅助信息。

S2、对S1的语料库进行统计，建立行政区划(省、地、县)、电话、邮编之间的地址关系，得到规范的地理文本信息，规范化模型为省+市+县+乡镇+村+路。

通过统计整个地理文本信息库，知道某条地址和区号、邮编之间存在关系。例如：湖北省武汉市可能与区号027、邮编430存在着联系。

在数以千计的互联网网页中获取的地理文本信息有时可能存在以下几种问题：

(1)关键字丢失(省略省一级行政区划)：例如从互联网中获取的信息可能是“江苏南通海安县海安镇海化路28号”，或者是“南通市海安县海安镇海化路28号”。

(2)关键字并不是单字构成：例如“新疆维吾尔族自治区”而不是“新疆省”。

(3)地址信息中有错误或者空格信息：例如“湖北省深圳市”，或者“湖北省武汉市”。

(4)少数情况下行政级别名相同：例如“吉林省吉林市”。

在收到原始地理位置信息后，首先进行预处理去除空格等干扰分词的字符；对预处理后的信息从左边开始遍历，依次截取行政区域划分模块中的关键字为“省”“市”等的子串，分别存储在不同级别的区域中，最后将各个级别的信息汇总放入行政区域划分模块；

为了能够对基本地理文本信息库进行更新和纠错，还包括S4、定期或不定期的从互联网上获取原始地理位置信息，按S2方法得到规范的地理文本信息，利用贝叶斯算法，对规范的地理文本信息进行推理判断，如果存在有歧义的地址，则对该地址进行消歧，完成对地理文本信息库的更新。

所述的S4具体为：

4.1、将规范的地理文本信息进行地址分词，分成的词按照区域从大到小排序，大的在前，小的在后，得到每个词出现的概率；例如“鼓楼区，区号025”，此时地址缺失了省、地市，存在歧义，需要用到电话号码或邮编等作为约束来消除歧义。如果区号是南京则地址为江苏省南京市鼓楼区，如果区号是福州，则地址为福建省福州市鼓楼区。

4.2、计算相邻两个词之间，当出现后一词时，出现前一词的概率；例如P(A|B)表示在事件B“武汉市”出现时，事件A“湖北省”出现的概率，P(B|C)表示时间C“洪山区”出现时，“武汉市”出现的概率；例如“湖北省深圳市”，P(A|B)表示在事件B“深圳市”出现时，事件“A”湖北省出现的概率，通过对比两个P(A|B)的概率，如果前者大，则说明湖北省武汉市这条地址的可信度越高，后者的地址可能存在歧义。

通过贝叶斯公式的推断计算出P(B|A)的值，其中P(B|A)表示事件A出现时事件B出现的概率。例如通过计算P(B|A)的值可以判断武汉市与湖北省的紧密程度，概率越高表示A与B关系越紧密，它们之间的信任程度就越高，则这条信息的可靠信就越高。

以下提供实验对比说明本方法的有效性。

采用了基于信任的贝叶斯算法，该算法从互联网上随机爬取了26160个地址作为训练集，然后从26160条记录中取了25600个地址作为测试集。

在结果准确率上，为了和其他方法进行对比，本发明实施例中选取统计分词算法作为比较对象，测试样本与该实施例中的样本数量一致，测试结果如表所示：

其中，需要对以下几个概念进行介绍：

(1)有效：这里的有效是指，按照目前的9级行政区划进行划分，将互联网中获取的一条地理信息的记录中含有前三级行政区划(省、市、县)的记录，记为有效的地理信息记录。

(2)无效：与有效相对应的，在一条地理信息记录中不包含有9级行政区划中的前3级的地理信息记录，或者前三级行政区划划分信息有所缺失的现象。

(3)直接解析：对一条新地理信息记录，直接按照前面定义的规范化模型在已有的地址信息库中进行解析。

(4)信任解析：根据信任传播的思想结合贝叶斯推断对一些存在歧义现象的地理信息记录进行解析。

(5)匹配：相比规范化以后的地理信息库中的信息，可以直接匹配。

(6)非匹配：相比规范化以后的地理信息库中的信息，不能直接进行匹配。

由上表可以看出：

(1)通过直接解析进行解析的时候只能解析部分的信息，不能解析匹配和非匹配信息中的全部信息，通过引入信任解析可以对直接解析不能解析的信息进行解析，大大提高了效率，提高了互联网中挖掘的信息的整体效率，使地理信息库中有效的地理信息条目数量有了一个很大的提升。

(2)通过引入信任解析，辨别出更多的非匹配的信息，从而提高获取地理信息记录的正确性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：它包括以下步骤：

2.根据权利要求1所述的一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：它还包括S4、定期或不定期的从互联网上获取原始地理位置信息，按S2方法得到规范的地理文本信息，利用贝叶斯算法，对规范的地理文本信息进行推理判断，如果存在有歧义的地址，则对该地址进行消歧，完成对地理文本信息库的更新。

3.根据权利要求1所述的一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：所述的S4具体为：