CN107368471A

CN107368471A - 一种网页文本中地名地址的提取方法

Info

Publication number: CN107368471A
Application number: CN201710517421.5A
Authority: CN
Inventors: 李成名; 沈建明; 印洁; 洪志远; 武鹏达; 杜中波; 刘丽; 孙隆祥
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-21
Anticipated expiration: 2037-06-29
Also published as: CN107368471B

Abstract

本发明公开了一种网页文本中地名地址的提取方法，包括以下步骤：由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因，并据此构建地名地址基因库；依据地名地址基因库对网页文本中的网页信息进行中文分词，获取网页信息中出现的事件；建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树，完成对网页文本中地名地址的完整识别与提取。本发明通过构建地名地址基因库并改进分词算法提高网页文本中地名地址识别的准确性与连贯性；通过考虑地名地址的事件属性，构建地名地址事件相关度、字符长度等因子组成的提取规则树，提高网页文本中地名地址识别的效率与实用性。

Description

一种网页文本中地名地址的提取方法

技术领域

本发明涉及地理信息系统领域，具体是一种网页文本中地名地址的提取方法。

背景技术

计算机与网络的出现改变着人们的生产生活方式。自网络诞生以来，其信息量便以级数级别增长，其内容包罗万象，多种多样，地理空间数据是这些信息中重要的一部分。地理信息学家Michael Goodchild教授指出，通过社交网络与众包(crowd sourcing)活动所产生的地理空间数据将足以和专业数据相媲美，这些数据中蕴含着丰富的位置信息，且多以地名地址的形式出现，因此，如何从大量的网页信息中及时准确的提取有效的地名地址，以便为人们的生产生活提供服务，成为GIS领域亟待解决的问题。

地名是人们对具有特定方位、地域范围的地理实体赋予的专有名称；地址是具有地名的某一特定空间位置上自然或人文地理实体位置的结构化描述。在指代空间范围上，地名的指代范围要大于等于地址的指代范围，同时地名指代地点具有模糊性，地址更具体指代某个地点。如地名“天宁寺”即可以指代天宁寺本身，又可以指代天宁寺周边区域。相比之下，地址“西城区天宁寺西夹道2号”指代的地点比较具体。

网页信息由于各新闻媒体要求以及新闻编辑人员写作习惯的不同，导致同一事件的网页报道正文往往存在差异，网页信息出现多样性。但仔细分析可以发现，网页信息中对地名地址的使用存在一些共性特点：

(1)事件相关性。地名地址在网页文本中出现时往往伴随着当地发生的某些事件，事件与地名地址文本的各自位置通常相离较近，且针对某些特殊事件的新闻报道中地名地址会交代的十分清楚。如有一处火灾发生在“北京市西城区德内大街93号院”，事件“火灾”与地址“北京市西城区德内大街93号院”往往相距不远且地址详细。

(2)描述相似性。不同网页文本在地名地址的描述上具有共性，即描述同一事件发生的地点基本是不变的。如某件事发生在“北京市西城区德内大街93号院”，大型的新闻媒体一般会将“北京市西城区德内大街93号院”作为地址使用，而地方性的小型新闻媒体则会出现诸如“西城区德内大街93号院”，“德内大街93号院”等相似地址使用形式。

(3)“最长即最准确”。网页信息中总会出现较为全面的地名地址信息，在字符长度上表现为长度最长的地名地址。换言之，长度最长的地名地址往往是文中最详细的地名地址，也是我们要提取的目标地名地址。

这些特性将有助于在网页文本中提取地名地址信息。目前，在地名地址提取方面国内外主要相关研究成果集中在三个方面，分别是基于字典与统计的地名地址提取、基于规则的地名地址提取及基于机器学习的地名地址提取。翟凤文等提出了一种字典与统计相结合的中文分词方法，提高了交集型歧义切分的准确率，并且在一定条件下解决了语境中高频未登录词问题；李宏波提出的分词词典和统计分析相结合的解决方案，合理解决了歧义词和未登录词两大难题；张雪英等以大规模地名词典和地址数据库为数据源，提出了中文地址的数字表达方式，提高了识别的准确率；李丽双等提出了支持向量机(SupportVector Machine，SVM)与规则相结合的中文地名自动识别方法，得到了SVM识别地名的机器学习模型；M Kang，DU Qingyun等提出了一种基于地址树模型的地址提取方法。

然而，已有的研究只是对文本中存在的地名地址识别，忽略了地名地址在网页信息中的事件属性，导致在应用中往往会造成大量的数据冗余，同时，在涉及到的中文分词上使用的词典往往是分词器自带词典，这些词典比较适用于部分文章分词，对于地名地址分词效率低、准确率差。

发明内容

本发明的目的在于提供一种网页文本中地名地址的提取方法，通过系统收集某地区的地名地址基因作为中文分词的词典，并依据事件相关度、地名地址的字符长度等因子提取目标地名地址。

为实现上述目的，本发明提供如下技术方案：

一种网页文本中地名地址的提取方法，包括以下步骤：

A、由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因，并据此构建地名地址基因库；

B、依据地名地址基因库对网页文本中的网页信息进行中文分词，获取网页信息中出现的事件；

C、建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树，完成对网页文本中地名地址的完整识别与提取。

作为本发明进一步的方案：地名地址基因包括地名地址专有名与地名地址通配名。

作为本发明进一步的方案：地名地址基因的类型分为:公路、路桥、河流、湖/潭、建筑物、纪念地、环岛、交通站场、街巷、铁路、名胜古迹、桥梁、冠名楼、地片、楼号、政区、住宅区、自然村、隧道、体育设施、开发区、山峰、山脉、泉、水库、水渠、门牌。

作为本发明进一步的方案：步骤B中，中文分词采用基于词典的中文分词方法，将地名地址基因库作为分词的词典。

作为本发明进一步的方案：采用增字匹配方法获取网页信息中的地名地址通配名；增字匹配算法优先提取包括号、号楼、号院、栋、幢的通配名，进而增取此类地名地址基因元素之前字符，将增取得字符与原有通配名合并为一个地名地址基因。

作为本发明进一步的方案：步骤B中，设网页信息的地名地址使用形式为“......d1.....d2......dn”，其中“......”表示网页信息中的汉字描述，di(i＝1，2.....n)表示网页信息中出现的地名地址基因。

作为本发明进一步的方案：步骤B中，设网页信息中事件的形式为“......E1......E2......En......”，其中“......”表示网页信息中若干汉字描述，E(i)(i＝1，2.....n)表示网页信息中的事件。

作为本发明进一步的方案：事件相关度W(i)如式(1)所示：

W(i)＝min(|dreendsig(nj)-Eventsign(i)|)(i,j＝0,1,2......n) (1)

式中，dreendsign(j)为完整地名地址标记，Eventsign(i)为事件标记。

作为本发明进一步的方案：提取规则树的建立过程：记Condreend length(i)(i＝1，2.....n)为地名地址字符长度，Condreend count(i)(i＝1，2.....n)为地名地址在文中出现的次数，Totaldreend count为文中地名地址总数，设立地名地址的提取权重值E(i)如式(2)所示：

每个地名地址都有一个提取权重值，取所有的权重值的最大值，依据映射关系得到提取目标地名地址。

作为本发明进一步的方案：步骤B中，获取网页信息中出现的事件，即获得地名地址基因标记数组元素；

将地名地址基因的数组元素与地名地址基因标记数组元素一一对应，如果di(i＝1，2.....n)的首字字符位数减去dj(j＝1，2.....n)的首字字符位数等于di(i＝1，2.....n)的字符长度，则证明di与dj是相邻的两个地名地址基因；遍历地名地址基因数组，将相邻的地名地址基因组合，获取网页信息中完整地名地址并记录。

与现有技术相比，本发明的有益效果是：

本发明通过构建地名地址基因库并改进分词算法提高网页文本中地名地址识别的准确性与连贯性；通过考虑地名地址的事件属性，构建地名地址事件相关度、字符长度等因子组成的提取规则树，提高网页文本中地名地址识别的效率与实用性。

附图说明

图1是本发明提出的地名地址提取算法流程图；

图2为本发明实施例提供的地名地址基因示意图；

图3为本发明提出的地名地址基因库结构图；

图4为本发明提出的规则树示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例中，一种网页文本中地名地址的提取方法，具体描述如下。

图1为本发明提出的地名地址提取算法流程图。地名地址提取算法包括以下步骤：

步骤001：建立地名地址基因库

生物学中将带有遗传讯息的DNA(Deoxyribonucleic acid)片段称为基因，由成百上千个脱氧核苷酸组成，认为基因支持着生命的基本构造和性能。本发明考虑将生物学中基因的概念引入到地名地址的研究中。在地名学中地名地址要素是指在某一限定区域内，可以指定某一具体空间范围的地名地址词。一个地名地址由若干个地名地址要素组成，每个地名地址要素为地名地址串中的一个相对独立的部分。地名地址要素类似于组成基因的脱氧核苷酸，单个或若干个的组合具有明确指示某空间位置的意义，据此本发明提出了地名地址基因的概念，即：地名地址在形式上可分解为若干地名地址要素，因其相互之间的关联与派生关系，单个地名地址要素或若干个地名地址要素的组合形成地名地址基因。地名地址串“北京市西城区德胜门内大街93号院1号楼”中地名地址基因构成如图2所示。

图2所示地名地址串分为11个地址要素：北京、市、西城、区、德胜门、内、大街、93、号院、1、号楼，由这11个地址要素拼接成5个地名地址基因：“北京市”、“西城区”、“德胜门内大街”、“93号院”和“1号楼”。

地名地址基因具有最小指代某个地点的意义，且可分为地名地址专有名与地名地址通配名。地名地址专有名是明确指代某个空间范围的地名地址词；地名地址通配名是能与地名地址专有名搭配的，在指代某个地点范围时具有补充作用的地名地址词。图2所示地名地址串中“北京市”、“西城区”、“德胜门内大街”是地名地址专有名，“93号院”、“1号楼”是地名地址通配名。

按照地名地址本身的指代意义以及相互关联与派生关系，可以将主要地名地址基因的类型分为:公路、路桥、河流、湖/潭、建筑物、纪念地、环岛、交通站场、街巷、铁路、名胜古迹、桥梁、冠名楼、地片、楼号、政区、住宅区、自然村、隧道、体育设施、开发区、山峰、山脉、泉、水库、水渠、门牌等。

地名地址基因库是地名地址基因的集合，用来对地名地址基因进行便捷规范管理。地名地址基因库同样依据地名地址专有名和地名地址通配名两部分对地名地址信息分层管理，且各层之间存在明确隶属关系，例如“德内大街”隶属于“什刹海街道”，“什刹海街道”隶属于“北京市西城区”，这种隶属关系恰与树状结构相吻合，按照树状结构，行政级别高的地名地址基因作为低一级的地名地址基因的父节点，分类汇总，最终建成地名地址基因库。

地名地址专有名部分用来存储具有实际地点范围指代意义的地名地址，例如“北京市”、“大栅栏”、“金融街”等。地名地址专有名部分的地名地址具有隶属关系，采用树状结构进行存储和管理。在地名地址串中专有名部分是必不可少的，由于网页信息中地名地址使用的多样性，地名地址专有名的存在类型也多种多样，按指代范围来说，大到省区市区，小到一座桥一条河一所房，甚至是一棵树，因此在管理地名地址基因时，按照地名地址实体类别，还可以在地名地址专有名部分的最底层子节点将地名地址划分具体类别。

地名地址通配名部分用来存储地名地址串的后缀词，标准的地名地址串往往以“xx号”、“xx号楼”、“xx号院”等结尾，且由于编辑人员的个人习惯，网页信息中往往会出现模糊的地点方位，如“xx东”，“xx东口”，“xx附近”，“xx周边”，“xx周围”，“xx对面”，“xx交界处”等。为了能够跟充分的提取网络文本中的空间信息，本发明通过大量阅读网络新闻，总结了常用于网络新闻的模糊的地点方位名词60余个，作为地址通配名存放在地名地址基因库中。

以“北京市西城区德内大街93号院”为例说明地名地址基因库结构，如图3所示。

步骤002：依据地名地址基因库对网页文本进行中文分词

中文地名地址提取离不开中文分词，本发明采用基于词典的中文分词方法。词典是中文自动分词的基础，词典的选择与分词词典机制的优劣直接影响中文分词的效率和准确率。本发明将上文所述地名地址基因库作为分词的词典，由于地名地址基因库不仅在词条数上远远小于传统的分词词典，又能保证提取地名地址的完整性，且在地名地址提取上采用基因组合的形式，更符合网络文本中地名地址信息随机性、多样性的特点，因此在执行效率上大大提高。

设网页信息地名地址使用形式如“......d1.....d2......dn”，其中“......”表示网页信息中的汉字描述，di(i＝1，2.....n)表示网页信息中出现的地名地址基因，通过基于地名地址基因库的分词方法可提取每个地名地址基因数组，并可得到其字符串长度及其首字在全文中的位置。

地名地址由地名地址基因组成，且地名地址通配名部分常常有固定的搭配，如“xx号”，“xx号楼”，“xx号院”，“xx栋”，“xx幢”等。针对这种情况，本文提出了一种增字匹配方法。增字匹配算法优先提取“号”、“号楼”、“号院”、“栋”、“幢”等通配名，进而增取此类地名地址基因元素之前字符，如该字符为阿拉伯数字或英文字母，则将增取得字符与原有通配名合并为一个地名地址基因。

根据词典内容改进分词算法。传统的基于词典的中文分词算法在进行分词时不仅会依照词典中的词对文章切分，而且在此过程中如果遇到词典中没有登陆的字或词，特别是在采用全切分方法时，会将词切分为单字，然后重新组合，再到词典中匹配，这样能够最大化得到分词的结果，但无形中造成大量的数据冗余，而网络文本中地名地址是以词的形式存在，因此仅以词为单位进行分词行之有效，而且减少执行步骤，提高了效率；另一方面传统的中文分词在英文和数字的切分上以空格及标点符号为分词准则，这样会使英文或数字单独被切分出来，其实际意义被破坏，针对这种情况，本发明采用全匹配的方式，不仅避免英文和数字在分词过程中的干扰，而且减少分词结果的数据冗余。

步骤003：事件提取。遍历网页文本获取网页信息中出现的事件，并对事件做标记，获得地名地址基因标记数组元素。

设网页信息中事件的形式如“......E1......E2......En......”，其中“......”表示网页信息中若干汉字描述，E(i)(i＝1，2.....n)表示网页信息中的事件，则可提取每一个事件描述词并得到该事件在网页信息全文中的字符位置。

步骤004：判断地名地址基因相邻

地名地址基因数组元素与地名地址基因标记数组元素一一对应，如果di(i＝1，2.....n)的首字字符位数减去dj(j＝1，2.....n)的首字字符位数等于di(i＝1，2.....n)的字符长度，则证明di与dj是相邻的两个地名地址基因。

如果两个基因相邻，则对相邻的地名地址基因做记录，并执行步骤005。如果不存在基因相邻的情况则执行步骤006。

步骤005：遍历地名地址基因数组，将相邻的地名地址基因组合，获取网页信息中完整地名地址并记录。

步骤006：计算地名地址的事件相关度。网页信息中地名地址的事件属性是必然存在的，地名地址与网页信息主题事件的相关程度的量化值称之为地名地址的事件相关度，具体表示为地名地址与网页信息主题事件描述词的字符距离。

记dreendsign(j)为完整地名地址标记，Eventsign(i)为事件标记，则地名地址的事件相关度W(i)如式(1)所示：

W(i)＝min(|dreendsig(nj)-Eventsign(i)|)(i,j＝0,1,2......n) (1)

步骤007：建立地名地址提取规则树。

依据事件相关度、提取地名地址的字符长度、地名地址在文中出现的次数等提取因子确定地名地址的提取规则树，得到最终地名地址。

记Condreend length(i)(i＝1，2.....n)为地名地址字符长度，Condreend count(i)(i＝1，2.....n)为地名地址在文中出现的次数，Totaldreend count为文中地名地址总数，本发明认为，字符长度越长、出现次数越多则作为提取目标地名地址的可能性越大，因此，设立地名地址的提取权重值E(i)如式(2)所示：

每个地名地址都有一个提取权重值，取所有的权重值的最大值，依据映射关系得到提取目标地名地址。其规则树如图4所示。

步骤008：由地名地址的事件相关度，结合地名地址的提取规则树，即可获取目标地名地址。

按照上述方法进行以下试验，具体描述如下。

根据上述算法思想，通过eclipse开发平台上使用java语言编写程序进行测试。测试数据为某爬取公司提供的关于北京西城的“违建”、“火灾”、“租房整治”、“环境整治”、“大栅栏改造”、“道路整治”专题的网页信息，数据源来自论坛、博客、贴吧、微博、新闻、微信等。

测试环境：操作系统Windows 2007，处理器Intel(R)core(TM)i5-2400CPU@3.10GHz，RAM 4.00GB。

构建北京西城的地名地址基因库，词条数为9405，涵盖西城区的街道、道路、立交桥、社区、商店、商业区、胡同、住宅小区、学校、注册公司、地铁站等地名地址信息。部分测试数据地名地址提取情况如表1、2所示：

表1地名地址提取示例表

表1为地名地址提取考虑事件属性与不考虑事件属性两种情况的对比汇总。以“违建”有关的网页文本信息提取为例，可以看出在只考虑字符长度和词频的情况下，提取到的地名地址是“西城区新街口街道”，很明显，此结果并非“违建”所在地；当考虑地名地址属性后提取到的地名地址为“白塔寺东西夹道”，此结果为我们的目标地名地址。因此可以看出考虑事件地名地址事件属性可以有效提升网页信息中地名地址的提取准确率。

表2地名地址提取情况示例表

依据表2分析地名地址提取情况，当地名地址比较明确，基因分布明显，并且地名地址基因库完备的情况下，类似于第1、2种情况，地名地址提取准确；但是第3、4种情况，目标地名地址不明确，以及地名地址基因库存在未登录词，例如“宣武区”，提取准确率就会降低。

测试文章共5913篇，分六个专题，爬取数据存在重复数据和专题不相关数据。通过人工去除不相关的的网页信息，得到可用文章。同一专题中描述同一事件的文章较多，例如在违建专题中描述“西城区榆树馆西里15号楼”违建的文章有223篇，需进行去重处理，去重后提取文章数会明显减少，得到六个专题可提取文章共5913篇。运行程序对可提取文章进行提取，共运行时间562.8s，并统计准确提取文章及提取准确率。表3为地名地址的提取情况的汇总表。

表3网页信息爬取以及文章提取情况汇总表

从表3可以看出，六组爬取数据的提取的准确率都可达到92％以上，具有较高的准确率，由此可以得出采用地名地址基因的方式提取地名地址切实可行，并且提取效率大大提高，平均每篇文章处理时间小于0.1秒。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种网页文本中地名地址的提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，地名地址基因包括地名地址专有名与地名地址通配名。

3.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，地名地址基因的类型分为:公路、路桥、河流、湖/潭、建筑物、纪念地、环岛、交通站场、街巷、铁路、名胜古迹、桥梁、冠名楼、地片、楼号、政区、住宅区、自然村、隧道、体育设施、开发区、山峰、山脉、泉、水库、水渠、门牌。

4.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，步骤B中，中文分词采用基于词典的中文分词方法，将地名地址基因库作为分词的词典。

5.根据权利要求2所述的网页文本中地名地址的提取方法，其特征在于，采用增字匹配方法获取网页信息中的地名地址通配名；增字匹配算法优先提取包括号、号楼、号院、栋、幢的地名地址通配名，进而增取此类地名地址基因元素之前字符，将增取得字符与原有地名地址通配名合并为一个地名地址基因。

6.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，步骤B中，设网页信息的地名地址使用形式为“......d1.....d2......dn”，其中“......”表示网页信息中的汉字描述，di(i＝1，2.....n)表示网页信息中出现的地名地址基因。

7.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，步骤B中，设网页信息中事件的形式为“......E1......E2......En......”，其中“......”表示网页信息中若干汉字描述，E(i)(i＝1，2.....n)表示网页信息中的事件。

8.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，事件相关度W(i)如式(1)所示：

W(i)＝min(|dreendsig(nj)-Eventsign(i)|)(i,j＝0,1,2......n) (1)

9.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，提取规则树的建立过程：记Condreend length(i)(i＝1，2.....n)为地名地址字符长度，Condreendcount(i)(i＝1，2.....n)为地名地址在文中出现的次数，Totaldreend count为文中地名地址总数，设立地名地址的提取权重值E(i)如式(2)所示：

10.根据权利要求1所述的网页文本中地名地址的提取方法，其特征在于，步骤B中，获取网页信息中出现的事件，即获得地名地址基因标记数组元素；