CN100535907C

CN100535907C - 一种文本上下文中实体地址信息的提取方法

Info

Publication number: CN100535907C
Application number: CNB200710120548XA
Authority: CN
Inventors: 罗英伟; 汪小林; 周晓鲁; 许卓群
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-08-21
Filing date: 2007-08-21
Publication date: 2009-09-02
Anticipated expiration: 2027-08-21
Also published as: CN101110081A

Abstract

本发明提供了一种文本上下文中实体地址信息的提取方法，其通过搜集包含实体名称的网页集合，进行初始相关度计算并对初始相关度进行修正得到最终的相关度，最后根据相关度进行排名，将排名前几个的结果返回给用户；本发明可以有效地从网页包含的地址中找出与用户指定的实体空间相关的地址信息，辅助用户进行定位。

Description

一种文本上下文中实体地址信息的提取方法

技术领域

本发明涉及文本信息提取领域，尤其涉及文本上下文中实体地址信息的提取方法。

背景技术

从文本中找出描述性信息并联系到给定实体上，形成对实体的完整描述，是文本信息提取领域的一项重要任务。因为机构、事件、人物等实体一般都会有其地址描述信息，这种信息对于实体的定位有着非常重要的作用。如何有效地从文本上下文中提取出与给定实体空间相关的地址描述信息是一项必要且具有很强实用性的工作。然而在文本上下文中提取与实体相关的地址描述信息上，目前在国内还很少有相关的研究工作，并且缺乏有效的提取方法。常见的做法是根据一定的模板匹配规则来实现地址的提取，比如将文本中关键词“地址：”后面的文字作为实体的地址描述信息提取出来。但是这种方法只能处理文本中固定格式的地址，对于模板以外格式的地址描述信息就无法抽取。

发明的内容

本发明的目的是针对与实体相关的地址信息提取方法上的不足，根据文本上下文中地址信息分布和结构上的特殊性，基于统计的手段，提出了一种文本上下文中实体地址信息的提取方法，本发明通过计算文本上下文中的地址与实体空间相关度从而确定实体的地址信息。采用该方法可以从文本上下文中找出与用户输入的实体名称最空间相关的地址描述信息，进而帮助用户定位。

为了发现与实体空间相关的地址信息在文本上下文中的分布规律，我们以最常见的网页文本为例，对网页文本中实体名称及其上下文中的地址分布进行了调查和统计分析。我们随机选取了公司机构、餐饮酒店、娱乐休闲、地产楼盘大厦四大类共42个地理实体名称作为样本。对于每个实体名称，我们通过搜索引擎得到一部分包含它的网页，并将这些网页作为样本数据集。然后对样本数据集中实体名称及其上下文中的地址分布情况进行人工的统计与分析：首先记录每个地址到离它最近的实体名称的距离，即间隔的字数；然后再人工判断该地址是否与实体在空间上相邻。

样本数据集一共包含1490个网页(每个实体名称对应的网页从一二十个到三百多个不等)，我们从中提取出了10931个地址，其中与实体位置相关的地址(空间相关地址)有793个，无关地址(空间不相关地址)有10138个，它们与实体名称之间的文字距离分布如图1所示。因为距离实体名称200个字以上的空间不相关地址有7000个以上，在图1中并没有将它们显示出来。

从图1可以看出，整体上说，空间相关地址的出现频率是与它到实体名称的距离基本上是成反比的；而空间不相关地址的出现情况正好相反，与它到实体名称的距离成正比。通过对样本数据集的分析，可以得出以下三个结论：一是，在实体名称的上下文中距离它越近的地址信息，越有可能是与实体位置相邻的地址(空间相关的地址)；二是，实体名称的上下文选取范围越小，能正确描述实体位置的地址所占比例越大；三是，在给定上下文范围中，出现次数越多的地址，越有可能是与实体位置相关的地址。

所以我们认为：文本中距离实体名称越近、出现次数越多的地址与实体的空间相关度也比较高，而距离远、出现次数少的地址其空间相关度则比较低。计算相关度的时候，我们根据空间相关地址的出现概率设计了一个减函数f(x)来计算地址的空间相关度。f(x)的设计方法是：地址与实体名称之间的距离x越小时，f(x)越大。f(x)的值应该与距离x处空间相关地址的出现概率P有关，即f(x)与P成正比。在实际计算时，可以选取一个近似的减函数来代替f(x)，如倒数函数(1/x)或幂函数(a^x，a＜1)等。

如果一个网页中同一个地址出现多次，则将每一个的空间相关度累加起来作为这个地址的总体空间相关度。

将所有文本中同一地址的总体空间相关度累加起来，就得到了该地址与给定实体的综合空间相关度。

最后，将所有从文本上下文中识别的地址，按照其与给定实体的综合空间相关度大小进行排列，选择其中综合空间相关度最大的几个地址，推荐给用户。

在本发明中，地址识别采用的是常用的基于地名词典的匹配方法(昝红英，《基于实体属性的中文网页检索研究》，北京大学博士论文，2004)。地址信息往往具有一定的区域性，在本发明方法中，地名词典是针对特定的区域建立的，其中包含了该区域的基本的地名词汇。为了更好地利用地名词典进行地址识别，我们根据地名词汇所描述的空间范围不同，为每一个地名词汇给予了不同的级别，如“北京市”为1级，“海淀区”为2级，“中关园”为3级，等等。地名词典的建立以及地名词汇的分级确定，是通过人工完成的。

尽管根据减函数计算出的地址空间相关度已经可以反映出实体的位置信息，但是实际计算的过程中免不了会出现某些空间无关地址的文本距离比相关地址距离更近的情况，对实体真实地址的空间相关度计算带来负面影响。为了处理这些文本中距离实体名称较近，但实际地理位置上却无关的地址，我们采用一种相关度“相互贡献”的方法来排除噪音。根据前面人工分析得出的结论，与实体空间相关的地址，它们在文本中的实际位置也一定分布在实体周围。利用这一特性，我们可以通过地址的文字信息，分析出它们在空间上的聚集性，并籍此提高这些相关的地址的相关度，从而达到排除干扰项的目的。

这种方法的基本思想是：如果两个地址包含同样的地址元素(构成地址的最基本不可再分的元素，如出现在地名词典中的单个地名词汇，这些地名词汇还有相应的级别，如“北京市”为1级，“海淀区”为2级，“中关园”为3级，等等)的话，那么它们在空间上就会具有一定的相关性。它们之间相同的地址元素越多，这种相关性也就越强。在实际的算法中，如果地址Addr_i的所有地址元素集合S_i＝{s|s∈Addr_i}，和地址Addr_j的所有地址元素集合S_j＝{s|s∈Addr_j}，满足S_ij＝S_i∩S_j不为空的话，则Addr_i、Addr_j的相关度都增加g(S_ij)。g是根据地址元素交集大小和相交的地址元素级别来决定相关度增加量的函数，交集越大、相交地址元素的级别越低，则相关度增加的值越大。如

g = \underset{s}{Σ} \frac{baseValue}{n - l (s) + 1}, (s &Element; S_{ij}),

其中相关度增加数值的基准baseValue可以根据当前地址列表中相关度的最大值或平均值来决定，n为地名词典中地址元素的最大级别，l(s)为地址元素s的级别。级别低的重复地址元素的贡献值会因为空间相关性低而在基础贡献值上有所减少。

通过上面的分析，本发明提出的技术方案为：

一种文本上下文中实体地址信息的提取方法，其步骤为：

1)针对要提取地址信息的区域，建立相应的地名词典或采用已有的地名词典；

2)搜索包含用户输入的实体名称的所有网页；

3)提取各网页中实体名称的上下文信息；

4)从上下文信息中提取所有地名词典中包含的地址信息；

5)根据上述地址信息与实体名称的字符距离设定各地址信息与实体名称的空间相关度，字符距离越近，空间相关度值越高；

6)根据空间相关度值对各地址信息进行排序；

7)提取排序靠前的一定数量的地址信息返回客户，供用户选择。

所述实体名称选自但不限于下列几种实体名称：机构、事件、人物。

所述地名词典中的每一个地名词汇(地址元素)，根据其所描述的空间范围不同具有不同的级别。

所述上下文信息为距离实体名称200个字以内的文本信息。

所述地址信息与实体名称的空间相关度为地址信息与实体名称在网页中字符距离的减函

所述减函数为f(x)＝1/(x+1)，其中x为地址信息与实体名称的字符距离。

所述减函数为f(x)＝a^x，其中0＜a＜1，x为地址信息与实体名称的字符距离。

所述方法中根据各地址信息出现的次数对该地址信息与实体名称的空间相关度值进行累加，得到的和作为该地址信息与实体名称的相关度。

所述方法中采用相互贡献方法修正相关度值，所述相互贡献方法为：求任意两个所搜集到的地址Addr_i的所有地址元素集合S_i＝{s|s∈Addr_i}，和地址Addr_j的所有地址元素集合S_j＝{s|s∈Addr_j}中地址元素的交集及其对应的级别，根据相关度相互贡献公式

g = \underset{s}{Σ} \frac{baseValue}{n - l (s) + 1}, (s &Element; S_{ij}),

计算修正后的地址相关度值，其中相关度增加数值的基准baseValue可以根据当前地址列表中相关度的最大值或平均值来决定，n为地名词典中地址元素的最大级别，l(s)为地址元素s的级别，S_ij＝S_i∩S_j。

发明的优点与积极效果

本发明所提出的地址空间相关度计算方法可以有效地从网页包含的地址中找出与用户指定的实体空间相关的地址信息，辅助用户进行定位。

我们以北京市为例，对174个实体的地址信息识别进行了测试，这些实体主要包括公司企业、餐馆酒店和休闲娱乐场等。每一个实体都能得到空间相关的地址信息，在我们的识别出的地址信息中，排名的第一位的地址信息，其与待定位实体空间相关的占总结果数的82.2％；排名的前两位的地址信息，其与待定位实体空间相关的占总结果数的86.8％；排名的前三位的地址信息，其与待定位实体空间相关的占总结果数的96.6％。可见只要给出排名前三位的结果，在大部分情况下就可以帮助用户找到实体的空间相关的地址信息。

附图说明

图1.网页中的地址信息分布；

图2.本发明的方法流程图。

具体实施方式

下面我们通过一个具体的例子来说明如何实施本发明所描述的方法来计算网页中的地址与实体的空间相关度。假设下面加黑的句子是关于实体“朋克美容美发”的几个个网页的内容，斜体部分是标注好的地址部分。

芬芳雪颜(崇文门店)，崇文区崇文门外大街5号新世界太华公寓A座710室.瑞宝娜护肤，市西城区新街口外大街8号金丰和物业综合楼414室，美梦成真美容美体，海淀区北三环西路48号科技会展中心3号8D.朋克美容美发，海淀区五道口华清嘉园8号楼北一层

探秘让人毛骨悚然的南亚老鼠之城·北京男子公开向杨丽娟求婚愿供养其母·最后一套流通纸分币今日起全部退市(图)·杨丽娟父亲斥刘德华天津东马路卖美容美发用品用具的都搬到什么地方去·美业在线美容美发·有人去过清华园那的朋克美容美发么？

北京朋克造型美容美发公司第一分店成立于2005年11月，位于北医三院东侧花园北路甲44号，凭借着先进的技术与独特的装修风格而响誉京城，其美容部更是以“成就美丽、引领时尚、发展美丽事业、创造美丽生活”为己任，以服务于广大女性为宗旨，以法国C3D实验室

朋克美容美发(0条评论)

电话：010-82867393(报错)

地址：北京市海淀区成府路在麦当劳的西边过街，黑色店面，一般外面有音乐邮编：100080

交通方式：375、331、731、743路五道口下车附近

初始相关度的计算函数f(x)取近似值为1/(x+1)。如果网页文本中同一个地址出现多次，则将每一个的空间相关度累加起来作为这个地址的总体空间相关度，将所有文本中同一地址的总体空间相关度累加起来，就得到了该地址与给定实体的综合空间相关度。对上述文本处理后得到的各地址与实体“朋克美容美发”的初始相关度值见表1左半部分。

然后采用相互贡献的方法，对初始相关度进行修正。如果地址之间有重复的地址元素，则两个地址的相关度根据重复地址元素的详细程度都得到一定的提升。比如如果是都包含地址元素“海淀区”(在地名词典中它的级别为2，地名词典中地名词汇的最大级别为6)，那么相关度就都加0.1(相关度增加数值的基准baseValue为当前地址列表中相关度的最大值0.5，0.1＝0.5/(6-2+1))，如果都包含“五道口”(在地名词典中它的级别为3，地名词典中地名词汇的最大级别为6)这个更详细的地址元素，那么相关度就都加0.125(0.125＝0.5/(6-3+1))。表1的右半部分是地址相互贡献后排名变化情况。

表1地址相互贡献前后排名变化表

由表1可见，采用减函数就可以基本反映出实体的地址信息来，如果采用了“相互贡献”的方法，则效果会更好。

Claims

1.一种文本上下文中实体地址信息的提取方法，其步骤为：

2)搜索包含用户输入的实体名称的所有网页；

3)提取各网页中实体名称的上下文信息；

4)从上下文信息中提取所有地名词典中包含的地址信息；

6)根据空间相关度值对各地址信息进行排序；

2.如权利要求1所述的方法，其特征在于所述实体名称选自下列几种实体名称：机构、事件、人物。

3.如权利要求1所述的方法，其特征在于所述地名词典中的每一个地名词汇，根据其所描述的空间范围不同具有不同的级别。

4.如权利要求1所述的方法，其特征在于所述上下文信息为距离实体名称200个字以内的文本信息。

5.如权利要求1所述的方法，其特征在于所述地址信息与实体名称的空间相关度为地址信息与实体名称在上下文中字符距离的减函数。

6.如权利要求5所述的方法，其特征在于所述减函数为f(x)＝1/(x+1)，其中x为地址信息与实体名称的字符距离。

7.如权利要求5所述的方法，其特征在于所述减函数为f(x)＝a^x，其中0＜a＜1，x为地址信息与实体名称的字符距离。

8.如权利要求1所述的方法，其特征在于根据同一地址信息出现的次数对该地址信息与实体名称的空间相关度值进行累加，得到的和作为该地址信息与实体名称的相关度。

9.如权利要求1或8所述的方法，其特征在于采用相互贡献方法修正相关度值，所述相互贡献方法为：求任意两个所搜集到的地址Addr_i的所有地址元素集合S_i＝{s|s∈Addr_i}，和地址Addr_j的所有地址元素集合S_j＝{s|s∈Addr_j}中地址元素的交集及其对应的级别，根据相关度相互贡献公式

g = \underset{s}{Σ} \frac{baseValue}{n - l (s) + 1}, (s &Element; S_{ij}),