CN107180045A

CN107180045A - 一种互联网文本蕴含地理实体关系的抽取方法

Info

Publication number: CN107180045A
Application number: CN201610135332.XA
Authority: CN
Inventors: 陆锋; 余丽; 张恒才; 彭澎; 仇培元; 牟乃夏
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2017-09-19
Anticipated expiration: 2036-03-10
Also published as: CN107180045B

Abstract

本发明公开了一种互联网文本蕴含地理实体关系的抽取方法，包括以下步骤：数据预处理、文档向量化、权值计算、关键词提取、关系元组构建；输入包含地理实体的网络文本，经过数据预处理抽取地理实体间的空间关系或语义关系，得到网页纯文本和候选关键词；采用词语级别的向量空间模型对文本进行向量化，建立word‑context矩阵；设计了新型的权值计算方法对地理实体进行权值计算；从语境向量中选择权值最大的词语作为关键词，构建关系元组，最后完成地理实体抽取。本发明提供了基于语义的检索方式，改变了传统依赖关键词的搜索技术；在缺乏大规模标注语料和地理知识库的前提下，能快速抽取地理关系描述词，提高运行效率，大大的降低人工成本。

Description

一种互联网文本蕴含地理实体关系的抽取方法

技术领域

本发明涉及一种互联网文本抽取方法，尤其涉及一种互联网文本蕴含地理实体关系的抽取方法。

背景技术

实体关系抽取研究核心是自动从互联网文本数据中抽取命名实体之间的联系，形成网状关系网络，方便用户查询实体各方面信息。例如“中国大陆阿里巴巴集团董事局主席马云”，可以抽取实体“阿里巴巴”与“马云”是雇佣关系。地理实体关系抽取研究是实体关系研究的子集，目的是从互联网网络文本中抽取地理实体之间的关系。例如：从“遥感所位于地理所的北面”中可以抽取实体“地理所”与“遥感所”，存在方位关系“北面”。

地理实体关系通常可以分为空间关系与语义关系。空间关系表示两个空间实体之间的在地理场景中的各种绝对与相对的位置关系，例如“附近”、“相邻”、“远近”等。部分地理实体之间的位置关系是可计算的，例如北京距离济南为500公里，但是不能描述所有的定性的空间关系描述，例如“远近”。如果要准备获取地理实体的实体关系，需要通过文本中进行抽取。

地理实体关系抽取是构建地理知识图的研究基础，识别并抽取地理实体间的空间和语义关系，构建铰链的地图数据库，是改善基于位置服务的用户体验的关键。地理信息泛化已成为新地理信息时代重要的发展趋势之一。泛化地理信息更加关注地理实体之间复杂的动态关系，如时变空间关系和语义关系等。而目前国内各大地图数据服务提供商（如四维图新、天地图、百度、高德等）提供的地图数据缺乏地理实体之间的关系描述，千万级的地理实体存储“扁平化”。地理实体存储“扁平化”，地理实体关系描述欠缺，导致地理信息检索依赖于关键词，不能有效发挥基于实体关系的内容搜索的优势。如何快速识别并抽取地理实体间的空间和语义关系，是地理空间信息服务产业发展面临的难题。

目前，国内外针对解决实体关系抽取的传统技术方法主要有模式匹配法，监督学习法和频率统计法。模式匹配法需要对关系语料库进行深入分析，人工抽取组织关系模式，这种方法虽然准确性较高，但是需要耗费大量的人力物力，并且不适用于文本大范围关系的抽取；监督学习法在提取速度及准确率上都有所提升，但是该方法需要大规模的人工标注语料，开放文本涉及的文本繁杂，长文本、短文本、网络用语等增加了语料库构建难度，并且人工定义的有限关系类型难以适应文本的快速增长和变化；频率统计法要求表征关系的词语频繁出现，难以适用于稀疏分布的地理实体关系实例。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种互联网文本蕴含地理实体关系的抽取方法。

为了解决以上技术问题，本发明采用的技术方案是：一种互联网文本蕴含地理实体关系的抽取方法，包括以下步骤：

数据预处理：输入包含地理实体的网络文本，抽取地理实体间的空间关系或语义关系，得到原始语料，进一步得到原始语料对应的网页正文文本；对上述网页正文文本进行预处理得到候选关键词；

文档向量化：上述网页正文文本进行预处理之后，对文本进行相关的数学计算；采用词语级别的向量空间模型对文本进行向量化，按照下述公式（1）-（2）计算方法建立词语-语境矩阵，即word-context矩阵；

(1)

(2)

其中，C为所有语境的集合，语境的总数为N；语境是一系列词汇的集合；c_j为词汇集合W的向量（j=1，2，…，N），向量c_j中的元素w_ij为第i个词语w_i在第j个语境中的权值（i=1，2，…，v）；

权值计算：将输入的网络文本中的地理实体与句子中的其它地理实体组成一对，记作entityA和entityB；假设一对地理实体间隔越远语义越弱，当一对地理实体之间的词语个数大于5时，两者没有关系，不予处理；常用权值计算方法有三种，统计w_i在c_j中出现的次数方法，记作Frequency；Term Frequency-Inverse Document Frequency方法记作TF-IDF；Positive Pointwise Mutual Information方法记作PPMI；

观察语料得出以下结论：词语的词性、长度和位置在一定程度上反映了它在句中的重要性；描述地理实体间空间和语义关系的词语大多是简短的名词，例如“东边”、“北部”、“别名”，很少使用3个字以上的词语；关系词大多位于句子尾部，部分位于两个地理实体之间，很少位于句首；基于上述特征，提出以下假设：名词的权值更大；词语越短，权值越大；词语距离entityB越远，权值越大；基于以上假设，设计了新的权值计算方法，如公式（3）-（6）；

（3）

（4）

（5）

（6）

其中，为词语词性的权值，词语词性记作；为由词性和长度联合作用的影响因子，为词语w_i的长度，、、分别为entityA、entityB、w_i在句中的位置编号，为由和位置联合作用的影响因子，为值的绝对值，为Frequency、TF-IDF或PPMI中任意一种权值，为词语w_i在语境c_j中的权值；

关键词提取：经过上述权值计算得到word-context权值矩阵；每个语境向量中的数字，即矩阵里的行中的数字体现了对应单词在当前语境中的重要性，直接从语境向量中选择权值最大的词语作为关键词，作为每个语境的关系名称；由于每个语境与地理实体对绑定，关键词提取后，即可得到地理实体对的关系；

关系元组构建：每个句子提取关键词之后，首先将它与句中的一对地理实体组成一个关系三元组，如公式(7)；其中，为句子k存在的关系，和为句子k中的一对地理实体；该三元组的形式将语义关系实例作为属性表达式，用于描述地理实体指定类型的属性值；

再采用自适应多元组，将空间关系实例作为位置表达式，描述地理实体间的空间关系和语义关系：若句中存在数量词，且位于entityB右边的3个窗口内，则提取该数量词和单位；根据关键词在句中的位置，按照句子原始的逻辑调整元组中各元素的顺序，并自适应地确定关系的维度以自动补齐数量词，如公式(8)；为句子k中描述地理实体关系的数量词；当表示非度量关系时，该元素省去。

（7）

（8）

数据预处理的步骤包括：网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建；

网页爬取：获取包含地理实体的网络文本，从网络文本中抽取两个地理实体间的空间关系或语义关系；以现有地名数据库中的元素为地理实体，以地理实体为关键词，逐一在搜索引擎中查询相关HTML网页，爬取HTML网页内容作为地理实体关系抽取的原始语料；

正文提取：将上述爬取到的HTML网页找到相应的网页正文，对网页正文所在的位置进行处理，提取出网页正文纯文本；

分句：将网页正文纯文本拆分成句子，然后以逗号“，”、分号“；”、句号“。”、省略号“…”做为分割点将句子分割成多个子句，并采用简单的规则自动补齐句子中被省略或者替代的主语；对于没有查询词条的句子，若句首是“它”或者“她”，则将其替换成查询的词条，否则在句首添加查询的词条；

中文分词和词性标注：采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注；过滤掉与语义表达无关的停用词，包括标点、字符和虚词；

地理实体识别：对纯文本进行中文分词和词性标注之后，使用Stanfod CoreNLP集成套件识别命名句子中的地理实体，再将标签LOC、GPE和ORG替换为GEO，最后合并多个连续的GEO为一个地理实体；

语境构建：过滤停用词之后，将句中除地理实体对以外的所有名词、动词和介词作为语境，语境中的词语称为候选关键词。

本发明跟现有地理实体抽取技术相比，展现的优势为：将“扁平化”的地理实体库转化为“垂直网状”地理实体库来为地理实体推荐提供技术支持，丰富了地理信息检索方式，改变了传统的依赖关键词的搜索技术，提供地理知识图的新内容检索方式；在缺乏大规模标注语料和地理知识库的前提下，能快速抽取地理关系描述词，提高运行效率，大大的降低人工成本，并且适用于表征关系词语稀疏分布的地理实体关系实例。

附图说明

图1为本发明的整体步骤流程图。

图2为数据预处理的步骤流程图。

图3为地理实体关系抽取生成关系元组示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1、图2、图3所示，本发明包括以下步骤：

1、数据预处理：数据预处理的步骤包括：网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建；

分句：将网页正文纯文本拆分成句子，然后以逗号“，”、分号“；”、句号“。”、省略号“…”做为分割点将句子分割成多个子句，并采用简单的规则自动补齐句子中被省略或者替代的主语，以保证语义表达的完整性；对于没有查询词条的句子，若句首是“它”或者“她”，则将其替换成查询的词条，否则在句首添加查询的词条；

中文分词和词性标注：Stanfod CoreNLP集成套件为具有高效性、开放性和可扩展性的自然语言处理工具，选用该套件对纯文本进行中文分词和词性标注；然后，过滤掉与语义表达无关的停用词，包括标点、字符和虚词（助词、叹词、语气词和拟声词），以便降低实体关系表达的复杂度、节省存储空间、提高计算效率；

地理实体识别：对纯文本进行中文分词和词性标注之后，使用Stanfod CoreNLP集成套件识别命名句子中的地理实体，再将标签LOC、GPE和ORG替换为GEO，最后合并多个连续的GEO为一个地理实体；例如将“厦门市湖滨西路”识别成“厦门市/GPE 湖滨/LOC 西路/LOC”，再将标签替换并合并最终识别成“厦门市湖滨西路/GEO”；

语境构建：分析语料发现，地理实体之间的空间关系通常由动词或者介词修饰，语义关系通常由动词或者名词描述；当过滤停用词之后，将句中除地理实体对以外的所有名词、动词和介词作为语境，语境中的词语称为候选关键词。

2、文档向量化：对上述网页正文文本进行预处理之后，需要对文本进行相关的数学计算；采用词语级别的向量空间模型对文本进行向量化，按照下述公式（1）-（3）计算方法建立word-context矩阵，即word-context矩阵；

(1)

(2)

3、权值计算：将输入的网络文本中的地理实体与句子中的其它地理实体组成一对，记作entityA和entityB；假设一对地理实体间隔越远语义越弱，当一对地理实体之间的词语个数大于5时，两者没有关系，不予处理；常用权值计算方法有三种，统计w_i在c_j中出现的次数方法，记作Frequency；Term Frequency-Inverse Document Frequency方法记作TF-IDF；Positive Pointwise Mutual Information方法记作PPMI；

观察语料得出以下结论：词语的词性、长度和位置在一定程度上反映了它在句中的重要性；描述地理实体间空间和语义关系的词语大多是简短的名词，例如“东边”、“北部”、“别名”等，很少使用3个字以上的词语；关系词大多位于句子尾部，部分位于两个地理实体之间，很少位于句首；基于上述特征，提出以下假设：名词的权值更大；词语越短，权值越大；词语距离entityB越远，权值越大；基于以上假设，设计了一种的新的权值计算方法，如公式（3）-（6）；

（3）

（4）

（5）

（6）

4、关键词提取：经过权值计算得到word-context权值矩阵；每个语境向量中的数字，即矩阵里的行中的数字体现了对应单词在当前语境中的重要性，直接从语境向量中选择权值最大的词语作为关键词，作为每个语境的关系名称；由于每个语境与地理实体对绑定，关键词提取后，即可得到地理实体对的关系；

5、关系元组构建：对每个句子提取关键词之后，首先将它与句中的一对地理实体组成一个关系三元组，如公式(7)；其中，为句子k存在的关系，和为句子k中的一对地理实体；该三元组的形式将语义关系实例作为属性表达式，用于描述地理实体指定类型的属性值；

再采用自适应多元组，将空间关系实例作为位置表达式，描述地理实体间的空间关系和语义关系，以弥补上述三元组因不能识别句中数量词，例如“3km”，而不能完整刻画地理实体间的度量关系的不足；自适应多元组的实施方法如下：若句中存在数量词，且位于entityB右边的3个窗口内，则提取该数量词和单位；根据关键词在句中的位置，按照句子原始的逻辑调整元组中各元素的顺序，并自适应地确定关系的维度以自动补齐数量词，如公式(8)；为句子k中描述地理实体关系的数量词；当表示非度量关系时，该元素省去。

（7）

（8）

本发明解决的技术问题是：从海量的互联网资源中抽取出地理实体关系信息，构建形成地理实体的关系网络，如图3所示。以表1中一段文本为例，展示地理实体关系抽取；其中，左侧栏是一段自然语言描述的文本，右侧栏为抽取出的地理实体关系元组。

表1 地理实体关系抽取案例

本发明从巨大的互联网资源中抽取地理实体的关系描述关键词，构建地理实体关系元组，跟现有地理实体抽取技术相比，具有以下优势：

（1）将“扁平化”的地理实体库转化为“垂直网状”地理实体库来为地理实体推荐提供技术支持，同时丰富了地理信息检索方式，改变了传统的依赖关键词的搜索技术，提供地理知识图的新内容检索方式，可以提高在线地图网站、位置服务等应用产品服务水平。

（2）在缺乏大规模标注语料和地理知识库的前提下，能快速抽取地理关系描述词，提高运行效率，大大的降低人工成本，并且适用于表征关系词语稀疏分布的地理实体关系实例。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述抽取方法包括以下步骤：

(1)

(2)

（3）

（4）

（5）

（6）

再采用自适应多元组，将空间关系实例作为位置表达式，描述地理实体间的空间关系和语义关系：若句中存在数量词，且位于entityB右边的3个窗口内，则提取该数量词和单位；根据关键词在句中的位置，按照句子原始的逻辑调整元组中各元素的顺序，并自适应地确定关系的维度以自动补齐数量词，如公式(8)；为句子k中描述地理实体关系的数量词；当表示非度量关系时，该元素省去

（7）

（8）。

2.根据权利要求1所述的互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述数据预处理的步骤包括：网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建；

分句：将网页正文纯文本拆分成句子，然后以逗号、分号、句号、省略号作为分割点将句子分割成多个子句，并采用简单的规则自动补齐句子中被省略或者替代的主语；对于没有查询词条的句子，若句首是“它”或者“她”，则将其替换成查询的词条，否则在句首添加查询的词条；