CN104035975B

CN104035975B - 一种利用中文在线资源实现远程监督人物关系抽取的方法

Info

Publication number: CN104035975B
Application number: CN201410219184.0A
Authority: CN
Inventors: 杨静; 潘云; 郝娟; 杨辰翌; 黄保荃
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2017-07-25
Anticipated expiration: 2034-05-23
Also published as: CN104035975A

Abstract

本发明公开了一种利用中文在线资源实现远程监督人物关系抽取的方法，该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库，以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征，并将人名对与知识库中关系实例相互匹配，得到标记关系的人名对集合和未标记的人名对集合。最后，引入标签传播算法实现未标记人名对的关系匹配，从而实现人物关系抽取。本发明能够自动构建人物关系知识库，其中涵盖了更为丰富、准确的关系类型，基于该知识库，引入标签传播算法实现远程监督的中文人物关系抽取，保证了关系抽取结果的准确性。

Description

一种利用中文在线资源实现远程监督人物关系抽取的方法

技术领域

本发明涉及的技术领域包括网页信息爬取、文本预处理、特征提取、人物对相似度计算、标签传播算法等，其中文本预处理包括分句、分词、词性标注和人名识别等技术。总的来说，本发明是关系抽取领域中一种对中文人物关系有效的抽取方法，利用大量在线资源采用远程监督学习方法以抽取人物关系。

背景技术

自然语言处理（NLP）中，信息抽取是一个重要的研究领域，并得到广泛实际应用。信息抽取是指从自然文本中抽取出结构化的信息，以帮助人们从海量信息中快速找到有用的信息。其中，人物关系抽取是信息抽取研究的一个重要方向，被广泛应用于人际网络分析、社交网络服务和犯罪组织关系抽取等实际领域。

现有的人物关系抽取方法可以分为有监督学习、半监督学习和无监督学习，其中最近几年提出的远程监督学习被认为是半监督学习的一种。有监督学习需要依赖领域专家编写关系模式，成本较高且移植性较差。无监督学习采用聚类方法实现关系类型及对应实例的自动抽取，不需要人工干预，但所得关系类型较粗糙，不能合适地表达人物关系，并且准确率较低。常用的半监督学习采用少量种子不断迭代，获取更多人物关系实例，折中了有监督和无监督学习的优缺点，因此被广泛采用。但半监督学习方法存在以下不足：1）不断迭代容易产生语义漂移问题，从而降低准确率；2）需要事先定义人物关系类型，易导致定义的关系类型不够全面，例如以往的方法中所定义的关系类型都没有涵盖“敌对”、“邻里”等出现频率不高的关系。而最近几年提出的远程监督方法利用已有的大量结构化数据，即利用含有关系实例的知识库，来抽取更多的关系实例，由于知识库规模较大，涵盖关系类型丰富，且不需要不断循环迭代，从而保证了准确率。但在中文人物关系抽取中，远程监督方法迟迟没有得到应用，这和没有大规模可用的中文关系知识库有必然联系。

发明内容

本发明的目的是针对现有技术的不足而提供的一种新的中文人物关系抽取方法，利用中文百科网站中的关系信息自动构建人物关系知识库，采用远程监督的方法实现关系抽取。该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库，以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征，并将人名对与知识库中关系实例相互匹配，得到标记关系的人名对集合和未标记的人名对集合。最后，引入标签传播算法实现未标记人名对的关系匹配，从而实现人物关系抽取。

实现本发明目的的具体技术方案是：

一种利用中文在线资源实现远程监督人物关系抽取的方法，该方法包括以下具体步骤：

1）构建人物关系知识库，利用中文在线百科中人名词条下的人物关系信息自动构建知识库；具体包括：

利用中文在线百科来构建知识库，以人名为关键字提交到在线百科网站的搜索入口，则显示有关大量信息的页面，其中包括的人际关系信息，并以列表形式呈现在网页中。提取出的人物关系信息并存入结构为三元组的中，其中、为人名，表示人物关系描述词。利用网络爬虫的程序不断获得新的人名词条的人物关系信息，构建大规模的知识库。

2）对待抽取人物关系的语料库（生语料库）进行标记处理，具体包括：

首先对语料库进行预处理，包括分句、分词、词性标注以及人名识别。抽取出包含至少两个人名的句子，并提取句子中的所有相邻且词距不超过设定阈值的人名对及其上下文窗口中的文本信息、和，其中表示句子中前的词语集合，表示和之间的词语集合，表示后的词语集合。对每一个，依次查找在知识库中是否存在，若存在，则将该人名对标记上对应的关系，并添加到标记人物对集合中；若不存在，则将该人名对添加到未标记的人物对集合中。

3）采用标签传播算法实现为中人物对匹配最可能的关系，且，表示标记人名对集合中所有关系类型的集合，具体包括：

采用标签传播算法，并简化其中已标记的样本数据，在集合中根据将人名对分成类。在构造转移矩阵和标签矩阵时，将其中的已标记样本节点替换成为关系类型节点。具体来说，的矩阵中的每个元素根据公式（1）（2）（3）计算，其中，表示标记为关系的所有人名对集合，是指人名对和人名对之间的相似度。

由计算公式可知，转移矩阵是一个对称矩阵。而的矩阵，前行为单位矩阵，由于最终收敛，后行的值可随机取值。

（1）

（2）

（3）

转移矩阵与标签矩阵相乘，得到的矩阵校正前行为单位矩阵，如此不断与相乘，得到最终收敛的，将后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且，如果中某行的最大值低于设定阈值，则标记该行所对应的人名对的关系类型为“其他”。

从而，实现了对未标记人名对的关系匹配，即实现了中文人物关系抽取任务。

本发明的有益效果

根据本发明的实现步骤，能够自动构建人物关系知识库，其中涵盖了更为丰富、准确的关系类型，基于该知识库，引入标签传播算法实现远程监督的中文人物关系抽取，保证了关系抽取结果的准确性。

附图说明

图1为本发明流程图；

图2为互动百科中以“XX”为输入关键字获得的人物关系图；

图3为本发明标签传播算法的流程图；

图4为本发明实施例中基于互动百科和SogouC语料库的实验结果图。

具体实施方式

本发明利用在线百科中半结构化数据自动构建人物关系知识库，并基于该知识库，与生语料库中人物对相互匹配，得到标记关系的人物对集合和未标记关系的人物对集合，引入标签传播算法利用已标记的人物对为未标记人物对匹配上最恰当的关系类型，从而实现关系抽取。

实施例

本发明利用中文在线百科构建知识库，并在生语料库中实现人物关系抽取。以下的实施例中选取互动百科中数据构建知识库，选取搜狗实验室发布的SogouC语料库作为生语料库，并结合附图，对本发明做进一步阐述。

参阅图1，首先从互动百科中自动构建结构为三元组的知识库。

以人名为关键字提交到互动百科搜索入口，则在其介绍页面中含有结构化的人物关系数据。例如输入“XX”，获得与XX相关的人物及其对应关系类型，如图2所示。选取十个不同领域的代表人物作为人名搜索的种子，逐次获得每个种子的人物关系列表，存入知识库中，并将关系人物作为下一轮人物搜索的关键字，如此迭代，不断扩充知识库。最终构建的HDKB中含有14051个人物关系对，共有982种关系描述词。

但由于存在颗粒度太细的关系描述词，不适合用于人物关系抽取，于是采用人机交互的方式对关系描述词按如下规则做处理：

a）对过于细致的描述词，进行泛化，划分到颗粒度较粗的关系类型中。

b）对含有备注的描述词，去除备注部分，再作a)情况的处理。

同时，将泛化前的关系描述词作为对应关系类型的特征词，从而得到每种关系类型的特征词集。最后本实施例中得到18种人物关系类型，有日常生活中最常见的人物关系（包括父母、合作、兄弟姐妹、师生、夫妻、亲戚、祖孙、情侣、好友、同门和上下级）以及社会中出现的概率较小但对于分析人际关系网络具有重要意义的人物关系（包括经纪人、扮演、敌对、崇拜、同行、邻里和共指）。

参阅图1，需要对SogouC语料库进行文本处理，以抽取出人物对和上下文特征。

在本实施例中，采用标点符号对文本进行分句，并采用中科院的分词软件ICTCLAS进行分词和词性标注，并且制定规则获取人名实体。从而抽取出包含至少两个人名的句子，并提取句子中的所有相邻且词距不超过一定阈值的人名对及其上下文窗口中的文本信息、和。根据统计部分共现句中人名的词距，本实施例中设定该阈值为15。

所获得的共现人名对与知识库HDKB相互匹配，以得到标记关系的人名对集合和未标记关系的人名对集合。

参阅图1，接下来引用标签传播算法为未标记关系的人名对都匹配上最恰当的关系类型。

标签传播算法的流程图如图3所示，本实施例中，根据以下三个公式计算的转移矩阵，其中，表示标记为关系的所有人名对集合，是指人名对和人名对之间的相似度。

而的标签矩阵，前行为单位矩阵，由于最终收敛，后行的值可随机取值。

根据图3的流程得到最终收敛的，将该矩阵后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且，如果中某行的最大值低于设定阈值，则标记该行所对应的人名对的关系类型为“其他”。本实施例中，经过不断调优，设定该阈值为0.02。

具体的说，本实施例中，在计算人名对之间的相似度时，考虑以下三种特征：

a）人名对上下文窗口中的词条（过滤掉停用词）；

b）人物关系特征词。基于知识库中关系类型泛化处理时所获得的特征词集，人名对间的相似度计算考虑两个人名对的上下文中是否存在同一关系的特征词；

c）人名对上下文窗口中的词性特征。

对未标记人名对匹配上的关系类型进行人工标注，分为匹配正确和匹配错误，从而计算实验结果的准确率。实施例中的实验结果如图4所示，表明本发明的方法，即利用中文在线资源的远程监督人物关系抽取方法，能够在自动获取更丰富、准确的关系类型情况下，保证了较好的准确率。

Claims

1.一种利用中文在线资源实现远程监督人物关系抽取的方法，其特征在于该方法包括以下具体步骤：

1)构建人物关系知识库D，具体包括：

利用中文在线百科来构建知识库，以人名P_n为关键字提交到中文在线百科网站的搜索入口，则显示有关P_n大量信息的页面，其中包括P_n的人际关系信息，并以列表形式呈现在网页中；提取出P_n的人物关系信息<p_i,p_j,r>并以此构建相同结构的人物关系知识库D，其中p_i、p_j为人名，r表示人物关系描述词；

2)对待抽取人物关系的语料库即生语料库进行标记处理，具体包括：

对语料库进行预处理，包括分句、分词、词性标注以及人名识别；抽取出包含至少两个人名的句子，并提取句子中的所有相邻且词距不超过所定阈值的人名对<p_i,p_j>及其上下文窗口中的文本信息C_pre、C_mid和C_post，其中C_pre表示句子中p_i前的词语集合，C_mid表示p_i和p_j之间的词语集合，C_post表示p_j后的词语集合；对每一个<p_i,p_j>，依次查找在知识库中是否存在，若存在，则将该人名对标记上对应的关系r，并添加到标记人物对集合L中；若不存在，则将该人名对添加到未标记的人物对集合U中；

3)采用标签传播算法实现为未标记的人物对集合U中人物对匹配最可能的关系r，且r∈R_L，R_L表示标记人名对集合L中所有关系类型的集合，具体包括：

利用标签传播算法，并简化其中已标记的样本数据，在集合L中根据R_L将人名对分成|R_L|类；在构造转移矩阵T和标签矩阵Y时，将其中的已标记样本节点替换成为关系类型节点；具体来说，m×m的矩阵T中的每个元素根据公式(1)(2)(3)计算，其中m＝|R_L|+|U|，S(r)表示标记为关系r的所有人名对集合，sim(i,j)是指人名对i和人名对j之间的相似度；

由计算公式可知，转移矩阵T是一个对称矩阵；而(|R_L|+|U|)×|R_L|的矩阵Y，前|R_L|行为单位矩阵，由于Y最终收敛，后|U|行的值可随机取值；

t_i,j＝sim(i,j)(i,j∈U) (3)

转移矩阵T与标签矩阵Y相乘，得到的矩阵校正前|R_L|行为单位矩阵，如此不断与T相乘，得到最终收敛的Y′，将后|U|行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上；并且，如果Y′中某行的最大值低于设定阈值，则标记该行所对应的人名对的关系类型为“其他”；实现对未标记人名对的关系匹配，即实现了中文人物关系抽取。