CN103235772A

CN103235772A - 一种文本集人物关系自动提取方法

Info

Publication number: CN103235772A
Application number: CN2013100748836A
Authority: CN
Inventors: 罗森林; 魏超; 潘丽敏; 韩磊
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-08-07
Anticipated expiration: 2033-03-08
Also published as: CN103235772B

Abstract

本发明涉及一种从中文文本或文本集中自动提取人物关系的方法，属于计算机科学与信息抽取技术领域。在该方法中，利用了句义模型特征用于判定关系属性归属，并结合关系属性消歧、人物关系强度计算的方法等，将分散在文本或文本集中的人物关系自动提取出来，利用人物关系网络进行组织，并且通过人物关系图的方式进行展示（包括展示人物关系属性和关系强度）。本发明引入句义模型特征提升了实体关系提取方法的准确性，丰富了人物关系提取方法。此外，随着文本集中关于中心人物的文本数目的增加，该发明方法对中心人物的人物关系提取将越来越准确和全面，适用范围越来越广。

Description

一种文本集人物关系自动提取方法

技术领域

本发明涉及一种从中文文本或中文文本集中自动提取人物关系的方法，属于计算机科学与信息抽取技术领域。

背景技术

人物关系提取是把分散在文本中的人物实体及人物之间的关系准确、快速的自动提取，属于信息抽取领域的研究内容。

信息抽取技术（IE,Information Extraction）要完成两大研究任务：实体识别（EDR,Entity Detection and Recognition）和关系识别（RDR,RelationDetection and Recognition）。其中关系识别（也称作“关系提取”）就是从文本中提取实体之间的存在的关系，而这些关系的类型是预先定义的。人物关系属于实体关系中的一种，是指文本或文本集中所描述的两个人物之间的关联关系。对于人物关系提取，主要解决：①获取两个人物之间的关系属性（关系属性提取）；②计算两个人物之间的关联程度（关系强度计算）。除此之外，对于分散在文本和文本集中的人物关系的组织方式和展示形式也是需要考虑的问题。

人物关系提取方法主要有两类：基于模式识别的方法和基于机器学习的方法。

1.基于模式识别的方法：

(1)早期的基于模式识别的人物关系提取方法：基于模式识别的方法是通过词法、句法等方面的特征，构建识别所需的知识库（或称作规则库），采用该知识库来进行模式的匹配，达到关系提取的目的。对于基于模式识别的人物关系提取方法，最困难的步骤是人物关系模式（人物关系规则库）的建立。这些人物关系模式的建立需要依靠语言学家，社会学家对提取任务所涉及领域的语料进行细致深入的分析，穷举各种可能的人物关系编制人物关系模式。这种方法编制周期太长，应用成本很高。

(2)对早期方法的改进方法：针对早期的纯手工编织人物关系模式的问题，后来的学者们提出了一些解决方法。

a)如Appelt等人提出的FASTUS抽取系统中，通过引入“宏”的概念将各种领域依赖规则以一种具有扩展性、通用性的方式表达。用户只需要修改相应“宏”中的参数设置，就可以快速配置好特定领域任务的关系模式规则；所谓宏，就是一些命令组织在一起，作为一个单独命令完成一个特定任务。

b)Roman等人提出的Proteus抽取系统采用了基于样本泛化的人物关系抽取模式构建方法，这种方法通过对编制的人物关系模式进行泛化，从而使模式能适用更广领域的人物关系提取；

c)Aone等人构建的REES系统（Large-Scale Relation and EventExtraction System）中通过构造包含100多种人物关系模式的知识库来进行关系提取。

d)此外，在中文方面，国内也有一些学者采用模式识别的方法用于提取人物关系，如姜吉发等人为了减轻模式编制人员的劳动量提出了一种自举的二元关系和二元关系模式获取方法——BRPAM，该方法可以通过自举已有的二元关系扩充知识库（人物关系规则库），依据该放法，姜吉发他们设计了一个能够从自由文本中进行二元关系抽取的IE系统BRPAM2Texts；邓擘等人将词汇语义匹配引入到了关系模式匹配中，提出了一种全新的关系提取的方法。这种方法由于引入了词汇的语义特性，使得人物关系提取的结果更符合客观的逻辑，准确率有了一定的提高，对于不同领域的人物关系可以借助相关领域的词典实现人物关系提取。

以上基于模式识别的人物关系提取方法仍然存在开发成本高昂，适用性低的不足。

2.基于机器学习的方法：

(1)基于机器学习的人物关系提取方法是通过机器学习算法，在人工标引语料的基础上构造分类器，然后将其应用在领域语料人物关系的类别判断过程中。目前使用比较多的机器学习算法有MBL算法和SVM算法。如：

a)Zhang等人构建的中文命名实体及关系抽取系统就是采用MBL算法从训练数据中构建分类规则，抽取过程中基于该规则进行实体和关系的提取；

b)Zhang和车万翔等则采用SVM算法进行关系抽取规则的学习；何婷婷等人提出了利用少量人工选取的实体关系作为种子（初始关系），通过自学习的方式不断扩充关系种子集合，来提取实体关系的方法；

c)刘路等人则提出了一种基于SVM正、反例训练的实体关系提取方法。

单纯基于机器学习的方法对于文本的分析一般比较浅显，对于中文的文本语料中的人物关系提取，这种方法效果不理想。

发明内容

本发明提出了一种基于句义模型特征的人物关系提取方法，解决从中文文本或中文文本集中自动提取人物关系的问题。

本发明的技术方案包括如下内容：

首先利用分词系统进行词法分析；使用句义模型特征和分类算法判定关系属性归属；然后计算两个人物对象之间的关系属性权重，通过比较权重数值的大小对上一步的判定关系属性归属判断中出现的错误而导致的关系属性歧义进行消解处理，提升关系属性归属的判定精度；再利用局部因子、全局因子和关系属性因子计算人物关系强度，通过关系属性提取和关系强度计算后得到两个人物间的关系系数，利用从文本中得到的所有关系系数构建人物关系网络（Relation Net），最后根据人物关系网络（Relation Net）构建人物关系图，如图1所示。

步骤1，对文本的句子进行分词处理，根据分词系统中的词典数据库的词汇对文本语句做划分，并按照词汇在句子中的前后顺序编号，进而得到组成一句话词汇的序列。经过分词提取出人物对象的词汇，以及表关系的词汇。

步骤1.1，确定关系词的关系属性，关系属性被定义为描述话题人物和述题人物之间的双向关系。话题人物指话题中提及的人物对象，话题属于句义的概念，表示一句话要说明的对象。述题人物指述题中提及的人物对象，述题也是句义中的概念，与话题相对，是一句话中对话题（对象）的说明部分。

步骤2，进行关系属性归属判定。包含两个基本的过程，训练过程，判定过程。

步骤2.1，首先借助句义标注系统对文本集中表示人物关系的词或短语进行人工标注。

步骤2.2，对标注的句子先进行句法分析再进行句义分析，然后提取词法、语法、句义层面的关于人物关系的n维特征，基于这些n维特征搭配并构造关系组合的m维特征。所谓关系组合是指定义“人物-关系-人物”表示两个人物的关系。关系组合特征是表征这对人物关系的有效特征。

步骤2.3，利用步骤2.2的m维关系组合特征作为输入，采用C4.5的分类算法进行训练，得到关系组合的是非二元分类模型M⁺，如图3所示。

以上3步为关系属性归属判定的训练过程，接下来利用训练过程生成的训练模型进行实际的关系属性归属判定。

步骤2.4，提取要判定句子中所有的关系组合作为备选关系组合l组，经过特征提取得到备选的关系组合的m维特征。具体操作同步骤2.2，

步骤2.5，在利用步骤2.3训练的关系组合的是非二元分类模型M⁺对步骤2.4的l×m维的特征进行分类判断，剔除掉备选关系组合中的非法组合,保留余下的r组关系组合。

步骤2.6，最后通过比较分类结果置信度的大小对产生冲突的关系组合进行二次排除。在模型M⁺中，对每个判定为“是”的结果都会有相应的置信度系数，把该置信度作为被判定为“是”的备选关系组合的置信度，用于对存在冲突的关系组合结果进行筛选。

步骤3，关系属性消歧

计算两个人物对象之间的关系属性权重，比较权重值的大小，以权重值最大的作为两个人物对象之间的关系属性。关系属性权重计算方法为

w_{i} = Σ_{d = 1}^{N} w_{i} (d) = Σ_{d = 1}^{N} \frac{Σ_{m = 1}^{M (d)} p_{im}^{+} (d)}{M (d)} - - - (1)

其中，w_i(d)是两个人物对象之间的关系属性i在文本d中的权重值；

为关系属性i在文本d的句子m中进行关系属性归属判定产生的置信度；M(d)是文本d中的句子数目；N是文本集中的文本数目；w_i是两个人物对象之间的关系属性i在文本集中的权重值，它等于w_i(d)的综合。权重值最高的关系属性被认为是两个人物对象之间最可能存在的关系属性。

步骤4，关系强度计算

通过局部因子、全局因子和关系属性因子计算人物关系强度

c_{ij} = λ Σ_{d = 1}^{N} (L_{ij} (d) + G_{ij} (d)) + (1 - λ) P_{ij}, 0 \leq λ \leq 1 - - - (2)

其中，c_ij是人物对象i和j在文本集中关系强度值；N是文本集中的文本数；λ是共现因素与关系属性因素之间的调节系数。

在同一个句子中出现的两个人物对象之间都存在着一定的关联性。这种句子中的共现产生的关联性称作局部因子，计算方法为：

L_{ij} = \frac{1}{M} Σ_{m = 1}^{M} \frac{f_{mi} \times f_{mj}}{\underset{k}{Σ} f_{mk}^{2}} - - - (3)

其中，L_ij是人物对象i和j之间的局部因子；f_mi和f_mj分别是人物对象i和j在句子m中的出现频率；

是归一化系数，用于消除句子长度对局部因子的影响；M是文本中句子数目。

两个人物对象在文本中的共现所产生关联性的影响称作全局因子，其计算方法为：

G_{ij} = \frac{q_{i} \times q_{j}}{\underset{k}{Σ} q_{k}^{2}} - - - (4)

其中，G_ij是文本中人物对象i和j之间的全局因子；q_i和q_j分别是人物对象i和j在文本中的出现频率；

是归一化系数，用于消除文本长度对全局因子的影响。

关系属性给关系强度带来的影响称作关系属性因子，采用两个人物对象之间关系属性权重的最大值来衡量：

P_ij＝MAX{w_ij} (5)

步骤5，人物关系网络构建

根据关系属性提取和关系强度计算得到的表示文本集中任两个人物对象之间的一组关系系数构建关系网络（Relation Net）。

如图4，连线代表了人物对象之间的存在关系（关系强度大于0），c_ij和RP_ij分别代表人物对象i和j之间的关系强度和关系属性序列。关系强度是一个标量，能够通过公式(3)～(2)进行计算；关系属性序列则是一个记录了两个人物之间所有可能存在的关系属性及其属性强度的序列，可以描述为：

RP_ij＝[(rp₁,w₁),(rp₂,w₂),...(rp_m,w_m)] (6)

其中rp_i代表一种关系属性；w_i是关系属性rp_i在文本集中的属性强度，通过公式(1)计算得到。

步骤6，人物关系图提取

根据步骤5生成的关系网络（Relation Net）构建人物关系图（RelationMap），如图5所示。人物关系图中包含3种主要元素：人物、关系线和关系属性。在人物关系图中有一个中心人物，围绕中心人物的是与之关系比较近（关系强度值高）的其他人物对象，这些人物对象与中心人物对象之间通过关系线相连，每条关系线上标注了两端人物之间的关系属性，可选的，人物关系图以非中心人物进行多级展开。设置一个关系强度的阈值作为过滤条件，该阈值具有自适应的能力，能够自动适应强度的均值与方差，过滤掉与中心人物之间关系较弱（关系强度值低）的人物对象的方式。自适应的关系强度阈值计算方法为：

τ_{i} = \frac{1}{H} Σ_{j = 1}^{H} c_{ij} + \sqrt{\frac{1}{H} Σ_{j = 1}^{H} {[c_{ij} - \frac{1}{H} Σ_{j = 1}^{H} c_{ij}]}^{2}} - - - (7)

其中，τ_i是以人物对象i为中心人物时的关系强度阈值；H是从人物关系网络中提取出来的与人物对象i相关人物的数目；c_ij是人物对象i和j之间的关系强度。如果用所有与人物对象i相关的人物与之的关系强度构成一个序列{c_ij|j＝1,2,...,H}，则公式(7)表示关系强度阈值等于该序列的均值加上该序列的标准差。这种方式考虑到了该序列的变化幅度。

有益效果

相比于基于机器学习的方法，本发明采用的具有识别速度快、准确率高的特点。

相比于基于模式识别的方法，本发明实用性更广，具有更好的扩展性。

与基于模式识别的方法相比，本发明采用的技术具有更小的计算消耗，不仅适用于桌面计算机，也适用于手机、平板电脑等移动计算平台。

与基于语义模式人物关系提取方法相比，本发明的句义特征具有更优的深层分析效果从而保证了更高的识别准确率。

附图说明

图1为本发明的人物关系提取算法原理图；

图2为具体实施方式中关系属性归属判定算法原理；

图3为利用C4.5训练得到的人物关系组合是非二元判定的决策树实例（部分）；

图4为本发明的文本集的人物关系网络示意图；

图5为本发明的人物关系图实例

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

实验中采用的数据源是从Internet上通过人工的检索获取到的。在检索中使用由Google统计的热门人物“姚明”、“刘翔”、“周杰伦”、“周星驰”、“成龙”、“科比”作为检索的关键词，通过对关于这些热门人物的检索，从新闻网页上获取了1540篇文本。数据源的描述如表1所示，其中人物对象数目通过人工统计得到。

表1人物关系提取实验数据源

为了验证人物关系提取方法，进行了两个实验：

(1)人物关系提取实验：用于检验本章提出的人物关系提取算法的准确性、全面性，并与其它关系提取算法进行比较。

(2)人物关系图实验：为了验证人物关系图的有效性。

下面将对上述2测试流程逐一进行说明，所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU（主频3.0G），2.00G内存，WindowsXP SP3操作系统。

对于所提取的人物关系，我们同样选取准确率、召回率和F值进行评价，计算方法与公式(8)～(10)相同，其中的参数意义有所变化：

a)表示被提取出的正确的人物关系属性的数目；

b)表示被提取出的错误的人物关系属性的数目；

c)表示没有被提取出的人物关系属性的数目。

precision = \frac{a}{a + b} \times 100 % - - - (8)

recall = \frac{a}{a + c} \times 100 % - - - (9)

F - meansures = \frac{(β^{2} + 1) \times precision \times recall}{β^{2} \times precision + recall} \times 100 % - - - (10)

实验中分词采用中科院计算所提供的ICTCLAS[153]（Institute of ComputingTechnology,Chinese Lexical Analysis System）作为词法分析的工具。ICTCLAS的人名识别准确率达到98%以上（973评测），直接利用这个功能识别人物对象。

关系属性映射词典结合《现代汉语词典》关于关系词的释义构造，表2是关系属性映射词典的部分示例。

表2关系属性映射词典的部分示例

为了进行关系组合是非二元分类模型训练以及分类判定，选用了24个句义模型特征作为关系组合特征，用于训练分类模型以及进行判别，这些特征如下表所示。

表3用于进行关系属性归属判定的特征

1.人物关系提取实验

为了进行对比分析，分别采用基于语义模式的人物关系提取方法、基于SVM的人物关系提取方法以及基于正反例训练的SVM命名人物关系抽取方法针对相同的数据源进行人物关系提取，其中第一种方法是属于基于模式识别的方法，后两种属于基于机器学习的方法。分别对比这三种人物关系提取方法与本发明所提出方法在人物关系提取方面的效果差异。

步骤1，载入实验所需的训练数据。

步骤2，进行关系属性归属判定，如图2所示。

步骤2.1，首先对文本集中的句子进行标注，可以借助句义标注系统进行人物关系的标注。

步骤2.2，再对标注的句子先进行句法分析再进行句义分析，然后提取词法、语法、句义层面的关于人物关系的50维特征，基于这些50维特征搭配并构造关系组合的维特征。所谓关系组合是指定义“人物-关系-人物”表示两个人物的关系。关系组合特征是表征这对人物关系的有效特征。

步骤2.3，利用上一步的24维关系组合特征作为输入，采用C4.5的分类算法进行训练，得到关系组合的是非二元分类模型M⁺，如图3所示。

步骤3，载入实验数据，根据是非二元分类模型M⁺进行关系属性归属判定。

步骤3.1，这一步同步骤2.2，提取要判定句子中所有的关系组合作为备选关系组合100组，经过特征提取得到备选的关系组合的24维特征。

步骤3.2，运用训练的关系组合的是非二元分类模型M⁺对步骤2.4的100×24维的特征进行分类判断，剔除掉备选关系组合中的非法组合,保留余下的86组关系组合。

步骤4，根据公式1计算关系属性权重值，在根据计算所得的权重值进行关系属性消岐

步骤5，关系强度计算

分别根据公式（2）～（5）计算关系强度中所需的局部因子，全局因子计算人物关系强度。

步骤6，人物关系网络构建

通过关系属性提取和关系强度计算后，会得到文本集合中任何两个人物对象之间的一组关系系数（包括关系强度和关系属性序列）。利用所有的这些关系系数一起能够构成该文本集的关系网络（Relation Net）。

如图4，连线代表了人物对象之间的存在关系（关系强度大于0），c_ij和RP_ij分别代表人物对象i和j之间的关系强度和关系属性序列。关系强度是一个标量，能够通过公式(3)～(2)进行计算；关系属性序列则是一个记录了两个人物之间所有可能存在的关系属性及其属性强度的序列，表达式见公式（6）。

表4人物关系提取实验结果

人物关系提取实验结果如表4所示。实验结果显示，中文文本集人物关系提取算法对人物关系属性自动提取的准确率达到了87.6%，召回率达到了85.6%。

采用基于语义模式的实体关系提取方法、基于SVM的实体关系提取方法以及基于正反例训练的SVM命名实体关系抽取方法进行人物关系提取实验，与本章算法对比的结果如表5所示。

表5不同方法进行人物关系提取的对比实验结果

表5显示，本发明的效果要优于基于模式识别的实体关系提取，并且也好于一般基于机器学习的实体关系提取方法在人物关系提取上的应用。

2.人物关系图实验

从表1所示的以“姚明”为检索词构建的文本集合进行随机抽取100-400篇文本构成新的文本集，针对这4个文本集进行人物关系图的提取，并允许关系图进行两级展开。计算提取的关系图中关系属性的准确率、召回率和F1值。

根据关系网络（Relation Net）构建人物关系图（Relation Map），如图5所示。人物关系图中包含3种主要元素：人物、关系线和关系属性。在人物关系图中有一个中心人物，围绕中心人物的是与之关系比较近（关系强度值高）的其他人物对象，这些人物对象与中心人物对象之间通过关系线相连，每条关系线上标注了两端人物之间的关系属性，可选的，人物关系图以非中心人物进行多级展开。设置一个关系强度的阈值作为过滤条件，该阈值具有自适应的能力，能够自动适应强度的均值与方差，过滤掉与中心人物之间关系较弱（关系强度值低）的人物对象的方式。

人物关系图实验的结果如表6所示。

表6人物关系图实验结果

实验结果显示，在文本集中文本数目达到400的时候，人物关系图的第一级和第二级展开的准确率分别达到95.5%和96.9%，召回率分别达到63.9%和59.6%。无论是在第一级展开还是第二级展开中，准确率和召回率都随着文本集中的文本数的增加而增加，也就是说越多关于中心人物的文本，对于中心人物的关系提取越准确和全面。

比较表6和表4，会发现人物关系图实验中准确率要高于人物关系提取实验，但是召回率有所下降。造成这种现象的原因是构造人物关系图的时候，需要利用公式(7)过滤掉大量与中心人物关系强度较弱的人物对象，因此全面性下降（召回率下降）；而文本集对中心人物与关系强度较高的人物之间的关系描述更加细致，因此提取的准确性更高（准确率上升）。

Claims

1.一种文本集人物关系自动提取方法,先判定人物关系属性归属，然后计算关系强度，进而构建人物关系网络，并最终提取人物关系图，其特征是：依次完成关系属性归属，关系强度计算，关系网络构建。整体步骤如下。

2.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是确定关系词关系属性。内容如下：

先对文本的句子进行分词处理，并为每个词编号。提取表示人物对象的词汇，以及表关系的词汇，从而确定关系词的关系属性。

3.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是判定关系属性模块。内容如下：

利用人工标注以后的文本集语料进行关系属性归属判定的模型训练，然后再利用训练模型进行实际的关系属性归属判定，最后比较分类结果置信度的大小，对产生冲突的关系组合进行二次排除。

4.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是关系属性消歧模块。内容如下：

利用公式（1）计算人物对象的关系属性权重，并比较权重值的大小，以权重值最大的作为两个人物对象之间的关系属性。关系属性权重计算方法为

其中，w_i(d)是两个人物对象之间的关系属性i在文本d中的权重值；为关系属性i在文本d的句子m中进行关系属性归属判定产生的置信度；M(d)是文本d中的句子数目；N是文本集中的文本数目；w_i是两个人物对象之间的关系属性i在文本集中的权重值，它等于w_i(d)的综合。权重值最高的关系属性被认为是两个人物对象之间最可能存在的关系属性。

5.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是关系强度计算模块。内容如下：

利用局部因子、全局因子和关系属性因子计算人物关系强度。

其中，c_ij是人物对象i和j在文本集中关系强度值；N是文本集中的文本数； λ是共现因素与关系属性因素之间的调节系数。

全局因子计算方法为：

是归一化系数，用于消除文本长度对全局因子的影响。

关系属性因子，直接采用关系属性权重的最大值来计量：

6.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是人物关系网络构建模块。内容如下：

根据关系属性提取和关系强度得到一组关系系数（包括关系强度和关系属性序列）。综合所有这些关系系数构建该文本集的关系网络（Relation Net）。

7.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是提取人物关系图模块。内容如下：

由关系网络（Relation Net）构建人物关系图（Relation Map）。人物关系图中包含3种主要元素：人物、关系线和关系属性。人物通过关系线相连，每条关系线上标注了两端人物之间的关系属性，人物关系图中有一个中心人物，其他人物对象利用连线的长短表示二人之间关系强度的高低，（关系强度值越高连线越短，距离越近），可选的，人物关系图以非中心人物进行多级展开。设置一个关系强度的阈值作为过滤条件，该阈值具有自适应的能力，能够自动适应强度的均值与方差，过滤掉与中心人物之间关系较弱（关系强度值低）的人物对象的方式。自适应的关系强度阈值计算方法为：

8.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是关系属性归属判定模型的训练特征选用了句义模型中的多个特征。

9.根据权利要求1所述的一种文本集人物关系自动提取方法，其特征是关系属性消歧是基于句义特征的关系属性归属判定模型训练过程中求得的置信度的。

10.根据权利要求1所述的一种文本集人物关系自动提取方法，关系强度计算依赖于关系属性权重。