CN104699695A

CN104699695A - 一种基于多特征语义树核的关系抽取方法和信息检索方法

Info

Publication number: CN104699695A
Application number: CN201310652675.XA
Authority: CN
Inventors: 韩先培; 孙乐
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2015-06-10
Anticipated expiration: 2033-12-05
Also published as: CN104699695B

Abstract

本发明公开一种基于多特征语义树核的关系抽取方法，以及应用该方法进行文本信息检索的方法，属于自然语言处理技术领域。该关系抽取方法主要包含：面向句法分析树关系表述表示的特征扩展机制；基于上述特征扩展机制的句法树内容特征扩展；融合内容特征和句法分析树结构特征的多特征语义树核。面向句法分析树的特征扩展机制将特定关系表述的句法结构和内容特征置于统一的表示框架之中进行表示。句法树特征扩展将关系表述的重要语义信息和内容信息融入到句法树表示中。多特征语义树核提供了一种有效和高性能的算法，可综合关系表述的句法结构和内容特征进行综合判断。

Description

一种基于多特征语义树核的关系抽取方法和信息检索方法

技术领域

本发明涉及一种关系抽取方法，特别是涉及一种基于多特征语义树核的关系抽取方法，以及应用该方法对互联网网中文本信息进行检索的方法，属于自然语言处理技术领域。

背景技术

近年来，随着Web2.0的发展，互联网上涌现出越来越多的非结构化文本信息。如何挖掘这些文本中的信息并构建智能信息服务是一项有重要意义的工作。通过从非结构化的文本中抽取出用户感兴趣的知识，关系抽取是实现上述目标的关键技术之一。

另一方面，语义知识是自然语言理解的基石，是实现文本各个层面智能分析的基础，其核心是概念与概念之间的语义关系。由于人工编写方法受制于专家构建的时间，低估了语义知识的复杂性和规模，大规模语义知识的缺乏一直是高性能自然语言处理的关键瓶颈。为此如何利用自动的关系抽取技术获取海量的语义知识也是自然语言处理技术实用化的重要因素之一。

综上，构建智能信息服务的核心之一是知识获取和自然语言理解，而关系抽取是提供自然语言理解基础知识的一项关键技术。

由于自然语言表达的多样性和歧义性，关系抽取需要结合关系表述的句法结构特征和内容特征进行综合判断。现有的关系抽取方法分为两种：一种是基于浅层特征的分类方法，一种是基于树核的分类方法。然而，上述两种方法都存在一定的不足，它们都不能在一个统一的框架下表示和利用关系表述的句法结构特征和内容特征：其中基于浅层特征的分类方法只能捕捉内容特征，而基于树核的分类方法只能捕捉关系表述的句法结构。

发明内容

为克服现有关系抽取技术在统一表示和利用关系表述句法结构和内容特征方面的不足，本发明主要提供了一种基于多特征语义树核的关系抽取方法，采用统一的框架来表示关系表述的句法结构和内容特征，可结合关系表述的句法结构和内容特征进行综合判断。

本发明所采用的技术方案如下：

一种基于多特征语义树核的关系抽取方法，其步骤包括：

1）在句法分析树的每一个节点处加入用于表示内容特征的特征向量，以统一表示关系表述的句法结构特征和内容特征；

2）对句法分析树中的每一个树节点，抽取表示其内容特性的一系列特征，并将该一系列特征加入到树节点的特征向量中，从而形成多特征扩展句法分析树；

3）基于所述多特征扩展句法分析树构建多特征语义树核，通过该多特征语义树核综合利用句法结构特征和内容特征计算不同句法分析树之间的相似度，得到可靠的关系抽取结果。

进一步地，步骤1）使用通用句法分析器对关系表述文本进行句法分析得到所述句法分析树。

进一步地，步骤1）所述多特征扩展句法分析树，其中每一个节点被扩展表示为：

R_n＝(L_n，F_n)，

其中，R_n是多特征扩展句法分析树中的节点n的多特征表示，L_n是节点n的句法树标签；F_n是节点n的内容特征向量。该多特征扩展句法分析树表示实现了关系表述句法结构和内容特征的高效统一表示：其中树结构表示了句法结构，而节点的特征向量表示了内容特征。

进一步地，步骤3）所述多特征语义树核，其优点是可以综合考虑不同多特征扩展句法分析树之间的句法结构相似度和内容相似度，该多特征语义树核基于如下公式计算相似度：

F_{tk} (T_{1}, T_{2}) = Σ_{t_{1} &Element; T_{1}} Σ_{t_{2} &Element; T_{2}} k (t_{1}, t_{2}),

其中，T₁和T₂是待比较的多特征扩展句法分析树，t₁和t₂是T₁和T₂的子树，k(t₁,t₂)是子树t₁和t₂之间的相似度，其计算方法如下：

k (t_{1}, t_{2}) = δ (t_{1}, t_{2}) \times \underset{(n_{i}, n_{j}) &Element; E (t_{1}, t_{2})}{Π} (1 + sim (n_{i}, n_{j})),

其中，δ(t₁，t₂)是一个表征t₁和t₂是否有相同句法结构的指示函数，E(t₁,t₂)是子树t₁和t₂的所有对齐节点对；sim(n_i,n_j)是对齐节点n_i和n_j之间的相似度，由其特征向量的内积决定。

进一步地，给定训练语料，本发明通过所述多特征语义树核计算训练实例之间的相似度，并基于该相似度及支持向量机训练算法构建支持向量机关系分类器；然后计算测试实例与训练实例（即支持向量机的支撑向量）之间的多特征语义树核相似度，并基于该相似度使用支撑向量机对测试实例进行分类，从而得到可靠的关系抽取结果。

一种采用上述方法的文本信息检索方法，其步骤包括：

1）采用上述关系抽取方法对互联网上的文本信息进行关系抽取，将其将转换为计算机可处理的知识；

2）采用上述关系抽取方法对用户输入的查询信息进行关系抽取，将用户的信息需求转换为特定关系的查询，进而根据经步骤1）处理的互联网上的文本信息返回查询结果。

本发明的基于多特征语义树核的关系抽取方法，内容主要包括：面向句法分析树的特征扩展机制；基于上述特征扩展机制的句法树内容特征扩展；融合内容特征和句法分析树结构特征的多特征语义树核。面向句法分析树的特征扩展机制提供了统一的框架来表示关系表述的句法结构和内容特征。句法树特征扩展将关系表述的重要语义和内容信息融入到句法树表示中。多特征语义树核提供了一种有效且高性能的算法，可结合关系表述的句法结构和内容特征进行综合判断。

与现有技术相比，本发明的有益效果是：1）提出了一种句法分析树多特征扩展机制，为统一表示关系表述的句法结构和内容特征提供了框架；2）提出了一种新的关系表述相似度计算方法--多特征语义树核，通过综合关系表述的句法结构和内容特征，提供了更准确的关系表述相似度，从而得出更可靠的关系抽取结果。

附图说明

图1为本发明的基于多特征语义树核的关系抽取方法的步骤流程图。

图2、图3为多特征扩展的句法分析树示例图，其中图2中的T2树为实体one和实体plants之间关系表述“one of the town’s plants”的多特征扩展句法分析树表示，图3中的T4树为实体one和实体team之间关系表述“one of the team in USA”的多特征扩展句法分析树表示。。

图4为测试实例多特征句法分析树的示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明的基于多特征语义树核的关系抽取方法，其主要流程如图1所示，首先在句法分析树的每一个节点处加入用于表示内容特征的特征向量，以统一表示关系表述的句法结构特征和内容特征；然后对句法分析树中的每一个树节点，抽取表示其内容特性的一系列特征，并将该一系列特征加入到树节点的特征向量中，从而形成多特征扩展句法分析树；然后基于所述多特征扩展句法分析树构建多特征语义树核，通过该多特征语义树核综合利用句法结构特征和内容特征计算不同句法分析树之间的相似度，最终得到可靠的关系抽取结果。下面对各步骤进行具体的说明。

1.扩展关系表述的多特征句法分析树表示

关系抽取的基础是高效的表示机制，用于捕捉关系表述的核心特征。通常，关系表述的核心特征包括句法结构和内容特征。如图2、图3所示，实体one和实体plants之间关系表述“one of the town’s plants”的核心特征包括该表述的句法结构（如左边的句法分析树T2）和内容结构（如标注在句法分析树节点上的特征）。传统的关系抽取方法要么仅仅使用句法分析树结构，要么仅仅使用特征向量表示，都不能在统一的框架下综合表示这两种不同的信息。

本发明在每一个句法树节点处加入一个特征向量，为统一表示句法结构特征和内容特征提供方法，将关系表述表示为多特征扩展句法分析树，其中句法分析树每一个节点被扩展表示为：

R_n＝(L_n，F_n)

其中，L_n是节点n的句法树标签，如图2、图3中的NP，CD等等；F_n是节点n的内容特征，如图2中树T2中节点1的特征向量：

{PossessivePhrase,RootPath:NP-PP,Contain_Arg2_GPE,…}。

上述多特征扩展句法分析树表示实现了关系表述句法结构和内容特征的高效统一表示：其中树结构表示了句法结构，而节点的特征向量表示了内容特征。

2.基于上述表示框架，为每一个句法树节点标注一系列特征，用于捕捉该句法树节点的内容特性，如图2、图3所示。

在实际使用中，一个句法树节点的内容特征通常可分为以下几类：实例模式特征、短语特征和上下文特征。其中实例模式特征用于表示关系表述的整体特性，一些有效的特征包括关系表述的句法-语义结构、关系论元的实体类别和关系表述的基本短语序列；短语特征用于捕捉句法树中对应的内容，一些有效的特征包括词汇模式、词汇语义和包含词统计数据；上下文特征用于表示该句法树在整体关系表述中所起的作用，一些有效的特征包括从句法树根节点到该句法树的路径及该句法树与关系论元的相对位置。

3.构建多特征语义树核，该树核可以综合利用句法结构和内容特征计算不同句法分析树之间的相似度，从而提供更为可靠的关系抽取结果

多特征语义树核可以高效的计算不同多特征扩展句法分析树之间的相似度。相比之前的树核相似度，多特征语义树核的优点是可以综合考虑不同多特征扩展句法分析树之间的句法结构相似度和内容相似度。

本发明的多特征语义树核基于如下公式计算相似度：

F_{tk} (T_{1}, T_{2}) = Σ_{t_{1} &Element; T_{1}} Σ_{t_{2} &Element; T_{2}} k (t_{1}, t_{2}),

k (t_{1}, t_{2}) = δ (t_{1}, t_{2}) \times \underset{(n_{i}, n_{j}) &Element; E (t_{1}, t_{2})}{Π} (1 + sim (n_{i}, n_{j}))

基于上述计算方法，本发明的多特征语义树核可以：（1）统计不同多特征扩展句法分析树之间的相似公共子树来捕捉句法结构相似度；（2）同时考虑子树的节点特征相似度来捕捉内容相似度。

下面提供一个具体实例，该实例以抽取关系“位于”为例说明上述方法的实施过程。

场景：

训练语料：

正例1：one和town之间的关系表述“one of the town’s plants”

负例2：one和team之间的关系表述“one of the team in USA”

测试语料：

测试例1：one和city之间的关系“one of the city’s buildings”

实施：

1）首先，使用通用句法分析器对训练语料和测试语料进行句法分析，并对句法分析树的每一个节点进行特征标注得到多特征扩展句法分析树。

具体的，训练语料的多特征扩展句法分析树如图2、图3所示，测试语料的多特征扩展句法分析树如图4所示。

2）基于训练语料，使用支持向量机算法构建关系抽取分类器。

在本方法中，支持向量机基于多特征语义树核计算出的训练实例相似度进行构建。

具体的构建支持向量机的过程为：

a)对多特征扩展句法分析树进行编程实现，实现句法分析树与其文本表示之间的转换接口；

b)面向特定通用支持向量机软件（如LibSVM，SVM-light），基于其扩展接口编程实现多特征语义树核；

c)使用通用支持向量机软件及多特征扩展句法分析树的表示进行训练得到最终的支持向量机模型。

构建关系抽取分类器的过程为：

a)给定需要抽取的关系类别，标注一定数量的关系表述实例；

b)对关系表述实例进行分析得到多特征扩展句法分析树；

c)面向需要抽取的关系类别，训练对应的支持向量机模型；

d)构建支持向量机模型分类结果到关系类别的映射工具（选择具有最大分类概率的支持向量机模型所对应的关系类别）。

3）基于支持向量机，计算测试实例与支撑向量（也是训练实例）之间的多特征语义树核相似度，对测试实例进行分类，进而得到可靠的关系抽取结果。

对测试实例进行分类的过程为：

a)对每一个测试实例，使用通用句法分析器对其进行句法分析，对句法树中的每一个节点进行特征抽取，得到本发明的多特征扩展句法分析树表示；

b)使用基于训练语料训练得到的支持向量机模型对测试实例的句法分析树进行分类；

c)选择具有最大分类概率的关系类别作为测试实例的关系类别。

在本例中，尽管测试实例、正例1和负例1都有同样的句法结构，但是他们之间的特征并不相同：测试实例与正例1在特征上更为相似，而与负例1在特征上不太相似。因此多特征语义树核可以综合这些信息得出测试实例与正例更相似，即属于“位于”关系。

为验证本发明的实际效果，我们使用了美国国家标准与技术研究院所组织的自动内容抽取标准评测（http://www.itl.nist.gov/iad/894.01/tests/ace/）语料（ACE RDC2005，www.itl.nist.gov/iad/894.01/tests/ace/2005/）进行了测试。我们与多个现有的关系抽取基准系统进行了对比，实验结果如表1所示。从表中可以看出，多特征语义树核相比基于树核的方法和基于浅层特征的方法都取得了一定的性能提升。

表1.系统与一些关系抽取基准系统的对比

基于本发明，我们可以抽取非结构化文本中我们感兴趣的可靠的关系抽取结果，并将其转换为可供计算机处理和使用的结构化知识。这些关系抽取结果可广泛应用在计算机智能信息服务和自然语言理解应用中，一些代表性的应用包括：

1）自动领域知识库构建

许多企业应用和互联网应用都需要构建领域知识库。例如，智能医疗服务需要构建包括包含药物、细菌、病原、疾病、症状、医院、医生等等实体概念之间关系的医学知识库。然而由于这样的医学知识库非常庞大，同时又在不断更新，人工构建难以满足要求。使用本发明，我们可以自动的从互联网、医学书籍、药典、病历中抽取领域特定关系，从而大大的解放人工，并保证知识库中知识的覆盖率的更新速度。

2）智能问答，以及信息检索

互联网上包含了海量的知识，但是目前人们获取互联网上知识的主要方式还是文本的检索。文本检索通常还需要用户自己耗费大量时间去阅读文本来得到答案。基于本发明，我们可以将互联网上的文本都转换为计算机可处理的知识，并将用户的信息需求转换为特定关系的查询，从而为用户提供直接的答案，而非相关的文档。例如，本发明可以抽取互联网中所有国家的城市、人口、语言等等关系信息，并将用户的提问“哥斯达黎加的首都是哪儿”转换为关系首都（哥斯达黎加，？）的查询，并直接返回对应答案“圣何塞”。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于多特征语义树核的关系抽取方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于：所述多特征扩展句法分析树中每一个节点被扩展表示为：

R_n＝(L_n，F_n)，

其中，R_n是多特征扩展句法分析树中的节点n的多特征表示，L_n是节点n的句法树标签，F_n是节点n的内容特征向量。

3.如权利要求2所述的方法，其特征在于：所述多特征语义树核综合考虑不同多特征扩展句法分析树之间的句法结构相似度和内容相似度，并采用如下公式计算相似度：

F_{tk} (T_{1}, T_{2}) = Σ_{t_{1} &Element; T_{1}} Σ_{t_{2} &Element; T_{2}} k (t_{1}, t_{2}),

其中，T₁和T₂是待比较的多特征扩展句法分析树，t₁和t₂是T₁和T₂的子树，k(t₁,t₂)是子树t₁和t₂之间的相似度。

4.如权利要求3所述的方法，其特征在于：所述子树t₁和t₂之间的相似度k(t₁,t₂)的采用如下公式计算：

k (t_{1}, t_{2}) = δ (t_{1}, t_{2}) \times \underset{(n_{i}, n_{j}) &Element; E (t_{1}, t_{2})}{Π} (1 + sim (n_{i}, n_{j})),

其中，δ(t₁，t₂)是表征t₁和t₂是否有相同句法结构的指示函数，E(t₁,t₂)是子树t₁和t₂的所有对齐节点对；sim(n_i,n_j)是对齐节点n_i和n_j之间的相似度，由其特征向量的内积决定。

5.如权利要求1所述的方法，其特征在于：给定训练语料，通过所述多特征语义树核计算训练实例之间的相似度，并基于该相似度及支持向量机训练算法构建支持向量机关系分类器；然后计算测试实例与训练实例之间的多特征语义树核相似度，并基于该相似度使用支撑向量机对测试实例进行分类，从而得到可靠的关系抽取结果。

6.如权利要求5所述的方法，其特征在于，构建所述支持向量机的方法为：

b)面向特定通用支持向量机软件，基于其扩展接口编程实现多特征语义树核；

c)使用特定通用支持向量机软件及多特征扩展句法分析树的表示进行训练得到最终的支持向量机模型。

7.如权利要求5所述的方法，其特征在于，所述构建支持向量机关系分类器的方法为：

b)对关系表述实例进行分析得到多特征扩展句法分析树；

c)面向需要抽取的关系类别，训练对应的支持向量机模型；

d)构建支持向量机模型分类结果到关系类别的映射工具。

8.如权利要求5所述的方法，其特征在于，所述对测试实例进行分类的方法为：

a)对每一个测试实例，使用通用句法分析器对其进行句法分析，对句法树中的每一个节点进行特征抽取，得到多特征扩展句法分析树表示；

9.一种采用权利要求1所述方法的文本信息检索方法，其步骤包括：

1）采用权利要求1所述方法对互联网上的文本信息进行关系抽取，将其将转换为计算机可处理的知识；

2）采用权利要求1所述方法对用户输入的查询信息进行关系抽取，将用户的信息需求转换为特定关系的查询，进而根据经步骤1）处理的互联网上的文本信息返回查询结果。