CN104134017B

CN104134017B - 一种基于紧凑特征表示的蛋白质作用关系对抽取方法

Info

Publication number: CN104134017B
Application number: CN201410344712.5A
Authority: CN
Inventors: 董守斌; 曾之肇; 李粤
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2017-01-25
Anticipated expiration: 2034-07-18
Also published as: CN104134017A

Abstract

本发明公开了一种基于紧凑特征表示的蛋白质作用关系对抽取方法，包括以下步骤：1)选取所需的语料，语料是以句子为单位，已经有了蛋白质实体的标注及实体关系的标注；2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子，得到句子集合sen_set；3)用占位符替换句子中相应的蛋白质实体并进行占位符融合，再进行词性标注和句法分析；4)以每个实体对为单位，获取词、词性、句法和模板的特征；5)对步骤4)中获得的特征进行紧凑化表达的操作；6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。与传统的基于特征实体关系对抽取方法相比，本发明尽最大努力利用句子中可利用的信息，极大地丰富了特征向量的信息量。

Description

一种基于紧凑特征表示的蛋白质作用关系对抽取方法

技术领域

本发明涉及自然语言处理及生物信息学领域，尤其是指一种基于紧凑特征表示的蛋白质作用关系对抽取方法。

背景技术

在生物医学技术快速发展的今天，作为该领域成果展示和学术交流的主要方式之一的生物医学文献，其数目之大，增长速度之快远远超过了其他学科领域。将文献中的知识结构化一直都是个科研单位的研究热点，而实体关系的抽取是知识结构化的一种主要方式。一方面它能够帮助研究人员迅速、准确地获取相关知识，推动相关学科的发展；另一方面，能够迅速推进生物医学知识的产业化，从而创造客观的市场价值，促进国民经济快速发展。

生物文献中的命名实体是指句子中指代基因、蛋白质、疾病和组织等具有该领域具体实体意义的一类词条或短语，实体关系则是指该类单体之间是否存在相互作用关系。实体关系抽取研究需要解决三个问题：1、文献中命名实体的识别；2、能充分保留两实体间信息的特征向量；3、能够强化特征泛化能力的特征表示。

生物文献中，为了描述复杂的生物知识，生物学家通常需要运用各种复杂的句法结构。因此，为了对蕴藏在生物文献中的实体关系进行有效的表达，就需要一个包含丰富信息的特征向量，这就要求必须要从多个层次进行特征抽取(如词、词性、句法等)。另外，越包含丰富信息的特征向量就越稀疏，所以需要通过一种尽可能多地保留特征信息的前提下将特征的表示紧凑化以强化特征的泛化能力。所以说，特征信息的丰富化和特征表示的紧凑化是提高实体关系抽取性能的有效手段。

实体关系抽取主要有基于规则和基于统计的方法。基于规则的方法往往需要专家进行人工定义规则，该方法有高准确率但是低召回率的特点。该方法需要大量劳动力的参与，不大适合于信息爆炸性增长的今天。基于统计的方法中，实体关系抽取任务会被转化成一个分类问题，然后利用统计学习或者概率统计的抽取模型，预测判断一个句子中的两个实体是否存在相互作用关系。

发明内容

本发明的目的在于克服现有技术的不足与缺陷，提供一种以句子为粒度的基于紧凑特征表示的蛋白质作用关系对抽取方法，该方法用一种紧凑表示的方式表达包含丰富信息的特征向量，具有良好的抽取性能。

为实现上述目的，本发明所提供的技术方案为：一种基于紧凑特征表示的蛋白质作用关系对抽取方法，包括以下步骤：

1)选取所需的语料，语料是以句子为单位，已经有了蛋白质实体的标注及实体关系的标注；

2)舍弃步骤1)中不包含蛋白质实体或只包含一个蛋白质实体的句子，得到句子集合sen_set；

3)用占位符替换句子中相应的蛋白质实体并进行占位符融合，再进行词性标注和句法分析；

4)以每个实体对为单位，获取词、词性、句法和模板的特征；

5)对步骤4)中获得的特征进行紧凑化表达的操作；

6)利用支持向量机对从步骤4)得到的特征进行训练或者利用已训练的模型进行预测。

在步骤3)中，包括以下步骤：

3.1)蛋白质实体的标注都是以词条为单位的，将句子中属于实体关系对的第一个实体的词条置换成_PROT_1，第二个实体的词条置换成_PROT_2，对于不属于实体关系对的但又是蛋白质实体的词条置换成_PROT_，以区别于样本实体词条，另外，对于和两个实体都有重叠的词条置换成_PROT_1_2；

3.2)对句子做了占位符置换之后，会存在相同的占位符占据多个词条的情况，使用以下的规则将相邻且相同的占位符融合：

3.2.1)不管_PROT_占据几个词条或是否相邻，均不融合；

3.2.2)如果有连续的几个_PROT_1或_PROT_2，则把几个联系的占位符词条融合成一个，下面规则3.2.3)、3.2.4)的情况除外；

3.2.3)如果_PROT_1后面紧跟着_PROT_1_2，则把_PROT_1_2前面连续的几个_PROT_1合并成一个_PROT_1，同时也把_PROT_1_2置换成_PROT_2；

3.2.4)如果_PROT_1_2后面紧跟着_PROT_2，则把_PROT_1_2后面连续的几个_PROT_2合并成一个_PROT_2，同时也把_PROT_1_2置换成_PROT_1；

3.2.5)如果只存在多个_PROT_1_2，则把它们合并成一个；

3.3)使用词性标注工具对上面步骤产生的句子进行词性标注；

3.4)使用句法分析器对句子进行依赖关系句法分析，至此便可获得句子的词性标注信息和依赖关系句法信息。

在步骤4)中，包括以下步骤：

4.1)把包含一对实体的句子分为三个窗口：前窗口、中窗口和后窗口，其中，前窗口是指第一个实体前面区域，中窗口指两实体之间的区域，后窗口指二个实体后面的区域；一个句子中，优先对中窗口在关键词列表中查找词性为动词的词语，若没有，再查找词性为名词的词语，中窗口中没有匹配到相关词语，则先后对前窗口和后窗口在列表中查找词性为动词的词语，如果没找到，再查找词性为名词的词语，作为相应的关键词，如果三个窗口都没有找到关键词，则返回NO_KEYWORD，反之则返回相应的关键词；

4.2)将两个实体周边按实体位置划分为前窗口、中窗口和后窗口，得到一词序列，如下所示：

{w₁,w₂,…,w_i}+_PROT_1+{w₁,w₂,…,w_n}+_PROT_2+{w₁,w₂,…,w_i}

其中，i为前后窗口大小，n为中间两实体之间词条的数目，利用步骤3)得出的词性标注，将该词序列中的窗口序列置换成词性，便得到词性序列，如下所示：

{t₁,t₂,…,t_i}+_PROT_1+{t₁,t₂,…,t_n}+_PROT_2+{t₁,t₂,…,t_i}

其中，t为词w对应的词性，然后，对应着窗口位置，分别对每个窗口中的每个词性加上后缀信息：_B，_M，_A；B、M、A分别表示前窗口、中窗口和后窗口；

4.3)根据步骤3)中获得的句法分析信息，将其表示成图的数据结构，利用迪科斯彻算法产生_PROT_1和_PROT_2这两个节点之间的最短路径；

4.4)提取最短路径上的依存关系作为依存关系特征，如果依存关系有重复，那么重复的依存关系只取一次；

4.5)根据步骤4.3)获得的最短路径，按路径节点顺序依次提取节点的词性，保存成词性序列，作为依赖关系路径词性特征；

4.6)根据步骤4.3)获得的最短路径，按路径节点顺序依次提取节点间的依存关系，保存成依存关系序列，作为依存关系路径特征；

4.7)利用模板集合中模板的正则表达式去匹配该句子，如果匹配到则返回PATTERN，反之返回NO_PATTERN，至此便获得了样本的稀疏特征，该特征包含了词、词性、句法和模板信息；其中，模板集合的生成包括以下步骤：

4.7.1)根据步骤3)获得的单词-词性信息，定义一个单词-词性关系对序列，其中单词-词性关系对是指句子中的单词以及它的词性作为一个元组，形式如TP_i＝(w_i,t_i)，其中TP_i是指句子中第i个单词-词性关系对，w_i为第i个单词，相应地，t_i为第i个单词对应的词性；

4.7.2)根据实体对的位置，将单词-词性关系对序列切分成三个部分，定义为：

SS＝{prefix,ENT1,infix,ENT2,suffix}

其中，prefix、infix和suffix分别指前窗口、中窗口和后窗口单词-词性关系对序列，SS是Sentence Structure的缩写；

定义一个模板形式为：

p＝{prefiller,ENT1,midfiller,ENT2,postfiller}

其中，prefiller、midfiller和postfiller分别对应SS中窗口位置的填充单词-词性关系对序列；

4.8)进行蛋白质关系对模板的学习，包括以下步骤：

4.8.1)已有专门训练模板的语料集，且该语料集已有蛋白质实体标注，再使用步骤3)对该语料集进行词性标注；

4.8.2)将语料集中的句子格式化成步骤4.7)的格式：

S＝{SS₁,SS₂,…,SS_n}

其中，下标1,2,...,n分别指代句子序号，语料集的大小为n；

4.8.3)以S中任意两个不同的句子为一组(SS_i,SS_j)∈S,(i≠j)，如果满足

SS_i.NE₁＝SS_j.NE₁and SS_i.NE₂＝SS_j.NE₂

则执行下面步骤4.8.4)的操作，否则选择下一组句子执行本步骤，其中NE_i是指实体对中第i个实体的实体类型；

4.8.4)使用最长公共子序列算法对SS_i.prefix和SS_j.prefix进行序列比对操作，将抽取的序列填充成prefiller，使用相同的方式对SS_i.prefix分别和(SS_i.suffix，SS_j.infix)进行序列比对操作，将抽取的序列填充成postfiller和midfiller，从而得到一个句子模板，加入到模板集合中，执行步骤4.8.3)和4.8.4)直到句子组合遍历完句子集合S；

4.8.5)步骤4.8.4)之后得到一个候选模板集合，接着利用下面的评分公式对每个候选模板进行评分并排序，选出前80个模板作为最终的模板集合；

其中，β取值0.5，p.positive模板p是指在预留数据集中正确匹配次数，p.negative则指模板错误匹配的次数；

在步骤5)中，包括以下步骤：

5.1)关键词特征、依赖关系特征和模板特征保持不变，进入步骤5.2)；

5.2)对步骤4.2)得到的窗口词性序列中的前窗口、中窗口和后窗口取bigram；

5.3)将步骤4.5)得到的依存关系路径词性特征去除它们的次序关系，并对重复出现的词性只保留一个，保存成集合的形式作为紧凑化后的依存关系路径词性特征，进入步骤5.4)；

5.4)过滤掉步骤4.6)得到的依存关系路径特征中负样本出现次数高于正样本出现次数的特征，毗连且相同的依存关系只保留一个，这样便可得到紧凑化的依存关系路径特征。

在步骤6)中，利用支持向量机SVM分类器对由前面步骤获得到特征向量进行训练，得到一个实体关系对抽取模型。

本发明与现有技术相比，具有如下优点与有益效果：

1、与传统的基于特征实体关系对抽取方法相比，本发明尽最大努力利用句子中可利用的信息，极大地丰富了特征向量的信息量；

2、与传统的基于特征的方法相比，本发明紧凑化了特征表示，在保留丰富特征信息量的同时，极大地强化了特征的泛化能力；

3、与基于核的方法相比，本发明的计算代价小，更适合于大规模数据集，符合现在互联网海量数据的快速处理要求；

4、实施效果好，在蛋白质实体关系对具有良好的准确率和召回率。

附图说明

图1为实体置换流程图。

图2为模块特征生成流程图。

图3为为能实现本发明方法的系统框架图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所述的基于紧凑特征表示的蛋白质作用关系对抽取方法，其具体情况如下：

5)对步骤4)中获得的特征进行紧凑化表达的操作；

步骤3)的流程图如图1所示，其基本原理是将代表着实体并且具有共同属性的词条合并成一个，其包含的具体步骤如下：

3.1)蛋白质实体的标注都是以词条为单位的，将句子中属于实体关系对的第一个实体的词条置换成_PROT_1，第二个实体的词条置换成_PROT_2，对于不属于实体关系对的但又是蛋白质实体的词条置换成_PROT_，以区别于样本实体词条，另外，对于和两个实体都有重叠的词条置换成_PROT_1_2。如：

原始输入：

Human CC chemokine liver-expressed chemokine/CCL16is a functionalligand for CCR1,CCR2and CCR5,and constitutively expressed by hepatocytes.

该句子中含有的实体关系对(样本)有：

1.-[Human CC chemokine liver-expressed chemokine,CCL16]

2.+[Human CC chemokine liver-expressed chemokine,CCR1]

3.+[Human CC chemokine liver-expressed chemokine,CCR2]

4.+[Human CC chemokine liver-expressed chemokine,CCR5]

5.+[CCL16,CCR1]

6.+[CCL16,CCR2]

7.+[CCL16,CCR5]

8.–[CCR1,CCR2]

9.–[CCR1,CCR5]

10.–[CCR2,CCR5]

其中，[]前的“+”号表示这两实体存在相互作用关系，“-”则表示不存在相互作用关系。

我们取样本1作为占位符置换的实例：

_PROT_1_PROT_1_PROT_1_PROT_1_PROT_1_2is a functional ligand for_PROT_,_PROT_and_PROT_,and constitutively expressed by hepatocytes.

3.2)对句子做了占位符置换之后，会存在相同的占位符占据多个词条的情况，为了在句法分析中更为准确地分析句子的句法结构，我们使用以下的规则将相邻且相同的占位符融合：

3.2.1)不管_PROT_占据几个词条或是否相邻，均不融合；

3.2.5)如果只存在多个_PROT_1_2，则把它们合并成一个。

继续以上面的样本1为例：

_PROT_1_PROT_2is a functional ligand for_PROT_,_PROT_and_PROT_,andconstitutively expressed by hepatocytes.

3.3)使用词性标注工具对上面步骤产生的句子进行词性标注，如：

_PROT_1/NNP_PROT_2/NNP is/VBZ a/DT functional/JJ ligand/NN for/IN_PROT_/NNP,_PROT_/NNP and/CC_PROT_/NNP,and/CC constitutively/RB expressed/VBNby/IN hepatocytes/NN.

3.4)使用句法分析器对句子前半句进行依赖关系句法分析，至此便可得到该样本句子的词性标注信息和依赖关系句法信息，接下来需要利用经过占位符置换融合的句子和相应的词性句法信息进行特征的提取。

在步骤4)中，包括以下步骤：

4.1)把包含一对实体的句子分为三个窗口：前窗口、中窗口和后窗口，其中，前窗口是指第一个实体前面区域，中窗口指两实体之间的区域，后窗口指二个实体后面的区域。本方法已有一个能够很好表达两实体间关系的关键词列表，本步骤的方法是基于该列表进行的。一个句子中，优先对中窗口在关键词列表中查找词性为动词的词语，若没有，再查找词性为名词的词语，中窗口中没有匹配到相关词语，则先后对前窗口和后窗口在列表中查找词性为动词的词语，如果没找到，再查找词性为名词的词语，作为相应的关键词，如果三个窗口都没有找到关键词，则返回NO_KEYWORD，反之则返回相应的关键词；

{w₁,w₂,…,w_i}+_PROT_1+{w₁,w₂,…,w_n}+_PROT_2+{w₁,w₂,…,w_i}

{t₁,t₂,…,t_i}+_PROT_1+{t₁,t₂,…,t_n}+_PROT_2+{t₁,t₂,…,t_i}

4.7)利用模板集合中模板的正则表达式去匹配该句子，如果匹配到则返回PATTERN，反之返回NO_PATTERN，至此便获得了样本的稀疏特征，该特征包含了词、词性、句法和模板信息；其中，如图2所示，模板集合的生成包括以下步骤：

SS＝{prefix,ENT1,infix,ENT2,suffix}

定义一个模板形式为：

p＝{prefiller,ENT1,midfiller,ENT2,postfiller}

4.8)进行蛋白质关系对模板的学习，包括以下步骤：

4.8.2)将语料集中的句子格式化成步骤4.7)的格式：

S＝{SS₁,SS₂,…,SS_n}

其中，下标1,2,...,n分别指代句子序号，语料集的大小为n；

SS_i.NE₁＝SS_j.NE₁and SS_i.NE₂＝SS_j.NE₂

经过步骤4)之后，获得了样本的稀疏特征。该特征包含了词、词性、句法和模板等丰富信息。但是，如果丰富信息的特征必然会造成数据的稀疏性，因此，本发明利用步骤5)来处理该稀疏性的问题，加强特征的泛化能力。

在步骤5)中，包括以下步骤：

5.2)对步骤4.2)得到的窗口词性序列中的前窗口、中窗口和后窗口取bigram；例如步骤4.2)的例子中得到的特征为：

“NNP_B”、“VBZ_M DT_M”、“DT_M JJ_M”、“JJ_M NN_M”、“NN_M IN_M”、“NNP_A CC_A”、“CC_A NNP_A”、“NNP_A CC_A”

在步骤6)中，利用支持向量机分类器对由前面步骤获得到特征向量进行训练，得到一个实体关系对抽取模型。

如图3所示，为能实现本实施例上述蛋白质作用关系对抽取方法的系统框架图，包括：

实例生成模块，使用本发明步骤3)中的理论步骤，对句子中的实体关系对进行占位符置换，并进行词性标注和依赖关系句法分析。此模块将产生一个用于后续特征提取的实例。值得注意的是，如果一个句子中有n个蛋白质实体，那么该句子将产生个实例。

关键词特征模块，使用步骤4.1)中的方法，根据窗口位置优先顺序及窗口对应的关键词词性优先级，在关键词列表中获取关键词作为关键词特征。

窗口词性特征模块，使用步骤4.2)的方法，获取实例的窗口词性特征。

句法特征模块，使用步骤4.3)的方法，获取依赖关系树种两实体的最短依赖关系，然后再使用步骤4.4)、4.5)和4.6)的方法分别获得依赖关系特征、依赖关系路径特征和依赖关系路径词性特征。

模板生成模块，使用本方法的模板集合生成步骤，生成蛋白质实体关系对模板集合，然后对该模板集合中的每一个模板转换成正则表达式的形式。

模板特征模块，利用模板生成模块中的遍历每一个模板的正则表达式来匹配实例句子，如果匹配得到则停止遍历并返回特征PATTERN，否则返回NO_PATTERN。

紧凑表示模块，利用本发明步骤5)的方法对窗口词性模块、句法特征模块生成的特征进行紧凑化的处理，其中窗口词性特征使用步骤5.2)的方法将窗口词性特征序列转换成二元词的表达方式；依赖关系路径词性特征使用步骤5.3)的方法将依赖关系路径词性序列转换成词性集合的形式，然后将此集合按集合中字符串元素排序在生成词性序列作为依赖关系路径词性特征；依赖关系路径特征使用步骤5.4)的方法转换依赖关系路径特征。

特征向量生成模块，将关键词特征模块、词模板特征模块和紧凑表示模块的结果转换成向量表示的形式，其中每个特征模块过来的序列作为特征向量中的一位，该向量采用二值向量表达的方式，1表示该位所代表的特征存在，0则表示该位所表示的特征不存在。

预测模块，根据已经用支持向量机(Support Vector Machine，SVM)训练好的模型，对特征向量生成模块生成的特征向量进行判断分类成阳样本或阴样本，阳样本表示模型预测该实例的蛋白质关系对存在相互作用关系，阴样本反之。

综上所述，本发明提供的蛋白质实体关系对抽取方法，主要包括极大丰富特征向量的信息量、紧凑化特征表示以加强特征向量的泛化能力。以流水线的方式先抽取含有丰富信息的特征，接着将该特征紧凑化，避免重复计算。本发明还公开了一种半监督的特征提取方法，利用模板特征，向特征向量中融入了具有高准确率的属性。在本发明的上述实施案例中，综合多种特征，并以紧凑化的方式表达，抽取的准确率有了稳定的提升，召回率有了明确的提高。

以上所述实施例子只为本发明较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于紧凑特征表示的蛋白质作用关系对抽取方法，其特征在于，包括以下步骤：

3)用占位符替换句子中相应的蛋白质实体并进行占位符融合，再进行词性标注和句法分析，包括以下步骤：

3.2.1)不管_PROT_占据几个词条或是否相邻，均不融合；

3.2.5)如果只存在多个_PROT_1_2，则把它们合并成一个；

3.3)使用词性标注工具对上面步骤产生的句子进行词性标注；

3.4)使用句法分析器对句子进行依赖关系句法分析，至此便可获得句子的词性标注信息和依赖关系句法信息；

5)对步骤4)中获得的特征进行紧凑化表达的操作；

2.根据权利要求1所述的一种基于紧凑特征表示的蛋白质作用关系对抽取方法，其特征在于，在步骤4)中，包括以下步骤：

{w₁,w₂,…,w_i}+_PROT_1+{w₁,w₂,…,w_n}+_PROT_2+{w₁,w₂,…,w_i}

{t₁,t₂,…,t_i}+_PROT_1+{t₁,t₂,…,t_n}+_PROT_2+{t₁,t₂,…,t_i}

SS＝{prefix,ENT1,infix,ENT2,suffix}

定义一个模板形式为：

p＝{prefiller,ENT1,midfiller,ENT2,postfiller}

4.8)进行蛋白质关系对模板的学习，包括以下步骤：

4.8.2)将语料集中的句子格式化成步骤4.7)的格式：

S＝{SS₁,SS₂,…,SS_n}

其中，下标1,2,...,n分别指代句子序号，语料集的大小为n；

SS_i.NE₁＝SS_j.NE₁and SS_i.NE₂＝SS_j.NE₂

S c o r e (p) = (β + \log_{2} \frac{p \cdot p o s i t i v e + 0.5}{p . n e g a t i v e + 0.5}) \times l n (p \cdot p o s i t i v e + p . n e g a t i v e + 1)

在步骤5)中，包括以下步骤：

3.根据权利要求1所述的一种基于紧凑特征表示的蛋白质作用关系对抽取方法，其特征在于：在步骤6)中，利用支持向量机SVM分类器对由前面步骤获得到特征向量进行训练，得到一个实体关系对抽取模型。