CN102169493A

CN102169493A - 一种从文献中自动识别实验方案的方法

Info

Publication number: CN102169493A
Application number: CN2011100829656A
Authority: CN
Inventors: 何芳连
Original assignee: BEIJING OMEAGE BIOTECHNOLOGY Co Ltd
Current assignee: BEIJING OMEAGE BIOTECHNOLOGY Co Ltd
Priority date: 2011-04-02
Filing date: 2011-04-02
Publication date: 2011-08-31

Abstract

本发明提出一种从文献中自动识别实验方案的方法，包括如下步骤：读取所述文献中数字化的文献内容；将文献内容划分为多个文本段落；基于词频统计，采用特征向量表示文献内容中所有的文本段落；对文本段落的原始特征向量进行高层次特征向量的提取；通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。本发明针对生命科学文献中实验方案段落的识别任务，通过高层特征的提取和上下文无关/相关分类器的构造，能够高效、准确的在海量的生命科技文献中自动的提取出实验方案的段落。

Description

一种从文献中自动识别实验方案的方法

技术领域

本发明涉及一种从文献中自动识别实验方案的方法。

背景技术

在生命科学领域，研究者和技术人员常常需要能够从海量的文字资料中快速准确地获取与实验方案相关的内容，以便对其进行深入的分析或者进一步的知识发现。所以，从数量庞大、内容复杂的文献中快速定位到自己所需的内容是摆在科技人员面前的一个不可回避而又很有意义的问题。

现有的工作方式中，从生命科学文献中提取实验方案段落主要依赖于人工对文献内容进行通读，然后再对它们进行标注提取。该种工作方式需要许多具有丰富经验和专门知识的分类人员做大量的工作，不仅代价高昂，而且效率低下。

发明内容

本发明的目的是提供一种从文献中自动识别实验方案的方法，可以很好的解决上述问题。

本发明的目的是通过以下技术方案来实现：

一种从文献中自动识别实验方案的方法，包括如下步骤：读取所述文献中数字化的文献内容；将文献内容划分为多个文本段落；基于词频统计，采用特征向量表示文献内容中所有的文本段落；对文本段落的原始特征向量进行高层次特征向量的提取；通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。

优选的，步骤“将文献内容划分为若干文本段落”后，“基于词频统计，采用特征向量表示文献内容中所有的文本段落”前；还包括步骤：对文献内容中的所有的文本段落进行预处理，具体包括：

去除所述文本段落中的停用词；

对文本段落中的词根进行还原；

将所述文本段落分解为一系列无序的词条，并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。

优选的，步骤“基于词频统计，采用特征向量表示文献内容中所有的文本段落”具体为：

给所述词条加上与该词条对应的权重；

将所述文本段落映射成特征向量。

优选的，步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为：

通过无监督学习方法进行文本段落的特征向量的抽取训练；

通过无监督学习方法对新的文本段落进行高层次特征向量抽取。

本发明提供了一种可方便应用于计算机，能够针对生命科学研究中的海量文献，通过高层特征的提取和上下文无关/相关分类器的构造，自动的提取出与实验方案有关的段落，代替人工识别选取，具有高效、准确的特点。

附图说明

下面根据附图和实施例对本发明作进一步详细说明。

图1为本发明实施例1提出的一种从文献中自动识别实验方案的方法流程图；

图2为本发明实施例1提出的一种从文献中自动识别实验方案中S13的具体流程图；

图3为本发明实施例1提出的一种从文献中自动识别实验方案中S14的具体流程图；

图4为本发明实施例1提出的一种从文献中自动识别实验方案中S15的具体流程图。

具体实施方式

实施例1

参见图1，提出一种实验方案自动识别方法，并做进一步说明如下：

S11、读取文献中数字化的文献内容。

S12、将文献内容划分为若干文本段落，保存该文本段落的总数N。

S13、对文献内容中的所有的文本段落进行预处理，获取噪声被初步降低的文献内容。

参见图2，其具体包括如下步骤：

S131、选择未经过预处理的文本段落，并去除该文本段落中的停用词。

S132、对该文本段落中的词根进行还原。

S133、将未被特征向量表示的文本段落分解为一系列无序的词条，并获取上述词条在该文本段落中的词频tf(t，p)和出现该词条的文本段落的总数n_t。

文本段落由一系列词条组成，根据现有构词规则，将文本段落分解为一系列无序的词条，将词条在上述文本段落中出现的次数统计为tf(t，p)，即为上述词条在上述文本段落中的词频，统计所有词条的n_t，n_t为文献内容中，出现该词条的文本段落的总数。

S134、判断文献内容中是否存在未经过预处理的文本段落。如果是，转至S131；如果否，对该文献的预处理过程结束，该文献内容的噪声也被初步降低。

S14、基于词频统计，采用特征向量表示文献内容中所有的文本段落。

参见图3，其具体包括如下步骤：

S141、根据上述N、tf(t，p)、n_t给文本段落中每一词条加上与该词条对应的权重。

一个词条在越多的文本段落中出现，其权重越小，因其区分文本段落类别的能力越低；在某一个文本段落中，一个词条出现的频率越高，则其权重越大，因其区分文本段落类别的能力越强。

如下详述采用tfidf函数，通过TF-IDF公式计算该词条的权重，并将权重量化的过程：

tfidf (t, p) = \frac{tf (t, p) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; \overset{&RightArrow;}{d}} {[tf (t, p) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中，tfidf(t，p)为词条t在文本段落p中的权重，而tf(t，p)为词条t在文本段落p中的词频，N为文本段落的总数，n_t为出现t的文本段落的总数，分母为归一化因子。

S142、将文献内容中所有的文本段落映射成特征向量。

文本段落映射出的特征向量用x∈Rⁿ表示，其中，n为文本段落中词条的总数，即为字典长度，每一维上的元素x_i为第i个词条在当前文本段落中的权重。

S143、判断是否存在未被特征向量表示的文本段落。如果是，转到S141；如果否，则所有文本段落均已采用特征向量表示。

S15、对文本段落的原始特征向量进行高层次特征向量的提取。

在如生命科技文献中，不仅包含大量常用字词，还包含大量专业词汇和短语，因此，利用上面的方法表示文本段落时，文本段落的特征向量的维数非常大，因此，必须进行维数压缩，同样，必须保证提取的高层次特征向量包含尽量丰富的信息。

参见图4，其具体包括如下步骤：

S151、通过无监督学习方法进行文本段落的特征向量的抽取训练。

将参与训练的所有文献内容的K文本段落的特征向量放在一起，得到一个矩阵X，上述矩阵X的每一列对应一个文本段落的特征向量，然后对矩阵X作非负矩阵分解。

\arg \min_{U, V} {| X - UV |}^{2} s . t . {| u_{i} |}_{1} = 1, i = 1, . . ., K

其中，约束条件|u_i|₁＝1，使得矩阵U的每一列具有L1模，保证U的每一列之和为1，并且尽量稀疏，对非负矩阵U和V的求解，可以通过交换地对U和V进行梯度下降更新收敛于最优解。

S152、通过无监督学习方法对新的文本段落进行高层次特征向量抽取。

给定新的文本段落的特征向量x和训练阶段得到的矩阵U，求解|x-Uv|²，得到维数较低向量v作为新的文本段落的高层次特征向量。

S16、通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。

如下对上下文无关的分类模型进行详细描述：

给定已标注好的文本段落样本与

结合。其中，x∈R^m为文本段落特征，y∈{0，1}表示段落类别标签(O为非实验方案段落，1为实验方案段落)。采用Logistic回归模型对P(y_i|x_i)建模如下：

P (y_{i} = 1 | x_{i}) = \frac{1}{1 + \exp (w_{0} + Σ_{i = 1}^{m} w_{i} x_{i})}

以及

P (y_{i} = 0 | x_{i}) = \frac{\exp (w_{0} + Σ_{i = 1}^{m} w_{i} x_{i})}{1 + \exp (w_{0} + Σ_{i = 1}^{m} w_{i} x_{i})}

其中，w为参数向量。可以通过如下该模型的优化方法采用最大对数条件似然

w &LeftArrow; \arg \max_{w} {Σ_{l = 1}^{L} \log P (y^{(l)} | x^{(l)}; w)}

对模型参数进行优化。

如下对上下文相关的分类模型进行详细描述：

以上分类方法没有考虑待分类段落在文档中出现的位置及顺序。通过对数据的分析发现，实验分析的段落的出现位置是有一定的规律的，并且可以通过上下文的信息帮助对待分类段落类别的判定的。基于考虑上下文关系的出发点，构建基于CRF的段落分类模型。对于CRF模型，我们希望学习一个从段落序列x＝{x₁，x₂，...，x_T}到标签序列y＝{y₁，y₂，...，y_T}的映射，其中x_t为文献中第t个文本段落的特征向量。在序列标注任务中，线性链状的CRF定义关于y的条件概率如下：

P (y | x; θ) = \frac{1}{Z (x; θ)} \underset{t}{Π} Φ (y_{t}, y_{t - 1}, x_{t}; θ)

= \exp (θ^{\cdot} F (y, x) - \log Z (x; θ))

其中序列中的节点x_t为文献中第t个段落。Z(x；θ)为正则化因子，对长度为|x|的段落序列的所有可能的标签序列y′的条件概率进行求和，定义如下：

Z (x; θ) = Σ_{y^{'}} \exp (\underset{t}{Σ} Φ (y_{t^{'}}, x_{t}; θ))

上述两式中的Φ是一个有参的势函数Φ(y_t，y_t-1，x_t；θ)＝θ^·f(y_t，y_t-1，x，t)，其中参数θ是一个线性权重向量。向量f(y_t，y_t-1，x，t)＝<v(y_t，x，t)，e(y_t-1，y_t，x，t)>由节点特征向量和边特征向量组成。节点特征v_k(y_t，x，t)用于计算当前段落的内容信息，定义如下：

其中，x_t，i是文档x中第t个段落的第i维特征，节点特征的维数K＝|v|＝|x_t|×|y|。本系统中共有两种标签：实验段落(y＝0)和非实验段落(y＝1)。若经无监督学习模块获得的特征维数为50，则CRF节点特征的维数为50×2＝100。边特征计算相邻段落之间的上下文相关信息，对于标签的任意两种段落类型之间的转换组合(y′，y″)，边特征的维数J＝|e|＝|y|×|y|，具体定义如下：

对于本系统来说，边特征的维数为2×2＝4。

给定一组训练文献样本

可以通过如下的最大化对数似然条件概率

\max_{θ} {Σ_{n = 1}^{N} \log P (y^{(n)} | x^{(n)}; θ)}

来获得模型参数参数θ。在CRF中，可采用Viterbi等成熟的推理算法对此条件概率进行计算。

Claims

1.一种从文献中自动识别实验方案的方法，其特征在于，包括如下步骤：

读取所述文献中数字化的文献内容；

将文献内容划分为多个文本段落；

基于词频统计，采用特征向量表示文献内容中所有的文本段落；

对文本段落的原始特征向量进行高层次特征向量的提取；

通过上下文无关分类模型/上下文相关段落分类模型，判断文本段落是否为阐述实验方案的段落。

2.如权利要求1所述的方法，其特征在于，步骤“将文献内容划分为若干文本段落”后，“基于词频统计，采用特征向量表示文献内容中所有的文本段落”前；还包括步骤：对文献内容中的所有的文本段落进行预处理，具体包括：

去除所述文本段落中的停用词；

对文本段落中的词根进行还原；

3.如权利要求1所述的方法，其特征在于，步骤“基于词频统计，采用特征向量表示文献内容中所有的文本段落”具体为：

给所述词条加上与该词条对应的权重；

将所述文本段落映射成特征向量。

4.如权利要求1所述的方法，其特征在于，步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为：

通过无监督学习方法进行文本段落的特征向量的抽取训练；