CN108846257B

CN108846257B - 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法

Info

Publication number: CN108846257B
Application number: CN201810436260.1A
Authority: CN
Inventors: 王顺芳; 邓琳; 房园; 郭磊; 曹子成
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-08-24
Anticipated expiration: 2038-05-09
Also published as: CN108846257A

Abstract

本发明公开一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法。首先，通过对源文本进行预处理，识别源文本中的蛋白质命名实体。同时，对源文本中的亚细胞位置的关键词进行识别，利用自建的亚细胞位置信息字典在每个文档中进行关键词匹配，进而在文本数据中对亚细胞位置的关键词进行提取。其次，将包含命名实体与位置信息共现的句子进行筛选，得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。然后，将提取出来的特征向量化，构建特征集合。最后使用以叠加式的方法组合单个分类器所构成的集成分类器来构建分类模型，并将该分类模型应用到目标生物医学文本挖掘。

Description

一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法

技术领域

本发明属于数据挖掘技术领域，特别涉及一种基于文本挖掘技术的蛋白质亚细胞定位信息的提取方法。

技术背景

生物医学文本挖掘是文本挖掘和生物医学领域相结合的新型交叉学科，其内容是在现有生物医学文献基础上，利用文本挖掘技术进行知识发现。近年来，生物文献以指数级别的速度增长，这些非结构化的文本中蕴含了大量的生物医学实验数据和成果。在生物医学文献中发现知识的意义在于，研究人员可以利用新发现的知识探究生命科学中的一些本质关系，例如基因和疾病的关系、基因和细胞的关系，甚至基因间的相互关系，从而便于研究人员可以更好地诊断、治疗甚至预防目前技术难以攻克的疾病。然而，呈指数级增长趋势的文献数量使得生物学家难以通过人工查找的方式迅速发现知识。所以，为了避免频繁、重复的人工操作，利用计算机处理大量生物医学文献是解决这一问题的重要途径。

生物医学文本挖掘相关研究内容分别有生物医学命名实体识别、同义词与缩略语识别、生物医学实体关系抽取、生物医学文献分类、生物医学实体名称规范化等。而在生物医学实体关系抽取的问题中，现有的研究大多侧重于采用文本挖掘手段从文本中挖掘蛋白质相互作用关系及基因与疾病关联关系。

朱斐等提出了“一种利用文本数据构建蛋白质相互作用网络的方法”（2015年5月27日公布的，公布号为：CN104657626）公开了一种利用文本数据构建蛋白质相互作用网络的方法。薛涵凛等提出了“一种基于双向LSTM和CRF的命名实体识别方法”（2018年1月30日公布的，公布号为：CN107644014），通过对现有的传统命名实体识别算法进行的改进优化，有效提取文本特征信息并且能够在不同语言的实体识别。李满生等提出的“蛋白质相互作用信息的文本挖掘研究进展 ”（<中国科学>，2010年）总结出了基于生物文本挖掘蛋白质相互作用信息的一般流程；

然而，蛋白质及其自身所在的亚细胞位置也是一组重要关系。蛋白质是构成细胞的主要成分之一，对生物体的生命活动有重要且多样的作用。而蛋白质自身所处的亚细胞位置在很大程度上决定了蛋白质的功能。蛋白质在核糖体中合成后经蛋白质分选信号引导后如果没有被转运到特定的亚细胞，将会对细胞功能造成极大影响。因此，蛋白质亚细胞定位是解释蛋白质功能的重要信息来源，是研究蛋白质功能的基础。文献数目巨大且增长迅速，人们通过手工阅读文献往往难以及时、高效地发现最新的蛋白质亚细胞定位信息。单纯依靠手工阅读来获取最新的蛋白质亚细胞定位信息是不现实的。使用文本挖掘技术搜集蛋白质亚细胞定位数据，自动提取蛋白质亚细胞定位信息，能有效提高研究人员获取最新信息的效率。本发明结合文本挖掘技术和以叠加式的方法组合单个分类器所构成的集成分类器来构建分类模型，实质就是要从文本中挖掘出蛋白质亚细胞定位信息。

发明内容

基于上述存在的问题，本发明提供一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法。通过对源文本进行预处理，识别源文本中的蛋白质命名实体。同时，对源文本中的亚细胞位置的关键词进行识别，利用自己构建的亚细胞位置字典在每个文档中进行关键词匹配，进而在文本数据中对亚细胞位置的关键词进行提取。其次，将包含命名实体与位置信息共现的句子进行筛选，得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。然后，将提取出来的特征向量化，构建特征集合。最后使用叠加式的方法组合单个分类器的预测结果，提高分类器的预测能力。

本发明的目的在于提供一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法，其具体技术方案包括以下步骤：

步骤1：对源文本中的蛋白质命名实体进行识别。

步骤1.1：对源文本进行预处理，首先分割短语，然后将所有字母转换为小写字母，将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型，利用现有的词性标注工具Brill-Tagger进行词性标注。

步骤1.2：利用正则表达式消除源文本中的命名实体边界错误。

步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配，得到词典匹配结果。

步骤1.4：将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合，使用条件随机域模型进行训练，得到蛋白质命名实体信息。

步骤2：对源文本中的亚细胞位置的关键词进行识别，利用字典在每个文档中进行关键词匹配，进而在文本数据中对亚细胞位置的关键词进行提取。

步骤2.1：对源文本进行预格式化处理。首先将大段的文本内容划分成句子和单词，单词是原子的、不再可分的，关键词匹配时涉及的每个词组由若干个单词组成。然后是将英文单词的数、时态语法变形去除，将相同的单词化为一个统一的形式，以免遗漏一些匹配。

步骤2.2：通过收集六类物种细胞中的亚细胞位置信息，构建亚细胞位置信息字典。

步骤2.3：利用字典在每个文档中进行关键词匹配，进而在文本数据中进行信息提取，得到亚细胞位置关键字信息。

步骤3：针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息，将包含着这两者的句子进行筛选，得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。

步骤4：针对步骤3中得到的数据集，分别提取相应特征构建特征集合。

步骤4.1：利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理，从而得出数据集的词特征与逻辑特征。

步骤4.2：针对步骤4.1中得到的词特征，利用现有的神经网络模型word2vec将词特征向量化，得到词特征向量矩阵。

步骤4.3：将步骤4.1中得到的词性特征数字化，提取词性序列，计算状态转移矩阵概率，得到状态转移概率矩阵。

步骤4.4：将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注，得到词性特征。

步骤4.5：将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并，得到特征集合。

步骤5：针对步骤4中的特征集合，通过训练多个分类器，最后使用叠加式的方法组合单个分类器的预测结果，构建分类模型。

步骤6，将步骤5中构造的分类模型应用到生物医学文本挖掘当中。

上述的源文本是由一个或多个句末带有终结符号构成的英文文本，文本包含蛋白质亚细胞定位信息且符合语法规则，其中终结符号包括句号、逗号、问号、感叹号和分号。上述的蛋白质命名实体是指蛋白质名称。上述的逻辑特征包括了蛋白质命名实体与亚细胞位置信息间的单词数、动词及标点符号数。上述的神经网络模型word2vec指的是一款将词表征为实数值向量的高效工具。

附图说明

图1为本发明的具体实施方式流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，结合附图1，对依据本发明提供的具体实施方式，详细说明如下。

如图1所示，从生物医学文本中挖掘蛋白质亚细胞定位信息的第一步，就是要对源文本中的蛋白质命名实体进行识别。

步骤1：对源文本中的蛋白质命名实体进行识别。

Claims

1.一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法，其特征在于，该方法包括以下步骤：

步骤1：对源文本中的蛋白质命名实体进行识别；

步骤1.1：对源文本进行预处理，首先分割短语，然后将所有字母转换为小写字母，将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型，利用现有的词性标注工具Brill-Tagger进行词性标注；

步骤1.2：利用正则表达式消除源文本中的命名实体边界错误；

步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配，得到词典匹配结果；

步骤1.4：将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合，使用条件随机域模型进行训练，得到蛋白质命名实体信息；

步骤2：对源文本中的亚细胞位置的关键词进行识别，利用字典在每个文档中进行关键词匹配，进而在文本数据中对亚细胞位置的关键词进行提取；

步骤2.1：对源文本进行预格式化处理；首先将大段的文本内容划分成句子和单词，单词是原子的、不再可分的，关键词匹配时涉及的每个词组由若干个单词组成；然后是将英文单词的数、时态语法变形去除，将相同的单词化为一个统一的形式，以免遗漏一些匹配；

步骤2.2：通过收集六类物种细胞中的亚细胞位置信息，构建亚细胞位置信息字典；

步骤2.3：利用字典在每个文档中进行关键词匹配，进而在文本数据中进行信息提取，得到亚细胞位置关键字信息；

步骤3：针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息，将包含着这两者的句子进行筛选，得到蛋白质命名实体和亚细胞位置信息共现的句子数据集；

步骤4：针对步骤3中得到的数据集，分别提取相应特征构建特征集合；

步骤4.1：利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理，从而得出数据集的词特征与逻辑特征；

步骤4.2：针对步骤4.1中得到的词特征，利用现有的神经网络模型word2vec将词特征向量化，得到词特征向量矩阵；

步骤4.3：将步骤4.1中得到的词性特征数字化，提取词性序列，计算状态转移矩阵概率，得到状态转移概率矩阵；

步骤4.4：将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注，得到词性特征；

步骤4.5：将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并，得到特征集合；

步骤5：针对步骤4中的特征集合，通过训练多个分类器，最后使用叠加式的方法组合单个分类器的预测结果，构建分类模型；

2.根据权利要求1所述的方法，其中所述的源文本是由一个或多个句末带有终结符号构成的英文文本，文本包含蛋白质亚细胞定位信息且符合语法规则，其中终结符号包括句号、逗号、问号、感叹号和分号，且该文本经过专家注释，规模较小。

3.根据权利要求1所述的方法，其中所述的蛋白质命名实体是指蛋白质名称。

4.根据权利要求1所述的方法，其中所述的逻辑特征包括了蛋白质命名实体与亚细胞位置信息间的单词数、动词及标点符号数。

5.根据权利要求1所述的方法，其中所述的神经网络模型word2vec指的是现有的一款将词表征为实数值向量的高效工具。