CN108846257B - 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 - Google Patents
一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 Download PDFInfo
- Publication number
- CN108846257B CN108846257B CN201810436260.1A CN201810436260A CN108846257B CN 108846257 B CN108846257 B CN 108846257B CN 201810436260 A CN201810436260 A CN 201810436260A CN 108846257 B CN108846257 B CN 108846257B
- Authority
- CN
- China
- Prior art keywords
- text
- subcellular
- protein
- information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法。首先,通过对源文本进行预处理,识别源文本中的蛋白质命名实体。同时,对源文本中的亚细胞位置的关键词进行识别,利用自建的亚细胞位置信息字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取。其次,将包含命名实体与位置信息共现的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。然后,将提取出来的特征向量化,构建特征集合。最后使用以叠加式的方法组合单个分类器所构成的集成分类器来构建分类模型,并将该分类模型应用到目标生物医学文本挖掘。
Description
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于文本挖掘技术的蛋白质亚细胞定位信息的提取方法。
技术背景
生物医学文本挖掘是文本挖掘和生物医学领域相结合的新型交叉学科,其内容是在现有生物医学文献基础上,利用文本挖掘技术进行知识发现。近年来,生物文献以指数级别的速度增长,这些非结构化的文本中蕴含了大量的生物医学实验数据和成果。在生物医学文献中发现知识的意义在于,研究人员可以利用新发现的知识探究生命科学中的一些本质关系,例如基因和疾病的关系、基因和细胞的关系,甚至基因间的相互关系,从而便于研究人员可以更好地诊断、治疗甚至预防目前技术难以攻克的疾病。然而,呈指数级增长趋势的文献数量使得生物学家难以通过人工查找的方式迅速发现知识。所以,为了避免频繁、重复的人工操作,利用计算机处理大量生物医学文献是解决这一问题的重要途径。
生物医学文本挖掘相关研究内容分别有生物医学命名实体识别、同义词与缩略语识别、生物医学实体关系抽取、生物医学文献分类、生物医学实体名称规范化等。而在生物医学实体关系抽取的问题中,现有的研究大多侧重于采用文本挖掘手段从文本中挖掘蛋白质相互作用关系及基因与疾病关联关系。
朱斐等提出了“一种利用文本数据构建蛋白质相互作用网络的方法”(2015年5月27日公布的,公布号为:CN104657626)公开了一种利用文本数据构建蛋白质相互作用网络的方法。薛涵凛等提出了“一种基于双向LSTM和CRF的命名实体识别方法”(2018年1月30日公布的,公布号为:CN107644014),通过对现有的传统命名实体识别算法进行的改进优化,有效提取文本特征信息并且能够在不同语言的实体识别。李满生等提出的“蛋白质相互作用信息的文本挖掘研究进展 ”(<中国科学>,2010年)总结出了基于生物文本挖掘蛋白质相互作用信息的一般流程;
然而,蛋白质及其自身所在的亚细胞位置也是一组重要关系。蛋白质是构成细胞的主要成分之一,对生物体的生命活动有重要且多样的作用。而蛋白质自身所处的亚细胞位置在很大程度上决定了蛋白质的功能。蛋白质在核糖体中合成后经蛋白质分选信号引导后如果没有被转运到特定的亚细胞,将会对细胞功能造成极大影响。因此,蛋白质亚细胞定位是解释蛋白质功能的重要信息来源,是研究蛋白质功能的基础。文献数目巨大且增长迅速,人们通过手工阅读文献往往难以及时、高效地发现最新的蛋白质亚细胞定位信息。单纯依靠手工阅读来获取最新的蛋白质亚细胞定位信息是不现实的。使用文本挖掘技术搜集蛋白质亚细胞定位数据,自动提取蛋白质亚细胞定位信息,能有效提高研究人员获取最新信息的效率。本发明结合文本挖掘技术和以叠加式的方法组合单个分类器所构成的集成分类器来构建分类模型,实质就是要从文本中挖掘出蛋白质亚细胞定位信息。
发明内容
基于上述存在的问题,本发明提供一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法。通过对源文本进行预处理,识别源文本中的蛋白质命名实体。同时,对源文本中的亚细胞位置的关键词进行识别,利用自己构建的亚细胞位置字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取。其次,将包含命名实体与位置信息共现的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。然后,将提取出来的特征向量化,构建特征集合。最后使用叠加式的方法组合单个分类器的预测结果,提高分类器的预测能力。
本发明的目的在于提供一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法,其具体技术方案包括以下步骤:
步骤1:对源文本中的蛋白质命名实体进行识别。
步骤1.1:对源文本进行预处理,首先分割短语,然后将所有字母转换为小写字母,将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型,利用现有的词性标注工具Brill-Tagger进行词性标注。
步骤1.2:利用正则表达式消除源文本中的命名实体边界错误。
步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配,得到词典匹配结果。
步骤1.4:将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合,使用条件随机域模型进行训练,得到蛋白质命名实体信息。
步骤2:对源文本中的亚细胞位置的关键词进行识别,利用字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取。
步骤2.1:对源文本进行预格式化处理。首先将大段的文本内容划分成句子和单词,单词是原子的、不再可分的,关键词匹配时涉及的每个词组由若干个单词组成。然后是将英文单词的数、时态语法变形去除,将相同的单词化为一个统一的形式,以免遗漏一些匹配。
步骤2.2:通过收集六类物种细胞中的亚细胞位置信息,构建亚细胞位置信息字典。
步骤2.3:利用字典在每个文档中进行关键词匹配,进而在文本数据中进行信息提取,得到亚细胞位置关键字信息。
步骤3:针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息,将包含着这两者的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。
步骤4:针对步骤3中得到的数据集,分别提取相应特征构建特征集合。
步骤4.1:利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理,从而得出数据集的词特征与逻辑特征。
步骤4.2:针对步骤4.1中得到的词特征,利用现有的神经网络模型word2vec将词特征向量化,得到词特征向量矩阵。
步骤4.3:将步骤4.1中得到的词性特征数字化,提取词性序列,计算状态转移矩阵概率,得到状态转移概率矩阵。
步骤4.4:将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注,得到词性特征。
步骤4.5:将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并,得到特征集合。
步骤5:针对步骤4中的特征集合,通过训练多个分类器,最后使用叠加式的方法组合单个分类器的预测结果,构建分类模型。
步骤6,将步骤5中构造的分类模型应用到生物医学文本挖掘当中。
上述的源文本是由一个或多个句末带有终结符号构成的英文文本,文本包含蛋白质亚细胞定位信息且符合语法规则,其中终结符号包括句号、逗号、问号、感叹号和分号。上述的蛋白质命名实体是指蛋白质名称。上述的逻辑特征包括了蛋白质命名实体与亚细胞位置信息间的单词数、动词及标点符号数。上述的神经网络模型word2vec指的是一款将词表征为实数值向量的高效工具。
附图说明
图1为本发明的具体实施方式流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,结合附图1,对依据本发明提供的具体实施方式,详细说明如下。
如图1所示,从生物医学文本中挖掘蛋白质亚细胞定位信息的第一步,就是要对源文本中的蛋白质命名实体进行识别。
步骤1:对源文本中的蛋白质命名实体进行识别。
步骤1.1:对源文本进行预处理,首先分割短语,然后将所有字母转换为小写字母,将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型,利用现有的词性标注工具Brill-Tagger进行词性标注。
步骤1.2:利用正则表达式消除源文本中的命名实体边界错误。
步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配,得到词典匹配结果。
步骤1.4:将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合,使用条件随机域模型进行训练,得到蛋白质命名实体信息。
步骤2:对源文本中的亚细胞位置的关键词进行识别,利用字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取。
步骤2.1:对源文本进行预格式化处理。首先将大段的文本内容划分成句子和单词,单词是原子的、不再可分的,关键词匹配时涉及的每个词组由若干个单词组成。然后是将英文单词的数、时态语法变形去除,将相同的单词化为一个统一的形式,以免遗漏一些匹配。
步骤2.2:通过收集六类物种细胞中的亚细胞位置信息,构建亚细胞位置信息字典。
步骤2.3:利用字典在每个文档中进行关键词匹配,进而在文本数据中进行信息提取,得到亚细胞位置关键字信息。
步骤3:针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息,将包含着这两者的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集。
步骤4:针对步骤3中得到的数据集,分别提取相应特征构建特征集合。
步骤4.1:利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理,从而得出数据集的词特征与逻辑特征。
步骤4.2:针对步骤4.1中得到的词特征,利用现有的神经网络模型word2vec将词特征向量化,得到词特征向量矩阵。
步骤4.3:将步骤4.1中得到的词性特征数字化,提取词性序列,计算状态转移矩阵概率,得到状态转移概率矩阵。
步骤4.4:将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注,得到词性特征。
步骤4.5:将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并,得到特征集合。
步骤5:针对步骤4中的特征集合,通过训练多个分类器,最后使用叠加式的方法组合单个分类器的预测结果,构建分类模型。
步骤6,将步骤5中构造的分类模型应用到生物医学文本挖掘当中。
Claims (5)
1.一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法,其特征在于,该方法包括以下步骤:
步骤1:对源文本中的蛋白质命名实体进行识别;
步骤1.1:对源文本进行预处理,首先分割短语,然后将所有字母转换为小写字母,将再所有的单词转换根据专家词典SPECIALIST Lexicon为原型,利用现有的词性标注工具Brill-Tagger进行词性标注;
步骤1.2:利用正则表达式消除源文本中的命名实体边界错误;
步骤1.3应用生物医学同义词词典BioThesaurus和超级叙词表Metathesaurus词典进行匹配,得到词典匹配结果;
步骤1.4:将核心词特征、POS词性特征、拼词法特征、词缀特征结合步骤1.3得到的词典特征来构造特征集合,使用条件随机域模型进行训练,得到蛋白质命名实体信息;
步骤2:对源文本中的亚细胞位置的关键词进行识别,利用字典在每个文档中进行关键词匹配,进而在文本数据中对亚细胞位置的关键词进行提取;
步骤2.1:对源文本进行预格式化处理; 首先将大段的文本内容划分成句子和单词,单词是原子的、不再可分的,关键词匹配时涉及的每个词组由若干个单词组成; 然后是将英文单词的数、时态语法变形去除,将相同的单词化为一个统一的形式,以免遗漏一些匹配;
步骤2.2:通过收集六类物种细胞中的亚细胞位置信息,构建亚细胞位置信息字典;
步骤2.3:利用字典在每个文档中进行关键词匹配,进而在文本数据中进行信息提取,得到亚细胞位置关键字信息;
步骤3:针对步骤1中的蛋白质命名实体信息和步骤2中的亚细胞位置关键字信息,将包含着这两者的句子进行筛选,得到蛋白质命名实体和亚细胞位置信息共现的句子数据集;
步骤4:针对步骤3中得到的数据集,分别提取相应特征构建特征集合;
步骤4.1:利用现有的命名实体识别工具ABNER对步骤3中得到的数据集进行预处理,从而得出数据集的词特征与逻辑特征;
步骤4.2:针对步骤4.1中得到的词特征,利用现有的神经网络模型word2vec将词特征向量化,得到词特征向量矩阵;
步骤4.3:将步骤4.1中得到的词性特征数字化,提取词性序列,计算状态转移矩阵概率,得到状态转移概率矩阵;
步骤4.4:将步骤3中得到的数据集利用现有的词性标注工具Stanford-postagger进行词性标注,得到词性特征;
步骤4.5:将步骤4.1中的得到的逻辑特征、步骤4.2中的得到的词特征向量及步骤4.3中的得到的状态转移矩阵进行合并,得到特征集合;
步骤5:针对步骤4中的特征集合,通过训练多个分类器,最后使用叠加式的方法组合单个分类器的预测结果,构建分类模型;
步骤6,将步骤5中构造的分类模型应用到生物医学文本挖掘当中。
2.根据权利要求1所述的方法,其中所述的源文本是由一个或多个句末带有终结符号构成的英文文本,文本包含蛋白质亚细胞定位信息且符合语法规则,其中终结符号包括句号、逗号、问号、感叹号和分号,且该文本经过专家注释,规模较小。
3.根据权利要求1所述的方法,其中所述的蛋白质命名实体是指蛋白质名称。
4.根据权利要求1所述的方法,其中所述的逻辑特征包括了蛋白质命名实体与亚细胞位置信息间的单词数、动词及标点符号数。
5.根据权利要求1所述的方法,其中所述的神经网络模型word2vec指的是现有的一款将词表征为实数值向量的高效工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810436260.1A CN108846257B (zh) | 2018-05-09 | 2018-05-09 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810436260.1A CN108846257B (zh) | 2018-05-09 | 2018-05-09 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846257A CN108846257A (zh) | 2018-11-20 |
CN108846257B true CN108846257B (zh) | 2021-08-24 |
Family
ID=64212853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810436260.1A Active CN108846257B (zh) | 2018-05-09 | 2018-05-09 | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846257B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886270B (zh) * | 2019-01-17 | 2022-03-01 | 大连理工大学 | 一种面向电子卷宗笔录文本的案件要素识别方法 |
CN111291568B (zh) * | 2020-03-06 | 2023-03-31 | 西南交通大学 | 一种应用于医学文本的实体关系自动标注方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136361A (zh) * | 2013-03-07 | 2013-06-05 | 陈一飞 | 一种生物文本中蛋白质相互关系的半监督抽取方法 |
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710556B2 (en) * | 2010-03-01 | 2017-07-18 | Vcvc Iii Llc | Content recommendation based on collections of entities |
-
2018
- 2018-05-09 CN CN201810436260.1A patent/CN108846257B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136361A (zh) * | 2013-03-07 | 2013-06-05 | 陈一飞 | 一种生物文本中蛋白质相互关系的半监督抽取方法 |
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
Non-Patent Citations (7)
Title |
---|
Inferring sub-cellular localization through automated lexical analysis;Rajesh Nair等;《Bioinformatics》;20020701;第18卷(第S1期);78-86 * |
LocText: relation extraction of protein localizations to assist database curation;Juan Miguel Cejuela等;《BMC Bioinformatics 》;20180117;1-11 * |
Protein Sub-Nuclear Localization Based on Effective Fusion Representations and Dimension Reduction Algorithm LDA;Shunfang Wang等;《Int J Mol Sci》;20151219;第16卷(第12期);30343-61 * |
基于特征融合和有监督局部保持投影的蛋白质亚核定位;刘树慧等;《计算机应用与软件》;20170215;第34卷(第02期);251-255、279 * |
生 物 医 学领 域 中 的 文 本信 息 抽 取 技 术 与 系 统 综 述;肖春等;《计算机应用研究》;20070930;第24卷(第9期);1-7 * |
生物医学文本中命名实体识别研究;张向喆等;《上海交通大学学报(农业科学版)》;20100425;第28卷(第02期);132-139 * |
蛋白质的几种序列信息提取方法及亚细胞定位预测;陈静;《中国优秀硕士学位论文全文数据库 基础科学辑》;20160715(第7期);A006-78 * |
Also Published As
Publication number | Publication date |
---|---|
CN108846257A (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
Bunescu et al. | Comparative experiments on learning information extractors for proteins and their interactions | |
Thessen et al. | Applications of natural language processing in biodiversity science | |
CN105260361B (zh) | 一种生物医学事件的触发词标注系统及方法 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN112732946B (zh) | 一种医学文献的模块化数据分析和数据库建立方法 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN111476036A (zh) | 一种基于中文单词特征子串的词嵌入学习方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
Saha et al. | A comparative study on feature reduction approaches in Hindi and Bengali named entity recognition | |
Muaad et al. | Arabic document classification: performance investigation of preprocessing and representation techniques | |
CN111126040A (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
CN108846257B (zh) | 一种从生物医学文本中挖掘蛋白质亚细胞定位信息的方法 | |
Gero et al. | PMCVec: Distributed phrase representation for biomedical text processing | |
CN108519978A (zh) | 一种基于主动学习的中文正式文本分词方法 | |
CN111460147B (zh) | 一种基于语义增强的标题短文本分类方法 | |
Groza et al. | Mining skeletal phenotype descriptions from scientific literature | |
Xing et al. | Phenotype extraction based on word embedding to sentence embedding cascaded approach | |
CN114996462B (zh) | 基于人机协作的科技文献专业知识候选挖掘方法及系统 | |
French et al. | Automated recognition of brain region mentions in neuroscience literature | |
CN106021225A (zh) | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
Hakenberg | Mining relations from the biomedical literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |