CN110349632A

CN110349632A - 一种从PubMed文献筛选基因关键词的方法

Info

Publication number: CN110349632A
Application number: CN201910571336.6A
Authority: CN
Inventors: 汪佳宏; 章建平; 黄仲曦; 潘星华
Original assignee: Guangzhou Preo Code Biotechnology Co Ltd
Current assignee: GUANGZHOU SEQUMED BIOTECHNOLOGY Inc.; Southern Medical University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-18
Anticipated expiration: 2039-06-28
Also published as: CN110349632B

Abstract

一种从PubMed文献筛选基因关键词的方法。本发明提供了一种从文献数据库筛选基因关键词的方法，包括以下步骤：从文献数据库的摘要中识别基因相关摘要或/和基因相关句子，建立基因相关文献的全文索引，从术语库中筛选关键词，通过基因‑关键词关联评分计算公式获得基因和关键词的关联概率评分，筛选出与基因密切相关的关键词。本发明构建的方法一方面扩宽了事先定义的术语词汇库，除了GO术语外，整合其他权威数据库的术语；另一方面引入新的关键词筛选方法，对基因与术语存在关联的概率进行评分，综合基因和关键词共发生于摘要和句子的次数，筛选更牢固的基因‑关键词关联。

Description

一种从PubMed文献筛选基因关键词的方法

技术领域

本发明属于生物信息技术领域，具体涉及一种从PubMed文献筛选基因关键词的方法。

背景技术

在精准医学时代，高通量方法(例如测序和芯片等)被普遍应用于筛选疾病的候选相关基因(异常表达、突变或者表观遗传学改变等)，但如何解析随之而得的成百上千个疾病候选相关基因参与的分子机制却成为一个新的挑战，获取与疾病相关的生物学事件有关联的基因是分析的突破口。常规解决办法是借助人工注释的数据库Gene Ontology(GO)进行查询或富集分析。

但是，由于GO注释是专家人工从文献中获取证据，注释的数量和范围相对有限，注释速度远不及文献更新，有大量的基因未注释或者注释不完全。为此，GO也有一部分注释是通过电子注释，但这些注释的权威性就不及人工注释。生物医学研究者通过GO能够掌握基因或蛋白质的部分功能，但是不够全面，更多隐含于文献未注释的生物学功能同样具有研究价值。借助文本挖掘的工具直接从文献探索基因的功能，是一个值得尝试的方法。

文献挖掘软件从海量生物医学文献中挖掘基因-关键词关联是解析基因功能的重要方法。生物医学术语和基因在文献(句子，摘要或全文)中的共发生(co-occurrence)关系是判断两者关联的重要依据，也是当前文献挖掘工具使用最广的方法，目前有多款开放使用的文献挖掘软件采用共发生的方法检索与生物学功能相关的基因关键词。CoPub从多个本体的词汇筛选关键词，CoCiter从用户提交的自由词中筛选关键词，申请人前期开发的GenCLiP和GenCLiP 2则从单词、词组和用户提交的自由词筛选关键词。

GenCLiP筛选基因关键词的方法是基于基因和关键词在摘要中高频共发生，在实际使用过程中，发现不少基因和关键词并无关联，假阳性率较高，准确率较低。

发明内容

本发明的目的在于克服上述现有技术的不足之处而提供一种从文献数据库筛选基因关键词的方法。

为实现上述目的，本发明采取的技术方案为：一种从文献数据库筛选基因关键词的方法，包括以下步骤：

从文献数据库的摘要中识别基因相关摘要或/和基因相关句子，建立基因相关文献的全文索引，从术语库中筛选关键词，通过基因-关键词关联评分计算公式获得基因和关键词的关联概率评分，筛选出与基因密切相关的关键词。

优选地，所述从文献数据库的摘要中识别基因相关摘要和基因相关句子的方法，包括以下步骤：将更新的文献本地化，根据建立的基因名称字典，识别文献摘要中出现的基因名称，与Entrez Gene ID比对，确定基因相关摘要；再使用模块把基因相关摘要分割成句子，确定基因相关句子。

优选地，所述文献本地化的方法为：通过PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)获取数据库年度更新文献和日更新文献，从下载的XML文件提取PMID(PubMed ID)、标题、摘要信息，将PubMed文献本地化。

优选地，所述文献数据库为MEDLINE或/和PubMed。

优选地，所述使用的模块为Perl的Text::Sentence。

优选地，所述建立基因相关文献的全文索引的方法，包括以下步骤：将搜索引擎与MySQL数据库结合，MySQL数据库存储文献和基因的PMID、SID和GID信息，使得索引基因相关文献时并关联PMID、SID和GID字段。

Sphinx全文索引建立后，使用编程语言，如Perl和PHP，通过SQL检索语言即可快速提取任意词汇所在的文献、句子和共同出现基因，进行下一步分析。

优选地，所述关键词为有明确的生物医学含义的术语。

统计PubMed高频率出现的单词，筛选出无生物医学含义的词汇。收集网络来源的常见公共英语单词，一是3000个常见词，https://www.ef.com/wwen/english-resources/english-vocabulary/top-3000-words/；二是5000个常见词，来源https://www.wordfrequency.info/free.asp；三是Google分析的10000个常见词，来源https://github.com/first20hours/google-10000-english。

汇总去重后共计15000个单词。

优选地，所述术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP 2的关键词。

大多数术语与基因功能、细胞类型、组织、疾病、药物和不良反应有关。术语的形式包括单词、词组和短语，其中词组和短语由2、3或4个单词构成，例如“cell death”和“epidermal growth factor”等。剔除单词术语中的高频英语单词，剔除在基因相关摘要中出现少于5次的术语。

优选地，所述基因-关键词关联的计算公式为：

R＝(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N)

R表示基因-关键词关联评分；

S表示当基因和术语在出现在一篇摘要的一个句子时，无关联的概率；

A表示当基因和术语在出现在一篇摘要的不同句子时，无关联的概率；

E表示当基因和关键词出现在一篇摘要的多个句子时，无关联的概率；

N表示出现基因和术语的摘要篇数；

NS表示有一个句子出现基因和术语的摘要数；

NE表示有多个句子出现基因和术语的摘要数；

NA表示在不同句子出现基因和术语出现的摘要数；

NG表示基因的相关摘要数；

NK表示术语的相关摘要数；

1-S^NS×A^NA×E^NE表示至少有一篇文献提及基因和术语关联的概率；

1+2N/NG+2N/NK表示加权，对相关摘要数少的基因或术语加大权重；

0.1×NA/N表示罚分，基因和术语仅在摘要中共同出现时减分。

从候选术语库中筛选基因关键词，建立基因-关键词关联。假设如果在至少一处文献(句子或摘要)中提到基因和术语存在关联，那么它们之间的关联是真实的，则建立基因-关键词关联。给定基因相关文献，文献是否在描述真正的关联有一定的概率，例如，S表示不是的概率，1-S则表示是的概率。当基因和术语共同出现在不同的文献域时，S是不同的，文献域包括3种：i)摘要；ii)摘要中的句子；iii)摘要中的多个句子。每篇摘要应只计算一次概率。因此，如果存在N篇基因相关的文献，那么，基因和术语有关联的概率可通过1-S^N来计算。基于此假设，通过以上公式计算基因和关键词存在关联的评分。

根据经验，词组和短语设定A＝0.9，S＝0.7，E＝0.55，对于单词，A＝0.95，S＝0.85，E＝0.75，筛选关键词的阈值均为0.6，R得分高于阈值，则关联成立。一般地，对于词组和短语，摘要的最小数量为10，句子为3；而对于单词，摘要的最小数量为24，句子为6。计算术语库中所有术语与其文献共发生基因的R分值，将至少与两个基因关联的术语确认为关键词。

本发明的有益效果：本发明构建的方法一方面扩宽了事先定义的术语词汇库，除了GO术语外，整合其他权威数据库的术语；另一方面引入新的关键词筛选方法，对基因与术语存在关联的概率进行评分，综合基因和关键词共发生于摘要和句子的次数，筛选更牢固的基因-关键词关联。

截止至2019年3月10日，MEDLINE/PubMed摘要库共计有2900万篇摘要，基因名称识别方法共识别出22342个基因的457万篇相关摘要和1741万个相关句子。

候选术语库共有117670个术语，其中23890个术语至少在基因相关摘要中出现，我们将23894个术语作为候选关键词术语。通过基因-关键词关联评分公式的计算基因和候选术语关联的概率评分，筛选出19565个关键词，关联18871个基因。每个关键词平均关联58个基因，每个基因平均关联33个关键词。

附图说明

图1为本发明基因-关键词关联筛选流程图。

具体实施方式

为了更加简洁明了的展示本发明的技术方案、目的和优点，下面结合具体实施例及其附图对本发明做进一步的详细描述。

实施例

1、通过MEDLINE/PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)获取PubMed的年度更新文献和日更新文献，从下载的XML文件提取NAT1基因的相关信息，如PMID(PubMed ID)、标题、摘要信息，将与NAT1基因相关的PubMed文献本地化，识别PubMed摘要中的出现NAT1基因名称，并且对应正确的Entrez Gene ID(GID)，确定NAT1基因相关摘要，使用Perl的Text::Sentence模块把NAT1基因相关摘要分割成句子(SID)，确定NAT1基因相关句子。最终搜索出与NAT1基因相关的共有583篇基因相关摘要，1862个基因相关句子。

2、使用搜索引擎Sphinx(http://sphinxsearch.com/)对NAT1基因相关文献进行全文索引，由于Sphinx本身不能存储文本字段，我们将其与MySQL结合，MySQL数据库存储文献和与之对应的PMID、SID和GID，Sphinx索引文献并关联PMID、SID和GID字段。Sphinx全文索引建立后，使用Perl编程语言，通过SQL检索语言即可快速提取任意词汇所在的文献、句子和共同出现NAT1基因，进行下一步分析。

3、术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP 2的关键词。术语的形式包括单词、词组和短语，其中词组和短语由2、3或4个单词构成。从术语库剔除单词术语中的高频英语单词，剔除在基因相关摘要中出现少于5次的术语，得到23894个候选关键词术语。

4、通过基因-关键词关联评分计算公式：R＝(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N)，为词组和短语设定关联概率A＝0.9，S＝0.7，E＝0.55，为单词设定关联概率A＝0.95，S＝0.85，E＝0.75，计算每个候选术语与基因关联的概率评分。评分计算示例，基因NAT1的文献数NG为583，单词“CARCINOGEN”的关联评分R为(1-0.75^11×0.85^51×0.91^91)×(1+2×153/583+2×153/11554)-(0.1×91/153)＝1.4919；词组“NATACTIVITY”的关联评分R为(1-0.55^1×0.7^13×0.9^23)×(1+2×37/583+2×37/370)-(0.1×23/37)＝1.264。将R>0.6的候选关键词术语筛选为关键词，与NAT1建立关联，共筛选出87个与NAT1紧密相关的关键词，见表1。

表1：与基因NAT1关联的87个关键词

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种从文献数据库筛选基因关键词的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的从文献数据库筛选基因关键词的方法，其特征在于，所述从文献数据库的摘要中识别基因相关摘要和基因相关句子的方法，包括以下步骤：将更新的文献本地化，根据建立的基因名称字典，识别文献摘要中出现的基因名称，与Entrez Gene ID比对，确定基因相关摘要；再使用模块把基因相关摘要分割成句子，确定基因相关句子。

3.如权利要求2所述的从文献数据库筛选基因关键词的方法，其特征在于，所述文献数据库为MEDLINE或/和PubMed。

4.如权利要求3所述的从文献数据库筛选基因关键词的方法，其特征在于，所述文献本地化的方法为：通过MEDLINE或/和PubMed的FTP获取数据库年度更新文献和日更新文献，从下载的XML文件提取PubMedID、标题、摘要信息，将PubMed文献本地化。

5.如权利要求2所述的从文献数据库筛选基因关键词的方法，其特征在于，所述使用的模块为Perl的Text::Sentence。

6.如权利要求1所述的从文献数据库筛选基因关键词的方法，其特征在于，所述建立基因相关文献的全文索引的方法，包括以下步骤：将搜索引擎与MySQL数据库结合，MySQL数据库存储文献和基因的PMID、SID和GID信息，使得索引基因相关文献时并关联PMID、SID和GID字段。

7.如权利要求1所述的从文献数据库筛选基因关键词的方法，其特征在于，所述关键词为有明确的生物医学含义的术语。

8.如权利要求1所述的从文献数据库筛选基因关键词的方法，其特征在于，所述术语库选自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的术语和GenCLiP2的关键词。

9.如权利要求1所述的从文献数据库筛选基因关键词的方法，其特征在于，所述基因-关键词关联的计算公式为：