CN105740243B

CN105740243B - 生物信息数据库的构建方法和装置

Info

Publication number: CN105740243B
Application number: CN201410742604.3A
Authority: CN
Inventors: 严志祥; 朱赢; 李昆衡; 颜彦; 徐超萍; 张勇; 周欣
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2018-10-26
Anticipated expiration: 2034-12-08
Also published as: CN105740243A

Abstract

本发明公开了一种生物信息数据库的构建方法和装置。方法包括：根据疾病列表，从网络中获取与疾病名相关的文献摘要资源；对每一篇文献摘要进行分解以获取包括摘要内容的摘要信息；根据基因列表和突变正则表达式语义库，对摘要内容进行基因和突变信息的提取和分类，结合人类基因组参考序列对分类得到的每一类结果进行过滤和/或注释；构建对应于该疾病的相关词语义库，根据相关词语义库确定出基因突变得分；整理前述步骤的数据建立生物信息数据库。本发明通过文本挖掘算法挖掘生物医学文献数据库，从中提取突变信息及与疾病相关的关系，由此建立基于研究前沿、数据全面可靠、可快速更新的生物信息数据库尤其是人类疾病突发数据库。

Description

生物信息数据库的构建方法和装置

技术领域

本发明涉及生物信息数据领域，具体涉及一种生物信息数据库尤其是人类疾病突发数据库的构建方法和装置。

背景技术

第二代测序技术的发展使生命科学快速进入了基因组时代。越来越多的证据表明，来自于基因组的变异是造成人类疾病产生的主要原因。例如单核苷酸多态性(SNP，Single Nucleotide Polymorphism)，它是人类可遗传的变异中最常见的一种，占所有已知多态性的90％以上，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP因其数量多、分布广泛，适于快速和大规模筛查等特点，已成为第三代遗传标记。除此之外，还有拷贝数变异(CNV，Copy Number Variation)、插入缺失标记(InDel，InsertionDeletion)等各类基因组变异。尽管这些突变可能只涉及到单个碱基的变异，其后果却可影响到基因、蛋白及性状的直接改变。不仅单个突变可直接导致遗传疾病的产生，研究表明许多复杂疾病也是由多个突变共同作用的结果。基于此，基因组突变解析已成为基因组研究的重要内容，并在疾病诊断与筛查、复杂性状和疾病的遗传解剖、不同人群遗传特征研究中得到了显著应用。

由于基因突变在基因组中大量存在，每个个体基因组中都存在着相当一部分未知突变，故已知突变数量随着个体基因组的解析急剧增长、不断更新。为更好地管理、理解和使用基因突变，例如SNP信息，有关数据库应运而生。例如美国国家生物技术信息中心(NCBI，National Center for Biotechnology Information)管理和维护的dbSNP、ClinVar、HGMD(人类基因突变数据库，Human Gene Mutation Database)和OMIM(在线人类孟德尔遗传，Online Mendelian Inheritance in Man)。其中，dbSNP侧重于收集各类已知SNP信息，HGMD专注于可遗传的基因变异，作为最初记录人类疾病表型信息的数据库OMIM只囊括已有确切证明与遗传疾病相关的突变信息，ClinVar作为上述数据库信息的整合，其信息来源的时效性有限，由于需通过人工验证，检索结果与最新发表文献数据可能存在时间差。

已知生物信息数据库种类繁多，一般划分为一次数据库和二次数据库两类。一次数据库包括例如基因组数据库、核酸和蛋白质一级结构序列数据库、以及生物大分子三维空间结构数据库。二次数据库是以一次数据库和文献资料为基础而构建。根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的二次数据库，是生物信息数据库开发的有效途径。从应用角度来说，与疾病相关的突变具有最重要的研究价值，需要一个来自前沿、信息全面、可快速更新的数据库。同时，由于突变信息的数据量大，更新速度快，人工收集不仅成本高、速度慢，还存在信息遗漏和可信度低等问题。在这两方面，上述数据库的应用仍显不足。而且，由于部分数据库存在收费等问题，限制了用户对最新数据的获得。

发明内容

根据本发明的第一方面，本发明提供一种生物信息数据库的构建方法，包括：

获取摘要步骤：根据疾病列表，对其中的每一种疾病名，从网络中获取与该疾病名相关的文献摘要资源；

前处理步骤：对所述文献摘要资源中的每一篇文献摘要进行分解以获取包括摘要内容的摘要信息；

分类处理步骤：根据基因列表和突变正则表达式语义库，对所述摘要内容进行基因和突变信息的提取和分类，结合人类基因组参考序列对分类得到的每一类结果进行过滤和/或注释；

后处理步骤：针对疾病列表中的每一种疾病，构建对应于该疾病的相关词语义库，根据所述相关词语义库确定出基因突变得分；

库构建步骤：建立生物信息数据库，所述生物信息数据库包括所述疾病列表、基因列表、基因突变得分和对应的文献摘要。

根据本发明的第二方面，本发明提供一种生物信息数据库的构建装置，包括：

获取摘要模块，用于根据疾病列表，对其中的每一种疾病名，从网络中获取与该疾病名相关的文献摘要资源；

前处理模块，用于对所述文献摘要资源中的每一篇文献摘要进行分解以获取包括摘要内容的摘要信息；

分类处理模块，用于根据基因列表和突变正则表达式语义库，对所述摘要内容进行基因和突变信息的提取和分类，结合人类基因组参考序列对分类得到的每一类结果进行过滤和/或注释；

后处理模块，用于针对疾病列表中的每一种疾病，构建对应于该疾病的相关词语义库，根据所述相关词语义库确定出基因突变得分；

库构建模块，用于建立生物信息数据库，所述生物信息数据库包括所述疾病列表、基因列表、基因突变得分和对应的文献摘要。

本发明的有益效果是：基于文本挖掘技术构建生物信息数据库，特别地，从人类遗传病出发，通过文本挖掘算法挖掘生物医学文献数据库，从中提取突变信息及与疾病相关的关系，根据提取结果和相应的疾病建立基于研究前沿、数据全面可靠、可快速更新的人类遗传疾病相关SNP数据库，提供相关疾病、基因、突变和文献等的详细信息，为人类遗传疾病的研究提供重要信息数据库。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为生物信息数据库构建方法的流程示意图；

图2-图4分别为构建的生物信息数据库的数据库数据视图的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

为方便理解本发明，这里以疾病Asthma(哮喘病)为例进行说明，应理解，这仅仅是通过示例的方式对本发明进行描述，该示例并不构成对本发明的限制。因此，生物信息数据库的构建方法包括如下步骤S21～S25。

步骤S21：进行摘要的获取，即根据疾病列表从网络中获取疾病相关的文献摘要。

疾病列表的来源可以从已有的疾病数据库中得到，例如OMID库等等。以疾病名如Asthma为搜索词，利用NCBI提供的Pubmed网络搜索接口获取关于Asthma的所有相关文献摘要资源。PubMed是因特网上使用最广泛的免费MEDLINE，是NCBI于2000年4月开发的基于WEB的生物医学信息检索系统。当然，其它实施例中可以使用其它的生物医学文献数据库的搜索接口，而不限于Pubmed。具体搜索过程可以采用例如已知的网络爬虫技术等实现，在此不作详述。

步骤S22：进行前处理，即对步骤S21获取的每一篇文献摘要进行分解以得到包括摘要内容的摘要信息。此外，除了摘要内容，摘要信息可以包括文献的发表杂志机构、发表日期、文献标题、作者、PMID等。PMID是PubMed的唯一标识码(PubMed Unique Identifier)，用于为PubMed搜索引擎中收录的生命科学和医学等领域的文献编号，每一个PMID编号都对应着唯一一份文献，可以在PubMed搜索引擎中直接使用，通过PMID，读者可以免费查阅文献的标题、作者、摘要等信息。由于文献摘要的格式多样化，因此需要根据不同的文献摘要格式制定相应的分解策略，比如分解得到的摘要信息中只包括了摘要内容和发表日期，或者只包括作者和摘要内容，等等。具体文献摘要的分解方法可以参考相关的文本过滤技术实现，例如利用比如XML语言过滤结构化文档，或者对于非结构化文档则利用语法知识把句子分解出包括比如名词、动词、形容词、数字等的基本部分，在此不作详述。

获取文献的摘要信息后，根据疾病名的同义词对文献摘要进行过滤，保留摘要内容包含疾病名的同义词的文献摘要，也就是说对于步骤S21获取的每一篇文献摘要，如果某一篇文献摘要的摘要内容中不存在步骤S21中指定的疾病名的同义词，则去除该篇文献摘要，即最后得到的文献摘要资源为每一篇文献摘要的摘要内容中包含指定疾病名的同义词。

对于本实施例，所举示例的疾病Asthma，所以根据Asthma的同义词对文献摘要进行过滤，若该篇文献摘要的摘要内容包含Asthma的同义词，则保留该篇文献专利。一种实现中同义词可以包括例如除了通常意义上的同义词外的例如词汇缩写、异物同名词、同物异名词等。本实施例中疾病名的同义词可以来源于比较遗传毒理学数据库(ComparativeToxicogenomics Database)，其它实施例中同义词的来源可以是任何可用的类似数据库。例如Asthma的同义词包括：Asthma，Bronchial|ASTHMA，DIMINISHED RESPONSE TOANTILEUKOTRIENE TREATMENT IN，INCLUDED|ASTHMA-RELATED TRAITS，SUSCEPTIBILITY TOASTHMA，PROTECTIONAGAINST,NCLUDED|Asthmas|ASTHMA，SUSCEPTIBILITY TO|BronchialAsthma。

一种优选的实施例中，步骤S22还可以作进一步的处理，即根据杂志机构影响因子列表(对应于例如杂志机构的影响度排名情况)对文献摘要进行影响因子注释。可以理解，由于文献摘要中杂志机构的表达方式多样化，因此，需要根据不同的表达方式制定相应的注释策略。

步骤S23：进行分类处理，即，根据基因列表和突变正则表达式语义库，对步骤S22中得到的摘要内容进行基因和突变信息的提取和分类，并对分类结果进行过滤注释处理。

对于本实施例，在该步骤S23中，根据比较遗传毒理学数据库中关于疾病如Asthma的基因列表和突变正则表达式语义库，对疾病如Asthma相关的文献摘要的摘要内容进行基因和突变信息的提取和分类，例如分为DNA突变、氨基酸突变、Rs号三类。突变正则表达式语义库可以是，通过观察突变数据的各种表达方式，然后根据正则表达式的原则而构建得到。例如，如果观察到p.123A>T和p.478C>G，则可以得到这样的正则表达式p.\d+[ATCG]>[ATCG]，如此，即可得到由这些正则表达式构建出的突变正则表达式语义库。

分类处理步骤S23中进行的过滤注释处理包括：结合人类基因组参考序列对分类得到的每一类结果进行过滤和/或注释。例如在前述分出了DNA突变、氨基酸突变、Rs号三类突变后，对这三类突变分别比对人类基因组参考序列hg19文档进行过滤和/或注释。这里通过示例的方式举例说明。对于DNA突变，例如BRCA1C.123>T，若在hg19中的转录本中BRCA1基因的第123号位置为A碱基，则保留，以此类推。此外，还可以对保留的DNA突变进行染色体号、坐标位置、Rs号、+/-链、周边详细突变信息的注释。对于氨基酸突变，例如BRCA1p.K123L，若在hg19中的转录本BRCA1基因的第123号密码子翻译为K，则保留，以此类推。由于无法判断时密码子中的哪一个碱基发生突变，因此可以不对其进行注释。对于Rs号，例如Rs12345678，若在hg19的dbSNP137库中比对上基因，则为其注释上基因，若比对不上基因，则基因置为NULL，以此类推。由于Rs号可对应0、1、2个基因，并且不能根据hg19的转录本进行过滤，因此默认为所有Rs号都是正确的。此外还可以对Rs号进行染色体号、坐标位置、+/-链、周边详细突变信息的注释。

步骤S24：进行后处理，即，针对疾病列表中的每一种疾病，构建对应于该疾病的相关词语义库，根据所述相关词语义库确定出基因突变得分。

对于前述示例的疾病Asthma，以所有与Asthma相关的文献摘要为训练数据，采用统计分析的方法构建对应于Asthma的相关词语义库。具体过程如下步骤S241～S242。

步骤S241：构建相关词语义库。

在该步骤S241中，计算主词(即疾病名)与相关词之间的共现次数(即共同出现的次数)和信息熵，根据共现次数和信息熵确定相关词相对于主词的相关度，根据所述相关度构建相关词语义库。步骤S241包括如下步骤S2411～S2415。这里，相关词是指与所述疾病名相关的所有文献摘要中出现的所有其它词语。

步骤S2411：计算共现次数。针对步骤S22前处理后的每一篇文献摘要，以疾病名比如Asthma为主词，R为相关词，计算该篇文献摘要中R与Asthma在该篇文献摘要中的共现次数Part_Co_occurrence，并计算该篇文献摘要中R与Asthma在所有文献摘要中的共现次数All_Co_occurence。共现次数的计算可以采用现有的例如基本计数法来实现。

步骤S2412：计算相关词R与主词的平均距离D。以每一篇文献摘要的单词数为窗口，以疾病名比如Asthma为主词，先计算Asthma的位置(这里的计算即是指找出Asthma在该篇文献摘要中出现的所有位置)，若该篇文献摘要中不存在Asthma，例如该篇文献摘要中出现了Asthma的同义词比如Bronchial而没有出现Asthma的情况，则将Asthma的位置取为窗口的一半。计算该篇文献摘要中相关词R与主词Asthma的平均距离D，具体为：如果Asthma的相关词集合(又称相关词空间)中没有R，则把R加入Asthma的相关词集合，并将相关词R与主词的平均距离D设置为d，d是指当前R与该篇文献摘要中所有主词Asthma的最小距离；如果该篇文献摘要中R出现多次，则，依次计算R与主词的距离D，计算公式为D＝[D₁(c-1)+d]/c，其中c为R与主词(此处举例为Asthma)在所有文献摘要中的共现次数All_Co_occurence，D₁为前一个R与主词Asthma的距离。

步骤S2413：计算相关词的信息熵。

该信息熵的计算公式如下：

其中，a_ij为词语(即相关词)i在第j篇文献摘要中出现的次数，t表示文献摘要的总篇数。η(i)值越大，表明词语i的信息熵越大，即该词语是噪声词语的可能性也越大。在计算信息熵的过程中，信息熵的值可能为零，为避免将基因丢失，对于此类情况本实施例将其相关度置为1。

步骤S2414：根据前面计算得到的共现次数、平均距离、信息熵，计算相关词与主词的相关度。

该相关度的计算公式如下：

r＝(c×α)÷(α+d)÷η

其中，r为某个相关词R与主词的相关度，c为相关词R与主词在所有文献摘要中的共现次数All_Co_occurence，d为步骤S2412计算得到的平均距离，η为步骤S2413计算得到的信息熵，α为距离系数，目的是为了相对于c，降低d对r的影响，一种示例中α为平均窗口(即所有文献摘要的单词数与文献摘要的总篇数的比值)大小的1/3。

步骤S2415：构建相关词语义库。

本实施例中构建好的相关词语义库的格式为“R相关度”，例如“R 18.88”，即每一个相关词R都有一个对应于主词(比如Asthma)的相关度。

步骤S242：确定基因突变得分。

一种实施例中，基因突变得分即为基因相关度分数。具体地，基因相关分数的确定过程为：根据疾病名对应的基因列表，从构建好的相关词语义库中提取基因部分，因此对应于Asthma的每一个基因都有一个相关度分数(称为基因相关度分数)。这里对基因相关度分数做归一化处理，即将所有基因相关度分数(即同一个疾病名比如Asthma的所有基因相关分数)分别除以最大的基因相关度分数(即同一个疾病名比如Asthma下的所有基因相关度分数中最大的分数)，然后再乘以预设数值比如20，可以理解，最后得到的基因相关度分数的最大阈值为该预设数值比如20。归一化是一种无量纲处理手段，使物理系数数值的绝对值变成某种相对值关系，是用以简化计算，缩小量值的有效方法。这里预设数值比如20的作用是使基因突变数据的得分分散，以发现基因突变数据得分的规律，如果不乘以该预设数值，也是可以的，但是，这会使得分数集中在0～1范围内，对发现基因突变数据得分分布规律可能存在影响。

另一种实施例中，基因突变得分即为文献摘要分数。具体地，文献摘要分数的确定过程为：提取去除基因部分后的相关词语义库中排名前若干位的相关词作为判定文献摘要分数的相关词语义库，这里该若干位为预设数值位比如20，然后判断所述相关词语义库中对应的文献摘要的相关词出现次数，将该相关词出现次数作为所述文献摘要分数。以某一篇文献摘要A为例，如果文献摘要A包含比如20个相关词中的18个，则该文献摘要A的得分为18，即文献摘要分数。可以理解，最后得到的文献摘要分数最大阈值为该预设数值比如20。

在本实施例中，基因突变得分同时兼顾了基因相关度分数和文献摘要分数，这样基因突变得分的分布更为集中，具体地，这种两者兼顾的得分策略采用的公式为：w*Score(gene)*Score(abstract)/(Score(gene)+Score(abstract))，其中，Score(gene)表示基因相关度分数，Score(abstract)表示文献摘要分数，w表示加权系数，比如w＝2。

经试验，证明得分在9-10分以上的基因突变得分的准确率为80％左右。

步骤S25：建立生物信息数据库，该生物信息数据库包括所述疾病列表、基因列表、基因突变得分和对应的文献摘要。

在步骤S25中，整理前述步骤S21～S24得到的数据，建立生物信息数据库。例如一种具体实现中，生物信息数据库为如图2-图4所示，其中，图2为数据库基因突变数据，内容从第一列到最后一列分别为疾病名、基因名、基因相关度分数、突变名、基因突变的文献摘要来源Pubmed ID、该篇文献摘要分数、文献摘要年份。图3为数据库注释数据，内容从第一列到最后一列分别为染色体、基因突变数据在染色体的坐标位置、突变所属类型、rs号(若无，则为NULL)、基因正负链、基因突变数据坐标位置附近详细序列信息。图4为数据库数据得分分布情况，其中，第一列Score为基因突变得分分布区间、第二列到第六列分别为抽选验证的5种疾病，相对应的是其所在区间的准确率。可得出规律：大于等于9分的基因突变数据其平均准确率在85％左右。

为验证本实施例的生物信息数据库构建后的性能，可以根据人工构建的金标准数据集对数据库进行准确率(Precision)、召回率(Recall)和F1值(F1-Measure)三个指标的验证，这三个指标的含义和信息检索和统计学分类领域中的相关术语含义相同或相似，此处不作详述。实验结果表明，本实施例的生物信息数据库尤其是人类疾病突变数据库的构建方法存在如下优点：(1)文本挖掘算法的应用保证了海量数据处理和及时快速更新；(2)采用多种验证方式(即基因突变得分的考量)保证了所得数据的全面、准确及可信度；(3)所采用的构建相关词语义库的思想为其它类似研究提供参考和基础。

基于上述方法示例，本发明另一种实施例提供了一种生物信息数据的构建装置，其包括：

以上各模块的实现可参考前述方法示例，在此不做重述。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种生物信息数据库的构建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取摘要步骤包括：以疾病名为搜索词，采用网络爬虫技术并结合生物医学文献数据库的搜索接口获取与所述疾病名相关的文献摘要。

3.如权利要求1所述的方法，其特征在于，所述前处理步骤还包括：在获取所述摘要信息后，根据所述疾病名的同义词对所述文献摘要资源进行过滤，保留摘要内容中包含所述同义词的文献摘要。

4.如权利要求3所述的方法，其特征在于，所述前处理步骤还包括：根据杂志机构影响因子列表对所述文献摘要进行影响因子注释。

5.如权利要求1所述的方法，其特征在于，在所述后处理步骤中，所述构建相关词语义库包括：

确定主词与相关词的共现次数、二者之间的平均距离以及所述相关词的信息熵，其中所述主词为所述疾病名，所述相关词为与所述疾病名相关的所有文献摘要中出现的其它词语；

根据所述共现次数、平均距离和信息熵确定所述相关词相对于所述主词的相关度；

根据所述相关度得到所述相关词语义库，所述相关词语义库包括相关词以及该相关词相对于主词的相关度。

6.如权利要求5所述的方法，其特征在于，所述相关度的计算公式为：

r＝(c×α)÷(α+d)÷η

其中，r表示一个相关词与所述主词的相关度，c表示所述相关词与所述主词在所有文献摘要中共同出现的次数，d表示所述相关词与所述主词之间的平均距离，η表示所述相关词的信息熵，α为距离系数，

所述相关词R的信息熵的计算公式为：

其中，a_ij表示相关词i在第j篇文献摘要中出现的次数，t表示文献摘要的总篇数。

7.如权利要求1或5或6所述的方法，其特征在于，所述基因突变得分为基因相关度分数，所述基因相关度分数的确定包括：根据所述疾病名对应的基因列表，从构建好的相关词语义库中提取出基因部分，从而得到对应于所述疾病名的每一个基因的相关度分数。

8.如权利要求1或5或6所述的方法，其特征在于，所述基因突变得分为文献摘要分数，所述文献摘要分数的确定包括：从构建好的相关词语义库中提取去除基因部分的相关词语义库中相关度排名前预设数值位的相关词作为判定文献摘要分数的相关词语义库，判断所述相关词语义库中对应的文献摘要的相关词出现次数，将该相关词出现次数作为所述文献摘要分数，其中所述基因部分是根据所述疾病名对应的基因列表而确定。

9.如权利要求1或5或6所述的方法，其特征在于，所述基因突变得分的计算公式为w*Score(gene)*Score(abstract)/(Score(gene)+Score(abstract))，其中，Score(gene)表示基因相关度分数，Score(abstract)表示文献摘要分数，w表示加权系数；

所述基因相关度分数的确定为：根据所述疾病名对应的基因列表，从构建好的相关词语义库中提取出基因部分，从而得到对应于所述疾病名的每一个基因的相关度分数；

所述文献摘要分数的确定为：从构建好的相关词语义库中提取去除基因部分的相关词语义库中相关度排名前预设数值位的相关词作为判定文献摘要分数的相关词语义库，判断所述相关词语义库中对应的文献摘要的相关词出现次数，将该相关词出现次数作为所述文献摘要分数，其中所述基因部分是根据所述疾病名对应的基因列表而确定。

10.一种生物信息数据库的构建装置，其特征在于，包括：