CN110223732B

CN110223732B - 多类生物序列注释的整合方法

Info

Publication number: CN110223732B
Application number: CN201910411387.2A
Authority: CN
Inventors: 江瑞; 宋绍铭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-04-06
Anticipated expiration: 2039-05-17
Also published as: CN110223732A

Abstract

本发明公开了一种多类生物序列注释的整合方法，包括：从生物测序数据中选取一种生物测序数据作为主要生物序列集，其余的作为辅助生物序列集；建立序列‑基因关联映射集；据基因转录起始点获取该基因的基础关联区域和扩展关联区域；对于主要生物序列集的序列，遍历基因的扩展关联区域，若序列所在的区域和某个基因的扩展关联区域有交集，则建立基因和序列的序列‑基因关联映射；对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性；对两种方法得到的注释分别排序，并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明实现综合各种特征的注释，在医疗领域具有应用价值。

Description

多类生物序列注释的整合方法

技术领域

本发明涉及生物技术领域，具体地说，涉及多类生物序列注释的整合方法。

背景技术

基因测序是一种新型基因检测技术，能够从血液或唾液中分析测定基因全序列。伴随着生物医学技术的发展，在精准医疗领域，通过测序等方法来对患者进行分析、从而实现精准治疗的技术也已经日趋完善。然而，由于市面上的众多测序方法缺乏统一的标准，它们面向的位点以及数据分布特性具有非常大的区别，这也制约了精准诊断领域的进一步发展。针对这一问题，尝试整合多类数据，对各种测序的序列区域进行功能、特性等方面的注释，从而进行进一步的分析和诊断，是一种有效的解决方案。然而在产业界中很少有技术尝试来解决该类问题，主要原因有以下几点：1.各种测序数据测得的结果分布和数据质量有很大区别，缺少一个有效的规则将所有数据整合处理。2.在进行数据整合的过程中，需要有一套量化尺度作为整合中的判据，进而需求一种有效的算法来量化不同类别的测序数据。3.大量的测序序列位于没有先验功能标注的区域，缺少足够的注释知识。

发明内容

为解决以上问题，本发明提供一种多类生物序列注释的整合方法，包括以下步骤：

1)组织数据

从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集，其余方法的生物测序数据作为辅助生物序列集；

2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集；

21)对于基因组中每个基因，将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域；

22)从每个基因的基础关联区域起止点同时向上游和下游延伸，形成每个基因的扩展关联区域；

23)对于主要生物序列集的每一个序列，遍历所有基因的扩展关联区域，如若序列所在区域和某个基因的扩展关联区域有交集，则建立基因和序列的序列-基因关联映射，从而形成序列-基因关联映射集；

4)统计检验

41)根据应用场景从参考数据库中选取参考数据，所述参考数据库包括基因组中每个基因和注释数据的关系；

42)根据参考数据进行统计检验，对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算；

5)排名输出

通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后，对两种方法得到的注释分别按相同规则排序，并对相同的注释的排序的序号相加后再次排序，作为多种生物序列数据的注释结果。

此外，优选地，还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化，包括以下步骤：

31)对于基因组上的各基因的基础关联区域，遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值，取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值；

32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域，计算辅助生物序列集的生物序列在各位点的量化值，取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值；

33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域，检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值，并删除不都大于第一阈值的序列和基因之间的映射关联，从而得到一个筛选过的序列-基因关联映射集。

此外，优选地，超几何检验公式如下：

其中P-value_h是在序列-基因关联映射集下的超几何检验富集显著性；

N代表序列-基因关联映射集涉及的物种的基因组中的基因总数；

n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数；

K_t代表n个基因中和注释条目t有关的基因的数目；

i代表第i个基因；

t是注释条目。

此外，优选地，二项检验公式如下：

其中p-value_b是在序列-基因关联映射集下的二项检验富集显著性；

其中c代表序列-基因关联映射集中序列的个数；

p_t代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例；

w_t代表序列-基因关联映射集中关联基因有注释条目t的序列的个数；

j代表第j个基因；

m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数；

t是注释条目。

此外，优选地，步骤3)中计算单个位点的量化值的公式如下：

其中S是该位点的量化值，

F_u为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时，和第u个窗口有交集的生物序列的个数；

B为以该位点前后总长度为l_B的背景区域中有交集的生物序列的总个数。

此外，优选地，步骤22中，从每个基因的基础关联区域起止点同时向上游和下游延伸，直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止，形成每个基因的扩展关联区域，其中，总的关联区域长度是基础关联区域与扩展关联区域的和。

此外，优选地，步骤21中，将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。

此外，优选地，选取主要生物序列集的依据是：分析数据的测序方法和数据的测序深度，并根据方法的可靠性和测序深度对数据源进行排序，选取排名最高的数据集为主要生物序列集。

此外，优选地，所述第一阈值为5到10。

本发明的多类生物序列注释的整合方法具有以下技术效果：

(1)能够整合多种不同来源、不同种类的生物序列的数据，从而实现综合各种特征的注释，在医疗领域具有广泛的应用价值。

(2)使用了基于可变长度的基因-序列映射关联规则，保证大部分生物序列都能够和周边的基因关联起来，提高测序实验数据的利用率。

(3)提供了一种量化生物序列分布情况的计算方法，对于各种类别的生物序列都有着很出色的量化能力，从而更加准确地生成注释结果。

(4)使用多种统计检验方法，将计算得到的注释结果按照统计显著性综合考量，增加了注释的可信度。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的多类生物序列注释的整合方法的步骤示意图。

具体实施方式

下面将参考附图来描述本发明所述的多类生物序列注释的整合方法的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本实施例的多类生物序列注释的整合方法，如图1所示，其包括以下步骤：

1)组织数据

针对同一生物个体的不同方法的生物测序数据结果进行分析，首先分析数据的测序方法和数据的测序深度，并根据测序方法(比如测量染色质活跃程度的ATAC-seq方法，测量DNA甲基化程度的MeDIP方法等等)的可靠性和测序深度对数据源进行排序，选取排名最高的数据集为主要生物序列集，其余生物序列集为辅助生物序列集。其中，测序深度是指测序得到的碱基总量与基因组大小的比值，它是评价测序量的指标之一。

2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集，其中，测序序列调控是指基因的表达程度受周边特定区域的调控，而这些区域因其活跃性，往往在各种测序方法中非常容易被探测到，构成测序序列。

23)对于主要生物序列集的每一个序列，遍历所有基因的扩展关联区域，如若序列所在的区域和某个基因的扩展关联区域有交集，则建立并记录基因和序列的序列-基因关联映射，从而形成序列-基因关联映射集；

4)统计检验

41)根据应用场景选取参考数据，参考数据是指具有可信度的、来源于大型医疗组织机构的生物信息参考数据库，比如如果是判断遗传病的临床应用中，则建议使用和疾病相关的基因参考数据库OMIM；如果是用于对被测序人进行预防筛查等基础身体机能分析，则建议使用和细胞功能相关的基因参考数据库Gene Ontology，所述参考数据库包括基因组中每个基因和注释数据的关系(注释包括功能、产物等等)；

42)根据参考数据进行统计检验，对参考数据库应用于序列-基因关联映射集中的生物序列注释的结果进行显著性计算，其中超几何检验公式如下：

其中P-value_h是在序列-基因关联映射集下的超几何检验富集显著性(即参考数据中某一种注释条目在所有被关联的基因中出现的密集程度)；

k_t代表n个基因中和注释条目t有关的基因的数目；

i代表第i个基因；

t是注释条目，

超几何检验关注的是注释数据和参考基因组基因在数目上的关联性，通过不放回取样实验的方式实现统计显著性的检验。

其中二项检验公式如下：

其中c代表序列-基因关联映射集中序列的个数；

j代表第j个基因；

m代表序列-基因关联映射集涉及的主要生物序列集中生物序列的个数。

最终得到的同样是每一条注释条目t在序列-基因关联映射集下的富集显著性。二项检验关注的是被序列关联的基因在调控区域(即基础关联区域和扩展关联区域之和)大小上和全基因组区域长度之间的关系，更关注某条注释在全基因组区域上的覆盖度。

5)排名输出

通过以上两种统计检验方法获得注释参考数据库中的每种注释在当前序列-基因关联映射集下的统计显著性之后，对两种方法得到的注释分别按相同规则排序，并对相同的注释的排序的序号相加后再次排序，作为多种生物序列数据的注释结果。例如，分别对两种方法得到的注释的统计显著性进行排序，都从高到低排序，然后将相同的注释的排序的序号相加，再次排序作为多种生物序列数据的注释结果。

在一个可选实施例中，在步骤2和步骤4之间还包括步骤3)序列量化和关联修正，根据辅助生物序列的量化值对序列-基因关联映射进行修正优化。生物序列的量化值指的是对生物序列在全基因组上的分布情况进行量化分析，从而对每个位置上生物序列出现的密集程度有较为直观的认识，也方便后面的分析操作。包括以下步骤：

31)生物测序数据的位置反映了基因组上正在进行功能作用的区域和功能作用的强度，而这些位置所进行的功能作用往往和周边基因有关。在本方法中，主要生物序列集反映的是基因组上功能作用的位置区域，辅助生物序列集反映的是功能作用的强度，因此对辅助生物序列集进行量化操作以更好的展示功能作用强度的大小。首先，对于基因组上的单个位点，计算该位点上辅助生物序列集中的生物序列的量化值，对于基因组上的某段区域，遍历该区域中所有位点并计算量化值，取最大值作为该区域的量化值；

32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域，计算辅助生物序列集的生物序列在各位点的量化值，取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值。

33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域，检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所拥有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值(所述第一阈值为5到10)，并删除不都大于第一阈值的序列和基因之间的映射关联，将所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域分别进行量化-剔除无效关联之后，得到一个筛选过的序列-基因关联映射集。

进一步地，步骤31)中计算单个位点的量化值的公式如下：

其中S是该位点的量化值，

进一步地，步骤22中，从每个基因的基础关联区域起止点同时向上游和下游延伸，直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止，形成每个基因的扩展关联区域。其中，总的关联区域长度是基础关联区域与扩展关联区域的和。

在一个可选实施例中，步骤21中，根据生物细胞调控的基本规律，将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多类生物序列注释的整合方法，其特征在于，包括以下步骤：

1)组织数据

3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化，包括以下步骤：

33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域，检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值，并删除不都大于第一阈值的序列和基因之间的映射关联，从而得到一个筛选过的序列-基因关联映射集；

4)统计检验

5)排名输出

2.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：

超几何检验公式如下：

K_t代表n个基因中和注释条目t有关的基因的数目；

i代表第i个基因；

t是注释条目。

3.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：

二项检验公式如下：

其中c代表序列-基因关联映射集中序列的个数；

j代表第j个基因；

t是注释条目。

4.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：步骤3)中计算单个位点的量化值的公式如下：

其中S是该位点的量化值，

5.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：步骤22中，从每个基因的基础关联区域起止点同时向上游和下游延伸，直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止，形成每个基因的扩展关联区域，其中，总的关联区域长度是基础关联区域与扩展关联区域的和。

6.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：步骤21中，将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。

7.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：

选取主要生物序列集的依据是：分析数据的测序方法和数据的测序深度，并根据方法的可靠性和测序深度对数据源进行排序，选取排名最高的数据集为主要生物序列集。

8.根据权利要求1所述的多类生物序列注释的整合方法，其特征在于：

所述第一阈值为5到10。