CN110223732B - 多类生物序列注释的整合方法 - Google Patents

多类生物序列注释的整合方法 Download PDF

Info

Publication number
CN110223732B
CN110223732B CN201910411387.2A CN201910411387A CN110223732B CN 110223732 B CN110223732 B CN 110223732B CN 201910411387 A CN201910411387 A CN 201910411387A CN 110223732 B CN110223732 B CN 110223732B
Authority
CN
China
Prior art keywords
sequence
gene
biological
region
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411387.2A
Other languages
English (en)
Other versions
CN110223732A (zh
Inventor
江瑞
宋绍铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910411387.2A priority Critical patent/CN110223732B/zh
Publication of CN110223732A publication Critical patent/CN110223732A/zh
Application granted granted Critical
Publication of CN110223732B publication Critical patent/CN110223732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明公开了一种多类生物序列注释的整合方法,包括:从生物测序数据中选取一种生物测序数据作为主要生物序列集,其余的作为辅助生物序列集;建立序列‑基因关联映射集;据基因转录起始点获取该基因的基础关联区域和扩展关联区域;对于主要生物序列集的序列,遍历基因的扩展关联区域,若序列所在的区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射;对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性;对两种方法得到的注释分别排序,并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明实现综合各种特征的注释,在医疗领域具有应用价值。

Description

多类生物序列注释的整合方法
技术领域
本发明涉及生物技术领域,具体地说,涉及多类生物序列注释的整合方法。
背景技术
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列。伴随着生物医学技术的发展,在精准医疗领域,通过测序等方法来对患者进行分析、从而实现精准治疗的技术也已经日趋完善。然而,由于市面上的众多测序方法缺乏统一的标准,它们面向的位点以及数据分布特性具有非常大的区别,这也制约了精准诊断领域的进一步发展。针对这一问题,尝试整合多类数据,对各种测序的序列区域进行功能、特性等方面的注释,从而进行进一步的分析和诊断,是一种有效的解决方案。然而在产业界中很少有技术尝试来解决该类问题,主要原因有以下几点:1.各种测序数据测得的结果分布和数据质量有很大区别,缺少一个有效的规则将所有数据整合处理。2.在进行数据整合的过程中,需要有一套量化尺度作为整合中的判据,进而需求一种有效的算法来量化不同类别的测序数据。3.大量的测序序列位于没有先验功能标注的区域,缺少足够的注释知识。
发明内容
为解决以上问题,本发明提供一种多类生物序列注释的整合方法,包括以下步骤:
1)组织数据
从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;
42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;
5)排名输出
通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
此外,优选地,还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:
31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的映射关联,从而得到一个筛选过的序列-基因关联映射集。
此外,优选地,超几何检验公式如下:
Figure BDA0002062903930000031
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性;
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
Kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目。
此外,优选地,二项检验公式如下:
Figure BDA0002062903930000032
其中p-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数;
t是注释条目。
此外,优选地,步骤3)中计算单个位点的量化值的公式如下:
Figure BDA0002062903930000033
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
此外,优选地,步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域,其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
此外,优选地,步骤21中,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
此外,优选地,选取主要生物序列集的依据是:分析数据的测序方法和数据的测序深度,并根据方法的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集。
此外,优选地,所述第一阈值为5到10。
本发明的多类生物序列注释的整合方法具有以下技术效果:
(1)能够整合多种不同来源、不同种类的生物序列的数据,从而实现综合各种特征的注释,在医疗领域具有广泛的应用价值。
(2)使用了基于可变长度的基因-序列映射关联规则,保证大部分生物序列都能够和周边的基因关联起来,提高测序实验数据的利用率。
(3)提供了一种量化生物序列分布情况的计算方法,对于各种类别的生物序列都有着很出色的量化能力,从而更加准确地生成注释结果。
(4)使用多种统计检验方法,将计算得到的注释结果按照统计显著性综合考量,增加了注释的可信度。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的多类生物序列注释的整合方法的步骤示意图。
具体实施方式
下面将参考附图来描述本发明所述的多类生物序列注释的整合方法的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
本实施例的多类生物序列注释的整合方法,如图1所示,其包括以下步骤:
1)组织数据
针对同一生物个体的不同方法的生物测序数据结果进行分析,首先分析数据的测序方法和数据的测序深度,并根据测序方法(比如测量染色质活跃程度的ATAC-seq方法,测量DNA甲基化程度的MeDIP方法等等)的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集,其余生物序列集为辅助生物序列集。其中,测序深度是指测序得到的碱基总量与基因组大小的比值,它是评价测序量的指标之一。
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集,其中,测序序列调控是指基因的表达程度受周边特定区域的调控,而这些区域因其活跃性,往往在各种测序方法中非常容易被探测到,构成测序序列。
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在的区域和某个基因的扩展关联区域有交集,则建立并记录基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景选取参考数据,参考数据是指具有可信度的、来源于大型医疗组织机构的生物信息参考数据库,比如如果是判断遗传病的临床应用中,则建议使用和疾病相关的基因参考数据库OMIM;如果是用于对被测序人进行预防筛查等基础身体机能分析,则建议使用和细胞功能相关的基因参考数据库Gene Ontology,所述参考数据库包括基因组中每个基因和注释数据的关系(注释包括功能、产物等等);
42)根据参考数据进行统计检验,对参考数据库应用于序列-基因关联映射集中的生物序列注释的结果进行显著性计算,其中超几何检验公式如下:
Figure BDA0002062903930000061
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性(即参考数据中某一种注释条目在所有被关联的基因中出现的密集程度);
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目,
超几何检验关注的是注释数据和参考基因组基因在数目上的关联性,通过不放回取样实验的方式实现统计显著性的检验。
其中二项检验公式如下:
Figure BDA0002062903930000062
其中P-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集涉及的主要生物序列集中生物序列的个数。
最终得到的同样是每一条注释条目t在序列-基因关联映射集下的富集显著性。二项检验关注的是被序列关联的基因在调控区域(即基础关联区域和扩展关联区域之和)大小上和全基因组区域长度之间的关系,更关注某条注释在全基因组区域上的覆盖度。
5)排名输出
通过以上两种统计检验方法获得注释参考数据库中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。例如,分别对两种方法得到的注释的统计显著性进行排序,都从高到低排序,然后将相同的注释的排序的序号相加,再次排序作为多种生物序列数据的注释结果。
在一个可选实施例中,在步骤2和步骤4之间还包括步骤3)序列量化和关联修正,根据辅助生物序列的量化值对序列-基因关联映射进行修正优化。生物序列的量化值指的是对生物序列在全基因组上的分布情况进行量化分析,从而对每个位置上生物序列出现的密集程度有较为直观的认识,也方便后面的分析操作。包括以下步骤:
31)生物测序数据的位置反映了基因组上正在进行功能作用的区域和功能作用的强度,而这些位置所进行的功能作用往往和周边基因有关。在本方法中,主要生物序列集反映的是基因组上功能作用的位置区域,辅助生物序列集反映的是功能作用的强度,因此对辅助生物序列集进行量化操作以更好的展示功能作用强度的大小。首先,对于基因组上的单个位点,计算该位点上辅助生物序列集中的生物序列的量化值,对于基因组上的某段区域,遍历该区域中所有位点并计算量化值,取最大值作为该区域的量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值。
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所拥有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值(所述第一阈值为5到10),并删除不都大于第一阈值的序列和基因之间的映射关联,将所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域分别进行量化-剔除无效关联之后,得到一个筛选过的序列-基因关联映射集。
进一步地,步骤31)中计算单个位点的量化值的公式如下:
Figure BDA0002062903930000081
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
进一步地,步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域。其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
在一个可选实施例中,步骤21中,根据生物细胞调控的基本规律,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种多类生物序列注释的整合方法,其特征在于,包括以下步骤:
1)组织数据
从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:
31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的映射关联,从而得到一个筛选过的序列-基因关联映射集;
4)统计检验
41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;
42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;
5)排名输出
通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
2.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
超几何检验公式如下:
Figure FDA0002907873140000021
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性;
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
Kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目。
3.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
二项检验公式如下:
Figure FDA0002907873140000022
其中p-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数;
t是注释条目。
4.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤3)中计算单个位点的量化值的公式如下:
Figure FDA0002907873140000031
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
5.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域,其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
6.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤21中,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
7.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
选取主要生物序列集的依据是:分析数据的测序方法和数据的测序深度,并根据方法的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集。
8.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
所述第一阈值为5到10。
CN201910411387.2A 2019-05-17 2019-05-17 多类生物序列注释的整合方法 Active CN110223732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411387.2A CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411387.2A CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Publications (2)

Publication Number Publication Date
CN110223732A CN110223732A (zh) 2019-09-10
CN110223732B true CN110223732B (zh) 2021-04-06

Family

ID=67821093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411387.2A Active CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Country Status (1)

Country Link
CN (1) CN110223732B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445949A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法
CN117059179A (zh) * 2023-08-30 2023-11-14 北京星云医学检验实验室有限公司 一种生物信息数据库注释方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040012633A1 (en) * 2002-04-26 2004-01-22 Affymetrix, Inc., A Corporation Organized Under The Laws Of Delaware System, method, and computer program product for dynamic display, and analysis of biological sequence data
US20130132331A1 (en) * 2010-03-08 2013-05-23 National Ict Australia Limited Performance evaluation of a classifier
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法

Also Published As

Publication number Publication date
CN110223732A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
Sethna et al. OLGA: fast computation of generation probabilities of B-and T-cell receptor amino acid sequences and motifs
Sun et al. DIMM-SC: a Dirichlet mixture model for clustering droplet-based single cell transcriptomic data
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
IL249095B1 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
CN110223732B (zh) 多类生物序列注释的整合方法
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN103975329A (zh) 鲁棒的变异识别和验证
WO2019242445A1 (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Wang et al. A multi-view latent variable model reveals cellular heterogeneity in complex tissues for paired multimodal single-cell data
CN112259167B (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
DeTomaso et al. Identifying informative gene modules across modalities of single cell genomics
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
EP1630709B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
Johnson et al. Estimating single cell clonal dynamics in human blood using coalescent theory
US20200105374A1 (en) Mixture model for targeted sequencing
Nouri et al. A marker gene-based method for identifying the cell-type of origin from single-cell RNA sequencing data
Lin et al. Bayesian mixture models for cytometry data analysis
Kanonidis Use of similarity metrics aiming to identify groupings of entities with clinical and biological significance
Balderson et al. Cytocipher detects significantly different populations of cells in single cell RNA-seq data
Zheng et al. Differential Expression Analysis Based on Expression Data of Multiple Platforms
Sun Novel statistical methods in analyzing single cell sequencing data
Pranckeviciene Bioinformatics Tools for the Analysis of Gene-Phenotype Relationships Coupled with a Next Generation ChIP-Sequencing Data Analysis Pipeline
Murphy et al. Predicting cell type-specific epigenomic profiles accounting for distal genetic effects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant