CN110223732A - 多类生物序列注释的整合方法 - Google Patents

多类生物序列注释的整合方法 Download PDF

Info

Publication number
CN110223732A
CN110223732A CN201910411387.2A CN201910411387A CN110223732A CN 110223732 A CN110223732 A CN 110223732A CN 201910411387 A CN201910411387 A CN 201910411387A CN 110223732 A CN110223732 A CN 110223732A
Authority
CN
China
Prior art keywords
sequence
gene
biological
annotation
biological sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910411387.2A
Other languages
English (en)
Other versions
CN110223732B (zh
Inventor
江瑞
宋绍铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910411387.2A priority Critical patent/CN110223732B/zh
Publication of CN110223732A publication Critical patent/CN110223732A/zh
Application granted granted Critical
Publication of CN110223732B publication Critical patent/CN110223732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种多类生物序列注释的整合方法,包括:从生物测序数据中选取一种生物测序数据作为主要生物序列集,其余的作为辅助生物序列集;建立序列‑基因关联映射集;据基因转录起始点获取该基因的基础关联区域和扩展关联区域;对于主要生物序列集的序列,遍历基因的扩展关联区域,若序列所在的区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射;对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性;对两种方法得到的注释分别排序,并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明实现综合各种特征的注释,在医疗领域具有应用价值。

Description

多类生物序列注释的整合方法
技术领域
本发明涉及生物技术领域,具体地说,涉及多类生物序列注释的整合方法。
背景技术
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列。伴随着生物医学技术的发展,在精准医疗领域,通过测序等方法来对患者进行分析、从而实现精准治疗的技术也已经日趋完善。然而,由于市面上的众多测序方法缺乏统一的标准,它们面向的位点以及数据分布特性具有非常大的区别,这也制约了精准诊断领域的进一步发展。针对这一问题,尝试整合多类数据,对各种测序的序列区域进行功能、特性等方面的注释,从而进行进一步的分析和诊断,是一种有效的解决方案。然而在产业界中很少有技术尝试来解决该类问题,主要原因有以下几点:1.各种测序数据测得的结果分布和数据质量有很大区别,缺少一个有效的规则将所有数据整合处理。2.在进行数据整合的过程中,需要有一套量化尺度作为整合中的判据,进而需求一种有效的算法来量化不同类别的测序数据。3.大量的测序序列位于没有先验功能标注的区域,缺少足够的注释知识。
发明内容
为解决以上问题,本发明提供一种多类生物序列注释的整合方法,包括以下步骤:
1)组织数据
从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;
42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;
5)排名输出
通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
此外,优选地,还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:
31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的映射关联,从而得到一个筛选过的序列-基因关联映射集。
此外,优选地,超几何检验公式如下:
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性;
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
Kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目。
此外,优选地,二项检验公式如下:
其中p-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数;
t是注释条目。
此外,优选地,步骤3)中计算单个位点的量化值的公式如下:
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
此外,优选地,步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域,其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
此外,优选地,步骤21中,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
此外,优选地,选取主要生物序列集的依据是:分析数据的测序方法和数据的测序深度,并根据方法的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集。
此外,优选地,所述第一阈值为5到10。
本发明的多类生物序列注释的整合方法具有以下技术效果:
(1)能够整合多种不同来源、不同种类的生物序列的数据,从而实现综合各种特征的注释,在医疗领域具有广泛的应用价值。
(2)使用了基于可变长度的基因-序列映射关联规则,保证大部分生物序列都能够和周边的基因关联起来,提高测序实验数据的利用率。
(3)提供了一种量化生物序列分布情况的计算方法,对于各种类别的生物序列都有着很出色的量化能力,从而更加准确地生成注释结果。
(4)使用多种统计检验方法,将计算得到的注释结果按照统计显著性综合考量,增加了注释的可信度。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的多类生物序列注释的整合方法的步骤示意图。
具体实施方式
下面将参考附图来描述本发明所述的多类生物序列注释的整合方法的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
本实施例的多类生物序列注释的整合方法,如图1所示,其包括以下步骤:
1)组织数据
针对同一生物个体的不同方法的生物测序数据结果进行分析,首先分析数据的测序方法和数据的测序深度,并根据测序方法(比如测量染色质活跃程度的ATAC-seq方法,测量DNA甲基化程度的MeDIP方法等等)的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集,其余生物序列集为辅助生物序列集。其中,测序深度是指测序得到的碱基总量与基因组大小的比值,它是评价测序量的指标之一。
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集,其中,测序序列调控是指基因的表达程度受周边特定区域的调控,而这些区域因其活跃性,往往在各种测序方法中非常容易被探测到,构成测序序列。
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在的区域和某个基因的扩展关联区域有交集,则建立并记录基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景选取参考数据,参考数据是指具有可信度的、来源于大型医疗组织机构的生物信息参考数据库,比如如果是判断遗传病的临床应用中,则建议使用和疾病相关的基因参考数据库OMIM;如果是用于对被测序人进行预防筛查等基础身体机能分析,则建议使用和细胞功能相关的基因参考数据库Gene Ontology,所述参考数据库包括基因组中每个基因和注释数据的关系(注释包括功能、产物等等);
42)根据参考数据进行统计检验,对参考数据库应用于序列-基因关联映射集中的生物序列注释的结果进行显著性计算,其中超几何检验公式如下:
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性(即参考数据中某一种注释条目在所有被关联的基因中出现的密集程度);
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目,
超几何检验关注的是注释数据和参考基因组基因在数目上的关联性,通过不放回取样实验的方式实现统计显著性的检验。
其中二项检验公式如下:
其中P-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集涉及的主要生物序列集中生物序列的个数。
最终得到的同样是每一条注释条目t在序列-基因关联映射集下的富集显著性。二项检验关注的是被序列关联的基因在调控区域(即基础关联区域和扩展关联区域之和)大小上和全基因组区域长度之间的关系,更关注某条注释在全基因组区域上的覆盖度。
5)排名输出
通过以上两种统计检验方法获得注释参考数据库中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。例如,分别对两种方法得到的注释的统计显著性进行排序,都从高到低排序,然后将相同的注释的排序的序号相加,再次排序作为多种生物序列数据的注释结果。
在一个可选实施例中,在步骤2和步骤4之间还包括步骤3)序列量化和关联修正,根据辅助生物序列的量化值对序列-基因关联映射进行修正优化。生物序列的量化值指的是对生物序列在全基因组上的分布情况进行量化分析,从而对每个位置上生物序列出现的密集程度有较为直观的认识,也方便后面的分析操作。包括以下步骤:
31)生物测序数据的位置反映了基因组上正在进行功能作用的区域和功能作用的强度,而这些位置所进行的功能作用往往和周边基因有关。在本方法中,主要生物序列集反映的是基因组上功能作用的位置区域,辅助生物序列集反映的是功能作用的强度,因此对辅助生物序列集进行量化操作以更好的展示功能作用强度的大小。首先,对于基因组上的单个位点,计算该位点上辅助生物序列集中的生物序列的量化值,对于基因组上的某段区域,遍历该区域中所有位点并计算量化值,取最大值作为该区域的量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值。
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所拥有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值(所述第一阈值为5到10),并删除不都大于第一阈值的序列和基因之间的映射关联,将所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域分别进行量化-剔除无效关联之后,得到一个筛选过的序列-基因关联映射集。
进一步地,步骤31)中计算单个位点的量化值的公式如下:
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
进一步地,步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域。其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
在一个可选实施例中,步骤21中,根据生物细胞调控的基本规律,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多类生物序列注释的整合方法,其特征在于,包括以下步骤:
1)组织数据
从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;
42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;
5)排名输出
通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
2.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:
31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;
32)对于序列-基因关联映射集中涉及到的主要生物序列集中序列所在区域,计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述序列所在区域的辅助生物序列集量化值;
33)对于所有序列-基因关联映射集中涉及的主要生物序列集中的序列所在区域,检验所述主要生物序列集中序列所在区域的辅助生物序列集量化值和所述序列所在区域的关联基因所具有的基础关联区域的辅助生物序列集量化值是否都大于第一阈值,并删除不都大于第一阈值的序列和基因之间的映射关联,从而得到一个筛选过的序列-基因关联映射集。
3.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
超几何检验公式如下:
其中P-valueh是在序列-基因关联映射集下的超几何检验富集显著性;
N代表序列-基因关联映射集涉及的物种的基因组中的基因总数;
n代表序列-基因关联映射集中所有与序列产生序列-基因关联映射的基因的总数;
Kt代表n个基因中和注释条目t有关的基因的数目;
i代表第i个基因;
t是注释条目。
4.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
二项检验公式如下:
其中p-valueb是在序列-基因关联映射集下的二项检验富集显著性;
其中c代表序列-基因关联映射集中序列的个数;
pt代表注释条目t所关联的基因的覆盖区域占全基因组长度的比例;
wt代表序列-基因关联映射集中关联基因有注释条目t的序列的个数;
j代表第j个基因;
m代表序列-基因关联映射集中涉及的主要生物序列集中生物序列的个数;
t是注释条目。
5.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤3)中计算单个位点的量化值的公式如下:
其中S是该位点的量化值,
Fu为采用长度为z的窗口进行滑动窗口法遍历该位点的周边区域时,和第u个窗口有交集的生物序列的个数;
B为以该位点前后总长度为lB的背景区域中有交集的生物序列的总个数。
6.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤22中,从每个基因的基础关联区域起止点同时向上游和下游延伸,直到和其它基因的基础关联区域相接或总的关联区域长度达到设定的第二阈值为止,形成每个基因的扩展关联区域,其中,总的关联区域长度是基础关联区域与扩展关联区域的和。
7.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:步骤21中,将基因转录起始点的前后各50万单位长度的距离所组成的区间作为该基因的基础关联区域。
8.根据权利要求1所述的多类生物序列注释的整合方法,其特征在于:
选取主要生物序列集的依据是:分析数据的测序方法和数据的测序深度,并根据方法的可靠性和测序深度对数据源进行排序,选取排名最高的数据集为主要生物序列集。
9.根据权利要求2所述的多类生物序列注释的整合方法,其特征在于:
所述第一阈值为5到10。
CN201910411387.2A 2019-05-17 2019-05-17 多类生物序列注释的整合方法 Active CN110223732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411387.2A CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411387.2A CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Publications (2)

Publication Number Publication Date
CN110223732A true CN110223732A (zh) 2019-09-10
CN110223732B CN110223732B (zh) 2021-04-06

Family

ID=67821093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411387.2A Active CN110223732B (zh) 2019-05-17 2019-05-17 多类生物序列注释的整合方法

Country Status (1)

Country Link
CN (1) CN110223732B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445949A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法
CN117059179A (zh) * 2023-08-30 2023-11-14 北京星云医学检验实验室有限公司 一种生物信息数据库注释方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040012633A1 (en) * 2002-04-26 2004-01-22 Affymetrix, Inc., A Corporation Organized Under The Laws Of Delaware System, method, and computer program product for dynamic display, and analysis of biological sequence data
WO2011109863A1 (en) * 2010-03-08 2011-09-15 National Ict Australia Limited Annotation of a biological sequence
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040012633A1 (en) * 2002-04-26 2004-01-22 Affymetrix, Inc., A Corporation Organized Under The Laws Of Delaware System, method, and computer program product for dynamic display, and analysis of biological sequence data
WO2011109863A1 (en) * 2010-03-08 2011-09-15 National Ict Australia Limited Annotation of a biological sequence
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置
CN103984879A (zh) * 2014-03-14 2014-08-13 中国科学院上海生命科学研究院 一种测定待测基因组区域表达水平的方法及系统
CN109033748A (zh) * 2018-08-14 2018-12-18 齐齐哈尔大学 一种基于多组学的miRNA功能识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YING-XIN LI等: "Drosophila Gene Expression Pattern Annotation through Multi-Instance Multi-Label Learning", 《IEEE》 *
朱扬勇等: "BioSeg: 一个生物序列数据模型", 《计算机科学与探索》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445949A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用纳米孔测序数据的高原多倍体鱼类基因组注释方法
CN117059179A (zh) * 2023-08-30 2023-11-14 北京星云医学检验实验室有限公司 一种生物信息数据库注释方法及系统

Also Published As

Publication number Publication date
CN110223732B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
Kimball et al. A beginner’s guide to analyzing and visualizing mass cytometry data
Roth et al. Clonal genotype and population structure inference from single-cell tumor sequencing
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
Galtier et al. Detecting bottlenecks and selective sweeps from DNA sequence polymorphism
US11961589B2 (en) Models for targeted sequencing
Berg et al. A coalescent model for a sweep of a unique standing variant
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
CN109243530A (zh) 遗传变异判定方法、系统以及存储介质
CN110289047A (zh) 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
Yang et al. Detecting recent positive selection with a single locus test bipartitioning the coalescent tree
CN108804876A (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
Sedghifar et al. The spatial mixing of genomes in secondary contact zones
CN110223732A (zh) 多类生物序列注释的整合方法
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Wicker et al. Density of points clustering, application to transcriptomic data analysis
KR101839572B1 (ko) 질병 관련 유전자 관계 분석 장치 및 방법
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
CN105528532A (zh) 一种rna编辑位点的特征分析方法
KR20180051333A (ko) 유전체내 암 특이적 진단 마커 검출
US20130218581A1 (en) Stratifying patient populations through characterization of disease-driving signaling
JP2003281156A (ja) 画面表示システム及び医療診断支援システム
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
US20200105374A1 (en) Mixture model for targeted sequencing
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
KR101701168B1 (ko) 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant