CN112599189A - 一种全基因组测序的数据质量评估方法及其应用 - Google Patents

一种全基因组测序的数据质量评估方法及其应用 Download PDF

Info

Publication number
CN112599189A
CN112599189A CN202011593896.0A CN202011593896A CN112599189A CN 112599189 A CN112599189 A CN 112599189A CN 202011593896 A CN202011593896 A CN 202011593896A CN 112599189 A CN112599189 A CN 112599189A
Authority
CN
China
Prior art keywords
data
fluctuation index
whole genome
data quality
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011593896.0A
Other languages
English (en)
Other versions
CN112599189B (zh
Inventor
张静波
李小雨
王伟伟
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN202011593896.0A priority Critical patent/CN112599189B/zh
Publication of CN112599189A publication Critical patent/CN112599189A/zh
Application granted granted Critical
Publication of CN112599189B publication Critical patent/CN112599189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及一种全基因组测序的数据质量评估方法及其应用,所述数据质量评估方法包括:获得待测样本的全基因组测序结果,将所述全基因组测序结果比对到人类参考基因组,对比对结果数据进行预处理后计算相应的观察值;进行观察值趋势拟合后,通过纵向波动指标和横向波动指标进行质量评估;所述纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准;所述横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。本发明通过纵向波动指标和横向波动指标进行质量评估,可以更快速、准确地评价测序结果的数据质量,筛选过滤数据质量偏差的样品,提高检测结果的准确度。

Description

一种全基因组测序的数据质量评估方法及其应用
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种全基因组测序的数据质量评估方法及其应用。
背景技术
长期以来,DNA测序技术一直是分子生物学相关研究中最常用的技术手段之一,极大程度上推进了分子生物学的飞速发展。目前,高通量测序技术(High-throughputsequencing)由于其可以一次对几十万到几百万条DNA分子进行序列测定成为目前主流的测序技术。目前主流的高通量测序平台包括有Roche 454焦磷酸测序和Illumina Solexa合成测序等。
高通量测序技术(High-throughput sequencing)又称为下一代测序(Nextgeneration sequencing,NGS)技术,是一项划时代的测序技术,因为其极高的测序通量极大地扩展了基因组学的广度。目前,NGS技术由于提供了产生大量序列数据的手段。已经扩展到研究应用之外,广泛应用于遗传病的筛查和诊断,可以为医疗决策提供宝贵的信息。
在临床实验室环境中实施NGS技术是复杂的,测序使用的样本,方法等都对于测序结果有一定影响,所以需要临床、科学和信息学专业的重要基础设施和专业知识才能得到更准确的测序结果。目前,基因检测特别是产前诊断实验室缺乏将质量管理的技术方面应用于质量控制的统一指导,这对于保证检测结果的分析有效性和准确性至关重要。所以急需一种高效、快速处理的下一代测序质量评估指标来处理大量的NGS测序数据。
目前现有的质控方法对测序数据质量评估方面不完善,Q30或GC达标的样品,可能数据波动较大,导致分析结果假阳性严重。其次,当前方面对测序质量评估结果无法量化,不能直观比较不同样品数据波动的大小,导致无法通过设置阈值进行样品过滤。
发明内容
为了解决现有技术存在的问题,本发明提供一种全基因组测序的数据质量评估方法及其应用。本发明通过观察值趋势拟合后的纵向波动指标和横向波动指标进行质量评估实现对测序质量快速、准确地评价,显著提高了测序准确性。
第一方面,本发明提供一种全基因组测序的数据质量评估方法,包括:
获得待测样本的全基因组测序结果,将所述全基因组测序结果比对到人类参考基因组,对比对结果数据进行预处理后计算相应的观察值;
进行观察值趋势拟合后,通过纵向波动指标和横向波动指标进行质量评估;
所述纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准;
所述横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。
进一步地,所述纵向波动指标具体为:
对于总窗口数为N的全基因组测序结果中任一窗口的残差x,纵向波动指标VI计算方法如下:
Figure BDA0002869389530000021
和/或,
所述横向波动指标具体为:
对于整体趋势拟合后,异常区域占全部检测区域的比例Rglobal,细节趋势拟合后,异常区域占全部检测区域的比例Rdetail,横向波动指标HI的计算方法如下:
HI=Rdetail-Rglobal
进一步地,所述全基因组测序结果为基于二代测序平台的低深度测序结果,或二代测序平台基于深度进行拷贝数变异检测的全基因组测序结果
进一步地,所述全基因组测序结果为NIPT、NIPTPlus、CNVSeq或PGS中的一种或多种。
进一步地,所述预处理包括如下步骤:
将所述比对结果数据划分为多个窗口,对各个窗口中的数据进行数据偏好校正和归一化处理。
进一步地,所述划分为多个窗口为通过等长窗口划分、等数据量窗口划分、单碱基或单独靶向目标区域进行窗口划分;和/或,
所述数据偏好校正为GC校正、Mappability校正或PCA校正中的一种或多种。
进一步地,在所述划分为多个窗口后,还包括:使用重叠窗口进行序列数平滑处理。
进一步地,所述观察值趋势拟合采用隐马尔可夫算法、环状二元分割算法或FusedLasso算法中的一种或多种算法。
本发明提供一种测序方法,所述测序方法使用所述数据质量评估方法进行质量控制。
本发明进一步提供所述数据质量评估方法在排除低质量测序样品中的应用,具体为:设置纵向波动指标和横向波动指标的阈值,通过权利要求1-8任一项所述数据质量评估方法进行待测样品的测序结果质量评估后,将纵向波动指标和横向波动指标高于阈值的样品作为低质量测序样品排除。
本发明通过观察值趋势拟合后的纵向波动指标和横向波动指标进行质量评估,具备如下有益效果:
1、本发明提供的质量评估方法可应用于不同的低深度测序产品或基于深度进行拷贝数变异检测的产品。
2、本发明开创性地使用基于观测值拟合的方法来计算数据波动量化评估指标。
3、本发明使用不同分辨率的拟合方案组合来计算数据波动量化评估指标,以及特异描述样品观察值碎片化分布的情况。
4、本发明基于纵向波动指标和横向波动指标两个评估指标,可设置阈值来过滤数据质量偏差的样品,提高检测结果的准确度。
附图说明
图1为本发明提供的对比对结果数据进行预处理过程中的数据校正结果图;
图2为本发明提供的数据归一化处理结果;
图3为本发明提供的细节趋势拟合的结果示意图;
图4为本发明提供的通过纵向波动指标和横向波动指标对观察值趋势拟合结果进行质控的示意图;
图5为本发明提供的纵向波动指标VI与测序数据量的关系。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供一种全基因组测序的数据质量评估方法,包括:
S1获得待测样本的全基因组测序结果,将全基因组测序结果比对到人类参考基因组;
具体地,本发明提供的全基因组测序的数据质量评估方法可以应用于二代测序平台的不同的低深度测序产品或基于深度进行拷贝数变异检测的产品,例如NIPT、NIPTPlus、CNVSeq或PGS等低深度全基因组测序产品,或其他基于深度进行拷贝数变异检测的产品,可以为阳性或阴性产品。
在获得全基因组测序结果后,将测序结果比对到人类参考基因组得到比对结果数据。
S2对比对结果数据进行预处理后计算相应的观察值;
本发明针对比对结果数据,进行如下预处理流程:将比对结果数据划分为多个窗口,对各个窗口中的数据进行数据偏好校正和归一化处理。
其中,将比对结果数据划分为多个窗口可以按照人类参考基因组划分为等长或不等长窗口,例如采用等长窗口划分、等数据量窗口划分、单碱基、单独靶向目标区域等不同方式进行窗口划分。划分后,计算每个窗口中的序列数(Read Count),后使用重叠窗口进行序列数平滑处理。其中,数据偏好校正包括GC校正、Mappability校正或PCA校正,校正算法可为loess算法或spline算法(如图1所示)。其中,归一化处理为将所有样品校正到统一的数据量(总序列数),可排除性染色体或阳性区域后进行归一化(如图2所示)。假设测试样品实际数据量为n,每个窗口的数据量为m,统一数据量为N1,则统一后窗口的数据量M为:M=N1/n×m。
在针对待测样品进行测序、比对和预处理的同时,设置一定量的正常阴性样品作为参考品,进行相同的取样、建库、测序、比对和数据预处理的步骤。最后进行观察值的计算,计算流程如下:
(1)参考值计算:参考品数据完成预处理后,计算所有参考品在每个窗口的序列数均值和标准差等指标。
(2)观察值计算:测试样品完成预处理后,得到每个窗口的序列数,根据参考值可计算每个窗口的差异倍数(fold change)、拷贝数(copy nubmer)和杂合比。假设测试样品预处理后某窗口的序列数为M,参考品中该窗口序列数均值为u,则该窗口对应的差异倍数f为:f=M/u。
S3进行观察值趋势拟合后,通过纵向波动指标和横向波动指标进行质量评估;纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准;横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。
本发明针对全基因组测序结果的观察值进行进一步地观察值趋势拟合,拟合可以采用常用的染色体异常或CNV检测算法,例如隐马尔可夫算法(HMM)、环状二元分割算法(CBS)、Fused Lasso算法等。
其中,包含整体趋势拟合以及细节趋势拟合。整体趋势拟合使用拟合算法拟合整体数据分布特征,分辨率要求检出非整倍体和大片段CNV(10Mb以上);细节趋势拟合提高拟合算法敏感度,分辨率要求检出小片段CNV(1Mb以上),如图3所示。
在进行观察值趋势拟合后,进行数据质量评估流程,具体通过纵向波动指标和横向波动指标进行质控,计算方式如下:
(1)纵向波动指标(VI):拟合数据观察值变异系数,主要用来描述观察值在趋势拟合线上下波动的情况,计算方法:假设某窗口实际观察值为f,拟合值为F,总窗口数为N,则某窗口观察值残差x=f-F,则有:
Figure BDA0002869389530000061
(2)横向波动指标(HI):检测小片段信号异常的占目标区域的比例,主要用来描述观察值碎片化分布的情况,计算方法:假设整体趋势拟合后,异常区域占基因组检测区域比例为Rglobal,细节趋势结合后,异常区域占基因组检测区域比例为Rdetail,则有
HI=Rdetail-Rglobal
图4为通过纵向波动指标和横向波动指标对观察值趋势拟合结果进行质控的示意图。
本发明进一步对比了上述质量评估标准纵向波动指标和横向波动指标和常见测序指标的关系,如图5所示,本发明通过对比,发现纵向波动指标VI与测序数据量具有正相关;同时发现测序数据量、GC含量、上机浓度、上机样品量等指标均未观测到和横向波动指标HI的相关性。
由此,本发明实际应用于临床实验室环境中的高通量测序数据质量控制时,可以基于纵向波动指标和横向波动指标设置阈值,去除这两个指标高于阈值的数据质量偏差的样品,提高检测的准确度。
在可用数据量为20M序列数情况下,设定横向波动指标为HI<0.01(合格)以及纵向波动指标为VI<0.1(合格),横向波动指标HI和纵向波动指标均合格,可以认为测序数据质量是合格的。最终得到如下结果:
表1质量评估方法的检测准确率
Figure BDA0002869389530000071
对比本申请的方法和现有基于数据量大小和Q30等的QC方法,本发明的质控方法更为严格,检出不合格样品的标准更符合生产要求,可以剔除掉更多的检出多重异常的样品,这说明本发明提供的全基因组测序数据的质控方法可以很好地用来进行数据质量的评估。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种全基因组测序的数据质量评估方法,其特征在于,包括:
获得待测样本的全基因组测序结果,将所述全基因组测序结果比对到人类参考基因组,对比对结果数据进行预处理后计算相应的观察值;
进行观察值趋势拟合后,通过纵向波动指标和横向波动指标进行质量评估;
所述纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准;
所述横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。
2.根据权利要求1所述的数据质量评估方法,其特征在于,所述纵向波动指标具体为:
对于总窗口数为N的全基因组测序结果中任一窗口的残差x,纵向波动指标VI计算方法如下:
Figure FDA0002869389520000011
和/或,
所述横向波动指标具体为:
对于整体趋势拟合后,异常区域占全部检测区域的比例Rglobal,细节趋势拟合后,异常区域占全部检测区域的比例Rdetail,横向波动指标HI的计算方法如下:
HI=Rdetail-Rglobal
3.根据权利要求1所述的数据质量评估方法,其特征在于,所述全基因组测序结果为基于二代测序平台的低深度测序结果,或二代测序平台基于深度进行拷贝数变异检测的全基因组测序结果。
4.根据权利要求3所述的数据质量评估方法,其特征在于,所述全基因组测序结果为NIPT、NIPTPlus、CNVSeq或PGS中的一种或多种。
5.根据权利要求1所述的数据质量评估方法,其特征在于,所述预处理包括如下步骤:
将所述比对结果数据划分为多个窗口,对各个窗口中的数据进行数据偏好校正和归一化处理。
6.根据权利要求5所述的数据质量评估方法,其特征在于,所述划分为多个窗口为通过等长窗口划分、等数据量窗口划分、单碱基或单独靶向目标区域进行窗口划分;和/或,
所述数据偏好校正为GC校正、Mappability校正或PCA校正中的一种或多种。
7.根据权利要求5或6所述的数据质量评估方法,其特征在于,在所述划分为多个窗口后,还包括:使用重叠窗口进行序列数平滑处理。
8.根据权利要求1所述的数据质量评估方法,其特征在于,所述观察值趋势拟合采用隐马尔可夫算法、环状二元分割算法或Fused Lasso算法中的一种或多种算法。
9.一种测序方法,其特征在于,使用权利要求1-7任一项所述方法进行质量控制。
10.权利要求1-8任一项所述数据质量评估方法在排除低质量测序样品中的应用;所述应用优选为:
设置纵向波动指标和横向波动指标的阈值,通过权利要求1-8任一项所述数据质量评估方法进行待测样品的测序结果质量评估后,将纵向波动指标和横向波动指标高于阈值的样品作为低质量测序样品排除。
CN202011593896.0A 2020-12-29 2020-12-29 一种全基因组测序的数据质量评估方法及其应用 Active CN112599189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011593896.0A CN112599189B (zh) 2020-12-29 2020-12-29 一种全基因组测序的数据质量评估方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011593896.0A CN112599189B (zh) 2020-12-29 2020-12-29 一种全基因组测序的数据质量评估方法及其应用

Publications (2)

Publication Number Publication Date
CN112599189A true CN112599189A (zh) 2021-04-02
CN112599189B CN112599189B (zh) 2024-06-18

Family

ID=75203408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011593896.0A Active CN112599189B (zh) 2020-12-29 2020-12-29 一种全基因组测序的数据质量评估方法及其应用

Country Status (1)

Country Link
CN (1) CN112599189B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016156469A1 (en) * 2015-03-31 2016-10-06 Max-Delbrück-Centrum für Molekulare Medizin Genome architecture mapping on chromatin
US20170228496A1 (en) * 2014-07-25 2017-08-10 Ontario Institute For Cancer Research System and method for process control of gene sequencing
US20170233806A1 (en) * 2016-02-12 2017-08-17 Regeneron Pharmaceuticals, Inc. Methods and systems for detection of abnormal karyotypes
US20190156919A1 (en) * 2016-11-17 2019-05-23 Arivale, Inc. Determining relationships between risks for biological conditions and dynamic analytes
CN109949868A (zh) * 2019-03-01 2019-06-28 深圳乐土生物科技有限公司 基于耐受性分析的基因等级排序方法和装置
CN109983134A (zh) * 2016-11-30 2019-07-05 香港中文大学 尿液和其他样品中无细胞dna的分析
US20190259473A1 (en) * 2016-08-08 2019-08-22 Franz J. Och Identification of individuals by trait prediction from the genome
CN110349631A (zh) * 2019-07-30 2019-10-18 苏州亿康医学检验有限公司 确定子代对象的单体型的分析方法和装置
CN110910955A (zh) * 2019-10-21 2020-03-24 中山大学 一种易感基因罕见变异位点纵向分析模型的建立方法
CN110910954A (zh) * 2019-12-04 2020-03-24 上海捷易生物科技有限公司 一种低深度全基因组基因拷贝数变异的检测方法及系统
CN110993029A (zh) * 2019-12-26 2020-04-10 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统
CN111477277A (zh) * 2020-05-29 2020-07-31 北京优迅医学检验实验室有限公司 样本质量评估方法和装置
WO2020210876A1 (en) * 2019-04-18 2020-10-22 genomiQa Pty Ltd Quality measurement of next generation sequencing reads
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228496A1 (en) * 2014-07-25 2017-08-10 Ontario Institute For Cancer Research System and method for process control of gene sequencing
WO2016156469A1 (en) * 2015-03-31 2016-10-06 Max-Delbrück-Centrum für Molekulare Medizin Genome architecture mapping on chromatin
US20170233806A1 (en) * 2016-02-12 2017-08-17 Regeneron Pharmaceuticals, Inc. Methods and systems for detection of abnormal karyotypes
US20190259473A1 (en) * 2016-08-08 2019-08-22 Franz J. Och Identification of individuals by trait prediction from the genome
US20190156919A1 (en) * 2016-11-17 2019-05-23 Arivale, Inc. Determining relationships between risks for biological conditions and dynamic analytes
CN109983134A (zh) * 2016-11-30 2019-07-05 香港中文大学 尿液和其他样品中无细胞dna的分析
CN109949868A (zh) * 2019-03-01 2019-06-28 深圳乐土生物科技有限公司 基于耐受性分析的基因等级排序方法和装置
WO2020210876A1 (en) * 2019-04-18 2020-10-22 genomiQa Pty Ltd Quality measurement of next generation sequencing reads
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN110349631A (zh) * 2019-07-30 2019-10-18 苏州亿康医学检验有限公司 确定子代对象的单体型的分析方法和装置
CN110910955A (zh) * 2019-10-21 2020-03-24 中山大学 一种易感基因罕见变异位点纵向分析模型的建立方法
CN110910954A (zh) * 2019-12-04 2020-03-24 上海捷易生物科技有限公司 一种低深度全基因组基因拷贝数变异的检测方法及系统
CN110993029A (zh) * 2019-12-26 2020-04-10 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统
CN111477277A (zh) * 2020-05-29 2020-07-31 北京优迅医学检验实验室有限公司 样本质量评估方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING LIU,等: "The repetitive DNA landscape in Avena (Poaceae): chromosome and genome evolution defined by major repeat classes in whole-genome sequence reads", 《BMC PLANT BIOLOGY》, vol. 19, 30 March 2019 (2019-03-30), pages 1 - 17 *
SHAWN E. YOST,等: "Identification of high-confidence somatic mutations in whole genome sequence of formalin-fixed breast cancer specimens", 《NUCLEIC ACIDS RESEARCH》, vol. 40, no. 14, 6 April 2012 (2012-04-06), pages 107 *
刘峰: "半滑舌鳎经济性状的遗传评估及基因组选择初步研究", 《中国博士学位论文全文数据库 农业科技辑》, no. 3, 15 March 2016 (2016-03-15), pages 052 - 6 *

Also Published As

Publication number Publication date
CN112599189B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Ding et al. Systematic comparison of single-cell and single-nucleus RNA-sequencing methods
US10991453B2 (en) Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
Wang et al. Guidelines for bioinformatics of single-cell sequencing data analysis in Alzheimer’s disease: review, recommendation, implementation and application
KR20200106179A (ko) 서열분석 기반 어세이의 유효성을 보장하기 위한 품질 관리 주형
Patruno et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
Reif et al. Integrated analysis of genetic, genomic and proteomic data
CN112397149A (zh) 无参考基因组序列的转录组分析方法及系统
US10294518B2 (en) Methods and systems for ultra-sensitive detection of genomic alterations
Zehnder et al. Predicting enhancers in mammalian genomes using supervised hidden Markov models
Choudhary et al. Metrics for rapid quality control in RNA structure probing experiments
Marczyk et al. Gamred—Adaptive filtering of high-throughput biological data
CN113278706B (zh) 一种用于区分体细胞突变和种系突变的方法
Yu et al. Quartet RNA reference materials and ratio-based reference datasets for reliable transcriptomic profiling
Frankhouser et al. PrEMeR-CG: inferring nucleotide level DNA methylation values from MethylCap-seq data
CN113789371A (zh) 一种基于批次矫正的拷贝数变异的检测方法
US11335438B1 (en) Detecting false positive variant calls in next-generation sequencing
Yin et al. MIXnorm: normalizing RNA-seq data from formalin-fixed paraffin-embedded samples
CN112599189B (zh) 一种全基因组测序的数据质量评估方法及其应用
EP1190366B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
CN111164701A (zh) 针对靶标定序的定点噪声模型
Chong et al. SeqControl: process control for DNA sequencing
CN103488913A (zh) 一种用于利用测序数据将肽映射到蛋白质的计算方法
Meyer et al. ReadZS detects developmentally regulated RNA processing programs in single cell RNA-seq and defines subpopulations independent of gene expression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant