CN110444255A - 基于二代测序的生物信息质控方法、装置和存储介质 - Google Patents

基于二代测序的生物信息质控方法、装置和存储介质 Download PDF

Info

Publication number
CN110444255A
CN110444255A CN201910815937.7A CN201910815937A CN110444255A CN 110444255 A CN110444255 A CN 110444255A CN 201910815937 A CN201910815937 A CN 201910815937A CN 110444255 A CN110444255 A CN 110444255A
Authority
CN
China
Prior art keywords
pollution
mutation
checked
tissue samples
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910815937.7A
Other languages
English (en)
Other versions
CN110444255B (zh
Inventor
朱嘉麒
李淼
王鹏
杨洁
何雨鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yulce Biological Technology Co Ltd
Original Assignee
Shenzhen Yulce Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yulce Biological Technology Co Ltd filed Critical Shenzhen Yulce Biological Technology Co Ltd
Priority to CN201910815937.7A priority Critical patent/CN110444255B/zh
Publication of CN110444255A publication Critical patent/CN110444255A/zh
Application granted granted Critical
Publication of CN110444255B publication Critical patent/CN110444255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于二代测序的生物信息质控方法、装置和存储介质,其中该方法包括:获取同一个体来源的待检组织样本和对照样本测序数据,对照样本是待检组织样本以外的其他样本;将测序数据比对到参考基因组,并检测对照样本中为纯合位点而待检组织样本中为非纯合位点的位点,视为污染并检测得到待检组织样本的污染程度;判断污染程度是否大于污染阈值,如大于则判断为有污染并在最近若干批次的测序数据中寻找污染源;如找到则在待检组织样本测序数据的突变检测结果中去除污染源的所有突变;如找不到则去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变。本发明能够判断样本的质量状态并在检测结果中去除由质量问题造成的假阳性突变。

Description

基于二代测序的生物信息质控方法、装置和存储介质
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于二代测序的生物信息质控方法、装置和存储介质。
背景技术
癌症是全球最主要的非传染性疾病之一,也是死亡率很高的一种病种。在我国,每年有接近430万人被诊断为癌症,有超过280万人死于癌症。
抗肿瘤靶向药物和免疫检查点抑制剂是目前治疗癌症较为有效的手段,大部分靶向药的靶点是针对关键基因的点突变,目前比较公认的免疫检查点抑制剂疗效评估潜在指标是TMB(肿瘤突变负荷),TMB的计算也是基于肿瘤中的体细胞点突变。一般临床上建议这些药物在用于肿瘤治疗前进行基因检测以确定是否适合用药,以及用哪种药物。
目前常见的检测基因点突变的方法有PCR法、Sanger测序法(一代测序)和二代测序法。PCR法具有敏感性高的特点,且技术已经成熟,但每对引物只能检测一种突变,无法同时检测太多样本和位点,通量较低。Sanger测序法的成本较低,但所需样本用量大,且对低频突变的检测敏感性低。二代测序法具有通量高的特点,测序成本也在逐年下降,但目前样本在收样阶段不可控制,在对检测下限的要求越来越高的情况下,样本质量对检测结果的准确性影响非常大。合理的生物信息质控方法可以知道样本是否有质量问题,判断是否需要重新送样,或者可以从有质量问题的样本测序数据中将这部分问题给去除掉,避免重新送样的时间消耗和其他成本。
发明内容
本发明提供一种基于二代测序的生物信息质控方法、装置和存储介质,能够判断样本的质量状态并在检测结果中去除由质量问题造成的假阳性突变。
根据第一方面,本发明提供一种基于二代测序的生物信息质控方法,包括如下步骤:
获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中上述对照样本是上述待检组织样本以外的其他组织的样本;
将上述测序数据比对到参考基因组,并检测上述对照样本中为纯合质控位点而上述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;
判断上述污染程度是否大于污染阈值,如大于上述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含上述非纯合位点的污染源;
如找到上述污染源,则在上述待检组织样本测序数据的突变检测结果中去除上述污染源的所有突变;如找不到污染源,则在上述待检组织样本测序数据的突变检测结果中去除突变频率小于上述污染程度且属于已知的群体高频生殖突变数据库中的突变。
在优选实施例中,上述对照样本为白细胞样本。
在优选实施例中,上述污染阈值为1%。
在优选实施例中,上述待检组织样本为福尔马林浸泡样本,上述方法还包括:在比对后的测序数据中找到设定突变频谱,如果上述突变频谱中一种突变占所有突变的比例达到设定比例阈值,则从上述待检组织样本的突变检测结果中去掉设定突变频率阈值以下的该种突变。
在优选实施例中,上述设定突变频谱包括C突变为T和G突变为A,上述设定比例阈值为40%,上述设定突变频率阈值为2%。
在优选实施例中,上述已知的群体高频生殖突变数据库是对多个个体的高频生殖突变数据进行统计得到的群体统计数据。
在优选实施例中,上述方法还包括:
从原始下机测序数据中得到上述待检组织样本的二代测序基本质控信息;
从上述测序数据比对到参考基因组后的数据中得到待检组织样本的基本比对质控信息;
将待检组织样本的二代测序基本质控信息和基本比对质控信息与同批次批量样本的该类信息进行对比,如果上述待检组织样本的该类信息的数值在上述批量样本的平均数加减标准差之外,则将上述待检组织样本的二代测序数据判定为不合格。
在优选实施例中,上述二代测序基本质控信息包括碱基GC比例、接头比例、平均测序质量、中位数测序质量和去掉接头后平均测序长度;上述基本比对质控信息包括目标区域覆盖度、原始数据比对上参考基因组比例、PCR造成的重复序列比例和插入片段长度中位数。
根据第二方面,本发明提供一种基于二代测序的生物信息质控装置,包括如下模块:
测序数据获取模块,用于获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中上述对照样本是上述待检组织样本以外的其他组织的样本;
污染程度计算模块,用于将上述测序数据比对到参考基因组,并检测上述对照样本中为纯合质控位点而上述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;
污染源寻找模块,用于判断上述污染程度是否大于污染阈值,如大于上述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含上述非纯合位点的污染源;
污染去除模块,用于如找到上述污染源,则在上述待检组织样本测序数据的突变检测结果中去除上述污染源的所有突变;如找不到污染源,则在上述待检组织样本测序数据的突变检测结果中去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变。
根据第二方面,本发明提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明的生物信息质控方法,对现有基于二代测序的质控方法进行改进,充分比对多样本中多种信号判断样本质量情况,根据质控结果有针对性地在变异检测中过滤掉对应结果,避免假阳性结果出现,有效避免了样本质量情况导致的后续变异检测结果错误,并且有效避免了因样本污染等问题导致的重新采样的成本问题。
附图说明
图1为本发明实施例中基于二代测序的生物信息质控方法的流程图;
图2为本发明实施例中基于二代测序的生物信息质控装置结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
如图1所示,本发明一个实施例提供一种基于二代测序的生物信息质控方法,包括如下步骤:
S101:获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中上述对照样本是上述待检组织样本以外的其他组织的样本。
本发明实施例中,待检组织样本和对照样本来源于同一个体,例如同一个人的核酸(如基因组DNA或目标区域捕获DNA)样本等,待检组织样本和对照样本成对出现,因此也被称为“配对样本”。
本发明实施例中,对照样本与待检组织样本的组织来源不同。在优选实施例中,对照样本为白细胞样本。相对于其他样本,白细胞样本在作为对照样本方面具有优势,例如白细胞样本分离简单易行,纯度较高,与其他个体来源的样本之间的交叉污染较小,因此以白细胞样本为材料构建的测序数据库纯度较高,充分满足作为对照样本以分析待检组织样本中污染情况的要求。
本发明实施例中,待检组织样本可以是来源于各种组织和器官的样本,包括但不限于来源于人体器官,例如肝、肺、肾、脾和胰等器官的样本。待检组织样本可以是新鲜采集的样本,也可以是经各种合适的方法处理后的样本,例如,在优选实施例中,待检组织样本为福尔马林浸泡样本。
本发明实施例中,测序数据包括待检组织样本或对照样本的测序读长(reads)信息。在优选实施例中,还包括测序基本质控信息和基本比对质控信息等。
因此,在优选实施例中,本发明的生物信息质控方法,还包括:从原始下机测序数据中得到待检组织样本的二代测序基本质控信息;从测序数据比对到参考基因组后的数据中得到待检组织样本的基本比对质控信息;将待检组织样本的二代测序基本质控信息和基本比对质控信息与同批次批量样本的该类信息进行对比,如果待检组织样本的该类信息的数值在批量样本的平均数加减标准差之外,则将待检组织样本的二代测序数据判定为不合格。
本发明实施例中,二代测序基本质控信息包括:碱基GC比例、接头比例、平均测序质量、中位数测序质量和去掉接头后平均测序长度等。其中,碱基GC比例是指测序数据中GC碱基占ATGC四种碱基的比例;接头比例是指测序读长中带有接头的读长占比;平均测序质量是指测序质量的平均值,测序质量一般可以使用Q30表示,是指测序仪给出的错误率在0.1%以下的碱基占总碱基的比例;中位数测序质量是指测序质量的中位数;去掉接头后平均测序长度是指测序读长去除接头序列以后的序列的长度。基本比对质控信息包括:目标区域覆盖度、原始数据比对上参考基因组比例、PCR造成的重复序列比例和插入片段长度中位数等。其中,目标区域覆盖度(Depth in target)是指测序读长中序列在目标区域的个数乘以序列长度除以目标区域的大小;原始数据比对上参考基因组比例是指原始数据(RawBase(G))与参考基因组进行比对,统计比对上参考基因组的原始数据占总的原始数据的百分比;PCR造成的重复序列比例是指有些重复序列是由PCR扩增造成的,统计该类重复序列的占比得到的结果;插入片段长度(Insert size)中位数是指双端测序比对到参考基因组后所覆盖的总长度。除上述质控信息以外,本发明的质控信息还可以包括原始数据(RawBase(G))的大小,原始数据去掉接头后的数据(Clean Base(G))的大小,重复率(Duplication rate),捕获效率(Capture rate),以及SSAR(strand-split artifactreads)等,其中,重复率是指双端测序比对到参考基因组后序列覆盖的区域完全一样的视为重复序列,该类重复序列的百分率;捕获效率是指目标区域序列占总序列的比例;SSAR(strand-split artifact reads)定义为同一个序列在参考基因组的500bp内有两个不同的比对位置并且方向相反的读长。
本发明实施例中,将待检组织样本的二代测序基本质控信息和基本比对质控信息与同批次批量样本的该类信息进行对比,如果待检组织样本的该类信息的数值在批量样本的平均数加减标准差之外,则将待检组织样本的二代测序数据判定为不合格。这个方法能够避免批次效应导致的误差,可以快速找到质控不合格样本。
S102:将测序数据比对到参考基因组,并检测对照样本中为纯合质控位点而待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度。
样本间污染可导致假阳性变异检出增多,导致肿瘤突变负荷假阳性增加。可以使用待检组织样本和配对的白细胞对照样本的测序数据来准确识别污染程度。首先找到白细胞对照样本中的纯合位点,找到对应的待检组织样本中这些位点的序列支持情况,如果不是纯合子(非纯合)则有可能发生污染,取所有该位点突变频率的平均值得到待检组织样本的污染程度。
本发明实施例中,污染程度是一个能够定量化的指标,例如污染程度可以表示为待检组织样本中多个位点上与对照样本中的纯合基因型不同的碱基覆盖度(测序深度)与这些位点上总的碱基覆盖度(测序深度)的百分比值的平均值。一般而言,该值越大表明污染程度越大,污染越严重。
需要说明的是,本发明中选择对照样本中为纯合位点而待检组织样本中为非纯合位点的位点作为污染位点,具有重要价值。一般而言,对照样本(例如白细胞样本)由于不存在污染或污染较轻,在纯合位点上的碱基型可信度高,以此为参考能够有效分析同一位点上待检组织样本中的碱基情况,从而得到准确的污染程度定量数据。
本发明实施例中,参考基因组可以与待检组织样本和相应的对照样本具有相同物种来源的基因组测序数据,例如人类参考基因组hg19版本等。
S103:判断污染程度是否大于污染阈值,如大于污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含非纯合位点的污染源。
本发明实施例中,污染阈值用于判断污染程度是否达到容忍的上限,超出该污染阈值表明污染程度超出了容忍的上限,判断为存在污染情况,否则判断为不存在污染情况。污染阈值的具体数值可以根据具体需要确定,例如在本发明一个实施例中,污染阈值为1%。
一旦污染程度大于污染阈值,就判断为有污染并需要在最近若干批次的测序数据中寻找包含非纯合位点的污染源,其中“最近若干批次”是指与待检组织样本同一批次或相邻几个批次的样本,这些样本由于与当前分析的样本测序时间靠近,存在比较高的交叉污染风险,因此是优先考虑的污染源。寻找包含非纯合位点的污染源的方法可以是将当前分析的待检组织样本在污染位点上的碱基型与最近若干批次的测序数据进行比较,如果得到比对上的结果,就表明所比对上的样本是当前分析的待检组织样本的污染源。
S104:如找到污染源,则在待检组织样本测序数据的突变检测结果中去除污染源的所有突变;如找不到污染源,则在待检组织样本测序数据的突变检测结果中去除突变频率小于上述污染程度且属于已知的群体高频生殖突变数据库中的突变。
本发明实施例中,一旦通过步骤S103找到包含非纯合位点的污染源,证明污染是来自于实验室的污染,在待检组织样本测序数据的突变检测结果中去除污染源的所有突变即可。而在有些情况下,在最近若干批次的测序数据中找不到污染源,则证明是样本送样之前的污染,需要在待检组织样本测序数据的突变检测结果中去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变,即可去除污染。
本发明实施例中,已知的群体高频生殖突变数据库是对多个个体的高频生殖突变数据进行统计得到的群体统计数据,这些数据是前期分析的批量样本的突变数据,用于本发明中相当于通过群体平均水平的突变统计情况对当前分析的样本进行污染过滤,也能够有效地过滤来自送样之前的污染。高频是指人群频率大于5%,即群体高频生殖突变数据库中的所有生殖突变的人群频率都是大于5%。
作为一个典型但非限定性的实例,当上面步骤中污染程度大于1%时判定为有污染,计算污染位点从同批次或之前的样本中找到污染源。然后从污染样本的突变检出结果中去除污染源中的所有突变,即可得到未污染的检测结果。如果找不到污染源,那么从污染样本的变异检出结果中去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变,也可解决大部分污染问题。
本发明的方法,充分比对多样本中多种信号判断样本质量情况,根据质控结果有针对性地在变异检测中过滤掉对应结果,避免假阳性结果出现,有效避免了样本质量情况导致的后续变异检测结果错误,并且有效避免了因样本污染等问题导致的重新采样的成本问题。
需要特别说明的是,对于待检组织样本为福尔马林浸泡样本的情况,福尔马林浸泡样本中福尔马林会对DNA造成破坏,表现为C碱基脱氨基,在边合成边测序时与A碱基结合,导致C碱基测错成为T碱基,对变异检测结果造成影响。
因此,本发明实施例的方法还包括:在比对后的测序数据中找到设定突变频谱,如果上述突变频谱中一种突变占所有突变的比例达到设定比例阈值,则从上述待检组织样本的突变检测结果中去掉设定突变频率阈值以下的该种突变。
在优选实施例中,设定突变频谱包括C突变为T和G突变为A,这些突变频谱都可能是福尔马林浸泡对DNA造成破坏而产生的。在本发明一个实施例中,设定比例阈值为40%,设定突变频率阈值为2%。
例如,在本发明一个实施例中,判断如果在变异检出结果中C→T突变和G→A突变占所有突变的比例大于40%,即认为发生了福尔马林对DNA损伤。此时从突变检出中去掉所有2%频率以下的C→T突变和G→A突变,以保证福尔马林对DNA的损伤不会对变异检测结果造成影响。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
本发明的一种实施例还提供一种基于二代测序的生物信息质控装置,如图2所示,该装置包括如下模块:测序数据获取模块201,用于获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中上述对照样本是上述待检组织样本以外的其他组织的样本;污染程度计算模块202,用于将上述测序数据比对到参考基因组,并检测上述对照样本中为纯合质控位点而上述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;污染源寻找模块203,用于判断上述污染程度是否大于污染阈值,如大于上述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含上述非纯合位点的污染源;污染去除模块204,用于如找到上述污染源,则在上述待检组织样本测序数据的突变检测结果中去除上述污染源的所有突变;如找不到污染源,则在上述待检组织样本测序数据的突变检测结果中去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变。
本发明一个实施例还提供了提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下的方法:获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中上述对照样本是上述待检组织样本以外的其他组织的样本;将上述测序数据比对到参考基因组,并检测上述对照样本中为纯合质控位点而上述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;判断上述污染程度是否大于污染阈值,如大于上述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含上述非纯合位点的污染源;如找到上述污染源,则在上述待检组织样本测序数据的突变检测结果中去除上述污染源的所有突变;如找不到污染源,则在上述待检组织样本测序数据的突变检测结果中去除突变频率小于污染程度且属于已知的群体高频生殖突变数据库中的突变。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例中,对6对配对样本(白细胞+组织样本)进行批量样本质控信息对比,对比结果如表1,可以得知样本DNR1902006 SLZ的捕获效率和插入片段长度明显低于同批次相同实验方法的样本,通过本发明的批量样本质控信息对比方法即可判定样本DNR1902006SLZ为质控不合格样本,并进一步确定样本降解。后续的拷贝数变异检测中,在样本覆盖度均一化步骤中,由于捕获效率低,均一化后的目标区域覆盖度都偏低,导致很多拷贝数变异的缺失检出。由质控信息可以判断这些拷贝数变异不能给出结果,是样本降解造成的假阳性变异。
表1实施例1中原始数据和比对数据质控统计结果
实施例2
本实施例中,使用的样本是CT1900260XYZAA03(样本编号)和对应的白细胞对照样本DN1900260XYZAA03(样本编号)。本例样本在污染质控中发现问题。在对照样本的测序数据中有16个纯合质控位点,这些纯合位点在组织样本中有8个为非纯合的位点,视为污染位点。计算这8个非纯合位点突变频率的平均值,得到本例样本的污染程度为24%,大于污染阈值1%,判定本例样本存在污染,然后在同批次样本中找到包括这8个非纯合位点的污染源DN1900852SLZAA01(样本编号),并去掉污染源的所有突变后得到本例样本正确的突变检测结果。
实施例3
本实施例中,使用的样本是CT1901812XYZAA01(样本编号)和对应的白细胞对照样本DN1901812XYZAA01(样本编号)。本例样本在污染质控中发现问题。在对照样本的测序数据中有18个纯合质控位点,这些纯合位点在组织样本中有6个为非纯合的位点,视为污染位点,计算这6个非纯合位点突变频率的平均值,得到本例样本的污染程度为5%,大于污染阈值1%,判定本例样本存在污染,然后在同批次样本中找不到包括这6个非纯合位点的样本,则去除样本中突变频率5%以下的且属于已知的群体高频生殖突变数据库中的突变一共192个,最终样本剩余7个体细胞突变。
实施例4
本实施例中,使用的样本是DN1901971SLZAA02(样本编号),其为福尔马林浸泡石蜡包埋样本。本例样本在福尔马林对DNA损伤的质控中发现问题。对比正常样本同一实验条件下,一般会检出100个左右突变,C→T突变和G→A突变占所有突变的比例为20%,而这个样本总检出445个突变,C→T突变和G→A突变占所有突变的比例为60%,且其中90%都是突变频率低于2%的低频突变。从而判断为福尔马林对DNA的损伤样本,去掉这部分2%突变频率以下的问题突变,得到正常样本突变检出。表2为本实施例中福尔马林对DNA损伤质控的结果。
表2实施例4中福尔马林对DNA损伤质控的结果
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种基于二代测序的生物信息质控方法,其特征在于,所述方法包括如下步骤:
获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中所述对照样本是所述待检组织样本以外的其他组织的样本;
将所述测序数据比对到参考基因组,并检测所述对照样本中为纯合质控位点而所述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;
判断所述污染程度是否大于污染阈值,如大于所述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含所述非纯合位点的污染源;
如找到所述污染源,则在所述待检组织样本测序数据的突变检测结果中去除所述污染源的所有突变;如找不到污染源,则在所述待检组织样本测序数据的突变检测结果中去除突变频率小于所述污染程度且属于已知的群体高频生殖突变数据库中的突变。
2.根据权利要求1所述的生物信息质控方法,其特征在于,所述对照样本为白细胞样本。
3.根据权利要求1所述的生物信息质控方法,其特征在于,所述污染阈值为1%。
4.根据权利要求1所述的生物信息质控方法,其特征在于,所述待检组织样本为福尔马林浸泡样本,所述方法还包括:在比对后的测序数据中找到设定突变频谱,如果所述突变频谱中一种突变占所有突变的比例达到设定比例阈值,则从所述待检组织样本的突变检测结果中去掉设定突变频率阈值以下的该种突变。
5.根据权利要求4所述的生物信息质控方法,其特征在于,所述设定突变频谱包括C突变为T和G突变为A,所述设定比例阈值为40%,所述设定突变频率阈值为2%。
6.根据权利要求1所述的生物信息质控方法,其特征在于,所述已知的群体高频生殖突变数据库是对多个个体的高频生殖突变数据进行统计得到的群体统计数据。
7.根据权利要求1所述的生物信息质控方法,其特征在于,所述方法还包括:
从原始下机测序数据中得到所述待检组织样本的二代测序基本质控信息;
从所述测序数据比对到参考基因组后的数据中得到待检组织样本的基本比对质控信息;
将待检组织样本的二代测序基本质控信息和基本比对质控信息与同批次批量样本的该类信息进行对比,如果所述待检组织样本的该类信息的数值在所述批量样本的平均数加减标准差之外,则将所述待检组织样本的二代测序数据判定为不合格。
8.根据权利要求7所述的生物信息质控方法,其特征在于,所述二代测序基本质控信息包括碱基GC比例、接头比例、平均测序质量、中位数测序质量和去掉接头后平均测序长度;所述基本比对质控信息包括目标区域覆盖度、原始数据比对上参考基因组比例、PCR造成的重复序列比例和插入片段长度中位数。
9.一种基于二代测序的生物信息质控装置,其特征在于,所述装置包括如下模块:
测序数据获取模块,用于获取同一个体来源的待检组织样本测序数据和对照样本测序数据,其中所述对照样本是所述待检组织样本以外的其他组织的样本;
污染程度计算模块,用于将所述测序数据比对到参考基因组,并检测所述对照样本中为纯合质控位点而所述待检组织样本中为非纯合位点的位点,将该位点视为污染,并取所有该位点突变频率的平均值得到待检组织样本的污染程度;
污染源寻找模块,用于判断所述污染程度是否大于污染阈值,如大于所述污染阈值则判断为有污染并在最近若干批次的测序数据中寻找包含所述非纯合位点的污染源;
污染去除模块,用于如找到所述污染源,则在所述待检组织样本测序数据的突变检测结果中去除所述污染源的所有突变;如找不到污染源,则在所述待检组织样本测序数据的突变检测结果中去除突变频率小于所述污染程度且属于已知的群体高频生殖突变数据库中的突变。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1至8中任一项所述的方法。
CN201910815937.7A 2019-08-30 2019-08-30 基于二代测序的生物信息质控方法、装置和存储介质 Active CN110444255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910815937.7A CN110444255B (zh) 2019-08-30 2019-08-30 基于二代测序的生物信息质控方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910815937.7A CN110444255B (zh) 2019-08-30 2019-08-30 基于二代测序的生物信息质控方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110444255A true CN110444255A (zh) 2019-11-12
CN110444255B CN110444255B (zh) 2023-06-13

Family

ID=68438593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910815937.7A Active CN110444255B (zh) 2019-08-30 2019-08-30 基于二代测序的生物信息质控方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110444255B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110729025A (zh) * 2019-12-17 2020-01-24 北京吉因加科技有限公司 基于二代测序的石蜡切片样本体细胞突变检测方法和装置
CN110867211A (zh) * 2019-12-02 2020-03-06 深圳市海普洛斯生物科技有限公司 一种鉴定二代靶向捕获测序样本微生物污染的方法和装置
CN111128304A (zh) * 2019-12-16 2020-05-08 神州数码医疗科技股份有限公司 一种二代测序数据的质量检测方法及装置
CN111445956A (zh) * 2020-04-23 2020-07-24 北京吉因加医学检验实验室有限公司 一种二代测序平台的基因组数据高效利用方法和装置
CN112631562A (zh) * 2020-12-01 2021-04-09 上海欧易生物医学科技有限公司 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN112927756A (zh) * 2019-12-06 2021-06-08 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
CN114694749A (zh) * 2022-03-01 2022-07-01 至本医疗科技(上海)有限公司 基因数据处理方法、装置、计算机设备和存储介质
CN116153400A (zh) * 2022-12-20 2023-05-23 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN117253539A (zh) * 2023-11-20 2023-12-19 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106381334A (zh) * 2016-09-14 2017-02-08 埃提斯生物技术(上海)有限公司 基于高通量测序检测人brca1/2基因变异的质控方法及试剂盒
CN106636404A (zh) * 2016-12-23 2017-05-10 上海思路迪生物医学科技有限公司 基于高通量测序检测人egfr基因变异的质控方法及试剂盒
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN109686404A (zh) * 2018-12-26 2019-04-26 北京优迅医学检验实验室有限公司 检测样本混淆的方法及装置
CN110129439A (zh) * 2019-04-28 2019-08-16 安徽鼎晶生物科技有限公司 一种人brca1/2基因变异检测质控品及其制备方法和应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106381334A (zh) * 2016-09-14 2017-02-08 埃提斯生物技术(上海)有限公司 基于高通量测序检测人brca1/2基因变异的质控方法及试剂盒
CN106636404A (zh) * 2016-12-23 2017-05-10 上海思路迪生物医学科技有限公司 基于高通量测序检测人egfr基因变异的质控方法及试剂盒
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN109686404A (zh) * 2018-12-26 2019-04-26 北京优迅医学检验实验室有限公司 检测样本混淆的方法及装置
CN110129439A (zh) * 2019-04-28 2019-08-16 安徽鼎晶生物科技有限公司 一种人brca1/2基因变异检测质控品及其制备方法和应用

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867211A (zh) * 2019-12-02 2020-03-06 深圳市海普洛斯生物科技有限公司 一种鉴定二代靶向捕获测序样本微生物污染的方法和装置
CN112927756A (zh) * 2019-12-06 2021-06-08 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
CN112927756B (zh) * 2019-12-06 2023-05-30 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
CN111128304A (zh) * 2019-12-16 2020-05-08 神州数码医疗科技股份有限公司 一种二代测序数据的质量检测方法及装置
CN110729025A (zh) * 2019-12-17 2020-01-24 北京吉因加科技有限公司 基于二代测序的石蜡切片样本体细胞突变检测方法和装置
CN111445956A (zh) * 2020-04-23 2020-07-24 北京吉因加医学检验实验室有限公司 一种二代测序平台的基因组数据高效利用方法和装置
CN111445956B (zh) * 2020-04-23 2021-06-22 北京吉因加医学检验实验室有限公司 一种二代测序平台的基因组数据高效利用方法和装置
CN112631562A (zh) * 2020-12-01 2021-04-09 上海欧易生物医学科技有限公司 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN114694749A (zh) * 2022-03-01 2022-07-01 至本医疗科技(上海)有限公司 基因数据处理方法、装置、计算机设备和存储介质
CN116153400A (zh) * 2022-12-20 2023-05-23 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN116153400B (zh) * 2022-12-20 2023-11-21 深圳吉因加信息科技有限公司 一种用于检测同源污染的模型构建方法与装置
CN117253539A (zh) * 2023-11-20 2023-12-19 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统
CN117253539B (zh) * 2023-11-20 2024-02-06 北京求臻医学检验实验室有限公司 基于胚系突变检测高通量测序中样本污染的方法和系统

Also Published As

Publication number Publication date
CN110444255B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN110444255A (zh) 基于二代测序的生物信息质控方法、装置和存储介质
Howrigan et al. Detecting autozygosity through runs of homozygosity: a comparison of three autozygosity detection algorithms
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
Peyrégne et al. AuthentiCT: a model of ancient DNA damage to estimate the proportion of present-day DNA contamination
CN108690871B (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN110305965A (zh) 一种预测非小细胞肺癌(nsclc)患者对免疫疗法的敏感性的方法
CN110739027B (zh) 一种基于染色质区域覆盖深度的癌症组织定位方法及系统
CN109411015A (zh) 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
Climer et al. A custom correlation coefficient (CCC) approach for fast identification of multi‐snp association patterns in genome‐wide SNPs data
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN113462775B (zh) 用于结直肠癌预后评估的基因标志物
CN107247890A (zh) 一种用于临床诊断和预测的基因数据系统
CN105404793A (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
CN113948151A (zh) 一种低深度wgs下机数据的处理方法
CN114694750A (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
Chen et al. Clonal evolution in long‐term follow‐up patients with hepatocellular carcinoma
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN107760688A (zh) 一种brca2基因突变体及其应用
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN116200490A (zh) 一种检测实体瘤微小残留病灶的方法
Zheng et al. SVsearcher: A more accurate structural variation detection method in long read data
CN116209777A (zh) 基于无创产前基因检测数据的亲缘关系判定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant