CN116323981A

CN116323981A - 线粒体dna质量控制

Info

Publication number: CN116323981A
Application number: CN202180068805.8A
Authority: CN
Inventors: 张若瑜; W·K·林; G·阿特瓦尔
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2020-08-07
Filing date: 2021-08-06
Publication date: 2023-06-23
Also published as: MX2023001512A; EP4192980A1; IL300138A; WO2022032052A1; KR20230044439A; AU2021321531A1; JP2023536947A; CA3190009A1; US20220042091A1

Abstract

本公开提供了通过测定生物样品中存在的线粒体DNA(mtDNA)的异质性和同质性，继而通过mtDNA单倍群来鉴定可能被错误标记或污染的不可靠生物样品的方法。

Description

线粒体DNA质量控制

技术领域

本公开部分地涉及鉴定可能被错误标记或污染的不可靠生物样品的方法。

背景技术

10多年来，下一代测序(NGS)已成为生物和生物医学研究中的重要组成部分，因为它使得大批量DNA或RNA样品的测序可行。NGS具有广泛的应用，诸如用于大型队列遗传研究的全基因组和全外显子组测序、用于临床评估中疾病基因表达特征鉴定的大量RNA测序、肿瘤研究/诊断中的组织活检测序和最近出现的单细胞测序研究，为许多不同难题和问题提供答案和解决方案。然而，在涉及大规模样品的研究中，样品鉴定复杂化是常见且几乎不可避免的难题。估计样品鉴定误差率在实践中可在0.2％至6％的范围内(Pfeifer等人,Amer.J.Clin.Pathol.,2013,139,93-100；Costello等人,BMC Genomics,2018,19,332；Lerner等人,Cancer Res.,2015,75,摘要P5-02-08；和Sehn等人,Amer.J.Clin.Pathol.,2015.144,667-674)。错误可能以不同程度发生：1)样品之间的完全交换，和/或2)一个样品被一个或多个其他样品污染。在样品处理期间的各种步骤可能引入错误，诸如在样品收集期间的样品错误标记、在移液期间的材料溢出、在进行测序时在合并文库中的索引交换和许多其他意外情况。样品交换/污染随后将降低下游分析的质量和准确性。例如，全转录组分析中的样品交换可能导致错误发现或失去检测差异表达基因的能力。在癌症研究中，通常使用体细胞突变鉴定，假定这些突变中的许多以非常低的频率(<5％)存在，因此即使是低水平(1％至5％)的污染也可能导致假阳性突变调用。出于这些原因，准确检测样品交换和污染是大规模NGS研究中重要的质量控制步骤。

线粒体是大多数真核细胞中必需的细胞器。人线粒体DNA(mtDNA)是位于线粒体中的16.5kb环状DNA分子，并且编码线粒体功能所必需的基因产物。在单个细胞中有数百至数千个mtDNA拷贝。mtDNA是母系遗传的，具有可忽略的重组。因为mtDNA是单亲遗传的并且在群体水平上经历可忽略的重组，随时间获得的突变将人类群体细分为若干离散的mtDNA单倍群。平均而言，两个随机个体将在其线粒体基因组中具有30至40个核苷酸差异(Gunnarsdóttir等人,Nature Commun.,2011,2,228；Slatkin等人,Genetics,1991,129,555-562；和Ye等人,Proc.Nat’l Acad.Sci.USA,2014,111,E4548-E4550)。由于其多拷贝性质，mtDNA突变通常仅存在于细胞mtDNA的一小部分中，这种状态称为异质性。携带突变的mtDNA的百分比称为异质性频率。相比之下，如果在所有mtDNA分子中发现突变，则该突变将被称为同质性。以前的研究表明，在一般健康的群体中，大多数个体在其线粒体基因组中具有少于5个异质性(频率>1至2％)(Zhang等人,BMC Genomics,2017,18,890；和Ye等人,Proc.Nat’lAcad.Sci.USA,2014,111,10654-10659)。对于一批样品，从同一个体收集的样品应全部属于同一单倍群。

发明内容

本公开提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)测序读段；b)在来自前一步骤的每个生物样品的mtDNA测序读段中鉴定异质性和同质性；以及c)将初级mtDNA单倍群分配给每个生物样品，其中具有与分配给来自同一个体的大部分生物样品的初级mtDNA单倍群不同的分配的初级mtDNA单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。

本公开还提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)测序读段；b)在来自前一步骤的每个生物样品的mtDNA测序读段中鉴定异质性和同质性；c)将初级mtDNA单倍群分配给每个生物样品，以及d)确定每个生物样品的总异质性数，其中当生物样品具有高异质性数时，基于异质性位点中的次要等位基因向生物样品分配次级mtDNA单倍群，其中具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠样品。

本公开还提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)原始测序读段；b)处理mtDNA原始测序读段用于质量控制和衔接子序列去除以产生质量控制的mtDNA测序读段；c)将质量控制的mtDNA测序读段映射到线粒体参考基因组以产生候选mtDNA测序读段；d)将候选mtDNA测序读段重新映射到人参考基因组并在以下情况下保留候选mtDNA测序读段：i)候选mtDNA测序读段唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少；和ii)候选mtDNA测序读段的比对错配计数小于5；e)对所保留的候选mtDNA测序读段进行映射后处理以用于排序和去重；f)在每个生物样品的所保留的候选mtDNA测序读段中鉴定异质性和同质性；以及g)将初级mtDNA单倍群分配给每个生物样品，其中具有与分配给来自同一个体的大部分生物样品的初级mtDNA单倍群不同的分配的初级mtDNA单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。

本公开还提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)原始测序读段；b)处理mtDNA原始测序读段用于质量控制和衔接子序列去除以产生质量控制的mtDNA测序读段；c)将质量控制的mtDNA测序读段映射到线粒体参考基因组以产生候选mtDNA测序读段；d)将候选mtDNA测序读段重新映射到人参考基因组并在以下情况下保留候选mtDNA测序读段：i)候选mtDNA测序读段唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少；和ii)候选mtDNA测序读段的比对错配计数小于5；e)对所保留的候选mtDNA测序读段进行映射后处理以用于排序和去重；f)在每个生物样品的所保留的候选mtDNA测序读段中鉴定异质性和同质性；g)将初级mtDNA单倍群分配给每个生物样品；以及h)确定每个生物样品的总异质性数，其中当生物样品具有高异质性数时，向生物样品分配次级mtDNA单倍群，其中具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠样品。

附图说明

专利或申请文件含有至少一张彩色附图。具有彩色附图的本专利或专利申请公布的副本将在请求和支付必要的费用后由专利局提供。

图1示出了示出用于进行本文所述的质量控制分析的合适步骤的代表性示意图。在框1中，从fastq文件中鉴定mtDNA同质性和异质性。对于具有高mtDNA覆盖率的样品可应用任选的下采样步骤。在读段QC之后，通过两步映射策略选择mtDNA读段。根据mtDNA映射结果鉴定mtDNA变体，并基于变体信息为每个样品分配初级和次级mtDNA单倍群。在框2中，可通过比较来自给定个体的样品的单倍群分配来检测样品交换/错误标记。在框3中，可通过异常高的mtDNA异质性数和不匹配的初级和次级单倍群来检测样品污染。

图2示出了本文所述的方法对虚拟污染样品的性能。通过以不同比率混合来自千人基因组计划(1000Genomes Project)的两个样品来产生虚拟污染样品。X轴表示理论污染水平，并且Y轴表示从每个虚拟污染样品中鉴定的异质性频率。每个彩色点代表一个异质性，黑点代表样品中异质性频率的平均值，并且误差条代表频率标准误差。频率平均值与理论污染水平显著相关(Pearson相关性＝0.996781，P值＝6.212e-09)。

图3示出了虚拟污染样品中的污染检测结果。

图4示出了RNA-seq数据1中样品交换和污染检测的结果。

图5示出了RNA-seq数据2中样品交换和污染检测的结果。

具体实施方式

本文提供了利用mtDNA序列信息来检测NGS数据中潜在样品错误标记和污染的方法。mtDNA多态性和突变可用于推断特定生物样品的身份，并作为样品错误标记的指示。另外，当生物样品被来自另一生物样品的DNA/RNA污染时，将揭示异常的mtDNA突变模式，这可帮助鉴定和进一步量化污染物。与基于核DNA突变的方法相比，本文所述的方法即使在低覆盖率测序数据中也允许更高的灵敏度。

本文所述的方法可将含有足够mtDNA读段的任何NGS数据作为输入，从数据中鉴定mtDNA变体(异质性和同质性)，并使用变体信息将单倍群分配给每个样品以检测潜在的样品交换或错误标记。通过评估样品的异质性信息，本文所述的方法可进一步检测交叉个体污染。

本文使用的术语仅用于描述特定实施方案的目的，而不旨在限制。

人将具有野生型(或参考)mtDNA分子，并且可具有突变型mtDNA分子。如果人不具有突变型mtDNA分子，则此种人被认为是同质野生型(或同质参考)。如果人不具有野生型mtDNA分子(即，仅具有突变型mtDNA)，则此种人被认为是同质突变型。因此，同质性是拥有突变型mtDNA的全部拷贝或没有拷贝的量度。

如果人具有野生型和突变型mtDNA分子的混合物，则这种人被认为具有异质性。突变拷贝的分数在本文中称为“异质性频率”。例如，假定人具有8个拷贝的mtDNA分子，并具有八个在基因A中具有特定突变的mtDNA分子的单个拷贝，则此种人被认为具有12.5％(即1/8)的异质性频率。可针对特定个体的mtDNA基因组内的每个突变确定异质性。因此，具有2个mtDNA突变(相对于野生型mtDNA)的个体可具有两个异质性。每个异质性与其自身的异质性频率相关。

本公开提供了鉴定不可靠生物样品的方法。所述方法包括对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)测序读段。所述方法还包括鉴定每个生物样品的mtDNA测序读段中一个或多个异质性和同质性的存在。所述方法还包括将初级mtDNA单倍群分配给每个生物样品。具有与分配给来自同一个体的大部分生物样品的初级mtDNA单倍群不同的分配的初级mtDNA单倍群的生物样品是不可靠的生物样品。此种不可靠的生物样品可能已经例如被错误标记或与另一个生物样品交换。

核酸测序测定是任何核酸测序方案。在一些实施方案中，测序测定包括下一代测序(NGS)。在一些实施方案中，NGS包括全基因组测序。在一些实施方案中，NGS包括全外显子组测序。在一些实施方案中，NGS包括RNA测序。在一些实施方案中，NGS包括亚硫酸氢盐测序。

对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定。在一些实施方案中，多个生物样品的数量可低至2至数千个样品。在一些实施方案中，多个生物样品的数量可低至2至数百个样品。在一些实施方案中，多个生物样品获自一项或多项临床研究。在一些实施方案中，可将单个个体的多个生物样品与来自另一个体的多个生物样品混合或分批。获得每个生物样品的mtDNA测序读段。

测定每个生物样品的mtDNA测序读段中一个或多个异质性和同质性的存在。因此，对于在mtDNA测序读段中鉴定的每个突变，进行异质性和同质性分析。所有异质性的总和由特定生物样品的总异质性数表示。编译每个mtDNA突变位点的mtDNA测序读段信息以提供每个单一位点处的映射读段的测序信息的总结。在一些实施方案中，编译可使用例如samtools mpileup函数(Li等人，Bioinformatics，2009，25，2078-2079)来执行。通过序列质量过滤每个mtDNA突变位点的mtDNA测序读段信息，以例如去除具有低测序质量的测序碱基以减少测序错误。在一些实施方案中，确定序列质量得分(Q)，其为与测序错误概率对数相关的属性(Q＝-10*log₁₀(P)，其中P为测序错误的概率)。在一些实施方案中，序列质量Q≥20。当Q为20时，测序错误的概率为1％。

在一些实施方案中，通过测定测序覆盖率、次要等位基因的存在和次要等位基因频率来鉴定异质性。测序覆盖率表示与已知mtDNA参考碱基比对的读段数。在一些实施方案中，测序覆盖率≥50。通过mpileup减去Q<20的碱基产生测序覆盖率。在一些实施方案中，次要等位基因频率对于DNA测序数据为≥1％，且对于RNA测序数据为≥5％。在一些实施方案中，从每条DNA链至少两次观察到次要等位基因，或对于RNA至少三次观察到次要等位基因。例如，可获得以下mtDNA测序读段(第一序列是参考序列)：

N1-N2-N3-N4-N5-N6-N7-N8-G9-N10-N11-N12-N13-N14-N15-N16-N17-N18-N19-N205’-N1-N2-N3-N4-N5-N6-N7-N8-A9-N10-N11-N12-N13-N14-N15-3’

3’-N2-N3-N4-N5-N6-N7-N8-A9-N10-N11-N12-N13-N14-N15-N16-5’

5’-N2-N3-N4-N5-N6-N7-N8-G9-N10-N11-N12-N13-N14-N15-N16-3’

5’-N3-N4-N5-N6-N7-N8-G9-N10-N11-N12-N13-N14-N15-N16-N17-3’

3’-N3-N4-N5-N6-N7-N8-G9-N10-N11-N12-N13-N14-N15-N16-N17-5’

3’-N4-N5-N6-N7-N8-G9-N1U-N11-N12-N13-N14-N15-N16-N17-N18-5’

5’-N7-N8-G9-N10-N11-N12-N13-N14-N15-N16-N17-N18-N19-N20-3’

此候选mtDNA异质性位点的异质性频率为25％(2/8)。在此特定分析中，测序质量>20且测序覆盖率>50。在DNA的两条链中都观察到次要等位基因。因此，此特定突变位点(即，候选mtDNA异质性位点)是mtDNA异质性。

在一些实施方案中，通过测定测序覆盖率和一个或多个等位基因的存在来鉴定同质性。当：i)测序覆盖率≥10；和ii)在特定的核酸突变位点处仅观察到一个等位基因并且其不同于相应的参考等位基因，或在特定的核酸突变位点处观察到多个等位基因并且主要等位基因不同于相应的参考等位基因，并且特定的核酸位点不是异质性且不满足异质性鉴定标准时，存在同质性。

在一些实施方案中，将初级mtDNA单倍群分配给每个生物样品包括为每个生物样品构建mtDNA序列。在一些实施方案中，使用同质性和异质性的主要等位基因构建每个生物样品的mtDNA序列。在一些实施方案中，使用HaploGrep2(Weissensteiner等人，Nuc.AcidsRes.，2016，44，W58-W63)基于构建的mtDNA序列分配初级mtDNA单倍群。HaploGrep2是一种基于预先计算的系统发育权重对单倍群进行分类的算法，所述预先计算的系统发育权重对应于Phylotree中每个位置的突变发生率。用于分配初级mtDNA单倍群的类似工具包括mthap(万维网，“dna.jameslick.com/mthap/”)和haplofind(万维网，“haplofind.unibo.it/”)。

具有与分配给来自同一个体的大部分生物样品的初级mtDNA单倍群不同的分配的初级mtDNA单倍群的生物样品是不可靠的生物样品。在一些实施方案中，不可靠的生物样品被错误标记。在一些实施方案中，不可靠的生物样品已与另一生物样品交换。在一些实施方案中，将一个或多个错误标记的样品正确地重新标记。在一些实施方案中，丢弃一个或多个错误标记的样品。

在一些实施方案中，所述方法还包括确定每个生物样品的异质性数。在一些实施方案中，确定每个生物样品的mtDNA序列中鉴定的每个突变的异质性频率。当生物样品具有高异质性数时，向生物样品分配次级mtDNA单倍群。在一些实施方案中，具有高异质性数的阈值是≥10个异质性。

在一些实施方案中，分配次级mtDNA单倍群包括使用同质性和异质性的次要等位基因构建次级mtDNA序列。具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠样品。初级单倍群的选择与次级单倍群的选择相同。

在一些实施方案中，所述方法还包括确定生物样品的污染水平。在一些实施方案中，通过测定污染样品中所有异质性的异质性频率的中值来指示污染水平。中值异质性频率越大，污染水平越大。实际污染百分比与异质性频率中值/平均值之间存在强相关性。例如，如果中值异质性频率为6％，则污染水平也为约6％。

在一些实施方案中，所述方法还包括处理从核酸测序测定获得的mtDNA测序读段用于质量控制和衔接子序列去除，然后鉴定异质性和同质性。在此类实施方案中，从核酸测序分析获得的mtDNA测序读段是mtDNA原始测序读段。在进行mtDNA原始测序读段的处理中，产生质量控制的mtDNA测序读段。在一些实施方案中，可通过使用“Trimmomatic”(Bolger等人,Bioinformatics,2014,30,2114-2120)对从核酸测序测定获得的mtDNA测序读段进行处理用于质量控制和衔接子序列去除。此处理步骤提高了后续mtDNA变体鉴定的准确性。可用于处理的另一工具是cutadpt(万维网，“cutadapt.readthedocs.io/en/stable/”)。

在一些实施方案中，所述方法还包括在鉴定异质性和同质性之前的两步映射方法。在一些实施方案中，从核酸测序测定获得的mtDNA测序读段可用于两步映射方法。在一些实施方案中，从质量控制和衔接子序列去除方法获得的质量控制的mtDNA测序读段可用于两步映射方法。在这些实施方案中，将mtDNA测序读段(获自核酸测序测定)或质量控制的mtDNA测序读段(获自质量控制和衔接子序列去除方法)映射到线粒体参考基因组以产生候选mtDNA测序读段。在一些实施方案中，线粒体参考基因组是线粒体基因组的修正的剑桥参考序列(rCRS)。在一些实施方案中，可使用“bowtie2”(Langmead等人,Nature Methods,2012,9,357-359)或bwa进行映射步骤。将从第一映射步骤获得的候选mtDNA测序读段重新映射到整个人参考基因组。在一些实施方案中，人参考基因组是核基因组的GRCh38。另外，也可使用GRCh37。在一些实施方案中，可使用“bowtie2”来进行映射步骤。

在进行两步映射方法后，在两种情况下保留候选mtDNA测序读段：1)当候选mtDNA测序读段唯一地映射到线粒体参考基因组，或与线粒体参考基因组的错配比与人参考基因组的错配更少时，保留候选mtDNA测序读段；和2)当候选mtDNA测序读段的比对错配计数小于5个错配碱基时，保留候选mtDNA测序读段。

在一些实施方案中，所述方法还包括处理mtDNA测序读段(获自核酸测序测定)用于排序和去重。在一些实施方案中，所述方法还包括处理质量控制的mtDNA测序读段(获自质量控制和衔接子序列去除方法)，用于排序和去重。在一些实施方案中，所述方法还包括对保留的候选mtDNA测序读段进行映射后处理，用于排序和去重。在一些实施方案中，可通过使用“samtools工具包”(Li等人Bioinformatics,2009,25,2078-2079)进行排序和去重的处理。这些处理步骤是标准下一代测序(NGS)数据处理步骤。也可使用GATK工具包。

在一些实施方案中，所述方法还包括在鉴定异质性和同质性之前，将从核酸测序测定获得的mtDNA测序读段下采样至期望的深度。在一些实施方案中，所述方法还包括在处理mtDNA原始测序读段用于质量控制和衔接子序列去除之前，将从核酸测序测定获得的mtDN A测序读段下采样至期望的深度。在一些实施方案中，可将来自全转录组数据集的mtDNA原始测序读段下采样至1000万个读段。在一些实施方案中，可通过使用“seqtk”(万维网，“github.com/lh3/seqtk”)来进行下采样。RNA seq数据通常具有非常高的mtDNA含量。因此，不是所有的序列都需要进行本文所述的方法，因为mtDNA覆盖率越大，计算时间越长。在一些实施方案中，期望深度为约1000，但可低至约200。可使用的附加工具包括例如FASTQ-SAMPLE(万维网，“homes.cs.washington.edu/～dcjones/fastq-tools/fastq-sample.html”)。

在一些实施方案中，本文所述的方法还包括在对多个样品进行核酸测序测定之前从个体获得多个生物样品。在一些实施方案中，生物样品是血液、组织或肿瘤活检。在一些实施方案中，本文所述的方法还包括在对多个样品进行核酸测序测定之前扩增生物样品中的核酸分子。

本公开还提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的DNA原始测序读段；b)处理DNA原始测序读段用于质量控制和衔接子序列去除以产生质量控制的DNA测序读段；c)将质量控制的DNA测序读段映射到线粒体参考基因组以产生候选mtDNA测序读段；d)将候选mtDNA测序读段重新映射到人参考基因组并在以下情况下保留候选mtDNA测序读段：i)候选mtDNA测序读段唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少；和ii)候选mtDNA测序读段的比对错配计数小于5；e)对所保留的候选mtDNA测序读段进行映射后处理以用于排序和去重；f)在每个生物样品的所保留的候选mtDNA测序读段中鉴定异质性和同质性；以及g)将初级mtDNA单倍群分配给每个生物样品，其中具有与分配给来自同一个体的大部分生物样品的初级mtDNA单倍群不同的分配的初级mtDNA单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。此方法的步骤可通过本文描述的过程来执行。

本公开还提供了鉴定不可靠生物样品的方法，所述方法包括：a)对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的DNA原始测序读数；b)处理DNA原始测序读数用于质量控制和衔接子序列去除以产生质量控制的DNA测序读数；c)将质量控制的DNA测序读数映射到线粒体参考基因组以产生候选mtDNA测序读数；d)将候选mtDNA测序读数重新映射到人参考基因组并在以下情况下保留候选mtDNA测序读数：i)候选mtDNA测序读数唯一地映射到线粒体参考基因组或与线粒体参考基因组的错配比与人参考基因组的错配更少；和ii)候选mtDNA测序读数的比对错配计数小于5；e)对所保留的候选mtDNA测序读数进行映射后处理以用于排序和去重；f)在每个生物样品的所保留的候选mtDNA测序读数中鉴定异质性和同质性；g)将初级mtDNA单倍群分配给每个生物样品；以及h)确定每个生物样品的总异质性数，其中当生物样品具有高异质性数时，向生物样品分配次级mtDNA单倍群，其中具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠样品。此方法的步骤可通过本文描述的过程来执行。

在一些实施方案中，文中所述的方法可作为工作流程来执行。许多工作流程管理工具，例如像Pyflow(参见万维网，“github.com/Illumina/pyflow”)，可用于将步骤流水线化。

本文所述的方法具有若干优点。首先，所述方法不需要每个样品或在群体等位基因频率水平上的任何核DNA(nDNA)变体信息-这类信息通常不能用于许多研究，特别是RNA-seq研究。第二，所述方法不需要集中预处理测序数据作为输入，诸如全基因组映射的bam文件、全基因组变体VCF文件。所述方法可直接将fastq文件作为输入。第三，所述方法可应用于低覆盖率测序数据。基于nDNA变体的方法通常需要高覆盖率(>50X)以检测低水平污染。由于mtDNA的多拷贝性质，即使对于低覆盖率数据，例如千人基因组计划的2至4X，mtDNA覆盖率仍然可高达1000至2000X，这足以检测低至1％的污染水平。第四，所述方法不需要高计算能力，可用单个处理器和4Gb存储器在10至20分钟内处理具有1000X mtDNA覆盖率的典型样品。具有高mtDNA含量的样品可能需要更长的时间来处理，但可进行下采样以缩短处理时间。所述方法可容易地结合到标准NGS数据处理管线中且通过鉴别有问题的样品且进一步改进下游数据分析的准确性而充当重要的质量控制步骤。

为了可以更有效地理解本文公开的主题，下面提供了实施例。应当理解，这些实施例仅用于说明的目的，而不应被解释为以任何方式限制所要求保护的主题。

实施例

实施例1：mtDNA变异鉴定和单倍群分配

一般方法

通过例如进行图1中所示的分析(参见框1)，从下一代测序数据鉴定mtDNA变异(同质性和异质性)。在对多个生物样品进行核酸测序测定时，可使用例如可在万维网，“github.com/lh3/seqtk”上找到的“seqtk”将原始测序读段下采样到期望的深度以降低计算负担(参见图1，框1，“步骤0”)。此步骤是任选的并且不需要进行。

通过使用“Trimmomatic”(Bolger等人,Bioinformatics,2014,30,2114-2120)处理从核酸测序测定，任选地从先前的下采样步骤获得的原始mtDNA测序读段，用于质量控制和衔接子序列去除(参见图1，框1，“步骤1”)。

为了检索候选mtDNA测序读段，使用“bowtie2”(Langmead等人,Nature Methods,2012,9,357-359)将质量控制的测序读段映射到线粒体参考基因组(修正的剑桥参考序列，rCRS)(参见图1，框1，“步骤2”)。核基因组中的核线粒体DNA片段(NUMT)可被错误地映射到线粒体基因组，并以mtDNA读段计数。为了最小化NUMT的影响，可进行第二轮映射，由此将来自第一轮的映射读段重新映射到整个人参考基因组，即核基因组的GRCh38和线粒体基因组的修正的剑桥参考序列(rCRS)。如果：a)读段(读段对)唯一地映射到线粒体基因组或与线粒体基因组的错配比与核基因组的错配更少；以及b)比对错配计数小于5，则保留读段(读段对)。

保留的候选mtDNA测序读段进一步由“samtools工具包”(Li等人,Bioinformatics,2009,25,2078-2079)处理，包括sam到bam转换、排序和去重(参见图1，框1，“步骤3”)。

用“samtools mpileup函数”(Li等人,Bioinformatics,2009,25,2078-2079)编译每个mtDNA位点的保留的候选mtDNA测序读段，并且通过测序质量(>＝20)进一步过滤碱基，并且鉴定异质性和同质性(参见图1，框1，“步骤4”)。用以下标准鉴定异质性：a)测序覆盖率>＝50；b)次要等位基因频率>＝1％；和c)对于DNA数据，必须从每条链观察到至少两次次要等位基因，并且对于RNA数据，必须观察到至少三次次要等位基因。用以下标准鉴定同质性：a)测序覆盖率>10；和b1)在给定位点仅观察到一个等位基因且其不同于参考等位基因，或b2)观察到多个等位基因且主要等位基因不同于参考，但所述位点不符合异质性标准。

用同质性信息和异质性位点处的主要等位基因构建每个样品的mtDNA序列，并且使用“HaploGrep2”(Weissensteiner等人,Nuc.Acids Res.,2016,44,W58-W63)基于构建的序列分配单倍群(参见图1，框1，“步骤5”)。在此步骤，分配的单倍群被称为每个样品的初级单倍群。

如果特定样品具有异常高的异质性数，则用同质性信息和异质性位点处的次要等位基因构建次级mtDNA序列，并且将基于此次级mtDNA序列分配次级单倍群。(参见图1，框1，“步骤6”)。

样品错误标记/交换检测(参见图1，框2)

在多个样品中，每个样品可被分配如本文所述的初级单倍群。在所有样品被准确处理的情况下，来自同一个体的所有样品将被分配至同一单倍群。相反，如果在这些样品中分配两个或更多个单倍群，则具有少数单倍群分配的一个或多个样品被认为是单倍群不匹配的(即，错误标记的或与另一样品交换的)。例如，在下表1中，样品001被认为是与样品008交换的。

表1

样品编号	受试者编号	单倍群	不匹配
				001	A	J2b1a1	是
002	A	H1ba	否
				003	A	H1ba	否
004	A	H1ba	否
				005	B	J2b1a1	否
006	B	J2b1a1	否
				007	B	J2b1a1	否
008	B	H1ba	是

样品污染检测和定量(参见图1，框3)

如果在特定样品中观察到异常高的异质性数，则所述样品可能被污染。分别基于异质性位点上的主要等位基因和次要等位基因，将初级单倍群和次级单倍群分配给可疑样品(参见图1，框1，“步骤5”和“步骤6”)。如果初级和次级单倍群不同，则样品被认为是污染样品。当确定样品被污染时，使用样品中所有异质性的频率的中值来表示污染水平。

实施例2：使用mtDNA单倍群检测错误标记的样品

从几个个体收集样品，并且每个个体具有多个样品。在获得一批临床样品的RNA-seq数据后，将mtDNA单倍群分配给每个样品(参见表2)。从同一个体收集的样品应属于同一mtDNA单倍群。不匹配的mtDNA单倍群表明可能的样品错误标记。具有单倍群L3h1a1的样品应被认为是错误标记的样品。

表2

样品编号	受试者编号	单倍群
			001	A	T2+16189
02	A	T2+16189
			003	A	T2+16189
004	A	L3h1a1
			005	A	T2+16189

实施例3：使用mtDNA异质性检测样品污染

虚拟污染样品制备

从千人基因组计划中下载了两个个体(HG00290和NA19086)的全基因组测序fastq文件(参见，ftp网址，“ftp.1000genomes.ebi.ac.uk/vol1/ftp/”)。从两个个体取样测序读段，并将NA19086读段以不同比率(0.1％、0.5％、1％、2％、5％、10％、20％、30％和40％)混合到HG00290中以产生虚拟污染样品。

真实世界数据集

从千人基因组计划下载DNA测序数据(参见，ftp网址，“ftp.1000genomes.ebi.ac.uk/vol1/ftp/”)。对于每个个体，通过samtools(Li等人,Bioinformatics,2009,25,2078-2079)从bam文件中提取映射到线粒体基因组的读段，并随后将其转换为配对末端fastq文件。将fastq文件用作本文所述的方法的输入。

从GEO的GSE81266和GSE127165下载了两项RNA-seq研究的fastq文件。GSE81266含有77个回肠和储袋前回肠样品的全转录组数据，包括61个配对末端(2×75bp)和16个单末端(50bp)样品。GSE127165含有来自57名喉鳞状细胞癌患者的全转录组数据，每名患者具有肿瘤样品和相邻的正常样品。所有样品都是具有150bp读段长度的配对末端。

分析性能

分析虚拟污染样品。从千人基因组计划下载两个个体(HG00290和NA19086)的全基因组测序数据(Auton等人,Nature,2015,526,68-74)。HG00290属于单倍群U5a2a1a，并且在此个体的mtDNA基因组中鉴定出一个异质性(2610T>C 1.4％)，而NA19086属于单倍群D4b1a1，并且鉴定出两个异质性(1646T>C 2.1％，12785T>T 21.3％)。两个个体在其线粒体基因组中具有45个核苷酸差异。

通过将来自两个样品的测序读段以0.1％至40％的串联比混合来产生虚拟污染样品。HG00290作为原始样品处理，且NA19086作为污染物处理。每个污染样品含有5千万个读段长度为100bp的读段对。通过本文所述的方法处理虚拟污染样品用于污染分析，并且结果总结在图3中。当污染水平高于2％时，从样品中鉴定出45-46个异质性，远高于正常范围(个体中1-2个异质性)。这些异质性几乎覆盖了所有预期位点(两个个体之间的45个分离位点加上HG00290中的原始异质性2610T>C)。在2％样品中仅一个预期位点缺失。所有6个样品的初级单倍群为U5a2a1a，其与原始样品HG00290相同，并且次级单倍群为D4b1a1，其与污染物相同。当污染水平为1％时，检测到29个异质性。手动检查17个缺失位点，并确定这些位点均显示出一些异质性信号，但由于异质性频率鉴定截止值设定为1％，因此这些位点不进行截止。1％样品的次级单倍群被正确地分配给D4b1a1。当污染水平为0.1％和0.5％时，仅检测到1个和11个异质性，而这两个样品的次级单倍群仍然是U5a2a1a，因此，在这些低污染水平的样品中不能确信地检测到污染。这些结果表明，通过组合异质性数和次级单倍群分配，能够检测到低至1％的污染。

进一步评估人工污染样品中的异质性频率。每个样品中的异质性频率存在一些波动，但频率的平均值和中值与理论污染水平显著相关(参见图2和图3；分别地，平均值和中值的Pearson相关性＝0.996781，0.9979935，P值＝6.212e-09，1.189e-09)。因此，当通过本文所述的方法检测到给定样品被污染时，可通过样品中异质性频率的平均值/中值相对量化污染水平。

真实世界数据应用：RNA-seq数据

存在可使RNA-seq数据中的低频率(<5％)异质性鉴定比DNA-seq数据中的低频率(<5％)异质性鉴定更具挑战性的若干个因素：1)逆转录步骤中引入的错误；2)RNA编辑/修饰；和/或3)由于不同的基因表达水平，mtDNA基因组的不均匀覆盖。因此，为了减少假阳性异质性，在RNA数据中只有频率>5％的异质性被认为是可靠的异质性。另外，排除三个明确定义的mtDNA编辑位点：295、2617和13710(Bar-Yaacov等人,Genome Res.,2013,23,1789-1796；和Hodgkinson等人,Science,2014,344,413-415)。

将本文所述的方法应用于两个批量RNA-seq数据集以评估不同的疾病或组织类型背景。首先，将本文所述的方法应用于具有来自25名受试者的77个样品的数据集(Huang等人,Inflamm.Bowel Dis.,2017,23,366-378)。本研究中的大多数受试者具有来自不同组织(回肠和储袋前回肠)和/或在不同活检时间点(4个月、8个月、12个月等)的样品。此数据集中的16个样品是具有50bp读段长度的单末端样品，并且61个是具有75读段长度的配对末端样品。对于每个样品，随机取样1000万个读段(对)进行测试。首先评估样品的初级单倍群分配。在此数据集中，来自同一受试者的样品都被分配至同一mtDNA单倍群(参见图4)，表明没有样品交换。接下来评估这些样品中的潜在污染。在5％异质性频率截止值下，除了样品SRR3493833外，所有其他样品具有至多6个异质性，并且次级单倍群分配与初级单倍群相同(参见图4)。在样品SRR3493833中，鉴定出29个异质性，远高于正常范围，并且异质性的中值频率为14.8％。此样品的次级单倍群是J1c8a，其也不同于初级单倍群U5b2a1a。这些结果表明，样品SRR3493833可能被来自J1单倍群的另一样品污染，并且污染水平为约14.8％。

本文所述的方法也应用于涉及肿瘤样品的数据集(Wu等人,Molec.Cancer,2020,19,99)。此数据集含有来自57名喉鳞状细胞癌患者的样品，每名患者具有肿瘤样品和配对的相邻正常粘膜样品。在此数据集中，来自同一患者的配对肿瘤样品和相邻正常样品都被分配至同一单倍群(参见图5)，没有检测到样品交换。所有样品均具有低异质性数和相同的初级和次级单倍群分配-因此，也没有可检测到的污染。通过此数据集，证明本文所述的方法能够鉴定肿瘤样品身份。

早期和准确的样品交换和污染检测是大规模NGS数据的关键质量控制步骤，因为它可滤出可疑样品并提高后续分析的质量。在这些实施例中，提出了一种有效方法，通过使用从NGS数据鉴定的mtDNA变异来检测样品交换和交叉个体污染。所述方法可将解复用的fastq文件作为输入而无需任何数据预处理。所述方法将首先检测个体与多个样品的任何样品交换。所述方法将进一步检测和量化潜在的污染，然后指示污染的来源样品。尽管来自千人基因组计划的全基因组DNA测序数据和两个批量RNA-se数据集被用作这些实施例的工作实施例，但是本文所述的方法可推广到含有mtDNA读段的任何NGS数据集，诸如具有位点外mtDNA读段的全外显子组测序数据、单细胞RNA-seq、ATAC-seq数据等。本文所述的模拟结果表明本文所述的方法有效地检测低至1％的污染。

除了本文描述的那些修改之外，根据前面的描述，所描述的主题的各种修改对于本领域技术人员将是显而易见的。此类修改也旨在落入所附权利要求的范围内。本申请中引用的每个参考文献(包括但不限于期刊文章、美国和非美国专利、专利申请公布、国际专利申请公布、基因库登录号等)通过引用整体并入本文。

Claims

1.一种鉴定不可靠生物样品的方法，所述方法包括：

对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)测序读段；

在来自前一步骤的每个所述生物样品的mtDNA测序读段中鉴定异质性和同质性；以及

将初级mtDNA单倍群分配给每个生物样品，其中具有与分配给来自同一个体的大部分所述生物样品的所述初级mtDNA单倍群不同的分配的初级mtDNA单倍群的任何生物样品是作为错误标记的生物样品的不可靠生物样品。

2.根据权利要求1所述的方法，其中通过测定测序覆盖率、次要等位基因频率和所述次要等位基因的存在来鉴定所述异质性，其中当：i)所述测序覆盖率≥50；ii)所述次要等位基因频率≥1％；和iii)对于DNA数据，从每条链观察到至少两次所述次要等位基因，或对于RNA数据，观察到至少三次所述次要等位基因时，存在异质性。

3.根据权利要求1或权利要求2所述的方法，其中通过测定所述测序覆盖率和一个或多个等位基因的存在来鉴定所述同质性，其中当：i)测序覆盖率≥10；和ii)在特定的核酸位点处仅观察到一个等位基因并且其不同于相应的参考等位基因，或在特定的核酸位点处观察到多个等位基因并且所述主要等位基因不同于所述相应的参考等位基因，并且所述特定的核酸位点不满足异质性标准时，存在同质性。

4.根据权利要求1至3中任一项所述的方法，其中将所述初级mtDNA单倍群分配给每个生物样品包括使用所述同质性和所述异质性的主要等位基因构建每个生物样品的mtDNA序列。

5.根据权利要求1至4中任一项所述的方法，所述方法还包括确定每个生物样品的总异质性数，其中当生物样品具有高异质性数时，向所述生物样品分配次级mtDNA单倍群。

6.根据权利要求5所述的方法，其中分配所述次级mtDNA单倍群包括使用所述同质性和所述异质性的次要等位基因构建次级mtDNA序列，其中具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠生物样品。

7.根据权利要求6所述的方法，所述方法还包括通过测定所述污染的生物样品中所有异质性的异质性频率的中值来测定生物样品的污染水平，其中所述异质性频率的中值越大，所述污染水平越大。

8.根据权利要求1至7中任一项所述的方法，所述方法还包括在鉴定异质性和同质性之前，处理从所述核酸测序测定获得的mtDNA测序读段用于质量控制和衔接子序列去除，以产生质量控制的mtDNA测序读段。

9.根据权利要求8所述的方法，所述方法还包括：

将所述质量控制的mtDNA测序读段映射到线粒体参考基因组以产生候选mtDNA测序读段；以及

将所述候选mtDNA测序读段重新映射到人参考基因组，并在以下情况下保留所述候选mtDNA测序读段：

i)所述候选mtDNA测序读段唯一地映射到所述线粒体参考基因组或与所述线粒体参考基因组的错配比与所述人参考基因组的错配更少；和

ii)所述候选mtDNA测序读段的比对错配计数小于5。

10.根据权利要求9所述的方法，所述方法还包括对所保留的候选mtDNA测序读段进行映射后处理以用于排序和去重。

11.根据权利要求1至10中任一项所述的方法，所述方法还包括在鉴定所述异质性和所述同质性之前和/或在处理所述mtDNA测序读段以用于质量控制和衔接子序列去除之前，将从所述核酸测序测定获得的mtDNA测序读段下采样至期望的深度。

12.根据权利要求1至11中任一项所述的方法，所述方法还包括在对所述多个生物样品进行所述核酸测序测定之前从所述个体获得所述多个生物样品。

13.根据权利要求1至12中任一项所述的方法，其中所述生物样品是血液或组织。

14.根据权利要求1至13中任一项所述的方法，所述方法还包括在对所述多个生物样品进行所述核酸测序测定之前扩增所述生物样品中的核酸分子。

15.根据权利要求1至14中任一项所述的方法，所述方法还包括正确标记所述一个或多个错误标记的生物样品或丢弃所述一个或多个错误标记的生物样品。

16.根据权利要求1至14中任一项所述的方法，所述方法还包括丢弃所述一个或多个污染的生物样品。

17.根据权利要求1至16中任一项所述的方法，其中所述测序测定包括下一代测序(NGS)。

18.根据权利要求17所述的方法，其中所述NGS包括全基因组测序。

19.根据权利要求17所述的方法，其中所述NGS包括全外显子组测序。

20.根据权利要求17所述的方法，其中所述NGS包括RNA测序。

21.根据权利要求17所述的方法，其中所述NGS包括亚硫酸氢盐测序。

22.一种鉴定不可靠生物样品的方法，所述方法包括：

对从单个个体获得的多个生物样品中的每个生物样品进行核酸测序测定，以获得每个生物样品的线粒体DNA(mtDNA)原始测序读段；

处理所述mtDNA原始测序读段用于质量控制和衔接子序列去除以产生质量控制的mtDNA测序读段；

将所述质量控制的mtDNA测序读段映射到线粒体参考基因组以产生候选mtDNA测序读段；

ii)所述候选mtDNA测序读段的比对错配计数小于5；

对所保留的候选mtDNA测序读段进行映射后处理以用于排序和去重；

在每个所述生物样品的所保留的候选mtDNA测序读段中鉴定异质性和同质性；以及

23.一种鉴定不可靠生物样品的方法，所述方法包括：

ii)所述候选mtDNA测序读段的比对错配计数小于5；

在每个所述生物样品的所保留的候选mtDNA测序读段中鉴定异质性和同质性；

将初级mtDNA单倍群分配给每个生物样品；以及

确定每个生物样品的总异质性数，其中当生物样品具有高异质性数时，向所述生物样品分配次级mtDNA单倍群，其中具有与所分配的初级mtDNA单倍群不同的分配的次级mtDNA单倍群的生物样品是被污染的不可靠样品。