CN110870017A

CN110870017A - 从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法以及使用所述方法从无细胞核酸中检测突变的方法

Info

Publication number: CN110870017A
Application number: CN201880034935.8A
Authority: CN
Inventors: 朴熊洋; 朴东贤; 孙大淳
Original assignee: Ginninus Co
Current assignee: Ginninus Co
Priority date: 2017-05-24
Filing date: 2018-04-17
Publication date: 2020-03-06
Anticipated expiration: 2038-04-17
Also published as: JP2020520679A; WO2018216905A2; WO2018216905A3; KR20180128801A; CN110870017B; JP6980907B2; US20210174897A1; KR102145417B1

Abstract

本发明提供一种从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法、根据所述方法建构的背景等位基因的频率分布矩阵以及使用所述方法从无细胞核酸中检测突变的方法。据此，由于为了消除生殖细胞突变，可以使用从分离自受试个体自身的细胞核酸获得的序列分析数据来从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布，因此具有可以节省成本和时间的优点。

Description

从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法以及使用所述方法从无细胞核酸中检测突变的方法

技术领域

本发明提供一种用于从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法和装置、根据所述方法的背景等位基因的频率分布矩阵以及使用所述方法从无细胞核酸中检测突变的方法和装置。

背景技术

基因组(genome)是指生物体拥有的所有遗传信息。为了对任一个体的基因组进行测序(sequencing)或序列分析，正在开发如DNA芯片、下一代测序(NGS，Next GenerationSequencing)和下下一代测序(NNGS，Next Next Generation Sequencing)等的各种技术。NGS被广泛用于研究和诊断的目的。NGS取决于设备的类型，但大致可分为采样、文库制备和核酸序列分析的三个步骤。在核酸序列分析之后，基于生成的序列分析数据检测是否存在遗传突变。

由于在聚合酶链反应(PCR，polymerase chain reaction)期间聚合酶所引起的错误和在核酸序列分析期间荧光检测所引起的错误等，目前NGS的序列分析错误率为0.1％至1％，所述错误的问题在于抑制以低于序列分析错误率的频率存在的稀有突变的检测。为了克服所述问题，有必要增加需要在序列分析过程中进行突变分析的试料的数量，或者执行几次序列分析。但所述方法的序列分析费用非常昂贵，并且需要大量试料。

另一方面，在文库的制备方法中，通过改善衔接子序列和/或条形码序列而显着增加读段数来检测稀有突变的方法是已知的(大韩民国公开号10-2016-0141680A)。但对于如何减少在文库制备和序列分析步骤以外的其他步骤中可能发生的错误知之甚少。

因此，需要一种能够在最小化成本消耗的同时准确地检测稀有突变的方法。

发明内容

技术方案

本发明的一方面提供一种从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法。

所述方法可以包括：从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；根据所述第二个序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布；以及将所述背景等位基因的频率分布预测为对第一序列分析数据的背景等位基因的频率分布。

所述方法可以包括：从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；以及从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据。所述方法可以包括：从分离自细胞的核酸和无细胞核酸获得对染色体中至少一个位置的第一序列分析数据。可以同时或顺序地执行获得所述第一序列分析数据的步骤和获得所述第二序列分析数据的步骤。

所述“测序(sequencing)或序列分析”可以是下一代序列分析(NGS，nextgeneration sequencing)。所述下一代序列分析可以与大规模平行序列分析(massiveparallel sequencing)或第二代序列分析(second-generation sequencing)互换使用。所述NGS是一种对大量片段的核酸同时进行序列分析的技术，可以基于芯片(chip)和基于聚合酶链反应(PCR，polymerase chain reaction)的成对末端(paired end)的形式对全长基因组进行片段化，并基于杂交反应(hybridization)以超高速度对所述片段进行序列分析。所述NGS可以包括基于NGS的靶向序列分析(targeted sequencing)、靶向深度序列分析(targeted deep sequencing)或面板序列分析(panel sequencing)。所述NGS可以通过例如454平台(Roche)、GS FLX钛、Illumina MiSeq、Illumina HiSeq、Illumina HiSeq 2500、Illumina基因组分析仪、Solexa平台、SOLiD系统(Applied Biosystems)、Ion Proton(LifeTechnologies)、Complete Genomics、Helicos Biosciences Heliscope、PacificBiosciences的单分子实时(SMRT^TM)技术或其组合来进行。

所述序列分析数据是指通过所述测序或序列分析而获得的数据，并可以包括对待进行序列分析的染色体中至少一个位置或所有位置的等位基因及其频率。第一序列分析数据是指对从无细胞核酸中染色体内至少一个位置获得的序列分析数据，第二序列分析数据是指对从分离自细胞的核酸中染色体内至少一个位置获得的序列分析数据。所述序列分析数据可以从例如BAM(binary version of SAM)格式和/或SAM(Sequence Alignment/Map)格式的数据获得。BAM格式和/或SAM格式通常可以用于描述有关短读段(short reads)的数据的格式。BAM格式和/或SAM格式的数据可以包括与表示读段(read)的起点、读段的方向(direction)、映射(mapping)质量和对齐(alignment)顺序的FLAG、CIGAR(CompactIdiosyncratic Gapped Alignment Report)串等有关的文本数据。可以通过生成各种比对来确保各种支持读段(supporting reads)。

所述核酸可以是基因组(genome)或其片段。术语“基因组(genome)”是指染色体、染色质或基因的整体。所述核酸可以是脱氧核糖核酸(DNA，deoxyribonucleic acid)、核糖核酸(RNA，ribonucleic acid)或其组合。

所述从细胞分离的核酸可以是从细胞或细胞系分离的核酸。所述从细胞分离的核酸可以从存在于血液、血清、尿液、唾液、粘膜分泌物、痰、粪便、眼泪或其组合的细胞中分离。所述从细胞分离的核酸可以从血细胞、口腔上皮细胞、毛囊细胞、皮肤成纤维细胞或其组合中分离。所述血细胞可以例如是白细胞、具体地是外周血白细胞(PBL，peripheralblood leukocyte)、更具体地是包括外周血单核细胞和/或外周血淋巴细胞的外周血单核细胞(PBMC，Peripheral blood mononuclear cell)，和/或多形核白细胞(PML，polymorphonuclear leukocyte)。所述无细胞核酸(cell free nucleic acid：cf nucleicacid)可以是从细胞中游离的核酸。所述无细胞核酸可以存在于血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便、眼泪或其组合。所述无细胞核酸可以为循环肿瘤核酸(circulating tumor nucleic acid:ct nucleic acid)。所述无细胞核酸可以例如为无细胞DNA(cell free DNA:cfDNA)。核酸的提取或分离方法可以通过本领域技术人员已知的方法进行。

所述染色体内至少一个位置是指在染色体中用于检测是否存在遗传突变的位置(position)。所述染色体内的位置例如是预期存在突变的位置，并可以是靶向序列分析中的靶区域。通过获得对染色体内至少一个位置的序列分析数据，可以获得在染色体内每个位置的等位基因、等位基因的频率和等位基因的频率分布。所述染色体内的位置可以以染色体编号的形式表示，例如chr8：19,939,070-19,967,258或17p 13.1。

所述方法可以包括：根据所述第二个序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布。所述方法可以包括：根据从分离自细胞的核酸获得的序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布。

所述背景等位基因(background allele)可以为(1)不是参考基因组的等位基因、(2)不是由于生殖细胞突变引起的等位基因，和/或(3)不是受试个体自身基因型的等位基因。所述背景等位基因可以与背景等位基因错误互换使用。所述背景等位基因可以是由于技术错误而错误地分析的碱基，例如可以是由于在进行序列分析的整个过程中发生的错误而错误地分析的碱基。

所述背景等位基因频率是指背景等位基因检测的频率、背景等位基因发生的频率、背景等位基因错误的比率或背景等位基因错误的发生率。所述背景等位基因频率分布是指包括背景等位基因检测的频率的最小值和最大值的范围。所述背景等位基因比率可以通过计数各等位基因的数目来计算。

参考基因组数据可以从本领域已知的数据库获得，例如美国国家生物技术信息中心(NCBI，National Center for Biotechnology Information)、基因表达综合数据库(GEO，Gene Expression Omnibus)、美国食品和药物管理局(FDA，Food and DrugAdministration)、我的癌症基因组(My Cancer Genome)、癌症基因组图谱(TCGA，TheCancer Genome Atlas)等，或者可以从对照组，即正常人的生物样品获得。所述正常人可以是未发现特定疾病，例如肿瘤等的健康人。所述参考基因组可以是人类参考基因组，也可以是hg18或hg19。

所述方法可以包括：将所述背景等位基因的频率分布预测为对第一序列分析数据的背景等位基因的频率分布。所述步骤可以包括将从分离自细胞的核酸生成的背景等位基因的频率分布应用为对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布。图4为利用从作为受试个体的患者的外周血白细胞获得的序列分析数据去除生殖细胞突变，生成背景等位基因错误的比率分布矩阵，然后从血浆中无细胞核酸检测突变的方法的流程图。当从来自常规受试个体的无细胞核酸检测突变时，基于从作为对照组的正常人的核酸获得的序列分析数据，生成对染色体中至少一个位置的背景等位基因的频率分布，通过将在从来自受试个体的无细胞核酸获得的序列分析数据中任何等位基因的频率与从正常人核酸生成的背景等位基因的频率分布进行比较，如果更大，确定所述等位基因是显着的突变，否则，确定所述等位基因不是显着的突变。此时，由于为了检测常规受试个体是否具有突变，需要从作为对照组的正常人核酸获得的序列分析数据，因此浪费了额外的时间和成本。但是，由于为了消除生殖细胞突变，需要从分离自来自受试个体的细胞的核酸中获得序列分析数据并检测突变，根据所述方法，基于已获得的从分离自受试个体自身细胞的核酸中获得的序列分析数据，可以生成对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布，因此具有节省成本和时间的优点。

所述方法可以包括：在获得所述第二序列分析数据之前，对从所述细胞分离的核酸进行片段化。所述片段化(fragmentation)可以通过物理、化学、热、光学、超声波或酶促来切割基因组。例如，所述化学切割可以通过与限制酶反应来进行。所述超声波切割可以通过施加超声波来进行。所述超声波切割可以通过施加约50W至约160W、约60W至约160W、约70W至约160W、约80W至约160W、约90W至约160W或约100W至约150W的超声波来进行。所述超声波切割可通过施加超声波约10秒至约300秒、约20秒至约250秒、约20秒至约200秒、约30秒至约150秒、约40秒至约100秒或约45秒至约90秒来进行。

所述片段化可以通过减少在物理、化学、热、光学、超声波或酶促上施加于基因组的能量来切割。当所述能量高于等于预定阈值时，核酸片段形成碱基对，其中嘌呤(purine)碱基与嘌呤碱基可以形成碱基对，或者嘧啶(pyrimidine)碱基与嘧啶碱基可以形成碱基对。例如，当施加于所述片段化的能量过多时，鸟嘌呤(G)会发生氧化损伤并转化为胸腺嘧啶(T)，被转化的胸腺嘧啶(T)可与腺苷(A)形成碱基对。如此，为了防止形成错误的碱基对，可以通过减少施加于片段化的能量来减少氧化损伤。当通过减少在物理、化学、热、光学、超声波或酶促上施加的能量来进行切割,以使片段化的核酸的大小为200bp以上时，可以通过减少氧化损伤来防止形成错误的碱基对。结果，对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布和对从分离自细胞的核酸获得的序列分析数据的背景等位基因的频率分布可以表现出相似的形态，所以可以将对从分离自细胞的核酸获得的序列分析数据的背景等位基因的频率分布预测为对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布并将其应用。

所述方法可以进一步包括：选择片段化的核酸的大小。所述片段化的核酸的大小可以为200bp以上。所述片段化的核酸的大小为200bp以上、250bp以上、300bp以上、310bp以上、320bp以上、330bp以上、340bp以上、350bp以上、360bp以上、370bp以上、380bp以上、390bp以上、400bp以上、410bp以上、420bp以上、430bp以上、440bp以上、450bp以上、460bp以上、470bp以上、480bp以上、490bp以上或500bp以上。无细胞核酸的大小通常为150bp至200bp，从细胞分离的片段化的核酸的大小为200bp以上，例如可以大于无细胞核酸的大小。

所述从细胞分离的核酸和无细胞核酸可以来自相同个体或不同个体。如上所述，对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布可以基于从受试个体或其同属物种(species)的其他个体的核酸获得的序列分析数据来生成。所述个体可以为患有疾病的个体、患有肿瘤的个体、正常人或其组合。所述个体可以为哺乳动物，包括人、牛、马、猪、绵羊、山羊、狗、猫和啮齿动物。

本发明的另一方面提供一种根据所述方法的对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布矩阵。所述背景等位基因的频率分布矩阵可以综合表示对待进行序列分析的染色体中至少一个位置或所有位置的等位基因、等位基因的频率和等位基因的频率分布。

本发明另一方面提供一种从无细胞核酸检测突变的方法。

所述方法可以包括：从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；根据所述第二个序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布；以及将对所述第一序列分析数据中所述染色体内至少一个位置的任何等位基因的频率与对其对应位置的所述背景等位基因的频率分布进行比较并检测突变。

所述从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；以及根据所述第二个序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布，如上所述。

所述突变是指作为染色体的结构突变(structure variation)的遗传突变，也可以包括常见变异和/或多基因变异(common and/or polygenic variant)、稀有突变(rarevariant)或其组合。所述遗传突变可以为描述疾病的风险度或疾病的诱发性的指标或标志。所述稀有突变可以是显示突变的等位基因的频率为5％以下、4.5％以下、4％以下、3.5％以下、3％以下、2.5％以下、2％以下、1.5％以下、1％以下、0.9％以下、0.8％以下、0.7％以下、0.6％以下、0.5％以下、0.4％以下、0.2％以下、0.1％以下、0.09％以下、0.08％以下、0.07％以下、0.06％以下、0.05％以下、0.04％以下、0.03％以下、0.02％以下或0.01％以下的突变。

所述突变可以包括碱基、核苷酸、多核苷酸或核酸的变更(alteration)，也可以包括碱基、核苷酸、多核苷酸或核酸的取代(substitution)、插入(insertion)、重复(duplication)、缺失(deletion)(插入和删除为Insertion and Deletion、InDel)等。所述突变可以为单核苷酸变体(SNV，single nucleotide variant)，单核苷酸多态性(SNP，single nucleotide polymorphism)或其组合。

所述方法可以包括：将对所述第一序列分析数据中所述染色体内至少一个位置的任何等位基因的频率与对其对应位置的所述背景等位基因的频率分布进行比较并检测突变。

所述方法可以进一步包括：当对在所述第一序列分析数据中所述染色体内至少一个位置的任何等位基因的频率大于对其对应位置的所述背景等位基因的频率分布时，确定所述等位基因是显着的突变；当对在所述第一序列分析数据中所述染色体内至少一个位置的任何等位基因的频率小于等于对其对应位置的所述背景等位基因的频率分布时，确定所述等位基因不是显着的突变。

即，可以包括：当对在从所述无细胞核酸获得的序列分析数据中所述染色体内至少一个位置的任何等位基因的频率大于在从分离自细胞的核酸获得的序列分析数据中对其对应位置的所述背景等位基因的频率分布，确定所述等位基因是显着的突变；否则，确定所述等位基因不是显着的突变。根据所述方法，在从无细胞核酸获得的序列分析数据中，可以准确地区分对所述染色体中至少一个位置的任何等位基因的频率是显着的突变还是错误。

根据一方面，从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法、以及所述从无细胞核酸检测突变的方法可以用于个性化的诊断、治疗的方法或精确治疗的方法。具体地，本发明进一步提供一种个性化的诊断、治疗的方法或精确治疗的方法，所述方法包括：所述方法生成背景等位基因的频率分布，或者在检测核酸突变后，根据检测到的突变类型进行个性化诊断或治疗(例如精确治疗)。

本发明的另一方面提供一种用于从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的装置。

所述装置包括存储器；以及处理器。

所述存储器为用于存储要在计算机设备中处理的数据和处理完成的结果的硬件，包括如随机存取存储器(RAM，random access memory)、只读存储器(ROM，read onlymemory)等的存储芯片，或者如硬盘驱动器(HDD，hard disk drive)、固态硬盘(SSD，solidstate drive)等的存储设备。即，存储器可以存储由处理器获得的第一序列分析数据、第二序列分析数据和背景等位基因的频率分布数据。

所述处理器可以包括：第一获取单元，用于从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；第二获取单元，用于从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；生成单元，用于根据所述第二个序列分析数据生成对所述染色体中至少一个位置的背景等位基因的频率分布；以及预测单元，用于将所述背景等位基因的频率分布预测为对第一序列分析数据的背景等位基因的频率分布。

所述处理器的获取单元可以从测序或序列分析设备获得。

另外，所述处理器以与上述相同的方式执行。

所述处理器是用至少一个处理单元实现的模块，也可以用具有多个逻辑门阵列的微处理器和存储可以在所述微处理器上执行的程序的存储模块的组合来实现。处理器可以以应用程序的模块的形式实现。

本发明另一方面提供一种用于从无细胞核酸检测突变的装置。

所述装置包括存储器；以及处理器。

所述存储器如上所述。

所述处理器可以包括：第一获取单元，用于从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；第二获取单元，用于从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；生成单元，用于根据所述第二个序列分析数据生成对所述染色体中至少一个位置的背景等位基因的频率分布；以及检测单元，用于将对所述第一序列分析数据中所述染色体内至少一个位置的任何等位基因的频率与对其对应位置的所述背景等位基因的频率分布进行比较并检测突变。

有益效果

根据一种用于从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法和装置、根据所述方法的背景等位基因的频率分布矩阵以及使用所述方法从无细胞核酸中检测突变的方法和装置，可以省略从正常人的血液、细胞或无细胞核酸获得序列分析数据的过程，从而具有节省时间和成本的优点。另外，当通过使用所述背景等位基因的频率分布来从无细胞核酸检测突变时，可以在检测极少量的突变时提高检测结果的可靠性和准确性。

附图说明

在图1a中，显示在PBL DNA样试料和血浆DNA试料中对背景等位基因的碱基和总等位基因的碱基的每个碱基的Phred碱基质量得分(quality score)的分布。在图1b中，显示在去除质量得分小于30的碱基后的PBL DNA试料中对参考等位基因的碱基和背景等位基因的碱基的每个碱基的碱基质量得分分布。在图1c中，显示在去除质量得分小于30的碱基后的血浆DNA试料中对参考等位基因的碱基和背景等位基因的碱基的每个碱基的碱基质量得分分布。

在图2a中，显示在19个血浆DNA试料和19个PBL DNA试料中背景等位基因的频率，即每个试料的平均背景等位基因错误的比率。在图2b中，显示在血浆DNA试料和PBL DNA试料中背景等位基因的无错误位置(error-free position)的比率。在图2c中，显示在血浆DNA试料和PBL DNA试料中对12种碱基取代产生背景等位基因的频率分布。y轴显示在预处理的PBL DNA试料和血浆DNA试料中对每个碱基取代的背景等位基因的频率。在图2d和2e中，显示在血浆DNA试料和PBL DNA试料中对12种碱基取代的背景等位基因错误的比率。条形显示标准偏差。

在图3a中，显示从通过在各种片段化条件下片段化基因组DNA并将所述片段化的基因组DNA作为输入(input)DNA来生成的序列分析数据获得的背景等位基因错误的比率。在图3b中，显示在图3a中使用的片段化条件的详细条件以及据此生成的片段的大小。

图4为利用从作为受试个体的患者的外周血白细胞获得的序列分析数据去除生殖细胞突变，生成背景等位基因错误的比率分布矩阵，然后从血浆中无细胞核酸检测突变的方法的流程图。

具体实施方式

在下文中，将通过实施例更详细地描述本发明。然而，这些实施例是为了描述本发明，本发明的范围不限于这些实施例。

实施例1对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布的生成

1、对从分离自细胞的核酸和无细胞核酸获得的序列分析数据的背景等位基因的频率分布的生成和比较

(1)血浆和外周血淋巴细胞(PBL，Peripheral blood lymphocytes)的收集和DNA提取

从2名健康的正常人和17名胰腺癌患者中采集血液。将血液试料收集于无细胞DNA^TMBCT管(Streck Inc.，美国内布拉斯加州奥马哈市)。在收集后6小时内，于25℃对收集的血液试料进行以840g下10分钟、以1040g下10分钟、以5000g下10分钟的三阶段离心分离。在第一阶段离心分离中获得外周血淋巴细胞(PBL，Peripheral blood lymphocytes)。在每个离心分离步骤将血浆转移至新试管中。将血浆试料和PBL试料在-80C保存，直到提取出无细胞DNA(cfDNA，cell free DNA)。

使用QIAamp DNA mini-prep试剂盒(Qiagen，美国加利福尼亚州圣塔克拉利塔)从外周血单核细胞(PBMC，peripheral blood mononuclear cell)分离生殖细胞DNA(Germline DNA)。使用QIAamp循环核酸试剂盒(Qiagen)从1ml至5ml血浆分离循环DNA。使用Qubit 2.0荧光光谱仪(Life Technologies，美国纽约州格兰德岛)、Qubit dsDNA HS分析试剂盒和BR分析试剂盒(Thermo Fisher Scientific，美国马萨诸塞州沃尔瑟姆)以PicoGreen荧光分析法分析DNA的浓度和纯度。DNA的浓度和纯度通过使用Nano Drop 8000UV-Vis光谱仪(Thermo Fisher Scientific)和Picogreen荧光分析法来定量。使用2200TapeStation仪器(Agilent Technologies，美国加利福尼亚州圣克拉拉)和实时聚合酶链反应(real-time PCR)Mx3005p(Agilent Technologies)，根据制造商的说明测量片段的大小分布。

(2)文库的制备

根据制造商的说明，在工作系数(duty factor)10％、峰值入射功率(peakincident power)175W、200个周期/猝发(burst)的条件下，使用Covaris S220(CovarisInc.，美国马萨诸塞洲沃本)对PBL试料中的基因组DNA进行超声波处理6分钟。使用未片段化的血浆试料中的DNA。

为了制备序列分析文库，使用了PBL DNA试料200ng和血浆DNA试料37.30ng。PBLDNA试料和血浆DNA试料的文库通过使用KAPA Hyper prep试剂盒(Kapa Biosystems，美国马萨诸塞州沃本)来制备。对于每个DNA，根据制造商的说明进行末端修复(end-repair)、加A尾(A tailing)和衔接子连接(adapter ligation)过程，并通过聚合酶链反应进行扩增。此时，在完成每个过程之后，使用AMPure珠粒(Beckman Coulter，美国印第安纳州)进行纯化过程。使用预索引(pre-indexed)的PentAdapter^TM(PentaBase ApS，丹麦)在4C下过夜进行衔接子连接。

(3)靶区域扩增、序列分析和序列分析数据的处理

制备RNA诱饵(bait)，其包括与如下表1所列的83种肿瘤相关的基因的外显子并靶向约～499kb的人类基因组。合并(pooling)8种纯化的文库，最后调节至750ng，用于杂交选择反应(hybrid selection reaction)。根据SureSelect诱饵杂交方案对靶区域进行靶向富集(target enrichment)，所述方案对预索引(pre-indexed)的衔接子进行用IDT x Gen封闭寡核苷酸(IDT，美国加利福尼亚州圣塔克拉拉)替代封闭寡核苷酸的修饰。

在富集靶区域后，使用P5和P7寡核苷酸通过PCR反应扩增捕获DNA片段。扩增的文库用AMPure珠纯化，并使用dsDNA HS分析试剂盒和Qubit 2.0荧光光谱仪通过PicoGreen荧光分析法定量。片段的大小分布通过使用2100生物分析仪(Agilent Technologies)来分析。根据DNA的浓度和平均片段大小，将文库标准化为2nM的浓度，并以等体积合并。用氢氧化钠0.2N使DNA变性后，在杂交缓冲液(Illumina，美国加利福尼亚洲圣地亚哥)中将变性的文库稀释至20pM。根据制造商(Illumina)的说明，对变性的模板进行簇扩增(Clusteramplification)。使用HiSeq 2500 v3合成测序试剂盒(Illumina)以100bp的成对末端模式对测序芯片(Flow cells)进行序列分析，并使用RTA软件(v.1.12.4.2以上)进行分析。使用BWA-mem(v0.7.5)，将所有原始数据与hg19人类参考基因组进行对齐，以生成BAM文件。使用SAMTOOLS(v0.1.18)、Picard(v1.93)和GATK(v3.1.1)对SAM/BAM文件进行分类，执行本地重新对齐(local realignment)并标记重复。通过所述处理过程，删除重复、不匹配对和脱靶的读段。

【表1】

从血浆DNA试料和PBL DNA试料生成的总读段的平均值分别为56.3x10⁶个和2,000x10⁶个。另外，血浆DNA试料和PBL DNA试料的读段比对率(alignment rate)分别为87.3％和93.7％。从序列分析数据中排除PCR复制后，血浆DNA试料和PBL DNA试料的平均深度分别为1,964x(1,210-3,069x)和1,717x(1,042-2,361x)。

(4)根据序列分析数据在靶区域中位置的背景等位基因(background allele)的确认

对于一组PBL DNA试料和血浆DNA试料，当满足以下条件时，将整个靶区域中位置的碱基确定为背景等位基因：(1)碱基不是参考基因组的等位基因；(2)在一对PBL DNA试料和血浆DNA试料中，所述位置具有足够的深度范围(>500x)；(3)在PBL DNA试料和血浆DNA试料中，碱基的频率不显示生殖细胞突变(<5％)。由于使用癌症患者的试料，因此删除对体细胞肿瘤突变的等位基因候选者。所述删除过程通过生成与在接近于癌症患者开始治疗之前从癌症患者抽血的时间点的时间点从癌症患者获得的细针抽吸(FNA，fine-needleaspiration)活检结果相匹配的序列分析数据来执行。为了制备对原发性肿瘤(primarytumor)的序列分析文库，使用原发性肿瘤输入(input)DNA 200ng，并如上(3)所述使用HiSeq 2500进行分析。从FNA试料中删除重复后，FNA DNA试料的平均深度为987.15(790.32x至1476.55x)。在一组PBL DNA试料和血浆DNA试料中，根据FNA DNA试料的序列分析结果，1)当该位置的深度为250x以下时，排除该位置；2)当存在频率大于2.5％的等位基因时，排除该等位基因。

(5)背景等位基因的碱基质量得分分析

在排除肿瘤来源单核苷酸突变(SNV，single nucleotide variant)和生殖细胞单核苷酸多态性(SNP，single nucleotide polymorphism)之后，分析非参考背景等位基因的Phred基础质量得分，以分析在序列分析过程中发生的背景等位基因错误。

在图1a中，显示在PBL DNA样试料和血浆DNA试料中对背景等位基因的碱基和总等位基因的碱基的每个碱基的Phred碱基质量得分的分布。在图1b中，显示在去除质量得分小于30的碱基后的PBL DNA试料中对参考等位基因的碱基和背景等位基因的碱基的每个碱基的碱基质量得分分布。在图1c中，显示在去除质量得分小于30的碱基后的血浆DNA试料中对参考等位基因的碱基和背景等位基因的碱基的每个碱基的碱基质量得分分布。如图1a至1c所示，大多数的背景等位基因显示出小于20的碱基质量得分，而少数的背景等位基因显示出与参考等位基因无法区分的碱基质量得分。在原始序列分析数据(raw sequencingdata)中，在一组PBL DNA试料和血浆DNA试料中，碱基质量得分为30以上的碱基比例分别为87±3.3％和87±2.5％(平均值±SD)。在排除碱基质量得分低于30的碱基后，整体碱基质量得分的分布显示出等位基因与参考等位基因之间无显着差异。但是，通过A>C和T>G转换而获得的C和G的碱基质量得分显示出一些差异。这些结果表明背景等位基因错误可以由除在执行序列分析的过程中发生的因素以外的因素引起。

(6)背景等位基因错误的形态分析

如以上(5)中所述，通过排除碱基质量得分小于30的碱基，进行分析以排除在执行序列分析的过程中发生的错误。

对于19对血浆DNA试料和PBL DNA试料，计算整个靶区域中背景等位基因的频率。在图2a中，显示在19个血浆DNA试料和19个PBL DNA试料中背景等位基因的频率，即每个试料的平均背景等位基因错误的比率。如图2a所示，在血浆DNA试料和PBL DNA试料中，每个试料的平均背景等位基因的频率分别为0.007％和0.008％。在图2b中，显示在血浆DNA试料和PBL DNA试料中背景等位基因的无错误位置(error-free position)的比率。如图2b所示，在整个靶区域中，血浆DNA试料和PBL DNA试料中无错误的位置的比例分别为77.2±1.4％和78.7±1.0％(平均值±SD)。在图2c中，显示在血浆DNA试料和PBL DNA试料中对12种碱基取代产生背景等位基因的频率分布。y轴显示在预处理的PBL DNA试料和血浆DNA试料中发生每个碱基取代的背景等位基因的频率。在图2d和e中，显示在血浆DNA试料和PBL DNA试料中对12种碱基取代的背景等位基因错误的比率。如图2c至e所示，在血浆DNA试料和PBL DNA试料中，C：G＞A：T核苷酸取代显示出显着的差异。尤其，在所有核苷酸取代中，与血浆DNA试料相比，PBL DNA试料中的C：G>A：T和C：G>G：C转换错误显着增加。

2、从细胞分离的核酸的片段化条件的变化及核酸的片段化条件对背景等位基因错误比的影响的确认

为了确认DNA片段化是否影响背景等位基因错误的比率，除了对DNA片段化步骤中施加能量的强度(intensity)和/或时间(duration)进行各种调整外，如上1所述，分析背景等位基因错误的比率。具体的片段化条件如下表所示。

【表2】

在图3a中，显示从通过在各种片段化条件下片段化基因组DNA并将所述片段化的基因组DNA作为输入DNA来生成的序列分析数据获得的背景等位基因错误的比率。在图3b中，显示在图3a中使用的片段化条件的详细条件以及据此生成的片段的大小。如图3a所示，随着在片段化期间施加相对较低的能量，PBL DNA试料的C：G>A：T和C：G>G：C的转化率降低，从而达到与血浆DNA试料的C：G>A：T和C：G>G：C的转化率类似的水平。如图3b所示，随着在片段化期间施加相对较低的能量，输入DNA的大小增加。然而，对为序列分析插入的DNA的大小而言，其增加的水平小于输入DNA的大小增加的水平。

即，DNA片段化的过程可以引起损伤，从而导致C：G>A：T和C：G>G：C转化，可以通过减少对从细胞中分离的核酸进行片段化所需的能量并降低背景等位基因错误发生的比率，以从分离自细胞的核酸和无细胞核酸中类似地生成背景等位基因的频率分布。因此，可以判断无需使用从正常人的核酸获得的序列分析数据就可以准确地检测出稀有突变。

上面以本发明的优选实施例为主进行了说明。本领域技术人员将理解，在不脱离本发明的基本特征的情况下，可以以修改的形式实现本发明。因此，所公开的实施例应仅在描述性意义上考虑，而不是出于限制的目的。本发明的范围是在权利要求书中而不是在前面的描述中示出的，并且该范围内的所有差异将被解释为包括在本发明中。

Claims

1.一种从无细胞核酸获得的序列分析数据中生成背景等位基因的频率分布的方法，其特征在于，所述方法包括：

从无细胞核酸获得对染色体中至少一个位置的第一序列分析数据；

从分离自细胞的核酸获得对所述染色体中至少一个位置的第二序列分析数据；

根据所述第二个序列分析数据，生成对所述染色体中至少一个位置的背景等位基因的频率分布；以及

将所述背景等位基因的频率分布预测为对第一序列分析数据的背景等位基因的频率分布。

2.如权利要求1所述的方法，其特征在于，所述方法包括：

在获得所述第二序列分析数据之前，对从所述细胞分离的核酸进行片段化。

3.如权利要求2所述的方法，其特征在于，

所述片段化通过物理、化学、热、光学、超声波或酶促来切割从细胞分离的核酸。

4.如权利要求3所述的方法，其特征在于，所述超声波切割通过施加50W至160W的超声波10秒至300秒来进行。

5.如权利要求2所述的方法，其特征在于，所述片段化的核酸的大小为200bp以上。

6.如权利要求1所述的方法，其特征在于，所述分离自细胞的核酸和所述无细胞核酸来自相同个体或不同个体。

7.如权利要求1所述的方法，其特征在于，所述分离自细胞的核酸从血细胞、口腔上皮细胞、毛囊细胞、皮肤成纤维细胞或其组合中分离。

8.如权利要求1所述的方法，其特征在于，所述无细胞核酸存在于血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便、眼泪或其组合。

9.如权利要求1所述的方法，其特征在于，所述无细胞核酸为循环肿瘤核酸。

10.一种对从无细胞核酸获得的序列分析数据的背景等位基因的频率分布矩阵，其特征在于，所述频率分布矩阵通过以下步骤生成：

11.一种从无细胞核酸中检测突变的方法，其特征在于，所述方法包括：

将对所述第一序列分析数据中所述染色体中至少一个位置的任何等位基因的频率与对其对应位置的所述背景等位基因的频率分布进行比较并检测突变。

12.如权利要求11所述的方法，其特征在于，

当对在所述第一序列分析数据中所述染色体中至少一个位置的任何等位基因的频率大于对其对应位置的所述背景等位基因的频率分布时，确定所述等位基因是显着的突变；

当对在所述第一序列分析数据中所述染色体中至少一个位置的任何等位基因的频率小于等于对其对应位置的所述背景等位基因的频率分布时，确定所述等位基因不是显着的突变。