CN107075564A

CN107075564A - 确定肿瘤核酸浓度的方法和装置

Info

Publication number: CN107075564A
Application number: CN201480082794.9A
Authority: CN
Inventors: 杨明; 赵鑫; 刘耿; 刘敬; 刘敬一; 侯勇; 吴逵; 李波
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-12-10
Filing date: 2014-12-10
Publication date: 2017-08-18
Also published as: WO2016090584A1

Abstract

本发明公开一种确定肿瘤核酸含量的方法，肿瘤核酸来自体液样本，体液样本包含游离核酸，游离核酸包括肿瘤核酸和非肿瘤核酸，所述方法包括：对游离核酸的至少一部分进行序列测定，获得测定数据，所述测定数据包括多个读段；基于所述测定数据，检测所述游离核酸中的变异位点；筛选出突变频率与阴性对照样本中相同位点的突变频率具有显著差异的变异位点，获得肿瘤变异位点；基于至少一个所述肿瘤变异位点的支持读段量，确定所述体液样本中的肿瘤核酸含量。本发明还公开一种确定肿瘤核酸含量的装置和一种计算机可读存储介质。

Description

确定肿瘤核酸浓度的方法和装置

技术领域

本发明涉及生物信息和生物医学领域，具体的，本发明涉及一种确定肿瘤核酸含量的方法、一种确定肿瘤核酸含量的装置和一种计算机可读存储介质。

背景技术

20世纪70年代以来，我国癌症发病及死亡率一直呈上升趋势，至90年代的20年间，癌症死亡率上升29.42％，年龄调整死亡率上升11.56％。2000年癌症发病人数约180-200万，死亡140-150万。恶性肿瘤发病率全国35岁至39岁年龄段为87.07/10万，40岁至44岁年龄段几乎翻番，达到154.53/10万；50岁以上人群发病占全部发病的80％以上，60岁以上癌症发病率超过1％，80岁达到高峰。全国肿瘤死亡率为180.54/10万，每年因癌症死亡病例达270万例。我国居民因癌症死亡的几率是13％[赫捷,陈万青.(2012).2012中国肿瘤登记年报.军事医学科学出版社:18-28.,McBride,D.J.and A.K.Orpana,et al.(2010)."Use of cancer-specific genomic rearrangements to quantify disease burden in plasma from patients with solid tumors."Genes Chromosomes Cancer 49(11):1062-1069.]。癌症不仅严重影响劳动人民的健康，而且成为医疗费用上涨的重要因素。我国每年耗费大量资金用于癌症病人的医疗费用，带来巨大的经济负担。

近年来，肺癌成为全球发病率和死亡率最高的癌种。在我国，肺癌为全国发病率和死亡率最高的恶性肿瘤，其发病率为53.57/10万，死亡率为45.57/10万，男性高于女性。其中80％以上为非小细胞肺癌(NSCLC)、其余为小细胞肺癌(SCLC)。不同类型的肺癌对治疗的反应不同，需要针对病理分期和组织学分型选择最佳治疗方案。如，EGFR突变阳性肿瘤对厄洛替尼或吉非替尼有较好敏感性而对其他化疗药物敏感性较差。而临床上进行病理分期和组织学分型常采用纵隔镜、胸腔镜、PET/CT扫描、MRI、组织穿刺活检等方法，不仅对患者造成创伤，而且操作繁琐、分辨率有限。

患者血液中，含有组织细胞释放的游离的DNA(cell-free DNA，cfDNA)，其中包含肿瘤组织释放的肿瘤DNA(circulating tumor DNA，ctDNA)，癌症患者血浆游离DNA含有与肿瘤相关的多种突变基因。研究表明，ctDNA的平均长度为140-170bp，其基因突变情况能直接或者辅助临床反映肿瘤的进展情况。随着第二代测序技术的发展，基于基因组变异检测外周血样本的测序技术已经应用于产前诊断等临床层面。

Complete Genomics(CG)测序是一种新的二代测序技术，它采用高密度DNA纳米芯片技术，在芯片上嵌入DNA纳米球，用非连续、非连锁联合探针锚定(cPAL)技术读取序列。HapMap计划中一位Caucasian男性和一位Yoruban女性基因组利用CG技术进行重测序，检测出94％该计划报道的SNP位点，其一致性达99.15％。同时与ILLUMINA测序SNP 分析结果相比，检测出其96％SNP位点，一致性高达99.88％。CG测序可避免测序中错误的积累，其准确性较合成法和连接法测序高，可达99.999％。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种商业选择。

依据本发明的一方面，本发明提供一种确定肿瘤核酸含量的方法，所述肿瘤核酸来自体液样本，所述体液样本包含游离核酸，所述游离核酸包括肿瘤核酸和非肿瘤核酸，所述方法包括：对所述游离核酸的至少一部分进行序列测定，获得测定数据，所述测定数据包括多个读段；基于所述测定数据，检测所述游离核酸中的变异位点；筛选出突变频率与阴性对照样本中相同位点的突变频率具有显著差异的变异位点，获得肿瘤变异位点；基于所有所述肿瘤变异位点的支持读段量，确定所述体液样本中的肿瘤核酸含量。所说的序列测定包括，对所述游离核酸的至少一部分进行测序文库构建，获得测序文库，以及对所述测序文库进行测序，获得测定数据。测序可选用的测序平台包括但不限于Complete Genomics公司(CG)的CGA、Illumina的Hiseq2000/2500、Life Technologies的Ion Torrent和Roche454测序平台，依据所选测序平台进行相应的测序文库制备，接着将测序文库上机测序，就能获得所说的测定数据。

在本发明的一个实施例中，利用CG的文库构建方法及测序平台来获得测定数据，CG平台通过酶切构建多接头配对末端文库，利用特有的组合探针连接测序(cPAL)技术对所构建的环状文库进行测序，测读出接头两旁的碱基，因为其是利用酶切连接一个接头的两段来进行配对末端文库构建的，由于每一种酶都有一个首选的切割距离，而在实际酶切时经常比首选距离多一个位置或少一个位置，这样使得读段中经常带有缺口(gap)，缺口常为+1nt或者-1nt，和/或，建库时倘若使用同一种酶多次酶切，每次的酶切位置易发生变化，酶切位置的变化也会使获得的读段带有缺口，例如在构建多接头单链环状文库时，利用Alu酶两次酶切来连接多个接头的不同部分，读测这些接头旁的碱基时，会产生带+3/-3的缺口的读段，文库构建可参考US7897344，获得多接头单链环状文库。读段带负缺口显示为该读段的两部分的末端有重叠，读段带正缺口显示为该读段的两部分的末端非连续。在本发明中，所说的缺口的大小还可以是0。以CG平台目前的双接头(two adaptors,2-AD)测序文库为例，2-AD测序输出总长为60bp，可分为两对读段对(mate-paired reads)，每对读段对中的读段在10bp的位置都有小的gap，在20bp位置有一个无效测序位点N，一对读段对的两个读段之间在基因组上的距离一般小于2000bp。来自多接头文库中的多个读段，一个读段可以和任一其它读段组成一对读段对。在本发明的一个实施例中，对于血液样本中的游离核酸，通过参考改进CG的建库技术，利用一个接头的两部分分别连接于一段核酸片段(插入片段)的两端，单链分离，单链成环，获得1-接头单链环状文库，该1-接头单链环状文库由所述核酸片段的一条链和连接所述一条链的两端的一个预定DNA序列构成，滚环扩增形成DNA纳米球(DNB)，利用CG测序cPAL技术对DNB进行测序，关于DNB种植在芯片上以及cPAL技术可分别参考US8278039B2和US8518640B2。所说的预定DNA序列为已知序列，为所说的接头或者接头的一条链。对所述单链单接头环状文库进行测序，获得测定数据，测定数据包含多对读段对，一对读段对包含两个读段，两个读段分别来自所述单接头环状单链文库的接头两旁序列，两个读段在文库上的距离即为插入片段的大小，将一对读段对的两个读段分别称为左臂和右臂。构建所述单接头环状单链文库，包括：(1)对所述游离核酸进行末端磷酸化，获得末端磷酸化产物；(2)末端修复所述末端磷酸化产物，获得末端修复产物；(3)将第一序列和第二序列连接至所述末端修复产物的两端，获得第一连接产物；(4)利用第三序列对所述连接产物进行缺刻平移和扩增，获得扩增产物，所述第三序列为一对引物对，所述引物对的至少一条引物带有生物素标记；(5)利用所述生物素标记对所述扩增产物进行单链分离，获得单链产物；(6)利用第四序列环化所述单链产物，获得所述测序文库；其中，所述第四序列能够连接所述第一序列的一端和所述第二序列的一端，所述第一序列和/或所述第二序列的另一端为双脱氧核苷酸，其中的步骤(1)和(2)无顺序限制。末端修复是为获得平末端核酸片段，使得能够连接其它核苷酸或序列。末端磷酸化是为了减少样本核酸片段的互相连接，使得核酸含量很低的样本也能够进行文库构建且满足文库上机量要求。根据CG建库方式不同，每次测序能产生的数据量也不同，例如采用所说的改进的1-adapter文库能产生1080G数据，相当于360个人全基因组的数据量，远大于ILLUMINA、proton等测序平台。CG其更高通量的特点使每个基因组测序的费用低至1000美元，并且还在不断降低[Drmanac,R.and A.B.Sparks,et al.(2010)."Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays."science327(5961):78-81.]。利用CG测序对肿瘤血浆样本基因突变进行检测，是一种经济、准确、对患者创伤小或无创的检测技术，具有很高的推广价值，将被广泛应用在临床疾病的筛查、治疗和监控中。单接头环状单链文库如图1所示，单接头建库量较小，适合cfDNA含量较少的情况，此外还有建库时间短及建库成本低的优点。所说的第四序列能够连接第一序列和的第二序列形成所说的接头，缺刻平移是为消除连接在末端修复产物两端的第一序列和/或第二序列的另一端的双脱氧核苷酸造成的缺刻(nick)，利用至少一条引物带有生物素标记使扩增产物的至少一条链带有生物素标记，使后续易于基于该生物素标记分离获得单链产物。在本发明的一个实施例中，对构建的文库进行测序是利用组合探针锚定连接测序技术进行的，例如利用CG测序平台进行。

在本发明的一个实施例中，利用CG平台获得测定数据之后，所述基于测定数据检测所述游离核酸中的变异位点，包括：将所述测定数据与参考序列进行比对，获得比对结果；消除所述比对结果中的读段的缺口，获得通用比对结果；基于所述通用比对结果，检测所述变异位点；其中，所述比对结果和/或通用比对结果包括多个所述读段对的比对结果，和/或，所述比对结果和/或通用比对结果包括多个所述左臂的比对结果和多个所述右臂的比对结果。比对可以利用已知比对软件进行，比如SOAP、BWA等，也可以利用CG平台的比对软件TeraMap进行。在本发明的一个实施例中，比对是利用TeraMap进行的，所得的比对结果的格式为TeraMap。在本发明的一个实施例中，所说的消除比对结果中读段的缺口是指，对带负缺口的读段去除掉其负缺口即去除掉重叠的碱基，对带正缺口的读段以N替代正缺口的大小，N为A、T、C或G，例如，对带负缺口比如为-2nt的读段，基于缺口处该读段可分成两部分，两部分的末端有2nt重叠，比如该读段的两部分分别为ATCGCTTAAG和AGTACGATTC，消除其负缺口即重叠的AG，获得对应的读段为ATCGCTTAAGTACGATTC。

在本发明的一个实施例中，所说的比对包括：将每对读段对的左臂和右臂分别与所述参考序列比对，获得一级左比对结果和一级右比对结果；分别以所述一级左比对结果和所述一级右比对结果的其中一个为参考，对另一个作比对，获得二级左比对结果和二级右比对结果；基于所述二级左比对结果和所述二级右比对结果，获得多个所述读段对的比对结果，或者获得多个所述左臂的比对结果和多个所述右臂的比对结果。这样经过两次比对，可以获得准确的读段对比对结果，在本发明的一个实施例中，第一次比对是与参考序列作全局比对，以该次左臂/右臂比对结果为基准对右臂/左臂比对结果进行的第二次比对为局部比对，这样，能够将分别来自二级左比对结果和二级右比对结果中的比对到同一参考染色体上且之间的距离符合预期的两个读段配对成一对读段对，获得读段对比对结果。

在本发明的一个实施例中，所说的比对包括，设置读段的缺口的大小以使每个左臂或者每个右臂与所述参考序列进行多次比对，获得多次比对结果进而获得最佳比对结果。例如，将所述每个左臂或者所述每个右臂的缺口分别设置为-3nt、-2nt、-1nt、0nt、1nt、2nt、3nt、4nt、5nt、6nt和7nt，获得对应的多个读段，分别将所述对应的多个读段与所述参考序列比对，将最优比对的序列作为该左臂/右臂，这里对于比对结果的好坏可以基于所利用的比对软件对比对结果的默认评判。

在本发明的一个实施例中，在消除比对结果中的读段的缺口之前，提取所述比对结果中的唯一比对结果以替换所述比对结果，所述唯一比对结果包括唯一比对上所述参考序列的多个读段对，并且每一所述读段对比对到所述参考序列的相同染色体，每一所述读段对中的两个读段在参考序列上的距离符合预期的其来自的位置之间的距离，例如读段对来自前述的单接头环状单链文库时，两个读段在参考序列上的距离符合插入片段的大小。

在本发明的一个实施例中，修正所述唯一比对结果，使所述唯一比对结果中的每一对读段对比对到所述参考序列的相同染色体的正链。这里所说的“正链”和“负链”是互补的两条链，是相对的，称一条链为正链就可以称其互补链为负链，在本发明的一个实施例中，将与参考序列匹配的链称为正链，将另一条链称为负链。例如，对于分别比对上同一参考染色体的正负链的一对读段，将比对上负链的读段变成其反向互补链，这样以其反向互补链来替代该读段得以实现所说的修正。

在本发明的一个实施例中，对所述比对结果或所述唯一比对结果进行数据格式转换。在本发明的一个实施例中，希望通用比对结果的格式为SAM或BAM，以利于后续的基于比对结果或唯一比对结果对数据进一步分析，SAM或BAM是常见的二进制格式，BAM是SAM的压缩格式。由于利用不同的比对软件，可能输出的比对结果或者唯一比对结果的格式不适用于现有的后续数据处理或者分析软件程序，例如前述的TeraMap格式的比对结果，其输出的数据格式不满足现有的大部分变异检测软件SOAPsnp、GATK或SOAPindel等对输入数据格式的要求，转换数据格式使获得具有通用数据格式的通用比对结果，便于对比对数据进一步分析处理。

所检测的变异位点包括CNV和SNP。基于通用比对结果检测SNP可以利用目前已知的SNP检测方法和/或软件，比如利用SOAP2、samtools、GATK等。在本发明的一个实施例中，使用开源软件samtools对通用比对结果(bam文件)进行预处理，包括排序、去除由于建库PCR产生的重复reads等，之后使用samtools mpileup和/或GATK开源软件得到SNP结果，并用开源软件bcftools转换为vcf格式。相比其他工具Samtools操作简单，输出格式通用，在大数据处理过程中可以使用多线程提高效率。这里的基于通用比对结果的SNP检测方法，包括开发数据格式转换软件(TeraMap2Sam)获得通用比对结果，准确处理掉测定数据中的gap、将CG平台TeraMap的比对结果转化为通用的SAM格式，使后续能够直接使用Samtools，GATK等众多优秀的开源软件进行变异检测，使后续分析的选择更加广泛。利用本发明的SNP检测方法，包括使用samtools软件做SNP分析简单通用、速度快且可信度高。

基于通用比对结果检测CNV可以利用目前已知的CNV检测方法，比如利用隐马可夫模型、环状二元分割、等级分割或核平滑算法等。在本发明的一个实施例中，检测CNV包括：在参考序列上设置多个窗口，基于所述通用比对结果中到所述窗口的读段的量与对照样本的通用比对结果中匹配到相同窗口的读段的量的差异具有显著性，判定所述待测样本核酸存在所述CNV，其中，所述窗口为所述参考序列的一部分。其中，窗口的大小可依据预检测的CNV的大小来调整设置，对照样本的通用比对结果可以参照前述待测体液样本的通用比对结果的获得方式来获得，差异是否为显著性的判断可以利用统计检验比如z-score(标准分数)计算z值来进行，当z值大于或小于某一预定阈值时则判定该窗口区域存在CNV，比如正常对照为二倍体(CNV＝2)，当z值为正数时说明待测样本的该窗口的 CNV>2，为负数则说明待测样本的该窗口的CNV<2，在本发明的一个实施例中，设定预定阈值为3，即当z值得绝对值大于3时则确定该窗口发生CNV。所说的匹配即为比对上。所说的读段的量可以为一个数目，也可以为一个比值，例如，也可以基于待测样本的窗口的测序深度与对照样本相应窗口的测序深度的差异，使用z-score(标准分数)进行检验检测出拷贝数变异，所说的窗口的测序深度＝比对到该窗口的读段的量/该窗口的大小。在本发明的一个实施例中，考虑到实际测序过程中读段(reads)中GC含量会对测序深度有一定的影响[Alkan,Can,Jeffrey M Kidd,Tomas Marques-Bonet,Gozde Aksay,Francesca Antonacci,Fereydoun Hormozdiari,Jacob O Kitzman,et al.“Personalized Copy Number and Segmental Duplication Maps Using next-Generation Sequencing.”Nature Genetics 41,no.10(October 2009):1061–67]，先进行GC含量校正，消除GC含量对测序深度的影响。所说的GC含量校正，可以利用多个对照样本的测序数据，取多个窗口算窗口的GC含量和平均测序深度，对GC-测序深度的数据进行二维回归分析，例如利用局部加权回归散点平滑法(lowess回归)建立二者的关系，根据回归得的关系对各个窗口的测序深度进行GC含量校正。所说的测序深度-GC含量关系可以通过以下来建立：获得多个对照样本核酸的测序数据，所述测序数据由多个读段组成；在所述参考序列上设置多个窗口，将所述多个对照样本的测序数据分别与所述参考序列的窗口比对，计算各个对照样本的测序数据中比对上每个窗口的读段的数目，获得每个窗口的测序深度，所述窗口为所述参考序列的一部分，所述窗口的测序深度＝各个对照样本的比对上所述窗口的读段的总数目/(对照样本个数*所述窗口的大小)；基于每个窗口的测序深度和该窗口的GC含量，利用二维回归分析法建立所述测序深度和GC含量的关系。

在本发明的一个实施例中，CNV检测包括：在参考序列上设置多个窗口，计算窗口的测序深度，窗口的测序深度＝所述通用比对结果中比对到所述窗口的读段的数量/所述窗口的大小；利用测序深度和GC含量的关系校正所述窗口的测序深度，获得窗口的校正测序深度；基于所述窗口的校正测序深度与对照样本的相同窗口的校正测序深度的差异具有显著性，判定所述体液样本核酸存在CNV，其中，所述窗口为所述参考序列的一部分。较佳地，前述的对照样本的个数不小于30个，样本数目达到30个使样本数据呈现满足特定分布符合适于利用多数统计检验方法来检验，例如，利用t检验、z检验等来统计检验一般要求多个样本数据符合正态分布。所说的对照样本的相同窗口的校正测序深度是利用所述测序深度-GC含量关系校正对照样本的相同窗口的测序深度获得的，所述对照样本的相同窗口的测序深度＝所述对照样本的测序数据中比对到所述窗口的读段的数目/所述窗口的大小。前述对照样本的测序数据、比对结果等可以通过参照前述本发明一方面的或者任一具体实施方式中的测序数据处理方法获得，可以与待测样本的测序数据、比对结果同时获得，也可以预先获得保存备用。利用前述的CNV检测方法开发的CNV检测程序基于标准分数方法做CNV分析，速度快，分辨率高。

在本发明的一个实施例中，在所说的体液样本中检测出来的变异位点，或者，所说的“支持”指比对上该位点的读段的对应位置的碱基与该位点变异碱基一样，例如，变异位点K为T/C，参考序列上的该位点碱基为T，该样本核酸中的该位点发生突变变为C，基本上所有比对上该位点的读段的相应位点不是为T碱基就是为C碱基，比对上的读段中相应位点为C的读段即为支持该变异位点K的读段。

在本发明的一个实施例中，筛选出突变频率与阴性对照样本中相同位点的突变频率具有显著差异的变异位点为肿瘤变异位点，该条件是发明人结合目前相关数据库信息、大量文献报道信息、检测统计大量阳性样本和大量阴性样本确定下来的，具有统计意义，较佳的，这里的阳性或者阴性对照样本不少于5个，对照样本的数据可以自己对对照样本的核酸进行提取、序列测定来获得，也可以依照他人已公开或公开数据库中的的样本测序数据，多个对照样本数据使统计判定条件/结果具有统计意义，更加可信。筛选确定来自肿瘤的变异位点，和/或基于肿瘤变异位点估计样本中的肿瘤核酸含量，可以辅助用于临床的肿瘤诊断筛查，辅助用于了解所测样本个体癌变的可能性及病情发展情况等。需要说明的是，所说的突变频率具有显著差异指具有实质差异，例如对于待测样本中的变异位点A，多个阳性样本(cancer样本)中的reads支持比例都为5/400(变异5条reads，总400条reads)，即阳性样本中该位点的平均变异频率1.25％，而在多个阴性对照样本中的reads支持比例都为1/200(变异1条reads，总200条reads)，即阴性对照样本中的平均变异频率0.5％，若待测样本中的该变异位点的变异频率更接近1.25％，例如达到0.9％，则达到所说的显著差异或者所说的实质差异。具有显著差异，也可以指统计学上的对数据差异性的评价——差异具有显著性，例如对待测样本中的变异位点A进行多次检测，获得该位点的多组比对结果数据，从每组比对结果数据中都可获得一个突变频率，所说的突变频率＝支持该变异位点的读段数/比对上该位点的总读段数，接着比较待测样本的变异位点A的突变频率与阴性对照样本中的该位点的突变频率的差异，例如可以利用z检验或t检验，差异具有显著性(p≤0.05)，即认为达到所说的具有显著差异。在本发明的一个实施例，对8个阳性样本进行检测，筛选出其共有的高频突变，当所测样本也包含该突变而且其突变频率不小于这8个阳性样本中的该位点的最小突变频率或80％的最小突变频率时，则确定该突变来自肿瘤细胞/ 组织。

在本发明的一个实施例中，依据所有的来自肿瘤的变异位点的读段支持量，计算所测体液样本中的来自肿瘤的游离核酸含量，所说的读段支持量，可以为支持该变异的读段的数目，也可以是支持该变异的读段所占的比例。所说的或者，所述这里的变异位点为SNP。临床上，癌症患者的ctDNA主要来源于肿瘤细胞分泌、凋亡或坏死，其浓度平均可达180ng/ml，是正常人的20倍以上，因此利用本发明这一方面的方法，检测外周血ctDNA的突变及其含量变化，可以应用于或者辅助应用于以下方面：肿瘤的早期诊断检测、遗传杂合性评估、反映肿瘤动态变化、靶向治疗基因突变分析、肿瘤早期治疗反应评价、肿瘤微量残留检测和肿瘤耐药性实时检测，相对于传统的检测定量方法，本发明的这一方法具有如下优势：1)微创性，只需受检者提供外周血血浆样本和/或唾液样本；2)高灵敏度，不受限制于病灶大小，3)高准确性和4)高通量，可一次检测多个样本的变异和/或定量肿瘤核酸含量。

依据本发明的另一方面，本发明提供一种确定肿瘤核酸含量的装置，所述肿瘤核酸来自体液样本，所述体液样本包含游离核酸，所述游离核酸包括肿瘤核酸和非肿瘤核酸，所述装置用以实现上述本发明一方面的或者任一具体实施方式的确定肿瘤核酸含量的方法的部分或全部步骤，所述装置包括：数据输入单元，用以接收所述游离核酸的测定数据，所述测定数据包括多个读段，所述测定数据是通过对所述游离核酸的至少一部分进行序列测定获得的；数据输出单元，用以输出数据，包括所述肿瘤核酸含量；存储单元，用于存储数据，其中包括可执行的程序；处理器，与所述数据输入单元、数据输出单元及存储单元数据连接，用于执行所述可执行的程序，所述程序的执行包括本发明上一方面或者其任一具体实施方式中的确定肿瘤核酸含量的方法。上述对本发明一方面的方法的优点和技术特征的描述，同样适用本发明这一方面俄装置，在此不再赘述。

依据本发明的再一方面，提供一种计算机可读存储介质，用于存储供计算机执行的程序，所述程序的执行包括完成本发明一方面或者其任一具体实施方式中的确定肿瘤核酸含量的方法。前述对本发明的确定肿瘤核酸含量的方法的优点和技术特征的描述也适用于该计算机可读存储介质，在此不再赘述。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的一个实施例中的单接头环状单链文库的结构示意图；

图2是本发明的一个实施例中的单接头环状单链文库构建和测序流程图；

图3是本发明的一个实施例中的Teramap2Sam软件的算法流程图；

图4是本发明的一个实施例中的SNP检测流程图；

图5是本发明的一个实施例中的八例肺癌患者的cfDNA中的BRAF基因V600E突变的突变频率示意图；

图6是本发明的一个实施例中的四个个体的外周血的肿瘤浓度在不同治疗阶段的变化示意图；

图7是本发明的一个实施例中的监测一个个体的肿瘤药物敏感以及耐药突变EGFR基因L821X变异和T790M变异的突变频率随着治疗进程实时变化的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。需要说明的是在本文中所使用的术语“第一”、“第二”、“第三”、“第四”或者“一级”、“二级”等仅为方便描述指代，而不能理解为指示或暗示相对重要性，也不能理解为之间有先后顺序关系。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以下实施例仅用于说明本发明的优选实施方式，实施例中未注明具体操作手段或条件的，可以按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂、仪器或软件未注明生产厂商者或来源途径的，均为可以通过市购获得的常规产品、服务或是开源的。

实施例一

以下以肺癌患者的外周血血浆作为检测对象，样本来自西南医院，进行如下检测：

(一)文库建立及测序

建库及测序流程如图2所示，以下涉及的具体序列，都是从左到右为5’端至3’端，序列中的“//”中为末端修饰基团，“phos”表示磷酸化，“dd”表示双脱氧，“bio”表示生物素。

1、cfDNA的提取(采用SnoMag Circulating DNA Kit)：

1)取200ul血浆于1.5mlEP管，加入600ul buffer LSB。

2)加入20μlNanoMag Circulating Beads混匀，室温放置10min，每2-3min混匀一次。

3)将EP管置于磁力架上吸附1min，弃上清。

4)取下EP管加入150uL Buffer WA，混匀。

5)将EP管置于磁力架上吸附1min，弃上清。

6)取下EP管加入150uL 75％乙醇，混匀。

7)将EP管置于磁力架上吸附1min，弃上清。

8)重复6-7一次。

9)室温干燥磁珠5min。

10)加入32ul elution buffer混匀磁珠，室温静置5min。

11)将EP管置于磁力架上吸附1min，转移上清至新的1.5mlEP管。

2、文库的构建：

1)rSAP去磷酸化反应

cfDNA	30ul
cfDNA	30ul	10x NEBuffer 2	3.5ul
rSAP(1U/ul)	1.5ul	10x NEBuffer 2	3.5ul
rSAP(1U/ul)	1.5ul	Total	35ul

反应条件：

2)T4 DNA Polymerase末端补平

反应条件：

12℃	20min
12℃	20min	4℃	hold

60ul AmpureXP beads纯化以上反应产物，22ulElution buffer洗脱。

3)第一序列和第二序列分别连接到末端补平的DNA片段的两端

反应条件：

40ul AmpureXP

20℃	15min
20℃	15min	4℃	hold

beads纯化以上反应产物,

22ulElution buffer洗脱。

第一序列的两条链为：TTGGCCTCCGACT/3-ddT/(SEQ ID NO：1)，

/5phos/AAGTCGGAGGCCAAGCGGTCGT/ddC/(SEQ ID NO：2)。

第二序列的两条链分别为：/5Phos/GTCTCCAGTCGAAGCCCGACG/3ddC/(SEQ ID NO：3)，GCTTCGACTGGAGA/3ddC/(SEQ ID NO：4)。

4)缺刻平移(Nick Translation)

第三序列中的上游引物/5-bio/TCCTAAGACCGCTTGGCCTCCGACT(SEQ ID NO：5)，

第三序列中的下游引物

5Phos/AGACAAGCTCxxxxxxxxxxGATCGGGCTTCGACTGGAGAC(SEQ ID NO：6)，中间“x”处为可变的标签序列区域，可以以N替代，N为A、T、C或G，当没有其它样本文库一起混合上机，只有一个样本文库上机，不需要标签序列，即第三序列可为5Phos/AGACAAGCTCGATCGGGCTTCGACTGGAGAC(SEQ ID NO：7)，在该示例中，由于是肿瘤游离核酸样本，混合核酸中的目标核酸(ctDNA)含量低，若多个这样的样本文库混合上机获得混合数据，需要拆分混合数据对应到各自样本，会损失一部分数据，且构建的是单接头环状文库读段相对短，要准确检测变异需要深度测序获得相对大量的测定数据，较佳的，单个样本文库上机。

反应条件：

60℃	5min
60℃	5min	37℃	0.1℃/secs-hold

向上步反应物中加入如下8ul Nick Translation mix

反应条件：

37℃	20min
37℃	20min	4℃	hold

40ul AmpureXP beads纯化以上反应产物,37.4ulElution buffer洗脱。

5)PCR with Pfx

反应条件：

50ul AmpureXP beads纯化以上反应产物，22ulElution buffer洗脱。

6)Qubit定量

利用Qubit dsDNA HS assay kit对PCR产物进行浓度测定。

7)链分离(Strand Separation)

a)多个文库混合，使DNA共约160ng。样品补1xTE至总体积为60ul。

b)提前准备以下试剂：4X BBB，Streptavidin Beads，0.3M MOPS acid，0.5％Tween20，1X BBB/Tween Mix，1X BWB/Tween Mix，0.1M NaOH。其中1X BWB/Tween Mix、0.1M NaOH，Streptavidin Beads需现配现用。

c)提前15min配置以下四种试剂

0.5％Tween20，1X BBB/Tween Mix，1X BWB/Tween Mix，0.1M NaOH.

其中0.5％Tween20配置方法同前述，其他三种配置方法如下：

d)1X BBB/Tween Mix

1X BBB

30ul

0.5％Tween20	0.3ul
0.5％Tween20	0.3ul	Total	30.3ul

e)1X BWB/Tween Mix

1X BWB	2000ul
1X BWB	2000ul	0.5％Tween20	20ul
Total	2020ul	0.5％Tween20	20ul

f)0.1M NaOH

0.5M NaOH	15.6ul
0.5M NaOH	15.6ul	Water	62.40ul
Total	78.0ul	Water	62.40ul

g)Streptavidin Beads洗涤方法如下：

·每个样品取30ul Streptavidin Beads：加入3-5倍体积的1XBBB，混匀后置于磁力架上静止吸附，调整不粘管的方向，使得beads在1XBBB洗液中前后游动，弃上清液后，重复上述操作一次，

·取出不黏管加入1倍体积(30ul)1X BBB/Tween Mix悬浮，混匀后室温静置。

h)向60ulPCR产物样品中加入20ul 4XBBB混匀，然后转移到上步骤含有30ul1X BBB/Tween Mix溶解的beads的不粘管中混匀，此110ul混合物室温下结合15-20min，中间轻轻弹匀一次。

i)将上述不粘管磁力架放置3-5min，弃去上清液，用1ml的1X BWB/Tween Mix洗涤2次，方法同Streptavidin Beads的洗涤方法

j)向上述beads中加入26ul 0.1M NaOH，吹打混匀后放置10min，再置于磁力架上3-5min，取上清到新的1.5ml EP管中。

k)向上述1.5mlEP管中加入13ul 0.3M MOPS，混匀备用。

l)此步骤产物可以冻存于-20℃。

8)环化(Splint Circulation)

a)向上一步得到的39ul的样品中加入10ul的20uM第四序列，第四序列为TCGAGCTTGTCTTCCTAAGACCGC(SEQ ID NO：8)；

b)提前5分钟准备连接酶反应混合液，配制如下：

Water	4.2ul
Water	4.2ul	10x TA Buffer(LK1)	6ul
100mM ATP	0.6ul	10x TA Buffer(LK1)	6ul
100mM ATP	0.6ul	600U/ul Ligase	0.2ul
Total	11ul	600U/ul Ligase	0.2ul

c)将连接酶反应混合液震荡充分混匀，离心后，向已经加入引物反应混合液的EP管中加入连接酶反应混合液11ul，震荡10s混匀，瞬时离心。

d)置于PCR仪中37℃孵育1.5h。

e)反应完成后，取出5ul样品，待6％变性胶电泳检测，剩余的约55ul体积，进入下一步酶反应。

9)酶切消化(Exo I and III)

a)提前5分钟左右准备引物反应混合液，配制如下：

10x TA Buffer(LK1)	1ul
10x TA Buffer(LK1)	1ul	20U/ul Exo I	3ul
200/ul Exo III	1ul	20U/ul Exo I	3ul
200/ul Exo III	1ul	Total	5ul

b)将上述混合液震荡充分混匀，离心后，向上一步得到的55ul的样品中分别加入5ul的反应混合液；

c)震荡10s混匀离心，置于PCR仪中37℃孵育30min。

d)酶切30min完成后，向样品中加入2.5ul 500mM EDTA终止酶反应。

e)上述样品用PEG32 beads/tween20纯化，方法如下：

将上步骤样品59ul转移到1.5ml不粘管中，加入78ul的PEG32 beads/tween20(PEG32beads：tween20＝100:1)，室温结合15min，期间吹打混匀一次；

f)不粘管置于磁力架3-5min后弃去上清，用700ul 75％乙醇洗涤两次，洗涤时将不粘管前后方向反转，使得beads在乙醇中游动，每次洗涤游动2-3次；

g)室温下晾干后用27ul TE/tween20回溶(TE:tween20＝500:1)，溶解时间共计15min，中间混匀一次；

h)上清转移到新的1.5mlEP管中，将最终得到产物用Qubit^TMssDNA Assay Kit定量。Buffer与染料比例为199:1混匀后votex并离心混合备用，取两份190ul稀释后染料工作液分别加入10ul的两种标准品votex并离心混合备用，取198ul稀释后染料工作液加入2ul样品，votex后并离心进行Qubit仪器定量。

i)浓度标准化(Normalization)

按照单链分子定量测定的浓度调整DNB制备使用的样本起始量统一调整为35.3ng－53ng，将对应体积样本(<60ul)转移至Biorad PCR板中，使用1XTE补齐使总体积不超过120ul。

终浓度为5.625-7.5fmol/ul，体积为120ul，则总量为35.3ng-53ng，1 adapter测序中的DNB需要120fmol，7.5foml/ul，16ul。故需要把文库稀释至7.5fmol/ul。

10)CG 1-Adapter测序

利用CG平台的标准化流程测序。DNA纳米芯片是CG独创的一种高通量测序技术。该示例的对改进的单接头测序文库进行测序，较其他测序方案成本更低、速度更快，并集成质控确保其测序质量。

实施例二

对实施例一的下机数据进行处理。利用本发明的方法，基于CG平台测序技术，可以对超微量的cfDNA进行富集，文库建立、测序和数据分析工作。在该示例中，由于CG测序原理的特殊性，其测序的reads较短，且在特定位置存在重测序以及小gap的现象，难以不处理直接使用普通的比对软件对测序结果进行比对。针对reads的特殊结构，我们使用CG平台专有的TeraMap进行比对，其工作原理是：首先，它将读长中的两端(LeftArm，RightArm)分别做比对，其间TeraMap会尝试多种gap值来处理读长，以获得更多的比对结果；然后，将每一端的比对结果拿出来作为参考，对另一端做局部比对(例如4-AD，局部比对的范围是0～700bp)；如果两端可以良好比对到同一染色体，且insert-size(插入片段)符合期望(例如4-AD，一读段对的两读段的距离为0～700bp)，则只输出最佳比对结果，否则两端的多个比对结果全部输出。TeraMap是CG测序平台的比对软件，它可将CG特有序列比对到参考基因组上，其输出格式由三部分组成，简要说明如下：第一行，是reads序列信息；第二行和第三行，是reads比对情况说明；第四行和第五行，是reads比对结果详细信息。

第一行：

列号	字段	类型	简介
列号	字段	类型	简介	1	QNAME	字符串	参考序列编号
2	POS	整型	比对到参考序列的位置	1	QNAME	字符串	参考序列编号
2	POS	整型	比对到参考序列的位置	3	SEQ	字符串	比对片段的序列信息

第二行：

第四行：

因为TeraMap比对存在gap问题，使得无法进行下游分析，依据本发明的方法开发Teramap2Sam软件，将TeraMap比对结果中gap去除并转换为SAM(sequence alignment/map format)。Teramap2Sam软件的主要流程可分为三部分，算法流程图如图3所示。

第一步：提取唯一比对结果。根据TeraMap输出结果matchCount判定是否唯一比对，同时要求插入片段长度满足要求以及两端read比对在用一条参考序列上。

第二步：去除gap。根据gaps字段判定reads中的gap位置，并修正read序列。

第三步：计算FLAG。根据双端read的比对方向，计算SAM文件中的FLAG参数，获得比对情况。

SAM是存储比对信息的一种较通用的格式，每一行是一个reads的比对结果，主要由十一个字段组成，其后还可添加更多字段包含更多信息，比如XT:A:U就是表示此reads为unique比对。简要说明如下：

在实际使用中为了节约存储资源，主要使用其二进制压缩格式(BAM)。此外CG又针对其reads结构开发了Assembly Software将reads重新组装，组装完成后进行变异检测分析等后续工作。

由于CG单接头reads的特殊结构存在reads太短(最短12bp)的缺点，在一些特殊数据的处理中CG原有的突变检测工具不再适用或者检测结果不佳。针对这种情况，我们首先开发工具将TeraMap的比对结果转化为通用的SAM/BAM格式，其中SAM/BAM是高通量测序中普遍使用的比对结果格式，所以我们采用这种通用的格式，然后再使用BAM数据检测SNP变异。SNP检测可以利用已知开源软件，比如利用SOAP2、samtools、GATK等。在该示例中使用开源软件samtools对通用比对结果(SAM格式的bam文件)进行预处理，包括排序、去除由于建库PCR产生的重复reads等，之后使用samtools mpileup和/或GATK开源软件得到SNP结果，并用开源软件bcftools转换为vcf格式。相比其他工具Samtools操作简单，输出格式通用，在大数据处理过程中可以使用多线程提高效率，速度快可信度高。

较之传统方法，我们使用的基于CG单接头测序的方法可以实现超微量建库测序，建库只需要1-10ng核酸，需要外周血量2-5ml，并且CG的标准化流程简单快速，TeraMap比对结果转换为SAM格式之后比闭源的TeraMap格式更加通用，可以使用Samtools等软件进行处理。该示例中利用TeraMap进行比对。测序完成后使用CG平台的集成工具makeADF得到原始reads，然后用TeraMap进行比对，将测序得到的reads比对的参考序列上。得到的比对结果使用TeraMap2Sam转换为通用的SAM格式，接着利用Samtools等软件进行SNP检测，检测流程如图4所示，结果见表1。

表1

BAM(排序并去重)	198Gb/4h20min
BAM(排序并去重)	198Gb/4h20min	SNP(vcf)	3.1Gb/2h38min
测序深度	85.62X	SNP(vcf)	3.1Gb/2h38min
测序深度	85.62X	1X深度以上覆盖度	91.66％
5X深度以上覆盖度	89.97％	1X深度以上覆盖度	91.66％
5X深度以上覆盖度	89.97％	10X深度以上覆盖度	87.85％
1X深度以上CDS区域覆盖度	99.67％	10X深度以上覆盖度	87.85％
1X深度以上CDS区域覆盖度	99.67％	5X深度以上CDS区域覆盖度	98.37％
10X深度以上CDS区域覆盖度	96.04％	5X深度以上CDS区域覆盖度	98.37％
10X深度以上CDS区域覆盖度	96.04％	总共检测到的肿瘤体细胞SNP数量	26533

目前已有的拷贝数变异检测方法有隐马可夫模型、环状二元分割、等级分割、核平滑算法等。我们基于格式为SAM/BAM的通用比对结果，根据总长达1,000,000bp的多个窗口的reads深度分布，使用z-score(标准分数)得到拷贝数变异结果。

考虑到实际测序过程中reads中GC含量会对测序深度有一定的影响，我们对比对结果(BAM)进行GC含量校正，消除GC含量对深度的影响。具体的，取总长达1,000,000bp的多个窗口算窗口的GC含量和平均测序深度，对GC-测序深度的数据进行lowess回归，根据回归曲线对GC含量进行校正。

标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为：z＝(x-μ)/σ。其中x为某一具体分数，μ为平均数，σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。在该示例中，通过对2000bp窗口内reads计数(原始分数)和总体reads平均值(多个正常对照样本)之间的距离使用标准差进行度量，可以有效检测出拷贝数变异。Z值为正数时反应为拷贝数大于2(正常样本是2倍体)，比如重复，z值为负数时反应拷贝数小于2，比如缺失。将该实施例中的上述的CNV检测方法编写成程序，并将该程序命名为calcu_zscore_query，将z绝对值大于3的区域判断为发生CNV。

使用z-score(标准分数)可以快速检测出CNV，50乘全基因组数据的CNV分析只需4小时，作为对比，CONTRA软件[http://sourceforge.net/projects/contra-cnv/]需要1天以上时间。

该示例中利用TeraMap进行比对。测序完成后使用CG平台的集成工具makeADF得到原始reads，然后用TeraMap进行比对，将测序得到的reads比对的参考序列上。得到的比对结果使用TeraMap2Sam转换为通用的SAM格式，接着利用上述方法检测CNV，表2展示检测结果。

表2

实施例三

图5是BRAF基因突变V600E在8例(S1-S8)肺癌患者cfDNA的突变频率情况，样本获自西南医院，从图5中的各例患者的该变异的突变频率可看出，BRAF基因V600E突变是该癌阳性样本中共有的高频突变。该突变是临床上有意义的突变，通过检测BRAF基因可筛选EGFR酪氨酸激酶抑制剂(EGFR-TKIs)受益的患者和BRAF基因突变靶向药物受益的患者，该突变在甲状腺癌、结直肠癌以及黑色素瘤患者中，可作为患者诊断的一项指标。

图6示意其中4个个体(P1-P4)的外周血的肿瘤浓度随着治疗进展(T1—T3三个治疗时间段)的变化情况。外周血肿瘤核酸浓度的变化可用于评估或者辅助临床判断治疗效果。

图7反映其中一个个体的肿瘤药物敏感以及耐药突变EGFR基因L821X变异和T790M变异的突变频率随着治疗进程实时改变的监测情况。肿瘤变异的突变频率的改变可用于指导或者辅助指导临床选择用药。

Claims

一种确定肿瘤核酸含量的方法，所述肿瘤核酸来自体液样本，所述体液样本包含游离核酸，所述游离核酸包括肿瘤核酸和非肿瘤核酸，所述方法包括：

对所述游离核酸的至少一部分进行序列测定，获得测定数据，所述测定数据包括多个读段；

基于所述测定数据，检测所述游离核酸中的变异位点；

筛选出突变频率与阴性对照样本中相同位点的突变频率具有显著差异的变异位点，获得肿瘤变异位点；

基于所有所述肿瘤变异位点的支持读段的量，确定所述体液样本中的肿瘤核酸含量。
权利要求1的方法，其特征在于，所述对游离核酸的至少一部分进行序列测定包括，对所述游离核酸的至少一部分进行测序文库构建，获得测序文库，以及

对所述测序文库进行测序，获得测定数据，所述测序文库为单链环状DNA文库。
权利要求2的方法，其特征在于，构建所述单链环状DNA文库，包括，

(1)对所述游离核酸进行末端磷酸化，获得末端磷酸化产物；

(2)末端修复所述末端磷酸化产物，获得末端修复产物；

(3)将第一序列和第二序列连接至所述末端修复产物的两端，获得第一连接产物；

(4)利用第三序列对所述连接产物进行缺刻平移和扩增，获得扩增产物，所述第三序列为一对引物对，所述引物对的至少一条引物带有生物素标记；

(5)利用所述生物素标记对所述扩增产物进行单链分离，获得单链产物；

(6)利用第四序列环化所述单链产物，获得所述测序文库；其中，

所述第四序列能够连接所述第一序列的一端和所述第二序列的一端，所述第一序列和/或所述第二序列的另一端为双脱氧核苷酸。
权利要求2的方法，其特征在于，构建所述单链环状DNA文库，包括，

(a)对所述游离核酸进行末端修复，获得末端修复产物；

(b)末端磷酸化所述末端修复产物，获得末端磷酸化产物；

(c)将第一序列和第二序列连接至所述末端磷酸化产物的两端，获得第一连接产物；

(d)利用第三序列对所述连接产物进行缺刻平移和扩增，获得扩增产物，所述第三序列为一对引物对，所述引物对的至少一条引物带有生物素标记；

(e)利用所述生物素标记对所述扩增产物进行单链分离，获得单链产物；

(f)利用第四序列环化所述单链产物，获得所述测序文库；其中，

所述第四序列能够连接所述第一序列的一端和所述第二序列的一端，所述第一序列和/或所述第二序列的另一端为双脱氧核苷酸。
权利要求2的方法，其特征在于，所述测序利用组合探针锚定连接测序技术进行。
权利要求2-5任一方法，其特征在于，所述测定数据包括多对读段对，每对所述读段对中的两个读段分别来自同一单链环状DNA文库的两个位置，读段带有缺口，将一对读段对的两个读段分别称为左臂和右臂。
权利要求6的方法，其特征在于，所述基于测定数据检测所述游离核酸中的变异位点，包括，

将所述测定数据与参考序列进行比对，获得比对结果；

消除所述比对结果中的每个读段的缺口，获得通用比对结果；

基于所述通用比对结果，检测所述变异位点；其中，

所述比对结果和/或通用比对结果包括多个所述读段对的比对结果，和/或，

所述比对结果和/或通用比对结果包括多个所述左臂的比对结果和多个所述右臂的比对结果。
权利要求7的方法，其特征在于，所述比对包括，

将每对读段对的左臂和右臂分别与所述参考序列比对，获得一级左比对结果和一级右比对结果，

分别以所述一级左比对结果和所述一级右比对结果的其中一个为参考，对另一个作比对，获得二级左比对结果和二级右比对结果，

基于所述二级左比对结果和所述二级右比对结果，获得多个所述读段对的比对结果，或者获得多个所述左臂的比对结果和多个所述右臂的比对结果。
权利要求7的方法，其特征在于，所述比对包括，

设置缺口的大小以使每个左臂或者每个右臂与所述参考序列进行多次比对，包括将每个所述左臂或者所述每个右臂的缺口分别设置为-3nt、-2nt、-1nt、0nt、1nt、2nt、3nt、4nt、5nt、6nt和7nt，获得对应的多个读段，分别将所述对应的多个读段与所述参考序列比对。
权利要求7-9任一方法，其特征在于，所述比对结果的格式为TeraMap。
权利要求7-9任一方法，其特征在于，在消除所述比对结果中的每个读段的缺口之前，提取所述比对结果中的唯一比对结果以替换所述比对结果，所述唯一比对结果包括唯一比对上所述参考序列的多个读段对，并且每一所述读段对比对到所述参考序列的相同染色体，每一所述读段对中的两个读段在所述参考序列上的距离符合插入片段的大小。
权利要求11的方法，其特征在于，修正所述唯一比对结果使所述唯一比对结果中的每一对读段对比对到所述参考序列的相同染色体的正链。
权利要求7-12任一方法，其特征在于，对所述比对结果或所述唯一比对结果的数据格式进行转换，以获得所述通用比对结果。
权利要求7-13任一方法，其特征在于，消除所述比对结果或者所述唯一比对结果中的每个读段的缺口包括，

若所述读段包含正缺口，以N填补所述正缺口的大小，

若所述读段包含负缺口，去除所述负缺口，其中，

N为A、T、C或G。
权利要求7-14任一方法，其特征在于，所述通用比对结果的格式为SAM或BAM。
权利要求15的方法，其特征在于，所述变异位点包括CNV和SNP，检测所述CNV包括，

在所述参考序列上设置多个窗口，

基于所述通用比对结果中匹配到所述窗口的读段的量与对照样本的通用比对结果中匹配到相同窗口的读段的量具有显著差异，判定所述体液样本游离核酸中存在CNV，其中，

所述窗口为所述参考序列的一部分。
权利要求15的方法，其特征在于，所述变异位点包括CNV和SNP，检测所述CNV包括，

在所述参考序列上设置多个窗口，计算窗口的测序深度，窗口的测序深度＝所述通用比对结果中比对到所述窗口的读段的数量/所述窗口的大小；

利用测序深度-GC含量关系校正所述窗口的测序深度，获得窗口的校正测序深度；

基于所述窗口的校正测序深度与对照样本的相同窗口的校正测序深度具有显著差异，判定所述体液样本存在所述CNV，其中，

所述窗口为所述参考序列的一部分。
权利要求16或17的方法，其特征在于，所述对照样本的个数不小于30个。
权利要求17的方法，其特征在于，所述对照样本的相同窗口的校正测序深度是利用所述测序深度-GC含量关系校正对照样本的相同窗口的测序深度获得的，所述对照样本的相同窗口的测序深度＝所述对照样本的测序数据中比对到所述窗口的读段的数目/所述窗口的大小。
权利要求17-19任一方法，其特征在于，建立所述测序深度-GC含量关系包括，

获得多个对照样本核酸的测序数据，所述测序数据由多个读段组成；

在所述参考序列上设置多个窗口，将所述多个对照样本的测序数据分别与所述参考序列的窗口比对，计算各个对照样本的测序数据中比对上每个窗口的读段的数目，获得每个窗口的测序深度，所述窗口为所述参考序列的一部分，所述窗口的测序深度＝各个对照样本的比对上所述窗口的读段的总数目/(对照样本个数*所述窗口的大小)；

基于多组窗口的测序深度和该窗口的GC含量数值，利用二维回归分析法建立所述测序深度-GC含量关系。
权利要求20的方法，其特征在于，所述二维回归分析法为局部加权回归散点平滑法。
权利要求7-21任一方法，其特征在于，变异位点的突变频率或者，变异位点的突变频率
权利要求7-22任一方法，其特征在于，所述肿瘤核酸含量或者，所述肿瘤核酸含量
一种确定肿瘤核酸含量的装置，所述肿瘤核酸来自体液样本，所述体液样本包含游离核酸，所述游离核酸包括肿瘤核酸和非肿瘤核酸，其特征在于，包括，

数据输入单元，用以接收所述游离核酸的测定数据，所述测定数据包括多个读段，所述测定数据是通过对所述游离核酸的至少一部分进行序列测定获得的；

数据输出单元，用以输出数据，包括所述肿瘤核酸含量；

存储单元，用于存储数据，其中包括可执行的程序；

处理器，与所述数据输入单元、数据输出单元及存储单元数据连接，用于执行所述可执行的程序，所述程序的执行包括完成权利要求1-23任一方法。
一种计算机可读存储介质，其特征在于，用于存储供计算机执行的程序，所述程序的执行包括完成权利要求1-23任一方法。