CN105780129A

CN105780129A - 目标区域测序文库构建方法

Info

Publication number: CN105780129A
Application number: CN201410779502.9A
Authority: CN
Inventors: 蔡宇航; 陈希; 戴平平; 朱晨晨; 管彦芳; 易鑫; 朱红梅; 杨玲
Original assignee: TIANJIN BGI TECHNOLOGY Co Ltd; BGI Shenzhen Co Ltd
Current assignee: TIANJIN BGI TECHNOLOGY Co Ltd; BGI Shenzhen Co Ltd
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2016-07-20
Anticipated expiration: 2034-12-15
Also published as: CN105780129B

Abstract

本发明提供一种构建目标区域测序文库的方法，包括：获取待测样本中的核酸，所述核酸由多个核酸片段组成；末端修复所述核酸片段，获得末端修复片段；加碱基A至所述末端修复片段的两端，获得粘性末端片段；连接接头于所述粘性末端片段的两端，获得接头连接片段；对所述接头连接片段进行第一扩增，获得第一扩增产物；利用试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物即为所述目标区域测序文库；其中，所述试剂盒包含探针，所述探针能够特异性识别表1里的547个基因中的至少10个基因的基因区域。本发明还公开了一种测序方法、目标区域变异检测方法及其装置。

Description

目标区域测序文库构建方法

技术领域

本发明涉及生物医学领域，具体的，本发明涉及一种构建目标区域测序文库的方法、一种测序方法、目标区域变异检测方法及装置。

背景技术

肿瘤是严重威胁人类健康的疾病之一，20世纪70年代以来，我国癌症发病及死亡率一直呈上升趋势，至90年代的20年间，癌症死亡率上升29.42％，年龄调整死亡率上升11.56％。2000年癌症发病人数约180-200万，死亡140-150万。恶性肿瘤发病率全国35岁至39岁年龄段为87.07/10万，40岁至44岁年龄段几乎翻番，达到154.53/10万；50岁以上人群发病占全部发病的80％以上，60岁以上癌症发病率超过1％，80岁达到高峰。全国肿瘤死亡率为180.54/10万，每年因癌症死亡病例达270万例。我国居民因癌症死亡的几率是13％[赫捷,陈万青.(2012).2012中国肿瘤登记年报.军事医学科学出版社:18-28.McBride,D.J.andA.K.Orpana,etal.(2010)."Useofcancer-specificgenomicrearrangementstoquantifydiseaseburdeninplasmafrompatientswithsolidtumors."GenesChromosomesCancer49(11):1062-1069.]。癌症不仅严重影响劳动人民的健康，而且成为医疗费用上涨的重要因素。我国每年耗费大量资金用于癌症病人的医疗费用，带来巨大的经济负担。

癌症的发生时一个渐进缓慢的过程，如能够对其做到早期发现，临床有效治疗，到术后复发监测进行全面控制，可有效的降低其发生率和死亡率，将有着巨大的经济效益和社会效益，寻找特异性的肿瘤标志物对早期筛查、术后监控等方面均有重要作用[KayabaH.Tumormarkers:essentialdiagnostictoolsforradiologists[J].NipponLgakuHoshasenGakkaiZasshi,2003,63(4):133-139]。

循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA，研究发现许多肿瘤患者循环DNA与正常人相比有很大差异，由于肿瘤细胞凋亡，癌症患者循环DNA中含有一定的肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点，研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难，是一种很有潜力的肿瘤标志物。同时将血液肿瘤标志物与临床检验结合起来，可以辅助肿瘤的早期诊断和实时监控或者为肿瘤的早期诊断或监控提供重要线索，有可能能成为肿瘤的早期筛查和预后判断提供重要依据。

发明内容

依据本发明的一方面，提供一种构建目标区域测序文库的方法，所述方法包括：(a)获取待测样本中的核酸，所述核酸由多个核酸片段组成，所述核酸片段来自断裂的基因组DNA和/或游离的DNA；(b)末端修复所述核酸片段，获得末端修复片段；(c)加碱基A至所述末端修复片段的两端，获得粘性末端片段；(d)连接接头于所述粘性末端片段的两端，获得接头连接片段；(e)对所述接头连接片段进行第一扩增，获得第一扩增产物；(f)利用试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及(g)对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库；其中，所述试剂盒包含探针，所述探针能够特异性识别以下预定区域：表1里的547个基因中的至少10个基因的基因区域。本发明这一方面的测序文库构建方法，特别适用于样本含微量核酸的测序文库的构建，在本发明的一个实施例中，样本为含微量游离DNA的血浆样本，包含极其微量的目标游离DNA，第一扩增使得核酸的量能满足芯片/探针杂交捕获的需求，而因芯片杂交捕获会损耗一定量的核酸，第二扩增能使捕获下的目标片段获得再次扩增以满足上机测序和质控检测的要求。这一文库构建方法特别适用于总游离核酸不低于10ng或者常规组织基因组DNA不低于1μg的样本的测序文库构建。

表1

在本发明的一些实施例中，所述预定区域为所述547个基因中的至少20个、40个、80个、160个、320个或者全部所述547个基因的基因区域。本发明的这一方面方法中使用的试剂盒探针能够特异性识别的基因区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些基因区域是常见肿瘤的发生或发育相关区域。所述常见肿瘤包括肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌和肝癌。利用本发明一方面的方法能够一次性、简单方便且高特异性的获取多种常见癌症的相关基因序列，并且对这些相关基因序列进行测序文库构建，接着进行序列测定，基于测定数据的检测分析结果可以辅助用于多种常见癌症的早期筛查判断，增加人为的早期干预肿瘤的发生发展的可能性和效果。目前大部分癌症如肺癌、肝癌、胃癌等在医院病理确诊时已是晚期，耽误了较早的治疗时间大大的减少治愈的可能性。

在本发明的一个实施例中，所述预定区域为所述547个基因中的表2所列的145个基因的基因区域。探针能够特异性识别的表2的145个基因的基因区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些基因区域组合与肺癌的发生发展相关。利用本发明方法中的这一试剂盒中的探针，能够一次性的、简单方便且高特异性的获取全部肺癌相关基因序列，而且基于检测这些基因序列获取的信息能够辅助肺癌的早期筛查诊断。

表2

KRAS

ALK

ROS1

ADAM23

KIAA0907

KRTAP5-5

MAP1B

EGFR

RB1

FGFR3

DNMT3B

GAB1

TSHZ3

ZNF814

TP53

PDGFRA

FGFR4

SDHAP2

OR10Z1

XIRP2

ZFHX4

BRAF

KDR

JAK3

DHX9

CNTNAP3B

NYAP2

ZNF804A

PIK3CA

FBXW7

APC

CSNK2A1

IL32

NUDT11

OR5D18

ERBB2

HRAS

FRG1B

CNTN5

NAV3

SNAPC4

ZNF479

CDKN2A

JAK2

CHEK2

ATXN3

TNRC6A

ZNF598

OR51V1

NRAS

ERBB4

KLK1

CLIP1

FAM135B

KIAA2022

OR4N2

STK11

KIT

NBPF10

OR4M2

VGLL3

DDX11L2

OR4C15

NFE2L2

SMAD4

PARG

OR10G8

KRTAP4-11

MUC6

OR14C36

CTNNB1

FGFR2

FBN2

PAPPA2

ANAPC1

ATXN1

CROCC

MET

DDR2

HSD17B7P2

OR8H2

FAM47C

MUC16

OR2T2

PTEN

ATM

WASH2P

PBX2

AKAP6

BEST3

PCDH11X

AKT1

RET

POTEC

POLDIP2

ZNF804B

DSPP

REG3A

KEAP1

NOTCH1

EEF1B2

SLC6A10P

ZEB1

MB21D2

REG1B

DDX11

EPB41L4A

TBX6

PRB2

OR2T34

NTRK3

LRRIQ3

DNAH8

OR2M2

WDR62

CNTNAP2

LPA

NTRK1

EPHA5

OR2B11

OR4C16

DCAF4L2

CDH10

MMP27

NF1

OR5L2

OR4K2

KCNB2

EPHA3

CDH12

VAV3

INHBA

OR2T33

FAM47A

STAG3L2

PTPRD

RALGAPB

THSD4

FGFR1

GNA15

RYR2

KRTAP4-8

NOTCH2

FOLH1

OR4N4

在本发明的一个实施例中，所述预定区域为所述547个基因中的表3所列60个基因的基因区域。探针能够特异性识别的表3的60个基因的基因区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些基因区域组合与结直肠癌的发生发展相关。利用本发明方法中的这一试剂盒中的探针，能够一次性的、简单方便且高特异性的获取全部结直肠癌相关基因序列，而且基于检测这些基因序列获取的信息能够辅助结直肠癌的早期筛查诊断。

表3

KRAS	SRC	TLR3	EP300	TMPRSS13	EPHA5
						BRAF	PTEN	MC4R	CYLD	PHF2	EPHA3
APC	AXIN1	MLH1	FBN2	OPRD1	PTPRD
						TP53	FLG	AKT1	NF1	LILRB5	NTRK3
PIK3CA	LIG1	CASD1	ASXL1	COL18A1	NTRK1
						CTNNB1	MAP2K1	PTCH1	SMAD4	LARP4B	ALK
NRAS	PIK3R1	ADAMTS18	IRF5	DMKN	ROS1
						EGFR	ERBB2	MSH2	DOCK3	ROBO2	RET
FBXW7	STK11	BAP1	MYOM1	KCNN3	PDGFRA
						ARID1A	IL7R	CTNNA1	NEFH	INHBA	FGFR1

在本发明的一个实施例中，所述预定区域为所述547个基因中的表4所列43个基因的基因区域。探针能够特异性识别的表4的43个基因的基因区域，是发明人经过多次收集、多次筛选和多次试验组合获得的，这些基因区域组合与妇科生殖道肿瘤的发生发展相关。所说的生殖道肿瘤包括卵巢癌、子宫内膜癌和宫颈癌。利用本发明方法中的这一试剂盒中的探针，能够一次性的、简单方便且高特异性的获取全部生殖道肿瘤相关基因序列，而且基于检测这些基因序列获取的信息能够辅助生殖道肿瘤的早期筛查诊断。

表4

AFF3	BRCA2	FBXW7	MED12	PDE4DIP	STK11
						AKAP9	CDK12	FGFR2	MLL2	PIK3CA	TP53
AKT1	CDKN2A	FGFR3	MLL3	PIK3R1
						APC	CREBBP	FOXL2	MSH6	PPP2R1A
ARID1A	CSMD3	GNAS	NF1	PTEN
						BCOR	CTNNB1	HRAS	NFE2L2	RB1
BRAF	EGFR	KIT	NRAS	RNF213
						BRCA1	FAT3	KRAS	NSD1	RNF43

在本发明的一个实施例中，所述探针的长度为25-300nt，较佳的，为50-250nt，更佳的，为80nt-120nt。为获得能够在同一反应体系中同时特异性捕获所说的基因区域的探针，在本发明的一个实施例中，探针是通过先获得初始探针集，再筛选所述初始探针集来确定的。获取所述初始探针集包括：确定所述基因区域的参考序列，从所述参考序列的一端开始，在所述参考序列上依次获取DNA片段直至所述参考序列的另一端，其中，一条DNA片段为一条初始探针，全部所述DNA片段构成所述初始探针集，所述DNA片段之间完全重叠、部分重叠或完全不重叠，所述初始探针集能够覆盖所述基因区域至少一次。所说的基因区域的参考序列可以从参考基因组上获取，例如从人参考基因组HG19上获得对应的基因区域，所有的HG19上的对应的基因区域构成所说的基因区域的参考序列，HG19可以从NCBI数据库下载。在本发明的一个实施例中，利用迭代算法设计获取所述初始探针集，包括：确定所述基因区域在参考基因组上的位置，获取所述基因区域的参考序列，从所述参考序列的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段，从所述参考序列的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段，从所述参考序列的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段，这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列，其中，一条DNA片段为一条初始探针，全部所述DNA片段构成所述初始探针集，N为所述初始探针集中包含的初始探针的总数，以获得能够全面覆盖目标基因区域的初始探针集，而且为使最终的探针具高特异性，在本发明的一个实施例中，进一步对所述筛选初始探针集，包括：将所述DNA片段(初始探针集)与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段。为使最终的探针能在同一反应体系中捕获所说的基因区域，和/或使捕获的基因区域在同一反应条件下被一起洗脱下来，进一步对所述初始探针集进行筛选，包括：去除掉GC含量不在35-70％的DNA片段。

依据本发明的另一方面，本发明提供一种测序方法，所述方法包括：根据上述本发明一方面或者任一具体实施方式中的测序文库构建方法构建目标区域测序文库；对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成。前述对本发明一方面的目标区域测序文库得构建方法的技术特征和优点的描述，也适用于本发明这一方面的测序方法，在此不再赘述。所说的测序可以利用已知平台进行，包括但不限于Illumina的Hiseq2000/2500平台、LifeTechnologies的IonTorrent平台和单分子测序平台。测序方式可以选择单端测序，也可以是双末端测序，在本发明的一个实施例中利用双末端测序，所得的测序数据由多对读段对组成。利用本发明的目标区域文库构建方法以及测序方法，测序后的下机数据质量高，基于高质量的下机数据利于后续的准确检测分析。

依据本发明的再一方面，本发明提供一种检测目标区域变异的方法，所述方法包括：(1)利用上述本发明一方面或者任一具体实施方式中的测序方法，获得测序数据；(2)基于所述测序数据，检测所述目标区域变异，获得变异位点信息，所述变异包括SNV、InDel、SV和CNV至少之一。在本发明的一个实施例中，步骤(2)包括：将所述测序数据与参考序列进行第一比对，获得第一比对结果；将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；基于所述第一比对结果和所述第二比对结果，同时检测所述目标区域中的SNP、InDel、SV和CNV变异。

为使变异检测结果更准确可信，在本发明的一个实施例中，在所述第一比对之前，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段。并且任选地，在所述第二比对之前，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对。所说的参考序列的一部分包括目标区域参考序列中的每个已知InDel位点，以及所述每个已知InDel位点上下游各1000bp的参考序列。这里，所说的第二比对为局部比对，第一比对为常规全局比对，可利用但不限于SOAP或BWA等软件依照其默认设置进行，获得第一比对结果，第一比对结果包括读段在参考序列上的匹配位置及匹配情况信息，在本发明的一个实施例中，进行第二比对即基于第一比对结果，对与所捕获的基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(reads)进行局部重新比对，能够消除第一比对中的错误，提高后续变异检测的准确性，第二比对可利用GATK重比对软件(https://www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中，通过GATKUnifiedGenotyper软件同时检测所说的SNP和INDEL变异。利用本发明的这一方面的变异检测方法，能够准确检测出突变频率为1％的低频突变。

在本发明的一个实施例中，步骤(2)还包括，当所检测出的变异位点中的至少之一满足以下，则判定所测样本为阳性样本：在阴性对照样本中的读段支持数少于2和在阳性对照样本中的突变率大于1％。在本发明的另一个实施例中，步骤(2)还包括，当所检测出的变异位点中的至少之一满足以下，则判定所测样本为阳性样本：测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2，在阳性对照样本中的突变率大于1％，以及变异位点的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说的阳性样本指肿瘤样本，包括但不限于肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌或肝癌样本。实施例中的两个判定条件是发明人结合目前相关数据库信息和大量文献报道信息、检测统计大量阳性样本和大量阴性样本确定下来的，具有统计意义，后者比前者更为严格，较佳的，这里的阳性或者阴性对照样本超过30个，对照样本的数据可以自己对对照样本的核酸进行提取、序列测定来获得，也可以依照他人已公开或公开数据库中的的样本测序数据，多个对照样本数据使统计判定条件/结果具有统计意义，更加可信。依据两个判定条件中的任一判定的结果可以辅助用于临床的肿瘤诊断筛查，可辅助用于了解所测样本个体癌变的可能性及病情发展情况等。需要说明的是，所说的变异位点在待测样本中的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异，其中的读段支持量，可以为支持该变异的读段的数目，也可以是支持该变异的读段在比对上该位点读段中的比例，在本发明的一个实施例中，采用后者来比较，所说的具有显著差异指具有实质差异，例如对于待测样本中的变异位点A，多个阳性样本(cancer样本)中的reads支持比例都为5/400(变异5条reads，总400条reads)，即阳性样本中该位点的平均变异频率1.25％，而在多个阴性对照样本中的reads支持比例都为1/200(变异1条reads，总200条reads)，即阴性对照样本中的平均变异频率0.5％，若待测样本中的该变异位点的变异频率更接近1.25％，例如达到0.9％，则达到所说的显著差异或者所说的实质差异。具有显著差异，也可以指统计学上的对数据差异性的评价——显著性差异，例如对待测样本中的变异位点A进行多次检测，获得该位点的多组比对结果数据，从每组比对结果数据中都可获得一个读段支持比例，所说的读段支持比例＝支持该变异位点的读段数/比对上该位点的总读段数，接着比较待测样本的变异位点A的读段支持比例(变异频率)与阴性对照样本中的该位点的突变频率的差异，例如可以利用z检验或t检验，差异具有显著性(p≤0.05)，即认为达到所说的具有显著差异。

血液游离DNA含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化，但整体上血浆游离肿瘤DNA的含量会较癌组织中获取到的DNA含量低很多，尤其是对于早期筛查以及预后监控的样本来说，含量会更低，这使得血浆游离DNA中的肿瘤标志物突变频率较癌组织频率低，这就需要对血浆游离DNA进行超高的深度测序，才能更准确的检出早期发生的肿瘤标志物，传统的测序实验方法应用于血浆游离DNA，检测灵敏度低，特异性差，无法很好的达到用于早期筛查、预后监控以及个体化用药指导所需的数据水平，这就需要开发可利用微量血浆游离DNA，且进行高深度覆盖度测序的检测方法。本发明的这一方面的对微量血液游离DNA进行目标区域芯片捕获测序的方法，是基于高通量测序技术平台和芯片捕获技术，采用优化的血浆游离DNA提取及测序建库方法，使用本发明中的肿瘤个体化芯片进行目标区域捕获，对血浆游离DNA进行超高深度DNA测序，同时基于生物信息分析方法，在样本包含微量核酸、肿瘤标志物突变频率较低的情况下，也能够准确检测出这些低频突变，对于进行早期诊断、预后监控以及个体化的致病分析及用药指导，有重要意义，能够用于有效辅助临床检测结果，达到无创诊疗、随时监控，也能辅助临床上对肿瘤患者准确的个体化致病分析及用药指导，为全面实现肿瘤个体化诊疗奠定基础。

依据本发明的一方面，本发明还提供一种检测目标区域变异的装置，用以实现或执行上述本发明一方面的或者任一具体实施方式的目标区域变异检测方法，所述装置包括：数据获取单元，用于实现上述本发明一方面的测序方法，获取目标区域的测序数据，所述测序数据由多个读段组成；检测单元，用于基于来自数据获取单元的测序数据，检测所述目标区域变异，获得变异位点信息，所述变异包括SNP、InDel、SV和CNV至少之一。本领域人员可以理解，本发明的装置中的全部或部分单元，可选择的、可拆卸的包含一个或多个子单元以执行或实现前述本发明方法的各个具体实施方式。

例如，在本发明的一个实施例中，如图1所示，装置1000中的检测单元200包括第一比对子单元13、第二比对子单元15和变异识别子单元17，所述第一比对子单元13用以将来自数据获取单元100的测序数据与参考序列进行第一比对，获得第一比对结果，所述第二比对子单元15用以将来自所述第一比对子单元13的第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果，所述变异识别子单元17用以基于来自所述第一比对子单元13的第一比对结果和来自所述第二比对子单元15的第二比对结果，同时检测所述目标区域中的SNV、InDel、SV和CNV变异中的至少两种变异，获得变异位点信息，其中，所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点，以及所述每个已知InDel位点上下游各1000bp的参考序列。在本发明的一个实施例中，如图2所示，所述装置1000的检测单元200还包括第一过滤子单元12，所述第一过滤子单元12与所述第一比对子单元13连接，用于在所述测序数据进入所述第一比对子单13元之前，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段。任选的，如图3所示，所述检测单元200还包括第二过滤子单元14，所述第二过滤子单元分别14与所述第一比对子单元13和所述第二比对子单元15连接，用于在所述第一比对结果进入所述第二比对子单元15之前，去除掉来自所述第一比对子单元13的第一比对结果中的一个读段对中的两个读段相同的读段对。上述参考序列可以为HG19，所述第一比对单元中进行的第一比对为全局比对，所述第二比对子单元中进行的第二比对为局部比对。在本发明的一个实施例中，如图4所示，所述装置1000中的检测单元200还包括判定子单元19，所述判定子单元19用以判定来自所述变异识别子单元17中的变异位点是否满足以下，当所述变异位点中的至少一个满足以下则判定所述待测样本为阳性样本：在阴性对照样本中的读段支持数少于2条和在阳性对照样本中的突变率大于1％。在本发明的另一个实施例中，所述检测单元200还包括判定子单元19，所述判定子单元19用以判定来自所述变异识别子单元17中的变异位点是否满足以下，当所述变异位点中的至少一个满足以下则判定所述待测样本为阳性样本：测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2条，在阳性对照样本中的突变率大于1％，以及变异位点的读段支持量与正常对照样本相同位点的读段支持量具有显著差异。前述对本发明一方面或者任一具体实施方式中的目标区域变异检测方法的技术特征和优点的描述，同样适用于本发明这一方面的检测装置，在此不再赘述。

正常人外周血中的游离血浆DNA(cfDNA)的浓度为1-100ng/mL，而肿瘤患者外周血中的循环肿瘤DNA(ctDNA)含量将明显增加，由于肿瘤细胞分泌、凋亡或坏死所产生基因组片段入血，使肿瘤患者外周血中的ctDNA含量平均浓度可达180ng/mL，利用本发明的方法和/或装置，通过对肿瘤患者外周血ctDNA的含量变化及突变情况进行定时监控，可应用或者辅助应用于以下至少之一：肿瘤的早期诊断检测，遗传性肿瘤预测及状态评估，肿瘤早期发病进展检测，肿瘤术后效果检测评估，肿瘤靶向治疗、化疗治疗基因变异情况分析，肿瘤致病基因微量残留检测，肿瘤耐药性基因变异情况分析。将本发明的方法和/或装置辅助于肿瘤临床诊断，具有如下优势：微创性：受检者只需要提供5-10mL外周血样本；实时性：可对受检者进行多次实时采血，早期筛查时可定期检测，监控肿瘤发病风险，肿瘤患者可在手术后、化疗用药/靶向用药后随时检测，以分析手术预后情况及用药的灵敏性、耐药性情况等；高灵敏度：不受限与病灶位置及大小，通过高深度的目标区域捕获测序，可以检测出突变频率为1％的低频变异，对于肿瘤发病早期以及肿瘤治疗复发后所出现的变异能够及时准确检出；高特异性：在ctDNA含量较少的情况下，能够保证较低的假阳性率、假阴性率，确保得到的检测结果能够准确的反应受检者实时外周血状况；高通量：基于新一代测序技术的目标区域捕获测序，能够在很短的时间内同时进行多例样本检测，并且在目标区域捕获芯片的使用下，相同数据量可进行更高深度的数据挖掘。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的一个实施例中的目标区域变异检测装置的结构示意图；

图2是本发明的一个实施例中的目标区域变异检测装置的结构示意图；

图3是本发明的一个实施例中的目标区域变异检测装置的结构示意图；

图4是本发明的一个实施例中的目标区域变异检测装置的结构示意图。

具体实施方式

本发明中的“变异”、“核酸变异”、“基因变异”可通用，本发明中的“SNP”(SNV)、“CNV”、“插入缺失”(indel)和“结构变异”(SV)同通常定义，但本发明中对各种变异的大小不作特别限定，这样这几种变异之间有的有交叉，比如当插入/缺失的为大片段甚至整条染色体时，也属于发生拷贝数变异(CNV)或是染色体非整倍性，也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。

本发明中的“参考序列”为已知基因组序列或者已知基因组序列的至少一部分，本发明中所使用的“第一”、“第二”等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面通过具体的实施例，对本发明进行说明，需要说明的是这些实施例仅仅是为了说明目的，而不能以任何方式解释成对本发明的限制。

实现本发明一方面的方法和/或装置，一般包括目标区域捕获探针/芯片的设计、微量样本建库及上机测序、下机数据的生物信息分析和变异数据解读。

一、目标区域捕获芯片设计

基于TCGA、ICGC、COSMIC等数据库和收集提取大量相关参考文献中的信息，采用迭代算法设计出能够用于或者辅助用于肿瘤早诊、术后监控以及肿瘤治疗(放化疗、靶向药物治疗等)效果监控的目标区域捕获芯片CANPer，CANPer为液相芯片。CANPer芯片包括了常见高发癌症的相关驱动基因(DriverGene)、高频突变基因、癌症相关12条信号通路中重要基因，共计547个基因，300Kb。基因列表详见表1。

二、样本制备

抽取肺癌结节早期患者外周血5-10mL，存于EDTA抗凝管中，在4-6小时内对外周血进行分离，得到血浆游离DNA(cfDNA)，cfDNA中包含来自肿瘤细胞的DNA(ctDNA)；

cfDNA定量检测；

文库制备及测序

对cfDNA片段进行末端修复；

对cfDNA片段末端加A；

连接Adapter文库接头：文库接头(Adapter)是指经过设计的一段碱基序列，作用在于cfDNA/ctDNA文库扩增时与引物相结合，使DNA扩增进行，并且在上机测序时与测序引物相结合，利于测序引物与待测序位点结合辅助DNA测序进行。

文库进行第一轮PCR扩增；

扩增后文库质控并与上述探针/芯片杂交；

杂交文库进行第二轮PCR扩增；

文库定量及质控；

IlluminaHiSeq2500/2000上机测序，测序深度达300X以上。

三、目标区域捕获测序下机数据进行生物信息分析

获得下机数据后需进行如下生物信息分析，得到最终的变异结果

SOAPnukefilter：去除低质量reads；

与reference序列比对，产生bam文件；

标记重复序列；

比对结果不好的序列重新比对，并校正质量值；

去除错配序列；

分析下机数据QC；

寻找变异；

对变异结果进行注释，得到最终数据结果。

四、基因预测药物疗效数据库构建及肿瘤变异解

化疗药物对肿瘤细胞的杀伤效应于特定的一种(一组)基因的表达和/或多态性显著相关，通过相关基因的检测，预测化疗药物的疗效，选择合适的药物进行个体化化疗，已经成为提高疗效、减少无效治疗、降低毒副作用的合理选择。基于化疗药物特点，参考多个相关数据库，整合目前临床上所有的化疗药物、与疗效相关的基因以及疗效预测评判，形成化疗个体化用药解读数据库，并将化疗数据整合入肿瘤个体化生物信息分析流程，完成化疗药物的数据库构建及自动化解读。表5显示所说的数据库中包含的部分变异和药物的关联关系。

表5

靶向药物在肿瘤治疗中具有药效显著、毒副作用小的特点，但其对靶点(包括蛋白、基因等)有特异性依赖，必须先对患者做靶点分析，才能确定患者是否适合用药。整合目前FDA批准的靶向药物，以及处于临床II、III期药物，依据NCCN临床治疗指南，最新的临床药物基因研究，整理药物靶点基因与靶向药物疗效关系，形成肿瘤个体化靶向药物解读数据库。

对生物信息分析后的变异数据进行个体化解读，参考构建的肿瘤数据库及相关文献，对患者检出的变异进行分析，判断变异所产生的致病原因、各种化疗药物的预期疗效及毒副作用、最适合的获益靶向药物及耐药性靶向药物，辅助临床医生诊断判断，使其对肿瘤患者的用药治疗更有针对性，免去无效用药所耽误的宝贵时间以及毒副作用给患者带去的治疗痛苦。

实施例

以下具体实施过程以结直肠癌患者的外周血血浆作为研究对象，样本来自天津妇幼保健院，内容如下：

(一)外周血样本分离

1)采集受检者外周血1-2管(5mL/管)于EDTA抗凝管中，轻柔上下颠倒(防止细胞破裂)6-8次充分混匀，在采血当天4-6小时内进行以下处理；

2)在4℃条件下1600g离心10分钟，离心后将上清(血浆)分装到多个1.5mL/2mL离心管中，在吸取过程中不能吸到中间层白细胞；

3)在4℃条件下16000g离心10分钟，去除残余细胞，将上清(血浆)转移到新的1.5mL/2mL离心管中，不能吸到管底白细胞，即得到分离后所需血浆；

4)血浆样本处理完后，分离得到的血浆及剩余血细胞均保存到-80℃冰箱中，避免反复冻融。

(二)血浆游离DNA提取(采用QIAampCirculatingNucleicAcidKit)

1)加30μL蛋白酶K至1.5mL离心管中；

2)加入300μL血浆；

3)加入240μLBufferACL和1.68μLCarrierRNA(0.2μg/μL)，涡旋振荡30s，60℃温浴30min，温浴期间适当取出振荡；

4)加入540μLBufferACB，涡旋振荡15-30s，冰上或-20℃冰箱放置5min；

5)取700μL血浆混合物加入过滤柱中，7500rpm离心30s；

6)过滤柱空甩8000rpm，1min；

7)加入600μLBufferACW1，8000rpm，1min离心洗涤；

8)加入700μLBufferACW2，8000rpm，1min离心洗涤；

9)加入700μL无水乙醇，8000rpm，1min离心洗涤；

10)过滤柱空甩14000rpm，3min；

11)把过滤柱放入新收集管中，打开盖子，56℃金属浴10min；

12)将柱子放入新离心管汇总，加入60μLBufferAVE回溶3min；

13)14.000rpm离心1min，Qubit(Invitrogen，theQuant-iTTMdsDNAHSAssayKit)定量质控所提取的cfDNA。

(三)文库构建(采用KAPALTPLibraryPreparationKit)

1)末端修复

反应后加入AgencourtAMPureXPreagent120μL，磁珠纯化后，使用42μLddH₂O回溶，带磁珠进行下一步反应；

a)末端加A

反应后加入PEG/NaClSPRISolution90μL，充分混合并进行磁珠纯化，下步Adapter连接反应体系中Adapter和ddH₂O加入量按照下面公式进行计算：10nM*建库起始DNA量(ng)*Adaper用量(μL)＝15μM(Adapter浓度)*50μL，使用ddH₂O用量(μL)＝35μL-Adapter用量(μL)回溶，进行下一步反应；

3)接头连接

反应后，加入PEG/NaClSPRISolution50μL，进行第一次磁珠纯化，使用50μLTris-HCl(1mM，pH8.0)回溶；

再加入PEG/NaClSPRISolution50μL，进行第二次磁珠纯化，使用25μLTris-HCl(1mM，pH8.0)回溶；

4)第一轮PCR扩增

反应后加入AgencourtAMPureXPreagent90μL，磁珠纯化后，使用31μLddH₂O回溶，取上清后质控并进行芯片杂交。

5)目标区域捕获芯片杂交

本实施例中采用委托Roche合成的上述基因芯片CANPer-1.75M，参照芯片制造商提供的说明书进行杂交捕获及洗脱。最后使用21μLddH₂O回溶杂交洗脱磁珠。

6)第二轮PCR扩增

反应后加入AgencourtAMPureXPreagent108μL，磁珠纯化后，使用31μLEB回溶，取上清后质控并上机测序。

7)上机测序

本实施例中，采用IlluminaHiSeq2500PE101+8+101程序进行上机测序，测序实验操作按照制造商提供的操作说明书(参见Illumina/Solexa官方公布cBot)进行上机测序操作。

(四)下机数据生物信息分析解读

表6和表7分别为测序信息及测序数据统计结果。

表6

表7

基于测序数据，进行以下：

1)SOAPnukefilter：去除n≥10％和碱基质量值≤5的碱基数目＞50％的reads；

2)Bwaaln->sampe|samtoolsview|samtoolssort：与reference序列比对，产生bam文件；

3)MarkDuplicates.jar：将同一个pe的相同的reads标记为重复；

4)GenomeAnalysisTK.jar-TRealignerTargetCreator、IndelRealigner：将比对不好的reads重新比对；

5)GenomeAnalysisTK.jar-TBaseRecalibrator、PrintReads：校正质量值；

6)Filt_bam：去掉错配(mismatch)碱基≥3个的reads；

7)QC：统计芯片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被覆盖的区间等信息；

8)识别SNV/InDel/SV/CNV及筛选其中的高频变异位点：

用MuTect(http://www.broadinstitute.org/cancer/cga/mutect)、varScan(http://massgenomics.org/varscan)流程识别出SNP变异；

用gatk(https://www.broadinstitute.org/gatk/)、varScan、ForestSV(http://sebatlab.ucsd.edu/index.php/software-data)流程识别出InDel变异；

用contra.py(http://contra-cnv.sourceforge.net/)流程识别出CNV；

用ForestSV(http://sebatlab.ucsd.edu/index.php/software-data)流程识别出SV；

所使用的筛选参数为：测序深度≥10X，在阴性(正常)样本中的变异率≤2％，在阳性样本中的变异率≥1％，在该待测样本数据中支持该变异的reads数≥3，与正常对照(体细胞)的读段支持比例具有显著差异(p≤0.05)。表8显示所检样本的部分高频变异筛选结果。

表8

基因	碱基突变	氨基酸突变	突变频率
				KRAS	c.[35G>A]	p.[G12D]	12.6％
APC	c.[1378G>T]	p.[E460*]	16.98％
				APC	c.[3992_3993insAACC]	p.[R1331fs*？]	7.76％
SMAD4	c.[1157G>T]	p.[G386V]	3.8％
				ARID1B	c.[299T>A]	p.[L100H]	5.88％
SEMA3E	c.[2315C>T]	p.[T772M]	15.98％
				CHEK2	c.[1489G>T]	p.[D497Y]	3.62％

基于上述经过严格生物信息分析后的变异结果，结合化疗药物与靶向药物相关基因数据库，对结直肠癌患者的变异基因进行详细解读，部分解读结果如表9所示，分析各变异与患者发病的相关性，分析临床化疗药物与靶向药物的用药可获益性、耐药性及毒副作用。辅助临床给出肿瘤个体化基因检测报告，辅助临床检验以及为医生后续治疗提供基因参考。

表9

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明技术方案所做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种构建目标区域测序文库的方法，其特征在于，包括：

(a)获取待测样本中的核酸，所述核酸由多个核酸片段组成，所述核酸片段来自断裂的基因组DNA和/或游离的DNA；

(b)末端修复所述核酸片段，获得末端修复片段；

(c)加碱基A至所述末端修复片段的两端，获得粘性末端片段；

(d)连接接头于所述粘性末端片段的两端，获得接头连接片段；

(e)对所述接头连接片段进行第一扩增，获得第一扩增产物；

(f)利用试剂盒对所述第一扩增产物进行捕获，获得所述目标区域；以及，

(g)对所述目标区域进行第二扩增，获得第二扩增产物，所述第二扩增产物构成所述目标区域测序文库；其中，

所述试剂盒包含探针，所述探针能够特异性识别以下预定区域：表1里的547个基因中的至少10个基因的基因区域；

任选的，所述预定区域为所述547个基因中的至少20个基因的基因区域；

任选的，所述预定区域为所述547个基因中的至少40个基因的基因区域；

任选的，所述预定区域为所述547个基因中的至少80个基因的基因区域；

任选的，所述预定区域为所述547个基因中的至少160个基因的基因区域；

任选的，所述预定区域为所述547个基因中的至少320个基因的基因区域；

任选的，所述预定区域为所述547个基因中的表2所列145个基因的基因区域；

任选的，所述预定区域为所述547个基因中的表3所列60个基因的基因区域；

任选的，所述预定区域为所述547个基因中的表4所列43个基因的基因区域；

任选的，所述预定区域为所述547个的基因区域。

2.权利要求1的方法，其特征在于，所述探针的长度为25-300nt。

3.权利要求1的方法，其特征在于，所述探针的获得包括，获得初始探针集以及筛选所述初始探针集；

任选的，所述获得初始探针集包括：

确定所述基因区域的参考序列，

从所述基因区域参考序列的一端开始，在所述基因区域参考序列上依次获取DNA片段直至所述基因区域参考序列的另一端，其中，

一条DNA片段为一条初始探针，全部所述DNA片段构成所述初始探针集，所述DNA片段之间完全重叠、部分重叠或完全不重叠，所述初始探针集能够覆盖所述基因区域至少一次；

任选的，所述获取初始探针集包括：

确定所述基因区域在参考基因组上的位置，获取所述基因区域的参考序列，

从所述基因区域参考序列一端的第一个核苷酸开始拷贝所述参考序列获取第一条DNA片段，

从所述基因区域参考序列一端的第二个核苷酸开始拷贝所述参考序列获取第二条DNA片段，

从所述基因区域参考序列一端的第三个核苷酸开始拷贝所述参考序列获取第三条DNA片段，

这样依次获取后续DNA片段直至第N条DNA片段的一端超出所述基因区域参考序列的另一端，其中，

一条DNA片段为一条初始探针，全部所述DNA片段构成所述初始探针集，N为所述初始探针集中包含的初始探针的总数。

4.权利要求3的方法，其特征在于，所述筛选初始探针集包括：

将所述DNA片段与所述参考序列比对，获得每一条DNA片段在参考序列上的比对次数，过滤掉比对次数超过1的DNA片段；

任选的，所述筛选初始探针还包括，去除掉GC含量不在35-70％的DNA片段。

5.一种测序方法，其特征在于，包括：

根据权利要求1-4任一方法构建目标区域测序文库；

对所述目标区域测序文库进行测序，获得测序数据，所述测序数据由多个读段组成；

任选地，所述测序为双末端测序，所述测序数据由多对读段对组成。

6.一种检测目标区域变异的方法，其特征在于，包括，

(1)利用权利要求5的方法，获得测序数据；

(2)基于所述测序数据，检测所述目标区域变异，获得变异位点信息，所述变异包括SNV、InDel、SV和CNV至少之一。

7.权利要求6的方法，其特征在于，步骤(2)包括，

将所述测序数据与参考序列进行第一比对，获得第一比对结果；

将所述第一比对结果与所述参考序列的一部分进行第二比对，获得第二比对结果；

基于所述第一比对结果和所述第二比对结果，同时检测所述目标区域中的SNP、InDel、SV和CNV变异中的至少两种；其中，

所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点，以及所述每个已知InDel位点上下游各1000bp的参考序列。

8.权利要求7的方法，其特征在于，在所述第一比对之前，对所述测序数据进行过滤，所述过滤包括去除掉不确定碱基比例超过10％的读段和/或碱基质量值不大于5的碱基数的比例不小于50％的读段。

9.权利要求7或8任一方法，其特征在于，在所述第二比对之前，去除掉第一比对结果中的一个读段对中的两个读段相同的读段对；

任选地，所述参考序列为HG19；

任选地，所述第一比对为全局比对，所述第二比对为局部比对。

10.权利要求6-9任一方法，其特征在于，步骤(2)还包括，当所述变异位点中的至少之一满足以下(i)或(ii)，则判定所述待测样本为阳性样本：

(i)在阴性对照样本中的读段支持数少于2条和在阳性对照样本中的突变率大于1％；

(ii)测序深度不小于10X，至少有3个读段的支持，在阴性对照样本中的读段支持数少于2条，在阳性对照样本中的突变率大于1％，以及变异位点的读段支持量与正常对照样本相同位点的读段支持量具有显著差异。