CN108796056A

CN108796056A - 基于游离dna的目标基因捕获技术进行组织溯源的方法

Info

Publication number: CN108796056A
Application number: CN201810683879.2A
Authority: CN
Inventors: 郎继东; 田埂
Original assignee: Meta Code Gene Technology (beijing) Ltd By Share Ltd
Current assignee: Meta Code Gene Technology (beijing) Ltd By Share Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-11-13

Abstract

本发明公开一种基于游离DNA的目标基因捕获技术进行组织溯源的方法，其包括以下步骤：(1)利用单链接头和双链接头由游离DNA构建文库；(2)从所述文库中捕获目标基因，并对捕获的目标基因进行测序，得到测序结果，其中所述目标基因为全基因组的一部分；(3)将所述测序结果与人类基因组比对，得到比对结果；(4)建立参考库，其中参考库中包括多种不同参考样本，且各参考样本分别包括多种不同基因，所述多种不同基因均具有对应的FPKM基因表达值；(5)基于所述参考库对所述比对结果进行筛选，然后计算筛选出的结果与FPKM基因表达值的相关性，基于所述相关性进行组织溯源。

Description

基于游离DNA的目标基因捕获技术进行组织溯源的方法

技术领域

本发明涉及基因分析领域，具体地涉及基于游离DNA的单链建库结合目标基因捕获技术进行组织溯源的方法。

背景技术

随着液体活检及无创监控在临床上的需求越来越多，游离DNA(cfDNA:cell-freeDNA)在癌症中的研究显得越来越重要。众所周知，cfDNA存在于人体中的循环血浆、尿液及其它体液中(Cell-free nucleic acids in plasma,serum and urine:a new tool inmolecμlar diagnosis.Ann.Clin.Biochem.40,122-130)，并且在健康个体中，cfDNA被认为主要来源于造血系正常细胞的凋亡而其他组织对其的贡献非常小(Predominanthematopoietic origin ofcell-free DNA in plasma and serum after sex-mismatchedbone marrow transplantation.Clin.Chem.48,421-427)。有研究表明cfDNA的片段分布与其特定的起源相对应-核小体对应的峰值为约147bp，染色体(核小体+接头组蛋白)为约167bp(Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNAfrom maternal blood.Proc.Natl.Acad.Sci.USA 105,16266–16271/Maternal plasmaDNA sequencing reveals the genome-wide genetic and mutational profile of thefetus.Sci.Transl.Med.2,61ra91)。因此可以推测在特定的生理条件或疾病过程的背景下，相比于典型的健康状态相当大比例的cfDNA可能来源于组织的不同分布。

2015年，来自于华盛顿大学的Jay Shendure研究团队在CELL杂志上发表了基于二代测序技术的组织溯源的突破性研究成果，其通过对cfDNA进行全基因组深度测序，不仅在全基因组上定位了核小体图谱，而且展示了如何利用核小体图谱来推断在癌症的病理状态下cfDNA来源的细胞类型。但该方法需要通过对cfDNA进行全基因组的深度测序，对于单个样本需要大量的二代测序数据，不仅测序成本较高，而且对后续的数据分析的能力及资源也会有很高的要求，增加了数据分析成本。

发明内容

为了解决上述问题，本发明提供一种组织溯源的方法，其不需要对个体的cfDNA进行全基因组深度测序，只需要对特定基因进行目标捕获测序即可达到组织溯源的目的，不仅大幅度节省了测序数据量，降低了测序成本及后续分析的复杂度，并且提供了灵活的基因组合选择以满足特定个体的组织溯源的需求。具体地，本发明包括以下内容。

一种基于游离DNA的目标基因捕获技术进行组织溯源的方法，其包括以下步骤：

(1)利用单链接头和双链接头由游离DNA构建文库；

(2)从所述文库中捕获目标基因，并对捕获的目标基因进行测序，得到测序结果，其中所述目标基因为全基因组的一部分；

(3)将所述测序结果与人类基因组比对，得到比对结果；

(4)建立参考库，其中参考库中包括多种不同参考样本，且各参考样本分别包括多种不同基因，所述多种不同基因均具有对应的FPKM基因表达值；

(5)基于所述参考库对所述比对结果进行筛选，然后计算筛选出的结果与FPKM基因表达值的相关性，基于所述相关性进行组织溯源。

在某些实施方案中，所述步骤(1)包括：

前处理步骤：将游离DNA进行去磷酸化，然后在80-100℃范围温度下处理，得到处理后的游离DNA；

第一连接步骤：将所述处理后的游离DNA与所述单链接头进行第一连接，得到第一连接产物；

第二连接步骤：以所述第一连接产物为模板进行延伸得到延伸产物，然后，将所述延伸产物与所述双链接头进行第二连接，得到第二连接产物，

扩增步骤：以第二连接产物为模板进行扩增，并回收扩增产物得到文库。

在某些实施方案中，其中所述前处理步骤包括使游离DNA在DNA连结酶、DNA聚合酶和磷酸酶的复合酶作用下进行去磷酸化。

在某些实施方案中，所述单链接头为3’末端接头，所述双链接头为5’末端接头。

在某些实施方案中，所述步骤(2)包括：选取目标基因，以使目标基因不包括基因间序列，针对选取的目标基因制定捕获探针，利用捕获探针从所述文库中捕获目标基因。

在某些实施方案中，所述步骤(2)中的测序为二代基因测序。

在某些实施方案中，所述目标基因选自全基因序列和/或全外显子序列。

在某些实施方案中，所述步骤(3)还包括在将所述测序结果与人类基因组比对之前，对原始数据去接头序列及低质量序列，并且保留测序序列读长至少35bp的步骤。

在某些实施方案中，所述步骤(4)中的参考样本包括44个人类细胞系及32个原发组织，且所述多种不同基因至少为10000种。

在某些实施方案中，所述步骤(5)包括计算筛选出的结果与FPKM基因表达值的相关性，并根据相关性大小进行排序，选择相关性最大的前三种作为组织溯源结果。

附图说明

图1为Sample1的cfDNA片段长度分布统计图。

图2为Sample2的cfDNA片段长度分布统计图。

图3为Ref的cfDNA片段长度分布统计图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

本发明提供一种基于游离DNA的目标基因捕获技术进行组织溯源的方法，其为基于游离DNA(cell-free DNA)的单链建库结合目标基因捕获技术进行组织溯源的方法。具体地，本发明包括以下步骤：

(1)利用单链接头和双链接头由游离DNA构建文库；

(3)将所述测序结果与人类基因组比对，得到比对结果；

下面详细说明本发明的方法。

步骤(1):

步骤(1)为文库构建步骤，其为利用单链接头和双链接头由游离DNA构建文库。利用传统方法构建得到的文库很容易丢失含量很少的游离DNA信息，特别是以单链状态存在的游离DNA。因此，会影响组织溯源的准确性。本发明通过使用单链接头和双链接头的方法构建得到的文库能得很好的体现含量少且以单链状态存在的游离DNA。

优选地，根据本发明的步骤(1)包括前处理步骤、第一连接步骤、第二连接步骤和扩增步骤，可选地，还可包括纯化回收步骤。

本发明的前处理步骤是指将游离DNA进行去磷酸化的步骤。本发明中，在含酶的反应体系中进行去磷酸化，其中所述酶包括磷酸酶。优选地，所述酶为复合酶，例如，由DNA连结酶、DNA聚合酶和磷酸酶组成的复合酶。本发明发现，在使用上述复合酶的情况下，能够获得更多的游离DNA信息，增加得到的文库的库容。本发明的前处理还包括在80-100℃，优选85-95℃范围温度下处理去磷酸化产物的步骤。

本发明的第一连接步骤是指将所述处理后的游离DNA与单链接头进行第一连接，得到第一连接产物的步骤。其中单链接头优选为3’单链接头，其可连接至单链DNA序列的3’末端。单链接头的序列会影响后续文库的质量。优选单链接头的序列为人工序列，其与基因组中的序列不同，有利于识别。可选地，本发明的单链接头具有标记物。例如，标记物的实例包括但不限于生物素等。在某些实施方案中，单链接头具有如下所述的序列：5Phos/AGATCGGAAG/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/3BioTEG，其中/iSpC3/代表C3间隔，/3BioTEG/代表3’端TEG生物素。本发明的第一连接步骤可以连接反应体系中进行，其中连接反应体系可采用本领域已知的体系。

本发明的第二连接步骤是指以第一连接产物为模板进行延伸得到延伸产物，然后，将延伸产物与双链接头进行第二连接，得到第二连接产物的步骤。通常情况下，第一连接产物为单链状态。通过延伸反应可使第一连接产物形成双链状态，从而与双链接头进行有效连接。本发明的双链接头优选为5’端接头。更优选地，本发明的双链接头由下述序列1和序列2合成：序列1：CGACGCTCTTCCGATC/ddT/；序列2：/5Phos/AGATCGGAAGAGCGTCGTGTAGGGAAAGAG*T*G*T*A，其中*代表硫代磷酸酯键，/5Phos/代表5’磷酸化，/ddT/代表脱氧胸苷。本发明的第二连接步骤可以连接反应体系中进行，其中连接反应体系可采用本领域已知的体系。

本发明的扩增步骤是指以第二连接产物为模板进行扩增，并回收扩增产物得到文库的步骤。扩增反应为本领域已知的反应，反应体系及反应条件可根据需要而设定。本发明的回收优选通过磁珠法进行分离。

步骤(2):

本发明的步骤(2)为目标基因捕获步骤。其包括从所得文库中捕获目标基因，并对捕获的目标基因进行测序，得到测序结果。其中本发明的目标基因为全基因组的一部分，与选择全基因组相比，本发明仅选择与组织溯源相关的目标基因，排除非相关基因。这不仅大幅度节省了测序数据量，降低了测序成本及后续分析的复杂度，并且提供了灵活的基因组合选择以满足特定个体的组织溯源的需求。需要说明的是，对于任何选取都会丢失或排除一定信息。因此，适当的目标基因的选取对于本发明目的是重要的。优选地，本发明的目标基因不包括基因间序列。更优选地，本发明的目标基因选自全基因序列和/或全外显子序列。

本发明的目标基因捕获可通过捕获探针来进行，捕获探针可以阵列或芯片形式提供。本发明可使用已知的捕获探针，也可使用制定捕获探针。优选地，本发明的步骤(2)可包括针对选定的目标基因制定捕获探针，并利用捕获探针从文库中捕获目标基因。

本发明的步骤(2)还包括对捕获的目标基因进行测序，得到测序结果的步骤。其中优选测序通过二代基因测序手段进行，二代基因测序具有高通量、快速的优点。

步骤(3):

本发明的步骤(3)为将测序结果与人类基因组比对，得到比对结果的步骤。通过与人类基因组数据比对可以降低噪音，更重要的是通过与人类基因组数据比对计算片段长度的分布，并用于计算片段分布与其特定的起源相对应的关系。人类基因组数据可使用目前已知来源的数据。

优选地，本发明的步骤(3)还包括在将测序结果与人类基因组比对之前，对原始数据进行处理的步骤，所述处理包括去除接头序列及低质量序列，并且保留测序序列读长至少35bp的步骤。

优选地，本发明的步骤(3)还包括对比对结果进行质控的步骤。优选地，通过对处理后数据进行片段长度分布统计数据作为质控的指标。

步骤(4):

本发明的步骤(4)为建立参考库的步骤。本发明的参考库中包括多种不同参考样本，且各参考样本分别包括多种不同基因，多种不同基因均具有对应的FPKM基因表达值。优选地，本发明的步骤(4)中的参考样本包括44个人类细胞系及32个原发组织，且所述多种不同基因至少为10000种，优选20000种。本发明步骤(4)的参考样本可通过已知手段获取。例如，从人类蛋白质图谱中获取。

步骤(5):

本发明的步骤(5)为分析步骤。其为基于参考库对比对结果进行筛选，然后计算筛选出的结果与FPKM基因表达值的相关性，基于相关性进行组织溯源的步骤。

为了排队可能的噪音得到更高准确性的结果，本发明需要对得到的比对结果进行筛选。本发明发现可通过基因是否在多个参考样本(例如，至少3个参考样本)中表达作为筛选标准。是否表达可通过设置最小FPKM的阈值来判断。

优选地，本发明的步骤(5)包括计算筛选出的结果与FPKM基因表达值的相关性，并根据相关性大小进行排序，选择相关性最大的前三种作为组织溯源结果。优选地，利用快速傅里叶变换算法计算待测样本与参考库中的表达数据的相关性。还优选地，将待测样本的相关性结果与参考样本的表达数据的相关性结果做秩差分析，得到RankDiff的值，即RankDiff＝rank(参考样本表达数据的相关性结果)-rank(待测样本的表达数据的相关性结果)，并且从高到低排序。

实施例

本实施例的sample1为小细胞肺癌的样本，sample2为乳腺癌原位导管癌的样本，Ref为几个正常人的混合血浆样本。

一、文库构建和目标基因捕获：

对于sample1与sample2两个样本分别进行下述实验步骤：

通过将4.5μl TE(pH 8),0.5μl 1M NaCl,10μl 500μM的序列1和10μl500uM的序列2混合来合成双链接头。其中：

序列1为CGACGCTCTTCCGATC/ddT/。

序列2为/5Phos/AGATCGGAAGAGCGTCGTGTAGGGAAAGAG*T*G*T*A，其中*代表硫代磷酸酯键，/5Phos/代表5’磷酸化，/ddT/代表脱氧胸苷；序列1和序列2均经HPLC纯化。

上述反应的条件为：在95℃下反应10秒，以0.1℃/s的速率降到14℃。

通过加入2×CircLigase II buffer(Epicentre)、4mM MnCl₂及1U FastAP(Thermo Fisher)对纯化的sample1及sample2的cfDNA片段进行去磷酸化处理，形成在20μl反应体系中存在0.5-10ng片段，并且在37℃下反应30分钟。

加热到95℃反应3分钟使片段化DNA变性后立即转移到冰盒中。

向反应体系中添加5pmol带有生物素结合的接头oligo CL78、20％的PEG-6000(w/v)及200U CircLigase II(Epicentre)，总体积为40μl，60℃旋转过夜反应，95℃下加热3分钟并且移到冰盒中，其中，oligo CL78的序列为：/5Phos/AGATCGGAAG/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/iSpC3/3BioTEG/，其中/iSpC3/代表C3间隔，/3BioTEG/代表3’端TEG生物素。

20μl MyOne C1beads(Life Technologies)(磁珠)在bead binding buffer(BBB-磁珠结合缓冲液)(10mM Tris-HC1[pH 8],1M NaCl,1mM EGTA[pH8],0.05％Tween-20及0.5％SDS)中清洗两次，并且在250μl磁珠结合缓冲液中悬浮。

有接头(adapter)结合的片段在室温中旋转60分钟使其与磁珠结合。

在磁力架上回收磁珠并丢弃上清液。

磁珠用500μl清洗缓冲液A(WBA)(10mM Tris-HCl[pH 8],1mM EDTA[pH 8],0.05％Tween-20,100mM NaCl,0.5％SDS)清洗一次，利用500μl清洗缓冲液B(WBB)(10mM Tris-HCl[pH 8],1mM EDTA[pH 8],0.05％Tween-20,100mMNaCl)清洗一次。

磁珠中混入1×Isothermal Amplification Buffer(NEB)，2.5uM oligoCL9(序列为GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-HPLC纯化),250uM(每个)dNTPs及24U Bst2.0DNAPolymerase(NEB)形成一个50μl的的反应体系，轻轻摇晃以每分钟1℃的频率从15℃上升到37℃并且保持37℃条件下反应10分钟。

在磁力架回收之后，磁珠利用200μl WBA清洗一次，在200μl严格清洗缓冲液中悬浮(SWB)(0.1X SSC,0.1％SDS)，在45℃下反应3分钟。

磁珠再次回收并且利用200μl WBB清洗一次。

磁珠中加入1×CutSmart Buffer(NEB),0.025％Tween-20,100uM(每个)dNTPs及5U T4DNAPolymerase(NEB)，在室温下轻轻摇晃30分钟。

磁珠根据上述描述的WBA、SWB及WBB步骤再次清洗。

磁珠与1×CutSmart Buffer(NEB)、5％PEG-6000、0.025％Tween-20、2μM双链接头Adapter-2及10U T4DNALigase(NEB)混合，在室温下轻轻摇晃2小时。

磁珠根据上述描述的WBA、SWB及WBB步骤再次清洗，并且在25μl TET buffer(10mMTris-HCl[pH 8],1mM EDTA[Ph 8],0.05％Tween-20)中悬浮。

第二条链会在加热到95℃的条件下洗脱下来，通过磁力架回收磁珠，将上清液转移至新管中。

利用PCR对sample1的文库及sample2的文库进行扩增，每个文库平均4-6个循环。

使用Agilent 2100生物分析仪对sample1的文库及sample2的文库进行质检。

使用IDT全基因探针(共22,579个基因，坐标参考序列为Hg19，http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/)对sample1的文库及sample2的文库进行液相探针杂交捕获，捕获文库中的目的基因片段。

将捕获到的目的区域进行PCR扩增12-15个循环。

将捕获产物利用Agilent 2100生物分析仪进行质检和qPCR进行文库定量。

Sample1的捕获文库及sample2的捕获文库利用Illumina的Hiseq2500测序仪进行双端PE*50bp测序。

二、将测序结果与人类基因组比对：

由于Ref样本为几个正常人的混合血浆样本，所以本实施例对该混合样本运用试剂盒NEBNextΜltra II DNA Library Prep Kit for Illumina(96reactions)进行常规的双链DNA建库。

使用IDT全基因探针Ref文库进行液相探针杂交捕获，捕获文库中的目的基因片段。

Ref的捕获文库利用Illumina的Hiseq2500测序仪进行双端PE*101bp测序。

利用Bcl2fastq2将测序得到的sample1、sample2及Ref的bcl文件转换成fastq格式的原始测序数据。

将3个样本的原始数据运用cutadapt软件进行去接头序列及低质量序列，并且保留测序序列读长至少35bp。

将上述所得处理后的序列利用BWA软件比对到人类参考基因组上(Hg19，http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/)，得到相应的sam文件。

将sam文件分别运用Samtools软件进行排序及去重复Duplication，得到处理后的bam文件。

将处理后的sample1、sample2的bam文件分别进行片段长度分布统计，并且取1-500bp长度大小的结果作为质控结果(参见图1-3)，经过统计sample1的35-80bp长度比例为24.73％，120bp-180bp长度比例为36.98％；sample2的35-80bp长度比例为21.97％，120-180bp长度比例为27.00％，认为实验数据合格。

三、建立参考库：

下载人类蛋白质图谱中的44个人类细胞系及32个原发组织的共76个参考“样本”、20,344个Ensemble基因ID的FPKM基因表达值数据(http://www.proteinatlas.org/download/rna.csv.zip)，过滤数据，基因至少在3个参考“样本”中表达的结果保留(19,378个基因)。设置最小FPKM的阈值为0.04且取log2值，并且结果保留一位小数精度。

四、分析：

利用快速傅里叶变换算法分别计算sample1、sample2及Ref与上述的表达数据的相关性。

将sample1的相关性结果与Ref样本的表达数据的相关性结果做秩差分析，得到RankDiff的值，即RankDiff＝rank(Ref样本表达数据的相关性结果)-rank(sample1的表达数据的相关性结果)，并且从高到低排序，如下表1所示。

表1Sample1与Ref样本的相关性秩差结果

将sample2的相关性结果与Ref样本的表达数据的相关性结果做秩差分析，得到RankDiff的值，即RankDiff＝rank(Ref样本表达数据的相关性结果)-rank(sample2的表达数据的相关性结果)，并且从高到低排序。结果如下表2所示。

表2Sample2与Ref样本的相关性秩差结果

分别选取排名前三的秩差分析结果为组织溯源的最终结果。即sample1样本最终溯源结果为SCLC.21H(Small cell lung carcinoma)、SH.SY5Y(Neuroblastoma)及HEK_293(Kidney adrenal precursor cell line)；sample2样本最终溯源结果为CAPAN.2(Pancreas adenocarcinoma)、BEWO(子宫癌)及SiHa(子宫颈癌)，与样本临床信息相符。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

Claims

1.一种基于游离DNA的目标基因捕获技术进行组织溯源的方法，其包括以下步骤：

(1)利用单链接头和双链接头由游离DNA构建文库；

(3)将所述测序结果与人类基因组比对，得到比对结果；

2.根据权利要求1所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(1)包括：

3.根据权利要求2所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述前处理步骤包括使游离DNA在DNA连结酶、DNA聚合酶和磷酸酶的复合酶作用下进行去磷酸化。

4.根据权利要求3所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述单链接头为3’末端接头，所述双链接头为5’末端接头。

5.根据权利要求1所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(2)包括：选取目标基因，以使目标基因不包括基因间序列，针对选取的目标基因制定捕获探针，利用捕获探针从所述文库中捕获目标基因。

6.根据权利要求5所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(2)中的测序为二代基因测序。

7.根据权利要求6所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述目标基因选自全基因序列和/或全外显子序列。

8.根据权利要求1所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(3)还包括在将所述测序结果与人类基因组比对之前，对原始数据去接头序列及低质量序列，并且保留测序序列读长至少35bp的步骤。

9.根据权利要求1所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(4)中的参考样本包括44个人类细胞系及32个原发组织，且所述多种不同基因至少为10000种。

10.根据权利要求1所述的基于游离DNA的目标基因捕获技术进行组织溯源的方法，其中所述步骤(5)包括计算筛选出的结果与FPKM基因表达值的相关性，并根据相关性大小进行排序，选择相关性最大的前三种作为组织溯源结果。