CN108866154B

CN108866154B - 基于长片段dna捕获和三代测序的无创产前单体型构建方法

Info

Publication number: CN108866154B
Application number: CN201710339428.2A
Authority: CN
Inventors: 陈超; 王垚燊; 郭凤禹
Original assignee: Tianjin Medical Laboratory Bgi; BGI Shenzhen Co Ltd
Current assignee: Tianjin Medical Laboratory Bgi; BGI Shenzhen Co Ltd
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2021-11-16
Anticipated expiration: 2037-05-15
Also published as: CN108866154A

Abstract

一种基于长片段DNA捕获和三代测序的无创产前单体型构建方法，包括：用孕妇和/或其丈夫外周血中的基因组DNA构建二代文库；对目标基因及侧翼区域进行捕获；构建三代上机测序文库，并进行三代测序以获得测序读长；从测序读长上目标基因的突变点向两端延伸以寻找杂合的SNP位点；不同测序读长重叠区域含有相同的一个或多个SNP位点时，该条单体型可成功向两端继续区分，直至出现存在一段区域无测序读长覆盖或测序读长检出的SNP位点都是纯合。本发明的方法实现了父母个体单体型构建，解决了目前常用依赖父母子家系单体型分析无创产前检测不适用于无法获得先证者样本家系检测的弊端。

Description

基于长片段DNA捕获和三代测序的无创产前单体型构建方法

技术领域

本发明涉及测序技术领域，具体涉及一种基于长片段DNA捕获和三代测序的无创产前单体型构建方法。

背景技术

世界卫生组织2015年出生缺陷报告显示，全球每100个新生儿就有约3个携带出生缺陷相关的基因，每年有320万出生缺陷新生儿诞生，其中27万新生儿死于出生缺陷。研究表明，绝大部分出生缺陷与遗传因素有关，单基因缺陷是重要因素之一，目前对于绝大多数单基因缺陷都没有可根治的措施，只能终生替代治疗，且存活下来的出生缺陷儿多为终生残疾或智力障碍，无法治愈，由此给社会和家庭造成了沉重的经济和心理负担。对高风险孕妇进行产前检测是一种防止出生缺陷发生的有效手段。

随着孕妇外周血浆中胎儿游离DNA存在的发现，为无创产前检测胎儿基因型提供了可能。避免了由于羊水穿刺、绒毛膜取样和脐带血穿刺等有创取样方式造成流产风险及缩小需进行羊水穿刺的高危妊娠人群。传统单基因缺陷无创产前检测技术并未获得广泛应用，其原因主要是母体血浆母源基因组背景的影响，直接对单点分析所获得的胎儿母源位点遗传信息存在错误可能；血浆胎儿含量定量不准确造成假阴性；对存在假基因无法使用。家系连锁单体型信息分析是目前无创单基因缺陷检测构建父母单体型的主要技术方法。

目前构建单体型的方法，多采用检测突变位点和多个与其连锁的短串联重复序列(STR)或单核苷酸多态性(SNP)来确定突变连锁单体型。STR连锁分析存在STR连锁标记位点较少的问题，具体案例中可能没有可用STR位点，需要大量预实验，且STR大多距离缺陷位点较远，无法排除重组带来错诊的可能性。基于单体型分析多采用父母先证者家系基因组捕获测序或SNP分型的方法首先获得与缺陷位点关联的单体型，多重PCR操作复杂，家系捕获测序成本较高，推广较难，且需要父母子家系样本同时获得，但是在实际应用中通常会碰上待测夫妇双方子代样本不可获得的情况，比如陆思嘉公开了“一种利用多重PCR技术进行SNP-单体型分析的方法”(公开号：CN105385755A)。

因此，建立一种不依赖于父母子数据的单体型构建实验方法，对于进一步推广无创单基因缺陷检测技术有很重大的意义。

发明内容

本发明提供一种基于长片段DNA捕获和三代测序的无创产前单体型构建方法，实现父母个体单体型构建。

本发明通过如下技术方案实现：

一种基于长片段DNA捕获和三代测序的无创产前单体型构建方法，包括：

(1)用孕妇和/或其丈夫外周血中的基因组DNA构建用于目标区域捕获的二代文库；

(2)用目标区域捕获探针对目标基因及侧翼区域进行捕获以获得捕获文库，其中上述目标基因包含突变点；

(3)以上述捕获文库构建三代上机测序文库，并进行三代测序以获得测序读长；

(4)在上述测序读长上，从上述目标基因的上述突变点向两端延伸以寻找杂合的SNP位点，其中一条测序读长含有多个SNP位点时，该测序读长长度即是一条单体型的长度；

(5)不同测序读长重叠区域含有相同的一个或多个SNP位点时，该条单体型可成功向两端继续区分，直至出现存在一段区域无测序读长覆盖或测序读长检出的SNP位点都是纯合，最终得到与上述突变点连锁的单体型。

进一步地，用于构建上述二代文库的上述基因组DNA的量是2μg以上。

进一步地，上述构建用于目标区域捕获的二代文库包括如下步骤：

(1a)将上述基因组DNA打断成主峰为10K附近的DNA片段；

(1b)用磁珠纯化打断后的DNA片段；

(1c)片段选择5K至9K范围内的DNA片段；

(1d)对片段选择的DNA片段进行末端修复和3'端加A碱基；

(1e)使上述DNA片段与3'端带有T碱基的二代测序接头连接；

(1f)对接头连接产物进行LM-PCR预扩增，得到上述二代文库。

进一步地，上述侧翼区域包括上述目标基因上下游500K区域。

进一步地，上述构建三代上机测序文库包括如下步骤：

(3a)对上述捕获文库进行DNA损伤修复；

(3b)对上述捕获文库进行末端修复和纯化；

(3c)对纯化产物进行三代测序接头连接；

(3d)消化未连接的DNA片段和三代测序接头；

(3e)纯化连接产物，得到上述三代上机测序文库。

进一步地，上述步骤(3d)使用核酸外切酶III和核酸外切酶VII消化未连接的DNA片段和三代测序接头。

进一步地，上述步骤(3e)纯化连接产物进行三次。

进一步地，上述三代测序的上述目标区域平均测序深度15×以上。

进一步地，上述目标区域的捕获效率大于20％。

进一步地，上述三代测序采用三代单分子测序仪PacBio RS II实现。

本发明的基于长片段DNA捕获和三代测序的无创产前单体型构建方法，实现了父母个体单体型构建，解决了目前常用依赖父母子家系单体型分析无创产前检测不适用于无法获得先证者样本家系检测的弊端；目标区域捕获测序很大程度上降低了检测成本，有利于检测推广；并且利用三代测序技术的测序读长较长，同一个测序读长包含多个SNP位点的可能性大，避免因二代捕获测序或SNP分型在特定基因上SNP数目少、距离远的问题，避免因重组事件对检测结果的影响。

附图说明

图1为本发明的无创产前单体型构建方法的一个实施方案的流程和原理示意图；

图2为本发明的无创产前单体型构建方法的一个实施例中基因组DNA打断后Agilent 2100分析结果图；

图3为本发明的无创产前单体型构建方法的一个实施例中基因组DNA打断、片段选择后Agilent 2100分析结果图；

图4为本发明的无创产前单体型构建方法的一个实施例中LM-PCR预扩增后Agilent 2100分析结果图；

图5为本发明的无创产前单体型构建方法的一个实施例中三代上机测序文库Agilent 2100分析结果图；

图6为本发明的无创产前单体型构建方法的一个实施例中GJB2基因父亲单体型结果图；

图7为本发明的无创产前单体型构建方法的一个实施例中GJB2基因母亲单体型结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本发明相关的一些操作并没有在说明书中显示或者描述，这是为了避免本发明的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

图1示出了本发明的无创产前单体型构建方法的一个实施方案的流程和原理示意图。具体而言，包括如下步骤：

(1)用孕妇和/或其丈夫外周血中的基因组DNA构建用于目标区域捕获的二代文库。具体而言：

(a)从孕妇和/或孕妇丈夫外周血中抽提基因组DNA，并使用电泳及OD检测对获得的DNA进行质量检测，要求DNA无明显降解，总量在2μg以上。

(b)插入片段5K二代捕获文库的构建：将2μg质量检测合格的基因组DNA利用G-tube方式打断成主峰为10K附近的DNA片段，进行两次纯化后，利用BluePippin进行片段选择(选择范围5000-9000bp)，将分选后DNA片段进行末端修复，在3'端加碱基“A”，使得DNA片段能与3'端带有“T”碱基的二代接头连接，经非捕获(Non-Captured)PCR完成二代捕获文库的构建。

(2)用目标区域捕获探针对目标基因及侧翼±500K区域进行捕获，再通过PCR扩增富集捕获后产物，最后通过杂交前后PCR产物QPCR检测获得序列捕获杂交效率。

(3)以捕获文库构建三代上机测序文库，并进行三代测序以获得测序读长。具体而言，将上一步获得的二代捕获文库，进行DNA损伤修复、末端修复和三代接头连接，纯化三次后，获得三代上机测序文库。使用三代单分子测序仪(PacBio RS II)对获得的三代上机测序文库进行测序。单个文库一个测序室(cell)，使得目标区域平均测序深度达到15×以上。

然后进行单体型构建，具体包括：

(4)在测序读长上，从目标基因的突变点向两端延伸以寻找杂合的SNP位点，其中一条测序读长含有多个SNP位点时，该测序读长长度即是一条单体型的长度。

(5)不同测序读长重叠区域含有相同的一个或多个SNP位点时，该条单体型可成功向两端继续区分，直至出现存在一段区域无测序读长覆盖或测序读长检出的SNP位点都是纯合，最终得到与突变点连锁的单体型。

本发明中用目标区域捕获探针对目标基因及侧翼±500K区域进行捕获，使用目标基因及侧翼±500K区域的SNP位点，可获取父母个体范围内的单体型信息，获知在这一区域内与突变位点连锁的单体型信息。从而为后续无创产前检测奠定技术基础，后续无创产前检测可能与胎儿某些性状(例如单双眼皮、身高、体重等)相关。

需要说明的是，确定目标基因单体型时，除了需要关注该目标基因的单体型分型信息，还需要关注该目标基因上下游区域，如果基因上游和下游存在基因重组情况，分型结果可能会出错。发明人发现，在侧翼±500K区域范围存在足够的SNP位点进行分型，若小于500K范围，存在SNP位点不足、无法分型的可能，若大于500K范围，一定程度上增加了芯片的成本。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例一

在本实施例中，招募1例生育遗传性GJB2基因突变的母亲和父亲进行无创产前单体型构建。父亲为GJB2基因c.229-230delAT杂合突变，母亲为GJB2基因c.235delC杂合突变，抽取父亲和母亲外周血提取基因组DNA，而后构建5K插入片段芯片捕获三代文库和PacBio测序，对父母单体型进行分析。

(一)基因组DNA提取和打断

用盐析法提取标本2μg父母本基因组DNA，目前使用样品打断方法为G-tube打断法，打断参数采用6000rpm/min将样品DNA打碎至主峰在10K范围的片段(注：打断效果至关重要，一般要求主峰在10K附近，例如9K至11K，若打断效果显示主峰明显低于10K则需要重新打断)。

采用0.8倍AMPure PB磁珠纯化打断后DNA，回溶后DNA用Qubit方式定量，同时安排Agilent 2100分析仪DNA 12000芯片进行片段大小质控，结果如图2所示。

(二)片段选择

准备DNA样本进行0.75％BluePippin^TMgel cassette(BLF7510)电泳，片段选择区间“范围”为5000bp～9000bp/泳道，BluePippin系统选择程序0.75％DF 3-10kb MarkerS1；加样并进行电泳及片段选择，使用Qubit或类似方法检测浓度且使用Agilent 2100分析仪DNA 12000芯片检测样本片段分布，结果如图3所示。

(三)下一代测序(NGS)文库制备(使用KAPA Hyper Prep Kit KK8502)

(1)末端修复和加A碱基

配置表1所示的反应体系：

表1

将配置好的反应液震荡混匀，反应条件：20℃，30min；65℃，30min；4℃保持。结束后立即进行下一步。

(2)接头连接和纯化

配置表2所示的反应体系：

表2

向末端修复和加A产物中加入表2配制的混合试剂，反应液震荡混匀后20℃孵育15min。使用0.8X AMPure PB磁珠(来源于PacBio)对连接产物纯化，回收的DNA溶于27μL(其中2μL为损耗)水中。

(3)非捕获(Non-Captured)样品Pre-LM-PCR和纯化(使用Takara LA Taq DNAPolymerase Hot-Start Version试剂盒)

配置表3所示的反应体系：

表3

其中，扩增引物序列如下：

F：AAT GAT ACG GCG ACC ACC GAG A(SEQ ID NO：1)；

R：CAA GCA GAA GAC GGC ATA CGA G(SEQ ID NO：2)。

PCR程序：95℃2min；95℃20s，68℃10min，9个循环；72℃10min；4℃保持。使用120μL AMPure PB磁珠进行产物纯化，回收的DNA溶于32μL(其中2μL为损耗)水中。

使用1μL样本在Agilent DNA 12000芯片上进行检测，结果如图4所示。

(4)芯片杂交目标区域捕获富集

参照NimbleGen使用说明书进行杂交洗脱，获取目标基因并PCR富集。富集后PCR产物进行Agilent DNA 12000芯片检测。

本实施例中，目标基因如表4所示，以NCBI官方网站的GRCh37/hg19基因序列为参考基因组序列，目标捕获区域选择为目标基因及其上下游500K区域，在该区域进行连续性探针设计，目标基因编码区和非编码区要求全部覆盖，上下游500K区域选择0.3＜MAF＜0.5，SNP杂合位点每1K选1个位点。

表4目标区域捕获范围

(四)PacBio三代文库构建(试剂盒来自PacBio)

(1)DNA损伤修复

配置表5所示的反应体系：

表5

将配置好的反应液震荡混匀，反应条件：37℃，20min；4℃保持。

(2)末端修复和纯化(试剂盒来自PacBio)

配置表6所示的反应体系：

表6

将配置好的反应液震荡混匀，反应条件：25℃，5min；4℃保持。

使用23μL AMPure PB磁珠进行产物纯化，回收的DNA溶于32μL(其中2μL为损耗)水中。

(3)接头连接

配置表7所示的反应体系：

表7

将配置好的反应液震荡混匀，反应条件：25℃，24h；65℃，10min；4℃保持。

(4)消化连接失败的DNA和接头序列

配置表8所示的反应体系：

表8

将配置好的反应液震荡混匀，反应条件：37℃，1h；4℃保持。

(5)纯化

第一步纯化：使用19μL AMPure PB磁珠进行产物纯化，回收的DNA溶于50μL洗脱缓冲液；第二步纯化：使用22.5μL AMPure PB磁珠进行产物纯化，回收的DNA溶于100μL洗脱缓冲液，Qubit定量浓度；第三步纯化：使用45μL AMPure PB磁珠进行产物纯化，回收的DNA溶于10μL洗脱缓冲液，Qubit定量浓度并进行Agilent 2100分析，结果如图5所示。

(五)上机测序

使用三代单分子测序仪(PacBio RS II)，采用PacBio RS II室(cell)/单样本程序对获得的样品文库进行测序。单个文库一个测序室(cell)，使得目标区域平均测序深度达到15×以上。

(六)信息分析

原始下机序列的质控按照Pacific Biosciences公司的标准流程RS Dashboard完成；利用PACIFIC SMRT Portal软件进行数据基本过滤：最小读长长度(Minimum SubreadLength)＜50；最小聚合酶读长质量(Minimum Polymerase Read Quality)＜75；最小聚合酶读长长度(Minimum Polymerase Read Length)＜50；利用RS_ReadsOfInsert_Mappingprotocol软件将序列定位到人类基因组数据相应的位置上，比对参数：a.最小全通过(Minimum Full Passes)：0；b.最小预测精度(Minimum Predicted Accuracy)：75；统计测序序列数和测序质量。

使用Pacific Biosciences公司的Targeted-Phasing-Consensus软件进行SNP调取(calling)，然后进行单体型构建；利用各个测序序列关联的SNP，用Targeted-Phasing-Consensus和perl R脚本输出父母单体型结果。并明确与目标基因突变位点相连锁遗传的SNP信息。单体型构建方法如下：

(1)在5K PacBio测序读长(reads)上检出目标基因(GJB2)突变点，从目标基因的突变点向两端延伸以寻找杂合的SNP位点，包括(SNV和InDel等)，一条测序读长含有多个SNP位点时，该测序读长长度即是一条单体型的长度。

(2)不同PacBio测序读长重叠区域含有相同的一个或多个SNP位点时，该条单体型可成功向两端继续区分，直至出现存在一段区域无测序读长覆盖或测序读长检出的SNP位点都是纯合，表明该区域单体型无法区分，最终得到与所述突变点连锁的单体型。

(七)结果分析

(1)数据产出情况

如表9所示，所测样品在目标区域平均测序深度均在15X以上，捕获效率大于20％。

表9文库捕获测序数据产出情况

(2)父母个体单体型构建结果

GJB2基因父亲单体型的构建结果如图6所示，其中，两条竖直实线表示GJB2基因区间，竖直虚线表示父亲GJB2突变位点；Hap0代表含有突变位点的单体型；Hap1代表正常的单体型，Hap0和Hap1之间横线代表可以区分的单体型区间长度，线上的点代表杂合的SNP位点，可用于父亲分型的SNP位点个数是33个；图中已标出测序深度、GC分布和覆盖度。

GJB2基因母亲单体型的构建结果如图7所示，其中，两条竖直实线表示GJB2基因区间，竖直虚线表示母亲GJB2突变位点；Hap0代表含有突变位点的单体型；Hap1代表正常的单体型，Hap0和Hap1之间横线代表可以区分的单体型区间长度，线上的点代表杂合的SNP位点，可用于母亲分型的SNP位点个数是34个；图中已标出测序深度、GC分布和覆盖度。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

SEQUENCE LISTING

<110> 深圳华大基因股份有限公司，天津华大医学检验所有限公司

<120> 基于长片段DNA捕获和三代测序的无创产前单体型构建方法

<130> 16I23653

<160> 2

<170> PatentIn version 3.3

<210> 1

<211> 22

<212> DNA

<213> 人工序列

<400> 1

aatgatacgg cgaccaccga ga 22

<210> 2

<211> 22

<212> DNA

<213> 人工序列

<400> 2

caagcagaag acggcatacg ag 22

Claims

1.一种基于长片段DNA捕获和三代测序的无创产前单体型构建方法，其特征在于，包括：

（1）用孕妇和/或其丈夫外周血中的基因组DNA构建用于目标区域捕获的二代文库，且不需要使用子代样本构建文库；

（2）用目标区域捕获探针对目标基因及侧翼区域进行捕获以获得捕获文库，其中所述目标基因包含突变点；

（3）以所述捕获文库构建三代上机测序文库，并进行三代测序以获得测序读长；

（4）在所述测序读长上，从所述目标基因的所述突变点向两端延伸以寻找杂合的SNP位点，其中一条测序读长含有多个SNP位点时，该测序读长长度即是一条单体型的长度；

（5）不同测序读长重叠区域含有相同的一个或多个SNP位点时，该条单体型可成功向两端继续区分，直至出现存在一段区域无测序读长覆盖或测序读长检出的SNP位点都是纯合，最终得到与所述突变点连锁的单体型。

2.根据权利要求1所述的无创产前单体型构建方法，其特征在于，用于构建所述二代文库的所述基因组DNA的量是2μg以上。

3.根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述构建用于目标区域捕获的二代文库包括如下步骤：

（1a）将所述基因组DNA打断成主峰为10K附近的DNA片段；

（1b）用磁珠纯化打断后的DNA片段；

（1c）片段选择5K至9K范围内的DNA片段；

（1d）对片段选择的DNA片段进行末端修复和3'端加A碱基；

（1e）使所述DNA片段与3'端带有T碱基的二代测序接头连接；

（1f）对接头连接产物进行LM-PCR预扩增，得到所述二代文库。

4.根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述侧翼区域包括所述目标基因上下游500K区域。

5.根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述构建三代上机测序文库包括如下步骤：

（3a）对所述捕获文库进行DNA损伤修复；

（3b）对所述捕获文库进行末端修复和纯化；

（3c）对纯化产物进行三代测序接头连接；

（3d）消化未连接的DNA片段和三代测序接头；

（3e）纯化连接产物，得到所述三代上机测序文库。

6.根据权利要求5所述的无创产前单体型构建方法，其特征在于，所述步骤（3d）使用核酸外切酶III和核酸外切酶VII消化未连接的DNA片段和三代测序接头。

7.根据权利要求5所述的无创产前单体型构建方法，其特征在于，所述步骤（3e）纯化连接产物进行三次。

8.根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述三代测序的所述目标区域平均测序深度15×以上。

9.根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述目标区域的捕获效率大于20%。

10. 根据权利要求1所述的无创产前单体型构建方法，其特征在于，所述三代测序采用三代单分子测序仪PacBio RS II实现。