CN117904723A

CN117904723A - 一种构建测序文库的方法及其试剂盒

Info

Publication number: CN117904723A
Application number: CN202211274448.3A
Authority: CN
Inventors: 陈丹; 韩博炜
Original assignee: Guangdong Jiyin Biological Co ltd
Current assignee: Guangdong Jiyin Biological Co ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2024-04-19

Abstract

一种构建测序文库的方法及其试剂盒，该方法包括：接头连接步骤：将多个核酸片段与接头混合，反应，得到两端均连接有接头的核酸片段产物；全基因组测序文库构建步骤：从接头连接步骤所得的核酸片段产物中取一部分样本，对样本进行全基因组扩增，得到全基因组测序文库；靶向测序文库构建步骤：从接头连接步骤所得的核酸片段产物中另取一部分样本，裂解样本中与核酸片段产物连接的接头中的部分序列，对裂解后的产物进行靶向扩增，得到靶向测序文库。本发明提供一种通用的兼顾全基因组和靶向扩增高通量测序文库构建方法，降低建库成本，缩短检测实验所需的时间，降低对样本起始量的要求。

Description

一种构建测序文库的方法及其试剂盒

技术领域

本发明涉及核酸检测领域，具体涉及一种构建测序文库的方法及其试剂盒。

背景技术

自从第一代测序技术Sanger测序发明以来，使得人们可以不断在单碱基水平研究各物种的基因组序列。由于Sanger测序价格昂贵，测序通量低等劣势，2005年左右二代测序相继被开发出来，极大地降低了测序的价格和提升了测序的通量。

测序可以在很多不同的层面开展，包括基因组、转录组、甲基化、免疫共沉淀测序等。基因组层面的测序主要可以分为三大类：全基因组测序(whole-genome sequencing，简称W GS)、全外显子测序(whole-exome sequencing，简称WES)、靶向测序(targetedsequencing或panel sequencing)。

全基因组测序，是对整个基因组的所有碱基进行测序，主要可分为从头测序(denovo s equencing)和重测序(re-sequencing)。从头测序不需要任何参考基因组信息即可对某个物种的基因组进行测序，利用生物信息学分析方法进行拼接、组装，获得该物种的基因组序列图谱，从而推进改物种的后续研究。重测序是对有参考基因组物种的不同个体进行的基因组测序，并在此基础上对个体或群体进行差异分析，主要用于辅助研究者发现核苷酸多态性位点(SNPs)、拷贝数变异(CNV)、插入/缺失(Indel)等变异类型。随着二代测序(Illumina)技术的发展与普及，全基因组重测序已成为人类遗传学、转化医学和群体进化领域最为迅速而有效的方法之一，可更全面地挖掘全基因组范围内的序列差异和结构变异，包括单碱基突变、插入缺失变异、拷贝数变异和结构变异(SNV、SNP、InDel、CNV、SV)，在全基因组水平上扫描并检测与表型差异、疾病、进化等相关的突变位点。

全外显子测序是对基因组的所有外显子进行测序(通常是编码基因的外显子)。对于人来说，外显子序列大概占到人类基因组序列的2％左右，主要应用于鉴定单核苷酸变异或少量碱基的插入或缺失等。但是全外显子测序的探针是依据已经完成的基因组序列设计，探针序列固定，无法检出特定的人群拥有的特异的变异。

靶向测序是将目标基因组区域的DNA片段进行富集后，再利用第二代测序技术进行测序的方法，包括靶向扩增子测序和靶向捕获测序。通常是对已知致病基因或感兴趣的基因进行测序，在临床中，主要应用于辅助疾病的诊断和治疗。由于只需对基因组中感兴趣的候选区域进行测序就可满足检测需求，大幅缩小了测序区域，极大地降低了成本，非常适合大样本量检测。

除了在临床上应用外，靶向测序和全基因组测序对于研究人员来说也非常有价值，研究人员对靶标区域和基因组序列的持续关注可以帮助他们确定新的基因变异是否与人的健康状况有关，这将有助于未来的疾病诊断。

全基因组测序能全面检测各类基因组变异，特别是结构变异，但是成本比较高。全外显子测序可用于全基因组层面的单核苷酸变异检测或少量碱基的插入或缺失等信息检测，但是不大适合用于鉴定结构变异，且建库成本较高。相对于靶向扩增测序，靶向捕获测序需要设计不同的探针，成本更高，并且建库起始量要求高，靶向扩增测序成本低，但是只能检测已知的目标区域。针对不同的检测需求需要选择不同的测序策略，如果需要同时获得全基因组和靶向测序数据，则需要分别构建两种不同的文库后再进行测序，获得相应的数据进行分析，耗时较长，建库成本较高。

发明内容

根据第一方面，在一实施例中，提供一种构建测序文库的方法，该方法包括以下步骤：

接头连接步骤：将多个核酸片段与接头混合，反应，得到两端均连接有所述接头的核酸片段产物；

文库构建步骤，所述文库构建步骤包括全基因组文库构建步骤以及靶向测序文库构建步骤；

所述全基因组测序文库构建步骤包括：从所述接头连接步骤所得的所述核酸片段产物中取一部分样本，对所述样本进行全基因组扩增，得到所述全基因组测序文库；

所述靶向测序文库构建步骤包括：从所述接头连接步骤所得的所述核酸片段产物中另取一部分样本，裂解所述样本中与所述核酸片段产物连接的接头中的部分序列，对裂解后的产物进行靶向扩增，得到所述靶向测序文库。

根据第二方面，在一实施例中，提供一种试剂盒，包含接头，所述接头包含第一序列和第二序列，其中，所述第二序列中至少部分序列与所述第二序列中至少部分序列反向互补配对，并且，所述第一序列含有至少一个裂解位点。该接头用于连接至核酸样本，用于靶向扩增时，通过裂解第一序列上的裂解位点，使得靶向扩增接头暴露，从而实现靶向扩增。

依据上述实施例的构建测序文库的方法及其试剂盒，本发明提供一种通用的兼顾全基因组和靶向扩增高通量测序文库构建方法，有效降低建库成本，显著缩短检测实验所需的时间。

在一实施例中，本发明降低对样本起始量的要求。

附图说明

图1为一种实施例的建库流程示意图。

图2为一种实施例的靶向建库流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

如本文所用，“脱氧尿苷”是指尿嘧啶的N-1与2-脱氧D-核糖的C-1通过β糖苷键相连接所形成的化合物，其磷酸酯是脱氧尿苷酸。

自2005年Bryant等提出“合成致死”概念以来，PARP抑制剂(PARP inhibitor，PARPi)的潜在抗肿瘤作用逐步被揭示。研究显示，PARP抑制剂的作用机理是基于DNA修复损伤机制，通过抑制DNA修复蛋白结合，并使PARP从DNA缺口处解离，阻断后续的单链D NA修复过程。在细胞内，如果PARP功能被抑制就会导致DNA单链断裂的积累，进而会导致DNA双链断裂。而如果细胞发生BRCA1/2基因突变或HRR通路其他基因突变，就会引起HRD(同源重组缺陷，Homologous recombination deficiency)，从而诱导肿瘤细胞凋亡。所以，当肿瘤细胞出现HRD，同时PARP被抑制时，就会产生“合成致死”效应，存在HR D的肿瘤对PARP抑制剂更敏感。PARP抑制剂是第一种成功利用合成致死概念获得批准在临床使用的抗癌药物，并且NCCN、ASCO等指南推荐对所有卵巢癌、转移性乳腺癌、胰腺癌及转移性前列腺癌患者进行基因检测，对于BRCA阴性患者，可检测其HRD状态作为用药参考。

目前有一些基于高通量测序检测HRD的方法如HRDetect、Signature 3、SigMA、scarH RD，以及检测产品如Myriad、Foundation Medicine等。但这些产品都是基于SNPPanel来设计，SNP Panel通过捕获目标序列，进行目标序列测序分析，该方法相比于高深度全基因组测序的显著优点在于缩小了测序覆盖范围，降低检测数据，减少测序成本，但是，建库成本却增加了，并且由于是定向捕获，无法覆盖整个基因组水平，存在漏检的可能，并且定向捕获步骤增加了检测实验所需的时间与对样本起始量的要求。

新一代高通量测序技术(NGS)是近年来发展迅速，其一次性可并行检测几十万到几百万条DNA分子而受到关注。随着高通量测序技术成本的降低与普及，高通量测序在临床上也得到广泛应用。但临床样本通常都比较珍贵，针对某些样本同时需要靶向和全基因组测序，目前都是通过分别构建两种不同的文库后再进行测序获得相应的数据，需要的样本较多，文库构建的时间也较长，建库成本也较高，这限制了临床上某些样本的检测应用。

根据第一方面，在一实施例中，提供一种构建测序文库的方法，包括：

接头连接步骤：将多个核酸片段与接头混合，反应，得到两端均连接有接头的核酸片段产物；

文库构建步骤，文库构建步骤包括全基因组文库构建步骤以及靶向测序文库构建步骤；

全基因组测序文库构建步骤包括：从接头连接步骤所得的核酸片段产物中取一部分样本，对样本进行全基因组扩增，得到全基因组测序文库；

靶向测序文库构建步骤包括：从接头连接步骤所得的核酸片段产物中另取一部分样本，裂解样本中与核酸片段产物连接的接头中的部分序列，对裂解后的产物进行靶向扩增，得到靶向测序文库。

全基因组测序文库构建步骤、靶向测序文库构建步骤为平行步骤无先后顺序之分，可以先执行其中任意一个步骤，也可以同时执行两个步骤。两个步骤的起始物均取自接头连接步骤的核酸片段产物，两个步骤独立地进行，所得的产物各自进行测序。

在一实施例中，本发明能够降低起始量要求，无需设计SNP Panel，降低文库构建成本。本发明的两种建库方式只需1份起始样本，并且在接头连接前的反应为一管反应，相比现有技术中使用两份样本分别建库，本发明能有效降低实验过程中的损耗，并降低样本起始量要求。

在一实施例中，该方法的全基因组测序文库构建步骤、靶向测序文库构建步骤只需分别进行一次PCR扩增，显著缩短建库流程，提高建库效率。

在一实施例中，在接头连接步骤中，核酸片段产物所连接的接头为双链接头，在靶向测序文库构建步骤中，核酸片段产物所连接的双链接头中，一条单链中的至少部分序列被裂解。

在一实施例中，接头包含至少一个裂解位点，使得后续靶向扩增时，可以先裂解接头，使得靶向扩增接头暴露，从而实现靶向扩增。接头上的裂解位点的位置、数量无限制，可以在接头上的任意位置设计裂解位点。

在一实施例中，接头的其中一条单链上设有裂解位点，用于在靶向扩增时裂解，形成暴露的靶向扩增接头，另一条单链用于与测序接头通用引物部分反向互补配对，扩增得到可用于上机测序的产物。

在一实施例中，在接头连接步骤中，接头具有第一序列和第二序列，第一序列中至少部分序列与第二序列中至少部分序列反向互补配对，第一序列含有至少一个裂解位点，在靶向测序文库构建步骤中，通过化学作用或物理作用，将第一序列的裂解位点裂解，使得靶向扩增接头暴露。裂解位点可以位于第一序列中与第二序列反向互补配对的区域，也可以位于第一序列中与第二序列不具有反向互补配对关系的区域，前述两个区域中的裂解位点的位置和数量不受限制。

在一实施例中，裂解位点包含化学作用位点或物理作用位点，化学作用位点包括但不限于酶切位点，物理作用位点包括但不限于光裂解位点。

在一实施例中，酶切位点包括但不限于脱氧尿苷或核糖核苷酸，核糖核苷酸包括但不限于腺嘌呤核糖核苷酸、鸟嘌呤核糖核苷酸、胞嘧啶核糖核苷酸或尿嘧啶核糖核苷酸。如图1所示，接头上的U表示U碱基(对应的核苷酸为脱氧尿苷)修饰，也可以为U碱基之外的任意RNA碱基修饰，修饰碱基数量不受限制。

在一实施例中，在靶向测序文库构建步骤中，使用酶裂解样本中含有裂解位点的接头，使得靶向扩增接头或靶向扩增区域暴露，便于后续的靶向扩增。

在一实施例中，裂解时使用的酶包含尿嘧啶DNA糖基化酶(UDG)。

在一实施例中，裂解位点为酶识别和酶作用位点。

在一实施例中，裂解位点为脱氧尿苷(ideoxyU)，可利用尿嘧啶DNA糖基化酶除去该尿嘧啶碱基，该碱基也可被组合酶(如USER^TM，New England Biolabs)切割。

在一实施例中，多个核酸片段来源于天然的片段化核酸样本或人工打断得到的片段化核酸样本。天然的片段化核酸样本包括但不限于cfDNA样本，无需人工打断。对于基因组DN A(gDNA)样本，通常需要进行人工打断，得到片段化核酸样本。打断的方式包括但不限于物理打断、酶切打断，物理打断的方式包括但不限于超声打断。

在一实施例中，多个核酸片段是由天然的片段化核酸样本或人工打断得到的片段化核酸样本经过末端修复、加“A”反应得到。

在一实施例中，如图1所示，在靶向测序文库构建步骤中，构建靶向测序文库的反应体系中含有靶向引物(亦称靶向扩增引物)、第一通用测序引物和第二通用测序引物。图1中的测序接头通用引物1即为第一通用测序引物，测序接头通用引物2即为第二通用测序引物。

靶向引物用于对靶标区域进行扩增，第一通用测序引物、第二通用测序引物用于对靶向引物的扩增产物进行扩增。靶标区域位于接头连接步骤获得的核酸片段产物中。

靶向引物包含公共测序序列、可与靶标区域反向互补配对的序列；靶向引物的公共测序序列中的至少部分序列与第一通用测序引物的至少部分公共测序序列相同；在一实施例中，该相同序列位于或靠近靶向引物的5’端，且位于或靠近第一通用测序引物的3’端。

在靶向测序文库构建步骤中，样本中核酸片段产物中至少部分单链(主要是指双链产物中的一条单链)的一端串联连接有接头中含有至少一个裂解位点的第一序列，第一序列被裂解后，形成暴露的靶向扩增接头，暴露的靶向扩增接头用于与靶向引物的至少部分序列反向互补配对；在一实施例中，如果第一序列裂解后存在残留碱基(例如图2中的AGA，即为靶向扩增接头)，则残留碱基与靶向引物中靠近3’端的公共测序序列反向互补配对；在另一实施例中，如果第一序列裂解后不存在残留碱基，则靶向扩增接头即为暴露的靶标区域，此时靶向引物中可与靶标区域反向互补配对的序列会与暴露的靶标区域反向互补配对。

核酸片段中至少部分单链的另一端串联连接有接头中不含有裂解位点的第二序列，第二序列中不与第一序列反向互补配对的至少部分序列与第二通用测序引物的至少部分序列相同。在一实施例中，如图2所示，该相同序列可以位于第二序列的5’端以及第二通用测序引物(P5 PCR primer1_neb)的3’端，便于第二通用测序引物对靶向扩增产物进行扩增。

靶向引物、第一通用测序引物、第二通用测序引物在同一体系中，经过一轮PCR，即可完成靶向扩增以及通用引物扩增，无需进行多轮PCR，显著缩减建库流程。

在一实施例中，在全基因组测序文库构建步骤中，构建全基因组测序文库的反应体系中含有可与接头的第一序列中的至少部分序列反向互补配对的第一通用测序引物、与接头的第二序列中的至少部分序列相同的第二通用测序引物。

在一实施例中，如图2所示，第一序列中与第一通用测序引物(i7 PCR primer_neb)互补的序列为不与第二序列互补配对的序列，且该序列位于第一序列的3’端。对应地，该互补序列位于第一通用测序引物的5’端。

在一实施例中，如图2所示，第二序列中与第二通用测序引物(P5 PCR primer1_neb)相同的序列为不与第一序列互补配对的序列，该相同序列位于第二序列的5’端，对应地，该相同序列位于第二通用测序引物的3’端，使得第二通用测序引物可以对第一通用测序引物扩增后的序列进行扩增。

在一实施例中，在接头连接步骤中，接头序列的第一序列中含有可与第一通用测序引物反向互补配对的序列。在一实施例中，第一序列中的该段序列即为不与第二序列反向互补配对的序列。在一实施例中，第一序列中的该段序列靠近或位于第一序列的3’端。

在一实施例中，在接头连接步骤中，接头序列的第二序列中含有与第二通用测序引物的至少部分序列相同的序列；该序列即为第二序列中不与第一序列反向互补配对的序列。在一实施例中，第二序列中的该段序列靠近或位于第二序列的5’端。

在一实施例中，如图1所示，全基因组测序文库构建步骤中，反应体系中含有可与接头的第一序列中的至少部分序列反向互补配对的第一通用测序引物、可与接头的第二序列中的至少部分序列反向互补配对的第二通用测序引物，全基因组测序文库构建步骤也只需要一轮PCR，即可得到可用于上机测序的文库。

在一实施例中，全基因组测序文库构建步骤使用的第一通用测序引物与靶向测序文库构建步骤中的第一通用测序引物相同，全基因组测序文库构建步骤使用的第二通用测序引物与靶向测序文库构建步骤中的第二通用测序引物相同。

在一实施例中，接头包含分子标签(亦称特异性分子标签)。如图1所示，本发明中的接头也可以是带UMI的接头，UMI为特异性分子标签(Unique Molecular Indentifier，UMI)，是一段随机化或特定的核苷酸短序列，通常设计为完全随机的核苷酸链(如NNNNNN)、部分简并核苷酸链(如NNNRNYN，R表示A或G，Y表示C或T)或者固定核苷酸链。建库过程中通过给每一个原始DNA片段加上一段特有的核苷酸标签序列(UMI)，经过文库构建及PCR扩增过程之后，一起进行测序。根据不同的UMI序列区分不同来源的DNA模板，分辨哪些是PCR扩增及测序过程中产生的随机错误造成的假阳性突变，哪些是患者真正携带的突变，从而提高检测的灵敏度和特异性(在模板分子有限的情况下)。

在一实施例中，对于Illunima测序平台，可以有多种接头设计方案。

在一实施例中，第一序列可以为如下序列：

5'-pho-GAUCGGAAGAGCACACGUCTGAACUCCAGTC-3'(SEQ ID NO:1)。

第二序列可以为如下序列：

5'-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'(SEQ ID NO:2)。

第一序列中下划线标示的序列可与第二序列中下划线标示的序列反向互补配对。

在另一实施例中，第一序列可以为如下序列中的任意一种：

1)5'-pho-CTGUCTCTTAUACACATCUCCGAGCCCACGAGAC-3'(SEQ ID NO:5)；

2)5'-pho-CUGTCUCTTAUACACAUCTCCGAGCCCACGAGAC-3'(SEQ ID NO:6)。

“pho”表示磷酸基团修饰。

第二序列可以为如下序列：

5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGT-3'(SEQ ID NO:7)。

在一实施例中，分子标签位于或靠近接头上用于连接至核酸样本的一端。

在一实施例中，第一通用测序引物、第二通用测序引物中的至少一种还可以包含样本标签，在多样本混合测序后，通过这些样本标签识别对应的样本。

样本标签说明：在PCR过程中通过扩增的方式在DNA片段上添加一段分子序列作为样本标签。在多样本混合测序后，通过这些样本标签即可确定对应的样品。可以是单端样本标签，也可以是双端样本标签，可进一步扩大同时上机测序样本的通量。

在一实施例中，第一通用测序引物、第二通用测序引物通常为测序平台的通用引物，例如，可以是Illumina测序平台的通用测序引物。

在一实施例中，待测核酸样本为DNA或RNA。

在一实施例中，接头上用于串联至核酸样本的一端为粘性末端或平末端。

在一实施例中，接头上用于串联至核酸样本的一端为粘性末端时，接头的一条单链上用于串联至核酸样本的一端具有突出的碱基，另一条单链上用于串联至核酸样本的一端修饰有磷酸基团。粘性末端可提高连接效率。

在一实施例中，突出的碱基为T碱基。

在一实施例中，接头的第二序列上用于串联至核酸样本的一端具有突出的碱基，另第一序列上用于串联至核酸样本的一端修饰有磷酸基团。

在一实施例中，接头中，第一序列与第二序列反向互补配对的区域靠近用于串联至核酸样本的一端。

在一可选的实施例中，第一序列的3’末端带有硫代磷化修饰，例如使3'末端的第一个和第二个核苷酸的磷酸二酯键中的-O-变成-S-，该修饰有利于稳定接头，利于后续测序反应。

在一实施例中，接头连接步骤中，待测核酸样本包含基因组DNA时，预处理包括对待测核酸样本中的待测核酸分子进行打断、末端修复、加“A”反应。

在一实施例中，接头连接步骤中，对于cfDNA等样本，可以直接进行末端修复、加“A”反应。

在一实施例中，接头连接步骤中，包括对产物进行纯化，将纯化后的产物用于全基因组测序文库构建步骤和/或靶向测序文库构建步骤。

在一实施例中，全基因组测序文库构建步骤中，对所得样本进行全基因组扩增后，对所得产物进行纯化，获得纯化后的全基因组测序文库，即为可用于上机测序的文库。

在一实施例中，靶向测序文库构建步骤中，对靶向扩增后的产物进行纯化，获得纯化后的靶向测序文库，即为可用于上机测序的文库。

在一实施例中，接头连接步骤中，待测核酸样本来源于基因组DNA样本、cfDNA样本中的至少一种。

在一实施例中，接头连接步骤中，待测核酸样本含有双链DNA、单链DNA中的至少一种。

在一实施例中，接头连接步骤中，接头中的第一序列、第二序列在接头连接反应体系中的浓度接近或相等。

根据第二方面，在一实施例中，提供一种试剂盒，包含接头，接头包含第一序列和第二序列，第二序列中至少部分序列与第二序列中至少部分序列反向互补配对，第一序列含有至少一个裂解位点。该接头用于连接至核酸样本，用于靶向扩增时，通过裂解第一序列上的裂解位点，使得靶向扩增接头暴露，从而实现靶向扩增。

在一实施例中，试剂盒还包含用于靶向扩增靶标区域的靶向引物，靶向引物包含公共测序序列和可与靶标区域反向互补配对的序列；靶向引物的公共测序序列中的至少部分序列与第一通用测序引物的至少部分公共测序序列相同。

在一实施例中，所述第一通用测序引物、第二通用测序引物用于对所述靶向引物的扩增产物进行扩增。经过第一通用测序引物、第二通用测序引物扩增后得到的样本即为可上机测序的样本。

在一实施例中，所述第一通用测序引物用于扩增所述靶向引物所在的单链，所述第二通用测序引物用于扩增所述靶向引物所在单链的互补链。

在一实施例中，本发明提出一种通用的兼顾全基因组和靶向扩增高通量测序文库构建方法，使用一份样本以及一次建库流程，能同时得到全基因组测序文库和靶向区域扩增子文库，该方法既能够降低对样本的起始量的要求，降低文库构建的成本，还能简化检测流程，节省操作时间，给临床应用提供更多低成本更灵活的选择。在一实施例中，低深度全基因组结合靶向测序可以检测HRD与BRCA基因突变，为拓宽PARPi的获益人群提供一种更为经济的临床应用方法。

在一实施例中，本发明提供一种低深度全基因组结合靶向BRCA基因扩增子建库方法，既能提供基于整个基因组的特征HRD的结果[Eeckhoutte A,Houy A,Manié E,etal.Shallo wHRD:detection of homologous recombination deficiency from shallowwhole genome sequ encing[J].Bioinformatics,2020,36(12):3888-3889.]，还能提供使用最广泛的BRCA目标基因组区域的突变信息。

在一实施例中，本发明提供一种通用的兼顾全基因组和靶向扩增高通量测序文库构建方法，相比于Myriad、Foundation Medicine基于SNP Panel设计的产品，本发明能降低建库成本，缩短检测实验所需的时间，降低对样本起始量的要求。

在一实施例中，本发明通过巧妙的接头设计，实现兼顾全基因组扩增和一步PCR靶向区域扩增富集。

在一实施例中，图2所示为接头连接及靶向扩增流程示意图，其中使用的各序列说明如下表所示。

表1

表1中示例性展示了两套接头与配套引物序列，可以根据实际需要，设计其他结构的接头。

表1中，“phos”表示修饰的磷酸基团。

图2中以第一套接头与配套引物序列展示了建库过程，第二套接头的建库过程类似。

图2的多重PCR流程中，PCR第一个循环中的靶向引物序列中，以“N”表示的碱基序列是指可与原始DNA结合的靶向区域，下划线区域为公共测序序列；箭头是延伸方向。

图2中，i7 PCR primer_neb即为第一通用测序引物，P5 PCR primer1_neb即为第二通用测序引物。

实施例

图1所示为本实施例的建库流程示意图。

本实施例所使用的样本1为采购的商业化的乳腺癌肿瘤细胞系gDNA(菁良科技，GW-FGTM012-T)，样本2乳腺癌FFPE样本，两种样本均做2个实验重复，建库方法如下：

(1)打断、末端修复及加“A”反应：

采用酶切打断的方法将样品基因组DNA(商业化的乳腺癌肿瘤细胞系gDNA(菁良科技，GW-FGTM012-T)打断成约为150～700bp小片段，然后末端修复并加“A”尾。

参考如下表2所示的体系配制反应液，37℃反应20min，65℃反应30min，4℃保温(打断、末端修复及加“A”的试剂采用的是NEB的试剂：Ultra^TM II FS DNA Module)。

表2一步法片段化末端修复体系

组分	体积
		DNA(200ng)	26μL
酶反应缓冲液(FS Reaction Buffer)	7μL
		酶混合物(FS Enzyme Mix)	2μL
总体积	35μL

(2)接头连接

参照如下体系配制反应液，将反应体系置于PCR仪中20℃反应15min(接头连接反应混合液与连接反应辅助试剂来源于Ultra^TM II Ligation Module，接头为自配，具体序列见下表的反应体系)。

表3接头连接反应体系

备注：序列1中，U是指脱氧尿苷；接头序列中，下划线标示的序列是可以反向互补配对的序列。

(3)连接后纯化

向上一步反应液中加入DNA纯化磁珠(0.8X)纯化，20μL缓冲液洗脱溶解DNA。

(4-1)全基因组文库富集

(a)PCR扩增

取15μL纯化后的DNA于一个新的0.2mL PCR管中，并参照如下体系配制全基因组文库PCR扩增富集反应液。

表4全基因组文库PCR扩增富集反应体系

备注：i7 PCR Primer序列中，下划线标示的序列是样本标签序列。

参照下表所示程序进行全基因组文库扩增富集反应

表5全基因组文库PCR扩增富集反应程序

(b)全基因组文库扩增富集反应后纯化

全基因组文库扩增富集反应后，向全基因组扩增反应产物中加入45μL纯化磁珠(0.9X)纯化，20μL缓冲液洗脱溶解DNA。

(4-2)靶向区域文库富集

(a)酶消化

取5μL纯化后的DNA于一个新的0.2mL PCR管中，并参照如下体系配制靶向富集酶消化反应液，然后置于PCR仪，37℃反应15min，80℃反应1min；65℃反应15min。

表6靶向富集酶消化反应体系

(b)富集

向酶消化反应后的产物中加入下表所示的反应体系。

表7靶向文库PCR扩增富集反应体系

备注：1、i7 PCR Primer序列中，下划线标示的序列是样本标签序列；

2、BRCA1靶向引物混合池具体引物序列见表8的BRCA1靶向引物池引物序列信息。

表8 BRCA1靶向引物池引物序列信息

/>

参照下表进行靶向文库扩增富集反应。

表9靶向文库PCR扩增富集反应体系

(c)靶向文库扩增富集反应后纯化

靶向文库扩增富集反应后，向靶向文库扩增反应产物中加入40μL纯化磁珠(0.8X)纯化，使用20μL缓冲液洗脱溶解DNA。

(5)测序与数据分析

测序文库经质控合格后利用公司的Illumina测序仪进行测序，对测序所得数据进行低质量序列以及接头序列过滤后，使用生物信息学工具评估靶区域的高灵敏、覆盖度和均一性。

对上述全基因组和BRCA1靶向扩增的PCR反应纯化后的产物进行上机测序和数据分析。

数据分析具体方法如下：

对下机数据根据样本标签受限进行数据分类，全基因组文库数据进行shallowHRD分析，靶向扩增文库数据进行靶向扩增分析。

(a)对全基因组文库测序所得数据进行低质量序列以及接头序列过滤后，进行全基因组数据比对，去除重复后进行CNV检测，根据shallowHRD的算法进行LGA值的计算。

(b)对靶向扩增文库测序所得数据进行低质量序列以及接头序列过滤后，使用生物信息学工具评估比对率、靶区域的覆盖度、靶向率等指标，以及进行变异检测。

本文实施例中的部分术语解释如下。

比对率是指窗口内的测序序列比对到参考基因组序列上的比率。

重复率是指比对到参考基因组相同位置的的测序序列的比率。

LGA:大规模基因组变异(Large-scale genomic alterations)。

靶向率：测序序列比对到靶向区域的比率。

平均测序深度是指测序得到的碱基总量与目标序列碱基的比值，即被测基因组上单个碱基被测序的平均次数。

目标区域1x覆盖度是指目标区域中测序深度＞1x的区域占总目标区域的比例。

目标区域50x覆盖度是指目标区域中测序深度＞50x的区域占总目标区域的比例。

目标区域100x覆盖度是指目标区域中测序深度＞100x的区域占总目标区域的比例。

样本1(采购的商业化的乳腺癌肿瘤细胞系gDNA)的全基因组文库分析结果如下：

表10

文库名称	比对率	重复率	LGA分数
				HRD_12_T_genome_1	90.78％	15.38％	47
HRD_12_T_genome_2	91.06％	14.24％	48

从表10可见，对于商业化的HRD标准品乳腺癌肿瘤细胞系gDNA，使用本发明方案构建全基因组文库后，进行shallowHRD分析，通过LGA阈值判定，该样本为HRD阳性样本，这与商业的标准品的30X高深度基因组分析结果一致。

样本1(采购的商业化的乳腺癌肿瘤细胞系gDNA)的靶向扩增文库分析结果如下：

表11

从表11可见，对于商业化的HRD标准品乳腺癌肿瘤细胞系gDNA，采用本实施例的方案构建靶向文库，能实现目标靶向区域的分析，并且检出的变异结果与已知的结果一致。

样本2(乳腺癌FFPE样本)的全基因组文库分析结果如下：

表12

文库名称	比对率	重复率	LGA分数
				FFPE_1	85.29％	13.25％	49
FFPE_2	84.89％	14.25％	49

从表12可见，本实施例的全基因组文库数据能达到使用目的的分析需求，能通过全基因组的大规模基因组变异结果判定该样本为HRD阳性。

样本2(乳腺癌FFPE样本)的靶向扩增文库分析结果如下：

表13

从表13可见，本实施例的靶向文库扩增的各分析指标均能达到分析需求，并且检出的变异结果与一代测序验证结果一致。

在一实施例中，本发明通过对接头序列的修饰，能在常规全基因组文库构建的基础上，兼容靶向扩增子建库。并且靶向区域文库富集步骤只需要一轮PCR即可，能缩短建库时间，减少文库构建样本需求量与建库成本。

在一实施例中，本发明在接头连接后，全基因组文库富集和靶向区域富集是分管进行的，靶向区域和全基因组区域的富集相互之间完全不受影响。另一方面，现有技术中，文库富集需要两轮PCR扩增，而本发明通过对接头进行修饰，文库富集步骤只需要一轮PCR(指数扩增)即可，能缩短建库时间。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种构建测序文库的方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，在接头连接步骤中，核酸片段产物所连接的接头为双链接头，在所述靶向测序文库构建步骤中，所述核酸片段产物所连接的双链接头中，一条单链的至少部分序列被裂解。

3.如权利要求1～2任意一项所述的方法，其特征在于，在接头连接步骤中，所述接头具有第一序列和第二序列，所述第一序列中至少部分序列与所述第二序列中至少部分序列反向互补配对，所述第一序列包含至少一个裂解位点；

优选的，所述裂解位点包含化学作用位点或物理作用位点；

优选的，所述化学作用位点包含酶切位点；

优选的，所述物理作用位点包含光裂解位点；

优选的，所述酶切位点包含脱氧尿苷或核糖核苷酸。

4.如权利要求1～3任意一项所述的方法，其特征在于，在所述靶向测序文库构建步骤中，使用酶裂解所述样本中含有所述裂解位点的接头；

优选的，所述酶包含尿嘧啶DNA糖基化酶；

优选的，所述多个核酸片段来源于天然的片段化核酸样本或人工打断得到的片段化核酸样本；

优选的，所述多个核酸片段是由所述天然的片段化核酸样本或人工打断得到的片段化核酸样本经过末端修复、加“A”反应得到。

5.如权利要求1～4任意一项所述的方法，其特征在于，在所述靶向测序文库构建步骤中，构建靶向测序文库的反应体系中含有靶向引物、第一通用测序引物和第二通用测序引物；

所述靶向引物用于对靶标区域进行扩增，所述第一通用测序引物、第二通用测序引物用于对所述靶向引物的扩增产物进行扩增；

优选的，在所述靶向测序文库构建步骤中，所述第一通用测序引物用于扩增所述靶向引物所在的单链，所述第二通用测序引物用于扩增所述靶向引物所在单链的互补链；

优选的，在所述靶向测序文库构建步骤中，所述靶向引物包含公共测序序列和可与靶标区域反向互补配对的序列；所述靶向引物的公共测序序列中的至少部分序列与第一通用测序引物的至少部分公共测序序列相同；

优选的，在所述靶向测序文库构建步骤中，所述核酸片段产物中至少部分单链的一端串联连接有所述接头中含有至少一个裂解位点的第一序列，所述第一序列被裂解后，形成暴露的靶向扩增接头，所述暴露的靶向扩增接头用于与所述靶向引物的至少部分序列反向互补配对；和

所述至少部分单链的另一端串联连接有所述接头中不含有裂解位点的第二序列，所述第二序列中不与第一序列反向互补配对的至少部分序列与第二通用测序引物的至少部分序列相同；

优选的，在所述接头连接步骤中，接头序列的第一序列中含有可与第一通用测序引物反向互补配对的序列；

优选的，在所述接头连接步骤中，接头序列的第二序列中含有与第二通用测序引物的至少部分序列相同的序列；

优选的，在所述靶向测序文库构建步骤中，接头序列的第一序列中含有的可与第一通用测序引物反向互补配对的序列被裂解。

6.如权利要求1～5任意一项所述的方法，其特征在于，在所述全基因组测序文库构建步骤中，构建所述全基因组测序文库的反应体系中含有可与所述接头的第一序列中的至少部分序列反向互补配对的第一通用测序引物和与所述接头的第二序列中的至少部分序列相同的第二通用测序引物。

7.如权利要求1～6任意一项所述的方法，其特征在于，在所述接头连接步骤中，所述接头包含分子标签。

8.如权利要求1～7任意一项所述的方法，其特征在于，在所述接头连接步骤中，所述核酸片段为天然的核酸片段或经人工打断获得的核酸片段；

优选的，在所述接头连接步骤中，所述核酸片段为经过末端修复、加“A”反应后获得的核酸片段。

9.一种试剂盒，其特征在于，所述试剂盒包含接头，所述接头包含第一序列和第二序列，其中，所述第二序列中至少部分序列与所述第二序列中至少部分序列反向互补配对，并且，所述第一序列含有至少一个裂解位点。

10.如权利要求9所述的试剂盒，其特征在于，所述试剂盒还包含用于靶向扩增靶标区域的靶向引物，所述靶向引物包含公共测序序列和可与靶标区域反向互补配对的序列；其中，所述靶向引物的公共测序序列中的至少部分序列与第一通用测序引物的至少部分公共测序序列相同；

优选的，所述试剂盒还包含第一通用测序引物、第二通用测序引物，所述第一通用测序引物、第二通用测序引物用于对所述靶向引物的扩增产物进行扩增；

优选的，所述第一通用测序引物用于扩增所述靶向引物所在的单链，所述第二通用测序引物用于扩增所述靶向引物所在单链的互补链。