CN111575347A

CN111575347A - 构建用于同时获得血浆中游离dna甲基化和片段化模式信息的文库的方法

Info

Publication number: CN111575347A
Application number: CN202010425068.XA
Authority: CN
Inventors: 汪小我; 方欢; 钟碧溪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-08-25

Abstract

本发明提出了构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法，所述方法包括：(1)提取血浆中的游离DNA；(2)将所述游离DNA的末端连接测序接头，以便得到连接有测序接头的游离DNA；(3)将连接有测序接头的游离DNA进行重亚硫酸盐转化处理，以便得到转化后的游离DNA；(4)将所述转化后的游离DNA进行扩增及纯化处理，以便得到测序文库。利用本发明的方法满足了血浆中游离DNA低起始量的要求，能够同时准确地获得血浆中游离DNA甲基化和片段化模式信息，操作简便，为整合分析和检测奠定了基础。

Description

构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法

技术领域

本发明涉及生物领域。具体地，本发明涉及构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法。

背景技术

血浆游离DNA(cell-free DNA，cfDNA)是指血浆中游离于细胞之外的DNA分子，其来源于人体各组织器官凋亡后释放的片段化基因组。血浆游离DNA的半衰期约为十几分钟到几个小时，有潜力实时反映机体的健康与疾病信息。目前，通过检测血浆游离DNA可无创监测癌症病人的肿瘤发生发展、孕妇中胎儿的遗传和发育、器官移植受体的排异情况，具有巨大的研究价值和应用前景。

血浆游离DNA携带了其来源细胞基因组的突变、拷贝数变异等基因组变异、DNA甲基化及片段化模式的信息。其中，突变包括DNA序列的点突变和插入缺失突变，拷贝数变异是由于染色质重排导致的大范围变异，DNA甲基化一般发生于胞嘧啶的5号碳原子上，即5mC甲基化，片段化模式是指基因组被打断为长度不一的DNA片段时产生的片段端点模式。

测序文库构建是DNA测序前的重要步骤，主要目的是在DNA片段两端连接预定接头序列，便于后续测序。文库构建的质量直接决定了数据的有效率等。

在利用血浆游离DNA进行检测的过程中，常常需要综合利用多维度信息，但目前DNA甲基化、片段化模式的检测文库需要分别构建，不仅费时费力，而且成本较高，尚缺乏同时检测血浆游离DNA甲基化和片段化模式的文库构建方法。

发明内容

本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。为此，本发明提出了构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法、测序文库、同时获得血浆中游离DNA甲基化和片段化模式信息的方法，利用该方法满足了血浆中游离DNA低起始量的要求，能够同时准确地获得血浆中游离DNA甲基化和片段化模式信息，操作简便，为整合分析和检测奠定了基础。

需要说明的是，本发明是基于发明人的下列发现而完成的：

血浆游离DNA测序文库构建的一般方法为：在纯化的血浆游离DNA分子两端连接接头序列，然后PCR扩增形成测序文库。该建库测序方法被称为全基因组测序(whole genomesequencing，WGS)，所得测序数据可用于检测基因组变异和片段化模式，不能用于检测DNA甲基化。

目前，常见的检测DNA甲基化信息是先用重亚硫酸盐对DNA进行转化，在此过程中未被甲基化保护的胞嘧啶(C)会转化为尿嘧啶(U)，经PCR扩增后测序为胸腺嘧啶(T)，然后在DNA的两端连接测序接头，最后PCR扩增测序。但是，发明人发现，由于DNA可能在重亚硫酸盐的处理下被打断，人为打断的DNA干扰了对DNA原始的片段化模式信息的确认，容易导致检测结果不准确。

有鉴于此，发明人先在cfDNA两端连接测序接头，再用重亚硫酸盐转化处理DNA，最后进行PCR扩增测序。由此，可以有效地保留DNA原始片段化模式信息。进一步地，由于血浆中cfDNA浓度较低，约为10～100ng/mL，抽取健康人的10mL血液仅获得约50ng cfDNA，该起始量达不到用于常规基因组DNA甲基化试剂盒的建库要求，文库复杂度过低，即使加大PCR循环数也无法产出可供上机的测序文库。因此，发明人通过对构建文库的过程进行优化，尤其是重亚硫酸盐转化处理条件，从而保证构建文库的稳定性和准确性。同时，基于需要同时确定甲基化和片段化模式信息，对测序过程中的参数设置进行了优化，从而保证测序结果的稳定性和准确性。

为此，在本发明的一个方面，本发明提出了一种构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法。根据本发明的实施例，所述方法包括：(1)提取血浆中的游离DNA；(2)将所述游离DNA的末端连接测序接头，以便得到连接有测序接头的游离DNA；(3)将所述连接有测序接头的游离DNA进行重亚硫酸盐转化处理，以便得到转化后的游离DNA；(4)将所述转化后的游离DNA进行扩增及纯化处理，以便得到测序文库。

目前，常见的检测DNA甲基化信息是先用重亚硫酸盐对DNA进行转化，然后再连接测序接头和PCR扩增测序，由于DNA可能在重亚硫酸盐的处理下被打断，人为打断的DNA干扰了对DNA原始的片段化模式信息的确认，容易导致检测结果不准确。发明人采用先在cfDNA两端连接测序接头，再用重亚硫酸盐转化处理DNA，最后进行PCR扩增测序。由此，可以有效地确定DNA原始片段化模式信息，同时实现获得血浆中游离DNA甲基化和片段化模式信息的目的。由此，根据本发明实施例的方法可以同时获得血浆中游离DNA甲基化和片段化模式信息的文库，便于后续测序，从而准确地获得血浆中游离DNA甲基化和片段化模式信息，操作简便，为整合分析和检测奠定了基础。

根据本发明的实施例，上述构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法还可以具有下列附加技术特征：

根据本发明的实施例，所述重亚硫酸盐转化处理是采用EZ DNA Methylation-Gold kit试剂盒进行的，具体流程如下：将15～25μL所述连接有测序接头的游离DNA与100～150μL CT Conversion Reagent转化试剂混合，然后将得到的混合液于95～100℃孵育5～15分钟，再于60～65℃孵育2.5～3.5小时，优选3.5小时，最后经孵育后的混合液进行柱层析纯化，以便得到所述转化后的游离DNA。

根据本发明的实施例，步骤(2)进一步包括：将所述游离DNA与终浓度为0.5～5体积％的预先经超打断的λ-DNA进行混合，再进行末端修复、片段末端加dA准备连接，然后连接测序接头。λ-DNA可作为甲基化转化效率的标定物。

根据本发明的实施例，步骤(2)中，测序接头在连接体系中的浓度为10～20μM。

根据本发明的实施例，所述测序接头中所有胞嘧啶(C碱基)携带甲基化修饰，且上游引物的5’端携带磷酸基团。根据本发明的实施例，所述测序接头具有SEQ ID NO：1和2所示的核苷酸序列，其中，C端携带甲基化修饰。

在本发明的另一方面，本发明提出了一种测序文库。根据本发明的实施例，所述测序文库是通过前面所述构建用于同时检测血浆中游离DNA甲基化和片段化模式的文库的方法所得到的。由此，利用根据本发明实施例的测序文库可以准确地同时获得血浆中游离DNA甲基化和片段化模式信息。

在本发明的另一方面，本发明提出了一种同时获得血浆中游离DNA甲基化和片段化模式信息的方法。根据本发明的实施例，所述方法包括：对前面所述测序文库进行测序，以便得到测序数据；对所述测序数据进行分析，以便于获得血浆中游离DNA甲基化和片段化模式信息。由此，利用根据本发明实施例的方法能够同时准确地获得血浆中游离DNA甲基化和片段化模式信息，操作简便，为检测机体健康及疾病状态提供了理论研究基础和临床应用前景。

根据本发明的实施例，所述分析包括：将所述测序数据使用fastqc进行初步质控；再使用cutadapt去除片段末端的接头序列，设置的参数为-m参数为15，-O参数为1，-q参数为20；最后，使用bismark将数据比对到基因组上并去重，具体命令为bismark-N 1和deduplicate_bismark，以便得到中间文件数据；基于所述中间文件数据，以便获得甲基化信息和片段化模式信息。

根据本发明的实施例，所述分析进一步包括：合并所述中间文件数据中每条cfDNA的双端测序读段上的甲基化信息，删除双端测序读段的重复部分的数据，然后基于一段基因组区域统计各CpG位点的cfDNA片段数和甲基化片段数，得到区域甲基化程度；对所述中间文件数据中的所有测序片段进行统计，得到全基因组的片段长度分布；将除性染色体以外的基因组划分为1M长的相邻不重叠区域，并排除基因组的黑名单区域，统计区域内短片段数和长片段数，确定区域内的短片段比例。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明的实施例的人体血浆游离DNA提取质量检验结果中2100生物分析仪示例图，横坐标为DNA片段长度，纵坐标为DNA片段长度分布，35bp及10kb附近峰值为DNA标定物，其余为文库分布；

图2为根据本发明的另一实施例的人体血浆游离DNA建库质量检验结果中2100生物分析仪示例图，横坐标为DNA片段长度，纵坐标为DNA片段长度分布，35bp及10kb附近峰值为DNA标定物，其余为文库分布；

图3为根据本发明的实施例的人体血浆游离DNA在CpG富集区域的深度及甲基化程度统计图；

图4为根据本发明的实施例的不同建库方式下的片段长度分布比较图；

图5为根据本发明的实施例的不同建库方式下的片段化模式示意图；

图6为根据本发明的实施例的不同建库样本间的片段化模式聚类关系示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提出了构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法、测序文库、同时获得血浆中游离DNA甲基化和片段化模式信息的方法，下面将分别对其进行详细描述。

在本发明的一个方面，本发明提出了一种构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法。根据本发明的实施例，该方法包括：(1)提取血浆中的游离DNA；(2)将游离DNA的末端连接测序接头，以便得到连接有测序接头的游离DNA；(3)将连接有测序接头的游离DNA进行重亚硫酸盐转化处理，以便得到转化后的游离DNA；(4)将所述转化后的游离DNA进行扩增及纯化处理，以便得到测序文库。

在本发明的一些实施例中，血浆样本包括人体、家兔、小鼠的血浆。血浆分离方法为两步离心去除血液中的细胞组分，具体为：将EDTA抗凝管采集的血液尽快离心，离心参数为4度、1600g离心10分钟，离心后取上层清液再次离心，离心参数为4度、16000g离心10分钟，最后取上清即为血浆。

在本发明的一些实施例中，从血浆中提取cfDNA使用的是

CirculatingNucleic Acid试剂盒，cfDNA提取质检流程包括使用Qubit荧光染料测定摩尔浓度和使用安捷伦2100生物分析仪判断片段长度分布。人体cfDNA的长度分布应当集中于170bp附近，且无2000bp以上的大片段污染。

根据本发明的实施例，所述重亚硫酸盐转化处理是采用EZ DNA Methylation-Gold kit试剂盒，具体流程如下：根据本发明的实施例，所述重亚硫酸盐转化处理是采用EZDNA Methylation-Gold kit试剂盒进行的，具体流程如下：将15～25μL所述连接有测序接头的游离DNA与100～150μL CT Conversion Reagent转化试剂混合，然后将得到的混合液于95～100℃孵育5～15分钟，再于60～65℃孵育2.5～3.5小时，优选3.5小时，最后经孵育后的混合液进行柱层析纯化，以便得到所述转化后的游离DNA。

目前，市场上已公开的用于重亚硫酸盐转化的试剂盒众多，例如EpiTectBisulfite、EpiTect Fast Bisulfite、EZ DNA Methylation-Lighting、EZ DNAMethylation-Gold等。这些试剂盒虽然都用于完成甲基化转化，但侧重点有所不同，EpiTect Fast Bisulfite kit、EZ DNAMethylation-Lighting kit侧重于充分反应以提高转化效率，导致DNA在反应中容易被打断；而EpiTect Bisulfite kit侧重于温和反应以保持DNA片段的完整性，导致其转化效率往往不足99％，不适用于对噪声极其敏感的cfDNA癌症检测问题。本发明选用EZ DNA Methylation-Gold试剂盒，在保证转化效率高于99％的前提下保持了DNA片段的完整性，是最适合同时检测cfDNA甲基化和片段化模式的试剂盒。在选用该试剂盒的基础上，本发明做了适当的转化条件优化，以保证甲基化转化效率和片段完整性的平衡。重亚硫酸盐转化过程主要包括三个步骤，先是将双链DNA解旋为单链，然后是进行甲基化转化，最后纯化单链DNA。发明人发现，甲基化转化时长会显著影响转化效率，将转化时长由2小时适当延长至2.5～3.5小时使之充分反应，可以在不破坏片段完整性的同时提高转化效率；第二步甲基化转化与第三步纯化单链DNA间的时间间隔应尽可能短(例如1分钟内、5分钟内或10分钟内)，避免单链DNA降解造成损失，由此，可以保证后续检测的稳定性和准确性。

在本发明的一些实施例中，对cfDNA片段末端修复进行连接准备使用的是NEBNextUltra II End Repair/dA-Tailing Module试剂盒，按照试剂盒预定流程进行连接准备。具体过程为：配制60μl末端修复体系(3μl End Prep Enzyme Mix末端准备酶，7μl End PrepReaction Buffer缓冲液和50μl cfDNA)，振荡混匀、短暂离心后置入PCR仪中，设置程序为20℃孵育30分钟和65℃孵育30分钟。

根据本发明的实施例，步骤(2)中，测序接头在连接体系中的浓度为10～20μM，过低的接头浓度会降低连接效率，过高的接头浓度将在PCR扩增步骤产生引物二聚体，影响文库产量。

根据本发明的实施例，所述测序接头中所有胞嘧啶(C碱基)携带甲基化修饰，且上游引物的5’端携带磷酸基团。甲基化修饰能够防止片段末端引物在甲基化转化过程中发生反应，磷酸基团便于引物与DNA片段末端进行连接。

在本发明的一些实施例中，对cfDNA片段连接测序接头使用的是NEBNext UltraII Ligation Module试剂盒，合成带甲基化修饰的接头序列，并按照试剂盒预定流程进行连接。具体过程为：配制1.5-15μM的上、下游接头溶液(上游接头5’端至3’端的序列为GATCGGAAGAGCACACGTCT(SEQ ID NO：1)，5’端磷酸化，所有C端携带甲基化修饰；下游接头5’端至3’端的序列为ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ IDNO：2)，所有C端携带甲基化修饰)，配制93.5μl连接体系(60μl末端修复体系，30μl Ligation Master Mix连接酶，1μl Ligation Enhancer连接增强溶液，上、下游接头溶液各1.25μl)，振荡混匀，短暂离心，置入PCR仪中孵育15分钟，不热盖。

在本发明的一些实施例中，从连接体系中所获得的cfDNA采用0.5×和0.9-1.4×的磁珠溶液进行纯化。纯化过程为：室温重悬磁珠，在93.5μl连接体系中加入0.5×磁珠溶液(46.7μl)，充分孵育后分离上清，将上清转移至新的EP管中，并补加0.4-0.9×磁珠溶液(37.4-84.1μl)，充分孵育后弃去上清，加入200-225μl 85％的乙醇溶液，洗涤后弃去上清，重复洗涤1次，最后加入22μl水，充分孵育后分离上清，将洗脱液转移至新管中，取1μl测量浓度进行质量检验，剩余约20μl连接纯化的cfDNA置于负20度冷冻备用。

在本发明的一些实施例中，扩增处理采用的是KAPA HiFi HS Uracil ready Mix。由于甲基化转化后文库中原本均衡的A、T、C、G碱基比例失衡，C碱基大幅转变为U，因而甲基化文库不能使用常规测序文库使用的PCR酶。本发明选用KAPA HiFi HS Uracil ready酶，能在GC碱基比例不平衡的情况下保证高保真扩增。具体扩增过程为：合成并配制10μM的上、下游引物溶液(上游接头5’端至3’端的序列为AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：3)，下游接头5’端至3’端的序列为CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTT CCGATCT(SEQ ID NO：4)，其中，NNNNNN选自CCTGAT、ACATCG、GCCTAA、TGGTCA、CACTGT、ATTGGC、GATCTG、TCAAGT、CTGATC、AAGCTA、GTAGCC或TACAAG)，配制50μl PCR体系(25μl 2×KAPA HiFi HS Uracil ready Mix酶，23μl转化后的cfDNA，10μM的上、下游引物溶液各1μl)，振荡混匀，短暂离心，置于PCR仪中，设置程序为98度预变性45秒、扩增8-10个循环(98度变性15秒、60度退火30秒、72度延伸30秒)，继续72度延伸1分钟。

在本发明的一些实施例中，纯化处理使用的是1-1.2×的磁珠溶液。纯化过程为：室温重悬磁珠，在50μl扩增体系中加入1×磁珠溶液(50μl)，充分孵育后弃去上清，加入200μl85％的乙醇溶液，洗涤后弃去上清，重复洗涤1次，最后加入25μl水，充分孵育后分离上清，将洗脱液转移至新管中，取2μl分别测量浓度和片段长度进行质量检验，剩余文库用于测序。文库浓度应当高于10ng，人体cfDNA测序文库的长度分布应当集中于300bp附近，且无100bp以下的引物二聚体小片段、2000bp以上的基因组大片段污染。

测序文库

本领域技术人员能够理解的是，前面针对构建用于同时检测血浆中游离DNA甲基化和片段化模式的文库的方法所描述的特征和优点，同样适用于该测序文库，在此不再赘述。

同时获得血浆中游离DNA甲基化和片段化模式信息的方法

在本发明的另一方面，本发明提出了一种同时获得血浆中游离DNA甲基化和片段化模式信息的方法。根据本发明的实施例，该方法包括：对前面所述测序文库进行测序，以便得到测序数据；对所述测序数据进行分析，以便于获得血浆中游离DNA甲基化和片段化模式信息。由此，利用根据本发明实施例的方法能够同时准确地获得血浆中游离DNA甲基化和片段化模式信息，操作简便，为检测机体健康及疾病状态提供了理论研究基础和临床应用前景。

根据本发明的实施例，采用的是illumina NovaSeq测序仪读取文库序列。

根据本发明的实施例，分析包括：将测序数据使用fastqc进行初步质控，查看测序质量、文库重复率、GC含量等指标；再使用cutadapt去除片段末端的接头序列，设置的-m参数为15，-O参数为1，-q参数为20；最后，使用bismark将数据比对到基因组上并去重，具体命令为bismark-N 1和deduplicate_bismark，以便得到中间文件数据，然后，基于这些中间文件数据，以便获得甲基化信息和片段化模式信息。

具体地，

合并所述中间文件数据中每条cfDNA的双端测序读段上的甲基化信息，删除双端测序读段的重复部分的数据，需要注意的一点是，测序读段与基因组参考序列不一定完全匹配，本计算方法以基因组参考序列为准。然后基于一段基因组区域统计各CpG位点的cfDNA片段数和甲基化片段数，得到区域甲基化程度。

利用前述cfDNA的基因组位置信息可统计其片段化模式特征。在此提供两种片段化模式特征，第一种是全基因组的片段长度分布，直接由所有测序片段统计得到。第二种片段化模式特征为1M区域内的短片段比例，计算方法为：将除性染色体外的基因组划分为1M长的相邻不重叠区域，并排除基因组的黑名单区域，然后统计区域内短片段(100-150bp)数与长片段(150-220bp)数，计算区域内的短片段比例为：

本领域技术人员能够理解的是，前面针对测序文库所描述的特征和优点，同样适用于该同时获得血浆中游离DNA甲基化和片段化模式信息的方法，在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

以人体cfDNA为例，提供了一种人体cfDNA的提取和文库构建方法，具体如下：

1、采血并分离血浆：从一位健康男性体内抽取10ml血液至EDTA抗凝管中，颠倒混匀，2小时后使用两步离心获得约5ml血浆。

2、提取cfDNA：利用QIAGEN公司的

Circulating Nucleic Acid Kit从3ml血浆中提取cfDNA，使用100μl水洗脱。取1μl使用Qubit测量cfDNA浓度为0.728ng/μl，提取DNA总量为72.80ng，即每毫升血浆中约含24.27ng游离DNA，符合正常范围。再取1μl使用安捷伦2100生物分析仪检测片段长度分布，检测结果见附图1，可见提取的cfDNA片段长度集中于176bp左右，无明显的大片段基因组污染，符合后续文库构建的要求。取40.9ng提取的游离DNA进行后续建库。

3、构建cfDNA文库：在40.9ng cfDNA中加入0.5体积％超声打断的无甲基化λ-DNA，然后使用NEBNext Ultra II End Repair/dA-Tailing Module进行末端修复，再使用NEBNext Ultra II Ligation Module试剂盒连接测序接头(接头溶液的浓度为10μM，体积为1.25μl)。上游接头5’端至3’端的序列为GATCGGAAGAGCACACGTCT，5’端磷酸化，所有C端携带甲基化修饰；下游接头5’端至3’端的序列为ACACTCTTTCCCTACACGACGCTCTTCCGATCT，所有C端携带甲基化修饰。

使用1×磁珠浓度纯化连接体系，用25μl水洗脱，取1μl测量浓度为3.52ng/μl，-20℃冻存连接好的cfDNA备用。

隔天使用EZ DNA Methylation-Gold kit试剂盒进行转化，具体地，将20μL连接有测序接头的游离DNA与130μL CT Conversion Reagent转化试剂混合，然后将得到的混合液于98℃孵育10分钟，再于64℃孵育3.5小时，最后经孵育后的混合液进行柱层析纯化，以便得到转化后的游离DNA。

使用PCR仪扩增(8个扩增循环)，使用的是KAPA HiFi HS Uracil ready Mix酶，具体扩增过程为：合成并配制10μM的上、下游引物溶液(上游接头5’端至3’端的序列为AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，下游接头5’端至3’端的序列为CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中，NNNNNN选自CCTGAT、ACATCG、GCCTAA、TGGTCA、CACTGT、ATTGGC、GATCTG、TCAAGT、CTGATC、AAGCTA、GTAGCC、TACAAG中的GCCTAA，配制50μl PCR体系(25μl 2×KAPA HiFi HS Uracilready Mix酶，23μl转化后的cfDNA，10μM的上、下游引物溶液各1μl)，振荡混匀，短暂离心，置于PCR仪中，设置程序为98度预变性45秒、扩增8～10个循环(98度变性15秒、60度退火30秒、72度延伸30秒)，继续72度延伸1分钟。

最后使用1×磁珠浓度纯化扩增体系，用25μl水洗脱，得到人体血浆cfDNA测序文库。取1μl测量浓度为0.89ng/μl，取1μl测量片段长度分布如附图2所示，可见提取的cfDNA文库长度集中于287bp左右，符合测序要求。

4、从以上结果可以看出，本发明能满足血浆cfDNA低起始量的要求，得到的文库命名为sp10文库。取同一个人同一时间采集的相同血浆，重复相同实验流程得到sp11文库。为了比较不同实验室不同建库方法对cfDNA信息捕获的影响，在市面主流的公司A进行cfDNA全基因组微量甲基化建库得到sp1-6，在公司B进行cfDNA全基因组微量甲基化建库得到sp8、sp9，同时，在公司A对同一份血样进行不含甲基化信息的常规建库得到sp7，作为片段化模式信息的真集样本。其中，公司A和公司B建库方式均为先将血浆游离DNA分子进行重亚硫酸盐转化处理，再将转化后的cfDNA两端连接接头序列，然后PCR扩增形成测序文库。

实施例2

实施例2提供一种利用前述cfDNA文库获取其序列、基因组位置及甲基化信息的方法。首先，对测序文库进行质检后上机，使用illumina NovaSeq测序仪读取文库序列；然后，将测序输出的fastq格式数据使用fastqc进行初步质控，查看测序质量、文库重复率、GC含量等指标；再使用cutadapt去除片段末端的接头序列，接头序列为“AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC”和“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTA”，-m参数为15，-O参数为1，-q参数为20；最后，使用bismark将文库比对到基因组上并去重，具体命令为“bismark-N 1”和“deduplicate_bismark”。所得bam文件即包含cfDNA的序列、基因组位置、比对详情、甲基化状况等信息，该bam数据可作为后续分析的中间文件。

将实施例1中cfDNA甲基化文库与两家主流测序公司构建的文库进行比较，同时使用实施例2提供的比对去重分析方法，得到不同文库的测序量、比对率、重复率、有效率、测序深度等信息，对比发现公司A的文库比对率仅为25％左右，即使使用局部比对的策略也仅能提升到35％左右，而其他甲基化文库的局部比对率约为75％，因此判定该公司的cfDNA甲基化文库质量较差。

实施例3

实施例3提供一种利用前述cfDNA中间bam文件计算基因组区域甲基化程度的计算方法。首先，合并每条cfDNA的双端测序读段上的甲基化信息，删去双端测序读段的重叠部分。需要注意的一点是，测序读段与基因组参考序列不一定完全匹配，本计算方法以基因组参考序列为准。然后，对于一段基因组区域统计各CpG位点的cfDNA片段数及甲基化片段数，即可得到区域甲基化程度。

在本实施例中，我们计算了全基因组CpG富集区域的甲基化程度，以及CpG富集区域的平均测序深度：

为了消除样本间测序深度对片段数目分布的影响，我们计算了百万片段在CpG富集区域的片段数：

将所得sp11的结果与公司B建库的sp8进行比较，结果如图3所示。在图3中，根据cfDNA在不同CpG富集区域的测序深度分布，发现约一半CpG富集区域的平均测序深度大于1，可以用于统计甲基化程度；根据样本间百万片段在CpG富集区域的片段数量比较，发现sp8和sp11均集中在100附近，说明两种建库方式在CpG富集区域的片段数量分布具有较大一致性；此外，cfDNA在CpG富集区域的甲基化程度呈现明显的两极分布，且在sp8与sp11中一致性较高，证明本发明的建库方法捕获的cfDNA甲基化特征与公司提供的全基因组甲基化检测基本一致。

实施例4

实施例4提供一种利用前述cfDNA的基因组位置信息统计其片段化模式特征的方法。

本实施例涉及两种片段化模式特征，第一种是全基因组的片段长度分布，直接由所有测序片段统计得到。样本间片段长度分布的比较结果见图4，虚线表示170bp，BH01为文献(Snyder,Kircher et al.2016)发表的公共数据，由许多健康人的血浆混合后建库而成。可见BH01和sp7不同样本组几乎重合，sp1-6不同样本组、sp8-9重复组、sp10-11重复组都基本重合，说明同一建库方式下，样本间的长度分布差异较小。本发明使用的转化前建库与全基因组建库的片段化模式特征一致性最高，而转化后建库虽然具有类似的主峰分布，但丢失了10bp左右的小周期。

第二种片段化模式特征为1M区域内的短片段比例，计算方法为：将除性染色体外的基因组划分为1M长的相邻不重叠区域，并排除基因组的黑名单区域，然后统计区域内短片段(100-150bp)数与长片段(150-220bp)数，计算区域内的短片段比例为：

22对染色体的cfDNA短片段比例绘图结果如图5，可见公司A所建文库的片段化模式与其他文库差异较大，公司B所建文库的短片段比例在全基因组大部分区域内波动较小，与图4中结果相印证，表明转化后建库丢失了部分片段化模式信息，而本发明使用的转化前建库与全基因组建库结果最为相似，该结论也可通过相关性分析进一步阐明。如图6所示，根据样本间的全基因组的短片段比例相关性进行聚类分析，发现本发明得到的sp10、sp11的短片段比例特征与全基因组建库关系最近，证明本发明所述建库方法具有同时捕获甲基化与片段化模式的能力。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法，其特征在于，包括：

(1)提取血浆中的游离DNA；

(2)将所述游离DNA的末端连接测序接头，以便得到连接有测序接头的游离DNA；

(3)将所述连接有测序接头的游离DNA进行重亚硫酸盐转化处理，以便得到转化后的游离DNA；

(4)将所述转化后的游离DNA进行扩增及纯化处理，以便得到测序文库。

2.根据权利要求1所述的方法，其特征在于，所述重亚硫酸盐转化处理是采用EZ DNAMethylation-Gold kit试剂盒进行的，具体流程如下：

将15～25μL所述连接有测序接头的游离DNA与100～150μL CT Conversion Reagent转化试剂混合，然后将得到的混合液于95～100℃孵育5～15分钟，再于60～65℃孵育2.5～3.5小时，优选3.5小时，最后经孵育后的混合液进行柱层析纯化，以便得到所述转化后的游离DNA。

3.根据权利要求1所述的方法，其特征在于，步骤(2)进一步包括：

将所述游离DNA与终浓度为0.5～5体积％的预先经超打断的λ-DNA进行混合，再进行末端修复、片段末端加dA准备连接，然后连接测序接头。

4.根据权利要求3所述的方法，其特征在于，步骤(2)中，测序接头在连接体系中的浓度为10～20μM。

5.根据权利要求1所述的方法，其特征在于，所述测序接头中所有胞嘧啶携带甲基化修饰，且上游引物的5’端携带磷酸基团。

6.根据权利要求1所述的方法，其特征在于，所述测序接头具有SEQ ID NO：1和2所示的核苷酸序列，其中，C端携带甲基化修饰。

7.一种测序文库，其特征在于，是通过权利要求1～6任一项所述构建用于同时获得血浆中游离DNA甲基化和片段化模式信息的文库的方法所得到的。

8.一种同时获得血浆中游离DNA甲基化和片段化模式信息的方法，其特征在于，包括：

对权利要求7所述测序文库进行测序，以便得到测序数据；

对所述测序数据进行分析，以便于获得血浆中游离DNA甲基化和片段化模式信息。

9.根据权利要求8所述的方法，其特征在于，所述分析包括：

将所述测序数据使用fastqc进行初步质控；再使用cutadapt去除片段末端的接头序列，设置的-m参数为15，-O参数为1，-q参数为20；最后，使用bismark将数据比对到基因组上并去重，具体命令为bismark-N 1和deduplicate_bismark，以便得到中间文件数据；

基于所述中间文件数据，以便获得甲基化信息和片段化模式信息。

10.根据权利要求9所述的方法，其特征在于，所述分析进一步包括：

合并所述中间文件数据中每条cfDNA的双端测序读段上的甲基化信息，删除双端测序读段的重复部分的数据，然后基于一段基因组区域统计各CpG位点的cfDNA片段数和甲基化片段数，得到区域甲基化程度；

对所述中间文件数据中的所有测序片段进行统计，得到全基因组的片段长度分布；

将除性染色体以外的基因组划分为1M长的相邻不重叠区域，并排除基因组的黑名单区域，统计区域内短片段数和长片段数，确定区域内的短片段比例。