CN111968706B

CN111968706B - 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法

Info

Publication number: CN111968706B
Application number: CN202011121158.6A
Authority: CN
Inventors: 李志民; 王娟; 任雪; 刘涛; 占伟; 杨伟飞; 孙雪光
Original assignee: Anouta Gene Technology Beijing Co ltd
Current assignee: Anouta Gene Technology Beijing Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-12
Anticipated expiration: 2040-10-20
Also published as: CN111968706A

Abstract

本发明提供一种获得目标样本的目标测序数据的方法，其包括：对第一样本进行第一测序，得到第一样本的第一序列集；对第二样本进行第一测序，得到第二样本的第一序列集；对第二样本进行第二测序，得到第二样本的第二序列集；采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

Description

获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法

技术领域

本文涉及一种混合样本的三代基因组的测序策略和分析方法，本文的技术方案是对混合样本中的单一样本的测序数据进行组装的方案。

背景技术

Denovo组装也叫基因组从头组装，是指不依赖于参考基因组的序列，拼接获得全新的基因组序列的过程，为研究物种起源进化及特定环境适应性奠定基础。

传统的基于二代测序（Next-Generation Sequencing，NGS）数据的组装方法，作为研究动植物基因组的重要技术，为基因组学的发展做出了重要贡献。该方法作为传统的Denovo 技术，有成本低、准确性较高的优点，同时也存在测序读长短、拼接的长度较短和难以解决长重复序列的缺点。

PacBio 公司的单分子测序技术（Single Molecule，Real-Time，SMRT）技术的出现，弥补了 NGS 在组装应用中的一些缺点，相比较二代测序技术，PacBio的单分子测序技术具有无需 PCR 扩增、超长读长（最长可达40-70KB）和无 GC 偏好等优点，经常也被称为三代测序技术（Third-Generation Sequencing，TGS）。

利用三代测序平台对某一物种的mRNA进行测序研究，因其可直接获得从5'端到3'端的高质量转录组信息而称为全长转录组测序。全长转录组测序无需组装，直接获得单分子全长mRNA信息，同时可准确鉴定基因的可变剪接、APA、融合基因、基因家族和非编码RNA等信息。

发明内容

如上所述，三代测序或也称为单分子测序由于其读长较长，对于转录本的结构相关分析具有优势，但是因为其成本较高，数据量并不能达到计算转录本表达量的目的，因此关于样本中表达量的差异比较还是需要借助二代测序。而二代测序读长较短，许多和结构相关的测序解果并不准确或者不能分析，例如可变剪接、APA、融合基因、基因家族这类的分析，则需要三代测序结果来辅助研究。

具体来说，单分子测序，如PacBio三代测序平台的基因组建库，对样本有多种要求，如要求有较高的待测样本DNA量。由于一些形体、重量或其他特征较小的物种中，如昆虫等，其基因组DNA提取困难。这就需要将这些特殊样本与其他样本进行混合处理，才能得到满足测序平台要求的DNA量或者样本量。

在本申请中对上述形体、重量或其他特征较小的物种（例如蚊子），可以采用将特殊样本与其他样本进行混合样本建库测序，以及进一步在混合样本的测序数据中获得目标样本组装数据的方法。

混合样本建库测序，在混合样本来源较纯的情况下，测序对基因组复杂度影响不大；反之，来源复杂时（如特殊情况下，混合样本存在污染），混合样本对基因组复杂度影响大，造成基因组直接组装的效果较差或组装结果不准确，导致最终的组装质量差。

基于上述现有技术中存在的问题，尚需要提供一种更为有效的方法，在进行混合样本建库测序时，对混合样本来源纯净度没有保障以及明确了混合样本来源复杂的情况下，可以通过本发明提供的方法对基因组数据的纯化或筛选，优化建库测序策略以及测序数据的分析策略，以得到混合样本中目标样本的测序数据，从而提高目标样本的组装质量。

本文涉及如下技术方案：

1. 一种获得目标样本的目标测序数据的方法，其包括：

对第一样本进行第一测序，得到第一样本的第一序列集；

对第二样本进行第二测序，得到第二样本的第二序列集；

采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；

所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

2. 根据项1所述的方法，其中，

所述第一样本为单一样本；以及

所述第二样本为包含所述单一样本的混合样本，

优选所述单一样本在所述混合样本中所占的比例为70%以上，优选比例为75%以上，优选为80%以上，进一步优选为90%以上。

3. 根据项1或2所述的方法，其中，

所述第一测序为高通量测序，所述第二测序为单分子测序。

在本申请中，所述单分子测序属于三代测序。

4. 根据项1~3中任一项所述的方法，其中，

在采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集的步骤中，包括如下步骤：

将所述第一样本的第一序列集中的序列与所述第二样本的第二序列集中的序列进行比对，获得第二样本的第二序列集中的每条序列的匹配信息，

根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集。

5. 根据项4所述的方法，其中，

所述匹配信息是第一样本的第一序列集中的序列与所述第二样本的第二序列集中的各序列的匹配比例。

6. 根据项5所述的方法，其中，根据所述匹配信息对第二样本的第二序列集中的序列进行筛选包括：

序列纠错和/或过滤：将匹配信息在设定值以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，

经过所述序列纠错和/或序列过滤得到筛选后剩余的第二样本的第二序列集即为第一样本的第二序列集。

优选地，所述设定值为20%。

7. 根据项1所述的方法，其还包括：

对第二样本进行第一测序，得到第二样本的第一序列集；

优选地，第二样本的第一序列集的测序结果包括基于第一测序获得的第二样本的基因组大小，

该方法还优选包括将第一样本的基因组大小和第二样本的基因组大小进行比较，获得第一样本与第二样本的基因组大小的差值。

当所述差值在评估值以上时，采用采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集。所述评估值可以是5%。

8. 一种对目标样本的序列进行组装方法，其采用项1-7中任一项所述的方法获得的目标样本的目标测序数据进行序列组装。

在本申请一个具体的方案中，序列组装为从头组装，即Denovo组装。

9. 一种对目标样本进行三代测序的系统，其用于执行项1-8中任一项所述的方法。

10. 一种目标样本的目标测序数据，其为利用项1-7中任一项所述的方法获得的目标样本的目标测序数据。

11. 一种获得目标样本的目标测序数据的系统，其包括：

第一样本的第一序列集采集模块，其对第一样本进行第一测序，得到第一样本的第一序列集；

第二样本的第二序列集采集模块，其对第二样本进行第二测序，得到第二样本的第二序列集；

第一样本的第二序列集获取模块，其采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；

12. 根据项11所述的系统，其中，

所述第一样本为单一样本；以及

所述第二样本为包含所述单一样本的混合样本，

13. 根据项11或12所述的系统，其中，

所述第一测序为高通量测序，所述第二测序为单分子测序。

14. 根据项11~13中任一项所述的系统，其中，

在第一样本的第二序列集获取模块中，采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集的过程由如下子模块执行：

第一子模块：其将所述第一样本的第一序列集中的序列与所述第二样本的第二序列集中的序列进行比对，获得第二样本的第二序列集中的每条序列的匹配信息，

第二子模块：其根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集。

15. 根据项14所述的系统，其中，

所述匹配信息是指第一样本的第一序列集中的序列与所述第二样本的第二序列集中的各序列的匹配比例。

16. 根据项15所述的系统，其中，在第一样本的第二序列集获取模块的第二子模块包括以下元件：

序列纠错和/或序列过滤元件：其将匹配信息在设定值以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，

滤过序列集获取元件：其收集经过所述序列纠错元件或序列过滤元件得到的剩余序列，得到滤过序列集，所述滤过序列集即为第一样本的第二序列集，

优选地，所述设定值为20%。

17. 根据项11所述的系统，其还包括：

第二样本的第一序列集采集模块，对第二样本进行第一测序，得到第二样本的第一序列集；

其中，第二样本的第一序列集的测序结果包括基于第一测序获得的第二样本的基因组大小，

该系统还优选包括将第一样本的基因组大小和第二样本的基因组大小进行比较的模块，获得第一样本与第二样本的基因组大小的差值。

18. 一种对目标样本的序列进行组装的系统，其采用项11-17中任一项所述的系统获得的目标样本的目标测序数据进行序列组装。

在一个具体的实施方式中，所述序列组装为从头组装，即Denovo组装。

19. 一种对目标样本的序列进行组装的系统，其包括：

第一样本的第二序列集获取模块，其采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；以及

序列组装模块，其对第一样本的第二序列集进行序列组装，所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

发明效果

在样本来源纯净度没有保障以及明确了样本来源复杂的情况下，可以通过利用本申请的方法和系统，对混合样本或复杂样本的基因组数据进行纯化筛选，同时测序策略及分析方法进行优化，进而有效提高基因组数据的组装质量，对测序项目整体进行优化。三代混合样本建库测序，对混合样本来源纯净度没有保障以及明确了混合样本来源复杂的情况下，可以通过此方法，进行基因组数据的纯化筛选，从测序策略开始，并调整分析方法，对测序项目进行整体优化。

本申请通过优化混合样本测序数据的方法，能够有效的提高混合样本中目标样本基因组的组装质量。

本申请获得目标样本的目标测序数据的方法（本申请的方法），在一种样本无法符合目标测序平台对样本的要求情况下，采用目标测序平台对混有该样本的混合样本进行测序，辅助以其他测序平台对该样本进行测序的测序策略，进一步综合处理采用两种测序平台获得的测序数据，进而获得该目标样本的目标测序平台测序数据。通过本申请的方法，能够获得混合样本测序中的目标样本，如实际想要获得的单一样本的测序数据，并且能够有效提高基于上述测序数据获得的多种检测或分析结果的质量，如提高混合样本中目标样本通过目标测序数据（指通过目标测序平台测序获得的测序数据，或通过目标测序平台测序获得的测序数据经筛选后获得的测序数据）的基因组的组装质量。

本申请的获得目标样本的目标测序数据的系统（本申请的系统），也能获得与本发明的方法相一致的技术效果。

附图说明

图1显示实施例中单一样本数据的k-mer分布曲线。

图2显示实施例中混合样本数据的k-mer分布曲线。

图3实施例中匹配比例分布曲线结果。

具体实施方式

在基因组三代测序时，如Pacbio建库的DNA量要求较高。在一定情况下，为获取测序平台上机要求的足够测序的DNA量，需要对目标样品与其他样品进行混样操作，并对混合样品提取DNA和对该提取的DNA进行混合样品建库。如果测序的目的是进行目标样品的Denovo相关分析，包括基因组组装等具体项目，例如基因组评估，基因组进化分析，基因组注释等。现有技术通常直接采用混合样本的测序数据直接进行后续项目分析，但混样方式本身或来源复杂的样本都将会对后续分析项目造成影响。因此，本申请提出了一种更具优势的获得目标样本的目标测序数据的方法，能够对通过混合方式获得的样本或来源复杂的样本的测序数据进行优化，获得目标样本的目标测序数据，进而能够有效提升后续分析项目的分析质量和准确度等分析结果指标。

在本文中，第一样本为目标样本，即希望获得现有技术中某种测序平台的测序结果的样本，即待测样本，例如希望获得单分子测序结果（三代测序结果）的样本。所述目标样本可以是任何希望对其进行某种测序平台测序的样本，例如任何希望对其进行单分子测序（三代测序结果）的样本。

例如本文中的目标样本（第一样本）可以是单一样本，即来源唯一的样本，当然本领域技术人员也可以理解，该单一样本也可以是含有杂质/污染的样本。杂质/污染通常是不会对第一样本进行第一测序产生影响的物质，或者杂质/污染的比例通常是不会对第一样本进行第一测序产生影响的比例。

在本文中，第二样本为包含第一样本的混合样本，所述第二样本可以包含多个第一样本的组合，即包含多个单一样本，或包含单一样本和其他杂质/污染比例较高的混合样本，或上述多种样本的组合。在一个具体的实施方式中，优选所述单一样本在所述混合样本中所占的比例为70%以上，优选为80%以上，进一步优选为90%以上。更具体来说所述单一样本在所述混合样本中所占的比例可以为70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%。

在本文中，优选第一样本的基因组和第二样本的基因组的大小差异在5%以上，具有这样差异的两个样本采用本文的方法处理之后，分析效果提升显著。第一样本的基因组大小和第二样本的基因组大小是分别通过对第一样本和第二样本进行第一测序，然后进行Survey分析而获得的。

在本文中第一测序为高通量测序（High-throughput sequencing）。高通量测序技术又称二代测序（也称为第二代 DNA 测序技术）、大量并行测序技术（massive parallelsequencing,MPS），以低成本、99% 以上的准确度，1次可对几百、几千个样本的几十万至几百万条 DNA 分子同时进行快速测序分析为特征。

在本文中第二测序为单分子测序，如第三代DNA测序技术。第三代DNA测序技术，即单分子实时DNA测序，是指单分子测序技术。DNA测序时，不需要经过PCR扩增，实现了对每一条DNA分子的单独测序。三代测序技术的应用目前主要在基因组测序、甲基化研究、突变鉴定（SNP检测）这三个方面上。

单分子测序是指利用DNA聚合酶合成与模板互补的DNA链，在三维空间中记录模板位置和核苷酸序列信息，再反向构建DNA模板的序列。除了DNA合成反应的三大要素（模板、酶、核苷酸）之外，模板所处位置和反应循环中单色荧光标记的核苷酸顺序（如A、C、G、T）也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光，则每一次反应循环就需要切换不同波长的光以记录不同的碱基。

现有第三代测序技术中，以太平洋生物科学（Pacific Biosciences）公司研发的单分子实时测序系统（Single Molecule Real Time，SMRT）和Oxford NanoporeTechnologies公司的纳米孔单分子测序技术比较有代表性。与一代测序和二代测序相比，他们最大的特点就是单分子测序，测序过程无需进行PCR扩增。

此外，太平洋生物科学公司的PacBio RS技术是基于荧光/光学的单分子实时DNA测序，大约读长（碱基数）在~1000碱基，其特点是高平均读长，比第一代的测序时间降低；不需要扩增；最长单个读长接近3000碱基，但相对局限性在于并不能高效地将DNA聚合酶加到测序阵列中；准确性一次性达标的机会低（81-83%）；DNA聚合酶在阵列中降解；总体上每个碱基测序成本高（仪器昂贵）。

全基因组学公司的GeXP遗传分析系统是基于荧光/光学的复合探针锚杂交和连接技术，大约读长在10bp，其特点是在第三代中通量最高；在所有测序技术中，用于拼接一个人基因组的试剂成本最低；每个测序步骤独立，使错误的累积变得最低，但相对局限性在于低读长；模板制备妨碍长重复序列区域测序；样品制备费事；尚无商业化供应的仪器。

Ion Torrent/生命技术公司的个人基因组测序仪（PGM）是基于以离子敏感场效应晶体管检测pH值变化的合成测序技术，大约读长在100~200bp，其特点是对核酸碱基的掺入可直接测定；在自然条件下进行DNA合成（不需要使用修饰过的碱基），但相对局限性在于一步步的洗脱过程可导致错误累积；阅读高重复和同种多聚序列时有潜在困难。

牛津纳米孔公司的gridION是基于电流的纳米孔外切酶测序技术，其特点在于有潜力达到高读长；可以成本生产纳米孔；无需荧光标记或光学手段，但相对局限性在于切断的核苷酸可能被读错方向；难于生产出带多重平行孔的装置。

本文涉及一种获得目标样本的目标测序数据的方法，其包括：对第一样本进行第一测序，得到第一样本的第一序列集；对第二样本进行第二测序，得到第二样本的第二序列集；采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

在一个具体的实施方式中，对第一样本进行第一测序，得到第一样本的第一序列集是指对单一样本进行二代测序，以获得第一样本的第一序列集。

本文涉及一种获得目标样本的目标测序数据的方法，其包括：对第一样本进行第一测序，得到第一样本的第一序列集；对第二样本进行第一测序，对第二样本进行第二测序，得到第二样本的第二序列集；采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

在一个具体的实施方式中，对第二样本进行第一测序，得到第二样本的第一序列集是指对混合样本进行二代测序，以获得第二样本的第一序列集。在一个具体的实施方式中，第二样本的第一序列集的测序结果包括基于第一测序获得的第二样本的基因组大小。进行第二样本的第一测序主要是用于对比混样样本和单一样本在基因组大小上的差距，也能够将基因组大小的差值与本申请最终得到的结果，如混合样本和单一样本基因组大小的差值，进行比较。

在一个具体的实施方式中，对第一样本进行第一测序，得到第一样本的第一序列集；对第二样本进行第一测序，得到第二样本的第一序列集，对第二样本进行第二测序，得到第二样本的第二序列集。以及，对第一样本和第二样本的第一测序数据进行比较，获得第一样本和第二样本测序数据差异结果。对第一样本和第二样本的第一测序数据进行比较，可以对通过对第一样本和第二样本的第一次测序数据进行进一步处理的方式，如可以通过处理获得第一样本和第二样本的基因组大小。获得基因组大小的方式可以是，例如，Survey分析等。

通过比较第一样本和第二样本的第一测序数据，具体的，如比较第一样本和第二样本的基因组大小，提取第一测序结果数据差异较大的第二样本，再通过本发明的方法进一步处理获得目标样本（第一样本）的目标测序数据。同时也需要理解，即使第一测序结果数据差异较小，仍然可以采用本发明的方法获得目标样本的目标测序数据。选择第一测序结果数据差异较大的第二样本进行本发明的方法进行处理是本发明的优选技术方案，在此优选的技术方案中采用本发明的方法能够获得更为优异的样本分析结果，如混合样本中单一样本的组装效果指标的明显提升。第一测序结果数据差异较大可以指第一样本和第二样本的基因组的差异较大，具体可以是，第一样本与第二样本的基因组大小的差值的绝对值与第一样本的基因组大小的比值，例如，优选的基因组的差异较大是5%以上，更优选的基因组的差异较大为5%~25%。

通过比较第一样本和第二样本的第一测序结果数据差异，还能够在采用本发明的方法完成序列组装后，用于评估第一测序结果数据差异与第二测序结果数据差异的一致性。第二测序结果数据差异可以是指对第一样本和第二样本的第二测序数据进行比较，获得第一样本和第二样本测序数据差异结果。其中第一样本的第二测序数据是指通过本发明的方法获得的目标样本的目标测序数据。

本文涉及的方法在测序策略上，进行第一样本以及第二样本的二代NGC测序和Survey分析，并指导三代测序。

在使用三代测序数据开展基因组组装之前，可以对基因组进行基于二代测序的Survey分析。Survey分析主要是对原始下机数据过滤，获得高质量的Reads。然后进行k-mer分析，预估基因组的杂合率、重复度以及基因组大小等信息。这些信息是组装过程中重要的参考信息。

在更为具体的实施方式中，在获得第一样本和第二样本的第一序列集的测序部分，例如可以首先进行单一样本的NGS测序和Survey分析，具体可以是深度为100X的NGS测序。然后例如可以进行混合样本Survey分析，预测混合样本的基因组大小。

测序深度（Sequencing Depth）是指测序得到的碱基总量（bp）与基因组大小（Genome）的比值，也即测序量。测序深度是衡量测序数据量的指标，通常情况向下，测序深度与基因组覆盖度有关，测序深度越高，基因组覆盖度越高，假阳性结果降低。但不是正相关，假阳性率也不会随着深度提升下降。

测序覆盖率（Coverage rate）是指被测序的碱基占全基因组大小的比率，也即测序获得的序列占整个基因组的比例，通常情况下，覆盖率随着覆盖深度升高而提高。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

在一个具体的实施方式中，还可以对第二样本进行第二测序，得到第二样本的第二序列集。

在更为具体的实施方式中，例如以混合样本的基因组大小为基础，开展高深度三代测序，具体的测序深度可以是60~100X。

在一个具体的实施方式中，采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集。

在更为具体的实施方式中，在采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集的步骤中，包括如下步骤：将所述第一样本的第一序列集中的序列与所述第二样本的第二序列集中的序列进行比对，获得第二样本的第二序列集中的每条序列的匹配信息，根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集。

在本文中，所述匹配信息是指第一样本的第一序列集中的序列与所述第二样本的第二序列集中的各序列的匹配比例。

在本申请中，匹配比例是指第二测序的reads（三代reads）中，与第一测序（二代测序）数据的碱基一致的碱基数量除以第二测序reads碱基总数量所得到的比例值。具体来说，匹配是指第一样本的第一序列集中的序列的碱基与所述第二样本的第二序列集中的各序列中的碱基完全相同，匹配比例是指第一样本的第一序列集中的序列的碱基与所述第二样本的第二序列集中的各序列中的碱基完全相同的碱基在第二样本的第二序列集中所占的比例。在本文中，匹配比例如果为0就是完全不匹配，为100%是指完全匹配。

在一个具体的实施方式中，根据所述匹配信息对第二样本的第二序列集中的序列进行筛选包括：序列纠错或序列过滤：将匹配比例在20%以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，经过所述序列纠错和序列过滤得到的剩余序列组成的滤过序列集为第一样本的第二序列集。

在更为具体的实施方式中，优选将匹配比例在21%以下、在22%以下、在23%以下、在24%以下、在25%以下、在26%以下、在27%以下、在28%以下、在29%以下、以及在30%以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，经过所述序列纠错和序列过滤得到的剩余序列组成的滤过序列集为为第一样本的第二序列集。

本申请还涉及一种对目标样本的序列进行组装方法，其采用上述本申请的方法获得的目标样本的目标测序数据进行序列组装，在一个具体的实施方式中，序列组装为从头组装，即Denovo组装。

在更为具体的实施方式中，在分析部分，进行Survey分析，获得第一样本和第二样本的基因组大小通过对第一样本的测序数据进行Survey分析，对三代Pacbio subreads进行纠错；根据与二代reads的匹配比例的情况，进行三代Pacbio subreads筛选；对纠错并筛选后的数据集，即第二样本的三代测序数据集，具体的可以是Pacbio subreads，进行denovo组装。

在一个具体的实施方式中，本文涉及的方法包括如下步骤：

步骤1：对第一样本进行第一测序，得到第一样本的第一序列集，

具体来说，进行第一样本的第一测序（例如，NGS测序，深度100X），以第一用于通过比对对Pacbio subreads进行过滤纯化；第二用于通过Survey分析预测出第一样本的基因组大小。

在本步骤中，还可以对第二样本进行第一测序，得到第二样本的第一序列集，

具体来说，进行第二样本的第一测序（例如，NGS测序及Survey分析）从而预测第二样本的基因组大小，在此进行，第二样本的Survey分析目的是用于对比混样样本和单一样本差距，从而与本申请最终得到的结果进行比较。

步骤2：对第二样本进行第二测序，得到第二样本的第二序列集，

具体来说，以第二样本的基因组大小为基础，开展第二测序（例如，高深度三代测序，高深度具体可以是60~100X）。

在分析策略上，根据第一样本的第一序列集对包含第一样本的第二样本的第二序列集进行纯化筛选后，采用获得的第一样本的滤过序列集进行可能的后续分析。

步骤3：采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的滤过序列集，也即第一样本的第二序列集，

具体来说将第一样本的二代数据与第二样本的三代数据进行比对：使用PacBio长序列纠错软件LoRDEC，基于第一样本NGS测序的二代reads，通过比对，对第二样本的三代数据进行纠正；

步骤3-1：将所述第一样本的第一序列集中的序列与所述第二样本的第二序列集中的序列进行比对，获得第二样本的第二序列集中的每条序列的匹配信息，

所述匹配信息包括是否匹配，和匹配比例。过滤掉完全不匹配序列的步骤可以称为纠错，过滤掉匹配程度低的序列可以称为过滤。

具体来说，将第二样本的三代数据与第一样本的二代数据的匹配信息进行统计，如对LoRDEC软件的结果corrected.fa进行统计，小写的碱基即为匹配的碱基，逐条统计第二样本的三代数据的subreads的匹配率；

步骤3-2：根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集。

具体来说，根据匹配信息分布筛选三代数据：通过判断，个性化设定匹配率的阈值，筛选单一样本的三代subreads。

本文还涉及一种对目标样本的序列进行组装方法，其对上述本文获得目标样本的目标测序数据的方法获得的目标样本的目标测序数据进行从头组装，即Denovo组装。

在一个具体的实施方式中，本文涉及的组装方法包括如下步骤：

具体来说，进行第一样本的第一测序（例如，Survey测序，深度100X）以第一用于通过比对对三代pacbio subread进行过滤纯化；第二用于通过Survey分析预测出第一样本的基因组大小。

具体来说，以第二样本的基因组大小为基础，开展第二测序（例如，高深度三代测序（60~100X））。

在分析策略上，根据第一样本的第一序列集对包含第一样本的第二样本的第二序列集进行纯化筛选后，采用获得的第一样本的滤过序列集进行组装。

具体来说，将第二样本的三代数据与第一样本的二代数据的匹配信息进行统计，对LoRDEC软件的结果corrected.fa进行统计，小写的碱基即为匹配的碱基，逐条统计第二样本的三代数据的subreads的匹配率。

步骤4：对第一样本的第二序列集中的序列进行从头组装，即De novo组装

具体来说，从头组装：对上一步骤筛选出的subreads，采用常规的方法进行从头组装，并对组装结果进行评估。

本文还涉及一种对目标样本进行三代测序的系统，其用于上述本文获得目标样本的目标测序数据的方法和/或对目标样本的序列进行组装方法。

本文还涉及一种目标样本的目标测序数据，其为利用上述本文获得目标样本的目标测序数据的方法获得的目标样本的目标测序数据。

本文涉及一种获得目标样本的目标测序数据的系统一，其包括：第一样本的第一序列集采集模块，其对第一样本进行第一测序，得到第一样本的第一序列集；第二样本的第二序列集采集模块，其对第二样本进行第二测序，得到第二样本的第二序列集；第一样本的第二序列集获取模块，其采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

本文涉及一种获得目标样本的目标测序数据的系统三，其包括：第一样本的第一序列集采集模块，其对第一样本进行第一测序，第二样本的第一序列集采集模块，其对第二样本进行第一测序，得到第二样本的第一序列集；得到第一样本的第一序列集；第二样本的第二序列集采集模块，其对第二样本进行第二测序，得到第二样本的第二序列集；第一样本的第二序列集获取模块，其采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

在该系统一或系统三中，对于第一样本、第二样本、第一测序、第二测序的定义与上述本文涉及的方法中的定义相同。

在第一样本的第二序列集获取模块中，采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集的过程由如下子模块执行：第一子模块：其将所述第一样本的第一序列集中的序列与所述第二样本的第二序列集中的序列进行比对，获得第二样本的第二序列集中的每条序列的匹配信息，第二子模块：其根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集。

在第一样本的第二序列集获取模块的第二子模块包括以下元件：序列纠错或序列过滤元件：其将匹配比例在20%以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，滤过序列集获取元件：其收集经过所述序列纠错元件或序列过滤元件得到的剩余序列，得到滤过序列集，所述滤过序列集即为第一样本的第二序列集。

在该系统一或三中，对于匹配比例、碱基覆盖比例的定义与上述本文涉及的方法中的定义相同。

在该系统一或三中，第二样本的第一序列集的测序结果包括基于第一测序获得的第二样本的基因组大小。

本文涉及一种获得目标样本的目标测序数据的系统二，其包括：第一样本的第一序列集采集模块，其对第一样本进行第一测序，得到第一样本的第一序列集；第二样本的第二序列集采集模块，其对第二样本进行第二测序，得到第二样本的第二序列集；第一样本的第二序列集获取模块，其采用第一样本的第一序列集对第二样本的第二序列集进行筛选，获得第一样本的第二序列集；以及序列组装模块，其对第一样本的第二序列集进行序列组装，所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据。

实施例

在下述实施例中采用的具体操作步骤如下：

（一）三代测序方法：

（1）提取高质量的基因组DNA，并进行严格质控；

（2）将基因组DNA打断成大片段，然后进行损伤修复、接头连接、片段筛选等操作构建DNA文库；

（3）利用第三代测序仪PacBio Sequel对DNA文库进行测序，获得高质量的测序数据。

DNA质控检测实验流程如下：

（1）样品的外观性状是否含有异物；

（2）Nanodrop检测DNA纯度；

（3）Qubit精确地对DNA进行定量；

（4）Aglient 4200 检测DNA完整性。

文库构建和测序：

得到高质量纯化后的基因组DNA样品后，构建PCR-free的SMRT bell文库，文库经过片段筛选和定量后，将计算过的一定浓度和体积的文库模板和酶复合物转移到PacBioSequel测序仪的纳米孔里面，进行上机测序。

（二）二代测序方法：

DNA质量检测:

（1）1%的琼脂糖电泳检测DNA样本是否有降解以及杂质；

（2）NanoPhotometer®分光光度计检测样本纯度(IMPLEN, CA, USA)；

（3）Qubit®3.0 Flurometer(Life Technologies, CA, USA)检测DNA样本浓度。

DNA小片段文库制备

取用基因组DNA模板，根据TruSeq DNA Sample Preparation Guide（Illumina，15026486 Rev.C）方法及流程进行文库制备，本操作流程主要包括以下几个内容：

（1）Fragment DNA(DNA片段化)；

（2）End Repair(末端修复)；

（3）A-Tailing(末端加“A”)；

（4） Ligate Adapters(接头连接)；

（5）运用自动切胶仪对样本进行片段选择，回收目的片段；

（6）通过PCR富集目的片段。

库检:

文库构建完成后，先使用Qubit2.0进行初步定量，稀释文库至1ng/μl，随后使用Agilent 2100对文库的insert size进行检测，insert size符合预期后，使用Bio-RAD CFX96荧光定量PCR仪，Bio-RAD KIT iQ SYBR GRN进行Q-PCR，对文库的有效浓度进行准确定量（文库有效浓度＞10nM），以保证文库质量。

测序:

检测合格的文库，在Illumina测序平台上运行双端测序程序（PE150），得到长为150bp的序列（Reads）。

实施例

采用改良的2%十六烷基三甲基溴化铵（CTAB）法分别提取李植物样本与李植物和拟南芥的混合样本DNA，步骤如下：

（1）取-80℃冷冻保存的样品，放入用液氮充分预冷的研钵中研磨成粉末状；

（2）将研磨好的粉末迅速转移到预热的CTAB提取缓冲液中，颠倒混匀，进行水浴；

（3）离心，将上清转移至新的EP管中，加入等体积的酚/氯仿/异戊醇混合液，颠倒混匀，室温静置；

（4）离心，将上清转移至新的EP管中，重复步骤（3）；

（5）加入RNase，颠倒混匀，室温静置；

（6）加入等体积异丙醇，颠倒混匀，离心，收集沉淀；

（7）加入75 %乙醇，离心，弃上清；

（8）重复步骤（7）；

（9）加入EB buffer溶解沉淀，将DNA于-20 ℃保存。

（10）使用超微量分光光度计、荧光定量仪及1 %琼脂糖凝胶电泳对所提取样品DNA的质量纯度、浓度及完整性进行检测。

按照上述二代测序方法的试验流程对李植物进行测序获得李植物二代序列集A。

将拟南芥和李植物的DNA样本进行混合，得到拟南芥和李植物的混合样本，在该混合样本中，李植物的DNA占拟南芥和李植物混合样本总DNA的75%，在本实施例中李植物是目标样本。

按照上述二代测序方法的试验流程对拟南芥和李植物混合样本进行测序获得拟南芥和李植物的二代混合序列集B。

按照上述三代测序方法的试验流程对拟南芥和李植物混合样本进行三代测序，构建三代混合序列集C。

对李植物样本以及拟南芥和李植物的混合物的基因组分别进行二代测序，和常规的基因组Survey分析。对数据进行过滤，获得高质量的Reads。然后进行k-mer分析，预估基因组的杂合率、重复度以及基因组大小等信息。其中，杂合度和重复度体现了组装难度，二者均是值越高难度越大，基因组大小可以和组装后的基因组大小进行比较，也可以和预期的基因组大小进行比较，差异越大，表明效果与预期差异较大，可能存在组装问题。

通过对李植物基因组DNA的Survey分析，得到李植物的二代测序序列集A，以及得到李植物单一样本的基因组大小为246.3M，kmer分布曲线，如图1所示，图1的结果呈现出典型植物二倍体的特征。

通过拟南芥和李植物混合物的基因组DNA 的Survey分析，得到拟南芥和李植物混合物的基因组DNA的二代测序序列集B，以及得到拟南芥和李植物混合样本的基因组大小为278.4 M，kmer分布曲线，如图2所示，图2的结果呈现出混样复杂的特征。

通过LoRDEC软件，通过数据集A对三代测序序列集C，进行比对和纠正，统计匹配率，也即匹配比例；通过统计匹配率的分布，确定匹配率异常低的阈值。在本实施例中，如图3所示，过滤掉匹配率在20%以下的序列。

过滤掉匹配率<20%的三代数据以及对完全不匹配的序列纠错，得到纯化后的滤过数据集，在本实施例中具体为三代数据subreads-filter，即李植物三代测序序列集D；

经过统计，三代序列集C，总的碱基数为27,000,040,789bp；过滤后的李植物三代序列集D，总的碱基数为26,818,940,981bp。初步统计，污染数据过滤效率达到10%；如考虑到同为植物的污染源拟南芥，与目标物种李植物有较高的同源，实际的过滤效率将会远高于10%。

利用Canu软件，对经上述过滤处理的李植物三代序列集D（subreads-filter）开展基因组Denovo组装，得到组装结果，并进行组装评估。

对比例

利用Canu软件，对上述实施例中的拟南芥和李植物DNA的三代序列集C直接进行Denovo组装，得到组装结果，并进行组装评估。

从组装结果的评估效果来看，实施例与对比例相比，组装的核心指标N50提高了69.6%，完整性Coverage Rate提高了9.68%。考虑到拟南芥是模式物种，和李植物有较高同源性，Busco评估结果完整性（C）没有明显提高，但是重复度（D）降低5.3%，符合净化预期。详情见表1。

同时，混和样本与单一样本测序数据，经Survey分析获得的基因组大小分别为278Mb和246Mb，差距32Mb。在实际组装时，由于杂合与部分同源的影响，基因组大小偏大；同时，过滤前的序列集（三代混合序列集C）和过滤后的序列集（李植物三代序列集D），经组装大小分别为377Mb和339Mb，差距38Mb，和Survey分析结果差距基本一致；同时，二代测序获得序列经比对的覆盖率的明显提升，也进一步体现了本实施例方案的过滤策略，取得了明显的改善效果。

表1.实施例和对比例的组装评估比较

Assembly	Total	N50	Coverage rate	Busco
					对比例	377,984,685bp	1,916,763bp	78.06%	98.0%
实施例	339,186,928bp	3,251,001bp	87.74%	98.2%

综上，利用实施例所述的方法对存在污染、混合样本复杂的基因组进行denovo组装时，效果显著，表1总结了对比例和实施例的结果差异，在实际组装时，由于混合样本（在本实例中也包括部分同源样本）的影响，基因组大小偏大；同时过滤前和过滤后序列集，经组装大小分别为377Mb和339Mb，差距38Mb，和Survey分析结果的差距基本一致（Survey结果基因组大小差距的数据：278.4Mb-246.3Mb=32.1Mb）；同时二代比对的覆盖率（Coveragerate）也明显提升，进一步体现了该方案的过滤策略，取得了明显的改善效果。

以上所述，仅是本文的较佳实施例而已，并非是对本文作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本文技术方案内容，依据本文的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本文技术方案的保护范围。

Claims

1.一种获得目标样本的目标测序数据的方法，其包括：

对第一样本进行第一测序，得到第一样本的第一序列集；

对第二样本进行第二测序，得到第二样本的第二序列集；

所述第一样本为目标样本，所述第一样本的第二序列集为目标样本的目标测序数据，其中，

所述第一样本为单一样本；以及

所述第二样本为包含所述单一样本的混合样本，

所述第一测序为高通量测序，所述第二测序为单分子测序，

根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集，

所述匹配信息是第一样本的第一序列集中的序列与所述第二样本的第二序列集中的各序列的匹配比例，

根据所述匹配信息对第二样本的第二序列集中的序列进行筛选包括：

序列纠错和/或序列过滤：将匹配信息在设定值以下的第二样本的第二序列集中的序列从第二样本的第二序列集中剔除，

经过所述序列纠错和序列过滤得到的剩余序列组成的滤过序列集为第一样本的第二序列集。

2.根据权利要求1所述的方法，其中，

所述单一样本在所述混合样本中所占的比例为70%以上。

3.根据权利要求1或2所述的方法，其还包括：

对第二样本进行第一测序，得到第二样本的第一序列集。

4.根据权利要求3所述的方法，其中，

第二样本的第一序列集的测序结果包括基于第一测序获得的第二样本的基因组大小，第一样本的第一序列集的测序结果包括基于第一测序获得的第一样本的基因组大小，

将第一样本的基因组大小与第二样本的基因组大小进行比较，获得第一样本与第二样本的基因组大小的差值。

5.一种对目标样本的序列进行组装的方法，其采用权利要求1-4中任一项所述的方法获得的目标样本的目标测序数据进行序列组装。

6.一种对目标样本进行三代测序的系统，其包括：

所述第一样本为单一样本；以及

所述第二样本为包含所述单一样本的混合样本，

所述第一测序为高通量测序，所述第二测序为单分子测序，

第二子模块：其根据所述匹配信息对第二样本的第二序列集中的序列进行筛选以获得第一样本的第二序列集，

在第一样本的第二序列集获取模块的第二子模块包括以下元件：

滤过序列集获取元件：其收集经过所述序列纠错元件或序列过滤元件得到的剩余序列，得到滤过序列集，所述滤过序列集即为第一样本的第二序列集。

7.根据权利要求6所述的系统，其中，

所述单一样本在所述混合样本中所占的比例为70%以上。