CN114496091A

CN114496091A - 对组装的基因组进行优化的方法

Info

Publication number: CN114496091A
Application number: CN202111660340.3A
Authority: CN
Inventors: 张雪梅; 杨伟飞; 裴素蕊; 李晓波; 刘涛; 李志民; 王娟
Original assignee: Zhejiang Annoroad Bio Technology Co ltd
Current assignee: Zhejiang Annoroad Bio Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-13

Abstract

本发明提供一种对组装的基因组进行优化的方法，所述方法包括以下步骤：对样本进行测序得到测序序列集；对测序序列集通过两种或两种以上的方式进行组装得到两种或两种以上的初始基因组，并且获得每种初始基因组对应的第一特征和第二特征；遍历每种初始基因组的第一特征，将第一特征占优势的初始基因组作为基础基因组；当除作为基础基因组之外的任一其余初始基因组的第二特征相对于基础基因组的第二特征占优势时，使用所述其余初始基因组的优势区域替换基础基因组的对应区域，以得到优化的基因组。本发明的方法可以使用高完整性的组装序列来纠正低完整性的组装序列，从而获得一个高连续度，高完整度的基因组版本。

Description

对组装的基因组进行优化的方法

技术领域

本发明属于测序技术领域，具体地，涉及一种对组装的基因组进行优化的方法。

背景技术

基因组组装的目的是为了获取高连续度、高完整度的基因组，但是在实际的组装过程中不同的基因组组装软件，由于组装的方法存在差异，因此在使用过程中对杂合区域的敏感性也存在差异。因此，在使用不同软件组装完成后，基因组的连续度和完整度都存在差异。有些基因组具有高完整度，但是连续度很低；而有些基因组具有高连续度，但是完整度低。

因此，需要一种获得高连续度、高完整度的基因组的方法。

发明内容

针对基因组组装的现有技术中存在的经组装的基因组不能同时满足高完整度和高连续度的问题，本发明提供一种对组装的基因组进行优化的方法。

具体来说，本发明涉及如下方面：

1.一种对组装的基因组进行优化的方法，其特征在于，所述方法包括以下步骤：

对样本进行测序得到测序序列集；

对测序序列集通过两种或两种以上的方式进行组装得到两种或两种以上的初始基因组，并且获得每种初始基因组对应的第一特征和第二特征；

遍历每种初始基因组的第一特征，将第一特征占优势的初始基因组作为基础基因组；

当除作为基础基因组之外的任一其余初始基因组的第二特征相对于基础基因组的第二特征占优势时，使用所述其余初始基因组的优势区域替换基础基因组的对应区域，以得到优化的基因组。

2.根据项1所述的方法，其特征在于，所述第一特征表示基因组的连续度，所述第二特征表示基因组的完整度。

3.根据项2所述的方法，其特征在于，所述第一特征为基因组中拼接获得的序列的长度，优选为Contig N50。

4.根据项2所述的方法，其特征在于，所述第二特征表示基因组中组装序列的完整度，优选为Busco的C值。

5.根据项1-4中任一项所述的方法，其特征在于，所述序列集是经过质控得到的序列集。

6.根据项1-5中任一项所述的方法，其特征在于，使用所述其余初始基因组中的优势区域替换基础基因组中的对应区域包括：

对其余初始基因组中的优势区域进行扩展，

从其余初始基因组中提取扩展后的区域，并与基础基因组进行序列比对以确认其在基础基因组中的优势扩展区域，

并将所述优势扩展区域替换为所述其余初始基因组中的对应区域。

7.根据项6所述的方法，其特征在于，所述扩展的长度为10bp-10kbp，优选为50bp-5kbp，更优选为500bp-1kbp。

8.根据项6所述的方法，其特征在于，所述序列比对通过Blat比对进行。

9.根据项1-8中任一项所述的方法，其特征在于，所述优势区域是具有优势特征项的区域。

10.根据项1-9中任一项所述的方法，其特征在于，所述样本的来源为动物、植物或微生物。

11.根据项1-10中任一项所述的方法，其特征在于，所述序列集包括碱基序列信息和其他序列信息的集合。

12.根据项11所述的方法，其特征在于，所述其他序列信息包括碱基位置、序列长度。

13.根据项1-12中任一项所述的方法，其特征在于，所述测序为第三代测序。

本发明的方法可以使用高完整性的组装序列来纠正低完整性的组装序列，从而获得一个高连续度，高完整度的基因组版本。

附图说明

图1为本发明实施例中的流程示意图。

具体实施方式

下面结合实施例进一步说明本发明，应当理解，实施例仅用于进一步说明和阐释本发明，并非用于限制本发明。

除非另外定义，本说明书中有关技术的和科学的术语与本领域内的技术人员所通常理解的意思相同。虽然在实验或实际应用中可以应用与此间所述相似或相同的方法和材料，本文还是在下文中对材料和方法做了描述。在相冲突的情况下，以本说明书包括其中定义为准，另外，材料、方法和例子仅供说明，而不具限制性。以下结合具体实施例对本发明作进一步的说明，但不用来限制本发明的范围。

针对现有技术存在的问题，本发明提供一种对组装的基因组进行优化的方法，所述方法包括以下步骤：

步骤一：对样本进行测序得到测序序列集；

步骤二：对测序序列集通过两种或两种以上的方式进行组装得到两种或两种以上的初始基因组，并且获得每种初始基因组对应的第一特征和第二特征；

步骤三：遍历每种初始基因组的第一特征，将第一特征占优势的初始基因组作为基础基因组；

步骤四：当除作为基础基因组之外的任一其余初始基因组的第二特征相对于基础基因组的第二特征占优势时，使用所述其余初始基因组的优势区域替换基础基因组的对应区域，以得到优化的基因组。

在步骤一中，待测序样本的来源可以为动物、植物或者微生物。所述测序为已知可行的测序技术，如第二代高通量测序技术、第三代单分子测序技术等。

在一个具体的实施方式中，所述测序为第三代测序。第三代测序为单分子测序技术，不需要经过PCR扩增，实现对每一条DNA分子进行单独测序的技术，无GC偏好性，有着更快的数据读取速度。三代测序技术的应用目前主要在基因组测序、甲基化研究和突变鉴定(SNP检测)等方面。

单分子测序是指利用DNA聚合酶合成与模板互补的DNA链，在三维空间中记录模板位置和核苷酸序列信息，再反向构建DNA模板的序列。除了DNA合成反应的三大要素(模板、酶、核苷酸)之外，模板所处位置和反应循环中单色荧光标记的核苷酸顺序(如A、C、G、T)也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光，则每一次反应循环就需要切换不同波长的光以记录不同的碱基。

现有第三代测序技术中，以太平洋生物科学(Pacific Biosciences)公司研发的单分子实时测序系统(Single Molecule Real Time，SMRT)和Oxford NanoporeTechnologies公司的纳米孔单分子测序技术比较有代表性。与一代测序和二代测序相比，他们最大的特点就是单分子测序，测序过程无需进行PCR扩增。

在具体操作时，例如可以使用第三代测序仪PacBio Sequel对样本进行测序。

测序得到的序列集是指序列的集合，例如可以是包括碱基顺序和其他序列信息的集合。其中，其他序列信息可以为碱基位置，序列长度等信息。

所述序列集可以是测序直接得到的序列集，也可以是经过质控得到的序列集。

在一个具体的实施方式中，所述序列集是经过质控得到的序列集。具体地，可以通过过滤去除低质量序列，去除接头序列对序列集进行质控。例如对于PacBio测序平台，下机数据可以通过使用PacBio官方质控软件SMRT Link进行质控及数据转换，以去除低质量序列。

在步骤二中，对测序序列集进行组装可以采用现有技术中任何已知的方式进行。在一个具体的实施方式中，序列组装为从头组装，即Denovo组装。采用的组装软件可以是现有技术中已知的相关软件，例如CANU，Flye，WTDBG2，hifiasm等。使用几种方式进行组装便可以得到几种初始基因组。例如采用两种方式组装时，可以得到两种初始基因组。采用三种方式组装时，可以得到三种初始基因组。

在本发明中特征可以是指能够表征经组装的基因组品质的指标。组装的基因组品质通常可以采用3个原则作为评估指标，即3C原则：连续性(Contiguity)、正确性(Correctness)和完整性(Completeness)。连续性是指得到足够长的拼接获得的序列(Contig)，可用contig N50进行表征。正确性(Correctness)是指组装的contig序列错误率要低。完整性(Completeness)是指组装的contig序列尽可能包含整个基因组信息，例如可以采用BUSCO来评估。初始基因组的第一特征和第二特征是表征初始基因组品质的指标，即可以反映组装的基因组的质量。

在一个具体的实施方式中，所述第一特征表示基因组的连续度，所述第二特征表示基因组的完整度。基因组的连续度是指组装的基因组contig是否足够长。基因组的完整度是指组装基因组是否包含该物种的全部序列信息。

连续度和完整度都是评价测序序列组装效果的重要指标。基因组组装的目的是为了获取高连续度、高完整度的基因组，但是在实际的组装过程中经常会发现，有些基因组是高完整性的，但是连续度很低；而有些基因组是高连续度的，但是完整性低。本发明的方法就是为了获得高连续度、高完整度的基因组。

因此，通过步骤二可以分别获得每种组装得到的初始基因组的连续度和完整度数据。

在一个具体的实施方式中，表示基因组连续度的第一特征为拼接获得的序列(Contig)表征组装结果的长度，优选为Contig N50。其中，Contig N50是指将所有的Contig长度相加，能获得一个Contig总长度，然后将所有的Contigs长度按照从长到短进行排序，如获得Contig 1、Contig 2、Contig 3………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。

在一个具体的实施方式中，所述第二特征为Busco的C值。

其中，作为评估转录组和基因组完整性的一种方法，BUSCO(BenchmarkingUniversal Single-Copy Orthologs)，收集了相近物种之间的保守序列，利用OrthoDB直系同源数据库构建了六种主要的系统进化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集，将拼接的转录组和基因组进行比较。

虽然每个物种的基因组不尽相同，但对于进化关系近的物种来讲，它们之间总存在一些保守的基因序列。基于该特征，BUSCO构建了进化大分枝的保守基因数据库(OrthoDB数据库)，针对几个大的进化分支分别构建了核心单拷贝基因集。完成转录组或者基因组的初步组装后，可以将组装结果与该物种所属进化大分支的核心数据库进行比对，鉴定组装的结果是否包含这些核心序列，包含单条、多条还是部分或者不包含等情况给出结果。其中，BUSCO评估软件针对基因组，BUSCO首先调用Augustus软件对基因组进行基因结构预测，再使用HMMER3比对到参考基因集；针对转录本，则在鉴定出最长读码框架之后，再使用HMMER3比对参考基因集。最终根据比对上的序列比例、完整性等，评估组装结果的准确性和完整性。BUSCO评估结果会显示C(complete)、S(singel-copy)、D(duplicated)、F(Fragmented)、M(Missing)等数值。一般情况下，S+D的数值也就是C值。通常C值越大，说明其所反应的组装序列的完整度越好。如果D值越大，可能意味着组装序列存在冗余的可能性较大，也可能是由于基因组近期存在全基因组复制现象。假如基因组的BUSCO评估中C值相对较低时候，或者原始组装的基因组去冗余，导致BUSCO评估的C值降低较大时候，就需要提升C值，找回丢失的基因。

对于基因组内的多个基因，通过是否包含在busco库中，而在BUSCO评估中评价为有或者无该基因。

在步骤三中，遍历每种初始基因组的第一特征，将第一特征占优势的初始基因组作为基础基因组。其中遍历每种初始基因组的第一特征，包括将每种组装得到的初始基因组的第一特征进行查找，比较以确定第一特征占优势的初始基因组。

其中，特征占优势是指在采用某种评估方式对多个基因组进行评估时，在某个基因组中该特征相对于其他基因组被评估为优势特征项。类似的，第一特征占优势是指在采用某种评估方式对多个基因组进行评估时，在某个基因组中其第一特征相对于其他基因组被评估为优势特征项。具体如，采用BUSCO方法评估两个基因组，当第一特征表示基因组的完整度时，在一个基因组中其完整度相对于另一个基因组被评估为优势特征项。优势特征项是指在采用某种或某些特征描述一系列基因组的品质差异时，代表基因组具有更优异组品质的特征项。如当特征为基因组的完整度时，可以采用BUSCO的C值(Complete BUSCOs值)代表基因组的完整度，此时更高的C值代表更优异的基因组品质，即更高的C值为优势特征项。具体如完整度为90％的基因组的品质优于完整度为80％的基因组，即此时完整度90％为优势特征项。又如当特征为一般二倍体基因组的D值(Duplicated BUSCOs值，重复的BUSCOs在全部BUSCOs中的占比)时，更低的D值代表更优异的基因组品质，即此时更低的D值为优势特征项。具体如D值为50％的基因组的品质优于D值为80％的基因组，即此时D值50％为优势特征项。

在一个具体的实施方式中，拼接获得序列的连续度作为优势特征项，将组装获得的初始基因组中，拼接获得序列的连续度较大的基因组作为基础基因组。

在一个具体的实施方式中，拼接获得序列的Contig N50为优势特征项，将组装获得的初始基因组中，拼接获得序列的Contig N50较大的基因组作为基础基因组。

在步骤四中，当除作为基础基因组之外的任一其余初始基因组的第二特征相对于基础基因组的第二特征占优势时，使用所述其余初始基因组的优势区域替换基础基因组的对应区域，以得到优化的基因组。例如，第二特征值表示基因组中组装序列的完整度，优选地，当其他初始基因组的Busco的C值大于基础基因组的C值时，则利用该初始基因组的优势区域替换基础基因组的对应区域。

优势区域是指具有优势特征项的区域。具体地，是指在采用某种或某些特征描述一系列基因组中对应的某一或某些区域的品质差异时，具有代表更优异序列品质的特征项的区域。由于待比对基因组与参考序列集比对后均可获得比对位置坐标，因此每个经组装的基因组中的所有核苷酸序列都可以标注其在相对于某一参考基因组的绝对位置，而在不同经组装的基因组中有相同绝对位置的区域称为对应区域。在某些非优势区域，待比对基因组在该区域的某些特征优于参考基因组或其他待比对基因组，则这些非优势区域为优势扩展区域。优势扩展区域可以优先在优势区域附件寻找。优势扩展区域在一些情况下可以同时包括优势区域。所述非非优势区域的某些特征可以是表征该区域连续度和完整度的特征，例如Contig N50和Busco的C值等。

进一步地，使用所述其余初始基因组中的优势区域替换基础基因组中的对应区域包括以下步骤：

对其余初始基因组中的优势区域进行扩展，

从其余初始基因组中提取扩展后的区域，并与基础基因组进行序列比对以确认其在基础组基因组中的最优比对区域，

并将所述最优比对区域区域替换为所述其余初始基因组中的对应区域。

其中，对优势区域进行扩展时，该扩展可以为对序列的向前扩展、向后扩展，或同时向前向后扩展。在一个具体的实施方式中，所述扩展为对序列的前后扩展。扩展的长度可以根据优势区域的长度调整，也可以根据非优势区域的某些特征进行扩展。例如扩展长度可以为10bp-10kbp，优选为50bp-5kbp，更优选为500bp-1kbp。

序列比对可以采取现有技术已知的方式进行，例如可以通过Blat比对。

在一个具体的实施方式中，本发明的对组装的基因组进行优化的方法，其特征在于，所述方法包括以下步骤：

对样本进行测序得到测序序列集；

对测序序列集通过两种方式进行组装得到两种初始基因组，并且获得每种初始基因组对应的第一特征和第二特征，其中所述第一特征表示基因组的连续度，所述第二特征表示基因组的完整度；

在一个具体的实施方式中，本发明的对组装的基因组进行优化的方法，所述方法包括以下步骤：

对样本进行测序并质控得到测序序列集；

对测序序列集通过两种方式进行组装得到两种初始基因组，并且获得每种初始基因组对应的Contig N50和Busco的C值；

遍历每种初始基因组的Contig N50，将Contig N50较大的初始基因组作为基础基因组；

当另一个初始基因组的Busco的C值相对于基础基因组的Busco的C值更大时，对另一个初始基因组中的优势区域进行扩展，

从另一个初始基因组中提取扩展后的区域，并与基础基因组通过Blat比对进行序列比对以确认其在基础组基因组中的最优比对区域，

并将所述最优比对区域替换为所述其余初始基因组中的对应区域。

实施例

以下实施例的流程如图1所示，首先对样本进行建库测序，数据质控与过滤后得到测序序列集。然后使用基因组装版本1和基因组装版本2对测序序列集进行组装得到两种初始基因组，其中每种初始基因组均具有Contig N50和BUSCO的C值。一个初始基因组的Contig N50较高，BUSCO的C值较低，另一个初始基因组的Contig N50较低，BUSCO的C值较高。以两个初始基因组中，Contig N50较高的基因组为基础基因组，对另一个初始基因组中的优势区域进行扩展，从另一个初始基因组中提取扩展后的区域，并与基础基因组进行序列比对以确认其在基础组基因组中的最优比对区域，并将所述最优比对区域替换为所述其余初始基因组中的相应的基因组。

1.对某海洋生物进行三代测序，Pacbio平台，测序数据量327G subreads。采用质控软件SMRT Link对测序数据进行质控处理。

2.用canu进行长read纠错，纠错后的read用CANU(软件1)和WTDBG2(软件2)分别组装，获得的基因组组装结果分别命名为基因组A和基因组B。

3.组装结果进行N50和BUSCO评估，结果如表1所示：

表1

4.预估该样本的基因组大小为1.1G，由于基因组B大小更接近真实大小，且N50评估长，BUSCO值低，所以将基因组B作为基础基因组，并尝试用基因组A的BUSCO值高的优势区域的核苷酸序列替换基础基因组B中的对应区域，以提升基因组B的完整度。

5.采用软件blat将待替换的基因组与参考基因组进行比对，获得基因组A的优势区域，即高N50区域。并将该优势区域向序列的前后各扩展1kbp，获得优势扩展区域(包括前述优势区域)。按照步骤4方案采用基因组A的优势扩展区域替换基因组B的对应区域的核苷酸序列(替换流程采用python编写)，得到提升后的基因组B(重命名为基因组B’)，结果如表2所示：

表2

由表2可见，采用实施例的方法通过基因组A对基因组B实施BUSCO优化后获得基因组B’，其大小为1,125,786,841bp，代表完整度的BUSCO C值为92.1％。与初始的基因组B相比，基因组大小和Contig N50接近。这表明体现基因组完整性的BUSCO C值提升了1.4％，Duplicated BUSCOs比例没有明显上升，即经本实施例的方法在不影响(如降低)初始基因组连续度的前提下，获得了完整度优于初始组装基因组的优化基因组，也即本实施例的方法能够使组装基因组的品质得到有效地提升。

Claims

对样本进行测序得到测序序列集；

2.根据权利要求1所述的方法，其特征在于，所述第一特征表示基因组的连续度，所述第二特征表示基因组的完整度。

3.根据权利要求2所述的方法，其特征在于，所述第一特征为基因组中拼接获得的序列的长度，优选为Contig N50。

4.根据权利要求2所述的方法，其特征在于，所述第二特征表示基因组中组装序列的完整度，优选为Busco的C值。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述序列集是经过质控得到的序列集。

6.根据权利要求1-5中任一项所述的方法，其特征在于，使用所述其余初始基因组中的优势区域替换基础基因组中的对应区域包括：

对其余初始基因组中的优势区域进行扩展，

7.根据权利要求6所述的方法，其特征在于，所述扩展的长度为10bp-10kbp，优选为50bp-5kbp，更优选为500bp-1kbp。

8.根据权利要求6所述的方法，其特征在于，所述序列比对通过Blat比对进行。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述优势区域是具有优势特征项的区域。

10.根据权利要求1-9中任一项所述的方法，其特征在于，所述样本的来源为动物、植物或微生物。

11.根据权利要求1-10中任一项所述的方法，其特征在于，所述序列集包括碱基序列信息和其他序列信息的集合。

12.根据权利要求11所述的方法，其特征在于，所述其他序列信息包括碱基位置、序列长度。

13.根据权利要求1-12中任一项所述的方法，其特征在于，所述测序为第三代测序。