CN114464260A

CN114464260A - 染色体水平基因组的组装方法和组装装置

Info

Publication number: CN114464260A
Application number: CN202111649960.7A
Authority: CN
Inventors: 赵勇; 周勋; 康玲; 陶琳娜; 王静
Original assignee: Tianjin Novogene Biological Information Technology Co ltd
Current assignee: Shanghai Novogene Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-10
Anticipated expiration: 2041-12-29
Also published as: CN114464260B

Abstract

本发明提供了一种染色体水平基因组的组装方法和组装装置。该组装方法包括：获取同一物种已知的染色体水平基因组作为参考基因组；将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息；根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组。对于难以提供Hi‑C数据的物种，通过使用同一物种已发表的染色体水平基因组作为参考基因组，将新测个体的重叠群或支支架水平基因组比对到参考基因组，从而实现将新测个体有参挂载到染色体水平的目的。

Description

染色体水平基因组的组装方法和组装装置

技术领域

本发明涉及基因组组装领域，具体而言，涉及一种染色体水平基因组的组装方法和组装装置。

背景技术

基因组组装一般分为二代测序数据组装和三代测序数据组装，二代测序数据常用的组装软件为soapdenovo，通过小片段及大片段数据结合，组装结果为支架(scaffold)水平基因组；三代测序数据常用的组装软件为canu或者falcon，组装的结果为重叠群(contig)水平基因组。上述两种测序组装方法，都无法将基因组组装到染色体水平。

Hi-C(High-through chromosome conformation capture)技术为高通量染色体构象捕获技术，利用染色体内部互做强度远大于染色体间互做强度的原理，对组织进行甲醛交联固定，特异性的限制酶对基因组进行酶切，然后经过加生物素标记和末端修复，再次进行酶连，打断，使用磁珠捕获带生物素标记的片段进行高通量测序，测序的数据结合contig或者scaffold水平的基因组使用3d-dna软件进行挂载，最终得到染色体水平基因组。

在生产过程中，有些基因组测序往往因为成本限制，不会进行Hi-C技术测序；有些物种则因为基因组序列特异性，酶切位点重复序列较高，导致Hi-C数据有效率不能达标；还有些物种因为个体较小或者珍稀程度较高，测序样本的组织量不足以进行Hi-C技术测序。这些物种的基因组不会挂载到染色体水平，使得物种基因组的研究存在难题。

综上可知，基因组二代测序数据或者三代测序数据组装后得到重叠群(contig)或者支架(scaffold)水平的基因组后，一般通过Hi-C技术挂载到染色体水平，对于有些物种，因为采样比较困难，没有足够都样本用于Hi-C测序；或者因为物种的特异性，Hi-C技术不适用于此物种，后续染色体水平基因组的挂载会比较困难。

因此，对于没有Hi-C测序数据的物种，则难以实现染色体水平的基因组组装。

发明内容

本发明的主要目的在于提供一种染色体水平基因组的组装方法和组装装置，以解决现有技术中没有Hi-C测序数据的物种，则难以实现染色体水平的基因组组装的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种染色体水平基因组的组装方法，该组装方法包括：获取同一物种已知的染色体水平基因组作为参考基因组；将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息；根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组。

进一步地，将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息包括：将待组装个体的重叠群或支架比对到参考基因组，得到比对文件；过滤比对文件中短于长度阈值的比对序列，得到过滤后的比对文件；将过滤后的比对文件转化为比对后的坐标矩阵文件；根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的坐标信息。

进一步地，根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件包括：判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置；若是，则修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；若否，则修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；其中，参考序列指参考基因组上的序列；查询序列指待组装个体的重叠群或支架。

进一步地，对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件包括：判断查询序列在参考基因组上是否存在多个比对位置；对于存在多个比对位置的查询序列，则仅保留查询序列在坐标信息中最长的对应关系，得到唯一的对应关系坐标文件。

进一步地，根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组包括：根据查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号；对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序，得到排序后的最长的比对对应关系文件；根据排序后的最长的比对对应关系文件，将查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件；根据排序后的最长的比对对应关系文件，将查询序列按照参考序列在比对区域的开始位置依次输出，同时根据未挂载序列的名称文件，将未挂载的序列不做改变直接输出，得到最终的挂载后的染色体水平的基因组的文件；其中，对于最长的比对对应关系文件中第五列为负号的查询序列，将查询序列进行反向互补，正号不做处理；对于同一参考序列下，依次输出的不同查询序列之间填充N，生成待组装个体与参考基因组的对应关系agp文件。

根据本发明的第二个方面，提供了一种染色体水平基因组的组装装置，该组装装置包括：获取模块，被设置为获取同一物种已知的染色体水平基因组作为参考基因组；比对模块，被设置为将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息；挂载模块，被设置为根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组。

进一步地，比对模块包括：mummer模块、修正模块和去重模块，其中，mummer模块包括：比对单元，被设置为将待组装个体的重叠群或支架比对到参考基因组，得到比对文件；过滤单元，被设置为过滤比对文件中短于长度阈值的比对序列，得到过滤后的比对文件；转化单元，被设置为将过滤后的比对文件转化为比对后的坐标矩阵文件；修正模块，被设置为根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；去重模块，被设置为对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的坐标信息。

进一步地，修正模块包括：第一判断单元，被设置为判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置；第一修正单元，被设置为当结束位置大于起始位置时，使修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；第二修正单元，被设置为当结束位置小于起始位置时，使修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；其中，参考序列指参考基因组上的序列；查询序列指待组装个体的重叠群或支架。

进一步地，去重模块包括：第二判断单元，被设置为判断查询序列在参考基因组上是否存在多个比对位置；去重单元，被设置为对于存在多个比对位置的查询序列，仅保留查询序列在坐标信息中最长的对应关系，得到唯一的对应关系坐标文件。

进一步地，挂载模块包括：最长挑选模块，被设置为根据查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号；排序模块，被设置为对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序，得到排序后的最长的比对对应关系文件；未挂载提取模块，被设置为根据排序后的最长的比对对应关系文件，将查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件；输出模块，被设置为根据排序后的最长的比对对应关系文件，将查询序列按照参考序列在比对区域的开始位置依次输出，同时根据未挂载序列的名称文件，将未挂载的序列不做改变直接输出，得到最终的挂载后的染色体水平的基因组的文件；其中，对于最长的比对对应关系文件中第五列为负号的查询序列，将查询序列进行反向互补，正号不做处理，对于同一参考序列下，依次输出的不同查询序列之间填充N，生成待组装个体与参考基因组的对应关系agp文件。

根据本申请的第三个方面，提供了一种计算机可读存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述染色体水平基因组的组装方法。

根据本申请的第四个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述染色体水平基因组的组装方法。

应用本发明的技术方案，对于难以提供Hi-C数据的物种，通过使用同一物种已发表的染色体水平基因组作为参考基因组，将新测个体的重叠群或支支架水平基因组比对到参考基因组，从而实现将新测个体有参挂载到染色体水平的目的。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明的一种具体实施例中提供了一种染色体水平基因组的组装方法的流程简图；

图2示出了本发明的一种具体实施例中提供了一种染色体水平基因组的组装方法的详细流程图；

图3示出了本发明的一种具体实施例中大豆有参挂载结果与参考基因组的共线性图；以及

图4示出了本发明的另一种具体实施例中油菜有参挂载结果与参考基因组的共线性图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，现有技术中在对进行个体的测序数据进行组装的时候，通常是结合Hi-C的测序数据，对组装得到的重叠群或支架进行染色体水平的挂载，从而获得染色体水平基因组，然而该方法并不适合某些难以获得Hi-C数据的物种，因而，为改善这一状况，本申请提供了一种新的挂载思路。

实施例1

在本实施例中，提供了一种染色体水平基因组的组装方法，如图1所示，该组装方法包括：

S101，获取同一物种已知的染色体水平基因组作为参考基因组；

S103，将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息；

S105，根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组。

该组装方法，通过使用同一物种已发表的染色体水平基因组作为参考基因组，将新测个体的重叠群或支支架水平基因组，(比如使用mummer)比对到参考基因组，从而实现将新测个体有参挂载到染色体水平的目的。

示例性的，可以使用mummer软件将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息。Mummer是一款基因组之间的快速比对软件，比对坐标矩阵文件共15列：1)参考序列在比对区域的开始位置；2)参考序列在比对区域的结束位置；3)查询序列在比对区域的开始位置；4)查询序列在比对区域的结束位置；5)参考序列比对的长度；6)查询序列比对的长度；7)比对相似度；8)参考序列的长度；9查询序列的长度；10)比对区域在参考序列的覆盖度；11)比对序列在查询序列的覆盖度；12参考序列的方向；13)查询序列的方向；14)参考序列的名称；15)查询序列的名称。

在一种优选的实施例中，上述S103包括：将待组装个体的重叠群或支架比对到参考基因组，得到比对文件；过滤比对文件中短于长度阈值的比对序列，得到过滤后的比对文件；将过滤后的比对文件转化为比对后的坐标矩阵文件；根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的坐标信息。

上述实施例中，比对步骤可以采用mummer中的nucmer命令。过滤的步骤可以采用mummer中的delta-filter命令。转化的步骤可以采用mummer中的show-coords命令。

示例性的，上述根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件包括：判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置；若是，则修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；若否，则修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；其中，参考序列指参考基因组上染色体水平的序列；查询序列指待组装个体的重叠群或支架。

示例性的，上述对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件包括：判断查询序列在参考基因组上是否存在多个比对位置；对于存在多个比对位置的查询序列，则仅保留查询序列在坐标信息中最长的对应关系，得到唯一的对应关系坐标文件。保留在参考基因组序列上具有最长比对信息，更利于组装成更长的片段，从而更易获得染色体水平的组装结果。

在一种优选的实施例中，上述S105包括：

S1051，根据查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号。该步骤通过挑选最长的比对的对应关系，有利于减少相关信息，将之前的10列信息缩减为5列信息，更利于后续处理。

S1052，对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序，得到排序后的最长的比对对应关系文件。此处的排序可以通过一条命令实现。排序结果为按照参考序列的具体名称，在每个名称下，比对区域按开始位置进行排序。示例性说明如下：若待测物种有12条染色体，则按染色体编号顺序排序，然后在各染色体编号下，按照在该染色体上的物理位置从小到大进行排序。

S1053，根据排序后的最长的比对对应关系文件，将查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件。此步骤是将未能成功挂载的重叠群或支架的名称提取出来，以便在后续输出时，输出其对应的序列。

S1054，根据排序后的最长的比对对应关系文件，将查询序列按照参考序列在比对区域的开始位置依次输出，同时根据未挂载序列的名称文件，将未挂载的序列不做改变直接输出，得到最终的挂载后的染色体水平的基因组的文件；其中，对于最长的比对对应关系文件中第五列为负号的查询序列，将查询序列进行反向互补，正号不做处理；对于同一参考序列下，依次输出的不同查询序列之间填充N，生成待组装个体与参考基因组的对应关系agp文件。

S1054步骤中，将能够参照参考基因组序列比对到具体位置的序列进行挂载，能够将不同的重叠群或支架连接成更长的片段，但也存在一些无法连接的空缺之处，即连成的更长的片段之间仍有无法连接的区域，这些区域填充N从而实现在染色体水平的组装。具体地，在输出所组装的序列的过程中，如果某条序列对应的关系文件中标记为负号，则表明其方向是相反的，输出时改为其反向互补的序列进行输出。而对于未成功挂载的重叠群或支架，仍原样输出。

需要说明的是，上述组装方法在输出染色体水平基因组的同时，还能够输出新测个体与参考基因组的对应关系agp文件。其中，agp文件包括9列：1)目标序列(即连接完成后的基因组)的名称；2)目标序列的开始位置；3)目标序列的结束位置；4)构成序列(即连接之前的重叠群或支架)在目标序列的编号；5)构成序列的类型：W表示WGS contig；N表示明确长度的gap；U表示不明确长度的gap，一般用100bp长度；6)构成片段的名称或gap长度，如果第5列不为N或U，则此列为构成片段的ID。如果第5列是N或U，则此列为gap的长度。如果第5列为U，则此列值为100；7)构成片段开始位置或gap的类型，如果第5列是N或U，则此列表示gap的类型；8)构成片段结束位置或gap是否被连接，如果第5列是N或U，则此列的值为yes；9)构成片段方向或gap的连接证据。

此外，还需要说明的是，最后输出的挂载后的染色体水平的基因组的具体序列的文件格式是fasta格式。

实施例2

本实施例提供了一种基因组有参挂载到染色体水平的方法，如图2所示，具体实现方法的流程为：

1.使用mummer中的nucmer命令，将目标基因组比对到染色体水平基因组，参考序列为染色体水平基因组序列，目标基因组序列为查询序列，得到比对文件。

2.使用mummer中的delta-filter命令，过滤比对文件中较短的比对序列，得到过滤后比对文件。

3.使用mummer中的show-coords命令，将过滤后的比对文件转化为比对后的坐标矩阵文件。

4.根据mummer比对后的坐标矩阵文件，输出修正后的坐标文件。判断查询序列在比对区域的结束位置是否大于查询序列在比对区域的开始位置，如果是，修正后的坐标文件包括以下10列：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置。如果否，修正后的坐标文件包括以下10列：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置。

5.在修正后的坐标文件中，判断查询序列是否位于多个参考序列上，如果是，仅保留查询序列最长的对应关系，得到唯一的对应关系坐标文件。

6.在唯一的对应关系坐标文件中，根据查询序列比对开始减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件。包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号。

7.对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序，得到排序后的最长的比对对应关系文件。

8.根据最长的比对对应关系文件，将查询序列中，没有对应关系的序列名称提出来，得到未挂载序列的名称文件。

9.根据最长的比对对应关系文件，将查询序列按照参考序列在比对区域的开始位置依次输出，最长的比对对应关系文件第五列为负号的，将查询序列进行反向互补，正号不做处理。同一参考序列下的不同查询序列之间填充100个N的序列，生成对应关系agp文件。根据未挂载序列的名称文件，将未挂载的序列不做改变直接输出，得到最终的挂载后的染色体水平的基因组文件。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解，本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

显然，本领域的技术人员应该明白，上述的本申请的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

下面将结合具体的实施例来进一步说明本申请的有益效果。

实施例3

本实施例提供了一种染色体水平基因组的组装装置，该组装装置包括：获取模块、比对模块及挂载模块，其中，

获取模块，被设置为获取同一物种已知的染色体水平基因组作为参考基因组；

比对模块，被设置为将待组装个体的重叠群或支架通过与参考基因组比对，得到对应的坐标信息；

挂载模块，被设置为根据坐标信息将待组装个体的重叠群或支架挂载到染色体水平，得到待组装个体的染色体水平的基因组。

可选地，比对模块包括mummer模块。

在一种优选的实施例中，比对模块包括：mummer模块、修正模块和去重模块，其中，

mummer模块包括：比对单元，被设置为将待组装个体的重叠群或支架比对到参考基因组，得到比对文件；过滤单元，被设置为过滤比对文件中短于长度阈值的比对序列，得到过滤后的比对文件；转化单元，被设置为将过滤后的比对文件转化为比对后的坐标矩阵文件；

修正模块，被设置为根据重叠群或支架比对在参考基因组上的结束位置是否大于起始位置，对坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；

去重模块，被设置为对修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的坐标信息。

在一种优选的实施例中，修正模块包括：第一判断单元，被设置为判断重叠群或支架比对在参考基因组上的结束位置是否大于起始位置；第一修正单元，被设置为当结束位置大于起始位置时，使修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；第二修正单元，被设置为当结束位置小于起始位置时，使修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；其中，参考序列指参考基因组上染色体水平的序列；查询序列指待组装个体的重叠群或支架。

在一种优选的实施例中，去重模块包括：第二判断单元，被设置为判断查询序列在参考基因组上是否存在多个比对位置；去重单元，被设置为对于存在多个比对位置的查询序列，仅保留查询序列在坐标信息中最长的对应关系，得到唯一的对应关系坐标文件。

在一种优选的实施例中，挂载模块包括：

最长挑选模块，被设置为根据查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号；

排序模块，被设置为对最长的比对对应关系文件中的参考序列的名称和参考序列在比对区域的开始位置两列进行排序，得到排序后的最长的比对对应关系文件；

未挂载提取模块，被设置为根据排序后的最长的比对对应关系文件，将查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件；

输出模块，被设置为根据排序后的最长的比对对应关系文件，将查询序列按照参考序列在比对区域的开始位置依次输出，同时根据未挂载序列的名称文件，将未挂载的序列不做改变直接输出，得到最终的挂载后的染色体水平的基因组的文件；其中，对于所述最长的比对对应关系文件中第五列为负号的所述查询序列，将所述查询序列进行反向互补，正号不做处理，对于同一所述参考序列下，依次输出的不同查询序列之间填充N，生成所述待组装个体与所述参考基因组的对应关系agp文件。

实施例4

采用实施例2的方法对大豆进行有参挂载，挂载率为97.37％，其与参考基因组的共线性图见图3。同时与采用Hi-C技术的挂载方法进行了比较，结果见表1。

表1：

	Hi-C技术	本实施例
			挂载率	97.6％	97.37％
耗时	2.5D	3h

实施例5

某油菜物种新测个体，未测Hi-C数据，根据已发表的油菜染色体基因组(其挂载率为95.01％)，使用本发明的方法，进行有参挂载，最终的挂载率为93.47％，其与参考基因组的共线性图见图4。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本发明提供了一种不需要Hi-C技术，只需提供已发表本物种的染色体水平的基因组，利用其进行有参挂载使新测序个体基因组达到染色体水平的方法。

(1)本发明无需进行Hi-C技术测序即可将新测个体挂载到染色体水平。

(2)本发明挂载得到的染色体水平基因组，与参考基因组一致性更好，速度更快。

需要说明的是，本发明除了进行染色体水平的有参挂载，还可以使用scaffold的水平的参考基因组，对新测个体contig水平基因组进行连长。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种染色体水平基因组的组装方法，其特征在于，所述组装方法包括：

获取同一物种已知的染色体水平基因组作为参考基因组；

将待组装个体的重叠群或支架通过与所述参考基因组比对，得到对应的坐标信息；

根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平，得到所述待组装个体的染色体水平的基因组。

2.根据权利要求1的组装方法，其特征在于，将所述待组装个体的重叠群或支架通过与所述参考基因组比对，得到对应的所述坐标信息包括：

将所述待组装个体的所述重叠群或所述支架比对到所述参考基因组，得到比对文件；

过滤所述比对文件中短于长度阈值的比对序列，得到过滤后的所述比对文件；

将过滤后的所述比对文件转化为比对后的坐标矩阵文件；

根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置，对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；

对所述修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的所述坐标信息。

3.根据权利要求2的组装方法，其特征在于，根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置，对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件包括：

判断所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置；

若是，则所述修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；

若否，则所述修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；

其中，所述参考序列指所述参考基因组上染色体水平的序列；所述查询序列指所述待组装个体的所述重叠群或所述支架。

4.根据权利要求3所述的组装方法，其特征在于，对所述修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件包括：

判断所述查询序列在所述参考基因组上是否存在多个比对位置；

对于存在多个比对位置的所述查询序列，则仅保留所述查询序列在所述坐标信息中最长的对应关系，得到所述唯一的对应关系坐标文件。

5.根据权利要求3或4所述的组装方法，其特征在于，根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平，得到所述待组装个体的染色体水平的基因组包括：

根据所述查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，所述最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号；

对所述最长的比对对应关系文件中的所述参考序列的名称和所述参考序列在比对区域的开始位置两列进行排序，得到排序后的所述最长的比对对应关系文件；

根据排序后的所述最长的比对对应关系文件，将所述查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件；

根据排序后的所述最长的比对对应关系文件，将所述查询序列按照所述参考序列在比对区域的开始位置依次输出，同时根据所述未挂载序列的名称文件，将所述未挂载的序列不做改变直接输出，得到最终的所述挂载后的染色体水平的基因组的文件；

其中，对于所述最长的比对对应关系文件中第五列为负号的所述查询序列，将所述查询序列进行反向互补，正号不做处理；

对于同一所述参考序列下，依次输出的不同查询序列之间填充N，生成所述待组装个体与所述参考基因组的对应关系agp文件。

6.一种染色体水平基因组的组装装置，其特征在于，所述组装装置包括：

比对模块，被设置为将待组装个体的重叠群或支架通过与所述参考基因组比对，得到对应的坐标信息；

挂载模块，被设置为根据所述坐标信息将所述待组装个体的所述重叠群或所述支架挂载到染色体水平，得到所述待组装个体的染色体水平的基因组。

7.根据权利要求6的组装装置，其特征在于，所述比对模块包括：mummer模块、修正模块和去重模块，

其中，所述mummer模块包括：

比对单元，被设置为将所述待组装个体的所述重叠群或所述支架比对到所述参考基因组，得到比对文件；

过滤单元，被设置为过滤所述比对文件中短于长度阈值的比对序列，得到过滤后的所述比对文件；

转化单元，被设置为将过滤后的所述比对文件转化为比对后的坐标矩阵文件；

所述修正模块，被设置为根据所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置，对所述坐标矩阵文件中的各序列在基因组上的方向信息进行修正，得到修正后的坐标文件；

所述去重模块，被设置为对所述修正后的坐标文件进行去重处理，得到唯一的对应关系坐标文件，即对应的所述坐标信息。

8.根据权利要求7的组装装置，其特征在于，所述修正模块包括：

第一判断单元，被设置为判断所述重叠群或所述支架比对在所述参考基因组上的结束位置是否大于起始位置；

第一修正单元，被设置为当所述结束位置大于所述起始位置时，使所述修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对开始和结束位置；4)查询序列比对开始位置；5)正号；6)查询序列比对结束位置；7)查询序列比对结束减去开始位置的长度；8)查询序列比对结束减去开始位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；

第二修正单元，被设置为当所述结束位置小于所述起始位置时，使所述修正后的坐标文件包括以下10列信息：1)参考序列的名称；2)查询序列的名称；3)查询序列的名称和比对结束和开始位置；4)查询序列比对结束位置；5)负号；6)查询序列比对开始位置；7)查询序列比对开始减去结束位置的长度；8)查询序列比对开始减去结束位置的长度与比对长度的比值；9)参考序列在比对区域的开始位置；10)参考序列在比对区域的结束位置；

9.根据权利要求8所述的组装装置，其特征在于，所述去重模块包括：

第二判断单元，被设置为判断所述查询序列在所述参考基因组上是否存在多个比对位置；

去重单元，被设置为对于存在多个比对位置的所述查询序列，仅保留所述查询序列在所述坐标信息中最长的对应关系，得到所述唯一的对应关系坐标文件。

10.根据权利要求8或9所述的组装装置，其特征在于，所述挂载模块包括：

最长挑选模块，被设置为根据所述查询序列比对开始位置减去结束位置的长度，挑选最长的比对对应关系序列信息，得到最长的比对对应关系文件，其中，所述最长的比对对应关系文件包括5列：1)参考序列的名称；2)查询序列的名称；3)参考序列在比对区域的开始位置；4)参考序列在比对区域的结束位置；5)正号或者负号；

排序模块，被设置为对所述最长的比对对应关系文件中的所述参考序列的名称和所述参考序列在比对区域的开始位置两列进行排序，得到排序后的所述最长的比对对应关系文件；

未挂载提取模块，被设置为根据排序后的所述最长的比对对应关系文件，将所述查询序列中没有对应关系的序列名称提取出来，得到未挂载序列的名称文件；

输出模块，被设置为根据排序后的所述最长的比对对应关系文件，将所述查询序列按照所述参考序列在比对区域的开始位置依次输出，同时根据所述未挂载序列的名称文件，将所述未挂载的序列不做改变直接输出，得到最终的所述挂载后的染色体水平的基因组的文件；其中，对于所述最长的比对对应关系文件中第五列为负号的所述查询序列，将所述查询序列进行反向互补，正号不做处理，对于同一所述参考序列下，依次输出的不同查询序列之间填充N，生成所述待组装个体与所述参考基因组的对应关系agp文件。

11.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的染色体水平基因组的组装方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任一项所述的染色体水平基因组的组装方法。