CN112562786B

CN112562786B - 一种基于遗传群体组装基因组的方法、装置及存储介质

Info

Publication number: CN112562786B
Application number: CN202011551921.9A
Authority: CN
Inventors: 邓秀新; 王楠; 宋谢天; 周银; 叶俊丽
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-07-26
Anticipated expiration: 2040-12-24
Also published as: CN112562786A

Abstract

本发明提供一种基于遗传群体组装基因组的方法、装置及存储介质，方法包括：导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息；对待质量提升基因组信息进行类型划分，得到序列定位到染色体的第一组别和序列未定位到染色体的第二组别，建立第一算法模型和第二算法模型，通过模型得到第二组别在对应染色体上的位置信息，根据所有的位置信息得到质量提升的基因组信息。本发明通过建立的第一算法模型得到异常定位基因组对应的染色体信息，并通过建立的第二算法模型来预测得到基因组信息与对应染色体的遗传距离，从而确定基因组信息对应染色体上的位置，实现了将所有的基因组全部比对到染色体上并定位完成。

Description

一种基于遗传群体组装基因组的方法、装置及存储介质

技术领域

本发明主要涉及基因数据处理技术领域，具体涉及一种基于遗传群体组装基因组的方法、装置及存储介质。

背景技术

基因组组装是指使用不同的测序方法对待测物种进行全基因组测序，并对获得的数据进行拼接从而获得定位到染色体上的全基因组序列的过程。首先是测序产生序列片段reads，并根据reads之间的重叠区域对片段进行拼接，形成较长的连续序列，称为contigs，再将contigs拼接成更长的序列，称为scaffolds，将这些scaffolds定位到染色体上，从而得到高质量的全基因组序列，称为染色体挂载，最后得到可用的基因组版本。

目前基于第三代全基因组测序的技术在reads的基础上进行拼接可获得接近于scaffolds水平的数据，结合高通量染色体构象捕获测序技术，即Hi-C测序可获得更为完整的基因组。但是在组装过程中存在材料较为复杂，数据产出不理想等原因，仍然存在一些contigs并未能有效挂在到染色体上的情况，最后获得的基因组会由三部分构成：第一部分为定位到染色体上的基因组，即挂载到染色体并完成定位的序列，第二部分为未定位到染色体上的基因组，即能够比对到染色体上但是不能定位的序列以及未能比对到染色体上的序列。针对后面两部分序列目前还没有相关的解决办法。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于遗传群体组装基因组的方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种基于遗传群体组装基因组的方法，包括如下步骤：

导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息；

对所述待质量提升基因组信息中的多个基因组信息进行类型划分，将序列定位到染色体的基因组信息划分到第一组别中，将序列未定位到染色体的基因组信息划分到第二组别中；

基于机器学习算法建立第一算法模型，并对所述基因组遗传信息进行编码处理，通过编码后的基因组遗传信息训练所述第一算法模型，得到训练模型；

将所述第二组别导入所述训练模型中，得到所述第二组别中序列未比对到染色体的各个基因组信息对应的染色体信息；

基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，并对所述遗传图谱信息进行编码处理，通过编码后的遗传图谱信息训练各个所述第二算法模型，通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离；

根据所述遗传距离确定所述第二组别中各个基因组在对应染色体上的位置，根据位置信息得到质量提升基因组信息。

本发明解决上述技术问题的另一技术方案如下：一种基于遗传群体组装基因组的装置，包括：

导入模块，用于导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息；

类型划分模块，用于对所述待质量提升基因组信息中的多个基因组信息进行类型划分，将序列定位到染色体的基因组信息划分到第一组别中，将序列未定位到染色体的基因组信息划分到第二组别中；

模型训练模块，用于基于机器学习算法建立第一算法模型，并对所述基因组遗传信息进行编码处理，通过编码后的基因组遗传信息训练所述第一算法模型，得到训练模型；

预测模块，用于将所述第二组别导入所述训练模型中，得到所述第二组别中序列未比对到染色体的各个基因组信息对应的染色体信息；所述模型训练模块还用于基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，并对所述遗传图谱信息进行编码处理，通过编码后的遗传图谱信息训练各个所述第二算法模型，通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离；

确定模块，用于根据所述遗传距离确定所述第二组别中各个基因组在对应染色体上的位置，根据位置信息得到质量提升基因组信息。

本发明解决上述技术问题的另一技术方案如下：一种基于遗传群体组装基因组的方法，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于遗传群体组装基因组的方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如上所述的基于遗传群体组装基因组的方法。

本发明的有益效果是：将质量提升基因组信息中的多个基因组信息划分得到序列定位到染色体以及序列未定位到染色体的多个基因组信息，通过杂交群体父母本及子代的基因组遗传信息训练第一算法模型，再由经训练的第一算法模型得到未定位基因组对应的染色体信息，并通过第二算法模型来预测得到各个基因组与对应染色体的遗传距离，从而确定各个基因组与对应染色体上的位置信息，实现了将所有的基因组全部比对到染色体上并定位完成。

附图说明

图1为本发明实施例提供的基于遗传群体组装基因组的方法的流程示意图；

图2为本发明实施例提供的基于遗传群体组装基因组的的功能模块示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的基于遗传群体组装基因组的方法的流程示意图。

如图1所示，一种基于遗传群体组装基因组的方法，包括如下步骤：

上述实施例中，将质量提升基因组信息中的多个基因组信息划分得到序列定位到染色体以及序列未定位到染色体的多个基因组信息，通过杂交群体父母本及子代的基因组遗传信息训练第一算法模型，再由经训练的第一算法模型得到未定位基因组对应的染色体信息，并通过第二算法模型来预测得到各个基因组与对应染色体的遗传距离，从而确定各个基因组与对应染色体上的位置信息，实现了将所有的基因组全部比对到染色体上并定位完成。

可选地，作为本发明的一个实施例，所述对基因组遗传信息进行编码处理的过程包括：

对所述训练集中基因组遗传信息的多个基因组类型进行标记，若基因组类型为纯合基因组，则对基因组类型编码为0，若基因组类型为杂合基因组，则对基因组类型编码为1，若基因组类型为未知基因组，则对基因组类型编码为0.5。

上述实施例中，将不同的基因组类型进行相应的编码，通过编码后的训练集来训练第一算法模型，获得较准确的基因组和染色体的匹配度。

可选地，作为本发明的一个实施例，所述基于机器学习算法建立第一算法模型的过程包括：

配置所述第一算法模型的采样参数，根据所述采样参数建立第一算法模型，其中，所述第一算法模型为支持向量机的非线性分类模型，所述第一算法模型用于以预处理后的训练集为输入并以染色体编号为学习目标，进行输出训练；其中，所述采样参数为随机划分所述编码后的基因组遗传信息，划分比例为4:1，采用不放回随机采样方式，且采样比例为0.1。

上述实施例中，在第一算法模型训练过程中，通过设置的采样参数来提高第一算法模型的准确性。

可选地，作为本发明的一个实施例，对所述遗传图谱信息进行编码处理：

对所述遗传图谱信息的多个图谱类型进行标记，若图谱类型为纯合基因型，则对图谱类型编码为0，若图谱类型为杂合基因型，则对图谱类型编码为1，若图谱类型为未知基因型，则对图谱类型编码为0.5。

上述实施例中，将不同的图谱类型进行相应的编码，通过编码后的遗传图谱信息来训练第二算法模型，获得较准确的遗传距离。

可选地，作为本发明的一个实施例，所述基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，其过程包括：

配置各个第二算法模型的采样参数，根据所述采样参数建立各个第二算法模型，其中，所述第二算法模型为支持向量机的线性回归模型，所述第二算法模型用于以所述编码后的遗传图谱信息为输入并以遗传距离为学习目标，进行输出训练；其中，所述采样参数为随机划分所述编码后的遗传图谱信息，划分比例为4:1，采用全采样方式。

上述实施例中，在第二算法模型训练过程中，通过设置的采样参数来提高第二算法模型的准确性。

可选地，作为本发明的一个实施例，所述通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离，其过程包括：

根据各个染色体信息确定第二组别中序列未定位到染色体的各个基因组信息与经训练的第二算法模型的对应关系，并根据所述对应关系将序列未定位到染色体的各个基因组信息分别输入至对应经训练的第二算法模型中，通过经训练的第二算法模型预测基因组与对应染色体的遗传距离。

上述实施例中，通过第一算法模型得到的基因组与染色体的对应关系，将序列未定位到染色体的各个基因组信息与对应的染色体输入至经训练的第二算法模型，通过经训练的第二算法模型能够得到各个基因组对应染色体的遗传距离，从而实现将基因组序列挂载在染色体上。

可选地，作为本发明的一个实施例，如图2所示，一种基于遗传群体组装基因组的装置，包括：

可选地，作为本发明的一个实施例，还包括预处理模块，所述预处理模块用于：

对所述训练集中基因组遗传信息中的多个基因组类型进行标记，若基因组类型为纯合基因组，则对基因组类型编码为0，若基因组类型为杂合基因组，则对基因组类型编码为1，若基因组类型为未知基因组，则对基因组类型编码为0.5。

可选地，作为本发明的一个实施例，一种组装遗传群体基因组装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于遗传群体组装基因组的方法。

可选地，作为本发明的一个实施例，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于遗传群体组装基因组的方法。

利用本方法在柑橘基因组上的应用：

一份初步组装的基因组版本：

柑橘基因组组装中，利用三代测序和Hi-C测序组装C得到初步的柑橘基因组，基因组的大小为323.8Mb大小，其中312.6Mb成功挂载到9条染色体上，其中49个contigs总计15.2Mb未能定位到染色体具体区域，可以使用本方法进行应用。

一份杂交群体父母本以及子代的全基因组遗传标记：

前期构建了一个杂交群体，对父母本及231个子代进行重测序，获得了全基因组的分子标记，以基因型0/1和1/1以及0/0过滤标记类型，1/1和0/0为纯合类型，0/1为杂合类型，进行卡方检验和完整度检验，以此过滤标记得到可用的杂交群体父母本以及子代的全基因组遗传标记。

杂交群体的遗传图谱：

以比对到染色体上的杂交群体父母本以及子代的全基因组遗传标记进行图谱构建，分别获得父母本的遗传图谱，或者各个标记对应的遗传距离。本实例分别使用父本和母本进行基因组组装提升，并利用两次结果进行交叉验证。

下面通过实验数据来说明本发明的处理效果。

一份初步组装的基因组版本：

柑橘基因组组装中，利用三代测序和Hi-C测序组装C得到初步的柑橘基因组，基因组的大小为323.8Mb大小，其中312.6Mb成功挂载到9条染色体上，其中49个contigs总计15.2Mb未能定位到染色体具体区域，可以使用本方法进行应用。如下两表所示：

上述实验数据说明本方法能够将待质量提升基因组中所有的基因组全部比对到对应染色体上并定位。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于遗传群体组装基因组的方法，其特征在于，包括如下步骤：

对所述待质量提升基因组信息中的多个基因组信息进行类型划分，将序列定位到染色体的基因组信息划分到第一组别中，将序列未定位到染色体的基因组信息划分到第二组别中，具体为：将基因组类型为纯合基因组和杂合基因组划分到第一组别中，将基因组类型为未知基因组划分到第二组别中；

基于机器学习算法建立第一算法模型，并对所述基因组遗传信息进行编码处理，通过编码后的基因组遗传信息训练所述第一算法模型，得到训练模型；其中，所述对基因组遗传信息进行编码处理的过程包括：

对所述基因组遗传信息中的多个基因组类型进行标记，若基因组类型为纯合基因组，则对基因组类型编码为0，若基因组类型为杂合基因组，则对基因组类型编码为1，若基因组类型为未知基因组，则对基因组类型编码为0.5；

所述基于机器学习算法建立第一算法模型的过程包括：

配置所述第一算法模型的采样参数，根据所述采样参数建立第一算法模型，其中，所述第一算法模型为支持向量机的非线性分类模型，所述第一算法模型用于以预处理后的训练集为输入并以染色体编号为学习目标，进行输出训练；其中，所述采样参数为随机划分所述编码后的基因组遗传信息，划分比例为4:1，采用不放回随机采样方式，且采样比例为0.1；

基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，并对所述遗传图谱信息进行编码处理，通过编码后的遗传图谱信息训练各个所述第二算法模型，通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离；其中，对所述遗传图谱信息进行编码处理：

对所述遗传图谱信息的多个图谱类型进行标记，若图谱类型为纯合基因型，则对图谱类型编码为0，若图谱类型为杂合基因型，则对图谱类型编码为1，若图谱类型为未知基因型，则对图谱类型编码为0.5；

2.根据权利要求1所述的基于遗传群体组装基因组的方法，其特征在于，所述基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，其过程包括：

3.根据权利要求2所述的基于遗传群体组装基因组的方法，其特征在于，所述通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离，其过程包括：

4.一种基于遗传群体组装基因组的装置，其特征在于，包括：

类型划分模块，用于对所述待质量提升基因组信息中的多个基因组信息进行类型划分，将序列定位到染色体的基因组信息划分到第一组别中，将序列未定位到染色体的基因组信息划分到第二组别中，具体为：将基因组类型为纯合基因组和杂合基因组划分到第一组别中，将基因组类型为未知基因组划分到第二组别中；

还包括预处理模块，所述预处理模块用于：

对所述基因组遗传信息中的多个基因组类型进行标记，若基因组类型为纯合基因组，则对基因组类型编码为0，若基因组类型为杂合基因组，则对基因组类型编码为1，若基因组类型为未知基因组，则对基因组类型编码为0.5；所述基于机器学习算法建立第一算法模型的过程包括：

预测模块，用于将所述第二组别导入所述训练模型中，得到所述第二组别中序列未比对到染色体的各个基因组信息对应的染色体信息；

所述模型训练模块还用于基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型，并对所述遗传图谱信息进行编码处理，通过编码后的遗传图谱信息训练各个所述第二算法模型，通过各个经训练的第二算法模型对所述第二组别进行预测，得到基因组与对应染色体的遗传距离；其中，对所述遗传图谱信息进行编码处理：

5.一种组装遗传群体基因组装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至3任一项所述的基于遗传群体组装基因组的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至3任一项所述的基于遗传群体组装基因组的方法。