CN117037912A

CN117037912A - 一种泛基因组的构建方法、终端设备及存储介质

Info

Publication number: CN117037912A
Application number: CN202311182329.XA
Authority: CN
Inventors: 焦成智; 张钟仁; 徐凤凤
Original assignee: Qingdao Jizhi Medical Laboratory Co ltd
Current assignee: Qingdao Jizhi Medical Laboratory Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-10
Anticipated expiration: 2043-09-13
Also published as: CN117037912B

Abstract

本发明提出一种泛基因组的构建方法、终端设备及存储介质，涉及遗传工程技术领域，其中构建方法通过对多个样品的基因信息构建的样品基因数据库进行聚类，得到初始泛基因组，并将初始泛基因组中未聚类数据库中的特异基因序列与初始聚类数据库中的基因家族进行比对，得到第一比对结果，第一比对结果代表某个特异基因序列属于与其比对的基因家族，根据第一比对结果，将初始聚类数据库和未聚类数据库更新得到一次聚类数据库和一次未聚类数据库，并根据二者得到一次泛基因组。现有技术的泛基因组包括大量的并非是真实的特异基因序列，本发明将特异基因序列再次比对，减少了特异基因序列的数量，提高了构建泛基因组的准确性。

Description

一种泛基因组的构建方法、终端设备及存储介质

技术领域

本发明涉及遗传工程技术领域，具体涉及一种泛基因组的构建方法、终端设备及存储介质。

背景技术

在漫长的物种进化过程中，因为自然选择和人为选择等因素的影响，每个体都形成了特别的遗传性状。近年来，对同一物种多个个体的基因组或基因组片段的比较分析表明，一个物种内的基因组可能以更显著的方式存在差异，这些变异可能包含一个或多个基因并影响到物种重要的农艺性状。因此，对于一个物种来说，如果只使用单一的参考基因组进行遗传驯化变异的研究，可能会丢失掉大量有意义的基因信息。为了解决这些问题并充分理解关键物种中重要性状形成机理，为育种奠定重要的研究基础，动植物泛基因组研究应运而生。

泛基因组是指获取该物种全部遗传信息，构建一个非冗余的集合体。目前比较成熟的泛基因组构建方法是分别对个体基因进行组装，然后通过基因家族聚类构建泛基因组，但是通过基因家族聚类方法构建泛基因组会产生大量未聚类基因，这些基因在分析过程中被认定为特异基因，但是这些基因可能并不是真正的特异基因，所以这种方法构建的泛基因组并不准确。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明旨在提供一种泛基因组的构建方法、终端设备及存储介质。

第一方面，本发明提出一种泛基因组的构建方法，包括如下步骤：

获取样品基因数据库，所述样品基因数据库至少包括各样品的样品名称以及与所述样品名称对应的基因信息；

聚类所述样品基因数据库，得到初始泛基因组，所述初始泛基因组包括初始聚类数据库和未聚类数据库，所述初始聚类数据库至少包括多个基因家族、所述样品名称以及各所述基因家族在各所述样品中的总数；所述未聚类数据库至少包括所述样品名称以及与样品名称对应的未聚类集合，所述未聚类集合包括至少一个特异基因序列；

以第一规则将各所述特异基因序列与各所述基因家族进行比对，得到第一比对结果；所述第一比对结果代表所述特异基因序列属于与其比对的所述基因家族；

响应所述第一比对结果，更新所述初始聚类数据库得到一次聚类数据库，更新所述未聚类数据库得到一次未聚类数据库；

基于所述一次聚类数据库和所述一次未聚类数据库得到一次泛基因组。

根据本发明提供的技术方案，以第一规则将各所述特异基因序列与各所述基因家族进行比对，还得到第二比对结果，所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族；

响应所述第二比对结果，设定所述初始泛基因组则为所述一次泛基因组。

根据本发明提供的技术方案，所述更新所述初始聚类数据库得到一次聚类数据库，更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤：

比对所述一次未聚类数据库中的所有所述未聚类集合，得到二次未聚类数据库和二次聚类数据库；

将所述一次聚类数据库更新为所述二次聚类数据库，将所述一次未聚类数据库更新为所述二次未聚类数据库。

根据本发明提供的技术方案，所述比对所述一次未聚类数据库中的所有所述未聚类集合，得到二次聚类数据库和二次未聚类数据库的方法包括如下步骤：

遍历所述一次未聚类数据库中各所述未聚类集合，以第二规则将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对，得到第三比对结果，所述第三比对结果为该所述特异基因序列与其它未聚类集合中的任一所述特异基因序列属于同类基因家族；

响应于所述第三比对结果，获得新基因家族以及所述新基因家族在各所述样品中的总数；

基于新基因家族以及所述新基因家族在各所述样品中的总数更新得到所述二次聚类数据库和所述二次未聚类数据库。

根据本发明提供的技术方案，所述遍历所述一次未聚类数据库中的各所述未聚类集合，将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对，还得到第四比对结果，所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族；

得到所述第四比对结果后，基于所述一次聚类数据库和所述一次未聚类数据库得到所述一次泛基因组。

根据本发明提供的技术方案，所述第一规则为：比对序列相似度大于或者等于第一预设阈值。

根据本发明提供的技术方案，所述第二规则为：比对序列相似度大于或者等于第二预设阈值。

根据本发明提供的技术方案，所述得到一次泛基因组后还包括如下步骤：

分类所述泛基因组，得到三类基因以及各类基因的数量，三类基因包括可变基因、核心基因、以及特异基因；

基于三类基因以及各类基因的数量，构建泛基因组统计表。

第二方面，本发明提出一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如以上所述的泛基因组的构建方法的步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质有计算机程序，所述计算机程序被处理器执行时实现如以上所述的泛基因组的构建方法的步骤。

综上所述，本发明提出一种泛基因组的构建方法，通过对多个样品的基因信息构建的样品基因数据库进行聚类，得到初始泛基因组，并将初始泛基因组中未聚类数据库中的特异基因序列与初始聚类数据库中的基因家族进行比对，得到第一比对结果，第一比对结果代表某个特异基因序列属于与其比对的基因家族，根据第一比对结果，将初始聚类数据库和未聚类数据库更新得到一次聚类数据库和一次未聚类数据库，并根据二者得到一次泛基因组。现有技术通过基因家族聚类方法构建的泛基因组包括大量的特异基因序列，本发明将特异基因序列再次比对，减少了特异基因序列的数量，提高了构建泛基因组的准确性。

附图说明

图1为本发明实施例提供的泛基因组的构建方法的流程图；

图2本发明实施例提供的终端设备的计算机系统的结构示意图。

700、计算机系统；701、CPU；702、ROM；703、RAM；704、总线；705、I/O接口；706、输入部分；707、输出部分；708、存储部分；709、通信部分；710、驱动器；711、可拆卸介质。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例1

诚如背景技术中提到的技术问题，本发明提出了一种泛基因组的构建方法，如图1所示，包括如下步骤：

S100.获取样品基因数据库，所述样品基因数据库至少包括各样品的样品名称以及与所述样品名称对应的基因信息；其中，所述基因信息由多个按序排列的基因序列；

S200.聚类所述样品基因数据库，得到初始泛基因组，所述初始泛基因组包括初始聚类数据库和未聚类数据库，所述初始聚类数据库至少包括多个基因家族、所述样品名称以及各所述基因家族在各所述样品中的总数；所述未聚类数据库至少包括所述样品名称以及与样品名称对应的未聚类集合，所述未聚类集合包括至少一个特异基因序列；

其中，所述初始泛基因组如表-1所示：

表-1

其中，a，b，c，d，e，k₁，k₂，m₁，m₂，s，a₁，b₁为所述基因家族的类型，样品1-样品7为所述样品名称，以第二行第四列中的156为例，156代表样品2中a类基因家族的总数为156个。多个样品为相关物种，可选地，多个样品可通过不同地区的相似物种获得。所述特异基因序列为仅在一个样品中存在的基因序列；根据表-1得到所述初始聚类数据库，如表-2所示：

表-2

根据初始泛基因组得到所述未聚类数据库，如表-3为例：

表-3

样品类型	样品1	样品2	样品3
				未聚类集合	k₁，m₁，a₁	k₂，m₂，b₁	s

其中，所述样品1的特异基因序列包括k₁，m₁，a₁；样品2的特异基因序列包括k₂，m₂，b₁；样品3的特异基因序列为s；

S300.以第一规则将各所述特异基因序列与各所述基因家族进行比对，得到第一比对结果；所述第一比对结果代表所述特异基因序列属于与其比对的所述基因家族；所述第一规则为：比对序列相似度大于或者等于第一预设阈值。

其中，可选地，所述第一预设阈值为90％，将每个特异基因k₁，m₁，a₁，k₂，m₂，b₁，s分别与表-2中的基因家族进行比对，a₁与a类基因家族的序列近似度大于90％，b₁与b类基因家族的序列近似度大于90％；即特异基因a₁属于a类基因家族，特异基因b₁属于b类基因家族。

S400.响应所述第一比对结果，更新所述初始聚类数据库得到一次聚类数据库，更新所述为聚类数据库得到一次未聚类数据库；

更新初始聚类数据库得到一次聚类数据库，更新后，一次聚类数据库如表-4所示：

表-4

其中，由于特异基因a₁属于a类基因家族，特异基因b₁属于b类基因家族，故表-1中样品1的a类基因家族的数量加1更新为40，样品2的b类基因家族的数量加1更新为14。

更新所述未聚类数据后得到一次未聚类数据库，更新后，一次未聚类数据库如表-5所示：

表-5

样品类型	样品1	样品2	样品3
				未聚类集合	k₁，m₁	k₂，m₂	s

S500.基于所述一次聚类数据库和所述一次未聚类数据库得到一次泛基因组，所述一次泛基因组如表-6所示。

表-6

现有技术中，通过基因家族聚类方法构建泛基因组的方法得到的初始泛基因组如表-1所示，此方法由于软件等原因产生大量特异基因，这些特异基因可能并不是真正的特异基因，本发明通过将第一次聚类得到的特异基因序列再次与初始泛基因组进行比对，更新泛基因组，提高了构建泛基因组的准确性。

在一优选实施例中，以第一规则将各所述特异基因序列与各所述基因家族进行比对，还得到第二比对结果，所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族；

其中，通过将所述特异基因与所述初始泛基因组进行再次比对，即使得到的所述一次泛基因组与所述初始泛基因组相同，可进一步验证了基因家族聚类方法的准确性。

在一优选实施例中，更新所述初始聚类数据库得到一次聚类数据库，更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤：

S410.比对所述一次未聚类数据库中的所有所述未聚类集合，得到二次聚类数据库和二次未聚类数据库；包括如下步骤：

S411.遍历所述一次未聚类数据库中各所述未聚类集合，以第二规则将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对，得到第三比对结果，所述第三比对结果为该所述特异基因序列与其它未聚类集合中的任一所述特异基因序列属于同类基因家族；其中，所述第二规则为：比对序列相似度大于或者等于第二预设阈值；可选地，所述第二预设阈值为90％。

其中，如表-5所示，所述一次未聚类数据库中，所述样品1的未聚类集合为{k₁，m₁}，所述样品2的未聚类集合为{k₂，m₂}，所述样品3的未聚类聚合为{s}，经比对后，k₁，k₂属于同类基因家族，同为k类基因家族，m₁，m₂属于同类基因家族，同为m类基因家族。

S412.响应于所述第三比对结果，获得新基因家族以及所述新基因家族在各所述样品中的总数；新基因家族为k类基因家族，在所述样品1和所述样品2中的数量均为1；新基因家族为m类基因家族，在所述样品1和所述样品2中的数量均为1；

S413.基于新基因家族以及所述新基因家族在各所述样品中的总数更新得到所述二次聚类数据库和所述二次未聚类数据库；

所述二次聚类数据库如表-7所示：

表-7

通过再次比对，减少了特异基因序列的数量，进一步地提高了构建泛基因组的准确性。

二次未聚类数据库如表-8所示：

表-8

样品类型	样品3
		未聚类集合	s

S420.将所述一次聚类数据库更新为所述二次聚类数据库，并将所述一次未聚类数据库更新为所述二次未聚类数据库；则步骤S500中的一次泛基因组基于所述二次聚类数据库和所述二次未聚类数据库得到；最终的所述一次泛基因组如表-9所示；

表-9

在一优选实施例中，所述遍历所述一次未聚类数据库中的各所述未聚类集合，将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对，还得到第四比对结果，所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族；

即，k₁，k₂，m₁，m₂均不属于同类基因家族，则所述一次泛基因组仍为表-6所示。

在一优选实施例中，得到一次泛基因组后还包括如下步骤：

分类所述一次泛基因组，得到三类基因以及各类基因的数量，三类基因包括可变基因、核心基因、以及特异基因；

基于三类基因以及各类基因的数量，构建泛基因组统计表。

其中，当得到所述泛基因组统计表后，可根据所述泛基因组统计表对所述一次泛基因组进行饱和曲线分析，并可对核心基因、可变基因以及特有基因的基因、转录本、外显子长度进行比较；还可对所述一次泛基因组进行功能富集，得到相关基因所参与的生命通路等。

实施例2

本发明提出一种终端设备，如图2所示，所述终端设备的计算机系统700包括CPU(中央处理单元)701，其可以根据存储在ROM(只读存储器)702中的程序或者从存储部分708加载到RAM(随机访问存储器)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有系统操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。I/O(输入/输出)接口705也连接至总线704。以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例1包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU701执行时，执行本计算机系统700中限定的上述功能。

实施例3

本发明还提供了一种计算机可读介质，该计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的泛基因组的构建方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种泛基因组的构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的泛基因组的构建方法，其特征在于，以第一规则将各所述特异基因序列与各所述基因家族进行比对，还得到第二比对结果，所述第二比对结果代表所述特异基因序列不属于与其比对的所述基因家族；

3.根据权利要求1所述的泛基因组的构建方法，其特征在于，所述更新所述初始聚类数据库得到一次聚类数据库，更新所述未聚类数据库得到一次未聚类数据库还包括如下步骤：

4.根据权利要求3所述的泛基因组的构建方法，其特征在于，所述比对所述一次未聚类数据库中的所有所述未聚类集合，得到二次聚类数据库和二次未聚类数据库的方法包括如下步骤：

5.根据权利要求4所述的泛基因组的构建方法，其特征在于，所述遍历所述一次未聚类数据库中的各所述未聚类集合，将所述未聚类集合中的所述特异基因序列与其它所述未聚类集合中的所有所述特异基因序列比对，还得到第四比对结果，所述第四比对结果代表该所述特异基因序列与其它所有所述未聚类集合中的所有所述特异基因序列均不属于同类基因家族；

6.根据权利要求1所述的泛基因组的构建方法，其特征在于，所述第一规则为：比对序列相似度大于或者等于第一预设阈值。

7.根据权利要求4所述的泛基因组的构建方法，其特征在于，所述第二规则为：比对序列相似度大于或者等于第二预设阈值。

8.根据权利要求1所述的泛基因组的构建方法，其特征在于，所述得到一次泛基因组后还包括如下步骤：

基于三类基因以及各类基因的数量，构建泛基因组统计表。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的泛基因组的构建方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的泛基因组的构建方法的步骤。