CN117238363B

CN117238363B - 一种表型预测方法、预测系统、设备及介质

Info

Publication number: CN117238363B
Application number: CN202311400391.1A
Authority: CN
Inventors: 焦成智; 王天义; 荆鑫
Original assignee: Qingdao Jizhi Medical Laboratory Co ltd
Current assignee: Qingdao Jizhi Medical Laboratory Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-04-16
Anticipated expiration: 2043-10-25
Also published as: CN117238363A

Abstract

本发明提出一种表型测试方法、预测系统、设备及介质，测试方法根据各样本的全基因组测序数据和第一实际表型值得到各样本的最终位点数据库，选取多个训练模型，通过将多个训练样本的最终位点数据库和第一实际表型值训练各训练模型，得到优化后的训练模型，再将多个测试样本的最终位点数据库输入至优化后的训练模型，根据得到的关联度值判断各优化后的训练模型哪个输出更加接近实际表型值，从而得到最终标记参考模型；再后期育种时，将育种样本的数据输入至最终标记参考模型即可得到表型预测值；本发明与现有技术相比，先从多个训练模型中挑选出最优的训练模型，再进行育种表型预测，提高了表型预测的准确性，从而缩短的育种时间。

Description

一种表型预测方法、预测系统、设备及介质

技术领域

本发明涉及遗传工程技术领域，具体涉及一种表型预测方法、预测系统、设备及介质。

背景技术

全基因组选择通过覆盖全基因组范围内的高密度SNP标记等进行表型预测，一般在低世代个体中通过全基因组中大量SNP(Single Nucleotide Polymorphism，单核苷酸多态性)标记估计出单个标记效应值，然后将个体全基因组SNP标记效应值累加，获得基因组估计育种值(GEBV)，其理论假设是在分布于全基因组的高密度SNP标记中，至少有一个SNP能够与影响该目标性状的数量遗传位点(quantitative trait loci,QTL)处于连锁不平衡(linkage disequilibrium,LD)状态，这样使得每个QTL的效应都可以通过SNP得到反映。

当前通过全基因组进行育种的方法通常是获取样本的SNP和表型，并输入至训练模型，得到各样本的表型预测值，但这种方法的预测值并不准确。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明旨在提供一种表型预测方法、预测系统、设备及介质。

第一方面，本发明提供一种表型预测方法，包括如下步骤：

S100.获取多个样本的测试参数集合，各所述测试参数集合包括全基因组测序数据和与第一特征参数对应的第一实际表型值；其中，各所述样本包括表型数据库，各所述表型数据库包括多个特征参数和与各所述特征参数对应的实际表型值；所述第一特征参数为所有所述样本中相同的其中一个所述特征参数；

S200.根据所述测试参数集合得到各样本的最终位点数据库，所述最终位点数据库至少包括多个最终位点；

S300.将所有样本划分为测试样本和训练样本；

S400.选取多个训练模型，所述训练模型至少包括GBLUP模型和RRBLUP模型；所述训练模型的输入为所述最终位点数据库，输出为实际表型值；

S500.用所有所述训练样本的所述最终位点数据库和所述第一实际表型值训练所述训练模型，得到多个优化模型；

S600.将所有所述测试样本的最终位点数据库分别输入至所述优化模型，得到与各所述优化模型对应的且与所述第一特征参数对应的第一表型预测值；

S700.根据各所述优化模型对应的所有所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到与各所述优化模型对应的关联度值；

S800.比较各所述关联度值的大小，选取最小的所述关联度值对应的训练模型为最终标记参考模型；

S900.获取待育种样本的全基因组测序数据，并输入至所述最终标记参考模型，得到所述待育种样本的第二表型预测值。

根据本发明提供的技术方案，根据所述测试参数集合得到各样本的最终位点数据库包括如下步骤：

S210.将各样本的所述全基因组测序数据和参考基因组比对，得到标记位点数据库，所述标记位点数据库至少包括多个位点以及与各位点对应的碱基；

S220.根据所有样本的所述表型数据库第一实际表型值，计算得到各样本的正态表型数值；

S230.设定多个关联分析原则；

S240.以各所述关联分析原则，根据各所述样本的所述正态表型数值和所述标记位点数据库，得到各所述样本与所述关联分析原则对应的效应位点数据库，所述效应位点数据库至少包括多个位点以及与各位点对应的效应值，所述效应值用于表征对实际表型值的贡献大小；

S250.优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库，所述最终位点数据库包括多个最终位点。

根据本发明提供的技术方案，优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库包括如下步骤：

S251.根据所述效应位点数据库获得有效位点数据库，所述有效位点数据库包括多个高效应位点和与其对应的效应值；

S2512.获取连锁区间；

S253.根据所述连锁区间，将各所述有效位点数据库划分为多个区间位点数据库，各所述区间位点数据库包括至少一个高效应位点，以及与该高效应位点对应的效应值；

S254.根据第一规则，优化各所述区间位点数据库，每个样本对应每个关联分析原则均得到多个优化位点数据库，所述优化位点数据库包括至少一个优化位点和与所述优化位点对应的效应值；

S255.根据第二规则筛选所述优化位点数据库，得到筛选位点数据库，所述筛选位点数据库包括多个筛选位点和与所述筛选位点对应的效应值；

S256.将同一样本根据不同关联分析原则得到的所述筛选位点数据库取并集，得到各样本的最终位点数据库。

根据本发明提供的技术方案，所述第一规则为：

S2541.判断各所述区间位点数据库中所述高效应位点的总数小于或者等于2个时，执行步骤S2452；若各所述区间位点数据库中高效应位点的总数大于2个时，执行步骤S2453-S2456；

S2542.保留原所述区间位点数据库不变；

S2543.设定选取比例；

S2544.根据选取比例和所述高效位点的总数得到保留数量；

S2545.将所述区间位点数据库中的所有效应值由大至小依次排列；

S2546.以所述保留数量保留较大的效应值，保留下来的所述效应值对应的所述高效应位点为所述优化位点。

根据本发明提供的技术方案，所述第二规则为：

判断各样本对应其中一个所述关联分析原则的各所述优化位点在任一其它所述关联分析原则对应的所述区间位点数据库中也存在，则保留该位点；否则，则删除该优化位点。

根据本发明提供的技术方案，根据各所述优化模型对应的所有所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到与各所述优化模型对应的关联度值，包括如下步骤：

S710.根据各所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到二者的差值平方值；

S720.将各所述优化模型对应的所有的所述测试样本的差值平方值相加得到与各所述优化模型对应的关联度值。

第二方面，本发明提供一种表型预测方法的预测系统，包括：

输入模块，所述输入模块配置用于获取多个样本的测试参数集合，各所述测试参数集合包括全基因组测序数据和与第一特征参数对应的第一实际表型值；其中，各所述样本包括表型数据库，各所述表型数据库包括多个特征参数和与各所述特征参数对应的实际表型值；所述第一特征参数为所有所述样本中相同的其中一个所述特征参数；

执行模块，所述执行模块配置用于根据所述测试参数集合得到各样本的最终位点数据库，所述最终位点数据库至少包括多个最终位点；

划分模块，所述划分模块配置用于将所有样本划分为测试样本和训练样本；

选取模块，所述选取模块配置用于选取多个训练模型，所述训练模型至少包括GBLUP模型和RRBLUP模型；所述训练模型的输入为所述最终位点数据库，输出为与所述第一特征参数对应的第一表型预测值；

训练模块，所述训练模块配置用于用所有所述训练样本的所述最终位点数据库和所述第一实际表型值训练所述训练模型，得到多个优化模型；

第一计算模块，所述第一计算模块配置用于将所有所述测试样本的最终位点数据库分别输入至所述优化模型，得到与各所述优化模型对应的且与所述第一特征参数对应的第一表型预测值；

第二计算模块，所述第二计算模块配置用于根据各所述优化模型对应的所有所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到与各所述优化模型对应的关联度值；

比较模块，所述比较模块配置用于比较各所述关联度值的大小，选取最小的所述关联度值对应的训练模型为最终标记参考模型；

输出模块，所述输出模块配置用于获取待育种样本的全基因组测序数据，并输入至所述最终标记参考模型，得到所述待育种样本的表型预测值。

第三方面，本发明提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如以上所述的表型预测方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如以上所述的表型预测方法的步骤。

综上所述，本发明提出一种表型预测方法，根据各样本的全基因组测序数据和第一实际表型值得到各样本的最终位点数据库，选取多个训练模型，通过将多个训练样本的最终位点数据库和第一实际表型值训练各训练模型，得到优化后的训练模型，再将多个测试样本的最终位点数据库输入至优化后的训练模型，根据得到的关联度值判断各优化后的训练模型哪个输出更加接近实际表型值，从而得到最终标记参考模型；再后期育种时，将育种样本的数据输入至最终标记参考模型即可得到表型预测值；本发明与现有技术相比，先从多个训练模型中挑选出最优的训练模型，再进行育种表型预测，提高了表型预测的准确性，从而缩短的育种时间。

附图说明

图1为本发明实施例提供的表型预测方法的流程图；

图2本发明实施例提供的终端设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例1

诚如背景技术中提到的技术问题，本发明提出了一种表型预测方法，包括如下步骤：

S100.获取多个样本的测试参数集合，各所述测试参数集合包括全基因组测序数据和与第一特征参数对应的第一实际表型值；其中，各所述样本包括表型数据库，各所述表型数据库中包括多个特征参数和与各所述特征参数对应的实际表型值；所述第一特征参数为所有样本中相同的其中一个所述特征参数；

其中，所述特征参数包括样本的宽度，高度等；各样本的表型数据库如表-1所示：

表-1

样本名称	株高	粒长
			样本1	129	2.8
样本2	135	3.2

其中，株高、粒长为所述特征参数；可选地，所有样本的所述表型数据库中都包括株高，选择株高为所述第一特征参数，样本1的第一实际表型值为129，样本2的第一实际表型值为135。

S200.根据所述测试参数集合得到各样本的最终位点数据库，所述最终位点数据库至少包括多个最终位点；包括如下步骤：

其中，所有样本的全基因组测序数据使用FASTP软件质控得到有效数据，通过BWA软件将所述全基因组测序数据和参考基因组进行比对，再通过GATK软件进行变异检测得到SNP标记，进而得到所述标记位点数据库，所述SNP标记是指在基因组上单个核苷酸的变异，形成的遗传标记。优选地，基于深度、缺失率和最小等位基因频率等对所述标记位点数据库进行过滤。

S220.根据所有样本的第一实际表型值，计算得到各样本的正态表型数值；

通过BLUP(best linear unbiased prediction,最佳线性无偏预测)方法计算得到所述正态表型数值，此方法将所有样本中的株高或粒长做了均一化处理，所述正态表型数据库如表-2所示，其中所述样本1的正态表型值为-0.02，样本2的正态表型值为0.012

表-2

样本名称	株高
		样本1	-0.02
样本2	0.012

S230.设定多个关联分析原则；

可选地，使用GEMMA的混合线性模型，GAPIT的混合线性模型模型和EMMAX的混合线性模型进行全基因组关联分析，所述关联分析原则为以上所述的各模型；

将每个样本的所述表型数据库和所述标记位点数据库分别输入至GEMMA的混合线性模型，GAPIT的混合线性模型模型和EMMAX的混合线性模型，得到效应位点数据库，以样本1为例，输入GEMMA的混合线性模型得到的效应位点数据库如表-3所示：各样本输入不同模型后得到的所述效应位点数据库中的各位点的效应值可能不同。

表-3

S250.优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库，包括如下步骤：

设定效应值阈值，判断所述效应位点数据库中所有有效值大于所述效应值阈值时，则该位点为所述高效应位点，通过所述高效应位点及与其对应的效应值得到所述有效位点数据库。

S252.获取连锁区间；

其中，通过plink软件，计算得到所述连锁区间。

所述第一规则为：

S2542.保留原所述区间位点数据库不变；

S2543.设定选取比例；

S2544.根据选取比例和高效位点的总数得到保留数量；

其中，可选地，所述选取比例为5％，例如若某所述区间位点数据库中的所述高效应位点的总数为100，则所述保留数量为5个，故选取该所述区间数据库中的前5个大的效应值对应的所述高效应位点则是需保留的位点，从而获得所述优化位点数据库；

S255.根据第二规则筛选所述优化位点数据库，得到筛选位点数据库，所述筛选位点数据库包括多个筛选位点和与所述筛选位点对应的效应值；所述第二规则为判断各样本对应其中一个所述关联分析原则的各所述优化位点在任一其它所述关联分析原则对应的所述区间位点数据库中也存在，则保留该位点；否则，则删除该优化位点；其中，保留下来的所述优化位点为所述筛选位点。即，将GEMMA的混合线性模型，GAPIT的混合线性模型模型和EMMAX的混合线性模型中只有一个模型筛选到的优化位点删除，提高了寻找最终位点的准确性。

S256.将同一样本根据不同关联分析原则得到的所述筛选位点数据库取并集，得到各样本的最终位点数据库，所述最终位点数据库包括多个最终位点；即将各样本对应不同关联分析原则的所有筛选位点数据库中的所述筛选位点进行合并，得到各样本的所述最终位点数据库。

S300.将所有样本划分为测试样本和训练样本；

S400.选取多个训练模型，所述训练模型至少包括GBLUP模型和RRBLUP模型；所述训练模型的输入为所述最终位点数据库，输出为表型预测值；

S500.用所有所述训练样本的所述最终位点数据库和所述第一实际表型值训练所述训练模型，得到多个优化模型；例如，有600个样本，选取500个样本作为训练样本，100个样本作为测试样本；用500个所述训练样本对所述训练模型进行训练，GBLUP模型和RRBLUP模型的训练为现有技术，此处不再赘述；

S600.将所有所述测试样本的最终位点数据库分别输入至所述优化模型，得到各所述测试样本的与各所述优化模型对应的且与所述第一特征参数对应的第一表型预测值；

S700.根据各所述优化模型对应的所有所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到与各所述优化模型对应的关联度值；包括如下步骤：

例如，各所述测试样本的所述最终位点数据库和第一实际表型值如表-4所示：

表-4

测试样本名称	最终位点数据库	第一实际表型值
			样本1	X1	Y1
样本2	X2	Y2
			样本3	X3	Y3

例如，有两个优化模型，命名为A和B；将样本1-样本3的所述最终位点数据库输入A后，得到的第一表型预测值，如表-5所示：

表-5

测试样本名称	第一表型预测值
		样本1	A1
样本2	A2
		样本3	A3

将样本1-样本3的所述最终位点数据库输入至B，得到的第一表型预测值，如表-6所示：

表-6

测试样本名称	第一表型预测值
		样本1	B1
样本2	B2
		样本3	B3

与A对应的所述关联度值为A关，通过如下公式计算：

A_关＝(A₁-Y₁)²+(A₂-Y₂)²+(A₃-Y₃)²

与B对应的所述关联度值为B关，通过如下公式计算：

B_关＝(B₁-Y₁)²+(B₂-Y₂)²+(B₃-Y₃)²

S900.获取待育种样本的全基因组测序数据，并输入至所述最终标记参考模型，得到所述待育种样本的第二表型预测值；先从多个训练模型中挑选出最优的训练模型，再进行育种表型测试，提高了表型预测的准确性，从而缩短的育种时间。

实施例2

在实施例1的基础上，本发明提出一种表型预测方法的预测系统，包括：

本发明提出一种表型预测方法，根据各样本的全基因组测序数据和第一实际表型值得到各样本的最终位点数据库，选取多个训练模型，通过将多个训练样本的最终位点数据库和第一实际表型值训练各训练模型，得到优化后的训练模型，再将多个测试样本的最终位点数据库输入至优化后的训练模型，根据得到的关联度值判断各优化后的训练模型哪个输出更加接近实际表型值，从而得到最终标记参考模型；再后期育种时，将育种样本的数据输入至最终标记参考模型即可得到表型预测值；本发明与现有技术相比，先从多个训练模型中挑选出最优的训练模型，再进行育种表型预测，提高了表型预测的准确性，从而缩短的育种时间。本发明实施例提供的装置能够实现上述方法实施例实现的各个过程，具有与之相应的功能模块和有益效果，为避免重复，这里不再赘述。

实施例3

发明提出一种终端设备，如图2所示，所述终端设备的计算机系统700包括CPU(中央处理单元)701，其可以根据存储在ROM(只读存储器)702中的程序或者从存储部分708加载到RAM(随机访问存储器)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有系统操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。I/O(输入/输出)接口705也连接至总线704。以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例1包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU701执行时，执行本计算机系统700中限定的上述功能。

实施例4

本发明还提供了一种计算机可读介质，该计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的表型预测方法的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种表型预测方法，其特征在于，包括如下步骤：

S300.将所有样本划分为测试样本和训练样本；

S900.获取待育种样本的全基因组测序数据，并输入至所述最终标记参考模型，得到所述待育种样本的第二表型预测值；

根据所述测试参数集合得到各样本的最终位点数据库包括如下步骤：

S230.设定多个关联分析原则；

S250.优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库，所述最终位点数据库包括多个最终位点；

优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库包括如下步骤：

S2512.获取连锁区间；

2.根据权利要求1所述的表型预测方法，其特征在于，所述第一规则为：

S2542.保留原所述区间位点数据库不变；

S2543.设定选取比例；

S2544.根据选取比例和所述高效应位点的总数得到保留数量；

S2546.以所述保留数量保留效应值，保留下来的所述效应值对应的所述高效应位点为所述优化位点。

3.根据权利要求1所述的表型预测方法，其特征在于，所述第二规则为：

4.根据权利要求1所述的表型预测方法，其特征在于，根据各所述优化模型对应的所有所述测试样本的所述第一表型预测值与所述第一实际表型值计算得到与各所述优化模型对应的关联度值，包括如下步骤：

5.一种表型预测方法的预测系统，其特征在于，包括：

所述执行模块还配置用于：

将各样本的所述全基因组测序数据和参考基因组比对，得到标记位点数据库，所述标记位点数据库至少包括多个位点以及与各位点对应的碱基；

根据所有样本的所述表型数据库第一实际表型值，计算得到各样本的正态表型数值；

设定多个关联分析原则；

以各所述关联分析原则，根据各所述样本的所述正态表型数值和所述标记位点数据库，得到各所述样本与所述关联分析原则对应的效应位点数据库，所述效应位点数据库至少包括多个位点以及与各位点对应的效应值，所述效应值用于表征对实际表型值的贡献大小；

优化筛选各所述效应位点数据库，得到所述各样本的最终位点数据库，所述最终位点数据库包括多个最终位点；

选取模块，所述选取模块配置用于选取多个训练模型，所述训练模型至少包括GBLUP模型和RRBLUP模型；所述训练模型的输入为所述最终位点数据库，输出为表型预测值；

输出模块，所述输出模块配置用于获取待育种样本的全基因组测序数据，并输入至所述最终标记参考模型，得到所述待育种样本的表型预测值；

所述执行模块还配置用于：

根据所述效应位点数据库获得有效位点数据库，所述有效位点数据库包括多个高效应位点和与其对应的效应值；

获取连锁区间；

根据所述连锁区间，将各所述有效位点数据库划分为多个区间位点数据库，各所述区间位点数据库包括至少一个高效应位点，以及与该高效应位点对应的效应值；

根据第一规则，优化各所述区间位点数据库，每个样本对应每个关联分析原则均得到多个优化位点数据库，所述优化位点数据库包括至少一个优化位点和与所述优化位点对应的效应值；

根据第二规则筛选所述优化位点数据库，得到筛选位点数据库，所述筛选位点数据库包括多个筛选位点和与所述筛选位点对应的效应值；

将同一样本根据不同关联分析原则得到的所述筛选位点数据库取并集，得到各样本的最终位点数据库。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4任意一项所述的表型预测方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的表型预测方法的步骤。