CN116467596A

CN116467596A - 水稻粒长预测模型的训练方法、形态预测方法及装置

Info

Publication number: CN116467596A
Application number: CN202310385157.XA
Authority: CN
Inventors: 赵华; 刘玉涛; 吴惠粦; 黄郑晖; 林珊珊; 王庆林; 李丽梅; 杨欣华; 刘骋骋
Original assignee: Guangzhou National Modern Agricultural Industry Science And Technology Innovation Center
Current assignee: Guangzhou National Modern Agricultural Industry Science And Technology Innovation Center
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-21
Anticipated expiration: 2043-04-11
Also published as: CN116467596B

Abstract

本发明公开了一种水稻粒长预测模型的训练方法、形态预测方法及装置，所述方法包括：在获取多份水稻个体基因数据后，对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵；从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型。本发明可以对水稻个体基因数据进行矩阵转换和基因填充，根据其水稻个体亲缘关系构建并筛选出若干个表型相关的微点，最后采用若干个筛选出的表型相关的微点进行模型训练和优化筛选得到水稻粒长预测模型，从而减少数据误差，并提升训练模型的预测精度。

Description

水稻粒长预测模型的训练方法、形态预测方法及装置

技术领域

本发明涉及模型训练的技术领域，尤其涉及一种水稻粒长预测模型的训练方法、形态预测方法及装置。

背景技术

随着科技的发展和普及，越来越多的行业向信息科技和智能化科技转型。例如生物研究行业，可以构建符合植物生长形态研究的神经网络模型，调用神经网络模型进行植物生长预测的处理，能有效提升植物生长研究的效率。目前，关于植物生长研究的模型训练方法主要是先收集关于植物生长的基因位点数据，将基因位点数据转化成训练因子并进行模型训练，以得到满足研究要求的模型。

但上述训练方式有下述技术问题：现有的基因位点数据是通过图位克隆或突变体定位得到，图位克隆仅能提取目标基因附近位点的数据，而通过突变体定位仅能提取变异基因位点的数据，导致采集的数据与实际有较大的误差，进而降低后续模型预测的精度。

发明内容

本发明提出一种水稻粒长预测模型的训练方法、形态预测方法及装置，所述方法在收集水稻的变异或附件位点的基因数据后，对数据进行填充并根据水稻个体亲缘关系构建基因网络矩阵，利用基因网络矩阵进行模型训练，在减少数据误差的基础上提升训练模型的预测精度。

本发明实施例的第一方面提供了一种水稻粒长预测模型的训练方法，所述方法包括：

在获取多份水稻个体基因数据后，对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，所述全基因关系矩阵是与所述基因型矩阵构成个体亲缘关系的基因矩阵；

从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型。

在第一方面的一种可能的实现方式中，所述对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，包括：

基于预设的变异矩阵对每份水稻个体基因数据进行过滤，并对过滤后的每份水稻个体基因数据进行矩阵转换，得到多个个体基因矩阵，其中，预设的变异矩阵是对水稻基因组的比对数据库进行过滤得到的关于变异位点的矩阵；

对每个所述个体基因矩阵缺失的基因型进行填充，得到基因型矩阵，所述基因型矩阵为完整基因型的矩阵；

利用预设的emmax软件获取关于亲缘关系的矩阵参数；

利用所述矩阵参数计算每个所述基因型矩阵对应的全基因关系矩阵。

在第一方面的一种可能的实现方式中，所述从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，包括：

将每个所述全基因关系矩阵转换成模型格式矩阵；

将每个所述模型格式矩阵输入至预设的混合线性模型，计算得到每个所述模型格式矩阵对应的得到表型信息；

从多个所述表型信息中筛选若干个为生长表型的目标信息，并以所述目标信息对应的全基因关系矩阵为目标全基因关系矩阵。

在第一方面的一种可能的实现方式中，所述采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型，包括：

从每个所述目标全基因关系矩阵中提取与水稻生长相关的相关基因位点，得到若干个相关基因位点；

计算每个所述相关基因位点的假定值，并将小于预设值的假定值对应的相关基因位点合并两两合并，得到多个合并位点；

根据所述多个合并位点对应的基因转型信息构建多个模型并对多个模型进行优化筛选得到水稻粒长预测模型。

在第一方面的一种可能的实现方式中，所述根据所述多个合并位点对应的基因转型信息构建多个模型并对多个模型进行优化筛选得到水稻粒长预测模型，包括：

获取每个所述合并位点的基因转型信息，并按照每个所述基因转换信息对应的基因型对每个所述基因转换信息进行赋值，得到基因转型值，其中，所述基因转型信息包括杂合、纯合和变异；

将所述基因转型值输入至预设的线性回归模型计算得到与基因型和表型相关的重要值；

按照数值大小从多个所述重要值中筛选若干个目标重要性值，并采用每个所述目标重要性值对应的合并位点构建线性回归模型，得到若干个待训练模型；

采用所述多份水稻个体基因数据分别对每个所述待训练模型进行模型训练，得到若干个训练模型；

计算每个所述训练模型的准确率，并筛选准确率最大的训练模型为水稻粒长预测模型。

在第一方面的一种可能的实现方式中，所述计算每个所述训练模型的准确率，包括：

按照数值大小从多个所述重要值中筛选若干个检测重要性值；

将所述若干个检测重要性值分别代入每个所述训练模型，求得每个所述训练模型对应的准确率。

在第一方面的一种可能的实现方式中，在所述将小于预设值的假定值对应的相关基因位点合并两两合并，得到多个合并位点的步骤后，所述方法还包括：

按照所述多个合并位点对应的基因转型信息，对多份水稻个体基因数据进行聚合分类，得到若干个分类结果；

可视化展示所述若干个分类结果在第一方面的一种可能的实现方式中。

本发明实施例的第二方面提供了一种水稻粒长的预测方法，所述方法包括：

获取待预测的水稻基因数据；

将所述待预测的水稻基因数据输入至根据上述实施例所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。

本发明实施例的第三方面提供了一种水稻粒长预测模型的训练装置，所述装置包括：

获取个体基因数据模块，用于在获取多份水稻个体基因数据后，对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，所述全基因关系矩阵是与所述基因型矩阵构成个体亲缘关系的基因矩阵；

模型训练模块，用于从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练得到水稻粒长预测模型。

本发明实施例的第四方面提供了一种水稻粒长的预测装置，所述装置包括：

获取待检测基因数据模块，用于获取待预测的水稻基因数据；

生长预测模块，用于将所述待预测的水稻基因数据输入至根据上述实施例所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。

相比于现有技术，本发明实施例提供的一种水稻粒长预测模型的训练方法、形态预测方法及装置，其有益效果在于：本发明可以在获取多份水稻个体基因数据后，对每份数据进行矩阵转换和基因填充，并根据其水稻个体亲缘关系构建基因网络矩阵；从多个基因网络矩阵筛选出若干个表型相关的微点，最后采用若干个筛选出的表型相关的微点进行模型训练和优化筛选得到水稻粒长预测模型，从而减少数据误差，并提升训练模型的预测精度。

附图说明

图1是本发明一实施例提供的一种水稻粒长预测模型的训练方法的流程示意图；

图2是本发明一实施例提供的根据基于位点相关性绘制的manhattan图；

图3是本发明一实施例提供的数据的聚类示意图；

图4是本发明一实施例提供的多个重要值的数值柱形示意图；

图5是本发明一实施例提供的实际值和模型的预测值的散点图；

图6是本发明一实施例提供的一种水稻粒长预测模型的训练方法的操作流程图；

图7是本发明一实施例提供的一种水稻粒长的预测方法的流程示意图；

图8是本发明一实施例提供的一种水稻粒长预测模型的训练装置的结构示意图；

图9是本发明一实施例提供的一种水稻粒长的预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述问题，下面将通过以下具体的实施例对本申请实施例提供的一种水稻粒长预测模型的训练方法进行详细介绍和说明。

参照图1，示出了本发明一实施例提供的一种水稻粒长预测模型的训练方法的流程示意图。

为了方便理解，本发明使用水稻作为其中一种应用说明的植物，以水稻的基因数据作为本发明的基因数据进行说明，在实际应用中，也可以是树木，果树，花等植物，通过对其基因数据进行分析，可以预测其植物自身的生长形态，也可以预测植物的果实的生长形态。

其中，作为示例的，所述水稻粒长预测模型的训练方法，可以包括：

S11、在获取多份水稻个体基因数据后，对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，所述全基因关系矩阵是与所述基因型矩阵构成个体亲缘关系的基因矩阵。

在一实施例中，可以获取多份水稻个体基因数据，每一份水稻个体基因数据均可以包含多个基因位点，当中包含变异的基因位点或者未变异的基因位点。对各个基因位点进行过滤，然后将其转换成可计算的矩阵，接着对其进行基因补全，避免基因确定。再接着，可以根据基因中的个体亲缘关系，例子，母子关系或父子关系，在确定每个句子对应的关系矩阵。从而能结合基因位点实际的矩阵以及基因位点的关系矩阵进行训练，以消除变异位点基因的影响，提升训练后的模型的预测准确率。

其中，作为示例的，步骤S11可以包括以下子步骤：

S111、基于预设的变异矩阵对每份水稻个体基因数据进行过滤，并对过滤后的每份水稻个体基因数据进行矩阵转换，得到多个个体基因矩阵，其中，预设的变异矩阵是对水稻基因组的比对数据库进行过滤得到的关于变异位点的矩阵。

在本实施例中，利用bwa软件的index模块构建水稻基因组(例如：IRGSP 1.0)版本的比对数据库，然后利用mem模块比对双向测序的数据到参加基因组生成原始的sam格式的比对文件。参数都设置为默认参数。

然后Samtools软件将sam格式的文件转为二进制的bam文件并排序。Samtools的mpileup模块利用所有覆盖的深度大于1的变异位点。过滤到在群体出现的比例大于5％，缺失率小于70％的位点，最后得到预设的变异矩阵。

在一实施例中，假设多份水稻个体基因数据可以是950份包含了原始位点的水稻个体基因数据，每一个水稻个体基因数据以包含100多万个变异位点，950份水稻可以构成了一个100多万950列的矩阵。

在一实施例中，可以合并950份数据，产生的位点变异vcf文件，在这些矩阵中筛选出缺失率小于70％同时在群体出现的频率高于3％的位点。

S112、对每个所述个体基因矩阵缺失的基因型进行填充，得到基因型矩阵，所述基因型矩阵为完整基因型的矩阵。

承接上述例子，在一实施例中，可以利用beagle软件对缺失的基因型进行填充，介绍设置iteration参数为25，windows size为5000，overlap为300.填充完毕后过滤掉最小基因型频率小于3％的位点的矩阵，得到基因型矩阵，所述基因型矩阵为完整基因型的矩阵，并且是经过过滤的完整基因型的矩阵。

S113、利用预设的emmax软件获取关于亲缘关系的矩阵参数。

S114、利用所述矩阵参数计算每个所述基因型矩阵对应的全基因关系矩阵。

在一实施例中，利用emmax软件的计算亲缘关系矩阵的kin模块参数“-v–d 10”，得到矩阵参数。

然后基因型矩阵和其对应的矩阵参数输入至emmax软件中，计算关于水稻个体亲缘关系的矩阵，得到全基因关系矩阵。

S12、从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型。

在一实施例中，根据全基因关系矩阵对应的基因，生长得到的水稻的形态可能完整，可能有缺失。而有缺失可能是基因自身原因，可能是环境因素(例如土壤、光照或水等)。

为了避免上述因素影响，可以确定每个全基因关系矩阵对应的基因在相同因素下生长，其生长的表型，然后筛选完整生长的表型，以该完整生长的表型的全基因关系矩阵，作为训练使用的目标全基因关系矩阵。

例如，水稻基因的数据，可以确定水稻的颗粒长度的表型。然后筛选具有完整粒长表型的全基因关系矩阵，作为训练使用的目标全基因关系矩阵。最后，利用目标全基因关系矩阵进行模型训练，从而得到水稻粒长预测模型。

为了结合水稻粒长筛选符合生长要求的全基因关系矩阵，在一可选的实施例中，步骤S12可以包括以下子步骤：

S121、将每个所述全基因关系矩阵转换成模型格式矩阵。

S122、将每个所述模型格式矩阵输入至预设的混合线性模型，计算得到每个所述模型格式矩阵对应的得到表型信息。

S123、从多个所述表型信息中筛选若干个为生长表型的目标信息，并以所述目标信息对应的全基因关系矩阵为目标全基因关系矩阵。

在一实施例中，预设的emmax软件输出的全基因关系矩阵，其格式可能是vcf格式的位点文件，可以将上述格式的目标全基因关系矩阵的文件转化为tped格式和/或tfam格式，利用plink将其数字化并按照emmax软件的要求整理好表型文件，使得全基因关系矩阵转换成模型格式矩阵。

接着可以输入全基因关系矩阵，emmax软件的混合线性模型可以根据输入的全基因关系矩阵，计算得到全基因关系矩阵对应的生长表型以及全基因关系矩阵对应的基因型，根据其生长表型确定是否生长完整。最后筛选表型为生长完整的全基因关系矩阵为目标全基因关系矩阵。

例如，950份包含了原始位点的水稻个体基因数据，根据上述计算后，根据获得的表型，发现只有850个个体有完整粒长表型，则筛选得到850个水稻个体基因数据，以这850个水稻个体基因数据对应的全基因关系矩阵为目标全基因关系矩阵。

参照上述例子，即使根据水稻粒长对数据进行筛选，剩余的全基因关系矩阵还有很多。一方面，部分全基因关系矩阵可能还是变异基因或不相关基因的全基因关系矩阵，采用上述数据进行模型训练，可能降低模型预测的精度；另一方，若采用剩余的所有全基因关系矩阵进行模型训练，训练的数据量较多，耗时长，效率低。

为了避免上述情况，以减少数据量，提升训练效率，在其中一种的实施例中，步骤S12可以包括以下子步骤：

S124、从每个所述目标全基因关系矩阵中提取与水稻生长相关的相关基因位点，得到若干个相关基因位点。

S125、计算每个所述相关基因位点的假定值，并将小于预设值的假定值对应的相关基因位点合并两两合并，得到多个合并位点。

在步骤S123中，得到目标全基因关系矩阵对应的表型，可以将目标全基因关系矩阵的表型输入至emmax软件中，emmax软件可以计算得到目标全基因关系矩阵中与水稻生长相关的相关基因位点。

接着，可以再将目标全基因关系矩阵以及其对应的相关基因位点输入至emmax软件，emmax软件的混合线性模型可以根据输入的全基因关系矩阵和相关基因位点，得到与相关基因位点关联的假定值(p-value值)。

参照图2，示出了本发明一实施例提供的根据基于位点相关性绘制的manhattan图。图2是利用emmax软件整合tped文件、表型数据和亲缘关系矩阵计算每个位点和表型的相关性并绘制对应的manhattan图。

参照图2可得，可以以p-value值<1E-4值为条件，筛选所有相关基于位点，最后得到符合要求的相关基因位点。

在一可选的实施例中，也可以根据每个相关基于位点和表型线性回归结果进行筛选，提取得到符合要求的相关基因位点。

再接着，可以对相关性p-value值小于1E-250的两个位点进行合并，只保留跟表型相关性更强的位点，得到合并位点。

假设，以p-value值<1E-4值为条件，筛选所有相关基于位点，最后得到符合要求的相关基因位点，获得2150个显著相关的位点。然后再以p-value值小于1E-250为筛选条件，筛选得到218个位点。

参照图3，示出了本发明一实施例提供的数据的聚类示意图。

在筛选并合并生成多个合并位点后，由于每个合并位点是与其表型相关性很强的位点，每种位点可能对应一种水稻生长表型，为了能让用户或技术人员根据水稻的表型以及基因位点进行相关的特征分析，或者根据其表型对基因的关联进行研究，在其中一种的实施例中，在步骤S125后，所述方法还可以包括以下步骤：

S21、按照所述多个合并位点对应的基因转型信息，对多份水稻个体基因数据进行聚合分类，得到若干个分类结果。

S22、可视化展示所述若干个分类结果。

在一实施例中，可以获取每个合并位点对应的基因转型信息，基因转型信息包括杂合、纯合和变异。

其中，杂交的基因转型信息是指水稻生长成此表型的原因是因为其杂交基因；同理，纯合的基因转型信息是指水稻生长成此表型的原因是因为其纯种基因；变异的基因转型信息是指水稻生长成此表型的原因是因为其变异基因。

每个合并位点对应一份或多份水稻个体基因数据，然后根据基因转型信息，对多份水稻个体基因数据进行聚合和分类，使其形成不同的类别。最后再可视化展示，如图3所示。

对应地，分别为杂合类别、纯类别和变异类别。

用户可以根据其类别对各个水稻个体基因数据进行后续的研究分析。

S126、根据所述多个合并位点对应的基因转型信息构建多个模型并对多个模型进行优化筛选得到水稻粒长预测模型。

在一实施例中，在获取多个合并位点后，由于每个合并位点是与其表型相关性很强的位点，每种位点可能对应一种水稻生长表型。可以结合合并位点以及其相关联的基因转型信息，对模型进行训练，使得训练后的模型能将表型以及基因联系在一起，从而后续能准确根据基因对水稻表型进行预测，以提升预测的准确率。

为了能将基因转型信息量化，以提升后续模型训练的处理效率，在其中一种的实施例中，步骤S126可以包括以下子步骤：

S1261、获取每个所述合并位点的基因转型信息，并按照每个所述基因转换信息对应的基因型对每个所述基因转换信息进行赋值，得到基因转型值，其中，所述基因转型信息包括杂合、纯合和变异。

在一实施例中，基因转型信息还可以包括杂合、纯合和变异，本实施例的基因转型信息与步骤S21的基因转型信息相同。具体可以参照上述说明，为了避免重复，在此不再赘述。

在一可选的实施例中，赋值的操作可以按照纯合为2，杂合为1、变异类型为0，将多个合并位点的基因型矩阵转变为0、1和2的数字。

需要说明的是，赋值的大小可以根据实际需要进行调整，也可以纯合为3，杂合为2、变异为1。

S1262、将所述基因转型值输入至预设的线性回归模型计算得到与基因型和表型相关的重要值。

具体地，可以利用R语言自带的lm线性回归模型计算基因型和表型的重要值，该重要值可以表示基因型和表型之间的相关性，具体可以为p-value值。

在一实施例中，这个重要值的值越小，代表重要性越高。

S1263、按照数值大小从多个所述重要值中筛选若干个目标重要性值，并采用每个所述目标重要性值对应的合并位点构建线性回归模型，得到若干个待训练模型。

S1264、采用所述多份水稻个体基因数据分别对每个所述待训练模型进行模型训练，得到若干个训练模型。

S1265、计算每个所述训练模型的准确率，并筛选准确率最大的训练模型为水稻粒长预测模型。

在一实施例中，可以计算重要值后，根据重要值的大小对多个合并位点进行排序，例如，从高到底排列，或者从低到高排列。

接着，可以根据数值大小，选择若干个重要值作为目标重要性值，然后以这些目标重要性值对应的合并位点构建线性回归模型，从而得到若干个待训练模型。

然后使用在先采集的水稻个体基因数据对每个待训练模型进行训练，得到若干个训练模型。由于模型有多个，为了提取预测准确率高的模型，可以计算每个训练模型的准确率，然后筛选准确率最大的训练模型为水稻粒长预测模型。

参照图4，示出了本发明一实施例提供的多个重要值的数值柱形示意图。

承接上述例子，假设合并位点共有218个，对应地，计算得到的重要值有218个，具体如图4所示。将218个重要值从高到低排序，可以选择数值前10-20个重要值，然后采用这10个重要值对应的合并位点，分别构建对应位点的线性回归模型，得到10个待训练模型。

在先例子中，共收集了950个水稻数据，对应有950份水稻个体基因数据，根据前文说明，950份当中可能包含完整生长，可能包含畸形生长。为了避免采集畸形生长的数据，当中有850个完整粒长表型，可以将850个个体分成的70％和30％的数据集，然后分别对每个待训练模型进行模型训练，计算10次后，得到10个训练模型，然后计算10个训练模型的准确率，最后筛选准确率最高的训练模型，作为最后的水稻粒长预测模型。

在其中一种的实施例中，为了准确率计算训练模型的准确率，其中，作为示例的，步骤S1265可以包括以下子步骤：

S12651、按照数值大小从多个所述重要值中筛选若干个检测重要性值。

S12652、将所述若干个检测重要性值分别代入每个所述训练模型，求得每个所述训练模型对应的准确率。

例如，在计算每个合并位点对应的重要值后，可以将多个重要值从高到低排列，可以筛选出重要值最大的前10个或前15个或前20个，然后利用若干个检测重要性值分别代入每个训练模型，求得每个训练模型对应的准确率以及相关代表准确率的参数。

在一可选的应用例子中，可以选择重要值最大的前15个对应合并位点计算模型准备确率等这些参数，各个参数如下表所示：

最后比较不同位点模型的准确率，筛选得到准确率最高的训练模型，作为水稻粒长预测模型。

参照图5，示出了本发明一实施例提供的实际值和模型的预测值的散点图。

参照上表，在采用10-20这10个合并位点训练得到的训练模型中，最后发现16位点的模型准确率最高，可以以16位点的模型为水稻粒长预测模型。

参照图6，示出了本发明一实施例提供的一种水稻粒长预测模型的训练方法的操作流程图。

具体地，其操作流程可以包括以下步骤：

第一步，可以采集原始的测序数据，对原始测序数据进行比对和鉴定，得到初步变异位点。

第二步，采集多份数据(例如950份)，对数据的变异位点进行过滤和筛选，生成对应的数据矩阵。

第三步，使用beagle软件对数据矩阵内缺失基因型进行填充。

第四步，填充基因型的过滤筛选得到最后的基因型矩阵。

第五步，将vcf格式的基因型矩阵转变为基因型文件tped和tfam格式。

第六步，对950分水稻不同的个体亲缘关系构建成矩阵。

第七步，对构建后的矩阵进行全基因组关联分析，计算每个位点和表型的相关性。

第八步，筛选最相关的2150个位点。

第九步，位点两两相关的p-value值矩阵构建。

第十步，位点相关p-value值矩阵构建，筛选相关性大的位点。

第十一步，位点过滤筛选和位点重要性计算。

第十二步，利用不同位点训练模型，不同模型比较和最终位点和模型的确认，得到预测模型。

通过上述操作方式，训练和筛选得到的模型，能够直接预测出粒长的具体数值，而不是告诉长粒或者短粒。而且训练是基于大样本群体数据(例如：850份水稻)，而不是几个品种的小群体，进而能大大提升预测模型预测的准确率，降低预测的误差，可以控制在平均值方差的5％以内。另外，模型的筛选检测可以使用小量的位点(例如上述例子的15个位点)，能极大了减少检查的工作量。

在本实施例中，本发明实施例提供了一种水稻粒长预测模型的训练方法，其有益效果在于：本发明可以在获取多份水稻个体基因数据后，对每份数据进行矩阵转换和基因填充，并根据其水稻个体亲缘关系构建基因网络矩阵；从多个基因网络矩阵筛选出若干个表型相关的微点，最后采用若干个筛选出的表型相关的微点进行模型训练和优化筛选得到水稻粒长预测模型，从而减少数据误差，并提升训练模型的预测精度。

参照图7，示出了本发明一实施例提供的一种水稻粒长的预测方法的流程示意图。

其中，作为示例的，所述水稻粒长的预测方法，可以包括：

S71、获取待预测的水稻基因数据。

S72、将所述待预测的水稻基因数据输入至根据上述实施例所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。

在实际操作中，可以获取所要预测的水稻的基因数据，然后将基因数据输入至经过上述实施例公开的训练方法训练得到的水稻粒长预测模型。再由水稻粒长预测模型采用基因数据进行预测，得到水稻的生长形态。

本发明实施例还提供了一种水稻粒长预测模型的训练装置，参见图8，示出了本发明一实施例提供的一种水稻粒长预测模型的训练装置的结构示意图。

其中，作为示例的，所述水稻粒长预测模型的训练装置可以包括：

获取个体基因数据模块801，用于在获取多份水稻个体基因数据后，对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，所述全基因关系矩阵是与所述基因型矩阵构成个体亲缘关系的基因矩阵；

模型训练模块802，用于从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型。

可选地，所述获取个体基因数据模块，还用于：

利用预设的emmax软件获取关于亲缘关系的矩阵参数；

可选地，所述模型训练模块，还用于：

将每个所述全基因关系矩阵转换成模型格式矩阵；

可选地，所述模型训练模块，还用于：

可选地，所述装置还包括：

聚合分类模块，用户按照所述多个合并位点对应的基因转型信息，对多份水稻个体基因数据进行聚合分类，得到若干个分类结果；

可视化展示模块，用于可视化展示所述若干个分类结果。

本发明实施例还提供了一种水稻粒长预测模型的训练装置，参见图9，示出了本发明一实施例提供的一种水稻粒长预测模型的训练装置的结构示意图。

获取待检测基因数据模块901，用于获取待预测的水稻基因数据；

生长预测模块902，用于将所述待预测的水稻基因数据输入至根据上述实施例所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。

所属技术领域的技术人员可以清楚地了解到，为方便的描述和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步的，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的水稻粒长预测模型的训练方法或水稻粒长的预测方法。

进一步的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上述实施例所述的水稻粒长预测模型的训练方法或水稻粒长的预测方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种水稻粒长预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的水稻粒长预测模型的训练方法，其特征在于，所述对每份所述水稻个体基因数据进行矩阵转换和基因填充得到基因型矩阵，并计算每个所述基因型矩阵对应的全基因关系矩阵，包括：

利用预设的emmax软件获取关于亲缘关系的矩阵参数；

3.根据权利要求1所述的水稻粒长预测模型的训练方法，其特征在于，所述从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，包括：

将每个所述全基因关系矩阵转换成模型格式矩阵；

4.根据权利要求1-3任意一项所述的水稻粒长预测模型的训练方法，其特征在于，所述采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型，包括：

5.根据权利要求4所述的水稻粒长预测模型的训练方法，其特征在于，所述根据所述多个合并位点对应的基因转型信息构建多个模型并对多个模型进行优化筛选得到水稻粒长预测模型，包括：

6.根据权利要求5所述的水稻粒长预测模型的训练方法，其特征在于，所述计算每个所述训练模型的准确率，包括：

7.根据权利要求5所述的水稻粒长预测模型的训练方法，其特征在于，在所述将小于预设值的假定值对应的相关基因位点合并两两合并，得到多个合并位点的步骤后，所述方法还包括：

可视化展示所述若干个分类结果。

8.一种水稻粒长的预测方法，其特征在于，所述方法包括：

获取待预测的水稻基因数据；

将所述待预测的水稻基因数据输入至根据权利要求1-7任意一项所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。

9.一种水稻粒长预测模型的训练装置，其特征在于，所述装置包括：

模型训练模块，用于从多个所述全基因关系矩阵筛选若干个具有生长表型的目标全基因关系矩阵，并采用若干个所述目标全基因关系矩阵进行模型训练和优化筛选得到水稻粒长预测模型。

10.一种水稻粒长的预测装置，其特征在于，所述装置包括：

生长预测模块，用于将所述待预测的水稻基因数据输入至根据权利要求1-7任意一项所述的水稻粒长预测模型的训练方法生成的水稻粒长预测模型，得到水稻粒长的预测结果。