CN109727640A

CN109727640A - 基于自动机器学习技术的全基因组预测方法及装置

Info

Publication number: CN109727640A
Application number: CN201910060401.9A
Authority: CN
Inventors: 邹继军; 傅军; 钟敬; 林海艳; 杨世超; 杨益民; 黄喆; 杜海萧; 李可; 伊凡·舒斯特尔; 王冰冰
Original assignee: Changsha Baiaoyun Data Technology Co Ltd; YUAN LONGPING HIGH-TECH AGRICULTURE Co Ltd; CITIC Technology Development Co Ltd
Current assignee: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.; CITIC cloud Network Co.,Ltd.; Longping Agricultural Development Co.,Ltd.; YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-05-07
Anticipated expiration: 2039-01-22
Also published as: CN109727640B

Abstract

本发明实施例提供基于自动机器学习技术的全基因组预测方法及装置，所述方法包括：获取待预测的杂交种的基因型数据；根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。利用本发明提供的预测方法可根据亲本基因型推测杂种的基因型，从而对其表型数据进行预测，进而推荐具有高产潜力的杂交组合。

Description

基于自动机器学习技术的全基因组预测方法及装置

技术领域

本发明实施例涉及育种技术领域，尤其涉及基于自动机器学习技术的全基因组预测方法及装置。

背景技术

作物育种的主要目标是培育出比市场上现有品种具有更好表现的新品种。利用杂种优势的杂交育种可以培育出表现比亲本更加优良的杂交品种。杂交水稻、杂交玉米等的推广应用增加了粮食产量，为全球粮食安全的保障做出了贡献。

在杂交育种的过程中，需要通过杂交获得大量的杂交种，并在田间进行多轮多级筛选，然后进行多年多点的测试，最终获得尽可能符合人们预期的新品种。随机亲本的杂交后代的农艺性状表现具有一定程度的未知性和不确定性，因此杂交育种是一个结果充满未知，需要不断尝试的过程，运气也是一定程度上影响成功与否的部分因素。育种家们在以往的工作中已经收集、开发或积累了许多可用于杂交育种的自交系亲本。同时，双单倍体(DH)等新的生物技术为育种家开发新的育种亲本提供了便利。相较于以往收集并保存种质资源的做法，利用DH技术可在短时间内获得大量可用于二次杂交育种的纯合亲本。可以产生的组合数是一个关于亲本材料数的非线性增长函数，可用以下公式表示：

H＝f(P)＝P(P-1)/2

其中，H表示可能的杂交组合数，P表示亲本材料数。可以看出随着亲本数P的增加，可以进行杂交产生杂种的组合数H将会大幅增加，意味着可以产生更多的杂交种，进行田间筛选。然而，在育种实践过程中，无论在技术上还是在资源上，都不能允许对所有可能的杂交组合进行配组产生杂交种，并进行表型数据鉴定和筛选。育种家们可以根据其经验进行预判，选择一些可能具有高产潜力的组合进行育种实践。然而育种家的预判依赖于长期实践的经历积累，不同的育种家有不同的经历和不同的侧重点，其预判时所触及到的遗传因素可能不全面，可能会漏掉一些具有潜力的组合。因此，如何触及更全面的遗传因素，快速有效地对更多杂交组合后代可能的表型数据进行考量，成为亟需解决的问题。

玉米是世界上最重要的农作物之一，约有三分之一人口以玉米为主要食粮，其中亚洲人食物组成中玉米占50％以上，非洲占25％，拉丁美洲占40％。除开用作食粮以外，玉米主要被当作饲料加以使用。全球的玉米大约有65％～70％都用作饲料，发达国家高达80％，是畜牧业赖以发展的重要基础。另外，玉米籽粒是重要的工业加工原料，可加工生产二、三百种产品。提高产量可以更好地满足将玉米当作饲料、工业原料进行使用的需求。因此，对产量的追求是玉米育种的重要目标。

发明内容

针对现有技术中存在的技术问题，本发明实施例提供基于自动机器学习技术的全基因组预测方法及装置。

第一方面，本发明实施例提供基于自动机器学习技术的全基因组预测方法，包括：

获取待预测的杂交种的基因型数据；

根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；

结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。

第二方面，本发明实施例提供基于自动机器学习技术的全基因组预测装置，包括：

获取模块，用于获取待预测的杂交种的基因型数据；

预测模块，用于根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；

确定模块，用于结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。

本发明实施例提供的基于自动机器学习技术的全基因组预测方法及装置，首先对用于建模的群体中的杂交种的基因型和表型数据进行考察，利用自动机器学习框架下的工具H2O构建模型，评估每个标记在各生态区中对玉米产量的影响效应。然后根据亲本基因型推算杂交种基因型，综合杂交种各分子标记上基因型的效应，对表型数据进行预测，推荐具有高产潜力的杂交组合，供育种家选择进行育种实践，以减少育种配组选择中的不确定性，提高育种成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于自动机器学习技术的全基因组预测方法的流程示意图；

图2为本发明实施例提供的对基因型数据进行编码时所使用规则的示意图；

图3为本发明实施例的通过对杂交种产量的预测值和真实观测值进行比较，以对所述模型对玉米表型数据预测的表现进行评估的示意图；

图4a-4h为本发明实施例提供的巴西冬玉米区各生态区构建的表型数据预测模型对杂交种表型数据的预测值和真实观测值进行比较，从而评估模型表现的示意图；

图5为本发明实施例提供的基于自动机器学习技术的全基因组预测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于自动机器学习技术的全基因组预测方法的流程示意图，如图1所示，所述方法包括：

S101、获取待预测的杂交种的基因型数据；

S102、根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；

S103、结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。

在过去的育种工作中，开发了许多预测杂交种表现的方法。一种常用的方法是根据配组亲本间得多态性的分子标记估计亲缘关系的远近，从而推荐杂交组合。

全基因组选择，或基因组选择，是近来综合考虑全基因组分子标记效应推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型和表型数据进行考察，综合评估各标记对表型数据的影响效应，获得预测模型。然后根据亲本基因型推算杂交种基因型，综合杂交种各分子标记上基因型的效应，对表型数据值进行预测，推荐具有潜力的杂交组合。

本发明实施例提供的基于自动机器学习技术的全基因组预测方法，首先对一些杂交种的基因型和表型数据进行考察，建立自动机器学习模型评估每个标记对表型数据的效应。然后根据亲本基因型推算杂交种基因型，综合杂交种各分子标记上基因型的效应，对表型数据值进行预测，推荐具有潜力的杂交组合。

可选地，所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。

在上述实施例的基础上，所述待预测的杂交种的基因型数据需要选择父本群体(M)和母本群体(F)，并将父本与母本两两组合，并推算出其杂交种的基因型数据(m*f个组合)。

可选地，所述自动机器学习预测模型的建立步骤为：

获取用于建模的群体中杂交种的表型数据和基因型数据并进行处理；

利用自动机器学习AutoML，执行自动机器学习流程中网格搜索算法从而实现超参数优化，构建对表型数据进行预测的自动机器学习预测模型。

可选地，所述AutoML框架下的工具为H2O。

在上述实施例的基础上，在进行执行全基因组预测之前，需要先建立自动机器学习模型，在挑选的样本集中，可分为训练集和测试集，即对建模数据通过随机抽样的方式分为训练集和测试集，一般情况下，训练集包含80％样本，测试集包含20％样本，样本比例可结合数据实际情况进行调整。

AutoML(Automatic Machine Learning,AutoML)为非机器学习专家的应用者提供了一种利用机器学习解决实际问题的一种方法，并且能够得到更好的效果。

AutoML可以使得机器学习过程的一部分或全部工作自动化。一款AutoML软件通常整合了一些基础的机器学习算法如随机森林、通用线性模型、深度神经网络，能够根据数据的结果和任务类型自动选择并训练模型，并实现相应的算法，如回归、分类、聚类、基于时间序列的预测、机器视觉等。本发明利用Auto ML框架下的工具H2O对玉米的产量和水份进行建模和预测。

本发明实施例提供的基于自动机器学习技术的全基因组预测方法及模型，该模型快捷、简单，并有效提高了预测准确度。

可选地，所述对建模的群体中杂交种的表型数据和基因型数据处理具体为：

对所述建模的群体中的杂交种的表型数据和基因型数据进行清洗；

对所述清洗后的数据进行编码。

在上述实施例的基础上，对所述样本集中的基因型数据和表型数据进行处理，具体为：

1)数据准备：用于建模的数据需包括杂交种的基因型数据和表型数据：

1.1)基因型数据可以由杂交种父母本的基因型数据推算得出；

1.2)表型数据需要通过田间试验获取到需要预测的表型数据，如产量、水分；

2)数据清洗：对上述数据进行数据清洗，剔除部分无效数据：

2.1)移除单态性的分子标记；

2.2)移除在30％以上的杂交种中都缺失数据的分子标记位点。

2.3)移除在10％以上的分子标记位点中都缺失基因型数据的杂交种。

3)数据编码：对数据中的基因型数据进行编码，使之由字符型数据转化为数值型数据。

可选地，所述对所述清洗后的数据进行编码包括加性线性回归模型编码方式和将非加性效应整合到所述预测模型中的编码方式。

在上述各个实施例的基础上，对数据中的基因型数据进行编码，使之由字符型数据转化为数值型数据，有两种编码方式：

3.1)加性线性回归模型，编码规则如下：如图2所示。

3.2)除了加性线性回归模型，将非加性效应，如显性效应整合到模型中，有可能进一步提高模型的预测准确性。遗传学上的显性效应描述的是同一基因位点上的不同等位基因之间的关系，在这种关系中，一个等位基因的效应会不同程度地掩盖了同一位点上的另一个等位基因的效应。基于自动机器学习算法，本发明实施例对基因编码策略进行了调整，以将显性效应整合到模型中去。

在对基因型进行编码的过程中，针对每个训练集，每个基因标记位点都根据其基因型和表型数据，动态确定基因型编码规则。对于确定的标记位点，根据标记位点的基因型对杂种进行分组，并计算每个分组的产量平均值。对于纯合子基因型，平均值较高组对应的基因型编码为“1”，平均值较低组对应的基因型编码为“-1”。对于杂合子基因型，按以下公式计算其编码值：

其中：

是该位点杂合子基因型对应的产量数值的平均值；

是该位点纯合子基因型对应的产量数值的平均值中较高的平均值；

是该位点纯合子基因型对应的产量数值的平均值中较低的平均值。

不确定的基因型标记为0，忽略其效应。

同样地，以上编码方式也适用于水分等其他表型数据指标。

可选地，所述方法还包括对所述自动机器学习预测模型进行评估，具体为对所述自动机器学习模型的相关系数的平方、召回率、准确率和提升率进行评估。

在上述实施例的基础上，在执行预测方法之前，还需要对自动机器学习预测模型的表现进行评估。进而利用模型，根据训练群体和测试群体中杂交种的基因型数据，对杂交种的表型数据进行了预测，然后将观察到的结果与真实观测值进行比较，通过以下一个或多个指标对模型的表现进行了评估：

1)相关系数的平方(R²)；

2)召回率(Recall Rate)；

3)准确率(Precession)；

4)提升率(Improvement)。

通过图3中的示例来解释这些对模型评估的指标。一个点代表一个杂交种，横坐标为预测值，纵坐标为观测值。垂直线代表基因组选择的阈值，垂直线右侧的数据点为50％，是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例。水平线代表田间表型数据筛选的阈值，水平线以上的数据点为10％，是育种家在田间筛选出来杂交种占田间种植的杂交种的比例。两条直线将图中区域分成四个部分：

右上角的第一象限区域中的杂交种表示在基因组选择和表型数据选择中均被保留的杂交种；

左上角的第二象限区域中的杂交种表示在基因组选择没有被保留，但在表型数据选择中被保留的杂交种；

左下角的第三象限区域中的杂交种表示在基因组选择和表型数据选择中均没有被保留的杂交种；

右下角的第四象限区域中的杂交种表示在基因组选择中被保留，但在表型数据选择中没有被保留的杂交种。

具体地，3.1)R²:预测值与观测值相关系数的平方，计算方式如下

其中，y为观测值，为预测值。

3.2)召回率：位于第一象限的杂交种占第一二象限杂交种的百分比，计算方式如下：

其中，Q1为位于第一象限的杂交种的数目，Q2为第二象限的杂交种的数目。

3.3)准确率：位于第一象限的杂交种占第一四象限杂交种的百分比，计算方式如下：

其中，Q1为位于第一象限的杂交种的数目，Q4为第四象限的杂交种的数目。

3.4)提升度：这是与没有用到预测模型时的一个相对指标。在没有模型的情况下，育种家会随机(或根据自己的经验)选择一些个组合。对亲本进行杂交。获得杂交种在田间种植，根据表型数据进行筛选。假设育种家的资源可以鉴定50K杂交组合，最终保留10％，则可以得到5K杂交组合。在有模型的情况下，当基因组选择的阈值为50％(垂直线右边的比例)时，在同样可用于田间考察资源时，为了获得50K个推荐的杂交组合，可对100K个杂交组合的表型数据进行预测。相当于在计算机里面对100K个杂交组合进行了初级筛选，对应于没有模型进行表型数据筛选保留10％的比例，相当于10K杂交组合。假设召回率(第一象限杂交种占第一、二象限杂交种的百分比)为70％，相当于在基因组选择和表型数据选择中均被保留的杂交种为7K。相比于没有模型同样种植50K杂交种，选择保留10％(5K)杂交种的情况下，可以多获得2K的杂交种，由此得到的提升度的计算方式如下：

其中，M为运用预测模型最终筛选出来的杂交组合，B为没有运用预测模型的情况下最终选择出来的组合。在上述所列举的示例中，提升度为：(7K-5K)/5K＝40％。

图4a-4h为本发明实施例提供的巴西冬玉米区各生态区构建的产量预测模型对杂交种产量的预测值和真实观测值进行比较，从而评估模型表现的示意图，如图4a-4h所示，是用冬玉米区中东部生态区数据集建立的模型，通过表型数据产量和水分验证了本发明实施例的可行性。

图5为本发明实施例提供的基于自动机器学习技术的全基因组预测的结构示意图，如图5所示，所述装置包括：获取模块10、预测模块20和确定模块30，其中：

获取模块10用于获取待预测的杂交种的基因型数据；

预测模块20用于根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；

确定模块30用于结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。

本发明实施例提供全基因组预测装置，获取模块10获取待预测的杂交种的基因型数据；预测模块20根据预先建立的自动机器学习预测模型和所述杂交种的基因型数据，对杂交组合后代的表型数据进行预测，得到表型数据预测结果；确定模块30结合育种资源和规模，根据所述表型数据预测结果，选择具有高产潜力的候选杂交组合。

本发明实施例提供的基于自动机器学习技术的全基因组预测装置，首先对一些杂交种的基因型和表型数据进行考察，建立自动机器学习模型评估每个标记对表型数据的效应。然后根据亲本基因型推算杂交种基因型，综合杂交种各分子标记上基因型的效应，对表型数据值进行预测，推荐具有潜力的杂交组合。

可选地，所述自动机器学习预测模型通过如下的步骤得到：

获取用于建模的杂交种的表型数据和基因型数据并进行处理；

利用自动机器学习AutoML，执行自动机器学习流程中网格搜索算法实现超参数优化，构建对表型数据进行预测的自动机器学习预测模型。

可选地，所述AutoML框架下的工具为H2O。

AutoML可以使得机器学习过程的一部分或全部工作自动化。一款AutoML软件通常整合了一些基础的机器学习算法如随机森林、通用线性模型、深度神经网络，能够根据数据的结果和任务类型自动选择并训练模型，并实现相应的算法，如回归、分类、聚类、基于时间序列的预测、机器视觉等。

本发明实施例提供的基于自动机器学习技术的全基因组预测装置中的预测模型，对杂交种的表型数据预测快捷、简单，并有效提高了预测准确度。

本发明实施例提供的基于自动机器学习技术的全基因组预测装置，首先对训练群体中的杂交种的基因型进行考察，利用自动机器学习框架下的工具H2O构建模型，评估每个标记在各生态区中对玉米表型数据的影响效应。然后根据亲本基因型推算杂交种基因型，综合杂交种各分子标记上基因型的效应，对表型数据进行预测，推荐具有高产潜力的杂交组合，供育种家选择进行育种实践，以减少育种配组选择中的不确定性，提高育种成功率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要确定其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出改进的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于自动机器学习技术的全基因组预测方法，其特征在于，包括：

获取待预测的杂交种的基因型数据；

2.根据权利要求1所述的方法，其特征在于，所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。

3.根据权利要求1所述的方法，其特征在于，所述自动机器学习预测模型的建立步骤为：

利用自动机器学习AutoML，执行自动机器学习流程中的网格搜索算法实现超参数优化，构建对表型数据进行预测的自动机器学习预测模型。

4.根据权利要求3所述的方法，其特征在于，所述AutoML框架下的工具为H2O。

5.根据权利要求3所述的方法，其特征在于，所述对建模的群体中杂交种的表型数据和基因型数据处理具体为：

对所述清洗后的数据进行编码。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括对所述自动机器学习预测模型进行评估，具体为对所述自动机器学习预测模型的相关系数的平方、召回率、准确率和提升率进行评估。

7.一种基于自动机器学习技术的全基因组预测装置，其特征在于，包括：

获取模块，用于获取待预测的杂交种的基因型数据；

8.根据权利要求7所述的装置，其特征在于，所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。

9.根据权利要求7所述的装置，其特征在于，所述自动机器学习预测模型通过如下的步骤得到：

10.根据权利要求9所述的装置，其特征在于，所述AutoML框架下的工具为H2O。