CN104951987B - 基于决策树的作物育种评价方法 - Google Patents
基于决策树的作物育种评价方法 Download PDFInfo
- Publication number
- CN104951987B CN104951987B CN201510347717.8A CN201510347717A CN104951987B CN 104951987 B CN104951987 B CN 104951987B CN 201510347717 A CN201510347717 A CN 201510347717A CN 104951987 B CN104951987 B CN 104951987B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- properties
- characteristicses
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于决策树的作物育种评价方法,该方法包括:以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示;对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型;根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。上述方法能利用育种过程中的评价结果信息,以实现后续的作物育种的评价。
Description
技术领域
本发明涉及作物育种技术领域,尤其涉及一种基于决策树的作物育种评价方法。
背景技术
作物育种技术通过改良作物的遗传特性,选择培育高产优质品种,是种业创新和发展的根本动力,对促进我国农业长期稳定发展、保障国家粮食安全具有十分重要的意义。作物育种评价从培育品种中评价、选择满足育种目标的优良品种,是作物育种技术的重要环节,是对育种效果的有效保证。
随着我国粮食生产形势的变化,作物育种评价从以产量为主的方式向综合考虑产量、品质、抗逆性等因素转变。与此同时,关联分析、主成分分析、层次分析法、模糊综合评价、灰色关联评价等多种信息技术皆在作物育种中发挥了重要的作用。这些技术通过对作物性状数据的分析利用有效提升了作物育种评价技术的数据化、信息化程度,推动作物育种评价从经验化育种向数据化、信息化育种转变。然而,育种过程中的评价结果信息作为重要的专家经验,却仍未用在作物育种评价的过程中。本发明使用决策树对育种评价结果信息与作物性状信息构建模型,提出一种基于决策树的作物育种评价方法。
鉴于此,如何利用育种过程中的评价结果信息,以实现后续的作物育种的评价成为当前需要解决的技术问题。
发明内容
针对现有技术中的缺陷,本发明提供一种基于决策树的作物育种评价方法,将作物育种过程中的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数据,可以有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育种的评价工作。
第一方面,本发明提供一种基于决策树的作物育种评价方法,包括:
以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示;
对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;
根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型;
根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。
可选地,所述对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集,包括:
对所述数据集中的性状特征集合T中的每种性状进行规范化处理;
对经过规范化处理之后的性状特征集合T进行去噪处理;
对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据集。
可选地,所述规范化处理包括:统一量化方式,和/或统一计量单位,和/或统一表现形式。
可选地,所述对经过规范化处理之后的性状特征集合T进行去噪处理,包括:
判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内,若否,则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除;
将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除;
其中,所述离群性状特征为满足第一公式的性状特征,所述第一公式
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
可选地,所述对经过去噪处理之后的性状特征集合T进行归一化处理,具体包括:
根据第二公式,对经过去噪处理之后的性状特征集合T进行归一化处理;
其中,所述第二公式为:
Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,T′i为Ti经归一化处理后的结果,min(Ti)为性状特征Ti中的最小值,max(Ti)为性状特征Ti中的最大值。
可选地,所述根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型,包括:
S1、将预处理后的数据集记为D0,D0中的特征集合记为T0,根据D0与T0生成根节点root,并令所述根节点root作为当前节点;
S2、根据第三公式,计算得到D0的基尼Gini指标;
S3、判断D0是否小于预设阈值G或T0中性状的个数是否为0,若D0小于预设阈值且T0中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果ri为该节点的实验结果;若D0大于等于预设阈值且T0中性状的个数不为0,则执行步骤S4-S7;
S4、计算T0中各性状特征与实验结果的排序相关性;
S5、取T0中与实验结果排序相关性最大的性状特征作为当前节点的划分性状Ts;
S6、根据划分性状Ts计算划分阈值vs,并根据vs将D0划分为两个集合D1、D2;
S7、从T0中移除Ts,分别令D1、D2作为D0,重复S2至S7建立其对应的决策树模型,并将结果分别作为当前节点的左、右子树;
其中,所述第三公式为:
其中,a为所述实验结果r中不同取值的个数,Pi为D0中数据对应实验结果ri的概率。
可选地,所述步骤S4,具体包括:
S41、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k;
S42、从T0中选择性状特征tn,并根据所述性状特征tn,将Sm中的数据的大小进行排序,将升序排序结果记为将降序排序结果记为
S43、根据实验结果r,分别对所述和中的tn取值相同的数据进行降序微调;
S44、根据所述和和第四公式,分别计算所述Sm中数据的性状特征tn与实验结果r的相关性;
S45、根据第七公式,获取D0中性状特征tn的相关性ω(n);
S46、重复步骤S42至S45,直至获取所述T0中所有性状特征的相关性;
其中,所述第四公式为:
其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得到的,所述第五公式为:
所述第六公式为:
其中,q为所述Sm中实验材料的编号,r(p)为所述或中第p位置的实验材料对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第p位置对应的实验结果,ω(n,m)依其使用所述或中的排序结果分别记为ω0(n,m)或ω1(n,m);
所述第七公式为:
ω(n)=max{ω0(n),ω1(n)},
其中,ω0(n)是通过第八公式计算得到的,ω1(n)是通过第九公式计算得到的,所述第八公式为:
所述第九公式为:
其中,|Sm|是Sm中实验材料的个数。
可选地,所述步骤S6,具体包括:
根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k;
根据所述划分性状Ts的大小,将所述Sm中的数据进行升序排序;
根据筛选条件,对排序后的Sm中的数据进行筛选;
根据满足所述筛选条件的sm(n),通过第十公式计算候选划分阈值vm(x);
针对所有候选划分阈值vm(x),通过第十一公式计算使用所有候选划分阈值vm(x)进对所述Sm进行划分后的Gini指标Ginis(vm(x));
对所述Sm,获取使Ginis(vm(x))取最小值的vm(x),根据使Ginis(vm(x))取最小值的vm(x),通过第十二公式计算vs(m);
根据所述vs(m),通过第十三公式计算划分阈值vs:
判断D0中的数据是否满足第一条件,将D0中满足所述第一条件的数据划入子集D1,将D0中不满足所述第一条件的数据划入子集D2;
其中,所述筛选条件为:
sm(n)≠sm(n+1)
其中,sm(n)为Sm中第n个数据的划分性状Ts的取值;
所述第十公式为:
所述第十一公式为:
其中,Sm1、Sm2为使用vm(x)对Sm进行划分后的数据集合;
所述第十二公式为:
其中,为Sm对应实验e中所有实验材料划分性状Ts的平均值;
所述第十三公式为:
所述第一条件为:
可选地,所述根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果,包括:
P1、从所述作物育种评价模型中获取具有相同育种目标的决策树,令所述决策树的根节点为当前节点N0;
P2、判断当前节点N0是否为叶子节点,若是,则该节点的评价结果即为待评价作物性状数据的评价结果,若否,则执行步骤P3至P5;
P3、获取所述当前节点N0的划分性状Ts及划分阈值vs;
P4、利用与所述待评价作物性状数据为同一实验的所有数据,计算该实验的划分性状Ts的平均值
P5、判断所述待评价作物性状数据的划分性状Ts的取值sd是否满足:若是,则令N0的左节点为当前节点,重复P2至P5步骤,若否,则令N0的右节点为当前节点,重复P2至P5步骤。
由上述技术方案可知,本发明的基于决策树的作物育种评价方法,将作物育种过程中的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数据,可以有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育种的评价工作。
附图说明
图1为本发明实施例提供的一种基于决策树的作物育种评价方法的流程示意图;
图2为本发明实施例提供的构建的决策树模型示例的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
第一实施例
图1示出了本发明实施例提供的一种基于决策树的作物育种评价方法的流程示意图,如图1所示,本实施例的基于决策树的作物育种评价方法如下所述。
101、以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示。
102、对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集。
103、根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型。
104、根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。
本实施例的基于决策树的作物育种评价方法,将作物育种过程中的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数据,可以有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育种的评价工作。
在具体应用中,上述步骤102可以包括图中未示出的步骤102a-102c:
102a、对所述数据集中的性状特征集合T中的每种性状进行规范化处理。
其中,所述规范化处理包括:统一量化方式,和/或统一计量单位,和/或统一表现形式。
102b、对经过规范化处理之后的性状特征集合T进行去噪处理。
在具体应用中,所述步骤102b可以包括:
判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内,若否,则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除;
将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除;
其中,所述离群性状特征为满足第一公式的性状特征,所述第一公式
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
102c、对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据集。
对所述数据集中的性状特征集合T进行预处理,可以提高对作物育种评价的历史数据的利用效率和效果。
在具体应用中,所述步骤102c中的“对经过去噪处理之后的性状特征集合T进行归一化处理”可以包括:
根据第二公式,对经过去噪处理之后的性状特征集合T进行归一化处理;
其中,所述第二公式为:
Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,T′i为Ti经归一化处理后的结果,min(Ti)为性状特征Ti中的最小值,max(Ti)为性状特征Ti中的最大值。
在具体应用中,上述步骤103可以包括图中未示出的步骤S1-S7:
S1、将预处理后的数据集记为D0,D0中的特征集合记为T0,根据D0与T0生成根节点root,并令所述根节点root作为当前节点。
S2、根据第三公式,计算得到D0的基尼Gini指标。
其中,所述第三公式为:
其中,a为所述实验结果r中不同取值的个数,Pi为D0中数据对应实验结果ri的概率。
S3、判断D0是否小于预设阈值G或T0中性状的个数是否为0,若D0小于预设阈值且T0中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果ri为该节点的实验结果;若D0大于等于预设阈值且T0中性状的个数不为0,则执行步骤S4-S7。
S4、计算T0中各性状特征与实验结果的排序相关性。
在具体应用中,所述步骤S4可以具体包括图中未示出的步骤S41-S46:
S41、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k。
S42、从T0中选择性状特征tn,并根据所述性状特征tn,将Sm中的数据的大小进行排序,将升序排序结果记为将降序排序结果记为
S43、根据实验结果r,分别对所述和中的tn取值相同的数据进行降序微调。
S44、根据所述和和第四公式,分别计算所述Sm中数据的性状特征tn与实验结果r的相关性。
其中,所述第四公式为:
其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得到的,所述第五公式为:
所述第六公式为:
其中,q为所述Sm中实验材料的编号,r(p)为所述或中第p位置的实验材料对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第p位置对应的实验结果,ω(n,m)依其使用所述或中的排序结果分别记为ω0(n,m)或ω1(n,m)。
S45、根据第七公式,获取D0中性状特征tn的相关性ω(n)。
其中,所述第七公式为:
ω(n)=max{ω0(n),ω1(n)},
其中,ω0(n)是通过第八公式计算得到的,ω1(n)是通过第九公式计算得到的,所述第八公式为:
所述第九公式为:
其中,|Sm|是Sm中实验材料的个数。
S46、重复步骤S42至S45,直至获取所述T0中所有性状特征的相关性。
S5、取T0中与实验结果排序相关性最大的性状特征作为当前节点的划分性状Ts。
S6、根据划分性状Ts计算划分阈值vs,并根据vs将D0划分为两个集合D1、D2。
在具体应用中,所述步骤S6可以具体包括图中未示出的步骤S61-S68:
S61、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k。
S62、根据所述划分性状Ts的大小,将所述Sm中的数据进行升序排序。
S63、根据筛选条件,对排序后的Sm中的数据进行筛选。
其中,所述筛选条件为:
sm(n)≠sm(n+1)
其中,sm(n)为Sm中第n个数据的划分性状Ts的取值。
S64、根据满足所述筛选条件的sm(n),通过第十公式计算候选划分阈值vm(x)。
其中,所述第十公式为:
S65、针对所有候选划分阈值vm(x),通过第十一公式计算使用所有候选划分阈值vm(x)进对所述Sm进行划分后的Gini指标Ginis(vm(x))。
其中,所述第十一公式为:
其中,Sm1、Sm2为使用vm(x)对Sm进行划分后的数据集合。
S66、对所述Sm,获取使Ginis(vm(x))取最小值的vm(x),根据使Ginis(vm(x))取最小值的vm(x),通过第十二公式计算vs(m)。
其中,所述第十二公式为:
其中,为Sm对应实验e中所有实验材料划分性状Ts的平均值。
S67、根据所述vs(m),通过第十三公式计算划分阈值vs。
其中,所述第十三公式为:
S68、判断D0中的数据是否满足第一条件,将D0中满足所述第一条件的数据划入子集D1,将D0中不满足所述第一条件的数据划入子集D2。
其中,所述第一条件为:
S7、从T0中移除Ts,分别令D1、D2作为D0,重复S2至S7建立其对应的决策树模型,并将结果分别作为当前节点的左、右子树;
在具体应用中,上述步骤104可以包括图中未示出的步骤P1-P5:
P1、从所述作物育种评价模型中获取具有相同育种目标的决策树,令所述决策树的根节点为当前节点N0。
P2、判断当前节点N0是否为叶子节点,若是,则该节点的评价结果即为待评价作物性状数据的评价结果,若否,则执行步骤P3至P5。
P3、获取所述当前节点N0的划分性状Ts及划分阈值vs。
P4、利用与所述待评价作物性状数据为同一实验的所有数据,计算该实验的划分性状Ts的平均值
P5、判断所述待评价作物性状数据的划分性状Ts的取值sd是否满足:若是,则令N0的左节点为当前节点,重复P2至P5步骤,若否,则令N0的右节点为当前节点,重复P2至P5步骤。
本实施例的基于决策树的作物育种评价方法,将作物育种过程中的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数据,可以有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育种的评价工作。
第二实施例
为了更清楚的说明本发明,举例来说,本第二实施例可以使用大豆育种品鉴组中的实验数据(原始数据参见表1)进行具体描述。所述实验数据中取100条数据作为已评价数据构建作物育种评价数据集,令取10条数据作为未评价数据,并使用构建的决策树模型对其评价。
表1
具体地,本实施例的基于决策树的作物育种评价方法如下所述。
101、以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示。
本实施例中育种目标皆为黄淮海夏大豆产区高产、抗病,因此数据集共享{黄淮海、夏大豆、高产、抗病}的育种目标;性状特征集合T以键值对形式表示,例如对于材料#1,其性状特征集合T为{生育期:102.0,小区产量:0.660,品鉴亩产:146.75,……,结荚习性:亚,花叶病毒盛花期:免疫};e为所属实验,本实施例中数据都属同一实验,不失一般性,使用E1作为该实验唯一标识;r为实验结果,即当前材料在实验中的评价结果,本实施例中用序数值表示实验结果,即将{升、留、汰}转化为{3,2,1}表示,如材料#1的评价结果为汰,则表示为1。
完成本步骤101后,任意材料数据皆以一个四元数据类型表示。如材料#1可以表示为{#1,{生育期:102.0,小区产量:0.660,品鉴亩产:146.75,……,结荚习性:亚,花叶病毒盛花期:免疫},E1,1}。
102、对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集。
在具体应用中,本步骤102包括图中步骤102a-102c:
102a、对所述数据集中的性状特征集合T中的每种性状进行规范化处理。
其中,所述规范化处理包括:统一量化方式,和/或统一计量单位,和/或统一表现形式。
在本实施例中,统一量化方式主要针对枚举型性状,如花叶病毒盛花期性状主要包含{免疫,高抗,抗,感}四种性状值,可使用{9,7,5,1}对其进行量化表示。统一计量单位主要针对数值型性状,如株高性状,有些材料使用米作为计量单位,有些材料使用厘米作为计量单位,在此均换算为厘米计量。统一表现形式主要针对有多表现形式的性状,如日期型性状,既可以表示为yyyy-mm-dd,也可以表示为mm-dd-yyyy等其它形式,在此均以yyyy-mm-dd表示。
102b、对经过规范化处理之后的性状特征集合T进行去噪处理。
在具体应用中,所述步骤102b包括步骤102b1和102b2:
102b1、判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内,若否,则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除。
在本实施例中,举例来说,大豆的株高性状参考值为30~180cm,本实施例中无数据超出该范围,故无需剔除。
102b2、将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除。
其中,所述离群性状特征为满足第一公式的性状特征,所述第一公式
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
举例来说,对于品鉴亩产这个性状特征,首先计算品鉴亩产的平均值,结果为176.624;再计算品鉴亩产的标准差,结果为20.213;在本实施例中,K取3,则品鉴亩产正常取值范围为176.624-3×20.213至176.624+3×20.213,即115.985~237.263kg,实施例中最小取值为134.82kg,最大取值为232.53kg,皆未超出正常取值范围,即本实施例中的品鉴亩产数据没有离群点。若有离群点,则需将该数据剔除。
102c、对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据集。
在具体应用中,所述步骤102c可以包括:
根据第二公式,对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据集。
其中,所述第二公式为:
Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,T′i为Ti经归一化处理后的结果,min(Ti)为性状特征Ti中的最小值,max(Ti)为性状特征Ti中的最大值。
以本实施例中的品鉴亩产数据为例,材料#1的品鉴亩产数据归一化为(146.75-134.82)/(232.53-134.82)=0.122,完成数据预处理之后的实施例数据如表2所示。
表2
103、根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型。
在具体应用中,上述步骤103包括图中未示出的步骤S1-S7:
S1、将预处理后的数据集记为D0,D0中的特征集合记为T0,根据D0与T0生成根节点root,并令所述根节点root作为当前节点。
在本实施例中,材料#1至材料#100构成集合D0,包括生育期、小区产量等所有34个性状构成T0,生成根节点root并令其为当前节点。
S2、根据第三公式,计算得到D0的基尼Gini指标。
其中,所述第三公式为:
其中,a为所述实验结果r中不同取值的个数,Pi为D0中数据对应实验结果ri的概率。
在本实施例中,当前节点为所述根节点时,对应实验结果为升、留、汰的概率分别为0.36、0.44、0.20,因此,D0的Gini指标为0.6368。
S3、判断D0是否小于预设阈值G或T0中性状的个数是否为0,若D0小于预设阈值且T0中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果ri为该节点的实验结果;若D0大于等于预设阈值且T0中性状的个数不为0,则执行步骤S4-S7。
在本实施例中,取预设阈值G=0.20为划分结束阈值,当前节点为所述根节点时,Gini(D0)=0.6368,|T0|=34,需要继续执行步骤S4至S7,完成决策树模型的构建。
S4、计算T0中各性状特征与实验结果的排序相关性。
在具体应用中,所述步骤S4具体包括步骤S41-S46:
S41、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k。
在本实施例中,数据都属于同一实验,因此,D0中材料皆划入唯一子集S1。
S42、从T0中选择性状特征tn,并根据所述性状特征tn,将Sm中的数据的大小进行排序,将升序排序结果记为将降序排序结果记为
在本实施例中,首先选择t1=生育期,进行相关性计算。
S43、根据实验结果r,分别对所述和中的tn取值相同的数据进行降序微调。
S44、根据所述和和第四公式,分别计算所述Sm中数据的性状特征tn与实验结果r的相关性。
其中,所述第四公式为:
其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得到的,所述第五公式为:
所述第六公式为:
其中,q为所述Sm中实验材料的编号,r(p)为所述或中第p位置的实验材料对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第p位置对应的实验结果,ω(n,m)依其使用所述或中的排序结果分别记为ω0(n,m)或ω1(n,m)。
在本实施例中,ω0(1,1)=44.89,ω1(1,1)=45.78。
S45、根据第七公式,获取D0中性状特征tn的相关性ω(n)。
其中,所述第七公式为:
ω(n)=max{ω0(n),ω1(n)},
其中,ω0(n)是通过第八公式计算得到的,ω1(n)是通过第九公式计算得到的,所述第八公式为:
所述第九公式为:
其中,|Sm|是Sm中实验材料的个数。
在本实施例中,只存在唯一实验,因此:ω0(1)=ω0(1,1)=44.89,ω1(1)=ω1(1,1)=45.78,ω(1)=max{ω0(1),ω1(1)}=45.78。
S46、重复步骤S42至S45,直至获取所述T0中所有性状特征的相关性。
S5、取T0中与实验结果排序相关性最大的性状特征作为当前节点的划分性状Ts。
在本实施例中,与实验结果排序相关性最大的性状特征为小区产量,其相关性为0.98,因此根节点的划分性状Ts为小区产量。
S6、根据划分性状Ts计算划分阈值vs,并根据vs将D0划分为两个集合D1、D2。
在具体应用中,所述步骤S6具体包括步骤S61-S68:
S61、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k。
在本实施例中,数据都属于同一实验,因此,D0中材料皆划入唯一子集S1。
S62、根据所述划分性状Ts的大小,将所述Sm中的数据进行升序排序。
本实施例中,对所述根节点计算划分阈值时,需对S1中的数据依划分性状小区产量的大小进行升序排序。
S63、根据筛选条件,对排序后的Sm中的数据进行筛选。
其中,所述筛选条件为:
sm(n)≠sm(n+1)
其中,sm(n)为Sm中第n个数据的划分性状Ts的取值。
在本实施例中,将每一个小区产量数据值对应的最后一条数据筛选出来。例如:s1(1)=0,s1(3)=0.027,s1(4)=0.075。
S64、根据满足所述筛选条件的sm(n),通过第十公式计算候选划分阈值vm(x)。
其中,所述第十公式为:
在本实施例中,利用所有筛选出数据的Ts取值计算候选划分阈值,举例来说:
S65、针对所有候选划分阈值vm(x),通过第十一公式计算使用所有候选划分阈值vm(x)进对所述Sm进行划分后的Gini指标Ginis(vm(x))。
其中,所述第十一公式为:
其中,Sm1、Sm2为使用vm(x)对Sm进行划分后的数据集合。
在本实施例中,在根节点使用v1(1)和v1(2)划分后的Gini指标为:
S66、对所述Sm,获取使Ginis(vm(x))取最小值的vm(x),根据使Ginis(vm(x))取最小值的vm(x),通过第十二公式计算vs(m)。
其中,所述第十二公式为:
其中,为Sm对应实验e中所有实验材料划分性状Ts的平均值。
在本实施例中,所有实验材料均属唯一实验,其在根节点划分性状小区产量的平均值当vm(x)=0.4191时,Ginis(vm(x))取最小值0.4211,因此,vs(1)=0.4191-0.4277=-0.0086。
S67、根据所述vs(m),通过第十三公式计算划分阈值vs。
其中,所述第十三公式为:
在本实施例中,所有实验材料属于同一实验,因此vs=vs(1)=-0.0086。
S68、判断D0中的数据是否满足第一条件,将D0中满足所述第一条件的数据划入子集D1,将D0中不满足所述第一条件的数据划入子集D2。
其中,所述第一条件为:
在本实施例中,将所有小区产量不大于 的实验材料划入D1,其余划入D2。
S7、从T0中移除Ts,分别令D1、D2作为D0,重复S2至S7建立其对应的决策树模型,并将结果分别作为当前节点的左、右子树。
在本实施例中,从T0移除小区产量,分别以S68中划分所得的D1、D2为新的D0,重复步骤S2至S7构建相应决策树模型,作为根节点的左、右子树,参见图2,图2为使用本实施例构建的决策树模型示例的示意图。
104、根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果。
在具体应用中,上述步骤104包括步骤P1-P5:
P1、从所述作物育种评价模型中获取具有相同育种目标的决策树,令所述决策树的根节点为当前节点N0。
本实施例使用图2所示决策树,以其根节点为当前节点N0。
P2、判断当前节点N0是否为叶子节点,若是,则该节点的评价结果即为待评价作物性状数据的评价结果,若否,则执行步骤P3至P5;
P3、获取所述当前节点N0的划分性状Ts及划分阈值vs。
在本实施例中,根节点的划分性状为小区产量,划分阈值vs为-0.0086。
P4、利用与所述待评价作物性状数据为同一实验的所有数据,计算该实验的划分性状Ts的平均值s。
在本实施例中,视十条测试数据为待评价实验中的所有数据,其小区产量平均值为0.4569。
P5、判断所述待评价作物性状数据的划分性状Ts的取值sd是否满足:若是,则令N0的左节点为当前节点,重复P2至P5步骤,若否,则令N0的右节点为当前节点,重复P2至P5步骤。
本实施例中材料#101的小区产量为0.4169,该值小于因此选择根节点的左节点为当前节点,继续步骤P2至P5,直至寻找到叶子节点,最终叶子节点评价结果为{留},即使用基于决策树的作物育种评价方法将材料#101评价为{留}。在实验中,该材料的真实评价结果亦为{留}。
本实施例的基于决策树的作物育种评价方法,将作物育种过程中累积的评价数据引入育种评价模型的训练中,作为构建育种评价决策树的指导数据,可以有效地利用已有育种经验数据指导后续育种工作,辅助育种家实现后续的作物育种的评价工作。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (8)
1.一种基于决策树的作物育种评价方法,其特征在于,包括:
以育种目标为筛选条件,构建作物育种评价数据集,所述数据集共享相同的育种目标,其中,所述数据集中的每个数据均以四元数据类型{实验材料编号,性状特征集合T,所属实验e,实验结果r}来表示;
对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;
根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型;
根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果;
所述根据所述预处理后的数据集,使用决策树构建性状特征与实验结果间的模型,得到针对育种目标的基于决策树的作物育种评价模型,包括:
S1、将预处理后的数据集记为D0,D0中的特征集合记为T0,根据D0与T0生成根节点root,并令所述根节点root作为当前节点;
S2、根据第三公式,计算得到D0的基尼Gini指标;
S3、判断D0是否小于预设阈值G且T0中性状的个数是否为0,若D0小于预设阈值且T0中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果ri为该节点的实验结果;若D0大于等于预设阈值且T0中性状的个数不为0,则执行步骤S4-S7;
S4、计算T0中各性状特征与实验结果的排序相关性;
S5、取T0中与实验结果排序相关性最大的性状特征作为当前节点的划分性状Ts;
S6、根据划分性状Ts计算划分阈值vs,并根据vs将D0划分为两个集合D1、D2;
S7、从T0中移除Ts,分别令D1、D2作为D0,重复S2至S7建立其对应的决策树模型,并将结果分别作为当前节点的左、右子树;
其中,所述第三公式为:
<mrow>
<mi>G</mi>
<mi>i</mi>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mn>0</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>a</mi>
</munderover>
<msubsup>
<mi>P</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
</mrow>
其中,a为所述实验结果r中不同取值的个数,Pi为D0中数据对应实验结果ri的概率。
2.根据权利要求1所述的方法,其特征在于,所述对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集,包括:
对所述数据集中的性状特征集合T中的每种性状进行规范化处理;
对经过规范化处理之后的性状特征集合T进行去噪处理;
对经过去噪处理之后的性状特征集合T进行归一化处理,得到预处理后的数据集。
3.根据权利要求2所述的方法,其特征在于,所述规范化处理包括:统一量化方式,和/或统一计量单位,和/或统一表现形式。
4.根据权利要求2所述的方法,其特征在于,所述对经过规范化处理之后的性状特征集合T进行去噪处理,包括:
判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内,若否,则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除;
将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除;
其中,所述离群性状特征为满足第一公式的性状特征,所述第一公式
<mrow>
<mo>|</mo>
<msub>
<mi>T</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mover>
<msub>
<mi>T</mi>
<mi>j</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
<mo>></mo>
<mi>K</mi>
<mi>&sigma;</mi>
</mrow>
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
5.根据权利要求2所述的方法,其特征在于,所述对经过去噪处理之后的性状特征集合T进行归一化处理,具体包括:
根据第二公式,对经过去噪处理之后的性状特征集合T进行归一化处理;
其中,所述第二公式为:
<mrow>
<msubsup>
<mi>T</mi>
<mi>i</mi>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>max</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,Ti'为Ti经归一化处理后的结果,min(Ti)为性状特征Ti中的最小值,max(Ti)为性状特征Ti中的最大值。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4,具体包括:
S41、根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k;
S42、从T0中选择性状特征tn,并根据所述性状特征tn,将Sm中的数据的大小进行排序,将升序排序结果记为将降序排序结果记为
S43、根据实验结果r,分别对所述和中的tn取值相同的数据进行降序微调;
S44、根据所述和和第四公式,分别计算所述Sm中数据的性状特征tn与实验结果r的相关性;
S45、根据第七公式,获取D0中性状特征tn的相关性ω(n);
S46、重复步骤S42至S45,直至获取所述T0中所有性状特征的相关性;
其中,所述第四公式为:
<mrow>
<mi>&omega;</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>D</mi>
<mi>C</mi>
<mi>G</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>I</mi>
<mi>D</mi>
<mi>C</mi>
<mi>G</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得到的,所述第五公式为:
<mrow>
<mi>D</mi>
<mi>C</mi>
<mi>G</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>p</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>q</mi>
</munderover>
<mfrac>
<mrow>
<msup>
<mn>2</mn>
<mrow>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
所述第六公式为:
<mrow>
<mi>I</mi>
<mi>D</mi>
<mi>C</mi>
<mi>G</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>p</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>q</mi>
</munderover>
<mfrac>
<mrow>
<msup>
<mn>2</mn>
<mrow>
<msup>
<mi>r</mi>
<mo>*</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,q为所述Sm中实验材料的编号,r(p)为所述或中第p位置的实验材料对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第p位置对应的实验结果,ω(n,m)依其使用所述或中的排序结果分别记为ω0(n,m)或ω1(n,m);
所述第七公式为:
ω(n)=max{ω0(n),ω1(n)},
其中,ω0(n)是通过第八公式计算得到的,ω1(n)是通过第九公式计算得到的,所述第八公式为:
<mrow>
<msup>
<mi>&omega;</mi>
<mn>0</mn>
</msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<mo>&times;</mo>
<msup>
<mi>&omega;</mi>
<mn>0</mn>
</msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
所述第九公式为:
<mrow>
<msup>
<mi>&omega;</mi>
<mn>1</mn>
</msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<mo>&times;</mo>
<msup>
<mi>&omega;</mi>
<mn>1</mn>
</msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,|Sm|是Sm中实验材料的个数。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6,具体包括:
根据所属实验e将D0划分为k个子集,每个子集中的数据是同一次实验的数据,记为Sm,1≤m≤k;
根据所述划分性状Ts的大小,将所述Sm中的数据进行升序排序;
根据筛选条件,对排序后的Sm中的数据进行筛选;
根据满足所述筛选条件的sm(n),通过第十公式计算候选划分阈值vm(x);
针对所有候选划分阈值vm(x),通过第十一公式计算使用所有候选划分阈值vm(x)进对所述Sm进行划分后的Gini指标Ginis(vm(x));
对所述Sm,获取使Ginis(vm(x))取最小值的vm(x),根据使Ginis(vm(x))取最小值的vm(x),通过第十二公式计算vs(m);
根据所述vs(m),通过第十三公式计算划分阈值vs:
判断D0中的数据是否满足第一条件,将D0中满足所述第一条件的数据划入子集D1,将D0中不满足所述第一条件的数据划入子集D2;
其中,所述筛选条件为:
sm(n)≠sm(n+1)
其中,sm(n)为Sm中第n个数据的划分性状Ts的取值;
所述第十公式为:
<mrow>
<msub>
<mi>v</mi>
<mi>m</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
<mo>+</mo>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
所述第十一公式为:
<mrow>
<msub>
<mi>Gini</mi>
<mi>s</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mi>m</mi>
</msub>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>m</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mi>G</mi>
<mi>i</mi>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>m</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>m</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mi>G</mi>
<mi>i</mi>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>m</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,Sm1、Sm2为使用vm(x)对Sm进行划分后的数据集合;
所述第十二公式为:
<mrow>
<msub>
<mi>v</mi>
<mi>s</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>v</mi>
<mi>m</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mover>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
</mrow>
其中,为Sm对应实验e中所有实验材料划分性状Ts的平均值;
所述第十三公式为:
<mrow>
<msub>
<mi>v</mi>
<mi>s</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>m</mi>
<mo>&le;</mo>
<mi>k</mi>
</mrow>
</munder>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<mo>&CenterDot;</mo>
<msub>
<mi>v</mi>
<mi>s</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>m</mi>
<mo>&le;</mo>
<mi>k</mi>
</mrow>
</munder>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
所述第一条件为:
<mrow>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mover>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>+</mo>
<msub>
<mi>v</mi>
<mi>s</mi>
</msub>
<mo>.</mo>
</mrow>
8.根据权利要求1所述的方法,其特征在于,所述根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析,并获得评价结果,包括:
P1、从所述作物育种评价模型中获取具有相同育种目标的决策树,令所述决策树的根节点为当前节点N0;
P2、判断当前节点N0是否为叶子节点,若是,则该节点的评价结果即为待评价作物性状数据的评价结果,若否,则执行步骤P3至P5;
P3、获取所述当前节点N0的划分性状Ts及划分阈值vs;
P4、利用与所述待评价作物性状数据为同一实验的所有数据,计算该实验的划分性状Ts的平均值
P5、判断所述待评价作物性状数据的划分性状Ts的取值sd是否满足:若是,则令N0的左节点为当前节点,重复P2至P5步骤,若否,则令N0的右节点为当前节点,重复P2至P5步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510347717.8A CN104951987B (zh) | 2015-06-19 | 2015-06-19 | 基于决策树的作物育种评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510347717.8A CN104951987B (zh) | 2015-06-19 | 2015-06-19 | 基于决策树的作物育种评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951987A CN104951987A (zh) | 2015-09-30 |
CN104951987B true CN104951987B (zh) | 2018-04-10 |
Family
ID=54166623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510347717.8A Active CN104951987B (zh) | 2015-06-19 | 2015-06-19 | 基于决策树的作物育种评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951987B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967321A (zh) * | 2017-11-23 | 2018-04-27 | 北京信息科技大学 | 一种基于层级式支持向量机的作物育种评价方法 |
CN110378591A (zh) * | 2019-07-11 | 2019-10-25 | 仲恺农业工程学院 | 一种基于决策树的作物育种信息测定系统及方法 |
CN111260259B (zh) * | 2020-02-28 | 2023-06-30 | 北京农业信息技术研究中心 | 基于耦合表示的作物育种评价方法及装置 |
CN114780599A (zh) * | 2022-04-06 | 2022-07-22 | 四川农业大学 | 基于小麦品比试验数据的综合分析系统 |
CN116138161A (zh) * | 2022-09-08 | 2023-05-23 | 广西壮族自治区亚热带作物研究所(广西亚热带农产品加工研究所) | 一种农作物抗旱育种筛选试验方法 |
CN117789893B (zh) * | 2024-02-27 | 2024-04-30 | 河北省农林科学院农业信息与经济研究所 | 基于相关性分析的育种数据预测方法 |
CN117933580B (zh) * | 2024-03-25 | 2024-05-31 | 河北省农林科学院农业信息与经济研究所 | 用于小麦育种管理系统的育种材料优化评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761428A (zh) * | 2014-01-07 | 2014-04-30 | 北京农业信息技术研究中心 | 一种用于育种材料筛选的育种数据处理方法 |
CN104572900A (zh) * | 2014-12-25 | 2015-04-29 | 北京农业信息技术研究中心 | 一种作物育种评价的性状特征选择方法 |
-
2015
- 2015-06-19 CN CN201510347717.8A patent/CN104951987B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761428A (zh) * | 2014-01-07 | 2014-04-30 | 北京农业信息技术研究中心 | 一种用于育种材料筛选的育种数据处理方法 |
CN104572900A (zh) * | 2014-12-25 | 2015-04-29 | 北京农业信息技术研究中心 | 一种作物育种评价的性状特征选择方法 |
Non-Patent Citations (1)
Title |
---|
基于数据挖掘的红色籽用西瓜经济性状遗传规律的研究;樊建峰;《中国优秀硕士学位论文全文数据库 (农业科技辑)》;20080915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104951987A (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951987B (zh) | 基于决策树的作物育种评价方法 | |
Nagy et al. | Predicting dropout in higher education based on secondary school performance | |
CN107273490B (zh) | 一种基于知识图谱的组合错题推荐方法 | |
CN102521656B (zh) | 非平衡样本分类的集成迁移学习方法 | |
Pandey et al. | A decision tree algorithm pertaining to the student performance analysis and prediction | |
CN108549954A (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN104750819B (zh) | 一种基于词分组排序算法的生物医学文献检索方法及系统 | |
CN103810101B (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN106886543A (zh) | 结合实体描述的知识图谱表示学习方法和系统 | |
CN107622272A (zh) | 一种图像分类方法及装置 | |
CN107103332A (zh) | 一种面向大规模数据集的相关向量机分类方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN106651574A (zh) | 一种个人信用评估方法及装置 | |
CN106203534A (zh) | 一种基于Boosting的代价敏感软件缺陷预测方法 | |
CN106503731A (zh) | 一种基于条件互信息和K‑means的无监督特征选择方法 | |
CN106126972A (zh) | 一种用于蛋白质功能预测的层级多标签分类方法 | |
CN106951499A (zh) | 一种基于翻译模型的知识图谱表示方法 | |
CN110059716A (zh) | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 | |
CN106127242A (zh) | 基于集成学习的年极端降水预测系统及其预测方法 | |
CN109558893A (zh) | 基于重采样池的快速集成污水处理故障诊断方法 | |
CN107480141A (zh) | 一种基于文本和开发者活跃度的软件缺陷辅助分派方法 | |
CN107545038A (zh) | 一种文本分类方法与设备 | |
CN107451596A (zh) | 一种网络节点分类方法及装置 | |
Athani et al. | Student academic performance and social behavior predictor using data mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |