CN104951987B

CN104951987B - 基于决策树的作物育种评价方法

Info

Publication number: CN104951987B
Application number: CN201510347717.8A
Authority: CN
Inventors: 赵向宇; 刘忠强; 王书锋; 潘守慧; 王志彬; 王开义
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2018-04-10
Anticipated expiration: 2035-06-19
Also published as: CN104951987A

Abstract

本发明提供一种基于决策树的作物育种评价方法，该方法包括：以育种目标为筛选条件，构建作物育种评价数据集，所述数据集共享相同的育种目标，其中，所述数据集中的每个数据均以四元数据类型{实验材料编号，性状特征集合T，所属实验e，实验结果r}来表示；对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集；根据所述预处理后的数据集，使用决策树构建性状特征与实验结果间的模型，得到针对育种目标的基于决策树的作物育种评价模型；根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果。上述方法能利用育种过程中的评价结果信息，以实现后续的作物育种的评价。

Description

基于决策树的作物育种评价方法

技术领域

本发明涉及作物育种技术领域，尤其涉及一种基于决策树的作物育种评价方法。

背景技术

作物育种技术通过改良作物的遗传特性，选择培育高产优质品种，是种业创新和发展的根本动力，对促进我国农业长期稳定发展、保障国家粮食安全具有十分重要的意义。作物育种评价从培育品种中评价、选择满足育种目标的优良品种，是作物育种技术的重要环节，是对育种效果的有效保证。

随着我国粮食生产形势的变化，作物育种评价从以产量为主的方式向综合考虑产量、品质、抗逆性等因素转变。与此同时，关联分析、主成分分析、层次分析法、模糊综合评价、灰色关联评价等多种信息技术皆在作物育种中发挥了重要的作用。这些技术通过对作物性状数据的分析利用有效提升了作物育种评价技术的数据化、信息化程度，推动作物育种评价从经验化育种向数据化、信息化育种转变。然而，育种过程中的评价结果信息作为重要的专家经验，却仍未用在作物育种评价的过程中。本发明使用决策树对育种评价结果信息与作物性状信息构建模型，提出一种基于决策树的作物育种评价方法。

鉴于此，如何利用育种过程中的评价结果信息，以实现后续的作物育种的评价成为当前需要解决的技术问题。

发明内容

针对现有技术中的缺陷，本发明提供一种基于决策树的作物育种评价方法，将作物育种过程中的评价数据引入育种评价模型的训练中，作为构建育种评价决策树的指导数据，可以有效地利用已有育种经验数据指导后续育种工作，辅助育种家实现后续的作物育种的评价工作。

第一方面，本发明提供一种基于决策树的作物育种评价方法，包括：

以育种目标为筛选条件，构建作物育种评价数据集，所述数据集共享相同的育种目标，其中，所述数据集中的每个数据均以四元数据类型{实验材料编号，性状特征集合T，所属实验e，实验结果r}来表示；

对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集；

根据所述预处理后的数据集，使用决策树构建性状特征与实验结果间的模型，得到针对育种目标的基于决策树的作物育种评价模型；

根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果。

可选地，所述对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集，包括：

对所述数据集中的性状特征集合T中的每种性状进行规范化处理；

对经过规范化处理之后的性状特征集合T进行去噪处理；

对经过去噪处理之后的性状特征集合T进行归一化处理，得到预处理后的数据集。

可选地，所述规范化处理包括：统一量化方式，和/或统一计量单位，和/或统一表现形式。

可选地，所述对经过规范化处理之后的性状特征集合T进行去噪处理，包括：

判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内，若否，则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除；

将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除；

其中，所述离群性状特征为满足第一公式的性状特征，所述第一公式

其中，为T_j的平均值，σ为性状特征T_j的标准差，K为预设参数，T_j为离群性状特征，j为不大于性状特征集合T中元素个数的任一正整数。

可选地，所述对经过去噪处理之后的性状特征集合T进行归一化处理，具体包括：

根据第二公式，对经过去噪处理之后的性状特征集合T进行归一化处理；

其中，所述第二公式为：

T_i为性状特征集合T中第i个性状特征，i为不大于性状特征集合T中元素个数的任一正整数，T′_i为T_i经归一化处理后的结果，min(T_i)为性状特征T_i中的最小值，max(T_i)为性状特征T_i中的最大值。

可选地，所述根据所述预处理后的数据集，使用决策树构建性状特征与实验结果间的模型，得到针对育种目标的基于决策树的作物育种评价模型，包括：

S1、将预处理后的数据集记为D₀，D₀中的特征集合记为T₀，根据D₀与T₀生成根节点root，并令所述根节点root作为当前节点；

S2、根据第三公式，计算得到D₀的基尼Gini指标；

S3、判断D₀是否小于预设阈值G或T₀中性状的个数是否为0，若D₀小于预设阈值且T₀中性状的个数为0，则将当前节点标记为叶子节点，取P_i中的最大值对应的实验结果r_i为该节点的实验结果；若D₀大于等于预设阈值且T₀中性状的个数不为0，则执行步骤S4-S7；

S4、计算T₀中各性状特征与实验结果的排序相关性；

S5、取T₀中与实验结果排序相关性最大的性状特征作为当前节点的划分性状T_s；

S6、根据划分性状T_s计算划分阈值v_s，并根据v_s将D₀划分为两个集合D₁、D₂；

S7、从T₀中移除T_s，分别令D₁、D₂作为D₀，重复S2至S7建立其对应的决策树模型，并将结果分别作为当前节点的左、右子树；

其中，所述第三公式为：

其中，a为所述实验结果r中不同取值的个数，P_i为D₀中数据对应实验结果r_i的概率。

可选地，所述步骤S4，具体包括：

S41、根据所属实验e将D₀划分为k个子集，每个子集中的数据是同一次实验的数据，记为S_m，1≤m≤k；

S42、从T₀中选择性状特征t_n，并根据所述性状特征t_n，将S_m中的数据的大小进行排序，将升序排序结果记为将降序排序结果记为

S43、根据实验结果r，分别对所述和中的t_n取值相同的数据进行降序微调；

S44、根据所述和和第四公式，分别计算所述S_m中数据的性状特征t_n与实验结果r的相关性；

S45、根据第七公式，获取D₀中性状特征t_n的相关性ω(n)；

S46、重复步骤S42至S45，直至获取所述T₀中所有性状特征的相关性；

其中，所述第四公式为：

其中，DCG(n,m)是通过第五公式计算得到的，IDCG(n,m)是通过第六公式计算得到的，所述第五公式为：

所述第六公式为：

其中，q为所述S_m中实验材料的编号，r(p)为所述或中第p位置的实验材料对应的实验结果，r*(p)为是所述S_m中实验材料根据实验结果降序排序时第p位置对应的实验结果，ω(n,m)依其使用所述或中的排序结果分别记为ω⁰(n,m)或ω¹(n,m)；

所述第七公式为：

ω(n)＝max{ω⁰(n),ω¹(n)}，

其中，ω⁰(n)是通过第八公式计算得到的，ω¹(n)是通过第九公式计算得到的，所述第八公式为：

所述第九公式为：

其中，|S_m|是S_m中实验材料的个数。

可选地，所述步骤S6，具体包括：

根据所属实验e将D₀划分为k个子集，每个子集中的数据是同一次实验的数据，记为S_m，1≤m≤k；

根据所述划分性状T_s的大小，将所述S_m中的数据进行升序排序；

根据筛选条件，对排序后的S_m中的数据进行筛选；

根据满足所述筛选条件的s_m(n)，通过第十公式计算候选划分阈值v_m(x)；

针对所有候选划分阈值v_m(x)，通过第十一公式计算使用所有候选划分阈值v_m(x)进对所述S_m进行划分后的Gini指标Gini_s(v_m(x))；

对所述S_m，获取使Gini_s(v_m(x))取最小值的v_m(x)，根据使Gini_s(v_m(x))取最小值的v_m(x)，通过第十二公式计算v_s(m)；

根据所述v_s(m)，通过第十三公式计算划分阈值v_s：

判断D₀中的数据是否满足第一条件，将D₀中满足所述第一条件的数据划入子集D₁，将D₀中不满足所述第一条件的数据划入子集D₂；

其中，所述筛选条件为：

s_m(n)≠s_m(n+1)

其中，s_m(n)为S_m中第n个数据的划分性状T_s的取值；

所述第十公式为：

所述第十一公式为：

其中，S_m1、S_m2为使用v_m(x)对S_m进行划分后的数据集合；

所述第十二公式为：

其中，为S_m对应实验e中所有实验材料划分性状Ts的平均值；

所述第十三公式为：

所述第一条件为：

可选地，所述根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果，包括：

P1、从所述作物育种评价模型中获取具有相同育种目标的决策树，令所述决策树的根节点为当前节点N₀；

P2、判断当前节点N₀是否为叶子节点，若是，则该节点的评价结果即为待评价作物性状数据的评价结果，若否，则执行步骤P3至P5；

P3、获取所述当前节点N₀的划分性状T_s及划分阈值v_s；

P4、利用与所述待评价作物性状数据为同一实验的所有数据，计算该实验的划分性状T_s的平均值

P5、判断所述待评价作物性状数据的划分性状T_s的取值s_d是否满足：若是，则令N₀的左节点为当前节点，重复P2至P5步骤，若否，则令N₀的右节点为当前节点，重复P2至P5步骤。

由上述技术方案可知，本发明的基于决策树的作物育种评价方法，将作物育种过程中的评价数据引入育种评价模型的训练中，作为构建育种评价决策树的指导数据，可以有效地利用已有育种经验数据指导后续育种工作，辅助育种家实现后续的作物育种的评价工作。

附图说明

图1为本发明实施例提供的一种基于决策树的作物育种评价方法的流程示意图；

图2为本发明实施例提供的构建的决策树模型示例的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

第一实施例

图1示出了本发明实施例提供的一种基于决策树的作物育种评价方法的流程示意图，如图1所示，本实施例的基于决策树的作物育种评价方法如下所述。

101、以育种目标为筛选条件，构建作物育种评价数据集，所述数据集共享相同的育种目标，其中，所述数据集中的每个数据均以四元数据类型{实验材料编号，性状特征集合T，所属实验e，实验结果r}来表示。

102、对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集。

103、根据所述预处理后的数据集，使用决策树构建性状特征与实验结果间的模型，得到针对育种目标的基于决策树的作物育种评价模型。

104、根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果。

本实施例的基于决策树的作物育种评价方法，将作物育种过程中的评价数据引入育种评价模型的训练中，作为构建育种评价决策树的指导数据，可以有效地利用已有育种经验数据指导后续育种工作，辅助育种家实现后续的作物育种的评价工作。

在具体应用中，上述步骤102可以包括图中未示出的步骤102a-102c：

102a、对所述数据集中的性状特征集合T中的每种性状进行规范化处理。

其中，所述规范化处理包括：统一量化方式，和/或统一计量单位，和/或统一表现形式。

102b、对经过规范化处理之后的性状特征集合T进行去噪处理。

在具体应用中，所述步骤102b可以包括：

102c、对经过去噪处理之后的性状特征集合T进行归一化处理，得到预处理后的数据集。

对所述数据集中的性状特征集合T进行预处理，可以提高对作物育种评价的历史数据的利用效率和效果。

在具体应用中，所述步骤102c中的“对经过去噪处理之后的性状特征集合T进行归一化处理”可以包括：

其中，所述第二公式为：

在具体应用中，上述步骤103可以包括图中未示出的步骤S1-S7：

S1、将预处理后的数据集记为D₀，D₀中的特征集合记为T₀，根据D₀与T₀生成根节点root，并令所述根节点root作为当前节点。

S2、根据第三公式，计算得到D₀的基尼Gini指标。

其中，所述第三公式为：

S3、判断D₀是否小于预设阈值G或T₀中性状的个数是否为0，若D₀小于预设阈值且T₀中性状的个数为0，则将当前节点标记为叶子节点，取P_i中的最大值对应的实验结果r_i为该节点的实验结果；若D₀大于等于预设阈值且T₀中性状的个数不为0，则执行步骤S4-S7。

S4、计算T₀中各性状特征与实验结果的排序相关性。

在具体应用中，所述步骤S4可以具体包括图中未示出的步骤S41-S46：

S41、根据所属实验e将D₀划分为k个子集，每个子集中的数据是同一次实验的数据，记为S_m，1≤m≤k。

S43、根据实验结果r，分别对所述和中的t_n取值相同的数据进行降序微调。

S44、根据所述和和第四公式，分别计算所述S_m中数据的性状特征t_n与实验结果r的相关性。

其中，所述第四公式为：

所述第六公式为：

其中，q为所述S_m中实验材料的编号，r(p)为所述或中第p位置的实验材料对应的实验结果，r*(p)为是所述S_m中实验材料根据实验结果降序排序时第p位置对应的实验结果，ω(n,m)依其使用所述或中的排序结果分别记为ω⁰(n,m)或ω¹(n,m)。

S45、根据第七公式，获取D₀中性状特征t_n的相关性ω(n)。

其中，所述第七公式为：

ω(n)＝max{ω⁰(n),ω¹(n)}，

所述第九公式为：

其中，|S_m|是S_m中实验材料的个数。

S46、重复步骤S42至S45，直至获取所述T₀中所有性状特征的相关性。

S5、取T₀中与实验结果排序相关性最大的性状特征作为当前节点的划分性状T_s。

S6、根据划分性状T_s计算划分阈值v_s，并根据v_s将D₀划分为两个集合D₁、D₂。

在具体应用中，所述步骤S6可以具体包括图中未示出的步骤S61-S68：

S61、根据所属实验e将D₀划分为k个子集，每个子集中的数据是同一次实验的数据，记为S_m，1≤m≤k。

S62、根据所述划分性状T_s的大小，将所述S_m中的数据进行升序排序。

S63、根据筛选条件，对排序后的S_m中的数据进行筛选。

其中，所述筛选条件为：

s_m(n)≠s_m(n+1)

其中，s_m(n)为S_m中第n个数据的划分性状T_s的取值。

S64、根据满足所述筛选条件的s_m(n)，通过第十公式计算候选划分阈值v_m(x)。

其中，所述第十公式为：

S65、针对所有候选划分阈值v_m(x)，通过第十一公式计算使用所有候选划分阈值v_m(x)进对所述S_m进行划分后的Gini指标Gini_s(v_m(x))。

其中，所述第十一公式为：

其中，S_m1、S_m2为使用v_m(x)对S_m进行划分后的数据集合。

S66、对所述S_m，获取使Gini_s(v_m(x))取最小值的v_m(x)，根据使Gini_s(v_m(x))取最小值的v_m(x)，通过第十二公式计算v_s(m)。

其中，所述第十二公式为：

其中，为S_m对应实验e中所有实验材料划分性状Ts的平均值。

S67、根据所述v_s(m)，通过第十三公式计算划分阈值v_s。

其中，所述第十三公式为：

S68、判断D₀中的数据是否满足第一条件，将D₀中满足所述第一条件的数据划入子集D₁，将D₀中不满足所述第一条件的数据划入子集D₂。

其中，所述第一条件为：

在具体应用中，上述步骤104可以包括图中未示出的步骤P1-P5：

P1、从所述作物育种评价模型中获取具有相同育种目标的决策树，令所述决策树的根节点为当前节点N₀。

P2、判断当前节点N₀是否为叶子节点，若是，则该节点的评价结果即为待评价作物性状数据的评价结果，若否，则执行步骤P3至P5。

P3、获取所述当前节点N₀的划分性状T_s及划分阈值v_s。

第二实施例

为了更清楚的说明本发明，举例来说，本第二实施例可以使用大豆育种品鉴组中的实验数据(原始数据参见表1)进行具体描述。所述实验数据中取100条数据作为已评价数据构建作物育种评价数据集，令取10条数据作为未评价数据，并使用构建的决策树模型对其评价。

表1

具体地，本实施例的基于决策树的作物育种评价方法如下所述。

本实施例中育种目标皆为黄淮海夏大豆产区高产、抗病，因此数据集共享{黄淮海、夏大豆、高产、抗病}的育种目标；性状特征集合T以键值对形式表示，例如对于材料#1，其性状特征集合T为{生育期：102.0，小区产量：0.660，品鉴亩产：146.75，……，结荚习性：亚，花叶病毒盛花期：免疫}；e为所属实验，本实施例中数据都属同一实验，不失一般性，使用E1作为该实验唯一标识；r为实验结果，即当前材料在实验中的评价结果，本实施例中用序数值表示实验结果，即将{升、留、汰}转化为{3,2,1}表示，如材料#1的评价结果为汰，则表示为1。

完成本步骤101后，任意材料数据皆以一个四元数据类型表示。如材料#1可以表示为{#1，{生育期：102.0，小区产量：0.660，品鉴亩产：146.75，……，结荚习性：亚，花叶病毒盛花期：免疫}，E1，1}。

在具体应用中，本步骤102包括图中步骤102a-102c：

在本实施例中，统一量化方式主要针对枚举型性状，如花叶病毒盛花期性状主要包含{免疫，高抗，抗，感}四种性状值，可使用{9,7,5,1}对其进行量化表示。统一计量单位主要针对数值型性状，如株高性状，有些材料使用米作为计量单位，有些材料使用厘米作为计量单位，在此均换算为厘米计量。统一表现形式主要针对有多表现形式的性状，如日期型性状，既可以表示为yyyy-mm-dd，也可以表示为mm-dd-yyyy等其它形式，在此均以yyyy-mm-dd表示。

在具体应用中，所述步骤102b包括步骤102b1和102b2：

102b1、判断经过规范化处理之后的性状特征集合T中的性状特征所对应的数据是否在该性状特征的预设性状参考值范围内，若否，则将不在该性状特征的预设性状参考值范围内的经过规范化处理之后的性状特征集合T中的性状特征所对应的数据从所述数据集中剔除。

在本实施例中，举例来说，大豆的株高性状参考值为30～180cm，本实施例中无数据超出该范围，故无需剔除。

102b2、将经过规范化处理之后的性状特征集合T中的离群性状特征对应的数据从所述数据集中剔除。

举例来说，对于品鉴亩产这个性状特征，首先计算品鉴亩产的平均值，结果为176.624；再计算品鉴亩产的标准差，结果为20.213；在本实施例中，K取3，则品鉴亩产正常取值范围为176.624-3×20.213至176.624+3×20.213，即115.985～237.263kg，实施例中最小取值为134.82kg，最大取值为232.53kg，皆未超出正常取值范围，即本实施例中的品鉴亩产数据没有离群点。若有离群点，则需将该数据剔除。

在具体应用中，所述步骤102c可以包括：

根据第二公式，对经过去噪处理之后的性状特征集合T进行归一化处理，得到预处理后的数据集。

其中，所述第二公式为：

以本实施例中的品鉴亩产数据为例，材料#1的品鉴亩产数据归一化为(146.75-134.82)/(232.53-134.82)＝0.122，完成数据预处理之后的实施例数据如表2所示。

表2

在具体应用中，上述步骤103包括图中未示出的步骤S1-S7：

在本实施例中，材料#1至材料#100构成集合D₀，包括生育期、小区产量等所有34个性状构成T₀，生成根节点root并令其为当前节点。

S2、根据第三公式，计算得到D₀的基尼Gini指标。

其中，所述第三公式为：

在本实施例中，当前节点为所述根节点时，对应实验结果为升、留、汰的概率分别为0.36、0.44、0.20，因此，D₀的Gini指标为0.6368。

S3、判断D₀是否小于预设阈值G或T₀中性状的个数是否为0，若D₀小于预设阈值且T₀中性状的个数为0，则将当前节点标记为叶子节点，取P_i中的最大值对应的实验结果ri为该节点的实验结果；若D₀大于等于预设阈值且T0中性状的个数不为0，则执行步骤S4-S7。

在本实施例中，取预设阈值G＝0.20为划分结束阈值，当前节点为所述根节点时，Gini(D₀)＝0.6368，|T₀|＝34，需要继续执行步骤S4至S7，完成决策树模型的构建。

S4、计算T₀中各性状特征与实验结果的排序相关性。

在具体应用中，所述步骤S4具体包括步骤S41-S46：

在本实施例中，数据都属于同一实验，因此，D₀中材料皆划入唯一子集S₁。

在本实施例中，首先选择t₁＝生育期，进行相关性计算。

其中，所述第四公式为：

所述第六公式为：

在本实施例中，ω⁰(1,1)＝44.89，ω¹(1,1)＝45.78。

S45、根据第七公式，获取D₀中性状特征t_n的相关性ω(n)。

其中，所述第七公式为：

ω(n)＝max{ω⁰(n),ω¹(n)}，

所述第九公式为：

其中，|S_m|是S_m中实验材料的个数。

在本实施例中，只存在唯一实验，因此：ω⁰(1)＝ω⁰(1,1)＝44.89，ω¹(1)＝ω¹(1,1)＝45.78，ω(1)＝max{ω⁰(1),ω¹(1)}＝45.78。

在本实施例中，与实验结果排序相关性最大的性状特征为小区产量，其相关性为0.98，因此根节点的划分性状T_s为小区产量。

在具体应用中，所述步骤S6具体包括步骤S61-S68：

本实施例中，对所述根节点计算划分阈值时，需对S₁中的数据依划分性状小区产量的大小进行升序排序。

S63、根据筛选条件，对排序后的S_m中的数据进行筛选。

其中，所述筛选条件为：

s_m(n)≠s_m(n+1)

其中，s_m(n)为S_m中第n个数据的划分性状T_s的取值。

在本实施例中，将每一个小区产量数据值对应的最后一条数据筛选出来。例如：s₁(1)＝0，s₁(3)＝0.027，s₁(4)＝0.075。

其中，所述第十公式为：

在本实施例中，利用所有筛选出数据的T_s取值计算候选划分阈值，举例来说：

其中，所述第十一公式为：

其中，S_m1、S_m2为使用v_m(x)对S_m进行划分后的数据集合。

在本实施例中，在根节点使用v₁(1)和v₁(2)划分后的Gini指标为：

其中，所述第十二公式为：

其中，为S_m对应实验e中所有实验材料划分性状Ts的平均值。

在本实施例中，所有实验材料均属唯一实验，其在根节点划分性状小区产量的平均值当v_m(x)＝0.4191时，Gini_s(v_m(x))取最小值0.4211，因此，v_s(1)＝0.4191-0.4277＝-0.0086。

S67、根据所述v_s(m)，通过第十三公式计算划分阈值v_s。

其中，所述第十三公式为：

在本实施例中，所有实验材料属于同一实验，因此v_s＝v_s(1)＝-0.0086。

其中，所述第一条件为：

在本实施例中，将所有小区产量不大于的实验材料划入D₁，其余划入D₂。

S7、从T₀中移除T_s，分别令D₁、D₂作为D₀，重复S2至S7建立其对应的决策树模型，并将结果分别作为当前节点的左、右子树。

在本实施例中，从T₀移除小区产量，分别以S68中划分所得的D₁、D₂为新的D₀，重复步骤S2至S7构建相应决策树模型，作为根节点的左、右子树，参见图2，图2为使用本实施例构建的决策树模型示例的示意图。

在具体应用中，上述步骤104包括步骤P1-P5：

本实施例使用图2所示决策树，以其根节点为当前节点N₀。

P3、获取所述当前节点N₀的划分性状T_s及划分阈值v_s。

在本实施例中，根节点的划分性状为小区产量，划分阈值v_s为-0.0086。

P4、利用与所述待评价作物性状数据为同一实验的所有数据，计算该实验的划分性状Ts的平均值s。

在本实施例中，视十条测试数据为待评价实验中的所有数据，其小区产量平均值为0.4569。

P5、判断所述待评价作物性状数据的划分性状T_s的取值s_d是否满足：若是，则令N₀的左节点为当前节点，重复P2至P5步骤，若否，则令N0的右节点为当前节点，重复P2至P5步骤。

本实施例中材料#101的小区产量为0.4169，该值小于因此选择根节点的左节点为当前节点，继续步骤P2至P5，直至寻找到叶子节点，最终叶子节点评价结果为{留}，即使用基于决策树的作物育种评价方法将材料#101评价为{留}。在实验中，该材料的真实评价结果亦为{留}。

本实施例的基于决策树的作物育种评价方法，将作物育种过程中累积的评价数据引入育种评价模型的训练中，作为构建育种评价决策树的指导数据，可以有效地利用已有育种经验数据指导后续育种工作，辅助育种家实现后续的作物育种的评价工作。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于决策树的作物育种评价方法，其特征在于，包括：

根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果；

所述根据所述预处理后的数据集，使用决策树构建性状特征与实验结果间的模型，得到针对育种目标的基于决策树的作物育种评价模型，包括：

S2、根据第三公式，计算得到D₀的基尼Gini指标；

S3、判断D₀是否小于预设阈值G且T₀中性状的个数是否为0，若D₀小于预设阈值且T₀中性状的个数为0，则将当前节点标记为叶子节点，取P_i中的最大值对应的实验结果r_i为该节点的实验结果；若D₀大于等于预设阈值且T₀中性状的个数不为0，则执行步骤S4-S7；

S4、计算T₀中各性状特征与实验结果的排序相关性；

其中，所述第三公式为：

<mrow> <mi>G</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>a</mi> </munderover> <msubsup> <mi>P</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow>

2.根据权利要求1所述的方法，其特征在于，所述对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集，包括：

对经过规范化处理之后的性状特征集合T进行去噪处理；

3.根据权利要求2所述的方法，其特征在于，所述规范化处理包括：统一量化方式，和/或统一计量单位，和/或统一表现形式。

4.根据权利要求2所述的方法，其特征在于，所述对经过规范化处理之后的性状特征集合T进行去噪处理，包括：

<mrow> <mo>|</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>-</mo> <mover> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>|</mo> <mo>></mo> <mi>K</mi> <mi>&sigma;</mi> </mrow>

5.根据权利要求2所述的方法，其特征在于，所述对经过去噪处理之后的性状特征集合T进行归一化处理，具体包括：

其中，所述第二公式为：

<mrow> <msubsup> <mi>T</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

T_i为性状特征集合T中第i个性状特征，i为不大于性状特征集合T中元素个数的任一正整数，T_i'为T_i经归一化处理后的结果，min(T_i)为性状特征T_i中的最小值，max(T_i)为性状特征T_i中的最大值。

6.根据权利要求1所述的方法，其特征在于，所述步骤S4，具体包括：

S45、根据第七公式，获取D₀中性状特征t_n的相关性ω(n)；

其中，所述第四公式为：

<mrow> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>D</mi> <mi>C</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>I</mi> <mi>D</mi> <mi>C</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

<mrow> <mi>D</mi> <mi>C</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </munderover> <mfrac> <mrow> <msup> <mn>2</mn> <mrow> <mi>r</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

所述第六公式为：

<mrow> <mi>I</mi> <mi>D</mi> <mi>C</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </munderover> <mfrac> <mrow> <msup> <mn>2</mn> <mrow> <msup> <mi>r</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

所述第七公式为：

ω(n)＝max{ω⁰(n),ω¹(n)}，

<mrow> <msup> <mi>&omega;</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> <mo>&times;</mo> <msup> <mi>&omega;</mi> <mn>0</mn> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>

所述第九公式为：

<mrow> <msup> <mi>&omega;</mi> <mn>1</mn> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> <mo>&times;</mo> <msup> <mi>&omega;</mi> <mn>1</mn> </msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，|S_m|是S_m中实验材料的个数。

7.根据权利要求1所述的方法，其特征在于，所述步骤S6，具体包括：

根据筛选条件，对排序后的S_m中的数据进行筛选；

根据所述v_s(m)，通过第十三公式计算划分阈值v_s：

其中，所述筛选条件为：

s_m(n)≠s_m(n+1)

其中，s_m(n)为S_m中第n个数据的划分性状T_s的取值；

所述第十公式为：

所述第十一公式为：

其中，S_m1、S_m2为使用v_m(x)对S_m进行划分后的数据集合；

所述第十二公式为：

<mrow> <msub> <mi>v</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>-</mo> <mover> <msub> <mi>s</mi> <mi>m</mi> </msub> <mo>&OverBar;</mo> </mover> </mrow>

其中，为S_m对应实验e中所有实验材料划分性状Ts的平均值；

所述第十三公式为：

<mrow> <msub> <mi>v</mi> <mi>s</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>m</mi> <mo>&le;</mo> <mi>k</mi> </mrow> </munder> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> <mo>&CenterDot;</mo> <msub> <mi>v</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>m</mi> <mo>&le;</mo> <mi>k</mi> </mrow> </munder> <mo>|</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

所述第一条件为：

<mrow> <msub> <mi>s</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mover> <msub> <mi>s</mi> <mi>m</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>+</mo> <msub> <mi>v</mi> <mi>s</mi> </msub> <mo>.</mo> </mrow>

8.根据权利要求1所述的方法，其特征在于，所述根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进行分析，并获得评价结果，包括：

P3、获取所述当前节点N₀的划分性状T_s及划分阈值v_s；