CN104572900A

CN104572900A - 一种作物育种评价的性状特征选择方法

Info

Publication number: CN104572900A
Application number: CN201410827260.6A
Authority: CN
Inventors: 赵向宇; 刘忠强; 黄珊; 王开义; 刘超
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-29
Anticipated expiration: 2034-12-25
Also published as: CN104572900B

Abstract

本发明公开一种作物育种评价的性状特征选择方法，该方法包括：S1、构建作物育种评价数据集，数据集中的每个数据均包括：实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r；S2、对数据集中的性状特征集合T进行预处理；S3、根据预处理后的数据集中每个数据的育种目标集合G，从预处理后的数据集中筛选训练样本集及候选性状特征集合；S4、利用训练样本集中的数据，计算候选性状特征集合中每个性状特征与实验结果r之间的相关性；S5、利用训练样本集中的数据，计算候选性状特征集合中性状特征间的排序相似性；S6、根据相关性以及排序相似性的计算结果，选择性状特征。

Description

一种作物育种评价的性状特征选择方法

技术领域

本发明涉及作物育种技术领域，具体涉及一种作物育种评价的性状特征选择方法。

背景技术

作物育种技术是一种通过改良作物的遗传特性，选择培育高产优质品种的技术。作物育种技术对种植业生产的发展具有十分重要的意义，一直以来受到国家、农业部门及相关从业者的广泛重视。在作物育种中，评价选育品种是否满足作物育种目标是一个重要的环节。但是作物育种评价总体上还停留在依靠育种家经验为主的阶段，缺乏对信息技术的使用。

在作物育种评价的性状特征选择环节，目前的选择方法主要包含两种类型。一是育种家依经验选择关注的重点性状特征；二是利用统计学的方法分析不同性状间的相关程度，根据相关度选择关注性状特征。但是这些方法都未与评价结果直接进行关联。

发明内容

本发明所要解决的技术问题是现有的作物育种评价的性状特征选择方法未与评价结果直接进行关联的问题。

为此目的，本发明提出一种作物育种评价的性状特征选择方法，所述方法包括：

S1、构建作物育种评价数据集，所述数据集中的每个数据均包括：实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r；

S2、对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集；

S3、根据所述预处理后的数据集中每个数据的育种目标集合G，从所述预处理后的数据集中筛选训练样本集及候选性状特征集合；

S4、利用所述训练样本集中的数据，计算所述候选性状特征集合中每个性状特征与实验结果r之间的相关性；

S5、利用所述训练样本集中的数据，计算所述候选性状特征集合中性状特征间的排序相似性；

S6、根据所述相关性以及排序相似性的计算结果，选择性状特征。

可选的，所述步骤S2具体包括：

S21、对所述数据集中的性状特征集合T中的每种性状进行规范化处理，所述规范化处理包括统一量化方式和/或统一计量单位和/或统一表现形式；

S22、对经过所述规范化处理之后的性状特征集合T进行去噪处理；

S23、对经过所述去噪处理之后的性状特征集合T进行归一化处理，所述归一化处理的公式为：

T_{i}^{'} = \frac{T_{i} - \min (T_{i})}{\max (T_{i}) - \min (T_{i})}

其中，T_i为性状特征集合T中第i个性状特征，i为不大于性状特征集合T中元素个数的任一正整数，T_i'为T_i经归一化处理后的结果，min(T_i)和max(T_i)分别为性状特征T_i的最小值和最大值。

可选的，所述步骤S22具体包括：

S221、将不在预设的性状参考值范围内的性状特征所对应的数据从所述数据集中剔除；

S222、将离群性状特征对应的数据从所述数据集中剔除，所述离群性状特征为满足下式的性状特征：

| T_{j} - \overset{&OverBar;}{T_{j}} | > Kσ

其中，为T_j的平均值，σ为性状特征T_j的标准差，K为预设参数，T_j为离群性状特征，j为不大于性状特征集合T中元素个数的任一正整数。

可选的，所述步骤S3，包括：

S31、从育种目标集合G中选取任一育种目标，获取所述育种目标对应数据的集合D₀；

S32、根据所述集合D₀，从性状特征集合T中获取性状特征并集T₀；

S33、根据所述集合D₀，统计所述性状特征并集T₀中性状特征t_i的数据缺失比例M_i，i为不大于所述性状特征并集T₀中元素个数的任一正整数，所述M_i满足：

M_i＝(t_i为空的数据的个数)/(集合D₀中元素的个数)；

S34、根据预设的数据缺失比例阈值M_D筛选候选性状特征集合，所述候选性状特征集合T₁为{t_i|M_i≤M_D}；

S35、根据所述候选性状特征集合T₁，统计所述集合D₀中数据d_k的性状特征缺失比例M_k，k为不大于所述集合D₀中元素个数的任一正整数，所述M_k满足：

M_k＝(d_k对应的所述候选性状特征集合T₁中性状特征为空的性状特征个数)/(所述候选性状特征集合T₁中元素的个数)；

S36、根据预设的性状特征缺失比例阈值M_T筛选训练样本集D₁，所述训练样本集D₁为{d_k|M_k≤M_T}；

S37、根据所述训练样本集D₁，统计所述候选性状特征集合T₁中性状特征t_z的数据缺失比例M_z，z为不大于所述候选性状特征集合T₁中元素个数的任一正整数，所述M_z满足：

M_z＝(t_z为空的数据的个数)/(所述训练样本集D₁中元素的个数)；

若所述M_z＞所述M_D，则将所述训练样本集D₁命名为D₀，将所述候选性状特征集合T₁命名为T₀，重新执行步骤S33至S37；若所述M_z≤所述M_D，则得到训练样本集D₁和候选性状特征集合T₁。

可选的，所述步骤S4，包括：

S41、根据所述训练样本集D₁，得到所属实验e的个数k，并将所述训练样本集D₁中的数据按所属实验e划分到k个子集，每个子集中的数据是同一次实验的数据，记为SK_i，1≤i≤k；

S42、从所述候选性状特征集合T₁中选择性状特征t_j；

S43、将所述SK_i，1≤i≤k中的数据依据所述性状特征t_j的大小进行排序，将升序排序结果记为将降序排序结果记为

S44、根据实验结果r，分别对所述和中t_j取值相同的数据进行降序微调；

S45、根据所述和分别计算所述SK_i，1≤i≤k中数据的性状特征t_j与实验结果r的相关性，计算方法如下式所示：

ω (j, i) = \frac{DCG (j, i)}{IDCG (j, i)}

DCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r (p)} - 1}{\log (1 + p)}

IDCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r^{*} (p)} - 1}{\log (1 + p)}

其中，m是所述SK_i，1≤i≤k中实验材料的编号，r(p)是所述或中第p位置的实验材料对应的实验结果，r*(p)是所述SK_i，1≤i≤k中实验材料依据实验结果降序排序时第p位置对应的实验结果，ω(j,i)依其使用所述或中的排序结果分别记为ω⁰(j,i)或ω¹(j,i)；

S46、计算所述训练样本集D₁中性状特征t_j的相关性ω(j)，计算方法如下：

ω(j)＝max{ω⁰(j),ω¹(j)}

ω^{0} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{0} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

ω^{1} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{1} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

其中，|SK_i|是SK_i中实验材料的个数；

S47、重复步骤S42至S46直至完成所述候选性状特征集合T₁中所有候选性状特征的相关性计算。

可选的，所述步骤S5，包括：

S51、将所述训练样本集D₁中实验材料分别按照所述候选性状特征集合T₁中各性状特征进行排序；

S52、从所述候选性状特征集合T₁中任选两个性状特征t_a和t_b，所述t_a对应的实验材料序列为S_a，所述t_b对应的实验材料序列为S_b；

S53、计算所述训练样本集D₁中所有实验材料在所述S_a和S_b中的位置差值d_i：

d_i＝S_a(i)-S_b(i)

其中，S_a(i)和S_b(i)分别为所述训练样本集D₁中第i个实验材料在S_a和S_b中的位置；

S54、计算所述性状特征t_a和t_b的相似性：

Sim (a, b) = | Spearman (a, b) | = | 1 - \frac{6 Σ_{i = 1}^{n} d_{i}^{2}}{n (n^{2} - 1)} |

其中，n是所述训练样本集D₁中数据的个数。

S55、重复步骤S52至S54直至完成所有候选性状特征对的相似性计算。

可选的，所述步骤S6，包括：

S61、以所述候选性状特征集合T₁中各性状特征为顶点，各性状特征的相关性为顶点权重，顶点之间边的权重为所述顶点之间的相似性，构建无向图G₀；

S62、构建已选性状特征集合TS，使用空集进行初始化，即

S63、从所述无向图G₀中选择权重最大的顶点v_k；

S64、依v_k与其它顶点间边的权重，更新无向图G₀中其它顶点权重值，具体更新方法如下式所示：

ω_j←ω_j-Sim(k,j)×2c,j≠k

S65、将v_k从所述无向图G₀中移至所述已选性状特征集合TS：

TS_i+1＝TS_i∪{v_k}

G_i+1＝G_i\{v_k}

S66、判断所述已选性状特征集合TS中是否已有预设个数的性状特征，若有，则将当前集合TS_i作为结果输出；若不足，则重复步骤S63至S65，继续选择新特征。

相比于现有技术，本发明的作物育种评价的性状特征选择方法通过以数据挖掘为代表的信息技术，利用育种家多年的育种数据，构建不同作物育种目标的特征选择模型，辅助育种家进行作物育种评价时的性状特征选择。

附图说明

图1为一种作物育种评价的性状特征选择方法流程图；

图2为实施例构建的无向图示例；

图3为实施例更新后的无向图示例；

图4为实施例完成性状特征选择后的性状特征集合和无向图示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例使用大豆育种品鉴组中100个材料共34个性状的数据进行具体描述。原始数据见表1。

表1

如图1所示，本实施例公开一种作物育种评价的性状特征选择方法，所述方法包括：

S1、构建作物育种评价数据集，所述数据集中的每个数据均包括：实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r。

本实施例中育种目标皆为黄淮海夏大豆产区高产、抗病，即育种目标集合G＝{高产，抗病}，性状特征集合T以键值对形式表示，例如对于材料#1，其性状特征集合T为{生育期：102.0，小区产量：0.660，品鉴亩产：146.75，……，结荚习性：亚，花叶病毒盛花期：免疫}；e为所属实验，本实施例中数据都属同一实验，不失一般性，使用E1作为该实验唯一标识；r为实验结果，即当前材料在实验中的评价结果，本实施例中用序数值表示实验结果，即将{升、留、汰}转化为{3,2,1}表示，如材料#1的评价结果为汰，则表示为1。

完成该步骤后，任意材料数据皆以一个五元数据类型表示。如材料#1可以表示为{#1，大豆品鉴，{生育期：102.0，小区产量：0.660，品鉴亩产：146.75，……，结荚习性：亚，花叶病毒盛花期：免疫}，E1，1}。

S2、对所述数据集中的性状特征集合T进行预处理，得到预处理后的数据集；本实施例对表1所示的原始数据进行预处理，以提高对作物育种评价的历史数据的利用效率和效果。数据预处理工作主要针对数据中的性状特征集合T，具体步骤如下：

S21、对所述数据集中的性状特征集合T中每种性状特征进行规范化处理，所述规范化处理包括统一量化方式和/或统一计量单位和/或统一表现形式；本实施例中，统一量化方式主要针对枚举型性状，如花叶病毒盛花期性状主要包含{免疫，高抗，抗，感}四种性状值，可使用{9,7,5,1}对其进行量化表示。统一计量单位主要针对数值型性状，如株高性状，有些材料使用米作为计量单位，有些材料使用厘米作为计量单位，在此均换算为厘米计量。统一表现形式主要针对有多表现形式的性状，如日期型性状，既可以表示为yyyy-mm-dd，也可以表示为mm-dd-yyyy等其它形式，在此均以yyyy-mm-dd表示。

所述步骤S22具体包括：

S221、将不在预设的性状参考值范围内的性状特征所对应的数据从所述数据集中剔除；例如大豆的株高性状参考值为30～180cm，本实施例中无数据超出该范围，故无需剔除；

| T_{j} - \overset{&OverBar;}{T_{j}} | > Kσ

例如对于品鉴亩产这个性状特征，首先计算品鉴亩产的平均值，结果为176.624；再计算品鉴亩产的标准差，结果为20.213；在本实施例中，K取3，则品鉴亩产正常取值范围为176.624-3×20.213至176.624+3×20.213，即115.985～237.263kg，实施例中最小取值为134.82kg，最大取值为232.53kg，皆未超出正常取值范围，即本实施例中的品鉴亩产数据没有离群点。若有离群点，则需将该数据剔除。

T_{i}^{'} = \frac{T_{i} - \min (T_{i})}{\max (T_{i}) - \min (T_{i})}

以实施例中的品鉴亩产数据为例，材料#1的品鉴亩产数据归一化为(146.75-134.82)/(232.53-134.82)＝0.122。

完成数据预处理之后的实施例数据如表2所示。

表2 大豆育种品鉴组预处理后的数据

具体包括以下步骤：

S31、从育种目标集合G中选取任一育种目标，获取所述育种目标对应数据的集合D₀；本实施例中，材料#1至材料#100构成集合D₀。

S32、根据所述集合D₀，从性状特征集合T中获取性状特征并集T₀；本实施例中包括生育期、小区产量等共34个性状构成T₀。

M_i＝(t_i为空的数据的个数)/(集合D₀中元素的个数)；

本实施例中，针对T₀中34个性状分别计算实施例中数据的缺失比例。部分计算结果如下：生育期：0％；蛋白含量：64％；紫斑粒率：1％。

本实施例中，数据缺失比例阈值M_D设为20％，具体实施过程可依专家经验进行调整。筛选过后，T₁中包含生育期、小区产量等共21个性状特征。

本实施例中，对集合D₀中100个实验材料，分别统计其针对候选性状特征集合T₁的性状缺失比例，计算结果为所有材料的性状缺失比例皆为0％。

本实施例中，M_T取为20％，具体实施过程可依专家经验进行调整。由于集合D₀中各材料的性状缺失比例皆为0，故训练样本集D₁＝D₀。

本实施例中，训练样本集D₁中的数据已满足各性状特征的缺失比例小于等于性状特征缺失比例阈值M_T，因此终止筛选过程，将D₁选做训练样本集合，将T₁选做候选性状特征集合。

S4、计算所述候选性状特征集合中每个性状特征与所述训练样本集中每个数据的实验结果之间的相关性；

本实施例通过计算候选性状特征集合中各性状与实验结果的相关性，以此利用育种家在历史实验中的专家经验，为性状特征的选择提供依据。优选地以同一实验中不同实验材料的综合评价结果为依据计算实验材料的性状特征与实验结果的相关性，并将其用于性状特征选择的主要依据之一。性状特征相关性使用依性状对实验数据进行排序的结果与真实实验结果的拟合程度进行计算。实施例使用NDCG(Normalized Discounted Cumulative Gain)计算性状特征的相关性，具体计算步骤如下：

本实施例中，数据都属于同一实验，因此，D₁中材料皆划入唯一子集SK₁。

S42、从所述候选性状特征集合T₁中选择性状特征t_j；

本实施例中，首先选择t₁＝生育期，进行相关性计算。

ω (j, i) = \frac{DCG (j, i)}{IDCG (j, i)}

DCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r (p)} - 1}{\log (1 + p)}

IDCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r^{*} (p)} - 1}{\log (1 + p)}

本实施例中，ω⁰(1,1)＝44.89，ω¹(1,1)＝45.78。

ω(j)＝max{ω⁰(j),ω¹(j)}

ω^{0} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{0} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

ω^{1} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{1} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

其中，|SK_i|是SK_i中实验材料的个数；

本实施例中，只存在唯一实验，因此：

ω⁰(1)＝ω⁰(1,1)＝44.89

ω¹(1)＝ω¹(1,1)＝45.78

ω(1)＝max{ω⁰(1),ω¹(1)}＝45.78

S5、根据所述候选性状特征集合，对所述训练样本集中的数据进行候选性状特征排序相似性计算；

本实施例需计算性状特征的相似性，并将其作为进行性状特征选择的另一个主要依据。优选地，所述性状特征的相似性使用性状特征排序的相似程度进行衡量。可计算排序相似程度的方法包括斯皮尔曼相关系数、秩相关系数、肯德尔系数等。实施例以斯皮尔曼相关系数为例进行说明，具体计算步骤如下：

S51、将所述训练样本集D₁中实验材料分别按照所述候选性状特征集合T₁中各性状特征进行排序；该步骤中升序或降序排序并不会影响性状特征相似性的计算。

不失一般性，实施例选择t_a＝生育期、t_b＝小区产量。

d_i＝S_a(i)-S_b(i)

本实施例中，例如材料#1在性状生育期中排序为52，在性状小区产量中排序为95，则d₁＝52-95＝-43。依此完成所有实验材料对应位置差值d_i的计算。

S54、计算所述性状特征t_a和t_b的相似性：

Sim (a, b) = | Spearman (a, b) | = | 1 - \frac{6 Σ_{i = 1}^{n} d_{i}^{2}}{n (n^{2} - 1)} |

其中，n是所述训练样本集D₁中数据的个数。

本实施例中，利用上式对步骤S53算得的位置差值计算得Sim(a,b)＝0.074。

S6、根据所述相关性的计算结果以及所述候选性状特征排序相似性的计算结果，对所述训练样本集进行性状特征选择。

本发明进行性状特征选择时，期望选择的性状特征的相关性最大，相似性最小。优选地，将其统一化为一个线性组合目标，其形式为：

\max \underset{i &Element; T_{1}}{Σ} ω (i) x_{i} - c \underset{i &Element; T_{1}}{Σ} \underset{j &Element; T_{1}, j &NotEqual; i}{Σ} Sim (i, j) x_{i} x_{j}

s . t . \underset{i &Element; T_{1}}{Σ} x_{i} = n_{t}

其中，c为预定义的平衡参数，权衡选择的性状特征相关性最大和相似性最小在最终优化目标中的重要程度，实施例中c取值为0.5，n_t是选择的性状特征个数，x_i是第i个性状特征是否被选择的指示函数，当x_i＝1时，表示第i个性状特征被选择，当x_i＝0时，表示它未被选择。

在进行目标优化和性状特征选择时，实施例使用贪心算法进行搜索，具体搜索步骤如下：

S61、以所述候选性状特征集合T₁中各性状特征为顶点，各性状特征的相关性为顶点权重，顶点之间边的权重为所述顶点之间的相似性，构建无向图G₀；图2为实施例构建的无向图G₀示例。

S62、构建已选性状特征集合TS，使用空集进行初始化，即

S63、从所述无向图G₀中选择权重最大的顶点v_k；

实施例中选择权重值最大的性状特征为小区产量，其权重为0.98。

ω_j←ω_j-Sim(k,j)×2c,j≠k

图3为实施例在完成该步骤更新后的无向图G₀示例。

S65、将v_k从所述无向图G₀中移至所述已选性状特征集合TS：

TS_i+1＝TS_i∪{v_k}

G_i+1＝G_i\{v_k}

实施例中，TS₁＝{小区产量}，G₁＝G₀\{小区产量}。图4为实施例完成该步骤后的性状特征集合和无向图示例。

实施例欲从G₀中选出5个性状特征，选择结果按选出顺序排列为{小区产量，倒伏性，花色，出苗势，单株粒重}。

上述实施例可以有效利用育种家在作物育种过程中累积的专家经验；可以科学利用作物育种过程中累积的大量数据信息；可以产生科学的、有数据依据的作物育种评价中的关键性状特征集合，便于育种家在作物育种过程中关注点聚焦，在有限的时间内完成更加重要的工作；可以为区试等作物评审工作提供审定时的数据选择依据。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种作物育种评价的性状特征选择方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

{T_{i}}^{'} = \frac{T_{i} - \min (T_{i})}{\max (T_{i}) - \min (T_{i})}

3.根据权利要求2所述的方法，其特征在于，所述步骤S22具体包括：

| T_{j} - {\overset{&OverBar;}{T}}_{j} | > Kσ

4.根据权利要求1所述的方法，其特征在于，所述步骤S3，包括：

M_i＝(t_i为空的数据的个数)/(集合D₀中元素的个数)；

5.根据权利要求4所述的方法，其特征在于，所述步骤S4，包括：

S42、从所述候选性状特征集合T₁中选择性状特征t_j；

ω (j, i) = \frac{DCG (j, i)}{IDCG (j, i)}

DCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r (p)} - 1}{\log (1 + p)}

IDCG (j, i) = Σ_{p = 1}^{m} \frac{2^{r^{*} (p)} - 1}{\log (1 + p)}

ω(j)＝max{ω⁰(j),ω¹(j)}

ω^{0} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{0} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

ω^{1} (j) = \frac{Σ_{i = 1}^{k} | {SK}_{i} | \times ω^{1} (j, i)}{Σ_{i = 1}^{k} | {SK}_{i} |}

其中，|SK_i|是SK_i中实验材料的个数；

6.根据权利要求4所述的方法，其特征在于，所述步骤S5，包括：

d_i＝S_a(i)-S_b(i)

S54、计算所述性状特征t_a和t_b的相似性：

Sim (a, b) = | Spearman (a, b) | = | 1 - \frac{6 Σ_{i = 1}^{n} d_{i}^{2}}{n (n^{2} - 1)} |

其中，n是所述训练样本集D₁中数据的个数。

7.根据权利要求1所述的方法，其特征在于，所述步骤S6，包括：

S62、构建已选性状特征集合TS，使用空集进行初始化，即

S63、从所述无向图G₀中选择权重最大的顶点v_k；

ω_j←ω_j-Sim(k,j)×2c,j≠k

S65、将v_k从所述无向图G₀中移至所述已选性状特征集合TS：

TS_i+1＝TS_i∪{v_k}

G_i+1＝G_i\{v_k}