CN104572900A - 一种作物育种评价的性状特征选择方法 - Google Patents

一种作物育种评价的性状特征选择方法 Download PDF

Info

Publication number
CN104572900A
CN104572900A CN201410827260.6A CN201410827260A CN104572900A CN 104572900 A CN104572900 A CN 104572900A CN 201410827260 A CN201410827260 A CN 201410827260A CN 104572900 A CN104572900 A CN 104572900A
Authority
CN
China
Prior art keywords
properties
data
training sample
candidate trait
trait characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410827260.6A
Other languages
English (en)
Other versions
CN104572900B (zh
Inventor
赵向宇
刘忠强
黄珊
王开义
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Research Center for Information Technology in Agriculture
Original Assignee
Beijing Research Center for Information Technology in Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Research Center for Information Technology in Agriculture filed Critical Beijing Research Center for Information Technology in Agriculture
Priority to CN201410827260.6A priority Critical patent/CN104572900B/zh
Publication of CN104572900A publication Critical patent/CN104572900A/zh
Application granted granted Critical
Publication of CN104572900B publication Critical patent/CN104572900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

本发明公开一种作物育种评价的性状特征选择方法,该方法包括:S1、构建作物育种评价数据集,数据集中的每个数据均包括:实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r;S2、对数据集中的性状特征集合T进行预处理;S3、根据预处理后的数据集中每个数据的育种目标集合G,从预处理后的数据集中筛选训练样本集及候选性状特征集合;S4、利用训练样本集中的数据,计算候选性状特征集合中每个性状特征与实验结果r之间的相关性;S5、利用训练样本集中的数据,计算候选性状特征集合中性状特征间的排序相似性;S6、根据相关性以及排序相似性的计算结果,选择性状特征。

Description

一种作物育种评价的性状特征选择方法
技术领域
本发明涉及作物育种技术领域,具体涉及一种作物育种评价的性状特征选择方法。
背景技术
作物育种技术是一种通过改良作物的遗传特性,选择培育高产优质品种的技术。作物育种技术对种植业生产的发展具有十分重要的意义,一直以来受到国家、农业部门及相关从业者的广泛重视。在作物育种中,评价选育品种是否满足作物育种目标是一个重要的环节。但是作物育种评价总体上还停留在依靠育种家经验为主的阶段,缺乏对信息技术的使用。
在作物育种评价的性状特征选择环节,目前的选择方法主要包含两种类型。一是育种家依经验选择关注的重点性状特征;二是利用统计学的方法分析不同性状间的相关程度,根据相关度选择关注性状特征。但是这些方法都未与评价结果直接进行关联。
发明内容
本发明所要解决的技术问题是现有的作物育种评价的性状特征选择方法未与评价结果直接进行关联的问题。
为此目的,本发明提出一种作物育种评价的性状特征选择方法,所述方法包括:
S1、构建作物育种评价数据集,所述数据集中的每个数据均包括:实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r;
S2、对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;
S3、根据所述预处理后的数据集中每个数据的育种目标集合G,从所述预处理后的数据集中筛选训练样本集及候选性状特征集合;
S4、利用所述训练样本集中的数据,计算所述候选性状特征集合中每个性状特征与实验结果r之间的相关性;
S5、利用所述训练样本集中的数据,计算所述候选性状特征集合中性状特征间的排序相似性;
S6、根据所述相关性以及排序相似性的计算结果,选择性状特征。
可选的,所述步骤S2具体包括:
S21、对所述数据集中的性状特征集合T中的每种性状进行规范化处理,所述规范化处理包括统一量化方式和/或统一计量单位和/或统一表现形式;
S22、对经过所述规范化处理之后的性状特征集合T进行去噪处理;
S23、对经过所述去噪处理之后的性状特征集合T进行归一化处理,所述归一化处理的公式为:
T i ' = T i - min ( T i ) max ( T i ) - min ( T i )
其中,Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,Ti'为Ti经归一化处理后的结果,min(Ti)和max(Ti)分别为性状特征Ti的最小值和最大值。
可选的,所述步骤S22具体包括:
S221、将不在预设的性状参考值范围内的性状特征所对应的数据从所述数据集中剔除;
S222、将离群性状特征对应的数据从所述数据集中剔除,所述离群性状特征为满足下式的性状特征:
| T j - T j ‾ | > Kσ
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
可选的,所述步骤S3,包括:
S31、从育种目标集合G中选取任一育种目标,获取所述育种目标对应数据的集合D0
S32、根据所述集合D0,从性状特征集合T中获取性状特征并集T0
S33、根据所述集合D0,统计所述性状特征并集T0中性状特征ti的数据缺失比例Mi,i为不大于所述性状特征并集T0中元素个数的任一正整数,所述Mi满足:
Mi=(ti为空的数据的个数)/(集合D0中元素的个数);
S34、根据预设的数据缺失比例阈值MD筛选候选性状特征集合,所述候选性状特征集合T1为{ti|Mi≤MD};
S35、根据所述候选性状特征集合T1,统计所述集合D0中数据dk的性状特征缺失比例Mk,k为不大于所述集合D0中元素个数的任一正整数,所述Mk满足:
Mk=(dk对应的所述候选性状特征集合T1中性状特征为空的性状特征个数)/(所述候选性状特征集合T1中元素的个数);
S36、根据预设的性状特征缺失比例阈值MT筛选训练样本集D1,所述训练样本集D1为{dk|Mk≤MT};
S37、根据所述训练样本集D1,统计所述候选性状特征集合T1中性状特征tz的数据缺失比例Mz,z为不大于所述候选性状特征集合T1中元素个数的任一正整数,所述Mz满足:
Mz=(tz为空的数据的个数)/(所述训练样本集D1中元素的个数);
若所述Mz>所述MD,则将所述训练样本集D1命名为D0,将所述候选性状特征集合T1命名为T0,重新执行步骤S33至S37;若所述Mz≤所述MD,则得到训练样本集D1和候选性状特征集合T1
可选的,所述步骤S4,包括:
S41、根据所述训练样本集D1,得到所属实验e的个数k,并将所述训练样本集D1中的数据按所属实验e划分到k个子集,每个子集中的数据是同一次实验的数据,记为SKi,1≤i≤k;
S42、从所述候选性状特征集合T1中选择性状特征tj
S43、将所述SKi,1≤i≤k中的数据依据所述性状特征tj的大小进行排序,将升序排序结果记为将降序排序结果记为
S44、根据实验结果r,分别对所述中tj取值相同的数据进行降序微调;
S45、根据所述分别计算所述SKi,1≤i≤k中数据的性状特征tj与实验结果r的相关性,计算方法如下式所示:
ω ( j , i ) = DCG ( j , i ) IDCG ( j , i )
DCG ( j , i ) = Σ p = 1 m 2 r ( p ) - 1 log ( 1 + p )
IDCG ( j , i ) = Σ p = 1 m 2 r * ( p ) - 1 log ( 1 + p )
其中,m是所述SKi,1≤i≤k中实验材料的编号,r(p)是所述中第p位置的实验材料对应的实验结果,r*(p)是所述SKi,1≤i≤k中实验材料依据实验结果降序排序时第p位置对应的实验结果,ω(j,i)依其使用所述中的排序结果分别记为ω0(j,i)或ω1(j,i);
S46、计算所述训练样本集D1中性状特征tj的相关性ω(j),计算方法如下:
ω(j)=max{ω0(j),ω1(j)}
ω 0 ( j ) = Σ i = 1 k | SK i | × ω 0 ( j , i ) Σ i = 1 k | SK i |
ω 1 ( j ) = Σ i = 1 k | SK i | × ω 1 ( j , i ) Σ i = 1 k | SK i |
其中,|SKi|是SKi中实验材料的个数;
S47、重复步骤S42至S46直至完成所述候选性状特征集合T1中所有候选性状特征的相关性计算。
可选的,所述步骤S5,包括:
S51、将所述训练样本集D1中实验材料分别按照所述候选性状特征集合T1中各性状特征进行排序;
S52、从所述候选性状特征集合T1中任选两个性状特征ta和tb,所述ta对应的实验材料序列为Sa,所述tb对应的实验材料序列为Sb
S53、计算所述训练样本集D1中所有实验材料在所述Sa和Sb中的位置差值di
di=Sa(i)-Sb(i)
其中,Sa(i)和Sb(i)分别为所述训练样本集D1中第i个实验材料在Sa和Sb中的位置;
S54、计算所述性状特征ta和tb的相似性:
Sim ( a , b ) = | Spearman ( a , b ) | = | 1 - 6 Σ i = 1 n d i 2 n ( n 2 - 1 ) |
其中,n是所述训练样本集D1中数据的个数。
S55、重复步骤S52至S54直至完成所有候选性状特征对的相似性计算。
可选的,所述步骤S6,包括:
S61、以所述候选性状特征集合T1中各性状特征为顶点,各性状特征的相关性为顶点权重,顶点之间边的权重为所述顶点之间的相似性,构建无向图G0
S62、构建已选性状特征集合TS,使用空集进行初始化,即
S63、从所述无向图G0中选择权重最大的顶点vk
S64、依vk与其它顶点间边的权重,更新无向图G0中其它顶点权重值,具体更新方法如下式所示:
ωj←ωj-Sim(k,j)×2c,j≠k
S65、将vk从所述无向图G0中移至所述已选性状特征集合TS:
TSi+1=TSi∪{vk}
Gi+1=Gi\{vk}
S66、判断所述已选性状特征集合TS中是否已有预设个数的性状特征,若有,则将当前集合TSi作为结果输出;若不足,则重复步骤S63至S65,继续选择新特征。
相比于现有技术,本发明的作物育种评价的性状特征选择方法通过以数据挖掘为代表的信息技术,利用育种家多年的育种数据,构建不同作物育种目标的特征选择模型,辅助育种家进行作物育种评价时的性状特征选择。
附图说明
图1为一种作物育种评价的性状特征选择方法流程图;
图2为实施例构建的无向图示例;
图3为实施例更新后的无向图示例;
图4为实施例完成性状特征选择后的性状特征集合和无向图示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例使用大豆育种品鉴组中100个材料共34个性状的数据进行具体描述。原始数据见表1。
表1
如图1所示,本实施例公开一种作物育种评价的性状特征选择方法,所述方法包括:
S1、构建作物育种评价数据集,所述数据集中的每个数据均包括:实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r。
本实施例中育种目标皆为黄淮海夏大豆产区高产、抗病,即育种目标集合G={高产,抗病},性状特征集合T以键值对形式表示,例如对于材料#1,其性状特征集合T为{生育期:102.0,小区产量:0.660,品鉴亩产:146.75,……,结荚习性:亚,花叶病毒盛花期:免疫};e为所属实验,本实施例中数据都属同一实验,不失一般性,使用E1作为该实验唯一标识;r为实验结果,即当前材料在实验中的评价结果,本实施例中用序数值表示实验结果,即将{升、留、汰}转化为{3,2,1}表示,如材料#1的评价结果为汰,则表示为1。
完成该步骤后,任意材料数据皆以一个五元数据类型表示。如材料#1可以表示为{#1,大豆品鉴,{生育期:102.0,小区产量:0.660,品鉴亩产:146.75,……,结荚习性:亚,花叶病毒盛花期:免疫},E1,1}。
S2、对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;本实施例对表1所示的原始数据进行预处理,以提高对作物育种评价的历史数据的利用效率和效果。数据预处理工作主要针对数据中的性状特征集合T,具体步骤如下:
S21、对所述数据集中的性状特征集合T中每种性状特征进行规范化处理,所述规范化处理包括统一量化方式和/或统一计量单位和/或统一表现形式;本实施例中,统一量化方式主要针对枚举型性状,如花叶病毒盛花期性状主要包含{免疫,高抗,抗,感}四种性状值,可使用{9,7,5,1}对其进行量化表示。统一计量单位主要针对数值型性状,如株高性状,有些材料使用米作为计量单位,有些材料使用厘米作为计量单位,在此均换算为厘米计量。统一表现形式主要针对有多表现形式的性状,如日期型性状,既可以表示为yyyy-mm-dd,也可以表示为mm-dd-yyyy等其它形式,在此均以yyyy-mm-dd表示。
S22、对经过所述规范化处理之后的性状特征集合T进行去噪处理;
所述步骤S22具体包括:
S221、将不在预设的性状参考值范围内的性状特征所对应的数据从所述数据集中剔除;例如大豆的株高性状参考值为30~180cm,本实施例中无数据超出该范围,故无需剔除;
S222、将离群性状特征对应的数据从所述数据集中剔除,所述离群性状特征为满足下式的性状特征:
| T j - T j ‾ | > Kσ
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
例如对于品鉴亩产这个性状特征,首先计算品鉴亩产的平均值,结果为176.624;再计算品鉴亩产的标准差,结果为20.213;在本实施例中,K取3,则品鉴亩产正常取值范围为176.624-3×20.213至176.624+3×20.213,即115.985~237.263kg,实施例中最小取值为134.82kg,最大取值为232.53kg,皆未超出正常取值范围,即本实施例中的品鉴亩产数据没有离群点。若有离群点,则需将该数据剔除。
S23、对经过所述去噪处理之后的性状特征集合T进行归一化处理,所述归一化处理的公式为:
T i ' = T i - min ( T i ) max ( T i ) - min ( T i )
其中,Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,Ti'为Ti经归一化处理后的结果,min(Ti)和max(Ti)分别为性状特征Ti的最小值和最大值。
以实施例中的品鉴亩产数据为例,材料#1的品鉴亩产数据归一化为(146.75-134.82)/(232.53-134.82)=0.122。
完成数据预处理之后的实施例数据如表2所示。
表2 大豆育种品鉴组预处理后的数据
S3、根据所述预处理后的数据集中每个数据的育种目标集合G,从所述预处理后的数据集中筛选训练样本集及候选性状特征集合;
具体包括以下步骤:
S31、从育种目标集合G中选取任一育种目标,获取所述育种目标对应数据的集合D0;本实施例中,材料#1至材料#100构成集合D0
S32、根据所述集合D0,从性状特征集合T中获取性状特征并集T0;本实施例中包括生育期、小区产量等共34个性状构成T0
S33、根据所述集合D0,统计所述性状特征并集T0中性状特征ti的数据缺失比例Mi,i为不大于所述性状特征并集T0中元素个数的任一正整数,所述Mi满足:
Mi=(ti为空的数据的个数)/(集合D0中元素的个数);
本实施例中,针对T0中34个性状分别计算实施例中数据的缺失比例。部分计算结果如下:生育期:0%;蛋白含量:64%;紫斑粒率:1%。
S34、根据预设的数据缺失比例阈值MD筛选候选性状特征集合,所述候选性状特征集合T1为{ti|Mi≤MD};
本实施例中,数据缺失比例阈值MD设为20%,具体实施过程可依专家经验进行调整。筛选过后,T1中包含生育期、小区产量等共21个性状特征。
S35、根据所述候选性状特征集合T1,统计所述集合D0中数据dk的性状特征缺失比例Mk,k为不大于所述集合D0中元素个数的任一正整数,所述Mk满足:
Mk=(dk对应的所述候选性状特征集合T1中性状特征为空的性状特征个数)/(所述候选性状特征集合T1中元素的个数);
本实施例中,对集合D0中100个实验材料,分别统计其针对候选性状特征集合T1的性状缺失比例,计算结果为所有材料的性状缺失比例皆为0%。
S36、根据预设的性状特征缺失比例阈值MT筛选训练样本集D1,所述训练样本集D1为{dk|Mk≤MT};
本实施例中,MT取为20%,具体实施过程可依专家经验进行调整。由于集合D0中各材料的性状缺失比例皆为0,故训练样本集D1=D0
S37、根据所述训练样本集D1,统计所述候选性状特征集合T1中性状特征tz的数据缺失比例Mz,z为不大于所述候选性状特征集合T1中元素个数的任一正整数,所述Mz满足:
Mz=(tz为空的数据的个数)/(所述训练样本集D1中元素的个数);
若所述Mz>所述MD,则将所述训练样本集D1命名为D0,将所述候选性状特征集合T1命名为T0,重新执行步骤S33至S37;若所述Mz≤所述MD,则得到训练样本集D1和候选性状特征集合T1
本实施例中,训练样本集D1中的数据已满足各性状特征的缺失比例小于等于性状特征缺失比例阈值MT,因此终止筛选过程,将D1选做训练样本集合,将T1选做候选性状特征集合。
S4、计算所述候选性状特征集合中每个性状特征与所述训练样本集中每个数据的实验结果之间的相关性;
本实施例通过计算候选性状特征集合中各性状与实验结果的相关性,以此利用育种家在历史实验中的专家经验,为性状特征的选择提供依据。优选地以同一实验中不同实验材料的综合评价结果为依据计算实验材料的性状特征与实验结果的相关性,并将其用于性状特征选择的主要依据之一。性状特征相关性使用依性状对实验数据进行排序的结果与真实实验结果的拟合程度进行计算。实施例使用NDCG(Normalized Discounted Cumulative Gain)计算性状特征的相关性,具体计算步骤如下:
S41、根据所述训练样本集D1,得到所属实验e的个数k,并将所述训练样本集D1中的数据按所属实验e划分到k个子集,每个子集中的数据是同一次实验的数据,记为SKi,1≤i≤k;
本实施例中,数据都属于同一实验,因此,D1中材料皆划入唯一子集SK1
S42、从所述候选性状特征集合T1中选择性状特征tj
本实施例中,首先选择t1=生育期,进行相关性计算。
S43、将所述SKi,1≤i≤k中的数据依据所述性状特征tj的大小进行排序,将升序排序结果记为将降序排序结果记为
S44、根据实验结果r,分别对所述中tj取值相同的数据进行降序微调;
S45、根据所述分别计算所述SKi,1≤i≤k中数据的性状特征tj与实验结果r的相关性,计算方法如下式所示:
ω ( j , i ) = DCG ( j , i ) IDCG ( j , i )
DCG ( j , i ) = Σ p = 1 m 2 r ( p ) - 1 log ( 1 + p )
IDCG ( j , i ) = Σ p = 1 m 2 r * ( p ) - 1 log ( 1 + p )
其中,m是所述SKi,1≤i≤k中实验材料的编号,r(p)是所述中第p位置的实验材料对应的实验结果,r*(p)是所述SKi,1≤i≤k中实验材料依据实验结果降序排序时第p位置对应的实验结果,ω(j,i)依其使用所述中的排序结果分别记为ω0(j,i)或ω1(j,i);
本实施例中,ω0(1,1)=44.89,ω1(1,1)=45.78。
S46、计算所述训练样本集D1中性状特征tj的相关性ω(j),计算方法如下:
ω(j)=max{ω0(j),ω1(j)}
ω 0 ( j ) = Σ i = 1 k | SK i | × ω 0 ( j , i ) Σ i = 1 k | SK i |
ω 1 ( j ) = Σ i = 1 k | SK i | × ω 1 ( j , i ) Σ i = 1 k | SK i |
其中,|SKi|是SKi中实验材料的个数;
本实施例中,只存在唯一实验,因此:
ω0(1)=ω0(1,1)=44.89
ω1(1)=ω1(1,1)=45.78
ω(1)=max{ω0(1),ω1(1)}=45.78
S47、重复步骤S42至S46直至完成所述候选性状特征集合T1中所有候选性状特征的相关性计算。
S5、根据所述候选性状特征集合,对所述训练样本集中的数据进行候选性状特征排序相似性计算;
本实施例需计算性状特征的相似性,并将其作为进行性状特征选择的另一个主要依据。优选地,所述性状特征的相似性使用性状特征排序的相似程度进行衡量。可计算排序相似程度的方法包括斯皮尔曼相关系数、秩相关系数、肯德尔系数等。实施例以斯皮尔曼相关系数为例进行说明,具体计算步骤如下:
S51、将所述训练样本集D1中实验材料分别按照所述候选性状特征集合T1中各性状特征进行排序;该步骤中升序或降序排序并不会影响性状特征相似性的计算。
S52、从所述候选性状特征集合T1中任选两个性状特征ta和tb,所述ta对应的实验材料序列为Sa,所述tb对应的实验材料序列为Sb
不失一般性,实施例选择ta=生育期、tb=小区产量。
S53、计算所述训练样本集D1中所有实验材料在所述Sa和Sb中的位置差值di
di=Sa(i)-Sb(i)
其中,Sa(i)和Sb(i)分别为所述训练样本集D1中第i个实验材料在Sa和Sb中的位置;
本实施例中,例如材料#1在性状生育期中排序为52,在性状小区产量中排序为95,则d1=52-95=-43。依此完成所有实验材料对应位置差值di的计算。
S54、计算所述性状特征ta和tb的相似性:
Sim ( a , b ) = | Spearman ( a , b ) | = | 1 - 6 Σ i = 1 n d i 2 n ( n 2 - 1 ) |
其中,n是所述训练样本集D1中数据的个数。
本实施例中,利用上式对步骤S53算得的位置差值计算得Sim(a,b)=0.074。
S55、重复步骤S52至S54直至完成所有候选性状特征对的相似性计算。
S6、根据所述相关性的计算结果以及所述候选性状特征排序相似性的计算结果,对所述训练样本集进行性状特征选择。
本发明进行性状特征选择时,期望选择的性状特征的相关性最大,相似性最小。优选地,将其统一化为一个线性组合目标,其形式为:
max Σ i ∈ T 1 ω ( i ) x i - c Σ i ∈ T 1 Σ j ∈ T 1 , j ≠ i Sim ( i , j ) x i x j
s . t . Σ i ∈ T 1 x i = n t
其中,c为预定义的平衡参数,权衡选择的性状特征相关性最大和相似性最小在最终优化目标中的重要程度,实施例中c取值为0.5,nt是选择的性状特征个数,xi是第i个性状特征是否被选择的指示函数,当xi=1时,表示第i个性状特征被选择,当xi=0时,表示它未被选择。
在进行目标优化和性状特征选择时,实施例使用贪心算法进行搜索,具体搜索步骤如下:
S61、以所述候选性状特征集合T1中各性状特征为顶点,各性状特征的相关性为顶点权重,顶点之间边的权重为所述顶点之间的相似性,构建无向图G0;图2为实施例构建的无向图G0示例。
S62、构建已选性状特征集合TS,使用空集进行初始化,即
S63、从所述无向图G0中选择权重最大的顶点vk
实施例中选择权重值最大的性状特征为小区产量,其权重为0.98。
S64、依vk与其它顶点间边的权重,更新无向图G0中其它顶点权重值,具体更新方法如下式所示:
ωj←ωj-Sim(k,j)×2c,j≠k
图3为实施例在完成该步骤更新后的无向图G0示例。
S65、将vk从所述无向图G0中移至所述已选性状特征集合TS:
TSi+1=TSi∪{vk}
Gi+1=Gi\{vk}
实施例中,TS1={小区产量},G1=G0\{小区产量}。图4为实施例完成该步骤后的性状特征集合和无向图示例。
S66、判断所述已选性状特征集合TS中是否已有预设个数的性状特征,若有,则将当前集合TSi作为结果输出;若不足,则重复步骤S63至S65,继续选择新特征。
实施例欲从G0中选出5个性状特征,选择结果按选出顺序排列为{小区产量,倒伏性,花色,出苗势,单株粒重}。
上述实施例可以有效利用育种家在作物育种过程中累积的专家经验;可以科学利用作物育种过程中累积的大量数据信息;可以产生科学的、有数据依据的作物育种评价中的关键性状特征集合,便于育种家在作物育种过程中关注点聚焦,在有限的时间内完成更加重要的工作;可以为区试等作物评审工作提供审定时的数据选择依据。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种作物育种评价的性状特征选择方法,其特征在于,所述方法包括:
S1、构建作物育种评价数据集,所述数据集中的每个数据均包括:实验材料编号、育种目标集合G、性状特征集合T、所属实验e以及实验结果r;
S2、对所述数据集中的性状特征集合T进行预处理,得到预处理后的数据集;
S3、根据所述预处理后的数据集中每个数据的育种目标集合G,从所述预处理后的数据集中筛选训练样本集及候选性状特征集合;
S4、利用所述训练样本集中的数据,计算所述候选性状特征集合中每个性状特征与实验结果r之间的相关性;
S5、利用所述训练样本集中的数据,计算所述候选性状特征集合中性状特征间的排序相似性;
S6、根据所述相关性以及排序相似性的计算结果,选择性状特征。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、对所述数据集中的性状特征集合T中的每种性状进行规范化处理,所述规范化处理包括统一量化方式和/或统一计量单位和/或统一表现形式;
S22、对经过所述规范化处理之后的性状特征集合T进行去噪处理;
S23、对经过所述去噪处理之后的性状特征集合T进行归一化处理,所述归一化处理的公式为:
T i ′ = T i - min ( T i ) max ( T i ) - min ( T i )
其中,Ti为性状特征集合T中第i个性状特征,i为不大于性状特征集合T中元素个数的任一正整数,Ti'为Ti经归一化处理后的结果,min(Ti)和max(Ti)分别为性状特征Ti的最小值和最大值。
3.根据权利要求2所述的方法,其特征在于,所述步骤S22具体包括:
S221、将不在预设的性状参考值范围内的性状特征所对应的数据从所述数据集中剔除;
S222、将离群性状特征对应的数据从所述数据集中剔除,所述离群性状特征为满足下式的性状特征:
| T j - T ‾ j | > Kσ
其中,为Tj的平均值,σ为性状特征Tj的标准差,K为预设参数,Tj为离群性状特征,j为不大于性状特征集合T中元素个数的任一正整数。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3,包括:
S31、从育种目标集合G中选取任一育种目标,获取所述育种目标对应数据的集合D0
S32、根据所述集合D0,从性状特征集合T中获取性状特征并集T0
S33、根据所述集合D0,统计所述性状特征并集T0中性状特征ti的数据缺失比例Mi,i为不大于所述性状特征并集T0中元素个数的任一正整数,所述Mi满足:
Mi=(ti为空的数据的个数)/(集合D0中元素的个数);
S34、根据预设的数据缺失比例阈值MD筛选候选性状特征集合,所述候选性状特征集合T1为{ti|Mi≤MD};
S35、根据所述候选性状特征集合T1,统计所述集合D0中数据dk的性状特征缺失比例Mk,k为不大于所述集合D0中元素个数的任一正整数,所述Mk满足:
Mk=(dk对应的所述候选性状特征集合T1中性状特征为空的性状特征个数)/(所述候选性状特征集合T1中元素的个数);
S36、根据预设的性状特征缺失比例阈值MT筛选训练样本集D1,所述训练样本集D1为{dk|Mk≤MT};
S37、根据所述训练样本集D1,统计所述候选性状特征集合T1中性状特征tz的数据缺失比例Mz,z为不大于所述候选性状特征集合T1中元素个数的任一正整数,所述Mz满足:
Mz=(tz为空的数据的个数)/(所述训练样本集D1中元素的个数);
若所述Mz>所述MD,则将所述训练样本集D1命名为D0,将所述候选性状特征集合T1命名为T0,重新执行步骤S33至S37;若所述Mz≤所述MD,则得到训练样本集D1和候选性状特征集合T1
5.根据权利要求4所述的方法,其特征在于,所述步骤S4,包括:
S41、根据所述训练样本集D1,得到所属实验e的个数k,并将所述训练样本集D1中的数据按所属实验e划分到k个子集,每个子集中的数据是同一次实验的数据,记为SKi,1≤i≤k;
S42、从所述候选性状特征集合T1中选择性状特征tj
S43、将所述SKi,1≤i≤k中的数据依据所述性状特征tj的大小进行排序,将升序排序结果记为将降序排序结果记为
S44、根据实验结果r,分别对所述中tj取值相同的数据进行降序微调;
S45、根据所述分别计算所述SKi,1≤i≤k中数据的性状特征tj与实验结果r的相关性,计算方法如下式所示:
ω ( j , i ) = DCG ( j , i ) IDCG ( j , i )
DCG ( j , i ) = Σ p = 1 m 2 r ( p ) - 1 log ( 1 + p )
IDCG ( j , i ) = Σ p = 1 m 2 r * ( p ) - 1 log ( 1 + p )
其中,m是所述SKi,1≤i≤k中实验材料的编号,r(p)是所述中第p位置的实验材料对应的实验结果,r*(p)是所述SKi,1≤i≤k中实验材料依据实验结果降序排序时第p位置对应的实验结果,ω(j,i)依其使用所述中的排序结果分别记为ω0(j,i)或ω1(j,i);
S46、计算所述训练样本集D1中性状特征tj的相关性ω(j),计算方法如下:
ω(j)=max{ω0(j),ω1(j)}
ω 0 ( j ) = Σ i = 1 k | SK i | × ω 0 ( j , i ) Σ i = 1 k | SK i |
ω 1 ( j ) = Σ i = 1 k | SK i | × ω 1 ( j , i ) Σ i = 1 k | SK i |
其中,|SKi|是SKi中实验材料的个数;
S47、重复步骤S42至S46直至完成所述候选性状特征集合T1中所有候选性状特征的相关性计算。
6.根据权利要求4所述的方法,其特征在于,所述步骤S5,包括:
S51、将所述训练样本集D1中实验材料分别按照所述候选性状特征集合T1中各性状特征进行排序;
S52、从所述候选性状特征集合T1中任选两个性状特征ta和tb,所述ta对应的实验材料序列为Sa,所述tb对应的实验材料序列为Sb
S53、计算所述训练样本集D1中所有实验材料在所述Sa和Sb中的位置差值di
di=Sa(i)-Sb(i)
其中,Sa(i)和Sb(i)分别为所述训练样本集D1中第i个实验材料在Sa和Sb中的位置;
S54、计算所述性状特征ta和tb的相似性:
Sim ( a , b ) = | Spearman ( a , b ) | = | 1 - 6 Σ i = 1 n d i 2 n ( n 2 - 1 ) |
其中,n是所述训练样本集D1中数据的个数。
S55、重复步骤S52至S54直至完成所有候选性状特征对的相似性计算。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6,包括:
S61、以所述候选性状特征集合T1中各性状特征为顶点,各性状特征的相关性为顶点权重,顶点之间边的权重为所述顶点之间的相似性,构建无向图G0
S62、构建已选性状特征集合TS,使用空集进行初始化,即
S63、从所述无向图G0中选择权重最大的顶点vk
S64、依vk与其它顶点间边的权重,更新无向图G0中其它顶点权重值,具体更新方法如下式所示:
ωj←ωj-Sim(k,j)×2c,j≠k
S65、将vk从所述无向图G0中移至所述已选性状特征集合TS:
TSi+1=TSi∪{vk}
Gi+1=Gi\{vk}
S66、判断所述已选性状特征集合TS中是否已有预设个数的性状特征,若有,则将当前集合TSi作为结果输出;若不足,则重复步骤S63至S65,继续选择新特征。
CN201410827260.6A 2014-12-25 2014-12-25 一种作物育种评价的性状特征选择方法 Active CN104572900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410827260.6A CN104572900B (zh) 2014-12-25 2014-12-25 一种作物育种评价的性状特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410827260.6A CN104572900B (zh) 2014-12-25 2014-12-25 一种作物育种评价的性状特征选择方法

Publications (2)

Publication Number Publication Date
CN104572900A true CN104572900A (zh) 2015-04-29
CN104572900B CN104572900B (zh) 2017-10-10

Family

ID=53088962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410827260.6A Active CN104572900B (zh) 2014-12-25 2014-12-25 一种作物育种评价的性状特征选择方法

Country Status (1)

Country Link
CN (1) CN104572900B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951987A (zh) * 2015-06-19 2015-09-30 北京农业信息技术研究中心 基于决策树的作物育种评价方法
CN111260259A (zh) * 2020-02-28 2020-06-09 北京农业信息技术研究中心 基于耦合表示的作物育种评价方法及装置
CN117789893A (zh) * 2024-02-27 2024-03-29 河北省农林科学院农业信息与经济研究所 基于相关性分析的育种数据预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101748208A (zh) * 2008-12-19 2010-06-23 曹淑兰 小麦新品种选育
CN102144474A (zh) * 2010-12-27 2011-08-10 河南省农业科学院 甜玉米品质优化选择方法
CN103761428A (zh) * 2014-01-07 2014-04-30 北京农业信息技术研究中心 一种用于育种材料筛选的育种数据处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101748208A (zh) * 2008-12-19 2010-06-23 曹淑兰 小麦新品种选育
CN102144474A (zh) * 2010-12-27 2011-08-10 河南省农业科学院 甜玉米品质优化选择方法
CN103761428A (zh) * 2014-01-07 2014-04-30 北京农业信息技术研究中心 一种用于育种材料筛选的育种数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIUBO GENG ET AL: "feature selection for ranking", 《SIGIR 2007 PROCEEDINGS》 *
柏流芳 等: "农作物育种中的综合评判方法", 《农业工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951987A (zh) * 2015-06-19 2015-09-30 北京农业信息技术研究中心 基于决策树的作物育种评价方法
CN104951987B (zh) * 2015-06-19 2018-04-10 北京农业信息技术研究中心 基于决策树的作物育种评价方法
CN111260259A (zh) * 2020-02-28 2020-06-09 北京农业信息技术研究中心 基于耦合表示的作物育种评价方法及装置
CN111260259B (zh) * 2020-02-28 2023-06-30 北京农业信息技术研究中心 基于耦合表示的作物育种评价方法及装置
CN117789893A (zh) * 2024-02-27 2024-03-29 河北省农林科学院农业信息与经济研究所 基于相关性分析的育种数据预测方法
CN117789893B (zh) * 2024-02-27 2024-04-30 河北省农林科学院农业信息与经济研究所 基于相关性分析的育种数据预测方法

Also Published As

Publication number Publication date
CN104572900B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN103810101B (zh) 一种软件缺陷预测方法和软件缺陷预测系统
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN103745273B (zh) 一种半导体制造过程的多性能预测方法
CN106127242A (zh) 基于集成学习的年极端降水预测系统及其预测方法
CN105653450A (zh) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
CN106156957A (zh) 一种基于权重的企业风险评估方法及系统
CN104951987B (zh) 基于决策树的作物育种评价方法
CN107463993A (zh) 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN107358363A (zh) 基于径向基函数神经网络组合模型的煤工发病率预测方法
CN107545038A (zh) 一种文本分类方法与设备
CN105701562A (zh) 训练方法、所适用的预测发电功率的方法及各自系统
CN104484724A (zh) 一种基于云模型的特高压落点规划优选方法
CN109165807A (zh) 一种基于概率神经网络的电能质量综合评估方法
CN104572900A (zh) 一种作物育种评价的性状特征选择方法
CN103353895A (zh) 一种配电网线损数据的预处理方法
CN102621953A (zh) 一种橡胶硬度的在线自动质量监控和预测模型更新的方法
CN102789598B (zh) 一种以机器特征属性为区间数的作业车间瓶颈识别方法
CN104778368A (zh) 一种针对高维多目标优化问题的Pareto集个体排序方法
CN110489844A (zh) 一种适用于软岩隧道不均匀大变形等级预测方法
CN108830405B (zh) 基于多指标动态匹配的实时电力负荷预测系统及其方法
Aritonang et al. An application of backpropagation neural network for sales forecasting rice miling unit
CN102541032B (zh) 一种可重入制造系统瓶颈设备预测方法
Wu et al. SOUA: Towards Intelligent Recommendation for Applying for Overseas Universities
CN113327047B (zh) 基于模糊综合模型的电力营销服务渠道决策方法及系统
CN108596430A (zh) 一种专业性购物网站设计评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Xiangyu

Inventor after: Liu Zhongqiang

Inventor after: Huang Pan

Inventor after: Wang Kaiyi

Inventor after: Liu Chao

Inventor before: Zhao Xiangyu

Inventor before: Liu Zhongqiang

Inventor before: Huang Shan

Inventor before: Wang Kaiyi

Inventor before: Liu Chao

GR01 Patent grant
GR01 Patent grant