CN117649059B - 一种用于数字化育种流程的成果评价优化方法 - Google Patents

一种用于数字化育种流程的成果评价优化方法 Download PDF

Info

Publication number
CN117649059B
CN117649059B CN202410121658.1A CN202410121658A CN117649059B CN 117649059 B CN117649059 B CN 117649059B CN 202410121658 A CN202410121658 A CN 202410121658A CN 117649059 B CN117649059 B CN 117649059B
Authority
CN
China
Prior art keywords
data
cluster
clusters
multidimensional
data point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410121658.1A
Other languages
English (en)
Other versions
CN117649059A (zh
Inventor
孙海芳
侯亮
马晓萍
侯升林
牛细婷
李偲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information And Economic Research Institute Hebei Academy Of Agriculture And Forestry Sciences
Original Assignee
Agricultural Information And Economic Research Institute Hebei Academy Of Agriculture And Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information And Economic Research Institute Hebei Academy Of Agriculture And Forestry Sciences filed Critical Agricultural Information And Economic Research Institute Hebei Academy Of Agriculture And Forestry Sciences
Priority to CN202410121658.1A priority Critical patent/CN117649059B/zh
Publication of CN117649059A publication Critical patent/CN117649059A/zh
Application granted granted Critical
Publication of CN117649059B publication Critical patent/CN117649059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,尤其涉及一种用于数字化育种流程的成果评价优化方法,该方法分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,构建得到多维性状样本数据空间;针对多维性状样本数据空间中的任一数据点,根据数据点的多维性状数据和划分结果,分别获取数据点的多维性状数据中的每个维度的性状离群程度,根据多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值;根据多维性状数据中的每个维度的整体性状特征优化值,对田间试验育种的类育种样本进行成果评价,提高了对田间试验育种的整体性状特征进行评价的准确性。

Description

一种用于数字化育种流程的成果评价优化方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于数字化育种流程的成果评价优化方法。
背景技术
在数字化育种系统中,需要在育种管理模块中选择父本、母本配置杂交组合,然后根据育种清单与材料管理模块进行分组,最后通过试验管理模块进行地块布局,将材料管理模块的分组结果进行地块分配之后开始育种。在育种过程中通过田间数据采集进行育种样本的性状数据录入,在采集到育种样本的性状数据之后,则需要根据育种样本的性状数据进行育种成果评估,从而根据育种成果评估结果进行材料决选。
在现有的材料决选过程中,针对于田间试验育种的全部育种样本的性状数据需要通过特征提取来确定整体性状特征,而在田间试验育种过程中,育种样本中会存在着异常样本性状,从而会在各个性状维度中呈现出离群的状态,所以为了保证整体形状特征的准确性,需要通过离群检测的方式确定数据空间中每个育种样本的权重,从而对全部育种样本进行加权平均确定整体形状特征,其中,每个育种样本的权重可以通过基于聚类的局部异常因子检测算法(CBLOF)的无监督异常检测过程进行获取。
但是在上述确定田间试验育种的整体性状特征时,针对于异常样本性状的检测过程中,由于在田间试验育种过程中离群的数据可能不只是性状特征异常,也会可能会是材料组合存在特定样式的性状特征,也就是育种样本的性状数据中存在着具有离群特征的小簇类被异常检测过程判断为异常,从而导致整体性状特征提取的加权平均过程中无法参考特殊性状信息的情况,使得对田间试验育种的整体性状特征的评价结果出现偏差。
因此,如何准确获取田间试验育种的整体性状特征的评价结果成为亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种用于数字化育种流程的成果评价优化方法,以解决如何准确获取田间试验育种的整体性状特征的评价结果的问题。
本发明实施例中提供了一种用于数字化育种流程的成果评价优化方法,该成果评价优化方法包括以下步骤:
分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,根据所有样本的多维性状数据,构建得到多维性状样本数据空间;
对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果;
针对所述多维性状样本数据空间中的任一数据点,根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值;
根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的所述类育种样本进行成果评价。
进一步的,所述根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果,包括:
根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度;
根据每个所述聚类簇中包含的数据点数量以及所述每两个聚类簇之间的相似程度,将所述预设数量个聚类簇划分为常规聚类簇和非常规聚类簇。
进一步的,所述根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,包括:
针对任一聚类簇中的任一数据点,分别获取所述数据点的多维性状数据与所述聚类簇中的每个其他数据点的多维性状数据之间的欧氏距离,得到所述数据点对应的欧式距离均值;
根据所述聚类簇中的每个数据点对应的欧式距离均值,获取欧式距离均值的平均值,将对所述欧式距离均值的平均值进行归一化后的结果作为所述聚类簇的样本分散程度。
进一步的,所述根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度,包括:
针对所述预设数量个聚类簇中的任一两个聚类簇,获取所述两个聚类簇之间的样本分散程度的差值绝对值作为初始相似程度;
根据所述两个聚类簇中的每个数据点与簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子;
将所述初始相似程度与所述相似度优化因子之间的乘积作为所述两个聚类簇之间的相似程度。
进一步的,所述根据所述两个聚类簇中的每个数据点与簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子,包括:
根据所述两个聚类簇中的每个聚类簇所包含的数据点数量,获取最小数据点数量;
取所述两个聚类簇中的任一聚类簇作为目标聚类簇,根据所述目标聚类簇中的每个数据点与所述目标聚类簇的簇类中心点之间的欧式距离,按照欧式距离从小到大的顺序选择所述最小数据点数量个欧式距离对应数据点作为目标数据点;
根据每个所述目标数据点与所述目标聚类簇的簇类中心点之间的欧式距离,计算第一欧式距离均值;
获取所述两个聚类簇之间的第一欧式距离均值之间的差值,对所述差值进行归一化处理,对应得到归一化值作为所述两个聚类簇之间的相似度优化因子。
进一步的,所述根据每个所述聚类簇中包含的数据点数量以及所述每两个聚类簇之间的相似程度,将所述预设数量个聚类簇划分为常规聚类簇和非常规聚类簇,包括:
根据每个所述聚类簇中包含的数据点数量,将每个所述聚类簇的数据点数量按照数据点数量从大到小进行依次累加,直到累加的数据点数量满足第一预设数量要求,则将参与累加的聚类簇作为常规聚类簇,将未参与累加的聚类簇作为非常规聚类簇;
令所述非常规聚类簇中的任一聚类簇作为候选聚类簇,根据所述候选聚类簇与所述常规聚类簇中的每个聚类簇之间的相似程度,获取平均相似程度;
根据所述非常规聚类簇中的每个聚类簇对应的平均相似程度,将所述非常规聚类簇中的每个聚类簇的数据点数量按照平均相似程度从大到小的顺序依次添加到所述常规聚类簇中,直至所述常规聚类簇中的数据点总数量满足第二预设数量要求。
进一步的,所述根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,包括:
若所述数据点属于所述常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,根据所述划分结果确定所述数据点所属的聚类簇,并获取所述数据点所属的聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在所述维度对应的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的所述维度的性状离群程度;
若所述数据点属于所述非常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,获取与所述数据点距离最近的常规聚类簇,并将与所述数据点距离最近的常规聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在所述维度对应的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的所述维度的性状离群程度。
进一步的,所述根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值,包括:
针对多维性状数据中的任一维度,分别获取所述多维性状样本数据空间中的每个数据点在所述维度的数值和性状离群程度之间的乘积,得到乘积均值,将所述乘积均值作为所述维度的整体性状特征优化值。
进一步的,所述根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的所述类育种样本进行成果评价,包括:
获取各个维度的预设性状特征值阈值,若所述多维性状数据中的任一维度的整体性状特征优化值满足所述维度的预设性状特征值阈值,则对所述类育种样本的育种材料组合进行标记保留。
进一步的,所述对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,包括:
利用K-means聚类算法对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇。
本发明实施例与现有技术相比存在的有益效果是:
本发明分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,根据所有样本的多维性状数据,构建得到多维性状样本数据空间;对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果;针对所述多维性状样本数据空间中的任一数据点,根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值;根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的所述类育种样本进行成果评价。其中,通过对田间试验育种的任一类育种样本的多维性状数据进行离群分析,以根据多维性状样本数据空间中的数据点聚类簇中的数据点分布特征,对性状出现的异常性进行优化分析,避免田间试验育种过程中具有相似分布特征的小聚类簇被划分为非常规聚类簇,从而导致育种样本的多维性状数据在综合特征提取过程中的权重过低,进而无法准确地获取每个育种样本的整体性状特征值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种用于数字化育种流程的成果评价优化方法的方法流程图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
需要说明的是,本公开的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与本公开的一些方面相一致的装置和方法的例子。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明所针对的具体场景为:在完成田间试验育种的任一类育种样本的数据采集之后,对于每个样本的性状监测数据进行整体性状特征提取,从而在育种材料决选(育种材料评价)的过程中,对于多样本的综合性状特征提取进行优化,保证后续育种材料决选的准确性。
参见图1,是本发明实施例一提供的一种用于数字化育种流程的成果评价优化方法的方法流程图,如图1所示,该成果评价优化方法可以包括:
步骤S101,分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,根据所有样本的多维性状数据,构建得到多维性状样本数据空间。
本发明实施例中,在完成数字化育种的育种材料确定过程之后,即可进行田间试验育种的过程,在田间试验育种的过程中,在育种样本成熟之后即可对任一类育种样本中的每个样本进行性状数据的采集。则本发明实施例以小麦育种样本为例,分别对田间试验育种的每个小麦样本进行性状数据的采集,从而获取到第i个小麦样对应的多维性状数据,其中多维性状数据是指数值类性状,例如:株高、成熟天数、粒重等,具体的性状类别可参考育种材料决选的评价算法中所需的性状类别。
对于采集到的每个小麦样本的多维性状数据,将其整理为多维性状样本数据空间,用于后续的数据分析过程,其中,多维性状样本数据空间中的每个维度即为小麦样本对应的一个性状监测数值,如株高、成熟天数、粒重等,且多维性状样本数据空间的维度和小麦样本的多维性状数据的维度是相同的,一个小麦样本的多维性状数据在多维性状样本数据空间中对应一个数据点。
步骤S102,对多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,根据每个聚类簇中包含的数据点数量以及任意两个聚类簇之间的数据点分散差异,对预设数量个聚类簇进行簇类划分,得到对应的划分结果。
在对小麦样本的多维性状数据进行采集之后,为了确定每个小麦样本的多维性状数据在各自维度中的权重,以优化获取每个小麦样本的整体性状特征,则需要根据多维性状样本数据空间中的分布进行每个数据点的融合权重的评估,因此,本发明实施例中,针对于多维性状样本数据空间中的数据点,通过优化后的CBLOF算法进行每个小麦样本的权重的获取。
在获取到每个小麦样本的多维性状数据和构建得到多维性状样本数据空间之后,利用K-means聚类算法对多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,具体的,首先设置K-means聚类算法的K值,在CBLOF算法的无监督离群检测过程中,前置的K-means聚类过程中的聚类簇的数量设置得越多,则可以在多维性状样本数据空间中划分出更多的聚类簇,从而使得在后续的离群分析过程中就可以通过更细致的分析来保证数据点离群判断的准确性,因此,对多维性状样本数据空间的数据点进行聚类所得到的聚类簇数量可以根据分析精度进行适度调整,优选的,本发明实施例中设置K=30,从而将多维性状样本数据空间中的数据点划分为30个聚类簇。
在获取到对多维性状样本数据空间中的数据点进行聚类后的聚类簇结果之后,即可以根据CBLOF算法的无监督离群检测过程,通过聚类簇类中的数据点数量进行常规聚类簇与非常规聚类簇的划分。在CBLOF算法的无监督离群检测过程中,其是通过上述过程获取到的每个聚类簇中的数据点数量进行聚类簇的排序,之后通过数据点数量从高到低进行聚类簇的数据点数量的累加,通过设定的累加数据点数量与总数据点数量的比例作为限制(通常设定为),将累加的聚类簇划分为常规聚类簇,剩余的聚类簇划分为非常规聚类簇。最后,对于常规聚类簇中的数据点,通过每个数据点与其对应的簇类中心点之间的多维空间的欧氏距离进行每个性状对应的离群程度的衡量,对于非常规聚类簇中的数据点,通过其与多维性状样本数据空间中最近的常规聚类簇的簇类中心点之间的欧氏距离进行每个性状对应的离群程度的衡量。
但是在CBLOF算法的无监督离群检测过程中,如果田间试验育种过程中的育种材料在样本性状中出现固定存在的少量性状特征时(所述的少量性状特征即为在田间试验育种过程中出现多维性状样本数据空间中一小部分数据点呈现为与常规聚类簇的相似分布特征,存在这种与数据点较多的正常聚类簇相似分布的小聚类簇),则有可能是具有固定概率的离群性状,如果将这些数据点作为离群点进行权重分配,则会导致小麦样本的性状特征获取出现偏差,因此,本发明实施例中,根据每个聚类簇中包含的数据点数量以及任意两个聚类簇之间的数据点分散差异,对预设数量个聚类簇进行簇类划分,得到对应的划分结果,从而在后续的权重获取过程中对出现上述情况的小聚类簇中的数据点进行优化。
其中,根据每个聚类簇中包含的数据点数量以及任意两个聚类簇之间的数据点分散差异,对预设数量个聚类簇进行簇类划分,得到对应的划分结果,具体过程如下:
(1)根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度。
优选的,根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,包括:
针对任一聚类簇中的任一数据点,分别获取所述数据点的多维性状数据与所述聚类簇中的每个其他数据点的多维性状数据之间的欧氏距离,得到所述数据点对应的欧式距离均值;
根据所述聚类簇中的每个数据点对应的欧式距离均值,获取欧式距离均值的平均值,将对所述欧式距离均值的平均值进行归一化后的结果作为所述聚类簇的样本分散程度。
在一实施方式中,以第m个聚类簇为例,则第m个聚类簇的样本分散程度的计算表达式为:
其中,表示第m个聚类簇的样本分散程度,/>表示归一化处理,/>表示第m个聚类簇中包含的数据点数量,/>表示第m个聚类簇中的第i个数据点的多维性状数据,表示第m个聚类簇中的第q个数据点的多维性状数据,/>表示第m个聚类簇中的第i个数据点的多维性状数据与第q个数据点的多维性状数据之间的欧式距离。
需要说明的是,针对于第m个聚类簇,通过第m个聚类簇中的每两个数据点之间的距离进行聚类簇的整体扩散性评估,两个数据点之间的欧式越大,说明第m个聚类簇中的数据点分布越分散,对应第m个聚类簇的样本分散程度越大。
优选的,根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度,包括:
针对所述预设数量个聚类簇中的任一两个聚类簇,获取所述两个聚类簇之间的样本分散程度的差值绝对值作为初始相似程度;
根据所述两个聚类簇中的每个数据点与簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子;
将所述初始相似程度与所述相似度优化因子之间的乘积作为所述两个聚类簇之间的相似程度。
在一实施方式中,在根据聚类簇中每两个数据点之间的欧式距离进行簇类中的所有小麦样本在多维性状样本数据空间中的分布轮廓分析之后,在对聚类簇进行常规聚类簇和非常规聚类簇的划分过程中,可以通过聚类簇之间的分布轮廓差异进行划分,也即是可以通过判断两个聚类簇之间是否具有相似的分布轮廓信息,当数据点数量少的小聚类簇与数据点数量多的大聚类簇之间的分布轮廓信息相似时,则说明聚类簇中的数据点的离散性时相似的,因此,针对任一两个聚类簇,可以通过聚类簇之间的样本分散程度差异,进行簇类相似程度的评估。
以第m个聚类簇和第n个聚类簇为例,则第m个聚类簇和第n个聚类簇之间的初始相似程度的计算表达式为:
其中,表示第m个聚类簇和第n个聚类簇之间的初始相似程度,/>表示第m个聚类簇的样本分散程度,/>表示第n个聚类簇的样本分散程度,| |表示绝对值符号。
由于在通过聚类簇之间的样本分散程度的差异进行聚类簇之间的初始相似程度的评估过程中,多维性状样本数据空间中大聚类簇与小聚类簇之间的数据点数量是存在差异的,因此,在对聚类簇之间进行初始相似程度的评估过程中,还存在着由于聚类簇中的数据点数量差异而出现的在多维性状样本数据空间中的分布不均衡导致的初始相似程度不准确,故需要在对聚类簇之间进行初始相似程度的评估过程中,将数据点数量多的聚类簇根据数据点数量少的聚类簇进行相同数量的数据点选取,从而通过这些数据点与簇类中心点之间的欧式距离进行簇类相似度的优化,则根据第m个聚类簇和第n个聚类簇中的每个数据点与簇类中心点之间的多维性状数据差异,获取第m个聚类簇和第n个聚类簇之间的相似度优化因子。
在获取到第m个聚类簇和第n个聚类簇之间的相似度优化因子之后,利用相似度优化因子对第m个聚类簇和第n个聚类簇之间的初始相似程度进行优化,从而得到优化后的初始相似程度,也即是第m个聚类簇和第n个聚类簇之间的相似程度,其中第m个聚类簇和第n个聚类簇之间的相似程度的计算表达式为:
其中,表示第m个聚类簇和第n个聚类簇之间的相似程度,/>表示第m个聚类簇和第n个聚类簇之间的初始相似程度,/>表示第m个聚类簇和第n个聚类簇之间的相似度优化因子。
优选的,根据所述两个聚类簇中的每个数据点与簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子,包括:
根据所述两个聚类簇中的每个聚类簇所包含的数据点数量,获取最小数据点数量;
取所述两个聚类簇中的任一聚类簇作为目标聚类簇,根据所述目标聚类簇中的每个数据点与所述目标聚类簇的簇类中心点之间的欧式距离,按照欧式距离从小到大的顺序选择所述最小数据点数量个欧式距离对应数据点作为目标数据点;
根据每个所述目标数据点与所述目标聚类簇的簇类中心点之间的欧式距离,计算第一欧式距离均值;
获取所述两个聚类簇之间的第一欧式距离均值之间的差值,对所述差值进行归一化处理,对应得到归一化值作为所述两个聚类簇之间的相似度优化因子。
在一实施方式中,分别统计第m个聚类簇中包含的数据点数量和第n个聚类簇中包含的数据点数量/>,取数据点数量/>和数据点数量/>中的最小数据点数量,将其记为/>,针对第m个聚类簇或第n个聚类簇,根据聚类簇中的每个数据点与簇类中心点之间的欧式距离,按照欧式距离从小到大的顺序选择/>个欧式距离对应数据点作为目标数据点,进而根据第m个聚类簇和第n个聚类簇中的目标数据点,获取第m个聚类簇和第n个聚类簇之间的相似度优化因子,则第m个聚类簇和第n个聚类簇之间的相似度优化因子的计算表达式为:
其中,表示第m个聚类簇和第n个聚类簇之间的相似度优化因子,/>表示归一化函数,/>表示第n个聚类簇中的目标数据点的数量,/>表示第n个聚类簇中的第i个目标数据点的多维性状数据,/>表示第n个聚类簇的簇类中心点的多维性状数据,表示第n个聚类簇中的第i个目标数据点的多维性状数据与第n个聚类簇的簇类中心点的多维性状数据之间的欧式距离,/>表示第m个聚类簇中的目标数据点的数量,/>表示第m个聚类簇中的第i个目标数据点的多维性状数据,/>表示第m个聚类簇的簇类中心点的多维性状数据,/>表示第m个聚类簇中的第i个目标数据点的多维性状数据与第m个聚类簇的簇类中心点的多维性状数据之间的欧式距离。
需要说明的是,通过对数据点数量多的聚类簇中进行根据数据点数量少的聚类簇中数据点数量进行目标数据点选取,从而通过选取的目标数据点与簇类中心点之间的欧式距离的均值差异进行相似度优化因子的衡量,从而在聚类簇之间的相似程度的衡量过程中,消除田间试验育种的样本数据中出现的大聚类簇在多维性状样本数据空间中出现的因为数据点集中导致的簇类范围较大,从而导致的聚类簇之间的相似程度衡量不准确的问题。
(2)根据每个所述聚类簇中包含的数据点数量以及所述每两个聚类簇之间的相似程度,将所述预设数量个聚类簇划分为常规聚类簇和非常规聚类簇。
具体的,根据每个所述聚类簇中包含的数据点数量,将每个所述聚类簇的数据点数量按照数据点数量从大到小进行依次累加,直到累加的数据点数量满足第一预设数量要求,则将参与累加的聚类簇作为常规聚类簇,将未参与累加的聚类簇作为非常规聚类簇;
令所述非常规聚类簇中的任一聚类簇作为候选聚类簇,根据所述候选聚类簇与所述常规聚类簇中的每个聚类簇之间的相似程度,获取平均相似程度;
根据所述非常规聚类簇中的每个聚类簇对应的平均相似程度,将所述非常规聚类簇中的每个聚类簇的数据点数量按照平均相似程度从大到小的顺序依次添加到所述常规聚类簇中,直至所述常规聚类簇中的数据点总数量满足第二预设数量要求。
在一实施方式中,在获取每两个聚类簇之间的相似程度之后,即可在CBLOF算法的簇类划分过程中,通过降低数据点数量占比阈值来进行常规聚类簇与非常规聚类簇的划分。首先,将累加的数据点数量的第一占比阈值设定为(可以根据实际需要进行调整),将每个聚类簇的数据点数量按照数据点数量从大到小进行依次累加,获取累加的数据点数量在数据点总数量的占比,直至占比不小于70%停止数据点数量的累加,并将参与累加的聚类簇作为常规聚类簇,将未参与累加的聚类簇作为非常规聚类簇。
然后,在非常规聚类簇中,令非常规聚类簇中的任一聚类簇作为候选聚类簇,由于候选聚类簇和常规聚类簇中的每个聚类簇之间的都存在一个相似程度,因此,可以获取候选聚类簇与常规聚类簇中的所有聚类簇之间的平均相似程度,至此,非常规聚类簇中的每个聚类簇都对应一个平均相似程度。进而通过非常规聚类簇中的每个聚类簇的平均相似程度从高到低的簇类排序进行二次划分,也即是将非常规聚类簇中的每个聚类簇的数据点数量按照平均相似程度按照从大到小的顺序依次添加到常规聚类簇中,直至常规聚类簇中包含的数据点数量的占比达到第二占比阈值80%,至此,将所有的聚类簇划分为常规聚类簇和非常规聚类簇。
步骤S103,针对多维性状样本数据空间中的任一数据点,根据数据点的多维性状数据和划分结果,分别获取数据点的多维性状数据中的每个维度的性状离群程度,根据多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值。
在得到CBLOF算法的簇类划分结果之后,针对于常规聚类簇中的任一数据点,通过该数据点的每个维度对应的性状与其簇类中心点之间的距离作为对应维度的性状的综合权重衡量基础;而针对于非常规聚类簇中的任一数据点,则通过每个数据点中的每个维度对应的性状与其在多维性状样本数据空间中最近的常规聚类簇的簇类中心点之间的距离作为对应维度的性状的综合权重衡量基础,因此,本发明实施例中,针对多维性状样本数据空间中的任一数据点,根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,具体获取方法为:
若所述数据点属于所述常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,根据所述划分结果确定所述数据点所属的聚类簇,并获取所述数据点所属的聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在所述维度对应的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的所述维度的性状离群程度;
若所述数据点属于所述非常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,获取与所述数据点距离最近的常规聚类簇,并将与所述数据点距离最近的常规聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在所述维度对应的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的所述维度的性状离群程度。
在一实施方式中,以多维性状样本数据空间中的第x个数据点为例,则第x个数据点的多维性状数据中的第j个维度的性状离群程度的计算表达式为:
其中,表示第x个数据点的多维性状数据中的第j个维度的性状离群程度,表示归一化函数,/>表示第x个数据点的多维性状数据中的第j个维度的性状数值,/>表示第x个数据点对应的目标点的多维性状数据中的第j个维度的性状数值,表示第x个数据点的多维性状数据中的第j个维度的性状数值与第x个数据点对应的目标点的多维性状数据中的第j个维度的性状数值之间的欧式距离。
利用上述第x个数据点的多维性状数据中的第j个维度的性状离群程度的获取方法,能够获取第x个数据点的多维性状数据中的每个维度的性状离群程度,进而针对多维性状数据中包含的任一维度的性状特征,根据每个数据点在该维度的性状离群程度,获取该维度的性状特征优化值,具体获取方法为:
针对多维性状数据中的任一维度,分别获取所述多维性状样本数据空间中的每个数据点在所述维度的数值和性状离群程度之间的乘积,得到乘积均值,将所述乘积均值作为所述维度的整体性状特征优化值。
在一实施方式中,小麦育种样本中的多维性状数据中的第j个维度的整体性状特征优化值的计算表达式为:
其中,表示多维性状数据中的第j个维度的整体性状特征优化值,M表示多维性状样本数据空间中的数据点总数量,/>表示第x个数据点的多维性状数据中的第j个维度的性状离群程度,/>表示第x个数据点的多维性状数据中的第j个维度的性状数值。
至此,根据多维性状数据中的第j个维度的整体性状特征优化值的获取方法,分别获取多维性状数据中的每个维度的整体性状特征优化值,也即是获取了小麦育种样本的每个性状的整体性状特征值。
步骤S104,根据多维性状数据中的每个维度的整体性状特征优化值,对田间试验育种的所述类育种样本进行成果评价。
在获取到田间试验育种的小麦育种样本所提取出的各个性状的整体性状特征值之后,根据多维性状数据中的每个维度的整体性状特征优化值,对田间试验育种的所述类育种样本进行成果评价,具体的,获取各个维度的预设性状特征值阈值,若所述多维性状数据中的任一维度的整体性状特征优化值满足所述维度的预设性状特征值阈值,则对所述类育种样本的育种材料组合进行标记保留,反之,将所述类育种样本的育种材料组合淘汰。
需要说明的是,每一个性状都对应一个整体性状特征值阈值,每个整体性状特征值阈值也即是试验前对性状预期要求所对应的数值,例如:针对小麦育种样本的株高,设置株高的整体性状特征值阈值为90厘米。
综上所述,分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,根据所有样本的多维性状数据,构建得到多维性状样本数据空间;对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果;针对所述多维性状样本数据空间中的任一数据点,根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值;根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的所述类育种样本进行成果评价。其中,通过对田间试验育种的任一类育种样本的多维性状数据进行离群分析,以根据多维性状样本数据空间中的数据点聚类簇中的数据点分布特征,对性状出现的异常性进行优化分析,避免田间试验育种过程中具有相似分布特征的小聚类簇被划分为非常规聚类簇,从而导致育种样本的多维性状数据在综合特征提取过程中的权重过低,进而无法准确地获取每个育种样本的整体性状特征值。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (2)

1.一种用于数字化育种流程的成果评价优化方法,其特征在于,所述方法包括:
分别获取田间试验育种的任一类育种样本中的每个样本的多维性状数据,根据所有样本的多维性状数据,构建得到多维性状样本数据空间;
对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果;
针对所述多维性状样本数据空间中的任一数据点,根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值;
根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的对应类育种样本进行成果评价;
所述根据每个所述聚类簇中包含的数据点数量以及任意两个所述聚类簇之间的数据点分散差异,对所述预设数量个聚类簇进行簇类划分,得到对应的划分结果,包括:
根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度;
根据每个所述聚类簇中包含的数据点数量以及所述每两个聚类簇之间的相似程度,将所述预设数量个聚类簇划分为常规聚类簇和非常规聚类簇;
所述根据每个所述聚类簇中的每两个数据点之间的距离,分别获取每个所述聚类簇的样本分散程度,包括:
针对任一聚类簇中的任一数据点,分别获取所述数据点的多维性状数据与所述聚类簇中的每个其他数据点的多维性状数据之间的欧氏距离,得到所述数据点对应的欧式距离均值;
根据所述聚类簇中的每个数据点对应的欧式距离均值,获取欧式距离均值的平均值,将对所述欧式距离均值的平均值进行归一化后的结果作为所述聚类簇的样本分散程度;
所述根据所述预设数量个聚类簇之间的样本分散程度差异,分别获取每两个聚类簇之间的相似程度,包括:
针对所述预设数量个聚类簇中的任意两个聚类簇,获取所述两个聚类簇之间的样本分散程度的差值绝对值作为初始相似程度;
根据所述两个聚类簇中的每个数据点与对应的簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子;
将所述初始相似程度与所述相似度优化因子之间的乘积作为所述两个聚类簇之间的相似程度;
所述根据所述两个聚类簇中的每个数据点与对应的簇类中心点之间的多维性状数据差异,获取所述两个聚类簇之间的相似度优化因子,包括:
根据所述两个聚类簇中的每个聚类簇所包含的数据点数量,获取最小数据点数量;
取所述两个聚类簇中的任一聚类簇作为目标聚类簇,根据所述目标聚类簇中的每个数据点与所述目标聚类簇的簇类中心点之间的欧式距离,按照欧式距离从小到大的顺序选择所述最小数据点数量个欧式距离对应数据点作为目标数据点;
根据每个所述目标数据点与所述目标聚类簇的簇类中心点之间的欧式距离,计算第一欧式距离均值;
获取所述两个聚类簇的第一欧式距离均值之间的差值,对所述差值进行归一化处理,对应得到归一化值作为所述两个聚类簇之间的相似度优化因子;
所述根据每个所述聚类簇中包含的数据点数量以及所述每两个聚类簇之间的相似程度,将所述预设数量个聚类簇划分为常规聚类簇和非常规聚类簇,包括:
根据每个所述聚类簇中包含的数据点数量,将每个所述聚类簇的数据点数量按照数据点数量从大到小进行依次累加,直到累加的数据点数量满足第一预设数量要求,则将参与累加的聚类簇作为常规聚类簇,将未参与累加的聚类簇作为非常规聚类簇;
令所述非常规聚类簇中的任一聚类簇作为候选聚类簇,根据所述候选聚类簇与所述常规聚类簇中的每个聚类簇之间的相似程度,获取平均相似程度;
根据所述非常规聚类簇中的每个聚类簇对应的平均相似程度,将所述非常规聚类簇中的每个聚类簇的数据点数量按照平均相似程度从大到小的顺序依次添加到所述常规聚类簇中,直至所述常规聚类簇中的数据点总数量满足第二预设数量要求;
所述根据所述数据点的多维性状数据和所述划分结果,分别获取所述数据点的多维性状数据中的每个维度的性状离群程度,包括:
若所述数据点属于所述常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,根据所述划分结果确定所述数据点所属的聚类簇,并获取所述数据点所属的聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在对应维度的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的对应维度的性状离群程度;
若所述数据点属于所述非常规聚类簇中的数据点,则针对所述数据点的多维性状数据中的任一维度,获取与所述数据点距离最近的常规聚类簇,并将与所述数据点距离最近的常规聚类簇的簇类中心点作为目标点,根据所述数据点与所述目标点分别在对应维度的数值,获取对应的欧式距离,对所述欧式距离进行归一化处理,对应得到的归一化结果作为所述数据点的多维性状数据中的对应维度的性状离群程度;
所述根据所述多维性状样本数据空间中的每个数据点的多维性状数据中的每个维度的性状离群程度,分别获取多维性状数据中的每个维度的整体性状特征优化值,包括:
针对多维性状数据中的任一维度,分别获取所述多维性状样本数据空间中的每个数据点在对应维度的数值和性状离群程度之间的乘积,得到乘积均值,将所述乘积均值作为对应维度的整体性状特征优化值;
所述根据所述多维性状数据中的每个维度的整体性状特征优化值,对所述田间试验育种的对应类育种样本进行成果评价,包括:
获取各个维度的预设性状特征值阈值,若所述多维性状数据中的任一维度的整体性状特征优化值满足所述维度的预设性状特征值阈值,则对对应类育种样本的育种材料组合进行标记保留。
2.根据权利要求1所述的一种用于数字化育种流程的成果评价优化方法,其特征在于,所述对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇,包括:
利用K-means聚类算法对所述多维性状样本数据空间中的所有数据点进行聚类,得到预设数量个聚类簇。
CN202410121658.1A 2024-01-30 2024-01-30 一种用于数字化育种流程的成果评价优化方法 Active CN117649059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410121658.1A CN117649059B (zh) 2024-01-30 2024-01-30 一种用于数字化育种流程的成果评价优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410121658.1A CN117649059B (zh) 2024-01-30 2024-01-30 一种用于数字化育种流程的成果评价优化方法

Publications (2)

Publication Number Publication Date
CN117649059A CN117649059A (zh) 2024-03-05
CN117649059B true CN117649059B (zh) 2024-05-17

Family

ID=90045461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410121658.1A Active CN117649059B (zh) 2024-01-30 2024-01-30 一种用于数字化育种流程的成果评价优化方法

Country Status (1)

Country Link
CN (1) CN117649059B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和系统
CN107644032A (zh) * 2016-07-21 2018-01-30 中兴通讯股份有限公司 离群点检测方法和装置
CN110083665A (zh) * 2019-05-05 2019-08-02 贵州师范大学 基于改进的局部异常因子检测的数据分类方法
EP3696743A1 (de) * 2019-02-12 2020-08-19 Siemens Aktiengesellschaft Verfahren und überwachungsvorrichtung zur überwachung eines technischen systems mittels anomalieerkennung
CN111611293A (zh) * 2020-04-24 2020-09-01 太原太工天宇教育科技有限公司 一种基于特征加权与MapReduce的离群数据挖掘方法
CN111652303A (zh) * 2020-05-28 2020-09-11 辽宁工程技术大学 基于非独立同分布下谱聚类的离群值检测方法
CN115809435A (zh) * 2023-02-06 2023-03-17 山东星科智能科技股份有限公司 基于模拟器的汽车运行故障识别方法
CN117272209A (zh) * 2023-11-20 2023-12-22 江苏新希望生态科技有限公司 一种芽苗菜生长数据采集方法及系统
CN117313017A (zh) * 2023-11-28 2023-12-29 山东艺林市政园林建设集团有限公司 一种彩叶研发数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644032A (zh) * 2016-07-21 2018-01-30 中兴通讯股份有限公司 离群点检测方法和装置
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和系统
EP3696743A1 (de) * 2019-02-12 2020-08-19 Siemens Aktiengesellschaft Verfahren und überwachungsvorrichtung zur überwachung eines technischen systems mittels anomalieerkennung
CN110083665A (zh) * 2019-05-05 2019-08-02 贵州师范大学 基于改进的局部异常因子检测的数据分类方法
CN111611293A (zh) * 2020-04-24 2020-09-01 太原太工天宇教育科技有限公司 一种基于特征加权与MapReduce的离群数据挖掘方法
CN111652303A (zh) * 2020-05-28 2020-09-11 辽宁工程技术大学 基于非独立同分布下谱聚类的离群值检测方法
CN115809435A (zh) * 2023-02-06 2023-03-17 山东星科智能科技股份有限公司 基于模拟器的汽车运行故障识别方法
CN117272209A (zh) * 2023-11-20 2023-12-22 江苏新希望生态科技有限公司 一种芽苗菜生长数据采集方法及系统
CN117313017A (zh) * 2023-11-28 2023-12-29 山东艺林市政园林建设集团有限公司 一种彩叶研发数据处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Outlier Detection using Cluster-Based Approach;Ms. Mayuri Anil Bhangare et al;《International Journal Of Advance Research And Innovative Ideas In Education》;20171231;第3卷(第5期);第923-933页 *
基于三维点云的油菜植株形态结构性状提取研究;史双月;《中国优秀硕士学位论文全文数据库农业科技辑》;20240115(第01期);摘要,第1-61页 *

Also Published As

Publication number Publication date
CN117649059A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
KR100998456B1 (ko) 클러스터링 시스템 및 결함 종류 판정 장치
CN110352389B (zh) 信息处理装置及信息处理方法
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN114627125A (zh) 一种基于光学手段的不锈钢压片机表面质量评估方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN111784093A (zh) 一种基于电力大数据分析的企业复工辅助判断方法
CN111291822A (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN113810792B (zh) 一种基于云计算的边缘数据采集分析系统
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN111027841A (zh) 一种基于梯度提升决策树的低压台区线损计算方法
CN116975672B (zh) 一种煤矿皮带输送电机温度监测方法及系统
CN110956331A (zh) 数字工厂运营状态预测方法、系统、装置
CN109033205B (zh) 基于数据输入行为分析的航天测试数据校核装置
CN110595956A (zh) 一种基于磨粒群分形特征的磨损状态突变检测方法
CN117649059B (zh) 一种用于数字化育种流程的成果评价优化方法
CN104990891A (zh) 一种种子近红外光谱和光谱图像定性分析模型建立方法
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
CN113255810B (zh) 基于关键决策逻辑设计测试覆盖率的网络模型测试方法
CN109767430B (zh) 有价票据的质量检测方法及质量检测系统
KR101696105B1 (ko) 결함원인 분석장치 및 방법
CN114597886A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法
KR100581673B1 (ko) 데이터 분류방법
CN112465073A (zh) 一种基于距离的数值分布异常检测方法及检测系统
CN113555124A (zh) 一种基于机器学习的血常规样本差值核查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant