CN115860676A - 一种农作物育种材料自动晋级推荐方法及系统 - Google Patents

一种农作物育种材料自动晋级推荐方法及系统 Download PDF

Info

Publication number
CN115860676A
CN115860676A CN202211576859.8A CN202211576859A CN115860676A CN 115860676 A CN115860676 A CN 115860676A CN 202211576859 A CN202211576859 A CN 202211576859A CN 115860676 A CN115860676 A CN 115860676A
Authority
CN
China
Prior art keywords
promotion
recommendation
data
conditions
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211576859.8A
Other languages
English (en)
Inventor
周斌
朱芳
谢志春
奉斌
贺婷
朱雯煜
周欢
吴昕
王冰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Biobin Data Science Co ltd
Original Assignee
Changsha Biobin Data Science Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Biobin Data Science Co ltd filed Critical Changsha Biobin Data Science Co ltd
Priority to CN202211576859.8A priority Critical patent/CN115860676A/zh
Publication of CN115860676A publication Critical patent/CN115860676A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种农作物育种材料自动晋级推荐方法及系统,包括:S1:获取育种材料的表型数据;S2:获得性状指标数据;S3:创建晋级推荐模型,晋级推荐模型允许用户自定义设置晋级条件和推荐条件;同时系统通过将系统内的性状指标数据组成训练数据集,进行晋级条件和推荐条件的优化计算,并通过测试数据集的验证得到优化的晋级推荐模型;S4:选择晋级推荐模型对育种材料性状指标数据进行处理分析,获得晋级系数和推荐系数,并进行推荐排名;S5:显示分析结果。本发明只需输入试验数据就可自动晋级并推荐出优良材料,无需使育种家依靠经验逐条核对,也无需通过电子表格进行整理和编写,工作效率高,从而在大量指标中快速筛选出综合指标最优的材料推荐给育种家。

Description

一种农作物育种材料自动晋级推荐方法及系统
技术领域
本发明涉及农业育种与计算机信息化交叉技术领域,特别是一种农作物育种材料自动晋级推荐方法及系统。
背景技术
现阶段育种过程中,挑选优质材料基本上是人工核对各项育种指标,通过育种家的经验选择合适的育种材料进行后续的育种,或者选择优良的作物品种进行商业化开发。部分育种家也使用Excel等电子表格工具,对数据进行排序和筛选。目前技术存在以下缺点:
1.过多的依靠育种家的经验,逐条数据进行核对分析,费时费力,效率不高;且对于经验不够的人,很难在大量的指标中,快速的选择出综合指标最优的结果。
2.育种数据的分析需要同时分析多个指标和多种参数,使用Excel进行简单的排序和筛选,无法快速的将多个指标快速整合在一起分析,每次整理数据和编写公式也比较浪费时间,无法实现数据的整合和信息化处理。
3.当数据不完整时,例如需要三年的测试数据,只测试了两年,如果是人工处理,那需要对大量数据进行人工补充,操作十分繁琐;如果是用Excel处理,则Excel无法自动补充数据,只能将材料淘汰;这样既无法实现高效处理数据,也无法保证尽可能多的保留优质材料。
4.现有采用农业育种与计算机结合的技术,大多是针对某一农作物的至少一个表型性状进行分析,然后对表型性状进行改进,通过育种方法来选育出优质的农作物品种。然而该技术在实施过程中,会产生大量的候选材料,目前技术并不能在大量候选材料中自动推荐出达到要求的优质材料,因此无法解决本发明的技术问题。
发明内容
本发明的目的是克服现有技术的上述不足而提供一种自动化高,效率高,精确筛分、计算简化的农作物育种材料自动晋级推荐方法及系统。
本发明的技术方案是:
本发明之一种农作物育种材料自动晋级推荐方法,包括以下步骤:
S1:获取育种材料的表型数据;
S2:对获取的表型数据进行性状指标分析,获得性状指标数据;
S3:创建晋级推荐模型,晋级推荐模型允许用户自定义设置晋级条件和推荐条件;同时系统通过将系统内表型指标分析数据组成训练数据集,利用训练数据集进行晋级条件和推荐条件的优化计算,并通过测试数据集的验证得到优化的晋级推荐模型;
S4:选择晋级推荐模型对育种材料性状指标数据进行处理分析,若育种材料不满足晋级条件,则淘汰;若满足晋级条件,则材料晋级并获得晋级系数,用于排名展示;
S5:对晋级的育种材料按照推荐条件进行推荐分析,计算推荐系数,根据推荐系数对晋级的育种材料进行推荐排名;
S6:显示分析结果。
进一步,所述晋级推荐模型包括晋级条件和推荐条件;先判断育种材料的各性状指标是否满足晋级条件,并计算晋级系数;若不满足,则育种材料被视为淘汰;若满足,则按照推荐条件进行分析,计算推荐系数;
根据育种材料所满足的晋级条件和推荐条件的项数,来进行分值计算,每满足一条项数要求,则增加一分,且每项均被赋予相对应的权重,得到晋级系数或推荐系数;以此类推,统计所有晋级条件或推荐条件的得分情况,汇总出晋级系数或推荐系数;按照推荐系数从高到低,对所有的育种材料进行排名;根据排名高低,向用户推荐优良材料。
进一步,所述优化的晋级推荐模型包括优化晋级条件,优化晋级条件的获取方法包括:
获取育种材料的表型历史数据,对历史数据进行性状指标分析,将分析后的数据组成晋级训练数据集,计算每个性状指标的性状阈值,将性状阈值作候选晋级条件,用于测试数据集的测试;通过人工设置测试数据集的晋级通过比例,当测试数据集中超过该比例时晋级,则候选晋级条件作为优化晋级条件;若测试数据集中的晋级材料数量未达到该比例时,则重新调整相应的性状阈值范围,调整后继续进行测试数据集的测试,直至获得优化晋级条件。
进一步,所述优化的晋级推荐模型还包括优化推荐条件,优化推荐条件的获取方法包括:
获取育种材料的表型历史数据,对历史数据进行性状指标分析,将分析后的数据组成推荐训练数据集,计算每个性状指标的性状阈值,将性状阈值作候选推荐条件,用于测试数据集的测试;通过人工设置测试数据集的推荐排名通过比例,当测试数据集中超过该比例时晋级,则候选推荐条件作为优化推荐条件;若测试数据集中的推荐材料数量未达到该比例时,则重新调整相应的性状阈值范围,调整后继续进行测试数据集的测试,直至获得优化推荐条件。
进一步,所述晋级推荐模型中的晋级系数或推荐系数的计算方法包括:将某一育种材料
的性状指标数据转换为大于0且小于1的小数,再与代表满足条件的“1”分相加,之后乘以权重,作为晋级系数或推荐系数;又或先将转换后的小数先与权重相乘,再加“1”分,作为晋级系数或推荐系数;当某一性状指标的数值越小越好时,先将该数值转换为大于0且小于1的小数,再用1减去该小数,之后再与代表满足条件的“1”分相加,乘以权重,或先与权重相乘,再加“1”分,来作为晋级系数或推荐系数。
进一步,在晋级推荐模型中,还设置有强制通过的选项;即使该育种材料不满足条件被
淘汰,用户根据需求可做出强制通过的操作,进行强制晋级或强制推荐。
进一步,所述性状指标数据包括平均值、估计值、对照百分比、育种值、排名、育种值排名、最小值、最大值、调整估计值、最小二乘均值、标准差、稳定性、估计值排名、显著性、F值、方差、增产点数、增产点比例中的一种或多种。
本发明之一种农作物育种材料自动晋级推荐系统,包括:
数据获取模块,用于获取育种材料的表型数据;
数据分析模块,用于对表型数据的相对应性状指标进行计算;
数据存储模块,用于储存表型数据和由数据分析模块分析出的性状指标数据;
晋级推荐管理模块,包括晋级推荐模型管理模块和晋级推荐分析任务管理模块;所述晋级推荐模型管理模块用于创建晋级推荐模型;所述晋级分析任务管理模块用于创建晋级推荐分析任务;
规则引擎处理器,用于将数据分析模块分出的性状指标数据作为输入,分别进入不同的规则模型进行运算,计算出晋级系数和推荐系数,并统计所有晋级条件或推荐条件的得分情况,并按照推荐系数从高到低,对所有的育种材料进行优良排名;
结果展示模块,用于展示分析结果。
进一步,所述规则引擎处理器包括规则集区域、计算区域和数据区域;
所述规则集区域包含所设定的多个规则,且每条规则都包含具体业务规则计算逻辑;所述规则是指晋级推荐模型中所设置的能够达到的晋级条件和推荐条件的性状指标数据范围;
所述计算区域,用于对晋级推荐模型中的晋级系数及推荐系数进行计算、汇总以及排名;
所述数据区域用于储存每条规则的数据,主要包括规则参数、计算结果以及规则权重。
进一步,还包括优化晋级推荐模型模块,所述优化晋级推荐模型模块包括:
模型优化分析模块,用于模型优化,包括晋级条件和推荐条件的优化;
所述训练数据集,用于存储对模型的历史数据所整合的训练数据;
所述测试数据集,用于获取晋级及推荐的育种材料,对初步优化的模型进行测试,并测试优化后的模型是否合适,给出合适的优化晋级条件和优化推荐条件。
本发明的有益效果:
(1)一方面,只需输入试验数据就可自动推荐出优良材料并展示晋级推荐详情,省时省力,无需使育种家依靠经验逐条核对,也无需通过Excel进行数据整理和公式编写,大大提高工作效率,从而在大量的指标中,快速筛选出综合指标最优的材料推荐给育种家;另一方面,当数据不完整时,只需导入新数据,系统会自动对历史数据和新数据整合和数据分析,操作十分简便,这样就不会像人工补充那样出现各种各样的失误操作,从而保证尽可能多的优质材料得到保留,且通过高效数据处理,能够实现精确筛分。
(2)通过采用权重来获取推荐系数,由于不同性状指标在计算晋级结果中所产生的影响比例因子是不一样的,因此引入权重的概念主要作为差异化手段,权重目前需要和育种家的经验相结合,根据条件自定义设置不同的权重。
(3)通过设置数据分析模块对表型数据进行性状指标计算,再将指标数据送至规则引擎处理器进行计算和分析,能达到松耦合,即性状指标是和业务紧密相关的数据,而规则引擎本身不带任何的业务逻辑属性,指标数据计算完毕以后输入到规则引擎,这样就能很好地将业务逻辑和应用逻辑进行分离;后期如果涉及晋级逻辑调整,则只需要修改相应的规则集就可以满足需求。
(4)系统内表型数据指标化分析后,形成训练数据集,通过训练数据集自动计算出各种性状指标的阈值,为育种家自动预测晋级推荐模型,同时利用晋级推荐材料的数据作为测试数据集,对预测出的晋级推荐模型的晋级条件和推荐条件进行自动判断和调整,实现利用系统内数据自动优化模型的功能,并根据新的晋级和推荐条件用于未来的育种选择,支持育种家用更严格的条件筛选育种材料。
附图说明
图1是本发明实施例1的流程示意图;
图2是本发明实施例1的晋级推荐模型分析界面示意图;
图3是图2所示实施例1晋级推荐模型分析界面的左侧放大示意图;
图4是图2所示实施例1晋级推荐模型分析界面的右侧放大示意图;
图5是本发明实施例1的晋级模型分析结果及推荐系数示意图;
图6是本发明实施例1的晋级推荐结果展示界面;
图7是本发明实施例1的晋级推荐结果确认界面;
图8是本发明实施例2晋级推荐模型优化流程示意图;
图9是本发明实施例2创建模型优化任务的界面示意图;
图10是本发明实施例2模型优化后显示优化结果的示意图;
图11是本发明实施例2的训练数据集部分截图;
图12是本发明实施例2的测试数据集部分截图;
图13是本发明实施例2的模型优化后重新晋级的数据;
图14是本发明实施例2的模型优化后重新推荐的数据。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
实施例1
一种农作物育种材料自动晋级推荐系统,包括:
(1)数据获取模块,用于获取育种材料的表型数据。具体地,数据获取方式主要包括:方式一:利用手机App记录田间表型数据,记录完毕点击APP上的数据同步功能键,数据同步到系统的数据存储模块中;方式二:利用电子表格,将田间表型数据直接导入系统的数据存储模块中。其中,表型数据是针对育种材料的各种性状而填写的数据,如亩产、株高、花期、病抗等。
其中,本实施例的育种材料也包括作物品种,也即:既包括育种过程中产生的材料,也包括审定之后有了正式身份的作物品种。
(2)数据分析模块,用于对表型数据的相对应性状指标进行计算,性状指标包括但不限于:平均值、估计值、对照百分比、育种值、排名、育种值排名、最小值、最大值、调整估计值、最小二乘均值、标准差、稳定性、估计值排名、显著性、F值、方差、增产点数、增产点比例等。例如:将获取的表型数据分组,每组经过数据分析模块进行上述的各指标计算,从而获得所有的性状指标。例如将获取的株高的相关数据通过数据分析模块计算出上述的平均值、估计值等等。其中,上述的“排名”是指对一组数据的性状按优良进行排名。可以理解的是,性状指标可根据需求进行选择,也可默认全选。
(3)数据存储模块,用于储存表型数据和由数据分析模块分析出的指标数据,以便于后续的表型晋级分析。具体地,数据存储模块采用关系型数据库。
(4)晋级推荐管理模块,包括晋级推荐模型管理模块和晋级推荐分析任务管理模块。
其中,晋级推荐模型管理模块用于创建晋级推荐模型,并对已有的晋级推荐模型进行编辑,删除,查询。晋级推荐模型用于后续晋级推荐分析,晋级推荐模型中的晋级条件和推荐条件是晋级分析、晋级评价,推荐分析、推荐评价的依据。
晋级推荐分析任务管理模块用于创建新的晋级分析任务,以适用于对不同需求的任务进行分析;已完成的晋级任务会储存在系统中,用户可以对已完成的任务进行查看,删除,查询。
(5)优化晋级推荐模型模块,用于晋级推荐模型的优化,包括模型优化分析模块、训练数据集和测试数据集。
模型优化分析模块用于模型优化,包括晋级条件的优化和推荐条件的优化。表型数据经指标化分析后,组成训练数据集,模型的初步优化基于对训练数据集的分析。测试数据集用于获取晋级及推荐的育种材料,对初步优化的模型进行测试,测试优化后的模型是否合适。模型具体的优化流程参照图8。
晋级条件优化具体流程如下:综合历史数据,将育种材料的历史数据进行性状指标分析。将分析后的数据组成晋级训练数据集,用于晋级条件优化。所有晋级材料的数据则整合形成晋级测试数据集。
通过百奥云的分析模型计算出每个性状的阈值。计算方式包括但不限于:单个性状,阈值需要达成5%的材料通过率。将计算的性状阈值作为候选晋级条件,用于测试数据集的测试。人工设置测试数据集通过比例,例如设置为95%,当测试数据集中超过95%的材料可以晋级的时候,则候选晋级条件可以作为推荐晋级条件保存;当测试数据集中晋级材料数量未达到95%的时候,重新调整阈值的范围,根据百奥云的分析模型重新计算出新的阈值。计算方式包括但不限于:根据材料数据的分布,重新调整某个或某几个性状的阈值,调整后继续进行测试数据集的测试,通过迭代计算,最终满足测试要求的晋级条件作为优化后的条件进行保存。
推荐条件优化具体流程如下:综合历史数据,将育种材料的历史数据进行性状指标分析。将分析后的数据组成晋级训练数据集,用于推荐条件优化,所有推荐材料的数据整合形成推荐测试数据集。
通过百奥云的分析模型计算出每个性状的阈值。计算方式包括但不限于:单个性状,阈值需要达成5%的材料通过率,或在通过率的基础之上给出推荐排名。将计算的性状阈值作为候选推荐条件,用于推荐测试数据集的测试。人工设置测试数据集通过比例,例如设置为95%,当测试数据集中超过95%的材料可以推荐的时候,则候选推荐条件可以作为推荐推荐条件保存;当测试数据集中推荐材料数量未达到95%的时候,重新调整阈值的范围,根据百奥云的分析模型重新计算出新的阈值。计算方式包括但不限于:根据材料数据的分布,重新调整某个或某几个性状的阈值。调整后继续进行测试数据集的测试,通过迭代计算,最终满足测试要求的推荐条件作为优化后的条件进行保存。
(6)规则引擎处理器,包括规则集区域、计算区域和数据区域。
规则集区域,包含所设定的多个规则,且每条规则都包含具体业务规则计算逻辑。其中,规则是指晋级推荐模型中所设置的能够达到的晋级条件和推荐条件的指标范围。规则引擎处理器将数据分析模块分析出的性状指标数据作为输入,依次进入不同的规则模型进行运算,它们共同驱使晋级和推荐系数的叠加。
计算区域,用于对晋级推荐模型中的晋级系数和推荐系数进行计算、汇总以及排名。例如晋级推荐模型中,先分析材料的晋级情况,即:对数据分析模块输入的性状指标数据进行计算,获得晋级系数,晋级系数的计算包括:每当规则集区域通过一条规则,计算区域的结果自动累加加1;优选先将性状指标数据转化成同类型的数值,如转化成小数,再乘以相应的权重系数,最后再将结果加1,即为晋级系数。允许用户对不同条件设置不同的重要程度,根据筛选条件重要程度不同,设置不同的权重系数,如果用户认为所有晋级条件的重要性是一致的,那么每个条件的权重一致,从而可省略权重的设置。晋级后的材料,需要用晋级推荐模型中的推荐条件对材料进行推荐。推荐分析,对数据分析模块输入的性状指标数据进行计算,且每当规则集区域通过一条规则,计算区域的结果自动累加加1;优选先将性状指标数据转化成同类型的数值,如转化成小数,再乘以相应的权重系数,最后再将结果加1,即为推荐系数。允许用户对不同条件设置不同的重要程度,根据筛选条件重要程度不同,设置不同的权重系数,如果用户认为所有晋级条件的重要性是一致的,那么每个条件的权重一致,从而可省略权重的设置。对权重系数的自由设置,便于育种家根据不同的育种目的,选择更合适材料。
数据区域,是每条规则的数据存储区域,主要包括规则参数、计算结果以及规则权重。
(7)结果展示模块,利用可视化展示手段将分析结果展示给客户,包括数据表格展示、结果图形展示等内容。
如图1所示:一种农作物育种材料自动晋级推荐方法,包括以下步骤:
S101:获取育种材料的表型数据。
具体地,使用人员需要获取育种材料的表型数据,表型数据可以是利用数据获取模块导入的新数据,也可以是晋级系统内的历史数据。获取表型数据后,保存于数据存储模块中。
S102:对获取的表型数据进行指标分析,获得性状指标数据。
具体地,通过数据分析模块对表型数据的相对应指标进行计算,性状指标包括但不限于:平均值、估计值、对照百分比、育种值、排名、育种值排名、最小值、最大值、调整估计值、最小二乘均值、标准差、稳定性、估计值排名、显著性、F值、方差、增产点数、增产点比例等。实施例中暂时以平均值举例,其余性状指标同样适用。
S103:基于性状指标数据,选择晋级推荐模型对性状指标数据进行处理分析,若育种材料达不到晋级条件,则淘汰;若满足晋级条件,给出晋级系数,并对选中的育种材料按照推荐条件进一步分析,同时对材料给出推荐系数。若满足推荐条件,则通过计算推荐系数对所有育种材料进行推荐排名,根据排名高低,向用户推荐优良的育种材料。
具体地,通过晋级推荐模型管理模块创建晋级推荐模型;并通过规则引擎处理器在每个模型中设置相应的规则;将数据分析模块分析出的性状指标数据作为输入,依次进入不同的规则模型进行运算,汇总出晋级系数及推荐系数。
其中,晋级推荐模型都包含两部分,第1部分是晋级条件,第2部分是推荐条件。
晋级条件是指育种材料必须满足的条件(即规则,如国标要求等),若达不到要求,则材料被判断为淘汰。
通过晋级条件淘汰不满足条件的育种材料后,对剩余材料给出晋级系数,并按照推荐条件进行分析,向用户推荐优良材料。推荐条件的具体分析方法为:
将某一育种材料的性状指标数据转换为大于0且小于1的小数,再与代表满足条件的“1”分相加,之后乘以权重,作为推荐系数;又或先将转换后的小数先与权重相乘,再加“1”分,作为推荐系数。
进一步,当某一性状指标的数值越小越好时,先将该数值转换为大于0且小于1的小数,再用1减去该小数,之后再与代表晋级的“1”分相加,乘以权重,或先与权重相乘,再加“1”分,来作为推荐系数。
依此类推,统计所有推荐条件的得分情况,汇总出推荐系数,按照推荐系数从高到低,对所有的育种材料进行排名。系统会根据排名高低,向用户推荐优良材料,并告知用户晋级的依据。
同时本实施例支持用户(育种家)对晋级条件或推荐条件的各个性状设置不同的权重,由于育种家积累了多年的育种经验,对育种有深刻的体会,对自己的育种目的有更强的理解,因此系统允许用户对不同晋级或推荐条件设置不同的权重,这样可以挑选出更具有特色的候选材料,达到不一样的筛选目的。
本实施例中,系统允许在任意一个模型的晋级条件或推荐条件上增加新的条件或改变相应的权重,以形成新的模型;根据新的模型,完成个性化的品种筛选。
可以理解的是,对于在晋级条件下淘汰的育种材料,也可以计算出晋级系数,并作出标记,与晋级的育种材料的晋级系数作为区分,例如在晋级系数上加上“*”号。之所以对淘汰的育种材料也作出晋级系数,是为了供用户参考,如果用户觉得这个材料可以晋级,也可做出强制通过的操作,以方便用户保留某些有特殊价值的材料。
本实施例可在系统操作界面选择需要的晋级推荐模型,创建分析任务。
以下为本发明根据不同的晋级推荐模型完成育种材料晋级推荐分析的优选实施例:
本实施例规则模型对于性状指标数据的规则判断标准类型主要分为以下三种:
(1)数值型数据判断标准
例如,规则模型中如果出现平均亩产大于600公斤/亩时,需要将候选材料的平均亩产数值与600这个数值进行比较,如果候选材料的平均亩产为700公斤/亩,则700>600,通过。如果候选材料平均亩产是599,599<600,则被淘汰。
特别的,在数值型数据计算晋级系数或推荐系数的时候,根据数据的正常范围,在系统中设置转化系数。即先将数据转换为小数,再与代表满足条件的“1”相加,之后乘以权重,作为晋级系数或推荐系数。例如:几个材料产量分别是500,600,700,750,以最大的750为基础,750是百位数,然后就要用千作为除数,以转换成不大于1的小数;之后此数值加上与代表满足条件的“1”相加,再乘以权重,作为汇总的晋级系数或推荐系数进行分析。
再例如,在“产量”的性状下,默认权重为“1”,A材料为“710”,B材料为“690”,晋级条件为600,则A和B都满足晋级条件,那么在“产量”这个性状下(默认权重为“1”),A获得的晋级系数为(1+710/1000)*1=1.71,B获得的晋级系数为(1+690/1000)*1=1.69,因此A比B获得了更高的晋级系数。
特别的,如果某个性状的数值是越小越好的时候,则需要先用1减去该数值,再与代表满足条件的“1”相加,之后乘以权重,作为晋级系数或推荐系数。例如,在“稻瘟病损失率”性状下,默认权重为“1”,A材料为“5%”,B材料为“7%”,晋级条件为10%,则A和B都满足晋级条件,则在“稻瘟病损失率”这个性状下(默认权重为“1”),A获得的晋级系数为[1+(1-5%)]*1=1.95,B获得的晋级系数为[1+(1-7%)]*1=1.93,因此A比B获得了更高的晋级系数。
(2)列表型数据判断标准
例如,晋级推荐模型中如果出现列表型数值,例如稻瘟病抗性级别分为高抗、抗、中抗、感、中感、高感等列表型数据,系统会自动根据抗病级别定义的信息,将列表型文字转化为数字。转化为数字后,可以利用数字的大小值进行比较。转化的规则举例如表1所示:
表1
Figure 788998DEST_PATH_IMAGE002
特别的,参照表1,在列表型数据计算晋级系数或推荐系数时,将列表型文字转化为数字的数值定义为a,a<10,先将数值a转换为小数,即转换为大于0且小于1的数,例如按照(10-a)/10来进行计算,转换为小数后然后与代表满足条件的“1”相加,得到的结果再乘以权重,得到晋级系数或推荐系数。
例如,在“稻瘟病抗性(级)”这个性状下,默认权重为“1”,A材料为“抗”,转化后为“1”;B材料为“中抗”,转化后为“3”。A和B都满足晋级条件,则在稻瘟病抗性(级)这一条件下(默认权重为“1”),A获得的晋级系数为[1+(10-1)/10] *1=1.9,B获得的晋级系数为[1+(10-3)/10] *1=1.7,因此A比B获得了更高的晋级系数。
(3)日期型数据判断标准
日期型数据,按照日期的先后顺序进行大小比较,例如2022年5月2日>2022年5月1日。
综上所述,上述三种数据类型的判断是独立的,之所以出现三种数据的判断,是因为在育种过程中,育种家所用的筛选条件中,会出现这几种数据类型。例如:平均亩产的数据,700千克/亩,就是数值型数据。稻瘟病抗性(级):高抗,抗,中抗,中感,感,高感就是列表型数据,用户在使用列表型数据的时候,一般会选择其中一个作为候选选项。开花日期就是日期型数据,一般在考察跟日期相关条件时会比较日期的前后,作为评判好坏的标准。例如:若早开花比晚开花更好,就可以比较候选材料的开花日期是否早于对照材料的开花日期,利用大于、小于、等于来计算比较。一般情况下,晋级条件或推荐条件会包含多个数值型、列表型和日期型数据,晋级或推荐主要看这些条件是否满足。由于某个确定的条件,只允许有一种数据类型,即确定比较哪个条件,也就确定了数据类型,因此不会出现不同数据类型之间比较的情况。
可以理解的是,同一性状指标的不同育种材料要采用相同的权重,而不同的性状指标可以采用不同的权重。
S104:显示分析结果,展示晋级及推荐详情,淘汰不满足条件的育种材料,并对材料的改良方向提出建议。
(1)可视化展示,显示晋级信息。
如图2~图4所示:用户可以看到模型分析流程中,从上至下,分别是晋级分析和推荐分析。在晋级分析中,每个分析节点显示有多少材料通过了晋级,即满足晋级条件。在推荐分析中,每个分析节点显示有多少材料获得了推荐,即满足推荐条件。例如:育种材料为水稻,图3和图4中所示的晋级分析,即为前述的晋级推荐模型中的晋级分析部分,如果育种材料不满足晋级条件,则淘汰。在试验过程中,选用了10份材料,即材料1~材料10,本次晋级分析的晋级条件的性状指标包括稻瘟病抗性、穗瘟损失率、结实率和结实率试点数,试验人员将测得的这些数据输入系统的模型分析界面中,输入后,系统会根据相应的软件算法自动计算出每种材料的稻瘟病抗性级别、穗瘟损失率、结实率和结实率试点数的具体数值,并显示在界面中,同时显示通过数量,如果材料满足所有基本筛选条件,则确定为晋级材料。例如图4中,在基本筛选条件下的晋级材料包括材料1、材料4、材料5和材料9,而其余材料因为至少有一项不满足要求则被淘汰,但淘汰的材料也给出了晋级系数,并通过设置“*”号加以区分;因为系统允许用户对某一份材料进行强制晋级,做出晋级系数可供用户参考,如果用户觉得这个材料可以晋级,也可做出强制通过的操作,以方便用户保留某些有特殊价值的材料。
晋级的育种材料继续后续的推荐分析,如图4所示。推荐分析可以包括多种类型的推荐,本案例包括高产稳产推荐条件和抗病材料推荐条件,高产稳产推荐条件中包括5项性状指标的要求,按照S103中推荐系数的计算方法计算推荐系数,最后按照推荐系数来对材料进行排名,即推荐系数高的排至第一名,优先推荐给用户。其中与模型数据比较满足条件的用一种颜色高亮显示,不满足条件的用另外一种颜色高亮显示。例如图4中,“材料4”的“稻瘟损失率”数值为5%,推荐条件是≤15%,满足,本案例用绿色高亮显示。“材料4”的“平均亩产-对照百分比”数值为2%,推荐条件是≥10%,不满足,本案例用红色高亮显示。其他绿色高亮部分的数值均满足条件,所以标注绿色,表示满足推荐条件。
(2)对满足推荐条件的材料向用户展示推荐详情。
如图5所示:系统为用户汇总了推荐结果,并根据模型指标的权重,为用户计算推荐系数,按照推荐系数进行排序,为用户(如育种家)推荐最佳的候选材料,并展示推荐详情。
其中,系统允许用户对模型指标的权重进行编辑,以变更好的适应材料的选育工作。可以理解的是,当晋级条件和推荐条件的权重改变之后,晋级系数和推荐系数将相应的改变,根据不同的权重分配,相同的性状数据可以得到不同的晋级系数和推荐系数,从而晋级排名和推荐排名将会发生改变,这个功能可以帮助用户针对表型性状的重要性调整晋级和推荐的方向,帮助用户更好的选育有特点的育种材料。
系统允许用户对某一份材料进行强制晋级,这个功能方便用户保留某些有特殊价值的材料。
根据图5中显示的分析结果,“材料1”和“材料5”满足推荐条件,推荐系数分别是7.11和7.05,按照顺序向用户优先推荐“材料1”,再推荐“材料5”。点击图5中的确认后,得到图6的晋级和推荐结果。
图6显示了晋级和推荐的结果,并允许用户做最后的选择和确认,用户可以根据推荐系数和具体的性状数值,对晋级和推荐结果做最终确认。如图7,系统将向用户做最终的晋级和推荐提示。
确认结果后,系统自动将晋级信息和推荐信息推送到数据库中,数据库存储相关的晋级信息和推荐信息。晋级和推荐数据进入测试集,用于模型优化。
(3)对不满足晋级条件的材料给出材料改良建议。
系统还可以读取不满足条件的材料,读出不满足的模型条件,提醒用户可以对相应的性状进行改良。例如材料3的“结实率”不满足要求,提醒用户可以对材料3的结实率进行改良,以便未来成为更好的候选材料。
实施例2
在实施例1的基础之上,还包括以下步骤:
S105:对已有晋级推荐模型进行优化。
具体实施参照图9、图10,在图9所示的界面中,选择需要优化的模型,点击优化后,系统根据内部的分析流程,利用训练数据集和测试数据集对模型中的晋级条件和推荐条件进行分析。具体包括:
(1)系统根据图8的流程对晋级推荐模型进行优化。具体流程描述参照“优化晋级推荐模型模块”的说明。
(2)系统操作如图9所示,点击需要优化的某个模型,对晋级推荐模型进行优化。
(3)系统自动汇总历史数据,将育种材料的历史数据进行性状指标分析。
(4)将分析后的数据组成训练数据集,用于晋级条件和推荐条件分析,图11是训练数据集部分数据的截图,利用训练数据集对晋级条件和推荐条件进行分析。
(5)通过百奥云的分析模型计算出每个性状的阈值。对于晋级条件,计算方式包括但不限于单个性状,阈值需要达成5%的材料晋级通过率。对于推荐条件,包括但不限于在晋级材料中推荐排名前三的材料,例如本实施例晋级条件设置为5%的晋级通过率,推荐条件设置为排名前3的材料可以推荐。
(6)优化晋级条件:
a)将计算的性状阈值作为候选晋级条件,用于测试数据集的测试,如图12所示;
b)人工设置测试数据集通过比例,例如晋级条件设置为95%的晋级通过率;
c)当测试数据集中超过95%的材料可以晋级的时候,则候选晋级条件可以作为优化晋级条件保存;
d)当测试数据集中晋级材料数量未达到95%的时候,重新调整阈值的范围,根据百奥云的分析模型重新计算出新的阈值。计算方式包括但不限于根据材料数据的分布,重新调整某个或某几个性状的阈值。调整后继续进行测试数据集的测试,直到优化出合适的优化晋级条件;
e)优化结果确定后,显示在系统中,帮助育种家了解条件的变化。如图10中,显示了模型优化前的条件和优化后的条件。晋级条件“稻瘟病抗性”平均值条件没有改变,“稻瘟损失率”最高级由≤15%变为≤10%,“结实率”平均值由≥75%变为≥80%,“结实率”低于65%的试点数不变,整体上晋级条件变得更严格。虽然晋级条件变得更加严格,但是本实施例依然筛选出符合比例的育种材料(参照图13的筛选数据),说明系统中的材料的整体表现不断地进化,育种有成效。新的晋级条件将用于未来的育种选择,支持育种家用更严格的条件筛选育种材料。
(7)优化推荐条件:
a)将计算的性状阈值作为候选推荐条件,用于测试数据集的测试,如图12所示;
b)人工设置测试数据集通过比例,本实例推荐条件设置为推荐排名前3的育种材料,只通过排名前三的材料;
c)当测试数据集中排名前3的材料可以被推荐时,则候选推荐条件可以作为优化推荐条件保存;
d)当测试数据集中推荐材料数量未满足要求时,重新调整阈值的范围,根据百奥云的分析模型重新计算出新的阈值。计算方式包括但不限于根据材料数据的分布,重新调整某个或某几个性状的阈值。调整后继续进行测试数据集的测试,直到优化出合适的优化推荐条件;
e)优化结果确定后,显示在系统中,帮助育种家了解条件的变化。如图10中,显示了模型优化前的条件和优化后的条件。本实施例中,高产稳产推荐条件“平均亩产”平均值由≥7%变为≥8%,“平均亩产”增产点数由≥7变为≥10,“结实率”平均值由75%变为80%,“结实率”低于65%的试点数不变,整体上推荐条件变得更严格。虽然推荐条件变得更加严格,但是我们依然筛选出符合比例的育种材料(参照图14的筛选数据),说明系统中的材料的整体表现不断地进化,育种有成效。新的推荐条件将用于为来的育种选择,系统将用更严格的条件向育种家推荐育种材料。
(8)当晋级条件和推荐条件都优化好之后,晋级推荐模型优化完毕。如图10所示,当模型优化完毕之后,系统会显示优化前后对比结果,供用户参考,用户可以保存优化后的模型数据。
(9)优化后的模型如果用于育种分析,则分析流程实施例中晋级推荐模型分析流程一致。
(10)将新的晋级材料的指标化表型数据整合入新的测试数据集。
(11)将新加入的材料的指标化表型数据整合到数据库中,作为下次分析的训练数据集。
可以说,本发明的系统支持利用晋级推荐模型对育种材料进行晋级推荐分析,也支持利用训练数据集和测试数据集对晋级推荐模型进行优化,用户可以根据自己的需求和经验,设置晋级推荐模型,也可以对已经存在的晋级推荐模型进行优化。利用系统中已有的指标化表型数据,利用大数据技术及机器学习技术,对晋级推荐模型进行优化,可以逐步改良育种材料的晋级条件和推荐条件,让晋级推荐模型可以随着育种的发展而不断进化,这样可以更好地帮助育种家得到更加优质的晋级推荐模型,筛选更好的育种材料。
综上所述,本发明根据晋级推荐模型完成育种材料的晋级和推荐分析,一方面,只需输入试验数据就可自动对育种材料进行晋级分析和推荐分析,选出晋级材料,并向用户推荐出优良材料,省时省力,无需使育种家依靠经验逐条核对,也无需通过Excel进行数据整理和公式编写,大大提高工作效率,从而在大量的性状指标中,快速筛选出综合指标最优的材料推荐给育种家;另一方面,导入的新数据,系统会自动对系统内已有数据和新数据整合和数据分析,操作十分简便,这样就不会像人工补充那样出现各种各样的失误操作,从而保证尽可能多的优质材料得到保留,且通过高效数据处理,能够实现精确筛分。进一步,系统支持对晋级推荐模型进行优化,帮助育种家得到更加优质的晋级推荐模型,更高效,更准确的筛选更好的育种材料。

Claims (10)

1.一种农作物育种材料自动晋级推荐方法,其特征在于,包括以下步骤:
S1:获取育种材料的表型数据;
S2:对获取的表型数据进行性状指标分析,获得性状指标数据;
S3:创建晋级推荐模型,晋级推荐模型允许用户自定义设置晋级条件和推荐条件;同时系统通过将系统内表型指标分析数据组成训练数据集,利用训练数据集进行晋级条件和推荐条件的优化计算,并通过测试数据集的验证得到优化的晋级推荐模型;
S4:选择晋级推荐模型对育种材料性状指标数据进行处理分析,若育种材料不满足晋级条件,则淘汰;若满足晋级条件,则材料晋级并获得晋级系数,用于排名展示;
S5:对晋级的育种材料按照推荐条件进行推荐分析,计算推荐系数,根据推荐系数对晋级的育种材料进行推荐排名;
S6:显示分析结果。
2.根据权利要求1所述的农作物育种材料自动晋级推荐方法,其特征在于,所述晋级推荐模型包括晋级条件和推荐条件;先判断育种材料的各性状指标是否满足晋级条件,并计算晋级系数;若不满足,则育种材料被视为淘汰;若满足,则按照推荐条件进行分析,计算推荐系数;
根据育种材料所满足的晋级条件和推荐条件的项数,来进行分值计算,每满足一条项数要求,则增加一分,且每项均被赋予相对应的权重,得到晋级系数或推荐系数;以此类推,统计所有晋级条件或推荐条件的得分情况,汇总出晋级系数或推荐系数;按照推荐系数从高到低,对所有的育种材料进行排名;根据排名高低,向用户推荐优良材料。
3.根据权利要求1所述的农作物育种材料自动晋级推荐方法,其特征在于,所述优化的晋级推荐模型包括优化晋级条件,优化晋级条件的获取方法包括:
获取育种材料的表型历史数据,对历史数据进行性状指标分析,将分析后的数据组成晋级训练数据集,计算每个性状指标的性状阈值,将性状阈值作候选晋级条件,用于测试数据集的测试;通过人工设置测试数据集的晋级通过比例,当测试数据集中超过该比例时晋级,则候选晋级条件作为优化晋级条件;若测试数据集中的晋级材料数量未达到该比例时,则重新调整相应的性状阈值范围,调整后继续进行测试数据集的测试,直至获得优化晋级条件。
4.根据权利要求3所述的农作物育种材料自动晋级推荐方法,其特征在于,所述优化的晋级推荐模型还包括优化推荐条件,优化推荐条件的获取方法包括:
获取育种材料的表型历史数据,对历史数据进行性状指标分析,将分析后的数据组成推荐训练数据集,计算每个性状指标的性状阈值,将性状阈值作候选推荐条件,用于测试数据集的测试;通过人工设置测试数据集的推荐排名通过比例,当测试数据集中超过该比例时晋级,则候选推荐条件作为优化推荐条件;若测试数据集中的推荐材料数量未达到该比例时,则重新调整相应的性状阈值范围,调整后继续进行测试数据集的测试,直至获得优化推荐条件。
5.根据权利要求2所述的农作物育种材料自动晋级推荐方法,其特征在于,所述晋级推荐模型中的晋级系数或推荐系数的计算方法包括:将某一育种材料的性状指标数据转换为大于0且小于1的小数,再与代表满足条件的“1”分相加,之后乘以权重,作为推荐系数;又或先将转换后的小数先与权重相乘,再加“1”分,作为推荐系数;当某一性状指标的数值越小越好时,先将该数值转换为大于0且小于1的小数,再用1减去该小数,之后再与代表满足条件的“1”分相加,乘以权重,或先与权重相乘,再加“1”分,来作为晋级系数或推荐系数。
6.根据权利要求1或2或3所述的农作物育种材料自动晋级推荐方法,其特征在于,在晋级推荐模型中,还设置有强制通过的选项;即使该育种材料不满足条件被淘汰,用户根据需求可做出强制通过的操作,进行强制晋级或强制推荐。
7.根据权利要求1或2或3所述的农作物育种材料自动晋级推荐方法,其特征在于,所述性状指标数据包括平均值、估计值、对照百分比、育种值、排名、育种值排名、最小值、最大值、调整估计值、最小二乘均值、标准差、稳定性、估计值排名、显著性、F值、方差、增产点数、增产点比例中的一种或多种。
8.一种农作物育种材料自动晋级推荐系统,其特征在于,包括:
数据获取模块,用于获取育种材料的表型数据;
数据分析模块,用于对表型数据的相对应性状指标进行计算;
数据存储模块,用于储存表型数据和由数据分析模块分析出的性状指标数据;
晋级推荐管理模块,包括晋级推荐模型管理模块和晋级推荐分析任务管理模块;所述晋级推荐模型管理模块用于创建晋级推荐模型;所述晋级分析任务管理模块用于创建晋级推荐分析任务;
规则引擎处理器,用于将数据分析模块分出的性状指标数据作为输入,分别进入不同的规则模型进行运算,计算出晋级系数和推荐系数,并统计所有晋级条件或推荐条件的得分情况,并按照推荐系数从高到低,对所有的育种材料进行优良排名;
结果展示模块,用于展示分析结果。
9.根据权利要求8所述的农作物育种材料自动晋级推荐系统,其特征在于,所述规则引擎处理器包括规则集区域、计算区域和数据区域;
所述规则集区域包含所设定的多个规则,且每条规则都包含具体业务规则计算逻辑;所述规则是指晋级推荐模型中所设置的能够达到的晋级条件和推荐条件的性状指标数据范围;
所述计算区域,用于对晋级推荐模型中的晋级系数及推荐系数进行计算、汇总以及排名;
所述数据区域用于储存每条规则的数据,主要包括规则参数、计算结果以及规则权重。
10.根据权利要求8所述的农作物育种材料自动晋级推荐系统,其特征在于,还包括优化晋级推荐模型模块,所述优化晋级推荐模型模块包括:
模型优化分析模块,用于模型优化,包括晋级条件和推荐条件的优化;
所述训练数据集,用于存储对模型的历史数据所整合的训练数据;
所述测试数据集,用于获取晋级及推荐的育种材料,对初步优化的模型进行测试,并测试优化后的模型是否合适,给出合适的优化晋级条件和优化推荐条件。
CN202211576859.8A 2022-12-09 2022-12-09 一种农作物育种材料自动晋级推荐方法及系统 Pending CN115860676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211576859.8A CN115860676A (zh) 2022-12-09 2022-12-09 一种农作物育种材料自动晋级推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211576859.8A CN115860676A (zh) 2022-12-09 2022-12-09 一种农作物育种材料自动晋级推荐方法及系统

Publications (1)

Publication Number Publication Date
CN115860676A true CN115860676A (zh) 2023-03-28

Family

ID=85671339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211576859.8A Pending CN115860676A (zh) 2022-12-09 2022-12-09 一种农作物育种材料自动晋级推荐方法及系统

Country Status (1)

Country Link
CN (1) CN115860676A (zh)

Similar Documents

Publication Publication Date Title
US10606862B2 (en) Method and apparatus for data processing in data modeling
CN108898479B (zh) 信用评价模型的构建方法及装置
US11380087B2 (en) Data analyzing device
CN1363899A (zh) 文本分类参数生成器和使用所生成参数的文本分类器
US20190146463A1 (en) Tree search-based scheduling method and electronic apparatus using the same
CN107341613B (zh) 一种辅助叶组配方平衡替换的方法
CN112860769B (zh) 一种能源规划数据管理系统
CN110533383A (zh) 事项督办方法、装置、计算机设备及存储介质
CN108846695A (zh) 终端更换周期的预测方法及装置
CN112036118B (zh) 一种可配置的数据报表动态展现方法及系统
CN116187650A (zh) 针对产品零部件的自主机器学习需求预测方法及系统
CN101339619A (zh) 用于模式分类的动态特征选择方法
CN110362911A (zh) 一种面向设计过程的代理模型选择方法
CN115860676A (zh) 一种农作物育种材料自动晋级推荐方法及系统
TWI684147B (zh) 雲端自助分析平台與其分析方法
WO2016039011A1 (ja) シミュレーションシステム、シミュレーション方法及びシミュレーションプログラム
CN115906213A (zh) 一种可视化兵棋评估统计模型的编辑方法及系统
CN113034033B (zh) 一种新研装备备件品种确定方法
KR101632537B1 (ko) 기술적 파급효과 분석 방법
US11645362B2 (en) Data analyzing device
CN114327607A (zh) 一种bs代码自动生成方法
JP2021140510A (ja) 設計支援装置、設計支援方法、及びプログラム
JP3452308B2 (ja) データ分析装置
CN112187550B (zh) 基于密度峰值多属性聚类的网络日志分析方法
US20210358267A1 (en) Operation system based on membership level and method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination