CN107944487A

CN107944487A - 一种基于混合协同过滤算法的作物育种品种推荐方法

Info

Publication number: CN107944487A
Application number: CN201711156731.5A
Authority: CN
Inventors: 赵刚; 王碰; 毛欣; 孙若莹
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-04-20
Anticipated expiration: 2037-11-20
Also published as: CN107944487B

Abstract

本发明公开了一种基于混合协同过滤算法的作物育种品种推荐方法，包括如下步骤：步骤1，将对照品种数据和待审核品种数据进行数据预处理，以得到品种‑性状数据表；步骤2，对品种‑性状数据表进行聚类，从而得到多个聚类簇；步骤3，查找包含对照品种‑性状数据表的第一聚类簇；步骤4，计算第一聚类簇中待审核品种与对照品种的相似度，筛选出相似度高的待审核品种；步骤5，将筛选出的待审核品种作为作物育种的推荐品种。本发明能够有效降低计算损耗，特别是在商业化育种时，本发明可提高工作人员的工作效率，大大降低人工成本，能够完成多位育种专家需要进行的工作，从而满足大规模育种数据分析的需求。

Description

一种基于混合协同过滤算法的作物育种品种推荐方法

技术领域

本发明涉及作物育种技术领域，更为具体来说，本发明为一种基于混合协同过滤算法的作物育种品种推荐方法。

背景技术

自新一代测序技术高速发展以来，作物育种研究产生了海量的数据，整合和最大化利用这些生物学数据，无疑对现代育种研究具有不可估量的重要意义。然而，因为育种行业比较专业、对专业背景需求较高，现有的育种数据分析方法仍局限在基于统计学的方法上，大都依靠专家经验进行数据分析，而且存在主观性较强、分析结果比较局限等问题，不能广泛地适应育种行业领域，更无法满足商业化需求。

因此，如何避免育种数据分析方法对专家经验的依赖、并使作物育种品种评价满足商业化需求，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为解决传统育种数据分析方法存在的主观性强、无法满足商业化需求等问题，本发明创新地提出了一种基于混合协同过滤算法的作物育种品种推荐方法，将协同过滤算法和K-means算法应用在育种品种评估上，结合育种工作的实际需求，使作物育种品种评估更为有效和可靠，从而解决了现有技术存在的诸多问题。

为实现上述技术目的，本发明公开了一种基于混合协同过滤算法的作物育种品种推荐方法，该推荐方法包括如下步骤；

步骤1，获取对照品种数据和待审核品种数据，对已获取的所有品种数据进行数据预处理，以得到品种-性状数据表，且所述品种-性状数据表包括对照品种-性状数据表和待审核品种-性状数据表；

步骤2，对所述品种-性状数据表进行聚类，从而得到多个聚类簇；

步骤3，在所述多个聚类簇中，查找包含对照品种-性状数据表的第一聚类簇；

步骤4，计算所述第一聚类簇中待审核品种与对照品种的相似度，并按照相似度由高到低的顺序筛选出至少一个待审核品种；

步骤5，将筛选出的待审核品种作为作物育种的推荐品种。

本发明不仅能有效避免对专家经验的依赖、提高了作物育种品种评估的可靠性和有效性，而且极大节省了人力物力，从而满足商业化作物育种品种推荐的需要。

进一步地，步骤2中，采用K-means聚类分析方式对所述品种-性状数据表进行聚类。

进一步地，步骤2包括如下步骤；

步骤21，将每个品种-性状数据表作为一个数据对象，然后随机设置K个中心对象；

步骤22，分别计算每个数据对象到各中心对象的欧氏距离；对于任一数据对象，将该数据对象与其欧氏距离最小的中心对象放入一个类集合中，从而形成K个类集合，其中，K≥2；

步骤23，对于任一类集合，将该类集合中所有数据对象的均值作为新中心对象；

步骤24，判断新中心对象与上次的中心对象是否相同；如果相同，则执行步骤25；如果不同，则返回步骤22；

步骤25，将最终确定的K个类集合作为K个聚类簇。

基于上述改进的技术方案，本发明能够有效减少搜索目标品种所损耗的时间，以避免重复计算、提高搜索效率，从而极大地提高作物育种品种推荐的质量和效率。

进一步地，步骤2中，通过如下方式计算欧氏距离：

其中，D_ab表示欧氏距离，x₁表示数据对象，x₂表示中心对象，a₁…a_k表示每个数据对象内的性状数据，b₁…b_k表示每个中心对象内的数据。

进一步地，步骤4中，通过如下方式计算待审核品种与对照品种的相似度：

其中，sim(u,t)表示相似度，p_i表示待审核品种的性状数据，q_i表示对照品种的性状数据，n表示性状个数，u表示待审核品种，t表示对照品种。

进一步地，步骤4中，为筛选出的待审核品种进行评分，并根据评分由高到低的顺序对筛选出的待审核品种进行排序；

步骤5中，依据排序结果生成包含推荐品种的推荐列表，将所述推荐列表推送给育种人员。

进一步地，步骤4中，依据对照品种的评分为筛选出的待审核品种进行评分。

进一步地，步骤4中，通过如下方式为筛选出的待审核品种进行评分：

其中，P_u,t表示待审核品种的评分，表示对照品种的评分，N＝{n₁，n₂,…,n_k}表示筛选出的所有待审核品种的集合，sim(t,n)表示对照品种与待审核品种的相似度，D_u,t表示当前待审核品种u与对照品种t之间的欧氏距离。

基于上述改进的技术方案，本发明能得到更为准确和可靠的作物育种品种推荐结果。

进一步地，步骤1中，数据预处理过程中，通过如下方式对性状数据进行归一化：

其中，X^*表示归一化后的性状数据，X表示原始性状数据，min表示样本性状数据中的最小值，max表示样本性状数据中的最大值。

基于上述改进的技术方案，本发明能够考虑更多有效的性状数据，为后期的数据处理过程做充足的准备，从而使得本发明的推荐方法更为准确和可靠。

进一步地，所述对照品种为丰产性的品种或抗病性强的品种。

与现有针对不同的育种需求而需要不同的育种分析过程相比，本发明提供的技术方案不需要重新设计分析过程，只要选择合适的对照品种数据即可；因此，本发明能够节省大量的人力成本投入。

本发明的有益效果为：本发明创新地将协同过滤算法和K-means算法的结合应用于作物育种品种推荐上，根据品种的性状数据进行聚类，使得相似的品种能聚集在一个聚类簇内，不同簇间的品种相似度较低，针对性分析某个聚类簇，从而达到降低计算损耗的目的；特别是在商业化育种时，本发明可提高工作人员的工作效率，大大降低人工成本，可完成多位育种专家需要进行的工作，从而满足大规模育种数据分析的需求。

附图说明

图1为一种基于混合协同过滤算法的作物育种品种推荐方法的流程示意图。

图2为依据本发明生成的混合协同过滤算法推荐模型示意图。

具体实施方式

下面结合说明书附图对本发明的基于混合协同过滤算法的作物育种品种推荐方法进行详细的解释和说明。

如图1、图2所示，本发明公开了一种基于混合协同过滤算法的作物育种品种推荐方法，本发明涉及的品种数据包含大量的育种品种及其性状表型数据，并将协同过滤算法和K-means算法结合后形成混合协同过滤算法，基于此，该推荐方法包括如下步骤。

步骤1，获取对照品种数据和待审核品种数据，对已获取的所有品种数据进行数据预处理，以得到品种-性状数据表，且品种-性状数据表包括对照品种-性状数据表和待审核品种-性状数据表，本实施例中，对照品种为丰产性的品种或抗病性强的品种，当然，本发明也适用于其他类型的品种，比如，稳产性的品种等。另外，本发明还在数据预处理过程中对多种类型或单位的数据进行规范化和归一化的预处理；具体如下。

育种家对育种品种的评价结果通常为离散型的描述语言，本发明还对性状特征集合中每种性状特征进行规范化处理，包括统一量化方式、统一计量单位以及统一表现形式。如倒折率以百分比表示，数值范围大多徘徊在1％-10％之间，而亩产以KG表示，数值范围在600KG左右。数值差异较大，不利于后期数据处理，为了消除性状数据之间的这种量纲影响，对实验数据进行归一化处理。通过如下方式对性状数据进行归一化处理：

步骤2，对品种-性状数据表进行聚类，从而得到多个聚类簇，比如，得到K个聚类簇；本实施例中，采用K-means聚类分析方式对品种-性状数据表进行聚类，具体包括如下子步骤。

步骤21，将每个品种-性状数据表作为一个数据对象，然后随机设置K个中心对象(即随机选取K个中心点)；

步骤22，分别计算每个数据对象到各中心对象的欧氏距离；对于任一数据对象，将该数据对象与其欧氏距离最小的中心对象放入一个类集合中(即将距离近的划分为一类)，从而形成K个类集合，其中，K≥2；在本实施例中，通过如下方式计算欧氏距离：

步骤23，对于任一类集合，将该类集合中所有数据对象的均值作为新中心对象；从而实现了通过K个类集合重新确定了K个中心点，即，新中心对象。

步骤24，判断新中心对象与上次的中心对象是否相同；如果相同，则说明中心点没有变化、执行步骤25；如果不同，则说明中心点发生了变化、返回步骤22；

步骤25，结束计算，将最终确定的K个类集合作为K个聚类簇，该K个聚类簇将作为本发明数据分析的目标。

通过K-means聚类算法可以将相似的品种划分到同一个聚类簇中，则生成的K个聚类簇被用于计算对照品种的相似邻居，再将对照品种t作为查询空间，在此聚类簇中查找与对照品种t相似的邻居。因为对照品种t已经被划分到某个聚类簇中，所以再使用协同过滤算法搜索时的目标范围已经变小。本发明实现了利用相似度或距离等衡量方式将品种-性状数据表划分为不同的类别，进而实现在同一类别中的品种-性状数据表的相似度较高或距离较近，最终达到减少计算过程、优化品种推荐方法的目的。

步骤3，在多个聚类簇中，查找包含对照品种-性状数据表的第一聚类簇，需要说明的是，本发明涉及的“第一聚类簇”属于上述“多个聚类簇”的一部分，该表述方式仅用于与不包含对照品种-性状数据表的其他聚类簇进行区分。即基于K-means聚类算法得到对照品种t所在聚类簇，下面通过协同过滤算法获得最终的品种推荐结果或推荐列表。

步骤4，计算第一聚类簇中待审核品种与对照品种的相似度，并按照相似度由高到低的顺序筛选出至少一个待审核品种，或者说，选择相似性最高的前m个品种作为对照品种t的最近邻居。本发明通过集中分析对照品种所在的聚类簇，使得本发明对品种-性状数据的分析更为高效和简单。本实施例中，通过如下方式计算待审核品种与对照品种的相似度：

作为优选的技术方案，本步骤中，为筛选出的待审核品种进行评分，并根据评分由高到低的顺序对筛选出的待审核品种进行排序；本实施例中，依据对照品种的评分为筛选出的待审核品种进行评分，具体如下：

通过如下方式为筛选出的待审核品种进行评分：

其中，P_u,t表示待审核品种的评分，表示对照品种的评分，N＝{n₁，n₂,…,n_k}表示筛选出的所有待审核品种的集合，sim(t,n)表示对照品种与待审核品种的相似度，D_u,t表示当前待审核品种u与对照品种t之间的欧氏距离，D_u,t的计算方法与上述计算欧氏距离的方法相同。

步骤5，将筛选出的待审核品种作为作物育种的推荐品种。

作为优选的技术方案，本步骤中，依据排序结果生成包含推荐品种的推荐列表，将推荐列表推送给育种人员。

依照本发明提供的方法生成的模型，可按照如下方式使用：输入对照品种和待审核品种数据；首先将现有育种性状数据进行数据预处理，获得品种-性状数据表；在此基础上采用K-means聚类算法对品种-性状数据表进行聚类，获得K个相似的聚类簇C；之后，寻找对照品种t所在的聚类簇Ci，计算Ci中待测品种和对照品种t的相似性，将相似性最高的前K个品种作为对照品种t的最近邻居，然后计算各个品种的评分，获得最终品种的排序结果，以此作为模型推荐结果。当对照品种为丰产性或者抗病性强的品种时，模型所输出的推荐品种也是相应的丰产性或抗病性较强的品种。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：该推荐方法包括如下步骤；

步骤5，将筛选出的待审核品种作为作物育种的推荐品种。

2.根据权利要求1所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤2中，采用K-means聚类分析方式对所述品种-性状数据表进行聚类。

3.根据权利要求2所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：步骤2包括如下步骤；

步骤25，将最终确定的K个类集合作为K个聚类簇。

4.根据权利要求3所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤2中，通过如下方式计算欧氏距离：

5.根据权利要求4所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤4中，通过如下方式计算待审核品种与对照品种的相似度：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

6.根据权利要求5所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤4中，为筛选出的待审核品种进行评分，并根据评分由高到低的顺序对筛选出的待审核品种进行排序；

7.根据权利要求6所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤4中，依据对照品种的评分为筛选出的待审核品种进行评分。

8.根据权利要求7所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤4中，通过如下方式为筛选出的待审核品种进行评分：

<mrow> <msub> <mi>P</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mover> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>&Element;</mo> <mi>N</mi> </mrow> </msub> <mi>sin</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>D</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>&Element;</mo> <mi>N</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>|</mo> <mrow> <mi>sin</mi> <mrow> <mo>(</mo> <mrow> <mi>t</mi> <mo>,</mo> <mi>n</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中，P_u,t表示待审核品种的评分，表示对照品种的评分，N＝{n₁,n₂,…,n_k}表示筛选出的所有待审核品种的集合，sim(t,n)表示对照品种与待审核品种的相似度，D_u,t表示当前待审核品种u与对照品种t之间的欧氏距离。

9.根据权利要求1或8所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：

步骤1中，数据预处理过程中，通过如下方式对性状数据进行归一化：

10.根据权利要求1所述的基于混合协同过滤算法的作物育种品种推荐方法，其特征在于：所述对照品种为丰产性的品种或抗病性强的品种。