CN113538162A

CN113538162A - 一种种植策略生成方法、装置、电子设备及存储介质

Info

Publication number: CN113538162A
Application number: CN202110004655.6A
Authority: CN
Inventors: 李文浩; 罗迪君
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-10-22

Abstract

本发明提供了一种种植策略生成方法、装置、电子设备，方法包括：通过获取目标对象种植环境中的动作样本集合；基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略，由此，不但能够有效对多维度空间中的不同动作变化趋势进行预测，及时准确地调整种植策略，同时对于动态动作空间具有鲁棒性以及泛化性，减少了计算成本。

Description

一种种植策略生成方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及种植策略生成方法、装置、及电子设备。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

对植物生长进行预测时，通常采用基于物理公式推导的物理模拟器，根据温室在每一个时刻的光照强度、温度、湿度、二氧化碳浓度，结合植物在不同生长阶段的新陈代谢情况来预测植物每天的生长情况。这种基于物理公式的物理模拟器通过物理公式来推导在不同温室环境状态下植物的每日生长情况，然而，由于真实温室中影响植物状态的因素较多，且不同影响因素之间具有相互作用，现有物理模拟器无法精确的模拟真实温室中不同天气状态对于植物的影响，因此，物理模拟器对植物生长状态的预测结果通常与真实温室具有较大差距。此外，基于物理公式的物理模拟器的模拟速度较慢，通常需要3-5秒才能完成植物一天的模拟，因此在对较长种植周期进行模拟以及寻找最优种植策略时所需的时间成本较大。通过人工智能，可以增加种植策略生成的准确性，提升种植策略生成的效率，实现对复杂维度的种植策略的处理。

发明内容

有鉴于此，本发明实施例提供一种种植策略生成方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种种植策略生成方法包括：

获取目标对象种植环境中的动作样本集合；

基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；

基于所述动作样本集合，通过所述种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；

利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；

根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。

本发明实施例还提供了一种种植策略生成装置，包括：

信息传输模块，用于获取目标对象种植环境中的动作样本集合；

信息处理模块，用于基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；

所述信息处理模块，用于基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；

所述信息处理模块，用于利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；

所述信息处理模块，用于根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。

上述方案中，

所述信息处理模块，用于确定与所述目标对象种植环境相匹配的样本采集策略；

所述信息处理模块，用于根据所述样本采集策略，确定目标维度的样本采集方式为随机采集，并为非目标维度的样本采集配置随机值；

所述信息处理模块，用于将所述目标维度的样本采集结果和非目标维度所配置的随机值进行拼处理，形成所述目标对象种植环境中的动作样本；

所述信息处理模块，用于对所述目标对象种植环境中的所有维度分别对应的动作样本进行合并，形成目标对象种植环境中的动作样本集合。

上述方案中，

所述信息处理模块，用于通过种植策略生成模型中的动作编码器网络，将所述动作样本集合中的每一个动作样本映射至公共隐空间中，形成隐含嵌入向量；

所述信息处理模块，用于根据所述隐含嵌入向量与每一个动作样本间的映射关系，对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量。

上述方案中，

所述信息处理模块，用于通过所述种植策略生成模型中的动作编码器网络所配置的预测器子网络，对所述动作样本集合进行预测，以实现根据所预测的动作样本集合对所述动作编码器网络进行调整。

上述方案中，

所述信息处理模块，用于根据所述目标对象种植环境，确定所述状态编码器网络的网络参数；

所述信息处理模块，用于基于所述状态编码器网络的网络参数，确定所述状态编码器网络的网络结构；

所述信息处理模块，用于通过所确定的状态编码器网络的网络结构，对不同维度中的动作样本进行状态编码处理，形成观测嵌入向量。

上述方案中，

所述信息处理模块，用于通过所述种植策略生成模型中的图神经网络的动作状态交换子网络，对所述动作嵌入向量和所述观测嵌入向量进行交换处理；

所述信息处理模块，用于通过所述种植策略生成模型中的图神经网络的图注意力子网络，对经过交换的动作嵌入向量和所述观测嵌入向量进行处理，调整所述不同动作样本之间的权重；

所述信息处理模块，用于根据所述不同动作样本之间的权重，确定所述目标对象种植环境中的不同动作的变化趋势。

上述方案中，

所述信息处理模块，用于基于所述目标对象的知识图谱，确定与所述目标对象相匹配的不同关联对象；

所述信息处理模块，用于根据与所述目标对象相匹配的不同关联对象，确定所述种植策略生成模型中的图神经网络的节点；

所述信息处理模块，用于基于与所述目标对象相匹配的趋势隐变量，确定所述种植策略生成模型中的图神经网络的不同边线；

所述信息处理模块，用于基于所述图神经网络的节点和图神经网络的不同边线，确定种植策略生成模型中的图神经网络。

上述方案中，

所述信息处理模块，用于确定所述图神经网络的任一节点所对应的特征信息；

所述信息处理模块，用于将当前节点的特征信息广播至与当前节点相连接的其他节点中；

所述信息处理模块，用于基于与当前节点相连接的其他节点基于所述特征信息，对相应的边线进行调整，以确定种植策略生成模型中的图神经网络。

上述方案中，

所述信息处理模块，用于基于所述目标对象的历史参数，确定与所述种植策略生成模型相匹配的训练样本集合与验证样本集合，其中，所述训练样本集合包括至少一组训练样本；

所述信息处理模块，用于通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本集合；

所述信息处理模块，用于根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进行训练，以实现确定与所述种植策略生成模型相适配的模型参数。

上述方案中，

所述信息处理模块，用于确定与所述种植策略生成模型相匹配的多任务损失函数；

所述信息处理模块，用于基于所述样本集合中的特征向量、所述目标对象的动作特征向量以及所述多任务损失函数，调整所述种植策略生成模型的网络参数，直至所述种植策略生成模型对应的不同维度的损失函数达到相应的收敛条件；以实现所述种植策略生成模型的参数与种植环境相适配。

上述方案中，

所述信息处理模块，用于根据所确定的与所述目标对象种植环境相匹配的种植策略，对所述目标对象种植环境中的动作进行调整，其中，所述目标对象种植环境中的动作包括至少以下之一：光照强度、室外温度、室外湿度、室外风速以及大气温度。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的种植策略生成方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的种植策略生成方法。

本发明实施例具有以下有益效果：

本发明通过获取目标对象种植环境中的动作样本集合；基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。通过本申请所提供的种植策略生成模型不但能够有效对多维度空间中的不同动作变化趋势进行预测，及时准确地调整种植策略，同时对于动态动作空间具有鲁棒性以及泛化性，减少了计算成本，提升种植策略生成的效率，实现对复杂维度的种植策略的处理。

附图说明

图1为本发明实施例提供的种植策略生成方法的使用场景示意图；

图2为本发明实施例提供的种植策略生成装置的组成结构示意图；

图3为本发明实施例提供的种植策略生成方法一个可选的流程示意图；

图4为本发明实施例提供的种植策略筛选方法一个可选的流程示意图；

图5为本发明实施例中植策略生成模型的数据结构示意图；

图6为本发明实施例中植策略生成模型的数据采集示意图；

图7为本发明实施例中植策略生成模型的图注意力网络数据结构示意图；

图8为本发明实施例中番茄种植策略生成方法一个可选的处理过程示意图

图9为本发明实施例中番茄的不同种植策略选择示意图；

图10为本发明实施例中番茄的不同种植策略种植模型效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、 torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

4)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)图神经网络(Graph Neural Network，GNN)：一种直接作用于图结构上的神经网络，主要针对非欧几里得空间结构(图结构)的数据进行处理。具有忽略节点的输入顺序；在计算过程中，节点的表示受其周围邻居节点的影响，而图本身连接不变；图结构的表示使得可以进行基于图的推理。通常，图神经网络由两个模块组成：传播模块(Propagation Module)和输出模块(Output Module)，传播模块用于图中节点之间传递信息并更新状态，输出模块用于基于图的节点和边的向量表示，根据不同的任务定义目标函数。图神经网络有：图卷积神经网络 (Graph Convolutional Networks，GCNs)，门控图神经网络(Gated Graph Neural Networks，GGNNs)以及基于注意力机制的图注意力神经网络(Graph Attention Networks，GAT)。

6)强化学习：用于解决序列决策问题，将问题建模为完全观测或者部分观测的马尔可夫决策过程。主要包括环境和智能体两个组成成分，智能体根据环境的状态基于当前策略执行决策，环境根据智能体的决策转移到新的状态并反馈一个标量奖励信号，智能体根据环境反馈的奖励不断优化策略。

7)部分观测随机博弈：部分观测马尔可夫决策过程在多智能体系统下的直接扩展，与部分观测马尔可夫决策过程类似，由状态空间、观测空间、动作空间、奖励函数、状态转移函数、发射函数等组成。每个智能体的目标是最大化在博弈过程中得到的期望累计奖励。

8)协作多智能体强化学习：强化学习在多智能体系统下的直接扩展，一般将问题建模为部分观测随机博弈的特例，及协作部分观测随机博弈。在这种情况下，每个智能体不再仅最大化各自在博弈过程中得到的期望累积奖励，而是最大化在博弈过程中得到的共同的期望累积团队奖励。

9)图注意力网络网络：注意力机制与图卷积网络的结合，将图卷积网络中的聚合操作由简单的加和、平均等替换为注意力层。

10)层次变分自动编码器：变分自动编码器的变种。在层次变分自动编码器中，不再仅包含单一的隐变量，而是包含多个隐变量。这些隐变量之间存在层次关系，上层隐变量基于下层隐变量生成。

11)动态动作空间：对应于一般强化学习问题中的静态动作空间，即动作空间不会在算法训练过程中或随着系统演化而发生扩大或缩小。反之，动态动作空间则会随着算法训练或系统演化随机扩大或缩小。

12)多维度动作空间：动作空间中不同动作之间不具有相同或相似的语义，例如机器人控制中机器人不同关节的角度；而是可以分为具有不同语义的子动作空间，例如农作物种植场景中，算法可以控制智慧温室的不同控制器，如温度、湿度、二氧化碳以及光照等。

13)环境非平稳问题：在多智能体强化学习中，在独立考虑每个智能体的情况下，每个智能体都将其余智能体当作环境的一部分。由于其余智能体的策略在不断更新，使得环境的状态转移概率随时间不断变化，导致了环境非平稳。

14)多智能体信用分配问题：与单智能体强化学习信用分配问题类似。在多智能体强化学习中，如果所有智能体共享公共的奖励函数，那么无法确定奖励与不同智能体贡献程度之间的相关关系，从而产生多智能体信用分配问题。

图1为本发明实施例提供的种植策略生成方法的使用场景示意图，参见图1，在本申请实施例所提供的种植策略生成方法应用中，终端包括终端10-1和终端 10-2，其中终端10-1位于开发人员侧，用以控制种植策略生成模型的训练与使用，终端10-2位于用户侧，用以请求对种植策略进行筛选；终端通过网络300 连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端10-2位于用户侧，用于发出种植策略生成请求，请求获取与目标对象种植环境相适配的种植策略，其中目标对象可以是各种类型的农作物。

作为一个示例，服务器200用于布设所述种植策略生成装置以实现本发明所提供的种植策略生成方法，后者可以布设经过训练的种植策略生成模型，以实现在不同的环境中(例如对不同的种植策略筛选的环境中，调整光照强度、温度、湿度、风速、虚拟天空温度以及温室内的历史温度、历史湿度、历史二氧化碳浓度和历史光照强度等等中的至少一个动作)的种植策略进行筛选，具体的，在使用种植策略生成模型之前，需要对种植策略生成模型进行训练，具体过程包括：基于所述目标对象的历史参数，确定与所述种植策略生成模型相匹配的训练样本集合与验证样本集合，其中，所述训练样本集合包括至少一组训练样本；通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本集合；根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进行训练，以实现确定与所述种植策略生成模型相适配的模型参数。当然，本发明所提供的种植策略生成装置可以基于对同一目标对象在不同种植策略生成环境中的种植策略生成模型为进行训练，最终在用户界面(UI User Interface)上呈现出与通过种植策略生成模型所确定与种植环境相适配的种植策略，所得到通过种植策略生成模型以及与种植环境相适配的种植策略还可以供其他应用程序调用(例如农业模拟器或者农业种植模拟游戏)，当然，与相应的种植策略数据库相匹配的种植策略生成模型也可以迁移至不同的种植策略生成进程(例如靶向性种植策略生成进程、化学种植策略生成进程或者有机种植策略生成进程)。

当然对种植策略生成模型训练完成之后，就可以通过种植策略生成模型进行推荐，具体包括：获取目标对象种植环境中的动作样本集合；基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。

下面对本发明实施例的种植策略生成装置的结构做详细说明，种植策略生成装置可以各种形式来实施，如带有种植策略生成装置处理功能的专用终端，也可以为设置有种植策略生成装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的种植策略生成装置的组成结构示意图，可以理解，图2仅仅示出了种植策略生成装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的种植策略生成装置包括：至少一个处理器201、存储器 202、用户接口203和至少一个网络接口204。种植策略生成装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的种植策略生成装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的种植策略生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的种植策略生成方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的种植策略生成装置采用软硬件结合实施的示例，本发明实施例所提供的种植策略生成装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的种植策略生成方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的种植策略生成装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的种植策略生成方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持种植策略生成装置的操作。这些数据的示例包括：用于在种植策略生成装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从种植策略生成方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的种植策略生成装置可以采用软件方式实现，图2示出了存储在存储器202中的种植策略生成装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括种植策略生成装置，种植策略生成装置中包括以下的软件模块：

信息传输模块2081，用于获取目标对象种植环境中的动作样本集合。

信息处理模块2082，用于基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量。

所述信息处理模块2082，用于基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量。

所述信息处理模块2082，用于利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势。

所述信息处理模块2082，用于根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端(如终端10-1)可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在实际应用中，本申请实施例提供的种植策略生成模型可以应用于结构生物学以及医学领域，通过种植策略生成模型实现种植策略发现、优化、组合等。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述点种植策略生成方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

继续结合图2示出的种植策略生成装置说明本发明实施例提供的种植策略生成方法，首先介绍部署于服务器中的种植策略生成模型的训练过程，其中，参见图3，图3为本发明实施例提供的种植策略生成方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行种植策略生成装置的各种电子设备执行，例如可以是如带有种植策略生成装置的专用终端、种植策略数据库服务器或者农业提供商的服务器集群，其中，带有种植策略生成装置的专用终端可以为前序图2所示的实施例中带有种植策略生成装置的电子设备。为了克服传统种植策略生成方式所造成的种植策略生成不准确以及效率低的缺陷，本发明所提供的技术方案使用了人工智能技术，人工智能AI(Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

下面针对图3示出的步骤进行具体说明。

步骤301：种植策略生成装置基于所述目标对象的历史参数，确定与所述种植策略生成模型相匹配的训练样本集合与验证样本集合。

其中，所述训练样本集合包括至少一组训练样本，以番茄种植为例，训练样本集合可以包括各类型的朱武状态数据，植物状态数据为预测开始时间点的植物状态数据，温室控制参数和天气数据为从预测开始时间起预定时间段内的温室控制参数和天气数据。例如，预测开始时间点可以为预测日0点，预定时间段可以为24小时，则植物状态数据为预测日0点时的植物状态数据，温室控制参数和天气数据为从预测日0点开始24小时内的温室控制参数和天气数据。应当理解的是，预测开始时间点和预定时间段不限于这里公开的具体数值，而是可以根据实际需要选择合适的值。。

步骤302：种植策略生成装置通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本集合。

步骤303：种植策略生成装置确定与所述种植策略生成模型相匹配的多任务损失函数。

步骤304：种植策略生成装置根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进行训练，以实现确定与所述种植策略生成模型相适配的模型参数。

其中，基于所述样本集合中的特征向量、所述目标对象的动作特征向量以及所述多任务损失函数，调整所述种植策略生成模型的网络参数，直至所述种植策略生成模型对应的不同维度的损失函数达到相应的收敛条件；以实现所述种植策略生成模型的参数与种植环境相适配。

同时考虑到实际应用中不但可以通过固定的种植策略生成服务器实现本申请的方案，同时由于种植策略数据库中蛋白质分子和目标对象的数量众多，因此还可以通过种植策略生成服务器群组实现本申请的方案，因此，通过种植策略生成信息区块链，不同的终端中同时获取种植策略生成模型时，可以通过部署在区块链网络中的经过训练种植策略生成模型，快速地对蛋白质分子和目标对象进行种植策略生成，同时服务器群中的不同服务器(节点)获取区块链网络中目标对象结合产物的活性筛选结果。

其中，本发明实施例可结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

当经过训练的种植策略生成模型部署在相应的服务器后，可以生成与目标对象种植环境相匹配的种植策略，继续参考图4，图4为本发明实施例提供的种植策略筛选方法一个可选的流程示意图，图4所示的步骤可以由运行种植策略生成装置的各种电子设备执行，例如可以是如带有种植策略生成装置的专用终端、种植策略数据库服务器或者种植模拟器的服务器集群，其中，带有种植策略生成装置的专用终端可以为前序图2所示的实施例中带有种植策略生成装置的电子设备，具体包括：

步骤401：种植策略生成装置获取目标对象种植环境中的动作样本集合。

在本发明的一些实施例中，获取目标对象种植环境中的动作样本集合，可以通过以下方式实现：

确定与所述目标对象种植环境相匹配的样本采集策略；根据所述样本采集策略，确定目标维度的样本采集方式为随机采集，并为非目标维度的样本采集配置随机值；将所述目标维度的样本采集结果和非目标维度所配置的随机值进行拼处理，形成所述目标对象种植环境中的动作样本；对所述目标对象种植环境中的所有维度分别对应的动作样本进行合并，形成目标对象种植环境中的动作样本集合。其中，植物种植时，动作类型多种多样，例如：温度(24维连续值，取值范围[13,25])、二氧化碳浓度(24维连续值，取值范围[400,700])、光照(2维连续值，取值范围[0,24])以及灌溉(2维连续值，取值范围[0,24])。每个仿真日的奖励(连续值，取值范围[0,30])根据累积番茄鲜重得到。对于不同的动作，可以表示为以下基于马尔可夫博弈的多元组：

其中n表示智能体数目；X表示智能体空间；S表示有限状态空间；Aⁱ表示智能体i的有限动作空间；A＝A¹*A²*....Aⁿ表示有限联合动作空间；P(S’|S,a)表示状态转移概率；δⁱ表示智能体i的有限观测空间；δ＝δ¹*δ²*....δⁿ表示有限联合观测空间；ε(o|s)表示发射概率函数；

表示智能体i的耗费函数。 POSG可以展开成一条有限或无限的由阶段(或时间步)组成的序列，阶段的数目叫做视界。本文可以仅考虑有限视界问题。每个智能体在博弈中的目标是最小化期望累积耗费。协作部分随机观测随即博弈则是在POSG的基础上满足下述约束：

其中x以及x′表示智能体空间x中的一对智能体；π_x以及π_x′表示两个智能体策略空间Π_x以及Π_x′中对应的策略。直观来讲，上述约束表明所有智能体中任意一对智能体的利益都是不冲突的。协作POSG最常见的一个实例是完全协作POSG(也被称作去中心部分观测马尔可夫过程，Dec-POMDP)，即所有智能体共享同一个耗费函数

可以将具有动态多维度动作空间单智能体强化学习问题建模为一个完全协作POSG问题，其中每个维度的子动作空间代表一个独立的智能体。不失一般性地，可以将完全协作POSG问题的优化目标定义如下：

其中

表示所有智能体策略函数的参数，

表示可分解为每个智能体局部策略函数的联合策略函数。d_Ψ表示联合策略π_Ψ对应的平稳分布。

步骤402：种植策略生成装置基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量。

在本发明的一些实施例中，基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量，可以通过以下方式实现：

通过种植策略生成模型中的动作编码器网络，将所述动作样本集合中的每一个动作样本映射至公共隐空间中，形成隐含嵌入向量；根据所述隐含嵌入向量与每一个动作样本间的映射关系，对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量。具体来说，参考图5，图5为本发明实施例中植策略生成模型的数据结构示意图，其中，结构化协作强化学习多智能体算法SCARL来去解决可变数目异质MARL问题，具体可以包括动作空间表示学习阶段以及鲁棒可泛

化策略学习阶段。SCARL采用中心化评论家-去中心化演员(Centralized Critic，Decentralized Actor)框架，同时引入图神经网络(GNN)作为中心化评论家，来解决动态多维度动作空间问题。以番茄种植为例，在智慧种植场景中，当温度上升时，酶的活性会同时增强；如果光照强度也能够同时增强，就会导致光合作用强度增大，最终就可以增多作物收成。如果能够显式地对各维度子动作空间之间的依赖关系进行建模，就可以提升多智能体探索效率从而提升最终算法性能。为了解决这个问题，SCARL首先引入层次变分自动编码器(HVAE) 将多维度子动作空间映射到一个公共的隐空间中；注意力机制被接着引入到基于GNN的中心化评论家中形成基于图注意力网络(GAT)的中心化评论家，通过GAT中边的注意力权重来去捕捉被投影到公共隐空间的各维度子动作空间之间的依赖关系。最后，建模为可变数目异质MARL问题还会带来多智能体信用分配问题，SCARL在GAT的基础上额外在中心化评论家-去中心化演员框架中引入隐式信用分配结构来解决此问题。

在本发明的一些实施例中，还可以通过所述种植策略生成模型中的动作编码器网络所配置的预测器子网络，对所述动作样本集合进行预测，以实现根据所预测的动作样本集合对所述动作编码器网络进行调整。

步骤403：种植策略生成装置基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量。

在本发明的一些实施例中，基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量，可以通过以下方式实现：

根据所述目标对象种植环境，确定所述状态编码器网络的网络参数；基于所述状态编码器网络的网络参数，确定所述状态编码器网络的网络结构；通过所确定的状态编码器网络的网络结构，对不同维度中的动作样本进行状态编码处理，形成观测嵌入向量。其中，参考图6，图6为本发明实施例中植策略生成模型的数据采集示意图，在智慧种植场景中，温度这一维度的子动作空间负责调整温室的室温，而二氧化碳控制器则负责调节温室的二氧化碳浓度。在不引入农业专家先验知识的前提下，算法很难直接根据各智能体从环境中采样的样本来对温度维度以及二氧化碳维度之间的相关关系进行建模。然而，不同维度的子动作对于环境不同方面的影响最终都反映在农作物的产量。因此，我们可以作出一个合理的假设：不同维度的子动作影响的是与农作物产量相关的公共隐变量，例如酶的活性等。如果我们将不同维度的子动作都投影到这个公共的隐空间中，那么我们就可以更容易地捕捉不同维度子动作之间的相关关系，并且也可以将算法自然地应用到具有新维度子动作空间的场景中。

为了达成上述目的，SCARL算法首先将整个动作空间编码。首先，SCAR 算法使用一个默认策略(本发明中使用的是随机策略，这里可以使用任意的默认策略，例如专家策略等)为每一个维度的动作空间收集对应的观测样本集合。换句话说，由于每个维度的子动作空间都被建模为一个独立的智能体，这个过程即该智能体依据默认策略在环境中进行采样。具体来说，为了更全面地编码整个动作空间，采用默认策略的智能体需要收集到具有足够多样性的样本。为此，对于每个子动作空间，采用默认策略的智能体会首先固定其他维度的动作为一随机值，接着在当前子动作空间中随机采样动作，最后将两部分动作值拼接输入到环境中，这样就可以收集到一批观测样本。上述过程将会重复多次直到收集到的观测样本数量达到预定义的阈值。针对每个子动作空间的采样结束后，将会得到每个子空间对应的观测样本集合。

SCARL算法引入层次变分自动编码器HAVE来对各子动作空间进行编码。第一层VAE将会将每个子动作空间对应的观测样本集合编码为一个子动作空间嵌入表示。子动作空间嵌入表示将于属于此子动作空间的特定动作一起作为第二层VAE的条件输入，来重构该特定动作对应的观测样本。这里SCARL使用子动作空间嵌入表示与特定动作一起作为输入的原因，是为了得到属于此子动作空间中的特定动作在公共隐空间中的隐含嵌入表示。只有使用不同维度子动作在公共隐空间中的嵌入表示，而不是在原子动作空间中的表示，我们才能更容易地仅通过不同智能体采样到的独立样本来捕捉不同维度子动作的相关关系。而为了增强子动作空间嵌入表示的表示能力，SCARL算法还额外加入了一个自监督辅助任务。具体来说，除了HAVE原始的重构解码器，SCARL还额外增加了一个预测器，用以预测智能体未来短时间内的观测。

对于多维度动作空间中每个维度的子动作空间

我们首先从固定下来的其他维度子动作空间

中随机采样k个不同的固定随机值

接着对于每个固定的随机值

我们又从当前子动作空间

中随机采样j个动作

因而我们一共采样k×j个不同的联合动作，这对应着样本集

中k×j个不同的观测。HAVE通过对每个观测样本

进行平均池化(mean-pooling)将对应的观测样本集

编码为子动作空间嵌入表示c_i。

我们将进行上述运算过程的动作空间编码器称为动作空间表示模块

注意，在训练阶段我们从该模块中采样一个子动作空间嵌入表示来进行后面的运算，但在训练完毕后，我们取该模块输出的均值来作为每个子动作空间的嵌入表示。接下来，对于每个观测样本

HAVE使用嵌入表示c_i作为动作编码器

以及动作解码器

的条件输入。动作编码器依据观测

以及嵌入表示c_i作为条件输入，将子动作

投影到公共隐空间中，得到子动作在隐空间中的隐含嵌入表示

除了动作解码器根据隐含嵌入表示

用于重构观测样本外，预测器

基于嵌入表示c_i作为条件输入，根据隐含嵌入表示

来预测未来t个时间步内连续的未来观测

综上，动作空间表示学习一共包含三部分损失函数：

1)关于观测样本集中所有观测样本

的重构损失；

2)动作空间表示模块以及动作编码器q_φ和q_ψ与它们对应的先验分布 p(c)和p(z|c_i)之间的KL散度；

3)关于观测样本集中所有观测样本

对应的后续观测

的预测损失。因而动作空间表示学习问题可形式化为最大化下述ELBO(证据下界)：

其中，SCARL使用长短期记忆网络LSTM来实现预测器

(预测器可使用任何类型的深度神经网络来进行实现)，同时使用双向长短期记忆网络Bi-LSTM来实现动作空间表示模块

(需要说明的是，动作空间表示模块可使用任何类型的深度神经网络来进行实现)。

步骤404：种植策略生成装置利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势。

在本发明的一些实施例中，利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势，可以通过以下方式实现：

通过所述种植策略生成模型中的图神经网络的动作状态交换子网络，对所述动作嵌入向量和所述观测嵌入向量进行交换处理；通过所述种植策略生成模型中的图神经网络的图注意力子网络，对经过交换的动作嵌入向量和所述观测嵌入向量进行处理，调整所述不同动作样本之间的权重；根据所述不同动作样本之间的权重，确定所述目标对象种植环境中的不同动作的变化趋势。其中，参考图7，图7为本发明实施例中植策略生成模型的图注意力网络数据结构示意图，其中，中心化评论家共包含四个子模块：状态编码器q_Φ，动作编码器q_Ψ，动作 -状态对交互模块p_w以及图注意力模块g_Θ。状态编码器以及动作编码器与动作空间表示学习阶段的两编码器相同。在每个episode的每个时间步t，状态编码器q_φ，动作编码器q_ψ分别接收每个智能体的局部观测

以及策略网络输出的动作

作为输入。同时，每个智能体对应的子动作空间嵌入表示c_i也会同时输入到动作编码器中(与动作空间表示学习阶段一致)，得到每个智能体对应的局部观测嵌入表示

以及动作嵌入表示

接下来，每个智能体对应的局部观测嵌入表示

以及动作嵌入表示

将会被一起输入到动作-状态对交互模块p_w中，得到智能体i在t时刻对应的智能体嵌入表示

动作-状态对交互模块p_w可以直观地理解为对不同维度子动作对环境的影响。由于各维度子动作已经通过动作编码器映射到了公共的隐空间中，因而它们对于环境的影响也是作用在一个公共的隐变量上，例如酶的活性等。因而接下来我们可以合理地使用图注意力模块对智能体之间的依赖关系进行建模。具体来说，接下来我们计算任意两个能体i和j之间的注意力权重：

其中图注意力模块由参数Θ⁽¹⁾：＝{a⁽¹⁾，θ⁽¹⁾}进行参数化。[·|·]表示拼接操作。接着通过图神经网络的聚合函数来对智能体嵌入表示进行更新：

上述图卷积操作SCARL算法共进行m次，我们记第m层输出的智能体嵌入表示为

最后我们对图中所有智能体的嵌入表示进行平均池化，从而得到所有智能体的联合Q值：

其中，图神经网络的确定过程中，可以基于所述目标对象的知识图谱，确定与所述目标对象相匹配的不同关联对象；根据与所述目标对象相匹配的不同关联对象，确定所述种植策略生成模型中的图神经网络的节点；基于与所述目标对象相匹配的趋势隐变量，确定所述种植策略生成模型中的图神经网络的不同边线；基于所述图神经网络的节点和图神经网络的不同边线，确定种植策略生成模型中的图神经网络。进一步地，确定所述图神经网络的任一节点所对应的特征信息；将当前节点的特征信息广播至与当前节点相连接的其他节点中；基于与当前节点相连接的其他节点基于所述特征信息，对相应的边线进行调整，以确定种植策略生成模型中的图神经网络。

步骤405：种植策略生成装置根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略。

继续参考图8、图9、图10，图8为本发明实施例中番茄种植策略生成方法一个可选的处理过程示意图，可以理解地，图8所示的步骤可以由运行种植策略生成装置的各种电子设备执行，例如可以是如带有种植策略生成装置的专用终端、种植策略数据库数据库服务器或者种植模拟器的服务器集群，其中，带有种植策略生成装置的专用终端可以为前序图2所示的实施例中带有种植策略生成装置的电子设备。图9为本发明实施例中番茄的不同种植策略选择示意图；图10为本发明实施例中番茄的不同种植策略种植模型效果示意图，具体包括以下步骤：

步骤801：获取番茄种植环境中的动作样本集合；

步骤802：基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量；

步骤803：基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；

步骤804：利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势；

步骤805：根据所述目标对象种植环境中的不同动作的变化趋势，确定与所述目标对象种植环境相匹配的种植策略，调整温度、二氧化碳浓度、光照以及灌溉量。

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种种植策略生成方法，其特征在于，所述方法包括：

获取目标对象种植环境中的动作样本集合；

2.根据权利要求1所述的方法，其特征在于，所述获取目标对象种植环境中的动作样本集合，包括：

确定与所述目标对象种植环境相匹配的样本采集策略；

根据所述样本采集策略，确定目标维度的样本采集方式为随机采集，并为非目标维度的样本采集配置随机值；

将所述目标维度的样本采集结果和非目标维度所配置的随机值进行拼处理，形成所述目标对象种植环境中的动作样本；

对所述目标对象种植环境中的所有维度分别对应的动作样本进行合并，形成目标对象种植环境中的动作样本集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所述动作样本集合，通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量，包括：

通过所述种植策略生成模型中的动作编码器网络，将所述动作样本集合中的每一个动作样本映射至公共隐空间中，形成隐含嵌入向量；

根据所述隐含嵌入向量与每一个动作样本间的映射关系，对所述动作样本集合中的不同动作样本进行解耦重构处理，形成动作嵌入向量。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

通过所述种植策略生成模型中的动作编码器网络所配置的预测器子网络，对所述动作样本集合进行预测，以实现根据所预测的动作样本集合对所述动作编码器网络进行调整。

5.根据权利要求1所述的方法，其特征在于，所述基于所述动作样本集合，通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量，包括：

根据所述目标对象种植环境，确定所述状态编码器网络的网络参数；

基于所述状态编码器网络的网络参数，确定所述状态编码器网络的网络结构；

通过所确定的状态编码器网络的网络结构，对不同维度中的动作样本进行状态编码处理，形成观测嵌入向量。

6.根据权利要求1所述的方法，其特征在于，所述利用所述动作嵌入向量和所述观测嵌入向量，通过所述种植策略生成模型中的图神经网络，确定所述目标对象种植环境中的不同动作的变化趋势，包括：

通过所述种植策略生成模型中的图神经网络的动作状态交换子网络，对所述动作嵌入向量和所述观测嵌入向量进行交换处理；

通过所述种植策略生成模型中的图神经网络的图注意力子网络，对经过交换的动作嵌入向量和所述观测嵌入向量进行处理，调整所述不同动作样本之间的权重；

根据所述不同动作样本之间的权重，确定所述目标对象种植环境中的不同动作的变化趋势。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述目标对象的知识图谱，确定与所述目标对象相匹配的不同关联对象；

根据与所述目标对象相匹配的不同关联对象，确定所述种植策略生成模型中的图神经网络的节点；

基于与所述目标对象相匹配的趋势隐变量，确定所述种植策略生成模型中的图神经网络的不同边线；

基于所述图神经网络的节点和图神经网络的不同边线，确定种植策略生成模型中的图神经网络。

8.根据权利要求7所述的方法，其特征在于，所述基于所述图神经网络的节点和图神经网络的不同边线，确定种植策略生成模型中的图神经网络，包括：

确定所述图神经网络的任一节点所对应的特征信息；

将当前节点的特征信息广播至与当前节点相连接的其他节点中；

基于与当前节点相连接的其他节点基于所述特征信息，对相应的边线进行调整，以确定种植策略生成模型中的图神经网络。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标对象的历史参数，确定与所述种植策略生成模型相匹配的训练样本集合与验证样本集合，其中，所述训练样本集合包括至少一组训练样本；

通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本集合；

根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进行训练，以实现确定与所述种植策略生成模型相适配的模型参数。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

确定与所述种植策略生成模型相匹配的多任务损失函数；

基于所述样本集合中的特征向量、所述目标对象的动作特征向量以及所述多任务损失函数，调整所述种植策略生成模型的网络参数，直至所述种植策略生成模型对应的不同维度的损失函数达到相应的收敛条件；以实现所述种植策略生成模型的参数与种植环境相适配。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所确定的与所述目标对象种植环境相匹配的种植策略，对所述目标对象种植环境中的动作进行调整，其中，所述目标对象种植环境中的动作包括至少以下之一：光照强度、室外温度、室外湿度、室外风速以及大气温度。

12.一种种植策略生成装置，其特征在于，所述装置包括：

所述信息处理模块，用于基于所述动作样本集合，通过所述种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理，形成观测嵌入向量；

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述种植策略生成方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1-12任一项所述种植策略生成方法。