CN113538162A - 一种种植策略生成方法、装置、电子设备及存储介质 - Google Patents

一种种植策略生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113538162A
CN113538162A CN202110004655.6A CN202110004655A CN113538162A CN 113538162 A CN113538162 A CN 113538162A CN 202110004655 A CN202110004655 A CN 202110004655A CN 113538162 A CN113538162 A CN 113538162A
Authority
CN
China
Prior art keywords
planting
action
target object
strategy generation
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110004655.6A
Other languages
English (en)
Inventor
李文浩
罗迪君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110004655.6A priority Critical patent/CN113538162A/zh
Publication of CN113538162A publication Critical patent/CN113538162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种种植策略生成方法、装置、电子设备,方法包括:通过获取目标对象种植环境中的动作样本集合;基于所述动作样本集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量;通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋势;根据所述目标对象种植环境中的不同动作的变化趋势,确定与所述目标对象种植环境相匹配的种植策略,由此,不但能够有效对多维度空间中的不同动作变化趋势进行预测,及时准确地调整种植策略,同时对于动态动作空间具有鲁棒性以及泛化性,减少了计算成本。

Description

一种种植策略生成方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术,尤其涉及种植策略生成方法、装置、及电子设 备。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功 能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以 及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更 多的领域得到应用,并发挥越来越重要的价值。
对植物生长进行预测时,通常采用基于物理公式推导的物理模拟器,根据 温室在每一个时刻的光照强度、温度、湿度、二氧化碳浓度,结合植物在不同 生长阶段的新陈代谢情况来预测植物每天的生长情况。这种基于物理公式的物 理模拟器通过物理公式来推导在不同温室环境状态下植物的每日生长情况,然 而,由于真实温室中影响植物状态的因素较多,且不同影响因素之间具有相互 作用,现有物理模拟器无法精确的模拟真实温室中不同天气状态对于植物的影 响,因此,物理模拟器对植物生长状态的预测结果通常与真实温室具有较大差 距。此外,基于物理公式的物理模拟器的模拟速度较慢,通常需要3-5秒才能完 成植物一天的模拟,因此在对较长种植周期进行模拟以及寻找最优种植策略时 所需的时间成本较大。通过人工智能,可以增加种植策略生成的准确性,提升 种植策略生成的效率,实现对复杂维度的种植策略的处理。
发明内容
有鉴于此,本发明实施例提供一种种植策略生成方法、装置、电子设备及 存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种种植策略生成方法包括:
获取目标对象种植环境中的动作样本集合;
基于所述动作样本集合,通过种植策略生成模型中的动作编码器网络对所 述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量;
基于所述动作样本集合,通过所述种植策略生成模型中的状态编码器网络 对所述动作样本集合中的不同动作样本进行状态编码处理,形成观测嵌入向量;
利用所述动作嵌入向量和所述观测嵌入向量,通过所述种植策略生成模型 中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋势;
根据所述目标对象种植环境中的不同动作的变化趋势,确定与所述目标对 象种植环境相匹配的种植策略。
本发明实施例还提供了一种种植策略生成装置,包括:
信息传输模块,用于获取目标对象种植环境中的动作样本集合;
信息处理模块,用于基于所述动作样本集合,通过种植策略生成模型中的 动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形 成动作嵌入向量;
所述信息处理模块,用于基于所述动作样本集合,通过种植策略生成模型 中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处 理,形成观测嵌入向量;
所述信息处理模块,用于利用所述动作嵌入向量和所述观测嵌入向量,通 过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的不 同动作的变化趋势;
所述信息处理模块,用于根据所述目标对象种植环境中的不同动作的变化 趋势,确定与所述目标对象种植环境相匹配的种植策略。
上述方案中,
所述信息处理模块,用于确定与所述目标对象种植环境相匹配的样本采集 策略;
所述信息处理模块,用于根据所述样本采集策略,确定目标维度的样本采 集方式为随机采集,并为非目标维度的样本采集配置随机值;
所述信息处理模块,用于将所述目标维度的样本采集结果和非目标维度所 配置的随机值进行拼处理,形成所述目标对象种植环境中的动作样本;
所述信息处理模块,用于对所述目标对象种植环境中的所有维度分别对应 的动作样本进行合并,形成目标对象种植环境中的动作样本集合。
上述方案中,
所述信息处理模块,用于通过种植策略生成模型中的动作编码器网络,将 所述动作样本集合中的每一个动作样本映射至公共隐空间中,形成隐含嵌入向 量;
所述信息处理模块,用于根据所述隐含嵌入向量与每一个动作样本间的映 射关系,对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作 嵌入向量。
上述方案中,
所述信息处理模块,用于通过所述种植策略生成模型中的动作编码器网络 所配置的预测器子网络,对所述动作样本集合进行预测,以实现根据所预测的 动作样本集合对所述动作编码器网络进行调整。
上述方案中,
所述信息处理模块,用于根据所述目标对象种植环境,确定所述状态编码 器网络的网络参数;
所述信息处理模块,用于基于所述状态编码器网络的网络参数,确定所述 状态编码器网络的网络结构;
所述信息处理模块,用于通过所确定的状态编码器网络的网络结构,对不 同维度中的动作样本进行状态编码处理,形成观测嵌入向量。
上述方案中,
所述信息处理模块,用于通过所述种植策略生成模型中的图神经网络的动 作状态交换子网络,对所述动作嵌入向量和所述观测嵌入向量进行交换处理;
所述信息处理模块,用于通过所述种植策略生成模型中的图神经网络的图 注意力子网络,对经过交换的动作嵌入向量和所述观测嵌入向量进行处理,调 整所述不同动作样本之间的权重;
所述信息处理模块,用于根据所述不同动作样本之间的权重,确定所述目 标对象种植环境中的不同动作的变化趋势。
上述方案中,
所述信息处理模块,用于基于所述目标对象的知识图谱,确定与所述目标 对象相匹配的不同关联对象;
所述信息处理模块,用于根据与所述目标对象相匹配的不同关联对象,确 定所述种植策略生成模型中的图神经网络的节点;
所述信息处理模块,用于基于与所述目标对象相匹配的趋势隐变量,确定 所述种植策略生成模型中的图神经网络的不同边线;
所述信息处理模块,用于基于所述图神经网络的节点和图神经网络的不同 边线,确定种植策略生成模型中的图神经网络。
上述方案中,
所述信息处理模块,用于确定所述图神经网络的任一节点所对应的特征信 息;
所述信息处理模块,用于将当前节点的特征信息广播至与当前节点相连接 的其他节点中;
所述信息处理模块,用于基于与当前节点相连接的其他节点基于所述特征 信息,对相应的边线进行调整,以确定种植策略生成模型中的图神经网络。
上述方案中,
所述信息处理模块,用于基于所述目标对象的历史参数,确定与所述种植 策略生成模型相匹配的训练样本集合与验证样本集合,其中,所述训练样本集 合包括至少一组训练样本;
所述信息处理模块,用于通过所述种植策略生成模型提取与所述训练样本 相匹配的训练样本集合;
所述信息处理模块,用于根据与所述训练样本相匹配的训练样本集合对所 述种植策略生成模型进行训练,以实现确定与所述种植策略生成模型相适配的 模型参数。
上述方案中,
所述信息处理模块,用于确定与所述种植策略生成模型相匹配的多任务损 失函数;
所述信息处理模块,用于基于所述样本集合中的特征向量、所述目标对象 的动作特征向量以及所述多任务损失函数,调整所述种植策略生成模型的网络 参数,直至所述种植策略生成模型对应的不同维度的损失函数达到相应的收敛 条件;以实现所述种植策略生成模型的参数与种植环境相适配。
上述方案中,
所述信息处理模块,用于根据所确定的与所述目标对象种植环境相匹配的 种植策略,对所述目标对象种植环境中的动作进行调整,其中,所述目标对象 种植环境中的动作包括至少以下之一:光照强度、室外温度、室外湿度、室外 风速以及大气温度。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前述的种植策略 生成方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所 述可执行指令被处理器执行时实现前述的种植策略生成方法。
本发明实施例具有以下有益效果:
本发明通过获取目标对象种植环境中的动作样本集合;基于所述动作样本 集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不 同动作样本进行解耦重构处理,形成动作嵌入向量;基于所述动作样本集合, 通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作 样本进行状态编码处理,形成观测嵌入向量;利用所述动作嵌入向量和所述观 测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标对象 种植环境中的不同动作的变化趋势;根据所述目标对象种植环境中的不同动作 的变化趋势,确定与所述目标对象种植环境相匹配的种植策略。通过本申请所 提供的种植策略生成模型不但能够有效对多维度空间中的不同动作变化趋势进行预测,及时准确地调整种植策略,同时对于动态动作空间具有鲁棒性以及泛 化性,减少了计算成本,提升种植策略生成的效率,实现对复杂维度的种植策 略的处理。
附图说明
图1为本发明实施例提供的种植策略生成方法的使用场景示意图;
图2为本发明实施例提供的种植策略生成装置的组成结构示意图;
图3为本发明实施例提供的种植策略生成方法一个可选的流程示意图;
图4为本发明实施例提供的种植策略筛选方法一个可选的流程示意图;
图5为本发明实施例中植策略生成模型的数据结构示意图;
图6为本发明实施例中植策略生成模型的数据采集示意图;
图7为本发明实施例中植策略生成模型的图注意力网络数据结构示意图;
图8为本发明实施例中番茄种植策略生成方法一个可选的处理过程示意图
图9为本发明实施例中番茄的不同种植策略选择示意图;
图10为本发明实施例中番茄的不同种植策略种植模型效果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本 发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集, 但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集, 并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词 和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖 的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的 延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限 制。
2)基于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的 条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延 迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
3)模型训练,对图像数据集进行多分类学习。该模型可采用Tensor Flow、 torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类 模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵, 模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模 型通过交叉熵等目标函数向正确趋势逼近。
4)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿 生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型 或计算模型,用于对函数进行估计或近似。
5)图神经网络(Graph Neural Network,GNN):一种直接作用于图结构上的 神经网络,主要针对非欧几里得空间结构(图结构)的数据进行处理。具有忽略节 点的输入顺序;在计算过程中,节点的表示受其周围邻居节点的影响,而图本 身连接不变;图结构的表示使得可以进行基于图的推理。通常,图神经网络由 两个模块组成:传播模块(Propagation Module)和输出模块(Output Module),传播 模块用于图中节点之间传递信息并更新状态,输出模块用于基于图的节点和边 的向量表示,根据不同的任务定义目标函数。图神经网络有:图卷积神经网络 (Graph Convolutional Networks,GCNs),门控图神经网络(Gated Graph Neural Networks,GGNNs)以及基于注意力机制的图注意力神经网络(Graph Attention Networks,GAT)。
6)强化学习:用于解决序列决策问题,将问题建模为完全观测或者部分观 测的马尔可夫决策过程。主要包括环境和智能体两个组成成分,智能体根据环 境的状态基于当前策略执行决策,环境根据智能体的决策转移到新的状态并反 馈一个标量奖励信号,智能体根据环境反馈的奖励不断优化策略。
7)部分观测随机博弈:部分观测马尔可夫决策过程在多智能体系统下的直 接扩展,与部分观测马尔可夫决策过程类似,由状态空间、观测空间、动作空 间、奖励函数、状态转移函数、发射函数等组成。每个智能体的目标是最大 化在博弈过程中得到的期望累计奖励。
8)协作多智能体强化学习:强化学习在多智能体系统下的直接扩展,一般 将问题建模为部分观测随机博弈的特例,及协作部分观测随机博弈。在这种情 况下,每个智能体不再仅最大化各自在博弈过程中得到的期望累积奖励,而是 最大化在博弈过程中得到的共同的期望累积团队奖励。
9)图注意力网络网络:注意力机制与图卷积网络的结合,将图卷积网络中 的聚合操作由简单的加和、平均等替换为注意力层。
10)层次变分自动编码器:变分自动编码器的变种。在层次变分自动编码 器中,不再仅包含单一的隐变量,而是包含多个隐变量。这些隐变量之间存在 层次关系,上层隐变量基于下层隐变量生成。
11)动态动作空间:对应于一般强化学习问题中的静态动作空间,即动作 空间不会在算法训练过程中或随着系统演化而发生扩大或缩小。反之,动态动 作空间则会随着算法训练或系统演化随机扩大或缩小。
12)多维度动作空间:动作空间中不同动作之间不具有相同或相似的语义, 例如机器人控制中机器人不同关节的角度;而是可以分为具有不同语义的子动 作空间,例如农作物种植场景中,算法可以控制智慧温室的不同控制器,如温 度、湿度、二氧化碳以及光照等。
13)环境非平稳问题:在多智能体强化学习中,在独立考虑每个智能体的 情况下,每个智能体都将其余智能体当作环境的一部分。由于其余智能体的策 略在不断更新,使得环境的状态转移概率随时间不断变化,导致了环境非平稳。
14)多智能体信用分配问题:与单智能体强化学习信用分配问题类似。在 多智能体强化学习中,如果所有智能体共享公共的奖励函数,那么无法确定奖 励与不同智能体贡献程度之间的相关关系,从而产生多智能体信用分配问题。
图1为本发明实施例提供的种植策略生成方法的使用场景示意图,参见图1, 在本申请实施例所提供的种植策略生成方法应用中,终端包括终端10-1和终端 10-2,其中终端10-1位于开发人员侧,用以控制种植策略生成模型的训练与使 用,终端10-2位于用户侧,用以请求对种植策略进行筛选;终端通过网络300 连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使 用无线或有线链路实现数据传输。
终端10-2位于用户侧,用于发出种植策略生成请求,请求获取与目标对象 种植环境相适配的种植策略,其中目标对象可以是各种类型的农作物。
作为一个示例,服务器200用于布设所述种植策略生成装置以实现本发明 所提供的种植策略生成方法,后者可以布设经过训练的种植策略生成模型,以 实现在不同的环境中(例如对不同的种植策略筛选的环境中,调整光照强度、 温度、湿度、风速、虚拟天空温度以及温室内的历史温度、历史湿度、历史二 氧化碳浓度和历史光照强度等等中的至少一个动作)的种植策略进行筛选,具 体的,在使用种植策略生成模型之前,需要对种植策略生成模型进行训练,具 体过程包括:基于所述目标对象的历史参数,确定与所述种植策略生成模型相 匹配的训练样本集合与验证样本集合,其中,所述训练样本集合包括至少一组 训练样本;通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本 集合;根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进 行训练,以实现确定与所述种植策略生成模型相适配的模型参数。当然,本发 明所提供的种植策略生成装置可以基于对同一目标对象在不同种植策略生成环 境中的种植策略生成模型为进行训练,最终在用户界面(UI User Interface)上 呈现出与通过种植策略生成模型所确定与种植环境相适配的种植策略,所得到 通过种植策略生成模型以及与种植环境相适配的种植策略还可以供其他应用程 序调用(例如农业模拟器或者农业种植模拟游戏),当然,与相应的种植策略数 据库相匹配的种植策略生成模型也可以迁移至不同的种植策略生成进程(例如 靶向性种植策略生成进程、化学种植策略生成进程或者有机种植策略生成进 程)。
当然对种植策略生成模型训练完成之后,就可以通过种植策略生成模型进 行推荐,具体包括:获取目标对象种植环境中的动作样本集合;基于所述动作 样本集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中 的不同动作样本进行解耦重构处理,形成动作嵌入向量;基于所述动作样本集 合,通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同 动作样本进行状态编码处理,形成观测嵌入向量;利用所述动作嵌入向量和所 述观测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标 对象种植环境中的不同动作的变化趋势;根据所述目标对象种植环境中的不同 动作的变化趋势,确定与所述目标对象种植环境相匹配的种植策略。
下面对本发明实施例的种植策略生成装置的结构做详细说明,种植策略生 成装置可以各种形式来实施,如带有种植策略生成装置处理功能的专用终端, 也可以为设置有种植策略生成装置处理功能的服务器,例如前序图1中的服务 器200。图2为本发明实施例提供的种植策略生成装置的组成结构示意图,可以 理解,图2仅仅示出了种植策略生成装置的示例性结构而非全部结构,根据需 要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的种植策略生成装置包括:至少一个处理器201、存储器 202、用户接口203和至少一个网络接口204。种植策略生成装置中的各个组件 通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之 间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总 线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线 系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按 键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括 易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以 支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上 操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系 统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理 基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的种植策略生成装置可以采用软硬件 结合的方式实现,作为示例,本发明实施例提供的种植策略生成装置可以是采 用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的种植策 略生成方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专 用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑 器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的种植策略生成装置采用软硬件结合实施的示例, 本发明实施例所提供的种植策略生成装置可以直接体现为由处理器201执行的 软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理 器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如, 包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的种 植策略生成方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力, 例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他 可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用 处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的种植策略生成装置采用硬件实施的示例,本发明 实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完 成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可 编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵 列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实 施例提供的种植策略生成方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持种植策略生 成装置的操作。这些数据的示例包括:用于在种植策略生成装置上操作的任何 可执行指令,如可执行指令,实现本发明实施例的从种植策略生成方法的程序 可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的种植策略生成装置可以采用软件 方式实现,图2示出了存储在存储器202中的种植策略生成装置,其可以是程 序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序 的示例,可以包括种植策略生成装置,种植策略生成装置中包括以下的软件模 块:
信息传输模块2081,用于获取目标对象种植环境中的动作样本集合。
信息处理模块2082,用于基于所述动作样本集合,通过种植策略生成模型 中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处 理,形成动作嵌入向量。
所述信息处理模块2082,用于基于所述动作样本集合,通过种植策略生成 模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码 处理,形成观测嵌入向量。
所述信息处理模块2082,用于利用所述动作嵌入向量和所述观测嵌入向量, 通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的 不同动作的变化趋势。
所述信息处理模块2082,用于根据所述目标对象种植环境中的不同动作的 变化趋势,确定与所述目标对象种植环境相匹配的种植策略。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物 理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、 云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全 服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智 能平台等基础云计算服务的云服务器。终端(如终端10-1)可以是智能手机、 平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端以及服务器可 以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在实际应用中,本申请实施例提供的种植策略生成模型可以应用于结构生 物学以及医学领域,通过种植策略生成模型实现种植策略发现、优化、组合等。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种 计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指 令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算 机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机 设备执行上述点种植策略生成方法的各种可选实现方式中所提供的不同实施例 及实施例的组合。
继续结合图2示出的种植策略生成装置说明本发明实施例提供的种植策略 生成方法,首先介绍部署于服务器中的种植策略生成模型的训练过程,其中, 参见图3,图3为本发明实施例提供的种植策略生成方法一个可选的流程示意图, 可以理解地,图3所示的步骤可以由运行种植策略生成装置的各种电子设备执 行,例如可以是如带有种植策略生成装置的专用终端、种植策略数据库服务器 或者农业提供商的服务器集群,其中,带有种植策略生成装置的专用终端可以 为前序图2所示的实施例中带有种植策略生成装置的电子设备。为了克服传统 种植策略生成方式所造成的种植策略生成不准确以及效率低的缺陷,本发明所 提供的技术方案使用了人工智能技术,人工智能AI(Artificial Intelligence)是 利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知 环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换 句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并 生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就 是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的 功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统 计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模 拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构 使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能 的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括 人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。 随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例 如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发 展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面针对图3示出的步骤进行具体说明。
步骤301:种植策略生成装置基于所述目标对象的历史参数,确定与所述种 植策略生成模型相匹配的训练样本集合与验证样本集合。
其中,所述训练样本集合包括至少一组训练样本,以番茄种植为例,训练 样本集合可以包括各类型的朱武状态数据,植物状态数据为预测开始时间点的 植物状态数据,温室控制参数和天气数据为从预测开始时间起预定时间段内的 温室控制参数和天气数据。例如,预测开始时间点可以为预测日0点,预定时 间段可以为24小时,则植物状态数据为预测日0点时的植物状态数据,温室控 制参数和天气数据为从预测日0点开始24小时内的温室控制参数和天气数据。 应当理解的是,预测开始时间点和预定时间段不限于这里公开的具体数值,而 是可以根据实际需要选择合适的值。。
步骤302:种植策略生成装置通过所述种植策略生成模型提取与所述训练样 本相匹配的训练样本集合。
步骤303:种植策略生成装置确定与所述种植策略生成模型相匹配的多任务 损失函数。
步骤304:种植策略生成装置根据与所述训练样本相匹配的训练样本集合对 所述种植策略生成模型进行训练,以实现确定与所述种植策略生成模型相适配 的模型参数。
其中,基于所述样本集合中的特征向量、所述目标对象的动作特征向量以 及所述多任务损失函数,调整所述种植策略生成模型的网络参数,直至所述种 植策略生成模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述 种植策略生成模型的参数与种植环境相适配。
同时考虑到实际应用中不但可以通过固定的种植策略生成服务器实现本申 请的方案,同时由于种植策略数据库中蛋白质分子和目标对象的数量众多,因 此还可以通过种植策略生成服务器群组实现本申请的方案,因此,通过种植策 略生成信息区块链,不同的终端中同时获取种植策略生成模型时,可以通过部 署在区块链网络中的经过训练种植策略生成模型,快速地对蛋白质分子和目标 对象进行种植策略生成,同时服务器群中的不同服务器(节点)获取区块链网络中 目标对象结合产物的活性筛选结果。
其中,本发明实施例可结合云技术实现,云技术(Cloud technology)是指在广 域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、 储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网 络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络 系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多 的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机 构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息 服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限 扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算 的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设 施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源, 供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器, 包含操作系统)、存储设备和网络设备。
当经过训练的种植策略生成模型部署在相应的服务器后,可以生成与目标 对象种植环境相匹配的种植策略,继续参考图4,图4为本发明实施例提供的种 植策略筛选方法一个可选的流程示意图,图4所示的步骤可以由运行种植策略 生成装置的各种电子设备执行,例如可以是如带有种植策略生成装置的专用终 端、种植策略数据库服务器或者种植模拟器的服务器集群,其中,带有种植策 略生成装置的专用终端可以为前序图2所示的实施例中带有种植策略生成装置 的电子设备,具体包括:
步骤401:种植策略生成装置获取目标对象种植环境中的动作样本集合。
在本发明的一些实施例中,获取目标对象种植环境中的动作样本集合,可 以通过以下方式实现:
确定与所述目标对象种植环境相匹配的样本采集策略;根据所述样本采集 策略,确定目标维度的样本采集方式为随机采集,并为非目标维度的样本采集 配置随机值;将所述目标维度的样本采集结果和非目标维度所配置的随机值进 行拼处理,形成所述目标对象种植环境中的动作样本;对所述目标对象种植环 境中的所有维度分别对应的动作样本进行合并,形成目标对象种植环境中的动 作样本集合。其中,植物种植时,动作类型多种多样,例如:温度(24维连续 值,取值范围[13,25])、二氧化碳浓度(24维连续值,取值范围[400,700])、 光照(2维连续值,取值范围[0,24])以及灌溉(2维连续值,取值范围[0,24])。每个仿真日的奖励(连续值,取值范围[0,30])根据累积番茄鲜重得到。对于不 同的动作,可以表示为以下基于马尔可夫博弈的多元组:
Figure BDA0002882973600000171
其中n表示智能体数目;X表示智能体空间;S表示有限状态空间;Ai表 示智能体i的有限动作空间;A=A1*A2*....An表示有限联合动作空间;P(S’|S,a)表 示状态转移概率;δi表示智能体i的有限观测空间;δ=δ12*....δn表示有限联 合观测空间;ε(o|s)表示发射概率函数;
Figure RE-GDA0003094639580000176
表示智能体i的耗费函数。 POSG可以展开成一条有限或无限的由阶段(或时间步)组成的序列,阶段的数 目叫做视界。本文可以仅考虑有限视界问题。每个智能体在博弈中的目标是最 小化期望累积耗费。协作部分随机观测随即博弈则是在POSG的基础上满足下 述约束:
Figure BDA0002882973600000174
其中x以及x′表示智能体空间x中的一对智能体;πx以及πx′表示两 个智能体策略空间Πx以及Πx′中对应的策略。直观来讲,上述约束表明所有 智能体中任意一对智能体的利益都是不冲突的。协作POSG最常见的一个实例 是完全协作POSG(也被称作去中心部分观测马尔可夫过程,Dec-POMDP),即 所有智能体共享同一个耗费函数
Figure BDA0002882973600000175
可以将具有动态多维度动作空 间单智能体强化学习问题建模为一个完全协作POSG问题,其中每个维度的子 动作空间代表一个独立的智能体。不失一般性地,可以将完全协作POSG问题的优化目标定义如下:
Figure BDA0002882973600000176
其中
Figure BDA0002882973600000177
表示所有智能体策略函数的参数,
Figure BDA0002882973600000178
表示可分解 为每个智能体局部策略函数的联合策略函数。dΨ表示联合策略πΨ对应的平稳 分布。
步骤402:种植策略生成装置基于所述动作样本集合,通过种植策略生成模 型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处 理,形成动作嵌入向量。
在本发明的一些实施例中,基于所述动作样本集合,通过种植策略生成模 型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处 理,形成动作嵌入向量,可以通过以下方式实现:
通过种植策略生成模型中的动作编码器网络,将所述动作样本集合中的每 一个动作样本映射至公共隐空间中,形成隐含嵌入向量;根据所述隐含嵌入向 量与每一个动作样本间的映射关系,对所述动作样本集合中的不同动作样本进 行解耦重构处理,形成动作嵌入向量。具体来说,参考图5,图5为本发明实施 例中植策略生成模型的数据结构示意图,其中,结构化协作强化学习多智能体 算法SCARL来去解决可变数目异质MARL问题,具体可以包括动作空间表示 学习阶段以及鲁棒可泛
化策略学习阶段。SCARL采用中心化评论家-去中心化演员(Centralized Critic,Decentralized Actor)框架,同时引入图神经网络(GNN)作为中心化评 论家,来解决动态多维度动作空间问题。以番茄种植为例,在智慧种植场景中, 当温度上升时,酶的活性会同时增强;如果光照强度也能够同时增强,就会导 致光合作用强度增大,最终就可以增多作物收成。如果能够显式地对各维度子 动作空间之间的依赖关系进行建模,就可以提升多智能体探索效率从而提升最 终算法性能。为了解决这个问题,SCARL首先引入层次变分自动编码器(HVAE) 将多维度子动作空间映射到一个公共的隐空间中;注意力机制被接着引入到基 于GNN的中心化评论家中形成基于图注意力网络(GAT)的中心化评论家,通 过GAT中边的注意力权重来去捕捉被投影到公共隐空间的各维度子动作空间之 间的依赖关系。最后,建模为可变数目异质MARL问题还会带来多智能体信用 分配问题,SCARL在GAT的基础上额外在中心化评论家-去中心化演员框架中 引入隐式信用分配结构来解决此问题。
在本发明的一些实施例中,还可以通过所述种植策略生成模型中的动作编 码器网络所配置的预测器子网络,对所述动作样本集合进行预测,以实现根据 所预测的动作样本集合对所述动作编码器网络进行调整。
步骤403:种植策略生成装置基于所述动作样本集合,通过种植策略生成模 型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处 理,形成观测嵌入向量。
在本发明的一些实施例中,基于所述动作样本集合,通过种植策略生成模 型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处 理,形成观测嵌入向量,可以通过以下方式实现:
根据所述目标对象种植环境,确定所述状态编码器网络的网络参数;基于所述 状态编码器网络的网络参数,确定所述状态编码器网络的网络结构;通过所确 定的状态编码器网络的网络结构,对不同维度中的动作样本进行状态编码处理, 形成观测嵌入向量。其中,参考图6,图6为本发明实施例中植策略生成模型的 数据采集示意图,在智慧种植场景中,温度这一维度的子动作空间负责调整温 室的室温,而二氧化碳控制器则负责调节温室的二氧化碳浓度。在不引入农业 专家先验知识的前提下,算法很难直接根据各智能体从环境中采样的样本来对 温度维度以及二氧化碳维度之间的相关关系进行建模。然而,不同维度的子动 作对于环境不同方面的影响最终都反映在农作物的产量。因此,我们可以作出一个合理的假设:不同维度的子动作影响的是与农作物产量相关的公共隐变量, 例如酶的活性等。如果我们将不同维度的子动作都投影到这个公共的隐空间中, 那么我们就可以更容易地捕捉不同维度子动作之间的相关关系,并且也可以将 算法自然地应用到具有新维度子动作空间的场景中。
为了达成上述目的,SCARL算法首先将整个动作空间编码。首先,SCAR 算法使用一个默认策略(本发明中使用的是随机策略,这里可以使用任意的默 认策略,例如专家策略等)为每一个维度的动作空间收集对应的观测样本集合。 换句话说,由于每个维度的子动作空间都被建模为一个独立的智能体,这个过 程即该智能体依据默认策略在环境中进行采样。具体来说,为了更全面地编码 整个动作空间,采用默认策略的智能体需要收集到具有足够多样性的样本。为 此,对于每个子动作空间,采用默认策略的智能体会首先固定其他维度的动作 为一随机值,接着在当前子动作空间中随机采样动作,最后将两部分动作值拼 接输入到环境中,这样就可以收集到一批观测样本。上述过程将会重复多次直 到收集到的观测样本数量达到预定义的阈值。针对每个子动作空间的采样结束 后,将会得到每个子空间对应的观测样本集合。
SCARL算法引入层次变分自动编码器HAVE来对各子动作空间进行编码。 第一层VAE将会将每个子动作空间对应的观测样本集合编码为一个子动作空间 嵌入表示。子动作空间嵌入表示将于属于此子动作空间的特定动作一起作为第 二层VAE的条件输入,来重构该特定动作对应的观测样本。这里SCARL使用 子动作空间嵌入表示与特定动作一起作为输入的原因,是为了得到属于此子动 作空间中的特定动作在公共隐空间中的隐含嵌入表示。只有使用不同维度子动 作在公共隐空间中的嵌入表示,而不是在原子动作空间中的表示,我们才能更 容易地仅通过不同智能体采样到的独立样本来捕捉不同维度子动作的相关关系。而为了增强子动作空间嵌入表示的表示能力,SCARL算法还额外加入了一 个自监督辅助任务。具体来说,除了HAVE原始的重构解码器,SCARL还额外 增加了一个预测器,用以预测智能体未来短时间内的观测。
对于多维度动作空间中每个维度的子动作空间
Figure BDA0002882973600000201
我们首先从固定下来 的其他维度子动作空间
Figure BDA0002882973600000202
中随机采样k个不同的固定随机值
Figure BDA0002882973600000203
接着对于每 个固定的随机值
Figure BDA0002882973600000204
我们又从当前子动作空间
Figure BDA0002882973600000205
中随机采样j个动作
Figure BDA0002882973600000206
因而我们一共采样k×j个不同的联合动作,这对应着样本集
Figure BDA0002882973600000207
中k×j个不 同的观测。HAVE通过对每个观测样本
Figure BDA0002882973600000208
进行平均池化(mean-pooling)将对应 的观测样本集
Figure BDA0002882973600000209
编码为子动作空间嵌入表示ci
我们将进行上述运算过程的动作空间编码器称为动作空间表示模块
Figure BDA00028829736000002010
注意,在训练阶段我们从该模块中采样一个子动作空间嵌入表示来进行 后面的运算,但在训练完毕后,我们取该模块输出的均值来作为每个子动作空 间的嵌入表示。接下来,对于每个观测样本
Figure BDA00028829736000002011
HAVE使用嵌入表示ci作 为动作编码器
Figure BDA00028829736000002012
以及动作解码器
Figure BDA00028829736000002013
的条件输入。动作编码 器依据观测
Figure BDA00028829736000002014
以及嵌入表示ci作为条件输入,将子动作
Figure BDA00028829736000002015
投影到公共隐空 间中,得到子动作在隐空间中的隐含嵌入表示
Figure BDA00028829736000002016
除了动作解码器根据隐含嵌 入表示
Figure BDA0002882973600000211
用于重构观测样本外,预测器
Figure BDA0002882973600000212
基于嵌入表示ci作为条 件输入,根据隐含嵌入表示
Figure BDA0002882973600000213
来预测未来t个时间步内连续的未来观测
Figure BDA0002882973600000214
综上,动作空间表示学习一共包含三部分损失函数:
1)关于观测样本集中所有观测样本
Figure BDA0002882973600000215
的重构损失;
2)动作空间表示模块以及动作编码器qφ和qψ与它们对应的先验分布 p(c)和p(z|ci)之间的KL散度;
3)关于观测样本集中所有观测样本
Figure BDA0002882973600000216
对应的后续观测
Figure BDA0002882973600000217
的预测损失。 因而动作空间表示学习问题可形式化为最大化下述ELBO(证据下界):
其中,SCARL使用长短期记忆网络LSTM来实现预测器
Figure BDA0002882973600000218
(预 测器可使用任何类型的深度神经网络来进行实现),同时使用双向长短期记忆网 络Bi-LSTM来实现动作空间表示模块
Figure BDA0002882973600000219
(需要说明的是,动作空间表示模 块可使用任何类型的深度神经网络来进行实现)。
步骤404:种植策略生成装置利用所述动作嵌入向量和所述观测嵌入向量, 通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的 不同动作的变化趋势。
在本发明的一些实施例中,利用所述动作嵌入向量和所述观测嵌入向量, 通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的 不同动作的变化趋势,可以通过以下方式实现:
通过所述种植策略生成模型中的图神经网络的动作状态交换子网络,对所述 动作嵌入向量和所述观测嵌入向量进行交换处理;通过所述种植策略生成模型 中的图神经网络的图注意力子网络,对经过交换的动作嵌入向量和所述观测嵌 入向量进行处理,调整所述不同动作样本之间的权重;根据所述不同动作样本 之间的权重,确定所述目标对象种植环境中的不同动作的变化趋势。其中,参 考图7,图7为本发明实施例中植策略生成模型的图注意力网络数据结构示意图, 其中,中心化评论家共包含四个子模块:状态编码器qΦ,动作编码器qΨ,动作 -状态对交互模块pw以及图注意力模块gΘ。状态编码器以及动作编码器与动作 空间表示学习阶段的两编码器相同。在每个episode的每个时间步t,状态编码器qφ,动作编码器qψ分别接收每个智能体的局部观测
Figure BDA0002882973600000221
以及策略网络输出的 动作
Figure BDA0002882973600000222
作为输入。同时,每个智能体对应的子动作空间嵌入表示ci也会同时 输入到动作编码器中(与动作空间表示学习阶段一致),得到每个智能体对应的 局部观测嵌入表示
Figure BDA0002882973600000223
以及动作嵌入表示
Figure BDA0002882973600000224
Figure BDA0002882973600000225
接下来,每个智能体对应的局部观测嵌入表示
Figure BDA0002882973600000226
以及动作嵌入表示
Figure BDA0002882973600000227
将会 被一起输入到动作-状态对交互模块pw中,得到智能体i在t时刻对应的智能体 嵌入表示
Figure BDA0002882973600000228
Figure BDA0002882973600000229
动作-状态对交互模块pw可以直观地理解为对不同维度子动作对环境的影响。 由于各维度子动作已经通过动作编码器映射到了公共的隐空间中,因而它们对 于环境的影响也是作用在一个公共的隐变量上,例如酶的活性等。因而接下来 我们可以合理地使用图注意力模块对智能体之间的依赖关系进行建模。具体来 说,接下来我们计算任意两个能体i和j之间的注意力权重:
Figure BDA00028829736000002210
其中图注意力模块由参数Θ(1):={a(1),θ(1)}进行参数化。[·|·]表示拼接操作。接着 通过图神经网络的聚合函数来对智能体嵌入表示进行更新:
Figure BDA00028829736000002211
上述图卷积操作SCARL算法共进行m次,我们记第m层输出的智能体嵌入表 示为
Figure BDA00028829736000002212
最后我们对图中所有智能体的嵌入表示进行平均池化,从而得到所有 智能体的联合Q值:
Figure BDA00028829736000002213
其中,图神经网络的确定过程中,可以基于所述目标对象的知识图谱,确 定与所述目标对象相匹配的不同关联对象;根据与所述目标对象相匹配的不同 关联对象,确定所述种植策略生成模型中的图神经网络的节点;基于与所述目 标对象相匹配的趋势隐变量,确定所述种植策略生成模型中的图神经网络的不 同边线;基于所述图神经网络的节点和图神经网络的不同边线,确定种植策略 生成模型中的图神经网络。进一步地,确定所述图神经网络的任一节点所对应 的特征信息;将当前节点的特征信息广播至与当前节点相连接的其他节点中; 基于与当前节点相连接的其他节点基于所述特征信息,对相应的边线进行调整, 以确定种植策略生成模型中的图神经网络。
步骤405:种植策略生成装置根据所述目标对象种植环境中的不同动作的变 化趋势,确定与所述目标对象种植环境相匹配的种植策略。
继续参考图8、图9、图10,图8为本发明实施例中番茄种植策略生成方法 一个可选的处理过程示意图,可以理解地,图8所示的步骤可以由运行种植策 略生成装置的各种电子设备执行,例如可以是如带有种植策略生成装置的专用 终端、种植策略数据库数据库服务器或者种植模拟器的服务器集群,其中,带 有种植策略生成装置的专用终端可以为前序图2所示的实施例中带有种植策略 生成装置的电子设备。图9为本发明实施例中番茄的不同种植策略选择示意图; 图10为本发明实施例中番茄的不同种植策略种植模型效果示意图, 具体包括以下步骤:
步骤801:获取番茄种植环境中的动作样本集合;
步骤802:基于所述动作样本集合,通过种植策略生成模型中的动作编码器 网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入 向量;
步骤803:基于所述动作样本集合,通过种植策略生成模型中的状态编码器 网络对所述动作样本集合中的不同动作样本进行状态编码处理,形成观测嵌入 向量;
步骤804:利用所述动作嵌入向量和所述观测嵌入向量,通过所述种植策略 生成模型中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋 势;
步骤805:根据所述目标对象种植环境中的不同动作的变化趋势,确定与所 述目标对象种植环境相匹配的种植策略,调整温度、二氧化碳浓度、光照以及 灌溉量。
有益技术效果:
本发明通过获取目标对象种植环境中的动作样本集合;基于所述动作样本 集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不 同动作样本进行解耦重构处理,形成动作嵌入向量;基于所述动作样本集合, 通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作 样本进行状态编码处理,形成观测嵌入向量;利用所述动作嵌入向量和所述观 测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标对象 种植环境中的不同动作的变化趋势;根据所述目标对象种植环境中的不同动作 的变化趋势,确定与所述目标对象种植环境相匹配的种植策略。通过本申请所 提供的种植策略生成模型不但能够有效对多维度空间中的不同动作变化趋势进行预测,及时准确地调整种植策略,同时对于动态动作空间具有鲁棒性以及泛 化性,减少了计算成本,提升种植策略生成的效率,实现对复杂维度的种植策 略的处理。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围, 凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。

Claims (14)

1.一种种植策略生成方法,其特征在于,所述方法包括:
获取目标对象种植环境中的动作样本集合;
基于所述动作样本集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量;
基于所述动作样本集合,通过所述种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理,形成观测嵌入向量;
利用所述动作嵌入向量和所述观测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋势;
根据所述目标对象种植环境中的不同动作的变化趋势,确定与所述目标对象种植环境相匹配的种植策略。
2.根据权利要求1所述的方法,其特征在于,所述获取目标对象种植环境中的动作样本集合,包括:
确定与所述目标对象种植环境相匹配的样本采集策略;
根据所述样本采集策略,确定目标维度的样本采集方式为随机采集,并为非目标维度的样本采集配置随机值;
将所述目标维度的样本采集结果和非目标维度所配置的随机值进行拼处理,形成所述目标对象种植环境中的动作样本;
对所述目标对象种植环境中的所有维度分别对应的动作样本进行合并,形成目标对象种植环境中的动作样本集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述动作样本集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量,包括:
通过所述种植策略生成模型中的动作编码器网络,将所述动作样本集合中的每一个动作样本映射至公共隐空间中,形成隐含嵌入向量;
根据所述隐含嵌入向量与每一个动作样本间的映射关系,对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过所述种植策略生成模型中的动作编码器网络所配置的预测器子网络,对所述动作样本集合进行预测,以实现根据所预测的动作样本集合对所述动作编码器网络进行调整。
5.根据权利要求1所述的方法,其特征在于,所述基于所述动作样本集合,通过种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理,形成观测嵌入向量,包括:
根据所述目标对象种植环境,确定所述状态编码器网络的网络参数;
基于所述状态编码器网络的网络参数,确定所述状态编码器网络的网络结构;
通过所确定的状态编码器网络的网络结构,对不同维度中的动作样本进行状态编码处理,形成观测嵌入向量。
6.根据权利要求1所述的方法,其特征在于,所述利用所述动作嵌入向量和所述观测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋势,包括:
通过所述种植策略生成模型中的图神经网络的动作状态交换子网络,对所述动作嵌入向量和所述观测嵌入向量进行交换处理;
通过所述种植策略生成模型中的图神经网络的图注意力子网络,对经过交换的动作嵌入向量和所述观测嵌入向量进行处理,调整所述不同动作样本之间的权重;
根据所述不同动作样本之间的权重,确定所述目标对象种植环境中的不同动作的变化趋势。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于所述目标对象的知识图谱,确定与所述目标对象相匹配的不同关联对象;
根据与所述目标对象相匹配的不同关联对象,确定所述种植策略生成模型中的图神经网络的节点;
基于与所述目标对象相匹配的趋势隐变量,确定所述种植策略生成模型中的图神经网络的不同边线;
基于所述图神经网络的节点和图神经网络的不同边线,确定种植策略生成模型中的图神经网络。
8.根据权利要求7所述的方法,其特征在于,所述基于所述图神经网络的节点和图神经网络的不同边线,确定种植策略生成模型中的图神经网络,包括:
确定所述图神经网络的任一节点所对应的特征信息;
将当前节点的特征信息广播至与当前节点相连接的其他节点中;
基于与当前节点相连接的其他节点基于所述特征信息,对相应的边线进行调整,以确定种植策略生成模型中的图神经网络。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述目标对象的历史参数,确定与所述种植策略生成模型相匹配的训练样本集合与验证样本集合,其中,所述训练样本集合包括至少一组训练样本;
通过所述种植策略生成模型提取与所述训练样本相匹配的训练样本集合;
根据与所述训练样本相匹配的训练样本集合对所述种植策略生成模型进行训练,以实现确定与所述种植策略生成模型相适配的模型参数。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
确定与所述种植策略生成模型相匹配的多任务损失函数;
基于所述样本集合中的特征向量、所述目标对象的动作特征向量以及所述多任务损失函数,调整所述种植策略生成模型的网络参数,直至所述种植策略生成模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述种植策略生成模型的参数与种植环境相适配。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所确定的与所述目标对象种植环境相匹配的种植策略,对所述目标对象种植环境中的动作进行调整,其中,所述目标对象种植环境中的动作包括至少以下之一:光照强度、室外温度、室外湿度、室外风速以及大气温度。
12.一种种植策略生成装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标对象种植环境中的动作样本集合;
信息处理模块,用于基于所述动作样本集合,通过种植策略生成模型中的动作编码器网络对所述动作样本集合中的不同动作样本进行解耦重构处理,形成动作嵌入向量;
所述信息处理模块,用于基于所述动作样本集合,通过所述种植策略生成模型中的状态编码器网络对所述动作样本集合中的不同动作样本进行状态编码处理,形成观测嵌入向量;
所述信息处理模块,用于利用所述动作嵌入向量和所述观测嵌入向量,通过所述种植策略生成模型中的图神经网络,确定所述目标对象种植环境中的不同动作的变化趋势;
所述信息处理模块,用于根据所述目标对象种植环境中的不同动作的变化趋势,确定与所述目标对象种植环境相匹配的种植策略。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至12任一项所述种植策略生成方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1-12任一项所述种植策略生成方法。
CN202110004655.6A 2021-01-04 2021-01-04 一种种植策略生成方法、装置、电子设备及存储介质 Pending CN113538162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110004655.6A CN113538162A (zh) 2021-01-04 2021-01-04 一种种植策略生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110004655.6A CN113538162A (zh) 2021-01-04 2021-01-04 一种种植策略生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113538162A true CN113538162A (zh) 2021-10-22

Family

ID=78094330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110004655.6A Pending CN113538162A (zh) 2021-01-04 2021-01-04 一种种植策略生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113538162A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114430536A (zh) * 2022-04-06 2022-05-03 广东邦盛北斗科技股份公司 基于北斗定位模块的农业物联网方法、系统及云平台
EP4174711A1 (en) * 2021-10-27 2023-05-03 Siemens Aktiengesellschaft System and computer-implemented method for designing an engineering system
CN116720635A (zh) * 2023-08-11 2023-09-08 航天信德智图(北京)科技有限公司 一种基于实测数据的广西油茶估产方法
CN117291444A (zh) * 2023-11-27 2023-12-26 华兴国创(北京)科技有限公司 一种数字乡村业务管理方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4174711A1 (en) * 2021-10-27 2023-05-03 Siemens Aktiengesellschaft System and computer-implemented method for designing an engineering system
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114137967B (zh) * 2021-11-23 2023-12-15 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114430536A (zh) * 2022-04-06 2022-05-03 广东邦盛北斗科技股份公司 基于北斗定位模块的农业物联网方法、系统及云平台
CN114430536B (zh) * 2022-04-06 2022-07-19 广东邦盛北斗科技股份公司 基于北斗定位模块的农业物联网方法、系统及云平台
CN116720635A (zh) * 2023-08-11 2023-09-08 航天信德智图(北京)科技有限公司 一种基于实测数据的广西油茶估产方法
CN116720635B (zh) * 2023-08-11 2023-10-20 航天信德智图(北京)科技有限公司 一种基于实测数据的广西油茶估产方法
CN117291444A (zh) * 2023-11-27 2023-12-26 华兴国创(北京)科技有限公司 一种数字乡村业务管理方法及系统
CN117291444B (zh) * 2023-11-27 2024-01-19 华兴国创(北京)科技有限公司 一种数字乡村业务管理方法及系统

Similar Documents

Publication Publication Date Title
CN113538162A (zh) 一种种植策略生成方法、装置、电子设备及存储介质
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
US11518255B2 (en) Determining control actions of decision modules
Li Reinforcement learning applications
Xu et al. Learning to explore via meta-policy gradient
Prieto et al. Neural networks: An overview of early research, current frameworks and new challenges
Li et al. Efficient convolutional hierarchical autoencoder for human motion prediction
Xu et al. Scalable learning paradigms for data-driven wireless communication
GB2614849A (en) Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
Cordeiro et al. Towards Smart Farming: Fog-enabled intelligent irrigation system using deep neural networks
Xu et al. Learning to explore with meta-policy gradient
CN114997412A (zh) 一种推荐方法、训练方法以及装置
Frenkel et al. Bottom-up and top-down approaches for the design of neuromorphic processing systems: tradeoffs and synergies between natural and artificial intelligence
CN113518250A (zh) 一种多媒体数据处理方法、装置、设备及可读存储介质
CN112216101A (zh) 一种基于弹性学习框架的交通预测方法及系统
Fard et al. Machine Learning algorithms for prediction of energy consumption and IoT modeling in complex networks
Morcego et al. Reinforcement Learning versus Model Predictive Control on greenhouse climate control
Xu et al. Digital twin for aquaponics factory: Analysis, opportunities, and research challenges
Khouas et al. Training Machine Learning models at the Edge: A Survey
Nguyen et al. Short-term forecasting electricity load by long short-term memory and reinforcement learning for optimization of hyper-parameters
CN116777539A (zh) 基于层次区域结构图的毛鸡品种毛利趋势预测系统及方法
CN116954162A (zh) 生成用于工业系统的控制策略的方法及装置
García-Vico et al. A preliminary analysis on software frameworks for the development of spiking neural networks
Kalyani et al. Integration of Hypermedia-Agents, Microservices and Digital Twin for Smart Agriculture.
CN118393973B (zh) 一种自动驾驶控制方法、装置、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053575

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination