CN116050304B

CN116050304B - 一种智能鱼流场模拟控制方法、系统、设备及存储介质

Info

Publication number: CN116050304B
Application number: CN202310253312.2A
Authority: CN
Inventors: 张春泽; 李涛; 侯极; 张湛; 彭培艺; 马倩; 周勤; 米家杉; 谢灵运
Original assignee: Chongqing Xike Water Transportation Engineering Consulting Co ltd; Chongqing Jiaotong University
Current assignee: Chongqing Xike Water Transportation Engineering Consulting Co ltd; Chongqing Jiaotong University
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2024-03-26
Anticipated expiration: 2043-03-15
Also published as: CN116050304A

Abstract

本发明公开了一种智能鱼流场模拟控制方法、系统、设备及存储介质，通过流场识别、动作迁移、状态分析、目标动作选取、目标动作执行、经验样本组建、估算模型训练更新以及新状态分析等环节所构成的智能鱼闭环模拟控制过程，可以使得智能鱼自动识别流场环境，自主做出游动决策判定，更接近真实鱼类的行为，以使其适用于鱼类仿生相关的科研领域，为解决鱼类生物学、行为学以及游泳动力学提供相应的支持，并为不断发展的生态数字孪生建设提供技术支持。本发明可以达到已有游泳策略在不同流场环境中迁移的目的，通过流场识别对当前流场的参数进行初步感知识别，结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。

Description

一种智能鱼流场模拟控制方法、系统、设备及存储介质

技术领域

本发明属于仿生模拟技术领域，具体涉及一种智能鱼流场模拟控制方法、系统、设备及存储介质。

背景技术

对于鱼类游动的研究，目前主要有室内实验、野外勘察、数值模拟几种手段。其中，数值模拟手段大多通过计算流体力学的方法建立鱼类游动流固耦合模型，并给定运动自由度，从而模拟智能鱼的巡游游动，随着近些年来机器学习等智慧型算法的普及，对鱼类游泳行为的数值模拟又进入到了一个新的阶段。

目前，对鱼类游动大型智慧计算平台的搭建方法主要基于传统流固耦合技术和深度强化学习算法搭建，传统流固耦合模拟技术主要分为界面捕捉类方法和界面追踪类方法，界面捕捉类方法包括流体体积算法(Volume of Fluid Methods，VOF)和浸没边界法(Immersed Boundary，IB)等，界面追踪类方法包括任意拉格朗日-欧拉算法(ArbitraryLagrangian Eulerian，ALE)和变形空间域/稳定时空算法(Deforming-Spatial-Domain/Stabilized Space-Time，DSD/SST)等。这两类方法的主要区别在于，在流固界面的计算中，界面追踪采用Lagrange坐标，而界面捕捉还吸收了Euler方法的优点，上述两种方法都可成功应用于鱼类游动大型智慧计算平台的搭建中。

深度强化学习(Deep reinforcement learning，DRL)是机器学习的一个子集，它将深度神经网络与强化学习相结合，以控制复杂高维系统。深度强化学习算法具有的优势包括：1、能够处理高维和连续状态空间；2、模拟真实世界，深度强化学习算法可以在模拟真实世界的环境中进行学习；3、自动特征提取，深度强化学习算法可以自动学习各类特征并进行高维空间的表示，无需特殊标记，提高了模型的表示和泛化能力；4、自我学习和自进化，深度强化学习算法可以自我学习，并在不断的学习过程中不断提高自己的性能。目前深度强化学习算法主要分为基于值的计算方法和基于策略的计算方法，以及两类算法的组合，基于值的方法包括深度Q网络算法(Deep Q Network)、值分布强化学习算法(Distributional Reinforcement Learning)等，基于策略的计算方法包括深度策略梯度算法(Deep Deterministic Policy Gradient，DDPG)、近端策略优化算法(ProximalPolicy Optimization，PPO)等，组合算法包括演员评论家算法(Actor-Critic，AC)、柔性演员评论家算法(Soft Actor-Critic，SAC)等。

基于上述技术方法搭建的计算平台，能够在一定程度上模拟和还原基础的鱼类游泳行为，但是，由于其仅仅通过将流场的一些特征参数输入智能鱼的状态空间来进行端到端学习，无法使上述初级计算平台所模拟的智能鱼拥有对当前游泳的流场进行定性识别和分类的能力，而且可能造成算法难以收敛，训练好的游泳策略也无法多个游泳环境之间顺利迁移，这会造成已有计算成果的浪费，而且与真实自然界鱼类的行为模式存在一定出入。

因此，为解决现有人工智能鱼模拟系统无法对当前所处流场环境进行定性判断，无法选择最适用于当前流场环境的游泳策略，且游泳策略无法很好地在陌生的流场中迁移，模拟系统泛化能力差、性能不佳的问题，亟需一种更加科学、有效的智能鱼模拟手段，来为研究鱼类利用漩涡游泳等行为学节能机制、开发新型的自航式水下航行器及水利生态行业的数字孪生提供理论和技术支撑。

发明内容

本发明的目的是提供一种智能鱼流场模拟控制方法、系统、设备及存储介质，用以解决现有技术中存在的上述问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供一种智能鱼流场模拟控制方法，包括：

a.获取当前流场的流速特征参数和压力特征参数，通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别，确定当前流场的流场类型；

b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合；

c.根据摆尾频率集合确定预置动作迁移系统的动作空间，所述动作空间包含若干动作方式；

d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息；

e.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中，计算输出各动作方式的估计策略价值，并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息；

f.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况，并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式；

g.根据目标动作方式生成相应的动作控制指令，并将动作控制指令发送至鱼体游动端。

在一个可能的设计中，在将动作控制指令发送至鱼体游动端后，所述方法还包括：

h.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息；

i.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中；

j.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练，得到训练后的策略价值估算模型；

k.将训练后的策略价值估算模型更新为当前的策略价值估算模型，并重复步骤d至步骤j，形成闭环控制。

在一个可能的设计中，所述摆尾频率集合包含若干摆尾频率[ω₁,ω₂,ω₃...ω_n]，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,a_decelerate]，其中，a_accelerate表征加速动作方式，a_cruise表征巡航动作方式，a_decelerate表征减速动作方式。

在一个可能的设计中，所述第一状态信息包括当前的游动摆尾频率ω_t，在ω_t＝ω_max时，所述动作迁移系统的动作空间为[0,a_cruise,a_decelerate]，在ω_t＝ω_min时，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,0]，其中，ω_max为[ω₁,ω₂,ω₃...ω_n]中的最大摆尾频率，ω_min为[ω₁,ω₂,ω₃...ω_n]中的最小摆尾频率。

在一个可能的设计中，所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络。

在一个可能的设计中，所述策略价值估算模型还包括估计网络、目标网络和损失函数，其中：

所述估计网络在训练时，根据连续记录的四元组经验样本计算得到对应的估计策略价值，并将该估计策略价值传输至损失函数；

所述目标网络在训练时，根据连续记录的四元组经验样本计算得到对应的目标策略价值，并将该目标策略价值传输至损失函数；

所述损失函数在训练时，根据连续记录的四元组经验样本以及估计策略价值和目标策略价值，计算得到对应的损失值，并根据该损失值更新所述估计网络。

第二方面，提供一种智能鱼流场模拟控制系统，包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元，其中：

获取单元，用于获取当前流场的流速特征参数和压力特征参数，以及获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息

识别单元，用于通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别，确定当前流场的流场类型；

第一选取单元，用于根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合；

第一确定单元，用于根据摆尾频率集合确定预置动作迁移系统的动作空间，所述动作空间包含若干动作方式；

第二确定单元，用于将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中，计算输出各动作方式的估计策略价值，并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息；

第二选取单元，用于根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况，并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式；

控制单元，用于根据目标动作方式生成相应的动作控制指令，并将动作控制指令发送至鱼体游动端。

在一个可能的设计中，所述系统还包括组建单元、训练单元和更新单元；所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息；所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中；所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练，得到训练后的策略价值估算模型；所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。

第三方面，提供一种智能鱼流场模拟控制设备，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面中任意一种所述的方法。同时，还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面中任意一种所述的方法。

有益效果：本发明通过流场识别、动作迁移、状态分析、目标动作选取、目标动作执行、经验样本组建、估算模型训练更新以及新状态分析等环节所构成的智能鱼闭环模拟控制过程，可以使得智能鱼自动识别流场环境，自主做出游动决策判定，更接近真实鱼类的行为，以使其适用于鱼类仿生相关的科研领域，为解决鱼类生物学、行为学以及游泳动力学提供相应的支持，并为不断发展的生态数字孪生建设提供技术支持。本发明可以达到已有游泳策略在不同流场环境中迁移的目的，通过流场识别对当前流场的参数进行初步感知识别，结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中模拟控制方法的步骤示意图；

图2为实施例1中未集成记忆移植功能时，智能鱼在紊流场中的存活时间；

图3为实施例1中集成记忆移植功能时，智能鱼在紊流场中的存活时间；

图4为实施例1中未集成记忆移植功能时，智能鱼在紊流场中的运动轨迹；

图5为实施例1中集成记忆移植功能时，智能鱼在紊流场中的运动轨迹；

图6为实施例1中集成记忆移植功能时，智能鱼在紊流场中的涡量云图。

具体实施方式

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在实施例中的具体含义。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得实施例不清楚。

实施例1：

本实施例提供一种智能鱼流场模拟控制方法，可应用于智能鱼的鱼体大脑端，智能鱼还包括通过流固耦合紧密联系在一起的流场生境端和鱼体游动端，鱼体大脑端包含记忆移植单元，记忆移植单元包含预置流场识别系统及动作迁移系统，负责流场的感知以及已有游泳策略的移植，流场生境端为智能鱼提供生存空间，负责采集鱼体在各个时刻的状态，鱼体游动端负责接受并执行大脑端发出的指令，以控制智能鱼的游动状态。如图1所示，方法包括以下步骤：

S1.获取当前流场的流速特征参数和压力特征参数，通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别，确定当前流场的流场类型。

具体实施时，需要先获取当前流场的流速特征参数和压力特征参，以便通过预置流场识别系统对根据流速特征参数和压力特征参识别当前流场的流场类型。

S2.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合。

具体实施时，在识别判定当前流场的流场类型后，即可根据流场类型从动作记忆系统数据库中选取相应的摆尾频率集合A，摆尾频率集合A包含若干摆尾频率[ω₁,ω₂,ω₃...ω_n]。

S3.根据摆尾频率集合确定预置动作迁移系统的动作空间，所述动作空间包含若干动作方式。

具体实施时，获取到摆尾频率集合A后，进行相应的动作迁移，即根据摆尾频率集合确定预置动作迁移系统的动作空间，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,a_decelerate]，其中，a_accelerate表征加速动作方式，选择此动作意味着智能鱼将会提高当前的摆尾频率从而达到加速的目的；a_cruise表征巡航动作方式，其含义是智能鱼将维持当前摆尾频率不变，持续匀速巡航；a_decelerate表征减速动作方式，选择此动作意味着智能鱼将会降低摆尾频率从而达到减速的目的。

S4.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息。

具体实施时，所述第一状态信息包括当前的游动摆尾频率ω_t，在ω_t＝ω_max时，所述动作迁移系统的动作空间为[0,a_cruise,a_decelerate]，在ω_t＝ω_min时，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,0]，其中，ω_max为[ω₁,ω₂,ω₃...ω_n]中的最大摆尾频率，ω_min为[ω₁,ω₂,ω₃...ω_n]中的最小摆尾频率。

为了防止智能鱼做出不合理的动作，需要将特定状态下自然界规则不允许出现且会引发严重后果的动作直接屏蔽掉，比如当智能鱼已经加速到系统设定的上限摆尾频率时，这时若再次选取加速动作，那么选取的这个加速动作是无效的，因为真实自然界的鱼类不可能无限制地采取加速操作，必定存在一个尾拍频率的上限，减速动作同理。这里结合状态空间的特定参数来设计非法动作屏蔽机制，对特定状态下不合理的动作进行截断，即：

(1)在ω_t＝ω_max时(当前的游动摆尾频率达到摆尾频率集合A的上限值)，动作迁移系统的动作空间为[0,a_cruise,a_decelerate]，截断加速动作，智能鱼只会在巡航和减速动作之间进行选择。

(2)在ω_t＝ω_min时(当前的游动摆尾频率达到摆尾频率集合A的下限值)，动作迁移系统的动作空间为[a_accelerate,a_cruise,0]，截断减速动作，智能鱼只会在巡航和加速动作之间进行选择。

(3)如果当前的游动摆尾频率不属于(1)或(2)的情况，则动作迁移系统的动作空间为[a_accelerate,a_cruise,a_decelerate]，智能鱼可以采取加速、巡航和减速三种动作方式。

S5.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中，计算输出各动作方式的估计策略价值，并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息。

具体实施时，在接收流场生境端传输的第一状态信息s_t和第一奖励信息r_t后，将第一状态信息s_t、第一奖励信息r_t及相应动作空间导入当前的策略价值估算模型中，以计算输出各动作方式的估计策略价值，然后就可以根据各动作方式的估计策略价值来确定动作空间中各动作方式的概率参数信息。所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络，策略价值估算模型可通过设定的公式计算得到对应的估计策略价值。

S6.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况，并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式。

具体实施时，在得到各动作方式的概率参数信息后，即可根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况P{a＝a_i}(i＝1,2,3)，然后按照动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式a_t。

S7.根据目标动作方式生成相应的动作控制指令，并将动作控制指令发送至鱼体游动端。

具体实施时，在确定目标动作方式后，即可根据目标动作方式生成相应的动作控制指令，然后将动作控制指令发送至鱼体游动端，以便鱼体游动端执行该动作控制指令，控制智能鱼的游动状态。

S8.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息。

具体实施时，在一轮控制后需要重新获取流场生境端在下一时刻反馈的第二状态信息s_t+1和第二奖励信息R_t，其中第二奖励信息R_t由流场生境端在目标动作方式的动作控制指令被执行期间，通过与鱼体游动端的即时互动交互计算而得。

S9.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中。

具体实施时，将第一状态信息s_t、目标动作方式a_t、第二状态信息s_t+1和第二奖励信息R_t组合成相应的四元组经验样本[s_t,a_t,s_t+1,R_t]记录存储到动作记忆系统数据库中。

S10.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练，得到训练后的策略价值估算模型。

具体实施时，需要从动作记忆系统数据库中提取多个连续记录的四元组经验样本n_*(s_t,a_t,s_t+1,R_t)来对策略价值估算模型进行训练，以得到训练后的策略价值估算模型。策略价值估算模型还包括估计网络、目标网络和损失函数，所述估计网络在训练时，根据连续记录的四元组经验样本计算得到对应的估计策略价值，并将该估计策略价值传输至损失函数；所述目标网络在训练时，根据连续记录的四元组经验样本计算得到对应的目标策略价值，并将该目标策略价值传输至损失函数；所述损失函数在训练时，根据连续记录的四元组经验样本以及估计策略价值和目标策略价值，计算得到对应的损失值，并根据该损失值更新所述估计网络。

S11.将训练后的策略价值估算模型更新为当前的策略价值估算模型，并重复步骤S4至步骤S10，形成闭环控制。

通过本实施例的方法可以达到已有游泳策略在不同流场环境中迁移的目的，通过流场识别对当前流场的参数进行初步感知识别，结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。可以为解决鱼类生物学、行为学以及游泳动力学提供相应的支持，并为不断发展的生态数字孪生建设提供技术支持。

为了说明集成相应记忆移植功能的智能鱼模拟控制方法的优势，本实施例采用同样计算平台的智能鱼，其中一只采用上述集成记忆移植功能的智能鱼模拟控制方法，另一只屏蔽掉所述记忆移植功能，对比在不同上游来流流速下两鱼体在流场中维持运动步态的能力。首先，将两智能鱼经过相同的时长的训练后，放置在三种不同流速的紊流场下，(流速分别为u^*＝1.00L/T、u^*＝1.25L/T和u^*＝1.50L/T，T为摆尾周期，L为鱼体长)，重复100个大回合(Episode)，并记录每个大回合在流场中存活的时间(survival time)，每个大回合的游泳时间上限t^* _max＝100T。

如图2所示，为屏蔽掉记忆移植功能时，鱼体在非定常流场中运动的时间。可以观察到，屏蔽记忆移植功能后，鱼体在三种工况下的平均运动时间较短，分别为6.54T、39.80T、6.13T，之所以在工况二下运动的时间达到了39.80T，是因为鱼体的游泳决策系统是在工况二的流场环境下训练的，自然也就最能适应工况二的流场，但是由于智能鱼没有集成所述记忆移植功能，导致训练好的决策系统泛化能力差，之前在同一流场中学习到的知识无法迁移，更换流场环境后，已经训练好的游泳策略就显著失效，智能鱼在陌生流场中运动的时间均为较低水平。如图3所示，为未屏蔽记忆移植功能时，鱼体在非定常流场中运动的时间，可以观察到集成所述记忆移植功能的鱼，维持自身在非定常流场中运动的能力显著增加，运动稳定性也显著增强，鱼体在三种工况下的所有大回合的存活时间均达到了回合上限时间100T，可以充分说明本记忆移植功能的优势。

如图4所示，为未集成所述记忆移植功能的鱼体运动轨迹，由于智能鱼并无对流场的识别能力，且无法根据自己的学习做出加速、减速等宏动作动作，只能被迫采取特定尾拍频率的巡航游泳模式，这种游泳策略在非定常流场中游泳的性能并不佳，三种工况下鱼体采用此游泳策略最长维持时间为39.8T。如图5所示，为集成所述记忆移植功能的鱼体运动轨迹，智能鱼在三种不同的紊流场中，都采取了类似的游泳决策，即卡门步态为主、加速和减速动作为辅的游泳策略。从游泳位置的决策上来看，智能鱼为了节省游泳能量，会选择在两排涡街的夹缝区域进行游动，智能鱼的Y方向位移不会超过D柱的直径范围，从而利用涡街中交替的漩涡获取能量；而在平行于流动方向的位置上，智能鱼会选择距离D柱1～2个体长的位置进行卡门游动，这说明采用侧线感知系统的智能鱼的游泳策略更加接近真实鱼类，能够在流场中做出不同的动作来适应自己在非定常流场中的运动。

如图6所示，为集成所述记忆移植功能的智能鱼在u^*＝1.00L/T流场下一个尾拍周期内游动的涡量云图，可以明显观察到智能鱼交替利用上下两排漩涡中的能量的过程。在4.0T时刻，鱼体上侧鱼头接触到一顺时针涡Vortex1(Vortex，漩涡)，而逆时针涡Vortex2则已经由鱼体下侧的头部滑到尾部；在4.6T时刻，顺时针涡Vortex1由鱼体上侧的头部滑到尾部，逆时针涡Vortex2从鱼体下侧尾部脱离，紧接着鱼体下侧的鱼头部分接触到逆时针涡Vortex3；在5.5T时刻，顺时针涡Vortex1从鱼体上侧的尾部脱离，头部接触到顺时针涡Vortex4，逆时针涡Vortex3由鱼体下侧的头部滑到尾部。该图清晰地再现了鱼体的卡门游动过程，并定性解释了鱼体如何交替地利用一对涡中的能量进行省力地游泳，在游动过程中，漩涡交替地在鱼上侧和下侧形成高流体剪切应力区域，鱼在此区域中会游得更加省力。

实施例2：

本实施例提供一种智能鱼流场模拟控制系统，包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元，其中：

进一步地，所述系统还包括组建单元、训练单元和更新单元；所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息；所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中；所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练，得到训练后的策略价值估算模型；所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。

实施例3：

本实施例提供一种智能鱼流场模拟控制设备，在硬件层面，包括：

数据接口，用于建立处理器与各数据端的数据对接；

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中的智能鱼流场模拟控制方法。

可选地，该设备还包括内部总线。处理器与存储器和数据接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中的智能鱼流场模拟控制方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

本实施例还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中的智能鱼流场模拟控制方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能鱼流场模拟控制方法，其特征在于，包括：

b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合，所述摆尾频率集合包含若干摆尾频率[ω₁,ω₂,ω₃...ω_n]，动作迁移系统的动作空间为[a_accelerate,a_cruise,a_decelerate]，其中，a_accelerate表征加速动作方式，a_cruise表征巡航动作方式，a_decelerate表征减速动作方式；

d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息，所述第一状态信息包括当前的游动摆尾频率ω_t，在ω_t＝ω_max时，所述动作迁移系统的动作空间为[0,a_cruise,a_decelerate]，在ω_t＝ω_min时，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,0]，其中，ω_max为[ω₁,ω₂,ω₃...ω_n]中的最大摆尾频率，ω_min为[ω₁,ω₂,ω₃...ω_n]中的最小摆尾频率；

2.根据权利要求1所述的一种智能鱼流场模拟控制方法，其特征在于，在将动作控制指令发送至鱼体游动端后，所述方法还包括：

3.根据权利要求2所述的一种智能鱼流场模拟控制方法，其特征在于，所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络。

4.根据权利要求3所述的一种智能鱼流场模拟控制方法，其特征在于，所述策略价值估算模型还包括估计网络、目标网络和损失函数，其中：

5.一种智能鱼流场模拟控制系统，其特征在于，包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元，其中：

获取单元，用于获取当前流场的流速特征参数和压力特征参数，以及获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息，所述第一状态信息包括当前的游动摆尾频率ω_t，在ω_t＝ω_max时，动作迁移系统的动作空间为[0,a_cruise,a_decelerate]，在ω_t＝ω_min时，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,0]，其中，ω_max为[ω₁,ω₂,ω₃...ω_n]中的最大摆尾频率，ω_min为[ω₁,ω₂,ω₃...ω_n]中的最小摆尾频率；

第一选取单元，用于根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合，所述摆尾频率集合包含若干摆尾频率[ω₁,ω₂,ω₃...ω_n]，所述动作迁移系统的动作空间为[a_accelerate,a_cruise,a_decelerate]，其中，a_accelerate表征加速动作方式，a_cruise表征巡航动作方式，a_decelerate表征减速动作方式；

6.根据权利要求5所述的一种智能鱼流场模拟控制系统，其特征在于，所述系统还包括组建单元、训练单元和更新单元；所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息；所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中；所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练，得到训练后的策略价值估算模型；所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。

7.一种智能鱼流场模拟控制设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-4任意一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-4任意一项所述的方法。