CN116050304B - 一种智能鱼流场模拟控制方法、系统、设备及存储介质 - Google Patents
一种智能鱼流场模拟控制方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116050304B CN116050304B CN202310253312.2A CN202310253312A CN116050304B CN 116050304 B CN116050304 B CN 116050304B CN 202310253312 A CN202310253312 A CN 202310253312A CN 116050304 B CN116050304 B CN 116050304B
- Authority
- CN
- China
- Prior art keywords
- action
- flow field
- tail
- strategy value
- fish
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000251468 Actinopterygii Species 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004088 simulation Methods 0.000 title claims abstract description 35
- 230000009471 action Effects 0.000 claims abstract description 193
- 230000009182 swimming Effects 0.000 claims abstract description 58
- 238000013508 migration Methods 0.000 claims abstract description 28
- 230000005012 migration Effects 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000875 corresponding effect Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000002787 reinforcement Effects 0.000 claims description 14
- 230000001133 acceleration Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 3
- 239000011664 nicotinic acid Substances 0.000 abstract description 2
- 238000012546 transfer Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000007787 solid Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102000000763 Survivin Human genes 0.000 description 1
- 108010002687 Survivin Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000035559 beat frequency Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/28—Design optimisation, verification or simulation using fluid dynamics, e.g. using Navier-Stokes equations or computational fluid dynamics [CFD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/08—Fluids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Fluid Mechanics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种智能鱼流场模拟控制方法、系统、设备及存储介质,通过流场识别、动作迁移、状态分析、目标动作选取、目标动作执行、经验样本组建、估算模型训练更新以及新状态分析等环节所构成的智能鱼闭环模拟控制过程,可以使得智能鱼自动识别流场环境,自主做出游动决策判定,更接近真实鱼类的行为,以使其适用于鱼类仿生相关的科研领域,为解决鱼类生物学、行为学以及游泳动力学提供相应的支持,并为不断发展的生态数字孪生建设提供技术支持。本发明可以达到已有游泳策略在不同流场环境中迁移的目的,通过流场识别对当前流场的参数进行初步感知识别,结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。
Description
技术领域
本发明属于仿生模拟技术领域,具体涉及一种智能鱼流场模拟控制方法、系统、设备及存储介质。
背景技术
对于鱼类游动的研究,目前主要有室内实验、野外勘察、数值模拟几种手段。其中,数值模拟手段大多通过计算流体力学的方法建立鱼类游动流固耦合模型,并给定运动自由度,从而模拟智能鱼的巡游游动,随着近些年来机器学习等智慧型算法的普及,对鱼类游泳行为的数值模拟又进入到了一个新的阶段。
目前,对鱼类游动大型智慧计算平台的搭建方法主要基于传统流固耦合技术和深度强化学习算法搭建,传统流固耦合模拟技术主要分为界面捕捉类方法和界面追踪类方法,界面捕捉类方法包括流体体积算法(Volume of Fluid Methods,VOF)和浸没边界法(Immersed Boundary,IB)等,界面追踪类方法包括任意拉格朗日-欧拉算法(ArbitraryLagrangian Eulerian,ALE)和变形空间域/稳定时空算法(Deforming-Spatial-Domain/Stabilized Space-Time,DSD/SST)等。这两类方法的主要区别在于,在流固界面的计算中,界面追踪采用Lagrange坐标,而界面捕捉还吸收了Euler方法的优点,上述两种方法都可成功应用于鱼类游动大型智慧计算平台的搭建中。
深度强化学习(Deep reinforcement learning,DRL)是机器学习的一个子集,它将深度神经网络与强化学习相结合,以控制复杂高维系统。深度强化学习算法具有的优势包括:1、能够处理高维和连续状态空间;2、模拟真实世界,深度强化学习算法可以在模拟真实世界的环境中进行学习;3、自动特征提取,深度强化学习算法可以自动学习各类特征并进行高维空间的表示,无需特殊标记,提高了模型的表示和泛化能力;4、自我学习和自进化,深度强化学习算法可以自我学习,并在不断的学习过程中不断提高自己的性能。目前深度强化学习算法主要分为基于值的计算方法和基于策略的计算方法,以及两类算法的组合,基于值的方法包括深度Q网络算法(Deep Q Network)、值分布强化学习算法(Distributional Reinforcement Learning)等,基于策略的计算方法包括深度策略梯度算法(Deep Deterministic Policy Gradient,DDPG)、近端策略优化算法(ProximalPolicy Optimization,PPO)等,组合算法包括演员评论家算法(Actor-Critic,AC)、柔性演员评论家算法(Soft Actor-Critic,SAC)等。
基于上述技术方法搭建的计算平台,能够在一定程度上模拟和还原基础的鱼类游泳行为,但是,由于其仅仅通过将流场的一些特征参数输入智能鱼的状态空间来进行端到端学习,无法使上述初级计算平台所模拟的智能鱼拥有对当前游泳的流场进行定性识别和分类的能力,而且可能造成算法难以收敛,训练好的游泳策略也无法多个游泳环境之间顺利迁移,这会造成已有计算成果的浪费,而且与真实自然界鱼类的行为模式存在一定出入。
因此,为解决现有人工智能鱼模拟系统无法对当前所处流场环境进行定性判断,无法选择最适用于当前流场环境的游泳策略,且游泳策略无法很好地在陌生的流场中迁移,模拟系统泛化能力差、性能不佳的问题,亟需一种更加科学、有效的智能鱼模拟手段,来为研究鱼类利用漩涡游泳等行为学节能机制、开发新型的自航式水下航行器及水利生态行业的数字孪生提供理论和技术支撑。
发明内容
本发明的目的是提供一种智能鱼流场模拟控制方法、系统、设备及存储介质,用以解决现有技术中存在的上述问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供一种智能鱼流场模拟控制方法,包括:
a.获取当前流场的流速特征参数和压力特征参数,通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合;
c.根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息;
e.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
f.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
g.根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
在一个可能的设计中,在将动作控制指令发送至鱼体游动端后,所述方法还包括:
h.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;
i.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;
j.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;
k.将训练后的策略价值估算模型更新为当前的策略价值估算模型,并重复步骤d至步骤j,形成闭环控制。
在一个可能的设计中,所述摆尾频率集合包含若干摆尾频率[ω1,ω2,ω3...ωn],所述动作迁移系统的动作空间为[aaccelerate,acruise,adecelerate],其中,aaccelerate表征加速动作方式,acruise表征巡航动作方式,adecelerate表征减速动作方式。
在一个可能的设计中,所述第一状态信息包括当前的游动摆尾频率ωt,在ωt=ωmax时,所述动作迁移系统的动作空间为[0,acruise,adecelerate],在ωt=ωmin时,所述动作迁移系统的动作空间为[aaccelerate,acruise,0],其中,ωmax为[ω1,ω2,ω3...ωn]中的最大摆尾频率,ωmin为[ω1,ω2,ω3...ωn]中的最小摆尾频率。
在一个可能的设计中,所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络。
在一个可能的设计中,所述策略价值估算模型还包括估计网络、目标网络和损失函数,其中:
所述估计网络在训练时,根据连续记录的四元组经验样本计算得到对应的估计策略价值,并将该估计策略价值传输至损失函数;
所述目标网络在训练时,根据连续记录的四元组经验样本计算得到对应的目标策略价值,并将该目标策略价值传输至损失函数;
所述损失函数在训练时,根据连续记录的四元组经验样本以及估计策略价值和目标策略价值,计算得到对应的损失值,并根据该损失值更新所述估计网络。
第二方面,提供一种智能鱼流场模拟控制系统,包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元,其中:
获取单元,用于获取当前流场的流速特征参数和压力特征参数,以及获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息
识别单元,用于通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
第一选取单元,用于根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合;
第一确定单元,用于根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
第二确定单元,用于将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
第二选取单元,用于根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
控制单元,用于根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
在一个可能的设计中,所述系统还包括组建单元、训练单元和更新单元;所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。
第三方面,提供一种智能鱼流场模拟控制设备,包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面中任意一种所述的方法。同时,还提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行第一方面中任意一种所述的方法。
有益效果:本发明通过流场识别、动作迁移、状态分析、目标动作选取、目标动作执行、经验样本组建、估算模型训练更新以及新状态分析等环节所构成的智能鱼闭环模拟控制过程,可以使得智能鱼自动识别流场环境,自主做出游动决策判定,更接近真实鱼类的行为,以使其适用于鱼类仿生相关的科研领域,为解决鱼类生物学、行为学以及游泳动力学提供相应的支持,并为不断发展的生态数字孪生建设提供技术支持。本发明可以达到已有游泳策略在不同流场环境中迁移的目的,通过流场识别对当前流场的参数进行初步感知识别,结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中模拟控制方法的步骤示意图;
图2为实施例1中未集成记忆移植功能时,智能鱼在紊流场中的存活时间;
图3为实施例1中集成记忆移植功能时,智能鱼在紊流场中的存活时间;
图4为实施例1中未集成记忆移植功能时,智能鱼在紊流场中的运动轨迹;
图5为实施例1中集成记忆移植功能时,智能鱼在紊流场中的运动轨迹;
图6为实施例1中集成记忆移植功能时,智能鱼在紊流场中的涡量云图。
具体实施方式
在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在实施例中的具体含义。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得实施例不清楚。
实施例1:
本实施例提供一种智能鱼流场模拟控制方法,可应用于智能鱼的鱼体大脑端,智能鱼还包括通过流固耦合紧密联系在一起的流场生境端和鱼体游动端,鱼体大脑端包含记忆移植单元,记忆移植单元包含预置流场识别系统及动作迁移系统,负责流场的感知以及已有游泳策略的移植,流场生境端为智能鱼提供生存空间,负责采集鱼体在各个时刻的状态,鱼体游动端负责接受并执行大脑端发出的指令,以控制智能鱼的游动状态。如图1所示,方法包括以下步骤:
S1.获取当前流场的流速特征参数和压力特征参数,通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型。
具体实施时,需要先获取当前流场的流速特征参数和压力特征参,以便通过预置流场识别系统对根据流速特征参数和压力特征参识别当前流场的流场类型。
S2.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合。
具体实施时,在识别判定当前流场的流场类型后,即可根据流场类型从动作记忆系统数据库中选取相应的摆尾频率集合A,摆尾频率集合A包含若干摆尾频率[ω1,ω2,ω3...ωn]。
S3.根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式。
具体实施时,获取到摆尾频率集合A后,进行相应的动作迁移,即根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作迁移系统的动作空间为[aaccelerate,acruise,adecelerate],其中,aaccelerate表征加速动作方式,选择此动作意味着智能鱼将会提高当前的摆尾频率从而达到加速的目的;acruise表征巡航动作方式,其含义是智能鱼将维持当前摆尾频率不变,持续匀速巡航;adecelerate表征减速动作方式,选择此动作意味着智能鱼将会降低摆尾频率从而达到减速的目的。
S4.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息。
具体实施时,所述第一状态信息包括当前的游动摆尾频率ωt,在ωt=ωmax时,所述动作迁移系统的动作空间为[0,acruise,adecelerate],在ωt=ωmin时,所述动作迁移系统的动作空间为[aaccelerate,acruise,0],其中,ωmax为[ω1,ω2,ω3...ωn]中的最大摆尾频率,ωmin为[ω1,ω2,ω3...ωn]中的最小摆尾频率。
为了防止智能鱼做出不合理的动作,需要将特定状态下自然界规则不允许出现且会引发严重后果的动作直接屏蔽掉,比如当智能鱼已经加速到系统设定的上限摆尾频率时,这时若再次选取加速动作,那么选取的这个加速动作是无效的,因为真实自然界的鱼类不可能无限制地采取加速操作,必定存在一个尾拍频率的上限,减速动作同理。这里结合状态空间的特定参数来设计非法动作屏蔽机制,对特定状态下不合理的动作进行截断,即:
(1)在ωt=ωmax时(当前的游动摆尾频率达到摆尾频率集合A的上限值),动作迁移系统的动作空间为[0,acruise,adecelerate],截断加速动作,智能鱼只会在巡航和减速动作之间进行选择。
(2)在ωt=ωmin时(当前的游动摆尾频率达到摆尾频率集合A的下限值),动作迁移系统的动作空间为[aaccelerate,acruise,0],截断减速动作,智能鱼只会在巡航和加速动作之间进行选择。
(3)如果当前的游动摆尾频率不属于(1)或(2)的情况,则动作迁移系统的动作空间为[aaccelerate,acruise,adecelerate],智能鱼可以采取加速、巡航和减速三种动作方式。
S5.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息。
具体实施时,在接收流场生境端传输的第一状态信息st和第一奖励信息rt后,将第一状态信息st、第一奖励信息rt及相应动作空间导入当前的策略价值估算模型中,以计算输出各动作方式的估计策略价值,然后就可以根据各动作方式的估计策略价值来确定动作空间中各动作方式的概率参数信息。所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络,策略价值估算模型可通过设定的公式计算得到对应的估计策略价值。
S6.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式。
具体实施时,在得到各动作方式的概率参数信息后,即可根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况P{a=ai}(i=1,2,3),然后按照动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式at。
S7.根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
具体实施时,在确定目标动作方式后,即可根据目标动作方式生成相应的动作控制指令,然后将动作控制指令发送至鱼体游动端,以便鱼体游动端执行该动作控制指令,控制智能鱼的游动状态。
S8.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息。
具体实施时,在一轮控制后需要重新获取流场生境端在下一时刻反馈的第二状态信息st+1和第二奖励信息Rt,其中第二奖励信息Rt由流场生境端在目标动作方式的动作控制指令被执行期间,通过与鱼体游动端的即时互动交互计算而得。
S9.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中。
具体实施时,将第一状态信息st、目标动作方式at、第二状态信息st+1和第二奖励信息Rt组合成相应的四元组经验样本[st,at,st+1,Rt]记录存储到动作记忆系统数据库中。
S10.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型。
具体实施时,需要从动作记忆系统数据库中提取多个连续记录的四元组经验样本n*(st,at,st+1,Rt)来对策略价值估算模型进行训练,以得到训练后的策略价值估算模型。策略价值估算模型还包括估计网络、目标网络和损失函数,所述估计网络在训练时,根据连续记录的四元组经验样本计算得到对应的估计策略价值,并将该估计策略价值传输至损失函数;所述目标网络在训练时,根据连续记录的四元组经验样本计算得到对应的目标策略价值,并将该目标策略价值传输至损失函数;所述损失函数在训练时,根据连续记录的四元组经验样本以及估计策略价值和目标策略价值,计算得到对应的损失值,并根据该损失值更新所述估计网络。
S11.将训练后的策略价值估算模型更新为当前的策略价值估算模型,并重复步骤S4至步骤S10,形成闭环控制。
通过本实施例的方法可以达到已有游泳策略在不同流场环境中迁移的目的,通过流场识别对当前流场的参数进行初步感知识别,结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。可以为解决鱼类生物学、行为学以及游泳动力学提供相应的支持,并为不断发展的生态数字孪生建设提供技术支持。
为了说明集成相应记忆移植功能的智能鱼模拟控制方法的优势,本实施例采用同样计算平台的智能鱼,其中一只采用上述集成记忆移植功能的智能鱼模拟控制方法,另一只屏蔽掉所述记忆移植功能,对比在不同上游来流流速下两鱼体在流场中维持运动步态的能力。首先,将两智能鱼经过相同的时长的训练后,放置在三种不同流速的紊流场下,(流速分别为u*=1.00L/T、u*=1.25L/T和u*=1.50L/T,T为摆尾周期,L为鱼体长),重复100个大回合(Episode),并记录每个大回合在流场中存活的时间(survival time),每个大回合的游泳时间上限t* max=100T。
如图2所示,为屏蔽掉记忆移植功能时,鱼体在非定常流场中运动的时间。可以观察到,屏蔽记忆移植功能后,鱼体在三种工况下的平均运动时间较短,分别为6.54T、39.80T、6.13T,之所以在工况二下运动的时间达到了39.80T,是因为鱼体的游泳决策系统是在工况二的流场环境下训练的,自然也就最能适应工况二的流场,但是由于智能鱼没有集成所述记忆移植功能,导致训练好的决策系统泛化能力差,之前在同一流场中学习到的知识无法迁移,更换流场环境后,已经训练好的游泳策略就显著失效,智能鱼在陌生流场中运动的时间均为较低水平。如图3所示,为未屏蔽记忆移植功能时,鱼体在非定常流场中运动的时间,可以观察到集成所述记忆移植功能的鱼,维持自身在非定常流场中运动的能力显著增加,运动稳定性也显著增强,鱼体在三种工况下的所有大回合的存活时间均达到了回合上限时间100T,可以充分说明本记忆移植功能的优势。
如图4所示,为未集成所述记忆移植功能的鱼体运动轨迹,由于智能鱼并无对流场的识别能力,且无法根据自己的学习做出加速、减速等宏动作动作,只能被迫采取特定尾拍频率的巡航游泳模式,这种游泳策略在非定常流场中游泳的性能并不佳,三种工况下鱼体采用此游泳策略最长维持时间为39.8T。如图5所示,为集成所述记忆移植功能的鱼体运动轨迹,智能鱼在三种不同的紊流场中,都采取了类似的游泳决策,即卡门步态为主、加速和减速动作为辅的游泳策略。从游泳位置的决策上来看,智能鱼为了节省游泳能量,会选择在两排涡街的夹缝区域进行游动,智能鱼的Y方向位移不会超过D柱的直径范围,从而利用涡街中交替的漩涡获取能量;而在平行于流动方向的位置上,智能鱼会选择距离D柱1~2个体长的位置进行卡门游动,这说明采用侧线感知系统的智能鱼的游泳策略更加接近真实鱼类,能够在流场中做出不同的动作来适应自己在非定常流场中的运动。
如图6所示,为集成所述记忆移植功能的智能鱼在u*=1.00L/T流场下一个尾拍周期内游动的涡量云图,可以明显观察到智能鱼交替利用上下两排漩涡中的能量的过程。在4.0T时刻,鱼体上侧鱼头接触到一顺时针涡Vortex1(Vortex,漩涡),而逆时针涡Vortex2则已经由鱼体下侧的头部滑到尾部;在4.6T时刻,顺时针涡Vortex1由鱼体上侧的头部滑到尾部,逆时针涡Vortex2从鱼体下侧尾部脱离,紧接着鱼体下侧的鱼头部分接触到逆时针涡Vortex3;在5.5T时刻,顺时针涡Vortex1从鱼体上侧的尾部脱离,头部接触到顺时针涡Vortex4,逆时针涡Vortex3由鱼体下侧的头部滑到尾部。该图清晰地再现了鱼体的卡门游动过程,并定性解释了鱼体如何交替地利用一对涡中的能量进行省力地游泳,在游动过程中,漩涡交替地在鱼上侧和下侧形成高流体剪切应力区域,鱼在此区域中会游得更加省力。
实施例2:
本实施例提供一种智能鱼流场模拟控制系统,包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元,其中:
获取单元,用于获取当前流场的流速特征参数和压力特征参数,以及获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息
识别单元,用于通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
第一选取单元,用于根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合;
第一确定单元,用于根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
第二确定单元,用于将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
第二选取单元,用于根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
控制单元,用于根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
进一步地,所述系统还包括组建单元、训练单元和更新单元;所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。
实施例3:
本实施例提供一种智能鱼流场模拟控制设备,在硬件层面,包括:
数据接口,用于建立处理器与各数据端的数据对接;
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行实施例1中的智能鱼流场模拟控制方法。
可选地,该设备还包括内部总线。处理器与存储器和数据接口可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
所述存储器可以但不限于包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等。所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例4:
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行实施例1中的智能鱼流场模拟控制方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。
本实施例还提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行实施例1中的智能鱼流场模拟控制方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种智能鱼流场模拟控制方法,其特征在于,包括:
a.获取当前流场的流速特征参数和压力特征参数,通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合,所述摆尾频率集合包含若干摆尾频率[ω1,ω2,ω3...ωn],动作迁移系统的动作空间为[aaccelerate,acruise,adecelerate],其中,aaccelerate表征加速动作方式,acruise表征巡航动作方式,adecelerate表征减速动作方式;
c.根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息,所述第一状态信息包括当前的游动摆尾频率ωt,在ωt=ωmax时,所述动作迁移系统的动作空间为[0,acruise,adecelerate],在ωt=ωmin时,所述动作迁移系统的动作空间为[aaccelerate,acruise,0],其中,ωmax为[ω1,ω2,ω3...ωn]中的最大摆尾频率,ωmin为[ω1,ω2,ω3...ωn]中的最小摆尾频率;
e.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
f.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
g.根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
2.根据权利要求1所述的一种智能鱼流场模拟控制方法,其特征在于,在将动作控制指令发送至鱼体游动端后,所述方法还包括:
h.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;
i.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;
j.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;
k.将训练后的策略价值估算模型更新为当前的策略价值估算模型,并重复步骤d至步骤j,形成闭环控制。
3.根据权利要求2所述的一种智能鱼流场模拟控制方法,其特征在于,所述策略价值估算模型包括基于柔性演员-评论家深度强化学习算法搭建且在当前时刻已完成训练的演员网络。
4.根据权利要求3所述的一种智能鱼流场模拟控制方法,其特征在于,所述策略价值估算模型还包括估计网络、目标网络和损失函数,其中:
所述估计网络在训练时,根据连续记录的四元组经验样本计算得到对应的估计策略价值,并将该估计策略价值传输至损失函数;
所述目标网络在训练时,根据连续记录的四元组经验样本计算得到对应的目标策略价值,并将该目标策略价值传输至损失函数;
所述损失函数在训练时,根据连续记录的四元组经验样本以及估计策略价值和目标策略价值,计算得到对应的损失值,并根据该损失值更新所述估计网络。
5.一种智能鱼流场模拟控制系统,其特征在于,包括获取单元、识别单元、第一选取单元、第一确定单元、第二确定单元、第二选取单元和控制单元,其中:
获取单元,用于获取当前流场的流速特征参数和压力特征参数,以及获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息,所述第一状态信息包括当前的游动摆尾频率ωt,在ωt=ωmax时,动作迁移系统的动作空间为[0,acruise,adecelerate],在ωt=ωmin时,所述动作迁移系统的动作空间为[aaccelerate,acruise,0],其中,ωmax为[ω1,ω2,ω3...ωn]中的最大摆尾频率,ωmin为[ω1,ω2,ω3...ωn]中的最小摆尾频率;
识别单元,用于通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
第一选取单元,用于根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合,所述摆尾频率集合包含若干摆尾频率[ω1,ω2,ω3...ωn],所述动作迁移系统的动作空间为[aaccelerate,acruise,adecelerate],其中,aaccelerate表征加速动作方式,acruise表征巡航动作方式,adecelerate表征减速动作方式;
第一确定单元,用于根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
第二确定单元,用于将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
第二选取单元,用于根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
控制单元,用于根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
6.根据权利要求5所述的一种智能鱼流场模拟控制系统,其特征在于,所述系统还包括组建单元、训练单元和更新单元;所述获取单元还用于获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;所述组建单元用于利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;所述训练单元用于从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;所述更新单元用于将训练后的策略价值估算模型更新为当前的策略价值估算模型。
7.一种智能鱼流场模拟控制设备,其特征在于,包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行权利要求1-4任意一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253312.2A CN116050304B (zh) | 2023-03-15 | 2023-03-15 | 一种智能鱼流场模拟控制方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253312.2A CN116050304B (zh) | 2023-03-15 | 2023-03-15 | 一种智能鱼流场模拟控制方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050304A CN116050304A (zh) | 2023-05-02 |
CN116050304B true CN116050304B (zh) | 2024-03-26 |
Family
ID=86122109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310253312.2A Active CN116050304B (zh) | 2023-03-15 | 2023-03-15 | 一种智能鱼流场模拟控制方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050304B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562330B (zh) * | 2023-05-15 | 2024-01-12 | 重庆交通大学 | 一种人工智能鱼模拟系统的流场识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103130A4 (en) * | 2020-10-30 | 2021-01-07 | Xi’an University of Technology | Habitat Identification Method Based on Fish Individual Dynamic Simulation Technology |
WO2021103392A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN114609925A (zh) * | 2022-01-14 | 2022-06-10 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
CN115169519A (zh) * | 2022-07-14 | 2022-10-11 | 重庆交通大学 | 一种仿生鱼体自主智能游动模拟方法、装置及系统 |
-
2023
- 2023-03-15 CN CN202310253312.2A patent/CN116050304B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021103392A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
AU2020103130A4 (en) * | 2020-10-30 | 2021-01-07 | Xi’an University of Technology | Habitat Identification Method Based on Fish Individual Dynamic Simulation Technology |
CN114609925A (zh) * | 2022-01-14 | 2022-06-10 | 中国科学院自动化研究所 | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
CN115169519A (zh) * | 2022-07-14 | 2022-10-11 | 重庆交通大学 | 一种仿生鱼体自主智能游动模拟方法、装置及系统 |
Non-Patent Citations (3)
Title |
---|
Deep-reinforcement-learning-based self-organization of freely undulatory swimmers;Huiyang Yu;《American Physical Society》;20221231;全文 * |
基于CEL法的柔性仿生机器鱼模型及巡游速度研究;张开升;邹庆彪;赵波;张保成;;华南理工大学学报(自然科学版);20200615(06);全文 * |
基于深度强化学习与流固耦合技术的鱼类自主游动行为模拟;李涛 等;《科学技术与工程》;20221231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116050304A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060475B (zh) | 一种基于深度强化学习的多交叉口信号灯协同控制方法 | |
CN109284812B (zh) | 一种基于改进dqn的视频游戏模拟方法 | |
CN108805070A (zh) | 一种基于嵌入式终端的深度学习行人检测方法 | |
CN109948642A (zh) | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 | |
CN116050304B (zh) | 一种智能鱼流场模拟控制方法、系统、设备及存储介质 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN111300390B (zh) | 基于蓄水池采样和双经验池的机械臂智能控制系统 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN107729953A (zh) | 基于连续状态行为域强化学习的机器人羽状流追踪方法 | |
CN115169519A (zh) | 一种仿生鱼体自主智能游动模拟方法、装置及系统 | |
CN110481536A (zh) | 一种应用于混合动力汽车的控制方法及设备 | |
CN112508164B (zh) | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN114415663A (zh) | 基于深度强化学习的路径规划方法及系统 | |
CN113298260A (zh) | 一种基于深度强化学习的对抗仿真推演方法 | |
CN114519302A (zh) | 基于数字孪生的公路交通态势仿真方法 | |
CN114881225A (zh) | 输变电巡检模型网络结构搜索方法、系统及存储介质 | |
CN116894395A (zh) | 一种自动驾驶测试场景的生成方法、系统及存储介质 | |
Li et al. | Research on multi-UAV task decision-making based on improved MADDPG algorithm and transfer learning | |
CN109034192B (zh) | 一种基于深度学习的轨道-车体振动状态预测方法 | |
CN111898746A (zh) | 一种中断航迹接续关联深度学习方法 | |
CN116300944A (zh) | 基于改进Double DQN的自动驾驶决策方法及系统 | |
CN116620327A (zh) | 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法 | |
Qi et al. | Dolphin movement direction recognition using contour-skeleton information | |
Tian et al. | Application of Full Connection Network in Submarine Formation Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |