CN116048106B - 一种多水下机器人自适应采样的海洋观测控制方法及装置 - Google Patents
一种多水下机器人自适应采样的海洋观测控制方法及装置 Download PDFInfo
- Publication number
- CN116048106B CN116048106B CN202310082852.9A CN202310082852A CN116048106B CN 116048106 B CN116048106 B CN 116048106B CN 202310082852 A CN202310082852 A CN 202310082852A CN 116048106 B CN116048106 B CN 116048106B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network
- underwater robot
- evaluation
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 99
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 72
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000011156 evaluation Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 56
- 230000001537 neural effect Effects 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229940060587 alpha e Drugs 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
Abstract
本发明提供了一种多水下机器人自适应采样的海洋观测控制方法及装置,方法包括:初始化状态及网络参数;在某个机器人出水时,获取该机器人位置及已采样区域特征向量;对其他机器人当前位置进行估计,同时获取出水机器人出水距离的实际值;采用克里金方法进行海洋特征场估计;依据各机器人位置及海洋特征场估计形成状态组;将状态组、位置记忆、特征向量存储在记忆库;将重新赋值的状态组输入策略神经网络,输出机器人动作指令,判断神经网络参数是否更新,对各神经网络参数进行更新或进一步判断采样任务是否结束,并循环或结束。本发明使多水下机器人的采样控制具有自主学习和决策能力,降低了采样不确定性,实现了多机器人自适应协同采样控制。
Description
技术领域
本发明属于水下机器人控制技术领域,特别涉及一种多水下机器人自适应采样的海洋观测控制方法及装置。
背景技术
海洋观测关系到海洋环境维护、开发海洋资源、维护国家安全等诸多方面,然而只有有限的原位观测资源可用于研究这一广阔的领域,随着多智能体强化学习技术的研究和应用,该技术也延伸拓展至水下机器人领域。但是,大多水下机器人缺乏一种高效的协同采样的数据收集控制方法。
目前水下机器人在海洋采样方面一般是采用固定路径、固定区域控制采样,也有不少学者进行了依据海洋场的估计而设计的采样策略。以上方法要么缺少自主性,要么缺少动态的学习性,也无法实现具有自主学习和自主决策的多机器人的协作采样,整体来看,采样效率较低。
发明内容
为了解决背景技术中的问题,本发明提供一种多水下机器人自适应采样的海洋观测控制方法及装置,可以实现水下机器人在编队容许误差约束下的自适应性采样,一方面自主实现自适应性采样控制,另外实现多水下机器人的协同采样。
本发明第一方面提供了一种多水下机器人自适应采样的海洋观测控制方法,包括以下步骤:
S1,设定水下机器人的初始位置,并初始化状态及各网络参数;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值;
S2,在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x);
S3,通过位置估计神经元网络对其他水下机器人的当前位置进行估计;同时计算获取第j个水下机器人出水距离的实际值Dj;
S4,结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
S5,依据各水下机器人位置及海洋特征场估计形成状态组;
S6,将状态组、位置记忆、特征向量z(x)存储在记忆库;
S7,将s重新赋值s=s′;
S8,将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;
S9,判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入S10,若否则进入S11;
S10,对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新;
S11,判断采样任务是否结束,若是则结束,若否则进入S2。
优选的,所述S3的具体过程为:当第j个水下机器人出水时,计算第i个机器人出水距离的估计值其中i不为j,
i=1,…,n,n指水下机器人总数量,Wt为神经网络权重矩阵,采用以往的数据集训练获得,ai为水下机器人入水时的动作;
从而计算获取第i个水下机器人的当前位置
其中Pi0为水下机器人入水前位置,Tpi为水下机器人本次剖面在水下的时间,Ti为当前时刻与入水时刻的时间差;
所述计算获取第j个水下机器人出水距离的实际值Dj,为其当前位置减去其前一个出水位置得到的差值。
优选的,所述S4中采用克里金方法进行海洋特征场估计具体为:
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
优选的,所述S5中的状态组为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n个水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差;
所述S6中的位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。
优选的,所述S10中对各神经网络参数进行更新,具体过程如下:
设θa为第一策略神经网络的参数矩阵,θa为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θa按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θc的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数。
本发明第二方面提供了一种多水下机器人自适应采样的海洋观测控制装置,所述装置包括:
初始化模块,用于设定水下机器人的初始位置,并初始化状态及各网络参数;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值;
获取模块,用于在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x);
位置估计模块,用于通过位置估计神经元网络对其他水下机器人的当前位置进行估计;同时计算获取第j个水下机器人出水距离的实际值Dj;
海洋特征场估计模块,用于结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
状态转换模块,用于依据各水下机器人位置及海洋特征场估计形成状态组;
记忆库模块,用于将状态组、位置记忆、特征向量z(x)存储在记忆库;
重新赋值模块,用于将s重新赋值s=s′;
动作策略模块,用于将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;
第一判断模块,用于判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入网络参数更新模块,若否则进入第二判断模块;
网络参数更新模块,用于对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新;
第二判断模块,用于判断采样任务是否结束,若是则结束,若否则进入获取模块。
优选的,所述海洋特征场估计模块中,采用克里金方法进行海洋特征场估计具体为:
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
优选的,所述网络参数更新模块进行网络参数更新的具体过程为:
设θa为第一策略神经网络的参数矩阵,θ′a为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θ′a按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θc的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数。
优选的,所述状态转换模块中的状态组为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n个水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差;
所述记忆库模块中的位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或指令,所述程序或指令被处理器执行时可以使处理器执行如第一方面所述的多水下机器人自适应采样的海洋观测控制方法。
与现有技术相比,本发明具有以下优点和有益效果:
本发明主要提供了一种基于深度学习的多水下机器人自适应采样的海洋观测控制方法及装置,使多水下机器人的采样控制具有自主学习和决策能力,降低了采样不确定性,实现了多机器人自适应协同采样控制,提高了采样的效率及稳定性。
本发明采用基于强化学习的自主和决策的机器人控制方法,通过使用单体机器人在复杂的海洋环境中获得的过往的控制经验,融合各个单体机器人学习所得知识,得到多机的采样控制策略,可以使多机器人在获取知识和训练的过程中,不断完善多机系统的性能和适应性以达到设定的有效采样目标。本发明可以实现高效的自适应采样,针对在空间和时间尺度上变化的海洋特征标量场,采用克里金方法对海洋特征场估计,以此设计优化的采样策略,并结合机器人控制方法实现更有效地采样。
附图说明
为了更清楚地说明本发明或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述的仅仅是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明多水下机器人自适应采样的海洋观测控制方法的算法流程图。
图2为本发明多水下机器人自适应采样的海洋观测控制方法的通讯结构图。
图3为本发明多水下机器人强化学习的学习方式示意图。
图4为实施例1中多机器人强化学习采样控制器MLCS的结构示意图。
图5为本发明多水下机器人自适应采样的海洋观测控制装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的范围。
实施例1:
如图1所示,本发明提供了一种多水下机器人自适应采样的海洋观测控制方法,该控制方法可以嵌入在离岸控制系统内部。如图2所示为通讯结构图,每台水下机器人通过卫星与离岸控制中心交互,即通过卫星定位,控制中心得到每台水下机器人的状态,并通过卫星通讯发布每台机器人的控制指令。
该方法的学习方式采用集中学习方式。如图3所示,每个智能体与学习训练中心交互,由学习训练中心进行学习,并在任务执行时进行决策。本实施例中的学习训练中心优选的采用多机器人强化学习采样控制器MLCS(Multi-agent reinforcement learningcontroller for sampling),其包含学习决策方法并嵌入在离岸控制中心内部,如图4所示。
下面结合图1对本发明一种多水下机器人自适应采样的海洋观测控制方法的过程进行展开说明。
步骤1,首先设定水下机器人的初始位置,并初始化状态及各网络参数,包括初始化状态、策略网络参数、评价网络参数、位置估计网络参数、队形范围、以观测点特征及协方差矩阵、位置估计神经网络、学习率、学习批次、记忆库容量参数等;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值。
步骤2,在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x)。
步骤3,通过位置估计神经元网络对其他水下机器人的当前位置进行估计;当第j个水下机器人出水时,计算第i个水下机器人出水距离的估计值其中i不为j,
i=1,…,n,n指水下机器人总数量,Wt为神经网络权重矩阵,采用以往的数据集训练获得,ai为水下机器人入水时的动作;
且即水下机器人出水距离的估计值用坐标x、y表示。
从而计算获取第i个水下机器人的当前位置
其中Pi0为水下机器人入水前位置,Tpi为水下机器人本次剖面在水下的时间,Ti为当前时刻与入水时刻的时间差;
同时计算获取第j个水下机器人出水距离的实际值Dj,为其当前位置减去其前一个出水位置得到的差值。
步骤4,结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
步骤5,依据各水下机器人位置及海洋特征场估计形成状态组;状态组集合为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差。
步骤6,将状态组、位置记忆、特征向量z(x)存储在记忆库M中;位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。
步骤7,将s重新赋值s=s′,获得重新赋值的状态组集合。
步骤8,将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;其中/>网络的输入为状态组,输出为动作,用于的动作选择。动作选择的约束条件为队形范围,
|Pi-Pj+dij|<α
其中dij∈R+为第i个与第j个机器人的期望距离,α∈R+,为容许距离范围。当获得当前状态,此网络输出动作,即智能决策的输出。
步骤9,判断神经网络参数是否更新;判断循环的次数Cycle是否大于设定的循环周期le,若是则进入步骤10,若否则进入步骤11。
步骤10,对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新,具体过程如下:
设θa为第一策略神经网络的参数矩阵,θ′a为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θ′a按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络
参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θc的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数。
步骤11,判断采样任务是否结束,若是则结束,若否则进入步骤2。
上述方法可以实现水下机器人在编队容许误差约束下的自适应性采样,一方面自主实现自适应性采样控制,另外实现多机的协同采样。
基于上述方法,本实施例同时提供了一种多水下机器人自适应采样的海洋观测控制装置,如图5所示,装置包括:
初始化模块,用于设定水下机器人的初始位置,并初始化状态及各网络参数,包括初始化状态、策略网络参数、评价网络参数、位置估计网络参数、队形范围、以观测点特征及协方差矩阵、位置估计神经网络、学习率、学习批次、记忆库容量参数等;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值。
获取模块,用于在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x);
位置估计模块,用于通过位置估计神经元网络对其他水下机器人的当前位置进行估计;当第j个水下机器人出水时,计算第i个水下机器人出水距离的估计值其中i不为j,
i=1,…,n,n指水下机器人总数量,Wt为神经网络权重矩阵,采用以往的数据集训练获得,ai为水下机器人入水时的动作;
且即水下机器人出水距离的估计值用坐标x、y表示。
从而计算获取第i个水下机器人的当前位置/>
其中Pi0为水下机器人入水前位置,Tpi为水下机器人本次剖面在水下的时间,Ti为当前时刻与入水时刻的时间差;
同时计算获取第j个水下机器人出水距离的实际值Dj,为其当前位置减去其前一个出水位置得到的差值。
海洋特征场估计模块,用于结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;具体为:
结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
状态转换模块,用于依据各水下机器人位置及海洋特征场估计形成状态组;依据各水下机器人位置及海洋特征场估计形成状态组;状态组集合为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差。
记忆库模块,用于将状态组、位置记忆、特征向量z(x)存储在记忆库;
重新赋值模块,用于将s重新赋值s=s′;
动作策略模块,用于将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;具体为:
将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;其中/>网络的输入为状态组,输出为动作,用于的动作选择。动作选择的约束条件为队形范围,
|Pi-Pj+dij|<α
其中dij∈R+为第i个与第j个机器人的期望距离,α∈R+,为容许距离范围。当获得当前状态,此模块输出动作,即智能决策的输出。通过控制单元对水下机器人发送控制指令。
第一判断模块,用于判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入网络参数更新模块,若否则进入第二判断模块;
网络参数更新模块,用于对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新,具体过程如下:
设θa为第一策略神经网络的参数矩阵,θ′a为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θ′a按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θa的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数。
第二判断模块,用于判断采样任务是否结束,若是则结束,若否则进入获取模块。
实施例2:
本发明还提供了一种非易失性计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,计算机执行程序或指令被处理器执行时使处理器执行如实施例1所述的多水下机器人自适应采样的海洋观测控制方法。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,包括以下步骤:
S1,设定水下机器人的初始位置,并初始化状态及各网络参数;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值;
S2,在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x);
S3,通过位置估计神经元网络对其他水下机器人的当前位置进行估计;同时计算获取第j个水下机器人出水距离的实际值Dj;
S4,结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
S5,依据各水下机器人位置及海洋特征场估计形成状态组;
S6,将状态组、位置记忆、特征向量z(x)存储在记忆库;
S7,将s重新赋值s=s′;其中s为本循环状态,s′为当前状态;
S8,将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;
S9,判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入S10,若否则进入S11;
S10,对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络/>和第二评价神经网络/>进行训练并进行网络参数更新;具体过程如下:
设θa为第一策略神经网络的参数矩阵,θ′a为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θ′a按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θc的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数;
S11,判断采样任务是否结束,若是则结束,若否则进入S2。
2.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,所述S3的具体过程为:当第j个水下机器人出水时,计算第i个机器人出水距离的估计值其中i不为j,
i=1,…,n,n指水下机器人总数量,Wt为神经网络权重矩阵,采用以往的数据集训练获得,ai为水下机器人入水时的动作;
从而计算获取第i个水下机器人的当前位置
其中Pi0为水下机器人入水前位置,Tpi为水下机器人本次剖面在水下的时间,Ti为当前时刻与入水时刻的时间差;
所述计算获取第j个水下机器人出水距离的实际值Dj,为其当前位置减去其前一个出水位置得到的差值。
3.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,所述S4中采用克里金方法进行海洋特征场估计具体为:
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
4.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于:所述S5中的状态组为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n个水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差;
所述S6中的位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。
5.一种多水下机器人自适应采样的海洋观测控制装置,其特征在于,所述装置包括:
初始化模块,用于设定水下机器人的初始位置,并初始化状态及各网络参数;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值;
获取模块,用于在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置Pj及已采样区域的特征向量z(x);
位置估计模块,用于通过位置估计神经元网络对其他水下机器人的当前位置进行估计;同时计算获取第j个水下机器人出水距离的实际值Dj;
海洋特征场估计模块,用于结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;
状态转换模块,用于依据各水下机器人位置及海洋特征场估计形成状态组;
记忆库模块,用于将状态组、位置记忆、特征向量z(x)存储在记忆库;
重新赋值模块,用于将s重新赋值s=s′;其中s为本循环状态,s′为当前状态;
动作策略模块,用于将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;
第一判断模块,用于判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入网络参数更新模块,若否则进入第二判断模块;
网络参数更新模块,用于对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络/>第一评价神经网络和第二评价神经网络/>进行训练并进行网络参数更新;网络参数更新模块进行网络参数更新的具体过程为:
设θa为第一策略神经网络的参数矩阵,θ′a为第二策略神经网络/>的参数矩阵,第二策略神经网络/>网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络/>组成评价网络,该网络输入为状态s、动作a,输出为值函数y;
第一策略神经网络和第二策略神经网络/>参数更新:
按照梯度下降进行参数更新,其沿θa的梯度为
第一策略神经网络的网络参数θa以αa的学习率进行更新,
第二策略神经网络网络参数θ′a按照更新率τ更新,
θ′a=τθa+(1-τ)θ′a
第一评价神经网络和第二评价神经网络/>网络参数更新:
第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,
其中,
L沿θc的梯度为
第一评价神经网络网络参数θc以αc的学习率进行更新,
第二评价神经网络网络参数θ′c按照更新率τ更新,
θ′c=τθc+(1-τ)θ′c
其中,γ为折扣系数;
第二判断模块,用于判断采样任务是否结束,若是则结束,若否则进入获取模块。
6.如权利要求5所述的一种多水下机器人自适应采样的海洋观测控制装置,其特征在于,所述海洋特征场估计模块中,采用克里金方法进行海洋特征场估计具体为:
海洋场在空间分布上具有一定的连续性和相关性,服从正态分布
其中C(x,x′)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:
估计点的方差为:
其中xi为待估计点,λi为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。
7.如权利要求5所述的一种多水下机器人自适应采样的海洋观测控制装置,其特征在于,所述状态转换模块中的状态组为[s,a,r,s′];其中s为本循环状态,s′为当前状态,所述s及s′均由构成,φ是航向角,/>为计算获取的n个水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,
r=f(g(X))
其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种,g(X)为采样性能准则函数,
其中X是采样点位置,σ2[z(xi|X)]是xi处基于采样点X的克里金估计方差;
所述记忆库模块中的位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序或指令,所述程序或指令被处理器执行时可以使处理器执行如权利要求1至权利要求4任意一项所述的多水下机器人自适应采样的海洋观测控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310082852.9A CN116048106B (zh) | 2023-02-08 | 2023-02-08 | 一种多水下机器人自适应采样的海洋观测控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310082852.9A CN116048106B (zh) | 2023-02-08 | 2023-02-08 | 一种多水下机器人自适应采样的海洋观测控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116048106A CN116048106A (zh) | 2023-05-02 |
CN116048106B true CN116048106B (zh) | 2024-04-12 |
Family
ID=86119892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310082852.9A Active CN116048106B (zh) | 2023-02-08 | 2023-02-08 | 一种多水下机器人自适应采样的海洋观测控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116048106B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106714336A (zh) * | 2016-10-25 | 2017-05-24 | 南京邮电大学 | 一种基于改进克里金算法的无线传感网温度监测方法 |
CN109523066A (zh) * | 2018-10-29 | 2019-03-26 | 东华理工大学 | 一种基于克里金插值的pm2.5新增移动站点选址方法 |
CN111125964A (zh) * | 2019-12-27 | 2020-05-08 | 华东理工大学 | 一种基于克里金插值法的污水处理过程代理模型构建方法 |
CN111830586A (zh) * | 2020-06-12 | 2020-10-27 | 国家海洋局南海调查技术中心(国家海洋局南海浮标中心) | 基于克里金格网算法的海域垂线偏差获取方法及其装置 |
CN112926256A (zh) * | 2021-01-28 | 2021-06-08 | 武汉轻工大学 | 基于深度强化学习的土壤重金属含量预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580387B2 (en) * | 2019-12-29 | 2023-02-14 | International Business Machines Corporation | Combining point observations with raster data for machine learning |
-
2023
- 2023-02-08 CN CN202310082852.9A patent/CN116048106B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106714336A (zh) * | 2016-10-25 | 2017-05-24 | 南京邮电大学 | 一种基于改进克里金算法的无线传感网温度监测方法 |
CN109523066A (zh) * | 2018-10-29 | 2019-03-26 | 东华理工大学 | 一种基于克里金插值的pm2.5新增移动站点选址方法 |
CN111125964A (zh) * | 2019-12-27 | 2020-05-08 | 华东理工大学 | 一种基于克里金插值法的污水处理过程代理模型构建方法 |
CN111830586A (zh) * | 2020-06-12 | 2020-10-27 | 国家海洋局南海调查技术中心(国家海洋局南海浮标中心) | 基于克里金格网算法的海域垂线偏差获取方法及其装置 |
CN112926256A (zh) * | 2021-01-28 | 2021-06-08 | 武汉轻工大学 | 基于深度强化学习的土壤重金属含量预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Optimization of Large Scales Ocean Sampling for Minimization of the Kriging Variance;xinke,zhu;2010 8TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION (WCICA);7050-7054 * |
多水下滑翔机海洋采样路径规划;朱心科;俞建成;王晓辉;;信息与控制(第04期);全文 * |
数据驱动的水下机器人海洋环境自适应观测研究;关浩博;中国优秀硕士学位论文全文数据库信息科技辑;I140-482 * |
Also Published As
Publication number | Publication date |
---|---|
CN116048106A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
Li et al. | Safe reinforcement learning: Learning with supervision using a constraint-admissible set | |
US11650551B2 (en) | System and method for policy optimization using quasi-Newton trust region method | |
CN113537365B (zh) | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 | |
CN113052372A (zh) | 一种基于深度强化学习的动态auv追踪路径规划方法 | |
CN110716575A (zh) | 基于深度双q网络强化学习的uuv实时避碰规划方法 | |
CN114199248B (zh) | 一种基于混合元启发算法优化anfis的auv协同定位方法 | |
CN114912673A (zh) | 一种基于鲸鱼优化算法和长短时记忆网络的水位预测方法 | |
CN114385272B (zh) | 面向海洋任务的在线自适应计算卸载方法及系统 | |
Araujo | Prune-able fuzzy ART neural architecture for robot map learning and navigation in dynamic environments | |
CN116048106B (zh) | 一种多水下机器人自适应采样的海洋观测控制方法及装置 | |
CN110569963A (zh) | 一种防止数据信息丢失的dgru神经网络及其预测方法 | |
CN116185035B (zh) | 基于改进仿生狼群的无人集群动态任务分配方法及系统 | |
Undurti et al. | A decentralized approach to multi-agent planning in the presence of constraints and uncertainty | |
CN114662656A (zh) | 一种深度神经网络模型训练方法、自主导航方法及系统 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
CN113759929B (zh) | 基于强化学习和模型预测控制的多智能体路径规划方法 | |
CN113721655A (zh) | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 | |
Ma et al. | Risk-averse sensor planning using distributed policy gradient | |
Hou et al. | Belief space partitioning for symbolic motion planning | |
CN115222024B (zh) | 基于深度特征选择网络的短期光伏发电预测方法和系统 | |
Paternain et al. | Learning policies for markov decision processes in continuous spaces | |
CN112008734B (zh) | 一种基于部件交互程度的机器人控制方法及装置 | |
Zhao et al. | Multi-Robot Area Coverage and Environment Estimation Based on the Mixture of Gaussian Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |