CN116400691B - 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 - Google Patents
一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 Download PDFInfo
- Publication number
- CN116400691B CN116400691B CN202310321516.5A CN202310321516A CN116400691B CN 116400691 B CN116400691 B CN 116400691B CN 202310321516 A CN202310321516 A CN 202310321516A CN 116400691 B CN116400691 B CN 116400691B
- Authority
- CN
- China
- Prior art keywords
- unmanned ship
- course
- error
- module
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 238000013461 design Methods 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000011426 transformation method Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 80
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 230000009466 transformation Effects 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000005312 nonlinear dynamic Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- MYVIATVLJGTBFV-UHFFFAOYSA-M thiamine(1+) chloride Chemical compound [Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N MYVIATVLJGTBFV-UHFFFAOYSA-M 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- HOWHQWFXSLOJEF-MGZLOUMQSA-N systemin Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(O)=O)C(=O)OC(=O)[C@@H]1CCCN1C(=O)[C@H]1N(C(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H]2N(CCC2)C(=O)[C@H]2N(CCC2)C(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)N)C(C)C)CCC1 HOWHQWFXSLOJEF-MGZLOUMQSA-N 0.000 description 2
- 108010050014 systemin Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。本发明方法包括:构建无人艇离散时间动力学模型;构建无人艇航向跟踪变化系统;根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计离散时间误差约束变换方法,计算无约束系统误差;根据无约束系统误差,设计无人艇强化学习评价模块;基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制。本发明解决了离散时间指定性能控制稳定分析难的问题,实现无人艇航向指定性能控制,突破了离散时间指定性能控制设计依赖滑模控制的限制。
Description
技术领域
本发明涉及船舶自动控制技术领域,具体而言,尤其涉及一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。
背景技术
无人艇航向控制是船舶自动驾驶中重要的关键技术之一。受复杂海况影响,无人艇航向控制难以取得良好的控制效果,其根本原因在于控制器无法获得精确地补偿。指定性能控制能够为控制器提供较为精确地补偿,从而使控制器实现指定的控制性能。
现有的指定性能控制以连续时间变换方式进行变换,在稳定性分析时更多的依赖滑模控制,极大地限制了其在离散时间系统的发展和应用。本发明旨在提出一套新型的离散时间指定性能变换方法,实现无人艇航向指定性能控制,突破离散时间指定性能控制技术壁垒。
发明内容
根据上述提出的技术问题,提供一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。本发明主要面向离散时间无人艇航向控制系统,通过航向动态误差变换,提出一种新型的离散时间指定性能强化学习无人艇航向跟踪控制方法,通过指定性能技术,能够有效提高控制精度。
本发明采用的技术手段如下:
一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法,包括:
构建无人艇离散时间动力学模型;
对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统;
根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差;
根据得到的无约束系统误差,设计无人艇强化学习评价模块;
基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制。
进一步地,所述构建无人艇离散时间动力学模型,包括:
采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,构建无人艇离散时间动力学模型,其中,无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息,构建的无人艇离散时间动力学模型具体为:
其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;f1(x1(k))和/>为未知光滑的非线性函数;g1(x1(k))和/>为未知有界光滑函数,并满足/>和/> 和/>是未知的正常数;d(k)为未知有界的外界干扰,并满足/> 是未知的正数。
进一步地,所述对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统,具体包括:
无人艇船载计算机利用航向信息计算航向跟踪动态误差,如下:
e1(k)=x1(k)-yd(k)
e2(k)=x2(k)-α(k)
其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;yd(k)为光滑有界的参考信号;
为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对构建的无人艇离散时间动力学模型进行系统变换,建立无人艇航向跟踪变化系统,如下:
其中,F1(·)和F2(·)为非线性光滑未知函数;G1(·)和G2(·)为非线性光滑函数,并满足和/>
进一步地,所述根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差,具体包括:
基于无人艇船载计算机的航向动态角误差e1(k),设计约束为:
-βminφ(k)<e1(k)<βmaxφ(k)
φ(k+1)=(1-γ)φ(k)+γφ∞
其中,βmin和βmax为设计的正常数并满足βmin≤βmax,φ(k)为光滑函数,γ∈(0,1)决定学习速率,φ(k)的初始值满足-φ(0)<e1(0)<φ(0);
为了实现指定性能-βminφ(k)<e1(k)<βmaxφ(k),做如下变换:
其中,为转换后的无约束误差,/>为单调递增函数,满足
设计单调递增函数如下:
根据设计的单调递增函数计算得到转换后的无约束误差/>
根据设计的单调递增函数和转换后的无约束误差/>计算得到航向动态角误差e1(k):
e1(k)=h(k)(βmaxφ(k)-e1(k))
其中,
进一步地,所述根据得到的无约束系统误差,设计无人艇强化学习评价模块,具体包括:
基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数
其中,表示当前跟踪性能满足要求,/>表示当前跟踪性能不满足要求;
根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:
其中,0<β<1为设计参数,N为时间范围;
根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
其中,θc为期望权值向量,并满足 表示未知的正常数,下角标c表示评价模块;上角标T表示转置运算;/>为有界的高斯基函数;δc为逼近误差,并满足/> 为未知的正常数;
定义贝尔曼误差Ξc(k),如下:
其中,为策略效用函数q(k)的估计,/>表示理想权值θc的估计;
根据定义的贝尔曼误差Ξc(k),定义代价函数采用梯度下降法最小化代价函数Jc(k),得到评价模块神经网络自适应律,如下:
其中,λc为学习速率。
进一步地,所述基于无人艇强化学习评价模块,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制,包括:
设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律
设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律
进一步地,所述设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括:
设计虚拟控制律α(k),如下:
其中,为神经网络输入,/>表示理想权值θ1的估计;
定义第一个执行模块中的策略效用函数Ξ1(k),如下:
其中,k1=k-1;
根据策略效用函数Ξ1(k),定义代价函数采用梯度下降法最小化代价函数J1(k),得到第一个执行模块神经网络自适应律,如下:
其中,λ1为学习速率。
进一步地,所述设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括:
设计控制律u(k),如下:
其中,表示神经网络理想权值θ2的估计,并满足/> 表示未知的正常数,下角标2表示第一个子系统;/>为神经网络的输入向量;
定义第二个执行模块中的策略效用函数Ξ2(k),如下:
其中,k2=k;
根据策略效用函数Ξ2(k),定义代价函数采用梯度下降法最小化代价函数J2(k),得到第二个执行模块神经网络自适应律,如下:
其中,λ2为学习速率。
本发明还提供了一种基于上述新型离散时间指定性能强化学习无人艇航向跟踪控制方法的新型离散时间指定性能强化学习无人艇航向跟踪控制系统,包括:数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元,其中:
所述数据采集单元,用于采集无人艇航向信息;
所述数据传输单元,用于将采集到的无人艇航向信息发送至无人艇船载计算机;
所述无人艇船载计算机,用于处理采集到的无人艇航向信息,实现无人艇强化学习控制;
所述数据反馈单元,用于将所述无人艇船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角,实现对无人艇航向的跟踪控制。
进一步地,所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块,其中:
所述无人艇航向系统动力学模型模块,用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统;
所述无人艇航向无约束系统误差变换模块,用于基于无人艇航向动态误差,设计一种新型的误差变换方法,实现受约束的无人艇航向动态误差变换为一种无约束的误差;
所述无人艇评价模块,用于根据无人艇航向误差,设计基于预设跟踪性能阈值的策略效用函数和代价函数,实现评价模块神经网络自适应更新率的设计;
所述虚拟控制律模块,用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数,设计虚拟控制律;
所述神经网络自适应更新率模块,用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数,得到神经网络自适应律;
所述强化学习控制律模块,用于基于系统误差信息和虚拟控制律模块信息,设计控制器;
所述数据反馈模块,用于将无人艇强化学习控制律模块输出信息传输至无人艇舵机,实现强化学习控制律模块对无人艇航向的控制。
较现有技术相比,本发明具有以下优点:
1、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,针对离散时间系统,提出了一种新型的指定性能系统转换方法,有效解决了传统连续时间指定性能依赖滑模控制,解放了指定性能控制在离散时间系统领域的应用。
2、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,针对无人艇面临复杂海况的问题,实现了航向指定性能跟踪控制,提高了无人艇航向控制精度。
基于上述理由本发明可在船舶运动智能控制等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
如图1所示,本发明提供了一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法,包括:
S1、构建无人艇离散时间动力学模型;
S2、对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统;
S3、根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差;
S4、根据得到的无约束系统误差,设计无人艇强化学习评价模块;
S5、基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制。
具体实施时,作为本发明优选的实施方式,所述步骤S1中,构建无人艇离散时间动力学模型,包括:
采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,构建无人艇离散时间动力学模型,其中,无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息,构建的无人艇离散时间动力学模型具体为:
其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;f1(x1(k))和/>为未知光滑的非线性函数;g1(x1(k))和/>为未知有界光滑函数,并满足/>和/> 和/>是未知的正常数;d(k)为未知有界的外界干扰,并满足/> 是未知的正数。
具体实施时,作为本发明优选的实施方式,所述步骤S2中,对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统,具体包括:
S21、无人艇船载计算机利用航向信息计算航向跟踪动态误差,如下:
e1(k)=x1(k)-yd(k)
e2(k)=x2(k)-α(k)
其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;yd(k)为光滑有界的参考信号;
S22、为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对构建的无人艇离散时间动力学模型进行系统变换,建立无人艇航向跟踪变化系统,如下:
其中,F1(·)和F2(·)为非线性光滑未知函数;G1(·)和G2(·)为非线性光滑函数,并满足和/>
具体实施时,作为本发明优选的实施方式,所述步骤S3中,根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差,具体包括:
S31、基于无人艇船载计算机的航向动态角误差e1(k),设计约束为:
-βminφ(k)<e1(k)<βmaxφ(k)
φ(k+1)=(1-γ)φ(k)+γφ∞
其中,βmin和βmax为设计的正常数并满足βmin≤βmax,φ(k)为光滑函数,γ∈(0,1)决定学习速率,φ(k)的初始值满足-φ(0)<e1(0)<φ(0);
S32、为了实现指定性能-βminφ(k)<e1(k)<βmaxφ(k),做如下变换:
其中,为转换后的无约束误差,/>为单调递增函数,满足
S33、设计单调递增函数如下:
S34、根据设计的单调递增函数计算得到转换后的无约束误差/>
S35、根据设计的单调递增函数和转换后的无约束误差/>计算得到航向动态角误差e1(k):
e1(k)=h(k)(βmaxφ(k)-e1(k))
其中,
具体实施时,作为本发明优选的实施方式,所述步骤S4中,根据得到的无约束系统误差,设计无人艇强化学习评价模块,具体包括:
S41、基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数
其中,表示当前跟踪性能满足要求,/>表示当前跟踪性能不满足要求;
S42、根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:
其中,0<β<1为设计参数,N为时间范围;
S43、根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
其中,θc为期望权值向量,并满足 表示未知的正常数,下角标c表示评价模块;上角标T表示转置运算;/>为有界的高斯基函数;δc为逼近误差,并满足/> 为未知的正常数;
S44、定义贝尔曼误差Ξc(k),如下:
其中,为策略效用函数q(k)的估计,/>表示理想权值θc的估计;
S45、根据定义的贝尔曼误差Ξc(k),定义代价函数采用梯度下降法最小化代价函数Jc(k),得到评价模块神经网络自适应律,如下:
其中,λc为学习速率。
具体实施时,作为本发明优选的实施方式,所述步骤S5中,基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制,包括:
S51、设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律在本实施例中,具体包括:
S511、设计虚拟控制律α(k),如下:
其中,为神经网络输入,/>表示理想权值θ1的估计;
S512、定义第一个执行模块中的策略效用函数Ξ1(k),如下:
其中,k1=k-1;
S513、根据策略效用函数Ξ1(k),定义代价函数采用梯度下降法最小化代价函数J1(k),得到第一个执行模块神经网络自适应律,如下:
其中,λ1为学习速率。
S52、设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律在本实施例中,具体包括:
S521、设计控制律u(k),如下:
其中,表示神经网络理想权值θ2的估计,并满足/> 表示未知的正常数,下角标2表示第一个子系统;/>为神经网络的输入向量;
S522、定义第二个执行模块中的策略效用函数Ξ2(k),如下:
其中,k2=k;
S523、根据策略效用函数Ξ2(k),定义代价函数采用梯度下降法最小化代价函数J2(k),得到第二个执行模块神经网络自适应律,如下:
其中,λ2为学习速率。
对应本申请中的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,本申请还提供了一种新型离散时间指定性能强化学习无人艇航向跟踪控制系统,包括:数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元,其中:
所述数据采集单元,用于采集无人艇航向信息;
所述数据传输单元,用于将采集到的无人艇航向信息发送至无人艇船载计算机;
所述无人艇船载计算机,用于处理采集到的无人艇航向信息,实现无人艇强化学习控制;
所述数据反馈单元,用于将所述无人艇船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角,实现对无人艇航向的跟踪控制。
在本实施例中,优选的,所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块,其中:
所述无人艇航向系统动力学模型模块,用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统;
所述无人艇航向无约束系统误差变换模块,用于基于无人艇航向动态误差,设计一种新型的误差变换方法,实现受约束的无人艇航向动态误差变换为一种无约束的误差;
所述无人艇评价模块,用于根据无人艇航向误差,设计基于预设跟踪性能阈值的策略效用函数和代价函数,实现评价模块神经网络自适应更新率的设计;
所述虚拟控制律模块,用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数,设计虚拟控制律;
所述神经网络自适应更新率模块,用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数,得到神经网络自适应律;
所述强化学习控制律模块,用于基于系统误差信息和虚拟控制律模块信息,设计控制器;
所述数据反馈模块,用于将无人艇强化学习控制律模块输出信息传输至无人艇舵机,实现强化学习控制律模块对无人艇航向的控制。
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法,其特征在于,包括:
构建无人艇离散时间动力学模型;
对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统;
根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差;
根据得到的无约束系统误差,设计无人艇强化学习评价模块;
基于无人艇强化学习评价模块和无约束系统误差,设计无人艇航向跟踪控制器,得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,实现无人艇航向指定性能跟踪控制,包括:
设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括:
设计虚拟控制律α(k),如下:
其中,为神经网络输入,/>表示理想权值θ1的估计;βmax表示设计的正常数;φ表示为光滑函数;
定义第一个执行模块中的策略效用函数Ξ1(k),如下:
其中,k1=k-1;表示策略效用函数q(k)的估计;
根据策略效用函数Ξ1(k),定义代价函数采用梯度下降法最小化代价函数J1(k),得到第一个执行模块神经网络自适应律,如下:
其中,λ1为学习速率;表示第一个执行模块的光滑函数;
设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括:
设计控制律u(k),如下:
其中,表示神经网络理想权值θ2的估计,并满足/> 表示未知的正常数,下角标2表示第一个子系统;/>表示第二个执行模块的光滑函数;/>为神经网络的输入向量;/>表示航向信息向量;yd(k+n)表示光滑有界的参考信号;α(k)表示虚拟控制律;
定义第二个执行模块中的策略效用函数Ξ2(k),如下:
其中,k2=k;
根据策略效用函数Ξ2(k),定义代价函数采用梯度下降法最小化代价函数J2(k),得到第二个执行模块神经网络自适应律,如下:
其中,λ2为学习速率。
2.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,其特征在于,所述构建无人艇离散时间动力学模型,包括:
采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,构建无人艇离散时间动力学模型,其中,无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息,构建的无人艇离散时间动力学模型具体为:
其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;f1(x1(k))和/>为未知光滑的非线性函数;g1(x1(k))和/>为未知有界光滑函数,并满足/>和/> 和/>是未知的正常数;d(k)为未知有界的外界干扰,并满足/> 是未知的正数。
3.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,其特征在于,所述对构建的无人艇离散时间动力学模型进行系统变换,构建无人艇航向跟踪变化系统,具体包括:
无人艇船载计算机利用航向信息计算航向跟踪动态误差,如下:
e1(k)=x1(k)-yd(k)
e2(k)=x2(k)-α(k)
其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;x1(k)表示无人艇航向角,角标1为第1个子系统,k为时刻;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;yd(k)为光滑有界的参考信号;x2(k)表示为航向角速度,角标2为第2个子系统;
为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对构建的无人艇离散时间动力学模型进行系统变换,建立无人艇航向跟踪变化系统,如下:
其中,F1(·)和F2(·)为非线性光滑未知函数;G1(·)和G2(·)为非线性光滑函数,并满足和/> 表示航向信息向量;u(k)表示舵角输入;/>和/>表示未知的正常数。
4.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,其特征在于,所述根据航向角速度动态误差,将航向角速度动态误差约束在指定范围内,设计一种新型的离散时间误差约束变换方法,计算得到用于设计控制器的无约束系统误差,具体包括:
基于无人艇船载计算机的航向动态角误差e1(k),设计约束为:
-βminφ(k)<e1(k)<βmaxφ(k)
φ(k+1)=(1-γ)φ(k)+γφ∞
其中,βmin和βmax为设计的正常数并满足βmin≤βmax,φ(k)为光滑函数,γ∈(0,1)决定学习速率,φ(k)的初始值满足-φ(0)<e1(0)<φ(0);
为了实现指定性能-βminφ(k)<e1(k)<βmaxφ(k),做如下变换:
其中,为转换后的无约束误差,/>为单调递增函数,满足
设计单调递增函数如下:
根据设计的单调递增函数计算得到转换后的无约束误差/>
根据设计的单调递增函数和转换后的无约束误差/>计算得到航向动态角误差e1(k):
e1(k)=h(k)(βmaxφ(k)-e1(k))
其中,
5.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法,其特征在于,所述根据得到的无约束系统误差,设计无人艇强化学习评价模块,具体包括:
基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数
其中,表示当前跟踪性能满足要求,/>表示当前跟踪性能不满足要求;
根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:
其中,0<β<1为设计参数,N为时间范围;
根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
其中,θc为期望权值向量,并满足 表示未知的正常数,下角标c表示评价模块;上角标T表示转置运算;/>为有界的高斯基函数;δc为逼近误差,并满足/> 为未知的正常数;
定义贝尔曼误差Ξc(k),如下:
其中,为策略效用函数q(k)的估计,/>表示理想权值θc的估计;
根据定义的贝尔曼误差Ξc(k),定义代价函数采用梯度下降法最小化代价函数Jc(k),得到评价模块神经网络自适应律,如下:
其中,λc为学习速率。
6.一种基于权利要求1-5中任意一项权利要求所述新型离散时间指定性能强化学习无人艇航向跟踪控制方法的新型离散时间指定性能强化学习无人艇航向跟踪控制系统,其特征在于,包括:数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元,其中:
所述数据采集单元,用于采集无人艇航向信息;
所述数据传输单元,用于将采集到的无人艇航向信息发送至无人艇船载计算机;
所述无人艇船载计算机,用于处理采集到的无人艇航向信息,实现无人艇强化学习控制;
所述数据反馈单元,用于将所述无人艇船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角,实现对无人艇航向的跟踪控制。
7.根据权利要求6所述的新型离散时间指定性能强化学习无人艇航向跟踪控制系统,其特征在于,所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块,其中:
所述无人艇航向系统动力学模型模块,用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统;
所述无人艇航向无约束系统误差变换模块,用于基于无人艇航向动态误差,设计一种新型的误差变换方法,实现受约束的无人艇航向动态误差变换为一种无约束的误差;
所述无人艇评价模块,用于根据无人艇航向误差,设计基于预设跟踪性能阈值的策略效用函数和代价函数,实现评价模块神经网络自适应更新率的设计;
所述虚拟控制律模块,用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数,设计虚拟控制律;
所述神经网络自适应更新率模块,用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数,得到神经网络自适应律;
所述强化学习控制律模块,用于基于系统误差信息和虚拟控制律模块信息,设计控制器;
所述数据反馈模块,用于将无人艇强化学习控制律模块输出信息传输至无人艇舵机,实现强化学习控制律模块对无人艇航向的控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310321516.5A CN116400691B (zh) | 2023-03-29 | 2023-03-29 | 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310321516.5A CN116400691B (zh) | 2023-03-29 | 2023-03-29 | 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116400691A CN116400691A (zh) | 2023-07-07 |
CN116400691B true CN116400691B (zh) | 2023-11-21 |
Family
ID=87015397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310321516.5A Active CN116400691B (zh) | 2023-03-29 | 2023-03-29 | 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116400691B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008628A (zh) * | 2017-11-17 | 2018-05-08 | 华南理工大学 | 一种不确定欠驱动无人艇系统的预设性能控制方法 |
CN109062058A (zh) * | 2018-09-26 | 2018-12-21 | 大连海事大学 | 基于自适应模糊最优控制的船舶航向轨迹跟踪设计方法 |
CN109828467A (zh) * | 2019-03-01 | 2019-05-31 | 大连海事大学 | 一种数据驱动的无人船强化学习控制器结构及设计方法 |
CN111308890A (zh) * | 2020-02-27 | 2020-06-19 | 大连海事大学 | 一种带有指定性能的无人船数据驱动强化学习控制方法 |
CN111948937A (zh) * | 2020-07-20 | 2020-11-17 | 电子科技大学 | 多智能体系统的多梯度递归强化学习模糊控制方法及系统 |
CN113093536A (zh) * | 2021-03-23 | 2021-07-09 | 南京航空航天大学 | 非线性系统执行器故障的自适应增量优化容错控制方法 |
CN113703313A (zh) * | 2021-10-28 | 2021-11-26 | 季华实验室 | 一种基于改进预设性能的无模型自适应滑模约束控制方法 |
CN115167481A (zh) * | 2022-08-27 | 2022-10-11 | 华中科技大学 | 一种欠驱动无人艇预设性能路径跟踪控制方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210046500A (ko) * | 2019-10-18 | 2021-04-28 | 한국전자통신연구원 | 선박 자율 항해 장치, 방법 및 기록 매체 |
-
2023
- 2023-03-29 CN CN202310321516.5A patent/CN116400691B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008628A (zh) * | 2017-11-17 | 2018-05-08 | 华南理工大学 | 一种不确定欠驱动无人艇系统的预设性能控制方法 |
CN109062058A (zh) * | 2018-09-26 | 2018-12-21 | 大连海事大学 | 基于自适应模糊最优控制的船舶航向轨迹跟踪设计方法 |
CN109828467A (zh) * | 2019-03-01 | 2019-05-31 | 大连海事大学 | 一种数据驱动的无人船强化学习控制器结构及设计方法 |
CN111308890A (zh) * | 2020-02-27 | 2020-06-19 | 大连海事大学 | 一种带有指定性能的无人船数据驱动强化学习控制方法 |
CN111948937A (zh) * | 2020-07-20 | 2020-11-17 | 电子科技大学 | 多智能体系统的多梯度递归强化学习模糊控制方法及系统 |
CN113093536A (zh) * | 2021-03-23 | 2021-07-09 | 南京航空航天大学 | 非线性系统执行器故障的自适应增量优化容错控制方法 |
CN113703313A (zh) * | 2021-10-28 | 2021-11-26 | 季华实验室 | 一种基于改进预设性能的无模型自适应滑模约束控制方法 |
CN115167481A (zh) * | 2022-08-27 | 2022-10-11 | 华中科技大学 | 一种欠驱动无人艇预设性能路径跟踪控制方法及系统 |
Non-Patent Citations (2)
Title |
---|
Data-Driven Performance-prescribed Reinforcement Learning Control of an Unmanned Surface Vehicle;Wang Ning, etal.;IEEE Transactions on Neural Networks and Learning Systems;第32卷(第12期);第5457-5467页 * |
基于动态线性化数据模型的离散滑模控制研究;侯明冬;中国博士学位论文全文数据库 信息科技辑(第6期);正文第70页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116400691A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110687799B (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈控制方法及系统 | |
CN111948937B (zh) | 多智能体系统的多梯度递归强化学习模糊控制方法及系统 | |
CN111273549B (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈容错控制方法及系统 | |
CN111897225B (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈控制方法及系统 | |
CN112766329B (zh) | 一种多无人艇协同拦截控制方法及系统 | |
Shin et al. | Adaptive support vector regression for UAV flight control | |
CN111290387B (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈指定性能控制方法及系统 | |
Muske et al. | Identification of a control oriented nonlinear dynamic USV model | |
CN113093735B (zh) | 随机扰动下输出受限欠驱动无人艇的横截函数控制方法、系统及介质 | |
Shen et al. | Prescribed performance dynamic surface control for trajectory-tracking of unmanned surface vessel with input saturation | |
CN111930124A (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈有限时间控制方法及系统 | |
CN116719319B (zh) | 水面无人艇的跟踪控制器设计方法 | |
Mu et al. | Path following for podded propulsion unmanned surface vehicle: Theory, simulation and experiment | |
CN112782981A (zh) | 一种智能船舶自动舵系统的模糊自适应输出反馈指定性能控制方法及系统 | |
CN113110511A (zh) | 一种基于广义模糊双曲模型的智能船舶航向控制方法 | |
CN115248553A (zh) | 欠驱动船舶的事件触发自适应pid航迹跟踪容错控制方法 | |
CN116400691B (zh) | 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 | |
CN110515387A (zh) | 一种水面船舶漂角补偿非线性航向控制方法 | |
CN114371700B (zh) | 一种概率滤波强化学习无人船控制方法、装置及终端设备 | |
CN112987758B (zh) | 一种多水面航行器协同跟踪编队控制方法 | |
CN114755917B (zh) | 一种无模型自适应抗干扰船舶速度控制器及设计方法 | |
Liu et al. | Robust Adaptive Self‐Structuring Neural Network Bounded Target Tracking Control of Underactuated Surface Vessels | |
CN116300949A (zh) | 一种离散时间强化学习无人艇航向跟踪控制方法及系统 | |
CN115373383A (zh) | 一种垃圾回收无人艇的自主避障方法、装置及相关设备 | |
CN114355976A (zh) | 一种基于学习的控制无人机在风扰下完成轨迹跟踪的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |