CN112947090B

CN112947090B - 一种dos攻击下轮式机器人数据驱动迭代学习控制方法

Info

Publication number: CN112947090B
Application number: CN202110310077.9A
Authority: CN
Inventors: 卜旭辉; 余威; 梁嘉琪; 崔立志; 钱伟; 余琼霞
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-05-26
Anticipated expiration: 2041-03-23
Also published as: CN112947090A

Abstract

本发明公开了一种DOS攻击下轮式机器人数据驱动迭代学习控制方法，包括构建底层数据模型，设计运动学控制器及事件触发机制设置等三个步骤。本发明在保证期望稳定性能的前提下，减少控制器更新次数，节约带宽资源；同时不依靠动力学模型具体参数，仅仅使用动力学模型产生的I/O测量数据设计控制器，减少了模型解耦方面的困难，适用于具有不同类型机械结构的WMR系统，更有利于实际工程推广；此外该方法能够在考虑网络恶意DOS攻击和引入事件触发机制的情况下，引入迭代域摆脱了前期收敛过程的约束，实现轮式移动机器人在整个时间域上的完全轨迹跟踪，从而极大的提高了轮式机器人运行的稳定性和可靠性。

Description

一种DOS攻击下轮式机器人数据驱动迭代学习控制方法

技术领域

本发明属于机器人控制方法及技术，具体涉及一种DOS攻击下轮式机器人数据驱动迭代学习控制方法。

背景技术

近年来随着科学技术的飞速发展，移动机器人已经被广泛应用于工业物流、军事侦察、农业灌溉和太空探索的等工程应用中。轨迹跟踪控制是机器人在实际应用中需要解决的基本问题。轨迹跟踪通常可以分为两种形式，一种是路径跟踪，只要求机器人能够按照期望路径运行，并不需要考虑速度问题；另一种是实时轨迹跟踪，要求WMR对期望轨迹的位置和速度同时进行跟踪，目标是以特定速度抵达特定位置。由于第一种路径跟踪在实际应用中会存在速度跳变问题，因此实时的轨迹跟踪更加符合实际要求。

已有的研究利用不同的控制方法设计轨迹跟踪控制器，如滑模控制、反演控制、自适应控制和模糊控制等。但是，以上工作均是基于运动学模型设计控制器，没有考虑实际应用中WMR质量、转动惯量和控制力矩等动力学模型机械特性的变化对轨迹跟踪性能的影响。并且上述控制器都是假定WMR在初始时刻能够立即跟上期望速度，没有讨论WMR轨迹跟踪中存在的速度跳变问题，这种突变式的轨迹跟踪在工程中难以应用。特别地，以上的控制策略均是沿时间域的渐进稳定控制，虽然能够实现WMR稳定的轨迹跟踪，但在轨迹跟踪的初始阶段需要一定时间的收敛过程，无法保证在整个时间域上实现机器人的完全轨迹跟踪。

因此，针对这一现状，迫切需要开发一种轮式机器人在DOS攻击模式下的安全运行控制方法，以满足实际工作的需要。

发明内容

本发明提供一种DOS攻击下轮式机器人数据驱动迭代学习控制方法，以解决背景技术存在的问题。

为实现以上技术目的，本发明提供以下技术方案：

一种DOS攻击下轮式机器人数据驱动迭代学习控制方法，包括以下步骤：

S1，构建底层数据模型，建立轮式移动机器人的动力学模型和运动学模型，然后对构建的动力学模型和运动学模型通过欧拉法对其进行离散化处理，得到离散化模型，最后通过动态线性化技术将离散化模型沿迭代域转化为在线数据驱动模型；

S2，设计运动学控制器，以S1步骤得到的在线数据驱动模型为基础，首先设计PPD参数估计准则函数和控制输入准则函数，并对其进行极小化，然后设计基于无模型自适应迭代学习控制的内环动力学控制器，最后采用迭代学习算法设计外环运动学控制器；

S3,事件触发机制设置，完成S2步骤后，对机器人设备运行时存在的恶意网络攻击方式类型、网络攻击程序类型及网络攻击下机器人异常操作动作指令进行识别，然后根据识别的网络攻击类型设计周期DOS攻击下机器人串级数据驱动控制方案；然后根据DOS攻击下的机器人控制系统和网络攻击下机器人异常操作动作指令进行识别结果，在周期DOS攻击下机器人串级数据驱动控制方案中引入事件触发机制，即可建立最终数据驱动迭代学习控制器。

进一步的，所述S1步骤中：

动力学模型表达式为：

运动学模型表达式为：

其中：

τ＝[τ₁,τ₂]^T∈R²是作用在机器人轮上的控制力矩；M∈R^3×3为正定的质量矩阵；

q＝[x,y,θ]^T为轮式移动机器人在笛卡尔坐标系中的位置和航向角向量；

代表q的导数。u＝[v,w]分别代表机器人的线速度和角速度；/>

代表机器人运动系统的离心力和哥式力；

为变换矩阵；

E(q)∈R^3×2为驱动力矩的变换矩阵。

进一步的，所述S1步骤中：

动力学模型离散形式为：

其中：i＝1,2,…定义为迭代序列，k∈[0,T]代表时间，T为正整数，ΔT为采样周；

同时，动力学模型可表示为如下更一般的形式：

u(k+1,i)＝f(u(k,i),τ(k,i))

其中：f(·)表示一个未知的非线性函数；

机器人运动学模型的离散形式为：q(k+1,i)＝q(k,i)+ΔTS(q(k,i))u(k,i)。

进一步的，所述S1步骤中动力学模型满足广义的Lipschitz条件，该模型可转化为等效的沿迭代域的线性化数据模型：Δu(k+1,i)＝φ(k,i)Δτ(k,i)；

其中，Δu(k+1,i)＝u(k+1,i)-u(k+1,i-1)；Δτ(k,i)＝τ(k,i)-τ(k,i-1)，φ(k,i)∈R^n×n为该数据模型的时变参数，被称为伪偏导数，并且||φ(k,i)||有界。

进一步的，所述S2步骤中：

外环期望跟踪轨迹向量为：q_d＝[x_d y_d θ_d]^T∈R³；

内环控制输入的准则函数为：J(τ(k,i))＝||u_e(k+1,i)||²+λ||Δτ(k,i)||²；

其中，u_e(k,i)＝u_d(k,i)-u(k,i)为速度跟踪误差，u_d(k,i)为外环控制器输出速度，即内环控制器期望速度；λ＞0代表权重因子，用来限制输入量的变化；

将准则函数极小化，可得到内环控制输入算法，具体函数为：

其中，0＜ρ≤1定义为步长因子，使得控制律更具有一般性；由于PPDφ(k,i)未知，因此利用如下参数估计准则函数：

其中，μ＞0代表算法的权重因子。对该准则函数关于φ(k,i)求极值，可以得到PPD的估计算法：

其中，η∈(0,2]代表步长因子。为使上述PPD估计算法具有更强的对时变参数的跟踪能力，并设计PPD重置算法：

其中，

是/>

的重置初始值，ε是一个比较小的正数，通常取值为10^-4；sign(·)为符号函数；

外环控制器采用迭代学习算法，设计如下：

u_d(k,i)＝u_d(k,i-1)+Γ₁(k)q_e(k+1,i)+Γ₂(k)q_e(k,i+1)；

其中，Γ₁(k)、Γ₂(k)为迭代学习控制器增益矩阵，满足Γ₁(k)||≤b_Γ1,||Γ₂(k)||≤b_Γ2,k∈[0,T]，b_Γ1,b_Γ2为正常数。q_e(k,i)＝q_d(k)-q(k,i)为轨迹跟踪误差。

进一步的，所述S3步骤中，

周期DOS攻击下移动机器人外环迭代学习控制方案，具体表达式为：

其中，k∈[(n-1)N+1,(n-1)N+t_off]时，攻击者处于休眠期，系统以α₁(k,i)的随机概率发生数据丢失，k∈[(n-1)N+T_off+1,nN]时，攻击者处于攻击期，系统以α₂(k,i)的概率发生由于恶意攻击产生的数据丢失；

N为一个攻击总周期，t_off为总周期内的休眠期持续时间；

为攻击环境下的轨迹跟踪误差，其中：q^dos(k,i)＝α_ξ(k,i)q(k,i)+(1-α_ξ(k,i))q^dos(k,i-1)；

内环无模型自适应迭代学习控制方案：

其中：u^dos(k,i)＝α_ξ(k,i)u(k,i)+(1-α_ξ(k,i))u^dos(k,i-1)为动力学模型实际输出；

为攻击环境下的实际速度跟踪误差向量。

进一步的，所述S3步骤中：

DOS攻击下机器人控制系统，引入事件触发机制，建立外环事件触发条件为：(q^dos(k,i_t)-q^dos(k,i))^TΩ_q(q^dos(k,i_t)-q^dos(k,i))＞q^dos(k,i)^Tυ_qΩ_qq^dos(k,i)；

其中，(k,i_t)为触发时刻，Ω_q,υ_q分别为正定加权矩阵和常数标量；

最终轮式移动机器人外环迭代学习控制器，表达函数为：

内环事件触发条件表达式为：

(u^dos(k,i_t)-u^dos(k,i))^TΩ_u(u^dos(k,i_t)-u^dos(k,i))＞u^dos(k,i)^Tυ_uΩ_uu^dos(k,i)；

其中，Ω_u,υ_u分别为正定加权矩阵和常数标量；

轮式移动机器人内环无模型自适应迭代学习控制器：

事件触发机制的中心思想是，在每个时刻对触发条件进行判断；若触发条件满足，则对最新采样的数据通过网络进行传输，从而对控制器进行更新；若触发条件不满足，则控制信号保持不变；通过调整常数标量υ_q,υ_u，可对触发条件进行调节，从而实现触发次数与系统稳定性能之间的平衡。

本发明具有以下优点：

1)本方法考虑到机器人的安全控制问题而引入周期性的DOS攻击；考虑到带宽资源的限制引入事件触发机制。在每个时刻对触发条件进行判断，仅在条件满足时对控制信号进行更新，否则对控制信号进行保持。在保证期望稳定性能的前提下，减少控制器更新次数，节约带宽资源；

2)本方法并不依靠动力学模型具体参数，仅仅使用动力学模型产生的I/O测量数据设计控制器，减少了模型解耦方面的困难，适用于具有不同类型机械结构的WMR系统，更有利于实际工程推广；

3)该方法能够在考虑网络恶意DOS攻击和引入事件触发机制的情况下，引入迭代域摆脱了前期收敛过程的约束，实现轮式移动机器人在整个时间域上的完全轨迹跟踪。

附图说明

图1为本发明方法流程示意图；

图2为轮式移动机器人的运动示意图；

图3为本发明的数据驱动迭代学习控制器的结构框图；

图4为本发明执行时数据传递步骤流程图；

图5为本发明实施例机器人运动轨迹控制迭代示意图；

图6为本发明实施例速度控制迭代示意图；

图7为本发明实施例轨迹跟踪最大误差示意图；

图8为本发明实施例速度跟踪最大误差示意图；

图9为本发明实施例触发间隔和触发时刻示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1所示，一种DOS攻击下轮式机器人数据驱动迭代学习控制方法，包括以下步骤：

本实施例中，所述S1步骤中：

动力学模型表达式为：

运动学模型表达式为：

其中：

代表q的导数。u＝[v,w]分别代表机器人的线速度和角速度；/>

代表机器人运动系统的离心力和哥式力；

为变换矩阵；

E(q)∈R^3×2为驱动力矩的变换矩阵。

同时，所述S1步骤中：

动力学模型离散形式为：

同时，动力学模型可表示为如下更一般的形式：

u(k+1,i)＝f(u(k,i),τ(k,i))

其中：f(·)表示一个未知的非线性函数；

此外，所述S1步骤中动力学模型满足广义的Lipschitz条件，该模型可转化为等效的沿迭代域的线性化数据模型：Δu(k+1,i)＝φ(k,i)Δτ(k,i)；

其中，Δu(k+1,i)＝u(k+1,i)-u(k+1,i-1)；Δτ(k,i)＝τ(k,i)-τ(k,i-1)，φ(k,i)∈R^n×n为该数据模型的时变参数，被称为伪偏导数，并且|φ(k,i)||有界。

值得注意的，所述S2步骤中：

外环期望跟踪轨迹向量为：q_d＝[x_d y_d θ_d]^T∈R³；

其中，

是/>

外环控制器采用迭代学习算法，设计如下：

u_d(k,i)＝u_d(k,i-1)+Γ₁(k)q_e(k+1,i)+Γ₂(k)q_e(k,i+1)；

其中，Γ₁(k)、Γ₂(k)为迭代学习控制器增益矩阵，满足||Γ₁(k)||≤b_Γ1,||Γ₂(k)||≤b_Γ2,k∈[0,T]，b_Γ1,b_Γ2为正常数。q_e(k,i)＝q_d(k)-q(k,i)为轨迹跟踪误差。

此外，所述S3步骤中，

N为一个攻击总周期，t_off为总周期内的休眠期持续时间；

内环无模型自适应迭代学习控制方案：

为攻击环境下的实际速度跟踪误差向量。

需要特别说明的，所述S3步骤中：

最终轮式移动机器人外环迭代学习控制器，表达函数为：

内环事件触发条件表达式为：

其中，Ω_u,υ_u分别为正定加权矩阵和常数标量；

轮式移动机器人内环无模型自适应迭代学习控制器：

事件触发机制的中心思想是，在每个时刻对触发条件进行判断；若触发条件满足，则对最新采样的数据通过网络进行传输，从而对控制器进行更新；若触发条件不满足，则控制信号保持不变；通过调整常数标量υ_q,υ_u，可对触发条件进行调节，从而实现触发时刻与系统稳定性能之间的平衡。

为了对本发明所涉及技术内容进行充分说明，便于相关领域技术人员对本发明所记载内容的理解和掌握，现结合以下具体实施例对本发明记载技术方案进行说明：

本发明公开一种针对轮式移动机器人的数据驱动迭代学习串级控制器。该串级控制器外环采用迭代学习控制方案，内环采用无模型自适应迭代学习控制方案。

如图2—9所示，在进行串级控制器外环采用迭代学习控制方案，内环采用无模型自适应迭代学习控制方案时：

且在具体控制系统设置及实施时：

1、外环期望跟踪轨迹向量为q_d＝[x_d y_d θ_d]^T∈R³。内环控制输入的准则函数设计为如下：

J(τ(k,i))＝||u_e(k+1,i)||²+λ||Δτ(k,i)||²

其中，u_e(k,i)＝u_d(k,i)-u(k,i)为速度跟踪误差，u_d(k,i)为外环控制器输出速度，即内环控制器期望速度；λ＞0代表权重因子，用来限制输入量的变化。将该准则函数极小化，可得到内环控制输入算法：

其中，0＜ρ≤1定义为步长因子，使得控制律更具有一般性。由于PPDφ(k,i)未知，因此利用如下参数估计准则函数：

其中，η∈(0,2]代表步长因子。为使上述PPD估计算法具有更强的对时变参数的跟踪能力，设计如下PPD重置算法:

其中，

是/>

的重置初始值，ε是一个比较小的正数，通常取值为10^-4；sign(·)为符号函数。/>

外环控制器采用迭代学习算法，设计如下：

u_d(k,i)＝u_d(k,i-1)+Γ₁(k)q_e(k+1,i)+Γ₂(k)q_e(k,i+1)

2、考虑恶意网络攻击，设计周期DOS攻击下移动机器人串级数据驱动控制方案：

其中，k∈[(n-1)N+1,(n-1)N+t_off]时，攻击者处于休眠期，系统以α₁(k,i)的随机概率发生数据丢失，k∈[(n-1)N+T_off+1,nN]时，攻击者处于攻击期，系统以α₂(k,i)的概率发生由于恶意攻击产生的数据丢失。N为一个攻击总周期，t_off为总周期内的休眠期持续时间。

为攻击环境下的轨迹跟踪误差，其中q^dos(k,i)＝α_ξ(k,i)q(k,i)+(1-α_ξ(k,i))q^dos(k,i-1)。

内环无模型自适应迭代学习控制方案：

其中：u^dos(k,i)＝α_ξ(k,i)u(k,i)+(1-α_ξ(k,i))u^dos(k,i-1)为动力学模型实际输出。

为攻击环境下的实际速度跟踪误差向量。

3、针对DOS攻击下的轮式移动机器人控制系统，引入事件触发机制，建立外环事件触发条件为：

(q^dos(k,i_t)-q^dos(k,i))^TΩ_q(q^dos(k,i_t)-q^dos(k,i))＞q^dos(k,i)^Tυ_qΩ_qq^dos(k,i)

其中，(k,i_t)为触发时刻，Ω_q,υ_q分别为正定加权矩阵和常数标量。

最终轮式移动机器人外环迭代学习控制器：

内环事件触发条件是：

(u^dos(k,i_t)-u^dos(k,i))^TΩ_u(u^dos(k,i_t)-u^dos(k,i))＞u^dos(k,i)^Tυ_uΩ_uu^dos(k,i)

其中，Ω_u,υ_u分别为正定加权矩阵和常数标量。

轮式移动机器人内环无模型自适应迭代学习控制器：

/>

为了验证控制器效果，进行如下数值仿真：

在50次迭代之后，系统输出不能理想地跟踪期望的轨迹。经过150次迭代后，输出轨迹与期望轨迹基本吻合，表明本发明能够有效应对攻击系统稳定性的不利影响。

结果表明，随着迭代次数的增加，系统的最大跟踪误差迅速降至接近零的水平，反映了本发明的有效的跟踪性能。

线速度和角速度在时刻k＝60时，沿迭代域的触发时刻和触发间隔。采用事件触发机制在保证系统稳定性能的前提下，大大减小了信号的传输次数，节省了带宽资源。

该控制方法不仅考虑到恶意DOS攻击下机器人系统的安全控制问题，同时考虑到有限的网络资源的合理利用，通过引入事件触发机制，实现在保证系统期望稳定性能的前提下，减少触发时刻，节约系统宝贵的带宽资源。

本发明具有以下优点：

3)该方法能够在考虑网络恶意DOS攻击和引入事件触发机制的情况下，引入迭代域摆脱了前期收敛过程的约束，实现轮式移动机器人在整个时间域上的完全轨迹跟踪

以上内容是对本发明所作的进一步详细说明，不能认定本发明的只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种DOS攻击下轮式机器人数据驱动迭代学习控制方法，其特征在于，所述DOS攻击下轮式机器人数据驱动迭代学习控制方法包括以下步骤：

S1，构建底层数据模型，建立轮式移动机器人的动力学模型和运动学模型，然后对构建的动力学模型和运动学模型通过欧拉法对其进行离散化处理，得到离散化模型，最后通过动态线性化技术将离散化模型沿迭代域转化为在线数据驱动模型；其中：

动力学模型表达式为：

运动学模型表达式为：

其中：

代表q的导数；u＝[v,w]分别代表机器人的线速度和角速度；/>

代表机器人运动系统的离心力和哥式力；

为变换矩阵；

E(q)∈R^3×2为驱动力矩的变换矩阵；

S3,事件触发机制设置，完成S2步骤后，对机器人设备运行时存在的恶意网络攻击方式类型、网络攻击程序类型及网络攻击下机器人异常操作动作指令进行识别，然后根据识别的网络攻击类型设计周期DOS攻击下机器人串级数据驱动控制方案；然后根据DOS攻击下的机器人控制系统和网络攻击下机器人异常操作动作指令进行识别结果，在周期DOS攻击下机器人串级数据驱动控制方案中引入事件触发机制，即可建立最终数据驱动迭代学习控制器；所述S1步骤中：连续动力学模型离散形式为：

同时，动力学模型可表示为如下更一般的形式：

u(k+1,i)＝f(u(k,i),τ(k,i))

其中：f(·)表示一个未知的非线性函数；

机器人运动学模型的离散形式为：q(k+1,i)＝q(k,i)+ΔTS(q(k,i))u(k,i)；

所述S1步骤中动力学模型满足广义的Lipschitz条件，该模型可转化为等效的沿迭代域的线性化数据模型：Δu(k+1,i)＝φ(k,i)Δτ(k,i)；

其中，Δu(k+1,i)＝u(k+1,i)-u(k+1,i-1)；Δτ(k,i)＝τ(k,i)-τ(k,i-1)，φ(k,i)∈Rⁿ ^×n为该数据模型的时变参数，被称为伪偏导数，并且||φ(k,i)||有界；

所述S2步骤中：

外环期望跟踪轨迹向量为：q_d＝[x_d y_d θ_d]^T∈R³；

其中，μ＞0代表算法的权重因子；对该准则函数关于φ(k,i)求极值，可以得到PPD的估计算法：

其中，η∈(0,2]代表步长因子；为使上述PPD估计算法具有更强的对时变参数的跟踪能力，并设计PPD重置算法：

其中，

是/>

外环控制器采用迭代学习算法，设计如下：

u_d(k,i)＝u_d(k,i-1)+Γ₁(k)q_e(k+1,i)+Γ₂(k)q_e(k,i+1),；

其中，Γ₁(k)、Γ₂(k)为迭代学习控制器增益矩阵，满足||Γ₁(k)||≤b_Γ1,||Γ₂(k)||≤b_Γ2,k∈[0,T]，b_Γ1,b_Γ2为正常数。q_e(k,i)＝q_d(k)-q(k,i)为轨迹跟踪误差；

所述S3步骤中，周期DOS攻击下移动机器人外环迭代学习控制方案，具体表达式为：

N为一个攻击总周期，t_off为总周期内的休眠期持续时间；

内环无模型自适应迭代学习控制方案：

/>

为攻击环境下的实际速度跟踪误差向量；

所述S3步骤中：

DOS攻击下机器人控制系统，引入事件触发机制，建立外环事件触发条件为：(q^dos(k,i_t)-q^dos(k,i))^TΩ_q(q^dos(k,i_t)-q^dos(k,i))＞q^dos(k,i)^Tυ_qΩ_qq^dos(k,i)；其中，(k,i_t)为触发时刻，Ω_q,υ_q分别为正定加权矩阵和常数标量；

最终轮式移动机器人外环迭代学习控制器，表达函数为：

内环事件触发条件表达式为：

其中，Ω_u,υ_u分别为正定加权矩阵和常数标量；

轮式移动机器人内环无模型自适应迭代学习控制器：