CN113595768A

CN113595768A - 一种保障移动信息物理系统控制性能的分布式协作传输算法

Info

Publication number: CN113595768A
Application number: CN202110766703.5A
Authority: CN
Inventors: 武艳; 杨清海; 吴伟华; 李静磊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-02

Abstract

一种保障移动信息物理系统控制性能的分布式协作传输算法，其包含控制性能模型建立、控制性能导向的协作传输策略、控制性能导向的协作传输策略获取方法，以及仅依据本地信息提出的分布式在线算法。本发明采用的最优协作传输策略目标是最小化LQR开销之和。最终目标是实现以控制系统稳定性为约束最小化控制开销的无线协作传输策略设计。利用马尔可夫决策过程(MDP)的动态优化方法。在系统控制性能保证下，通过各子系统通过估计误差、无线信道状态及位置状态来表征系统动态变化，并利用Q学习得到调节协作传输模式和功率分配策略，达到对系统状态、即时开销和未来开销的统一控制。本发明具有显著提升系统控制性能的优点。

Description

一种保障移动信息物理系统控制性能的分布式协作传输算法

技术领域

本发明所属无线网络化控制领域，特别涉及一种保障移动信息物理系统控制性能的分布式协作传输算法。

背景技术

移动信息物理系统(M-CPS)其利用设备移动性及无线通信功能，可实现广域泛在的感知、通信及控制功能，其使信息资源与物理资源紧密结合与协调的特点，业已广泛应用在制造、医疗、船舶、交通、军事、基础设施建设等多个领域，已逐步成为无线网络化控制领域的关键技术之一。

为了对抗无线链路衰落，一般采用无线协作传输技术，让每个单天线用户共享彼此天线，形成虚拟多入多出(MIMO)系统。然而，传统的无线协作传输技术却不能直接应用于移动信息物理系统中。主要原因是传统网络体系以“内容导向协作传输”为主，其协作传输通常以最大化频谱效率和吞吐量为目标，而移动信息物理系统本质是控制属性网络，其首要目标是满足系统控制性能以保证系统平稳运行，因此研究其协作传输策略须以满足“控制性能”为导向。现阶段面向控制应用的高可靠低时延通信技术，均未直接考虑系统控制性能。它们将丢包率和时延约束门限作为确定参量保证，实质是将控制从无线通信中剥离，从通信角度设计满足确定服务质量的传输策略，因此现有技术存在的问题是无线协作传输策略缺乏根据控制性能的状态做出自适应实时调整。

发明内容

本发明的目的是为了解决现有技术无线协作传输策略缺乏根据控制性能的状态做出自适应实时调整的问题。

本发明提出一种保障移动信息物理系统控制性能的分布式协作传输算法，其包含控制性能模型建立、控制性能导向的协作传输策略、控制性能导向的协作传输策略获取方法，以及仅依据本地信息提出的分布式在线算法。

所述控制性能模型，本发明采用类LQR形式的控制开销作为衡量动态控制系统的执行开销：

其中，Φ_i≥0，Θ_i＞0且

可观测。

所述控制性能导向的协作传输策略，本发明采用的最优协作传输策略目标是最小化LQR开销之和：K＝Σ_iK_i，这里，对于任意子系统i，利用类贝尔曼方程，有：

其中，

是状态信息的估计误差，

是智能传感器本地估计误差，且

上式表明，最小化K_i可转化为最小化均方估计误差

实际中，在时隙t的初始时刻，数据并未传输，该时隙内信息的传输结果γ_i(t)未知，所以远程估计误差e_i(t)在此刻未知，这就为控制开销的计算带来难度。本发明引入中间变量解决该问题，用可观测的中间变量简化式(2)，建立控制开销的数学表征模型，并将它作为控制性能导向的最优无线协作传输策略最小化的目标。换言之，利用有限的无线资源，本项目的最终目标是实现以控制系统稳定性为约束最小化控制开销的无线协作传输策略设计，即设计一个传输策略η解决如下随机优化问题：

(P1)：min_η控制开销K s.t.C1：控制系统稳定；C2：可用通信资源.

所述控制性能导向的协作传输策略获取方法是利用马尔可夫决策过程 (MDP)的动态优化方法。在系统控制性能保证下，通过各子系统通过估计误差、无线信道状态及位置状态来表征系统动态变化，并利用Q学习得到调节协作传输模式和功率分配策略，达到对系统状态、即时开销和未来开销的统一控制。

所述分布式在线算法是将Q-因子近似为单用户Q-因子之和，即 {Q(Z,π)}＝∑Qⁱ(Zⁱ,πⁱ)。基于该Q-因子近似，对每个子系统i求解Q-因子的 Bellman定点方程。最后，由随机近似方法，通过本地在线更新学习得到Q-因子和拉格朗日乘子。

综上所述，本发明仅利用设备本地信息，具有显著提升系统控制性能的有益技术效果。

附图说明

图1：典型的无线协作移动信息物理系统场景；

图2：控制性能导向的协作传输策略关键问题描述；

图3：分布式在线算法流程图。

具体实施方式

下面结合附图1-3和具体实施例对技术方案做进一步说明，以助于理解本发明的内容。

如图1所示，本发明考虑典型的无线协作移动信息物理系统场景。该系统包含I个相互独立且移动过程服从马尔可夫随机游走模型的移动闭环子系统。每个子系统具有一个传感器和一个执行器，其工作过程为：传感器将感知到的子系统状态通过共享中继协作节点发送给基站，进而发送到远程控制器，控制器执行控制算法并将控制命令返回到执行器，完成对系统的远程闭环控制。

用系统状态的极限平均能量来表征系统稳定，只要系统状态的极限平均能量有限系统即是稳定的。首先建立系统稳定与状态估计稳定关系,然后分析状态估计稳定条件，建立系统稳定条件。

如图2所示，在考虑可用信息为系统信道及节点移动的统计信息时，为获取最优控制性能导向的无线协作传输策略，本发明依据已知的统计信息，基于马尔可夫决策过程将控制性能导向的协作传输策略问题建模为一个随机优化问题，然后，确定丢包概率上界以应对控制系统稳定约束，最后设计分布式在线算法并分析算法性能。

如图3所示，本发明利用马尔可夫决策过程(MDP)的动态优化方法解决该问题。首先，定义系统全局状态空间

是状态的一次实现，且

表示子系统i在时刻t估计误差；

表示时刻t子系统i与目标节点(传感器到中继以及中继到远程控制器)的信道传输系数；

表示子系统i在时刻t的位置。在状态Z^m下，可行协作传输策略记为π(Z^m)，转移概率核为 P_trans＝Pr[Zⁿ|Z^m,π(Z^m)]，各阶段控制开销为

平均控制开销为

据此，控制性能导向的协作传输策略问题(P1)可建模为一个约束马尔可夫决策过程：

为解决该问题，引入拉格朗日乘子λ＝(λ₁,...,λ_i,...,λ_I)，

将约束MDP转化为无约束MDP，令

称为拉格朗日开销，且:

给定λ，无约束MDPG(λ)＝min_πK_L称为拉格朗日对偶函数。原问题的对偶问题为max_λ≥0G(λ)。进一步，利用MDP动态规划中的Bellman方程，给定λ，得到与原问题对应的Q因子期望开销:

其中，k^*是各阶段最优开销。从而，最优策略π^*可通过上式获得。Q因子代表的期望开销包含两部分：采取π(Z^m)产生的即时开销以及所有可能转移到的新状态Zⁿ后产生的未来期望开销。特别地，转移概率P_trans依赖于信道状态转移概率、移动模式转移概率以及误差转移概率，获取难度较大，因此我们采用Q学习算法，不必预先获知转移概率值，而通过迭代获取最优Q因子，从而获得最优策略。Q因子迭代方程为：

Q_t+1(Z^m,π)＝g_L(λ,Z^m,π(Z^m))+min_π,Q_t(Z^m,π’), (6)

可以证明，Q学习算法中，Q因子一次学习一个状态(通过仿真)，且最终将收敛到最优Q因子。获取的最优Q因子将离线保存于Q表格，系统运行时，通过查表执行最优决策。

尽管基于MDP动态优化算法可以获得离线最优协作传输策略，然而，如前所述，每个子系统只已知本地局部信息，为了适应系统规模的可扩展性，需设计分布式协作传输算法；另一方面，MDP动态优化算法实现复杂度随状态增长呈指数增长，即“维度诅咒”。这就需要我们寻找低复杂度分布式在线算法。本发明将 Q-因子近似为单用户Q-因子之和，即{Q(Z,π)}＝∑Qⁱ(Zⁱ,πⁱ)。基于该Q-因子近似，对每个子系统求解Q-因子的Bellman定点方程。最后，由随机近似方法，通过本地在线更新学习得到Q-因子和拉格朗日乘子。分布式近似最优在线算法流程如图3所示。

以上所述，只是本发明的一个实例，不能以此限定本发明的范围，凡依此发明专利申请范围及说明内容所做的简单的等效变化与修饰，皆属于本发明专利涵盖的范围。

Claims

1.一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：包含控制性能模型建立、控制性能导向的协作传输策略、控制性能导向的协作传输策略获取方法，以及仅依据本地信息提出的分布式在线算法。

2.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：所述控制性能模型采用类LQR形式的控制开销作为衡量动态控制系统的执行开销：

其中，Φ_i≥0，Θ_i＞0且

可观测。

3.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：所述控制性能导向的协作传输策略采用的最优协作传输策略目标是最小化LQR开销之和：K＝∑_iK_i；

对于任意子系统i，利用类贝尔曼方程，有：

其中，

是状态信息的估计误差，

是智能传感器本地估计误差，且

4.如权利要求3所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：最小化K_i可转化为最小化均方估计误差

5.如权利要求4所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：一个传输策略η解决如下随机优化问题：

(P1)：min_η控制开销K s.t.C1：控制系统稳定；C2：可用通信资源。

6.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：所述控制性能导向的协作传输策略获取方法是利用马尔可夫决策过程(MDP)的动态优化方法；在系统控制性能保证下，通过各子系统通过估计误差、无线信道状态及位置状态来表征系统动态变化，并利用Q学习得到调节协作传输模式和功率分配策略，达到对系统状态、即时开销和未来开销的统一控制。

7.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：所述分布式在线算法是将Q-因子近似为单用户Q-因子之和，即{Q(Z,π)}＝ΣQⁱ(Zⁱ,πⁱ)；基于该Q-因子近似，对每个子系统i求解Q-因子的Bellman定点方程。

8.如权利要求7所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：由随机近似方法，通过本地在线更新学习得到Q-因子和拉格朗日乘子。

9.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：所述移动信息物理系统场景包含I个相互独立且移动过程服从马尔可夫随机游走模型的移动闭环子系统，每个子系统具有一个传感器和一个执行器；其工作过程为：传感器将感知到的子系统状态通过共享中继协作节点发送给基站，进而发送到远程控制器，控制器执行控制算法并将控制命令返回到执行器，完成对系统的远程闭环控制。

10.如权利要求1所述的一种保障移动信息物理系统控制性能的分布式协作传输算法，其特征在于：首先，定义系统全局状态空间