CN110072216A

CN110072216A - 一种面向预测控制的最优缓存方法

Info

Publication number: CN110072216A
Application number: CN201910342566.5A
Authority: CN
Inventors: 赵国栋; 陈智; 陈丽芸; 常博
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-30
Anticipated expiration: 2039-04-26
Also published as: CN110072216B

Abstract

本发明属于无线通信技术领域，涉及一种基于控制代价的最优缓存方法。本发明相对于传统的D2D网络下的缓存方案，将预测控制系统与D2D网络结合。从控制层面来决定如何进行缓存，在最优化缓存性能的同时，使得预测控制系统的控制性能最优，以最小化控制成本。

Description

一种面向预测控制的最优缓存方法

技术领域

本发明属于无线通信技术领域，涉及一种面向预测控制的最优缓存方法。

背景技术

工业生产过程都具有非线性、不确定性和时变的特点，要建立精确的解析模型十分困难，所以经典控制方法如PID控制以及现代控制理论都难以获得良好的控制效果。预测控制是一类基于模型的计算机控制算法，它采用多步预测、滚动优化和反馈校正等控制策略，因而具有控制效果好、鲁棒性强、对模型精确性要求不高的优点。预测控制是一类特殊的控制。它的当前控制动作是在每一个采样瞬间通过求解一个有限时域开环最优控制问题而获得。过程的当前状态作为最优控制问题的初始状态，解得的最优控制序列只实施第一个控制作用。

目前提出的模型预测控制算法主要有基于非参数模型的模型算法控制(MAC)和动态矩阵控制(DMC)，以及基于参数模型的广义预测控制(GPC)和广义预测极点配置控制(GPP)等，其中，模型算法控制采用对象的脉冲响应模型，动态矩阵控制采用对象的阶跃响应模型，这两种模型都具有易于获得的优点；广义预测控制和广义预测极点配置控制是预测控制思想与自适应控制的结合，采用CARIMA模型(受控自回归积分滑动平均模型)，具有参数数目少并能够在线估计的优点，并且广义预测极点配置控制进一步采用极点配置技术，提高了预测控制系统的闭环稳定性和鲁棒性。

在D2D无线缓存网络中，在终端缓存技术的辅助下，用户终端可在通信非高峰期进行热点文件的提前缓存，用户在发起文件请求时，可先在自己的缓存中检索需求的文件内容，如果本地缓存找到该文件，则用户可以直接读取本地文件完成自我服务。同时，终端之间可以通过D2D传输技术进行互传，用户还可以在通信范围内的终端缓存中检索相应的请求文件，检索成功后可建立D2D通信链路来服务请求终端。这种邻近服务使得用户数据可不经过基站中转，在很大程度上降低了传统蜂窝网回程链路的负载压力，而且还能有效地降低网络空口拥塞，使得网络系统的容量和无线网络频谱效率有了大大地提升，另外用户的QoS(Quality of Service)得到大幅度提升。

基于D2D通信，传统的蜂窝网络中邻近用户间可以建立D2D通信链路可以不经过基站(BS)中继而直接进行数据互传，从而大幅提高数据传输速率且大大地减少了传输延迟。但是在传统的D2D缓存网络中，每个D2D用户性质相同，都可以缓存或者请求文件，且缓存的文件都是视频，音乐等内存占比较大的文件，且只考虑了通信层面。因此，将预测控制系统与D2D缓存网络结合起来研究D2D控制网络中的缓存问题是有意义的。

发明内容

本发明的目的是研究当D2D缓存网络的用户成为控制设备时。如何从控制层面来设计缓存方法，在最优化缓存性能的同时，使得预测控制系统的控制性能最优，以最小化控制成本。针对上述问题，提出一种面向预测控制的最优缓存方法。

本发明的技术方案如下：

1、一种面向预测控制的最优缓存方法，该方法用于D2D网络，定义单个BS蜂窝小区内D2D用户的总数为N，D2D用户的簇半径为R_D2D，在这个范围内，如果该用户可以从其邻近用户的缓存中找到想要的文件，它就可以通过建立一条D2D链路获得想要的文件；假设D2D用户均匀地分布在具有半径R_B的基站BS的覆盖范围内，并假设两类D2D用户Plant和Sensor到达BS覆盖区域的平均瞬时速率分别为和ω∈(0，1)；某个D2D用户在其D2D范围内具有y个S类用户和z个P类用户的概率分别为：

定义每个S类用户缓存空间尺度C，定义f_i ^c为S类用户存储第i个被控对象未来时刻的控制指令的概率，定义控制指令请求概率为f_i ^r，其分布遵循Zipf分布

所述最优缓存方法包括：

S1、构造障碍函数

r_b是惩罚因子，β(f_i ^c)是由关于f_i ^c的约束条件构成的惩罚项；

S2、给定精度ε，选择初始点f_i ^c0，f_i ^c0必须是内点；选择初始惩罚因子r_b>0，惩罚因子的缩小系数φ<1，置b＝1；

S3、以f_i ^c0为初始点，通过求偏导解决无约束问题：min设其极小点为f_i ^cb；

S4、若r_bβ(f_i ^cb)<ε；则f_i ^cb就是所求的最优解；否则进入步骤S5；

S5、置r_b+1＝φr_b，b＝b+1；回到步骤S3。

本发明的有益效果在于，相对于传统的D2D网络下的缓存方案，将预测控制系统与D2D网络结合。从控制层面来决定如何进行缓存，在最优化缓存性能的同时，使得预测控制系统的控制性能最优，以最小化控制成本。

附图说明

图1为不同Zipf指数γ_r下本发明提出方法与随机缓存方法和等概率缓存方法的总控制代价以及缓存命中概率的对比示意图；

图2为不同P类用户的数目M下本发明提出方法与随机缓存方法和等概率缓存方法的总控制代价以及缓存命中概率的对比示意图；

图3为不同缓存容量C下本发明提出方法与随机缓存方法和等概率缓存方法的总控制代价以及缓存命中概率的对比示意图；

图4为不同P类用户数与S类用户数的比值w下本发明提出方法与随机缓存方法和等概率缓存方法的总控制代价以及缓存命中概率的对比示意图。

具体实施方式

下面将结合附图，详细描述本发明的技术方案。

(1)预测控制环路模型的建立

以倒立摆作为控制设备的一个例子来说明控制系统，本发明考虑一个反馈控制回路。控制设备P的动态可由线性随机系统表示。传感器获取设备状态x(k)的周期性样本并将它们传输到控制器节点。控制器节点计算控制命令并将其传输到执行器作用到设备上。控制器与执行器之间的通信是有损的，即控制分组在任意时刻以一定的概率发生丢包。作为针对这些损失的保护，控制器在每个分组中发送一系列预测命令。预测的命令被放置在执行器的Buffer中。在没有新的控制包的情况下，执行器从Buffer中读取当前时刻的预测控制命令并将其作用到设备上。设备的动态可以用随机离散时间线性系统来描述:

这里，n≥1是状态向量，是控制输入，并且是离散时间零均值高斯白噪声，其协方差矩阵为R_v(0)。初始状态x(0)被建模为具有正态分布的随机变量，其具有零均值和协方差矩阵R_x(0)。假设参数矩阵A、B是固定的。

(2)传输效应的建模

由于控制器与执行器之间的通信是有损的，网络引入数据包丢失和时延。接下来，通过定义离散伯努利过程{d(k)}描述传输效应。

假设每个变量d(k)都是独立的，并且具有相同的分布：

Prob(d(k)＝1)＝p,Prob(d(k)＝0)＝1-p

这里的p∈(0,1)是丢包概率。在实际情况中没有关于p的任何先验知识。

(3)缓冲过程的建模

前面提到在PPC中，控制器在每个时刻向被控设备的执行器节点发送一个控制指令数据包(如为了在通信不可靠的情况下仍然能获得良好的性能，中包含有限数量的L个未来时刻的可能控制输入。在被控设备的执行器节点处，接收的数据包被缓冲，根据不同的传输情况提供被控设备的控制输入，即一旦有效(即，未损坏和未延迟)的控制分组到达，缓冲器状态就会被覆盖。当出现丢包或延迟时，执行器就将Buffer的状态值按顺序传递给被控设备，直到收到下一个有效控制包为止。所以有：

在上式中

上面的式子中Γ的形式对应了上述所讲的Buffer状态值的更新机制。特别地，如果在L个连续时刻都没有接收到控制数据包则将缓冲器状态设置为零。

(4)控制器的设计

如前所述，第k个时刻控制器计算得到的包含有限数量的L个未来时刻的可能控制输入，即

的设计是通过优化标准模型预测控制公式实现的：

上式中的x′_i和u_i分别是状态和控制输入的预测值，且有x′₀＝x(k),x′_i+1＝Ax′_i+Bu_i。函数Ψ和Ω分别定义了终端成本和阶段成本，且有约束集U(x)是中的一个闭子集。

为了将有约束优化转化成无约束优化问题，即将约束集U(x)拓展到本发明给出如下定义：

上式中的Q、P均为正定矩阵。

那么优化问题可以被表征为：

上式中μ>0。

事实上，上面优化的目标函数也称之为控制代价函数，而关于的求解是通过稳定性的分析推导得到的，因为不是本本发明的关注点，这里不做详细推导，直接运用已有结论，即：

1)任取正定的Q矩阵

2)令r＝0，求解如下Riccati方程的正定解P

P＝A^TPA-A^TPB(B^TPB+r)^-1B^TPA+Q

3)可以由下式给出：

这里的K由下式给出：

(5)D2D缓存网络模型的建立

在一个以BS为控制中心的无线控制网络中，当BS覆盖范围内的控制对象过多时，BS作为产生控制命令的远端控制器，其计算压力迅速激增。另外，控制对象与BS之间的远距离增加了端到端时延，于时延敏感的控制对象而言，将极大地增加控制代价。再则，远距离传输时，信道中受到的干扰和衰减也会大大降低传输的可靠性，同样会影响控制性能。

基于以上的考虑，本发明引入D2D缓存网络来建立控制环路下行传输过程的模型。在D2D缓存网络中，D2D用户可以从自身的缓存、邻近用户的缓存或者基站BS获得需要的文件。如果用户能从自身的缓存中找到想要的文件，它就不需要建立通信链路，这种情况也称为“自服务”；如果用户能从D2D范围(半径为R_D2D的簇)内的邻近用户的缓存中找到想要的文件，它就可以通过建立一条D2D链路获得想要的文件；当然，如果在自身缓存以及邻近用户的缓存中都不能找到想要的文件，用户就只能从BS下载想要的文件。结合D2D缓存网络的特点，建立控制环路下行传输过程的模型如下。

特别地，本发明考虑单个BS小区，其中BS服务于N个D2D用户，用户均匀地分布在具有半径R_B的BS的覆盖范围内。假设D2D用户按照PPP过程到达BS覆盖区域，这些D2D用户按功能不同分为两大类，一类D2D用户是作为服务者的Sensor，简称S类用户。另一类是作为被服务者的控制对象Plant，简称P类用户。在这里规定S类用户两两之间、S类用户与P类用户之间能够相互通信，P类用户两两之间不能相互通信。两类用户Plant和Sensor到达BS覆盖区域的平均瞬时速率分别为和ω∈(0，1)。Sensor带有缓存，它能根据所在D2D簇内的Sensor用户密度、Plant用户的密度以及Plant控制需求的紧迫度以一定概率缓存Plant未来时刻的控制命令。当Plant有控制需求时，首先广播一个请求数据包，数据包内包含有控制对象信息，Plant所在D2D簇内的Sensor根据这些信息以及簇内Sensor用户密度、Plant用户的密度来得到缓存该Plant未来时刻控制指令的概率。

接下来，假设每个D2D用户在其D2D范围内具有Q个近端S类用户，Z个近端P类用户，且K和Z分别遵循密度ω∈(0，1)和ω∈(0,1)的泊松点过程(PPP)，即某一时刻，某个D2D用户在其D2D范围内具有y个S类用户和z个P类用户的概率分别为：

注意，每个S类用户都有一个缓存空间，并且能够存储多达C个内容，假设每一个被控对象的未来时刻的控制指令具有相同的尺度。然后，假设S类用户以f_i ^c的概率存储第i个被控对象未来时刻的控制指令，这称为缓存概率。在该系统中，本发明考虑BS的集中控制方法。BS可以获取用户密度和被控对象对控制需求的紧迫度，这决定了各个被控对象未来时刻控制命令的缓存概率。然后，S类用户可以通过从BS接收广播来获得缓存概率。

此外，假设每个Plant独立地从BS处获取未来时刻的控制命令，本发明规定控制需求的紧迫度在指标上由μ来表征，μ越大认为该设备控制需求的紧迫度越高，控制指令请求越频繁。控制指令请求的分布上遵循Zipf分布。于是，第i个排名的被控对象向BS发出控制需求的概率可以表示为：

其中γ_T是Zipf指数。γ_T越大意味着控制请求集中在高排名文件上。

考虑到D2D用户的可移动性，故缓存与否取决于平均意义上的用户的分布和被控对象对控制需求的紧迫度。

首先定义第i个排名的被控对象成功从D2D范围内邻近S类用户的缓存中获取未来时刻控制命令的概率即第i个排名的被控对象的击中概率P_i ^hit为：

P_i ^hit＝f_i ^vr·f_i ^vc,

其中，f_i ^vr是平均意义上的第i个排名的被控对象向BS发出控制需求的概率，f_i ^vc是第i个排名的被控对象D2D范围内邻近S类用户缓存其未来时刻控制命令的平均概率。考虑到每个S类用户相互独立，可以得到：

某一时刻，所有被控对象都能收到控制指令包的概率即系统的击中概率表征为：

综上，可以得到：

值得注意的是，由于用户的分布是随时间变化的，故上式中的z是随时间变化的变量，为了问题的简化，现在考虑某个时刻，z在这个时刻为定值M，此时，上式可以简化为：

本发明的目的是确定每个P类用户未来时刻控制命令的缓存概率{f₁ ^c,f₂ ^c,...,f_z ^c}，当每个S类用户以f_i ^c的概率缓存第i个P类用户未来时刻控制命令时，最小化系统的总控制代价。

请注意，存储在S类用户缓存中的平均文件数为显然地，存储在缓存中的平均文件数不能超过C，即于是优化的问题可以建立如下：

s.t.

f_i ^c≤1,i＝1,2,...,M, (2)

f_i ^c≥0,i＝1,2,...,M. (3)

事实上，从已有的结论可以知道，若被控对象能及时接收到控制数据包，即系统击中概率越高，则系统的控制代价就小。所以，最小化系统控制代价本质上也是最大化系统击中概率。故可以得到如下的优化子问题：

s.t.

f_i ^c≤1,i＝1,2,...,M, (2)

f_i ^c≥0,i＝1,2,...,M. (3)

本发明利用惩罚函数法来求解上式。首先，证明上面的问题是凸的。将上式变换一下形式。

s.t.

1-f_i ^c≥0,i＝1,2,...,M, (2)

f_i ^c≥0,i＝1,2,...,M. (3)

关于上式的一阶偏导数可以表示为：

然后可以得到二阶偏导数为：

且有：

由于的海森矩阵是正定的，因此问题是凸问题。显然地，约束条件集也是凸集。

针对上述约束最优化问题，本发明采用惩罚函数法来求解，步骤已在上一部分的发明内容中给出。本发明核心思想即基于控制总代价来设计缓存方法，通过将缓存概率建模到控制代价函数中来求解最小化控制代价的最优缓存方案。此外，本发明将其他相关方法同本发明方法性能对比分析，以进一步验证本发明的性能。

在附图中，“随机”是指缓存概率随机取值；而“等概率”是指每个S类用户以相同的概率缓存所有P类用户的控制指令。

图1示出了Zipf指数γ_r取值不同时的缓存命中概率以及总控制成本，其中总用户数N为500，P类用户的数目M为350，每个S类用户的缓存容量C为200。从图中可以看出，在本发明所提方法下总控制代价随着γ_r的增大先是骤降后面缓慢的增大，这是合理的，因为当γ_r的值很小时，不同控制需求排名的设备请求控制指令的概率比较平均，在这种情况下，最大化缓存命中概率求解出的缓存概率同样也比较平均，缓存容量C是一定的，且C是小于M的，这意味着没有哪一个设备的控制指令是完全以概率1被成功缓存了的，这种情况下，会认为所有设备的控制指令都未成功获取到，导致比较大的控制代价。而当γ_r增大时，意味着请求控制指令的概率主要集中在控制需求排名比较靠前的设备上，S类用户就会以更大的概率缓存这些需求紧迫的设备的控制指令，从而整体上降低总控制代价。但是当γ_r过大时，意味着S类用户只缓存排名靠前的设备的控制指令而无视那些排名靠后的设备的控制需求，这同样会增加系统的总控制代价。故从图1中，可以发现当γ_r取值1.7左右时，系统总控制代价是最小的。至于缓存命中概率，只有当γ_r足够大，使得S类用户可以以概率1缓存某些设备的控制指令时，缓存命中概率才会逐渐接近1；在随机存储方法下，总控制代价以及缓存命中概率都是随机的，这也是合理的；在等概率存储方法下，由于此时S类用户以相同的概率缓存不同设备的控制指令，此时影响总控制代价的就只是设备控制指令请求概率，故当γ_r逐渐增大，请求越来越集中在排名靠前的设备上，也就只用考虑这些设备的控制代价，故系统整体控制代价逐渐减小。从图中可以看出，在相同的约束条件下，本发明提出的方法优点更加显著，系统控制性能与缓存性能更加优良。

图2示出了P类用户的数目M取值不同时的缓存命中概率以及总控制成本，其中总用户数N为500，每个S类用户的缓存容量C为100，Zipf指数γ_r取值1。从图中可以看出，在本发明所提方法下总控制代价随着M单调增加，这是合理的。缓存命中概率随着M的增大缓慢地减小，因为每个S类用户的缓存容量C是一定的，当M增大，缓存概率会逐渐地由1缓慢减小，缓存命中概率也会缓慢地减小；随机存储方法下，总控制代价与缓存命中概率都是不断波动的；等概率存储方法下，当M的取值小于等于C，或者与C相差不多时，每个S类用户以接近1的概率缓存每个设备的控制指令，此时控制代价相当小。而当M的取值大于2C时，基本此时的缓存概率接近0.5，设备基本无法从S类用户的缓存中找到其控制指令，故其控制代价骤增。从图中可以看出，在相同的约束条件下，本发明提出的方法下控制代价相较于另外两种方法降低了50％以上，缓存性能也更加优良。

图3示出了每个S类用户的缓存容量C取值不同时的缓存命中概率以及总控制成本，其中总用户数N为500，P类用户的数目M为400，Zipf指数γ_r取值1。从图中可以看出，在本发明所提方法下总控制代价随着C单调减小，这是合理的，因为当每个S类用户的缓存容量C增加时意味着能够以更大的概率缓存所有设备的控制指令，控制代价也随之减小，缓存命中概率则是无限接近于1直至等于1。在随机存储方法下，总控制代价与缓存命中概率都是不断波动的；等概率存储方法下，当C的取值比M小很多时，此时每个设备控制指令缓存概率过小，设备基本无法从S类用户的缓存中找到其控制指令，故其控制代价很大。当C接近于M时，每个S类用户以接近1的概率缓存每个设备的控制指令，此时控制代价骤减。从图中可以看出，在相同的约束条件下，本发明提出的方法下系统控制性能与缓存性能更加优良。

图4示出了P类用户数与S类用户数的比值w取值不同时的缓存命中概率以及总控制成本，其中总用户数N为500，每个S类用户的缓存容量C为100，Zipf指数γ_r取值1。从图中可以看出，在本发明所提方法下，当P类用户数与S类用户数的比值w等于0时，此时意味着没有被控设备，也就不存在控制代价与缓存命中概率。当w大于0且小于1时，此时P类用户数即被控设备数要小于S类用户数的，此时每个S类用户以接近1的概率缓存每个设备的控制指令，此时控制代价较小，当w大于1时，每个设备控制指令缓存概率由1逐渐减小，当小到一定程度时，所有设备都无法从S类用户的缓存中找到其控制指令，故其控制代价逐渐增大直至保持稳定。其他两种方法下控制代价和缓存命中概率的变化规律事实上与前面两张图是一样的，这里不再赘述。

综上所述，本发明提出了一个新的面向预测控制的最优缓存方法来处理D2D控制网络中的缓存问题，本发明在控制成本，缓存命中概率等方面相比于随机缓存方法以及等概率缓存方法有一个更好的性能，这也体现了本发明的优势。

Claims

1.一种面向预测控制的最优缓存方法，该方法用于D2D网络，定义单个BS蜂窝小区内D2D用户的总数为N，D2D用户的簇半径为R_D2D，在这个范围内，如果该用户可以从其邻近用户的缓存中找到想要的文件，它就可以通过建立一条D2D链路获得想要的文件；假设D2D用户均匀地分布在具有半径R_B的基站BS的覆盖范围内，并假设两类D2D用户Plant和Sensor到达BS覆盖区域的平均瞬时速率分别为和某个D2D用户在其D2D范围内具有y个S类用户和z个P类用户的概率分别为：

所述最优缓存方法包括：

S1、构造障碍函数

S3、以f_i ^c0为初始点，通过求偏导解决无约束问题：设其极小点为f_i ^cb；

S5、置r_b+1＝φr_b，b＝b+1；回到步骤S3。