CN112291495B

CN112291495B - 一种基于强化学习的无线视频低时延抗干扰传输方法

Info

Publication number: CN112291495B
Application number: CN202011107882.3A
Authority: CN
Inventors: 肖亮; 林海彬; 肖奕霖; 林紫涵
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-08-03
Anticipated expiration: 2040-10-16
Also published as: CN112291495A

Abstract

一种基于强化学习的无线视频低时延抗干扰传输方法，涉及无线通信、计算机和信息安全领域。提供利用强化学习算法动态改变视频传输策略，以适应无线信道环境的变化，降低通信的误码率及通信数据时延，保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。网络初始化及参量定义：针对WiFi或其它无线通信系统，无需预知信道模型，对信道进行估计及信号强度监测，通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境，降低误码率、通信时延，提高用户接收的视频质量。

Description

一种基于强化学习的无线视频低时延抗干扰传输方法

技术领域

本发明涉及无线通信、计算机和信息安全领域，尤其是涉及一种基于强化学习的无线视频低时延抗干扰传输方法。

背景技术

目前，利用无线电进行视频传输的技术主要有：WiFi、无线图传技术FPS以及第四代移动通信(4G)等。但由于无线通信的开放性特点，多用户设备在进行无线视频通信时，视频信号易受到环境噪声干扰、同频信号干扰和敌意干扰等，导致视频播放过程中出现视频卡顿、中断等现象，降低用户视频观看体验。因此，为了在较差的通信环境下提高视频通信质量，引入无线视频抗干扰传输技术，根本目的在于提高信号的信噪比，降低通信误码率且尽可能的提升视频帧图像峰值信噪比。无线视频抗干扰传输技术对于移动视频会议、手机直播、无线视频通话等大流量、实时性要求高的视频传输系统尤为重要。

现有的无线视频传输抗干扰的技术，如中国专利申请公布号为CN105744286B的专利提出了一种MJPEG视频无线传输主动抗干扰方法，客户端通过检测收到的MJPEG视频帧帧头信息及通信误码率来决定是否丢弃MJPEG视频帧，达到在规定时间内获取有效数量的视频帧，间接性的满足视频质量要求；中国专利申请公布号为CN206237532U的专利提出了一种视频传输抗干扰器，在视频发送器和接收器上，通过硬件电路的改进设计，如射频调制模块、信号差分处理模块、射频解调器等，提高发射信号质量及接收信号恢复能力，从而实现视频传输抗干扰的目的；[C.Li,H.Xiong,and D.Wu,“Delay–rate–distortion optimizedrate control for end-to-end video communication over wireless channels,”IEEETransactions on Circuits and Systems for Video Technology,vol.25,no.10,pp.1665–1681,Oct,2015.]提出在数据传输速率受限和时延约束的端到端的无线视频通信系统下，联合选择信源、信道的编码参数来最小化端到端无线视频通信的数据错误率；[Yong-Jie Yang and Hui-Jing Sui,"Research of anti-multi tone jamming based onOFDM video transmission system,"2010 2nd International Asia Conference onInformatics in Control,Automation and Robotics(CAR 2010),Wuhan,2010,pp.25-28,doi:10.1109/CAR.2010.5456554.]提出了一种基于OFDM和DCT的正交编码视频通信方案，当通信频带中的某些子信道因为多音干扰而无法工作时，视频接收端可以从其它子信道中获取数据，提高抗多音干扰能力，保证视频数据流的正确传输。

发明内容

本发明的目的是提供利用强化学习算法动态改变视频传输策略，以适应无线信道环境的变化，降低通信的误码率及通信数据时延，保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。

本发明包括以下步骤：

步骤1：网络初始化及参量定义：

令θ₁＝h₁h₂...h_i,i≥0，θ₁初始值为

构造一个网络权重为θ₁的神经网络A；令θ₂＝f₁f₂...f_i,i≥0，θ₂初始值为

构造一个网络权重为θ₂的神经网络C；记通信信道系统可用信道为N个，所用通信信道为第c个；设视频发送方和接收方通信时的信号发射功率为p，最大信号发射功率为

均匀量化为M个等级；设传输的视频编码码率为R，最小视频编码码率为R，最大视频编码码率为

即

均匀量化为X个等级；设策略空间集

设视频接收方通过反馈信道Y将由算法学习得到的策略信息反馈给视频发送方；设B为给定误码率阈值，L为给定通信时延阈值；

步骤2：在第k时隙，视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息，分别记为r^(k)和g^(k)，记录上一时隙通信信道c^(k-1)；令系统观测状态s^(k)＝[r^(k),g^(k),c^(k-1)]；

步骤3：将s^(k)输入神经网络A，网络输出各个策略的长期效益值，即Q值，采用Softmax回归模型对各个策略的Q值进行归一化处理，得到策略的概率分布π(s^(k),A,θ₁)，根据π(s^(k),A,θ₁)进行采样得到视频传输策略a＝[a₁,a₂,a₃]，并将视频传输策略a所对应的概率取对数得到的数值记为

步骤4：视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方，视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率；视频接收方等待t秒，并计算t秒内的BER，记为b，计算t秒内平均数据包时延，记为l；

步骤5：按下式计算视频传输策略a的即时收益u：

其中，w为时延指标权重，z₁、z₂为常数，B为误码率阈值；

步骤6：将步骤2得到的s^(k)输入神经网络C，将网络的输出记为V^(k)；视频接收方根据步骤2得到s^(k+1)，并将s^(k+1)作为神经网络C的输入，将此时的网络输出记为V^(k+1)；令神经网络C评判网络A生成的策略得分为I：

I＝u+γV^(k+1)-V^(k)

其中，γ为算法的长期效益折扣因子；

步骤7：对第k时隙神经网络A的权重参数θ₁和神经网络C的权重参数θ₂进行更新操作；

计算损失值F(θ₁):

通过反向传播算法计算损失值F(θ₁)对神经网络A每一个参数的梯度，记为

采用深度学习模型优化算法Adam算法，根据梯度

更新深度神经网络A的权重参数θ₁；

计算损失值F(θ₂):

F(θ₂)＝I²

通过反向传播算法计算损失值F(θ₂)对深度神经网络C每一个参数的梯度，记为

采用深度学习模型优化算法Adam算法，根据梯度

更新深度神经网络C的权重参数θ₂；

步骤8：重复步骤2～7，直到误码率b＜B且通信时延l＜L。

本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法，针对WiFi或其它无线通信系统，无需预知信道模型，对信道进行估计及信号强度(RSSI)监测，通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境，降低误码率、通信时延，提高用户接收的视频质量。

具体实施方式

为了能够更清楚地理解本发明的技术内容，特举以下实例详细说明。

基于GNU Radio平台的通用软件无线电外设(型号USRP N210)开发，采用802.11g协议进行WiFi视频传输通信。

一种基于强化学习的无线视频低时延抗干扰传输方法实施例，包括以下步骤：

步骤1：网络初始化及参量定义：令θ₁＝3×256×300数组，θ₁初始值为0，构造一个网络权重为θ₁的神经网络A，即神经网络A包含三个全连接层，第一层为输入层，神经元个数为3，第二层为隐藏层，神经元个数为256，第三层为输出层，神经元个数为300；令θ₂＝3×128×1数组，θ₂初始值为0，构造一个网络权重为θ₂的神经网络C，即神经网络C包含三个全连接层，第一层为输入层，神经元个数为3，第二层为隐藏层，神经元个数为128，第三层为输出层，神经元个数为1；记通信信道系统可用信道为3个(为IEEE802.11在2.4G频段划分14个信道中的1、6、11信道)，所用通信信道为第c个；设视频发送方和接收方通信时的信号发射功率为p mW，最大信号发射功率为

均匀量化为M＝20个等级；设传输的视频编码码率为R kbps，最小视频编码码率为R＝500kbps，最大视频编码码率为

即R∈[500,3000]kbps，均匀量化为5个等级；

设

为策略空间集；设视频接收方通过反馈信道Y＝13(为IEEE802.11在2.4G频段划分14个信道中的第13信道)将由算法学习得到的策略信息反馈给视频发送方；设误码率阈值B＝10^-4，通信时延阈值L＝50ms。

步骤2：在第k时隙，视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息，分别记为r^(k)和g^(k)，记录上一时隙通信信道c^(k-1)；令s^(k)＝[r^(k),g^(k),c^(k ^-1)]。

步骤3：将s^(k)输入神经网络A，网络输出各个策略的长期效益值，即Q值，采用Softmax回归模型对各个策略的Q值进行归一化处理，得到策略的概率分布π(s^(k),A,θ₁)，根据π(s^(k),A,θ₁)进行采样得到视频传输策略a＝[a₁,a₂,a₃]，并将策略a所对应的概率取对数得到的数值记为

步骤4：视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方，视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率；视频接收方等待0.3秒，并计算0.3秒内的误码率，记为b，计算0.3秒内平均数据包时延，记为l。

步骤5：按照下面公式计算视频传输策略a的即时收益u：

步骤6：将步骤2得到的s^(k)输入神经网络C，将网络的输出记为V^(k)；视频接收方根据步骤2得到s^(k+1)，并将s^(k+1)作为神经网络C的输入，将此时的网络输出记为V^(k+1)。令神经网络C评判网络A生成的策略得分为I：

I＝u+0.9V^(k+1)-V^(k)

步骤7：对第k时隙神经网络A的权重参数θ₁和神经网络C的权重参数θ₂进行更新操作。

计算损失值F(θ₁)：

采用深度学习模型优化算法Adam算法，根据梯度

更新深度神经网络A的权重参数θ₁。

计算损失值F(θ₂):

F(θ₂)＝I²

采用深度学习模型优化算法Adam算法，根据梯度

更新深度神经网络C的权重参数θ₂。

步骤8：重复步骤2～7，直到误码率b＜10^-4且通信时延l＜50ms。

本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法，涉及无线通信、计算机和信息安全领域。针对WiFi等无线视频传输系统，设计一种基于强化学习的无线视频抗干扰传输方法。该技术基于无线信道状态、测量的干扰功率和传输视频任务类型等信息，动态优化视频编码方案、无线发射功率，能够有效抑制干扰、降低通信误码率(BER)和通信时延，提升视频图像峰值信噪比。同时，所提方法可持续动态适应无线环境和干扰策略的变化，满足用户的视频观看体验。

Claims

1.一种基于强化学习的无线视频低时延抗干扰传输方法，其特征在于包括以下步骤：

步骤1：网络初始化及参量定义：

令θ₁＝h₁h₂...h_i,i≥0，θ₁初始值为

即

均匀量化为X个等级；设策略空间集

设视频接收方通过反馈信道Y将由算法学习得到的视频传输策略反馈给视频发送方；设B为给定误码率阈值，L为给定通信时延阈值；

步骤2：在第k时隙，视频接收方利用导频信息并通过信道估计获得第k时隙的信噪比及RSSI信息，分别记为r^(k)和g^(k)，记录上一时隙通信信道c^(k-1)；令系统观测状态s^(k)＝[r^(k),g^(k),c^(k-1)]；

步骤3：将s^(k)输入所述神经网络A，网络输出各个策略的长期效益值，即Q值，采用Softmax回归模型对各个策略的Q值进行归一化处理，得到策略的概率分布π(s^(k),A,θ₁)，根据π(s^(k),A,θ₁)进行采样得到视频传输策略a＝[a₁,a₂,a₃]，并将视频传输策略a所对应的概率取对数得到的数值记为