CN112291495B - 一种基于强化学习的无线视频低时延抗干扰传输方法 - Google Patents

一种基于强化学习的无线视频低时延抗干扰传输方法 Download PDF

Info

Publication number
CN112291495B
CN112291495B CN202011107882.3A CN202011107882A CN112291495B CN 112291495 B CN112291495 B CN 112291495B CN 202011107882 A CN202011107882 A CN 202011107882A CN 112291495 B CN112291495 B CN 112291495B
Authority
CN
China
Prior art keywords
video
neural network
theta
communication
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011107882.3A
Other languages
English (en)
Other versions
CN112291495A (zh
Inventor
肖亮
林海彬
肖奕霖
林紫涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011107882.3A priority Critical patent/CN112291495B/zh
Publication of CN112291495A publication Critical patent/CN112291495A/zh
Application granted granted Critical
Publication of CN112291495B publication Critical patent/CN112291495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/10Adaptations for transmission by electrical cable
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于强化学习的无线视频低时延抗干扰传输方法,涉及无线通信、计算机和信息安全领域。提供利用强化学习算法动态改变视频传输策略,以适应无线信道环境的变化,降低通信的误码率及通信数据时延,保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。网络初始化及参量定义:针对WiFi或其它无线通信系统,无需预知信道模型,对信道进行估计及信号强度监测,通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境,降低误码率、通信时延,提高用户接收的视频质量。

Description

一种基于强化学习的无线视频低时延抗干扰传输方法
技术领域
本发明涉及无线通信、计算机和信息安全领域,尤其是涉及一种基于强化学习的无线视频低时延抗干扰传输方法。
背景技术
目前,利用无线电进行视频传输的技术主要有:WiFi、无线图传技术FPS以及第四代移动通信(4G)等。但由于无线通信的开放性特点,多用户设备在进行无线视频通信时,视频信号易受到环境噪声干扰、同频信号干扰和敌意干扰等,导致视频播放过程中出现视频卡顿、中断等现象,降低用户视频观看体验。因此,为了在较差的通信环境下提高视频通信质量,引入无线视频抗干扰传输技术,根本目的在于提高信号的信噪比,降低通信误码率且尽可能的提升视频帧图像峰值信噪比。无线视频抗干扰传输技术对于移动视频会议、手机直播、无线视频通话等大流量、实时性要求高的视频传输系统尤为重要。
现有的无线视频传输抗干扰的技术,如中国专利申请公布号为CN105744286B的专利提出了一种MJPEG视频无线传输主动抗干扰方法,客户端通过检测收到的MJPEG视频帧帧头信息及通信误码率来决定是否丢弃MJPEG视频帧,达到在规定时间内获取有效数量的视频帧,间接性的满足视频质量要求;中国专利申请公布号为CN206237532U的专利提出了一种视频传输抗干扰器,在视频发送器和接收器上,通过硬件电路的改进设计,如射频调制模块、信号差分处理模块、射频解调器等,提高发射信号质量及接收信号恢复能力,从而实现视频传输抗干扰的目的;[C.Li,H.Xiong,and D.Wu,“Delay–rate–distortion optimizedrate control for end-to-end video communication over wireless channels,”IEEETransactions on Circuits and Systems for Video Technology,vol.25,no.10,pp.1665–1681,Oct,2015.]提出在数据传输速率受限和时延约束的端到端的无线视频通信系统下,联合选择信源、信道的编码参数来最小化端到端无线视频通信的数据错误率;[Yong-Jie Yang and Hui-Jing Sui,"Research of anti-multi tone jamming based onOFDM video transmission system,"2010 2nd International Asia Conference onInformatics in Control,Automation and Robotics(CAR 2010),Wuhan,2010,pp.25-28,doi:10.1109/CAR.2010.5456554.]提出了一种基于OFDM和DCT的正交编码视频通信方案,当通信频带中的某些子信道因为多音干扰而无法工作时,视频接收端可以从其它子信道中获取数据,提高抗多音干扰能力,保证视频数据流的正确传输。
发明内容
本发明的目的是提供利用强化学习算法动态改变视频传输策略,以适应无线信道环境的变化,降低通信的误码率及通信数据时延,保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。
本发明包括以下步骤:
步骤1:网络初始化及参量定义:
令θ1=h1h2...hi,i≥0,θ1初始值为
Figure GDA0003096552730000021
构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为
Figure GDA0003096552730000022
构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为
Figure GDA0003096552730000027
均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为R,最大视频编码码率为
Figure GDA0003096552730000023
Figure GDA0003096552730000024
均匀量化为X个等级;设策略空间集
Figure GDA0003096552730000025
设视频接收方通过反馈信道Y将由算法学习得到的策略信息反馈给视频发送方;设B为给定误码率阈值,L为给定通信时延阈值;
步骤2:在第k时隙,视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];
步骤3:将s(k)输入神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为
Figure GDA0003096552730000026
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;
步骤5:按下式计算视频传输策略a的即时收益u:
Figure GDA0003096552730000031
其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;
步骤6:将步骤2得到的s(k)输入神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为神经网络C的输入,将此时的网络输出记为V(k+1);令神经网络C评判网络A生成的策略得分为I:
I=u+γV(k+1)-V(k)
其中,γ为算法的长期效益折扣因子;
步骤7:对第k时隙神经网络A的权重参数θ1和神经网络C的权重参数θ2进行更新操作;
计算损失值F(θ1):
Figure GDA0003096552730000032
通过反向传播算法计算损失值F(θ1)对神经网络A每一个参数的梯度,记为
Figure GDA0003096552730000033
采用深度学习模型优化算法Adam算法,根据梯度
Figure GDA0003096552730000034
更新深度神经网络A的权重参数θ1
计算损失值F(θ2):
F(θ2)=I2
通过反向传播算法计算损失值F(θ2)对深度神经网络C每一个参数的梯度,记为
Figure GDA0003096552730000035
采用深度学习模型优化算法Adam算法,根据梯度
Figure GDA0003096552730000036
更新深度神经网络C的权重参数θ2
步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。
本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法,针对WiFi或其它无线通信系统,无需预知信道模型,对信道进行估计及信号强度(RSSI)监测,通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境,降低误码率、通信时延,提高用户接收的视频质量。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实例详细说明。
基于GNU Radio平台的通用软件无线电外设(型号USRP N210)开发,采用802.11g协议进行WiFi视频传输通信。
一种基于强化学习的无线视频低时延抗干扰传输方法实施例,包括以下步骤:
步骤1:网络初始化及参量定义:令θ1=3×256×300数组,θ1初始值为0,构造一个网络权重为θ1的神经网络A,即神经网络A包含三个全连接层,第一层为输入层,神经元个数为3,第二层为隐藏层,神经元个数为256,第三层为输出层,神经元个数为300;令θ2=3×128×1数组,θ2初始值为0,构造一个网络权重为θ2的神经网络C,即神经网络C包含三个全连接层,第一层为输入层,神经元个数为3,第二层为隐藏层,神经元个数为128,第三层为输出层,神经元个数为1;记通信信道系统可用信道为3个(为IEEE802.11在2.4G频段划分14个信道中的1、6、11信道),所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p mW,最大信号发射功率为
Figure GDA0003096552730000041
均匀量化为M=20个等级;设传输的视频编码码率为R kbps,最小视频编码码率为R=500kbps,最大视频编码码率为
Figure GDA0003096552730000042
即R∈[500,3000]kbps,均匀量化为5个等级;
Figure GDA0003096552730000043
为策略空间集;设视频接收方通过反馈信道Y=13(为IEEE802.11在2.4G频段划分14个信道中的第13信道)将由算法学习得到的策略信息反馈给视频发送方;设误码率阈值B=10-4,通信时延阈值L=50ms。
步骤2:在第k时隙,视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令s(k)=[r(k),g(k),c(k -1)]。
步骤3:将s(k)输入神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将策略a所对应的概率取对数得到的数值记为
Figure GDA0003096552730000044
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待0.3秒,并计算0.3秒内的误码率,记为b,计算0.3秒内平均数据包时延,记为l。
步骤5:按照下面公式计算视频传输策略a的即时收益u:
Figure GDA0003096552730000045
步骤6:将步骤2得到的s(k)输入神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为神经网络C的输入,将此时的网络输出记为V(k+1)。令神经网络C评判网络A生成的策略得分为I:
I=u+0.9V(k+1)-V(k)
步骤7:对第k时隙神经网络A的权重参数θ1和神经网络C的权重参数θ2进行更新操作。
计算损失值F(θ1):
Figure GDA0003096552730000051
通过反向传播算法计算损失值F(θ1)对神经网络A每一个参数的梯度,记为
Figure GDA0003096552730000052
采用深度学习模型优化算法Adam算法,根据梯度
Figure GDA0003096552730000053
更新深度神经网络A的权重参数θ1
计算损失值F(θ2):
F(θ2)=I2
通过反向传播算法计算损失值F(θ2)对深度神经网络C每一个参数的梯度,记为
Figure GDA0003096552730000054
采用深度学习模型优化算法Adam算法,根据梯度
Figure GDA0003096552730000055
更新深度神经网络C的权重参数θ2
步骤8:重复步骤2~7,直到误码率b<10-4且通信时延l<50ms。
本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法,涉及无线通信、计算机和信息安全领域。针对WiFi等无线视频传输系统,设计一种基于强化学习的无线视频抗干扰传输方法。该技术基于无线信道状态、测量的干扰功率和传输视频任务类型等信息,动态优化视频编码方案、无线发射功率,能够有效抑制干扰、降低通信误码率(BER)和通信时延,提升视频图像峰值信噪比。同时,所提方法可持续动态适应无线环境和干扰策略的变化,满足用户的视频观看体验。

Claims (1)

1.一种基于强化学习的无线视频低时延抗干扰传输方法,其特征在于包括以下步骤:
步骤1:网络初始化及参量定义:
令θ1=h1h2...hi,i≥0,θ1初始值为
Figure FDA0003096552720000011
构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为
Figure FDA0003096552720000012
构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为
Figure FDA0003096552720000013
均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为R,最大视频编码码率为
Figure FDA0003096552720000014
Figure FDA0003096552720000015
均匀量化为X个等级;设策略空间集
Figure FDA0003096552720000016
设视频接收方通过反馈信道Y将由算法学习得到的视频传输策略反馈给视频发送方;设B为给定误码率阈值,L为给定通信时延阈值;
步骤2:在第k时隙,视频接收方利用导频信息并通过信道估计获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];
步骤3:将s(k)输入所述神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为
Figure FDA0003096552720000017
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;
步骤5:按下式计算视频传输策略a的即时收益u:
Figure FDA0003096552720000021
其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;
步骤6:将步骤2得到的s(k)输入所述神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为所述神经网络C的输入,将此时的网络输出记为V(k+1);令所述神经网络C评判所述神经网络A生成的策略得分为I:
I=u+γV(k+1)-V(k)
其中,γ为算法的长期效益折扣因子;
步骤7:对第k时隙所述神经网络A的权重参数θ1和所述神经网络C的权重参数θ2进行更新操作;
计算损失值F(θ1):
Figure FDA0003096552720000022
通过反向传播算法计算损失值F(θ1)对所述神经网络A每一个参数的梯度,记为
Figure FDA0003096552720000023
采用深度学习模型优化算法Adam算法,根据梯度
Figure FDA0003096552720000024
更新深度所述神经网络A的权重参数θ1
计算损失值F(θ2):
F(θ2)=I2
通过反向传播算法计算损失值F(θ2)对深度所述神经网络C每一个参数的梯度,记为
Figure FDA0003096552720000025
采用深度学习模型优化算法Adam算法,根据梯度
Figure FDA0003096552720000026
更新深度所述神经网络C的权重参数θ2
步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。
CN202011107882.3A 2020-10-16 2020-10-16 一种基于强化学习的无线视频低时延抗干扰传输方法 Active CN112291495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011107882.3A CN112291495B (zh) 2020-10-16 2020-10-16 一种基于强化学习的无线视频低时延抗干扰传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011107882.3A CN112291495B (zh) 2020-10-16 2020-10-16 一种基于强化学习的无线视频低时延抗干扰传输方法

Publications (2)

Publication Number Publication Date
CN112291495A CN112291495A (zh) 2021-01-29
CN112291495B true CN112291495B (zh) 2021-08-03

Family

ID=74497438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011107882.3A Active CN112291495B (zh) 2020-10-16 2020-10-16 一种基于强化学习的无线视频低时延抗干扰传输方法

Country Status (1)

Country Link
CN (1) CN112291495B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826449B (zh) * 2022-05-05 2023-04-18 厦门大学 一种基于强化学习的地图辅助车联网抗干扰通信方法
CN115022595A (zh) * 2022-06-02 2022-09-06 厦门大学 一种面向高质量视频传输的无人机群智能抗干扰传输方法
CN115361686B (zh) * 2022-08-22 2024-05-03 厦门大学 一种面向无线通信安全的安全探索强化学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888846A (zh) * 2014-03-04 2014-06-25 浙江大学 基于QoE的无线视频流业务自适应速率控制方法
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110856268A (zh) * 2019-10-30 2020-02-28 西安交通大学 一种无线网络动态多信道接入方法
CN111182549A (zh) * 2020-01-03 2020-05-19 广州大学 一种基于深度强化学习的抗干扰无线通信方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102223674A (zh) * 2011-04-20 2011-10-19 上海交通大学 分布式视频信源数据采集的优化传输方法
US20200064444A1 (en) * 2015-07-17 2020-02-27 Origin Wireless, Inc. Method, apparatus, and system for human identification based on human radio biometric information
US9402107B2 (en) * 2013-03-15 2016-07-26 Time Warner Cable Enterprises Llc Apparatus and methods for delivery of multicast and unicast content in a content delivery network
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法
CN106973413B (zh) * 2017-03-28 2020-04-28 重庆理工大学 面向无线传感器网络的自适应QoS控制方法
CN108063961B (zh) * 2017-12-22 2020-07-31 深圳市云网拜特科技有限公司 一种基于强化学习的自适应码率视频传输方法以及系统
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN111224726A (zh) * 2019-11-21 2020-06-02 南京邮电大学 一种基于长短期记忆网络的视频直播系统及其实现方法
CN111107440B (zh) * 2019-12-26 2022-02-25 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111431941B (zh) * 2020-05-13 2021-08-27 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888846A (zh) * 2014-03-04 2014-06-25 浙江大学 基于QoE的无线视频流业务自适应速率控制方法
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110856268A (zh) * 2019-10-30 2020-02-28 西安交通大学 一种无线网络动态多信道接入方法
CN111182549A (zh) * 2020-01-03 2020-05-19 广州大学 一种基于深度强化学习的抗干扰无线通信方法

Also Published As

Publication number Publication date
CN112291495A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112291495B (zh) 一种基于强化学习的无线视频低时延抗干扰传输方法
Sun et al. Adaptive federated learning with gradient compression in uplink NOMA
CN107645366B (zh) 高速移动环境下的自适应调制传输方法
US9685997B2 (en) Systems and methods to enhance spatial diversity in distributed-input distributed-output wireless systems
Xiao et al. UAV anti-jamming video transmissions with QoE guarantee: A reinforcement learning-based approach
US11070301B2 (en) Learning-based wireless transmission parameter adaptation based on client activity detection
EP2850796A1 (en) Systems and methods to enhance spatial diversity in distributed input distributed output wireless systems
CN107528624B (zh) 一种基于非正交多址接入技术的稳健波束成形的设计方法
CN111314935B (zh) 基于noma-mec系统的下行传输时延最小化的方法
GB2506937A (en) Adaptive transmission using channel interference feedback
Lu et al. QoE-driven multi-user video transmission over SM-NOMA integrated systems
US9008245B1 (en) Optimal symbol detection in the presence of non-gaussian interference
Banerjee et al. Game theoretic analysis of an adversarial status updating system
Hoang et al. Buffer and channel adaptive transmission over fading channels with imperfect channel state information
Ali et al. Cross-layer QoS provisioning for multimedia transmissions in cognitive radio networks
CN112039568A (zh) 一种基于不完全信道状态信息的大规模mimo系统跨层设计方案
CN112566159B (zh) 一种基于mimo-noma的增强型小蜂窝下行通信方法
CN113556159A (zh) 一种大规模mimo多用户系统的信道反馈方法
Xin et al. Deep learning based MAC via joint channel access and rate adaptation
Ye et al. Image and video transmission in cognitive radio systems under sensing uncertainty
Qureshi et al. Online cross-layer learning in heterogeneous cognitive radio networks without CSI
CN108924067B (zh) 干扰对齐网络中训练序列和数据符号的时间分割方法
Cui et al. Robust uncoded video transmission under practical channel estimation
Bocus et al. Rate-Optimization for Scalable Video Transmission over Wireless Networks
Kulkarni et al. Improved Resource Scheduler using Kalman Filter in Wireless Communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant