CN112291495B - 一种基于强化学习的无线视频低时延抗干扰传输方法 - Google Patents
一种基于强化学习的无线视频低时延抗干扰传输方法 Download PDFInfo
- Publication number
- CN112291495B CN112291495B CN202011107882.3A CN202011107882A CN112291495B CN 112291495 B CN112291495 B CN 112291495B CN 202011107882 A CN202011107882 A CN 202011107882A CN 112291495 B CN112291495 B CN 112291495B
- Authority
- CN
- China
- Prior art keywords
- video
- neural network
- theta
- communication
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims description 38
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/10—Adaptations for transmission by electrical cable
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于强化学习的无线视频低时延抗干扰传输方法,涉及无线通信、计算机和信息安全领域。提供利用强化学习算法动态改变视频传输策略,以适应无线信道环境的变化,降低通信的误码率及通信数据时延,保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。网络初始化及参量定义:针对WiFi或其它无线通信系统,无需预知信道模型,对信道进行估计及信号强度监测,通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境,降低误码率、通信时延,提高用户接收的视频质量。
Description
技术领域
本发明涉及无线通信、计算机和信息安全领域,尤其是涉及一种基于强化学习的无线视频低时延抗干扰传输方法。
背景技术
目前,利用无线电进行视频传输的技术主要有:WiFi、无线图传技术FPS以及第四代移动通信(4G)等。但由于无线通信的开放性特点,多用户设备在进行无线视频通信时,视频信号易受到环境噪声干扰、同频信号干扰和敌意干扰等,导致视频播放过程中出现视频卡顿、中断等现象,降低用户视频观看体验。因此,为了在较差的通信环境下提高视频通信质量,引入无线视频抗干扰传输技术,根本目的在于提高信号的信噪比,降低通信误码率且尽可能的提升视频帧图像峰值信噪比。无线视频抗干扰传输技术对于移动视频会议、手机直播、无线视频通话等大流量、实时性要求高的视频传输系统尤为重要。
现有的无线视频传输抗干扰的技术,如中国专利申请公布号为CN105744286B的专利提出了一种MJPEG视频无线传输主动抗干扰方法,客户端通过检测收到的MJPEG视频帧帧头信息及通信误码率来决定是否丢弃MJPEG视频帧,达到在规定时间内获取有效数量的视频帧,间接性的满足视频质量要求;中国专利申请公布号为CN206237532U的专利提出了一种视频传输抗干扰器,在视频发送器和接收器上,通过硬件电路的改进设计,如射频调制模块、信号差分处理模块、射频解调器等,提高发射信号质量及接收信号恢复能力,从而实现视频传输抗干扰的目的;[C.Li,H.Xiong,and D.Wu,“Delay–rate–distortion optimizedrate control for end-to-end video communication over wireless channels,”IEEETransactions on Circuits and Systems for Video Technology,vol.25,no.10,pp.1665–1681,Oct,2015.]提出在数据传输速率受限和时延约束的端到端的无线视频通信系统下,联合选择信源、信道的编码参数来最小化端到端无线视频通信的数据错误率;[Yong-Jie Yang and Hui-Jing Sui,"Research of anti-multi tone jamming based onOFDM video transmission system,"2010 2nd International Asia Conference onInformatics in Control,Automation and Robotics(CAR 2010),Wuhan,2010,pp.25-28,doi:10.1109/CAR.2010.5456554.]提出了一种基于OFDM和DCT的正交编码视频通信方案,当通信频带中的某些子信道因为多音干扰而无法工作时,视频接收端可以从其它子信道中获取数据,提高抗多音干扰能力,保证视频数据流的正确传输。
发明内容
本发明的目的是提供利用强化学习算法动态改变视频传输策略,以适应无线信道环境的变化,降低通信的误码率及通信数据时延,保障用户接收到的视频质量的一种基于强化学习的无线视频低时延抗干扰传输方法。
本发明包括以下步骤:
步骤1:网络初始化及参量定义:
令θ1=h1h2...hi,i≥0,θ1初始值为构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为R,最大视频编码码率为即均匀量化为X个等级;设策略空间集设视频接收方通过反馈信道Y将由算法学习得到的策略信息反馈给视频发送方;设B为给定误码率阈值,L为给定通信时延阈值;
步骤2:在第k时隙,视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];
步骤3:将s(k)输入神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;
步骤5:按下式计算视频传输策略a的即时收益u:
其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;
步骤6:将步骤2得到的s(k)输入神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为神经网络C的输入,将此时的网络输出记为V(k+1);令神经网络C评判网络A生成的策略得分为I:
I=u+γV(k+1)-V(k)
其中,γ为算法的长期效益折扣因子;
步骤7:对第k时隙神经网络A的权重参数θ1和神经网络C的权重参数θ2进行更新操作;
计算损失值F(θ1):
计算损失值F(θ2):
F(θ2)=I2
步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。
本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法,针对WiFi或其它无线通信系统,无需预知信道模型,对信道进行估计及信号强度(RSSI)监测,通过强化学习算法获取最优的视频传输策略。该方法可适应动态变化的无线环境,降低误码率、通信时延,提高用户接收的视频质量。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实例详细说明。
基于GNU Radio平台的通用软件无线电外设(型号USRP N210)开发,采用802.11g协议进行WiFi视频传输通信。
一种基于强化学习的无线视频低时延抗干扰传输方法实施例,包括以下步骤:
步骤1:网络初始化及参量定义:令θ1=3×256×300数组,θ1初始值为0,构造一个网络权重为θ1的神经网络A,即神经网络A包含三个全连接层,第一层为输入层,神经元个数为3,第二层为隐藏层,神经元个数为256,第三层为输出层,神经元个数为300;令θ2=3×128×1数组,θ2初始值为0,构造一个网络权重为θ2的神经网络C,即神经网络C包含三个全连接层,第一层为输入层,神经元个数为3,第二层为隐藏层,神经元个数为128,第三层为输出层,神经元个数为1;记通信信道系统可用信道为3个(为IEEE802.11在2.4G频段划分14个信道中的1、6、11信道),所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p mW,最大信号发射功率为均匀量化为M=20个等级;设传输的视频编码码率为R kbps,最小视频编码码率为R=500kbps,最大视频编码码率为即R∈[500,3000]kbps,均匀量化为5个等级;
设为策略空间集;设视频接收方通过反馈信道Y=13(为IEEE802.11在2.4G频段划分14个信道中的第13信道)将由算法学习得到的策略信息反馈给视频发送方;设误码率阈值B=10-4,通信时延阈值L=50ms。
步骤2:在第k时隙,视频接收方利用导频信息和信道估计算法获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令s(k)=[r(k),g(k),c(k -1)]。
步骤3:将s(k)输入神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将策略a所对应的概率取对数得到的数值记为
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待0.3秒,并计算0.3秒内的误码率,记为b,计算0.3秒内平均数据包时延,记为l。
步骤5:按照下面公式计算视频传输策略a的即时收益u:
步骤6:将步骤2得到的s(k)输入神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为神经网络C的输入,将此时的网络输出记为V(k+1)。令神经网络C评判网络A生成的策略得分为I:
I=u+0.9V(k+1)-V(k)
步骤7:对第k时隙神经网络A的权重参数θ1和神经网络C的权重参数θ2进行更新操作。
计算损失值F(θ1):
计算损失值F(θ2):
F(θ2)=I2
步骤8:重复步骤2~7,直到误码率b<10-4且通信时延l<50ms。
本发明提出一种基于强化学习的无线视频低时延抗干扰传输方法,涉及无线通信、计算机和信息安全领域。针对WiFi等无线视频传输系统,设计一种基于强化学习的无线视频抗干扰传输方法。该技术基于无线信道状态、测量的干扰功率和传输视频任务类型等信息,动态优化视频编码方案、无线发射功率,能够有效抑制干扰、降低通信误码率(BER)和通信时延,提升视频图像峰值信噪比。同时,所提方法可持续动态适应无线环境和干扰策略的变化,满足用户的视频观看体验。
Claims (1)
1.一种基于强化学习的无线视频低时延抗干扰传输方法,其特征在于包括以下步骤:
步骤1:网络初始化及参量定义:
令θ1=h1h2...hi,i≥0,θ1初始值为构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为R,最大视频编码码率为即均匀量化为X个等级;设策略空间集设视频接收方通过反馈信道Y将由算法学习得到的视频传输策略反馈给视频发送方;设B为给定误码率阈值,L为给定通信时延阈值;
步骤2:在第k时隙,视频接收方利用导频信息并通过信道估计获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];
步骤3:将s(k)输入所述神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;
步骤5:按下式计算视频传输策略a的即时收益u:
其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;
步骤6:将步骤2得到的s(k)输入所述神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为所述神经网络C的输入,将此时的网络输出记为V(k+1);令所述神经网络C评判所述神经网络A生成的策略得分为I:
I=u+γV(k+1)-V(k)
其中,γ为算法的长期效益折扣因子;
步骤7:对第k时隙所述神经网络A的权重参数θ1和所述神经网络C的权重参数θ2进行更新操作;
计算损失值F(θ1):
计算损失值F(θ2):
F(θ2)=I2
步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107882.3A CN112291495B (zh) | 2020-10-16 | 2020-10-16 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107882.3A CN112291495B (zh) | 2020-10-16 | 2020-10-16 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291495A CN112291495A (zh) | 2021-01-29 |
CN112291495B true CN112291495B (zh) | 2021-08-03 |
Family
ID=74497438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011107882.3A Active CN112291495B (zh) | 2020-10-16 | 2020-10-16 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112291495B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114826449B (zh) * | 2022-05-05 | 2023-04-18 | 厦门大学 | 一种基于强化学习的地图辅助车联网抗干扰通信方法 |
CN115022595A (zh) * | 2022-06-02 | 2022-09-06 | 厦门大学 | 一种面向高质量视频传输的无人机群智能抗干扰传输方法 |
CN115361686B (zh) * | 2022-08-22 | 2024-05-03 | 厦门大学 | 一种面向无线通信安全的安全探索强化学习方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888846A (zh) * | 2014-03-04 | 2014-06-25 | 浙江大学 | 基于QoE的无线视频流业务自适应速率控制方法 |
CN109002358A (zh) * | 2018-07-23 | 2018-12-14 | 厦门大学 | 基于深度强化学习的移动终端软件自适应优化调度方法 |
CN109861720A (zh) * | 2019-03-15 | 2019-06-07 | 中国科学院上海高等研究院 | 基于强化学习的wsn抗干扰方法、装置、设备和介质 |
CN110856268A (zh) * | 2019-10-30 | 2020-02-28 | 西安交通大学 | 一种无线网络动态多信道接入方法 |
CN111182549A (zh) * | 2020-01-03 | 2020-05-19 | 广州大学 | 一种基于深度强化学习的抗干扰无线通信方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102223674A (zh) * | 2011-04-20 | 2011-10-19 | 上海交通大学 | 分布式视频信源数据采集的优化传输方法 |
US20200064444A1 (en) * | 2015-07-17 | 2020-02-27 | Origin Wireless, Inc. | Method, apparatus, and system for human identification based on human radio biometric information |
US9402107B2 (en) * | 2013-03-15 | 2016-07-26 | Time Warner Cable Enterprises Llc | Apparatus and methods for delivery of multicast and unicast content in a content delivery network |
CN106961684A (zh) * | 2017-03-24 | 2017-07-18 | 厦门大学 | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法 |
CN106973413B (zh) * | 2017-03-28 | 2020-04-28 | 重庆理工大学 | 面向无线传感器网络的自适应QoS控制方法 |
CN108063961B (zh) * | 2017-12-22 | 2020-07-31 | 深圳市云网拜特科技有限公司 | 一种基于强化学习的自适应码率视频传输方法以及系统 |
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN111224726A (zh) * | 2019-11-21 | 2020-06-02 | 南京邮电大学 | 一种基于长短期记忆网络的视频直播系统及其实现方法 |
CN111107440B (zh) * | 2019-12-26 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 视频传输控制方法及装置、设备、存储介质 |
CN111431941B (zh) * | 2020-05-13 | 2021-08-27 | 南京工业大学 | 一种基于移动边缘计算的实时视频码率自适应方法 |
-
2020
- 2020-10-16 CN CN202011107882.3A patent/CN112291495B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888846A (zh) * | 2014-03-04 | 2014-06-25 | 浙江大学 | 基于QoE的无线视频流业务自适应速率控制方法 |
CN109002358A (zh) * | 2018-07-23 | 2018-12-14 | 厦门大学 | 基于深度强化学习的移动终端软件自适应优化调度方法 |
CN109861720A (zh) * | 2019-03-15 | 2019-06-07 | 中国科学院上海高等研究院 | 基于强化学习的wsn抗干扰方法、装置、设备和介质 |
CN110856268A (zh) * | 2019-10-30 | 2020-02-28 | 西安交通大学 | 一种无线网络动态多信道接入方法 |
CN111182549A (zh) * | 2020-01-03 | 2020-05-19 | 广州大学 | 一种基于深度强化学习的抗干扰无线通信方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112291495A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112291495B (zh) | 一种基于强化学习的无线视频低时延抗干扰传输方法 | |
Sun et al. | Adaptive federated learning with gradient compression in uplink NOMA | |
CN107645366B (zh) | 高速移动环境下的自适应调制传输方法 | |
US9685997B2 (en) | Systems and methods to enhance spatial diversity in distributed-input distributed-output wireless systems | |
Xiao et al. | UAV anti-jamming video transmissions with QoE guarantee: A reinforcement learning-based approach | |
US11070301B2 (en) | Learning-based wireless transmission parameter adaptation based on client activity detection | |
EP2850796A1 (en) | Systems and methods to enhance spatial diversity in distributed input distributed output wireless systems | |
CN107528624B (zh) | 一种基于非正交多址接入技术的稳健波束成形的设计方法 | |
CN111314935B (zh) | 基于noma-mec系统的下行传输时延最小化的方法 | |
GB2506937A (en) | Adaptive transmission using channel interference feedback | |
Lu et al. | QoE-driven multi-user video transmission over SM-NOMA integrated systems | |
US9008245B1 (en) | Optimal symbol detection in the presence of non-gaussian interference | |
Banerjee et al. | Game theoretic analysis of an adversarial status updating system | |
Hoang et al. | Buffer and channel adaptive transmission over fading channels with imperfect channel state information | |
Ali et al. | Cross-layer QoS provisioning for multimedia transmissions in cognitive radio networks | |
CN112039568A (zh) | 一种基于不完全信道状态信息的大规模mimo系统跨层设计方案 | |
CN112566159B (zh) | 一种基于mimo-noma的增强型小蜂窝下行通信方法 | |
CN113556159A (zh) | 一种大规模mimo多用户系统的信道反馈方法 | |
Xin et al. | Deep learning based MAC via joint channel access and rate adaptation | |
Ye et al. | Image and video transmission in cognitive radio systems under sensing uncertainty | |
Qureshi et al. | Online cross-layer learning in heterogeneous cognitive radio networks without CSI | |
CN108924067B (zh) | 干扰对齐网络中训练序列和数据符号的时间分割方法 | |
Cui et al. | Robust uncoded video transmission under practical channel estimation | |
Bocus et al. | Rate-Optimization for Scalable Video Transmission over Wireless Networks | |
Kulkarni et al. | Improved Resource Scheduler using Kalman Filter in Wireless Communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |