CN113473190A - 一种基于强化学习的音视频柔性传输装置及传输方法 - Google Patents
一种基于强化学习的音视频柔性传输装置及传输方法 Download PDFInfo
- Publication number
- CN113473190A CN113473190A CN202110897677.XA CN202110897677A CN113473190A CN 113473190 A CN113473190 A CN 113473190A CN 202110897677 A CN202110897677 A CN 202110897677A CN 113473190 A CN113473190 A CN 113473190A
- Authority
- CN
- China
- Prior art keywords
- audio
- parameters
- video
- network
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于强化学习的音视频柔性传输装置及传输方法,基于强化学习的音视频柔性传输装置包括用于探测链路、发送端、接收端网络情况参数的链路侧及端侧网络探测装置、用于对视频浏览质量进行评价以产生正、负反馈的音视频浏览端QOE评价模块、用于对音视频编码数据进行调整和控制的音视频编码与发送控制器、以及用于实现链路侧和发送端调优以及柔性传输的强化学习智能体。本发明通过强化学习网络模型对链路侧与端侧网络情况以及音视频编码及发送参数进行训练,形成强化学习智能体,针对各种网络状况和参数可动态调整音视频编码与发送机制,可以有效应对各种异构弱网的偶发性和复杂性,实现音视频的柔性传输和QOE提升。
Description
技术领域
本发明涉及音视频流媒体转发处理与传输技术领域,特别是一种基于强化学习的音视频柔性传输装置及传输方法。
背景技术
随着4K高清、VR/AR、5G、数字孪生等技术的发展,富媒体特别是音视频流媒体越来越占据数据处理的大成。与此相对应,数据传输却越来越呈现异构性、多样性和不确定性。一方面,5G的发展造就了大带宽、广连接和低延时的传输环境,为音视频数据的传输带来了发展机遇;另一方面,弱网环境又普遍存在,特别是高速移动环境下的接入点频繁切换、地下室移动信号减弱、高延迟高拥塞等环境存在极强的偶发性和复杂性。面对音视频数据特别是高清视频数据传输时,针对RTT(Round-Trip Time,网络时延)增大、网络抖动、丢包、网络拥塞等复杂弱网情况,传统传输方式无法克服高质量传输和抗弱网特性,因此会造成视频数据丢包、乱序、延迟抖动等一系列问题,从而大幅影响视频浏览QOE(体验质量)。
网络情况与音视频流本身的发送机制是相关的,这两个因素也直接影响到用户体验QOE和视频传输QOS(服务质量)。传统的音视频抗弱网传输办法大多采用FEC(前向纠错码)、ARQ(自动重传请求)、RTT延迟梯度检测、丢包率探测等方式,在大多场景下取得了良好的效果。但是,传输网络的情况是复杂的、牵一发而动全身的。例如RTT增大可以有效增强BDP(带宽延迟积,Bandwidth-Delay Product)从而提升网络拥塞容纳能力,但同时也会带来接收端延迟现象。而向网络注入一定量的上行数据包后,即使没有达到最大的BDP也可能会造成传输节点拥塞从而继续增大RTT,最后导致大拥塞和高丢包率。因此,综合考量丢包率、RTT本身及其延迟梯度、各节点缓冲、发送和接收缓冲区的数据拥塞与堆积、视频浏览QOE、音视频编码码率、分辨率、帧率等参数,是一个庞大而繁杂的体系,若单纯改变部分参量往往会导致其他参量的对冲性变化,从而使得终端体验变得更差。可见,网络探测参数与视频流本身的参数不是单纯的正相关或负相关的关系,与用户体验(音视频浏览)QOE也没有固定的线性相关性。因此,无法实现线性控制。
发明内容
本发明的主要目的是克服现有技术的缺点,提供一种针对各种网络状况和参数可动态调整音视频编码与发送机制,可以有效应对各种异构弱网的偶发性和复杂性,实现音视频的柔性传输和QOE提升的基于强化学习的音视频柔性传输装置及传输方法。
本发明采用如下技术方案:
一种基于强化学习的音视频柔性传输装置,包括有:
链路侧及端侧网络探测装置,用于探测链路、发送端、接收端网络情况参数,包括链路探测装置、交换机探针、发送端探测装置及接收端探测装置;链路探测装置及交换机探针探测的网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP;发送端探测装置探测的参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况;接收端探测装置探测的参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率;
音视频浏览端QOE评价模块,用于对视频浏览质量进行评价以产生正、负反馈训练强化学习网络模型,评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况;
音视频编码与发送控制器,用于对音视频编码数据进行调整和控制,控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器;
强化学习智能体,将链路侧与端侧网络探测装置探测的参数、音视频浏览端QOE评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型,以形成基本的强化学习智能体;而后,将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数,将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数,将音视频浏览端QOE评价模块评价的参数作为正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制,以持续优化强化学习智能体。
进一步地,所述音视频编码与发送控制器控制RTP分包打包处理器,并将RTP分包打包处理器的发送策略参数作为输入参数训练强化学习智能体。
一种基于强化学习的音视频柔性传输方法,包括以下步骤:
步骤1,利用以往经验值训练强化学习网络智能体,具体训练方法包括以下步骤:
步骤1.1,在发送端及链路侧分别设置发送端探测装置、链路探测装置,获取发送端以及链路侧的如下参数:音视频包发送时序情况、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度及交换机排队深度,并将上述参数进行量化;
步骤1.2,在接收端设置接收端探测装置,获取接收端的如下参数:音视频包接收时序情况、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率,并将上述参数进行量化;
步骤1.3,设置音视频编码与发送控制器,控制音视频编码与发送的如下参数:视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器;
步骤1.4,设置视频质量QOE评价模块,对视频进行解码和渲染,并对图像质量进行识别及评价,评价的参数包括:图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况,并为每个评价参数设置对应的权值,将上述指标按照一定的权值加权后进行量化打分,作为正负激励机制的正、负反馈;
步骤1.5,开始训练强化学习智能体,改变步骤1.3中的音视频编码与发送参数,并基于不同的音视频编码与发送参数情况在固定链路进行发送,分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数,其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,根据不同情况下的状态和动作输入,训练强化学习网络模型,实现该强化学习决策过程中整体回报函数期望最优;
步骤2,利用步骤1训练的强化学习智能体,以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,获得正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送参数进行反馈控制,进行链路侧和发送端调优以及柔性传输,并可基于现实环境下的参数持续优化强化学习智能体。
进一步地,对步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数进行量化的方法为:设定对应标准,并按照匹配百分比进行打分,完全匹配为满分,完全不匹配为0分。
进一步地,步骤1.4中,评价参数的对应权值可通过人工设定。
进一步地,所述视频质量QOE评价模块的评价参数还包括雪花或马赛克情况。
进一步地,所述音视频编码与发送控制器控制的音视频编码与发送参数还包括I帧间隔及发送去抖动。
进一步地,所述音视频编码与发送控制器控制的音视频编码与发送参数还包括采用前向纠错机制和采用自动反馈重发机制。
进一步地,可基于步骤1.1中发送端以及链路侧的各网络参数根据公式(1)对网络状况进行评价,评价方法为:
f(x)=k1*x1+k2*x2 2+k3*x3 2+k4*x4 2+k5*x5 3+k6*x6 3 (1);
其中,f(x)表示网络状况评分,评分越高网络状况越差;
X1:音视频包发送时序情况的量化值,k1:音视频包发送时序情况对应的权值;
X2:发送缓冲区的排队深度的量化值,k2:发送缓冲区的排队深度对应的权值;
X3:发送缓冲区丢包溢出情况的量化值,k3:发送缓冲区丢包益处情况对应的权值;
X4:网络时延RTT的量化值,k4:网络时延RTT对应的权值;
X5:延迟梯度的量化值,k5:延迟梯度对应的权值;
X6:交换机排队深度的量化值,k6:交换机排队深度对应的权值;
权值k1、k2、k3、k4、k5、k6可根据网络实际情况动态设定。
进一步地,步骤1.4中,视频质量QOE评价模块支持人工或自动对图像质量进行识别并评价。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
第一,本发明针对弱网环境下的视频抗弱网特性和种种问题,对于网络参数、编码和发送参数以及视频浏览质量构建强化学习网络模型,通过强化学习网络模型对链路侧与端侧网络情况以及音视频编码及发送参数进行训练,以形成强化学习智能体,特别适合弱网环境下对于各种异构网络条件状况、发送接收、拥塞参数以及用户观赏QOE的联合调优,针对各种网络状况和参数可动态调整音视频编码与发送机制,根据不同弱网情况下链路、端侧和发送参数的训练,可以有效应对各种异构弱网的偶发性和复杂性,实现音视频的柔性传输和QOE提升。
第二,本发明链路侧网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP;发送端网络参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况;接收端网络参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率。音视频浏览端QOE评价模块评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况。音视频编码与发送控制器控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器及RTP分包打包处理器。全面覆盖音视频传输的各项输入参数和控制参数,可抵消各项参数负相关的影响,实现音视频传输的综合最优化方案。
第三,本发明的评价参数以及各参数权值可通过人工设定,使用更加灵活。
第四,本发明可基于发送端以及链路侧的各网络参数对网络状况进行评价,并给出具体评分,在音视频传输的同时,能更直观的显示网络状况。
附图说明
图1是本发明具体实施方式的链路侧及端侧网络探测装置的工作原理框图;
图2是本发明具体实施方式的音视频浏览端QOE评价模块的工作原理框图;
图3是本发明具体实施方式的音视频编码与发送控制器的工作原理框图;
图4是本发明具体实施方式的强化学习网络模型的原理框图;
图5是本发明具体实施方式的音视频柔性传输装置的整体组网框架图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
实施例1
参照图1至图5,本发明的一种基于强化学习的音视频柔性传输装置,包括有链路侧及端侧网络探测装置、音视频浏览端QOE评价模块、音视频编码与发送控制器及强化学习智能体。
链路侧及端侧网络探测装置,用于探测链路、发送端、接收端网络情况参数,包括链路探测装置、交换机探针、发送端探测装置及接收端探测装置;链路探测装置及交换机探针探测的网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP;发送端探测装置探测的参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况;接收端探测装置探测的参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率;
音视频浏览端QOE评价模块,用于对视频浏览质量进行评价以产生正、负反馈训练强化学习网络模型,评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况;
音视频编码与发送控制器,用于对音视频编码数据进行调整和控制,控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器及RTP分包打包处理器;
强化学习智能体,将链路侧与端侧网络探测装置探测的参数、音视频浏览端QOE评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型,以形成基本的强化学习智能体;而后,将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数,将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数,将音视频浏览端QOE评价模块评价的参数作为正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制,以持续优化强化学习智能体。
参照图1至图5,本发明的一种基于强化学习的音视频柔性传输方法,包括以下步骤:
步骤1,利用以往经验值训练强化学习网络智能体,具体训练方法包括以下步骤:
步骤1.1,在发送端及链路侧分别设置发送端探测装置、链路探测装置,获取发送端以及链路侧的如下参数:音视频包发送时序情况(是否按照编码时间戳的间隔进行发送)、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度及交换机排队深度,并将上述参数进行量化,量化的方法为:设定对应标准,并按照匹配百分比进行打分,完全匹配为10分,完全不匹配为0分;
在此,基于发送端以及链路侧的各网络参数根据公式(1)可对网络状况进行评价,评价方法为:
f(x)=k1*x1+k2*x2 2+k3*x3 2+k4*x4 2+k5*x5 3+k6*x6 3 (1);
其中,f(x)表示网络状况评分,评分越高网络状况越差;
X1:音视频包发送时序情况的量化值,即编码时间戳与发送时间戳的间隔情况是否匹配,该值描述了发送的抖动情况,由于发送抖动对于全网的影响不是很大,因此设定为一次线性关系;k1:音视频包发送时序情况对应的权值;
X2:发送缓冲区的排队深度的量化值,由于排队深度反映了网络拥塞和RTT状况,其对于网络的影响要大于X1,因此采用二次线性关系表述;k2:发送缓冲区的排队深度对应的权值;
X3:发送缓冲区丢包溢出情况的量化值,该参数与排队深度紧密相关,因此可以近似看做排队深度的线性关系,因此也采用二次线性关系表述;k3:发送缓冲区丢包益处情况对应的权值;
X4:网络时延RTT的量化值,该参数描述了一个网络包在链路上来回一次所消耗的时间,其对于网络的影响大致与X3相同,因此也采用二次线性关系表述;k4:网络时延RTT对应的权值;
X5:延迟梯度的量化值,表示网络延迟的变差情况,当该参数不为0时表明网络拥塞急剧增加,因此采用三次线性关系描述;k5:延迟梯度对应的权值;
X6:交换机排队深度的量化值,该参数值与X5具有相同的网络影响因子,因此也采用三次线性关系描述;k6:交换机排队深度对应的权值;
权值k1、k2、k3、k4、k5、k6默认为1,可根据网络实际情况动态设定。
步骤1.2,在接收端设置接收端探测装置,获取接收端的如下参数:音视频包接收时序情况(是否按照编码时间戳的间隔进行接收)、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率,并按照步骤1.1中的参数量化方法将上述参数进行量化;
步骤1.3,设置音视频编码与发送控制器,控制音视频编码与发送的如下参数:视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器、I帧间隔、发送去抖动、FEC(前向纠错)机制和ARQ(自动反馈重发)机制;
步骤1.4,设置视频质量QOE评价模块,对视频进行解码和渲染,并对图像质量进行识别及评价,支持人工或自动对图像质量进行识别并评价,评价的参数包括:图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况及雪花或马赛克情况,并为每个评价参数设置对应的权值,将上述指标按照一定的权值加权后进行量化打分,作为正负激励机制的正、负反馈,分数阈值区间设定为(-100,100);评价参数的对应权值可通过人工设定;
步骤1.5,开始训练强化学习智能体,改变步骤1.3中的音视频编码与发送参数,并基于不同的音视频编码与发送参数情况在固定链路进行发送,分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数,其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,根据不同情况下的状态和动作输入,训练强化学习网络模型,实现该强化学习决策过程中整体回报函数期望最优;训练过程中,可对音视频编码与发送实施一定的主体动作和辅助动作,其中主体动作包括改变编码参数和发送时序参数;辅助动作包括采用FEC机制、ARQ机制。
步骤2,利用步骤1训练的强化学习智能体,以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,获得正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送参数进行反馈控制,进行链路侧和发送端调优以及柔性传输,并可基于现实环境下的参数持续优化强化学习智能体。
实施例2
本实施例与实施例1的区别在于:发送端以及链路侧的网络参数包括音视频包发送时序情况(是否按照编码时间戳的间隔进行发送)、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度、带宽延迟积BDP及交换机排队深度;接收端的网络参数包括音视频包接收时序情况(是否按照编码时间戳的间隔进行接收)、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率;音视频编码与发送控制参数包括视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器、发送去抖动、FEC(前向纠错)机制和ARQ(自动反馈重发)机制;视频质量评价参数包括图像丢包情况、图像卡顿情况、图像跳帧情况及音视频时序匹配情况。视频质量QOE评价模块自动对图像质量进行识别并评价,不支持人工评价。
上述仅为本发明的两个具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种基于强化学习的音视频柔性传输装置,其特征在于,包括有:
链路侧及端侧网络探测装置,用于探测链路、发送端、接收端网络情况参数,包括链路探测装置、交换机探针、发送端探测装置及接收端探测装置;链路探测装置及交换机探针探测的网络参数包括网络时延RTT、延迟梯度、交换机排队深度、带宽延迟积BDP;发送端探测装置探测的参数包括发送缓冲区的排队深度、音视频包发送时序情况、发送缓冲区丢包溢出情况;接收端探测装置探测的参数包括接收缓冲区排队情况、音视频包接收时序情况、接收缓冲区溢出情况、RTP丢包率;
音视频浏览端QOE评价模块,用于对视频浏览质量进行评价以产生正、负反馈训练强化学习网络模型,评价的参数包括图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况;
音视频编码与发送控制器,用于对音视频编码数据进行调整和控制,控制的参数包括视频编码格式、编码帧率、分辨率、编码码率、发送时序控制器、发送同步控制器;
强化学习智能体,将链路侧与端侧网络探测装置探测的参数、音视频浏览端QOE评价模块评价的参数、和音视频编码与发送控制器控制的参数的以往经验值作为输入参数训练强化学习网络模型,以形成基本的强化学习智能体;而后,将链路侧与端侧网络探测装置及网络探针探测的参数作为网络训练输入参数,将音视频编码与发送控制器的音视频编码和发送策略对应的控制参数作为网络训练输入参数,将音视频浏览端QOE评价模块评价的参数作为正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送控制参数进行反馈控制,以持续优化强化学习智能体。
2.如权利要求1所述的一种基于强化学习的音视频柔性传输装置,其特征在于,所述音视频编码与发送控制器控制RTP分包打包处理器,并将RTP分包打包处理器的发送策略参数作为输入参数训练强化学习智能体。
3.一种基于强化学习的音视频柔性传输方法,其特征在于,包括以下步骤:
步骤1,利用以往经验值训练强化学习网络智能体,具体训练方法包括以下步骤:
步骤1.1,在发送端及链路侧分别设置发送端探测装置、链路探测装置,获取发送端以及链路侧的如下参数:音视频包发送时序情况、发送缓冲区的排队深度、发送缓冲区丢包溢出情况、网络时延RTT、延迟梯度及交换机排队深度,并将上述参数进行量化;
步骤1.2,在接收端设置接收端探测装置,获取接收端的如下参数:音视频包接收时序情况、接收缓冲区排队深度、接收缓冲区溢出情况及RTP丢包率,并将上述参数进行量化;
步骤1.3,设置音视频编码与发送控制器,控制音视频编码与发送的如下参数:视频编码格式、编码帧率、编码码率、分辨率、发送同步控制器、发送时序控制器;
步骤1.4,设置视频质量QOE评价模块,对视频进行解码和渲染,并对图像质量进行识别及评价,评价的参数包括:图像丢包情况、图像卡顿情况、图像跳帧情况、音视频时序匹配情况,并为每个评价参数设置对应的权值,将上述指标按照一定的权值加权后进行量化打分,作为正负激励机制的正、负反馈;
步骤1.5,开始训练强化学习智能体,改变步骤1.3中的音视频编码与发送参数,并基于不同的音视频编码与发送参数情况在固定链路进行发送,分别检测步骤1.1中发送端以及链路侧的网络参数、步骤1.2中接收端的网络参数、步骤1.4中的视频质量评价参数,其中以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,根据不同情况下的状态和动作输入,训练强化学习网络模型,实现该强化学习决策过程中整体回报函数期望最优;
步骤2,利用步骤1训练的强化学习智能体,以步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数为状态输入,以步骤1.3中输入的音视频编码与发送参数为动作输入,以步骤1.4中输入的视频质量评价参数为回报函数,获得正、负反馈打分评价标准和奖励值,并输出针对音视频编码与发送控制器的编码与发送参数进行反馈控制,进行链路侧和发送端调优以及柔性传输,并可基于现实环境下的参数持续优化强化学习智能体。
4.如权利要求3所述的一种基于强化学习的音视频柔性传输方法,其特征在于,对步骤1.1中发送端以及链路侧的网络参数和步骤1.2中接收端的网络参数进行量化的方法为:设定对应标准,并按照匹配百分比进行打分,完全匹配为满分,完全不匹配为0分。
5.如权利要求3所述的一种基于强化学习的音视频柔性传输方法,其特征在于,步骤1.4中,评价参数的对应权值可通过人工设定。
6.如权利要求3所述的一种基于强化学习的音视频柔性传输方法,其特征在于,所述视频质量QOE评价模块的评价参数还包括雪花或马赛克情况。
7.如权利要求3所述的一种基于强化学习的音视频柔性传输方法,其特征在于,所述音视频编码与发送控制器控制的音视频编码与发送参数还包括I帧间隔及发送去抖动。
8.如权利要求3或7所述的一种基于强化学习的音视频柔性传输方法,其特征在于,所述音视频编码与发送控制器控制的音视频编码与发送参数还包括采用前向纠错机制和采用自动反馈重发机制。
9.如权利要求3所述的一种基于强化学习的音视频柔性传输方法,其特征在于,可基于步骤1.1中发送端以及链路侧的各网络参数根据公式(1)对网络状况进行评价,评价方法为:
f(x)=k1*x1+k2*x2 2+k3*x3 2+k4*x4 2+k5*x5 3+k6*x6 3 (1);
其中,f(x)表示网络状况评分,评分越高网络状况越差;
X1:音视频包发送时序情况的量化值,k1:音视频包发送时序情况对应的权值;
X2:发送缓冲区的排队深度的量化值,k2:发送缓冲区的排队深度对应的权值;
X3:发送缓冲区丢包溢出情况的量化值,k3:发送缓冲区丢包益处情况对应的权值;
X4:网络时延RTT的量化值,k4:网络时延RTT对应的权值;
X5:延迟梯度的量化值,k5:延迟梯度对应的权值;
X6:交换机排队深度的量化值,k6:交换机排队深度对应的权值;
权值k1、k2、k3、k4、k5、k6可根据网络实际情况动态设定。
10.如权利要求3或5所述的一种基于强化学习的音视频柔性传输方法,其特征在于,步骤1.4中,视频质量QOE评价模块支持人工或自动对图像质量进行识别并评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110897677.XA CN113473190B (zh) | 2021-08-05 | 2021-08-05 | 一种基于强化学习的音视频柔性传输装置及传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110897677.XA CN113473190B (zh) | 2021-08-05 | 2021-08-05 | 一种基于强化学习的音视频柔性传输装置及传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113473190A true CN113473190A (zh) | 2021-10-01 |
CN113473190B CN113473190B (zh) | 2022-06-28 |
Family
ID=77884146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110897677.XA Active CN113473190B (zh) | 2021-08-05 | 2021-08-05 | 一种基于强化学习的音视频柔性传输装置及传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113473190B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115086667A (zh) * | 2022-07-26 | 2022-09-20 | 香港中文大学(深圳) | 一种基于自适应学习的实时视频传输方法 |
CN117636900A (zh) * | 2023-12-04 | 2024-03-01 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102802089A (zh) * | 2012-09-13 | 2012-11-28 | 浙江大学 | 一种基于体验质量预测的移动视频码率调整方法 |
CN103888846A (zh) * | 2014-03-04 | 2014-06-25 | 浙江大学 | 基于QoE的无线视频流业务自适应速率控制方法 |
US20140241419A1 (en) * | 2013-02-28 | 2014-08-28 | Google Inc. | Multi-stream optimization |
CN105828069A (zh) * | 2016-04-06 | 2016-08-03 | 上海交通大学 | 一种基于主观质量评估的编码器自适应调整方法 |
CN110324621A (zh) * | 2019-07-04 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 视频编码方法、装置、电子设备和存储介质 |
US20200322694A1 (en) * | 2019-04-08 | 2020-10-08 | Spirent Communications, Inc. | Training an encrypted video stream network scoring system with non-reference video scores |
-
2021
- 2021-08-05 CN CN202110897677.XA patent/CN113473190B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102802089A (zh) * | 2012-09-13 | 2012-11-28 | 浙江大学 | 一种基于体验质量预测的移动视频码率调整方法 |
US20140241419A1 (en) * | 2013-02-28 | 2014-08-28 | Google Inc. | Multi-stream optimization |
CN103888846A (zh) * | 2014-03-04 | 2014-06-25 | 浙江大学 | 基于QoE的无线视频流业务自适应速率控制方法 |
CN105828069A (zh) * | 2016-04-06 | 2016-08-03 | 上海交通大学 | 一种基于主观质量评估的编码器自适应调整方法 |
US20200322694A1 (en) * | 2019-04-08 | 2020-10-08 | Spirent Communications, Inc. | Training an encrypted video stream network scoring system with non-reference video scores |
CN110324621A (zh) * | 2019-07-04 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 视频编码方法、装置、电子设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115086667A (zh) * | 2022-07-26 | 2022-09-20 | 香港中文大学(深圳) | 一种基于自适应学习的实时视频传输方法 |
CN115086667B (zh) * | 2022-07-26 | 2022-11-18 | 香港中文大学(深圳) | 一种基于自适应学习的实时视频传输方法 |
CN117636900A (zh) * | 2023-12-04 | 2024-03-01 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
CN117636900B (zh) * | 2023-12-04 | 2024-05-07 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113473190B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113473190B (zh) | 一种基于强化学习的音视频柔性传输装置及传输方法 | |
CN101909060B (zh) | 一种适用于移动视频实时流媒体传输的Qos控制方法 | |
EP2255535B1 (en) | Device and method for adaptation of target rate of video signals | |
US11363346B2 (en) | Video service quality assessment method and apparatus | |
US9736548B2 (en) | Multipath rate adaptation | |
KR101122143B1 (ko) | 수신기 버퍼 아키텍처를 나타내는 버퍼 파라미터의 시그널링 | |
CN102231898A (zh) | 一种网络带宽自适应qos传输的方法、系统和终端设备 | |
CN106416179A (zh) | 实现扩展传输控制功能的传输加速器 | |
CN102130886B (zh) | 网络视频流媒体系统及传输处理方法、发送端 | |
CN105263066A (zh) | 移动设备视频流传输控制方法及系统 | |
EP2562979B1 (en) | Method of adapting the data rate during transmission of variable bit-rate data streams | |
CN206908759U (zh) | 一种视频组播丢包重传系统 | |
CN110113662B (zh) | 一种适应多种网络状况的视频监控客户端系统 | |
CN102868666A (zh) | 基于用户体验交互的流媒体质量监测报告的实现方法 | |
CN101699867A (zh) | 一种视频数据传输速率动态调整方法 | |
CN114401253B (zh) | 一种基于WebRTC的模拟网络中视频传输方法 | |
CN110012363B (zh) | 一种基于sip协议的视频聊天系统 | |
Li et al. | Reinforcement learning based cross-layer congestion control for real-time communication | |
KR100851918B1 (ko) | 네트워크 적응형 데이터 전송 방법, 이를 위한 데이터 전송시스템, 데이터 송신 장치, 및 데이터 수신 장치 | |
CN115086667B (zh) | 一种基于自适应学习的实时视频传输方法 | |
JP2005033556A (ja) | データ送信装置、データ送信方法、データ受信装置、データ受信方法 | |
CN113612649B (zh) | 往返估计 | |
Chen et al. | Study on relationship between network video packet loss and video quality | |
Huszák et al. | Source controlled and delay sensitive selective retransmission scheme for multimedia streaming | |
Zhu et al. | Research on adaptive transmission of H. 264 video stream and QoS guarantee based on SIP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |