CN112311690B

CN112311690B - 一种基于ai的拥塞控制方法、装置、设备和介质

Info

Publication number: CN112311690B
Application number: CN202011021516.6A
Authority: CN
Inventors: 陈荣观; 刘硕; 陈玉龙; 王颖; 戴立陈
Original assignee: Fujian Xingwang Intelligent Technology Co ltd
Current assignee: Fujian Xingwang Intelligent Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-12-06
Anticipated expiration: 2040-09-25
Also published as: CN112311690A

Abstract

本发明提供一种基于AI的拥塞控制方法、装置设备和介质，方法包括：网络状态特征提取器根据特征处理器的状态特征空间提取网络状态，计算得到网络状态的特征属性值，音视频状态特征提取器提取音视频状态的特征属性值并通过奖励计算器计算得到奖励值；AI码率估计器通过奖励值以及网络状态的特征属性值计算得到码率估计值；接收端或发送端根据码率估计值进行调整，能够有效利用多种维度的网络特征数据，更准确的预测当前带宽值，实现及时有效的拥塞控制效果。

Description

一种基于AI的拥塞控制方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，特别涉及一种基于AI的拥塞控制方法、装置、设备和介质。

背景技术

拥塞控制是视频会议领域的研究热点，网络拥塞会导致时延增大，丢包率上升，从而造成音视频时延增大甚至卡顿，影响用户体验。拥塞控制是视频会议质量保证的一种重要手段，它能够减小网络延迟，缓解网络拥塞。当前拥塞控制方案很多，如GCC拥塞控制算法、Sendside-BWE算法等。

现有拥塞控制算法大都使用一套相对固定的规则应用于所有用户，且参考的网络特征较少，但不同用户的网络状况往往存在差异，因此相对固定的拥塞控制算法难以保证所有用户都拥有较好的体验。

发明内容

本发明要解决的技术问题，在于提供一种基于AI的拥塞控制方法、装置设备和介质，能够有效利用多种维度的网络特征数据，更准确的预测当前带宽值，实现及时有效的拥塞控制效果。

第一方面，本发明提供了一种基于AI的拥塞控制方法，包括：网络状态特征提取器、音视频状态特征提取器、特征处理器、奖励计算器以及AI码率估计器；

所述网络状态特征提取器：用于提取体现网络状态的特征属性值；

所述音视频状态特征提取器：用于提取体现音视频状态的特征属性值；

所述特征处理器：根据输入的特征值，通过计算得到对应特征值的至少一个维度的信息，所述信息用于扩充特征值的维度，所述信息与输入的特征值共同组成状态特征空间；

所述奖励计算器：根据音视频状态，计算上次动作的奖励值，所述奖励值用于调整AI码率估计器的参数；

所述AI码率估计器：根据网络状态，估算当前带宽值，通过奖励值来调整估算带宽值算法的参数；

具体包括如下步骤：

步骤1、网络状态特征提取器根据特征处理器的状态特征空间提取网络状态，计算得到网络状态的特征属性值，

步骤2、音视频状态特征提取器提取音视频状态的特征属性值并通过奖励计算器计算得到奖励值；

步骤3、AI码率估计器通过奖励值以及网络状态的特征属性值计算得到码率估计值；

步骤4、接收端或发送端根据码率估计值进行调整。

进一步地，所述网络状态包括接收端网络状态以及发送端网络状态；

所述接收端网络状态：

接收端网络状态S_rk由接收码率状态RB_k、丢包状态L_k及相对时延状态D_k组成，S_rk＝(RB_k,L_k,D_k)；

使用二元组<μ_rbk,σ_rbk>定义接收码率RB_k，μ_rbk表示接收码率平均值，σ_rbk表示接收码率在周期内的标准差；第k个周期内的接收码率用{rb₁,rb₂,…,rb_n}表示，则μ_rbk和σ_rbk的计算公式如下：

丢包率状态

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

其中，Receive_packet为接收端接收报文数量，Max_sequence_num是本阶段最大传输层序列号，根据rtp报文中的扩展字段得到，Last_max_sequence_num为上阶段最大传输层序列号；传输层序列号不区分rtp报文种类，无论是正常报文还是重传报文，每发送一个rtp包，传输层序列号都会加1；

用三元组<μ_lk,σ_lk,ω_lk>定义丢包状态L_k，μ_lk表示丢包率平均值，σ_lk表示丢包率标准差，ω_lk表示丢包率的变化趋势；若第k个周期内的丢包率用{l₁,l₂,…,l_n}表示，l_n表示第n个丢包率状态值，每个丢包率对应的采样顺序用{x₁,x₂,…,x_n}表示，则认为存在线性函数f(x_i)，f(x_i)＝ω_lkx_i+b，使得f(x_i)≈l_i；

利用最小二乘法求解ω_lk和b使得

最小化，得到

相对时延状态用来判别网络状态；第i个rtp报文在网络中的传输时延T_i，公式为T_i＝R_i-S_i；其中R_i是接收时间，S_i是发送时间；发送时间通过rtp扩展字段获取；

两个包之间的相对时延D_i为D_i＝T_i-T_i-1；

用三元组<μ_dk,σ_dk,ω_dk>定义相对时延状态D_k，μ_dk表示相对时延均值，σ_dk表示相对时延标准差，ω_dk表示相对时延的变化趋势；其计算方式和丢包率状态计算方式相同；

所述发送端网络状态：

发送端通过rtcp报文信息以及本端收集并计算的信息得知网络状态；所述rtcp报文信息包括：丢包率、RTT、接收端请求码率；所述本端收集并计算的信息包括：发送码率、发送码率与接收码率的差值；以此作为发送端网络环境状态S_sk；S_sk＝(QB_k,DB_k,L_k,RTT_k)；

其中QB_k为接收端请求码率状态，DB_k为发送码率均值和请求码率的差值，L_k为丢包率状态，RTT_k为RTT状态；对这4个状态值均用三元组<μ_k,δ_k,ω_k>表示；RTT的计算公式为：RTT＝A-DLSR-LSR；

其中，A为收到RR报文的时间，DLSR为接收端收到SR报文到发送RR报文的间隔时间，LSR为上次发送SR报文时间，RTT即为rtcp报文在网络中的往返时间。

进一步地，所述奖励计算器包括接收端奖励以及发送方奖励；

奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

其中，SB为发送码率，L为丢包率，DB为发送码率的差值，RB为接收码率，L为丢包率，D为延时时间，w_r1和w_r2表示接收端奖励计算的两个参数，w_r1为丢包率的权重系数，w_r2为时延的权重系数；w_s1和w_s2表示发送端奖励计算的两个参数，w_s1表示丢包率的权重系数，w_s2表示发送码率变化值的权重系数。

第二方面，本发明提供了一种基于AI的拥塞控制装置，包括：网络状态特征提取器、音视频状态特征提取器、特征处理器、奖励计算器以及AI码率估计器；

具体包括如下模块：

提取网络状态模块，网络状态特征提取器根据特征处理器的状态特征空间提取网络状态，计算得到网络状态的特征属性值，

提取音视频状态模块，音视频状态特征提取器提取音视频状态的特征属性值并通过奖励计算器计算得到奖励值；

码率估计值模块，AI码率估计器通过奖励值以及网络状态的特征属性值计算得到码率估计值；

调整模块，接收端或发送端根据码率估计值进行调整。

所述接收端网络状态：

丢包率状态

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

利用最小二乘法求解ω_lk和b使得

最小化，得到

两个包之间的相对时延D_i为D_i＝T_i-T_i-1；

所述发送端网络状态：

奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法、装置、设备和介质，可用于服务器、中间设备、终端，实现成本低、网络特征值利用充分、适应网络情形广，能够更准确的预测当前带宽值。。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明接收端自适应码率调节流程；

图2为本发明发送端自适应码率调节流程；

图3为本发明实施例一中方法中的流程图；

图4为本发明实施例二中装置的结构示意图。

具体实施方式

本申请实施例通过提供一种基于AI的拥塞控制方法、装置设备和介质，解决了网络卡的问题；能够有效利用多种维度的网络特征数据，更准确的预测当前带宽值，实现及时有效的拥塞控制效果。

本申请实施例中的技术方案，总体思路如下：

本文提出了一种适用于视频会议的基于AI的码率自适应算法，视频会议按方向分为发送端和接收端，本文提出的算法针对发送端和接收端分别了少许调整，以适应两端的环境差异。两端在算法上相对独立，在使用时，即可以单独使用其中一端的算法，又可以两端配合使用。

如图1、图2所示，接收端和发送端根据接收到的rtp/rtcp报文，提取系统状态并估算出带宽值。更具体的，码率自适应模块包含5个部分，分别是：

网络状态特征提取器：用于提取能够体现网络状态的特征属性值

音视频状态特征提取器：用于提取能够体现音视频状态的特征属性值

特征处理器：根据输入的特征值，通过计算得到对应特征值的更多维度信息，用于扩充特征值的维度，与输入的特征值共同组成状态特征空间。

奖励计算器：根据音视频状态，计算上次动作的奖励值，用于调整AI码率估计器的参数。

AI码率估计器：根据网络状态，估算当前带宽值，能够通过奖励值来调整估算带宽值算法的参数。

通过图1和图2可以看出接收端算法和发送端算法的不同点：

接收端依据rtp报文提取相应特征，发送端依据rtcp报文提取相应特征。

接收端估算出码率值后，通过rtcp报文反馈给发送端。发送端估算出码率值后，将码率值传递给编码器。

接收端和发送端均采用增强学习，但两端的状态特征不同。

该算法分为两个阶段：

训练阶段，首先预先训练接收端的算法参数，发送端依据接收端估计的带宽值调节发送码率。之后训练发送端的算法参数，此时接收端估计的带宽值作为输入特征。

实用阶段，在通话过程中，系统收集特征值组成网络状态，并根据当前网络状态选择最佳带宽估计值。

在接收端训练阶段，状态提取器提取接收码率、丢包率、时延作为网络状态s，在此网络状态下，选择动作a，并探测执行a之后的视频状态，根据音视频状态给出奖励r，r会影响s状态下动作的选择。音视频状态可由时延、丢包率、接收码率、卡顿时间、码率变化幅度表示。

在发送端训练阶段，状态提取器提取发送码率、接收端请求码率、丢包率、rtt共同表示网络状态，丢包率、发送码率、发送码率变化幅度共同表示视频状态。

接收端学习算法对应流程如下，大致分为3步：

提取网络状态。接收码率可由序列集合RB{rb₁,rb₂,…,rb_n}表示，计算该周期内的接收码率平均值和方差，标识接收码率状态。丢包率可由序列集合L{l₁,l₂,…,l_n}表示，计算周期内丢包率的平均值、方差和趋势，标识丢包状态。时延可由序列集合D{d₁,d₂,…,d_n}表示，计算相对时延及相平均值、方差和趋势，表示时延状态。

选择动作。动作选择模块以网络状态作为输入，输出当前网络状态下的下一步动作。选择动作的算法参数会根据奖励进行调整。

调整动作选择参数；

最终保留各种网络状态下的算法参数，实用阶段能够直接根据网络状态输出最佳动作。

发送端学习算法流程和接收端一样，但网络状态选取的特征不同。当两端都使用码率自适应算法时，接收端请求的码率作为发送端网络状态的一个特征，处理方式是取发送码率的平均值与请求码率的差值。

接收端网络环境建模：

接收端网络状态S_rk由接收码率状态RB_k、丢包状态L_k及相对时延状态D_k组成，定义如公式所示：S_rk＝(RB_k,L_k,D_k)；

接收码率状态：

丢包率状态：

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

其中，Receive_packet为接收端接收报文数量，Max_sequence_num是本阶段最大传输层序列号，根据rtp报文中的扩展字段得到，Last_max_sequence_num为上阶段最大传输层序列号；传输层序列号不区分rtp报文种类，无论是正常报文还是重传报文，每发送一个rtp包，传输层序列号都会加1，这种算法能够计算网络真正的丢包率。

利用最小二乘法求解ω_lk和b使得

最小化，得到

相对时延状态:

包间相对时延也能体现网络状态。它是基于链路上的路由器都有一定的缓存，在数据包开始被丢弃前，先发生数据在缓存里堆积的事件，所以时延也能够用来判别网络状态。

第i个rtp报文在网络中的传输时延T_i，公式为T_i＝R_i-S_i；其中R_i是接收时间，S_i是发送时间；发送时间通过rtp扩展字段获取；

两个包之间的相对时延D_i为D_i＝T_i-T_i-1；

发送端网络环境建模：

其中QB_k为接收端请求码率状态，DB_k为发送码率均值和请求码率的差值，L_k为丢包率状态，RTT_k为RTT状态；对这4个状态值均用三元组<μ_k,δ_k,ω_k>表示。

RTT的计算公式为：RTT＝A-DLSR-LSR；

动作建模：

码率估计值空间比较大，因此可以使用倍率关系来定位，倍率取值范围为[0.5,1.5]，最小增量为0.05，因此动作空间为一维空间，取值为[-10,10]。

奖励建模：

接收端奖励建模：

人们总是期望能够体验更高的画质，因此视频接收码率作为奖励依据。与此同时，丢包和时延会使人们的体验变差，因此，用丢包率和时延作为惩罚依据。

所述奖励计算器包括接收端奖励以及发送方奖励；

奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端奖励了建模：

发送端的奖励reward的计算公式为

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

实施例一

如图3所示，本实施例提供本发明提供了一种基于AI的拥塞控制算法，包括：网络状态特征提取器、音视频状态特征提取器、特征处理器、奖励计算器以及AI码率估计器；

所述特征处理器：根据输入的特征值，通过计算得到对应特征值的至少一个维度的信息，所述信息用于扩充特征值的维度，所述信息与输入的特征值共同组成状态特征空间；例如特征值为丢包率时，可以根据丢包率序列，计算得到丢包率方差、趋势等更多维度的信息，所述维度的信息指丢包率方差或者趋势等。

具体包括如下步骤：

步骤4、接收端或发送端根据码率估计值进行调整。

所述网络状态包括接收端网络状态以及发送端网络状态；

所述接收端网络状态：

丢包率状态

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

利用最小二乘法求解ω_lk和b使得

最小化，得到

两个包之间的相对时延D_i为D_i＝T_i-T_i-1；

所述发送端网络状态：

其中QB_k为接收端请求码率状态，DB_k为发送码率均值和请求码率的差值，L_k为丢包率状态，RTT_k为RTT状态；对这4个状态值均用三元组<μ_k,δ_k,ω_k>表示(这个与上文计算丢包率的三元组一样，都是均值、方差、趋势，计算公式是一样的)；RTT的计算公式为：RTT＝A-DLSR-LSR；

所述奖励计算器包括接收端奖励以及发送方奖励；

奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

如图4所示，在本实施例中提供了第二方面，本发明提供了一种基于AI的拥塞控制装置，包括：网络状态特征提取器、音视频状态特征提取器、特征处理器、奖励计算器以及AI码率估计器；

具体包括如下模块：

调整模块，接收端或发送端根据码率估计值进行调整。

所述网络状态包括接收端网络状态以及发送端网络状态；

所述接收端网络状态：

丢包率状态

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

用三元组<μ_lk,σ_lk,ω_lk>定义丢包状态L_k，μ_lk表示丢包率平均值，σ_lk表示丢包率标准差，ω_lk表示丢包率的变化趋势；若第k个周期内的丢包率用{l₁,l₂,…,l_n}表示，l_n表示第n个丢包率状态值，每个丢包率对应的采样顺序用{x₁,x₂,…,x_n}表示，则认为存在线性函数f(x_i)，f(x_i)＝ω_lkx_i+b，使得f(x_i)≈l_i；这个公式的意思是线性函数函数f(x_i)的输入是x_i,参数是ω和b，输出值是f(x_i)，目的是使f(x_i)的值尽量与真正丢包率l_i的值相近。这里只要提到f(x_i)约等于l_i就行了。

利用最小二乘法求解ω_lk和b使得

最小化，得到

两个包之间的相对时延D_i为D_i＝T_i-T_i-1；

所述发送端网络状态：

所述奖励计算器包括接收端奖励以及发送方奖励；

奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：本申请实施例提供的方法、装置设备及介质，

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于AI的拥塞控制方法，其特征在于：包括：网络状态特征提取器、音视频状态特征提取器、特征处理器、奖励计算器以及AI码率估计器；

具体包括如下步骤：

步骤1、网络状态特征提取器根据特征处理器的状态特征空间提取网络状态，计算得到网络状态的特征属性值；

所述奖励计算器包括接收端奖励以及发送端奖励；

接收端奖励reward的计算公式为：R_ri＝RB-w_r1×L-w_r2×D；

发送端的奖励reward的计算公式为:R_si＝SB-w_s1×L-w_s2×D；

其中，SB为发送码率，L为丢包率，DB为发送码率的差值，RB为接收码率，L为丢包率，D为延时时间，w_r1和w_r2表示接收端奖励计算的两个参数，w_r1为丢包率的权重系数，w_r2为时延的权重系数；w_s1和w_s2表示发送端奖励计算的两个参数，w_s1表示丢包率的权重系数，w_s2表示发送码率变化值的权重系数；

步骤4、接收端或发送端根据码率估计值进行调整。

2.根据权利要求1所述的一种基于AI的拥塞控制方法，其特征在于：所述网络状态包括接收端网络状态以及发送端网络状态；

所述接收端网络状态：

丢包率状态

Packet_loss＝Expect_packet-Receive_packet

Expect_packet＝Max_sequence_num-Last_max_sequence_num

其中，Function_loss表示丢包率状态值，Receive_packet为接收端接收报文数量，Max_sequence_num是本阶段最大传输层序列号，根据rtp报文中的扩展字段得到，Last_max_sequence_num为上阶段最大传输层序列号，Packet_loss为丢包个数，Expect_packet表示应到包个数，Receive_packet表示实际收到包个数；传输层序列号不区分rtp报文种类，无论是正常报文还是重传报文，每发送一个rtp包，传输层序列号都会加1；