CN109120924B

CN109120924B - 一种实时视频通信的质量评价方法

Info

Publication number: CN109120924B
Application number: CN201811277982.3A
Authority: CN
Inventors: 钱晓炯
Original assignee: Juphoon Corp
Current assignee: Juphoon Corp
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-06-02
Anticipated expiration: 2038-10-30
Also published as: CN109120924A

Abstract

本发明涉及一种实时视频通信的质量评价方法，其特征在于：首先建立一个质量模型，该质量模型的输出参数为质量评价值，MOS＝TMOS^a*SMOS^b，a和b为预设权重系数；在实时视频通话过程中，在实时视频通信的接收端计算时间质量值TMOS；在实时视频通信的发送端计算SMOS；将得到的时间质量值TMOS和空间质量值SMOS输入质量模型中，计算得到实时视频通话过程中的质量评价值MOS。与现有技术相比，本发明的优点在于：提供了一个整合在实时视频通话过程的实时计算流程，实现对实时视频通话的质量的准确评价，需要额外的计算量和网络资源非常少，相比视频通话的计算和网络资源增加不到1％。

Description

一种实时视频通信的质量评价方法

技术领域

本发明涉及一种实时视频通信的质量评价方法。

背景技术

随着科学技术的高速发展，视频作为视觉信息的主要载体已经深入到人们生活的方方面面。再加上近年来通信领域的高速发展，人们在进行通信时不再停留于语言信号的传输，而是希望能够通过视频通信来获取更多的信息。在实时视频通信中，由于网络的带宽是有限的，因此目前没有一种靠谱的评价视频通话质量的自动化方法，能做到实时监控视频通话的端到端质量。

现有技术中，PSNR、SSIM等方法是针对图片的质量评价，而且需要原始图像做对照，不适合实时视频通话，实时视频通话将本地原始视频传给对端代价太大，失去实时通话的意义。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种能够准确的计算视频通话的质量的实时视频通信的质量评价方法，需要额外的计算量和网络资源均非常少。

本发明解决上述技术问题所采用的技术方案为：一种实时视频通信的质量评价方法，其特征在于：首先建立一个质量模型，该质量模型的输出参数为质量评价值，记为MOS，输入参数包括时间质量值和空间质量值，时间质量值记为TMOS，空间质量值记SMOS，质量模型的输出参数与输入参数之间的对应关系为：MOS＝TMOS^a*SMOS^b，a和b为预设权重系数；

在实时视频通话过程中，在实时视频通信的接收端，将实时视频通信中与时间相关的第一类参数输入到预先训练好的第一机器学习模型中，输出时间质量值TMOS；在实时视频通信的发送端，将实时视频通信中与空间相关的第二类参数输入到预先训练好的第二机器学习模型中，输出空间质量值SMOS；将得到的时间质量值TMOS和空间质量值SMOS输入质量模型中，计算得到实时视频通话过程中的质量评价值MOS。

作为改进，所述第一类参数包括以下参数中的一种或任意组合：接收视频图像的往返延迟RTT，渲染时间戳Timestamp，渲染帧率FPS和渲染卡顿率Stuck Rate；

所述第二类参数包括以下参数中的一种或任意组合：发送端实时视频图像的SSIM值，发送端实时视频图像的PSNR值，发送端实时视频图像的目标分辨率，发送端实时视频图像的当前编码分辨率，以及发送端编码量化参数QP。

再改进，第一机器学习模型为SVM机器学习模型或Fitting机器学习模型；第二机器学习模型为SVM机器学习模型或Fitting机器学习模型。

再改进，通过模拟网络的丢包、延迟、抖动，实时视频通信的接收端录制一定数量的视频，通过多人的主观质量打分，获取机器学习的第一监督数据；然后将第一类参数和第一监督数据输入到第一机器学习模型中进行训练，得到第一机器学习模型的模型参数。

再改进，在实时视频通信的发送端，选定不同时间和空间复杂度的视频源后，通过编码器编码输出不同码率和不同分辨率的视频保存起来；然后通过多人对这些视频进行主观打分，以生成第二监督数据；然后将第二类参数和第二监督数据输入到第二机器学习模型中进行训练，得到第二机器学习模型的模型参数。

再改进，a和b的默认取值0.6，a和b根据不同应用场景(流畅度优先或清晰度优先)可调节获得更高的主观质量评价的相关度。

与现有技术相比，本发明的优点在于：提供了一个整合在实时视频通话过程的实时计算流程，实现对实时视频通话的质量的准确评价，需要额外的计算量和网络资源非常少，相比视频通话的计算和网络资源增加不到1％。

附图说明

图1为本发明实施例中实时视频通信的质量评价方法流程框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1，本发明提供了一种实时视频通信的质量评价方法，在实时视频通信的接收端建立一个质量模型，该质量模型的输出参数为质量评价值，记为MOS，输入参数包括时间质量值和空间质量值，时间质量值记为TMOS，空间质量值记SMOS，质量模型的输出参数与输入参数之间的对应关系为：MOS＝TMOS^a*SMOS^b，a和b为预设权重系数，根据流畅优先或清晰优先原则调整大小，默认a和b的值均取0.6；

在实时视频通话过程中，在实时视频通信的接收端，将实时视频通信中与时间相关的第一类参数输入到预先训练好的第一机器学习模型中，输出时间质量值TMOS；在实时视频通信的发送端，将实时视频通信中与空间相关的第二类参数输入到预先训练好的第二机器学习模型中，输出空间质量值SMOS；将空间质量值SMOS通过网络传输给实时视频通信的接收端；在实时视频通信的接收端将得到的时间质量值TMOS和由发送端传输过来的空间质量值SMOS输入质量模型中，计算得到实时视频通话过程中的质量评价值MOS。

所述第一类参数包括以下参数中的一种或任意组合：接收视频图像的往返延迟RTT，渲染时间Timestamp，渲染帧率FPS和渲染卡顿率Stuck Rate；

第一机器学习模型为SVM机器学习模型或Fitting机器学习模型；第二机器学习模型为SVM机器学习模型或Fitting机器学习模型。

以下结合具体实现方式，对本发明的实现过程做详细说明：

[在实时视频通信的接收端计算TMOS]：

首先通过模拟网络的丢包、延迟、抖动，在实时视频通信的接收端录制一定数量的视频，通过多人的主观质量打分，获取机器学习的第一监督数据；此处需要模拟网络的各种情况，包括网络质量的优、良、中、差各种情形，同时需要提供不同时间和空间复杂度的视频源；

然后将第一类参数和第一监督数据输入到第一机器学习模型中进行训练，得到模型参数；其中，第一类参数包括接收视频图像的往返延迟RTT，渲染时间戳Timestamp，渲染帧率FPS和渲染卡顿率Stuck Rate；

对于需要比较精确的视频质量评估的场景(比如内部测试系统)，可用SVM机器学习模型训练；实际训练过程中，生成9000个视频及质量评价数据，对6000组数据的训练，对3000组数据进行测试验证，最终SVM模型输出的TMOS预测值跟实际值的PRCC达到0.93。对于现网需要实时计算的情况，通过数值拟合方式学习，设定以下公式，将6000组数据使用梯度下降法反复训练得到模型参数m3～m13，然后对3000组数据进行测试验证，最终输出TMOS的预测值跟实际值的PRCC达到0.86。

Fmos＝m5·F²+m6·F+m7

RTTmos＝m3·lnRTT+m4

Cmos＝m11·CSPM+m12

另外，与可以使用Fitting机器学习模型或神经网络机器学习模型进行训练，最终得到0.88的PRCC。

[在实时视频通信的发送端计算SMOS]

首先选定不同时间和空间复杂度的视频源后，通过编码器编码输出不同码率和不同分辨率的视频保存起来，这么做的原因是视频通信中，如果可用带宽不够，编码器需要以适应带宽的码率编码QP(通常是通过调整QP实现)，如果带宽实在太低，还需要先通过下采样降低编码分辨率，来适应带宽。需要注意编码器应该生成不同码率和分辨率的数据，并且对于下采样的视频，在解码回放时应该上采样恢复尺寸。通过多人对这些视频进行主观打分，以生成第二监督数据,实现实验过程中，生成了3000组数据。然后将第二类参数和第二监督数据输入到第二机器学习模型中进行训练，得到第二机器学习模型的模型参数；第二类参数包括发送端实时视频图像的SSIM值，发送端实时视频图像的PSNR值，发送端实时视频图像的目标分辨率，发送端实时视频图像的当前编码分辨率，以及发送端编码量化参数QP；

对于需要比较精确的视频质量评估的场景(比如内部测试系统)，可用SVM机器学习模型训练。

对于现网需要实时计算的情况，通过数值拟合方式学习，设定以下公式。

其中Smos图像清晰度算法3档速度(3选一)，第一种用公式(1)，通过QP预测PSNR’，然后代入公式(2)得到Smos，其准确度稍低但由于编码器本身就能输出当前帧的平均QP，计算延迟几乎为0；第二种通过编码器编码时输出PSNR，使用公式(2)预测得到Smos，PSNR计算量每帧约需要10ms，若干帧计算一次减少负载，第三种采用SSIM预测Smos，见公式(3)，其中下标i表示不同分辨率下的拟合公式的系数会有所不同，每帧约需要20ms(根据硬件和视频大小会有不同)，可以每秒算一到两次：

PSNR′＝n1·QP+n2+n3*rer，PSNR′～PSNR (1)

Smos＝L/(e^k*(a*psnr+b*rer+c)+d)+e (2)

实验表明，对于实时通话的视频样本，以上三种方法预测的空间MOS均能获取跟实际打分的MOS的PRCC值在0.94以上。

其中Rmos图像重采样质量影响计算公式为：

Remos＝(TargetRes/EncodeRes)ⁿ⁷，Remos∈(1，5)

根据对PSNR/SSIM的研究，两者各有优势，对于编码失真的质量评估性能为，PRCC能够达到0.94以上。同时通过对Remos的算法的简单拟合回归，其PRCC能够达到0.95以上。

[整合]

在视频通话过程中，发送端将空间质量SMOS发送给接收端，接收端可以计算出当前的时间质量TMOS，使用预先建立的质量模型，可最终计算得到MOS分：

MOS＝TMOS^a*SMOS^b。

Claims

1.一种实时视频通信的质量评价方法，其特征在于：首先建立一个质量模型，该质量模型的输出参数为质量评价值，记为MOS，输入参数包括时间质量值和空间质量值，时间质量值记为TMOS，空间质量值记SMOS，质量模型的输出参数与输入参数之间的对应关系为：MOS＝TMOS^a*SMOS^b，a和b为预设权重系数；

2.根据权利要求1所述的实时视频通信的质量评价方法，其特征在于：所述第一类参数包括以下参数中的一种或任意组合：接收视频图像的往返延迟RTT，渲染时间Timestamp，渲染帧率FPS和渲染卡顿率Stuck Rate；

3.根据权利要求1或2所述的实时视频通信的质量评价方法，其特征在于：第一机器学习模型为SVM机器学习模型或Fitting机器学习模型；第二机器学习模型为SVM机器学习模型或Fitting机器学习模型。

4.根据权利要求3所述的实时视频通信的质量评价方法，其特征在于：通过模拟网络的丢包、延迟、抖动，实时视频通信的接收端录制一定数量的视频，通过多人的主观质量打分，获取机器学习的第一监督数据；然后将第一类参数和第一监督数据输入到第一机器学习模型中进行训练，得到第一机器学习模型的模型参数。

5.根据权利要求3所述的实时视频通信的质量评价方法，其特征在于：在实时视频通信的发送端，选定不同时间和空间复杂度的视频源后，通过编码器编码输出不同码率和不同分辨率的视频保存起来；然后通过多人对这些视频进行主观打分，以生成第二监督数据；然后将第二类参数和第二监督数据输入到第二机器学习模型中进行训练，得到第二机器学习模型的模型参数。

6.根据权利要求1所述的实时视频通信的质量评价方法，其特征在于：a和b的值均取0.6。