CN110913207B

CN110913207B - 一种基于多任务深度学习的视频传输质量评价方法

Info

Publication number: CN110913207B
Application number: CN201911218538.9A
Authority: CN
Inventors: 刘桂雄; 蒋晨杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-07-13
Anticipated expiration: 2039-12-03
Also published as: CN110913207A

Abstract

本发明公开了一种基于多任务深度学习的视频传输质量评价方法，该方法包括：构建多任务深度学习网络，用于完成目标识别、图像分类、图像质量评价任务，实现检测视频传输过程中的时延与卡顿等时域指标，检测传输画面失真类型、传输画面质量分数等空域指标；利用目标识别任务识别发送端、接收端视频帧中的频标并校验，根据频标检测出时延与卡顿等指标；利用目标识别任务定位接收端视频帧，并用图像分类任务检测传输画面失真类型，用图像质量评价任务检测传输画面质量分数；完成对网络的训练，得到训练模型，实际部署后可检测视频传输时延与卡顿，并在有延迟情况下检测传输画面失真类型与传输画面质量分数。

Description

一种基于多任务深度学习的视频传输质量评价方法

技术领域

本发明涉及视频质量评价，尤其涉及一种基于多任务深度学习的视频传输质量评价方法。

背景技术

视频在传输过程中会因网络状况、信道质量、缓存、丢包、视频压缩、传输协议等种种原因产生接收端画面冻结、画面延迟、出现失真等情况，画面冻结会影响用户观看视频的体验，而在特定场景如实时视频通话中，画面延迟也需要尽量避免，而失真会影响用户使用体验和视频内容的可识别性，所以检测与评价视频传输中画面冻结、画面延迟、视频帧失真类型、视频帧质量就显得十分重要。现有的视频传输质量检测很多都只基于对图像质量来评价视频传输质量，而视频传输质量时域检测方面的技术研究多集中在丢包、丢帧与图像失真的联系，以及利用时域图像上下文判断画面冻结。前者无法完全体现视频传输在时域方面的画面冻结与画面延迟性能；而后者难以计算画面冻结时间与画面延迟时间。为此寻找一种能综合、准确、快速地评价视频传输时域质量与空域质量的方法具有重要现实意义。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于多任务深度学习的视频传输质量评价方法。

本发明的目的通过以下的技术方案来实现：

一种基于多任务深度学习的视频传输质量评价方法，包括：

A构建多任务深度学习网络，用于完成目标识别任务、图像分类任务与图像质量评价任务，实现检测视频传输过程中的时延与卡顿时域指标，检测传输画面失真类型、传输画面质量分数空域指标；

B利用目标识别任务识别发送端、接收端视频帧中的频标并校验，根据频标检测出时延与卡顿指标；

C利用目标识别任务定位接收端视频帧，并用图像分类任务检测传输画面失真类型，用图像质量评价任务检测传输画面质量分数；

D完成对网络的训练，得到训练模型，实际部署后检测视频传输时延与卡顿，并在有延迟情况下检测传输画面失真类型与传输画面质量分数。

与现有技术相比，本发明的有益效果是：

本发明提供的方法能综合、准确、快速地评价视频传输时域质量与空域质量。

附图说明

图1是一种基于多任务深度学习的视频传输质量评价方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，一种基于多任务深度学习的视频传输质量评价方法流程，包括以下步骤：

步骤10构建多任务深度学习网络，用于完成目标识别任务、图像分类任务与图像质量评价任务，实现检测视频传输过程中的时延与卡顿时域指标，检测传输画面失真类型、传输画面质量分数空域指标；

步骤20利用目标识别任务识别发送端、接收端视频帧中的频标并校验，根据频标检测出时延与卡顿指标；

步骤30利用目标识别任务定位接收端视频帧，并用图像分类任务检测传输画面失真类型，用图像质量评价任务检测传输画面质量分数；

步骤40完成对网络的训练，得到训练模型，实际部署后可检测视频传输时延与卡顿，并在有延迟情况下检测传输画面失真类型与传输画面质量分数。

上述步骤10具体包括：多任务深度学习网络包含3个任务，分别为目标识别任务、图像分类任务、图像质量评价任务，其中图像分类任务与图像质量评价任务使用孪生神经网络；3个任务的骨干网络均为ResNet，骨干网络也为3个任务的共享层，图像分类任务与图像质量评价任务共享层采用硬参数共享，目标识别任务与图像分类任务、图像质量评价任务共享层采用软参数共享，正则化项为两者共享层参数差值向量的L1范数。

上述步骤10具体包括：目标识别任务的骨干网络提取浅层特征，输出特征图为F₀，通道数为256；后续深层特征提取网络结构由5个单元组成，每个单元先后包含两个卷积层：128个步长为1的1×1×256卷积核、256个步长为2的3×3×128卷积核，每个单元输出特征图为F_i(i＝1,2,3,4,5)；在F_i(i＝0, 1,2,3,4,5)上使用FPN，结合anchor机制实现对不同尺度目标的识别。

上述步骤10具体包括：图像分类任务与图像质量评价任务基于视频传输接收端图像与其对应参考图像进行全参考失真分类与图像质量评价，其共享层采用孪生神经网络，输入分别为参考图像和接收端视频帧图像，记骨干网络输出特征图分别为F_ref和F_dis，将特征图F_ref和F_dis融合为F_fus。

上述步骤10具体包括：图像分类任务利用孪生神经网络提取到融合特征 F_fus，通道数为512，后续先后包含两个卷积层：256个步长为1的1×1×512 卷积核、512个步长为2的3×3×256卷积核，两个全连接层：尺寸分别为 1024与n_cls，n_cls为分类数量，经过Softmax激活函数得到每类的概率，对概率向量使用argmax函数得到所述类别。

上述步骤10具体包括：图像质量评价任务利用孪生神经网络提取到融合特征F_fus，后续由n_cls个支路组成，每个支路先后包含两个卷积层：256个步长为1的1×1×512卷积核、512个步长为2的3×3×256卷积核，两个全连接层：尺寸分别为1024与1，根据权利要求5所述的图像分类任务结果，激活对应失真类型支路来计算图像质量评价分数。

上述步骤20具体包括：频标包含序列号和校验号，序列号用来定位视频帧，校验号用来校验识别是否出错，通过目标识别任务识别出发送端与接收端的序列号，根据两者差值除以视频帧率，即可算出时延；通过检测接收端同一序列号的维持时间并与阈值对比，即可判断有无卡顿及卡顿时长。

上述步骤30具体包括：通过目标识别任务识别接收端视频帧频标并查找到该帧图像在原视频中的参考图像，把参考图像和接收端图像作为权利要求 4～6所述网络输入，利用图像分类任务检测出传输画面失真类型、利用图像质量评价任务检测传输画面质量分数。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于多任务深度学习的视频传输质量评价方法，其特征在于，所述方法包括：

A 构建多任务深度学习网络；所述多任务深度学习网络包括目标识别任务、图像分类任务与图像质量评价任务；

B 对所述网络进行训练：利用目标识别任务识别发送端和接收端视频帧中的频标并校验，根据频标检测出传输时延与卡顿指标；

利用目标识别任务定位接收端视频帧，并用图像分类任务检测传输画面失真类型，用图像质量评价任务检测传输画面质量分数；

C基于训练好的多任务深度学习网络得到待评价视频的视频传输时延与卡顿指标，并在有传输时延的情况下检测传输画面失真类型与传输画面质量分数；

所述步骤A中，目标识别任务、图像分类任务与图像质量评价任务为深度学习网络包含的3个任务，其中图像分类任务与图像质量评价任务使用孪生神经网络；所述3个任务的骨干网络均为ResNet，图像分类任务与图像质量评价任务的共享层采用硬参数共享，目标识别任务与图像分类任务和图像质量评价任务的共享层采用软参数共享，所述骨干网络为3个任务的共享层；

所述步骤B中，频标包含序列号和校验号，序列号用来定位视频帧，校验号用来校验识别是否出错，通过目标识别任务识别出发送端与接收端视频帧中的频标的序列号，根据两者差值除以视频帧率，即可算出传输时延；通过检测接收端视频帧中同一序列号的维持时间并与阈值对比，即可判断有无卡顿及卡顿时长。

2.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法，其特征在于，所述目标识别任务的骨干网络包括浅层特征提取网络结构和深层特征提取网络结构，其中，所述浅层特征提取网络结构提取浅层特征，输出特征图为F₀，通道数为256；后续的所述深层特征提取网络结构由5个单元组成，每个单元先后包含两个卷积层：其中一个卷积层有128个步长为1的1×1×256卷积核、另一个卷积层有256个步长为2的3×3×128卷积核；每个单元输出特征图为F_i，其中i=1, 2, 3, 4, 5；在F_i上使用特征金字塔网络（FPN），结合anchor机制实现对不同尺度目标的识别。

3.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法，其特征在于，所述图像质量评价任务，基于接收端视频帧与其对应的参考图像进行全参考图像质量评价，所述图像分类任务与图像质量评价任务的共享层采用孪生神经网络，所述孪生神经网络输入分别为参考图像和接收端视频帧，记所述图像分类任务与图像质量评价任务的骨干网络输出特征图分别为F_ref和F_dis，将特征图F_ref和F_dis融合为F_fus。

4.如权利要求3所述的基于多任务深度学习的视频传输质量评价方法，其特征在于，所述图像分类任务通过孪生神经网络提取到融合特征F_fus，通道数为512，在所述孪生神经网络之后还包含两个卷积层和两个全连接层：所述两个卷积层即 256个步长为1的1×1×512卷积核和512个步长为2的3×3×256卷积核，所述两个全连接层即尺寸分别为1024与n _cls，n _cls为图像分类任务涉及的传输画面失真类型的数量，经过Softmax激活函数得到每个传输画面失真类型的概率，对概率向量使用argmax函数得到传输画面失真类型。

5.如权利要求3所述的基于多任务深度学习的视频传输质量评价方法，其特征在于，所述图像质量评价任务通过孪生神经网络提取到融合特征F_fus，在所述孪生神经网络之后还包括n _cls个支路，n_cls为图像分类任务涉及的传输画面失真类型的数量，每个支路先后包含两个卷积层和两个全连接层：所述两个卷积层即256个步长为1的1×1×512卷积核和512个步长为2的3×3×256卷积核，所述两个全连接层的尺寸分别为1024与1，并根据图像分类任务的结果激活对应失真类型支路来计算图像质量评价分数。

6.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法，其特征在于，所述利用目标识别任务定位接收端视频帧，并用图像分类任务检测传输画面失真类型，用图像质量评价任务检测传输画面质量分数中，通过目标识别任务识别接收端视频帧中的频标并查找到该视频帧在原视频中的参考图像，把参考图像和接收端视频帧作为图像分类任务与图像质量评价任务的网络输入，并利用图像分类任务检测出传输画面失真类型、利用图像质量评价任务检测传输画面质量分数。