CN110913207B - 一种基于多任务深度学习的视频传输质量评价方法 - Google Patents
一种基于多任务深度学习的视频传输质量评价方法 Download PDFInfo
- Publication number
- CN110913207B CN110913207B CN201911218538.9A CN201911218538A CN110913207B CN 110913207 B CN110913207 B CN 110913207B CN 201911218538 A CN201911218538 A CN 201911218538A CN 110913207 B CN110913207 B CN 110913207B
- Authority
- CN
- China
- Prior art keywords
- task
- quality evaluation
- detecting
- image
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明公开了一种基于多任务深度学习的视频传输质量评价方法,该方法包括:构建多任务深度学习网络,用于完成目标识别、图像分类、图像质量评价任务,实现检测视频传输过程中的时延与卡顿等时域指标,检测传输画面失真类型、传输画面质量分数等空域指标;利用目标识别任务识别发送端、接收端视频帧中的频标并校验,根据频标检测出时延与卡顿等指标;利用目标识别任务定位接收端视频帧,并用图像分类任务检测传输画面失真类型,用图像质量评价任务检测传输画面质量分数;完成对网络的训练,得到训练模型,实际部署后可检测视频传输时延与卡顿,并在有延迟情况下检测传输画面失真类型与传输画面质量分数。
Description
技术领域
本发明涉及视频质量评价,尤其涉及一种基于多任务深度学习的视频传输质量评价方法。
背景技术
视频在传输过程中会因网络状况、信道质量、缓存、丢包、视频压缩、传输协议等种种原因产生接收端画面冻结、画面延迟、出现失真等情况,画面冻结会影响用户观看视频的体验,而在特定场景如实时视频通话中,画面延迟也需要尽量避免,而失真会影响用户使用体验和视频内容的可识别性,所以检测与评价视频传输中画面冻结、画面延迟、视频帧失真类型、视频帧质量就显得十分重要。现有的视频传输质量检测很多都只基于对图像质量来评价视频传输质量,而视频传输质量时域检测方面的技术研究多集中在丢包、丢帧与图像失真的联系,以及利用时域图像上下文判断画面冻结。前者无法完全体现视频传输在时域方面的画面冻结与画面延迟性能;而后者难以计算画面冻结时间与画面延迟时间。为此寻找一种能综合、准确、快速地评价视频传输时域质量与空域质量的方法具有重要现实意义。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于多任务深度学习的视频传输质量评价方法。
本发明的目的通过以下的技术方案来实现:
一种基于多任务深度学习的视频传输质量评价方法,包括:
A构建多任务深度学习网络,用于完成目标识别任务、图像分类任务与图像质量评价任务,实现检测视频传输过程中的时延与卡顿时域指标,检测传输画面失真类型、传输画面质量分数空域指标;
B利用目标识别任务识别发送端、接收端视频帧中的频标并校验,根据频标检测出时延与卡顿指标;
C利用目标识别任务定位接收端视频帧,并用图像分类任务检测传输画面失真类型,用图像质量评价任务检测传输画面质量分数;
D完成对网络的训练,得到训练模型,实际部署后检测视频传输时延与卡顿,并在有延迟情况下检测传输画面失真类型与传输画面质量分数。
与现有技术相比,本发明的有益效果是:
本发明提供的方法能综合、准确、快速地评价视频传输时域质量与空域质量。
附图说明
图1是一种基于多任务深度学习的视频传输质量评价方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,一种基于多任务深度学习的视频传输质量评价方法流程,包括以下步骤:
步骤10构建多任务深度学习网络,用于完成目标识别任务、图像分类任务与图像质量评价任务,实现检测视频传输过程中的时延与卡顿时域指标,检测传输画面失真类型、传输画面质量分数空域指标;
步骤20利用目标识别任务识别发送端、接收端视频帧中的频标并校验,根据频标检测出时延与卡顿指标;
步骤30利用目标识别任务定位接收端视频帧,并用图像分类任务检测传输画面失真类型,用图像质量评价任务检测传输画面质量分数;
步骤40完成对网络的训练,得到训练模型,实际部署后可检测视频传输时延与卡顿,并在有延迟情况下检测传输画面失真类型与传输画面质量分数。
上述步骤10具体包括:多任务深度学习网络包含3个任务,分别为目标识别任务、图像分类任务、图像质量评价任务,其中图像分类任务与图像质量评价任务使用孪生神经网络;3个任务的骨干网络均为ResNet,骨干网络也为3个任务的共享层,图像分类任务与图像质量评价任务共享层采用硬参数共享,目标识别任务与图像分类任务、图像质量评价任务共享层采用软参数共享,正则化项为两者共享层参数差值向量的L1范数。
上述步骤10具体包括:目标识别任务的骨干网络提取浅层特征,输出特征图为F0,通道数为256;后续深层特征提取网络结构由5个单元组成,每个单元先后包含两个卷积层:128个步长为1的1×1×256卷积核、256个步长为2的3×3×128卷积核,每个单元输出特征图为Fi(i=1,2,3,4,5);在Fi(i=0, 1,2,3,4,5)上使用FPN,结合anchor机制实现对不同尺度目标的识别。
上述步骤10具体包括:图像分类任务与图像质量评价任务基于视频传输接收端图像与其对应参考图像进行全参考失真分类与图像质量评价,其共享层采用孪生神经网络,输入分别为参考图像和接收端视频帧图像,记骨干网络输出特征图分别为Fref和Fdis,将特征图Fref和Fdis融合为Ffus。
上述步骤10具体包括:图像分类任务利用孪生神经网络提取到融合特征 Ffus,通道数为512,后续先后包含两个卷积层:256个步长为1的1×1×512 卷积核、512个步长为2的3×3×256卷积核,两个全连接层:尺寸分别为 1024与ncls,ncls为分类数量,经过Softmax激活函数得到每类的概率,对概率向量使用argmax函数得到所述类别。
上述步骤10具体包括:图像质量评价任务利用孪生神经网络提取到融合特征Ffus,后续由ncls个支路组成,每个支路先后包含两个卷积层:256个步长为1的1×1×512卷积核、512个步长为2的3×3×256卷积核,两个全连接层:尺寸分别为1024与1,根据权利要求5所述的图像分类任务结果,激活对应失真类型支路来计算图像质量评价分数。
上述步骤20具体包括:频标包含序列号和校验号,序列号用来定位视频帧,校验号用来校验识别是否出错,通过目标识别任务识别出发送端与接收端的序列号,根据两者差值除以视频帧率,即可算出时延;通过检测接收端同一序列号的维持时间并与阈值对比,即可判断有无卡顿及卡顿时长。
上述步骤30具体包括:通过目标识别任务识别接收端视频帧频标并查找到该帧图像在原视频中的参考图像,把参考图像和接收端图像作为权利要求 4~6所述网络输入,利用图像分类任务检测出传输画面失真类型、利用图像质量评价任务检测传输画面质量分数。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种基于多任务深度学习的视频传输质量评价方法,其特征在于,所述方法包括:
A 构建多任务深度学习网络;所述多任务深度学习网络包括目标识别任务、图像分类任务与图像质量评价任务;
B 对所述网络进行训练:利用目标识别任务识别发送端和接收端视频帧中的频标并校验,根据频标检测出传输时延与卡顿指标;
利用目标识别任务定位接收端视频帧,并用图像分类任务检测传输画面失真类型,用图像质量评价任务检测传输画面质量分数;
C基于训练好的多任务深度学习网络得到待评价视频的视频传输时延与卡顿指标,并在有传输时延的情况下检测传输画面失真类型与传输画面质量分数;
所述步骤A中,目标识别任务、图像分类任务与图像质量评价任务为深度学习网络包含的3个任务,其中图像分类任务与图像质量评价任务使用孪生神经网络;所述3个任务的骨干网络均为ResNet,图像分类任务与图像质量评价任务的共享层采用硬参数共享,目标识别任务与图像分类任务和图像质量评价任务的共享层采用软参数共享,所述骨干网络为3个任务的共享层;
所述步骤B中,频标包含序列号和校验号,序列号用来定位视频帧,校验号用来校验识别是否出错,通过目标识别任务识别出发送端与接收端视频帧中的频标的序列号,根据两者差值除以视频帧率,即可算出传输时延;通过检测接收端视频帧中同一序列号的维持时间并与阈值对比,即可判断有无卡顿及卡顿时长。
2.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法,其特征在于,所述目标识别任务的骨干网络包括浅层特征提取网络结构和深层特征提取网络结构,其中,所述浅层特征提取网络结构提取浅层特征,输出特征图为F0,通道数为256;后续的所述深层特征提取网络结构由5个单元组成,每个单元先后包含两个卷积层:其中一个卷积层有128个步长为1的1×1×256卷积核、另一个卷积层有256个步长为2的3×3×128卷积核;每个单元输出特征图为F i ,其中i=1, 2, 3, 4, 5;在F i 上使用特征金字塔网络(FPN),结合anchor机制实现对不同尺度目标的识别。
3.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法,其特征在于,所述图像质量评价任务,基于接收端视频帧与其对应的参考图像进行全参考图像质量评价,所述图像分类任务与图像质量评价任务的共享层采用孪生神经网络,所述孪生神经网络输入分别为参考图像和接收端视频帧,记所述图像分类任务与图像质量评价任务的骨干网络输出特征图分别为Fref和Fdis,将特征图Fref和Fdis融合为Ffus。
4.如权利要求3所述的基于多任务深度学习的视频传输质量评价方法,其特征在于,所述图像分类任务通过孪生神经网络提取到融合特征Ffus,通道数为512,在所述孪生神经网络之后还包含两个卷积层和两个全连接层:所述两个卷积层即 256个步长为1的1×1×512卷积核和512个步长为2的3×3×256卷积核,所述两个全连接层即尺寸分别为1024与n cls,n cls为图像分类任务涉及的传输画面失真类型的数量,经过Softmax激活函数得到每个传输画面失真类型的概率,对概率向量使用argmax函数得到传输画面失真类型。
5.如权利要求3所述的基于多任务深度学习的视频传输质量评价方法,其特征在于,所述图像质量评价任务通过孪生神经网络提取到融合特征Ffus,在所述孪生神经网络之后还包括n cls个支路,ncls为图像分类任务涉及的传输画面失真类型的数量,每个支路先后包含两个卷积层和两个全连接层:所述两个卷积层即256个步长为1的1×1×512卷积核和512个步长为2的3×3×256卷积核,所述两个全连接层的尺寸分别为1024与1,并根据图像分类任务的结果激活对应失真类型支路来计算图像质量评价分数。
6.如权利要求1所述的基于多任务深度学习的视频传输质量评价方法,其特征在于,所述利用目标识别任务定位接收端视频帧,并用图像分类任务检测传输画面失真类型,用图像质量评价任务检测传输画面质量分数中,通过目标识别任务识别接收端视频帧中的频标并查找到该视频帧在原视频中的参考图像,把参考图像和接收端视频帧作为图像分类任务与图像质量评价任务的网络输入,并利用图像分类任务检测出传输画面失真类型、利用图像质量评价任务检测传输画面质量分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911218538.9A CN110913207B (zh) | 2019-12-03 | 2019-12-03 | 一种基于多任务深度学习的视频传输质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911218538.9A CN110913207B (zh) | 2019-12-03 | 2019-12-03 | 一种基于多任务深度学习的视频传输质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110913207A CN110913207A (zh) | 2020-03-24 |
CN110913207B true CN110913207B (zh) | 2021-07-13 |
Family
ID=69821491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911218538.9A Active CN110913207B (zh) | 2019-12-03 | 2019-12-03 | 一种基于多任务深度学习的视频传输质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110913207B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382846B (zh) * | 2020-05-28 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 基于迁移学习的训练神经网络模型的方法和装置 |
CN111813532B (zh) * | 2020-09-04 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 一种基于多任务机器学习模型的图像管理方法及装置 |
CN112785585B (zh) * | 2021-02-03 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100789A (zh) * | 2015-07-22 | 2015-11-25 | 天津科技大学 | 一种视频质量评价方法 |
CN105451016A (zh) * | 2015-12-07 | 2016-03-30 | 天津大学 | 一种适用于视频监控系统的无参考视频质量评价方法 |
CN109215028A (zh) * | 2018-11-06 | 2019-01-15 | 福州大学 | 一种基于卷积神经网络的多目标优化图像质量评估方法 |
CN110324613A (zh) * | 2019-07-30 | 2019-10-11 | 华南理工大学 | 一种面向视频传输质量的深度学习图像评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106028026B (zh) * | 2016-05-27 | 2017-09-05 | 宁波大学 | 一种基于时空域结构的高效视频质量客观评价方法 |
-
2019
- 2019-12-03 CN CN201911218538.9A patent/CN110913207B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100789A (zh) * | 2015-07-22 | 2015-11-25 | 天津科技大学 | 一种视频质量评价方法 |
CN105451016A (zh) * | 2015-12-07 | 2016-03-30 | 天津大学 | 一种适用于视频监控系统的无参考视频质量评价方法 |
CN109215028A (zh) * | 2018-11-06 | 2019-01-15 | 福州大学 | 一种基于卷积神经网络的多目标优化图像质量评估方法 |
CN110324613A (zh) * | 2019-07-30 | 2019-10-11 | 华南理工大学 | 一种面向视频传输质量的深度学习图像评价方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的智能驾驶目标及可行驶区域检测研究;王政军;《中国优秀硕士学位论文全文数据库(工程科技Ⅱ辑)》;20191115(第11期);C035-135 * |
Also Published As
Publication number | Publication date |
---|---|
CN110913207A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110913207B (zh) | 一种基于多任务深度学习的视频传输质量评价方法 | |
Ying et al. | Patch-vq:'patching up'the video quality problem | |
WO2020221278A1 (zh) | 视频分类方法及其模型的训练方法、装置和电子设备 | |
Yuan et al. | Temporal action localization by structured maximal sums | |
CN112464807A (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN110942009A (zh) | 基于时空混合卷积网络的跌倒检测方法与系统 | |
CN109767422A (zh) | 基于深度学习的管道检测识别方法、存储介质及机器人 | |
US20200019816A1 (en) | Classification method and classification device of indoor scene | |
CN111709371B (zh) | 基于人工智能的分类方法、装置、服务器和存储介质 | |
CN111369548B (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN111582116A (zh) | 一种视频抹除痕迹检测方法、装置、设备和存储介质 | |
CN111985281A (zh) | 图像生成模型的生成方法、装置及图像生成方法、装置 | |
CN107862258A (zh) | 视频中文本内容的校验方法、装置、设备及存储介质 | |
CN112668410B (zh) | 分拣行为检测方法、系统、电子装置和存储介质 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
WO2021103474A1 (zh) | 图像的处理方法和装置、存储介质及电子装置 | |
CN112288700A (zh) | 一种铁轨缺陷检测方法 | |
CN108446688B (zh) | 人脸图像性别判断方法、装置、计算机设备及存储介质 | |
CN115311111A (zh) | 课堂参与度评价方法及系统 | |
CN114943923A (zh) | 基于深度学习的视频识别炮弹爆炸火光烟雾方法及系统 | |
CN111083469A (zh) | 一种视频质量确定方法、装置、电子设备及可读存储介质 | |
CN113627504B (zh) | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 | |
WO2022205329A1 (zh) | 对象检测方法、对象检测装置及对象检测系统 | |
CN107465914A (zh) | 基于局部纹理特征和全局亮度特征的视频质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |