CN113724182A - 基于扩张卷积与注意力机制的无参考视频质量评价方法 - Google Patents
基于扩张卷积与注意力机制的无参考视频质量评价方法 Download PDFInfo
- Publication number
- CN113724182A CN113724182A CN202010438728.8A CN202010438728A CN113724182A CN 113724182 A CN113724182 A CN 113724182A CN 202010438728 A CN202010438728 A CN 202010438728A CN 113724182 A CN113724182 A CN 113724182A
- Authority
- CN
- China
- Prior art keywords
- video
- attention mechanism
- layer
- distorted
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Abstract
本发明提供基于扩张卷积与注意力机制的无参考视频质量评价方法,以下步骤:步骤S1:把失真视频转为帧图像,并将少于500帧的视频扩充至500帧;步骤S2:帧图像不重叠分割成a×a像素的帧图像块,将500帧图像同位置图像块拼接成a×500a像素大小的失真视频块;步骤S3:搭建加入扩张卷积层与注意力机制层的网络模型并进行训练,网络的输入为失真视频块,输出为该视频块对应视频的质量分数;步骤S4:将训练好的模型保存,输入为失真视频视频块,输出为该视频块质量分数。本发明无需手工提取特征,采用扩张卷积提升所得特征图分辨率,结合注意力机制突出重要特征,方法简单且预测分数准确。
Description
技术领域
本发明主要涉及图像处理领域,尤其涉及基于扩张卷积与注意力机制结合的无参考视频质量评价方法。
背景技术
在压缩、传输、存储等过程中,视频不可避免的会产生一些失真。视频在压缩过程中产生的压缩失真,传输过程中产生的丢包失真等都会对最终用户的观看体验产生影响,因此设计一个准确且有效的视频质量评价方法显得尤为重要。
视频质量评价方法通常分为主观质量评价和客观质量评价。主观视频质量评价由人为观测视频主观给出质量分数,费时费力。该方法费时费力,因此研究人员通常采用客观视频质量评价。通常情况下,失真视频所对应的参考视频难以获取,增加了视频质量评价的难度。大多数方法是利用卷积神经网络和循环神经网络提取失真视频的空域和时域特征进行无参考视频质量评价方法研究。然而传统的卷积网络通常通过连续的池化操作或其他的下采样层来整合多尺度的上下文信息,这种方式会损失分辨率。
发明内容
针对现有技术的上述缺陷,本发明提供一种基于扩张卷积与注意力机制的无参考视频质量评价方法,包括以下步骤:
步骤S1:把失真视频转为帧图像,并将少于500帧的视频扩充至500帧;
步骤S2:帧图像不重叠分割成48×48像素的帧图像块,将500帧图像同位置图像块拼接成48×24000像素大小的失真视频块;
步骤S3:搭建加入扩张卷积层与注意力机制层的网络模型并进行训练,网络的输入为失真视频块,输出为该视频块对应视频的质量分数;
网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。
标准卷积层采用3×3大小的卷积核;
扩张卷积层按层数顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、 16、8、4、2;
池化层采用最大池化;
注意力层参数设置为512个;
全连接层单元个数设置为1。
模型参数初始化设置如下:
损失函数为均方误差(mse),如公式(1)所示;
扩张卷积层采用激活函数为修正线性单元(Relu),如公式(2)所示;
全连接层后使用sigmoid函数作为激活函数,如公式(3)所示;
注意力模型注意力计算公式如式(4)、式(5)、式(6)所示。
式(2)中,x代表神经元的输入。
式(3)中,x代表神经元的输入。
mi=tanh(wihi+b) (4)
式(4)、(5)、(6)中,wi为第i个特征向量的权重,b为偏置参数,mi为第i个特征向量的状态向量hi所决定的能量值,ai为注意力权重矩阵,L为从扩张卷积层中输出的每个序列的特征数。
表1网络详细参数
步骤S4:将训练好的模型保存。输入为失真视频视频块,输出为该视频块质量分数。
本发明无需手工提取特征,采用扩张卷积提升所得特征图分辨率,结合注意力机制突出重要特征,方法简单且预测分数准确。
附图说明
图1为本发明的流程图;
图2为本发明的网络结构图。
具体实施方式
下面结合附图和实施例进一步对本发明加以说明。
如图1-2所示:一种基于扩张卷积与注意力机制的无参考视频质量评价方法,关键步骤如下:
步骤S1:把失真视频转为帧图像,并将少于500帧的视频扩充至500帧;
步骤S2:帧图像不重叠分割成48×48像素的帧图像块,将500帧图像同位置图像块拼接成48×24000像素大小的失真视频块;
步骤S3:搭建加入扩张卷积层与注意力机制层的网络模型并进行训练,网络的输入为失真视频块,输出为该视频块对应视频的质量分数;
网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。标准卷积层采用3×3大小的卷积核,扩张卷积层按顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、16、8、4、2。池化层采用最大池化,注意力层参数设置为512个,全连接层单元个数设置为1。模型参数初始化设置如下:损失函数为均方误差(mse),如公式(1)所示。扩张卷积层采用激活函数为修正线性单元(Relu),如公式(2)所示,全连接层后使用sigmoid函数作为激活函数,如公式(3)所示。注意力模型注意力计算公式如式(4)、式(5)、式(6)所示。
式(2)中,x代表神经元的输入。
式(3)中,x代表神经元的输入。
mi=tanh(wihi+b) (4)
式(4)、(5)、(6)中,wi为第i个特征向量的权重,b为偏置参数,mi为第i个特征向量的状态向量hi所决定的能量值,ai为注意力权重矩阵,L为从扩张卷积层中输出的每个序列的特征数。
表1网络详细参数
步骤S4:将训练好的模型保存,输入为失真视频视频块,输出为该视频块质量分数。
为验证本发明方法的优越性,本方法在LIVE视频数据库、IVP、CSIQ三个视频数据库上进行了实验。LIVE视频数据库共有150个失真视频、IVP视频数据库共有128个失真视频、CSIQ共有216个失真视频。在各个视频库上分别进行实验,最终实验结果显示在表2中。从表中可以看出,本发明提出的方法在三个视频数据库上质量预测效果非常好。
表2在LIVE、IVP、CSIQ数据库中SROCC和PLCC相关性
模型 | 数据库 | SROCC | PLCC |
本方法 | LIVE | 0.8961 | 0.9420 |
本方法 | IVP | 0.8677 | 0.8748 |
本方法 | CSIQ | 0.8933 | 0.9266 |
Claims (7)
1.基于扩张卷积与注意力机制的无参考视频质量评价方法,其特征在于,包括以下步骤:
步骤S1:把失真视频转为帧图像,并将少于500帧的视频扩充至500帧;
步骤S2:帧图像不重叠分割成a×a像素的帧图像块,将500帧图像同位置图像块拼接成a×500a像素大小的失真视频块;
步骤S3:搭建加入扩张卷积层与注意力机制层的网络模型并进行训练,网络的输入为失真视频块,输出为该视频块对应视频的质量分数;
步骤S4:将训练好的模型保存,输入为失真视频视频块,输出为该视频块质量分数。
2.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:在所述步骤S3中,网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。
3.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:在所述步骤S3中,标准卷积层采用3×3大小的卷积核,扩张卷积层按顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、16、8、4、2,池化层采用最大池化,注意力层参数设置为512个,全连接层单元个数设置为1。
4.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:在所述步骤S3中,模型参数初始化设置为损失函数为均方误差mse,扩张卷积层采用的激活函数为修正线性单元Relu,全连接层使用sigmoid函数作为激活函数。
5.根据权利要求1所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:在所述步骤S4中,视频的预测质量分数为该视频对应的所有的视频块质量分数的均值。
6.根据权利要求1所述的基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:所述步骤S1中像素块像素大小为48*48。
7.根据权利要求1所述的基于扩张卷积与注意力机制结合的无参考视频质量评价方法,其特征在于:所述步骤S1中拼接后的失真视频块像素大小为48*24000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010438728.8A CN113724182A (zh) | 2020-05-21 | 2020-05-21 | 基于扩张卷积与注意力机制的无参考视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010438728.8A CN113724182A (zh) | 2020-05-21 | 2020-05-21 | 基于扩张卷积与注意力机制的无参考视频质量评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113724182A true CN113724182A (zh) | 2021-11-30 |
Family
ID=78671418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010438728.8A Pending CN113724182A (zh) | 2020-05-21 | 2020-05-21 | 基于扩张卷积与注意力机制的无参考视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724182A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101557516A (zh) * | 2008-04-09 | 2009-10-14 | 北京中创信测科技股份有限公司 | 视频质量评估方法及装置 |
CN102158729A (zh) * | 2011-05-05 | 2011-08-17 | 西北工业大学 | 无参考的视频序列编码质量客观评价方法 |
CN102883179A (zh) * | 2011-07-12 | 2013-01-16 | 中国科学院计算技术研究所 | 一种视频质量客观评价方法 |
CN104243970A (zh) * | 2013-11-14 | 2014-12-24 | 同济大学 | 基于立体视觉注意力机制和结构相似度的3d绘制图像的客观质量评价方法 |
CN104796690A (zh) * | 2015-04-17 | 2015-07-22 | 浙江理工大学 | 一种基于人脑记忆模型的无参考视频质量评价方法 |
CN107959848A (zh) * | 2017-12-08 | 2018-04-24 | 天津大学 | 基于三维卷积神经网络的通用型无参考视频质量评价算法 |
CN108235003A (zh) * | 2018-03-19 | 2018-06-29 | 天津大学 | 基于3d卷积神经网络的立体视频质量评价方法 |
CN111047515A (zh) * | 2019-12-29 | 2020-04-21 | 兰州理工大学 | 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法 |
-
2020
- 2020-05-21 CN CN202010438728.8A patent/CN113724182A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101557516A (zh) * | 2008-04-09 | 2009-10-14 | 北京中创信测科技股份有限公司 | 视频质量评估方法及装置 |
CN102158729A (zh) * | 2011-05-05 | 2011-08-17 | 西北工业大学 | 无参考的视频序列编码质量客观评价方法 |
CN102883179A (zh) * | 2011-07-12 | 2013-01-16 | 中国科学院计算技术研究所 | 一种视频质量客观评价方法 |
CN104243970A (zh) * | 2013-11-14 | 2014-12-24 | 同济大学 | 基于立体视觉注意力机制和结构相似度的3d绘制图像的客观质量评价方法 |
CN104796690A (zh) * | 2015-04-17 | 2015-07-22 | 浙江理工大学 | 一种基于人脑记忆模型的无参考视频质量评价方法 |
CN107959848A (zh) * | 2017-12-08 | 2018-04-24 | 天津大学 | 基于三维卷积神经网络的通用型无参考视频质量评价算法 |
CN108235003A (zh) * | 2018-03-19 | 2018-06-29 | 天津大学 | 基于3d卷积神经网络的立体视频质量评价方法 |
CN111047515A (zh) * | 2019-12-29 | 2020-04-21 | 兰州理工大学 | 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596902B (zh) | 基于选通卷积神经网络的多任务全参考图像质量评价方法 | |
CN112801877B (zh) | 一种视频帧的超分辨率重构方法 | |
CN111260560B (zh) | 一种融合注意力机制的多帧视频超分辨率方法 | |
CN107633520A (zh) | 一种基于深度残差网络的超分辨率图像质量评估方法 | |
CN106911930A (zh) | 一种基于递归卷积神经网络进行压缩感知视频重建的方法 | |
CN112291570B (zh) | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 | |
CN112954312A (zh) | 一种融合时空特征的无参考视频质量评估方法 | |
CN110136057B (zh) | 一种图像超分辨率重建方法、装置及电子设备 | |
CN107959848A (zh) | 基于三维卷积神经网络的通用型无参考视频质量评价算法 | |
CN106097278B (zh) | 一种多维信号的稀疏模型、重建方法和字典训练方法 | |
CN111583152B (zh) | 基于U-net结构的图像伪影检测与自动去除方法 | |
CN112634238B (zh) | 一种基于注意力模块的图像质量评价方法 | |
CN110717895A (zh) | 基于置信分数的无参考图像质量评价方法 | |
Jang et al. | Dual path denoising network for real photographic noise | |
CN109819256B (zh) | 基于特征感知的视频压缩感知方法 | |
CN114926883A (zh) | 一种满足多种降质模型的人脸图像处理方法 | |
CN110930314B (zh) | 图像条带噪声抑制方法及其装置、电子设备、存储介质 | |
CN113724182A (zh) | 基于扩张卷积与注意力机制的无参考视频质量评价方法 | |
CN110807369B (zh) | 基于深度学习和注意力机制的短视频内容智能分类方法 | |
Li et al. | Full-reference and no-reference quality assessment for compressed user-generated content videos | |
CN114915777A (zh) | 一种基于深度强化学习的无参考超高清视频质量客观评价方法 | |
CN111915506B (zh) | 一种序列图像条带噪声消除方法 | |
CN114359180A (zh) | 一种面向虚拟现实的图像质量评价方法 | |
CN112950592A (zh) | 基于高维离散余弦变换的无参考光场图像质量评价方法 | |
CN112016456A (zh) | 基于自适应反向投影深度学习的视频超分辨率方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |