CN110324613A

CN110324613A - 一种面向视频传输质量的深度学习图像评价方法

Info

Publication number: CN110324613A
Application number: CN201910693050.5A
Authority: CN
Inventors: 刘桂雄; 蒋晨杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-10-11
Anticipated expiration: 2039-07-30
Also published as: CN110324613B

Abstract

本发明公开了一种面向视频传输质量的深度学习图像评价方法，该方法包括：构造用于评价图像质量的孪生神经网络来提取特征，并对于目标图像块特征图、参考图像块特征图进行特征融合，设计出图像质量评价分数计算方法与损失函数来更新网络参数；设置孪生神经网络训练超参数，包括学习率、学习衰减率、最大训练步数、学习率衰减步数、批训练量、训练图像尺寸、单张图像采样量、数据集(训练集、验证集、测试集)分配等；设计出目标图像与参考图像的图像区域分割与块选择方案。

Description

一种面向视频传输质量的深度学习图像评价方法

技术领域

本发明涉及图像质量评价领域，尤其涉及一种基于深度学习的图像质量评价方法。

背景技术

视频图像在传输过程中会因种种原因对最后的传输质量产生较大影响，所以对于图像传输质量的正确评价就显得很重要。现有的图像质量评价技术很多都是依赖人类视觉系统或自然图像统计的计算模型，甚至是人工评价。前者评价分数与人眼主观平均意见分数相关度有时相对较低，容易出现判断不一致的情况；而后者则效率很低，长时间工作容易出现疲劳误差，影响判断准确性，为此寻找一种能高效、准确、智能地评价视频图像传输质量的方法具有重要现实意义。

发明内容

为解决上述技术问题，本发明的目的是提供一种面向视频传输质量的深度学习图像评价方法。

本发明的目的通过以下的技术方案来实现：

一种面向视频传输质量的深度学习图像评价方法，包括：

A构造一对用于评价图像质量的结构相同、权重共享的孪生神经网络，孪生神经网络两端输入尺寸分别为X×Y×3的目标图像块和参考图像块，输出特征图像，对特征图像进行特征融合，回归得到评价分数，根据损失函数及数据标签与评价分数，更新网络参数；

B设置孪生神经网络训练超参数，包括学习率Learning_Rate、学习衰减率Decay_Rate、最大训练步数Max_Steps、学习率衰减步数Decay_Step、批训练量Batch_Size、训练图像尺寸M×N×3、单张图像采样量Sample_num、与数据集的设置；所述数据集包括训练集、验证集与测试集；

C目标图像与参考图像分割成m×n块尺寸符合孪生神经网络输入的目标图像块与参考图像块，并按照横向每k_m个图像块取1个、纵向每k_n个图像块取1个的方式对目标图像与参考图像降采样；

D完成神经网络训练，得到训练模型，实际部署后即可实时评价视频流输入的目标图像质量。

与现有技术相比，本发明具有如下优点：

能高效、准确、智能地评价视频图像传输质量的方法具有重要现实意义。

附图说明

图1是面向视频传输质量的深度学习图像评价方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为面向视频传输质量的深度学习图像评价方法流程，包括以下步骤：

步骤10构造一对用于评价图像质量的结构相同、权重共享的孪生神经网络，孪生神经网络两端输入分别为尺寸为X×Y×3的目标图像块和参考图像块，输出为特征图像，之后对特征图像进行特征融合，回归得到评价分数，根据损失函数和数据标签、评价分数，更新网络参数；

步骤20设置孪生神经网络训练超参数，包括学习率Learning_Rate、学习衰减率Decay_Rate、最大训练步数Max_Steps、学习率衰减步数Decay_Step、批训练量Batch_Size、训练图像尺寸M×N×3、单张图像采样量Sample_num、数据集(训练集、验证集、测试集)设置等；

步骤30目标图像与参考图像分割成m×n块尺寸符合孪生神经网络输入的目标图像与参考图像块，并按照横向每k_m个图像块取1个、纵向每k_n个图像块取1个的方式对目标图像与参考图像降采样；

步骤40完成神经网络训练，得到训练模型，实际部署后即可实时评价视频流输入的目标图像质量；

上述步骤10具体包括：图像块尺寸为64×64×3，孪生神经网络由卷积层、池化层、特征融合、全连接层组成。卷积层采用激活函数为ReLu函数，卷积核大小均为3×3，每次卷积前对特征图像进行边界填充，第1个卷积层输出16张特征图像，每2次卷积输出特征图像进行1次池化、下次卷积输出数量乘2，总共进行12次卷积操作。池化层采用最大池化，池化核大小为2×2，步长为2×2。假设参考图像池化后特征图像为I_reference、目标图像池化后特征图像为I_target，两者尺寸为1×1×512×Sample_num，将I_reference-I_target得I_difference，对三者按第二维度进行数据合并得到尺寸为1×3×512×Sample_num的I_feature，完成特征融合。全连接层包含两层，第一层输入为大小3×512×Sample_num，输出大小为512×Sample_num；第二层输入大小为512×Sample_num，输出大小为Sample_num。

上述步骤10具体包括：通过孪生神经网络生成目标图像块的质量分数q、权重w、偏置b，并对权重归一化得到w′：

计算偏置平均值得到b′：

由此计算出目标图像质量评价分数为：

上述步骤10具体包括：数据集中目标图像质量标签为Q，单次训练包含Batch_size次图像质量评价，单次训练评价分数和标签向量分别和Q，则其损失函数Loss为：

单次训练结束后根据损失函数，利用随机梯度下降算法更新孪生神经网络的参数。

上述步骤20具体包括：Learning_Rate设置为0.001，Decay_Step设置为1000步，Decay_Rate设置为0.9每Decay_Step，Max_Steps设置为200000步，Batch_Size设置为10，训练图像尺寸为512×384×3，由于图像块尺寸为64×64×3，故可分成8×6个小图像块，再按每行2个取一个，每列2个取1个方式，故Sample_num设置为4×3＝12块，训练集、验证集、测试集按照数据集60％，20％，20％比例随机抽取组成。

上述步骤30具体包括：每行、每列图像块数量m，n计算方法为：

其中div为相除取整，mod为相除取余。

用P_i,j表示第i行、第j列个图像块，I_l:r,u:d,:表示图像I_reference或I_target上第l行至第r行，第u列至第d列之间的区域，则P_i, _j 为：

上述步骤30具体包括：根据m、n、k_m、k_n，可以计算出Sample_num：

Sample_num＝(m divk_m)×(n divk_n)

选取的图像块为：

P_i,j if1≤i≤n,1≤j≤m,(i-1)modk_n＝0,(j-1)modk_m＝0。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种面向视频传输质量的深度学习图像评价方法，其特征在于，所述方法包括：

2.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤A中，目标图像块与参考图像块尺寸分别为64×64×3；所述孪生神经网络由卷积层、池化层、特征融合、全连接层组成；所述卷积层采用激活函数为ReLu函数，卷积核大小均为3×3；所述池化层采用最大池化，池化核大小为2×2，步长为2×2；所述全连接层包含两层，第一层输入为大小3×512×Sample_num，输出大小为512×Sample_num；第二层输入大小为512×Sample_num，输出大小为Sample_num。

3.如权利要求2所述的面向视频传输质量的深度学习图像评价方法，其特征在于，

所述卷积层中每次卷积前对特征图像进行边界填充，第1个卷积层输出16张特征图像，每2次卷积输出特征图像进行1次池化、下次卷积输出数量乘2，总共进行12次卷积操作；

所述池化层中假设参考图像池化后特征图像为I_reference、目标图像池化后特征图像为I_target，两者尺寸为1×1×512×Sample_num，将I_reference-I_target得I_difference，对三者按第二维度进行数据合并得到尺寸为1×3×512×Sample_num的I_feature，完成特征融合。

4.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤A中，通过孪生神经网络生成目标图像块的质量分数q、权重w、偏置b，并对权重归一化得到w′：

计算偏置平均值得到b′：

由此计算出目标图像质量评价分数为：

5.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤A中，数据集中目标图像质量标签为Q，单次训练包含Batch_size次图像质量评价，单次训练评价分数和标签向量分别和Q，则其损失函数Loss为：

6.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤B中，Learning_Rate设置为0.001，Decay_Step设置为1000步，Decay_Rate设置为0.9每Decay_Step，Max_Steps设置为200000步，Batch_Size设置为10，训练图像尺寸为512×384×3，由于图像块尺寸为64×64×3，故可分成8×6个小图像块，再按每行2个取一个，每列2个取1个方式，故Sample_num设置为4×3＝12块，训练集、验证集、测试集按照数据集60％，20％，20％比例随机抽取组成。

7.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤C中，每行、每列图像块数量m，n计算方法为：

其中div为相除取整，mod为相除取余；

用P_i,j表示第i行、第j列个图像块，I_l:r,u:d,:表示图像I_reference或I_target上第l行至第r行，第u列至第d列之间的区域，则P_i,j为：

8.如权利要求1所述的面向视频传输质量的深度学习图像评价方法，其特征在于，所述步骤B、C中，根据m、n、k_m、k_n，可计算出Sample_num：

Sample_num＝(m div k_m)×(n div k_n)

选取的图像块为：

P_i,j if1≤i≤n,1≤j≤m,(i-1)mod k_n＝0,(j-1)mod k_m＝0。