CN107481209B

CN107481209B - 一种基于卷积神经网络的图像或视频质量增强方法

Info

Publication number: CN107481209B
Application number: CN201710878189.8A
Authority: CN
Inventors: 徐迈; 杨韧; 王祖林
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-08-21
Filing date: 2017-09-26
Publication date: 2020-04-21
Anticipated expiration: 2037-09-26
Also published as: CN107481209A

Abstract

本发明公开了一种基于卷积神经网络的图像或视频质量增强方法，属于计算机视觉领域；首先设计两个用于视频质量增强的卷积神经网络，两个网络具有不同的计算复杂度；然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练；根据实际需要，选择一个计算复杂度较为合适的卷积神经网络，将质量待增强的图像或视频输入到选择的网络中；最后，该网络输出经过质量增强的图像或视频。本发明可以有效增强视频质量；用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。

Description

一种基于卷积神经网络的图像或视频质量增强方法

技术领域

本发明属于计算机视觉领域，具体是一种基于卷积神经网络的图像或视频质量增强方法。

背景技术

在计算机视觉领域，视频质量增强对提高视频(或图像)质量、改善视频(或图像)视觉效果的有重要影响；视频(或图像)质量增强一般是指提高质量受损的视频(或图像)的质量。在现在的通信系统中，信道带宽受限问题广泛存在，因此视频(或图像)传输需要经过压缩编码的过程，在此过程中，视频(或图像)质量会受到损失；同时，传输信道往往存在噪声，这也会导致经过信道传输后的视频(或图像)质量受损；因此，视频(或图像)质量增强成为了计算机视觉领域的一个关键问题。同时，在计算机视觉领域，越来越多的学术研究表明，卷积神经网络已经成为解决计算机视觉领域问题的一种十分有效的方法。

随着当下智能终端的多样化发展，越来越多的智能终端(智能手机，平板电脑，笔记本电脑，计算机等)进入到人们的生活。计算能力的不同导致各智能终端对视频(或图像)质量增强时的计算复杂度的承受能力不同。同时，各类智能终端自带的电量也十分迥异，观看视频(或图像)的剩余电量也可能差异很大。因此，有必要根据终端设备实际计算能力和电量水平选择计算复杂度适合的卷积神经网络，来完成视频(或图像)质量增强的任务。

发明内容

针对目前存在的图像或视频质量需要适应多智能终端，需要根据终端情况实现图像或视频质量的问题，本发明提供了一种基于卷积神经网络的图像或视频质量增强方法，目前尚没有基于卷积神经网络对视频或图像质量增强的研究。

本发明提供的基于卷积神经网络的图像或视频质量增强方法，包括：

(1)设计卷积神经网络网络A，用于视频或图像的质量增强。

所述的网络A中，共有5个卷积层，设i表示卷积层的序号，F_i(Y)表示第i个卷积层的输出，Y表示质量待增强的图像或视频帧，W_i表示第i个卷积层的权重矩阵，B_i表示第i个卷积层的偏置矩阵；网络A的网络结构表示如下：

F₀(Y)＝Y

F_i(Y)＝PReLU(W_i*F_i-1(Y)+B_i),i∈{1,2,3,4}

F₅(Y)＝W₅*F₄(Y)+B₅

其中，*为卷积运算；PReLU运算为PReLU(x)＝max(0,x)+k·min(0,x)，x可表示任意数值，max(0,x)表示取0与x中的最大值，min(0,x)表示取0与x中的最小值，k为待训练的参数；PReLU(W_i*F_i-1(Y)+B_i)表示对矩阵(W_i*F_i-1(Y)+B_i)中的每个数值分别进行PReLU运算；定义定义K_i为第i个卷积层中各个节点的PReLU运算中的k组成的矩阵。

网络A中的W_i、B_i和K_i都是待训练的参数；利用训练视频或图像训练网络A中所有待训练的参数。

(2)在网络A的基础上，设计卷积神经网络B，用于视频或图像的质量增强。

所述的网络B中，共有9个卷积层，设j表示卷积层的序号，Y表示质量待增强的图像或视频帧，G_j(Y)表示第j个卷积层的输出，在第1至第4个卷积层中，W′_j表示第j个卷积层的权重矩阵；在第5个卷积层中，W′₅表示第5个卷积层的权重矩阵；在第6至第8个卷积层中，W′_j1为第j个卷积层中，用于卷积第(j-5)个卷积层的数据的权重，W′_j2为第j个卷积层中，用于卷积第(j-1)个卷积层的数据的权重；在第9个卷积层中，W′₉₁为第9个卷积层中，用于卷积第4个卷积层的数据的权重，W′₉₂为第9个卷积层中，用于卷积第8个卷积层的数据的权重；B′_j表示第j个卷积层的偏置矩阵；网络B的网络结构表示如下：

G₀(Y)＝Y

G_j(Y)＝PReLU(W′_j*F_j-1(Y)+B′_j),j∈{1,2,3,4}

G₅(Y)＝PReLU(W′₅*F₀(Y)+B′₅)

G_j(Y)＝PReLU(0,W′_j1*G_j-5(Y)+W′_j2*G_j-1(Y)+B′_j),j∈{6,7,8}

G₉(Y)＝W′₉₁*G₄(Y)+W′₉₂*G₈(Y)+B′₉

其中，K′_j为第j个卷积层中各个节点的PReLU运算中的k组成的矩阵，j＝1,2,…,8。

网络B中的每个W′_j、W′_j1、W′_j2、B′_j和K′_j矩阵都是待训练的参数。利用训练视频或图像训练网络B中所有待训练的参数。

(3)用户选择质量待增强的视频或图像的通道，根据设备的计算能力或剩余电量指定使用网络A还是网络B进行质量增强。

本发明的优点和积极效果在于：

(1)本发明方法所设计使用的卷积神经网络A和网络B，可以有效增强质量有待增强的视频或图像的质量；

(2)采用本发明方法，用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络A或B来进行视频或图像质量增强。

附图说明

图1为本发明的基于卷积神经网络的图像/视频质量增强方法的流程图；

图2为本发明中网络A的结构图；

图3为本发明中网络B的结构图；

图4为本发明实施例采用本发明方法的使用效果图。

具体实施方式

下面结合附图与具体实例对本发明作进一步的描述：

本发明一种基于卷积神经网络的视频(或图像)质量增强方法，如图1所示，首先，设计一个用于视频(或图像)质量增强的卷积神经网络，命名为网络A，之后使用若干训练视频(或图像)对网络A进行训练；然后设计一个计算复杂度更高的卷积神经网络，命名为网络B，再用若干训练视频(或图像)对网络B进行训练。使用本发明方法时，首先根据设备的计算能力或剩余电量指定选用计算复杂度从网络A和网络B中选择较为合适的一个卷积神经网络，然后将质量待增强的视频(或图像)输入到选择的网络中，即可输出质量增强后的视频(或图像)。下面说明各具体实现步骤。

步骤一、设计一个用于视频(或图像)质量增强的卷积神经网络，命名为网络A。

定义Y表示质量待增强的图像或视频的一帧，该网络的网络结构表示如下：

F₀(Y)＝Y

F_i(Y)＝PReLU(W_i*F_i-1(Y)+B_i),i∈{1,2,3,4}

F₅(Y)＝W₅*F₄(Y)+B₅

其中，定义PReLU运算为PReLU(x)＝max(0,x)+k·min(0,x)，x可表示任意数值，max(0,x)表示取0与x中的最大值，min(0,x)表示取0与x中的最小值，k为待训练的参数。PReLU(W_i*F_i-1(Y)+B_i)表示对矩阵(W_i*F_i-1(Y)+B_i)中的每个数值分别进行PReLU运算。

在网络A中，设i表示为卷积层的序号，F_i(Y)表示第i个卷积层的输出，F₀(Y)表示输入网络A的图像或视频帧，W_i表示第i个卷积层的权重矩阵，B_i表示第i个卷积层的偏置矩阵，定义*为卷积运算，定义K_i为第i个卷积层中各个节点的PReLU运算中的k组成的矩阵。其中，每个卷积层所涉及到的W_i、B_i和K_i都是待训练的参数。其中，K₅不存在，不需要训练。

本发明实例中，网络A有5层，其中各个卷积层的滤波器数量和尺寸如表1所示。

表1网络A的各卷积层的滤波器数量和尺寸

卷积层序号i	1	2	3	4	5
						滤波器尺寸	9×9	7×7	3×3	1×1	5×5
滤波器数量	128	64	64	32	1

网络A的网络结构如图2所示。

步骤二、利用若干训练视频(或图像)，训练网络A中所有待训练的参数。

训练网络A的具体步骤如下：

步骤201、选取若干理想质量的视频(或图像)及其对应的质量待增强的视频(或图像)作为网络A的训练视频(或图像)。训练网络A时，首先选取训练视频的各个帧(或各个训练图像)的一个通道，例如YUV格式视频(或图像)的Y通道、RGB格式视频(或图像)的R通道等，进行训练。定义集合

为理想质量的训练视频中的每个帧(或所有训练图像)的一个通道组成的集合，定义集合

为对应的质量待增强的训练视频中的每个帧(或所有训练图像)的对应相同的通道组成的集合，其中N为用于训练网络A的样本个数，X_n表示训练网络A的集合中的第n个理想质量的帧(或图像)的上述被选的通道，Y_n表示与X_n相对应的质量待增强的帧(或图像)的对应相同的通道。

步骤202、训练采取监督学习的方法，以

为输入，

为监督进行训练。将网络A表示为F(·)，训练网络A采用的损失函数为：

其中θ＝{W_i,B_i,K_i}表示网络A中需要训练的参数。训练时采用随机梯度下降法，本发明实例中随机梯度下降法中的批大小设为128。训练完成后即可得到网络A的一组用于该被选通道质量增强的参数θ。F(Y_n；θ)表示将Y_n输入到参数为θ的网络A后，网络A的输出图像或视频帧。

步骤203、对于其他的每一个通道，重复步骤201和步骤202，得到网络A用于这些通道质量增强的参数θ。每一个通道对应一组网络A的参数θ。

步骤三、在网络A的基础上，设计另一个用于视频(或图像)质量增强的卷积神经网络，命名为网络B。Y表示质量待增强的图像或视频的一帧，定义该网络的网络结构表示如下：

G₀(Y)＝Y

G_j(Y)＝PReLU(W′_j*F_j-1(Y)+B′_j),j∈{1,2,3,4}

G₅(Y)＝PReLU(W′₅*F₀(Y)+B′₅)

G_j(Y)＝PReLU(0,W′_j1*G_j-5(Y)+W′_j2*G_j-1(Y)+B′_j),j∈{6,7,8}

G₉(Y)＝W′₉₁*G₄(Y)+W′₉₂*G₈(Y)+B′₉

在网络B中，j表示为卷积层的序号；G_j(Y)表示第j个卷积层的输出；G₀(Y)表示输入网络B的图像或视频帧；在第1至第4个卷积层中，W′_j表示第j个卷积层的权重矩阵；在第5个卷积层中，W′₅表示第5个卷积层的权重矩阵；在第6至第8个卷积层中，W′_j1为第j个卷积层中，用于卷积第(j-5)个卷积层的数据的权重，W′_j2为第j个卷积层中，用于卷积第(j-1)个卷积层的数据的权重；在第9个卷积层中，W′₉₁为第9个卷积层中，用于卷积第4个卷积层的数据的权重，W_′为第9个卷积层中，用于卷积第8个卷积层的数据的权重；B′_j表示第j个卷积层的偏置矩阵；定义*为卷积运算；定义K′_j为第j个卷积层中各个节点的PReLU运算中的k组成的矩阵。其中，每个卷积层所涉及到的W′_j、W′_j1、W′_j2、B′_j和K′_j矩阵都是待训练的参数；其中，K′₉不存在，不需要训练。

本发明实例中，网络B具有9层，其中各个卷积层的滤波器数量和尺寸如表2所示。其中，第6至第9层中，W′_j1和W′_j2的滤波器尺寸和滤波器数量均为表2中所示的对应卷积层的滤波器尺寸和滤波器数量。

表2网络B的各个卷积层中的滤波器数量和尺寸

网络B的网络结构如图3所示。

步骤四、利用若干训练视频(或图像)，训练网络B中所有待训练的参数。

训练网络B的具体步骤如下：

步骤401、选取若干理想质量的视频(或图像)及其对应的质量待增强的视频(或图像)作为网络B的训练视频(或图像)。在训练网络B时，首先选取训练视频的各个帧(或各个训练图像)的一个通道，例如YUV格式视频(或图像)的Y通道、RGB格式视频(或图像)的R通道等，进行训练。定义集合

为对应的质量待增强的训练视频的每个帧(或所有训练图像)的对应相同的通道组成的集合，其中M为用于训练网络B的样本个数，X′_m表示训练网络B的训练集合中的第m个理想质量的帧上述被选的通道，Y′_m表示与X′_m相对应的质量待增强的帧的对应的相同的通道。

步骤402、训练网络B时，训练采取监督学习的方法，同时使用误差学习的方法，即以

为输入，

为监督进行训练。将网络B表示为G(·)，训练网络B采用的损失函数为：

其中θ′＝{W′_j,W′_j1,W′_j2,B′_j,K′_j}表示网络B中需要训练的参数。训练时采用随机梯度下降法，本发明实例中随机梯度下降法中的批大小设为128。训练完成后即可得到网络B的一组用于该被选通道质量增强的参数θ′。G(Y′_m；θ′)表示将Y′_m输入到参数为θ′的网络B后，网络B的输出图像或视频帧。

步骤403、对于其他的每一个通道，重复步骤401和步骤402，得到网络B用于这些通道质量增强的参数θ′。每一个通道对应一组网络B的参数θ′。

步骤五、将训练完的网络用于质量待增强的视频(或图像)。

具体步骤如下：

步骤501、针对某段视频(或图像)，用户根据智能终端的计算能力、电量剩余或者根据自己的要求，决定是否要对视频(或图像)的各个通道进行质量增强，以及使用网络A和网络B中的哪一个网络对需要质量增强的通道进行质量增强。

步骤502、对需要质量的通道，增强若选择网络A，则将质量待增强的视频中的帧(或图像)的该通道输入到网络A中，此时网络A使用由该通道训练得到的参数，网络A输出对应的质量增强后的帧(或图像)的该通道；

步骤503、对需要质量的通道，若选择网络B，则将质量待增强的视频中的帧(或图像)的该通道输入到网络B中，此时网络A使用由该通道训练得到的参数，将网络B的输出与输入的质量待增强的帧的该通道的每个像素点的值分别相加，得到对应的质量增强后的帧(或图像)的该通道。

下面使用本发明方法和现有方法进行试验，以验证本发明方法的效果。

首先，对表3中所列视频使用HEVC标准压缩算法，在量化参数(QP)为42的条件下，进行压缩，压缩采用随机接入(Random Access)模式。

然后，使用对比方法AR-CNN和本发明的网络A和网络B分别对上述压缩后的视频进行质量增强。ΔPSNR表示压缩的视频，在质量增强前后与压缩前原始视频的峰值信噪比(PSNR)的增加值。ΔPSNR越大表示质量增强效果越好。

表3网络B的各个卷积层中的滤波器数量和尺寸

从表中可以看出，本发明的网络A和网络B在所有测试视频上效果均好于对比算法AR-CNN，且计算复杂度较高的网络B效果好于网络A。其中几张图像增强的效果如图4所示。

本发明通过设计并训练卷积神经网络，实现视频(或图像)的质量增强；同时，由于可从设计的两个计算复杂度不同的卷积神经网络中选择适合的一个使用，本发明适用于不同计算能力或者剩余电量的终端设备。尽管本发明已参照具体实施方式进行描述和举例说明，但是并不意味着本发明限于这些描述的实施方式。

Claims

1.一种基于卷积神经网络的图像或视频质量增强方法，其特征在于，包括如下步骤：

(1)设计卷积神经网络A，用于视频或图像的质量增强；

F₀(Y)＝Y

F_i(Y)＝PReLU(W_i*F_i-1(Y)+B_i),i∈{1,2,3,4}

F₅(Y)＝W₅*F₄(Y)+B₅

其中，*为卷积运算；PReLU运算为PReLU(x)＝max(0,x)+k·min(0,x)，x可表示任意数值，max(0,x)表示取0与x中的最大值，min(0,x)表示取0与x中的最小值，k为待训练的参数；定义K_i为第i个卷积层中各个节点的PReLU运算中的k组成的矩阵；

网络A中，W_i、B_i和K_i都是待训练的参数；利用训练视频或图像训练网络A中所有待训练的参数；

(2)基于网络A设计卷积神经网络B，用于视频或图像的质量增强；

G₀(Y)＝Y

G_j(Y)＝PReLU(W′_j*F_j-1(Y)+B′_j),j∈{1,2,3,4}

G₅(Y)＝PReLU(W′₅*F₀(Y)+B′₅)

G_j(Y)＝PReLU(0,W′_j1*G_j-5(Y)+W′_j2*G_j-1(Y)+B′_j),j∈{6,7,8}

G₉(Y)＝W′₉₁*G₄(Y)+W′₉₂*G₈(Y)+B′₉

其中，K′_j为第j个卷积层中各个节点的PReLU运算中的k组成的矩阵，j＝1,2,…,8；

网络B中的每个W′_j、W′_j1、W′_j2、B′_j和K′_j矩阵都是待训练的参数；利用训练视频或图像训练网络B中所有待训练的参数；

(3)用户选择质量待增强的视频帧或图像的通道，根据设备的计算能力或剩余电量指定使用网络A还是网络B进行质量增强。

2.如权利要求1所述的一种基于卷积神经网络的图像或视频质量增强方法，其特征在于，所述的网络A，采用下面步骤进行参数训练；

步骤201、选取训练集，包括理想质量的视频或图像及其对应的质量待增强的视频或图像；在训练时，选取视频帧或图片的一个通道进行训练，设集合

为训练集中理想质量的视频帧或图像的一个通道组成的集合，集合

为训练集中对应的质量待增强的视频帧或图像的对应相同的通道组成的集合，其中N为用于训练网络A的样本个数；

步骤202、采取监督学习的方法训练，以

为输入，

为监督进行训练；将网络A表示为F(·)，训练网络A采用的损失函数为：

其中，θ＝{W_i,B_i,K_i}表示网络A中需要训练的参数；训练时采用随机梯度下降法；训练完成后得到网络A的一组用于该被选通道质量增强的参数θ；F(Y_n；θ)表示将Y_n输入到参数为θ的网络A后，网络A的输出图像或视频帧；

步骤203、对于视频帧或图片的每一个通道，重复步骤201和步骤202，得到网络A用于每个通道质量增强的参数θ；每一个通道对应一组网络A的参数θ。

3.如权利要求1所述的一种基于卷积神经网络的图像或视频质量增强方法，其特征在于，所述的网络B，采用下面步骤进行参数训练；

步骤401、选取训练集，包括理想质量的视频或图像及其对应的质量待增强的视频或图像；在训练时，选取视频帧或图片的一个通道进行训练，设集合

为训练集中对应的质量待增强的视频帧或图像的对应相同的通道组成的集合，其中M为用于训练网络B的样本个数；

步骤402、采取监督学习的方法训练，同时使用误差学习的方法；

以

为输入，

为监督进行训练；将网络B表示为G(·)，训练网络B采用的损失函数为：

其中，θ′＝{W′_j,W′_j1,W′_j2,B′_j,K′_j}表示网络B中需要训练的参数；训练时采用随机梯度下降法；训练完成后得到网络B的一组用于该被选通道质量增强的参数θ′；G(Y′_m；θ′)表示将Y′_m输入到参数为θ′的网络B后，网络B的输出图像或视频帧；

步骤403、对于视频帧或图片的每一个通道，重复步骤401和步骤402，得到网络B用于每个通道质量增强的参数θ′；每一个通道对应一组网络B的参数θ′。

4.如权利要求1所述的一种基于卷积神经网络的图像或视频质量增强方法，其特征在于，所述的(3)中，当使用网络B进行质量增强时，将待增强的视频帧或图像的通道输入到网络B中，将网络B的输出与输入的待增强的视频帧或图像的通道的每个像素点的值分别相加，得到对应的质量增强后的视频帧或图像的通道。