CN109871790B

CN109871790B - 一种基于混合神经网络模型的视频去色方法

Info

Publication number: CN109871790B
Application number: CN201910091019.4A
Authority: CN
Inventors: 刘世光; 张晓丽
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2022-12-16
Anticipated expiration: 2039-01-30
Also published as: CN109871790A

Abstract

本发明属于视频处理的技术领域，具体涉及一种基于混合神经网络模型的视频去色方法，包括如下步骤：步骤一，输入彩色视频，并按照预定帧率将视频分割成若干视频帧，编码器利用卷积学习视频帧中图像的局部内容，然后提取局部语义特征；步骤二，提取视频帧之间的时序特征，并将时序特征通过融合器融合到局部语义特征；步骤三，利用基于反卷积的解码器对融合的时序特征进行解码，输出灰度化视频。本发明基于CNN和LSTM混合神经网络，能够保持视频帧对比度和连续视频帧间时序一致性，提高灰度化视频的质量，同时，解决了传统视频去色过程中的闪烁问题。

Description

一种基于混合神经网络模型的视频去色方法

技术领域

本发明属于视频处理的技术领域，具体涉及一种基于混合神经网络模型的视频去色方法。

背景技术

目前的视频去色方法是基于图像去色算法，往往不能很好的保证时空一致性和算法效率。Ancuti等人在通过显著性图引导增强的去色方法中提出了一种融合的方法来解决图像和视频去色问题，通过使用拉普拉斯金字塔和高斯金字塔结合的方法实现视频去色。Song等人在基于双边滤波的实时视频去色的方法中提出通过计算两幅中间图像之间的差异来估计细节损失，如：一幅图像是通过对原始彩色图像应用双边滤波获得，另一幅图像是通过将亮度作为引导图像应用于原始彩色图像的联合双边滤波而获得的，然后，通过最小化输入彩色图像与作为残留图像和亮度之和的目标灰度图像之间的差异，将估计的细节损失映射到灰度图像中，该方法可以直接用于转换视频，同时可以保持时间一致性。Gooch等人在基于感知质量度量的对比度保留的去色方法中、Lu等人在基于拉普拉斯感知质量度量的半参数去色中、及Liu等人在基于视觉接近度优化的视频去色方法中提出的图像去色方法也可在视频去色中应用；Tao等人在基于视觉接近度优化的视频去色方法中和基于接近度优化的时空一致性视频去色方法中提出的算法是专门针对视频去色的，通过计算去色接近度来确定视频连续帧之间的相互关联性，该方法将视频帧之间的接近度分三类：分别为低级接近度、中级接近度和高级接近度，并且依据不同的接近采取不同的去色策略对视频帧进行灰度化，该方法明确将视频时空一致性问题引入到视频去色领域，但是该方法使用CPU进行试验，并没有推广到GPU，在时间效率上仍然有较大的提升空间。

针对视频时空一致性的算法研究已经取得卓越的进展。在传统方法中，Ogata等人在基于约束优化的视频编辑计算模型中提出了一种视频编辑模型将视频视为0.5或1秒长的盒模型的序列，由于每个盒模型的编辑规则是独立的，因此视频编辑是准确和系统的。为了提高视频帧间的时空一致性，Cuevas和Garcia在实时高质量视频编辑软件的分割工具中进行了实时高质量的镜头检测策略，分析了突然的过渡和渐变过渡，基于像素的快速转换分析可以大大减少冗余时间。此外，基于马尔可夫随机场(MRF)的方法及其马尔可夫链的扩展，被应用于许多方法中。Chen和Tang在基于马尔可夫自由场的时空一致性视频去噪方法，及计算机视觉与模式识别国际会议中，利用时空MRF从概率运动场估计似然性，及涉及MRF的其他类似方法，也提出了在不同情景下的有效解决方案。

视频去色本质上是对视频帧进行去色操作，如果只考虑单帧视频图像的去色效果，往往会伴随严重的闪烁现象，即相邻视频帧之间相同的局部特征或相同的物体，在两帧的去色结果中显示为不同的灰度级。

在深度学习领域中，循环神经网络(Recurrent neural network，RNN)是专门用于处理时序数据的神经网络，时序数据是指在不同时间点收集到的数据集合，这些数据能够反映事物、现象等随时间的变化状态或程度，并且可以在时域中形成隐式组合表示，RNN能够在每个时间节点产生一个输出，且该时间节点上的输出仅与下一时间节点的隐藏层单元连接。

然而，RNN在处理长期依赖时会遇到困难，即处理时间序列上距离较远的节点时，因为计算距离较远的节点间的联系时会涉及雅可比矩阵的多次相乘，这会造成梯度消失或者梯度膨胀问题，在实践中，RNN通过长时间间隔反向传播误差信号的能力变得越来越困难，距离较远的视频帧的无法进行误差信号的传播，导致学习过程中的参数无法更新。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于混合神经网络模型的视频去色方法，基于CNN和LSTM混合神经网络，能够保持视频帧对比度和连续视频帧间时序一致性，提高灰度化视频的质量，同时，解决了传统视频去色过程中的闪烁问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于混合神经网络模型的视频去色方法，包括如下步骤：

步骤一，输入彩色视频，并按照预定帧率将视频分割成若干视频帧，编码器利用卷积学习所述视频帧中图像的局部内容，然后提取局部语义特征；

步骤二，提取所述视频帧之间的时序特征，并将时序特征通过融合器融合到所述局部语义特征；

步骤三，利用基于反卷积的解码器对融合的所述时序特征进行解码，输出灰度化视频。

需要说明的是，本发明的去色方法中，步骤一中，编辑器用于提取视频帧的局部语义特征，可以进一步提高去色的准确度，去除冗余信息，还大大降低特征匹配的计算量，能够获取更多有助于分类识别和具辨别力的特征信息，因此能提高去色的准确率；步骤二中，时序特征通过双向循环神经网络实现，该循环神经网络使用LSTM结构作为其记忆单元，其中，融合时序特征的主要目的是提取连续视频帧之间的时序特征的信息，并将时序特征的信息融合到编码器生成的视频帧序列的局部语义特征，对视频帧序列特征表示的进一步细化，并且采用语义特征和时序特征融合的方式，有效考虑到视频帧之间的时序关联性，能更为全面给视频去色，降低了错误率，解决了传统视频去色过程中的闪烁问题，提高了去色方法的实用性，因而具有实际性的应用前景；步骤三中，反卷积是卷积的逆过程，由于使用反卷积进行图像的上采样是可以被学习的，反卷积用于对CNN的输出进行上采样至原始图像分辨率，能够更好的保留图像的原有结构。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，步骤一中，所述编码器采用VGGNet19结构。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，所述编码器和所述解码器的卷积层为3×3的卷积核。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，所述编码器设置有多个卷积层。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，所述解码器设置有多个反转积层和池化层。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，所述编码器、所述融合器及所述解码器均基于CNN和LSTM混合神经网络。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，步骤一中，提取所述局部语义特征的过程表示为：

f_i＝encoder(C_i),i∈{1,2,…t}，其中，f_i表示视频帧的局部语义特征，C_i表示输入的彩色视频帧。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，步骤二中，融合时序特征的公式为：

其中，

和

分别表示前向和反向计算的隐藏层的输出，Lstm()是记忆单元，f_i是编码器的输出，W和b是两个方向的对应的权重和偏置量，s_i表示融合时序特征后的信息。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，步骤三中，解码后所述灰度化视频帧序列表示为G_i＝decoder(s_i),i∈{1,2,…,t}。

作为本发明所述的一种基于混合神经网络模型的视频去色方法的一种改进，步骤三中，在第4个所述池化层后插入一个1×1的所述卷积层，获得额外的输出，然后添加到第二个所述反卷积层的输出。

本发明的有益效果在于，本发明包括如下步骤：步骤一，输入彩色视频，并按照预定帧率将视频分割成若干视频帧，编码器利用卷积学习视频帧中图像的局部内容，然后提取局部语义特征；步骤二，提取视频帧之间的时序特征，并将时序特征通过融合器融合到局部语义特征；步骤三，利用基于反卷积的解码器对融合的时序特征进行解码，输出灰度化视频。本发明的去色方法中，需要说明的是，本发明的去色方法中，步骤一中，编辑器用于提取视频帧的局部语义特征，可以进一步提高去色的准确度，去除冗余信息，还大大降低特征匹配的计算量，能够获取更多有助于分类识别和具辨别力的特征信息，因此能提高去色的准确率；步骤二中，时序特征通过双向循环神经网络实现，该循环神经网络使用LSTM结构作为其记忆单元，其中，融合时序特征的主要目的是提取连续视频帧之间的时序特征的信息，并将时序特征的信息融合到编码器生成的视频帧序列的局部语义特征，对视频帧序列特征表示的进一步细化，并且采用语义特征和时序特征融合的方式，有效考虑到视频帧之间的时序关联性，能更为全面给视频去色，降低了错误率，解决了传统视频去色过程中的闪烁问题，提高了去色方法的实用性，因而具有实际性的应用前景；步骤三中，反卷积是卷积的逆过程，由于使用反卷积进行图像的上采样是可以被学习的，反卷积用于对CNN的输出进行上采样至原始图像分辨率，能够更好的保留图像的原有结构。本发明基于CNN和LSTM混合神经网络，能够保持视频帧对比度和连续视频帧间时序一致性，提高灰度化视频的质量，同时，解决了传统视频去色过程中的闪烁问题。

附图说明

图1为本发明的流程示意图；

图2为本发明的工作示意图；

图3为本发明的神经网络模型；

图4为本发明中视频帧的变化图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1～4对本发明作进一步详细说明，但不作为对本发明的限定。

步骤一，输入彩色视频，并按照预定帧率将视频分割成若干视频帧，编码器利用卷积学习视频帧中图像的局部内容，然后提取局部语义特征；

步骤二，提取视频帧之间的时序特征，并将时序特征通过融合器融合到局部语义特征；

步骤三，利用基于反卷积的解码器对融合的时序特征进行解码，输出灰度化视频。

优选的，步骤一中，编码器采用VGGNet19结构。VGGNet19使用了级联结构，使得上层提取的所有彩色图像特征融合在一起，传递到下一层进一步提取高维特征。

优选的，编码器和解码器的卷积层为3×3的卷积核。采用3×3卷积核，有利于对彩色视频帧中细微特征和高维数据特征进行提取。

优选的，编码器设置有多个卷积层。卷积神经网络中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的，卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

优选的，解码器设置有多个反转积层和池化层。在数学中，反卷积是一种基于算法的过程，用于反转卷积对记录数据的影响，而且反卷积是卷积的逆过程，又称作转置卷积，使用反卷积实现的优势在于用反卷积进行图像的上采样是可以被学习的；在卷积神经网络中，卷积层之间往往会加上一个池化层；池化层可以非常有效地缩小参数矩阵的尺寸，从而减少最后全连层中的参数数量；使用池化层即可以加快计算速度也有防止过拟合的作用；在图像识别领域，有时图像太大，需要减少训练参数的数量，它被要求在随后的卷积层之间周期性地引进池化层；池化的目的是减少图像的空间大小；池化在每一个纵深维度上独自完成，因此图像的纵深保持不变。

优选的，编码器、融合器及解码器均基于CNN和LSTM混合神经网络。CNN用于接收输入数据，压缩和提取输入数据重要特征；LSTM，用于接收CNN层的输出，提取时序特征。

优选的，步骤一中，提取局部语义特征的过程表示为：

优选的，步骤二中，融合时序特征的公式为：

其中，

和

分别表示前向和反向计算的隐藏层的输出，Lstm()是记忆单元，f_i是编码器的输出，W和b是两个方向的对应的权重和偏置量，s_i表示融合时序特征后的信息。视频第一帧是作为单独的图像进行去色的，也是网络的初始化过程，其后的视频帧则需要共享前面视频帧去色过程中的时序信息，共享视频去色网络中的参数，以实现视频时序一致性的保持；将卷积层获得的特征图，经过前向传播和反向传播，即，在前向传播过程中，对于输入的视频帧序列，沿着时刻1到时刻t正向计算一遍，并保存每个时刻向前隐含层的输出，然后再沿着时刻t到时刻1反向计算一遍，并保存每个时刻向后隐含层的输出，前向传播的目的是为了得到输出，该输出与输入图片对应的特征进行对比，最后得到一个误差，根据这个误差来调整权值，这样不仅能够提高计算速度，还能提高精准度。

优选的，步骤三中，解码后灰度化视频帧序列表示为G_i＝decoder(s_i),i∈{1,2,…,t}。在解码器中，需要通过反卷积操作实现将融合的时序特征进行解码。最终视频帧序列经过解码后转换成灰度的视频帧序列输出，在基于反卷积的解码器中，使用六个反卷积层作为解码器，卷积核大小为3×3；在第4个池化层层后插入一个1×1卷积层以获得额外的输出，然后被添加到第二个反卷积层的输出。

如图2所示，基于CNN和LSTM混合神经网络的视频去色框架图，针对视频帧的处理通过三个模块来实现，分别是局部语义特征编码器、时序特征融合器和基于反卷积的解码器来实现。

如图3所示，基于LSTM的双向循环神经网络模型，编码器中的特征图在双向循环网络中进行时序特征的传播并更新参数，其中LSTM是记忆单元，右侧框代表LSTM结构。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。