CN113095999A

CN113095999A - 一种视频风格转置方法和系统

Info

Publication number: CN113095999A
Application number: CN202110335087.8A
Authority: CN
Inventors: 马哲; 刘剑
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-09
Anticipated expiration: 2041-03-29
Also published as: CN113095999B

Abstract

本发明公开一种视频风格转置方法和系统。其中，该方法包括通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征并计算出当前内容损失；以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征并计算出当前风格损失；根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新，得到所述当前帧的生成图片；根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。通过本发明，解决了现有技术中改变视频风格的样式少，过于简单的问题，在保留原始视频的内容的情况下风格化了原视频，提高了MV视频处理的多样性。

Description

一种视频风格转置方法和系统

技术领域

本发明涉及视频处理技术领域，具体而言，涉及一种视频风格转置方法和系统。

背景技术

视频图像处理是计算机视觉领域研究的热点课题之一，今年来新兴起的一种视频图像处理的技术——视频图像风格转换越来越受到人们的关注。它以计算机为工具，用算法模拟出不同艺术形式的绘制风格，增强视频图像中可视信息的表现形式，这种将计算机技术与艺术美学有效结合的技术越来越受到用户的喜爱。而之前改变MV视频风格都是给视频帧添加滤镜美颜虚化或者简单的合成两张图片的方式，其MV视频处理过于简单，风格样式少。

针对现有技术中改变视频风格的样式少，过于简单的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供一种视频风格转置方法和系统，以解决现有技术中改变视频风格的样式少，过于简单的问题。

为达到上述目的，一方面，本发明提供了一种视频风格转置方法，该方法包括：

获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片；

提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并根据所述第一内容特征和所述第二内容特征计算出当前内容损失；

提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并根据所述第一风格特征和所述第二风格特征计算出当前风格损失；

根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降，得到最小化损失；

根据所述最小化损失，将对所述当前预生成图片进行更新，得到所述当前帧的生成图片；

根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。

可选的，所述提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并根据所述第一内容特征和所述第二内容特征计算出当前内容损失包括：

将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片；

分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层；

提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征，得到所述第一内容特征；以及，提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征，得到所述第二内容特征；

将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失：

其中，J_content(C,G₁)为当前内容损失，C为当前帧图像的第一内容特征，G₁为当前预生成图片的第二内容特征，a为当前特征矩阵，l₁为第一特定神经网络层。

可选的，所述提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并根据所述第一风格特征和所述第二风格特征计算出当前风格损失包括：

将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层；

提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵，得到所述第一特征矩阵；以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵，得到所述第二特征矩阵；

将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S；以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G₂；

将所述第一风格特征S和所述第二风格特征G₂通过以下方式计算所述当前第一风格损失：

其中，J_style(S,G₂)为当前第一风格损失，S为当前风格图片的第一风格特征，G₂为当前预生成图片的第二风格特征，l₂为第二特定神经网络层，

为第一特征矩阵或第二特征矩阵的第一维度值，

为第一特征矩阵或第二特征矩阵的第二维度值，

为第一特征矩阵或第二特征矩阵的第三维度值。

可选的，所述计算所述当前第一风格损失后，包括：

将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失；

对多个所述当前第一风格损失求平均值以得到所述当前风格损失。

可选的，所述根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损包括：

通过以下方式计算所述当前预生成图片的总损失：

J(G)＝αJ_content(C,G₁)+βJ_style(S,G₂)

其中，α为当前内容损失在总损失中的占比，β为当前风格损失在总损失中的占比，α+β＝1。

另一方面，本发明提供了一种视频风格转置系统，所述系统包括：

获取单元，用于获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片；

内容特征提取单元，用于提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并根据所述第一内容特征和所述第二内容特征计算出当前内容损失；

风格特征提取单元，用于提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并根据所述第一风格特征和所述第二风格特征计算出当前风格损失；

总损失计算单元，用于根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降，得到最小化损失；

更新单元，用于根据所述最小化损失，将对所述当前预生成图片进行更新，得到所述当前帧的生成图片；

合成单元，用于根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。

可选的，所述内容特征提取单元包括：

转换单元，用于将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片；

第一输入单元，用于分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层；

第一提取单元，用于提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征，得到所述第一内容特征；以及，提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征，得到所述第二内容特征；

第一计算单元，用于将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失：

可选的，所述风格特征提取单元包括：

第二输入单元，用于将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层；

第二提取单元，用于提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵，得到所述第一特征矩阵；以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵，得到所述第二特征矩阵；

第二计算单元，用于将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S；以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G₂；

第三计算单元，用于将所述第一风格特征S和所述第二风格特征G₂通过以下方式计算所述当前第一风格损失：

为第一特征矩阵或第二特征矩阵的第一维度值，

为第一特征矩阵或第二特征矩阵的第二维度值，

为第一特征矩阵或第二特征矩阵的第三维度值。

可选的，所述风格特征提取单元，还包括：

第四计算单元，用于将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失；

第五计算单元，用于对多个所述当前第一风格损失求平均值以得到所述当前风格损失。

可选的，所述总损失计算单元包括：

通过以下方式计算所述当前预生成图片的总损失：

J(G)＝αJ_content(C,G₁)+βJ_style(S,G₂)

本发明的有益效果：

本发明实施例通过提供一种视频风格转置方法和系统，其中，该方法通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并计算出当前内容损失；以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并计算出当前风格损失；根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新，得到所述当前帧的生成图片；根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。通过本发明，解决了现有技术中改变视频风格的样式少，过于简单的问题，在保留原始视频的内容的情况下风格化了原视频，提高了MV视频处理的多样性。

附图说明

图1是根据本发明实施例的一种视频风格转置方法的流程图；

图2是根据本发明实施例的计算当前内容损失的流程图；

图3是根据本发明实施例的计算当前风格损失的流程图；

图4是根据本发明实施例的一种视频风格转置系统的结构示意图；

图5是根据本发明实施例的计算当前内容损失的结构示意图；

图6是根据本发明实施例的计算当前风格损失的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

现有技术中改变视频风格都是给视频帧添加滤镜美颜虚化或者简单的合成两张图片，其视频处理过于简单，风格样式少。

因而，本发明提供了一种视频风格转置方法，该方法通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并计算出当前内容损失；以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并计算出当前风格损失；根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新，得到所述当前帧的生成图片；根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。其中，在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(GradientDescent)是最常采用的方法之一，在本申请中梯度下降用于求解最小二乘问题(线性和非线性都可以)。即，在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

下面结合附图详细说明本发明的可选实施例。

图1是根据本发明实施例的一种视频风格转置方法的流程图，如图1所示，该方法包括：

S101.获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片；

S102.提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并根据所述第一内容特征和所述第二内容特征计算出当前内容损失；

S103.提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并根据所述第一风格特征和所述第二风格特征计算出当前风格损失；

S104.根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降，得到最小化损失；

S105.根据所述最小化损失，将对所述当前预生成图片进行更新，得到所述当前帧的生成图片；

S106根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。

通过本发明，解决了现有技术中改变视频风格的样式少，过于简单的问题，在保留原始视频的内容的情况下风格化了原视频，提高了MV视频处理的多样性。

在上述实施方式的基础上进一步优化，所述S102包括：

S1021.将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片；

当前预生成图片为此系统自动生成的3通道(B，G，R)400*300尺寸的图片，每个通道通过8位无符号数(0-255种颜色)来表示，视频中每一帧对应一个随机图片，视频处理完后视频的总帧数与当前预生成图片的数量一一对应，每个图片的BGR值是不一样的。

在进行当前内容损失计算时，需先将视频中当前帧图像转换为与当前预生成图片同等大小尺寸，即转换为3通道(B，G，R)400*300尺寸的当前第一图片。

S1022.分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层；

转换后再将当前第一图片和当前预生成图片输入到VGG-19中，其中，VGG-19为预训练的CNN神经网络，VGG主要采用增加卷积层的方法来加深网络，结果发现深度越深，网络学习能力越好，分类能力越强，当深度增加到16-19层时，识别效果有较大提升，即VGG-19。VGG-19中有很多卷积层，本申请中是输入到第一特定神经网络层即conv4-2卷积层中。

S1023.提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征，得到所述第一内容特征；以及，提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征，得到所述第二内容特征；

本申请中，提取输入到第一特定神经网络层即conv4-2卷积层网络的特征值作为内容特征，因每个图片的BGR值是不一样的，则VGG-19中conv4-2卷积层得出的特征值也不一样，自然当前第一图片和当前预生成图片的内容特征是不一样的。提取当前第一图片的内容特征得到的是第一内容特征，提取当前预生成图片的内容特征得到的是第二内容特征。

S1024.将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失：

其中，J_content(C,G₁)为当前内容损失，C为当前帧图像的第一内容特征，G₁为预生成图片的第二内容特征，a为当前特征矩阵，l₁为第一特定神经网络层。

最终根据得到的第一内容特征和第二内容特征计算出当前内容损失。

在上述实施方式的基础上进一步优化，所述S103包括：

S1031.将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层；

本发明中，当前风格图片是与当前预生成图片的尺寸大小同等，即都是3通道400*300尺寸，将所述当前风格图片和所述当前预生成图片输入到VGG-19中的第二特定神经网络层即conv-1卷积层。S1032.提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵，得到所述第一特征矩阵；以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵，得到所述第二特征矩阵；

提取当前风格图片和当前预生成图片的特征矩阵并计算风格特征，两个特征矩阵取自VGG-19中同一个卷积层，即conv-1卷积层。

S1033.将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S；以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G₂；

其中，以第二风格特征G₂为例，第二风格特征根据以下公式计算出：

该公式中，a为第二特征矩阵，a'为第二转置矩阵，i、j、k为矩阵的维度值，G₂为第二风格特征，此公式含义为对a进行矩阵转置后得到a'，然后与a进行矩阵相乘得到第二风格特征。

S1034.将所述第一风格特征S和所述第二风格特征G₂通过以下方式计算所述当前第一风格损失：

为第一特征矩阵或第二特征矩阵的第一维度值，

为第一特征矩阵或第二特征矩阵的第二维度值，

为第一特征矩阵或第二特征矩阵的第三维度值。

得到第一风格特征和第二风格特征后，按照上述公式计算出当前第一风格损失。

在上述实施方式的基础上进一步优化，所述计算所述当前第一风格损失后，包括：

VGG-19中不同的卷积层中提取的特征值是不一样的，本发明中，总共提取VGG-19中conv1-1，conv2-1，conv3-1，conv4-1，conv5-1五层的特征值，五层特征值分别进行当前第一风格损失计算后求平均值以得到当前风格损失，通过该方法，可以学到不同卷积层的不同风格特征。

在上述实施方式的基础上进一步优化，所述根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损包括：

通过以下方式计算所述当前预生成图片的总损失：

J(G)＝αJ_content(C,G₁)+βJ_style(S,G₂)

本发明中，将计算好的当前预生成图片的总损失进行梯度下降得到最小化损失；之后根据所述最小化损失，将对所述当前预生成图片进行更新，可渐渐将内容图片转换成指定的风格，之后将所有转换好的当前预生成图片按照原视频的码率和帧率合成为风格转置视频，即可将原先的原版MV视频转换为其他艺术风格的MV视频，大大提高人们的娱乐选择和艺术鉴赏力。

另一方面，本发明提供了一种视频风格转置系统，如图4所示，所述系统包括：

获取单元201，用于获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片；

内容特征提取单元202，用于提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征，并根据所述第一内容特征和所述第二内容特征计算出当前内容损失；

风格特征提取单元203，用于提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征，并根据所述第一风格特征和所述第二风格特征计算出当前风格损失；

总损失计算单元204，用于根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降，得到最小化损失；

更新单元205，用于根据所述最小化损失，将对所述当前预生成图片进行更新，得到所述当前帧的生成图片；

合成单元206，用于根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。

在上述实施方式的基础上进一步优化，所述内容特征提取单元202包括：

转换单元2021，用于将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片；

第一输入单元2022，用于分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层；

第一提取单元2023，用于提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征，得到所述第一内容特征；以及，提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征，得到所述第二内容特征；

第一计算单元2024，用于将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失：

在上述实施方式的基础上进一步优化，所述风格特征提取单元203包括：

第二输入单元2031，用于将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层；

本发明中，当前风格图片是与当前预生成图片的尺寸大小同等，即都是3通道400*300尺寸，将所述当前风格图片和所述当前预生成图片输入到VGG-19中的第二特定神经网络层即conv-1卷积层。

第二提取单元2032，用于提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵，得到所述第一特征矩阵；以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵，得到所述第二特征矩阵；

第二计算单元2033，用于将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S；以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G₂；

第三计算单元2034，用于将所述第一风格特征S和所述第二风格特征G₂通过以下方式计算所述当前第一风格损失：

为第一特征矩阵或第二特征矩阵的第一维度值，

为第一特征矩阵或第二特征矩阵的第二维度值，

为第一特征矩阵或第二特征矩阵的第三维度值。

在上述实施方式的基础上进一步优化，所述风格特征提取单元203，还包括：

在上述实施方式的基础上进一步优化，所述总损失计算单元包括：

通过以下方式计算所述当前预生成图片的总损失：

J(G)＝αJ_content(C,G₁)+βJ_style(S,G₂)

以下通过一具体实施例对本发明进行说明：

1、获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片；

2、将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片；分别将所述当前第一图片和所述当前预生成图片输入到VGG-19中conv4-2卷积层；提取输入到该conv4-2卷积层中的所述当前第一图片的内容特征，得到所述第一内容特征；以及，提取输入到该conv4-2卷积层中的所述当前预生成图片的内容特征，得到所述第二内容特征；并根据所述第一内容特征和所述第二内容特征计算出当前内容损失；

3、提取输入到conv1-1，conv2-1，conv3-1，conv4-1，conv5-1卷积层中的所述当前风格图片的特征矩阵，得到多个所述第一特征矩阵；以及提取输入到conv1-1，conv2-1，conv3-1，conv4-1，conv5-1卷积层中所述当前预生成图片的特征矩阵，得到多个所述第二特征矩阵；

对应的，分别将多个所述第一特征矩阵与多个所述第一特征矩阵转置后的多个第一转置矩阵对应相乘以得到多个所述第一风格特征S；以及分别将多个所述第二特征矩阵与多个所述第二特征矩阵转置后的第二转置矩阵对应相乘以得到多个所述第二风格特征G₂；

多个所述第一风格特征和多个所述第二风格特征对应进行计算以得到一一对应的多个所述当前第一风格损失；对多个所述当前第一风格损失求平均值以得到所述当前风格损失；

4、根据所述当前内容损失和所述当前风格损失，计算出所述当前预生成图片的总损失，并将所述总损失进行梯度下降，得到最小化损失；

5、根据所述最小化损失，将对所述当前预生成图片进行更新，得到所述当前帧的生成图片；

6、根据原视频的码率和帧率将所有帧的生成图片合成，以得到风格转置视频。

本发明的有益效果：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。