CN113095999A - 一种视频风格转置方法和系统 - Google Patents

一种视频风格转置方法和系统 Download PDF

Info

Publication number
CN113095999A
CN113095999A CN202110335087.8A CN202110335087A CN113095999A CN 113095999 A CN113095999 A CN 113095999A CN 202110335087 A CN202110335087 A CN 202110335087A CN 113095999 A CN113095999 A CN 113095999A
Authority
CN
China
Prior art keywords
current
style
feature
content
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110335087.8A
Other languages
English (en)
Other versions
CN113095999B (zh
Inventor
马哲
刘剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunderstone Technology Co ltd
Original Assignee
Beijing Thunderstone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunderstone Technology Co ltd filed Critical Beijing Thunderstone Technology Co ltd
Priority to CN202110335087.8A priority Critical patent/CN113095999B/zh
Publication of CN113095999A publication Critical patent/CN113095999A/zh
Application granted granted Critical
Publication of CN113095999B publication Critical patent/CN113095999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开一种视频风格转置方法和系统。其中,该方法包括通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征并计算出当前内容损失;以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征并计算出当前风格损失;根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新,得到所述当前帧的生成图片;根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。通过本发明,解决了现有技术中改变视频风格的样式少,过于简单的问题,在保留原始视频的内容的情况下风格化了原视频,提高了MV视频处理的多样性。

Description

一种视频风格转置方法和系统
技术领域
本发明涉及视频处理技术领域,具体而言,涉及一种视频风格转置方法和系统。
背景技术
视频图像处理是计算机视觉领域研究的热点课题之一,今年来新兴起的一种视频图像处理的技术——视频图像风格转换越来越受到人们的关注。它以计算机为工具,用算法模拟出不同艺术形式的绘制风格,增强视频图像中可视信息的表现形式,这种将计算机技术与艺术美学有效结合的技术越来越受到用户的喜爱。而之前改变MV视频风格都是给视频帧添加滤镜美颜虚化或者简单的合成两张图片的方式,其MV视频处理过于简单,风格样式少。
针对现有技术中改变视频风格的样式少,过于简单的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供一种视频风格转置方法和系统,以解决现有技术中改变视频风格的样式少,过于简单的问题。
为达到上述目的,一方面,本发明提供了一种视频风格转置方法,该方法包括:
获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
可选的,所述提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失包括:
将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure BDA0002997147190000021
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为当前预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
可选的,所述提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失包括:
将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure BDA0002997147190000031
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure BDA0002997147190000032
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure BDA0002997147190000033
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure BDA0002997147190000034
为第一特征矩阵或第二特征矩阵的第三维度值。
可选的,所述计算所述当前第一风格损失后,包括:
将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
可选的,所述根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
另一方面,本发明提供了一种视频风格转置系统,所述系统包括:
获取单元,用于获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
内容特征提取单元,用于提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
风格特征提取单元,用于提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
总损失计算单元,用于根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
更新单元,用于根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
合成单元,用于根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
可选的,所述内容特征提取单元包括:
转换单元,用于将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
第一输入单元,用于分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
第一提取单元,用于提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
第一计算单元,用于将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure BDA0002997147190000041
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为当前预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
可选的,所述风格特征提取单元包括:
第二输入单元,用于将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
第二提取单元,用于提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
第二计算单元,用于将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
第三计算单元,用于将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure BDA0002997147190000042
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure BDA0002997147190000043
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure BDA0002997147190000044
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure BDA0002997147190000045
为第一特征矩阵或第二特征矩阵的第三维度值。
可选的,所述风格特征提取单元,还包括:
第四计算单元,用于将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
第五计算单元,用于对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
可选的,所述总损失计算单元包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
本发明的有益效果:
本发明实施例通过提供一种视频风格转置方法和系统,其中,该方法通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并计算出当前内容损失;以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并计算出当前风格损失;根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新,得到所述当前帧的生成图片;根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。通过本发明,解决了现有技术中改变视频风格的样式少,过于简单的问题,在保留原始视频的内容的情况下风格化了原视频,提高了MV视频处理的多样性。
附图说明
图1是根据本发明实施例的一种视频风格转置方法的流程图;
图2是根据本发明实施例的计算当前内容损失的流程图;
图3是根据本发明实施例的计算当前风格损失的流程图;
图4是根据本发明实施例的一种视频风格转置系统的结构示意图;
图5是根据本发明实施例的计算当前内容损失的结构示意图;
图6是根据本发明实施例的计算当前风格损失的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
现有技术中改变视频风格都是给视频帧添加滤镜美颜虚化或者简单的合成两张图片,其视频处理过于简单,风格样式少。
因而,本发明提供了一种视频风格转置方法,该方法通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并计算出当前内容损失;以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并计算出当前风格损失;根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新,得到所述当前帧的生成图片;根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。其中,在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(GradientDescent)是最常采用的方法之一,在本申请中梯度下降用于求解最小二乘问题(线性和非线性都可以)。即,在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。
下面结合附图详细说明本发明的可选实施例。
图1是根据本发明实施例的一种视频风格转置方法的流程图,如图1所示,该方法包括:
S101.获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
S102.提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
S103.提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
S104.根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
S105.根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
S106根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
通过本发明,解决了现有技术中改变视频风格的样式少,过于简单的问题,在保留原始视频的内容的情况下风格化了原视频,提高了MV视频处理的多样性。
在上述实施方式的基础上进一步优化,所述S102包括:
S1021.将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
当前预生成图片为此系统自动生成的3通道(B,G,R)400*300尺寸的图片,每个通道通过8位无符号数(0-255种颜色)来表示,视频中每一帧对应一个随机图片,视频处理完后视频的总帧数与当前预生成图片的数量一一对应,每个图片的BGR值是不一样的。
在进行当前内容损失计算时,需先将视频中当前帧图像转换为与当前预生成图片同等大小尺寸,即转换为3通道(B,G,R)400*300尺寸的当前第一图片。
S1022.分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
转换后再将当前第一图片和当前预生成图片输入到VGG-19中,其中,VGG-19为预训练的CNN神经网络,VGG主要采用增加卷积层的方法来加深网络,结果发现深度越深,网络学习能力越好,分类能力越强,当深度增加到16-19层时,识别效果有较大提升,即VGG-19。VGG-19中有很多卷积层,本申请中是输入到第一特定神经网络层即conv4-2卷积层中。
S1023.提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
本申请中,提取输入到第一特定神经网络层即conv4-2卷积层网络的特征值作为内容特征,因每个图片的BGR值是不一样的,则VGG-19中conv4-2卷积层得出的特征值也不一样,自然当前第一图片和当前预生成图片的内容特征是不一样的。提取当前第一图片的内容特征得到的是第一内容特征,提取当前预生成图片的内容特征得到的是第二内容特征。
S1024.将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure BDA0002997147190000081
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
最终根据得到的第一内容特征和第二内容特征计算出当前内容损失。
在上述实施方式的基础上进一步优化,所述S103包括:
S1031.将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
本发明中,当前风格图片是与当前预生成图片的尺寸大小同等,即都是3通道400*300尺寸,将所述当前风格图片和所述当前预生成图片输入到VGG-19中的第二特定神经网络层即conv-1卷积层。S1032.提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
提取当前风格图片和当前预生成图片的特征矩阵并计算风格特征,两个特征矩阵取自VGG-19中同一个卷积层,即conv-1卷积层。
S1033.将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
其中,以第二风格特征G2为例,第二风格特征根据以下公式计算出:
Figure BDA0002997147190000082
该公式中,a为第二特征矩阵,a'为第二转置矩阵,i、j、k为矩阵的维度值,G2为第二风格特征,此公式含义为对a进行矩阵转置后得到a',然后与a进行矩阵相乘得到第二风格特征。
S1034.将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure BDA0002997147190000083
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure BDA0002997147190000084
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure BDA0002997147190000091
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure BDA0002997147190000092
为第一特征矩阵或第二特征矩阵的第三维度值。
得到第一风格特征和第二风格特征后,按照上述公式计算出当前第一风格损失。
在上述实施方式的基础上进一步优化,所述计算所述当前第一风格损失后,包括:
将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
VGG-19中不同的卷积层中提取的特征值是不一样的,本发明中,总共提取VGG-19中conv1-1,conv2-1,conv3-1,conv4-1,conv5-1五层的特征值,五层特征值分别进行当前第一风格损失计算后求平均值以得到当前风格损失,通过该方法,可以学到不同卷积层的不同风格特征。
在上述实施方式的基础上进一步优化,所述根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
本发明中,将计算好的当前预生成图片的总损失进行梯度下降得到最小化损失;之后根据所述最小化损失,将对所述当前预生成图片进行更新,可渐渐将内容图片转换成指定的风格,之后将所有转换好的当前预生成图片按照原视频的码率和帧率合成为风格转置视频,即可将原先的原版MV视频转换为其他艺术风格的MV视频,大大提高人们的娱乐选择和艺术鉴赏力。
另一方面,本发明提供了一种视频风格转置系统,如图4所示,所述系统包括:
获取单元201,用于获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
内容特征提取单元202,用于提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
风格特征提取单元203,用于提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
总损失计算单元204,用于根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
更新单元205,用于根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
合成单元206,用于根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
通过本发明,解决了现有技术中改变视频风格的样式少,过于简单的问题,在保留原始视频的内容的情况下风格化了原视频,提高了MV视频处理的多样性。
在上述实施方式的基础上进一步优化,所述内容特征提取单元202包括:
转换单元2021,用于将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
当前预生成图片为此系统自动生成的3通道(B,G,R)400*300尺寸的图片,每个通道通过8位无符号数(0-255种颜色)来表示,视频中每一帧对应一个随机图片,视频处理完后视频的总帧数与当前预生成图片的数量一一对应,每个图片的BGR值是不一样的。
在进行当前内容损失计算时,需先将视频中当前帧图像转换为与当前预生成图片同等大小尺寸,即转换为3通道(B,G,R)400*300尺寸的当前第一图片。
第一输入单元2022,用于分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
转换后再将当前第一图片和当前预生成图片输入到VGG-19中,其中,VGG-19为预训练的CNN神经网络,VGG主要采用增加卷积层的方法来加深网络,结果发现深度越深,网络学习能力越好,分类能力越强,当深度增加到16-19层时,识别效果有较大提升,即VGG-19。VGG-19中有很多卷积层,本申请中是输入到第一特定神经网络层即conv4-2卷积层中。
第一提取单元2023,用于提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
本申请中,提取输入到第一特定神经网络层即conv4-2卷积层网络的特征值作为内容特征,因每个图片的BGR值是不一样的,则VGG-19中conv4-2卷积层得出的特征值也不一样,自然当前第一图片和当前预生成图片的内容特征是不一样的。提取当前第一图片的内容特征得到的是第一内容特征,提取当前预生成图片的内容特征得到的是第二内容特征。
第一计算单元2024,用于将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure BDA0002997147190000111
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为当前预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
最终根据得到的第一内容特征和第二内容特征计算出当前内容损失。
在上述实施方式的基础上进一步优化,所述风格特征提取单元203包括:
第二输入单元2031,用于将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
本发明中,当前风格图片是与当前预生成图片的尺寸大小同等,即都是3通道400*300尺寸,将所述当前风格图片和所述当前预生成图片输入到VGG-19中的第二特定神经网络层即conv-1卷积层。
第二提取单元2032,用于提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
提取当前风格图片和当前预生成图片的特征矩阵并计算风格特征,两个特征矩阵取自VGG-19中同一个卷积层,即conv-1卷积层。
第二计算单元2033,用于将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
其中,以第二风格特征G2为例,第二风格特征根据以下公式计算出:
Figure BDA0002997147190000112
该公式中,a为第二特征矩阵,a'为第二转置矩阵,i、j、k为矩阵的维度值,G2为第二风格特征,此公式含义为对a进行矩阵转置后得到a',然后与a进行矩阵相乘得到第二风格特征。
第三计算单元2034,用于将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure BDA0002997147190000121
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure BDA0002997147190000122
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure BDA0002997147190000123
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure BDA0002997147190000124
为第一特征矩阵或第二特征矩阵的第三维度值。
得到第一风格特征和第二风格特征后,按照上述公式计算出当前第一风格损失。
在上述实施方式的基础上进一步优化,所述风格特征提取单元203,还包括:
第四计算单元,用于将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
第五计算单元,用于对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
VGG-19中不同的卷积层中提取的特征值是不一样的,本发明中,总共提取VGG-19中conv1-1,conv2-1,conv3-1,conv4-1,conv5-1五层的特征值,五层特征值分别进行当前第一风格损失计算后求平均值以得到当前风格损失,通过该方法,可以学到不同卷积层的不同风格特征。
在上述实施方式的基础上进一步优化,所述总损失计算单元包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
本发明中,将计算好的当前预生成图片的总损失进行梯度下降得到最小化损失;之后根据所述最小化损失,将对所述当前预生成图片进行更新,可渐渐将内容图片转换成指定的风格,之后将所有转换好的当前预生成图片按照原视频的码率和帧率合成为风格转置视频,即可将原先的原版MV视频转换为其他艺术风格的MV视频,大大提高人们的娱乐选择和艺术鉴赏力。
以下通过一具体实施例对本发明进行说明:
1、获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
2、将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;分别将所述当前第一图片和所述当前预生成图片输入到VGG-19中conv4-2卷积层;提取输入到该conv4-2卷积层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该conv4-2卷积层中的所述当前预生成图片的内容特征,得到所述第二内容特征;并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
3、提取输入到conv1-1,conv2-1,conv3-1,conv4-1,conv5-1卷积层中的所述当前风格图片的特征矩阵,得到多个所述第一特征矩阵;以及提取输入到conv1-1,conv2-1,conv3-1,conv4-1,conv5-1卷积层中所述当前预生成图片的特征矩阵,得到多个所述第二特征矩阵;
对应的,分别将多个所述第一特征矩阵与多个所述第一特征矩阵转置后的多个第一转置矩阵对应相乘以得到多个所述第一风格特征S;以及分别将多个所述第二特征矩阵与多个所述第二特征矩阵转置后的第二转置矩阵对应相乘以得到多个所述第二风格特征G2
多个所述第一风格特征和多个所述第二风格特征对应进行计算以得到一一对应的多个所述当前第一风格损失;对多个所述当前第一风格损失求平均值以得到所述当前风格损失;
4、根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
5、根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
6、根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
本发明的有益效果:
本发明实施例通过提供一种视频风格转置方法和系统,其中,该方法通过提取当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并计算出当前内容损失;以及通过提取当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并计算出当前风格损失;根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降以及对所述当前预生成图片进行更新,得到所述当前帧的生成图片;根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。通过本发明,解决了现有技术中改变视频风格的样式少,过于简单的问题,在保留原始视频的内容的情况下风格化了原视频,提高了MV视频处理的多样性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视频风格转置方法,其特征在于,所述方法包括:
获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
2.根据权利要求1所述的方法,其特征在于,所述提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失包括:
将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure FDA0002997147180000011
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为当前预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
3.根据权利要求1所述的方法,其特征在于,所述提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失包括:
将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure FDA0002997147180000021
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure FDA0002997147180000022
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure FDA0002997147180000023
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure FDA0002997147180000024
为第一特征矩阵或第二特征矩阵的第三维度值。
4.根据权利要求3所述的方法,其特征在于,所述计算所述当前第一风格损失后,包括:
将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
5.根据权利要求1所述的方法,其特征在于,所述根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
6.一种视频风格转置系统,其特征在于,所述系统包括:
获取单元,用于获取原视频中的当前帧图像、与所述当前帧图像对应的当前预生成图片、与所述当前帧图像对应的当前风格图片;
内容特征提取单元,用于提取所述当前帧图像的第一内容特征和所述当前预生成图片的第二内容特征,并根据所述第一内容特征和所述第二内容特征计算出当前内容损失;
风格特征提取单元,用于提取所述当前风格图片的第一风格特征和所述当前预生成图片的第二风格特征,并根据所述第一风格特征和所述第二风格特征计算出当前风格损失;
总损失计算单元,用于根据所述当前内容损失和所述当前风格损失,计算出所述当前预生成图片的总损失,并将所述总损失进行梯度下降,得到最小化损失;
更新单元,用于根据所述最小化损失,将对所述当前预生成图片进行更新,得到所述当前帧的生成图片;
合成单元,用于根据原视频的码率和帧率将所有帧的生成图片合成,以得到风格转置视频。
7.根据权利要求6所述的系统,其特征在于,所述内容特征提取单元包括:
转换单元,用于将所述当前帧图像转换为与所述当前预生成图片同等大小尺寸的当前第一图片;
第一输入单元,用于分别将所述当前第一图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第一特定神经网络层;
第一提取单元,用于提取输入到该第一特定神经网络层中的所述当前第一图片的内容特征,得到所述第一内容特征;以及,提取输入到该第一特定神经网络层中的所述当前预生成图片的内容特征,得到所述第二内容特征;
第一计算单元,用于将所述第一内容特征和所述第二内容特征通过以下方式计算所述当前内容损失:
Figure FDA0002997147180000031
其中,Jcontent(C,G1)为当前内容损失,C为当前帧图像的第一内容特征,G1为当前预生成图片的第二内容特征,a为当前特征矩阵,l1为第一特定神经网络层。
8.根据权利要求6所述的系统,其特征在于,所述风格特征提取单元包括:
第二输入单元,用于将所述当前风格图片和所述当前预生成图片输入到VGG-19(预训练的CNN神经网络)中第二特定神经网络层;
第二提取单元,用于提取输入到该第二特定神经网络层中的所述当前风格图片的特征矩阵,得到所述第一特征矩阵;以及提取输入到第二特定神经网络层中所述当前预生成图片的特征矩阵,得到所述第二特征矩阵;
第二计算单元,用于将所述第一特征矩阵与所述第一特征矩阵转置后的第一转置矩阵相乘以得到所述第一风格特征S;以及将所述第二特征矩阵与所述第二特征矩阵转置后的第二转置矩阵相乘以得到所述第二风格特征G2
第三计算单元,用于将所述第一风格特征S和所述第二风格特征G2通过以下方式计算所述当前第一风格损失:
Figure FDA0002997147180000041
其中,Jstyle(S,G2)为当前第一风格损失,S为当前风格图片的第一风格特征,G2为当前预生成图片的第二风格特征,l2为第二特定神经网络层,
Figure FDA0002997147180000042
为第一特征矩阵或第二特征矩阵的第一维度值,
Figure FDA0002997147180000043
为第一特征矩阵或第二特征矩阵的第二维度值,
Figure FDA0002997147180000044
为第一特征矩阵或第二特征矩阵的第三维度值。
9.根据权利要求8所述的系统,其特征在于,所述风格特征提取单元,还包括:
第四计算单元,用于将多个所述第二特定神经网络层提取的多个所述第一风格特征和多个所述第二风格特征进行计算以得到一一对应的多个所述当前第一风格损失;
第五计算单元,用于对多个所述当前第一风格损失求平均值以得到所述当前风格损失。
10.根据权利要求6所述的系统,其特征在于,所述总损失计算单元包括:
通过以下方式计算所述当前预生成图片的总损失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α为当前内容损失在总损失中的占比,β为当前风格损失在总损失中的占比,α+β=1。
CN202110335087.8A 2021-03-29 2021-03-29 一种视频风格转置方法和系统 Active CN113095999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335087.8A CN113095999B (zh) 2021-03-29 2021-03-29 一种视频风格转置方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335087.8A CN113095999B (zh) 2021-03-29 2021-03-29 一种视频风格转置方法和系统

Publications (2)

Publication Number Publication Date
CN113095999A true CN113095999A (zh) 2021-07-09
CN113095999B CN113095999B (zh) 2023-08-25

Family

ID=76670582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335087.8A Active CN113095999B (zh) 2021-03-29 2021-03-29 一种视频风格转置方法和系统

Country Status (1)

Country Link
CN (1) CN113095999B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490791A (zh) * 2019-07-10 2019-11-22 西安理工大学 基于深度学习风格迁移的服饰图像艺术化生成方法
CN110598781A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN110675309A (zh) * 2019-08-28 2020-01-10 江苏大学 一种基于卷积神经网络和VGGNet16模型的图像风格转换方法
US10552977B1 (en) * 2017-04-18 2020-02-04 Twitter, Inc. Fast face-morphing using neural networks
US20200101375A1 (en) * 2018-10-01 2020-04-02 International Business Machines Corporation Deep learning from real world and digital exemplars
US20200219274A1 (en) * 2017-08-01 2020-07-09 3M Innovative Properties Company Neural style transfer for image varietization and recognition
CN111583100A (zh) * 2020-05-12 2020-08-25 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552977B1 (en) * 2017-04-18 2020-02-04 Twitter, Inc. Fast face-morphing using neural networks
US20200219274A1 (en) * 2017-08-01 2020-07-09 3M Innovative Properties Company Neural style transfer for image varietization and recognition
US20200101375A1 (en) * 2018-10-01 2020-04-02 International Business Machines Corporation Deep learning from real world and digital exemplars
CN110490791A (zh) * 2019-07-10 2019-11-22 西安理工大学 基于深度学习风格迁移的服饰图像艺术化生成方法
CN110675309A (zh) * 2019-08-28 2020-01-10 江苏大学 一种基于卷积神经网络和VGGNet16模型的图像风格转换方法
CN110598781A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN111583100A (zh) * 2020-05-12 2020-08-25 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU YAO等: "Photo Style Transfer With Consistency Losses", 2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) *

Also Published As

Publication number Publication date
CN113095999B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN110490791B (zh) 基于深度学习风格迁移的服饰图像艺术化生成方法
TWI779970B (zh) 圖像處理方法、處理器、電子設備與電腦可讀存儲介質
CN110781895B (zh) 一种基于卷积神经网络的图像语义分割方法
CN110120019B (zh) 一种基于特征增强的残差神经网络及图像去块效应方法
CN110322416A (zh) 图像数据处理方法、装置以及计算机可读存储介质
CN112507617B (zh) 一种SRFlow超分辨率模型的训练方法及人脸识别方法
CN107578451A (zh) 一种面向自然图像的自适应主色提取方法
CN107464217B (zh) 一种图像处理方法及装置
CN112991493B (zh) 基于vae-gan和混合密度网络的灰度图像着色方法
CN111950432A (zh) 一种基于区域风格一致性的妆容风格迁移方法及系统
CN111047529A (zh) 一种基于机器学习的视频处理方法
CN111986075A (zh) 一种目标边缘清晰化的风格迁移方法
CN108805036A (zh) 一种新的非监督的视频语义提取方法
CN110809126A (zh) 一种基于自适应可变形卷积的视频帧插值方法及系统
CN111768469A (zh) 一种基于图像聚类的数据可视化配色的提取方法
CN115457249A (zh) 红外图像与可见光图像融合匹配的方法及系统
CN113095999A (zh) 一种视频风格转置方法和系统
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
Jeon Color image enhancement by histogram equalization in heterogeneous color space
Xiao et al. Interactive deep colorization and its application for image compression
TW202205200A (zh) 圖像風格轉換的方法及其電腦程式產品
CN110177229B (zh) 基于多任务对抗学习的视频转换方法、存储介质及终端
CN111161134A (zh) 基于伽马变换的图像艺术风格转换方法
CN112837212B (zh) 一种基于流形对齐的图像任意风格迁移方法
CN113888405B (zh) 基于分簇自适应膨胀卷积神经网络的去噪去马赛克方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant