CN109474851A - 视频转换方法、装置及设备 - Google Patents

视频转换方法、装置及设备 Download PDF

Info

Publication number
CN109474851A
CN109474851A CN201811277395.4A CN201811277395A CN109474851A CN 109474851 A CN109474851 A CN 109474851A CN 201811277395 A CN201811277395 A CN 201811277395A CN 109474851 A CN109474851 A CN 109474851A
Authority
CN
China
Prior art keywords
video
model
initial
sample image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811277395.4A
Other languages
English (en)
Inventor
刘霄
李旭斌
丁予康
张树鹏
高原
傅依
柏提
赵晨
文石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811277395.4A priority Critical patent/CN109474851A/zh
Publication of CN109474851A publication Critical patent/CN109474851A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种视频转换方法、装置及设备,该方法包括:获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;根据每个第二视频帧,确定所述第一视频的转换视频。提高了视频转换的效果。

Description

视频转换方法、装置及设备
技术领域
本发明实施例涉及视频技术领域,尤其涉及一种视频转换方法、装置及设备。
背景技术
随着视频技术的不断发展,目前市场上包括多种类型的视频,例如,卡通视频、动漫视频、现实视频(例如现实人物视频、现实场景视频等)等。
在实际应用过程中,可以对不同类型的视频进行转换,例如,可以将现实视频转换成为卡通视频。在现有技术中,通过采用边缘检测方法实现视频的转换,具体的,在将第一类型的视频转换成第二类型的视频的过程中,检测第一类型的视频中图像的边缘,并根据第二类型的视频特点,将检测到的图像的边缘进行转换处理,以得到第二类型的视频。然而,在上述过程中,仅对视频中图像的边缘进行转换处理,得到转换得到的第二类型的视频效果僵硬,导致现有技术中的视频转换效果差。
发明内容
本发明实施例提供一种视频转换方法、装置及设备,提高了视频转换的效果。
第一方面,本发明实施例提供一种视频转换方法,包括:
获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;
通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;
根据每个第二视频帧,确定所述第一视频的转换视频。
在一种可能的实施方式中,所述视频转换模型为通过如下方法确定得到的:
确定初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,所述第一样本图像为第一类型的图像,所述第二样本图像为第二类型的图像;
根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型。
在一种可能的实施方式中,所述根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型,包括:
根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数;
根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数;
根据所述第一优化参数和所述第二优化参数执行模型优化操作,所述模型优化操作包括通过所述第一优化参数更新所述初始判别模型,以及通过所述第二优化参数更新所述初始转换模型;
重复执行所述损失函数确定操作、所述优化参数确定操作和所述模型优化操作,直至所述初始转换模型和所述初始判别模型收敛时,将收敛的初始转换模型确定为所述视频转换模型。
在一种可能的实施方式中,所述根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数,包括:
通过所述初始转换模型对所述多个第一样本图像进行转换,得到多个第二类型的第三样本图像;
通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数。
在一种可能的实施方式中,所述通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数,包括:
通过所述初始判别模型识别所述多个第二样本图像和所述多个第三样本图像,得到每个第二样本图像和每个第三样本图像的识别结果,所述识别结果为第一结果或第二结果,所述第一结果用于指示识别的样本图像为真实的第二类型图像,所述第二结果用于指示识别的样本图像为转换得到的第二类型图像;
根据所述识别结果,确定所述初始判别模型的损失函数。
在一种可能的实施方式中,所述根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数,包括:
通过所述损失函数对所述初始判别模型的参数求导,得到所述初始判别模型的参数的变化量;
根据所述初始判别模型的参数的变化量确定所述第一优化参数。
在一种可能的实施方式中,所述根据所述损失函数执行优化参数确定操作,得到所述初始转换模型的第二优化参数,包括:
通过所述损失函数对所述第三样本图像进行求导,得到所述第三样本图像的梯度;
通过所述第三样本图像的梯度对所述初始转换模型的参数进行求导,得到所述初始转换模型的参数的变化量;
根据所述初始转换模型的参数的变化量,确定所述第二优化参数。
第二方面,本发明实施例提供一种视频转换装置,包括获取模块、转换模块和第一确定模块,其中,
所述获取模块用于,获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;
所述转换模块用于,通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;
所述第一确定模块用于,根据每个第二视频帧,确定所述第一视频的转换视频。
在一种可能的实施方式中,所述装置还包括第二确定模块和第三确定模块,其中,
所述第二确定模块用于,在所述获取模块获取第一视频的多个第一视频帧之前,确定初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,所述第一样本图像为第一类型的图像,所述第二样本图像为第二类型的图像;
所述第三确定模块用于,根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型。
在一种可能的实施方式中,所述第三确定模块具体用于:
根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数;
根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数;
根据所述第一优化参数和所述第二优化参数执行模型优化操作,所述模型优化操作包括通过所述第一优化参数更新所述初始判别模型,以及通过所述第二优化参数更新所述初始转换模型;
重复执行所述损失函数确定操作、所述优化参数确定操作和所述模型优化操作,直至所述初始转换模型和所述初始判别模型收敛时,将收敛的初始转换模型确定为所述视频转换模型。
在一种可能的实施方式中,所述第三确定模块具体用于:
通过所述初始转换模型对所述多个第一样本图像进行转换,得到多个第二类型的第三样本图像;
通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数。
在一种可能的实施方式中,所述第三确定模块具体用于:
通过所述初始判别模型识别所述多个第二样本图像和所述多个第三样本图像,得到每个第二样本图像和每个第三样本图像的识别结果,所述识别结果为第一结果或第二结果,所述第一结果用于指示识别的样本图像为真实的第二类型图像,所述第二结果用于指示识别的样本图像为转换得到的第二类型图像;
根据所述识别结果,确定所述初始判别模型的损失函数。
在一种可能的实施方式中,所述第三确定模块具体用于:
通过所述损失函数对所述初始判别模型的参数求导,得到所述初始判别模型的参数的变化量;
根据所述初始判别模型的参数的变化量确定所述第一优化参数。
在一种可能的实施方式中,所述第三确定模块具体用于:
通过所述损失函数对所述第三样本图像进行求导,得到所述第三样本图像的梯度;
通过所述第三样本图像的梯度对所述初始转换模型的参数进行求导,得到所述初始转换模型的参数的变化量;
根据所述初始转换模型的参数的变化量,确定所述第二优化参数。
第三方面,本发明实施例提供一种视频转换装置,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面任一项所述的视频转换方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述第一方面任一项所述的视频转换方法。
本发明实施例提供的视频转换方法、装置及设备,当需要将第一类型的第一视频转换为第二类型时,可以通过视频转换模型对第一视频中的每一个第一视频帧进行转换,进而得到第一视频的转换视频,转换视频为第二类型的视频。由于视频转换模型为根据多个第一类型的第一样本图像和多个第二类型的第二样本图像进行学习得到的,且在进行视频转换模型学习的过程中,视频转换模型可以对第一样本图像和第二样本图像中的细节进行学习,使得通过视频转换模型可以对视频中的细节进行良好的转换,避免了转换后的图像效果僵硬,进而提高了视频转换的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的视频转换的架构图;
图2为本发明实施例提供的视频转换方法的流程示意图;
图3为本发明实施例提供的确定视频转换模型方法的流程示意图;
图4为本发明实施例提供的视频转换模型过程示意图;
图5为本发明实施例提供的视频转换过程示意图;
图6为本发明实施例提供的一种视频转换装置的结构示意图;
图7为本发明实施例提供的另一种视频转换装置的结构示意图;
图8为本发明实施例提供的视频转换装置的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的视频转换的架构图。请参见图1,终端设备中加载有视频转换模型,视频转换模型可以为对多个第一样本图像和多个第二样本图像进行学习得到的,第一样本图像为第一类型的图像,第二样本图像为第二类型的样本图像。
终端设备可以通过视频转换模型对视频进行转换,请参见图1,第一类型的视频中可以包括多个视频帧,每个视频帧的图像类型为第一类型。当需要将第一类型的视频转换成为第二类型的视频时,可以将第一类型的视频输入至视频转换模型。视频转换模型可以对第一类型的视频中的每个视频帧进行转换,转换后的每个视频的视频帧为第二类型,进而得到第二类型的视频。
在本申请中,视频转换模型为根据多个第一类型的第一样本图像和多个第二类型的第二样本图像进行学习得到的,在进行视频转换模型学习的过程中,视频转换模型可以对第一样本图像和第二样本图像中的细节进行学习,使得通过视频转换模型可以对视频中的细节进行良好的转换,避免了转换后的图像效果僵硬,进而提高了视频转换的效果。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的视频转换方法的流程示意图。请参见图2,该方法可以包括:
S201、获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型。
本发明实施例的执行主体可以为终端设备,也可以为设置在终端设备中的视频转换装置。可选的,视频转换装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,终端设备或视频转换装置中加载有视频转换模型,终端设备或者视频转换装置可以通过视频转换模型执行图2所示的实施例。
需要说明的是,在图3所示的实施例中对确定视频转换模型的过程进行详细说明,此处不再进行赘述。
可选的,第一类型的视频可以为用户正在拍摄的视频,即,用户边进行第一类型的视频的拍摄,终端设备边进行视频的转换。
可选的,第一类型的视频可以为已有视频。例如,已有视频可以包括用户已拍摄好的视频、用户从网络中下载的视频等。
可选的,第一视频为第一类型的视频,第一视频中包括多个第一视频帧,每个第一视频帧中的图像为第一类型。
例如,第一类型可以包括现实类型、卡通类型、动漫类型等。
当然,第一类型也还可以包括其它类型,本发明实施例对此不作具体限定。
S202、通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型。
其中,第一类型和第二类型不同。
例如,第二类型可以包括现实类型、卡通类型、动漫类型等。
当然,第二类型也还可以包括其它类型,本发明实施例对此不作具体限定。
例如,当第一类型为现实类型时,第二类型可以为卡通类型或者动漫类型等。
可选的,视频转换模型可以为对多个第一类型的第一样本图像和多个第二类型的第二样本图像进行学习得到的。
例如,可以通过深度神经网络对多个第一样本图像、和多个第二样本图像进行学习,得到视频转换模型。
需要说明的是,在图3所示的实施例中对确定视频转换模型的过程进行详细说明,此处不再进行赘述。
可选的,可以将第一视频输入至视频转换模型,由视频转换模型获取第一视频的多个第一视频帧,并由视频转换模型对该多个第一视频帧进行转换,得到每个第一视频帧对应的第二视频帧。
可选的,还可以由终端设备获取第一视频的多个第一视频帧,并将每个第一视频帧输入至视频转换模型,由视频转换模型对该多个第一视频帧进行转换,得到每个第一视频帧对应的第二视频帧。
S203、根据每个第二视频帧,确定第一视频的转换视频。
可选的,由多个第二视频帧组合得到的视频即为第一视频的转换视频。
由于每个第二视频帧均为第二类型,因此,由多个第二视频帧组合得到的视频(第一视频的转换视频)也为第二类型。
本发明实施例提供的视频转换方法,当需要将第一类型的第一视频转换为第二类型时,可以通过视频转换模型对第一视频中的每一个第一视频帧进行转换,进而得到第一视频的转换视频,转换视频为第二类型的视频。由于视频转换模型为根据多个第一类型的第一样本图像和多个第二类型的第二样本图像进行学习得到的,且在进行视频转换模型学习的过程中,视频转换模型可以对第一样本图像和第二样本图像中的细节进行学习,使得通过视频转换模型可以对视频中的细节进行良好的转换,避免了转换后的图像效果僵硬,进而提高了视频转换的效果。
在上述任意一个实施例的基础上,下面,通过图3所示的实施例对确定视频转换模型的过程进行详细说明。
图3为本发明实施例提供的确定视频转换模型方法的流程示意图。请参见图3,该方法可以包括:
S301、确定初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像。
其中,第一样本图像为第一类型的图像,第二样本图像为第二类型的图像。
需要说明的是,第一样本图像为真实的第一类型的图像,第二样本图像为真实的第二类型的图像。本申请所示的真实的图像是指未经过模型转换的图像,例如,假设第一类型为卡通类型,则真实的卡通类型图像是指本身制作得到的,而非经过视频转换模型转换的得到的。
可选的,可以通过如下可行的实现方式确定初始转换模型:获取通用的第一神经网络,并随机初始化该第一神经网络的参数,得到初始转换模型。
可选的,第一神经网络的输入可以为一张图像,输出也为一张图像。或者,第一神经网络的输入为一个视频,输出也为一个视频。第一神经网络用于对输入的视频或者图像进行转换,得到其它类型的视频或者图像。
可选的,第一神经网络可以为U-net神经网络。
例如,通用神经网络的参数可以包括卷积层的权重值、归一化层的权重值等。
可选的,可以通过如下可行的实现方式确定初始判别模型:获取通用的第二神经网络,并随机初始化该第二神经网络的参数,得到初始转换模型。
可选的,第二神经网络的输入可以为一张图像,输出为该图像为某种类型的图像的概率。即,第二神经网络用于对输入的图像进行识别,以确定输入的图像为某种类型的图像的概率。
例如,通用神经网络的参数可以包括卷积层的权重值、归一化层的权重值等。
S302、根据多个第一样本图像、多个第二样本图像、初始判别模型和初始判别模型执行损失函数确定操作,得到初始判别模型的损失函数。
可选的,可以通过如下可行的实现方式确定初始判别模型的损失函数:通过初始转换模型对多个第一样本图像进行转换,得到多个第二类型的第三样本图像,通过多个第二样本图像、多个第三样本图像和初始判别模型,确定初始判别模型的损失函数。
由上可知,第三样本图像为经过初始转换模型转换得到的第二类型的图像。
可选的,可以通过初始判别模型识别多个第二样本图像和多个第三样本图像,得到对每个第二样本图像和每个第三样本图像的识别结果。其中,识别结果为第一结果或第二结果,第一结果用于指示识别的样本图像为真实的第二类型图像,第二结果用于指示识别的样本图像为转换得到的第二类型图像。
例如,针对多个第二样本图像和多个第三样本图像中的任意一个样本图像:可以通过初始判别模型对该样本图像进行识别,以判断该样本图像是真实的第二类型图像,还是经过转换得到的第二类型图像。
由于已知第二样本图像为真实的第二类型图像,第三样本图像为经过转换得到的第二类型图像,因此,可以通过初始判别模型对每个样本图像(第二样本图像和第三样本图像)的识别结果,判断初始判别模型是否可以准确的识别出样本图像是真实的第二类型图像还是经过转换得到的第二类型图像。
可选的,初始判别模型对样本图像(第二样本图像和第三样本图像)的识别结果越准确,则损失函数的数值越小。
S303、根据损失函数执行优化参数确定操作,得到初始判别模型的第一优化参数和初始转换模型的第二优化参数。
可选的,可以通过如下可行的实现方式确定初始判别模型的第一优化参数:通过损失函数对初始判别模型的参数求导,得到初始判别模型的参数的变化量,根据初始判别模型的参数的变化量确定第一优化参数。
可选的,可以通过梯度下降法和初始判别模型的参数的变化量确定第一优化参数。
可选的,可以通过如下可行的实现方式确定初始转换模型的第二优化参数:通过损失函数对第三样本图像进行求导,得到第三样本图像的梯度,通过第三样本图像的梯度对初始转换模型的参数进行求导,得到初始转换模型的参数的变化量,根据初始转换模型的参数的变化量,确定第二优化参数。
可选的,可以通过梯度下降法和初始转换模型的参数的变化量确定第二优化参数。
S304、根据第一优化参数和第二优化参数执行模型优化操作,模型优化操作包括通过第一优化参数更新初始判别模型,以及通过第二优化参数更新初始转换模型。
可选的,可以先根据第一优化参数和初始判别模型的参数,确定初始判别模型的最新参数,并将初始判别模型的参数更新为初始判别模型的最新参数。
可选的,可以将初始判别模型的参数减去第一优化参数,得到初始判别模型的最新参数。
可选的,可以先根据第二优化参数和初始转换模型的参数,确定初始转换模型的最新参数,并将初始转换模型的参数更新为初始转换模型的最新参数。
可选的,可以将初始转换模型的参数减去第一优化参数,得到初始转换模型的最新参数。
S305、判断初始转换模型和初始判别模型是否均收敛。
若是,则执行S306。
若否,则执行S302。
需要说明的是,可以通过现有技术中的任意一种方式判断初始转换模型和初始判别模型是否收敛,本发明实施例此处不再进行赘述。
S306、将收敛的初始转换模型确定为视频转换模型。
在图3所示的实施例中,由于视频转换模型为根据多个第一类型的第一样本图像和多个第二类型的第二样本图像进行学习得到的,且在进行视频转换模型学习的过程中,视频转换模型可以对第一样本图像和第二样本图像中的细节进行学习,使得通过视频转换模型可以对视频中的细节进行良好的转换,避免了转换后的图像效果僵硬,进而提高了视频转换的效果。
下面,结合图4和图5,通过具体示例,对上述方法实施例所示的技术方案进行详细说明。
图4为本发明实施例提供的视频转换模型过程示意图。图5为本发明实施例提供的视频转换过程示意图。
请参见图4,当需要确定用于将现实视频转换成卡通视频的视频转换模型时,先确定初始转换模型和初始判别模型,并获取大量的现实图像和大量的真实的卡通图像。
将显示图像输入至初始转换模型,得到每个现实图像对应的卡通图像。
将转换的卡通图像和真实的卡通图像输入至初始判别模型,得到初始判别模型的损失函数。
通过损失函数确定判别模型的第一优化参数,并通过第一优化参数优化初始判别模型。
通过损失函数和转换的卡通图像,确定初始转换模型的第二优化参数,并通过第二优化参数优化初始转换模型。
重复上述过程,直至初始判别模型和初始转换模型均收敛时,将收敛的初始转换模型确定为视频转换模型。
请参见图5,在确定得到视频转换模型之后,当需要将现实类型的视频转换为卡通类型时,将现实视频输入至视频转换模型,进而可以得到卡通视频。
图6为本发明实施例提供的一种视频转换装置的结构示意图。请参见图6,该视频转换装置10可以包括获取模块11、转换模块12和第一确定模块13,其中,
所述获取模块11用于,获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;
所述转换模块12用于,通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;
所述第一确定模块13用于,根据每个第二视频帧,确定所述第一视频的转换视频。
本发明实施例提供的视频转换装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图7为本发明实施例提供的另一种视频转换装置的结构示意图。请参见图7,该视频转换装置10还可以包括第二确定模块14和第三确定模块15,其中,
所述第二确定模块14用于,在所述获取模块获取第一视频的多个第一视频帧之前,确定初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,所述第一样本图像为第一类型的图像,所述第二样本图像为第二类型的图像;
所述第三确定模块15用于,根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型。
在另一种可能的实施方式中,所述第三确定模块15具体用于:
根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数;
根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数;
根据所述第一优化参数和所述第二优化参数执行模型优化操作,所述模型优化操作包括通过所述第一优化参数更新所述初始判别模型,以及通过所述第二优化参数更新所述初始转换模型;
重复执行所述损失函数确定操作、所述优化参数确定操作和所述模型优化操作,直至所述初始转换模型和所述初始判别模型收敛时,将收敛的初始转换模型确定为所述视频转换模型。
在另一种可能的实施方式中,所述第三确定模块15具体用于:
通过所述初始转换模型对所述多个第一样本图像进行转换,得到多个第二类型的第三样本图像;
通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数。
在另一种可能的实施方式中,所述第三确定模块15具体用于:
通过所述初始判别模型识别所述多个第二样本图像和所述多个第三样本图像,得到每个第二样本图像和每个第三样本图像的识别结果,所述识别结果为第一结果或第二结果,所述第一结果用于指示识别的样本图像为真实的第二类型图像,所述第二结果用于指示识别的样本图像为转换得到的第二类型图像;
根据所述识别结果,确定所述初始判别模型的损失函数。
在另一种可能的实施方式中,所述第三确定模块15具体用于:
通过所述损失函数对所述初始判别模型的参数求导,得到所述初始判别模型的参数的变化量;
根据所述初始判别模型的参数的变化量确定所述第一优化参数。
在另一种可能的实施方式中,所述第三确定模块15具体用于:
通过所述损失函数对所述第三样本图像进行求导,得到所述第三样本图像的梯度;
通过所述第三样本图像的梯度对所述初始转换模型的参数进行求导,得到所述初始转换模型的参数的变化量;
根据所述初始转换模型的参数的变化量,确定所述第二优化参数。
本发明实施例提供的视频转换装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图8为本发明实施例提供的视频转换装置的硬件结构示意图,如图8所示,该视频转换装置20包括:至少一个处理器21和存储器22。可选地,该视频转换装置20还包括通信部件23。其中,处理器21、存储器22以及通信部件23通过总线24连接。
在具体实现过程中,至少一个处理器21执行所述存储器22存储的计算机执行指令,使得至少一个处理器21执行如上的视频转换方法。
处理器21的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图8所示的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的视频转换方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种视频转换方法,其特征在于,包括:
获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;
通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;
根据每个第二视频帧,确定所述第一视频的转换视频。
2.根据权利要求1所述的方法,其特征在于,所述视频转换模型为通过如下方法确定得到的:
确定初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,所述第一样本图像为第一类型的图像,所述第二样本图像为第二类型的图像;
根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型。
3.根据权利要求2所述的方法,其特征在于,所述根据初始转换模型、初始判别模型、多个第一样本图像、和多个第二样本图像,确定所述视频转换模型,包括:
根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数;
根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数;
根据所述第一优化参数和所述第二优化参数执行模型优化操作,所述模型优化操作包括通过所述第一优化参数更新所述初始判别模型,以及通过所述第二优化参数更新所述初始转换模型;
重复执行所述损失函数确定操作、所述优化参数确定操作和所述模型优化操作,直至所述初始转换模型和所述初始判别模型收敛时,将收敛的初始转换模型确定为所述视频转换模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第一样本图像、所述多个第二样本图像、所述初始判别模型和所述初始判别模型执行损失函数确定操作,得到所述初始判别模型的损失函数,包括:
通过所述初始转换模型对所述多个第一样本图像进行转换,得到多个第二类型的第三样本图像;
通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数。
5.根据权利要求4所述的方法,其特征在于,所述通过所述多个第二样本图像、所述多个第三样本图像和所述初始判别模型,确定所述初始判别模型的损失函数,包括:
通过所述初始判别模型识别所述多个第二样本图像和所述多个第三样本图像,得到每个第二样本图像和每个第三样本图像的识别结果,所述识别结果为第一结果或第二结果,所述第一结果用于指示识别的样本图像为真实的第二类型图像,所述第二结果用于指示识别的样本图像为转换得到的第二类型图像;
根据所述识别结果,确定所述初始判别模型的损失函数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述损失函数执行优化参数确定操作,得到所述初始判别模型的第一优化参数和所述初始转换模型的第二优化参数,包括:
通过所述损失函数对所述初始判别模型的参数求导,得到所述初始判别模型的参数的变化量;
根据所述初始判别模型的参数的变化量确定所述第一优化参数。
7.根据权利要求4所述的方法,其特征在于,所述根据所述损失函数执行优化参数确定操作,得到所述初始转换模型的第二优化参数,包括:
通过所述损失函数对所述第三样本图像进行求导,得到所述第三样本图像的梯度;
通过所述第三样本图像的梯度对所述初始转换模型的参数进行求导,得到所述初始转换模型的参数的变化量;
根据所述初始转换模型的参数的变化量,确定所述第二优化参数。
8.一种视频转换装置,其特征在于,包括获取模块、转换模块和第一确定模块,其中,
所述获取模块用于,获取第一视频的多个第一视频帧,每个第一视频帧中的图像为第一类型;
所述转换模块用于,通过视频转换模型对每个第一视频帧进行图像转换,得到每个第一视频帧对应的第二视频帧,每个第二视频帧中的图像为第二类型;
所述第一确定模块用于,根据每个第二视频帧,确定所述第一视频的转换视频。
9.一种视频转换装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的视频转换方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的视频转换方法。
CN201811277395.4A 2018-10-30 2018-10-30 视频转换方法、装置及设备 Pending CN109474851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811277395.4A CN109474851A (zh) 2018-10-30 2018-10-30 视频转换方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811277395.4A CN109474851A (zh) 2018-10-30 2018-10-30 视频转换方法、装置及设备

Publications (1)

Publication Number Publication Date
CN109474851A true CN109474851A (zh) 2019-03-15

Family

ID=65666679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811277395.4A Pending CN109474851A (zh) 2018-10-30 2018-10-30 视频转换方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109474851A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232722A (zh) * 2019-06-13 2019-09-13 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN111629227A (zh) * 2020-04-08 2020-09-04 北京百度网讯科技有限公司 视频转换方法、装置、系统、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030095701A1 (en) * 2001-11-19 2003-05-22 Heung-Yeung Shum Automatic sketch generation
CN103383778A (zh) * 2013-07-03 2013-11-06 中国科学院计算技术研究所 一种三维卡通人脸生成方法和系统
CN107154023A (zh) * 2017-05-17 2017-09-12 电子科技大学 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN107273978A (zh) * 2017-05-25 2017-10-20 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN107862293A (zh) * 2017-09-14 2018-03-30 北京航空航天大学 基于对抗生成网络的雷达生成彩色语义图像系统及方法
CN108564127A (zh) * 2018-04-19 2018-09-21 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030095701A1 (en) * 2001-11-19 2003-05-22 Heung-Yeung Shum Automatic sketch generation
CN103383778A (zh) * 2013-07-03 2013-11-06 中国科学院计算技术研究所 一种三维卡通人脸生成方法和系统
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN107154023A (zh) * 2017-05-17 2017-09-12 电子科技大学 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN107273978A (zh) * 2017-05-25 2017-10-20 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
CN107330956A (zh) * 2017-07-03 2017-11-07 广东工业大学 一种漫画手绘图无监督上色方法及装置
CN107862293A (zh) * 2017-09-14 2018-03-30 北京航空航天大学 基于对抗生成网络的雷达生成彩色语义图像系统及方法
CN108564127A (zh) * 2018-04-19 2018-09-21 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢倩雯: "基于生成对抗网络的漫画草稿图简化", 《自动化学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232722A (zh) * 2019-06-13 2019-09-13 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN110232722B (zh) * 2019-06-13 2023-08-04 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN111629227A (zh) * 2020-04-08 2020-09-04 北京百度网讯科技有限公司 视频转换方法、装置、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108763325B (zh) 一种网络对象处理方法及装置
CN110956202B (zh) 基于分布式学习的图像训练方法、系统、介质及智能设备
CN108961303A (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
CN108108754A (zh) 重识别网络的训练、重识别方法、装置和系统
CN109740571A (zh) 图像采集的方法、图像处理的方法、装置和电子设备
CN108875931B (zh) 神经网络训练及图像处理方法、装置、系统
CN108985489B (zh) 一种风险预测方法、风险预测装置和终端设备
CN109640068A (zh) 视频帧的信息预测方法、装置、设备以及存储介质
CN109725948A (zh) 一种动画资源的配置方法及装置
CN110674736A (zh) 一种识别食材新鲜度的方法、装置、服务器及存储介质
CN111182367A (zh) 一种视频的生成方法、装置及计算机系统
CN111008561A (zh) 一种牲畜的数量确定方法、终端及计算机存储介质
CN112465709B (zh) 一种图像增强方法、装置、存储介质及设备
CN110210278A (zh) 一种视频目标检测方法、装置及存储介质
CN109474851A (zh) 视频转换方法、装置及设备
CN110458875A (zh) 异常点对的检测方法、图像拼接方法、相应装置及设备
CN109635953A (zh) 一种特征衍生方法、装置及电子设备
CN112949459A (zh) 吸烟图像的识别方法及装置、存储介质、电子设备
CN112906554B (zh) 基于视觉图像的模型训练优化方法、装置及相关设备
CN110516572A (zh) 一种识别体育赛事视频片段的方法、电子设备及存储介质
CN109409305A (zh) 一种人脸图像清晰度评价方法及装置
CN109685015B (zh) 图像的处理方法、装置、电子设备和计算机存储介质
CN108734712A (zh) 背景分割的方法、装置及计算机存储介质
CN110428012A (zh) 脑网络模型建立方法、脑图像分类方法、装置及电子设备
CN108229429A (zh) 一种图像处理方法及装置和冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315

RJ01 Rejection of invention patent application after publication