CN111726621B

CN111726621B - 一种视频转换方法及装置

Info

Publication number: CN111726621B
Application number: CN202010626305.9A
Authority: CN
Inventors: 张浩海; 梁利平; 王志君; 洪钦智
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2020-04-24
Filing date: 2020-07-01
Publication date: 2022-12-30
Anticipated expiration: 2040-07-01
Also published as: CN111726621A

Abstract

本发明公开一种视频转换方法及装置，涉及视频转换技术领域，以解决视频转换性能低，成本高的问题。所述视频转换方法包括：采用半监督生成式对抗网络对原始视频和中间帧进行处理，获得转换后视频；转换后视频含有的各个视频帧之间具有光流约束；中间帧是位于原始视频含有的第一帧视频至最后一帧视频之间的视频帧。本发明提供的视频转换装置执行视频转换方法，用于视频转换。

Description

一种视频转换方法及装置

技术领域

本发明涉及视频转换技术领域，尤其涉及一种视频转换方法及装置。

背景技术

在计算机视觉中，许多任务可以被描述为视频到视频的转换。目前通常采用生成式对抗网络(Generative Adversarial Networks，缩写为GAN)进行视频转换。

上述方法根据训练数据集的不同分为有监督和无监督两种视频转换方法。由于有监督的视频转换方法中的数据集是由有标注样本组成的，所以成本较高。无监督的视频转换方法中，数据集由不存在对应关系的不同视频域的视频组成，所以难以保证最终生成视频中的目标具有运动轨迹。

发明内容

本发明的目的在于提供一种视频转换方法及装置，用于在低成本的情况下提高视频转换性能。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种视频转换方法。该视频转换方法包括：

采用半监督生成式对抗网络对原始视频和中间帧进行处理，获得转换后视频；转换后视频含有的各个视频帧之间具有光流约束；中间帧是位于原始视频含有的第一帧视频至最后一帧视频之间的视频帧。

与现有技术相比，本发明提供的视频转换方法中，采用半监督生成式对抗网络对原始视频和中间帧进行处理，获得转换后视频，并且转换后视频含有的各个视频帧之间具有光流约束，符合实际要求。由于采用的是半监督生成式对抗网络，相较于单纯使用有标注数据的有监督训练模式，减少了标注的成本。并且，以半监督生成式对抗网络转换视频，可以使得待转换的原始视频可以部分标注的情况下，利用半监督生成式对抗网络对其进行转换，相较于单纯使用无标注数据的无监督训练模式，提高了生成式对抗网络对视频转换的性能。综上所述，采用上述视频转换方法可以在低成本的情况下提高视频转换性能。

本发明还提供了一种视频转换装置。该视频转换装置包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行计算机程序或指令，以实现上述视频转换方法。

与现有技术相比，本发明提供的视频转换装置的有益效果与上述技术方案所述视频转换方法的有益效果相同，此处不做赘述。

本发明还提供了一种计算机存储介质。该计算机存储介质中存储有指令，当指令被运行时，执行上述视频转换方法。

与现有技术相比，本发明提供的计算机存储介质的有益效果与上述技术方案所述视频转换方法的有益效果相同，此处不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的视频转换系统的结构图；

图2示出本发明实施例提供的视频转换方法的流程图；

图3示出本发明实施例提供的获得转换后视频帧的流程图；

图4示出本发明实施例提供的利用生成器的视频转化过程示意图；

图5示出了本发明实施例提供的视频转换装置的结构框图；

图6示出了本发明实施例提供的视频转换装置的一种集成模块示意图；

图7示出了本发明实施例提供的芯片的结构示意图。

附图标记：

11-视频转换系统， 12-采集设备；

13-标注设备， 14-终端设备；

21-下采样模块， 22-残差模块；

23-上采样模块， 30-装置；

31-处理单元， 32-通信单元；

33-存储单元， 40-设备；

41-处理器， 42-通信接口；

43-通信线路， 44-存储器；

45-处理器， 50-芯片；

51-处理器， 52-通信接口；

53-存储器， 54-总线系统。

具体实施方式

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一阈值和第二阈值仅仅是为了区分不同的阈值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本发明中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a、b、c、a和b的结合，a和c的结合，b和c的结合，或a、b和c的结合，其中a、b、c可以是单个，也可以是多个。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义：

半监督学习(Semi-Supervised Learning，缩写为SSL)是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

本发明实施例提供的视频转换方法可以应用于视频转换系统。该视频转换系统可以为行车视频转换系统等。图1示出了本发明实施例提供的视频转换系统的结构图。如图1所示，该视频转换系统11包括采集设备12、标注设备13和终端设备14。采集设备12、标注设备13和终端设备14之间采用通信连接。

上述采集设备12可以采集各种视频信息，包括但不仅限于彩色视频信息、黑白视频信息、红外视频信息等各种信息。该采集设备可以为单目相机，彩色摄像机等各种采集设备。

上述标注设备13可以标注视频帧，也可以对整段视频进行标注。该标注设备包括但不仅限于电脑、手机、平板电脑、PDA等标注设备。

上述终端设备14可以具有显示屏，也可以不具有显示屏。例如：该终端设备可以为电脑、手机、平板电脑、PDA等。该终端设备可以实现视频转换，可以实现视频风格的转换，视频格式的转换、彩色视频黑白化、黑白视频彩色化等。

在计算机视觉中，许多任务可以被描述为视频的转换，例如，黑白视频与彩色视频的互相转换、现实场景视频与黑白视频的互相转换等等。这一类转换任务具有丰富的应用场景，例如现实增强和自动驾驶等。传统的视频转换方法需要建模、添加纹理、添加光照等繁琐步骤。将神经网络这一数据驱动方法应用于视频转换，使得转换任务可以在端到端的条件下进行，极大地简化了转换流程。视频转换任务的关键在于视频的生成，由于视频数据的复杂性，生成的视频需要满足以下两点要求：原始视频与转换后视频在同一帧内必须有相同的前景目标轮廓并且目标具有正确的运动轨迹。普通的深度卷积网络由于其网络结构原因而在生成视频方面，特别是生成包含复杂运动的高分辨率视频方便表现不佳。

生成式对抗网络(GAN)是在2014年被提出的专门适用于样本生成的一种神经网络模型框架。生成式对抗网络由生成器和判别器组成，生成器旨在学习真实样本的分布并生成样本，判别器旨在判定样本是否来自真实样本，两者在训练中相互博弈达到平衡。生成式对抗网络极大提升了模型生成视频的性能。基于生成式对抗网络的视频转换方法按照训练数据集的不同主要分为：有监督的视频转换和无监督的视频转换。对于有监督的视频转换方法来说，数据集由有标注样本组成，即每一帧一一对应的两类不同视频域的视频。这一种转换方法具有良好的模型性能，但是有标注数据往往意味着昂贵的标注成本，这极大限制了有监督训练方法在实际场景中的应用。在无监督的视频转换中，数据集由不存在对应关系的不同视频域的视频组成。这种方法仅需要较小的数据集获取成本，但是由于视频数据的特殊性，该方法往往难以保证转换后视频中的目标具有运动轨迹。所以传统的有监督训练方法成本较高，无监督训练方法中的数据集中的视频不存在对应关系，难以保证转换后视频中的目标具有运动轨迹。

为了解决上述情况，本发明实施例提供一种视频转换方法。本发明实施例提供的方法中由采集设备执行的步骤，也可以由应用于采集设备中的芯片执行；由标注设备执行的步骤，也可以由应用于标注设备中的芯片执行；由终端设备执行的步骤，也可以由应用于终端设备中的芯片执行。下述实施例以采集设备、标注设备和终端设备分别作为执行主体为例。为了方便描述，下文以彩色视频为原始视频作为待转换视频进行视频转换示例。应理解，下文仅为示例解释，不作为限定。

图2示出本发明实施例提供的视频转换方法的流程图。如图2所示，该视频转换方法包括：

步骤11：采集设备采集视频，获得原始视频。

示例的，采用安装在汽车上的彩色摄像机获取路面上的一段视频。此时视频中可能记录一段正在跑步的人的彩色视频。在实际应用中，汽车可以在路面上行驶，也可以在停在路边。汽车的运动状态可以根据实际情况进行设置。彩色视频中的信息可以根据实际情况进行采集。

步骤12：标注设备对原始视频进行处理，获取原始视频中的中间帧。中间帧是位于原始视频含有的第一帧视频至最后一帧视频之间的视频帧。

示例的，标注设备将采集设备获得的一段正在跑步的人的彩色视频进行处理，分为原始视频和中间帧。在实际处理时，中间帧可以是位于原始视频含有的第一帧视频至最后一帧视频之间的视频帧。例如：上述彩色视频可以包括九帧图像，中间帧可以是第二帧，第五帧或第八帧，根据实际情况进行选定不限于某一固定帧。

在一种示例中，将彩色视频进行处理，分为原始视频和中间帧后，原始视频可以是除去中间帧以外的所有彩色视频中的视频帧，也可以是包含中间帧的属于彩色视频的所有视频帧。示例的，当彩色视频可以包括九帧图像时，中间帧取第五帧图像，此时原始视频可以是除去第五帧图像以外的第一帧至第四帧图像和第六帧至第九帧图像。原始视频也可以是包含第五帧图像的第一帧至第九帧图像。

步骤13：终端设备采用半监督生成式对抗网络对原始视频和中间帧进行处理，获得转换后视频。转换后视频含有的各个视频帧之间具有光流约束。

示例的，将上述采集设备采集，并经过处理设备处理的彩色视频传输给终端设备。终端设备采用半监督生成式对抗网络对彩色视频中的原始视频和中间帧进行处理，获得具有映射关系的黑白视频。上述黑白视频含有的各个视频帧之间具有光流约束，上述转化后的黑白视频包括光流特征。

由上可知，本发明实施例提供的视频转换方法中，由于采用的是半监督生成式对抗网络，相较于单纯使用有标注数据的有监督训练模式，减少了标注的成本。并且，以半监督生成式对抗网络转换视频，可以使得待转换的原始视频可以部分标注的情况下，利用半监督生成式对抗网络对其进行转换，相较于单纯使用无标注数据的无监督训练模式，本发明实施例提供的视频转换方法还采用有标注数据，提高了生成式对抗网络对视频转换的性能。综上所述，采用上述视频转换方法可以在低成本的情况下提高视频转换性能。

在上述视频转换方法中，由于转换后视频含有的各个视频帧之间具有光流约束。本发明实施例提供的视频转换方法转换后的视频充分利用光流作为时域信息来表示各个视频帧之间的运动关系，不仅可以减少计算量，同时还可以保证转换后视频帧之间具有和原始视频相同的运动信息，确保转换后视频的真实性和准确性。

在一种示例中，采用半监督生成式对抗网络对原始视频和中间帧进行处理时，中间帧包括含有映射关系的未标注和标注的中间帧。原始视频包括的各个视频帧为未标注视频。

示例的，标注设备对彩色视频中的中间帧进行标注，此时可以将采集设备采集到的彩色视频中的中间帧分为两组。一组为未标注的中间帧，另一组为标注的中间帧。并且，上述未标注的中间帧与该标注的中间帧之间具有映射关系。原始视频包括的各个视频帧均为未标注视频。

上述中间帧可以为原始视频所含有的奇数帧视频，也可以是偶数帧。但是为方便中间帧选取，上述中间帧为原始视频所含有的奇数帧视频。同时中间帧是位于原始视频含有的第一帧视频至最后一帧视频之间的视频帧。该中间帧还可以为原始视频含有的第一帧视频至最后一帧视频之间的任一奇数帧视频。为了保证转换后视频所包括的各帧视频的光流约束尽量接近实际，该中间帧可以为原始视频所含有的奇数帧视频的中间帧，此时可以更好的反映该视频中运动特征的图像，便于后期视频转换。

示例的，上述原始视频和中间帧的生成方式是按照帧组来划分的，每个帧组中的视频帧数都是奇数的，目的是确保一个帧组只有一个中间帧。例如：当彩色视频中的视频帧数是70帧时，按照7帧为一组可以分成10组。其中每组都有7帧(即均为奇数帧)。此时第一组视频帧中的编号为第一帧、第二帧、第三帧、第四帧、第五帧、第六帧和第七帧。当选择第四帧作为中间帧时，其余都是非中间帧。由于第四帧图像是当前七帧图像中最能反映该视频运动特征的图像，基于此，以第四帧图像作为中间帧，并对其进行标注，构建包括含有映射关系的未标注中间帧和标注中间帧。剩余的六帧不是中间帧，是无标注样本，不包含映射关系。每一组都有一个中间帧，这70帧的视频里有10个中间帧。应理解，上述70帧视频帧和7帧都是举例，不作为具体限定，实际过程中只要是分成一组的帧数是奇数就行，例如：可以是一组中的帧数可以是3帧、5帧、7帧、9帧、11帧、13帧或15帧。

在一种示例中，图3示出本发明实施例提供的获得转换后视频帧的流程图。如图3所示，终端设备采用半监督生成式对抗网络对原始视频和中间帧进行处理，获得转换后视频帧包括：

步骤131：标注设备向半监督生成式对抗网络并行输入原始视频和中间帧。

示例的，标注设备将采集设备获取的彩色视频中的九帧图像进行处理，以便于获得含有映射关系的未标注和标注的中间帧，此时中间帧可以是彩色视频中的第五帧图像，剩余的八帧图像作为原始视频。将上述原始视频和中间帧并行输入半监督生成式对抗网络。

步骤132：图4示出本发明实施例提供的利用生成器的视频转化过程示意图。如图4所示，终端设备利用半监督生成式对抗网络对原始视频和中间帧进行图像压缩处理、残差处理和解压缩处理，获得生成视频、光流图和光流掩膜。

作为一种可能的实现方式，上述半监督生成式对抗网络包括生成器和判别器。其中，生成器包括m个第一卷积层、n个残差层以及共享m个第一卷积层和n个残差层的权重参数的a个反卷积层，m、n、a均大于等于2，m、n、a可以为奇数，也可以为偶数。m和a的数量相等，m和n的数量可以相等也可以不相等。

示例的，如图4所示，按照模块划分，上述生成器包括下采样模块21、残差模块22和上采样模块23。

上述下采样模块可以包括两个第一卷积层，下采样模块用于对输入的原始视频和中间帧对应的图像进行压缩处理，当采用两个或更多的第一卷积层时，对图片的压缩处理效果会更好，更有利于后续的视频转换。当然，第一卷积层的数量可以根据实际情况进行设置。

上述残差模块可以包括两个残差层。由于本发明实施例涉及的半监督生成式对抗网络具有很深的网络层，参数初始化一般更接近于零，这样在训练半监督生成式对抗网络的过程中更新浅层网络的参数时，很容易随着半监督生成式对抗网络的深入而导致梯度消失，浅层的参数无法更新。采用上述残差层可以保证上述网络具有深度符合实际使用标准的网络层，以及数量符合实际使用标准的参数，保持梯度的传递，以便于半监督生成式对抗网络学习复杂的视频转换方法。

上述上采样模块可以包括两个反卷积层，并且上采样模块中的两个反卷积层共享两个第一卷积层和两个残差层的权重参数，降低了计算过程的复杂度。上采样模块用于对下采样模块压缩处理的原始视频和中间帧对应的图像进行解压缩处理，使其复原。当采用两个或更多的反卷积层时，对图片的解压缩处理效果会更好，更有利于后续的视频转换。当然，反卷积层的数量可以根据实际情况进行设置。

上述下采样模块中的第一卷积层的数量，与上采样模块中的反卷积层的数量应当保持一致，这样便于完成对图像的压缩与解压缩处理。示例的，由于第一卷积层和反卷积层是对图片进行相反的操作，所以为了保证对图像正常的进行压缩处理与解压缩处理，可以采用相同步长和相同数量的第一卷积层和反卷积层以保证输出的图片和输入的图像的尺寸相同。例如：当输入的图像的尺寸是64*64像素。第一卷积层和反卷积层的步长都为2的情况下，两个第一卷积层能将输入的图像尺寸压缩两次，获得尺寸为16*16像素的图像。两个反卷积层能将尺寸为16*16像素的图像扩大两次，获得尺寸为64*64像素的图像。应理解，上述第一卷积层和反卷积层的数量、步长可以根据实际情况进行选择，不限定于某一具体数值。

终端设备利用半监督生成式对抗网络将原始视频和中间帧经过两个第一卷积层对其进行图像压缩处理，之后经过两个残差层进行残差处理，最后经过两个反卷积层对压缩后的图像进行解压缩处理，获得与原始视频的输入尺寸一致的生成视频、光流图和光流掩膜。

步骤133：终端设备利用半监督生成式对抗网络对生成视频、光流图和光流掩膜进行分层合并方式处理，获得转换后视频。采用分层合并方式处理可以有效的提高转换后视频的质量。

示例的，终端设备采用分层合并方式对生成视频、光流图和光流掩膜处理，获得转换后视频包括：

步骤1331：终端设备采用半监督生成式对抗网络根据光流图和中间帧生成光流扭曲图。示例的，终端设备利用生成的光流图以及输入半监督生成式对抗网络中的有标注中间帧，获得光流扭曲图。

步骤1332：终端设备采用半监督生成式对抗网络利用光流掩膜处理光流扭曲图和生成视频，获得转换后视频。此时，转换后视频包括的每帧视频具有的前景为光流扭曲图，每帧视频具有的背景为生成视频。生成的光流扭曲图经过光流掩膜，通过光流掩膜将光流扭曲图中的噪声去掉。这里的噪声可以是图像中静止的图像也可以是在转换处理过程中引入的不需要的图像，留下关键部分即由运动目标组成的图像。通过上述方法所获得的转换后视频，可以由半监督生成式对抗网络生成的生成视频负责细节纹理特征，由光流图负责运动特征，符合视频空间信息和时域信息的要求。

在实际应用中，由于最终的转换后视频是由光流扭曲图与生成视频合并获得的，所以通过光流掩膜计算每一帧的置信度。在光流掩膜中值接近0的点将倾向于采用光流扭曲操作得到的光流扭曲图相同位置对应的像素值，光流掩膜中值接近1的点的将倾向于使用生成视频的视频帧中相同位置对应的像素值。

在一种示例中，上述生成器满足分层合并模型函数。示例的，分层合并模型函数为：

其中，☉表示点积操作；

表示光流掩模，通过光流掩模来选择光流图中像素值的来源；M表示有标注中间帧；i为视频帧数；x_i表示视频帧；

表示从有标注中间帧M到视频帧x_i的光流图，半监督生成式对抗网络利用上述光流图

和有标注中间帧M进行光流扭曲操作；W表示光流预测网络；

表示光流扭曲操作；

表示生成视频。

对于转换后视频需要每一帧视频之间有正确且平滑的运动，由于视频帧之间的光流图包含大量的运动信息。例如：每个像素点的运动动量。所以正确应用光流图以及正确连接有标注数据和无标注数据成为技术难点。在本发明实施例中采用分层合并方式处理，同时引入光流约束，通过计算输出光流和真实光流的误差，优化并行网络的光流生成部分。上述并行网络是指：图4中的两个上采样模块均是由下采样模块中的第一卷积层和残差模块中的残差层的输出作为输入，即两个上采样模块的输入一致，所以两个上采样模块是并行的。

上述生成器满足光流损失函数。上述光流损失函数为：

其中，i为视频帧数；x_i表示视频帧；M表示有标注中间帧；

表示从有标注中间帧M到视频帧x_i的光流图；w_i表示原始视频和中间帧的真实光流；

表示光流图

与原始视频和中间帧的真实光流w_i之间的误差；

表示使用有标注中间帧M和光流图

获得的光流扭曲图和真实的视频帧x_i之间的误差。

上述光流损失函数可以通过计算光流图

与原始视频和中间帧的真实光流w_i的欧式距离来表示。同时本发明通过采用中间帧生成视频的方式，即利用有标注的中间帧生成视频。相较于从第一帧开始生成视频的方法，该方法可以减小光流的扭曲误差，有助于保持整段转换后视频的稳定性，视频中的运动目标运动方式更加稳定。

示例的，采用以中间帧作为初始帧的方式生成整段奇数帧视频。在生成视频的过程中以中间帧为原点分别计算前向光流和后向光流，再通过双向光流扭曲完成整段视频序列的生成。通过计算输入的原始视频和中间帧的光流来约束生成的整段奇数帧视频的光流。

在一种示例中，在本发明实施例提供的视频转换方法中涉及的半监督生成式对抗网络中的生成器的数量为两个，判别器的数量也为两个。此时由一个生成器和一个判别器可以完成视频的单向转换。例如：彩色视频转换为黑白视频。示例的，在对半监督生成式对抗网络进行训练时，当输入彩色视频帧时对应输出黑白视频帧。将彩色视频域中的彩色视频输入生成器中，经过生成器的处理获得转化后视频，此时转化后视频为黑白视频域的黑白视频。将转化后视频黑白视频和初始状态的彩色视频中的一帧或多帧图像输入判别器，判别器判断视频帧的置信度。

当有两个生成器和两个判别器时，可以完成视频的双向转换，例如：当利用第一生成器将彩色视频转换为黑白视频后，再将由第一生成器生成的黑白视频通过第二生成器生成彩色视频，以此完成视频的双向转换。若想知道转换后的置信度，则可以将对应的视频帧输入对应的判别器中判断置信度。例如在第一生成器完成转换后可以将转化后视频即黑白视频和初始状态的彩色视频中的一帧或多帧图像输入判别器，判别器判断视频帧的置信度。在第二生成器完成转换后可以将转化后视频即彩色视频和输入第二生成器中的黑白视频中的一帧或多帧图像输入判别器，判别器判断视频帧的置信度。对于两个生成器采用相同的网络结构，两个判别器也采用相同的网络结构。

在一种示例中，判别器包括第二卷积层。判别器中的真实置信度满足特征值矩阵的表达式。

采用第二卷积层进行下采样，使得判别器的规模和结构与生成器相比更加简单，判别器可以通过输出特征值矩阵表示真实置信度。

示例的，对输入判别器的视频帧通过第二卷积层中的一个或多个卷积层进行下采样操作，不断压缩输入判别器的视频帧，然后输出压缩后的特征值矩阵。根据获得的特征值矩阵，以特征值矩阵中的所有值计算真实置信度。此时获得的真实置信度更加准确，可以更好的反应监督生成式对抗网络的训练情况。

相比于现有技术中仅输出一个置信度，采用上述方法输出的置信度更加准确可靠。例如：由于一张图像不同位置的像素块显示的图像信息准确性不一样，例如中间位置的像素块显示的图像更加清晰，而处于边缘位置的像素块显示的图像比较模糊，通过判别器判断该图像的置信度，可能会将不同位置获得的置信度简单的平均化，此时得到的置信度不准确，并不能真实的反应半监督生成式对抗网络的训练情况，进而影响后续的训练或者实际使用。

由于上述生成器的数量为两个，判别器的数量也为两个，所以生成器可以分为第一生成器和第二生成器，判别器可以分为第一判别器和第二判别器。

示例的，上述第一生成器可以为G_Y(M,x_i)。当第一生成器满足：

时，表示将属于X视频域的视频帧x_i和有标注中间帧M作为输入，转换后视频目的是近似于Y视频域的视频帧y_i。

上述第一判别器可以为D_Y(·)，第一判别器D_Y(·)旨在区分输入判别器的视频是来自真实数据(即X视频域的视频帧x_i对应的真实的转换到Y视频域的视频帧y_i)还是来自生成器(即经过生成器生成的近似于Y视频域的视频帧

)。

上述第二生成器可以为

当第二生成器满足：

时，表示将属于Y视频域的视频帧

和有标注中间帧M作为输入，转换后视频目的是近似于X视频域的视频帧x_i。

上述第二判别器可以为D_X(·)，第二判别器D_X(·)旨在区分输入判别器的视频是来自真实数据(即Y视频域的视频帧

对应的真实的转换到X视频域的视频帧x_i)还是来自生成器(即经过生成器生成的近似于X视频域的视频帧

)。

在一种示例中，半监督生成式对抗网络中的生成器的权重参数可以为随机初始化的权重参数。随机初始化的权重参数满足符合均匀分布的随机初始化的权重参数。

在另一种示例中，生成器的权重参数为预训练的初始化权重参数。预训练的初始化权重参数满足符合均匀分布的预训练的初始化权重参数。其中，预训练的初始化权重参数是经过泛化图像或视频转换预训练之后的权重参数。

示例的，由于针对视频数据中时域特征较难捕捉，预训练的初始化权重参数不仅精度较差，而且会耗费大量训练时间。半监督生成式对抗网络中的权重参数采用符合均匀分布的初始化。此时初始化的权重比较容易获得，可以节省半监督生成式对抗网络的整体训练时间。

对于所有类型的视频帧数据可以均采用对抗损失优化半监督生成式对抗网络的性能。示例的，生成器学习采集设备采集到的视频中的视频帧的分布完成视频帧由一个视频域向另一个视频域的转换，获得转换后视频。将转换后视频和采集到的视频输入判别器判断真实置信程度。在训练过程中生成器和判别器两个相互博弈以提高半监督生成式对抗网络的性能。其中，采用的训练方法是在训练生成器的时候将判别器的权重参数固定，在训练生成器的时候将判别器的权重参数固定。

在一种示例中，半监督生成式对抗网络的学习方式满足：在训练阶段采用对抗损失方式学习标注样本。在训练阶段采用循环损失方式学习无标注样本。

示例的，上述半监督生成式对抗网络满足对抗损失函数。

上述对抗损失函数为：

其中，s为Y视频域的视频帧数；i为X视频域的视频帧数；D_Y(y_,)表示Y视频域的判别器；y_s表示Y视频域的视频帧；G_Y(M,x_i)表示X视频域到Y视频域的转换函数；M表示有标注中间帧；x_i表示X视频域内的视频帧。

采用上述对抗损失函数表示最大化判别器判别正确的概率同时最小化通过生成器获得的转换后视频被判别出来的概率。

由于上述半监督生成式对抗网络包括两生成器和两个判别器，可以完成视频的双向转换，所以半监督生成式对抗网络满足循环损失函数。

示例的，一个原始视频域的视频在经过一个生成器的转换之后获得目标视频域的转换后视频，之后目标视频域的转换后视频再经过另一个生成器的转换生成原始视频域的再生视频，此时原始视频域的视频和原始视频域的再生视频之间的误差称作循环损失。

通过循环损失可以从整个半监督生成式对抗网络的角度衡量半监督生成式对抗网络转换视频的性能。以循环损失作为目标函数，可以计算原始视频域的视频和原始视频域的再生视频的欧式距离作为循环损失。

循环损失可以从整体上优化多个生成器的性能，本发明提供的实施例中对于无标注样本采用循环损失方式进行训练，有利于半监督生成式对抗网络对不同视频域风格的学习，可以从整体方面提升半监督生成式对抗网络的性能。

示例的，上述循环损失函数为：

其中，i为视频帧数；G_Y(M,x_i)表示X视频域到Y视频域的转换函数；M表示有标注中间帧，x_i表示X视频域内的视频帧；G_X(M,G_Y(M,x_i))表示采用相同有标注中间帧M时将X视频域的视频帧x_i转换到Y视频域的视频帧后，在经过生成器G_X(·)将Y视频域的视频帧转换到X视频域；‖x_i-G_X(M,G_Y(M,x_i)‖₁表示经过生成器G_X(·)将Y视频域的视频帧转换到X视频域的视频帧与X视频域内的视频帧x_i之间的误差。

上述循环损失函数目的是使视频帧通过两次不同的生成器转换生成后与原始视频帧相同。

在一种示例中，利用上述半监督生成式对抗网络可以将一个视频域的视频或图片转换成另一个视频域的视频或图像。在这个过程中主要是由生成器来完成视频或图像的转换任务，由判别器来进行监督，在训练过程中不断提升半监督生成式对抗网络的转换性能。但是由于视频数据存在训练时间长，转换效果较差的缺点，所以需要设计更加精细的损失函数和半监督生成式对抗网络的模型架构，以便于提供有效的约束，在减少训练时长的同时提升半监督生成式对抗网络的性能。

在一种示例中，根据上述内容可获得光流损失函数、对抗损失函数和循环损失函数，将光流损失函数、对抗损失函数和循环损失函数分别加权构成联合损失函数，其中对于不同转换方向的同一种损失函数采用相同的权重。利用可选择的优化方法最小化联合损失函数，完成对半监督生成式对抗网络的训练。

示例的，本发明实施例采用带动量的随机梯度下降作为优化方法。由于转换方法的特殊性，所以batch-size选择为1，初始学习率选择为0.0001，对于一次训练总迭代次数为200。之后根据误差反向传播算法，利用联合损失函数计算误差，计算半监督生成式对抗网络中生成器和判别器中权重参数的梯度，根据梯度优化生成器和判别器中的参数。对于生成器和判别器，在优化生成器权重参数的时候固定判别器权重参数，在优化判别器权重参数的时候固定生成器权重参数。对于单个生成器来说，同时优化生成器中并行结构的参数。训练结束后即可得到两个生成器，用于完成两个视频域之间视频的互相转换。

上述主要从各个网元之间交互的角度对本发明实施例提供的方案进行了介绍。可以理解的是，各个网元，例如采集设备和终端设备等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对采集设备、标注设备和终端设备等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

上面结合图1至图4，对本发明实施例的方法进行了说明，下面对本发明实施例提供的执行上述视频转换方法进行描述。本领域技术人员可以理解，方法和装置可以相互结合和引用，本发明实施例提供的视频转换装置可以执行上述视频转换方法中由采集设备、标注设备和终端设备执行的步骤。

本发明实施例可以根据上述方法示例对采集设备、标注设备和终端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。应理解，采集设备和标注设备为现有结构，此处不再描述。下面仅对终端设备从集成单元的角度进行描述。

在采用对应集成单元的情况下，图5示出了本发明实施例提供的视频转换设备的结构框图。如图5所示，该设备30包括：通信单元32和处理单元31。

其中，

如图5所示，通信单元32用于支持视频转换装置执行上述实施例中由终端设备执行的步骤11和步骤12。处理单元31用于支持视频转换装置执行上述实施例中由终端设备执行的步骤13，步骤131至步骤133。

在一些可能的实现方式中，上述视频转换装置还可以包括存储单元33，用于存储基站的程序代码和数据。

其中，如图5所示，处理单元31可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，缩写为CPU)，通用处理器，数字信号处理器(Digital SignalProcessor，缩写为DSP)，专用集成电路(Application-Specific Integrated Circuit，缩写为ASIC)，现场可编程门阵列(Field Programmable Gate Array，缩写为FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理单元也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元可以是收发器、收发电路或通信接口等。存储单元可以是存储器。

如图5所示，以上通信单元32可以是该装置的一种通信接口，用于从其它装置接收信号。例如，当该装置30以芯片的方式实现时，该通信单元32是该芯片用于从其它芯片或装置接收信号或发送信号的通信接口。

当上述处理单元31为处理器，通信单元32为通信接口，存储单元33可以是存储器时，本发明实施例所涉及的视频转换装置可以为图6所示的视频转换装置。

如图6所示，本发明实施例提供的视频转换装置的一种集成模块示意图，该设备40包括处理器41以及与处理器41耦合的通信接口42。

如图6所示，通信接口42用于支持视频转换装置执行上述实施例中由终端设备执行的步骤11和步骤12。处理器41用于支持视频转换装置执行上述实施例中由终端设备执行的步骤13，步骤131至步骤133。

如图6所示，上述处理器41可以是一个通用中央处理器(central processingunit，缩写为CPU)，微处理器，专用集成电路(application-specific integratedcircuit，缩写为ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

如图6所示，上述通信接口42可以为一个或多个。通信接口可使用任何收发器一类的装置，用于与其他设备或通信网络通信。

如图6所示，上述终端设备还可以包括通信线路43。通信线路43可包括一通路，在上述组件之间传送信息。

如图6所示，该通信设备还可以包括存储器44。存储器44用于存储执行本发明方案的计算机执行指令，并由处理器41来控制执行。处理器41用于执行存储器44中存储的计算机执行指令，从而实现本发明下述实施例提供的视频转换方法。

如图6所示，存储器44可以是只读存储器(read-only memory，缩写为ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，缩写为RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，缩写为EEPROM)、只读光盘(compact disc read-only memory，缩写为CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器44可以是独立存在，通过通信线路42与处理器41和处理器45相连接。存储器44也可以和处理器41和处理器45集成在一起。

可选的，本发明实施例中的计算机执行指令也可以称之为应用程序代码，本发明实施例对此不作具体限定。

在具体实现中，作为一种实施例，如图6所示，处理器41可以包括一个或多个CPU，如图4中的CPU0和CPU1。

在具体实现中，作为一种实施例，如图6所示，该视频转换装置可以包括多个处理器，如图6中的处理器41和处理器45。这些处理器中的每一个可以是一个单核处理器，也可以是一个多核处理器。

图7是本发明实施例提供的芯片的结构示意图。如图7所示，该芯片50包括一个或两个以上(包括两个)处理器51和通信接口52。

可选的，如图7所示，该芯片50还包括存储器53。存储器53可以包括只读存储器和随机存取存储器，并向处理器51提供操作指令和数据。存储器53的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，缩写为NVRAM)。

在一些实施方式中，如图7所示，存储器53存储了如下的元素，执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

在本发明实施例中，如图7所示，通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

如图7所示，处理器51控制本发明实施例中电子设备包括的处理器和电源中任一个的处理操作，处理器501还可以称为中央处理单元(central processing unit，缩写为CPU)。

如图7所示，存储器53包括只读存储器和随机存取存储器，并向处理器53提供指令和数据。存储器53的一部分还可以包括NVRAM。例如应用中处理器51、通信接口52以及存储器53通过总线系统54耦合在一起，其中总线系统54除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图7中将各种总线都标为总线系统54。

如图7所示，上述本发明实施例揭示的方法可以应用于处理器51中，或者由处理器51实现。处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器(digital signal processing，缩写为DSP)、ASIC、现成可编程门阵列(field-programmable gate array，缩写为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器53，处理器51读取存储器中的信息，结合其硬件完成上述方法的步骤。

一种可能的实现方式中，如图7所示，通信接口52用于支持上述芯片50执行上述实施例中的终端设备的接收和发送的步骤。处理器51用于支持上述芯片50执行上述实施例中终端设备的处理的步骤。

一方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令被运行时，实现如图6和图7中处理器的功能。

一方面，提供一种芯片，该芯片应用于终端设备中，芯片包括至少一个处理器和通信接口，通信接口和至少一个处理器耦合，处理器用于运行指令，以实现上述实施例中由图6和图7中处理器执行的功能。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，缩写为DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，缩写为SSD)。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本发明进行了描述，显而易见的，在不脱离本发明的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明，且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。