CN112149545B

CN112149545B - 样本生成方法、装置、电子设备及存储介质

Info

Publication number: CN112149545B
Application number: CN202010975047.5A
Authority: CN
Inventors: 周慧子; 陈彦宇; 马雅奇; 谭龙田; 张黎
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2024-04-09
Anticipated expiration: 2040-09-16
Also published as: CN112149545A

Abstract

本发明实施例提供了一种样本生成方法、装置、电子设备及存储介质，所述方法包括：获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频；将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频；将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。如此通过将真实场景视频翻译成对应场景的虚拟场景视频，进而相关联以组成成对的真实场景视频以及虚拟场景视频，从而可以丰富样本，利用丰富的样本建模可以提升AR/VR用户的用户体验。

Description

样本生成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种样本生成方法、装置、电子设备及存储介质。

背景技术

随着AR(Augmented Reality，增强现实)/VR(Virtual Reality，灵境技术)的不断发展，未来游戏发展方向将不断朝着AR/VR发展。然而实现AR/VR需要大量的样本，其中，该样本可以包括成对的真实场景视频以及虚拟场景视频。目前，由于成对的真实场景视频以及虚拟场景视频获取难度较大，导致样本数量较少、比较匮乏，利用这些数量较少的样本建模进而导致AR/VR用户的用户体验较差。

发明内容

为了解决上述由于成对的真实场景视频以及虚拟场景视频获取难度较大，导致样本数量较少、比较匮乏，利用这些数量较少的样本建模进而导致AR/VR用户的用户体验较差的技术问题，本发明实施例提供了一种样本生成方法、装置、电子设备及存储介质。

在本发明实施例的第一方面，首先提供了一种样本生成方法，所述方法包括：

获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频；

将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频；

将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；

将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。

在一个可选的实施方式中，所述预设第一视频转换网络包括预设卷积网络和预设第一光流网络；

所述将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频，包括：

将所述真实场景视频输入所述预设卷积网络中，提取所述真实场景视频中每帧对应的视频特征；

将所述真实场景视频输入所述预设第一光流网络中，计算所述真实场景视频中相邻帧之间的第一光流信息；

基于所述视频特征以及所述第一光流信息，对所述真实场景视频进行视频转换处理，得到对应语义分割视频。

在一个可选的实施方式中，所述预设第一视频转换网络还包括预设反卷积网络：

所述基于所述视频特征以及所述第一光流信息，对所述真实场景视频进行视频转换处理，得到对应语义分割视频，包括：

将所述真实场景视频中每帧的前一帧对应的所述视频特征，与所述前一帧与所述每帧之间的所述第一光流信息进行融合，得到对应视频帧特征；

将所述真实场景视频中每帧对应的所述视频帧特征输入所述预设反卷积网络，得到所述真实场景视频对应的语义分割视频。

在一个可选的实施方式中，所述将所述真实场景视频中每帧的前一帧对应的所述视频特征，与所述前一帧与所述每帧之间的所述第一光流信息进行融合，得到对应视频帧特征，包括：

确定特征融合方法，其中，所述特征融合方法包括：双线性插值法、按点逐位相加法或拼接法；

利用所述特征融合方法将所述真实场景视频中每帧的前一帧对应的所述视频特征，与所述前一帧与所述每帧之间的所述第一光流信息进行融合，得到对应视频帧特征。

在一个可选的实施方式中，所述预设第二视频转换网络包括预设条件生成对抗网络和预设第二光流网络；

所述将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频，包括：

将所述语义分割视频输入所述预设第二光流网络中，计算所述语义分割视频中相邻帧之间的第二光流信息；

将所述语义分割视频输入所述预设条件生成对抗网络的生成器中，并融合所述第二光流信息，得到对应虚拟场景视频。

在一个可选的实施方式中，所述融合所述第二光流信息，包括：

将所述语义分割视频中每帧的前一帧与所述语义分割视频中每帧之间的所述第二光流信息，与所述语义分割视频中每帧进行融合。

在一个可选的实施方式中，所述将所述语义分割视频中每帧的前一帧与所述语义分割视频中每帧之间的所述第二光流信息，与所述语义分割视频中每帧进行融合，包括：

利用所述特征融合方法将所述语义分割视频中每帧的前一帧与所述语义分割视频中每帧之间的所述第二光流信息，与所述语义分割视频中每帧进行融合。

在一个可选的实施方式中，所述方法还包括：

获取与所述真实场景视频对应的实际虚拟场景视频以及所述语义分割视频；

将所述实际虚拟场景视频、所述虚拟场景视频以及所述语义分割视频输入所述预设条件生成对抗网络的判别器中进行所述预设条件生成对抗网络的优化；

利用经过优化的所述预设条件生成对抗网络更新所述预设条件生成对抗网络。

在本发明实施例的第二方面，提供了一种样本生成装置，所述装置包括：

视频获取模块，用于获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频；

第一输入模块，用于将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频；

第二输入模块，用于将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；

样本生成模块，用于将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。

在本发明实施例的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中所述的样本生成方法。

在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中所述的样本生成方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的样本生成方法。

本发明实施例提供的技术方案，通过获取真实场景视频，将该真实场景视频输入预设第一视频转换网络，得到对应语义分割视频，将该语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频，将真实场景视频与虚拟场景视频进行关联，确定相关联的真实场景视频与虚拟场景视频为样本。如此通过将真实场景视频翻译成对应场景的虚拟场景视频，进而相关联以组成成对的真实场景视频以及虚拟场景视频，从而可以丰富样本，利用丰富的样本建模可以提升AR/VR用户的用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中示出的一种样本生成方法的实施流程示意图；

图2为本发明实施例中示出的一种视频翻译模型的网络架构示意图；

图3为本发明实施例中示出的一种第一视频转换网络的网络架构示意图；

图4为本发明实施例中示出的一种生成语义分割视频的实施流程示意图；

图5为本发明实施例中示出的一种第二视频转换网络的网络架构示意图；

图6为本发明实施例中示出的一种生成虚拟场景视频的实施流程示意图；

图7为本发明实施例中示出的另一种第二视频转换网络的网络架构示意图；

图8为本发明实施例中示出的一种样本生成装置的结构示意图；

图9为本发明实施例中示出的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，为本发明实施例提供的一种样本生成方法的实施流程示意图，该方法具体可以包括以下步骤：

S101，获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频。

在本发明实施例中，可以获取真实场景视频，其中，该真实场景视频可以存在对应的实际虚拟场景视频。对于该真实场景视频，可以理解为针对真实场景采集的视频，而对于该实际虚拟场景视频，可以理解为利用计算机技术手段针对真实场景建模生成的虚拟场景视频，这里真实场景视频中涉及的真实场景与实际虚拟场景视频中涉及的真实场景相同。

例如，对于真实场景A、真实场景B、真实场景C分别采集对应的视频，可以称为真实场景视频a、真实场景视频b，真实场景视频c，可以获取上述真实场景视频a、真实场景视频b，真实场景视频c。

S102，将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频。

S103，将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频。

在本发明实施例中提出视频翻译模型，该视频翻译模型具体可以分为两个网络：第一视频转换网络及第二视频转换网络。其中，第一视频转换网络负责将真实场景视频转化成语义分割视频，第二视频转换网络负责将语义分割视频转化成虚拟场景视频，如图2所示。

基于上述视频翻译模型，对于获取的真实场景视频，可以将该真实场景视频输入视频翻译模型的第一视频转换网络中，可以得到对应语义分割视频，对于该语义分割视频，可以将该语义分割视频输入视频翻译模型的第二视频转换网络中，可以得到对应虚拟场景视频。

对于真实场景视频，可以由多帧真实场景图像组成，对于语义分割视频，可以由多帧语义分割图像组成，对于虚拟场景视频，可以由多帧虚拟场景图像组成，真实场景视频、语义分割视频、虚拟场景视频三者的视频帧数可以一致。

例如，对于上述获取的真实场景视频a、真实场景视频b，真实场景视频c，将真实场景视频a、真实场景视频b，真实场景视频c分别输入视频翻译模型的第一视频转换网络中，可以得到对应语义分割视频：语义分割视频1、语义分割视频2、语义分割视频3，其中，真实场景视频与语义分割视频的对应关系如下表1所示。

真实场景视频	语义分割视频
		真实场景视频a	语义分割视频1
真实场景视频b	语义分割视频2
		真实场景视频c	语义分割视频3

表1

对于语义分割视频1、语义分割视频2、语义分割视频3，可以将语义分割视频1、语义分割视频2、语义分割视频3分别输入视频翻译模型的第二视频转换网络中，可以得到对应虚拟场景视频：虚拟场景视频S1、虚拟场景视频S2、虚拟场景视频S3，其中，语义分割视频与虚拟场景视频的对应关系如下表2所示。

表2

需要说明的是，对于虚拟场景视频，是将真实场景视频翻译成对应场景的虚拟场景视频，可以理解为“假的”虚拟场景视频，与实际虚拟场景视频存在区别。

S104，将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。

对于上述得到的虚拟场景视频，可以将该虚拟场景视频与真实场景视频相关联，以组成成对的虚拟场景视频与真实场景视频，可以确定经过关联的真实场景视频与虚拟场景视频为样本，如此可以丰富样本，利用丰富的样本建模可以提升AR/VR用户的用户体验。

例如，对于上述真实场景视频a、真实场景视频b，真实场景视频c，以及上述虚拟场景视频S1、虚拟场景视频S2、虚拟场景视频S3，将真实场景视频a与虚拟场景视频S1相关联，将真实场景视频b与虚拟场景视频S2相关联，将真实场景视频c与虚拟场景视频S3相关联，如下表3所示。

真实场景视频	虚拟场景视频
		真实场景视频a	虚拟场景视频S1
真实场景视频b	虚拟场景视频S2
		真实场景视频c	虚拟场景视频S3

表3

对于相关联的真实场景视频a与虚拟场景视频S1，可以组成成对的真实场景视频与虚拟场景视频，可以确定相关联的真实场景视频a与虚拟场景视频S1为样本1；对于相关联的真实场景视频b与虚拟场景视频S2，可以组成成对的真实场景视频与虚拟场景视频，可以确定相关联的真实场景视频b与虚拟场景视频S2为样本2；相关联的真实场景视频c与虚拟场景视频S3，可以组成成对的真实场景视频与虚拟场景视频，可以确定相关联的真实场景视频c与虚拟场景视频S3为样本3，如此可以丰富样本。

通过上述对本发明实施例提供的技术方案的描述，通过获取真实场景视频，将该真实场景视频输入预设第一视频转换网络，得到对应语义分割视频，将该语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频，将真实场景视频与虚拟场景视频进行关联，确定相关联的真实场景视频与虚拟场景视频为样本。如此通过将真实场景视频翻译成对应场景的虚拟场景视频，进而相关联以组成成对的真实场景视频以及虚拟场景视频，从而可以丰富样本，利用丰富的样本建模可以提升AR/VR用户的用户体验。

如图3所示，对于第一视频转换网络，可以包括卷积网络(即卷积神经网络)、第一光流网络以及反卷积网络(即反卷积神经网络)。其中，对于卷积网络，负责提取真实场景视频中每帧对应的视频特征(例如颜色、纹理、边缘等图像中含有的特征)，对于第一光流网络，负责计算真实场景视频中相邻帧之间的第一光流信息，对于反卷积网络，负责生成真实场景视频对应的语义分割视频。

对于卷积网络，例如可以是LeNet-5、AlexNet、VGGNet、GoogleNet、ResNet等，本发明实施例对此不作限定。对于反卷积网络，与卷积网络参数一致，区别在于矩阵参数水平和垂直方向翻转，本发明实施例对此不作限定。对于第一光流网络，例如可以是FlowNet、FlowNet2，本发明实施例对此不作限定。

对于光流信息，可以理解为时变图像(也就是视频)中模式运动速度(包括速度的大小和方向)。当物体在运动时，它在图像上对应像素点的亮度模式也在运动，图像中所有像素点构成一种二维瞬时速度场。利用时变图像中像素点在时间域上的变化以及相邻帧之间的相关性来找到前一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之前物体的运动信息。

基于上述如图3所示的第一视频转换网络，如图4所示，本发明实施例具体可以通过以下步骤生成对应语义分割视频：

S401，将所述真实场景视频输入所述预设卷积网络中，提取所述真实场景视频中每帧对应的视频特征。

对于上述获取的真实场景视频，可以将该真实场景视频输入第一视频转换网络的卷积网络中，提取该真实场景视频中每帧对应的视频特征。

以真实场景视频a为例，将该真实场景视频a输入卷积网络中，提取该真实场景视频中第1帧、第2帧、第3帧……各自对应的视频特征。

S402，将所述真实场景视频输入所述预设第一光流网络中，计算所述真实场景视频中相邻帧之间的第一光流信息。

对于上述获取的真实场景视频，可以将该真实场景视频输入第一视频转换网络的第一光流网络中，计算该真实场景视频中相邻帧之间的第一光流信息。

以真实场景视频a为例，将该真实场景视频a输入第一视频转换网络的第一光流网络中，计算该真实场景视频a中相邻帧之间的第一光流信息，如下表4所示。

相邻帧	第一光流信息
		第1帧与第2帧	第一光流信息1
第2帧与第3帧	第一光流信息2
		……	……

表4

S403，基于所述视频特征以及所述第一光流信息，对所述真实场景视频进行视频转换处理，得到对应语义分割视频。

对于提取的该真实场景视频中每帧对应的视频特征，以及所计算的真实场景视频中相邻帧之间的第一光流信息，可以据此对真实场景视频进行视频转换处理，得到对应语义分割视频。

具体地，可以将真实场景视频中每帧的前一帧对应的视频特征，和真实场景视频中每帧的前一帧与真实场景视频中每帧之间的第一光流信息进行融合，得到真实场景视频中每帧对应的视频帧特征，将真实场景视频中每帧对应的视频帧特征输入反卷积网络，得到真实场景视频对应的语义分割视频。

以真实场景视频a为例，将第1帧(即第2帧的前一帧)对应的视频特征，和第1帧(即第2帧的前一帧)与第2帧之间的第一光流信息进行融合，如此可以得到关联了前后帧信息且具有连贯性的视频特征(即第2帧对应的视频特征)，将该视频特征输入反卷积网络，得到第2帧对应的语义分割图像；将第2帧(即第3帧的前一帧)对应的视频特征，和第2帧(即第3帧的前一帧)与第3帧之间的第一光流信息进行融合，如此可以得到关联了前后帧信息且具有连贯性的视频特征(即第3帧对应的视频特征)，将该视频特征输入反卷积网络，得到第3帧对应的语义分割图像，如此类推，最终可以得到真实场景视频对应的语义分割视频。

需要说明的是，对于真实场景视频中第1帧，由于它没有前一帧，本身没有连贯性，所以第1帧保持不变，语义分割视频中第1帧即真实场景视频中第1帧。

对于真实场景视频中每帧的前一帧对应的视频特征，和真实场景视频中每帧的前一帧与真实场景视频中每帧之间的第一光流信息的融合方式，具体可以采用如下特征融合方法：双线性插值法、按点逐位相加法或拼接法。

利用上述特征融合方法将真实场景视频中每帧的前一帧对应的视频特征，和真实场景视频中每帧的前一帧与真实场景视频中每帧之间的第一光流信息进行融合，得到真实场景视频中每帧对应的视频帧特征。如此对于语义分割视频中语义分割图像，关联了前后帧信息且具有连贯性特征，可以解决视频翻译时，存在前后帧关键信息不一致、信息模糊扭曲、视频连贯性差的问题，使虚拟场景视频更贴近真实场景视频，带给AR/VR用户更真实的用户场景体验。

这里语义分割，可以理解为将识别特征语义投影到像素空间上，得到密集的分类，将特征转换成具有突出显示的感兴趣区域的掩膜(通俗点讲就是把某一张图像中含有的物体做一个分类区域)，视频特征经过反卷积网络就变成了语义分割的图像，即语义分割图像。

如图5所示，对于第二视频转换网络，可以包括条件生成对抗网络和和第二光流网络。其中，对于第二光流网络，负责计算语义分割视频中相邻帧之间的第二光流信息，对于条件生成对抗网络，负责生成语义分割视频对应的虚拟场景视频。

基于上述如图5所示的第二视频转换网络，如图6所示，本发明实施例具体可以通过以下步骤生成对应虚拟场景视频：

S601，将所述语义分割视频输入所述预设第二光流网络中，计算所述语义分割视频中相邻帧之间的第二光流信息。

对于上述生成的语义分割视频，可以将该语义分割视频输入第二视频转换网络的第二光流网络中，计算该语义分割视频中相邻帧之间的第二光流信息。

以语义分割视频1为例，将该语义分割视频1输入第二视频转换网络的第二光流网络中，计算该语义分割视频1中相邻帧之间的第二光流信息，如下表5所示。

相邻帧	第二光流信息
		第1帧与第2帧	第二光流信息1
第2帧与第3帧	第二光流信息2
		……	……

表5

S602，将所述语义分割视频输入所述预设条件生成对抗网络的生成器中，并融合所述第二光流信息，得到对应虚拟场景视频。

对于上述生成的语义分割视频，可以将该语义分割视频输入第二视频转换网络的条件生成对抗网络的生成器中，并融合语义分割视频中相邻帧之间的第二光流信息，得到对应虚拟场景视频。其中，将语义分割视频中每帧的前一帧与语义分割视频中每帧之间的第二光流信息，与语义分割视频中每帧进行融合。

以语义分割视频1为例，可以将该语义分割视频1输入第二视频转换网络的条件生成对抗网络的生成器中，并且将第1帧与第2帧之间的第二光流信息，与第2帧进行融合，得到第2帧对应的虚拟场景图像，将第2帧与第3帧之间的第二光流信息，与第3帧进行融合，得到第3帧对应的虚拟场景图像，如此类推，最终可以得到语义分割视频对应的虚拟场景视频。

需要说明的是，对于语义分割视频中第1帧，由于它没有前一帧，本身没有连贯性，所以第1帧保持不变，虚拟场景视频中第1帧即真实场景视频中第1帧。

对于语义分割视频中每帧的前一帧与语义分割视频中每帧之间的第二光流信息，与语义分割视频中每帧的融合方式，具体可以采用如下特征融合方法：双线性插值法、按点逐位相加法或拼接法，利用上述特征融合方法将语义分割视频中每帧的前一帧与语义分割视频中每帧之间的第二光流信息，与语义分割视频中每帧进行融合。

对于条件生成对抗网络，除了包括上述生成器之外，可以包括两个判别器，如图7所示。对于判别器1，可以用来判断虚拟场景视频中单帧的真假(即与真实场景视频中单帧的贴近程度)，判别器2，可以用来判断虚拟场景视频连续帧之间的连贯性。

本发明实施例可以获取与真实场景视频对应的实际虚拟场景视频以及语义分割视频，将实际虚拟场景视频、虚拟场景视频以及语义分割视频输入条件生成对抗网络的判别器中进行条件生成对抗网络的优化；利用经过优化的条件生成对抗网络更新条件生成对抗网络。

其中，生成器G，采用最小二乘损失函数；判别器1，设置损失函数L₁；判别器2，设置损失函数L_v，如下所示。

D₁是图像判别器，r_i'表示生成的虚拟场景视频中单帧，r_i表示实际虚拟场景视频中单帧，s_i表示语义分割视频中单帧。其中，单帧为任意帧。

D_v是视频判别器，表示实际虚拟场景视频中t帧，/>表示语义分割视频中t帧，表示虚拟场景视频中t帧(t帧与前一帧)对应的光流矢量，/>表示虚拟场景视频中t帧。

由生成器G和两个判别器的损失函数组成目标函数：

这里最小化G，最大化D₁和D_v，采用自适应矩估计法优化生成器和两个判别器的网络参数。

与上述方法实施例相对应，本发明实施例还提供了一种样本生成装置，如图8所示，该装置可以包括：视频获取模块810、第一输入模块820、第二输入模块830、样本生成模块840。

视频获取模块810，用于获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频；

第一输入模块820，用于将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频；

第二输入模块830，用于将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；

样本生成模块840，用于将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信，

存储器93，用于存放计算机程序；

处理器91，用于执行存储器93上所存放的程序时，实现如下步骤：

获取真实场景视频，其中，所述真实场景视频包括针对真实场景采集的视频；将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频；将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的样本生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的样本生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种样本生成方法，其特征在于，所述方法包括：

预设第一视频转换网络包括预设卷积网络和预设第一光流网络，将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频，包括：将所述真实场景视频输入所述预设卷积网络中，提取所述真实场景视频中每帧对应的视频特征；将所述真实场景视频输入所述预设第一光流网络中，计算所述真实场景视频中相邻帧之间的第一光流信息；基于所述视频特征以及所述第一光流信息，对所述真实场景视频进行视频转换处理，得到对应语义分割视频；

将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；所述预设第二视频转换网络包括预设条件生成对抗网络和预设第二光流网络，所述将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频，包括：将所述语义分割视频输入所述预设第二光流网络中，计算所述语义分割视频中相邻帧之间的第二光流信息；将所述语义分割视频输入所述预设条件生成对抗网络的生成器中，并融合所述第二光流信息，得到对应虚拟场景视频；

所述融合所述第二光流信息，包括：将所述语义分割视频中每帧的前一帧与所述语义分割视频中每帧之间的所述第二光流信息，与所述语义分割视频中每帧进行融合；

将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本；

获取与所述真实场景视频对应的实际虚拟场景视频以及所述语义分割视频；将所述实际虚拟场景视频、所述虚拟场景视频以及所述语义分割视频输入所述预设条件生成对抗网络的判别器中进行所述预设条件生成对抗网络的优化；利用经过优化的所述预设条件生成对抗网络更新所述预设条件生成对抗网络。

2.根据权利要求1所述的方法，其特征在于，所述预设第一视频转换网络还包括预设反卷积网络：

3.根据权利要求2所述的方法，其特征在于，所述将所述真实场景视频中每帧的前一帧对应的所述视频特征，与所述前一帧与所述每帧之间的所述第一光流信息进行融合，得到对应视频帧特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述语义分割视频中每帧的前一帧与所述语义分割视频中每帧之间的所述第二光流信息，与所述语义分割视频中每帧进行融合，包括：

5.一种样本生成装置，其特征在于，所述装置包括：

第一输入模块，用于预设第一视频转换网络包括预设卷积网络和预设第一光流网络，将所述真实场景视频输入预设第一视频转换网络，得到对应语义分割视频，包括：将所述真实场景视频输入所述预设卷积网络中，提取所述真实场景视频中每帧对应的视频特征；将所述真实场景视频输入所述预设第一光流网络中，计算所述真实场景视频中相邻帧之间的第一光流信息；基于所述视频特征以及所述第一光流信息，对所述真实场景视频进行视频转换处理，得到对应语义分割视频；

第二输入模块，用于将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频；所述预设第二视频转换网络包括预设条件生成对抗网络和预设第二光流网络，所述将所述语义分割视频输入预设第二视频转换网络，得到对应虚拟场景视频，包括：将所述语义分割视频输入所述预设第二光流网络中，计算所述语义分割视频中相邻帧之间的第二光流信息；将所述语义分割视频输入所述预设条件生成对抗网络的生成器中，并融合所述第二光流信息，得到对应虚拟场景视频；

样本生成模块，用于将所述真实场景视频与所述虚拟场景视频进行关联，确定经过关联的所述真实场景视频与所述虚拟场景视频为样本；

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至4中任一项所述的方法步骤。

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的方法。