CN114904270A

CN114904270A - 虚拟内容的生成方法及装置、电子设备、存储介质

Info

Publication number: CN114904270A
Application number: CN202210508114.1A
Authority: CN
Inventors: 司世景; 王健宗; 李泽远; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-16
Anticipated expiration: 2042-05-11
Also published as: CN114904270B

Abstract

本申请公开了一种虚拟内容的生成方法及装置、电子设备、存储介质，涉及人工智能技术领域，该方法包括：获取目标文本和目标图像。对目标图像进行语义分割处理，得到语义分割图，以及，生成目标图像的描述文本，描述文本用于从语义上对目标图像进行描述。将目标文本和描述文本进行组合，得到场景描述信息。将场景描述信息和语义分割图输入生成对抗模型中，得到合成图像，从而根据合成图像，生成虚拟内容。可见，只需用户输入图像和文字，就能够生成满足用户个性化需求的虚拟内容，提升了生成虚拟内容的灵活性，有利于实现沉浸式体验，又能够降低开发门槛及难度，增加了生成虚拟内容的开放性、创造性和自由度。

Description

虚拟内容的生成方法及装置、电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种虚拟内容的生成方法及装置、电子设备、存储介质。

背景技术

“元宇宙”，是指利用科技手段创造的与现实世界映射与交互的虚拟世界，具备新型社会体系的数字生活空间。在虚拟现实(virtual reality，VR)技术以及用户原创内容(user generated content，UGC)游戏社区的蓬勃发展下，虚拟游戏行业成为“元宇宙”的先发领域，已经出现基于“元宇宙”底层逻辑和虚拟体验的产品。实践中发现，当前的虚拟游戏产品存在角色和场景单调等硬性问题，因此开发者需要对大量真实世界及虚拟世界的客体进行建模，从而不断丰富多元化的虚拟角色或场景。然而，这种方式仍无法灵活满足不同用户需求，不利于实现沉浸式体验。

发明内容

本申请提供一种虚拟内容的生成方法及装置、电子设备、存储介质，其主要目的在于提升生成虚拟内容的灵活性，能够更好地满足不同用户需求，实现沉浸式体验。

为实现上述目的，本申请实施例提供了一种虚拟内容的生成方法，所述方法包括以下步骤：

获取目标文本和目标图像；

对所述目标图像进行语义分割处理，得到语义分割图，以及，生成所述目标图像的描述文本，所述描述文本用于从语义上对所述目标图像进行描述；

将所述目标文本和所述描述文本进行组合，得到场景描述信息；

将所述场景描述信息和所述语义分割图输入生成对抗模型中，得到合成图像；

根据所述合成图像，生成虚拟内容。

在一些实施例中，所述目标文本包括至少一个第一字段，所述描述文本包括至少一个第二字段；所述将所述目标文本和所述描述文本进行组合，得到场景描述信息，包括：

将所述第一字段与所述第二字段进行配对，得到配对结果；根据所述配对结果，从多个预设的结构化模板中获取目标模板；将所述配对结果代入所述目标模板中，得到场景描述信息。

在一些实施例中，所述生成所述目标图像的描述文本，包括：

从所述目标图像中识别出多个检测目标，并生成所述检测目标对应的描述词汇；对所有所述描述词汇进行排序，得到描述词汇序列；将所述描述词汇序列和所述目标图像输入预先确定的生成模型中，得到所述目标图像的描述文本。

在一些实施例中，所述生成模型的训练步骤包括：

获取图像样本以及所述图像样本对应的多个描述标签；

对所述多个描述标签进行排序，得到第一序列；

对所述第一序列中包含的描述标签进行随机遮挡处理，得到第二序列；

利用所述图像样本和所述第二序列对生成模型进行训练，得到第一训练结果；

利用所述第一序列验证所述第一训练结果是否满足第一训练结束条件，若满足所述第一训练结束条件，则结束训练；若不满足所述第一训练结束条件，则重新执行所述获取图像样本以及所述图像样本对应的多个描述标签的步骤。

在一些实施例中，所述对所有所述描述词汇进行排序，得到描述词汇序列，包括：

对所有所述描述词汇进行语序调整，得到第三序列；

在所述第三序列中插入至少一个文本符，得到描述词汇序列；

所述将所述描述词汇序列和所述目标图像输入预先确定的生成模型中，得到所述目标图像的描述文本，包括：

将所述描述词汇序列和所述目标图像输入预先确定的生成模型中，得到每个所述文本符对应的候选文本以及所述候选文本的概率，并将概率最大的候选文本确定为所述文本符的匹配文本；

将所有所述描述词汇以及所述匹配文本确定为所述目标图像的描述文本。

在一些实施例中，所述将所述场景描述信息和所述语义分割图输入生成对抗模型中，得到合成图像，包括：

从预设数据集中获取与所述场景描述信息匹配的第一真实图像；将所述第一真实图像和所述语义分割图输入生成对抗模型中，得到合成图像。

在一些实施例中，所述生成对抗模型包括生成器和判别器，所述生成对抗模型的训练步骤包括：

获取分割图样本和场景描述样本；

从所述预设数据集中获取与所述场景描述样本匹配的第二真实图像；

将所述分割图样本输入生成器中，得到第一生成图像；

在所述第一生成图像中增加随机噪声，得到第二生成图像；

将所述第二生成图像和所述第二真实图像输入判别器中，得到判别结果；

若根据所述判别结果判定所述第二生成图像与所述第二真实图像满足指定区分条件，则训练结束；若判定所述第二生成图像与所述第二真实图像不满足所述指定区分条件，则根据所述判别结果调整所述生成器的参数，再执行所述获取分割图样本和场景描述样本的步骤。

为实现上述目的，本申请实施例还提出了一种虚拟内容的生成装置，所述装置包括：

获取模块，用于获取目标文本和目标图像；

语义分割模块，用于对所述目标图像进行语义分割处理，得到语义分割图；

描述模块，用于生成所述目标图像的描述文本，所述描述文本用于从语义上对所述目标图像进行描述；

组合模块，用于将所述目标文本和所述描述文本进行组合，得到场景描述信息；

第一生成模块，用于将所述场景描述信息和所述语义分割图输入生成对抗模型中，得到合成图像；

第二生成模块，用于根据所述合成图像，生成虚拟内容。

为实现上述目的，本申请实施例还提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有程序，所述程序被所述处理器执行时实现前述方法的步骤。

为实现上述目的，本申请提供了一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法的步骤。

本申请提出的虚拟内容的生成方法及装置、电子设备、存储介质，通过获取目标文本和目标图像，可以对目标图像进行语义分割处理，得到语义分割图，并生成目标图像的描述文本，描述文本用于从语义上对目标图像进行描述。基于此，将目标文本和描述文本进行组合，得到场景描述信息，故场景描述信息可以完整描述目标文本以及目标图像所包含的语义特征，实现多模态特征之间的融合，进一步强化了语义理解的准确度。最后，将场景描述信息和语义分割图输入生成对抗模型中，即可得到合成图像，从而根据合成图像生成虚拟内容。可见，只需用户输入图像和文字，就能够生成满足用户个性化需求的虚拟内容，提升了生成虚拟内容的灵活性，有利于实现沉浸式体验，又能够降低开发门槛及难度，增加了生成虚拟内容的开放性、创造性和自由度。

附图说明

图1是本申请实施例所应用的一种电子设备的结构框图；

图2是本申请实施例提供的一种虚拟内容的生成方法的流程示意图；

图3是图2中步骤S220的一种具体流程示意图；

图4是图2中步骤S230的一种具体流程示意图；

图5是本申请实施例中一种生成对抗模型的结构示意图；

图6是本申请实施例所应用的一种虚拟内容的生成装置的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术，而人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

“元宇宙”，是指利用科技手段创造的与现实世界映射与交互的虚拟世界，具备新型社会体系的数字生活空间。在VR技术以及UGC游戏社区的蓬勃发展下，虚拟游戏行业成为“元宇宙”的先发领域，已经出现基于“元宇宙”底层逻辑和虚拟体验的产品。实践中发现，当前的虚拟游戏产品存在角色和场景单调等硬性问题，因此开发者需要对大量真实世界及虚拟世界的客体进行建模，从而不断丰富多元化的虚拟角色或场景。然而，这种方式仍无法灵活满足不同用户需求，不利于实现沉浸式体验。

为了解决上述问题，本申请提供一种虚拟内容的生成方法，应用于一种电子设备。参照图1所示，图1是本申请实施例所应用的一种电子设备的结构框图。

在本申请实施例中，电子设备可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子设备包括：存储器11、处理器12、网络接口13及数据总线14。

存储器11包括至少一种类型的可读存储介质，至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子设备的内部存储单元，例如该电子设备的硬盘。在另一些实施例中，可读存储介质也可以是电子设备的外部存储器，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，存储器11的可读存储介质通常用于存储安装于电子设备的虚拟内容的生成程序、多种样本集及预先训练好的模型等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行虚拟内容的生成程序等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备与其他电子设备之间建立通信连接。

数据总线14用于实现这些组件之间的连接通信。

可选的，该电子设备还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选的，该电子设备还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

可选的，该电子设备还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子设备的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

下面对本申请实施例公开的一种虚拟内容的生成方法进行具体说明。

如图2所示，图2是本申请实施例提供的一种虚拟内容的生成方法的流程示意图。基于图1所示的电子设备，处理器12执行存储器11中存储的程序时实现如下步骤S200至步骤S250。

步骤S200：获取目标文本和目标图像。

在本申请实施例中，目标文本和目标图像分别是用户指定的任意文本和图像，目标文本可以是至少一个词汇、句子或段落等，目标图像的数量也可以是至少一个，均不作具体限定。

可选的，步骤S200具体为：获取多模态数据，并根据多模态数据，生成目标文件和目标图像。模态表示不同的信息来源或形式，常见的多模态数据包括但不限于文本、图像、视频或音频等。一种实现方式中，如果多模态数据中包括视频，可以从视频中提取出多个图像帧，并将图像帧确定为目标图像。进一步的，多个图像帧还可以满足指定提取条件，指定提取条件包括但不限于：任意两个图像帧之间的时序间隔大于或等于预设间隔，或，任意两个图像帧之间的像素差大于或等于预设像素阈值，既能够减少不必要的计算资源，又保留动态特征。再进一步的，还可以根据图像帧的时序信息，从多个图像帧中识别出动态信息，并将对动态信息的语义描述加入目标文本。动态信息包括但不限于人体姿态信息、物体运动信息或表情变化信息中至少一项，相应的，识别动态信息的算法包括现有的人体姿态算法、运动目标检测算法(比如光流法)和表情检测算法等。比如，从多个图像帧中识别出街舞动作，则将“街舞”加入目标文本。此外，引入动态特征的语义描述，可以挖掘更为准确的创作内容，比如，如果一张图像包含坐在床上的小孩，只能从该图像中识别文本“小孩”和“床”，但如果输入视频，则可以分别识别“起床”和“躺下”这两种截然不同的动态特征，更加贴合实际需求。

另一种实现方式中，如果多模态数据包括音频，可以对音频进行语音识别，并将语音识别的结果加入目标文本。或者，如果音频为音乐，还可以根据音乐的风格(比如电子、流行、嘻哈说唱、民谣、摇滚、古典和蓝调等)、语言、歌手或作家等信息，生成音乐关键词以加入目标文本。

步骤S210：对目标图像进行语义分割处理，得到语义分割图。

在本申请实施例中，语义分割处理用于根据图像语义将目标图像分割为多个像素区域，每个像素区域对应于不同的语义含义，比如，将目标图像分割为建筑、树木、汽车、行人和道路分别对应的像素区域。其中，可以采用全卷积神经网络、SegNet网络、条件随机场优化或生成对抗网络等方式对目标图像进行语义分割，不做具体限定。

步骤S220：生成目标图像的描述文本，描述文本用于从语义上对目标图像进行描述。

一种可选的实施方式中，步骤S220具体为：对目标图像进行预处理，得到预处理图像，预处理包括但不限于：灰度化、降噪、二值化及归一化。对预处理图像进行图像特征提取，得到图像特征，其中，图像特征提取算法包括但不限于：方向梯度直方图(histogram oforiented gradient，HOG)、尺度不变特征变化(scale-invariant features transform，SIFT)以及高斯函数差分(difference of gaussians)等。之后，利用分类器对图像特征进行分类，得到多个检测目标以及每个检测目标对应的描述文本，并将每个检测目标对应的描述词汇确定为描述文本。其中，检测目标包括但不限于边界框和分类标签等，分类器包括但不限于决策树、逻辑回归、朴素贝叶斯以及神经网络算法等。

另一种可选的实施方式中，如图3所示，步骤S220也可以至少包括以下步骤S221至S223。

步骤S221：从目标图像中识别出多个检测目标，并生成检测目标对应的描述词汇。

比如，针对一张街景图像，生成的描述词汇包括行人、树木、道路和车辆等。

步骤S222：对所有描述词汇进行排序，得到描述词汇序列。

一种实现方式中，可以通过分类器获取每个描述词汇的词汇概率，并按照词汇概率从大到小的次序对所有描述词汇进行排序。另一种实现方式中，也可以获取每个描述词汇的文本类型，并根据文本类型对所有描述词汇进行语序调整，从而根据语序调整的结果生成描述词汇序列。其中，文本类型包括但不限于名词、代词、动词、形容词、主语、谓语、宾语、定语、状语和补语中至少一种。可以理解，语序调整的结果更加符合语法表达的流畅性，比如，主语的排序优先于谓语，而谓语的排序优先于宾语。

步骤S223：将描述词汇序列和目标图像输入预先确定的生成模型中，得到目标图像的描述文本。

在本申请实施例中，生成模型用于根据输入的图像对描述词汇序列进行文本拓展，生成描述文本，此时描述文本也可以包括词汇序列，从而将目标检测转换为语言建模任务，简化了模型复杂度，更好地适应多种数据集，为下游任务提供了丰富的图文特征。生成模型可以采用Seq2Seq模型、Pix2Seq模型或视觉和语言与训练模型(VL-PLM)等，对此不做具体限定。通常来说，生成模型可以包括编码器和解码器，编码器用于感知图像像素输入，解码器用于生成描述文本。

一种实现方式，步骤S222可以包括：对所有描述词汇进行语序调整，得到第三序列。在第三序列中插入至少一个文本符，得到描述词汇序列。可选的，可以在第三序列中随机插入至少一个文本符。或者，根据指定的词汇模板，从第三序列中确定缺少的文本类型，并在第三序列中缺少的文本类型所对应的语序位置处插入文本符，比如，如果第三序列包括(羊，草)，而指定的词汇模板包括主语、谓语和宾语，故确定第三序列中缺少谓语，则在第三序列中插入文本符[MASK]，得到描述词汇序列(羊，[MASK]，草)。对插入文本符的方式不做具体限定。

相应的，步骤S223为：将描述词汇序列和目标图像输入预先确定的生成模型中，得到每个文本符对应的候选文本以及候选文本的概率，并将概率最大的候选文本确定为文本符的匹配文本。将所有描述词汇以及匹配文本确定为目标图像的描述文本，从而将文本输入转换为包含图像任务描述的完形填空问题，相当于对现有知识进行检索，使得描述文本携带更多信息量，有利于提高下游预测任务的语义理解准确度。

可选的，还可以从目标图像的语义分割图中获取多个基于语义分割的特征区域，再对描述词汇序列和多个特征区域构建第一标记序列，从而将第一标记序列输入生成模型中，能够构建图像区域与文本的定位关系。或者，为上述每个特征区域标记不同颜色后，再对标记颜色后的特征区域和描述词汇序列构建第二标记序列，从而将第二标记序列输入生成模型中。

示例性的，根据目标图像分别生成特征区域A、B和C，并获得描述文本(woman，[MASK]，horse)。基于此，构建标记序列{[IMG]，A，B，C，[CLS]，woman，[MASK]，horse，[SEP]}，其中，[IMG]、[CLS]和[SEP]均为特殊词元。将上述标记序列输入生成模型中，通过生成模型生成隐藏表示，即:

{h_[]，h_A，h_B，h_C，h_[CLS]，h_woman，h_[]，h_horse，h_[SEP]}，再对隐藏表示进行分类处理，得到文本符[MASK]对应的全部候选文本及其概率，比如“watch”和“ride”等。假设候选文本“watch”的概率最大，则“watch”为文本符[MASK]的匹配文本，并将“woman”、“watch”和“horse”确定为目标图像的描述文本。

另一种实现方式中，生成模型的训练方式至少可以包括以下步骤：

获取图像样本以及图像样本对应的多个描述标签，描述标签用于从语义上对图像样本进行描述，比如包围盒和分类标签等；

对多个描述标签进行排序，得到第一序列，其中，对多个描述标签进行排序的方式具体可参照上述步骤S222中对所有描述词汇进行排序的描述，不再赘述；

对第一序列中包含的描述标签进行随机遮挡处理，得到第二序列；

利用图像样本和第二序列对生成模型进行训练，得到第一训练结果；

利用第一序列验证第一训练结果是否满足第一训练结束条件，若满足第一训练结束条件，则结束训练；若不满足第一训练结束条件，则重新执行获取图像样本以及图像样本对应的多个描述标签的步骤。

其中，第一训练结束条件可以表示第一序列与第一训练结果之间的准确度满足指定准确度。具体的，可以构建目标函数，通过将第一序列和第一训练结果代入目标函数中，得到准确度。目标函数可以采用交叉熵损失函数或对数似然函数等，不做具体限定。

可选的，还可以采用以下至少一种数据增强方式，从而丰富训练样本，即：

对图像样本进行数据增强处理(比如随机缩放和裁剪等)，得到处理后的图像样本以用于对生成模型进行训练。

对第一序列进行数据增强处理(比如同义词替换、随机交换和回译等)，得到处理后的第一序列，从而对处理后的第一序列中包含的描述标签进行随机遮挡处理，得到第二序列。

步骤S230：将目标文本和描述文本进行组合，得到场景描述信息。

在本申请实施例中，目标文本包括至少一个第一字段，描述文本包括至少一个第二字段。第一字段和第二字段均可以是词汇或者短语等，不做具体限定。作为一种可选的实施方式，如图4所示，步骤S230至少可以包括以下步骤S231至S233：

步骤S231：将第一字段与第二字段进行配对，得到配对结果。

示例性的，假设目标文本包括n(n为正整数)个第一字段object₁至object_n，描述文本包括m(m为正整数)个第二字段target₁至target_m，则可以将第一字段object₁分别与第二字段target₁至target_m配对，得到m个配对组，再将第一字段object₂分别与第二字段target₁至target_m配对，得到m个配对组，以此类推，直至每个第一字段均与m个第二字段完成配对，从而将m×n个配对组作为最终的配对结果。

步骤S232：根据配对结果，从多个预设的结构化模板中获取目标模板。

在本申请实施例中，结构化模板可以是预先设计的结构化文本。具体的，结构化文本可以包括提示文本和待填入文本位置，比如，结构化模板为“a______style of______”，其中，“a”与“style of”均为提示文本，下划线“______”为待填入文本位置。

步骤S233：将配对结果代入目标模板中，得到场景描述信息。

可以理解，当配对结果包括多个配对组，场景描述信息可以包括每个配对组的场景描述文本。一种实现方式中，可以为每个配对组设定相同的目标模板。另一种方式中，可以根据每个配对组包含的文本类型，获取与配对组匹配的目标模板，从而将每个配对组代入相应的目标模板中，得到配对组的场景描述文本。示例性的，如果一个配对组中包含第一字段“cyberpunk”和第二字段“street”，可知第一字段“cyberpunk”为形容词，第二字段“street”为名词，则可以将上述结构化模板“a______style of______”作为目标模板，并将第一字段“cyberpunk”代入第一个下划线处，将第二字段“street”代入第二个下划线处，得到场景描述文本“a cyberpunk style of street”。

现有技术中，基于Transformer的多模态模型是对BERT和ResNet等模型进行简单堆砌，故其提取的图像特征无法很好地与文本的词概率模型融合，例如，文本特征是字或词，而图像特征是全局特征，两个不同模型的粒度未能对齐。或者，将指定图像分割成局部块以表示视觉词，从而将视觉词与指定文本相融合，但由于无法用固定大小的块来捕捉图像中各种物体的语义特征，这种方式也较为粗糙。而，本申请中采用提示微调的方法，既实现不同模态特征之间的准确融合，又进一步拓展了基于目标图像和目标文本生成场景描述信息的多样性。

步骤S240：将场景描述信息和语义分割图输入生成对抗模型中，得到合成图像。

作为一种可选的实施方式，步骤S240具体可以为：从预设数据集中获取与场景描述信息匹配的第一真实图像。将第一真实图像和语义分割图输入生成对抗模型中，得到合成图像。

其中，预设数据集用于存储大量真实图像。可选的，每个真实图像被标注有检索标签，则在实际应用中，将场景描述信息与检索标签进行匹配，可以得到与场景描述信息匹配的检索标签，进而获得与场景描述信息匹配的第一真实图像。

进一步的，作为一种可选的实施方式，生成对抗模型包括生成器和判别器，且生成对抗模型的训练步骤至少包括：

获取分割图样本和场景描述样本，其中，分割图样本可以表示图像样本的语义分割图。从预设数据集中获取与场景描述样本匹配的第二真实图像。将分割图样本输入生成器中，得到第一生成图像。在第一生成图像中增加随机噪声，得到第二生成图像。将第二生成图像和第二真实图像输入判别器中，得到判别结果。若根据判别结果判定第二生成图像与第二真实图像满足指定区分条件，则训练结束；若判定第二生成图像与第二真实图像不满足指定区分条件，则根据判别结果调整生成器的参数，再执行获取分割图样本和场景描述样本的步骤。

其中，判别结果表示第二真实图像与第二生成图像的相似度，指定区分条件用于指示生成对抗模型的训练结束条件，指定区分条件包括但不限于判别结果与指定结果之间的差值小于预设差值等。指定结果和预设差值均可以是人为指定及调整，比如指定结果为1，不做具体限定。

可以理解，生成对抗模型的判别器不仅要对生成图像的质量打分，还要对生成图像与输入条件(即场景描述信息和语义特征图)的拟合程度打分，从而实现更复杂且逼真的图像合成效果。

可选的，生成器可以采用深度卷积生成对抗网络(deep convolutional GAN，DCGAN)的网络架构，而本申请还在生成器的输入端加入场景描述信息，构成了多模态的信息来源。判别器可以采用卷积神经网络，卷积神经网络中包括多个依次连接的卷积层和全连接层，每个卷积层的卷积参数表示为W*H*C，W为宽度，H为高度，C表示图像通道数量。示例性的，如图5所示，图5是本申请实施例中一种生成对抗模型的结构示意图。在图5中，生成器G包括卷积层1、卷积层2、卷积层3、卷积层4和卷积层5，卷积层1的卷积参数为4*4*1024，卷积层2的卷积参数为8*8*512，卷积层3的卷积参数为16*16*256，卷积层4的卷积参数为32*32*128，卷积层5的卷积参数为64*64*1。

更具体的，生成对抗模型的训练参数还可以包括但不限于：批次大小为128，学习率为0.0002，训练次数为20，激活函数Leaky ReLU为0.2，优化器是Adam。

生成对抗模型的优化函数V(D，G)满足：

其中，D表示判别器，G表示生成器，x表示第二真实图像，z表示随机噪声，y表示第一生成图像，E(*)表示分布函数的期望值，p_data(x)表示真实图像样本的分布，p_z(z)表示定义在低维的噪声分布。

步骤S250：根据合成图像，生成虚拟内容。

在本申请实施例中，虚拟内容包括但不限于场景模型和角色模型等，场景模型包括但不限于建筑模型、环境模型及其他物体模型等。其中，根据合成图像生成虚拟内容的方式包括激光扫描法、结构光法、网络模型法和纹理映射法等，亦不做限定。举例来说，用户输入小镇的图像以及目标文本“赛博朋克”，通过步骤S200至S250，生成赛博朋克风格的小镇合成图像，从而构建赛博朋克风格的小镇模型。

可以理解，步骤S240中生成的合成图像可以是一个或多个，而针对多个合成图像，还可以对多个合成图像进行动态特征分析(比如光流分析和特征点匹配等)，确定动态内容。将动态内容与场景模型绑定，实现场景的动态变化效果，比如车辆移动、下雪特效等；将动态内容与角色模型绑定，实现角色的动作控制及姿态变化，进一步丰富了游戏体验，增强了在虚拟世界中的现实感和沉浸感。

可见，实施上述方法实施例，将目标文本和描述文本进行组合，得到场景描述信息，故场景描述信息可以完整描述目标文本以及目标图像所包含的语义特征，实现多模态特征之间的融合，进一步强化了语义理解的准确度。基于此，只需用户输入图像和文字，就能够生成满足用户个性化需求的虚拟内容，提升了生成虚拟内容的灵活性，有利于实现沉浸式体验，又能够降低开发门槛及难度，增加了生成虚拟内容的开放性、创造性和自由度。

本申请实施例还提供一种虚拟内容的生成装置。请参阅图6，图6是本申请实施例所应用的一种虚拟内容的生成装置的结构框图。如图6所示，该虚拟内容的生成装置600包括获取模块610、语义分割模块620、描述模块630、组合模块640、第一生成模块650和第二生成模块660，其中：

获取模块610，用于获取目标文本和目标图像。

语义分割模块620，用于对目标图像进行语义分割处理，得到语义分割图。

描述模块630，用于生成目标图像的描述文本，描述文本用于从语义上对目标图像进行描述。

组合模块640，用于将目标文本和描述文本进行组合，得到场景描述信息。

第一生成模块650，用于将场景描述信息和语义分割图输入生成对抗模型中，得到合成图像。

第二生成模块660，用于根据合成图像，生成虚拟内容。

在一些实施方式中，目标文本包括至少一个第一字段，描述文本包括至少一个第二字段。组合模块640，具体用于将第一字段与第二字段进行配对，得到配对结果；根据配对结果，从多个预设的结构化模板中获取目标模板；将配对结果代入目标模板中，得到场景描述信息。

在一些实施方式中，描述模块630可以包括描述单元、排序单元和生成单元。描述单元用于从目标图像中识别出多个检测目标，并生成检测目标对应的描述词汇。排序单元用于对所有描述词汇进行排序，得到描述词汇序列。生成单元用于将描述词汇序列和目标图像输入预先确定的生成模型中，得到目标图像的描述文本。

进一步的，在一些实施方式中，生成模型的训练步骤包括：获取图像样本以及图像样本对应的多个描述标签；对多个描述标签进行排序，得到第一序列；对第一序列中包含的描述标签进行随机遮挡处理，得到第二序列；利用图像样本和第二序列对生成模型进行训练，得到第一训练结果；利用第一序列验证第一训练结果是否满足第一训练结束条件，若满足第一训练结束条件，则结束训练；若不满足第一训练结束条件，则重新执行获取图像样本以及图像样本对应的多个描述标签的步骤。

进一步的，在一些实施方式中，排序单元具体用于对所有描述词汇进行语序调整，得到第三序列；在第三序列中插入至少一个文本符，得到描述词汇序列。相应的，生成单元具体用于将描述词汇序列和目标图像输入预先确定的生成模型中，得到每个文本符对应的候选文本以及候选文本的概率，并将概率最大的候选文本确定为文本符的匹配文本；将所有描述词汇以及匹配文本确定为目标图像的描述文本。

在一些实施方式中，第一生成模块650，具体用于从预设数据集中获取与场景描述信息匹配的第一真实图像；将第一真实图像和语义分割图输入生成对抗模型中，得到合成图像。

在一些实施方式中，生成对抗模型包括生成器和判别器，生成对抗模型的训练步骤包括：获取分割图样本和场景描述样本；从预设数据集中获取与场景描述样本匹配的第二真实图像；将分割图样本输入生成器中，得到第一生成图像；在第一生成图像中增加随机噪声，得到第二生成图像；将第二生成图像和第二真实图像输入判别器中，得到判别结果；若根据判别结果判定第二生成图像与第二真实图像满足指定区分条件，则训练结束；若判定第二生成图像与第二真实图像不满足指定区分条件，则根据判别结果调整生成器的参数，再执行获取分割图样本和场景描述样本的步骤。

需要说明的是，本实施例的具体实现过程可参见上述方法实施例的具体实现过程，亦不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器上存储有程序，程序被处理器执行时实现上述虚拟内容的生成方法。

本申请实施例还提供了一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述虚拟内容的生成方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

1.一种虚拟内容的生成方法，其特征在于，所述方法包括：

获取目标文本和目标图像；

根据所述合成图像，生成虚拟内容。

2.根据权利要求1所述的方法，其特征在于，所述目标文本包括至少一个第一字段，所述描述文本包括至少一个第二字段；所述将所述目标文本和所述描述文本进行组合，得到场景描述信息，包括：

将所述第一字段与所述第二字段进行配对，得到配对结果；

根据所述配对结果，从多个预设的结构化模板中获取目标模板；

将所述配对结果代入所述目标模板中，得到场景描述信息。

3.根据权利要求1所述的方法，其特征在于，所述生成所述目标图像的描述文本，包括：

从所述目标图像中识别出多个检测目标，并生成所述检测目标对应的描述词汇；

对所有所述描述词汇进行排序，得到描述词汇序列；

将所述描述词汇序列和所述目标图像输入预先确定的生成模型中，得到所述目标图像的描述文本。

4.根据权利要求3所述的方法，其特征在于，所述生成模型的训练步骤包括：

获取图像样本以及所述图像样本对应的多个描述标签；

对所述多个描述标签进行排序，得到第一序列；

5.根据权利要求3所述的方法，其特征在于，所述对所有所述描述词汇进行排序，得到描述词汇序列，包括：

对所有所述描述词汇进行语序调整，得到第三序列；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将所述场景描述信息和所述语义分割图输入生成对抗模型中，得到合成图像，包括：

从预设数据集中获取与所述场景描述信息匹配的第一真实图像；

将所述第一真实图像和所述语义分割图输入生成对抗模型中，得到合成图像。

7.根据权利要求6所述的方法，其特征在于，所述生成对抗模型包括生成器和判别器，所述生成对抗模型的训练步骤包括：

获取分割图样本和场景描述样本；

将所述分割图样本输入生成器中，得到第一生成图像；

在所述第一生成图像中增加随机噪声，得到第二生成图像；

8.一种虚拟内容的生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标文本和目标图像；

第二生成模块，用于根据所述合成图像，生成虚拟内容。

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的虚拟内容的生成方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的虚拟内容的生成方法的步骤。