CN116741197A

CN116741197A - 多模态图像生成方法、装置、存储介质及电子设备

Info

Publication number: CN116741197A
Application number: CN202311006934.1A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-09-12
Anticipated expiration: 2043-08-11
Also published as: CN116741197B

Abstract

本申请提供一种多模态图像生成方法、装置、存储介质及电子设备。所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。所述多模态图像生成方法利用两种模态生成图像，由此生成的图像更能满足用户的需求。

Description

多模态图像生成方法、装置、存储介质及电子设备

技术领域

本申请属于图像处理技术领域，涉及一种图像生成方法，特别是涉及一种多模态图像生成方法、装置、存储介质及电子设备。

背景技术

图像生成技术是一种计算机科学领域的技术，旨在通过计算机程序或机器学习模型生成逼真的图像。生成的图像可以是完全虚构的，也可以是基于现实图像的变种或创作。图像生成技术在计算机图形学、人工智能和机器学习等领域中具有广泛的应用。

发明内容

本申请实施例提供一种多模态图像生成方法、装置、存储介质及电子设备，用于生成高质量的图像。

第一方面，本申请实施例提供一种多模态图像生成方法，所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。

在所述第一方面的一种实现方式中，所述多模态图像生成方法还包括：从高斯分布中随机采样出一个样本作为所述高斯采样嵌入。

在所述第一方面的一种实现方式中，根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入包括：对所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和所述高斯采样嵌入进行连接操作以获取所述隐层嵌入。

在所述第一方面的一种实现方式中，根据所述隐层嵌入生成图像包括：根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取去噪声的隐层嵌入；利用所述去噪声的隐层嵌入生成所述图像。

在所述第一方面的一种实现方式中，获取去噪声的隐层嵌入包括：根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声；从所述隐层嵌入中减去所述隐层嵌入的噪声以获取中间隐层嵌入；循环执行噪声去除子方法直到满足循环终止条件，以最后一次循环中获取的所述中间隐层嵌入作为所述去噪声的隐层嵌入；其中，所述噪声去除子方法包括：根据所述中间隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述中间隐层嵌入的噪声；从所述中间隐层嵌入中减去所述中间隐层嵌入的噪声以获取新的所述中间隐层嵌入。

在所述第一方面的一种实现方式中，根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声包括：利用深度学习模型对所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入进行处理以获取所述隐层嵌入的噪声。

在所述第一方面的一种实现方式中，所述深度学习模型包括编码器和解码器，所述深度学习模型的值向量为所述隐层嵌入，所述深度学习模型的查询向量为所述语音嵌入，所述编码器的键向量为所述第一文本嵌入，所述解码器的键向量为所述第二文本嵌入。

第二方面，本申请实施例提供一种多模态图像生成装置，所述多模态图像生成装置包括：音频编码模块，用于对语音描述进行音频编码以获取语音嵌入；语音识别模块，用于对所述语音描述进行语音识别以获取转写文本；文本编码模块，用于对所述转写文本进行文本编码以获取第一文本嵌入，并用于对文字描述进行文本编码以获取第二文本嵌入；隐层嵌入获取模块，用于根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；图像生成模块，用于根据所述隐层嵌入生成图像。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面中任一项所述的方法。

本申请实施例提供的多模态图像生成方法能够利用语音描述和文字描述两种模态来强化图像生成，由此生成的图像具有更高的质量。

附图说明

图1显示为本申请实施例所述多模态图像生成方法的应用场景示意图。

图2显示为本申请实施例所述多模态图像生成方法的流程图。

图3A显示为本申请实施例中利用隐层嵌入生成图像的流程图。

图3B显示为本申请实施例中获取去噪声的隐层嵌入的流程图。

图3C显示为本申请实施例中噪声去除子方法的流程图。

图4显示为本申请实施例中多模态图像生成方法的示意图。

图5显示为本申请实施例中多模态图像生成装置的结构示意图。

100	电子设备
		101，107	处理器
102	输出设备
		103	输入设备
104	内存单元
		105	通信接口
106	存储介质
		500	多模态图像生成装置
510	音频编码模块
		520	语音识别模块
530	文本编码模块
		540	隐层嵌入模块
550	图像生成模块
		S21~S26	步骤
S31~S32	步骤
		S311~S313	步骤
S3131~S3132	步骤

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图示中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

图像生成技术是一种计算机科学领域的技术，旨在通过计算机程序或机器学习模型生成逼真的图像。生成的图像可以是完全虚构的，也可以是基于现实图像的变种或创作。图像生成技术在计算机图形学、人工智能和机器学习等领域中具有广泛的应用。然而，发明人在实际应用中发现，一些技术方案中采用单一模态来生成图像。至少针对该问题，本申请实施例提供一种多模态图像生成方法。该方法能够利用语音描述和文字描述两种模态来强化图像生成，由此生成的图像具有更高的质量。

本申请实施例提供的多模态图像生成方法可应用于电子设备中。图1显示为本申请实施例中电子设备100的一种结构示意图。如图1所示，电子设备100包括与一个或多个数据存储单元连接的处理器101。数据存储单元可以包括存储介质106和内存单元104。存储介质106可以是只读的，如只读存储器（Read-Only Memory，ROM），或是可读写的，如硬盘或闪存。内存单元104可以是随机存取存储器（Random Access Memory，RAM）。内存单元104可以与处理器101集成在一起也可为独立的元件。处理器101是电子设备100的控制中心，用于执行程序代码以实现与所述程序指令对应的功能。

在一些可能的实现方式中，处理器101可以包括一个或多个中央处理器（CentralProcessing Unit，CPU），例如，如图1所示的CPU0和CPU1。在一些可能的实现方式中，电子设备100可以包括一个以上的处理器，例如，如图1所示的处理器101和107。处理器101和107都可以是单核处理器或多核处理器。需要说明的是，本文所使用的术语“处理器”指一个或多个用于处理计算机程序指令等数据的设备、电路和/或处理内核。

处理器101和/或107的CPU将执行的程序代码存储在内存单元104或存储介质106中。在一些可能的实现方式中，存储介质106中存储的程序代码可以复制到内存单元104中以便处理器执行。处理器可通过内核控制其它程序的执行、控制与外围设备的通信以及控制电子设备100资源的使用来控制电子设备100的运行。

电子设备100还可以包括通信接口105，电子设备100可通过该通信接口105直接或通过外部网络与另一设备或系统进行通信。

在一些可能的实现方式中，电子设备100还可以包括输出设备102和输入设备103。输出设备102与处理器101连接，并且能够以一种或多种方式显示输出信息。输出设备102的一个示例是视觉显示设备，例如，液晶显示屏（Liquid Crystal Display，LCD）、发光二极管（light-emitting diode，LED）显示器、阴极射线管（Cathode Ray Tube，CRT）或投影仪。输入设备103与处理器101连接，并能够以一种或多种方式接收用户的输入。输入设备103的示例包括鼠标、键盘、触摸屏设备、传感设备等等。

电子设备100的上述元件可通过数据总线、地址总线、控制总线、扩展总线和本地总线等总线中的任意一种或多种的组合来互相连接。

电子设备100可以是通用电子设备或应用特定电子设备。作为实用示例，上述电子设备100可为存储阵列、应用服务器、超级计算机、台式计算机、笔记本电脑、个人数字助理（Personal Digital Assistant，PDA）、移动电话、平板电脑、无线终端设备、电信设备或具有如图1所示类似结构的任何其它设备。然而，本申请并不仅仅受限于任何特定类型的电子设备。在内存104中存储的具有不同功能的程序代码被处理器（处理器101或处理器107）运行之后形成进程，在进程运行时，处理器需要给每个进程分配一段内存空间，以存储进程运行过程中产生的数据。为了方便各个进程之间的数据通信，通常处理器（处理器101或处理器107）会在内存中划分一段共享内存，并将所述共享内存分配给需要进行数据共享的多个进程。本申请实施例中的进程可以是虚拟机、容器及其他任何具有数据共享需求的进程。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

图2显示为本申请实施例提供的多模态图像生成方法的流程图，该方法可应用于图1所示的处理器。如图2所示，于本申请实施例中多模态图像生成方法包括以下步骤S21至S26。

S21，对语音描述进行音频编码以获取语音嵌入（audio embedding）。其中，语音描述是用户通过语音方式对待生成图像进行的描述。在计算机及相关领域，嵌入（embedding）是指将数据映射到一个向量空间中所得到的向量，该向量也可以称为嵌入向量、嵌入特征或嵌入表示。

在一些可能的实现方式中，语音描述为wave波形的语音。

在一些可能的实现方式中，音频编码可以通过wav2vec2.0等音频编码器（audioencoder）实现。

S22，对语音描述进行语音识别（Automatic Speech Recognition，ASR）以获取转写文本(asr text)。

在一些可能的实现方式中，语音识别可以通过conformer等语音识别模型来实现。其中，conformer模型为结合了卷积神经网络（Convolutional Neural Networks,，CNN）和自注意力机制（Self-Attention）的混合模型，具有较高的语音识别准确性。

S23，对转写文本进行文本编码以获取第一文本嵌入（asr text embedding）。

S24，对文字描述进行文本编码以获取第二文本嵌入（text embedding）。其中，文字描述是用户通过文字方式对待生成图像进行的描述。

在一些可能的实现方式中，可以采用文本编码器（text encoder）对撰写文本和文字描述进行文本编码。其中，文本编码器例如为CLIP（Contrastive Language-ImagePretraining）模型中的文本编码器，其使用自然语言处理技术将文本转化为向量表示，以捕捉文本的语义信息。

S25，根据语音嵌入、第一文本嵌入、第二文本嵌入和高斯采样嵌入（gaussiansampling embedding）获取隐层嵌入（latent embedding）。

S26，根据隐层嵌入生成图像。

根据以上描述可知，本申请实施例提供的多模态图像生成方法至少采用语音和文本两种模态来生成图像，由此生成的图像具有更高的质量，能够更好地满足用户需求。

于本申请的一实施例中，多模态图像生成方法还可以包括：从高斯分布中随机采样出一个样本作为高斯采样嵌入。

于本申请的一实施例中，根据语音嵌入、第一文本嵌入、第二文本嵌入和高斯采样嵌入获取隐层嵌入包括：对语音嵌入、第一文本嵌入、第二文本嵌入和高斯采样嵌入进行连接（concat）操作以获取隐层嵌入。

图3A显示为本申请实施例中根据隐层嵌入生成图像的流程图。如图3A所示，本申请实施例中根据隐层嵌入生成图像包括以下步骤S31和S32。

S31，根据隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取去噪声的隐层嵌入（denoised latent embedding）。

S32，利用去噪声的隐层嵌入生成图像。

在一些可能的实现方式中，可以采用变分自编码器（Variational Autoencoder）中的解码器（VAE Decoder）对去噪声的隐层嵌入进行处理以生成图像。

图3B显示为本申请实施例中获取去噪声的隐层嵌入的流程图。如图3B所示，本申请实施例中获取去噪声的隐层嵌入包括以下步骤S311至S313。

S311，根据隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取隐层嵌入的噪声（noise）。

S312，从隐层嵌入中减去隐层嵌入的噪声以获取中间隐层嵌入。

S313，循环执行噪声去除子方法直到满足循环终止条件，最后一次循环中获取的中间隐层嵌入即为去噪声的隐层嵌入。其中，循环满足循环终止条件例如为循环次数达到预设值，但本申请并不以此为限。

请参阅图3C，于本申请实施例中，噪声去除子方法包括以下步骤S3131至S3132。

S3131，根据中间隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取中间隐层嵌入的噪声。

S3132，从中间隐层嵌入中减去中间隐层嵌入的噪声以获取新的中间隐层嵌入。

需要说明的是，首次执行噪声去除子方法时，于步骤S3131中根据步骤S312中获取的中间隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取中间隐层嵌入的噪声。在循环执行噪声去除子方法的过程中，于步骤S3131中根据上一次循环中获取的新的中间隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取中间隐层嵌入的噪声。

于本申请的一实施例中，根据隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入获取隐层嵌入的噪声包括：利用深度学习模型对隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入进行处理以获取隐层嵌入的噪声。

在一些可能的实现方式中，深度学习模型包括编码器和解码器。深度学习模型的值向量V为隐层嵌入，深度学习模型的查询向量Q为语音嵌入，编码器的键向量K为第一文本嵌入，解码器的键向量K为第二文本嵌入。

上述内容介绍了获取隐层嵌入的噪声的方法。应当理解的是，中间隐层嵌入的噪声可以采用上述类似的方式实现，此处不做过多赘述。

接下来将通过一个具体实例对本申请实施例提供的多模态图像生成方法进行详细介绍。需要说明的是，该实例仅用于说明本申请实施例提供的多模态图像生成方法，其中的内容并非实现多模态图像生成方法所必须。图4显示为该实例中多模态图像生成方法的流程示意图。如图4所示，该实例中多模态生成方法包括以下步骤S41至S47。

S41，用音频编码器将原始的语音描述编码为语音嵌入。其中语音描述编码例如为wave波形语音。

S42，利用语音识别模型对语音描述进行语音识别以获取转写文本。其中语音识别模型例如为conform模型。

S43，利用文本编码器对转写文本和文本描述进行文本编码，得到第一文本嵌入和第二文本嵌入。

S44，从高斯分布中随机采样出一个样本作为高斯采样嵌入。

S45，将语音嵌入、第一文本嵌入、第二文本嵌入和高斯采样嵌入进行concat操作以得到隐层嵌入。

S46，利用U2Net对隐层嵌入、语音嵌入、第一文本嵌入和第二文本嵌入进行处理以得到隐层嵌入的噪声。其中U2Net包括编码器（Encoder）和解码器（Decoder）。编码器和解码器分别包含N层的跨注意力（Cross-Attention）机制。将隐层嵌入作为U2Net的值向量V，将语音嵌入作为U2Net的查询向量Q，将第一文本嵌入作为编码器的键向量K，将第二文本嵌入作为解码器的键向量K，进行跨注意力运算以融合彼此之间的信息。

S47，从隐层嵌入中减去噪声得到去噪声的隐层嵌入。

S48，重复执行上述步骤S46和S47若干次（例如，1000次），直到得到完全去除噪声的隐层嵌入。

S49，利用步骤S48中获取的完全去除噪声的隐层嵌入，通过VAE-Decoder生成最终的目标图像。

本申请实施例提供的多模态图像生成方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请实施例还提供一种多模态图像生成装置，所述多模态图像生成装置可以实现本申请所述的多模态图像生成方法，但本申请所述的多模态图像生成方法的实现装置包括但不限于本实施例列举的多模态图像生成装置的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

图5显示为本申请实施例提供的多模态图像生成装置500的结构示意图。如图5所示，本申请实施例提供的多模态图像生成装置500包括音频编码模块510、语音识别模块520、文本编码模块530、隐层嵌入获取模块540和图像生成模块550。音频编码模块510用于对语音描述进行音频编码以获取语音嵌入。语音识别模块520用于对语音描述进行语音识别以获取转写文本。文本编码模块530用于对转写文本进行文本编码以获取第一文本嵌入，并用于对文字描述进行文本编码以获取第二文本嵌入。隐层嵌入获取模块540用于根据语音嵌入、第一文本嵌入、第二文本嵌入和高斯采样嵌入获取隐层嵌入。图像生成模块550用于根据隐层嵌入生成图像。

需要说明的是，本申请实施例提供的多模态图像生成装置500中的各模块与图2所示多模态图像生成方法中的各步骤相对应，此处不做过多赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请任一实施例提供的多模态图像生成方法。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetic tape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solidstate disk，SSD））等。

本申请实施例还提供一种电子设备。该电子设备包括存储器和处理器。其中，存储器用于存储计算机程序。在一些可能的实现方式中，存储器可以包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。处理器与存储器相连，用于执行存储器存储的计算机程序，以使电子设备执行本申请任一实施例提供的多模态图像生成方法。

在一些可能的实现方式中，本申请实施例提供的电子设备还可以包括显示器。显示器与存储器和处理器通信相连，用于显示多模态图像生成方法的相关图形用户界面（Graphical User Interface，GUI）。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种多模态图像生成方法，其特征在于，包括：

对语音描述进行音频编码以获取语音嵌入；

对所述语音描述进行语音识别以获取转写文本；

对所述转写文本进行文本编码以获取第一文本嵌入；

对文字描述进行文本编码以获取第二文本嵌入；

根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；

根据所述隐层嵌入生成图像。

2.根据权利要求1所述的方法，其特征在于，还包括：从高斯分布中随机采样出一个样本作为所述高斯采样嵌入。

3.根据权利要求1所述的方法，其特征在于，根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入包括：

对所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和所述高斯采样嵌入进行连接操作以获取所述隐层嵌入。

4.根据权利要求1所述的方法，其特征在于，根据所述隐层嵌入生成图像包括：

根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取去噪声的隐层嵌入；

利用所述去噪声的隐层嵌入生成所述图像。

5.根据权利要求4所述的方法，其特征在于，获取去噪声的隐层嵌入包括：

根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声；

从所述隐层嵌入中减去所述隐层嵌入的噪声以获取中间隐层嵌入；

循环执行噪声去除子方法直到满足循环终止条件，以最后一次循环中获取的所述中间隐层嵌入作为所述去噪声的隐层嵌入；

其中，所述噪声去除子方法包括：

根据所述中间隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述中间隐层嵌入的噪声；

从所述中间隐层嵌入中减去所述中间隐层嵌入的噪声以获取新的所述中间隐层嵌入。

6.根据权利要求5所述的方法，其特征在于，根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声包括：

利用深度学习模型对所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入进行处理以获取所述隐层嵌入的噪声。

7.根据权利要求6所述的方法，其特征在于，所述深度学习模型包括编码器和解码器，所述深度学习模型的值向量为所述隐层嵌入，所述深度学习模型的查询向量为所述语音嵌入，所述编码器的键向量为所述第一文本嵌入，所述解码器的键向量为所述第二文本嵌入。

8.一种多模态图像生成装置，其特征在于，包括：

音频编码模块，用于对语音描述进行音频编码以获取语音嵌入；

语音识别模块，用于对所述语音描述进行语音识别以获取转写文本；

文本编码模块，用于对所述转写文本进行文本编码以获取第一文本嵌入，并用于对文字描述进行文本编码以获取第二文本嵌入；

隐层嵌入获取模块，用于根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；

图像生成模块，用于根据所述隐层嵌入生成图像。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至7中任一项所述的方法。