CN111462736B

CN111462736B - 基于语音的图像生成方法、装置和电子设备

Info

Publication number: CN111462736B
Application number: CN201910042614.9A
Authority: CN
Inventors: 黎吉国; 许继征; 马思伟; 王悦
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-04-14
Anticipated expiration: 2039-01-17
Also published as: CN111462736A

Abstract

本发明实施例公开了基于语音的图像生成方法、装置和电子设备。该方法的一具体实施方式包括：接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；解析语音信号对应的语义；基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。实现了基于语音生成图像，提高了人机交互的流畅度，有利于改善用户在人机交互过程中的体验。

Description

基于语音的图像生成方法、装置和电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音的图像生成方法、装置和电子设备。

背景技术

随着人工智能技术的发展，计算机自动生成图像已经成为可能。计算机自动生成图像，在艺术品创作，数据增强等方面有重要应用。目前，计算机自动生成图像主要是由计算机根据文本描述来生成图像。这项技术在人机交互，计算机辅助设计方面有重要应用。计算机可以根据创作人员的文本指令生成与文本指令语义一致的图像，可加快创作流程。在自动配图，自动漫画创作等领域有潜在的应用价值。

但是在人机交互方面，语音交互相比文本交互更加自然，所以根据语音描述自动生成语义一致的图像是更加符合人际交互的技术。但是目前基于语音生成图像这个技术还没有被实现，也没有很好的解决方案。

发明内容

本发明实施例提供了一种基于语音的图像生成方法、装置和电子设备，实现了根据用户发出的语音生成图像，有利于提高人机交互的流畅度。

第一方面，本发明实施例提供了一种基于语音的图像生成方法，包括：接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；解析语音信号对应的语义；基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。

可选地，所述解析语音信号对应的语义，包括：获取所述语音信号的分析频谱；使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号的语义的特征向量。

可选地，所述获取所述语音信号的分析频谱，包括：对所述语音信号执行短时傅里叶变换操作，获取所述语音信号的参考频谱；使用预设滤波器对所述频谱执行滤波操作，得到所述语音信号对应的分析频谱；其中所述参考频谱和所述分析频谱均包括时域信息和频域信息。

可选地，所述使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号语义的特征向量，包括：将所述分析频谱输入到语音信号特征向量生成模型进行编码，以得到反映所述语音信号语义的特征向量，其中所述语音信号特征向量生成模型用于根据输入的语音信号的分析频谱生成反映语音信号语义的特征向量。

可选地，所述语音信号特征向量生成模型为卷积神经网络模型。

可选地，所述基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像，包括：将所述语音信号的特征向量输入到预先训练的图像生成模型中，生成图像，其中所述图像生成模型用于根据输入的语音信号的特征向量生成与语音信号的语义一致的图像。

可选地，所述图像生成模型是经过如下步骤训练得到的：获取训练数据，训练数据包括图像和用于描述图像中所包含的元素的语音信号；分别提取训练数据中的图像各元素对应的图像特征向量、训练数据中语音信号对应的语音特征向量；将所述图像特征向量以及所述语音特征向量输入到初始图像生成模型中，利用预设损失函数对图像生成模型进行训练。

可选地，所述预设损失函数如下：

其中，L(θ)为损失函数；α、β、m_diff、m_same均为预设参数；a_n为音频信号的特征向量；

为音频信号的特征向量的转置；v_n为图像生成所生成的图像的特征向量。

可选地，所述提取训练数据中的图像各元素对应的图像特征向量，包括：将所述训练数据中的图像输入到预先训练的图像特征提取模型，得到训练数据中的图像的特征向量；其中，所述图像特征提取模型用于提取输入的图像的特征向量。

可选地，所述图像生成模型为对抗网络模型。

第二方面，本发明实施例提供了一种基于语音的图像生成装置，包括：接收单元，被配置成接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；解析单元，被配置成解析语音信号对应的语义；生成单元，被配置成基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。

可选地，所述解析单元进一步被配置成：获取所述语音信号的分析频谱；使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号的语义的特征向量。

可选地，所述解析单元进一步被配置成：对所述语音信号执行短时傅里叶变换操作，获取所述语音信号的参考频谱；使用预设滤波器对所述频谱执行滤波操作，得到所述语音信号对应的分析频谱；其中所述参考频谱和所述分析频谱均包括时域信息和频域信息。

可选地，所述解析单元进一步被配置成：将所述分析频谱输入到语音信号特征向量生成模型进行编码，以得到反映所述语音信号语义的特征向量，其中所述语音信号特征向量生成模型用于根据输入的语音信号的分析频谱生成反映语音信号语义的特征向量。

可选地，所述生成单元进一步被配置成：将所述语音信号的特征向量输入到预先训练的图像生成模型中，生成图像，其中所述图像生成模型用于根据输入的语音信号的特征向量生成与语音信号的语义一致的图像。

可选地，所述装置还包括训练单元，所述训练单元被配置成按照如下步骤训练所述图像生成模型：获取训练数据，训练数据包括图像和用于描述图像中所包含的元素的语音信号；分别提取训练数据中的图像各元素对应的图像特征向量、训练数据中语音信号对应的语音特征向量；将所述图像特征向量以及所述语音特征向量输入到初始图像生成模型中，利用预设损失函数对图像生成模型进行训练。

可选地，所述预设损失函数如下：

可选地，所述训练单元进一步被配置成：将所述训练数据中的图像输入到预先训练的图像特征提取模型，得到训练数据中的图像的特征向量；其中，所述图像特征提取模型用于提取输入的图像的特征向量。

可选地，所述图像生成模型为对抗网络模型。

第三方面，本发明实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一种基于语音的图像生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意一种基于语音的图像生成方法的步骤。

本发明实施例提供的基于语音的图像生成方法、装置和电子设备，通过接收用户输入的语音信号，然后解析语音信号对应的语义，最后基于语义生成图像。实现了基于语音生成图像，提高了人机交互的流畅度，有利于改善用户在人机交互过程中的体验。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明的基于语音的图像生成方法的一个实施例的流程图；

图2是根据本发明的基于语音的图像生成方法的又一个实施例的流程图；

图3是根据本发明的基于语音的图像生成装置的一个实施例的结构示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是根据本发明实施例提供的电子设备的基本结构的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解。应当将它们认为仅仅是示范性的。因此本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

请参考图1，图1其示出了根据本发明的基于语音的图像生成方法的一个实施例的流程。如图1所示，该基于语音的图像生成方法，包括以下步骤：

步骤101，接收用户输入的语音信号。

在本实施例中，用户可以通过麦克风向电子设备输入语音信号。这里的电子设备可以是基于语音的图像生成方法的执行主体，也可以是与基于语音的图像生成方法的执行主体通过有线连接方式或者无线连接方式实现通信连接的电子设备。

上述语音信号包括用户发出的指示生成预设对象的图像的信息。上述预设对象可以是各种类型的对象，例如预设对象可以是人、动物、植物、自然景观以及其他任意物体等。

这里的预设对象的数量可以为一个，也可以为两个以上。不同的预设对象可以同类型对象，也可以是不同类型对象等。

步骤102，解析语音信号对应的语义。

在本实施例中，可以通过各种方法来解析语音信号对应的语义。例如，首先生成语音信号对应的文本。其次，在生成语音信号的文本之后，可以提取文本的语义，从而得到语音信号对应的语义。

上述生成语音信号对应的文本，可以采用现有的各种将语音信号转换成文本的方法来生成上述语音信号对应的文本。

需要说明的是，所述语音信号转换成文本的方法是目前广泛研究和应用的公知技术，此处不赘述。

这里，提取文本的语义可以使用现有的各种分析文本语义的方法来提取文本的语义。例如，对文本分词，对各分词结果标注词性，从标注了词性的分词结果中提取关键词，根据关键词获取文本语义等等。

需要说明的是，分析文本语义的方法是目前广泛研究和应用的公知技术，此处不赘述。

上述得到的语音信号的语义中，可以包括上述预设对象、生成预设对象的图像相关的信息。

步骤103，基于从语义中所提取出的与生成预设对象的图像相关的信息，生成预设对象的图像。

在得到了语音信号的语义之后，可以根据从语义中所提取的预设对象以及与生成预设对象的图像相关的信息，自动生成预设对象的图像。这里的与生成预设对象的图像相关的信息可以包括颜色分布、对象数量、不同预设对象的比例、分布位置等等。

本发明的上述实施例提供的方法通过首先接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息，然后，解析语音信号对应的语义，最后，基于从语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。实现了根据用户输入的语音信号生成预设对象的图像，有利于改善在人机交互过程中的用户体验。

进一步参考图2，其示出了基于语音的图像生成方法的又一个实施例的流程图。如图2所示，该基于语音的图像生成方法的流程，包括以下步骤：

步骤201，接收用户输入的语音信号。

上述语音信号包括指示生成预设对象的图像的信息。

步骤201与图1所示实施例中的步骤101相同，此处不赘述。

步骤202，获取语音信号的分析频谱。

在本实施例中，在步骤201中接收用户输入的语音信号之后，可以根据各种分析方法获取语义信号的分析频谱。

具体地，上述获取语音信号的分析频谱可以由如下步骤完成：

首先，对语音信号执行短时傅里叶变换操作，获取语音信号的参考频谱。

短时傅里叶变换(STFT，short-time Fourier transform，或short-term Fouriertransform))是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。短时傅里叶变换是常用的一种时频分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。

需要说明的是，上述短时傅里叶变换是目前广泛应用和研究的公知技术，此处不赘述。

上述参考频谱包括时域信息和频域信息。

其次，使用预设滤波器对参考频谱执行滤波操作，得到语义信号对应的分析频谱。

在本实施例中，上述预设滤波器可以是梅尔滤波器(Mel filter)。在将上述参考频谱使用上述预设滤波器滤波后，去除噪音信号，可以得到语音信号的分析频谱。上述分析频谱均包括时域信息和频域信息。

步骤203，使用预设编码方法对分析频谱进行编码，得到反映语音信号的语义的特征向量。

上述分析频谱包括了时域多个数据、频域多个数据以及通道数据。上述通道数据数量可以为1。此外，还可以将通道数据设置为初始值。

上述使用预设编码方法对分析频谱进行编码，目的是为了使用一个固定长度的特征向量来表示变长的分析频谱。

在本实施例中，可以使用预设编码方法对分析频谱进行编码，从而得到反映语音信号的语义的特征向量。

上述使用预设编码方法对分析频谱进行编码，可以包括如下步骤：

首先，使用卷积操作将分析频谱的频域数据的维度压缩为1，同时增长通道数据的数量。也就是增加通道的长度，例如通道数据的数量可以由1增加为64。

其次，使用卷积操作对将压缩频域数据维度后的分析频谱的时域数据维度进行压缩，同时增长通道的长度。通道的长度可以增长到指定值。这里的指定值例如可以为1024。

再次，使用卷积操作继续经过初次时域维度压缩后的分析频谱进行再次时域维度压缩。直至将时域维度压缩为1。通道的长度保持指定值。

在一些应用场景上，上述使用预设编码方法对分析频谱进行编码，得到反映语音信号语义的特征向量，可以包括：将语音信号的分析频谱输入到语音信号特征向量生成模型进行编码，以得到反映语音信号的语义的特征向量。上述语音信号特征向量生成模型用于根据输入的语义信号的分析频谱生成反映语音信号语义的特征向量。

可选地，上述语音信号特征向量生成模型可以是卷积神经网络模型。具体地，上述语音信号特征向量生成模型可以包括至少一层第一卷积神经网络，多层第二卷积神经网络，以及循环神经网络。

上述第一卷积神经网络用于对在步骤202中得到的语音信号的分析频谱的频域维度执行卷积操作。上述第一卷积神经网络包括一维卷积核。上述语音信号的分析频谱中的数据在与第一卷积神经网络进行卷积之后，分析频谱之后的频域数据的数量可以压缩为1，同时增加了通道数据的数量。

上述各层第二卷积神经网络可以包括一维卷积核。部分卷积层的步长大于1。上述第二卷积神经网络用于对压缩频域数据维度后的分析频谱的时域数据维度进行压缩，同时增长通道的长度。在经过多层第二卷积神经网络的卷积操作之后，通道的长度可以增长到指定值。这里的指定值例如可以为1024。

上述循环神经网络可以继续对经过上述多层第二卷积神经网络的分析频谱信号的时域数据维度进行压缩，直至时域数据维度被压缩至1。上述通道的长度维持原指定值。这样，就完成了对上述分析频谱的编码，得到了反映语音信号语义的特征向量。

这样，通过上述编码方法可以将音频信号的分析频谱转为长度固定的特征向量。

可以理解的是，对于不同长度的语音信号，可以对各音频信号的分析频谱的长度进行截取，或者长度补足等操作，以使分析频谱的长度固定。这里的对音频信号分析频谱的长度进行截取，可以包括按照预设长度截取分析频谱的前一部分。此外，对分析频谱进行长度补足，例如可以对分析频谱的末尾进行补零，使得分析频谱的长度达到预设长度。

步骤204，将语音信号的特征向量输入到预先训练的图像生成模型中，生成预设对象的图像。

上述图像生成模型可以是各种类型的机器学习模型。例如人工神经网络模型、卷积神经网络模型等。

在本实施例的一些可选的实现方式中，上述图像生成模型可以是对抗网络模型。需要说明的是，上述对抗网络是目前广泛研究和应用的公知技术，此处不赘述。

在本实施例中，在使用上述图像生成模型之前，需要对图像生成模型进行训练。

上述对图像生成模型进行训练包括如下步骤：

首先，获取训练数据，训练数据包括图像和用于描述图像中所包含的各元素的语音信号。

其次，分别提取训练数据中的每一图像对应的图像特征向量、以及与该图像对应的语音信号的语音特征向量。

在本实施例中，可以使用各种图像特征提取方法来提取训练数据中的图像的特征向量。例如尺度不变特征变换方法、方向梯度直方图方法等图像特征提取方法。

在本实施例的一些应用场景中，上述提取训练数据中的每一图像对应的图像特征向量，可以包括：

将训练数据中的图像输入到预先训练的图像特征提取模型，得到训练数据中的图像的特征向量；其中，所述图像特征提取模型用于提取输入的图像的特征向量。

上述图像特征向提取模型可以是各种类型的机器学习模型，例如人工神经网络模型、卷积神经网络模型等。需要说明的是，上述图像特征向量提取模型在使用之前需要使用图像以及在图像上标注的图像的特征向量对预先建立的图像特征提取模型进行训练，从而得到训练后的图像特征提取模型。

再次，将图像特征向量以及语音特征向量输入到初始图像生成模型中，利用预设损失函数对图像生成模型进行训练。

上述预设损失函数例如可以是逻辑回归损失函数、平方误差损失函数等。

在一些实施方式中，上述损失函数如下：

为音频信号的特征向量的转置；v_n为图像生成所生成的图像的特征向量；E()为计算数据的期望值。

需要说明的是，利用损失函数对机器学习模型进行训练的过程和方法是目前广泛研究和应用的公知技术，此处不赘述。

从图2中可以看出，与图1对应的实施例相比，本实施例中的基于语音的图像生成方法的流程200包括获取包括语音信号的语义的分析频谱，通过分析频谱生成语音信号所指示的预设对象的图像，从而实现了直接通过语音信号生成图像，更进一步简化了人机交互的过程，从而更进一步改善了用户体验。

进一步参考图3，作为对上述各图所示方法的实现，本发明提供了一种基于语音的图像生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例的基于语音的图像生成装置包括：接收单元301、解析单元302和生成单元303。其中，接收单元301，被配置成接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；解析单元302，被配置成解析语音信号对应的语义；生成单元303，被配置成基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。

在本实施例中，基于语音的图像生成装置的接收单元301、解析单元302和生成单元303可分别参考图1对应实施例中步骤101、步骤102和步骤103的相关说明，在此不再赘述。

在一些实施方式中，所述解析单元302进一步被配置成：获取所述语音信号的分析频谱；使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号的语义的特征向量。

在一些实施方式中，所述解析单元302进一步被配置成：对所述语音信号执行短时傅里叶变换操作，获取所述语音信号的参考频谱；使用预设滤波器对所述频谱执行滤波操作，得到所述语音信号对应的分析频谱；其中所述参考频谱和所述分析频谱均包括时域信息和频域信息。

在一些实施方式中，所述解析单元302进一步被配置成：将所述分析频谱输入到语音信号特征向量生成模型进行编码，以得到反映所述语音信号语义的特征向量，其中所述语音信号特征向量生成模型用于根据输入的语音信号的分析频谱生成反映语音信号语义的特征向量。

在一些实施方式中，所述语音信号特征向量生成模型为卷积神经网络模型。

在一些实施方式中，所述生成单元303进一步被配置成：将所述语音信号的特征向量输入到预先训练的图像生成模型中，生成图像，其中所述图像生成模型用于根据输入的语音信号的特征向量生成与语音信号的语义一致的图像。

在一些实施方式中，基于语音的图像生成装置300还包括训练单元(图中未示出)，所述训练单元被配置成按照如下步骤训练所述图像生成模型：获取训练数据，训练数据包括图像和用于描述图像中所包含的元素的语音信号；分别提取训练数据中的图像各元素对应的图像特征向量、训练数据中语音信号对应的语音特征向量；将所述图像特征向量以及所述语音特征向量输入到初始图像生成模型中，利用预设损失函数对图像生成模型进行训练。

在一些实施方式中，所述预设损失函数如下：

在一些实施方式中，所述训练单元进一步被配置成：将所述训练数据中的图像输入到预先训练的图像特征提取模型，得到训练数据中的图像的特征向量；其中，所述图像特征提取模型用于提取输入的图像的特征向量。

在一些实施方式中，所述图像生成模型为对抗网络模型。

请参考图4，图4示出了可以应用本发明的基于语音的图像生成方法或基于语音的图像生成装置的实施例的示例性系统架构。

如图4所示，系统架构可以包括终端设备401、402、403，网络404以及服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备401、402、403可以通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种客户端应用，例如音频播放类应用、视频播放类应用、图像编辑应用等。

终端设备401、402、403可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且文件下载的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机、电子书阅读器等等。当终端设备401、42、403为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)。

在一种具体的实现方式中，终端设备401、402、403可以接收用户输入语音信号，并将语音信号发送给服务器405。服务器405可以提供各种服务，例如根据所接收到的语音信号，分析语音信号的语义，并根据语义生成图像，然后将所生成的图像发送给终端设备。

在另一种具体的实现方式中，本发明实施例所提供的基于语音的图像生成方法可以由服务器405执行，相应地，基于语音的图像生成装置一般设置于服务器405中。

另外，本发明实施例所提供的基于语音的图像生成方法还可以由终端设备401、402、403执行，相应地，基于语音的图像生成装置可以设置于终端设备401、402、403中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的电子设备的基本结构示意图。图5示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备可以包括一个或多个处理器501，存储装置502。存储装置502用户存储一个或多个程序。存储装置502中的一个或多个程序可以被一个或多个处理器501执行。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器可以实现本发明任意实施例的方法中限定的上述功能。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、解析单元和生成单元。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，接收单元还可以被描述为“接收用户输入的语音信号的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。本发明的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该设备执行时，使得该设备：接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；解析语音信号对应的语义；基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于语音的图像生成方法，其特征在于，包括：

接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；

解析语音信号对应的语义；

基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像；

所述解析语音信号对应的语义，包括：获取所述语音信号的分析频谱；使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号的语义的特征向量；

所述基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像，包括：将所述语音信号的特征向量输入到预先训练的图像生成模型中，生成所述预设对象的图像，其中所述图像生成模型用于根据输入的语音信号的特征向量生成所述预设对象的图像；

所述图像生成模型是经过如下步骤训练得到的：获取训练数据，训练数据包括图像和用于描述图像中所包含的元素的语音信号；分别提取训练数据中的每一图像对应的图像特征向量、以及与该图像对应的语音信号的语音特征向量；将所述图像特征向量以及所述语音特征向量输入到初始图像生成模型中，利用预设损失函数对图像生成模型进行训练；其中，所述预设损失函数如下：

其中，L(θ)为损失函数；α、β、m_diff、m_same均为预设参数；a_n为音频信号的语音特征向量；a^T _n为音频信号的语音特征向量的转置；v_n为图像的图像特征向量；E[]为计算数据的期望值；y_j和y_n表示a_n和v_n所属的类别。

2.根据权利要求1所述的方法，其特征在于，所述获取所述语音信号的分析频谱，包括：

对所述语音信号执行短时傅里叶变换操作，获取所述语音信号的参考频谱使用预设滤波器对所述参考频谱执行滤波操作，得到所述语音信号对应的分析频谱；其中

所述参考频谱和所述分析频谱均包括时域信息和频域信息。

3.根据权利要求1所述的方法，其特征在于，所述使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号语义的特征向量，包括：

将所述分析频谱输入到语音信号特征向量生成模型进行编码，以得到反映所述语音信号语义的特征向量，其中

所述语音信号特征向量生成模型用于根据输入的语音信号的分析频谱生成反映语音信号语义的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述语音信号特征向量生成模型为卷积神经网络模型。

5.根据权利要求1所述的方法，其特征在于，所述提取训练数据中的图像各元素对应的图像特征向量，包括：

将所述训练数据中的图像输入到预先训练的图像特征提取模型，得到训练数据中的图像的特征向量；其中，所述图像特征提取模型用于提取输入的图像的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述图像生成模型为对抗网络模型。

7.一种基于语音的图像生成装置，其特征在于，包括：

接收单元，被配置成接收用户输入的语音信号，所述语音信号包括指示生成预设对象的图像的信息；

解析单元，被配置成解析语音信号对应的语义；

生成单元，被配置成基于从所述语义中所提取出的与生成预设对象的图像相关的信息，生成所述预设对象的图像；

所述解析单元，具体被配置成获取所述语音信号的分析频谱；使用预设编码方法对所述分析频谱进行编码，得到反映所述语音信号的语义的特征向量；

所述生成单元，具体配置成将所述语音信号的特征向量输入到预先训练的图像生成模型中，生成所述预设对象的图像，其中所述图像生成模型用于根据输入的语音信号的特征向量生成所述预设对象的图像；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。