CN109308178A

CN109308178A - 一种语音画图方法及其终端设备

Info

Publication number: CN109308178A
Application number: CN201811014988.1A
Authority: CN
Inventors: 秦帅
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-02-05

Abstract

本发明公开了一种语音画图方法及其终端设备，用于解决现有技术中用户难以从海量的图片中选出符合个人需求和喜好的图片的问题。所述方法包括：获取用户输入的语音；基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类；根据所述关键信息和所述语气分类，生成目标图片，所述目标图片的内容与所述关键信息相匹配，所述目标图片的风格类型与所述语气分类匹配。

Description

一种语音画图方法及其终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音画图方法及其终端设备。

背景技术

随着互联网技术的快速发展，用户能够从网络上获取到各种类型的图片作为终端设备的壁纸或屏保。

然而，每个用户的需求和喜好往往都不相同，从海量的图片中选取符合个人需求和喜好的图片则需要耗费较多的时间，而根据用户个人的需求和喜好来制作图片，对于大多数用户而言往往是难以完成的任务。

因此，如何为用户提供一种较为便捷画图方法，使得画出的图片能够符合用户的个人需求和喜好，仍然亟待解决。

发明内容

本发明实施例提供一种语音画图方法及其终端设备，以解决现有技术中用户难以从海量的图片中选出符合个人需求和喜好的图片的问题。

为了解决上述技术问题，本发明是这样实现的：第一方面，本发明实施例提供了一种语音画图方法，包括：

获取用户输入的语音；

基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类；

根据所述关键信息和所述语气分类，生成目标图片，所述目标图片的内容与所述关键信息相匹配，所述目标图片的风格类型与所述语气分类匹配。

第二方面，本发明实施例提供了一种终端设备，包括：

第一获取单元，用于获取用户输入的语音；

第二获取单元，用于基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类；

图片生成单元，根据所述关键信息和所述语气分类，生成目标图片，所述目标图片的内容与所述关键信息相匹配，所述目标图片的风格类型与所述语气分类匹配。

第三方面，本发明实施例提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述方法的步骤。

第四方面，本发明实施例还提供一种可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

本发明实施例中，由于能够获取用户输入的语音，并基于该用户输入的语音，获取该语音中的关键信息以及语音的语气分类，最后根据该关键信息和语气分类，生成目标图片，该目标图片的内容与该关键信息相匹配，该目标图片的风格类型与语气分类相匹配片。这样当用户想要制作一张符合用户个人需求和喜好的图片作为桌面背景时，则可以通过本发明实施例提供的语音画图方法，输入有关其想要制作的图片内容的语音，便可以生成图片内容包含用户的关键信息，且图片风格与用户的语音输入中语气分类相匹配的图片，为用户制作个性化图片提供了极大的便利。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音画图方法的具体实施流程示意图；

图2为本发明实施例提供的语音画图方法应用在实际场景中的流程示意图；

图3为本发明实施例提供的一种终端设备的结构示意图；

图4为本发明实施例提供的又一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

为解决现有技术中用户难以从海量的图片中选出符合个人需求和喜好的图片的问题，本发明提供一种语音画图方法，该方法的执行主体，可以但不限于手机、平板电脑等能够被配置为执行本发明实施例提供的该方法用户终端中的至少一种。

为便于描述，下文以该方法的执行主体为能够执行该方法的终端设备为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为终端设备只是一种示例性的说明，并不应理解为对该方法的限定。

具体地，本发明提供的语音画图方法包括：首先，获取用户的语音输入；然后，基于用户的语音输入以及预设的语音信息提取模型，提取出用户的关键信息和图片风格；最后，将用户的关键信息和图片风格作为输入，通过图像生成深度学习网络，生成与用户的关键信息和图片风格相匹配的图片。

下面结合图1所示的语音画图方法的具体实施流程示意图，对该方法的实施过程进行详细介绍，包括：

步骤101，获取用户输入的语音；

目前，随着语音识别技术的快速发展，人们可以通过比如终端设备中的语音助手来查找目标应用、目标联系人等信息，这为人们的日常生活提供了极大的便利。为了解决现有技术中用户难以从海量的图片中选出符合个人需求和喜好的图片的问题，本发明实施例将语音识别技术和图像处理技术结合起来，通过获取用户输入的语音信息，来确定用户想要的图片所包含的关键信息，以及图片风格，使得用户在制作图片时只需要输入一段包含图片关键信息的语音即可，而无需具备绘画技术和美术功底，为用户制作符合个人需求和喜好的图片提供了极大的便利。

为了能够获取用户想要制作的图片内容以及图片风格等图片的关键信息，首先可以获取用户输入的语音，在实际操作中，用户可以打开对应的语音画图入口，输入自己对图片的要求，比如可以输入有关图片所包含的元素的关键词、有关图片中的场景的关键词，或者也可以描绘一个具体的场景，还可以描述用户自己的一段经历或者用户的心情，等等，只要能够提取出图片的关键信息和图片风格的语音，都可以作为输入的语音；然后对用户输入的语音进行用户的关键信息和语音的语气分类等信息的提取；最后，将基于用户的语音输入提取出来的用户的关键信息和语音的语气分类等信息作为图像生成深度学习模型的输入，以生成符合用户需求的图片。

步骤102，基于用户输入的语音，获取该语音中的关键信息以及语音的语气分类；

可选地，基于用户输入的语音，获取该语音中的关键信息以及语音的语气分类，具体可以将用户的语音作为语音信息提取模型的输入，以获取该语音中的关键信息以及语音的语气分类。

应理解，用户输入的语音中有时可能会存在一些周边环境的噪音，或者存在吐词不清的情况，为了提高提取语音中的关键信息的效率，本发明实施例可以在获取到用户输入的语音之后，对该用户输入的语音进行降噪等预处理，以获取更准确的语音，避免被无关用户输入的语音的其他语音信息干扰。

可选地，为了充分提取用户输入的语音中包含的信息，以基于这些提取到的信息生成符合用户需求和个人喜好的图片，本发明实施例中的语音信息提取模型包括语音关键信息提取模型和语气信息提取模型。其中，语音关键信息提取模型可以基于历史语音输入、以及与历史语音输入对应的关键信息训练得到；语气信息提取模型可以基于历史语音输入、以及与历史语音输入对应的语气信息训练得到。

其中，语音关键信息提取模型具体可以基于大量的历史语音输入训练得到，该语音关键信息提取模型可以是卷积神经网络，该卷积神经网络能够基于用户的语音输入提取出该语音输入中的语音特征，以及语音特征之间的关系，比如连贯性、断句状态等。

由于不同的语气能够反映用户的不同风格，那么体现在用户想要制作的图片上，则可以以图片风格的方式体现。为了实现更加个性化的图片生成，以更加符合每个用户的个人需求和喜好，本发明实施例中在通过语音关键信息提取模型提取出用户的语音输入中的关键信息之后，还可以通过语气信息提取模型来提取用户的语音输入中的语气信息，进而使得即使是同样的一段文字，经过不同的用户以语音的形式输入，也能够提取出符合各个用户个人风格的语气信息。

需要说明的是，上述语音关键信息提取模型和语气信息提取模型也可以是一个模型，即可以通过大量的历史语音输入同时训练得到。因此，在通过语音信息提取模型获取语音中的关键信息和语音的语气分类之后，还可以获取与该语气分类对应的图片风格类型，最后，将关键信息和图片风格类型作为图像生成深度学习网络模型的输入，以生成与关键信息和图片风格类型相匹配的图片。

其中，该语气信息提取模型可以是预先基于大量的历史语音数据训练得到，该语气信息提取模型可以是一个分类网络，对不同的语气进行分类，比如高亢的语气、低沉的语气，或者高兴的语气、失落的语气，或者还可以包含温和的语气、沉着的语气、烦躁的语气、跳跃的语气等等不同的分类。显然，这些对语气的不同分类能够体现用户输入语气时的个人感情，进而能够确定用户当前的需求，即想要什么风格的图片。因此，可以将不同类别的语气与不同的图片风格对应起来，比如沉着的语气可以对应国画风格，跳跃的语气可以对应动漫风格等。

或者，还可以将不同的语气进行分级，每个级别的语气对应不同的感情程度，且每个级别对应一种图片风格。假设感情程度从悲伤到高兴分为N个级别(其中，N为大于或等于2的正整数)，那么悲伤为1级、中度悲伤为2级、轻度悲伤为3级、轻度高兴为4级、中度高兴为5级、高兴为6级，那么在获取到用户的语音输入之后，可以通过语音信息提取模型来确定用户的语气属于哪个级别的，然后便可以确定该级别对应的图片风格。

可选地，由于语音信息提取模型包括上述语音关键信息提取模型和语气信息提取模型，因此，为了充分提取出用户的语音输入中的信息，基于用户的语音输入以及预设的语音信息提取模型，提取出用户的关键信息和图片风格，具体可以首先，基于用户的语音输入以及语音关键信息提取模型，提取出用户的关键信息；然后，基于用户输入的语音以及语气信息提取模型，提取出语音的语气信息；最后，基于语音的语气信息和预设的语气信息与图片风格的匹配关系，确定与语气信息相匹配的图片风格。

可选地，由于用户的语音输入中不仅包含了文字信息、还包含了用户如何断句、以及是否连贯等信息，这些信息都反应了用户的个人需求和喜好，因此，为了能够生成符合用户的个人需求和喜好的图片，上述用户的关键信息可以包括下述至少一种：与用户的语音输入对应的关键词信息、语音连贯信息和断句状态信息。

步骤103，根据关键信息和语气分类，生成目标图片。

其中，目标图片的内容与关键信息相匹配，目标图片的风格类型与语气分类匹配。可以将关键信息作为图像生成深度学习网络模型的输入，以生成与关键信息相匹配的图片。

可选地，由于生成对抗网络(Generative Adversarial Nets,GAN)模型和变分自编码器(Variational Auto-Encoder,VAE)模型能够基于输入的图像相关的关键信息来生成包含输入的图像相关的关键信息的图像，因此，本发明实施例中的图像生成深度学习网络模型包括下述至少一种：生成对抗网络模型和变分自编码器模型。在实际应用中，生成对抗网络模型和变分自编码器模型既可以单独使用，也可以相互结合起来应用到本发明实施例提供的语音画图方法中，本发明实施例对此不作具体限定。

应理解，为了提高生成图片的画质，在通过图像生成深度学习网络模型，生成与用户的关键信息和图片风格相匹配的图片之后，还可以对生成的图片进行滤波处理，以提升图片的画质，从而给用户带来更好的用户体验。

如图2所示，为本发明实施例提供的语音画图方法在实际场景中的具体实现流程示意图，包括：

步骤201，获取用户的语音输入；

用户可以通过终端设备中语音画图的入口处输入有关想要的图片内容的语音信息。

步骤202，基于用户的语音输入，提取关键信息；

具体可以通过上文所述的语音关键信息提取模型来提取出用户的语音输入中的关键信息，该关键信息比如可以包括关键词信息、语音连贯信息和断句状态信息等有关图片内容的关键信息。

步骤203，基于用户的语音输入，提取图片风格信息；

具体可以通过上文所述的语气信息提取模型来提取出用户的语音输入中包含的语气信息，然后确定与该语气信息对应的图片风格信息。

步骤204，将提取的关键信息和图片风格信息作为图像生成深度学习网络的输入，以生成符合用户需求的图片；

步骤205，将生成的图片输出到终端设备的显示屏幕。

请参阅图3，为本发明实施例提供的终端设备300的结构示意图，如图3所示，包括获取单元301、提取单元302和生成单元303，其中：

第一获取单元301，用于获取用户输入的语音；

第二获取单元302，用于基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类；

图片生成单元303，用于根据所述关键信息和所述语气分类，生成目标图片，所述目标图片的内容与所述关键信息相匹配，所述目标图片的风格类型与所述语气分类匹配。

可选地，在一种实施方式中，所述第二获取单元302，用于：

将所述用户的语音作为语音信息提取模型的输入，以获取所述语音中的关键信息以及所述语音的语气分类。

可选地，在一种实施方式中，所述图片生成单元303，用于：

获取所述语气分类对应的图片风格类型；

将所述关键信息和所述图片风格类型作为图像生成深度学习网络模型的输入，以生成所述目标图片。

可选地，在一种实施方式中，所述语音的关键信息包括：

与所述语音对应的关键词信息、语音连贯信息和断句状态信息中的至少一项。

可选地，在一种实施方式中，所述图像生成深度学习网络模型包括下述至少一种：生成对抗网络模型和变分自编码器模型。

本发明实施例提供的终端设备300能够实现图1～图2的方法实施例中终端设备实现的各个过程，为避免重复，这里不再赘述。

图4为实现本发明各个实施例的一种终端设备400的硬件结构示意图，

该终端设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，用于获取用户输入的语音；基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类；根据所述关键信息和所述语气分类，生成目标图片，所述目标图片的内容与所述关键信息相匹配，所述目标图片的风格类型与所述语气分类匹配。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与终端设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元403上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

终端设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在终端设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与终端设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备400内的一个或多个元件或者可以用于在终端设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

终端设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种终端设备，包括处理器410，存储器409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述语音画图方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音画图方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包括”或者其任何其他变体意在涵盖非排他性的包括，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音画图方法，其特征在于，包括：

获取用户输入的语音；

2.如权利要求1所述的方法，其特征在于，基于所述用户输入的语音，获取所述语音中的关键信息以及所述语音的语气分类，包括：

3.如权利要求2所述的方法，其特征在于，根据所述关键信息和所述语气分类，生成目标图片，包括：

获取所述语气分类对应的图片风格类型；

4.如权利要求1～3中任一所述的方法，其特征在于，所述语音的关键信息包括：

5.如权利要求1～3中任一所述的方法，其特征在于，

所述图像生成深度学习网络模型包括下述至少一种：生成对抗网络模型和变分自编码器模型。

6.一种终端设备，其特征在于，包括：

第一获取单元，用于获取用户输入的语音；

7.如权利要求6所述的终端设备，其特征在于，所述第二获取单元，用于：

8.如权利要求7所述的终端设备，其特征在于，所述图片生成单元，用于：

获取所述语气分类对应的图片风格类型；

9.一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1～5任一所述的语音画图方法的步骤。

10.一种可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～5任一所述的语音画图方法的步骤。