CN110379430B

CN110379430B - 基于语音的动画显示方法、装置、计算机设备及存储介质

Info

Publication number: CN110379430B
Application number: CN201910680756.8A
Authority: CN
Inventors: 陈晓丹; 黄小凤; 张振伟; 张超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2023-09-22
Anticipated expiration: 2039-07-26
Also published as: CN110379430A

Abstract

本发明公开了一种基于语音的动画显示方法、装置、计算机设备及存储介质，属于计算机技术领域。本发明通过对用户输入的语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息，并基于该文本信息和该情绪信息构建目标动画，这种基于语音的动画显示方法，可以使该目标动画基于该文本信息和该情绪信息的变化而变化，实现不同的语音信号对应于不同的动画效果，使动画更具趣味性，提升了用户的视听体验。

Description

基于语音的动画显示方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种基于语音的动画显示方法、装置、计算机设备及存储介质。

背景技术

声音在一定程度上可以反映一个人的性格、状态等信息，是社交中不可替代的一种信息表达形式，在陌生人社交场景中，声音社交具有独特的优势，因此，越来越多的社交应用中加入了通过声音进行互动的形式，在社交应用中，用户可以发布一段语音，应用程序自动为这段语音添加动画，其他用户在播放这段语音时还可以观看动画。

目前，在基于语音的动画显示方法中，在获取到语音信号后，会为该语音信号添加一个预先生成的动画，通过该动画来表现语音的播放状态，但是这种方法会导致不同的语音信号均对应于同一个动画，且动画内容缺乏趣味性，用户的视听体验较差。

发明内容

本发明实施例提供了一种基于语音的动画显示方法、装置、计算机设备及存储介质，可以解决相关技术中动画内容缺乏趣味性的问题。该技术方案如下：

一方面，提供了一种基于语音的动画显示方法，该方法包括：

检测到语音输入界面中的语音输入操作时，获取该语音输入操作所输入的语音信号；

对该语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息；

基于该文本信息和该情绪信息，显示目标动画，该目标动画的动态效果基于该文本信息和该情绪信息的变化而变化。

一方面，提供了一种基于语音的动画显示装置，该装置包括：

语音获取模块，用于检测到语音输入界面中的语音输入操作时，获取该语音输入操作所输入的语音信号；

信息获取模块，用于对该语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息；

动画显示模块，用于基于该文本信息和该情绪信息，显示目标动画，该目标动画的动态效果基于该文本信息和该情绪信息的变化而变化。

在一种可能实现方式中，该动画显示模块用于：

将该文本信息中具有目标词性的至少一个词组确定为至少一个关键词；

将该至少一个关键词与多个目标标签进行匹配，一个目标标签用于指示一个图形，获取与该至少一个关键词匹配度最高的至少一个目标标签；

基于该至少一个目标标签所指示的至少一个图形的轮廓，确定该各个动画元素的所对应的至少一组位置坐标。

在一种可能实现方式中，该情绪信息包括：至少一个情绪标签以及各个情绪标签所对应的语音区间；

每个该情绪标签对应于一组运动参数。

在一种可能实现方式中，该动画显示模块用于：

基于该情绪信息中的至少一个情绪标签，确定该各个动画元素所对应的至少一组运动参数，一组运动参数用于指示该各个动画元素的位移量和位移速度，基于该各个情绪标签所对应的语音区间，确定各组运动参数所对应的语音区间。

在一种可能实现方式中，该装置还包括：

界面显示模块，用于显示类别选择界面；

第一类别获取模块，用于检测用户在该类别选择界面的触发操作，将该触发操作所对应的类别选项作为该语音信号所属的类别；

第二类别获取模块，用于检测用户在该类别选择界面的输入操作，将该输入操作所输入的信息作为该语音信号所属的类别；

界面切换模块，用于获取到该语音信号所属的类别后，切换至该语音输入界面。

在一种可能实现方式中，该装置还包括：

颜色集合确定模块，用于基于该语音信号所属的类别，确定各个动画元素所对应的颜色集合；

颜色确定模块，用于基于该文本信息和该情绪信息，从该颜色集合中确定该各个动画元素所对应的至少一种颜色。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现该基于语音的动画显示方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现该基于语音的动画显示方法所执行的操作。

本发明实施例提供的技术方案，通过对用户输入的语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息，并基于该文本信息和该情绪信息构建目标动画，这种基于语音的动画显示方法，可以使该目标动画基于该文本信息和该情绪信息的变化而变化，实现不同的语音信号对应于不同的动画效果，使动画更具趣味性，提升了用户的视听体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于语音的动画显示方法的实施环境示意图；

图2是本发明实施例提供的一种基于语音的动画显示方法的流程图；

图3是本发明实施例提供的一种语音动态显示界面的示意图；

图4是本发明实施例提供的一种语音输入界面的示意图；

图5是本发明实施例提供的一种语音录入完成界面的示意图；

图6是本发明实施例提供的一种发布界面的示意图；

图7是本发明实施例提供的一种语音动态显示界面的动画显示示意图；

图8是本发明实施例提供的一种类别选择界面的示意图；

图9是本发明实施例提供的一种基于类别和语音信号构建动画的流程图；

图10是本发明实施例提供的一种基于语音的动画显示装置的结构示意图；

图11是本发明实施例提供的一种终端的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机设备能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。在本发明实施例提供的方案主要涉及语音技术中的自动语音识别技术，通过自动语音识别技术使计算机设备可以提取出语音信号中的关键词以及该语音信号所传达的情绪信息。

图1是本发明实施例提供的一种基于语音的动画显示方法的实施环境示意图，参见图1，该实施环境中包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器110相连。终端110可以是智能手机、平板电脑、MP4播放器、便携计算机等设备。终端110安装和运行有支持语音识别的应用程序。该应用程序可以是社交类应用程序、音频类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与服务器140相连。

服务器140可以是云计算平台、虚拟化中心等。服务器140用于为支持语音识别的应用程序提供后台服务。可选地，服务器140承担主要识别工作，终端110承担次要识别工作；或者，服务器140承担次要识别工作，终端110承担主要识别工作；或者，服务器140或终端110分别可以单独承担识别工作。

可选地，服务器140包括：接入服务器、语音识别服务器和数据库。接入服务器用于为终端110提供接入服务。语音识别服务器用于提供语音识别有关的后台服务。语音识别服务器可以是一台或多台。当语音识别服务器是多台时，存在至少两台语音识别服务器用于提供不同的服务，和/或，存在至少两台语音识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。语音识别服务器中可以设置有语音识别模型，该语音识别模型可以用于识别语音信号所对应的文本信息和情绪信息。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本发明实施例对终端的数量和设备类型不加以限定。

图2是本发明实施例提供的一种基于语音的动画显示方法的流程图，参见图2，该方法具体可以包括以下步骤：

201、终端检测到语音输入界面中的语音输入操作时，获取该语音输入操作所输入的语音信号。

在本发明实施例中，该终端可以安装和运行支持语音采集和语音识别的应用程序，用户可以在该应用程序中发布语音动态，该应用程序可以将用户发布的语音动态进行显示，参见图3，图3是本发明实施例提供的一种语音动态显示界面的示意图，该界面中可以包括语音动态显示区域301、播放控件302和目标控件303，该终端可以对该界面中的用户操作进行检测，当检测到对播放控件302的触发操作时，该终端该语音动态对应的语音信号和动画，当检测到对目标控件303的触发操作时，该终端显示语音输入界面。其中，该目标控件可以为用于提供语音动态发布功能的控件，该触发操作可以为点击操作、长按操作等，本发明实施例对此不做具体限定。

图4是本发明实施例提供的一种语音输入界面的示意图，参见图4，该语音输入界面中可以包括语音输入控件401，该语音输入控件可以用于提供触发语音采集的功能。具体地，以该触发操作为长按操作为例，该终端检测到用户按下该语音输入控件401时，开启语音采集功能，实时采集用户输入的语音信号，当检测到该语音输入控件401被释放时，或语音输入时长达到目标时长时，结束语音采集，该终端获取到用户本次语音输入操作所输入的全部语音信号，显示语音录入完成界面。其中，该目标时长可以由开发人员进行设置，在本发明实施例中，该目标时长可以设置为60秒。

图5是本发明实施例提供的一种语音录入完成界面的示意图，该语音录入完成界面中可以包括撤回控件501、语音播放控件502和确认控件503，当检测到对撤回控件501的触发操作时，即用户撤回本次输入的语音信号，该终端切换至语音输入界面，重新获取语音信号，当检测到对语音播放控件502的触发操作时，该终端播放本次获取的语音信号，当检测到对确认控件503的触发操作时，该终端将获取到的语音信号发送至服务器，由服务器执行后续的语音识别步骤。

202、服务器对该语音信号进行语义识别，获取该语音信号所对应的文本信息。

在一种可能实现方式中，该服务器可以通过语义识别模型对该语音信息进行语义识别，该服务器可以将该语音信号输入语义识别模型，由该语义识别模型提取该语音信号中包含的至少一个音素，基于该至少一个音素生成该语音信号对应的文本信息。其中，该语义识别模型可以包括声学模型和语言模型两部分，该声学模型可以用于获取该语音信号所对应的音素信息，该语言模型可以用于获取该语音信号所对应的正确解码结果。上述语义识别过程具体可以包括以下步骤：

步骤一、该服务器对获取的语音信号进行预处理，包括静音切除、声音分帧等处理。

具体地，该服务器去除该语音信号首尾端的静音等无效语音信息，以降低无效语音信息对后续语义识别步骤的干扰，该服务器对去除静音后的语音信号进行声音分帧处理，即可以通过移动窗函数将该语音信号切分为多个帧，各个帧之间可以有重合。

步骤二、该服务器获取该语音信号所对应的语音特征序列，该语音特征序列由各个帧所对应的特征向量构成。

在一种可能实现方式中，该服务器可以提取该语音信号的MFCC(Mel FrequencyCepstrum Coefficient，梅尔频率倒谱系数)特征，将该语音信号中的每一帧转换为一个多维特征向量，该一个多维特征向量可以用于指示一帧语音信号所包含的内容信息，该服务器将各个帧对应的特征向量组合为语音特征序列。当然，该服务器也可以通过提取该语音信号的其他特征，将该语音信号中的各个帧转换为特征向量，本发明实施例对此不做具体限定。

步骤三、该服务器将该语音特征序列输入该语义识别模型中的声学模型，由该声学模型基于多个特征向量输出音素信息。

具体地，该声学模型中可以包括N个状态，各个状态之间有固定的跳转关系，该声学模型可以基于各个帧所对应的特征向量，获取各个帧所对应的状态，将M个状态组合成一个音素，其中，N和M均为大于0的整数，N大于M，N和M的具体数值可以由开发人员进行设置。

步骤四、该服务器将音素信息与发音词典进行匹配，得到该音素信息可能对应的多个解码结果，通过语言模型计算各个解码结果为正确解码结果的概率，将概率最高的解码结果作为该语音信号对应的文本信息。

需要说明的是，上述对语义识别方式的说明仅是一种语义识别方式的示例性介绍，本发明实施例对具体采用哪种语义识别技术不做具体限定。

203、该服务器对该语音信号进行情绪识别，获取该语音信号所对应的情绪信息。

其中，该情绪识别模型中可以包括多个情绪类别特征，一个情绪类别特征对应于一个情绪标签，也即是对应于一种情绪，该一个情绪类别特征可以用于表示该一种情绪应具有的音频特征。

在一种可能实现方式中，该服务器可以通过情绪识别模型对该语音信息进行情绪识别，该服务器将该语音信号输入情绪识别模型，由该情绪识别模型对该语音信号进行特征提取，得到该语音信号的至少一个音频特征，基于该至少一个音频特征确定该语音信号所对应的情绪信息，其中，该音频特征可以包括音调特征、响度特征、语速特征、音色特征中至少一项。具体地，首先，该终端去除该语音信号中的静音等无效信息，并按照时间顺序，将该语音信号切分为X个语音片段，各个语音片段之间无重叠部分，其中，X为大于0的整数，X的具体数值可以由开发人员进行设置，然后，该服务器将多个语音片段输入该情绪识别模型，由该情绪识别模型对各个语音片段进行特征提取，得到各个语音片段对应的音频特征，计算一个语音片段的音频特征与各个情绪类别特征之间的相似度，获取与该一个语音片段的音频特征相似度最高的情绪类别特征，将该情绪类别特征所对应的情绪标签作为该语音片段所对应的情绪标签，最后，该服务器对相邻语音片段所对应的情绪标签是否相同，若相同，则对该相邻语音片段进行合并，作为一个语音区间，该语音区间对应于该情绪标签，若不同，则将该语音片段作为一个单独的语音区间，该服务器基于该至少一个语音区间，以及该至少一个语音区间所对应的情绪标签，生成该语音信号的情绪信息。

这种情绪识别方式可以识别出该语音信号中包含的多种情绪，在后续的基于该语音信号中包含的情绪信息构建动画时，可以使动画内容基于不同的情绪信息而变化，增强动画内容的趣味性。

需要说明的是，上述对情绪识别方式的说明仅是一种情绪识别方式的示例性介绍，本发明实施例对具体采用哪种情绪识别技术不做具体限定。

上述步骤202和步骤203是服务器对该语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息的过程。在本发明实施例中，采用先获取该语音信号对应的文本信息，再获取该语音信号对应的情绪信息的执行顺序进行描述，但是在一些实施例中，还可以先获取该语音信号对应的情绪信息，再获取该语音信号对应的文本信息，或者两个步骤同时进行，本发明实施例对不做具体限定。

204、该服务器可以基于该文本信息，确定各个动画元素的所对应的至少一组位置坐标，基于该情绪信息，确定该各个动画元素对应的至少一组运动参数。

在本发明实施例中，一个动画元素可以为一个矢量点，该一个矢量点的位置可以由坐标值表示，可以通过修改该一个矢量点所对应的坐标值，使该一个矢量点的位置发生变化，即使该一个矢量点呈现运动效果，该服务器可以通过确定多个矢量点的位置坐标，使该多个矢量点能够组合为一个图形。

该服务器在基于该文本信息，确定各个动画元素的位置坐标时，可以基于该文本信息的全部内容，确定一个能够与该文本信息相匹配的图形，基于该图形确定一组位置坐标，也即是使各个动画元素仅构成一个图形。也可以基于该文本信息中的至少一个词组，确定至少一个图形，一个图形可以与一个词组相匹配，基于该至少一个图形确定至少一组位置坐标，在一种可能实现方式中，该服务器确定各个动画元素的所对应的至少一组位置坐标具体可以包括以下步骤：

步骤一、该服务器将该文本信息中具有目标词性的至少一个词组确定为至少一个关键词。在本发明实施例中，该目标词性可以由开发人员进行设置，具有该目标词性的词组可以用于指示一个具体形象，这种具体形象可以通过图形表现。

步骤二、该服务器将该至少一个关键词与多个目标标签进行匹配，一个目标标签用于指示一个图形，获取与该至少一个关键词匹配度最高的至少一个目标标签。

其中，该目标标签可以由开发人员进行设置，在本发明实施例中，该目标标签中可以包括一个默认标签，该默认标签对应于一个默认图形。

在一种可能实现方式中，为确保生成的动画能够较好地表现语音信号的内容，在关键词与目标标签进行匹配时，可以设置一个匹配度阈值，当关键词与除默认标签之外的任一目标标签之间的匹配度大于该匹配度阈值时，则获取与该关键词匹配度最高的一个目标标签，当该关键词与除默认标签之外的各个目标标签之间的匹配度均小于该匹配度阈值时，则认为该关键词与各个目标标签均不匹配，则将该默认标签作为与该关键词匹配度最高的目标标签。

步骤三、该服务器基于该至少一个目标标签所指示的至少一个图形的轮廓，确定该各个动画元素的所对应的至少一组位置坐标。

在本发明实施例中，该情绪信息可以包括至少一个情绪标签，以及各个情绪标签所对应的语音区间，一个情绪标签对应于一组运动参数。在一种可能实现方式中，该服务器可以基于该情绪信息中的至少一个情绪标签，确定该各个动画元素所对应的至少一组运动参数，一组运动参数用于指示该各个动画元素的位移量和位移速度，基于该各个情绪标签所对应的语音区间，确定各组运动参数所对应的语音区间。其中，该位移量可以包括横坐标上的位移量和纵坐标上的位移量，可以用于指示各个动画元素的移动距离和移动方向。这种基于运动参数和语音区间确定各个动画元素的动态效果的方式，可以使各个动画元素在不同的语音区间内有不同的动态效果，从而实现动画内容随着情绪的变化而变化。

上述过程中，通过基于文本信息确定各个动画元素所构成的图形，基于情绪信息确定各个动画元素所对应的动态效果，可以实现动画内容随语音信号的变化而变化，使动画内容与语音信号的相关性更强，动画显示的视觉效果更好。

205、该服务器基于该至少一组位置坐标和至少一组运动参数构建目标动画，将该目标动画显示在目标界面上。

其中，该目标界面可以为发布界面、语音动态显示界面等。

该服务器可以基于各个动画元素所对应的至少一组位置坐标和至少一组运动参数，构建目标动画，使各个动画元素所构成的图形可以根据运动参数呈现动态变化。

该目标动画构建完成后，该服务器可以向该终端发送动画构建完成的信息，该终端接收到该信息后，显示发布界面。图6是本发明实施例提供的一种发布界面的示意图，该发布界面可以包括预览区域601、预览控件602和发布控件603，当检测到对该预览控件602的触发操作时，该终端播放该语音信号，并在该预览区域601中显示该目标动画，当检测到对该发布控件603的触发操作后，基于该语音信号和该目标动画生成一条语音动态，将该语音动态发布至服务器。在本发明实施例中，该语音动态发布后，可以在该语音动态显示界面中的语音动态显示区域进行显示，当检测到用户对该界面中播放控件的触发操作时，该终端从服务器中获取该语音动态所对应的语音信号和目标动画，在该语音动态显示区域显示该目标动画，参见图7，图7是本发明实施例提供的一种语音动态显示界面的动画显示示意图，图7中的(a)图是一种示例性的动画显示效果示意图，该语音动态显示界面中可以包括动画内容显示区域701和语音内容显示区域702，该语音内容显示区域702所显示的文本信息为“我愿化作一只飞鱼”，该动画显示区域701中所显示的各个动画元素排列为“鱼”的形状，图7中的(b)图是另一种示例性的动画显示效果示意图，界面中所显示的文本信息为“同浪花一样散入星辰大海”，各个动画元素排列为“浪花”的形状。

需要说明的是，上述步骤204和205是基于该文本信息和该情绪信息，显示目标动画的过程。

在本发明实施例中，通过对用户输入的语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息，并基于该文本信息和该情绪信息构建目标动画，这种基于语音的动画显示方法，可以使该目标动画基于该文本信息和该情绪信息的变化而变化，实现不同的语音信号对应于不同的动画效果，使动画更具趣味性，提升了用户的视听体验。

在上述基于语音的动画显示方法中，各个动画元素可以对应于一种或多种默认颜色。为增加动画内容的趣味性，以及动画显示的视觉效果，在本发明实施例中，可以基于用户输入的语音信号确定各个动画元素的颜色，例如，可以基于该语音信号的类别、该语音信号所对应的文本信息和情绪信息，确定该各个动画元素的颜色，具体可以包括以下步骤：

步骤一、该终端显示类别选择界面。

在一种可能实现方式中，该终端检测到在语音动态显示界面中对目标控件的触发操作后，切换至类别选择界面，参见图8，图8是本发明实施例提供的一种类别选择界面的示意图，该类别选择页面中可以包括信息输入区域801和类别显示区域802。

步骤二、该终端获取该语音信号所属的类别。

其中，一个类别可以对应一个颜色集合，一个颜色集合中可以包括多种颜色。在本发明实施例中，该终端获取该语音信号所属的类别具体可以包括下述任一种方式：

(1)该终端检测用户在该类别选择界面的触发操作，将该触发操作所对应的类别选项作为该语音信号所属的类别。

(2)该终端检测用户在该类别选择界面的输入操作，将该输入操作所输入的信息作为该语音信号所属的类别。

该终端获取到该语音信号所属的类别后，切换至该语音输入界面。

步骤三、该终端获取该语音信号，以及该语音信号的文本信息和情绪信息。

该语音信号的获取方式，以及文本信息和情绪信息的获取方式与上述步骤201、步骤202和步骤203同理，在此不做赘述。

步骤四、该终端基于该语音信号所属的类别，确定该各个动画元素所对应的颜色集合。

在本发明实施例中，一个颜色集合可以对应于一个集合标签，该至少一个集合标签可以用于指示该颜色结合中所包含的颜色信息，例如，该集合标签可以为冷色、暖色等。

该终端获取到用户提供的类别信息后，将该类别信息发送至服务器，由服务器提取该类别信息的类别关键词，将该类别关键词与各个集合标签进行匹配，将与该类别关键词的匹配度最高的集合标签所对应的颜色集合，作为各个动画元素所对应的颜色集合。

步骤五、该终端基于该文本信息和该情绪信息，从该颜色集合中确定该各个动画元素所对应的至少一种颜色。

在本发明实施例中，可以基于该文本信息中的关键词和情绪信息中的情绪标签与各个颜色之间的匹配关系，确定该各个动画元素的颜色，该匹配关系可以由开发人员进行设置，例如，该关键词为“大海”，该情绪标签为“悲伤”时，与之匹配的颜色可以设置为蓝色。

图9是本发明实施例提供的一种基于类别和语音信号构建动画的流程图，参见图9，首先，该终端获取到类别信息后，将该类别信息发送至服务器，由服务器执行颜色集合匹配的步骤901，然后，该终端获取用户输入的语音信息号，将该语音信号发送至服务器，由服务器执行基于语音信号确定各个动画元素所构成的图形的步骤902，以及确定各个动画元素的运动效果的步骤903，最后，该服务器完成动画构建，将该动画发送至该终端进行显示。

本发明实施例可以实现将无形的声音可视化，在应用程序中通过语义识别技术和情绪识别技术，将用户发布的语音内容进行情景可视化呈现，在声音社交场景中，增加了一个空间维度，从而提升了声音社交的趣味性和表现空间，使该应用程序更具吸引力，且给予用户更大的交友动力，使用户在通过声音进行互动社交时获得更良好的用户体验，建立更友好的关系链。

图10是本发明实施例提供的一种基于语音的动画显示装置的结构示意图，参见图10，该装置包括：

语音获取模块1001，用于检测到语音输入界面中的语音输入操作时，获取该语音输入操作所输入的语音信号；

信息获取模块1002，用于对该语音信号进行识别，得到该语音信号所对应的文本信息和情绪信息；

动画显示模块1003，用于基于该文本信息和该情绪信息，显示目标动画，该目标动画的动态效果基于该文本信息和该情绪信息的变化而变化。

在一种可能实现方式中，该信息获取模块1002用于：

将该语音信号输入语义识别模型，由该语义识别模型提取该语音信号中包含的至少一个音素，基于该至少一个音素生成该语音信号对应的文本信息；

将该语音信号输入情绪识别模型，由该情绪识别模型对该语音信号进行特征提取，得到该语音信号的至少一个音频特征，基于该至少一个音频特征确定该语音信号所对应的情绪信息。

在一种可能实现方式中，该音频特征包括：音调特征、响度特征、语速特征、音色特征中至少一项。

在一种可能实现方式中，该动画显示模块1003用于：

基于该文本信息，确定各个动画元素的所对应的至少一组位置坐标，基于该情绪信息确定该各个动画元素对应的至少一组运动参数；

基于该至少一组位置坐标和至少一组运动参数构建目标动画，将该目标动画显示在目标界面上。

在一种可能实现方式中，该动画显示模块1003用于：

每个该情绪标签对应于一组运动参数。

在一种可能实现方式中，该动画显示模块1003用于：

在一种可能实现方式中，该装置还包括：

界面显示模块，用于显示类别选择界面；

在一种可能实现方式中，该装置还包括：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的基于语音的动画显示装置在基于语音进行动画显示时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于语音的动画显示装置与基于语音的动画显示方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本发明实施例提供的一种终端的结构示意图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：一个或多个处理器1101和一个或多个存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本发明中方法实施例提供的基于语音的动画显示方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1201和一个或多个的存储器1202，其中，该一个或多个存储器1202中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的基于语音的动画显示方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音的动画显示方法，其特征在于，所述方法包括：

检测到语音输入界面中的语音输入操作时，获取所述语音输入操作所输入的语音信号；

对所述语音信号进行识别，得到所述语音信号所对应的文本信息和情绪信息；

将所述文本信息中具有目标词性的至少一个词组确定为至少一个关键词，将所述至少一个关键词与多个目标标签进行匹配，一个目标标签用于指示一个图形，获取与所述至少一个关键词匹配度最高的至少一个目标标签；基于所述至少一个目标标签所指示的至少一个图形的轮廓，确定各个动画元素的所对应的至少一组位置坐标；基于所述情绪信息确定所述各个动画元素对应的至少一组运动参数，所述各个动画元素用于构成所述至少一个图形；

基于所述至少一组位置坐标和至少一组运动参数构建目标动画，将所述目标动画显示在目标界面上，所述目标动画的动态效果基于所述文本信息和所述情绪信息的变化而变化。

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行识别，得到所述语音信号所对应的文本信息和情绪信息，包括：

将所述语音信号输入语义识别模型，由所述语义识别模型提取所述语音信号中包含的至少一个音素，基于所述至少一个音素生成所述语音信号对应的文本信息；

将所述语音信号输入情绪识别模型，由所述情绪识别模型对所述语音信号进行特征提取，得到所述语音信号的至少一个音频特征，基于所述至少一个音频特征确定所述语音信号所对应的情绪信息。

3.根据权利要求2所述的方法，其特征在于，所述音频特征包括：音调特征、响度特征、语速特征、音色特征中至少一项。

4.根据权利要求1所述的方法，其特征在于，所述情绪信息包括：至少一个情绪标签以及各个情绪标签所对应的语音区间；

每个所述情绪标签对应于一组运动参数。

5.根据权利要求4所述的方法，其特征在于，所述基于所述情绪信息确定所述各个动画元素对应的至少一组运动参数，包括：

基于所述情绪信息中的至少一个情绪标签，确定所述各个动画元素所对应的至少一组运动参数，一组运动参数用于指示所述各个动画元素的位移量和位移速度，基于所述各个情绪标签所对应的语音区间，确定各组运动参数所对应的语音区间。

6.根据权利要求1所述的方法，其特征在于，所述检测到语音输入界面中的语音输入操作时，获取所述语音输入操作所输入的语音信号之前，所述方法还包括：

显示类别选择界面；

检测用户在所述类别选择界面的触发操作，将所述触发操作所对应的类别选项作为所述语音信号所属的类别；

检测用户在所述类别选择界面的输入操作，将所述输入操作所输入的信息作为所述语音信号所属的类别；

获取到所述语音信号所属的类别后，切换至所述语音输入界面。

7.根据权利要求6所述的方法，其特征在于，所述基于所述至少一组位置坐标和至少一组运动参数构建动画之前，所述方法还包括：

基于所述语音信号所属的类别，确定各个动画元素所对应的颜色集合；

基于所述文本信息和所述情绪信息，从所述颜色集合中确定所述各个动画元素所对应的至少一种颜色。

8.一种基于语音的动画显示装置，其特征在于，所述装置包括：

语音获取模块，用于检测到语音输入界面中的语音输入操作时，获取所述语音输入操作所输入的语音信号；

信息获取模块，用于对所述语音信号进行识别，得到所述语音信号所对应的文本信息和情绪信息；

动画显示模块，用于：

9.根据权利要求8所述的装置，其特征在于，所述信息获取模块用于：

10.根据权利要求9所述的装置，其特征在于，所述音频特征包括：音调特征、响度特征、语速特征、音色特征中至少一项。

11.根据权利要求8所述的装置，其特征在于，所述情绪信息包括：至少一个情绪标签以及各个情绪标签所对应的语音区间；

每个该情绪标签对应于一组运动参数。

12.根据权利要求11所述的装置，其特征在于，所述动画显示模块用于：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

界面显示模块，用于显示类别选择界面；

第一类别获取模块，用于检测用户在所述类别选择界面的触发操作，将所述触发操作所对应的类别选项作为所述语音信号所属的类别；

第二类别获取模块，用于检测用户在所述类别选择界面的输入操作，将所述输入操作所输入的信息作为所述语音信号所属的类别；

界面切换模块，用于获取到所述语音信号所属的类别后，切换至所述语音输入界面。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

颜色集合确定模块，用于基于所述语音信号所属的类别，确定各个动画元素所对应的颜色集合；

颜色确定模块，用于基于所述文本信息和所述情绪信息，从所述颜色集合中确定所述各个动画元素所对应的至少一种颜色。

15.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于语音的动画显示方法所执行的操作。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于语音的动画显示方法所执行的操作。