CN112910752A

CN112910752A - 语音表情显示、语音表情生成方法及装置

Info

Publication number: CN112910752A
Application number: CN201911223119.4A
Authority: CN
Inventors: 田元
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-06-04
Anticipated expiration: 2039-12-03
Also published as: CN112910752B

Abstract

本申请公开了一种语音表情显示、语音表情生成方法及装置，属于网络技术领域。本申请通过基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据，在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。在上述过程中，多个用户可以共同为一个表情配音，增强了用户之间的互动性，也使表情可以从声音维度传达情感，丰富了表情包的情感表达效果，增强表情包的趣味性。

Description

语音表情显示、语音表情生成方法及装置

技术领域

本申请涉及网络技术领域，特别涉及一种语音表情显示、语音表情生成方法及装置。

背景技术

随着互联网技术以及智能硬件的发展，网络社交成为一种重要的社交方式，用户可以通过即时通讯工具发送信息进行互动，例如可以发送文字、表情包等，其中，表情包是一种通过静态或动态图像来表达情感的方式，能够弥补文字交流的枯燥和态度表达不准确的弱点，提高互动交流的趣味性。

但是，这些表情包难以从视觉和听觉维度共同传达情绪信息，而在网络社交场景中，语音是情感表达的一种重要媒介，表情包无法传达语音信息，导致情感表达效果单一，通过表情包进行沟通的互动效果较为单一，因此，对于即时通讯工具的运营商来说，如何生成语音表情，以丰富表情包的情感传达维度，增强用户之间的互动性，是目前的一个重要研究方向。

发明内容

本申请实施例提供了一种语音表情显示、语音表情生成方法及装置，可以解决相关技术中表情情感表达效果单一的问题。该技术方案如下：

一方面，提供了一种语音表情显示方法，该方法包括：

基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据；

在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。

一方面，提供了一种语音表情生成方法，该方法包括：

获取第一用户提供的第一语音数据，该第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识；

获取第二用户提供的第二语音数据，该第二语音数据携带有该目标表情的表情标识以及第二虚拟形象的形象标识；

基于该第一语音数据、该第二语音数据以及该目标表情，生成目标语音表情。

一方面，提供了一种语音表情显示装置，该装置包括：

获取模块，用于基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据；

显示模块，用于在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。

在一种可能实现方式中，该配音指令由下述任一种操作触发：

对会话界面的信息显示区域中该目标表情的触发操作；

对该会话界面的信息输入区域中该目标表情的触发操作；

对表情列表界面中目标表情的触发操作。

在一种可能实现方式中，该获取模块用于：

基于对该目标表情中第一虚拟形象的配音指令，获取第一用户的第一语音数据；

基于对该第二用户的配音邀请指令，向该第二用户发送该目标表情的配音链接，由该第二用户提供该目标表情中第二虚拟形象所对应的第二语音数据。

在一种可能实现方式中，该获取模块用于：

基于该配音指令，在第一目标区域显示配音界面；

获取该第一用户选择的第一虚拟形象的形象标识；

获取该第一用户在该配音界面输入的语音数据，作为该第一语音数据，该第一语音数据携带该目标表情的表情标识以及该第一虚拟形象的形象标识。

在一种可能实现方式中，该装置还包括播放模块，用于：

在该目标界面显示该目标语音表情时，基于对该目标语音表情的语音播放控件的触发操作，播放该目标语音表情所对应的语音数据；

在该目标界面显示该目标语音表情时，自动播放该目标语音表情所对应的语音数据。

在一种可能实现方式中，该播放模块用于：

基于该目标语音表情中第一虚拟形象和该第二虚拟形象所对应的对话顺序，播放该第一语音数据和该第二语音数据。

在一种可能实现方式中，该播放模块用于：

在该目标界面显示该目标语音表情时，基于对该目标语音表情中任一虚拟形象的选择操作，播放该任一虚拟形象所对应的语音数据。

一方面，提供了一种语音表情生成装置，该装置包括：

第一获取模块，用于获取第一用户提供的第一语音数据，该第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识；

第二获取模块，用于获取第二用户提供的第二语音数据，该第二语音数据携带有该目标表情的表情标识以及第二虚拟形象的形象标识；

生成模块，用于基于该第一语音数据、该第二语音数据以及该目标表情，生成目标语音表情。

在一种可能实现方式中，该第二获取模块用于：

接收该第一用户的配音邀请指令，该配音邀请指令包括第二用户的用户标识；

基于该配音邀请指令中的用户标识，将该目标表情的配音链接发送给该第二用户；

获取该第二用户基于该配音链接提供的语音数据，作为第二语音数据。

在一种可能实现方式中，该装置还包括：

判断模块，用于基于该目标表情的表情标识以及该第一虚拟形象的形象标识，判断该目标表情中是否包括可选的虚拟形象；当该目标表情中包括可选的虚拟形象时，执行该配音链接发送步骤；当该目标表情中不包括可选的虚拟形象时，不执行该配音链接发送步骤。

在一种可能实现方式中，该生成模块用于：

基于该第一语音数据以及该第二语音数据所携带的表情标识、形象标识，确定各个语音数据与各个虚拟形象的关联关系；

基于该关联关系，将该第一语音数据、该第二语音数据以及该目标表情构建为一个资源包，该资源包包括该目标语音表情的图像数据和语音数据。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现该语音表情显示方法所执行的操作；或如该语音表情生成方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现该语音表情显示方法所执行的操作；或如该语音表情生成方法所执行的操作。

本申请实施例提供的技术方案，通过基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据，在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。在上述过程中，多个用户可以共同为一个表情配音，增强了用户之间的互动性，也使表情可以从声音维度传达情感，丰富了表情包的情感表达效果，增强表情包的趣味性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音表情生成和显示方法的实施环境示意图；

图2是本申请实施例提供的一种语音表情生成和显示方法的流程图；

图3是本申请实施例提供的一种会话界面的示意图；

图4是本申请实施例提供的一种会话界面的示意图；

图5是本申请实施例提供的一种表情列表界面的示意图；

图6是本申请实施例提供的配音界面具体形式示意图；

图7是本申请实施例提供的虚拟形象选中状态的具体形式示意图；

图8是本申请实施例提供的一种语音输入状态的具体形式示意图；

图9是本申请实施例提供的一种配音链接的具体形式示意图；

图10是本申请实施例提供的一种目标语音表情显示方式示意图；

图11是本申请实施例提供的一种静音状态示意图；

图12是本申请实施例提供的一种语音表情显示装置的结构示意图；

图13是本申请实施例提供的一种语音表情生成装置的结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

图1是本申请实施例提供的一种语音表情生成和显示方法的实施环境示意图，参见图1，参见图1，该实施环境包括：第一终端110、服务器140和第二终端160。

第一终端110可以安装和运行有支持即时通讯的应用程序，该应用程序可以是社交应用程序、即时通讯工具等，第一终端110是第一用户使用的终端，该第一终端110中运行的应用程序内登录有该第一用户的用户账号，该第一用户可以使用该第一终端110向其他应用该应用程序的用户发送信息，该信息包括但不限于：文字、语音、视频、静态图像、动态图像、表情包、链接中的至少一种。

第一终端110通过无线网络或有线网络与服务器140相连。

服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器140用于为支持即时通讯的应用程序提供后台服务。可选地，服务器140承担主要计算工作，第一终端110和第二终端160承担次要计算工作；或者，服务器140承担次要计算工作，第一终端110和第二终端160承担主要计算工作；或者，服务器140、第一终端110和第二终端160三者之间采用分布式计算架构进行协同计算。

第二终端160可以安装和运行有支持即时通讯的应用程序，该应用程序可以是社交应用程序、即时通讯工具等，第二终端160是第二用户使用的终端，该第二终端160中运行的应用程序内登录有该第二用户的用户账号，该第二用户可以使用该第二终端160向其他应用该应用程序的用户发送信息，该信息包括但不限于：文字、语音、视频、静态图像、动态图像、表情包、链接中的至少一种。

第二终端160通过无线网络或有线网络与服务器140相连。

可选地，第一终端110和第二终端160上安装的应用程序是相同的，或两个终端上安装的应用程序是不同操作系统平台的同一类型应用程序。第一终端110可以泛指多个终端中的一个，第二终端160可以泛指多个终端中的一个，本实施例仅以第一终端110和第二终端160来举例说明。第一终端110和第二终端160的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机中的至少一种。例如，第一终端110和第二终端160可以是智能手机，或者其他手持便携式智能设备。以下实施例，以终端包括智能手机来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

图2是本申请实施例提供的一种语音表情生成和显示方法的流程图，该方法可以应用于上述实施环境中的终端和服务器，参见图2，该方法具体可以包括以下步骤：

201、第一终端基于对目标表情的配音指令，在第一目标区域显示配音界面。

在本申请实施例中，该第一终端可以为第一用户所使用的终端，该第一终端可以安装和运行有支持即时通讯的目标应用程序，该目标表情可以为该目标应用程序所提供表情包中的任一表情，也可以为该第一用户制作的表情，其中，表情可以为即时通讯类应用程序、社交类应用程序中，用户表达情感的一种方式，表情可以包括符号、静态图像、动态图像、短视频等，表情包可以是多个表情的集合。在本申请实施例中，该目标表情可以包括多个虚拟形象，该多个虚拟形象可以为虚拟人物、动漫角色、卡通形象等。

在本申请实施例中，该配音指令的触发方式可以包括下述多种可能实现方式中的任一种：

实现方式一、该配音指令可以由对会话界面的信息显示区域中该目标表情的触发操作触发，其中，该目标表情可以为用户已发送的表情，该触发操作可以为点击操作、长按操作等，本申请实施例对此不作限定。参见图3，图3是本申请实施例提供的一种会话界面的示意图，该信息显示区域301中，可以显示有用户已发送的信息，当该第一终端检测到该第一用户对已发送信息中目标表情302的触发操作时，可以触发对该目标表情进行配音的步骤。

实现方式二、该配音指令可以由对会话界面的信息输入区域中目标表情的触发操作触发，其中，该信息输入区域可以用于提供文字、语音、表情等信息的输入功能，该信息输入区域可以显示有多个表情，该目标表情可以为该信息输入区域中所显示的任一表情。参见图4，图4是本申请实施例提供的一种会话界面的示意图，该会话界面可以包括信息输入区域，以该信息输入区域为该会话界面的下方区域为例，该第一用户对该信息输入区域401中目标表情402的触发操作可以触发该配音指令。

实现方式三、该配音指令可以由对表情列表界面中目标表情的触发操作触发，其中，该表情列表界面可以用于提供表情包展示功能，该目标表情可以为该表情列表界面中的任一表情。参见图5，图5是本申请实施例提供的一种表情列表界面的示意图，该表情列表界面可以显示有多个表情，该多个表情可以属于同一表情包，也可以属于不同表情包，该第一用户对该表情列表界面中目标表情501的触发操作可以触发该配音指令。

在本申请实施例中，该第一终端在接收到该配音指令后，可以在第一目标区域显示配音界面，该配音界面可以用于提供语音输入功能。参见图6，图6是本申请实施例提供的配音界面具体形式示意图，在一种可能实现方式中，该第一目标区域可以为该第一终端的全屏区域，如图6中的(a)图所示，该第一终端可以全屏显示该配音界面601，该配音界面中可以显示有该目标表情602、语音输入控件603以及邀请好友控件604。在一种可能实现方式中，该第一目标区域可以为会话界面中的任一区域，如图6中的(b)图所示，以该第一目标区域可以为会话界面的下方区域为例，该会话界面可以包括配音界面605，该配音界面605中可以显示有该目标表情606、语音输入控件607，当然，该配音界面中也可以只显示有语音输入控件，如图6中的(c)图所示，该配音界面608中可以包括语音输入控件609。

202、第一终端获取第一用户在该配音界面输入的第一语音数据，该第一语音数据对应于该目标表情中的第一虚拟形象。

其中，该第一虚拟形象可以为该目标表情中的任一虚拟形象。

在一种可能实现方式中，该第一用户可以选择该目标表情中的至少一个虚拟形象进行配音，在本申请实施例中，以该第一用户对一个虚拟形象配音为例进行说明。具体地，该第一用户可以选择该目标表情中的任一虚拟形象，即第一虚拟形象，该第一终端可以将该第一虚拟形象显示为选中状态，参见图7，图7是本申请实施例提供的虚拟形象选中状态的具体形式示意图，如图7中的(a)图所示，当该第一虚拟形象被选中时，该第一虚拟形象所对应的选择控件701可以显示为填充状态，未被选中的虚拟形象所对应的选择控件702显示为未填充状态，如图7中的(b)图和(c)图所示，可以将该第一虚拟形象用目标形状框出，例如，圆形、矩形等，该目标形状可以由开发人员进行设置，本申请实施例对此不做限定。当然，该第一虚拟形象也可以显示为其他样式，以表示该第一虚拟形象已被选中，本申请实施例对此不做具体限定。

该第一终端可以获取该第一用户选择的第一虚拟形象的形象标识，获取该第一用户在该配音界面输入的语音数据，作为该第一语音数据，该第一语音数据可以携带有该目标表情的表情标识以及该第一虚拟形象的形象标识，在一种可能实现方式中，该第一终端检测到该第一用户对该语音输入控件的触发操作后，可以开启录音功能，获取该第一用户输入的第一语音数据，例如，当该第一终端检测到该第一用户对该语音输入控件的点击操作时，开始采集语音数据，当检测到该第一用户再次对该语音输入控件进行点击时，停止采集语音数据，将采集到的语音数据作为第一语音数据。在一种可能实现方式中，该第一终端可以在开始录音前，获取该第一用户所选择目标表情的表情标识以及第一虚拟形象的形象标识，将该表情标识和该形象标识与该第一语音数据相关联，当然，该第一终端也可以在语音数据采集完成后，再获取该表情标识与形象标识，本申请实施例对此不做限定。参见图8，图8是本申请实施例提供的一种语音输入状态的具体形式示意图，该第一终端可以对当前输入语音的音量进行显示，在一种可能实现方式中，该第一用户还可以对音量进行调节。需要说明的是，上述对语音数据采集过程的说明仅是一种示例性描述，本申请实施例对具体采用哪种语音数据采集方式不作限定。在一种可能实现方式中，该第一终端检测到该第一用户选中该第一虚拟形象后，可以自动开启录音功能，执行第一语音数据采集的步骤，本申请实施例对此不作限定。

在一种可能实现方式中，该第一语音数据可以为存储在该第一终端或云端服务器中的一段语音数据，即该第一终端可以获取该第一用户所选择的一段已录制好的语音数据作为该第一语音数据，本申请实施例对具体采用哪种语音数据不做具体限定。

需要说明的是，上述步骤201和步骤202是基于对目标表情中第一虚拟形象的配音指令，获取第一用户的第一语音数据的过程。

在一种可能实现方式中，该第一终端可以将第一虚拟形象的第一语音数据发送至目标服务器，其中，该第一语音数据可以携带有该目标表情的表情标识、该第一虚拟形象的形象标识、该第一用户的用户标识等信息，该目标服务器可以对该第一虚拟形象的配音信息进行存储。当然，该目标服务器也可以从该第一终端实时获取该第一语音数据，本申请实施例对目标服务器如何获取该第一语音数据不做具体限定。在一种可能实现方式中，该目标服务器获取该第一用户提供的第一语音数据之后，该目标服务器可以对该第一语音数据进行处理，例如，可以对该第一语音数据进行降噪处理、去除该第一语音数据中的静音等，将处理后的第一语音数据进行存储。在本申请实施例中，该目标服务器对该第一语音数据进行处理，可以确保对该目标表情的配音效果良好。需要说明的是，这一步骤即为获取第一用户提供的第一语音数据，该第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识的过程。

203、第一终端当接收到配音邀请指令时，获取第二用户的用户标识，该第二用户为被邀请用户。

在本申请实施例中，该第一用户可以邀请第二用户为该目标表情中未被选择的至少一个虚拟形象进行配音，其中，该第二用户可以为使用该目标应用程序的任一用户，该用户标识可以用于唯一地指示一个用户。

在本申请实施例中，该配音邀请指令的触发方式可以包括下述可能实现方式中的任一种：

实现方式一、该配音邀请指令可以由对好友邀请控件的点击操作触发。以图6中(a)图所示的配音界面为例，在一种可能实现方式中，该第一终端检测到该第一用户对该配音界面中邀请好友控件的点击操作时，可以显示该第一用户的好友列表，当检测到该第一用户确认选择该好友列表中任一用户时，获取该任一用户的用户标识，该任一用户即为该第二用户。

实现方式二、该配音邀请指令可以在该第一语音数据采集完成后自动触发。以图6中(b)图或(c)图所示的配音界面为例，该配音界面显示在会话界面中的第一目标区域，在一种可能实现方式中，该第一终端检测到该第一语音数据采集完成，即该第一用户录音结束后，可以自动执行好友邀请步骤，在一种可能实现方式中，当该会话界面为该第一用户与某一用户的会话界面时，该第一终端可以获取当前会话界面中，与该目标用户进行信息交互的用户所对应的用户标识，将该用户作为该第二用户。在一种可能实现方式中，当该会话界面为某一群组的会话界面时，即有多个用户与该目标用户进行信息交互时，该第一终端检测到该第一语音数据采集完成后，可以显示该群组的成员列表，由该第一用户在该群组列表中选择任一用户作为该第二用户。当然，该第一用户也可以选择该群组中的全部成员，即该群组中的任一成员均可以与该第一用户共同对该目标表情进行配音，该第一终端可以获取各个成员的用户标识，将各个成员作为第二用户。在一种可能实现方式中，当该会话界面为某一群组的会话界面时，该第一终端可以获取该群组中各个成员的活跃度，将该群组中活跃度最高的一个用户作为该第二用户，该活跃度可以基于各个成员的会话信息发送次数确定，会话信息发送次数越多，活跃度越高，当然，该第一终端也可以获取与该第一用户互动次数最多、亲密度最高的用户作为该第二用户，本申请实施例不做具体限定。在一种可能实现方式中，当该目标用户在该会话界面中所选择的目标表情为任一其他用户所发送的表情时，该第一终端可以将该任一其他用户作为该第二用户。

需要说明的是，该第一用户可以邀请至少一个第二用户，由该至少一个用户分别对该目标表情中未被选择的虚拟形象进行配音，本申请实施例对第二用户的数目不做具体限定，在本申请实施例中，仅以一个第二用户对该目标表情中的一个虚拟形象配音为例进行说明。

204、第一终端向目标服务器发送用户邀请请求。

其中，该目标服务器可以为该目标应用程序提供后台服务。

在一种可能实现方式中，该第一终端获取到该第二用户的用户标识后，即可生成用户邀请请求，将该用户邀请请求发送至该目标服务器，该用户邀请请求可以包括该第二用户的用户标识、该目标表情的表情标识、该第一用户的用户标识等，当然，该用户邀请请求还可以包括该第一虚拟形象的形象标识以及该第一语音数据，使被邀请的该第二用户在配音前可以预览该第一虚拟形象的配音信息。

在本申请实施例中，该目标服务器可以对该用户邀请请求进行存储，即对邀请用户、被邀请用户进行记录，在一种可能实现方式中，该目标服务器中可以维护有如表1所示的目标表情的配置表格，该配置表格中可以存储有该目标表情的配置信息，例如，表情标识、配音用户的用户标识、各个配音用户所选择的虚拟形象以及提供的语音数据等。

表1

需要说明的是，上述对目标服务器存储目标表情的配置信息的描述，仅是一种存储方式的示例性说明，本申请实施例对该目标服务器具体采用哪种数据存储方式不做限定。

205、目标服务器将该目标表情的配音链接发送给该第二用户。

在一种可能实现方式中，该目标服务器可以基于该用户邀请请求中的数据生成该目标表情的配音链接，将该配音链接发送给该第二用户。

在一种可能实现方式中，该目标服务器在发送该配音链接之前，还可以判断该目标表情中是否包括可选的虚拟形象，具体地，该目标服务器可以基于该目标表情的表情标识以及该第一虚拟形象的形象标识，判断该目标表情中是否包括可选的虚拟形象，即判断该目标表情中是否包括除该第一虚拟形象以外的其他虚拟形象，当该目标表情中包括可选的虚拟形象时，执行该配音链接发送步骤206，当该目标表情中不包括可选的虚拟形象时，不执行该配音链接发送步骤，该目标服务器可以向该第一终端发送无法邀请好友的提示信息。

206、第二终端基于该配音链接，获取第二用户提供的第二语音数据。

其中，该第二终端为该第二用户所使用的终端，该第二终端可以安装和运行有该目标应用程序。

在本申请实施例中，该第二终端可以在与该第一用户的会话界面中对该配音链接进行显示，在一种可能实现方式中，该目标服务器可以将该配音链接与该目标表情相关联，参见图9，图9是本申请实施例提供的一种配音链接的具体形式示意图，该目标表情901与该配音链接相关联，该第二用户点击该目标表情901，即点击该配音链接，进入配音界面，该目标表情901的第二目标区域可以显示有邀请该第二用户进行配音的提示信息，其中，该第二目标区域可以为该目标表情的任一区域，如图9所示，以该第二目标区域为该目标表情的下方区域902为例，该第二目标区域中可以显示有“邀请你一起配音”的提示信息。当然，该配音连接还可以显示为卡片等样式，本申请实施例对此不作限定。

该第二终端检测到该第二用户对该配音链接的触发操作后，即可显示配音界面，在一种可能实现方式中，该配音链接可以携带有该第一虚拟形象的形象标识，该第二终端可以将该第一虚拟形象显示为不可选择状态。

该第二终端可以获取该第二用户在该配音界面所选择的第二虚拟形象以及输入的第二语音数据，该第二语音数据的获取过程与上述步骤202中第一语音数据的获取过程同理，在此不做赘述。

需要说明的是，上述步骤204、步骤205、步骤206是基于对该第二用户的配音邀请指令，向该第二用户发送该目标表情的配音链接，由该第二用户提供该目标表情中第二虚拟形象所对应的第二语音数据的步骤。

207、第二终端将第二语音数据发送至该目标服务器。

在本申请实施例中，该第二终端获取到该第二语音数据后，可以将该第二语音数据发送至该目标服务器，该第二语音数据可以携带有第二虚拟形象的形象标识、该目标表情的表情标识以及该第二用户的用户标识，该目标服务器获取该第二用户提供的第二语音数据之后，可以基于该第二语音数据执行语音数据处理、语音数据存储的步骤，例如，该目标服务器可以对如表1所示的配置表格。需要说明的是，该语音数据处理、语音数据存储的过程与上述步骤204中目标服务器对第一语音数据进行处理以及存储的过程同理，在此不作赘述。

需要说明的是上述步骤201至步骤207是基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据的步骤。在一种可能实现方式中，该第一用户和该第二用户也可以不对虚拟形象进行选择，直接录入语音数据，当然，该目标表情中可以不包括虚拟形象，本申请实施例对此不作限定。

208、目标服务器基于该目标表情、该第一语音数据以及该第二语音数据，生成目标语音表情。

在一种可能实现方式中，该目标服务器可以基于该第一语音数据、该第二语音数据、该目标表情中的该第一虚拟形象和该第二虚拟形象，生成目标语音表情，具体地，该目标服务器可以基于该第一语音数据以及该第二语音数据所携带的表情标识、形象标识，确定各个语音数据与各个虚拟形象的关联关系，基于该关联关系，将该第一语音数据、该第二语音数据以及该目标表情构建为一个资源包，该资源包可以包括该目标语音表情的图像数据和语音数据，该目标服务器可以将该资源包发送至该第一终端和该第二终端，由该第一终端和该第二终端基于该资源包对该目标语音表情进行显示。在一种可能实现方式中，该目标服务器也可以基于如表1所示的配置表格目确定各个语音数据与各个虚拟形象的关联关系，本申请实施例对此不作限定。

在一种可能实现方式中，该目标服务器可以为该目标语音表情添加目标背景音效，该目标背景音效的确定方法具体可以包括下述多种实现方式中的任一种：

实现方式一、该目标背景音效基于用户所提供语音数据的情感信息确定。以该目标语音表情基于该第一语音数据的情感信息确定为例，在一种可能实现方式中，该目标服务器可以基于语音识别模型和情绪识别模型，对该第一语音数据进行识别，获取该第一语音数据所对应的文本信息和情绪信息，基于该文本信息和情绪信息，确定该第一语音数据的情感标签，从背景音效库中获取携带该情感标签的一个背景音效作为该目标背景音效。其中该背景音效库中可以包括多个背景音效，一个背景音效可以对应于至少一个情感表情。需要说明的是，本申请实施例对具体采用哪种识别方式确定语音数据的情感标签不做限定。

实现方式二、该目标背景音效为用户选择的背景音效。以该第一用户对背景音效进行选择为例，在一种可能实现方式中，该配音界面可以显示有音效选择区域，该音效选择区域可以包括多个背景音效的标识，该第一终端可以获取该第一用户所选择的背景音效作为该目标背景音效。

实现方式三、该目标背景音效基于该目标表情与各个背景音效的对应关系确定。其中，该对应关系可以由开发人员进行设置，不同表情可以对应于不同背景音效。

在一种可能实现方式中，该目标服务器可以基于该第一语音数据、该第二语音数据、该目标表情以及该目标背景音效构建一个资源包，将该资源包发送至该第一终端和该第二终端，由该第一终端和该第二终端基于该资源包对该目标语音表情进行显示。

209、第一终端在目标界面显示目标语音表情。

其中，该目标界面可以为该第一用户和该第二用户所对应的会话界面，该第一终端和该第二终端均可以在该目标界面显示该目标语音表情，在本申请实施例中，以该第一终端在目标界面显示该目标语音表情为例进行说明。

在一种可能实现方式中，该第一终端可以在该目标界面的第三目标区域显示该目标语音表情的语音播放控件，其中，该第三目标区域可以为该目标界面中的任一区域。参见图10，图10是本申请实施例提供的一种目标语音表情显示方式示意图，在一种可能实现方式中，该第一终端可以在该目标界面，即该会话界面中该目标表情的下方区域显示该语音播放控件，如图10中的(a)图所示，该语音播放控件1001可以显示为语音消息的样式，在一种可能实现方式中，该第一终端可以在该目标表情的左侧区域显示该语音播放控件，如图10中的(b)图所示，该语音播放控件1002可以显示为目标图形，该目标图形可以由开发人员进行设置。

在一种可能实现方式中，在该目标界面显示该目标语音表情时，该第一终端可以基于该第一用户对该目标语音表情的语音播放控件的触发操作，播放该目标语音表情所对应的语音数据。具体地，该第一终端可以基于该目标语音表情中该第一虚拟形象和该第二虚拟形象所对应的对话顺序，播放该第一语音数据和该第二语音数据。在本申请实施例中，该第一虚拟形象和该第二虚拟形象所对应的对话顺序可以由用户或开发人员进行设置，以该对话顺序由第一用户进行设置为例，该配音界面可以显示有对话顺序设置控件，该第一用户可以在该配音界面对该目标表情中各个虚拟形象的对话顺序进行设置，生成对话顺序设置信息，将该对话顺序设置信息发送至目标服务器，该目标服务器可以基于该对话顺序设置信息确定各个虚拟形象所对应语音数据的播放顺序。

在一种可能实现方式中，在该目标界面显示该目标语音表情时，该第一终端也可以自动播放该目标语音表情所对应语音数据，本申请实施例对此不做限定。

在一种可能实现方式中，在该目标界面显示该目标语音表情时，该第一终端可以基于对该目标语音表情中任一虚拟形象的选择操作，播放该任一虚拟形象所对应的语音数据，例如，当检测到该第一用户点击该第一虚拟形象时，该第一终端可以播放该第一虚拟形象所对应的第一语音数据。

在本申请实施例中，该第一用户可以将该目标语音表情设置为静音状态，参见图11，图11是本申请实施例提供的一种静音状态示意图，在一种可能实现方式中，该语音播放控件可以显示为静音状态。

本申请实施例提供的技术方案，通过基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据，在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。在上述语音表情显示过程中，多个用户可以共同为一个表情配音，增强了用户之间的互动性，也使表情可以从声音维度传达情感，丰富了表情包的情感表达效果，增强表情包的趣味性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图12是本申请实施例提供的一种语音表情显示装置的结构示意图，参见图12，该装置包括：

获取模块1201，用于基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据；

显示模块1202，用于在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。

对会话界面的信息显示区域中该目标表情的触发操作；

对该会话界面的信息输入区域中该目标表情的触发操作；

对表情列表界面中目标表情的触发操作。

在一种可能实现方式中，该获取模块1201用于：

基于该配音指令，在第一目标区域显示配音界面；

获取该第一用户选择的第一虚拟形象的形象标识；

在一种可能实现方式中，该装置还包括播放模块，用于：

本申请实施例提供的装置，通过基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据，在目标界面显示目标语音表情，该目标语音表情基于该第一语音数据、该第二语音数据以及该目标表情确定。应用上述语音表情显示装置，多个用户可以共同为一个表情配音，增强了用户之间的互动性，也使表情可以从声音维度传达情感，丰富了表情包的情感表达效果，增强表情包的趣味性。

需要说明的是：上述实施例提供的语音表情显示装置在语音表情显示时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音表情显示装置与语音表情显示方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种语音表情生成装置的结构示意图，参见图13，该装置包括：

第一获取模块1301，用于获取第一用户提供的第一语音数据，该第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识；

第二获取模块1302，用于获取第二用户提供的第二语音数据，该第二语音数据携带有该目标表情的表情标识以及第二虚拟形象的形象标识；

生成模块1303，用于基于该第一语音数据、该第二语音数据以及该目标表情，生成目标语音表情。

在一种可能实现方式中，该第二获取模块1302用于：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该生成模块1303用于：

需要说明的是：上述实施例提供的语音表情生成装置在语音表情生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音表情生成装置与语音表情生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：一个或多个处理器1401和一个或多个存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1401所执行以实现本申请中方法实施例提供的语音表情显示方法或语音表情生成方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置终端1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在终端1400的不同表面或呈折叠设计；在一些实施例中，显示屏1405可以是柔性显示屏，设置在终端1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

定位组件1408用于定位终端1400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1412可以检测终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商Logo时，指纹传感器1414可以与物理按键或厂商Logo集成在一起。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。具体地，当环境光强度较高时，调高显示屏1405的显示亮度；当环境光强度较低时，调低显示屏1405的显示亮度。在另一个实施例中，处理器1401还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1416，也称距离传感器，通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时，由处理器1401控制显示屏1405从亮屏状态切换为息屏状态；当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时，由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1501和一个或多个的存储器1502，其中，该一个或多个存储器1502中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1500还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由处理器执行以完成上述实施例中的语音表情显示方法或语音表情生成方法。例如，该计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来至少一条程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音表情显示方法，其特征在于，所述方法包括：

在目标界面显示目标语音表情，所述目标语音表情基于所述第一语音数据、所述第二语音数据以及所述目标表情确定。

2.根据权利要求1所述的方法，其特征在于，所述配音指令由下述任一种操作触发：

对会话界面的信息显示区域中所述目标表情的触发操作；

对所述会话界面的信息输入区域中所述目标表情的触发操作；

对表情列表界面中目标表情的触发操作。

3.根据权利要求1所述的方法，其特征在于，所述基于对目标表情的配音指令，获取第一用户的第一语音数据以及第二用户的第二语音数据包括：

基于对所述目标表情中第一虚拟形象的配音指令，获取所述第一用户的第一语音数据；

基于对所述第二用户的配音邀请指令，向所述第二用户发送所述目标表情的配音链接，由所述第二用户提供所述目标表情中第二虚拟形象所对应的第二语音数据。

4.根据权利要求3所述的方法，其特征在于，所述基于对所述目标表情中第一虚拟形象的配音指令，获取所述第一用户的第一语音数据包括：

基于所述配音指令，在第一目标区域显示配音界面；

获取所述第一用户选择的第一虚拟形象的形象标识；

获取所述第一用户在所述配音界面输入的语音数据，作为所述第一语音数据，所述第一语音数据携带所述目标表情的表情标识以及所述第一虚拟形象的形象标识。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括下述任一项：

在所述目标界面显示所述目标语音表情时，基于对所述目标语音表情的语音播放控件的触发操作，播放所述目标语音表情所对应的语音数据；

在所述目标界面显示所述目标语音表情时，自动播放所述目标语音表情所对应的语音数据。

6.根据权利要求5所述的方法，其特征在于，所述播放所述目标语音表情所对应的语音数据包括：

基于所述目标语音表情中第一虚拟形象和所述第二虚拟形象所对应的对话顺序，播放所述第一语音数据和所述第二语音数据。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标界面显示所述目标语音表情时，基于对所述目标语音表情中任一虚拟形象的选择操作，播放所述任一虚拟形象所对应的语音数据。

8.一种语音表情生成方法，其特征在于，所述方法包括：

获取第一用户提供的第一语音数据，所述第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识；

获取第二用户提供的第二语音数据，所述第二语音数据携带有所述目标表情的表情标识以及第二虚拟形象的形象标识；

基于所述第一语音数据、所述第二语音数据以及所述目标表情，生成目标语音表情。

9.根据权利要求8所述的方法，其特征在于，所述获取第二用户提供的第二语音数据包括：

接收所述第一用户的配音邀请指令，所述配音邀请指令包括第二用户的用户标识；

基于所述配音邀请指令中的用户标识，将所述目标表情的配音链接发送给所述第二用户；

获取所述第二用户基于所述配音链接提供的语音数据，作为第二语音数据。

10.根据权利要求9所述的方法，其特征在于，所述将所述目标表情的配音链接发送给所述第二用户之前，所述方法还包括：

基于所述目标表情的表情标识以及所述第一虚拟形象的形象标识，判断所述目标表情中是否包括可选的虚拟形象；

当所述目标表情中包括可选的虚拟形象时，执行所述配音链接发送步骤；

当所述目标表情中不包括可选的虚拟形象时，不执行所述配音链接发送步骤。

11.根据权利要求8所述的方法，其特征在于，所述基于所述第一语音数据、所述第二语音数据、所述目标表情中的所述第一虚拟形象和所述第二虚拟形象，生成目标语音表情包括：

基于所述第一语音数据以及所述第二语音数据所携带的表情标识、形象标识，确定各个语音数据与各个虚拟形象的关联关系；

基于所述关联关系，将所述第一语音数据、所述第二语音数据以及所述目标表情构建为一个资源包，所述资源包包括所述目标语音表情的图像数据和语音数据。

12.一种语音表情显示装置，其特征在于，所述装置包括：

显示模块，用于在目标界面显示目标语音表情，所述目标语音表情基于所述第一语音数据、所述第二语音数据以及所述目标表情确定。

13.一种语音表情生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一用户提供的第一语音数据，所述第一语音数据携带有目标表情的表情标识、第一虚拟形象的形象标识；

第二获取模块，用于获取第二用户提供的第二语音数据，所述第二语音数据携带有所述目标表情的表情标识以及第二虚拟形象的形象标识；

生成模块，用于基于所述第一语音数据、所述第二语音数据以及所述目标表情，生成目标语音表情。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音表情显示方法所执行的操作；或如权利要求8或11所述的语音表情生成方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音表情显示方法所执行的操作；或如权利要求8或11所述的语音表情生成方法所执行的操作。