CN115460166A

CN115460166A - 即时语音通信方法、装置、电子设备及存储介质

Info

Publication number: CN115460166A
Application number: CN202211085796.6A
Authority: CN
Inventors: 郑夏桐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-09
Anticipated expiration: 2042-09-06
Also published as: CN115460166B

Abstract

本发明的实施例提供了一种即时语音通信方法、装置、电子设备及存储介质，涉及数据处理领域，应用于即时语音通信系统中的发送端，方法包括：对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点；根据语音标签，从预设表情包数据库中确定语音标签匹配的第一推荐表情包；根据第一推荐表情包，确定第一目标表情包；向接收端发送语音数据、第一目标表情包和第一时间点，以使得接收端在播放语音数据的过程中，在第一时间点，显示第一目标表情包。采用本发明，可以使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

Description

即时语音通信方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理领域，具体而言，涉及一种即时语音通信方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的飞速发展和社交媒介的丰富，在网络社交中使用表情包变得越来越流行。

在现有的即时通信模式中，用户可以编辑一段文字发送之后，发送表情包来表达文字对应的情绪，使得聊天内容生动有趣。

但是，用户在进行即时语音通信的过程中，无法实现语音内容和表情包的搭配使用，尤其作为接受方，往往是播放完语音聊天内容再看到独立发送的表情包，这两个过程存在一定的割裂感，使得发送方无法连贯表达情绪。

发明内容

本发明实施例提供一种即时语音通信方法、装置、电子设备及存储介质，可以使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

第一方面，本发明提供一种即时语音通信方法，应用于即时语音通信系统中的发送端，所述方法包括：

对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点；

根据所述语音标签，从预设表情包数据库中确定所述语音标签匹配的第一推荐表情包；

根据所述第一推荐表情包，确定第一目标表情包；

向接收端发送所述语音数据、所述第一目标表情包和所述第一时间点，以使得所述接收端在播放所述语音数据的过程中，在所述第一时间点，显示所述第一目标表情包。

在一个可行的实施方案中，所述对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，包括：

将所述语音数据进行文本转换，得到所述语音数据对应的文本数据；

对所述文本数据进行关键词匹配，得到所述文本数据中的目标关键词，所述语音标签包括：所述目标关键词；

根据所述目标关键词在所述文本数据中的位置，确定所述目标关键词对应的第一时间点。

在一个可行的实施方案中，所述对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，还包括：

对所述语音数据进行情绪识别，得到情绪标签以及所述情绪标签对应的第一时间点，所述语音标签还包括：所述情绪标签。

在一个可行的实施方案中，所述根据所述推荐表情包确定第一目标表情包，包括：

显示第一表情包推荐界面，所述第一表情包推荐界面中显示有：所述第一推荐表情包；

响应通过所述第一表情包推荐界面输入的第一表情包选择操作，确定所述第一表情包选择操作所选中的表情包为所述第一目标表情包。

在一个可行的实施方案中，所述根据所述第一推荐表情包确定第一目标表情包，还包括：

根据所述第一推荐表情包中各表情包的历史使用情况，从所述第一推荐表情包中确定所述第一目标表情包；或者，

根据当前用户的表情包历史使用情况，从所述推荐表情包中确定所述第一目标表情包。

在一个可行的实施方案中，所述根据所述推荐表情包确定第一目标表情包，还包括：

响应通过所述推荐界面输入的表情包切换操作，更新所述第一推荐表情包；

响应针对更新后的推荐表情包输入的第二表情包选择操作，确定所述第二表情包选择操作所选中的表情包为所述第一目标表情包。

在一个可行的实施方案中，所述显示第一表情包推荐界面之后，所述方法还包括：

响应输入的第二表情包推荐界面的展开操作，显示所述第二表情包推荐界面，所述第二表情包推荐界面中显示有：第二推荐表情包：

响应针对所述第二表情包推荐界面输入的第三表情包选择操作，确定所述第二表情包选择操作所选中的表情包为所述第一目标表情包。

在一个可行的实施方案中，所述方法还包括：

显示所述语音数据的时间轴；

响应针对所述第二表情包界面的第四表情包选择操作，确定所述第四表情包选择操作所选中的表情包为第二目标表情包；

响应所述第四表情包选择操作连续输入的表情包移动操作，确定所述表情包移动操作的目标位置在所述时间轴上的时间点为第二时间点；

向所述接收端发送所述语音数据、所述第二目标表情包和所述第二时间点，以使得所述接收端在播放所述语音数据的过程中，在所述第二时间点，显示所述第二目标表情包。

在一个可行的实施方案中，所述向接收端发送所述语音数据、所述第一目标表情包和所述第一时间点之后，所述方法还包括：

响应针对所述语音数据的播放操作，则在播放所述语音数据的过程中，在所述第一时间点，显示所述第一目标表情包。

第二方面，本发明实施例还提供一种即时语音通信方法，应用于即时语音通信系统中的接收端，所述方法包括：

接收发送端发送语音数据、第一目标表情包和第一时间点；

在播放所述语音数据的过程中，在所述第一时间点，显示所述第一目标表情包。

第三方面，本发明实施例还提供一种即时语音通信装置，应用于即时语音通信系统中的发送端，所述装置包括：

解析模块，用于对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点；

推荐模块，用于根据所述语音标签，从预设表情包数据库中确定所述语音标签匹配的第一推荐表情包；

确定模块，用于根据所述第一推荐表情包，确定第一目标表情包；

发送模块，用于向接收端发送所述语音数据、所述第一目标表情包和所述第一时间点，以使得所述接收端在播放所述语音数据的过程中，在所述第一时间点，显示所述第一目标表情包。

第四方面，本发明实施例还提供一种即时语音通信装置，应用于即时语音通信系统中的接收端，所述装置包括：

接收模块，用于接收发送端发送语音数据、第一目标表情包和第一时间点；

播放模块，用于在播放所述语音数据的过程中，在所述第一时间点，显示所述第一目标表情包。

第五方面，本发明实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述处理器执行所述程序指令，以执行如第一方面或第二方面任一所述的即时语音通信方法的步骤。

第六方面，本发明实施例还提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面或第二方面任一所述的即时语音通信方法的步骤。

本发明的有益效果是：

本发明提供的一种即时语音通信方法、装置、电子设备及存储介质，应用于即时语音通信系统中的发送端，方法包括：对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点；根据语音标签，从预设表情包数据库中确定语音标签匹配的第一推荐表情包；根据第一推荐表情包，确定第一目标表情包；向接收端发送语音数据、第一目标表情包和第一时间点，以使得接收端在播放语音数据的过程中，在第一时间点，显示第一目标表情包。通过使用这样的方法，即时语音通信过程中的发送端可以将输入的语音数据和表情包一同匹配发送至接收端，丰富了即时语音通信的形式，使得即时语音通信的过程中不再仅限制于语音数据的传输，而是可以将语音数据与匹配的表情包以及对应的时间点共同发送至接收端，使得发送端在即时语音通信的过程中可以更为准确、生动、有趣地表达自己的语义和情感，相应的，也使得接收端可以更为准确、直接、便捷地了解到发送端所想传输的语义和情感，使得整个即时语音通信的用户参与感更强、互动感更强，也使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种即时语音通信系统的结构示意图；

图2为本申请实施例提供的一种即时语音通信方法的流程示意图；

图3为本申请实施例提供的一种语音数据解析的流程示意图；

图4为本申请实施例提供的一种确定第一目标表情包方法的流程示意图；

图5为本申请实施例提供的一种确定第一目标表情包的界面示意图；

图6为本申请实施例提供的另一种确定第一目标表情包的方法的流程示意图；

图7为本申请实施例提供的另一种确定第一目标表情包的界面示意图；

图8为本申请实施例提供的又一种确定第一目标表情包的方法的流程示意图；

图9为本申请实施例提供的又一种确定第一目标表情包的界面示意图；

图10为本申请实施例提供的一种确定第二目标表情包的方法的流程示意图；

图11为本申请实施例提供的一种确定第二目标表情包的界面示意图；

图12为本申请实施例提供的一种发送端播放的界面示意图；

图13为本申请提供的一种即时语音通信方法的流程示意图；

图14为本申请实施例提供的一种接收端播放的界面示意图；

图15为本申请实施例提供的一种即时语音通信装置的示意图；

图16为本申请实施例提供的另一种即时语音通信装置的示意图；

图17为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

在对本发明进行详细地解释之前，先对本发明的应用场景予以介绍。

用语音来表达内容是最普遍、最基本的表达方式，随着互联网的迅速发展，即时语音通信成为网络通信的主要方式之一。通过语音的通信方式使得交流的双方或者多方可以打破时间和距离的限制，相较于文字输入更为生动地进行即时地、具有个人特色地交流。

但是，仅仅通过语音的即时通信方式也是存在局限的。在现实语音对话中，为了使得表达更为完整和丰富，可以使用面部表情和肢体语言让对方更清晰、准确地知晓语句表达的含义。而在即时语音通信中，用户仅能根据语音中的内容揣测、想象对方的面部表情和肢体语言，其往往是模糊的、不准确的，不仅使得语音传输的内容收到局限，也可能会导致语义的曲解。

基于此，本申请提出一种即时语音通信方法、装置、电子设备及存储介质，作为即时语音通信系统中的发送端，可以对输入的语音数据进行解析，得到语音数据中包含的语音标签以及语音标签出现的时间点，并从预设表情包数据库中确定与语音标签匹配的推荐表情包，根据推荐表情包确定目标表情包后，向接收端发送语音数据、目标表情包以及时间点，使得接收端可以在播放语音数据的过程中，在时间点对应显示目标表情包，使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

如下结合附图通过多个实施例对本申请提供的即时语音通信方法进行解释说明。执行即时语音通信方法的发送端或接收端可以为服务器，也可以为终端设备，其中，终端设备例如可以为手机、电脑等各种电子设备。

下面将可用于本申请实施例提供的即时语音通信方法的即时语音通信系统进行描述。

图1为本申请实施例提供的一种即时语音通信系统的结构示意图。如图1所示，该即时语音通信系统包括发送端100和接收端200，其中，发送端100和接收端200通信连接。

在本申请中，通信连接方式包括无线通信连接或者有线通信方式，无线通信连接可以包括：红外线连接、蓝牙连接、无线保真(WirelessFidelity，WI-FI)连接、近距离无线通信(Near Field Communication，NFC)连接，有限通信连接可以包括：线缆连接等。

另外，本申请对发送端100和接收端200的数量不进行具体限制，发送端100的数量可以为一个或多个，接收端的数量可以为一个或多个。

可选地，发送端100的数量可以为一个，且接收端200的数量可以为一个，一个发送端100与一个接收端200进行通信；可选地，发送端100的数量可以为多个，且接收端200的数量可以为多个，任一或多个发送端100可与任一或多个的接收端200进行通信；可选地，发送端100的数量可以为一个，而接收端200的数量可以为多个，一个发送端100可与多个接收端进行通信。

在上述图1提供的一种即时语音通信系统的基础上，为了清楚地介绍即时语音通信的过程，本申请实施例还提供了一种即时语音通信方法的可能实现方式。图2为本申请实施例提供的一种即时语音通信方法的流程示意图。如图2所示，该即时语音通信方法应用于即时语音通信系统中的发送端100，该方法包括：

S110，对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点。

其中，输入的语音数据可以为用户触发语音输入控件实时录入的语音数据，也可以为用户从不同应用程序获取的已录制的语音数据，本申请对语音数据的编码格式和时间长度不做具体限制。在一种可能的实现方式中，发送端100可以利用麦克风获取用户输入的语音数据。

发送端100可采用预设的语音解析技术，如预先存储的语音识别模型，对输入的语音数据进行解析识别，获取得到输入的语音数据中包含的语音标签以及语音标签的第一时间点。需要说明的是，解析得到的语音标签可以为一个或多个，且每一个语音标签所对应的第一时间点不同。其中，第一时间点为输入的语音数据的时间轴上语音标签出现的时间点。

在本申请中，语音标签为输入的语音数据中包含的各种关键特征标签，如包括“吃饭”、“看电影”、“逛街”这类动作特征标签，也包括“累”、“热”、“饿”这类感受特征标签，也包括“开心”、“生气”、“平静”这类语气特征标签，本申请对语音标签的种类和具体呈现不做具体限制。

S120，根据语音标签，从预设表情包数据库中确定语音标签匹配的第一推荐表情包。

当发送端100获取得到输入的语音数据对应的语音标签之后，便根据得到的一个或多个语音标签，从预设的表情包数据库，如发送端100本地表情包数据库，和/或云端大数据表情包数据库，确定语音标签匹配的第一推荐表情包。其中，第一推荐表情包为预设的表情包数据库中与语音标签匹配的表情包。

需要说明的是，在预设表情包数据库中，每一个表情包都具有表情包标签，表情包标签指示该表情包所对应表达的关键特征，表情包标签可以是该表情包具体的命名名称，如“一个小孩在吃西瓜”、“一只小猫在流泪”等，也可以是该表情包对应的分类名称，如“吃饭”、“伤心”等。

在本申请中，预设表情包数据库中的表情包可以为静态的图像表情包或者动态的GIF(Graphics Interchange Format，图形交换格式)表情包。

将预设表情包数据库中与语音标签匹配的表情包确定为第一推荐表情包。例如，用户输入的语音数据对应的内容为“天气好热，我想吃西瓜”，那么解析出来的语音标签可以为“热”、“吃西瓜”，那么将“热”和“吃西瓜”与预设表情包数据库中包含的表情包进行匹配，匹配得到的表情包对应的表情包标签中可以包含“热”、“吃西瓜”、“西瓜”等名词。

在一种可能的实现方式中，发送端100可以按照语音标签与表情包标签之间的匹配程度对第一推荐表情包进行展示排序，如将“吃西瓜”对应的表情包置于“西瓜”对应的表情包之前。

在一种可能的实现方式中，若从用户输入的语音数据解析出的语气为“低落”，则在“热”、“吃西瓜”对应的表情包的基础上，将“低落”在预设表情包数据库对应的表情包也作为第一推荐表情包。

需要说明的是，每一个语音标签都可以对应一个或多个第一推荐表情包。在一种可能的实现方式中，若任一语音标签未匹配得到表情包，则在该语音标签下对应的表情包展示区域内向用户进行提示，如，显示“很遗憾，没有找到。”，则用户可以根据“自定义”控件跳转至预设表情包数据库界面，从预设表情包数据库中任意表情包作为该语音标签对应的第一推荐表情包。

S130，根据第一推荐表情包，确定第一目标表情包。

发送端100匹配出第一推荐表情包之后，用户可以根据自己的喜好，从每一个语音标签对应的第一推荐表情包中选择想要向接收端200发送的一个或多个表情包作为第一目标表情包，也就是说，第一目标表情包包含了用户基于每个语音标签选择的表情包，当用户点击“最终确定”控件后，发送端100就可以基于用户输入的选择操作，确定第一目标表情包。

需要说明的是，用户可以根据需求对每个语音标签进行目标表情包的选择，也可以对任意语音标签放弃目标表情包的选择。

S140，向接收端发送语音数据、第一目标表情包和第一时间点，以使得接收端在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

当发送端100确定第一目标表情包之后，便可以向接收端200发送语音数据、第一目标表情包和第一时间点。可选地，需要对语音数据、第一目标表情包和第一时间点进行同步处理后再发送。在一种可能的实现方中，可以对语音数据利用第一时间点进行标记，即在语音数据的时间轴上、对应第一时间点的位置进行标记，并且对第一目标表情包标记第一时间点，然后将标记后的语音数据和第一目标表情包发送至接收端200。

那么当接收端200在播放语音数据的过程中播放至语音数据标记的第一时间点时，便调用标记了第一时间点的第一目标表情包进行显示，使得接收端200在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

在一种可能的情况下，若对于接收端200而言，不支持显示由发送端100发送的第一目标表情包，则播放至第一时间点时，显示的第一目标表情包为一张灰色哭脸表情包。

在一种可能的实现方式中，为了降低需要传输的数据量，发送端100可以对传输的语音数据进行压缩，如进行无损压缩，向接收端200发送压缩后的语音数据。可选地，发送端100还可以对语音数据进行滤波处理，以降低语音数据中的杂音，本申请对发送端100为了提升播放效果或传输速度对语音数据进行的处理技术不做具体限制。

在本实施例中，即时语音通信过程中的发送端可以将输入的语音数据和表情包一同匹配发送至接收端，丰富了即时语音通信的形式，使得即时语音通信的过程中不再仅限制于语音数据的传输，而是可以将语音数据与匹配的表情包以及对应的时间点共同发送至接收端，使得发送端在即时语音通信的过程中可以更为准确、生动、有趣地表达自己的语义和情感，相应的，也使得接收端可以更为准确、直接、便捷地了解到发送端所想传输的语义和情感，使得整个即时语音通信的用户参与感更强、互动感更强，也使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

为了清楚地说明对语音数据进行解析的过程，本申请还提供一种语音数据解析的可能实现方式。图3为本申请实施例提供的一种语音数据解析的流程示意图。如图3所示，上述S110中，对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，包括：

S210，将语音数据进行文本转换，得到语音数据对应的文本数据。

发送端100可以采样预设的语音识别技术，如ASR(Automatic SpeechRecognition，自动语音识别技术)对输入的语音数据进行文本转换，得到语音数据对应的文本数据。

在一种可能的实现方式中，发送端100还可以采用预设的深度学习训练下的语音转换模型，对输入的语音数据进行转换，得到语音数据对应的文本数据。本申请对语音转换为文本的技术不做具体限制。

对于转换生成的文本数据的语言格式，与发送端100所使用的系统语言有关，若发送端100采用汉语语言，则将输入的语音数据转换为汉语文本数据；若发送端100采用英语语言，则将输入的语音数据转换为英语文本数据，本申请对语音数据转换生成的文本数据的语言格式不做具体限制。

语音识别模型和语音转换模型进行训练，以获得对应的、能够进行语音识别的模型和进行从文本到语音转换的模型。需要说明的是，语音交互层训练完成的语音识别模型可对语音对话数据进行语音识别，以获得对话数据样本交由预训练模型层进行作为预训练对话模型的训练样本。

S220，对文本数据进行关键词匹配，得到文本数据中的目标关键词。

语音标签包括：目标关键词。

在本申请中，当发送端100获取得到输入的语音数据对应的文本数据之后，需要利用预设的关键词库进行关键词匹配。需要说明的是，当文本数据和预设的关键词库的语言格式不一致时，需要将文本数据对应的语言格式先转换为预设的关键词库对应的语言格式。例如，若文本数据对应的语言格式为英语，预设的关键词库对应的语言格式为汉语，则先将文本数据转换为汉语，再将文本数据与预设的关键词库进行关键词的匹配，其中，预设的关键词库中包含了预设的多个日常用语关键词，如“吃饭”、“晚安”、“下班”、“拜拜”等。

在一种可能的实现方式中，发送端100可以基于用户输入的对预设关键词库进行关键词删除或添加操作，更新预设的关键词库。

在本实施例中，文本数据包含的文本与关键词库包含的关键词相同时，就会生成目标关键词。可选地，用户也可以对文本数据与关键词进行匹配的过程进行模糊设置，即发送端100可以基于用户设置的匹配模糊度，当文本数据包含的文本与关键词库包含的关键词符合预设匹配模糊度时，也生成目标关键词。其中，目标关键词为预设关键词库中与文本数据匹配的关键词。对于转换成文本的语音数据而言，其对应的语音标签包括：目标关键词，本申请对目标关键词的数量不作具体限制。

S230，根据目标关键词在文本数据中的位置，确定目标关键词对应的第一时间点。

当得到目标关键词后，发送端100根据目标关键词在文本数据中的位置，确定目标关键词出现的时间为第一时间点。由于文本数据由语音数据转换而来，因此，文本数据中每一个字都具有对应的语音输入时间。

需要说明的是，目标关键词对应的第一时间点为目标关键词包含的最后一个字在语音数据中对应的输入时间。例如，用户输入的语音数据对应的文本数据为“我想吃饭。”那么，文本数据中的目标关键词为“吃饭”，目标关键词对应的第一时间点为“饭”在语音数据中对应的输入时间。

在本实施例中，目标关键词可以有一个或多个，每个目标关键词都对应不同的第一时间点，多个目标关键词对应多个第一时间点。

在确定得到目标关键词对应的第一时间点之后，便可以执行S120-S140对应的方法，不再赘述。

在本实施例中，通过将语音数据转换为文本数据，从文本数据中获得目标关键词以及出现的时间点，由于目标关键词可以和预设表情包数据库中的表情包关键词进行匹配，因此通过上述步骤可以使得语音数据与发送端中预设表情包数据库产生关联，便于发送端寻得与语音数据匹配的表情包，使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

为了清楚地说明对语音数据进行解析的过程，本申请还提供一种语音数据解析的可能实现方式。上述S110中，对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，还包括：

对语音数据进行情绪识别，得到情绪标签以及情绪标签对应的第一时间点，语音标签还包括：情绪标签。

由于同一词汇在不同的情绪下表达的含义不同，例如，“呵呵”在开心的语气下代表愉快的心情，而在生气的语气下代表愤怒的心情，为了增加表情包与语音数据的匹配度，本申请还可以对输入的语音数据进行情绪识别。

可选地，可以采用预设的语音情绪识别模型，利用语音数据中声波频率，音调的高低、语速等声音特征，对语音数据进行情绪识别，得到语音数据包含的情绪标签以及情绪标签对应的第一时间点。其中，情绪标签可以包括“生气”、“开心”、“平静”、“惊讶”等情绪种类，本申请对此不做具体限制。

可选地，为了使得语音数据进行情绪识别的过程更为精准，可以将输入的语音数据按照预设时间段进行划分，对每一段语音分别进行情绪识别，得到每一段语音对应的情绪标签。若用户输入的语音数据的长度小于预设时间段，则直接将整条语音数据进行统一情绪识别。

其中，情绪标签对应的第一时间点即识别出情绪标签时在语音数据中对应的时间点。

在本申请中，对语音数据转换为文本数据再进行关键词匹配得到目标关键词，和，对语音数据进行情绪识别得到情绪标签，可以并列执行，也可以按照用户设置只对语音数据进行一种处理，即仅根据语音数据得到目标关键词，或仅根据语音数据得到情绪标签，本申请对此不做限制。

需要说明的是，在一种可能的情况下，例如，用户用生气的语气输入“我好生气！”这样的语音数据，那么得到的目标关键词(“生气”)对应的第一时间点与情绪标签(“生气”)对应的第一时间点的时刻相同，对应的第一推荐表情包也相同(都为预设表情包数据库中“生气”对应的表情包)，用户可以根据选择，从目标关键词匹配的第一推荐表情包和情绪标签对应的第一推荐表情包中分别选择表情包作为第一目标表情包的一部分，或者，仅从目标关键词匹配的第一推荐表情包或仅从情绪标签对应的第一推荐表情包作为第一目标表情包，本申请对此不做具体限制。

在本申请中，通过对输入的语音数据进行情绪识别，使得最终与语音数据匹配的表情包更为贴合该条语音数据想要表达的语义，使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

为了清楚地说明即时语音通信方法的实际操作过程，本申请还提供一种确定第一目标表情包的可能实现方式。图4为本申请实施例提供的一种确定第一目标表情包方法的流程示意图。如图4所示，上述S130中，根据第一推荐表情包，确定第一目标表情包，包括：

S310，显示第一表情包推荐界面。

第一表情包推荐界面中显示有：第一推荐表情包。

在本实施例中，发送端100根据对输入的语音数据解析得到的语音标签，从预设的表情包数据库中确定得到与语音标签匹配的第一推荐表情包。在实际操作交互中，可选地，发送端100需要提供包含了第一推荐表情包的第一表情包推荐界面供用户进行选择。需要说明的是，对输入的语音数据解析得到的语音标签的数量为一个或多个，每一个语音标签均对应一个第一表情包推荐页面。第一表情包推荐页面即为发送端100解析出来的语音标签与预设表情包数据库匹配的第一推荐表情包构成的页面。

可选地，该第一表情包推荐页面可以无需用户额外触发，当用户输入语音数据后，发送端100便自动对输入的语音数据进行解析，当发送端100检测到语音标签与预设表情包库匹配得到第一推荐表情包后，便向用户自动弹出第一表情包推荐页面。

在一种可能的实现方式中，该第一表情包推荐页面可以由用户触发语音标签加载控件后，发送端100检测到用户输入的语音标签加载操作后，向用户展示可供用户进行表情包选择操作的每一个语音标签对应的第一表情包推荐页面。

S320，响应通过第一表情包推荐界面输入的第一表情包选择操作，确定第一表情包选择操作所选中的表情包为第一目标表情包。

当发送端100显示第一表情包推荐页面后，用户可以根据自己的需求，从第一表情包推荐页面中选择一个或多个表情包作为第一目标表情包，则发送端100便会根据用户通过第一表情包推荐页面输入的第一表情包选择操作，确定用户在第一表情包选择操作中选中的表情包为第一目标表情包。

其中，第一表情包选择操作为用户对第一表情包推荐页面初始显示的表情包选择操作。第一目标表情包为用户根据语音标签从预设表情包数据库中选择的表情包。需要说明的是，若对输入的语音数据解析得到的语音标签有多个，形成的第一表情包推荐界面有多个，那么发送端100需要响应通过多个第一表情包推荐界面输入的多次第一表情包选择操作，确定每一次第一表情包选择操作所选中的表情包为第一目标表情包的一部分。

为了清晰地说明发送端100在S310-S320时向用户展示的界面，本申请还提供一种确定第一目标表情包的界面展示的可能实现方式。图5为本申请实施例提供的一种确定第一目标表情包的界面示意图。如图5所示，其中，A头像表示的用户为发送端100对应的用户，A用户向接收端200对应的B客户发送语音。在实际操作中，A用户输入语音后，发送端100便直接对用户输入的语音数据进行解析。

首先，当A用户输入了7秒的语音数据之后，发送端100根据这7秒的语音数据解析得到的语音标签有“开心”、“逛街”、“看电影”并直接向用户展示。若A用户点击任一语音标签对应的控件，如点击“开心”，则会在“开心”控件的下方展示“开心”这一语音标签与预设的表情包数据库识别得到的第一推荐表情包所形成的第一表情包推荐界面，其中，1号表情包、2号表情包、3号表情包、4号表情包、5号表情包、6号表情包即为“开心”对应的第一表情包推荐界面包含的第一推荐表情包。

然后，用户可以对第一表情包推荐界面包含的第一推荐表情包，如1号表情包、2号表情包、3号表情包、4号表情包、5号表情包、6号表情包进行点击选中操作。当用户在第一表情包推荐界面选中1号表情包和2号表情包之后，再点击“确定”控件后，发送端100便根据用户通过第一表情包推荐界面输入的第一表情包选择操作，确定第一表情包选择操作所选中的表情包(1号表情包和2号表情包)为第一目标表情包。

同样的，用户可以点击“逛街”或“看电影”控件切换当前的第一表情包推荐界面，并对“逛街”或“看电影”对应的第一表情包推荐界面进行第一目标表情包的选择。

当用户对每个语音标签对应的第一目标表情包选择完毕后，可以长按A用户对应的语音数据条，则会显示弹窗或简易消息提示框或浮层引导页的形式告知用户“是否确认发送？是/否”当用户选择“是”控件后，便可以将接收端200发送所述语音数据、第一目标表情包和第一时间点，此时。A用户对应的语音数据条下面的备注文字由“未发送”更改为“已发送”。

在本实施例中，发送端可以向用户提供包含第一推荐表情包的第一表情包推荐界面供用户选择，使得即时语音通信过程简洁清晰。

可选地，上述S130中，根据推荐表情包确定第一目标表情包，还包括：

根据第一推荐表情包中各表情包的历史使用情况，从第一推荐表情包中确定第一目标表情包；或者，根据当前用户的表情包历史使用情况，从第一推荐表情包中确定第一目标表情包。

在本实施例中，用户在进行第一目标表情包的选择的过程中，发送端100可以根据语音标签匹配得到的第一推荐表情包中各表情包的历史使用情况，从第一推荐表情包中确定第一目标表情包。

可选地，发送端100可以根据各表情包以往被不同用户选择的总次数，对第一推荐表情包中各表情包进行排序，将被不同用户选择的总次数高的表情包置于第一表情包推荐界面中的前序，从高到低对第一推荐表情包中各表情包进行排序显示，以便用户进行选择。

可选择，发送端100可以根据当前用户的表情包历史使用情况，即根据每一个表情包被用户以往被发送过的总次数，对第一推荐表情包中各表情包进行排序，将被用户选择的总次数高的表情包置于第一表情包推荐界面中的前序，从高到低对第一推荐表情包中各表情包进行排序显示，以便用户进行选择。

可选地，发送端100可以根据各表情包以往被不同用户选择的总次数确定每个表情包的第一权重，根据当前用户的表情包历史使用情况确定每个表情包的第二权重，然后对每个表情包按照预设的加权算法进行加权计算，最终确定每个表情包的权重，将权重高的表情包置于第一表情包推荐界面中的前序，权重从高到低对第一推荐表情包中各表情包进行排序显示，以便用户进行选择。

在本实施例中，根据第一推荐表情包中各表情包或当前用户的表情包历史使用情况对表情包进行确定，使得确定目标表情包更为简洁快速。

为了清楚地说明即时语音通信方法的实际操作过程，本申请还提供一种确定第一目标表情包的可能实现方式。图6为本申请实施例提供的另一种确定第一目标表情包的方法的流程示意图。如图6所示，上述S130中，根据所述推荐表情包确定第一目标表情包，还包括：

S410，显示第一表情包推荐界面。

第一表情包推荐界面中显示有：第一推荐表情包。

在本实施例中，发送端100根据对输入的语音数据解析得到的语音标签，从预设的表情包数据库中确定得到与语音标签匹配的第一推荐表情包。具体步骤实现如S310所述，不再赘述。

S420，响应通过第一表情包推荐界面输入的表情包切换操作，更新推荐表情包。

在本实施例中，若用户对当前第一表情包推荐界面显示的表情包不满意，便可以对第一表情包推荐界面进行切换，则发送端100便可以响应通过第一表情包推荐界面输入的表情包切换操作，更新推荐表情包。

S430，响应针对更新后的第一推荐表情包输入的第二表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

当第一表情包推荐界面更新后，用户可以对更新后第一推荐表情包输入第二表情包选择操作，即对更新后第一推荐表情包页面中包含的表情包进行选择，确定第二表情包选择操作所选中的表情包为第一目标表情包。其中第二表情包选择操作为用户对更新后的第一推荐表情包进行的选择操作。

为了清晰地说明发送端100在S410-S430时向用户展示的界面，本申请还提供一种确定第一目标表情包的界面展示的可能实现方式。图7为本申请实施例提供的另一种确定第一目标表情包的界面示意图。如图7所示，其中，A头像表示的用户为发送端100对应的用户，A用户向接收端200对应的B客户发送语音。在实际操作中，A用户输入语音后，发送端100便直接对用户输入的语音数据进行解析。

首先，当A用户输入了7秒的语音数据之后，发送端100根据这7秒的语音数据解析得到的语音标签有“开心”、“逛街”、“看电影”并直接向用户展示。当A用户点击任一语音标签对应的控件，如点击“开心”，则会在“开心”控件的下方展示“开心”这一语音标签与预设的表情包数据库识别得到的第一推荐表情包所形成的第一表情包推荐界面，其中，1号表情包、2号表情包、3号表情包、4号表情包、5号表情包、6号表情包即为“开心”对应的第一表情包推荐界面包含的第一推荐表情包。

当用户对第一表情包推荐界面包含的第一推荐表情包不满意，即对1号表情包、2号表情包、3号表情包、4号表情包、5号表情包、6号表情包不满意，便可以点击触发“换一换”控件，便可以对第一表情包推荐界面进行切换，则发送端100响应通过第一表情包推荐界面输入的表情包切换操作，更新推荐表情包，更新后的表情包为“7号表情包、8号表情包、9号表情包、10号表情包、11号表情包、12号表情包”。

当然，用户可以继续点击触发“换一换”控件，对当前更新后的“7号表情包、8号表情包、9号表情包、10号表情包、11号表情包、12号表情包”进行再次更新，则更新后的表情包就为“13号表情包、14号表情包、15号表情包……”依次类推，直至“开心”对应的在预设的表情包数据库中的第一推荐表情包全部推荐显示完毕。

然后，用户可以对第一表情包推荐界面包含的第一推荐表情包，如7号表情包、8号表情包、9号表情包、10号表情包、11号表情包、12号表情包进行点击选中操作。当用户在第一表情包推荐界面选中7号表情包之后，再点击“确定”控件后，发送端100便根据用户通过第一表情包推荐界面输入的第一表情包选择操作，确定第一表情包选择操作所选中的表情包(7号表情包)为第一目标表情包。

在本实施例中，发送端可以基于用户输入的表情包切换操作，对当前显示的表情包界面进行更新，使得用户更为自由地选择所需要的表情包，使得即时语音通信过程简洁便捷。

为了清楚地说明即时语音通信方法的实际操作过程，本申请还提供一种确定第一目标表情包的可能实现方式。图8为本申请提供的又一种确定第一目标表情包的方法的流程示意图。如图8所示，上述S410中，显示第一表情包推荐界面之后，还包括：

S510，响应输入的第二表情包推荐界面的展开操作，显示第二表情包推荐界面。

第二表情包推荐界面中显示有：第二推荐表情包。

当用户对当前第一表情包推荐界面展示的表情包不满意，即对发送端100根据语音标签匹配的表情包不满意时，便可以输入对第二表情包推荐界面的展开操作，如对第一表情包推荐界面进行右滑操作、或左滑操作、或上滑操作、或下滑操作等，从而使得第二表情包推荐界面进行展示触发。

相应的，发送端100可以响应用户输入的第二表情包推荐界面的展开操作，从而显示第二表情包推荐界面。其中，第推荐二表情包为发送端100预设表情包数据库中的表情包，包括本地存储的表情包和/或云端大数据表情包。

可选地，在进行第二表情包推荐界面显示时，可以根据第二推荐表情包中各表情包的历史使用情况，从第二推荐表情包中确定第二目标表情包；或者，根据当前用户的表情包历史使用情况，从第二推荐表情包中确定第二目标表情包。

S520，响应针对第二表情包推荐界面输入的第三表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

当发送端100显示第二表情包推荐页面后，用户可以根据自己的需求，从第二表情包推荐页面中选择一个或多个表情包作为第一目标表情包，则发送端100便会根据用户通过第二表情包推荐页面输入的第三表情包选择操作，确定用户在第三表情包选择操作中选中的表情包为第一目标表情包。

其中，第三表情包选择操作为用户基于语音标签在第二表情包推荐界面进行的选择操作，第一目标表情包为用户根据语音标签从预设表情包数据库中选择的表情包。需要说明的是，若对输入的语音数据解析得到的语音标签有多个，形成的第一表情包推荐界面有多个，那么发送端100需要响应通过多个第二表情包推荐界面输入的多次第三表情包选择操作，确定每一次第三表情包选择操作所选中的表情包为第一目标表情包的一部分。

为了清晰地说明发送端100在S510-S520时向用户展示的界面，本申请还提供一种确定第一目标表情包的界面展示的可能实现方式。图9为本申请实施例提供的又一种确定第一目标表情包的界面示意图。如图9所示，其中，A头像表示的用户为发送端100对应的用户，A用户向接收端200对应的B客户发送语音。在实际操作中，A用户输入语音后，发送端100便直接对用户输入的语音数据进行解析。

首先，当A用户输入了7秒的语音数据，发送端100根据这7秒的语音数据解析得到的语音标签有“开心”、“逛街”、“看电影”并直接向用户展示。若A用户点击任一语音标签对应的控件，如点击“开心”，则会在“开心”控件的下方展示“开心”这一语音标签与预设的表情包数据库识别得到的第一推荐表情包所形成的第一表情包推荐界面，其中，1号表情包、2号表情包、3号表情包、4号表情包、5号表情包、6号表情包即为“开心”对应的第一表情包推荐界面包含的第一推荐表情包。

接着，若用户对“开心”对应的第一表情包推荐界面包含的第一推荐表情包不满意，或者，对更新后的第一推荐表情包不满意，便可以对第一表情包推荐界面进行“右滑”操作，触发第二表情包推荐界面的展开操作，使得第二表情包推荐界面进行展示触发。

相应的，发送端100可以响应用户输入的第二表情包推荐界面的展开操作，从而显示第二表情包推荐界面。其中，第推荐二表情包为发送端100预设表情包数据库中的表情包，包括本地存储的表情包和/或云端大数据表情包。如图9所示，上述实例的第二表情包推荐界面包括Ⅰ号表情包、Ⅱ号表情包、Ⅲ号表情包、Ⅳ号表情包、Ⅴ号表情包、Ⅵ号表情包即为“开心”对应的第二表情包推荐界面包含的第二推荐表情包。

然后，用户可以对第二表情包推荐界面包含的第二推荐表情包，如Ⅰ号表情包、Ⅱ号表情包、Ⅲ号表情包、Ⅳ号表情包、Ⅴ号表情包、Ⅵ号表情包进行点击选中操作。当用户在第二表情包推荐界面选中Ⅰ号表情包之后，再点击“确定”控件后，发送端100便根据用户通过第二表情包推荐界面输入的第三表情包选择操作，确定第二表情包选择操作所选中的表情包(Ⅰ号表情包)为第一目标表情包。

同样的，用户可以点击“逛街”或“看电影”控件切换当前的第一表情包推荐界面，并对“逛街”或“看电影”对应的第一表情包推荐界面进行“右滑”操作，触发“逛街”或“看电影”对应的第二表情包推荐界面的展开操作，使得第二表情包推荐界面进行展示触发。

在本实施例中，发送端通过用户输入的第二表情包推荐界面的展开操作，向用户展示第二表情包推荐界面，以使得用户在第二表情包推荐界面进行第一目标表情包的选择，使得用户对于语音标签对应的表情包选择地自由度更高。

为了清楚地说明即时语音通信方法的实际操作过程，本申请还提供一种确定第二目标表情包的可能实现方式。图10为本申请实施例提供的一种确定第二目标表情包的方法的流程示意图。如图10所示，上述方法中，还包括：

S610，显示语音数据的时间轴。

在本实施例中，发送端100除了根据输入的语音数据匹配得到第一推荐表情包，确定第一目标表情包，将语音数据、第一目标表情包和第一时间点发送给接收端200以外，还可以根据基于用户的时间轴触发操作，如双击用户输入的语音数据条，发送端100便可以向用户显示语音数据的时间轴，从而使得用户对语音数据的任意时间点确定表情包。

S620，响应针对第二表情包推荐界面的第四表情包选择操作，确定第四表情包选择操作所选中的表情包为第二目标表情包。

当发送端100显示语音数据的时间轴后，用户可以根据自己的需求，从第二表情包推荐页面中选择一个或多个表情包作为第二目标表情包，则发送端100便会根据用户通过第二表情包推荐页面输入的第四表情包选择操作，确定用户在第四表情包选择操作中选中的表情包为第二目标表情包。

其中，第四表情包选择操作为用户对语音数据任意时间点在第二表情包推荐界面进行的选择操作，第二目标表情包为用户根据语音数据任意时间点从预设表情包数据库中选择的表情包。需要说明的是，用户可以对多个时间点在第二表情包界面中进行第四表情包选择操作。对于任意时间点，用户可以从第二表情包界面选中一个或多个表情包作为第二目标表情包。

S630，响应第四表情包选择操作连续输入的表情包移动操作，确定表情包移动操作的目标位置在时间轴上的时间点为第二时间点。

若用户从第二表情包界面选中一个表情包作为第二目标表情包，可选地，可以对于该第二目标表情包进行“拖住+移动”操作，将该第二目标表情包移动至时间轴上想要移动的时间点处。那么，对于发送端100而言，便可以响应第四表情包选择操作连续输入的表情包移动操作，确定表情包移动操作的目标位置在时间轴上的时间点为第二时间点。

需要说明的是，对于用户输入的语音数据的时间点的划分，可以预先设置划分的时间段，从而对语音数据划分若干时间点。例如。若用户输入的语音数据为7秒，预设的划分时间段为1秒，则该语音数据可以被划分7个时间点，用户可以根据需求对任意时间点进行第二目标表情包的移动。

在一种可能的实现方式中，为了使得用户的插入第二目标表情包的更为自由，可以使得在用户“拖住+移动”第二目标表情包至时间轴时，便显示用户预选的时间轴上的时间点对应的时间，用户可以拖住第二目标表情包任意滑动时间轴，直至确定表情包移动操作的目标位置在时间轴上的时间点，便松动手指，使得该第二目标表情包移动至该时间点。

在一种可能的实现方式中，若用户拖住任意一个表情包作为第二目标表情包后，想放弃对该第二目标表情包的移动，便可以继续拖住该第二目标表情包并向上快速滑动，从而实现对该第目标二表情包的放弃操作。

S640，向接收端发送语音数据、第二目标表情包和第二时间点，以使得接收端在播放语音数据的过程中，在第二时间点，显示第二目标表情包。

当发送端100确定第二目标表情包之后，便可以向接收端200发送语音数据、第二目标表情包和第二时间点。可选地，需要对语音数据、第二目标表情包和第二时间点进行同步处理后再发送。在一种可能的实现方中，可以对语音数据利用第二时间点进行标记，即在语音数据的时间轴上、对应第二时间点的位置进行标记，并且对第二目标表情包标记第二时间点，然后将标记后的语音数据和第二目标表情包发送至接收端200。

那么当接收端200在播放语音数据的过程中播放至语音数据标记的第二时间点时，便调用标记了第二时间点的第二目标表情包进行显示，使得接收端200在播放语音数据的过程中，在第二时间点，显示第二目标表情包。

在一种可能的实现方式中，发送端100可以向接收端200发送语音数据、第一目标表情包和第一时间点、第二目标表情包和第二时间点，以使得接收端200在播放语音数据的过程中，在第一时间点显示第一目标表情包，在第二时间点显示第二目标表情包。在这种情况下，需要对语音数据分别与第一表情包和第一时间点，第二目标表情包和第二时间点进行同步处理后再发送。可选地，可以对语音数据利用第一时间点和第二时间点进行标记，即在语音数据的时间轴上、对应第二时间点和对应第一时间点的位置进行标记，并且对第一目标表情包标记第一时间点，对第二目标表情包标记第二时间点，然后将标记后的语音数据、第一目标表情包、第二目标表情包发送至接收端200。

在一种可能的实现方式中，若发送端100解析输入的语音数据未得到任何语音标签，可选地，可以弹窗或简易消息提示框或浮层引导页的形式告知用户解析失败，用户可以自由选择重新进行解析，亦或者放弃发送该条语音数据，亦或者进行S610-S640对应的方法。

在本实施例中，发送端可以根据用户输入的对语音数据时间轴上任意时间点进行表情包的移动，使得在即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

为了清晰地说明发送端100在S610-S630时向用户展示的界面，本申请还提供一种确定第一目标表情包的界面展示的可能实现方式。图11为本申请实施例提供的一种确定第二目标表情包的界面示意图。如图11所示，其中，A头像表示的用户为发送端100对应的用户，A用户向接收端200对应的B客户发送语音。在实际操作中，A用户输入语音后，发送端100便直接对用户输入的语音数据进行解析。如图11所示：

在本实施例中，首先，用户可以双击语音数据条，发送端100便可以向用户显示语音数据的时间轴，从而使得用户对语音数据的任意时间点确定表情包。

接着，用户可以对第二表情包推荐界面进行第四表情包选择操作，如对Ⅰ号表情包、Ⅱ号表情包、Ⅲ号表情包、Ⅳ号表情包、Ⅴ号表情包、Ⅵ号表情包进行长按选中操作。当用户在第二表情包推荐界面长按选中Ⅴ号表情包之后，发送端100确定Ⅴ号表情包为第二目标表情包。

然后，用户可以对Ⅴ号表情包进行“拖住+移动”操作，将该Ⅴ号表情包移动至时间轴上想要移动的时间点处，如第三个时间点处。那么，对于发送端100而言，便可以响应第四表情包选择操作连续输入的表情包移动操作，确定表情包移动操作的目标位置在时间轴上的第三个时间点为第二时间点。

同样的，用户可以“拖住+移动”第二表情包推荐界面中的任意表情包移动至时间轴上的任意时间点。

当用户对第二目标表情包移动完毕后，可以长按A用户对应的语音数据条，则会显示弹窗或简易消息提示框或浮层引导页的形式告知用户“是否确认发送？是/否”当用户选择“是”控件后，便可以将接收端200发送所述语音数据、第一目标表情包和第一时间点，此时。A用户对应的语音数据条下面的备注文字由“未发送”更改为“已发送”。

在本实施例中，发送端可以向用户提供对语音数据任意时间点的表情包移动操作，以使得发送端向接收端发送的语音数据可以包含更多的信息，使得在即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

可选地，上述S140中，向接收端发送语音数据、第一目标表情包和第一时间点之后，还包括：响应针对语音数据的播放操作，则在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

图12为本申请实施例提供的一种发送端播放的界面示意图。如图12所示，当发送端100向接收端200发送了语音数据、第一目标表情包和第一时间点之后，用户可以双击已发送的语音数据，对语音数据进行播放操作，从而发送端100响应针对语音数据的播放操作，在播放语音数据的过程中，在第一时间点，显示第一目标表情包。如图12所示，若该条语音数据对应的第一目标表情包是第一时间节点对应的1号表情包和第二时间节点对应的2号表情包，则发送端100在播放该条语音数据至第一时间节点时，调取1号表情包进行显示，在播放至第二时间节点时，调取2号表情包进行显示。可选地，发送端100可以将语音数据进行本地缓存或上传至云端保存，本申请对此不做限制。

在上述图1提供的一种即时语音通信系统的基础上，为了清楚地介绍即时语音通信的过程，本申请实施例还提供了一种即时语音通信方法的可能实现方式。图13为本申请提供的一种即时语音通信方法的流程示意图。如图13所示，该即时语音通信方法应用于即时语音通信系统中的接收端200，该方法包括：

S710，接收发送端发送语音数据、第一目标表情包和第一时间点。

S720，在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

当接收端200接收到发送端100发送的语音数据、第一目标表情包和第一时间点之后，便可以在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

为了清晰地说明接收端200在S710-S720时向用户展示的界面，本申请还提供一种接收端播放语音数据的可能实现方式。图14为本申请实施例提供的一种接收端播放的界面示意图。如图14所示，其中，A头像表示的用户为发送端100对应的用户，A用户向接收端200对应的B客户发送语音。在实际操作中，A用户输入语音后，发送端100便直接对用户输入的语音数据进行解析，此时，接收端200已经接收到由发送端100发送的语音数据、第一目标表情包和第一时间点。

当接收端200接收得到来自发送端100的语音数据之后，便可以双击A用户的语音数据条，从而对语音数据进行播放。在播放时，若该条语音数据对应的第一目标表情包是第一时间节点对应的1号表情包和第二时间节点对应的2号表情包，则发送端100在播放该条语音数据至第一时间节点时，调取1号表情包进行显示，在播放至第二时间节点时，调取2号表情包进行显示。可选地，多次播放多次展示。

在本实施例中，接收端在即时语音通信中并未有额外的操作，可在播放来自发送端的语音时，在对应时间点处显示对应的表情包内容，使得使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

图15为本申请实施例提供的一种即时语音通信装置的示意图，该装置可以应用于即时语音通信系统中的发送端，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图15所示，该即时语音通信装置001，可以包括：

解析模块1000，用于对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点；

推荐模块2000，用于根据语音标签，从预设表情包数据库中确定语音标签匹配的第一推荐表情包；

确定模块3000，用于根据第一推荐表情包，确定第一目标表情包；

发送模块4000，用于向接收端发送语音数据、第一目标表情包和第一时间点，以使得接收端在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

在一个可行的实施方案中，该即时语音通信装置001还包括转换模块，用于将语音数据进行文本转换，得到语音数据对应的文本数据；

在一个可行的实施方案中，该即时语音通信装置001还包括匹配模块，用于对文本数据进行关键词匹配，得到文本数据中的目标关键词，语音标签包括：目标关键词；

在一个可行的实施方案中，确定模块3000，具体还用于根据目标关键词在文本数据中的位置，确定目标关键词对应的第一时间点。

在一个可行的实施方案中，该即时语音通信装置001还包括识别模块，用于对语音数据进行情绪识别，得到情绪标签以及情绪标签对应的第一时间点，语音标签还包括：情绪标签。

在一个可行的实施方案中，该即时语音通信装置001还包括显示模块，用于显示第一表情包推荐界面，第一表情包推荐界面中显示有：第一推荐表情包；

在一个可行的实施方案中，该即时语音通信装置001还包括选择模块，用于响应通过第一表情包推荐界面输入的第一表情包选择操作，确定第一表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，确定模块3000，具体还用于根据第一推荐表情包中各表情包的历史使用情况，从第一推荐表情包中确定第一目标表情包；或者，

根据当前用户的表情包历史使用情况，从推荐表情包中确定第一目标表情包。

在一个可行的实施方案中，显示模块，具体还用于显示第一表情包推荐界面，第一表情包推荐界面中显示有：第一推荐表情包；

在一个可行的实施方案中，该即时语音通信装置001还包括更新模块，用于响应通过推荐界面输入的表情包切换操作，更新第一推荐表情包；

在一个可行的实施方案中，确定模块3000，具体还用于响应针对更新后的推荐表情包输入的第二表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，显示模块，具体还用于响应输入的第二表情包推荐界面的展开操作，显示第二表情包推荐界面，第二表情包推荐界面中显示有：第二推荐表情包：

在一个可行的实施方案中，选择模块，具体还用于响应针对第二表情包推荐界面输入的第三表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，显示模块，具体还用于显示语音数据的时间轴；

在一个可行的实施方案中，确定模块3000，具体还用于响应针对第二表情包界面的第四表情包选择操作，确定第四表情包选择操作所选中的表情包为第二目标表情包；

在一个可行的实施方案中，确定模块3000，具体还用于响应第四表情包选择操作连续输入的表情包移动操作，确定表情包移动操作的目标位置在时间轴上的时间点为第二时间点；

在一个可行的实施方案中，发送模块4000，具体还用于向接收端发送语音数据、第二目标表情包和第二时间点，以使得接收端在播放语音数据的过程中，在第二时间点，显示第二目标表情包。

在一个可行的实施方案中，显示模块，具体还用于响应针对语音数据的播放操作，则在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

图16为本申请实施例提供的另一种即时语音通信装置的示意图，该装置可以应用于即时语音通信系统中的接收端，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图16所示，该即时语音通信装置002，可以包括：

接收模块5000，用于接收发送端发送语音数据、第一目标表情包和第一时间点；

播放模块6000，用于在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图17为本申请实施例提供的一种电子设备的结构示意图，如图17所示，该电子设备可以包括：处理器21、存储介质22和总线23，存储介质22存储有处理器21可执行的机器可读指令，当电子设备运行如实施例中的一种即时语音通信方法时，处理器21与存储介质22之间通过总线23通信，处理器21执行机器可读指令，处理器21方法项的前序部分，以执行以下步骤：

对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点；

根据语音标签，从预设表情包数据库中确定语音标签匹配的第一推荐表情包；

根据第一推荐表情包，确定第一目标表情包；

向接收端发送语音数据、第一目标表情包和第一时间点，以使得接收端在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

在一个可行的实施方案中，处理器21在执行对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点时，具体用于：

将语音数据进行文本转换，得到语音数据对应的文本数据；

对文本数据进行关键词匹配，得到文本数据中的目标关键词，语音标签包括：目标关键词；

根据目标关键词在文本数据中的位置，确定目标关键词对应的第一时间点。

在一个可行的实施方案中，处理器21在执行对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点时，具体还用于：

在一个可行的实施方案中，处理器21在执行根据推荐表情包确定第一目标表情包时，具体用于：

显示第一表情包推荐界面，第一表情包推荐界面中显示有：第一推荐表情包；

响应通过第一表情包推荐界面输入的第一表情包选择操作，确定第一表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，处理器21在执行根据第一推荐表情包确定第一目标表情包时，具体用于：

根据第一推荐表情包中各表情包的历史使用情况，从第一推荐表情包中确定第一目标表情包；或者，

在一个可行的实施方案中，处理器21在执行根据第一推荐表情包确定第一目标表情包时，具体还用于：

响应通过推荐界面输入的表情包切换操作，更新第一推荐表情包；

响应针对更新后的推荐表情包输入的第二表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，处理器21在执行显示第一表情包推荐界面之后，具体还用于：

响应输入的第二表情包推荐界面的展开操作，显示第二表情包推荐界面，第二表情包推荐界面中显示有：第二推荐表情包：

响应针对第二表情包推荐界面输入的第三表情包选择操作，确定第二表情包选择操作所选中的表情包为第一目标表情包。

在一个可行的实施方案中，处理器21具体还用于：

显示语音数据的时间轴；

响应针对第二表情包界面的第四表情包选择操作，确定第四表情包选择操作所选中的表情包为第二目标表情包；

响应第四表情包选择操作连续输入的表情包移动操作，确定表情包移动操作的目标位置在时间轴上的时间点为第二时间点；

向接收端发送语音数据、第二目标表情包和第二时间点，以使得接收端在播放语音数据的过程中，在第二时间点，显示第二目标表情包。

在一个可行的实施方案中，处理器21在执行向接收端发送语音数据、第一目标表情包和第一时间点之后时，具体还用于：

响应针对语音数据的播放操作，则在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

在一个可行的实施方案中，处理器21具体还用于：

接收发送端发送语音数据、第一目标表情包和第一时间点；

在播放语音数据的过程中，在第一时间点，显示第一目标表情包。

通过上述方式，即时语音通信过程中的发送端可以将输入的语音数据和表情包一同匹配发送至接收端，丰富了即时语音通信的形式，使得即时语音通信的过程中不再仅限制于语音数据的传输，而是可以将语音数据与匹配的表情包以及对应的时间点共同发送至接收端，使得发送端在即时语音通信的过程中可以更为准确、生动、有趣地表达自己的语义和情感，相应的，也使得接收端可以更为准确、直接、便捷地了解到发送端所想传输的语义和情感，使得整个即时语音通信的用户参与感更强、互动感更强，也使得即时语音通信过程中语义和情感传输更为直接，提升用户的体验感和娱乐感。

本申请实施例还提供一种存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行，处理器执行以下步骤：

根据第一推荐表情包，确定第一目标表情包；

在一个可行的实施方案中，处理器在执行对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点时，具体用于：

将语音数据进行文本转换，得到语音数据对应的文本数据；

在一个可行的实施方案中，处理器在执行对输入的语音数据进行解析，得到语音标签以及语音标签的第一时间点时，具体还用于：

在一个可行的实施方案中，处理器在执行根据推荐表情包确定第一目标表情包时，具体用于：

在一个可行的实施方案中，处理器在执行根据第一推荐表情包确定第一目标表情包时，具体用于：

在一个可行的实施方案中，处理器在执行根据第一推荐表情包确定第一目标表情包时，具体还用于：

在一个可行的实施方案中，处理器在执行显示第一表情包推荐界面之后，具体还用于：

在一个可行的实施方案中，处理器具体还用于：

显示语音数据的时间轴；

在一个可行的实施方案中，处理器在执行向接收端发送语音数据、第一目标表情包和第一时间点之后时，具体还用于：

在一个可行的实施方案中，处理器具体还用于：

接收发送端发送语音数据、第一目标表情包和第一时间点；

在本申请实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行如实施例中其它所述的方法，关于具体执行的方法步骤和原理参见实施例的说明，在此不再详细赘述。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种即时语音通信方法，其特征在于，应用于即时语音通信系统中的发送端，所述方法包括：

根据所述第一推荐表情包，确定第一目标表情包；

2.根据权利要求1所述的方法，其特征在于，所述对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，包括：

3.根据权利要求1所述的方法，其特征在于，所述对输入的语音数据进行解析，得到语音标签以及所述语音标签的第一时间点，还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述推荐表情包确定第一目标表情包，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一推荐表情包确定第一目标表情包，还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述推荐表情包确定第一目标表情包，还包括：

7.根据权利要求6所述的方法，其特征在于，所述显示第一表情包推荐界面之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

显示所述语音数据的时间轴；

9.根据权利要求1所述的方法，其特征在于，所述向接收端发送所述语音数据、所述第一目标表情包和所述第一时间点之后，所述方法还包括：

10.一种即时语音通信方法，其特征在于，应用于即时语音通信系统中的接收端，所述方法包括：

接收发送端发送语音数据、第一目标表情包和第一时间点；

11.一种即时语音通信装置，其特征在于，应用于即时语音通信系统中的发送端，所述装置包括：

12.一种即时语音通信装置，其特征在于，应用于即时语音通信系统中的接收端，所述装置包括：

13.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述处理器执行所述程序指令，以执行如权利要求1至10任一所述的即时语音通信方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至10任一所述的即时语音通信方法的步骤。