CN114242055A

CN114242055A - 语音转换方法、装置和电子设备

Info

Publication number: CN114242055A
Application number: CN202111546962.3A
Authority: CN
Inventors: 魏凌
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25

Abstract

本申请公开了一种语音转换方法、装置和电子设备，涉及终端领域。所述方法包括：接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反应所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。

Description

语音转换方法、装置和电子设备

技术领域

本申请涉及终端领域，尤其涉及一种语音转换方法、装置和电子设备。

背景技术

目前社交软件中经常会用到语音消息的功能。在一些特定的场景下，例如会议场景，用户可能不方便直接收听语音消息，需要将语音消息转换成文本进行查看。

相关技术在语音消息转换的过程中，往往会先识别语音消息对应的文字内容，在得到文字内容之后，再将语音消息转换成文字内容进行显示。

然而，这种语音转换方式仅能将语音转换成枯燥的文本，无法传达语音消息发送方的内心情感。

发明内容

本申请实施例提供一种语音转换方法、装置和电子设备，以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

第一方面，本申请提供了一种语音转换方法，所述方法包括：

接收第一输入；

根据所述第一输入，确定目标语音消息；

获取所述目标语音消息对应的目标文本；

基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；

显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；

其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。

第二方面，本申请提供了一种语音转换装置，所述装置包括：

接收模块，用于接收第一输入；

确定模块，用于根据所述第一输入，确定目标语音消息；

获取模块，用于获取所述目标语音消息对应的目标文本；

所述确定模块还用于：基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；

显示模块，用于显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；

第三方面，本申请提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现第一方面所述的语音转换方法的步骤。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现第一方面所述的语音转换方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的一种语音转换方法的流程图；

图2是本申请实施例提供的一种语音转换方法的流程图；

图3是本申请实施例提供的一种语音转换方法在实际应用场景下的示意图之一；

图4-1和图4-2是本申请实施例提供的一种语音转换的处理方法在实际应用场景下的示意图之二；

图5是本申请实施例提供的一种语音转换的处理方法在实际应用场景下的示意图之三；

图6是本申请实施例提供的一种语音转换的处理方法在实际应用场景下的示意图之四；

图7是本申请实施例提供的一种语音转换的处理方法在实际应用场景下的示意图之五；

图8是本申请实施例提供的一种语音转换装置的结构框图；

图9是本申请实施例提供的一种电子设备的结构框图；

图10是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供的语音转换方法可由各种电子设备执行，换言之，该方法可以由安装在电子设备上的软件或硬件来执行。所述电子设备可以为PC，也可以为移动终端；移动终端或者叫移动通信终端是指可以在移动中使用的计算机设备，广义的讲包括手机、笔记本、平板电脑、POS机甚至包括车载电脑；但是大部分情况下是指手机或者具有多种应用功能的智能手机以及平板电脑。

图1是本申请实施例提供的一种语音转换方法的流程图。参照图1，本申请实施例提供的语音转换方法可以包括：

步骤110，接收第一输入；

其中，在步骤110之前，可以先显示聊天界面，所述聊天界面上可存在至少一条语音消息。所述至少一条语音消息可以来自同一用户，也可以来自于不同的用户。用户可在看到聊天界面上显示的语音消息之后，通过输入操作可选取聊天界面上的至少一条语音。

在本申请实施例中，所述第一输入可以为长按、双击或者滑动等输入；所述第一输入的对象可以为聊天界面中的一条或多条语音消息。具体地，用户可以长按选中聊天界面中的一条语音消息，或者可以双击选中聊天界面中的一条语音消息，等等。所述第一输入的方式可以有多种，可以根据实际应用情况来进行设置，本申请实施例并不对所述第一输入的方式进行限定。

步骤120，根据所述第一输入，确定目标语音消息；

在本申请实施例中，所述目标语音消息可以为在聊天界面中已显示出来的语音消息。例如，用户A已经向用户B发送的语音消息，或者是用户A已经接收到的来自用户B发送的语音消息。同时，所述目标语音消息可以是由所述第一输入操作所选取的语音消息。

其中，所述目标语音消息可以为用户一般聊天通用的消息，或者日常聊天过程中出现频率较高且不带个性化色彩的消息，例如，“你在干什么”、“今天天气不错”等。

步骤130，获取所述目标语音消息对应的目标文本；

其中，所述目标文本可以为对所述目标语音消息进行语音识别得到的文字内容。

步骤140，基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；

其中，所述目标库中可以存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系可以是基于视频会话建立的；所述目标情感指示标识可以反映所述目标语音消息对应的目标用户的情感，例如喜、怒、哀、乐、伤等中的一种情感。所述目标用户可以为所述目标语音消息的发送方。

可以理解的是，所述目标情感指示标识可以与所述目标语音消息的目标文本相对应。例如，所述目标语音消息的目标文本为“天气很好”时，所述目标情感指示标识可以为“开心”的表情；或者，所述目标语音消息的目标文本为“嗯嗯，好的”时，所述目标情感指示标识可以为“OK”的表情。

在本申请实施例中，所述目标情感指示标识可以有多种不同的形态。例如，所述目标情感指示标识可以包括：图像标识、表情符号标识或文字标识。在本申请实施例中，可以根据实际应用情况来设置目标情感指示标识的形态，本申请实施例并不对所述目标情感指示标识的形态进行限定。

举例而言，在所述目标情感指示标识为图像标识的情况下，所述图像标识(例如，图片形式的表情包)可以与所述目标语音消息的目标文本相对应；在所述情感指示标识为表情符号标识的情况下，所述表情符号标识(例如，emoji表情符号图标)可以与所述目标语音消息的目标文本相对应；在所述情感指示标识为文字标识的情况下，所述文字标识(例如，可以反映所述目标语音消息对应的用户的情感的文字标识)可以与所述目标语音消息的目标文本相对应。

在本申请实施例中，可以在预先建立的目标库中查找与所述目标文本相对应的匹配文本，可以将所述匹配文本对应的情感指示标识作为所述目标语音消息对应的目标情感指示标识。

其中，所述目标库可以为文本-情感指示标识库，可以在对所述目标语音消息进行语音转换之前预先建立所述目标库。用户可以在与通讯录联系人进行视频会话的过程中来确定文本与情感指示标识之间的对应关系，然后再将所述文本与情感指示标识之间的对应关系存储在所述目标库中，从而用于在后续语音转换的过程中确定与目标文本对应的目标情感指示标识。

举例而言，如图5所示，用户A可以在与用户B进行视频会话时，预先确定一些用户A与用户B对话的文本与用户表情之间的对应关系，并将所述对应关系存储在目标库W中。用户A也可以在与用户C进行视频会话时，预先确定一些用户A与用户C对话的文本与用户表情之间的对应关系，也将所述对应关系存储在目标库W中。以此类推，用户A可以基于视频会话与通讯录中各个联系人都确定一些对话的文本与用户表情之间的对应关系。此时，所述目标库W中可以存储着用户A与用户B对话的文本与用户表情之间的对应关系、用户A与用户C对话的文本与用户表情之间的对应关系，以及用户A与通讯录中其他联系人的对话的文本与用户表情之间的对应关系等等。在后续对目标语音消息进行语音转换的过程中，可以根据所述目标语音消息对应的目标文本，从所述目标库W中可以确定所述目标文本对应的目标情感指示标识。如此，可以基于视频会话预先确定文本与情感指示标识之间的对应关系，并将对应关系存储在预先建立的目标库中，再通过目标语音消息对应的目标文本，从目标库中确定与目标文本对应的目标情感指示标识，从而获取到插入目标语音消息对应的目标文本中的目标情感指示标识。

在本申请实施例中，若在目标库中一个文本对应了多个情感指示标识，此时在进行语音转换的过程中还可以根据目标语音消息的发送方的语音语气(例如，生气、高兴、悲伤等)进行进一步确定所述目标语音消息对应的目标情感指示标识，使得在目标库中找到的目标情感指示标识可以准确地反映语音消息发送方的内心情感。

步骤150，显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识。

其中，所述目标结果可以为所述目标语音消息最终语音转换完成后显示在聊天界面中的内容；所述目标结果中可以包括所述目标文本和所述目标情感指示标识。

需了解的是，所述目标情感指示标识在所述目标结果中的具体位置可以根据实际的文本内容来进行设置，本申请实施例并不对所述目标情感指示标识的具体位置进行限定。例如，所述目标情感指示标识可以在所述目标文本的开头，可以在所述目标文本的结尾，也可以插入在所述目标文本的中间。

另外，在本申请实施例中，举例而言，所述目标情感指示标识可以包括：图像标识、表情符号标识或文字标识。在所述目标情感指示标识为图像标识的情况下，显示的所述目标结果中可以包括所述目标文本和所述图像标识(例如，图片形式的表情包)；在所述情感指示标识为表情符号标识的情况下，显示的所述目标结果中可以包括所述目标文本和所述表情符号标识(例如，emoji表情符号图标)；在所述情感指示标识为文字标识的情况下，显示的所述目标结果中可以包括所述目标文本和所述文字标识(例如，可以反映所述目标语音消息对应的用户的情感的文字标识)。

本申请实施例提供的语音转换方法，接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

下面结合实际的应用场景，对本申请实施例提供的语音转换方法中的所述文本与情感指示标识之间的对应关系的建立过程进行进一步详细介绍。如图2所示，在本申请实施例提供的语音转换方法中，所述文本与情感指示标识之间的对应关系的建立过程可以包括如下步骤：

步骤210，获取视频会话过程中的语音信息；

在本申请实施例中，所述语音信息可以是从视频会话过程中获取的用户之间聊天对话的语音信息。

步骤220，基于所述语音信息确定所述视频会话过程中的N条会话文本；

其中，N可以为正整数；也就是说，可以获取视频会话过程中的一条会话文本、两条会话文本，或者多条会话文本。所述会话文本可以为在视频会话过程中将用户之间的聊天对话语音转换成的文本内容，所述会话文本可以显示在用户的聊天界面中。

如图3和图4-1所示，在本申请的一个实施例中，用户A可以在与用户B进行视频会话的过程中，视频会话界面可以弹出一个“是否根据视频内容生成表情”的选择框。若用户A选择“否”，则电子设备显示屏正常展示用户A与用户B的视频会话界面；若用户A选择“是”，则可以将用户A与用户B的视频会话界面缩小显示在用户A与用户B的聊天界面的上方，此时电子设备的主屏幕可以展示用户A与用户B的聊天内容界面，从而可以在用户A与用户B的聊天内容界面中显示会话文本，例如，“今天天气很好”和“回家小心”等会话文本。

步骤230，针对所述N条会话文本中的指定会话文本，获取所述指定会话文本对应的用户图像；基于所述用户图像，获取所述指定会话文本对应的指定情感指示标识，并将所述指定会话文本与所述指定情感指示标识相关联；

在本申请实施例中，所述用户图像可以为在视频会话过程中用户在说与所述指定会话文本相对应的指定语音时的图像。获取用户图像的具体过程可以为：先获取指定会话文本，然后获取与所述指定会话文本对应的指定语音，进而可得到指定语音对应的用户图像。在本申请实施例中，在视频会话的过程中可记录语音与用户图像的对应关系，并可在摄像头所在的电子设备中存储这种对应关系。后续在得到指定语音之后，即可根据存储的这种对应关系，得到指定语音对应的用户图像。也就是说，在视频会话过程中可以存储用户语音相对应的图像在电子设备上，在确定出所述指定会话文本后，可以从电子设备上存储的图像中获取与所述指定会话文本相对应的用户的视频图像。所述用户图像也可以为根据获取的用户的视频图像在表情符号库中选择的与所述视频图像相匹配的表情符号。

在本申请实施例中，在指定会话文本相对应的指定语音过长的情况下，可能出现所述指定语音对应多个用户图像的情况。此时，可以先确定(例如由用户确定)指定会话文本中的关键字，即用户在视频会话过程中说的指定语音中的关键字，再根据关键字对应的时间点确定用户在说该关键字时对应的图像，并可将此图像作为所述指定语音对应的用户图像。如此，在所述指定语音对应多个用户图像的情况下，也可以较好地确定出与所述指定语音对应的用户图像，方便后续基于此确定出的用户图像，确定相应的情感指示标识。

其中，所述指定情感指示标识可以反映所述指定会话文本对应的指定用户的情感；所述指定用户可以为在视频会话过程中说出所述指定会话文本的用户。需了解的是，所述指定情感指示标识也可以有多种不同的形态。例如，所述指定情感指示标识可以包括：图像标识、表情符号标识或文字标识。在本申请实施例中，可以根据实际应用情况来设置指定情感指示标识的形态，本申请实施例并不对所述指定情感指示标识的形态进行限定。

在本申请实施例中，可以基于所述用户图像，从图片表情包库中获取与所述用户图像相对应的指定图片表情包，再将指定图片表情包作为指定情感指示标识；或者，也可以基于所述用户图像，从表情符号库中获取与所述用户图像相对应的指定表情符号，再将指定表情符号作为指定情感指示标识。

步骤240，基于所述指定会话文本，建立文本与情感指示标识之间的对应关系。

可以理解的是，在获取到所述指定会话文本与所述指定情感指示标识之后，可以在目标库中建立文本与情感指示标识之间的对应关系。文本可以包括指定会话文本，情感指示标识包括指定情感指示标识。文本也可以包括N条会话文本。

具体地，如图4-1所示，在本申请的一个实施例中，用户A在选中目标会话文本，例如，“天气很好”这条消息后，电子设备可以控制摄像头获取用户B在说“天气很好”这句话时的视频表情；然后可以再根据用户B的视频表情在表情符号库中选择与所述视频表情相匹配的表情符号，如“呲牙”；最后，如图4-2所示，可以将“天气很好”与“呲牙”的表情符号建立对应关系后保存在目标库中。

本申请实施例提供的语音转换方法，可以通过视频会话获取指定会话文本和用户图像，再基于用户图像获取与指定会话文本相对应的指定情感指示标识，使得在大量历史视频会话的过程中建立多个文本与情感指示标识之间的对应关系，从而可以在后续语音转换的过程中在目标语音消息对应的目标结果中增加目标情感指示标识。

为了便于确定视频会话过程中的会话文本，在本申请的一个实施例中，步骤220中所述基于所述语音信息确定所述视频会话过程中的N条会话文本，可以包括：将所述语音信息转换成与所述语音信息对应的至少一条文本；显示所述至少一条文本；接收第二输入，所述第二输入用于选择所述至少一条文本中的N条会话文本；根据所述第二输入，确定所述视频会话过程中的N条会话文本。如此，可以通过将视频会话过程中的语音信息转换成相对应的会话文本并显示出来，从而更加便于后续获取与文本内容相对应的情感指示标识。

在本申请实施例中，所述第二输入可以为长按、双击或者滑动等输入；所述第二输入的对象可以为聊天界面中所述语音信息转换成与所述语音信息对应的至少一条文本。具体地，例如，用户可以长按选中至少一条文本中的10条会话文本，或者可以滑动选中至少一条文本中的10条会话文本，等等。所述第二输入的方式可以有多种，可以根据实际应用情况来进行设置，本申请实施例并不对所述第二输入的方式进行限定。

可选地，在本申请的一个实施例中，所述指定情感指示标识可以包括：图像标识、表情符号标识或文字标识；步骤220中所述基于所述用户图像，获取所述指定会话文本对应的指定情感指示标识，可以包括：

在所述指定情感指示标识包括图像标识的情况下，获取所述用户图像中的用户表情图像；将所述用户图像中的用户表情图像作为所述指定会话文本对应的指定情感指示标识；

在所述指定情感指示标识包括表情符号标识的情况下，获取所述用户图像中的用户表情；从表情符号库中获取与所述用户表情相对应的表情符号，将所述表情符号作为所述指定会话文本对应的指定情感指示标识；

在所述指定情感指示标识包括文字标识的情况下，获取所述用户图像中的用户表情；基于所述用户表情，确定体现所述用户表情的目标文字，将所述目标文字作为所述指定会话文本对应的指定情感指示标识。

为了便于理解，在此举例说明：

例如，在用户A与用户B进行视频会话的情况下，可以直接将用户A或用户B的用户视频表情图像作为所述指定会话文本对应的指定情感指示标识，即此时指定情感指示标识可以为图片形式的表情包。

又例如，在用户A与用户B进行视频会话的情况下，如图5所示，可以根据用户A或用户B的视频表情图像，从表情符号(emoji)库中获取与用户A或用户B的视频表情图像相匹配的表情符号，然后再将所述表情符号作为所述指定会话文本对应的指定情感指示标识，即此时指定情感指示标识可以为表情符号的图标形式。

再例如，在用户A与用户B进行视频会话的情况下，如图6所示，可以根据用户A或用户B的视频表情图像，确定可以体现用户A或用户B的视频表情图像的目标文字，然后再将所述目标文字作为所述指定会话文本对应的指定情感指示标识，即此时指定情感指示标识可以为用于阐释视频表情的文字形式。

如此，可以通过各种形态的情感指示标识来更好地传达语音消息发送方的内心情感。

可选地，在本申请的一个实施例中，所述目标语音消息可以包括第一用户的语音消息和第二用户的语音消息，所述目标文本可以包括第一用户的语音消息对应的第一目标文本和第二用户的语音消息对应的第二目标文本，所述目标库可以包括针对第一用户的第一目标库和针对第二用户的第二目标库，所述目标情感指示标识可以包括第一情感指示标识和第二情感指示标识；所述基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，可以包括：基于所述第一目标文本和所述第一目标库，确定所述第一目标文本对应的所述第一情感指示标识，其中，所述第一目标库中存储针对所述第一用户的文本与情感指示标识之间的对应关系，所述第一用户的文本与情感指示标识之间的对应关系是基于所述第一用户的视频会话建立；基于所述第二目标文本和所述第二目标库，确定所述第二目标文本对应的所述第二情感指示标识，其中，所述第二目标库中存储针对所述第二用户的文本与情感指示标识之间的对应关系，所述第二用户的文本与情感指示标识之间的对应关系是基于所述第二用户的视频会话建立。

为了便于理解，在此举例说明：

如图4-1所示，用户A与用户B在进行视频会话的过程中，可以根据用户A与用户B两者的音色等不同来获取到用户A的第一目标文本和用户B的第二目标文本，然后在选中用户A的第一目标文本后可以控制摄像头获取用户A的视频表情，再基于用户A的视频表情确定与所述第一目标文本对应的第一情感指示标识；同理可以基于用户B的视频表情确定与所述第二目标文本对应的第二情感指示标识。最后，如图4-2所示，可以将用户A的第一目标文本(天气不好/下大雨)与所述第一情感指示标识(捂脸)之间的对应关系存储在第一目标库W1中；可以将用户B的第二目标文本(天气很好)与所述第二情感指示标识(呲牙)之间的对应关系存储在第二目标库W2中。

如此，可以通过将针对不同用户的不同目标文本与目标情感指示标识之间的对应关系存储在不同目标库中，便于后续对不同对象的语音消息转换更好、更准确地进行目标情感指示标识的插入。

可选地，在本申请的一个实施例中，所述目标语音消息可以包括多条待转换语音消息；所述目标文本可以包括：所述多条待转换语音消息中的各条待转换语音消息对应的文本；所述目标情感指示标识可以包括：所述多条待转换语音消息中的各条待转换语音消息对应的情感指示标识。

相应地，所述目标语音消息对应的目标结果可以包括：所述多条待转换语音消息中的各条待转换语音消息对应的文本即目标文本，以及所述多条待转换语音消息中的各条待转换语音消息对应的情感指示标识即目标情感指示标识。

如图7所示，可以通过例如上下滑动的方式选择多条待转换语音消息进行语音转换，可以同时将多条目标语音消息均转换为包含目标情感指示标识的目标结果。如此，可以在用户不方便听语音消息的情况下，通过将多条目标语音消息均转换为包含目标情感指示标识的目标结果，使得经过语音转换得到的目标结果更富有感情效果，可以更好地表达发送语音消息的用户的语义，也使得转换的目标结果内容更加真实、准确，可以有效地避免将语音消息转成文本的过程中造成的理解偏差，对用户的体验更好。

为了便于理解，下面结合图3-图6以及实际的应用场景，对本申请实施例提供的语音转换方法的具体过程进行进一步详细介绍：

在进行语音转换之前有一个预先准备过程，如图3所示，用户A在与用户B进行视频会话的过程中，视频会话界面可以弹出一个“是否根据视频内容生成表情”的选择框。若用户A选择“否”，则电子设备显示屏正常展示用户A与用户B的视频会话界面；若用户A选择“是”，则可以将用户A与用户B的视频会话界面缩小显示在用户A与用户B的聊天界面的上方，此时电子设备的主屏幕可以展示用户A与用户B的聊天内容界面。如图4-1所示，在用户A与用户B的聊天内容界面中可以显示用户A与用户B之间的聊天对话语音转换成的指定会话文本，例如，“今天天气很好”和“回家小心”等会话文本。用户可以在这些指定会话文本中选择常用的消息进行匹配对应的情感指示标识，例如，用户A在选中“天气很好”这条消息后，电子设备可以控制摄像头获取用户B在说“天气很好”这句话时的视频表情；然后可以再根据用户B的视频表情在表情符号库中选择与所述视频表情相匹配的表情符号“呲牙”；最后，如图4-2所示，可以将“天气很好”与“呲牙”的表情符号建立对应关系后保存在目标库中。同理可以在不同的视频会话过程中建立大量不同的文本与情感指示标识之间的对应关系，从而完成语音转换之前的预先准备过程。然后，如图6所示，在接收到另外一个朋友B的语音消息的情况下，可以长按朋友B发送的语音消息，选择“转换成文本”，再在预先建立的目标库中可以查找与语音消息的文本“你最近怎么样哇”相对应的匹配文本“最近怎么样”，将匹配文本“最近怎么样”对应的情感指示标识“呲牙”表情符号增加到语音消息最终转换得到的结果中，最后，朋友B发送的语音消息可以显示为“你最近怎么样哇(呲牙)”。

如此，可以预先通过视频会话获取指定会话文本和用户图像，再基于用户图像获取与指定会话文本相对应的指定情感指示标识，使得在大量历史视频会话的过程中建立多个文本与情感指示标识之间的对应关系，并保存在目标库中；再从目标库中获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

图8为本申请实施例提供的一种语音转换装置的结构框图。参照图8，本申请实施例提供的一种语音转换装置800，可以包括：接收模块810、确定模块820、获取模块830和显示模块840。

其中，所述接收模块810，用于接收第一输入；

所述确定模块820，用于根据所述第一输入，确定目标语音消息；

所述获取模块830，用于获取所述目标语音消息对应的目标文本；

所述确定模块820还可以用于：基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；

所述显示模块840，用于显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；

本申请实施例提供的语音转换装置，接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

可选地，在一个实施例中，所述获取模块830可以具体用于：获取视频会话过程中的语音信息；基于所述语音信息确定所述视频会话过程中的N条会话文本；针对所述N条会话文本中的指定会话文本，获取所述指定会话文本对应的用户图像；基于所述用户图像，获取所述指定会话文本对应的指定情感指示标识，并将所述指定会话文本与所述指定情感指示标识相关联；基于所述指定会话文本，建立文本与情感指示标识之间的对应关系；其中，N为正整数。

可选地，在一个实施例中，所述指定情感指示标识可以包括：图像标识、表情符号标识或文字标识；所述获取模块830还可以具体用于：在所述指定情感指示标识包括图像标识的情况下，获取所述用户图像中的用户表情图像；将所述用户图像中的用户表情图像作为所述指定会话文本对应的指定情感指示标识；在所述指定情感指示标识包括表情符号标识的情况下，获取所述用户图像中的用户表情；从表情符号库中获取与所述用户表情相对应的表情符号，将所述表情符号作为所述指定会话文本对应的指定情感指示标识；在所述指定情感指示标识包括文字标识的情况下，获取所述用户图像中的用户表情；基于所述用户表情，确定体现所述用户表情的目标文字，将所述目标文字作为所述指定会话文本对应的指定情感指示标识。

可选地，在一个实施例中，所述目标语音消息可以包括第一用户的语音消息和第二用户的语音消息，所述目标文本可以包括第一用户的语音消息对应的第一目标文本和第二用户的语音消息对应的第二目标文本，所述目标库可以包括针对第一用户的第一目标库和针对第二用户的第二目标库，所述目标情感指示标识可以包括第一情感指示标识和第二情感指示标识；所述获取模块830还可以具体用于：基于所述第一目标文本和所述第一目标库，确定所述第一目标文本对应的所述第一情感指示标识，其中，所述第一目标库中存储针对所述第一用户的文本与情感指示标识之间的对应关系，所述第一用户的文本与情感指示标识之间的对应关系是基于所述第一用户的视频会话建立；基于所述第二目标文本和所述第二目标库，确定与所述第二目标文本对应的所述第二情感指示标识，其中，所述第二目标库中存储针对所述第二用户的文本与情感指示标识之间的对应关系，所述第二用户的文本与情感指示标识之间的对应关系是基于所述第二用户的视频会话建立。

可选地，在一个实施例中，所述获取模块830还可以具体用于：将所述语音信息转换成与所述语音信息对应的至少一条文本；显示所述至少一条文本；接收第二输入，所述第二输入用于选择所述至少一条文本中的N条会话文本；根据所述第二输入，确定所述视频会话过程中的N条会话文本。

需要说明的是，本申请实施例提供的语音转换装置与上文提到的语音转换方法相对应。相关内容可参照上文对语音转换方法的描述，在此不做赘述。

此外，如图9所示，本申请实施例还提供一种电子设备900，所述电子设备900可以包括处理器910，存储器920及存储在所述存储器920上并在所述处理器910上运行的程序或指令，所述程序或指令被所述处理器910执行时实现上文所描述的任一种语音转换方法的步骤。举例而言，所述程序被所述处理器910执行时实现如下过程：接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被所述处理器910执行时实施上文所描述的任一种语音转换方法的步骤。举例而言，所述程序被所述处理器910执行时实现如下过程：接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

图10是实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，所述输入单元1004或者所述用户输入单元1007，用于接收第一输入。

所述处理器1010，用于根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感。

显示单元1006，用于显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识。

本申请实施例提供的电子设备，接收第一输入；根据所述第一输入，确定目标语音消息；获取所述目标语音消息对应的目标文本；基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感；显示所述目标语音消息对应的目标结果，所述目标结果中包括所述目标文本和所述目标情感指示标识；其中，所述目标库中存储文本与情感指示标识之间的对应关系，所述文本与情感指示标识之间的对应关系是基于视频会话建立的。如此，可以通过获取目标语音消息对应的目标情感指示标识，在目标语音消息对应的目标结果中增加目标情感指示标识，所述目标情感指示标识用于反映所述目标语音消息对应的目标用户的情感，从而可以解决相关技术中的语音转换方式无法传达语音消息发送方的内心情感的问题。

应理解的是，本发明实施例中，射频单元1001可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1010处理；另外，将上行的数据发送给基站。通常，射频单元1001包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1001还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块1002为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1003可以将射频单元1001或网络模块1002接收的或者在存储器1009中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1003还可以提供与电子设备1000执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1003包括扬声器、蜂鸣器以及受话器等。

输入单元1004用于接收音频或视频信号。输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1006上。经图形处理器10041处理后的图像帧可以存储在存储器1009(或其它存储介质)中或者经由射频单元1001或网络模块1002进行发送。麦克风10042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1001发送到移动通信基站的格式输出。

电子设备1000还包括至少一种传感器1005，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板10061的亮度，接近传感器可在电子设备1000移动到耳边时，关闭显示面板10061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1005还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1006用于显示由用户输入的信息或提供给用户的信息。显示单元1006可包括显示面板10061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板10061。

用户输入单元1007可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板10071上或在触控面板10071附近的操作)。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1010，接收处理器1010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板10071。除了触控面板10071，用户输入单元1007还可以包括其他输入设备10072。具体地，其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板10071可覆盖在显示面板10061上，当触控面板10071检测到在其上或附近的触摸操作后，传送给处理器1010以确定触摸事件的类型，随后处理器1010根据触摸事件的类型在显示面板10061上提供相应的视觉输出。虽然在图10中，触控面板10071与显示面板10061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板10071与显示面板10061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元1008为外部装置与电子设备1000连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1005可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1000内的一个或多个组件或者可以用于在电子设备1000和外部装置之间传输数据。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1009可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1010是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1009内的软件程序和/或模块，以及调用存储在存储器1009内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器1010可包括一个或多个处理单元；优选的，处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

另外，电子设备1000包括一些未示出的功能模块，在此不再赘述。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现本申请实施例提供的任一种语音转换方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

接收第一输入；

根据所述第一输入，确定目标语音消息；

获取所述目标语音消息对应的目标文本；

2.根据权利要求1所述的方法，其特征在于，所述文本与情感指示标识之间的对应关系的建立过程包括：

获取视频会话过程中的语音信息；

基于所述语音信息确定所述视频会话过程中的N条会话文本；

针对所述N条会话文本中的指定会话文本，获取所述指定会话文本对应的用户图像；基于所述用户图像，获取所述指定会话文本对应的指定情感指示标识，并将所述指定会话文本与所述指定情感指示标识相关联；

基于所述指定会话文本，建立文本与情感指示标识之间的对应关系；

其中，N为正整数。

3.根据权利要求2所述的方法，其特征在于，所述指定情感指示标识包括：图像标识、表情符号标识或文字标识；

所述基于所述用户图像，获取所述指定会话文本对应的指定情感指示标识包括：

4.根据权利要求1所述的方法，其特征在于，所述目标语音消息包括第一用户的语音消息和第二用户的语音消息，所述目标文本包括第一用户的语音消息对应的第一目标文本和第二用户的语音消息对应的第二目标文本，所述目标库包括针对第一用户的第一目标库和针对第二用户的第二目标库，所述目标情感指示标识包括第一情感指示标识和第二情感指示标识；

所述基于所述目标语音消息对应的目标文本和预先建立的目标库，确定所述目标文本对应的目标情感指示标识包括：

基于所述第一目标文本和所述第一目标库，确定所述第一目标文本对应的所述第一情感指示标识，其中，所述第一目标库中存储针对所述第一用户的文本与情感指示标识之间的对应关系，所述第一用户的文本与情感指示标识之间的对应关系是基于所述第一用户的视频会话建立；

基于所述第二目标文本和所述第二目标库，确定所述第二目标文本对应的所述第二情感指示标识，其中，所述第二目标库中存储针对所述第二用户的文本与情感指示标识之间的对应关系，所述第二用户的文本与情感指示标识之间的对应关系是基于所述第二用户的视频会话建立。

5.根据权利要求2所述的方法，其特征在于，所述基于所述语音信息确定所述视频会话过程中的N条会话文本包括：

将所述语音信息转换成与所述语音信息对应的至少一条文本；

显示所述至少一条文本；

接收第二输入，所述第二输入用于选择所述至少一条文本中的N条会话文本；

根据所述第二输入，确定所述视频会话过程中的N条会话文本。

6.一种语音转换装置，其特征在于，所述装置包括：

接收模块，用于接收第一输入；

确定模块，用于根据所述第一输入，确定目标语音消息；

获取模块，用于获取所述目标语音消息对应的目标文本；

7.根据权利要求6所述的装置，其特征在于，所述获取模块具体用于：

获取视频会话过程中的语音信息；

基于所述语音信息确定所述视频会话过程中的N条会话文本；

其中，N为正整数。

8.根据权利要求7所述的装置，其特征在于，所述指定情感指示标识包括：图像标识、表情符号标识或文字标识；

所述获取模块具体还用于：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的语音转换方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的语音转换方法的步骤。