CN114024929A

CN114024929A - 语音消息处理方法、装置、电子设备及介质

Info

Publication number: CN114024929A
Application number: CN202111301310.3A
Authority: CN
Inventors: 张孝东
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08

Abstract

本申请公开了一种语音消息处理方法、装置、电子设备及介质，属于通信技术领域。该语音消息处理方法，包括：接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数。

Description

语音消息处理方法、装置、电子设备及介质

技术领域

本申请属于通信技术领域，具体涉及一种语音消息处理方法、装置、电子设备及介质。

背景技术

在目前的聊天通信类软件中，用户发送、接收语音消息非常普遍，当用户接收一条语音消息后，可以选择点击播放或者转为文字阅读。

然而，若所接收到的语音消息中存在多人同时说话的情形，此时用户直接播放语音时所听到的语音内容较为混乱，选择将该语音消息转换为文字的失败率也非常高；若所接收到的语音消息为不同人交叉说话的情形，此时用户点击播放语音时难以针对性地听特定人的语音，转为文字后，不同人的发言内容交替显示，则会导致阅读困难。

发明内容

本申请实施例的目的是提供一种语音消息处理的方法、装置、电子设备及介质，能够解决用户想要准确获取混合语音所要传达的内容，需要反复多遍播放，导致语音信息传达效率非常低的问题。

第一方面，本申请实施例提供了一种语音消息处理的方法，该方法包括：接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数。

第二方面，本申请实施例提供了一种语音消息处理的装置，包括：第一接收模块，用于接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；第一显示模块，用于显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

在本申请实施例中，通过对所接收到的一条包含多人同时发言或者多人交叉发言的混合语音消息进行处理，将不同联系人的语音消息自动提取并分离为不同的语音片段；然后显示N个语音标识用以指示所提取的联系人的语音内容，用户可以知道所接收到的混合语音消息中包含了N个联系人的发言内容，通过语音标识可以完成对其所指示的语音片段的后续处理，从而提高语音消息传达的效率。

附图说明

图1是本申请实施例提供的语音消息处理方法的流程示意图；

图2是本申请实施例提供的聊天界面的示意图之一；

图3是本申请实施例提供的聊天界面的示意图之二；

图4是本申请实施例提供的聊天界面的示意图之三；

图5是本申请实施例提供的聊天界面的示意图之四；

图6是本申请实施例提供的聊天界面的示意图之五；

图7是本申请实施例提供的语音消息处理装置的结构示意图；

图8是本申请实施例提供的电子设备的结构示意图；

图9是本申请实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音消息处理的方法、装置、电子设备及介质进行详细地说明。

本发明实施例提供一种语音消息处理方法，该方法应用于电子设备，该电子设备可以为手机、平板电脑、笔记本电脑等，如图1所示，包括：

步骤101，接收第一语音消息。

需要说明的是，所述第一语音消息包括至少两个联系人的语音；这里需要说明的是，该语音消息是任意一条包含至少两个声纹特征的语音消息，该语音消息可以是聊天群中任何一个聊天对象发的群语音消息，可以是任意一个联系人私聊界面所接收的语音消息，也可以是论坛、公共讨论区等共享动态中的语音，还可以是用户自己录制得到的语音消息，该第一语音消息的来源在本申请实施例中不作具体限定。

步骤102，显示N个语音标识。

需要说明的是，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数；这里需要说明的是，一个语音片段包含所述第一语音消息中一个联系人发言的全部内容，一个语音标识用于指示从第一语音消息中提取的一个联系人的语音片段。本申请实施例中的标识为用于指示信息的文字、符号、图像等，可以以控件或者其他容器作为显示信息的载体，包括但不限于文字标识、符号标识、图像标识。

在本申请的一些实施例中，当电子设备接收到一条包含多个联系人发言的混合语音消息后，显示用于指示上述多个联系人语音片段的语音标识，用户可以通过所显示的语音标识，完成对该语音标识所指示的联系人语音片段的相应处理，提高了语音内容传达的效率。

需要说明的是，用户可以根据需要对电子设备进行设置，当电子设备接收到一条混合语音消息时，默认对所接收到的混合语音消息进行语音片段的提取，并显示用于指示语音片段的N个语音标识；若用户未预先对所使用的电子设备进行设置，当存在一条混合语音消息时，电子设备接收用户对该混合语音消息的点击输入，从该混合语音消息提取中不同联系人的语音片段，并显示用于指示上述语音片段的语音标识。

可选地，该步骤102的一种可选地实现方式为：

所述显示所述N个语音标识，包括：在第一语音消息中包括至少两个联系人语音的情况下，显示所述N个语音标识；这里需要说明的是，在接收到第一语音消息后，可选地，可先判断第一语音消息是否包括至少两个联系人的声纹信息，在第一语音消息包括至少两个联系人的声纹信息的情况下，直接显示N个语音标识。

可选地，该步骤102的另一种可选地实现方式为：

接收用户的目标输入；所述显示所述N个语音标识，包括：响应于所述目标输入，显示所述N个语音标识；这里需要说明的是，所述目标输入可以为：用户对第一语音消息的点击输入，或者为用户输入的语音指令，或者为用户输入的特定手势，具体地，可以根据实际使用需求确定，本申请实施例对此不作限定。

这里需要说明的是，本申请实施例中的点击输入可以为单击输入、双击输入或任意次数的点击输入等，还可以为长按输入或短按输入；本申请实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种。

具体地，在聊天窗口接收到一条语音消息，根据用户对电子设备的预先设置，电子设备识别该语音消息包含至少两个联系人的发言内容后，显示用于指示联系人发言内容的语音标识。如图2所示，用户收到来自联系人1的一条语音消息20，电子设备识别该语音消息20中包括联系人a、联系人b和联系人c的声纹特征，即语音消息20中包含联系人a、联系人b和联系人c的发言内容；提取出联系人a、联系人b和联系人c的3个语音片段后，显示用于指示联系人a的语音片段的语音标识21、用于指示联系人b的语音片段的语音标识22和用于指示联系人c的语音片段的语音标识23。用户可以通过对语音标识21、语音标识22和语音标识23的操作，实现对联系人a、联系人b和联系人c的语音片段的相应处理。

在本申请的一些实施例中，若用户对电子设备设置为默认对所接收到的混合语音消息进行语音片段的提取，当电子设备接收到一条新的混合语音消息时，该电子设备无需另外接收用户的输入直接完成对该混合语音消息的提取并显示语音标识；若用户未对电子设备设置默认提取混合语音消息，当电子设备接收到一条新的混合语音消息时，电子设备可以接收用户的点击输入完成对该新的混合语音消息的提取。如此，在接收到多条混合语音消息的场景下，可以省去用户操作，更加方便快捷；若用户不想对所有混合语音消息进行提取，则用户可以选择自定义提取，从而减少电子设备不必要的处理流程。

可选地，在步骤102之后，进一步还包括：

在所述N个语音片段中的第一语音片段的音频特征与第一联系人的声纹特征匹配的情况下，显示第一联系人标识，并建立所述第一联系人标识和第一语音片段的关联关系。

需要说明的是，所述第一语音标识指示所述第一语音片段，所述第一联系人标识用于指示所述第一联系人的身份信息；这里需要说明的是，在接收第一语音消息之前，对用户所接收到的仅包含一个联系人声纹特征的语音消息中，识别该联系人的声纹特征并将该声纹特征与发送该语音的联系人的身份信息进行关联，若所述第一语音消息中存在已关联的联系人的声纹特征，则显示第一联系人标识，用户可以通过该第一联系人标识对所指示的第一语音片段进行后续处理；上述联系人标识包括但不限于联系人的头像、备注、ID、昵称等。

这里需要说明的是，若所提取的N个语音片段中存在关联联系人标识失败的语音片段，用户可以通过语音标识播放该语音片段，然后，用户可以根据需求对该目标语音片段关联指定的联系人。需要说明的是，语音片段与联系人标识关联失败的原因包括但不限于以下情况：在接收第一语音消息之前，存在从未发送语音消息的联系人，而该第一语音消息中包含该联系人的发言内容；或者联系人所发送的历史语音消息时长较短难以获取该联系人的声纹特征，或者内存清理等导致电子设备存储的历史语音消息丢失；或者所接收的第一语音消息中，所包含的联系人语音内容较少难以就该语音片段精准识别所对应的联系人。需要说明的是，上述历史语音消息指的是在接收到第一语音消息之前，电子设备所接收到的联系人发送的历史语音消息，该历史语音消息中仅包含该联系人的发言内容。

可选地，在步骤102之后，进一步还包括：

接收用户对所述N个语音标识中的目标语音标识的第一输入；响应于所述第一输入，播放所述目标语音标识指示的目标语音片段；接收用户对目标联系人标识的第二输入；响应于所述第二输入，建立所述目标联系人标识和所述目标语音片段的关联关系。

需要说明的是，用户对目标语音标识的第一输入指的是通过目标语音标识触发电子设备播放该目标语音标识所指示的语音片段。在电子设备对语音片段与联系人身份信息自动关联失败的情况下，用户需要确定关联失败的语音片段的发言人，此时，电子设备接收用户对目标语音标识的点击输入并播放上述目标语音标识所指示的语音片段。

用户对目标联系人的第二输入指的是用户可以指定需要建立关联关系的语音片段和联系人，电子设备接收用户的第二输入建立新的关联关系。这里需要说明的是，上述第二输入包括但不限于下述方式，例如可以是用户将目标联系人的头像拖动至目标语音标识上，还可以是双击目标语音标识弹出文字输入框后，用户通过键盘输入的联系人的备注。

具体地，如图3所示，用户接收到联系人1所发送的语音消息30，并显示语音标识31和语音标识34，在用户接收到该语音消息30之前，语音标识31指示的语音片段的声纹特征在用户所接收到的历史语音消息中已经与联系人张三建立关联关系，因此可以直接关联显示联系人标识32和联系人标识33。若语音标识34所指示的语音片段自动关联联系人身份信息失败，用户可以拖动小王的头像，使得小王的头像与语音标识34重叠，默认关联显示语音标识34与联系人标识35，或者用户双击语音标识34，弹出文字编辑框，用户可以在文字编辑框内通过虚拟键盘输入联系人标识36。

在本申请的一些实施例中，若所提取到的语音片段的音频特征与电子设备中接收到的联系人所发送的历史语音消息的音频特征相匹配，则自动显示联系人标识，以帮助用户快速了解该语音片段的发言人；若语音片段的音频特征在用户所接收到的混合语音消息中未匹配到已有联系人的语音特征，则用户可以播放该语音片段并自定义关联联系人信息，便于用户了解该混合语音消息中发言的所有联系人。

可选地，用户可以修改或取消所建立的第一联系人标识和第一语音片段的关联关系。具体地，用户想要取消图3中电子设备自动建立的语音标识31所指示的语音片段与联系人标识32的关联关系，用户可以拖动联系人标识32至预设区域，比如聊天界面中用户头像周围预设范围的区域内，则默认删除联系人标识32与语音标识31所指示的语音片段的关联关系；或长按联系人标识32弹出包含删除联系人标识选项的弹窗，点击该选项可以解除已经建立的联系人关联关系。若用户想要修改图3中电子设备自动建立的语音标识31所指示的语音片段与联系人标识33的关联关系，用户可以双击联系人标识33，“张三”处于可编辑状态，用户输入“李四”，则可以将已经建立的联系人标识“张三”修改为联系人标识“李四”，从而重新建立新的联系人标识“李四”与语音标识31所指示的语音片段的关联关系。

在本申请的一些实施例中，若用户并不满意电子设备根据预设条件所建立的关联关系，用户可以根据需要建立另一联系人与该语音片段的关联关系，或者直接删除所建立的关联关系，用户可以个性化地选择联系人标识，增加语音消息显示的趣味性。

可选地，对于已经建立的语音片段的关联关系，可以在电子设备中存储该语音片段的声纹特征与该联系人的身份信息，并作为历史关联记录，便于建立后续的关联关系。具体地，若已经建立了联系人a与语音片段1之间的关联关系，则自动记录语音片段1的联系人声纹特征X为联系人a的声纹特征；若用户接收到的另一条混合语音消息中包含声纹特征为X的语音片段，则可以自动建立该语音片段与联系人a的关联关系。

这样，通过建立联系人标识与语音片段的关联关系，根据不同的联系人标识，直观地显示出第一语音消息中包含的所有发言的联系人，便于用户快速获取特别关心联系人或者重要联系人的语音信息，从而提高语音信息传达的效率。

可选地，接收用户对所述N个语音片段中的第二语音片段的第三输入；响应于所述第三输入，对所述第二语音片段进行目标处理。需要说明的是，所述目标处理包括以下至少一项：删除所述第二语音片段；将所述第二语音片段的声纹转换成目标声纹；在所述第二语音片段中添加预设音频；调整所述语音片段的播放速度为目标倍速。

具体地，用户可以根据需要删除所提取的联系人语音，如图4所示，用户长按联系人标识“张三”后，弹出包含语音片段删除选项的弹窗，用户点击该选项，即可删除联系人标识“张三”所指示的语音片段。若用户想修改联系人标识“张三”的声纹特征，用户长按联系人标识“张三”后弹出包含声纹特征修改选项的弹窗，点击该选项弹出“个性化音色修改”窗口，用户可以根据电子设备所提供的声纹库进行选择。在第二语音片段中添加预设音频，该预设音频可以是本地音乐，也可以是某一联系人的语音，还可以是电子设备的系统音。如图4所示，用户长按联系人标识“李四”，弹出包含添加预设音频选项的弹窗，点击该选项，用户可以从电子设备中所存储的文件中选择一段音乐作为该语音片段的背景音乐，对该语音片段添加背景音乐后，关联显示音乐标识43。

具体地，调整所述语音片段的播放速度为目标倍速，用户可以根据需要对目标语音片段设定播放速度，在目标语音片段语速过快的情况下，用户可以降低该语音片段的播放速度，以保证用户能够清楚的接收该目标语音片段所要传达的信息；在目标语音片段语速太慢或时长过长的情况下，用户可以增加该语音片段的播放速度，以减少语音消息的播放时间，便于用户快速获取语音信息所要传达的内容。具体地，如图4所示，用户长按联系人标识42“小王”，弹出包含语音消息倍速播放选项的弹窗，点击该选项后，用户选择播放倍速为1.5倍，在语音标识45上关联显示倍速标识41：“×1.5”，此时用户点击语音标识45播放其所指示的语音片段，该语音片段的播放速度为原播放速度的1.5倍。

在本申请的一些实施例中，对于所提取出的语音片段，用户可以自定义选择播放、转发、添加背景音乐或者倍速处理，可以提升语音消息的传达的准确率，提高语音消息播放的趣味性。

可选地，接收第二语音消息，所述第二语音消息包括至少两个联系人的语音；显示M个语音标识，所述M个语音标识指示M个语音片段，所述M个语音片段是从第二语音消息中提取的；接收用户对所述N个语音标识和所述M个语音标识中的至少两个语音标识的第四输入；响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息；其中，M为大于1的整数。

需要说明的是，上述第二语音消息可以是任意一条包含至少两个声纹特征的语音消息，在步骤101中对第一语音消息的详细说明对第二语音消息完全适用，为避免重复，这里不再赘述；同样地，上述M个语音标识与步骤102中N个语音标识对语音片段的指示作用是相同的。

具体地，上述N个语音标识和M个语音标识中的至少两个语音标识指的是用户想要进行拼接的语音片段可以是两个也可以是多个，且不限定拼接的语音片段是否是同一个语音片段；同样地，也不限定需要拼接的语音片段的来源，也就是说，拼接第三语音消息的语音片段可以仅来自于第一语音消息，也可以既来自于第一语音消息又来自于第二语音消息。上述按目标顺序拼接指的是用户在第四输入中所指示的语音片段拼接顺序，用户可以任意设定拼接顺序。

具体地，用户可以仅选择一条语音消息提取所获得的语音片段进行拼接，如图5所示，将联系人1发送的混合语音消息50所包含的联系人a、联系人b及联系人c的语音消息提取后以语音标识51、语音标识52和语音标识53指示，用户拖动语音标识至下方的消息输入框55后，该语音标识悬浮显示在消息输入框55上并默认触发语音片段拼接功能，拖动后语音标识悬浮显示的左右相对位置为语音片段的拼接顺序，用户可以选择语音标识53和语音标识51拖动至输入框55所在的位置，对语音标识53和语音标识51所指示的语音片段进行拼接得到语音标识54所指示的语音消息，也可以选择语音标识52、语音标识53和语音标识51所指示的语音片段进行拼接获得语音标识54所指示的语音消息。

可选地，如图6所示，用户收到联系人1发送的混合语音消息60和联系人2发送的混合语音消息63，对混合语音消息60进行语音消息提取后得到语音标识61和语音标识62所指示的语音片段，对混合语音消息63进行语音消息提取后得到语音标识64、语音标识65及语音标识66所指示的语音片段。当用户将语音标识61拖动至消息输入框68后，用户可以继续拖动语音标识61、语音标识64置于消息输入框68，可以完成将语音标识61、语音标识61和语音标识64所指示的语音片段的拼接，得到语音标识67所指示的语音消息。

如此，用户可以将相同或者不同的混合语音消息中提取出来的联系人的语音片段进行拼接，得到一条新的语音消息，且所得到的新的语音消息由一个语音标识所指示，用户通过该语音标识可以完成对新的语音消息的相应处理。

在本申请的一些实施例中，用户可以任意选择所提取的语音片段进行语音片段的拼接，且不限制所拼接的顺序以及参与拼接的语音片段是否来源于同一混合语音消息。用户可以将多条混合语音现在中重要的语音片段拼接成一条语音消息，便于用户离开当前界面后再回到该界面时，能够快速准确获取多条混合语音消息中所传达的重要内容。

可选地，接收用户对所述第三语音消息的第五输入；响应于所述第五输入，存储所述第三语音消息，或发送所述第三语音消息至目标对象。

需要说明的是，用户可以将不同语音片段拼接得到的第三语音消息进行本地存储，或者云存储，或者收藏等，本申请实施例对可能的存储情况不作具体限定；用户还可以将不同语音片段拼接得到的第三语音消息转发至指定联系人、群聊、讨论组或者以共享动态的形式分享等，本申请实施例对第三语音消息可能的分享情况同样不作具体限定。

具体地，如图5、图6所示，将语音片段重组后得到语音消息54、语音消息67，用户单击语音消息54可以播放该语音消息；用户长按语音消息54后弹出包含语音消息转发选项的弹窗，点击该选项用户可以将语音消息54发送给联系人a或群聊b；用户长按语音消息67后弹出包含语音消息存储选项的弹窗，用户点击该选项可以选择将语音消息67以音频格式保存至电子设备，或者将语音消息67以音频格式上传至云端。

用户可以将混合语音消息中所提取的语音片段按需求拼接，非重要的语音片段并不参与拼接，当用户需要再次获取语音消息中的重要内容时，可以直接播放拼接后的语音消息；对语音消息的转发也可以避免语音消息中存在用户不想要转发的内容而产生困扰。用户还可以将所提取的语音片段个性化变声或倍速处理，以增加语音消息播放的趣味性。

通过本申请实施例所提供的语音消息处理方法，用户可以不用播放整条语音消息或者对整条语音消息进行转文字处理，便可以直接获得特定联系人的语音消息所要传达的内容，避免语音播放时存在多人同时说话而过于混乱或者转文字失败等情况，提高了语音消息内容传达的效率。

需要说明的是，本申请实施例提供的语音消息处理方法，执行主体可以为语音消息处理装置，或者该语音消息处理装置中的用于执行语音消息处理方法的控制模块。本申请实施例中以语音消息处理装置执行语音消息处理方法为例，说明本申请实施例提供的语音消息处理的装置。

如图7所示，本申请实施例还提供一种语音消息处理装置，包括：

第一接收模块，用于接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；第一显示模块，用于显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数。

可选地，所述语音消息处理装置还包括：提取模块，在所述第一显示模块显示N个语音标识之前，用于提取所述第一语音消息中所有联系人的音频特征。

可选地，所述语音消息处理装置还包括：第二显示模块，在所述第一显示模块显示N个语音标识之后，用于在所述N个语音片段中的第一语音片段的音频特征与第一联系人的声纹特征匹配的情况下，显示第一联系人标识；其中，所述第一联系人标识用于指示所述第一联系人的身份信息。

可选地，所述语音消息处理装置还包括：第二接收模块，在所述第一显示模块显示N个语音标识之后，用于接收用户对所述N个语音标识中的目标语音标识的第一输入；播放模块，用于响应于所述第一输入，播放所述目标语音标识指示的目标语音片段；第三接收模块，用于接收用户对目标联系人标识的第二输入；第一执行模块，用于响应于所述第二输入，建立所述目标联系人标识和所述目标语音片段的关联关系。

可选地，所述语音消息处理装置还包括：第四接收模块，用于接收用户对所述N个语音片段中的第二语音片段的第三输入；第二执行模块，用于响应于所述第三输入，对所述第二语音片段进行目标处理；其中，所述目标处理包括以下至少一项：删除所述第二语音片段；将所述第二语音片段的声纹转换成目标声纹；在所述第二语音片段中添加预设音频；调整所述语音片段的播放速度为目标倍速。

可选地，所述装置还包括：第五接收模块，在所述第一接收模块接收第一语音消息之前，用于接收第二语音消息，所述第二语音消息包括至少两个联系人的语音；第三显示模块，用于显示M个语音标识，所述M个语音标识指示M个语音片段，所述M个语音片段是从第二语音消息中提取的；第六接收模块，用于接收用户对所述N个语音标识和所述M个语音标识中的至少两个语音标识的第四输入；第三执行模块，用于响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息；其中，M为大于1的整数。

可选地，所述语音消息处理装置还包括：第七接收模块，在所述第三执行模块响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息之后，用于接收用户的第五输入；第四执行模块，用于响应于所述第五输入，存储所述第三语音消息，或发送所述第三语音消息至目标对象。

本申请实施例的语音消息处理装置通过接收包含N个联系人语音的第一语音消息；然后显示用于指示N个语音片段的N个语音标识，其中所述N个语音片段是从该第一语音消息中提取的，以此将一条包含多人发言的混合语音消息中不同联系人的语音片段分离出来，用户无需播放一整条语音即可定向获取用户想要听到的语音内容，从而提高语音消息内容传达的效率。

本申请实施例中的语音消息处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音消息处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音消息处理装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备800，包括存储器801，处理器M02，存储在存储器801上并可在所述处理器802上运行的程序或指令，该程序或指令被处理器802执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

处理器910，用于接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；

显示单元906，用于显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；其中，一个语音片段对应一个联系人，N为大于1的整数。

本申请实施例中，对所接收的包含至少两个联系人发言内容的第一语音消息按照不同联系人的音频特征提取出N个语音片段，并显示N个语音标识分别指示所述N个语音片段，用户可以根据需要直接播放目标联系人的语音内容，而无需播放整条语音消息，以此实现语音消息内容传达的高效率。

可选地，处理器910，还用于：

在所述显示单元906显示N个语音标识之前，用于提取所述第一语音消息中所有联系人的音频特征。

可选地，显示单元906，在显示N个语音标识之后，在所述N个语音片段中的第一语音片段的音频特征与第一联系人的声纹特征匹配的情况下，还用于显示第一联系人标识；其中，所述第一联系人标识用于指示所述第一联系人的身份信息。

用户输入单元907，在所述显示单元906显示N个语音标识之后，用于接收用户对所述N个语音标识中的目标语音标识的第一输入；

音频输出模块903，用于响应于所述第一输入，播放所述目标语音标识指示的目标语音片段；

可选地，用户输入单元907，还用于接收用户对目标联系人标识的第二输入；

可选地，处理器910，还用于响应于所述第二输入，建立所述目标联系人标识和所述目标语音片段的关联关系。

可选地，用户输入单元907，还用于接收用户对所述N个语音片段中的第二语音片段的第三输入；

可选地，处理器910，还用于响应于所述第三输入，对所述第二语音片段进行目标处理；其中，所述目标处理包括以下至少一项：删除所述第二语音片段；将所述第二语音片段的声纹转换成目标声纹；在所述第二语音片段中添加预设音频；调整所述语音片段的播放速度为目标倍速。

可选地，用户输入单元907，在所述用户输入单元907接收第一语音消息之前，还用于接收第二语音消息，所述第二语音消息包括至少两个联系人的语音；

可选地，显示单元906，还用于显示M个语音标识，所述M个语音标识指示M个语音片段，所述M个语音片段是从第二语音消息中提取的；

可选地，用户输入单元907，还用于接收用户对所述N个语音标识和所述M个语音标识中的至少两个语音标识的第四输入；

可选地，处理器910，还用于响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息；其中，M为大于1的整数。

可选地，用户输入单元907，在所述处理器910响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息之后，还用于接收用户的第五输入；

可选地，处理器910，还用于响应于所述第五输入，存储所述第三语音消息，或发送所述第三语音消息至目标对象。

本申请实施例能够将包含多人发言内容的语音消息按照发言人不同进行拆分，用户可以根据需要快速获取目标联系人的语音消息，从而提高语音内容传达的效率，用户还可以对所接收到的语音进行编辑、存储及转发等后续操作。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音消息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音消息处理方法，其特征在于，包括：

接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；

显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；

其中，一个语音片段对应一个联系人，N为大于1的整数。

2.根据权利要求1所述的语音消息处理方法，其特征在于，所述显示N个语音标识之后，所述方法还包括：

在所述N个语音片段中的第一语音片段的音频特征与第一联系人的声纹特征匹配的情况下，显示第一联系人标识；

其中，所述第一联系人标识用于指示所述第一联系人的身份信息。

3.根据权利要求1所述的语音消息处理方法，其特征在于，所述显示N个语音标识之后，所述方法还包括：

接收用户对所述N个语音标识中的目标语音标识的第一输入；

响应于所述第一输入，播放所述目标语音标识指示的目标语音片段；

接收用户对目标联系人标识的第二输入；

响应于所述第二输入，建立所述目标联系人标识和所述目标语音片段的关联关系。

4.根据权利要求1所述的语音消息处理方法，其特征在于，所述方法还包括：

接收用户对所述N个语音片段中的第二语音片段的第三输入；

响应于所述第三输入，对所述第二语音片段进行目标处理；

其中，所述目标处理包括以下至少一项：

删除所述第二语音片段；

将所述第二语音片段的声纹转换成目标声纹；

在所述第二语音片段中添加预设音频；

调整所述语音片段的播放速度为目标倍速。

5.根据权利要求1所述的语音消息处理方法，其特征在于，所述接收第一语音消息之前，所述方法还包括：

接收第二语音消息，所述第二语音消息包括至少两个联系人的语音；

显示M个语音标识，所述M个语音标识指示M个语音片段，所述M个语音片段是从第二语音消息中提取的；

接收用户对所述N个语音标识和所述M个语音标识中的至少两个语音标识的第四输入；

响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息；

其中，M为大于1的整数。

6.根据权利要求5所述的语音消息处理方法，其特征在于，所述响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息之后，所述方法还包括：

接收用户的第五输入；

响应于所述第五输入，存储所述第三语音消息，或发送所述第三语音消息至目标对象。

7.一种语音消息处理装置，其特征在于，所述装置包括：

第一接收模块，用于接收第一语音消息，所述第一语音消息包括至少两个联系人的语音；

第一显示模块，用于显示N个语音标识，所述N个语音标识指示N个语音片段，所述N个语音片段是从第一语音消息中提取的；

其中，一个语音片段对应一个联系人，N为大于1的整数。

8.根据权利要求7所述的语音消息处理装置，其特征在于，所述装置还包括：

第五接收模块，在所述第一接收模块接收第一语音消息之前，用于接收第二语音消息，所述第二语音消息包括至少两个联系人的语音；

第三显示模块，用于显示M个语音标识，所述M个语音标识指示M个语音片段，所述M个语音片段是从第二语音消息中提取的；

第六接收模块，用于接收用户对所述N个语音标识和所述M个语音标识中的至少两个语音标识的第四输入；

第三执行模块，用于响应于所述第四输入，按目标顺序拼接所述至少两个语音标识指示的语音片段，得到第三语音消息；

其中，M为大于1的整数。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述语音消息处理方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6中任一项所述的语音消息处理方法的步骤。