CN111369994A

CN111369994A - 语音处理方法及电子设备

Info

Publication number: CN111369994A
Application number: CN202010181673.7A
Authority: CN
Inventors: 田慧玲
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-03
Anticipated expiration: 2040-03-16
Also published as: CN111369994B

Abstract

本发明实施例提供一种语音处理方法及电子设备，涉及通信技术领域，能够解决现有技术的电子设备处理语音消息的智能化程度较低的问题。具体方案包括：播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；在接收到用户的语音指令的情况下，将第一语音消息和语音指令合成为第二语音消息；向第一设备发送第二语音消息。该方案应用于电子设备处理语音的场景中。

Description

语音处理方法及电子设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种语音处理方法及电子设备。

背景技术

随着移动通信技术的发展，用户可以通过电子设备的语音功能与其他用户进行信息交流。例如，用户可以通过社交类应用程序向其他用户的电子设备发送语音消息。

通常，用户A可以在用户A的电子设备中输入语音消息，并通过用户A的电子设备将该语音消息发送至用户B的电子设备，从而用户B的电子设备可以接收并播放该语音消息，实现了用户A与用户B之间的语音交流。

然而，现有技术的语音交流方式还存在很多不完善的地方。例如，在用户A向电子设备输入语音消息的过程中，用户A通常需要持续按压电子设备的语音输入控件，若由于某些事件用户A会中断对语音输入控件的按压操作，则可能会导致发送出去的语音消息不完整；再例如，在用户B的电子设备播放接收到的语音消息的过程中，若用户B没有听清楚语音消息中的内容，或者对语音消息中的内容存在疑问，则用户B需要向用户A重复描述没有听清楚或存在疑问的内容，从而会降低用户之间的交互效率。如此，现有技术的电子设备处理语音消息的智能化程度较低。

发明内容

本发明实施例提供一种语音处理方法及电子设备，能够解决现有技术的电子设备处理语音消息的智能化程度较低的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种语音处理方法。该方法应用于电子设备，该方法可以包括：播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；在接收到用户的语音指令的情况下，将第一语音消息和语音指令合成为第二语音消息；向第一设备发送第二语音消息。

第二方面，本发明实施例提供了一种电子设备。该电子设备包括录播模块、处理模块和发送模块。录播模块，用于播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；处理模块，用于在接收到用户的语音指令的情况下，将第一语音消息和语音指令合成为第二语音消息；发送模块，用于向第一设备发送处理模块合成的第二语音消息。

第三方面，本发明实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如上述第一方面中的语音处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如上述第一方面中的语音处理方法的步骤。

本发明实施例中，电子设备可以播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；并在接收到用户的语音指令的情况下，电子设备可以将第一语音消息和语音指令合成为第二语音消息；以及可以向第一设备发送第二语音消息。通过该方案，一方面，在录入待向第一设备发送的第一语音消息的过程中，若录入中断，则电子设备可以根据用户的语音指令，将已经录入的第一语音消息和语音指令合成为第二语音消息，如此，即使录入中断，电子设备也可以发送完整的语音消息；另一方面，在播放第一设备发送的第一语音消息的情况下，若用户没有听清楚第一语音消息中的内容，或者对第一语音消息中的内容存在疑问，则用户可以通过语音指令触发电子设备将第一语音消息中用户没有听清楚或存在疑问的内容与语音指令合成为第二语音消息，如此，用户无需在语音指令中复述第一语音消息中的内容。因此提高了电子设备处理语音消息的智能化程度。

附图说明

图1为本发明实施例提供的安卓操作系统的架构示意图；

图2为本发明实施例提供的语音处理方法的流程示意图之一；

图3为本发明实施例提供的语音处理方法的流程示意图之二；

图4为本发明实施例提供的存储第一语音消息的界面示意图；

图5为本发明实施例提供的语音处理方法的流程示意图之三；

图6为本发明实施例提供的继续录入语音消息的界面示意图；

图7为本发明实施例提供的语音处理方法的流程示意图之四；

图8为本发明实施例提供的截取第一语音片段的界面示意图；

图9为本发明实施例提供的电子设备的结构示意图之一；

图10为本发明实施例提供的电子设备的结构示意图之二；

图11为本发明实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中的术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一语音消息和第二语音消息等是用于区别不同的语音消息，而不是用于描述语音消息的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本发明实施例提供一种语音处理方法及电子设备，可以播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；并在接收到用户的语音指令的情况下，电子设备可以将第一语音消息和语音指令合成为第二语音消息；以及可以向第一设备发送第二语音消息。通过该方案，一方面，在录入待向第一设备发送的第一语音消息的过程中，若录入中断，则电子设备可以根据用户的语音指令，将已经录入的第一语音消息和语音指令合成为第二语音消息，如此，即使录入中断，电子设备也可以发送完整的语音消息；另一方面，在播放第一设备发送的第一语音消息的情况下，若用户没有听清楚第一语音消息中的内容，或者对第一语音消息中的内容存在疑问，则用户可以通过语音指令触发电子设备将第一语音消息中用户没有听清楚或存在疑问的内容与语音指令合成为第二语音消息，如此，用户无需在语音指令中复述第一语音消息中的内容。因此提高了电子设备处理语音消息的智能化程度。

本发明实施例中的电子设备可以为具有操作系统的电子设备。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

以安卓操作系统为例，介绍一下本发明实施例提供的语音处理方法所应用的软件环境。

如图1所示，为本发明实施例提供的一种可能的安卓操作系统的架构示意图。在图1中，安卓操作系统的架构包括4层，分别为：应用程序层、应用程序框架层、系统运行库层和内核层(具体可以为Linux内核层)。

其中，应用程序层包括安卓操作系统中的各个应用程序(包括系统应用程序和第三方应用程序)。例如，本发明实施例中电子设备具体可以通过一些社交类应用程序向其他用户的电子设备发送语音消息。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。

通常，应用程序可以包括两部分，一部分是指显示在电子设备的屏幕上的内容，例如电子设备在与第一设备的聊天界面中显示第一控件；另一部分是指运行在电子设备后台的服务(service)，用于检测用户针对应用程序的输入，并响应于该输入，执行相应的动作，例如若接收到用户对第一控件的第二输入，则响应于第二输入，开启语音消息录入功能。

系统运行库层包括库(也称为系统库)和安卓操作系统运行环境。库主要为安卓操作系统提供其所需的各类资源。安卓操作系统运行环境用于为安卓操作系统提供软件环境。

内核层是安卓操作系统的操作系统层，属于安卓操作系统软件层次的最底层。内核层基于Linux内核为安卓操作系统提供核心系统服务和与硬件相关的驱动程序。

以安卓操作系统为例，本发明实施例中，开发人员可以基于上述如图1所示的安卓操作系统的系统架构，开发实现本发明实施例提供的语音处理方法的软件程序，从而使得该语音处理方法可以基于如图1所示的安卓操作系统运行。即处理器或者电子设备可以通过在安卓操作系统中运行该软件程序实现本发明实施例提供的语音处理方法。

本发明实施例中的电子设备可以为终端设备。该终端设备可以为移动终端设备，也可以为非移动终端设备。示例性的，移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动终端设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本发明实施例不作具体限定。

本发明实施例提供的语音处理方法的执行主体可以为上述的电子设备，也可以为该电子设备中能够实现该语音处理方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以电子设备为例，对本发明实施例提供的语音处理方法进行示例性的说明。

通常，多台电子设备之间可以相互传输语音消息，从而不同用户之间可以实现语音交流。但是现有技术的语音交流方式仍存在很多不完善的地方。具体可能包括下述几种应用场景：

第一种场景为，在使用电子设备1的用户1想要与使用电子设备2的用户2发送语音消息时，用户1可以先触发电子设备显示与用户2的聊天界面，然后用户1可以通过手指长按该聊天界面中显示的“按住说话”控件，并对着电子设备1语音录入第一语音消息。然而，由于每个电子设备通常只具备一个语音处理通道，因此，在录入第一语音消息的过程中，如果电子设备1接收到使用电子设备3的用户3发起的视频通话请求或语音通话请求，且用户1想要接听用户3的视频通话请求或语音通话请求，那么当用户1松开长按“按住说话”控件的手指，并点击“接听”控件后，电子设备1就会关闭录入语音消息的进程并切换到接听通话的进程。如此，消息内容尚未完整的第一语音消息会被立即发送至电子设备2。在与用户3的视频通话请求或语音通话请求之后，用户1需要重新录入包括完整内容的语音消息，并重新向电子设备2发送语音消息，从而导致操作过程较为繁琐。

第二种场景为，在电子设备1接收到电子设备2发送的第一语音消息之后，使用电子设备1的用户1可以点击第一语音消息对应的消息标识，从而电子设备可以播放该第一语音消息。但是，在播放第一语音消息的过程中，若用户1没有听清楚第一语音消息中的某部分内容，则用户1可以向使用电子设备2的用户2描述没有听清楚的部分，以便用户2可以重新通过电子设备2发送用户1没有听清楚的部分，但是由于用户1听不清楚该部分，因此很难准确的描述出该部分，从而导致交互过程较为繁琐。

第三种场景为，在电子设备1接收到电子设备2发送的第一语音消息之后，使用电子设备1的用户1可以点击第一语音消息对应的消息标识，从而电子设备1可以播放该第一语音消息。但是，在播放第一语音消息的过程中，若用户1不理解第一语音消息中的某部分内容，则用户1需要向使用电子设备2的用户2复述不理解的部分，以便用户2可以通过电子设备2向用户1的电子设备1发送对该部分的解释，如此，用户1需要复述第一语音消息中的内容，从而导致交互过程较为繁琐。

为此，本发明实施例提供了一种语音处理方法，电子设备可以将正在播放或正在录入的第一语音消息与用户的语音指令合成为第二语音消息，并向第一设备发送第二语音消息。下面将结合下述的各个附图对本发明实施例提供的语音处理方法及电子设备进行示例性的说明。

如图2所示，本发明实施例提供一种语音处理方法，该方法可以包括下述的S201至S203。

S201、电子设备播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息。

需要说明的是，本发明实施例中，电子设备、第一设备和第二设备等均可以为具备信息传输功能的设备，这些设备均具备播放语音消息和录入语音消息的功能。具体的，这些设备可以为手机、平板电脑、笔记本电脑或其他具备信息传输功能的设备等，并且，这些设备的类型可以相同，也可以不同。例如，用于执行本发明实施例提供的语音处理方法的电子设备可以为手机1，第一设备可以为手机2，第二设备可以为平板电脑。

本发明实施例中，第一语音消息可以为第一设备发送的语音消息，或为待向第一设备发送的第一语音消息。下面对这两种语音消息分别进行示例性说明。

第一种可能的方式，针对第一语音消息为第一设备发送的语音消息，电子设备可以接收用户的目标输入，并响应于该目标输入，播放第一设备发送的第一语音消息。其中，该目标输入可以为对第一语音消息对应的标识的触控输入等。

可选的，上述第一语音消息可以为即时通讯消息，例如，该第一语音消息可以为通过电子设备中的社交类应用程序接收的即时通讯消息；或者，第一语音消息也可以为电子设备中存储的音频文件，例如，该第一语音消息可以为用户从学习网站上下载的音频课程。

示例性的，以第一语音消息为即时通讯消息为例。在电子设备接收到来自第一设备的第一语音消息后，用户可以对该第一语音消息进行一个播放输入，从而电子设备可以响应于该播放输入，播放该第一语音消息。

第二种可能的方式，针对第一语音消息为待向第一设备发送的语音消息，电子设备可以接收用户的目标输入，并响应于该目标输入，录入待向第一设备发送的第一语音消息。其中，该目标输入可以为对语音录入控件的长按输入等。

可选的，上述第一语音消息可以为即时通讯消息，例如，该第一语音消息可以为通过电子设备中的社交类应用程序接收的即时通讯消息。

示例性的，本发明实施例中，在与第一设备的聊天界面中可以包括一个语音输入控件，电子设备可以在用户按压该语音输入控件的情况下，接收用户向电子设备输入的语音消息。

S202、在接收到用户的语音指令的情况下，电子设备将第一语音消息和语音指令合成为第二语音消息。

需要说明的是，本发明实施例对于第一语音消息和语音指令在第二语音消息中的顺序不做限定。例如，第一语音消息和语音指令在第二语音消息中的顺序可以为第一语音消息在前，语音指令在后；也可以为语音指令在前，第一语音消息在后。具体可以根据实际使用需求确定，本发明实施例不作限定。

需要说明的是，用户可以在录入中断，或者播放第一设备发送的第一语音消息的过程中，向电子设备输入语音指令，即在电子设备包括第一语音消息的情况下，电子设备可能会接收到用户输入的语音指令。

下面通过两个示例对本发明实施例中的上述S202进行详细说明。

示例1：在第一语音消息为待向第一设备发送的语音消息的情况下，电子设备可以将第一语音消息和语音指令合成为第二语音消息。具体的，在用户录入第一语音消息时，若录入被迫中断，例如，电子设备接收到来电请求、语音通话请求、视频通话请求、关机、低电量提醒或其他可能的情况等，则用户可以在排除这些影响后，向电子设备输入语音指令。在电子设备接收到用户的语音指令后，电子设备可以将第一语音消息和语音指令合成为第二语音消息，该语音指令可以为用户因为录入中断而未能录入到第一语音消息中的语音片段。

需要说明的是，在第一语音消息为待向第一设备发送的语音消息的情况下，在接收到用户的语音指令之前，电子设备可以在电子设备中存储第一语音消息，而不会将第一语音消息发送至第一设备。例如，电子设备接收到来电后，用户需要松开长按“按住说话”控件的手指，以便可以接听来电，在用户松开手指之前，用户可以进行一个滑动输入，该滑动输入可以用于触发电子设备存储第一语音消息。

示例2：在第一语音消息为从第一设备接收到的语音消息的情况下，电子设备可以将第一语音消息中的部分语音片段和语音指令合成为第二语音消息。具体的，电子设备从第一设备接收到第一语音消息后，在电子设备播放第一语音消息的情况下，若用户没有听清楚或者不理解第一语音消息中的部分内容，则用户可以向电子设备输入语音指令，电子设备接收到用户的语音指令后，可以根据该语音指令从第一语音消息中确定第一语音片段，并将第一语音片段和语音指令合成为第二语音消息，该语音指令可以为指示第一语音片段的指令，以及指示第一设备的用户对第一语音片段进行操作的指令。

可选的，电子设备从第一语音消息中确定第一语音片段的方法可以包括：根据语音指令包括的预设信息和语音指令的接收时间中的至少一项确定第一语音片段；通过用户对播放进度控件的操作确定第一语音片段等。

可选的，上述预设信息可以为预设的关键字或其他可能的信息等。

示例性的，以电子设备根据语音指令包括的预设信息确定第一语音片段为例，电子设备接收到用户的语音指令后，可以通过解析该语音指令得到预设信息，该预设信息可以包括以下至少一项：“之前”、“之后”、“前面”、“后面”等，然后电子设备可以根据这些预设信息从第一语音消息中确定第一语音片段。

S203、电子设备向第一设备发送第二语音消息。

可选的，在电子设备合成第二语音消息后，电子设备可以自动向第一设备发送第二语音消息；或者，电子设备也可以先显示一个是否发送的提示信息，并在接收到用户的确定输入后，响应于该确定输入，向第一设备发送第二语音消息。具体可以根据实际使用需求确定，本发明实施例不作限定。

本发明实施例提供了一种语音处理方法，一方面，在录入待向第一设备发送的第一语音消息的过程中，若录入中断，则电子设备可以根据用户的语音指令，将已经录入的第一语音消息和语音指令合成为第二语音消息，如此，即使录入中断，电子设备也可以发送完整的语音消息；另一方面，在播放第一设备发送的第一语音消息的情况下，若用户没有听清楚第一语音消息中的内容，或者对第一语音消息中的内容存在疑问，则用户可以通过语音指令触发电子设备将第一语音消息中用户没有听清楚或存在疑问的内容与语音指令合成为第二语音消息，如此，用户无需在语音指令中复述第一语音消息中的内容。因此提高了电子设备处理语音消息的智能化程度。

可选的，如果用户在录入待向第一设备发送的语音消息的过程中，电子设备接收到来自其他设备的通话请求，那么录入语音消息的过程就会中断，电子设备可能就会直接将已经录入的、不完整的语音消息发送至第一设备，如此，会导致用户无法清楚的表达个人意图。因此，本发明实施例提供的电子设备具备断音录续功能，即在接收到通话请求时，用户可以通过第一输入触发电子设备存储已经录入的语音消息，在通话结束之后，再根据已经录入的语音消息和语音指令，合成新的语音消息。

示例性的，结合图2，如图3所示，在上述S202之前，本发明实施例提供的语音处理方法还可以包括下述的S204，并且，上述S202具体可以通过下述的S202a和S202b实现。

S204、在录入待向第一设备发送的第一语音消息的过程中，若电子设备接收到第二设备发送的通话请求和用户的第一输入，则电子设备响应于第一输入，存储第一语音消息，并与第二设备建立通话。

本发明实施例中，上述第一输入可以用于存储正在录入的语音消息，以及用于与发起通话请求的设备建立通话。

可选的，上述第二设备与上述第一设备可以是相同类型的设备，也可以是不同类型的设备，具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，上述第一输入可以为触控输入。例如，一种可能的实现方式为，该第一输入可以为用户对电子设备显示的确定控件的点击输入，该确定控件可以用于触发电子设备存储第一语音消息；另一种可能的实现方式为，在电子设备因为通话请求导致录入中断的情况下，该第一输入可以为用户对接听控件的点击输入，即在用户对接听控件进行输入后，电子设备可以自动存储第一语音消息。

可选的，上述通话请求可以是来电、语音通话请求或视频通话请求。

可选的，在电子设备响应于第一输入，存储第一语音消息之后，电子设备可以悬浮显示一个存储标识，该存储标识可以用于指示电子设备存储了第一语音消息。

示例性的，如图4中的(a)所示，用户可以通过电子设备的聊天界面与第一设备的用户进行信息交互。该聊天界面中可以包括语音输入控件10，该语音输入控件10可以用于触发电子设备录入用户输入的语音消息，例如，用户可以在按压语音输入控件10的情况下，触发电子设备录入用户输入的语音消息。如图4中的(b)所示，由于现有语音通话多为单通道通话，即电子设备在同一时间只能运行一项语音处理任务。因此，在电子设备录入待向第一设备发送的第一语音消息的过程中，若电子设备接收到第二设备发送的通话请求，则电子设备可以在显示通话请求界面的情况下，显示是否存储语音消息的提示框11，该提示框包括确定控件12和否定控件13。若用户对确定控件12进行第一输入，则电子设备可以响应于第一输入，存储第一语音消息，并取消显示提示框11；若用户对否定控件13进行输入，则电子设备可以直接取消显示提示框11。之后，用户可以对接通控件14进行一个点击输入，从而使电子设备与第二设备建立通话。可以理解的是，通过显示确定控件和否定控件，用户可以根据意愿选择是否触发电子设备存储第一语音消息。

需要说明的是，本发明实施例中，上述通话请求是通过电子设备的第一应用程序接收的，上述第一语音消息是通过第二应用程序发送的。第一应用程序和第二应用程序可以为同一个应用程序，也可以为不同的应用程序，本发明实施例不作限定。

S202a、在与第二设备的通话结束之后，电子设备接收用户的语音指令。

在用户对结束通话控件进行点击输入后，电子设备可以切断与第二设备之间的通话。在与第二设备的通话结束后，如果用户想要在第一语音消息的基础上，录入完整的语音消息，那么用户可以触发电子设备开启语音消息录入功能，例如，用户可以继续按压上述聊天界面中的语音输入控件。之后，用户可以在语音消息录入功能处于开启状态的情况下，输入语音指令，从而使得电子设备可以接收用户输入的语音指令。

S202b、电子设备响应于语音指令，将第一语音消息和语音指令合成为第二语音消息。

对于电子设备响应于语音指令，将第一语音消息和语音指令合成为第二语音消息的具体描述，可参考上述S202中的相关描述，此处不再赘述。

本发明实施例中，若用户在录入待向第一设备发送的语音消息的过程中，接收到来自其他设备的通话请求，则用户可以进行第一输入，电子设备可以响应于第一输入，存储第一语音消息，从而可以避免电子设备将不完整的语音消息发送至第一设备，进而可以提高电子设备处理语音消息的智能化程度。

可选的，在与第二设备的通话结束之后，电子设备会存储第一语音消息，为了提醒用户及时对第一语音消息进行处理，电子设备可以先在与第一设备的聊天界面中显示第一控件，之后，若用户对第一控件进行第二输入，则电子设备可以响应于第二输入，开启语音消息录入功能，并接收用户的语音指令。

示例性的，结合图3，如图5所示，在本发明实施例提供的语音处理方法中，在上述S202a中的“电子设备接收用户的语音指令”之前，本发明实施例提供的语音处理方法还可以包括下述的S205至S207。

S205、在与第二设备的通话结束之后，电子设备在与第一设备的聊天界面中显示第一控件。

可选的，上述第一控件可以为悬浮控件，该悬浮控件可以显示在聊天界面中的任意位置。

示例性的，如图6所示，在与第二设备的通话结束之后，电子设备可以在与第一设备的聊天界面中显示第一控件15，该第一控件可以用于触发电子设备录入用户输入的语音消息，并将录入的语音消息添加在第一语音消息后。

可选的，电子设备在与第一设备的聊天界面中显示第一控件之后，电子设备可以在预设时间之后，自动取消显示该第一控件；或者，用户可以通过一个输入触发电子设备取消显示该第一控件。

S206、电子设备接收用户对第一控件的第二输入。

其中，第一控件可以用于触发电子设备录入用户输入的语音消息；或者，用于触发电子设备录入用户输入的语音消息和将录入的语音消息添加在第一语音消息后。

可选的，上述第二输入可以为用户对第一控件的触控输入，例如，该第二输入可以为点击输入或按压输入等。

S207、电子设备响应于第二输入，开启语音消息录入功能。

需要说明的是，在电子设备响应于第二输入，开启语音消息录入功能之后，电子设备可以接收用户输入的语音指令。

可选的，在用户完成语音指令的输入后，用户可以触发电子设备关闭语音消息录入功能，并取消显示第一控件。例如，以第二输入为用户对第一控件的按压输入为例，用户可以在对第一控件进行按压输入的情况下，输入语音指令。当用户完成语音指令的输入后，用户可以停止对第一控件进行按压输入，从而使电子设备关闭语音消息录入功能，并取消显示第一控件。

本发明实施例中，一方面，由于电子设备可以在与第一设备的聊天界面中显示第一控件，因此，可以提醒用户及时处理存储的第一语音消息；另一方面，由于电子设备可以响应于用户对第一控件的第二输入，开启语音消息录入功能，因此，可以便于用户确定输入语音指令的时机。从而电子设备可以将第一语音消息和语音指令合成完整的语音消息。

可选的，如果在播放第一设备发送的第一语音消息的过程中，或者在播放第一设备发送的第一语音消息之后，用户没有听清楚或理解第一语音消息中的某个片段，想要截取第一语音消息中的片段进行回复，那么用户可以输入语音指令，从而使电子设备接收用户的语音指令，从第一语音消息中提取第一语音片段，并将第一语音片段和语音指令合成为第二语音消息。

示例性的，结合图2，如图7所示，上述S202具体可以通过下述的S202c和S202d实现。

S202c、在播放第一设备发送的第一语音消息的过程中，或者在播放第一设备发送的第一语音消息之后，电子设备接收用户的语音指令。

下面通过两个场景对S202c进行示例性说明。

场景1：在电子设备播放第一设备发送的第一语音消息的过程中，或者在播放第一设备发送的第一语音消息之后，若用户没有听清楚第一语音消息中的某个片段，则用户可以向电子设备输入语音指令，该语音指令中可以包括指示重复片段的关键词和重复指令。例如，若第一语音消息包括片段1、片段2和片段3，在电子设备播放第一语音消息的过程中，若用户没有听清楚片段2，则用户输入的语音指令可以为“听不清楚片段1之后，片段3之前的内容，请重复”。

场景2：在电子设备播放第一设备发送的第一语音消息的过程中，或者在播放第一设备发送的第一语音消息之后，如果用户想要截取第一语音消息中的片段进行回复，那么用户可以向电子设备输入语音指令，该语音指令中可以包括指示截取片段的关键词和回复内容。例如，若第一语音消息包括片段1、片段2和片段3，在电子设备播放播放第一语音消息之后，若用户没有理解片段2，则用户输入的语音指令可以为“片段2是什么意思”。

S202d、电子设备响应于该语音指令，从第一语音消息中提取第一语音片段，并将第一语音片段和语音指令合成为第二语音消息。

可选的，电子设备可以通过下述两种方式从第一语音消息中提取第一语音片段。

方式一、电子设备可以根据语音指令包括的预设信息和语音指令的接收时间中的至少一项，从第一语音消息中提取第一语音片段。

其中，上述预设信息可以包括以下至少一项：“之前”、“之后”、“前面”、“后面”等。

需要说明的是，上述语音指令的接收时间是指接收该语音指令的时间，该接收时间可以为录入语音指令的起始时刻，也可以为录入完成的时刻，具体可以根据实际使用需求确定，本发明实施例不作限定。

示例性的，在上述场景1中，一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令中的预设信息从第一语音消息中提取语音片段。例如，该语音指令可以为“片段1之后，片段3之前的内容听不清，请重复”，其中，预设信息为“之前”、“之后”。电子设备可以根据关键词“片段1之后，片段3之前”从第一语音消息中提取片段2作为第一语音片段。另一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令的接收时间，从第一语音消息中提取第一语音片段。例如，若在播放完第一语音消息中的片段2时，电子设备接收到语音指令，则电子设备可以从第一语音消息中提取片段2之后的片段，即片段3作为第一语音片段。再一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令包括的预设信息和语音指令的接收时间从第一语音消息中提取语音片段。例如，若在播放完第一语音消息中的片段1时，电子设备接收到语音指令，该语音指令可以为“片段3之前的内容听不清”则电子设备可以先根据语音指令的接收时间从第一语音消息中提取片段1之后的片段，即片段2和片段3，再根据语音指令中的预设信息“片段3之前”，从片段2和片段3选择片段2作为第一语音片段。最后，电子设备可以将提取的第一语音片段和语音指令合成为第二语音消息。

示例性的，在上述场景2中，一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令中的预设信息从第一语音消息中提取语音片段。例如，该语音指令可以为“片段1之后，片段3之前的内容是什么意思”，其中，预设信息为“之前”、“之后”。电子设备可以根据关键词“片段1之后，片段3之前”从第一语音消息中提取片段2作为第一语音片段。另一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令的接收时间，从第一语音消息中提取第一语音片段。例如，若在播放完第一语音消息中的片段2时，电子设备接收到语音指令，则电子设备可以从第一语音消息中提取片段2之后的片段，即片段3作为第一语音片段。再一种可能的实现方式，当电子设备接收语音指令后，电子设备可以响应于语音指令，根据语音指令包括的预设信息和语音指令的接收时间从第一语音消息中提取语音片段。例如，若在播放完第一语音消息中的片段1时，电子设备接收到语音指令，该语音指令可以为“片段3之前的内容是什么意思”则电子设备可以先根据语音指令的接收时间从第一语音消息中提取片段1之后的片段，即片段2和片段3，再根据语音指令中的预设信息“片段3之前”，从片段2和片段3选择片段2作为第一语音片段。最后，电子设备可以将提取的第一语音片段和语音指令合成为第二语音消息。

本发明实施例中，由于电子设备可以根据用户的语音指令，从第一语音消息中提取第一语音片段，因此，电子设备可以在用户不方便用手操作的情况下，完成语音片段的提取，从而提高了人机交互性能。

方式二、电子设备显示第二控件；并响应于用户对该第二控件的输入，从第一语音消息中提取第一语音片段。其中，该第二控件可以用于调整第一语音消息的播放进度。

示例性的，如图8所示，在上述场景1中，当电子设备接收用户的语音指令后，电子设备可以响应于语音指令，在聊天界面显示第二控件16，用户可以对第二控件16进行滑动输入，并在选定片段2的情况下，进行一个确定输入，例如，该确定输入可以为双击屏幕任意位置的输入，电子设备可以响应于该确定输入在片段2的前后分别插入一个指令头，之后，电子设备可以根据指令头的位置，从第一语音消息中提取片段2，并将片段2和“听不清，请重复”的语音指令合成为第二语音消息。

示例性的，继续参考图8，在上述场景2中，当电子设备接收用户的语音指令后，电子设备可以响应于语音指令，在聊天界面显示第二控件16，用户可以对第二控件16进行滑动输入，并在选定片段2的情况下，进行一个确定输入，例如，该确定输入可以为双击屏幕任意位置的输入，电子设备可以响应于该确定输入在片段2的前后分别插入一个指令头，之后，电子设备可以根据指令头的位置，从第一语音消息中提取片段2，并将片段2和“是什么意思”的语音指令合成为第二语音消息。

可选的，上述第二控件还可以用于触发电子设备在用户选择的进度处开始播放第一语音消息。

本发明实施例中，由于电子设备可以响应于用户对第二控件的输入，从第一语音消息中提取第一语音片段，因此，可以提高电子设备提取语音片段的准确性。

本发明实施例中，由于电子设备可以在播放第一设备发送的第一语音消息的过程中，或者在播放第一设备发送的第一语音消息之后，接收用户的语音指令，从第一语音消息中提取第一语音片段，并将第一语音片段和语音指令合成为第二语音消息。因此，用户可以基于第一语音消息中的内容片段进行回复，从而提高了用户表达意图的准确度，便于对侧用户对回复内容的理解，从而提高了交互效率。

可选的，在用户进行语音通话的过程中，电子设备可以解析语音通话过程中的通话内容，并根据解析结果，提示用户执行相应的操作。

示例性的，在用户A与用户B进行语音通话的过程中，如果用户B说了一串号码，而用户A不方便通过纸笔的方式记录这些号码，那么用户A可以触发电子设备开启通话内容解析功能，之后，电子设备可以从通话中解析到号码，以及用户A想要存储号码的需求。在通话结束之后，电子设备可以显示解析到的号码，以及是否存储这些号码的提示信息，用户可以根据自身需求对该提示信息进行输入，若用户选择存储这些号码的输入，则电子设备可以响应于该输入，将号码存储到预设存储空间。

本发明实施例中，由于电子设备可以解析语音通话过程中的通话内容，并根据解析结果，提示用户执行相应的操作，因此，电子设备可以在用户处于通话状态时，协助用户记忆通话内容，并在通话结束之后，引导用户进行相应的操作，从而提高了电子设备处理语音的智能化程度。

需要说明的是，本发明实施例中，上述语音处理方法中的各个步骤可以结合上述实施例中示意的其它可以结合的任意步骤实现，本发明实施例不作限定，此处不再赘述。

如图9所示，本发明实施例提供一种电子设备900，该电子设备900可以包括录播模块901、处理模块902和发送模块903。录播模块901，可以用于播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息。处理模块902，可以用于在接收到用户的语音指令的情况下，将第一语音消息和语音指令合成为第二语音消息。发送模块903，可以用于向第一设备发送处理模块902合成的第二语音消息。

可选的，结合图9，如图10所示，本发明实施例提供的电子设备900还可以包括接收模块904。处理模块902，还可以用于录播模块901在录入待向第一设备发送的第一语音消息的过程中，若接收到第二设备发送的通话请求和用户的第一输入，则响应于第一输入，存储第一语音消息，并与第二设备建立通话。接收模块904，可以用于在与第二设备的通话结束之后，接收用户的语音指令。处理模块902，具体可以用于响应于接收模块904接收的语音指令，将第一语音消息和语音指令合成为第二语音消息。

可选的，结合图9，如图10所示，本发明实施例提供的电子设备900还可以包括显示模块905。显示模块905，可以用于在与第二设备的通话结束之后，在接收模块904接收用户的语音指令之前，在与第一设备的聊天界面中显示第一控件。接收模块904，还可以用于接收用户对第一控件的第二输入。处理模块902，还可以用于响应于接收模块904接收的第二输入，开启语音消息录入功能。

可选的，本发明实施例中，接收模块904，具体可以用于在录播模块901播放第一设备发送的第一语音消息的过程中，或者在录播模块901播放第一设备发送的第一语音消息之后，接收用户的语音指令。处理模块902，具体可以用于响应于接收模块904接收的语音指令，从第一语音消息中提取第一语音片段，并将第一语音片段和语音指令合成为第二语音消息。

可选的，本发明实施例中，处理模块902，具体可以用于根据语音指令包括的预设信息和所述语音指令的接收时间中的至少一项，从第一语音消息中提取第一语音片段；或者，在显示模块905显示第二控件的情况下，响应于用户对第二控件的输入，从第一语音消息中提取第一语音片段，其中，第二控件用于调整第一语音消息的播放进度。

本发明实施例提供的电子设备能够实现上述方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供一种电子设备，一方面，在录入待向第一设备发送的第一语音消息的过程中，若录入中断，则电子设备可以根据用户的语音指令，将已经录入的第一语音消息和语音指令合成为第二语音消息，如此，即使录入中断，电子设备也可以发送完整的语音消息；另一方面，在播放第一设备发送的第一语音消息的情况下，若用户没有听清楚第一语音消息中的内容，或者对第一语音消息中的内容存在疑问，则用户可以通过语音指令触发电子设备将第一语音消息中用户没有听清楚或存在疑问的内容与语音指令合成为第二语音消息，如此，用户无需在语音指令中复述第一语音消息中的内容。因此提高了电子设备处理语音消息的智能化程度。

图11为实现本发明各个实施例的一种电子设备的硬件结构示意图。如图11所示，该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图11中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器110，可以用于控制音频输出单元103播放第一设备发送的第一语音消息，或控制输入单元104录入待向第一设备发送的第一语音消息；并用于在用户输入单元107接收到用户的语音指令的情况下，将第一语音消息和语音指令合成为第二语音消息；以及用于控制射频单元101向第一设备发送第二语音消息。

可以理解，本发明实施例中，上述电子设备的结构示意图(例如图9)中的录播模块901可以通过上述音频输出单元103和输入单元104实现，处理模块902可以通过上述处理器110实现，发送模块903可以通过上述射频单元101实现。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与电子设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(graphics processing unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

电子设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在电子设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图11中，触控面板1071与显示面板1061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与电子设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备100内的一个或多个元件或者可以用于在电子设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器110可包括一个或多个处理单元；可选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户第一界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

电子设备100还可以包括给各个部件供电的电源111(比如电池)，可选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备100包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种电子设备，包括如图11所示的处理器110，存储器109，存储在存储器109上并可在处理器110上运行的计算机程序，该计算机程序被处理器110执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，该计算机可读存储介质可以包括只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音处理方法，应用于电子设备，其特征在于，所述方法包括：

播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；

在接收到用户的语音指令的情况下，将所述第一语音消息和所述语音指令合成为第二语音消息；

向所述第一设备发送所述第二语音消息。

2.根据权利要求1所述的方法，其特征在于，所述在接收到用户的语音指令的情况下，将所述第一语音消息和所述语音指令合成为第二语音消息之前，所述方法还包括：

在录入待向所述第一设备发送的所述第一语音消息的过程中，若接收到第二设备发送的通话请求和用户的第一输入，则响应于所述第一输入，存储所述第一语音消息，并与所述第二设备建立通话；

所述在接收到用户的语音指令的情况下，将所述第一语音消息和所述语音指令合成为第二语音消息，包括：

在与所述第二设备的通话结束之后，接收用户的语音指令；

响应于所述语音指令，将所述第一语音消息和所述语音指令合成为所述第二语音消息。

3.根据权利要求2所述的方法，其特征在于，所述接收用户的语音指令之前，所述方法还包括：

在与所述第二设备的通话结束之后，在与所述第一设备的聊天界面中显示第一控件；

接收用户对所述第一控件的第二输入；

响应于所述第二输入，开启语音消息录入功能。

4.根据权利要求1所述的方法，其特征在于，所述在接收到用户的语音指令的情况下，将所述第一语音消息和所述语音指令合成为第二语音消息，包括：

在播放所述第一设备发送的第一语音消息的过程中，或者在播放所述第一设备发送的第一语音消息之后，接收用户的语音指令；

响应于所述语音指令，从所述第一语音消息中提取第一语音片段，并将所述第一语音片段和所述语音指令合成为所述第二语音消息。

5.根据权利要求4所述的方法，其特征在于，所述从所述第一语音消息中提取第一语音片段，包括：

根据所述语音指令包括的预设信息和所述语音指令的接收时间中的至少一项，从所述第一语音消息中提取所述第一语音片段；

或者，

显示第二控件，并响应于用户对所述第二控件的输入，从所述第一语音消息中提取所述第一语音片段，其中，所述第二控件用于调整所述第一语音消息的播放进度。

6.一种电子设备，其特征在于，所述电子设备包括录播模块、处理模块和发送模块；

所述录播模块，用于播放第一设备发送的第一语音消息，或录入待向第一设备发送的第一语音消息；

所述处理模块，用于在接收到用户的语音指令的情况下，将所述第一语音消息和所述语音指令合成为第二语音消息；

所述发送模块，用于向所述第一设备发送所述处理模块合成的所述第二语音消息。

7.根据权利要求6所述的电子设备，其特征在于，所述电子设备还包括接收模块；

所述处理模块，还用于所述录播模块在录入待向所述第一设备发送的所述第一语音消息的过程中，若接收到第二设备发送的通话请求和用户的第一输入，则响应于所述第一输入，存储所述第一语音消息，并与所述第二设备建立通话；

所述接收模块，用于在与所述第二设备的通话结束之后，接收用户的语音指令；

所述处理模块，具体用于响应于所述接收模块接收的所述语音指令，将所述第一语音消息和所述语音指令合成为所述第二语音消息。

8.根据权利要求7所述的电子设备，其特征在于，所述电子设备还包括显示模块；

所述显示模块，用于在与所述第二设备的通话结束之后，在所述接收模块接收用户的语音指令之前，在与所述第一设备的聊天界面中显示第一控件；

所述接收模块，还用于接收用户对所述第一控件的第二输入；

所述处理模块，还用于响应于所述接收模块接收的所述第二输入，开启语音消息录入功能。

9.根据权利要求6所述的电子设备，其特征在于，所述电子设备还包括接收模块；

所述接收模块，具体用于在所述录播模块播放所述第一设备发送的第一语音消息的过程中，或者在所述录播模块播放所述第一设备发送的第一语音消息之后，接收用户的语音指令；

所述处理模块，具体用于响应于所述接收模块接收的所述语音指令，从所述第一语音消息中提取第一语音片段，并将所述第一语音片段和所述语音指令合成为所述第二语音消息。

10.根据权利要求9所述的电子设备，其特征在于，所述电子设备还包括显示模块；

所述处理模块，具体用于根据所述语音指令包括的预设信息和所述语音指令的接收时间中的至少一项，从所述第一语音消息中提取所述第一语音片段；或者，在所述显示模块显示第二控件的情况下，响应于用户对所述第二控件的输入，从所述第一语音消息中提取所述第一语音片段，其中，所述第二控件用于调整所述第一语音消息的播放进度。