CN110473550A

CN110473550A - 语音通信方法、装置及存储介质

Info

Publication number: CN110473550A
Application number: CN201910775301.4A
Authority: CN
Inventors: 张浩波; 周生明
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-19

Abstract

本公开是关于一种语音通信方法、装置及存储介质。在该语音通信方法中，获取至少一个通话的音频流；对接收到的音频流进行语音识别得到对应的文本内容；在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容；根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。通过本公开可实现多方的一对一通信，能够提高通信效率。

Description

语音通信方法、装置及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种语音通信方法、装置及存储介质。

背景技术

随着移动通信技术的发展，智能手机等移动终端的应用越来越广泛。

相关技术中，移动终端被用于语音通信时，支持主叫方呼叫处于通话过程中的被叫方。但是对于被叫方而言，同一时间内只能选择一个主叫方进行通话，对于主叫方而言，只能等到被叫方空闲后才能与被叫方进行通信联系。故，目前的语音通信方法，通信效率较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音通信方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种语音通信方法，包括：

接收至少一个通话的音频流；对接收到的音频流进行语音识别得到对应的文本内容；在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容；根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。

一示例中，本公开涉及的语音通信方法还包括：

监听通信状态；在监听到通话请求且所述通话请求被应答之前或之后，为该通话创建对应的文本显示界面。

另一示例中，本公开涉及的语音通信方法还包括：

在监听到通话请求且所述通话请求被应答之前，为该通话创建对应的接听操作触发界面，所述接听操作触发界面用于响应用户的接听操作以接听通话。

又一示例中，本公开涉及的语音通信方法还包括：

监听用户的主叫触发操作；在监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。

又一示例中，本公开涉及的语音通信方法还包括：

监听用户的主叫触发操作，其中，所述主叫触发操作包括创建新的文本显示界面操作；在监听到用户的主叫触发操作之后，创建对应的通话发出界面，所述通话发出界面用于响应用户的主叫操作以呼出通话。

又一示例中，根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复，包括：

根据基于预设规则选择的文本显示界面确定对应通话，并获取通过语音接收装置接收的语音信号，并在确定的对应通话上发送该语音信号；以及对回复的语音信号进行语音识别得到对应的文本内容，并在确定的对应通话所对应的文本显示界面进行显示；或者获取文本接收装置接收的文本，在确定的对应通话所对应的文本显示界面进行显示；并对接收的文本信号进行语音合成得到对应的语音信号，并通过确定的对应通话上发送所述语音信号。

又一示例中，基于预设规则选择的文本显示界面确定对应通话，包括：

基于用户选择指示确定用户选择的文本显示界面，并将确定的文本显示界面对应的通话作为确定的对应通话。

又一示例中，基于预设规则选择的文本显示界面为至少两个，对应通话数量为至少两个。

所述在确定的对应通话上进行语音回复，包括：

获取通过语音接收装置接收的语音信号，并在确定的至少两个通话上分别发送该语音信号；以及分别对回复的语音信号进行语音识别得到对应的文本内容，并在所述至少两个通话分别对应的文本显示界面进行显示；或者获取文本接收装置接收的文本，在所述至少两个通话分别对应的文本显示界面进行显示；并分别对接收的文本信号进行语音合成得到对应的语音信号并通过所述至少两个通话分别对应的通话线程进行发送。

又一示例中，在监听到通话请求且所述通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，还包括：为通话创建对应的通话线程；以及在监听到通话请求且所述通话请求被应答之前或之后，或者，在监听到用户的主叫触发操作且呼出通话被接通之前或之后，还包括：为通话创建对应的通话音频线程；

接收至少一个通话的音频流，包括：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程获取该通话对应的通话线程所接收的音频流。

对接收到的音频流进行语音识别得到对应的文本内容，包括：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程对获取的音频流进行语音识别得到对应的文本内容。

在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容，包括：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程在该通话对应的文本显示界面中显示识别得到的文本内容。

根据本公开实施例的第二方面，提供一种语音通信装置，包括：

接收单元，用于接收至少一个通话的音频流；语音识别单元，用于对接收到的音频流进行语音识别得到对应的文本内容；显示单元，用于在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容；通信单元，用于根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。

一示例中，所述装置还包括监听单元和创建单元，所述监听单元用于监听通话状态。

所述创建单元用于：在所述监听单元监听到通话请求且所述通话请求被应答之前或之后，为该通话创建对应的通话线程，对应的通话音频线程，以及对应的文本显示界面。

另一示例中，所述创建单元还用于：

在所述监听单元监听到通话请求且所述通话请求被应答之前，为该通话创建对应的接听操作触发界面，所述接听操作触发界面用于响应用户的接听操作以接听通话。

又一示例中，所述装置还包括监听单元和创建单元，所述监听单元用于监听用户的主叫触发操作；所述创建单元用于在所述监听单元监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。

又一示例中，所述装置还包括监听单元和创建单元，

所述监听单元用于监听用户的主叫触发操作，其中，所述主叫触发操作包括创建新的文本显示界面操作；所述创建单元用于在所述监听单元监听到用户的主叫触发操作之后，创建对应的通话发出界面，所述通话发出界面用于响应用户的主叫操作以呼出通话。

又一示例中，所述通信单元采用如下方式根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复：

根据基于预设规则选择的文本显示界面确定对应通话，并获取通过语音接收装置接收的语音信号，并在确定的对应通话上发送该语音信号；以及对回复的语音信号进行语音识别得到对应的文本内容，并在确定的对应通话所对应的文本显示界面进行显示；或者获取文本接收装置接收的文本，在确定的对应通话所对应的文本显示界面进行显示；并对接收的文本信号进行语音合成得到对应的语音信号，并在确定的对应通话上发送所述语音信号。

又一示例中，所述通信单元采用如下方式基于预设规则选择的文本显示界面确定对应通话：

所述通信单元采用如下方式在确定的对应通话上进行语音回复：

又一示例中，所述创建单元还用于在所述监听单元监听到通话请求且所述通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，为通话创建对应的通话线程，以及在所述监听单元监听到通话请求且所述通话请求被应答之前或之后，或者，在所述监听单元监听到用户的主叫触发操作且呼出通话被接通之前或之后，为通话创建对应的通话音频线程。

所述接收单元采用如下方式接收至少一个通话的音频流：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程获取该通话对应的通话线程所接收的音频流。

所述语音识别单元采用如下方式对接收到的音频流进行语音识别得到对应的文本内容：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程对获取的音频流进行语音识别得到对应的文本内容。

所述显示单元采用如下方式在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容：针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程在该通话对应的文本显示界面中显示识别得到的文本内容。

根据本公开实施例的第三方面，提供一种语音通信装置，该语音通信装置包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行上述第一方面或第一方面中任意一示例所述的语音通信方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述第一方面或第一方面中任意一示例所述的语音通信方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过接收至少一个通话的音频流，并对该音频流进行语音识别后以文本内容在文本显示界面显示，使得用户基于该文本显示界面显示的文本内容能够获知语音通话的内容，并基于该文本显示界面的选择确定对应通话，并在对应通话上进行语音回复，实现多方的一对一通信，能够提高通信效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音通信方法的流程图。

图2是根据一示例性实施例示出的另一种语音通信方法的流程图。

图3A是根据一示例性实施例示出的一种语音通信装置的框图。

图3B是根据一示例性实施例示出的另一种语音通信装置的框图。

图4是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本公开提供的语音通信方法可以应用于通话过程中有新来电呼入的场景以及通话过程中有新呼出通话的场景。目前在通话过程中有新来电呼入时，对于被叫方，同一时间内只能选择一个主叫方进行通话，对于主叫方，只能等到被叫方空闲后才能与被叫方进行通信联系。例如，用户A与用户B进行通话过程中，接收到用户C的来电后，用户A选择拒绝用户C的来电继续与用户B进行通话，或者用户A暂停与用户B的通话，接通与用户C的通话。再例如，用户A与用户B进行通话过程中，若想拨打用户D的号码与用户D进行通话，用户A只能选择暂停与用户B的通话，拨打用户D的号码，并与用户D进行通话。故，目前的语音通信方法，通信效率较低。

有鉴于此，本公开提供一种语音通信方法，在该语音通信方法中，获取通话的音频流，并对该音频流进行语音识别后以文本内容在文本显示界面中显示。用户基于该文本显示界面显示的文本内容能够获知语音通话的内容，并基于该文本显示界面的选择在对应通话上进行语音通信，实现多方的一对一通信，能够提高通信效率。

图1是根据一示例性实施例示出的一种语音通信方法的流程图，如图1所示，该语音通信方法用于终端中，包括以下步骤。

在步骤S11中，接收至少一个通话的音频流。

本公开中接收的音频流可以是通话过程中通话对端发送的音频流，至少一个通话中的任一通话可以是本端被动接听的，也可以是本端主动发起的，任何一方发起的通话，在接通后，都可以接收通话的音频流。另外，无论当前是否处于通话状态，都可以对终端的通信状态进行监听，即对来电的通话请求，和对通话的发出请求进行监听。

针对通话请求为来电请求的情况，可以在监听到通话请求且所述通话请求被应答之前，为新来电创建通话线程。新来电可以是一个也可以是多个，每一通话线程对应一个新来电，即通话线程与新来电之间具有一一对应关系。若监听到新来电被接听，则通话状态为通话中，进而会接收到音频流。本公开中在监听到通话请求且所述通话请求被应答之前或之后，为该被接听的新来电创建通话音频线程，被接听的新来电数量可以是一个也可以是多个，每一接听的新来电对应一个通话音频线程。每一新来电都具有与其对应一一对应的通话线程。

针对通话请求为通话发出请求的情况，可以在监听到用户的主叫触发操作且呼出通话被接通之前，为通话创建对应的通话线程，也就是说通话发出界面响应用户的主叫操作呼出通话之后，且呼出通话被接通之前，可以为该新呼出的通话创建通话线程。新呼出的通话可以是一个也可以是多个，每一通话线程对应一个新呼出的通话，即通话线程与新呼出的通话之间具有一一对应关系。若监听到新呼出的通话被接听，则通话状态为通话中，进而会包含音频流。在监听到通话请求且所述通话请求被应答之前或之后，或者，在监听到用户的主叫触发操作且呼出通话被接通之前或之后，还包括：为通话创建对应的通话音频线程，也就是说本公开中为该被接听的新呼出的通话创建通话音频线程，被接听的新呼出的通话数量可以是一个也可以是多个，每一接听的新呼出的通话对应一个通话音频线程。每一新呼出的通话都具有与其对应一一对应的通话线程。

本公开中也可以理解为是通话音频线程与通话线程之间具有一一对应关系。

本发明实施例所述的通话可以适用于任何包括通话功能的应用，不论是使用蜂窝通信的包括通话功能的应用，还是使用无线局域网(WLAN，Wireless Local AreaNetwork)、蓝牙、紫蜂等的包括通话功能的应用均适用。

本公开中为多个新来电或新呼出通话创建通话线程之后，可以形成通话线程池。在监听到新来电或新呼出通话被接通后，并在通话线程池中获取该被接通新来电或新呼出通话对应的通话线程，并通过该新来电或新呼出通话对应的通话线程获取音频流。多个通话音频线程，也可以形成为通话音频线程池。

针对至少一个通话中的每个通话，可以通过该通话对应的通话音频线程获取该通话对应的通话线程所接收的音频流，并由该通话对应的通话音频线程对从通话线程获取的音频数据进行进一步的处理，详见后文。。

在步骤S12中，对接收到的音频流进行语音识别得到对应的文本内容。

本公开中可采用诸如自动语音识别技术(Automatic Speech Recognition，ASR)对获取到的每一通话的音频流进行语音识别，将语音内容识别为文本内容。

其中，针对接收到的至少一个通话中的每个通话，可以通过该通话对应的通话线程获取通话中的音频流，并可以通过该通话对应的通话音频线程对获取的音频流进行语音识别得到对应的文本内容。

在步骤S13中，在上述至少一通话分别对应的文本显示界面中显示各自对应的文本内容。

本公开中，由于用户可以同时进行多个通话，为了便于了解每个通话的内容，以及便于同时对多个通话进行回复(例如：多个通话回复内容相同的情况)，可以为每一通话创建对应的文本显示界面，并在各通话分别对应的文本显示界面上显示各自的文本内容，即通过S12对音频流的识别得到的文本内容。

文本显示界面可以理解为是在接听通话的终端的屏幕上显示的界面；但是，由于用户在接听通话过程中可能不方便查看接听通话所使用终端的屏幕(不使用免提的情况下)，那么，文本显示界面也可以理解为是在与接听通话的终端不同终端的屏幕上显示的界面。例如，接听通话的终端可以为手机，呈现文本显示界面的终端可以是电脑、平板、另一个手机、可穿戴设备、带屏幕的智能设备等，接听通话的终端和呈现文本显示界面的终端可以安装同一应用程序，同时进行使用并且能够实现信息同步。

针对通话请求为来电请求的情况，本公开中监听通信状态(即来电状态)。若监听到新来电(即通话请求)，在监听到通话请求且该通话请求被应答之前或之后，可以为该通话创建对应的文本显示界面。新来电可以是一个也可以是多个，可以为每个新来电创建对应的文本显示界面。那么，新来电的应答操作可以在通话界面上触发，也可以在文本显示界面上触发。

针对新来电的应答操作在通话界面上触发的情况，可以在监听到通话请求且该通话请求被应答之前或之后，为该通话创建对应的文本显示界面。实施时，可以在通话过程中的来电界面上添加接听操作接口，例如：接听按钮，使得用户能够通过对该接听操作接口的操作触发对新来电的接听，同时不挂断或者挂起(即暂停)当前通话，实现同时接听多个通话。按照本申请实施例，可以在监听到新来电且该新来电被应答之前或之后，为每个新来电创建对应的文本显示界面；

针对新来电的应答操作设置在文本显示界面上的情况，可以在监听到通话请求且所述通话请求被应答之前，为该通话创建对应的接听操作触发界面，该接听操作触发界面用于响应用户的接听操作以接听通话，并在监听到通话请求且通话请求被应答之前或之后，为该通话创建对应的文本显示界面。其中，该接听操作触发界面可以与文本显示界面为同一界面，也就是说同一个界面中设置有文本显示的部分以及接听操作触发的部分(例如，文本显示框和接听操作触发按钮)。以接听通话的终端和呈现文本显示界面的终端不是同一个终端的情况为例，当监听到新来电时，可以先为该新来电创建通话线程，接听通话的终端中的通话线程或者用于管理通话线程的功能模块(例如音频管理器)向图形用户界面(或者图形用户界面的管理功能模块，例如图形用户界面管理器)发送消息，指示呈现文本显示界面的终端创建对应的接听操作触发界面，以便用户在呈现文本显示界面的终端上进行操作，实现来电的接听，或者同时创建文本显示界面，或者在用户通过接听操作触发界面触发接听新来电之后，再为该通话创建文本显示界面，本发明不做限制。

针对通话请求为通话发出请求的情况，本公开中监听通话呼出状态。其中，通话呼出可由用户触发的主叫操作触发。故本公开中通过监听用户的主叫操作监听通话呼出状态。若监听到用户的主叫操作，则为该主叫操作创建对应的通话发出界面。本公开中，通话发出界面用于响应用户的主叫操作以呼出通话。同理，新的主叫呼出操作可以在通话界面上触发，也可以在文本显示界面上触发。

针对新的主叫呼出操作在通话界面上触发的情况，可以监听用户的主叫触发操作；在监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。实施时，可以在通话过程中的拨号键盘上添加呼叫操作接口，例如：呼叫按钮，使得用户能够通过对该呼叫操作接口的操作触发新的呼叫，同时不挂断或者挂起(即暂停)当前通话，实现同时进行多个通话；可以在呼叫按钮被触发之后或者呼出通话被通信对端接通之后，为该呼出通话创建对应的文本显示界面；

针对新的主叫呼出操作在文本显示界面上触发的情况，可以监听用户的主叫触发操作，其中，主叫触发操作包括创建新的文本显示界面操作；在监听到用户的主叫触发操作之后，创建对应的通话发出界面，该通话发出界面用于响应用户的主叫操作以呼出通话。其中，可以将创建新的文本显示界面的操作作为用户的主叫触发操作，以接听通话的终端和呈现文本显示界面的终端不是同一个终端的情况为例，用户需要发起新的呼叫时，可以在呈现文本显示界面的终端上为新通话新建文本显示界面，该操作表征用户需要发起新的呼叫，则需要创建对应的通话发出界面，例如，通话发出界面中包括有拨号键盘，用户在该通话发出界面上的拨号键盘上进行主叫操作，以呼出通话。也可包括通讯录调用入口等，本公开不做限定。图形用户界面(或者用于管理图形用户界面的功能管理模块，例如图形用户界面管理器)可以将通话呼出指示发送给用于接听通话的终端，通过接听通话的终端实施呼出操作，接听通话的终端中可以设置有用于进行音频管理的功能模块，例如音频管理器，用于与图形用户界面(或者图形用户界面管理器)进行交互。

另外，文本显示界面可以与通话发出界面为不同界面也可以为同一界面，即用户的创建新的文本显示界面的操作可以触发创建同时包含文本显示框和拨号键盘的界面，本公开不做限制。

本公开中将对通话的音频流的语音内容进行语音识别后得到的文本内容显示在文本显示界面上，以便用户获知语音通话内容。

其中，文本显示界面具体形式本公开不做限定，例如可以是文本框形式，或者也可以是页面形式等，每一个通话均具有对应的文本显示界面即可。

一种实施方式中，本公开中在监听到通话请求且该通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，可以为该通话创建对应的通话线程；以及在监听到通话请求且通话请求被应答之前或之后，或者，在监听到用户触发的主叫操作且呼出通话被接通之前或之后，为该通话创建对应的通话音频线程。也可针对每一通话创建文本显示界面，该文本显示界面用于显示对通话的音频流中语音内容进行语音识别后得到的文本内容。如前所述，文本显示界面可以理解为是在与接听通话的终端相同或不同终端的屏幕上显示的界面，实施时，可以根据实际情况在对应的终端上对应的文本显示界面中显示文本内容。

本公开中针对每个通话，通过该通话对应的通话音频线程在该通话对应的文本显示界面中显示识别得到的文本内容。

用户通过在终端屏幕上显示的文本显示界面可获知每一语音通话识别出的文本内容，进而获知语音通话内容，并选择待进行语音通话的通话。本公开中，文本显示界面与通话线程之间具有一一对应关系，通话线程与通话音频线程之间具有一一对应关系，进而用户可通过选择文本显示界面进行通话音频线程的选择。

在步骤S14中，基于预设规则选择文本显示界面，并根据基于预设规则选择的文本显示界面确定对应通话，在对应通话上进行语音回复。

本公开中选择文本显示界面的预设规则可以是默认当前通话对应的文本显示界面为选择的文本显示界面，也可以是基于用户选择指示确定的文本显示界面为选择的文本显示界面。其中，用户选择指示可以是诸如点击等选择指令。

本公开中，确定了选择的文本显示界面后，可确定该文本显示界面对应的通话，进而在该对应通话上进行语音回复。也就是说，用户选择了文本显示界面之后，即确定了该文本显示界面对应的通话为当前通话，用户回复的语音消息会回复给该当前通话对应的通话对端，而不会回复给其他通话对端。并且，用户选择的文本显示界面可以为一个或者多个，针对选择多个文本显示界面的情况，即确定了该多个文本显示界面分别对应的通话同时作为当前通话，用户回复的语音消息会回复给该多个当前通话分别对应的通话对端，而不会回复给未被选择的文本显示界面所对应的通话的通话对端。

实施时，可以设置音频管理器，对建立通话音频线程进行管理，以及设置图形界面管理器对建立的文本显示界面进行管理，用户通过选择操作选择了文本显示界面之后，可以由图形界面管理器向音频管理器发送通知，从而音频管理器确定出与用户选择的文本显示界面对应的通话音频线程，由确定出的通话音频线程进行后续的回复，例如：将用户发送的音频流发送给通话线程进行语音回复，以及并将该音频流进行语音识别，得到文本信息，在对应的文本显示界面进行显示。

本公开在对应通话上进行语音回复时，可采用如下方式：

一方面，本公开中可采集用户通过语音接收装置，诸如终端的麦克风，输入的语音信号，并在确定的对应通话上发送该语音信号，实现语音回复。以及对回复的语音信号进行语音识别得到对应的文本内容，并在确定的对应通话所对应的文本显示界面进行显示(可以通过确定的对应通话所对应的通话音频线程对回复的语音信号进行语音识别，并将识别得到的文本内容发送给对应的文本显示界面)。

另一方面，本公开可获取文本接收装置接收的文本，在确定的对应通话所对应的文本显示界面进行显示。并对接收的文本信号进行语音合成得到对应的语音信号，并通过确定的对应通话所对应的通话线程发送所述语音信号(可以通过确定的对应通话所对应的通话音频线程对文本信号进行语音合成，并将合成的语音信号发送给对应的通话线程)。

可以理解的是，本公开中语音回复可以包括自动合成语音回复，或者包括语音回复，也就是说，无论何种形式，通信对端都能够接收到本端发送的语音消息，而本端显示的文本显示界面可以仅显示通信对端发送的经过语音识别的文本信息，而不显示本端语音回复内容，或者还可以将通信对端发送的经过语音识别的文本信息，以及本端回复的信息均进行显示。

本公开以下对上述实施例涉及的语音通信方法的实施过程进行说明。

本公开一实施方式中，为提高创建通话音频线程的成功率，保证通过通话音频线程获取音频流之前通话线程已创建完成，可以是在监听到新来电，且新来电未被接听之前预先创建通话线程。当然本公开中，通话线程可以是在监听到新来电并且新来电被接听后创建的。

进一步的，本公开中可在监听到所述新来电时，由系统自动触发接听新来电；或者基于用户在显示屏上输入的接听指令，触发接听新来电。其中，上述涉及的系统可以理解为是终端中安装的应用程序。

本公开另一实施方式中，在对每一通话音频线程中音频流的语音内容进行语音识别时，可针对通话音频线程池中每一通话音频线程分别获取该通话音频线程中的上行音频流和下行音频流。其中，上行音频流可以理解为是用户通过终端发送给另一终端的语音组成的音频流。下行音频流可以理解为是用户通过终端接收另一终端传送的语音组成的音频流。一示例中，用户A与用户B进行通话过程中，接收到用户C的来电场景中，针对用户A而言，在与用户B进行通话的通话音频线程中，用户A发送给用户B的语音组成的音频流可称为上行音频流，用户A接收到用户B的语音组成的音频流可称为下行音频流。针对用户A而言，在与用户C进行通话的通话音频线程中，用户A发送给用户C的语音组成的音频流可称为上行音频流，用户A接收到用户C的语音组成的音频流可称为下行音频流。

本公开中针对每一通话音频线程分别获取到该通话音频线程中的上行音频流和下行音频流之后，可分别识别上行音频流和下行音频流中的语音内容为文本内容。

进一步的，本公开中在文本显示界面中显示文本内容时，可在文本显示界面中以对话方式显示对上行音频流和下行音频流识别语音内容后得到的文本内容，以使用户更直观的获取到语音通话内容。

本公开又一实施方式中，终端屏幕上显示的文本显示界面的数量可以是一个也可以是多个。当有多个文本显示界面显示时，多个文本显示界面中可以是不重叠的并列排布，也可以是部分重叠的叠列示排布。

用户在选择文本显示界面时，用户可通过在终端屏幕上输入选择指令来选择待进行语音通话的通话音频线程所对应的文本显示界面。例如该选择指令可以是点击文本显示界面等操作。其中，当终端屏幕上显示多个文本显示界面是部分重叠的叠列示排布时，可通过滑动手势等切换在终端屏幕最顶层显示的文本显示界面，并点击文本显示界面等操作来选择待进行语音通话的通话音频线程所对应的文本显示界面。

本公开中，用户在选择文本显示界面时，可以是在当前通话过程中进行选择指令的输入。终端在当前通话中获取到用户输入的选择指令，基于该选择指令确定用户选择的文本显示界面，进而确定出待进行语音回复的对应通话。将语音通话由当前通话切换至对应通话上进行语音回复。

本公开的又一实施方式中，用户选择的文本显示界面可以为一个，也可以为多个，当用户选择的文本显示界面为多个时，对应待进行语音通信的通话数量也为多个。一方面，在对应通话上进行语音通信时，获取用户通过麦克风等语音接收装置输入的语音信号，并在确定的多个通话上分别发送该语音信号。并且本公开中分别对回复的语音信号进行语音识别得到对应的文本内容(可以通过多个通话分别对应的通话音频线程对回复的语音信号进行语音识别)，并在多个通话分别对应的文本显示界面进行显示。另一方面，在对应通话上进行语音通信时，获取文本接收装置接收的文本，在多个通话分别对应的文本显示界面进行显示。并分别对接收的文本信号进行语音合成得到对应的语音信号并通过多个通话分别对应的通话线程进行发送(可以通过多个通话分别对应的通话音频线程对接收的文本信号进行语音合成，并发送给对应的通话线程)。通过上述实施方式，实现并行执行多个对应通话，实现多方一对一的语音通信。例如，用户A同时选择了与用户B进行语音通信的文本显示界面，和与用户C进行语音通信的文本显示界面，则可将用户A所说的同一语音内容，同时发送给用户B和用户C。又例如，用户A同时与用户B、C、D进行语音通信，用户A的终端上显示有与用户B、用户C、用户D三个文本显示界面，用户同时选择用户B和用户D分别对应的文本显示界面，则将用户A所说的同一语音内容同时发生给用户B和用户D，并且用户B和用户D的文本显示界面上均显示该语音内容对应的文本内容。

本公开又一实施方式中，若监听到通话被挂断，则中断该被挂断的通话对应的通话音频线程。其中，通话被挂断可以是主动挂断，也可以是被动挂断。主动挂断涉及用户交互，例如用户主动点击挂断按钮(该挂断按钮可以设置在通话界面上，也可以设置在文本显示界面上，也可以该两个界面上都设置，也就是说，在通话接通后，就可以在相应的位置上显示挂断按钮，或者隐藏有挂断按钮，用户的一些操作可以使隐藏的按钮显现)、关闭通话对应文件显示界面。被动挂断是通信线程自动检测并在终端显示屏上进行显示。例如，若监听到通话空闲状态，或者检测到用户关闭某一通话的文本显示界面，则确定语音通话被挂断，进而可确定多方语音通话中存在有结束通话的语音通话，进而可中断该结束了语音通话的通话音频线程。

图2是根据一示例性实施例示出的一种语音通信过程示意图。在通话过程中，监听通话状态/主叫触发操作。在监听到新来电且新来电被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，为通话创建对应的通话线程。在监听到新来电且新来电被应答之前或之后，或者，在监听到用户的主叫触发操作且呼出通话被接通之前或之后，获取音频流，创建通话音频线程。本公开中，针对每个通话线程创建文本显示界面。监听到的新来电/呼出通话可以是多个，进而形成通话音频线程池。在通话音频线程池中获取N个通话音频线程，N为大于等于1的正整数。其中，该获取的通话音频线程可以是通话过程中监听到的新来电/呼出通话对应的通话音频线程。利用语音识别技术，识别获取到的N个通话音频线程中的上行音频流和下行音频流，并得到文本内容。在创建的文本显示界面中显示识别到的文本内容。在文本显示界面中显示的文本内容可以是以对话形式显示的。其中，文本显示界面可以是显示在终端屏幕上。并且文本显示界面的排列方式可由图形界面管理器进行管理。用户通过诸如点击等选择指令，选择待进行语音通信的文本显示界面，进而终端依据选择的文本显示界面确定对应的通话音频线程。通过该确定的对应通话音频线程获取到通过终端麦克风输入的语音信号，并在确定的对应通话上发送该语音信号，实现语音通信过程。例如，终端选择的文本显示界面为通话过程中监听到的新来电对应的文本显示界面，则可实现将当前语音通话，切换至新来电对应的通话音频线程上。

其中，若语音通话的通话音频线程被中断，则监听到的通话状态为空闲状态。

本公开提供的语音通信方法中，为每一通话线程创建通话音频线程获取每一通话线程对应的通话音频线程中的音频流，并对该音频流进行语音识别后以文本内容在文本显示界面中显示。用户基于该文本显示界面显示的文本内容能够获知语音通话的内容，并基于该文本显示界面的选择在对应通话上进行语音回复，实现多方的一对一通信，能够提高通信效率。

基于相同的构思，本公开实施例还提供一种语音通信装置。

可以理解的是，本公开实施例提供的语音通信装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图3A是根据一示例性实施例示出的一种语音通信装置框图。参照图3A，该装置100包括接收单元101、语音识别单元102、显示单元103和通信单元104。

该接收单元101，用于获取至少一个通话的音频流。该语音识别单元102，用于对接收到的音频流进行语音识别得到对应的文本内容。该显示单元103，用于在至少一个通话分别对应的文本显示界面中显示各自对应的文本内容。通信单元104，用于根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。

一示例性实施例中，装置100还包括监听单元105和创建单元106，如图3B所示。

一方面，监听单元105用于监听通话状态。创建单元106用于：在监听单元105监听到通话请求且所述通话请求被应答之前或之后，为该通话创建对应的文本显示界面。

另一方面，创建单元106还用于在监听单元105监听到通话请求且通话请求被应答之前，为该通话创建对应的接听操作触发界面，接听操作触发界面用于响应用户的接听操作以接听通话。

又一方面，监听单元105用于监听用户的主叫触发操作。创建单元106用于：在监听单元105在监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。

又一方面，监听单元105用于监听用户的主叫触发操作，其中，所述主叫触发操作包括创建新的文本显示界面操作。创建单元106用于：在监听单元105监听到用户的主叫触发操作之后，创建对应的通话发出界面，通话发出界面用于响应用户的主叫操作以呼出通话。

另一示例性实施例中，通信单元104采用如下方式根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复：

另一示例性实施例中，通信单元104根据用户选择指示确定用户选择的文本显示界面，并将确定的文本显示界面对应的通话作为确定的对应通话。

又一示例性实施例中，基于预设规则选择的文本显示界面为至少两个，对应通话数量为至少两个。

通信单元104采用如下方式在确定的对应通话上进行语音回复：

又一示例性实施例中，创建单元106还用于在监听单元105监听到通话请求且通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，为通话创建对应的通话线程，以及在监听单元105监听到通话请求且通话请求被应答之前或之后，或者，在监听单元105监听到用户的主叫触发操作且呼出通话被接通之前或之后，为通话创建对应的通话音频线程。

接收单元101用于针对至少一个通话中的每个通话，通过该通话对应的通话音频线程获取该通话对应的通话线程所接收的音频流。

语音识别单元102针对至少一个通话中的每个通话，通过该通话对应的通话音频线程对获取的音频流进行语音识别得到对应的文本内容；

显示单元103针对至少一个通话中的每个通话，通过该通话对应的通话音频线程在该通话对应的文本显示界面中显示识别得到的文本内容。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种语音通信装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在设备200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到设备200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或2G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音通信方法，其特征在于，包括：

接收至少一个通话的音频流；

对接收到的音频流进行语音识别得到对应的文本内容；

在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容；

根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。

2.根据权利要求1所述的语音通信方法，其特征在于，所述方法还包括：

监听通信状态；

在监听到通话请求且所述通话请求被应答之前或之后，为该通话创建对应的文本显示界面。

3.根据权利要求2所述的语音通信方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的语音通信方法，其特征在于，所述方法还包括：

监听用户的主叫触发操作；

在监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。

5.根据权利要求1所述的语音通信方法，其特征在于，所述方法还包括：

监听用户的主叫触发操作，其中，所述主叫触发操作包括创建新的文本显示界面操作；

在监听到用户的主叫触发操作之后，创建对应的通话发出界面，所述通话发出界面用于响应用户的主叫操作以呼出通话。

6.根据权利要求1-5任一项所述的语音通信方法，其特征在于，根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复，包括：

根据基于预设规则选择的文本显示界面确定对应通话，并

获取通过语音接收装置接收的语音信号，并在确定的对应通话上发送该语音信号；以及对回复的语音信号进行语音识别得到对应的文本内容，并在确定的对应通话所对应的文本显示界面进行显示；或者

获取文本接收装置接收的文本，在确定的对应通话所对应的文本显示界面进行显示；并对接收的文本信号进行语音合成得到对应的语音信号，并在确定的对应通话上发送所述语音信号。

7.根据权利要求1-5任一项所述的语音通信方法，其特征在于，基于预设规则选择的文本显示界面确定对应通话，包括：

8.根据权利要求1-5任一项所述的语音通信方法，其特征在于，基于预设规则选择的文本显示界面为至少两个，对应通话数量为至少两个；

所述在确定的对应通话上进行语音回复，包括：

获取通过语音接收装置接收的语音信号，并在确定的至少两个通话上分别发送该语音信号；以及分别对回复的语音信号进行语音识别得到对应的文本内容，并在所述至少两个通话分别对应的文本显示界面进行显示；或者

获取文本接收装置接收的文本，在所述至少两个通话分别对应的文本显示界面进行显示；并分别对接收的文本信号进行语音合成得到对应的语音信号并通过所述至少两个通话分别对应的通话线程进行发送。

9.根据权利要求2-5任一项所述的语音通信方法，其特征在于，

在监听到通话请求且所述通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，还包括：

为通话创建对应的通话线程；以及

在监听到通话请求且所述通话请求被应答之前或之后，或者，在监听到用户的主叫触发操作且呼出通话被接通之前或之后，还包括：

为通话创建对应的通话音频线程；

接收至少一个通话的音频流，包括：

针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程获取该通话对应的通话线程所接收的音频流；

对接收到的音频流进行语音识别得到对应的文本内容，包括：

针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程对获取的音频流进行语音识别得到对应的文本内容；

在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容，包括：

针对所述至少一个通话中的每个通话，通过该通话对应的通话音频线程在该通话对应的文本显示界面中显示识别得到的文本内容。

10.一种语音通信装置，其特征在于，包括：

接收单元，用于接收至少一个通话的音频流；

语音识别单元，用于对接收到的音频流进行语音识别得到对应的文本内容；

显示单元，用于在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容；

通信单元，用于根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复。

11.根据权利要求10所述的语音通信装置，其特征在于，所述装置还包括监听单元和创建单元，所述监听单元用于监听通话状态；

所述创建单元用于：

在所述监听单元监听到通话请求且所述通话请求被应答之前或之后，为该通话创建对应的文本显示界面。

12.根据权利要求11所述的语音通信黄纸，其特征在于，所述创建单元还用于：

13.根据权利要求10所述的语音通信装置，其特征在于，所述装置还包括监听单元和创建单元，所述监听单元用于监听用户的主叫触发操作；

所述创建单元用于在所述监听单元监听到用户的主叫触发操作之后，或者在呼出通话被接通之后，为该呼出通话创建对应的文本显示界面。

14.根据权利要求10所述的语音通信装置，其特征在于，所述装置还包括监听单元和创建单元，

所述监听单元用于监听用户的主叫触发操作，其中，所述主叫触发操作包括创建新的文本显示界面操作；

所述创建单元用于在所述监听单元监听到用户的主叫触发操作之后，创建对应的通话发出界面，所述通话发出界面用于响应用户的主叫操作以呼出通话。

15.根据权利要求10-14任一项所述的语音通信装置，其特征在于，所述通信单元采用如下方式根据基于预设规则选择的文本显示界面确定对应通话，并在确定的对应通话上进行语音回复：

根据基于预设规则选择的文本显示界面确定对应通话，并

16.根据权利要求10-14任一项所述的语音通信装置，其特征在于，所述通信单元采用如下方式基于预设规则选择的文本显示界面确定对应通话：

17.根据权利要求10-14任一项所述的语音通信装置，其特征在于，基于预设规则选择的文本显示界面为至少两个，对应通话数量为至少两个；

18.根据权利要求11-14任一项所述的语音通信装置，其特征在于，所述创建单元还用于在所述监听单元监听到通话请求且所述通话请求被应答之前，或者，在监听到用户的主叫触发操作且呼出通话被接通之前，为通话创建对应的通话线程，以及

在所述监听单元监听到通话请求且所述通话请求被应答之前或之后，或者，在所述监听单元监听到用户的主叫触发操作且呼出通话被接通之前或之后，为通话创建对应的通话音频线程；

所述接收单元采用如下方式接收至少一个通话的音频流：

所述语音识别单元采用如下方式对接收到的音频流进行语音识别得到对应的文本内容：

所述显示单元采用如下方式在所述至少一个通话分别对应的文本显示界面中显示各自对应的文本内容：

19.一种语音通信装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-9中任意一项所述的语音通信方法。

20.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1-9中任意一项所述的语音通信方法。