CN110602327A

CN110602327A - 语音通话方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110602327A
Application number: CN201910906728.3A
Authority: CN
Inventors: 李岳鹏; 刘志鹏; 朱睿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2019-12-20
Anticipated expiration: 2039-09-24
Also published as: US11875808B2; EP3920516A4; WO2021056999A1; JP7290749B2; EP3920516B1; EP3920516A1; JP2022528683A; EP3920516C0; CN110602327B; US20210390969A1

Abstract

本申请提供了一种语音通话方法、装置、电子设备及计算机可读存储介质，该方法包括：获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备；获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量；基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定当前时刻的目标音频采集设备。该方案中目标音频采集设备确定过程中不是仅依赖于各音频采集设备采集到的语音信号的信号能量或近端设备的通话场景，因此避免了现有技术中确定出的目标音频采集设备所采集到的语音信号中回声较大或近端语音较小的问题，提高了语音通话的效果。

Description

语音通话方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种语音通话方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科学技术的快速发展，人们可以通过智能手机、智能手表以及平板电脑等终端系统进行语音通话。为了提升通话质量，终端系统的厂商会在设备上搭载双麦克风(Microphone)进行声音的采集。双麦克风带来了两路对应的语音信号，从而可以据此设计相应的语音增强方案。

在具有双麦克风终端系统的通话系统中，通常是将信号幅值较高的那路麦克风信号作为后续应用的输入，该选择方案虽然在只存在近端语音的情况下，能够起到有效增强语音的效果，然后在存在较强远端语音的场景中，如果两个麦克风均采集到了很强的回声，如果选择信号幅值较大的那路麦克风信号则很可能会选中回声较大的那路麦克风信号，导致语音增强达不到期望的效果，甚至会降低语音通话质量。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种语音通话方法，该方法包括：

获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备；

获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量；

基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定当前时刻的目标音频采集设备。

可选的，历史时刻的语音通话状态是通过以下方式确定的：

确定在历史时刻是否存在远端语音信号，得到第一确定结果；

确定在历史时刻是否存在近端语音信号，得到第二确定结果；

根据第一确定结果和第二确定结果，确定历史时刻的语音通话状态。

可选的，确定在历史时刻是否存在近端语音信号，包括：

获取历史时刻的目标音频采集设备在历史时刻采集到的第二语音信号；

对第二语音信号进行回声抵消，确定经回声抵消后的第二语音信号中是否存在近端语音信号。

可选的，语音通话状态至少包括远端单讲、近端单讲、两端对讲或无人讲话。

可选的，根据第一确定结果和第二确定结果，确定历史时刻的语音通话状态，包括：

若第一确定结果为存在远端语音信号，且第二确定结果为不存在近端语音信号，则历史时刻的语音通话状态为远端单讲；

若第一确定结果为不存在远端语音信号，且第二确定结果为存在近端语音信号，则历史时刻的语音通话状态为近端单讲；

若第一确定结果为存在远端语音信号，且第二确定结果为存在近端语音信号，则历史时刻的语音通话状态为两端对讲；

若第一确定结果为不存在远端语音信号，且第二确定结果为不存在近端语音信号，则历史时刻的语音通话状态为无人讲话。

可选的，基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备确定当前时刻的目标音频采集设备，包括：

若历史时刻的语音通话状态为远端单讲，则将信号能量最小的第一语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备；

若历史时刻的语音通话状态为近端单讲，则将信号能量最大的第一语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备；

若历史时刻的语音通话状态为两端对讲或无人讲话，则将历史时刻的目标音频采集设备确定为当前时刻的目标音频采集设备。

可选的，若历史时刻的语音通话状态为远端单讲，该方法还包括：

确定当前时刻之前语音通话状态连续为远端单讲的次数；

若次数大于设定值，则将当前时刻的目标音频采集设备确定为当前时刻之后的目标音频采集设备。

可选的，该方法还包括：

对当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消；

若经回声抵消的第一语音信号中存在近端语音信号，则将经回声抵消后的第一语音信号发送至语音通话的对端设备。

可选的，对当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消，具体包括：

获取当前时刻的远端语音信号；

基于当前时刻的远端语音信号和当前时刻的回声传播路径函数，确定当前时刻的目标音频采集设备采集到的第一语音信号中的回声信号；

基于回声信号对当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消。

可选的，当前时刻的回声传播路径函数通过以下方式获得：

对历史时刻的目标音频采集设备采集到的第二语音信号进行回声抵消，得到历史时刻的残留回声信号；

基于历史时刻的残留回声信号，对历史时刻的回声传播路径函数进行更新，得到当前时刻的回声传播路径函数。

第二方面，本申请实施例提供了一种语音通话方法，该方法包括：

接收用户的语音通话触发操作；

基于语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；

对于语音通话的初始时刻，将预配置信息所对应的至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定初始时刻的语音通话状态；

对于语音通话的除初始时刻之外的当前时刻，基于第一方面、第一方面任一可选实施例或第三方面所提供的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

第三方面，本申请实施例提供了一种语音通话装置，该装置包括：

通话状态获取模块，用于获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备；

信号能量获取模块，用于获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量；

目标音频采集设备确定模块，用于基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定目标音频采集设备。

可选的，该装置还包括通话状态确定模块，该通话状态确定模块用于确定终端系统的语音通话状态，其中，该模块在确定历史时刻的语音通话状态时，具体用于：

可选的，通话状态确定模块在确定在历史时刻是否存在近端语音信号时，具体用于：

可选的，语音通话状态包括远端单讲、近端单讲、两端对讲或无人讲话。

可选的，通话状态确定模块在根据第一确定结果和第二确定结果，确定历史时刻的语音通话状态时，具体用于：

在第一确定结果为存在远端语音信号，且第二确定结果为不存在近端语音信号时，则历史时刻的语音通话状态为远端单讲；

在第一确定结果为不存在远端语音信号，且第二确定结果为存在近端语音信号时，则历史时刻的语音通话状态为近端单讲；

在第一确定结果为存在远端语音信号，且第二确定结果为存在近端语音信号时，则历史时刻的语音通话状态为两端对讲；

在第一确定结果为不存在远端语音信号，且第二确定结果为不存在近端语音信号时，则历史时刻的语音通话状态为无人讲话。

可选的，目标音频采集设备确定模块具体用于：

在历史时刻的语音通话状态为远端单讲时，则将信号能量最小的第一语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备；

在历史时刻的语音通话状态为近端单讲时，则将信号能量最大的第一语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备；

在历史时刻的语音通话状态为两端对讲或无人讲话时，则将历史时刻的目标音频采集设备确定为当前时刻的目标音频采集设备。

可选的，目标音频采集设备确定模块还用于：

在历史时刻的语音通话状态为远端单讲时，确定当前时刻之前语音通话状态连续为远端单讲的次数，若该次数大于设定值，则将当前时刻的目标音频采集设备确定为当前时刻之后的目标音频采集设备。

可选的，该装置还包括信号发送模块，该模块用于：

可选的，信号发送模块在对当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消时，具体用于：

获取当前时刻的远端语音信号；

可选的，当前时刻的回声传播路径函数通过以下方式获得：

第四方面，本申请实施例提供了一种语音通话装置，该装置包括：

触发操作接收模块，用于接收用户的语音通话触发操作；

设备开启模块，用于基于语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；

初始确定模块，用于对于语音通话的初始时刻，将预配置信息所对应的至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定初始时刻的语音通话状态；

语音通话模块，用于对于语音通话的除初始时刻之外的当前时刻，基于第一方面、第一方面任一可选实施例或第三方面所提供的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括存储器、处理器、音频播放设备和至少两个音频采集设备；

音频播放设备，用于播放语音信号；

至少两个音频采集设备，用于采集语音信号；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面或第一方面任一可选实施例中所提供的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面或第一方面任一可选实施例中所提供的方法。

本申请提供的技术方案带来的有益效果是：

本申请实施例所提供的方案，利用历史时刻的语音通话状态，以及各音频采集设备采集的语音信号的信号能量，实现目标音频采集设备的确定，由于历史时刻的语音通话状态，能够很好的反映出当前的可能的通话状态，而在不同的通话状态下，各音频采集设备所采集到的信号也会不同，因此，基于通话状态和各音频采集设备所采集到的信号的能量，能够很好的将特定语音通话状态下更有利于后续的语音增强处理的语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备，由于目标音频采集设备确定过程中，不是仅依赖于各音频采集设备采集到的语音信号的信号能量，因此避免了现有技术中将采集到较大回声信号的音频采集设备确定为目标音频采集设备，而导致语音效果较差的问题，基于本申请实施例所提供的方案，能够有效提高语音通话的效果，且该方案的实现可以无需依赖近端设备的通话场景，通用性更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了一种手机终端的结构示意图；

图2为本申请实施例提供的一种语音通话方法的流程示意图；

图3为本申请实施例的一示例中语音通话的实现过程示意图；

图4为本申请实施例的一示例中通话状态估计与麦克风选择的实现过程示意图；

图5为本申请实施例的一示例中目标麦克风的选择结果示意图；

图6为本申请实施例提供的一种语音通话方法的流程示意图；

图7示出了本申请一示例中的应用场景示意图；

图8为本申请实施例提供的一种语音通话装置的结构框图；

图9为本申请实施例提供的一种语音通话装置的结构框图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

近端：语音通话中通信网络中的本地端。

远端：语音通话中通信网络中的对端。

近端设备：语音通话中近端的讲话者使用的通话设备，近端设备上设置有音频采集设备(例如麦克风)和音频播放设备(例如扬声器、受话器)。

远端设备：语音通话中远端的讲话者使用的通话设备，远端设备上设置有音频采集设备(例如麦克风)和音频播放设备(例如扬声器、受话器)。

近端语音信号：语音通话中，近端的讲话者讲话被近端设备的音频采集设备采集到的语音信号。

远端语音信号：语音通话中，远端的讲话者讲话被远端设备的音频采集设备采集到后通过通信网络传输至近端设备的语音信号。

回声信号：语音通话中，远端语音信号经近端设备的音频播放设备播放后，被近端设备的音频采集设备采集到的语音信号。

回声抵消：从近端设备的音频采集设备采集到的语音信号中滤除回声信号的处理过程。

远端单讲：语音通话中，存在远端语音信号，且不存在近端语音信号时的通话状态。

近端单讲：语音通话中，不存在远端语音信号，且存在近端语音信号时的通话状态。

两端对讲：语音通话中，存在远端语音信号，且存在近端语音信号时的通话状态。

无人讲话：语音通话中，不存在远端语音信号，且不存在近端语音信号时的通话状态。

假设进行语音通话的两个设备为A、B，对于设备A的用户而言，即站在该用户a的角度来说，设备A则为近端设备，B为对应的远端设备即对端设备，同样的，对于设备B的用户b而言，设备B则为近端设备，那么A为对应的远端设备。

下面以近端设备是设备A为例进行描述，当A为近端设备时，A的音频采集设备采集到的本地讲话者即用户a的语音信号即为近端语音信号，B发送给A的语音信号(对端讲话者即用户b说话产生的语音信号)即为远端语音信号；远端语音信号被A上音频播放设备播放后被A上音频采集设备采集到的语音信号即为回声信号，将A的音频采集设备采集到的语音信号中的回声信号消除的过程即为回声抵消。在设备A的用户a和设备B的用户b进行语音通话时，对于设备A而言，当A接收到B发送的远端语音信号(用户b在说话)，且A的音频采集设备采集到的语音信号中没有近端语音信号(用户a没有说话)时的通话状态为远端单讲；而用户b没有在说话，只有用户a在说话时的通话状态为近端单讲；当用户a和用户b都有在说话时的通话状态为两端对讲；当用户a和用户b都未说话时的通话状态为无人讲话。

在具有两个音频采集设备的终端系统的通话系统中，为了进行语音增强，需要从双麦克风中选择一个麦克风作为输入麦克风。现有技术中采用的输入麦克风的选取方案一般有以下两种：

一种是根据麦克风采集到的语音信号的信号幅值选取输入麦克风，从两个麦克风中选取采集到的语音信号的信号幅值较高的麦克风作为输入麦克风，也即将信号幅值最高的语音信号作为输入语音信号以供后续语音增强处理。但在语音通话中存在较强远端语音信号的情况下，两个麦克风采集到的语音信号中都会有较强的回声，则所选择的信号幅值较大的麦克风可能是回声较大的麦克风，从而会引起回声泄露，导致语音通话质量降低。

另一种是根据终端系统的通话场景选取输入麦克风，以双麦克风终端系统为例，图1中示出了一种常见的手机的音频采集设备和音频播放设备的布置示意图，如图1所示，该手机上设置了一个在终端系统屏幕上方的顶部麦克风(简称为顶麦)201和一个在屏幕下方的底部麦克风(简称为麦)202，以及在屏幕顶部的受话器203和在屏幕底部的扬声器204。

在免提场景下，手机底部扬声器204播放远端语音信号，被麦克风采集到形成回声。因为底麦202距离扬声器较近，所以采集到的回声比较大；而近端说话人距离手机较远，两个麦克风采集到的近端人声能量比较接近，此时顶麦信号是后续处理更好的输入选择。在手持场景下，手机上方的受话,203播放远端语音信号，近端讲话人手持手机贴近屏幕下方讲话，此时底麦202采集到的近端语音信号较大，而顶麦201采集到的回声较大，此时底麦是后续处理的更好选择。简而言之，手持场景选择底麦，免提场景选顶麦是一个更合理的选择。然而，实际通话场景更为复杂，免提场景下，用户也可能将嘴靠近底麦202，此时选取顶麦201无法有效获取近端语音信号。且不同机型音频播放设备、采集设备种类繁多，除了麦克风存在多种摆放位置，也存在拥有双扬声器的立体声播放手机，这些都导致无法将麦克风的选择和场景简单关联。因此，依据场景进行麦克风选择的方案适用范围较小，且无法保证所选择的麦克风是否合理。

针对现有语音通话方案中所存在的以上技术问题，本申请实施例提供了一种语音通话方法，该方法提供另一种更合理的音频采集设备的选择方式，能够有效提高语音通话效果。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的一种语音通话方法的流程示意图，该方法具体可以由终端系统或服务器执行，如图1所示，该方法可以包括：

步骤S101，获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备。

需要说明的是，终端系统可以是集成了音频播放设备、音频采集设备以及处理器等器件的终端设备，该终端设备的具体设备类型本申请实施例不做限定，只要是能够进行语音通话的设备即可，包括但不限于手机、PAD等。终端系统也可以是由相互独立的音频播放设备、音频采集设备以及处理器组合而成的语音通话系统，例如，终端系统可以为视频会议系统，视频会议系统中包含有多个音频采集设备(如麦克风)，一个或多个音频播放设备(如扬声器)，以及处理器，且音频采集设备和音频播放设备可以根据会议场所等实际需求分散布置。

可以理解的是，当终端系统为集成有各器件的终端设备时，该方法可以由终端设备中集成的处理器执行，也可以由与该终端设备对应的服务器执行；当终端系统为由相互独立的多个设备组合而成的语音通话系统时，该方法可以由与该终端系统中的处理器执行，也可以由该终端系统对应的服务器执行，总之，该方法可以由终端系统或服务器执行。

其中，对于执行该语音通话方法的终端系统而言，该终端系统即为当前语音通话的近端设备，与该终端系统进行语音通话的对端设备即为远端设备。

其中，在语音通话过程中每一时刻可以理解为对目标音频采集设备进行重新确定时间点，历史时刻可以包括一个或多个时刻，两个时刻之间的间隔时长可以根据实际需求进行设定。例如，可以将两个时刻之间的间隔时长设置为0.02秒，若当前时刻为语音通话的第0.20秒，则历史时刻则为语音通话中的第0.18秒。

其中，语音通话状态表征了语音通话中近端语音状况和远端语音状况，根据任一时刻的近端语音通话状态可以确定该时刻是否存在近端语音信号和远端语音信号。例如，在语音通话的第0.20秒的语音通话状态为远端单讲，即在语音通话的第0.20秒存在远端语音信号而不存在近端语音信号。

其中，终端系统上所设置的音频采集设备可以是麦克风，也可以是其他类型的音频采集设备，对于至少两个音频采集设备的具体类型、具体数量、以及音频采集设备在终端系统上的位置，本申请实施例不作限定，例如，对于手机而言，至少两个音频采集设备可以是两个麦克风，两个麦克(可以分别设置在手机屏幕正面的上方和下方，如图1中所示的双麦克风的设备方式，也可以是其他设置方式，如可以设置在屏幕背面。

步骤S102，获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量。

其中，第一语音信号中可能包含近端语音信号、回声信号以及环境噪声信号等，在语音通话中需要消除回声信号和环境噪声信号，并将传输到远端设备的为近端语音信号。近端设备的各音频采集设备采集到的第一语音信号所包含的信号种类和信号能量大小都不相同，每一第一语音信号的信号能量大小可以反映其中所包含的语音信号的大小，进而可以作为后续确定目标音频采集设备时的依据。在实际应用中，语音信号的信号能量大小可以根据语音信号的信号幅值大小或峰值包络大小等进行确定。

需要说明的是，上述步骤S101和步骤S102中的步骤编号并不构成对两步骤先后顺序的限定，即步骤S101和步骤S102的执行顺序可以是没有先后的，如可以先执行步骤S101再执行步骤S102，或者先执行步骤S102再执行步骤S101，或者同时执行步骤S101和步骤S102，也即在本申请实施例实现的过程中，对获取近端设备历史时刻的语音通话状态，以及获取各音频采集设备在当前时刻采集到的第一语音信的信号能量两者的执行顺序不做限定。

步骤S103，基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定当前时刻的目标音频采集设备。

具体的，在实际应用中，在语音通话的一个较短的时间间隔内，语音通话的状态一般会保持不变，因此，可以通过历史时刻的语音通话状态来预估当前时刻的语音通话状态，即将历史时刻的语音通话状态认为是当前时刻的语音通话状态。当历史时刻只包含一个时刻时，将该一个时刻的语音通话状态作为历史时刻的语音通话状态，其所包含的时刻可以为与当前时刻相邻的上一时刻；当历史时刻包括多个时刻时，历史时刻的语音通话状态可以通过以下方式确定：分别获取各时刻的语音通话状态，将其中出现次数最多的语音通话状态作为历史时刻的语音通话状态；或者，将与当前时刻最接近的时刻的语音通话状态作为历史时刻的语音通话状态。

由于不同的语音通话状态，音频采集设备所采集到的语音信号的种类也会不同，例如，如果语音通话状态为远端单讲，则音频采集设备采集到的是回声信号，如果为近端单讲，则音频采集设备采集到的是近端语音信号(当然一般还存在噪声信号)，因此，语音通话状态可以表征音频采集设备所采集到的第一语音信号中是否存在回声信号、是否存在近端语音信号等，即根据历史时刻的语音通话状态即可确定出第一语音信号中所包含的信号的种类。例如，若历史时刻的语音通话状态为近端单讲，则当前时刻存在近端语音信号且不存在远端语音信号，由于回声信号是由于远端语音信号的存在而产生的，故可以确定第一语音信号中不存在回声信号。

在根据历史时刻的语音通话状态确定出各第一语音信号中所包含的信号的种类后，根据各第一语音信号的信号能量的大小即可确定出其中所包含的特定类型的语音信号的信号能量大小，换言之，可以确定出各音频采集设备采集到的特定类型的语音信号的信号能量大小。例如，若历史时刻的语音通话状态为近端单讲，根据该语音通话状态确定各第一语音信号中包含近端语音信号，一般还都会包括环境噪声信号等，但由于各第一语音信号中所包含的环境噪声信号的信号能量大小基本相近，因此第一语音信号中的近端语音信号的信号能量大小与该第一语音信号的信号能量大小正相关，即第一语音信号的信号能量越大，该第一语音信号中包含的近端语音信号的信号能量越大，即对应的音频采集设备采集到的近端语音信号的信号能量越大，此时则可以将采集到信号能量较大的第一语音信号的音频采集设备作为目标音频采集设备。

综上所述，可以基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，确定出各音频采集设备在特定语音通话状态下所采集特定类型的语音信号的信号能量的大小关系。

进一步的，确定出的当前时刻的目标音频采集设备，其采集到的第一语音信号是对应的语音状态下更有利于后续语音增强处理的第一语音信号，一般来说更有利于后续语音增强处理的第一语音信号中所包含的近端语音信号的信号能量更大，或者其中所包含的回声信号的信号能量更小。由于可以基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，确定出各音频采集设备在特定语音通话状态下所采集特定类型的语音信号的信号能量的大小关系，故可以基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，确定出特定语音通话状态下的目标音频采集设备。

那么，在确定目标音频采集设备时，在以各音频采集设备采集的第一语音信号的信号能量为依据的前提下还结合了历史时刻的语音通话状态，可有效避免所确定出的目标音频采集设备采集的第一语音信号中包含的回声信号最大的情况。同时，该目标音频采集设备确认过程不依赖于近端设备的通话场景，因此也避免了确定的目标音频采集设备采集不到有效的近端语音信号的情况。

可以理解的是，除初始时刻外，在语音通话的任一时刻都可以根据本申请实施例所提供的该方法确定出该时刻的目标音频采集设备。而对于语音通话的初始时刻，该时刻目标音频采集设备可以预先指定或者任选至少两个音频采集设备中一个音频采集设备，也可以采集现有的目标音频采集设备确定方式来选择，如基于通话场景确定初始时刻的目标音频采集设备。

需要说明的是，当该方法由服务器执行时，该方案中终端系统与服务器的交互过程可以包括：在语音通话的初始时刻，服务器向终端发送目标音频采集设备的预配置信息，终端系统根据接收到的预配置信息从至少两个音频采集设备中选取目标音频采集设备；或者预配置信息本身储存在终端系统中，终端系统根据预配置信息从至少两个音频采集设备中选取目标音频采集设备。在当前时刻，服务器接收终端发送的至少两个音频采集设备采集到的第一语音信号，服务器获取各第一语音信号的信号能量，并根据历史时刻的语音通话状态、以及接收到的各第一语音信号的信号能量，确定当前时刻的目标音频采集设备。

本申请实施例提供的语音通话方法，利用历史时刻的语音通话状态，结合各音频采集设备采集的语音信号的信号能量，将特定语音通话状态下更有利于后续的语音增强处理的语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备，目标音频采集设备确定过程中不是仅依赖于各音频采集设备采集到的语音信号的信号能量或近端设备的通话场景，因此避免了现有技术中确定出的目标音频采集设备所采集到的语音信号中回声较大或近端语音较小的问题，提高了语音通话的效果。

在本申请的一种可选实施例中，历史时刻的语音通话状态是通过以下方式确定的：

确定历史时刻是否存在远端语音信号，得到第一确定结果；

确定历史时刻是否存在近端语音信号，得到第二确定结果；

其中，语音通话状态可以指示语音通话中近端语音状况和远端语音状况，那么通过语音通话中近端语音状况和远端语音状况可以确定出对应的语音通话状态。

具体的，历史时刻是否存在远端语音信号，可以通过判断历史时刻终端系统是否接收到远端语音信号来确定，例如，若历史时刻终端系统接收到的语音信号中存在远端讲话者的声音信号(即远端语音信号)，则确定历史时刻存在远端语音信号。历史时刻是否存在近端语音信号，可以通过判断历史时刻终端系统上任一音频采集设备采集到的语音信号中是否包含近端语音信号来确定，例如，若历史时刻任一音频采集设备采集到的语音信号中包含近端讲话者的声音信号(即近端语音信号)，则确定历史时刻存在近端语音信号。

可以理解的是，在确定语音信号中是否存在近端语音信号或远端语音信号时，可以根据近端语音信号和远端语音信号的信号能量、信号波形等特点来进行判定，例如，可以将第一语音信号中信号能量处于预设范围内的语音信号确定为近端语音信号。

可以理解的是，当历史时刻中包括多个时刻时，本申请是利用上述方案分别对每一时刻的语音通话状态进行确定，在确定出各时刻的语音通话状态后，再进一步确定历史时刻的语音通话状态。根据历史时刻中包含的多个时刻的语音通话状态来确定历史时刻的语音通话状态的过程可以如前文所述：将各时刻对应的语音通话状态中出现次数最多的语音通话状态作为历史时刻的语音通话状态；或者，将与当前时刻最接近的时刻的语音通话状态作为历史时刻的语音通话状态。

需要说明的是，当该方法由服务器执行时，对应的终端系统与服务器的交互过程可以包括：在历史时刻，服务器接收终端系统发送的远端信号和各第一语音信号，服务器根据接收到的远端语音信号是否为0，得到第一确定结果，服务器根据接收到的各第一语音信号中是否存在近端语音信号，得到第二确定结果；然后再根据第一确定结果和第二确定结果，确定出历史时刻的语音通话状态。

在本申请的一种可选实施例中，确定历史时刻是否存在近端语音信号，包括：

具体的，在确定出历史时刻的目标音频采集设备之后，需要对历史时刻的目标音频采集设备采集的第二语音信号进行回声抵消和后续语音增强处理，第二语音信号中可能包含近端语音信号、回声信号和环境噪声信号等，在对第二语音信号进行回声抵消后，则可以认为第二语音信号中将不再包含回声信号，则在确定其中是否存在近端语音信号的时候即可以排除回声信号的影响，使得确认结果更加准确。同时，对历史时刻的目标音频采集设备采集的第二语音信号进行回声抵消也是语音通话中的必要操作，故选择经回声抵消后的所述第二语音信号作为判断对象，也不会额外增加语音通话中的处理步骤。

需要说明的是，当该方法由服务器执行时，对应的终端系统与服务器的交互过程可以包括：在历史时刻，服务器接收终端系统发送的目标音频采集的第二语音信号，确定该第二语音信号中是否存在近端语音信号。

在本申请的一种可选实施例中，语音通话状态包括远端单讲、近端单讲、两端对讲或无人讲话。

在本申请的一种可选实施例中，根据第一确定结果和第二确定结果，确定历史时刻的语音通话状态，包括：

可以理解的是，在语音通话中，可以将语音通话状态归纳为远端单讲、近端单讲、两端对讲或无人讲话等四种状态。在实际的语音通话中，多数情况下是一方讲话另一方听，或是一方听另一方讲话，而少数情况下是两方同时讲话或是两方都不讲话，远端单讲和近端单讲的通话状态出现的较多，而两端对讲或无人讲话的通话状态出现的较少。

在本申请的一个可选实施例中，基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备确定当前时刻的目标音频采集设备，包括：

若历史时刻的语音通话状态为两端对讲或无人讲话，则将历史时刻确定的目标音频采集设备确定为当前时刻的目标音频采集设备。

具体的，在历史时刻的语音通话状态为远端单讲时，预估当前时刻的语音通话状态也为远端单讲，近端设备中各音频采集设备采集到的第一语音信号中包含回声信号和环境噪声信号，则各第一语音信号的信号能量的大小与其中包含的回声信号的信号能量的大小正相关，为了使得用于后续语音增强处理的语音信号中的回声信号的信号能量最小，则选择信号能量最小的第一语音信号对应的音频采集设备确定为目标音频采集设备，即将信号能量最小的第一语音信号作为后续语音增强处理的输入信号。

在历史时刻的语音通话状态为近端单讲时，预估当前时刻的语音通话状态也为近端单讲，近端设备中各音频采集设备采集到的第一语音信号中包含近端语音信号和环境噪声信号，则各第一语音信号的信号能量的大小与其中包含的近端语音信号的信号能量的大小正相关，为了使得用于后续语音增强处理的语音信号中的近端语音信号的信号能量最大，则选择信号能量最大的第一语音信号对应的音频采集设备确定为目标音频采集设备，即将信号能量最大的第一语音信号作为后续语音增强处理的输入信号。

在历史时刻的语音通话状态为两端对讲时，预估当前时刻的语音通话状态也为两端对讲，近端设备中各音频采集设备采集到的第一语音信号的信号能量的大小，既与回声信号的信号能量的大小有关，又与近端语音信号的信号能量的大小有关，此时无法通过第一语音信号的信号能量的大小来确定其中包含的回声信号和近端语音信号的信号能量大小，而一般两端对讲持续的时间较短，为了保证语音通话的稳定，可以保证目标音频采集设备不变，故将历史时刻确定的目标音频采集设备作为当前时刻的目标音频采集设备。

在历史时刻的语音通话状态为无人讲话时，预估当前时刻的语音通话状态也为无人讲话，近端设备中各音频采集设备采集到的第一语音信号中不包含回声信号和近端语音信号，而一般两端对讲持续的时间较短，为了保证语音通话的稳定，可以保证目标音频采集设备不变，故将历史时刻确定的目标音频采集设备作为当前时刻的目标音频采集设备。

在本申请的一个可选实施例中，若历史时刻的语音通话状态为远端单讲，则该方还可以包括：

确定当前时刻之前语音通话状态连续为远端单讲的次数；

若次数大于设定值，则将当前时刻的目标音频采集设备确定为当前时刻之后的预设时间段内的目标音频采集设备。

具体的，在实际应用中，若在通话过程中，连续较长一段时间的通话状态一直为远端单讲，即对端通话者自己在说的情况，则可以认为在后续的通话过程中该状态仍然很可能会持续，因此，在某一时刻确定出语音通话状态时，可以记录状态连续为远端单讲的次数，如可以设置一计数器，如果通话状态为远端单讲，则该计数器的值加1，如果是其他通话状态时，则计数器清零，在下一次确定为远端单讲时，再重新开始计数。如果连续的次数超过设定值，则可以将当前时刻的目标音频采集设备直接作为后续通话过程中的目标音频采集设备，当然，也可以是作为后续通话过程中一定时间段的目标音频采集设备，在超过该时段之后，再基于上述前文实施例中所描述的方式确定目标音频采集设备。如为超过设定值，则可以采用前文实施例中所描述的方式确定目标音频采集设备。

需要说明的是，当该方法由服务器执行时，对应的终端系统与服务器的交互过程可以包括：服务器对各时刻的通话状态进行统计，若确定当前时刻之前语音通话状态连续为远端单讲的次数大于设定值时，则将当前时刻的目标音频采集设备确定为当前时刻之后的预设时间段内的目标音频采集设备。

在本申请的一种可选实施例中，该方法还包括：

若经回声抵消的第一语音信号中存在近端语音信号，则将经回声抵消后的第一语音信号发送至远端设备。

具体的，由前文描述可知，目标音频采集设备采集的第一语音信号中可能包含有近端语音信号、回声信号以及环境噪声信号等，因此为了避免语音通话中出现回声泄露，在将第一语音信号发送至远端设备前，要对第一语音信号进行回声抵消。对经回声抵消后的第一语音信号进行语音检测，若其中存在近端语音信号则将其发送至远端设备，若其中不存在近端语音信号，则其中包含有残留回声信号和环境噪声信号，则不将其发送至远端设备。

需要说明的是，当该方法由服务器执行时，对应的终端系统与服务器的交互过程可以包括：服务器对当前时刻目标音频采集设备采集的第一语音信号进行回声抵消，若经回声抵消的第一语音信号中存在近端语音信号，则将近端语音信号发送至远端设备。

在本申请的一种可选实施例中，对当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消，具体包括：

获取当前时刻的远端语音信号；

基于当前时刻的远端语音信号和当前时刻的回声传播路径函数，得到当前时刻的目标音频采集设备采集到的第一语音信号中的回声信号；

其中，回声传播路径函数可以理解为远端语音信号与音频采集设备接收到的回声信号之间的映射关系，即将当前时刻的远端语音信号代入当前时刻的回声传播路径函数即可得出对应的回声信号。

具体的，在当前时刻存在远端信号时，根据回声传播路径函数得出对应的回声信号，再将第一语音信号中的回声信号去除，完成第一语音信号的回声抵消。在当前时刻不存在远端语音信号时，第一语音信号中也不存在回声信号，那么经回声抵消后的第一语音信号与回声抵消前保持不变。

在本申请的一种可选实施例中，该方法还可以包括：

对历史时刻选取的目标音频采集设备采集到的第二语音信号进行回声信号消除，得到历史时刻的残留回声信号；

具体的，由于在每一时刻根据该时刻的远端语音信号和回声传播路径函数得出的该时刻的回声信号与该时刻实际的回声信号之间有一定的偏差，为了使下一时刻得到的回声信号与实际的回声信号之间的偏差更小，可以用每一时刻回声抵消后的残留回声信号对该时刻的回声传播路径函数的参数进行修正，即对其进行更新，得到下一时刻的回声传播路径函数。可以理解的，在历史时刻不存在远端语音信号时，第一语音信号中也不包含回声信号，进而也不存在残留回声信号，那么当前时刻的回声传播路径函数与历史时刻的回声传播路径函数相同。

在本申请的一种可选实施例中，将经回声抵消后的第一语音信号发送至远端设备，具体包括：

去除经回声抵消后的第一语音信号中的环境噪声信号和残留回声信号，并将得到的语音信号发送至远端设备。

具体的，对于第一语音信号进行回声抵消后，为了进一步提高语音通话质量，还需要进行后续语音增强处理。后续语音增强处理包括去除环境噪声信号，以及残留回声信号等。

下面通过一示例来对本申请实施例进行进一步说明，该示例以终端系统作为执行主体来进行说明，假设语音通话中的近端设备为一手机，该示例中以图1中所示的手机为例，该手机上设置了两个音频采集设备分别为顶部麦克风(顶麦)201和底部麦克风(麦)202，还包括受话器203和扬声器204。其中，顶麦201和麦202都可以采集第一语音信号，受话器203和扬声器204都可以对接收到的远端语音进行播放。

图3中示出了本示例中该手机进行目标音频采集设备选择的原理示意图，如图3所示，该手机中可以包括通话状态估计与麦克风选择器301、回声估计器302以及语音增强处理器304。其中，通话状态估计与麦克风选择器301用于确定各个时刻的语音通话状态，并根据历史时刻的语音通话状态及当前时刻顶麦和麦采集到的语音信号的信号能量大小确定目标麦克风。回声估计器302用于根据输入的远端语音信号估计出当前时刻的回声信号。回声抵消器303用于根据输入的回声信号对输入的语音信号进行回声抵消，其中，回声抵消器303可以理解为一个加法器，其中“-”和“+”分别表示对输入信号进行去除和累加。语音增强处理器304用于对输入的语音信号进行后续增强处理，包括去除残留回声信号和环境噪声信号。

需要说明的是，以上通话状态估计与麦克风选择器301、回声估计器302以及语音增强处理器304可以是具有对应功能的实体器件，也可以是能够实现对应功能的应用程序。

基于本申请实施例所提供的方案，当前时刻该手机中语音通话的实现过程可以包括如下步骤：

步骤1-1，该手机接收到远端语音信号后通过扬声器或受话器播放远端讲话者的声音，顶麦和麦分别采集近端讲话者的声音信号、远端讲话者的声音信号以及环境噪声信号，得到对应的两个第一语音信号，并分别将两个第一语音信号输入至通话状态估计与麦克风选择器301。

步骤1-2，通话状态估计与麦克风选择器301根据预先获取的历史时刻的语音通话状态以及接收到的顶麦和麦输入的两个第一语音信号，确定出目标麦克风，并将目标麦克风采集到的第一语音信号输入至回声抵消器303中。

步骤1-3，回声估计器302根据输入的远端语音信号估计得到回声信号，并将回声信号输入至回声抵消器303中。

步骤1-4，回声抵消器303根据回声估计器302输入的回声信号，对目标麦克风采集到的第一语音信号进行回声抵消，并将经回声抵消后的第一语音信号输入至语音增强处理器304。

步骤1-5，语音增强处理器304对消除回声信号后的第一语音信号进行进一步的语音增强处理，可以包括去除环境噪声信号以及残余回声信号等，再将经语音增强处理的第一语音信号发送至远端设备。

另外，如图中所示，在步骤1-4中，回声抵消器303还会将经回声抵消后的第一语音信号输入至通话状态估计与麦克风选择器301和回声估计器302，以供通话状态估计与麦克风选择器301根据该输入信号确定出当前时刻的语音通话状态，以用于下一时刻的目标麦克风的确定，而回声估计器302则可以根据经回声抵消后的第一语音信号中的残留回声信号对自身进行更新，如更新回声传播路径函数。

图4中示出了一种通话状态估计与麦克风选择器的可选结构示意图，如图4所示，该通话状态估计与麦克风选择器可以包括：第一峰值包络检测模块401、第二峰值包络检测模块402、远端语音活动检测模块403、近端语音活动检测模块404、通话状态估计模块405、麦克风选择模块406以及混音模块407。

其中，第一峰值包络检测模块401用于检测顶麦采集到的语音信号的峰值包络的大小，第二峰值包络检测模块402用于检测麦采集到的语音信号的峰值包络的大小。远端语音活动检测模块403用于检测各通话时刻是否存在远端语音信号，近端语音活动检测模块404用于检测各通话时刻是否存在近端语音信号。通话状态估计模块用于根据各通话时刻是否存在近端语音信号、以及是否存在远端语音信号，来确定各时刻的通话状态，即根据远端语音活动检测模块403和近端语音活动检测模块403的判断结果，确定相应时刻的通话状态。麦克风选择模块406用于则根据输入的顶麦采集到的语音信号的峰值包络的大小和麦采集到的语音信号的峰值包络的大小，确定出目标麦克风选择结果。混音模块407用于根据输入的目标麦克风选择结果将目标麦克风采集到的第一语音信号输出。需要说明的是，以上第一峰值包络检测模块401、第二峰值包络检测模块402、远端语音活动检测模块403、近端语音活动检测模块404、通话状态估计模块405、麦克风选择模块406以及混音模块407可以是具有对应功能的实体器件，也可以是能够实现对应功能的应用程序。基于图4中所示的该结构，该手机当前时刻的目标麦克风的确定过程可以包括以下步骤：

步骤2-1，第一峰值包络检测模块401检测顶麦采集到的第一语音信号的峰值包络大小，第二峰值包络检测模块402检测麦采集的第一语音信号的峰值包络大小，并分别将两个峰值包络大小输入至麦克风选择模块406。

步骤2-2，麦克风选择模块406根据通话状态估计模块405所确定出的历史时刻的语音通话状态，以及输入的两个峰值包络大小，确定出目标麦克风选择结果，并将目标麦克风选择结果输入至混音模块407。

具体的，通话状态估计模块405在确定历史时刻的语音通话状态时，根据远端语音活动检测模块403所确定出的历史时刻是否存在远端语音信号的第一确定结果，以及近端语音活动检测模块404所确定出的历史时刻是否存在近端语音信号的第二确定结果，确定出历史时刻的语音通话状态。

若历史时刻的语音通话状态为远端单讲，则麦克风选择模块406将信号能量较小的第一语音信号对应的麦克风确定为目标麦克风备；若历史时刻的语音通话状态为近端单讲，则麦克风选择模块406将信号能量较大的第一语音信号对应的麦克风确定为目标麦克风；若历史时刻的语音通话状态为两端对讲或无人讲话，则麦克风选择模块406将历史时刻确定的目标麦克风确定为目标麦克风。

步骤2-3，混音模块407根据输入的目标麦克风选择结果，对两个麦克风采集的第一语音信号进行混音选路，并将目标麦克风的语音信号输出。当从一路麦克风信号切换为另一路麦克风信号时，可以设置平滑过渡时间窗，以保证过渡连续。

另外，通话状态估计模块405还需要进一步确定出当前时刻的语音通话状态，以用于下一时刻的目标麦克风的选择，该过程具体可以包括以下步骤：

步骤3-1，远端语音活动检测模块403根据输入的当前时刻的远端语音信号(图中所示的远端语音)，确定当前时刻是否存在远端语音信号，近端语音状况检测器模块404根据输入的经回声抵消后的当前时刻的目标麦克风采集第一语音信号(图中所示的经回声抵消后的第一语音)，确定当前时刻是否存在近端语音信号，并分别将两个确认结果输入通话状态估计模块405。

步骤3-2，通话状态估计模块405根据输入的两个确认结果确定出当前时刻的语音通话状态。

具体的，若存在远端语音信号，且不存在近端语音信号，则当前时刻的语音通话状态为远端单讲；若不存在远端语音信号，且存在近端语音信号，则当前时刻的语音通话状态为近端单讲；若存在远端语音信号，且存在近端语音信号，则当前时刻的语音通话状态为两端对讲；若不存在远端语音信号，且不存在近端语音信号，则当前时刻的语音通话状态为无人讲话。

本申请实施例所提供的方案，通过综合分析终端系统的多个音频采集设备所采集到的语音信号、音频播放设备所播放的语音信息号、以及设备的通话状态，实现了对目标音频采集设备的选择，与现有技术相比，可以有效提升语音通话的整体性能。

作为一个示例，基于本申请实施例所提供的语音通话方案，该示例以终端系统作为执行主体来进行说明，图5中示出了一终端系统在免提通话场景下的进行麦克风选择的效果示意图，其中，该手机包括两个麦克风，分别为麦克风a和麦克风b，该手机在免提下进行语音通话，麦克风a采集的语音信号的时域波形如图中的a波形所示，麦克风b采集的语音信号的时域波形如图中的b波形所示，扬声器播放的语音信号的时域波形如图中的c波形所示，目标麦克风的选择结果如图中曲线d所示，其中，该示例中，曲线d中S1所示的结果表示目标麦克风为a，曲线d中S2所示的结果表示目标麦克风为b。该示意图中，横坐标表示时间(图中仅示出了部分时间)，单位为秒(s)，对于波形a至波形c而言，纵坐标表征信号能量大小，具体是信号的幅值。

具体的，该示例中，假设相邻两个时刻的间隔为0.1s，在语音通话的0至1s内，由曲线d可知该时间段内选择麦克风a为目标麦克风，具体选择过程为：对于0至1s该时间段内的任一时刻，例如0.3s，其历史时刻为0.2s，0.2s时刻的实际语音检测结果为：在这一时刻不存在近端语音信号，存在远端语音信号，则确定0.2秒的语音通话状态为远端单讲，则在0.3s应该选择信号能量较小的语音信号所对应的麦克风为目标麦克风，而由波形a和波形b可知，在0.3s麦克风a采集到的语音信号的信号能量小于麦克风b采集到的语音信号的信号能量，则0.3s时应选择麦克风a为目标麦克风。

再例如，在语音通话的1至1.5s，语音信号的实际检测结果为既不存在远端语音信号，也不存在近端语音信号，从图中的波形a和波形b在该时段的波形也可以看出，该时间段内两个麦克风基本都未采集到任何信号，实际检测中也不存在远端语音信号，即未接收到远端语音信号，扬声器未播放语音信号，则可以确定该时间段内各时刻的语音通话状态都为无人讲话状态，那么可以将历史时刻的目标麦克风确定为当前时刻的目标麦克风，即该时段内各时刻仍选择麦克风a为目标麦克风。

再例如，在语音通话的1.5至2.4s这一时段内，由曲线d可知该时段的目标麦克风为麦克风b，其目标麦克风的选择过程为：该时段的实际语音检测结果为：存在近端语音信号，不存在远端语音信号，则可以确定在该时间断内的各时刻的语音通话状态为近端单讲，那么应选择两个麦克风中采集到的语音信号的信号能量较大的麦克风作为该时段内各时刻的目标麦克风，而由波形a和波形b可知，在该时段内麦克风b所采集到的语音信号的能量大于麦克风a所采集到的语音信号的能量，则该时段内各时刻选择麦克风b为目标麦克风。

再例如，在语音通话的3.6至4.6s这一时段内，以第4.1s为例，其对应的历史时刻为4.0s，4.0s所对应的时间检测结果为既存在近端语音信号，也存在远端语音信号，则确定4.0s的语音通话状态为两端对讲，则将历史时刻的目标麦克风确定为当前时刻的目标麦克风，即将4.0s的目标麦克风即麦克风a作为4.1s的目标麦克风。

同样的，基于本申请实施例所提供的方案，可以实现上述示例中语音通话各时刻的目标麦克风的选择，在此不再赘述。而经实验验证，利用本申请提供的方案可以在特定语音通话状态下选取对应的目标麦克风，可以有效提高语音通话效果。

图6为本申请实施例提供的一种语音通话方法的流程示意图，如图6所示，该方法可以包括：

步骤501，接收用户的语音通话触发操作。

其中，语音通话的触发操作是指开启语音通话的指示，可以是用户针对对应的语音通话应用程序的点击操作，也可以是用户通过语音或文字输入开启语音通话的指示。

步骤502，基于所述语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备。

其中，该终端系统的具体设备类型本申请实施例不做限定，只要是能够进行语音通话的设备即可，包括但不限于手机、PAD等。其上设置的音频播放设备可以为扬声器，音频采集设备可以为麦克风，对于音频播放设备和至少两个音频采集设备的具体类型、具体数量、以及音频采集设备在终端系统上的位置，本申请实施例不作限定。

在实际应用中，终端系统可以为语音通话提供相应的交互界面，该交互界面上的相应位置可以显示语音播放设备的图标和至少两个音频采集设备图标，通过图标的颜色或形状等表明对应设备的开启或关闭状态。

步骤503，对于语音通话的初始时刻，将预配置信息所对应的所述至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定所述初始时刻的语音通话状态。

具体的，预配置信息所对应的目标音频采集设备可以预先指定或者任选至少两个音频采集设备中一个音频采集设备，也可以采集现有的目标音频采集设备确定方式来选择，如基于通话场景确定初始时刻的目标音频采集设备。

步骤504，对于语音通话的除初始时刻之外的当前时刻，基于上述实施例提供的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

本申请实施例所提供的语音通话方法，可以适用于任何具有多麦克风(以双麦克风为例)的终端系统的语音通话过程中，例如，可以应用在涉及语音通话场景的相关应用程序中，利用终端系统上的双麦克风抑制通话过程中的回声，增强近端语音音量，提升通话质量。以语音会议应用程序(APP)为例，具体的，如图7所示，打开应用程序中，用户(图中头像代表当前用户)可以进入会议界面，打开麦克风后，即可以开始发言，如图中所示，用户还可以该会议界面邀请(通过点击邀请按钮)其他用户参加该会话，还可以进行屏幕共享、通过打开摄像头进行录像以及进行APP的设置等。此时，用户发言声音会被终端系统上两个麦克风采集到，线上其他用户的声音经过设备播放后，也会被麦克风采集，导致线上其他用户听到自己发言的声音，也就是回声。回声抵消器可以内置于APP中，以消除麦克风采集到的其他用户的回声，只保留本地用户发言的声音，提升会议体验，在语音通话的过程中，即可通过终端系统的双麦克风语音增强模块(具体可以用于确定目标麦克风、语音信号的发送等)实现目标麦克风的选择，并基于所选择的目标麦克风所采集的语音信号，向其他用户的终端系统发送语音信号。需要说明的是，在实际应用中，双麦克风语音增强模块可以伴随麦克风开关打开或关闭，自动打开或关闭，无需用户做类似切换麦克风等其他操作。

对应于本申请实施例所提供的语音通话方法，本申请实施例还提供了一种通话装置，如图8所示，该装置600可以包括通话状态获取模块601、信号能量获取模块602以及目标音频采集设备确定模块603，其中：

通话状态获取模块601用于获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备；

信号能量获取模块602用于获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量；

目标音频采集设备确定模块603用于基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定目标音频采集设备。

本申请实施例提供的语音通话装置，利用历史时刻的语音通话状态，结合各音频采集设备采集的语音信号的信号能量，将特定语音通话状态下更有利于后续的语音增强处理的语音信号对应的音频采集设备确定为当前时刻的目标音频采集设备，目标音频采集设备确定过程中不是仅依赖于各音频采集设备采集到的语音信号的信号能量或近端设备的通话场景，因此避免了现有技术中确定出的目标音频采集设备所采集到的语音信号中回声较大或近端语音较小的问题，提高了语音通话的效果。

可选的，目标音频采集设备确定模块具体用于：

可选的，目标音频采集设备确定模块还用于：

可选的，该装置还包括信号发送模块，该模块用于：

获取当前时刻的远端语音信号；

可选的，当前时刻的回声传播路径函数通过以下方式获得：

图9为本申请实施例提供了一种语音通话装置的结构框图，如图9所示，该装置700可以包括：触发操作接收模块701、设备开启模块702、初始确定模块703以及语音通话模块704，其中：

触发操作接收模块701用于接收用户的语音通话触发操作；

设备开启模块702用于基于语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；

初始确定模块703用于对于语音通话的初始时刻，将预配置信息所对应的至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定初始时刻的语音通话状态；

语音通话模块704用于对于语音通话的除初始时刻之外的当前时刻，基于第一方面、第一方面任一可选实施例或第三方面所提供的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

基于相同的原理，本申请实施例还提供了一种电子设备，该电子设备包括存储器、处理器、音频播放设备、以及至少两个音频采集设备，其中，音频播放设备用于播放语音信号；至少两个音频采集设备用于采集语音信号；存储器中存储有计算机程序；处理器执行该计算机程序时，实现本申请任一可选实施例中所提供的方法，具体可实现如下几种情况：

情况一：获取终端系统历史时刻的语音通话状态，终端系统上设置有至少两个音频采集设备；获取各音频采集设备在当前时刻采集到的第一语音信号，并分别确定各第一语音信号的信号能量；基于历史时刻的语音通话状态、以及各第一语音信号的信号能量，从各音频采集设备中确定当前时刻的目标音频采集设备。

情况二：接收用户的语音通话触发操作；基于语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；对于语音通话的初始时刻，将预配置信息所对应的至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定初始时刻的语音通话状态；对于语音通话的除初始时刻之外的当前时刻，基于情况一所提供的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请任一实施例所示的方法。可以理解的是，存储介质中存储的是语音通话方法对应的计算机程序。

图10中示出了本申请实施例所适用的一种电子设备的结构示意图，如图10所示，图10所示的电子设备800包括：处理器801、存储器803、音频播放设备805和至少两个音频采集设备806。其中，处理器801、音频播放设备805、至少两个音频采集设备806与存储器803相连，如通过总线802相连。进一步地，电子设备800还可以包括收发器804，电子设备800可以通过收发器804与其他电子设备进行数据的交互。需要说明的是，实际应用中收发器804不限于一个，该电子设备800的结构并不构成对本申请实施例的限定。

其中，处理器801应用于本申请实施例中，用于实现图8或图9所示的语音通话装置的功能。

处理器801可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线802可包括一通路，在上述组件之间传送信息。总线802可以是PCI总线或EISA总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器803用于存储执行本申请方案的应用程序代码，并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码，以实现图8或图9所示实施例提供的语音通话装置的动作。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音通话方法，其特征在于，包括：

获取终端系统历史时刻的语音通话状态，所述终端系统上设置有至少两个音频采集设备；

获取各所述音频采集设备在当前时刻采集到的第一语音信号，并分别确定各所述第一语音信号的信号能量；

基于所述历史时刻的语音通话状态、以及各所述第一语音信号的信号能量，从各所述音频采集设备中确定所述当前时刻的目标音频采集设备。

2.根据权利要求1所述的方法，其特征在于，所述历史时刻的语音通话状态是通过以下方式确定的：

确定在所述历史时刻是否存在远端语音信号，得到第一确定结果；

确定在所述历史时刻是否存在近端语音信号，得到第二确定结果；

根据所述第一确定结果和所述第二确定结果，确定所述历史时刻的语音通话状态。

3.根据权利要求2所述的方法，其特征在于，所述确定在所述历史时刻是否存在近端语音信号，包括：

获取所述历史时刻的目标音频采集设备在所述历史时刻采集到的第二语音信号；

对所述第二语音信号进行回声抵消，确定经回声抵消后的所述第二语音信号中是否存在近端语音信号。

4.根据权利要求2所述的方法，其特征在于，所述语音通话状态至少包括远端单讲、近端单讲、两端对讲或无人讲话。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一确定结果和所述第二确定结果，确定所述历史时刻的语音通话状态，包括：

若所述第一确定结果为存在远端语音信号，且所述第二确定结果为不存在近端语音信号，则所述历史时刻的语音通话状态为远端单讲；

若所述第一确定结果为不存在远端语音信号，且所述第二确定结果为存在近端语音信号，则所述历史时刻的语音通话状态为近端单讲；

若所述第一确定结果为存在远端语音信号，且所述第二确定结果为存在近端语音信号，则所述历史时刻的语音通话状态为两端对讲；

若所述第一确定结果为不存在远端语音信号，且所述第二确定结果为不存在近端语音信号，则所述历史时刻的语音通话状态为无人讲话。

6.根据权利要求4所述的方法，其特征在于，所述基于所述历史时刻的语音通话状态、以及各所述第一语音信号的信号能量，从各所述音频采集设备确定所述当前时刻的目标音频采集设备，包括：

若所述历史时刻的语音通话状态为远端单讲，则将信号能量最小的第一语音信号对应的音频采集设备确定为所述当前时刻的目标音频采集设备；

若所述历史时刻的语音通话状态为近端单讲，则将信号能量最大的第一语音信号对应的音频采集设备确定为所述当前时刻的目标音频采集设备；

若所述历史时刻的语音通话状态为两端对讲或无人讲话，则将历史时刻的目标音频采集设备确定为所述当前时刻的目标音频采集设备。

7.根据权利要求6所述的方法，其特征在于，若所述历史时刻的语音通话状态为远端单讲，所述方法还包括：

确定所述当前时刻之前语音通话状态连续为远端单讲的次数；

若所述次数大于设定值，则将所述当前时刻的目标音频采集设备确定为所述当前时刻之后的目标音频采集设备。

8.根据权利要求1至7中任一项所述的方法，其特征在于，还包括：

对所述当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消；

若经回声抵消的第一语音信号中存在近端语音信号，则将所述经回声抵消后的第一语音信号发送至语音通话的对端设备。

9.根据权利要求8所述的方法，其特征在于，所述对所述当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消，具体包括：

获取所述当前时刻的远端语音信号；

基于所述当前时刻的远端语音信号和所述当前时刻的回声传播路径函数，确定所述当前时刻的目标音频采集设备采集到的第一语音信号中的回声信号；

基于所述回声信号对所述当前时刻的目标音频采集设备采集到的第一语音信号进行回声抵消。

10.根据权利要求9所述的方法，其特征在于，所述当前时刻的回声传播路径函数通过以下方式获得：

对所述历史时刻的目标音频采集设备采集到的第二语音信号进行回声抵消，得到所述历史时刻的残留回声信号；

基于所述历史时刻的残留回声信号，对所述历史时刻的回声传播路径函数进行更新，得到所述当前时刻的回声传播路径函数。

11.一种语音通话方法，其特征在于，包括：

接收用户的语音通话触发操作；

基于所述语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；

对于语音通话的初始时刻，将预配置信息所对应的所述至少两个音频采集设备中的一个音频采集设备作为目标音频采集设备，并确定所述初始时刻的语音通话状态；

对于语音通话的除初始时刻之外的当前时刻，基于权利要求1至10中任一项所述的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

12.一种语音通话装置，其特征在于，包括：

通话状态获取模块，用于获取终端系统历史时刻的语音通话状态，所述终端系统上设置有至少两个音频采集设备；

信号能量获取模块，用于获取各所述音频采集设备在当前时刻采集到的第一语音信号，并分别确定各所述第一语音信号的信号能量；

目标音频采集设备确定模块，用于基于所述历史时刻的语音通话状态、以及各所述第一语音信号的信号能量，从各所述音频采集设备中确定目标音频采集设备。

13.一种语音通话装置，其特征在于，包括：

触发操作接收模块，用于接收用户的语音通话触发操作；

设备开启模块，用于基于所述语音通话触发操作，开启终端系统上的音频播放设备和至少两个音频采集设备；

初始确定模块，用于对于语音通话的初始时刻，将预配置信息所对应的所述至少两个音频采集设备中的音频采集设备作为目标音频采集设备，并确定所述初始时刻的语音通话状态；

语音通话模块，用于对于语音通话的除初始时刻之外的当前时刻，基于权利要求1至10中任一项所述的方法所确定出的目标音频采集设备所采集的语音信号，与对端设备进行语音通话。

14.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、音频播放设备和至少两个音频采集设备；

所述音频播放设备，用于播放语音信号；

所述至少两个音频采集设备，用于采集语音信号；

所述存储器中存储有计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法。