CN116055626B

CN116055626B - 一种通话方法、终端和存储介质

Info

Publication number: CN116055626B
Application number: CN202210937883.3A
Authority: CN
Inventors: 玄建永; 刘镇亿
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2023-10-20
Anticipated expiration: 2042-08-05
Also published as: CN116055626A

Abstract

本申请提供了一种通话方法和终端。在该方法中，可以在终端通过通话类应用与其他终端进行通信之前，基于预测环境类型确定预测通话模式，在终端开始通信之后，可以使用该预测通话模式作为通信开始之后的第一个通话模式，基于该预测通话模式处理下行音频信号，得到与当前通话环境相匹配的待播放音频信号。后续，终端再基于通话环境类型重新确定通话模式。基于该重新确定的通话模式更新通话模式，使得通话过程中终端播放的待播放音频信号与通话环境匹配，该过程可以参考前述内容的描述，后续不再赘述。该预测通话模式可以为前述涉及的安静模式、普通模式以及嘈杂模式中的一个。

Description

一种通话方法、终端和存储介质

技术领域

本申请涉及终端及通信技术领域，尤其涉及一种通话方法和终端。

背景技术

随着科技发展，手机等终端的功能逐渐完善。目前，部分终端支持通过通话类应用与其他终端进行通信。在该通信过程中，终端可以设置通话算法实现与其他终端间的通信。例如，通话算法中可以包括通话下行涉及的算法以及通话上行涉及的算法。其中，通话下行是指终端接收其他终端发送给本机的音频信号(也可以被称为下行音频信号)之后，终端将该下行音频信号进行第一处理得到待播放音频信号，并可以通过发声器等将该待播放音频信号进行播放。通话上行是指终端通过麦克风采集音频信号(也可以被称为上行音频信号)，并对该上行音频信号进行第二处理，生成待发送音频信号，然后将该待发送音频信号发送给其他终端。

其中，第一处理使用的算法为通话下行涉及的算法，第二处理使用的算法为通话上行涉及的算法。

近年来，如何使得终端基于下行音频信号得到更符合预期的待播放音频信号是值得研究的方向。

发明内容

本申请提供了一种通话方法和终端，基于通话开始之前的环境类型得到预测通话模式，在开始通话(即通信)之后，将该预测通话模式作为通话过程中第一个使用的通话模式。

第一方面，本申请提供了一种通话方法，在一些实施例中，应用于包括第一通话类应用的终端，所述方法包括：在通过第一通话类应用与其他终端进行通信之前，所述终端获取第一环境音频信号；所述第一环境音频信号中包括噪声；所述终端基于所述第一环境音频信号确定所述噪声的长时能量；所述噪声的长时能量为一段时间内噪声的能量；所述终端基于所述噪声的长时能量确定预测环境类型为第一环境类型；所述预测环境类型用于描述所述通信开始之前，所述终端所处环境的嘈杂程度；在所述终端通过所述第一通话类应用与其他终端进行通信之后，所述终端将所述第一环境类型对应的第一通话模式作为所述通信中的第一个通话模式；所述终端基于所述第一通话模式对应的参数对下行音频信号进行处理，得到与所述第一通话模式对应的待播放音频信号；所述下行音频信号为所述通信过程中，所述终端接收的所述其他终端发送的音频信号；所述终端播放所述待播放音频信号。

在上述实施例中，第一通话类应用即是安装在终端中的通话类应用。本方案中，可以在终端通过通话类应用与其他终端进行通信之前，基于预测环境类型确定预测通话模式，在终端开始通信(即通过通话类应用进行通信之后)之后，可以使用该预测通话模式作为通信开始之后的第一个通话模式，基于该预测通话模式处理下行音频信号，得到与当前通话环境相匹配的待播放音频信号。后续，终端再基于通话环境类型重新确定通话模式。基于该重新确定的通话模式更新通话模式，使得通话过程中终端播放的待播放音频信号与通话环境匹配。该预测通话模式可以为前述涉及的安静模式、普通模式以及嘈杂模式中的一个。

结合第一方面，在一种实施方式中，在通过所述第一通话类应用与其他终端进行通信之前，所述终端获取第一环境音频信号，具体包括：所述终端处于第一状态之前，第一时刻，所述终端获取第一环境音频信号；所述第一状态包括：所述终端通过所述第一通话类应用向所述其他终端发送第一通信请求之后，且确定所述其他终端响应所述第一通话请求之前的状态，以及接收到所述其他终端通过第二通话类应用发送的第二通信请求且未响应所述第二通信请求的状态；所述终端基于所述噪声的长时能量确定预测环境类型为第一环境类型之后，所述方法还包括：所述终端将已记录的预测环境类型更新为所述第一环境类型；其中，所述已记录的预测环境类型为所述终端基于L次更新之后确定的预测环境类型；所述L次更新中包括第一更新，所述第一更新包括：确定未与其他终端建立通信连接的情况下，第二时刻，所述终端获取第二环境音频信号，基于所述第二环境音频信号确定第二环境类型，将所述已记录的预测环境类型更新为所述第二环境类型；所述第二时刻与所述第一时刻相隔R个第一时长；所述L为整数，所述R为小于等于所述L的整数；所述第二环境类型与所述第一环境类型可以相同也可以不同所述终端将所述第一环境类型对应的第一通话模式作为所述通信中的第一个通话模式，具体包括：所述终端确定已记录的预测环境类型为第一环境类型；所述终端将所述第一环境类型对应的第一通话模式作为所述通信中的第一个通话模式。

在上述实施例中，该第一状态即为终端未与其他终端建立通信的情况下。此时，终端可以在确定没有与其他建立通信的情况下，就开始确定预测环境类型，并且不断更新还预测环境类型。在开始通信之后，终端则基于最近一次确定的预测环境类型确定预测通话环境类型。该最近一次确定的预测环境类型是通过第一时刻获取的第一环境音频信号确定的。

结合第一方面，在一种实施方式中，在通过所述第一通话类应用与其他终端进行通信之前，所述终端获取第一环境音频信号，具体包括：在检测到针对第一控件的操作之后，响应于该操作，所述终端通过所述通信类应用向所述其他终端发起第一通信请求；在确定其他终端响应所述第一通信请求之前，所述终端获取所述第一环境音频信号。

在上述实施例中，第一控件可以被拨号控件，该实施中描述了终端作为主叫方设备时获取第一环境音频信号的时机，即为检测到针对拨号控件之后，确定其他终端响应该第一通信请求之前。这时，终端与其他终端处于拨号过程中，终端还没有正式通过通话类应用与其他终端开始通信。

结合第一方面，在一种实施方式中，在通过所述第一通话类应用与其他终端进行通信之前，所述终端获取第一环境音频信号，具体包括：所述终端显示第一界面之后，在检测到针对第二控件的操作之前，所述终端获取所述第一环境音频信号。

在上述实施例中，第一界面可以看作来电提示界面(或者也可以被称为来电显示界面)。第二控件可以看作接听控件，该实施例中终端作为被叫方设备时获取第一环境音频信号的时机，此时，终端在接收到其他终端发送的通信请求(第二通信请求)之后就可以显示来电提示界面。这时，终端与其他终端处于拨号过程中，终端还没有正式通过通话类应用与其他终端开始通信。在检测到针对拨号控件的操作之后，即可响应该第二通信请求。

结合第一方面，在一种实施方式中，所述终端基于所述第一环境音频信号确定所述噪声的长时能量之前，所述方法还包括：所述终端对所述第一环境音频信号进行语音获得检测，确定所述第一环境音频信号不为人声。

在上述实施例中，在第一环境音频信号为人声时(即第一环境音频信号中主要为人声)，则因为人声的能量较大，会对预测环境类型的确定产生干扰导致结果不准确。则可以在第一环境音频信号为人声时，不利用该环境音频信号确定预测环境类型，避免不准确。

结合第一方面，在一种实施方式中，所述终端获取第一环境音频信号，具体包括：在确定其他终端响应所述第一通信请求之前，所述终端通过麦克风采集音频信号得到第一音频信号；在所述终端播放第一铃声的情况下，所述终端获取第一参考音频信号；所述第一铃声用于提示所述其他终端接受到所述第一通信请求；所述终端基于所述第一参考音频信号估计出第一回声；所述第一回声为所述终端在播放所述第一铃声时，所述第一铃声被所述终端采集后对应的声音信号；所述终端从所述第一音频信号中除去所述第一回声得到所述第一环境音频信号。

在上述实施例中，第一铃声可以看作实施例中涉及的回铃音。麦克风采集的音频信号中包括第一回声(播放回铃音时终端采集的音频信号)时，该第一回声中包括了能量却不是环境音频信号中的能量，则会影响预测环境类型的准确性，则除去该第一回声可以体改预测环境类型的准确性。

结合第一方面，在一种实施方式中，所述终端获取第一环境音频信号，具体包括：所述终端显示第一界面之后，在检测到针对所述第二控件的操作之前，所述终端通过麦克风采集音频信号得到第一音频信号；在所述终端播放第二铃声的情况下，所述终端获取第二参考音频信号；所述第二铃声用于提示所述终端存在来电；所述终端基于所述第二参考音频信号估计出第二回声；所述第二回声为所述终端在播放所述第二铃声时，所述第二铃声被所述终端采集后对应的声音信号；所述终端从所述第一音频信号中除去所述第二回声得到所述第一环境音频信号。

在上述实施例中，第二铃声可以看作实施例中涉及的来电铃音。麦克风采集的音频信号中包括第二回声(播放来电铃音时终端采集的音频信号)时，该第二回声中包括了能量却不是环境音频信号中的能量，则会影响预测环境类型的准确性，则除去该第二回声可以体改预测环境类型的准确性。

结合第一方面，在一种实施方式中，所述第一环境音频信号为频域上的音频信号，所述第一环境音频信号中还包括人声，所述第一环境音频信号中包括Y帧音频信号，其中每一帧音频信号中都包括X个频点，每个频点的信息包括频点的能量；所述终端基于所述第一环境音频信号确定所述噪声的长时能量，具体包括：所述终端基于所述人声的频点能量分布规律确定所述第一环境音频信号中每个频点对应的音频信号为所述人声的概率；所述终端基于所述每个频点对应的音频信号为所述人声的概率确定每个频点对应的平滑因子；所述终端基于所述每个频点对应的平滑因子将所述每个频点的能量进行平滑之后求和，得到所述噪声的长时能量。

结合第一方面，在一种实施方式中，所述预测环境类型包括安静、普通及嘈杂；其中，所述预测环境类型为安静时与所述预测环境类型为普通或者嘈杂时相比，安静时所述噪声的长时能量比普通或者嘈杂时小；所述预测环境类型为嘈杂时与所述预测环境类型为安静或者普通时相比，嘈杂时所述噪声的长时能量比安静或者普通时大。

结合第一方面，在一种实施方式中，在所述预测环境类型为嘈杂的情况下，所述第一通话模式为嘈杂模式；在所述预测环境类型为安静的情况下，所述第一通话模式为安静模式；在所述预测环境类型为普通的情况下，所述第一通话模式为普通模式。

结合第一方面，在一种实施方式中，所述嘈杂模式、所述安静模式以及所述普通模式相比：在所述安静模式下，所述待播放音频信号的能量最小；在所述嘈杂模式下，所述待播放音频信号的能量最大。

第二方面，本申请提供了一种终端，该终端包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该终端执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第三方面，本申请实施例提供了一种芯片系统，该芯片系统应用于终端，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该终端执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第四方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在终端上运行时，使得该终端执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，当该指令在终端上运行时，使得该终端执行如第一方面或第一方面的任意一种实施方式所描述的方法。

附图说明

图1示出了一种方案中通话方法的一个示意图；

图2A以及图2B示出了另一种方案中通话方法的一个示意图；

图3示出了一种实施例中确定预测通话模式的一种示例性流程图；

图4A-图4B描述了终端与其他终端通过通话类应用与其他终端建立通信连接的过程；

图5示出了包括人声的一种语谱图；

图6示出了终端确定X个横向长时能量的示意图；

图7示出了终端与其他终端进行通信时涉及的示意性用户界面；

图8示出了一种实施例中确定预测通话模式的另一种示例性流程图；

图9示出了另一种实施例中终端确定预测通话模式的另一种示例性流程图；

图10是本申请实施例提供的终端的结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了便于理解本方案，下面首先对本申请实施例中的相关术语进行解释。

(1)通话模式

常见的通话模式可以包括安静模式、普通模式以及嘈杂模式。还可以包括其他的模式，也可以包括更少的模式，例如包括安静模式、普通模式以及嘈杂模式中的任意两个。

其中，安静模式为终端在确定周围环境噪声的长时能量较小(小于或者等于第一能量阈值)时对应选择的通话模式。

嘈杂模式为终端在确定周围环境噪声的长时能量较大(大于或者等于第二能量阈值)时对应选择的通话模式。

普通模式为终端在确定周围环境噪声的长时能量介于第一能量阈值与第二能量阈值之间时对应选择的通话模式。

其中，噪声的长时能量为一段时间(例如1s-30s等时间段)内噪声的能量。

不同的通话模式下，终端可以设置不同的参数对下行音频信号进行处理，得到不同的待播放音频信号，其中，不同可以包括音色和/或音量不同的待播放音频信号，然后利用发声器播放该待播放音频信号。

在一些可能的情况下，该待播放音频信号中可以包括左声道音频信号以及右声道音频信号，终端可以基于第一发声器播放其中一个声道对应的音频信号，例如左声道音频信号，且，基于第二发声器播放另一个声道对应的音频信号，例如右声道音频信号。该左声道音频信号以及右声道音频信号可以相同也可以不相同。不相同时，具体可以是音色不同、也可以是音量不同，还可以是音色以及音量都不同。

在另一些可能的情况下，该待播放音频信号中也可以包括一路音频信号，终端可以利用一个发声器来播放该路音频信号。例如，在安静模式下，待播放音频信号的音量可以为第一音量；普通模式下，待播放音频信号的音量可以为第二音量；嘈杂模式下，待播放音频信号的音量可以为第三音量。其中，第一音量小于第二音量，第二音量小于第三音量。则可以理解为，待播放音频信号从安静模式到普通模式再到嘈杂模式能量逐渐变小，则听起来逐渐变小。

本申请实施例以通话模式包括安静模式、普通模式以及嘈杂模式为例进行说明。

一种方案中，终端在通过通话类应用与其他终端进行通信的过程中，终端可以基于通话环境类型确定通话模式。但是，在两个终端刚开始进行通信的初始时间内(大概2-5s)，终端可以基于默认通话模式进行通信，默认通话模式可以设置为安静模式、普通模式以及嘈杂模式中的一个，通常设置为普通模式。后续，终端可以再基于通话环境类型确定通话模式，将通话模式更新为该确定的通话模式。

其中，通话环境类型可以用于描述通信时，终端周围环境中噪声的长时能量大小。通话环境类型可以分为安静、普通及嘈杂。通信过程中，在周围环境噪声的长时能量较小(小于或者等于第一能量阈值)的情况下，终端可以确定通话环境类型为安静；通信过程中，在周围环境噪声的长时能量介于第一能量阈值与第二能量阈值之间的情况下，终端可以确定通话环境类型为普通。通信过程中，在周围环境噪声的长时能量较大(大于或者等于第二能量阈值)的情况下，终端可以确定通话环境类型为嘈杂。不同的通话环境类型对应不同的通话模式，具体的，通话环境类型为嘈杂时对应的通话模式为嘈杂模式，通话环境类型为安静时对应的通话模式为安静模式，通话环境类型为普通时对应的通话模式为普通模式。

终端确定周围环境中噪声的长时能量大小的方式为：在两个终端进行通信的过程中，终端可以通过麦克风持续采集音频信号(后文中可以称为通信中音频信号)，终端可以分析该通话中音频信号包括的噪声的长时能量大小。将该通话中音频信号包括的噪声的长时能量作为通信中环境噪声的长时能量。其中，终端持续采集通信中音频信号的时间可以设置为2s-5s等，也可以设置为其他的时间，本申请实施例对此不作限定。

在一种可能的情况下，在两个终端进行通信的过程中，终端可以按照预设频率(每10s一次)确定通话环境类型，再基于该通话环境类型确定通话模式。确定出的通话模式与当前使用的通话模式不相同的情况下，终端可以将当前使用的通话模式更新为该确定出的通话模式。

应该理解的是，设置默认通话模式的原因在于：在两个终端刚开始进行通信的初始时间内，终端处于计算通话环境类型的过程中，即初始时间内，终端还没有确定出通话环境类型。

为了便于描述和理解，本申请实施例可以将终端在通过通话类应用与其他终端进行通信的过程简称为通信。两个终端在通信时，持有其他终端的用户的声音信号可以被该其他终端采集得到上行音频信号，在处理后传输至终端，且，持有终端的用户的声音信号也可以被终端采集得到上行音频信号，在处理后传输至其他终端。

图1示出了一种方案中通话方法的一个示意图。

如图1所示，通话下行的过程中，终端首先可以通过默认通话模式与其他终端进行通信，通常情况下，该默认通话模式可以为普通模式。后续，终端可以通过麦克风采集的音频信号(通信中音频信号)确定通话环境类型，基于该通话环境类型重新确定通话模式。在该重新确定的通话模式下，终端可以通过通话下行处理模块对下行音频信号进行处理，得到符合该重新确定的通话模式的待播放音频信号。例如，在该重新确定的通话模式为嘈杂模式的情况下，终端生成的待播放音频信号的能量较大，使得播放该待播放音频信号时用户可以拾音清晰。

这里以待播放音频信号中包括左声道音频信号以及右声道音频信号为例进行说明。终端可以将左声道音频信号经过第一功率放大器进行功率放大，驱动第一发声器播放该左声道音频信号。以及，终端可以将右声道音频信号经过第二功率放大器进行功率放大，驱动第二发声器播放该右声道音频信号。

通话上行的过程中，终端可以对上行音频信号进行回声消除。具体的，终端可以通过双器件通话上行处理模块中的回声消除算法利用第一功率放大器输出的参考信号以及第二功率放大器输出的参考信号估计出回声，然后，从上行音频信号中除去该回声，得到待传输音频信号，然后发送至其他终端。

该方案中，由于在终端与其他终端刚开始进行通信的初始时间内，使用的是默认通话模式进行通信，则在终端第一次确定的通话模式与该默认通话模式不同的情况下，终端则会将通话模式从默认通话模式切换为该第一次确定的通话模式，会导致待播放音频信号变大或者变小，影响用户听感。例如，在默认通话模式为普通模式的情况下，此时，待播放音频信号的音量为第二音量。后续，在第一次确定的通话模式为安静模式的情况下，此时，待播放音频信号的音量为第一音量。第一音量小于第二音量，则会导致用户听到的播放后的待播放音频信号从大音量(第一音量)变为小音量。可以理解的是，如果安静环境中音量较大，则会导致用户信息泄露。再例如，在默认通话模式为普通模式的情况下，此时，待播放音频信号的音量为第二音量。后续，在第一次确定的通话模式为嘈杂模式的情况下，此时，待播放音频信号的音量为第三音量。第二音量小于第三音量，则会导致用户初始时间内听到的播放后的待播放音频信号从音量较小。可以理解的是，嘈杂环境中如果是小音量则可能会导致用户拾音不清晰。

这意味着，在一些可能的情况下，通信过程的初始时间内使用的默认通话模式不是与通话环境对应的通话模式，因此，在通信的初始时间内采取默认通话模式进行通话时会导致默认通话模式与当前通话环境不匹配，使得在默认通话模式下得到的待播放音频信号不符合当前通话环境，影响用户体验感。

另一种方案中，提供了一种通话方法，可以在终端通过通话类应用与其他终端进行通信之前，基于预测环境类型确定预测通话模式，在终端开始通信之后，可以使用该预测通话模式作为通信开始之后的第一个通话模式，基于该预测通话模式处理下行音频信号，得到与当前通话环境相匹配的待播放音频信号。后续，终端再基于通话环境类型重新确定通话模式。基于该重新确定的通话模式更新通话模式，使得通话过程中终端播放的待播放音频信号与通话环境匹配，该过程可以参考前述内容的描述，后续不再赘述。该预测通话模式可以为前述涉及的安静模式、普通模式以及嘈杂模式中的一个。

其中，预测环境类型可以用于描述通信之前，终端所处环境的嘈杂程度，例如终端周围环境中噪声的长时能量大小。该预测环境类型可以分为安静、普通及嘈杂。通信之前，在环境噪声的长时能量较小(小于或者等于第一预设阈值)的情况下，终端可以确定预测环境类型为安静；通信之前，在环境噪声的长时能量介于第一预设阈值与第二预设阈值之间的情况下，终端可以确定预测环境类型为普通。在环境噪声的长时能量较大(大于或者等于第二预设阈值)的情况下，终端可以确定预测环境类型为嘈杂。不同的预测环境类型对应不同的通话模式，具体的，预测环境类型为嘈杂时对应的预测通话模式为嘈杂模式，预测环境类型为安静时对应的预测通话模式为安静模式，预测环境类型为普通时对应的预测通话模式为普通模式。

终端可以在通信之前，通过麦克风持续采集音频信号(后文中可以称为通信前音频信号)。然后，终端可以分析该通信前音频信号中包括的噪声的长时能量大小。将该通信前音频信号中包括的噪声的长时能量大小作为通信前环境噪声的长时能量。其中，终端持续采集通信中音频信号的时间可以设置为1s-10s等，也可以设置为其他的时间，本申请实施例对此不作限定。

其中，噪声包括通信前音频信号中除人声以及回声以外的其他声音信号。人声是指终端周围预设范围内的人声，例如该预设范围可以为距离终端3m-5m内的人声，该人声对应的音频信号有一定的规律，可以参考下文的描述，此处暂不赘述。回声是指终端在播放音频信号时，该音频信号被终端采集后对应的声音信号。

图2A以及图2B示出了另一种方案中通话方法的一个示意图。

如图2A所示，在通信之前，终端首先基于通话算法预测环境类型确定出预测通话模式，然后，在通话下行开始之后，终端将该预测通话模式作为通信过程中的第一个通话模式。且，开始通信之后，终端可以开始基于通话环境类型重新确定通话模式。然后将该预测通话模式更新为该重新确定的通话模式。在该重新确定的通话模式下，终端可以通过通话下行处理模块对下行音频信号进行处理，得到符合该重新确定的通话模式的待播放音频信号。例如，在该重新确定的通话模式为嘈杂模式的情况下，终端生成的待播放音频信号的能量较大，使得播放该待播放音频信号时用户可以拾音清晰。在一些可能的情况下，该通话算法可以置于音频数字信号处理器(ADSP)中。其中，通话算法中包括通话下行涉及的算法以及通话上行涉及的算法，该通话下行涉及的算法以及通话上行涉及的算法都可以包括降噪、音色调整以及音量调整等算法中的一个或多个。例如，音量调整可以对下行音频信号或者上行音频信号中的能量进行调整，使得终端得到的待播放音频信号或者待发送音频信号中的能量变大或者变小，在通信情况下，能量变大则听起来声音变大，能量变小则听起来声音变小。

这里以待播放音频信号中包括左声道音频信号以及右声道音频信号为例进行说明。终端可以将左声道音频信号经过第一功率放大器进行功率放大，驱动第一发声器播放该左声道音频信号。以及，终端可以将右声道音频信号经过第二功率放大器进行功率放大，驱动第二发声器播放该右声道音频信号。如图2B所示，终端包括第一发声器以及第二发声器，终端可以利用第一发声器播放该左声道音频信号，以及，可以利用第二发声器播放该右声道音频信号。终端同时使用两个发声器播放待播放音频信号的过程可以被称为双单元发声。

该方案中，终端在通信开始之前就可以确定预测通话模式，在开始通信的初始时间内，终端没有基于通话环境类型确定通话模式之前，终端可以基于该预测通话模式进行通信。这样，在通信的初始时间内，终端基于该预测通话模式对下行音频信号进行处理得到的待播放音频信号可以匹配当前通话环境。

图3示出了一种实施例中确定预测通话模式的一种示例性流程图。

在一些实施例中，终端在通过通话类应用与其他终端建立通信连接的过程中，终端可以通过N个麦克风采集音频信号得到第一音频信号，该第一音频信号为一种通信前音频信号，然后终端除去第一音频信号中的回声得到环境音频信号。在排除人声干扰的情况下，确定该环境音频信号中环境噪声对应的长时能量，再基于该环境噪声对应的长时能量确定预测环境类型，进而基于预测环境类型确定预测通话模式。然后，在终端与其他终端开始通话之后，将该预测通话模式作为通信时使用的第一个通话模式。

应该理解的是，在一些可能的情况下，终端在通过通话类应用与其他终端建立通信连接的过程中，可以作为主叫方设备，其他终端作为被叫方设备。在另一些可能的情况下，终端在通过通话类应用与其他终端建立通信连接的过程中，可以作为被叫方设备，其他终端作为主叫方设备。其中，主叫方设备是指发起建立通信连接请求的设备，被叫方设备是指接收到建立通信连接请求的设备。

下面以终端作为主叫方设备，其他终端作为被叫方设备时对终端确定预测环境模式的过程进行描述。该过程的详细流程可以参考下述对步骤S101-步骤S108的描述。

S101.在检测到针对拨号控件的操作之后，响应于该操作，终端向其他终端发起通信请求。

步骤S101涉及终端通过通话类应用与其他终端建立通信连接的过程。对该过程的描述可以参考下述对图4A-图4B的描述。

检测到打开通信类应用的操作(该操作图中未示出)，终端可以显示如图4A所示的用户界面10，此时，终端与其他终端还未开始建立通信连接。该用户界面10中可以包括拨号控件101，该拨号控件101可以用于触发终端通过通话类应用向其他终端发起通信请求。

检测到针对拨号控件101的操作，响应于该操作，终端可以向其他终端发起通信请求。此时，终端可以显示如下图所示的用户界面11。

如图4B中的(1)所示，用户界面11为终端建立通信连接的过程中涉及的示例性用户界面。其他终端在接收到终端发送的通信请求之后，可以显示来电提示界面，以通知用户存在来电。且在显示来电提示界面的过程中，还可以存在其他提示，例如播放来电铃音，也可以是震动等。例如，可以显示如图4B中(2)所示的用户界面20，该用户界面20为建立通信连接的过程中，其他终端所显示的一个示例性来电提示界面。该用户界面20中包括接听控件201，该接听控件201可以用于触发其他终端开启与终端之间的通信。即，在检测到针对接听控件201的操作之后，响应于该操作，其他终端可以响应终端的通信请求，开启与终端间的通信。其中，来电铃音可以用于提示终端存在来电。

应该理解的是，前述涉及的拨号控件101只是一种示意性拨号控件，在实际操作中，该拨号控件还可以是其他的形状，也可以是其他的形式，例如文字等。图4B中(2)示出的是其他终端响应终端的一种示例性方式，还可以为其他的方式，例如语音控制该其他终端响应终端的通信请求等。

S102.在确定其他终端响应该通信请求之前，终端通过N个麦克风采集音频信号，得到第一音频信号。

步骤S102中，终端采集音频信号的时机可以记为时机1。该时机1为：终端响应于针对拨号控件的操作向其他终端发起通信请求之后，且确定其他终端响应该通信请求之前。时机1也可以看作终端在等待其他终端接通的过程。

在时机1下，终端通过N个麦克风采集的音频信号可以被称为第一音频信号。该第一音频信号中可以包括Y帧音频信号，其中Y为大于等于1的整数。N为大于等于1的整数。

在一些可能的情况下，该第一音频信号中除了可以包括环境噪声以外，还可以包括人声或者回声中的一个或多个。

其中，回声是指终端在播放音频信号时，该音频信号被终端采集后对应的声音信号。该音频信号可以为终端在等待其他终端接通时，终端播放的回铃音(例如其他终端设置的彩铃等)。例如，在终端响应于针对拨号控件的操作向其他终端发起通信请求之后，且确定其他终端响应该通信请求之前，即时机1下，终端播放的音频信号可以被称为回铃音，该回铃音可以用于提示用户其他终端已经接受到通信请求。关于该回声的更多内容可以参考下述对步骤S103的描述，此处不再赘述。

人声包括终端周围预设范围内的人声，该预设范围可以为距离终端3m-5m内的人声，例如3m。该人声对应的音频信号具有一定的规律(人声中连续频点的能量变化存在规律)，具体可以参考下述对图5的描述。

图5示出了包括人声的一种语谱图。

语谱图可以用于展示频域上的音频信号，可以由时域上的音频信号转换而来。语谱图的横坐标表示时间，纵坐标表示频率。其中的每一个点都可以被称为频点。每个频点的颜色的明暗程度表示该时刻该频率的音频信号的能量大小。其中，能量的单位为分贝(decibel，dB)，表示该频点对应的音频数据的分贝大小。

如图5所示，人声与环境噪声的频点能量分布规律不同。例如，人声对应的语谱图可以如区域101或者区域102中的语谱图片段所示，具体可以表现为：横轴上，连续频点的能量变化存在规律，例如连续频点的能量变化且有起伏，且通常能量较大。区域103中示出的语谱图片段变化规律与人声对应的语谱图变化规律不同，不是人声，可以看作一种环境噪声。该区域103中示出的语谱图片段变化规律可以表现为：能量的变化不连续杂乱不存在规律，且部分噪音能量较低，部分噪音能力较高。

由于人声与环境噪声的频点能量分布规律不同，人声的频点能量存在一定规律，因此终端可以对音频信号进行检测，确定出音频信号中包括的人声。

S103.在确定其他终端响应该通信请求之前，终端获取参考音频信号，基于该参考音频信号估计出回声。

该步骤S103是可选的。

终端获取参考音频信号的时机可以为时机2，该时机2为：终端响应于针对拨号控件的操作向其他终端发起通信请求之后，且确定其他终端响应该通信请求之前，终端播放回铃音的过程中。即步骤S103发生在建立通信连接过程中终端播放回铃声的情况下。

其中，关于回铃音的描述可以参考前述步骤S102中对回铃音的相关描述，此处不再赘述。

终端可以获取功率放大器输出的音频信号作为参考音频信号。在时机2下，被功率放大的音频信号可以为前述涉及的回铃音。

应该理解的是，功率放大器用于将音频信号进行功率放大，驱动发声器播放该音频信号以使得用户可以听音。发声器播放的音频信号被终端的麦克风采集即可以导致回声。

终端可以基于参考音频信号估计出回声信号。例如，终端可以结合传递函数(或者被称为设备相关传递函数)基于参考音频信号估计出回声，具体可以参考下述公式(1)。

公式(1)中，表示回声，h表示参考音频信号到回声的传递函数。x(t,f)表示频域上的参考音频信号，其中，t表示帧，f表示频点。

S104.终端从第一音频信号中除去该回声，得到环境音频信号，该环境音频信号中包括环境噪声，或者，还可以包括人声。

该步骤S104是可选的，在步骤S103未执行的情况下，终端可以不执行该步骤S104。

在未执行步骤S104的情况下，终端可以将第一音频信号作为环境音频信号然后执行下述步骤S105。

环境音频信号为第一音频信号中环境噪声以及人声对应的那部分音频信号。

环境音频信号中可以包括Y帧音频信号。该环境音频信号可以表示为频域上的音频信号，该环境音频信号中的每一帧音频信号都可以表示为X(X为2的整数次方)个频点，例如，X可以为1024、2048等，具体大小可以由终端的计算能力决定。该X个频点用于表示一定频率范围内的音频信号，例如0khz-6khz之间，也可以为其他的频率范围。也可以理解为，频点指代的是在对应频率上的音频信号的信息，包含的信息包括时间，频率(声音信号的频率)，以及能量，即声音信号的能量(分贝)。

终端可以从第一音频信号中除去回声得到环境音频信号。在一些可能的情况下，终端得到环境音频信号的过程可以参考下述公式(2)。

公式(10)中，x_2-d表示环境音频信号，x₂表示第一音频信号，表示回声。

S105.在排除人声干扰的情况下，终端确定该环境音频信号中环境噪声对应的长时能量。

环境噪声对应的长时能量即为环境噪声的长时能量。其可以用于描述环境中噪声的长时能量大小。其中，噪声的长时能量为一段时间(例如1s-30s等时间段)内噪声的能量。

基于前述描述，环境音频信号中包括Y帧音频信号，其中的每一帧音频信号可以表示为X(X为2的整数次方)个频点，例如，X可以为1024、2048等。

在一种可能的情况下，终端可以基于最小统计量控制递归平均(improved minimacontrolled recursive averaging，IMCRA)算法来确定该环境音频信号中环境噪声对应的长时能量。该过程如下：

首先，终端可以基于人声的频点能量分布规律确定该环境音频信号中每个频点对应的音频信号为人声的概率。其中，环境音频信号中第i帧音频信号中第k个频点对应的音频信号为人声的概率记为p(i,k)。p(i,k)越大，表示第i帧音频信号中第k个频点对应的音频信号为人声的概率的越大。p(i,k)可以大于等于0或者小于等于1。在p(i,k)等于1时，表示第i帧音频信号中第k个频点对应的音频信号为人声；在p(i,k)等于0时，表示第i帧音频信号中第k个频点对应的音频信号不为人声；在p(i,k)大于0.5时，表示第i帧音频信号中第k个频点对应的音频信号为人声的可能性更大，在p(i,k)小于0.5时，表示第i帧音频信号中第k个频点对应的音频信号不为人声的可能性更大。

然后，终端可以基于环境音频信号中每个频点对应的音频信号为人声的概率确定不同频点对应的平滑因子。其中，环境音频信号中第i帧音频信号中第k个频点(记为频点1)对应的音频信号为人声的概率(记为频点1对应的概率)可以用于确定该频点1对应的平滑因子。该频点1对应的概率越大，则频点1对应的平滑因子越大。不同频点对应的平滑因子可以用于描述不同频点的能量对环境噪声对应的长时能量的贡献。一个频点对应的平滑因子越大，该频点的能量对环境噪声对应的长时能量贡献越大。

其中，终端基于频点1对应的概率确定频点1对应的平滑因子的公式可以参考下述相关公式(3)。

公式(3)中，为环境音频信号中第i帧音频信号中第k个频点(频点1)对应的平滑因子，1为平滑参数，该平滑参数的取值范围可以为0-1之间，例如可以为0.95。p(i,k)为环境音频信号中第i帧音频信号中第k个频点(频点1)对应的音频信号为人声的概率。则，平滑因子/>

后续，终端基于环境音频信号(Y帧)中全部频点对应的平滑因子以及能量确定X个横向长时能量，再将该X个横向长时能量求和，即可得到环境音频信号中环境噪声对应的长时能量。其中，第k个横向长时能量为环境音频信号(Y帧)的每一帧音频信号中第k个频点的能量进行平滑之后的总能量。即终端基于每个频点对应的平滑因子将每个频点的能量进行平滑之后求和，即可得到所述噪声的长时能量。

图6示出了终端确定X个横向长时能量的示意图。

图6中示出了第k个横向长时能量，第k-1个横向长时能量以及第k+1个横向长时能量的求取示意图。其中，第k个横向长时能量是环境音频信号(Y帧)的每一帧音频信号中第k个频点(图中的频点k)的能量进行平滑之后的总能量。

其中，终端基于环境音频信号(Y帧)中全部频点对应的平滑参数以及能量确定X个横向长时能量中第k个横向长时能量的过程可以参考下述公式(4)。其中，k∈[1,X]且k为整数。

公式(4)中，表示第k个横向长时能量。i表示环境音频信号中的第i帧音频信号，E(i,k)该第i帧音频信号中的第k个频点的能量。/>为环境音频信号中第i帧音频信号中第k个频点对应的平滑因子。/>表示求取到第i-1帧音频信号时的横向长时能量。在i＝1时，/>可以取0或者经验默认值，本申请实施例对此不作限定。公式(4)中，k从1变化到X即可得到X个横向长时能量。

后续，终端基于X个横向长时能量确定环境音频信号中环境噪声对应的长时能量的过程可以参加下述公式(5)。

公式(5)中，N_l即可表示环境音频信号中环境噪声对应的长时能量，表示第k个横向长时能量。k∈[1,X]且i为整数。

应该理解的是，在一些可能的情况下，除了前述涉及的IMCRA算法以外，终端还可以用其他的算法确定该环境音频信号中环境噪声对应的长时能量。例如，可以利用最优改进对数谱幅度估计(optimally modified log-spectral amplitude estimator，OMLSA)算法及谱减法等算法中一个或多个算法的结合来确定该环境音频信号中环境噪声对应的长时能量。本身请实施例对此不作限定。

S106.终端基于该环境噪声对应的长时能量确定预测环境类型。

预测环境类型可以用于描述通信之前，终端所处环境的嘈杂程度，例如终端周围环境中噪声的长时能量大小。该预测环境类型可以分为安静、普通及嘈杂。通信之前，在环境噪声对应的长时能量较小(小于或者等于第一预设阈值)的情况下，终端可以确定预测环境类型为安静；通信之前，在环境噪声对应的长时能量介于第一预设阈值与第二预设阈值之间的情况下，终端可以确定预测环境类型为普通。在环境噪声对应的长时能量较大(大于或者等于第二预设阈值)的情况下，终端可以确定预测环境类型为嘈杂。

在一些可能的情况下，终端可以通过第一预设阈值、第二预设阈值以及该环境噪声对应的长时能量确定预测环境类型，该过程可以参考下述公式(6)。

公式(6)中，N₁表示第一预设阈值，N₂表示第二预设阈值，该第一预设阈值小于第二预设阈值。通常，该第一预设阈值可以设置为(-65db，-55db)，例如-60db。该第二预设阈值可以设置为(-35db，-25db)，例如-30db。当环境噪声对应的长时能量小于第一预设阈值时，则终端确定预测环境类型为安静；当环境噪声对应的长时能量大于第一预设阈值但是小于第二预设阈值时，则终端确定预测环境类型为普通；当环境噪声对应的长时能量大于或者等于第二预设阈值时，则终端确定预测环境类型为嘈杂。

S107.终端基于预测环境类型确定预测通话模式。

不同的预测环境类型对应不同的通话模式。

具体的，在预测环境类型为嘈杂的情况下，终端可以确定对应的预测通话模式为嘈杂模式；在预测环境类型为安静的情况下，终端可以确定对应的预测通话模式为安静模式；在预测环境类型为普通的情况下，终端可以确定对应的预测通话模式为普通模式。

应该理解的是，前述步骤S101-步骤S107的执行时机发生在检测到针对拨号控件的操作之后，以及确定其他终端响应该通信请求之前。终端执行步骤S101-步骤S107的过程中，终端显示的用户界面可以参考前述对图4A以及图4B中(1)的描述。在终端确定其他终端响应该通信请求之后，终端可以与其他终端进行通信，执行下述步骤S108。

S108.终端将预测通话模式作为在与其他终端进行通信时使用的第一个通话模式。

参考前述图4B所示，为终端与其他终端建立通信连接的过程中涉及的示例性用户界面。如图4B中(2)所示，在其他终端检测到针对接听控件201的操作之后，响应于该操作，其他终端可以响应终端的通信请求，开启与终端间的通信。此时，终端可以显示下述图7中(1)示出的用户界面12。其他终端可以显示下述图7中(2)示出的用户界面21。

在终端确定与其他终端开始通信之后，终端可以将预测通话模式作为在与其他终端进行通信时使用的第一个通话模式。例如，在确定预测通话模式为嘈杂模式的情况下，终端可以在通话环境没有确定之前使用嘈杂模式进行通信，终端可以在嘈杂模式下对下行音频信号进行处理，得到与嘈杂模式对应的待播放音频信号，此时，待播放音频信号的能量较大。

图8示出了一种实施例中确定预测通话模式的另一种示例性流程图。

应该理解的是，前述步骤S101-步骤S108是以终端作为主叫方设备，其他终端作为被叫方设备时对终端确定预测环境模式的过程进行描述。

在另一些可能的情况下，终端还可以作为被叫方设备，其他终端作为主叫方设备，在该情况下，终端确定预测环境模式的过程可以参考下述对步骤S201-步骤S208的描述。

S201.终端显示来电提示界面。

终端显示来电提示界面的一种示意性用户界面可以参考前述对图4B中(2)的描述，将其他终端更改为终端即可。

该来电显示界面中可以包括接听控件，该接听控件可以用于触发终端开启与其他终端之间的通信。这里，接听控件的一种形式可以参加前述涉及的接听控件201。应该理解的是，接听控件还可以是其他的形式，例如文字，滑动控件等。本申请实施例对此不作限定。

S202.在检测到针对接听控件的操作之前，终端通过N个麦克风采集音频信号，得到第一音频信号。

步骤S202中，终端采集音频信号的时机可以记为时机3。该时机3为：终端显示来电提示界面之后，且检测到针对接听控件的操作之前。时机3也可以看作终端响应其他终端发起的通信请求的过程。

在时机3下，终端通过N个麦克风采集的音频信号可以被称为第一音频信号。该第一音频信号中可以包括Y帧音频信号，其中Y为大于等于1的整数。N为大于等于1的整数。

关于第一音频信号及其相关内容的详细描述可以参考前述对步骤S102的描述，此处不再赘述。

S203.在检测到针对接听控件的操作之前，终端获取参考音频信号，基于该参考音频信号估计出回声。

该步骤S203是可选的。

终端获取参考音频信号的时机可以为时机4，该时机4为：终端显示来电提示界面之后，且检测到针对接听控件的操作之前，终端播放来电铃音的过程中。即步骤S203发生在建立通信连接过程中终端播放来电铃音的情况下。

其中，关于来电铃音的描述可以参考前述步骤S102中对来电铃音的相关描述，此处不再赘述。

步骤S203中终端基于该参考音频信号估计出回声的过程与前述步骤S103中相同，可以参加前述对步骤S203的描述，此处不再赘述。

S204.终端从第一音频信号中除去该回声，得到环境音频信号，该环境音频信号中包括环境噪声，或者，还可以包括人声。

该步骤S204是可选的，在步骤S203未执行的情况下，终端可以不执行该步骤S204。

在未执行步骤S204的情况下，终端可以将第一音频信号作为环境音频信号然后执行下述步骤S205。

该步骤S204涉及的其他内容与前述步骤S104中涉及的其他内容相同，可以参考前述对步骤S104的描述，此处不再赘述。

S205.在排除人声干扰的情况下，终端确定该环境音频信号中环境噪声对应的长时能量。

该步骤S205中涉及的内容与前述步骤S105中涉及的内容相同。可以参考前述对步骤S105的描述，此处不再赘述。

S206.终端基于该环境噪声对应的长时能量确定预测环境类型。

该步骤S206中涉及的内容与前述步骤S106中涉及的内容相同。可以参考前述对步骤S106的描述，此处不再赘述。

S207.终端基于预测环境类型确定预测通话模式。

该步骤S207中涉及的内容与前述步骤S107中涉及的内容相同。可以参考前述对步骤S107的描述，此处不再赘述。

应该理解的是，前述步骤S201-步骤S207的执行时机发生终端显示来电提示界面之后，且检测到针对接听控件的操作之前。终端执行步骤S201-步骤S207的过程中，终端显示的用户界面可以参考前述对图4B中(2)的描述(将其他终端替换为终端)。在终端检测到接听控件之后，终端可以与其他终端进行通信，执行下述步骤S208。

S208.终端将预测通话模式作为在与其他终端进行通信时使用的第一个通话模式。

应该理解的是，前述实施例中涉及的步骤S101-步骤S108以及步骤S201-步骤S208中终端确定预测通话类型的时机发生在终端与其他终端建立通信连接的过程中，由于该建立通信连接的过程中，终端采集的第一音频信号中可以包括回声，需要将第一音频信号中的回声除去之后才可以得到环境音频信号，但是可能存在回声除去效果不好的情况，则会影响得到的环境音频信号的真实性。导致最终基于该环境音频信号确定的预测环境类型产生偏差，从而导致基于预测环境类型确定预测通话模式是错误，与通话环境不符合，影响用户的通话过程。

基于此，本申请还提供了另外一种实施例，终端可以在与其他终端建立通信连接之前，按照预设频率(例如10s等，还可以为其他预设频率例如10s-20s之间的值等)持续进行预测环境类型的计算，其中一次确定预测环境类型的过程包括：通过N个麦克风采集音频信号，得到环境音频信号，基于该环境音频信号确定预测环境类型。在第一次计算出预测环境类型之后，终端记录该预测环境类型(可以被称为已记录的预测环境类型)，然后按照预设频率进行后续操，再次计算预测环境类型。在第i次计算结果与第i-1次计算结果不同时，终端可以利用第i次确定的预测环境类型更新第i-1次确定的预测环境类型，将更新后的预设环境类型作为已记录的预测环境类型。后续，在终端确定与其他终端进行通信之后，终端可以基于已记录的预测环境类型确定预测通话模式，将该预测通话模式作为与其他终端进行通话时使用的第一个模式。

在一些可能的情况下，该已记录的预测环境类型可以用一个全局变量表示，该全局变量可以记录在音频数字信号处理器(ADSP)中。在ADSP通电之后，该全局变量始终存在。

应该理解的是，该实施例涉及的原理在于：终端在短时间内(例如10s-30s)所处的环境不会发生较大变化，则在终端与其他终端建立通信连接之前得到的最新的预测环境类型可以用于指示在通信初始时间内的环境类型。

图9示出了另一种实施例中终端确定预测通话模式的另一种示例性流程图。

关于前述过程的详细描述可以参考下述对步骤S301-步骤S308的描述。

S301.与其他终端建立通信连接之前，按照第一频率，终端通过N个麦克风采集音频信号，得到环境音频信号，该环境音频信号中包括环境噪声，或者，还可以包括人声。

与其他终端建立通信连接之前还可以表示为终端确定未与其他终端建立通信连接；

这里应该理解的是，由于终端还未与其他终端建立通信连接，因此终端还没有播放来电铃音或者回铃音，则此时终端通过N个麦克风采集的音频信号中不包括回声。在这样的情况下，终端通过N个麦克风采集音频信号得到环境音频信号。

该环境音频信号中可以包括Y帧音频信号。该环境音频信号可以表示为频域上的音频信号，该环境音频信号中的每一帧音频信号都可以表示为X(X为2的整数次方)个频点，例如，X可以为1024、2048等，具体大小可以由终端的计算能力决定。该X个频点用于表示一定频率范围内的音频信号，例如0khz-6khz之间，也可以为其他的频率范围。也可以理解为，频点指代的是在对应频率上的音频信号的信息，包含的信息包括时间，频率(声音信号的频率)，以及能量，即声音信号的能量(分贝)。

该环境音频信号中除了可以包括环境噪声以外，还可以包括人声。关于人声的相关描述可以参考前述步骤S102中对人声的描述，此处不再赘述。

应该理解的是，该步骤S301中，终端通过N个麦克风采集音频信号得到环境音频信号的时机为：与其他终端建立通信连接之前，按照第一频率通过N个麦克风采集音频信号得到环境音频信号。在一些可能的情况下，该步骤S301中涉及的时机可以为其他时机，例如，与其他终端建立通信连接之前，且确定终端处于息屏状态时按照第一频率通过N个麦克风采集音频信号得到环境音频信号。这样可以节约部分功率。

S302.终端对该环境音频信号进行语音活动检测，确定该环境音频信号是否为人声。

终端可以对该环境音频信号进行语音活动检测(voice activity detection,VAD)，确定其中每个频点是否携带人声，即确定其中每个频点对应的语音活动检测(VAD)值。每一频点对应的VAD值为0或者1。

其中，第i帧音频信号中第k个频点(频点1)携带人声是指该频点1对应的音频信号为人声，此时该频点1对应的VAD值为1。若频点1不携带人声的，则VAD值为0。

在终端确定环境音频信号中携带人声的频点数量大于第一频点阈值时，终端可以确定该环境音频信号为人声，此时，可以认为环境音频信号中主要为人声。

在终端确定环境音频信号中携带人声的频点数量小于第一频点阈值时，终端可以确定该环境音频信号中不为人声，此时，可以认为环境音频信号中主要为环境噪声。

在终端确定环境音频信号中携带人声的频点数量等于第一频点阈值时，终端可以确定该环境音频信号为人声或者不为人声。

在终端确定环境音频信号中包括人声的情况下，终端可以执行步骤S303以及步骤S301。此时，终端可以保持以记录的预测环境类型不改变，同时，与其他终端建立通信之前，按照第一频率获取环境音频信号再次确定预测环境类型。

在终端确定环境音频信号中不包括人声的情况下，终端可以执行下述步骤S304。此时，终端可以基于步骤S301中得到的环境音频信号确定预测环境类型。

应该理解的是，这里执行步骤S302以及步骤S303的目的在于，在环境音频信号为人声时(即环境音频信号中主要为人声)，则因为人声的能量较大，会对预测环境类型的确定产生干扰导致结果不准确。则可以在环境音频信号为人声时，不利用该环境音频信号确定预测环境类型，避免不准确。

S303.保持已记录的预测环境类型不改变。

在环境音频信号为人声的情况下，终端可以保持已记录的预测环境类型不改变。且，再次执行步骤S301重新获取环境音频信号以执行步骤S302。

这里应该理解的是，初始的已记录的预测环境类型可以为默认通话类型也可以为NULL(不赋值)。

S304.在排除人声干扰的情况下，确定该环境音频信号中环境噪声对应的长时能量。

应该理解的是，在终端确定环境音频信号不为人声是指环境音频信号中主要为环境噪声，但是实际还是可以包括少量人声，因此，终端可以在排除人声干扰的情况下，确定该环境音频信号中环境噪声对应的长时能量。

该步骤S304中涉及的内容与前述步骤S105中涉及的内容相同。可以参考前述对步骤S105的描述，此处不再赘述。

S305.基于该环境噪声对应的长时能量确定预测环境类型。

该步骤S305中涉及的内容与前述步骤S106中涉及的内容相同。可以参考前述对步骤S106的描述，此处不再赘述。

S306.基于预测环境类型将已记录的预测环境类型进行更新，将更新后的预测环境类型作为已记录的预测环境类型。

终端将已记录的预测环境类型更新为前述步骤S305中确定的预测环境类型。得到更新后的预测环境类型作为已记录的预测环境类型。

在一些可能的情况下，终端还可以先确定步骤S305中确定的预测环境类型与已记录的预测环境类型是否相同，相同时则不进行更新，不相同时进行更新。

步骤S306执行之后，若终端未开启与其他终端进行通信，则终端可以继续执行步骤S301。

步骤S306执行之后，若终端开启与其他终端进行通信，则终端可以继续执行下述步骤S307。

S307.终端确定与其他终端进行通信之后，终端基于已记录的预测环境类型确定预测通话模式。

其中，终端与其他终端进行通信的示例性用户界面可以参考前述涉及的图7。

终端确定与其他终端进行通信之后，终端可以获取已记录的预测环境类型。基于已记录的预测环境类型确定预测通话模式。

不同的预测环境类型(已记录的预测环境类型)对应不同的通话模式。

例如，在终端确定已记录的预测环境类型为嘈杂的情况下，终端可以确定对应的预测通话模式为嘈杂模式；在预测环境类型为安静的情况下，终端可以确定对应的预测通话模式为安静模式；在预测环境类型为普通的情况下，终端可以确定对应的预测通话模式为普通模式。

应该理解的是，在终端执行该步骤S307之前，前述步骤S301-步骤S306是循环执行的。

S308.终端将预测通话模式作为在与其他终端进行通话时使用的第一个通话模式。

在一些可能的情况下，终端中的通话类应用可以被称为第一通话类应用。终端通过该第一通话类应用向其他终端发生的通信请求可以被称为第一通信请求。

应该理解的是，在其他终端通过其他终端中的通话类应用(可以被称为第二通话类应用)向终端发送通信请求(可以被称为第二通信请求)时，终端在接收到该第二通信请求之后，终端即可显示前述涉及的来电提示界面。在检测到针对接听控件的操作时，响应于该操作，终端则响应了该第二通信请求。

在一些实施中，终端未与其他终端建立通信的情况下，终端所处的状态可以被称为第一状态。该第一状态为包括：终端通过所述第一通话类应用向其他终端发送第一通信请求之后，且确定其他终端响应第一通话请求之前的状态，以及接收到其他终端通过第二通话类应用发送的第二通信请求且终端未响应该第二通信请求的状态。该第一状态之前即为终端未与其他终端建立通信的情况下。

基于前述步骤S301-步骤S308可以总结为：在终端处于第一状态之前，第一时刻(通信前最后一次获取环境音频信号的时刻)，终端获取环境音频信号A；基于第一时刻获取的环境音频信号A确定环境类型A，终端将已记录的预测环境类型更新为该环境类型A；其中，该已记录的预测环境类型为所述终端基于L次更新之后确定的预测环境类型；该L次更新中包括第一更新，所述第一更新包括：确定未与其他终端建立通信连接的情况下，第二时刻(通信前获取环境音频信号的时刻但是不是第一时刻)，终端获取环境音频信号B，基于环境音频信号B确定环境类型B，将所述已记录的预测环境类型更新为该环境类型B；该第二时刻与该第一时刻相隔R个第一时长(第一时长即为前述涉及的第一频率)；其中，L为整数，R为小于等于L的整数；所述环境类型B与所述环境类型A可以相同也可以不同。后续终端确定已记录的预测环境类型为环境类型A；则终端可以将环境类型A对应的通话模式作为所述通信中的第一个通话模式。

应该理解的是，前述步骤S301-步骤S308中涉及的确定预测通话模式的过程可以看作是一种低功耗的长时检测。消耗的功耗具体是多少可以基于步骤S301中涉及的第一频率进行决定。第一频率越短，则消耗的功耗越大；第一频率越长，则消耗的功耗越短。

在一些可能的情况下，前述涉及的实施例中，终端将预测通话模式作为在于其他终端进行通信时使用的第一个通话模式可以是可选的。在终端确定终端与其他终端进行通信是手持通话的情况下，终端才将预测通话模式作为在于其他终端进行通信时使用的第一个通话模式。

其中终端确定终端与其他终端进行通信是手持通话的情况为：终端在于其他终端进行通信的过程中，没有采取扬声器播放音频信号，以及没有通过耳机播放音频信号。

本申请实施例中，步骤S101-步骤S108以及步骤S201-步骤S208中终端获取的环境音频信号可以被称为第一环境音频信号，步骤S301-步骤S308中，终端在第一时刻获取的环境音频信号也可以被称为第一环境音频信号。步骤S301-步骤S308中，终端在第二时刻获取的环境音频信号可以被称为第二环境音频信号。环境噪声可以被简称为噪声；环境噪声对应的长时能量可以被简称为噪声的长时能量；拨号控件可以被称为第一控件；来电显示界面可以被称为第一界面，接听控件可以被称为第二控件。回铃音可以被称为第一铃声；来电铃音可以被称为第二铃音。终端播放回铃音时获取的参考音频信号可以被称为第一参加音频信号，基于第一参加音频信号确定的回声可以被称为第一回声，即步骤S103中涉及的回声可以被称为第一回声。终端播放来电铃音时获取的参考音频信号可以被称为第二参加音频信号，基于第二参加音频信号确定的回声可以被称为第二回声，即步骤S203中涉及的回声可以被称为第二回声。

下面首先介绍本申请实施例提供的示例性终端。

图10是本申请实施例提供的终端的结构示意图。

下面以终端为例对实施例进行具体说明。应该理解的是，终端可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

终端可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对终端的具体限定。在本申请另一些实施例中，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器(简称调制解调器)，图形处理器(graphicsprocessing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

调制解调器用于在接收到其他终端发送给本机的音频信号之后，可以将其进行解码，得到下行音频信号。然后将该下行音频信号传输至双器件通话算法。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)等。在一些实施例中，终端可以包括1个或N个显示屏194，N为大于1的正整数。

在本申请实施例中，该显示屏194也可以被称为屏幕。

终端可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。

终端可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

本申请实施例中，该受话器170B也可以被称为发声器，终端可以包括第一发声器(未示出)以及第二发声器(未示出)，该第一发声器用于播放模拟的左声道音频信号。该第二发声器用于播放模拟的右声道音频信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端可以设置至少一个麦克风170C。在另一些实施例中，终端可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在一些实施例中，麦克风可以将采集的音频信号传输至编解码器进行编码，得到上行音频信号，然后将该上行音频信号传输至双器件通话算法。双器件通话算法可以结合该上行音频信号计算得到通话环境类型。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminalplatform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunicationsindustry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

在一些实施例中，压力传感器可以用于确定用户与屏幕之间的状态，例如，当压力传感器检测到用户与屏幕之间的压力大于一个预设压力值时，且持续时间大于一个预设时间时，终端可以确定用户与屏幕之间的状态为紧贴屏幕状态。当压力传感器检测到用户与屏幕之间的压力小于一个预设压力值时，或持续时间小于一个预设时间时，终端可以确定用户与屏幕之间的状态为非紧贴屏幕状态。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。

环境光传感器180L用于感知环境光亮度。终端可以根据感知的环境光亮度自适应调整显示屏194亮度。环境光传感器180L也可用于拍照时自动调整白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端是否在口袋里，以防误触。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。

显示屏194上的传感器，例如触摸传感器，可以检测用户是否与该显示屏194接触。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端可以接收按键输入，产生与终端的用户设置以及功能控制有关的键信号输入。

本申请实施例中，终端还包括编解码器(未示出)，第一功率发大器(未示出)及第二功率发大器(未示出)。

该编解码器用于将模拟信号编码成数字信号，也可以用于将数字信号解码成模拟信号。例如，可以将数字的处理后的左声道音频信号进行编码，得到模拟的左声道音频信号。

该第一功率放大器用于将模拟的音频信号进行功率放大，驱动受话器170B播放该模拟的音频信号。例如，将编码后的处理后的左声道音频信号进行功率放大，驱动第一发声器播放该模拟的处理后的左声道音频信号。

该第二功率放大器用于将模拟的音频信号进行功率放大，驱动受话器170B播放该模拟的音频信号。例如，将编码后的处理后的右声道音频信号进行功率放大，驱动第二发声器播放该模拟的处理后的右声道音频信号。

本申请实施例中，该处理器110可以调用内部存储器121中存储的计算机指令，以使得终端执行本申请实施例中的通话方法。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种通话方法，其特征在于，应用于包括第一通话类应用的终端，所述方法包括：

通过第一通话类应用与其他终端建立通信连接之前，在所述终端按照第一频率获取第一环境音频信号，且确定所述第一环境音频信号不为人声的情况下，所述终端基于所述第一环境音频信号确定预测环境类型为第一环境类型，且所述终端将已记录的预测环境类型更新为所述第一环境类型，所述预测环境类型用于描述所述终端与所述其他终端通信开始之前，所述终端所处环境的嘈杂程度；在所述终端确定所述第一环境音频信号为人声的情况下，所述终端保持所述已记录的预测环境类型不变；

其中，确定所述预测环境类型为所述第一环境类型的过程包括：所述终端基于所述第一环境音频信号确定所述第一环境音频信号中噪声的长时能量，所述终端基于所述噪声的长时能量确定预测环境类型为所述第一环境类型，所述噪声的长时能量为一段时间内噪声的能量；

在所述终端与所述其他终端建立通信连接之后但是未进行通信之前，获取所述第一环境音频信号的情况下，所述终端基于所述第一环境音频信号确定预测环境类型为第一环境类型；

在所述终端通过所述第一通话类应用与其他终端进行通信之后，获取所述第一环境音频信号的情况下，所述终端将所述第一环境类型对应的通话模式作为所述通信中的第一通话模式；

所述终端基于所述第一通话模式对应的参数对下行音频信号进行处理，得到与所述第一通话模式对应的待播放音频信号；所述下行音频信号为所述通信过程中，所述终端接收的所述其他终端发送的音频信号；

所述终端播放所述待播放音频信号，且在与其他终端进行通信的过程中，所述终端重新确定通话模式，得到符合该重新确定的通话模式的待播放音频信号。

2.根据权利要求1所述的方法，其特征在于，在所述终端与所述其他终端建立通信连接但是未进行通信之前，获取所述第一环境音频信号，具体包括：

在检测到针对第一控件的操作之后，响应于该操作，所述终端通过所述通信类应用向所述其他终端发起第一通信请求；

在确定其他终端响应所述第一通信请求之前，所述终端获取所述第一环境音频信号。

3.根据权利要求1所述的方法，其特征在于，在所述终端与所述其他终端建立通信连接但是未进行通信之前，获取所述第一环境音频信号，具体包括：

所述终端显示第一界面之后，在检测到针对第二控件的操作之前，所述终端获取所述第一环境音频信号。

4.根据权利要求2所述的方法，其特征在于，获取第一环境音频信号，具体包括：

在确定其他终端响应所述第一通信请求之前，所述终端通过麦克风采集音频信号得到第一音频信号；

在所述终端播放第一铃声的情况下，所述终端获取第一参考音频信号；所述第一铃声用于提示所述其他终端接收到所述第一通信请求；

所述终端基于所述第一参考音频信号估计出第一回声；所述第一回声为所述终端在播放所述第一铃声时，所述第一铃声被所述终端采集后对应的声音信号；

所述终端从所述第一音频信号中除去所述第一回声得到所述第一环境音频信号。

5.根据权利要求3所述的方法，其特征在于，获取第一环境音频信号，具体包括：

所述终端显示第一界面之后，在检测到针对所述第二控件的操作之前，所述终端通过麦克风采集音频信号得到第一音频信号；

在所述终端播放第二铃声的情况下，所述终端获取第二参考音频信号；所述第二铃声用于提示所述终端存在来电；

所述终端基于所述第二参考音频信号估计出第二回声；所述第二回声为所述终端在播放所述第二铃声时，所述第二铃声被所述终端采集后对应的声音信号；

所述终端从所述第一音频信号中除去所述第二回声得到所述第一环境音频信号。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述第一环境音频信号为频域上的音频信号，所述第一环境音频信号中还包括人声，所述第一环境音频信号中包括Y帧音频信号，其中每一帧音频信号中都包括X个频点，每个频点的信息包括频点的能量；所述终端基于所述第一环境音频信号确定所述噪声的长时能量，具体包括：

所述终端基于所述人声的频点能量分布规律确定所述第一环境音频信号中每个频点对应的音频信号为所述人声的概率；

所述终端基于所述每个频点对应的音频信号为所述人声的概率确定每个频点对应的平滑因子；

所述终端基于所述每个频点对应的平滑因子将所述每个频点的能量进行平滑之后求和，得到所述噪声的长时能量。

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述预测环境类型包括安静、普通及嘈杂；其中，所述预测环境类型为安静时与所述预测环境类型为普通或者嘈杂时相比，安静时所述噪声的长时能量比普通或者嘈杂时小；所述预测环境类型为嘈杂时与所述预测环境类型为安静或者普通时相比，嘈杂时所述噪声的长时能量比安静或者普通时大。

8.根据权利要求1-5中任一项所述的方法，其特征在于，在所述预测环境类型为嘈杂的情况下，所述第一通话模式为嘈杂模式；在所述预测环境类型为安静的情况下，所述第一通话模式为安静模式；在所述预测环境类型为普通的情况下，所述第一通话模式为普通模式。

9.根据权利要求8所述的方法，其特征在于，所述嘈杂模式、所述安静模式以及所述普通模式相比：在所述安静模式下，所述待播放音频信号的能量最小；在所述嘈杂模式下，所述待播放音频信号的能量最大。

10.一种终端，其特征在于，所述终端包括：一个或多个处理器和存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述终端执行如权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在终端上运行时，使得所述终端执行如权利要求1-9中任一项所述的方法。