CN114067822A

CN114067822A - 通话音频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114067822A
Application number: CN202010786543.6A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-02-18

Abstract

本申请涉及一种通话音频处理方法、装置、计算机设备和计算机可读存储介质。所述方法包括：获取参与多人通话的多个通话成员终端发送的通话音频；将参与所述多人通话的其中一个通话成员终端选为接收终端，获取所述接收终端的通话环境噪声；根据所述通话环境噪声和各所述通话音频的掩蔽阈值，确定各所述通话音频的掩蔽度；所述掩蔽度表示所述通话音频被所述通话环境噪声掩蔽的程度；根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端。采用本方法能够提升多人通话过程的通话质量。

Description

通话音频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种通话音频处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，通话功能的应用越来越广泛，比如可实现多人同时通话，提高沟通效率。

在多人通话的过程中，发送终端向服务器发送通话音频，服务器负责将接收的通话音频转发至各接收终端，且很多时候多个发送终端同时发送通话音频，服务器需要将多路通话音频分别转发给多个接收终端，参与通话过程的用户越多，服务器转发的数据量越大，导致服务器占用了较多的网络带宽，从而影响多人通话过程的通话质量。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升多人通话过程的通话质量的通话音频处理方法、装置、计算机设备和存储介质。

一种通话音频处理方法，该方法包括：

获取参与多人通话的多个通话成员终端发送的通话音频；

将参与多人通话的其中一个通话成员终端选为接收终端，获取接收终端的通话环境噪声；

根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的掩蔽度；掩蔽度表示通话音频被通话环境噪声掩蔽的程度；

根据各掩蔽度对通话音频进行筛选后发送至接收终端。

一种通话音频处理装置，该装置包括：

获取模块，用于获取参与多人通话的多个通话成员终端发送的通话音频；

获取模块，还用于将参与多人通话的其中一个通话成员终端选为接收终端，获取接收终端的通话环境噪声；

确定模块，用于根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的掩蔽度；掩蔽度表示通话音频被通话环境噪声掩蔽的程度；

筛选模块，用于根据各掩蔽度对通话音频进行筛选后发送至接收终端。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取参与多人通话的多个通话成员终端发送的通话音频；

根据各掩蔽度对通话音频进行筛选后发送至接收终端。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取参与多人通话的多个通话成员终端发送的通话音频；

根据各掩蔽度对通话音频进行筛选后发送至接收终端。

上述通话音频处理方法、装置、计算机设备和存储介质，获取参与多人通话的多个通话成员终端发送的通话音频，将参与多人通话的其中一个通话成员终端选为接收终端，获取该接收终端的通话环境噪声，根据通话环境噪声和各通话音频的掩蔽阈值确定各通话音频的掩蔽度，并根据各掩蔽度对通话音频进行筛选后发送至接收终端，这样，根据掩蔽度对参与多人通话的多个终端发送的通话音频进行筛选，可剔除易被接收终端的通话环境噪声所掩蔽的通话音频，使得接收终端的通话成员能够听清楚接收的通话音频；并且减少了服务器转发的通话音频的数量，减少了服务器占用的网络带宽，从而提升了多人通话过程的通话质量。

附图说明

图1为一个实施例中通话音频处理方法的应用环境图；

图2为另一个实施例中通话音频处理方法的应用环境图；

图3为一个实施例中通话音频处理方法的流程示意图；

图4为一个实施例中临界频带的示意图；

图5为另一个实施例中通话音频处理方法的流程示意图；

图6为又一个实施例中通话音频处理方法的流程示意图；

图7为一个实施例中多人通话过程的流程示意图；

图8为另一个实施例中多人通话过程的流程示意图；

图9为一个实施例中通话音频处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的通话音频处理方法，可以应用于如图1所示的应用环境中。参见图1，该应用环境包括：多个终端102和服务器104。每个终端102和服务器104之间通过网络进行连接，每个终端102既可作为通话音频的发送终端，也可作为通话音频的接收终端。具体地，在同一时间，一个或者至少两个终端102将通话音频发送至服务器104，服务器104将接收到的通话音频转发至参与通话的各个终端102。

其中，终端102可以为手机、平板电脑等多种类型的设备。服务器104可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

图2是本申请实施例提供的另一种应用环境的示意图，参见图2，该应用环境包括：多个终端202、第一服务器204和第二服务器206。终端202与第一服务器204进行连接，或者，终端202与第二服务器206进行连接，第一服务器204与第二服务器206连接。

其中，终端202可以为手机、平板电脑等多种类型的设备。第一服务器204和第二服务器204可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

例如，当第一终端和第二终端在同一通话群组中，假设第一终端为发送终端，第二终端为接收终端，第一终端与第一服务器连接，第二终端与第二服务器连接时，第一服务器接收第一终端发送的通话音频，并将该通话音频发送给第二服务器，第二服务器接收第一服务器发送的通话音频，并将该通话音频发送给第二终端。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请实施例中提供的方法，可以应用于语音通话、视频通话或者其他通话场景中。语音通话或者视频通话可以为VOIP(Voice over Internet Protocol，网络电话)多人会议场景或者其他场景。

例如，应用于语音通话场景中，多个终端之间进行语音数据的交互。服务器采用本申请实施例提供的方法从至少两个发送终端发送的至少两路语音数据中，选取出目标语音数据发送给接收终端，接收终端对接收到的目标语音数据解码后混音播放。

例如，应用于视频通话场景中，多个终端之间进行视频数据的交互，视频数据包括语音数据和图像数据，服务器对视频通话中的语音数据和图像数据分别进行处理。

对于语音数据的处理，服务器采用本申请实施例提供的方法从至少两个发送终端发送的至少两路语音数据中，选取出目标语音数据发送给接收终端，接收终端对接收到的目标语音数据解码后混音播放。

对于图像数据的处理，服务器将至少两个发送终端发送的图像数据发送给接收终端，接收终端根据接收到的至少两个图像数据和本端采集的图像数据进行显示。所显示的图像数据可以是接收到的至少两个图像数据和本端采集的图像数据合并得到的，或者也可以是基于用户操作，从接收到的至少两个图像数据和本端采集的图像数据中选取的某一图像数据。

在一个实施例中，如图3所示，提供了一种通话音频处理方法。以交互主体为图1中的多个终端102和服务器104为例进行说明，包括以下步骤：

步骤302，获取参与多人通话的多个通话成员终端发送的通话音频。

本申请实施例中，至少三个终端加入同一通话群组中，该至少三个终端可以进行通话。在通话过程中，发送语音数据的终端为发送终端，接收其它终端所发送的语音数据的终端为接收终端。通话群组中的每个终端，既可以是发送终端，也可以是接收终端。

该通话群组可以是语音通话群组，也可以是视频通话群组，即至少三个终端可以进行语音通话，也可以进行视频通话。在语音通话过程中，至少三个终端需要进行语音数据的交互；在视频通话过程中，至少三个终端不仅需要进行语音数据的交互，还需要进行图像数据的交互。本申请实施例仅是对语音数据的交互过程进行说明。

其中，多人通话是至少三个通话成员参与的通话过程。在多人通话过程中，参与通话的多方通过不同的终端采集通话音频，经过编码、打包后发送至服务器，服务器将接收到的编码数据进行解码，由此获取到多个终端发送的通话音频。

通话音频是通过终端的声音采集装置(比如麦克风)录制的音频信号。通话音频中可包含通话成员的语音数据，此时终端作为发送终端；通话音频中也可不包含通话成员的语音数据，比如仅包含通话成员的背景环境噪声或者静音等，此时终端作为接收终端。

在多人通话过程中，终端可实时采集音频信号。终端采集到音频信号后，可将音频信号立即发送至服务器，也可先缓存音频信号，之后提取缓存的音频信号发送至服务器。

本实施例中，获取参与多人通话的各终端发送的通话音频可以包括以下几种方式：

(1)获取参与多人通话的所有终端发送的通话音频。

即步骤302中服务器获取参与多人通话的所有终端发送的通话音频。

例如，一个通话群组包括终端A、终端B、终端C和终端D，终端A、终端B和终端C对应的通话成员说话，而终端D对应的通话成员没有说话，则终端A、终端B和终端C发送的通话音频中均包含语音数据，终端D发送的通话音频中不包含语音数据，则以终端C作为接收终端，终端A、终端B和终端D作为发送终端。服务器可获取终端A、终端B、终端C和终端D发送的通话音频。

(2)获取发送终端发送的通话音频。

即步骤302中服务器获取的通话音频仅包含发送终端发送的通话音频，而不包含接收终端发送的通话音频。例如，以终端C作为接收终端，终端A、终端B和终端D作为发送终端。服务器可获取终端A、终端B和终端D发送的通话音频。

步骤304，将参与多人通话的其中一个通话成员终端选为接收终端，获取接收终端的通话环境噪声。

其中，通话环境噪声是接收终端所在环境的噪声。

可以理解，将参与多人通话的其中一个通话成员终端选为接收终端，是指对参与多人通话的各通话成员终端依次作为接收终端进行处理。

本申请实施例中，考虑到接收终端所在的背景声学环境会影响接收终端的通话成员的收听效果，比如在接收终端所在的背景声学环境嘈杂时，接收终端的通话成员要听清楚多方的声音就更加困难。故对接收终端的通话环境噪声情况进行分析。

本实施例中，获取接收终端的通话环境噪声可以包括以下几种方式：在一种可能实现方式中，由服务器根据接收终端的通话音频获取通话环境噪声。服务器可按照上述方式(1)同时获取发送终端和接收终端发送的通话音频，进而根据接收终端的通话音频获取通话环境噪声。服务器也可按照上述方式(2)分别获取发送终端和接收终端发送的通话音频，进而根据接收终端的通话音频获取通话环境噪声。

在一种可能实现方式中，由接收终端根据通话音频获取通话环境噪声，并将获取的通话环境噪声发送给服务器。服务器可按照上述方式(1)同时获取发送终端发送的通话音频和接收终端发送的通话环境噪声，也可按照上述方式(2)分别获取发送终端发送的通话音频和接收终端发送的通话环境噪声。

在一个实施例中，获取接收终端的通话环境噪声的方式包括：对接收终端的通话音频进行频域转换处理，得到接收终端的通话音频在频域的功率谱；根据功率谱确定接收终端的通话环境噪声。

其中，频域转换处理是为了将终端采集的音频信号由时域转化至频域，以对通话音频进行分析。时域是展示音频信号随时间的变化，频域是展示音频信号随频率的变化。

声音信号以波的形式存在，故声音信号会产生功率，功率谱表示信号功率在频域的分布状况，即信号功率随着频率的变化情况。

可将频域划分为多段等长的频率范围，其中一段频率范围为频点。每个频点有对应的功率谱。功率谱可反映声音信号在该频点的能量。功率谱越高，声音信号在该频点的能量越高。

首先，对接收终端采集的通话音频进行分帧加窗处理和离散傅里叶变换处理，以将通话音频由时域转化至频域。由于音频信号具有短时平稳性，通过分帧处理将音频信号分割为至少两段等长的信号，每一段信号称为一帧信号。而对音频信号进行分割，易导致频谱泄露，因此通过加窗处理使得分帧后的音频信号变得连续，减少频谱泄露，且每帧信号均可表现出周期函数的特性。

可采用汉明窗对通话音频进行分帧加窗处理，窗函数可通过如下公式进行表示：

其中，N为单个窗样点总个数，n为窗中各样点的序号值，n∈[0,N-1]。

对通话音频进行分帧加窗处理后，对通话音频进行离散傅里叶变换处理，离散傅里叶变换可通过如下公式进行表示：

其中，i为帧序号；k为频点序号，k＝1,2,3,...,N，N为单个窗样点总个数；X(i,k)为通话音频在频域的频谱，即第i帧、第k频点的频谱；n为窗中各样点的序号值；x(n)为输入样点值；j为傅里叶变换的复数域。

接着，对通话音频进行分帧加窗处理和离散傅里叶变换处理后，获取通话音频在频域的功率谱，可通过如下公式进行计算：

S(i,k)＝|X(i,k)|² (3)

其中，i为帧序号；k为频点序号；S(i,k)为通话音频在频域的功率谱，即第i帧、第k频点的功率谱。

在一个实施例中，获取接收终端的通话音频在指定频带范围内各频点的通话环境噪声。

其中，指定频带范围可以是语音主要频带范围，比如50～3400Hz。

在一个具体的实施例中，可采用噪声估计算法、基于接收终端的通话音频在指定频带范围内各频点的功率谱，获取接收终端的通话音频在指定频带范围内各频点的通话环境噪声。该噪声估计算法可以是MS(Minimum statistics，最小值统计算法)、MCRA(Minimumcontrol recursion average，最小值控制递归平均法)、IMCRA(Improved minimumcontrol recursion average，基于维纳过滤的最小值控制递归平均法)等等。

步骤306，根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的掩蔽度。

其中，当一个声音信号的声压级大于另一个信号的声压级时，声压级低的声音信号不易被人耳听到，这种现象称为掩蔽效应。掩蔽阈值是被掩蔽的声音信号的最大声压级。掩蔽度表示通话音频被通话环境噪声所掩蔽的程度。掩蔽度越高，通话音频被通话环境噪声掩蔽的程度越大，通话音频越不易被人耳听到。

在一个实施例中，步骤306包括：从参与多人通话的通话成员终端中确定多于一个发送终端；获取各发送终端发送的通话音频；根据各发送终端的通话音频确定各掩蔽阈值；根据通话环境噪声和各掩蔽阈值，确定各发送终端的通话音频的掩蔽度。

本申请实施例中，对发送终端发送的各通话音频是否被接收终端的通话环境噪声所掩蔽进行分析。

本实施例中，获取通话音频的掩蔽阈值可以包括以下几种方式：在一种可能实现方式中，由服务器根据发送终端的通话音频获取掩蔽阈值。服务器可按照上述方式(1)同时获取发送终端和接收终端发送的通话音频(或者接收终端发送的通话环境噪声)，进而根据发送终端的通话音频获取掩蔽阈值。服务器也可按照上述方式(2)分别获取发送终端的通话音频和接收终端发送的通话音频(或者接收终端发送的通话环境噪声)，进而根据发送终端的通话音频获取掩蔽阈值。

在一种可能实现方式中，由发送终端根据通话音频获取掩蔽阈值，并将获取的掩蔽阈值发送给服务器。服务器可按照上述方式(1)同时获取发送终端发送的掩蔽阈值和接收终端发送的通话音频(或者接收终端发送的通话环境噪声)，也可按照上述方式(2)分别获取发送终端发送的掩蔽阈值和接收终端发送的通话音频(或者接收终端发送的通话环境噪声)。

在一个实施例中，获取发送终端的通话音频的掩蔽阈值的方式包括：对发送终端的通话音频进行频域转换处理，得到发送终端的通话音频在频域的功率谱；根据功率谱确定发送终端的通话音频的掩蔽阈值。

其中，获取功率谱的方式与步骤304中获取功率谱的方式相同，在此不再赘述。

在一个实施例中，根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的掩蔽度，包括：将各发送终端发送的通话音频依次作为当前处理音频；获取当前处理音频在指定频带范围内各频点的掩蔽阈值；根据各频点的通话环境噪声和掩蔽阈值，确定当前处理音频的掩蔽度。

可以理解，将各发送终端发送的通话音频依次作为当前处理音频，是指服务器对各发送终端发送的通话音频依次进行处理。

在一个具体的实施例中，可采用心理声学模型、基于发送终端的通话音频在指定频带范围内各频点的功率谱，获取通话音频在指定频带范围内各频点的掩蔽阈值。心理声学模型可以是Johnston模型、Terhardt模型等等。

本申请实施例中，对于指定频带范围的每个频点，分析对应的掩蔽阈值与通话环境噪声之间的大小关系，基于该大小关系确定该频点的声音信号是否被通话环境噪声所掩蔽。

在一个实施例中，根据各频点的通话环境噪声和掩蔽阈值，确定当前处理音频的掩蔽度，包括：将各频点依次作为当前处理频点；在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，将当前处理频点标记为目标频点；基于当前处理音频的所有目标频点，确定当前处理音频的掩蔽度。

其中，当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值，说明当前处理频点的声音信号易被接收终端的通话环境噪声所掩蔽。

具体地，服务器对指定频带范围内各频点依次进行处理，判断当前处理频点的通话环境噪声是否大于当前处理频点的掩蔽阈值，如果是，则将当前处理频点标记为目标频点，并继续处理下一频点，直至指定频带范围内各频点处理完成，即可选取得到目标频点。

在一个具体的实施例中，在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，获取当前处理频点的通话环境噪声与当前处理频点的掩蔽阈值的比率；在比率大于预设比率时，将当前处理频点标记为目标频点。

其中，当前处理频点的通话环境噪声与当前处理频点的掩蔽阈值的比率大于预设比率时，说明当前处理频点的声音信号基本上被接收终端的通话环境噪声所掩蔽，提高了对目标频点的标记准确性。

在一个具体的实施例中，基于当前处理音频的所有目标频点，确定当前处理音频的掩蔽度，包括：获取各目标频点的功率谱之和；获取当前处理音频的所有频点的功率谱之和；确定各目标频点的功率谱之和在所有频点的功率谱之和的占比；将占比作为当前处理音频的掩蔽度。

功率谱可反映声音信号在频点的能量。目标频点的声音信号易被通话环境噪声所掩蔽，各目标频点的功率谱之和在所有频点的功率谱之和的占比，是反映通话音频被通话环境噪声掩蔽的程度。如果通话音频中大部分频点的声音信号都被通话环境噪声掩蔽了，说明接收终端的通话成员难以听清楚该通话音频，该通话音频不需要转发至接收终端。

本实施例中，根据各频点的通话环境噪声和掩蔽阈值选取易被掩蔽的目标频点，进而根据目标频点的功率谱之和在所有频点的功率谱之和的占比确定掩蔽度，这样，准确计算通话音频的掩蔽度，后续可实现对通话音频的精准选路。

步骤308，根据各掩蔽度对通话音频进行筛选后发送至接收终端。

本申请实施例中，在发送终端发送的通话音频易被接收终端的通话环境噪声所掩蔽时，可剔除该通话音频，将不易被接收终端的通话环境噪声所掩蔽的通话音频转发至接收终端，使得接收终端的通话成员能够听清楚接收的通话音频，同时减少服务器转发的通话音频的数量，减少服务器占用的网络带宽。

具体地，服务器根据掩蔽度，对参与多人通话的多个通话成员终端发送的通话音频进行筛选，得到目标通话音频，将目标通话音频发送至接收终端。

其中，目标通话音频的数量不大于该多个通话成员终端发送的通话音频的数量。服务器可以从参与多人通话的至少三路通话音频中选取出至少两路目标通话音频，从而减少服务器转发的通话音频的数量，以便向接收终端发送通话音频时能够减少占用的网络带宽，减少耗费的数据流量。

本实施例中，根据各掩蔽度对通话音频进行筛选可以包括以下几种方式：

(1)服务器根据各掩蔽度，从多个通话成员终端发送的通话音频中，选取掩蔽度小于筛选阈值的目标通话音频。

其中，掩蔽度小于筛选阈值，说明通话音频被接收终端的通话环境噪声所掩蔽的程度较低，接收终端的通话成员能够听清楚所转发的通话音频。

服务器可以遍历多个通话成员终端发送的通话音频，判断当前遍历的通话音频的掩蔽度是否小于筛选阈值，如果是，则将当前遍历的通话音频作为目标通话音频，并继续遍历下一路通话音频，直至该多个通话成员终端发送的通话音频遍历完成，即可选取得到至少两路目标通话音频。

例如，一个通话群组包括终端A、终端B、终端C和终端D，终端A、终端B和终端C对应的通话成员说话，而终端D对应的通话成员没有说话，则终端A、终端B和终端C发送的通话音频中均包含语音数据，终端D发送的通话音频中不包含语音数据，则以终端C作为接收终端，终端A、终端B和终端D作为发送终端。服务器从终端A、终端B和终端D发送的三路通话音频中选取终端A、终端B发送的通话音频作为目标通话音频，后续将终端A、终端B发送的通话音频发送给终端C，而不会将终端D发送的通话音频发送给终端C。

(2)服务器根据各掩蔽度，从多个通话成员终端发送的通话音频中选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频。

其中，预设数量不大于多个通话成员终端发送的通话音频的数量。该预设数量为大于1且不大于多个通话成员终端发送的通话音频的数量的整数。

服务器从多个通话成员终端发送的通话音频中，选取掩蔽度小于筛选阈值的通话音频，从选取的通话音频中选取掩蔽度最小的预设数量个目标通话音频，从而保证选取的目标通话音频受通话环境噪声影响小。

服务器可对选取的通话音频按照掩蔽度由小到大的顺序进行排序，按照排序选取前预设数量个通话音频作为目标通话音频。

例如，预设数量为2，终端A发送的通话音频的掩蔽度大于终端B发送的通话音频的掩蔽度，终端B发送的通话音频的掩蔽度大于终端C发送的通话音频的掩蔽度，则可以选取终端C和终端B分别发送的通话音频作为目标通话音频。

在一个实施例中，步骤308包括：从通话音频中选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频；将目标通话音频发送至接收终端，发送的目标通话音频用于指示接收终端将目标通话音频解码后混音播放；或者，对目标通话音频解码后进行混音处理，并将混音处理后的目标通话音频重新编码后发送至接收终端，发送的目标通话音频用于指示接收终端将目标通话音频解码后播放。

其中，预设数量是预先设置的筛选通话音频的数量。比如预先设置筛选3路通话音频进行混音播放。筛选阈值是筛选通话音频时对通话音频的掩蔽度的临界参数。在本实施例中，在通话音频的掩蔽度小于筛选阈值时，才会可能被选为目标通话音频。

具体地，服务器可从多个通话成员终端发送的通话音频中，选取掩蔽度小于筛选阈值的候选通话音频，再从候选通话音频中选取预设数量的目标通话音频。服务器可再将这些目标通话音频发送至接收终端，由接收终端对这些目标通话音频进行解码，在对解码后的目标通话音频混音后播放。这样可以减少环境噪声对通话过程的影响。

服务器也可先将这些目标通话音频解码，然后对解码后的目标通话语音进行混音后再重新编码，再将重新编码后的通话音频发送至终端，接收终端直接解码播放即可。这样可以一方面可以减少环境噪声对通话过程的影响，另一方面可以减少终端的工作量，减少终端的后台数据处理对通话过程的影响。

在一个实施例中，步骤308包括：从通话音频中选取掩蔽度小于第一阈值的第一目标通话音频；对于掩蔽度大于或等于筛选阈值的候选通话音频，当候选通话音频的重要度高于第二阈值时，对候选通话音频进行增强得到第二目标通话音频；将第一目标通话音频和第二目标通话音频发送至接收终端，以解码后混音播放；或者，对第一目标通话音频和第二目标通话音频解码后进行混音处理，并将混音处理后的通话音频重新编码后发送至接收终端以解码播放。

其中，重要度表示通话音频内容的重要程度。重要度越高表示通话音频内容越重要。可以理解，对于掩蔽度大于或等于第一阈值的候选通话音频，由于其容易被背景噪声掩蔽，可以将其过滤掉以节省网络资源。然而，在候选通话音频比较重要时，若将该候选通话音频过滤掉可能导致接收终端错过重要信息。

具体地，对于掩蔽度大于或等于第一阈值的候选通话音频，服务器可评估该候选通话音频的重要度，判断该候选通话音频的重要度是否高于第二阈值。在该候选通话音频的重要度高于第二阈值时，认为该候选通话音频比较重要不应当被过滤掉，但其又容易被背景噪声掩蔽。此时，服务器可对候选通话音频进行增强得到第二目标通话音频，将第一目标通话音频和第二目标通话音频发送至接收终端，以在接收终端解码后混音播放；或者，对第一目标通话音频和第二目标通话音频解码后进行混音处理，并将混音处理后的通话音频重新编码后发送至接收终端，以在接收终端直接解码播放。

其中，评估通话音频的重要度可通过自然语言处理或者其它处理实现。自然语言处理可以是通过训练好的自然语言模型进行分析。该自然语言模型具体可以是端到端的模型，输入端为音频数据或者音频数据转化得到的文本数据，输出端为重要度。自然语言模型可以为多层网络结构，不同的网络层对输入其的数据进行不同的处理，并输出处理结果至下一网络层。

在一个实施例中，可对候选通话音频在音量层面上进行增强处理。可建立增强处理强度与候选通话音频的掩蔽度之间的对应关系，比如候选通话音频的掩蔽度高，那么增强处理强度大。

例如，以终端F作为接收终端，终端A、终端B、终端C、终端D和终端E作为发送终端，服务器从终端A、终端B、终端C、终端D、终端E发送的五路通话音频中，选取掩蔽度大于或等于筛选阈值的终端A、终端B发送的通话音频。服务器通过分析，发现终端A发送的通话音频的重要度大于第二阈值，而终端B发送的通话音频的重要度小于第二阈值，那么对终端A发送的通话音频进行增强处理，并将增强处理后的通话音频发送至终端F，这样，终端F可清晰地收听终端A发送的通话音频。

本实施例中，在通话音频的掩蔽度大于或等于筛选阈值时，若该通话音频重要，则对该通话音频进行增强处理，避免接收终端错过重要信息。

在一个实施例中，步骤302包括：获取参与多人通话的各通话成员终端发送的通话音频；根据各通话音频的音频特征，从通话音频中初步筛选出多个通话音频；获取初步筛选出的多个通话音频。

步骤308包括：根据各掩蔽度对多个通话音频进行二次筛选；将二次筛选出的通话音频发送至接收终端。

其中，音频特征可以是VAD(Voice Activity Detection，活动语音检测)信息、音频能量、环境噪声等。VAD信息用于表征通话音频中是否包含语音数据。音频能量用于表征通话音频中是否有声音及所包含的声音大小，比如通话音频中仅包含语音数据时，语音音量越大，音频能量越高。

考虑到人耳对同一时间来自不同声源的混合信号的辨识能力有限，比如通常情况下同一时间人耳只能识别四路以下的声音信号，当同一时间声音信号达到或者超过四路，人耳对混音后的声音信号难以辨识。故可通过音频特征，从多个通话成员终端发送的通话音频中初步筛选出多个通话音频，根据掩蔽度对多个通话音频进行二次筛选，选取掩蔽度小于筛选阈值的目标通话音频，从而减少服务器转发的通话音频的数量。

在一个具体的实施例中，终端采集通话音频后，经过编码、打包后发送至服务器，服务器对接收到的音频编码数据进行解码，由此获取到多个终端发送的通话音频，对通话音频进行特征提取得到音频特征。

或者，终端采集通话音频后，可对通话音频进行特征提取得到音频特征，并将音频特征和音频编码数据一起发送至服务器。这样，采用分布式处理，在发送终端对通话音频进行处理得到音频特征，在服务器中对通话音频进行选路处理，节省了计算资源，减少了网络带宽的占用。

在一个具体的实施例中，采用音频选路策略、根据音频特征从多个通话成员终端发送的通话音频中初步筛选出多个通话音频。其中，音频选路策略可以是音频选路算法。

在一个具体的实施例中，服务器根据音频特征从至少三路通话音频中初步筛选出至少两路通话音频，至少两路通话音频的数量不大于至少三路通话音频的数量。服务器可根据至少三路通话音频的VAD信息，从至少三路通话音频中选取包含语音数据的至少两路通话音频。或者，服务器可根据至少三路通话音频的VAD信息和音频能量，从至少三路通话音频中，选取包含语音数据的通话音频中，音频能量最大的预设数量个通话音频。或者，服务器可根据至少三路通话音频的VAD信息、音频能量和环境噪声，从至少三路通话音频中，选取包含语音数据的通话音频中，音频能量最大且环境噪声最少的预设数量个通话音频。其中，预设数量小于至少三路通话音频的数量，该预设数量为大于1且小于至少三路通话音频的数量的整数。

本实施例中，服务器通过音频特征从多个通话成员终端发送的通话音频中初步筛选出多个通话音频，接着根据掩蔽度对多个通话音频进行二次筛选，这样，根据掩蔽度对多个通话音频进行二次筛选，可剔除被接收终端的通话环境噪声所掩蔽的通话音频，保证接收终端的通话成员能够听清楚所转发的通话音频；并且对多个通话成员终端发送的通话音频进行初步筛选和二次筛选，减少了服务器转发的通话音频的数量，向接收终端发送通话音频时能够减少占用的网络带宽，减小耗费的数据流量，从而提升多人通话过程的通话质量。

基于上述实施例，根据各掩蔽度对通话音频进行筛选还可以包括以下几种方式：

(3)服务器根据音频特征，从多个通话成员终端发送的通话音频中初步筛选出多个通话音频；根据各掩蔽度对多个通话音频进行二次筛选，选取掩蔽度小于筛选阈值的目标通话音频。

服务器可以遍历多个通话成员终端发送的通话音频，判断当前遍历的通话音频的音频特征是否满足选中条件，如果是，则选中当前遍历的通话音频，并继续遍历下一路通话音频，直至该多个通话成员终端发送的通话音频遍历完成，即可选取得到多个通话音频。之后，服务器根据各掩蔽度对多个通话音频进行二次筛选的过程与上述方式(1)类似。

其中，选中条件可以是：包含语音数据；或者，包含语音数据且音频能量大；或者，包含语音数据、音频能量大且环境噪声少等。

例如，以终端F作为接收终端，终端A、终端B、终端C、终端D和终端E作为发送终端，服务器根据音频特征，从终端A、终端B、终端C、终端D、终端E发送的五路通话音频中初步筛选出终端A、终端B、终端C、终端D发送的通话音频；服务器根据掩蔽度从终端A、终端B、终端C、终端D发送的四路通话音频中二次筛选出终端A、终端B发送的通话音频作为目标通话音频，后续会将终端A、终端B发送的通话音频发送给终端F，而不会将终端C、终端D和终端E发送的通话音频发送给终端F。

(4)服务器根据音频特征，从多个通话成员终端发送的通话音频中初步筛选出预设数量的通话音频；根据各掩蔽度对预设数量的通话音频进行二次筛选，选取掩蔽度小于筛选阈值的目标通话音频。

服务器从多个通话成员终端发送的通话音频中，选取预设数量的、且音频特征满足选中条件的通话音频。服务器可按照音频特征对选取的通话音频进行排序，按照排序选取前预设数量个通话音频。比如，包含语音数据的通话音频排在不包含语音数据的通话音频之前，且包含语音数据的通话音频中，音频能量较大的通话音频排在音频能量较小的通话音频之前。之后，服务器根据各掩蔽度对多个通话音频进行二次筛选的过程与上述方式(1)类似。

例如，预设数量为4，终端A、终端B、终端C、终端D和终端E发送的通话音频均包含语音数据，且音频能量由高至低排序为：终端A、终端B、终端C、终端D和终端E，则可以选取终端A、终端B、终端C、终端D分别发送的通话音频。之后，服务器根据掩蔽度从终端A、终端B、终端C、终端D发送的四路通话音频中二次筛选出终端A、终端B发送的通话音频作为目标通话音频，后续会将终端A、终端B发送的通话音频发送给终端F。

(5)服务器根据音频特征，从多个通话成员终端发送的通话音频中初步筛选出多个通话音频；根据各掩蔽度对多个通话音频进行二次筛选，选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频。

服务器根据音频特征，从多个通话成员终端发送的通话音频中初步筛选出多个通话音频的过程与上述方式(3)类似。服务器根据各掩蔽度对多个通话音频进行二次筛选的过程与上述方式(2)类似。

例如，以终端F作为接收终端，终端A、终端B、终端C、终端D和终端E作为发送终端，服务器根据音频特征，从终端A、终端B、终端C、终端D、终端E发送的五路通话音频中初步筛选出终端A、终端B、终端C发送的通话音频；预设数量为2，终端A发送的通话音频的掩蔽度大于终端B发送的通话音频的掩蔽度，终端B发送的通话音频的掩蔽度大于终端C发送的通话音频的掩蔽度，则可以选取终端C和终端B分别发送的通话音频作为目标通话音频。

在一个实施例中，服务器对至少两路目标通话音频进行混音，将混音后的目标通话音频发送给接收终端，接收终端对混音后的目标通话音频解码后播放。

或者，接收终端接收服务器发送的至少两路目标通话音频，对至少两路目标通话音频进行解码，将解码后的至少两路目标通话音频进行混音，播放混音后的目标通话音频，这样，采用分布式处理，在服务器中对通话音频进行选路处理，在接收终端对通话音频进行混音，节省了计算资源，减少了网络带宽的占用。

上述通话音频处理方法中，获取参与多人通话的多个通话成员终端发送的通话音频，将参与多人通话的其中一个通话成员终端选为接收终端，获取该接收终端的通话环境噪声，根据通话环境噪声和各通话音频的掩蔽阈值确定各通话音频的掩蔽度，并根据各掩蔽度对通话音频进行筛选后发送至接收终端，这样，根据掩蔽度对参与多人通话的多个终端发送的通话音频进行筛选，可剔除易被接收终端的通话环境噪声所掩蔽的通话音频，使得接收终端的通话成员能够听清楚接收的通话音频；并且减少了服务器转发的通话音频的数量，减少了服务器占用的网络带宽，从而提升了多人通话过程的通话质量。

并且，本实施例可采用分布式处理，在发送终端对通话音频进行处理得到掩蔽阈值，在接收终端对通话音频进行处理得到通话环境噪声，在服务器中对通话音频进行选路处理，发送终端、服务器和接收终端对通话音频的分布式处理，节省了计算资源，减少了网络带宽的占用。

可以理解，也可根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的未掩蔽度，未掩蔽度表示通话音频未被通话环境噪声掩蔽的程度，根据各未掩蔽度对通话音频进行筛选后发送至接收终端。

在一个实施例中，根据各频点的通话环境噪声和掩蔽阈值，确定当前处理音频的未掩蔽度，包括：将各频点依次作为当前处理频点；在当前处理频点的通话环境噪声小于或等于当前处理频点的掩蔽阈值时，将当前处理频点标记为参考频点；基于当前处理音频的所有参考频点，确定当前处理音频的未掩蔽度。

其中，当前处理频点的通话环境噪声小于或等于当前处理频点的掩蔽阈值，说明当前处理频点的声音信号不易被接收终端的通话环境噪声所掩蔽。

具体地，服务器对指定频带范围内各频点依次进行处理，判断当前处理频点的通话环境噪声是否小于或等于当前处理频点的掩蔽阈值，如果是，则将当前处理频点标记为参考频点，并继续处理下一频点，直至指定频带范围内各频点处理完成，即可选取得到参考频点。

在一个具体的实施例中，基于当前处理音频的所有参考频点，确定当前处理音频的未掩蔽度，包括：获取各参考频点的功率谱之和；获取当前处理音频的所有频点的功率谱之和；确定各参考频点的功率谱之和在所有频点的功率谱之和的占比；将占比作为当前处理音频的未掩蔽度。

功率谱可反映声音信号在频点的能量。参考频点的声音信号不易被通话环境噪声所掩蔽，各参考频点的功率谱之和在所有频点的功率谱之和的占比，是反映通话音频未被通话环境噪声掩蔽的程度。如果通话音频中大部分频点的声音信号都未被通话环境噪声掩蔽，说明接收终端的通话成员可以听清楚该通话音频，该通话音频可以转发至接收终端。

在一个实施例中，根据各未掩蔽度对通话音频进行筛选后发送至接收终端，包括：根据各掩蔽度，从多个通话成员终端发送的通话音频中，选取未掩蔽度大于或等于筛选阈值的目标通话音频。

本实施例中，准确计算通话音频的未掩蔽度，根据未掩蔽度实现对通话音频的精准选路。

在一个实施例中，获取当前处理音频在指定频带范围内各频点的通话环境噪声，包括：将各频点依次作为当前处理频点；对当前处理频点的功率谱进行时频域平滑处理，得到平滑功率谱；通过窗函数对平滑功率谱进行最小值搜索，得到局部最小值；根据平滑功率谱和局部最小值确定语音存在概率；根据语音存在概率确定当前处理频点的通话环境噪声。

通话环境噪声可通过以下公式进行计算：

其中，

为第i帧、第k频点的通话环境噪声；

为第i帧、第k频点的语音存在概率；

为第i-1帧、第k频点的通话环境噪声；S(i,k)为通话音频在频域的功率谱。

通过公式(4)可以看出，计算通话环境噪声，需要先计算得到当前处理频点的语音存在概率，而语音存在概率是通过当前处理频点的功率谱和局部最小值确定的。因此为了得到当前处理频点的局部最小值，首先，需要先对当前处理频点的功率谱进行时频域平滑处理，可通过如下公式进行表示：

对当前处理频点的功率谱进行频域平滑处理：

其中，b(j+w)为频域平滑加权因子组。

当前处理频点的功率谱进行时域平滑处理，采用一个一阶的递归平均：

其中，

为第i帧、第k频点的平滑功率谱；α₀为时域平滑因子。

接着，采用最小值跟踪法搜索局部最小值，即在指定窗长L帧中通过窗函数对平滑功率谱进行最小值搜索，可通过如下公式进行表示：

其中，S_min(i,k)为第i帧、第k频点的局部最小值；S_tmp(i.k)为第i帧、第k频点的临时值。

每过L帧，对临时值S_tmp(i.k)进行如下更新：

接着，根据平滑功率谱和局部最小值确定语音存在概率。先确定平滑功率谱与局部最小值之间的比值，可通过如下公式进行表示：

根据比值与预设比值之间的大小关系，确定即时语音存在概率，可通过如下公式进行表示：

其中，p(i,k)为第i帧、第k频点的即时语音存在概率，p(i,k)＝1代表第i帧、第k频点存在语音数据，p(i,k)＝0代表第i帧、第k频点不存在语音数据。

基于即时语音存在概率确定语音存在概率，可通过如下公式进行计算：

其中，

为为第i帧、第k频点的语音存在概率；α_p为平滑系数；

为第i-1帧、第k频点的语音存在概率；p(i,k)为第i帧、第k频点的即时语音存在概率。

接着，根据语音存在概率和上述公式(4)计算当前处理频点的通话环境噪声。

本实施例中，获取通话音频在指定频带范围内各频点的通话环境噪声，后续对于指定频带范围的每个频点进行分析，进而提高音频信号分析的准确度。

在一个实施例中，获取当前处理音频在指定频带范围内各频点的掩蔽阈值，包括：将各频点依次作为当前处理频点；确定当前处理频点所属的临界频带；获取临界频带的全局掩蔽阈值；根据全局掩蔽阈值确定当前处理频点的掩蔽阈值。

其中，在音频信号的频谱中，人耳对不同频率的音频信号的感知是不相同的。为了从人耳感知角度统一度量声音频率，引入临界频带，将人耳感知程度相同的声音频率归为同一临界频带。参照图4，图4为一个实施例中临界频带的示意图，可划分为24个临界频带。

首先，确定当前处理频点所属的临界频带，即确定当前处理频点相应的临界频带号，可通过如下公式进行计算：

z(f)＝13*arctan(0.76*f)+3.5*arctan(f/7.5)² (14)

其中，f为频点；z(f)为频点f相应的临界频带号。

接着，获取临界频带的全局掩蔽阈值，包括：获取所述临界频带的临界频带功率谱；通过扩展函数对所述临界频带功率谱进行扩展，得到扩展功率谱；根据所述扩展功率谱确定所述全局掩蔽阈值。

具体地，先获取临界频带的临界频带功率谱。临界频带功率谱根据该临界频带内各个频点的功率谱值之和确定，可通过如下公式进行计算：

其中，B(i,z)为第i帧、第z个临界频带的临界频带功率谱；b2(m)、b1(m)为临界频带的频率范围界限；P(i,l)为第i帧、第l频点的功率谱值。

人耳对不同的临界频带的感知能力各不相同，导致带间的掩蔽效应，其影响强弱与临界频带之间的距离有关系，通常来说距离越远，作用越小。考虑到带间的相互影响，通过扩展函数对临界频带功率谱进行扩展。扩展函数与临界频带之间的距离有关，可通过如下公式进行表示：

其中，δz为带间距离。比如δz＝m-n，m、n分别为临界频带号。

通过扩展函数对临界频带功率谱进行扩展，得到扩展功率谱，可通过如下公式进行表示：

C(i,z)＝B(i,z)×SF(δz) (17)

其中，C(i,z)为第i帧、第z个临界频带的扩展功率谱；SF(δz)为扩展函数。

确定扩展功率谱下的全局掩蔽阈值，可通过如下公式进行计算：

由公式(18)得到的全局掩蔽阈值是针对扩展功率谱而言的，需要将上述结果进行归一化处理重新变换到临界频带。比如，可将T(i,z)与功率增益相除，之后对其进行频域扩展，得到临界频带的全局掩蔽阈值。

但是，还需要考虑临界频带的绝对听觉阈值。绝对听觉阈值是特定频率的纯净语音在无环境噪声的情况下，由统计得出的可听声强度，声音信号中声强度低于绝对听觉阈值的频率是不会被人耳察觉的。

临界频带的绝对听觉阈值可通过如下公式进行计算：

T_abs(z)＝3.64*(btof(z))^-0.8-6.5exp((btof(z))-3.3)²+10^-3(btof(z))⁴ (19)

其中，btof(z)为第z个临界频带相应的中心频率，可通过图4查表得到。

将计算得到的临界频带的绝对听觉阈值和绝对听觉阈值中的最大值，作为最终的临界频带的全局掩蔽阈值，可通过如下公式进行表示：

T'(i,z)＝max(T(i,z),T_abs(z)) (20)

接着，根据全局掩蔽阈值确定当前处理频点的掩蔽阈值。可通过如下公式进行计算：

P_mask(i,f)＝10^0.05*(T'^(i,z(f))) (21)

其中，P_mask(i,f)为第i帧、第f个频点的掩蔽阈值；T'(i,z(f)为第i帧、第z(f)个临界频带的全局掩蔽阈值。

本实施例中，获取通话音频在指定频带范围内各频点的掩蔽阈值，后续对于指定频带范围的每个频点进行分析，进而提高音频信号分析的准确度。

本申请还提供一种应用场景，该应用场景应用上述的通话音频处理方法。该应用场景如下：至少三个终端加入同一通话群组中，该至少三个终端可以进行通话。该通话群组可以是语音通话群组，也可以是视频通话群组，即至少三个终端可以进行语音通话，也可以进行视频通话。语音通话或者视频通话可以为VOIP(Voice over Internet Protocol，网络电话)多人会议场景或者其他场景。在通话过程中，发送语音数据的终端为发送终端，接收其它终端所发送的语音数据的终端为接收终端。通话群组中的每个终端，既可以是发送终端，也可以是接收终端。

在一种可能实现方式中，如图5所示，该通话音频处理方法在该应用场景的应用如下：

步骤502，获取参与多人通话的多个通话成员终端发送的通话音频。

步骤504，对各通话音频进行频域转换处理，得到各通话音频在频域的功率谱。

步骤506，将参与多人通话的其中一个通话成员终端选为接收终端，根据接收终端发送的通话音频的功率谱，确定接收终端的通话音频在指定频带范围内各频点的通话环境噪声。

步骤508，从参与多人通话的通话成员终端中确定多于一个发送终端，将各发送终端发送的通话音频依次作为当前处理音频，根据当前处理音频的功率谱，确定当前处理音频在指定频带范围内各频点的掩蔽阈值。

步骤510，将各频点依次作为当前处理频点，在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，获取当前处理频点的通话环境噪声与当前处理频点的掩蔽阈值的比率，且在比率大于预设比率时，将当前处理频点标记为目标频点。

步骤512，获取各目标频点的功率谱值之和，获取当前处理音频的所有频点的功率谱值之和，确定各目标频点的功率谱值之和在所有频点的功率谱值之和的占比，并将占比作为当前处理音频的掩蔽度。

步骤514，从发送终端发送的通话音频中选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频，将目标通话音频发送至接收终端。

其中，目标通话音频用于指示接收终端将目标通话音频解码后混音播放；或者，对目标通话音频解码后进行混音处理，并将混音处理后的目标通话音频重新编码后发送至接收终端，发送的目标通话音频用于指示接收终端将目标通话音频解码后播放。

具体地，参照图7，图7为一个实施例中多人通话过程的流程示意图。可以看到，服务器根据发送终端发送的通话音频获取掩蔽阈值，根据接收终端发送的通话音频获取通话环境噪声，对掩蔽阈值和通话环境噪声进行心理声学掩蔽分析，从发送终端发送的通话音频中选取目标通话音频，将目标通话音频发送至接收终端，收终端将目标通话音频解码后混音播放。

本实施例中，根据掩蔽度对参与多人通话的多个终端发送的通话音频进行筛选，可剔除易被接收终端的通话环境噪声所掩蔽的通话音频，使得接收终端的通话成员能够听清楚接收的通话音频；并且减少了服务器转发的通话音频的数量，减少了服务器占用的网络带宽，从而提升了多人通话过程的通话质量。

在一种可能实现方式中，如图6所示，该通话音频处理方法在该应用场景的应用如下：

步骤602，获取参与多人通话的各发送终端发送的通话音频，根据各发送终端发送的通话音频的音频特征，从发送终端发送的通话音频中初步筛选出多个通话音频，将初步筛选出的多个通话音频依次作为当前处理音频。

步骤604，对当前处理音频进行频域转换处理，得到当前处理音频在频域的功率谱，根据当前处理音频的功率谱，确定当前处理音频在指定频带范围内各频点的掩蔽阈值。

步骤606，将参与多人通话的其中一个通话成员终端选为接收终端，获取接收终端发送的通话音频，对接收终端的通话音频进行频域转换处理，得到接收终端的通话音频在频域的功率谱。

步骤608，根据接收终端的通话音频在频域的功率谱，确定接收终端的通话音频在指定频带范围内各频点的通话环境噪声。

步骤610，将各频点依次作为当前处理频点，在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，获取当前处理频点的通话环境噪声与当前处理频点的掩蔽阈值的比率，且在比率大于预设比率时，将当前处理频点标记为目标频点。

步骤612，获取各目标频点的功率谱值之和，获取当前处理音频的所有频点的功率谱值之和，确定各目标频点的功率谱值之和在所有频点的功率谱值之和的占比，并将占比作为当前处理音频的掩蔽度。

步骤614，从初步筛选出的多个通话音频中二次选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频，将目标通话音频发送至接收终端。

具体地，参照图8，图8为另一个实施例中多人通话过程的流程示意图。可以看到，服务器对发送终端发送的通话音频提取音频特征，根据音频特征初步筛选出的多个通话音频；接着根据多个通话音频获取掩蔽阈值，根据接收终端发送的通话音频获取通话环境噪声，对掩蔽阈值和通话环境噪声进行心理声学掩蔽分析，从初步筛选出的多个通话音频中二次选取目标通话音频，将目标通话音频发送至接收终端，收终端将目标通话音频解码后混音播放。

应该理解的是，虽然图3、图5、图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3、图5、图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种通话音频处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块902、确定模块904和筛选模块906，其中：

获取模块902，用于获取参与多人通话的多个通话成员终端发送的通话音频；

获取模块902，还用于将参与多人通话的其中一个通话成员终端选为接收终端，获取接收终端的通话环境噪声；

确定模块904，用于根据通话环境噪声和各通话音频的掩蔽阈值，确定各通话音频的掩蔽度；掩蔽度表示通话音频被通话环境噪声掩蔽的程度；

筛选模块906，用于根据各掩蔽度对通话音频进行筛选后发送至接收终端。

在一个实施例中，获取模块902，还用于：将参与多人通话的其中一个通话成员终端选为接收终端，确定接收终端发送的通话音频；对通话音频进行频域转换处理，得到通话音频在频域的功率谱；根据功率谱确定接收终端的通话环境噪声。

在一个实施例中，确定模块904，还用于：将各通话音频依次作为当前处理音频；获取当前处理音频在指定频带范围内各频点的掩蔽阈值；获取当前处理音频在指定频带范围内各频点的通话环境噪声；根据各频点的通话环境噪声和掩蔽阈值，确定当前处理音频的掩蔽度。

在一个实施例中，确定模块904，还用于：将各频点依次作为当前处理频点；在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，将当前处理频点标记为目标频点；基于当前处理音频的所有目标频点，确定当前处理音频的掩蔽度。

在一个实施例中，确定模块904，还用于：获取各目标频点的功率谱值之和；获取当前处理音频的所有频点的功率谱值之和；确定各目标频点的功率谱值之和在所有频点的功率谱值之和的占比；将占比作为当前处理音频的掩蔽度。

在一个实施例中，确定模块904，还用于：在当前处理频点的通话环境噪声大于当前处理频点的掩蔽阈值时，获取当前处理频点的通话环境噪声与当前处理频点的掩蔽阈值的比率；在比率大于预设比率时，将当前处理频点标记为目标频点。

在一个实施例中，确定模块904，还用于：将各频点依次作为当前处理频点；确定当前处理频点所属的临界频带；获取临界频带的全局掩蔽阈值；根据全局掩蔽阈值确定当前处理频点的掩蔽阈值。

在一个实施例中，确定模块904，还用于：获取临界频带的临界频带功率谱；通过扩展函数对临界频带功率谱进行扩展，得到扩展功率谱；根据扩展功率谱确定全局掩蔽阈值。

在一个实施例中，确定模块904，还用于：将各频点依次作为当前处理频点；对当前处理频点的功率谱进行时频域平滑处理，得到平滑功率谱；通过窗函数对平滑功率谱进行最小值搜索，得到局部最小值；根据平滑功率谱和局部最小值确定语音存在概率；根据语音存在概率确定当前处理频点的通话环境噪声。

在一个实施例中，确定模块904，还用于：确定平滑功率谱与局部最小值之间的比值；根据比值与预设比值之间的大小关系，确定即时语音存在概率；基于即时语音存在概率确定语音存在概率。

在一个实施例中，筛选模块906，还用于：从通话音频中选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频；将目标通话音频发送至接收终端，发送的目标通话音频用于指示接收终端将目标通话音频解码后混音播放；或者，对目标通话音频解码后进行混音处理，并将混音处理后的目标通话音频重新编码后发送至接收终端，发送的目标通话音频用于指示接收终端将目标通话音频解码后播放。

在一个实施例中，获取模块902，还用于：获取参与多人通话的各通话成员终端发送的通话音频；根据各通话音频的音频特征，从通话音频中初步筛选出多个通话音频；获取初步筛选出的多个通话音频；筛选模块906，还用于：根据各掩蔽度对多个通话音频进行二次筛选；将二次筛选出的通话音频发送至接收终端。

在一个实施例中，筛选模块906，还用于：从所述通话音频中选取掩蔽度小于第一阈值的第一目标通话音频；对于掩蔽度大于或等于筛选阈值的候选通话音频，当所述候选通话音频的重要度高于第二阈值时，对所述候选通话音频进行增强得到第二目标通话音频；将所述第一目标通话音频和所述第二目标通话音频发送至所述接收终端，以解码后混音播放；或者，对所述第一目标通话音频和第二目标通话音频解码后进行混音处理，并将混音处理后的通话音频重新编码后发送至所述接收终端以解码播放。

上述通话音频处理装置中，获取参与多人通话的多个通话成员终端发送的通话音频，将参与多人通话的其中一个通话成员终端选为接收终端，获取该接收终端的通话环境噪声，根据通话环境噪声和各通话音频的掩蔽阈值确定各通话音频的掩蔽度，并根据各掩蔽度对通话音频进行筛选后发送至接收终端，这样，根据掩蔽度对参与多人通话的多个终端发送的通话音频进行筛选，可剔除易被接收终端的通话环境噪声所掩蔽的通话音频，使得接收终端的通话成员能够听清楚接收的通话音频；并且减少了服务器转发的通话音频的数量，减少了服务器占用的网络带宽，从而提升了多人通话过程的通话质量。

关于通话音频处理装置的具体限定可以参见上文中对于通话音频处理方法的限定，在此不再赘述。上述通话音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储通话音频处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通话音频处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种通话音频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

比如，本实施例可采用分布式处理，在发送终端对通话音频进行处理得到掩蔽阈值，在接收终端对通话音频进行处理得到通话环境噪声，在服务器中对通话音频进行选路处理，发送终端、服务器和接收终端对通话音频的分布式处理，节省了计算资源，减少了网络带宽的占用。

本领域技术人员可以理解，图10、图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种通话音频处理方法，其特征在于，所述方法包括：

获取参与多人通话的多个通话成员终端发送的通话音频；

将参与所述多人通话的其中一个通话成员终端选为接收终端，获取所述接收终端的通话环境噪声；

根据所述通话环境噪声和各所述通话音频的掩蔽阈值，确定各所述通话音频的掩蔽度；所述掩蔽度表示所述通话音频被所述通话环境噪声掩蔽的程度；

根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端。

2.根据权利要求1所述的方法，其特征在于，所述将参与所述多人通话的其中一个通话成员终端选为接收终端，获取所述接收终端的通话环境噪声，包括：

将参与所述多人通话的其中一个通话成员终端选为所述接收终端，确定所述接收终端发送的通话音频；

对所述接收终端的通话音频进行频域转换处理，得到所述接收终端的通话音频在频域的功率谱；

根据所述功率谱确定所述接收终端的通话环境噪声。

3.根据权利要求1所述的方法，其特征在于，所述将参与所述多人通话的其中一个通话成员终端选为接收终端，获取所述接收终端的通话环境噪声，包括：

获取所述接收终端的通话音频在指定频带范围内各频点的通话环境噪声；

所述根据所述通话环境噪声和各所述通话音频的掩蔽阈值，确定各所述通话音频的掩蔽度，包括：

将各所述通话音频依次作为当前处理音频；

获取所述当前处理音频在所述指定频带范围内各频点的掩蔽阈值；

根据各频点的通话环境噪声和掩蔽阈值，确定所述当前处理音频的掩蔽度。

4.根据权利要求3所述的方法，其特征在于，所述根据各频点的通话环境噪声和掩蔽阈值，确定所述当前处理音频的掩蔽度，包括：

将各频点依次作为当前处理频点；

在所述当前处理频点的通话环境噪声大于所述当前处理频点的掩蔽阈值时，将所述当前处理频点标记为目标频点；

基于所述当前处理音频的所有目标频点，确定所述当前处理音频的掩蔽度。

5.根据权利要求4所述的方法，其特征在于，所述基于所述当前处理音频的所有目标频点，确定所述当前处理音频的掩蔽度，包括：

获取各所述目标频点的功率谱之和；

获取所述当前处理音频的所有频点的功率谱之和；

确定各所述目标频点的功率谱之和在所有频点的功率谱之和的占比；

将所述占比作为所述当前处理音频的掩蔽度。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述当前处理频点的通话环境噪声大于所述当前处理频点的掩蔽阈值时，获取所述当前处理频点的通话环境噪声与所述当前处理频点的掩蔽阈值的比率；

在所述比率大于预设比率时，将所述当前处理频点标记为所述目标频点。

7.根据权利要求3所述的方法，其特征在于，所述获取所述当前处理音频在指定频带范围内各频点的掩蔽阈值，包括：

将各频点依次作为当前处理频点；

确定所述当前处理频点所属的临界频带；

获取所述临界频带的全局掩蔽阈值；

根据所述全局掩蔽阈值确定所述当前处理频点的掩蔽阈值。

8.根据权利要求7所述的方法，其特征在于，所述获取所述临界频带的全局掩蔽阈值，包括：

获取所述临界频带的临界频带功率谱；

通过扩展函数对所述临界频带功率谱进行扩展，得到扩展功率谱；

根据所述扩展功率谱确定所述全局掩蔽阈值。

9.根据权利要求3所述的方法，其特征在于，所述获取所述当前处理音频在所述指定频带范围内各频点的通话环境噪声，包括：

将各频点依次作为当前处理频点；

对所述当前处理频点的功率谱进行时频域平滑处理，得到平滑功率谱；

通过窗函数对所述平滑功率谱进行最小值搜索，得到局部最小值；

根据所述平滑功率谱和所述局部最小值确定语音存在概率；

根据所述语音存在概率确定所述当前处理频点的通话环境噪声。

10.根据权利要求9所述的方法，其特征在于，所述根据所述平滑功率谱和所述局部最小值确定语音存在概率，包括：

确定所述平滑功率谱与所述局部最小值之间的比值；

根据所述比值与预设比值之间的大小关系，确定即时语音存在概率；

基于所述即时语音存在概率确定所述语音存在概率。

11.根据权利要求1所述的方法，其特征在于，所述根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端，包括：

从所述通话音频中选取预设数量的、且掩蔽度小于筛选阈值的目标通话音频；

将所述目标通话音频发送至所述接收终端，发送的所述目标通话音频用于指示所述接收终端将所述目标通话音频解码后混音播放；或者，

对所述目标通话音频解码后进行混音处理，并将混音处理后的目标通话音频重新编码后发送至所述接收终端，发送的所述目标通话音频用于指示所述接收终端将所述目标通话音频解码后播放。

12.根据权利要求1所述的方法，其特征在于，所述获取参与多人通话的多个通话成员终端发送的通话音频，包括：

获取参与多人通话的各通话成员终端发送的通话音频；

根据各所述通话音频的音频特征，从所述通话音频中初步筛选出多个通话音频；

获取初步筛选出的所述多个通话音频；

所述根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端，包括：

根据各所述掩蔽度对所述多个通话音频进行二次筛选；

将二次筛选出的通话音频发送至所述接收终端。

13.根据权利要求1所述的方法，其特征在于，所述根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端，包括：从所述通话音频中选取掩蔽度小于第一阈值的第一目标通话音频；

对于掩蔽度大于或等于筛选阈值的候选通话音频，当所述候选通话音频的重要度高于第二阈值时，对所述候选通话音频进行增强得到第二目标通话音频；

将所述第一目标通话音频和所述第二目标通话音频发送至所述接收终端，以解码后混音播放；或者，

对所述第一目标通话音频和第二目标通话音频解码后进行混音处理，并将混音处理后的通话音频重新编码后发送至所述接收终端以解码播放。

14.一种通话音频处理装置，其特征在于，所述装置包括：

所述获取模块，还用于将参与所述多人通话的其中一个通话成员终端选为接收终端，获取所述接收终端的通话环境噪声；

确定模块，用于根据所述通话环境噪声和各所述通话音频的掩蔽阈值，确定各所述通话音频的掩蔽度；所述掩蔽度表示所述通话音频被所述通话环境噪声掩蔽的程度；

筛选模块，用于根据各所述掩蔽度对所述通话音频进行筛选后发送至所述接收终端。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。