CN118158594A

CN118158594A - 音频处理方法、装置、音频播放设备以及存储介质

Info

Publication number: CN118158594A
Application number: CN202211560298.2A
Authority: CN
Inventors: 练添富; 吴连俊
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2024-06-07

Abstract

本申请实施例公开了一种音频处理方法、装置、音频播放设备以及存储介质。所述方法包括：获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。通过该方法实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

Description

音频处理方法、装置、音频播放设备以及存储介质

技术领域

本申请涉及通信技术领域，更具体地，涉及一种音频处理方法、装置、音频播放设备以及存储介质。

背景技术

用户使用耳机时环境噪声是复杂变化的，例如在办公室、地铁或者街道上行走，用户佩戴耳机听音乐/通话时受到外界环境噪声的干扰程度不同。为了提升用户体验，越来越多的耳机配置了声音调整功能，以减少外界环境噪声对耳机听音的影响，然而，现有的声音调整方式仍有待改善。

发明内容

鉴于上述问题，本申请提出了一种音频处理方法、装置、音频播放设备以及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种音频处理方法，应用于音频播放设备，所述方法包括：获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

第二方面，本申请实施例提供了一种音频处理方法，应用于音频播放设备，所述方法包括：获取环境声的特征信息；根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

第三方面，本申请实施例提供了一种音频处理装置，运行于音频播放设备，所述装置包括：第一特征信息获取模块，用于获取环境声的特征信息；第二特征信息获取模块，用于获取语音的特征信息；音频处理模块，用于根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

第四方面，本申请实施例提供了一种音频处理装置，运行于音频播放设备，所述装置包括：第一特征信息获取单元，用于获取环境声的特征信息；音频处理单元，用于根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

第五方面，本申请提供了一种音频播放设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面或第二方面所述的方法。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述第一方面或第二方面所述的方法。

本申请提供的一种音频处理方法、装置、音频播放设备以及存储介质，通过获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种音频处理方法的方法流程图。

图2示出了本申请另一实施例提出的一种音频处理方法的方法流程图。

图3示出了本申请实施例提供的音频处理方法的一信号处理框图。

图4示出了本申请又一实施例提出的一种音频处理方法的方法流程图。

图5示出了本申请实施例提供的音频处理方法的另一信号处理框图。

图6示出了本申请再一实施例提出的一种音频处理方法的方法流程图。

图7示出了本申请再一实施例提出的一种音频处理方法的方法流程图。

图8示出了本申请实施例提供的上行的噪声类型的示例图。

图9示出了本申请实施例提供的与噪声类型对应的滤波器频响曲线的示例图。

图10示出了本申请再一实施例提出的一种音频处理方法的方法流程图。

图11示出了本申请一实施例提出的一种音频处理装置的结构框图。

图12示出了本申请另一实施例提出的一种音频处理装置的结构框图。

图13示出了本申请的用于执行根据本申请实施例的一种音频处理方法的音频播放设备的结构框图。

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的一种音频处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提升用户体验，越来越多的TWS(True Wireless Stereo，真无线立体声)耳机配置了自适应音量控制功能，相关技术中通过检测外界环境的音量等级自适应调节耳机音量，即识别用户所处环境噪声等级后，自动将耳机内的音量调节到合适的范围，例如，比较安静的环境时，耳机自动降低歌曲音量，比较嘈杂的环境时，耳机自动提高歌曲音量。然而，用户使用耳机时外界环境噪声是复杂变化的，例如在办公室、地铁或者街道上行走，用户佩戴耳机听音乐/通话时受到外界环境噪声的干扰程度不同，因而，上述调节方案仍可能会导致用户无法听清楚，用户体验有待改善。

为了优化上述问题，发明人经过长期的研究，提出了本申请实施例提供的音频处理方法、装置、音频播放设备以及存储介质，本方法应用于音频播放设备，本方法可以实现根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

本申请实施方式中的音频播放设备可以为耳机，耳机的具体类型可以不做限定，例如，音频播放设备可以为TWS耳机，TWS可以具有ANC(Active Noise Cancellation，主动噪声消除)功能。在至少一个实施例中，本申请实施方式中的耳机可以包括外部麦克风、内部麦克风、语音加速度传感器、扬声器、数字音频信号处理芯片、存储器、以及电源等器件。音频播放设备可以与移动终端(移动终端可以为手机、电脑、平板等移动通信设备，具体可以不作限定)进行通信连接，在至少一个实施例中，音频播放设备可以通过近距离无线通信的方式(例如，蓝牙、WiFi、ZigBee、NFC等技术)与移动终端建立通信连接，也可以通过有线的方式与移动终端建立通信连接，在音频播放设备与移动终端建立了通信连接的情况下，音频播放设备可以与移动终端进行数据交互。

本申请实施方式中的音频播放设备也可以为手机，手机的具体类型可以不做限定。本申请实施例以音频播放设备为耳机为例进行说明。

本申请实施方式中，在本端用户与对端用户通话的过程中，当本端用户在说话的情况下，对端用户在接收本端用户的语音，对本端设备而言，本端是上行，对端是下行；而当对端用户在说话的情况下，本端用户在接收对端用户的语音，对对端设备而言，对端是上行，本端是下行，即上行和下行是相对而言的。其中，当本端用户在说话的情况下，假设对端用户没有讲话；当对端用户在说话的情况下，假设本端用户没有讲话。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请一实施例提供一种音频处理方法，可应用于音频播放设备，所述方法包括：

步骤S110：获取环境声的特征信息。

其中，环境声表征音频播放设备周围环境的各种声音，例如，环境声可以包括音频播放设备使用时周围环境用户讲话的声音、汽车的鸣笛声、以及动物的叫声等。随着音频播放设备使用环境的不同，环境声也有所不同。环境声的特征信息可以包括环境声的强度和类型等信息。

本申请实施方式中，以音频播放设备作为通话过程中的本端设备。在音频播放设备处于通话状态的情况下，可以获取音频播放设备周围的环境声的特征信息。

在至少一个实施例中，可以根据音频播放设备的使用场景确定音频播放设备是否处于通话状态。例如，当耳机被使用时，有可能是处于“听歌”场景、“看视频”场景、或者“通话”场景等，可选的，不同的使用场景对应的场景标识可以不同。作为一种实现方式，耳机可以从移动终端获取当前的使用场景对应的场景标识，进而确定耳机是否处于通话状态。

步骤S120：获取语音的特征信息。

其中，语音的特征信息表征通话过程中对端用户的语音信号的特征信息。

可以理解的，在通话的过程中，对本端设备的使用者而言，周围环境的杂音以及对端用户的语音特征均会影响听音效果，为了改善听音效果，可以在获取环境声的特征信息的情况下获取对端用户语音的特征信息，以便于可以根据环境声的特征信息以及对端用户语音的特征信息配置对端用户的语音信号的输出音量，从而提升通话的听音效果。

需要说明的是，环境声的特征信息与语音的特征信息的获取顺序可以不作限定，例如，可以先获取环境声的特征信息，再获取语音的特征信息；也可以先获取语音的特征信息，再获取环境声的特征信息；或者是同时获取环境声的特征信息以及语音的特征信息，只需满足获取环境声的特征信息的时段与获取语音的特征信息的时段为相同的时段即可，例如，该时段可以为通话的第5分钟至第10分钟(假设通话过程大于10分钟)。

在至少一个实施例中，语音的特征信息可以包括对端用户的语音信号的幅度、能量、功率谱密度、以及频谱中不同频段权重等特征，或者可以包括对端用户的通话输出音量的增益等级等特征，具体可以不做限定。作为一种实施方式，音频播放设备可以通过移动终端获取对端用户的通话语音信号，该通话语音信号中包括和通话语音的音量、幅度、能量、功率谱密度、以及频谱中不同频段权重等对应的数字信号，然后根据通话语音信号对应的数字信号计算获得对端用户的语音的特征信息，具体计算过程在此不再赘述。

步骤S130：根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

其中，语音的特征信息可以进一步理解为对端用户的语音的(实际)音量大小；或者可以理解为对端设备播放对端用户的语音的音量大小，若语音的特征信息表征对端设备播放对端用户的语音的音量大小，那么该语音的特征信息可以为预先配置的，也可以为通过对端用户的语音信号的能量等特征计算获得的。

作为一种方式，在获取了本端设备周围的环境声的特征信息以及对端用户的语音的特征信息的情况下，可以根据环境声的特征信息以及语音的特征信息配置本端设备对对端用户的语音信号的输出音量，以使得本端设备可以根据周围环境的嘈杂度以及对端用户的语音的音量大小灵活的调整对对端用户的语音信号的输出音量，进而提升通话过程中的听音效果。

在至少一个实施例中，调整后本端设备对对端用户的语音信号的输出音量可以大于对端用户的语音的音量，调整后本端设备对对端用户的语音信号的输出音量可以小于对端用户的语音的音量，或者调整后本端设备对对端用户的语音信号的输出音量可以等于对端用户的语音的音量，具体可以不作限定。

本申请提供的一种音频处理方法，通过获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

请参阅图2，本申请另一实施例提供一种音频处理方法，可应用于音频播放设备，本实施方式以本端设备(即音频播放设备)在接收对端用户的语音为例进行说明，此种方式下，对本端设备而言，本端是上行，对端是下行，所述方法包括：

步骤S210：当处于通话状态且所述音频播放设备的佩戴者处于未讲话状态，获取环境声的特征信息，所述环境声的特征信息包括环境声强度参数。

本申请实施方式中，音频播放设备配置有通话麦克风，作为一种方式，可以通过通话麦克风获取本端设备周围的环境声的特征信息。

在通过通话麦克风获取本端设备周围的环境声的特征信息的过程中，由于通话麦克风采集声音通常是声音通过空气传播到通话麦克风，因而通话麦克风会采集到空气中的语音信息和环境噪声，即如果音频播放设备的佩戴者(后文简称为本端用户)也在讲话，那么通话麦克风会采集到环境噪声以及音频播放设备佩戴者的语音，此种情况下，本端用户可能无法听清对端用户的语音内容，极大地影响了通话过程中的听音效果。

作为改善这一问题的方式，可以在当处于通话状态且音频播放设备的佩戴者处于未讲话状态的情况下，通过通话麦克风获取本端设备周围的环境声的特征信息。其中，判断是否处于通话状态可以参考前述实施例的相关描述。

本申请实施方式中，音频播放设备可以配置有振动传感器，该振动传感器可以用于检测振动信号，该振动传感器可以为语音加速度传感器、骨振动传感器、或者骨传导麦克风等。在至少一个实施例中，振动传感器可以设置在靠近音频播放设备出音孔的位置，振动传感器可以设置在音频播放设备的内部或者外部。

作为一种方式，当处于通话状态，可以通过振动传感器检测音频播放设备的佩戴者的声带振动信息；若声带振动信息表征未发出声音信号，则可以判定音频播放设备的佩戴者处于未讲话状态。示例性的，以振动传感器为语音加速度传感器为例，当处于通话状态，可以通过语音加速度传感器采集音频播放设备佩戴者的声带振动信息，并将声带振动信息转换为音频信号，再通过VAD(Voice Activity Detection，语音活动检测)模块(音频播放设备配置有VAD模块)判断音频播放设备的佩戴者是否正在讲话，即是否发出声音信号。在至少一个实施例中，若音频播放设备的佩戴者没有在讲话，则可以判定音频播放设备的佩戴者处于未讲话状态。其中，当处于通话状态，语音加速度传感器可以一直处于启动状态，因而语音加速度传感器可以持续采集音频播放设备佩戴者的声带振动信息。

可选的，音频播放设备的佩戴者处于未讲话状态的时长可以不作限定，例如，该时长可以为30秒、50秒、5分钟等数值，在这种方式下，可以在音频播放设备的佩戴者处于未讲话状态的时段内的任意时刻，通过通话麦克风获取本端设备周围的环境声的特征信息。

可选的，在通过通话麦克风获取本端设备周围的环境声的特征信息的过程中，如果音频播放设备的佩戴者开始讲话，则停止获取本端设备周围的环境声的特征信息，以避免佩戴者的语音对环境声的特征信息的获取产生干扰。例如，当用户A(假设为本端用户)与用户B(假设为对端用户)在通话时，若用户A没讲话(此时用户B可以在讲话，也可以不在讲话)，则可以通过通话麦克风获取本端设备周围的环境声的特征信息，而如果用户A突然开始讲话，则停止通过通话麦克风获取本端设备周围的环境声的特征信息，当用户A停止讲话时，再开始通过通话麦克风获取本端设备周围的环境声的特征信息。

在一个具体的应用场景中，如图3所示，可以通过语音加速度传感器检测音频播放设备佩戴者的语音活动，判断其是否在讲话，若判定音频播放设备的佩戴者处于未讲话状态，则可以通过通话麦克风获取本端设备周围的环境声的特征信息。图3中的其他流程可以参考其他实施例中的描述或者参考相关技术，在此不再赘述。

本申请实施方式中，如果音频播放设备本身配置有通话(外部)麦克风和振动传感器，则可以直接复用通话(外部)麦克风和振动传感器等硬件，无需额外增加硬件成本。

本申请实施方式中，环境声的特征信息可以包括环境声强度参数，环境声强度参数表征环境(可以理解为音频播放设备周围环境)中各种声音信号的强度。声音信号的种类不同，对应的环境声强度参数不同。

作为一种实施方式，可以获取音频播放设备周围环境的各种声音信号的强度特征，进而根据强度特征获取环境声强度参数。

步骤S220：获取语音的特征信息，所述语音的特征信息包括语音音量参数。

其中，语音音量参数可以表征对端用户的通话语音的强度。

结合前述实施例中的描述，若语音的特征信息表征对端设备播放对端用户的语音的音量大小，且语音的特征信息为预先配置的，那么语音音量参数为对端设备当前配置的输出音量，可以理解为从预先配置的输出音量中获取的当前输出音量，语音音量参数的值包括一个范围，对端设备可以使用该范围内的任一数值对声音信号进行播放，语音音量参数的具体数值可以不做限定。可以将语音音量参数存储为一个配置文件。

步骤S230：根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量。

可以理解的，随着音频播放设备使用环境的不同，环境声的嘈杂度也有所不同，对音频播放设备的干扰程度也不同，为了更好的改善不同的环境声对通话听音的影响，作为一种方式，可以根据环境声强度参数和语音音量参数配置对端用户的语音信号的输出音量，即根据上行的环境声强度参数和下行的语音音量参数配置音频播放设备对下行的对端用户的语音信号的输出音量。

在根据环境声强度参数和语音音量参数配置对端用户的语音信号的输出音量的过程中，作为一种方式，可以根据环境声强度参数和语音音量参数确定音量增益，然后根据音量增益配置对端用户的语音信号的输出音量。其中，音量增益表征调整量，即音频播放设备可以将对端用户的语音信号的输出音量由当前输出音量调整音量增益，得到调整后的输出音量，音量增益不同，对应调整后的输出音量不同。

在至少一个实施例中，上行环境声的特征信息可以包括上行环境声的包络能量，类似的，下行语音的特征信息可以包括下行通话语音信号的包络能量，在这种方式下，可以根据上行环境声的包络能量以及下行通话语音信号的包络能量确定音量增益。其中，设上行环境声的包络能量为P1，下行通话语音信号的包络能量为P0，则可以根据如下公式确定音量增益：

其中，α、β均表征增益调整因子，α与β的值不同，G表征音量增益。

本申请实施方式中，可以通过如下公式计算上行环境声的包络能量(设为P1(m))以及下行通话语音信号的包络能量(设为P0(m))：

P1(m)＝(1.0-μ)*P1(m-1)+μ*P1(m)

P0(m)＝(1.0-μ)*P0(m-1)+μ*P0(m)

其中，m表征时间序列，μ表征迭代因子，即当前帧权重因子，n表征总的帧数，x表征上行通话语音信号的每一个样点值，y表征下行通话语音信号的每一个样点值。

在根据环境声强度参数和语音音量参数配置对端用户的语音信号的输出音量的过程中，作为一种方式，可以通过比较语音音量参数与环境声强度的比值和目标阈值的大小，来配置对端用户的语音信号的输出音量。例如，若语音音量参数与环境声强度参数的比值小于目标阈值，则可以调高本端设备对对端用户的语音信号的输出音量；若语音音量参数与环境声强度参数的比值大于目标阈值，则可以调小本端设备对对端用户的语音信号的输出音量；而若语音音量参数与环境声强度参数的比值等于目标阈值，则可以保持本端设备对对端用户的语音信号的输出音量。

本申请提供的一种音频处理方法，通过当处于通话状态且所述音频播放设备的佩戴者处于未讲话状态，获取环境声的特征信息，所述环境声的特征信息包括环境声强度参数；获取语音的特征信息，所述语音的特征信息包括语音音量参数；根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据环境声强度参数和语音音量参数对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

请参阅图4，本申请又一实施例提供一种音频处理方法，可应用于音频播放设备，本实施方式以本端设备(即音频播放设备)在接收对端用户的语音为例进行说明，此种方式下，对本端设备而言，本端是上行，对端是下行，所述方法包括：

步骤S310：通过所述通话麦克风获取通话语音信号。

其中，步骤S310的具体实现可以参考步骤S210的相关描述，在此不再赘述。

步骤S320：从所述通话语音信号中分离出环境噪声。

作为一种方式，可以直接通过通话麦克风获取上行的通话语音信号(此种情况下，本端用户可以在讲话，也可以是没在讲话，具体可以不作限定)，继而从通话语音信号中分离出环境噪声信号。

步骤S330：根据所述环境噪声获取所述环境声的特征信息。

在一个具体的应用场景中，如图5所示，假设音频播放设备为耳机，可以通过通话麦克风采集上行的通话语音信号，继而通过噪声分离模块从通话语音信号中分离出上行的环境噪声，再根据上行的环境噪声计算获取上行的环境声的特征信息。图5中的PA表示功放，ADC(Analog-to-digital converter)表示将模拟信号转换为数字信号，DAC表示将数字信号转换为模拟信号，TX表示发送，RX表示接收，PCM(Pulse Code Modulation)表示脉冲编码调制。

步骤S340：获取语音的特征信息。

其中，步骤S340的具体实现可以参考步骤S120的对应描述，在此不再赘述。

步骤S350：根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

其中，步骤S350的具体实现可以参考步骤S130的对应描述，在此不再赘述。

本申请提供的一种音频处理方法，通过通过所述通话麦克风获取通话语音信号；从所述通话语音信号中分离出环境噪声；根据所述环境噪声获取所述环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

请参阅图6，本申请再一实施例提供一种音频处理方法，可应用于音频播放设备，本实施方式以本端设备(即音频播放设备)在接收对端用户的语音为例进行说明，此种方式下，对本端设备而言，本端是上行，对端是下行，所述方法包括：

步骤S410：获取环境声的特征信息。

其中，步骤S410的具体实现可以参考步骤S110以及步骤S210的对应描述，在此不再赘述。

步骤S420：获取语音的特征信息。

其中，步骤S420的具体实现可以参考步骤S120以及步骤S220的对应描述，在此不再赘述。

步骤S430：根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

其中，步骤S430的具体实现可以参考步骤S130以及步骤S230的对应描述，在此不再赘述。

步骤S440：根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

本申请实施方式中，还可以根据环境声的特征信息配置对端用户的语音信号的输出音效，以改善外界环境声对该频段的语音信号的掩蔽效应，提高不同频段的信噪比。

本申请实施方式中，环境声的特征信息还可以包括环境声特征参数，环境声特征参数用于表征环境声集中在什么频段或者环境声包括哪些频谱特征。在这种方式下，可以根据环境声特征参数配置对端用户的语音信号的输出音效，即根据环境声特征参数对音频播放设备的输出音效(音质)进行优化。

作为一种方式，可以识别音频播放设备当前所处环境的环境声的频段分布情况，然后对该频段内的声音信号进行音质上的优化，以实现让音频播放设备播放的语音信号在该频段能掩盖到环境声的频段，从而可以更好的听清声音。

作为一种具体的实施方式，可以根据环境声特征参数适配补偿滤波器，再通过适配的补偿滤波器对对端用户的语音信号进行音质补偿滤波处理。通过根据环境声的频谱特征(频段)差异，适配不同音质的滤波器，可以改善耳内声音的掩蔽效应，从而实现针对环境声特征提升耳机播放声音的信噪比，进而提升音频播放设备所播放语音信号的听音效果。

在至少一个实施例中，环境声特征参数可以包括环境声类型，在这种方式下，可以根据环境声类型配置对端用户的语音信号的输出音效。

本申请提供的一种音频处理方法，通过获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量；根据所述环境声的特征信息配置对端用户的语音信号的输出音效。从而通过上述方式实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

同时，通过根据环境声的频谱特征(频段)差异，适配不同音质的滤波器，可以改善耳内声音的掩蔽效应，从而实现针对环境声特征提升耳机播放声音的信噪比，进而提升音频播放设备所播放语音信号的听音效果。

请参阅图7，本申请再一实施例提供一种音频处理方法，可应用于音频播放设备，本实施方式以本端设备(即音频播放设备)在接收对端用户的语音为例进行说明，此种方式下，对本端设备而言，本端是上行，对端是下行，所述方法包括：

步骤S510：获取环境声的特征信息。

其中，步骤S510的具体实现可以参考前述实施例中步骤S110以及步骤S210中的对应描述，在此不再赘述。

步骤S520：根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

其中，输出音效可以理解为音频播放设备所播放语音信号的音质效果。

本申请实施方式中，环境声的特征信息可以包括环境声特征参数，在根据环境声的特征信息配置对端用户的语音信号的输出音效的过程中，作为一种方式，可以识别音频播放设备当前所处环境的环境声的频段分布情况，然后对该频段内的声音信号进行音质上的优化，以实现让音频播放设备播放的音频在该频段能掩盖到环境声的频段，从而可以更好的听清声音。

作为一种具体的实施方式，可以根据环境声特征参数适配补偿滤波器；继而通过适配的补偿滤波器对对端用户的语音信号进行音质补偿滤波处理。

在至少一个实施例中，环境声的特征信息可以包括噪声类型，作为一种方式，可以根据噪声类型适配补偿滤波器。补偿滤波器用于对音频输出信号进行音质补偿滤波处理。可选的，噪声类型可以理解为上行环境噪声的频谱类型。

可选的，可以根据噪声频谱差异划分低频噪声、中低频噪声、中高频噪声等噪声类型，那么与低频噪声、中低频噪声以及中高频噪声分别适配的补偿滤波器为补偿低频噪声滤波器、补偿中低频噪声滤波器、以及补偿中高频噪声滤波器。其中，上述噪声类型的划分方式仅作为示例进行说明，实际实现时还可以参考其他划分方式，在此不作限定。

在适配了与噪声类型对应的补偿滤波器的情况下，可以通过适配的补偿滤波器对对端用户的语音信号进行音质补偿滤波处理，以改善外界环境噪声对该频段的掩蔽效应，提高不同频段的信噪比。

在一个具体的应用场景中，如图8所示(图8的纵坐标表示幅度，横坐标表示频率)，若上行的环境噪声类型为飞机噪声，由于飞机噪声低频权重较大，因而与飞机噪声适配的补偿滤波器可以为补偿低频噪声滤波器，在这种方式下，则可以根据适配的补偿低频噪声滤波器对对端用户的语音信号进行音质补偿滤波处理，示例性的，与低频段的飞机噪声类型对应的滤波器频响曲线如图9所示。可选的，补偿低频噪声滤波器可以对低频段[20～200]Hz的语音信号进行音质补偿滤波处理。

而若上行的环境噪声类型为办公室谈话噪声，由于办公室谈话噪声中频段权重较大(如图8所示)，因而与办公室谈话噪声适配的补偿滤波器可以为补偿中频噪声滤波器，在这种方式下，则可以根据适配的补偿中频噪声滤波器对对端用户的语音信号进行音质补偿滤波处理。可选的，补偿中频噪声滤波器可以对中频段[200～1080]Hz的语音信号进行音质补偿滤波处理。

通过根据通话上行环境噪声频谱类型，可以调节通话下行语音信号的输出音质(音质补偿滤波器)，进而提高通话状态下的不同频段的语音信噪比，从而使得通话更清晰。

本申请提供的一种音频处理方法，通过获取环境声的特征信息；根据所述环境声的特征信息配置对端用户的语音信号的输出音效。从而通过上述方式实现了可以根据通话上行环境噪声频谱类型，可以调节通话下行语音信号的输出音质，进而提高通话状态下的不同频段的语音信噪比，从而使得通话更清晰。

请参阅图10，本申请再一实施例提供一种音频处理方法，可应用于音频播放设备，所述方法包括：

步骤S610：获取环境声的特征信息。

其中，步骤S610的具体实现可以参考步骤S110、步骤S210以及步骤S330中的相关描述，在此不再赘述。

步骤S620：根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

其中，步骤S620的具体实现可以参考步骤S440以及步骤S520中的相关描述，在此不再赘述。

步骤S630：获取语音的特征信息。

其中，步骤S630的具体实现可以参考步骤S120以及步骤S220中的相关描述，在此不再赘述。

步骤S640：根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

其中，步骤S640的具体实现可以参考步骤S130以及步骤S230中的相关描述，在此不再赘述。

需要说明是，本申请实施方式中，步骤S620的执行顺序与步骤S640的执行顺序可以不作限定。

本申请提供的一种音频处理方法，通过获取环境声的特征信息；根据所述环境声的特征信息配置对端用户的语音信号的输出音效；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据根据通话上行环境噪声频谱类型，可以调节通话下行语音信号的输出音质，进而提高通话状态下的不同频段的语音信噪比，从而使得通话更清晰。

同时，可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

请参阅图11，本申请实施例提供了一种音频处理装置700，运行于音频播放设备，所述装置700包括：

第一特征信息获取模块710，用于获取环境声的特征信息。

作为一种实施方式，第一特征信息获取模块710可以用于当处于通话状态且所述音频播放设备的佩戴者处于未讲话状态，获取环境声的特征信息。

在至少一个实施例中，所述音频播放设备配置有振动传感器，所述装置700还可以包括声带振动信息检测模块，用于当处于通话状态，通过所述振动传感器检测所述音频播放设备的佩戴者的声带振动信息；若所述声带振动信息表征未发出声音信号，判定所述音频播放设备的佩戴者处于未讲话状态。

在至少一个实施例中，所述音频播放设备配置有通话麦克风，在这种方式下，第一特征信息获取模块710可以用于通过所述通话麦克风获取通话语音信号；从所述通话语音信号中分离出环境噪声；根据所述环境噪声获取所述环境声的特征信息。

第二特征信息获取模块720，用于获取语音的特征信息。

音频处理模块730，用于根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

本申请实施方式中，所述环境声的特征信息可以包括环境声强度参数，所述语音的特征信息可以包括语音音量参数，所述语音音量参数表征对端用户的通话语音的强度，在这种方式下，音频处理模块730可以用于根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量。

作为一种实施方式，音频处理模块730具体可以用于根据所述环境声强度参数和所述语音音量参数确定音量增益；根据所述音量增益配置对端用户的语音信号的输出音量。

作为一种实施方式，音频处理模块730具体可以用于若所述语音音量参数与所述环境声强度参数的比值小于目标阈值，调高所述对端用户的语音信号的输出音量；若所述语音音量参数与所述环境声强度参数的比值大于目标阈值，调小所述对端用户的语音信号的输出音量；若所述语音音量参数与所述环境声强度参数的比值等于目标阈值，保持所述对端用户的语音信号的输出音量。

本申请实施方式中，音频处理模块730还可以用于根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

本申请实施方式中，所述环境声的特征信息还可以包括环境声特征参数，在这种方式下，音频处理模块730可以用于根据所述环境声特征参数适配补偿滤波器；通过适配的补偿滤波器对所述对端用户的语音信号进行音质补偿滤波处理。

请参阅图12，本申请实施例提供了一种音频处理装置800，运行于音频播放设备，所述装置800包括：

第一特征信息获取单元810，用于获取环境声的特征信息。

作为一种方式，第一特征信息获取单元810可以用于当处于通话状态且所述音频播放设备的佩戴者处于未讲话状态，获取环境声的特征信息。

在至少一个实施例中，所述音频播放设备配置有通话麦克风，第一特征信息获取单元810具体可以用于通过所述通话麦克风获取通话语音信号；从所述通话语音信号中分离出环境噪声；根据所述环境噪声获取所述环境声的特征信息。

音频处理单元820，用于根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

本申请实施方式中，所述环境声的特征信息可以包括环境声特征参数，在这种方式下，音频处理单元820可以用于根据所述环境声特征参数适配补偿滤波器；通过适配的补偿滤波器对所述对端用户的语音信号进行音质补偿滤波处理。

本申请实施方式中，装置800还可以包括第二特征信息获取单元，用于获取语音的特征信息，在这种方式下，音频处理单元820可以用于根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

本申请实施方式中，所述环境声的特征信息还可以包括环境声强度参数，所述语音的特征信息可以包括语音音量参数，所述语音音量参数表征对端用户的通话语音的强度，在这种方式下，音频处理单元820可以用于根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量。

在至少一个实施例中，音频处理单元820具体可以用于根据所述环境声强度参数和所述语音音量参数确定音量增益；根据所述音量增益配置对端用户的语音信号的输出音量。

在至少一个实施例中，音频处理单元820具体可以用于若所述语音音量参数与所述环境声强度参数的比值小于目标阈值，调高所述对端用户的语音信号的输出音量；若所述语音音量参数与所述环境声强度参数的比值大于目标阈值，调小所述对端用户的语音信号的输出音量；若所述语音音量参数与所述环境声强度参数的比值等于目标阈值，保持所述对端用户的语音信号的输出音量。

在至少一个实施例中，所述音频播放设备配置有振动传感器，装置800还可以包括声带振动信息检测单元，用于当处于通话状态，通过所述振动传感器检测所述音频播放设备的佩戴者的声带振动信息；若所述声带振动信息表征未发出声音信号，判定所述音频播放设备的佩戴者处于未讲话状态。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图13，基于上述的音频处理方法及装置，本申请实施例还提供了一种可以执行前述音频处理方法的音频播放设备100。音频播放设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104，存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序，而处理器104可以执行存储器102中存储的程序。

其中，处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个音频播放设备100内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行音频播放设备100的各种功能和处理数据。可选地，处理器104可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器104中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储音频播放设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

综上所述，本申请提供的一种音频处理方法、装置、音频播放设备以及存储介质，通过获取环境声的特征信息；获取语音的特征信息；根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。从而通过上述方式实现了可以根据环境声的特征信息和语音的特征信息对对端用户的语音信号的输出音量进行配置，使得环境噪声音量与通话音量能够保持在较高的信噪比，从而使得无需用户手动调节音量也能听清对方说话内容，提升用户体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，应用于音频播放设备，所述方法包括：

获取环境声的特征信息；

获取语音的特征信息；

根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

2.根据权利要求1所述的方法，其特征在于，所述获取环境声的特征信息，包括：

当处于通话状态且所述音频播放设备的佩戴者处于未讲话状态，获取环境声的特征信息。

3.根据权利要求2所述的方法，其特征在于，所述环境声的特征信息包括环境声强度参数，所述语音的特征信息包括语音音量参数，所述语音音量参数表征对端用户的通话语音的强度，所述根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量，包括：

根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量，包括：

根据所述环境声强度参数和所述语音音量参数确定音量增益；

根据所述音量增益配置对端用户的语音信号的输出音量。

5.根据权利要求3所述的方法，其特征在于，所述所述根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量，包括：

若所述语音音量参数与所述环境声强度参数的比值小于目标阈值，调高所述对端用户的语音信号的输出音量；

若所述语音音量参数与所述环境声强度参数的比值大于目标阈值，调小所述对端用户的语音信号的输出音量；

若所述语音音量参数与所述环境声强度参数的比值等于目标阈值，保持所述对端用户的语音信号的输出音量。

6.根据权利要求2所述的方法，其特征在于，所述音频播放设备配置有振动传感器，所述方法还包括：

当处于通话状态，通过所述振动传感器检测所述音频播放设备的佩戴者的声带振动信息；

若所述声带振动信息表征未发出声音信号，判定所述音频播放设备的佩戴者处于未讲话状态。

7.根据权利要求1所述的方法，其特征在于，所述音频播放设备配置有通话麦克风，所述获取环境声的特征信息，包括：

通过所述通话麦克风获取通话语音信号；

从所述通话语音信号中分离出环境噪声；

根据所述环境噪声获取所述环境声的特征信息。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

9.根据权利要求8所述的方法，其特征在于，所述环境声的特征信息还包括环境声特征参数，所述根据所述环境声的特征信息配置对端用户的语音信号的输出音效，包括：

根据所述环境声特征参数适配补偿滤波器；

通过适配的补偿滤波器对所述对端用户的语音信号进行音质补偿滤波处理。

10.一种音频处理方法，其特征在于，应用于音频播放设备，所述方法包括：

获取环境声的特征信息；

11.根据权利要求10所述的方法，其特征在于，所述环境声的特征信息包括环境声特征参数，所述根据所述环境声的特征信息配置对端用户的语音信号的输出音效，包括：

根据所述环境声特征参数适配补偿滤波器；

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取语音的特征信息；

13.根据权利要求12所述的方法，其特征在于，所述获取环境声的特征信息，包括：

14.根据权利要求13所述的方法，其特征在于，所述环境声的特征信息还包括环境声强度参数，所述语音的特征信息包括语音音量参数，所述语音音量参数表征对端用户的通话语音的强度，所述根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量，包括：

15.根据权利要求14所述的方法，其特征在于，所述根据所述环境声强度参数和所述语音音量参数配置对端用户的语音信号的输出音量，包括：

根据所述音量增益配置对端用户的语音信号的输出音量。

16.一种音频处理装置，其特征在于，运行于音频播放设备，所述装置包括：

第一特征信息获取模块，用于获取环境声的特征信息；

第二特征信息获取模块，用于获取语音的特征信息；

音频处理模块，用于根据所述环境声的特征信息和所述语音的特征信息配置对端用户的语音信号的输出音量。

17.一种音频处理装置，其特征在于，运行于音频播放设备，所述装置包括：

第一特征信息获取单元，用于获取环境声的特征信息；

音频处理单元，用于根据所述环境声的特征信息配置对端用户的语音信号的输出音效。

18.一种音频播放设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-9或权利要求10-15任一所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-9或权利要求10-15任一所述的方法。