CN116668892B

CN116668892B - 音频信号的处理方法、电子设备及可读存储介质

Info

Publication number: CN116668892B
Application number: CN202211419239.3A
Authority: CN
Inventors: 宁岳; 刘镇亿
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2024-04-12
Anticipated expiration: 2042-11-14
Also published as: CN116668892A

Abstract

本申请公开了一种音频信号的处理方法、电子设备及可读存储介质，属于终端技术领域。该方法包括：获取TWS耳机中目标耳机的麦克风拾取的第一初始音频信号，第一初始音频信号中包括通过目标耳机的前馈麦克风采集的第一前馈音频信号和通过目标耳机的主麦克风采集的第一主音频信号，目标耳机为TWS耳机中任意一边的耳机；基于第一初始音频信号和第一前馈音频信号，通过一阶差分波束算法确定第一前馈音频信号对应的第一幅值增益函数；将第一幅值增益函数作用于第一主音频信号中，得到人声抑制后的第一目标音频信号。本申请通过一阶差分波束算法对自讲人声进行抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。

Description

音频信号的处理方法、电子设备及可读存储介质

技术领域

本申请涉及终端技术领域，特别涉及一种音频信号的处理方法、电子设备及可读存储介质。

背景技术

随着蓝牙技术的发展，人们对真无线立体声(True Wireless Stereo，TWS)耳机的使用越来普遍。由于TWS耳机的拾音能力强于诸如手机、平板电脑等电子设备本身的拾音能力，且通过TWS耳机的麦克风能够获得更加清晰的人声，因此，用户通常会佩戴TWS耳机，并在TWS耳机与手机或者平板电脑等电子设备蓝牙连接后，通过TWS耳机和电子设备进行录音录像的操作，后续即可进行音频的播放。

但是，在通过TWS耳机进行录音的情况下，受限于录音环境和硬件设备，在播放音频时，往往存在自讲人声突兀的问题，导致自讲人声与环境声音不和谐，降低了音频播放的效果。

发明内容

本申请提供了一种音频信号的处理方法、电子设备及可读存储介质，可以改善自讲人声比较突兀的问题，以提高音频播放的效果。所述技术方案如下：

第一方面，提供了一种音频信号的处理方法，所述方法包括：

获取真无线立体声TWS耳机中目标耳机的麦克风拾取的第一初始音频信号，所述第一初始音频信号中包括通过所述目标耳机的前馈麦克风采集的第一前馈音频信号和通过所述目标耳机的主麦克风采集的第一主音频信号，所述目标耳机为所述TWS耳机中任意一边的耳机；

基于所述第一初始音频信号和所述第一前馈音频信号，通过一阶差分波束算法确定所述第一前馈音频信号对应的第一幅值增益函数，所述第一幅值增益函数用于描述所述第一前馈音频信号中每个频点的幅值增益；

将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号。

如此，由于一阶差分波束会对180度方向的振幅进行抑制，因此，通过一阶差分波束算法确定第一幅值增益函数，并将该第一幅值增益函数作用在第一主音频信号中的情况下，该第一主音频信号位于180度方向的音频信号的振幅将会被抑制。而由于TWS耳机佩戴方式使得采集的佩戴者的自讲音频信号集中在180度的方向，因此，对第一主音频信号位于180度方向的音频信号的振幅进行抑制，即为对佩戴者自讲人声的抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。

作为本申请的一个示例，所述基于所述第一初始音频信号和所述第一前馈音频信号，通过一阶差分波束算法确定所述第一前馈音频信号对应的第一幅值增益函数，包括：

对所述第一初始音频信号进行频域转换处理，得到第一初始频域信号；

确定所述第一初始频域信号中处于预设频段的频点对应的差分波束系数；

将所述差分波束系数与所述第一初始频域信号相乘，得到所述预设频段对应的差分波束信号；

基于所述差分波束信号中每个频点的幅值和第一前馈频域信号中处于所述预设频段的每个频点的幅值，确定所述第一前馈频域信号在所述预设频段对应的第二幅值增益函数，所述第一前馈频域信号为所述第一前馈音频信号对应的频域信号；

基于所述第二幅值增益函数和所述第一前馈频域信号，确定所述第一幅值增益函数。

如此，由于语音主要集中在中低频，即语音的频率通常在5kHz以下，且差分波束的信号的波束图在中低频段较为稳定，因此，通过设置预设频段，并确定第一幅值增益函数，能够通过第一幅值增益函数定向进行振幅抑制，从而提高了对自讲人声抑制的准确性。

作为本申请的一个示例，所述基于所述第二幅值增益函数和所述第一前馈频域信号，确定所述第一幅值增益函数，包括：

确定所述第二幅值增益函数中所有频点的平均幅值增益；

将所述平均幅值增益确定为所述第一前馈频域信号中除所述预设频段之外的其他频段的每个频点的幅值增益；

根据所述其他频段的每个频点的幅值增益，构建第三幅值增益函数；

基于所述第三幅值增益函数和所述第二幅值增益函数，确定所述第一幅值增益函数。

如此，通过第二幅值增益函数确定第三幅值增益函数，也即是，将预设频段的幅值增益扩展至其他频段，从而使得各类声音的幅值增益较为均衡。

作为本申请的一个示例，所述将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号之前，还包括：

通过预设分段函数对所述第一幅值增益函数进行修正；

所述将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号，包括：

将修正后的所述第一幅值增益函数与第一主频域信号相乘，得到第一目标频域信号，所述第一主频域信号为所述第一主音频信号对应的频域信号；

将所述第一目标频域信号进行时域转换处理，得到所述第一目标音频信号。

如此，通过对第一幅值增益函数进行修正，从而使得在180度方向外其他方向采集的音频信号的幅值增益尽可能的接近1，即实现了在进行自讲人声抑制的过程中，降低了对180度方向外其他方向采集的音频信号带来的影响。

作为本申请的一个示例，所述将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号之后，还包括：

对第一立体声信号依次进行降噪处理和滤波处理，得到第二立体声信号，所述第一立体声信号中包括所述第一目标音频信号和第二目标音频信号，所述第二目标音频信号为对所述TWS耳机中除所述目标耳机之外其他耳机的麦克风采集得到第二初始音频信号进行人声抑制处理后得到；

获取所述第一目标音频信号和所述第二目标音频信号之间的时间差；

基于所述时间差，对所述第一目标音频信号和所述第二目标音频信号进行时延对齐；

通过双耳房间脉冲响应(Binaural Room Impulse Response，BRIR)信号对第三立体声信号进行渲染，得到第四立体声信号，所述BRIR信号是在得到所述第二立体声信号后基于所述第二立体声信号的声场方向确定，所述第三立体声信号包括时延对齐后的所述第一目标音频信号和所述第二目标音频信号。

如此，通过对第一立体声信号进行降噪处理，从而保证了得到的第二立体声信号的保真度。另外，通过BRIR信号对第三立体声信号进行渲染，从而使得到的第四立体声信号播放过程中具有良好的距离感和方位感。

作为本申请的一个示例，所述BRIR信号包括所述第一目标音频信号对应的第一BRIR信号和所述第二目标音频信号对应的第二BRIR信号；

所述通过双耳房间脉冲响应BRIR信号对第三立体声信号进行渲染，得到第四立体声信号，包括：

将时延对齐后的所述第一目标音频信号与所述第一BRIR信号中第一响应信号和第二响应信号分别进行卷积，得到第一卷积结果和第二卷积结果；

将时延对齐后的所述第二目标音频信号与所述第二BRIR信号中的第三响应信号和第四响应信号分别进行卷积，得到第三卷积结果和第四卷积结果；

将所述第一卷积结果与所述第三卷积结果相加，得到所述第一相加结果，所述第一卷积结果与所述第三卷积结果对应的响应信号为针对同一声道的响应信号；

将所述第二卷积结果与所述第四卷积结果相加，得到第二相加结果，所述第二卷积结果与所述第四卷积结果对应的响应信号为针对同一声道的响应信号，所述第一相加结果和所述第二相加结果构成所述第四立体声信号。

如此，通过第一BRIR信号和第二BRIR信号分别对时延对齐后的第一目标音频信号和时延对齐后的第二目标音频信号进行卷积操作，从而提高了渲染的准确性。

作为本申请的一个示例，所述通过双耳房间脉冲响应BRIR信号对第三立体声信号进行渲染，得到第四立体声信号之后，还包括：

基于时延对齐后的所述第一目标音频信号与时延对齐后的所述第二目标音频信号之间的能量差，校正所述第四立体声信号的能量差；

恢复校正后的所述第四立体声信号的时间差，得到第五立体声信号。

如此，通过对第四立体声信号的能量差进行校正，从而改善了第四立体声信号的声像发生偏移的现象，提高了第四立体声信号的声像质量。对校正后的第四立体声信号的时间差进行恢复，从而实现了对原始立体声的方位信息的保留。

作为本申请的一个示例，所述基于时延对齐后的所述第一目标音频信号与时延对齐后的所述第二目标音频信号之间的能量差，校正所述第四立体声信号的能量差，包括：

分别对所述第三立体声信号和所述第四立体声信号进行频域转换，得到所述第三立体声信号对应的第一立体声频域信号和所述第四立体声信号对应的第二立体声频域信号，所述第一立体声频域信号中包括第三主频域信号和第四主频域信号，所述第二立体声频域信号中包括第五主频域信号和第六主频域信号，所述第三主频域信号和所述第五主频域信号为同声道信号，所述第四主频域信号和所述第六主频域信号为同声道信号；

基于所述第三主频域信号中每个频点的幅值和所述第五主频域信号中每个频点的幅值，确定第四幅值增益函数；

基于所述第四主频域信号中每个频点的幅值和所述第六主频域信号中每个频点的幅值，确定第五幅值增益函数；

将所述第四幅值增益函数与所述第五主频域信号相乘，得到第一相乘结果，以及将所述第五幅值增益函数与所述第六主频域信号相乘，得到第二相乘结果，所述第一相乘结果与所述第二相乘结果构成第三立体声频域信号；

对所述第三立体声频域信号进行时域转换处理，得到校正后的所述第四立体声信号。

如此，通过确定第三立体声信号与第四立体声信号之间在频域上的幅值增益，从而能够准确表示第三立体声信号和第四立体声信号之间的能量差变化，进而提高了校正第四立体声信号的能量差的准确性。

第二方面，提供了一种音频信号的处理装置，所述音频信号的处理装置具有实现上述第一方面中音频信号的处理方法行为的功能。所述音频信号的处理装置包括至少一个模块，所述至少一个模块用于实现上述第一方面所提供的音频信号的处理方法。所述装置包括：

第一获取模块，用于获取真无线立体声TWS耳机中目标耳机的麦克风拾取的第一初始音频信号，所述第一初始音频信号中包括通过所述目标耳机的前馈麦克风采集的第一前馈音频信号和通过所述目标耳机的主麦克风采集的第一主音频信号，所述目标耳机为所述TWS耳机中任意一边的耳机；

确定模块，用于基于所述第一初始音频信号和所述第一前馈音频信号，通过一阶差分波束算法确定所述第一前馈音频信号对应的第一幅值增益函数，所述第一幅值增益函数用于描述所述第一前馈音频信号中每个频点的幅值增益；

计算模块，用于将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号。

作为本申请的一个示例，所述确定模块用于：

确定所述第二幅值增益函数中所有频点的平均幅值增益；

作为本申请的一个示例，所述装置还包括：

修正模块，用于通过预设分段函数对所述第一幅值增益函数进行修正；

所述计算模块用于：

作为本申请的一个示例，所述装置还包括：

降噪模块，对第一立体声信号依次进行降噪处理和滤波处理，得到第二立体声信号，所述第一立体声信号中包括所述第一目标音频信号和第二目标音频信号，所述第二目标音频信号为对所述TWS耳机中除所述目标耳机之外其他耳机的麦克风采集得到第二初始音频信号进行人声抑制处理后得到；

第二获取模块，用于获取所述第一目标音频信号和所述第二目标音频信号之间的时间差；

对齐模块，用于基于所述时间差，对所述第一目标音频信号和所述第二目标音频信号进行时延对齐；

渲染模块，用于通过双耳房间脉冲响应BRIR信号对第三立体声信号进行渲染，得到第四立体声信号，所述BRIR信号是在得到所述第二立体声信号后基于所述第二立体声信号的声场方向确定，所述第三立体声信号包括时延对齐后的所述第一目标音频信号和所述第二目标音频信号。

所述渲染模块用于：

作为本申请的一个示例，所述装置还包括：

校正模块，用于基于时延对齐后的所述第一目标音频信号与时延对齐后的所述第二目标音频信号之间的能量差，校正所述第四立体声信号的能量差；

恢复模块，用于恢复校正后的所述第四立体声信号的时间差，得到第五立体声信号。

作为本申请的一个示例，所述校正模块用于：

第三方面，提供了一种电子设备，所述电子设备的结构中包括处理器和存储器，所述存储器用于存储支持电子设备执行上述第一方面所提供的音频信号的处理方法的程序，以及存储用于实现上述第一方面所述的音频信号的处理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述电子设备还可以包括通信总线，所述通信总线用于在所述处理器与所述存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频信号的处理方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的音频信号的处理方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是根据一示例性实施例示出的一种应用场景的示意图；

图2是根据一示例性实施例示出的一种电子设备的结构示意图；

图3是根据一示例性实施例示出的一种电子设备的软件架构示意图；

图4是根据另一示例性实施例示出的一种应用场景的示意图；

图5是根据一示例性实施例示出的一种音频信号的处理方法流程示意图；

图6是根据一示例性实施例示出的一种TWS耳机的结构意图；

图7是根据一示例性实施例示出的一种差分波束图的示意图；

图8是根据另一示例性实施例示出的一种音频信号的处理方法流程示意图；

图9是根据一示例性实施例示出的一种对立体声信号进行声场拓宽的方法流程图；

图10是根据另一示例性实施例示出的一种音频信号的处理方法流程示意图；

图11是根据一示例性实施例示出的一种音频信号的处理装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

应当理解的是，本申请提及的“多个”是指两个或两个以上。在本申请的描述中，除非另有说明，“/”表示或的意思，比如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，比如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在一种应用场景中，在用户通过手机录制视频的情况下，为了获取更清晰的人声，参见图1，用户可以佩戴TWS耳机，该TWS耳机与手机蓝牙连接，用户可以通过TWS耳机进行音频录制，并配合手机的摄像头进行录像操作，在录音录像完成后，用户可以通过手机播放录制的视频，并在播放视频过程中同时播放录制的音频。但是，由于用户佩戴TWS耳机后，TWS耳机距离佩戴者最近，TWS耳机对佩戴者的人声的拾取非常清晰，从而在播放音频时，佩戴者的人声与TWS耳机拾取的周围环境的环境声音相比较为突兀，导致自讲人声与环境声音不和谐，降低了音频播放的效果。

为了改善自讲人声比较突兀的问题，以提高音频播放的效果，本申请实施例提供了一种音频信号的处理方法，该方法中，在获取到TWS耳机中任意一个耳机采集的音频信号后，可以通过一阶差分波束算法对音频信号中的自讲人声进行抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。

在对本申请实施例提供的音频信号的处理方法进行详细地解释说明之前，先对本申请实施例涉及的电子设备予以说明。

本申请实施例提供的方法可以由电子设备执行，作为示例而非限定，电子设备可以是但不限于TWS耳机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备、手机、智能电器等，且在电子设备不为TWS耳机的情况下，该电子设备可以与TWS耳机蓝牙连接，本申请实施例对此不作限定。

图2是本申请实施例提供的一种电子设备的结构示意图。参见图2，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，比如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口，如可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。比如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。比如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。比如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

外部存储器接口120可以用于连接外部存储卡，比如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，来执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100在使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D以及应用处理器等实现音频功能，比如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。比如：当有触摸操作强度小于压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

接下来对电子设备100的软件系统予以说明。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的安卓(Android)系统为例，对电子设备100的软件系统进行示例性说明。

图3是本申请实施例提供的一种电子设备100的软件系统的框图。参见图3，分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统层，以及内核层。

应用程序层可以包括一系列应用程序包。如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问，这些数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，比如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序的显示界面，显示界面可以由一个或多个视图组成，比如，包括显示短信通知图标的视图，包括显示文字的视图，以及包括显示图片的视图。电话管理器用于提供电子设备100的通信功能，比如通话状态的管理(包括接通，挂断等)。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如，通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或滚动条文本形式出现在系统顶部状态栏的通知，比如后台运行的应用程序的通知。通知管理器还可以是以对话窗口形式出现在屏幕上的通知，比如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

作为一个示例，该应用程序框架层中还可以包括人声抑制模块、降噪模块、均衡模块和/或音频渲染模块。

需要说明的是，人声抑制模块用于对拾取的音频信号中自讲人声进行抑制；降噪模块用于对音频信号进行降噪处理和/或高通滤波处理，以滤除音频信号中的噪声；均衡模块用于调节音频信号的频响，从而实现对音频信号的音色的调节；音频渲染模块用于对立体声信号进行渲染，以拓宽立体声信号的声场宽度。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块，比如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(比如：OpenGL ES)，2D图形引擎(比如：SGL)等。表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，比如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别原始输入事件所对应的控件。以该触摸操作是单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用程序框架层的接口，启动相机应用，再调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

为了便于理解，在对本申请实施例提供的方法进行详细介绍之前，接下来以电子设备是手机，且手机与TWS耳机蓝牙连接为例，对本申请实施例涉及的应用场景进行介绍。

请参考图4，图4是根据一示例性实施例示出的一种应用场景的示意图。在一种可能的场景中，在用户需要通过TWS耳机搭配手机进行录音录像的情况下，用户可以佩戴TWS耳机，通常情况下，若TWS耳机与手机在此之前发生过蓝牙连接，则在用户佩戴TWS耳机后，TWS耳机可以与手机自动进行蓝牙连接。然后参见图4中的(a)图，用户可以点击手机桌面中的相机应用程序的应用标识；手机响应于用户对相机应用程序的应用标识的点击操作，显示如图4中的(b)图所示的相机应用界面，用户可以在该相机应用界面中点击“录像”控件；手机响应于用户对“录像”控件的点击操作，将相机应用程序的拍摄模式切换为录像模式，并显示如图4中的(c)图所示的录像界面，用户可以点击录像控件1；响应于用户对录像控件1的点击操作，手机的摄像头开始录像操作，同时，手机可以通过TWS耳机上的麦克风开始录音操作。在用户需要结束录像录音操作的情况下，参见图4中的(d)图，用户可以点击录像控件1；响应于用户对录像控件1的点击操作，手机停止录像操作且控制TWS耳机停止录音操作，并存储录制的视频，该视频中包括有录制的图像和音频。若用户在录像录音操作完毕后，需要查看所录制的视频，那么参见图4中的(e)图，在显示录像界面的情况下，用户可以点击录像界面中的相册入口控件2；响应于对相册入口控件2的点击操作，手机显示如图4中的(f)图所示的图像展示界面；由于录制的视频为距离当前时间最近录制的，因此，该图像展示界面中将会展示录制的视频中的一帧视频帧。用户可以点击该视频帧上显示的播放控件3，手机响应于对播放控件3的点击操作，可以播放录制的视频。且由于在录制视频过程中同时进行了录音操作，因此，在播放视频的过程中同样会播放录制的音频，且该音频中自讲人声已被抑制。

需要说明的是，本申请实施例中以上述图4所示应用场景为例进行说明，并不对本申请实施例构成限定。

基于上述实施例提供的执行主体和应用场景，接下来对本申请实施例提供的音频信号的处理方法进行介绍。请参考图5，图5是根据一示例性实施例示出的一种音频信号的处理方法流程示意图。作为示例而非限定，这里以该方法应用于与TWS耳机蓝牙连接的电子设备中，电子设备为图2所示的电子设备为例进行说明，该方法可以包括如下部分或者全部内容：

步骤501：获取TWS耳机拾取的第一初始音频信号和/或第二初始音频信号。

需要说明的是，该第一初始音频信号中包括通过目标耳机的前馈麦克风采集的第一前馈音频信号和通过目标耳机的主麦克风采集的第一主音频信号，目标耳机为TWS耳机中任意一边的耳机；第二初始音频信号为通过TWS耳机中处目标耳机之外其他耳机的麦克风采集得到，该第二初始音频信号中包括其他耳机的前馈麦克风采集的第二前馈音频信号和通过其他耳机的主麦克风采集的第二主音频信号。

由于通常情况下，TWS耳机包括左耳耳机和右耳耳机，因此，目标耳机可以为左耳耳机，其他耳机为右耳耳机，或者，目标耳机为右耳耳机，其他耳机为左耳耳机。且由于用户有时候可能会双耳佩戴TWS耳机，有时候可能会单耳佩戴TWS耳机中的任意一个耳机，因此，电子设备可能会获取到第一初始音频信号和/或第二初始音频信号。

作为一个示例，在用户双耳佩戴TWS耳机的情况下，电子设备可以获取TWS耳机拾取的第一初始音频信号和第二初始音频信号；在用户单耳佩戴TWS耳机中的任意一个耳机的情况下，电子设备可以获取到第一初始音频信号或第二初始音频信号。

在一些实施例中，参见图6，TWS耳机中任意一个耳机上可以安装有前馈麦克风4和主麦克风5，前馈麦克风4采集的前馈音频信号用于实现TWS耳机的降噪功能，主麦克风5采集的音频信号用于进行音频播放。通常情况下，可以以前馈麦克风和主麦克风所在直线为基准方向来确定音频接收方向θ，且以主麦克风指向前馈麦克风的方向为0度方向，则前馈麦克风指向主麦克风的方向为180度方向。

需要说明的是，TWS耳机中任意一个耳机上不仅可以安装前馈麦克风和主麦克风，还可以安装其他麦克风，比如，还可以安装骨传导麦克风6、后馈麦克风7等。

在一些实施例中，为了使录制的声音更和谐，电子设备可以对获取到的初始音频信号进行人声抑制处理，得到人声抑制后的目标音频信号。

由于电子设备可能会获取到第一初始音频信号和/或第二初始音频信号，因此，电子设备对获取到的初始音频信号进行人声抑制处理是指在电子设备获取到第一初始音频信号的情况下，电子设备对第一初始音频信号进行人声抑制处理，得到人声抑制后的第一目标音频信号；在电子设备获取到第二初始音频信号的情况下，电子设备对第二初始音频信号进行人声抑制处理，得到人声抑制后的第二目标音频信号；在电子设备获取到第一初始音频信号和第二初始音频信号的情况下，可以分别对第一初始音频信号和第二初始音频信号进行人声抑制处理，得到人声抑制后的第一目标音频信号和人声抑制后的第二目标音频信号。换句话说，该初始音频信号为第一初始音频信号和/或第二初始音频信号；得到的目标音频信号为人声抑制后的第一目标音频信号和/或人声抑制后的第二目标音频信号。

需要说明的是，电子设备在获取到第一初始音频信号和第二初始音频信号的情况下，电子设备可以同时对第一初始音频信号和第二初始音频信号进行人声抑制处理。而由于通常情况下，电子设备获取第一初始音频信号的时间和获取第二初始音频信号的时间存在些许差异，因此，电子设备也可以按照音频信号的获取顺序，对第一初始音频信号和第二初始音频信号进行人声抑制处理。

在一些实施例中，电子设备对第一初始音频信号进行人声抑制处理的操作与对第二初始音频信号进行人声抑制处理的操作相同。示例性地，下述步骤以电子设备对第一初始音频信号进行人声抑制处理为例进行说明。

步骤502：对第一初始音频信号进行频域转换处理，得到第一初始频域信号。

由于通常情况下，频域信号能够表现出信号不同频率的特性，且后续需要选取一定频段的音频信号进行处理，因此，为了便于对第一初始音频信号中的自讲人声进行抑制，电子设备可以对第一初始音频信号进行频域转换处理，得到第一初始频域信号。

作为一个示例，电子设备可以通过傅里叶变化算法对第一初始音频信号进行频域转换处理。示例性地，该第一初始音频信号可以为x(t)＝[x₁(t)，x₂(t)]^H，其中，x₁(t)为第一前馈音频信号，x₂(t)为第一主音频信号。电子设备通对第一初始音频信号做傅里叶变化或快速傅里叶变换，得到对应的第一初始频域信号可以为X(f)＝[X₁(f)，X₂(f)]^H，其中，X₁(f)为第一前馈音频信号对应的第一前馈频域信号，X₂(f)为第一主音频信号对应的第一主频域信号。

步骤503：确定第一初始频域信号中处于预设频段的频点对应的差分波束系数。

需要说明的是，预设频段为根据需求预先设置的频段，该预设频段可以为1kHz(千赫兹)-4kHz或者1kHz-5kHz等。

由于该差分波束图可以描述不同方向的信号的振幅变化，且一阶差分波束可以对处于180度方向的信号的振幅进行抑制，示例性地，该一阶差分波束的差分波束图如图7所示，该图7中的(a)图中是音频信号中处于任一频段的信号的差分波束图，图7中的(b)图中是音频信号中处于不同频段的信号的差分波束图(附图中从圆心起，由内到外的5个信号的频率分别为500Hz、1000Hz、2000Hz、3000Hz和4000Hz)。且由上述图1和图6可知，由于TWS耳机佩戴方式使得采集的佩戴者的自讲音频信号集中在180度的方向，因此，为了实现人声的定向抑制，电子设备可以确定第一初始频域信号中处于预设频段的频点对应的差分波束系数。

作为一个示例，电子设备可以获取目标耳机上前馈麦克风与主麦克风之间的麦克风距离，根据麦克风距离，确定第一初始频域信号中处于预设频段的频点对应的差分波束系数。示例性地，电子设备根据麦克风距离，可以通过下述第一公式确定第一初始频域信号中处于预设频段的频点对应的差分波束系数。

需要说明的是，在上述第一公式(1)中，w(f)为差分波束系数，e为常数，f为预设频段中任意一个频率，c为声音传播的波速，d为麦克风距离，i为频点数量。

步骤504：将差分波束系数与第一初始频域信号相乘，得到预设频段对应的差分波束信号。

作为一个示例，电子设备可以直接将差分波束系数与第一初始频域信号相乘，得到预设频段对应的差分波束信号。或者，电子设备将差分波束系数进行转置，将转置后的差分波束系数与第一初始频域信号相乘，得到预设频段对应的差分波束信号。示例性地，该差分波束信号可以为Y(f)＝w^H(f)X(f)，w^H(f)为转置后的差分波束系数。

步骤505：基于差分波束信号中每个频点的幅值和第一前馈频域信号中处于预设频段的每个频点的幅值，确定第一前馈频域信号在预设频段对应的第二幅值增益函数。

需要说明的是，第一前馈频域信号为第一前馈音频信号对应的频域信号。

由于第一前馈频域信号的幅值增益作用在任意一个音频信号中时，该任意一个音频信号的振幅能够增大或减小，而为了后续实现对第一音频信号的定向振幅抑制，电子设备可以基于差分波束信号中每个频点的幅值和第一前馈频域信号中处于预设频段的每个频点的幅值，确定第一前馈频域信号在预设频段对应的第二幅值增益函数。

作为一个示例，电子设备可以基于差分波束信号中每个频点的幅值和第一前馈频域信号中处于预设频段的每个频点的幅值，通过下述第二公式确定第一前馈频域信号在预设频段对应的第二幅值增益函数。

需要说明的是，在上述第二公式(2)中，g_1k-4k(f)为第二幅值增益函数(第二公式(2)中以预设频段1kHz-4kHz为例进行说明)，|Y(f)|为差分波束信号中每个频点的幅值，|X₁(f)|为第一前馈频域信号中处于预设频段的每个频点的幅值。

步骤506：基于第二幅值增益函数和第一前馈频域信号，确定第一幅值增益函数。

作为一个示例，电子设备基于第二幅值增益函数和第一前馈频域信号，确定第一幅值增益函数的操作包括：确定第二幅值增益函数中所有频点的平均幅值增益；将平均幅值增益确定为第一前馈频域信号中除预设频段之外的其他频段的每个频点的幅值增益；根据其他频段的每个频点的幅值增益，构建第三幅值增益函数；基于第三幅值增益函数和第二幅值增益函数，确定第一幅值增益函数。

由于第一前馈频域信号中不仅存在处于预设频段的频点，还包括其他频段的频点，因此，电子设备还需要确定第一前馈频域信号中其他频段对应的第三幅值增益函数。而其他频段的频点通常不是自讲人声对应的频点，这些频点不需要进行抑制，因此，电子设备可以将平均幅值增益确定为第一前馈频域信号中除预设频段之外的其他频段的每个频点的幅值增益，并根据其他频段的每个频点的幅值增益，构建第三幅值增益函数。

在一些实施例中，电子设备可以通过下述第三公式确定第二幅值增益函数中所有频点的平均幅值增益。由于电子设备将平均幅值增益确定为第一前馈频域信号中除预设频段之外的其他频段的每个频点的幅值增益，因此，电子设备可以将确定第二幅值增益函数中所有频点的平均幅值增益的函数确定为第三幅值增益函数，也即是，第三幅值增益函数可以通过下述第三公式表示。

g_-1k(f)＝g_4k-(f)＝mean(g_1k-4k(f)) (3)

需要说明的是，在上述第三公式(3)中，g_-1k(f)为第三幅值增益函数中频率小于1kHz的频点对应的幅值增益，g_4k-(f)为第三幅值增益函数中频率大于4kHz的频点对应的幅值增益，mean(g_1k-4k(f))为确定第二幅值增益函数中所有频点的平均幅值增益。

在一些实施例中，电子设备不仅可以通过上述方式确定第二幅值增益函数中所有频点的平均幅值增益，也可以通过其他方式确定第二幅值增益函数中所有频点的平均幅值增益，比如，电子设备将第二幅值增益函数中每个频点对应的幅值增益相加，得到幅值增益之和；将幅值增益之和除以第二幅值增益函数中所有频点的个数，得到第二幅值增益函数中所有频点的平均幅值增益。

在一些实施例中，电子设备基于第三幅值增益函数和第二幅值增益函数，确定第一幅值增益函数的操作包括：电子设备将第三幅值增益函数和第二幅值增益函数，确定为第一幅值增益函数。示例性的，该第一幅值增益函数可以为g(f)＝[g_-1k(f)，g_1k-4k(f)，g_4k-(f)]。

需要说明的是，电子设备还可以通过其他方式基于第三幅值增益函数和第二幅值增益函数，确定第一幅值增益函数，比如，电子设备可以将第一预设权重与第三幅值增益函数相乘，得到加权后的第三幅值增益函数，将第二预设权重与第二幅值增益函数相乘，得到加权后的第二幅值增益函数；将加权后的第三幅值增益函数和加权后的第二幅值增益函数，确定为第一幅值增益函数。

在一些实施例中，电子设备在基于第三幅值增益函数和第二幅值增益函数，确定第一幅值增益函数的过程中，还可以对频率在1kH和4kHz附近的频点进行增益平滑处理。

需要说明的是，电子设备对频率在1kH和4kHz附近的频点进行增益平滑处理的操作可以参考相关技术，示例性地，电子设备可以将频率在1kH附近的n个频点的幅值增益与第三预设权重相乘，将对频率在4kH附近的n个频点的幅值增益与第四预设权重相乘等，该n为大于或等于1的正整数。

值得说明的是，通过第二幅值增益函数确定第三幅值增益函数，也即是，将预设频段的幅值增益扩展至其他频段，从而使得各类声音的幅值增益较为均衡。

在一些实施例中，为了使得180度方向外其他方向采集的音频信号的幅值增益尽可能的接近1，即为了在进行自讲人声抑制的过程中，尽可能对除180度方向外其他方向采集的音频信号带来最小的影响，电子设备还可以对第一幅值增益函数进行修正。

作为一个示例，电子设备可以通过预设分段函数对第一幅值增益函数进行修正。示例性地，该预设分段函数为预先仿照sigmoid函数设置得到，且该预设分段函数可以通过下述第四公式表示。

需要说明的是，在上述第四公式(4)中，x为变量。

在一些实施例中，电子设备可以将预设分段函数的变量替换为第一幅值增益函数，得到修正后的第一幅值增益函数，该修正后的幅值增益函数可以为g_x(f)＝h(g(f))。

值得说明的是，通过对第一幅值增益函数进行修正，从而使得在180度方向外其他方向采集的音频信号的幅值增益尽可能的接近1，即实现了在进行自讲人声抑制的过程中，降低了对180度方向外其他方向采集的音频信号带来的影响。

步骤507：将第一幅值增益函数作用于第一主音频信号中，得到人声抑制后的第一目标音频信号。

在一些实施例中，由于在进行人声抑制过程中，已将第一主音频信号转换为频域信号，因此，电子设备将第一幅值增益函数作用第一主音频信号中的操作可以为：将第一幅值增益函数与第一主频域信号相乘，得到第一目标频域信号，第一主频域信号为第一主音频信号对应的频域信号；将第一目标频域信号进行时域转换处理，得到第一目标音频信号。

作为一个示例，电子设备可以通过逆傅里叶变换对第一目标频域信号进行时域转换处理，得到第一目标音频信号。

在一些实施例中，由于第一幅值增益函数为频域状态的函数，因此，电子设备还可以对第一幅值增益函数进行时域转换；将时域状态的第一幅值增益函数与第一主音频信号相乘，得到第一目标音频信号。

由上述可知，电子设备可以对第一幅值增益信号进行修正，该种情况下，电子设备可以将修正后的第一幅值增益函数与第一主频域信号相乘，得到第一目标频域信号；将第一目标频域信号进行时域转换处理，得到第一目标音频信号。

值得说明的是，由于语音主要集中在中低频，即语音的频率通常在5kHz以下，且差分波束的信号的波束图在中低频段较为稳定，因此，通过设置预设频段，并确定第一幅值增益函数，能够通过第一幅值增益函数定向进行振幅抑制，从而提高了对自讲人声抑制的准确性。

由上述可知，电子设备对第一初始音频信号进行人声抑制处理的操作与对第二初始音频信号进行人声抑制处理的操作相同，因此，电子设备在获取到第二初始音频信号的情况下，可以按照上述步骤502-507的操作对第二初始音频信号进行人声抑制处理，得到第二目标音频信号。

在本申请实施例中，在获取到TWS耳机中任意一个耳机采集的第一前馈音频信号和第一主音频信号的情况下，可以通过一阶差分波束算法确定第一前馈音频信号对应的第一幅值增益函数，并将该第一幅值增益函数作用在第一音频主信号中，从而得到人声抑制后的第一目标音频信号。由于一阶差分波束会对180度方向的振幅进行抑制，因此，通过一阶差分波束算法确定第一幅值增益函数，并将该第一幅值增益函数作用在第一主音频信号中的情况下，该第一主音频信号位于180度方向的音频信号的振幅将会被抑制。而由于TWS耳机佩戴方式使得采集的佩戴者的自讲音频信号集中在180度的方向，因此，对第一主音频信号位于180度方向的音频信号的振幅进行抑制，即为对佩戴者自讲人声的抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。

上述是以电子设备对第一初始音频信号进行人声抑制处理为例进行说明，而由于电子设备还可能会获取到第一初始音频信号和第二初始音频信号，电子设备在对第一初始音频信号和第二初始音频信号均进行人声抑制处理后，可以得到由人声抑制后的第一目标音频信号和人声抑制后的第二目标音频信号构成的第一立体声信号，在得到一立体声信号后，电子设备还能够对第一立体声信号进行进一步的处理，示例性地，参见图8，图8是根据本申请另一实施例提供的一种音频信号的处理方法，该方法以应用于与TWS耳机蓝牙连接的电子设备中为例进行说明，电子设备为图2所示的电子设备为例进行说明，该方法可以包括如下部分或者全部内容：

步骤801的操作可以参考上述步骤501的操作，本申请实施例对此不再进行一一赘述。

步骤802：对获取到的初始音频信号进行人声抑制处理，得到人声抑制后的目标音频信号。

需要说明的是，步骤802的详细操作可以参考上述步骤502-步骤507的操作，本申请实施例对此不再进行一一赘述。

步骤803：确定是否获取到第一立体声信号，若是，则执行下述步骤804的操作，若否，则执行下述步骤806的操作。

由于用户可能单耳佩戴TWS耳机中的任意一个耳机，因此，电子设备经过上述步骤501-507的操作后，可能会得到第一目标音频信号或第二目标音频信号，该种情况下，电子设备可以执行下述步骤806的操作。

又由于用户也可能会双耳佩戴TWS耳机，因此，电子设备经过上述步骤501-步骤507的操作后，会得到第一目标音频信号和第二目标音频信号，第一目标音频信号和第二目标音频信号构成第一立体声信号，该种情况下，电子设备可以执行下述步骤804的操作。

步骤804：对第一立体声信号依次进行降噪处理和滤波处理，得到第二立体声信号。

作为一个示例，由于第一立体声信号中可能会包括不同类型的噪声，因此，电子设备可以通过至少一种降噪方式对第一立体声进行降噪处理，且根据噪声类型的不同，电子设备选取的降噪方式也不同。

示例性地，电子设备可以通过最小值控制的递归平均(Minima controlledrecursive averaging，MCRA)算法对第一立体声信号中的稳态噪声进行降噪处理。其中，在降噪过程中，电子设备可以将第一立体声信号的频谱划分为不同的子带，并通过语音端点检测(Voice Activity Detection，Vad)算法对子带进行判决。其中，通过Vad算法可以判断噪声出现的概率，从而递归地估计出不同音频帧不同子带对应的噪声谱，得到降噪后的立体声信号。

值得说明的是，通过MCRA算法对第一立体声信号中的稳态噪声进行降噪处理，从而保证了得到的第二立体声信号的保真度。

作为一个示例，由于硬件设备的原因，电子设备获取的第一立体声信号中通常还会包括低频噪声，因此，电子设备不仅可以通过MCRA算法对第一立体声信号中的稳态噪声进行降噪处理，在此基础上，电子设备还可以通过高通过滤波算法对第一立体声信号进行降噪处理。

示例性地，电子设备可以通过预设的高通有限长单位冲激响应(Finite ImpulseResponse，FIR)滤波器滤除第一立体声信号中的低频噪声。

在一些实施例中，由于均衡器(Equalization，EQ)是通过滤波器来调整声音系统频率响应的工具，且EQ能够按照频响需求，调整声音的音色，达到美化声音的效果，因此，电子设备可以通过EQ对第一立体声信号进行滤波处理，得到第二立体声信号。

需要说明的是，EQ可以通过数字滤波器实现，示例性地，EQ可以通过FIR滤波器实现，通过设定FIR滤波器的阶数和不同频段FIR滤波器的增益值，得到时域上的FIR滤波器系数h_Eq(t)。其中，FIR滤波器的输入为y(t)，滤波结果可以由FIR滤波器的输入和FIR滤波器系数通过时域卷积滤波得出，即滤波结果为x(t)＝h_Eq(t)*y(t)。

在一些实施例中，在电子设备得到第一目标音频信号或第二目标音频信号的情况下，电子设备在执行步骤806之前，还可以对得到的第一目标音频信号或第二目标音频信号依次进行降噪处理和滤波处理。

值得说明的是，通过对第一立体声信号依次进行降噪处理和滤波处理，从而提高了得到的第二立体声信号的质量。

步骤805：拓宽第二立体声信号的声场宽度。

为了在播放TWS耳机录制的音频的过程中，能够提高音频的空间感，电子设备还可以拓宽第二立体声信号的声场宽度。

在一些实施例中，电子设备拓宽第二立体声信号的声场宽度的操作可以参考下述图9中步骤901-步骤905的操作操作。

步骤806：响应于音频播放操作，进行音频播放。

需要说明的是，用户在需要播放通过TWS耳机采集的音频的情况下，可以在电子设备中触发音频播放操作，从而使电子设备进行音频播放。示例性地，该场景可以参考上述图4所示的应用场景。

在本申请实施例中，在获取到TWS耳机中任意一个耳机采集的第一前馈音频信号和第一主音频信号的情况下，可以通过一阶差分波束算法对第一主音频信号进行人声抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。之后，在电子设备获取到第一立体声信号的的情况下，能够对第一立体声信号的声场宽度进行扩展，从而在播放音频时能够提高音频的空间感、方位感和距离感，提升了用户收听音频的体验。

接下来，对电子设备扩宽第二立体声信号的声场宽度为例进行说明，请参考图9，图9是本申请实施例提供的一种对立体声信号进行声场拓宽的方法流程图。该方法应用于与TWS耳机蓝牙连接的电子设备中为例进行说明，电子设备为图2所示的电子设备为例进行说明，该方法可以包括如下部分或者全部内容：

步骤901：获取第一目标音频信号和第二目标音频信号之间的时间差。

由于第二立体声信号的时间差和能量差记录了最准确和最原始的方位信息，且该时间差为第二立体声信号中第一目标音频信号和第二目标音频信号的之间的时间差，因此，为了在进行声场拓展过程中，保留原始的方位信息，电子设备可以获取第一目标音频信号和第二目标音频信号之间的时间差。

作为一个示例，电子设备可以通过第一目标音频信号和第二目标音频信号之间的互相关度获取时间差。示例性地，电子设备可以通过下述第五公式，获取第一目标音频信号和第二目标音频信号之间的时间差。

ITD＝arg max_τR_lr(τ)＝arg max_r∫x_l(t)x_r(t+τ)dt (5)

需要说明的是，在上述第五公式(5)中，ITD为时间差，R_lr(τ)为第一目标音频信号和第二目标音频信号之间的互相关度，x_l(t)为第一目标音频信号，x_r(t+τ)为第二目标音频信号与第一目标音频信号时延对齐情况下的表达形式。

步骤902：基于时间差，对第一目标音频信号和第二目标音频信号进行时延对齐。

需要说明的是，电子设备可以基于时间差，通过互相关函数对第一目标音频信号和第二目标音频信号进行时延对齐。

示例性地，电子设备可以通过上述第五公式(5)中R_lr(τ)函数对第一目标音频信号和第二目标音频信号进行时延对齐，其中，R_lr(τ)＝∫x_l(t)x_r(t+τ)dt。

步骤903：通过BRIR信号对第三立体声信号进行渲染，得到第四立体声信号。

需要说明的是，BRIR信号是在得到第二立体声信号后基于第二立体声信号的声场方向确定，该第三立体声信号包括时延对齐后的第一目标音频信号和第二目标音频信号。示例性地，该第三立体声信号可以为

作为一个示例，由于第二立体声信号的时间差中可以提供用于辨别声源的入射方向或角度的提示，因此，电子设备在得到第二立体声信号后，可以根据第二立体声信号的时间差确定第二立体声信号的声场方向，并根据声场方向，从方向与BRIR信号中获取对应的BRIR信号。

需要说明的是，BRIR信号包括第一目标音频信号对应的第一BRIR信号和第二目标音频信号对应的第二BRIR信号。其中第一BRIR信号可以为为第一响应信号，/>为第二响应信号。第二BRIR信号可以为/> 为第三响应信号，/>为第四响应信号。

还需要说明的是，第一BRIR信号可以与第二BRIR信号相同，也可以不相同。在第一BRIR信号与第二BRIR信号不相同的情况下，第一BRIR信号与第二BRIR信号根据两个对称方向确定得到，且第一BRIR信号与第二BRIR信号的时延对齐。

值得说明的是，在第一BRIR信号与第二BRIR信号不相同的情况下，通过对齐BRIR信号与第二BRIR信号的时间差，避免了在进行声场拓宽的过程中，对声场方向的影响。

作为一个示例，电子设备通过BRIR信号对第三立体声信号进行渲染，得到第四立体声信号的操作包括：将时延对齐后的第一目标音频信号与第一BRIR信号中第一响应信号和第二响应信号分别进行卷积，得到第一卷积结果和第二卷积结果；将时延对齐后的第二目标音频信号与第二BRIR信号中的第三响应信号和第四响应信号分别进行卷积，得到第三卷积结果和第四卷积结果；根据第一卷积结果、第二卷积结果、第三卷积结果和第四卷积结果，确定所述第四立体声信号。

示例性地，时延对齐后的第一目标音频信号可以为时延对齐后的第二目标音频信号可以为/>第一响应信号可以为/>第二响应信号可以为/>第三响应信号可以为/>第四响应信号可以为/>该种情况下，第一卷积结果可以为/>第二卷积结果为/>第三卷积结果为/>第四卷积结果为/>

作为一个示例，电子设备根据第一卷积结果、第二卷积结果、第三卷积结果和第四卷积结果，确定第四立体声信号的操作包括：将第一卷积结果与第三卷积结果相加，得到第一相加结果，该第一卷积结果与第三卷积结果对应的响应信号为针对同一声道的响应信号；将第二卷积结果与第四卷积结果相加，得到第二相加结果，该第二卷积结果与第四卷积结果对应的响应信号为针对同一声道的响应信号，该第一相加结果和第二相加结果构成第四立体声信号。

示例性地，该第一相加结果可以为该第二相加结果可以为/>

需要说明的是，电子设备可以将第一相加结果和第二相加结果确定为第四立体声信号。或者，电子设备可以对第一相加结果和第二相加结果进行加权，将加权后的第一相加结果和加权后的第二相加结果，确定为第四立体声信号。

值得说明的是，通过第一BRIR信号和第二BRIR信号分别对时延对齐后的第一目标音频信号和时延对齐后的第二目标音频信号进行卷积操作，从而提高了渲染的准确性。

步骤904：基于时延对齐后的第一目标音频信号与时延对齐后的第二目标音频信号之间的能量差，校正第四立体声信号的能量差。

由于BRIR信号对第三立体声信号进行渲染后影响了原始的双耳能量差，导致第四立体声信号的声像发生偏移，因此，为了校正第四立体声信号的声像，电子设备可以基于时延对齐后的第一目标音频信号与时延对齐后的第二目标音频信号之间的能量差，校正第四立体声信号的能量差。也即是，电子设备基于第三立体声信号的能量差校正第四立体声信号的能量差。

作为一个示例，电子设备基于时延对齐后的第一目标音频信号与时延对齐后的第二目标音频信号之间的能量差，校正第四立体声信号的能量差的操作包括：分别对第三立体声信号和第四立体声信号进行频域转换，得到第三立体声信号对应的第一立体声频域信号和第四立体声信号对应的第二立体声频域信号，该第一立体声频域信号中包括第三主频域信号和第四主频域信号，第二立体声频域信号中包括第五主频域信号和第六主频域信号，该第三主频域信号和第五主频域信号为同声道信号，该第四主频域信号和第六主频域信号为同声道信号；基于第三主频域信号中每个频点的幅值和第五主频域信号中每个频点的幅值，确定第四幅值增益函数；基于第四主频域信号中每个频点的幅值和第六主频域信号中每个频点的幅值，确定第五幅值增益函数；将第四幅值增益函数与第五主频域信号相乘，得到第一相乘结果，以及将第五幅值增益函数与第六主频域信号相乘，得到第二相乘结果，该第一相乘结果与第二相乘结果构成第三立体声频域信号；对第三立体声频域信号进行时域转换处理，得到校正后的第四立体声信号。

由于能量差的校正需要在频域上实现，因此，电子设备可以分别对第三立体声信号和第四立体声信号进行频域转换，得到第三立体声信号对应的第一立体声频域信号和第四立体声信号对应的第二立体声频域信号。示例性地，该第一立体声频域信号可以为其中，/>为第三主频域信号，/>为第四主频域信号，该第二立体声频域信号可以为/>其中，/>为第五主频域信号，/>为第六主频域信号。

由于频域上的增益变化能够表示第三立体声信号和第四立体声信号之间的能量差变化，因此，电子设备可以基于第三主频域信号中每个频点的幅值和第五主频域信号中每个频点的幅值，确定第四幅值增益函数，并基于第四主频域信号中每个频点的幅值和第六主频域信号中每个频点的幅值，确定第五幅值增益函数。

作为一个示例，电子设备基于第三主频域信号中每个频点的幅值和第五主频域信号中每个频点的幅值，通过下述第六公式确定第四幅值增益函数。

需要说明的是，在上述第六公式(6)中，g_l(f)为第四幅值增益函数，为第三主音频信号中每个频点的幅值，/>为第五主频域信号中每个频点幅值。

作为一个示例，电子设备基于第四主频域信号中每个频点的幅值和第六主频域信号中每个频点的幅值，通过下述第七公式确定第五幅值增益函数。

需要说明的是，在上述第七公式(7)中，g_r(f)为第五幅值增益函数，为第三主音频信号中每个频点的幅值，/>为第五主频域信号中每个频点幅值。

由于需要对第四立体声信号的能量差进行校正，而第四幅值增益函数和第五幅值增益函数能够分别表示两个声道中能量差的变化，因此，通过将第四幅值增益函数与第五主频域信号相乘，并将第五幅值增益函数与第六主频域信号相乘，可以实现对第四立体声信号的能量差的校正。示例性地，该第一相乘结果可以为该第二相乘结果可以为/>

作为一个示例，电子设备可以直接将第一相乘结果与第二相乘结果确定为第三立体声频域信号，或者，将第一相乘结果和第二相乘结果分别进行进行加权，将加权后的第一相乘结果和加权后的第二相乘结果确定为第三立体声频域信号。

在一些实施例中，电子设备可以通过逆傅里叶变换对第三立体声频域信号进行时域转换处理，得到校正后的第四立体声信号。

值得说明的是，通过确定第三立体声信号与第四立体声信号之间在频域上的幅值增益，从而能够准确表示第三立体声信号和第四立体声信号之间的能量差变化，进而提高了校正第四立体声信号的能量差的准确性。

步骤905：恢复校正后的第四立体声信号的时间差，得到第五立体声信号。

由于第四立体声信号是通过无时延的第三立体声信号确定得到，因此，第四立体声信号的时间差必然与原始立体声信号的时间差不同，为了保留原始立体声信号的方位信息，电子设备还可以恢复校正后的第四立体声信号的时间差，得到第五立体声信号。

值得说明的是，通过对第四立体声信号的能量差进行校正，从而改善了第四立体声信号的声像发生偏移的现象，提高了第四立体声信号的声像质量。对校正后的第四立体声信号的时间差进行恢复，从而实现了对原始立体声的方位信息的保留。

在本申请实施例中，通过BRIR信号对第二立体声进行渲染后，还可以对渲染后的立体声信号进一步进行能量差的校正和时间差恢复，从而不仅实现了对立体声信号的声场宽度的扩展，同时保留了原始立体声信号的方位信息，从而在播放音频时能够提高音频的空间感、方位感和距离感，提升了用户收听音频的体验。

接下来，根据本申请另一实施例提供的一种音频信号的处理方法进行介绍。请参考图10，作为示例而非限定，这里以对人声抑制的处理应用于TWS耳机中，对拓宽第二立体声信号的声场宽度的操作应用于与TWS耳机蓝牙连接的电子设备中为例进行说明，电子设备为图2所示的电子设备为例进行说明，该方法可以包括如下部分或者全部内容：

步骤1001-步骤1002的操作可以参考上述步骤801-步骤802的操作，本申请实施例对此不再进行一一赘述。

步骤1003：TWS耳机向电子设备发送第一目标音频信号和/或第二目标音频信号。

步骤1004：电子设备接收第一目标音频信号和/或第二目标音频信号；在电子设备接收到第一目标音频信号和第二目标音频信号的情况下，则执行下述步骤1005的操作，在电子设备接收到第一目标音频信号或第二目标音频信号的情况下，则执行下述步骤1007的操作。

步骤1005-步骤1007的操作可以参考上述步骤804-步骤806的操作，本申请实施例对此不再进行一一赘述。

在本申请实施例中，在获取到TWS耳机中任意一个耳机采集的第一前馈音频信号和第一主音频信号的情况下，可以通过一阶差分波束算法确定第一前馈音频信号对应的第一幅值增益函数，并将该第一幅值增益函数作用在第一音频主信号中，从而得到人声抑制后的第一目标音频信号。由于一阶差分波束会对180度方向的振幅进行抑制，因此，通过一阶差分波束算法确定第一幅值增益函数，并将该第一幅值增益函数作用在第一主音频信号中的情况下，该第一主音频信号位于180度方向的音频信号的振幅将会被抑制。而由于TWS耳机佩戴方式使得采集的佩戴者的自讲音频信号集中在180度的方向，因此，对第一主音频信号位于180度方向的音频信号的振幅进行抑制，即为对佩戴者自讲人声的抑制，从而改善了自讲人声突兀的问题，提高了后续音频播放效果。之后，在电子设备获取到第一立体声信号的的情况下，能够对第一立体声信号的声场宽度进行扩展，从而在播放音频时能够提高音频的空间感、方位感和距离感，提升了用户收听音频的体验。

图11是本申请实施例提供的一种音频信号的处理装置的结构示意图，该装置可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部，该电子设备可以为图2所示的电子设备。参见图11，该装置包括：第一获取模块1101、确定模块1102和计算模块1103。

第一获取模块1101，用于获取真无线立体声TWS耳机中目标耳机的麦克风拾取的第一初始音频信号，所述第一初始音频信号中包括通过所述目标耳机的前馈麦克风采集的第一前馈音频信号和通过所述目标耳机的主麦克风采集的第一主音频信号，所述目标耳机为所述TWS耳机中任意一边的耳机；

确定模块1102，用于基于所述第一初始音频信号和所述第一前馈音频信号，通过一阶差分波束算法确定所述第一前馈音频信号对应的第一幅值增益函数，所述第一幅值增益函数用于描述所述第一前馈音频信号中每个频点的幅值增益；

计算模块1103，用于将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号。

作为本申请的一个示例，所述确定模块1102用于：

确定所述第二幅值增益函数中所有频点的平均幅值增益；

作为本申请的一个示例，所述装置还包括：

所述计算模块用于：

作为本申请的一个示例，所述装置还包括：

所述渲染模块用于：

作为本申请的一个示例，所述装置还包括：

作为本申请的一个示例，所述校正模块用于：

需要说明的是：上述实施例提供的音频信号的处理装置在处理音频信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

上述实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

上述实施例提供的音频信号的处理装置与音频信号的处理方法实施例属于同一构思，上述实施例中单元、模块的具体工作过程及带来的技术效果，可参见方法实施例部分，此处不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，比如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(比如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(比如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(比如：软盘、硬盘、磁带)、光介质(比如：数字通用光盘(Digital Versatile Disc，DVD))或半导体介质(比如：固态硬盘(Solid State Disk，SSD))等。

以上所述为本申请提供的可选实施例，并不用以限制本申请，凡在本申请的揭露的技术范围之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频信号的处理方法，其特征在于，所述方法包括：

基于所述第二幅值增益函数和所述第一前馈频域信号，确定第一幅值增益函数，所述第一幅值增益函数用于描述所述第一前馈音频信号中每个频点的幅值增益；

2.如权利要求1所述的方法，其特征在于，所述基于所述第二幅值增益函数和所述第一前馈频域信号，确定所述第一幅值增益函数，包括：

确定所述第二幅值增益函数中所有频点的平均幅值增益；

3.如权利要求1所述的方法，其特征在于，所述将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号之前，还包括：

通过预设分段函数对所述第一幅值增益函数进行修正；

4.如权利要求1-3中任一项所述的方法，其特征在于，所述将所述第一幅值增益函数作用于所述第一主音频信号中，得到人声抑制后的第一目标音频信号之后，还包括：

通过双耳房间脉冲响应BRIR信号对第三立体声信号进行渲染，得到第四立体声信号，所述BRIR信号是在得到所述第二立体声信号后基于所述第二立体声信号的声场方向确定，所述第三立体声信号包括时延对齐后的所述第一目标音频信号和所述第二目标音频信号。

5.如权利要求4所述的方法，其特征在于，所述BRIR信号包括所述第一目标音频信号对应的第一BRIR信号和所述第二目标音频信号对应的第二BRIR信号；

将所述第一卷积结果与所述第三卷积结果相加，得到第一相加结果，所述第一卷积结果与所述第三卷积结果对应的响应信号为针对同一声道的响应信号；

6.如权利要求4所述的方法，其特征在于，所述通过双耳房间脉冲响应BRIR信号对第三立体声信号进行渲染，得到第四立体声信号之后，还包括：

7.如权利要求6所述的方法，其特征在于，所述基于时延对齐后的所述第一目标音频信号与时延对齐后的所述第二目标音频信号之间的能量差，校正所述第四立体声信号的能量差，包括：

8.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器，所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，当所述处理器执行所述指令时，所述电子设备用于执行如权利要求1-7中任一项所述的音频信号的处理方法。

9.一种计算机可读存储介质，用于存储一个或多个程序，其中所述一个或多个程序被配置为被一个或多个处理器执行，所述一个或多个程序包括指令，所述指令使得电子设备执行如权利要求1-7任一所述的音频信号的处理方法。