CN114203163A

CN114203163A - 音频信号处理方法及装置

Info

Publication number: CN114203163A
Application number: CN202210141643.2A
Authority: CN
Inventors: 胡贝贝; 夏日升; 许剑峰
Original assignee: Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-03-18

Abstract

本申请提供了一种音频信号处理方法及装置，该方法采用基于神经网络的人声提取模型，从原始立体声信号中提取出左、右声道背景声信号和人声信号。对左、右声道背景声信号进行声场扩展得到扩展背景声信号；进一步，对人声信号进行语音检测获得目标人声信号。最后，对扩展背景声信号和目标人声信号进行混音处理，得到目标输出音频信号。可见，基于神经网络的人声提取模型能够提取出比较纯净的人声信号，从而获得比较纯净的背景声信号，对纯净的背景声信号进行声场扩展，避免了人声变散变虚的问题，提高了声场扩展效果。而且，提高了人声清晰度和声场扩展效果，进一步提高了用户的听觉体验。

Description

音频信号处理方法及装置

技术领域

本申请涉及音频处理技术领域，尤其涉及音频信号处理方法及装置。

背景技术

为了提升用户的影音感受，智能终端（如智能手机、平板电脑、智慧屏等）设置有至少两个扬声器，从而实现立体声播放。如图1所示，以智能手机为例，手机的顶部和底部分别设置有扬声器，用户用扬声器播放立体声信号时，经过两个扬声器传出不同的声音信号，如，从顶部扬声器输出的第一声音信号传到用户的右耳，从底部扬声器输出的第二声音信号传到用户的左耳，使用户两只耳朵听到不同的声音信息，从而实现立体声播放。

为了进一步呈现沉浸式效果，终端设备还会通过软件处理对声场进行扩展。但目前的声场扩展算法可以使声场宽度变宽，但是声音中的人声信号经过声场扩展后，会导致人声的声音清晰度下降、声音变浑浊。

发明内容

有鉴于此，本申请提供了一种音频信号处理方法及装置，以解决至少部分上述的技术问题，其公开的技术方案如下：

第一方面，本申请提供了一种音频信号处理方法，应用于电子设备，该方法包括：将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号和背景声信号，背景声信号包括左声道背景声信号和右声道背景声信号；扩展背景声信号的声场获得扩展背景声信号；对第一人声信号进行语音检测，获得目标人声信号；将扩展背景声信号和目标人声信号进行混音处理，得到目标输出音频信号。可见，该方案基于神经网络的人声提取模型能够提取出比较纯净的人声信号，从而获得比较纯净的背景声信号，对纯净的背景声信号进行声场扩展，避免了人声变散变虚的问题，提高了声场扩展效果，提高了用户的听觉体验。

在一种可能的实现方式中，人声提取模型为频域的人声提取模型；将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号、左声道背景声信号和右声道背景声信号，包括：将原始立体声信号进行时频转换获得频域立体声信号；将频域立体声信号输入至人声提取模型，提取频域立体声信号对应的频谱特征，并分析频谱特征获得频域立体声信号对应的人声掩码和背景声掩码，人声掩码表征频域立体声信号中每一帧声音信号是否是人声信号，背景声掩码表征频域立体声信号中每一帧声音信号是否是背景声信号；将频域立体声信号对应的向量与人声掩码进行向量乘法运算，获得频域立体声信号中的频域人声信号；将频域立体声信号与背景声掩码进行向量乘法运算，获得频域立体声信号包含的左声道频域背景声信号和右声道频域背景声信号；将频域人声信号进行频时转换获得时域的人声信号；将左声道频域背景声信号和右声道频域背景声信号进行频时转换获得时域的背景声信号。

在另一种可能的实现方式中，人声提取模型能够处理时域的音频信号；将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号、左声道背景声信号和右声道背景声信号，包括：将原始立体声信号对应的向量输入至人声提取模型，提取原始立体声信号的特征向量，并分析特征向量，获得原始立体声信号对应的人声掩码和背景声掩码，人声掩码表征立体声信号中每一帧声音信号是否是人声信号，背景声掩码表征频域立体声信号中每一帧声音信号是否是背景声信号；将原始立体声信号的特征向量与人声掩码进行向量乘法运算，获得人声信号；将原始立体声信号的特征向量与背景声掩码进行向量乘法运算，获得左声道背景声信号和右声道背景声信号。

在又一种可能的实现方式中，人声提取模型为频域的人声提取模型；人声提取模型的训练过程包括：获取人声样本数据和背景声样本数据；对人声样本数据进行时频变换，获得人声样本数据对应的真实人声频谱；将人声样本数据与背景声样本数据进行混音处理，获得混合音频样本；对混合音频样本进行时频变换，获得混合音频样本对应的频谱；将混合音频样本对应的频谱输入待训练人声提取模型，获得人声掩码，根据混合音频样本和人声掩码获得估计人声频谱；根据同一人声样本数据对应的真实人声频谱和估计人声频谱，获得损失值；如果损失值不满足预设收敛条件，调整待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得新的估计人声频谱，并计算新的估计人声频谱与真实人声频谱的损失值，直到损失值满足预设收敛条件，获得人声提取模型。

在另一种可能的实现方式中，人声提取模型为时域的人声提取模型；人声提取模块的训练过程包括：获取人声样本数据和背景声样本数据；获取人声样本数据中对应的真实人声信息；将人声样本数据与背景声样本数据进行混音处理，获得混合音频样本；将混合音频样本对应的向量输入待训练人声提取模型，获得时域的估计人声信息；根据同一人声样本数据对应的真实人声信息的样点幅值与估计人声信息的幅值，获得损失值；如果损失值不满足预设收敛条件，调整待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得混合音频样本对应的新的估计人声信息，并获得新的损失值，直到新的损失值满足预设收敛条件，获得人声提取模型。

在又一种可能的实现方式中，对第一人声信号进行语音检测，获得目标人声信号，包括：针对第一人声信号中的任一人声帧，保持人声帧的增益不变，人声帧是第一人声信号中仅包含人声信号的帧；针对第一人声信号中的任一背景声帧，降低背景声帧的增益，背景声帧是第一人声信号中仅包含背景声信号的帧；将第一人声信号中的每个人声帧和每个背景声帧，按时间顺序拼接得到目标人声信号。可见，该方案可以检测出人声信号中残留的非人声信号，确定出第一人声信号中的人声帧和背景声帧，进一步，分别针对人声帧和背景声帧进行增益控制，进一步提高人声的清晰度，同时避免了背景声不平稳的问题，进一步提高了声场扩展效果和人声清晰度。

在另一种可能的实现方式中，对第一人声信号进行语音检测，获得目标人声信号，包括：针对第一人声信号中的任一人声帧，增大人声帧的增益；针对第一人声信号中的任一背景声帧，保持背景声帧的增益；将第一人声信号中的每个人声帧和每个背景声帧，按时间顺序拼接得到目标人声信号。

在又一种可能的实现方式中，对第一人声信号进行语音检测，包括：针对第一人声信号包含的任一帧声音信号，进行时频变换，获得第一频谱信息；对第一频谱信息进行对数计算获得第二频谱信息；对第二频谱信息进行频时变换，得到任一帧声音信号对应的倒谱系数；如果任一帧声音信号对应的倒谱系数大于预设阈值，确定任一帧声音信号为人声信号；如果任一帧声音信号对应的倒谱系数小于或等于预设阈值，确定任一帧声音信号为背景声信号。可见，该方案通过计算每一帧的倒谱系数确定该帧是人声帧还是背景声帧，该方式简单且准确率高。

在另一种可能的实现方式中，扩展背景声信号包括左声道扩展背景声信号和右声道扩展背景声信号；将扩展背景声信号和目标人声信号进行混音处理，得到目标输出音频信号，包括：将左声道扩展背景声信号与目标人声信号进行混音处理，得到左声道目标输出音频信号；将右声道扩展背景声信号与目标人声信号进行混音处理，得到右声道目标输出音频信号。

第二方面，本申请还提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器和至少两个扬声器；所述存储器用于存储程序代码；所述处理器用于运行所述程序代码，使得所述电子设备实现如第一方面任一种可能的实现方式所述的音频信号处理方法。

第三方面，本申请还提供了一种计算机可读存储介质，其上存储有指令，当该指令在电子设备上运行时，使得该电子设备执行如第一方面任一种可能的实现方式所述的音频信号处理方法。

第四方面，本申请还提供了一种计算机程序产品，其上存储有执行，当该计算机程序产品在电子设备上运行时，使得该电子设备实现如第一方面任一种可能的实现方式所述的音频信号方法。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种通过智能手机的扬声器播放音频的场景示意图；

图2是本申请实施例提供的一种终端设备的结构示意图；

图3是本申请实施例提供的一种终端设备的操作系统软件结构示意图；

图4是本申请实施例提供的一种音频信号处理过程的示意图；

图5是本申请实施例提供的一种音频信号处理方法的流程图；

图6是本申请实施例提供的一种声场扩展过程的示意图；

图7是本申请实施例提供的一种减弱人声信号中残留的非人声信号过程的流程图；

图8是本申请实施例提供的一种人声信号和背景声信号对应倒谱系数曲线图；

图9是本申请实施例提供的一种人声提取网络的训练过程和使用过程的示意图。

具体实施方式

本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

目前的音频信号处理方法，通过基于左、右声道的相关度分析提取左、右声道和中置声道的信号，但是此种方式提取的中置声道的人声不够纯净，在左、右声道中残留一些人声信号，因此，在对左、右声道的背景声信号进行声场扩展时，也会对残留在左、右声道中的人声信号进行声场扩展，这样会导致人声变散变虚，即人声的清晰度下降。

为了解决声场扩展时人声清晰度下降的问题，本申请发明人提供了一种音频信号处理方法，采用基于神经网络的人声提取模型，从原始立体声信号中提取出左、右声道背景声信号和人声信号。只对背景声信号进行声场扩展，得到扩展背景声信号。进一步地，对人声信号进行语音检测确定出所述人声信号中的人声帧和背景声帧，进一步对人声帧和背景声帧分别进行增益控制，得到处理后的人声信号。最后，对扩展背景声信号和处理后的人声信号进行混音处理，得到目标输出音频信号。该方案中，基于神经网络的人声提取模型能够提取出比较纯净的人声信号，减少了背景声信号中残留的人声信号，因此能够获得比较纯净的背景声信号。这样，对背景声信号进行声场扩展时，避免了人声变散变虚的问题，因此提高了声场扩展效果。而且，进一步对中置声道的信号中的人声帧和背景声帧分别进行增益控制，得到目标人声信号。从而避免了目标人声信号与左、右声道混音后，目标人声信号中残留的背景声信号引起背景声信号不平稳的问题，进一步提高了声场扩展的效果。

在一些实施例中，应用上述音频信号处理方法的电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超集移动个人计算机（Ultra-mobile Personal Computer，UMPC）、手持计算机、上网本、个人数字助理（Personal Digital Assistant，PDA）、可穿戴电子设备、智能手表等设备，本申请对电子设备的具体形式不做特殊限制。

请参见图2，示出了本申请实施例提供的一种终端设备的结构示意图。

电子设备包括处理器、存储器、显示屏、音频模块，其中，音频模块包括扬声器、受话器、麦克风、耳机接口。

可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

存储器可以用于存储计算机可执行程序代码，该可执行程序代码包括指令。处理器调用存储器内存储的指令，以执行电子设备的各种功能应用及数据处理。

处理器可以包括一个或多个处理单元，例如，在本申请中，处理器执行存储器中的指令可以实现如下方法步骤：基于人声提取模型，从原始立体声信号中提取出左声道信号、右声道信号和中置声道信号；进一步，减弱中置声道信号中的非人声信号，得到纯净人声信号。对左声道信号和右声道信号进行声场扩展得到扩展背景声信号；以及，增强纯净人声信号的增益，得到增强人声信号。最后，对扩展背景声信号和增强人声信号进行混音处理，得到目标输出音频信号。

显示屏用于显示图像、视频等。电子设备可以包括1个或N个显示屏，其中，N为大于1的正整数。

电子设备可以通过音频模块，扬声器，受话器，麦克风，耳机接口，以及应用处理器等实现音频功能。例如音乐播放，录音等。电子设备可以包括2个或M个扬声器，其中，M为大于2的正整数。

例如，在用户利用扬声器听音乐、看视频、玩游戏等场景下，通过至少两个扬声器可以实现立体声播放。

人的耳朵在听声音时，会将左右两侧分别获得的声音信息进行处理，从而分辨声音传出的主要方位。经过至少两个扬声器传输不同的声音，使得用户两只耳朵读取到不同的声音信息，从而实现立体声播放。

另外，在上述部件之上，运行有操作系统。例如，鸿蒙操作系统，iOS操作系统，Android开源操作系统，Windows操作系统等。在该操作系统上可以安装运行应用程序。

本申请实施例以分层架构的Android系统为例，示例性说明电子设备的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。

在一些实施例中，如图3所示，可以将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，系统库，以及内核层。

应用程序层可以包括一系列应用程序包。在本申请实施例中，应用程序层可以包括音频应用，该音频应用是指能够提供音频信号的应用程序，如音乐、视频、游戏、浏览器、即时通讯等。

应用程序框架层（Framework）为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架，也可以称为Service层。应用程序框架层包括一些预先定义的函数。

在一示例性实施例中，本申请实施例提供的音频信号处理方法可以集成在混音线程模块中。

如图3所示，混音线程（MixerThread）模块属于应用程序框架层。其中，MixerThread是Android音频输出的核心部分，所有Android的音频都需要经过MixerThread进行混音后再输出。

示例性地，该混音线程模块用于实现本申请实施例提供的音频处理方法，如，该混音线程模块可以包括人声提取模块、声场扩展模块、非人声检测模块、人声增强模块和混音模块。

如图4所示，示出了基于上述各模块对音频信号进行处理过程的示意图。

人声提取模块，用于从原始音频信号（L/R声道信号）中提取出中置声道Cn的人声信号和左、右声道的背景声信号（Ln、Rn）。

声场扩展模块，用于扩展背景声信号的声场宽度。

非人声检测模块，用于检测人声信号中残留的非人声信号（即，背景声信号）。

人声增强模块，用于增强人声信号的增益。

混音模块，用于对处理后的人声信号和处理后的背景声信号进行混音处理，得到最终输出的音频信号。

安卓运行时（Android Runtime）负责Android系统的调度和管理。系统库可以包括多个功能模块，如媒体库。媒体库支持多种常用的音频、视频格式回放和录制，以及静态图像文件等。

内核层是硬件和软件之间的层。内核层至少包含音频驱动，显示驱动，摄像头驱动，传感器驱动。

在一示例性实施例中，混音线程模块对音频应用输出的音频信号进行处理得到处理后的音频信号，并传递至音频驱动，由音频驱动将处理后的音频信号传递至扬声器播放。

需要说明的是，本申请实施例虽然以Android系统为例进行说明，但是其基本原理同样适用于基于iOS或Windows等操作系统的电子设备。

下面将结合图5~图9详细介绍本申请实施例提供的音频信号处理方法的过程。

请参见图5，示出了本申请实施例提供的一种音频信号处理方法的流程图，该方法应用于图2所示的电子设备中，如图5所示，该方法可以包括以下步骤：

S11，人声提取模块基于人声提取网络从原始立体声信号中提取获得左声道背景声信号、右声道背景声信号和第一人声信号。

人声提取模型可以采用基于神经网络的模型，如，全卷积时域音频分离网络Conv-Tasnet，或者，频域音频分离网络Demucs等。

利用人声样本数据和非人声样本数据训练基于神经网络的人声提取模型，获得适用于人声提取的神经网络模型，进一步基于训练完成的人声提取模型从包含人声信号和非人声信号的混合立体声信号中提取出比较纯净的左右声道的背景声信号和中置声道的人声信号。

原始立体声信号是音频应用（如，视频、音乐、游戏等）提供的音频信号，立体声信号至少包括左、右两个声道的信号。在本申请一示例性实施例中，可以基于人声提取模型从原始立体声信号中分离得到左、右声道中的非人声信号（即背景声信号），以及，中置声道的人声信号。

其中，从左声道信号中提取的背景声信号记为Ln，从右声道信号中提取的背景声信号记为Rn。中置声道的人声信号可以记为Cn，即第一人声信号。

S12，人声提取模块将左、右声道的背景声信号发送至声场扩展模块，以及，将第一人声信号发送至非人声检测模块。

人声提取模块提取出的左右两声道的背景声信号发送至声场扩展模块进行后续的声场扩展处理。以及，将第一人声信号发送至非人声检测模块进行语音检测。

S13，声场扩展模块对左、右声道背景声信号进行声场扩展，获得扩展背景声信号，并将扩展背景声信号发送至混音模块。

在一示例性实施例中，可以采用串声消除方法实现声场扩展。

在其它实施例中，还可以采用其它方式实现声场扩展，如通过创建虚拟扬声器达到声场扩展的目的，本申请对声场扩展的具体方式不作限定。

S14，非人声检测模块利用VAD检测方法检测第一人声信号中残留的非人声信号，得到第二人声信号，并将第二人声信号发送至人声增强模块。

利用人声提取网络提取出的人声信号比较纯净，但提取出的人声信号可能残留少量非人声信号，如乐器、特效、噪声等背景声信号。如果直接将残留有少量非人声信号的人声信号进行增益控制，将增益控制后的中置声道信号与左、右声道扩展背景声信号叠加，可能导致背景声不平稳的问题。

因此，为了提高背景声信号的平稳性，进一步利用语音激活检测（Voice ActivityDetection，VAD）方法检测出人声信号中残留的非人声信号，并针对中置声道信号中的人声帧和背景声帧分别进行增益控制，使得人声信号达到用户需求，同时保证背景声信号平稳。

VAD能够区分任一帧音频信号是语音信号帧（即人声帧）还是背景噪音信号帧（即背景声帧）。此处的第二人声信号是指对第一人声信号中的人声帧和背景声帧分别标记后得到的人声信号，如人声帧标记为二进制数“1”，背景声帧标记为二进制数“0”。

在一示例性实施例中，VAD检测方式可以采用倒谱检测，倒谱（cepstrum）是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱，主要功能是可以线性分离经卷积后的两个或多个分别的信号。

此外，语音信号具有短时能量较大、短时过零率较小，而非语音信号的短时能量较小、短时过零率较大的特点。在本申请的其它实施例中，VAD检测方法还可以采用短时能量和短时过零率等方式，本申请对检测语音信号和非语音信号的方式不作限制。

S15，人声增强模块控制第二人声信号中人声帧的增益增大，获得第三人声信号。

在一种应用场景中，如原始立体声信号中的人声信号的音量比较小，用户需要调大音量才能听清人声，但背景声比较大，如果调大音量会导致背景声的音量更大。此种场景下，可以对人声帧进行人声增强，即只增大人声帧的增益，背景声帧的增益保持不变。从而使人声信号与背景声信号相匹配，提高用户体验。如人声帧的增益g_r=1.5，背景声帧的增益g_b=1。

在另一种场景中，背景声和人声的增益均较大，此种情况下，人声帧和背景声帧的增益均可以保持不变，如人声帧的增益g_r=1，同时，背景声帧的增益g_b=0.5。

在又一种应用场景中，原始立体声信号中的人声帧和背景声帧的增益都比较合适，此种场景下无需对人声帧和背景声帧进行增益控制即可满足用户需求。此种场景下，非人声检测模块可以直接将获得的第二人声信号发送至混音模块，进行后续的混音处理。

实际应用时，可以根据实际应用需求分别控制人声帧和背景声帧的增益，本申请并不限定人声帧和背景声帧的增益控制方式。

在一示例性实施例中，例如，可以利用增强滤波器对转换到频域的第二人声信号进行增强处理，得到从而提高人声清晰度。

S16，混音模块将接收到的扩展背景声信号和第三人声信号进行混音处理，得到目标输出音频信号。

对扩展背景声信号的时域信号和第三人声信号的时域信号进行混音。扩展背景声信号是立体声信号，左声道信号为X_L右声道信号为X_R，第三人声信号表示为Cn，则目标输出音频信号也是立体声信号，左声道输出信号为X_Lout=a*X_L+bCn，右声道输出信号为X_Rout=a*X_R+bCn。

其中系数a，b大于0，实际应用过程中，可以根据实际需求设置a和b的大小，本申请对此不作限定。

本实施例提供的音频信号处理方法，采用基于神经网络的人声提取模型，从原始立体声信号中提取出左、右声道背景声信号和人声信号。进一步，检测出人声信号中残留的非人声信号，确定出人声信号中的人声帧和背景声帧。对左、右声道背景声信号进行声场扩展得到扩展背景声信号；以及，分别针对人声帧和背景声帧进行增益控制，得到目标人声信号。最后，对扩展背景声信号和目标人声信号进行混音处理，得到目标输出音频信号。基于神经网络的人声提取模型能够提取出比较纯净的人声信号，因此能够获得比较纯净的背景声信号，基本不会对人声信号进行声场扩展，因此，避免了人声变散变虚的问题，提高了声场扩展效果。而且，进一步对中置声道的信号中的人声帧和背景声帧分别进行增益控制，得到目标人声信号。从而避免了目标人声信号与左、右声道混音后，目标人声信号中残留的背景声信号引起背景声信号不平稳的问题。提高了人声清晰度和声场扩展效果，进一步提高了用户的听觉体验。

下面以频域人声提取网络为例说明人声提取网络的训练过程和人声提取过程。

参见图6，示出了示出了人声提取网络的训练过程和提取过程的示意图。

如图6所示，人声提取网络的训练过程如下：

1）对人声样本数据进行时频变换，得到人声样本数据对应的ground-truth频谱。

ground-truth表示正样本数据的真实数据，在本申请实施例中，ground-truth表示人声样本数据（即，正样本数据）对应的频谱，也可以称为ground-truth频谱。

人声样本数据是指仅包含人声信号的样本数据，也可以称为正样本数据。通过傅里叶变换将人声样本数据从时域转换到频域，得到正样本的频谱特征。

2）将非人声样本数据和人声样本数据进行混合，得到混合音频样本。

非人声样本数据是指仅包含背景噪声信号、不包含人声信号的样本，也可以称为负样本数据。将人声样本数据和非人声样本数据混合得到的混合音频样本，作为训练人声提取网络的样本数据。

3）将混合音频样本进行时频变换得到混合信号的频谱特征向量。

4）将混合音频样本的频谱特征向量输入至人声提取网络，得到掩码。掩码包括人声掩码和背景声掩码。

人声提取网络可以是神经网络，例如，Demucs等。

通过人声提取网络可以识别出混合音频样本中的每一帧声音信号是人声信号还是背景声信号。

对于混合音频样本中的每一帧，如果识别出该帧是人声信号，可以用第一类标签表示，如二进制数“1”，如果该帧是背景声信号，可以用第二类标签表示，如二进制数“0”，这样，混合音频样本的所有帧的标签构成人声掩码；

利用原始音频信号的频谱和人声掩码进行向量乘法运算，提取出原始音频信号中的人声信号的频谱，称为估计人声的频谱。

5）将估计人声的频谱与ground-truth频谱，代入指定损失函数中，计算得到损失值。

根据实际应用需求选择合适的损失函数（如均方误差MSE），然后，将同一频点对应的估计人声频谱的频点幅值和ground-truth频谱的频点幅值代入损失函数中，计算估计人声信号与ground-truth这两个数据之间的偏差，即损失值。

损失值表征人声提取网络的估计人声结果与ground-truth结果之间的偏差，如果损失值越大，表明估计人声结果与ground-truth结果偏差越大；如果损失值越小，表明估计人声结果越接近ground-truth结果。

根据损失值调整人声提取网络的模型参数，然后，继续利用调整后的网络估计混合音频样本中的人声信号获得新的估计人声频谱，进一步，计算新的估计人声频谱的频点幅值与ground-truth频谱的频点幅值之间的损失值（即，新的损失值），直到满足预设收敛条件，人声提取模型训练过程完成。

其中，预设收敛条件可以根据实际应用需求设定，例如，随着迭代次数增加损失值不再减小，或者损失值达到预设范围，且迭代次数达到预设次数，本申请实施例对此不做限定。

在时域的人声提取模型中，ground-truth和估计人声都是时域信号采样点的幅值。该场景下，将估计人声的时域样点幅值和ground-truth的时域样点幅值，利用损失函数计算得到损失值。

通过上述过程即可获得适用于人声信号提取的人声提取模型，进一步可以利用该人声提取模型从混合信号中提取人声信号。如果采用的人声提取模型是频域模型，则提取出的人声信号则为频域信号；如果人声提取模型是时域模型，则提取出的人声信号则为时域信号。

时域模型的模型训练过程与频域模型的训练过程相似，此处不再赘述。

如图8所示，利用人声提取模型从混合音频信号中提取人声信号的过程如下：

11）音频应用提供的混合音频信号进行时频变换得到混合音频信号对应的频谱特征。

混合音频信号是一段时间的连续语音信号，在处理此类音频信号时，需要将音频信号切片成帧，得到多个声音帧。针对每一帧，进行傅里叶变换得到频域信号，即得到声音帧的频谱特征。

12）混合音频信号对应的频谱特征输入至训练好的人声提取网络，输出掩码，该掩码包括人声掩码和背景掩码。

将混合音频信号包含的每一帧声音信号的频谱特征输入至训练好的人声提取网络，得到该混合音频信号对应的人声掩码和背景声掩码。

人声掩码表示混合音频信号中每一帧声音信号是否是人声信号的标签。

例如，如果某一帧是人声信号，该帧的标签可以采用二进制数“1”表示，如果某一帧是背景声信号，该帧的标签可以采用二进制数“0”表示。混合音频信号所有帧对应的标签构成人声掩码。

背景声掩码表示混合音频信号中每一帧信号是否是背景声信号的标签。

例如，如果识别出某一帧是背景声信号，该帧的标签可以采二进制数“1”表示；如果某一帧是人声信号，该帧的标签可以采用二进制数“0”表示，混合音频信号所有帧对应的标签构成背景声掩码。

13）将混合音频信号对应的频谱与人声掩码进行向量乘法运算，再对运算结果进行频时变换，获得人声信号。

人声掩码是人声信号对应的标签向量，将混合音频信号的频谱向量与人声信号的标签向量相乘即可得到人声信号。

14）将混合音频信号的频谱与背景声掩码进行向量乘法运算，在对运算结果进行频时变换，获得背景声信号。

同理，将混合音频信号的频谱与背景声掩码进行向量乘法运算，获得混合音频信号包含的背景声信号的频域信号，再对背景声信号的频域信号变换到时域，得到背景声信号。

通过上述过程即可实现从混合立体声信号中提取人声信号和背景声信号。利用大量混合样本数据训练基于神经网络的人声提取网络模型，能够使该人声提取网络模型学习到人声信号的特征，并准确地从混合音频信号中识别并提取出比较纯净的人声信号，进一步从混合音频信号中提取出比较纯净的人声信号，即减少了背景声信号中人声信号的残留量，避免了对左、右声道的背景声信号进行声场扩展时引起的人声发散发虚的问题，提高了声场扩展效果。

参见图7，示出了本申请实施例提供的一种检测人声信号中残留的非人声信号过程的流程图，如图7所示，该过程可以包括如下步骤：

S141，对第一人声信号进行傅里叶变换，得到第一频谱信息。

在一示例性实施例中，第一人声信号是在一段时间内连续的语音信号，此种情况下，需要将第一人声信号切片成帧得到声音帧。针对每一帧进行傅里叶变换，即，将人声信号从时域变换到频域。

S142，对第一频谱信息进行对数计算，得到第二频谱信息。

语音频谱的峰值表示语音的主要频率成分，这些峰值称为共振峰，共振峰携带了声音的辨识属性。提取共振峰的位置和转变过程，得到频谱的包络，频谱的包络就是一条连接这些共振峰点的平滑曲线。对第一频谱信息进行对数计算得到频谱的包络，即第二频谱信息单位是dB。

S143，对第二频谱信息进行傅里叶反变换，得到第一人声信号的倒谱系数。

对第二频谱信号进行傅里叶反变换后的第2个到第13个系数作为倒谱系数，即声音帧的倒谱系数，倒谱系数表征该声音帧的特征。此时，声音信号可以通过一系列倒谱向量来描述，每个向量就是每帧声音信号的倒谱系数特征向量。

S144，判断倒谱系数是否大于预设阈值，若是，则执行S145；若否，则执行S146。

人声的特征与非人声的特征不同，而倒谱系数能够表征声音信号的特征，因此，可以通过倒谱系数的大小识别声音信号是人声信号还是非人声信号。

预设阈值可以根据实际情况设定，如果某帧信号的倒谱系数大于预设阈值，则确定该帧信号为人声信号，如果某帧信号的倒谱系数小于或等于预设阈值，则确定该帧信号为背景声信号。

参见图8，示出了人声信号和背景声信号对应的倒谱系数的示意图，如图8所示，横轴表示音频信号的样本点，纵轴表示倒谱系数。其中，曲线1表示一帧背景声信号对应的倒谱系数曲线，曲线2表示一帧人声信号对应的倒谱系数曲线。

需要说明的是，一帧声音信号得到一条倒谱系数曲线，根据该曲线判定该帧声音信号是人声信号还是背景声信号。如图8所示的示例，背景声信号的最大倒谱系数小于0.3，而人声信号的倒谱系数大于0.3，因此，可以设置倒谱系数的阈值为0.3，若某一帧的倒谱系数大于或等于0.3表示该帧声音信号为人声信号，如果某帧的倒谱系数小于0.3表示该帧声音信号是背景声信号。

倒谱系数的预设阈值可以根据实际应用需求设定，本申请对此不作限定。

S145，保持当前信号的增益不变。

S146，降低当前信号对应的增益。

在一示例性实施例中，判定某一帧信号为人声信号后，保持该帧信号的增益g=1不变，如果判定某帧信号为非人声信号，则降低该帧信号的增益，如g=0.5，从而减弱了人声信号中残留的非人声信号。

在其它实施例中，还可以增大人声帧的增益，背景声帧的增益保持不变。可以根据实际需求，分别针对人声帧和背景声帧分别控制增益，此处不再赘述。

S147，将第一人声信号对应的所有帧处理完，获得第二人声信号。

通过上述过程极大地减弱了人声信号中残留的非人声信号。

本实施例提供的检测人声信号中残留的非人声信号的过程，通过计算人声信号的倒谱系数识别出每帧声音信号是人声信号还是非人声信号，例如，乐器声等背景噪音信号。进一步，针对人声信号中的人声帧和背景声帧分别进行增益控制。第一人声信号的所有帧均进行上述处理后，得到第二人声信号。然后，再将处理后的人声信号与左、右声道的背景声信号进行混音，避免了背景声不平衡，提高声场扩展效果，以及，提高人声增强效果体验，进一步提高了用户的听觉体验。

参见图9，示出了本申请实施例提供的一种声场扩展过程的示意图。

如图9所示，D1和D2代表左、右声道的背景声信号Ln、Rn。H_L1、H_R1、H_L2、H_R2分别代表左右两个扬声器到双耳的声学传递函数。

左扬声器LS₁不仅经过H_L1发送理想的信号到同侧的左耳，还经过H_R1发送干扰的串音到异侧的右耳。同理，右扬声器LS₂不仅经过H_R2发送理想的信号到同侧的右耳，还经过H_L2发送干扰的串音到异侧的左耳。

为了使最终到达人耳的信号是理想信号，在两个扬声器前设置一串音消除矩阵C，用于抵消交叉影响，最终到达双耳的实际信号为：

（1）

根据公式（1）可知，若要到达双耳的实际信号与理想信号D1、D2相同，则需满足如下：

（2）

根据公式（2）可以计算得到矩阵C满足如下公式：

（3）

公式（3）中，β为正则因子（regularization factor），M是C的模型时延，

为音频信号对应的角频率。

通过串音消除的方式，消除了各个扬声器到异侧的人耳的串声，实现声场扩展效果。

此外，在本申请的其他实施例中，还可以采用创建虚拟扬声器实现声场扩展，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号处理方法，其特征在于，应用于电子设备，所述方法包括：

将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号和背景声信号，所述背景声信号包括左声道背景声信号和右声道背景声信号；

扩展所述背景声信号的声场获得扩展背景声信号；

对所述第一人声信号进行语音检测，获得目标人声信号；

将所述扩展背景声信号和所述目标人声信号进行混音处理，得到目标输出音频信号。

2.根据权利要求1所述的方法，其特征在于，所述人声提取模型为频域的人声提取模型；

所述将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号、左声道背景声信号和右声道背景声信号，包括：

将所述原始立体声信号进行时频转换获得频域立体声信号；

将所述频域立体声信号输入至所述人声提取模型，提取所述频域立体声信号对应的频谱特征，并分析所述频谱特征获得所述频域立体声信号对应的人声掩码和背景声掩码，所述人声掩码表征所述频域立体声信号中每一帧声音信号是否是人声信号，所述背景声掩码表征所述频域立体声信号中每一帧声音信号是否是背景声信号；

将所述频域立体声信号对应的向量与所述人声掩码进行向量乘法运算，获得所述频域立体声信号中的频域人声信号；

将所述频域立体声信号与所述背景声掩码进行向量乘法运算，获得所述频域立体声信号包含的左声道频域背景声信号和右声道频域背景声信号；

将所述频域人声信号进行频时转换获得时域的所述人声信号；

将所述左声道频域背景声信号和所述右声道频域背景声信号进行频时转换获得时域的所述背景声信号。

3.根据权利要求1所述的方法，其特征在于，所述人声提取模型能够处理时域的音频信号；

将所述原始立体声信号对应的向量输入至所述人声提取模型，提取所述原始立体声信号的特征向量，并分析所述特征向量，获得所述原始立体声信号对应的人声掩码和背景声掩码，所述人声掩码表征所述立体声信号中每一帧声音信号是否是人声信号，所述背景声掩码表征频域立体声信号中每一帧声音信号是否是背景声信号；

将所述原始立体声信号的特征向量与所述人声掩码进行向量乘法运算，获得所述人声信号；

将所述原始立体声信号的特征向量与所述背景声掩码进行向量乘法运算，获得所述左声道背景声信号和所述右声道背景声信号。

4.根据权利要求1所述的方法，其特征在于，所述人声提取模型为频域的人声提取模型；

所述人声提取模型的训练过程包括：

获取人声样本数据和背景声样本数据；

对所述人声样本数据进行时频变换，获得所述人声样本数据对应的真实人声频谱；

将所述人声样本数据与背景声样本数据进行混音处理，获得混合音频样本；

对所述混合音频样本进行时频变换，获得所述混合音频样本对应的频谱；

将所述混合音频样本对应的频谱输入待训练人声提取模型，获得人声掩码，根据所述混合音频样本和所述人声掩码获得估计人声频谱；

根据同一人声样本数据对应的所述真实人声频谱和所述估计人声频谱，获得损失值；

如果所述损失值不满足预设收敛条件，调整所述待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得新的估计人声频谱，并计算所述新的估计人声频谱与所述真实人声频谱的损失值，直到所述损失值满足所述预设收敛条件，获得所述人声提取模型。

5.根据权利要求1所述的方法，其特征在于，所述人声提取模型为时域的人声提取模型；

所述人声提取模型的训练过程包括：

获取人声样本数据和背景声样本数据；

获取所述人声样本数据中对应的真实人声信息；

将所述人声样本数据与所述背景声样本数据进行混音处理，获得混合音频样本；

将所述混合音频样本对应的向量输入待训练人声提取模型，获得时域的估计人声信息；

根据同一人声样本数据对应的所述真实人声信息的样点幅值与所述估计人声信息的幅值，获得损失值；

如果所述损失值不满足预设收敛条件，调整所述待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得所述混合音频样本对应的新的估计人声信息，并获得新的损失值，直到所述新的损失值满足所述预设收敛条件，获得所述人声提取模型。

6.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，获得目标人声信号，包括：

针对所述第一人声信号中的任一人声帧，保持所述人声帧的增益不变，所述人声帧是所述第一人声信号中仅包含人声信号的帧；

针对所述第一人声信号中的任一背景声帧，降低所述背景声帧的增益，所述背景声帧是所述第一人声信号中仅包含背景声信号的帧；

将所述第一人声信号中的每个人声帧和每个背景声帧，按时间顺序拼接得到所述目标人声信号。

7.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，获得目标人声信号，包括：

针对所述第一人声信号中的任一人声帧，增大所述人声帧的增益；

针对所述第一人声信号中的任一背景声帧，保持所述背景声帧的增益；

8.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，包括：

针对所述第一人声信号包含的任一帧声音信号，进行时频变换，获得第一频谱信息；

对所述第一频谱信息进行对数计算获得第二频谱信息；

对所述第二频谱信息进行频时变换，得到所述任一帧声音信号对应的倒谱系数；

如果所述任一帧声音信号对应的倒谱系数大于预设阈值，确定所述任一帧声音信号为人声信号；

如果所述任一帧声音信号对应的倒谱系数小于或等于所述预设阈值，确定所述任一帧声音信号为背景声信号。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述扩展背景声信号包括左声道扩展背景声信号和右声道扩展背景声信号；

所述将所述扩展背景声信号和所述目标人声信号进行混音处理，得到目标输出音频信号，包括：

将所述左声道扩展背景声信号与所述目标人声信号进行混音处理，得到左声道目标输出音频信号；

将所述右声道扩展背景声信号与所述目标人声信号进行混音处理，得到右声道目标输出音频信号。

10.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、存储器和至少两个扬声器；所述存储器用于存储程序代码；所述处理器用于运行所述程序代码，使得所述电子设备实现如权利要求1至9任一项所述的音频信号处理方法。

11.一种计算机可读存储介质，其特征在于，其上存储有指令，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1至9任一项所述的音频信号处理方法。