CN114930450A

CN114930450A - 用于风噪声衰减的方法及装置

Info

Publication number: CN114930450A
Application number: CN202180010243.1A
Authority: CN
Inventors: 宋建鸣
Original assignee: Continental Automotive Systems Inc
Current assignee: Continental Automotive Systems Inc
Priority date: 2020-01-24
Filing date: 2021-01-22
Publication date: 2022-08-19
Also published as: EP4094255A1; KR102659035B1; KR20220130744A; WO2021150816A1; JP7352740B2; JP2023509593A; US20210233557A1; US11217269B2

Abstract

描述了从在多麦克风阵列处捕获的音频信号中检测和降低风噪声的方法。在一些方面，风噪声检测器是根据话音存在的概率和风噪声存在的概率构建的，所述概率是从分离的频率区域中在多麦克风的时间对齐信号之间的相位差的统计数据导出的。如果检测到风噪声，则在频域中通过增益降低风噪声，所述增益也是相位差及其统计数据的函数。

Description

用于风噪声衰减的方法及装置

技术领域

本申请涉及消除或降低由麦克风检测到的信号中的风噪声。

背景技术

风噪声(WN)是许多环境中听力干扰的主要来源，例如，对于汽车中的助听器或免提通信系统。风噪声是由湍流气流撞击麦克风膜片引起的，它会产生主要集中在相对低频区域的强烈可听信号。可靠且有效的风噪声降低 (WNR) 能力对于允许这些音频设备或语音通信系统在嘈杂条件下良好运行是重要的。

然而，先前的噪声抑制方法未能充分去除风噪声。这主要是因为风噪声和话音难以通过时域或频域的能量或SNR分析来区分。

附图说明

为了更完整地理解本公开，应参考以下详细描述及附图，其中：

图1包括根据本发明的各个实施例的用于风噪声降低的系统的图；

图2包括根据本发明的各个实施例的用于风噪声降低的方法的流程图；

图3包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图；

图4包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图；

图5包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图；

图6包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图；

图7包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图；

图8包括图示根据本发明的各个实施例的在本文描述的方法的操作的各方面的图。

技术人员将理解，图中的元素是为了简单和清楚而图示的。还应理解，某些动作和/或步骤可以以特定的发生顺序来描述或描绘，而本领域技术人员将理解，实际上并不要求这种关于顺序的特异性。还应理解，本文使用的术语和表达具有与这些术语和表达关于它们对应的相应调查和研究领域被赋予的普通含义，除非在本文中另外阐述了特定含义。

具体实施方式

本文描述的方法在两个或更多麦克风处采用空间选择性和信号相关属性来确定接收信号中的风噪声。通过利用存在于不同麦克风位置处的三个信号相关属性（与话音信号不相关的风噪声信号、在很大程度上不相关的不同位置处的风噪声、以及紧凑型麦克风阵列上的相关的所有麦克风处的话音），这些方法快速构建了可靠的风噪声检测器，风噪声检测器将任何给定时间的麦克风输入分类为四个类别之一（风噪声、风噪声与话音混合、话音和除抖振之外的噪声，例如常规的固定噪声）。

在各方面并且基于风噪声检测和/或分类结果，本发明还为信号（例如，两个传入的麦克风输入）创建和应用有效的风噪声衰减器。在一些方面，衰减增益因子是从相干性、两个（或多个）麦克风输入的交叉功率谱的相位以及在风噪声检测器处估计的话音和风噪声的概率导出的。还可以创建从两个麦克风输入的最小统计数据生成的舒适噪声功率谱，并将其应用于经风噪声衰减的音频信号，以消除噪声门控效应。此处提供的方法的应用快速且大量地去除风噪声，同时保持话音质量。

在各方面，本方法体现了用于基于两个（或更多）麦克风的风噪声/话音检测和风噪声抑制的多种方法和算法。各种步骤被执行。

在一种方法中，首先执行预处理。在一些方面，在汽车中的两个麦克风处捕获语音信号，并且每个麦克风信号将被相位对齐。相位对齐是通过以下各项的组合完成的：几何方法，所述几何方法确定源自语音源（例如，驾驶员或副驾驶员）的两个信号之间的恒定时间延迟；以及在运行时基于两个信号的交叉相关性计算的延迟。判定逻辑用于确定是使用基于几何的静态延迟还是动态计算的运行时延迟来进行两个信号相位对齐。与以前的方法不同，这种方法是可靠的，并且对于不准确的几何测量或汽车中的说话者（驾驶员/副驾驶员）位置更宽容。

接下来，创建用于风噪声和话音的测量结果的度量。创建两个度量：话音存在的概率和风噪声存在的概率。在各个方面，这些度量是概率，因为它们的值范围在 0 和 1 之间。

与利用能量或 SNR (信噪比) 进行信号分类 (例如话音、噪声等) 的先前方法不同，这些概率用于话音/风噪声分类，并且完全从多个频率区域中相位差的统计数据中导出。在本文所述的方法中，将扩展在某个频率区域上的相位差的归一化方差用作区分话音和风噪声的关键参数。这些归一化方差进一步用于构建话音存在的概率和风噪声存在的概率。这个过程在运行时针对每个时间间隔（例如，10ms ~ 20ms）发生。

然后，检测和/或分类话音和风噪声。本文中利用的分类器/检测器利用判定逻辑（例如，实现为硬件或软件的任何组合），使用仅包括话音、仅包括风噪声和包括话音/风噪声混合数据的音频样本预训练（或离线训练）所述判定逻辑。在每个短时间间隔（例如，10ms~ 20ms），计算两个度量，即话音概率和风噪声概率，它们表征不同频率区域中的信号特性。这两个度量被分别加权，然后被线性组合以形成用于分类的单个度量。将该单个度量与表示话音阈值、风噪声阈值以及话音和风噪声同时出现的阈值的三个阈值进行比较。在示例中，这些阈值是从离线分类器训练中确定的。

在各个方面，并且为了逐帧增强话音/风噪声分类的可靠性，并避免偶尔的分类错误（这将在风噪声被抑制后导致恼人的风噪声泄漏），本文描述的方法采用多数表决方案，其中在帧t处的每个分类结果c _t与来自 (N-l) 个先前帧的 (N-l) 个分类结果一起被推送到长度为 N（例如 N = 10）的循环缓冲区。当前帧 t 的信号类别判定是通过多数表决做出的，即，选择在循环缓冲区中出现最多的分类结果作为最终分类结果。

接下来，导出并应用增益函数。与以前的增益函数构建方法（仅利用信噪比 (SNR)信息）不同，本文描述的方法中利用的风噪声增益函数是 SNR 和相位差的归一化方差的组合，相位差的归一化方差在风噪声/话音检测中也起关键作用。SNR 和相位信息的组合提供了频谱和空间信息，并且比常规 SNR 效果好的多，常规 SNR只导出用于风噪声衰减/话音保留的增益函数。

在许多这些实施例中，系统包括第一麦克风、第二麦克风和控制电路。第一麦克风获得第一音频信号，并且第二麦克风获得第二音频信号。第一麦克风与第二麦克风在空间上分离。

控制电路与第一麦克风和第二麦克风耦合，并且被配置为将到达第一麦克风的第一音频信号和到达第二麦克风的第二音频信号连续地且同时地分段为时间段。对于每个时间段，到达第一麦克风的第一音频信号形成第一帧音频信号，并且到达第二麦克风的第二音频信号形成第二帧音频信号。

控制电路还被配置为相对于目标语音源在时间上对齐第一帧音频信号和第二帧音频信号。第一帧音频信号和第二帧音频信号的时间对齐基于：基于静态几何特性的测量结果，该测量结果经在运行时在两个麦克风处接收的信号之间的动态交叉相关性评估调整。

控制电路还被配置为对时间对齐的第一帧音频信号中的每一个执行傅里叶变换以产生第一频谱，并且对第二帧音频信号执行傅里叶变换以产生第二频谱。第一频谱和第二频谱中的每一个均表示在每个时间段两个时间对齐的麦克风信号之一的频谱。

控制电路还被配置为根据第一频谱和第二频谱的交叉相关性计算在多个频率中的每个频率处第一频谱和第二频谱之间的相位差。控制电路另外还被配置为针对每个时间段确定定义的频率范围内的相位差的归一化方差。频率范围是基于麦克风几何特性计算的，使得在计算相位差的归一化方差时的误差裕度被最小化。

控制电路还被配置为基于两个时间对齐的麦克风信号的频谱相位差的归一化方差，在每个时间段制定和评估话音存在的概率和风噪声存在的概率。然后，控制电路被配置为在每个时间段判定每个时间段的类别，其中该类别是以下各项之一：仅话音、仅风噪声、话音与风噪声混合或未知，其中判定逻辑用于确定类别并且判定逻辑基于第一函数，该第一函数合并了话音存在的概率和风噪声存在的概率的个体值和组合值。将第一函数的值与多个阈值进行比较并做出风噪声检测判定。基于所确定的类别，选择性地触发风衰减动作。

当动作是执行风噪声衰减时，控制电路被配置为计算增益或衰减函数，该函数基于相位差的归一化方差和在预定的频率范围内在多个频率中的每个频率处的个体相位差。通过将增益或衰减函数与第一频谱和第二频谱中每个频谱的量值相乘，在频域中执行风噪声衰减，以产生去除风噪声的第一频谱和去除风噪声的第二频谱。

控制电路被配置为然后组合去除风噪声的第一频谱和去除风噪声的第二频谱以产生组合频谱并通过对组合频谱进行逆FFT来构建去除风噪声的时域信号。

可能与其他实体组合的控制电路可以使用时域信号采取动作，该动作是以下各项中的一项或多项：将时域信号传送到电子设备、使用时域信号控制电子装备、或使用时域信号与电子装备交互。

在一些方面，时间段的长度在10和20毫秒之间。其他示例是可能的。

在示例中，目标语音源包括来自坐在车辆座位中的人的语音。语音源的其他示例是可能的。

在其他示例中，话音存在的概率和风噪声存在的概率均具有介于0和1之间的值。

在其他方面，类别的确定进一步利用多数表决方法，多数表决方法考虑当前判定和先前连续时间段中的判定序列。在其他示例中，话音存在的概率和风噪声存在的概率提供度量，该度量用于评估在每个时间段处话音存在或风噪声存在的程度。

在又其他方面，当已经确定的判定是仅风噪声或风噪声与话音混合时，触发风噪声衰减动作。在另外的其它示例中，通过在离线算法训练阶段中使用话音和风噪声样本的量来离线估计所述阈值。

在示例中，该系统至少部分地设置在车辆中。其他位置是可能的。在一些示例中，声源移动，而在其他示例中，声源是静止的或几乎静止的。

在这些实施例的其他实施例中，提供了一种用于麦克风信号中的风噪声降低的方法。

控制电路连续且同时地将到达第一麦克风的第一音频信号和到达第二麦克风的第二音频信号分段成时间段，使得对于每个时间段，到达第一麦克风的第一音频信号形成第一帧音频信号，并且到达第二麦克风的第二音频信号形成第二帧音频信号。

控制电路相对于目标语音源在时间上对齐第一帧音频信号和第二帧音频信号。第一帧音频信号和第二帧音频信号的时间对齐基于：基于静态几何特性的测量结果，该测量结果经在运行时在两个麦克风处接收的信号之间的动态交叉相关性评估调整。

控制电路对时间对齐的第一帧音频信号中的每一个执行傅里叶变换以产生第一频谱，并且对第二帧音频信号执行傅里叶变换以产生第二频谱。第一频谱和第二频谱中的每一个表示在每个时间段两个时间对齐的麦克风信号之一的频谱。

控制电路根据第一频谱和第二频谱的交叉相关性计算在多个频率中的每一个频率处第一频谱和第二频谱之间的相位差。

控制电路针对每个时间段确定定义的频率范围内的相位差的归一化方差。频率范围是基于麦克风几何特性计算的，使得在计算相位差的归一化方差时的误差裕度被最小化。

控制电路基于两个时间对齐的麦克风信号的频谱相位差的归一化方差在每个时间段制定和评估话音存在的概率和风噪声存在的概率。控制电路在每个时间段判定每个时间段的类别，并且所述类别是以下各项之一：仅话音、仅风噪声、话音与风噪声混合或未知。判定逻辑用于确定类别并且判定逻辑基于第一函数，该第一函数合并了话音存在的概率和风噪声存在的概率的个体值和组合值。将第一函数的值与多个阈值进行比较并做出风噪声检测判定。基于所确定的类别，选择性地触发风衰减动作。

当动作是执行风噪声衰减时，控制电路计算增益或衰减函数，该函数基于相位差的归一化方差和在预定的频率范围内在多个频率中的每个频率处的个体相位差。通过将增益或衰减函数与第一频谱和第二频谱的每个频谱的量值相乘，在频域中执行风噪声衰减，以产生去除风噪声的第一频谱和去除风噪声的第二频谱。

控制电路组合去除风噪声的第一频谱和去除风噪声的第二频谱以产生组合频谱。控制电路通过对组合频谱进行逆FFT来构建去除风噪声的时域信号。

使用时域信号采取动作，该动作是以下各项中的一项或多项：将时域信号传送到电子设备、使用时域信号控制电子装备、或使用时域信号与电子装备交互。其它动作示例是可能的。

现在参考图1，描述了用于衰减风噪声的系统的一个示例。车辆100包括第一麦克风102、第二麦克风104、驾驶员101和乘客103。麦克风101和104可以耦合到控制电路106。

麦克风102和104可以是任何类型的麦克风，在某些方面，麦克风检测人类话音。在一个示例中，麦克风102和104可以是在时域中感测人类语音信号并产生表示检测到的语音的模拟信号的常规模拟麦克风。车辆100是运输人类的任何类型的车辆，诸如客运车或卡车。其他示例是可能的。尽管示出了两个麦克风，但是应当理解，这些方法适用于任何数量的麦克风。

应当理解，如本文所使用的，术语“控制电路”泛指具有处理器、存储器和可编程输入/输出外围设备的任何微控制器、计算机或基于处理器的设备，它们通常被设计用于管理其他部件和设备的操作。它还应被理解为包括常见的随附附件设备，包括存储器、用于与其他部件和设备通信的收发器等。这些架构选项在本领域中是公知的和被理解的，并且在本文中不需要进一步描述。控制电路106可被配置(例如，通过使用存储在存储器中的对应编程，如本领域技术人员将充分理解的)为实施本文描述的步骤、动作和/或功能中的一个或多个。

控制电路 106 可以部署在车辆 100中的各个位置处。在一个示例中，控制电路106 可以部署在车辆控制单元 (例如，控制或监测车辆 100 处的各种功能的车辆控制单元) 处。一般而言，控制电路106确定接收到的麦克风信号中是否存在风噪声(如下所述)，然后选择性地从这些信号中去除风噪声。在去除风噪声之后，现在衰减的麦克风信号可以用于其他目的（例如，在车辆100处执行动作）。

麦克风102和104可以通过有线连接或无线连接耦合到控制电路106。取决于用户的需要和/或系统要求，麦克风102和104也可以部署在车辆100中的各个位置。

在图1的系统的操作的一个示例中，第一麦克风102获得第一音频信号，并且第二麦克风104获得第二音频信号。第一麦克风102与第二麦克风104在空间上分离。

控制电路106被配置为：将到达第一麦克风102的第一音频信号和到达第二麦克风104的第二音频信号连续且同时分段成时间段，使得对于每个时间段，到达第一麦克风102的第一音频信号形成第一帧音频信号，并且到达第二麦克风104的第二音频信号形成第二帧音频信号。

控制电路106还被配置为将第一帧音频信号和第二帧音频信号相对于目标语音源在时间上对齐。第一帧音频信号和第二帧音频信号的时间对齐基于：基于静态几何特性的测量结果，该测量结果经在运行时在两个麦克风处接收的信号之间的动态交叉相关性评估调整。

控制电路106还被配置为对时间对齐的第一帧音频信号和第二帧音频信号中的每一个执行傅里叶变换，对第一帧音频信号执行傅里叶变换以产生第一频谱，对第二帧音频信号执行傅里叶变换以产生第二频谱。第一频谱和第二频谱中的每一个表示在每个时间段两个时间对齐的麦克风信号之一的频谱。

控制电路106还被配置为根据第一频谱和第二频谱的交叉相关性计算在多个频率中的每个频率处第一频谱和第二频谱之间的相位差。控制电路106另外还被配置为确定针对每个时间段的定义频率范围内的相位差的归一化方差。频率范围是基于麦克风几何特性计算的，使得在计算相位差的归一化方差时的误差裕度被最小化。

控制电路106还被配置为基于两个时间对齐的麦克风信号的频谱相位差的归一化方差，在每个时间段制定和评估话音存在的概率和风噪声存在的概率。然后，控制电路106被配置为在每个时间段判定每个时间段的类别，其中该类别是以下各项之一：仅话音、仅风噪声、话音与风噪声混合或未知，其中判定逻辑用于确定类别并且判定逻辑基于第一函数，该第一函数合并了话音存在的概率和风噪声存在的概率的个体值和组合值，其中将第一函数的值与多个阈值进行比较并做出风噪声检测判定。基于所确定的类别，选择性地触发风衰减动作。

当动作是执行风噪声衰减时，控制电路106被配置为计算增益或衰减函数，该函数基于相位差的归一化方差和在预定的频率范围内在多个频率中的每个频率处的个体相位差。通过将增益或衰减函数与第一频谱和第二频谱的每个频谱的量值相乘，在频域中执行风噪声衰减，以产生去除风噪声的第一频谱和去除风噪声的第二频谱。

控制电路106被配置为然后组合去除风噪声的第一频谱和去除风噪声的第二频谱以产生组合频谱并通过对组合频谱进行逆FFT来构建去除风噪声的时域信号。

控制电路106自身或与其他实体组合可以使用时域信号采取动作，该动作是以下各项中的一项或多项：将时域信号传送（使用传送器110）到电子设备（例如，诸如智能电话、计算机、膝上型电脑或平板电脑之类的电子设备）、使用最终时域信号控制电子装备（例如，车辆100中的电子装备，诸如音频系统、转向系统或制动系统）、或使用时域信号与电子装备交互。在一个示例中，用户可以口头指令收音机被激活，然后控制收音机的音量。其他示例是可能的。

在一些方面，信号的时间段的长度在10和20毫秒之间。其他示例是可能的。

在示例中，目标语音源包括来自坐在车辆座位中的驾驶员101或乘客105的语音。语音源的其他示例是可能的。

在其他示例中，话音存在的概率和风噪声存在的概率均具有介于 0 和 1 之间的值。

在又其他方面，当已经确定的判定是仅风噪声或风噪声与话音混合时，触发风噪声衰减动作。在另外的其它示例中，通过在离线算法训练阶段中使用话音和风噪声样本的量来离线估计所述阈值。例如，这可以在工厂在系统初始化时被确定。

在一些示例中，声源（驾驶员101和乘客103)移动，而在其他示例中，声源是静止的或几乎静止的。

现在参考图2，描述了一种用于风噪声检测和衰减的方法的一个示例。

在步骤202，执行频谱分析。在一个示例中，来自双麦克风的每10ms输入信号x ₁ (n)、x ₂ (n)穿过重叠相加过程，以与前一帧制定20ms 帧并产生频谱等效值x ₁ (f)、x ₂ (f)表示待处理的“原始”数据。

在步骤204，执行麦克风输入引导。该算法保持两个麦克风输入x ₁ (f)、x ₂ (f)相位对齐。为此，作为系统初始化的一部分，计算从麦克风几何特性导出的引导向量。在一些方面，基于几何特性的引导向量形成与固定波束形成器（FBF）中使用的引导向量形成类似但更简单。

关于麦克风几何特性，安装在车辆内部（通常在中央控制台头顶上）的两个麦克风阵列共线且相对于车辆的中心轴线垂直。麦克风阵列几何特性由驾驶员和副驾驶员的嘴到麦克风距离限定，如图1中所示。DM1是从驾驶员101到麦克风 1 (102) 的距离。PM2 是从副驾驶员或乘客 103 到麦克风 2 (104) 的距离。在实践中，还假设驾驶员 101 和前座乘客103 相对于车辆的中心轴对称的几何特性，即 PM1 = DM2 和 PM2 = DM1 等。

假设车辆中的语音源来自驾驶员 101，并且信号传播到两个麦克风 102 和 104的多路径的影响可忽略不计，则使语音信号相位对齐的引导向量 svl 由下式确定：

τ1、τ2是到达麦克风1和2的信号传播延迟（以秒为单位）。αl、α2 是与个体的归一化路径损耗相关的两个因子。

通过假设信号传播到最远麦克风的延迟为0来简化引导向量，引导向量变为：

其中τ是语音到达较近麦克风的相对延迟（以秒为单位的负数）。

假设驾驶员101和乘客103的（嘴）位置相对于双麦克风阵列是对称的；制定的相同引导向量适用于驾驶员 101 和乘客 103二者。

假设车辆 100 中的语音源来自驾驶员，并且信号传播到两个麦克风 102 和 104的多路径的影响可忽略不计，则使语音信号相位对齐的引导向量sv1由下式确定：

通过假设信号传播到最远麦克风的延迟为零来简化引导向量，引导向量变为：

假设驾驶员101和乘客103的（嘴）位置相对于双麦克风阵列是对称的；制定的相同引导向量适用于驾驶员和副驾驶员二者。

在步骤206，执行信号对齐。给定从麦克风几何特性导出的引导向量，源自驾驶员或副驾驶员的两个麦克风信号 x1(f)、x2(f) 在驾驶员和副驾驶员的观察方向上通过以下方式被相位对齐：

对于驾驶员103：

或者对于副驾驶员（乘客）105：

在步骤208，执行动态时间延迟估计和引导向量选择。麦克风几何特性被测量一次，并且成为每次使用的固定参数。然而，从驾驶员101和乘客103到两个麦克风102和104的距离可能不时变化。甚至驾驶员/副驾驶员的高度可能不一样，这意味着测量的几何特性不再准确适用。因此，根据几何特性计算的相对时间延迟应该被确认为“标称”值，并且将存在由于几何特性不匹配导致的相位对齐误差。

为了缓解这个问题，时间延迟通过以下方式经由每一帧处的两个麦克风信号x1 (n)、x2 (n)的交叉相关性来在运行中估计：

其中n和m是数据样本索引。

在时域中计算的交叉相关性R_x1x2(m)通过R_x1x1(0)和R_x2x2(0)的几何平均值被进一步归一化，以成为交叉相关性系数。交叉相关性系数的绝对值被限制到区间 [0, 1]：

因此，以样本为单位的x1和x2之间的有效时间延迟可以通过以下方式估计：

如果

则τ_d有效

否则

τ_d无效

其中τ_d、τ、Δ表示针对动态、几何和裕度的以样本为单位的时间延迟，所述裕度是与几何τ的最大允许偏差。thld_R _x1x2是阈值（例如 0.60）。

延迟τ_d如果有效，则从以样本为单位转换为以秒为单位以构建动态引导向量：

其中f _s是以Hz为单位的采样频率。

对于几何或动态构建的引导向量，路径损耗保持相同。

在每一帧，如果计算出的动态延迟有效，则将其对应的引导向量用于信号对齐；否则使用几何导出的引导向量。动态τ_d计算及其引导向量应用减轻由于几何特性不匹配导致的两个信号对齐中可能出现的误差，并防止由数值分析引起的动态时间延迟中偶尔出现的严重误差。

在步骤210，确定信号的相干性和交叉频谱。两个麦克风信号的统计数据展示车辆中风噪声和语音之间的很大差异。有用的统计数据最好用两个信号X ₁ (f)和X ₂ (f)的相干性来表示，定义为：

其中{}*表示复共轭算子。

由于短帧分析，交叉功率谱

随着时间 t 被平滑为：

其中在一个示例中，平滑因子α被设置为0.5。

交叉功率谱的相位在某些方面是用于风噪声/话音检测的最重要的统计数据，交叉功率谱的相位被计算如下：

其中X ₁ (f)和X ₂ (f)通过几何和动态引导向量被相位对齐，如本文别处所讨论的。

在步骤212，执行风噪声和语音区分(通过相位分析)。在车辆中，风噪声和语音之间的区别是从两个对齐信号X ₁ (f)和X ₂ (f) 之间的交叉复频谱的相位探索的。因为语音信号是相关的，而风噪声不是。对于语音，交叉频谱的相位通常非常小，特别是在低频或中频范围（例如，高达 2kHz）内。另一方面，对于风噪声的情况，交叉频谱的相位值要大得多，并且其随时间和频率的变化是随机的。

为了更好地区分风噪声和语音，将分析频率范围划分为两个区域：第一区域[（F_WN），从10Hz（F_WN_B）到500Hz（F_WN_E）]主要用于风噪声检测，第二区域[F_SP，从600Hz(F_SP_B)到2000Hz (F_SP_E)]主要用于语音检测。

由于时间/频率网格处的个体相位值是无意义的，因此创建统计度量来表征相位。该度量是交叉频谱相位的归一化方差，定义为：

分别从两个频率区域之一计算两个相位方差

和

：

来自区域 F_WN，f1= F_WN_B，f2 = F_WN_E (例如，f1 = 20Hz，f2 =500Hz)。

来自区域F_SP，f1= F_SP_B，f2 = F_SP_E（例如 f1=500Hz，f2=2000Hz）。

然而，必须限制区域F_SP中的最大频率f2，使得：

其中c和d是声速和两个麦克风之间的分离距离。

图3A显示了在没有抖振的情况下在汽车中记录的双麦克风清晰话音，并且图3B显示没有话音存在的情况下汽车内的双麦克风抖振。

图4和图5（横轴是方差，纵轴是发生次数）呈现了针对清晰语音情况在两个频率区域中的归一化相位方差分布（直方图）。

和

分布都被限制到接近于零的区间。另一方面，如图6和图7中所示，针对风噪声情况的两种分布在更宽的区间上扩展。很明显，从归一化相位方差的角度来看，语音和风噪声是可分离的。

此外，通过对这些统计数据的分析，可以得出，在频率区域F_WN中更容易检测风噪声，而在频率F_SP中更容易识别话音，尤其是当风噪声和话音同时发生时。

在步骤214，进行话音和风噪声概率的指定。为了促进风噪声/话音检测或识别，话音和风噪声的概率计算如下：

其中

、

表示分别来自区域F_WN和F_SP的归一化相位方差。

、

是用于在其相关联的频率区域中确定风噪声概率和话音概率的阈值。

在步骤216，利用判定逻辑对风噪声、话音或风噪声与话音的混合进行分类。

风噪声和话音检测判定逻辑被计算为：

其中thld_sp、thld_wn、thld_sp_wn是阈值，α _sp 和α _wn是权重，并且运算符

是赋值。

通过查阅邻近结果将瞬时(即，每帧)分类结果c进一步去噪。帧t处的当前值c _t以及来自 (N-l) 个先前帧的 (N-l) 个判定结果存储在长度为 N （例如 N=10）的循环缓冲区中。针对当前帧t的最终信号类别判定是通过所谓的多数表决做出的；选择在循环缓冲区中出现次数最多的类别。

其中C _t是在帧t处信号类别的最终判定，而c _t-N-l , c _{t-N- 2} , ... c _t是针对当前帧和(N-l)个先前帧计算的瞬时类别。

图 8 突出显示了双麦克风记录的概率估计和信号分类结果，其中话音和风噪声都存在，但仅存在话音的开始和结束部分除外。图中标记了话音和风噪声的示例。在该示例中，常规噪声类别与话音类别合并，但仅风噪声和风噪声与语音混合是两个独立的类别。此图中示出的概率分析和分类判定都与记录中的真实内容（即话音、风噪声或风噪声与话音混合）相匹配。可以看出，在各个方面，风噪声与话音混合几乎总是通过风噪声和话音二者存在的概率的高值来被正确挑选出，并且不会与话音或风噪声类别混淆。

现在可以进行风噪声降低。当风噪声检测器检测到风噪声的存在时，会发生风噪声降低。一种实现风噪声降低的控制电路在各方面实现或利用四个功能：风噪声图像估计、风噪声降低增益构建、舒适噪声生成、风噪声降低和舒适噪声注入。

在步骤218，执行风噪声图像估计。假设两个麦克风102和104处的风噪声信号是不相关的，而语音信号是相关的。此外，风噪声和语音信号也是不相关的。因此，理论噪声功率谱密度（PSD）可以制定为：

其中t、f是帧和频率索引。

然而，这些假设并不总是成立。出于一个原因，假设的正确性取决于麦克风的几何特性。例如，麦克风分离越远，两个麦克风处的语音信号的相关性就越低。理论风噪声 PSD往往被低估。更可靠和功能更强大的风噪声 PSD 被设计为被话音和风噪声的概率加权的X1和 X2 的自动 PSD 的理论值和几何平均值的组合，如下：

其中 ALPHA 是常数 (0.4)，prob _wn 、prob _sp是与所选择的注视方向（朝向驾驶员或副驾驶员）相关联的风噪声和话音的概率。

在风噪声的概率高而话音的概率低的条件下，风噪声PSD与X1和X2的两个自动PSD的几何平均值近似相同。

在步骤220，确定WNR增益函数。两种不同的增益计算被设计并应用于风噪声降低。第一个来自频谱相减方法的变体，如下：

其中

是估计的风噪声功率谱。

最小增益因子通常需要小得多的值(例如-40B)来有效地去除非常强的风噪声。为了即使在存在噪声时也能更好地保留话音，G_min在G_{min _min}和G_{min _max}之间变化，并通过以下方式成为归一化的相位方差

的函数：

其中G_{min_min}、G_{min_min}分别设置为-40dB和-20dB，表示最小和最大G_min。

是根据为风噪声检测分配的频率范围以及本文别处讨论的阈值

、

计算的归一化相位方差。

由于交叉频谱的相位的大值是风噪声存在的强指标，因此第二增益函数也被导出为：

其中

、

是上面（关于概率确定）使用的相同阈值，用于计算在指定频率范围内风噪声的概率prob _wn。

该增益函数的一个优点是它将确保对两个通道上的时间/频率网格的深度衰减。该时间/频率网格可能具有风噪声存在，因为其相关联的交叉频谱的相位过大。

用于 WNR 操作的最终组合抑制规则如下：

在步骤222，执行风噪声降低并且它适用于两个麦克风通道，如图1中所示。如果风噪声检测器检测到作为仅风噪声的帧，或者作为风噪声与话音混合的帧，将使用 WNR，并且计算如下所示：

其中X _i (f)表示虚拟通道i的复频谱，并且Cn(f)是预先生成的舒适噪声。f1、f2表示在其内发生WNR的频率范围。

也可以在本文描述的方法中利用向已衰减的信号的舒适噪声注入。因为风噪声通常由于非常小的增益值（例如，-40dB）而被深度抑制。真正平滑的舒适噪声需要预先创建，并被注入到信号被严重衰减的点。对于固定噪声条件，通过估计的瞬时噪声的长期平滑版本来创建舒适噪声频谱。但是，由于风噪声强、大且可能持续时间长，因此常规方式生成的舒适噪声具有噪声门控效应，并且仍然类似于风噪声，因此不适合添加回风噪声被降低的信号。

对于风噪声降低应用，在最小统计方法的帮助下设计了一种替代且更有用的舒适噪声。在两个通道上运行的最小统计数据高效且有效地定位针对所考虑的每个频率在经过的时间内的最小值。然后它组装这些不同步的最小网格，以制定针对每个通道的“最小”背景噪声。

新的舒适噪声频谱（包络）是来自两个通道的两个最小统计集合的平均值：

其中

表示在最小统计搜索时间内与第i通道相关联的频率f处的最小功率谱值。

与常规的舒适噪声生成一样，针对WNR应用的最终舒适噪声生成是将最小统计数据导出的频谱包络应用于一段归一化的白噪声N _w (f)

生成的这种新的舒适噪声实际上可能适用于其他地方，诸如在回声抑制之后使用的地方。

在从信号中去除风噪声之后，这些信号可以被转换回时域，并且然后用于其他目的。例如，这些信号可用于控制车辆中其他设备的操作。在其他示例中，可以将该信号传送到其他用户或设备。在又其他示例中，可以出于其他目的处理该信号。

应当理解，本文描述的任何设备（例如，控制电路、控制器、接收器、传送器、传感器、任何呈现或显示设备或外部设备）可以使用计算设备来实现这些设备的各种功能和操作。在硬件架构方面，这样的计算设备可以包括但不限于处理器、存储器和一个或多个输入和/或输出（I/O）设备接口，它们通过本地接口通信耦合。本地接口可以包括例如但不限于一条或多条总线和/或其他有线或无线连接。处理器可以是用于执行软件，尤其是存储在存储器中的软件的硬件设备。处理器可以是定制的或市售的处理器、中央处理单元(CPU)、与计算设备相关联的多个处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)或通常任何用于执行软件指令的设备。

本文描述的存储器设备可以包括以下各项中任一项或其组合：易失性存储器元件（例如，随机存取存储器（RAM)，诸如动态RAM (DRAM)、静态RAM (SRAM)、同步动态RAM(SDRAM)、视频RAM (VRAM) 等））和/或非易失性存储器元件（例如，只读存储器 (ROM)、硬盘驱动器、磁带、CD-ROM 等）。此外，存储器可以结合电子、磁性、光学和/或其他类型的存储介质。存储器还可以具有分布式架构，其中各种部件彼此远离，但可由处理器访问。

在本文描述的任何存储器设备中的软件可以包括一个或多个单独的程序，每个程序包括用于实现在本文描述的功能的可执行指令的有序列表。当被构建为源程序时，该程序通过编译器、汇编器、解释器或类似物被翻译，这些编译器、汇编器、解释器或类似物可以包括在或者可以不包括在存储器中。

应当理解，本文描述的任何方法可以至少部分地实现为存储在计算机介质（例如，如上所述的计算机存储器）上的计算机指令，并且这些指令可以在处理设备（诸如微处理器）上执行。然而，这些方法可以实现为电子硬件和/或软件的任何组合。

本文描述了本发明的优选实施例，包括发明人已知的用于实施本发明的最佳模式。应当理解，所示实施例仅是示例性的，并且不应被理解为限制本发明的范围。

Claims

1.一种系统，所述系统包括：

第一麦克风，获得第一音频信号；

第二麦克风，获得第二音频信号；

其中，第一麦克风与第二麦克风在空间上分离；

控制电路，所述控制电路耦合到所述第一麦克风和所述第二麦克风，其中所述控制电路被配置为：

将到达所述第一麦克风的所述第一音频信号和到达所述第二麦克风的所述第二音频信号连续且同时地分段为时间段，使得对于每个时间段，到达第一麦克风的第一音频信号形成第一帧音频信号，并且到达第二麦克风的第二音频信号形成第二帧音频信号；

将第一帧音频信号和第二帧音频信号相对于目标语音源在时间上对齐；

其中，第一帧音频信号和第二帧音频信号的时间对齐基于：基于静态几何特性的测量结果，所述基于静态几何特性的测量结果经在运行时在两个麦克风处接收的信号之间的动态交叉相关性评估调整；

对时间对齐的第一帧音频信号和第二帧音频信号中的每一个执行傅里叶变换，对第一帧音频信号执行傅里叶变换产生第一频谱，对第二帧音频信号执行傅里叶变换产生第二频谱，其中第一频谱和第二频谱中的每一个表示在每个时间段两个时间对齐的麦克风信号之一的频谱；

根据第一频谱与第二频谱的交叉相关性计算在多个频率中的每一个频率处第一频谱与第二频谱之间的相位差；

针对每个时间段确定在定义的频率范围内所述相位差的归一化方差，其中所述频率范围是基于麦克风几何特性计算的，使得所述相位差的归一化方差的计算中的误差裕量被最小化；

基于两个时间对齐的麦克风信号的频谱相位差的归一化方差，在每个时间段制定和评估话音存在的概率和风噪声存在的概率；

在每个时间段判定每个时间段的类别，其中所述类别是以下各项之一：仅话音、仅风噪声、话音与风噪声混合或未知，其中判定逻辑用于确定所述类别并且所述判定逻辑基于第一函数，所述第一函数合并了话音存在的概率和风噪声存在的概率的个体值和组合值，其中第一函数的值与多个阈值进行比较并做出风噪声检测判定，其中基于所确定的类别，选择性地触发风衰减动作；

当动作是执行风噪声衰减时，计算增益或衰减函数，所述函数基于相位差的归一化方差和在预定的频率范围内在多个频率中的每个频率处的个体相位差，并且其中通过将所述增益或衰减函数与第一频谱和第二频谱的每个频谱的量值相乘，在频域中执行风噪声衰减，以产生去除风噪声的第一频谱和去除风噪声的第二频谱；

组合去除风噪声的第一频谱和去除风噪声的第二频谱以产生组合频谱；

通过对所述组合频谱进行逆FFT来构建去除风噪声的时域信号；

使用所述时域信号采取动作，所述动作是以下各项中的一项或多项：将所述时域信号传送到电子设备、使用所述时域信号控制电子装备、或使用所述时域信号与电子装备交互。

2.根据权利要求1所述的系统，其中，所述时间段的长度在10和20毫秒之间。

3.根据权利要求1所述的系统，其中，所述目标语音源包括来自坐在车辆座位中的人的语音。

4.根据权利要求1所述的系统，其中，话音存在的概率和风噪声存在的概率均具有0和1之间的值。

5.根据权利要求1所述的系统，其中，所述类别的确定还利用多数表决方法，所述多数表决方法考虑当前判定和先前连续时间段中的判定序列。

6.根据权利要求1所述的系统，其中，话音存在的概率和风噪声存在的概率提供度量，所述度量用于评估每个时间段处话音存在或风噪声存在的程度。

7.根据权利要求1所述的系统，其中，当已经确定的判定是仅风噪声或风噪声与话音混合时，触发所述风噪声衰减动作。

8.根据权利要求1所述的系统，其中，所述阈值是通过在离线算法训练阶段中使用话音和风噪声样本的量来离线估计的。

9.根据权利要求1所述的系统，其中，所述系统至少部分地设置在车辆中。

10.根据权利要求1所述的系统，其中，所述声源移动。

11.一种方法，所述方法包括：

在控制电路处：

将到达第一麦克风的第一音频信号和到达第二麦克风的第二音频信号连续且同时地分段为时间段，使得对于每个时间段，到达第一麦克风的第一音频信号形成第一帧音频信号，并且到达第二麦克风的第二音频信号形成第二帧音频信号；

12.根据权利要求11所述的方法，其中，所述时间段的长度在10和20毫秒之间。

13.根据权利要求11所述的方法，其中，所述目标语音源包括来自坐在车辆座位中的人的语音。

14.根据权利要求11所述的方法，其中话音存在的概率和风噪声存在的概率均具有0和1之间的值。

15.根据权利要求11所述的方法，其中，所述类别的确定还利用多数表决方法，所述多数表决方法考虑当前判定和先前连续时间段中的判定序列。

16.根据权利要求11所述的方法，其中话音存在的概率和风噪声存在的概率提供度量，所述度量用于评估每个时间段处话音存在或风噪声存在的程度。

17.根据权利要求11所述的方法，其中，当已经确定的判定是仅风噪声或风噪声与话音混合时，触发所述风噪声衰减动作。

18.根据权利要求11所述的方法，其中，所述阈值是通过在离线算法训练阶段中使用话音和风噪声样本的量来离线估计的。

19.根据权利要求11所述的方法，其中，所述控制电路至少部分地设置在车辆中。

20.根据权利要求11所述的方法，其中，所述声源移动。