CN116137148A

CN116137148A - 噪声降低的设备、系统和方法

Info

Publication number: CN116137148A
Application number: CN202211438150.1A
Authority: CN
Inventors: C·弗拉塞尔; D·戴维斯; J·霍斯特曼; L·克里斯滕森
Original assignee: Bikenshan Innovation Co ltd
Current assignee: Bikenshan Innovation Co ltd
Priority date: 2021-11-17
Filing date: 2022-11-16
Publication date: 2023-05-19
Also published as: US20230154481A1

Abstract

一种实时噪声降低的方法，包括：使用接收到的音频信号的时间定位频谱表示来生成频谱数据；通过比较第一滤波数据和第二滤波数据确定语音的检测；以及通过基于所确定的语音的检测减弱噪声来生成噪声降低的音频输出。第一滤波数据和第二滤波数据通过分别基于第一时间尺度和第二时间尺度减弱频谱数据的时间变化而形成。一种噪声降低系统，包括处理电路，处理电路被配置成执行实时噪声降低的方法以生成经由噪声降低系统的输出端口发送的输出。一种噪声降低麦克风，包括：具有换能器的壳体，换能器耦接至其中的执行实时噪声降低的方法的处理器；以及输出端口。一种具有指令的非暂态计算机可读介质，指令使处理器执行实时噪声降低的方法。

Description

噪声降低的设备、系统和方法

技术领域

本公开内容总体上涉及用于噪声消除的系统和方法，特别地用于在音频捕获期间消除噪声的系统和方法。

背景技术

在若干应用中，降低有噪声的音频信号中的噪声(噪声消除)是重要的。噪声可以是背景噪声，例如环境噪声或低频噪声。

用于噪声消除的许多方法依赖于估计噪声，并且然后降低该噪声对有噪声的音频信号的影响。噪声估计是基于有噪声的信号中基本上仅存在噪声的部分。例如，可以使用语音活动检测(VAD)算法来检测信号中具有语音的部分，从而可以在没有这些部分的情况下执行噪声估计。

美国专利公布第2020/0066268A1号公开了一种噪声消除(回声消除)方法，该方法包括基于噪声和语音参数计算语音存在概率，以及基于语音存在概率消除噪声。噪声和语音参数基于噪声时段和语音时段预先确定，基于语音触发例如“OK Google”的定时来识别。语音概率计算器连续估计语音出现在接收到的音频中的概率。对于实时计算应用而言，计算概率和更新参数在计算上可能相对昂贵，例如，对于这样的计算，具有小能耗规模的音频数字信号处理器可能花费远多于100ms的时间。

频谱减法是现有噪声消除系统中用于降低捕获音频中噪声的普遍方法，例如，如Vaseghi，Saeed V.Advanced digital signal processing and noise reduction,JohnWiley&Sons,2008的第11章“频谱减法”中所描述的。在频谱减法中，从有噪声的信号频谱中减去噪声频谱的估计(如下所述)以实现噪声消除。离散傅立叶变换用于变换至频域和从频域进行变换，在频域中执行减法。假设噪声是附加的，并且是缓慢变化的或平稳的过程。噪声频谱估计被周期性地更新，并且进一步假设该估计在更新之间没有明显变化。对于频谱减法中的减法步骤，从有噪声的信号的幅度中逐个频率地减去估计的噪声频谱的幅度，但是由于各种原因，相位保持不变，例如，仅噪声频谱的幅度的估计可能是可用的，以及/或者从有噪声的信号中去除与噪声相关联的相位信息可能是难以处理的，难以以高可靠性实现，或者在计算上是昂贵的。从有噪声的信号幅度中减去噪声幅度可能导致对噪声降低信号的负面预测，这就需要非线性校正，非线性校正会导致噪声降低信号失真，特别是当信噪比较低时。

已经提出多麦克风噪声消除器，即空间分布换能器的配置，以例如通过改善噪声估计来改善噪声消除性能，这是因为可以利用如此获得的空间和方向信息从有噪声的信号中分离出噪声。美国专利第6,963,649号公开了一种具有两个自适应滤波器的噪声消除麦克风系统，其中，第一自适应滤波器均衡两个全向麦克风，并且第二自适应滤波器然后执行噪声控制。两个全向麦克风可以面向相反的方向，但是设置在同一麦克风壳体中。多个麦克风配置增加了成本、设计复杂性，并且还频繁增加了与处理多个单独信号相关联的计算开销。

发明内容

包括工作场所和学校的整个社会数字化的提高、以及大流行病引发的挑战导致了音频和/或视频工具在工作场所、远程工作和学校中的快速采用。当在移动时和在家工作时使用这种工具时，特别是随着这种工具在共同工作空间的使用的增加，背景噪声是显著的问题。

增强语音(包括音乐或其他用户预期的音频)信号的噪声降低可以极大地改善用户体验并且提高生产率。在捕获的有噪声的音频信号中降低噪声的先前已知的方法难以在以成本有效的方式提供最终信号的期望声学质量的同时实时实现。

在本文公开的噪声降低系统的各种实施方式中，可以实现低延迟和高保真度的噪声降低，例如，可以实现5.3ms的延迟。

在用于噪声消除的现有方法中，通常以涉及处理一个或更多个音频信号的复杂算法的方法来实现更高质量的噪声消除。然而，更复杂的算法往往是在计算上也很苛刻并且可能导致高延迟(即，由诸如数字信号处理器(DSP)的处理单元接收未处理的音频信号与包括噪声降低的音频信号的输出之间的大延迟)的算法。例如，已发现，若干种现有方法导致大于20ms的延迟，这对于诸如音乐家或参加虚拟音乐课的学生的有识别力的用户而言可能高得不可接受。

由于延迟问题，先前的方法可以包括对有噪声的音频信号进行滤波，以去除整个信号中的估计噪声，而无需任何“关闭”时段，这是因为随着延迟打开和关闭滤波可能导致诸如“呜呜”声的伪像。例如，人类可能会在独白期间暂时停下来喘口气，提供适当的强调，或者只是在单词或短语之间提供相对静默。如果这种短暂的时段对于噪声消除系统而言太短而无法检测以重新开始噪声降低，或者如果检测被延迟，则有噪声的背景可能会干扰并降低噪声降低质量。

在诸如电话线路监控(“窃听”)的应用中，在捕获的音频没有实时估计并且可以被后处理以提高质量的情况下，或者在噪声降低之后的音频声学质量不是高优先级的情况下，噪声降低引起的显著延迟可能不是特别有害。然而，在若干实时应用中，输出信号的声学质量很重要。

除了与延迟相关的问题，现有方法可能使声音失真，例如，如背景技术部分中所描述的。

噪声可以被掩蔽，而不是被去除，或者噪声除了被去除之外还可以被掩蔽，以减少听觉感知的信号退化。已发现，在语音活动时段期间，通过提高人的语音(或产生语音的对象的音量)和/或使换能器更靠近语音生成位置，可以增加背景噪声的掩蔽。然而，这些方法在没有语音的时段(无论多么短，例如包括先前提到的短暂的语音停止时段)期间是无效的。在这些相对语音静默时段期间提供包括100％减弱的强噪声降低，并且在语音活动时段期间依靠噪声掩蔽和/或其他(较温和)类型的噪声降低，可以提供有效的噪声消除。

可以通过更准确和更新的噪声估计来实现更高保真度的噪声降低。可以使用无语音活动的时段来确定噪声的估计。由于较大的系综，捕获无语音活动的更多时段可以促进更准确的噪声估计。更频繁更新的噪声估计可以促进更新的噪声估计。低延迟语音检测可以使得能够捕获更多和更短的无语音活动时段，并且因此可以促进更高保真度的噪声降低。

已发现，如果以低延迟实时执行，则在无语音时段期间提供增强的噪声降低可以促进呈现高声学质量输出的噪声降低。无语音的时段可以是不存在诸如人类语音或音乐的主要信号的时段。在某些情况下，当检测到语音时，可能不提供噪声降低。例如，语音(即，主要信号)的相对幅值可以有效地掩蔽人耳所感知的潜在噪声。

需要有效检测语音存在的系统和方法。

已发现，可以通过估计有噪声的音频信号的频谱或适当指示其的量(例如，频谱分量的平方幅度)的时间变化来实现有噪声的信号中语音的高保真度和低延迟检测。有噪声的信号中的语音的这种检测还可以促进频繁的噪声估计，因为较短的时段可能适合噪声估计。

已发现，语音活动可能导致在短时间内平均或平滑的噪声频谱的某些变化，而在相对长时间内平均或平滑的噪声频谱的变化相对较小，从而导致它们不同。在没有语音活动的情况下，如果噪声频谱是平稳的或缓慢变化的，这两个平滑的频谱将是相似的。注意，噪声频谱本身可以包含高、低和中频分量，但是对于噪声频谱本身的分量相对于语音频谱的分量的变化，可能存在频率(即，时间尺度)分离。

可以使用一个或更多个低通滤波器和/或其他模拟或数字处理模块或方法来实现对信号的时间变化的有效估计。由于对信号的时间变化的有效估计，可以至少部分地实现语音的有效检测。例如，由此可以用单个麦克风实现有效、低延迟的噪声消除。在本文描述的一些实施方式中，可以实现5.3ms的延迟。

一方面，本公开内容描述了一种对于音频信号进行实时噪声降低而以低延迟相对于音频信号的非语音内容增强语音内容的方法，该方法包括：接收指示音频的时间分辨信号；使用时间分辨信号的时间定位频谱表示来生成时间分辨频谱数据；通过比较第一滤波数据和第二滤波数据来确定语音的检测，第一滤波数据通过基于第一时间尺度减弱时间分辨频谱数据的时间变化而形成，第二滤波数据通过基于与第一时间尺度不同的第二时间尺度减弱时间分辨频谱数据的时间变化而形成；以及通过处理时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出。

在另一方面，公开了一种其上存储有机器可解释指令的非暂态计算机可读介质，所述机器可解释指令在由计算设备的处理器执行时使处理器执行对于音频信号进行实时噪声降低而以低延迟相对于音频信号的非语音内容增强语音内容的方法。

在另一方面，本公开内容描述了一种以低延迟且实时地相对于非语音内容增强捕获的音频信号的语音内容的噪声降低麦克风，该噪声降低麦克风包括：壳体；换能器，其设置在壳体中并且被配置成将声波转换成指示音频的时间分辨信号；处理器，其设置在壳体中并且耦接至换能器；存储器，其耦接至处理器并且存储处理器可执行指令，所述处理器可执行指令在被执行时将处理器配置成：接收来自换能器的时间分辨信号；基于时间分辨信号生成时间分辨频谱数据；通过比较第一滤波数据和第二滤波数据来确定语音的检测，第一滤波数据通过基于第一时间尺度减弱时间分辨频谱数据的时间变化而形成，第二滤波数据通过基于与第一时间尺度不同的第二时间尺度减弱时间分辨频谱数据的时间变化而形成；以及通过处理时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出；以及输出端口，其耦接至处理器，并且被配置成发送时间分辨输出。

在又一方面，本公开内容描述了一种噪声降低系统，该噪声降低系统包括：处理电路，其被配置成：接收指示音频的时间分辨信号；基于时间分辨信号生成时间分辨频谱数据；通过比较第一滤波数据和第二滤波数据来确定语音的检测，第一滤波数据通过基于第一时间尺度减弱时间分辨频谱数据的时间变化而形成，第二滤波数据通过基于与第一时间尺度不同的第二时间尺度减弱时间分辨频谱数据的时间变化而形成；以及通过处理时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出；以及输出端口，其与处理电路电通信，以将时间分辨输出发送至外部设备，该外部设备被配置成接收时间分辨输出。

在示例实施方式中，数字信号处理器可以用于使用具有预定义窗宽度的短时傅立叶变换生成音频信号的时间分辨频谱数据，即，可以在每个时间步长处获得傅立叶频谱。然后，可以通过将两个单独的低通滤波器的输出与基于噪声和语音的预定时间尺度选择的不同时间常数进行比较来估计时间分辨频谱数据的时间变化。该比较可以采取滤波器输出之间的(平方)L₂误差或频率加权平均L₂误差的形式。这种估计可以用于检测语音的存在或不存在。在检测到语音不存在的情况下，音频信号可以被减弱(例如，多达100％)或者经受包括滤波的噪声消除的现有方法。在检测到语音存在的情况下，音频信号可以不被处理、适度增强(例如，通过放大)，或者适度经受噪声消除的现有方法。

实施方式可以包括上述特征的组合。

根据以下包括的具体实施方式和附图，本申请主题的这些和其他方面的更多细节将是明显的。

附图说明

现在参照附图，在附图中：

图1是根据实施方式的噪声降低麦克风在使用期间的示意图；

图2是根据实施方式的用于相对于非语音内容增强语音内容的噪声降低系统的处理电路的示意性框图；

图3是根据另一实施方式的用于相对于非语音内容增强语音内容的噪声降低系统的示意性框图；

图4是根据实施方式的计算设备的示意性框图；

图5是根据实施方式的特别地适于人类语音的噪声降低系统的示意图；

图6是根据实施方式的外部噪声降低设备中使用的各种一阶(低通)滤波器的阶跃响应图；

图7是根据实施方式的噪声降低系统的示意图；

图8是根据另一实施方式的噪声降低系统的示意图；以及

图9是根据实施方式的对音频信号进行实时噪声降低以相对于音频信号的非语音内容以低延迟增强语音内容的方法的流程图。

具体实施方式

以下公开内容涉及麦克风的噪声降低或消除。在一些实施方式中，可以以低延迟实现高保真度的噪声降低，这在实时应用中可能是有用的。在一些实施方式中，这是使用具有内置数字噪声降低的单振膜麦克风来提供的。

在使用短时傅立叶变换的频谱减法噪声降低中，首先缓冲输入信号，当接收到足够的数据时，将数据变换至频域，然后计算频域中输入信号的幅度(平方)，并且用于估计噪声，这然后允许计算噪声降低所需的频谱增益。频谱增益可以应用于输入幅度，同时保持输入相位不变。然后可以将该新的频谱变换回时域。

频谱增益可以作为估计噪声和输入频谱的函数进行计算。在某些情况下，为了减少音频伪像，频谱增益可以被限制为仅允许减弱，并且被平滑以减少值的突然变化。

当未检测到语音活动时，可以通过对噪声频谱进行低通滤波来获得用于频谱增益计算的噪声估计。

语音活动检测器(VAD)可以基于以下观察来实现：对于噪声，通过某种比较，在短时间内平滑的(时间分辨)噪声频谱通常与在长时间内平滑的噪声频谱相似。另一方面，观察到语音活动可能导致在短时间内平滑的噪声频谱的某些变化，而在长时间内平滑的噪声频谱的变化相对较小，从而导致它们不同。统计上平稳的或缓慢变化的噪声频谱通常可能在平滑之后得到相似的噪声频谱。

在某些情况下，短时间平滑和长时间平滑(时间分辨)噪声频谱的比较可以是两个频谱之间的频率加权平均平方距离。一旦该距离低于限定的阈值，就可以更新噪声估计，这是没有语音可以被检测。

现在关于附图来描述各种实施方式的各方面。

图1是根据实施方式的噪声降低麦克风100在使用期间的示意图。

噪声降低麦克风可以置于具有语音源102和噪声源104的环境中。

语音源102可以包括发声的人类语音源、生成声音的乐器和/或用户预期的由麦克风捕获的其他声源。

噪声源104通常可以包括环境中的环境噪声源、以及生成噪声的事物，如空调、车辆、医疗设施(包括嘟嘟声)和办公设施例如打印机。

如本文所提及的，“噪声”和“语音”可以相对于彼此进行定义。例如，“噪声”通常可以指其频谱结构相对于(用户预期的)“语音”没有明显变化的声音。例如，噪声和语音两者都可以包括相似频谱带中的高频分量和低频分量两者，但是与语音相比，噪声中这些频谱分量的幅度可能变化得更慢(或者根本不变化)。这两个频谱可以在分离的、不同的时间尺度上变化。已发现，由这种噪声描述描绘的声音对应于普通用户对非预期背景声音的感知。

如稍后所述，在某些情况下，语音源102可以限于人类生成的语音(或其模拟)。例如，在某些情况下，对于这种声音，可以实现高性能的噪声消除。

噪声降低麦克风100可以包括壳体110，壳体110中安装有换能器(未示出)，用于将声波112、114转换成指示音频的信号，例如数字音频信号。

由换能器生成的信号可以包括分别指示与语音源102的声波112和噪声源104A的声波114相关联的音频的语音内容和非语音内容。

噪声降低麦克风100可以包括用于实时噪声降低的处理电路，以生成指示噪声降低的音频的时间分辨输出116。在一些实施方式中，处理电路可以相对于非语音内容增强语音内容。

该时间分辨输出经由输出端口118发送至外部设备120，外部设备120被配置成接收时间分辨输出116。

如本文所提及的，“时间分辨”信号可以指具有时间分辨率的信号。然而，这并不一定意味着如此提及的所有时间分辨信号必须具有相同的时间分辨率。例如，在某些情况下，给定采样率下的输入数字信号可以被间歇地处理，以生成具有较低采样率的经处理的数字信号流，例如，以降低计算成本。

在各种实施方式中，输出端口118可以是物理端口，允许噪声降低麦克风100与外部设备120之间经由线缆124的电通信。

在各种实施方式中，外部设备120可以是扬声器、计算设备和/或通信设备。

用户可以操作与处理电路可操作电通信的拨盘122或其他输入设备，以控制噪声降低麦克风100执行的噪声降低量。

在一些实施方式中，噪声降低麦克风100可以生成单源信号。单源信号可以从单个换能器、空间上彼此不可区分的多个换能器和/或出于处理的目的而彼此不可区分的多个换能器(即使它们在空间上彼此是可区分的)生成。在一些实施方式中，单源信号可以通过平均从多个信号生成。

使用单源信号可以产生优势。示例优势可以包括较低的设计和实现复杂性、计算效率和/或较低的成本。

图2是根据实施方式的用于相对于非语音内容增强语音内容的噪声降低系统的处理电路202的示意性框图200。

处理电路202可以包括数字和/或模拟设备例如数字信号处理器(DSP)、现场可编程门阵列(FPGA)、微处理器、包括各种集成电路的其他类型的电路以及/或者其上存储有指令的存储器(暂态和/或非暂态或非易失性)。例如，处理电路202可以被配置为实时系统。

在一些实施方式中，处理电路202可以被配置为低能耗和在低电压下操作。在一些实施方式中，处理电路202在一些情况下可以消耗小于5W或小于2.5W的功率。在各种实施方式中，处理电路202可以使用经由USB 1.0、USB 2.0和/或USB 3.0连接传递的电力来操作。在各种实施方式中，例如由于可用的处理能力较低，低能耗约束可以对可实现的延迟设置较低的限制。

时间分辨频谱变换模块206可以接收指示音频的时间分辨信号204(即，具有时间分辨率、时变或非时变的信号)。例如，时间分辨信号204可以是单源、麦克风生成的信号。

时间分辨频谱变换模块206可以被配置成使用时间分辨信号204的时间定位频谱表示来生成时间分辨频谱数据224。

频谱分量可以指示傅立叶频率分量，但不一定限于傅立叶频率分量。例如，频谱分量可以包括对应与小波尺度因子对应的分量。

在各种实施方式中，时间定位频谱表示可以包括(时间定位的)短时傅立叶变换(STFT，包括使用FFT实现的那些变换)例如Gabor变换、滑动离散傅立叶变换、连续小波变换(CWT，包括以离散形式)、S变换(包括快速S变换)、扭曲FFT和其他时频表示(TFR)。

例如，信号X(τ,ω)的连续STFTX(τ,ω)可以是

其中，τ表示时间定位，ω表示频谱或频率(或尺度)定位，以及w(t-τ)是以τ为中心的窗函数。在各种实施方式中，窗函数可以包括矩形窗、三角形窗、汉宁窗、汉明窗、正弦窗和/或其他类型的窗。

作为另一示例，连续小波变换(CWT)由以下给出：

其中，ψ(·)是母小波函数的复共轭，f是表示逆尺度(或频谱)定位的逆尺度因子，以及τ是表示时间定位的平移值。

对于使用数字电路的实现方式，可以使用上述变换的离散版本，例如离散时间STFT由以下给出：

其中，针对整数k的t_k表示离散时间。

在一些实施方式中，发现特别有利的是，依赖于窗函数去除感兴趣的持续时间之外的信号的部分，以选择用于时间定位的时间步长为中心，并且然后使用快速傅立叶变换(FFT)以基于感兴趣的持续时间有效地获得时间定位频谱表示。例如，可以实现低延迟和高计算效率。在各种实施方式中，感兴趣的持续时间的长度可以在125ms与0.6ms之间，并且可以至少足够大以捕获感兴趣的频率。在一些实施方式中，发现使用2ms与8ms之间并且特别是在5ms至6ms之间(例如5.33ms)的窗长度是有利的。

在一些实施方式中，输入音频信号是具有小于100kHz和/或大于50kHz(例如96KHz)的采样率的数字信号。可以在64与4096个样本之间(例如512、256、64或其他2ⁿ个样本大小(针对各种n))的长度和/或窗长度的情况下使用FFT。可以调整FFT的长度以实现期望的延迟。例如，发现在约96kHz处具有与512个样本对应的5.33ms的窗长度是特别有利的。

在一些实施方式中，可以以规则的间隔更新频谱计算，例如频谱数据的时间分辨率可以与输入信号的时间分辨率不同。例如，在一些实施方式中，对于具有采样率96kHz的输入音频信号，可以每128个样本大小更新FFT，以实现750Hz的时间分辨率。FFT长度可以是512个样本，并且因此针对每个重新计算的FFT可以实现384个样本的叠加。

在各种实施方式中，噪声或非语音分量可以具有在50Hz至10kHz范围内的频率，并且语音分量可以具有在50Hz至7kHz范围内的频率。在各种实施方式中，噪声或非语音分量可以在频谱上与语音分量交叠。例如，在一些实施方式中，可以通过本文中公开的噪声降低系统的各方面来去除与语音分量交叠的任何频率范围中的音源。

时间分辨频谱数据224可以包括描述每个频谱分量的时间演变的数据。在各种实施方式中，频谱分量可以是完全实数、虚数或复数。

在一些实施方式中，时间分辨频谱数据224可以包括多个数据向量，每个数据向量与对应频谱分量相关联并且表示描述该频谱分量的时间演变的对应时间序列或指示其的一些量。例如，每个数据向量可以描述对应频谱分量的幅度、平方幅度、L_p范数或其他函数的时间演变。可以选择这样的函数来充分地表示对应频谱分量的时间演变。例如，可以排除非代表性函数。

时间分辨频谱数据224可以由第一滤波器模块210和第二滤波器模块212接收，第一滤波器模块210和第二滤波器模块212被配置成分别生成第一滤波数据226和第二滤波数据228。

在各种实施方式中，可以通过分别基于第一时间尺度和第二时间尺度减弱时间分辨频谱数据224的时间变化来形成第一滤波数据226和第二滤波数据228。第二时间尺度可以与第一时间尺度不同。

时间尺度中的至少一个可以基于语音内容的频谱的特征时间尺度，而另一时间尺度与其相比可能相对长得多，但短于非语音内容的频谱的特征时间尺度。在一些实施方式中，第一时间尺度和第二时间尺度中的较短时间尺度可以与语音内容的时间尺度相关联和/或基于语音内容的时间尺度。

例如，第一滤波数据226和第二滤波数据228可以排除时间分辨频谱数据224中在分别短于第一时间尺度和第二时间尺度的时间尺度上变化的部分。这样的变化可以使用附加的傅立叶变换、小波变换或其他方法来量化。在各种实施方式中，排除时间分辨频谱数据224的这样的变化可以使用适当调谐的线性滤波器来有效地实现。

在一些实施方式中，第一时间尺度可以表示在其上发生语音频谱的变化的时间尺度，而第二时间尺度可以比这样的时间尺度长得多，同时比在其上发生噪声频谱的变化的时间尺度更短。

在一些实施方式中，第一时间尺度可以大于第二时间尺度。

在一些实施方式中，非语音内容是具有相对于第一时间尺度或第二时间尺度中的至少一个静止或缓慢变化的频谱的噪声。例如，相对于特定时间尺度缓慢变化的信号可以指在与该特定时间尺度对应的时间段内没有明显改变的信号。

在一些实施方式中，可以通过使时间分辨频谱数据224分别通过第一低通滤波器和第二低通滤波器来生成第一滤波数据226和第二滤波数据228。第一低通滤波器和第二低通滤波器可以分别限定第一时间常数和第二时间常数。

在一些实施方式中，发现使用一阶低通滤波器是特别有利的。第一滤波器模块210和第二滤波器模块212可以限定具有由以下给出的相应传递函数H₁(s)和H₂(s)的对应滤波器：

其中，τ₁是第一时间常数，以及τ₂是第二时间常数。例如，可以由此实现低延迟。

在一些实施方式中，可以发现利用IIR滤波器(无限脉冲响应滤波器)是有利的。在一些实施方式中，可以使用FIR滤波器(有限脉冲响应滤波器)。

在一些实施方式中，第一时间常数和第二时间常数可以分别与第一时间尺度和第二时间尺度相关联。在一些实施方式中，第一时间常数和第二时间常数可以分别与第一时间尺度和第二时间尺度一致。

第一滤波数据226和第二滤波数据228可以被馈送至比较模块214中。比较模块214可以通过比较第一滤波数据226和第二滤波数据228来确定是否检测到语音。第一滤波器模块210、第二滤波器模块212和比较模块214可以一起形成语音活动检测模块或VAD模块208。

在一些实施方式中，比较模块214针对时间分辨频谱数据224中表示的每个频谱分量估计第一滤波数据226和第二滤波数据228彼此远离的偏移。在各种实施方式中，这样的偏移可以采取第一滤波数据226与第二滤波数据228之间的计量距离的形式，例如L_p范数。在一些实施方式中，发现第一滤波数据226与第二滤波数据228之间的差的平方幅度特别有效。

其中，A₁和A₂分别表示第一滤波数据226和第二滤波数据228。

偏移

可以被简化为标量，用于估计预定检测阈值并且与预定检测阈值进行比较。例如，可以通过对时间和所有频谱分量进行求和来考虑平均偏移，即

其中，N_T和N_Ω分别是持续时间T中的时间步长和频谱空间Ω中的频谱分量。此处，持续时间T是所考虑的窗的大小和/或时间窗的长度(例如，与FFT的长度成比例)。例如，在每个时间τ处，可以考虑单独的持续时间T。

在一些实施方式中，可以使用第一滤波数据与第二滤波数据之间的距离的频率加权平均值来获得用于估计的标量，其中距离与时间分辨频谱数据中表示的对应频谱分量相关联，即

比较模块214可以将频率加权平均值与预定检测阈值进行比较，以确定语音是否存在。例如，如果偏移的频率加权平均值大于预定检测阈值，则比较模块214可以确定检测到语音。

在各种实施方式中，比较模块214可以在针对预定检测阈值进行估计之前执行对第一滤波数据226和第二滤波数据228的附加归一化和/或缩放，例如以重新缩放信号幅值(总频谱能量)。

在各种实施方式中，比较模块214可以生成指示语音的检测的时间分辨检测数据230。

在一些实施方式中，时间分辨检测数据230指示布尔变量，该布尔变量表示在时间分辨信号中是否检测到语音。在一些实施方式中，时间分辨检测数据230不是布尔变量，例如其可以使用以上提及的频率加权平均值来确定。在这种情况下，时间分辨的检测数据230可以被认为表示与语音检测的概率或语音相对于噪声的量成比例的量。

在示例性实施方式中，第一滤波数据A₁是基于约2秒的时间常数(缓慢滤波器；长时间常数)的一阶低通滤波数据，并且第二滤波数据A₂是基于约1/4秒的时间常数(快速滤波器；短时间常数)的一阶低通滤波数据。发现这样的配置对于人类语音和滤除常见噪声(例如，风扇的噪声)特别有利。

使用这样的滤波器获得的值的示例在下面的表1中示出。

表1

其中，

是X的频率加权平均能量，如以下所给出的：

S(X₁,X₂)是X₁的归一化频率加权平均能量，由以下给出：

以及，频率设置如下：

ω＝{0.99ⁿ|n＝0,…,N-1},，

其中，例如N＝512。

在一些实施方式中，“基线”通常可以指静默和/或没有风扇噪声和/或语音。

在一些实施方式中，语音活动检测器阈值(预定检测阈值)是

因此，例如，在每个时间τ处，检测数据可以是布尔值函数，如下：

例如，在一些示例性实施方式中，预定检测阈值可以在基线频率加权能量

或/>

的14倍至17倍之间。在一些实施方式中，风扇状态能量/>

或/>

可以是λ的400倍至500(或450)倍。

在各种实施方式中，可以及时分辨检测数据。在一些实施方式中，检测数据的分辨率可以小于输入信号的分辨率。在一些实施方式中，分辨率可以对应于频谱数据的时间分辨率。例如，在一些实施方式中，频谱数据可以相对于输入信号数据被亚分辨。

在各种实施方式中，第一时间尺度大于第二时间尺度，并且非语音内容的频谱在大于第二时间尺度的时间尺度上变化，使得百分比

至多可以为0.1％、0.5％或1％，或者小于0.1％。

基于表1的示例在下面的表2中示出。

表2

例如，在一些实施方式中，在与语音内容和非语音内容相关联的频率上，非语音内容的频谱在第一时间尺度上的时间平均分量与非语音内容的频谱在第二时间尺度上的时间平均分量之间的频率加权平方差之和至多为非语音内容的频谱在第一时间尺度上的时间平均分量的频率加权平方和的0.001％。

在一些实施方式中，平滑算法和处理方法可以用于平滑时间分辨检测数据230中的时间变化。

在一些实施方式中，当时间分辨检测数据230为布尔变量时，时间分辨检测数据230可以不被滤波。例如，在一些实施方式中，时间分辨检测数据230可以是接通/关断信号，以接通或关断一阶滤波器312，例如以估计噪声(或不估计噪声)。

噪声减弱模块215可以接收和处理时间分辨信号204，以基于确定的语音检测相对于语音内容减弱非语音内容。

时间分辨检测数据230可以被供应至噪声减弱模块215，由此生成指示噪声降低的音频的时间分辨输出218。

在一些实施方式中，噪声减弱模块215可以使用时间分辨检测数据230例如通过计算减弱的频谱增益来相对于语音内容减弱非语音内容。

在一些实施方式中，当未检测到语音时，噪声减弱模块215可以根据总能量和/或在特定频率内减弱时间分辨信号204。

在一些实施方式中，当检测到语音时，噪声减弱模块215可以执行从时间分辨信号204(包括通过使用由时间分辨频谱变换模块206提供的时间分辨频谱数据224)中对噪声的频谱减法。

在一些实施方式中，当未检测到语音活动时，噪声减弱模块215可以通过对时间分辨频谱数据224进行低通滤波来生成噪声估计。该噪声估计可以用于确定噪声降低的频谱增益。这样的噪声估计可以用于频谱减法或其他噪声降低方法。

在一些实施方式中，仅在未检测到语音时执行减弱。在一些实施方式中，当检测到语音时，时间分辨信号204不被处理或以保持其特征的方式被处理，即没有任何实质的噪声降低。

在一些实施方式中，噪声减弱模块216可以被配置成接收指示期望的噪声降低量的用户生成的信号220。噪声减弱模块216可以基于用户生成的信号220来修改噪声减弱。

在一些实施方式中，噪声减弱模块216应用调整增益来修改噪声减弱。在一些实施方式中，噪声减弱模块216基于用户生成的信号220将调整增益应用于时间分辨检测数据230。

图3是根据另一实施方式的用于相对于非语音内容增强语音内容的噪声降低系统的示意性框图300。

换能器302(电换能器)可以耦接至用于从其接收电力的电力供应装置303，并且可以生成时间分辨信号204，该时间分辨信号204可以被馈送至时间分辨频谱变换模块206。

噪声降低系统可以在由电力供应装置303供电的计算设备400上实现。例如，处理器或处理电路可以可操作地耦接至电力供应装置303。

时间分辨频谱变换模块206可以包括缓冲器304，该缓冲器304可以向短时傅立叶变换模块或STFT模块306馈送。缓冲器304可以例如基于采样率(系综大小)和/或跳变大小包括用于STFT的足够数据。

可以使用快速傅立叶变换(FFT)和窗函数来实现STFT模块。例如，窗函数的宽度可以是约5.33ms。

由STFT模块306生成的频谱可以被馈送至幅度平方块308中，以逐个频率地(逐个频谱分量地)提取每个频率(或分量)的平方幅度。

在VAD模块208中，第一滤波器模块210可以包括具有第一时间常数的一阶低通滤波器，并且第二滤波器模块212可以包括具有第二时间常数的一阶低通滤波器。

噪声减弱模块216可以被配置成接收时间分辨检测数据230和要被馈送至延迟模块310中的时间分辨频谱数据224。噪声减弱模块216可以计算频谱增益，并且使用该频谱增益来获得噪声降低的输出。

当时间分辨检测数据230指示不存在语音时，噪声减弱模块216可以被配置成使用时间分辨频谱数据224来更新噪声估计。发现放置延迟模块310以在估计噪声时滤除瞬态起始是特别有利的。

一阶滤波器312可以是被配置成当一阶滤波器312接通时生成对噪声的估计的噪声估计滤波器。

更新的噪声估计可以经由一阶滤波器312被馈送至调整模块314。调整模块314可以如下计算每个频率ω的增益G(ω)(频谱增益)

其中，α∈[0,1]是基于经由用户输入端口326(例如，经由诸如拨盘122的拨盘)接收的用户生成的信号220确定的值。例如，α的值越大，噪声降低越强。

输出频谱增益在限幅模块316中被限幅，以将G(ω)限制在0与1之间，以实现明确定义的增益G_cl(ω)。限幅的频谱增益G_cl(ω)通过一阶滤波器318例如低通滤波器，以实现增益信号的平滑。

频谱增益经由乘法块320中的乘法应用于时间分辨频谱数据224。一旦频谱增益被应用于每个频率分量，时域信号经由逆STFT模块322被检索。

提供交叠相加模块324以接收时域信号，并且时间分辨输出218经由输出端口118被发送出去。

在各种实施方式中，换能器302和计算设备400可以容纳在同一壳体110内。

在一些实施方式中，在应用调整增益之后使用低通滤波器(例如包括具有小于10秒的时间常数的一阶低通滤波)对时间分辨检测数据230进行滤波以平滑时间分辨检测数据230中的时间变化。

图4是根据实施方式的计算设备400的示意性框图。例如，前述噪声降低系统和处理电路可以使用计算设备400来实现。

在各种实施方式中，计算设备400可以包括一个或更多个处理器402、存储器404、一个或更多个I/O接口406以及一个或更多个网络通信接口408。

在各种实施方式中，处理器402可以是微处理器或微控制器、数字信号处理(DSP)处理器、集成电路、现场可编程门阵列(FPGA)、可重配置处理器、可编程只读存储器(PROM)或其组合。

在各种实施方式中，存储器404可以包括位于内部或外部的计算机存储器，诸如例如随机存取存储器(RAM)、只读存储器(ROM)、光盘只读存储器(CDROM)、电光存储器、磁光存储器、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、铁电RAM(FRAM)。

在一些实施方式中，I/O接口406可以使计算设备400能够与一个或更多个输入设备例如键盘、鼠标、摄像装之后、触摸屏和麦克风互连，或者与一个或更多个输出设备例如显示屏和扬声器互连。

在一些实施方式中，联网接口408可以被配置成接收数据，例如作为数据结构(例如向量和阵列)。在一些实施方式中，目标数据存储或数据结构可以驻留在诸如移动设备的计算设备或系统上。

术语“连接”或“耦接至”可以包括直接耦接(其中彼此耦接的两个元件彼此接触)和间接耦接(其中至少一个附加元件位于两个元件之间)两者。

图5是根据实施方式的特别地适于人类语音的噪声降低系统500的示意图。

噪声降低系统500可以包括用于生成指示音频的时间分辨信号的麦克风510。麦克风510可以是没有噪声降低能力的麦克风。麦克风510可以耦接至外部噪声降低设备520，该外部噪声降低设备520可以包括用于噪声降低的处理电路。例如，外部噪声降低设备520的处理电路可以对应于计算设备400。可以提供诸如扬声器530的音频输出设备，以输出从外部噪声降低设备520接收的噪声降低的音频。

在一些实施方式中，外部噪声降低设备520可以实现以96kHz运行的大小为512的快速傅立叶变换(FFT)，从而产生512个样本的延迟(约5.3ms)。

在一些实施方式中，外部噪声降低设备520可以基本上实现示意性框图300中所示的噪声降低系统。第一滤波器模块210可以实现具有100ms时间常数的低通滤波器，并且可以是快速时间常数滤波器模块。时间常数可以被限定为低通滤波器从起始值调整至目标值的90％所需的时间。第二滤波器模块212可以实现具有2000ms时间常数的低通滤波器，并且可以是缓慢时间常数滤波器模块。调整或调节噪声频谱的一阶滤波器312可以具有1000ms的相关联时间常数。调整或调节频谱增益的一阶滤波器318可以具有100ms的相关联时间常数。与其他方法相比，这样的参数对于检测人类语音可能是有利的。

外部噪声降低设备520可以被配置成用于方便的即插即用操作，并且可以被配置成连接至通用音频输入，以提供通用音频输出。例如，可以实现高效、低延迟和低功耗噪声消除。

图6是根据实施方式的外部噪声降低设备520中使用的各种一阶(低通)滤波器的阶跃响应图600。

线图610是一阶滤波器318的示例性阶跃响应。

线图620是第一滤波器模块210的示例性阶跃响应(小时间常数或快速响应)。

线图640是第二滤波器模块212的示例性阶跃响应(大时间常数或缓慢响应)。

线图630是一阶滤波器312的示例性阶跃响应。

当语音是人类语音时，选择一阶滤波器以有利地促进噪声消除。

截止时间尺度通常由虚线表示。

图7是根据实施方式的噪声降低系统700的示意图。

噪声降低系统700可以在可以是终端设备的外部计算设备上实现。例如，在一些实施方式中，麦克风710可以生成音频信号，该音频信号然后可以经由线缆发送至可以是终端设备的台式计算机720。可以与计算设备400类似地配置的台式计算机720可以执行机器可读指令以致使噪声降低。

图8是根据实施方式的噪声降低系统800的示意图。

第一无线通信设备820可以与第二无线通信设备830进行无线通信。第一无线通信设备820可以与噪声降低设备810进行电通信，以在向第二无线通信设备830无线传输之前降低捕获的音频中的噪声。例如，噪声降低设备810可以类似于外部噪声降低设备520。

图9是根据实施方式的对音频信号进行实时噪声降低以相对于音频信号的非语音内容以低延迟增强语音内容的方法900的流程图。

在步骤902处，方法900包括接收指示音频的时间分辨信号。

在步骤904处，方法900包括使用时间分辨信号的时间定位频谱表示生成时间分辨频谱数据。

在步骤906处，方法900包括通过比较第一滤波数据和第二滤波数据来确定语音的检测，第一滤波数据通过基于第一时间尺度减弱时间分辨频谱数据的时间变化而形成，第二滤波数据通过基于与第一时间尺度不同的第二时间尺度减弱时间分辨频谱数据的时间变化而形成。

在步骤908处，方法900包括通过处理时间分辨信号以基于确定的语音检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出。

在一些实施方式中，可以提供其上存储有机器可解释指令的非暂态计算机可读介质，所述机器可解释指令在由计算设备的处理器执行时使处理器执行方法900。例如，处理器可以是计算设备400的一部分。

如可以理解的，以上所描述和示出的示例仅旨在作为示例。

尽管已经详细描述了实施方式，但是应当理解，在不脱离范围的情况下，可以在本文中进行各种改变、替换和变更。此外，本申请的范围不旨在限于说明书中描述的过程、机器、制品、物质组成、装置、方法和步骤的特定实施方式。如本领域普通技术人员根据本公开尼尔将容易理解的，可以利用当前存在或随后开发的执行本文中描述的对应实施方式基本相同的功能或实现与本文中描述的对应实施方式基本相同的结果的过程、机器、制品、物质组成、装置、方法或步骤。因此，实施方式旨在将这样的过程、机器、制品、物质组成、装置、方法或步骤包括在其范围内。

Claims

1.一种对于音频信号进行实时噪声降低而以低延迟相对于所述音频信号的非语音内容增强语音内容的方法，所述方法包括：

接收指示音频的时间分辨信号；

使用所述时间分辨信号的时间定位频谱表示来生成时间分辨频谱数据；

通过比较第一滤波数据和第二滤波数据来确定语音的检测，所述第一滤波数据通过基于第一时间尺度减弱所述时间分辨频谱数据的时间变化而形成，所述第二滤波数据通过基于与所述第一时间尺度不同的第二时间尺度减弱所述时间分辨频谱数据的时间变化而形成；以及

通过处理所述时间分辨信号以基于所确定的语音的检测相对于所述语音内容减弱所述非语音内容来生成指示噪声降低的音频的时间分辨输出。

2.根据权利要求1所述的方法，其中，所述时间分辨信号是由麦克风生成的单源信号。

3.根据权利要求1所述的方法，其中，生成所述时间分辨频谱数据包括使用所述时间分辨信号的时间定位短时傅立叶变换。

4.根据权利要求1所述的方法，其中，所述时间分辨频谱数据指示所述时间分辨信号的时间定位短时傅立叶变换的分量的幅度。

5.根据权利要求1所述的方法，其中，所述第一滤波数据通过将所述时间分辨频谱数据通过限定与所述第一时间尺度相关联的第一时间常数的第一低通滤波器生成，第二滤波数据通过将所述时间分辨频谱数据通过限定与所述第二时间尺度相关联的第二时间常数的第二低通滤波器生成。

6.根据权利要求5所述的方法，其中，所述第一低通滤波器和所述第二低通滤波器是限定相应的第一时间常数和第二时间常数的一阶低通滤波器，所述第一时间常数在1/8秒至1/2秒之间，所述第二时间常数在1秒至10秒之间。

7.根据权利要求5所述的方法，其中，所述第一低通滤波器和所述第二低通滤波器是限定相应的第一时间常数和第二时间常数的一阶低通滤波器，所述第二时间常数在所述第一时间常数的3倍至8倍之间。

8.根据权利要求1所述的方法，其中，通过比较所述第一滤波数据和所述第二滤波数据来确定语音的检测包括：对于所述时间分辨频谱数据中表示的每个频谱分量，估计所述第一滤波数据和所述第二滤波数据彼此远离的偏移。

9.根据权利要求1所述的方法，其中，通过比较所述第一滤波数据和所述第二滤波数据来确定语音的检测包括：

估计所述第一滤波数据与所述第二滤波数据之间的距离的频率加权平均值，距离与所述时间分辨频谱数据中表示的对应频谱分量相关联；以及

将所述频率加权平均值与预定检测阈值进行比较。

10.根据权利要求1所述的方法，其中，通过比较所述第一滤波数据和所述第二滤波数据来确定语音的检测包括：生成指示语音的检测的时间分辨检测数据，并且其中，通过处理所述时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出包括：使用所述时间分辨检测数据相对于语音内容减弱非语音内容。

11.根据权利要求10所述的方法，还包括：

接收指示噪声降低量的用户生成的信号；以及

基于所述用户生成的信号将调整增益应用于所述时间分辨检测数据。

12.根据权利要求11所述的方法，还包括在应用所述调整增益之后对所述时间分辨检测数据进行低通滤波以平滑所述时间分辨检测数据的时间变化。

13.根据权利要求10所述的方法，其中，所述时间分辨检测数据指示布尔变量，所述布尔变量表示在所述时间分辨信号中是否检测到语音。

14.根据权利要求1所述的方法，其中，处理所述时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容包括：仅当未检测到语音时从所述时间分辨信号中对噪声的频谱减法。

15.根据权利要求1所述的方法，其中，所述非语音内容是频谱相对于所述第一时间尺度或所述第二时间尺度中的至少一个时间尺度平稳或缓慢变化的噪声。

16.根据权利要求1所述的方法，其中，所述第一时间尺度大于所述第二时间尺度，并且所述非语音内容的频谱在大于所述第二时间尺度的时间尺度上变化，使得在与语音内容和非语音内容相关联的频率上，所述非语音内容的频谱在所述第一时间尺度上的时间平均分量与所述非语音内容的频谱在所述第二时间尺度上的时间平均分量之间的频率加权平方差之和至多为所述非语音内容的频谱在所述第一时间尺度上的时间平均分量的频率加权平方和的0.1％。

17.一种其上存储有机器可解释指令的非暂态计算机可读介质，所述机器可解释指令在由计算设备的处理器执行时使所述处理器执行根据权利要求1所述的方法。

18.一种以低延迟且实时地相对于非语音内容增强捕获的音频信号的语音内容的噪声降低麦克风，所述噪声降低麦克风包括：

壳体；

换能器，其设置在所述壳体中并且被配置成将声波转换成指示音频的时间分辨信号；

处理器，其设置在所述壳体中并且耦接至所述换能器；

存储器，其耦接至所述处理器并且存储处理器可执行指令，所述处理器可执行指令在被执行时将所述处理器配置成：

接收来自所述换能器的所述时间分辨信号；

基于所述时间分辨信号生成时间分辨频谱数据；

通过处理所述时间分辨信号以基于所确定的语音的检测相对于语音内容减弱非语音内容来生成指示噪声降低的音频的时间分辨输出；以及

输出端口，其耦接至所述处理器并且被配置成发送所述时间分辨输出。

19.根据权利要求18所述的噪声降低麦克风，其中，所述换能器是耦接至电力供应装置的电换能器，所述处理器可操作地耦接至所述电力供应装置。

20.一种噪声降低系统，包括：

处理电路，其被配置成：

接收指示音频的时间分辨信号；

基于所述时间分辨信号生成时间分辨频谱数据；

输出端口，其与所述处理电路电通信，以将所述时间分辨输出发送至外部设备，所述外部设备被配置成接收所述时间分辨输出。