CN117280414A - 基于动态神经网络的噪声降低 - Google Patents
基于动态神经网络的噪声降低 Download PDFInfo
- Publication number
- CN117280414A CN117280414A CN202180098013.5A CN202180098013A CN117280414A CN 117280414 A CN117280414 A CN 117280414A CN 202180098013 A CN202180098013 A CN 202180098013A CN 117280414 A CN117280414 A CN 117280414A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- noise
- input
- noise reduction
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 94
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 47
- 239000003638 chemical reducing agent Substances 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 155
- 238000000034 method Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
混合降噪器通过在期望的频率范围上对输入音频信号执行噪声降低来提供输出音频信号。期望的频率范围包括基本频率范围和剩余频率范围的并集。降噪器包括不同类型的第一降噪路径和第二降噪路径。第一降噪路径依赖于已使用基本频率范围训练的动态神经网络。第二降噪路径依赖于噪声估计模块,该噪声估计模块使用信噪比估计的估计来识别剩余范围内的噪声。
Description
相关申请的交叉引用
本申请要求于2021年5月8日提交的美国临时申请63/186,066的优先权,其内容通过引用并入本文。
背景技术
从最早的电话时代起,背景噪声就设法进入由电话的麦克风传输的信号中。因此,这种噪声的侵入,有时让讲话者很难被理解。
在早期,通过从安静的地方打电话并将麦克风靠近一个人的嘴边这一明显的权宜之计来解决背景噪声的问题。多年来,电话公司都会把电话放在电话亭里,既能保护呼叫者的隐私,又能抑制背景噪声,否则这些背景噪声可能会进入电话的麦克风。
随着移动电话的出现,从更难屏蔽背景噪声的位置拨打电话成为可能。例如,在行驶中的机动车辆中,背景噪声来自如车辆自身发动机的声音、机动车辆的轮胎在道路上滚动的声音以及车辆的通风系统这些来源。在更高的速度下,即使是风的声音也开始明显地干扰电话呼叫。此外,还存在非平稳噪声的来源,例如转向信号的明显周期性咔嗒声或喇叭或警报器的偶尔闯入。
免提电话的出现加剧了这些困难。如某些形式的免提电话那样,将麦克风放置在距呼叫者更远的地方,使得背景噪声更容易地干扰讲话者的话音。
由于与这种背景噪声的物理隔离似乎是不切实际的,因此有必要开发电子降噪系统。这样的系统依赖于信号处理方法以识别噪声,并采取步骤以某种方式滤除或消除噪声。
任何频率都可能出现噪声。幸运的是,实际的通信系统具有有限的带宽。因此,只需要减少通信系统中使用的那些频率的噪声。不同的通信系统具有不同的带宽。因此,降噪系统的设计不可避免地取决于相关通信系统所使用的频带。
发明内容
一种经过训练以识别各种类型的噪声并生成频谱权重的动态神经网络可以应用于音频信号的频谱以实现噪声降低。一种依赖于神经网络的方法特别有利,因为它能够处理包括非平稳噪声的许多不同类型的噪声。
使用神经网络出现的一个困难是它缺乏灵活性。毕竟,神经网络必须经过训练。训练用于噪声降低的神经网络包括针对特定音频频带对该神经网络进行训练。在不同的音频频带中使用神经网络将导致显著的有效性损失。
出现这种困难是因为不同的通信系统具有不同的带宽要求,在不同的带宽要求上进行噪声降低。例如,窄带系统只需要将噪声降低到约3,700Hz。然而,也存在强加7千赫兹、11.5千赫兹、16千赫兹和24千赫兹的阈值的电话标准。语音识别系统通常依赖于以8千赫兹结束的频带。
可以考虑为不同的频带保持不同神经网络的库存(inventory)的可能性。然而,训练神经网络的努力并非微不足道。因此,这样的解决方案在经济上是令人望而却步的。
本发明提供一种在超出动态神经网络最初训练的频率范围的频率范围上进行噪声降低的方法。本文公开的方法和系统通过使用动态神经网络来动态地修改正被用于在其未被训练的频率处降低噪声的滤波器,以利用动态神经网络。
在一个方面,本发明的特征在于,混合降噪器通过在期望的频率范围内对输入音频信号执行噪声降低来提供输出音频信号。期望的频率范围包括基本频率范围和剩余频率范围的并集。
降噪器是混合降噪器,因为它包括不同类型的第一降噪路径和第二降噪路径。第一降噪路径依赖于已经使用基本频率范围训练的动态神经网络。第二降噪路径依赖于噪声估计模块,该噪声估计模块使用信噪比的估计来识别剩余范围内的噪声。
输入音频信号的频域表示被划分为对应于基本范围和剩余范围的第一信号成分和第二信号成分。为方便起见,这些信号成分将分别被称为“基本成分”和“剩余成分”。
将基本成分提供给第一降噪路径,将剩余成分提供给第二降噪路径。第一降噪路径和第二降噪路径分别计算用于应用于基本成分和剩余成分的对应的第一组频谱权重和第二组频谱权重。然而,第二降噪路径从第一降噪路径接收关于第一信号成分中的噪声的信息,并使用该信息来修改第二组频谱权重。
然后将第一组频谱权重和第二组频谱权重分别应用于基本成分和剩余成分。这导致滤波后的基本成分和滤波后的剩余成分,然后将它们组合以形成输出信号的频谱。在时域中,得到的组合成为输出信号。
本文所述的混合降噪器避免了针对不同带宽训练动态神经网络的需要。相反,可以使用作为用于噪声降低的期望的频率范围的子集的基本频率范围来训练一个基本动态神经网络,并且对于期望的频率范围中的剩余部分使用不同的降噪系统。这避免了针对特定用途训练新的动态神经网络的成本。它还利用了针对基本频率范围的训练数据的更大可用性以及基于基本范围中的噪声降低的结果来通知剩余范围中的噪声降低过程的能力。
另一个优点是,该动态神经网络需要更少的节点,因为它只处理基本范围。这节省了计算资源和能源使用。
在一个方面,本发明的特征在于,一种装置,用于通过抑制第一输入频谱中的噪声和第二输入频谱中的噪声来生成输出音频信号,第一输入频谱和第二输入频谱从输入音频信号获得。第一输入频谱表征存在于输入音频信号中并且在第一频带内的能量。第二输入频谱表征存在于输入音频信号中并且在第二频带内的能量。该装置包括混合降噪系统,该混合降噪系统包括接收第一输入频谱的第一降噪路径和接收第二输入频谱的第二降噪路径。第一降噪路径被配置为将第一降噪方法应用于第一输入频谱,以产生用于降低第一输入频谱中的噪声的第一噪声滤波器。第二降噪路径被配置为将第二降噪方法应用于第二输入频谱,以产生用于降低第二输入频谱中的噪声的第二噪声滤波器。这两种降噪方法彼此不同。第二降噪路径包括加权电路,该加权电路至少部分地基于第一噪声滤波器来修改第二噪声滤波器,从而生成第三噪声滤波器。
在这些实施例中,混合降噪系统还包括滤波系统,该滤波系统被配置为将第一噪声滤波器应用于第一输入频谱并且将第三噪声滤波器应用于第二输入频谱,以分别产生滤波后的第一输入频谱和滤波后的第二输入频谱。
在这些实施例中,混合降噪系统还包括堆叠电路,该堆叠电路将滤波后的第一输入频谱和滤波后的第二输入频谱组合成输出频谱,该输出频谱表征噪声已被抑制的输入音频信号的频域表示。
一些实施例还包括变换电路,该变换电路接收输入音频信号并提供输入音频信号的频域表示,从该频域表示获得第一输入频谱和第二输入频谱。在这些实施例中,变换电路被配置为执行输入音频信号的短时傅立叶变换。
其他实施例包括逆变换电路,该逆变换电路将输出频谱转换为输出音频信号,输出频谱代表噪声已被抑制的输入音频信号的频域表示。在这些实施例中,逆变换电路执行短时傅立叶逆变换以将输出频谱转换为输出音频信号,输出频谱代表噪声已被抑制的输入音频信号的频域表示。
在其他实施例中,第一降噪路径包括动态神经网络,该动态神经网络基于从第一输入频谱提取的特征来产生第一噪声滤波器。在这些实施例中,动态神经网络提供指示语音存在的话音活动信号。在这些实施例中,还有使用第一频带中的频率训练的动态神经网络。
其他实施例包括其中第一降噪路径被配置为提供指示第一输入频谱中的话音活动的话音活动信号并将该话音活动信号提供给加权电路以用于修改第二滤波器的实施例。
在其他实施例中,第二降噪路径包括估计器和滤波器计算器,滤波器计算器基于由估计器提供的噪声估计来确定第二噪声滤波器。
此外,在这些实施例中,加权电路被配置为修改第二噪声滤波器,以使第三噪声滤波器抑制以下噪声:如果第二噪声滤波器被应用于输入剩余频谱则第二噪声滤波器不会抑制该噪声。
还有其他实施例包括其中加权电路被配置为修改第二噪声滤波器以防止第三噪声滤波器抑制存在于输入剩余频谱中的以下功率:如果第二噪声滤波器被应用于输入剩余频谱则第二噪声滤波器抑制该功率的实施例。
在其他实施例中,存在第一概率和第二概率,第一概率是语音存在于输入剩余频谱中的概率,第二概率是在给定关于输入基本频谱中存在语音的信息的情况下,语音存在于输入剩余频谱中的条件概率。在这样的实施例中,加权电路被配置为基于第一概率和第二概率的函数来修改第二噪声滤波器。
实施例还包括其中输入基本频谱具有7千赫兹的上限的实施例以及其中剩余基本频谱具有等于输入基本频谱的上限的低频带的实施例。
还有其他实施例包括其中剩余基本频谱具有等于24千赫兹的上限的实施例、其中上限是11.5千赫兹的实施例、其中上限是16千赫兹的实施例、以及其中上限是8千赫兹的实施例。
在另一方面,本发明的特征在于一种方法,该方法包括通过使用第一降噪方法将输入音频信号的频域表示划分成第一输入频谱和第二输入频谱来降低输入音频信号中的噪声,生成用于降低第一输入频谱中的噪声的第一滤波器,从而生成第一输出频谱,使用第二降噪方法,包括使用从已使用第一降噪方法获得的信息,生成用于降低第二输入频谱中的噪声的第二滤波器,从而生成第二输出频谱,以及输出由已变换的频域信号形成的时域信号,该频域信号由组合第一输出频谱和第二输出频谱产生。
本发明的这些和其他特征将从以下详细描述和附图中显而易见,其中:
附图说明
图1示出具有分别对应于基本频带和剩余频带的第一降噪路径和第二降噪路径的混合降噪器;
图2示出图1中使用的基本频带和剩余频带;
图3示出用于确定要应用于由图1中所示的第二降噪路径产生的滤波器系数的增益的频率范围;
图4示出图1的混合降噪器的替代实施例;以及
图5示出一种降噪方法。
具体实施方式
图1示出用于实现混合降噪器10的电路,该混合降噪器10接收输入音频信号12x(n),通过对时域音频信号进行采样而形成该输入音频信号12。在典型实施例中,以16kHz对该时域音频信号进行采样以生成输入音频信号12。为了便于处理,输入音频信号12被划分为具有均匀长度的块。在典型实施例中,块具有256个样本。
变换电路14将输入音频信号12的每个块变换为输入频谱16。输入频谱16在图中由X(k,l)表示,是输入音频信号12的特定块的频域表示。自变量l标识特定的时间片,自变量k标识特定的频率。
合适的变换电路14是基于一组正交本征函数实现变换的电路。在优选实施例中,变换是基于离散傅立叶变换的短时傅立叶变换。在块具有256个样本的实施例中,变换电路14实现长度为512的离散傅立叶变换。这导致限定输入频谱16的257个复值系数的矢量。分离器18然后接收来自变换电路14的输入频谱16,并将该输入频谱16分离为输入基本频谱20和输入剩余频谱22。
现在参考图2,输入基本频谱20是输入频谱16中位于“基本频带”内的部分。该基本频带从较低的基本频率ko延伸到较高的停止频率kstop。实施例包括其中基本频带是从50赫兹的基本频率延伸直到7千赫兹的停止频率的实施例。
输入剩余频谱22包括输入频谱16中处于“剩余频带”的那些频率分量。剩余频带从停止频率延伸直到上限频率。在典型实施例中,上限频率对应于采样频率kNyquist的一半。
上限频率由混合降噪器10与之交互的通信网络的要求决定。示例包括8kHz、11.5kHz、16kHz和24kHz的上限频率。在与语音识别系统进行通信的那些实施例中,上限频率为8kHz。
返回参考图1,输入基本频谱20被提供给第一降噪路径24。第一降噪路径24计算限定滤波器的第一频谱系数26WDNN(k,l)。第一频谱系数26然后被提供给第一乘法器28。
第一乘法器28还接收输入基本频谱20。第一乘法器28用第一频谱系数26对输入基本频谱20进行加权,以获得在基本频带上延伸的输出基本频谱30,即,对于k∈[ko,kstop],Y(k,l)。输出基本频谱30对应于输入基本频谱20,但是噪声已被第一降噪路径24抑制。
在优选实施例中,与基本频带内的频率相对应的第一频谱系数26取一个值,该值指示在该频率下存在于输入基本频谱20中的功率是语音的可能性。因此,如果与输入基本频谱20中的频率相对应的功率肯定是噪声,则该频率的第一频谱系数26将为零。在一些实施例中,第一频谱系数26是二进制的。在其他情况下,它采用有限数量的中间值中的任何一个,这取决于输入基本频谱20的频率分量中的功率被认为是语音的程度。
第一降噪路径24包括特征提取电路32,该特征提取电路32接收输入基本频谱20并从输入基本频谱20中提取特征信息。特征提取电路32然后将代表那些特征的数据提供给动态神经网络34。动态神经网络34是已经被训练为在基本频带内操作的动态神经网络。部分基于该特征信息,动态神经网络34输出第一频谱系数26。
同时,输入剩余频谱22被提供给第二降噪路径36,该第二降噪路径36最终向第二乘法器40提供由第二频谱系数38WHybrid(k,l)限定的滤波器。第二乘法器40用第二频谱系数38对输入剩余频谱22进行加权,以获得在剩余频带上延伸的输出剩余频谱42,即,对于k∈[kstop,kNyquist],Y(k,l)。
第二降噪路径36包括噪声估计器44,该噪声估计器44接收输入剩余频谱22,并提供其中存在的噪声的估计46。该估计46与输入剩余频谱22一起被提供给滤波器计算器48。
滤波器计算器48输出包括滤波器系数50的滤波器,滤波器系数50已被选定抑制存在于输入剩余频谱22中的噪声。对应于输入剩余频谱22的频率分量的滤波器系数50取一个值,该值指示在该频率处存在的功率是语音的可能性。因此,如果对应于频率的功率肯定是噪声,那么该频率的滤波器系数50将为零。在一些实施例中,滤波器系数50是二进制的。在其他情况下,它采用有限数量的中间值中的任何一个,这取决于输入剩余频谱22的频率分量中的功率被认为是语音的程度。
在一些实施例中,滤波器计算器48通过将复值输入剩余频谱22的幅度与估计46的幅度之间的差除以复值输入剩余频谱22的幅度来获得滤波器系数50。这导致当噪声估计器44确定不存在噪声时等于1的滤波器系数50,以及当噪声估计器44将整个输入剩余频谱22视为噪声时等于零的滤波器系数50。
在特定时刻,输入基本频谱20中的噪声的发生和输入剩余频谱22中的噪声的发生不一定是独立的事件。例如,某些噪声来源(例如转向信号的咔嗒声)是宽频带的,因此应该同时存在于输入剩余频谱22和输入基本频谱20中。因此,在一些情况下,输入剩余频谱22中的噪声事件的概率是受输入基本频谱20中的并行噪声事件的检测影响的条件概率。
由于第一频谱系数26实际上是输入基本频谱20中的语音的概率的度量,因此通过将它们与滤波器系数50一起提供给加权电路52来利用它们是有用的。加权电路52基于对应的第一频谱系数26来修改滤波器系数50。所得到的修改产生第二频谱系数38。
在一个示例中,滤波器系数50指示存在语音,而第一频谱系数26指示不存在语音。在这种情况下,加权电路52对滤波器系数50行使否决权,并对滤波器系数50进行修改以指示不存在语音。这反映在第二频谱系数38中。另一个示例与前面的示例相反。
还有其他的示例是其中滤波器系数50被一些值加权,这些值指示基于第一频谱系数26的滤波器系数50表征语音的概率。在这些实施例中,第二频谱系数38是通过将相应的滤波器系数乘以区间[0,1]中的增益来获得的,即,WHybrid(k,l)=g·WConv(k,l),其中,WConv(k,l)是滤波器系数50,WHybrid(k,l)是第二频谱系数38。
一种有用的方法是基于在频率窗口(在本文中称为“控制窗口”)内的那些第一频谱系数26的多变量函数来设置前述增益,如图3所示。合适的控制窗口是从停止频率向下延伸的控制窗口。合适的实施例包括平均窗口从停止频率向下延伸1kHz的实施例,以及平均窗口从停止频率向下延伸2kHz的实施例。特别简单的多元函数是在控制窗口内的第一频谱系数26的平均值。
输出基本频谱30和输出剩余频谱42都被提供给堆叠电路54,该堆叠电路54将基本频带和剩余频带连接在一起以形成输出频谱56。逆变换电路58接收输出频谱56并执行由变换电路14执行的逆变换。在图示的实施例中,由于变换电路14执行了短时傅立叶变换,所以逆变换电路58执行短时傅立叶逆变换。这导致输出音频信号60y(n),该输出音频信号60对应于输入音频信号12,但是噪声已从基本频带和剩余频带中去除。
因此,混合降噪器10提供了两个单独且不同的降噪系统24、36,它们在两个单独且不同的频带(基本频带和剩余频带)中执行噪声降低,但是其中一个降噪系统(即第二降噪路径36)至少部分地基于从另一个降噪系统(即第一降噪路径24)导出的信息来执行噪声降低。
图4示出类似于图1中的电路的电路,但是动态神经网络34已被赋予检测输入基本频谱20中的话音存在的能力。该实施例中的动态神经网络34向加权电路52提供话音活动信号62,以允许加权电路52当鉴于在第一降噪路径24中做出的发现而修改滤波器系数50时考虑到输入基本频谱20中的话音活动的存在。
在图4中所示的实施例中,作为用于确定增益的多元函数中的自变量,可以包括指示在时间片内存在话音信号或语音的值,该值对应于用于计算增益的一组第一频谱系数26。这种附加自变量的示例包括那些包括指示话音活动或音位(phoneme)的存在的信息的示例。
如图5中所示,由图1和图4中所示的电路执行的方法64以接收步骤66开始,在接收步骤66中,从麦克风获得有噪声的信号。随后是变换步骤68,在变换步骤68中,来自音频信号的采样表示(即输入音频信号12)的有限块被变换为其频域表示,从而产生输入频谱16。输入频谱16包括对应于两个频带(基本频带和剩余频带)的输入基本频谱20和输入剩余频谱22。基本频带是各种通信网络所共有的频带,剩余频带对应于在位于基本频带之外的特定通信网络中使用的那些频率。
方法64继续进行基本频带降噪步骤70和剩余频带降噪步骤72,基本频带降噪步骤70使用动态神经网络34在输入基本频谱20上执行,剩余频带降噪步骤72使用功率频谱估计方法在剩余基本频谱22上执行。这些降噪步骤70、72不需要如图所示那样串行执行,而是也可以并行执行或以重叠的时间间隔执行。
剩余频带降噪步骤72产生某些中间结果,然后在增强步骤74期间对这些中间结果进行修改。该增强步骤74包括对在基本降噪步骤70期间由动态神经网络34发现的结果的考虑。
方法64继续滤波步骤76,在滤波步骤76中,相关滤波器被应用于输入基本频谱20和输入剩余频谱22,以分别形成对应的输出基本频谱30和输出剩余频谱42。然后在逆变换步骤78中,将得到的输出基本频谱30和输出剩余频谱42组合并变换回时域。
混合降噪器10及其操作方法共同避免了每次采用新的通信标准时训练新的动态神经网络34的需要。相反,单个动态神经网络34用于所有通信网络,以抑制所有这样的通信网络共用的频带中的噪声。动态神经网络34本来不会被训练的剩余频率然后由不需要广泛训练的不同降噪电路来处理。然而,由于动态神经网络34的输出用于通知由不同降噪系统执行的过程,因此产生了协同作用。
所示的实施例将输入频谱16分成两个频带20、22。然而,本文所描述的原理可应用于其中输入频谱16被划分成多于两个频带、不同频带由不同的降噪系统处理的实施例,其中至少两个降噪系统彼此不同,并且其中,一个降噪系统24的输出影响降噪系统36中的另一个降噪系统的操作,该另一个降噪系统在执行噪声降低的方式上不同于该一个降噪系统24。
在描述了本发明及其优选实施例之后,作为新的要求保护的且由专利权书保护的是:
Claims (19)
1.一种装置,用于通过抑制第一输入频谱(20)中的噪声和第二输入频谱(22)中的噪声来产生输出音频信号(60),所述第一输入频谱(20)和所述第二输出频谱(22)从输入音频信号(12)获得,
其中,所述第一输入频谱(20)表征第一能量,
其中,所述第二输入频谱(22)表征第二能量,
其中,所述第一能量是存在于所述输入音频信号(12)中并且在第一频带内的能量,以及
其中,所述第二能量是存在于所述输入音频信号(12)中并且在第二频带内的能量,
所述装置包括混合降噪器(10),所述混合降噪器(10)包括第一降噪路径(24)和第二降噪路径(36),
其中,所述第一降噪路径(24)接收所述第一输入频谱(20),
其中,所述第二降噪路径(36)接收所述第二输入频谱(22),
其中,所述第一降噪路径(24)被配置为通过产生用于降低所述第一输入频谱(20)中的噪声的第一噪声滤波器(26)来将第一降噪方法应用于所述第一输出频谱(20),
其中,所述第二降噪路径(36)被配置为通过产生用于降低所述第二输入频谱(22)中的噪声的第二噪声滤波器(50)来将第二降噪方法应用于所述第二输入频谱(22),以及
其中,所述第二降噪路径(36)包括加权电路(52),所述加权电路(52)至少部分地基于所述第一噪声滤波器(26)来修改所述第二噪声滤波器(50),从而生成第三噪声滤波器(38)。
2.根据权利要求1所述的装置,其中,所述混合降噪系统(10)还包括乘法器(28、40),所述乘法器(28、40)被配置为将所述第一噪声滤波器(26)应用于所述第一输入频谱(20),并将所述第三噪声滤波器(38)应用于所述第二输入频谱(22),以分别产生滤波后的第一输入频谱(30)和滤波后的第二输入频谱(42)。
3.根据权利要求1所述的装置,其中,所述混合降噪系统(10)还包括堆叠电路(54),所述堆叠电路(54)将所述滤波后的第一输入频谱(30)和所述滤波后的第二输入频谱(42)组合成输出频谱(56),所述输出频谱(56)表征噪声已被抑制的所述输入音频信号(12)的频域表示(16)。
4.根据权利要求1所述的装置,还包括变换电路(14),所述变换电路(14)接收所述输入音频信号(12),并提供所述输入音频信号(12)的频域表示,从所述频域表示获取所述第一输入频谱(20)和所述第二输入频谱(22)。
5.根据权利要求1所述的装置,还包括变换电路(14),所述变换电路(14)被配置为执行所述输入音频信号(12)的短时傅立叶变换。
6.根据权利要求1所述的装置,其中,所述混合降噪系统(10)还包括逆变换电路(58),所述逆变换电路(58)将输出频谱(56)转换为所述输出音频信号(60),所述输出频谱(56)代表噪声已被抑制的所述输入音频信号(12)的频域表示。
7.根据权利要求1所述的装置,其中,所述混合降噪系统(10)还包括逆变换电路(58),所述逆变换电路(58)执行短时傅立叶逆变换,以将输出频谱(56)转换为所述输出音频信号(60),所述输出频谱(56)代表噪声已被抑制的所述输入音频信号(12)的频域表示(16)。
8.根据权利要求1所述的装置,其中,所述第一降噪路径(24)包括动态神经网络(34),所述动态神经网络(34)基于从所述第一输入频谱(20)提取的特征产生所述第一噪声滤波器(26)。
9.根据权利要求1所述的装置,其中,所述第一降噪路径(24)被配置为提供指示所述第一输入频谱(20)中的话音活动的话音活动信号(62),并将所述话音活动信号(62)提供给所述加权电路(52)以用于修改所述第二滤波器(50)。
10.根据权利要求1所述的装置,其中,所述第一降噪路径(24)包括使用所述第一频带中的频率训练的动态神经网络(34)。
11.根据权利要求1所述的装置,其中,所述第二降噪路径(36)包括估计器(44)和滤波器计算器(48),所述滤波器计算器(48)基于由所述估计器(44)提供的噪声估计来确定所述第二噪声滤波器(50)。
12.根据权利要求1所述的装置,其中,所述加权电路(52)被配置为修改所述第二噪声滤波器(50),以使所述第三噪声滤波器(38)抑制以下噪声:如果所述第二噪声滤波器(50)被应用于所述输入剩余频谱(22)则所述第二噪声滤波器(50)不会抑制该噪声。
13.根据权利要求1所述的装置,其中,所述加权电路(52)被配置为修改所述第二噪声滤波器(50),以防止所述第三噪声滤波器(38)抑制存在于所述输入剩余频谱中的以下功率:如果所述第二噪声滤波器(50)被应用于所述输出剩余频谱(22)则所述第二噪声滤波器(50)抑制该功率。
14.根据权利要求1所述的装置,
其中,存在第一概率和第二概率,
其中,所述第一概率是语音存在于所述输入剩余频谱(22)中的概率,
其中,所述第二概率是在给定关于所述输入基本频谱(20)中存在语音的信息的情况下,语音存在于所述输入剩余频谱(22)中的条件概率,以及
其中,所述加权电路(52)被配置为基于所述第一概率和所述第二概率的函数来修改所述第二噪声滤波器(50)。
15.根据权利要求1所述的装置,其中,所述输入基本频谱具有7千赫兹的上限。
16.根据权利要求1所述的装置,其中,所述剩余基本频谱具有等于所述输入基本频谱的上限的低频带。
17.根据权利要求1所述的装置,其中,所述剩余基本频谱具有等于24千赫兹的上限。
18.根据权利要求1所述的装置,其中,所述剩余基本频谱具有等于11.5千赫兹的上限。
19.一种方法,包括降低输入音频信号中的噪声,其中,降低所述噪声包括:
将所述输入音频信号的频域表示划分成第一输入频谱和第二输入频谱,
使用第一降噪方法,生成用于降低所述第一输入频谱中的噪声的第一滤波器,从而生成第一输出频谱,
使用第二降噪方法,包括使用从已使用所述第一降噪方法获得的信息,生成用于降低所述第二输入频谱中的噪声的第二滤波器,从而生成第二输出频谱,以及
输出由已变换的频域信号形成的时域信号,所述频域信号由组合所述第一输出频谱和所述第二输出频谱产生。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163186066P | 2021-05-08 | 2021-05-08 | |
US63/186,066 | 2021-05-08 | ||
PCT/US2021/060018 WO2022240442A1 (en) | 2021-05-08 | 2021-11-19 | Noise reduction based on dynamic neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117280414A true CN117280414A (zh) | 2023-12-22 |
Family
ID=79231040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180098013.5A Pending CN117280414A (zh) | 2021-05-08 | 2021-11-19 | 基于动态神经网络的噪声降低 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4334935A1 (zh) |
CN (1) | CN117280414A (zh) |
WO (1) | WO2022240442A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403594B (zh) * | 2023-06-08 | 2023-08-18 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007053831A2 (en) * | 2005-10-31 | 2007-05-10 | University Of Florida Research Foundation, Inc. | Optimum nonlinear correntropy filter |
CN111402918B (zh) * | 2020-03-20 | 2023-08-08 | 北京达佳互联信息技术有限公司 | 一种音频处理方法、装置、设备及存储介质 |
CN112259116B (zh) * | 2020-10-14 | 2024-03-15 | 北京字跳网络技术有限公司 | 一种音频数据的降噪方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-19 EP EP21836270.5A patent/EP4334935A1/en active Pending
- 2021-11-19 WO PCT/US2021/060018 patent/WO2022240442A1/en active Application Filing
- 2021-11-19 CN CN202180098013.5A patent/CN117280414A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4334935A1 (en) | 2024-03-13 |
WO2022240442A1 (en) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8010355B2 (en) | Low complexity noise reduction method | |
US9343056B1 (en) | Wind noise detection and suppression | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
US6591234B1 (en) | Method and apparatus for adaptively suppressing noise | |
US6144937A (en) | Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information | |
EP1806739B1 (en) | Noise suppressor | |
EP1875466B1 (en) | Systems and methods for reducing audio noise | |
US8560308B2 (en) | Speech sound enhancement device utilizing ratio of the ambient to background noise | |
CN111554315B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
KR101475864B1 (ko) | 잡음 제거 장치 및 잡음 제거 방법 | |
US9343073B1 (en) | Robust noise suppression system in adverse echo conditions | |
US20140307886A1 (en) | Method And A System For Noise Suppressing An Audio Signal | |
KR20130040194A (ko) | 잔류 에코를 억제하는 방법 및 장치 | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
US7917359B2 (en) | Noise suppressor for removing irregular noise | |
Chavan et al. | Studies on implementation of wavelet for denoising speech signal | |
US9245538B1 (en) | Bandwidth enhancement of speech signals assisted by noise reduction | |
JP2000330597A (ja) | 雑音抑圧装置 | |
CN117280414A (zh) | 基于动态神经网络的噪声降低 | |
EP1286334A2 (en) | Method and circuit arrangement for reducing noise during voice communication in communications systems | |
EP1278185A2 (en) | Method for improving noise reduction in speech transmission | |
WO2020110228A1 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
US6314394B1 (en) | Adaptive signal separation system and method | |
JP3310225B2 (ja) | 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置 | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |