CN111564159A - 非线性降噪系统 - Google Patents
非线性降噪系统 Download PDFInfo
- Publication number
- CN111564159A CN111564159A CN202010088189.XA CN202010088189A CN111564159A CN 111564159 A CN111564159 A CN 111564159A CN 202010088189 A CN202010088189 A CN 202010088189A CN 111564159 A CN111564159 A CN 111564159A
- Authority
- CN
- China
- Prior art keywords
- signal
- subband
- noise reduction
- energy
- reduction threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 178
- 230000005236 sound signal Effects 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000002238 attenuated effect Effects 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 39
- 238000001914 filtration Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 239000002131 composite material Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本公开的实施方案阐述了一种将音频信号分解为一组子带信号并且检测一组信号能量值的方法,其中每个信号能量值与子带信号相关联。所述方法还包括基于至少一个子带信号生成降噪阈值,并且针对每个子带信号,将所述相关联的信号能量值与所述降噪阈值进行比较。基于确定至少一个子带信号与低于所述降噪阈值的信号能量值相关联,所述方法包括衰减所述至少一个子带信号以生成一组衰减子带信号。所述方法还包括将包括在所述组子带信号中的至少一个子带信号与包括在所述组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
Description
技术领域
本公开的实施方案整体涉及音频系统,并且更具体地涉及非线性降噪系统。
背景技术
各种自动语音识别(ASR)系统使用多种滤波和提取技术,以便辨识系统可以用来识别包括在音频信号中的语言内容的音频信号分量。ASR系统通过将一个或多个滤波器应用于音频信号来从所接收的音频信号中提取特征。然后,ASR系统将各种模型(例如,声学模型、语言模型等)应用于所提取的特征,以便确定可能已被说出的候选字词。通常,ASR系统可采用降噪系统来从输入音频信号中去除环境噪声,这在从输入音频信号中辨识候选字词时提高了准确性。
与自动语音识别技术结合使用常规降噪系统的一个缺点是,经由降噪系统处理音频信号通常会降低辨识包括在音频信号中的字词的准确性。例如,通过常规降噪技术产生的经处理的音频信号可能包括处理伪像,这可能导致ASR系统呈现“假阳性”候选字词。另外或替代地,经处理的音频信号的音频频谱的某些部分可能被去除。去除音频频谱的某些部分可能会阻止ASR系统将经处理的音频信号的适用部分辨识为语音。在这两种情况下,ASR系统都无法准确辨识包括在经处理的音频信号中的字词。
鉴于上述情况,用于降低由语音识别系统处理的音频信号中的噪声的更有效的技术将是有用的。
发明内容
本公开的实施方案阐述了一种用于降低音频信号中的噪声的方法。该方法包括将第一输入音频信号分解为第一组子带信号,并且检测第一组信号能量值,其中包括在第一组信号能量值中的每个信号能量值与包括在第一组子带信号中的一子带信号相关联。该方法还包括基于包括在第一组子带信号中的至少一个子带信号生成第一降噪阈值。该方法还包括针对包括在第一组子带信号中的每个子带信号,将与该子带信号相关联的信号能量值与第一降噪阈值进行比较。基于确定包括在第一组子带信号中的至少一个子带信号与低于第一降噪阈值的信号能量值相关联,该方法还包括衰减该至少一个子带信号以生成第一组衰减子带信号。该方法还包括将包括在第一组子带信号中的至少一个子带信号与包括在第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
另外的实施方案还提供了一种用于实现上文阐述的方法的各方面的系统和计算机可读存储介质。
所公开的技术的至少一个技术优势在于,该降噪系统可以使用也被其他音频处理系统使用的一个或多个滤波器来降低包括在音频信号中的噪声元素。因此,该降噪系统可以有效地从音频信号中去除噪声元素,使得其他音频处理系统可以更有效地处理音频信号而不会使音频信号的其他部分降级。
附图说明
为了能够详细地理解各个实施方案的上述特征,可参考各个实施方案来更具体地描述上文简要概述的发明性概念,这些实施方案中的一些在附图中示出。然而,应当注意,附图仅仅示出了发明性概念的典型实施方案,因此决不应以任何方式被认为是对范围的限制,并且存在其他同样有效的实施方案。
图1示出了被配置为实现本公开的一个或多个方面的降噪系统的框图。
图2示出了根据本公开的各个实施方案的用于经由图1的降噪系统产生复合输出音频信号的降噪应用程序的框图。
图3示出了根据本公开的各个实施方案的可由图1的降噪系统实现以对输入音频信号进行滤波的曲线图。
图4示出了根据本公开的各个实施方案的可由图1的降噪系统实现以确定经滤波音频信号的一部分的能量的曲线图。
图5示出了根据本公开的各个实施方案的可由图1的降噪系统实现以衰减经滤波音频信号的曲线图。
图6示出了根据本公开的各个实施方案的可由图1的降噪系统实现以生成复合输出音频信号的曲线图。
图7是根据本公开的各个实施方案的用于经由图1的降噪系统生成复合输出音频信号的方法步骤的流程图。
具体实施方式
在以下描述中,阐述了许多特定细节以提供对各个实施方案的更透彻理解。然而,对本领域技术人员而言将显而易见的是,可在没有这些特定细节中的一者或多者的情况下实践发明性概念。
图1示出了被配置为实现本公开的一个或多个方面的降噪系统的框图。降噪系统100包括计算设备110和一个或多个输入/输出(I/O)设备114。计算设备110包括处理单元112和存储器116。存储器116存储降噪应用程序162和数据存储区164。
在操作中,处理单元112接收输入音频信号130。处理单元112执行降噪应用程序162以去除包括在输入音频信号130中的噪声元素并合成输出音频信号140。例如,降噪应用程序162可以使用滤波器组将输入音频信号130的一部分分解为一组经滤波信号。该组经滤波信号包括与输入音频信号130的一个或多个分量相关联的一组子带信号。然后降噪应用程序162可以分析该组经滤波信号并衰减具有噪声元素的经滤波信号子集。当降噪应用程序162合成包括衰减的经滤波信号子集的输出音频信号140时,在输出音频信号140中降低和/或消除了噪声元素。在一些实施方案中,滤波器组可与一个或多个语音识别系统使用的滤波器组相对应。在这种情况下,包括在输入音频信号130中的一个或多个语音元素可包括在输出音频信号140中而没有明显的改变和/或衰减。
如上所述,计算设备110可以包括处理单元112和存储器116。计算设备110可以是包括一个或多个处理单元112的设备,诸如片上系统(SoC),或者可以是移动计算设备,诸如平板计算机、移动电话、媒体播放器等。通常,计算设备110可以被配置为协调降噪系统100的整体操作。本文公开的实施方案涵盖被配置为经由计算设备110实现降噪系统100的功能的任何技术上可行的系统。
存储器116可以包括存储器模块或存储器模块的集合。存储器116内的降噪应用程序162可以由处理单元112执行,以实现计算设备110的整体功能,从而整体上协调降噪系统100的操作。
处理单元112可包括中央处理单元(CPU)、数字信号处理单元(DSP)、微处理器、专用集成电路(ASIC)、神经处理单元(NPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)等。在一些实施方案中,处理单元112可以被配置为执行降噪应用程序162,以便合成去除一个或多个噪声元素的输出音频信号140。
在各个实施方案中,降噪应用程序162可将输入音频信号分解为一组经滤波信号。降噪应用程序162可以分析与每个经滤波信号相关联的信号能量,并基于检测到的信号能量调节噪声阈值。然后降噪应用程序162可以衰减信号能量低于经调节的噪声阈值的经滤波信号子集。该经滤波信号子集具有与噪声元素相关联的信号能量。当降噪应用程序162合成输出音频信号140时,由于衰减而去除了噪声元素。在一些实施方案中,降噪应用程序162可连续接收和处理输入音频信号130。例如,降噪应用程序162可实时接收输入音频信号130并实时处理输入音频信号。在这种情况下,降噪应用程序162可将输入音频信号130分离为单独的时间片,并连续处理输入音频信号130的一个或多个时间片。
数据存储区164可以存储由处理单元112检索的值和其他数据,以协调降噪系统100的操作。在操作期间,处理单元112可以被配置为将值存储在数据存储区164中并/或检索存储在数据存储区164中的值。例如,数据存储区164可以存储噪声阈值、检测到的能量值、经滤波信号、衰减的经滤波信号、能量差、阈值指示符等。
一个或多个I/O设备114可包括能够接收输入的设备,诸如键盘、鼠标、触敏屏、麦克风等,以及能够提供输出的设备,诸如显示屏、扬声器等。I/O设备114中的一个或多个可以合并到计算设备110中,或者可位于计算设备110的外部。在各个实施方案中,一个或多个I/O设备114包括音频输出设备,该音频输出设备再现从降噪应用程序162接收的输出音频信号140。
在一些实施方案中,I/O设备114可将输出音频信号140传输到另一系统。例如,I/O设备114可将输出音频信号140传输到诸如自动语音识别(ASR)系统、均衡系统和/或音频压缩系统等辅助系统使用的滤波器组。在这种情况下,由于去除了噪声元素,因此辅助系统可以更有效和/或更准确地处理输出音频信号140。
图2示出了根据本公开的各个实施方案的用于经由图1的降噪系统产生复合输出音频信号的降噪应用程序162的框图。如图所示,降噪应用程序162包括音频滤波组件210、信号能量检测组件222、能量差检测组件224、噪声阈值配置组件230、能量阈值确定组件236、信号衰减组件240和信号组合器组件250。
在操作期间,降噪应用程序162接收输入音频信号130。输入音频信号130包括一个或多个语音元素和一个或多个噪声元素。降噪应用程序162分析输入音频信号130并合成输出音频信号140。输出音频信号140去除和/或衰减了一个或多个噪声元素。降噪应用程序162包括硬件和/或软件,以计算与输入音频信号130的语音部分相关联的能量值,并基于计算出的能量值合成输出音频信号140。
音频滤波组件210包括降噪系统100的前端。音频滤波组件210接收并分解输入音频信号130以产生一组经滤波信号212(例如,212-1、212-2等)。该组经滤波信号212包括与输入音频信号130的分量相关联的一组子带信号。在一些实施方案中,音频滤波组件210可包括一个或多个模/数(A/D)转换器、一个或多个变换装置以及两个或多个滤波器的组。例如,输入音频信号130可以是时域信号。在这种情况下,包括在音频滤波组件210中的一个或多个变换装置可以将输入音频信号130转换成频域信号。另外或替代地,当输入音频信号130是模拟信号时,一个或多个A/D转换器可将输入音频信号130转换成数字信号。在一些实施方案中,输入音频信号130可以是连续音频信号。在这种情况下,降噪应用程序162可接收输入音频信号130的与特定时间片相对应的部分。例如,降噪应用程序162可以连续接收输入音频信号130的两秒时间片。然后降噪应用程序162可以将输出音频信号140合成为一系列音频信号,每个音频信号具有固定的持续时间(例如,长度为两秒)。
音频滤波组件210包括滤波器组,该滤波器组将输入音频信号130分解为一组经滤波信号212。该组经滤波信号212包括与输入音频信号130的分量相关联的一组子带信号。例如,音频滤波组件210可以包括三个滤波器的滤波器组。滤波器组可以将输入音频信号130分解为一组经滤波信号212-1、212-2、212-3,这些经滤波信号与输入音频信号130的子频带相对应。例如,滤波器组可以包括一定数量的n阶滤波器,诸如一组20个四阶带通滤波器。
另外或替代地,包括在滤波器组中的该组滤波器可与一个或多个其他音频处理系统使用的一组滤波器相对应。例如,包括在音频滤波组件210中的滤波器组可以与自动语音识别系统、均衡系统和/或音频压缩系统使用的滤波器组相对应。当包括在音频滤波组件210中的滤波器组与另一系统使用的滤波器组相对应时,音频滤波组件210可从所述一个或多个其他系统检索滤波器操作特征(例如,中心频率、增益、Q因子等)。例如,当ASR系统和降噪系统100各自使用梅尔(mel)滤波器组时,降噪应用程序162可以从ASR系统检索滤波器特征,诸如限定各个滤波器的频率范围的梅尔频率倒谱系数(MFCC)。然后降噪应用程序162可以将滤波器组配置为包括所检索的特征。
信号能量检测组件222计算包括在该组经滤波信号212中的每个经滤波信号212-1的信号能量值。信号能量检测组件222从音频滤波组件210接收该组经滤波信号212,并确定一组对应的检测到的能量值223(例如,223-1、223-2等)。例如,信号能量检测组件222可以接收针对给定时间片的经滤波信号212-1,并计算信号能量值,诸如平均功率。在另一个示例中,信号能量检测组件222可以计算给定时间片内的经滤波信号212-1的均方根(RMS)值。
在一些实施方案中,信号能量检测组件222可针对不同频率范围使用不同时间常数。例如,信号能量检测组件222可以使用与音频滤波组件210的滤波器组中的每个滤波器相关联的不同时间常数。另外或替代地,信号能量检测组件222可检测经滤波信号212-1的多个能量值223。例如,信号能量检测组件222可以针对不同时间范围连续计算经滤波信号212-1的多个RMS值。在这种情况下,信号能量检测组件222存储最低RMS值,并将该最低RMS值作为检测到的能量值223-1发送到能量差检测组件224。
能量差检测组件224从信号能量检测组件222接收该组检测到的能量值223,并基于比较该组检测到的能量值223生成一个或多个能量差225(例如,225-1、225-2等)。例如,能量差检测组件224可以通过将与经滤波信号212-1相对应的检测到的能量值223-1和与经滤波信号212-2相对应的检测到的能量值223-2进行比较来计算能量差225-1。另外或替代地,能量差检测组件224可从该组能量差225中选择单个能量差225-1,并将所选能量差225-1传输到噪声阈值配置组件230。
在各个实施方案中,能量差检测组件224可计算多个能量差225,其中每个能量差225-1与一对相邻的经滤波信号212-1、212-2相对应。在这种情况下,能量差检测组件224可将该组计算出的能量差225中最大的计算出的能量差确定为所选能量差225-1。例如,表1示出了与由包括在音频滤波组件210中的滤波器组分解的一组经滤波信号212相对应的一组示例能量差225。
滤波器 | 信号能量值 | 信号能量值差 |
滤波器1 | 0.803 | N/A |
滤波器2 | 0.720 | 0.083 |
滤波器3 | 0.105 | 0.615 |
滤波器4 | 0.630 | 0.525 |
滤波器5 | 0.422 | 0.208 |
表1:相邻滤波器中信号的能量差
在以上示例中,能量差检测组件224可以将最大信号能量值差(0.615)确定为所选能量差225-1。能量差检测组件224可以将所选能量差225-1传输到噪声阈值配置组件230。
噪声阈值配置组件230从能量差检测组件224接收所选能量差225-1。噪声阈值配置组件230还接收初始噪声阈值232。噪声阈值配置组件230通过基于所选能量差225-1的值修改初始噪声阈值232来生成经调节的噪声阈值234。例如,噪声阈值配置组件230可以将所选能量差225-1的绝对值乘以缩放因子以产生缩放差。然后噪声阈值配置组件230可以将该缩放差添加到初始噪声阈值232。在这种情况下,基于与该组经滤波信号212相关联的该组计算出的能量差提高了经调节的噪声阈值234的值。
在一些实施方案中,噪声阈值配置组件230可设置一个或多个初始噪声阈值232。例如,噪声阈值配置组件230可以设置不同的初始噪声阈值232(例如,232-1、232-2等),每个初始噪声阈值与滤波器组中的特定滤波器和特定的经滤波信号212-1相对应。在这种情况下,噪声阈值配置组件230可以接收与每个特定滤波器和/或该组经滤波信号212相关联的最小能量值233-1。然后噪声阈值配置组件230可以设置不同的初始噪声阈值232。针对每个不同的初始噪声阈值232,噪声阈值配置组件230通过添加基于所选能量差225-1的缩放差来生成经调节的噪声阈值234。
能量阈值确定组件236接收经调节的噪声阈值234以及信号能量检测组件222计算出的该组检测到的能量值223。能量阈值确定组件236相对于经调节的噪声阈值234评估包括在该组检测到的能量值223中的检测到的能量值223-1。在一些实施方案中,能量阈值确定组件236将检测到的能量值223-1和与经滤波信号212-1相对应的经调节的噪声阈值234-1进行比较。
当能量阈值确定组件236确定检测到的能量值223-1低于经调节的噪声阈值234时,能量阈值确定组件236生成与经滤波信号212-1相对应的阈值指示237。否则,能量阈值确定组件236不生成与经滤波信号212-1相对应的任何阈值指示。在这种情况下,降噪应用程序162不改变经滤波信号212-1。
信号衰减组件240包括一个或多个滤波器,这些滤波器改变包括在该组经滤波信号212中的经滤波信号子集。信号衰减组件240接收一个或多个阈值指示237(例如,237-1、237-2等),其中每个阈值指示237-2与特定的经滤波信号212-2相对应。特定的经滤波信号212-2的阈值指示237-2指示经滤波信号212-2的检测到的能量值233-2低于经调节的噪声阈值234。信号衰减组件240通过改变经滤波信号212-2来响应给定的经滤波信号212-2的阈值指示237-2。信号衰减组件240生成一组衰减的经滤波信号242,这些衰减的经滤波信号是与输入音频信号130的分量相关联的衰减子带信号。
在一些实施方案中,信号衰减组件240可通过将滤波器应用于滤波信号212-2来衰减该信号,以便降低经滤波信号212-2的能量。另外或替代地,信号衰减组件240可将衰减因子应用于经滤波信号。例如,信号衰减组件240可以将经滤波信号212-2乘以零,使得所得的衰减的经滤波信号242的能量可忽略。在另一个示例中,信号衰减组件240可以将经滤波信号乘以特定常数(例如,0.25),以将经滤波信号212-2的能量水平降低恒定值。
信号组合器组件250组合该组经滤波信号212、242。信号组合器组件250包括滤波器组,该滤波器组对一组信号212、242进行合成,以便生成输出音频信号140。在一些实施方案中,信号组合器组件250包括与包括在音频滤波组件210中的滤波器组相同的滤波器组。信号组合器组件250从音频滤波组件210接收未改变的经滤波信号子集212,并从信号衰减组件240接收衰减的经滤波信号子集242(例如,242-1、242-2等)。信号组合器组件250组合经滤波信号子集212、242,以便合成输出音频信号140。例如,信号组合器组件250可以组合针对给定时间片的包括在未改变的经滤波信号子集212和/或衰减的经滤波信号子集242中的各个经滤波信号,使得输出音频信号140包括针对给定时间片的完整音频频谱。
在一些实施方案中,包括在子集212、242中的一个或多个经滤波信号具有重叠的频率范围。在这种情况下,对于特定的重叠频率范围,信号组合器组件250可选择具有最高检测到的能量值233-1、233-2的经滤波信号212-1、242-2。另外或替代地,信号组合器组件250可选择未改变的经滤波信号212-1代替衰减的经滤波信号242-2。
图3示出了根据本公开的各个实施方案的可由图1的降噪系统实现以对输入音频信号进行滤波的曲线图。如图所示,曲线图300示出了梅尔滤波器组310(例如,310-1、310-2等)的幅度图。频率值沿x轴,并且幅度值沿y轴。
在操作中,包括在梅尔滤波器组310中的滤波器310-1、310-2分解输入音频信号130并对其进行滤波,以便产生该组经滤波信号212。在各个实施方案中,梅尔滤波器组310包括在音频滤波组件210中。例如,滤波器组310可以包括一组21个或更多个梅尔滤波器,这些滤波器处理输入音频信号130在60Hz至8kHz的频率范围内的部分。另外或替代地,包括在梅尔滤波器组310中的一个或多个滤波器可重叠。在这种情况下,两个滤波器都可处理输入音频信号130的重叠频率范围并对其进行滤波。在一些实施方案中,其他组滤波器可以用作音频滤波组件210的滤波器组。例如,音频滤波组件210可以使用巴克(Bark)滤波器组,该巴克滤波器组包括处理0Hz至16kHz的频率范围的一组30个巴克滤波器。在一些
曲线图300示出了包括在梅尔滤波器组310中的两个梅尔滤波器310-1、310-2。梅尔滤波器组310中的每个梅尔滤波器310-1、310-2处理输入音频信号130的与带宽314、324相对应的特定频率范围。在各个实施方案中,每个梅尔滤波器310-1、310-2可具有不同带宽。例如,处理较高频率的梅尔滤波器310-2可具有比处理较低频率的梅尔滤波器310-1的带宽314更大的带宽324。如图所示,梅尔滤波器310-1的中心频率312为300Hz,带宽314为65Hz。因此,梅尔滤波器310-1处理输入音频信号130在267Hz-333Hz频率范围内的部分。类似地,梅尔滤波器310-2的中心频率322为2000Hz,带宽324为520Hz。因此,梅尔滤波器310-2处理输入音频信号130在1478Hz-2260Hz频率范围内的部分。
在各个实施方案中,除降噪系统100之外,其他系统也可使用梅尔滤波器组310。例如,自动语音识别系统可对输入音频信号130和/或输出音频信号140使用梅尔滤波器组310,以便从正被滤波的音频信号中提取特征。
图4示出了根据本公开的各个实施方案的可由图1的降噪系统实现以确定经滤波音频信号的一部分的能量的曲线图。如图所示,曲线图400示出了包括在该组经滤波信号212中的经滤波信号410的幅度图。频率值沿x轴,并且幅度值沿y轴。
在操作中,信号能量检测组件222从音频滤波组件210接收经滤波信号410,并确定一个或多个信号能量值422-426。在各个实施方案中,信号能量检测组件222可确定与经滤波信号410相关联的多个信号能量值422-426。信号能量值422-426中的每一个可与不同时间范围相对应。例如,随着时间推移接收到输入音频信号130的更多部分时,信号能量检测组件222可计算运行信号能量值。
信号能量检测组件222可与经滤波信号410相关联地存储特定信号能量值,诸如最小信号能量值426、最大信号能量值422和/或总平均信号能量值424。在一些实施方案中,随着与经滤波信号410相关联的时间范围发生变化,信号能量检测组件222可更新信号能量值422-426中的一个或多个。另外或替代地,信号能量检测组件222可作为检测到的能量值223而传输信号能量值422-426中的一个或多个。例如,信号能量检测组件222可将最小能量值426传输到能量差检测组件224,并且可将最大信号能量值422和/或总平均信号能量值424传输到能量阈值确定组件236。
图5示出了根据本公开的各个实施方案的可由图1的降噪系统实现以衰减经滤波音频信号的曲线图。如图所示,曲线图300示出了与经调节的噪声阈值234相比较的经滤波信号510的幅度图。频率值沿x轴,并且幅度值沿y轴。
在操作中,能量阈值确定组件236可将与经滤波信号510相关联的一个或多个信号能量值与经调节的噪声阈值234进行比较。在一些实施方案中,经调节的噪声阈值234可以是与经滤波信号510相关联的不同的经调节的噪声阈值234-2。例如,噪声阈值配置组件230可通过首先生成基于最小能量值524的初始噪声阈值232-2来生成经调节的噪声阈值234-2。
能量阈值确定组件236将经滤波信号的信号能量值与经调节的噪声阈值234进行比较。例如,能量阈值确定组件236可以将总平均信号能量值522与经调节的噪声阈值234进行比较。如图所示,总平均信号能量值522低于经调节的噪声阈值234。在这种情况下,能量阈值确定组件236通过生成阈值指示237-2并将阈值指示237-2传输到信号衰减组件240来响应该确定。
图6示出了根据本公开的各个实施方案的可由图1的降噪系统实现以生成复合输出音频信号的曲线图。如图所示,曲线图600示出了针对给定时间片的输入音频信号130的一部分610(“输入部分610”)和输出音频信号140的对应部分620(“输出部分620”)的幅度图。频率值沿x轴,并且幅度值沿y轴。
在操作中,降噪应用程序162通过分析输入部分610并降低包括在输入部分610中的一个或多个噪声元素来产生输出部分620。在各个实施方案中,信号组合器组件250通过从该组经滤波信号212接收一组衰减的经滤波信号242和一组未改变的信号来合成输出音频信号140。信号组合器组件250包括滤波器组,该滤波器组对一组信号212、242进行合成,以便生成输出音频信号140。
如图所示,例如,输入部分610包括与包括在该组经滤波信号212中的一个或多个经滤波信号相对应的一个或多个子带。一个或多个子带可以包括各种噪声元素。能量阈值确定组件236可以将输入部分610与经调节的噪声阈值234进行比较,并使信号衰减组件240衰减一个或多个子带的子集,以便生成该组衰减的经滤波信号242。然后信号组合器组件250可对该组衰减的经滤波信号242和未改变的经滤波信号子集212进行合成,以便生成输出部分620。由于某些子带的衰减,因此包括在输入部分610的频谱中的一个或多个噪声元素不会出现在输出部分620的频谱中。
图7是根据本公开的各个实施方案的用于经由图1的降噪系统生成复合输出音频信号的方法步骤的流程图。尽管所述方法步骤是相对于图1至图6的系统而描述的,但本领域技术人员应当理解,被配置为以任何次序执行所述方法步骤的任何系统均落在各个实施方案的范围内。在一些实施方案中,降噪应用程序162可实时对输入音频信号130连续执行方法700。
如图所示,方法700从步骤701开始,在步骤701中,降噪应用程序162使用滤波器组对输入音频信号130进行滤波。包括在降噪应用程序162中的音频滤波组件210接收输入音频信号130。在一些实施方案中,输入音频信号130是输入音频信号的与特定时间片相对应的部分。另外或替代地,降噪应用程序162可连续接收输入音频信号的与另外的时间片相对应的部分并对其进行滤波。在一些实施方案中,音频滤波组件210包括一个或多个变换组件以生成输入音频信号130的频域版本。音频滤波组件210包括一个或多个滤波器,这些滤波器将输入音频信号130分解为一组经滤波信号212。在一些实施方案中,音频滤波组件210包括梅尔滤波器组310,其中梅尔滤波器组310中的每个梅尔滤波器310-1处理输入音频信号130的特定频率范围。
在步骤703,降噪应用程序162确定由音频滤波组件210生成的该组经滤波信号212的能量值223。包括在降噪应用程序162中的信号能量检测组件222从音频滤波组件210接收该组经滤波信号212。针对每个经滤波信号212-1,信号能量检测组件222确定对应的检测到的能量值223-1。例如,信号能量检测组件222可以将经滤波信号212-1的信号能量的RMS值计算为检测到的能量值223-1。
在步骤705,降噪应用程序162基于经滤波信号的能量值设置噪声阈值。降噪应用程序162基于由信号能量检测组件222提供的该组检测到的能量值223生成一个或多个经调节的噪声阈值234。在一些实施方案中,降噪应用程序计算该组经滤波信号212的一个或多个初始噪声阈值232。在各个实施方案中,降噪应用程序162计算与该组检测到的能量值223相关联的一组能量差225。然后降噪应用程序162使用至少所选能量差225-1,以便生成经调节的噪声阈值234。
包括在降噪应用程序162中的能量差检测组件224接收该组检测到的能量值223并生成一组能量差225。例如,能量差检测组件224可以通过将与经滤波信号212-1相对应的第一检测到的能量值223-1和与经滤波信号212-2相对应的第二检测到的能量值223-2进行比较来计算能量差225-2。在一些实施方案中,能量差检测组件224可以基于比较与相邻的经滤波信号212相关联的多组检测到的能量值223(例如,通过比较由滤波器组中的相邻滤波器产生的经滤波信号212-3、212-4)来计算该组能量差225。在这种情况下,能量差检测组件224可以输出与该组能量差225中最大的计算出的能量差225-3相对应的所选能量差225-1。
噪声阈值配置组件230接收所选能量差225-1和初始噪声阈值232。噪声阈值配置组件230通过基于所选能量差225-1的值修改初始噪声阈值232来生成经调节的噪声阈值234。例如,噪声阈值配置组件230可以将所选能量差225-1乘以缩放因子以生成缩放差,然后将该缩放差添加到初始噪声阈值232。在一些实施方案中,噪声阈值配置组件230可生成一组初始噪声阈值232。在这种情况下,噪声阈值配置组件230可生成一组经调节的噪声阈值234,每个经调节的噪声阈值与单独的初始噪声阈值232相对应。
在步骤707,降噪应用程序162确定滤波器中的音频信号的能量是否低于噪声阈值。包括在降噪应用程序162中的能量阈值确定组件236接收经调节的噪声阈值234以及信号能量检测组件222计算出的该组检测到的能量值223。能量阈值确定组件236利用经调节的噪声阈值234评估包括在该组检测到的能量值223中的每个检测到的能量值223-2。在一些实施方案中,当噪声阈值配置组件230生成一组经调节的噪声阈值234时,能量阈值确定组件236可将每个检测到的能量值223-2与其对应的经调节的噪声阈值234-2进行比较。
当能量阈值确定组件236确定检测到的能量值223-2低于经调节的噪声阈值234时,能量阈值确定组件236生成与经滤波信号212-2相对应的阈值指示237。在能量阈值确定组件236将阈值指示237传输到信号衰减组件240之后,降噪应用程序162进行到步骤709。否则,降噪应用程序162进行到步骤711,在步骤711中,降噪应用程序162不改变与高于经调节的噪声阈值234的检测到的能量值223-1相对应的经滤波信号212-1。
在步骤709,降噪应用程序162改变经滤波信号。包括在降噪应用程序162中的信号衰减组件240从能量阈值确定组件236接收特定的经滤波信号212-2的检测到的能量值233-2低于经调节的噪声阈值234的阈值指示237。信号衰减组件240通过改变对应的经滤波信号212-2来响应阈值指示237。在一些实施方案中,信号衰减组件240可通过将滤波器应用于滤波信号来衰减该信号,以便降低经滤波信号212-2的能量。另外或替代地,信号衰减组件240可将衰减因子应用于经滤波信号。例如,信号衰减组件240可将经滤波信号212-2乘以零,使得所得的衰减的经滤波信号242没有能量。在另一个示例中,信号衰减组件240可将经滤波信号乘以特定常数(例如,0.25),以将经滤波信号212-2的能量水平降低恒定值。
在步骤713,降噪应用程序162组合经滤波音频信号。包括在降噪应用程序162中的信号组合器组件250从音频滤波组件210接收未改变的经滤波信号子集212,并从信号衰减组件240接收衰减的经滤波信号子集242。信号组合器组件250组合经滤波信号子集212、242,以便合成输出音频信号140。例如,信号组合器组件250可以对经滤波信号212、242进行合成,使得输出音频信号140包括针对给定时间的完整音频频谱。在一些实施方案中,一个或多个经滤波信号212、242具有重叠的频率范围。在这种情况下,对于特定的重叠频率范围,信号组合器组件250可以选择具有最高检测到的能量的经滤波信号212、242。另外或替代地,信号组合器组件250可选择未改变的经滤波信号212代替衰减的经滤波信号242。
总之,降噪系统接收输入音频信号并分解该音频信号的某些部分,从而生成一组经滤波信号。在一些实施方案中,降噪系统可采用用于处理语音的音频信号的滤波器组,诸如梅尔滤波器组。降噪系统检测与每个经滤波信号相关联的一组信号能量。降噪系统比较相邻的经滤波信号的该组检测到的信号能量,以计算一组能量差。降噪系统基于计算出的能量差中的至少一个来修改噪声阈值。在一些实施方案中,降噪系统首先确定任何相邻的经滤波信号之间的最大能量差,然后基于该最大能量差增加初始噪声阈值以产生经调节的噪声阈值。
降噪系统将该组检测到的信号能量与经调节的噪声阈值进行比较。基于该比较,降噪系统改变与检测到的信号能量相对应的经滤波信号。在一些实施方案中,当经滤波信号的检测到的能量低于经调节的噪声阈值时,降噪系统衰减该经滤波信号。降噪系统组合该组信号(包括一个或多个衰减的经滤波信号),以合成输出音频信号。
所公开的技术的至少一个技术优势在于,该降噪系统可以使用也被其他音频处理系统使用的一个或多个滤波器来降低包括在音频信号中的噪声元素。因此,该降噪系统可以有效地从音频信号中去除噪声元素,使得其他音频处理系统可以更有效地处理音频信号而不会使音频信号的其他部分降级。
1.在一些实施方案中,一种用于降低音频信号中的噪声的方法包括:将第一输入音频信号分解为第一组子带信号;检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;基于包括在所述第一组子带信号中的至少一个子带信号生成第一降噪阈值;针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值与所述第一降噪阈值进行比较;基于确定包括在所述第一组子带信号中的至少一个子带信号与低于所述第一降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
2.如条款1所述的方法,其还包括确定包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差,其中基于所述至少一个子带信号生成所述第一降噪阈值包括基于所述第一能量差生成所述第一降噪阈值。
3.如条款1或2所述的方法,其中基于所述第一能量差生成所述第一降噪阈值包括将所述第一能量差与初始降噪阈值组合。
4.如条款1-3中任一项所述的方法,其中生成所述第一降噪阈值包括:比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与包括在所述第一组子带信号中的子带信号相关联并且由相邻滤波器生成;针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且从所述第一组能量差中选择最大能量差,其中所述第一降噪阈值是基于所述最大能量差。
5.如条款1-4中任一项所述的方法,其还包括:针对包括在所述第一组子带信号中的每个子带信号,生成与所述子带信号相关联的初始降噪阈值;针对每个初始降噪阈值,生成与所述子带信号相关联的经调节的降噪阈值,其中所述经调节的降噪阈值是基于所述初始降噪阈值以及包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差;针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值和与所述子带信号相关联的所述经调节的降噪阈值进行比较;并且基于确定包括在所述第一组子带信号中的至少一个子带信号与低于与所述至少一个子带信号相关联的经调节的降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号。
6.如条款1-5中任一项所述的方法,其还包括:接收初始输入信号,其中所述初始输入信号是连续时域音频信号;并且变换所述初始输入信号以生成所述第一音频输入信号,其中所述第一音频输入信号是所述初始输入信号的频域表示。
7.如条款1-6中任一项所述的方法,其中包括在所述第一组信号能量值中的第一信号能量值是第一子带信号的均方根(RMS)值。
8.如条款1-7中任一项所述的方法,其中将所述第一输入音频信号分解为所述第一组子带信号包括:利用第一滤波器组分解所述第一输入音频信号,其中包括在所述第一滤波器组中的至少一子组的滤波器重叠。
9.如条款1-8中任一项所述的方法,其还包括:针对包括在所述第一组子带信号中的每个子带信号,将时间常数与所述子带信号相关联,并且基于所述相关联的时间常数确定与所述子带信号相关联的所述信号能量值。
10.在一些实施方案中,一种降噪系统包括存储器和耦合到所述存储器的处理器,其中所述处理器被配置为:经由第一滤波器组将第一输入音频信号分解为第一组子带信号;检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;基于包括在所述第一组子带信号中的至少一个子带信号生成第一降噪阈值;针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值与所述第一降噪阈值进行比较;基于确定包括在所述第一组子带信号中的至少一个子带信号与低于所述第一降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且经由所述第一滤波器组或第二滤波器组中的至少一个将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
11.如条款10所述的降噪系统,其中所述第一滤波器组或所述第二滤波器组中的至少一个包括第一组梅尔滤波器。
12.如条款10或11所述的降噪系统,其中所述处理器还被配置为将所述输出音频信号传输到语音识别系统,其中所述语音识别系统使用所述第一滤波器组。
13.如条款10-12中任一项所述的降噪系统,其中所述处理器还被配置为接收第一组梅尔频率倒谱系数(MFCC),并基于所述第一组MFCC修改所述第一组梅尔滤波器。
14.如条款10-13中任一项所述的降噪系统,其中所述处理器还被配置为:从语音识别系统接收第一组梅尔频率倒谱系数(MFCC),其中所述语音识别系统使用配置有所述第一组MFCC的所述第一滤波器组;基于所述第一组MFCC修改所述第一组梅尔滤波器;将所述输出音频信号传输到所述语音识别系统,其中所述语音识别系统从所述输出音频信号中提取一组特征。
15.如条款10-14中任一项所述的降噪系统,其中所述处理器还被配置为确定包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差,其中所述处理器被配置为通过基于所述第一能量差生成所述第一降噪阈值来基于所述至少一个子带信号生成所述第一降噪阈值。
16.如条款10-15中任一项所述的降噪系统,其中所述处理器被配置为通过将所述第一能量差与初始降噪阈值组合来基于所述第一能量差生成所述第一降噪阈值。
17.如条款10-16中任一项所述的降噪系统,其中所述处理器被配置为通过以下方式生成所述第一降噪阈值:比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与包括在所述第一组子带信号中的子带信号相关联并且由包括在所述第一滤波器组中的相邻滤波器生成;针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且从所述第一组能量差中选择最大能量差,其中所述第一降噪阈值是基于所述最大能量差。
18.在一些实施方案中,一种或多种非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤:将第一输入音频信号分解为第一组子带信号;检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;针对包括在所述第一组子带信号中的每个子带信号,生成与所述子带信号相关联的初始降噪阈值;针对每个初始降噪阈值,生成与所述子带信号相关联的经调节的降噪阈值,其中所述经调节的降噪阈值是基于所述初始降噪阈值以及包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差;针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值和与所述子带信号相关联的所述经调节的降噪阈值进行比较;并且基于确定包括在所述第一组子带信号中的至少一个子带信号与低于与所述至少一个子带信号相关联的经调节的降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
19.如条款18所述的一种或多种非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与包括在所述第一组子带信号中的子带信号相关联并且由相邻滤波器生成;针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且从所述第一组能量差中选择最大能量差,其中所述第一能量差是基于所述最大能量差。
20.如条款18或19所述的一种或多种非暂时性计算机可读介质,其中所述相邻滤波器是包括在第一滤波器组中的梅尔滤波器。
任何权利要求中所述的任何权利要求元素和/或本申请中所述的任何元素的以任何方式进行的任何和所有组合都落在本公开和保护的涵盖范围内。
已经出于说明目的呈现了对各个实施方案的描述,但是这些描述并非意图是详尽性的或限制于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对本领域普通技术人员而言将是显而易见的。
本公开实施方案的各方面可实施为一种系统、方法或计算机程序产品。因此,本公开的各方面可采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或者组合软件和硬件方面的实施方案的形式,所述软件和硬件方面在本文中通常都可以被称为“模块”或“系统”。另外,本公开中描述的任何硬件和/或软件技术、过程、功能、组件、引擎、模块或系统可实施为电路或电路组。此外,本公开的各方面可采取在一个或多个计算机可读介质中实施的计算机程序产品的形式,所述计算机可读介质具有在其上实施的计算机可读程序代码。
可利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下项:具有一条或多条电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备或者前述的任何合适的组合。在本文档的背景中,计算机可读存储介质可以是可以包含或存储供由或结合指令执行系统、装置或设备使用的程序的任何有形介质。
上文参考根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个框以及流程图和/或框图中的框组合可以由计算机程序指令来实现。可将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器。所述指令在经由计算机或其他可编程数据处理装置的处理器执行时使得能够实现在流程图和/或框图的一个或多个框中指定的功能/动作。此类处理器可以是但不限于通用处理器、专用处理器、特定应用处理器或现场可编程门阵列。
附图中的流程图和框图示出了根据本公开的各个实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言,流程图或框图中的每个框可表示代码的模块、片段或部分,所述代码包括用于实现指定逻辑功能的一个或多个可执行指令。还应当注意,在一些替代实现方式中,框中指出的功能可按不同于附图中指出的顺序发生。例如,连续示出的两个框实际上可基本上同时执行,或者这些框有时可以相反的顺序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图的每个框以及框图和/或流程图中的框组合可以由执行指定功能或动作的基于专用硬件的系统或者专用硬件与计算机指令的组合来实现。
虽然前述内容涉及本公开的多个实施方案,但是在不背离本公开的基本范围的情况下可设想本公开的其他和另外的实施方案,并且本公开的范围由所附权利要求确定。
Claims (20)
1.一种用于降低音频信号中的噪声的方法,所述方法包括:
将第一输入音频信号分解为第一组子带信号;
检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;
基于包括在所述第一组子带信号中的至少一个子带信号生成第一降噪阈值;
针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值与所述第一降噪阈值进行比较;
基于确定包括在所述第一组子带信号中的至少一个子带信号与低于所述第一降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且
将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
2.如权利要求1所述的方法,其还包括确定包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差,其中基于所述至少一个子带信号生成所述第一降噪阈值包括基于所述第一能量差生成所述第一降噪阈值。
3.如权利要求2所述的方法,其中基于所述第一能量差生成所述第一降噪阈值包括将所述第一能量差与初始降噪阈值组合。
4.如权利要求1所述的方法,其中生成所述第一降噪阈值包括:
比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与包括在所述第一组子带信号中并且由相邻滤波器生成的子带信号相关联;
针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且
从所述第一组能量差中选择最大能量差,其中所述第一降噪阈值是基于所述最大能量差。
5.如权利要求1所述的方法,其还包括:
针对包括在所述第一组子带信号中的每个子带信号,生成与所述子带信号相关联的初始降噪阈值;
针对每个初始降噪阈值,生成与所述子带信号相关联的经调节的降噪阈值,其中所述经调节的降噪阈值是基于所述初始降噪阈值以及包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差;
针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值和与所述子带信号相关联的所述经调节的降噪阈值进行比较;并且
基于确定包括在所述第一组子带信号中的至少一个子带信号与低于与所述至少一个子带信号相关联的经调节的降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号。
6.如权利要求1所述的方法,其还包括:
接收初始输入信号,其中所述初始输入信号是连续时域音频信号;并且
变换所述初始输入信号以生成所述第一音频输入信号,其中所述第一音频输入信号是所述初始输入信号的频域表示。
7.如权利要求1所述的方法,其中包括在所述第一组信号能量值中的第一信号能量值是第一子带信号的均方根(RMS)值。
8.如权利要求1所述的方法,其中将所述第一输入音频信号分解为所述第一组子带信号包括:利用第一滤波器组分解所述第一输入音频信号,其中包括在所述第一滤波器组中的至少一子组的滤波器重叠。
9.如权利要求1所述的方法,其还包括:
针对包括在所述第一组子带信号中的每个子带信号,将时间常数与所述子带信号相关联,并且
基于相关联的时间常数确定与所述子带信号相关联的所述信号能量值。
10.一种降噪系统,其包括:
存储器;以及
耦合到所述存储器的处理器,其中所述处理器被配置为:
经由第一滤波器组将第一输入音频信号分解为第一组子带信号;
检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;
基于包括在所述第一组子带信号中的至少一个子带信号生成第一降噪阈值;
针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值与所述第一降噪阈值进行比较;
基于确定包括在所述第一组子带信号中的至少一个子带信号与低于所述第一降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且
经由所述第一滤波器组或第二滤波器组中的至少一个将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
11.如权利要求10所述的降噪系统,其中所述第一滤波器组或所述第二滤波器组中的至少一个包括第一组梅尔滤波器。
12.如权利要求11所述的降噪系统,其中所述处理器还被配置为将所述输出音频信号传输到语音识别系统,其中所述语音识别系统使用所述第一滤波器组。
13.如权利要求11所述的降噪系统,其中所述处理器还被配置为:
接收第一组梅尔频率倒谱系数(MFCC);并且
基于所述第一组MFCC修改所述第一组梅尔滤波器。
14.如权利要求11所述的降噪系统,其中所述处理器还被配置为:
从语音识别系统接收第一组梅尔频率倒谱系数(MFCC),其中所述语音识别系统使用配置有所述第一组MFCC的所述第一滤波器组;
基于所述第一组MFCC修改所述第一组梅尔滤波器;
将所述输出音频信号传输到所述语音识别系统,其中所述语音识别系统从所述输出音频信号中提取一组特征。
15.如权利要求10所述的降噪系统,其中所述处理器还被配置为确定包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差,其中所述处理器被配置为通过基于所述第一能量差生成所述第一降噪阈值来基于所述至少一个子带信号生成所述第一降噪阈值。
16.如权利要求15所述的降噪系统,其中所述处理器被配置为通过将所述第一能量差与初始降噪阈值组合来基于所述第一能量差生成所述第一降噪阈值。
17.如权利要求10所述的降噪系统,其中所述处理器被配置为通过以下方式生成所述第一降噪阈值:
比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与子带信号相关联,该子带信号包括在所述第一组子带信号中的并且由包括在所述第一滤波器组中的相邻滤波器生成;
针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且
从所述第一组能量差中选择最大能量差,其中所述第一降噪阈值是基于所述最大能量差。
18.一种或多种非暂时性计算机可读介质,其包括在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
将第一输入音频信号分解为第一组子带信号;
检测第一组信号能量值,其中包括在所述第一组信号能量值中的每个信号能量值与包括在所述第一组子带信号中的一子带信号相关联;
针对包括在所述第一组子带信号中的每个子带信号,生成与所述子带信号相关联的初始降噪阈值;
针对每个初始降噪阈值,生成与所述子带信号相关联的经调节的降噪阈值,其中所述经调节的降噪阈值是基于所述初始降噪阈值以及包括在所述第一组信号能量值中的两个信号能量值之间的至少第一能量差;
针对包括在所述第一组子带信号中的每个子带信号,将与所述子带信号相关联的所述信号能量值和与所述子带信号相关联的所述经调节的降噪阈值进行比较;并且
基于确定包括在所述第一组子带信号中的至少一个子带信号与低于与所述至少一个子带信号相关联的经调节的降噪阈值的信号能量值相关联,衰减所述至少一个子带信号以生成第一组衰减子带信号;并且
将包括在所述第一组子带信号中的至少一个子带信号与包括在所述第一组衰减子带信号中的至少一个衰减子带信号组合以生成输出音频信号。
19.如权利要求18所述的一种或多种非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下步骤的指令:
比较所述第一组信号能量值中的多对信号能量值,其中每对信号能量值与包括在所述第一组子带信号中并且由相邻滤波器生成的子带信号相关联;
针对每个比较,计算能量差,其中每个能量差包括在第一组能量差中;并且
从所述第一组能量差中选择最大能量差,其中所述第一能量差是基于所述最大能量差。
20.如权利要求19所述的一种或多种非暂时性计算机可读介质,其中所述相邻滤波器是包括在第一滤波器组中的梅尔滤波器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/275,126 US11170799B2 (en) | 2019-02-13 | 2019-02-13 | Nonlinear noise reduction system |
US16/275,126 | 2019-02-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111564159A true CN111564159A (zh) | 2020-08-21 |
Family
ID=69571810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010088189.XA Pending CN111564159A (zh) | 2019-02-13 | 2020-02-12 | 非线性降噪系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11170799B2 (zh) |
EP (1) | EP3696815B1 (zh) |
KR (1) | KR20200099093A (zh) |
CN (1) | CN111564159A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170799B2 (en) * | 2019-02-13 | 2021-11-09 | Harman International Industries, Incorporated | Nonlinear noise reduction system |
US11418901B1 (en) | 2021-02-01 | 2022-08-16 | Harman International Industries, Incorporated | System and method for providing three-dimensional immersive sound |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
WO1995013660A1 (fr) * | 1993-11-09 | 1995-05-18 | Sony Corporation | Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite |
US6678656B2 (en) * | 2002-01-30 | 2004-01-13 | Motorola, Inc. | Noise reduced speech recognition parameters |
KR100477699B1 (ko) * | 2003-01-15 | 2005-03-18 | 삼성전자주식회사 | 양자화 잡음 분포 조절 방법 및 장치 |
US7260272B2 (en) * | 2003-07-10 | 2007-08-21 | Samsung Electronics Co.. Ltd. | Method and apparatus for noise reduction using discrete wavelet transform |
JP4232032B2 (ja) * | 2004-05-17 | 2009-03-04 | ソニー株式会社 | 音響装置および音響装置を用いた監視方法 |
DE112010003461B4 (de) * | 2009-08-28 | 2019-09-05 | International Business Machines Corporation | Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen |
US8473287B2 (en) * | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
US9524729B2 (en) * | 2012-02-16 | 2016-12-20 | 2236008 Ontario Inc. | System and method for noise estimation with music detection |
JP5862349B2 (ja) * | 2012-02-16 | 2016-02-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
CN104221079B (zh) * | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
US9275642B2 (en) * | 2012-11-13 | 2016-03-01 | Unified Computer Intelligence Corporation | Voice-operated internet-ready ubiquitous computing device and method thereof |
DK3155618T3 (da) * | 2014-06-13 | 2022-07-04 | Oticon As | Flerbånds støjreduktionssystem og metodologi til digitale audiosignaler |
US9467569B2 (en) * | 2015-03-05 | 2016-10-11 | Raytheon Company | Methods and apparatus for reducing audio conference noise using voice quality measures |
US10026399B2 (en) * | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US9769607B2 (en) * | 2015-09-24 | 2017-09-19 | Cisco Technology, Inc. | Determining proximity of computing devices using ultrasonic audio signatures |
US9898882B1 (en) * | 2016-08-19 | 2018-02-20 | Sony Corporation | System and method for customized message playback |
US10148912B1 (en) * | 2017-06-26 | 2018-12-04 | Amazon Technologies, Inc. | User interface for communications systems |
US10475454B2 (en) * | 2017-09-18 | 2019-11-12 | Motorola Mobility Llc | Directional display and audio broadcast |
CN108847208B (zh) * | 2018-05-04 | 2020-11-27 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
US11170799B2 (en) * | 2019-02-13 | 2021-11-09 | Harman International Industries, Incorporated | Nonlinear noise reduction system |
-
2019
- 2019-02-13 US US16/275,126 patent/US11170799B2/en active Active
-
2020
- 2020-02-10 KR KR1020200015907A patent/KR20200099093A/ko not_active Application Discontinuation
- 2020-02-11 EP EP20156605.6A patent/EP3696815B1/en active Active
- 2020-02-12 CN CN202010088189.XA patent/CN111564159A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20200099093A (ko) | 2020-08-21 |
US20200258537A1 (en) | 2020-08-13 |
US11170799B2 (en) | 2021-11-09 |
EP3696815B1 (en) | 2024-03-27 |
EP3696815A1 (en) | 2020-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sailor et al. | Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection. | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
EP3696815A1 (en) | Nonlinear noise reduction system | |
Eshaghi et al. | Voice activity detection based on using wavelet packet | |
KR100735343B1 (ko) | 음성신호의 피치 정보 추출장치 및 방법 | |
US9749741B1 (en) | Systems and methods for reducing intermodulation distortion | |
US7966179B2 (en) | Method and apparatus for detecting voice region | |
Agcaer et al. | Optimization of amplitude modulation features for low-resource acoustic scene classification | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
US10389394B2 (en) | Method and device for processing a signal | |
WO2020003534A1 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
Tazi et al. | Efficient text independent speaker identification based on GFCC and CMN methods | |
Ravuri et al. | Using spectro-temporal features to improve AFE feature extraction for ASR. | |
TW202026855A (zh) | 語音喚醒裝置及方法 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
Gasenzer et al. | Towards generalizing deep-audio fake detection networks | |
CN113012710A (zh) | 一种音频降噪方法及存储介质 | |
Tomchuk | Spectral Masking in MFCC Calculation for Noisy Speech | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
US9269370B2 (en) | Adaptive speech filter for attenuation of ambient noise | |
KR20080049385A (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
JP2863214B2 (ja) | 雑音除去装置及び該装置を用いた音声認識装置 | |
Wu et al. | Speech endpoint detection in noisy environment using Spectrogram Boundary Factor | |
KR101357381B1 (ko) | 강인한 음성 검출을 위한 신호 처리 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |