CN104704560B - 共振峰依赖的语音信号增强 - Google Patents
共振峰依赖的语音信号增强 Download PDFInfo
- Publication number
- CN104704560B CN104704560B CN201280076334.6A CN201280076334A CN104704560B CN 104704560 B CN104704560 B CN 104704560B CN 201280076334 A CN201280076334 A CN 201280076334A CN 104704560 B CN104704560 B CN 104704560B
- Authority
- CN
- China
- Prior art keywords
- formant
- speech
- signal
- spectral
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000003595 spectral effect Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 28
- 238000009499 grossing Methods 0.000 claims description 17
- 230000001629 suppression Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000007493 shaping process Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 10
- 230000009467 reduction Effects 0.000 description 29
- 230000006870 function Effects 0.000 description 25
- 238000001514 detection method Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
描述了一种用于语音信号处理的装置。接收包括语音信号分量和噪声分量的输入麦克风信号。将所述麦克风信号变换到短期谱信号的频域集中。然后,基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量。对所述谱信号应用一个或多个动态调节的增益因子,以增强所述语音共振峰分量。
Description
技术领域
本发明涉及语音信号处理中的降噪。
背景技术
常见的降噪算法对嘈杂的信号中存在的噪声类型做出假设。例如,维纳滤波器引入均方差(MSE)成本函数作为目标距离测量,以最优地最小化期望的信号与经滤波的信号之间的距离。然而,MSE不能说明人类对信号质量的感知。另外,滤波算法通常独立地应用于频率箱中的每个。因此,所有类型的信号被同等处置。这允许在许多不同情形下的良好的降噪性能。
然而,汽车环境中的移动通信情况是特殊的,这时因为它们包含语音作为它们期望的信号。行驶过程中存在的噪声的主要特征在于具有较低频率的渐增的噪声水平。语音信号处理开始于来自语音感测麦克风的输入音频信号。麦克风信号表示多个不同声源的混合物。除语音分量外,麦克风信号中的所有其他声源分量都充当不期望的噪声,所述不期望的噪声使得对语音分量的处理复杂化。在中度到高度噪声境况中从噪声分量中分离期望的语音分量尤其困难,尤其是在以高速公路行驶速度行驶的汽车客舱之内,在多名人员正在同时讲话时,或者有音频内容存在的情况下。
在语音信号处理中,麦克风信号通常首先被分割成适当大小的重叠块并对其应用窗口函数。然后使用快速傅立叶变换(FFT)将每个经开窗的信号块变换到频域中,以产生嘈杂的短期谱信号。为了降低不期望的噪声分量,同时保持语音信号尽可能自然,计算信噪比依赖(SNR:信噪比)的加权系数并将其应用于谱信号。然而,现有的常规方法使用的SNR依赖的加权规则,所述SNR依赖的加权规则在每个频率中独立地运行,并且不考虑被处理的实际语音声音的特征。
图1显示了用于语音信号降噪的典型装置。分析滤波器组102从麦克风101接收麦克风信号y(i)。y(i)包括语音分量(i)和由麦克风接收到的噪声 分量n(i)两者。参数(i)是采样索引,其识别用于麦克风信号y采样的时间段。分析滤波器组102通过应用FFT变换来将时域麦克风采样转换成频域表示帧。分析滤波器组102将滤波器系数分离成频率箱。如在附图中所指出的,麦克风信号的频域表示为Y(k,μ),其中,k表示帧索引,并且μ表示频率箱索引。将麦克风信号的频域表示提供给降噪滤波器103。在降噪滤波器中计算信噪比加权系数,从而得到滤波器系数H(kμ),并且滤波器系数和频域表示相乘,从而得到降噪信号针对帧的所有频率,在合成滤波器组中收集降噪频域信号,并且通过逆向变换(例如,逆向FFT)来传递帧。
发明内容
本发明的实施例指向用于语音信号处理的装置。可以在语音识别之前完成对语音信号的处理。该系统和方法也可以与移动电话信号一起被采用,并且更具体地在嘈杂的汽车环境中,以便提高接收的语音信号的可懂度。
接收包括语音信号分量和噪声分量的输入麦克风信号。麦克风信号被变换到短期谱信号的频域集中。然后,基于检测谱信号中的高能量密度区域来估计在谱信号之内的语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子,以增强语音共振峰分量。
包括至少一个硬件实施的计算机处理器(例如,数字信号处理器)的计算机实施的方法可以处理语音信号并且识别并提升频域中的共振峰。可以由麦克风接收具有语音信号分量和噪声分量的输入麦克风信号。
语音预处理器将麦克风信号变换到短期谱信号的频域集中。基于检测谱信号中的高能量密度区域来在谱信号之内识别出语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子,以增强语音共振峰分量。
可以基于使用线性预测编码滤波器寻找谱峰来识别和估计共振峰。也可以使用无限脉冲响应平滑滤波器来估计共振峰以使谱信号平滑。识别共振峰之后,可以使用窗口函数来提升用于共振峰被识别处的频率箱的系数。窗口函数提升并成形总体滤波器系数。然后可以对原始语音输入信号应用总体滤波器。根据共振峰检测可靠性来动态地调节用于提升的增益因子。动态地调节成形的窗口并且只将其应用于具有经识别的语音的频率箱。在本发明的某些实施例中,可以取决于信噪比来动态地调整提升窗口函数。
在本发明的实施例中,应用增益因子以过低估计噪声分量,以便减少谱信号的共振峰区域中的语音失真。额外地,增益因子可以与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
可以在具有一个或多个模块的系统之内实施共振峰检测和共振峰提升。如本文所使用的,术语模块可以意指专用集成电路或通用处理器和被存储在存储器中的相关联的源代码。每个模块可以包括一个或多个处理器。系统可以包括语音信号输入部,以用于接收具有语音信号分量和噪声分量的麦克风信号。额外地,系统可以包括信号预处理器,以用于将麦克风信号变换到的短期谱信号的频域集中。系统包括共振峰估计模块和共振峰增强模块两者。共振峰估计模块基于检测谱信号中的高能量密度的区域来估计在谱信号之内的语音共振峰分量。共振峰增强模块确定一个或多个动态调节的增益因子,所述一个或多个动态调节的增益因子应用于谱信号以增强语音共振峰分量。
附图说明
图1示出了用于语音信号降噪的典型的现有技术的装置。
图2示出了语音谱信号的曲线图,所述曲线图示出了如何识别其中的共振峰分量。
图3示出了用于确定共振峰的位置的流程图;
图3A示出了可能的提升窗口函数。
图4示出了用于语音信号降噪的本发明的实施例,所述语音信号降噪包括共振峰检测和共振峰提升。
图5示出了用于语音信号降噪的一个具体实施例的进一步详情。
图6示出了根据本发明实施例的语音信号增强方法中的各个逻辑步骤。
具体实施方式
本发明的各个实施例指向在语音信号处理中通过识别并加强在麦克风信号之内的语音共振峰来增强语音质量和可懂度的计算高效的技术。共振峰表示在特定的频率间隔(谱峰)之内的声能量的主要集中物,所述主要集中物对解读语音内容来说是重要的。共振峰的识别和加强可以与降噪算法结合使用。
图2示出了语音谱信号和可以用于识别谱峰以及(因此识别)共振峰的分量部分的曲线图。第一分量Syy表示麦克风信号的浊音(voiced)部分的功率谱密度。第二分量表示麦克风信号的噪声分量的估计功率谱密度;并且第三分量“滤波器系数”表示在噪声抑制和共振峰增大后的滤波器系数。针对该语音信号的共振峰由谱峰201来识别。
图3提供了用于共振峰识别的流程图。共振峰是信号中激励信号被共振滤波器放大的所述信号的频率部分。该激励导致与任何共振峰中心频率周围的激励功率谱密度(PSD)相比、以及与相邻频带相比更高的PSD,除非那里存在另一共振峰。假设除声道共振峰外,不存在其他显著的共振峰(例如,强的环境共振),则能够通过寻找局部高PSD带来发现共振峰。不是所有的局部高PSD带都指示共振峰。清音激励(例如,擦音)不应当被识别为共振峰。为了避免提升擦音,可以使用针对共振峰的检测的频带约束。例如,fF,最大=3500Hz。额外地,也不应当在没有语音活动的帧内发生任何提升。因此,共振峰识别还应当包括浊音激励检测器,以用于限制经搜索的帧的数目。通过减少相关的帧和频率箱的数目,这些约束减少了检测过程的计算复杂度。
如上所述,应当只在浊音语音音素期间和那些SNR(信噪比)充足的共振峰区域上加强共振峰。否则,将会放大噪声分量,这导致降低的语音质量。在第一步骤中,本发明的方法首先识别包含浊音语音的输入语音信号的频域。301为了实现这一目的,采用浊音激励检测器。可以使用任何已知的激励检测器,并且下面描述的检测器仅仅是示例性的。在一个实施例中,浊音激励检测器模块决定在多个(MF)个频率箱上的平均对数INR(输入-噪声比)是否超过了特定阈值PVUD*:
如果结果为真,则识别出语音信号。如果结果为假,则当前帧中的频率箱(这里用n来指代)不包含语音。
在识别出具有语音的帧后,可以对语音信号应用任选的平滑函数,以消除重叠的共振峰的谐波掩蔽问题。302。可以应用一阶无限脉冲响应(IIR)滤波器以用于进行平滑,尽管也可以在不脱离本发明的意图下应用其他谱平滑技术(例如,样条、快速平滑和慢速平滑等)。平滑滤波器应当被设计为提供充足的谐波作用削弱,同时不会抵消任何共振峰的最大值。
下面定义了示例性滤波器,并且该滤波器在向前方向上被应用一次并且在向后方向上被应用一次,以便保持适当的局部特性。它的形式是:
并且
利用给定的变换参数(采样频率FS=16000Hz且窗口宽度NFFT=512,发现良好的折衷数值的平滑常数是gamma_f=0.92)。这对应于针对任意短期傅立叶变换(STFT)参数的自然衰减常数:
STFT依赖的参数然后:
在平滑PSD后,通过寻找在各自的频率箱之内的经平滑的PSD的零导数来确定局部最大值303。合并零的条纹,并且如本领域普通技术人员所已知的,使用二阶导数分析来对最小值、最大值以及鞍点进行归类。在快速平滑和慢速平滑的情况下,假设最大值点为共振峰的中心频率fF(iF,n),并且共振 峰的宽度将是已知的ΔfF(iF,n)。
在识别出共振峰后,能够使用自适应增益因子来加强共振峰区域。值域为[0,1]的提升函数B(f,n),其中,值0应当表示在各自的频率箱中不存在任何共振峰,而值1应当标定共振峰的中心。
我们引入原型提升窗口函数其中
其中,定义了实际的原型窗口形状。
在任何共振峰之内,能够预计在它的中心处具有最高信噪比(SNR)。通过提升信号而对噪声的引入朝着共振峰的边界增加。因此,典型的共振峰中心周围的提升优选应当平缓地下降。图3A示出了多个可能符合此标准的窗口函数。例如,可以使用高斯函数作为原型提升窗口函数以确保平缓下降。本范例的窗口以x=0为中心并且具有统一的宽度。以x=0为中心以及统一宽度允许共同的操作空间,以便后续处理,例如,可以容易地应付窗口的拉伸和移位。
能够使用不同成形的窗口,例如,高斯、余弦以及三角窗口。能够利用不同的加权规则以提升输入信号。优选地,提升窗口强调共振峰的中心频率,并且窗口在频率范围内被拉伸。在利用快速平滑方法和慢速平滑方法的情况下,对于检测到的每个共振峰,原型窗口函数被因子w(iF,n)拉伸以匹配共振峰的宽度(如果已知的话)。否则,它应当被拉伸至约600Hz的恒定频率宽度,尽管也可以采用其他类似的频率范围。
该窗口也必须以共振峰的中心频率来移位,以匹配其在频域中的位置。提升函数被定义为经拉伸和移位的原型提升窗口函数的总和:
在本发明的其他实施例中,可以取决于共振峰估计的假定可靠性来调节成形窗口中心周围的增益值。因此,如果共振峰估计的可靠性为低,则与高可靠性的共振峰估计相比,窗口函数架构不会提升同样多的频率分量。
当不存在实际的语音时,为了避免在语音信号(例如,帧)之内检测共振峰,也能够考虑之前估计的共振峰以用于调节窗口函数。总体而言,取决于口语音素,共振峰的位置随着时间推移而缓慢变化。
图4示出了实施在系统中的共振峰提升和检测方法的实施例,其中,由麦克风接收语音信号并在将其提供给语音识别引擎或通过音频扬声器输出给收听者之前对其进行降噪处理。如图4所示,麦克风信号y(i)被传递到分析滤波器组102。在分析滤波器组102中,将采样的麦克风信号通过采用FFT转换成频域,从而得到基于子频带频率的麦克风信号的表示Y(k,μ)。如以上所表示的,该信号包括针对多个频率箱的多个帧k(例如,节段、范围、子频带)。将基于频率的表示提供给降噪模块103以及共振峰检测模块。例如,降噪模块可以包含如Klaus Linhard和Tim Haulick在“Spectral noise subtraction with recursive gaincurves”(ICSLP1998,International Conference on Spoken Language Processing)中所描述的改善的递归维纳滤波器。Linhard和Haulick参考的递归维纳滤波器可以由下面的等式来定义:
其中,α是过度估计因子,并且β是谱基底。这里,谱基底充当反馈限制和掩蔽音乐噪声的经典谱基底两者。可以由INR(fμ,n)替换以得到
为了在它的输入状态空间中找到平衡图,设定
并且
INR(fμ,n)=:INR'eq
这导致
这是减少的系统平衡图的隐式表示。能够根据系统输出H’eq来将其变换以给出INR’eq:
或给出在INR’eq域中具有两个分支的H’eq的拟函数:
该系统具有两种不同的平衡。顶部的分支在两侧都是稳定的,而较低的分支是不稳定的。离开分叉点,滤波器的输出不断向零减小,因此只要达到低输入INR滤波器就几乎完全关闭。降噪滤波器的输出H(fμ,n)表示对于帧n中的每个频率箱μ,值在0与1之间的滤波器系数。本领域普通技术人员应当理解,本发明不仅仅限于递归维纳滤波器,在不脱离本发明的意图下,可以将采用其他降噪滤波器与共振峰检测和提升进行组合。能够通过取决于共振峰提升函数而放置它们的滞后侧翼来进一步增强具有与经改善的维纳滤波器类似的反馈结构的滤波器(例如,改善的功率减法、改善的幅值减法)。能够通过取决于共振峰提升函数而在它们的输出滤波器系数上应用额外增益来增强任意的降噪滤波器(例如,Y.Ephraim,D.Malah:Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator,IEEE Trans.Acoust,Speech Signal Process,1984年,卷32,第6号,第1109-1121页)。
在确定了降噪滤波器的滤波器系数后,将该系数提供给共振峰提升器401。共振峰提升器401首先在降噪信号的谱中检测共振峰。共振峰提升器可以将所有高功率密度频带识别为共振峰,或者可以采用其他的检测算法。能够使用线性预测编码(LPC)技术以用于估计语音声音的声道信息,然后搜索LPC谱峰来执行对共振峰的检测。在一个实施例中,采用关于图3所描述的话音激励检测方法。可以通过要求共振峰之间的最小间隙来进一步增强共振峰检测。例如,在预定的频率范围(例如,300、400、500或600Hz)之内识别的峰可以被认为是相同的共振峰,而在频率范围之外的是不 同的共振峰。两个相邻的共振峰之间的合理距离是它们的平均宽度的80%的部分。额外地,为了避免提升具有过多噪声的区中的共振峰,可以在每个共振峰之内存在的平均INR(输入-噪声比)上设定进一步的要求。在识别了包括共振峰的频率箱后,频率提升模块401将提升该共振峰的频率,特别是该共振峰的中心频率(例如,针对该频率箱的相对最大频率)。为了执行所述的共振峰依赖的放大,多个提升函数B(fμ,n)的B最大被加到滤波器系数。B最大是在共振峰的中心所期望的最大放大。
在共振峰的各自频率箱之内提升共振峰之后,所得到的滤波器系数H(k,μ)与数字麦克风信号进行卷积,从而得到经降噪和共振峰提升的信号 该信号(其仍然在频域中并且包括频率箱和时间帧)被传递到合成滤波器组,以将该信号变换到时域中。所得到的信号表示原始语音信号的增大版本,并且应当被更好地定义,以便使随后的语音识别引擎(未示出)能够识别该语音。
图4示出了本发明的实施例,其中,在通过降噪滤波器降噪之后执行共振峰提升。通过执行该后降噪滤波方法实现了一定的效益。具有良好信噪比的任何频率箱使共振峰被加强。通过加强信号部分而不是加强噪声,提高了可懂度。共振峰的后滤波提升对将被周围噪声掩蔽的语音信号分量进行提升。由于提升了该信号并且增加了功率,因此与对应的经常规降噪的信号相比,共振峰提升的信号更加响亮。在某些情形中,如果超过了系统的动态范围,则这能够导致裁剪。更重要的是,共振峰频带中的语音信号的总体功率的增长与其在擦音频带中的功率有关。共振峰的中心与没有共振峰的频带之间的功率对比度是由最大放大B最大来确定的。功率对比度负责提高可懂度并且不应当被降低。相反,在选择性放大之后,能够将潜在地包含共振峰的频带(高达fF,最大=3500Hz)作为一个整体进行削弱。能够使经提升的信号与未经提升的信号之间的功率的预计差异相对地降低,优选等于零。
与以上描述的在降噪滤波器之后提升共振峰的过程相反,也能够应用所公开的共振峰检测方法和提升,作为预处理阶段或作为常规噪声抑制滤波器的部分。该方法过低估计共振峰区域中的背景噪声,并且能够用于取决于共振峰来任意地控制滤波器的参数。在该方法中,噪声抑制滤波器被 驱使提供对共振峰的承认,如果所有的频率箱都被同等处置,则所述共振峰通常将被削弱。因此,噪声抑制滤波器操作地不太积极,因此它在某种程度上降低了语音失真。如先前所指示的,在本发明的一些实施例中,可以将递归维纳滤波器用作噪声抑制滤波器。当递归维纳滤波器有效地降低了音乐噪声时,它也在低INR处削弱了语音。对滤波器的特性中的滞后边缘或侧翼的放置确定了在哪些INR信号处向下削弱到谱基底。侧翼的适当放置将引起音乐噪声抑制与语音信号保真度之间的良好平衡。期望根据情形来修改侧翼的位置。在仅有噪声的区(这里使用术语“区”来描述时间跨度以及频带)中,音乐噪声抑制应当保持普遍存在,而在具有语音信号分量的区(例如,共振峰)中,保留语音信号变得更加重要。通过以共振峰的形式检测重要的语音分量,在两者之间得到良好的加权函数。对于递归维纳滤波器,在边缘或侧翼处,INR滤波器关闭(INReq,关闭)或打开(INReq,打开)由下式给出:
INReq,关闭(α)=4α
并且
该系统能够根据侧翼所期望的INR被重新布置以描述参数α和β:
能够通过选择足够的过高估计α和谱基底β来独立地放置侧翼。例如,如果选择β任意小以将向上的侧翼朝向更高的INR移动,则这也将导致非常低的最大削弱,这可能是不期望的。这可以通过引入单独的参数H最小来消除,所述参数H最小不会有助于反馈,但至少限制输出削弱。所提出的系统由下式描述:
并且
该滤波器能够比常规的递归维纳滤波器更好地被调整适应不同的状况。能够通过定义默认侧翼位置和它们所期望的共振峰中心中的最大偏差来在该设置中投入使用提升函数。然后,根据存在的共振峰在每一帧中更新针对每一箱的滤波器参数:
并且
其中,B(fμ,n)是共振峰提升窗口函数。能够如以上所描述的那样确定共振峰,并且也可以从任何数目的窗口函数(包括高斯、三角以及余弦等)中选择提升窗口函数。
如果在降噪之前或在降噪的同时提升共振峰,则对共振峰的加强不超出0dB。额外地,具有良好信噪比的箱中的共振峰没有被进一步改善。而且,提供所述提升预降噪滤波潜在地引入额外的噪声。如果在预降噪滤波之前执行提升,则可以发生可听见的语音改善,尤其是在较低的频率中。
图5示出了用于语音信号降噪的一个具体实施例的进一步详情。分析滤波器组102将麦克风信号转换到频域中。将麦克风信号的频域版本传递到噪声估计模块501以及麦克风估计模块502,所述麦克风估计模块502估计该麦克风信号的短时功率密度。将麦克风信号估计和噪声信号估计的短时功率密度提供给共振峰检测模块505。共振峰提升模块使用噪声估计以检测浊音语音活动并且计算从提升过程中排除不良INR共振峰所需的估计INR。共振峰检测模块404可以执行图2中示出的信号分析,其中,根据麦 克风信号的短时功率密度中的谱强度的峰来识别共振峰。短时功率密度和噪声估计信号还指向降噪滤波器503。可以采用任意数目的降噪算法以用于确定降噪系数。降噪系数被传递到共振峰提升器模块505,所述共振峰提升器模块505使用开窗函数提升与所识别的共振峰有关的系数。然后,通过使用例如两个滤波器系数的最大值,所得到的共振峰提升的增益系数能够与常规的噪声抑制滤波器进行组合。因此,能够实现改善的宽带SNR。将所得到的信号提供给卷积器104,所述卷积器104将噪声降低的滤波器系数和麦克风信号的频域表示进行组合,得到输入语音信号的增强版本。然后,该信号然后被呈现给合成滤波器组(未示出)以用于将增强的语音信号返回到时域。该增强的时域信号然后被提供给语音识别器(未示出)。
图6示出了根据本发明的实施例的语音信号增强方法中的各个逻辑步骤。首先,麦克风信号被接收到语音识别预处理器中。601。语音识别预处理器执行将时域麦克风信号变换到频域中的FFT。602语音识别预处理器对在频域麦克风信号的频率箱之内的共振峰进行定位。603处理器可以通过计算针对每个频率箱的短时能量来处理频域麦克风信号。能够将所得到的数据集与阈值进行比较以用于确定是否存在共振峰。使用LPC搜索LPC谱的最大值。在本发明的其他实施例中,能够使用利用不同平滑常数的短期功率谱来识别共振峰。例如,可以对谱应用慢速平滑以及快速平滑两者。在那些利用慢速平滑的谱大于利用高速平滑的谱的频域上检测共振峰。
在确定了共振峰的频率范围后,共振峰频率被提升。504频率可以是基于多个因素而被提升的。例如,可以只提升中心频率或者可以提升整个频率范围。提升的水平可以取决于为了避免裁剪而被提供给最后共振峰和最大阈值的提升量。
本发明的实施例可以全部或部分地以任何常规的计算机程序设计语言(例如,VHDL、SystemC、Verilog、ASM等)来实施。本发明的备选实施例可以作为预编程的硬件元件、其他有关部件,或作为硬件部件和软件部件的组合来实施。
实施例能够全部或部分地作为与计算机系统一起使用的计算机程序产品来实施。这样的实施方式可以包括一系列的计算机指令,所述计算机指令或被固定在有形介质上,例如计算机可读介质(例如,软盘、CD-ROM、 ROM或固定盘),或可经由调制解调器或其他接口设备(例如,通过介质被连接到网络的通信适配器)传输到计算机系统。所述介质可以是有形介质(例如,光学线路或模拟通信线路)或利用无线技术(例如,微波、红外线或其他传输技术)实施的介质。所述一系列计算机指令实施关于本系统的本文中先前描述的功能的全部或部分。本领域技术人员应当理解,能够利用与许多计算机体系架构或操作系统一起使用的多种程序设计语言来写出这样的计算机指令。此外,这样的指令可以被存储在任何存储器设备中,例如半导体存储设备、磁性存储设备、光学存储设备或其他存储设备,并且可以使用任何通信技术进行传输,例如光学传输技术、红外传输技术、微波传输技术或其他传输技术。预计这样的计算机程序产品可以被分布作为可移动介质,伴随打印或电子文件编制(例如,压缩打包软件)、利用计算机系统进行预加载(例如,在系统ROM或固定盘上)、或通过网络(例如,因特网或万维网)从服务器或电子公告板进行分布。当然,本发明的一些实施例可以被实施为软件(例如,计算机程序产品)和硬件的组合。尽管如此,本发明的其他实施例也可以被实施为完全的硬件或完全的软件(例如,计算机程序产品)。
尽管本发明的各个示例性实施例已被公开,但是对本领域技术人员来说明显的是,可以在不脱离本发明的真实范围的情况下,能够做出将实现本发明的一些优点的各种变化和修正。
Claims (18)
1.一种计算机实施的方法,所述方法采用至少一个硬件实施的计算机处理器以用于语音信号处理,所述方法包括:
接收具有语音信号分量和噪声分量的输入麦克风信号;
将所述麦克风信号变换到短期谱信号的频域集中;
基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量;
对所述谱信号应用一个或多个动态调节的增益因子,以只在浊音语音音素期间和具有阈值以上的信噪比的所述语音共振峰分量上增强所述语音共振峰分量;
基于所述语音共振峰分量的估计的假定可靠性来调节所述语音共振峰分量的中心频率周围的所述增益因子,包括调节所述增益因子以相对于较低可靠性共振峰估计,对较高可靠性共振峰估计,使所述语音共振峰分量提升得更多;并且
要求所述语音共振峰分量的语音共振峰分量之间的最小间隙。
2.根据权利要求1所述的方法,其中,基于使用线性预测编码滤波器寻找谱峰来估计所述语音共振峰分量。
3.根据权利要求1所述的方法,其中,基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。
4.根据权利要求1所述的方法,其中,所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。
5.根据权利要求4所述的方法,其中,根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。
6.根据权利要求4所述的方法,其中,根据所述麦克风信号的信噪比来动态地调节所述成形窗口。
7.根据权利要求1所述的方法,其中,应用所述增益因子以过低估计所述噪声分量,以便减少所述谱信号的共振峰区域中的语音失真。
8.根据权利要求1所述的方法,还包括:
将所述增益因子与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
9.根据权利要求1所述的方法,还包括:
将共振峰增强的谱信号输出到移动电话应用程序和语音识别应用程序中的至少一个。
10.一种语音信号处理系统,包括:
语音信号输入部,用于接收具有语音信号分量和噪声分量的麦克风信号;
信号预处理器,用于将所述麦克风信号变换到短期谱信号的频域集中;
共振峰估计模块,用于基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量;以及
共振峰增强模块,用于对所述谱信号应用一个或多个动态调节的增益因子以只在浊音语音音素期间和具有阈值以上的信噪比的所述语音共振峰分量上增强所述语音共振峰分量,并用于基于所述语音共振峰分量的估计的假定可靠性来调节所述语音共振峰分量的中心频率周围的所述增益因子,其中,调节所述增益因子以相对于较低可靠性共振峰估计,对较高可靠性共振峰估计,使所述语音共振峰分量提升得更多,并且其中所述语音共振峰分量的语音共振峰分量之间存在最小间隙。
11.根据权利要求10所述的系统,其中,所述共振峰估计模块基于在线性预测编码滤波器中寻找谱峰来估计所述语音共振峰分量。
12.根据权利要求10所述的系统,其中,所述共振峰估计模块基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。
13.根据权利要求10所述的系统,其中,所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。
14.根据权利要求13所述的系统,其中,所述共振峰增强模块根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。
15.根据权利要求13所述的系统,其中,所述共振峰增强模块根据所述麦克风信号的信噪比来动态地调节所述成形窗口。
16.根据权利要求10所述的系统,其中,所述共振峰增强模块应用所述增益因子以过低估计所述噪声分量,以便减少所述谱信号的共振峰区域中的语音失真。
17.根据权利要求10所述的系统,其中,所述共振峰增强模块还将所述增益因子与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
18.根据权利要求10所述的系统,还包括:
用于将共振峰增强的谱信号提供给移动电话应用程序和语音识别应用程序中的至少一个的处理输出部。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/053666 WO2014039028A1 (en) | 2012-09-04 | 2012-09-04 | Formant dependent speech signal enhancement |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104704560A CN104704560A (zh) | 2015-06-10 |
CN104704560B true CN104704560B (zh) | 2018-06-05 |
Family
ID=46881163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280076334.6A Active CN104704560B (zh) | 2012-09-04 | 2012-09-04 | 共振峰依赖的语音信号增强 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9805738B2 (zh) |
CN (1) | CN104704560B (zh) |
DE (1) | DE112012006876B4 (zh) |
WO (1) | WO2014039028A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014039028A1 (en) | 2012-09-04 | 2014-03-13 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
US20150039286A1 (en) * | 2013-07-31 | 2015-02-05 | Xerox Corporation | Terminology verification systems and methods for machine translation services for domain-specific texts |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
CA2959090C (en) * | 2014-12-12 | 2020-02-11 | Huawei Technologies Co., Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
EP3107097B1 (en) * | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
US9401158B1 (en) * | 2015-09-14 | 2016-07-26 | Knowles Electronics, Llc | Microphone signal fusion |
CN106060717A (zh) * | 2016-05-26 | 2016-10-26 | 广东睿盟计算机科技有限公司 | 一种高清晰度动态降噪拾音器 |
US9813833B1 (en) | 2016-10-14 | 2017-11-07 | Nokia Technologies Oy | Method and apparatus for output signal equalization between microphones |
US11528556B2 (en) | 2016-10-14 | 2022-12-13 | Nokia Technologies Oy | Method and apparatus for output signal equalization between microphones |
JP7048619B2 (ja) | 2016-12-29 | 2022-04-05 | サムスン エレクトロニクス カンパニー リミテッド | 共振器を利用した話者認識方法及びその装置 |
CN107277690B (zh) * | 2017-08-02 | 2020-07-24 | 北京地平线信息技术有限公司 | 声音处理方法、装置和电子设备 |
WO2019063547A1 (en) * | 2017-09-26 | 2019-04-04 | Sony Europe Limited | METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER |
CN112424863B (zh) * | 2017-12-07 | 2024-04-09 | Hed科技有限责任公司 | 语音感知音频系统及方法 |
US11017798B2 (en) * | 2017-12-29 | 2021-05-25 | Harman Becker Automotive Systems Gmbh | Dynamic noise suppression and operations for noisy speech signals |
US11363147B2 (en) | 2018-09-25 | 2022-06-14 | Sorenson Ip Holdings, Llc | Receive-path signal gain operations |
CN111210837B (zh) * | 2018-11-02 | 2022-12-06 | 北京微播视界科技有限公司 | 音频处理方法和装置 |
US11069331B2 (en) * | 2018-11-19 | 2021-07-20 | Perkinelmer Health Sciences, Inc. | Noise reduction filter for signal processing |
AU2020261087B2 (en) * | 2019-04-24 | 2023-12-07 | The University Of Adelaide | Method and system for detecting a structural anomaly in a pipeline network |
CN110634490B (zh) * | 2019-10-17 | 2022-03-11 | 广州国音智能科技有限公司 | 一种声纹鉴定方法、装置和设备 |
WO2021226503A1 (en) | 2020-05-08 | 2021-11-11 | Nuance Communications, Inc. | System and method for data augmentation for multi-microphone signal processing |
CN112397087B (zh) * | 2020-11-13 | 2023-10-31 | 展讯通信(上海)有限公司 | 共振峰包络估计、语音处理方法及装置、存储介质、终端 |
CN113241089B (zh) * | 2021-04-16 | 2024-02-23 | 维沃移动通信有限公司 | 语音信号增强方法、装置及电子设备 |
JP2022180730A (ja) * | 2021-05-25 | 2022-12-07 | 株式会社Jvcケンウッド | 音声処理装置、音声処理方法、及び音声処理プログラム |
CN116597856B (zh) * | 2023-07-18 | 2023-09-22 | 山东贝宁电子科技开发有限公司 | 基于蛙人对讲的语音质量增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6223151B1 (en) * | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
CN1132153C (zh) * | 1995-05-12 | 2003-12-24 | 三菱电机株式会社 | 改善增强语声的滤波器,用该滤波器的装置、系统和方法 |
EP1850328A1 (en) * | 2006-04-26 | 2007-10-31 | Honda Research Institute Europe GmbH | Enhancement and extraction of formants of voice signals |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
Family Cites Families (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1044353B (it) | 1975-07-03 | 1980-03-20 | Telettra Lab Telefon | Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici |
US4015088A (en) | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
US4052568A (en) | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4359064A (en) | 1980-07-24 | 1982-11-16 | Kimble Charles W | Fluid power control apparatus |
GB2097121B (en) | 1981-04-21 | 1984-08-01 | Ferranti Ltd | Directional acoustic receiving array |
US4410763A (en) | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
JPH069000B2 (ja) | 1981-08-27 | 1994-02-02 | キヤノン株式会社 | 音声情報処理方法 |
US6778672B2 (en) | 1992-05-05 | 2004-08-17 | Automotive Technologies International Inc. | Audio reception control arrangement and method for a vehicle |
JPS59115625A (ja) | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
US5034984A (en) | 1983-02-14 | 1991-07-23 | Bose Corporation | Speed-controlled amplifying |
US4536844A (en) * | 1983-04-26 | 1985-08-20 | Fairchild Camera And Instrument Corporation | Method and apparatus for simulating aural response information |
EP0127718B1 (fr) | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US4764966A (en) | 1985-10-11 | 1988-08-16 | International Business Machines Corporation | Method and apparatus for voice detection having adaptive sensitivity |
JPH07123235B2 (ja) | 1986-08-13 | 1995-12-25 | 株式会社日立製作所 | エコ−サプレツサ |
US4829578A (en) | 1986-10-02 | 1989-05-09 | Dragon Systems, Inc. | Speech detection and recognition apparatus for use with background noise of varying levels |
US4914692A (en) | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
US5220595A (en) | 1989-05-17 | 1993-06-15 | Kabushiki Kaisha Toshiba | Voice-controlled apparatus using telephone and voice-control method |
US5125024A (en) | 1990-03-28 | 1992-06-23 | At&T Bell Laboratories | Voice response unit |
US5048080A (en) | 1990-06-29 | 1991-09-10 | At&T Bell Laboratories | Control and interface apparatus for telephone systems |
JPH04182700A (ja) | 1990-11-19 | 1992-06-30 | Nec Corp | 音声認識装置 |
US5239574A (en) | 1990-12-11 | 1993-08-24 | Octel Communications Corporation | Methods and apparatus for detecting voice information in telephone-type signals |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5155760A (en) | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
US5349636A (en) | 1991-10-28 | 1994-09-20 | Centigram Communications Corporation | Interface system and method for interconnecting a voice message system and an interactive voice response system |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JPH07123236B2 (ja) | 1992-12-18 | 1995-12-25 | 日本電気株式会社 | 双方向通話状態検出回路 |
JPH08506427A (ja) | 1993-02-12 | 1996-07-09 | ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 雑音減少 |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5394461A (en) | 1993-05-11 | 1995-02-28 | At&T Corp. | Telemetry feature protocol expansion |
US5475791A (en) | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
DE4330243A1 (de) | 1993-09-07 | 1995-03-09 | Philips Patentverwaltung | Sprachverarbeitungseinrichtung |
US5627334A (en) * | 1993-09-27 | 1997-05-06 | Kawai Musical Inst. Mfg. Co., Ltd. | Apparatus for and method of generating musical tones |
PL174216B1 (pl) | 1993-11-30 | 1998-06-30 | At And T Corp | Sposób redukcji w czasie rzeczywistym szumu transmisji mowy |
US5574824A (en) | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
US5577097A (en) | 1994-04-14 | 1996-11-19 | Northern Telecom Limited | Determining echo return loss in echo cancelling arrangements |
US5581620A (en) | 1994-04-21 | 1996-12-03 | Brown University Research Foundation | Methods and apparatus for adaptive beamforming |
JPH0832494A (ja) | 1994-07-13 | 1996-02-02 | Mitsubishi Electric Corp | ハンズフリー通話装置 |
JP3115199B2 (ja) | 1994-12-16 | 2000-12-04 | 松下電器産業株式会社 | 画像圧縮符号化装置 |
EP0722162B1 (en) * | 1995-01-13 | 2001-12-05 | Yamaha Corporation | Digital signal processing device for sound signal processing |
NZ301329A (en) | 1995-02-15 | 1998-02-26 | British Telecomm | Voice activity detector threshold depends on echo return loss measurement |
US5761638A (en) | 1995-03-17 | 1998-06-02 | Us West Inc | Telephone network apparatus and method using echo delay and attenuation |
US5784484A (en) | 1995-03-30 | 1998-07-21 | Nec Corporation | Device for inspecting printed wiring boards at different resolutions |
US5708704A (en) | 1995-04-07 | 1998-01-13 | Texas Instruments Incorporated | Speech recognition method and system with improved voice-activated prompt interrupt capability |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5696873A (en) * | 1996-03-18 | 1997-12-09 | Advanced Micro Devices, Inc. | Vocoder system and method for performing pitch estimation using an adaptive correlation sample window |
US5765130A (en) | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US6279017B1 (en) | 1996-08-07 | 2001-08-21 | Randall C. Walker | Method and apparatus for displaying text based upon attributes found within the text |
US6009394A (en) * | 1996-09-05 | 1999-12-28 | The Board Of Trustees Of The University Of Illinois | System and method for interfacing a 2D or 3D movement space to a high dimensional sound synthesis control space |
JP3718919B2 (ja) * | 1996-09-26 | 2005-11-24 | ヤマハ株式会社 | カラオケ装置 |
JP2930101B2 (ja) | 1997-01-29 | 1999-08-03 | 日本電気株式会社 | 雑音消去装置 |
US6496581B1 (en) | 1997-09-11 | 2002-12-17 | Digisonix, Inc. | Coupled acoustic echo cancellation system |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
US6018711A (en) | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
US6717991B1 (en) | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6098043A (en) | 1998-06-30 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved user interface in speech recognition systems |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
EP1044416A1 (en) | 1998-10-09 | 2000-10-18 | Scansoft, Inc. | Automatic inquiry method and system |
US6253175B1 (en) * | 1998-11-30 | 2001-06-26 | International Business Machines Corporation | Wavelet-based energy binning cepstal features for automatic speech recognition |
US6246986B1 (en) | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
IT1308466B1 (it) | 1999-04-30 | 2001-12-17 | Fiat Ricerche | Interfaccia utente per un veicolo |
DE19942868A1 (de) | 1999-09-08 | 2001-03-15 | Volkswagen Ag | Verfahren zum Betrieb einer Mehrfachmikrofonanordnung in einem Kraftfahrzeug sowie Mehrfachmikrofonanordnung selbst |
US6373953B1 (en) | 1999-09-27 | 2002-04-16 | Gibson Guitar Corp. | Apparatus and method for De-esser using adaptive filtering algorithms |
US6526382B1 (en) | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
US6449593B1 (en) | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
US6574595B1 (en) | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
DE10035222A1 (de) | 2000-07-20 | 2002-02-07 | Bosch Gmbh Robert | Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US7171003B1 (en) | 2000-10-19 | 2007-01-30 | Lear Corporation | Robust and reliable acoustic echo and noise cancellation system for cabin communication |
US7117145B1 (en) | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
WO2002032356A1 (en) | 2000-10-19 | 2002-04-25 | Lear Corporation | Transient processing for communication system |
US7206418B2 (en) | 2001-02-12 | 2007-04-17 | Fortemedia, Inc. | Noise suppression for a wireless communication device |
DE10107385A1 (de) | 2001-02-16 | 2002-09-05 | Harman Audio Electronic Sys | Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken |
US6549629B2 (en) | 2001-02-21 | 2003-04-15 | Digisonix Llc | DVE system with normalized selection |
US7251601B2 (en) * | 2001-03-26 | 2007-07-31 | Kabushiki Kaisha Toshiba | Speech synthesis method and speech synthesizer |
JP2002328507A (ja) | 2001-04-27 | 2002-11-15 | Canon Inc | 画像形成装置 |
GB0113583D0 (en) | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech system barge-in control |
EP1413167A2 (en) | 2001-07-20 | 2004-04-28 | Koninklijke Philips Electronics N.V. | Sound reinforcement system having an multi microphone echo suppressor as post processor |
US7068796B2 (en) | 2001-07-31 | 2006-06-27 | Moorer James A | Ultra-directional microphones |
US7274794B1 (en) | 2001-08-10 | 2007-09-25 | Sonic Innovations, Inc. | Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment |
US20030088417A1 (en) * | 2001-09-19 | 2003-05-08 | Takahiro Kamai | Speech analysis method and speech synthesis system |
US6985857B2 (en) * | 2001-09-27 | 2006-01-10 | Motorola, Inc. | Method and apparatus for speech coding using training and quantizing |
US7069221B2 (en) | 2001-10-26 | 2006-06-27 | Speechworks International, Inc. | Non-target barge-in detection |
US7069213B2 (en) | 2001-11-09 | 2006-06-27 | Netbytel, Inc. | Influencing a voice recognition matching operation with user barge-in time |
DE10156954B9 (de) | 2001-11-20 | 2005-07-14 | Daimlerchrysler Ag | Bildgestützte adaptive Akustik |
EP1343351A1 (en) | 2002-03-08 | 2003-09-10 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | A method and an apparatus for enhancing received desired sound signals from a desired sound source and of suppressing undesired sound signals from undesired sound sources |
KR100499124B1 (ko) | 2002-03-27 | 2005-07-04 | 삼성전자주식회사 | 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법 |
US7065486B1 (en) | 2002-04-11 | 2006-06-20 | Mindspeed Technologies, Inc. | Linear prediction based noise suppression |
US7162421B1 (en) | 2002-05-06 | 2007-01-09 | Nuance Communications | Dynamic barge-in in a speech-responsive system |
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
US6917688B2 (en) | 2002-09-11 | 2005-07-12 | Nanyang Technological University | Adaptive noise cancelling microphone system |
US7424430B2 (en) * | 2003-01-30 | 2008-09-09 | Yamaha Corporation | Tone generator of wave table type with voice synthesis capability |
US20040230637A1 (en) | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US7643641B2 (en) | 2003-05-09 | 2010-01-05 | Nuance Communications, Inc. | System for communication enhancement in a noisy environment |
EP1475997A3 (en) | 2003-05-09 | 2004-12-22 | Harman/Becker Automotive Systems GmbH | Method and system for communication enhancement in a noisy environment |
US8724822B2 (en) | 2003-05-09 | 2014-05-13 | Nuance Communications, Inc. | Noisy environment communication enhancement system |
JP4214842B2 (ja) * | 2003-06-13 | 2009-01-28 | ソニー株式会社 | 音声合成装置及び音声合成方法 |
KR100511316B1 (ko) * | 2003-10-06 | 2005-08-31 | 엘지전자 주식회사 | 음성신호의 포만트 주파수 검출방법 |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
EP1591995B1 (en) | 2004-04-29 | 2019-06-19 | Harman Becker Automotive Systems GmbH | Indoor communication system for a vehicular cabin |
WO2006027707A1 (en) | 2004-09-07 | 2006-03-16 | Koninklijke Philips Electronics N.V. | Telephony device with improved noise suppression |
ATE405925T1 (de) | 2004-09-23 | 2008-09-15 | Harman Becker Automotive Sys | Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung |
WO2006069358A2 (en) | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
DE102005002865B3 (de) | 2005-01-20 | 2006-06-14 | Autoliv Development Ab | Freisprecheinrichtung für ein Kraftfahrzeug |
EP1732352B1 (en) | 2005-04-29 | 2015-10-21 | Nuance Communications, Inc. | Detection and suppression of wind noise in microphone signals |
KR100643310B1 (ko) * | 2005-08-24 | 2006-11-10 | 삼성전자주식회사 | 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치 |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
EP1850640B1 (en) | 2006-04-25 | 2009-06-17 | Harman/Becker Automotive Systems GmbH | Vehicle communication system |
EP1930879B1 (en) * | 2006-09-29 | 2009-07-29 | Honda Research Institute Europe GmbH | Joint estimation of formant trajectories via bayesian techniques and adaptive segmentation |
US8326620B2 (en) * | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
DE602007004504D1 (de) | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
US8000971B2 (en) | 2007-10-31 | 2011-08-16 | At&T Intellectual Property I, L.P. | Discriminative training of multi-state barge-in models for speech processing |
EP2107553B1 (en) | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8385557B2 (en) | 2008-06-19 | 2013-02-26 | Microsoft Corporation | Multichannel acoustic echo reduction |
EP2148325B1 (en) | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Method for determining the presence of a wanted signal component |
CN101350108B (zh) | 2008-08-29 | 2011-05-25 | 同济大学 | 基于位置跟踪和多通道技术的车载通信方法及装置 |
JP2012503212A (ja) * | 2008-09-19 | 2012-02-02 | ニューサウス イノベーションズ ピーティーワイ リミテッド | オーディオ信号分析方法 |
EP2211564B1 (en) | 2009-01-23 | 2014-09-10 | Harman Becker Automotive Systems GmbH | Passenger compartment communication system |
WO2010117712A2 (en) * | 2009-03-29 | 2010-10-14 | Audigence, Inc. | Systems and methods for measuring speech intelligibility |
KR20120054081A (ko) * | 2009-08-25 | 2012-05-29 | 난양 테크놀러지컬 유니버시티 | 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템 |
CN102035562A (zh) | 2009-09-29 | 2011-04-27 | 同济大学 | 车载通信控制单元语音通道及语音通信方法 |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US8831942B1 (en) * | 2010-03-19 | 2014-09-09 | Narus, Inc. | System and method for pitch based gender identification with suspicious speaker detection |
WO2011119168A1 (en) | 2010-03-26 | 2011-09-29 | Nuance Communications, Inc. | Context based voice activity detection sensitivity |
JP5672770B2 (ja) * | 2010-05-19 | 2015-02-18 | 富士通株式会社 | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム |
JP5874344B2 (ja) * | 2010-11-24 | 2016-03-02 | 株式会社Jvcケンウッド | 音声判定装置、音声判定方法、および音声判定プログラム |
US9706314B2 (en) * | 2010-11-29 | 2017-07-11 | Wisconsin Alumni Research Foundation | System and method for selective enhancement of speech signals |
WO2014039028A1 (en) | 2012-09-04 | 2014-03-13 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
-
2012
- 2012-09-04 WO PCT/US2012/053666 patent/WO2014039028A1/en active Application Filing
- 2012-09-04 US US14/423,543 patent/US9805738B2/en active Active
- 2012-09-04 DE DE112012006876.9T patent/DE112012006876B4/de active Active
- 2012-09-04 CN CN201280076334.6A patent/CN104704560B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132153C (zh) * | 1995-05-12 | 2003-12-24 | 三菱电机株式会社 | 改善增强语声的滤波器,用该滤波器的装置、系统和方法 |
US6223151B1 (en) * | 1999-02-10 | 2001-04-24 | Telefon Aktie Bolaget Lm Ericsson | Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
EP1850328A1 (en) * | 2006-04-26 | 2007-10-31 | Honda Research Institute Europe GmbH | Enhancement and extraction of formants of voice signals |
Also Published As
Publication number | Publication date |
---|---|
DE112012006876T5 (de) | 2015-06-03 |
US9805738B2 (en) | 2017-10-31 |
WO2014039028A1 (en) | 2014-03-13 |
DE112012006876B4 (de) | 2021-06-10 |
US20160035370A1 (en) | 2016-02-04 |
CN104704560A (zh) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104704560B (zh) | 共振峰依赖的语音信号增强 | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
EP2191466B1 (en) | Speech enhancement with voice clarity | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
US6173258B1 (en) | Method for reducing noise distortions in a speech recognition system | |
US6122610A (en) | Noise suppression for low bitrate speech coder | |
CN101636648B (zh) | 采用感知模型的语音增强 | |
EP1745468B1 (en) | Noise reduction for automatic speech recognition | |
WO2004084181A2 (en) | Simple noise suppression model | |
EP1995722B1 (en) | Method for processing an acoustic input signal to provide an output signal with reduced noise | |
CN110808059A (zh) | 一种基于谱减法和小波变换的语音降噪方法 | |
KR20150032390A (ko) | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 | |
CN109102823B (zh) | 一种基于子带谱熵的语音增强方法 | |
Upadhyay et al. | The spectral subtractive-type algorithms for enhancing speech in noisy environments | |
Bai et al. | Two-pass quantile based noise spectrum estimation | |
Upadhyay et al. | Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction | |
Udrea et al. | A perceptual approach for noise reduction using nonlinear spectral subtraction | |
Manohar | Single Channel Enhancement Of Noisy Speech | |
Lu et al. | C/V Segmentation on Mandarin Speech Signals via Additional Noise Cascaded with Fourier-Based Speech Enhancement System | |
Yadav et al. | Design and Analysis of Noise Suppression Techniques for Speech Signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200922 Address after: Massachusetts, USA Patentee after: Serenes operations Address before: Massachusetts, USA Patentee before: Nuance Communications, Inc. |