CN104704560A - 共振峰依赖的语音信号增强 - Google Patents

共振峰依赖的语音信号增强 Download PDF

Info

Publication number
CN104704560A
CN104704560A CN201280076334.6A CN201280076334A CN104704560A CN 104704560 A CN104704560 A CN 104704560A CN 201280076334 A CN201280076334 A CN 201280076334A CN 104704560 A CN104704560 A CN 104704560A
Authority
CN
China
Prior art keywords
signal
resonance peak
speech
peak
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280076334.6A
Other languages
English (en)
Other versions
CN104704560B (zh
Inventor
M·克里尼
I·沙尔克-舒普
M·布克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes operations
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN104704560A publication Critical patent/CN104704560A/zh
Application granted granted Critical
Publication of CN104704560B publication Critical patent/CN104704560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

描述了一种用于语音信号处理的装置。接收包括语音信号分量和噪声分量的输入麦克风信号。将所述麦克风信号变换到短期谱信号的频域集中。然后,基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量。对所述谱信号应用一个或多个动态调节的增益因子,以增强所述语音共振峰分量。

Description

共振峰依赖的语音信号增强
技术领域
本发明涉及语音信号处理中的降噪。
背景技术
常见的降噪算法对嘈杂的信号中存在的噪声类型做出假设。例如,维纳滤波器引入均方差(MSE)成本函数作为目标距离测量,以最优地最小化期望的信号与经滤波的信号之间的距离。然而,MSE不能说明人类对信号质量的感知。另外,滤波算法通常独立地应用于频率箱中的每个。因此,所有类型的信号被同等处置。这允许在许多不同情形下的良好的降噪性能。
然而,汽车环境中的移动通信情况是特殊的,这时因为它们包含语音作为它们期望的信号。行驶过程中存在的噪声的主要特征在于具有较低频率的渐增的噪声水平。语音信号处理开始于来自语音感测麦克风的输入音频信号。麦克风信号表示多个不同声源的混合物。除语音分量外,麦克风信号中的所有其他声源分量都充当不期望的噪声,所述不期望的噪声使得对语音分量的处理复杂化。在中度到高度噪声境况中从噪声分量中分离期望的语音分量尤其困难,尤其是在以高速公路行驶速度行驶的汽车客舱之内,在多名人员正在同时讲话时,或者有音频内容存在的情况下。
在语音信号处理中,麦克风信号通常首先被分割成适当大小的重叠块并对其应用窗口函数。然后使用快速傅立叶变换(FFT)将每个经开窗的信号块变换到频域中,以产生嘈杂的短期谱信号。为了降低不期望的噪声分量,同时保持语音信号尽可能自然,计算信噪比依赖(SNR:信噪比)的加权系数并将其应用于谱信号。然而,现有的常规方法使用的SNR依赖的加权规则,所述SNR依赖的加权规则在每个频率中独立地运行,并且不考虑被处理的实际语音声音的特征。
图1显示了用于语音信号降噪的典型装置。分析滤波器组102从麦克风101接收麦克风信号y(i)。y(i)包括语音分量(i)和由麦克风接收到的噪声 分量n(i)两者。参数(i)是采样索引,其识别用于麦克风信号y采样的时间段。分析滤波器组102通过应用FFT变换来将时域麦克风采样转换成频域表示帧。分析滤波器组102将滤波器系数分离成频率箱。如在附图中所指出的,麦克风信号的频域表示为Y(k,μ),其中,k表示帧索引,并且μ表示频率箱索引。将麦克风信号的频域表示提供给降噪滤波器103。在降噪滤波器中计算信噪比加权系数,从而得到滤波器系数H(kμ),并且滤波器系数和频域表示相乘,从而得到降噪信号针对帧的所有频率,在合成滤波器组中收集降噪频域信号,并且通过逆向变换(例如,逆向FFT)来传递帧。
发明内容
本发明的实施例指向用于语音信号处理的装置。可以在语音识别之前完成对语音信号的处理。该系统和方法也可以与移动电话信号一起被采用,并且更具体地在嘈杂的汽车环境中,以便提高接收的语音信号的可懂度。
接收包括语音信号分量和噪声分量的输入麦克风信号。麦克风信号被变换到短期谱信号的频域集中。然后,基于检测谱信号中的高能量密度区域来估计在谱信号之内的语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子,以增强语音共振峰分量。
包括至少一个硬件实施的计算机处理器(例如,数字信号处理器)的计算机实施的方法可以处理语音信号并且识别并提升频域中的共振峰。可以由麦克风接收具有语音信号分量和噪声分量的输入麦克风信号。
语音预处理器将麦克风信号变换到短期谱信号的频域集中。基于检测谱信号中的高能量密度区域来在谱信号之内识别出语音共振峰分量。对谱信号应用一个或多个动态调节的增益因子,以增强语音共振峰分量。
可以基于使用线性预测编码滤波器寻找谱峰来识别和估计共振峰。也可以使用无限脉冲响应平滑滤波器来估计共振峰以使谱信号平滑。识别共振峰之后,可以使用窗口函数来提升用于共振峰被识别处的频率箱的系数。窗口函数提升并成形总体滤波器系数。然后可以对原始语音输入信号应用总体滤波器。根据共振峰检测可靠性来动态地调节用于提升的增益因子。动态地调节成形的窗口并且只将其应用于具有经识别的语音的频率箱。在本发明的某些实施例中,可以取决于信噪比来动态地调整提升窗口函数。
在本发明的实施例中,应用增益因子以过低估计噪声分量,以便减少谱信号的共振峰区域中的语音失真。额外地,增益因子可以与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
可以在具有一个或多个模块的系统之内实施共振峰检测和共振峰提升。如本文所使用的,术语模块可以意指专用集成电路或通用处理器和被存储在存储器中的相关联的源代码。每个模块可以包括一个或多个处理器。系统可以包括语音信号输入部,以用于接收具有语音信号分量和噪声分量的麦克风信号。额外地,系统可以包括信号预处理器,以用于将麦克风信号变换到的短期谱信号的频域集中。系统包括共振峰估计模块和共振峰增强模块两者。共振峰估计模块基于检测谱信号中的高能量密度的区域来估计在谱信号之内的语音共振峰分量。共振峰增强模块确定一个或多个动态调节的增益因子,所述一个或多个动态调节的增益因子应用于谱信号以增强语音共振峰分量。
附图说明
图1示出了用于语音信号降噪的典型的现有技术的装置。
图2示出了语音谱信号的曲线图,所述曲线图示出了如何识别其中的共振峰分量。
图3示出了用于确定共振峰的位置的流程图;
图3A示出了可能的提升窗口函数。
图4示出了用于语音信号降噪的本发明的实施例,所述语音信号降噪包括共振峰检测和共振峰提升。
图5示出了用于语音信号降噪的一个具体实施例的进一步详情。
图6示出了根据本发明实施例的语音信号增强方法中的各个逻辑步骤。
具体实施方式
本发明的各个实施例指向在语音信号处理中通过识别并加强在麦克风信号之内的语音共振峰来增强语音质量和可懂度的计算高效的技术。共振峰表示在特定的频率间隔(谱峰)之内的声能量的主要集中物,所述主要集中物对解读语音内容来说是重要的。共振峰的识别和加强可以与降噪算 法结合使用。
图2示出了语音谱信号和可以用于识别谱峰以及(因此识别)共振峰的分量部分的曲线图。第一分量Syy表示麦克风信号的浊音(voiced)部分的功率谱密度。第二分量表示麦克风信号的噪声分量的估计功率谱密度;并且第三分量Filter Coeff.表示在噪声抑制和共振峰增大后的滤波器系数。针对该语音信号的共振峰由谱峰201来识别。
图3提供了用于共振峰识别的流程图。共振峰是信号中激励信号被共振滤波器放大的所述信号的频率部分。该激励导致与任何共振峰中心频率周围的激励功率谱密度(PSD)相比、以及与相邻频带相比更高的PSD,除非那里存在另一共振峰。假设除声道共振峰外,不存在其他显著的共振峰(例如,强的环境共振),则能够通过寻找局部高PSD带来发现共振峰。不是所有的局部高PSD带都指示共振峰。清音激励(例如,擦音)不应当被识别为共振峰。为了避免提升擦音,可以使用针对共振峰的检测的频带约束。例如,fF,最大=3500Hz。额外地,也不应当在没有语音活动的帧内发生任何提升。因此,共振峰识别还应当包括浊音激励检测器,以用于限制经搜索的帧的数目。通过减少相关的帧和频率箱的数目,这些约束减少了检测过程的计算复杂度。
如上所述,应当只在浊音语音音素期间和那些SNR(信噪比)充足的共振峰区域上加强共振峰。否则,将会放大噪声分量,这导致降低的语音质量。在第一步骤中,本发明的方法首先识别包含浊音语音的输入语音信号的频域。301为了实现这一目的,采用浊音激励检测器。可以使用任何已知的激励检测器,并且下面描述的检测器仅仅是示例性的。在一个实施例中,浊音激励检测器模块决定在多个(MF)个频率箱上的平均对数INR(输入-噪声比)是否超过了特定阈值PVUD*:
P VUD ( n ) = 1 M F Σ μ = 1 M F INR ( μ , n )
如果结果为真,则识别出语音信号。如果结果为假,则当前帧中的频率箱(这里用n来指代)不包含语音。
在识别出具有语音的帧后,可以对语音信号应用任选的平滑函数,以消除重叠的共振峰的谐波掩蔽问题。302。可以应用一阶无限脉冲响应(IIR)滤波器以用于进行平滑,尽管也可以在不脱离本发明的意图下应用其他谱平滑技术(例如,样条、快速平滑和慢速平滑等)。平滑滤波器应当被设计为提供充足的谐波作用削弱,同时不会抵消任何共振峰的最大值。
下面定义了示例性滤波器,并且该滤波器在向前方向上被应用一次并且在向后方向上被应用一次,以便保持适当的局部特性。它的形式是:
并且
利用给定的变换参数(采样频率FS=16000Hz且窗口宽度NFFT=512,发现良好的折衷数值的平滑常数是gamma_f=0.92)。这对应于针对任意短期傅立叶变换(STFT)参数的自然衰减常数:
β f = N FFT F S In γ f ≈ - 2.668 · 10 - 3 s
γ f ′ = N FFT f S In γ f ≈ - 2.668 · 10 - 3 s
STFT依赖的参数然后:
γ f ′ ( N FFT , F S ) = e F S N FFT β f
γ f ( N FFT , f s ) = e f S N FFT γ f ′
在平滑PSD后,通过寻找在各自的频率箱之内的经平滑的PSD的零导数来确定局部最大值303。合并零的条纹,并且如本领域普通技术人员所已知的,使用二阶导数分析来对最小值、最大值以及鞍点进行归类。在快速平滑和慢速平滑的情况下,假设最大值点为共振峰的中心频率fF(iF,n),并且共振 峰的宽度将是已知的ΔfF(iF,n)。
在识别出共振峰后,能够使用自适应增益因子来加强共振峰区域。值域为[0,1]的提升函数B(f,n),其中,值0应当表示在各自的频率箱中不存在任何共振峰,而值1应当标定共振峰的中心。
我们引入原型提升窗口函数其中
其中,定义了实际的原型窗口形状。
在任何共振峰之内,能够预计在它的中心处具有最高信噪比(SNR)。通过提升信号而对噪声的引入朝着共振峰的边界增加。因此,典型的共振峰中心周围的提升优选应当平缓地下降。图3A示出了多个可能符合此标准的窗口函数。例如,可以使用高斯函数作为原型提升窗口函数以确保平缓下降。本范例的窗口以x=0为中心并且具有统一的宽度。以x=0为中心以及统一宽度允许共同的操作空间,以便后续处理,例如,可以容易地应付窗口的拉伸和移位。
能够使用不同成形的窗口,例如,高斯、余弦以及三角窗口。能够利用不同的加权规则以提升输入信号。优选地,提升窗口强调共振峰的中心频率,并且窗口在频率范围内被拉伸。在利用快速平滑方法和慢速平滑方法的情况下,对于检测到的每个共振峰,原型窗口函数被因子w(iF,n)拉伸以匹配共振峰的宽度(如果已知的话)。否则,它应当被拉伸至约600Hz的恒定频率宽度,尽管也可以采用其他类似的频率范围。
该窗口也必须以共振峰的中心频率来移位,以匹配其在频域中的位置。提升函数被定义为经拉伸和移位的原型提升窗口函数的总和:
在本发明的其他实施例中,可以取决于共振峰估计的假定可靠性来调节成形窗口中心周围的增益值。因此,如果共振峰估计的可靠性为低,则与高可靠性的共振峰估计相比,窗口函数架构不会提升同样多的频率分量。
当不存在实际的语音时,为了避免在语音信号(例如,帧)之内检测共振峰,也能够考虑之前估计的共振峰以用于调节窗口函数。总体而言,取决于口语音素,共振峰的位置随着时间推移而缓慢变化。
图4示出了实施在系统中的共振峰提升和检测方法的实施例,其中,由麦克风接收语音信号并在将其提供给语音识别引擎或通过音频扬声器输出给收听者之前对其进行降噪处理。如图4所示,麦克风信号y(i)被传递到分析滤波器组102。在分析滤波器组102中,将采样的麦克风信号通过采用FFT转换成频域,从而得到基于子频带频率的麦克风信号的表示Y(k,μ)。如以上所表示的,该信号包括针对多个频率箱的多个帧k(例如,节段、范围、子频带)。将基于频率的表示提供给降噪模块103以及共振峰检测模块。例如,降噪模块可以包含如Klaus Linhard和Tim Haulick在“Spectral noise subtraction with recursive gain curves”(ICSLP1998,International Conference on Spoken Language Processing)中所描述的改善的递归维纳滤波器。Linhard和Haulick参考的递归维纳滤波器可以由下面的等式来定义:
H ( f μ , n ) = max ( 1 - α H ( f μ , n - 1 ) · S bb ( f μ , n ) S yy ( f μ , n ) , β )
其中,α是过度估计因子,并且β是谱基底。这里,谱基底充当反馈限制和掩蔽音乐噪声的经典谱基底两者。可以由INR(fμ,n)替换以得到
H ( f μ , n ) = max ( 1 - α H ( f μ , n - 1 ) · INR ( f μ , n ) , β )
为了在它的输入状态空间中找到平衡图,设定
H ′ ( f μ , n ) = ! H ^ ( f μ , n - 1 ) = : H eq ′
并且
INR(fμ,n)=:INR'eq
这导致
H eq ′ = 1 - α INR eq ′ · H eq ′
这是减少的系统平衡图的隐式表示。能够根据系统输出H’eq来将其变换以给出INR’eq
INR eq ′ ( α , H eq ′ ) = α H eq ′ · ( 1 - H eq ′ )
或给出在INR’eq域中具有两个分支的H’eq的拟函数: 
H eq ′ ( α , INR eq ′ ) = 1 2 ± 1 4 - α INR eq ′
该系统具有两种不同的平衡。顶部的分支在两侧都是稳定的,而较低的分支是不稳定的。离开分叉点,滤波器的输出不断向零减小,因此只要达到低输入INR滤波器就几乎完全关闭。降噪滤波器的输出H(fμ,n)表示对于帧n中的每个频率箱μ,值在0与1之间的滤波器系数。本领域普通技术人员应当理解,本发明不仅仅限于递归维纳滤波器,在不脱离本发明的意图下,可以将采用其他降噪滤波器与共振峰检测和提升进行组合。能够通过取决于共振峰提升函数而放置它们的滞后侧翼来进一步增强具有与经改善的维纳滤波器类似的反馈结构的滤波器(例如,改善的功率减法、改善的幅值减法)。能够通过取决于共振峰提升函数而在它们的输出滤波器系数上应用额外增益来增强任意的降噪滤波器(例如,Y.Ephraim,D.Malah:Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator,IEEE Trans.Acoust,Speech Signal Process,1984年,卷32,第6号,第1109-1121页)。
在确定了降噪滤波器的滤波器系数后,将该系数提供给共振峰提升器401。共振峰提升器401首先在降噪信号的谱中检测共振峰。共振峰提升器可以将所有高功率密度频带识别为共振峰,或者可以采用其他的检测算法。能够使用线性预测编码(LPC)技术以用于估计语音声音的声道信息,然后搜索LPC谱峰来执行对共振峰的检测。在一个实施例中,采用关于图3所描述的话音激励检测方法。可以通过要求共振峰之间的最小间隙来进一步增强共振峰检测。例如,在预定的频率范围(例如,300、400、500或600Hz)之内识别的峰可以被认为是相同的共振峰,而在频率范围之外的是不 同的共振峰。两个相邻的共振峰之间的合理距离是它们的平均宽度的80%的部分。额外地,为了避免提升具有过多噪声的区中的共振峰,可以在每个共振峰之内存在的平均INR(输入-噪声比)上设定进一步的要求。在识别了包括共振峰的频率箱后,频率提升模块401将提升该共振峰的频率,特别是该共振峰的中心频率(例如,针对该频率箱的相对最大频率)。为了执行所述的共振峰依赖的放大,多个提升函数B(fμ,n)的B最大被加到滤波器系数。B最大是在共振峰的中心所期望的最大放大。
在共振峰的各自频率箱之内提升共振峰之后,所得到的滤波器系数H(k,μ)与数字麦克风信号进行卷积,从而得到经降噪和共振峰提升的信号 该信号(其仍然在频域中并且包括频率箱和时间帧)被传递到合成滤波器组,以将该信号变换到时域中。所得到的信号表示原始语音信号的增大版本,并且应当被更好地定义,以便使随后的语音识别引擎(未示出)能够识别该语音。
图4示出了本发明的实施例,其中,在通过降噪滤波器降噪之后执行共振峰提升。通过执行该后降噪滤波方法实现了一定的效益。具有良好信噪比的任何频率箱使共振峰被加强。通过加强信号部分而不是加强噪声,提高了可懂度。共振峰的后滤波提升对将被周围噪声掩蔽的语音信号分量进行提升。由于提升了该信号并且增加了功率,因此与对应的经常规降噪的信号相比,共振峰提升的信号更加响亮。在某些情形中,如果超过了系统的动态范围,则这能够导致裁剪。更重要的是,共振峰频带中的语音信号的总体功率的增长与其在擦音频带中的功率有关。共振峰的中心与没有共振峰的频带之间的功率对比度是由最大放大B最大来确定的。功率对比度负责提高可懂度并且不应当被降低。相反,在选择性放大之后,能够将潜在地包含共振峰的频带(高达fF,最大=3500Hz)作为一个整体进行削弱。能够使经提升的信号与未经提升的信号之间的功率的预计差异相对地降低,优选等于零。
与以上描述的在降噪滤波器之后提升共振峰的过程相反,也能够应用所公开的共振峰检测方法和提升,作为预处理阶段或作为常规噪声抑制滤波器的部分。该方法过低估计共振峰区域中的背景噪声,并且能够用于取决于共振峰来任意地控制滤波器的参数。在该方法中,噪声抑制滤波器被 驱使提供对共振峰的承认,如果所有的频率箱都被同等处置,则所述共振峰通常将被削弱。因此,噪声抑制滤波器操作地不太积极,因此它在某种程度上降低了语音失真。如先前所指示的,在本发明的一些实施例中,可以将递归维纳滤波器用作噪声抑制滤波器。当递归维纳滤波器有效地降低了音乐噪声时,它也在低INR处削弱了语音。对滤波器的特性中的滞后边缘或侧翼的放置确定了在哪些INR信号处向下削弱到谱基底。侧翼的适当放置将引起音乐噪声抑制与语音信号保真度之间的良好平衡。期望根据情形来修改侧翼的位置。在仅有噪声的区(这里使用术语“区”来描述时间跨度以及频带)中,音乐噪声抑制应当保持普遍存在,而在具有语音信号分量的区(例如,共振峰)中,保留语音信号变得更加重要。通过以共振峰的形式检测重要的语音分量,在两者之间得到良好的加权函数。对于递归维纳滤波器,在边缘或侧翼处,INR滤波器关闭(INReq,关闭)或打开(INReq,打开)由下式给出:
INReq,关闭(α)=4α
并且
该系统能够根据侧翼所期望的INR被重新布置以描述参数α和β:
能够通过选择足够的过高估计α和谱基底β来独立地放置侧翼。例如,如果选择β任意小以将向上的侧翼朝向更高的INR移动,则这也将导致非常低的最大削弱,这可能是不期望的。这可以通过引入单独的参数H最小来消除,所述参数H最小不会有助于反馈,但至少限制输出削弱。所提出的系统由下式描述:
H ( f μ , n ) = max ( 1 - α H ( f μ , n - 1 ) · INR ( f μ , n ) , β )
并且
该滤波器能够比常规的递归维纳滤波器更好地被调整适应不同的状况。能够通过定义默认侧翼位置和它们所期望的共振峰中心中的最大偏差来在该设置中投入使用提升函数。然后,根据存在的共振峰在每一帧中更新针对每一箱的滤波器参数:
并且
其中,B(fμ,n)是共振峰提升窗口函数。能够如以上所描述的那样确定共振峰,并且也可以从任何数目的窗口函数(包括高斯、三角以及余弦等)中选择提升窗口函数。
如果在降噪之前或在降噪的同时提升共振峰,则对共振峰的加强不超出0dB。额外地,具有良好信噪比的箱中的共振峰没有被进一步改善。而且,提供所述提升预降噪滤波潜在地引入额外的噪声。如果在预降噪滤波之前执行提升,则可以发生可听见的语音改善,尤其是在较低的频率中。
图5示出了用于语音信号降噪的一个具体实施例的进一步详情。分析滤波器组102将麦克风信号转换到频域中。将麦克风信号的频域版本传递到噪声估计模块501以及麦克风估计模块502,所述麦克风估计模块502估计该麦克风信号的短时功率密度。将麦克风信号估计和噪声信号估计的短时功率密度提供给共振峰检测模块505。共振峰提升模块使用噪声估计以检测浊音语音活动并且计算从提升过程中排除不良INR共振峰所需的估计INR。共振峰检测模块404可以执行图2中示出的信号分析,其中,根据麦 克风信号的短时功率密度中的谱强度的峰来识别共振峰。短时功率密度和噪声估计信号还指向降噪滤波器503。可以采用任意数目的降噪算法以用于确定降噪系数。降噪系数被传递到共振峰提升器模块505,所述共振峰提升器模块505使用开窗函数提升与所识别的共振峰有关的系数。然后,通过使用例如两个滤波器系数的最大值,所得到的共振峰提升的增益系数能够与常规的噪声抑制滤波器进行组合。因此,能够实现改善的宽带SNR。将所得到的信号提供给卷积器104,所述卷积器104将噪声降低的滤波器系数和麦克风信号的频域表示进行组合,得到输入语音信号的增强版本。然后,该信号然后被呈现给合成滤波器组(未示出)以用于将增强的语音信号返回到时域。该增强的时域信号然后被提供给语音识别器(未示出)。
图6示出了根据本发明的实施例的语音信号增强方法中的各个逻辑步骤。首先,麦克风信号被接收到语音识别预处理器中。601。语音识别预处理器执行将时域麦克风信号变换到频域中的FFT。602语音识别预处理器对在频域麦克风信号的频率箱之内的共振峰进行定位。603处理器可以通过计算针对每个频率箱的短时能量来处理频域麦克风信号。能够将所得到的数据集与阈值进行比较以用于确定是否存在共振峰。使用LPC搜索LPC谱的最大值。在本发明的其他实施例中,能够使用利用不同平滑常数的短期功率谱来识别共振峰。例如,可以对谱应用慢速平滑以及快速平滑两者。在那些利用慢速平滑的谱大于利用高速平滑的谱的频域上检测共振峰。
在确定了共振峰的频率范围后,共振峰频率被提升。504频率可以是基于多个因素而被提升的。例如,可以只提升中心频率或者可以提升整个频率范围。提升的水平可以取决于为了避免裁剪而被提供给最后共振峰和最大阈值的提升量。
本发明的实施例可以全部或部分地以任何常规的计算机程序设计语言(例如,VHDL、SystemC、Verilog、ASM等)来实施。本发明的备选实施例可以作为预编程的硬件元件、其他有关部件,或作为硬件部件和软件部件的组合来实施。
实施例能够全部或部分地作为与计算机系统一起使用的计算机程序产品来实施。这样的实施方式可以包括一系列的计算机指令,所述计算机指令或被固定在有形介质上,例如计算机可读介质(例如,软盘、CD-ROM、 ROM或固定盘),或可经由调制解调器或其他接口设备(例如,通过介质被连接到网络的通信适配器)传输到计算机系统。所述介质可以是有形介质(例如,光学线路或模拟通信线路)或利用无线技术(例如,微波、红外线或其他传输技术)实施的介质。所述一系列计算机指令实施关于本系统的本文中先前描述的功能的全部或部分。本领域技术人员应当理解,能够利用与许多计算机体系架构或操作系统一起使用的多种程序设计语言来写出这样的计算机指令。此外,这样的指令可以被存储在任何存储器设备中,例如半导体存储设备、磁性存储设备、光学存储设备或其他存储设备,并且可以使用任何通信技术进行传输,例如光学传输技术、红外传输技术、微波传输技术或其他传输技术。预计这样的计算机程序产品可以被分布作为可移动介质,伴随打印或电子文件编制(例如,压缩打包软件)、利用计算机系统进行预加载(例如,在系统ROM或固定盘上)、或通过网络(例如,因特网或万维网)从服务器或电子公告板进行分布。当然,本发明的一些实施例可以被实施为软件(例如,计算机程序产品)和硬件的组合。尽管如此,本发明的其他实施例也可以被实施为完全的硬件或完全的软件(例如,计算机程序产品)。
尽管本发明的各个示例性实施例已被公开,但是对本领域技术人员来说明显的是,可以在不脱离本发明的真实范围的情况下,能够做出将实现本发明的一些优点的各种变化和修正。

Claims (20)

1.一种计算机实施的方法,所述方法采用至少一个硬件实施的计算机处理器以用于语音信号处理,所述方法包括:
接收具有语音信号分量和噪声分量的输入麦克风信号;
将所述麦克风信号变换到短期谱信号的频域集中;
基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量;并且
对所述谱信号应用一个或多个动态调节的增益因子,以增强所述语音共振峰分量。
2.根据权利要求1所述的方法,其中,基于使用线性预测编码滤波器寻找谱峰来估计所述语音共振峰分量。
3.根据权利要求1所述的方法,其中,基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。
4.根据权利要求1所述的方法,其中,所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。
5.根据权利要求4所述的方法,其中,根据共振峰检测可靠性来动态地调节所述成形窗口。
6.根据权利要求4所述的方法,其中,根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。
7.根据权利要求4所述的方法,其中,根据所述麦克风信号的信噪比来动态地调节所述成形窗口。
8.根据权利要求1所述的方法,其中,应用所述增益因子以过低估计所述噪声分量,以便减少所述谱信号的共振峰区域中的语音失真。
9.根据权利要求1所述的方法,还包括:
将所述增益因子与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
10.根据权利要求1所述的方法,还包括:
将共振峰增强的谱信号输出到移动电话应用程序和语音识别应用程序中的至少一个。
11.一种语音信号处理系统,包括:
用于接收具有语音信号分量和噪声分量的麦克风信号的语音信号输入部;
用于将所述麦克风信号变换到短期谱信号的频域集中的信号预处理器;
用于基于检测所述谱信号中的高能量密度区域来估计在所述谱信号之内的语音共振峰分量的共振峰估计模块;以及
用于对所述谱信号应用一个或多个动态调节的增益因子以增强所述语音共振峰分量的共振峰增强模块。
12.根据权利要求11所述的系统,其中,所述共振峰估计模块基于在线性预测编码滤波器中寻找谱峰来估计所述语音共振峰分量。
13.根据权利要求11所述的系统,其中,所述共振峰估计模块基于使用多个不同的平滑常数对所述谱信号进行无限脉冲响应平滑来估计所述语音共振峰分量。
14.根据权利要求11所述的系统,其中,所述增益因子是基于被集中在对应于所述语音共振峰分量的频率区域的成形窗口的。
15.根据权利要求14所述的系统,其中,所述共振峰增强模块根据共振峰检测可靠性来动态地调节所述成形窗口。
16.根据权利要求14所述的系统,其中,所述共振峰增强模块根据与所述语音信号分量相关联的对应音素来动态地调节所述成形窗口。
17.根据权利要求14所述的系统,其中,所述共振峰增强模块根据所述麦克风信号的信噪比来动态地调节所述成形窗口。
18.根据权利要求11所述的系统,其中,所述共振峰增强模块应用所述增益因子以过低估计所述噪声分量,以便减少所述谱信号的共振峰区域中的语音失真。
19.根据权利要求11所述的系统,其中,所述共振峰增强模块还将所述增益因子与一个或多个噪声抑制系数进行组合,以提高宽带信噪比。
20.根据权利要求11所述的系统,还包括:
用于将共振峰增强的谱信号提供给移动电话应用程序和语音识别应用程序中的至少一个的处理输出部。
CN201280076334.6A 2012-09-04 2012-09-04 共振峰依赖的语音信号增强 Active CN104704560B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/053666 WO2014039028A1 (en) 2012-09-04 2012-09-04 Formant dependent speech signal enhancement

Publications (2)

Publication Number Publication Date
CN104704560A true CN104704560A (zh) 2015-06-10
CN104704560B CN104704560B (zh) 2018-06-05

Family

ID=46881163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280076334.6A Active CN104704560B (zh) 2012-09-04 2012-09-04 共振峰依赖的语音信号增强

Country Status (4)

Country Link
US (1) US9805738B2 (zh)
CN (1) CN104704560B (zh)
DE (1) DE112012006876B4 (zh)
WO (1) WO2014039028A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060717A (zh) * 2016-05-26 2016-10-26 广东睿盟计算机科技有限公司 一种高清晰度动态降噪拾音器
CN106257584A (zh) * 2015-06-17 2016-12-28 恩智浦有限公司 改进的语音可懂度
US9805738B2 (en) 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
CN108028049A (zh) * 2015-09-14 2018-05-11 美商楼氏电子有限公司 麦克风信号融合
CN110634490A (zh) * 2019-10-17 2019-12-31 广州国音智能科技有限公司 一种声纹鉴定方法、装置和设备
CN111210837A (zh) * 2018-11-02 2020-05-29 北京微播视界科技有限公司 音频处理方法和装置
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法
CN113241089A (zh) * 2021-04-16 2021-08-10 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN116597856A (zh) * 2023-07-18 2023-08-15 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039286A1 (en) * 2013-07-31 2015-02-05 Xerox Corporation Terminology verification systems and methods for machine translation services for domain-specific texts
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
CN107004427B (zh) * 2014-12-12 2020-04-14 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
US11528556B2 (en) 2016-10-14 2022-12-13 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US9813833B1 (en) 2016-10-14 2017-11-07 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
JP7048619B2 (ja) * 2016-12-29 2022-04-05 サムスン エレクトロニクス カンパニー リミテッド 共振器を利用した話者認識方法及びその装置
CN107277690B (zh) * 2017-08-02 2020-07-24 北京地平线信息技术有限公司 声音处理方法、装置和电子设备
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations
US11069331B2 (en) * 2018-11-19 2021-07-20 Perkinelmer Health Sciences, Inc. Noise reduction filter for signal processing
SG11202113071RA (en) * 2019-04-24 2021-12-30 Univ Adelaide Method and system for detecting a structural anomaly in a pipeline network
US11676598B2 (en) * 2020-05-08 2023-06-13 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN112397087B (zh) * 2020-11-13 2023-10-31 展讯通信(上海)有限公司 共振峰包络估计、语音处理方法及装置、存储介质、终端
JP2022180730A (ja) * 2021-05-25 2022-12-07 株式会社Jvcケンウッド 音声処理装置、音声処理方法、及び音声処理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
CN1132153C (zh) * 1995-05-12 2003-12-24 三菱电机株式会社 改善增强语声的滤波器,用该滤波器的装置、系统和方法
EP1850328A1 (en) * 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置

Family Cites Families (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1044353B (it) 1975-07-03 1980-03-20 Telettra Lab Telefon Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici
US4015088A (en) 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4052568A (en) 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4359064A (en) 1980-07-24 1982-11-16 Kimble Charles W Fluid power control apparatus
GB2097121B (en) 1981-04-21 1984-08-01 Ferranti Ltd Directional acoustic receiving array
US4410763A (en) 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
JPH069000B2 (ja) 1981-08-27 1994-02-02 キヤノン株式会社 音声情報処理方法
US6778672B2 (en) 1992-05-05 2004-08-17 Automotive Technologies International Inc. Audio reception control arrangement and method for a vehicle
JPS59115625A (ja) 1982-12-22 1984-07-04 Nec Corp 音声検出器
US5034984A (en) 1983-02-14 1991-07-23 Bose Corporation Speed-controlled amplifying
US4536844A (en) * 1983-04-26 1985-08-20 Fairchild Camera And Instrument Corporation Method and apparatus for simulating aural response information
DE3370423D1 (en) 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4764966A (en) 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
JPH07123235B2 (ja) 1986-08-13 1995-12-25 株式会社日立製作所 エコ−サプレツサ
US4829578A (en) 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4914692A (en) 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
US5220595A (en) 1989-05-17 1993-06-15 Kabushiki Kaisha Toshiba Voice-controlled apparatus using telephone and voice-control method
US5125024A (en) 1990-03-28 1992-06-23 At&T Bell Laboratories Voice response unit
US5048080A (en) 1990-06-29 1991-09-10 At&T Bell Laboratories Control and interface apparatus for telephone systems
JPH04182700A (ja) 1990-11-19 1992-06-30 Nec Corp 音声認識装置
US5239574A (en) 1990-12-11 1993-08-24 Octel Communications Corporation Methods and apparatus for detecting voice information in telephone-type signals
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5155760A (en) 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5349636A (en) 1991-10-28 1994-09-20 Centigram Communications Corporation Interface system and method for interconnecting a voice message system and an interactive voice response system
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH07123236B2 (ja) 1992-12-18 1995-12-25 日本電気株式会社 双方向通話状態検出回路
EP0683916B1 (en) 1993-02-12 1999-08-11 BRITISH TELECOMMUNICATIONS public limited company Noise reduction
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5394461A (en) 1993-05-11 1995-02-28 At&T Corp. Telemetry feature protocol expansion
US5475791A (en) 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
DE4330243A1 (de) 1993-09-07 1995-03-09 Philips Patentverwaltung Sprachverarbeitungseinrichtung
US5627334A (en) * 1993-09-27 1997-05-06 Kawai Musical Inst. Mfg. Co., Ltd. Apparatus for and method of generating musical tones
UA41913C2 (uk) 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US5574824A (en) 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
US5577097A (en) 1994-04-14 1996-11-19 Northern Telecom Limited Determining echo return loss in echo cancelling arrangements
US5581620A (en) 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming
JPH0832494A (ja) 1994-07-13 1996-02-02 Mitsubishi Electric Corp ハンズフリー通話装置
JP3115199B2 (ja) 1994-12-16 2000-12-04 松下電器産業株式会社 画像圧縮符号化装置
US5744741A (en) * 1995-01-13 1998-04-28 Yamaha Corporation Digital signal processing device for sound signal processing
DE69612480T2 (de) 1995-02-15 2001-10-11 British Telecomm Detektion von sprechaktivität
US5761638A (en) 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5784484A (en) 1995-03-30 1998-07-21 Nec Corporation Device for inspecting printed wiring boards at different resolutions
US5708704A (en) 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US5765130A (en) 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6279017B1 (en) 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text
US6009394A (en) * 1996-09-05 1999-12-28 The Board Of Trustees Of The University Of Illinois System and method for interfacing a 2D or 3D movement space to a high dimensional sound synthesis control space
JP3718919B2 (ja) * 1996-09-26 2005-11-24 ヤマハ株式会社 カラオケ装置
JP2930101B2 (ja) 1997-01-29 1999-08-03 日本電気株式会社 雑音消去装置
US6496581B1 (en) 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6018711A (en) 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6098043A (en) 1998-06-30 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved user interface in speech recognition systems
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
WO2000022549A1 (en) 1998-10-09 2000-04-20 Koninklijke Philips Electronics N.V. Automatic inquiry method and system
US6253175B1 (en) * 1998-11-30 2001-06-26 International Business Machines Corporation Wavelet-based energy binning cepstal features for automatic speech recognition
US6246986B1 (en) 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
IT1308466B1 (it) 1999-04-30 2001-12-17 Fiat Ricerche Interfaccia utente per un veicolo
DE19942868A1 (de) 1999-09-08 2001-03-15 Volkswagen Ag Verfahren zum Betrieb einer Mehrfachmikrofonanordnung in einem Kraftfahrzeug sowie Mehrfachmikrofonanordnung selbst
US6373953B1 (en) 1999-09-27 2002-04-16 Gibson Guitar Corp. Apparatus and method for De-esser using adaptive filtering algorithms
US6526382B1 (en) 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US6449593B1 (en) 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6574595B1 (en) 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
DE10035222A1 (de) 2000-07-20 2002-02-07 Bosch Gmbh Robert Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US7171003B1 (en) 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
AU2002224413A1 (en) 2000-10-19 2002-04-29 Lear Corporation Transient processing for communication system
US7117145B1 (en) 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6549629B2 (en) 2001-02-21 2003-04-15 Digisonix Llc DVE system with normalized selection
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
JP2002328507A (ja) 2001-04-27 2002-11-15 Canon Inc 画像形成装置
GB0113583D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
WO2003010995A2 (en) 2001-07-20 2003-02-06 Koninklijke Philips Electronics N.V. Sound reinforcement system having an multi microphone echo suppressor as post processor
US7068796B2 (en) 2001-07-31 2006-06-27 Moorer James A Ultra-directional microphones
US7274794B1 (en) 2001-08-10 2007-09-25 Sonic Innovations, Inc. Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment
US20030088417A1 (en) * 2001-09-19 2003-05-08 Takahiro Kamai Speech analysis method and speech synthesis system
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US7069221B2 (en) 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US7069213B2 (en) 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
DE10156954B9 (de) 2001-11-20 2005-07-14 Daimlerchrysler Ag Bildgestützte adaptive Akustik
EP1343351A1 (en) 2002-03-08 2003-09-10 TELEFONAKTIEBOLAGET LM ERICSSON (publ) A method and an apparatus for enhancing received desired sound signals from a desired sound source and of suppressing undesired sound signals from undesired sound sources
KR100499124B1 (ko) 2002-03-27 2005-07-04 삼성전자주식회사 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
US7065486B1 (en) 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US7162421B1 (en) 2002-05-06 2007-01-09 Nuance Communications Dynamic barge-in in a speech-responsive system
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US6917688B2 (en) 2002-09-11 2005-07-12 Nanyang Technological University Adaptive noise cancelling microphone system
US7424430B2 (en) * 2003-01-30 2008-09-09 Yamaha Corporation Tone generator of wave table type with voice synthesis capability
US20040230637A1 (en) 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
EP1475997A3 (en) 2003-05-09 2004-12-22 Harman/Becker Automotive Systems GmbH Method and system for communication enhancement in a noisy environment
US8724822B2 (en) 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
US7643641B2 (en) 2003-05-09 2010-01-05 Nuance Communications, Inc. System for communication enhancement in a noisy environment
JP4214842B2 (ja) * 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
KR100511316B1 (ko) * 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
EP1591995B1 (en) 2004-04-29 2019-06-19 Harman Becker Automotive Systems GmbH Indoor communication system for a vehicular cabin
JP2008512888A (ja) 2004-09-07 2008-04-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善した雑音抑圧を有する電話装置
DE602004015987D1 (de) 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
WO2006069381A2 (en) 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
DE102005002865B3 (de) 2005-01-20 2006-06-14 Autoliv Development Ab Freisprecheinrichtung für ein Kraftfahrzeug
EP1732352B1 (en) 2005-04-29 2015-10-21 Nuance Communications, Inc. Detection and suppression of wind noise in microphone signals
KR100643310B1 (ko) * 2005-08-24 2006-11-10 삼성전자주식회사 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
EP1850640B1 (en) 2006-04-25 2009-06-17 Harman/Becker Automotive Systems GmbH Vehicle communication system
EP1930879B1 (en) * 2006-09-29 2009-07-29 Honda Research Institute Europe GmbH Joint estimation of formant trajectories via bayesian techniques and adaptive segmentation
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
ATE456130T1 (de) 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
US8000971B2 (en) 2007-10-31 2011-08-16 At&T Intellectual Property I, L.P. Discriminative training of multi-state barge-in models for speech processing
EP2107553B1 (en) 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8385557B2 (en) 2008-06-19 2013-02-26 Microsoft Corporation Multichannel acoustic echo reduction
EP2148325B1 (en) 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
CN101350108B (zh) 2008-08-29 2011-05-25 同济大学 基于位置跟踪和多通道技术的车载通信方法及装置
AU2009295251B2 (en) * 2008-09-19 2015-12-03 Newsouth Innovations Pty Limited Method of analysing an audio signal
EP2211564B1 (en) 2009-01-23 2014-09-10 Harman Becker Automotive Systems GmbH Passenger compartment communication system
US8433568B2 (en) * 2009-03-29 2013-04-30 Cochlear Limited Systems and methods for measuring speech intelligibility
US20120150544A1 (en) * 2009-08-25 2012-06-14 Mcloughlin Ian Vince Method and system for reconstructing speech from an input signal comprising whispers
CN102035562A (zh) 2009-09-29 2011-04-27 同济大学 车载通信控制单元语音通道及语音通信方法
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
US9026443B2 (en) 2010-03-26 2015-05-05 Nuance Communications, Inc. Context based voice activity detection sensitivity
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
US9706314B2 (en) * 2010-11-29 2017-07-11 Wisconsin Alumni Research Foundation System and method for selective enhancement of speech signals
US9805738B2 (en) 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1132153C (zh) * 1995-05-12 2003-12-24 三菱电机株式会社 改善增强语声的滤波器,用该滤波器的装置、系统和方法
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
EP1850328A1 (en) * 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805738B2 (en) 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
CN106257584A (zh) * 2015-06-17 2016-12-28 恩智浦有限公司 改进的语音可懂度
CN113823319A (zh) * 2015-06-17 2021-12-21 汇顶科技(香港)有限公司 改进的语音可懂度
CN113823319B (zh) * 2015-06-17 2024-01-19 汇顶科技(香港)有限公司 改进的语音可懂度
CN108028049A (zh) * 2015-09-14 2018-05-11 美商楼氏电子有限公司 麦克风信号融合
CN106060717A (zh) * 2016-05-26 2016-10-26 广东睿盟计算机科技有限公司 一种高清晰度动态降噪拾音器
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法
CN112424863B (zh) * 2017-12-07 2024-04-09 Hed科技有限责任公司 语音感知音频系统及方法
CN111210837B (zh) * 2018-11-02 2022-12-06 北京微播视界科技有限公司 音频处理方法和装置
CN111210837A (zh) * 2018-11-02 2020-05-29 北京微播视界科技有限公司 音频处理方法和装置
CN110634490A (zh) * 2019-10-17 2019-12-31 广州国音智能科技有限公司 一种声纹鉴定方法、装置和设备
CN110634490B (zh) * 2019-10-17 2022-03-11 广州国音智能科技有限公司 一种声纹鉴定方法、装置和设备
WO2022218254A1 (zh) * 2021-04-16 2022-10-20 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113241089A (zh) * 2021-04-16 2021-08-10 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN116597856A (zh) * 2023-07-18 2023-08-15 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法
CN116597856B (zh) * 2023-07-18 2023-09-22 山东贝宁电子科技开发有限公司 基于蛙人对讲的语音质量增强方法

Also Published As

Publication number Publication date
DE112012006876T5 (de) 2015-06-03
CN104704560B (zh) 2018-06-05
US20160035370A1 (en) 2016-02-04
DE112012006876B4 (de) 2021-06-10
US9805738B2 (en) 2017-10-31
WO2014039028A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
CN104704560A (zh) 共振峰依赖的语音信号增强
US20230419983A1 (en) Post-processing gains for signal enhancement
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
EP2151821B1 (en) Noise-reduction processing of speech signals
CN101878416B (zh) 音频信号的带宽扩展的方法和设备
EP2416315B1 (en) Noise suppression device
US8364479B2 (en) System for speech signal enhancement in a noisy environment through corrective adjustment of spectral noise power density estimations
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US8352257B2 (en) Spectro-temporal varying approach for speech enhancement
US10043533B2 (en) Method and device for boosting formants from speech and noise spectral estimation
GB2398913A (en) Noise estimation in speech recognition
CN101636648A (zh) 采用感知模型的语音增强
US8843367B2 (en) Adaptive equalization system
CN111091833A (zh) 一种降低噪声影响的端点检测方法
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
JP2000122695A (ja) 後置フィルタ
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
EP2660814B1 (en) Adaptive equalization system
WO2015027168A1 (en) Method and system for speech intellibility enhancement in noisy environments
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
CN104703108A (zh) 一种处于噪声条件下的数字助听器宽动态压缩算法
Upadhyay et al. Single-Channel Speech Enhancement Using Critical-Band Rate Scale Based Improved Multi-Band Spectral Subtraction
US11227622B2 (en) Speech communication system and method for improving speech intelligibility
Seyedin et al. Robust MVDR-based feature extraction for speech recognition
Krishnamoorthy et al. Processing noisy speech for enhancement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200922

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts, USA

Patentee before: Nuance Communications, Inc.

TR01 Transfer of patent right