CN103765511A - 嘈杂语音信号中的脉冲干扰的单信道抑制 - Google Patents

嘈杂语音信号中的脉冲干扰的单信道抑制 Download PDF

Info

Publication number
CN103765511A
CN103765511A CN201180073151.4A CN201180073151A CN103765511A CN 103765511 A CN103765511 A CN 103765511A CN 201180073151 A CN201180073151 A CN 201180073151A CN 103765511 A CN103765511 A CN 103765511A
Authority
CN
China
Prior art keywords
time
signal
frequency
energy
derivative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201180073151.4A
Other languages
English (en)
Other versions
CN103765511B (zh
Inventor
T·沃尔夫
C·霍夫曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes operations
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN103765511A publication Critical patent/CN103765511A/zh
Application granted granted Critical
Publication of CN103765511B publication Critical patent/CN103765511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本文公开了用于减少信号中的脉冲干扰的方法和装置,无需确定信号中的基音频率,通过搜索高能量分量的频谱寻找沿着频率相关并且从非常低的频率扩展可能直到大约若干kHz的较大的时间导数,来检测脉冲干扰的起始。估计脉冲干扰的能量,并且将这些估计用于抑制脉冲干扰。可选地,利用技术来保护期望的语音信号,避免其由于对脉冲干扰的抑制而被损坏。

Description

嘈杂语音信号中的脉冲干扰的单信道抑制
技术领域
本发明涉及信号处理,更具体地说,涉及嘈杂语音信号中的脉冲干扰的抑制。
背景技术
脉冲干扰是一个过程,其特点是一个或多个短脉冲的突发,这些短脉冲的幅度、持续时间和发生时刻是随机的。在诸如汽车之类的嘈杂环境中使用的处理人类语音信号的系统(诸如自动语音识别(ASR)系统)可能诸如由于道路颠簸或来自打开的窗户的风的冲击而遭受脉冲干扰。在有风的环境或冲突地带中使用的移动通信设备和其它基于麦克风的系统提供了遭受脉冲干扰的系统的其它示例。
传统的单信道噪声抑制算法通常能够抑制静态的(即连续的)噪声,诸如汽车引擎噪声,这是因为这些静态的噪声可以相对容易地与语音信号中进行区别。然而,一大类脉冲干扰呈现出较高的非静态特征,非常类似于语音信号,因此无法使用标准的单信道噪声降低算法来进行抑制。实际上,当存在脉冲干扰时应用标准的单信道噪声降低算法常常降低了语音识别性能和易用性。
风噪声会尤其成问题。例如,即使在安静的环境中,例如直接在麦克风的炭精盒中也可能产生风噪声。因而,麦克风的用户甚至可能未意识到这个问题,并因此可能不会诸如通过更大声地讲话来对该噪声进行补偿。在一些情况下,多麦克风系统能够抑制在其中一个麦克风中所产生的风噪声。然而,许多重要的应用仅需要单个麦克风,因此不易受多麦克风解决方案的影响。
存在一些针对非静态噪声降低的时域方法。提出了所谓的模板或原型(例如,[2]、[3]),用于通过移除瞬间变化来恢复旧记录。Vaseghi[2]提出一种用于检测的方法,其包括:针对各个模板的匹配的滤波器、其后跟着利用插入器的移除。然而,恢复旧记录不必实时地执行。因此,在这些上下文中能够利用非因果滤波器,而不像上文所预期的应用。Godsill使用统计的方法,并将信号和干扰建模为由两个独立且恒等分布(i.i.d.)的变量激励的两个自动语音识别过程。在高斯过程[3]中,通过使用上述的模型跟踪Kalman滤波器的期望信号分量的轨迹来执行移除。
关于该课题(尤其致力于风噪声的移除)的较新的出版物是由King和Atlas出版的[4]。所提出的概念完全依赖于计算开销高昂的最小二乘谐波(LSH)基音估计,如在[5]中所提出的。(“基音”或“基音频率”在此指的是信号的基本的或其它单个频率分量。例如,发出的元音声的语音信号包含基音频率和典型的与该基因频率谐波相关的若干其它频率。基音频率能够在发声的开始和结束之间变化。)LSH语音模型的失配与能量约束一起提供了用于干扰检测的证据。在缺乏有声语音的情况下,应用大约4kHz处简单的高通来切断所有的风噪声。在存在有声语音的情况下,通过将低阶梳状滤波器应用到已解调到基带上的子带信号来移除风噪声。然后,将有声语音的分段重新合成。如果可以获得对基本频率(基音)的足够好的估计,则梳状滤波能够有效地减少谐波语音频谱的间隙中的任何类型的宽带噪声,包括风噪声。然而,针对语音增强的基音自适应滤波是公知手段[1]。实际上,从嘈杂的语音信号中得到准确且健壮的基音估计在实践中是一项困难的任务。
在2009年,Nemer和Leblanc(Broadcom公司)提出了基于线性预测来检测风噪声[7]。他们观察到可以使用低阶预测器来较好地对风进行建模,这是由于对风来说没有谐波结构。然而,对于语音来说,较高的预测器阶数是必要的。这可以用于将语音与风噪声区别开来,因此可以设计抑制滤波器。例如,参见专利公开No.US2010/0223054。
在由Elsevier在Speech Communication(语音通信)48(2006)96-109中出版的“Speech enhancement in nonstationary noise environments usingnoise properties”中,Kotta Manohar等人讨论了要将后处理方案应用于短时间频谱衰减(STSA)语音增强算法。
在由Hindawi出版公司在EURASIP期刊中关于图像和视频处理的第2008卷、文章ID970353中出版的“Edge-Detected Guided MorphologicalFilter for Image Sharpening”中,T.A.Mahmound等人描述了用于锐化数字图像的边缘引导的形态滤波器。
在由Elsevier学术出版社在2005年出版的、由A.C.Bovik编著的名称为“The Image and Video Processing Handbook”第二版的图书的第135-156页的第3.3章中,Petros Maragos讨论了用于图像增强和特征检测的形态滤波器。
Hetherington等人提出了用于风的冲击抑制的另一种方法,其可从Research In Motion公司的子公司QNX Sofware Systems GmbH&Co.KG的Wavemakers部门获得。例如,参见专利No.US7,895,036、专利No.US7,885,420、专利公开No.US2011/0026734和专利公开No.EP1 450 354B1。其方法的核心思想是针对风的相当简单的频谱模型。具体地,风模型在对数频谱中构成一条直线,该直线在低频率处具有负斜率,直到频谱能量由背景噪声控制的点。使用该模型和信号帧之间的各种相似性度量来将输入帧分类为风、风和语音、或仅风。此外,该模型使得能够使用该模型的频谱形状来进行噪声抑制。还提出了通过在来自无声帧的模型的瞬时估计上进行平均来形成长期估计。
除了所利用的线性模型之外,信号频谱中依赖基音频率的脉动被首先检测到,然后使其被保护以避免被干扰减小所抑制。该机制的实际实现检测振幅频谱中的峰值,并测量每个峰值的宽度。频谱较窄并且时间上缓慢变化的峰值指示有声语音,而频谱较宽并且快速变化的峰值指示风。
此外,使用离散余弦变换(DCT)来沿着频率轴测量峰值之间的谐波关系[6]。如果将DCT应用到对数频谱,则这直接转换成基于倒频谱的基音估计。在19世纪60年代后期已经提出了这种基音跟踪方法。
因此,该方法是建立在所假定的基音频率的知识与简单的频谱模型一起的基础上的。未发现属于期望信号的信号分量被抑制。这种抑制是通过在短时傅立叶变换域中利用频谱加权实现的。因此,可以结合常规的噪声降低来使用风噪声抑制。
不幸的是,用于减少脉冲干扰的这些现有技术的方法受到一个或多个缺点的影响。例如,由Hetherington描述的方法需要以某种方式考虑语音信号的基音。
发明内容
本发明的实施例提供了一种用于减少信号中的脉冲干扰的方法。该方法自动执行若干操作,其中包括识别该信号的高能量分量。识别高能量分量,使得所识别出的高能量分量中的每一个的能量超过预定的阈值。识别所识别出的高能量分量的时间导数。对所识别出的时间导数进行形态滤波。对所识别出的时间导数进行形态滤波包括:检测所述脉冲干扰的起始以及估计所述信号中的干扰能量。所述检测和估计是至少部分地基于所识别出的时间导数。基于所估计出的干扰能量,抑制信号的一部分。
识别高能量分量可以包括:确定所述阈值,使得所述阈值低于所述信号的频谱包络。可选地或替换地,可以至少部分地基于所述信号的频谱包络以及至少部分地基于所述信号中的静态噪声的功率谱密度来确定该阈值。在第一条件下,所述阈值可以是所计算出的低于所述信号的所述频谱包络的值,在第二条件下,所述阈值可以是所计算出的高于所述静态噪声的所述功率谱密度的值。
所识别出的时间导数中的每个时间倒数可以与一频率范围相关联。与所识别出的所述时间导数相关联的所述频率范围共同形成在预定的频率(诸如大约100Hz或大约200Hz)之下开始的连续范围的频率。在所述连续范围的频率中可以允许间隙。如果是这样的,则每个间隙小于预定的大小。
识别所述时间导数可以包括:在所识别出的所述高能量分量的频谱中识别近似的时间导数的区域。即,在频率或频率范围方面,所述时间导数中的每一个可以紧挨着或靠近所述时间导数中的另一个。
识别所述多个时间导数可以包括识别超过预定值的时间导数。
对所识别出的所述多个时间导数进行形态滤波可以包括:对所识别出的所述时间导数应用二维图像滤波器。
该方法可以包括对所识别出的所述多个时间导数进行二值化,即,将每个时间导数转换为两个二进制值中的一个,诸如0和1。
估计所述干扰能量可以包括:针对至少预定的时间段,基于所述信号的功率谱密度初始估计所述干扰能量,以及在此后,对所估计出的干扰能量施加时间单调衰减。
对所识别出的所述时间导数进行形态滤波可以包括:至少部分地基于所估计出的干扰能量,计算干扰频段的值。检测所述脉冲干扰的起始可以包括:至少部分地基于所计算出的针对先前的时间帧的所述干扰频段的值来检测所述脉冲干扰的所述起始。
该方法可以包括后处理操作,在后处理操作中,确定起始频率,并且自动修改所估计出的干扰能量,以便在所确定的起始频率处开始,针对逐渐变高的频率实行逐渐变小的所估计出的干扰能量。
可选地,可以计算信号与干扰比(SIR)和/或总干扰与噪声比(INR)。可以基于所计算出的SIR和/或INR,调整影响如何修改所估计出的干扰能量的操作参数。
该方法可以包括自动地计算信号与干扰比(SIR)和/或总干扰与噪声比(INR)。可以基于所计算出的SIR和/或INR,调整所述起始频率。
本发明的另一实施例提供了用于减少信号中的脉冲干扰的滤波器。该滤波器包括:高能量分量识别器、耦合到所述分量识别器的时间微分器、耦合到所述时间微分器的形态滤波器、以及耦合到所述形态滤波器的噪声降低滤波器。所述高能量分量识别器被配置为:识别所述信号的高能量分量,使得所识别出的高能量分量中的每一个的能量超过预定的阈值。所述时间微分器被配置为识别所识别出的高能量分量的时间导数。所述形态滤波器被配置为:至少部分地基于所识别出的时间导数,检测所述脉冲干扰的起始并估计所述信号中的干扰能量。所述噪声降低滤波器被配置为:基于所估计出的干扰能量,抑制所述信号的一部分。
所述预定的阈值可以低于所述信号的频谱包络。可选地或替换性地,所述预定的阈值可以至少部分地基于所述信号的频谱包络,以及至少部分地基于所述信号中的静态噪声的功率谱密度。在第一条件下,所述阈值可以是所计算出的低于所述信号的所述频谱包络的值,并且在第二条件下,所述阈值可以是所计算出的高于所述静态噪声的所述功率谱密度的值。
所识别出的时间导数中的每个时间倒数可以与一频率范围相关联。与所识别出的所述时间导数相关联的所述频率范围共同形成在预定的频率(诸如大约100Hz或大约200Hz)之下开始的连续范围的频率。所述连续范围的频率可以包括小于预定大小的至少一个间隙。所述时间微分器可以被配置为:通过在所识别出的所述高能量分量的频谱中识别近似的时间导数的区域来识别所述时间导数。即,在频率或频率范围方面,所述时间导数中的每一个可以紧挨着或靠近所述时间导数中的另一个。
所述时间微分器可以被配置为:识别时间导数,使得所识别出的时间导数中的每一个超过预定值。
所述形态滤波器可以被配置为:对所识别出的时间导数应用二维图像滤波器。
所述形态滤波器可以被配置为:对所识别出的时间导数进行二值化,即,将每个时间导数转换为两个二进制值中的一个,诸如0和1。
所述形态滤波器可以被配置为:通过针对至少预定的时间段,基于所述信号的功率谱密度初始估计所述干扰能量,以及在此后,对所估计出的干扰能量施加时间单调衰减,来估计所述干扰能量。
所述形态滤波器可以被配置为:至少部分地基于所估计出的干扰能量,计算干扰频段的值。所述形态滤波器可以被配置为:至少部分地基于所计算出的针对先前的时间帧的所述干扰频段的值来检测起始。
可选地,所述滤波器可以包括后处理器,该后处理器被配置为自动地确定起始频率,并且修改所估计出的所述干扰能量,以便在预定的起始频率处开始,针对逐渐变高的频率实行逐渐变小的所估计出的干扰能量。
可选地,该滤波器可以包括:耦合到所述后处理器的后处理器控制器。该后处理器控制器可以被配置为:自动地计算信号与干扰比(SIR)和/或总干扰与噪声比(INR)。后处理器控制器还可以被配置为:自动地调整影响如何修改所估计出的多个干扰能量的操作参数。所述后处理器控制器还可以被配置为:自动地调整起始频率。在上述两者中的任一情况下,可以基于所计算出的SIR和/或INR来进行自动调整。
本发明的另一个实施例提供了一种用于减少信号中的脉冲干扰的计算机程序产品。该计算机程序产品包括非暂时性计算机可读介质。在所述计算机可读介质上存储了计算机可读程序代码。所述计算机可读程序代码包括:用于识别该信号的高能量分量的程序代码。所识别出的高能量分量中的每一个的能量超过预定的阈值。所述计算机可读程序代码还包括:用于识别所识别出的高能量分量的时间导数的程序代码。所述计算机可读程序代码还包括:用于对所识别出的时间导数进行形态滤波的程序代码,所述形态滤波包括至少部分地基于所识别出的时间导数,检测所述脉冲干扰的起始以及估计所述信号中的干扰能量。所述计算机可读程序代码还包括:;用于基于所估计出的干扰能量,抑制所述信号的一部分的程序代码。
本发明的其它实施例提供了用于计算总干扰与噪声比(INR)并至少部分地基于所计算出的INR来检测干扰的方法和装置。本发明的其它实施例提供了用于计算信号与干扰比(SIR)并至少部分地基于所计算出的SIR检测语音的方法和装置。
附图说明
通过结合附图参考随后的具体实施方式的具体描述,将更完全地理解本发明,其中:
图1示出了在假定的信号中的假定的脉冲干扰的起始。
图2是具有偶尔的风冲击的语音信号的实际的频谱图。
图3是根据本发明的实施例,在图2的频谱图中识别高能量分量的实际结果。
图4是图3中示出的结果的子集。
图5根据本发明的实施例描绘了图4中的信号的时间导数。
图6描绘了图4中的信号的频谱导数。
图7是根据本发明的实施例,用于减少信号中的脉冲干扰的系统的概述示意框图。
图8是根据本发明的实施例,在图7的形态干扰估计器中的串行的起始检测和干扰估计的示意框图。
图9是根据本发明的另一实施例,在图7的形态干扰估计器中的反馈回路的示意框图。
图10根据本发明的实施例描绘了在图5中的时间导数被阈值化之后检测到的起始。
图11描绘了根据本发明的实施例,在形态滤波之后的图10中的起始。
图12是根据本发明实施例,如用于递归形态过滤的邻居小区(像素)的示意框图。
图13是根据本发明实施例,如用于递归干扰能量估计的邻居小区(像素)的示意框图。
图14示出了在对图5中的时间导数的形态滤波之后的起始。
图15示出了根据本发明实施例的、使用图9中的递归形态滤波器根据图14中的结果产生的干扰估计。
图16示出了在生成图15中示出的结果的同时所产生的干扰频段。
图17示出了根据本发明的实施例,在后处理之前的初始干扰估计。
图18示出了根据本发明的实施例,在后处理之后的干扰估计。
图19是具有偶尔的风冲击的语音信号的实际频谱图。
图20示出了根据本发明的实施例,可以用于针对图19中的频谱图,检测干扰和语音的存在的各种比率。
图21是示出本发明的一些实施例和替代选择的操作的示意流程图。
具体实施方式
根据本发明优选的实施例,公开了用于在无需确定信号中的基音频率的情况下,减少信号中的脉冲干扰的方法和装置。估计脉冲干扰的能量,然后通过减少信号中被发现由脉冲干扰贡献的频率的能量来抑制脉冲干扰。可选地,作为抑制脉冲信号的结果,采用技术来保护期望信号以免遭破坏,即,降低语音信号被误认为脉冲干扰或以其它方式被无意地弱化的程度。
概述
诸如语音信号之类的信号由频率分量组成。每个频率分量具有一能量级别。随着时间,例如在一个词或一个音素的发音期间,在信号中发现的频率和每个频率分量的能量级别可以变化。我们已经发现许多脉冲干扰的起点的特征在于在某一组频率分量(在本申请中称为一组频率分量或一组频率)中的能量的较大的、突然的变化。我们将随着时间的变化称为“时间导数”,并且我们将能量中这些较大的、突然的变化的起点称为“起始”。图1是针对单个频段的能量时间图,其示出了在假定的信号106中的脉冲干扰的被限定在虚线100和103之间的假定的起始。要注意的是,该起始可以被脉冲干扰短得多。干扰起始中的频率分量指示组的特征在于相对高的能量级别和连续的或几乎连续的频率(在本申请中统称为连续的频率、近似的频率、连通的频率或连通的区域),从非常低的频率扩展可能一直到大约若干kHz。从而,我们说通过搜索高能量分量的频谱寻找沿着频率相互关联并且从非常低的频率扩展可能一直到大约若干kHz的较大的时间导数,可以检测到许多脉冲干扰。
图2是具有偶尔的风冲击的语音信号的实际频谱。x轴代表以时间帧索引(在图2中,每个时间帧索引代表大约11.6毫秒,虽然也可以使用其它的值)表示的时间,y轴代表任意编号的频带(频段)。灰色的阴影代表能量级别,其中,白色代表没有能量,黑色代表最大的能量。描绘了风冲击200的示例和示例性的语音203,虽然在图2中代表的数据包括其它的风冲击和其它的语音。要注意的是,风冲击200包含连续的或接近连续的频率组,而语音203包含由间隔分隔开的若干谐波相关的频率分量。图3描绘了图2中的信号的高能量分量。图4包含图3中代表的数据的子集(在y轴中仅频段0至60)。图5描绘了图3中的信号的时间导数。图5中的灰色阴影代表导数值,其中,中度灰代表0,黑色代表较大的正值,白色代表较大的负值。在图2-5中,x轴是相同的。通过画圈的垂直的连通的区域500来标识风起始。
如所指出的,脉冲干扰趋向于包括一组连续的或接近连续的频率。相比之下,语音信号趋向于包括基音频率加上与该基音频率谐波相关的若干其它频率,其在谐波相关的频率之间的频率处没有能量或具有相对低级别的能量。例如,在图2和图3中示出的示例性语音203中,一组谐波相关的频率是明显的。从而,如果想要计算语音信号的能量级别随着频率而不是随着时间的变化,其将在通常在语音信号中找到的频率范围上找到若干较大的变化(“频率导数”)。因为语音信号不倾向于满足我们针对连续的或几乎连续的频率组的要求,所以我们的方法和装置不倾向于将语音信号误认为脉冲干扰。如所指出的,我们的方法和装置不需要确定信号中的基音频率。
图7是本发明的实施例700的概述示意框图,其示出了在本申请中描述的通用原理中的一些。输入信号x(κ)由在固定的时间间隔(“时间帧”)处得到的一系列采样组成,其中,“k”是时间帧索引。将输入信号x(κ)的每个采样划分成频带,以产生功率谱密度(PSD)。即,在每个时间帧k处,输入信号x(κ)在每个频带包含相当数量的能量,k表示离散的数据帧,μ表示离散的频带(“频段”)。虽然在图7中示出的实施例包括一组滤波器703,以产生PSD,但是,用户估计PSD的任何适当的机制或方法将是可接受的。一些这样的机制和方法使用滤波器组,而其它的机制和方法不使用。可以利用实际能量级别的对数来表示能量级别。从而,可以将PSD称为对数频谱。
能量阈值检测器706识别高能量分量,即能量超过阈值的频带(频段)。时间导数计算器709识别频谱中能量迅速上升的区域。形态干扰估计器712确定从非常低的频率可能一直扩展到大约若干kHz的连续的或几乎连续的频率或频带组全部都经历了迅速上升的能量。如果是这样,则将迅速上升的能量的起点(时间上的)认为是诸如风冲击之类的脉冲干扰的起始。形态干扰估计器712针对脉冲干扰的持续时间估计每个频带(频段)中的能量的数量。利用
Figure BDA0000471101100000101
来代表脉冲干扰中所估计的能量的数量。
在一些实施例中,形态干扰估计器712将时间导数计算器709的输出当作二维图像,其中,时间索引(k)代表一个维度,频带(频段)(μ)代表图像的其它维度。然后,形态干扰估计器712可以使用图像处理技术来将具有上文描述的频率特征(从非常低的频率可能一直扩展到大约若干kHz,具有很少的间隙或没有间隙)的时间导数“图像”中的连通的区域识别为脉冲干扰。
一旦已经估计出了干扰能量,可以在频谱加权框架中使用该估计,以抑制干扰,并且从而增强语音。即,可以从信号减去所估计出的能量,以产生抑制了脉冲干扰的(“增强的”)信号。但是,我们优选采取额外的措施来保护语音信号,避免其被扭曲。因此,我们优选地包括后处理器715。后处理器715修改脉冲干扰能量估计,并且将由Φii(κ,μ)代表的经修改的估计馈送至噪声降低滤波器718。噪声降低滤波器718将经修改的估计从输入信号x(κ)减去,以产生增强的信号。可选地,基于诸如关于语音、风和/或其它信号的信息或干扰信息之类的外部信息,可以由控制器721控制后处理器715。在任何情况下,后处理是可选的。
如在图8中示意性示出的,如上文描述的,可以串行地执行针对给定时间帧的起始检测800和干扰估计803。但是,我们优选在形态干扰估计器中包括反馈回路,如在图9中所描绘的。如下文更详细讨论的,除了起始检测900和干扰估计903之外,在反馈回路中,“干扰频段”被确定906并且被存储909,然后,在接下来的时间帧中在起始检测900期间使用。
高能量分量检测
我们关注于高能量分量,因为我们想要找到构成由脉冲干扰所导致的时间频率图像中连通的区域的起始,我们不想语音被误认为这样的起始。当存在较高的SNR时,一些语音起始(诸如在浊音期间)可能看上去包含连通的区域,这些明显的连通的区域可能被误认为脉冲干扰的起始。语音初始可能看上去包含连通的区域,这是因为诸如图7中的滤波器703之类的常用的分析滤波器组通常展现出来自相邻频带的、由其带通滤波器的有限选择所导致的分量的一些混淆。从而,能量可能泄漏到语音的谐波相关的频率之间的间隙中,从而使得语音看上去包含连通的区域。
语音可以包括高能量分量。但是,语音的谐波相关的分量之间的间隔包含很少的能量,如在图2中示出的示例性语音203中所显而易见的。因此,当仅考虑高能量分量时,在谐波相关的语音分量之间的间隔与谐波分量相比更强烈,并且避免了谐波分量被识别为一组连续的频率。从而,通过关注于高能量分量,我们通常避免了被语音混淆。
在另一方面,风冲击和其它脉冲干扰趋向于包括连续的频率组,并且从而其不被排除在外。因此,我们优选地通过首先识别输入信号中的高能量分量来识别脉冲干扰的起始。
在本发明的实施例中使用的基本量Ψhe(κ,μ)是包括具有相对高能量的信号分量的对数频谱。在此,k表示时间帧的离散索引,μ是频谱的子带索引。在这个上下文中,“高能量”指的是输入信号Φxx(κ,μ)的PSD超过阈值T。在一个实施例中,将阈值设置为低于输入信号的频谱包络Henv(κ,μ)的值,例如20dB。当然,该频谱包括可以随着时间变化,但是,相对应脉冲干扰的长度,该变化是缓慢的。如下文所描述的,可以使用其它的阈值或更复杂的阈值。根据一些实施例,根据方程(1)来计算对数频谱
Ψ he ( κ , μ ) = max [ log ( Φ xx ( κ , μ ) max [ T · H env ( κ , μ ) , β · Φ nn ( κ , μ ) ] ) , 0 ] - - - ( 1 )
在此,Φnn(κ,μ)表示静态噪声的PSD,并且β是过高估计因子。如果存在较高的信号与噪声功率比(SNR),则Ψhe(κ,μ)不依赖于Φnn(κ,μ),因为静态噪声分量相对较小,因此项max[T·Henv(κ,μ),β·Φnn(κ,μ)]回到T·Henv(κ,μ)。仅Φxx(κ,μ)中的较大峰值超过T·Henv(κ,μ),从而仅针对这些较大的峰值,对数项超过0。在较慢的SNR情况下,即,当静态噪声相对较高时,项max[T·Henv(κ,μ),β·Φnn(κ,μ)]回到β·Φnn(κ,μ),因此Ψhe(κ,μ)包含超过噪声PSDΦnn(κ,μ)因子β的信号分量。在静态噪声期间,针对Ψhe(κ,μ)方程(1)应该返回0。
时间和频谱导数
如所指出的,计算高能量分量的时间导数以识别起始。原则上,也可以沿着频率轴计算导数。但是,对于本申请中公开的方法和装置,这不是必需的。不过,考虑风冲击在计算频谱导数之后如何出现可能是有启发性的。可以利用若干运算符中的任何一下来计算导数。例如,索贝尔(Sobel)、坎尼(Canny)和普瑞维特(Prewitt)是在图像处理中使用的公知算子。也可以使用其它的算子。可以利用其滤波器的内核D来定义算子。根据方程(2)和(3),可以利用离散二维卷积来获得经过滤波的图像。
Gk(κ,μ)=Ψhe(κ,μ)*Dκ    (2)
Gk(κ,μ)=Ψhe(κ,μ)*Dμ    (3)
对于Sobel算子,在方程(4)中给出了针对时间导数(Dκ)和频谱导数(Dμ)的滤波器内核。
D κ = 1 0 - 1 2 0 - 2 1 0 - 1 and D μ = 1 0 - 1 2 0 - 2 1 0 - 1 - - - ( 4 )
这些内核引入了帧延迟,但是产生了良好的结果。与过去的值一起,仅使用当前的时间帧的其它的内核,可以提供较低延迟的算法。但是,使用这样的内核降低了最终系统的性能。如所指出的,图4包含了在图3中表示的数据的子集(仅频段0至60)。图5描绘了图4中的信号的时间导数,其使用Sobel算子产生,并且图6描绘了图4中信号的频谱导数,其也是使用Sobel算子产生的。如所指出的,针对所公开的方法和装置,不需要计算频谱导数。
形态干估计
我们将起始检测和干扰估计统称形态干扰估计。如所指出的,可以串行地执行起始检测和干扰估计,如针对图8所讨论的,并且,可选地,可以在这些操作之间使用反馈回路,如针对图9所讨论的。
起始检测
起始检测可以包括若干阶段。我们优选地通过将阈值函数应用到高能量分量的时间导数Gκ(κ,μ)上来开始。阈值函数产生了由方程(5)定义的二进制图像Gbin(κ,μ)。
G bin ( κ , μ ) = 1 G κ ( κ , μ ) > T bin 0 G κ ( κ , μ ) ≤ T bin - - - ( 5 )
该二进制图像中的1指示时间导数中具有大于Tbin的斜率的部分,并且0指示小于或等于该阈值的部分。我们已经发现大约1dB的Tbin是足够的。明显更高的值可能导致错过一些干扰。图10示出了将阈值函数应用到图5中的时间导数上的结果。二进制图像Gbin(κ,μ)仅包含1和0。在图10中的图像中,黑色代表1,白色代表0。
然后,形态滤波可以用于提取连通的区域,我们将这些连通的区域当作脉冲干扰。例如,可以利用诸如膨胀、腐蚀、开启和关闭之类的传统形态操作来增强二进制图像中的期望结构(连通的区域),即实质上找到二进制图像中的期望结构(连通的区域)中的边缘和/或增加其对比。
我们优选地将诸如由方程(6)定义的滤波器之类的递归形态滤波器应用到上文所计算的二进制图像Gbin(κ,μ)。
Figure BDA0000471101100000141
该滤波器的内核由方程(7)定义。
M = 1 0 2 1 1 0 - - - ( 7 )
该递归形态滤波器不仅将当前的二进制图像小区(像素)Gbin(κ,μ)考虑在内,还将在其中邻居可能在频率(μ)和/或时间(κ)方向背离当前小区的相邻小区考虑在内,如图12中所示出的。将图12中的小区内容与方程(6)中的项进行比较。
我们已经发现Tmorph=2提供了良好的结果,但是可以使用其它值。利用方程(7)的内核和Tmorph=2,为了使形态滤波器检测在给定频段Gbin(κ,μ)处的起始,该频段以及其邻居中的至少一个必须等于1,或者该频段可以等于0,但是其所有3个邻居必须等于1。也可以以不同地方式选择内核来修改上述行为。
可以例如根据表1中示出的条件来激活和去激活由方程(6)定义的滤波。
Figure BDA0000471101100000143
图11描绘了在形态滤波之后图10中的起始。
干扰估计
如所指出的,需要对脉冲干扰的能量进行估计,使得使用适当的滤波手段可以抑制相应的信号分量。一旦已经确定出干扰的起始,则基于上文描述的起始检测,估计出干扰能量。本质上,上述起始被用于触发干扰能量估计过程。针对每个时间帧估计干扰能量PSD。
在脉冲干扰的开始处,输入信号中的频谱能量通常迅速增加,至少达相对较短的时间段,直到干扰的信号能量稳定较短的时间或者立即开始下降。要注意的是,脉冲干扰相对短暂,从而由干扰引起的信号能量将在干扰起始之后的立刻开始下降,例如在图1中示出的假定信号106中的部分109中的。一旦已经检测到起始,而信号能量正在增加,如在部分112期间,我们假定整个输入信号是脉冲干扰的结果,我们将干扰能量估计生成为等于输入信号的整个频谱能量。但是,一旦起始已经过去并且输入信号能量不再增加,例如在部分112期间,则我们假定输入信号能量中的任何下降都是由于脉冲干扰的下降引起的,并且我们相应地降低所估计出的干扰能量。
为了允许输入信号包括语音的可能性,否则上述语音将与干扰能量的移除一起被移除,一旦输入信号能量不再增加,则我们对所估计出的干扰能量施加单调衰减,我们再次避免估计增加知道该估计已经完全被衰减,即,直到该估计已经被减少到预定的或所计算出的值,例如0或当时的静态噪声级别。
从而,针对起始的持续时间,我们将干扰能量
Figure BDA0000471101100000161
估计为等于输入信号PSD Φxx(κ,μ)。在该起始已经过去后,我们跟踪输入信号PSD Φxx(κ,μ)达若干个时间帧,优选地,达两个时间帧。在该时间期间,所估计的干扰能量保持等于输入信号PSD。如果使用Sobel算子,则由于Sobel内核测量跨越两帧的导数,所以使用至少两帧来跟踪是合理的。在跟踪时期之后,仅允许能量估计下降,不允许其再次增加,直到其完全衰减。可以根据方程(8)来实现上述衰减。
Φ ~ ii ( κ , μ ) = max ( min ( α t · Φ ~ ii ( κ - 1 , μ ) , Φ xx ( κ , μ ) ) , Φ nn ( κ , μ ) ) - - - ( 8 )
在此,αt是正常数,比1小,其用于控制衰减的速度。最大算子避免
Figure BDA0000471101100000164
降到静态噪声PSD
Figure BDA0000471101100000165
以下。
递归形态干扰估计
可以将上文描述的两个操作(起始检测和干扰估计)顺序地执行为分离的操作(如针对图8所讨论的)或者,如所指出的,可以利用反馈回路将其互联(如针对图9所讨论的)。在使用这样的反馈回路的情况下,针对给定时间帧的计算可以使用来自一个或多个先前的时间帧的数据,从而引入了递归元素。我们已经发现这样的递归可以显著地改进起始检测和干扰估计。例如,我们相信如果紧挨着的先前的时间帧包括干扰,则一时间帧更可能包括干扰。具体地,我们发现计算反馈回路内部的我们所称的“干扰频段”是有用的,如下文所讨论的。
干扰脉冲持续较短的、但是有限的时间量。因此,单个干扰可以横跨若干连续的时间帧,并且从而可以在若干连续的时间帧中被检测到。在由频段组成的时间频率平面中,干扰频段是针对其可以假定干扰存在直到干扰频段的时间帧的频段。利用形式为Wi(κ,μ)的二进制掩码来表示干扰频段,并且在递归过程中确定该掩码的值。即,一个时间帧的干扰频段的值取决于在过去的时间帧中的至少一个干扰频段,例如Wi(κ-1,μ)。根据一个实施例,可以根据方程(9)来计算干扰频段。
Figure BDA0000471101100000171
因此,通过将如下中的一项或多项考虑在内可以计算干扰频段:干扰估计(至少达到到目前为止在当前的时间帧中已经计算出估计的程度)、关于高能量分量的信息、当前的起始以及干扰估计超过背景噪声的程度。当然,在干扰频段计算中也可以包括其它因素;但是,我们发现方程(9)提供了良好的结果。
在连通的起始区域的频率方向中可能发生相对小的间隙,甚至是在干扰中。可以填充这样的间隙,只要其足够小,即比预定的大小(极限)更小。但是,如果该间隙大小超过了该大小极限,则应当将高于该间隙的所有干扰,即位于比该间隙高的频率处的所有干扰设置为0,这是因为可以假定高于较大间隙的频段不属于干扰并且高于较大间隙的频段由于不同于当前所检测到的干扰的信号分量而出现。
如说指出的,递归使用来自先前的时间帧的信息来计算针对当前的时间帧的值。根据一个实施例,通过修改方程(6),可以在形态干扰估计器中实现递归。利用干扰频段Wi(κ-1,μ)来代替方程中的Gbin(κ-1,μ),产生了方程(10)。
Figure BDA0000471101100000172
由方程(10)定义的滤波器项包括当前的二进制图像小区(像素)Gbin(κ,μ)和相邻的小区,其中,邻居可能在频率(μ)和/或时间(κ)方向背离当前的小区,如图13中所示出的。
如方程(6)一样,方程(10)是四项的线性组合,其结果与阈值进行比较。如利用方程(6),我们发现Tmorph=2提供良好的结果。图14示出了使用上文所描述的递归干扰估计过程,在图5的时间导数的形态滤波之后的起始Gon(κ,μ)。图14(递归形态滤波)与图10(非递归形态滤波)的比较揭示了:在识别起始方面,递归形态滤波经常更高。图15示出了使用递归形态滤波器,由图14的结果产生的干扰估计图16示出了在生成图15中示出的结果的同时产生的干扰频段Wi(κ,μ)。
后处理
回想将使用干扰估计来削弱输入信号中的频率。后处理操作的目的在于修改到目前为止所计算的干扰估计
Figure BDA0000471101100000182
以减少未经修改的干扰估计可能对期望语音信号具有的负面影响。例如,后处理可以控制所执行的脉冲干扰减少的量,以控制可能存在的施加在任何语音信号上的扭曲量。与上文所讨论的针对干扰估计的考虑和处理也应用于后处理。例如,在脉冲干扰中,在特定频带中的能量的数量预计随着时间减少,如上文针对图1所讨论的。但是,在语音中,在特定频带中的能量的数量可能随着时间很好的增加,尤其是当语音包括新的基音频率时,例如在发出的元音的开始处。从而,我们优选随着时间以频率可能被削弱的量执行衰减。此外,风冲击以及一些其它的脉冲干扰在逐渐更高的频率处展现出逐渐更低的频谱能量。可以在后处理中利用脉冲干扰的该特征。
可以分享上文所计算出的干扰估计
Figure BDA0000471101100000185
以确定频率索引μ0,在该索引以上所估计出的干扰能量随着频率的增加单调下降。(这与上文提及的风噪声的特征匹配。)我们称μ0为用于后处理的“开始频段”,这是因为后处理的一些方面可能利用开始频段改变了干扰估计的开始,以保护语音不与干扰一起被抑制。即,我们选择μ0,使得其最大化
Figure BDA0000471101100000186
并且对于大于μ0的μ的值,干扰估计
Figure BDA0000471101100000187
单调下降。以与由方程(8)所展现出的时间衰减相类似的方法来控制所执行的频谱衰减的量。我们优选地如方程11中所示出的修改干扰估计。
正因子αf控制频谱衰减的量。如利用方程(8),利用max(·)运算符,
Figure BDA0000471101100000184
被保持以避免下降低于静态噪声的级别。在减少语音扭曲方面,执行频谱衰减是有帮助的,这是因为风噪声趋向于在其频谱峰值之后下降。从而,如果一信号包括在其中随着频率的增加能量上升的分量,则这些分量可能是由语音而产生的。
如方程12中所示出的,使用“攻击性”因子来产生最后的干扰估计。
Φ ii ( κ , μ ) = γ · Φ ^ ii ( κ , μ ) + ( 1 - γ ) · Φ nn ( κ , μ ) - - - ( 12 )
该因子引入了一种用于控制实际执行的脉冲干扰减少的量的方式。图17和18示出了通过后处理图5中的时间导数可获得的差。图17示出了初始的干扰估计
Figure BDA0000471101100000192
图18示出了干扰估计Φii(κ,μ),如由后处理所修改的。
干扰抑制
为了抑制所估计出的干扰,可以使用诸如维纳滤波器[8]或传统的频谱减法[10][9]之类的任何适当的噪声抑制滤波器,其中,使用Φii(κ,μ)而不是Φnn(κ,μ)。在[11]中提供了噪声抑制技术的概述。对于具有与维纳滤波器相类似的特征的滤波器,其滤波器权重应当如同在方程(13)中所示出的。
H nr ( κ , μ ) = max ( 1 - Φ ii ( κ , μ ) Φ xx ( κ , μ ) , H min ) - - - ( 13 )
Hmin引入了对衰减的限制。这将导致最大的衰减,其可以提供优点,使得能够处理音乐的音调。但是,这些滤波器权重可能不能抑制所有听得见的风噪声。因此,我们优选地包括另一因子,以更彻底地移除干扰。选择该因子,使得在滤波器的输出处的残留噪声将
Figure BDA0000471101100000194
展现为PSD。在方程(14)中示出了这样的因子。
H ( κ , μ ) = H nr ( κ , μ ) · Φ nn ( κ , μ ) Φ ii ( κ , μ ) - - - ( 14 )
通过使用方程(15)进行频谱加权可以获得增强的输出频谱。
S ^ ( κ , μ ) = H ( κ , μ ) · X ( κ , μ ) - - - ( 15 )
然后,使用例如重叠相加或另一适当的方法可以合成时域输出信号,这取决于相应的子带域处理框架。
脉冲干扰的宽带检测
为了控制后处理阶段,我们使用可以从形态干扰估计获得的矿带信息。可以使用总干扰与噪声比(INR)来检测干扰的存在,可以使用信号与干扰比(SIR)来检测语音,即使在存在干扰的情况下。
图19示出了具有偶尔的风冲击的语音信号的实际的频谱图。图20示出了可以用于检测干扰和语音的存在的各种比率。
根据方程(10),可以使用干扰PSD的初始估计来计算估计的总干扰与噪声比(INR)。
INR ( κ ) = Σ μ - 0 N - 1 10 · log 10 ( Φ ~ ii ( κ , μ ) Φ nn ( κ , μ ) ) - - - ( 16 )
在此,N表示子带μ的数目。可选地,可以交换对数和总和。估计器
Figure BDA0000471101100000203
包含一些估计误差。然而,如在图19和20中的示例所证明的,该总和适合检测脉冲干扰的存在。INR是用于构造在更长的时间范围上工作的干扰检测器的良好的信息源。其可以,例如,用于计算诸如“每分钟的风冲击”之类的度量值。此外,在过去大约10秒上平均的INR可以提供对干扰能力的度量。
如上文所描述的,对于控制后处理而言,干扰的存在是重要的。但是,获得关于期望信号分量的存在的信息也是重要的。为了此目的,我们结合了输入PSD和所估计出的干扰PSD的比率,以获得信号与干扰比,如在方程(17)中所示出的。
SIR ( κ ) = Σ μ = 0 N - 1 U ( κ , μ ) · 10 · log 10 ( Φ xx ( κ , μ ) Φ ~ ii ( κ , μ ) ) - - - ( 17 )
如上文所讨论的,可以交换对数和总和。实值函数U(κ,μ)向总和的每个部分分配权重。从方程(17)获得的数量可以被用于检测独立于脉冲干扰的存在的语音信号的存在。在不存在脉冲干扰的情况下,SIR(κ)变成“信号与噪声比”(SIR),这是因为然后
Figure BDA0000471101100000205
等于Φnn(κ,μ)。
U(κ,μ)便于强调在干扰的频谱附近发生的分量,并且因此更可能被扭曲,除非采取特殊的预防。换句话说,可以使用U(κ,μ)在方程(17)中进行所提出的度量,方程(17)对在频谱上与所估计的干扰相分离的分量不敏感。在该情况下,可以控制后处理来移除该干扰,即使例如在上频率中存在期望的分量。可以使用任何适当的代价函数来导出权重U(μ)。图20示出了具有和不具有权重U(μ)的SIR的示例。
基于SIR和/或INR可以控制后处理的许多方面。在下面讨论了三个这样的方面。频谱衰减因子αf提供了包含语音信号的手段,如上文所讨论的。如果执行了快速衰减,则高于μ0的语音分量由后处理保护。这通常是以逐帧为基础进行到。在此,根据方程(17),可以使用加权的SIR,这是因为其指示了抑制期望信号的风险。
可以减少开始频段μ0,高于开始频段时,在所估计出的干扰能量中执行频谱衰减。如果μ0碰巧与包含基音频率的频段相冲突,则减少μ0可能将尤其有帮助。换句话说,如果根据初始干扰估计开始频段
Figure BDA0000471101100000212
碰巧被确定为包含语音分量,例如基音频率,则相应的语音能量将被不注意地认为是干扰能量的一部分,并且其将被抑制。我们已经发现选择较低的开始频段μ0可以减轻或缓解该问题。因为所确定的开始频段μ0代表具有最大能量的频率,较低编号的开始频段代表具有低于最大能量的频率。从而,使用该较低编号的开始频段,干扰估计中的滚降开始于较低的能量级别。我们有效地将至少一部分语音能量从所估计出的干扰能量中移除;从而,我们避免了对知识一部分语音能量的抑制。选择较低编号的开始频段可能并不是在所有情况下都合适。例如,是否选择较低编号的开始频段的决策可以是基于加权的SIR的,例如,当抑制语音的风险被认为是高时。
可以控制攻击性因子γ来减少整体的干扰抑制量。如果在相对较长的时间范围上已经检测到干扰,则这主要可以用作“切换”到开启干扰抑制。为了该目的,优选地将上文提及的诸如“在过去秒中的平均INR”之类的度量用作为基础。为了控制攻击性,我们推荐基于而不是基于
Figure BDA0000471101100000214
计算该INR。如果这样做,则对攻击性的控制受益于先前的后处理步骤(方程(11))。
图21是示出本发明的一些实施例或替换性实施例的操作的示意流程图。在2100,识别出输入信号的高能量分量。在2103,识别出高能量分量的时间导数。在2106,对时间导数进行形态滤波。形态滤波可以包括在2109检测脉冲干扰的起始和在2112估计干扰能量。在2115,将所估计出的干扰能量修改为随着频率的增加高于μ0,执行对所估计出的干扰能量的滚降。操作2115是后处理的示例。
图21还包括针对本发明的一些实施例的可选操作的示意流程图。在2118,自动计算信号与干扰比(SIR),在2121,基于所计算出的SIR,自动地调整预定的频率μ0。在2124,自动计算信号与干扰比,以及在2127,至少部分地基于所计算出的SIR检测语音。在2130,自动计算总干扰与噪声比(INR),以及在2133,至少部分地基于所计算出的INR检测干扰。
可以使用本申请中描述的用于减少信号中的脉冲干扰的方法和装置在自动语音识别系统、移动电话、军事通信设备和其它情况中在抑制风冲击和其它脉冲响应方面占优势。根据所公开的发明的系统和方法提供了优于现有技术的优点,这是因为,例如,这些系统和方法不需要确定正被处理的信号中的信号基音频率。此外,这些系统和方法不依赖风噪声的模型,而海瑟琳顿的建议需要。此外,我们所知道的现有技术中没有现有技术包括后处理或反馈回路处理,如本申请中所公开的。
本申请中所公开的方法和装置还可以在硬件、软件和/或器组合中实现。例如,可以利用执行存储在存储器中的指令的处理器来实现图7-9中示出的组件、以及参考图12、13和21所描述的操作。用于减少脉冲干扰的方法和装置已经被描述为包括由存储在存储器中的指令所控制的处理器。存储器可以是随机存取存储器(RAM)、只读存储器(ROM)、闪存或适合存储控制软件或其它指令和数据的任何其它存储器、或其组合。以及参考流程图和/或框图描述了由上述方法和装置执行的一些功能。本领域的普通技术员应该容易明白:流程图或框图中的每一个框的全部或一部分或框的组合的功能、操作、决策等可以被实现成计算机程序指令、软件、硬件、固件或其组合。本领域的普通技术人员还应该容易明白:可以以多种形式向处理器传送定义本发明的功能的指令或程序,上述多种形式包括但不限于永久存储在非可写入存储介质(例如,诸如ROM之类的在计算机内的只读存储器设备、或诸如CD-ROM或DVD光盘之类的计算机I/O附件可读的设备)上的信息、可改变地存储在可写入存储介质(例如,软盘、可移动闪存、)上的信息、或通过包括有线或无线计算机网络的通信介质向计算机传送的信息。此外,虽然本发明可以以软件实现,但是实现本发明必需的功能可以可选地或替换性地部分地或全部地使用固件和/或硬件组件来实现,例如,组合逻辑、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它硬件或硬件的某一组合、软件和/或估计组件。
虽然通过上文所描述的示例性实施例来描述本发明,但是,本领域的普通技术人员将理解的是,可以在不偏离本申请中公开的发明构思的情况下,对所示出的实施例做出改变和变化。例如,虽然已经参考流程图描述了方法和装置的一些方面,但是,本领域的普通技术人员应当容易明白,可以将任何流程图中的每一个框的全部或一部分或框的组合的功能、操作、决策等进行组合、分离成单独的操作或以其它的顺序执行。类似地,虽然已经参考框图描述了方法和装置的一些方面,但是本领域的普通技术人员应该容易明白,可以将任何框图中的每一个框的全部或一部分或框的组合的功能、操作、决策等进行组合、分离成单独的操作或以其它的顺序执行。此外,可以以上文未列出的方式来组合所公开的方面、或这些方面的部分。因此,本发明不应该被视为受限于所公开的实施例。
参考文献
[1]E.G.Schmidt:Acoustic Echo and Noise Control:APractical Approach.Wiley IEEE Press,New York,NY(USA),2004.
[2]S.V.Vaseghi and P.J.W.Rayner:A new application of adaptivefilters for restoration of archived gramophone recordings,Proc.IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP),1988.
[3]S.J.Godsill and C.H.Tan:Removal of low frequency transientnoise from old recordings using model-based signal separation techniques,IEEEASSP Workshop on Applications of Signal Processing to Audio and Acoustics,1997.
[4]B.King and L.Atlas:Coherent modulation comb filtering forenhancing speech in wind noise,11th International Workshop on Acoustic Echoand Noise Control(IWAENC),2008.
[5]N.Abu-Shikhah and M.Deriche:A robust technique for harmonicanalysis of speech,Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2001.
[6]N.Ahmed,T.Natarajan and K.R.Rao:Discrete cosine transfom,IEEE Transactions on Computers,Vol.100,No.23,1974.
[7]E.Nemer and W.Leblanc:Single-Microphone wind noise reductionby adaptive post-filtering,IEEE Workshop on Applications of Signal Processingto Audio and Acoustics,2009.
[8]E.Statistische Signale.Springer Verlag,Berlin(Germany),2001.
[9]Y.Ephraim,D.Malah:Speech Enhancement Using a MinimumMean-Square Error Short-Time Spectral Amplitude Estimator.IEEETransactions On Acoustics,Speech,And Signal Processing,Vol.ASSP-32,No.6,December1984.
[10]S.F.Boll:Suppression of Acoustic Noise in Speech Using SpectralSubtraction.IEEE Trans.Acoust.Speech Signal Process,Vol.27,No.2,pp:113-120,1979.
[11]G.Schmidt:Single-Channel Noise Suppression Based on SpectralWeighting-An Overview.Eurasip Newsletter,Vol.15,No.1,pp.9-24,March2004.

Claims (37)

1.一种用于减少信号中的脉冲干扰的方法,所述方法包括自动地进行以下操作:
识别所述信号的多个高能量分量,其中,所识别出的所述多个高能量分量中的每一个高能量分量的能量超过预定的阈值;
识别所识别出的所述多个高能量分量的多个时间导数;
对所识别出的所述多个时间导数进行形态滤波,所述形态滤波包括:至少部分地基于所识别出的所述多个时间导数,检测所述脉冲干扰的起始以及估计所述信号中的多个干扰能量;以及
基于所估计出的所述多个干扰能量,抑制所述信号的一部分。
2.根据权利要求1所述的方法,其中,识别所述多个高能量分量包括:确定所述阈值,使得所述阈值低于所述信号的频谱包络。
3.根据权利要求1所述的方法,其中,识别所述多个高能量分量包括:至少部分地基于所述信号的频谱包络以及至少部分地基于所述信号中的静态噪声的功率谱密度来确定所述阈值。
4.根据权利要求3所述的方法,其中,确定所述阈值包括:确定所述阈值,使得:
在第一条件下,所述阈值是所计算出的低于所述信号的所述频谱包络的值;以及
在第二条件下,所述阈值是所计算出的高于所述静态噪声的所述功率谱密度的值。
5.根据权利要求1所述的方法,其中:
所识别出的所述多个时间导数中的每一个时间导数与一频率范围相关联;以及
与所识别出的所述多个时间导数相关联的所述频率范围共同形成在预定的频率之下开始的连续范围的频率。
6.根据权利要求5所述的方法,其中,所述预定的频率大约是200Hz。
7.根据权利要求5所述的方法,其中,所述预定的频率大约是100Hz。
8.根据权利要求5所述的方法,还包括:
自动地允许所述连续范围的频率中的间隙,其中,每个间隙小于预定的大小。
9.根据权利要求1所述的方法,其中,识别所述多个时间导数包括:识别超过预定值的时间导数。
10.根据权利要求1所述的方法,其中,识别所述多个时间导数包括:在所识别出的所述多个高能量分量的频谱中识别近似的时间导数的区域。
11.根据权利要求1所述的方法,其中,对所识别出的所述多个时间导数进行形态滤波包括:对所识别出的所述多个时间导数应用二维图像滤波器。
12.根据权利要求1所述的方法,还包括:
对所识别出的所述多个时间导数进行二值化。
13.根据权利要求1所述的方法,其中,估计所述多个干扰能量包括:针对至少预定的时间段,基于所述信号的功率谱密度初始估计所述干扰能量,以及在此后,对所估计出的干扰能量施加时间单调衰减。
14.根据权利要求1所述的方法,其中,对所识别出的所述多个时间导数进行形态滤波包括:至少部分地基于所估计出的所述多个干扰能量来计算针对多个干扰频段的值。
15.根据权利要求14所述的方法,其中,检测所述脉冲干扰的所述起始包括:至少部分地基于所计算出的针对先前的时间帧的所述多个干扰频段的值来检测所述脉冲干扰的所述起始。
16.根据权利要求1所述的方法,还包括自动地进行以下操作:
确定起始频率;以及
修改所估计出的所述多个干扰能量,以便在所确定的起始频率处开始,针对逐渐变高的频率实行逐渐变小的所估计出的干扰能量。
17.根据权利要求16所述的方法,还包括自动地进行以下操作:
计算信号与干扰比(SIR)和总干扰与噪声比(INR)中的至少一个;以及
基于所计算出的所述SIR和所述INR中的至少一个,对影响如何修改所估计出的所述多个干扰能量的操作参数进行调整。
18.根据权利要求16所述的方法,还包括自动地进行以下操作:
计算信号与干扰比(SIR)和总干扰与噪声比(INR)中的至少一个;以及
基于所计算出的所述SIR和所述INR中的至少一个,调整所述起始频率。
19.一种用于减少信号中的脉冲干扰的滤波器,所述滤波器包括:
分量识别器,其配置为识别所述信号的多个高能量分量,其中,所识别出的所述多个高能量分量中的每一个高能量分量的能量超过预定的阈值;
时间微分器,其耦合至所述分量识别器,并且配置为识别所识别出的所述多个高能量分量的多个时间导数;
形态滤波器,其耦合至所述时间微分器,并且配置为至少部分地基于所识别出的所述多个时间导数,检测所述脉冲干扰的起始以及估计所述信号中的多个干扰能量;以及
噪声减少滤波器,其耦合至所述形态滤波器,并且配置为基于所估计出的所述多个干扰能量,抑制所述信号的一部分。
20.根据权利要求19所述的滤波器,其中,所述预定的阈值低于所述信号的频谱包络。
21.根据权利要求19所述的滤波器,其中,所述预定的阈值至少部分地基于所述信号的频谱包络,以及至少部分地基于所述信号中的静态噪声的功率谱密度。
22.根据权利要求21所述的滤波器,其中:
在第一条件下,所述阈值是所计算出的低于所述信号的所述频谱包络的值;以及
在第二条件下,所述阈值是所计算出的高于所述静态噪声的所述功率谱密度的值。
23.根据权利要求19所述的滤波器,其中:
所识别出的所述多个时间导数中的每一个时间导数与一频率范围相关联;以及
与所识别出的所述多个时间导数相关联的所述频率范围共同形成在预定的频率之下开始的连续范围的频率。
24.根据权利要求23所述的滤波器,其中,所述预定的频率大约是200Hz。
25.根据权利要求23所述的滤波器,其中,所述预定的频率大约是100Hz。
26.一种根据权利要求23所述的滤波器,其中,所述连续范围的频率包括小于预定的大小的至少一个间隙。
27.根据权利要求19所述的滤波器,其中,所述时间微分器配置为:
识别所述多个时间导数,使得所识别出的所述多个时间导数中的每一个时间导数超过预定值。
28.根据权利要求19所述的滤波器,其中,所述时间微分器配置为:
通过在所识别出的所述多个高能量分量的频谱中识别近似的时间导数的区域来识别所述多个时间导数。
29.根据权利要求19所述的滤波器,其中,所述形态滤波器配置为:对所识别出的所述多个时间导数应用二维图像滤波器。
30.根据权利要求19所述的滤波器,其中,所述形态滤波器配置为:
对所识别出的所述多个时间导数进行二值化。
31.根据权利要求19所述的滤波器,其中,所述形态滤波器配置为:
通过针对至少预定的时间段,基于所述信号的功率谱密度初始估计所述干扰能量,以及在此后,对所估计出的干扰能量施加时间单调衰减,来估计所述多个干扰能量。
32.根据权利要求19所述的滤波器,其中,所述形态滤波器配置为:
至少部分地基于所估计出的所述多个干扰能量来计算针对多个干扰频段的值。
33.根据权利要求32所述的滤波器,其中,所述形态滤波器配置为:
至少部分地基于所计算出的针对先前的时间帧的所述多个干扰频段的值来检测起始。
34.根据权利要求19所述的滤波器,还包括:后处理器,其配置为自动地进行以下操作:
确定起始频率;以及
修改所估计出的所述多个干扰能量,以便在预定的起始频率处开始,针对逐渐变高的频率实行逐渐变小的所估计出的干扰能量。
35.根据权利要求34所述的滤波器,还包括:
后处理器控制器,其耦合到所述后处理器并配置为自动地进行以下操作:
计算信号与干扰比(SIR)和总干扰与噪声比(INR)中的至少一
个;以及
基于所计算出的所述SIR和所述INR中的至少一个,对影响所述后处理器如何修改所估计出的所述多个干扰能量的操作参数自动地进行调整。
36.根据权利要求34所述的滤波器,还包括:
后处理器控制器,其耦合到所述后处理器并配置为自动地进行以下操作:
计算信号与干扰比(SIR)和总干扰与噪声比(INR)中的至少一个;以及
基于所计算出的所述SIR和所述INR中的至少一个,调整所述起始频率。
37.一种用于减少信号中的脉冲干扰的计算机程序产品,所述计算机程序产品包括具有存储在其上的计算机可读程序代码的非暂时性计算机可读介质,所述计算机可读程序包括:
用于识别所述信号的多个高能量分量的程序代码,其中,所识别出的所述多个高能量分量中的每一个高能量分量的能量超过预定的阈值;
用于识别所识别出的所述多个高能量分量的多个时间导数的程序代码;
用于对所识别出的所述多个时间导数进行形态滤波的程序代码,所述形态滤波包括:至少部分地基于所识别出的所述多个时间导数,检测所述脉冲干扰的起始以及估计所述信号中的多个干扰能量;以及
用于基于所估计出的所述多个干扰能量,抑制所述信号的一部分的程序代码。
CN201180073151.4A 2011-07-07 2011-07-07 嘈杂语音信号中的脉冲干扰的单信道抑制 Active CN103765511B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/043145 WO2013006175A1 (en) 2011-07-07 2011-07-07 Single channel suppression of impulsive interferences in noisy speech signals

Publications (2)

Publication Number Publication Date
CN103765511A true CN103765511A (zh) 2014-04-30
CN103765511B CN103765511B (zh) 2016-01-20

Family

ID=44317645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180073151.4A Active CN103765511B (zh) 2011-07-07 2011-07-07 嘈杂语音信号中的脉冲干扰的单信道抑制

Country Status (5)

Country Link
US (1) US9858942B2 (zh)
EP (1) EP2724340B1 (zh)
JP (1) JP5752324B2 (zh)
CN (1) CN103765511B (zh)
WO (1) WO2013006175A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036449A (zh) * 2017-06-09 2018-12-18 恩智浦有限公司 在风噪声中检测有意义的声学信号
CN114124626A (zh) * 2021-10-15 2022-03-01 西南交通大学 信号的降噪方法、装置、终端设备以及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
EP2980800A1 (en) * 2014-07-30 2016-02-03 Dolby Laboratories Licensing Corporation Noise level estimation
US10141003B2 (en) 2014-06-09 2018-11-27 Dolby Laboratories Licensing Corporation Noise level estimation
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US11133023B1 (en) * 2021-03-10 2021-09-28 V5 Systems, Inc. Robust detection of impulsive acoustic event onsets in an audio stream
US11127273B1 (en) 2021-03-15 2021-09-21 V5 Systems, Inc. Acoustic event detection using coordinated data dissemination, retrieval, and fusion for a distributed array of sensors

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06269084A (ja) * 1993-03-16 1994-09-22 Sony Corp 風雑音低減装置
CN1325222A (zh) * 2000-04-08 2001-12-05 阿尔卡塔尔公司 时域噪声抑制
US20020071573A1 (en) * 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
EP1450353A1 (en) * 2003-02-21 2004-08-25 Harman Becker Automotive Systems-Wavemakers, Inc. System for suppressing wind noise
CN101601088A (zh) * 2007-09-11 2009-12-09 松下电器产业株式会社 声音判断装置、声音检测装置以及声音判断方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771472A (en) * 1987-04-14 1988-09-13 Hughes Aircraft Company Method and apparatus for improving voice intelligibility in high noise environments
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US7028899B2 (en) * 1999-06-07 2006-04-18 Metrologic Instruments, Inc. Method of speckle-noise pattern reduction and apparatus therefore based on reducing the temporal-coherence of the planar laser illumination beam before it illuminates the target object by applying temporal phase modulation techniques during the transmission of the plib towards the target
US6209094B1 (en) * 1998-10-14 2001-03-27 Liquid Audio Inc. Robust watermark method and apparatus for digital signals
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US7395211B2 (en) * 2000-08-16 2008-07-01 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
AU2003274617A1 (en) * 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
IL155955A0 (en) * 2003-05-15 2003-12-23 Widemed Ltd Adaptive prediction of changes of physiological/pathological states using processing of biomedical signal
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
JPWO2006035776A1 (ja) * 2004-09-29 2008-05-15 松下電器産業株式会社 音場測定方法および音場測定装置
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
JP2009524101A (ja) * 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
RU2439721C2 (ru) * 2007-06-11 2012-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9253568B2 (en) 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
ATE556329T1 (de) * 2008-08-26 2012-05-15 Nuance Communications Inc Verfahren und vorrichtung zum lokalisieren einer schallquelle
EP2321978A4 (en) * 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
JP5262614B2 (ja) 2008-11-20 2013-08-14 株式会社リコー 無線通信装置
US8275148B2 (en) * 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
JP5351835B2 (ja) * 2010-05-31 2013-11-27 トヨタ自動車東日本株式会社 音信号区間抽出装置及び音信号区間抽出方法
WO2012176217A1 (en) * 2011-06-20 2012-12-27 Muthukumar Prasad Smart active antenna radiation pattern optimising system for mobile devices achieved by sensing device proximity environment with property, position, orientation, signal quality and operating modes
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06269084A (ja) * 1993-03-16 1994-09-22 Sony Corp 風雑音低減装置
US20020071573A1 (en) * 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
CN1325222A (zh) * 2000-04-08 2001-12-05 阿尔卡塔尔公司 时域噪声抑制
EP1450353A1 (en) * 2003-02-21 2004-08-25 Harman Becker Automotive Systems-Wavemakers, Inc. System for suppressing wind noise
CN101601088A (zh) * 2007-09-11 2009-12-09 松下电器产业株式会社 声音判断装置、声音检测装置以及声音判断方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036449A (zh) * 2017-06-09 2018-12-18 恩智浦有限公司 在风噪声中检测有意义的声学信号
CN109036449B (zh) * 2017-06-09 2023-08-25 汇顶科技(香港)有限公司 在风噪声中检测有意义的声学信号
CN114124626A (zh) * 2021-10-15 2022-03-01 西南交通大学 信号的降噪方法、装置、终端设备以及存储介质
CN114124626B (zh) * 2021-10-15 2023-02-17 西南交通大学 信号的降噪方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
US9858942B2 (en) 2018-01-02
US20140095156A1 (en) 2014-04-03
EP2724340B1 (en) 2019-05-15
JP2014518404A (ja) 2014-07-28
WO2013006175A1 (en) 2013-01-10
EP2724340A1 (en) 2014-04-30
JP5752324B2 (ja) 2015-07-22
CN103765511B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN103765511B (zh) 嘈杂语音信号中的脉冲干扰的单信道抑制
Graf et al. Features for voice activity detection: a comparative analysis
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
CN101031963B (zh) 处理有噪声的声音信号的方法以及实现该方法的装置
EP1745468B1 (en) Noise reduction for automatic speech recognition
EP1700294B1 (en) Method and device for speech enhancement in the presence of background noise
EP2031583B1 (en) Fast estimation of spectral noise power density for speech signal enhancement
US8751220B2 (en) Multiple microphone based low complexity pitch detector
US10783899B2 (en) Babble noise suppression
Yu et al. Comparison of Voice Activity Detectors for Interview Speech in NIST Speaker Recognition Evaluation.
US7890319B2 (en) Signal processing apparatus and method thereof
US20200251090A1 (en) Detection of fricatives in speech signals
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
Messaoud et al. Using multi-scale product spectrum for single and multi-pitch estimation
Krishnamoorthy et al. Temporal and spectral processing methods for processing of degraded speech: a review
EP1635331A1 (en) Method for estimating a signal to noise ratio
Bai et al. Two-pass quantile based noise spectrum estimation
EP4128225A1 (en) Noise supression for speech enhancement
Hendriks et al. Adaptive time segmentation of noisy speech for improved speech enhancement
Shimamura et al. Noise estimation with an inverse comb filter in non-stationary noise environments
Kim et al. Speech enhancement via Mel-scale Wiener filtering with a frequency-wise voice activity detector
Demiroglu et al. Segmentation-based speech enhancement for intelligibility improvement in MELP coders using auxiliary sensors
Deng et al. Using predictive differential power spectrum and subband mel-spectrum centroid for robust speaker recognition in stationary noises

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200922

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts, USA

Patentee before: Nuance Communications, Inc.