CN1653520A - 确定和降噪相关联的不确定性的方法 - Google Patents

确定和降噪相关联的不确定性的方法 Download PDF

Info

Publication number
CN1653520A
CN1653520A CNA038114038A CN03811403A CN1653520A CN 1653520 A CN1653520 A CN 1653520A CN A038114038 A CNA038114038 A CN A038114038A CN 03811403 A CN03811403 A CN 03811403A CN 1653520 A CN1653520 A CN 1653520A
Authority
CN
China
Prior art keywords
noise reduction
signal
noise
computer
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038114038A
Other languages
English (en)
Inventor
邓立
A·阿塞罗
J·G·德罗普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/152,143 external-priority patent/US7107210B2/en
Priority claimed from US10/152,127 external-priority patent/US7103540B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1653520A publication Critical patent/CN1653520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

提供了一种基于语音失真的参数模型确定降噪中的不确定性的方法和装置。该方法首先用于降低含噪声的信号中的噪声。具体地,通过使用一声学环境模型(413)从含噪声的信号的一部分的表示中降低(304)噪声以产生净化信号的表示。然后计算与所述降噪过程相关联的不确定性。在一个实施例中,使用降噪过程的不确定性以及经降噪的信号对模式状态进行解码。

Description

确定和降噪相关联的不确定性的方法
发明背景
本发明涉及模式识别,尤其涉及在降噪后执行模式识别。
模式识别系统,例如语音识别系统,接受输入信号并试图对所述信号进行解码以找出由所述信号表示的模式。例如,在语音识别系统中,语音信号(通常称为测试信号)由识别系统接收并解码,以标识由所述语音信号表示的单词串。
为了对输入的测试信号进行解码,大多数识别系统使用描述所述测试信号的一部分表示一个特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间伸缩、分段模型和隐马尔可夫模型。
在模型能够用于对输入信号进行解码前,它必须先得到训练。这通常通过对从已知训练模式生成的输入训练信号进行测量来完成。例如,在语音识别中,通过说话人朗读已知文本产生语音信号的集合。然后使用这些语音信号来训练所述模型。
为了让模型起到最佳作用,用于训练模型的信号应该于被解码的最终测试信号相似。具体地,希望训练信号含有与要解码的测试信号相同数量和类型的噪声。
通常,训练信号是在“干净”的条件下收集的,并且可以认为是相对无噪声的。为在测试信号中达到这一同样低水平的噪声,本领域中很多已有系统向所述测试信号应用降噪技术。这些降噪技术能获得之后在模式识别中使用的“净化”测试信号。在大多数系统里,所述降噪技术产生一系列多维特征矢量,每一特征矢量表示一经降噪的信号的帧。
不幸的是,降噪技术并不能完美起作用,其结果是在净化信号有某种内在的不确定性。在过去,使用两种通用技术来处理这种不确定性。第一种技术是忽略所述不确定性而把所述降噪过程视为是完美的。由于这种方法忽略了所述识别系统的真实状态,所以它导致本来可以避免的识别错误。
另一种在降噪中处理不确定性的已有技术是标识可能在其中较差地执行降噪技术的输入信号帧。在这些帧中,很可能是错误的特征矢量的维度由所述降噪系统标记,使在识别期间不使用它们。由此,其不确定性多于预定量的所述特征矢量分量在解码过程中完全被忽略。虽然这种系统确认降噪中的不确定性,但完全忽略一个分量的该技术将这一分量作为没有提供任何将在识别期间有帮助的信息看待。这是极不可能的,因为即使有大量的不确定性,所述经降噪的分量仍然提供了将识别期间有帮助的某些信息。
另外,现有技术没有提供用于确定某些噪声消除过程的不确定性的装置。其结果是,不可能确定和这些过程相关联的不确定性。
鉴于这一点,需要用于确定降噪中的不确定性并在模式识别过程中使用这一不确定性的技术。
发明概述
提供了一种在含噪声信号中降低噪声的方法和装置。具体地,通过使用一声学环境模型从含噪声信号的一个片段的表示中降低噪声,以产生净化信号的表示。然后计算出与所述降噪过程相关联的不确定性。在一个实施例中,使用所述降噪过程中的不确定性对净化信号的模式状态进行解码。
附图简述
图1是可在其中实践本发明的一个计算环境的方框图。
图2是可在其中实践本发明的替换计算环境的方框图。
图3是本发明的一个实施例的使用降噪系统的方法的流程图。
图4是可使用本发明的实施例的模式识别系统的方框图。
说明性实施例的详细描述
图1说明了可实现本发明的合适的计算环境100的一个示例。所述计算环境100只是合适的计算环境的一个示例,并不意味着对本发明的使用和功能范围的任何限制。也不应该把所述计算环境100解释为对示例性操作环境100中所示的任一元素或元素组合具有任何依赖或需求。
本发明可以在许多其它的通用或专用计算系统环境或配置上运作。可以使用本发明的众所周知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统和包括上述系统或设备的分布式计算环境等等。
本发明可以在诸如由计算机执行的程序模块等计算机可执行的指令的通用环境中描述。一般而言,程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等等。本发明也可以在由通过通信网络连接的远程处理设备完成任务的分布式计算环境中实践。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件可包括,但不限于,处理单元120、系统存储器130和把包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是几种类型的总线结构的任一种,包括存储器总线或存储器控制器、外围总线、或使用多种总线体系结构的任一种的局部总线。作为示例而非局限,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线,即Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质两者。作为示例而非局限,计算机可读媒质可包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失、可移动和不可移动媒质。计算机存储媒质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储村所需信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制这样的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任何信息传递媒质。术语“已调制数据信号”的意思是以对信号中的信息进行编码的方式改变或设置其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,例如有线网或直接连线连接,以及无线媒质,例如声学、RF、红外或其它无线媒质。上述媒质的任何组合也应该包括在计算机可读媒质的范围之内。
系统存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM)132等易失和/或非易失存储器形式的计算机存储媒质。基本输入输出系统(BIOS),包含如在启动期间帮助在计算机110内部元件之间传输信息的基本例程,通常存储在ROM 131中。RAM 132通常包含处理单元120即刻可访问和/或当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作为示例,图1示出了在不可移动、非易失磁媒质上读写的硬盘驱动器141、在可移动、非易失磁盘152上读写的磁盘驱动器151、以及在诸如CD ROM或其它光媒质等可移动、非易失光盘156上读写的光盘驱动器155。在示例性操作环境中也可以使用其它可移动/不可移动、易失/非易失计算机存储媒质,包括但不限于,盒式磁带、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140等不可移动存储器接口连接到系统总线121,而磁盘驱动器151和光盘驱动器155通常通过诸如接口150等可移动存储器接口连接到系统总线121。
如上所述和图1所示的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以和操作系统134、应用程序135、其它程序模块136和程序资料137相同或不同。此处给操作系统144、应用程序145、其它程序模块146和程序资料147不同的标号是为了说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163,以及诸如鼠标、跟踪球或触摸板等定点设备161向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口160连接到处理单元120,但也可以通过其它接口和总线结构连接,例如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过诸如视频接口190等接口连接到系统总线120。除监视器之外,计算机也可以包括其它外围输出设备,如扬声器197和打印机196,它们通过输出外围接口190连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中运转。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括上面相对于计算机110所描述的许多或全部元件。图1所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的网络环境常见于办公室、企业范围计算机网络、内联和因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172,可以内置或外置的,可以通过用户输入接口160或其它适当的机制连接到系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可以储村在远程存储器存储设备中。作为示例而非局限,图1示出远程应用程序185驻留在远程计算机180中。可以理解,所示的网络连接是示例性的,也可使用在计算机之间建立通信链路的其它装置。
图2是移动设备200的方框图,它是一种示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备进行通信的通信接口208。在一个实施例中,上述组件被耦合在一起,用于通过合适的总线210相互通信。
存储器204被实现为诸如随机存取内存(RAM)等非易失电子存储器,它具有电池备份模块(未示出),使得当关闭移动设备200的总电源时储存在存储器204中的信息不会丢失。较佳地分配存储器204的一部分作为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用作存储,如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214和对象存储216。在操作过程中,较佳地由处理器202从存储器204中执行操作系统212。在一个实施例中,操作系统212是可从微软公司购买的WindowsCE操作系统。操作系统212较佳地被设计成用于移动设备,并实现可由应用程序214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对展现的应用编程接口和方法的调用,由应用214和操作系统212维护。
通信接口208表示众多允许移动设备200发送和接收信息的设备和技术。仅举几个例子,这些设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可以直接连接到计算机以与之交换数据。在这种情况下,通信接口208可以是红外收发器或串行或并行通信连接,其所有都能够传输流信息。
输入/输出组件206包括各种输入设备,例如触敏屏幕、按钮、滚轴和麦克风,也包括各种输出设备,如音频发生器、振动设备和显示器。上文列出的设备都作为示例,而不需要都在移动设备200中存在。另外,在本发明范围内,也可以在移动设备200上附加其它输入/输出设备,或在其中找到。
在下面的讨论中,参考语音识别来描述本发明,以便于理解本发明。但是,本领域的技术人员将认识到,本发明不限于语音识别,而可以在任一模式识别系统中使用。
语音识别的目的是把语音信号转换成一列单词。要做到这一点,通常把语音信号划分成重叠的语音帧,并把每一帧转换为描述帧内容的特征矢量y。在识别—也称为解码期间,使用声学模型来标识可以用特征矢量表示的最可能的语音状态序列。所得的语音状态序列表示单词的已解码序列。
许多声学模型对高斯型(Gaussian)混合进行估算来确定任何一个语音状态的概率。这样,在每一帧,对每一语音状态估算出高斯型混合以标识该帧最可能的语音状态。对每一高斯型的评估都可以看作是确定p(y|m),即给定该语音状态的混合分量m时,该特征矢量y的概率。
当结合语音识别使用降噪时,由降噪系统将含噪声的输入特征矢量y转换为净化特征矢量 该净化特征矢量表示实际净化特征矢量x的估算。然后将该净化特征矢量 作为输入信号应用到语音识别系统中,后者在给定净化特征矢量时试图确定最可能的语音状态。
如果没有噪声恶化,则观测矢量y和干净矢量x相同。由此,估算干净观测矢量的混合分量的高斯型p(y|m)与给定混合分量m时估算干净矢量x的概率p(x|m)是一样的。
但是,当观测矢量被噪声恶化,并使用降噪系统时,对识别器的输入不再是理想的干净矢量x,而仅仅是x的估算一净化特征矢量 在过去,普遍地简单将净化特征矢量 看成等于理想的干净特征矢量x来对待。在这种情况下,估算混合分量的高斯型p(y|m)通过确定概率
Figure A0381140300095
来近似。
在本发明中,使用了一种更严格的方法,通过在所有可能的看不见的干净语音矢量上临界化(marginalize)联合条件概率密度函数p(y,x|m)来确定概率p(y|m)。用等式表示:
p ( y | m ) = ∫ - ∞ ∞ p ( y , x | m ) dx 等式1
等式1的右侧可以展开,这样等式1变成:
p ( y | m ) = ∫ - ∞ ∞ p ( y | x , m ) p ( x | m ) dx 等式2
为了使与等式2相关联的计算更容易实现,假设概率p(y|x,m)和m无关,使得它变成p(y|x)。然后将这一概率模型化为描述降噪过程的确定性的高斯分布。具体地:
p ( y | x ) = αN ( x ^ ; x , σ x ^ 2 ) 等式3
其中,该分布在净化特征矢量 上定义,并和理想干净特征矢量x具有相等的平均值,以及表示与降噪过程相关联的方差的方差
Figure A0381140300104
注意,在等式3中使用了简化符号以将高斯分布表示为整个矢量上的单一高斯型。实际上,对特征矢量的每一维,有单独的高斯型,它有自己的平均值和方差。例如:
p ( y l | x l ) = αN ( x ^ l ; x l , σ x ^ , l 2 ) 等式4
其中yl是含噪声的特征矢量的l分量,xl是干净特征矢量的l分量, 是净化特征矢量的l分量,而
Figure A0381140300107
是与该特征矢量的l分量的降噪过程相关联的方差(也称为不确定性)。
先验概率p(x|m),也被模型化为高斯分布的集合,对该矢量的每一分量模型化一个概率,使得:
p ( x l | m ) = N ( x l ; μ m , l , σ m , l 2 ) 等式5
其中μm.l是先验分布的平均值,而σm.l 2是特征矢量的l分量的分布的方差。
组合等式2、4、5,并估算积分,得:
p ( y l | m ) = αN ( x ^ l ; μ m , l , σ m , l 2 + σ x ^ , l 2 ) 等式6
这样,在本发明的框架下,在声学模型中使用的分布的方差是与先验模型相关联的方差σm.l 2和与降噪过程相关联的方差或不确定性 的组合。结果是,如果对一个分量,与降噪过程相关联的不确定性很高,则在对每一语音状态生成的概率之间将几乎没有区别。结果是,该分量在语音状态序列的解码中将没有什么作用。但是,如果降噪过程的不确定性很小,各种语音状态的声学模型将对该分量生成与众不同的概率,从而该分量将对语音状态的选择产生很大的影响。
本发明的一个实施例中,所述降噪过程使用了干净语音的动态方面的先验模型、干净语音的静态方面的先验模型、以及描述干净语音、含噪声的语音和噪声之间的关系的声学失真或声学环境模型。由此,本发明提供了一种确定这一基于参数的降噪过程中的不确定性的技术。
在下面的论述中,在倒谱域中实现该降噪方法。具体地,干净语音、含噪声的语音和噪声的每一帧都用一倒谱特征矢量来表示,该倒谱特征矢量是通过对本帧内的信号的频域表示取对数并进行离散余弦变换来形成的。由此,在下面的讨论中,该方法试图从含噪声的语音特征矢量中标识经降噪的特征矢量。与上面的等式3一样,在下面使用了简化符号,将每一矢量作为由单个分布表示来看待。在实现中,对该矢量的每一分量都有一个独立分布。
为了降低含噪声矢量中的噪声,使用条件期望来确定经降噪的矢量的最小均方估算:
x ^ t = E [ x t | y t , x ^ t - 1 ] = ∫ x t p ( x t | y t , x ^ t - 1 ) d x t 等式7
其中 是当前帧的经降噪的特征矢量的估算,
Figure A0381140300113
是对上一帧确定的经降噪的特征矢量的估算,yt是当前帧的含噪声的语音特征矢量,xt是当前帧的干净语音特征矢量。
使用贝叶斯规则,等式1的估算可以重新叙述为:
x ^ t = ∫ x t p ( x t | x ^ t - 1 ) p ( y t | x t ) d x t p ( y t ) 等式8
其中 是给定上一帧的干净语音矢量
Figure A0381140300116
的估算时干净语音矢量xt的条件概率,p(yt|xt)是给定干净语音矢量xt时含噪声的语音矢量yt的条件概率,p(yt)是含噪声的语音矢量yt的概率。
在本发明的一个实施例中,使用一种混合模型来描述条件概率 用等式表示:
p ( x t | x ^ t - 1 ) = Σ m = 1 M c m p ( x t | m , x ^ t - 1 ) 等式9
其中,条件先验概率 是由第m个混合分量提供概率,cm是第m个混合分量的加权因子。
在一个实施例中,认为含噪声的语音是干净语音添加了噪声的结果。这提供了一种声学环境模型,也被称为含噪声的语音的失真模型。在时域中,这一添加是线性的。但是在倒谱特征域,这一添加变为非现行,导致以下的特征矢量关系:
            yt=xt+g(nt-xt)+r             等式10
其中
g ( n t - x t ) = log ( 1 + e n t - x t ) 等式11
r是余量。
为了使等式10更易于使用,使用截断泰勒级数近似来线性化该非线性。具体地,使用在xt=x0处g(nt-xt)上的零阶泰勒级数展开来形成近似:
        yt≈xt+g( n-x0)+r                  等式12
其中,g( n-x0)是展开点x0处的零阶泰勒级数展开, n是当前帧的噪声估算。在大多数实施例中,选择展开点x0作为降噪过程的前一次迭代中确定的干净语音信号的估算, n使用递归技术来确定。本领域的技术人员可以认识到,噪声估算的递归技术只是可以在本发明中使用的众多不同的噪声估算技术的一个示例。
基于等式12中所示的关系,等式8的条件概率p(yt|xt)变为声学环境概率p(yt|xt, nt)。使用这一声学环境概率以及上文的等式9,等式8可以被重写为:
x ^ t = Σ m = 1 M c m ∫ x t p ( x t | m , x ^ t - 1 ) p ( y t | x t , n ‾ t ) d x t p ( y t ) 等式13
为计算等式13的积分,首先估算条件先验概率 为使该估算更简单,认识到:
( x t | m , x ^ t - 1 ) ∝ p ( x t , Δ x t | m ) 等式14
其中
Δ x t = x t - x ^ t - 1 等式15
由此,在等式14中,xt表示干净语音的静态方面,Δxt表示干净语音的动态方面。
为进一步简化条件先验的估算,假设干净语音的静态方面与干净语音的动态方面无关。结果是:
     p(xt,Δxt|m)=p(xt|m)p(Δxt|m)    等式16
在一个实施例中,干净语音的静态方面的先验概率和干净语音的动态方面的先验概率的每一个都,被模型化为高斯分布,使得:
p ( x t , Δ x t | m ) = N ( x t ; μ m x , Φ m x ) N ( Δ x t ; μ m Δx , Φ m Δt ) 等式17
其中,μm x和Φm x是干净语音的静态方面的先验模型的平均值和方差,μm Δx和Φm Δx是干净语音的动态放慢的先验模型的平均值和方差。
将上述两个高斯分布的乘积中的指数代入xt的标准二次方程式,并使用上面的等式14,产生:
p ( x t | m , x ^ t - 1 ) = N ( x t ; μ m , Φ m ) 等式18
其中
μ m = Φ m Δx ( Φ m x + Φ m Δx ) μ m x + Φ m x ( Φ m x + Φ m Δx ) ( x t - 1 + μ m Δx ) . 等式19
Φ m = Φ m x Φ m Δx ( Φ m x + Φ m Δx ) 等式20
在许多实施例中,声学环境概率p(yt|xt, nt)也被模型化为生成以下形式的声学模型的高斯分布:
          p(yt|xt,nt)=N(yt;xt+g( n-x0),Ψ)    等式21
其中,Ψ是固定对角协方差矩阵,它是余量r的协方差矩阵的近似。
由此,等式13中的分子中的积分变为:
Im=∫xtN(xt;μm,Φm)N(yt;xt+g( n-x0),Ψ)dxt等式22
估算该积分,产生:
I m = [ v 1 ( m ) μ m x + v 2 ( m ) ( x t - 1 + μ m Δx ) + w 2 ( m ) ( y t - g ( n ‾ - x 0 ) ) ] N M ( y t )
等式23
其中
N m ( y t ) = N ( y t ; μ m x + g ( n ‾ - x 0 ) , Φ m x + Ψ ) 等式24
v 1 ( m ) = Ψ ( Φ m x + Ψ ) Φ m Δx ( Φ m x + Φ m Δx ) 等式25
v 2 ( m ) = Ψ ( Φ m x + Ψ ) Φ m x ( Φ m x + Φ m Δx ) 等式26
w 2 ( m ) = I - Ψ ( Φ m x + Ψ ) 等式27
给定等式15中作出的0阶近似下干净语音模型的第m个分量,等式25中的高斯分布可被示出为在观测yt的似然性。即:
        p(yt|m)≈Nm(yt)            等式28
结果是,等式13中的分母可被确定为:
p ( y t ) = Σ m = 1 M c m p ( y t | m ) ≈ Σ m = 1 M c m N m ( y t ) 等式29
组合等式13、23和29,产生xt的估算量:
x t = Σ m = 1 M γ m ( y t ) [ v 1 ( m ) μ m x + v 2 ( m ) ( x t - 1 + μ m Δx ) + w 2 ( m ) ( y t - g ( n ‾ - x 0 ) ) ] 等式30
其中
γ m ( y t ) = c m N m ( y t ) Σ m = 1 M c m N m ( y t ) 等式31
等式30中的每一被加数都是贡献给最终经降噪的矢量的混合分量。每一被加数通过将这三项的加权和乘以含噪声的特征矢量yt的相对概率而形成。第一项是从先前的干净语音模型的静态方面的平均值中获得的经降噪的矢量的预测μm x。第二项是基于对上一帧的经降噪的矢量和先前的干净语音模型的静态方面的平均值的估算对经降噪的矢量的预测(xt-1m Δx)。最后一项yt-g( n-x0)是在没有任何先验信息时基于声学失真模型对经降噪的干净语音矢量的预测。
由此,等式30中的估算量使用了干净语音的静态方面的先验模型、干净语音的动态方面的先验模型以及声学失真模型。结果是,使用等式30的估算量产生的经降噪的矢量序列包含更少的中断并显得更加自然。
另外,应用于每一被加数中的每一项的加权值使得当其中一项的方差增加时其相对加权值减小。由此,当某一项对经降噪的值的描述变得更准确时,其加权值相对于其他项的加权值增加。
例如,应用于由干净语音的静态方面的先验模型预测的值的加权值是干净语音的动态方面的先验模型的方差的函数。结果是,当干净语音的动态方面的模型的方差相对于干净语音的静态方面的模型的方差增加时,由静态方面的先验模型预测的值的相对加权就增加。
对由干净语音的动态方面的先验模型预测的值的加权也产生相似的效果,因为该加权值是干净语言的静态方面的先验模型的方差的函数。
在可使用等式31的估算量之前,必须训练各种模型的参数。在一个实施例中,使用EM算法来训练倒频域中的平均值和协方差参数μm x、Φm x、μm Δx和Φm Δx。在这一训练过程中,也训练混合分量权值cm。完成这一训练的技术在本领域中是众所周知的。固定协方差矩阵Ψ通过将训练数据与所有可用的信噪比进行汇聚(pooling)来估算。
在一个实施例中,以迭代方式确定经降噪的矢量xt,使得当前迭代中经降噪的矢量的值用作下一迭代中泰勒级数近似g( n-x0)的展开点x0。对于第一次迭代,泰勒级数近似的展开点是混合分量平均值μm x,它使用正态分布提供了含噪声的矢量的最高概率:
N ( y t ; μ m x + g ( n ‾ - x 0 ) , Ψ ) 等式32
在每一迭代中,经降噪的矢量计算如下:
x ^ t j + 1 = Σ m = 1 M γ m j ( y t ) [ v 1 ( m ) μ m x + v 2 ( m ) ( x ^ t - 1 + μ m Δx ) + w 2 ( m ) ( y t - g ( n ‾ - x ^ t j ) ) ] 等式33
其中j表示迭代次数,并且
γ m j ( y t ) = c m N ( y t ; μ m x + g ( n ‾ - x ^ t j ) , Φ m x + Ψ ) Σ m = 1 M c m N ( y t ; μ m x + g ( n ‾ - x ^ t j ) , Φ m x + Ψ ) 等式34
由此,经降噪的矢量的期望
Figure A0381140300154
μ x ^ t = x ^ t J 等式35
其中J是迭代总次数。
在本发明中,也计算由等式33的迭代表示的与降噪过程相关联的不确定性,使其能识别过程中使用。该不确定性是
Figure A0381140300161
中的方差
Figure A0381140300162
定义如下:
Σ x ^ t = E [ x t 2 | y t ] - μ x ^ t 2 等式36
其中
等式37
使用上面等式14-21的近似和模型,积分Im变为
I m = ∫ x t 2 N ( x t ; μ m , Φ m ) N ( y t ; x t + g ( n ‾ - x 0 ) , Ψ ) d x t
= ∫ x t 2 N ( x t ; θ m ( t ) , ( Φ m + Ψ ) - 1 Φ m Ψ ) d x t × N m ( y t ) 等式38
= [ ( Φ m + Ψ ) - 1 Φ m Ψ + θ m 2 ( t ) ] × N m ( y t )
其中
μ m = Φ m Δx ( Φ m x + Φ m Δx ) μ m x + Φ m x ( Φ m x + Φ m Δx ) ( x t - 1 + μ m Δx ) 等式39
Φ m = Φ m x Φ m Δx ( Φ m x + Φ m Δx ) 等式40
θm(t)=(Φm+Ψ)-1[Ψμmm(yt-g( n-x0))]  等式41
Nm(yt)=N(yt;μm+g( n-x0),Φm+Ψ)       等式42
将等式38的结果代入等式37,得到:
E [ x t 2 | y t ] ≈ Σ m = 1 M γ m ( y t ) [ ( Φ m + Ψ ) - 1 Φ m Ψ + θ m 2 ( t ) ] 等式43
其中:
γ m ( y t ) = c m N m ( y t ) Σ m = 1 M c m N m ( y t ) 等式44
然后,使用等式43中计算的值以及等式33-35中计算的经降噪的矢量的期望的平方,以使用上述等式36来确定降噪过程的不确定性。注意,等式36中,是不确定性的矢量表示,它表示静态经降噪的矢量
Figure A0381140300172
的每一分量的各自的不确定性
上述等式33-35确定了经降噪的矢量的静态分量。在本发明的实施例中,也可确定描述分量如何在帧之间变化的这些静态分量的差分。这些差分通常被称为动态特征。在本发明中,确定两种类型的动态特征。一种是表明帧间变化的增量特征,另一种是表明增量特征变化率的加速度特征。在一个实施例中,增量特征计算如下:
Δ x ^ t = Σ τ = - K K ω τ x ^ t + τ 等式45
其中,
Figure A0381140300175
是经降噪的矢量的动态特征,K表明用于确定动态特征的相邻帧的数量,ωτ是提供对相邻帧的相对加权的固定权值。注意,在等式45中使用了矢量符号来表明对经降噪的特征矢量的每一分量执行单独计算。
加速度特征也基于等式45中计算的增量特征来确定。具体地:
Δ 2 x ^ t = Σ τ = - K K υ τ Δ x ^ t + τ 等式46
其中, 是经降噪的矢量的加速度特征,K表明用于确定动态特征的相邻帧的数量,υτ是提供对相邻帧的相对加权的固定权值。
增量和加速度特征与静态降噪特征一起提供给解码器。另外,计算增量和加速度特征的不确定性,并将其提供给解码器。具体地,增量和加速度特征的不确定性计算如下:
Σ Δ x ^ t = Σ τ = - K K ω τ 2 Σ x ^ t 等式47
Σ Δ 2 x ^ t = Σ τ = - K K υ τ 2 Σ Δ x ^ t 等式48
其中,
Figure A03811403001710
是上述等式36中计算的不确定性, 是增量特征的不确定性, 是加速度特征的不确定性,ωτ和υτ是等式45和46中所使用的相同的加权值。
静态特征、增量特征和加速度特征的不确定性的每一个都用在等式6中,以在解码过程中确定含噪声的特征矢量的对应特征的概率。具体地,等式45和46中计算的增量特征和加速度特征的每一分量都作为经降噪的矢量的个别分量来看待,而与增量特征的每一元素和每一加速度特征相关联的对应的不确定性都用作等式6中的不确定性
在语音识别中使用本发明的方法和系统在图3的流程图和图4的方框图中示出。该方法从图3的步骤300开始,将含噪声的语音信号转换成特征矢量序列。为了完成这一点,图4的麦克风404把来自说话者400和一个或多个附加噪声源402的音频波转换成电信号。然后由模—数转换器406对该电信号进行采样以生成数字值序列,该序列由帧构造器408分组成值的帧。在一个实施例中,模—数转换器406以16kHz和每样值16比特对模拟信号进行采样,从而产生每秒32千字节的语音数据,并且帧构造器408每10毫秒产生一个包含25毫秒数据的新帧。
帧构造器408提供的每一数据帧由特征提取器410转换成特征矢量。标识这一特征矢量的方法在本领域中是众所周知的,并包括13维梅尔频率倒谱系数(MFCC)提取。
在图3的步骤302,将含噪声的语音信号的特征矢量提供给图4中的噪声估算模块411。噪声估算模块411估算当前帧的的噪声,并将表示噪声估算的特征矢量和含噪声的语音信号一起提供给降噪模块412。
在图3的步骤304,降噪模块412使用上述等式33-35、45和46以及储存在降噪参数存储413中的这些等式的模型参数,以从含噪声的特征矢量序列中产生经降噪的特征矢量序列。具体地,降噪模块412使用上述声学失真模型。另外,降噪模块412使用等式36-44、47和48以确定与形成经降噪的特征矢量相关联的不确定性。
降噪模块412的输出是一系列经降噪的特征矢量和对应的与那些经降噪的特征矢量相关联的一系列不确定性。如果输入信号是训练信号,则将经降噪的特征矢量序列提供给训练器424,它使用经降噪的特征矢量和训练文本426来训练声学模型418。训练这一模型的技术在本领域中是众所周知的,因此不需要为了理解本发明而描述它们。
如果输入信号是测试信号,则将经降噪的特征矢量和对应的不确定性提供给解码器414,后者基于特征矢量流、不确定性流、词典415、语言模型416以及如图3的步骤306中所示的声学模型418来标识最可能的单词序列。特别地,解码使用上述等式6。
将最可能的假设单词序列提供给置信度测量模块420。置信度测量模块420部分地基于二级声学模型(未示出),来标识哪些单词最可能被语音识别器不正确地标识。置信度测量模块420然后向输出模块422提供假设单词序列以及指示哪些单词可能被不正确地标识的标识符。本领域的技术人员将认识到,置信度测量模块420对实践本发明并不是必需的。
虽然图4描述了一种语音识别系统,然而本发明也可在任一模式识别系统中使用,而不局限于语音。
虽然参考具体实施例描述了本发明,然而本领域的技术人员将认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改动。

Claims (16)

1.一种降低含噪声的信号中的噪声的方法,其特征在于,所述方法包括:
使用一声学环境模型降低所述含噪声的信号的一部分的表示中的噪声,以产生经降噪的信号的一部分的表示;以及
标识与所述降噪相关联的不确定性。
2.如权利要求1所述的方法,其特征在于,它还包括:
使用所述不确定性来调整一概率分布,以形成经修改的概率分布;以及
使用所述经降噪的信号的一部分的表示和所述经修改的概率分布来对一模式状态进行解码。
3.如权利要求1所述的方法,其特征在于,所述经降噪的信号的一部分的表示包括所述经降噪的信号的增量特征的表示。
4.如权利要求3所述的方法,其特征在于,所述标识不确定性包括标识与所述经降噪的信号的增量特征相关联的不确定性。
5.如权利要求1所述的方法,其特征在于,所述经降噪的信号的一部分的表示包括所述经降噪的信号的加速度特征的表示。
6.如权利要求5所述的方法,其特征在于,所述标识不确定性包括标识与所述经降噪的信号的加速度特征相关联的不确定性。
7.如权利要求1所述的方法,其特征在于,所述降噪包括使用一干净信号的动态方面的先验模型。
8.一种具有用于执行以下步骤的计算机可执行指令的计算机可读媒质:
将一含噪声的信号的帧转换成一包括至少两个分量的特征矢量;
通过使用一声学失真模型降低所述含噪声的信号的特征矢量的分量中的噪声,以产生净化信号的特征矢量的分量;以及
标识与降低所述分量的噪声相关联的不确定性。
9.如权利要求8所述的计算机可读媒质,其特征在于,所述计算机可执行的指令还执行以下步骤:
部分地基于所述净化信号的分量和与从所述分量中降噪相关联的不确定性,来确定一语音状态的概率的概率分量;
无论所述不确定性的值如何,使用所述概率分量来确定所述语音状态的概率。
10.如权利要求9所述的计算机可读媒质,其特征在于,所述确定概率分量包括部分地基于所述不确定性来定义一概率分布。
11.如权利要求10所述的计算机可读媒质,其特征在于,所述定义概率分布包括向概率分布的方差增加所述不确定性。
12.如权利要求8所述的计算机可读媒质,其特征在于,所述计算机可执行指令还执行确定所述净化信号的增量特征的步骤。
13.如权利要求12所述的计算机可读媒质,其特征在于,所述计算机可执行指令还执行确定所述净化信号的增量特征的不确定性的步骤。
14.如权利要求8所述的计算机可读媒质,其特征在于,所述计算机可执行指令还执行确定所述净化信号的加速度特征的步骤。
15.如权利要求14所述的计算机可读媒质,其特征在于,所述计算机可执行指令还执行确定所述净化信号的加速度特征的不确定性的步骤。
16.如权利要求8所述的计算机可读媒质,其特征在于,所述从分量中降噪还包括使用一干净信号的动态方面的先验模型。
CNA038114038A 2002-05-20 2003-05-20 确定和降噪相关联的不确定性的方法 Pending CN1653520A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US10/152,143 US7107210B2 (en) 2002-05-20 2002-05-20 Method of noise reduction based on dynamic aspects of speech
US10/152,127 2002-05-20
US10/152,143 2002-05-20
US10/152,127 US7103540B2 (en) 2002-05-20 2002-05-20 Method of pattern recognition using noise reduction uncertainty
US10/236,042 2002-09-05
US10/236,042 US7174292B2 (en) 2002-05-20 2002-09-05 Method of determining uncertainty associated with acoustic distortion-based noise reduction

Publications (1)

Publication Number Publication Date
CN1653520A true CN1653520A (zh) 2005-08-10

Family

ID=29587546

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038114038A Pending CN1653520A (zh) 2002-05-20 2003-05-20 确定和降噪相关联的不确定性的方法

Country Status (7)

Country Link
US (2) US7174292B2 (zh)
EP (1) EP1506542A1 (zh)
JP (1) JP2005527002A (zh)
KR (1) KR20050000541A (zh)
CN (1) CN1653520A (zh)
AU (1) AU2003241553A1 (zh)
WO (1) WO2003100769A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
KR100558391B1 (ko) * 2003-10-16 2006-03-10 삼성전자주식회사 디스플레이장치 및 그 제어방법
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US20070219796A1 (en) * 2006-03-20 2007-09-20 Microsoft Corporation Weighted likelihood ratio for pattern recognition
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8209175B2 (en) * 2006-06-08 2012-06-26 Microsoft Corporation Uncertainty interval content sensing within communications
KR100908121B1 (ko) 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8195453B2 (en) * 2007-09-13 2012-06-05 Qnx Software Systems Limited Distributed intelligibility testing system
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
ES2334429B2 (es) * 2009-09-24 2011-07-15 Universidad Politécnica de Madrid Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
CN106803175B (zh) * 2011-02-16 2021-07-30 维萨国际服务协会 快拍移动支付装置,方法和系统
US10586227B2 (en) 2011-02-16 2020-03-10 Visa International Service Association Snap mobile payment apparatuses, methods and systems
AU2012220669A1 (en) 2011-02-22 2013-05-02 Visa International Service Association Universal electronic payment apparatuses, methods and systems
US9582598B2 (en) 2011-07-05 2017-02-28 Visa International Service Association Hybrid applications utilizing distributed models and views apparatuses, methods and systems
US9355393B2 (en) 2011-08-18 2016-05-31 Visa International Service Association Multi-directional wallet connector apparatuses, methods and systems
US10121129B2 (en) 2011-07-05 2018-11-06 Visa International Service Association Electronic wallet checkout platform apparatuses, methods and systems
US9710807B2 (en) 2011-08-18 2017-07-18 Visa International Service Association Third-party value added wallet features and interfaces apparatuses, methods and systems
US10242358B2 (en) 2011-08-18 2019-03-26 Visa International Service Association Remote decoupled application persistent state apparatuses, methods and systems
US10825001B2 (en) 2011-08-18 2020-11-03 Visa International Service Association Multi-directional wallet connector apparatuses, methods and systems
US10223730B2 (en) 2011-09-23 2019-03-05 Visa International Service Association E-wallet store injection search apparatuses, methods and systems
AU2013214801B2 (en) 2012-02-02 2018-06-21 Visa International Service Association Multi-source, multi-dimensional, cross-entity, multimedia database platform apparatuses, methods and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9437212B1 (en) * 2013-12-16 2016-09-06 Marvell International Ltd. Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法
US11514314B2 (en) 2019-11-25 2022-11-29 International Business Machines Corporation Modeling environment noise for training neural networks

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US5148489A (en) 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5604839A (en) 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5924065A (en) 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6098040A (en) 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
WO2000001124A1 (en) * 1998-06-29 2000-01-06 Nokia Networks Oy Symbol estimation using soft-output algorithm and feedback
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6173258B1 (en) 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6418411B1 (en) 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6577997B1 (en) 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
DE60018696T2 (de) 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
US6633843B2 (en) 2000-06-08 2003-10-14 Texas Instruments Incorporated Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption
US6898566B1 (en) 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US7003455B1 (en) 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
US7158933B2 (en) 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
US6915259B2 (en) 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6990447B2 (en) * 2001-11-15 2006-01-24 Microsoft Corportion Method and apparatus for denoising and deverberation using variational inference and strong speech models
US6944590B2 (en) 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7050975B2 (en) * 2002-07-23 2006-05-23 Microsoft Corporation Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US7200557B2 (en) * 2002-11-27 2007-04-03 Microsoft Corporation Method of reducing index sizes used to represent spectral content vectors

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法

Also Published As

Publication number Publication date
EP1506542A1 (en) 2005-02-16
US20070106504A1 (en) 2007-05-10
AU2003241553A1 (en) 2003-12-12
US7174292B2 (en) 2007-02-06
KR20050000541A (ko) 2005-01-05
US20030225577A1 (en) 2003-12-04
WO2003100769A1 (en) 2003-12-04
JP2005527002A (ja) 2005-09-08
US7289955B2 (en) 2007-10-30

Similar Documents

Publication Publication Date Title
CN1653520A (zh) 确定和降噪相关联的不确定性的方法
CN100336102C (zh) 采用增量贝叶斯学习进行噪声估计的方法
CN1622200A (zh) 多传感语音增强方法和装置
CN1750123A (zh) 多传感器语音增强的方法和装置
US6959276B2 (en) Including the category of environmental noise when processing speech signals
US7107210B2 (en) Method of noise reduction based on dynamic aspects of speech
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US7769582B2 (en) Method of pattern recognition using noise reduction uncertainty
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
RU2420813C2 (ru) Повышение качества речи с использованием множества датчиков с помощью модели состояний речи
CN1908965A (zh) 信息处理装置及其方法和程序
CN1584984A (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
CN1746973A (zh) 分布式语音识别系统和方法
CN1662018A (zh) 移动设备上多传感语音增强的方法和装置
CN1419184A (zh) 用于调试与语言模型一起使用的类实体词典的方法和设备
CN1645476A (zh) 使用切换状态空间模型的多模变分推导的语音识别方法
JP4731855B2 (ja) 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体
CN1760974A (zh) 用于语音分类和语音识别的隐藏条件随机场模型
CN1129485A (zh) 信号分析装置
CN1750120A (zh) 索引设备和索引方法
CN1551101A (zh) 压缩声音模型的自适应
CN101044554A (zh) 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
CN1521729A (zh) 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
JP3939955B2 (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法
CN1624765A (zh) 使用分段线性逼近的连续值声道共振跟踪方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication