CN1584984A - 使用瞬时信噪比作为最优估计的主量的降噪方法 - Google Patents

使用瞬时信噪比作为最优估计的主量的降噪方法 Download PDF

Info

Publication number
CN1584984A
CN1584984A CNA2004100642175A CN200410064217A CN1584984A CN 1584984 A CN1584984 A CN 1584984A CN A2004100642175 A CNA2004100642175 A CN A2004100642175A CN 200410064217 A CN200410064217 A CN 200410064217A CN 1584984 A CN1584984 A CN 1584984A
Authority
CN
China
Prior art keywords
noise
signal
stochastic variable
variable
clean signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100642175A
Other languages
English (en)
Other versions
CN1584984B (zh
Inventor
J·G·德罗波
邓立
A·阿塞罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1584984A publication Critical patent/CN1584984A/zh
Application granted granted Critical
Publication of CN1584984B publication Critical patent/CN1584984B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

提供了一种准确地估计噪声并减少模式识别信号中的噪声的系统和方法。该方法和系统将映射随机变量定义为至少干净信号随机变量和噪声随机变量的函数。然后确定描述该映射随机变量的值分布的至少一方面的模型参数。基于该模型参数,确定干净信号随机变量的估计。在本发明的许多方面,映射随机变量是信噪比变量,并且该方法和系统从模型参数估计信噪比变量的值。

Description

使用瞬时信噪比作为最优估计的主量的降噪方法
技术领域
本发明涉及降噪,尤其涉及从模式识别中使用的信号中去除噪声。
背景技术
模式识别系统,如语音识别系统,采用输入信号并试图对该信号进行解码来找出由该信号表示的模式。例如,在语音识别系统中,语音信号(通常称为测试信号)由识别系统接收并解码来标识由该语音信号表示的一串单词。
为对输入测试信号进行解码,大多数识别系统使用描述该测试信号的一部分表示特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间规整(Dynamic Time Warping)、分段模型和隐马尔可夫模型(Hidden MarkovModel)。
在一个模型可以被用来对输入信号进行解码之前,必须对它进行训练。这通常通过测量来自已知的训练模式的输入训练信号来完成。例如,在语音识别中,一组语音信号由说话者从已知的文本中读取来生成。然后使用这些语音信号来训练模型。
为使模型能最优地工作,用于训练模型的信号应当与被解码的最终测试信号类似。具体而言,训练信号应当与被解码的测试信号具有相同的噪声量和类型。
通常,在“干净”的条件之下收集训练信号,并且考虑训练信号为相对无噪声。为在测试信号中达到这一同样的低噪声水平,许多现有技术系统向测试数据应用降噪技术。
在两种已知的用于在测试数据中降噪的技术中,将含有噪声的语音模型化为时域中干净语音和噪声的线性组合。由于识别解码器在对数域中的梅尔频率(Mel-frequency)滤波器组特征上操作,时域中的这一线性关系在对数域中被近似为:
                 y=ln(ex+en)+ε                           公式1其中,y是含噪声的语音,x是干净的语音,n是噪声,ε是余量。理想地,如果x和n是常量且具有相同的相位,则ε为零。然而,即使ε具有期望值零,在实际的数据中,ε具有非零值。由此,ε是变量。
为说明这一情况,现有技术中的一个系统将ε模型化为高斯型(Gaussian),其中,高斯型的变量依赖于噪声n和干净语音x的值。尽管这一系统对真实分布的所有范围提供了较好的近似,训练它仍是耗时的,因为它需要同时推断x和n。
在另一系统中,将ε模型化为不依赖于噪声n或干净语音x的高斯型。由于该变量不依赖于x或n,当x和n改变时,它的值不变。结果,如果将该变量设得太高,则当噪声远大于干净语音或干净语音远大于噪声时,它无法提供较好的模型。如果将该变量设得太低,则当噪声和干净语音几乎相等时,它无法提供较好的模型。为解决这一问题,现有技术使用迭代泰勒级数近似以将该变量设置到一个最优的级别。
尽管这一系统为将余量模型化为依赖于噪声或干净语音,使用它仍是耗时的,因为它需要x或n的同时推论。
发明内容
提供了一种减少模式识别信号中的噪声的系统和方法。该方法和系统将映射随机变量定义为至少干净信号随机变量和噪声随机变量的函数。然后确定描述映射随机变量的值分布的至少一方面的模型参数。基于该模型参数,确定干净信号随机变量的估计。在本发明的许多方面中,映射随机变量是信噪变量,并且该系统和方法从模型参数估计信噪变量的值。
附图说明
图1是可实践本发明的一个计算环境的框图。
图2是可实践本发明的一个替换计算环境的框图。
图3是使用本发明的一个实施例的降噪系统的方法的流程图。
图4是可以使用本发明的实施例的降噪系统和信噪识别系统的框图。
图5是可以实践本发明的实施例的模式识别系统的框图。
具体实施方式
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本发明的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明可在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。设计本发明在分布式计算环境中实践,其中,任务由通过通信网络连接远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和指向设备161,如鼠标、轨迹球或触摸板向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件,图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)172,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信的其它装置。
图2是移动装置200的框图,它是一个示例性计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中,上述组件被耦合在一起用于通过合适的总线210彼此进行通信。
存储器204被实现为非易失电存储器,如具有电池后备模块(未示出)的随机存取存储器(RAM),使当移动装置200的总电源被切断时信息仍储存在存储器204中。存储器204的一部分被较佳地分配为用于程序执行的可寻址存储器,而存储器204的另一部分被较佳地用于存储,如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中,操作系统212较佳地由处理器202从存储器204中执行。在一个较佳实施例中,操作系统212是WINDOWSCE商标操作系统,可从微软公司购买。操作系统212较佳地被设计成用于移动装置,并实现可由应用214通过一组开放的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对开放的应用编程接口和方法的调用,由应用214和操作系统212维护。
通信接口208表示允许移动装置200发送和接收信息的众多装置和技术。仅举几个例子,该装置包括有线和无线调制解调器、卫星接收器和广播调谐器。移动装置200也可以直接连接到计算机来与其交换数据。在这一情况下,通信接口208可以是红外收发器或串行或并行通信连接,所有这些都能够发送流信息。
输入/输出组件206包括各种输入设备,如触敏屏幕、按钮、滚轮和麦克风,以及各种输出设备,包括音频发生器、振动装置和显示屏。以上列出的设备作为示例,不需要都在移动装置200上存在。另外,在本发明的范围内,其它输入/输出设备可以附加到移动装置200或在其上找到。
在本发明的一个方面,提供了减少模式识别信号中的噪声的系统和方法,通过假定含噪声的语音与干净和噪声的总和之差的误差项中的零变量来实现。过去未完成这一技术,因为人们认为它无法较好地将实际行为模型化,且当噪声远大于干净语音时,变量的零值令干净语音的计算变得不稳定。可以从以下公式中看到:
                   x=ln(ey-en)                           公式2其中,x是干净语音特征矢量,y是含噪声的语音特征矢量,n是噪声特征矢量。当n远大于x时,n和y几乎相等。当出现这一情况时,x变得对n中的变化敏感。另外,必须在n上加以约束来防止对数中的项变负。
为克服这些问题,本发明使用信噪比r,在特征矢量的对数域中被表示为:
                   r=x-n                                 公式3
注意,公式3提供了映射随机变量r的一种定义。形成映射随机变量的不同定义的对x和n之间的关系的修改在本发明的范围之内。
使用这一定义,可以重写上文的公式2来按照特征向量提供x和n的定义为:
                   x=y-ln(er+1)+r                        公式4
                   n=y-ln(er+1)                          公式5
注意,在公式4和5中,x和n都是随机变量,并且不固定。由此,本发明对余量假定零值,而不对噪声n或干净语音x的可能值加以限制。
使用x和n的这些定义,可以将联合概率分布函数定义为:
         p(y,r,x,n,s)=p(y|x,n)p(r|x,n)p(x,s)p(n)  公式6
其中,s是语音状态,如音素;给定干净语音特征矢量x和噪声特征矢量n,p(y|x,n)是描述含噪声的语音的特征矢量y的概率的观测概率;给定干净语音特征矢量和噪声特征矢量,p(r|x,n)是描述信噪比特征矢量r的信噪概率;p(x,s)是干净语音特征矢量和语音状态的联合概率;p(n)是噪声特征矢量的先验概率。
观测概率和信噪比概率都是x和n的确定性函数。结果,条件概率可以由迪拉克增量函数表示:
            p(y|x,n)=δ(ln(ex+en)-y)                        公式7
            p(r|x,n)=δ(x-n-r)                              公式8
其中
∫ - ϵ ϵ δ ( x ) dx = 1 , 对所有ε>0                                                       公式9
           δ(x)=0,对所有x≠0                               公式10这允许通过x和n将联合概率密度函数边缘化来如下生成联合概率p(y,r,s):
          p(y,r,s)=∫dx∫dnp(y,r,x,n,s)                公式11
     p(y,r,s)=∫dx∫dnδ(ln(ex+en)-y)δ(x-n-r)p(x,s)p(n)  公式12
p ( y , r , s ) = p ( x , s ) | x = y - ln ( e r + 1 ) + r p ( n ) | n = y - ln ( e r + 1 )
公式13
p ( y , r , s ) = N ( y - ln ( e r + 1 ) + r ; μ s x , σ s x ) p ( s )
· N ( y - ln ) ( e r + 1 ) ; μ n , σ n )
公式14
其中,p(x,s)被分离成表示为高斯型的具有平均值μs x的概率p(x|s)以及语音状态的方差σs x和先验概率p(s),并且概率p(n)被表示为具有平均值μn和方差σn的高斯型。
为简化应用到高斯分布的非线性函数,本发明的一个实施例对非线性函数的一部分使用一阶泰勒级数近似,使得:
ln ( e r + 1 ) ≈ f ( r s 0 ) + F ( r s 0 ) ( r - r s 0 )
公式15
其中
f ( r s 0 ) = ln ( e r s 0 + 1 )
公式16
F ( r s 0 ) = diag ( 1 1 + e - r s 0 )
公式17
其中,rs 0是泰勒级数展开的展开点,f(rs 0)是使对信噪比展开点矢量rs 0中的每一元素执行该函数的矢量函数,F(rs 0)是在对信噪比展开点矢量的每一矢量元素的括号内执行该函数并将这些值沿矩阵的对角线放置的矩阵函数。为下文的简化性,f(rs 0)被表示为fs 0,F(rs 0)被表示为Fs 0
然后可以用公式15的泰勒级数近似代入公式14中的ln(er+1),生成:
p ( y , r , s ) ≈ N ( y - f s 0 + F s 0 · r s 0 - ( F s 0 - I ) r ; μ s x , σ s x ) ·
N ( y - f s 0 + F s 0 + r s 0 - F s 0 · r ; μ n , σ n ) p ( s )
公式18
使用标准高斯操作公式,可以以因式分解的形式替换公式18:
p(y,r,s)=p(r|y,s)p(y|s)p(s)                         公式19
其中
p ( r | y , s ) = N ( r ; μ ^ s r , σ ^ s r )
公式20
( σ ^ s r ) - 1 = ( F s 0 - I ) T ( σ s x ) - 1 ( F s 0 - I ) + F s 0 T ( σ n ) - 1 F s 0
公式21
μ ^ s r = σ ^ s r ( F s 0 - I ) T ( σ s x ) - 1 ( y - f s 0 + F s 0 · r s 0 - μ s x )
+ σ ^ s r F s 0 ( σ n ) - 1 ( y - f s 0 + F s 0 · r s 0 - μ n )
公式22
并且
p(y|s)=N(as;bs,Cs)                                   公式23
a s = y - f s 0 + F s 0 · r s 0
公式24
b s = μ n + F s 0 ( μ s x - μ n )
公式25
C s = F s 0 T σ s x F s 0 + ( F s 0 - I ) T σ n ( F s 0 - I )
公式26
其中,
Figure A200410064217001110
是语音状态s的信噪比的平均值和方差。
在本发明的一个方面,使用公式20-26来对干净语音和/或信噪比确定估计值。在图3的流程图中示出了作出这些确定的步骤,以下参考图4的框图来描述。
在图3的步骤300,从干净训练语音和训练文本中训练干净语音模型的平均值μs x和方差σs x以及每一语音状态s的先验概率p(s)。注意,对每一语音状态s训练不同的平均值和方差。在训练之后,在降噪参数存储单元416中储存干净语音模型参数。
在步骤302,从输入话语提取特征。为完成这一过程,图4的麦克风将来自说话者400和一个或多个附加噪声源402的音频波转化成电信号。然后由模-数转化器406对该电信号进行采样,来生成一列数字值,由帧构造器408将其分组成值的帧。在一个实施例中,A-D转化器406以16KHz和每样值16比特对模拟信号进行采样,由此创建每秒32千字节的语音数据,帧构造器408每10毫秒创建一个包括25毫秒数据的新帧。
帧构造器408提供的每一帧数据由特征提取器410转化成特征矢量。标识这类特征矢量的方法在本领域中是众所周知的,并包括39维梅尔频率倒谱系数(MFCC)提取。在一个具体实施例中,使用c0替换大多数MFCC提取系统中使用的对数能量特征,并使用功率谱密度来替代谱幅度。
在步骤304,图3的方法使用噪声估计单元412对输入信号的每一帧估计噪声。在本发明中可以使用任一已知的噪声估计技术。例如,可以使用“Proc.ASRU2001”,意大利,2001年12月中T.Kristjansson等人的“一般化EM框架中信号和信道失真的联合估计(Joint estimation of noise and channel distortion in ageneralized EM framework)”中描述的技术。
跨越整个话语或话语的基本部分的噪声的估计由噪声模型训练器414使用,它构造包括估计噪声的平均值μn和方差σn的噪声模型。该噪声模型储存在降噪参数存储416中。
在步骤306,降噪单元418使用干净语音模型的平均值和噪声模型的平均值来确定公式21和22的泰勒级数展开的初始展开点rs 0。具体而言,设置每一语音单元的初始展开点等于语音单元的干净语音平均值和噪声平均值之差。
一旦初始化了泰勒级数展开点,在步骤308,降噪单元418使用公式21和22中的泰勒级数展开来对每一语音单元计算信噪比的平均值
Figure A20041006421700121
在步骤310,将信噪比平均值与该平均值的前一值(如果有的话)比较来确定平均值是否收敛到稳定值。如果它们未收敛(或这是第一次迭代),过程在步骤312继续,将泰勒级数展开点设为信噪比的各自的平均值。过程然后返回到步骤308来使用公式21和22重新确定信噪比的平均值。重复步骤308、310和312直到信噪比的平均值收敛。
一旦信噪比平均值稳定,过程继续到步骤314,使用泰勒级数展开来确定干净语音的估计和/或信噪比的估计。干净语音的估计如下计算:
x ^ = Σ s E [ x | y , s ] p ( s | y )
公式27
其中
E [ x | y , s ] ≈ y - ln ( e μ ^ s r + 1 ) + μ ^ s r
公式28
p ( s | y ) = p ( y | s ) p ( s ) Σ s p ( y | s ) p ( s )
公式29
并且其中,使用上述公式23-26来计算p(y|s),并从干净语音模型中获取p(s)。
信噪比的估计值如下计算:
r ^ = Σ s μ ^ s r p ( s | y )
公式30
由此,图3的过程能够对输入信号的每一帧生成信噪比的估计值420和/或干净语音特征矢量的估计值422。
信噪比和干净语音特征矢量的估计值可以用于任何期望的目的。在一个实施例中,直接在图5所示的语音识别系统中使用干净语音特征矢量的估计值。
如果输入信号是训练信号,则向训练器500提供干净语音特征矢量的估计值422,训练器500使用干净语音特征矢量的估计值和训练文本502来训练声学模型504。训练这类模型的技术在本领域中是众所周知的,不需要描述它们来理解本发明。
如果输入信号是测试信号,则向解码器506提供干净语音特征矢量的估计值,解码器506基于特征矢量流、词典508、语言模型510和声学模型504来标识最可能的单词序列。用于解码的具体方法对本发明不重要,可以使用若干种已知的用于解码的方法。
向可信度测量模块512提供最可能的假设单词序列。可信度测量模块512部分地基于第二声学模型(未示出)标识哪些单词最可能被语音识别器不正确地标识。可信度测量模块512然后向输出模块514提供假设单词序列和指示哪些单词被不正确地标识的标识符。本领域的技术人员可以认识到,可信度测量模块512对实践本发明而言不是必需的。
尽管图4和5描述了语音系统,本发明可以在任一模式识别系统中使用,不限于语音。
尽管参考具体的实施例描述了本发明,本领域的技术人员将认识到,在不脱离本发明的精神和范围的情况下可以在形式和细节上作出变化。

Claims (11)

1.一种对表示含噪声的信号中的干净信号的一部分的干净信号随机变量标识估计的方法,其特征在于,所述方法包括:
将映射随机变量定义为至少所述干净信号随机变量和一噪声随机变量的函数;
确定描述所述映射随机变量值的分布的至少一方面的分布参数;以及
使用所述分布参数根据观测值确定所述干净信号随机变量的估计。
2.如权利要求1所述的发明,其特征在于,将所述映射随机变量定义为至少所述干净信号随机变量和所述噪声随机变量的函数包括将所述映射变量定义为所述干净信号随机变量与所述噪声随机变量的比。
3.如权利要求1所述的发明,其特征在于,它还包括使用所述分布参数来确定所述映射随机变量的估计。
4.一种具有计算机可执行指令的计算机可读媒质,其特征在于,所述计算机可执行指令执行以下步骤:
将随机变量定义为信噪比变量的函数;
基于所定义的函数对所述信噪比确定分布参数;以及
使用所述分布参数来确定所述信噪比的估计。
5.如权利要求4所述的发明,其特征在于,所述随机变量包括一表示干净信号的一部分的干净信号随机变量。
6.如权利要求4所述的发明,其特征在于,所述随机变量包括一表示观测信号中的噪声的噪声信号随机变量。
7.如权利要求4所述的发明,其特征在于,定义随机变量还包括将所述随机变量定义为观测信号的函数。
8.如权利要求2或4所述的发明,其特征在于,确定分布参数包括使用泰勒级数展开来近似函数。
9.如权利要求8所述的发明,其特征在于,它还包括执行一迭代,它包括以下步骤:
使用泰勒级数展开来计算平均值;
对所述泰勒级数展开设定新展开点等于所述平均值;以及
使用所述新展开点重复所述迭代步骤。
10.如权利要求1或4所述的发明,其特征在于,它还包括:
确定描述所述干净信号随机变量的值分布的至少一方面的干净信号模型参数;以及
使用所述干净信号模型参数来确定所述干净信号随机变量的估计。
11.如权利要求10所述的发明,其特征在于,它还包括:
确定描述所述噪声随机变量值的分布的至少一方面的噪声模型参数;以及
使用所述噪声模型参数来确定所述干净信号随机变量的估计。
CN2004100642175A 2003-08-19 2004-08-19 使用瞬时信噪比作为最优估计的主量的降噪方法 Expired - Fee Related CN1584984B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/643,370 US7363221B2 (en) 2003-08-19 2003-08-19 Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
US10/643,370 2003-08-19

Publications (2)

Publication Number Publication Date
CN1584984A true CN1584984A (zh) 2005-02-23
CN1584984B CN1584984B (zh) 2010-05-26

Family

ID=34063458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004100642175A Expired - Fee Related CN1584984B (zh) 2003-08-19 2004-08-19 使用瞬时信噪比作为最优估计的主量的降噪方法

Country Status (5)

Country Link
US (1) US7363221B2 (zh)
EP (1) EP1508893B1 (zh)
JP (2) JP4855661B2 (zh)
KR (2) KR101117940B1 (zh)
CN (1) CN1584984B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571230A (zh) * 2011-12-22 2012-07-11 中国人民解放军总参谋部第六十三研究所 基于高阶统计量与信噪比盲估计的分布式协同信号识别方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107797000A (zh) * 2017-10-25 2018-03-13 成都西井科技有限公司 基于模型的分析的微波信号检测方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
DE102004002546A1 (de) * 2004-01-17 2005-08-04 Abb Patent Gmbh Verfahren zum Betrieb eines Durchflussmesssystems
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8369417B2 (en) * 2006-05-19 2013-02-05 The Hong Kong University Of Science And Technology Optimal denoising for video coding
US8831111B2 (en) * 2006-05-19 2014-09-09 The Hong Kong University Of Science And Technology Decoding with embedded denoising
WO2008107027A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements in a telecommunications network
EP2210427B1 (en) 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CA2836858C (en) 2008-07-11 2017-09-12 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
GB2464093B (en) 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
CN101894563B (zh) * 2010-07-15 2013-03-20 瑞声声学科技(深圳)有限公司 语音增强的方法
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
JP6696424B2 (ja) * 2014-07-16 2020-05-20 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラム
CN112307422A (zh) * 2020-10-30 2021-02-02 天津光电通信技术有限公司 一种低信噪比下信号时频分析方法、装置及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
CA2296330C (en) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Generation of voice messages
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
JPH11345000A (ja) * 1998-06-03 1999-12-14 Nec Corp 雑音消去方法及び雑音消去装置
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6879957B1 (en) * 1999-10-04 2005-04-12 William H. Pechter Method for producing a speech rendition of text from diphone sounds
US20030158734A1 (en) * 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571230A (zh) * 2011-12-22 2012-07-11 中国人民解放军总参谋部第六十三研究所 基于高阶统计量与信噪比盲估计的分布式协同信号识别方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107797000A (zh) * 2017-10-25 2018-03-13 成都西井科技有限公司 基于模型的分析的微波信号检测方法

Also Published As

Publication number Publication date
US20050043945A1 (en) 2005-02-24
JP4855661B2 (ja) 2012-01-18
JP2005062890A (ja) 2005-03-10
KR20050020949A (ko) 2005-03-04
EP1508893A2 (en) 2005-02-23
US7363221B2 (en) 2008-04-22
KR20110131147A (ko) 2011-12-06
KR101201146B1 (ko) 2012-11-13
EP1508893B1 (en) 2013-05-22
EP1508893A3 (en) 2007-09-05
JP2011158918A (ja) 2011-08-18
CN1584984B (zh) 2010-05-26
KR101117940B1 (ko) 2012-02-29

Similar Documents

Publication Publication Date Title
CN1584984A (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
CN100336102C (zh) 采用增量贝叶斯学习进行噪声估计的方法
CN1750123A (zh) 多传感器语音增强的方法和装置
CN1622200A (zh) 多传感语音增强方法和装置
CN1645476A (zh) 使用切换状态空间模型的多模变分推导的语音识别方法
US6959276B2 (en) Including the category of environmental noise when processing speech signals
CN1653520A (zh) 确定和降噪相关联的不确定性的方法
CN1162839C (zh) 产生声学模型的方法和装置
CN1152365C (zh) 音调跟踪装置和方法
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US7769582B2 (en) Method of pattern recognition using noise reduction uncertainty
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
CN1419184A (zh) 用于调试与语言模型一起使用的类实体词典的方法和设备
CN1551101A (zh) 压缩声音模型的自适应
CN101199006B (zh) 使用先验无噪声语音的多传感语音增强方法和系统
CN1727860A (zh) 增益受限的噪音抑制
CN1760974A (zh) 用于语音分类和语音识别的隐藏条件随机场模型
CN1216380A (zh) 特征抽取装置和方法以及模式识别装置和方法
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN1538382A (zh) 用于子空间编码高斯模型的训练的方法
CN1521729A (zh) 使用隐轨迹和隐马尔可夫模型进行语音识别的方法
US20070150263A1 (en) Speech modeling and enhancement based on magnitude-normalized spectra
CN1624765A (zh) 使用分段线性逼近的连续值声道共振跟踪方法和装置
JP2002140093A (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150515

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150515

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20200819

CF01 Termination of patent right due to non-payment of annual fee