CN1591574B - 用于减少在语音信号中的噪音的方法和系统 - Google Patents

用于减少在语音信号中的噪音的方法和系统 Download PDF

Info

Publication number
CN1591574B
CN1591574B CN200410068536.3A CN200410068536A CN1591574B CN 1591574 B CN1591574 B CN 1591574B CN 200410068536 A CN200410068536 A CN 200410068536A CN 1591574 B CN1591574 B CN 1591574B
Authority
CN
China
Prior art keywords
harmonic component
noise
component
voice signal
proportional zoom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200410068536.3A
Other languages
English (en)
Other versions
CN1591574A (zh
Inventor
M·塞尔泽
J·德罗普
A·阿塞罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1591574A publication Critical patent/CN1591574A/zh
Application granted granted Critical
Publication of CN1591574B publication Critical patent/CN1591574B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成一谐波分量和一剩余分量。然后将谐波分量和剩余分量组合成总和来形成一经降噪的值。在一些实施例中,该总和是加权总和,其中将谐波分量乘以一比例缩放因子。在一些实施例中,在语音识别中使用经降噪的值。

Description

用于减少在语音信号中的噪音的方法和系统
技术领域
本发明涉及降噪,尤其涉及从语音识别中使用的信号中移除噪声。
背景技术
模式识别系统,如语音识别系统,采用输入信号并试图对该信号进行解码来找出由该信号表示的模式。例如,在语音识别系统中,语音信号(通常称为测试信号)由识别系统接收并解码来标识由该语音信号表示的一串单词。
为对输入测试信号进行解码,大多数识别系统使用描述该测试信号的一部分表示特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间规整(Dynamic Time Warping)、分段模型和隐马尔可夫模型(Hidden MarkovModel)。
在一个模型可以被用来对输入信号进行解码之前,必须对它进行训练。这通常通过测量来自已知的训练模式的输入训练信号来完成。例如,在语音识别中,一组语音信号由说话者读已知的文本来生成。然后使用这些语音信号来训练模型。
为使模型能最优地工作,用于训练模型的信号应当与被解码的最终测试信号类似。具体而言,训练信号应当与被解码的测试信号具有相同的噪声量和类型。
通常,在“干净”的条件之下收集训练信号,并且考虑训练信号为相对无噪声。为在测试信号中达到这一同样的低噪声水平,许多现有技术系统向测试数据应用噪声减少技术。
一种移除噪声的技术试图使用在各种含噪声的条件下收集的一组训练信号来将噪声模型化。然而,这类系统仅当训练信号的噪声条件匹配测试信号的噪声条件时才有效。由于大量可能的噪声和噪声的表面上的无穷组合,很难构建能处理每一测试条件的噪声模型。
用于移除噪声的另一技术是估计噪声然后将其从含噪声的语音信号中减去。通常,这类系统从输入信号的前一帧估计噪声。由此,如果噪声随时间变化,对当前帧的噪声估计将不准确。
用于估计语音信号中的噪声的现有技术的一种系统使用人类语音的谐波。人类语音的谐波在频谱中产生峰值。通过标识这些峰值之间的空值,这些系统标识噪声的频谱。然后从含噪声的语音信号的频谱中减去该频谱来提供干净的语音信号。
也在语音编码中使用语音的谐波来减少当对语音进行编码用于跨越数据通信路径的传输时必须发送的数据量。这类系统试图将语音信号分离成谐波分量和随机分量。然后单独地对每一分量进行编码用于传输。一个具体的系统使用正弦曲线总和模型符合语音信号的谐波+噪声模型来执行分解。
在语音编码中,完成分解来找出准确地表示输入的含噪声的语音信号的语音信号的参数表示。分解没有降噪能力,并因此在语音识别中并不有用。
发明内容
提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成谐波分量和剩余分量。然后将谐波分量和剩余分量组合成一总和来形成一经降噪的值。在一些实施例中,该总和是一加权总和,其中,将谐波分量乘以一比例缩放因子。在一些实施例中,在语音识别中使用经降噪的值。
附图说明
图1是可以在其中实践本发明的一个计算环境的框图。
图2是可以在其中实践本发明的一个替换的计算环境的框图。
图3是使用本发明的一个实施例的噪声减少系统的方法的流程图。
图4是本发明的一个实施例的噪声减少系统的框图。
图5是可实践本发明的实施例的模式识别系统的框图。
具体实施方式
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本发明的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。
本发明可在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。设计本发明在分布式计算环境中实践,其中,任务由通过通信网络连接远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,存储的信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定点设备161,如鼠标、轨迹球或触摸板向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件,图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)172,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信的其它装置。
图2是移动装置200的框图,它是一个示例性计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中,上述组件被耦合在一起用于通过合适的总线210彼此进行通信。
存储器204被实现为非易失电存储器,如具有电池后备模块(未示出)的随机存取存储器(RAM),使当移动装置200的总电源被切断时信息仍储存在存储器204中不会丢失。存储器204的一部分被较佳地分配为用于程序执行的可寻址存储器,而存储器204的另一部分被较佳地用于存储,如模拟磁盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中,操作系统212较佳地由处理器202从存储器204中执行。在一个较佳实施例中,操作系统212是商标操作系统,从微软公司商业可用。操作系统212较佳地被设计成用于移动装置,并实现可由应用214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对展现的应用编程接口和方法的调用,由应用214和操作系统212维护。
通信接口208表示允许移动装置200发送和接收信息的众多装置和技术。仅举几个例子,该装置包括有线和无线调制解调器、卫星接收器和广播调谐器。移动装置200也可以直接连接到计算机来与其交换数据。在这一情况下,通信接口208可以是红外收发器或串行或并行通信连接,所有这些都能够发送流信息。
输入/输出组件206包括各种输入设备,如触摸屏、按钮、滚轮和麦克风,以及各种输出设备,包括音频发生器、振动装置和显示屏。以上列出的设备作为示例,不需要都在移动装置200上存在。另外,在本发明的范围内,其它输入/输出设备可以附加到移动装置200或在其上找到。
在本发明的一个方面,提供了一种系统和方法,它通过将语音信号分解成谐波分量和随机分量,然后采用谐波分量和随机分量的加权总和形成表示经降噪的语音信号的经降噪的特征矢量,来减少语音信号中的噪声。经降噪的特征矢量然后可以用作到语音解码器的输入。
图3的流程图和图4的框图分别示出了用于形成经降噪的特征矢量的方法和装置。
在步骤300,采集含噪声的语音信号并将其转化成数字样值。为完成这一过程,图4的麦克风将来自说话者400和一个或多个附加噪声源的音频波转化成电信号。然后由模-数转化器406对该电信号进行采样来生成一列数字值。在一个实施例中,A-D转化器以16kHz和每样值16比特对模拟信号进行采样,由此创建每秒32千字节的语音数据。在步骤302,由帧构造器408将数字样值组合成帧。在一个实施例中,帧构造器408每10毫秒创建包含相当于25毫秒的数据的新帧。
每一帧的样值被提供到谐波分解单元410,它在步骤304使用这些样值以将与该帧关联的信号分解成一谐波分量和一随机分量。由此,含噪声的信号被表示为:
y=yh+yr                        公式1
其中,y是含噪声的信号,yh是谐波分量,yr是随机分量。
在一个实施例中,谐波分量被模型化为谐波相关的正弦曲线的总和,使得:
y h = Σ k = 1 K a k cos ( k ω 0 t ) + b k sin ( k ω 0 t ) 公式2
其中,ω0是基本或音调频率,K是信号中的谐波总数。
由此,为标识谐波分量,必须确定音调频率和振幅参数{a1a2...akb1b2bk}的估计。
对音调频率的估计可使用任意数量的可用音调跟踪系统来确定。在许多这样的系统中,使用候选音调来标识语音的片段的中心之间的可能间距。对于每一候选音调,确定语音的连续片段之间的相关性。一般而言,提供最佳相关性的候选音调将是该帧的音调频率。在一些系统中,使用另外的信息来提纯音调选择,如信号的能量和/或期望音调轨迹。
给定音调的估计,可以确定振幅参数的最小二乘解。为完成这一过程,将公式2重写为:
y=Ab                            公式3
其中,y是含噪声的语音信号的N个样值的矢量,A是N×2K的矩阵,由以下公式给出:
A=[AcosAsin]                    公式4
其元素为
Axos(k,t)=cos(kωot)    Asin(k,t)=sin(kωot)            公式5
并且b是2K×1的矢量,由以下公式给出:
bT=[a1a2...akb1b2...bk]                        公式6
然后,振幅系数的最小二乘解为:
b ^ = ( A T A ) - 1 A T y 公式7
使用含噪声的语音信号的谐波分量的估计可以被确定为:
y h = A b ^ 公式8
然后,计算随机分量的估计为:
yr=y-yh                                    公式9
由此,使用以上公式7-9,谐波分解单元410能够产生谐波分量样值的矢量412,yh,以及随机分量样值的矢量414,yr
在将帧的样值分解成谐波和随机样值之后,在步骤306对谐波分量确定比例缩放参数或权值。这一比例缩放参数被用作经降噪的语音信号的计算的一部分,如后文进一步所讨论的。在一个实施例中,计算比例缩放参数为:
a h = Σ i y h ( i ) 2 Σ i y ( i ) 2 公式10
其中,ah是比例缩放参数,yh(i)是谐波分量样值矢量yh中的第i个样值,y(i)是该帧的含噪声语音信号的第i个样值。在公式10中,分子是谐波分量的每一样值的能量的总和,分母是含噪声的语音信号的每一样值的能量的总和。由此,比例缩放参数是该帧的谐波能量与该帧的总能量之比。
在替换实施例中,使用概率性有声-无声检测单元来设置比例缩放参数。这一单元提供语音的特定的帧为有声的概率,指在该帧中声带的谐振,而非无声。该帧来自语音的有声范围的概率可以直接用作比例缩放参数。
在确定比例缩放参数之后或在确定之时,在步骤308,确定谐波分量样值矢量和随机分量样值矢量的梅尔谱(Mel spectra)。这涉及将每一样值矢量通过离散傅立叶变换(DFT)418来产生谐波分量频率值矢量422和随机分量频率值矢量420。然后由梅尔加权单元424使用一系列三角加权函数沿梅尔比例应用来平滑由频率值矢量表示的功率谱。这产生谐波分量梅尔谱矢量428,Yh,和随机分量梅尔谱矢量426,Yr
在步骤310,将谐波分量和随机分量的梅尔谱组合为加权总和来形成经降噪的梅尔谱估计。这一步骤由加权总和计算器430使用以上确定的比例缩放因子在以下公式中执行:
X ^ ( t ) = α h ( t ) Y h ( t ) + α r Y r ( t ) 公式11
其中,
Figure G2004100685363D00082
是经降噪的梅尔谱估计,Yh(t)是谐波分量梅尔谱,Yr(t)是随机分量梅尔谱,αh(t)是以上确定的比例缩放因子,αr是随机分量的固定比例缩放因子,在一个实施例中被设为等于1,时间索引t用于强调对每一帧确定谐波分量的比例缩放因子,而随机分量的比例缩放因子保持固定。注意,在其它实施例中,可对每一帧确定随机分量的比例缩放因子。
在步骤310计算了经降噪的梅尔谱之后,在步骤312,确定梅尔谱的对数432并将其应用到离散余弦变换434。这产生一梅尔频率对数谱系数(MFCC)特征矢量436,表示经降噪的语音信号。
对含噪声的信号的每一帧生成单独的经降噪的MFCC特征矢量。这些特征矢量可用于任何期望的目的,包括语音编码和语音识别。
在一个实施例中,在图5所示的语音识别系统中直接使用经降噪的语音的MFCC特征矢量。
如果输入信号是训练信号,则将经降噪的语音的一系列MFCC特征矢量436提供到训练器500,它使用MFCC特征矢量和训练文本502来训练声学模型504。训练这类模型的技术在本领域中是已知的,并且不需要详细描述它们来理解本发明。
如果输入信号是测试信号,则将MFCC语音特征矢量提供到解码器506,它基于特征矢量流、词典508、语言模型510和声学模型504标识最可能的单词序列。用于解码的具体方法对本发明不重要,可以使用用于解码的若干已知方法的任一种。

Claims (11)

1.一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的方法,其特征在于,所述方法包括:
将含噪声的语音信号的一部分分解成一谐波分量和一随机分量;
至少对所述谐波分量确定一比例缩放参数;
将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量;
将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量;以及
将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值。
2.如权利要求1所述的方法,其特征在于,分解含噪声的语音信号的一部分还包括确定一最小二乘解来标识所述谐波分量。
3.如权利要求1所述的方法,其特征在于,确定所述谐波分量的比例缩放参数包括确定所述谐波分量的能量和所述含噪声的语音信号的能量之比。
4.如权利要求3所述的方法,其特征在于,确定能量之比包括:
将所述谐波分量的样值的能量相加;
将所述含噪声的语音信号的样值的能量相加;以及
将所述谐波分量的总和除以所述含噪声的语音信号的总和。
5.如权利要求1所述的方法,其特征在于,分解含噪声的语音信号的一部分包括将所述含噪声的语音信号的一帧的时间样值矢量分解成一时间样值的谐波分量矢量和一时间样值的随机分量矢量。
6.如权利要求5所述的方法,其特征在于,它还包括从所述时间样值的谐波分量矢量对所述谐波分量确定梅尔谱。
7.如权利要求1所述的方法,其特征在于,它还包括从所述经降噪的值形成一梅尔频率对数谱系数特征矢量。
8.如权利要求7所述的方法,其特征在于,它还包括使用所述梅尔频率对数谱系数特征矢量来执行语音识别。
9.如权利要求1所述的方法,其特征在于,所述谐波分量被模型化为谐波正正弦曲线的总和。
10.一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的系统,其特征在于,所述系统包括:
用于将含噪声的语音信号的一部分分解成一谐波分量和一随机分量的装置;
用于至少对所述谐波分量确定一比例缩放参数的装置;
用于将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量的装置;
用于将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量的装置;以及
用于将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值的装置。
11.如权利要求10所述的系统,其特征在于,所述谐波分量被模型化为谐波正弦曲线的总和。
CN200410068536.3A 2003-08-25 2004-08-25 用于减少在语音信号中的噪音的方法和系统 Expired - Fee Related CN1591574B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/647,586 US7516067B2 (en) 2003-08-25 2003-08-25 Method and apparatus using harmonic-model-based front end for robust speech recognition
US10/647,586 2003-08-25

Publications (2)

Publication Number Publication Date
CN1591574A CN1591574A (zh) 2005-03-09
CN1591574B true CN1591574B (zh) 2010-06-23

Family

ID=34104651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200410068536.3A Expired - Fee Related CN1591574B (zh) 2003-08-25 2004-08-25 用于减少在语音信号中的噪音的方法和系统

Country Status (7)

Country Link
US (1) US7516067B2 (zh)
EP (1) EP1511011B1 (zh)
JP (1) JP4731855B2 (zh)
KR (1) KR101087319B1 (zh)
CN (1) CN1591574B (zh)
AT (1) ATE347162T1 (zh)
DE (1) DE602004003439T2 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5640238B2 (ja) * 2008-02-28 2014-12-17 株式会社通信放送国際研究所 特異点信号処理システムおよびそのプログラム
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) * 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP6064600B2 (ja) * 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
FR2980620A1 (fr) * 2011-09-23 2013-03-29 France Telecom Traitement d'amelioration de la qualite des signaux audiofrequences decodes
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CA2998689C (en) * 2015-09-25 2021-10-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding
WO2017143334A1 (en) * 2016-02-19 2017-08-24 New York University Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
CN108175436A (zh) * 2017-12-28 2018-06-19 北京航空航天大学 一种肠鸣音智能自动识别方法
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1152776A (zh) * 1995-10-26 1997-06-25 索尼公司 复制语言信号、解码语音、合成语音的方法和装置
US5913187A (en) * 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
US6029128A (en) * 1995-06-16 2000-02-22 Nokia Mobile Phones Ltd. Speech synthesizer

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JPH0944186A (ja) * 1995-07-31 1997-02-14 Matsushita Electric Ind Co Ltd 雑音抑制装置
JPH09152891A (ja) * 1995-11-28 1997-06-10 Takayoshi Hirata 非調和的周期検出法を用いた準周期的雑音の除去方式
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
TW466471B (en) * 2000-04-07 2001-12-01 Ind Tech Res Inst Method for performing noise adaptation in voice recognition unit
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
JP3586205B2 (ja) * 2001-02-22 2004-11-10 日本電信電話株式会社 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029128A (en) * 1995-06-16 2000-02-22 Nokia Mobile Phones Ltd. Speech synthesizer
CN1152776A (zh) * 1995-10-26 1997-06-25 索尼公司 复制语言信号、解码语音、合成语音的方法和装置
US5913187A (en) * 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices

Also Published As

Publication number Publication date
JP4731855B2 (ja) 2011-07-27
DE602004003439D1 (de) 2007-01-11
US20050049857A1 (en) 2005-03-03
JP2005070779A (ja) 2005-03-17
DE602004003439T2 (de) 2007-03-29
CN1591574A (zh) 2005-03-09
EP1511011B1 (en) 2006-11-29
KR20050022371A (ko) 2005-03-07
EP1511011A3 (en) 2005-04-13
KR101087319B1 (ko) 2011-11-25
EP1511011A2 (en) 2005-03-02
US7516067B2 (en) 2009-04-07
ATE347162T1 (de) 2006-12-15

Similar Documents

Publication Publication Date Title
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
CN101887728B (zh) 多传感语音增强方法
CN1584984B (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN101385074B (zh) 说话者验证
CN100583243C (zh) 多传感器语音增强的方法和装置
CN101199006B (zh) 使用先验无噪声语音的多传感语音增强方法和系统
CN101606191B (zh) 使用语音状态模型的多传感语音增强
CN100589180C (zh) 使用切换状态空间模型的多模变分推导的语音识别方法
CN1419184A (zh) 用于调试与语言模型一起使用的类实体词典的方法和设备
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.
CN103189913A (zh) 用于分解多信道音频信号的方法、设备和机器可读存储媒体
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
CN100565671C (zh) 声道谐振跟踪方法
CN113470698B (zh) 一种说话人转换点检测方法、装置、设备及存储介质
CN105224844A (zh) 验证方法、系统和装置
US20070055519A1 (en) Robust bandwith extension of narrowband signals
CN102568484B (zh) 弯曲谱和精细估计音频编码
JP2002140093A (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法
CN1624765A (zh) 使用分段线性逼近的连续值声道共振跟踪方法和装置
Bouchakour et al. Noise-robust speech recognition in mobile network based on convolution neural networks
Zouhir et al. Power Normalized Gammachirp Cepstral (PNGC) coefficients-based approach for robust speaker recognition
CN112133279A (zh) 车载信息播报方法、装置及终端设备
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质
Painter et al. A MATLAB software tool for the introduction of speech coding fundamentals in a DSP course

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150515

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150515

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20200825

CF01 Termination of patent right due to non-payment of annual fee