CN1297952C - 声音增强方法和声音增强系统 - Google Patents

声音增强方法和声音增强系统 Download PDF

Info

Publication number
CN1297952C
CN1297952C CNB028259157A CN02825915A CN1297952C CN 1297952 C CN1297952 C CN 1297952C CN B028259157 A CNB028259157 A CN B028259157A CN 02825915 A CN02825915 A CN 02825915A CN 1297952 C CN1297952 C CN 1297952C
Authority
CN
China
Prior art keywords
signal
enhancing
output signal
voice
distortion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB028259157A
Other languages
English (en)
Other versions
CN1608285A (zh
Inventor
巴斯蒂安·克莱杰恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Global IP Sound AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global IP Sound AB filed Critical Global IP Sound AB
Publication of CN1608285A publication Critical patent/CN1608285A/zh
Application granted granted Critical
Publication of CN1297952C publication Critical patent/CN1297952C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Holo Graphy (AREA)

Abstract

根据本发明,公开了把增强输出信号(enhanced output signal)的质量提高到接近无失真声音信号的方法。在一个步骤中,接收包括嵌入式污染信号的失真输入信号。嵌入式污染信号(embedded corrupting signal)与无失真声音信号统计相关。增强信号(enhancement signal)通过求出失真输入信号和增强输出信号之间的差值来确定。增强信号试图补偿嵌入式污染信号的影响。至少部分根据对增强信号的分析,生成增强输出信号。

Description

声音增强方法和声音增强系统
本申请要求2001年11月8日提交的美国专利申请第10/036,747号的优先权。
技术领域
本发明一般涉及降低或消除失真语音信号中的感觉失真(perceptualdistortion)的系统,尤其涉及已经从编码位流中重构并包含源自编码-解码过程的失真的语音信号。
背景技术
当前存在大量消除或降低语音信号中的声频失真的方法。为带有声音背景噪声(如汽车噪声或所谓的多路重合噪声)的语音设计的方法一般基于污染信号和语音信号统计独立的假设。结果,这种旨在消除或降低声音背景噪声的方法(Y.Ephraim和H.L.van Trees在论文“语音增强的信号子空间近似法”中描述了一个典型例子(Y.Ephraim and H.L.van Trees,“A signal sub-space approach for speech enhancement”,IEEE Transaction on Speech andAudio Processing,Vol.3,pp.251-266,1995))一般不太适合语音相关噪声。但是,随着语音相关噪声的降低,污染信号和语音信号不是统计独立的。
把本领域普通技术人员熟知的传统源编码理论用于存在均方误差失真判据的平稳高斯随机过程(信号)可以促成用于语音相关噪声的现有增强系统(尽管语音信号不具有高斯分布,但人们一般认为这个理论对许多种信号提供好的近似)。例如,考虑从平稳高斯信号以有限速率R的编码中获得的解码信号。于是,可以证明与编码器和解码器之间的最小均方误差失真相对应的重构信号存在与原始信号不同的功率谱。人们发现,重构信号的功率谱等于原始信号的功率谱减去均方误差。一般说来,重构信号具有比原始信号低的能量。相比较而言,功率谱的降低在低能区是最利害的。换句话说,相比较而言谱谷的能量比谱峰的能量降低得更多,从而使谱形状得到加强。
在语音编码算法中,分析和合成模型一般说来是相同的。因此,将源编码理论用于高斯信号的结果促使通过后滤波器使重构信号的谱得到加强。在语音编解码器中,一般说来信号的谱结构通过一组信号-模型参数来描述,并且,通过利用取决于这些参数的适当后置滤波器滤波编解码器的输出信号,可以使重构信号的谱结构得到加强。一般说来,对谱精细结构和对谱包络可以分开进行这种加强。为了获得好的性能,必须将输出语音信号谱的加强与编码的适当调整结合起来。也就是说,必须将一般说来存在于目前最新语音编解码器的编码器部分中的感觉权重调整成计及后置滤波器。改进编码器和带有附加后置滤波器的解码器的组合接近最适合于高斯信号的编解码结构。目前最新编码语音增强系统一般可以追溯到Ramamoorthy和Jayant的工作(V.Ramamoorthy and N.S.Jayant,“Enhancement of{ADPCM}Speech byAdaptive Postfiltering”,AT&T Bell Labs.Tech.J.,1465-1475,1984),他们引入了增强编码语音的自适应后置滤波器结构。
Chen和Gersho对自适应后滤波的基本方法作了改进(J.-H.Chen and A.Gersho,“Real-Time Vector APC Speech Coding at 4800bps with AdaptivePostfiltering”,Proc.Int.Conf.Acoust.Speech Sign.Processing,Dallas,2185-2188,1987)。他们引入了当今通用的包含极点和零点两者的自适应后置滤波器结构。通常,这种结构用于众所周知的那类基于线性预测的分析×合成编解码器(analysis-by-synthesis coder)。1995年,Chen和Gersho在论文“提高编码语音的质量的自适应后滤波”(J.-H.Chen and A.Gersho,“Adaptive Postfilter-ing for Quality Enhancement of CodedSpeech”,IEEE Trans,Speech Audio Process.,3,1,59-71,1995)中给出了在基于线性预测(或基于自动回归(AR)模型)的语音编解码器上增强编码语音的自适应后滤波的各种成分(flavor)的良好概述。在1995年的论文中,Chen和Gersho表明,一般说来,分离的后置滤波器用于增强谱精细结构和谱包络的结构。在所有这些方法中,自适应后置滤波器参数的设置基于语音编解码器的线性预测。反馈只用于保证与失真信号的信号功率接近的增强信号的短期信号(short-term signal)功率。
必须对与谱精细结构有关的后置滤波器加以特别关注。为了防止每当采用谱精细结构后置滤波器时短期相关值的不连续性,这种精细结构后置滤波器一般位于用于重构语音谱包络的自动回归(AR)滤波器之前。由于与谱精细结构有关的后置滤波器存在隐含延迟,这个后置滤波器的位置导致谱包络和谱精细结构的时间位置之间的不匹配。Kleijn利用如下出版物中描述的解决方案(W.B.Kleijn,“Improved Pitch-period Prediction”,Proc.IEEEWork-shop on Speech Coding for Telecomm.,Sainte-Adele,Quebec,19-20,1993 and laso W.B.Kleijn,“Methor and Apparatus for SmoothingPitch-Cycle Waveforms”,US patent 5,267,317,Nov.30,1993)使这个问题得到缓解。
后置滤波器还可以与众所周知的正弦编解码器和波形内插编解码器联系在一起使用。在这些编解码器中,后滤波一般只与谱包络相联系。这是理所当然的,因为这些编解码器具有一般说来导致由位于局部谱谷中的噪声信号引起的少量感觉失真的特殊结构。相反,大多数感觉失真来源于位于全局谱谷中的失真。这些后滤波方法的描述可以分别从R.J.McAulay和T.F.Quatieri的“正弦编解码”(R.J.McAulay and T.F.Quatieri,“SinusoidalCoding”,in Speech Coding and Synthesis,W.B.Kleijn and K.K.Paliwal,Eds.,Elsevier,Amsterdam,175-208,1995)和W.B.Kleijn和J.Heagen的“语音纠错码和合成的波形内插”(W.B.Kleijn and J.Heagen,“Waveforminterpolation for speech coding and synthesis”,in Speech Coding andSynthesis,W.B.Kleijn and K.K.Paliwal,Eds.,Elsevier,Amsterdam,175-208,1995)中找到。
发明内容
在一个实施例中,公开了把增强输出信号(enhanced output signal)的质量提高到接近无失真声音信号的方法。在一个步骤中,接收包括嵌入式污染信号(embedded corrupting signal)的失真输入信号。嵌入式污染信号与无失真声音信号统计相关。增强信号(enhancement signal)通过求出失真输入信号和增强输出信号之间的差值来确定。增强信号试图补偿嵌入式污染信号的影响。至少部分根据对增强信号的分析,生成增强输出信号。
在另一个实施例中,也公开了把增强输出信号的质量提高到接近无失真声音信号的方法。在一个步骤中,接收包括嵌入式污染信号的失真输入信号。嵌入式污染信号与无失真声音信号统计相关。估计第一迭代增强输出信号。第一迭代增强信号通过求出失真输入信号和第一迭代增强输出信号之间的差值来确定。分析第一迭代增强信号。至少部分根据对第一迭代增强信号的分析,生成第二迭代增强输出信号。
在又一个实施例中,公开了提高失真输入信号以生成增强输出信号的声音增强系统,其中,失真输入信号包括嵌入式污染信号。嵌入式污染信号与无失真声音信号统计相关。包括在声音增强系统中的是增强电路、反馈电路和输出电路。增强电路接收失真输入信号和生成第一迭代增强输出信号。反馈电路利用第一迭代增强输出信号影响增强电路生成第二迭代增强输出信号。输出电路当完成至少一次迭代循环时,生成增强输出信号。
附图说明
下面结合附图对发明加以描述:
图1是增强系统的一个实施例的方块图;
图2是增强器的一个实施例的方块图;
图3是音调周期同步样本序列确定器的一个实施例的方块图;和
图4是基于样本序列的音调周期同步序列(pitch-period-synchronoussample-sequence)的重新估计操作的一个实施例的方块图。
在附图中,相似的部件和/或零件可以具有相同的标号。
具体实施方式
随后的描述只提供优选的示范性实施例,而不是打算限制本发明的范围、适用性或配置。相反,随后对优选示范性实施例的描述将向本领域的普通技术人员提供实现本发明的优选示范性实施例的允许描述。毫无疑问,在不偏离所附权利要求书所述的本发明的精神和范围的情况下,可以对各个单元的功能和安排作各种各样的改变。
本发明有关将失真语音信号作为输入和将增强语音信号作为输出的语音增强系统。通常,到语音增强系统的输入是编码器-解码器系统的输出。
语音信号往往易发生失真。语音中的失真可以是例如加性环境噪声、电放大系统中的非线性失真和/或编码和解码过程的结果。失真可以通过从失真信号中减去无失真信号所得的差信号来刻画。在这里,我们将差信号称为污染信号(corrupting signal)。
任何语音增强系统的目的都是降低语音中的主观(感觉)和/或客观(如通过数学公式估计的那样)失真。失真信号的重要一类是像用在因特网协议下的话音通信(VOIP)系统中的那些、从语音编码器-解码器系统的输出中生成的失真信号。在这里,这样的信号被称为编码语音信号或编码语音,并用作到语音增强系统的失真输入信号。
编码语音信号中的失真一般说来是语音信号相关的。例如,污染信号在无失真语音信号具有较高能量的时间间隔内具有较高能量。在这里,语音信号相关污染信号(speech-signal-dependent corrupting signal)被称为语音相关噪声信号。尽管语音相关噪声信号在大声语音信号段中比在较平静语音信号段中得到更好感觉掩盖,但是在持续的所谓浊音(voiced sound)(即,含有非常接近周期性的信号成分的声音,其中,那种近周期性由声带的特征振动生成)期间存在的污染信号往往对重构语音信号中的整个感觉失真有重要贡献或主要贡献。
为了达到本发明的目的,通过基于短期付里叶变换(short-term FourierTransform)(对于一个实施例,窗长为20-30ms)的功率谱描述某些语音特性是方便的。利用本领域普通技术人员所熟知的方法,可以用描述频率相近的谱特征的关系的谱精细结构和描述频率相差较远的谱特征之间的关系的谱包络的术语描述功率谱。谱精细结构与局部谱特性有关,而谱包络与全局谱特征有关。全局谱特征一般说来携带语音中的大多数语言信息。局部谱特征是将常规语音与其特征在于不含话音的沙沙声区分开的那种东西,对于话音而言,谱精细结构包含谐波分隔峰(这种谐波结构对应于近周期性时域结构)。
由于语音编码器-解码器系统的特殊性,以及人听觉系统的那些特殊性,编码话音中的声频失真通常与谱精细结构有关。这种声频失真一般说来是谐波之间的谱谷内的污染信号引起的,因此,更往往在全局谱谷,即,谱包络的谷内。这种类型的失真往往与加性白噪声信号类似地被感觉到。
降低局部谱谷(即,位于谐波之间的谷)内的信号能量可以是降低编码语音中的声频失真的有效方法。可替代地,或者,另外,修改谱包络以便加强全局谱谷和全局谱峰可以用于降低编码语音中的感觉失真。
为增强编码语音信号而开发的传统自适应后置滤波器技术可以用于为编码语音获得局部谱谷内信号能量的降低。传统自适应后置滤波器技术还可以用于加强编码语音的谱包络。在这些传统技术中,一般说来,以用在解码器中的参数为基础采用自适应后置滤波器。
虽然传统自适应后置滤波器技术一般说来降低了持续元音声中的语音相关噪声信号,但它们一般说来引入了共同存在于其它时间间隔中的不同感觉失真。尤其是,传统自适应后置滤波器一般说来在谐波结构弱或不存在的一些时间间隔内加强或引入了这种谐波结构。这种在不合适时间间隔内谐波结构的加强或引入导致了语音信号的非所需的、所谓的蜂鸣特性。其结果是,旨在降低谱谐波之间的能量的传统自适应后置滤波器技术的应用牵涉到重构语音信号中似噪声和蜂鸣假信号之间的折衷。
因此,当语音的周期特性得到加强时,似噪声和/或蜂鸣特性仍然保留着。通过修改谱包络,以便降低很有可能包含引起声频失真的局部谱谷的全局谱谷的能量,可以进一步降低保留的感觉失真。这种行为一般说来导致由谱包络的失真引起的较低自然性语音。这种增强牵涉到重构语音信号的似噪声或蜂鸣特性和由谱包络的失真引起的自然性的降低之间的折衷。
对于对与传统后滤波技术相联系的问题的另一种看法,定义作为增强输出信号与失真输入信号的差值的增强信号是有用的。在传统增强系统中,增强信号的相对功率随着时间激剧变化。在某些时间间隔中,增强信号可能具有(太)多的能量,而在其它时间间隔中,可能具有(太)少的能量。加强操作设置通常形成这样的时间区域之间的试探性折衷。这是由增强系统操作只基于输入信号,而不是用在许多系统中的信号功率守恒引起的。在这个意义上,可以认为增强系统的操作是开环(open-loop)。除了能量归一化之外,再也不存在反馈来保证增强系统实现它的目标。
除了保证短期信号功率在增强时受到约束的第一约束之外,我们引入对语音增强单元的第二约束。第二约束是约束增强信号(被定义成从增强信号中减去失真信号所得的差信号)具有小于或等于失真语音信号的功率的某一个部分的功率。第二约束防止在某些时间间隔内“过增强”引起的共同假信号(common artifact)。然后,对于某些增强单元,第二约束不显著地影响持续话音区环境中增加的有效性,其中,语音相关噪声污染过的语音信号的增加通常是最需要的。
在一个实施例中,第二约束应用于提高语音信号的周期性的增强过程。我们语音增强单元的实施例提高语音的周期性并包括第二约束。语音增强单元包括对信号的每个时间样本执行每一步的两个基本步骤。第一步骤的第一部分根据相关性度量把音调周期定义成时间样本附近的时间的函数。第一步骤的第二部分包括利用精确等于一个音调周期的取样间隔取样失真输入信号,以获得音调周期同步序列。我们为失真输入信号的每个样本创建这样的音调周期同步序列(失真语音信号的样本也是相应音调周期同步序列的样本)。在我们实施例中,音调周期同步序列局限于有限长度。在一个实施例中,把音调周期同步序列选择成具有5个样本的长度。
为了简化本实施例中的处理,为失真输入信号的一组连续样本同时确定音调周期同步序列。我们将这样的一组连续样本称为样本序列。我们对音调周期同步序列的同时确定导致样本序列的音调周期同步序列。把一个实施例的样本序列选择成具有5ms的长度。
我们的增强运算器的第二步骤包括根据相应音调周期同步序列、第一信号功率约束和作用在增强信号上的第二约束,重新估计每个样本。重新估计样本的序列形成增强语音信号。当表达信号(和音调周期同步序列对应于失真信号的近周期取样)时,增强语音信号比失真语音信号更具有周期性。为了简化处理,对于本实施例,还对样本序列同时进行重新估计,而不是对每个样本分别进行重新估计。
请注意,在语音信号不是近周期性的区域中,语音增强系统不显著改变失真信号。但是,每当失真语音信号近周期性时,语音增强系统有效地消除或降低声频失真。还请注意,第二约束不仅导致假信号的降低,而且导致对调-周期-同步序列的确定的抗干扰性的缺乏不敏感。
首先参照图1,图1以方块图的形式显示了增强系统100的实施例,它例示了处理语音相关噪声污染过的失真语音输入信号的语音增强方法。失真输入信号是语音编码-解码系统的输出,就像用于VOIP通信的那样。无失真语音信号1001经编码器101编码,呈递第一位流1002。第一位流1002通过信道102传输,信道102可以是通信网络或存储设备。例如,信道102可以是因特网。信道102呈递第二位流1003,第二位流1003可以与第一位流1002相同,或者可以是丢失包,要不然就是经过修改的其它位流。解码器103把第二位流1003取作输入并将重构语音信号1004作为输出呈递。在编码处理期间,可以引入通过信道102的传输和对污染信号的解码处理。这个污染信号等于重构语音信号1004和无失真语音信号1001之间的差值。重构语音信号1004或失真语音信号是增强器104的输入,增强器104生成增强语音信号1005作为输出。与重构语音信号1004相比,根据基于感觉的度量,增强语音信号1005更紧密地接近无失真语音信号1001。
参照图2,图2显示了增强器104的一个实施例的方块图。这个实施例104进行音调周期跟踪目标估计、样本序列的音调周期同步序列的确定和语音信号的约束重新估计。重构或失真语音信号1004形成音调周期估计器201的输入和音调周期周期跟踪(pitch-period period track)2001形成输出。分块器202选择失真语音信号1004的L个样本的每个后继块,把含有L个样本的当前样本序列2002作为输出呈递。音调周期同步-序列确定器203生成N个样本序列的序列3003,其中,N个样本序列的序列3003每一个含有L个样本。N个样本序列的序列3003基于当前样本序列2002、音调周期周期跟踪2001和失真输入信号1004。
N个样本序列的序列3003与音调周期(pitch-period)同步。样本序列的音调周期同步序列3003形成到重新估计器204的输入。重新估计器204为分块器202生成的每个当前样本序列2002提供L个样本的重新估计样本序列。并置器(concatenator)205把重新估计样本序列2004并置成增强信号1005。在如下的段落中更详细地描述上面一些方块的各自步骤。
针对增强器104的当前实施例描述的第一步骤是每隔一定间隔对音调周期周期的估计(即,对音调周期周期跟踪2001的估计)。为了这个目的,可以使用任何当前最新的音调周期周期(pitch-period period)估计器。我们描述对于本实施例满足地进行的特定音调周期周期估计器实施例。音调周期周期估计值的序列形成所谓的音调周期周期跟踪2001。
为了获得音调周期周期估计值,我们首先确定归一化相关值ri(n):
r i ( n ) = Σ m = 1 m = M s ( M i + m ) s ( M i + m - n ) Σ m = 1 m = M s 2 ( M i + m - n ) ,
其中,s(Mi+m)是样本指标为Mi+m的失真语音信号1004,i是整数块指标,n是整数候选音调周期周期,m是整数样本指标,并且M是整数块长,对于一个实施例,在8000Hz的取样速率下它被选为大约50个样本。对于相同的取样速率,n的值被选为在一组候选音调周期周期G之内,对于一个实施例,该组候选音调周期周期G包含从20到147的整数。我们注意到,归一化只针对滑动窗(随n移动的那一段),而不是针对静止部分。
通过零相低通滤波(在一个实施例中,利用七抽头Hann窗)自相关序列ri(n)创建平滑相关值sri(n)。通过平滑和未平滑相关函数的加权相加,获得与块i(包含样本{Mi+1,…,M(i+1)})上的音调周期周期相对应的总相关函数Ri(n)。在一个实施例中,加权相加可以根据如下经验权重来完成:
Ri(n)=0.5sri-2(n)+0.8sri-1(n)+ri(n)+0.8sri+1(n)+0.5sri2(n)。
也可以使用包括附加相关函数的其它权重。与段i相对应的音调周期周期是使Ri(n)达到极大的候选音调周期周期n的值nopt
n opt = arg max n ∈ G R i ( n ) ,
其中,G是该组候选音调周期周期。
针对增强器104的当前实施例描述的第二步骤是样本序列的音调周期同步序列2003的确定。在当前实施例中,样本序列的音调周期同步序列2003包括N个样本序列,每个样本序列含有L个样本。为L个样本的每个连续块确定样本序列的音调周期同步序列2003。在一个实施例,对于8000Hz取样速率L被设置成40个样本,N被设置成5。沿着时间方向和逆着时间方向递归地确定样本序列的音调周期同步序列2003。
接着参照图3,图3以方块图的形式显示了音调周期同步序列确定器203的一个实施例的方块图。这个图形提供了样本序列的音调周期同步序列2003的确定的概况。失真语音信号1004首先进入多相信号计算器301。一组Q个多相信号3001形成多相信号计算器301的输出。
对于每个当前样本序列2002,序列确定器203进行递归音调周期同步序列确定。在音调周期同步序列确定器203内,参考样本序列选择器303选择当前参考样本序列3003。对于沿着时间方向和逆着时间方向的第1次迭代,这个当前参考样本序列3003是从分块器202输出的当前样本序列2002。对于进一步的迭代,前一次选择的样本序列2002变成下一个的参考样本序列3003。参考样本序列选择器303还时刻关注着最后选择的样本序列2002的延迟并把累积延迟3002提供给候选者选择器302。
候选者选择器302将多相信号3001作为输入。它选择和输出作为下一个参考样本序列3006的候选者的数个候选样本序列3004。候选者选择器302还将与当前参考样本序列3003有关的相应延迟作为输出。序列选择器304从候选样本序列3004中选择与参考样本序列3003最相似的样本序列3006,并且将这个样本序列3006提供给音调周期同步序列并置器305和参考样本序列选择器303。序列选择器304还将所选样本序列3006相对于当前参照样本序列3003的延迟3007提供给参考样本序列选择器303。
音调周期同步序列并置器305提供样本序列的音调周期同步序列2003作为输出。把那个输出2003馈送到重新估计器204。
接着,我们更详细地为逆向迭代过程描述音调周期同步序列确定器203遵从的过程。正向迭代过程与此类似,并且可以被阅读本说明书的本领域普通技术人员认识到。一些实施例可以使用逆向迭代、正向迭代、或利用两者的混合方法。我们注意到,本实施例以计算效率高、递归的方式确定样本序列的序列。
当前参考样本序列3003在参考样本序列选择器303中最初被定义为L个样本的当前块。在如下的步骤中递归地找出每个后继参考样本序列3003。在第1步骤中,多相信号计算器301首先通过因子Q向上取样(up-sample)包括当前样本序列3003的信号段1004,其中,在一个实施例,对于8000Hz的取样速率,Q被设置成8。在本实施例中,向上取样是利用开窗正弦函数完成的。然后,多相信号计算器301确定与包括当前块的那个区域相对应的Q个多相样本序列3001。Q个多相样本序列3001的每一个具有与原始信号1004相同的取样速率,但偏移了部分取样区间。在下一步骤中,候选者选择器302在原始取样速率下,从相对于当前样本序列3003偏移了-P-K/Q,…,-P-2/Q,-P-1/Q,-P,-P+1/Q,-P+2/Q,…,-P+K/Q个样本的多相样本序列3001中确定L个样本的数个样本序列3004,其中,在一个实施例,对于8000Hz的取样速率,K/Q被设置成值2。这些所得的样本序列被称为候选样本序列3004。在第3步骤中,序列选择器304从数个多相样本序列3004中确定与参考样本序列3003存在最高相关系数的样本序列3006。它确定这个序列3006相对应于参考序列3003的延迟P-k/Q(其中,k是范围-K,…,K中的整数)3007。在下一步骤中,参考样本序列选择器303将参考样本序列设置成新选择的样本序列3006。在进一步的步骤中,重复上面的过程,直到找出逆着时间方向的所需个样本序列为止。
以与音调周期同步序列的逆着时间方向部分相似的方式确定音调周期同步序列的沿着时间方向部分。为了缩短增强运算器104的延迟,在各种实施例中,可以减少沿着时间方向的样本序列的个数和可以增加逆着时间方向的样本序列的个数。
对于每个样本序列2002,即,对于每个当前样本序列,重新估计器204造行的约束重新估计操作提供了基于N个样本序列的音调周期同步序列2003的当前样本序列输出2004。设xm是为当前样本序列定义、样本序列的音调周期同步序列2003中指标为m的样本序列。此外,x0是当前样本序列(L个样本的当前块)2002。然后,我们定义如下基于交叉相关的周期性判据,这个周期性判据定义音调周期同步序列的周期性的度量:
η = Σ m = - W , . . . , W , m ≠ 0 α m X ~ 0 T X m ,
其中,
Figure C0282591500142
是修改后的当前样本序列,整数W=(N-2)/2(对于N是寄整数的情况),和αx定义加权窗,加权窗规定这个修改后的当前样本序列和样本序列xm之间的相应内积的权重。对于本实施例,权重根据感觉判据来设置。在当前的实施例中,修改后的Hamming权重用于系数αm
α m = 1 2 ( 1 - cos ( 2 π ( m + W ) N - 1 ) ) , m = - W , . . . , - 1 , . . . , W ,
其中,αm是只为给定值m定义的。类似变形的Hamming或其它平滑加权类似地进行。
重新估计过程204的一个目的是找出在两个约束下使周期性判据达到极大的修改后的当前样本序列
Figure C0282591500144
2004。第一约束是直截了当的,并且是本领域的普通技术人员所知的:它规定变形矢量具有与原始矢量相同的能量:
x ~ 0 T x ~ 0 = ( x 0 + d ) T ( x 0 + d ) = x 0 T x 0 ,
其中,我们引入了差矢量 d = X ~ 0 - X 0 .
第二约束是差矢量 d = X ~ 0 - X 0 , 即,修改量应该具有相对低的能量:
                 dTd≤βx0 Tx0
其中,β是常数,0≤β<<1。在一个实施例中,为β选择的值在0.03到0.3的范围内,一般说来,值越大导致信号周期性的加强也越大。本领域的普通技术人员认识到,显然,一般说来,不能将非周期性信号转换成近周期性信号。第二约束的目的是防止生成与原始信号1004显著不同的增强信号1005。从另一个观点来看,第二约束限制增强过程产生的误差的数值大小。
在第二约束的背景下,可以认识到附加的、事先未知的目的。这个目的在第一约束的传统应用中与传统后滤波过程无关。第一约束的附加目的是保证当存在周期性信号成本时使非周期性信号成本得到消除。在频域中这种在第二约束的背景下第一约束的效果得到特别好显示。在频域中,第二约束导致局部谷中能量的同时降低和局部峰中能量的升高。
为了实现约束最佳化,使用拉格朗日(Lagrange)乘子法。推广周期性最佳化判据(拉格朗日函数)为:
η = Σ m = - M , . . . , M , m ≠ 0 α m ( x 0 + d ) T x m + λ 1 ( x 0 + d ) T ( x 0 + d ) λ 2 d T d ,
其中,省略项不依赖于d,而且如果第二约束得到满足,则λ2=0。让我们首先考虑,例如,λ2≠0的情况。关于获取约束最佳化问题的解的第一步骤是对d求导并设所得表达式等于0:
0 = ∂ η ∂ x ~ 0 = Σ m = - M , . . . , M , m ≠ 0 α m x m + 2 λ 1 ( x 0 + d ) - 2 λ 2 d .
现在让我们定义:
y = Σ m = - W , . . . , W , m ≠ 0 α m x m .
然后,我们可以将差矢量d表达成:
d = y + 2 λ 1 x 0 2 λ 1 + 2 λ 2 = Ay + B x 0 ,
其中,我们定义了两个方便常数A和B。通过一些代数运算,可以发现,为了满足这些约束,我们拥有:
A = ( ( β - β 2 4 ) x 0 T x 0 y T y - ( y T x 0 ) 2 x 0 T x 0 ) 1 / 2
B = - β 2 - A y T x 0 x 0 T x 0 .
这个约束最佳化问题的解对为不等式约束的第二约束可以被认为是等式约束的情况有效。在这种情况下,对于本实施例,我们可以通过首先计算A和B,然后计算 x ~ = Ay + ( B + 1 ) x 0 来获得最佳修改后的当前样本序列。
接着,我们考虑不等式约束是真正不等式并在最佳化过程中只考虑第一约束的情况。在这种情况下,推广的周期性判据是:
η = Σ m = - M , . . . , M , m ≠ 0 α m ( x 0 + d ) T x m + λ 1 ( x 0 + d ) T ( x 0 + d ) ,
然后,差矢量d可以写成:
d = y + 2 λ 1 x 0 2 λ 1 = Cy - x 0 ,
可以求得:
C = x 0 T x 0 y T y
和:
x ~ 0 = x 0 T x 0 y T y y .
换句话说,在不等式约束(第二约束)不起作用的情况下, 就是在本实施例中被定标成适当能量的y。
接着参照图4,图4显示了重新估计器204的一个实施例,它例示了确定重新估计当前样本序列2004的过程。根据样本序列的音调周期同步序列2003,定标y计算器401计算就是 x ~ 0 = x 0 T x 0 y T y y 的定标y估计值4001。根据输入的同一个样本序列的音调周期同步序列2003,不等式约束计算器402计算代表βx0 Tx0的值4002。约束检验器403将定标y估计值4001和值4002相比较,以判决定标y估计值4001是否满足不等式约束。约束检验器403通过判决值4003传递它的判决结果。约束y计算器404计算 x ~ 0 = Ay + ( B + 1 ) x 0 的约束解矢量4004。约束y计算器404只有在判决值4003表明需要计算的时候才进行这种计算。当需要这种计算时,把约束解矢量4004提供给解选择器405。解选择器405提供与样本序列的重新估计序列相对应的样本序列2004。
总而言之,在本实施例中,利用两个简单步骤执行整个重新估计过程204。首先,我们检验 x ~ 0 = x 0 T x 0 y T y y 是否满足不等式约束dTd≤βx0 Tx0。如果是的话,使用这个
Figure C0282591500166
的解。在下一步骤中,如果前面的解不满足不等式约束,我们计算A和B并使用解 x ~ 0 + = Ay + ( B + 1 ) x 0 .
还可以使用本发明的许多改变和改进形式。例如,上面的系统可以处理任何编码声音信号,不仅仅是编码语音信号。并且,正如在技术上众所周知的那样,分布在一个或多个计算机系统中的软件和/硬件的任何组合可以用于实现上面的概念。尽管上面的描述主要涉及语音相关噪声的降低,但一些实施例可以额外提供背景噪声降低技术。
虽然上面结合特定的设备和方法描述了本发明的原理,但是,应该清楚地知道,这种描述只是通过举例的方式作出的,不对本发明的范围有任何限制。

Claims (13)

1.一种把增强输出信号的质量提高到接近无失真声音信号的方法,该方法包括步骤:
接收包括嵌入式污染信号的失真输入信号,其中,嵌入式污染信号与无失真声音信号统计相关;
把增强信号定义成失真输入信号和增强输出信号之间的差值,从而增强信号试图补偿嵌入式污染信号;
确定增强信号的功率;
约束增强信号,使其具有小于或等于失真输入信号的功率的某一小部分的功率;
生成第一迭代增强输出信号;
根据第一迭代增加输出信号,生成第二迭代增强输出信号;和
当完成至少一次迭代循环时,生成增强输出信号。
2.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,其特征在于,增强信号的功率是在有限支持窗上确定的。
3.根据权利要求2所述的把增强输出信号的质量提高到接近无失真声音信号的方法,进一步包括提高失真输入信号的周期性的步骤。
4.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,包括反馈增强输出信号以影响增强输出信号的确定的步骤。
5.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,进一步包括附加所述定义、所述确定、所述约束和所述生成步骤,以便用迭代方法精细计算增强输出信号。
6.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,进一步包括确定沿着时间方向样本序列的数量,以便用在确定增强输出信号中的步骤。
7.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,进一步包括确定逆着时间方向样本序列的数量,以便用在确定增强输出信号中的步骤。
8.根据权利要求1所述的把增强输出信号的质量提高到接近无失真声音信号的方法,其特征在于,嵌入式污染信号是作为编码和解码无失真声音信号生成的假信号引入的。
9.一种提高失真输入信号以生成增强输出信号的声音增强系统,其中,失真输入信号包括嵌入式污染信号,嵌入式污染信号与无失真声音信号统计相关,该声音增强系统包括:
增强电路,用于接收失真输入信号,把增强信号定义成失真输入信号和增强输出信号之间的差值,约束增强信号的功率使其具有小于或等于失真输入信号的功率的某一小部分的功率,和生成第一迭代增强输出信号;
反馈电路,用于利用第一迭代增强输出信号影响增强电路生成第二迭代增强输出信号;和
输出电路,用于当完成至少一次迭代循环时,生成增强输出信号。
10.根据权利要求9所述的声音增强系统,其特征在于,增强信号的功率是在有限支持窗上确定的。
11.根据权利要求9所述的声音增强系统,其特征在于,增强电路提高失真输入信号的周期性。
12.根据权利要求9所述的声音增强系统,其特征在于,嵌入式污染信号是作为编码和解码无失真声音信号生成的假信号引入的。
13.根据权利要求9所述的声音增强系统,其特征在于,第一迭代增强信号和第二迭代增强信号对应于无失真声音信号的同一部分。
CNB028259157A 2001-11-08 2002-11-08 声音增强方法和声音增强系统 Expired - Lifetime CN1297952C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/036,747 2001-11-08
US10/036,747 US7103539B2 (en) 2001-11-08 2001-11-08 Enhanced coded speech

Publications (2)

Publication Number Publication Date
CN1608285A CN1608285A (zh) 2005-04-20
CN1297952C true CN1297952C (zh) 2007-01-31

Family

ID=21890409

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028259157A Expired - Lifetime CN1297952C (zh) 2001-11-08 2002-11-08 声音增强方法和声音增强系统

Country Status (7)

Country Link
US (1) US7103539B2 (zh)
EP (1) EP1442455B1 (zh)
CN (1) CN1297952C (zh)
AT (1) ATE315269T1 (zh)
AU (1) AU2002351924A1 (zh)
DE (1) DE60208584T2 (zh)
WO (1) WO2003041054A2 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
WO2012094827A1 (en) * 2011-01-14 2012-07-19 Huawei Technologies Co., Ltd. A method and an apparatus for voice quality enhancement
US8682670B2 (en) 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
CN104637494A (zh) * 2015-02-02 2015-05-20 哈尔滨工程大学 基于盲源分离的双话筒移动设备语音信号增强方法
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192817A (zh) * 1995-06-16 1998-09-09 诺基亚流动电话有限公司 语音编码器
CN1256000A (zh) * 1998-01-26 2000-06-07 松下电器产业株式会社 增强音调的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241650A (en) * 1989-10-17 1993-08-31 Motorola, Inc. Digital speech decoder having a postfilter with reduced spectral distortion
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
US5544278A (en) * 1994-04-29 1996-08-06 Audio Codes Ltd. Pitch post-filter
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
JP2921472B2 (ja) * 1996-03-15 1999-07-19 日本電気株式会社 音声および雑音の除去装置、音声認識装置
JP2940464B2 (ja) * 1996-03-27 1999-08-25 日本電気株式会社 音声復号化装置
FR2768545B1 (fr) * 1997-09-18 2000-07-13 Matra Communication Procede de conditionnement d'un signal de parole numerique
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192817A (zh) * 1995-06-16 1998-09-09 诺基亚流动电话有限公司 语音编码器
CN1256000A (zh) * 1998-01-26 2000-06-07 松下电器产业株式会社 增强音调的方法和装置

Also Published As

Publication number Publication date
EP1442455B1 (en) 2006-01-04
CN1608285A (zh) 2005-04-20
DE60208584D1 (de) 2006-03-30
EP1442455A2 (en) 2004-08-04
AU2002351924A1 (en) 2003-05-19
ATE315269T1 (de) 2006-02-15
DE60208584T2 (de) 2006-08-10
US7103539B2 (en) 2006-09-05
WO2003041054A2 (en) 2003-05-15
WO2003041054A3 (en) 2003-09-04
US20030097256A1 (en) 2003-05-22

Similar Documents

Publication Publication Date Title
CN1154086C (zh) Celp转发
EP3301674B1 (en) Adaptive bandwidth extension and apparatus for the same
CN1185624C (zh) 具有自适应编码配置的语音编码系统
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1379899A (zh) 语音可变速率编码方法与设备
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
US5999897A (en) Method and apparatus for pitch estimation using perception based analysis by synthesis
WO2016015591A1 (en) Improving classification between time-domain coding and frequency domain coding
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
US6963833B1 (en) Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
CN1193786A (zh) 频谱幅度的双子帧量化
US9082398B2 (en) System and method for post excitation enhancement for low bit rate speech coding
CN1132155C (zh) 确定语音编码参数的方法和设备
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1297952C (zh) 声音增强方法和声音增强系统
Xydeas et al. Split matrix quantization of LPC parameters
McLoughlin et al. LSP parameter interpretation for speech classification
CN1531723A (zh) 高频噪声注入脉冲激励以产生低比特率的码激励线性预测
Shi et al. Experimental study on noise pre-processing for a low bit rate speech coder
CN1159044A (zh) 声音编码装置
Vinay et al. A Comparative Analysis on Speech Enhancement and Coding Techniques
Kondoz et al. The Turkish narrow band voice coding and noise pre-processing Nato Candidate
Kim et al. A 4 kbps adaptive fixed code-excited linear prediction speech coder
Liang et al. A new 1.2 kb/s speech coding algorithm and its real-time implementation on TMS320LC548
Park et al. A Fast Harmonic Estimation Method for Low Bit Rate Harmonic Speech Coders

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: GOOGLE INC.

Free format text: FORMER OWNER: GLOBAL IP SOLUTIONS INC.

Effective date: 20111121

Free format text: FORMER OWNER: GLOBAL IP SOLUTIONS INC. (US)

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: GLOBAL IP SOLUTIONS INC.

Free format text: FORMER NAME: GLOBAL IP SOUND AB

CP01 Change in the name or title of a patent holder

Address after: Stockholm

Co-patentee after: GLOBAL IP SOLUTIONS Inc.

Patentee after: Global IP Solutions Gips AB

Address before: Stockholm

Co-patentee before: Global IP Sound AB

Patentee before: Global IP Sound AB

TR01 Transfer of patent right

Effective date of registration: 20111121

Address after: California, USA

Patentee after: GOOGLE Inc.

Address before: Stockholm

Co-patentee before: Global IP Solutions Inc.

Patentee before: Global IP Solutions Gips AB

C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: GOOGLE Inc.

Address before: California, USA

Patentee before: Google Inc.

C56 Change in the name or address of the patentee
CI01 Publication of corrected invention patent application

Correction item: Patentee|Address

Correct: Google Inc.|American California

False: Google Inc.|American California

Number: 47

Volume: 31

CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: GOOGLE Inc.

Address before: California, USA

Patentee before: Google Inc.

ERR Gazette correction
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Google Inc.

Address before: California, USA

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder
CX01 Expiry of patent term

Granted publication date: 20070131

CX01 Expiry of patent term