CN101765879A - 在与itu-t g.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法 - Google Patents

在与itu-t g.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法 Download PDF

Info

Publication number
CN101765879A
CN101765879A CN200780100073A CN200780100073A CN101765879A CN 101765879 A CN101765879 A CN 101765879A CN 200780100073 A CN200780100073 A CN 200780100073A CN 200780100073 A CN200780100073 A CN 200780100073A CN 101765879 A CN101765879 A CN 101765879A
Authority
CN
China
Prior art keywords
signal
noise
layer
shaping
noise shaping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200780100073A
Other languages
English (en)
Other versions
CN101765879B (zh
Inventor
布鲁诺·贝塞特
吉米·拉皮尔
弗拉迪米尔·马勒诺夫斯基
罗奇·勒费布维尔
雷德万·萨拉米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Publication of CN101765879A publication Critical patent/CN101765879A/zh
Application granted granted Critical
Publication of CN101765879B publication Critical patent/CN101765879B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)
  • Storage Device Security (AREA)

Abstract

用于在对输入声音信号进行编码的过程中对噪声进行整形的装备和方法,包括:对该输入信号或来自给定的声音信号编码解码器的一个解码的信号进行预提升以产生一个预提升的信号;基于该预提升的信号计算一个滤波器传递函数;并且通过该传递函数对该噪声进行滤波对噪声进行整形以产生一个整形的噪声信号,其中该噪声整形包括产生一个噪声反馈。在包括至少层1和2的一个多层编码解码器中用于噪声整形的装备和方法,包括:在一个编码器处,在层1中产生包括层1的噪声整形的一个编码的声音信号,并且产生一个层2的加强信号;在一个解码器处,对该层1的编码的声音信号进行解码以产生一个合成信号,对该加强信号进行解码,基于该合成信号来计算一个滤波器传递函数,通过该传递函数对该加强信号进行滤波以产生一个层2的滤波的加强信号,并且将该滤波的加强信号加到该合成信号上以产生一个输出信号,该输出信号包括层1和2的贡献。

Description

在与ITU-T G.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法
本发明涉及对声音信号进行编码和解码的领域,具体地但并非排他性地是在与ITU-T(International Telecommunication Union,国际电信联盟)建议G.711可互操作的一个多层嵌入式编码解码器中。更确切地说,本发明涉及在一个声音信号编码解码器中的编码器和/或解码器中用于噪声整形的一种装备和方法。
例如,根据本发明的装备和方法可适用于以8kHz的取样频率工作的多层嵌入式编码解码器的窄带部分(通常是第一层或下层)。与被优化用于电话带宽(即,200-3400Hz)中的信号的ITU-T建议G.711不同,本发明的装备和方法显著地改进了范围在50-4000Hz的信号的质量。例如,此类信号通常是通过向下取样一个宽带信号(其带宽是50-7000Hz或者甚至更宽)而生成的。在没有本发明的装备和方法的情况下,当由遗留G.711编码解码器进行编码和合成时这些信号的质量将会更差并且带有可听得到的伪音。
背景技术
对具有良好的主观质量/比特率折中处理的有效的数字宽带语音/音频编码技术的需求正在不断增加以用于多种应用,如音频/视频电话会议、多媒体、无线应用和IP(Internet Protocol,国际互联网协议)电话。直到最近,语音编码系统只能够处理电话频率带宽(即,200-3400Hz)中的信号。现在,可以看到对于能够处理频率带宽50-7000Hz中的信号的宽带系统的不断增加的需求。这些系统提供了显著高于窄带系统的质量,因为它们提高了声音的清晰度和自然度。已经发现,频率带宽50-7000Hz足以在通话过程中传送面对面的语音质量。对于音频信号(如音乐),这个频率带宽提供了一个可接受的音频质量,但仍低于在频率带宽20-20000Hz中工作的CD的音频质量。
ITU-T建议的以64kbps的G.711[1]和以8kbps的G.729是广泛使用在包交换电话应用中的两种编码解码器。因此,在从窄带到宽带电话的转变中,对于开发与这两个标准可反向相互操作的宽带编码解码器存在着兴趣。为了达到这个效果,ITU-T在2006年批准了建议G.729.1,这是一种嵌入式多速率编码器,这种编码器具有与以8kbps的ITU-T建议G.729可互操作的一个内芯。类似地,在2007年3月推出了用于一种嵌入式宽带编码解码器的一个新的活动,这种编码解码器基于与以64kbps的ITU-T建议G.711(μ-律和A-律)可互操作的一个窄带内芯。这个新的基于G.711的标准被称为ITU-T G.711宽带扩展(G.711WBE)。
在G.711WBE中,使用一个QMF(Quadrature Mirror Filter,正交镜像滤波器)滤波器将以16kHz取样的输入声音信号分成两个频带:从0到4000Hz的一个下频带和从4000到7000Hz的一个上频带。如果该输入信号的带宽是50-8000Hz,那么该下、上频带分别是50-4000Hz和4000-8000Hz。在G.711WBE中,在三(3)个层中对该输入宽带信号进行编码。第一层(层1;内芯)对以64kbps的G.711兼容格式的信号的下频带进行编码。然后,第二层(层2;窄带加强层)将在下频带中的每样本2比特(16kbit/s)相加以提高在此频带中的信号质量。最后,第三层(层3;宽带扩展层)通过另外的每样本2比特(16kbit/s)对高频带进行编码以产生一个宽带合成。比特流的结构是嵌入式的。换言之,总是存在一个层1,在该层1之后是层2或层3,或者是这两者(层2和层3)。以这种方式,当对更多的层进行解码时可以获得逐渐改进质量的一种合成的信号。例如,图1是展示G.711WBE编码器结构的一个示意性框图,图2是展示G.711WBE解码器结构的一个示意性框图,并且图3是展示比特流的嵌入式结构的一个实例的组成的示意性框图,该结构带有该G.711WBE编码解码器的多个层。
ITU-T建议G.711(也被称为压缩扩展脉冲代码调制(PCM))使用8比特将每个输入样本量子化。该输入信号的幅值首先利用对数律进行压缩、用7比特(加上用于符号的1比特)进行均匀量子化,然后进行扩展以使其回到线性域中。G.711标准定义了两个压缩律,即μ-律和A-律。ITU-T建议G.711是专门设计为用于在电话带宽中的窄带输入信号,即,200-3400Hz。当它被应用于在带宽50-4000Hz中的信号时,量子化噪声是令人烦恼的并且是可听得到的,尤其是在高频处(见图4)。因此,即便嵌入式G.711WBE的上频带(4000-7000Hz)被适当地编码,但是由于遗留的G.711对0-4000Hz频带进行编码的限制,该合成的宽带信号的质量可能仍是差的。这就是在G.711WBE标准中加入层2的原因。层2带来该窄带合成的信号的整体质量改进,因为它降低了层1中的残余噪声的水平。另一方面,这可能导致一个不必要的较高的比特率以及额外的复杂度。还有,当仅对层1或仅对层1+层3进行解码时,这并不解决可听得到的噪声的问题。
发明内容
发明目的
因此,本发明的目的是提供一种用于噪声整形的装备和方法,具体地但并非排他性地是在与ITU-T建议G.711可互操作的一个多层嵌入式编码解码器中。
发明概述
更确切地说,根据本发明,在此提供了在一个输入声音信号的编码过程中用于对噪声进行整形的一种方法,该方法包括:对该输入声音信号进行预提升(pre-emphasizing)以产生一个预提升的声音信号;计算与该预提升的声音信号相关的一个滤波器传递函数;并且通过该计算的滤波器传递函数对该噪声进行滤波来将该噪声整形以产生一个整形的噪声信号,其中,该噪声整形包括产生一个噪声反馈,该噪声反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声。
本发明还涉及在一个输入声音信号的编码过程中用于对噪声进行整形的一种方法,该方法包括:接收来自一个给定的声音信号编码解码器的输出的一个解码的信号,该编码解码器被供给该输入声音信号;对该解码的信号进行预提升,以产生一个预提升的信号;计算与该预提升的信号相关的一个滤波器传递函数;并且通过该计算的滤波器传递函数对该噪声进行滤波来整形该噪声,其中该噪声整形进一步包括产生一个噪声反馈,该反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声。
本发明还涉及在至少包括层1和层2的一个多层编码器和解码器中用于对噪声进行整形的一种方法,该方法包括:
在该编码器处:在层1中产生一个编码的声音信号,其中产生一个编码的声音信号包括在层1中对噪声进行整形;在层2中产生一个加强信号;并且
在该解码器处:对来自该编码器的层1的该编码的声音信号进行解码以产生一个合成声音信号;对来自层2的加强信号进行解码;计算与该合成声音信号相关的一个滤波器传递函数;通过该计算的滤波器传递函数对层2的解码的加强信号进行滤波,以产生层2的一个滤波的加强信号;并且将层2的该滤波的加强信号加到该合成声音信号上,以产生一个输出信号,该输出信号包括层1和层2的贡献。
本发明进一步涉及在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:用于对该输入声音信号进行预提升的装置,以此产生一个预提升的声音信号;用于计算与该预提升的声音信号相关的一个滤波器传递函数的装置;用于产生一个噪声反馈的装置,该反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及通过该计算的滤波器传递函数对该噪声反馈进行滤波来对该噪声进行整形以产生一个整形的噪声信号的装置。
本发明进一步涉及在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:一个第一滤波器,该第一滤波器用于对该输入声音信号进行预提升,以此产生一个预提升的信号;一个反馈回路,该反馈回路用于产生一个噪声反馈,该反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及一个第二滤波器,该第二滤波器具有与该预提升的信号有关而确定的一个传递函数,这个第二滤波器对该噪声反馈进行处理以产生一个整形的噪声信号。
本发明仍进一步涉及在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:用于接收一个解码的信号的装置,该解码的信号来自供有该输入声音信号的一个给定的编码解码器的输出;用于对该解码的信号进行预提升以此产生一个预提升的信号的装置;用于计算与该预提升的信号相关的一个滤波器传递函数的装置;用于产生一个噪声反馈的装置,该反馈代表通过该给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及通过该计算的滤波器传递函数对该噪声反馈进行滤波来整形该噪声的装置。
本发明仍进一步涉及在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:一个解码的信号的接收器,该解码的信号来自一个给定的声音信号编码解码器的输出;一个第一滤波器,该第一滤波器用于对该解码的信号进行预提升以产生一个预提升的信号;一个反馈回路,该反馈回路用于产生一个噪声反馈,该反馈代表通过该给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及一个第二滤波器,该第二滤波器具有与该预提升的信号有关而确定的一个传递函数,这个第二滤波器对该噪声反馈进行处理以产生一个整形的噪声信号。
本发明进一步涉及在至少包括层1和层2的一个多层编码器和解码器中用于对噪声进行整形的一种装备,该装备包括:
在该编码器处:用于对一个声音信号进行编码的装置,其中用于对该声音信号进行编码的该装置包括用于在层1中对噪声进行整形的装置;以及用于产生来自层2的一个加强信号的装置;
在该解码器处:用于对来自层1的该编码的声音信号进行解码的装置,以此产生来自层1的一个合成信号;用于对来自层2的该加强信号进行解码的装置;用于计算与该合成声音信号相关的一个滤波器传递函数的装置;用于对该加强信号进行滤波以产生层2的一个滤波的加强信号的装置;以及用于将层2的该滤波的加强信号加到该合成声音信号上以此产生一个输出信号的装置,该输出信号包括层1和层2的贡献。
本发明进一步涉及在至少包括层1和层2的一个多层编码装备和解码装备中用于对噪声进行整形的一种装备,该装备包括:
在该编码装备处:在层1中的一个声音信号的一个第一编码器,其中该第一编码器包括一个滤波器,该滤波器用于在层1中对噪声进行整形;以及在层2中的一个加强信号的一个第二编码器;并且
在该解码装备处:该编码的声音信号的一个解码器,以产生一个合成声音信号;在层2中的该加强信号的一个解码器;一个滤波器,该滤波器具有与来自层1的该合成声音信号有关而确定的一个传递函数,这个滤波器对该解码的加强信号进行处理以产生层2的一个滤波的加强信号;以及一个加法器,该加法器用于将该合成声音信号和该滤波的加强信号相加以产生一个输出信号,该输出信号包括层1和层2的贡献。
通过参照附图阅读仅以举例方式给出的以下本发明的解说性实施方案的非限制性的说明,本发明的前述的和其他的目的、优点和特征将变得更清楚。
附图说明
在附图中:
图1是G.711宽带扩展编码器的一个示意性框图;
图2是G.711宽带扩展解码器的一个示意性框图;
图3是展示了嵌入式比特流的组成的一个示意性框图,该比特流带有G.711WBE编码解码器中的多个层;
图4是展示了在没有噪声整形的情况下在PCM编码中的语音谱和噪声谱的一个曲线图;
图5是展示了在AMR-WB编码解码器中的一个误差信号的感知整形的一个示意性框图;
图6是展示了在G.711框架中预提升和噪声整形的一个示意性框图;
图7是示出了预提升和噪声整形的一个简化的示意性框图,这个示意性框图等效于图6的示意性框图;
图8是展示了维持与遗留的G.711解码器可互操作性的噪声整形的一个示意性框图;
图9是展示了以与AMR-WB中相同的方式使用一个感知加权滤波器来维持与遗留的G.711的可互操作性的噪声整形的一个示意性框图;
图10a、图10b、图10c和图10d是展示了与遗留的G.711解码器可互操作的噪声整形方案的转化的示意性框图;
图11是维持与遗留的G.711的可互操作性并且以与AMR-WB中相同的方式使用一个感知加权滤波器的最终噪声整形方案的结构的一个示意性框图;
图12是展示了在带有噪声整形的PCM编码中的语音谱和噪声谱的一个曲线图;
图13是展示了带有噪声整形的一个两层G.711可互操作的编码器结构的一个示意性框图;并且
图14是带有噪声整形的一个两层G.711可互操作的编码器的详细结构的一个示意性框图;
图15是带有噪声整形的一个两层G.711可互操作的解码器的详细结构的一个示意性框图;
图16a和图16b是展示了在有和没有死区量子化器的G.711WBE编码解码器中的A-律量子化器水平的曲线图;
图17a和图17b是展示了在有和没有死区量子化器的G.711WBE编码解码器中的μ-律量子化器水平的曲线图;
图18是维持与遗留的G.711可互操作性的最后噪声整形方案的结构的一个示意性框图,该图类似于图11但是具有基于过去的解码信号计算出的一个噪声整形滤波器;以及
图19是展示了带有噪声整形的一个两层G.711可互操作的编码器的结构的一个示意性框图,该图类似于图13但是具有基于过去的解码信号计算出的一个噪声整形滤波器。
具体实施方式
总而言之,本发明的一个第一非限制性的示例性实施方案允许对低频带信号进行编码,这与仅使用遗留的G.711编码解码器将会获得的信号相比具有显著地改进的质量。在披露背后的构思是,第一非限制性的示例性实施方案是根据某些感知指标和遮蔽作用对G.711的残余噪声进行整形,这样使这种残余噪声对于听者来说不太恼人。所披露的装备和方法被应用在该编码器中并且它不影响与G.711的可互操作性。更确切地说,对应于层1的编码的比特流的部分可以由一个遗留G.711解码器进行解码,该解码器由于适当的噪声整形而具有提高的质量。所披露的装备和方法还提供了一种机制,以便在对层1和层2都进行解码时来整形量子化噪声。这是通过在对层2的信息进行解码时在该解码器中也引入噪声整形装备和方法的一个互补部分来完成的。
在该第一非限制性的示例性实施方案中,使用与3GPP AMR-WB标准[2]和ITU-T建议G.722.2[3]中类似的噪声整形。在AMR-WB中,在误差最小化过程中在该编码器处使用一个感知加权滤波器,以获得该误差信号的所希望的整形。
此外,在该第一非限制性的示例性实施方案中,对该加权的感知滤波器进行优化以用于与遗留的ITU-T建议G.711编码解码器可互操作的一个多层嵌入式编码解码器,并且该滤波器具有直接与该输入信号相关的一个传递函数。对这个传递函数在逐帧的基础上进行更新。该噪声整形方法具有一个内部的保护以防止由于能量集中在接近取样频率一半的频率上的信号所导致的闭合回路的不稳定性。该第一非限制性的示例性实施方案还结合了一个死区量子化器,该量子化器被应用于带有非常低的能量的信号。由于所披露的装备和方法的动态特性在非常低的水平上是不足的,所以这些低能量信号在被解码时否则的话会产生一个令人不舒适的粗糙的噪声。在一个多层编码解码器中,还存在一个第二层(层2),该第二层被用来细化来自第一层(层1)的遗留的G.711量子化器的量子化步骤。由于所披露的装备和方法,所以来自该第二层的信号需要在该解码器中适当地得到整形,以此保持该量子化噪声得到控制。这是通过在该解码器中也应用一个修改的噪声整形算法来完成的。以这种方式,这两个层均会产生具有适当地整形的谱的一种信号,该信号与使用遗留的ITU-T G.711编码解码器的情况相比对人耳更舒适。所提出的装备和方法的最后特征是噪声门,该噪声门用来在一个输出信号的水平降低到特定阈值以下的任何时候对其进行抑制。带有噪声门的输出信号在有源通道之间听起来更清晰,并因此减轻了听者专注的负担。
在进一步描述本发明的这个第一非限制性的示例性实施方案之前,将对AMR-WB(自适应多速率宽带)标准进行描述。
1.在AMR-WB中的感知加权
AMR-WB使用一个综合分析编码模式,其中通过在一个感知加权域中该输入声音信号(例如语音)与该合成的声音信号(滤波的激励)之间的均方误差最小化来搜索激励信号的最佳音调和语调参数(图5)。
如在图5中所展示的,一个固定代码本503产生了与一个增益Gc相乘的一个固定代码本矢量c(n)。通过一个加法器509,与该增益Gc相乘的固定代码本矢量c(n)被加到与增益Gp相乘的自适应代码本矢量v(n)上,以产生一个激励信号u(n)。该激励信号u(n)用来更新自适应代码本506的记忆,并且被提供给合成滤波器510以产生一个加权的合成声音信号
Figure GPA00001010214600091
从该输入声音信号s(n)中减去该加权的合成声音信号以产生一个误差信号e(n),该误差信号被提供给一个加权滤波器501。来自滤波器501的该加权的误差ew(n)是通过一个误差最小化器502被最小化;通过不同的自适应代码本和固定代码本矢量来重复该过程(综合分析)直到该误差信号ew(n)被最小化。
这等效于使加权的输入声音信号s(n)与加权的合成声音信号
Figure GPA00001010214600101
之间的误差e(n)最小化。加权滤波器501具有一个传递函数W′(z),其形式为:
W ′ ( z ) = A ( z / γ 1 ) A ( z / γ 2 ) , 其中,0<γ2<γ1≤1(1)
其中A(z)代表一个线性预测(LP)滤波器,并且γ2、γ1是权重因数。由于声音信号在加权域中被量子化,在加权域中的量子化噪声的频谱是扁平的,它可被记为:
Ew(z)=W′(z)E(z)           (2)
其中E(z)是该入声音信号与合成的声音信号
Figure GPA00001010214600103
之间的误差信号e(n)的频谱,并且Ew(z)是加权的误差信号ew(n)的“扁平”的频谱。从等式(2)可以看出,输入声音信号与合成声音信号之间的误差E(z)是通过该加权滤波器的逆解来整形的,即E(z)=W′(z)-1Ew(z)。这个结果在参考文件[4]中予以描述。传递函数W′(z)-1呈现出该输入声音信号的某种共振峰结构。因此,通过对该量子化误差进行整形来对人耳的掩蔽特性加以利用,这样使它在共振峰区域具有更多的能量,在这些共振峰区域中它将被在这些区域中存在的强信号能量所掩蔽。加权的量值是由等式(1)中的因数γ1和γ2来控制的。
以上说明的传统的感知加权滤波器对于在电话频率带宽300-3400Hz中的信号工作良好。然而,已发现,这种传统的感知加权滤波器不适用于在频率带宽50-7000Hz中的宽带信号的有效感知加权。还发现了这种传统的感知加权滤波器在对该共振峰结构和并存的所需频谱倾斜建模中具有内在的局限性。由于在低频与高频之间的宽的动态范围,该频谱倾斜在宽带信号中更明显。现有技术已经提出将一个倾斜滤波器加入W′(z)中,以便分别控制该宽带输入声音信号的倾斜和共振峰加权。
如在参考文件[5]中所述的这种问题的一个解决方法已经在AMR-WB标准中进行了介绍,并且该方法包括:在输入处使用一个预提升滤波器;基于例如通过滤波器1-μz-1(其中μ是一个预提升因数)进行预提升的声音信号来计算LP滤波器A(z);并且通过将其分母固定来使用一个修改的滤波器W′(z)。在这种具体的情况下,图4的CELP(码激励线性预测)模型应用于一个预提升的信号,并且在该解码器处通过该预提升滤波器的逆解使该合成声音信号去提升(deemphasized)。对该预提升的信号s(n)进行LP分析,以获得LP滤波器A(z)。同样,使用带有一个固定分母的新的感知加权滤波器,它由以下关系式给出:
W ′ ( z ) = A ( z / γ 1 ) 1 - γ 2 z - 1 , 其中,0<γ2<γ1≤1(3)
在等式(3)中,在分母处使用了一个一阶滤波器。可替代地,还可以使用一个更高阶的滤波器。这种结构基本上使共振峰加权从频谱倾斜中分离开。因为A(z)是基于该预提升的语音信号s(n)来计算的,所以与基于原始声音信号计算A(z)时的情况相比,该滤波器1/A(z/γ1)的倾斜的明显性更小。使用一个滤波器在该解码器处进行去提升,该滤波器具有如下传递函数:
P - 1 ( z ) = 1 1 - μz - 1 - - - ( 4 )
其中μ是一个预提升因数。使用如等式(3)的一个噪声整形方法,该量子化误差谱是由一个具有传递函数1/W′(z)P(z)的滤波器来整形的。典型的情况是,当将γ2设为等于μ时,该加权滤波器变为:
W ′ ( z ) = A ( z / γ ) 1 - μ z - 1 , 其中,0<γ≤1(5)
并且该量子化误差的频谱是由传递函数为1/A(z/γ)的一个滤波器来整形的,其中A(z)是在该预提升的声音信号基础上计算的。除了容易实施固定点算法的优点之外,主观听力表明通过预提升和修改的加权滤波的组合来实现误差整形的这种结构对于对宽带信号进行编码是非常有效的。
虽然上述的噪声整形在AMR-WB(频率带宽为50-7000Hz的宽带信号)中被使用,当该带宽被限制在50-4000Hz时它也良好地工作,这是第一非限制性的示例性实施方案以及G.711WBE编码解码器(层1和层2)的情况。
2.在与ITU-T G.711标准可互操作的一个多层嵌入式编码解码器中的感知加权
2.1.在第一层(内芯)中的噪声的感知加权
图6示出了基于ITU-T建议G.711(例如,G.711WBE编码解码器的层1)的一个单层编码器的实例,其中,该量子化误差由一个滤波器1/A(z/γ)来整形,其中A(z)是基于使用滤波器1-μz-1预提升的输入声音信号来计算的。图7是图6的一个简化,其中将该预提升滤波器与该加权滤波器相组合,但是该LP滤波器仍是基于例如由如在图6中的滤波器1-μz-1进行预提升的声音信号来计算的。从图6和图7都可以清楚,G.711量子化误差(该量子化误差通常具有一个扁平的频谱)是由滤波器1/A(z/γ)来整形的,其中A(z)是基于预提升的输入声音信号来计算的。虽然在图6和图7中的结构均实现了所希望的噪声整形,但是它们没有产生与遗留的G.711解码器可互操作的一个编码器。这归因于事实上该逆向加权滤波器必须应用在该解码器输出端处。
在图8中示出了一个不同的噪声整形方案,它绕开了在该解码器处应用该逆向加权的需求。因此,在图8中的方案保持了与遗留的G.711解码器的可互操作性。这是通过在G.711量子化器802的输入处引入一个噪声反馈801来实现的。图8的反馈回路801通过能够以不同的方式构造的一种属类的滤波器F(z)803将来自G.711解码器802的输出信号Y(z)提供给一个加法器805。在本说明书中,对在一个示例性实例中的这个滤波器803的传递函数进行进一步说明。将来自滤波器803的滤波的信号从由加权滤波器804加权的信号S(z)中减去,以将一个输入信号X(z)提供给G.711量子化器802的输入端。在图8中,遵守了以下关系式:
X(z)=S(z)W(z)-Y(z)F(z) (6a)
Y(z)=X(z)+Q(z)         (6b)
其中,X(z)是G.711量子化器802的输入声音信号,S(z)是原始声音信号,Y(z)是G.711量子化器802的输出信号,Q(z)是具有扁平频谱的G.711量子化误差,并且W(z)是加权滤波器804的传递函数。由以上等式6a、6b,得:
Y(z)=S(z)W(z)-Y(z)F(z)+Q(z)(7)
这导出:
Y(z)[1+F(z)]=S(z)W(z)+Q(z) (8)
这等效于:
Y ( z ) = S ( z ) W ( z ) 1 + F ( z ) + Q ( z ) 1 + F ( z ) - - - ( 9 )
因此,通过选择F(z)=E(z)-1,可得到以下关系式:
Y ( z ) = S ( z ) + Q ( z ) W ( z ) - - - ( 10 )
因此,输出(合成)声音信号Y(z)与输入声音信号S(z)之间的误差是通过该加权滤波器W(z)的逆解来整形的。图9与图8相同,但带有在AMR-WB中使用的感知加权滤波器。即,图8的加权滤波器W(z)804被设置为W(z)=A(z/γ),其中A(z)是基于该预提升的信号来计算的。返回到图8并设F(z)=W(z)-1,可以看出这种结构可以简化成图10d的结构,而没有功能性的变化。在图10a到图10d中示出了该转化。考虑第一个图10a,它是通过用图8中的F(z)+1取代W(z)而获得的。这当然与设F(z)=W(z)-1是相同的。如图10b所示,然后滤波器F(z)+1可以由与滤波器“1”(即,传递函数等于1)并行的滤波器F(z)替代,其输出被求和。如图10c所示,图10b的两个总和可以由具有三个输入的一个单一的总和来替代。这些输入中的两个具有正号,而第三个具有一个负号。由于滤波器F(z)是线性的,所以它可以表示为图10c等效于图10d。确实,在一个线性滤波器的情况下,在滤波之前将两个输入相加(或相减)等效于对这些单个的输入进行滤波(如图10c所示)并且然后将这些滤波器的输出相加(或相减)。从图10d中,它可以被记为:
X(z)=S(z)+F(z)[S(z)-Y(z)]      (11a)
Y(z)=X(z)+Q(z)                 (11b)
因此,
Y(z)=S(z)+F(z)[S(z)-Y(z)]+Q(z) (12)
这导出:
Y(z)[1+F(z)]=S(z)[1+F(z)]+Q(z)  (13)
所以,
Y ( z ) = S ( z ) + Q ( z ) 1 + F ( z ) - - - ( 14 )
因此,通过设F(z)=W(z)-1,可以实现与在图8中相同的误差整形,但具有较少的滤波运算,从而导致了复杂度的降低。图11与图10d相同,但具有在AMR-WB中使用的误差整形。更确切地说,将整形滤波器W(z)设置为W(z)=A(z/γ),其中A(z)是基于该预提升的声音信号1101计算的,这样使得该量子化误差由一个滤波器1/A(z/γ)进行整形。然后,在图10d中的滤波器F(z)被设置为W(z)-1,对应的是A(z/γ)-1。图12示出了与图4中相同信号的频谱,但是在应用了图11的结构中的噪声整形之后。在图12中可以清楚地看到,在高频处的量子化噪声被该信号适当地掩蔽。
在图11中使用的该预提升因数μ可以是固定的或自适应的。在该第一非限制性的示例性实施方案中,使用依赖于信号的一个自适应预提升因数μ。为此目的在该输入声音信号上计算一个过零率c。使用以下关系式,根据分别是s(n-1)和s(n)的过去帧和当前帧来计算过零率c:
c = 1 2 Σ n = - N + 1 N - 1 | sgn [ s ( n - 1 ) ] + sgn [ s ( n ) ] | - - - ( 15 )
其中,N是帧的大小或长度。
该预提升因数μ由以下关系式给出:
μ = 1 - 256 32767 c . - - - ( 16 )
这产生了0.38<μ<1.0的范围。以这种方式,该预提升对于谐波信号是较强的,并且对于噪声是较弱的。
总之,该噪声整形滤波器W(z)由W(z)=A(z/γ)给出,其中A(z)是基于该预提升的声音信号计算的,其中该预提升是利用如在等式(15)和(16)中所述的一个自适应预提升因数μ来进行的。
在前述的第一非限制性的示例性实施方案中,滤波器W(z)=A(z/γ)的计算(预提升和LP分析)是基于该输入声音信号的。在一个第二非限制性的示例性实施方案中,该滤波器是基于来自层1的解码的信号而计算的。如以下将要说明的,在一个嵌入式编码结构中,为了对第二窄带加强层(例如层2)进行相同的噪声整形,在此披露了一种装备和方法,由此通过该滤波器1/W(z)对来自该第二层的解码的信号进行滤波。因此,在该解码器处也应该进行预提升以及LP分析,其中只有过去的解码信号是可供使用的。因此,为了通过该解码器中计算的噪声整形滤波器来使该差值最小化,在该编码器处计算的滤波器可以基于来自层1的过去的解码的信号,该解码的信号在该编码器和该解码器处均可获得。这个第二非限制性的示例性实施方案被应用在ITU-T建议G.711WBE标准中(见图1)。
图18示出了与图11类似的维持与遗留的G.711的可互操作性的噪声整形方案,但带有基于过去的解码的信号所计算的噪声整形滤波器。首先在预提升单元1802中对过去的解码的信号1801进行预提升。在第二非限制性的示例性实施方案中,使用了来自最后两帧(y(n),n=-2N,...,-1)的解码的信号。该预提升因数通过μ=1-0.0078c给出,其中该过零率c通过以下关系式给出:
c = 1 2 Σ n = - 2 N + 1 - 1 | sgn [ y ( n - 1 ) ] + sgn [ y ( n ) ] |
其中该负指数代表过去的信号。然后对预提升的过去的信号1803进行LP分析。
例如,在第二非限制性的示例性实施方案中,利用一个不对称窗口对每个帧进行一次四阶LP分析。该窗口被分为两个部分:第一部分的长度是60个样本,且第二部分的长度是20个样本。该窗口通过以下关系式给出:
w ( n ) = 0 n = 0 0.5 cos ( ( n + 0.5 ) π 2 L 1 - π 2 ) + 0.5 cos 2 ( ( n + 0.5 ) π 2 L 1 - π 2 ) n = 1 , . . . , L 1 - 1 . 5 cos ( ( n - L 1 + 0.5 ) π 2 L 2 ) + 0.5 cos 2 ( ( n - L 1 + 0.5 ) π 2 L 2 ) n = L 1 , . . . , L 1 + L 2 - 1
其中,使用了值L1=60和L2=20(L1+L2=2N=80)。对该过去的解码的信号y(n)进行预提升并将其加窗,以获得信号s′(n),n=0,...,2N-1。使用以下关系式计算该加窗的信号s′(n),n=0,...,79的自相关r(k):
r ( k ) = Σ n = k 79 s ′ ( n ) s ′ ( n - k ) , k = 0 , . . . , 4 ,
通过使用以下窗口对这些自相关进行滞后加窗来使用一个120Hz的带宽扩展:
w lag ( i ) = exp [ - 1 2 ( 2 π f 0 i f s ) 2 ] , i = 1 , . . . , 4 ,
其中f0=120Hz是带宽扩展,并且fs=8000Hz是取样频率。此外,将r(0)乘以白噪声校正因数1.0001,这等效于加入在-40dB的一个噪声基底。
这些修改的自相关被用在LPC分析器1804中,以通过解算以下方程组来获得LP滤波器系数ak,k=1,...,4:
Σ k = 1 4 a k r ′ ( | i - k | ) = - r ′ ( i ) , i = 1 , . . . , 4 ,
使用对本领域的普通技术人员熟知的莱文森-德宾算法来解出以上方程组。
2.2.在一个多层方案中的噪声感知加权(编码器部分)
以上说明讲述了如何对一个单层G.711兼容的编码器中的编码噪声进行整形。为了确保在使用多层时的适当噪声整形,将该噪声整形算法分布在图13和图14中的编码器(用于第一层或内芯)与图15中的解码器(用于上层,如在G.711WBE中的层2)之间。
图13示出了使用两(2)个层时该算法的编码器侧。QL1和QL2分别是层1和层2的量子化器。在G.711WBE标准中,层1对应于8比特/样本的G.711可兼容编码(带有在该编码器处的噪声整形),并且层2对应于2比特/样本的较低频带加强层。图13示出了仅使用来自层1的过去的合成信号
Figure GPA00001010214600171
)所应用的用于噪声整形的噪声反馈回路1301。这确保了仅来自层1的编码噪声被适当地整形。然后,直接应用层2编码器(QL2)以改进层1。如下所述,用于这个层2(并且有可能是在层2上方的其他上层)的噪声整形将被应用在解码器处。
图19示出了带有噪声整形的一个两层G.711可互操作的编码器的结构,该图与图13类似,但噪声整形滤波器1901是基于过去的解码的信号1903在滤波计算器1902中计算出的。
在概念上,图13和图19等效于图14。在图14中,该算法被分解为4个运算,编号为1到4(带圆圈的)。在时间n,将一个输入样本s[n]加到该滤波的差值信号d[n]上。由此,在该z-变换域中,图14中运算1的加法器1401的输出X(z)可以被记为如下:
X(z)=S(z)+F(z)D(z)                       (17)
与以前一样,滤波器F(z)1402被定义为F(z)=W(z)-1,其中,例如,W(z)=A(z/γ)是该加权的LP滤波器,且A(z)是根据该预提升的声音信号(语言或音频)来计算的。来自图14中运算2的差值信号d[n]是由加法器1403产生的,并且在该z-变换域中可以将其表示为:
这里,
Figure GPA00001010214600173
(或在时域中的
Figure GPA00001010214600174
)是来自第一层(G.711WBE编码解码器中的8比特PCM)的量子化输出。因此,图14中的噪声反馈仅考虑了层1的输出。仍参照图14,在量子化器Q中将该信号x[n](即,由该噪声反馈修改的输入)量子化。这个量子化器Q产生层1的8比特(它能够被解码为
Figure GPA00001010214600175
),以及层2的2个加强比特(它能够被解码以形成
Figure GPA00001010214600176
)。在运算3中,y10[n]被定义为
Figure GPA00001010214600181
Figure GPA00001010214600182
之和,从而得到以下关系式:
Y10(z)=X(z)+Q(z)              (19)
其中Q(z)(或在时域中的q[n])是来自框Q的量子化噪声。这是来自一个10比特PCM量子化器的量子化噪声,因为层1和层2的比特均是从Q获得的。在一个多层编码器中,如G.711WBE编码器,这10个比特实际上对应于来自层1(PCM兼容)的8比特加上来自层2(加强层)的2比特。
在图14中,为了确保该噪声反馈仅来自于层1,运算4从y10[n]中减去
Figure GPA00001010214600183
以再次得到
Figure GPA00001010214600184
Y ^ 8 ( z ) = Y 10 ( z ) - E ^ ( z ) - - - ( 20 )
实际上,运算4将不明显地进行。图14中来自框Q的层1部分的这些比特被用于对
Figure GPA00001010214600186
进行解码,而且来自层2的另外的2个比特只被打包并发送到信道上。当仅对层1的比特进行解码时,提供了以下输入/合成关系式:
Y ^ 8 ( z ) = S ( z ) + Q 8 ( z ) W ( z ) - - - ( 21 )
其中Q8(z)是仅来自层1(内芯的8比特PCM)的量子化噪声。这是对于该内芯(或层1)所希望的噪声整形结果。
2.3.在一个多层方案中的噪声感知加权(解码器部分)
本节说明了如果层1和层2均被解码(即,如果图14中的信号y10[n]被解码)该噪声是如何被整形的。用等式(18)中给出的表达式替代等式(17)中的D(z),得到以下关系式:
X ( z ) = S ( z ) + F ( z ) { S ( z ) - Y ^ 8 ( z ) } - - - ( 22 )
在等式(19)中,提供了X(z)与Y10(z)之间的关系式。通过替代等式(22)中的X(z),得到以下关系式:
Y 10 ( z ) - Q ( z ) = S ( z ) + F ( z ) { S ( z ) - Y ^ 8 ( z ) } . - - - ( 23 )
现在,利用等式(20)来替代以上关系式中的
Figure GPA000010102146001810
得到以下关系式:
Y 10 ( z ) - Q ( z ) = S ( z ) + F ( z ) { S ( z ) - Y 10 ( z ) + E ^ ( z ) } - - - ( 24 )
将在以上等式(24)的左手边上的Y10(z)中的所有项隔离,得到以下关系式:
{ F ( z ) + 1 } Y 10 ( z ) = { F ( z ) + 1 } S ( z ) + Q ( z ) + F ( z ) E ^ ( z ) - - - ( 25 )
两边都除以F(z)+1,得到以下关系式:
Y 10 ( z ) = S ( z ) + Q ( z ) { F ( z ) + 1 } + F ( z ) { F ( z ) + 1 } E ^ ( z ) - - - ( 26 )
因为我们有F(z)=W(z)-1,所以它可以被记为:
Y 10 ( z ) = S ( z ) + Q ( z ) W ( z ) + W ( z ) - 1 W ( z ) E ^ ( z ) . - - - ( 27 )
让我们回想在图14中Q(z)是来自10比特量子化器Q的编码噪声,即,使用层1和层2来对x[n]进行编码。由此,当对该内芯(层1)和该加强层(层2)进行解码时,希望得到的信号只是以下部分:
S ( z ) + Q ( z ) W ( z ) - - - ( 28 )
该部分来自等式(27)的右手边。因此,项
Figure GPA00001010214600196
是不希望的并且应该将其消掉。可将它记为:
S ( z ) + Q ( z ) W ( z ) = Y D ( z ) = Y 10 ( z ) - W ( z ) - 1 W ( z ) E ^ ( z ) - - - ( 29 )
在以上的等式中,YD(z)代表对层1和层2进行解码时所希望的信号。现在,在以下方式中Y10(z)是与
Figure GPA00001010214600198
(层1的合成信号)和
Figure GPA00001010214600199
(传递的来自层2的2比特加强)有关的:
Y 10 ( z ) = Y ^ 8 ( z ) + E ^ ( z ) - - - ( 30 )
利用Y10(z)的这种关系并在上面的YD(z)的定义中将其替代,得到以下关系式:
Y D ( z ) = Y ^ 8 ( z ) + E ^ ( z ) - W ( z ) - 1 W ( z ) E ^ ( z ) - - - ( 31 )
在以上等式(31)中的最后一项可以展开如下
Y D ( z ) = Y ^ 8 ( z ) + E ^ ( z ) - E ^ ( z ) + 1 W ( z ) E ^ ( z ) - - - ( 32 )
这最后得到:
Y D ( z ) = Y ^ 8 ( z ) + 1 W ( z ) E ^ ( z ) - - - ( 33 )
等式(33)表明在该解码器处必须进行的这些运算,以获得带有适当的噪声整形的层1+层2的合成。如在图14中所述,在该编码器侧处应用了噪声整形。只使用了该量子化的第一层信号
Figure GPA00001010214600203
(没有该量子化的加强层的贡献)。在该解码器侧处,执行以下步骤:
在模块1501中计算层1合成(
Figure GPA00001010214600204
);
在模块1502中计算(解码)层2加强信号(
Figure GPA00001010214600205
);
用一个递归(全极点)滤波器
Figure GPA00001010214600207
进行滤波,以形成信号
Figure GPA00001010214600208
(见滤波器1503);并且
在加法器1504中对这些信号
Figure GPA00001010214600209
Figure GPA000010102146002010
求和,以形成所希望的信号yD[n](层1和层2贡献的总和)。
为了避免边信息的传输,利用层1合成信号在该解码器处对滤波器W(z)=F(z)+1进行计算(见滤波计算器1505)。在G.711WBE编码解码器中,层1以高速率(64kbit/s的PCM)运算,所以使用层1在该解码器处计算这个滤波器并不引起在该编码器处在原来的(输入)声音信号上计算的相同的滤波器的显著失配。然而,为了完全避免失配,利用在编码器和解码器处均可获得的局部解码的信号
Figure GPA000010102146002012
在该编码器处对该滤波器W(z)进行计算。为了在层2中实现适当的噪声整形,在图15中示出了这个解码过程。与该编码器侧类似,W(z)=A(z/γ),其中通过根据等式(15)和(16)调整的预提升因数在应用了自适应预提升之后,基于层1的信号来计算该LP滤波器A(z)。事实上,在该第二非限制性的示例性实施方案中,如上所述在该编码器侧进行了在过去的解码信号进行的相同的预提升和四阶LP分析。
虽然以上通过多个非限制性的示例性实施方案已经对本发明进行了说明,但在不背离本主题发明的精神和本质下可以对这些实施方案进行修改。例如,不使用每样本两(2)个比特的标量量子化来量子化该第二层(层2),而是可以使用其他量子化策略,如矢量量子化。此外,可以使用其他加权滤波器公式。在以上的示例性实施方案中,噪声整形是由W1(z)=1/A(z/γ)给出的。总之,如果希望通过W1(z)来整形该量子化噪声,在该编码器处的滤波器F(z)(图8和图10)是由F(z)=W(z)-1给出的,并且在该解码器处,第二层量子化信号
Figure GPA00001010214600211
是由W1(z)加权的。
2.4.防止噪声整形回路不稳定性的保护
在某些受限的情况下,例如,对于特定的音乐流派,信号的能量可以集中在4000Hz(低频带中取样频率的一半)附近的单频率峰值上。在这种特定的情况下,由于该滤波器是高度共振的,所以该噪声整形反馈变得不稳定。其结果是,被整形的噪声是不恰当的且该合成的信号被削波。这会造成一种可听得到的伪音,其持续时间可以是几个帧,直到该噪声整形回路返回到它的稳定状态。为了防止这个问题,任何时候在该编码器中检测到能量集中在高频率上的信号,即对该噪声整形反馈进行衰减。
确切地讲,计算一个比率:
r = - r 1 r 0 . - - - ( 34 )
,其中r0和r1分别是第一和第二自相关系数。该第一自相关系数通过以下关系式给出:
r 0 = 20000 32767 + Σ n = - 2 N - 2 y ^ 8 2 ( n ) - - - ( 35 )
并且该第二自相关系数是利用以下关系式来计算出:
r 1 = 19000 32767 + Σ - 2 N - 2 y ^ 8 ( n ) y ^ 8 ( n + 1 ) - - - ( 36 )
该比率r可以被用作有关该信号的频谱倾斜的信息。为了减小该噪声整形,必须满足以下条件:
r < - 32256 32767 - - - ( 37 )
然后按以下方式通过一个因数a使该加权滤波器的系数衰减来修改该噪声整形反馈:
F &prime; ( z ) = W ( z ) - 1 = A ( z / ( &alpha;&gamma; ) ) - 1 = &Sigma; i = 1 4 &alpha; i &gamma; i a i z - i - - - ( 38 )
该衰减因数a是比率r的一个函数并由以下关系式给出:
a = 16 [ r + 34303 32767 ] - - - ( 39 )
如果存在具有非常低的水平的信号的有源衰减,则不启动用于能量集中在高频率上的信号的感知滤波器的衰减。这将在下节中进行说明。
2.5.用于非常低的水平信号的固定噪声整形滤波器
当该输入信号具有一个非常低的能量时,该噪声整形装备和方法可以防止该编码噪声的适当掩蔽。原因在于,G.711解码器的分辨率是依赖于水平的。当该信号水平太低时,该量子化的噪声具有与该输入信号大致相同的能量,并且失真接近于100%。因此,甚至可能发生当将该滤波的噪声加到其上时该输入信号的能量被增大。这进而增加了该解码的信号等等的能量。该噪声反馈很快在几个帧内变得饱和,这是人们不希望的。为了防止这种饱和,使该噪声整形滤波器对于非常低的水平信号进行衰减。
为了检测用于滤波器衰减的条件,可以核对过去的解码的信号
Figure GPA00001010214600225
的能量是否低于一个特定的阈值。应注意在等式(35)中的相关值r0代表这个能量。因此,如果满足条件
r0<θ,                  (40)
,那么进行对于非常低的水平信号的衰减,其中θ是一个给定的阈值。可替代地,一个归一化因数ηL可以在等式(35)中的相关值r0上进行计算。该归一化因数代表在一个16比特值的r0上可进行的左移的最大数目,以此将结果保持在32767之下。当ηL满足以下条件时:
ηL≥16,                             (41)
进行对于非常低的水平信号的衰减。
通过设置该权重因数γ=0.5在该加权滤波器上进行该衰减。这就是:
F ( z ) = ( &Sigma; i = 1 4 ( 0.5 ) i a i z - i ) . - - - ( 42 )
对于非常低的水平输入声音信号的噪声整形滤波器进行衰减避免了以下情况,即,该噪声反馈回路将增加客观噪声水平,而没有带来具有一个感知上的较低的噪声基底的益处。它还有助于降低该编码器与该解码器之间的滤波器失配的作用。
上述的这些感知滤波器衰减(防止不稳定性或非常低的水平信号的保护)被排他性地执行,这意味着它们不能够同时有效。这在以下情况中予以说明:如果ηL≥16
进行该感知滤波器的衰减,给出等式(42)。
否则,如果 r < - 32256 32767
进行该感知滤波器的衰减,给出(38)。
否则
无衰减。
结束。
2.6.死区量子化
由于在本发明的第一和第二非限制性的示例性实施方案中所披露的噪声整形应对在PCM编码器中的噪声的问题,这些编码器具有多个固定(非自适应)量子化水平,一些非常小的信号条件实际上可以产生能量高于该输入的一个合成信号。这发生在到该量子化器上的输入信号在两个量子化水平的中点周围振荡时。
在A-律PCM中,最低量子化水平是0和±16。在这种量子化之前,每个输入样本被偏移了值+8。如果一个信号在值8周围振荡,那么幅值低于8的每个样本将被量子化为0,且幅值等于或大于8的每个样本将被量子化为16。然后,该量子化的信号将在0与16之间切换,即便该输入声音信号仅在比如说6与12之间变化。这可以通过该噪声整形的递归本质被进一步放大。一个解决方法是增加层1的量子化器的原点(0值)周围的区域。例如,包含-11与+11在内的它们之间的所有值(而不是-7和+7)将通过层1中的量子化器被设为零。这有效地增加了该量子化器的死区,由此增加了将被设置为零的低水平样本的数目。然而,在一个多层G.711可互操作的编码方案中,如该G.711WBE编码器,存在着用于改进该内芯(或层1)的粗略量子化水平的一个扩展层。因此,当在层1中使用一个死区量子化器时,同样有必要修改在层2中的量子化器的量子化水平。这些水平被修改的方式是使该误差最小化。在图16中以一种输入-输出曲线图的形式示出了用于A-律的这些死区量子化水平的一种可能的结构。x轴代表到该量子化器上的输入值,而y轴代表这些解码的输出值,即,在进行编码和解码时。对应于图16的A-律量子化水平被用在G.711WBE编码解码器中,并且它们还是通过这种方法要使用的优选水平。
对于μ-律,遵循相同的原理,但是具有不同的量子化阈值(细节见图17)。在μ-律中,在量子化之前没有施加任何偏移,但是存在一个内部偏置132。再次,图17中的输入-输出曲线图示出了μ-律死区量子化方法的优选结构。
该死区量子化器仅在以下条件满足时启动:
k≥16并且 s ( n ) &Element; [ - 11,11 ] forA - law s ( n ) &Element; [ - 7,7 ] for&mu; - law . - - - ( 43 )
其中k=ηL是与等式(35)中用于归一化值r0相同的归一化因数。当以上条件为真时,不使用这些嵌入的低频带量子化器连同该内芯解码器。相反,应用了一个不同的量子化技术,以下对其进行说明。应注意等式(40)中的条件也可以用来启动该死区量子化器。
如在条件(43)中所见到的,仅对于极低水平输入信号s(n)启动该死区量子化器,从而满足条件(43)。活动的间隔被称为一个死区,并且在这个间隔内将该局部解码的内芯信号y(n)抑制到零。在这个死区量子化器中,样本s(n)是根据以下方程组被量子化的:
A-律情况:
u(n)=0
v ( n ) 0 s ( n ) &Element; [ - 11 , - 7 ] ( s ( n ) + 8 ) / 2 s ( n ) &Element; [ - 6,7 ] 7 s ( n ) &Element; [ 8,11 ]
μ-律情况:
u(n)=0
v ( n ) = 0 s ( n ) &Element; [ - 7 , - 2 ] 2 s ( n ) = - 1 4 s ( n ) &Element; [ 0,1 ] 8 s ( n ) &Element; [ 2,7 ]
其中,在以上关系式中,
Figure GPA00001010214600253
是该量子化的内芯,并且
Figure GPA00001010214600254
是该量子化的第二层。
2.7.噪声门
为了在半休止周期的过程中进一步提高该合成信号的清晰度,在该解码器处加入一种噪声门的方法。当帧能量非常低时,该噪声门使该输出信号衰减。这个衰减在水平和时间上均是递增的。衰减的水平是依赖于信号的并且基于逐个样本被逐渐改变。在一个非限制的实例中,如下所述,该噪声门在G.711WBE解码器中运算。
在计算其能量之前,在层1中的合成信号首先由一个一阶高通FIR滤波器来进行滤波
yf(n)=y(n)-0.768y(n-1),n=0,1,..,N-1,(34)
其中,y(n),n=0,...,N-1,对应于当前帧中的合成的信号,并且N=40是帧的长度。通过下式计算该滤波的信号的能量
E 0 = &Sigma; i = 0 N - 1 y f 2 ( i ) - - - ( 35 )
为了避免该噪声门的快速切换,将先前帧的能量加入到当前帧的能量上,这给出总能量
Et=E0+E-1              (36)
应注意在对每个帧编码结束时E-1被E0更新。
基于这种关于信号能量的信息,将一个目标增益计算为等式(36)中的Et的平方根乘以一个因数1/27,即
g t = E t 2 7 其限制为0.25≤gt≤1.0        (37)
该目标增益的下限值为0.25,上限值为1.0。因此,在增益gt小于1.0时启动该噪声门。选择该因数1/27,这样使得RMS值是≈20的信号将会产生一个目标增益gt≈1.0,并且RMS值是≈5的信号将会产生一个目标增益gt≈0.25。这些值已经针对G.711WBE编码解码器进行了优化,并且有可能在一个不同的框架中对它们进行修改。
当在该解码器中的合成的信号使其能量集中在高频带(即,4000-8000Hz)上时,通过将该目标增益设为1.0逐渐使该噪声门解除启动。因此,对于当前的帧计算低频带和高频带合成的信号的一个功率测定。确切地讲,该低频带信号(在层1+层2中合成的)的功率是由以下关系式给出:
P LB = &Sigma; i = 0 N | y ( i ) | . - - - ( 38 )
高频带信号(在层3中合成的)的功率由下式给出
P HB = &Sigma; i = 0 N | z ( i ) | . - - - ( 39 )
其中z(n),n=0,..,N-1代表合成的高频带信号。如果没有实施层3,那么该噪声门不是有条件的并且每当gt小于1.0时即被启动。当使用层3时,每当PHB>4×10-7且PHB>16*PLB时,该目标增益被设为1.0。
最后,该合成的输出信号的每个样本(即,当该低频带和高频带合成信号被组合在一起时)都乘以一个增益:
g(n)=0.99g(n-1)+0.01gt,n=0,1,.N-1(40)
该增益被基于逐个样本进行更新。可以看到,该增益缓慢地朝该目标增益gt收敛。
虽然在以上说明中通过一个非限制性的示例性实施方案对本发明进行了说明,但在不背离本主题发明的精神和本质下,在所附的权利要求的范围内可以对这个示例性实施方案进行任意的修改。
参考文件
[1]语音频率的脉冲代码调制(PCM),ITU-T建议G.711,1988年11月,(http://www.itu.int)。
[2]AMR宽带语言编码解码器:转换代码功能,3GPP技术规格TS 26.190(http://www.3gpp.org)。
[3]利用自适应多速率宽带(AMR-WB)约16kbit/s的语言宽带编码,ITU-T建议G.722.2,日内瓦,2002年1月(http://www.itu.int)。
[4]B.S.Atal and M.R.Schroeder,“语言预测编码以及主观误差标准”,IEEE音频、语言和信号处理学报,卷27,编号3,第247-254页,1979年6月。
[5]美国专利6,807,524“用于宽带信号的有效编码的感知加权装备和方法”。

Claims (73)

1.在一个输入声音信号的编码过程中用于对噪声进行整形的一种方法,该方法包括:
对该输入声音信号进行预提升,以产生一个预提升的声音信号;
计算与该预提升的声音信号相关的一个滤波器传递函数;并且
通过该计算的滤波器传递函数对所述噪声进行滤波来整形该噪声,以产生一个整形的噪声信号;
其中,所述噪声整形包括产生一个噪声反馈,该反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声。
2.如权利要求1所述的噪声整形方法,其中该给定的声音信号编码解码器包括一种ITU-T G.711编码解码器。
3.如权利要求1所述的噪声整形方法,其中产生该噪声反馈包括计算来自该给定的声音信号编码解码器的一个输出信号与该输入声音信号之间的一个误差。
4.如权利要求3所述的噪声整形方法,其中产生该噪声反馈包括在通过该计算的滤波器传递函数将该误差滤波之后将该误差提供给该给定的声音信号编码解码器的一个输入。
5.如权利要求1所述的噪声整形方法,其中计算该滤波器传递函数包括计算关系式A(z/γ)-1,其中A(z)代表一个线性预测滤波器,并且γ是一个权重因数。
6.如权利要求2所述的噪声整形方法,其中该给定的声音信号编码解码器包括一个多层编码解码器。
7.如权利要求6所述的噪声整形方法,其中该多层编码解码器包括该ITU-T G.711编码解码器。
8.如权利要求1所述的噪声整形方法,其中对该输入声音信号进行预提升包括通过一个具有传递函数1-μz-1的滤波器来处理该输入声音信号,其中μ是一个预提升因数并且z代表一个z-变换域。
9.如权利要求8所述的噪声整形方法,其中,该预提升因数μ根据以下关系式是自适应的:
&mu; = 1 - 256 32767 c
其中
Figure FPA00001010214500022
c是一个过零率,s(i)是该输入声音信号并且N是该输入声音信号的一帧的长度。
10.如权利要求8所述的噪声整形方法,其中该预提升因数μ是处于0.38与1之间的范围内。
11.如权利要求8所述的噪声整形方法,其中该预提升因数μ包括一个固定值。
12.如权利要求1所述的噪声整形方法,其中计算该滤波器传递函数包括在逐帧的基础上更新该滤波器传递函数。
13.在一个输入声音信号的编码过程中用于对噪声进行整形的一种方法,该方法包括:
接收来自一个给定的声音信号编码解码器的输出的一个解码的信号,该编码解码器被供给该输入声音信号;
对该解码的信号进行预提升,以产生一个预提升的信号;
计算与该预提升的信号相关的一个滤波器传递函数;并且
通过该计算的传递函数对该噪声进行滤波来整形该噪声;
其中,所述噪声整形包括产生一个噪声反馈,该反馈代表通过该给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声。
14.如权利要求13所述的噪声整形方法,其中该给定的声音信号编码解码器是一个ITU-T G.711编码解码器。
15.如权利要求13所述的噪声整形方法,其中该给定的声音信号编码解码器包括一个ITU-T G.711多层编码解码器,该多层编码解码器包括至少层1和层2。
16.如权利要求13所述的噪声整形方法,其中接收该解码的信号包括接收来自该G.711多层编码解码器的层1的一个输出信号。
17.如权利要求13所述的噪声整形方法,其中计算一个滤波器传递函数包括计算关系式A(z/γ)-1,其中A(z)是一个线性预测滤波器并且γ是一个权重因数。
18.如权利要求13所述的噪声整形方法,其中对该解码的信号进行预提升包括通过一个具有传递函数1-μz-1的滤波器来处理该解码的信号,其中μ是一个预提升因数,并且z代表一个z-变换域。
19.如权利要求18所述的噪声整形方法,其中,该预提升因数μ根据μ=1-0.0078c是自适应的,其中
Figure FPA00001010214500031
是一个过零率,y(n)是该解码的信号,并且N是该解码的信号的一帧的长度。
20.如权利要求15所述的噪声整形方法,进一步包括保护该滤波器传递函数以免不稳定性。
21.如权利要求20所述的噪声整形方法,其中保护该滤波器传递函数以免不稳定性包括对信号进行检测,这些信号具有集中在接近该输入声音信号取样频率一半的多个频率上的一种能量。
22.如权利要求21所述的噪声整形方法,其中对具有集中在接近该输入声音信号取样频率一半的这些频率上的能量的这些信号进行检测包括计算反映该信号能量的频率分布的一个参数r。
23.如权利要求22所述的噪声整形方法,其中计算反映该信号能量的频率分布的参数r包括计算一个表达式
Figure FPA00001010214500032
其中r0是来自层1的该解码的信号的一个第一自相关,并且r1是来自层1的该解码的信号的一个第二自相关。
24.如权利要求23所述的噪声整形方法,进一步包括如果r是低于一个特定的阈值时减小该噪声反馈。
25.如权利要求24所述的噪声整形方法,其中减小该噪声反馈包括将该滤波器传递函数减小一个因数
26.如权利要求25所述的噪声整形方法,其中将该滤波器传递函数减小一个因数α包括计算一个衰减传递函数A(z/αγ)-1,其中A(z)是基于该预提升的信号计算出的一个线性预测滤波器并且γ是一个权重因数。
27.如权利要求23所述的噪声整形方法,进一步包括检测具有低于一个给定阈值的能量的多个低能量信号。
28.如权利要求27所述的噪声整形方法,其中检测具有低于一个给定阈值的能量的多个低能量信号包括保护该滤波器传递函数以免不稳定性。
29.如权利要求28所述的噪声整形方法,其中检测多个低能量信号包括计算一个归一化因数ηL,该归一化因数是关于该第一自相关r0来计算的。
30.如权利要求29所述的噪声整形方法,进一步包括当ηL大于一个特定值时对该滤波器传递函数进行衰减。
31.如权利要求27所述的噪声整形方法,其中对该滤波器传递函数进行衰减包括设置一个权重因数γ=0.5,所述权重因数被应用在该滤波器传递函数上。
32.如权利要求27所述的噪声整形方法,进一步包括一个死区量子化。
33.如权利要求32所述的噪声整形的方法,其中该死区量子化包括对低水平信号将一个量子化水平设置为零。
34.如权利要求15所述的噪声整形方法,进一步包括在该编码解码器的一个编码器中层1的噪声整形以及在所述编码解码器的一个解码器中层2的噪声整形。
35.如权利要求34所述的噪声整形方法,其中在该编码器中层1的噪声整形包括从一个量子化器的输出信号中减去层2以此产生仅基于层1的一个噪声反馈。
36.如权利要求34所述的噪声整形方法,其中在该解码器中的层2的噪声整形包括:
计算来自层1的一个输出信号;
基于该计算的来自层1的输出信号来计算一个滤波器传递函数;
计算来自层2的一个加强信号;并且
通过该计算的滤波器传递函数对来自层2的该加强信号进行滤波。
37.如权利要求34所述的噪声整形方法,进一步包括作为层1的编码解码器的G.711编码解码器,并且其中在层1中对噪声进行整形包括维持与多个遗留的G.711解码器的可互操作性。
38.在包括至少层1和层2的一个多层的编码器和解码器中用于噪声整形的一种方法,该方法包括:
在该编码器处:
在层1中产生一个编码的声音信号,其中产生一个编码的声音信号包括在层1中对噪声进行整形;
在层2中产生一个加强信号;并且
在该解码器处:
对来自该编码器的层1的编码的声音信号进行解码,以产生一个合成声音信号;
对来自层2的加强信号进行解码;
计算与该合成声音信号相关的一个滤波器传递函数;
通过该计算的滤波器传递函数对层2的该解码的加强信号进行滤波,以产生层2的一个滤波的加强信号;并且
将层2的滤波的加强信号加到该合成声音信号上以产生一个输出信号,该输出信号包括层1和层2的贡献。
39.如权利要求38所述的噪声整形方法,进一步包括作为层1的编码解码器的G.711编码解码器,并且其中在层1中对噪声进行整形包括维持与多个遗留的G.711解码器的可互操作性。
40.如权利要求38所述的噪声整形方法,其中,在该解码器处在层1中对噪声进行整形包括:对来自层1的一个过去的解码信号进行预提升以此产生一个预提升的信号;基于该预提升的信号计算一个滤波器传递函数;并且通过该计算的滤波器传递函数对所述噪声进行滤波来整形该噪声以产生一个整形的噪声信号。
41.如权利要求40所述的噪声整形方法,进一步包括产生一个噪声反馈,该噪声反馈代表通过一个层1和层2的量子化器进行处理所生成的噪声。
42.如权利要求41所述的噪声整形方法,其中产生一个噪声反馈包括从该层1和层2量子化器的一个输出信号中消除层2的加强信号。
43.如权利要求38所述的噪声整形方法,其中,在该解码器处计算该滤波器传递函数包括:计算一个表达式
Figure FPA00001010214500061
其中A(z)是关于来自层1的该合成声音信号计算出的一个线性预测滤波器,并且γ对应于一个权重因数。
44.如权利要求38所述的噪声整形方法,进一步包括在该解码器处使用一个噪声门用来抑制一个合成声音信号,该合成声音信号降低到一个给定的阈值之下。
45.如权利要求44所述的噪声整形方法,其中抑制该合成声音信号进一步包括渐近性地衰减该合成声音信号的能量。
46.如权利要求45所述的噪声整形方法,进一步包括计算该合成声音信号的一个目标增益。
47.如权利要求46所述的噪声整形的方法,其中计算该合成声音信号的目标增益包括计算一个表达式
Figure FPA00001010214500062
其中Et是该合成声音信号在两个帧上的能量。
48.在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:
用于对该输入声音信号进行预提升的装置,以此产生一个预提升的声音信号;
用于计算与该预提升的声音信号相关的一个滤波器传递函数的装置;
用于产生一个噪声反馈的装置,该噪声反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及
通过该计算的滤波器传递函数对该噪声反馈进行滤波来整形该噪声以产生一个整形的噪声信号的装置。
49.在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:
一个第一滤波器,该第一滤波器用于对该输入声音信号进行预提升,以此产生一个预提升的信号;
一个反馈回路,该反馈回路用于产生一个噪声反馈,该噪声反馈代表通过一个给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及
一个第二滤波器,该第二滤波器具有关于该预提升的信号所确定的一个传递函数,所述第二滤波器对该噪声反馈进行处理以产生一个整形的噪声信号。
50.如权利要求49所述的用于噪声整形的装备,其中该给定的声音信号编码解码器包括一种ITU-T G.711编码解码器。
51.如权利要求49所述的用于噪声整形的装备,其中该第一滤波器具有一个传递函数1-μz-1,其中μ是一个自适应性预提升因数并且z代表一个z-变换域。
52.如权利要求51所述的用于噪声整形的装备,进一步包括该自适应性预提升因数μ的一个计算器。
53.如权利要求49所述的用于噪声整形的装备,其中该反馈回路包括一个加法器,该加法器用来计算在该给定的声音信号编码解码器的一个输出信号与该输入声音信号之间的一个差值。
54.如权利要求49所述的用于噪声整形的装备,其中该反馈回路进一步包括一个滤波器,该滤波器具有一个传递函数A(z/γ)-1,其中A(z)是一个线性预测滤波器并且γ是一个权重因数。
55.在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:
用于接收一个解码的信号的装置,该解码的信号来自一个给定的编码解码器的输出,对该编码解码器供给了该输入声音信号;
用于对该解码的信号进行预提升以此产生一个预提升的信号的装置;
用于计算与该预提升的信号相关的一个滤波器传递函数的装置;
用于产生一个噪声反馈的装置,该噪声反馈代表通过该给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及
通过该计算的滤波器传递函数对该噪声反馈进行滤波来整形该噪声的装置。
56.在一个输入声音信号的编码过程中用于对噪声进行整形的一种装备,该装备包括:
一个解码的信号的接收器,该解码的信号来自一个给定的声音信号编码解码器的一个输出;
一个第一滤波器,该第一滤波器用于对该解码的信号进行预提升以产生一个预提升的信号;
一个反馈回路,该反馈回路用于产生一个噪声反馈,该噪声反馈代表通过该给定的声音信号编码解码器对该输入声音信号进行处理所生成的噪声;以及
一个第二滤波器,该第二滤波器具有与该预提升的信号有关而确定的一个传递函数,所述第二滤波器对该噪声反馈进行处理以产生一个整形的噪声信号。
57.如权利要求56所述的用于噪声整形的装备,其中该给定的声音信号编码解码器包括一种G.711编码解码器。
58.如权利要求56所述的用于噪声整形的装备,其中该反馈回路包括一个滤波器,该滤波器具有一个传递函数A(z/γ)-1,其中A(z)是一个线性预测滤波器并且γ是一个权重因数。
59.如权利要求56所述的用于噪声整形的装备,其中该第一预提升滤波器具有一个传递函数1-μz-1,其中μ是一个自适应性预提升因数并且z代表一个z-变换域。
60.如权利要求59所述的用于噪声整形的装备,进一步包括该自适应预提升因数μ的一个计算器。
61.如权利要求56所述的用于噪声整形的装备,进一步包括一个保护元件,该保护元件用于保护该反馈回路以免除该整形噪声滤波器的不稳定性。
62.如权利要求61所述的用于噪声整形的装备,其中该保护元件包括一个信号检测器,这些信号具有集中在接近取样频率一半的多个频率上的能量。
63.如权利要求62所述的用于噪声整形的装备,进一步包括该解码的信号的第一与第二自相关之间的比值的一个计算器,该比值代表该信号能量的一种频率分布。
64.如权利要求56所述的用于噪声整形的装备,进一步包括用于减小该反馈回路的一个增益控制器。
65.如权利要求56所述的用于噪声整形的装备,进一步包括一个死区量子化器,用于对低能量信号将一个量子化水平设置为零。
66.在包括至少层1和层2的一个多层的编码器和解码器中用于对噪声进行整形的一种装备,该装备包括:
在该编码器处:
用于对一个声音信号进行编码的装置,其中该用于对该声音信号进行编码的装置包括用于在层1中对噪声进行整形的装置;以及
用于产生来自层2的一个加强信号的装置;并且
在该解码器处:
用于对来自层1的该编码的声音信号进行解码以此产生来自层1的一个合成信号的装置;
用于对来自层2的该加强信号进行解码的装置;
用于计算与该合成声音信号相关的一个滤波器传递函数的装置;
用于对该加强信号进行滤波以产生层2的一个滤波的加强信号装置;以及
用于将层2的滤波的加强信号加到该合成声音信号上以此产生一个输出信号的装置,该输出信号包括层1和层2的贡献。
67.在包括至少层1和层2的一个多层编码装备和解码装备中用于对噪声进行整形的一种装备,该装备包括:
在该编码装备处:
在层1中的一个声音信号的第一编码器,其中该第一编码器包括对层1中噪声进行整形的一个滤波器;以及
在层2中的一个加强信号的第二编码器;并且
在该解码装备处:
该编码的声音信号的一个解码器,以产生一个合成声音信号;
在层2中的该加强信号的一个解码器;
一个滤波器,该滤波器具有与来自层1的该合成声音信号有关而确定的一个传递函数,所述滤波器对该解码的加强信号进行处理以产生层2的一个滤波的加强信号;以及
一个加法器,该加法器用于将该合成声音信号与该滤波的加强信号相加以产生一个输出信号,该输出信号包括层1和层2二者的贡献。
68.如权利要求67所述的用于噪声整形的装备,进一步包括在该编码装备中的一个预提升滤波器。
69.如权利要求67所述的用于噪声整形的装备,进一步包括在该编码装备处的一个反馈回路,该反馈回路代表通过一个给定的声音编码解码器对到该给定的声音编码解码器上的一个输入信号进行处理所生成的噪声。
70.如权利要求69所述的用于噪声整形的装备,其中在该编码装备中的该反馈回路包括一个滤波器,该滤波器具有一个传递函数A(z/γ)-1,其中A(z)是一个线性预测滤波器并且γ是一个权重因数。
71.如权利要求70所述的用于噪声整形的装备,其中在该编码装备中的该反馈回路包括一个加法器,该加法器用于将到该给定的声音编码解码器上的该输入信号与该编码的声音信号相加。
72.如权利要求69所述的用于噪声整形的装备,其中该给定的声音编码解码器包括一个ITU-T G.711编码解码器。
73.如权利要求67所述的用于噪声整形的装备,进一步包括用来抑制该合成声音信号的一个噪声门,该合成声音信号具有低于一个给定阈值的一个能量水平。
CN2007801000736A 2007-06-14 2007-12-28 在与itu-t g.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法 Expired - Fee Related CN101765879B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US92912407P 2007-06-14 2007-06-14
US60/929,124 2007-06-14
US96005707P 2007-09-13 2007-09-13
US60/960,057 2007-09-13
PCT/CA2007/002373 WO2008151410A1 (en) 2007-06-14 2007-12-28 Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard

Publications (2)

Publication Number Publication Date
CN101765879A true CN101765879A (zh) 2010-06-30
CN101765879B CN101765879B (zh) 2013-10-30

Family

ID=40129163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007801000736A Expired - Fee Related CN101765879B (zh) 2007-06-14 2007-12-28 在与itu-t g.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法

Country Status (5)

Country Link
US (2) US20110022924A1 (zh)
EP (1) EP2160733A4 (zh)
JP (2) JP5618826B2 (zh)
CN (1) CN101765879B (zh)
WO (2) WO2008151408A1 (zh)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101263554B (zh) * 2005-07-22 2011-12-28 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8335684B2 (en) * 2006-07-12 2012-12-18 Broadcom Corporation Interchangeable noise feedback coding and code excited linear prediction encoders
US8589720B2 (en) * 2008-04-15 2013-11-19 Qualcomm Incorporated Synchronizing timing mismatch by data insertion
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
JP5764488B2 (ja) * 2009-05-26 2015-08-19 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置及び復号方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
EP2791938B8 (en) * 2011-12-15 2016-05-04 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
US9325544B2 (en) 2012-10-31 2016-04-26 Csr Technology Inc. Packet-loss concealment for a degraded frame using replacement data from a non-degraded frame
KR101757349B1 (ko) 2013-01-29 2017-07-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 부대역들의 시간적 평활을 이용하여 주파수 향상 신호를 발생시키는 장치 및 방법
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
PT3011555T (pt) 2013-06-21 2018-07-04 Fraunhofer Ges Forschung Reconstrução de uma estrutura de discurso
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
CN109979471B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
EP2980793A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
US9706317B2 (en) * 2014-10-24 2017-07-11 Starkey Laboratories, Inc. Packet loss concealment techniques for phone-to-hearing-aid streaming
US10424305B2 (en) * 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
US9712348B1 (en) * 2016-01-15 2017-07-18 Avago Technologies General Ip (Singapore) Pte. Ltd. System, device, and method for shaping transmit noise
WO2017129270A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
WO2017129665A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
RU2712093C1 (ru) * 2016-03-07 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра
MX2018010753A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio.
ES2874629T3 (es) * 2016-03-07 2021-11-05 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
CN107356521B (zh) * 2017-07-12 2020-01-07 湖北工业大学 一种针对多电极阵列腐蚀传感器微小电流的检测装置及方法
EP3704863B1 (en) * 2017-11-02 2022-01-26 Bose Corporation Low latency audio distribution
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
EP3928312A1 (en) * 2019-02-21 2021-12-29 Telefonaktiebolaget LM Ericsson (publ) Methods for phase ecu f0 interpolation split and related controller

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
US5550544C1 (en) * 1994-02-23 2002-02-12 Matsushita Electric Ind Co Ltd Signal converter noise shaper ad converter and da converter
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US20070055498A1 (en) * 2000-11-15 2007-03-08 Kapilow David A Method and apparatus for performing packet loss or frame erasure concealment
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
JP4574320B2 (ja) * 2004-10-20 2010-11-04 日本電信電話株式会社 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
CN1783701A (zh) * 2004-12-02 2006-06-07 中国科学院半导体研究所 一种高阶σδ噪声整形直接数字频率合成器
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
JP4758687B2 (ja) * 2005-06-17 2011-08-31 日本電信電話株式会社 音声パケット送信方法、音声パケット受信方法、それらの方法を用いた装置、プログラム、および記録媒体
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP4693185B2 (ja) * 2007-06-12 2011-06-01 日本電信電話株式会社 符号化装置、プログラム、および記録媒体
JP5014493B2 (ja) * 2011-01-18 2012-08-29 日本電信電話株式会社 符号化方法、符号化装置、およびプログラム

Also Published As

Publication number Publication date
EP2160733A1 (en) 2010-03-10
JP2010530078A (ja) 2010-09-02
US20110022924A1 (en) 2011-01-27
WO2008151408A1 (en) 2008-12-18
CN101765879B (zh) 2013-10-30
JP2009541815A (ja) 2009-11-26
JP5161212B2 (ja) 2013-03-13
US20110173004A1 (en) 2011-07-14
EP2160733A4 (en) 2011-12-21
JP5618826B2 (ja) 2014-11-05
WO2008151410A1 (en) 2008-12-18
WO2008151408A8 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
CN101765879B (zh) 在与itu-t g.711标准可互操作的多层嵌入式编码解码器中用于噪声整形的装备和方法
US9715883B2 (en) Multi-mode audio codec and CELP coding adapted therefore
CN100365706C (zh) 解码语音的音调增强的方法和装置
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US7529664B2 (en) Signal decomposition of voiced speech for CELP speech coding
RU2419171C2 (ru) Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания
US6502069B1 (en) Method and a device for coding audio signals and a method and a device for decoding a bit stream
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
CN101263553B (zh) 分级编码/解码设备
JP3678519B2 (ja) オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
EP0732686B1 (en) Low-delay code-excited linear-predictive coding of wideband speech at 32kbits/sec
EP2005419A2 (en) Speech post-processing using mdct coefficients
EP1328923B1 (en) Perceptually improved encoding of acoustic signals
US6052659A (en) Nonlinear filter for noise suppression in linear prediction speech processing devices
JP2014531064A (ja) 音声信号符号化方法及び復号化方法とこれを利用する装置
AU2001284606A1 (en) Perceptually improved encoding of acoustic signals
CN101622667B (zh) 用于分层编解码器的后置滤波器
WO2005045808A1 (en) Harmonic noise weighting in digital speech coders

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131030

Termination date: 20191228