CN102177542B - 能量保留多通道音频编码 - Google Patents

能量保留多通道音频编码 Download PDF

Info

Publication number
CN102177542B
CN102177542B CN2009801401393A CN200980140139A CN102177542B CN 102177542 B CN102177542 B CN 102177542B CN 2009801401393 A CN2009801401393 A CN 2009801401393A CN 200980140139 A CN200980140139 A CN 200980140139A CN 102177542 B CN102177542 B CN 102177542B
Authority
CN
China
Prior art keywords
energy
channel
audio
decoding
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801401393A
Other languages
English (en)
Other versions
CN102177542A (zh
Inventor
艾力克·诺维尔
马丁·绍尔斯戴德
安尼斯·泰力布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN102177542A publication Critical patent/CN102177542A/zh
Application granted granted Critical
Publication of CN102177542B publication Critical patent/CN102177542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及音频编码和/或解码技术的技术领域,并从而涉及整体编码过程及相关联的解码步骤。编码步骤涉及对音频输入通道组的信号表示进行操作的至少两个信号编码过程(S1-S3),以及涉及残余编码(S7-S8)。本发明还涉及对音频输入通道的能量进行估计和编码的专用过程(S4-S6)。每个编码过程与对应的解码过程相关联。在整体解码过程中,优选地将来自每个编码过程的解码信号进行组合,使得输出通道在能量和/或质量方面接近输入通道。一般地,组合步骤还适应于一个或多个信号表示的部分或全部的可能丢失,使得用解码器手上的信号对能量和质量进行优化。这样,提高了输出通道的整体质量。

Description

能量保留多通道音频编码
技术领域
本发明涉及音频编码方法和相应的音频解码方法,以及音频编码器和相应的音频解码器。
背景技术
对提供基于分组交换网络的电信服务的需求正在显著地增加,且该需求在当今比以往任何时候都更强。同时,在要发送的媒体内容中存在日益增长的多样性,包括不同的带宽、单声道和立体声声音以及语音和音乐信号。多个标准化组织付出大量努力来定义灵活和有效的用于向用户传输混合内容的解决方案。显著地,两个主要的挑战依然等待着解决方案。首先,所部署的网络技术和用户设备的多样性暗示着:由于传输网络的不同属性,因此向不同用户提供的相同设备可能具有不同的用户感知质量。其次,通信设备必须适应广泛的媒体内容。当前,语音和音乐发送依然属于不同的范式(paradigm),且对于可以向所有类型音频信号提供良好质量的服务,存在要填补的差距。
当今,可扩缩的音视频以及通常的媒体内容编解码是可用的,实际上,MPEG的早期设计指南从开始就是可扩缩的。然而,尽管这些编解码由于它们的功能而具有吸引力,它们缺少在低比特率下运行的效率,这与当前的大量市场的无线设备不相符。随着无线通信的更高渗透,需要更复杂的可扩缩编解码。已经认识到了该事实,且预期新的编解码将要在不远的将来出现。
尽管对自适应服务和可扩缩编解码付出了巨大努力,可扩缩服务将不会出现,除非对传输问题给予更多的关注。因此,除了有效的编解码之外,必须将恰当的网络架构和传输框架认为是完全利用服务传输中的可扩缩性的使能技术。基本上,可以考虑三种场景:
●在端点处的自适应。即,如果必须选择较低的发送速率,则通知发送方,且其执行扩缩或编解码改变。
●在中间网关处的自适应。如果网络的一部分变得阻塞,或具有不同的服务能力,如图1所示的专用网络实体执行服务的译码。在可扩缩编解码的情况下,这可以简单如丢弃或截断媒体帧一样。
●网络中的自适应。如果路由器或无线接口变得阻塞,则就在发生问题的地方通过丢弃或截断分组来执行自适应。这是瞬变问题所需的解决方案,例如对无线链路的严重业务脉冲或通道质量变化的处理。
以下,给出了根据现有技术的语音和音频的可扩缩编解码的概览。还给出对立体声编码概念的总体背景。
可扩缩音频编码
非会话,流传输/下载
总体上,当前的音频研究趋势是提高低比特率的压缩率(提供以32kbps以下比特率的足够良好的立体声质量)。最近的低比特率音频提高是对MPEG中的参数化立体声(PS)工具开发的定案,对3GPP中的混合CELP/和变换编解码扩展AMR-WB(称为AMW-WB+)的标准化。还存在正在进行的对空间音频编码(环绕立体声/5.1内容)的MPEG标准化活动,其中已经选择了第一参考模型(RM0)[4]。
与可扩缩音频编码相关的,MPEG中的近期标准化成就已经导致了对无损扩展工具的可扩缩MPEG4-SLS。MPEG4-SLS一直向核心AAC/BSAC提供了渐进的增强,直至具有低至0.4kbps粒度步长的无损。依然需要定义SLS的音频对象类型(AOT)。在MPEG中,在2005年1月还发布了针对信息的呼叫(CfI)[1],其目标是可扩缩语音和音频编码领域,在CfI中解决的主要问题是可扩缩性、在内容类型间(例如语音和音乐)一致的性能以及在低比特率(<24kbps)的编码质量。之后,放弃了可扩缩部分,现在工作的目标是以各种比特率运行的不具有嵌入式可扩缩性的编解码。
语音编码(会话单声道)
概要
在一般语音压缩中,最近的标准化成就是对3GPP2/VMR-WB编解码的扩展,以支持最大比特率8.55kbps的操作。在ITU-T中,先前已经用以24、32和48kbps提供操作的超宽带(14kHz音频带宽,32kHz采样)能力的两种新的模式来更新了多速率G.722.1音频/视频会议编解码。其它的标准化成就的目标是添加将带宽扩展到48kHz全频带编码的附加模式。最终结果是新的独立编解码G.719,其提供了从32到128kbps的具有16kbps步长的低复杂度全频带编码。
关于可扩缩会话语音编码,主要的标准化成就发生在ITU-T中(工作组3,研究组16)。在2006年5月,对G.729的可扩缩扩展进行了标准化,称作G.729.1。该扩展可从8至32kbps以2kbps的粒度步长自12kbps进行扩缩。G.729.1的主要目标应用是在共享和带宽有限的xDSL-链路上的会话语音,即该扩缩有可能发生在将VoIP分组通过特定受控语音通道(Vc)进行传递的数字住宅网关中。ITU-T最近(2008年9月)还批准了对完全新的可扩缩会话编解码G.718的建议。该编解码包括8.0kbps的核心速率和32kbps的最大速率,同时扩缩步长是12.0、16.0以及24.0kbps。G.718核心是从VMR-WB继承的WB语音编解码,但是也通过上采样至核心采样率处理NB输入信号。当前在ITU-T(工作组3,研究组16,问题23)正在标准化将带来超宽带和立体声能力(32kHz采样/2个通道)的G.718和G.729.1编解码的联合扩展。在2008年7月认证周期结束。
SNR可扩缩性
SNR可扩缩性的原理是随着比特或层的数目的增加而增加SNR。两个先前提到的语音编解码G.729.1和G.718具有该特征。一般地,这通过对来自先前层的编码残余进行逐步重新编码来实现。由于可以通过简单地丢弃上层以对较低的比特率解码,因此该嵌入式分层结构是有吸引力的。然而,当考虑到较高比特率时该嵌入式分层可能不是最优的,且分层编解码通常比相同比特率的固定比特率编解码表现更糟。此处可以提到的其它编解码是SNR可扩缩MPEG4-CELP和G.727(嵌入式ADPCM)。
带宽可扩缩性
还存在可以随着比特数量的增加而增加带宽的编解码,例如G722(子频带ADPCM),还有G.729.1和G.718。G.729.1以针对比特率8和12kbps的级联式CELP编解码进行操作,但是使用带宽扩展以14kbps提供WB信号,以填充从4kHz到7kHz的范围。带宽扩展一般通过频谱折叠或其它映射来创建来自较低频带的激励信号,用频谱包络对其进一步进行增益调整和成形,以仿真较高端的频谱。尽管该解决方案可能听起来很好,扩展的频谱在MSE方面一般不与输入信号匹配。对于同样SNR可扩缩的编解码,一般用在较高层编码的内容来替代以较低比特率使用的带宽扩展。针对G.729.1,是用以子带为基础的编码频谱来逐步替代频谱的情况。G.718展示了相同的特征,并针对速率8、12和16kbps使用从6.4kHz到7.0kHz的带宽扩展。对于速率24和32kbps,禁用带宽扩展,并用编码频谱来替代带宽扩展。除了作为SNR可扩展之外,MPEG4-CELP针对8和16kHz采样的输入信号,指定了带宽可扩缩编码系统。
音频可扩缩性
基本上,可以通过以下方式来实现音频可扩缩性:
●改变信号的量化,即类似SNR的可扩缩性。
●扩展或收紧信号的带宽。
●放弃音频通道(例如由1个通道构成的单声道,2个通道构成的立体声,5个通道构成的环绕立体声)-(空间可扩缩性)。
当前可用的、细粒度的可扩缩音频编解码是AAC-BSAC(高级音频编码-比特片算术编码)。它可以同时用于音频和语音编码,还允许小增量的比特率可扩缩性。
它产生比特流,甚至如果该比特流的特定部分丢失,也可以对该比特流解码。存在对可用于流解码所需的数据量的最小要求。将其称作基础层。剩余的比特组对应于质量增强,因此将它们称为增强层。针对音频信号,AAC-BSAC支持针对音频信号的大约1Kbit/s/通道或更小的增强层。
“为了获得这种细粒度可扩缩性,对量化的谱数据应用比特切片(bit-slicing)方案。首先将量化的谱值分组为频带,这些组中的每一个都包含二进制表示的量化谱值。然后,根据组中比特的重要性和谱内容以片来处理组中的比特。因此,首先处理组中的量化值的所有最高有效位(MSB),且在给定片中从较低到较高频率处理比特。然后使用二进制算术编码方案对这些比特片编码,以获得具有最小冗余的熵编码。”[1]
“在解码器使用增加数目的增强层的情况下,提供更多的最低有效位(LSB)信息对量化谱数据精细化。同时,在较高频带中提供谱数据的比特片增加了音频带宽。这样,可实现准连续的可扩缩性。”[1]
换言之,可以在二维空间中实现可扩缩性。可以通过发送更多的LSB来增强对应于特定信号带宽的质量,或可以通过向接收器提供更更多的比特片来扩展信号的带宽。此外,通过调整可用于解码的通道数目,可扩缩性的第三维度是可用的。例如,可以将环绕立体声音频(5个通道)缩至立体声(2个通道),另一方面,可以将立体声(2个通道)缩至单声道(1个通道),如果例如传输条件使得这种情况是必要的话。
立体声编码或多通道编码
在图2中示意性地示出了使用多通道(即,至少两个输入通道)编码和解码的音频发送系统的一般示例。整体系统基本上包括发送侧的多通道音频编码器100和发送模块10,以及包括接收侧的接收模块20和多通道音频解码器200。
如图3所示,对音频信号的立体声或多通道编码的最简单方式是将不同通道的信号分别编码为单个和独立的信号。然而这意味着,不移除在多个通道中的冗余,且比特率要求将与通道数目成正比。
在立体声FM音频传送中使用的并确保与传统单声道无线接收机兼容的另一种基本方式是传送两个所涉及的通道的和信号(单声道)和差信号(侧)。
现有技术水平音频编解码,如MPEG-1/2层III和MPEG-2/4 AAC利用所谓的联合立体声编码。根据该技术,联合地处理而非分别和单独地处理不同通道的信号。两种最常使用的联合立体声编码技术是“Mid/Side”(M/S)立体声和强度立体声编码,一般将其应用于要编码的立体声或多通道信号的子带上。
M/S立体声编码在以下方面类似于在立体声FM无线电中所述的步骤:对通道子带的和与差信号进行编码并传送,从而利用了通道子带之间的冗余。在例如J.D.Johnson的美国专利No.5285498中描述了基于M/S立体声编码的编码器的结构和操作。
另一方面,强度立体声能够利用立体声的不相干性(irrelevancy)。强度立体声发送(不同子带的)通道的联合强度以及一些位置信息,这些位置信息指示了如何在通道上分布该强度。强度立体声确实仅提供通道的频谱幅度信息,同时不传送相位信息。鉴于此,且由于时域通道间信息(更具体地,通道间时间差)具有主要心理声学相干性,特别是在较低的频率上,因此强度立体声仅可以在高于例如2kHz的高频率处使用。在例如R.Veldhuis等人的欧洲专利0497413中描述了强度立体声编码方法。
在例如C.Faller等人的会议论文″Binaural cue coding applied tostereo and multi-channel audio compression″,112th AES convention,May 2002,Munich(Germany)中描述了最近开发的立体声编码方法。该方法是参数化多通道音频编码方法。这种参数化技术的基本原理是在编码侧,将来自N个通道c1、c2、...、cN的输入信号结合为一个单声道信号m。使用任何常规单声道音频编解码对单声道信号进行音频编码。同时,从描述多通道图像的通道信号中导出参数。对参数编码,并将其与音频比特流一起传送至解码器。解码器首先对单声道信号m’解码,然后基于多通道图像的参数化描述来重新产生通道信号c1’、c2’、...、cN’。
双耳线索编码(binaural cue coding)(BCC[2])方法的原理是其传送编码的单声道信号和所谓的BCC参数。BCC参数包括针对原始多通道输入信号的子带的编码通道间电平差和通道间时间差。解码器通过基于BCC参数来应用对单声道信号的逐子带的电平和相位调整,重新产生不同的通道信号。相对于例如M/S或强度立体声的优点是以低很多的比特率来传送包括时域通道间信息的立体声信息。
在C.E.Holt等人的美国专利No.5,434,948中描述的另一种技术使用了对单声道信号和侧信息编码的相同原理。在该情况下,侧信息由预测器滤波器和可选的残余信号构成。当应用于单声道信号时,由LMS算法估计出的预测器滤波器允许对多通道音频信号的预测。利用该技术,能够实现对多通道音频源的非常低比特率的编码,然而,代价是质量的下降。
图4示出了参数化立体声编码的基本原理,其显示了立体声编解码的布局,包括缩混模块120、核心单声道编解码130、230、比特流复用器/解复用器150、250以及参数化立体声侧信息编码器/解码器140、240。缩混将多通道(在该情况下是立体声)信号变换为单声道信号。参数化立体声编解码的目的是给定重构的单声道信号和附加的立体声参数,在解码器处再现立体声信号。
在国际专利申请公开号WO 2006/091139中,描述了一种用于多通道编码的自适应比特分配技术。该技术利用至少两个编码器,其中第二编码器是多级编码器。基于多通道音频信号特性,在第二多级编码器的不同级中自适应地分配编码比特。
在[3]中解释了MPEG参数化立体声中使用的下混频技术。此处,用扩缩因子来补偿缩混步骤中的来自通道消除的潜在能量损失。
MPEG环绕立体声[4][5]将音频编码分为两部分:一个预测性/参数化部分称作干分量以及非可预测/扩散部分称作湿分量。使用通道预测从已经分别编码和解码的缩混信号中获得干分量。湿分量可以是以下三项之一:从预测和去相关滤波器中产生的合成扩散声音信号、预测部分的增益调整版本或简单地是编码的预测残余。
发明内容
尽管已经在音频编解码领域中做出了很多进步,依然需要提高的音频编解码技术。
一般目的是提供改进的音频编码和/或解码技术。
特定目的是提供改进的音频编码方法。
特定目的是还提供改进的音频解码方法。
另一个特定目的是提供改进的音频编码器设备。
另一个特定目的是提供改进的音频解码器设备。
由所附专利权利要求限定的本发明来满足这些和其它目的。
在第一方面,提供了一种基于对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作的整体编码过程的音频编码方法。根据所述音频编码方法,执行第一编码过程,用于对所述音频输入通道组的包括缩混信号的第一信号表示进行编码。执行与所述第一编码过程相关的本地合成,以产生包括所述第一编码过程的编码误差的表示在内的本地解码的缩混信号。使用至少所述本地解码的缩混信号作为输入,执行第二编码过程,用于对所述音频输入通道组的第二表示进行编码。估计所述音频输入通道的输入通道能量,以及基于所述音频输入通道的估计出的输入通道能量,产生所述音频输入通道的至少一个能量表示。然后对所产生的能量表示进行编码。通过至少包括所述第二编码过程在内的所述编码过程中的至少一个,产生残余误差信号,以及在第三编码过程中执行对所述残余误差信号的残余编码。
这样,可以以输出通道和输入通道在能量和/或质量方面相匹配的可能性,实现对音频输入的有效整体编码。
还提供了一种对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作的相应的音频编码器设备。基本上,所述音频编码器设备包括第一编码器,用于在第一编码过程中对所述音频输入通道组的包括缩混信号的第一表示进行编码;本地合成器,用于执行与所述第一编码过程相关的本地合成,以产生包括所述第一编码过程的编码误差的表示在内的本地解码的缩混信号;以及第二编码器,用于使用至少所述本地解码的缩混信号作为输入,在第二编码过程中对所述音频输入通道组的第二表示编码。所述音频编码器设备还包括能量估计器,用于估计所述音频输入通道的输入通道能量;能量表示产生器,用于基于所述音频输入通道的估计出的输入通道能量,产生所述音频输入通道的至少一个能量表示;以及能量表示编码器,用于对所述能量表示进行编码。所述音频编码器设备还包括残余产生器,用于通过至少包括所述第二编码过程在内的所述编码过程中的至少一个,产生残余误差信号;以及残余编码器,用于在第三编码过程中执行对所述残余误差信号的残余进行编码。
在第二方面,提供了一种基于对呼入比特流进行操作以重构具有至少两个通道的多通道音频信号的整体解码过程的音频解码方法。根据所述音频解码方法,执行第一解码过程,用于基于所述呼入比特流的第一部分,产生包括解码的缩混信号的至少一个第一解码通道表示。执行第二解码过程,以基于所述解码的缩混信号的估计能量以及表示音频输入信道的至少一个能量表示的所述呼入比特流的第二部分,产生至少一个第二解码通道表示。基于所述解码的缩混信号的估计能量和表示音频输入通道的至少一个能量表示的所述呼入比特流的所述第二部分,估计音频输入通道的输入通道能量。在第三解码过程中,基于表示残余误差信号信息的所述呼入比特流的第三部分,执行残余解码,以产生残余误差信号。将所述残余误差信号和来自至少包括所述第二解码过程的所述第一和第二解码过程中的至少一个解码过程的解码通道表示进行组合,以及至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生所述多通道音频信号。
这样,可以有效地重构多通道音频信号,使得输出通道在能量和/或质量方面接近于输入通道。
还提供了一种对呼入比特流进行操作以重构具有至少两个通道的多通道音频信号的相应的一种音频解码器设备。基本上,所述音频解码器设备包括第一解码器,用于基于所述呼入比特流的第一部分,产生包括解码的缩混信号的至少一个第一解码通道表示;以及第二解码器,用于基于所述解码的缩混信号的估计能量以及表示音频输入通道的至少一个能量表示的所述呼入比特流的第二部分,产生至少一个第二解码通道表示。所述音频解码器设备还包括估计器,用于基于所述解码的缩混信号的估计能量和表示音频输入通道的至少一个能量表示的所述呼入比特流的所述第二部分,估计音频输入通道的输入通道能量。所述音频解码器设备还包括残余解码器,用于在第三解码过程中,基于所述呼入比特流的表示残余误差信号信息的第三部分,执行残余解码以产生残余误差信号。所述音频解码器设备还包括:装置,用于将所述残余误差信号和来自至少包括所述第二解码过程的所述第一和第二解码过程中的至少一个解码过程的解码通道表示进行组合,以及用于至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生所述多通道音频信号。
当阅读本发明实施例的以下描述时,将会理解本发明提供的其它优点。
附图说明
结合附图,通过以下描述将最佳地理解本发明及其其它目的和优点,其中:
图1示出了用于媒体自适应的专用网络实体的示例。
图2是示出了使用多通道编码和解码的音频传送系统的一般示例的示意框图。
图3是示出了如何将不同通道的信号分别编码为单个和独立信号的示意图。
图4是示出了参数化立体声编码的基本原理的示意框图。
图5是使用参数化预测和预测/参数化残余编码方案的一般立体声编码器的示意框图。
图6是通道电平差(CLD)和通道电平和(CLS)之间的依赖性的散布图。
图7以流程图的形式示出了本发明的编码器操作的示例。该概览对于实施例A、B和C是有效的。
图8是描述了实施例A的解码器中的立体声合成链的示例的流程图。
图9A是描述了实施例A的编码器和解码器的操作的示例的示意框图。
图9B示出了对于实施例B有效的编码器和解码器的操作的示例。
图9C示出了对于实施例C有效的编码器和解码器的操作的示例。
图10示出了对于实施例B和C有效的解码器立体声合成链的示例。
图11是示出了通道预测因子(筛选(panning)因子)相对于归一化的互相关系数如何变化的图。
图12以投票的柱状图的形式示出了来自对本发明的AB测试评估的结果。
图13以流程图形式示出了多通道编码器的整个编码器操作的示例。
图14示出了编码器和解码器过程的可能的多通道实施例,其中,在多通道预测之前执行对接收信号的能量测量。
图15是示出了当在多通道预测之前估计解码信号分量的能量时,整体解码器操作的示例的流程图。
图16示出了编码器和解码器过程的可能的多通道实施例,其中,在多通道预测之后执行对接收信号的能量测量。
图17是示出了当在多通道预测之后估计解码信号分量的能量时,整体解码器操作的示例的流程图。
图18是示出了用于音频编码的方法的示例的示意流程图。
图19是示出了用于音频解码的方法的示例的示意流程图。
图20是示出了音频编码器设备的示例的示意框图。
图21是示出了音频解码器设备的示例的示意框图。
具体实施方式
本发明一般涉及音频应用中的多通道(即,至少两个通道)编码/解码技术,并且具体地涉及音频传送系统和/或音频存储中的立体声编码/解码。可能的音频应用的示例包括电话会议系统、移动通信系统中的立体声音频传送、用于提供音频服务的各种系统、以及多通道家庭影院系统。
本发明可以例如具体地应用于未来的标准中,如ITU-TWP3/SG16/Q23 SWB/G.729.1和G.718的立体声扩展,但是当然不限于这些标准。
以对多通道和立体声编解码技术的一些概念的概览开始将是有益的。
在例如立体声编解码中,一般在多级中执行立体声编码和解码。图5中示出了该过程的概览。首先,从左和右通道L、R中形成缩混单声道信号M。将单声道信号馈送至单声道编码器,从该单声道编码器中提取本地合成
Figure BPA00001347160100121
使用信号M、
Figure BPA00001347160100122
以及[L R]T,参数化立体声编码器产生输入信号的第一近似
Figure BPA00001347160100123
在第一级中,计算预测残余,并对其编码,以提供进一步的增强。
通道缩混
缩混的标准方式是简单地将信号相加在一起:
m ( n ) = l ( n ) + r ( n ) 2 - - - ( 1 )
直接对由n做索引的时域信号应用该类型的缩混。总体上,缩混是将输入通道的数目p减少至较小的缩混通道的数目q的过程。缩混可以是在时域或频域中执行的输入通道的任何线性或非线性组合。可以调整缩混适合于信号属性。
其它类型的缩混使用左和右通道的任意组合,且该组合还可以是依赖于频率的。
在本发明的示例实施例中,假定在频带或变换系数组上完成立体声编码和解码,这假定了在频带中完成对通道的处理。可以将具有频率依赖系数的任意缩混写为:
Mb(k)=αbLb(k)+βbRb(k)                (2)
此处,索引b表示当前频带,且k将频带中的采样编索引。在不脱离本发明的精神的情况下,可以使用利用自适应和时间变化加权系数αb及βb的更精细的缩混方案。
一旦已经产生了单声道通道,则将其馈送至较低层的单声道编解码处。然后立体声编码器使用本地解码的单声道信号来产生立体声信号。
通道预测
立体声信号的两个通道通常非常相似,使得在立体声编码中应用预测技术很有用。由于在解码器处解码单声道通道将可用,因此预测的目的是通过该信号以及已传送的量化立体声参数
Figure BPA00001347160100132
来重构左和右通道对。
L ^ R ^ = f ( M ^ , Ψ ^ ) - - - ( 3 )
在编码器处从原始输入信号中减去预测将形成误差信号对:
ϵ L ϵ R = L R - L ^ R ^ - - - ( 4 )
从MMSE的角度,通过最小化误差向量[εL εR]T来获得最优预测。这可以通过使用时间变化的FIR滤波器在时域中解决:
l ^ ( n ) r ^ ( n ) = Σ i = 0 N - 1 h L , t m ^ ( n - i ) Σ i = 0 N - 1 h R , t m ^ ( n - i ) - - - ( 5 )
可以将频域中的等价操作写为:
L ^ b ( k ) R ^ b ( k ) = H L ( b , k ) M ^ b ( k ) H R ( b , k ) M ^ b ( k ) - - - ( 6 )
其中HL(b,k)和HR(b,k)是滤波器hL和hR的对频带b的系数k的频率响应,且
Figure BPA00001347160100137
Figure BPA00001347160100138
是时间信号
Figure BPA00001347160100139
Figure BPA000013471601001310
的变换对应部分。
频域处理的一个优点是给出了对与立体声感知[2]相关的相位的明确控制,在较低频率区域中,相位信息是高度相关的,但是可能在高频中将其丢弃。频域处理还可以适应子带划分,该子带划分给出了感知相关的频率解析度(resolution)。频域处理的缺陷是时间/频率变换的复杂度和延迟要求。在这些参数很关键的情况下,期望时域方案。
对于根据本发明的该示例实施例的目标编解码,编解码的顶层是MDCT域中的SNR增强层。对MDCT的延迟要求已经在较低层中解决,且可以重使用处理的该部分。为此,针对立体声处理选择MDCT域。尽管适合于变换编码,在立体声信号处理中具有一些缺陷,因为其不给出明确的相位控制。此外,MDCT的时间混叠属性可能给出预料之外的结果,因为相邻帧是内在相关的。另一方面,依然给出了对频率相关比特分配的良好灵活性。对于准确的相位表示,可以使用MDCT和MDST的组合。然而,附加的MDST信号表示将增加总编解码比特率和处理负载。在一些情况下,可以通过使用来自多个帧的MDCT频谱,从MDCT近似MDST。
对于立体声处理,优选地将频率频谱划分为处理频带。在AAC参数化立体声中,选择处理频带以匹配人类听觉感知的关键带宽。因为可用的比特率很低,所选择的频带较少且较宽,但是带宽依然与关键频带成比例。令频带为b,则可以将预测写为:
L ^ b ′ ( k , m ) R ^ b ′ ( k , m ) = w b ( m ) M ^ b ( k , m ) = w b , L ( m ) w b , R ( m ) M ^ b ( k , m ) - - - ( 7 )
此处,k代表频带b中的MDCT系数的索引,且m代表时域帧索引。此处,令
Figure BPA00001347160100142
表示用未量化参数wb(m)获得的预测。
在均方差方面接近[Lb Rb]T的wb(m)的解是:
w b ( m ) = E [ L b ( m ) M ^ b * ( m ) ] E [ R b ( m ) M ^ b * ( m ) ] / E [ M ^ b ( m ) M ^ b * ( m ) ] - - - ( 8 )
此处,E[·]代表求平均运算符,且将其定义为在预定时间频率区域上求平均的任意时间频率变量的示例。例如:
E [ X b ( m ) ] = 1 ( 2 N Time + 1 ) · BW ( b ) Σ i = - N Time N Time Σ k ∈ Band ( b ) X b ( k , m - i ) - - - ( 9 )
其中用具有大小BW(b)的集合Band(b)的MDCT区间来表示每个频带b。注意,频带也可以重叠。
在预测参数的推导中使用编码单声道信号
Figure BPA00001347160100151
包括计算中的编码误差。尽管从MMSE的角度可感知,这会引起立体声图像中的不稳定,其在感知上是令人烦躁的。为此,感知参数基于未处理的单声道信号,从预测中排除了单声道误差。
w b ′ ( m ) = w b , L ′ ( m ) w b , R ′ ( m ) = E [ L b ( m ) M b * ( m ) ] E [ R b ( m ) M b * ( m ) ] / E [ M b ( m ) M b * ( m ) ] - - - ( 10 )
使用缩混公式M=(L+R)/2,可以展开该表达式,此处对于左通道:
w b , L ′ = E [ L b ( m ) M b * ( m ) ] E [ M b ( m ) M b * ( m ) ] = E [ L b ( m ) ( L b ( m ) ( L b ( m ) + R b ( m ) ) * ] 2 E [ M b ( m ) M b * ( m ) ] - - - ( 11 )
由于信号L、R和M在MDCT域中,它们是实数值的且可以省略复数共轭(*)。
w b , L ′ = E [ L b ( m ) L b ( m ) ] + E [ L b ( m ) R b ( m ) ) ] 2 E [ M b ( m ) M b ( m ) ] - - - ( 12 )
类似地,可以将右通道预测器系数写为
w b , R ′ = E [ R b ( m ) R b ( m ) ] + E [ L b ( m ) R b ( m ) ) ] 2 E [ M b ( m ) M b ( m ) ] - - - ( 13 )
表达式E[Lb(m)Lb(m)]和E[Rb(m)Rb(m)]分别对应于左和右通道的能量,且E[Lb(m)Rb(m))]表示频带b中的互相关。此外,可以导出预测器系数的和
w b , L ′ + w b , R ′ = E [ L b ( m ) L b ( m ) ] + E [ L b ( m ) R b ( m ) ) ] 2 E [ M b ( m ) M b ( m ) ] +
E [ L b ( m ) L b ( m ) ] + E [ L b ( m ) R b ( m ) ) ] 2 E [ M b ( m ) M b ( m ) ] =
E [ L b ( m ) L b ( m ) ] + 2 E [ L b ( m ) R b ( m ) ) ] + E [ R b ( m ) R b ( m ) ) ] 2 E [ M b ( m ) M b ( m ) ] =
4 E [ M b ( m ) M b ( m ) ] 2 E [ M b ( m ) M b ( m ) ] = 2 - - - ( 14 )
通道预测器系数的一般范围是[0,2],但是对于强的负互相关(negative cross-correlation),该值可以超过这些界限。公式(14)中的关系示出了MMSE通道预测器是相连的,且可以将其视为将子带内容筛选到左或右通道上的单个参数。此处,还可以将通道预测器称作子带筛选算法。
由于立体声或多通道音频信号的空间音频属性可能随着时间改变,优选地用可变比特率方案对空间参数进行编码。对于不变的条件,参数比特率可以降至最小值,且可以在编解码的部分中使用节约的比特,例如,SNR增强。
可能需要以下述方式来表示通道预测器和输入通道能量:使合成通道的能量随残余编码的变化度而保持稳定。在示例实施例中进一步解释细节。
残余信号编码
预测的立体声通道和输入通道之差将形成预测残余。
ϵ L ϵ R = L R - L ^ R ^ - - - ( 15 )
残余信号包含输入通道中不与单声道缩混通道相关的部分,且因此不能用预测来建模。此外,预测残余取决于预测器函数的精度,因为较低的预测器解析度将可能给出较大的误差。最终,由于预测基于编码的单声道缩混信号,单声道编码器的缺陷也将添加到残余误差上。
如国际专利申请PCT/SE2008/000272中所述,残余误差信号的分量示出了相关性,且当对误差进行编码时,利用该相关性是有利的,将该国际专利申请一并引入作为参考。
还可以应用残余编码的其它手段。预测残余通常表示不能预测的扩散声音域。从感知的角度上,通道间相关(ICC)[2][3][4]是重要的。可以使用解码缩混信号或预测/上混频信号以及去相关滤波器的系统一起来仿真该属性。本发明的原理可应用于预测残余的任何表示。
问题分析和实施例的非限制性示例
本发明已经对现有技术水平的音频编解码进行了完全的分析,以获取对这种编解码的功能和性能的一些有用的见识。在多通道多级编码器中,信号将一般由与编码器级相对应的不同分量构成。由于有限的比特率和改变的空间属性以及传送条件,解码分量的质量有可能随着时间变化。如果资源过于匮乏而不能表示信号,可以观察能量损失,当能量损失在时间上变化时,将得到不稳定的立体声图像。
在例如MPEG PS[3]中使用的缩混步骤补偿由于通道消除而导致的缩混中的能量损失,但是未给出对合成通道能量的明确控制也未给出预测因子。
MPEG环绕立体声[4][5]中的方案例如处理了预测残余(湿分量)以及参数化部分(干分量)的存在性。湿分量可以是1)增益调整的参数化部分,2)编码的预测残余,或3)通过去相关滤波器的参数化部分。可以将3)中的解视为预测残余的参数化表示。然而,该系统不允许这三者以变化的比例共存,且因此不提供对该上下文中的合成通道能量的内建控制。
为了更好的理解本发明,通过引入参考示例流程图18和19的音频编码/解码技术的创新类的概念是有用的。
图18是示出了用于音频编码的方法的示例的示意流程图。示例音频编码方法基于对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作的整体编码过程。在步骤S1中,执行第一编码过程,用于对所述音频输入通道组的包括缩混信号在内的第一信号表示进行编码。在步骤S2,执行与第一编码过程相关的本地合成,以产生包括第一编码过程的编码误差的表示在内的本地解码的缩混信号。在步骤S3,使用至少本地解码的缩混信号作为输入,执行第二编码过程,用于对所考察的音频输入通道组的第二表示进行编码。在步骤S4,估计音频输入通道的输入通道能量。在步骤S5,基于所述音频输入通道的所估计出的输入通道能量,产生音频输入通道至少一个能量表示。在步骤S6,对所产生的能量表示进行编码。在步骤S7,通过包括至少第二编码过程的所述编码过程中的至少一个,产生残余误差信号。在步骤S8,在第三编码过程中执行对残余误差信号的残余编码。
这样,获得了对音频输入通道的有效整体编码。音频输入通道的能量表示使解码侧的输出通道的能量能够和估计出的输入通道能量相匹配。优选地,将输出通道和输入通道同时在能量和质量方面加以匹配。
如稍后更详细描述地,在示例实施例中,在第二编码过程中执行产生至少一个能量表示并对能量表示进行编码的步骤。
一般地,对相对大量的音频帧中的每一帧,执行整体编码过程。然而应当理解,可以针对帧的可选子集,以及在一个或多个可选频带中,执行整体编码过程的一部分,如对音频输入通道能量的估计和编码(通过适合的能量表示)。实际上,这意味着例如可以对至少一个频带中多个帧中的每一帧,执行产生至少一个能量表示并对能量表示进行编码的步骤。
在具体实施例中,第一编码过程是缩混编码过程,第二编码过程基于通道预测产生一个或多个预测通道,因而残余误差信号包括残余预测误差信号。在该示例上下文中,特别有利地,在第二基于预测的编码过程中,对估计出的输入通道能量和通道预测的预测参数进行联合表示和编码。
此外,在与基于预测的编码和残余编码相结合的缩混编码的示例上下文中,存在能量表示和能量编码的很多不同的实现,每一个实现具有其特定的优点。以下,在下表中简要地总结了三种不同的示例实现,并稍后更详细地描述它们:
示例A
能量表示:
●确定通道能量电平差;
●确定通道能量电平和;以及
●基于通道能量电平和、以及来自与第一编码过程相关的本地合成的本地解码的缩混信号的能量,确定delta能量度量。
能量编码:
●量化通道能量电平差;以及
●量化delta能量度量。
通道预测:
●基于未量化的通道预测参数。
示例B
能量表示:
●确定通道能量电平差;
●确定通道能量电平和;
●基于通道能量电平和以及来自与第一编码过程相关的本地合成的本地解码的缩混信号的能量,确定delta能量度量;以及
●基于delta能量度量和由本地解码的缩混信号的能量所归一化的预测通道的能量,确定归一化能量补偿参数;
能量编码:
●量化通道能量电平差;以及
●量化归一化能量补偿参数。
通道预测:
●基于从量化的通道能量电平差导出的量化通道预测参数。
示例C
能量表示:
●确定通道能量电平差;以及
●确定能量归一化输入通道互相关参数。
能量编码:
●量化通道能量电平差;以及
●量化能量归一化输入通道互相关参数。
通道预测:
●基于从量化的通道能量电平差以及量化的能量归一化输入通道互相关参数导出的量化通道预测参数。
图19是示出了用于音频解码的方法的示例的示意流程图。示例音频解码方法基于对呼入比特流进行操作以重构具有至少两个通道的多通道音频信号的整体解码过程。在步骤S11中,执行第一解码过程,以基于所述呼入比特流的第一部分,产生包括解码缩混信号的至少一个第一解码通道表示。在步骤S12中,执行第二解码过程,以基于解码缩混信号的估计能量以及表示音频输入通道的至少一个能量表示的呼入比特流的第二部分,产生至少一个第二解码通道表示。在步骤S13中,基于解码缩混信号的估计能量和表示音频输入通道的至少一个能量表示的呼入比特流的第二部分,估计音频输入通道的输入通道能量。在步骤S14中,在第三解码过程中,基于表示残余误差信号信息的呼入比特流的第三部分,执行残余解码以产生残余误差信号。在步骤S15中,将残余误差信号和来自第一和第二解码过程中的至少包括第二解码过程的至少一个的解码通道表示进行组合,以及至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生多通道音频信号。
这意味着,能够有效地重构多通道音频信号,使输出通道在能量和/或质量方面接近输入通道。具体地,可以执行通道能量补偿,以将多通道音频信号的输出通道的能量与估计出的输入通道能量相匹配。然而优选地,将多通道音频信号的输出通道与编码侧的相应输入通道在能量和质量方面相匹配,其中,可以用比较低质量信号的比例大的比例来表示较高质量的信号,以提高输出通道的整体质量。
在示例实施例中,当产生一个或多个第二解码通道表示时,将通道能量补偿集成到第二解码过程中。在该上下文中,估计解码的缩混信号的能量和残余误差信号的能量,并基于解码的缩混信号的能量和残余误差信号的能量来执行第二解码过程是有利的。
在备选示例实施例中,在组合残余误差信号和解码通道表示之后执行通道能量补偿。在该上下文中,将残余误差信号和来自第一和第二解码过程中至少一个的解码通道表示组合为多通道合成,然后估计组合后的多通道合成的能量。接下来,基于组合后的多通道合成的估计能量和估计出的输入通道能量来执行通道能量补偿。
在具体示例中,产生至少一个第二解码通道表示的第二解码过程包括合成预测通道,且残余解码包括产生残余预测误差信号。在该示例上下文中,产生至少一个第二解码通道表示的第二解码过程包括从呼入比特流的第二部分导出音频输入通道的一个或多个能量表示,至少部分地基于该能量表示,估计通道预测参数,然后基于解码缩混信号和估计出的通道预测参数,合成预测通道。
下面,在下表中将简要地总结三种不同的示例实现,并稍后更详细地描述它们。以下解码示例A-C总体上与先前描述的编码示例A-C相对应。
示例A
导出能量表示:
●从呼入比特流的第二部分导出通道能量电平差和delta能量度量。
估计输入通道能量:
●基于解码缩混信号的估计能量,以及通道能量电平差和delta能量度量;
估计通道预测参数:
●基于估计出的输入通道能量、解码的缩混信号的估计能量以及残余误差信号的估计能量。
示例B
导出能量表示:
●从呼入比特流的第二部分导出通道能量电平差和归一化能量补偿参数。
估计输入通道能量:
●基于解码缩混信号的估计能量,以及通道能量电平差和归一化能量补偿参数;
估计通道预测参数:
●基于通道能量电平差。
合成预测通道:
●基于解码缩混信号和估计出的通道预测参数。
组合:
●将残余误差信号与合成的预测通道组合为组合后的多通道合成。
通道能量补偿(在组合之后):
●估计组合后的多通道合成的能量,
●基于估计出的输入通道能量和组合后的多通道合成的估计能量,确定能量修正因子;
●向组合后的多通道合成应用能量修正因子,以产生多通道音频信号。
示例C
导出能量表示:
●从呼入比特流的第二部分导出通道能量电平差和能量归一化输入通道互相关参数。
估计输入通道能量:
●基于解码缩混信号的估计能量,以及通道能量电平差和能量归一化输入通道互相关参数;
估计通道预测参数:
●基于通道能量电平差和能量归一化输入通道互相关参数。
合成预测通道:
●基于解码缩混信号和估计出的通道预测参数。
组合:
●将残余误差信号与合成的预测通道组合为组合后的多通道合成。
通道能量补偿(在组合之后):
●估计组合后的多通道合成的能量;
●基于估计出的输入通道能量和组合后的多通道合成的估计能量,确定能量修正因子;
●向组合后的多通道合成应用能量修正因子,以产生多通道音频信号。
从结构的角度,本发明涉及音频编码器设备和相应的音频解码器设备,如将通过参考示例框图20和21来描述的。
图20是示出了音频编码器设备的示例的示意框图。音频编码器设备100被配置为对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作。
基本的编码器设备100包括第一编码器130,第二编码器140、能量估计器142、能量表示产生器144和能量表示编码器146、残余产生器155和残余编码器160。一般由复用器150将最终编码参数进行收集,以向解码侧传输。
第一编码器130被配置为在第一编码过程中对音频输入通道的包括缩混信号的第一表示进行编码。缩混单元120可以用于将适合的输入通道组缩混为缩混信号。可以将缩混单元120认为是基本编码器设备100的集成部分,或备选地将其视为“外部”支持单元。
此外,本地合成器132被配置为用于执行与第一编码过程相关的本地合成,以产生包括第一编码过程的编码误差的表示在内的本地解码的缩混信号。优选地将本地合成器132集成在第一编码器中,但是备选地可以将其提供为在编码器侧实现的与第一编码器相关的单独的解码器。
第二编码器140被配置为用于使用至少本地解码的缩混信号作为输入,在第二编码过程中对所考察的音频输入通道的第二表示进行编码。
能量估计器142被配置为用于估计所考察的音频输入通道的输入通道能量,以及能量表示产生器144被配置为用于基于音频输入通道的估计出的输入通道能量,产生音频输入通道的至少一个能量表示。能量表示编码器146被配置为用于对能量表示进行编码。这样,可以在编码器侧对输入通道能量进行估计和编码。
可以将能量估计器142实现为第二编码器140的集成部分,还可以将其配置为在第二编码器之外的专用单元。在示例实施例中,在第二编码器140中方便地实现能量表示产生器144和能量表示编码器146,如稍后更详细描述的。在其它实施例中,可以在第二编码器之外提供能量表示处理。
残余产生器155被配置为用于通过至少包括第二编码过程在内的编码过程中的至少一个,产生残余误差信号;以及残余编码器160被配置为用于在第三编码过程中执行对残余误差信号的残余编码。
由能量表示产生器144产生的且随后编码的能量表示使得在解码侧将输出通道的能量能够与估计出的输入通道能量匹配。备选地,该能量表示使得输出通道与输入通道在能量和质量方面能够匹配。
优选地,能量表示产生器144和能量表示编码器146被配置为对至少一个频带中多个帧中的每一帧产生能量表示,并对能量表示进行编码。能量估计器142可以被配置为用于对输入通道能量进行连续地估计,或备选地仅用于与能量表示产生器144和编码器146的活动相适应的帧和/或频带的所选集合。
在特定示例中,第一编码器130是缩混编码器,第二编码器140是参数化编码器,被配置为基于用于产生一个或多个预测通道的通道预测来进行操作,且残余产生器155被配置为用于产生残余预测误差信号。在该示例上下文中,第二编码器140被优选地配置为用于对估计出的输入通道能量以及通道预测参数进行联合地表示和编码。
对于与基于预测的编码和残余编码组合的缩混编码的示例上下文,下面将总结三种不同的示例实现。稍后将给出其它细节。
示例A
在该示例中,能量表示产生器144包括:用于确定通道能量电平差的确定器;用于基于通道能量电平和的确定器;以及用于基于通道能量电平和、以及来自与第一编码过程相关的本地合成的本地解码的缩混信号的能量,确定所谓的delta能量度量的确定器。能量表示编码器146包括用于量化通道能量电平差的量化器,以及用于量化delta能量度量的量化器。
第二编码器140基于未量化的通道预测参数来执行通道预测可以是有利的。
示例B
在该示例中,能量表示产生器144包括:用于确定通道能量电平差的确定器;用于基于通道能量电平和的确定器;以及用于基于通道能量电平和、以及来自与第一编码过程相关的本地合成的本地解码的缩混信号的能量,确定delta能量度量的确定器;以及用于基于delta能量度量和由本地解码的缩混信号的能量归一化的预测通道的能量,确定所谓的归一化能量补偿参数的确定器。能量表示编码器146包括用于量化通道能量电平差的量化器,以及用于量化归一化能量补偿参数的量化器。
例如,第二编码器140可以被配置为用于基于从量化的通道能量电平差导出的量化通道预测参数来执行通道预测。
示例C
在该示例中,能量表示产生器144包括:用于确定通道能量电平差的确定器,以及用于确定能量归一化输入通道互相关参数的确定器。能量表示编码器146包括:用于量化通道能量电平差的量化器,以及用于量化能量归一化输入通道互相关参数的量化器。
例如,第二编码器140可以被配置为基于从量化通道能量电平差以及量化能量归一化输入通道互相关参数导出的量化通道预测参数,来执行通道预测。
图21是示出了音频解码器设备的示例的示意框图。音频解码器设备200被配置为对呼入比特流进行操作,以重构具有至少两个通道的多通道音频信号。一般由比特流解复用器250从编码侧接收呼入比特流,比特流解复用器250将呼入比特流划分为整个呼入比特流的相关子集或部分。
基本音频解码器设备200包括第一解码器230、第二解码器240、以及输入通道能量估计器242、残余解码器260、以及用于组合和通道能量补偿的装置270。
第一解码器230被配置为用于基于呼入比特流的第一部分,产生包括解码缩混信号的一个或多个第一解码通道表示。
第二解码器240被配置为用于基于解码缩混信号的估计能量以及表示音频输入通道的至少一个能量表示的呼入比特流的第二部分,产生一个或多个第二解码通道表示。
输入通道能量估计器242被配置为用于基于解码的缩混信号的估计能量和表示音频输入通道的至少一个能量表示的呼入比特流的第二部分,估计音频输入通道的输入通道能量。
残余解码器260被配置为用于在第三解码过程中,基于表示残余误差信号信息的呼入比特流的第三部分,执行残余解码以产生残余误差信号。
组合和通道能量补偿装置270被配置为用于将残余误差信号和来自至少包括第二解码器/解码过程的第一和第二解码器/解码过程中的至少一个的解码通道表示进行组合,以及用于至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生多通道音频信号。
例如,用于组合和执行通道能量补偿的装置270可以被配置为将多通道音频信号的输出通道的能量与估计出的输入通道能量匹配。然而优选地,用于组合和执行通道能量补偿的装置270被配置为将输出通道和编码侧的对应输入通道在能量和质量方面进行匹配,其中,用比较低质量信号的比例大的比例来表示较高质量信号,以提高输出通道的整体质量。
如将通过稍后描述的示例实施例所理解的,可以用若干不同方式来实现用于组合和通道能量补偿的整体结构。
例如,可以将通道能量补偿集成到第二解码器中。在该示例情况下,第二解码器240优选地被配置为基于解码的缩混信号的能量和残余误差信号的能量进行操作,暗示着音频解码器设备200还包括用于估计解码的缩混信号的能量和残余误差信号的能量的装置。
备选地,解码器设备包括用于将残余误差信号和相关的解码通道表示组合为组合后的多通道合成的组合器,以及用于对组合后的多通道合成应用通道能量补偿以产生多通道音频信号的通道能量补偿器。在该示例情况下,音频解码器设备优选地包括用于估计组合后的多通道合成的能量的估计器,以及通道能量补偿器被配置为用于基于组合后的多通道合成的估计能量和估计出的输入通道能量,应用通道能量补偿。
在特定示例中,第一解码器230是缩混解码器,第二解码器240是参数化解码器,被配置为用于合成预测通道,以及残余解码器260被配置为用于产生残余预测误差信号。在该示例上下文中,第二解码器240可以包括:导出器241(或可以被配置为):用于从呼入比特流的第二部分中导出音频输入通道的能量表示;用于至少部分地基于能量表示来估计通道预测参数的估计器;以及用于基于解码的缩混信号和估计出的通道预测参数来合成预测通道的合成器。
对于与基于预测的解码和残余解码组合的缩混解码的示例上下文,下面将总结三种不同的示例实现。稍后给出其它细节。
示例A
在该示例中,导出器241被配置为用于从呼入比特流的第二部分中导出通道能量电平差和delta能量度量。用于估计输入通道能量的估计器242被配置为用于基于解码缩混信号的估计能量、通道能量电平差和delta能量度量,估计输入通道能量。用于估计通道预测参数的估计器被优选地配置为基于估计出的输入通道能量、解码缩混信号的估计能量以及残余误差信号的估计能量,来估计通道预测参数。
示例B
在该示例中,导出器241被配置为用于从所述呼入比特流的第二部分中导出通道能量电平差和归一化能量补偿参数。用于估计输入通道能量的估计器242被配置为用于基于解码缩混信号的估计能量、以及通道能量电平差和归一化能量补偿参数,估计输入通道能量。用于估计通道预测参数的估计器被优选地配置为用于基于通道能量电平差来估计通道预测参数,以及用于合成预测通道的合成器被配置为用于基于解码缩混信号和估计出的通道预测参数来合成预测通道。在该示例中,用于组合和用于执行通道能量补偿的装置270包括用于将残余误差信号和合成预测通道组合为组合后的多通道合成的组合器、以及通道能量补偿器。通道能量补偿器包括:用于估计组合后的多通道合成的能量的估计器;用于基于估计出的输入通道能量和组合后的多通道合成的估计能量来确定能量修正因子的确定器;以及用于对组合后的多通道合成应用能量修正因子以产生多通道音频信号的能量修正器。
示例C
在该示例中,导出器241被配置为用于从呼入比特流的第二部分中导出通道能量电平差和能量归一化输入通道互相关参数。用于估计输入通道能量的估计器242被配置为用于基于解码缩混信号的估计能量以及通道能量电平差和能量归一化输入通道互相关参数,估计输入通道能量。用于估计通道预测参数的估计器优选地被配置为基于通道能量电平差和能量归一化输入通道互相关参数来估计通道预测参数。用于合成预测通道的合成器被配置为基于解码缩混信号和估计出的通道预测参数来合成预测通道。在该示例中,用于组合和用于执行通道能量补偿的装置270包括用于将残余误差信号和合成预测通道组合为组合后的多通道合成的组合器、以及通道能量补偿器。在该示例中,通道能量补偿器包括:用于估计组合后的多通道合成的能量的估计器;用于基于估计出的输入通道能量和组合后的多通道合成的估计能量来确定能量修正因子的确定器;以及用于对组合后的多通道合成应用能量修正因子以产生多通道音频信号的能量修正器。
在特定示例中,本发明的目的是解决以下两个问题中至少一个,优选地同时解决这两个问题:获得最优的通道预测并维持对输出通道能量的明确控制。信号的分量可以示出在能量和质量方面随着时间的单独变化,使得简单的信号分量相加将给出在能量和整体质量方面的不稳定印象。能量和质量变化可以具有各种原因,这里可以提到其中的一些:
●由于传送条件导致信号分量可能丢失或恶化。
●在知道解码器中将恢复丢失能量的情况下,可能在编码器中故意地削弱信号的分量。这种削弱可能基于例如感知重要性。
●由于对整个编码器中的限制,而导致部分信号可能丢失。由于例如有限的比特率或建模能力,部分信号可能落在整个编码器的范围之外。从总体角度来看,单个编码器和相关解码器处理各表示将真实的输入信号投影到的子空间。最终的残余编码误差与表示整个编码器和解码器的子空间的并集是正交的。可以用这些子空间来表示最终的残余,但是如果知道或可以至少估计输入能量和接收到的子空间分量的能量,则可以估计和补偿最终的残余的能量。
例如,对这些和其它问题的有效的解决方案可以按照如前所述对于不同分量的可能的能量和质量变化是鲁棒的方式,通过对能量和预测参数进行联合表示和编码来实现。
本发明总体上涉及整体编码过程及相关联的解码过程。编码过程涉及对音频输入通道组的信号表示进行操作的至少两个信号编码过程。还涉及估计输入通道的能量的专用过程。本发明的基本理念是使用与第一编码过程相关的本地合成来产生包括第一编码过程的编码误差的表示在内的本地解码的信号,并将该本地解码的信号应用为第二编码过程的输入。可以将编码过程的序列视为对整体编码过程的精细化步骤,或视为捕获不同属性的信号。
例如,第一编码过程可以是主编码过程,如单声道编码过程,或更一般的缩混编码器,且第二编码过程可以是辅助编码过程,如立体声编码过程或一般的参数化编码过程。整体编码过程对包括立体声编码以及更复杂的多通道编码在内的至少两个(多个)音频输入通道进行操作。
每个编码过程与解码过程相关联。在整体解码过程中,优选地组合来自每个编码过程的解码信号,使得输出通道与输入通道在能量和质量方面接近。一般地,组合步骤还部分或全部适应一个或多个信号表示的可能损失,使得用解码器手头的信号来优化能量和质量。在组合步骤中,还可以考虑信号分量的质量,使得用比低质量信号的比例大的比例来表示较高质量信号,从而提高输出通道的整体质量。
从结构或实施性角度,本发明涉及编码器及相关联的解码器。整个编码器基本上包括用于对输入通道的不同表示进行编码的至少两个编码器。与第一编码器相关的本地合成产生本地解码的信号,且应用该本地解码的信号作为第二编码器的输入。整个编码器还产生输入通道的能量表示。整个解码器包括与编码器中每个编码过程相关联的解码过程。面对一个或多个解码信号的可能的部分或全部损失,整个解码器还包括以稳定能量和质量进行组合的解码分量的组合级。
本发明的目的是解决以下两个问题中至少一个,优选地同时解决这两个问题:获得最优的通道预测并保持对输出通道能量的明确控制。信号的分量可以示出在能量和质量方面随着时间的单独变化,使得简单的将信号分量相加将给出在能量和整体质量方面的不稳定印象。
例如,对这些和其它问题的解决方案可以按照对于不同分量的可能的能量和质量变化是鲁棒的方式,通过对能量和预测参数进行联合表示和编码来实现。
下面,将呈现获得能量保留的不同方法的非限制性示例,即实施例A、B和C。应当理解这些实施例仅为示例。例如,它们主要专注于立体声应用,且因而可以将其归纳用于涉及多于两个音频通道的应用。这些实施例的共同点是在残余编码上保留具有变化解析度的合成能量。稍后进一步讨论示例实施例的一些差异。
图7示出了示例立体声情况的概览。在第一步骤S21中,编码器对输入信号执行缩混,且将其馈送至单声道编码器,在步骤S22提取出本地解码的缩混信号。在步骤S23还对输入通道能量进行估计并编码。接下来,在步骤S24,导出通道预测参数。在步骤S25,创建预测/参数化立体声的本地合成,并将其从输入信号中减去,在步骤S26中,形成用适合的方法编码的预测/参数化残余。在步骤S27中,如果可能有更多编码级,则可以执行其它迭代的精细化步骤。在步骤S28中通过执行本地合成、并将编码的预测残余从来自先前迭代的预测残余中减去、以及对当前迭代的新的残余进行编码来执行。图7所示的示例编码器过程构成了对所有所示的实施例A、B和C都有效的概览。然而应当注意到,如将进一步解释的,图7所示的步骤的底层细节对于每个所示实施例是不同的。
示例解码器重构解码缩混信号,该信号与编码器中的本地解码的缩混信号相同。使用解码缩混信号与编码能量表示一起来估计输入通道能量。导出通道预测参数。解码器还分析合成信号的能量,并将能量调整为估计出的输入通道能量。如将在实施例A中看到的,还可以将该步骤并入通道预测步骤中。此外,能量调整的过程还可以考虑信号分量的质量,使得可以抑制较低质量分量,而优选较高质量分量。
以[5]的术语来表达,可以将本发明认为是基于预测的上混频,其允许每个通道多个分量,并且还具有基于能量的上混频的能量保留属性。
一般在MPEG环绕立体声的上下文中所使用的术语“上混频”将作为表达“通道预测”和“参数化多通道合成”的同义词加以使用。
尽管通常逐帧地执行编码/解码,可以对可变大小的帧执行比特分配和编码/解码,允许信号自适应优化帧处理。
以下所述的实施例仅作为示例给出,且应当理解本发明不限于此。
示例实施例A
在该非限制性示例中,编码器和解码器分别对立体声输入和输出信号进行操作。在图9A中示出了该实施例的概览。图9A的编码器基本上包括根据立体声输入信号创建单声道信号的缩混器、对缩混信号进行编码并产生本地解码的缩混合成的单声道编码器。此外,该编码器包括参数化立体声编码器,该参数化立体声编码器使用本地解码的缩混信号来创建输入立体声通道的第一表示,还估计输入通道能量,创建能量表示,并对要在解码器中使用的表示进行编码。编码器还创建用残余编码器进行编码的立体声预测残余。图9A的解码器包括创建与编码器的本地解码的缩混信号相对应的解码缩混信号的单声道解码器。该解码器还包括对编码立体声预测残余进行解码的残余解码器。最终,该解码器包括能量测量单元和参数化立体声解码器。
图8以流程图形式解释了解码器操作。在第一步骤S31中,单声道解码发生,且在步骤S32中完成残余解码。步骤S33包括对残余信号能量的能量测量。在步骤S34中完成具有集成能量补偿的参数化立体声合成,且在步骤S35中完成对解码残余和参数化立体声合成的结合(join)。以下更详细地解释实施例A的能量编码和解码以及通道预测。
能量编码和解码-示例实施例A
为了能量编码的目的,将首先定义输入通道能量。令
Figure BPA00001347160100321
代表帧索引m的频带b的输入通道的每采样能量。
σ b 2 ( m ) = σ b , L 2 ( m ) σ b , R 2 ( m ) = E [ L b ( m ) L b ( m ) ] E [ R b ( m ) R b ( m ) ] - - - ( 16 )
在能量测量的实际实现中,对于一个频带中的所有能量参数,带宽归一化将是相等的,因此可以省略。
左和右通道的能量之差在感知上是重要的[2]。为了获得对能量平衡的明确控制,形成通道电平差(CLD)和通道电平和(CLS)。
S b ( m ) D b ( m ) = σ b , L 2 ( m ) + σ b , R 2 ( m ) σ b , L 2 ( m ) / σ b , R 2 ( m ) - - - ( 17 )
优选地,使用考虑CLD灵敏度的感知度量的码本,在log域中量化CLD Db(m)。CLS Sb(m)示出了与缩混信号的能量的强相关性。由于在立体声解码器中,解码缩混信号可用,形成与该信号相关的delta能量度量
ΔS b ( m ) = S b ( m ) / σ b , M ^ 2 ( m ) = S b ( m ) E [ M ^ b ( m ) M ^ b ( m ) ] - - - ( 18 )
此外,令S和D是如图60所示的相关变量。对于大的D值,S的分布变得更窄且可以根据CLD选择不同的码本。对于CLD的极值,CLS将由一个通道主宰,且可以将其设置为使用零比特的常数。例如:
如果假设:
σ b , L 2 ( m ) > > σ b , R 2 ( m )
则其满足
M = L + R 2 ≈ L 2
Δ S b ( m ) = S b ( m ) E [ M ^ b ( m ) M ^ b ( m ) ] ≈ E [ L b ( m ) L b ( m ) ] 1 4 E [ L ^ b ( m ) L ^ b ( m ) ] ≈ 4
所以对于大的CLD,CLS将收敛到值4,对应于可以在图6中观察到的6dB。6dB值的偏离是由于在单声道缩混信号中的编码噪声。由于缩混因子1/2,左通道能量比单声道能量简单地低6dB。为了利用该依赖性,用取决于量化CLD的不同解析度对CLS进行编码。因为CLS表达了能量关系,在log域中对该参数进行量化。
可以使用变量Db(m)、ΔSb(m)和
Figure BPA00001347160100331
来表达通道能量[σb,L(m) σb,R(m)]T
σ b , L 2 ( m ) σ b , R 2 ( m ) = σ b , M ^ 2 ( m ) Δ S b ( m ) D b ( m ) 1 + D b ( m ) 1 1 + D b ( m ) - - - ( 19 )
在解码器中,可以使用量化参数
Figure BPA00001347160100333
Figure BPA00001347160100334
来导出估计出的通道能量
Figure BPA00001347160100335
σ ^ b 2 = σ ^ b , L 2 ( m ) σ ^ b , R 2 ( m ) = σ b , M ^ 2 ( m ) Δ S ^ b ( m ) D ^ b ( m ) 1 + D ^ b ( m ) 1 1 + D ^ b ( m ) - - - ( 20 )
通道预测-示例实施例A
不对编码器中使用的通道预测参数
Figure BPA00001347160100337
进行量化,从而确保预测误差是最小的。不将来自预测参数的量化的误差传输到预测残余。
假定已经对能量编码且将其与编码缩混信号一起传送至解码器,可以根据能量来估计通道预测参数。可以将完全的立体声合成写为
L ~ b ( m , k ) R ~ b ( m , k ) = w ^ b , L ( m ) w ^ b , R ( m ) M ^ b ( m , k ) + ϵ ^ b , L ( m , k ) ϵ ^ b , R ( m , k ) - - - ( 21 )
其中是帧索引m的频带b的频率区间k的量化残余信号,且
Figure BPA000013471601003310
是通道预测因子。相应的通道能量是:
σ b , L ~ 2 ( m ) σ b , R ~ 2 ( m ) = w ^ b , L 2 ( m ) E [ M ^ b ( m ) M ^ b ( m ) ] + E [ ϵ ^ b , L ( m ) ϵ ^ b , L ( m ) ] w ^ b , R 2 ( m ) E [ M ^ b ( m ) M ^ b ( m ) ] + E [ ϵ ^ b , R ( m ) ϵ ^ b , R ( m ) ] +
2 E [ w ^ b , L ( m ) M ^ b ( m ) ϵ ^ b , L ( m ) ] 2 E [ w ^ b , R ( m ) M ^ b ( m ) ϵ ^ b , R ( m ) ] =
w ^ b , L 2 ( m ) σ b , M ^ 2 ( m ) + 2 E [ w ^ b , L ( m ) M ^ b ( m ) ϵ ^ b , L ( m ) ] + σ b , ϵ ^ , L 2 ( m ) w ^ b , R 2 ( m ) σ b , M ^ 2 ( m ) + 2 E [ w ^ b , R ( m ) M ^ b ( m ) ϵ ^ b , R ( m ) ] + σ b , ϵ ^ , R 2 ( m ) - - - ( 22 )
在高比特率假设下,预测误差ε将与预测信号无关,即
E [ w ^ b , L ( m ) M ^ b ( m ) ϵ ^ b , L ( m ) ] E [ w ^ b , R ( m ) M ^ b ( m ) ϵ ^ b , R ( m ) ] = 0
使用该假设,并用量化近似来替代真实的合成能量
Figure BPA00001347160100346
可以对上述公式求解
w ^ b , L ( m ) w ^ b , R ( m ) = ± σ ^ b , L 2 ( m ) - σ b , ϵ ^ , L 2 ( m ) σ b , M ^ 2 ( m ) ± σ ^ b , R 2 ( m ) - σ b , ϵ ^ , R 2 ( m ) σ b , M ^ 2 ( m ) - - - ( 23 )
注意到在解码器处不知道平方根的符号,且必须对其进行编码。然而,对于典型的输入,预测参数在区间[0,2]中,且假设正号对于大多数信号将是工作良好的。可以通过将预测因子之一限制在[0,2]中,并使用公式(14)获得另一个因子来实现该截断(truncation)。如果希望对符号编码,可以利用以下事实:最多只有一个通道可以具有负号,例如通过使用简单的可变长度编码:
  符号   码字
  (++)   0
  (+-)   10
  (-+)   11
表1:用于对通道预测器系数的符号进行编码的可变长度码本。它利用了两个正号的高可能性,以及在相同频带中没有两个符号是负号的事实。
使用该实施例,使用通道预测因子来修正输出通道能量。如果解码残余信号接近真正的残余,则通道预测因子将接近编码器中使用的最优预测因子。如果由于例如低比特率编码,残余编码能量低于真实残余能量,则将来自参数化立体声的贡献扩大,以补偿能量损失。如果残余编码为零,则算法本质上缺省为强度立体声编码。
示例实施例B
在该第二非限制性示例中,编码器和解码器还对立体声信号进行操作。图9B示出了该实施例的概览,其中图9B的编码器基本上包括根据立体声输入信号创建单声道信号的缩混器、对缩混信号进行编码且产生本地解码的缩混合成的单声道编码器。此外,该编码器包括参数化立体声编码器,该参数化立体声编码器使用本地解码的缩混信号来创建输入立体声通道的第一表示,还估计输入通道能量,创建能量表示,以及对要在解码器中使用的表示进行编码。编码器还创建用残余编码器进行编码的立体声预测残余。图9B的解码器包括创建与编码器的本地解码的缩混信号相对应的解码缩混信号的单声道解码器。该解码器还包括对编码立体声预测残余进行解码的残余解码器。此外,该解码器包括对组合的立体声合成进行操作的参数化立体声解码器和能量测量单元,以及修改组合的立体声合成以创建最终立体声合成的能量修正单元。图10的流程图描述了解码器操作的步骤。在步骤S41中完成单声道解码,之后是步骤S42中的参数化立体声合成,以及步骤S43中的立体声残余解码。在步骤S44中,结合残余和参数化立体声合成,并在步骤S45中完成对该组合后的合成的能量。最终,步骤S46包括对组合后的合成的能量调整。下面更详细地解释实施例B的能量编码和解码以及通道预测。
能量编码和解码-示例实施例B
可以导出用于对能量编码的可选策略。如前所述,导出CLDDb(m)。接下来,假定应当在预测的立体声贡献上保留CLD,同时没有给出通道预测因子的关系的残余编码。
Figure BPA00001347160100361
使用公式(14),可以根据CLD计算通道预测因子
w b , L w b , R = 2 D b ( m ) 1 + D b ( m ) 2 1 + D b ( m ) - - - ( 25 )
注意,在合成的立体声信号上的公共扩缩因子Cb(m)将不影响CLD。将该因子加到合成上,匹配合成信号能量,再一次假定不存在残余编码。
σ b , L 2 ( m ) σ b , R 2 ( m ) E [ ( C b ( m ) w b , L ( m ) M ^ b ( m ) ) 2 ] E [ ( C b ( m ) w b , R ( m ) M ^ b ( m ) ) 2 ] = - - - ( 26 )
= σ b , M ^ 2 C b 2 ( m ) w b , L 2 ( m ) w b , R 2 ( m )
使用左或右通道,可以针对公式(26)求解Cb(m):
C b ( m ) = σ b , L 2 ( m ) σ b , M ^ 2 w b , L 2 ( m ) = 1 w b , L ( m ) σ b , L 2 ( m ) σ b , M ^ 2
C b ( m ) = σ b , R 2 ( m ) σ b , M ^ 2 w b , R 2 ( m ) = 1 w b , R ( m ) σ b , R 2 ( m ) σ b , M ^ 2
这两个公式给出了相同的Cb(m)。选择使用应当给出更好数值精度的较高能量通道。
公式(26)和(19)提供了针对输入通道能量的两个表达式。取等式的右侧,并让它们相等,得到
σ b , M ^ 2 C b 2 ( m ) w b , L 2 ( m ) w b , R 2 ( m ) = σ b , M ^ 2 ( m ) ΔS b ( m ) D b ( m ) 1 + D b ( m ) 1 1 + D b ( m ) =
σ b , M ^ 2 ( m ) ΔS b ( m ) w b , L 2 ( m ) / w b , R 2 ( m ) 1 + w b , L 2 ( m ) / w b , R 2 ( m ) 1 1 + w b , L 2 ( m ) / w b , R 2 ( m ) =
σ b , M ^ 2 ( m ) ΔS b ( m ) w b , L 2 ( m ) + w b , R 2 ( m ) w b , L 2 ( m ) w b , R 2 ( m ) - - - ( 27 )
从该公式标识出
C b 2 ( m ) = ΔS b ( m ) w b , L 2 ( m ) + w b , R 2 ( m ) - - - ( 28 )
其中,分母等于由单声道能量归一化的预测通道的能量之和。推断出该能量表示等价于第一表示,且其仅在CLS参数ΔSb(m)和
Figure BPA00001347160100375
的归一化中不同。如实施例A一样编码CLD。和ΔSb(m)一样,也称作归一化能量补偿参数的能量补偿参数
Figure BPA00001347160100376
也在log域中进行量化,但是由于扩缩差异而使用不同的码本(事实上只是不同的log值偏移量)。
解码器从接收的参数
Figure BPA00001347160100377
以及测量的解码单声道能量
Figure BPA00001347160100378
中导出近似的通道能量
Figure BPA00001347160100379
σ ~ b 2 = σ ~ b , L 2 ( m ) σ ~ b , R 2 ( m ) = σ b , M ^ 2 ( m ) C ^ b ( m ) ( 2 D ^ b ( m ) 1 + D ^ b ( m ) ) 2 ( 2 1 + D ^ b ( m ) ) 2 - - - ( 29 )
通道预测-示例实施例B
在备选方案中,从量化的CLD中导出编码器中使用的通道预测器
w ~ b , L w ~ b , R = 2 D ^ b ( m ) 1 + D b ( m ) 2 1 + D ^ b ( m ) - - - ( 30 )
在该情况下,在编码器和解码器中使用相同的通道预测器。这确保了在预测通道和残余编码之间的正确匹配。
解码器能量补偿-示例实施例B
由于在没有残余编码的假设下导出
Figure BPA00001347160100382
如果它在解码器中存在,则必须对残余编码能量进行补偿。首先合成未扩缩的立体声合成
L ~ b ′ ( m , k ) R ~ b ′ ( m , k ) = w ~ b , L ( m ) w ~ b , R ( m ) M ^ b ( m , k ) + ϵ ~ b , L ( m , k ) ϵ ~ b , R ( m , k ) - - - ( 31 )
注意到,编码残余
Figure BPA00001347160100384
不同于公式(20)中的
Figure BPA00001347160100385
因为在编码器中使用不同的预测器。通过应用恢复近似的通道能量的能量修正因子,产生最终合成:
L ~ b ′ ′ ( m , k ) R ~ b ′ ′ ( m , k ) = L ~ b ′ ( m , k ) σ ~ b , L 2 ( m ) / E [ ( L ~ b ′ ( m , k ) ) 2 ] R ~ b ′ ( m , k ) σ ~ b , R 2 ( m ) / E [ ( R ~ b ′ ( m , k ) ) 2 ] - - - ( 32 )
如果残余编码为零,则能量修正因子将评估为1。该方法还补偿了以下事实:如果可用比特率受限且残余编码可能示出与预测通道的相关性,则可以不保持高比特率假设。
示例实施例C
第三非限制性示例也是立体声编码器和解码器实施例。图9C示出了该实施例的概览,其中图9C的编码器基本上包括:根据立体声输入信号创建单声道信号的缩混器;对缩混信号编码且产生本地解码的缩混合成的单声道编码器。此外,该编码器包括参数化立体声编码器,该参数化立体声编码器使用本地解码的缩混信号来创建输入立体声通道的第一表示,还估计输入通道能量,创建能量表示以及对要在解码器中使用的表示进行编码。编码器还创建用残余编码器编码的立体声预测残余。图9C的解码器包括创建与编码器的本地解码的缩混信号相对应的解码缩混信号的单声道解码器。该解码器还包括对编码立体声预测残余进行解码的残余解码器。此外,该解码器包括对组合后的立体声合成进行操作的参数化立体声解码器和能量测量单元,以及修改组合后的立体声合成以创建最终立体声合成的能量修正单元。从概览的角度,实施例C的解码器操作类似于实施例B的解码器,且图10的给出了对这两个示例的解码器步骤的准确描述。下面更详细地解释实施例C的能量编码和解码以及通道预测。
能量编码和解码-示例实施例C
通过公式(12)和(13),看到通道预测器系数共享一项,归一化互相关,也称作能量归一化输入通道互相关,将其定义为ρ:
ρ b ( m ) = E [ L b ( m , k ) R b ( m , k ) ] E [ M b ( m , k ) M b ( m , k ) ] - - - ( 33 )
使用来自公式(17)的Db(m)的定义,可以形成备选的通道能量表达式:
σ b 2 = σ b , L 2 ( m ) σ b , R 2 ( m ) = σ b , M 2 ( m ) ( 4 - 2 ρ b ( m ) ) D b ( m ) 1 + D b ( m ) 1 1 + D b ( m ) - - - ( 34 )
可以将其重写为直线公式,该直线公式示出了能量随着ρ的增加而成比例地减少。
σ b , L 2 ( m ) σ b , R 2 ( m ) = 4 σ b , M 2 ( m ) D b ( m ) 1 + D b ( m ) - ρ b ( m ) 2 σ b , M 2 ( m ) D b ( m ) 1 + D b ( m ) 4 σ b , M 2 ( m ) 1 + D b ( m ) - ρ b ( m ) 2 σ b , M 2 ( m ) 1 + D b ( m ) - - - ( 35 )
如果假设在单声道编码中保留了能量,即可以在解码器中将估计出的通道能量表达为
σ ^ b , L 2 ( m ) σ ^ b , R 2 ( m ) = 4 σ b , M ^ 2 ( m ) D b ( m ) 1 + D b ( m ) - ρ ^ b ( m ) 2 σ b , M ^ 2 ( m ) D b ( m ) 1 + D b ( m ) 4 σ b , M ^ 2 ( m ) 1 + D b ( m ) - ρ ^ b ( m ) 2 σ b , M ^ 2 ( m ) 1 + D b ( m ) - - - ( 36 )
该方案确保了保留量化的CLD
Figure BPA00001347160100402
但是由于
Figure BPA00001347160100403
和编码单声道
Figure BPA00001347160100404
中的量化噪声,其可能具有一些能量不稳定性。经验显示了突然的能量增加比能量损失在感知上更让人厌烦。这可以通过对编码器中的ρ的量化进行约束,使得在解码器中永远不会过高估计能量来进行处理。
σ ^ b , L 2 ( m ) / σ b , L 2 ( m ) ≤ σ thr σ ^ b , R 2 ( m ) / σ b , R 2 ( m ) ≤ σ thr - - - ( 37 )
用约束
Figure BPA00001347160100406
来选择与来自公式(33)的ρb(m)尽可能接近的可以确保在任何通道上永远不会过高估计能量,即同时满足公式(37)中的两行。另一个策略可以是确保在较低能量通道中永远不会过高估计能量,因为在几乎沉默期间的能量脉冲在感知上更让人厌烦。通过公式(35),可以看到能量估计随着ρ的增加而减少,这意味着可以在公式(33)给出的值处开始搜索,且如果初始值不满足
Figure BPA00001347160100408
则执行增量搜索。如果在单声道编码中存在能量损失,可能想要搜索减小的ρ,以最小化但是这可能具有对通道预测参数的不想要的效果。稍后将进一步讨论变化的ρ对通道预测的效果。
通道预测-示例实施例C
使用ρ和D,可以将MMSE优化通道预测因子写为:
w b , L ( m ) w b , R ( m ) = 2 D b ( m ) D b ( m ) + 1 + ρ b ( m ) ( 1 2 - D b ( m ) D b ( m ) + 1 ) 2 D b ( m ) + 1 + ρ b ( m ) ( 1 2 - 1 D b ( m ) + 1 ) - - - ( 38 )
可以注意到,对于相等的输入通道能量D=1,通道预测系数变得与ρ无关。在图11中,可以看到通道预测参数向着中间移动以增加ρ。可以推断公式(37)中所示的方法在通道预测参数方面是安全的,因为ρ中轻微的增加将仅产出具有轻微增加的通道泄露的预测,但是其中依然保留CLD。
此外可以注意到,对于非常大的负ρ,通道预测因子变得对D不敏感。可以利用这些变量之间的依赖性以给出最小比特率的低失真。
给定编码
Figure BPA00001347160100411
Figure BPA00001347160100412
导出编码器通道预测因子为:
w ^ b , L ( m ) w ^ b , R ( m ) = 2 D ^ b ( m ) D ^ b ( m ) + 1 + ρ ^ b ( m ) ( 1 2 - D ^ b ( m ) D ^ b ( m ) + 1 ) 2 D ^ b ( m ) + 1 + ρ ^ b ( m ) ( 1 2 - 1 D ^ b ( m ) + 1 ) - - - ( 39 )
类似于实施例B,在编码器和解码器中同时使用相同的通道预测器。与实施例B的差异在于:使用量化的MMSE优化通道预测因子。此外,与实施例B一样,保留解码残余和预测通道之间的能量关系。
解码器能量补偿-示例实施例C
与实施例B相似,在将预测和残余编码分量相结合之后,修正输出通道能量。除对于通道预测和能量估计使用不同的参数这一事实之外,图100的解码器流程的整体描述也对于实施例C有效。对于实施例C,如上所述,还可以对图9C的框图进行引用。
示例实施例A-C之间的差异
所示示例实施例A、B和C给出了在合成立体声声音中表示CLD中的相等准确度。在无残余编码的情况下,它们还具有等价的行为,在该情况下它们都缺省为强度立体声算法。主要的差异在于编码器中使用的通道预测参数,以及在解码器中如何导出它们。取决于各种参数,例如可用的比特率和输入信号相对于编码和空间信息的复杂度,优选实施例将是不同的。
在实施例A中,在编码器中使用优化的未量化通道预测器。如果比特率很高且残余编码接近完美重构,则解码器中使用的通道预测器将是一样的。对于中等比特率,仅对立体声的预测部分进行扩缩以补偿残余中的能量损失。如果由于例如低比特率残余编码而导致残余编码比预测立体声分量更有噪声,则使用较大比例的预测立体声是所期望的特征。
对于实施例B,在编码器中使用量化通道预测器。在MMSE方面该预测可能不是最优的,但是其保证了对预测信号和编码残余信号的扩缩是匹配的。如果单声道信号的编码误差是主宰且残余主要修正了该误差,则这是重要的。
实施例C的好处是其给出了对通道能量和通道预测因子的紧凑表示。参数示出了可以用于编码的依赖性。如果单声道编码未保留单声道信号的能量,则可以用对参数化立体声预测性能的可预测影响来添加对能量增加的附加保险。
这些策略中的哪一个最有利可以取决于在可用比特率和典型的输入信号方面的情形。然而对于G.718的SWB/立体声扩展,发现实施例B给出了良好的结果。还可以将这些方法进行组合,针对不同频带使用不同的算法。还可以让这种组合是自适应的,在该情况下,将所选策略以信号方式传送至解码器。如果使用已经传送给解码器的参数来执行策略选择,则可以在无附加信令的情况下完成该点。
也可以将其它编码方案与所述方法组合。
本发明实现了可扩缩性,同时保持对于立体声图像感知重要的通道能量电平。当残余编码为零时,系统将缺省为强度立体声算法。随着残余编码增加,合成的输出将扩缩至完美的重构,同时保持通道能量和立体声图像稳定性。
AB收听测试评估
作为示例,测试示例方法B。用于比较的基准线是使用在范围2.2kHz到7.0kHz中的基于CLD的通道预测(强度立体声)。对于测试候选,低于2.2kHz的所应用的方法是相同的。图12示出了投票的柱状图,指示了对本发明的青睐。
音频材料由取自AMR-WB+选择测试材料的7个音频片段构成。
如已经提到过的,本发明的原理也可应用于输入和输出通道多于两个的多通道场景。
以下,将最终给出对p个输入通道进行操作的示例多通道实施例的概览。
假定输入信号是具有p个通道的多通道信号
Figure BPA00001347160100431
编码器创建具有q个通道的缩混信号
Figure BPA00001347160100432
其中p>q。缩混的属性可以创建原始多通道信号的通道与可以用于对通道能量和通道预测器进行有效表示的缩混信号的通道之间的依赖性。可以与在现有技术[5]看到的一样,在多个级中执行这种多通道缩混。如果执行了逐对的通道结合,则可以应用来自立体声实施例的原理。将缩混信号馈送至对q个通道操作的第一级编码器,且从该过程中提取解码的缩混信号
Figure BPA00001347160100433
在多通道预测或上混频步骤中使用该信号,这创建了输入多通道信号的第一近似
Figure BPA00001347160100434
从原始输入信号中减去该近似,形成多通道预测残余或参数化残余。将该残余馈送至第二编码级。如果需要,可以提取本地解码的残余信号,并将其从原始残余信号中减去,以创建第二级残余信号。可以重复该编码过程以提供收敛到原始输入信号的进一步精细化,或捕捉信号的不同属性。传送或存储编码预测、能量和残余参数以在解码器中使用。可以在图13中看到编码过程的示例的概览。
在示例实施例中,整个解码器执行对与编码器中的本地解码的缩混信号相对应的缩混信号的解码。对编码的残余进行解码。使用已传送的预测和能量参数,执行第一级多通道预测或上混频。多通道预测可以与编码器中的多通道预测不同。解码器测量接收的和解码的信号的能量,比如解码缩混信号、预测多通道信号和残余信号。计算并使用输入通道能量的能量估计,以将解码信号分量组合为多通道输出信号。如图14和图15所示,可以在预测级之前测量能量,允许与预测一起联合控制输出能量。也可以如图16和17所示,在已经将信号分量结合且在最终级中对结合的分量进行调整之后,测量能量。
上述实施例仅作为示例给出,且应当理解本发明不限于此。保持本文所公开和所要求的基本底层原理的其它修改、改变和改进在本发明的范围中。
简写
Figure BPA00001347160100451
Figure BPA00001347160100461
参考文献
[1]ISO/IEC JTC 1,SC 29,WG 11/M11657,“Performance and functionality of existing MPEG-4technology in the context of CfI on Scalable Speechand Audio Coding”,Jan.2005.
[2]C.Faller and F.Baumgarte,“Binaural cue coding-Part I:Psychoacoustic fundamentals and designprinciples”,IEEE Trans.Speech Audio Processing,vol.11,pp.509-519,Nov.2003.
[3]Samsudin et al,“A stereo to mono downmixingscheme for MPEG-4 parametric stereo encoder”,ICASSP Proceedings,vol.5,pp.V-V May 2006.
[4]J.Herre et al,“The Reference Model Architecture forMPEG Spatial Audio Coding”,AES 118th Convention,Paper 6447,May 2005.
[5]ISO/IEC JTC 1,SC 29,WG 11/N7806,“MPEG audiotechnologies-Part 1:MPEG Surround”,pp.113-114,February 2007.

Claims (50)

1.一种基于对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作的整体编码过程的音频编码方法,其中,所述音频编码方法包括以下步骤:
-执行第一编码过程,用于对所述音频输入通道组的包括缩混信号的第一信号表示进行编码(S1);
-执行与所述第一编码过程相关的本地合成,以产生包括所述第一编码过程的编码误差的表示在内的本地解码的缩混信号(S2);
-至少使用所述本地解码的缩混信号作为输入,执行第二编码过程,用于对所述音频输入通道组的第二表示进行编码(S3);
-估计所述音频输入通道的输入通道能量(S4);
-基于所述音频输入通道的估计出的输入通道能量,产生所述音频输入通道的至少一个能量表示(S5);
-对所述至少一个能量表示进行编码(S6);以及
-通过至少包括所述第二编码过程在内的所述第一和第二编码过程中的至少一个,产生残余误差信号(S7);
-在第三编码过程中执行对所述残余误差信号的残余编码(S8)。
2.根据权利要求1所述的音频编码方法,其中,所述至少一个能量表示使解码侧的输出通道的能量能够与估计出的输入通道能量相匹配。
3.根据权利要求2所述的音频编码方法,其中,所述至少一个能量表示使输出通道和输入通道在能量和质量方面能够匹配。
4.根据权利要求1所述的音频编码方法,其中,在所述第二编码过程中执行产生至少一个能量表示和对所述至少一个能量表示进行编码的所述步骤(S5、S6)。
5.根据权利要求4所述的音频编码方法,其中,针对至少一个频带中的多个帧中的每一个帧,执行产生至少一个能量表示和对所述至少一个能量表示进行编码的所述步骤(S5、S6)。
6.根据权利要求1所述的音频编码方法,其中,所述第一编码过程是缩混编码过程,所述第二编码过程基于用于产生至少一个预测通道的通道预测,以及产生残余误差信号的所述步骤(S7)包括产生残余预测误差信号的步骤。
7.根据权利要求6所述的音频编码方法,其中,在所述第二编码过程中将所估计出的输入通道能量和所述通道预测的预测参数进行联合表示和编码。
8.根据权利要求6所述的音频编码方法,其中,产生至少一个能量表示的所述步骤(S5)包括以下步骤:
-确定通道能量电平差;
-确定通道能量电平和;以及
-确定delta能量度量,所述delta能量度量为所述通道能量电平和与来自与所述第一编码过程相关的所述本地合成的所述本地解码的缩混信号的能量之比,
其中,对所述至少一个能量表示进行编码的所述步骤(S6)包括以下步骤:
-对所述通道能量电平差进行量化;以及
-对所述delta能量度量进行量化。
9.根据权利要求8所述的音频编码方法,其中,所述通道预测基于未量化的通道预测参数。
10.根据权利要求6所述的音频编码方法,其中,产生至少一个能量表示的所述步骤(S5)包括以下步骤:
-确定通道能量电平差;
-确定通道能量电平和;
-确定delta能量度量,所述delta能量度量为所述通道能量电平和与来自与所述第一编码过程相关的所述本地合成的所述本地解码的缩混信号的能量之比,
-基于所述delta能量度量以及由所述本地解码的缩混信号的能量所归一化的预测通道的能量,确定归一化能量补偿参数;
其中,对所述至少一个能量表示进行编码的所述步骤(S6)包括以下步骤:
-对所述通道能量电平差进行量化;以及
-对所述归一化能量补偿参数进行量化。
11.根据权利要求10所述的音频编码方法,其中,所述通道预测基于从量化的通道能量电平差导出的量化通道预测参数。
12.根据权利要求6所述的音频编码方法,其中,产生至少一个能量表示的所述步骤(S5)包括以下步骤:
-确定通道能量电平差;以及
-确定能量归一化输入通道互相关参数;
其中,对所述至少一个能量表示进行编码的所述步骤(S6)包括以下步骤:
-对所述通道能量电平差进行量化;以及
-对所述能量归一化输入通道互相关参数进行量化。
13.根据权利要求12所述的音频编码方法,其中,所述通道预测基于从量化的通道能量电平差和量化的能量归一化输入通道互相关参数导出的量化通道预测参数。
14.一种对具有至少两个通道的多通道音频信号的音频输入通道组的信号表示进行操作的音频编码器设备(100),其中,所述音频编码器设备(100)包括:
-第一编码器(130),用于在第一编码过程中对所述音频输入通道组的包括缩混信号的第一表示进行编码;
-本地合成器(132),用于执行与所述第一编码过程相关的本地合成,以产生包括所述第一编码过程的编码误差的表示在内的本地解码的缩混信号;
-第二编码器(140),用于至少使用所述本地解码的缩混信号作为输入,在第二编码过程中对所述音频输入通道组的第二表示进行编码;
-能量估计器(142),用于估计所述音频输入通道的输入通道能量;
-能量表示产生器(144),用于基于所述音频输入通道的估计出的输入通道能量,产生所述音频输入通道的至少一个能量表示;
-能量表示编码器(146),用于对所述至少一个能量表示进行编码;
-残余产生器(155),用于通过至少包括所述第二编码过程在内的所述第一和第二编码过程中的至少一个,产生残余误差信号;以及
-残余编码器(160),用于在第三编码过程中执行对所述残余误差信号的残余编码。
15.根据权利要求14所述的音频编码器设备,其中,所述能量表示产生器(144)被配置为产生至少一个能量表示,以使解码侧的输出通道的能量能够与估计出的输入通道能量相匹配。
16.根据权利要求15所述的音频编码器设备,其中,所述能量表示产生器(144)被配置为产生至少一个能量表示,以使输出通道和输入通道在能量和质量方面能够匹配。
17.根据权利要求14所述的音频编码器设备,其中,在所述第二编码器(140)中实现所述能量表示产生器(144)和所述能量表示编码器(146)。
18.根据权利要求17所述的音频编码器设备,其中,所述能量表示产生器(144)和所述能量表示编码器(146)被配置为针对至少一个频带中的多个帧中的每一个帧,产生并编码所述至少一个能量表示。
19.根据权利要求14所述的音频编码器设备,其中,所述第一编码器(130)是缩混编码器,所述第二编码器(140)是被配置为基于通道预测进行操作以产生至少一个预测通道的参数化编码器,以及所述残余产生器(155)被配置为产生残余预测误差信号。
20.根据权利要求19所述的音频编码器设备,其中,所述第二编码器(140)被配置为对所估计出的输入通道能量和所述通道预测的预测参数进行联合表示和编码。
21.根据权利要求19所述的音频编码器设备,其中,所述能量表示产生器(144)包括:
-确定器,用于确定通道能量电平差;
-确定器,用于确定通道能量电平和;以及
-确定器,确定delta能量度量,所述delta能量度量为所述通道能量电平和与来自与所述第一编码过程相关的所述本地合成的所述本地解码的缩混信号的能量之比,
其中,所述能量表示编码器(146)包括:
-量化器,用于对所述通道能量电平差进行量化;以及
-量化器,用于对所述delta能量度量进行量化。
22.根据权利要求21所述的音频编码器设备,其中,所述第二编码器(140)被配置为基于未量化的通道预测参数来执行通道预测。
23.根据权利要求19所述的音频编码器设备,其中,所述能量表示产生器(144)包括:
-确定器,用于确定通道能量电平差;
-确定器,用于确定通道能量电平和;
-确定器,用于确定delta能量度量,所述delta能量度量为所述通道能量电平和与来自与所述第一编码过程相关的所述本地合成的所述本地解码的缩混信号的能量之比,
-确定器,用于基于所述delta能量度量以及由所述本地解码的缩混信号的能量所归一化的预测通道的能量,确定归一化能量补偿参数;
其中,所述能量表示编码器(146)包括:
-量化器,用于对所述通道能量电平差进行量化;以及
-量化器,用于对所述归一化能量补偿参数进行量化。
24.根据权利要求23所述的音频编码器设备,其中,所述第二编码器(140)被配置为基于从量化的通道能量电平差导出的量化通道预测参数来执行通道预测。
25.根据权利要求19所述的音频编码器设备,其中,所述能量表示产生器(144)包括:
-确定器,用于确定通道能量电平差;以及
-确定器,用于确定能量归一化输入通道互相关参数;
其中,所述能量表示编码器(146)包括:
-量化器,用于对所述通道能量电平差进行量化;以及
-量化器,用于对所述能量归一化输入通道互相关参数进行量化。
26.根据权利要求25所述的音频编码器设备,其中,所述第二编码器(140)被配置为基于从量化的通道能量电平差和量化的能量归一化输入通道互相关参数导出的量化通道预测参数来执行通道预测。
27.一种基于对输入比特流进行操作以重构具有至少两个通道的多通道音频信号的整体解码过程的音频解码方法,其中,所述方法包括以下步骤:
-执行第一解码过程,以基于所述输入比特流的第一部分,产生包括解码缩混信号的至少一个第一解码通道表示(S11);
-执行第二解码过程,以基于所述解码缩混信号的估计能量以及表示音频输入通道的至少一个能量表示的所述输入比特流的第二部分,产生至少一个第二解码通道表示(S12);
-基于所述解码的缩混信号的估计能量和表示音频输入通道的至少一个能量表示的所述输入比特流的所述第二部分,估计音频输入通道的输入通道能量(S13);
-在第三解码过程中,基于表示残余误差信号信息的所述输入比特流的第三部分,执行残余解码以产生残余误差信号(S14);
-将所述残余误差信号和来自至少包括所述第二解码过程的所述第一和第二解码过程中的至少一个解码过程的解码通道表示进行组合,以及至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生所述多通道音频信号(S15)。
28.根据权利要求27所述的音频解码方法,其中,执行所述能量补偿,以将所述多通道音频信号的输出通道的能量与估计出的输入通道能量进行匹配。
29.根据权利要求28所述的音频解码方法,其中,将所述多通道音频信号的输出通道与编码侧的相应输入通道在能量和质量方面相匹配,其中,用一比例来表示较高质量信号,以提高所述输出通道的整体质量,其中所述比例大于较低质量信号的比例。
30.根据权利要求27所述的音频解码方法,其中,当产生至少一个第二解码通道表示时,将所述通道能量补偿集成到所述第二解码过程中。
31.根据权利要求30所述的音频解码方法,其中,估计所述解码缩混信号的能量和所述残余误差信号的能量,以及所述第二解码过程基于所述解码缩混信号的能量和所述残余误差信号的能量。
32.根据权利要求27所述的音频解码方法,其中,在组合所述残余误差信号和解码通道表示之后,执行所述通道能量补偿。
33.根据权利要求32所述的音频解码方法,其中,将残余误差信号与来自所述第一和第二解码过程中至少一个的解码通道表示组合为多通道合成,且估计组合后的多通道合成的能量,以及基于组合后的多通道合成的估计能量和估计出的输入通道能量来执行所述通道能量补偿。
34.根据权利要求27所述的音频解码方法,其中,执行第二解码过程以产生至少一个第二解码通道表示的所述步骤(S12)包括合成预测通道的步骤,以及执行残余解码的所述步骤(S14)包括产生残余预测误差信号的步骤。
35.根据权利要求34所述的音频解码方法,其中,执行第二解码过程以产生至少一个第二解码通道表示的所述步骤(S12)包括以下步骤:
-从所述输入比特流的所述第二部分中导出所述音频输入通道的所述至少一个能量表示;
-至少部分地基于所述至少一个能量表示,估计通道预测参数;以及
-基于解码的缩混信号和估计出的通道预测参数,合成预测通道。
36.根据权利要求35所述的音频解码方法,其中,导出所述至少一个能量表示的所述步骤包括从所述输入比特流的所述第二部分中导出通道能量电平差和delta能量度量的步骤,其中所述delta能量度量为通道能量电平和与所述解码缩混信号的能量之比;以及
其中,基于所述解码缩混信号的估计能量、所述通道能量电平差以及delta能量度量,执行估计输入通道能量的所述步骤;
基于估计出的输入通道能量、所述解码缩混信号的估计能量以及所述残余误差信号的估计能量,执行估计通道预测参数的所述步骤。
37.根据权利要求35所述的音频解码方法,其中,导出所述至少一个能量表示的所述步骤包括从所述输入比特流的所述第二部分中导出通道能量电平差和归一化能量补偿参数的步骤;以及
其中,基于所述解码缩混信号的估计能量、所述通道能量电平差以及所述归一化能量补偿参数,执行估计输入通道能量的所述步骤;
基于所述通道能量电平差,执行估计通道预测参数的所述步骤;
合成预测通道的所述步骤基于解码缩混信号和估计出的通道预测参数;
组合所述残余误差信号和解码通道表示的所述步骤包括将所述残余误差信号和所述合成的预测通道组合为组合后的多通道合成的步骤;
其中,在所述组合步骤之后,通过以下步骤执行所述通道能量补偿:
-估计所述组合后的多通道合成的能量;
-基于估计出的输入通道能量和所述组合后的多通道合成的估计能量,确定能量修正因子;
-对所述组合后的多通道合成应用所述能量修正因子,以产生所述多通道音频信号。
38.根据权利要求35所述的音频解码方法,其中,导出所述至少一个能量表示的所述步骤包括从所述输入比特流的所述第二部分中导出通道能量电平差和能量归一化输入通道互相关参数的步骤;以及
其中,基于所述解码缩混信号的估计能量、所述通道能量电平差以及所述能量归一化输入通道互相关参数,执行估计输入通道能量的所述步骤;
基于所述通道能量电平差和所述能量归一化输入通道互相关参数,执行估计通道预测参数的所述步骤;
合成预测通道的所述步骤基于解码缩混信号和估计出的通道预测参数;
组合所述残余误差信号和解码通道表示的所述步骤包括将所述残余误差信号和所述合成的预测通道组合为组合后的多通道合成的步骤;
其中,在所述组合步骤之后,通过以下步骤执行所述通道能量补偿:
-估计所述组合后的多通道合成的能量;
-基于估计出的输入通道能量和所述组合后的多通道合成的估计能量,确定能量修正因子;
-对所述组合后的多通道合成应用所述能量修正因子,以产生所述多通道音频信号。
39.一种对输入比特流进行操作以重构具有至少两个通道的多通道音频信号的音频解码器设备(200),其中,所述音频解码器设备(200)包括:
-第一解码器(230),用于基于所述输入比特流的第一部分,产生包括解码缩混信号的至少一个第一解码通道表示;
-第二解码器(240),用于基于所述解码缩混信号的估计能量以及表示音频输入通道的至少一个能量表示的所述输入比特流的第二部分,产生至少一个第二解码通道表示;
-估计器(242),用于基于所述解码缩混信号的估计能量和表示音频输入通道的至少一个能量表示的所述输入比特流的所述第二部分,估计音频输入通道的输入通道能量;
-残余解码器(260),用于在第三解码过程中,基于表示残余误差信号信息的所述输入比特流的第三部分,执行残余解码,以产生残余误差信号;以及
-装置(270),用于将所述残余误差信号和来自至少包括所述第二解码过程的所述第一和第二解码过程中的至少一个解码过程的解码通道表示进行组合,以及用于至少部分地基于估计出的输入通道能量来执行通道能量补偿,以产生所述多通道音频信号。
40.根据权利要求39所述的音频解码器设备,其中,用于组合和执行通道能量补偿的所述装置(270)被配置为将所述多通道音频信号的输出通道的能量与估计出的输入通道能量相匹配。
41.根据权利要求40所述的音频解码器设备,其中,用于组合和执行通道能量补偿的所述装置(270)被配置为将所述多通道音频信号的输出通道与编码侧的相应输入通道在能量和质量方面进行匹配,其中,用于组合和执行通道能量补偿的所述装置(270)被配置为用一比例来表示较高质量信号,以提高所述输出通道的整体质量,其中所述比例大于低质量信号的比例。
42.根据权利要求39所述的音频解码器设备,其中,将所述通道能量补偿集成到所述第二解码器(240)中。
43.根据权利要求42所述的音频解码器设备,其中,所述音频解码器设备(200)包括:用于估计所述解码缩混信号的能量和所述残余误差信号的能量的装置,以及所述第二解码器(240)被配置为基于所述解码缩混信号的能量和所述残余误差信号的能量进行操作。
44.根据权利要求39所述的音频解码器设备,其中,用于组合和执行通道能量补偿的所述装置(270)包括:组合器,用于将所述残余误差信号和解码通道表示组合为组合后的多通道合成;以及通道能量补偿器,用于对所述组合后的多通道合成应用所述通道能量补偿以产生所述多通道音频信号。
45.根据权利要求44所述的音频解码器设备,其中,所述音频解码器设备(200)包括:用于估计组合后的多通道合成的能量的估计器,以及所述通道能量补偿器被配置为基于组合后的多通道合成的估计能量和估计出的输入通道能量来应用所述通道能量补偿。
46.根据权利要求39所述的音频解码器设备,其中,所述第一解码器(230)是缩混解码器,所述第二解码器(240)是被配置为用于合成预测通道的参数化解码器,以及所述残余解码器(260)被配置为用于产生残余预测误差信号。
47.根据权利要求46所述的音频解码器设备,其中,所述第二解码器(240)包括:
-导出器(241),用于从所述输入比特流的所述第二部分中导出所述音频输入通道的所述至少一个能量表示;
-估计器,用于至少部分地基于所述至少一个能量表示,估计通道预测参数;以及
-合成器,用于基于解码缩混信号和估计出的通道预测参数,合成预测通道。
48.根据权利要求47所述的音频解码器设备,其中,所述导出器被配置为从所述输入比特流的所述第二部分中导出通道能量电平差和delta能量度量,其中所述delta能量度量为通道能量电平和与来自与所述解码缩混信号的能量之比;以及
其中,用于估计输入通道能量的所述估计器(242)被配置为基于所述解码缩混信号的估计能量、所述通道能量电平差以及delta能量度量,估计输入通道能量;
用于估计通道预测参数的所述估计器被配置为基于估计出的输入通道能量、所述解码缩混信号的估计能量以及所述残余误差信号的估计能量,估计通道预测参数。
49.根据权利要求47所述的音频解码器设备,其中,所述导出器被配置为从所述输入比特流的所述第二部分中导出通道能量电平差和归一化能量补偿参数;以及
其中,用于估计输入通道能量的所述估计器(242)被配置为基于所述解码缩混信号的估计能量、所述通道能量电平差以及所述归一化能量补偿参数,估计输入通道能量;
用于估计通道预测参数的所述估计器被配置为基于所述通道能量电平差,估计通道预测参数;
用于合成预测通道的所述合成器被配置为基于解码缩混信号和估计出的通道预测参数,合成预测通道;
用于组合和执行通道能量补偿的所述装置(270)包括:用于将所述残余误差信号和所述合成的预测通道组合为组合后的多通道合成的组合器,以及包括以下各项的通道能量补偿器:
-估计器,用于估计所述组合后的多通道合成的能量;
-确定器,用于基于估计出的输入通道能量和所述组合后的多通道合成的估计能量,确定能量修正因子;
-能量修正器,用于对所述组合后的多通道合成应用所述能量修正因子,以产生所述多通道音频信号。
50.根据权利要求47所述的音频解码器设备,其中,所述导出器被配置为从所述输入比特流的所述第二部分中导出通道能量电平差和能量归一化输入通道互相关参数;以及
其中,用于估计输入通道能量的所述估计器(242)被配置为基于所述解码缩混信号的估计能量、所述通道能量电平差以及所述能量归一化输入通道互相关参数,估计输入通道能量;
用于估计通道预测参数的所述估计器被配置为基于所述通道能量电平差和所述能量归一化输入通道互相关参数,估计通道预测参数;
用于合成预测通道的所述合成器被配置为基于解码缩混信号和估计出的通道预测参数,合成预测通道;
用于组合和执行通道能量补偿的所述装置(270)包括:用于将所述残余误差信号和所述合成的预测通道组合为组合后的多通道合成的组合器,以及包括以下各项的通道能量补偿器:
-估计器,用于估计所述组合后的多通道合成的能量;
-确定器,用于基于估计出的输入通道能量和所述组合后的多通道合成的估计能量,确定能量修正因子;
-能量修正器,用于对所述组合后的多通道合成应用所述能量修正因子,以产生所述多通道音频信号。
CN2009801401393A 2008-10-10 2009-09-25 能量保留多通道音频编码 Expired - Fee Related CN102177542B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10440408P 2008-10-10 2008-10-10
US61/104,404 2008-10-10
PCT/SE2009/051071 WO2010042024A1 (en) 2008-10-10 2009-09-25 Energy conservative multi-channel audio coding

Publications (2)

Publication Number Publication Date
CN102177542A CN102177542A (zh) 2011-09-07
CN102177542B true CN102177542B (zh) 2013-01-09

Family

ID=42100797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801401393A Expired - Fee Related CN102177542B (zh) 2008-10-10 2009-09-25 能量保留多通道音频编码

Country Status (5)

Country Link
US (1) US9330671B2 (zh)
EP (1) EP2345027B1 (zh)
JP (1) JP5608660B2 (zh)
CN (1) CN102177542B (zh)
WO (1) WO2010042024A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
ES2415155T3 (es) * 2009-03-17 2013-07-24 Dolby International Ab Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
CN102157151B (zh) * 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
ES2950751T3 (es) * 2010-04-13 2023-10-13 Fraunhofer Ges Forschung Codificador de audio o vídeo, decodificador de audio o vídeo y métodos relacionados para procesar señales de audio o vídeo multicanal usando una dirección de predicción variable
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN102280107B (zh) * 2010-06-10 2013-01-23 华为技术有限公司 边带残差信号生成方法及装置
CN103069481B (zh) * 2010-07-20 2014-11-05 华为技术有限公司 音频信号合成器
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US9280980B2 (en) 2011-02-09 2016-03-08 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
TR201910075T4 (tr) * 2011-03-04 2019-08-21 Ericsson Telefon Ab L M Nicemleme sonrası kazanım düzeltmeli ses dekoderi.
NO2669468T3 (zh) * 2011-05-11 2018-06-02
WO2013188562A2 (en) * 2012-06-12 2013-12-19 Audience, Inc. Bandwidth extension via constrained synthesis
PT2883225T (pt) * 2012-08-10 2017-09-04 Fraunhofer Ges Forschung Codificador, descodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
BR112015025092B1 (pt) 2013-04-05 2022-01-11 Dolby International Ab Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
US9530422B2 (en) 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
US9646619B2 (en) 2013-09-12 2017-05-09 Dolby International Ab Coding of multichannel audio content
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
KR102486338B1 (ko) 2014-10-31 2023-01-10 돌비 인터네셔널 에이비 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
JP6798999B2 (ja) * 2015-02-27 2020-12-09 アウロ テクノロジーズ エンフェー. デジタルデータセットの符号化及び復号
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN106023999B (zh) * 2016-07-11 2019-06-11 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
US10553224B2 (en) 2017-10-03 2020-02-04 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
WO2019193156A1 (en) * 2018-04-05 2019-10-10 Telefonaktiebolaget Lm Ericsson (Publ) Support for generation of comfort noise
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN111402906B (zh) * 2020-03-06 2024-05-14 深圳前海微众银行股份有限公司 语音解码方法、装置、引擎及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124740A (zh) * 2005-02-23 2008-02-13 艾利森电话股份有限公司 用于多声道音频编码的自适应位分配

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
DE19742655C2 (de) 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
JP3571890B2 (ja) 1997-10-23 2004-09-29 古河電気工業株式会社 光ファイバのコア観察装置
JP3609623B2 (ja) 1998-07-14 2005-01-12 古河電気工業株式会社 異径コアファイバ接続部の接続損失推定方法および異径コアファイバの接続方法
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
SE523806C2 (sv) 2002-02-26 2004-05-18 Ericsson Telefon Ab L M Förfarande och anordning för att inrikta polarisationsaxlarna hos fiberändar i två optiska polarisationsbevarande fibrer med varandra
JP4805540B2 (ja) 2002-04-10 2011-11-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオ信号の符号化
US7181019B2 (en) 2003-02-11 2007-02-20 Koninklijke Philips Electronics N. V. Audio coding
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SE527713C2 (sv) * 2003-12-19 2006-05-23 Ericsson Telefon Ab L M Kodning av polyfoniska signaler med villkorsbegränsade filter
PL3561810T3 (pl) * 2004-04-05 2023-09-04 Koninklijke Philips N.V. Sposób kodowania lewego i prawego sygnału wejściowego audio, odpowiedni koder, dekoder i produkt w postaci programu komputerowego
ATE395686T1 (de) * 2004-04-05 2008-05-15 Koninkl Philips Electronics Nv Mehrkanal-codierer
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7945447B2 (en) 2004-12-27 2011-05-17 Panasonic Corporation Sound coding device and sound coding method
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
WO2007004828A2 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
TWI333795B (en) * 2006-02-23 2010-11-21 Lg Electronics Inc Method and apparatus for processing a audio signal
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
AU2007300813B2 (en) * 2006-09-29 2010-10-14 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101450940B1 (ko) 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
CA2701457C (en) * 2007-10-17 2016-05-17 Oliver Hellmuth Audio coding using upmix
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124740A (zh) * 2005-02-23 2008-02-13 艾利森电话股份有限公司 用于多声道音频编码的自适应位分配

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Gerard Hotho et al.A Backward-Compatible Multichannel Audio Codec.《IEEE Transactions on Audio,Speech,and Language Processing》.2008,第16卷(第1期), *

Also Published As

Publication number Publication date
US20110224994A1 (en) 2011-09-15
EP2345027A1 (en) 2011-07-20
JP5608660B2 (ja) 2014-10-15
EP2345027A4 (en) 2016-10-12
EP2345027B1 (en) 2018-04-18
CN102177542A (zh) 2011-09-07
US9330671B2 (en) 2016-05-03
JP2012505429A (ja) 2012-03-01
WO2010042024A1 (en) 2010-04-15

Similar Documents

Publication Publication Date Title
CN102177542B (zh) 能量保留多通道音频编码
CN101128866B (zh) 多声道音频编码中的优化保真度和减少的信令
CN101802907B (zh) 多信道音频的联合增强
CN101118747B (zh) 保真度优化的预回声抑制编码
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
US9478224B2 (en) Audio processing system
CN1748443B (zh) 多声道音频扩展支持
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
US20090110208A1 (en) Apparatus, medium and method to encode and decode high frequency signal
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
CN101395661B (zh) 音频编码和解码的方法和设备
CN102511062B (zh) 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
US20120010879A1 (en) Speech encoding/decoding device
US8352249B2 (en) Encoding device, decoding device, and method thereof
KR100832144B1 (ko) 지각적으로 개선된 음향신호의 엔코딩
KR20170070286A (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
US7725324B2 (en) Constrained filter encoding of polyphonic signals
KR102052144B1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
WO2009146734A1 (en) Multi-channel audio coding
Fuchs et al. A scalable CELP/transform coder for low bit Rate speech and audio coding
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130109

Termination date: 20210925

CF01 Termination of patent right due to non-payment of annual fee