CN103098126A - 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法 - Google Patents

音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法 Download PDF

Info

Publication number
CN103098126A
CN103098126A CN2011800283698A CN201180028369A CN103098126A CN 103098126 A CN103098126 A CN 103098126A CN 2011800283698 A CN2011800283698 A CN 2011800283698A CN 201180028369 A CN201180028369 A CN 201180028369A CN 103098126 A CN103098126 A CN 103098126A
Authority
CN
China
Prior art keywords
signal
channel
decoded
coding
composite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800283698A
Other languages
English (en)
Other versions
CN103098126B (zh
Inventor
海科·普尔纳根
蓬图斯·卡尔松
拉尔斯·维莱蒙斯
朱利安·罗比利亚德
马蒂亚斯·纽辛格
克里斯蒂安·赫尔姆里希
约翰内斯·希尔珀特
尼古劳斯·雷特尔巴赫
萨沙·迪施
贝恩德·埃德勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN103098126A publication Critical patent/CN103098126A/zh
Application granted granted Critical
Publication of CN103098126B publication Critical patent/CN103098126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一种音频编码器和音频解码器基于两个音频信道(201、202)的合成以获得作为中信号的第一合成信号(204)和可利用源自中信号的预测侧信号得出的剩余信号(205)。第一合成信号和预测剩余信号连同基于最优化目标(208)由优化器(207)得出的预测信息(206)一起被编码(209)并写入(212)数据流(213)中。解码器利用预测剩余信号、第一合成信号和预测信息得出解码后的第一信道信号和解码后的第二信道信号。在编码器实例或解码器实例中,实部-虚部转换可应用于估计第一合成信号的频谱的虚部。为计算在预测剩余信号的得出中使用的预测信号,实值第一合成信号乘以复预测信息的实部且第一合成信号的估计虚部乘以复预测信息的虚部。

Description

音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
技术领域
本发明涉及音频处理,且具体地,涉及具有两个以上信道信号的多信道信号的多信道音频处理。
背景技术
已知在多信道或立体声处理领域中应用所谓的中/侧(mid/side)立体声编码。在此概念中,形成了左或第一音频信道信号与右或第二音频信道信号的合成,以获得中间或单信号M。此外,形成了左或第一信道信号与右或第二信道信号之间的差,以获得侧信号S。当左信号与右信号彼此非常相似时,由于侧信号将变得非常小,所以该中/侧编码方法导致了显著的编码增益。通常,当要量化/熵编码的值的范围变得更小时,量化器/熵编码器级的编码增益将变得更高。因此,对于PCM或基于霍夫曼或算术熵编码器,当侧信号变得更小时,编码增益增大。然而,存在中/侧编码将不会导致编码增益的特定情况。该情况可能在两个信道中的信号彼此例如相移90°时发生。则中信号和侧信号可处于非常相似的范围内,且因此,利用熵编码器来编码中信号和侧信号将不会产生编码增益且甚至可能产生增大的位率。因此,例如在侧信号未相对于原始左信号变小到特定程度的情况下,可应用频率选择性的中/侧编码以停用频带中的中/侧编码。
尽管当左右信号相同时侧信号将变为零,但由于侧信号消除而产生了最大编码增益,当中信号与侧信号关于波形形状相同时,情况再次变得不同,但两个信号之间唯一不同是它们的总振幅。在该情况下,当另外假定侧信号与中信号无相移时,侧信号显著增大,尽管另一方面,中信号相对于其值的范围不会减少那么多。当该情况发生在特定频带中时,则由于缺少编码增益而将再次停用中/侧编码。中/侧编码可被频率选择性地应用或可替代性地应用在时域中。
存在不依赖于与中/侧编码相同的波形方法类型而依赖于基于特定双耳线索的参数处理的替代性多信道编码技术。该技术被冠名为术语“双耳线索编码”、“参数立体声编码”或“MPEG环绕编码”。这里,特定线索针对多个频带而计算。这些线索包括内信道量级差、内信道相干性测量、内信道时间差和/或内信道相差。这些方法从假定由听众感受到的多信道印象不必依赖于两个信道的精细波形而是依赖于准确的频率选择性提供的线索或内信道信息开始。这意味着,在渲染机中,必须关注渲染准确反映线索的多信道信号,但波形不具决定性意义。
该方法可能在解码器必须应用解相关处理以人工产生彼此解相关的立体声信号的情况下尤其复杂,尽管所有这些信道均源自一个和相同的下混信道。根据它们的实施,为此目的的解相关器复杂且可能引入伪差,尤其在瞬时信号部分的情况下。此外,相比波形编码,参数编码方法是有损编码方法,其不可避免地导致由典型量化引入的以及通过关注双耳线索而非具体波形而引入的信息损失。该方法产生非常低的位率,但可能包括质量折衷。
存在对图7a所示的统一语音和音频编码(USAC)的新发展。核心解码器700在输入端701处执行编码立体声信号的解码操作,该编码立体声信号可以是中/侧编码的。核心解码器在线702上输出中信号且在线703上输出侧或剩余(residual,余差)信号。两个信号由QMF滤波器组704和705转换到QMF域中。随后,应用MPEG环绕解码器706来生成左信道信号707和右信道信号708。这些低频带信号随后被引入频带复制(SBR)解码器709中,解码器709在线710和711上生成宽带左信号和右信号,宽带左信号和右信号随后由QMF合成滤波器组712、713转换到时域中,从而获得宽带左右信号L、R。
图7b示出了MPEG环绕解码器706将执行中/侧解码的情况。可替代地,MPEG环绕解码器块706可执行基于双耳线索的参数解码以由单个单核解码器信号生成立体声信号。自然,MPEG环绕解码器706也可使用诸如内信道量级差、内信道相干性测量或其他这种内信道信息参数的参数信息来生成多个低频带输出信号,该多个低频带输出信号将被输入到SBR解码器块709中。
当MPEG环绕解码器块706执行图7b所示中/侧解码时,可应用实际增益因子g,且DMX/RES和L/R分别为在复混合QMF域中给出的下混/剩余和左/右信号。
使用块706与块709的结合仅使计算复杂度相比用作基础的立体声解码器小幅增加,因为信号的复QMF表示已可用作SBR解码器的一部分。然而,在非SBR配置中,由于该实例性64频带分析组和64频带合成组中将需要的必要QMF组,如USAC背景下提出的基于QMF的立体声编码将导致计算复杂度显著增加。仅为立体声编码的目的,必须添加这些滤波器组。
然而,在正处于开发中的MPEG USAC系统中,通常在未使用SBR时,也存在高位率的编码模式。
发明内容
本发明的目的在于提供一种改善后的音频处理概念,其一方面产生高编码增益,且另一方面,产生良好音频质量和/或减小的运算复杂度。
该目的由根据权利要求1所述的音频解码器、根据权利要求15所述的音频编码器、根据权利要求21所述的音频解码方法、根据权利要求22所述的音频编码方法、根据权利要求23所述的计算机程序或根据权利要求24所述的编码后的多信道音频信号来实现。
本发明依赖于高质量波形编码方法的编码增益可通过利用第一合成信号预测第二合成信号来显著增强的研究成果,其中,利用合成规则(诸如中/侧合成规则),这两个合成信号均源自于原始信道信号。已发现该预测信息由音频编码器中的预测器来计算,从而满足最优化目标,仅产生很小开销,但却在不损失任何音频质量的情况下使得侧信号所需的位率显著减小,因为本发明的预测终究是基于波形的编码而非基于参数的立体声或多信道编码方法。为减小计算复杂性,优选执行频域编码,其中,预测信息以频带选择方式源自于频域输入数据。用于将时域表示转换成频谱表示的转换算法优选是临界采样过程(critically sampled process)(诸如修改后的离散余弦转换(MDCT)或修改后的离散正弦转换(MDST)),其与复转换的不同之处在于仅计算实值或仅计算虚值,而在复转换中,计算频谱的实值和复值,产生2倍过采样。
优选地,使用基于混叠(aliasing)引入和消除的转换。具体地,MDCT即是这种转换且允许在随后的块之间交叉淡入淡出而没有任何开销,这是由于由解码器侧的交叠-相加处理获得的已知时域混叠消除(TDAC)特性所致。
优选地,在编码器中计算、发送至解码器以及在解码器中使用的预测信息包括虚部,该虚部可有利地反映在0°与360°之间任意选择的量的两音频信道之间的相位差。当仅实值转换或者一般地,仅提供实部频谱或仅提供虚部频谱的转换被应用时,计算复杂性显著降低。为利用指示左信号的特定频带与右信号的相应频带之间的相移的这一虚预测信息,实部-虚部转换器或者取决于转换实施、虚部-实部转换器在解码器中被提供以由第一合成信号来计算相对于原始合成信号相位旋转的预测剩余信号。该相位旋转预测剩余信号可随后与在位流中传送的预测剩余信号合成以重新产生侧信号,该侧信号最终可与中信号合成以获得特定频带中的解码左信道和该频带中的解码右信道。
为提高音频质量,当预测剩余信号在编码器中计算时,应用于解码器侧的相同的实部-虚部或虚部-实部转换器也在编码器侧实施。
本发明的优势在于其提供了相比具有相同位率或具有相同音频质量的系统的改善后的音频质量和降低的位率。
此外,在通常未使用SBR的情况下,获得了有关在高位速率下的MPEG USAC系统中有用的统一立体声编码的计算效率的优势。这些方法在基本的立体声转换编码器的本地MDCT域中实施基于剩余的预测立体声编码,而不是处理复混合QMF域中的信号。
根据本发明的一个方面,本发明包括用于由MDCT域中的复预测生成立体声信号的设备或方法,其中,复预测利用实数-复数转换在MDCT域中完成,其中,该立体声信号可以是编码器侧的编码立体声信号,或者可替代地,当用于生成立体声信号的设备或方法被应用于解码器侧时可以是解码/发送立体声信号。
附图说明
随后参照附图来讨论本发明的优选实施方式,其中:
图1是音频解码器的优选实施方式的示意图;
图2是音频编码器的优选实施方式的框图;
图3a示出了图2的编码器计算器的实施;
图3b示出了图2的编码器计算器的替代性实施;
图3c示出了应用于编码器侧的中/侧合成规则;
图4a示出了图1的解码器计算器的实施;
图4b示出了矩阵计算器形式的解码器计算器的替代性实施;
图4c示出了对应于图3c所示的合成规则的中/侧逆合成规则;
图5a示出了在优选为实值频域的频域中工作的音频编码器的实施方式;
图5b示出了在频域中工作的音频解码器的实施;
图6a示出了在MDCT域中工作并利用实部-虚部转换的音频编码器的替代性实施;
图6b示出了在MDCT域中工作并利用实部-虚部转换的音频解码器;
图7a示出了利用立体声解码器和随后连接的SBR解码器的音频后处理器;
图7b示出了中/侧上混矩阵;
图8a示出了图6a中的MDCT块的详细示图;
图8b示出了图6b的MDCT-1块的详细示图;
图9a示出了以相对于MDCT输出的减小的分辨率运行的优化器的实施;
图9b示出了计算预测信息的MDCT频谱和相应的较低分辨率频带的表示;
图10a示出了图6a或图6b中的实部-虚部转换器的实施;以及
图10b示出了图10a的虚部频谱计算器的可行实施。
具体实施方式
图1示出了用于解码在输入线100处获得的编码后的多信道音频信号的音频解码器。该编码后的多信道音频信号包括利用用于合成表示多信道音频信号的第一信道信号与第二信道信号的合成规则生成的编码后的第一合成信号、编码后的预测剩余信号和预测信息。该编码后的多信道信号可以是数据流,诸如具有三个复用形式分量的位流。其他侧信息可包括在线100上的编码后的多信道信号中。该信号被输入到输入接口102中。输入接口102可被实施为数据流解复用器,其在线104上输出编码后的第一合成信号,在线106上输出编码后的剩余信号,以及在线108上输出预测信息。优选地,该预测信息是具有不等于零的实部和/或异于零的虚部的因子。编码后的合成信号和编码后的剩余信号被输入到信号解码器110中来解码第一合成信号以在线112上获得解码后的第一合成信号。此外,信号解码器110被配置为解码编码后的剩余信号以在线114上获得解码后的剩余信号。根据音频编码器侧的编码处理,该信号解码器可包括熵解码器(诸如霍夫曼解码器、算术解码器或任何其他熵解码器),以及用于执行与关联音频编码器中的量化运算相匹配的解量化运算的随后连接的解量化级。线112和114上的信号被输入到解码器计算器115中,解码器计算器115在线117上输出第一信道信号,以及在线118上输出第二信道信号,其中,这两个信号是立体声信号或多信道音频信号的两个信道。例如,当多信道音频信号包括五个信道时,则这两个信号是来自多信道信号的两个信道。为完全编码具有五个信道的这种多信道信号,可应用图1所示的两个解码器,其中,第一解码器处理左信道和右信道,第二解码器处理左环绕信道和右环绕信道,以及第三单信道解码器将用于执行中心信道的单信道编码。然而,也可应用波形编码器和参数编码器的其他分组或组合。概括多于两个信道的预测方案的替代性方式将是同时处理三个(或更多个)信号,即利用两个预测系数由第一和第二信号来预测第三合成信号,非常类似于MPEG环绕声中的“二到三”模块。
解码器计算器116被配置为利用解码后的剩余信号114、预测信息108和解码后的第一合成信号112来计算具有解码后的第一信道信号117和解码后的第二信道信号118的解码后的多信道信号。具体地,解码器计算器116被配置为以使解码后的第一信道信号和解码后的第二信道信号至少为输入到相应编码器中的多信道信号的第一信道信号和第二信道信号的近似这一方式来工作,当生成第一合成信号和预测剩余信号时,解码后的第一信道信号和解码后的第二信道信号由合成规则来合成。具体地,线108上的预测信息包括异于零的实值部分和/或异于零的虚部。
解码器计算器116可以不同方式来实施。第一实施在图4a中示出。该实施包括预测器1160、合成信号计算器1161和合成器1162。该预测器接收解码后的第一合成信号112和预测信息108,并输出预测信号1163。具体地,预测器1160被配置为向解码后的第一合成信号112或源自于解码后的第一合成信号的信号应用预测信息108。用于导出应用预测信息108的该信号的导出规则可以是实部-虚部转换,或等价地,虚部-实部转换或加权运算,或者根据实施,相移运算或合成的加权/相移运算。预测信号1163与解码后的剩余信号一起输入到合成信号计算器1161中以计算解码后的第二合成信号1165。信号112和1165均被输入到合成器1162中,合成器1162合成解码后的第一合成信号与第二合成信号以分别在输出线1166和1167上获得具有解码后的第一信道信号和解码后的第二信道信号的解码后的多信道音频信号。可替代地,该解码器计算器被实施为矩阵计算器1168,该矩阵计算器1168接收解码后的第一合成信号或信号M、解码后的剩余信号或信号D以及预测信息α108作为输入。矩阵计算器1168向信号M、D应用如1169所示的转换矩阵以获得输出信号L、R,其中,L是解码后的第一信道信号,以及R是解码后的第二信道信号。图4b中的符号类似于具有左信道L和右信道R的立体声符号。该符号已被应用以提供更简单的理解,但对于本领域技术人员而言,显然信号L、R可以是具有多于两个信道信号的多信道信号中的两个信道信号的任何合成。矩阵运算1169将图4a的块1160、1161和1162中的运算统一成一种“单次”矩阵计算,且向图4a电路的输入和从图4a电路的输出与向矩阵计算器1168的输入或从矩阵计算器1168的输出相同。
图4c示出了关于由图4a中的合成器1162应用的逆合成规则的一个实例。具体地,该合成规则类似于已知的中/侧编码中的解码器侧合成规则,其中,L=M+S,且R=M-S。需要理解,由图4c中的逆合成规则使用的信号S是由合成信号计算器计算的信号,即线1163上的预测信号与线114上的解码后的剩余信号的合成。需要理解,在该说明书中,线上的信号有时由用于该线的附图标记来命名,或者有时由已属于该线的附图标记本身来指示。因此,该符号如下:具有特定信号的线指示信号本身。线可以是硬连线实施中的物理线。然而,在计算机化实施中,物理线并不存在,但由该线表示的信号从一个计算模块被发送至另一计算模块。
图2示出了用于编码具有两个以上信道信号的多信道音频信号200的音频编码器,其中,第一信道信号在201处示出且第二信道在202处示出。两个信号均被输入到编码器计算器203中以利用第一信道信号201和第二信道信号202以及预测信息206来计算第一合成信号204和预测剩余信号205,使得当预测剩余信号205与源自于第一合成信号204和预测信息206的预测信号合成时,产生第二合成信号,其中,利用合成规则,第一合成信号和第二合成信号均可从第一信道信号201和第二信道信号202获得。
该预测信息由用于计算预测信息206的优化器207生成,使得预测剩余信号满足最优化目标208。第一合成信号204和剩余信号205被输入到信号编码器209中以编码第一合成信号204来获得编码后的第一合成信号210以及编码剩余信号205来获得编码后的剩余信号211。编码信号210、211两者均被输入到输出接口212中以合成编码后的第一合成信号210和编码后的预测剩余信号211以及预测信息206来获得编码后的多信道信号213,编码后的多信道信号213与输入到图1所示的音频解码器的输入接口102中的编码后的多信道信号100类似。
根据实施,优化器207接收第一信道信号201和第二信道信号202,或如由线214和215所示源自于图3a的合成器2031的第一合成信号214和第二合成信号215,这将后续讨论。
优选的最优化目标在图2中示出,其中,编码增益被最大化,即尽可能降低位率。在该最优化目标中,剩余信号D相对于α被最小化。换言之,这意味着预测信息α被选定为使得||S–αM||2最小化。这产生了针对图2所示α的解。信号S、M以逐块方式给出,且优选为频域信号,其中,符号||…||是指自变量的2-范数,以及其中,<…>通常示出点积。当第一信道信号201和第二信道信号202被输入到优化器207中时,则该优化器将必须应用合成规则,其中,示例性合成规则在图3c中示出。然而,当第一合成信号214和第二合成信号215被输入到优化器207中时,则优化器207本身并不需要实施该合成规则。
其他最优化目标可与感知质量有关。最优化目标可以是获得最大感知质量。则该优化器将需要来自感知模型的附加信息。最优化目标的其他实施可与获得最小的或固定的位率有关。则优化器207将被实施以执行量化/熵编码操作来确定特定α值所需的位率,使得α可被设定为满足这些要求,诸如最小位率,或可替代地,固定位率。该最优化目标的其他实施可与编码器或解码器资源的最小利用率有关。在实施该最优化目标的情况下,关于特定最优化所需资源的信息将可供优化器207使用。此外,这些最优化目标或其他最优化目标的合成可用于控制计算预测信息206的优化器207。
图2中的编码器计算器203可以不同方式来实施,其中,示例性第一实施在图3a中示出,其中,显式(explicit)合成规则在合成器2031中执行。替代性示例性实施在图3b中示出,其中,使用矩阵计算器2039。图3a中的合成器2031可被实施以执行图3c所示的合成规则,该合成规则是示例性已知的中/侧编码规则,其中,加权因子0.5被应用于所有分支。然而,根据实施,可实现其他加权因子或完全没有加权因子。此外,需要注意,只要存在可应用于图4a所示的解码器合成器1162的相应逆合成规则(解码器合成器1162应用与由编码器应用的合成规则相反的合成规则),可应用其他合成规则(诸如其他线性合成规则或非线性合成规则)。由于本发明的预测,任何可逆预测规则均可被使用,因为对波形的影响被该预测“平衡”,即任何误差均包括在所发送的剩余信号中,这是因为由与编码器计算器203结合的优化器207执行的预测操作是波形保持处理。
合成器2031输出第一合成信号204和第二合成信号2032。该第一合成信号被输入到预测器2033中,以及第二合成信号2032被输入到剩余计算器2034中。预测器2033计算预测信号2035,该预测信号2035与第二合成信号2032合成以最终获得剩余信号205。具体地,合成器2031被配置为以两种不同方式来合成多信道音频信号的两个信道信号201和202以获得第一合成信号204和第二合成信号2032,其中,这两种不同方式在图3c的示例性实施方式中示出。预测器2033被配置为向第一合成信号204或源自于该第一合成信号的信号应用预测信息以获得预测信号2035。源自于该合成信号的信号可由任何非线性或线性运算来导出,其中,实部-虚部转换/虚部-实部转换是优选的,该转换可利用线性滤波器(诸如执行特定值的加权加法的FIR滤波器)来实施。
图3a中的剩余计算器2034可执行减法运算,使得该预测信号从第二合成信号中被减去。然而,该剩余计算器中的其他运算也是可行的。相应地,图4a中的合成信号计算器1161可执行加法运算,其中,解码后的剩余信号114与预测信号1163相加到一起来获得第二合成信号1165。
图5a示出了音频编码器的优选实施。相比图3a所示的音频编码器,第一信道信号201是时域第一信道信号55a的频谱表示。相应地,第二信道信号202是时域信道信号55b的频谱表示。从时域到频谱表示的转换由用于第一信道信号的时间/频率转换器50和用于第二信道信号的时间/频率转换器51来执行。优选但非必要地,频谱转换器50、51被实施为实值转换器。转换算法可以是离散余弦转换、仅使用实部的FFT变换、MDCT或提供实值频谱值的任何其他转换。可替代地,这两种转换均可被实施为虚部转换,诸如仅使用虚部而摒弃实部的DST、MDST或FFT。也可使用仅提供虚部的任何其他转换。利用纯实值转换或纯虚部转换的一个目的在于计算复杂性,因为对于每一频谱值而言,仅单一值(诸如幅值或实部)必须被处理,或者可替代地,相位或虚部必须被处理。相比之下,对于完全复转换(诸如FFT),两个值(即针对每一频谱线的实部和虚部)将必须被处理,这使计算复杂性增加至少2的倍数。这里,利用实值转换的另一原因是该转换通常是临界采样的,且因此为信号量化和熵编码(实施在“MP3”、AAC或类似音频编码系统中的标准“感知音频编码”范例)提供合适(和常用)的域。
图5a另外示出了作为加法器的剩余计算器2034,其在“加”输入处接收侧信号并在“减”输入处接收由预测器2033输出的预测信号。此外,图5a示出了预测器控制信息从优化器转发至复用器212的情况,该复用器212输出表示编码后的多信道音频信号的复用位流。具体地,预测操作以侧信号由中信号预测这一方式来执行,如由图5a右侧方程所示。
优选地,预测器控制信息206是如图3b右侧所示的因子。在预测控制信息仅包括实部(诸如复值α的实部或复值α的大小,其中,该部分对应于异于零的因子)的实施方式中,当中信号与侧信号由于其波形结构而彼此类似但具有不同振幅时,可获得显著的编码增益。
然而,当预测控制信息仅包括第二部分(该第二部分可以是复值因子的虚部或复值因子的相位信息,其中,该虚部或相位信息异于零)时,本发明对于彼此相移异于0°或180°的值以及除相移之外具有类似波形特性和类似振幅关系的信号获得显著编码增益。
优选地,预测控制信息是复值的。则可针对振幅不同且相移的信号获得显著编码增益。在时间/频率转换提供复频谱的情况下,运算2034将是复运算,其中,该预测器控制信息的实部被应用于复频谱M的实部以及该复预测信息的虚部被应用于复频谱的虚部。则在加法器2034中,该预测操作的结果是预测实部频谱和预测虚部频谱,且该预测实部频谱将从侧信号S的实部频谱中被减去(频带式),以及该预测虚部频谱将从S的频谱虚部中被减去以获得复的剩余频谱D。
时域信号L和R是实值信号,但频域信号可以是实值或复值的。当频域信号为实值时,则该转换是实值转换。当频域信号为复数时,则该转换是复值转换。这意味着到时间-频率转换的输入和频率-时间转换的输出是实值的,而频域信号可以是例如复值QMF域信号。
图5b示出了对应于图5a所示的音频编码器的音频解码器。关于图1音频解码器的类似元件具有类似附图标记。
由图5a中的位流复用器212输出的位流被输入到图5b中的位流解复用器102中。位流解复用器102将该位流解复用为下混信号M和剩余信号D。下混信号M被输入到解量化器110a中。剩余信号D被输入到解量化器110b中。此外,位流解复用器102将来自位流的预测器控制信息108解复用并同样输入到预测器1160中。预测器1160输出预测侧信号α·M,以及合成器1161合成由解量化器110b输出的剩余信号与预测侧信号以最终获得重构侧信号S。该信号随后被输入到合成器1162中,合成器1162执行例如和/差处理,如图4c中针对中/侧编码所示。具体地,块1162执行(逆)中/侧解码以获得左信道的频域表示和右信道的频域表示。该频域表示随后由相应频率/时间转换器52和53转换为时域表示。
根据系统的实施,当频域表示是实值表示时,频率/时间转换器52、53是实值频率/时间转换器,或者当频域表示是复值表示时,频率/时间转换器52、53是复值频率/时间转换器。
然而,对于提高效率而言,执行实值转换是优选的,如针对编码器的图6a中和针对解码器的图6b中的另一实施所示。实值转换50和51由MDCT实施。此外,预测信息按照具有实部和虚部的复值来计算。由于两频谱M、S均为实值频谱,且因此由于该频谱的虚部不存在,所以提供了由信号M的实值频谱计算估计的虚部频谱600的实部-虚部转换器2070。该实部-虚部转换器2070是优化器207的一部分,且由块2070估计的虚部频谱600与实部频谱M一起被输入到α优化器级2071中以计算预测信息206,预测信息206现在具有在2073处所示的实值因子和在2074处所示的虚部因子。现在,根据该实施方式,第一合成信号M的实值频谱乘以实部αR2073以获得预测信号,该预测信号随后从实值侧频谱中被减去。此外,虚部频谱600乘以在2074处所示的虚部αI以获得另一预测信号,其中,该预测信号随后从在2034b处所示的实值侧频谱中被减去。随后,预测剩余信号D在量化器209b中被量化,而M的实值频谱在块209a中被量化/编码。此外,优选在量化器/熵编码器2072中量化和编码预测信息α以获得编码后的复α值,该复α值被转发至例如图5a的位流复用器212,且其最终被输入到位流中作为预测信息。
关于针对α的量化/编码(Q/C)模块2072的位置,需要注意,乘法器2073和2074优选利用恰好相同的(量化)α,α也将在解码器中使用。因此,我们可直接移动2072到2071的输出,或者我们可考虑α的量化已在2071的优化处理中考虑到。
尽管我们可在编码器侧计算复频谱,但由于所有信息均可用,所以优选在编码器的块2070中执行实数-复数转换,从而产生关于图6b所示解码器的类似情况。解码器接收第一合成信号的实值编码频谱和编码后的剩余信号的实值频谱表示。此外,编码后的复预测信息在108处获得,且熵解码和解量化在块65中执行以获得1160b处所示的实部αR和1160c处所示的虚部αI。由加权元件1160b和1160c输出的中信号被添加到解码和解量化后的预测剩余信号中。具体地,在复预测因子的虚部被用作加权因子的情况下,输入到加权器1160c中的频谱值由实部-虚部转换器1160a从实值频谱M获得,这优选以与有关编码器侧的图6a的块2070相同的方式来实施。与编码器侧相比,在解码器侧,中信号或侧信号的复值表示不可用。原因在于由于位率和复杂性的原因,仅编码后的实值频谱从编码器被发送至解码器。
实部-虚部转换器1160a或图6a的相应块2070可按照在WO2004/013839A1或WO2008/014853A1或者美国专利第6,980,933号中公开的来实施。可替代地,本领域已知的任何其他实施均可被应用,且优选实施在图10a、图10b背景下讨论。
具体地,如图10a所示,实部-虚部转换器1160a包括连接至虚部频谱计算器1001的频谱帧(frame)选择器1000。频谱帧选择器1000在输入1002处接收当前帧i的指示,且根据实施,在控制输入1003处接收控制信息。例如,当线1002上的指示指出要计算关于当前帧i的虚部频谱时,以及当控制信息1003指出仅当前帧将被用于计算时,则频谱帧选择器1000仅选择当前帧i并将该信息转发至虚部频谱计算器。随后,虚部频谱计算器仅利用当前帧i的频谱线来针对频率接近或在当前频谱线k附近执行位于当前帧中的线的加权合成(块1008),虚部线将如图10b中的1004所示来计算。然而,当频谱帧选择器1000接收指示前一帧i-1和后一帧i+1也将用于计算虚部频谱的控制信息1003时,则该虚部频谱计算器另外接收来自帧i-1和i+1的值,并执行关于帧i-1的1005和关于帧i+1的1006处所示的相应帧中的线的加权合成。加权运算的结果由块1007中的加权合成来合成以最终获得关于帧fi的虚部线k,该虚部线k随后乘以元件1160c中的预测信息的虚部以获得关于该线的预测信号,该预测信号随后被添加至关于解码器的加法器1161b中的中信号的相应线。在编码器中,执行相同操作,但在元件2034b中完成减法。
必须指出,控制信息1003可另外指示使用多于两个周围帧的帧,或者例如仅利用当前帧和恰好一个或多个先前帧而不利用“未来”帧以减少系统性延迟。
此外,需要指出,图10b所示的第一操作中来自一个帧的线被合成且随后来自这些逐帧合成操作的结果自身合成的逐级加权合成也可以另一顺序来执行。另一顺序意味着在第一步骤中,关于来自由控制信息103所示的一些相邻帧的当前频率k的线由加权合成来合成。根据将用于估计虚部线的相邻线的数目,该加权合成针对线k、k-1、k-2、k+1、k+2等来完成。随后,来自这些“逐个时间”合成的结果经过“频率方向”中的加权合成以最终获得关于帧fi的虚部线k。优选地,权重被设定为-1与1之间的值,且该权重可以直接FIR或IIR滤波器合成来实施,该直接FIR或IIR滤波器合成执行来自不同频率和不同帧的频谱线或频谱信号的线性合成。
如图6a和图6b所示,优选转换算法为MDCT转换算法,其应用于图6a的元件50和51中的正向且应用于元件52、53中的反向,并在频谱域中运行的合成器1162中的合成操作之后。
图8a示出了块50或51的更详细实施。具体地,时域音频样本的序列被输入到分析窗口器500中,分析窗口器500利用分析窗口来执行窗口化操作,且具体地,以逐帧方式来执行该操作,但利用50%的步长(stride)或交叠。该分析窗口器的结果(即窗口化样本的帧序列)被输入到MDCT转换块501中,MDCT转换块501输出实值MDCT帧的序列,其中,这些帧被混叠影响。示例性地,该分析窗口器应用具有2048个样本长度的分析窗口。随后,MDCT转换块501输出具有1024条实部频谱线或MDCT值的MDCT频谱。优选地,分析窗口器500和/或MDCT转换器501可由窗口长度或转换长度控制502来控制,使得例如对于信号中的瞬时部分,减小窗口长度/转换长度以获得较好的编码结果。
图8b示出了块52和53中执行的逆MDCT运算。示例性地,块52包括用于执行逐帧逆MDCT转换的块520。例如,当MDCT值的帧具有1024个值时,则该MDCT逆转换的输出具有2048个混叠影响的时间样本。该帧被提供给合成窗口器521,合成窗口器521对2048个样本的该帧应用合成窗口。窗口化帧随后被转发至交叠/相加处理器522,示例性地,交叠/相加处理器522在两个连续帧之间应用50%的交叠,且随后执行逐样本相加,使得2048个样本的块最终产生无混叠输出信号的1024个新样本。另外,优选利用例如在编码后的多信道信号的侧信息中传送的信息来应用523处所示的窗口/转换长度控制。
α预测值可针对MDCT频谱的每条单个频谱线来计算。然而,已发现这并不是必需的,且可通过执行预测信息的逐频带计算来节省大量侧信息。换言之,图9所示频谱转换器50例如是如图8a背景下讨论的MDCT处理器,其提供具有图9b中所示的特定频谱线的高频分辨率频谱。该高频分辨率频谱被频谱线选择器90利用,频谱线选择器90提供包括特定频带B1、B2、B3、…、BN的低频分辨率频谱。该低频分辨率频谱被转发至用于计算预测信息的优化器207,使得预测信息不针对每一频谱线来计算,而是仅针对每一频带来计算。为此,优化器207接收每一频带中的频谱线,并始于相同α值用于频带中的所有频谱线的假设来计算最优化操作。
优选地,频带以心理声学方式成形,使得该频带的带宽从低频增至高频,如图9b所示。可替代地,尽管不如增加的带宽实施那样优选,但也可使用等大小的频带,其中,每一频带具有至少两个或通常更多,诸如至少30条频率线。通常,对于1024条频谱线的频谱,少于30个复α值且优选地,多于5个α值被计算。对于具有少于1024条频谱线(例如,128条线)的频谱,优选更少的频带(例如,6个)被用于α。
对于计算α值而言,不一定需要高分辨率的MDCT频谱。可替代地,具有类似于计算α值所需分辨率的频率分辨率的滤波器组也可被利用。当要实施频率上增大的频带时,则该滤波器组应具有变化的带宽。然而,当从低频到高频的恒定带宽足够时,则具有等宽次频带的传统滤波器组可被使用。
根据实施,图3b或图4b所示的α值的符号可反转。然而,为保持一致,该符号反转必须用于编码器侧以及用于解码器侧。相比图6a,图5a示出了编码器的概图,其中,项目2033是由预测器控制信息206控制的预测器,预测器控制信息206在项目207中被确定,且嵌入位流中作为侧信息。代替图6a的块50、51中使用的MDCT,一般化时间/频率转换如所讨论的用于图5a中。如先前所述,图6a是对应于图6b中的解码器处理的编码器处理,其中,L代表左信道信号,R代表右信道信号,M代表中信号或下混信号,S代表侧信号,以及D代表剩余信号。可替代地,L也被称作第一信道信号201,R也被称作第二信道信号202,M也被称作第一合成信号204,以及S也被称作第二合成信号2032。
优选地,编码器中的模块2070和解码器中的1160a应恰好匹配以确保正确的波形编码。这优选适用于以下情况:其中,这些模块利用某些形式的近似,诸如截尾滤波,或者当仅利用一个或两个而非三个MDCT帧(即线60上的当前MDCT帧、线61上的前一MDCT帧、以及线62上的下一MDCT帧)时。
此外,优选图6a的编码器中的模块2070利用非量化MDCT频谱M作为输入,尽管解码器中的实部-虚部(R2I)模块1160a仅具有量化的MDCT频谱可用作输入。可替代地,我们还可利用编码器使用量化的MDCT系数作为向模块2070的输入的实施。然而,从感知观点来看,利用非量化的MDCT频谱作为向模块2070的输入是优选方法。
随后,更详细讨论本发明实施方式的若干方面。
标准的参数立体声编码依赖于过采样复(混合)QMF域允许时间和频率变化的感知激励的信号处理而不引入混叠伪差的能力。然而,在下混/剩余编码(如用于这里考虑的高位率)的情况下,所获得的统一立体声编码器用作波形编码器。由于波形编码范例确保MDCT-IMDCT处理链的混叠消除特性被足够好地保留,所以这允许在临界采样域(如MDCT域)中的操作。
然而,为能够利用可在具有信道间时间或相位差的立体声信号的情况下利用复值预测系数α实现的改善后的编码效率,下混信号DMX的复值频域表示需要作为向复值上混矩阵的输入。这可通过使用除了对DMX信号的MDCT转换之外的MDST转换来获得。MDST频谱可由MDCT频谱(精确或作为近似地)计算。
此外,上混矩阵的参数化可通过发送复预测系数α代替MPS参数来简化。因此,仅两个参数(α的实部和虚部)而非三个(ICC、CLD和IPD)被发送。在下混/剩余编码的情况下,这由于MPS参数化中的冗余而可行。MPS参数化包括关于添加到解码器中的解相关的相对量(即RES与DMX信号之间的能量比)的信息,且当实际DMX和RES信号被发送时,该信息是冗余的。
由于相同原因,在下混/剩余编码的情况下,上述上混矩阵中所示的增益因子g被舍弃。因此,用于利用复预测的下混/剩余编码的上混矩阵现在是:
L R = 1 - &alpha; 1 1 + &alpha; - 1 DMX RES .
相比图4b中的方程1169,α的符号在该方程中相反,以及DMX=M且RES=D。因此,相对于图4b,这是替代性实施/符号。
两个选择可用于在编码器中计算预测剩余信号。一个选择是利用下混的量化MDCT频谱值。由于编码器和解码器利用相同值来生成预测,所以这将导致与M/S编码相同的量化误差分布。另一选择是利用非量化的MDCT频谱值。这意味着编码器和解码器将不使用相同数据来生成预测,这允许编码误差根据信号的瞬时屏蔽特性空间上重新分布,代价是编码增益有所减少。
优选如所讨论的利用三个相邻MDCT帧的二维FIR滤波在频域中直接计算MDST频谱。后者可被视为“实部-虚部”(R2I)转换。MDST的频域运算的复杂性可以不同方式来减小,这意味着仅MDST频谱的近似被计算:
·限定FIR滤波器分接(tap)的数目。
·仅由当前MDCT帧来估计MDST。
·由当前和前一MDCT帧来估计MDST。
只要相同近似法用在编码器和解码器中,波形编码特性不受影响。然而,这种MDST频谱的近似法可能导致由复预测获得的编码增益的减小。
若基本MDCT编码器支持窗口形状切换,则用于计算MDST频谱的二维FIR滤波器的系数必须适应实际窗口形状。应用于当前框的MDCT频谱的滤波器系数取决于完整窗口,即每种窗口类型和每一窗口过渡所需的一组系数。应用前一/下一帧的MDCT频谱的滤波器系数仅取决于窗口与当前帧的半交叠,即这组系数仅需要针对每一种窗口类型来使用(无用于过渡的其他系数)。
若基本MDCT编码器利用转换长度切换,包括近似中的前一和/或下一MDCT帧在不同转换长度之间的过渡附近变得更加复杂。由于当前和前一/下一帧中MDCT系数的不同数目,在该情况下,二维滤波更加复杂。为避免增加计算和结构复杂性,以针对相应帧的近似的精度减小为代价,前一/下一帧可从转换长度过渡的滤波中被排除。
此外,需要特别关注MDST频谱的最低和最高部分(接近DC和fs/2),其中,比所需的更少的周围MDCT系数可用于FIR滤波。这里,滤波处理需要适应于正确计算MDST频谱。这可通过针对缺少的系数使用MDCT频谱的对称扩展(根据时间离散信号的频谱的周期性),或者通过相应调适滤波器系数来完成。当然,这些特定情况的处理在以MDST频谱的边界附近的精度减小为代价的前提下可被简化。
在解码器中由发送的MDCT频谱计算精确的MDST频谱使解码器延迟增加一帧(这里假定有1024个样本)。
通过利用不需要下一帧的MDCT频谱作为输入的MDST频谱的近似,可避免其他延迟。
以下项目列表总结了基于MDCT的统一立体声编码胜过基于QMF的统一立体声编码的优势:
·计算复杂性仅小幅增加(当未使用SBR时)。
·若MDCT频谱未被量化,则最多达到完美重构。注意这不是针对基于QMF的统一立体声编码的情况。
·M/S编码和强度立体声编码的自然扩展。
·由于立体声信号处理和量化/编码可紧密耦合,所以有简化编码器调谐的更简洁架构。注意在基于QMF的统一立体声编码中,MPEG环绕帧和MDCT帧并不对准且标度因子频带与参数频带不匹配。
·由于仅必须发送两个参数(复α),而不是如MPEG环绕中那样三个参数(ICC、CLD、IPD)必须被发送,所以能有效编码立体声参数。
·若MDST频谱被计算为近似(未利用下一帧),则无其他解码器延迟。
实施的重要特性可被总结如下:
a)MDST频谱利用二维FIR滤波从当前、前一和下一MDCT频谱来计算。通过减少所使用的FIR滤波器分接的数目和/或MDCT帧的数目,关于MDST计算(近似)的不同复杂性/质量折衷是可行的。具体地,若相邻帧由于在发送或转换长度切换期间的帧损失而不可用,则特定帧从MDST估计中被排除。对于转换长度切换的情况,该排除在位流中信号传送。
b)仅发送两个参数,复预测系数α的实部和虚部,而非ICC、CLD和IPD。α的实部和虚部被独立处理,限定为范围[-3.0,3.0]且以0.1的步长大小来量化。若特定参数(α的实部或虚部)在给定帧中未使用,则这在位流中信号传送,且不发送不相关参数。这些参数以时间差异或频率差异来编码,且最终利用标度因子编码簿来应用霍夫曼编码。预测系数每过两个标度因子频带而被更新,这产生了与MPEG环绕的频率分辨率类似的频率分辨率。该量化和编码方案对于具有96kb/s目标位率的典型配置内的立体声侧信息产生约2kb/s的平均位率。
优选的其他或替代性实施细节包括:
c)对α的两个参数中的每一个而言,我们可在每个帧或每个串流的基础上选择非差分(PCM)或差分(DPCM)编码,由位流中的相应位以信号发送。对于DPCM编码而言,时间或频率差分编码是可行的。另外,这可利用一位标志来以信号发送。
d)代替重新利用预定义编码簿(诸如AAC标度因子簿),我们也可利用专用不变的或信号自适应的编码簿来编码α参数值,或者我们可恢复使用固定长度(例如,4位)无符号或两个补码字。
e)α参数值的范围以及参数量化步长大小可任意选择并优化为眼前的信号特性。
f)有效α参数频带的数目以及频谱和/或时间宽度可被任意选择并优化为给定信号特性。具体地,频带配置可在每个帧或每个串流的基础上以信号发送。
g)除了以上a)中所述的机制以外或者代替该机制,可利用位流中的每帧一位来外显地发信号,使得仅当前帧的MDCT频谱用于计算MDST频谱近似,即未考虑相邻MDCT帧。
实施方式与用于MDCT域中的统一立体声编码的发明系统有关。即使在较高位率下(在SBR未被使用的情况下)也能利用MPEG USAC系统中的统一立体声编码的优势,而将伴随基于QMF方法的计算复杂性未明显增加。
以下两个列表总结了前述优选配置方面,这些方面可彼此交替使用或附加至其他方面来使用:
1a)一般性概念:由中MDCT和MDST复预测侧MDCT;
1b)利用一个以上帧(3帧引入延迟)由频域中的MDCT(“R2I”)来计算/近似MDST;
1c)滤波器截尾(甚至降至1帧2分接,即,[-101])以减少计算复杂性;
1d)恰当处理DC和fs/2;
1e)恰当处理窗口形状切换;
1f)若其具有不同转换大小,则不使用前一/下一帧;
1g)基于编码器中的非量化或量化MDCT系数来预测;
2a)直接量化和编码复预测系数的实部和虚部(即没有MPEG环绕参数化);
2b)对此使用统一量化器(步长大小例如0.1);
2c)使用针对预测系数的适当频率分辨率(例如,每2个标度因子频带1个系数);
2d)在所有预测系数均为实数的情况下廉价信号传送;
2e)每帧有显式位以迫使1帧R2I运算发生。
在一种实施方式中,编码器另外包括:用于将两个信道信号的时域表示转换成具有关于该两个信道信号的次频带信号的两个信道信号的频谱表示的频谱转换器(50、51),其中,合成器(2031)、预测器(2033)和剩余信号计算器(2034)被配置为单独处理每个次频带信号,从而获得针对多个次频带的第一合成信号和剩余信号,其中,输出接口(212)被配置为合成针对多个次频带的编码后的第一合成信号和编码后的剩余信号。
尽管已在设备背景下描述了某些方面,但应清楚,这些方面也表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的方面也表示对相应设备的相应块或项目或者特征的描述。
在本发明的实施方式中,应用窗口形状切换的恰当处理。当考虑图10a时,窗口形状信息109可被输入到虚部频谱计算器1001中。具体地,执行诸如MDCT频谱的实值频谱的实部-虚部转换的虚部频谱计算器(诸如图6a中的元件2070或图6b中的元件1160a)可被实施为FIR或IIR滤波器。该实部-虚部模块1001中的FIR或IIR系数取决于当前帧的左半部分和右半部分的窗口形状。该窗口形状可对于正弦窗口或KBD(西泽贝索衍生)窗口是不同的,且以给定窗口序列配置为准,可以是长窗口、开始窗口、停止窗口和停止-开始窗口或短窗口。实部-虚部模块可包括二维FIR滤波器,其中,一个维度是时间维度,其中,两个连续的MDCT帧被输入到FIR滤波器中,以及第二维度是频率维度,其中,输入帧的频率系数。
下表给出针对关于不同窗口形状的当前窗口序列的不同MDST滤波器系数,以及该窗口的左半部分和右半部分的不同实施。
表A-针对当前窗口的MDST滤波器参数
Figure BDA00002547467400221
此外,当前一窗口用于由MDCT频谱计算MDST频谱时,窗口形状信息109提供关于前一窗口的窗口形状信息。关于前一窗口的相应MDST滤波器系数在下表中给出。
表格B–针对前一窗口的MDST滤波器参数
Figure BDA00002547467400241
因此,根据窗口形状信息109,图10a中的虚部频谱计算器1001通过应用不同组的滤波器系数来调适。
在解码器侧使用的窗口形状信息在编码器侧被计算,且作为侧信息与编码器输出信号一起被发送。在解码器侧,窗口形状信息109由位流解复用器(例如,图5b中的102)从该位流中被提取,并提供给如图10a所示的虚部频谱计算器1001。
当窗口形状信息109示意前一帧具有不同转换大小时,则优选前一帧不用于从实值频谱计算虚部频谱。当通过解读窗口形状信息109发现下一帧具有不同转换大小时,也同样适用。则下一帧不用于从实值频谱计算虚部频谱。在该情况下,例如当前一帧具有与当前帧不同的转换大小时以及当下一帧同样具有与当前帧相比不同的转换大小时,则仅当前帧(即,当前窗口的频谱值)用于估计虚部频谱。
编码器中的预测基于诸如MDCT系数的非量化或量化频率系数。当由图3a中的元件2033所示的预测例如基于非量化数据时,则剩余计算器2034优选也对非量化数据运算,且剩余计算器输出信号(即,剩余信号205)在被熵编码和发送至解码器之前被量化。然而,在替代性实施方式中,优选该预测基于量化的MDCT系数。则量化可在图3a中的合成器2031之前进行,使得第一量化信道和第二量化信道作为计算剩余信号的基础。可替代地,量化也可在合成器2031之后进行,使得第一合成信号和第二合成信号以非量化形式来计算并在计算剩余信号之前被量化。同样,可替代地,预测器2033可在非量化域中工作,且预测信号2035在被输入到剩余计算器之前被量化。则有用的是,同样被输入到剩余计算器2034中的第二合成信号2032也在该剩余计算器计算图6a中的剩余信号070之前被量化,这可在图3a中的预测器2033内实施,对解码器侧可用的相同量化数据运算。则可保证为执行剩余信号的计算的目的而在编码器中估计的MDST频谱与用于执行逆预测(即用于由剩余信号来计算侧信号)的解码器侧的MDST频谱恰好相同。为此,第一合成信号(诸如图6a中的线204上的信号M)在被输入到块2070之前被量化。随后,MDST频谱利用当前帧的量化MDCT频谱来计算,以及根据控制信息,前一或下一帧的量化MDCT频谱被输入到乘法器2074中,且图6a的乘法器2074的输出同样将是非量化频谱。该非量化频谱将从输入到加法器2034b中的频谱被减去且最终将在量化器209b中被量化。
在一种实施方式中,每一预测频带的复预测系数的实部和虚部被直接量化和编码,即无需例如MPEG环绕参数化。量化可利用具有例如0.1的步长大小的统一量化器来执行。这意味着任何对数量化步长大小等均未被应用,而任何线性步长大小均被应用。在一种实施中,关于复预测系数的实部和虚部的值的范围从-3变化到3,这意味着60个或者根据实施细节,61个量化步骤被用于复预测系数的实部和虚部。
优选地,图6a的乘法器中应用的实部2073和图6a中应用的虚部2074在应用之前被量化,使得用于预测的相同值再次被用于编码器侧,也可用于解码器侧。这保证了预测剩余信号除了引入的量化误差之外还涵盖了当非量化预测系数应用于编码器侧,而量化预测系数应用于解码器侧时可能出现的任何误差。优选地,量化以尽可能使相同情况和相同信号在编码器侧和解码器侧可用的这一方式被应用。因此,优选利用与量化器209a中应用的相同的量化来量化向实部-虚部计算器2070中的输入。此外,优选量化预测系数α的实部和虚部以在项目2073和项目2074中执行乘法。该量化与应用于量化器2072的量化相同。此外,由图6a中的块2031输出的侧信号也可在加法器2034a和2034b之前被量化。然而,在由这些加法器对非量化侧信号实施加法之后由量化器209b执行量化也是没有问题的。
在本发明的另一实施方式中,在所有预测系数均为实数的情况下实施廉价信号传送。这可能是对于特定帧(即,对于音频信号的相同时间部分)的所有预测系数被计算为实数的情况。该情况可能在所有中信号和所有侧信号彼此无相移或仅小相移时发生。为节省位,这由单一实数指示符来表示。则预测系数的虚部不需要在具有表示零值的码字的位流中以信号发送。在解码器侧,位流解码器接口(诸如位流解复用器)将解读该实数指示符且随后将不查询关于虚部的码字,而是将假定该位流的相应段中的所有位作为关于实值预测系数的位。此外,当接收到帧中的预测系数的所有虚部均为零的指示时,预测器2033将无需由实值MDCT频谱计算MDST频谱,或者一般地,虚部频谱。因此,图6b解码器中的元件1160a将被停用,且逆预测将仅使用图6b的乘法器1160b中应用的实值预测系数来进行。对于元件2070将被停用且预测将仅利用乘法器2073来进行的编码器侧也同样适用。该侧信息优选用作每帧的附加位,且解码器将逐帧读取该位以确定实部-虚部转换器1160a是否将对帧起作用。因此,由于关于帧的预测系数的所有虚部为零的更有效信号传送,提供该信息使得位流大小减小,且此外,提供了较低的关于用于该帧的解码器的复杂性,这直接使例如实施在电池供电移动装置中的该处理器的电池消耗减小。
根据本发明优选实施方式的复立体声预测是用于有效编码信道之间具有强度和/或相差的信道对的工具。利用复值参数α,左右信道经由以下矩阵来重构。dmxIm表示对应于下混信道dmxRe的MDCT的MDST。
r l = 1 - &alpha; Re - &alpha; Im 1 1 + &alpha; Re &alpha; Im - 1 dmx Re dmx Im res
以上方程是针对α的实部和虚部分开的另一表示,且表示关于合成预测/合成运算的方程,其中,预测信号S不一定被计算。
以下数据元素优选用于该工具:
cplx_pred_all0:某些频带使用L/R编码,如由cplx_pred_used[]以信号发送
1:所有频带均使用复立体声预测
cplx_pred_used[g][sfb]每一窗口组g和标度因子频带sfb一位标志(在由预测频带映射之后),其指示
0:复预测未被使用,L/R编码被使用
1:复预测被使用
complex_coef0:针对所有预测频带,αIm=0
1:针对所有预测频带发送αIm
use_prev_frame0:仅利用用于MDST估计的当前帧
1:利用用于MDST估计的当前帧和前一帧
delta_code_time0:预测系数的频率差分编码
1:预测系数的时间差分编码
hcod_alpha_q_reαRe的霍夫曼编码
hcod_alpha_q_imαIm的霍夫曼编码
这些数据元素在编码器中被计算,且被输入到立体声或多信道音频信号的侧信息中。这些元素由侧信息提取器从解码器侧的侧信息中提取,并用于控制解码器计算器来执行相应动作。
复立体声预测需要当前信道对的下混MDCT频谱,且在complex_coef==1的情况下,需要估计当前信道对的下混MDST频谱,即MDCT频谱的虚部对应体。下混MDST估计由当前帧的MDCT下混来计算,且在use_prev_frame==1的情况下,由前一帧的MDCT下混来计算。窗口组g和组窗口b的前一帧的MDCT下混从该帧的重构左右频谱获得。
在下混MDST估计的计算中,使用均值MDCT转换长度,其取决于window_sequence以及filter_coefs与filter_coefs_prev,它们是包括滤波器核心以及根据之前表格导出的数组。
对于所有预测系数,与前一(时间或频率上)值的差利用霍夫曼编码簿来编码。对于cplx_pred_used=0的预测频带不发送预测系数。
逆量化预测系数alpha_re和alpha_im由下式给出:
alpha_re=alpha_q_re*0.1
alpha_im=alpha_q_im*0.1
需要强调,本发明不仅适用于立体声信号,即仅具有两个信道的多信道信号,而且也适用于诸如5.1或7.1信号的具有三个以上信道的多信道信号的两个信道。
本发明的编码后的音频信号可被存储在数字存储介质上或者可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上被传输。
根据特定实施要求,本发明的实施方式可以硬件或软件来实施。该实施可使用具有存储其上的电可读控制信号的数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或内存,该电可读控制信号与可编程计算机系统协作(或者能够协作),使得相应方法被执行。
根据本发明的一些实施方式包括具有电可读控制信号的非暂时性或有形数据载体,该电可读控制信号能够与可编程计算机系统协作,从而执行本文所述方法中的一种。
一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作地用于执行方法中的一种。该程序代码例如可存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上用于执行本文所述方法中的一种的计算机程序。
因此,换言之,本发明方法的实施方式是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述方法中的一种。
因此,本发明方法的另一实施方式是包括存储其上用于执行本文所述方法中的一种的计算机程序的数据载体(或数字存储介质或者计算机可读介质)。
因此,本发明方法的另一实施方式是表示用于执行本文所述方法中的一种的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为经由数据通信连接(例如经由因特网)来传送。
另一实施方式包括处理装置(例如计算机)或可编程逻辑器件,其被配置为或适用于执行本文所述方法中的一种。
另一实施方式包括具有安装其上用于执行本文所述方法中的一种的计算机程序的计算机。
在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文所述方法中的一些或全部功能。在一些实施方式中,现场可编程门阵列可与微处理器协作以执行本文所述方法中的一种。一般地,该方法优选由任何硬件设备执行。
上述实施方式仅用于说明本发明的原理。应当理解,本文所述配置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因此,其旨在仅由所附专利权利要求的范围来限定,且不由以对本文实施方式的描述和说明的方式给出的具体细节来限定。

Claims (24)

1.一种用于解码编码后的多信道音频信号(100)的音频解码器,所述编码后的多信道音频信号包括基于用于合成多信道音频信号中的第一信道音频信号与第二信道音频信号的合成规则生成的编码后的第一合成信号、编码后的预测剩余信号和预测信息,所述音频解码器包括:
信号解码器(110),其用于解码所述编码后的第一合成信号(104)以获得解码后的第一合成信号(112),以及用于解码所述编码后的剩余信号(106)以获得解码后的剩余信号(114);以及
解码器计算器(116),其用于利用所述解码后的剩余信号(114)、所述预测信息(108)和所述解码后的第一合成信号(112)来计算具有解码后的第一信道信号(117)和解码后的第二信道信号(118)的解码后的多信道信号,使得所述解码后的第一信道信号(117)和所述解码后的第二信道信号(118)至少是所述多信道信号的所述第一信道信号和所述第二信道信号的近似,其中,所述预测信息(108)包括异于零的实值部和/或异于零的虚部。
2.根据权利要求1所述的音频解码器,其中,所述解码器计算器(116)包括:
预测器(1160),其用于将所述预测信息(108)应用于所述解码后的第一合成信号(112)或源自所述解码后的第一合成信号的信号(601)以获得预测信号(1163);
合成信号计算器(1161),其用于通过合成所述解码后的剩余信号(114)与所述预测信号(1163)来计算第二合成信号(1165);以及
合成器(1162),其用于合成所述解码后的第一合成信号(112)与所述第二合成信号(1165)以获得具有所述解码后的第一信道信号(117)和所述解码后的第二信道信号(118)的解码后的多信道音频信号。
3.根据权利要求1或2所述的音频解码器,
其中,所述编码后的第一合成信号(104)和所述编码后的剩余信号(106)已利用生成时间-频谱转换的混叠来生成,
其中,所述解码器还包括:
频谱-时间转换器(52、53),其用于利用与时间-频谱转换算法相匹配的频谱-时间转换算法来生成时域第一信道信号和时域第二信道信号;
交叠/相加处理器(522),其用于对所述时域第一信道信号和对所述时域第二信道信号进行交叠-相加处理以获得无混叠第一时域信号和无混叠第二时域信号。
4.根据前述权利要求中任一项所述的音频解码器,其中,所述预测信息(108)包括异于零的实数因子,
其中,所述预测器(1160)被配置为将所述解码后的第一合成信号乘以所述实数因子以获得所述预测信号的第一部分,以及
其中,所述合成信号计算器被配置为线性合成所述解码后的剩余信号与所述预测信号的所述第一部分。
5.根据前述权利要求中任一项所述的音频解码器,其中,所述预测信息(108)包括异于零的虚数因子,以及
其中,所述预测器(1160)被配置为利用所述解码后的第一合成信号(112)的实部来估计(1160a)所述解码后的第一合成信号(112)的虚部,
其中,所述预测器(1160)被配置为将所述解码后的第一合成信号的虚部(601)乘以所述预测信息(108)的虚数因子以获得所述预测信号的第二部分;以及
其中,所述合成信号计算器(1161)被配置为线性合成所述预测信号的所述第一部分以及所述预测信号的所述第二部分与所述解码后的剩余信号以获得第二合成信号(1165)。
6.根据前述权利要求中任一项所述的音频解码器,
其中,所述编码或解码后的第一合成信号(104)和所述编码或解码后的预测剩余信号(106)分别包括第一多个子带信号,
其中,所述预测信息包括第二多个预测信息参数,所述第二多个小于所述第一多个,
其中,所述预测器(1160)被配置为将相同预测参数应用于所述解码后的第一合成信号的至少两个不同子带信号,
其中,所述解码器计算器(116)或所述合成信号计算器(1161)或者所述合成器(1162)被配置为执行逐个子带处理;以及
其中,所述音频解码器还包括合成滤波器组(52、53),其用于合成所述解码后的第一合成信号的子带信号与所述解码后的第二合成信号的子带信号以获得时域第一解码信号和时域第二解码信号。
7.根据权利要求2所述的音频解码器,
其中,所述预测器(1160)被配置为利用线性滤波器(1004、1005、1006、1007)来对至少两个时间相继的帧滤波,其中,所述两个时间相继的帧中的一个帧在所述第一合成信号的当前帧之前或之后,以获得所述第一合成信号的当前帧的估计的虚部。
8.根据权利要求2所述的音频解码器,
其中,所述解码后的第一合成信号包括实值信号帧序列,以及
其中,所述预测器(1160)被配置为利用仅当前实值信号帧,或者利用所述当前实值信号帧和仅一个以上之前实值信号帧或仅一个以上后续实值信号帧,或者利用所述当前实值信号帧和一个以上之前实值信号帧以及一个以上后续实值信号帧来估计(1160a)当前信号帧的虚部。
9.根据权利要求2所述的音频解码器,其中,所述预测器(1160)被配置为接收窗口形状信息(109),以及使用不同滤波器系数来计算虚数频谱,其中,所述不同滤波器系数取决于由所述窗口形状信息(109)指示的不同窗口形状。
10.根据权利要求7、8或9所述的音频解码器,
其中,所述解码后的第一合成信号与由包括在所述编码后的多信道信号(100)中的变换长度指示符指示的不同变换长度相关联,以及
其中,所述预测器(1160)被配置为仅使用具有相同关联变换长度的所述第一合成信号的一个以上帧来估计关于第一合成信号的当前帧的虚部。
11.根据权利要求2至10中任一项所述的音频解码器,
其中,所述预测器(1160)被配置为使用所述解码后的第一合成信号的频率上相邻的多个子带来估计所述第一合成信号的虚部,以及
其中,在低频或高频的情况下,所述第一合成信号的当前帧的频率的对称性扩展被用于与低于或等于零的频率或者高于或等于所述当前帧基于的采样频率的一半的频率相关联的子带,或者其中,包括在所述预测器(1160a)中的滤波器的滤波器系数针对缺失子带被设定为与非缺失子带相比不同的值。
12.根据前述权利要求中任一项所述的音频解码器,
其中,所述预测信息(108)以量化和熵编码表示包括在所述编码后的多信道信号中,
其中,所述音频解码器还包括用于熵解码或解量化的预测信息解码器(65)以获得由所述预测器(1160)使用的解码后的预测信息,或者
其中,所述编码后的多信道音频信号包括数据单元,所述数据单元在第一状态下指示所述预测器(1160)使用时间上在所述解码后的第一合成信号的当前帧之前或之后的至少一个帧,以及在第二状态下指示所述预测器(1160)使用所述解码后的第一合成信号的仅单个帧,来估计关于所述解码后的第一合成信号的当前帧的虚部,以及其中,所述预测器(1160)被配置为检测所述数据单元的状态并相应操作。
13.根据前述权利要求中任一项所述的音频解码器,其中,所述预测信息(108)包括时间相继的或频率相邻的复数值之间的差的码字,以及
其中,所述音频解码器被配置为执行熵解码步骤和随后的差解码步骤以获得时间相继的量化复预测值或针对相邻频带的复预测值。
14.根据权利要求1至10中任一项所述的音频解码器,其中,所述编码后的多信道信号包括作为侧信息的实数指示符,所述实数指示符指示针对所述编码后的多信道信号的帧的所有预测系数均为实值,
其中,所述音频解码器被配置为从所述编码后的多信道音频信号(100)中提取所述实数指示符,以及
其中,所述解码器计算器(116)被配置为不计算关于帧的虚数信号,针对所述帧,所述实数指示符仅指示实值预测系数。
15.一种用于编码具有两个以上信道信号的多信道音频信号的音频编码器,包括:
编码器计算器(203),其用于利用第一信道信号(201)和第二信道信号(202)以及预测信息(206)来计算第一合成信号(204)和预测剩余信号205,使得预测剩余信号在与源自所述第一合成信号的预测信号或源自所述第一合成信号和所述预测信息(206)的信号合成时产生第二合成信号(2032),利用合成规则,所述第一合成信号204)和所述第二合成信号(2032)可从所述第一信道信号(201)和所述第二信道信号(202)得出;
优化器(207),其用于计算所述预测信息(206),使得所述预测剩余信号205满足最优化目标(208);
信号编码器(209),其用于编码所述第一合成信号204和所述预测剩余信号205)以获得编码后的第一合成信号(210)和编码后的剩余信号(211);以及
输出接口(212),其用于合成所述编码后的第一合成信号(210)、所述编码后的预测剩余信号(211)和所述预测信息(206)以获得编码后的多信道音频信号。
16.根据权利要求15所述的音频编码器,其中,所述编码器计算器(203)包括:
合成器(2031),其用于以两种不同方式合成所述第一信道信号(201)与所述第二信道信号(202)以获得所述第一合成信号(204)和所述第二合成信号(2032);
预测器(2033),其用于将所述预测信息(206)应用于所述第一合成信号(204)或源自所述第一合成信号(204)的信号(600)以获得预测信号(2035);以及
剩余信号计算器(2034),其用于通过合成所述预测信号(2035)与所述第二合成信号(2032)来计算所述预测剩余信号(205)。
17.根据权利要求16所述的音频编码器,其中,所述预测器(2033)包括量化器,所述量化器用于量化所述第一信道信号、所述第二信道信号、所述第一合成信号或所述第二合成信号以获得一个或多个量化信号,以及其中,所述预测器(2033)被配置为使用量化信号来计算所述剩余信号。
18.根据权利要求15至17中任一项所述的音频编码器,
其中,所述第一信道信号为样本块的频谱表示;
其中,所述第二信道信号为样本块的频谱表示,
其中,所述频谱表示是纯实数频谱表示或纯虚数频谱表示,
其中,所述优化器(207)被配置为将所述预测信息(206)计算为异于零的实值因子和/或异于零的虚数因子,以及
其中,所述编码器计算器(203)被配置为计算所述第一合成信号和所述预测剩余信号,使得所述预测信号利用所述实值因子从所述纯实数频谱表示或所述纯虚数频谱表示得出。
19.根据权利要求15至18中任一项所述的音频编码器,
其中,所述第一信道信号为样本块的频谱表示;
其中,所述第二信道信号为样本块的频谱表示,
其中,所述频谱表示是纯实数频谱表示或纯虚数频谱表示,
其中,所述优化器(207)被配置为将所述预测信息(206)计算为异于零的实值因子和/或异于零的虚数因子,以及
其中,所述编码器计算器(203)包括实数-虚数变换器(2070)或虚数-实数变换器,其用于从所述第一合成信号得出变换频谱表示,以及
其中,所述编码器计算器(203)被配置为计算所述第一合成信号(204)和第一剩余信号(2032),使得所述预测信号利用所述虚数因子从所述变换频谱得出。
20.根据权利要求15至19中任一项所述的编码器,
其中,所述预测器(2033)被配置为将所述第一合成信号(204)乘以所述预测信息(2073)的实部以获得所述预测信号的第一部分;
利用所述第一合成信号(204)来估计(2070)所述第一合成信号的虚部(600);
将所述第一合成信号的虚部乘以所述预测信息(2074)的虚部以获得所述预测信号的第二部分;以及
其中,所述剩余计算器(2034)被配置为线性合成所述预测信号的第一部分信号或所述预测信号的第二部分信号与所述第二合成信号以获得所述预测剩余信号(205)。
21.一种解码编码后的多信道音频信号(100)的方法,所述编码后的多信道音频信号包括基于用于合成多信道音频信号中的第一信道音频信号与第二信道音频信号的合成规则生成的编码后的第一合成信号、编码后的预测剩余信号和预测信息,所述方法包括:
解码(110)所述编码后的第一合成信号(104)以获得解码后的第一合成信号(112),以及解码所述编码后的剩余信号(106)以获得解码后的剩余信号(114);以及
利用所述解码后的剩余信号(114)、所述预测信息(108)和所述解码后的第一合成信号(112)来计算(116)具有解码后的第一信道信号(117)和解码后的第二信道信号(118)的解码后的多信道信号,使得所述解码后的第一信道信号(117)和所述解码后的第二信道信号(118)至少是所述多信道信号的所述第一信道信号和所述第二信道信号的近似,其中,所述预测信息(108)包括异于零的实值部和/或异于零的虚部。
22.一种编码具有两个以上信道信号的多信道音频信号的方法,包括:
利用第一信道信号(201)和第二信道信号(202)以及预测信息(206)来计算(203)第一合成信号(204)和预测剩余信号(205),使得预测剩余信号在与源自所述第一合成信号的预测信号或源自所述第一合成信号和所述预测信息(206)的信号合成时产生第二合成信号(2032),利用合成规则,所述第一合成信号(204)和所述第二合成信号(2032)可从所述第一信道信号(201)和所述第二信道信号(202)得出;
计算(207)所述预测信息(206),使得所述预测剩余信号(205)满足最优化目标(208);
编码(209)所述第一合成信号(204)和所述预测剩余信号(205)以获得编码后的第一合成信号(210)和编码后的剩余信号(211);以及
合成(212)所述编码后的第一合成信号(210)、所述编码后的预测剩余信号(211)和所述预测信息(206)以获得编码后的多信道音频信号。
23.一种计算机程序,当在计算机或处理器上运行时,所述计算机程序用于执行根据权利要求21所述的方法或根据权利要求22所述的方法。
24.一种编码后的多信道音频信号,其包括基于用于合成多信道音频信号中的第一信道音频信号与第二信道音频信号的合成规则生成的编码后的第一合成信号、编码后的预测剩余信号和预测信息。
CN201180028369.8A 2010-04-09 2011-03-23 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法 Active CN103098126B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US32268810P 2010-04-09 2010-04-09
US61/322,688 2010-04-09
US36390610P 2010-07-13 2010-07-13
US61/363,906 2010-07-13
EP10169432.1 2010-07-13
EP10169432A EP2375409A1 (en) 2010-04-09 2010-07-13 Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PCT/EP2011/054485 WO2011124473A1 (en) 2010-04-09 2011-03-23 Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction

Publications (2)

Publication Number Publication Date
CN103098126A true CN103098126A (zh) 2013-05-08
CN103098126B CN103098126B (zh) 2015-07-22

Family

ID=43828187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180028369.8A Active CN103098126B (zh) 2010-04-09 2011-03-23 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法

Country Status (18)

Country Link
US (1) US8655670B2 (zh)
EP (8) EP2375409A1 (zh)
JP (1) JP5705964B2 (zh)
KR (1) KR101425155B1 (zh)
CN (1) CN103098126B (zh)
AR (1) AR080842A1 (zh)
AU (1) AU2011238010B2 (zh)
CA (1) CA2804907C (zh)
ES (3) ES2701456T3 (zh)
HK (1) HK1180823A1 (zh)
MX (1) MX2012011603A (zh)
MY (1) MY160467A (zh)
PL (7) PL2947655T3 (zh)
RU (1) RU2577195C2 (zh)
SG (1) SG184815A1 (zh)
TW (1) TWI444990B (zh)
WO (1) WO2011124473A1 (zh)
ZA (1) ZA201208364B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760439A (zh) * 2011-04-26 2012-10-31 斯凯普公司 处理立体声音频信号
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器
CN107949881A (zh) * 2015-09-10 2018-04-20 高通股份有限公司 解码器之后的音频信号分类和后处理
CN108885879A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN109074810A (zh) * 2016-02-17 2018-12-21 弗劳恩霍夫应用研究促进协会 用于多声道编码中的立体声填充的装置和方法
CN110168637A (zh) * 2017-01-19 2019-08-23 高通股份有限公司 多个音频信号的译码
CN111046338A (zh) * 2018-10-11 2020-04-21 国际商业机器公司 使用复值矢量自回归的多步提前预测
CN111670472A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码及编码去关联滤波器改进的方法、设备及系统
CN111670473A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
BR112012026324B1 (pt) * 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
US9317458B2 (en) * 2012-04-16 2016-04-19 Harman International Industries, Incorporated System for converting a signal
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
BR112016003029B1 (pt) 2013-08-23 2023-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Aparelho e método para processamento de um sinal de áudio utilizando uma combinação em uma faixa de sobreposição
EP3293734B1 (en) * 2013-09-12 2019-05-15 Dolby International AB Decoding of multichannel audio content
WO2015036348A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Time- alignment of qmf based processing data
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
DE102015101847B4 (de) * 2015-02-10 2017-11-02 Eyesense Gmbh Strahlteiler und Anordnung zur Untersuchung einer mittels elektromagnetischer Strahlung anregbaren Probe
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016162283A1 (en) 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
KR102230668B1 (ko) 2016-01-22 2021-03-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
FI3539125T3 (fi) 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
CN108877815B (zh) 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10580420B2 (en) * 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
KR20200000649A (ko) 2018-06-25 2020-01-03 네이버 주식회사 오디오 병렬 트랜스코딩을 위한 방법 및 시스템
JP7407110B2 (ja) 2018-07-03 2023-12-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
US11263550B2 (en) * 2018-09-09 2022-03-01 International Business Machines Corporation Audit machine learning models against bias
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CA3145047A1 (en) * 2019-07-08 2021-01-14 Voiceage Corporation Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
DE102020210917B4 (de) 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
CN112040435A (zh) * 2020-09-09 2020-12-04 成都智联科鸿电子科技有限公司 一种多通道捆绑的物联网数据回传装置
US20240120941A1 (en) * 2021-02-18 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data
CN113343591B (zh) * 2021-07-16 2022-05-03 浙江大学 基于自注意力网络的产品关键零件寿命端到端预测方法
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990016136A1 (en) * 1989-06-15 1990-12-27 British Telecommunications Public Limited Company Polyphonic coding
CN1455917A (zh) * 2000-09-15 2003-11-12 艾利森电话股份有限公司 多信道信号编码和解码
WO2009141775A1 (en) * 2008-05-23 2009-11-26 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6430529B1 (en) * 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
US8359197B2 (en) 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7917561B2 (en) * 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
JP2010503881A (ja) 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置
KR101250309B1 (ko) * 2008-07-11 2013-04-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990016136A1 (en) * 1989-06-15 1990-12-27 British Telecommunications Public Limited Company Polyphonic coding
CN1455917A (zh) * 2000-09-15 2003-11-12 艾利森电话股份有限公司 多信道信号编码和解码
WO2009141775A1 (en) * 2008-05-23 2009-11-26 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760439B (zh) * 2011-04-26 2017-07-04 斯凯普公司 处理立体声音频信号
CN102760439A (zh) * 2011-04-26 2012-10-31 斯凯普公司 处理立体声音频信号
US11335354B2 (en) 2015-03-09 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器
US11854559B2 (en) 2015-03-09 2023-12-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
US10706864B2 (en) 2015-03-09 2020-07-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
CN107949881A (zh) * 2015-09-10 2018-04-20 高通股份有限公司 解码器之后的音频信号分类和后处理
CN107949881B (zh) * 2015-09-10 2019-05-31 高通股份有限公司 解码器之后的音频信号分类和后处理
CN108885879A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US11887609B2 (en) 2016-01-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
CN108885879B (zh) * 2016-01-22 2023-09-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN109074810B (zh) * 2016-02-17 2023-08-18 弗劳恩霍夫应用研究促进协会 用于多声道编码中的立体声填充的装置和方法
US11727944B2 (en) 2016-02-17 2023-08-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for stereo filling in multichannel coding
CN109074810A (zh) * 2016-02-17 2018-12-21 弗劳恩霍夫应用研究促进协会 用于多声道编码中的立体声填充的装置和方法
CN110168637B (zh) * 2017-01-19 2023-05-30 高通股份有限公司 多个音频信号的译码
CN110168637A (zh) * 2017-01-19 2019-08-23 高通股份有限公司 多个音频信号的译码
CN111670473A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码基于qmf的谐波移调器改进的方法及设备
CN111670472A (zh) * 2017-12-19 2020-09-15 杜比国际公司 用于统一语音及音频解码及编码去关联滤波器改进的方法、设备及系统
CN111046338A (zh) * 2018-10-11 2020-04-21 国际商业机器公司 使用复值矢量自回归的多步提前预测
CN111046338B (zh) * 2018-10-11 2024-04-19 国际商业机器公司 使用复值矢量自回归的多步提前预测

Also Published As

Publication number Publication date
WO2011124473A1 (en) 2011-10-13
EP2947652B1 (en) 2018-11-14
TW201205557A (en) 2012-02-01
PL2947653T3 (pl) 2019-04-30
EP2947656A1 (en) 2015-11-25
EP2947657A1 (en) 2015-11-25
CA2804907A1 (en) 2011-10-13
KR20130014561A (ko) 2013-02-07
EP2947655A1 (en) 2015-11-25
EP2947654B1 (en) 2018-10-17
MX2012011603A (es) 2012-11-30
MY160467A (en) 2017-03-15
PL2947657T3 (pl) 2019-04-30
RU2012147587A (ru) 2014-05-20
SG184815A1 (en) 2012-11-29
HK1180823A1 (zh) 2013-10-25
ES2701456T3 (es) 2019-02-22
EP2947655B1 (en) 2018-10-24
PL2947654T3 (pl) 2019-04-30
US8655670B2 (en) 2014-02-18
PL2947656T3 (pl) 2019-03-29
AU2011238010A1 (en) 2012-11-08
ZA201208364B (en) 2013-07-31
EP2947656B1 (en) 2018-09-19
EP2375409A1 (en) 2011-10-12
EP2543038B1 (en) 2015-08-26
PL2947652T3 (pl) 2019-04-30
EP2543038A1 (en) 2013-01-09
EP2947654A1 (en) 2015-11-25
AU2011238010B2 (en) 2014-01-16
KR101425155B1 (ko) 2014-08-01
CN103098126B (zh) 2015-07-22
PL2543038T3 (pl) 2016-01-29
ES2701862T3 (es) 2019-02-26
EP2947653A1 (en) 2015-11-25
EP2947657B1 (en) 2018-10-24
RU2577195C2 (ru) 2016-03-10
PL2947655T3 (pl) 2019-04-30
ES2552839T3 (es) 2015-12-02
EP2947653B1 (en) 2018-10-31
AR080842A1 (es) 2012-05-09
CA2804907C (en) 2016-05-31
JP5705964B2 (ja) 2015-04-22
US20130030819A1 (en) 2013-01-31
TWI444990B (zh) 2014-07-11
JP2013528822A (ja) 2013-07-11
EP2947652A1 (en) 2015-11-25

Similar Documents

Publication Publication Date Title
CN103098126B (zh) 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
CN103052983B (zh) 音频或视频编码器、音频或视频解码器及编码和解码方法
CA2978821C (en) Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
CN101067931B (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与系统
EP2489041B1 (en) Simultaneous time-domain and frequency-domain noise shaping for tdac transforms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: Fraunhofer Application and Research Promotion Association

Patentee after: Dolby Int AB

Address before: Munich, Germany

Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

Patentee before: Dolby Int AB