CN105122355A - 将隐藏对象用于信号混合操作的空间音频对象编码的设备和方法 - Google Patents

将隐藏对象用于信号混合操作的空间音频对象编码的设备和方法 Download PDF

Info

Publication number
CN105122355A
CN105122355A CN201480005738.5A CN201480005738A CN105122355A CN 105122355 A CN105122355 A CN 105122355A CN 201480005738 A CN201480005738 A CN 201480005738A CN 105122355 A CN105122355 A CN 105122355A
Authority
CN
China
Prior art keywords
audio
signals
additional
information
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480005738.5A
Other languages
English (en)
Other versions
CN105122355B (zh
Inventor
托尔斯藤·卡斯特纳
于尔根·赫莱
法尔科·里德鲁施
科尔内利娅·科尔内利娅法尔希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105122355A publication Critical patent/CN105122355A/zh
Application granted granted Critical
Publication of CN105122355B publication Critical patent/CN105122355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了一种设备,用于编码一个或多个音频对象,以获得编码信号。所述设备包括下混频器(110),用于向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号。而且,所述设备包括处理模块(120),用于处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号。而且,所述设备包括信号计算器(130),用于计算一个或多个附加信号,其中,所述信号计算器(130)被配置为根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个。而且,所述设备包括对象信息发生器(140),用于生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述附加信号的附加参数信息。而且,所述设备包括输出接口(150),用于输出编码信号,所述编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。而且,提供了一种用于解码的相应设备。

Description

将隐藏对象用于信号混合操作的空间音频对象编码的设备和方法
技术领域
本发明涉及音频信号处理,并且尤其涉及一种解码器、一种编码器、一种系统、一种方法以及一种计算机程序,用于将隐藏对象用于信号混合操作的空间音频对象编码。
背景技术
音频信号处理变得越来越重要。近年来,在音频编码领域[BCC,JSC,SАОС,SAOC1,SАOC2]中并且在消息源分离领域[ISS1,ISS2,ISS3,ISS4,ISS5,ISS6]中,提出了用于包含多个音频对象的音频场景的比特率有效传输和/或储存的参数技术。这些技术旨在根据描述所传输的和/或储存的视频场景和/或在视频场景内的视频源对象的附加边信息,重构期望的输出音频场景或期望的音频源对象。
图11描述了示出MPEGSAOC(MPEG=运动图像专家组;SAOC=空间音频对象编码)的实例的根据现有技术水平的系统。尤其地,图11示出了MPEGSАOС系统概述。
根据现有技术水平,通常通过频率选择的方式执行一般处理,并且例如,可以在每个频带内,如下描述该一般处理:
N个输入音频对象信号s1...sN向下混合成P个信道x1...xP,作为最先进的АОС解码器910的混频器912的处理的一部分。可以使用下混合矩阵,包括元素d1,1,...,dN,P。此外,АОС解码器910的边信息估计器914提取描述输入音频对象的特征的边信息。对于MPEGSAOC,对象功率彼此之间的关系是这种边信息的基本形式。
随后,可以传输和/或储存下混合信号和边信息。为此,最先进的感知音频编码器920(例如,MPEG-1层II或III(也称为mp3)音频编码器或MPEG高级音频编码(AAC)音频编码器等)可以编码(例如,压缩)下混合音频信号。
在接收端,编码信号首先由最先进的感知音频解码器940(例如,MPEG-1层II或III音频解码器或MPEG高级音频编码(AAC)音频解码器等)解码。
然后,解码器SAOC解码器950在概念上试图使用传输侧信息从(解码的)下混合信号中恢复原始对象信号,例如,通过进行“对象分离”,如上所述,可以由SAOC编码器910的边信息估计器914生成该传输侧信息。为了通过进行对象分离来恢复原始对象,SAOC解码器950包括对象分离器952,例如,虚拟对象分离器。
然后,对象分离器952可以将接近的对象信号提供给SAOC解码器950的渲染器954,其中,然后,渲染器954将接近的对象信号混合到由M个音频输出信道表示的目标场景内,例如,通过使用渲染矩阵。在图11中的系数r1,1...rN,M可以(例如)表示渲染矩阵的一些系数。在特殊的情况下,期望目标场景可以是来自混合物(源分离场景)的仅仅一个源信号的渲染,也可以是任何其他任意的声音场景。
然而,根据现有技术水平的处理具有几个缺点。
最先进的系统限于仅仅处理音频源信号。假设不将进一步的信号处理应用于混合物信号中或原始源对象信号中,执行在编码器和解码器内的信号处理。如果这种假设不再适用,那么这种系统的性能减小。
违反这种假设的显著实例是在处理链中使用音频编码器,以减少要储存和/或传输的数据量,用于有效地传送下混合信号。信号压缩在感知上改变下混合信号。这具有以下效应:在解码系统内的对象分离器的性能降低,因此,渲染的目标场景的感知质量也降低[ISS5,ISS6]。
发明内容
本发明的目标在于,提供用于音频编码和解码的改进的概念。由根据权利要求1所述的设备、根据权利要求9所述的设备、根据权利要求16所述的系统、根据权利要求17所述的方法、根据权利要求18所述的方法以及根据权利要求19所述的计算机程序解决本发明的目标。
提供了一种设备,用于编码一个或多个音频对象,以获得编码信号。所述设备包括下混频器,用于向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号,而且,所述设备包括处理模块,用于处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号。而且,所述设备包括信号计算器,用于计算一个或多个附加信号,其中,所述信号计算器被配置为根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个。而且,所述设备包括对象信息发生器,用于生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。而且,所述设备包括输出接口,用于输出编码信号,所述编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。
根据一个实施方式,所述处理模块可以被配置为通过将所述一个或多个未处理的下混合信号编码,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。
在一个实施方式中,所述信号计算器可以包括解码单元和组合器。所述解码单元可以被配置为将所述一个或多个经处理的下混合信号解码,以获得一个或多个解码信号。而且,所述组合器可以被配置为通过生成在所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值信号,生成所述一个或多个附加信号中的每个。
根据一个实施方式,所述一个或多个未处理的下混合信号中的每个可以包括多个第一信号采样,将所述第一信号采样中的每个分配给多个时间点中的一个。所述一个或多个解码信号中的每个可以包括多个第二信号采样,将所述第二信号采样中的每个分配给所述多个时间点中的一个。而且,所述信号计算器可以进一步包括时间校准单元,其被配置为使所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个在时间上对准,以便将所述未处理的下混合信号的第一信号采样中的一个分配给所述解码信号的第二信号采样中的一个,将所述未处理的下混合信号的所述第一信号采样和所述解码信号的所述第二信号采样分配给所述多个时间点的同一个时间点。
在一个实施方式中,所述处理模块可以被配置为通过在所述一个或多个未处理的下混合信号的至少一个上应用音响效果,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。
根据一个实施方式,可以将音频对象能量值分配给所述一个或多个音频对象中的每个,并且可以将附加能量值分配给所述一个或多个附加信号中的每个。所述对象信息发生器可以被配置为确定参考能量值,以便所述参考能量值大于或等于所述一个或多个音频对象中的每个的所述音频对象能量值,并且以便所述参考能量值大于或等于所述一个或多个附加信号中的每个的所述附加能量值。而且,所述对象信息发生器可以被配置为通过确定所述一个或多个音频对象的每个音频对象的音频对象水平差值,来确定所述参数音频对象信息,以便所述音频对象水平差值表示所述音频对象的所述音频对象能量值与所述参考能量值的比值,或者以便所述音频对象水平差值表示在所述参考能量值与所述音频对象的所述音频对象能量值之间的差值。而且,所述对象信息发生器可以被配置为通过确定所述一个或多个附加信号的每个附加信号的附加对象水平差值,来确定所述附加对象信息,以便所述附加对象水平差值表示所述附加信号的所述附加能量值与所述参考能量值的比值,或者以便所述附加对象水平差值表示在所述参考能量值与所述附加信号的所述附加对象能量值之间的差值。
在一个实施方式中,所述处理模块可以包括音响效果模块和编码模块。所述音响效果模块可以被配置为在所述一个或多个未处理的下混合信号的至少一个上应用音响效果,以获得一个或多个在听觉上调整的下混合信号。而且,所述编码模块可以被配置为将所述一个或多个在听觉上调整的下混合信号编码,以获得所述一个或多个经处理的下混合信号。
而且,提供了一种用于将编码信号解码的设备,其中,所述编码信号包括关于一个或多个音频对象的参数音频对象信息以及附加参数信息。所述设备包括接口,用于接收一个或多个经处理的下混合信号,并且用于接收所述编码信号,其中,所述附加参数信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号。而且,所述设备包括音频场景发生器,用于根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,其中,所述音频场景发生器被配置为在所述音频场景内衰减或消除由所述附加参数信息表示的输出信号。
根据一个实施方式,所述附加参数信息可以取决于一个或多个附加信号,其中,所述附加信号表示在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,其中,所述一个或多个未处理的下混合信号表示所述一个或多个音频对象的下混合,并且其中,所述一个或多个经处理的下混合信号由所述一个或多个未处理的下混合信号的处理造成。
在一个实施方式中,所述音频场景发生器可以包括音频对象发生器和渲染器。所述音频对象发生器可以被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息以及所述附加参数信息,生成所述一个或多个音频对象。所述渲染器可以被配置为根据所述一个或多个音频对象、所述参数音频对象信息以及渲染信息,生成所述多个空间音频信号。
根据一个实施方式,所述渲染器可以被配置为根据所述一个或多个音频对象、所述附加参数信息以及所述渲染信息,生成所述音频场景的多个空间音频信号,其中,所述渲染器可以被配置为根据由所述渲染信息包括的一个或多个渲染系数,在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。
在一个实施方式中,所述设备进一步包括用户接口,用于设置所述一个或多个渲染系数,用于控制是否在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。
根据一个实施方式,所述音频场景发生器可以被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,其中,所述音频场景发生器可以被配置为不生成所述一个或多个音频对象,以生成所述音频场景。
在一个实施方式中,所述设备可以进一步包括音频解码器,用于将所述一个或多个经处理的下混合信号解码,以获得一个或多个解码信号,其中,所述音频场景发生器可以被配置为根据所述一个或多个解码信号、所述参数音频对象信息、所述附加参数信息以及所述渲染信息,生成包括多个空间音频信号的音频场景。
在另一个实施方式中,所述音频场景发生器可以被配置为通过使用以下公式,生成所述音频场景:
G′=E′D′T(D′E′D′T)-1,并且
其中,是表示所述音频场景的第一矩阵,其中,包括表示所述多个空间音频信号的多行,其中,R′是表示所述渲染信息的第二矩阵,其中,是第三矩阵,其中,X′是表示所述一个或多个经处理的下混合信号的第四矩阵,其中,G′是第五矩阵,其中,D′是第五矩阵,作为下混合矩阵,并且其中,是包括多个第七矩阵系数的第七矩阵,其中,所述第七矩阵系数由以下公式定义:
其中,E′i,j是在第i行和第j列的第七矩阵系数中的一个,i是行标,j是列标,其中,IOC′i,j表示互相关值,并且其中,表示第一相关能量值,并且其中,OLD′j表示第二相关能量值。
而且,提供了一种系统。所述系统包括:根据一个上述实施方式的用于编码的设备以及根据一个上述实施方式的用于解码的设备。用于编码的设备被配置为将一个或多个经处理的下混合信号和编码信号提供给用于解码的设备,所述编码信号包括用于一个或多个音频对象的参数音频对象信息以及用于一个或多个附加信号的附加参数信息。用于解码的设备被配置为根据所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景。
而且,提供了一种方法,用于编码一个或多个音频对象,以获得编码信号。所述方法包括:
向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号,
处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号,
根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个,来计算一个或多个附加信号,
生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息,以及
输出编码信号,所述编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。
而且,提供了一种用于将编码信号解码的方法,其中,所述编码信号包括关于一个或多个音频对象的参数音频对象信息以及附加参数信息。所述方法包括:
接收一个或多个经处理的下混合信号,并且接收所述编码信号,其中,所述附加参数信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号,
根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,并且
在所述音频场景内衰减或消除由所述附加参数信息表示的输出信号。
而且,提供了一种计算机程序,用于在计算机或信号处理器上执行时,实现一个上述方法。
根据一个实施方式,通过提供源目标或混合信号的变更/操作,作为附加隐藏信号,提高/扩展参数目标编码的概念。在边信息估计工艺中并且在(虚拟的)对象分离中包含这些隐藏的对象,造成提高渲染的声音场景的感知质量。隐藏的对象可以(例如)描述应用于下混合信号中的从感知音频编码器中人工生成的信号,例如,编码错误信号,但是还可以是(例如)应用于下混合信号中的其他非线性处理的描述,例如,混响。
由于这些隐藏对象的特性,所以这些隐藏对于主要并非用于在解码侧渲染,而是用于提供(虚拟的)对象分离工艺,从而提高渲染的声音场景的感知质量。这通过使用再现水平0(“静音”)渲染隐藏对象来实现。通过这种方式,自动控制在解码器中的渲染工艺,以便易于抑制由隐藏对象表示的不可取的元件,从而提高渲染场景/信号的主观质量。
根据一个实施方式,编码模块可以是感知音频编码器。所提供的概念尤其有利,这是因为通过完全解码器兼容的方式包括隐藏对象信息,这些概念能够提供音频质量的改进。这表示可以获得在输出信号质量中的所描述的改进,无需改变现有/部署(例如,SAOC)解码器,这些解码器根据ISO/MPEG标准化,并且如果不违反与标准的SAOC规范(或者重新发布标准,这是一个费时又费钱的过程)的一致性,就不能改变。
下面,参照“隐藏对象”。应主要的是,在一些实施方式中,附加参数信息可以(例如)表示一个或多个隐藏对象。
附图说明
下面,参照附图,更详细地描述了本发明的实施方式,其中:
图1示出了根据一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备;
图2示出了根据另一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备;
图3示出了根据又一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备;
图4示出了根据另一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备;
图5示出了根据一个实施方式的用于编码的设备的处理模块120;
图6示出了根据一个实施方式的用于将编码信号解码的设备;
图7示出了根据另一个实施方式的用于将编码信号解码的设备;
图8示出了根据又一个实施方式的用于将编码信号解码的设备;
图9示出了根据另一个实施方式的用于将编码信号解码的设备;
图10示出了根据一个实施方式的系统;
图11示出了显示MPEGSAOC的实例的根据现有技术水平的系统。
具体实施方式
图1示出了根据一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备。
所述设备包括下混频器110,用于向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号。为此,图1的下混频器接收并且向下混合所述一个或多个音频对象,例如,通过应用下混合矩阵,以获得一个或多个未处理的下混合信号。
而且,所述设备包括处理模块120,用于处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号。处理模块120从下混频器中接收并且处理一个或多个未处理的下混合信号,以获得一个或多个经处理的信号。
例如,处理模块120可以是编码模块,例如,感知编码器,并且可以被配置为通过编码一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号,来处理一个或多个经处理的下混合信号。处理模块120可以是(例如)感知音频编码器,例如,MPEG-1层II或III(也称为mp3)音频编码器或MPEG高级音频编码(AAC)音频编码器等。
或者,例如,所述处理模块120可以是音频效应模块,并且可以被配置为通过在所述一个或多个未处理的下混合信号的至少一个上应用音频效应,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。
而且,所述设备包括信号计算器130,用于计算一个或多个附加信号。所述信号计算器130被配置为根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个。
信号计算器130可以(例如)计算在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值信号,以生成所述一个或多个附加信号中的一个。
然而,在其他实施方式中,并未确定差值信号,信号计算器130可以确定在所述一个或多个经处理的下混合信号中的所述一个与所述一个或多个未处理的下混合信号中的所述一个之间任何其他类型的差值,以生成所述一个或多个附加信号中的一个。然后,信号计算器130可以根据在这两个信号之间确定的差值,计算附加信号。
而且,所述设备包括对象信息发生器140,用于生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述附加信号的附加参数信息。
例如,为了确定参数音频对象信息,可以确定附加参数信息对象水平差值。例如,可以将音频对象能量值分配给所述一个或多个音频对象中的每个,并且可以将附加能量值分配给所述一个或多个附加信号中的每个。
所述对象信息发生器140可以被配置为确定参考能量值,以便所述参考能量值大于或等于所述一个或多个音频对象中的每个的所述音频对象能量值,并且以便所述参考能量值大于或等于所述一个或多个附加信号中的每个的所述附加能量值。
而且,所述对象信息发生器140可以被配置为通过确定所述一个或多个音频对象的每个音频对象的音频对象水平差值,来确定所述参数音频对象信息,以便所述音频对象水平差值表示所述音频对象的所述音频对象能量值与所述参考能量值的比值,或者以便所述音频对象水平差值表示在所述参考能量值与所述音频对象的所述音频对象能量值之间的差值。
而且,所述对象信息发生器140可以被配置为通过确定所述一个或多个附加信号的每个附加信号的附加对象水平差值,来确定所述附加对象信息,以便所述附加对象水平差值表示所述附加信号的所述附加能量值与所述参考能量值的比值,或者以便所述附加对象水平差值表示在所述参考能量值与所述附加信号的所述附加对象能量值之间的差值。
例如,可以将音频对象的每个音频对象能量值作为边信息传送给对象信息发生器140。可以将每个附加信号的能量值作为边信息传送给对象信息发生器140。或者,在其他实施方式中,对象信息发生器140本身可以(例如)通过求一个附加信号的每个样品值的平方值,通过计算所述样品值的总和,获得中间结果,并且通过计算中间结果的平方根,获得所述附加信号的能量值,来计算每个附加信号的能量值。然后,例如,对象信息发生器140可以确定所有音频对象和所有附加信号的最大能量值,作为参考能量值。
然后,对象信息发生器140然后可以(例如)确定附加信号的附加能量值与参考能量值的比值,作为附加对象水平差值。例如,如果附加能量值是3.0并且参考能量值是6.0,那么附加对象水平差值是0.5。
交替地,对象信息发生器140可以(例如)确定参考能量值与附加信号的附加能量值的差值,作为附加对象水平差值。例如,如果附加能量值是7.0并且参考能量值是10.0,那么附加对象水平差值是3.0。如果使用对数尺度表示能量值,那么通过确定差值来计算附加对象水平差值,这特别重要。
在其他实施方式中,参考信息还可以包括关于在空间音频对象和/或隐藏对象之间的对象间相关性的信息。
而且,所述设备包括输出接口150,用于输出编码信号。所述编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。为此,在一些实施方式中,输出接口150可以被配置为生成编码信号,以便编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息。或者,在其他实施方式中,对象信息发生器140可以已经生成编码信号,以便编码信号包括用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息,并且将编码信号传送给输出接口150。
图2示出了根据另一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备。在图2的实施方式中,所述处理模块120被配置为通过将所述一个或多个未处理的下混合信号编码,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。图2的信号计算器130包括解码单元240和组合器250。所述解码单元240被配置为将所述一个或多个经处理的下混合信号解码,以获得一个或多个解码信号。而且,所述组合器250被配置为通过生成在所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值信号,生成所述一个或多个附加信号中的每个。
实施方式基于以下发现:在向下混合空间音频对象之后,后续处理模块可以(无意地或故意地)修改所产生的下混合信号。通过提供将关于下混合信号的修改的信息作为隐藏对象边信息(例如,作为隐藏对象)编码的边信息发生器,在重构空间音频对象时(尤其在无意中修改下混合信号时),可以去除这种效应,或者可以在从重构的空间音频对象中生成音频信道时,决定在哪种程度上/在什么数量上渲染下混合信号的(故意)修改。
在图2的实施方式中,解码单元240在编码器侧上生成一个或多个解码信号,以便可以比较所述一个或多个解码信号和所述一个或多个未处理的下混合信号,以确定由处理模块120进行的编码造成的差值。
图3示出了根据又一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备。所述一个或多个未处理的下混合信号中的每个可以包括多个第一信号采样,将所述第一信号采样中的每个分配给多个时间点中的一个。所述一个或多个解码信号中的每个可以包括多个第二信号采样,将所述第二信号采样中的每个分配给所述多个时间点中的一个。
图3的实施方式与图2的实施方式的差别在于,所述信号计算器进一步包括时间校准单元345,其被配置为使所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个在时间上对准,以便将所述未处理的下混合信号的第一信号采样中的一个分配给所述解码信号的第二信号采样中的一个,将所述未处理的下混合信号的所述第一信号采样和所述解码信号的所述第二信号采样分配给所述多个时间点的同一个时间点。
换言之,由于处理模块120的处理和解码单元240的解码需要时间,所以应在时间上分别分配未处理的下混合信号和解码的下混合信号,以比较这两种信号,并且确定在期间的差值。
图4示出了根据另一个实施方式的用于编码一个或多个音频对象以便获得编码信号的设备。尤其地,图4示出了用于通过生成附加参数信息来编码一个或多个音频对象的设备,该信息通过附加参数来将所述一个或多个附加信号(例如,一个或多个编码错误信号)参数化。这些附加参数可以称为“隐藏对象”,这是因为在解码器侧上,这些参数可以向用户隐藏。
图4的设备包括混频器110(下混频器)、作为处理模块120的音频编码器、信号计算器130以及对象信息发生器140(也可以称为边信息估计器),信号计算器130由虚线表示并且包括解码单元240(“音频解码器”)、时间校准单元345以及组合器250。
在图4的实施方式中,组合器250可以(例如)在至少一个(时间校准的)下混合信号与至少一个(时间校准的)编码信号之间形成至少一个差值,例如,至少一个差值信号。SAOC编码器模块可以包括混频器110和边信息估计器260。
感知音频编解码器产生可以由编码噪声信号描述的下混合信号的信号变更。在解码侧使用灵活的渲染功能[ISS5,ISS6]时,这个编码噪声信号可以造成可感知的信号退化。编码噪声可以描述为隐藏对象,该对象并非用于在解码侧上渲染。可以与“真实的”源对象信号一样参数化。
更具体而言,这可以(例如)如下进行:
下混合信号由音频编解码器编码/解码(由另一个算法处理),以获得至少一个解码信号(例如,可以由处理模块120进行编码;例如,可以由解码单元240进行解码);
然后,从(原始)下混合信号x1...xP中减去解码的(时间校准的)下混合信号,产生表示一个或多个编码(处理)错误(噪声)信号q1...qP的一个或多个差值信号(组合信号);
将错误信号q1...qP(差值信号)和错误信号混合参数dq,1...dq,Р(通过默认设为1)提供给SAOC编码器的边信息估计器140(对象分析部分),产生附加(隐藏)的噪声对象的参数信息。对于MPEGSAOC,计算对象功率(隐藏的以及音频源对象)彼此之间的关系,作为这种边信息的最基本的形式。附加隐藏噪声对象表示隐藏的对象边信息;
将附加噪声对象的参数信息加入由SAOC编码器从实际对象中生成的SAOC边信息中。(SAOC边信息可以被视为音频对象边信息。这种音频对象边信息(例如)根据这两个或多个空间音频对象描述两个或多个空间音频对象的特征)。
图5示出了根据一个实施方式的用于编码的设备的处理模块120。所述处理模块120包括音响效果模块122和编码模块121。所述音响效果模块122被配置为在所述一个或多个未处理的下混合信号的至少一个上应用音响效果,以获得一个或多个在听觉上调整的下混合信号。而且,所述编码模块121被配置为将所述一个或多个在听觉上调整的下混合信号编码,以获得所述一个或多个经处理的信号。
可以将信号点A和C馈送到对象信息发生器140内。因此,对象信息发生器可以确定音响效果模块122和编码模块121对未处理的下混合信号的效应,并且可以生成附加参数信息,以表示这个效应。
可选地,在点B中的信号也可以馈送到对象信息发生器140内。由此,对象信息发生器140可以通过考虑在A和B中的信号,来确定音响效果模块122对未处理的下混合信号的单独效应。例如,这可以通过在A中的信号与在B中的信号之间形成差值信号来实现。
而且,由此,对象信息发生器140可以通过考虑在B和C中的信号,来确定编码模块121的单独效应。例如,这可以通过将在点C中的信号解码并且通过在这些解码信号与在B中的信号之间形成差值信号来实现。
图6示出了根据一个实施方式的用于将编码信号解码的设备。编码信号可以包括关于一个或多个音频对象的参数音频对象信息以及附加参数信息。
该设备包括接口210,用于接收一个或多个经处理的下混合信号,并且用于接收所述编码信号。所述附加参数信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号。
而且,该设备包括音频场景发生器220,用于根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及渲染信息,生成包括多个空间音频信号的音频场景。渲染信息表示所述一个或多个音频对象在所述音频场景内的位置。所述音频场景发生器220被配置为在所述音频场景内衰减或消除由所述附加参数信息表示的输出信号。
例如,相对于空间音频对象编码(SAOC),在本领域中,众所周知在所述一个或多个音频对象由有个或多个处理的下混合信号并且由参数音频对象信息编码时,可以根据渲染信息定位一个或多个音频对象的方式。
而且,根据这个实施方式,接口被配置为接收附加参数信息,该信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号。因此,附加参数信息反应(例如)由根据图1的用于编码的设备进行的处理。
因此,在一个特定的实施方式中,所述附加参数信息可以取决于一个或多个附加信号,其中,所述附加信号表示在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,其中,所述一个或多个未处理的下混合信号表示所述一个或多个音频对象的下混合,并且其中,所述一个或多个经处理的下混合信号由所述一个或多个未处理的下混合信号的处理造成。
接收由根据图1的用于编码的设备生成的经处理的下混合信号和编码信号的最先进的解码器不使用编码信号包括的附加参数信息。相反,通过仅仅使用经处理的下混合信号、编码信号的参数音频对象信息以及渲染信息,来生成音频场景。
然而,根据图6的实施方式的用于解码的设备使用编码信号的附加参数信息。这允许用于解码的设备撤销或部分撤销由根据图1的用于编码的设备的处理模块120进行的处理。
例如,附加参数信息可以表示在图1的一个未处理的下混合信号与图1的一个经处理的下混合信号之间的差值信号。这种差值信号可以被视为音频场景的输出信号。例如,每个经处理的下混合信号可以被视为一个未处理的下混合信号与差值信号的组合。
然后,音频场景发生器220可以被配置为在所述音频场景内衰减或消除这个输出信号,以便仅仅重放未处理的下混合信号,或者以便重放未处理的下混合信号并且仅仅部分重放差值信号,例如,根据渲染信息。
图7示出了根据另一个实施方式的用于将编码信号解码的设备。所述音频场景发生器220包括音频对象发生器610和渲染器620。
所述音频对象发生器610被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息以及所述附加参数信息,生成所述一个或多个音频对象。
所述渲染器620被配置为根据所述一个或多个音频对象、所述参数音频对象信息以及渲染信息,生成所述多个空间音频信号。
根据一个实施方式,所述渲染器620可以,例如被配置为根据所述一个或多个音频对象、所述附加参数信息以及所述渲染信息,生成所述音频场景的多个空间音频信号,其中,所述渲染器620被配置为根据由所述渲染信息包括的一个或多个渲染系数,在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。
图8示出了根据又一个实施方式的用于将编码信号解码的设备。在图8中,该设备进一步包括用户接口710,用于设置所述一个或多个渲染系数,用于控制是否在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。例如,用户接口可以允许用户将一个渲染系数设为0.5,表示部分抑制由附加参数信息表示的输出信号。或者,例如,用户接口可以允许用户将一个渲染系数设为0,表示完全抑制由附加参数信息表示的输出信号。或者,例如,用户接口可以允许用户将一个渲染系数设为1,表示根本不抑制由附加参数信息表示的输出信号。
根据一个替换的实施方式,所述音频场景发生器220可以被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,其中,所述音频场景发生器可以被配置为不生成所述一个或多个音频对象,以生成所述音频场景。
图9示出了根据另一个实施方式的用于将编码信号解码的设备。在图9的实施方式中,所述设备进一步包括音频解码器510,用于将所述一个或多个经处理的下混合信号(称为“编码的下混合”)解码,以获得一个或多个解码信号,其中,所述音频场景发生器被配置为根据所述一个或多个解码信号、所述参数音频对象信息、所述附加参数信息以及所述渲染信息,生成包括多个空间音频信号的音频场景。
在图9的设备中,而且,该设备包括音频解码器510,用于将从接口(未显示)中馈送到解码器510内的所述一个或多个经处理的下混合信号解码。然后,将产生的解码信号馈送到音频场景发生器220的音频对象发生器(在图9中,称为虚拟对象分离器520)内,在图9的实施方式中,该音频场景发生器是SAOC解码器。音频场景发生器220进一步包括渲染器530。
尤其地,图9示出了根据一个实施方式的通过隐藏对象抑制的相应SAOC解码/渲染。
在图9中,如图9的解码器可以在解码侧使用如图4的编码器的附加边信息,来抑制编码噪声,从而提高渲染的声音场景的感知质量。更具体而言,这可以如下进行:
1)在(虚拟的)对象分离工艺中,包含附加隐藏对象信息,作为附加对象。通过与“规则的”音频源对象相同的方式,处理编码错误。附加对象可以表示为附加参数信息的一部分。
2)通过抑制N-1个干扰源信号和编码错误信号q1...qP,从混合物中分离出N个音频对象中的每个。与在这个步骤中仅仅考虑规则的(未隐藏的)音频(源)对象的情况相比,这造成音频对象信号的改进估计。要注意的是,可以通过相同的方式计算编码错误的估计。
3)通过使估计的音频对象信号乘以相应的渲染系数,渲染提高的音频源估计来生成期望的音频场景(也称为“声音目标场景”)。在渲染工艺中,省略了任何附加计算的估计的编码错误信号。
实际上,在MPEG-DSAOC等系统中,可以在单个有效转码工艺中,优选地执行第二和第三步骤。
在其他实施方式中,隐藏的音频对象概念也可以用于撤销或控制应用于在编码器侧上的信号混合物中的在解码器侧上的某些音频效应。在下混合信道上应用的任何效应可以在解码器上造成对象分离工艺的退化。从在解码器侧上的下混合信号中消除这个效应,例如,撤销所应用的音频效应,提高了分离步骤的性能,从而改进了渲染的声音场景的感知质量。对于更连续类型的操作,通过控制在SAOC解码器内的隐藏对象的渲染程度,可以控制在渲染的音频输出内出现的效应的量。通过水平0渲染隐藏对象(由附加参数信息表示),造成在渲染的输出信号中几乎完全抑制应用的效应。通过低水平渲染隐藏对象,在渲染的输出信号中造成低水平的应用效应。
作为一个实例,通过传输参数化版本的混响,作为隐藏(效应)对象,并且对于隐藏(效应)对象,通过再现水平0应用规则的SAOC解码渲染,可以撤销混响器对下混合信道的应用。
更具体而言,这可以如下进行:
在编码器侧,将音频效应(例如,混响器)应用于下混合信号x1...xP中,产生修改的下混合信号x’1...x’P
从未处理的(原始)下混合信号x1...xP中减去经处理的并且时间校准的下混合信号x’1...x’P,产生混响信号q1...qP(效应信号)。
将效应信号q1...qP和效应信号混合参数dq,1...dq,P提供给SAOC编码器的对象分析部分,产生附加(隐藏)效应对象的参数信息。
获得效应信号的参数化描述,并且将该描述作为附加隐藏的(效应)对象信息加入由SAOC边信息估计器的边信息中,产生传输/储存的丰富边信息。
在解码器侧,在(虚拟)对象分离工艺中,包含隐藏的对象信息,作为附加对象。通过与“规则的”音频源对象相同的方式,处理隐藏的对象(效应信号)。
通过抑制N-1个干扰源信号和效应信号q1...qP,从混合物中分离出N个音频对象中的每个。与在这个步骤中仅仅考虑规则的(未隐藏的)音频源对象的情况相比,这造成原始音频对象信号的改进估计。交替地,可以通过相同的方式计算混响信号的估计。
通过使估计的音频对象信号乘以相应的渲染系数,渲染提高的音频源估计来生成期望的声音目标场景。可以几乎完全抑制隐藏的对象(混响信号)(通过使用水平0来渲染混响信号),或者必要时,通过相应地设置隐藏(效应)对象的渲染水平,来通过某个水平应用。
在其他实施方式中,音频对象发生器520可以将关于隐藏对象的信息传送给渲染器530。
因此,在这个实施方式中,出于两个目的,音频对象发生器520使用隐藏的对象边信息:
一方面,音频对象发生器520使用隐藏的对象边信息,来重构原始空间音频对象然后,这种原始空间音频对象不反应在编码器侧边上进行的下混合信号x1,…,xp的修改,例如,通过音频效应模块;
另一方面,音频对象发生器520将包括关于下混合信号x1,…,xp的编码器侧(例如,故意的)修改的信息的隐藏的对象边信息传送给渲染器530,例如,作为音频对象渲染器可以接收的隐藏对象作为隐藏的对象边信息。
然后,渲染器530可以控制是否在声音场景内渲染所接收的隐藏对象而且,渲染器530可以被配置为根据音频效应的渲染水平,在一个或音频信道中控制音频效应的量。例如,渲染器530可以接收提供音频效应的渲染水平的控制信息。
例如,渲染器530可以可配置为控制可配置一个或多个组合信号的渲染水平的量。渲染水平可以表示渲染器530可渲染由隐藏的对象边信息表示的组合信号的程度,例如,表示在编码器侧上应用的声音效应的差值信号。例如,渲染水平0可以表示完全抑制组合信号,而渲染水平1可以表示根本不抑制组合信号。渲染水平s(0<s<1)可以表示部分抑制组合信号。
下面,解释用于SAOC的实例的隐藏的对象处理。应注意的是,关于隐藏的对象的信息可以被视为附加参数信息。
首选,介绍术语和定义:
S:N个原始对象信号(N行)的矩阵(表示上述音频对象);
N个估计的原始音频对象信号(N行)的矩阵;
X:P个未处理的下混合信道(P行)的矩阵(表示上述下混合信号);
X':P个经处理的下混合信道(P行)的矩阵(表示上述处理的信号);
Y:M个渲染的输出信道(M行)的矩阵;使用原始源信号;
M个渲染的输出信道(M行)的矩阵;使用估计的源信号;
D:尺寸P乘以N的下混合矩阵;
G:尺寸N乘以P的源估计矩阵;
OLDi:源目标(一个控件音频对象)si的能量,i=I,...N;如在SAOC中所定义的,进行计算;
IOCi,j:在源目标(一个控件音频对象)si和sj之间的互相关性,i,,j=I,...N;如在SAOC中所定义的,进行计算;
R:尺寸M乘以N的渲染矩阵。
可以如下进行在SAOC内估计对象源s1,…,.sN,而不使用隐藏的对象边信息(一种附加参数信息),例如,不考虑隐藏的对象:
这在仅仅用于X等于X'的情况的最小平方误差的意义中,产生原始源(空间音频对象)s1,…,.sN的最佳估计。
如果X'≠X,例如,由于下混合的编码/压缩或者应用于下混合中的混响,那么估计不产生原始源的最佳可能估计。
期望的目标场景可以计算为:
现在,考虑使用隐藏的对象边信息(一种附加参数信息)的估计,例如,考虑下混合变更的对象源s1,…,.sN的估计,作为根据一个实施方式的隐藏对象。
如果在分离工艺中考虑信号变更(编码、混响效应),那么可以进行原始源s1,…,.sN的改进估计。
在SAOC内,这些变更可以通过其最佳的形式理解为在下混合中的附加隐藏对象并且在源估计工艺中考虑。
现在,考虑使用隐藏对象边信息的计算,例如,用于由P个信号信道构成的一个隐藏对象的实例。为此,介绍一些附加术语和定义。
G':尺寸(N+P)乘以P的源估计矩阵;考虑原始源和隐藏对象;
OLD′i:原始源和隐藏对象si的能量,i=l,...(N+P);如在SAOC中所定义的,进行计算;
IOC′i,j:在所有对象(原始源和隐藏对象)si和sj之间的互相关性,i,j=1,...(N+P);如在SAOC中所定义的,进行计算;
注释:对于大部分情况,在原始源和隐藏对象之间的互相关性可以假设为0并且不必计算;
D':尺寸M乘以(N+P)的下混合矩阵,描述原始源和隐藏对象的混合系数,这些系数默认为1,用于隐藏对象(例如,下混合相关信息),
尺寸(N+P)的估计的原始音频对象和隐藏对象信号的矩阵;
R':尺寸M乘以(N+P)的渲染矩阵。
原始源s1..sN的改进估计可以计算为:
这产生原始源目标s1...sN的改进估计。
与默认处理不同,在原始源的估计中,抑制隐藏对象的信号部分。要注意的是,这也产生了隐藏对象的估计。
然后,可以如下计算期望的目标场景:
根据应用场景:
通过将相应渲染系数R'设为0(这是默认场景,用于阻止编码噪声将下混合信号编码),可以从渲染中省略隐藏对象,或者
通过不等于0的水平,渲染隐藏对象。
例如,通过低水平渲染隐藏对象,在渲染的输出信号中产生低水平的隐藏对象(例如,混响)。
图10示出了根据一个实施方式的系统。该系统包括根据一个上述实施方式的用于编码一个或多个音频对象的设备810以及根据一个上述实施方式的用于将编码信号解码的设备820。
用于编码的设备810被配置为将一个或多个经处理的下混合信号和编码信号提供给用于解码的设备820,所述编码信号包括用于一个或多个音频对象的参数音频对象信息以及用于一个或多个附加信号的附加参数信息。用于解码的设备820被配置为根据所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景。
虽然在设备的背景下描述了一些方面,但是这些方面显然也表示相应方法的描述,其中,模块或装置与方法步骤或者方法步骤的特征对应。同样,在方法步骤的背景下描述的方面也表示相应模块或物品或相应设备的特征的描述。
本发明的分解信号可以储存在数字储存介质上或者可以在传输介质上传输,例如,无线传输介质或有线传输介质,例如,互联网。
根据某些实现方式要求,本发明的实施方式可以在硬件中或者在软件中实现。可以使用数字储存介质,执行实现方式,例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,在这些介质上储存了电子可读控制信号,这些信号与可编程计算机系统配合(或者能够与其配合),以便执行各自方法。
根据本发明的一些实施方式包括永久性数据载体,其具有电子可读控制信号,这些信号能够与可编程计算机系统配合,以便执行在本文中描述的一种方法。
通常,本发明的实施方式可以作为具有程序代码的计算机程序产品来实现,在计算机程序产品在计算机上运行时,该程序代码可操作,用于执行一种方法。例如,程序代码可以储存机器可读载体上。
其他实施方式包括储存在机器可读载体上的计算机程序,用于执行在本文中描述的一种方法。
换言之,因此,本发明方法的一个实施方式是具有程序代码的计算机程序,在计算机程序产品在计算机上运行时,该程序代码用于执行在本文中描述的一种方法。
因此,本发明方法的进一步实施方式是数据载体(或数字储存介质或计算机可读介质),该载体包括在其上记录的计算机程序,用于执行在本文中描述的一种方法。
因此,本发明方法的进一步实施方式是数据流或一系列信号,表示用于执行在本文中描述的一种方法的计算机程序。例如,数据流或这系列信号可以被配置为通过数据通信连接(例如,通过互联网)来传输。
进一步实施方式包括处理装置,例如,计算机或可编程逻辑装置,其被配置为或者适合于执行在本文中描述的一种方法。
进一步实施方式包括计算机,在该计算机上安装了计算机程序,用于执行在本文中描述的一种方法。
在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可以用于执行在本文中描述的方法的一些或所有功能。在一些实施方式中,现场可编程门阵列可以与微处理器配合,以便执行在本文中描述的一种方法。通常,这些方法优选地由任何硬件设备执行。
上述实施方式仅仅说明本发明的原理。要理解的是,在本文中描述的设置和细节的修改和变化对于本领域的技术人员显而易见。因此,其目的在于,仅仅受到即将发生的专利权利要求的限制,而不受到通过在本文中的实施方式的描述和解释提出的具体细节的限制。
参考文献
[BCC]C.FallerandF.Baumgarte,"BinauralCueCoding-PartII:Schemesandapplications,"IEEETrans.onSpeechandAudioProc.,vol.11,no.6,Nov.2003
[JSC]C.Faller,"ParametricJoint-CodingofAudioSources",120thAESConvention,Paris,2006
[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"FromSACToSAOC–RecentDevelopmentsinParametricCodingofSpatialAudio",22ndRegionalUK,AESConference,Cambridge,UK,April2007
[SAOC2]J.Engdegáгd,B.Resch,C.Falch,O.Helmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.SchuijersandW.Oomen:"SpatialAudioObjectCoding(SAOC)—TheUpcomingMPEGStandardonParametricObjectBasedAudioCoding",124thAESConvention,Amsterdam2008
[SAOC]ISO/IEC,"MPEGaudiotechnologies-Part2:SpatialAudioObjectCoding(SAOC),"ISO/IECJTCI/SC29/WG1I(MPEG)InternationalStandard23003-2.
[ISS1]M.ParvaixandL.Girin:"InformedSourceSeparationofunderdeterminedinstantaneousStereoMixturesusingSouгceIndexEmbedding",IEEEICASSP,2010
[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:"Awatermarking-basedmethodforinformedsourceseparationofaudiosignalswithasinglesensor",IEEETransactionsonAudio,SpeechandLanguageProcessing,2010
[ISS3]A.LiutkusandJ.Pine!andR.BadeauandL.GirinandG.Richard:"Informedsourceseparationthroughspectrogramcodinganddataembedding",SignalProcessingJournal,2011
[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:"Informedsourceseparation:sourcecodingmeetssourceseparation',IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics,2011
[ISS5]ShuhuaZhangandLaurentGirin:"AnInformedSourceSeparationSystemforSpeechSignals",INTERSPEECH,2011
[ISS6]L.GirinandJ.Pinel:"InformedAudioSourceSeparationfromCompressedLinearStereoMixtures",AES42ndInternationalConference:SemanticAudio,2011。

Claims (19)

1.一种用于将编码信号解码的设备,所述编码信号包括关于一个或多个音频对象的参数音频对象信息以及附加参数信息,其中,所述设备包括:
接口(210),用于接收一个或多个经处理的下混合信号,并且用于接收所述编码信号,其中,所述附加参数信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号,
音频场景发生器(220),用于根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,其中,所述音频场景发生器(220)被配置为在所述音频场景内衰减或消除由所述附加参数信息表示的输出信号。
2.根据权利要求1所述的设备,其中,所述附加参数信息取决于一个或多个附加信号,其中,所述附加信号表示在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,其中,所述一个或多个未处理的下混合信号表示所述一个或多个音频对象的下混合,并且其中,所述一个或多个经处理的下混合信号由所述一个或多个未处理的下混合信号的处理造成。
3.根据权利要求1或2所述的设备,
其中,所述音频场景发生器(220)包括音频对象发生器(520;610)和渲染器(530;620),
其中,所述音频对象发生器(520;610)被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息以及所述附加参数信息,生成所述一个或多个音频对象,并且
其中,所述渲染器(530;620)被配置为根据所述一个或多个音频对象、所述参数音频对象信息以及渲染信息,生成所述音频场景的所述多个空间音频信号。
4.根据权利要求3所述的设备,
其中,所述渲染器(530;620)被配置为根据所述一个或多个音频对象、所述附加参数信息以及所述渲染信息,生成所述音频场景的多个空间音频信号,其中,所述渲染器(530;620)被配置为根据由所述渲染信息包括的一个或多个渲染系数,在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。
5.根据权利要求4所述的设备,其中,所述设备进一步包括用户接口,用于设置所述一个或多个渲染系数,用于控制是否在所述音频场景内衰减或消除由所述附加参数信息表示的所述输出信号。
6.根据权利要求1或2所述的设备,其中,所述音频场景发生器(220)被配置为根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,其中,所述音频场景发生器(220)被配置为不生成所述一个或多个音频对象,以生成所述音频场景。
7.根据前述权利要求中任一项所述的设备,
其中,所述设备进一步包括音频解码器(510),用于将所述一个或多个经处理的下混合信号解码,以获得一个或多个解码信号,并且
其中,所述音频场景发生器(220)被配置为根据所述一个或多个解码信号、所述参数音频对象信息、所述附加参数信息以及所述渲染信息,生成包括所述多个空间音频信号的所述音频场景。
8.根据前述权利要求中任一项所述的设备,
其中,所述音频场景发生器(220)被配置为通过使用以下公式,生成所述音频场景:
Y ^ = R &prime; S ^ &prime; ,
S ^ = G &prime; X &prime; ,
G′=E′D′T(D′E′D′T)-1,并且
其中,是表示所述音频场景的第一矩阵,其中,包括表示所述多个空间音频信号的多行,
其中,R′是表示所述渲染信息的第二矩阵,
其中,是第三矩阵,
其中,X′是表示所述一个或多个经处理的下混合信号的第四矩阵,
其中,G′是第五矩阵,
其中,D′是第五矩阵,作为下混合矩阵,并且
其中,E′是包括多个第七矩阵系数的第七矩阵,其中,所述第七矩阵系数由以下公式定义:
E i , j &prime; = IOC i , j &prime; OLD i &prime; OLD j &prime;
其中,E′i,j是在第i行和第j列的第七矩阵系数中的一个,i是行标,j是列标,
其中,IOC′i,j表示互相关值,并且
其中,OLD′i表示第一相关能量值,并且其中,OLD′j表示第二相关能量值。
9.一种用于编码一个或多个音频对象以获得编码信号的设备,其中,所述设备包括:
下混频器(110),用于向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号,
处理模块(120),用于处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号,
信号计算器(130),用于计算一个或多个附加信号,其中,所述信号计算器(130)被配置为根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个,
对象信息发生器(140),用于生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息,以及
输出接口(150),用于输出编码信号,所述编码信号包括用于所述一个或多个音频对象的所述参数音频对象信息以及用于所述一个或多个附加信号的所述附加参数信息。
10.根据权利要求9所述的设备,其中,所述处理模块(120)被配置为通过将所述一个或多个未处理的下混合信号编码,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。
11.根据权利要求10所述的设备,
其中,所述信号计算器(130)包括解码单元(240)和组合器(250),
其中,所述解码单元(240)被配置为将所述一个或多个经处理的下混合信号解码,以获得一个或多个解码信号,
其中,所述组合器(250)被配置为通过生成在所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值信号,生成所述一个或多个附加信号中的每个。
12.根据权利要求11所述的设备,
其中,所述一个或多个未处理的下混合信号中的每个包括多个第一信号采样,将所述第一信号采样中的每个分配给多个时间点中的一个,
其中,所述一个或多个解码信号中的每个包括多个第二信号采样,将所述第二信号采样中的每个分配给所述多个时间点中的一个,
其中,所述信号计算器(130)进一步包括时间校准单元(345),其被配置为使所述一个或多个解码信号中的一个与所述一个或多个未处理的下混合信号中的一个在时间上进行校准,以便将所述未处理的下混合信号的第一信号采样中的一个分配给所述解码信号的第二信号采样中的一个,将所述未处理的下混合信号的所述第一信号采样和所述解码信号的所述第二信号采样分配给所述多个时间点的同一个时间点。
13.根据权利要求9所述的设备,其中,所述处理模块(120)被配置为通过在所述一个或多个未处理的下混合信号的至少一个上应用音频效果,以获得所述一个或多个经处理的下混合信号,来处理所述一个或多个未处理的下混合信号。
14.根据权利要求9到13中任一项所述的设备,
其中,将音频对象能量值分配给所述一个或多个音频对象中的每个,
其中,将附加能量值分配给所述一个或多个附加信号中的每个,
其中,所述对象信息发生器(140)被配置为确定参考能量值,以便所述参考能量值大于或等于所述一个或多个音频对象中的每个的所述音频对象能量值,并且以便所述参考能量值大于或等于所述一个或多个附加信号中的每个的所述附加能量值,
其中,所述对象信息发生器(140)被配置为通过确定所述一个或多个音频对象的每个音频对象的音频对象水平差值,来确定所述参数音频对象信息,以便所述音频对象水平差值表示所述音频对象的所述音频对象能量值与所述参考能量值的比值,或者以便所述音频对象水平差值表示在所述参考能量值与所述音频对象的所述音频对象能量值之间的差值,并且
其中,所述对象信息发生器(140)被配置为通过确定所述一个或多个附加信号的每个附加信号的附加对象水平差值,来确定所述附加对象信息,以便所述附加对象水平差值表示所述附加信号的所述附加能量值与所述参考能量值的比值,或者以便所述附加对象水平差值表示在所述参考能量值与所述附加信号的所述附加能量值之间的差值。
15.根据权利要求9到14中任一项所述的设备,
其中,所述处理模块(120)包括音响效果模块122和编码模块(121),
其中,所述音响效果模块(122)被配置为在所述一个或多个未处理的下混合信号的至少一个上应用音响效果,以获得一个或多个在听觉上调整的下混合信号,并且
其中,所述编码模块(121)被配置为将所述一个或多个在听觉上调整的下混合信号编码,以获得所述一个或多个经处理的下混合信号。
16.一种系统,包括:
根据权利要求9到15中任一项所述的设备(810),以及
根据权利要求1到8中任一项所述的设备(820),
其中,根据权利要求9到15中任一项所述的设备(810)被配置为将一个或多个经处理的下混合信号和编码信号提供给根据权利要求1到8中任一项所述的设备(820),所述编码信号包括用于一个或多个音频对象的参数音频对象信息以及用于一个或多个附加信号的附加参数信息,并且
其中,根据权利要求1到8中任一项所述的设备(820)被配置为根据所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景。
17.一种用于将编码信号解码的方法,所述编码信号包括关于一个或多个音频对象的参数音频对象信息以及附加参数信息,其中,所述方法包括:
接收一个或多个经处理的下混合信号,并且用于接收所述编码信号,其中,所述附加参数信息反应在一个或多个未处理的下混合信号上执行的处理,以获得所述一个或多个经处理的下混合信号,
根据所述一个或多个经处理的下混合信号、所述参数音频对象信息、所述附加参数信息、以及表示所述一个或多个音频对象在所述音频场景内的位置的渲染信息,生成包括多个空间音频信号的音频场景,并且
在所述音频场景内衰减或消除由所述附加参数信息表示的输出信号。
18.一种用于编码一个或多个音频对象以获得编码信号的方法,其中,所述方法包括:
向下混合所述一个或多个音频对象,以获得一个或多个未处理的下混合信号,
处理所述一个或多个未处理的下混合信号,以获得一个或多个经处理的下混合信号,
根据在所述一个或多个经处理的下混合信号中的一个与所述一个或多个未处理的下混合信号中的一个之间的差值,计算所述一个或多个附加信号中的每个,来计算一个或多个附加信号,
生成用于所述一个或多个音频对象的参数音频对象信息以及用于所述一个或多个附加信号的附加参数信息,以及
输出编码信号,所述编码信号包括用于所述一个或多个音频对象的所述参数音频对象信息以及用于所述一个或多个附加信号的所述附加参数信息。
19.一种计算机程序,用于在计算机或信号处理器上执行时,实现根据权利要求17或18所述的方法。
CN201480005738.5A 2013-01-22 2014-01-20 将隐藏对象用于信号混合操作的空间音频对象编码的设备和方法 Active CN105122355B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13152197.3 2013-01-22
EP20130152197 EP2757559A1 (en) 2013-01-22 2013-01-22 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
PCT/EP2014/051046 WO2014114599A1 (en) 2013-01-22 2014-01-20 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation

Publications (2)

Publication Number Publication Date
CN105122355A true CN105122355A (zh) 2015-12-02
CN105122355B CN105122355B (zh) 2018-11-13

Family

ID=47563307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480005738.5A Active CN105122355B (zh) 2013-01-22 2014-01-20 将隐藏对象用于信号混合操作的空间音频对象编码的设备和方法

Country Status (12)

Country Link
US (1) US10482888B2 (zh)
EP (2) EP2757559A1 (zh)
JP (1) JP6277202B2 (zh)
KR (1) KR101756190B1 (zh)
CN (1) CN105122355B (zh)
BR (1) BR112015017094B8 (zh)
CA (1) CA2898801C (zh)
ES (1) ES2691546T3 (zh)
MX (1) MX348811B (zh)
RU (1) RU2635244C2 (zh)
TR (1) TR201815374T4 (zh)
WO (1) WO2014114599A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1292036A2 (en) * 2001-08-23 2003-03-12 Nippon Telegraph and Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
CN101379555A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
US20110040566A1 (en) * 2009-08-17 2011-02-17 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding residual signal
CN102187691A (zh) * 2008-10-07 2011-09-14 弗朗霍夫应用科学研究促进协会 多声道音频信号的双耳演示
US20120163608A1 (en) * 2010-12-28 2012-06-28 Fujitsu Limited Encoder, encoding method, and computer-readable recording medium storing encoding program
CN103460287A (zh) * 2011-04-05 2013-12-18 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序、记录介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3811110B2 (ja) * 2001-08-23 2006-08-16 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、これらの装置、プログラム及び記録媒体
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
KR100878816B1 (ko) * 2006-02-07 2009-01-14 엘지전자 주식회사 부호화/복호화 장치 및 방법
US8626515B2 (en) * 2006-03-30 2014-01-07 Lg Electronics Inc. Apparatus for processing media signal and method thereof
ES2380059T3 (es) * 2006-07-07 2012-05-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente
WO2008039043A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
CN102215781A (zh) * 2008-07-24 2011-10-12 纽镜有限公司 调节性眼内透镜(aiol)胶囊
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2010125228A1 (en) * 2009-04-30 2010-11-04 Nokia Corporation Encoding of multiview audio signals
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
PL2465114T3 (pl) * 2009-08-14 2020-09-07 Dts Llc System do adaptacyjnej transmisji potokowej obiektów audio
PL2489037T3 (pl) * 2009-10-16 2022-03-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i program komputerowy do dostarczania regulowanych parametrów
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2686654A4 (en) * 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
AR090703A1 (es) * 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1292036A2 (en) * 2001-08-23 2003-03-12 Nippon Telegraph and Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
CN101379555A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
CN102187691A (zh) * 2008-10-07 2011-09-14 弗朗霍夫应用科学研究促进协会 多声道音频信号的双耳演示
US20110040566A1 (en) * 2009-08-17 2011-02-17 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding residual signal
US20120163608A1 (en) * 2010-12-28 2012-06-28 Fujitsu Limited Encoder, encoding method, and computer-readable recording medium storing encoding program
CN103460287A (zh) * 2011-04-05 2013-12-18 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序、记录介质

Also Published As

Publication number Publication date
JP6277202B2 (ja) 2018-02-07
BR112015017094A2 (zh) 2017-08-15
WO2014114599A1 (en) 2014-07-31
RU2015135593A (ru) 2017-03-02
CN105122355B (zh) 2018-11-13
EP2948946A1 (en) 2015-12-02
US20150348559A1 (en) 2015-12-03
KR101756190B1 (ko) 2017-07-26
KR20150113016A (ko) 2015-10-07
ES2691546T3 (es) 2018-11-27
TR201815374T4 (tr) 2018-11-21
US10482888B2 (en) 2019-11-19
RU2635244C2 (ru) 2017-11-09
MX348811B (es) 2017-06-28
CA2898801C (en) 2018-11-06
EP2757559A1 (en) 2014-07-23
MX2015009170A (es) 2015-11-09
JP2016508617A (ja) 2016-03-22
BR112015017094B1 (pt) 2022-02-22
CA2898801A1 (en) 2014-07-31
BR112015017094B8 (pt) 2022-09-13
EP2948946B1 (en) 2018-07-18

Similar Documents

Publication Publication Date Title
US11875804B2 (en) Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
US10818301B2 (en) Encoder, decoder, system and method employing a residual concept for parametric audio object coding
AU2016234987A1 (en) Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
KR20220066996A (ko) 오디오 인코더 및 디코더
US10607615B2 (en) Apparatus and method for decoding an encoded audio signal to obtain modified output signals
US10482888B2 (en) Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
CB03 Change of inventor or designer information

Inventor after: Kastner Thorsten

Inventor after: Herre Jurgen

Inventor after: Ridderbusch Falko

Inventor after: Cornelia Farsi

Inventor before: Kastner Thorsten

Inventor before: Herre Jurgen

Inventor before: Ridderbusch Falko

Inventor before: Cornelia Corneliafarsi

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant