CN105593930B - 用于增强的空间音频对象编码的装置及方法 - Google Patents

用于增强的空间音频对象编码的装置及方法 Download PDF

Info

Publication number
CN105593930B
CN105593930B CN201480041467.9A CN201480041467A CN105593930B CN 105593930 B CN105593930 B CN 105593930B CN 201480041467 A CN201480041467 A CN 201480041467A CN 105593930 B CN105593930 B CN 105593930B
Authority
CN
China
Prior art keywords
audio
information
sound channel
channel
audio transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480041467.9A
Other languages
English (en)
Other versions
CN105593930A (zh
Inventor
于尔根·赫勒
艾德里安·穆尔塔扎
约尼·鲍卢斯
萨沙·迪克
哈拉尔德·福斯
奥立夫·赫尔穆特
法尔科·里德布施
里昂·特伦蒂夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105593930A publication Critical patent/CN105593930A/zh
Application granted granted Critical
Publication of CN105593930B publication Critical patent/CN105593930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

提供一种用于生成一个或多个音频输出声道的装置。该装置包括:用于计算混合信息的参数处理器(110),以及用于生成一个或多个音频输出声道的降混合处理器(120)。降混合处理器(120)用于接收包括一个或多个音频传输声道的音频传输信号。一个或多个音频声道信号被混合在音频传输信号中,以及一个或多个音频对象信号被混合在音频传输信号中,且其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。参数处理器(110)用于接收指示一个或多个音频声道信号和一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息的降混合信息,且其中参数处理器(110)用于接收协方差信息。此外,参数处理器(110)用于根据降混合信息以及根据协方差信息,计算混合信息。降混合处理器(120)用于根据混合信息,从音频传输信号生成一个或多个音频输出声道。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。

Description

用于增强的空间音频对象编码的装置及方法
技术领域
本发明涉及音频编码/解码,特别涉及空间音频编码和空间音频对象编码,更特别地涉及用于增强的空间音频对象编码的装置和方法。
背景技术
在本技术领域中,空间音频编码工具是众所周知的并且,例如,在环绕MPEG标准中已被标准化。空间音频编码从诸如在再现装备(setup)中通过其布置而识别的五个或七个声道(即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道)的原始输入声道开始。空间音频编码器通常从原始声道得到一个或多个降混声道,以及此外,得到关于空间线索(cues)的参数化数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化边信息一起被传输至空间音频解码器。该空间音频解码器对降混合声道和相关联的参数化数据进行解码以最终获得输出声道,该输出声道为原始输入声道的近似版本。声道在输出装备的布置通常为固定的且为,例如5.1声道格式或7.1声道格式等等。
此种基于声道的音频格式被广泛用于储存或传输多声道音频内容,其中每个声道涉及在给定位置处的特定扬声器。这些种类的格式的忠实再现需要扬声器装备,其中扬声器放置在与音频信号产生期间所使用的扬声器相同的位置。而增加扬声器数量可改进真正拟真的三维音频场景的再现,但是达到此要求变得越来越困难,尤其是在诸如客厅的家庭环境中。
通过基于对象的方法可以克服对特定扬声器装备的需求,在基于对象的方法中特别针对播放装备渲染扬声器信号。
例如,空间音频对象编码工具在此技术领域中是众所周知的且在MPEG SAOC(SAOC=空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专用于特定渲染再现装备的音频对象开始。另外,音频对象在再现场景中的布置是灵活的,且可由用户通过将特定渲染信息输入至空间音频对象编码解码器来确定。可选地或此外地,渲染信息,即在再现装备中特定音频对象通常随时间待被放置的位置处的信息,可被传输作为附加的边信息或元数据。为了获得特定的数据压缩,通过SAOC编码器对多个音频对象进行编码,SAOC编码器通过根据特定的降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外,SAOC编码器计算表示对象间线索的参数化边信息,例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中,针对参数时间/频率平铺(time/frequency tiles)(即,针对包括例如1024或2048个样本的音频信号的特定帧,28、20、14或10等)计算对象间参数化数据,考虑处理频带以使得最后对于每个帧和每个处理频带都存在参数化数据。作为示例,当音频片具有20个帧且每个帧被细分成28个处理频带时,参数时间/频率平铺的数量为560。
在基于对象的方法中,通过离散音频对象描述声场。此需要对象元数据,其描述每个声源在3D空间中的时变位置。
现有技术中的第一元数据编码概念为空间声音描述交换格式(SpatDIF),尚在发展中的音频场景描述格式[M1]。音频场景描述格式被设计为用于基于对象的声音场景的交换格式,其并没有提供任何用于对象轨迹的压缩方法。SpatDIF使用基于文本的开放式声音控制(OSC)格式以构造对象元数据[M2]。然而,简单的基于文本的表示并不是用于对象轨迹的经压缩的传输的选项。
现有技术中的另一个元数据概念为音频场景描述格式(ASDF)[M3],其和基于文本的解决方案具有相同的缺点。由同步多媒体集成语言(SMIL)的扩展构造数据,该同步多媒体集成语言(SMIL)为可扩展标记语言(XML)[M4,M5]的子集。
现有技术中的另一个元数据概念为用于场景的音频二进制格式(AudioBIFS),二进制格式是MPEG-4规范[M6,M7]的一部分,其与基于XML的虚拟现实建模语言(VRML)密切相关,基于XML的虚拟现实建模语言被开发用于音频虚拟3D场景的描述和交互式虚拟现实应用[M8]。复杂的AudioBIFS规范使用场景图以指定对象移动的路径。AudioBIFS的主要缺点在于,它并非被设计用于要求有限的系统延迟和随机访问数据流的实时操作。此外,对象位置的编码没有运用听者的有限定位能力。对于音频虚拟场景中的固定的听者位置,可以利用较低数目的比特[M9]来量化对象数据。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。
发明内容
本发明的目的在于提供用于空间音频对象编码的改进概念,通过以下描述的装置、系统、方法以及计算机程序实现本发明的目的。
提供一种用于生成一个或多个音频输出声道的装置,该装置包括用于计算混合信息的参数处理器和用于生成一个或多个音频输出声道的降混合处理器。降混合处理器用于接收包括一个或多个音频传输声道的音频传输信号。一个或多个音频声道信号被混合在音频传输信号中,且一个或多个音频对象信号被混合在音频传输信号中,以及其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。参数处理器用于接收降混合信息,该降混合信息指示一个或多个音频声道信号和一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息,且其中参数处理器用于接收协方差信息。此外,参数处理器用于根据降混合信息以及根据协方差信息,计算混合信息。降混合处理器用于根据混合信息从音频传输信号生成一个或多个音频输出声道。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。
此外,提供一种用于生成包括一个或多个音频传输声道的音频传输信号的装置。该装置包括用于生成音频传输信号的一个或多个音频传输声道的声道/对象混合器以及输出接口。声道/对象混合器用于根据指示一个或多个音频声道信号以及一个或多个音频对象信号如何必须被混合在一个或多个音频传输声道中的信息的降混合信息,通过将一个或多个音频声道信号以及一个或多个音频对象信号混合在音频传输信号中,生成包括一个或多个音频传输声道的音频传输信号,其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。输出接口用于输出音频传输信号、降混合信息以及协方差信息。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。
此外,提供一种系统。该系统包括如上所述的用于生成音频传输信号的装置,以及如上所述的用于生成一个或多个音频输出声道的装置。用于生成一个或多个音频输出声道的装置用于从用于生成音频传输信号的装置接收音频传输信号、降混合信息以及协方差信息。此外,用于生成音频输出声道的装置用于根据降混合信息以及根据协方差信息,从音频传输信号生成一个或多个音频输出声道。
此外,明提供一种用于生成一个或多个音频输出声道的方法。该方法包括:
-接收包括一个或多个音频传输声道的音频传输信号,其中一个或多个音频声道信号被混合在音频传输信号中,其中一个或多个音频对象信号被混合在音频传输信号中,以及其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目;
-接收降混合信息,降混合信息指示一个或多个音频声道信号以及一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息;
-接收协方差信息;
-根据降混合信息以及根据协方差信息计算混合信息,以及
-生成一个或多个音频输出声道。
根据混合信息,从音频传输信号生成一个或多个音频输出声道。协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。
此外,提供一种用于生成包括一个或多个音频传输声道的音频传输信号的方法。该方法包括:
-根据指示一个或多个音频声道信号以及一个或多个音频对象信号如何必须被混合在一个或多个音频传输声道的信息的降混合信息,通过将一个或多个音频声道信号以及一个或多个音频对象信号混合在音频传输信号中,生成包括一个或多个音频传输声道的音频传输信号,其中一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目;以及:
-输出音频传输信号、降混合信息以及协方差信息。
协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频声道信号中的一个以及一个或多个音频对象信号中的一个的相关性信息。
此外,提供一种计算机程序,当此计算机程序于计算机或信号处理器上执行时,用于实施如上述的方法。
附图说明
以下,参考附图详细地描述本发明的实施例,其中:
图1示出根据实施例的用于生成一个或多个音频输出声道的装置;
图2示出根据实施例的用于生成包括一个或多个音频传输声道的音频传输信号;
图3示出根据实施例的系统;
图4示出3D音频编码器的第一实施例;
图5示出3D音频解码器的第一实施例;
图6示出3D音频编码器的第二实施例;
图7示出3D音频解码器的第二实施例;
图8示出3D音频编码器的第三实施例;
图9示出3D音频解码器的第三实施例;以及
图10示出根据实施例的联合处理单元。
具体实施方式
在详细地描述本发明的优选实施例之前,描述新的3D音频编解码器系统。
在现有技术中,并不存在一方面结合声道编码另一方面结合对象编码从而获得以低比特速率的可接受的音频品质的灵活技术。
通过此新的3D音频编解码器系统可克服此限制。
在详细地描述优选实施例之前,描述此新的3D音频编解码器系统。
图4示出根据本发明的实施例的3D音频编码器。该3D音频编码器用于对音频输入数据101进行编码以获得音频输出数据501。3D音频编码器包括输入接口,该输入接口用于接收由CH所指示的多个音频声道和由OBJ所指示的多个音频对象。此外,如图4所示,输入接口1100额外地接收与多个音频对象OBJ中的一个或多个相关的元数据。此外,3D音频编码器包括混合器200,该混合器200用于混合多个对象和多个声道以获得多个预混合的声道,其中每个预混合的声道包括声道的音频数据和至少一个对象的音频数据。
此外,3D音频编码器包括:核心编码器300,用于对核心编码器输入数据进行核心编码;以及元数据压缩器400,用于压缩与多个音频对象中的一个或多个相关的元数据。
此外,3D音频编码器可包括模式控制器600,其用于在一些操作模式中的一个下控制混合器、核心编码器和/或输出接口500,其中在第一模式下,核心编码器用于对多个音频声道和通过输入接口1100所接收的多个音频对象进行编码而未受到混合器的任何影响(即没有经过混合器200的任何混合)。然而,在第二模式下混合器200是活跃的,核心编码器对多个混合的声道(即由区块200所生成的输出)进行编码。在后者的情况下,优选地,不再对任何对象数据进行编码。相反地,指示音频对象的位置的元数据已被混合器200用于将对象渲染至元数据所指示的声道上。换句话说,混合器200使用与多个音频对象相关的元数据以预渲染音频对象,然后预渲染的音频对象与声道混和以在混合器的输出处获得混合的声道。在此实施例中,可以不必传输任何对象,此也可请求作为区块400的输出的经压缩的元数据。然而,如果并非输入至接口1100的所有对象都被混合而仅特定数量的对象被混合,则仅维持未被混合的对象以及相关联的元数据仍分别被传输至核心编码器300或元数据压缩器400。
图6示出3D音频编码器的另一实施例。3D音频编码器额外地包括SAOC编码器800。该SAOC编码器800用于从空间音频对象编码器输入数据生成一个或多个传输声道和参数化数据。如图6所示,空间音频对象编码器输入数据为尚未经由预渲染器/混合器处理的对象。可选地,提供如在独立的声道/对象编码是活跃的模式一之下的预渲染器/混合器已被旁路,SAOC编码器800对输入至输入接口1100的所有对象进行编码。
此外,如图6所示,优选地,核心编码器300被实施为USAC编码器,即为如MPEG-USAC标准(USAC=联合语音和音频编码)中所定义和标准化的编码器。图6中示出的整个3D音频编码器的输出为具有用于独立的数据类型的容器状结构的MPEG 4数据流、MPEG H数据流或3D音频数据流。此外,元数据被指示为“OAM”数据,且图4中的元数据压缩器400与OAM编码器400相对应,以获得输入至USAC编码器300的经压缩的OAM数据,如从图6中能看出的,USAC编码器300额外地包括输出接口,以获得具有编码的声道/对象数据和具有经压缩的OAM数据的MP4输出数据流。
图8示出3D音频编码器的另一实施例。其中相对于图6,SAOC编码器可用于利用SAOC编码算法以对在此模式下不活跃的预渲染器/混合器200处所提供的声道进行编码,或,可选地,对加入对象的预渲染的声道进行SAOC编码。因此,在图8中,SAOC编码器800可对三种不同种类的输入数据进行操作,即不具有任何预渲染的对象的声道、声道和预渲染的对象,或独自的对象。此外,优选地,在图8中提供附加的OAM解码器420,以使得SAOC编码器800使用与解码器侧上相同的数据(即通过有损压缩所获得的数据,而非原始的OAM数据)用于其处理。
图8的3D音频编码器可在一些独立的模式下操作。
除了如图4的上下文中所描述的第一模式和第二模式之外,图8的3D音频编码器可额外地在第三模式下操作,其中当预渲染器/混合器200不活跃时,核心编码器从独立的对象生成一个或多个传输声道。可选地或此外地,在此第三模式下,即再次地,当与图4的混合器200相对应的预渲染器/混合器200不活跃时,SAOC编码器可从原始声道生成一个或多个可选的或额外的传输声道。
最后,当3D音频编码器用于第四模式下时,SAOC编码器800可对加入由预渲染器/混合器所生成的预渲染的对象的声道进行编码。因此,由于在第四模式下声道和对象已被完全地变换至独立的SAOC传输声道且不必传输如在图3和5中被指示为“SAOC-SI”的相关联的边信息,以及此外地任何经压缩的元数据的事实,在此第四模式下最低比特速率应用将提供良好的品质。
图5示出根据本发明的实施例的3D音频解码器。3D音频解码器接收编码的音频数据(即图4的数据501)作为输入。
3D音频解码器包括元数据解压缩器1400、核心解码器1300、对象处理器1200、模式控制器1600以及后处理器1700。
具体地,3D音频解码器用于对编码的音频数据进行解码,且输入接口用于接收编码的音频数据,编码的音频数据包括多个编码的声道和多个编码的对象以及在特定的模式下与多个对象相关的经压缩的元数据。
此外,核心解码器1300用于对多个编码的声道和多个编码的对象进行解码,以及,此外地,元数据解压缩器用于解压缩经压缩的元数据。
此外,对象处理器1200用于使用经解压缩的元数据处理由核心解码器1300所生成的多个解码的对象,以获得包括对象数据和解码的声道的预定数目的输出声道。如在1205处所指示的这些输出声道之后被输入后处理器1700。后处理器1700用于将一定数量的输出声道1205转换成特定输出格式,该特定输出格式可以为双声道输出格式或扬声器输出格式,例如5.1、7.1等输出格式。
优选地,3D音频解码器包括模式控制器1600,该模式控制器1600用于分析编码的数据以检测模式指示。因此,模式控制器1600连接到图5中的输入接口1100。然而,可选地,模式控制器在此并非为必要的。相反地,可通过任何其他种类的控制数据(如用户输入或任何其他控制)预设置灵活的音频解码器。优选地,由模式控制器1600控制的图5中的3D音频解码器用于旁路对象处理器并将多个解码的声道馈入后处理器1700。即当模式2已被应用于图4的3D音频编码器时,此为模式2下的操作,即其中仅接收到预渲染的声道。可选地,当模式1已被应用于3D音频编码器在时,即当3D音频编码器已执行独立的声道/对象编码时,则对象处理器1200不会被旁路,而多个解码的声道和多个解码的对象与由元数据解压缩器1400所生成的经解压缩的元数据一起被馈入对象处理器1200。
优选地,是否将应用模式1或模式2的指示被包含在编码的音频数据中,然后模式控制器1600分析编码的数据以检测模式指示。当模式指示表示编码的音频数据包括编码的声道和编码的对象时,使用模式1;而当模式指示表示编码的音频数据不包含任何音频对象(即仅包含由图4的3D音频编码器的模式2获得的预渲染的声道)时,使用模式2。
图7示出相对于图5的3D音频解码器的优选实施例,且图7的实施例与图6的3D音频编码器相对应。除了图5的3D音频解码器的实施方式之外,图7中的3D音频解码器包括SAOC解码器1800。此外,图5的对象处理器1200被实施为分离的对象渲染器1210和混合器1220,而取决于模式,对象渲染器1210的功能也可由SAOC解码器1800来实施。
此外,后处理器1700可被实施为双声道渲染器1710或格式转换器1720。可选地,也可如1730所示地实施图5的数据1205的直接输出。因此,为了具有灵活性以及在需要较小的格式时的之后的后处理,优选地在解码器内对最高序号(例如22.2或32)的声道执行处理,然而,当从一开始就清楚仅需要小格式(例如5.1格式)时,为了避免不必要的升混合操作以及随后的降混合操作,则优选地,如图5或6的简化操作1727所示,可施加跨越SAOC解码器和/或USAC解码器的特定控制。
在本发明的优选实施例中,对象处理器1200包括SAOC解码器1800,且该SAOC解码器1800用于对核心解码器所输出的一个或多个传输声道以及相关联的参数化数据进行解码,并使用经解压缩的元数据以获得多个渲染的音频对象。至此,OAM输出连接至方块1800。
此外,对象处理器1200用于渲染由核心解码器所输出的解码的对象,其并未被编码于SAOC传输声道,而被独立地编码于如对象渲染器1210所指示的典型单个的声道元件。此外,解码器包括与输出1730相对应的用于将混合器的输出输出至扬声器的输出接口。
在另一实施例中,对象处理器1200包括空间音频对象编码解码器1800,用于对一个或多个传输声道以及表示编码的音频信号或编码的音频声道的相关联的参数化边信息进行解码,其中空间音频对象编码解码器用于将相关联的参数化信息以及经解压缩的元数据转码成可用于直接地渲染输出格式的经转码的参数化边信息,例如在SAOC的早期版本中所定义的。后处理器1700用于使用解码的传输声道和经转码的参数化边信息计算输出格式的音频声道。后处理器所执行的处理可类似于MPEG环绕处理或可以为任何其他的处理,如BCC处理等。
在另一实施例中,对象处理器1200包括空间音频对象编码解码器1800,其用于使用(由核心解码器)解码的传输声道和参数化边信息直接地升混合并渲染用于输出格式的声道信号。
此外,重要的是,图5的对象处理器1200额外地包括混合器1220,当存在与声道混合的预渲染的对象时(即当图4的混合器200活跃时),混合器1220直接地接收USAC解码器1300所输出的数据作为输入。此外,混合器1220从执行对象渲染的对象渲染器接收未经SAOC解码的数据。此外,混合器接收SAOC解码器输出数据,即SAOC渲染的对象。
混合器1220连接到输出接口1730、双声道渲染器1710以及格式转换器1720。双声道渲染器1710用于使用头部相关的传递函数或双耳空间脉冲响应(BRIR)将输出声道渲染成两个双耳声道。格式转换器1720用于将输出声道转换成输出格式,该输出格式具有比混合器的输出声道1205较少的数目的声道,且格式转换器1720需要再现布局(例如5.1扬声器等)的信息。
图9的3D音频解码器与图7的3D音频解码器的不同之处在于,SAOC解码器不仅能生成渲染的对象也能生成渲染的声道,且此情况下,图8的3D音频编码器已被使用且在声道/预渲染的对象与SAOC编码器800的输入接口之间的连接900是活跃的。
此外,基于矢量的幅度平移(VBAP)级1810用于从SAOC解码器接收再现布局的信息,并将渲染矩阵输出至SAOC解码器,以使得SAOC解码器最终能以1205(即32个扬声器)的高声道格式来提供渲染的声道,而无需混合器的任何其他操作。
优选地,VBAP方块接收解码的OAM数据以得到渲染矩阵。更一般的,优选地需要再现布局和输入信号应被渲染到再现布局的位置的几何信息。此几何输入数据可以为用于对象的OAM数据或用于声道的声道位置信息,其已使用SAOC而被传输。
然而,如果仅需要特定的输出接口,则VBAP状态1810已经提供用于例如5.1输出的所需的渲染矩阵。然后SAOC解码器1800执行来自SAOC传输声道、相关联的参数化数据以及经解压缩的元数据的直接渲染,无需混合器1220的任何互相作用直接渲染成所需的输出格式。然而,当应用模式之间的特定混合时,即对一些声道而非所有声道进行SAOC编码;或对一些对象而非所有对象进行SAOC编码;或当仅对特定数量的具有声道的预渲染的对象进行SAOC解码而对剩余声道不进行SAOC处理时,则混合器将来自独立的输入部分,即直接来自核心解码器1300、来自对象渲染器1210以及来自SAOC解码器1800的数据放在一起。
应用以下数学符号:
NObjects 输入音频对象信号的数目
NChannels 输入声道的数目
N 输入信号的数目
N可以等于NObjects,NChannels,或NObjects+NChannels
NDmxCh 降混合(已处理的)声道的数目
NSamples 已处理的数据样本的数目
NOutputChannels 在解码器侧的输出声道的数目
D 降混合矩阵,大小为NDmxCh x N
X 输入音频信号,大小为N x NSamples
EX 输入信号协方差矩阵,大小为N x N且被定义为EX=X XH
Y 降混合音频信号,大小为NDmxCh x NSamples且被定义为Y=DX
EY 降混合信号的协方差矩阵,大小为NDmxCh x NDmxCh且被定义为EY=YYH
G 参数化源估计矩阵,大小为N x NDmxCh且近似于EX DH(D EX DH)-–1
参数化重建输入信号,大小为NObjects x NSamples且近似于X且被定义为
(·)H 自伴(厄尔米特)操作符,表示(·)的共轭转置
R 大小为NOutputChannels x N的渲染矩阵
S 大小为NOutputChannels x NDmxCh的输出声道生成矩阵,且被定义为S=RG
Z 输出声道,大小为NOutputChannels x NSamples,在解码器侧从降混合信号生成,Z=SY
期望输出声道,大小为NOutputChannels x NSamples
不失一般性地,为了改进公式的可读性,对所有引入的变量,表示时间和频率依赖的索引在此文档中均被省略。
在此3D音频上下文中,扬声器声道分布在一些高度层中,导致水平和垂直的声道对。如在USAC所定义的仅双声道的联合编码不足以考虑声道间的空间和感知关系。
为了考虑声道间的空间和感知关系,在3D音频上下文中,可以使用类SAOC的参数化技术以重建输入声道(由SAOC编码器编码的音频声道信号和音频对象信号),进而在解码器侧获得重建的输入声道SAOC解码基于最小均方误差(MMSE)算法:
其中G≈EX DH(D EX DH)–1
取代重建输入声道以获得重建的输入声道可通过考虑渲染矩阵R以在解码器侧直接地生成输出声道Z。
Z=RGY
Z=SY;其中S=RG
如可看到的,取代明确地重建输入音频对象和输入音频声道,可以通过应用降混合音频信号Y上的输出声道生成矩阵S,直接地生成输出声道Z。
为了获得输出声道生成矩阵S,可以,例如确定渲染矩阵R,或渲染矩阵R已是可用的。此外,可以,例如如上所述地计算参数化源估计矩阵G。正如来自渲染矩阵R和参数化源估计矩阵G的矩阵乘积S=RG,然后可获得输出声道生成矩阵S。
为了对声道和对象进行编码,3D音频系统可以要求组合模式。
一般地,对于此组合模式,可以以两种不同的方式应用SAOC编码/解码:
一种方法可以应用类SAOC参数化系统的一个实例,其中此实例能够处理声道和对象。此解决方案具有计算复杂的缺点,由于高数目的输入信号,为了维持相似的重建品质,传输声道的数目将会增加。因此,矩阵D EX DH的大小将会增加且倒置的复杂度将会增加。此外,随着矩阵D EX DH的大小增加,此解决方案将会引入更多的数值不稳定性。此外,至于另一缺点,矩阵D EX DH的倒置可能导致重建的声道与重建的对象之间的额外串扰,这是因为,由于数值不准确,在重建矩阵G中的一些被假定为等于0的系数被设定为非零值。
另一方法可应用类SAOC的参数化系统的两个实例,一个实例用于基于声道的处理,另一实例用于基于对象的处理。此方法具有的缺点在于,相同的信息被传输两次用于滤波器组和解码器配置的初始化。此外,当有需要时,不可能一起混合声道和对象,且因此不可能在声道与对象之间使用相关性的特性。
为了避免对音频对象和音频声道应用不同实例的方法的缺点,实施例应用第一种方法且提供能够以高效的方式使用仅一个系统实例来处理声道、对象或声道以及对象的增强的SAOC系统。虽然音频声道和音频对象分别被相同的编码器和解码器实例所处理,但提供高效的概念,以使得可避免第一方法的缺点。
图2示出根据实施例的用于生成包括一个或多个音频传输声道的音频传输信号的装置。
此装置包括用于生成音频传输信号的一个或多个音频传输声道的声道/对象混合器210以及输出接口220。
声道/对象混合器210用于根据指示一个或多个音频声道信号以及一个或多个音频对象信号如何必须被混合在一个或多个音频传输声道中的信息的降混合信息,通过将一个或多个音频声道信号以及一个或多个音频对象信号混合在音频传输信号中,生成包括一个或多个音频传输声道的音频传输信号。
一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。因此,由于声道/对象混合器210适于生成音频传输信号,声道/对象混合器210能够将一个或多个音频声道信号以及一个或多个音频对象信号降混合,其中音频传输信号具有比一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目较少的声道。
输出接口220用于输出音频传输信号、降混合信息以及协方差信息。
例如,声道/对象混合器210可用于馈入降混合信息,其中降混合信息用于将一个或多个音频声道信号以及一个或多个音频对象信号降混合至输出接口220。此外,举例来说,输出接口220可以,例如用于接收一个或多个音频声道信号以及一个或多个音频对象信号,此外,也可用于基于一个或多个音频声道信号以及一个或多个音频对象信号确定协方差信息。或,输出接口220可以,例如用于接收已确定的协方差信息。
协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频对象信号中的一个和一个或多个音频对象信号中的一个的相关性信息。
图1示出根据实施例的用于生成一个或多个音频输出声道的装置。
该装置包括用于计算混合信息的参数处理器110以及用于生成一个或多个音频输出声道的降混合处理器120。
降混合处理器120用于接收包括一个或多个音频传输声道的音频传输信号。一个或多个音频声道信号被混合在音频传输信号中。此外,一个或多个音频对象信号被混合在音频传输信号中。一个或多个音频传输声道的数目小于一个或多个音频声道信号的数目加上一个或多个音频对象信号的数目。
参数处理器110用于接收降混合信息。此降混合信息指示一个或多个音频声道信号以及一个或多个音频对象信号如何被混合在一个或多个音频传输声道中的信息,此外,参数处理器110用于接收协方差信息。参数处理器110用于根据降混合信息以及根据协方差信息,计算混合信息。
降混合处理器120用于根据混合信息,从音频传输信号生成一个或多个音频输出声道。
协方差信息指示用于一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于一个或多个音频对象信号中的至少一个的水平差信息。然而,协方差信息并不指示用于任意一对的一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息。
在实施例中,协方差信息可以,例如指示用于一个或多个音频声道信号中的每一个的水平差信息以及更可以,例如指示用于一个或多个音频对象信号中的每一个的水平差信息。
根据实施例,两个或更多音频对象信号可以,例如被混合在音频传输信号中,且两个或更多音频声道信号可以,例如被混合在音频传输信号中。协方差信息可以,例如指示用于一对或多对的两个或更多音频声道信号中的第一个和两个或更多音频声道信号中的第二个的相关性信息。或,协方差信息可以,例如指示用于一对或多对的两个或更多音频对象信号中的第一个和两个或更多音频对象信号中的第二个的相关性信息。或,协方差信息可以,例如指示用于一对或多对的两个或更多音频声道信号中的第一个和两个或更多音频声道信号中的第二个的相关性信息并指示用于一对或多对的两个或更多音频对象信号中的第一个和两个或更多音频对象信号中的第二个的相关性信息。
用于音频对象信号的水平差信息可以,例如,为对象水平差(OLD)。“水平”可以,;例如涉及能量水平。“差”可以,例如涉及相对于音频对象信号中的最大水平的差值。
用于成对的音频对象信号中的第一个和音频对象信号中的第二个的相关性信息可以,例如为对象间的相关性(IOC)。
例如,根据实施例,为了保证SAOC 3D的最优性能,推荐使用具有兼容的功率的输入音频对象信号。两个输入音频信号的产物(根据对应的时间/频率平铺来标准化)被确定为:
在此,i以及j分别为用于音频对象信号xi和xj的索引。n指示时间、k指示频率、l指示一组时间索引以及m指示一组频率索引。ε为加常数以避免被零除,如ε=10-9
例如,具有最高能量的对象的绝对对象能量(NRG)可计算如:
例如,对应的输入对象信号(OLD)的功率比可由以下公式给定:
例如,输入对象(IOC)的相似度测量可由互相关给定:
例如,在实施例中,IOCs可被传输用于所有对的音频信号i与j,为此比特流变量bsRelatedTo[i][j]被设定为1。
用于音频声道信号的水平差信息可以,例如是声道水平差(CLD)。“水平”可以,例如涉及能量水平。“差”可以,例如涉及相对于音频声道信号中的最大水平的差值。
用于成对的音频声道信号中的第一个和音频声道信号中的第二个的相关性信息可以,例如为声道间的相关性(ICC)。
在实施例中,当上述方程式中的音频对象信号被替换为音频声道信号时,声道水平差(CLD)可以以与以上对象水平差(OLD)相同的方式定义。此外,当上述方程式中的音频对象信号被替换为音频声道信号时,声道间的相关性(ICC)可以以与以上对象间相关性(IOC)相同的方式定义。
在SAOC中,SAOC编码器(根据降混合信息,例如根据降混合矩阵D)将多个音频对象信号降混合以获得(例如,较少数目的)一个或多个音频传输声道。在解码器侧,SAOC解码器使用从编码器接收的降混合信息并使用从编码器接收的协方差信息对一个或多个音频传输声道解码。协方差信息可以,例如为协方差矩阵E的系数,其指示音频对象信号的对象水平差以及两个音频对象信号之间的对象间的相关性。在SAOC中,确定的降混合矩阵D与确定的协方差矩阵E用于对一个或多个音频传输声道的多个样本(例如一个或多个音频传输声道的2048个样本)解码。通过应用此概念,相较于传输未经编码的一个或多个音频对象信号,节省了比特速率。
实施例基于此发现,尽管音频对象信号和音频声道信号呈现了显著的差异,音频传输信号可由增强的SAOC编码器生成,以使得在此音频传输信号中,不仅音频对象信号被混合,且音频声道信号被混合。
音频对象信号明显地不同于音频声道信号。例如,多个音频对象信号中的每个可表示声音场景的音频源。因此,一般来说,两个音频对象可为高度不相关。相反地,音频声道信号表示声音场景的不同声道,就像是由不同麦克风所记录的。一般来说,两个此音频声道信号为高度相关,特别地,相比于通常高度不相关的两个音频对象信号的相关性。因此,实施例基于此发现,音频声道信号通过使用用于解码的此传输的相关值从传输成对的两个音频声道信号之间的相关性获益。
此外,音频对象信号与音频声道信号的不同在于,位置信息被分配给音频对象信号,例如指示音频对象信号起源的声源(例如,音频对象)的(假定的)位置。当从解码器侧上的音频传输信号生成音频输出声道时,可使用(元数据信息所包括的)此位置信息。然而,相反地,音频声道信号并不呈现位置,且并没有位置信息被分配给音频声道信号。然而,实施例基于此发现,对音频声道信号与音频对象信号一起进行SAOC编码仍然是高效的,例如当生成音频声道信号可被分为两个子问题时,即确定解码信息(例如,确定用于去混合的矩阵G,参见下述),为此不需要位置信息;以及确定渲染信息(例如,通过确定渲染矩阵R,参见下述),为此音频对象信号的位置信息可用于渲染所生成的音频输出声道中的音频对象。
此外,本发明基于此发现,在任意一对的音频对象信号中的一个和音频声道信号中的一个之间不存在相关性(或相关性至少不显著)。因此,当编码器不传输用于任意一对的一个或多个音频声道信号中的一个和一个或多个音频对象信号中的一个的相关性信息时,借此,对于编码和解码,均节省了显著的传输带宽和显著数量的计算时间。当确定混合信息(用于从在解码器侧上的音频传输信号生成音频输出声道)时,用于不处理此微不足道的相关性信息的解码器节省显著数量的计算时间。
根据实施例,参数处理器110可以,例如用于接收渲染信息,此渲染信息指示一个或多个音频声道信号以及一个或多个音频对象信号如何被混合在一个或多个音频输出声道中的信息。参数处理器110可以,例如用于根据降混合信息、根据协方差信息以及根据渲染信息计算混合信息。
例如,参数处理器110可以,例如用于接收渲染矩阵R的多个系数作为渲染信息,并可用于根据降混合信息、根据协方差信息以及根据渲染矩阵R计算混合信息。例如,参数处理器可以从编码器侧或从用户接收渲染矩阵R的系数。在另一实施例中,参数处理器110可以,例如用于接收元数据信息(例如位置信息或增益信息),并可例如用于根据所接收的元数据信息计算渲染矩阵R的系数。在其他实施例中,参数处理器可用于接收两者(来自编码器以及来自用户的渲染信息),并用于基于两者(基本上意味着实现交互作用)以创建渲染矩阵。
或,参数处理器可以,例如接收两个渲染子矩阵Rch以及Robj作为渲染信息,其中R=(Rch,Robj),其中Rch指示如何将音频声道信号混合到音频输出声道,以及其中Robj可为从OAM信息获得的渲染矩阵,其中Robj可例如由图9的VBAP区块1810所提供。
在特定的实施例中,两个或更多音频对象信号可以,例如混合在音频传输信号中,两个或更多音频声道信号混合在音频传输信号中。在此实施例中,协方差信息可以,例如指示用于一对或多对的两个或更多音频声道信号中的第一个和两个或更多音频声道信号中的第二个的相关性信息。此外,在此实施例中,(例如从编码器侧被传输至解码器侧的)协方差信息并不指示用于任意一对的一个或更多音频对象信号中的第一个和一个或更多音频对象信号中的第二个的相关性信息,因为音频对象信号之间的相关性可能非常小,故可被忽略,因此,例如,不传输相关性信息以节省比特速率和处理时间。在此实施例中,参数处理器110用于根据降混合信息、根据一个或多个音频声道信号中的每个的水平差信息、根据一个或多个音频对象信号中的每个的第二水平差信息以及根据一对或多对的两个或更多音频声道信号中的第一个和两个或更多音频声道信号中的第二个的相关性信息,计算混合信息。此实施例应用上述描述可发现,音频对象信号之间的相关性通常是相对较低而应被忽略,而两个音频声道信号之间的相关性通常相对较高而应被考虑。通过不处理音频对象信号之间的不相干的相关性信息,可以节省处理时间。通过处理音频声道信号之间的相干的相关性,可以提升编码效率。
在特定实施例中,一个或多个音频声道信号被混合在第一组的一个或多个音频传输声道中,其中一个或多个音频对象信号被混合在第二组的一个或多个音频传输声道中,其中第二组不包括第一组的每个音频传输声道,且其中第一组不包括第二组的每个音频传输声道。在此实施例中,降混合信息包含第一降混合子信息与第二降混合子信息,其中第一降混合子信息指示一个或多个音频声道信号如何被混合在第一组的一个或多个音频传输声道中,第二降混合子信息指示一个或多个音频对象信号如何被混合在第二组的一个或多个音频传输声道中。在此实施例中,参数处理器110用于根据第一降混合子信息、根据第二降混合子信息以及根据协方差信息,计算混合信息。且降混合处理器120用于根据混合信息,从第一组的一个或多个音频传输声道以及从第二组的音频传输声道生成一个或多个音频输出信号。由于声音场景的音频声道信号之间存在高相关性,通过此方法增大了编码效率。此外,指示音频声道信号在音频传输声道上的影响的降混合矩阵的系数,其对音频对象信号编码,反之亦然,无需被编码器计算,无需被传输,且可由解码器设定成0而不对其进行处理。对于编码器及解码器,此节省了传输带宽以及计算时间。
在实施例中,降混合处理器120用于接收比特流中的音频传输信号,降混合处理器120用于接收第一声道计数数目,此第一声道计数数目指示仅对音频声道信号编码的音频传输声道的数目,且降混合处理器120用于接收第二声道计数数目,此第二声道计数数目指示仅对音频对象信号编码的音频传输声道的数目。在此实施例中,降混合处理器120用于根据第一声道计数数目、或根据第二声道计数数目、或根据第一声道计数数目和第二声道计数数目,识别音频传输信号的音频传输声道是否对音频声道信号编码或音频传输信号的音频传输声道是否对音频对象信号编码。举例来说,在比特流中,对音频声道信号编码的音频传输声道首先出现,对音频对象信号编码的音频传输声道后来出现。则,如果第一声道计数数目为,例如3,且第二声道计数数目为,例如2,降混合处理器可以推断前三个音频传输声道包括编码的音频声道信号且随后的两个音频传输声道包括编码的音频对象信号。
在实施例中,参数处理器110用于接收包括位置信息的元数据信息,其中位置信息指示一个或多个音频对象信号中的每个的位置,且其中位置信息不指示一个或多个音频声道信号中的任一个的位置。在此实施例中,参数处理器110用于根据降混合信息、根据协方差信息以及根据位置信息,计算混合信息。另外地或可选地,元数据信息还包括增益信息,其中增益信息指示用于一个或多个音频对象信号中的每个的增益值,且其中增益信息并不指示用于一个或多个音频声道信号中的任一个的增益值。在此实施例中,参数处理器110可以用于根据降混合信息、根据协方差信息、根据位置信息以及根据增益信息,计算混合信息。举例来说,参数处理器110可以用于进一步根据上述的子矩阵Rch,计算混合信息。
根据实施例,参数处理器110用于计算混合矩阵S作为混合信息,其中混合矩阵S是根据公式S=RG而被定义,其中G是取决于降混合信息以及取决于协方差信息的解码矩阵,其中R是取决于元数据信息的渲染矩阵。在此实施例中,降混合处理器(120)可用于通过应用公式Z=SY,生成音频输出信号的一个或多个音频输出声道,其中Z是音频输出信号,且其中Y是音频传输信号。例如,R可以取决于上述的子矩阵Rch和/或Robj(例如,R=(Rch,Robj))。
图3示出根据实施例的系统。此系统包括如上所述的用于生成音频传输信号的装置310,以及如上所述的用于生成一个或多个音频输出声道的装置320。
用于生成一个或多个音频输出声道的装置320,用于从用于生成音频传输信号的装置310接收音频传输信号、降混合信息以及协方差信息。此外,用于生成音频输出声道的装置320用于根据降混合信息以及根据协方差信息,从音频传输信号生成一个或多个音频输出声道。
根据实施例,SAOC系统(实现对象编码的面向对象系统)的功能被扩展,以使得音频对象(对象编码)、或音频声道(声道编码)、或音频声道和音频对象(混合编码)可被编码。
如上述的图6和8的SAOC编码器是增强的,以使得它不仅可以接收音频对象作为输入,也可以接收音频声道作为输入,且使得SAOC编码器可以生成降混合声道(如SAOC传输声道),其中所接收的音频对象和所接收的音频声道是被编码的。在上述的实施例中,如图6和8的,此SAOC编码器800接收音频对象和音频声道作为输入,并生成降混合声道(如SAOC传输声道),其中所接收的音频对象和所接收的音频声道是被编码的。举例来说,图6和8的SAOC编码器被实施为如参考图2所述的用于生成音频传输信号(包括一个或多个音频传输声道,例如,一个或多个SAOC传输声道)的装置,且修改图6和8的实施例,以使得不仅对象,而且一个、一些或所有声道被馈入SAOC编码器800。
上述的图7和9的SAOC解码器1800是增强的,以使得其可以接收降混合声道(如SAOC传输声道),其中音频对象和音频声道是被编码的,且使得其可以从接收的降混合声道(如,SAOC传输声道)生成输出声道(渲染的声道信号和渲染的对象信号),其中音频信号和音频声道是被编码的。在上述的(如图7和9的)实施例中,此SAOC解码器1800接收降混合声道(如SAOC传输声道),其中音频对象与音频声道均是被编码的且从所接收的降混合声道(如SAOC传输声道)生成输出声道(渲染的声道信号和渲染的对象信号),其中音频对象与音频声道是被编码的。举例来说,图7和9的SAOC解码器被实施为如参考图1所述的用于生成一个或多个音频输出声道的装置,且修改图7和9的实施例,以使得在USAC解码器1300与混合器1220之间示出的一个、一些或所有声道不由USAC解码器1300所生成(重建),取而代之的,是由SAOC解码器1800从SAOC传输声道(音频传输声道)所重建。
根据本申请,可以通过使用诸如增强的SAOC系统来利用SAOC系统的不同优点。
根据一些实施例,此增强的SAOC系统支持任意数目的降混合声道并渲染至任意数目的输出声道。在一些实施例中,例如,降混合声道的数目(SAOC传输声道)可被缩减(如在运行时间)以显著地降低整体比特速率,此将导致低比特速率。
此外,根据一些实施例,此增强的SAOC系统的SAOC解码器可以,例如具有集成的灵活渲染器,其可以允许用户交互。借此,用户可以改变对象在音频场景中的位置,衰减或增加独立的对象的水平、完全地抑制对象等。例如,考虑声道信号作为背景对象(BGOs)且对象信号作为前景对象(FGOs),SAOC的交互特征可被用于诸如对话增强的应用。通过此交互特征,用户可以在有限的范围内自由地操纵背景对象和前景对象,以增加对话的理解度(如对话可由前景对象表示),或获得对话(如由前景对象表示)与环境背景(如由背景对象表示)之间的平衡。
此外,根据实施例,依据解码器侧的可用的计算复杂度,SAOC解码器可以通过在“低计算复杂度”模式下操作(例如,通过减少解相关器的数目,和/或,例如,通过直接渲染至再现布局并使随后的如上所述的格式转换器1720不活跃),自动降低计算的复杂度。例如,渲染信息可以引导如何将22.2系统的声道降混合至5.1系统的声道。
根据实施例,增强的SAOC编码器可以处理可变数目的输入声道(NChannels)和输入对象(NObjects)。为了向解码器侧发信号以指示声道路径的存在,声道和对象的数目被传输至比特流中。到SAOC编码器的输入信号常为有序的,以使得声道信号为第一个且对象信号为最后一个。
根据另一实施例,声道/对象混合器210用于生成音频传输信号,以使得音频传输信号的一个或多个音频传输声道的数目取决于多少比特速率可用于传输音频传输信号。
举例来说,降混合(传输)声道的数目可以,例如被计算为可用的比特速率和输入信号的总数的函数:
NDmxCh=f(bitrate,N)
矩阵D中的降混合系数确定输入信号(声道和对象)的混合。根据本申请,矩阵D的结构可被指定,以使得声道和对象被一起混合或保持分离。
一些实施例基于此发现:不将对象和声道一起混合是有利的。为了不将对象和声道一起混合,降混合矩阵可以,例如被构建为:
为了将分离混合信号化至比特流,可以,例如传输分配给声道路径的降混合声道数目以及分配给对象路径的降混合声道数目的值。
区块化降混合矩阵Dch和Dobj的大小分别为:以及
在解码器处,以不同的方式计算参数化源估计矩阵G≈EX DH(D EX DH)–1的系数,使用矩阵形式,此可被表示为:
其中
-大小为
-大小为
例如,通过选择仅对应的对角区块,可以从输入信号协方差矩阵(EX)获得声道信号协方差与对象信号协方差的数值:
作为直接的后果,通过不发送附加信息(如,OLDs,IOCs)而减小比特速率,此附加信息用来重建声道与对象之间的互协方差矩阵:
根据一些实施例,且因此:
根据实施例,增强的SAOC编码器用于不将音频对象中的任意一个与音频声道中的任意一个之间的协方差的信息传输至增强的SAOC解码器。
此外,根据实施例,增强的SAOC解码器用于不接收音频对象中的任意一个与音频声道中的任意一个之间的协方差的信息。
不计算G的去对角区块化元素,而将其设定成0。因此,避免了重建的声道与对象之间的可能串扰。此外,借此,由于需要计算G的少量系数,实现了计算复杂度的减少。
此外,根据实施例,取代倒置较大的矩阵:
D EX DH,大小为
以下两个小的矩阵被倒置:
大小为
大小为
就计算复杂度而论,倒置较小的矩阵比倒置较大的矩阵D EX DH的成本更低。
此外,通过倒置分离的矩阵相比于倒置较大矩阵D EXDH,减小了可能的数值不稳定性。举例来说,在最差的情况下,当传输声道的协方差矩阵由于信号相似性而具有线性相关时,全矩阵D EX DH可以为病态的(ill-conditioned),而分离的较小矩阵可以为良态的(well-conditioned)。
在解码器侧计算后,然后可以,例如,参数化地评估输入信号以获得重建的输入信号(输入音频声道信号和输入音频对象信号),如使用
此外,如上所述,可以在解码器侧进行渲染以获得输出声道Z,例如,通过应用渲染矩阵R:
Z=RGY
Z=SY;其中S=RG
取代明确地对输入信号进行重建(输入音频声道信号和输入音频对象信号)以获得重建的输入声道通过应用在降混合音频信号Y上的输出声道生成矩阵S,可在解码器侧直接地生成输出声道Z。
如上已经描述的,为了获得输出声道生成矩阵S,可以例如确定渲染矩阵R,或渲染矩阵R可以,例如已是可用的。此外,可以,例如如上所述地计算参数化源估计矩阵G。正如来自渲染矩阵R和参数化源估计矩阵G的矩阵乘积S=RG,之后可以获得输出声道生成矩阵S。
关于重建的音频对象信号,可以考虑从编码器传输至解码器的音频对象上的压缩元数据。举例来说,音频对象上的元数据可以指示音频对象中的每个的位置信息。此位置信息可以,例如为方位角角度、仰角角度以及半径。此位置信息可以指示音频对象在3D空间中的位置。举例来说,当音频对象被放置为接近于假定或实际的扬声器位置时,相比于远离所述扬声器放置的输出声道中的另一音频对象的权重,对于所述扬声器此音频对象在输出声道中具有较高的权重。例如,可以利用基于矢量的幅度平移(VBAP)(参见,例如[VBAP])以确定用于音频对象的渲染矩阵R的渲染系数。
此外,在一些实施例中,压缩元数据可以包括用于音频对象中的每个的增益值。例如,对于音频对象信号中的每个,增益值可以指示用于所述音频对象信号的增益因子。
对比于音频对象,对于音频声道信号,没有位置信息元数据从编码器传输至解码器。可以,例如利用附加矩阵(如,将22.2转换至5.1)或单位矩阵(当声道的输入配置等于输出配置时)以确定用于音频声道的渲染矩阵R的渲染系数。
渲染矩阵R的大小可以为NOutputChannels x N。此处,对于输出声道中的每个,在矩阵R中存在行,此外,在渲染矩阵R中的每行中,N个系数确定对应的输出声道中的N个输入信号(输入音频声道和输入音频对象)的权重。那些被放置为接近于所述输出声道的扬声器的音频对象具有比远离对应的输出声道的扬声器放置的音频对象的系数大的系数。
例如,可以利用基于矢量的幅度平移(VBAP)(参见,例如[VBAP])以确定在扬声器的音频声道中的每个内的音频对象信号的权重。如,关于VBAP,假设音频对象涉及虚拟源。
由于,对比于音频对象,音频声道不具有位置,渲染矩阵中的关于音频声道的系数可以,例如与位置信息相独立。
以下,描述根据实施例的比特流语法。
在MPEG SAOC的上下文中,通过使用,例如以下两个可能性(第一可能性:使用旗标来信号化操作模式;第二可能性:不使用旗标来信号化操作模式)中的一个可以完成操作的可能模式的信号化。
因此,根据第一实施例,旗标可用于信号化操作模式。
为了使用旗标来信号化操作模式,SAOCSpecifigConfig()元素或SAOC3DSpecifigConfig()元素的语法可以,例如包括:
如果比特流变量bsSaocChannelFlag被设定为1,第一个bsNumSaocChannels+1输入信号被视为基于声道的信号。如果比特流变量bsSaocObjectFlag被设定为1,像对象信号一样处理最后的bsNumSaocObjects+1输入信号。因此,在两个比特流变量(bsSaocChannelFlag,bsSaocObjectFlag)均相异于零的情况下,声道和对象的存在被信号化至音频传输声道中。
如果比特流变量bsSaocCombinedModeFlag等于1,结合的解码模式被信号化至比特流,且解码器将使用全降混合矩阵D来处理bsNumSaocDmxChannels个传输声道(这意味着声道信号与对象信号被一起混合)。
如果比特流变量bsSaocCombinedModeFlag为0,独立的解码模式被信号化,且解码器将使用如上所述的区块化降混合矩阵来处理(bsNumSaocDmxChannels+1)+(bsNumSaocDmxObjects+1)个传输声道。
根据优选的第二实施例,无需旗标来信号化操作模。
例如,可以通过利用以下语法实现不使用旗标来信号化操作模式。
信号化:
SAOC3DSpecificConfig()的语法:
将声道与对象之间的互相关限制为0:
对于音频声道和音频对象被混合至不同的音频传输声道以及它们在音频传输声道中被一起混合的情况,相异地读取降混合增益。
如果比特流变量bsNumSaocChannels相异于0,第一个bsNumSaocChannels输入信号被视为基于声道的信号。如果比特流变量bsNumSaocObjects相异于0,像对象信号一样处理最后的bsNumSaocObjects输入信号。因此,在两个比特流变量均相异于零情况下,声道和对象的存在被信号化至音频传输声道中。
如果比特流变量bsNumSaocDmxObjects等于0,结合的解码模式被信号化至比特流,且解码器将使用全降混合矩阵D来处理bsNumSaocDmxChannels个传输声道(这意味着声道信号和对象信号被一起混合)。
如果比特流变量bsNumSaocDmxObjects相异于0,独立的解码模式被信号化,且解码器将使用如上所述的区块化降混合矩阵来处理bsNumSaocDmxChannels+bsNumSaocDmxObjects个传输声道。
以下,描述根据实施例的降混合处理的方面:
如在ISO/IEC 23003-1:2007中描述的产生SAOC 3D解码器的最终输出,降混合处理器的输出信号(表示在混合QMF域中)被馈入对应的合成滤波器组。
图1的参数处理器110和图1的降混合处理器120可被实施为联合处理单元。此联合处理单元由图1示出,其中单元U和R通过提供混合信息来实施参数处理器110。
从多声道降混合信号X和去相关多声道信号Xd计算输出信号如:
其中U表示参数化去混合矩阵
混合矩阵P=(Pdry Pwet)是混合矩阵。
去相关多声道信号Xd被定义为:
Xd=decorrFunc(MpreYdry)。
通过比特流元素bsNumSaocDmxObjects控制解码模式:
在结合的解码模式的情况下,参数化去混合矩阵U是由U=ED*J给定。
矩阵J的大小Ndmx×Ndmx是由J≈Δ-1给定,其中Δ=DED*
在独立的解码模式的情况下,去混合矩阵U是由以下所给定:
其中
通过选择仅对应的对角区块,从协方差矩阵E获得大小为Nch×Nch的基于声道的协方差矩阵Ech以及大小为Nobj×Nobj的基于对象的协方差矩阵Eobj
其中矩阵Ech,obj=(Eobj,ch)*表示输入声道与输入对象之间的互协方差矩阵,且此矩阵并不需要被计算。
通过选择仅对应的对角区块,从降混合矩阵D获得大小为的基于声道的降混合矩阵Dch以及大小为的基于对象的降混合矩阵Dobj
对于:从矩阵J的定义得到大小为的矩阵
对于:从矩阵J的定义得到大小为的矩阵
使用以下方程式计算矩阵J≈Δ-1
J=VΛinvV*
此处使用以下特征方程式获得矩阵Δ的奇异向量V:
VΛV*=Δ。
对角的奇异值矩阵Λ的正则化逆Λinv被计算如:
使用绝对阈值Treg和Λ的最大值确定相关正则化标量如:
Treg=10-2
以下,描述根据实施例的渲染矩阵:
应用至输入音频信号S的渲染矩阵R确定目标渲染的输出为Y=RS。大小为Nout×N的渲染矩阵R由R=(Rch Robj)给定。
其中大小为Nout×Nch的Rch表示与输入声道相关联的渲染矩阵,且大小为Nout×Nobj的Robj表示与输入对象相关联的渲染矩阵。
以下,描述根据实施例的去相关多声道信号Xd
去相关信号Xd是,例如,利用bsDecorrConfig==0以及,例如去相关器索引X,从ISO/IEC 23003-1:2007的6.6.2中所描述的去相关器所创建的。因此,举例来说,decorrFunc()指示去相关过程:
Xd=decorrFunc(MpreYdry)
尽管已在装置的上下文中描述一些方面,显然的是,这些方面也表示对应方法的描述,其中区块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中所描述的方面也表示对应装置的对应区块或项目或特征的描述。
本发明的经分解的信号可储存在数字存储介质上或可在传输介质上(例如无线传输介质或有线传输介质(例如因特网))上传输。
取决于特定的实施要求,本发明的实施例可以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质,例如软性磁盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方案,这些电子可读控制信号与可编程计算机系统协作(或能够协作)以使得执行各个方法。
根据本发明的一些实施例包括具有电子可读控制信号的非暂时性数据载体,这些电子可读控制信号能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
通常,本发明的实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品执行于计算机上时,程序代码操作性地用于执行这些方法中的一个。程序代码可(例如)储存于机器可读载体上。
其他实施例包括储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。
换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序执行于计算机上时,该程序代码用于执行本文中所描述的方法中的一个。
因此,本发明方法的另一实施例为包括记录于其上的,用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或数字存储介质,或计算机可读介质)。
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如用于经由数据通信连接(例如,经由因特网)而传送。
另一实施例包括用于或经调适以执行本文中所描述的方法中的一个的处理构件,例如,计算机或可编程逻辑器件。
另一实施例包括安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
在一些实施例中,可编程逻辑器件(例如,场可编程门阵列)可用于执行本文中所描述的方法的功能性中的一些或所有。在一些实施例中,场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。大体而言,优选地由任何硬件装置执行这些方法。
上文所描述的实施例仅仅说明本发明的原理。应理解,对本文中所描述的配置及细节的修改及变型对本领域技术人员而言将是显而易见。因此,仅意欲由待决专利的权利要求的范围限制,而不由通过本文的实施例的描述及解释而提出的特定细节限制。
参考文献
[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AESConference,Cambridge,UK,April 2007.
[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial AudioObject Coding(SAOC)–The Upcoming MPEG Standard on Parametric Object BasedAudio Coding",124th AES Convention,Amsterdam 2008.
[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio ObjectCoding (SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.
[VBAP]Ville Pulkki,“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”;J.Audio Eng.Soc.,Level 45,Issue 6,pp.456-466,June1997.
[M1]Peters,N.,Lossius,T.and Schacher J.C.,"SpatDIF:Principles,Specification,and Examples",9th Sound and Music Computing Conference,Copenhagen,Denmark,Jul.2012.
[M2]Wright,M.,Freed,A.,"Open Sound Control:A New Protocol forCommunicating with Sound Synthesizers",International Computer MusicConference,Thessaloniki,Greece,1997.
[M3]Matthias Geier,Jens Ahrens,and Sascha Spors.(2010),"Object-basedaudio reproduction and the audio scene description format",Org.Sound,Vol.15,No.3,pp.219-227,December 2010.
[M4]W3C,"Synchronized Multimedia Integration Language(SMIL 3.0)",Dec.2008.
[M5]W3C,"Extensible Markup Language(XML)1.0(Fifth Edition)",Nov.2008.
[M6]MPEG,"ISO/IEC International Standard 14496-3-Coding of audio-visual objects,Part 3Audio",2009.
[M7]Schmidt,J.;Schroeder,E.F.(2004),"New and Advanced Features forAudio Presentation in the MPEG-4Standard",116th AES Convention,Berlin,Germany,May 2004.
[M8]Web3D,"International Standard ISO/IEC 14772-1:1997-The VirtualReality Modeling Language(VRML),Part 1:Functional specification and UTF-8encoding",1997.
[M9]Sporer,T.(2012),"CodierungAudiosignale mitleichtgewichtigen Audio-Objekten",Proc.Annual Meeting of the GermanAudiological Society(DGA),Erlangen,Germany,Mar.2012.

Claims (17)

1.一种用于生成一个或多个音频输出声道的装置,其中所述装置包括:
参数处理器(110),用于计算混合信息,以及
降混合处理器(120),用于生成所述一个或多个音频输出声道,
其中所述降混合处理器(120)用于接收包括音频传输信号的音频传输声道的数据流,其中一个或多个音频声道信号被混合在所述音频传输信号中,其中一个或多个音频对象信号被混合在所述音频传输信号中,以及其中所述音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,
其中所述参数处理器(110)用于接收降混合信息,所述降混合信息指示所述一个或多个音频声道信号以及所述一个或多个音频对象信号如何被混合在所述音频传输声道中的信息,且其中所述参数处理器(110)用于接收协方差信息,以及其中所述参数处理器(110)用于根据所述降混合信息以及根据所述协方差信息,计算所述混合信息,以及
其中所述降混合处理器(120)用于根据所述混合信息,从所述音频传输信号生成所述一个或多个音频输出声道,
其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及
其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息;
其中所述一个或多个音频声道信号被混合在第一组的所述音频传输声道中的一个或多个中,其中所述一个或多个音频对象信号被混合在第二组的所述音频传输声道中的一个或多个中,其中所述第一组中的每个音频传输声道不被所述第二组所包括,且其中所述第二组中的每个音频传输声道不被所述第一组所包括,以及
其中所述降混合信息包括第一降混合子信息,所述第一降混合子信息指示所述一个或多个音频声道信号如何被混合在所述第一组的音频传输声道中的信息,且其中所述降混合信息包括第二降混合子信息,所述第二降混合子信息指示所述一个或多个音频对象信号如何被混合在所述第二组的一个或多个音频传输声道中的信息,
其中所述参数处理器(110)用于根据所述第一降混合子信息、根据所述第二降混合子信息以及根据所述协方差信息,计算所述混合信息,以及
其中所述降混合处理器(120)用于根据所述混合信息,从所述第一组的音频传输声道以及从所述第二组的音频传输声道生成所述一个或多个音频输出信号;
其中所述降混合处理器(120)用于接收第一声道计数数目,所述第一声道计数数目指示所述第一组的音频传输声道中的音频传输声道的数目,且其中所述降混合处理器(120)用于接收第二声道计数数目,所述第二声道计数数目指示所述第二组的音频传输声道中的音频传输声道的数目,以及
其中所述降混合处理器(120)用于根据所述第一声道计数数目或根据所述第二声道计数数目或根据所述第一声道计数数目和所述第二声道计数数目,识别所述数据流内的音频传输声道是否属于所述第一组或所述第二组。
2.根据权利要求1所述的装置,其中所述协方差信息指示用于所述一个或多个音频声道信号中的每个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的每个的水平差信息。
3.根据权利要求1所述的装置,
其中两个或更多音频对象信号被混合在所述音频传输信号中,且其中两个或更多音频声道信号被混合在所述音频传输信号中,
其中所述协方差信息指示用于一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,或
其中所述协方差信息指示用于一对或多对的所述两个或更多音频对象信号中的第一个和所述两个或更多音频对象信号中的第二个的相关性信息,或
其中所述协方差信息指示用于一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,并指示用于一对或多对的所述两个或更多音频对象信号中的第一个和所述两个或更多音频对象信号的第二个的相关性信息。
4.根据权利要求1所述的装置,
其中所述协方差信息包括大小为N x N的协方差矩阵EX的多个协方差系数,其中N指示所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,
其中所述协方差矩阵EX是根据以下公式而被定义:
其中指示大小为NChannels x NChannels的第一协方差子矩阵的系数,其中NChannels指示所述一个或多个音频声道信号的数目,
其中指示大小为NObjects x NObjects的第二协方差子矩阵的系数,其中NObjects指示所述一个或多个音频对象信号的数目,
其中0指示零矩阵,
其中所述参数处理器(110)用于接收所述协方差矩阵EX的所述多个协方差系数,以及
其中所述参数处理器(110)用于将所述协方差矩阵EX的不被所述参数处理器(110)所接收的所有系数设定为0。
5.根据权利要求1所述的装置,
其中所述降混合信息包括大小为NDmxCh x N的降混合矩阵D的多个降混合系数,其中NDmxCh指示所述音频传输声道的数目,以及其中N指示所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,
其中所述降混合矩阵D是根据以下公式而被定义:
其中Dch指示大小为的第一降混合子矩阵的系数,其中指示所述第一组的音频传输声道中的音频传输声道的数目,以及其中NChannels指示所述一个或多个音频声道信号的数目,
其中Dobj指示大小为的第二降混合子矩阵的系数,其中指示所述第二组的音频传输声道中的音频传输声道的数目,以及其中NObjects指示所述一个或多个音频声道信号的数目,
其中0指示零矩阵,
其中所述参数处理器(110)用于接收所述降混合矩阵D的所述多个降混合系数,以及
其中所述参数处理器(110)用于将所述降混合矩阵D的不被所述参数处理器(110)所接收的所有系数设定为0。
6.根据权利要求1所述的装置,
其中所述参数处理器(110)用于接收渲染信息,所述渲染信息指示所述一个或多个音频声道信号和所述一个或多个音频对象信号如何被混合在所述一个或多个音频输出声道中的信息,
其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述渲染信息,计算所述混合信息。
7.根据权利要求6所述的装置,
其中所述参数处理器(110)用于接收渲染矩阵R的多个系数作为所述渲染信息,以及
其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述渲染矩阵R,计算所述混合信息。
8.根据权利要求6所述的装置,
其中所述参数处理器(110)用于接收元数据信息作为所述渲染信息,其中所述元数据信息包括位置信息,
其中所述位置信息指示所述一个或多个音频对象信号中的每个的位置,
其中所述位置信息不指示所述一个或多个音频声道信号中的任一个的位置,
其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息以及根据所述位置信息,计算所述混合信息。
9.根据权利要求8所述的装置,
其中所述元数据信息还包括增益信息,
其中所述增益信息指示用于所述一个或多个音频对象信号中的每个的增益值,
其中所述增益信息不指示用于所述一个或多个音频声道信号中的任一个的增益值,
其中所述参数处理器(110)用于根据所述降混合信息、根据所述协方差信息、根据所述位置信息以及根据所述增益信息,计算所述混合信息。
10.根据权利要求8所述的装置,
其中所述参数处理器(110)用于计算混合矩阵S作为所述混合信息,其中所述混合矩阵S是根据以下公式而被定义:
S=RG
其中G为取决于所述降混合信息和取决于所述协方差信息的解码矩阵,
其中R为取决于所述元数据信息的渲染矩阵,
其中所述降混合处理器(120)用于通过应用以下公式以生成所述音频输出信号的所述一个或多个音频输出声道:
Z=SY,
其中Z为所述音频输出信号,且其中Y为所述音频传输信号。
11.根据权利要求1所述的装置,
其中两个或更多音频对象信号被混合在所述音频传输信号中,且其中两个或更多音频声道信号被混合在所述音频传输信号中,
其中所述协方差信息指示用于一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,
其中所述协方差信息并不指示用于任意一对的所述一个或多个音频对象信号中的第一个和所述一个或多个音频对象信号中的第二个的相关性信息,以及
其中所述参数处理器(110)用于根据所述降混合信息、根据所述一个或多个音频声道信号中的每个的水平差信息、根据所述一个或多个音频对象信号中的每个的第二水平差信息以及根据所述一对或多对的所述两个或更多音频声道信号中的第一个和所述两个或更多音频声道信号中的第二个的相关性信息,计算所述混合信息。
12.一种用于生成包括音频传输声道的音频传输信号的装置,其中所述装置包括:
声道/对象混合器(210),用于生成所述音频传输信号的所述音频传输声道,以及
输出接口(220),
其中所述声道/对象混合器(210)用于根据指示一个或多个音频声道信号和一个或多个音频对象信号如何必须被混合在所述音频传输声道中的信息的降混合信息,通过将所述一个或多个音频声道信号和所述一个或多个音频对象信号混合在所述音频传输信号中,生成包括所述音频传输声道的所述音频传输信号,其中所述音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,
其中所述输出接口(220)用于输出所述音频传输信号、所述降混合信息以及协方差信息,
其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及
其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息,
其中所述装置用于将所述一个或多个音频声道信号混合在第一组的所述音频传输声道中的一个或多个中,其中所述装置用于将所述一个或多个音频对象信号混合在第二组的所述音频传输声道中的一个或多个中,其中所述第一组中的每个音频传输声道不被所述第二组所包括,且其中所述第二组中的每个音频传输声道不被所述第一组所包括,以及
其中所述降混合信息包括第一降混合子信息,所述第一降混合子信息指示所述一个或多个音频声道信号如何被混合在所述第一组的音频传输声道中的信息,且其中所述降混合信息包括第二降混合子信息,所述第二降混合子信息指示所述一个或多个音频对象信号如何被混合在所述第二组的音频传输声道中的信息,
其中所述装置用于输出第一声道计数数目,所述第一声道计数数目指示所述第一组的音频传输声道中的音频传输声道的数目,且其中所述装置用于输出第二声道计数数目,所述第二声道计数数目指示所述第二组的音频传输声道中的音频传输声道的数目。
13.根据权利要求12所述的装置,其中声道/对象混合器(210)用于生成所述音频传输信号,以使得所述音频传输信号的所述音频传输声道的数目取决于多少比特速率可用于传输所述音频传输信号。
14.一种用于生成音频传输信号和用于生成一个或多个音频输出声道的系统,包含:
根据权利要求12的用于生成音频传输信号的装置(310),以及
根据权利要求1的用于生成一个或多个音频输出声道的装置(320),
其中装置(320)用于从装置(310)接收所述音频传输信号、降混合信息以及协方差信息,以及
其中装置(320)用于根据所述降混合信息以及根据所述协方差信息,从所述音频传输信号生成所述一个或多个音频输出声道。
15.一种用于生成一个或多个音频输出声道的方法,其中所述方法包括:
接收包括音频传输信号的音频传输声道的数据流,其中一个或多个音频声道信号被混合在所述音频传输信号中,其中一个或多个音频对象信号被混合在所述音频传输信号中,以及其中所述音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,
接收降混合信息,所述降混合信息指示所述一个或多个音频声道信号和所述一个或多个音频对象信号如何被混合在所述音频传输声道中的信息,
接收协方差信息,
根据所述降混合信息以及根据所述协方差信息计算混合信息,以及
生成所述一个或多个音频输出声道,
根据所述混合信息,从所述音频传输信号生成所述一个或多个音频输出声道,
其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及
其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息;
其中所述一个或多个音频声道信号被混合在第一组的所述音频传输声道中的一个或多个中,其中所述一个或多个音频对象信号被混合在第二组的所述音频传输声道中的一个或多个中,其中所述第一组中的每个音频传输声道不被所述第二组所包括,且其中所述第二组中的每个音频传输声道不被所述第一组所包括,以及
其中所述降混合信息包括第一降混合子信息,所述第一降混合子信息指示所述一个或多个音频声道信号如何被混合在所述第一组的音频传输声道中的信息,且其中所述降混合信息包括第二降混合子信息,所述第二降混合子信息指示所述一个或多个音频对象信号如何被混合在所述第二组的音频传输声道中的信息,
其中根据所述第一降混合子信息、根据所述第二降混合子信息以及根据所述协方差信息,计算所述混合信息,以及
其中根据所述混合信息,从所述第一组的音频传输声道以及从所述第二组的音频传输声道生成所述一个或多个音频输出信号;
其中所述方法还包括接收第一声道计数数目的步骤,所述第一声道计数数目指示所述第一组的音频传输声道中的音频传输声道的数目,且其中所述方法还包括接收第二声道计数数目的步骤,所述第二声道计数数目指示所述第二组的音频传输声道中的音频传输声道的数目,以及
其中所述方法还包括步骤:根据所述第一声道计数数目或根据所述第二声道计数数目或根据所述第一声道计数数目和所述第二声道计数数目,识别所述数据流内的音频传输声道是否属于所述第一组或所述第二组。
16.一种用于生成包括音频传输声道的音频传输信号的方法,其中所述方法包括:
根据指示一个或多个音频声道信号和一个或多个音频对象信号如何必须被混合在所述音频传输声道中的信息的降混合信息,通过将所述一个或多个音频声道信号和所述一个或多个音频对象信号混合在所述音频传输信号中,生成包括所述音频传输声道的所述音频传输信号,其中所述音频传输声道的数目小于所述一个或多个音频声道信号的数目加上所述一个或多个音频对象信号的数目,以及
输出所述音频传输信号、所述降混合信息以及协方差信息,
其中所述协方差信息指示用于所述一个或多个音频声道信号中的至少一个的水平差信息,并进一步指示用于所述一个或多个音频对象信号中的至少一个的水平差信息,以及
其中所述协方差信息并不指示用于任意一对的所述一个或多个音频声道信号中的一个和所述一个或多个音频对象信号中的一个的相关性信息;
其中所述一个或多个音频声道信号被混合在第一组的所述音频传输声道中的一个或多个中,其中所述一个或多个音频对象信号被混合在第二组的所述音频传输声道中的一个或多个中,其中所述第一组中的每个音频传输声道不被所述第二组所包括,且其中所述第二组中的每个音频传输声道不被所述第一组所包括,以及
其中所述降混合信息包括第一降混合子信息,所述第一降混合子信息指示所述一个或多个音频声道信号如何被混合在所述第一组的音频传输声道中的信息,且其中所述降混合信息包括第二降混合子信息,所述第二降混合子信息指示所述一个或多个音频对象信号如何被混合在所述第二组的一个或多个音频传输声道中的信息,
其中所述方法还包括:输出第一声道计数数目,所述第一声道计数数目指示所述第一组的音频传输声道中的音频传输声道的数目,且其中所述方法还包括:输出第二声道计数数目,所述第二声道计数数目指示所述第二组的音频传输声道中的音频传输声道的数目。
17.一种非暂时性计算机可读介质,包括计算机程序,当该计算机程序被执行于计算机或信号处理器上时,用于实施权利要求15或16的方法。
CN201480041467.9A 2013-07-22 2014-07-17 用于增强的空间音频对象编码的装置及方法 Active CN105593930B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EPEP13177371 2013-07-22
EPEP13177378 2013-07-22
EPEP13177357 2013-07-22
EP13177357 2013-07-22
EP13177371 2013-07-22
EPEP13189290 2013-10-18
EP13189290.3A EP2830050A1 (en) 2013-07-22 2013-10-18 Apparatus and method for enhanced spatial audio object coding
PCT/EP2014/065427 WO2015011024A1 (en) 2013-07-22 2014-07-17 Apparatus and method for enhanced spatial audio object coding

Publications (2)

Publication Number Publication Date
CN105593930A CN105593930A (zh) 2016-05-18
CN105593930B true CN105593930B (zh) 2019-11-08

Family

ID=49385153

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201480041327.1A Active CN105593929B (zh) 2013-07-22 2014-07-16 实现3d音频内容的saoc降混合的装置及方法
CN202011323152.7A Active CN112839296B (zh) 2013-07-22 2014-07-16 实现3d音频内容的saoc降混合的装置及方法
CN201480041467.9A Active CN105593930B (zh) 2013-07-22 2014-07-17 用于增强的空间音频对象编码的装置及方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201480041327.1A Active CN105593929B (zh) 2013-07-22 2014-07-16 实现3d音频内容的saoc降混合的装置及方法
CN202011323152.7A Active CN112839296B (zh) 2013-07-22 2014-07-16 实现3d音频内容的saoc降混合的装置及方法

Country Status (19)

Country Link
US (4) US9578435B2 (zh)
EP (4) EP2830050A1 (zh)
JP (3) JP6395827B2 (zh)
KR (2) KR101774796B1 (zh)
CN (3) CN105593929B (zh)
AU (2) AU2014295270B2 (zh)
BR (2) BR112016001244B1 (zh)
CA (2) CA2918529C (zh)
ES (2) ES2768431T3 (zh)
HK (1) HK1225505A1 (zh)
MX (2) MX355589B (zh)
MY (2) MY176990A (zh)
PL (2) PL3025333T3 (zh)
PT (1) PT3025333T (zh)
RU (2) RU2666239C2 (zh)
SG (2) SG11201600460UA (zh)
TW (2) TWI560700B (zh)
WO (2) WO2015010999A1 (zh)
ZA (1) ZA201600984B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
WO2017209477A1 (ko) * 2016-05-31 2017-12-07 지오디오랩 인코포레이티드 오디오 신호 처리 방법 및 장치
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
CN110447071B (zh) 2017-03-28 2024-04-26 索尼公司 信息处理装置、信息处理方法和记录程序的可拆卸介质
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10620904B2 (en) 2018-09-12 2020-04-14 At&T Intellectual Property I, L.P. Network broadcasting for selective presentation of audio content
WO2020067057A1 (ja) 2018-09-28 2020-04-02 株式会社フジミインコーポレーテッド 酸化ガリウム基板研磨用組成物
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
EP4120250A4 (en) * 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
KR102508815B1 (ko) 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
WO2023131398A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for implementing versatile audio object rendering

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151660A (zh) * 2005-03-30 2008-03-26 皇家飞利浦电子股份有限公司 多通道音频编码
CN101288115A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
CN101542595A (zh) * 2007-02-14 2009-09-23 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101617360A (zh) * 2006-09-29 2009-12-30 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN101821799A (zh) * 2007-10-17 2010-09-01 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
CN101926181A (zh) * 2008-01-23 2010-12-22 Lg电子株式会社 用于处理音频信号的方法和装置
CN101930741A (zh) * 2005-11-21 2010-12-29 三星电子株式会社 对多声道音频信号进行编码/解码的系统和方法
CN102239520A (zh) * 2008-12-05 2011-11-09 Lg电子株式会社 用于处理音频信号的方法和装置
CN102576532A (zh) * 2009-04-28 2012-07-11 弗兰霍菲尔运输应用研究公司 用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序
CN102892070A (zh) * 2006-10-16 2013-01-23 杜比国际公司 多声道下混对象编码的增强编码和参数表示

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2411594C2 (ru) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
EP1989920B1 (en) 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP2005787B1 (en) * 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008002098A1 (en) 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
ES2623226T3 (es) 2006-07-04 2017-07-10 Dolby International Ab Unidad de filtro y procedimiento de generación de respuestas al impulso de filtro de subbanda
EP2071564A4 (en) * 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
EP2122613B1 (en) * 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2008114984A1 (en) 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2194527A3 (en) 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
MX2011009660A (es) 2009-03-17 2011-09-30 Dolby Int Ab Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica.
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102449689B (zh) 2009-06-03 2014-08-06 日本电信电话株式会社 编码方法、编码装置、编码程序、以及它们的记录介质
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
MX2012004621A (es) * 2009-10-20 2012-05-08 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de una señal de conversion ascendente sobre la base de una representacion de una señal de conversion descendente, aparato para proporcionar una corriente de bits que representa una señal de audio de canales multiples, metodos, programa de computacion y corriente de bits que utiliza una señalizacion de control de distorsion.
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR101490725B1 (ko) 2010-03-23 2015-02-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI800092B (zh) 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
AR084091A1 (es) * 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
KR102374897B1 (ko) 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
BR112014010062B1 (pt) * 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151660A (zh) * 2005-03-30 2008-03-26 皇家飞利浦电子股份有限公司 多通道音频编码
CN101288115A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
CN101930741A (zh) * 2005-11-21 2010-12-29 三星电子株式会社 对多声道音频信号进行编码/解码的系统和方法
CN101617360A (zh) * 2006-09-29 2009-12-30 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CN102892070A (zh) * 2006-10-16 2013-01-23 杜比国际公司 多声道下混对象编码的增强编码和参数表示
CN101542595A (zh) * 2007-02-14 2009-09-23 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101542596A (zh) * 2007-02-14 2009-09-23 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN101821799A (zh) * 2007-10-17 2010-09-01 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
CN101926181A (zh) * 2008-01-23 2010-12-22 Lg电子株式会社 用于处理音频信号的方法和装置
CN102239520A (zh) * 2008-12-05 2011-11-09 Lg电子株式会社 用于处理音频信号的方法和装置
CN102576532A (zh) * 2009-04-28 2012-07-11 弗兰霍菲尔运输应用研究公司 用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序

Also Published As

Publication number Publication date
CN112839296A (zh) 2021-05-25
PL3025335T3 (pl) 2024-02-19
EP3025335B1 (en) 2023-08-30
CA2918869C (en) 2018-06-26
CN112839296B (zh) 2023-05-09
KR101774796B1 (ko) 2017-09-05
BR112016001244B1 (pt) 2022-03-03
EP2830048A1 (en) 2015-01-28
MX355589B (es) 2018-04-24
CA2918869A1 (en) 2015-01-29
BR112016001244A2 (zh) 2017-07-25
TW201519216A (zh) 2015-05-16
CN105593929A (zh) 2016-05-18
CN105593930A (zh) 2016-05-18
KR101852951B1 (ko) 2018-06-04
US20160142846A1 (en) 2016-05-19
US11330386B2 (en) 2022-05-10
TW201519217A (zh) 2015-05-16
PL3025333T3 (pl) 2020-07-27
SG11201600396QA (en) 2016-02-26
TWI560701B (en) 2016-12-01
JP2016527558A (ja) 2016-09-08
RU2660638C2 (ru) 2018-07-06
ES2768431T3 (es) 2020-06-22
EP3025333A1 (en) 2016-06-01
ZA201600984B (en) 2019-04-24
US20160142847A1 (en) 2016-05-19
AU2014295270B2 (en) 2016-12-01
JP6873949B2 (ja) 2021-05-19
JP2018185526A (ja) 2018-11-22
CN105593929B (zh) 2020-12-11
BR112016001243B1 (pt) 2022-03-03
US20170272883A1 (en) 2017-09-21
JP2016528542A (ja) 2016-09-15
MY192210A (en) 2022-08-08
MX2016000914A (es) 2016-05-05
EP3025335C0 (en) 2023-08-30
RU2016105472A (ru) 2017-08-28
EP3025333B1 (en) 2019-11-13
KR20160041941A (ko) 2016-04-18
HK1225505A1 (zh) 2017-09-08
MX357511B (es) 2018-07-12
RU2666239C2 (ru) 2018-09-06
CA2918529A1 (en) 2015-01-29
SG11201600460UA (en) 2016-02-26
ES2959236T3 (es) 2024-02-22
US9699584B2 (en) 2017-07-04
EP2830050A1 (en) 2015-01-28
AU2014295270A1 (en) 2016-03-10
TWI560700B (en) 2016-12-01
PT3025333T (pt) 2020-02-25
MX2016000851A (es) 2016-04-27
JP6333374B2 (ja) 2018-05-30
AU2014295216A1 (en) 2016-03-10
EP3025335A1 (en) 2016-06-01
US9578435B2 (en) 2017-02-21
AU2014295216B2 (en) 2017-10-19
BR112016001243A2 (zh) 2017-07-25
CA2918529C (en) 2018-05-22
US20200304932A1 (en) 2020-09-24
WO2015011024A1 (en) 2015-01-29
MY176990A (en) 2020-08-31
JP6395827B2 (ja) 2018-09-26
US10701504B2 (en) 2020-06-30
RU2016105469A (ru) 2017-08-25
WO2015010999A1 (en) 2015-01-29
KR20160053910A (ko) 2016-05-13

Similar Documents

Publication Publication Date Title
CN105593930B (zh) 用于增强的空间音频对象编码的装置及方法
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
US9940938B2 (en) Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
TW201120874A (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
CN104756186B (zh) 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant