CN107533845B - 用于处理编码音频信号的装置和方法 - Google Patents

用于处理编码音频信号的装置和方法 Download PDF

Info

Publication number
CN107533845B
CN107533845B CN201680020876.XA CN201680020876A CN107533845B CN 107533845 B CN107533845 B CN 107533845B CN 201680020876 A CN201680020876 A CN 201680020876A CN 107533845 B CN107533845 B CN 107533845B
Authority
CN
China
Prior art keywords
downmix
group
matrix
signal
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680020876.XA
Other languages
English (en)
Other versions
CN107533845A (zh
Inventor
阿德里安·姆塔萨
约尼·帕鲁斯
哈拉尔德·福克斯
罗贝塔·卡米拉里
里昂·特恩蒂夫
萨沙·迪施
于尔根·赫勒
奥立弗·赫尔穆特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN107533845A publication Critical patent/CN107533845A/zh
Application granted granted Critical
Publication of CN107533845B publication Critical patent/CN107533845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

本发明涉及用于处理编码音频信号(100)的装置(1),所述编码音频信号(100)包括与多个输入音频对象(111)和对象参数(E)相关联的多个下混频信号(101)。该装置(1)包括被配置为将下混频信号(101)分组为与输入音频对象(111)集合相关联的下混频信号组(102)的分组器(2)。该装置(1)包括处理器(3),处理器(3)被配置为对每个输入音频对象(111)集合的对象参数(Ek)单独执行至少一个处理步骤,以提供组结果(103、104)。此外,存在组合器(4),组合器(4)被配置为组合所述组结果(103、104)或已处理的组结果,以提供解码音频信号(110)。分组器(2)被配置为对下混频信号(101)进行分组,使得每个输入音频对象(111)仅属于一个输入音频对象(111)集合。本发明还涉及对应的方法。

Description

用于处理编码音频信号的装置和方法
技术领域
本发明涉及用于处理编码音频信号的装置和方法。
背景技术
最近在音频编码(参见随后的参考文献[BCC]、[JSC]、[SAOC]、[SAOC1]、[SAOC2])和通知来源分离领域中(参见随后的参考文献[ISS1]、[ISS2]、[ISS3]、[ISS4]、[ISS5]、[ISS6])提出针对包含多个音频对象的音频场景的比特率高效传输/存储的参数化技术。
基于对所传输/储存的音频信号和/或音频场景中的源对象进行描述的附加边信息,这些技术旨在重建所期望的输出音频场景或音频源对象。
不幸的是,已经发现,在某些情况下,该参数化分离方案可能导致严重的可听见的伪像,这导致不令人满意的听觉体验。
因此,本发明的一个目的是使用参数化编码技术来提高解码音频信号的音频质量。
发明内容
该目的通过一种用于处理编码音频信号的装置实现,其中,所述编码音频信号包括与多个输入音频对象和对象参数相关联的多个下混频信号,
所述装置包括:
分组器,所述分组器被配置为基于所述编码音频信号中的信息将所述多个下混频信号分组为多个下混频信号组,其中,每个下混频信号组与所述多个输入音频对象的输入音频对象集合相关联,
处理器,所述处理器被配置为对每个输入音频对象集合的对象参数单独执行至少一个处理步骤,以提供组结果,以及
组合器,所述组合器被配置为组合所述组结果,以提供解码音频信号,
其中,所述分组器被配置为将所述多个下混频信号分组为所述多个下混频信号组,使得所述多个输入音频对象的每个输入音频对象只属于一个输入音频对象集合,以及
其中,所述分组器被配置为将所述多个下混频信号分组为所述多个下混频信号组,使得每个输入音频对象集合的每个输入音频对象或者与编码音频信号中信号通知的与其他输入音频对象的关系无关,或者与在编码音频信号中信号通知的仅与属于同一输入音频对象集合的至少一个输入音频对象的关系有关。
该目的通过一种用于处理编码音频信号的方法实现,其中,所述编码音频信号包括与多个输入音频对象和对象参数相关联的多个下混频信号,
所述方法包括:
基于所述编码音频信号中的信息,将所述多个下混频信号分组为多个下混频信号组,其中,每个下混频信号组与所述多个输入音频对象的输入音频对象集合相关联,
对每个输入音频对象集合的对象参数单独执行至少一个处理步骤,以提供组结果,以及
组合所述组结果以提供解码音频信号,
其中,将所述多个下混频信号分组为所述多个下混频信号组被设置为使得所述多个输入音频对象的每个输入音频对象只属于一个输入音频对象集合,以及
其中,将所述多个下混频信号分组为所述多个下混频信号组被设置为使得每个输入音频对象集合的每个输入音频对象或者与编码音频信号中信号通知的与其他输入音频对象的关系无关,或者与在编码音频信号中信号通知的仅与属于同一输入音频对象集合的至少一个输入音频对象的关系有关。
该目的通过用于处理编码音频信号的装置来实现。编码音频信号包括与多个输入音频对象和对象参数(E)相关联的多个下混频信号。该装置包括分组器、处理器和组合器。
分组器被配置为将多个下混频信号分组为多个下混频信号组。每个下混频信号组与具有多个输入音频对象的输入音频对象(或输入音频信号)集合相关联。换言之:这些组覆盖由编码音频信号表示的输入音频信号集合的子集。每个下混频信号组也与描述输入音频对象的一些对象参数E相关联。在下文中,使用索引k来标识各个组Gk,其中,1≤k≤K,K表示下混频信号组的数量。
此外,在分组之后,处理器被配置为执行至少一个单独针对每个输入音频对象集合的对象参数的处理步骤。因此,至少一个处理步骤不是针对所有对象参数同时执行的,而是针对属于相应下混频信号组的对象参数单独地执行的。在一个实施例中,单独执行仅一个步骤。在不同实施例中,执行一个以上的步骤,而在备选实施例中,对下混频信号组单独执行整个处理。处理器为各个组提供组结果。
在不同实施例中,在分组之后,处理器被配置为对多个下混频信号组中的每个下混频信号组单独执行至少一个处理步骤。因此,至少一个处理步骤不是针对所有下混频信号同时执行的,而是针对相应下混频信号组单独地执行的。
最终,组合器被配置为组合组结果或已处理组结果,以提供解码音频信号。因此,将组结果或对该组结果执行进一步处理步骤的结果进行组合,以提供解码音频信号。解码音频信号对应于由编码音频信号编码的多个输入音频对象。
至少在以下限制下完成由分组器完成的分组:多个输入音频对象中的每个输入音频对象仅仅或正好属于一个输入音频对象集合。这意味着每个输入音频对象仅属于一个下混频信号组。这也意味着每个下混频信号仅属于一个下混频信号组。
根据一个实施例,分组器被配置为将多个下混频信号分组为多个下混频信号组,使得每个输入音频对象集合的每个输入音频对象或者与编码音频信号中信号通知的与其他输入音频对象的关系无关,或者与在编码音频信号中信号通知的仅与属于同一输入音频对象集合的至少一个输入音频对象的关系有关。这意味着没有输入音频对象与属于不同下混频信号组的输入音频对象具有信号通知的关系。在一个实施例中,这种信号通知的关系是:两个输入音频对象是源于一个单一来源的立体声信号。
本创造性的装置处理包括下混频信号的编码音频信号。下混频是对给定数量的单独音频信号进行编码的处理的一部分,并且意味着将某个数量的输入音频对象组合为下混频信号因此,输入音频对象的数量减少为较少数量的下混频信号。由于该原因,下混频信号与多个输入音频对象相关联。
下混频信号被分组为下混频信号组,并且被单独地(即作为单个组)进行至少一个处理步骤。因此,该装置不是对所有下混频信号联合地执行至少一个处理,而是单独对各个下混频信号组执行该至少一个处理。在不同实施例中,对组的对象参数分别进行处理,以获得要应用于编码音频信号的矩阵。
在一个实施例中,该装置是编码音频信号的解码器。该装置在备选实施例中是解码器的一部分。
在一个实施例中,每个下混频信号属于一个下混频信号组,因此关于至少一个处理步骤被单独地进行处理。在该实施例中,下混频信号组的数量等于下混频信号的数量。这意味着分组和单独处理相一致。
在一个实施例中,组合是处理编码音频信号的最后步骤之一。在不同的实施例中,组结果还经受不同的处理步骤,对组结果单独地或联合地执行这些步骤。
分组(或对组的检测)以及对组的单独处理已显现为导致音频质量改善。这特别适用于例如参数化编码技术。
根据实施例,装置的分组器被配置为将多个下混频信号分组为多个下混频信号组,同时使每个下混频信号组中的多个下混频信号的数量最小化。在本实施例中,该装置尝试减少属于每个组的下混频信号的数量。在一种情况下,仅一个下混频信号属于至少一个下混频信号组。
根据实施例,分组器被配置为将所述多个下混频信号分组为所述多个下混频信号组,使得仅一个单个下混频信号属于一个下混频信号组。换言之:分组导致各种下混频信号组,其中给出仅一个下混频信号所属的至少一个下混频信号组。因此,至少一个下混频信号组指代仅一个单个下混频信号。在另一实施例中,最大化仅一个下混频信号所属的下混频信号组的数量。
在一个实施例中,装置的分组器被配置为基于编码音频信号内的信息将多个下混频信号分组为多个下混频信号组。在另一实施例中,该装置仅使用编码音频信号内的信息对下混频信号进行分组。在一个实施例中,使用编码音频信号的比特流内的信息包括考虑相关信息或协方差信息。特别地,分组器从编码音频信号中提取关于不同输入音频对象之间的关系的信息。
在一个实施例中,分组器被配置为基于所述编码音频信号内的bsRelatedTo值将所述多个下混频信号分组为所述多个下混频信号组。关于这些值,例如参考WO 2011/039195 A1。
根据一个实施例,分组器被配置为通过(向每个下混频信号组)应用至少以下步骤将多个下混频信号分组为多个下混频信号组:
·检测下混频信号是否被指派给现有的下混频信号组;
·检测与下混频信号相关联的多个输入音频对象中的至少一个输入音频对象是否是与现有的下混频信号组相关联的输入音频对象集合的一部分;
·在下混频信号与向现有下混频信号组的指派无关的情况下(因此,下混频信号尚未分配给组),以及在与下混频信号相关联的多个输入音频对象中的所有输入音频对象与现有下混频信号组没有关联的情况下(因此,下混频信号的输入音频对象尚未(经由不同的下混频信号)指派给组),将下混频信号指派给新的下混频信号组;以及
·在下混频信号被指派给现有下混频信号组的情况下,或者在与下混频信号相关联的多个输入音频对象中的至少一个输入音频对象与现有下混频信号组相关联的情况下,将下混频信号与现有下混频信号组进行组合。
如果还考虑了在编码音频信号中信号通知的关系,则将添加另一检测步骤,导致对指派和组合下混频信号的附加要求。
根据实施例,处理器被配置为对每个输入音频对象集合(或每个下混频信号组)的对象参数(Ek)单独执行各种处理步骤,以提供单独矩阵来作为组结果。组合器被配置为组合该单独矩阵以提供所述解码音频信号。对象参数(Ek)属于索引为k的相应下混频信号组中的输入音频对象,并被处理以获得该索引为k的组的单独矩阵。
根据不同实施例,处理器被配置为对所述多个下混频信号组中的每个下混频信号组单独执行各种处理步骤,以提供输出音频信号来作为组结果。组合器被配置为组合输出音频信号,以提供所述解码音频信号。
在该实施例中,下混频信号组被处理为使得可获得与属于相应下混频信号组的输入音频对象对应的输出音频信号。因此,将输出音频信号组合到解码音频信号接近对编码音频信号执行的解码处理的最后步骤。因此,在本实施例中,每个下混频信号组单独经历检测下混频信号组之后的所有处理步骤。
在不同的实施例中,处理器被配置为对所述多个下混频信号组中的每个下混频信号组单独执行至少一个处理步骤,以提供已处理信号来作为组结果。装置还包括后置处理器,后置处理器被配置为对所述已处理信号进行联合处理,以提供输出音频信号。组合器被配置为将输出音频信号组合为已处理组结果,以提供所述解码音频信号。
在该实施例中,下混频信号组单独经受至少一个处理步骤,并与其他组联合经受至少一个处理步骤。在一个实施例中,单独处理产生被联合处理的已处理信号。
参考矩阵,在一个实施例中,处理器被配置为对每个输入音频对象集合的对象参数(Ek)单独执行至少一个处理步骤,以提供单独矩阵。该装置所包括的后置处理器被配置为对对象参数进行联合处理,以提供至少一个整体矩阵。组合器被配置为组合所述单独矩阵和所述至少一个整体矩阵。在一个实施例中,后置处理器对单独矩阵联合执行至少一个处理步骤,以获得至少一个整体矩阵。
以下实施例涉及由处理器执行的处理步骤。这些步骤中的一些也适用于前述实施例中所述的后置处理器。
在一个实施例中,处理器包括解混频器,解混频器被配置为所述多个下混频信号组中的相应组的下混频信号进行解混频。通过解混频下混频信号,处理器获得被下混频为下混频信号的原始输入音频对象的表示。
根据实施例,解混频器被配置为基于最小均方误差(MMSE)算法来解混频所述多个下混频信号组中各个下混频信号组的下混频信号。这样的算法将在随后的描述中进行说明。
在不同的实施例中,其中,处理器包括解混频器,解混频器被配置为单独处理每个输入音频对象集合的对象参数,以提供单独的解混频矩阵。
在一个实施例中,处理器包括计算器,计算器被配置为针对每个下混频信号矩阵组单独进行计算,该每个下混频信号矩阵组的大小取决于以下至少一项:与相应下混频信号组相关联的输入音频对象集合的输入音频对象的数量,以及属于相应下混频信号组的下混频信号的数量。由于下混频信号组小于下混频信号的整个合集,并且由于下混频信号组指代较小数量的输入音频信号,用于处理下混频信号组的矩阵小于最新技术中使用的矩阵。这有利于计算。
根据实施例,计算器被配置为基于相应的下混频信号组内的最大能量值来针对单独的解混频矩阵计算单独的阈值。
根据实施例,单独针对每个下混频信号组,处理器被配置为基于相应下混频信号组内的最大能量值来计算单独的阈值。
在一个实施例中,计算器被配置为:针对用于对每个下混频信号组的下混频信号进行解混频的正则化步骤,基于相应下混频信号组内的最大能量值来计算单独的阈值。在不同的实施例中,下混频信号组的阈值由解混频器自身计算。
以下的讨论将显示针对组(每组一个阈值)而不是针对所有下混频信号来计算阈值的有趣效果。
根据一个实施例,处理器包括渲染器,渲染器被配置为针对所述解码音频信号的输出情况来渲染相应组的解混频的下混频信号,以提供渲染信号。渲染基于听众提供的输入或基于与实际输出情况有关的数据。
在一个实施例中,处理器包括被配置为处理对象参数以提供至少一个渲染矩阵的渲染器。
在一个实施例中,处理器包括配置为处理对象参数以提供至少一个解相关矩阵的后置混频器。
根据实施例,处理器包括后置混频器,后置混频器配置为对所述已渲染信号执行至少一个解相关步骤,并且被配置为将所执行的解相关步骤的结果(Ywet)与所述相应的渲染信号(Ydry)组合。
根据实施例,处理器被配置为针对每个下混频信号组确定单独的下混频矩阵(Dk)(k为相应组的索引),处理器被配置为确定针对每个下混频信号组的单独的组协方差矩阵(Ek),处理器被配置为基于单独的下混频矩阵(Dk)和单独的组协方差矩阵(Ek)来针对每个下混频信号组确定单独的组下混频协方差矩阵(Δk),且处理器被配置为针对每个下混频信号组确定单独的正则化逆组矩阵(Jk)。
根据实施例,组合器被配置为组合单独的正则化逆组矩阵(Jk)以获得整体正则化逆组矩阵(J)。
根据实施例,处理器被配置为基于单独的下混频矩阵(Dk)、单独的组协方差矩阵(Ek)和单独的正则化逆组矩阵(Jk)来针对每个下混频信号组确定单独的组参数化解混频矩阵(Uk),且组合器被配置为组合单独的组参数化解混频矩阵(Uk)以获得整体组参数化解混频矩阵(U)。
根据实施例,处理器被配置为基于单独的下混频矩阵(Dk)、单独的组协方差矩阵(Ek)和单独的正则化逆组矩阵(Jk)来针对每个下混频信号组确定单独的组参数化解混频矩阵(Uk),且组合器被配置为组合单独的组参数化解混频矩阵(Uk)以获得整体组参数化解混频矩阵(U)。
根据实施例,处理器被配置为针对每个下混频信号组确定单独的组渲染矩阵(Rk)。
根据实施例,处理器被配置为基于单独的组渲染矩阵(Rk)和单独的组参数化解混频矩阵(Uk)来针对每个下混频信号组确定单独的上混频矩阵(RkUk),且组合器被配置为组合单独的上混频矩阵(RkUk)以获得整体上混频矩阵(RU)。
根据实施例,处理器被配置为基于单独的组渲染矩阵(Rk)和单独的组协方差矩阵(Ek)来针对每个下混频信号组确定单独的组协方差矩阵(Ck),且组合器被配置为组合单独的组协方差矩阵(Ck)以获得整体组协方差矩阵(C)。
根据实施例,处理器被配置为基于单独的组渲染矩阵(Rk)、单独的组参数化解混频矩阵(Uk)、单独的下混频矩阵(Dk)和单独的组协方差矩阵(Ek)来确定参数方式估计信号(Ey dry)k的单独的组协方差矩阵,并组合器被配置为组合参数方式估计信号(Ey dry)k的单独的组协方差矩阵以获得整体参数方式估计信号Ey dry
根据实施例,处理器被配置为基于下混频协方差矩阵(EDMX)的奇异值分解来确定正则化逆矩阵(J)。
根据实施例,处理器被配置为:通过选择与向相应下混频信号组(索引为k)指派的下混频信号(m,n)相对应的元素(Δ(m,n))来确定用于确定参数化解混频矩阵(U)的子矩阵(Δk)。每个下混频信号组覆盖指定数量的下混频信号和相关联的输入音频对象集合,且在此由索引k来表示。
根据本实施例,通过从属于相应组k的下混频协方差矩阵Δ选择或选取元素来获得单独的子矩阵(Δk)。
在一个实施例中,单独的子矩阵(Δk)被单独地求逆,且结果被组合到正则化逆矩阵(J)中。
在不同的实施例中,利用单独的下混频矩阵(Dk),子矩阵(Δk)是使用其定义Δk=DkEkDk 来获得的。
根据实施例,组合器被配置为基于针对每个下混频信号组单独确定的矩阵来确定后置混频矩阵(P),且组合器被配置为将后置混频矩阵(P)应用于多个下混频信号以获得解码音频信号。在本实施例中,根据对象参数计算后置混频矩阵,后置混频矩阵被应用于编码音频信号以获得解码音频信号。
根据一个实施例,该装置及其相应组件被配置为针对每个下混频信号组单独执行以下计算中的至少一个:
·计算大小为NkxNk的组协方差矩阵Ek,元素为:
Figure GDA0002545349560000091
·计算大小为MkxMk的组下混频协方差矩阵Δk:Δk=DkEkDk *
·计算组下混频协方差矩阵Δk=DkEkDk*的奇异值分解:Δk=VkΛkVk *
·计算近似于
Figure GDA0002545349560000101
的正则化逆组矩阵Jk
Figure GDA0002545349560000102
包括计算单独的矩阵Λinv k(详细情况将在下面提供),
·计算大小为NkxMk的组参数化解混频矩阵Uk
Uk=EkDk Jk
·将大小为NUpmixxNk的组渲染矩阵Rk与大小为NkxMk的的解混频矩阵Uk相乘:RkUk
·计算大小为Noutx Nout的组协方差矩阵Ck:Ck=RkEkRk
·计算大小为Noutx Nout的参数方式估计信号(Ey dry)k的组协方差:
Figure GDA0002545349560000103
在这方面,k表示相应下混频信号组的组索引,Nk表示相关联的输入音频对象集合的输入音频对象的数量,Mk表示属于相应下混频信号组的下混频信号的数量,且Nout表示被上混频或渲染的输出声道的数量。
计算出的矩阵在大小上小于最新技术中使用的矩阵。因此,在一个实施例中,对下混频信号组单独执行尽可能多的处理步骤。
本发明的目的还通过用于处理编码音频信号的对应方法来实现。编码音频信号包括与多个输入音频对象和对象参数相关联的多个下混频信号。该方法包括如下步骤:
·将下混频信号分组为与多个输入音频对象的输入音频对象集合相关联的多个下混频信号组,
·对每个输入音频对象集合的对象参数单独执行至少一个处理步骤,以提供组结果,以及
·组合所述组结果以提供解码音频信号。
利用至少以下限制来执行分组:多个输入音频对象中的每个输入音频对象仅仅属于一个输入音频对象集合。
上述装置的实施例也可以通过方法的步骤和方法的对应实施例来执行。因此,对于该装置的实施例的说明也适用于该方法。
附图说明
以下将关于附图和附图中描绘的实施例来说明本发明,其中:
图1示出基于MMSE的参数化下混频/上混频概念的概述,
图2示出在渲染输出上应用解相关的参数化重建系统,
图3示出下混频处理器的结构,
图4示出五个输入音频对象的频谱图(左侧的列)和对应的下混频声道的频谱图(右侧的列),
图5示出参考输出信号的频谱图(左侧的列)和对应的SAOC 3D解码和渲染输出信号的频谱图(右侧的列),
图6示出使用本发明的SAOC 3D输出信号的频谱图,
图7示出根据最新技术的帧参数处理,
图8示出根据本发明的帧参数处理,
图9示出组检测功能的实现的示例,
图10示意性地示出用于编码输入音频对象的装置,
图11示意性地示出用于处理编码音频信号的创造性装置的示例,
图12示意性地示出用于处理编码音频信号的创造性装置的不同示例,
图13示出创造性方法的实施例的一系列步骤,
图14示意性地示出创造性装置的示例,
图15示意性地示出装置的另一示例,
图16示意性地示出了创造性装置的处理器,以及
图17示意性地示出创造性装置的应用。
具体实施方式
以下将使用MPEG空间音频对象编码(SAOC)技术([SAOC])和MPEG-H 3D Audio([SAOC3D,SAOC3D2])的SAOC 3D处理部分的示例来提供参数化分离方案的概述。考虑这些方法的数学属性。
使用以下数学符号:
N 输入音频对象(备选地:输入对象)的数量
Ndmx 下混频(传输)声道的数量
Nout 上混频(渲染)声道的数量
Nsamples 每个音频信号的采样数量
D 下混频矩阵,大小为NdmxxN
S 输入音频对象信号,大小为Nx Nsamples
E 对象协方差矩阵,大小为NxN,近似E≈SS*X
X 下混频音频信号,大小为Ndmxx Nsamples,被定义为X=DS
EDMx 下混频信号的协方差矩阵,大小为NdmxxNdmx,被定义为EDMX=DED
U 参数化源估计矩阵,大小为Nx Ndmx,其近似于U≈ED(DED)-1
R 渲染矩阵(在解码器侧指定),大小为NoutxN
Figure GDA0002545349560000122
参数方式重建对象信号,大小为Nx Nsamples,其近似于S,并被定义为
Figure GDA0002545349560000121
Ydry 参数方式重建和渲染对象信号,大小为Noutx Nsamples,被定义为Ydry=RUX
Ywet 解相关器输出,大小为Noutx Nsamples
Y 最终输出,大小为Noutx Nsamples
(·)* 自共轭(Hermitian)运算符,其表示(·)的共轭转置
Fdecorr(·) 解相关器函数
不失一般性,为了提高等式的可读性,对于所有引入的变量,省略表示时间和频率相依性的指数。
参数化对象分离系统:
通用参数化分离方案旨在使用辅助参数化信息从信号混频物(下混频)估计多个音频源。该课题的典型解决方案基于最小均方误差(MMSE)估计算法的应用。SAOC技术是为这种参数化音频编码系统的一个示例。
图1描绘SAOC编码器/解码器架构的一般性原理。
一般的参数化下混频/上混频处理是通过时间/频率选择性方式来执行的,且其可被描述为以下步骤的序列:
·向“编码器”提供输入的“音频对象”和“混频参数”。“混频器”使用“混频参数”(例如,下混频增益)将“音频对象”下混频为多个“下混频”信号。
·“边信息估计器”提取描述输入的“音频对象”的特性(例如,协方差属性)的边信息。
·发送或存储“下混频”信号和边信息。可以使用音频编解码器(例如,MPEG-1/2第II层或第III层、MPEG-2/4高级音频编码(AAC)、MPEG统一语音及音频编码(USAC)等)对这些下混频音频信号进行进一步的压缩。也可以高效地表示并编码边信息(例如,作为对象功率(object power)与对象相关性系数的编码关系)。
“解码器”使用所发送的边信息(该信息提供对象参数)从解码的“下混频信号”恢复原始的“音频对象”。“边信息处理器”估计要在“参数化对象分离器”内应用到“下混频信号”的解混频系数,以获得S的参数化对象重构。通过应用“渲染参数”R,将重建的“音频对象”渲染到由输出声道Y表示的(多声道)目标场景。
在SAOC 3D处理中应用相同的一般原理和顺序步骤,该SAOC 3D处理包含附加的解相关路径。
图2提供具有一体化解相关路径的参数化下混频/上混频概念的概述。
使用SAO 3D技术(MPEG-H 3D Audio的一部分)的示例,这种参数化分离系统的主要处理步骤可以归纳如下:
SAOC 3D解码器将修改后的渲染输出Y产生为参数方式重建和渲染信号(干信号)Ydry与解相关版本(湿信号)Ywet的混频物。
可以如图3所示地对针对本发明相关讨论的处理步骤进行区分:
·解混频,其使用矩阵U以参数方式重建输入音频对象,
·使用渲染信息(矩阵R)进行渲染,
·解相关
·使用矩阵P进行后置混频,矩阵P是基于比特流中包含的信息计算的。
基于附加边信息,使用解混频矩阵U从下混频信号X获得参数化对象分离:
Figure GDA0002545349560000131
渲染信息R用于如下获得干信号:
Figure GDA0002545349560000132
根据信号Ydry和Ywet将最终的输出信号Y计算为
Figure GDA0002545349560000133
例如基于渲染信息、相关性信息、能量信息、协方差信息等来计算混频矩阵P。
在本发明中,将会将后置混频矩阵应用于编码音频信号,以获得解码音频信号。
随后将说明使用MMSE的公共参数化对象分离操作。
使用最小均方误差(MMSE)估计算法,基于从比特流中包含的变量(例如,下混频矩阵D和协方差信息E)导出的信息来获得解混频矩阵U:U=ED*J。
大小为Ndmxx Ndmx的矩阵J表示对下混频协方差矩阵EDMX=DED*的伪逆的近似,如下:J≈EDMX -1
矩阵J的计算是根据以下公式导出的:J=VΛinvV*,
其中,使用矩阵EDMX的奇异值分解(SVD)将矩阵V和Λ确定为:EDMX=VΛV*
要注意,可使用不同的分解方法获得类似的结果,例如:特征值分解、Schur分解等。
例如,如在SAOC 3D中进行的一样,可以使用相对于最高奇异值的奇异值截断来确定用于对角奇异值矩阵Λ的正则化逆运算(·)inv
Figure GDA0002545349560000141
在不同的实施例中,使用以下公式:
Figure GDA0002545349560000142
使用绝对阈值Treg和Λ的最大值将相对正则化标量
Figure GDA0002545349560000143
确定为
Figure GDA0002545349560000144
其中,例如Treg=10-2
根据奇异值的定义,λi,i可仅限于正值(如果λi,i<0则λi,i=abs(λi,i),且将sign(λi,i)与对应的左或右奇异向量相乘),或可以允许负值。
在λi,i为负值的第二种情况下,相对正则化标量
Figure GDA0002545349560000151
计算为:
Figure GDA0002545349560000152
为了简单起见,随后将使用
Figure GDA0002545349560000154
的第二定义。
可以使用相对于绝对值的奇异值截断或用于矩阵求逆的其他正则化方法来获得类似的结果。
对非常小的奇异值的求逆可能导致非常高的解混频系数,且因此导致对应下混频声道的较高放大。在这种情况下,可以使用高增益来放大具有非常小能量级的声道,并且这可能导致可听见的伪像。为了减小这种不良影响,小于相对阈值
Figure GDA0002545349560000153
的奇异值被截断为零。
现在,解释了在最新技术的参数化对象分离技术中发现的缺陷。
所描述的最新技术的参数化对象分离方法规定使用下混频协方差矩阵的正则化求逆,以避免分离伪像。然而,对于一些真实用例混频场景,在系统的输出中识别由太激进的正则化引起的有害伪像。
在下文中,构建和分析这种情况的示例。
使用所描述的技术(更准确地说,MPEG-H 3D Audio的SAOC 3D处理部分的方法)将N=5个输入音频对象(S)编码为Ndmx=3个下混频声道(X)。
该示例的输入音频对象可以包括:
·一组两个相关的音频对象,包含来自音乐伴奏的信号(立体声对的左声道和右声道),
·一组一个独立的音频对象,包含一个语音信号,以及
·一组两个相关的音频对象,包含钢琴记录(立体声对的左声道和右声道)。
输入信号被下混频为三组传输声道:
·组G1,具有M1=1个下混频声道,包含第一组对象,
·组G2,具有M2=1个下混频声道,包含第二组对象,以及
·组G3,具有M3=1个下混频声道,包含第三组对象,
使得Ndmx=M1+M2+M3.
使用酉(unitary)混频增益构建对应于每个组Gk(其中,k=1,2,3)的下混频矩阵Dk,并且完整的下混矩阵D由下式给出:
Figure GDA0002545349560000161
其中
Figure GDA0002545349560000162
可以注意到,具有前两个对象信号的组、第三个对象信号以及具有最后两个对象信号的组之间不存在交叉混频。还要注意,包含语音的第三个对象信号被单独混频到一个下混频声道中。因此,该对象的良好重建是所期望的,且因此也是良好的渲染。输入信号和所获得的下混频信号的频谱图在图4中示出。
这里省略了在实际系统中使用的可能的下混频信号核心编码,以便更好地概括出不期望的效果。在解码器侧,SAOC 3D参数化解码被用于重建音频对象信号并将音频对象信号渲染为3声道设置(Nout=3):左声道(L)、中央声道(C)和右声道(R)。
随后将使用示例的输入音频对象的简单重新混频:
·前两个音频对象(音乐伴奏)被静音(即,以增益0来渲染),
·将第三个输入对象(语音)渲染到中央声道,以及
·将对象4渲染到左声道,且将对象5渲染到右声道。
因此,使用的渲染矩阵由下式给出:
Figure GDA0002545349560000163
其中:
Figure GDA0002545349560000164
Figure GDA0002545349560000165
可以通过将指定的渲染矩阵直接应用于输入信号来计算参考输出:Yref=RS。
参考输出的频谱图和来自SAOC 3D解码和渲染的输出信号的频谱图由图5的两列示出。
从所示出的SAOC 3D解码器输出的频谱图可以看出以下观察:
·与参考信号相比,仅包含语音信号的中央声道被严重损坏。可以注意到较大的频谱空洞。这些频谱空洞(是缺失能量的时间-频率区域)导致严重的可听见的伪像。
·左声道和右声道中也存在小的频谱间隙,特别是在大多数信号能量集中的低频区域中。此外,这些频谱间隙会导致可听见的伪像。
·在下混频声道中没有对象组的交叉混频,即在一个下混频声道中混频的对象不存在于任何其它下混频声道中。第二个下混频声道只包含一个对象(语音);因此,系统输出中的频谱间隙可以仅因为其被与其它下混频声道一起处理而生成。
根据上述观察,可以得出结论:
·SAOC 3D系统不是“直通”系统,即如果一个输入信号单独混频到一个下混频声道中,则在解码和渲染中应该保留该输入信号的音频质量。
·由于对多声道下混频信号的处理,SAOC 3D系统可能会引入可听见的伪像。包含在一组下混频声道中的对象的输出质量取决于对其余下混频声道的处理。
频谱间隙(特别是中央声道中的频谱间隙)指示下混频声道中包含的一些有用信息被处理所丢弃。这种信息丢失可以追溯到参数化对象分离步骤,更准确地,追溯到下混频协方差矩阵逆正则化步骤。
通过定义,该示例中的下混频矩阵具有块对角线结构:
Figure GDA0002545349560000171
此外,由于输入对象之间的指定关系(例如,参数化相关性的信号通知),解码器中可用的输入对象信号协方差矩阵也具有块对角线结构:
Figure GDA0002545349560000172
因此,下混频协方差矩阵可以通过块对角线形式来表示:
Figure GDA0002545349560000181
在这种情况下,矩阵EDMX已经是块对角线的,但是对于一般情况,可以在使用置换运算符Φ的行/列置换之后获得其块对角线形式:
Figure GDA0002545349560000182
置换运算符Φ被定义为通过置换单位矩阵的行而获得的矩阵。如果可以通过置换行和列来以块对角线的形式表示对称矩阵A,则可以使用置换运算符将所得到的矩阵
Figure GDA0002545349560000183
表示为:
Figure GDA0002545349560000184
如果Φ是置换运算符,则以下属性成立:
·首先,如果V是酉矩阵,则T=ΦV也是酉矩阵,以及
·其次,ΦΦ=Φ*Φ=I,I是单位矩阵。
因此,置换运算符对于奇异值分解算法而言是透明的。这意味着原始矩阵A和置换矩阵
Figure GDA0002545349560000185
共享相同的奇异值和置换后的奇异向量:
Figure GDA0002545349560000186
其中T=ΦV
由于块对角线表示,可以通过将SVD应用于矩阵EDMX或通过将SVD应用于块对角子矩阵EDMX k并将结果组合来计算矩阵EDMX的奇异值:
Figure GDA0002545349560000187
其中
Figure GDA0002545349560000188
Λ1=[λ1,12=[λ2,2]以及Λ3=[λ3,3]
由于下混频协方差矩阵的奇异值与下混频声道的能量水平(由矩阵EDMX的主对角线描述)直接相关:
Figure GDA0002545349560000189
且包含在一个声道中的对象并未包含在任何其它下混频声道中,可以得出每个奇异值对应于一个下混频声道的结论。
因此,如果下混频声道之一的能量水平比其余的下混频声道小得多,则与该声道相对应的奇异值将远小于其余的奇异值。
在包含矩阵EDMX的奇异值的矩阵求逆中使用的截断步骤:
Figure GDA0002545349560000191
或者
Figure GDA0002545349560000192
可以导致截断与(相对于具有最高能量的下混频声道)具有较小能量水平的下混频声道对应的奇异值。因此,丢弃该下混频声道中存在的具有较小相对能量的信息,并且生成在频谱图和音频输出中观察到的频谱间隙。
为了更好地理解,必须考虑针对每个采样并针对每个频带分别发生输入音频对象的下混频。特别是分离成不同的频带有助于理解为什么可在不同频率处在输出信号的频谱图中找到间隙。
可将认识到的问题孤立到以下事实:针对奇异值计算相对正则化阈值,而不考虑要求逆的矩阵是否是块对角线的:
Figure GDA0002545349560000193
每个块对角矩阵对应于一个独立下混频声道组。关于最大的奇异值来实现截断,但该值仅描述一组声道。因此,在所有独立的下混频声道组中包含的对象的重建变为取决于包含该最大奇异值的组。
在下文中,将基于上述关于最新技术的实施例来说明本发明:
考虑到上述示例,三个协方差矩阵可以与三个不同的下混频声道Gk(其中,1≤k≤3)组相关联。包含在每个组的下混频声道中的音频对象或输入音频对象未被包含在任何其他组中。此外,在来自不同组的下混频声道中包含的对象之间没有对关系(例如,相关性)进行信号通知。
为了解决认识到的参数化重建系统的问题,该创造性的方法提出了针对每个组独立地应用正则化步骤。这意味着为三个独立的下混频协方差矩阵的求逆计算三个不同的阈值:
Figure GDA0002545349560000201
其中1≤k≤3。因此,在本发明中,在一个实施例中,针对每个组分别地计算这样的阈值,而不是像在最新技术中一样针对相应频带和采样计算一个整体阈值。
通过对子矩阵EDMX k(其中,1≤k≤3)独立应用正则化,相应地获得奇异值的求逆:
Figure GDA0002545349560000202
在不同的实施例中,使用以下公式:
Figure GDA0002545349560000203
针对在先前部分中讨论的示例在其他相同的SAOC 3D系统中使用所提出的创造性方法,解码和渲染输出的音频输出质量得到改善。所得到的信号在图6中示出。
比较图5和图6的右侧的列中的频谱图,可以观察到本创造性的方法解决了所认识到的现有技术参数化分离系统中的问题。本创造性的方法确保了系统的“直通”特征,且最重要的是消除了频谱间隙。
所描述的用于处理三个独立的下混频声道组的解决方案可以容易地被推广到任何数量的组。
本创造性的方法提出通过在下混频信号协方差矩阵的求逆中利用分组信息来修改参数化对象分离技术。这导致音频输出质量的显着改善。
可以例如根据解码器中已经可用的混频和/或相关性信息来获得分组,而无需附加的信令。
更准确地说,在一个实施例中,通过在该示例中具有以下两个属性的最小下混频信号集合来定义一个组:
·首先,这些下混频声道中包含的输入音频对象未包含在任何其他下混频声道中。
·其次,包含在一个组的下混频声道中的所有输入信号与在任何其他组的下混频声道中包含的任何其他输入信号无关(例如,在编码音频信号内没有信号通知相互关系)。这种相互关系意味着在解码期间对相应音频对象的组合处理。
基于所引入的组定义,可以定义K个(1≤K≤Ndmx)组:Gk(1≤k≤K),且可以通过应用置换运算符Φ来使用块对角线形式表示下混频协方差矩阵EDMX
Figure GDA0002545349560000211
通过选择与独立的组Gk相对应的下混频协方差矩阵的元素来构建子矩阵EDMX k。针对每个组Gk,使用SVD将大小为MkxMk的矩阵EDMX k表示为:EDMX k=VkΛkVk*
其中:
Figure GDA0002545349560000212
以及
Figure GDA0002545349560000213
矩阵EDMX k的伪逆被计算为(EDMX k)-1=VkΛinv kVk ,其中,在一个实施例中将通过以下方式提供正则化逆矩阵Λinv k
Figure GDA0002545349560000214
且在不同的实施例中通过以下方式提供:
Figure GDA0002545349560000215
使用绝对阈值Treg和Λk的最大值将相对正则化标量
Figure GDA0002545349560000216
确定为
Figure GDA0002545349560000217
其中,例如Treg=10-2
已置换的下混频协方差矩阵
Figure GDA0002545349560000221
的求逆如下获得:
Figure GDA0002545349560000222
且通过应用逆置换操作来计算下混频协方差矩阵的求逆:
Figure GDA0002545349560000223
此外,在一个实施例中,本创造性方法提出了完全基于比特流中包含的信息来确定组。例如,可以通过下混频信息和相关性信息来提供该信息。
更准确地说,由具有以下属性的最小下混频声道集合来定义一个组Gk
·组Gk的下混频声道中包含的输入音频对象未包含在任何其他下混频声道中。输入音频对象未包含在下混频声道中,例如,如果通过最小量化索引给出对应的下混频增益,或者如果其等于零。
·包含在组Gk的下混频声道中的所有输入信号i与任何其他组的任何下混频声道中包含的任何输入信号j无关。例如(比较例如WO 2011/039195 A1),可使用比特流变量bsRelatedTo[i][j]来信号通知两个对象是否相关(bsRelatedTo[i][j]==1)或者它们是否不相关(bsRelatedTo[i][j]==0)。例如,也可以基于相关性或协方差信息来使用信号通知两个对象相关的不同方法。
组可被针对所有处理频带每帧确定一次或者每参数集确定一次,或者针对每个处理频带每帧确定一次或者每参数集确定一次。
在一个实施例中,该创造性的方法还允许通过在计算最昂贵的参数化处理组件中利用分组信息来显著地降低参数化分离系统(例如,SAOC 3D解码器)的计算复杂度。
因此,该创造性的方法提出去除对最终输出音频质量没有贡献的计算。可以基于分组信息来选择这些计算。
更准确地,该创造性的方法提出针对每个预定组独立地计算所有参数处理步骤,并在最后对结果进行组合。
使用MPEG-H 3D Audio的SAOC 3D处理部分的示例,计算上复杂的操作由下式给出:
·计算大小为NxN的组协方差矩阵E,元素为:
Figure GDA0002545349560000231
·计算大小为Ndmxx Ndmx的下混频信号协方差矩阵Δ:Δ=DED*,
·计算矩阵Δ=DED*的奇异值分解:Δ=VΛV*
·计算近似于J≈Δ-1的正则化逆矩阵J:J=VΛinvV*
·计算大小为Nx Ndmx的参数化解混频矩阵U:U=ED*J,
·将大小为NoutxN的渲染矩阵R与大小为Nx Ndmx的解混频矩阵U相乘:RU,
·计算大小为NoutxNout的协方差矩阵C:C=RER*,
·计算大小为NoutxNout的参数方式估计信号Ey dry的协方差:
Figure GDA0002545349560000232
对象级差异(OLD)指代一个对象相对于在某个时间和频带内具有最大能量的对象的相对能量,且对象间互相干性(IOC)描述两个对象在某个时间和频带内的相似性或互相关性的量。
该创造性的方法提出通过以下方式降低计算复杂度:针对所有预定K个组Gk(其中,1≤k≤K)独立地计算所有的参数化处理步骤,且在参数处理结束时对结果进行组合。
一个组Gk包含Mk个下混频声道和Nk个输入音频对象,使得
Figure GDA0002545349560000233
以及
Figure GDA0002545349560000234
针对每个组Gk,通过选择下混频矩阵D的与下混频声道和由组Gk包含的输入音频对象相对应的元素,将组下混频矩阵定义为Dk
类似地,通过选择与组Gk包含的输入音频对象相对应的行,从渲染矩阵R中获得组渲染矩阵Rk
类似地,通过选择与组Gk包含的输入音频对象相对应的元素,从向量OLD和矩阵IOC中获得组向量OLDk和组矩阵IOCk
针对每个组Gk,如下将所描述的处理步骤替换为计算上更少的处理步骤:
·计算大小为NkxNk的组协方差矩阵Ek,元素为:
Figure GDA0002545349560000241
·计算大小为MkxMk的组下混频协方差矩阵Δk:Δk=DkEkDk *
·计算组下混频协方差矩阵Δk=DkEkDk 的奇异值分解:Δk=VkΛkVk *
·计算近似于
Figure GDA0002545349560000246
的正则化逆组矩阵Jk
Figure GDA0002545349560000242
·计算大小为Nkx Mk的组参数化解混频矩阵Uk:Uk=EkDk *Jk
·将大小为NUpmixxNk的组渲染矩阵Rk与大小为Nkx Mk的的解混频矩阵Uk相乘:RkUk
·计算大小为Noutx Nout的组协方差矩阵Ck:Ck=RkEkRk *
·计算大小为Noutx Nout的参数方式估计信号(Ey dry)k的组协方差:
Figure GDA0002545349560000243
且最后组合各个组处理步骤的结果:
·通过合并组矩阵RkUk获得大小为Noutx Ndmx的上混频矩阵RU:RU=[R1U1 R2U2 …RKUK],
·通过对组矩阵Ck进行求和来获得大小为NoutxNout的协方差矩阵C:
Figure GDA0002545349560000244
·通过对组矩阵(Ey dry)k进行求和来获得大小为NoutxNout的参数方式估计信号Ey dry的协方差:
Figure GDA0002545349560000245
总结根据图3中所示下混频处理器的结构的处理步骤,在省略解相关步骤的同时,现有技术帧参数处理可如图7所示。
使用所提出的创造性的方法,使用如图8所示的组检测来降低计算复杂度。
使用ANSI C代码和静态函数“getSaocCoreGroups()”,在图9中给出了组检测功能的实现示例,称为:[K,Gk]=groupDetect(D,RelatedTo)。
与在不进行分组的情况下执行操作相比,所提出的创造性方法证明了在计算上效率要高很多。它还允许更好的存储器分配和使用,支持计算并行化,减少数字错误累积等。
所提出的创造性方法和所提出的创造性装置解决了最新技术参数化对象分离系统的现有问题,并提供明显更高的输出音频质量。
所提出的创造性方法描述了完全基于现有比特流信息实现的组检测方法。
所提出的创造性分组解决方案导致计算复杂度的显著降低。一般来说,奇异值分解在计算上是昂贵的,并且其复杂度随着要求逆的矩阵的大小呈指数增长:
Figure GDA0002545349560000251
对于大量的下混频声道,针对较小大小的矩阵计算K次SVD操作在计算上更高效:
Figure GDA0002545349560000252
使用相同的考虑,可以通过仅对独立的组进行系统中描述的所有矩阵乘法并对结果进行组合来高效地实现解码器中的所有参数处理步骤。
在下表中给出了针对不同数量的输入音频对象(即,输入音频对象、下混频声道和固定数量的24个输出声道)的复杂度降低估计:
Figure GDA0002545349560000253
Figure GDA0002545349560000261
本发明呈现以下附加优点:
·对于只能创建一个组的情况,输出与最新技术系统是比特相同的。
·分组保留了系统的“直通”特征。这意味着如果一个输入音频对象单独混频到一个下混频声道中,则解码器能够完美地重建它。
本发明导致对标准文本的以下提出的示例性修改。
加入“9.5.4.2.4正则化求逆操作”:
近似于J≈Δ-1的正则化逆矩阵J被计算为J=VΛinvV*
如下将矩阵V和Λ确定为矩阵Δ的奇异值分解:Δ=VΛV*
根据9.5.4.2.5计算对角奇异值矩阵Λ的正则化逆矩阵Λinv
在矩阵Δ被用于参数化解混频矩阵U的计算的情况下,针对所有子矩阵Δk应用所描述的操作。通过选择与指派给组k的下混频声道m和n相对应的元素Δ(m,n)来获得子矩阵Δk
由具有以下属性的最小下混频声道集合来定义组k:
·组k的下混频声道中包含的输入信号未包含在任何其他下混频声道中。如果对应的下混频增益由最小的量化指标给出(ISO/IEC 23003-2:2010的表49),则下混频声道中不包含输入信号。
·包含在组k的下混频声道中的所有输入信号i与任何其他组的任何下混频声道中包含的任何输入信号无关(即,bsRelatedTo[i][j]==0)。
对独立正则化求逆操作
Figure GDA0002545349560000262
的结果进行组合,以获得矩阵J。
本发明还导致对标准文本的以下提出的示例性修改。
9.5.4.2.5正则化求逆操作
近似于J≈Δ-1的正则化逆矩阵J计算如下:
J=VΛinvV*
矩阵V和V被如下确定为矩阵Δ的奇异值分解:
VΛV=Δ。
根据9.5.4.2.6计算对角奇异值矩阵Λ的正则化逆矩阵Λinv
在矩阵Δ被用于参数解混频矩阵U的计算的情况下,所描述的操作适用于所有子矩阵Δ。通过选择与指派给组gq的下混频声道ch1和ch2(即,gq(idx1)=ch1且gq(idx2)=ch2)相对应的元素Δ(ch1,ch2)来获得大小声
Figure GDA0002545349560000271
的子矩阵Δq,其中,元素为Δq(idx1,idx2)。
大小为
Figure GDA0002545349560000272
的组gq由具有以下属性的最小下混频声道集合来定义:
·组gq的下混频声道中包含的输入信号未包含在任何其他下混频声道中。如果对应的下混频增益由最小的量化指标给出(ISO/IEC 23003-2:2010的表49),则下混频声道中不包含输入信号。
·包含在组gq的下混频声道中的所有输入信号i与任何其他组的任何下混频声道中包含的任何输入信号j无关(即,bsRelatedTo[i]Ij]==0)。
将独立正则化求逆操作
Figure GDA0002545349560000273
的结果进行组合以如下获得矩阵J:
Figure DA00025453495639317
9.5.4.2.6奇异值的正则化
用于对角奇异值矩阵Λ的正则化逆运算(·)inv被确定为:
Figure GDA0002545349560000276
使用绝对阈值Treg和Λ的最大值将相对正则化标量
Figure GDA0002545349560000277
确定为:
Figure GDA0002545349560000278
其中,Treg=10-2
在随后的一些图中,各个信号被示出为从不同的处理步骤获得。这是做为了更好地理解本发明,并且这是实现本发明的一种可能性,即提取各个信号并对这些信号或已处理的信号执行处理步骤。
另一实施例是计算所有必要的矩阵并且作为最后一步将它们应用于编码音频信号,以获得解码音频信号。这包括计算不同矩阵及其各自组合。
实施例组合了两种方式。
图10示意性地示出了用于处理多个输入音频对象111(在该示例中是五个)以通过编码音频信号100提供对输入音频对象111的表示的装置10。
输入音频对象111被分配或下混频到下混频信号101中。在所示实施例中,五个输入音频对象111中的四个被指派给两个下混频信号101。一个输入音频对象111被单独指派给第三下混频信号101。因此,五个输入音频对象111由三个下混频信号101来表示。
这些下混频信号101之后(可能在一些未示出的处理步骤之后)被组合为编码音频信号100。
这样的编码音频信号100被馈送给创造性的装置1,图11中示出了装置1的一个实施例。
从编码音频信号100提取三个下混频信号101(与图10相比较)。
下混频信号101在所示示例中被分组为两个下混频信号组102。
因为每个下混频信号101与给定数量的输入音频对象相关联,每个下混频信号组102指代给定数量的输入音频对象(对应表达是输入对象)。因此,每个下混频信号组102与由编码音频信号100编码的多个输入音频对象的输入音频对象集合相关联(与图10相比较)。
在所示实施例中,在以下限制下发生分组:
1.每个输入音频对象111仅属于一个输入音频对象集合,因此属于一个下混频信号102组。
2.每个输入音频对象111没有在编码音频信号中信号通知的与属于关联于不同下混频信号组的不同集合的输入音频对象111的关系。这意味着编码音频信号没有这样的信息:其由于标准将导致对相应输入音频对象进行组合计算。
3.相应组102内的下混频信号101的数量被最小化。
(在此,两个)下混频信号组102在随后被单独处理,以获得与五个输入音频对象111相对应的五个输出音频信号103。
与覆盖两对输入音频对象111的两个下混频信号101相关联的一个下混频信号组102(与图10相比较)允许获得四个输出音频信号103。
另一下混频信号组102导致作为单个下混频信号101的一个输出信号103,或该下混频信号102组(或更精确地:具有一个信号下混频信号的组)指代一个输入音频对象111(与图10相比较)。
五个输出音频信号103被组合为一个解码音频信号110,作为装置1的输出。
在图11的实施例中,对下混频信号组102单独执行所有处理步骤。
图12所示的装置1的实施例在此可如图11所示的装置1一样接收编码音频信号100,且编码音频信号100由图10所示的装置10获得。
根据编码音频信号100获得(针对三个传输声道的)三个下混频信号101并将其分组为两个下混频信号102组。这些组102被单独处理以获得对应于图10所示的五个输入音频对象的五个处理信号104。
在随后的步骤中,从五个已处理信号104中联合获得八个输出音频信号103,例如被渲染以用于八个输出声道。输出音频信号103被组合为从装置1输出的解码音频信号110。在本实施例中,对下混频信号组102进行单独处理以及联合处理。
图13示出了对编码音频信号解码的创造性方法的实施例的一些步骤。
在步骤200中,从编码音频信号中提取下混频信号。在随后的步骤201中,将下混频信号分配给下混频信号组。
在步骤202中,单独处理每个下混频信号组,以提供单独的组结果。对组的单独处理至少包括用于获得音频信号的表示的解混频,该音频信号在编码处理中经由输入音频对象的下混频而被组合。在一个实施例中(在此未示出),单独处理之后是联合处理。
在步骤203中,将这些组结果组合为要输出的解码音频信号。
图14再次示出了装置1的实施例,其中,单独执行在将编码音频信号100的下混频信号101分组为下混频信号组102之后的所有处理步骤。接收具有下混频信号101的编码音频信号100的装置1包括分组器2,其对下混频信号101进行分组,以提供下混频信号组102。下混频信号组102由处理器3处理,该处理器3对每个下混频信号组102单独执行所有必要的步骤下混频信号组102的处理的各个组结果是输出音频信号103,其由组合器4组合以获得由装置1输出的解码音频信号110。
图15所示的装置1与图14所示的实施例在对下混频信号101的分组之后不同。在该示例中,并非所有处理步骤都单独对下混频信号组102执行,而是一些步骤被联合执行,因此考虑到一个以上的下混频信号组102。
由此,本实施例中的处理器3被配置为仅单独执行一些或至少一个处理步骤。处理结果是由后置处理器5联合处理的处理信号104。所获得的输出音频信号103最终由组合器4组合,导致解码音频信号110。
在图16中,处理器3被示意性地示出为接收下混频信号组102并提供输出音频信号103。
处理器3包括解混频器300,其被配置为解混频各个下混频信号组102的下混频信号101。因此,解混器300将重建被编码器组合为相应下混频信号101的各个输入音频对象。
被重建或分离的输入音频对象被提交给渲染器302。渲染器302被配置为针对解码音频信号110的输出情况来渲染相应组的解混频的下混频信号,以提供渲染信号112。因此,渲染信号112适于解码音频信号的重播场景的种类。例如,渲染依赖于要使用的扬声器的数量,它们的排列或通过播放解码音频信号而获得的效果的种类。
渲染信号112Ydry还被提交给后置混频器303,后置混频器303被配置为对所述渲染信号112执行至少一个解相关步骤,并且被配置为将所执行的解相关步骤的结果Ywet与所述相应渲染信号112Ydry进行组合。因此,后置混频器303执行对被组合为一个下混频信号的信号进行解相关的步骤。
所得到的输出音频信号103最终被提交给如上所示的组合器。
对于这些步骤,处理器3依赖于计算器301,计算器301在这里与处理器3的不同单元区别开,但是在备选的(未示出的)实施例中分别是分组器300、渲染器302和后置混频器303的特征。
相关的是以下事实:针对相应下混频信号组102单独计算必要的矩阵、值等。这意味着例如要计算的矩阵小于在最新技术中使用的矩阵。矩阵的大小取决于与下混频信号组相关联的相应输入音频对象集合的输入音频对象的数量和/或取决于属于相应下混频信号组的下混频信号的数量。
在现有技术中,要用于解混频的矩阵的大小是输入音频对象或输入音频信号的数量x该数量。本发明允许计算具有以下大小的较小矩阵:该大小取决于属于相应下混频信号组的输入音频信号的数量。
在图17中说明渲染的目的。
装置1接收编码音频信号100,并对其解码,提供解码音频信号110。
该解码音频信号110在特定输出情况或输出场景400中播放。解码音频信号110在该示例中由五个扬声器401输出:左、右、中心、左环绕和右环绕。听众402位于面向中心扬声器的场景400的中间。
装置1中的渲染器将要传送的重建音频信号分布给各个扬声器401,并因此将原始音频对象的重建表示分布为给定输出情况400中的音频信号源。
因此,渲染取决于输出情况400的种类并取决于听众402的偏好的个人品味。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
取决于某些实现要求,可以在硬件中或在软件中或至少部分地在硬件中或至少部分地在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是包括其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,配置为或适用于执行本文所述的方法之一的计算机或可编程逻辑器件。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
可以使用硬件装置,或使用计算机,或者使用硬件装置和计算机的组合来实现本文描述的设备。
可以使用硬件装置,或使用计算机,或者使用硬件装置和计算机的组合来执行本文描述的方法。
参考文献
[BCC]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemesand applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003.
[ISS1]M.Parvaix and L.Girin:“Informed Source Separation ofunderdetermined instantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010.
[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“A watermarking-based methodforinformed source separation of audio signals with a single sensor”,IEEETransactions on Audio,Speech and Language Processing,2010.
[ISS3]A.Liutkus,J.Pinel,R.Badeau,L.Girin,G.Richard:“Informed sourceseparation through spectrogram coding and data embedding”,Signal ProcessingJournal,2011.
[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:Richard:“Informed sourceseparation:“Informed source separation:source coding meets sourceseparation”,IEEE Workshop on Applications of Signal Processing to Audio andAcoustics,2011.
[ISS5]S.Zhang and L.Girin:“An Informed Source Separation System forSpeech Signals”,INTERSPEECH,2011.
[ISS6]L.Girin and J.Pinel:“Informed Audio Source Separation fromCompressed Linear Stereo Mixtures”,AES 42nd International Conferenee:SemanticAudio,2011.
[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120th AESConvention,Paris,2006.
[SAOC]ISO/IEC,“MPEG audio technologies-Part 2:Spatial Audi0 ObjectC0ding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.
[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:″From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio″,22nd Regional UK AESConference,Cambridge,UK,April 2007.
[SAOC2]J.
Figure GDA0002545349560000341
B.Resch,C.Falch,O.Hellmuth,J.Hilpert,O.
Figure GDA0002545349560000342
L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:″Spatial AudioObject Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object BasedAudio Coding″,124th AES Convention,Amsterdam 2008.
[SAOC3D]ISO/IEC,JTC1/SC29/WG11 N14747,Text of ISO/MPEG 23008-3/DIS 3DAudio,Sapporo,July 2014.
[SAOC3D2]J.Herre,S.Hilpert,O.Kuntz,and J.Plogsties,“MPEG-H Audio-Thenew standard for universal spatial/3D audio coding,”137th AES Convention,LosAngeles,2011.

Claims (19)

1.一种用于处理编码音频信号(100)的装置(1),所述编码音频信号(100)包括与多个输入音频对象(111)和对象参数相关联的多个下混频信号(101),
包括:
分组器(2),所述分组器(2)被配置为基于所述编码音频信号(100)中的信息将所述多个下混频信号(101)分组为多个下混频信号组(102),其中,每个下混频信号组(102)与所述多个输入音频对象(111)的输入音频对象(111)集合相关联,
处理器(3),所述处理器(3)被配置为对每个输入音频对象(111)集合的对象参数单独执行至少一个处理步骤,以提供组结果(103、104),以及
组合器(4),所述组合器(4)被配置为组合所述组结果(103、104),以提供解码音频信号(110),
其中,所述分组器(2)被配置为将所述多个下混频信号(101)分组为所述多个下混频信号组(102),使得所述多个输入音频对象(111)的每个输入音频对象(111)只属于一个输入音频对象(111)集合,以及
其中,所述分组器(2)被配置为将所述多个下混频信号(101)分组为所述多个下混频信号组(102),使得每个输入音频对象集合的每个输入音频对象(111)或者与编码音频信号(100)中信号通知的与其他输入音频对象(111)的关系无关,或者与在编码音频信号(100)中信号通知的仅与属于同一输入音频对象(111)集合的至少一个输入音频对象(111)的关系有关。
2.根据权利要求1所述的装置(1),其中,所述分组器(2)被配置为将所述多个下混频信号(101)分组为所述多个下混频信号组(102),同时使每个下混频信号组(102)中下混频信号(101)的数量最小化。
3.根据权利要求1所述的装置(1),其中,所述分组器(2)被配置为将所述多个下混频信号(101)分组为所述多个下混频信号组(102),使得仅一个单个的下混频信号属于一个下混频信号组(102)。
4.根据权利要求1所述的装置(1),
其中,所述分组器(2)被配置为通过应用至少以下步骤将所述多个下混频信号(101)分组为所述多个下混频信号组(102):
检测下混频信号(101)是否被指派给现有下混频信号组(102);
检测与下混频信号(101)相关联的多个输入音频对象(111)中的至少一个输入音频对象是否是与现有下混频信号组(102)相关联的输入音频对象(111)集合的一部分;
在下混频信号(101)与对现有的下混频信号组(102)的指派无关的情况下,且在与所述下混频信号(101)相关联的多个输入音频对象的所有输入音频对象(111)与和现有下混频信号组(102)无关的情况下,将下混频信号(101)指派给新的下混频信号组(102);以及
在下混频信号(101)被指派给现有下混频信号组(102)的情况下,或者在与下混频信号(101)相关联的多个输入音频对象中的至少一个输入音频对象(111)与现有下混频信号组(102)相关联的情况下,将下混频信号(101)与现有下混频信号组(102)进行组合。
5.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为对每个输入音频对象(111)集合的对象参数单独执行各种处理步骤,以提供作为组结果的单独矩阵,以及
其中,所述组合器(4)被配置为组合所述单独矩阵。
6.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为对每个输入音频对象(111)集合的对象参数单独执行至少一个处理步骤,以提供单独矩阵,
其中,所述装置(1)包括后置处理器(5),所述后置处理器(5)被配置为联合处理对象参数,以提供至少一个整体矩阵,以及
其中,所述组合器(4)被配置为组合所述单独矩阵和所述至少一个整体矩阵。
7.根据权利要求1所述的装置(1),
其中,所述处理器(3)包括计算器(301),所述计算器(301)被配置为针对每个下混频信号矩阵组(102)单独进行计算,所述每个下混频信号矩阵组(102)的大小取决于以下至少一项:与相应下混频信号组(102)相关联的输入音频对象集合的输入音频对象的数量,以及属于相应下混频信号组(102)的下混频信号(101)的数量。
8.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为基于相应下混频信号组(102)内的最大能量值来针对每个下混频信号组计算单独阈值。
9.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为针对每个下混频信号组(102)确定单独的下混频矩阵(Dk),
其中,所述处理器(3)被配置为针对每个下混频信号组(102)确定单独的组协方差矩阵(Ek),
其中,所述处理器(3)被配置为基于所述单独的下混频矩阵(Dk)和所述单独的组协方差矩阵(Ek)来确定每个下混频信号组(102)的单独的组下混频协方差矩阵,以及
其中,所述处理器(3)被配置为针对每个下混频信号组(102)确定单独的正则化逆组矩阵(Jk)。
10.根据权利要求9所述的装置(1),
其中,所述组合器(4)被配置为组合所述单独的正则化逆组矩阵(Jk)以获得整体正则化逆组矩阵(J)。
11.根据权利要求9所述的装置(1),
其中,所述处理器(3)被配置为基于所述单独的下混频矩阵(Dk)、所述单独的组协方差矩阵(Ek)和所述单独的正则化逆组矩阵(Jk),确定每个下混频信号组(102)的单独的组参数化解混频矩阵(Uk),以及
其中,所述组合器(4)被配置为组合所述单独的组参数化解混频矩阵(Uk),以获得整体组参数化解混频矩阵(U)。
12.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为针对每个下混频信号组(102)确定单独的组渲染矩阵(Rk)。
13.根据权利要求9所述的装置(1),
其中,所述处理器(3)被配置为基于所述单独的组渲染矩阵(Rk)和单独的组参数化解混频矩阵(Uk)来确定每个下混频信号组(102)的单独的上混频矩阵(RkUk),以及
其中,所述组合器(4)被配置为组合所述单独的上混频矩阵(RkUk),以获得整体上混频矩阵(RU)。
14.根据权利要求9所述的装置(1),
其中所述处理器(3)被配置为针对每个下混频信号组确定单独的组渲染矩阵(Rk),
其中,所述处理器(3)被配置为基于所述单独的组渲染矩阵(Rk)和所述单独的组协方差矩阵(Ek)来确定每个下混频信号组(102)的单独的组协方差矩阵(Ck),以及
其中,所述组合器(4)被配置为组合每个下混频信号组(102)的所述单独的组协方差矩阵(Ck),以获得整体组协方差矩阵(C)。
15.根据权利要求11所述的装置(1),
其中所述处理器(3)被配置为针对每个下混频信号组确定单独的组渲染矩阵(Rk),
其中,所述处理器(3)被配置为基于所述单独的组渲染矩阵(Rk)、单独的组参数化解混频矩阵(Uk)、单独的下混频矩阵(Dk)和所述单独的组协方差矩阵(Ek)来确定参数方式估计的信号(Ey dry)k的单独的组协方差矩阵,以及
其中,所述组合器(4)被配置为组合参数方式估计的信号(Ey dry)k的单独的组协方差矩阵,以获得总体参数方式估计的信号Ey dry
16.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为基于下混频协方差矩阵的奇异值分解来确定正则化逆矩阵(J)。
17.根据权利要求1所述的装置(1),
其中,所述处理器(3)被配置为通过选择与向相应下混频信号组(102)指派的下混频信号相对应的元素来确定用于确定参数化解混频矩阵(U)的子矩阵。
18.根据权利要求1所述的装置(1),
其中,所述组合器(4)被配置为基于针对每个下混频信号组(102)单独确定的矩阵来确定后置混频矩阵(P),以及
其中,所述组合器(4)被配置为将所述后置混频矩阵(P)应用于所述多个下混频信号(101),以获得所述解码音频信号(110)。
19.一种用于处理编码音频信号(100)的方法,所述编码音频信号(100)包括与多个输入音频对象(111)和对象参数相关联的多个下混频信号(101),
所述方法包括:
基于所述编码音频信号(100)中的信息,将所述多个下混频信号(101)分组为多个下混频信号组(102),其中,每个下混频信号组(102)与所述多个输入音频对象(111)的输入音频对象(111)集合相关联,
对每个输入音频对象(111)集合的对象参数单独执行至少一个处理步骤,以提供组结果(103、104),以及
组合所述组结果(103、104)以提供解码音频信号(110),
其中,将所述多个下混频信号(101)分组为所述多个下混频信号组(102)被配置为使得所述多个输入音频对象(111)的每个输入音频对象(111)只属于一个输入音频对象(111)集合,以及
其中,将所述多个下混频信号(101)分组为所述多个下混频信号组(102)被配置为使得每个输入音频对象集合的每个输入音频对象(111)或者与编码音频信号(100)中信号通知的与其他输入音频对象(111)的关系无关,或者与在编码音频信号(100)中信号通知的仅与属于同一输入音频对象(111)集合的至少一个输入音频对象(111)的关系有关。
CN201680020876.XA 2015-02-02 2016-02-01 用于处理编码音频信号的装置和方法 Active CN107533845B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15153486 2015-02-02
EP15153486.4 2015-02-02
PCT/EP2016/052037 WO2016124524A1 (en) 2015-02-02 2016-02-01 Apparatus and method for processing an encoded audio signal

Publications (2)

Publication Number Publication Date
CN107533845A CN107533845A (zh) 2018-01-02
CN107533845B true CN107533845B (zh) 2020-12-22

Family

ID=52449979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680020876.XA Active CN107533845B (zh) 2015-02-02 2016-02-01 用于处理编码音频信号的装置和方法

Country Status (16)

Country Link
US (3) US10152979B2 (zh)
EP (1) EP3254280B1 (zh)
JP (2) JP6564068B2 (zh)
KR (1) KR102088337B1 (zh)
CN (1) CN107533845B (zh)
AR (1) AR103584A1 (zh)
AU (1) AU2016214553B2 (zh)
CA (1) CA2975431C (zh)
HK (1) HK1247433A1 (zh)
MX (1) MX370034B (zh)
MY (1) MY182955A (zh)
RU (1) RU2678136C1 (zh)
SG (1) SG11201706101RA (zh)
TW (1) TWI603321B (zh)
WO (1) WO2016124524A1 (zh)
ZA (1) ZA201704862B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007004829A2 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479785A (zh) * 2006-09-29 2009-07-08 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN102160113A (zh) * 2008-08-11 2011-08-17 诺基亚公司 多声道音频编码器和解码器
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
TW201419266A (zh) * 2012-10-05 2014-05-16 Fraunhofer Ges Forschung 用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法
CN104054126A (zh) * 2012-01-19 2014-09-17 皇家飞利浦有限公司 空间音频渲染和编码
WO2014175669A1 (ko) * 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 신호 처리 방법
CN104285253A (zh) * 2012-05-15 2015-01-14 杜比实验室特许公司 具有多个子流的多声道音频信号的有效编码和解码

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7792722B2 (en) 2004-10-13 2010-09-07 Ares Capital Management Pty Ltd Data processing system and method incorporating feedback
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20100042446A1 (en) 2008-08-12 2010-02-18 Bank Of America Systems and methods for providing core property review
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
BRPI1009648B1 (pt) * 2009-06-24 2020-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
KR102374897B1 (ko) * 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN112802496A (zh) * 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007004829A2 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479785A (zh) * 2006-09-29 2009-07-08 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN102160113A (zh) * 2008-08-11 2011-08-17 诺基亚公司 多声道音频编码器和解码器
CN104054126A (zh) * 2012-01-19 2014-09-17 皇家飞利浦有限公司 空间音频渲染和编码
CN104285253A (zh) * 2012-05-15 2015-01-14 杜比实验室特许公司 具有多个子流的多声道音频信号的有效编码和解码
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
TW201419266A (zh) * 2012-10-05 2014-05-16 Fraunhofer Ges Forschung 用於空間音訊物件編碼中信號相依變比變換之編碼器、解碼器及方法
WO2014175669A1 (ko) * 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 신호 처리 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"A Time-Frequency Hybrid Downmixing Method for AC-3 Decoding";Hui Li 等;《IEEE Signal Processing Letters》;20140429;第21卷(第8期);第933-936页 *
"Further information on open issues in SAOC 3D";MOTION PICTURE EXPERT GROUP;《MPEG MEETING》;20150211;全文 *
"ISO/IEC FDIS 23003-2:2010,Sptial Audio Object Coding";MOTION PICTURE EXPERT GROUP;《MPEG MEETING》;20100510;第29页 *
"Text of ISO/IEC 23008-3/CD,3D audio";MOTION PICTURE EXPERT GROUP;《MPEG MEETING》;20140415;第102-116页 *
"多声道数字音频系统的编码及应用";胡泽;《中国电影电视技术学会影视科技论文集》;20020601;第206-215页 *

Also Published As

Publication number Publication date
BR112017015930A2 (pt) 2018-03-27
TW201633290A (zh) 2016-09-16
MX370034B (es) 2019-11-28
HK1247433A1 (zh) 2018-09-21
RU2678136C1 (ru) 2019-01-23
US10529344B2 (en) 2020-01-07
US20170323647A1 (en) 2017-11-09
JP2019219669A (ja) 2019-12-26
TWI603321B (zh) 2017-10-21
WO2016124524A1 (en) 2016-08-11
US20200194012A1 (en) 2020-06-18
KR20170110680A (ko) 2017-10-11
KR102088337B1 (ko) 2020-03-13
US20190108847A1 (en) 2019-04-11
AR103584A1 (es) 2017-05-17
US10152979B2 (en) 2018-12-11
AU2016214553A1 (en) 2017-09-07
CA2975431A1 (en) 2016-08-11
CN107533845A (zh) 2018-01-02
MX2017009769A (es) 2018-03-28
CA2975431C (en) 2019-09-17
AU2016214553B2 (en) 2019-01-31
EP3254280B1 (en) 2024-03-27
US11004455B2 (en) 2021-05-11
SG11201706101RA (en) 2017-08-30
EP3254280A1 (en) 2017-12-13
JP2018507444A (ja) 2018-03-15
JP6906570B2 (ja) 2021-07-21
MY182955A (en) 2021-02-05
ZA201704862B (en) 2019-06-26
JP6564068B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
CA2750272C (en) Apparatus, method and computer program for upmixing a downmix audio signal
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
EP2830334A1 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
KR20170063657A (ko) 오디오 인코더 및 디코더
US11004455B2 (en) Apparatus and method for processing an encoded audio signal
CN114270437A (zh) 参数编码与解码
RU2803451C2 (ru) Кодирование и декодирование параметров
BR112017015930B1 (pt) Aparelho e método para processar um sinal de áudio codificado

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant