CN103493127B - 用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器 - Google Patents

用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器 Download PDF

Info

Publication number
CN103493127B
CN103493127B CN201280003212.4A CN201280003212A CN103493127B CN 103493127 B CN103493127 B CN 103493127B CN 201280003212 A CN201280003212 A CN 201280003212A CN 103493127 B CN103493127 B CN 103493127B
Authority
CN
China
Prior art keywords
parameter
audio
space encoding
space
channel signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280003212.4A
Other languages
English (en)
Other versions
CN103493127A (zh
Inventor
大卫·维雷特
郎玥
许剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103493127A publication Critical patent/CN103493127A/zh
Application granted granted Critical
Publication of CN103493127B publication Critical patent/CN103493127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本文提供一种用于对多信道音频信号进行空间音频编码的方法,所述多信道音频信号包括多个音频信道信号,所述方法包括:对所述多个音频信道信号中的一个音频信道信号计算至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号进行计算,其中所述参考音频信号是所述多个音频信道信号中的另一个音频信道信号或从所述多个音频信道信号中的至少两个音频信道信号导出的下混音频信号;基于所述计算得出的空间编码参数的值来选择与所述音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数;将所述选定的空间编码参数的量化表示计入音频比特流(1)的参数段(1b)中;以及在所述音频比特流(1)的参数段(1b)中设置参数类型标志,从而指示计入所述音频比特流(1)中的所述选定的空间编码参数的类型。

Description

用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器
技术领域
本发明涉及多信道音频信号的参数空间音频编码和解码的方法、用于这类信号的参数空间音频编码器和参数空间音频解码器。
背景技术
关于参数的多信道音频编码,可以参阅音频和声音信号处理应用的IEEE专题研讨会会刊,2001年10月,第199页至第202页(Proc.IEEEWorkshop on Appl.of Sig.Proc.to Audio and Acoust.,Oct.2001,pp.199-202),法勒(Faller C.)和鲍姆加特(Baumgarte F.)的“使用感知参数化的空间音频的有效表示(Efficient representation of spatial audio usingperceptual parametrization)”。下混音频信号可接受上混操作,从而合成多信道音频信号,这可通过使用空间提示来产生相较于下混音频信号的情况更多的输出音频信道来实现。通常,下混音频信号因多信道音频信号,例如立体声音频信号的多个音频信道信号的叠加而产生。对下混音频信号进行波形编码并且将其与涉及空间提示的辅助数据一起放入音频比特流中。解码器基于波形编码音频信道,使用辅助数据来合成多信道音频信号。
存在数个空间提示或参数可用于合成多信道音频信号。首先,信道间电平差(ILD)指示待比较的两个信道上的音频信号的电平之间的差。第二,信道间时间差(ITD)指示声音到达人两耳的时间差。ITD值对声音的定位很重要,因为它提供用于识别声源相对于倾听者耳朵的入射方向或入射角度的提示。第三,信道间相位差(IPD)指定待比较的两个信道之间的相对相位差。子带IPD值可用作子带ITD值的估计值。最后,信道间相干(ICC)的定义为,在根据ITD或IPD所作的相位调整之后执行的归一化信道间交叉相关性。ICC值可用于估计声源的宽度。
ILD、ITD、IPD及ICC是空间多信道编码/解码的重要参数。ITD可以覆盖的声响延迟范围为,例如,-1.5ms至1.5ms之间。IPD可覆盖的相位差的整个范围为,-π与π之间。ICC可覆盖相关性的范围并且其所占的百分比值可以指定为处于0与1之间,或者是在-1与+1之间的其他相关性因数。在当前参数的立体声编码方案中,ILD、ITD、IPD及ICC通常在频域中得以估计。对于每一子带的ILD、ITD、IPD及ICC执行以下操作:计算、量化、计入音频比特流的参数段中并且进行传输。
由于参数的音频编码方案的比特率有所限制,因此,有时在音频比特流的参数段中没有足够的比特来传输所有的ILD、ITD、IPD及ICC值。例如,文件US2011/0173005A1揭示了一种基于音频信号分类对音频信号进行编码的方案。
发明内容
本发明的一个主意是根据输入信号的特性和空间编码参数的感知重要性,一次只传输选定数量的空间编码参数。待传输的选定的空间编码参数应覆盖全频带并且表示信道之间的全局最重要的感知差。
通过本发明,可使用各个空间编码参数的感知重要性并且优先排序出最重要的参数以计入经过编码的音频比特流中。该选择导致比特流的所需比特率降低,因为不是所有的空间编码参数都在同一时间传输。
因此,本发明的第一方面涉及一种用于对多信道音频信号进行空间音频编码的方法,所述多信道音频信号包括多个音频信道信号,所述方法包括:对多个音频信道信号中的一个音频信道信号计算至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号进行计算,其中所述参考音频信号是多个音频信道信号中的另一个音频信道信号或从多个音频信道信号中的至少两个音频信道信号导出的下混音频信号;基于计算得出的空间编码参数的值来选择与音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数;将选定的空间编码参数的量化表示计入音频比特流的参数段中;以及在音频比特流的参数段中设置参数类型标志,从而指示计入音频比特流中的选定的空间编码参数的类型。
根据第一方面的第一实施方案,所述方法进一步包括将预定标志值的量化表示计入音频比特流的参数段中;以及将选定的空间编码参数的量化表示与预定标志值的量化表示一起计入音频比特流的参数段中,从而指示计入音频比特流中的选定的空间编码参数的类型。
根据第一方面的第二实施方案或根据第一方面的第一实施方案,选定的空间编码参数的量化表示包括4比特。
根据第一方面的第二实施方案的进一步实施方案,参数类型标志包括1比特。
根据第一方面的第二实施方案的更进一步实施方案或其进一步实施方案,预定标志值的量化表示包括4比特。
根据第一方面的第四实施方案或根据第一方面的前述实施方案中的任一项,参数类型标志包括2比特。
根据第一方面的第五实施方案或根据第一方面的前述实施方案中的任一项,ITD值被量化为15量化值。
根据第一方面的第六实施方案或根据第一方面的前述实施方案中的任一项,IPD值被量化为15量化值。
根据第一方面的第七实施方案或根据第一方面的前述实施方案中的任一项,ICC值被量化为4量化值。
根据第一方面的第八实施方案或根据第一方面的前述实施方案中的任一项,选择至少一个空间参数的步骤包括:在第一空间编码参数的值满足与第一空间编码参数类型相关联的预定第一选择标准时,从至少两个空间编码参数中选择第一空间编码参数类型的第一空间编码参数;以及/或者在第一空间编码参数的值不满足与第一空间编码参数类型相关联的预定第一选择标准而第二空间编码参数的值满足与第二空间编码参数类型相关联的预定第二选择标准时,从至少两个空间编码参数中选择第二空间编码参数类型的第二空间编码参数。
根据第一方面的第九实施方案或根据第一方面的前述实施方案中的任一项,空间编码参数的类型是信道间时间差ITD、信道间相位差IPD、信道间电平差ILD或信道间相干ICC。
根据第一方面的第十实施方案或根据第一方面的前述实施方案中的任一项,选择至少一个空间编码参数的步骤包括为音频信道信号只选择多个空间编码参数中的一个空间编码参数。
根据本发明的第二方面,提供多信道音频信号的空间音频编码装置,该多信道音频信号包括多个音频信道信号,所述空间音频编码装置包括:参数估计模块,该参数估计模块用于对多个音频信道信号中的一个音频信道信号计算至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号进行计算,其中所述参考音频信号是多个音频信道信号中的另一个音频信道信号或从多个音频信道信号中的至少两个音频信道信号导出的下混音频信号;参数选择模块,该参数选择模块连接所述参数估计模块并且用于基于计算得出的空间编码参数的值来选择与音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数;以及,流模块,该流模块连接参数估计模块和参数选择模块并且用于产生包含参数段的音频比特流,所述参数段包含选定的空间编码参数的量化表示,并且用于在音频比特流的参数段中设置参数类型标志,从而指示计入音频比特流中的选定的空间编码参数的类型。
根据第二方面的第一实施方案,空间音频编码装置进一步包括下混模块,所述下混模块用于通过下混多个音频信道信号来产生下混音频信号。
根据第二方面的第一实施方案的第一实施方案,空间音频编码装置进一步包括编码模块,所述编码模块连接下混模块并且用于产生编码的音频比特流,所述经过编码的音频比特流包括经过编码的下混音频信号。
根据第二方面的第二实施方案或根据第二方面的任一前述实施方案,空间音频编码装置进一步包括变换模块,所述变换模块用于对多个音频信道信号应用从时域到频域的变换。
根据第二方面的第二实施方案的第一实施方案,流模块进一步用于在音频比特流中设置标志,该标志指示音频比特流的参数段中至少一个空间编码参数。
根据第二方面的第二实施方案的第一实施方案的第一实施方案,所述标志为整个音频比特流设置或包含在音频比特流的参数段中。
根据第二方面的第三实施方案或根据第二方面的任一前述实施方案,所述参数选择模块进一步用于:在第一空间编码参数的值满足与第一空间编码参数类型相关联的预定第一选择标准时,从至少两个空间编码参数中选择第一空间编码参数类型的第一空间编码参数;以及/或者在第一空间编码参数的值不满足与第一空间编码参数类型相关联的预定第一选择标准而第二空间编码参数的值满足与第二空间编码参数类型相关联的预定第二选择标准时,从至少两个空间编码参数中选择第二空间编码参数类型的第二空间编码参数。
根据第一方面的第四实施方案或根据第一方面的前述实施方案中的任一项,所述参数选择模块用于为音频信道信号只选择多个空间编码参数中的一个空间编码参数。
根据本发明的第三方面,空间音频解码装置包括:参数检测模块,该参数检测模块用于检测接收到的音频比特流的参数段中的参数类型标志以指示计入音频比特流中的选定的空间编码参数的类型;选择模块,该选择模块用于根据检测到的参数类型而从接收到的音频比特流的参数段中读取至少一个空间编码参数;以及上混模块,该上混模块连接选择模块并且用于使用从接收到的音频比特流的参数段中读取的至少一个空间编码参数,将从音频比特流中的下混音频比特流中解码的音频信号上混为多信道信号的多个音频信道信号。
根据本发明的第四方面,提供空间音频解码方法,该方法包括:检测接收到的音频比特流的参数段中的参数类型标志以指示计入音频比特流中的选定的空间编码参数的类型;根据检测到的参数类型,从接收到的音频比特流的参数段中读取至少一个空间编码参数;以及使用从接收到的音频比特流的参数段中读取的至少一个空间编码参数,将从音频比特流中的下混音频比特流中解码的下混音频信号上混为多信道信号的多个音频信道信号。
根据本发明的第五方面,提供一种计算机程序,该计算机程序包括程序代码,该程序代码在计算机上运行时执行根据第一和第四方面或其实施方案中的任一项的方法。
本文描述的方法可实施为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件或实施为专用集成电路(ASIC)内的硬件电路。
本发明可在数字电子电路中或在计算机硬件、固件、软件中或在其组合中实施。
通过以下描述,容易理解额外的实施例和实施方案。确切地说,除非另有说明,下文所述的实施例、各方面及实施方案中的任何特征,都可与实施例、各方面及实施方案中的任何其他特征进行组合。
附图说明
附图用于提供对本发明的进一步理解。它们图示了各实施例并且可借助于描述来帮助解释本发明的原理。在通过参考下文中的详细描述而更好理解之后,读者可了解其他实施例和许多预期优势、所设想的原理以及功能性。图中的元件不一定相对于彼此按比例绘制。一般而言,相同参考编号指代对应的类似部分。
图1示意地图示了空间音频编码系统。
图2示意地图示了空间音频编码装置。
图3示意地图示了空间音频解码装置。
图4示意地图示了用于参数空间编码的方法的第一实施例。
图5示意地图示了音频比特流的比特流结构的第一种示例。
图6示意地图示了数据比特流的比特流结构的第二种示例。
图7示意地图示了音频比特流的比特流结构的第三种示例。
具体实施方式
在以下详细描述中参考了附图,并且借助于图例显示了具体的实施例。应明白,在不脱离本发明范围的情况下,可利用其他实施例并且可作出各种结构或逻辑变化。除非另有说明,各实施例的功能、原理及细节可与其他实施例进行组合。一般地,本申请案旨在涵盖本文所论述的具体实施例的任何调整或变型。因此,以下详细描述不应理解为具有限制意义,本发明的范围是由所附权利要求来界定的。
实施例可包括各种方法和流程,这些方法和流程可在机器可读媒体所提供的机器可读指令内实施,所述机器可读媒体包括但不限于,能够存储可由以下机器访问的信息的装置、设备、机制或系统:计算机、计算装置、处理单元、网络装置、便携式计算机、微处理器等。所述机器可读媒体可包括易失性或非易失性媒体以及任何形式的传播信号,例如电信号、数字信号、逻辑信号、光信号、声信号、声光信号等,所述媒体能够将信息传递到机器。
在下文中,参考了各方法和方法步骤,这些方法和方法步骤示意地说明于流程图和方框图中作为示例。应理解,结合这些示例图而描述的方法也可以通过系统、设备和/或装置的各实施例轻松地执行。确切地说,很明显,能够执行详细方框图和/或流程图的系统、设备和/或装置不一定限于下文所示和详述的系统、设备和/或装置,而是可为不同的系统、设备和/或装置。术语“第一”、“第二”、“第三”等仅仅用作标记,而并非意图对其标的强加数字要求,也不是要对其标的的重要性进行特定的排序。
图1示意地图示了空间音频编码系统100。空间音频编码系统100包括空间音频编码装置10和空间音频解码装置20。有多个音频信道信号10a、10b被输入到空间音频编码装置10,图1中只示例性地示出了其中的两个音频信道信号。空间音频编码装置10对音频信道信号10a、10b进行编码和下混并产生音频比特流1,该音频比特流被传输到空间音频解码装置20。空间音频解码装置20对音频比特流1中的音频数据进行解码和上混并产生多个输出音频信道信号20a、20b,图1中只示例性地示出了其中两个输出音频信道信号。各个音频信道信号10a、10b及20a、20b的数量在原则上是没有限制的。例如,在双声道立体声信号中,音频信道信号10a、10b及20a、20b的数量可为2。例如,双声道立体声信号可以产生基于3D音频或耳机的环绕式音效(surround rendering),例如,使用HRTF过滤来实现。
空间音频编码系统100可用于立体声扩展编码,例如,ITU-T G.722、G.722Annex B、G.711.1和/或G.711.1Annex D。此外,空间音频编码系统100可用于移动电话应用中的语音和音频编码/解码,例如在3GPP EVS(增强型语音服务)编解码器中所定义的。
图2示意地示出了图1中的空间音频编码装置10的细节图。空间音频编码装置10可包括变换模块15、连接变换模块15的参数提取模块11、连接变换模块15的下混模块12、连接下混模块12的编码模块13及连接编码模块13和参数提取模块11的流模块14。
变换模块15可用于对输入到空间编码模块10的多个音频信道信号10a、10b应用从时域到频域的变换,。下混模块12可用于从变换模块15接收经过变换的音频信道信号10a、10b并且用于通过将多个经过变换的音频信道10a、10b进行下混来产生至少一个下混音频信道信号。下混音频信道信号的数量可为,例如小于变换的音频信道信号10a、10b的数量。例如,下混模块12可用于只产生一个下混音频信道信号。编码模块13可用于接收下混音频信道信号并且用于产生编码的音频比特流,该编码的音频比特流包括经过编码的下混音频信道信号。
参数提取模块11可包括参数估计模块11a,所述参数估计模块11a可用于接收多个音频信道信号10a、10b作为输入,并且用于计算多个音频信道信号中的一个音频信道信号的至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号算出,其中所述参考音频信号是多个音频信道信号中的另一个音频信道信号或从多个音频信道信号中的至少两个音频信道信号导出的下混音频信号。参数提取模块11可进一步包括参数选择模块11b,所述参数选择模块11b连接参数估计模块11a并且用于基于计算得出的空间编码参数的值来选择与音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数。
参数提取模块11的实施例,其参数选择模块11b可以分别的适用于为每个音频信道信号选择空间编码参数,其中选定的空间编码参数针对不同的音频信道信号可为不同的空间编码参数类型。
参数提取模块11的实施例,其各个参数选择模块11b适用于在第一空间编码参数的值满足与第一空间编码参数类型相关联的预定第一选择标准时,从至少两个空间编码参数,例如ITD、IPD及ICC中选择第一空间编码参数类型的第一空间编码参数,例如,ITD;以及/或者在第一空间编码参数的值不满足与第一空间编码参数类型相关联的预定第一选择标准而第二空间编码参数的值满足与第二空间编码参数类型相关联的预定第二选择标准时,从至少两个空间编码参数,例如ITD、IPD及ICC中选择第二空间编码参数类型的第二空间编码参数,例如,IPD。
参数提取模块11的其他实施例,其各个参数选择模块11b适用于对于一个音频信道信号只选择多个空间编码参数中的一个空间编码参数。
随后,(各)选定的空间编码参数可输入到流模块14中,该流模块可用于产生输出音频比特流1,该输出音频比特流包括来自编码模块15的经过编码的音频比特流以及含有对选定的(各)空间编码参数的量化表示的参数段。流模块14可进一步用于在音频比特流1的参数段中设置参数类型标志,用于指示计入音频比特流1中的(各)选定的空间编码参数的类型。
另外,流模块14可进一步用于在音频比特流1中设置标志,该标志指示音频比特流1的参数段中至少一个空间编码参数是否存在。可设置该标志用于整个音频比特流1,或将其包含在音频比特流1中的参数段中。这样,计入音频比特流1中的(各)选定的空间编码参数的类型的信令可以显式或隐式的方式发信号通知空间音频解码装置20。在显式与隐式信令方案之间可进行切换。
在隐式信令的情况下,该标志可指示参数段中的辅助数据中(各)空间编码参数是否存在。旧式解码装置20不检查此标志是否存在并且因此只对经过编码的音频比特流进行解码。另一方面,非旧式、即最新式的解码装置20可检查接收到的音频比特流1中此标志是否存在并且基于计入音频比特流1的参数段中的额外的全频带空间编码参数,来重建多信道音频信号20a、20b。
当使用显式信令时,整个音频比特流1可标记为含有空间编码参数。这样,旧式解码装置20不能解码该比特流并且因此丢弃音频比特流1。另一方面,最新式的解码装置20可决定是解码整个音频比特流1还是只对经过编码的音频比特流1进行解码而忽略空间编码参数。显式信令的优势可从此处看到,例如,新的移动终端可决定对音频比特流的哪部分进行解码,从而节约能量并且因此延长集成式电池的电池寿命。对空间编码参数进行解码通常更加复杂并且需要更多能量。另外,依靠呈现系统,最新式的解码装置20可决定应对音频比特流1的哪部分进行解码。例如,关于用耳机呈现,只对经过编码的音频比特流进行解码可能已经足够,而多信道音频信号只在移动终端连接到具有此多信道呈现功能的坞站时才进行解码。
图3示意地示出了图1中的空间音频解码装置20的细节图。空间音频解码装置20可包括比特流提取模块26、参数提取模块21、解码模块22、上混模块24及变换模块25。比特流提取模块26可用于接收音频比特流1并且将装入音频比特流1中的参数段与经过编码的音频比特流分离。参数提取模块21可包括参数检测模块21a,该参数检测模块21a用于检测接收到的音频比特流1的参数段中的参数类型标志,该参数类型标志用于指示计入音频比特流1中的选定的空间编码参数的类型。参数提取模块21可进一步包括选择模块21b,该选择模块21b连接参数检测模块21a并且用于根据检测到的参数类型而从接收到的音频比特流1的参数段中读取至少一个空间编码参数。
解码模块22可用于对经过编码的音频比特流进行解码并且用于将解码的音频信号输入到上混模块24中。上混模块24可连接选择模块21b并且用于使用从接收到的音频比特流1的参数段读取的至少一个空间编码参数,来将解码的音频信号上混为多个音频信道信号,所述至少一个空间编码参数由选择模块21b提供。最后,变换模块25可连接上混模块24并且用于基于多个音频信道信号而将多个音频信道信号从频域变换到时域以用于声音的重现,并且变换模块用于输出重建的多信道音频信号20a、20b。
图4示意地示出了用于参数空间编码的方法30的第一实施例。方法30包括,在第一步骤中对输入信道执行时频变换。在立体声信号包括左信道信号和右信道信号的情况下,在步骤30a处对左信道信号执行第一变换,而在步骤30b处对右信道信号执行第二变换。在每一种情况下,该变换可通过使用快速傅立叶变换(FFT)来执行。或者,可执行短时傅立叶变换(STFT)、余弦调制滤波或复数滤波来执行。
在第二步骤31中,可计算每个子带b的交叉谱,如
c [ b ] = Σ k = k b k b + 1 - 1 X 1 [ k ] · X 2 [ k ] * ,
其中X1[k]和X2[k]为两个信道或两个音频信道信号1和2、例如立体声情况下的左信道信号和右信道信号的FFT系数。“*”表示复共轭,kb表示子带b的开始窗口并且kb+1表示相邻的子带b+1的开始窗口。因此,从kb到kb+1的FFT的频率窗口[k]表示子带b。
或者,可计算FFT的每个频率窗口k的交叉谱。在这种情况下,子带b直接对应于一个频率窗口[k]。
在第三步骤32中,可计算至少两个不同的空间编码参数,例如,这些空间编码参数可从以下项中选择:信道间时间差ITD值、信道间相位差IPD值、信道间电平差ILD值,以及信道间相干ICC值。例如,全频带ITD、IPD及全频带ICC参数可基于子带交叉谱系数来计算得出。
可基于计算出的空间编码参数的值,来执行对多个空间编码参数中的至少一个空间编码参数的选择。确切地说,该选择可基于感知上重要的空间编码参数的优先级表来实现。可执行此选择的一项实例在下文中有更详细的说明。
在决策步骤33中,可检查ITD值是否等于0。或者,在决策步骤33中,可检查到ITD值低于某个阈值。该阈值可表示感知上最不相关的ITD。所有低于该阈值的ITD值随后都可被认为是可忽略的。例如,在48kHz的采样频率中,绝对值小于3的ITD就可被认为是可忽略的。如果ITD值不为0,那么ITD参数的量化表示可在步骤33a中计入音频比特流1的参数段中,而在步骤33b中可在音频比特流1的参数段中设置参数类型标志,以指示计入音频比特流1中的选定的空间编码参数的类型,即ITD参数。该参数类型标志可,例如,设置为标志值“1”,以指示ITD参数被计入。然而,如果ITD值等于0,那么可实施决策步骤34。
在决策步骤34中,可检查IPD值是否等于0。或者,在决策步骤34中,可检查IPD值是否低于某个阈值。该阈值例如可设置为第一IPD量化阶。所有低于此阈值的IPD值随后可当作感知上不相关的或可忽略的。如果IPD值不为0,那么IPD参数的量化表示可在步骤34a中计入音频比特流1的参数段中,而在步骤34b中可在音频比特流1的参数段中设置参数类型标志,以指示计入音频比特流1中的选定的空间编码参数的类型,即IPD参数。该参数类型标志例如可设置为标志值“0”,以指示IPD参数被计入。然而,如果IPD值等于0,那么可实施决策步骤35。
在决策步骤35中,可检查ICC值是否等于1。如果ICC值不为0,那么ICC参数的量化表示可在步骤35a中计入音频比特流1的参数段中,而在步骤35b中可在音频比特流1的参数段中设置参数类型标志,以指示计入音频比特流1中的选定的空间编码参数的类型,即ICC参数。
或者,在步骤35b中音频比特流1的参数段中的参数类型标志可经设置以指示ITD参数的传输。在步骤35c中,具有预定标志值的ITD参数的量化表示可计入参数段中,从而指示计入音频比特流1中的ICC参数是否存在。这样,在其他情况下将不使用的ITD参数的量化值可用作ICC参数是否存在的标志指标。
然而,如果ICC值等于1(例如,ICC不具有或只有可忽略的感知相关性),那么不是传输ICC参数,而是在步骤36a中,在音频比特流1的参数段中设置参数类型标志,以指示计入音频比特流1中的选定的空间编码参数的类型,即,ITD参数。另外,在步骤36b中,不是IPD或ICC参数,而是ITD可用决策步骤33中确定的ITD值0来进行传输,以指示这三个空间编码参数都不具有感知相关性。
不同的空间编码参数的感知重要性可取决于源信号的类型。对于语音信号或会话应用,ITD通常是最重要的空间编码参数,接下来是IPD,最后是ICC。
决策步骤33“检查ITD值是否等于0”只是检查ITD参数值是否满足给定选择标准的一种潜在实施例,而检查ITD参数值是否满足给定选择标准可基于具体需求和源信号的类型来确定。当用15个值对ITD数字化时,例如,从-7至+7,选择标准也可设置为,例如“ITD的量值是否小于或等于1”。在这种情况下,ITD参数只在ITD参数的量值大于或等于2时才被选择,否则将检查下一个最相关的,例如IPD参数值。
同样的情况适用于决策步骤34“检查IPD值是否等于0”。这只是检查IPD参数值是否满足给定选择标准的一种潜在实施例,而检查IPD参数值是否满足给定选择标准同样可基于具体需求和源信号的类型来确定并且可不同于ITD参数中使用的选择标准。当用16个值对ITD数字化时,例如,从-pi至+pi的16个量化阶,选择标准也可设置为,例如“IPD的量值是否小于或等于第一量化阶”。”在这种情况下,IPD参数只在ITD不满足相应的选择标准并且IPD参数值的量值等于或大于第一量化阶的情况下才被选择,否则将检查下一个最相关的,例如ICC参数值。
基于图4所描述的方法的实施例可对立体声信号执行,例如,具有左(L)和右(R)侧音频信道信号的多信道音频信号,或对任何其他多信道信号执行,例如,该多信道信号包括两个或两个以上音频信道信号。
在立体声信号的情况下,实施例可使用两个音频信道信号中的一者作为参考信号并且只对另一个音频信道信号计算(例如,执行基于图4所描述的方法)空间编码参数,这已经足够在解码器处重建这两个音频信道的感知空间关系。立体声信号的其他实施例适于基于立体声信号的这两个音频信道信号来获得下混信号并且对这两个音频信号中的每一者计算空间参数(并且执行例如基于图4所描述的方法)并且为这两个音频信道中的每一者传输选定的(各)空间参数,从而能够在解码器处重建这两个音频信道的感知空间关系。
图5至图7示意地图示了音频比特流,例如图1至图3中详述的音频比特流1的比特流结构的一种示例。
在图5中,音频比特流1可包括经过编码的音频比特流段1a和参数段1b。经过编码的音频比特流段1a和参数段1b可交替并且它们的组合长度可指示音频比特流1的总比特率。经过编码的音频比特流段1a可包括将要解码的实际音频数据。参数段1b可包括空间编码参数的一个或多个量化表示。音频比特流1例如可包括信令标志比特2用于显式地发信号通知音频比特流1,在参数段1b中是否包含辅助数据。此外,参数段1b可包括信令标志比特3用于隐式地发信号通知音频比特流1,在参数段1b中是否包含辅助数据。
图6所示为如图5所示的音频比特流1的参数段1b的比特流结构的第一种示例。情况(a)涉及以下场景,即ITD参数或IPD参数不等于0。情况(b)涉及以下场景,即ITD参数和IPD参数均等于0。
在图6中,只使用一个标志比特4来指示空间编码参数ITD和IPD中的哪一者被传输。在不失一般性的情况下,标志段4可使用标志比特值1来指示ITD参数存在,并且标志段4可使用标志比特值0来指示IPD参数存在。ITD参数和IPD参数可用量化表示,计入参数段1b的参数值段5中。ITD参数和IPD参数的量化表示可各自包括4比特。然而,还可选择任何其他数量的比特用于ITD参数和IPD参数的量化表示。
因此,在最常见的情况下,即在ITD参数或IPD参数的值不为0的情况下,在参数段1b中只使用5比特。在最不常见的情况下,即在ITD参数和IPD参数的值都为0的情况下,标志比特4可设置为1以指示ITD参数存在。参数值段5a可同样包括4比特,但是ITD参数的量化表示可经选择以指示与有效的ITD参数值无关的值。例如,ITD参数可用-7至7之间的整数值进行量化。在这种情况下,需要15个不同的量化表示值来对这些整数值进行编码。第16个潜在的量化表示可预留以将参数值段5a用作隐式标记段3,如参考图5所描述。只要参数值段5a包括第16个潜在的量化表示,这就指示接下来的参数值段6被预留用于ICC参数。参数值段6可,例如,包括2比特,即ICC值可量化成4个量化值。然而,对于参数值段6,任何其他数量的比特也是可能的。
在这种情况下,IPD参数可量化为16个量化值,因为IPD参数不用于隐式参数标记。或者,可能将IPD参数量化为15个量化值,而不是ITD参数,并且将IPD参数的第16个潜在的量化表示用于隐式参数标记。
图7示意地图示了如图5所示的音频比特流1的参数段1b的比特流结构的第二种示例。相比于第一种示例,标志段4可包括2比特,而不是1。因此,空间编码参数ITD、IPD及ICC中的每一者都可分配有具体的标志比特值,例如,ITD为“00”,IPD为“01”以及ICC为“10”。而只需要一个参数值段5b用于计入ITD、IPD及ICC参数。参数值段5b可同样包含4比特。在第二种示例中,总比特使用为6比特,而不是图5情况(a)下的5比特,但是没有例外情况(b)需要使用6个以上比特。
第一种示例例如可用于以下应用场景中,即其中ITD和IPD参数比ICC参数更重要,例如,在传输语音数据的会话应用中。在其他场景中,可优选第二种示例。考虑到对于会话应用,语音信号在统计上为最重要的信号类型;而ITD和IPD表示感知上最相关的参数。可估计对于90%的输入信号,ITD或IPD将为最相关的参数,ICC只代表10%。因此,对于90%的帧,可保留一比特并用于其他信息(例如,ILD参数的更好量化)。对于10%的帧,有必要添加一个额外的比特。因此,总的来说,可随之减少与空间编码参数相关联的总比特率。
如图4中所示的方法30也适用于多信道参数音频编码。可以对于每个子带b和每个信道j计算交叉谱,如:
c j [ b ] = Σ k = k b k b + 1 - 1 X j [ k ] · X ref [ k ] * ,
其中Xj[k]为信道j的FFT系数,Xref[k]为参考信道的FFT系数。所述参考信道可从多个信道j中选择。或者,参考信道可为单声道下混信号的频谱,它是所有信道j上的平均值。在前一种情况下,可产生M-1个空间提示,而在后一种情况下,可产生M个空间提示,其中M为信道j的数量。“*”表示复共轭,kb表示子带b的开始窗口并且kb+1表示相邻的子带b+1的开始窗口。因此,从kb到kb+1的FFT的频率窗口[k]表示子带b。
或者,可计算FFT的每个频率窗口k的交叉谱。在这种情况下,子带b直接对应于一个频率窗口[k]。
对于音频比特流1中的每个信道j,提供相应的参数段1b,并且对于每个信道j,可单独选择一个空间编码参数并且使其包括参数段1b。

Claims (13)

1.一种用于对多信道音频信号进行空间音频编码的方法,所述多信道音频信号包括多个音频信道信号,所述方法包括:
对所述多个音频信道信号中的一个音频信道信号计算至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号进行计算,其中所述参考音频信号是所述多个音频信道信号中的另一个音频信道信号或从所述多个音频信道信号中的至少两个音频信道信号导出的下混音频信号;
基于所述计算得出的空间编码参数的值来选择与所述音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数;
其中选择至少一个空间编码参数的步骤包括:
在第一空间编码参数的值满足与所述第一空间编码参数类型相关联的预定第一选择标准时,从所述至少两个空间编码参数(ITD、IPD、ICC)中选择第一空间编码参数类型的第一空间编码参数(ITD),以及/或者
在第一空间编码参数的值不满足与所述第一空间编码参数类型相关联的所述预定第一选择标准而第二空间编码参数的值满足与所述第二空间编码参数类型相关联的预定第二选择标准时,从所述至少两个空间编码参数(ITD、IPD、ICC)中选择第二空间编码参数类型的第二空间编码参数(IPD);
将所述选择的空间编码参数的量化表示计入音频比特流(1)的参数段(1b)中;以及
在所述音频比特流(1)的所述参数段(1b)中设置参数类型标志,从而指示包括在所述音频比特流(1)中的所述选择的空间编码参数的类型。
2.根据权利要求1所述的方法,进一步包括:
将预定标志值的量化表示计入所述音频比特流(1)的所述参数段(1b)中;以及
将所述选择的空间编码参数的量化表示与预定标志值的所述量化表示一起计入所述音频比特流(1)的所述参数段(1b)中,从而指示包括在所述音频比特流(1)中的所述选择的空间编码参数的类型。
3.根据权利要求2所述的方法,其中所述选择的空间编码参数的所述量化表示包括4比特。
4.根据权利要求3所述的方法,其中所述参数类型标志包括1比特。
5.根据权利要求3所述的方法,其中所述预定标志值的所述量化表示包括4比特。
6.根据权利要求1至5中任一项所述的方法,其中空间编码参数的类型为信道间时间差ITD、信道间相位差IPD、信道间电平差ILD或信道间相干ICC。
7.根据权利要求6所述的方法,其中信道间时间差值量化为15量化值,并且/或者,其中信道间相位差值量化为16量化值,并且/或者,其中信道间相干值量化为4量化值。
8.一种多信道音频信号的空间音频编码装置(10),所述多信道音频信号包括多个音频信道信号,所述空间音频编码装置包括:
参数估计模块(11a),所述参数估计模块用于对所述多个音频信道信号中的一个音频信道信号计算至少两个不同的空间编码参数,其中所述至少两个不同的空间编码参数是至少两种不同类型的空间编码参数并且关于参考音频信号进行计算,其中所述参考音频信号是所述多个音频信道信号中的另一个音频信道信号或从所述多个音频信道信号中的至少两个音频信道信号导出的下混音频信号;
参数选择模块(11b),所述参数选择模块连接所述参数估计模块(11a)并且用于基于所述计算得出的空间编码参数的值来选择与所述音频信道信号相关联的所述至少两个不同的空间编码参数中的至少一个空间编码参数;
所述参数选择模块(11b)进一步用于:
在第一空间编码参数的值满足与所述第一空间编码参数类型相关联的预定第一选择标准时,从所述至少两个空间编码参数(ITD、IPD、ICC)中选择第一空间编码参数类型的第一空间编码参数(ITD),以及/或者
在所述第一空间编码参数的值不满足与所述第一空间编码参数类型相关联的所述预定第一选择标准而第二空间编码参数的值满足与所述第二空间编码参数类型相关联的预定第二选择标准时,从所述至少两个空间编码参数(ITD、IPD、ICC)中选择第二空间编码参数类型的第二空间编码参数(IPD);以及
流模块(14),所述流模块连接所述参数估计模块(11a)和所述参数选择模块(11b)并且用于:产生包含参数段(1b)的音频比特流(1),所述参数段包含所述选择的空间编码参数的量化表示;并且在所述音频比特流(1)的所述参数段(1b)中设置参数类型标志,从而指示计入所述音频比特流(1)中的所述选择的空间编码参数的类型。
9.根据权利要求8所述的空间音频编码装置(10),进一步包括:
下混模块(12),所述下混模块用于通过将所述多个音频信道信号进行下混来产生所述下混音频信号。
10.根据权利要求9所述的空间音频编码装置(10),进一步包括:
编码模块(13),所述编码模块连接所述下混模块(12)并且用于产生编码的音频比特流,所述编码的音频比特流包含经过编码的下混音频比特流。
11.根据权利要求8至10中任一项所述的空间音频编码装置(10),进一步包括:
变换模块(15),所述变换模块用于对所述多个音频信道信号应用从时域到频域的变换。
12.根据权利要求11所述的空间音频编码装置(10),其中所述流模块(14)进一步用于在所述音频比特流(1)中设置标志,所述标志指示所述音频比特流(1)的所述参数段中至少一个空间编码参数。
13.根据权利要求12所述的空间音频编码装置(10),其中所述标志经设置用于整个音频比特流(1),或者包含在所述音频比特流(1)的所述参数段(1b)中。
CN201280003212.4A 2012-04-05 2012-04-05 用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器 Active CN103493127B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056319 WO2013149670A1 (en) 2012-04-05 2012-04-05 Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder

Publications (2)

Publication Number Publication Date
CN103493127A CN103493127A (zh) 2014-01-01
CN103493127B true CN103493127B (zh) 2015-03-11

Family

ID=45937370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280003212.4A Active CN103493127B (zh) 2012-04-05 2012-04-05 用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器

Country Status (7)

Country Link
US (1) US9324329B2 (zh)
EP (1) EP2702588B1 (zh)
JP (1) JP5977434B2 (zh)
KR (1) KR101606665B1 (zh)
CN (1) CN103493127B (zh)
ES (1) ES2560402T3 (zh)
WO (1) WO2013149670A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
KR101565048B1 (ko) 2014-10-16 2015-11-02 현대자동차주식회사 라인 타입 터치 센서를 이용한 전자식 자동 변속 장치 및 그 작동 방법
ES2904275T3 (es) 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo
US12125492B2 (en) 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
KR102521017B1 (ko) * 2016-02-16 2023-04-13 삼성전자 주식회사 전자 장치 및 전자 장치의 통화 방식 변환 방법
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10339947B2 (en) 2017-03-22 2019-07-02 Immersion Networks, Inc. System and method for processing audio data
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
US12100403B2 (en) * 2020-03-09 2024-09-24 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223598A (zh) * 2005-07-19 2008-07-16 韩国电子通信研究院 基于虚拟源位置信息的通道等级差量化和解量化方法
EP2128856A1 (en) * 2007-10-16 2009-12-02 Panasonic Corporation Stream generating device, decoding device, and method
CN102165520A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR0305555A (pt) * 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US20080262853A1 (en) 2005-10-20 2008-10-23 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
US8346380B2 (en) 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223598A (zh) * 2005-07-19 2008-07-16 韩国电子通信研究院 基于虚拟源位置信息的通道等级差量化和解量化方法
EP2128856A1 (en) * 2007-10-16 2009-12-02 Panasonic Corporation Stream generating device, decoding device, and method
CN102165520A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置

Also Published As

Publication number Publication date
US20140112482A1 (en) 2014-04-24
EP2702588A1 (en) 2014-03-05
ES2560402T3 (es) 2016-02-18
WO2013149670A1 (en) 2013-10-10
JP5977434B2 (ja) 2016-08-24
CN103493127A (zh) 2014-01-01
US9324329B2 (en) 2016-04-26
KR101606665B1 (ko) 2016-03-25
JP2015518578A (ja) 2015-07-02
KR20140139586A (ko) 2014-12-05
EP2702588B1 (en) 2015-11-18

Similar Documents

Publication Publication Date Title
CN103493127B (zh) 用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器
KR100773539B1 (ko) 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
CN102089807B (zh) 音频编码器、音频解码器、编码及解码方法
CN101006494B (zh) 利用频域维纳滤波对空间音频编码进行时间包络整形
US10388289B2 (en) Apparatus and method for encoding or decoding a multi-channel signal
CN100571043C (zh) 一种空间参数立体声编解码方法及其装置
EP2702587B1 (en) Method for inter-channel difference estimation and spatial audio coding device
CN105103225A (zh) 立体声音频编码器和解码器
CN105144287A (zh) 基于对象的音频编码系统中利用旁路音频对象信号的通知响度估计的解码器、编码器及方法
CN108140393B (zh) 一种处理多声道音频信号的方法、装置和系统
CN105531760A (zh) 用于联合多声道编码的方法和设备
US20220406318A1 (en) Bitrate distribution in immersive voice and audio services
CN102855876A (zh) 音频编码器、音频编码方法和程序
CN113593586A (zh) 音频信号编码方法、解码方法、编码设备以及解码设备
WO2010047566A2 (en) An apparatus for processing an audio signal and method thereof
US8214222B2 (en) Method and an apparatus for identifying frame type
US9299355B2 (en) FM stereo radio receiver by using parametric stereo
EP3664083B1 (en) Signal reconstruction method and device in stereo signal encoding
JP2021525391A (ja) ダウンミックス信号及び残差信号を計算するための方法及び装置
CN117037816A (zh) 多声道音频编码方法、系统、介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant