CN113490980A - 用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序 - Google Patents
用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序 Download PDFInfo
- Publication number
- CN113490980A CN113490980A CN202080010287.XA CN202080010287A CN113490980A CN 113490980 A CN113490980 A CN 113490980A CN 202080010287 A CN202080010287 A CN 202080010287A CN 113490980 A CN113490980 A CN 113490980A
- Authority
- CN
- China
- Prior art keywords
- transmission
- signal
- representation
- spatial
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 403
- 230000005236 sound signal Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims description 68
- 238000004590 computer program Methods 0.000 title claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 36
- 238000003786 synthesis reaction Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 22
- 238000009877 rendering Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 238000009792 diffusion process Methods 0.000 description 13
- 239000000203 mixture Substances 0.000 description 11
- 238000004091 panning Methods 0.000 description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 241001235128 Doto Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对表示音频场景的空间音频表示进行编码以获得经编码的音频信号的装置,包括:传输表示发生器(600),用于根据空间音频表示生成传输表示(611),并且用于生成与传输表示(611)的生成有关或指示传输表示(611)的一个或多个方向属性的传输元数据(610);以及输出接口(640),用于生成经编码的音频信号,该经编码的音频信号包括与传输表示(611)有关的信息,以及与传输元数据(610)有关的信息。
Description
技术领域
本发明的实施例涉及用于方向性音频编码的传输声道或下混信令。
背景技术
方向性音频编码(DirAC)技术[Pulkki07]是一种分析和再现空间声音的有效方法。DirAC使用基于空间参数的声场的感知激励表示,即每个频带测量的到达方向(DOA)和扩散度。它建立在如下假设之上:在某一时刻和一个临界频带,听觉系统的空间分辨率仅限于解码针对方向的一个线索和针对听觉间连贯性的另一个线索。然后通过交叉淡化如下两个流而在频域中表示空间声音:非方向性扩散流和方向性非扩散流。
DirAC最初旨在用于录制B格式声音,但也可以扩展为匹配特定扬声器设置(如5.1[2]或麦克风阵列的任何配置[5])的麦克风信号。在最新的情况下,通过录制不是针对特定扬声器设置的信号,而是录制中间格式的信号,可以实现更大的灵活性。
这种在实践中已经很好建立的中间格式由(高阶)高保真度立体声响复制(Ambisonics)[3]表示。根据Ambisonics信号,可以生成每个所需扬声器设置的信号,包括用于耳机再现的双耳信号。这需要应用到Ambisonics信号的特定渲染器,使用线性Ambisonics渲染器[3]或诸如方向性音频编码(DirAC)之类的参数渲染器。
Ambisonics信号可以表示为多声道信号,其中每个声道(称为Ambisonics分量)等效于所谓的空间基函数的系数。使用这些空间基函数的加权和(其中权重对应于系数),可以重建录制位置的原始声场[3]。因此,空间基函数系数(即,Ambisonics分量)表示对录制位置中的声场的简洁描述。存在不同类型的空间基函数,例如球谐函数(SphericalHarmonics,SH)[3]或柱谐函数(Cylindrical Harmonics,CH)[3]。可以在描述2D空间中的声场时使用CH(例如用于2D声音再现),而SH可用于描述2D和3D空间中的声场(例如用于2D和3D声音再现)。
其中是l阶和m模式的球谐函数,而φlm(t)是展开系数。随着截断阶数H的增加,展开导致更精确的空间表示。图1a中示出了对于n阶和m模式,具有Ambisonics声道编码(ACN)索引的高达H=4阶的球面谐波。
DirAC已经扩展用于根据一阶Ambisonics信号(FOA,称为B格式)或根据不同麦克风阵列[5]提供更高阶的Ambisonics信号。本文献重点介绍一种根据DirAC参数和参考信号合成更高阶Ambisonics信号的更有效的方法。在本文献中,参考信号(也称为下混信号)被认为是更高阶Ambisonics信号的子集或Ambisonics分量的子集的线性组合。
在DirAC分析中,根据音频输入信号估计DirAC的空间参数。最初,DirAC是为一阶Ambisonics(FOA)输入而开发的,该FOA输入可以例如从B格式麦克风获得,然而其他输入信号也是可能的。在DirAC合成中,根据DirAC参数和相关联的音频信号来计算用于空间再现的输出信号,例如扬声器信号。已经描述了仅将全向音频信号用于合成或使用整个FOA信号的解决方案[Pulkki07]。备选地,仅四个FOA信号分量的子集可用于合成。
由于其对空间声音的有效表示,DirAC也非常适合作为空间音频编码系统的基础。这种系统的目标是能够以低比特率对空间音频场景进行编码,并且在传输后尽可能忠实地再现原始音频场景。在这种情况下,DirAC分析之后是空间元数据编码器,该空间元数据编码器对DirAC参数进行量化和编码以获得低比特率参数表示。与元数据一起,从原始音频输入信号中导出的下混信号被编码以供常规音频核心编码器传输。例如,可以采用基于EVS的音频编码器对下混信号进行编码。下混信号由不同的声道组成,称为传输声道。下混信号可以是例如组成B格式信号(即FOA)的四个系数信号、立体声对、或取决于目标比特率的单声道下混。在传输前对经编码的空间参数和经编码的音频比特流进行复用。
上下文:基于DirAC的空间音频编码器的系统概述
在下文中,呈现对基于DirAC的现有技术空间音频编码系统的概述,该DirAC针对沉浸式语音和音频服务(IVAS)而设计。这种系统的目标是能够处理表示音频场景的不同空间音频格式,并以低比特率对它们进行编码,并且在传输后尽可能忠实地再现原始音频场景。
系统可以接受音频场景的不同表示作为输入。输入音频场景可以由旨在在不同扬声器位置再现的多声道信号、听觉对象以及描述对象随时间变化的位置的元数据,或表示收听者或参考位置处的声场的一阶或更高阶Ambisonics格式来表示。
优选地,该系统基于3GPP增强型语音服务(EVS),因为期望该解决方案以低延迟运行以启用移动网络上的对话服务。
图1b中示出了支持不同音频格式的基于DirAC的空间音频编码的编码器侧。声/电输入1000被输入到编码器接口1010,其中编码器接口具有用于一阶Ambisonics(FOA)或高阶Ambisonics(HOA)的特定功能,如1013所示。此外,编码器接口具有用于多声道(MC)数据(诸如立体声数据、5.1数据或具有两个或五个以上的声道的数据)的功能。此外,编码器接口1010具有用于对象编码的功能,例如1011处所示的音频对象。IVAS编码器包括具有DirAC分析块1021和下混(DMX)块1022的DirAC级1020。块1022输出的信号由诸如AAC或EVS编码器之类的IVAS核心编码器1040编码,并且由块1021生成的元数据使用DirAC元数据编码器1030来编码。
图1b示出了支持不同音频格式的基于DirAC的空间音频编码的编码器侧。如图1b中所示,编码器(IVAS编码器)能够支持单独或同时呈现给系统的不同音频格式。音频信号本质上可以是由麦克风拾取的声学信号,或者本质上可以是假设被传输到扬声器的电信号。所支持的音频格式可以是多声道信号(MC)、一阶和更高阶Ambisonics(FOA/HOA)分量、以及音频对象。复杂的音频场景也可以通过组合不同的输入格式来描述。然后将所有音频格式传输到DirAC分析,该DirAC分析提取完整的音频场景的参数表示。每时频单位测量的到达方向(DOA)和扩散度形成空间参数或者是较大的一组参数的一部分。DirAC分析之后是空间元数据编码器,该空间元数据编码器对DirAC参数进行量化和编码以获得低比特率参数表示。
除了所描述的基于通道、基于HOA和基于对象的输入格式之外,IVAS编码器可以接收由空间和/或方向元数据以及一个或多个相关联的音频输入信号组成的空间声音的参数表示。元数据可以例如对应于DirAC元数据,即声音的DOA和扩散度。元数据还可以包括附加空间参数,诸如具有关联的能量测量、距离或位置值、或与声场的相干性相关的测量的多个DOA。相关联的音频输入信号可以由以下各项组成:单声道信号、一阶或更高阶的Ambisonics信号、X/Y立体声信号、A/B立体声信号、或通过具有各种方向性模式和/或相互间距的麦克风录制而产生的信号的任何其他组合。
对于参数空间音频输入,IVAS编码器基于输入空间元数据确定用于传输的DirAC参数。
与参数一起,源自不同来源或音频输入信号的下混(DMX)信号被编码以供常规音频核心编码器传输。在这种情况下,采用基于EVS的音频编码器对下混信号进行编码。下混信号由不同的声道组成,称为传输声道:信号可以是例如组成B格式或一阶Ambisonics(FOA)信号的四个系数信号、立体声对、或取决于目标比特率的单声道下混。在通过通信声道传输之前对经编码的空间参数和经编码的音频比特流进行复用。
图2a示出了提供不同音频格式的基于DirAC的空间音频编码的解码器侧。在解码器中,如图2a中所示,传输声道由核心解码器进行解码,而DirAC元数据在与经解码的传输声道一起被传送到DirAC合成之前首先被解码。在这个阶段,可以考虑不同的选择。可以请求在任何扬声器或耳机配置上直接播放音频场景,这在常规DirAC系统(图2a中的MC)中通常是可能的。解码器还可以递送单独的对象,如它们在编码器侧被呈现的那样(图2a中的对象)。备选地,也可以请求将场景渲染为Ambisonics格式(图2a中的FOA/HOA)以供进一步的操作,诸如场景的旋转、镜像或移动,或者使用未在原始系统中定义的外部渲染器。
在解码器中,如图2a中所示,传输声道由核心解码器进行解码,而DirAC元数据在与经解码的传输声道一起传送到DirAC合成之前首先被解码。在这个阶段,可以考虑不同的选择。可以请求在任何扬声器或耳机配置上直接播放音频场景,这在常规DirAC系统(图2a中的MC)中通常是可能的。解码器还可以提供单独的对象,如它们在编码器侧被呈现的那样(图2a中的对象)。备选地,也可以请求将场景渲染为Ambisonics格式以供其他进一步的操作,诸如场景的旋转、反射或移动(图2a中的FOA/HOA),或使用未在原始系统中定义的外部渲染器。
图2a中示出了提供不同音频格式的DirAC空间音频编码的解码器,该解码器包括IVAS解码器1045和随后连接的解码器接口1046。IVAS解码器1045包括IVAS核心解码器1060,其被配置为执行对由图1b的IVAS核心编码器1040编码的内容的解码操作。此外,提供了DirAC元数据解码器1050,其提供用于对由DirAC元数据编码器1030编码的内容进行解码的解码功能。DirAC合成器1070从块1050和1060接收数据并使用或不使用一些用户交互,输出被输入到解码器接口1046中,该解码器接口1046生成1083处所示的FOA/HOA数据、块1082中所示的多声道数据(MC数据)或块1080中所示的对象数据。
图2b中描绘了使用DirAC范式的常规HOA合成。被称为下混信号的输入信号是由频率滤波器组分析的时频信号。频率滤波器组2000可以是如复值QMF之类的复值滤波器组或如STFT之类的块变换。HOA合成在输出端生成包含(H+1)2个分量的H阶的Ambisonics信号。可选地,它还可以输出在特定扬声器布局上渲染的Ambisonics信号。在下文中,我们将详细说明在一些情况下如何从伴有输入空间参数的下混信号中获取(H+1)2个分量。
下混信号可以是原始麦克风信号或描绘原始音频场景的原始信号的混合。例如,如果音频场景由声场麦克风捕获,则下混信号可以是场景的全向分量(W)、立体声下混(L/R)或一阶Ambisonics信号(FOA)。
对于每个时频瓦块(tile),声音方向(也称为到达方向(DOA))以及扩散度因子分别由方向估计器2020和扩散度估计器2010估计,如果下混信号包含足够的信息以确定此类DirAC参数的话。例如,如果下混信号是一阶Ambisonics信号(FOA),情况就是如此。备选地或者如果下混信号不足以确定此类参数,则可以经由包含空间参数的输入比特流将参数直接传送到DirAC合成。在音频传输应用的情况下,比特流可以包括例如作为辅助信息接收的经量化和经编码的参数。在这种情况下,在DirAC合成模块外部从原始麦克风信号中导出参数,或从在开关2030或2040所示的编码器侧提供给DirAC分析模块的输入音频格式中导出参数。
可以通过在要合成的Ambisonics信号的所需阶数(级别)l和模式m下评估每个估计的声音方向的空间基函数来获得方向增益。声音方向可以例如按照单位范数向量n(k,n)或按照方位角和/或仰角θ(k,n)来表示,它们例如如下相关:
在估计或获得声音方向后,可以例如通过考虑以SN3D归一化为空间基函数的实值球谐函数来确定所需阶数(级别)为l且模式为m的空间基函数的响应:
其中对于m=0,Kronecker-deltaδm为1,否则为0。然后针对索引(k,n)的每个时频瓦块直接导出方向增益:
例如,参考信号Pref可以是下混信号的全向分量或下混信号的K个声道的线性组合。
最后,例如经由求和运算将直达声音Ambisonics分量和扩散声音Ambisonics分量进行组合2060,以获得时频瓦块(k,n)的所需阶数(级别)为l并且模式为m的最终Ambisonics分量即,
可以使用逆滤波器组2080或逆STFT将获得的Ambisonics分量变换回时域,将其存储、发送或用于例如空间声音再现应用。备选地,线性Ambisonics渲染器2070可以应用于每个频带,以便在将扬声器信号或双耳信号转换到时域之前获得要在特定扬声器布局上或通过耳机播放的信号。
本发明的目的是提供一种用于根据输入信号生成声场描述的改进概念。
现有技术:用于单声道和FOA下混信号的DirAC合成
下面描述基于接收到的基于DirAC的空间音频编码流的普通DirAC合成。DirAC合成执行的渲染是基于经解码的下混音频信号和经解码的空间元数据进行的。
下混信号是DirAC合成的输入信号。该信号由滤波器组转换到时频域。滤波器组可以是复值滤波器组(如复值QMF)或块变换(如STFT)。
DirAC参数可以经由包含空间参数的输入比特流被直接传送到DirAC合成。在音频传输应用的情况下,比特流可以包括例如作为辅助信息接收的经量化和经编码的参数。
为了确定用于基于扬声器的声音再现的声道信号,基于下混信号和DirAC参数来确定每个扬声器信号。第j个扬声器的信号Pj(k,n)是作为直达声音分量和扩散声音分量的组合获得的,即,
Pj(k,n)=Pdir,j(k,n)+Pdiff,j(k,n)
可以通过使用取决于扩散度参数Ψ(k,n)和方向增益因子Gj(v(k,n))的因子缩放所谓的参考信号Pref,j(k,n)来获得第j个扬声器声道的直达声音分量Pdir,j(k,n),其中增益因子取决于声音的到达方向(DOA),并且可能还取决于第j个扬声器声道的位置。声音的DOA可以例如按照单位范数向量v(k,n)或按照方位角和/或仰角θ(k,n)来表示,它们例如如下相关:
可以使用众所周知的方法来计算方向增益因子Gj(v(k,n)),诸如基于向量的幅度平移(panning)(VBAP)[Pulkki97]。
综上所述,直达声音分量可以表示为
描述声音的DOA和扩散度的空间参数在解码器处根据传输声道来估计,或者从比特流中所包括的参数元数据中获得。
可以基于参考信号和扩散度参数来确定扩散声音分量Pdiff,j(k,n):
归一化因子Gnorm取决于回放扬声器配置。通常,与不同扬声器声道相关联的扩散声音分量Pdiff,j(k,n)被进一步处理,即,它们相互去相关。这也可以通过对每个输出声道的参考信号进行去相关来实现,即
基于所发送的下混信号来获得第j个输出声道的参考信号。在最简单的情况下,下混信号由单声道全向信号(例如FOA信号的全向分量W(k,n))组成,并且参考信号对于所有输出声道都是相同的:
Pref,j(k,n)=W(k,n)
如果传输声道对应于FOA信号的四个分量,则可以通过FOA分量的线性组合获得参考信号。通常,FOA信号被组合成使得第j个声道的参考信号对应于指向第j个扬声器的方向的虚拟心形麦克风信号[Pulkki07]。
DirAC合成通常针对数量增加的下混声道提供改进的声音再现质量,因为可以减少合成去相关的所需量、方向增益因子的非线性处理的程度或不同扬声器声道之间的串扰,并且可以避免或减轻相关联的伪影。
通常,将许多不同传输信号引入经编码的音频场景中的直接方法一方面是不灵活的,另一方面是消耗比特率的。典型地,可能并非在所有情况下都必须将例如一阶Ambisonics信号的所有四个分量信号引入到经编码的音频信号中,这是因为一个或多个分量不具有显著的能量贡献。另一方面,比特率要求可能很严格,这禁止将两个以上的传输声道引入表示空间音频表示的经编码的音频信号中。在如此严格的比特率要求的情况下,编码器和解码器有必要预先协商某种表示,并且基于这种预先协商,基于预先协商的方式生成一定数量的传输信号,然后,音频解码器可以基于预先协商的知识从经编码的音频信号中合成音频场景。然而,尽管这对于比特率要求很有用,但它是不灵活的,并且可能附加地显著降低音频质量,因为预先协商的过程对于某个音频片段可能不是最佳选择,或者对于所有频带或音频片段的所有时间帧可能不是最佳选择。
因此,表示音频场景的现有技术过程针对比特率要求不是最佳的,是不灵活的,此外,其很可能导致显著降低的音频质量。
发明内容
本发明的目的是提供一种用于对空间音频表示进行编码或对经编码的音频信号进行解码的改进概念。
该目的通过权利要求1的用于对空间音频表示进行编码的装置、权利要求21的用于对经编码的音频信号进行解码的装置、权利要求39的用于对空间音频表示进行编码的方法、权利要求41的用于对经编码的音频信号进行解码的方法、权利要求43的计算机程序或权利要求44的经编码的音频信号来实现。
本发明基于以下发现:除了使用从空间音频表示导出的传输表示之外,还使用与传输表示的生成相关或指示传输表示的一个或多个方向属性的传输元数据,来获得针对比特率、灵活性和音频质量的显著改进。因此,一种用于对表示音频场景的空间音频表示进行编码的装置根据音频场景生成传输表示,附加地,传输元数据与传输表示的生成相关或指示传输表示的一个或多个方向属性,或者与传输表示的生成相关并且指示传输表示的一个或多个方向属性。此外,输出接口生成经编码的音频信号,其包括与传输表示有关的信息和与传输元数据有关的信息。
在解码器侧,用于对经编码的音频信号进行解码的装置包括用于接收经编码的音频信号的接口,该经编码的音频信号包括与传输表示有关的信息和与传输元数据有关的信息,然后空间音频合成器使用与传输表示有关的信息和与传输元数据有关的信息这两者来合成空间音频表示。
对如何生成了传输表示(诸如下混信号)的显式指示和/或对传输表示的一个或多个方向属性的显式指示借助于附加传输元数据允许编码器以高度灵活的方式生成经编码的音频场景,这种方式一方面提供了良好的音频质量,另一方面满足了小比特率要求。此外,借助于传输元数据,编码器甚至可以一方面在比特率要求与另一方面在由经编码的音频信号表示的音频质量之间找到所需的最佳平衡。因此,显式传输元数据的使用允许编码器应用生成传输表示的不同方式,并且附加地不仅从音频片段到音频片段来调适传输表示生成,而且甚至从一个音频帧到下一个音频帧,或者在同一个音频帧内从一个频带到另一个频带来调适传输表示生成。当然,通过为每个时间/频率瓦块独立地生成传输表示来获得灵活性,以使得例如可以为时间帧内的所有频率仓生成相同的传输表示,或者备选地,可以为多个音频时间帧上的同一个频带生成相同的传输表示,或者可以为每个时间帧的每个频率仓生成独立的传输表示。所有这些信息,即生成传输表示的方式以及传输表示是与完整的帧相关、仅与时间/频率仓相关还是与多个时间帧上的某个频带相关,也被包括在传输元数据中,以使得空间音频合成器知晓在编码器侧进行了什么,然后可以在解码器侧应用最佳过程。
优选地,某些传输元数据备选方案是指示表示音频场景的分量的特定组中的哪些分量已被选择的选择信息。另一种传输元数据备选方案涉及组合信息,即,空间音频表示的某些分量信号是否和/或如何被组合以生成传输表示。用作传输元数据的另外的信息涉及扇区/半球信息,该扇区/半球信息指示某个传输信号或传输声道与哪个扇区或半球相关。此外,在本发明的上下文中有用的元数据涉及指示音频信号的查看方向的查看方向信息,该音频信号优选地作为传输表示中的多个不同的传输信号的传输信号而被包括。其他查看方向信息与麦克风查看方向有关,当传输表示由一个或多个麦克风信号组成时,这些麦克风信号例如可以由(空间扩展的)麦克风阵列中的物理麦克风录制或由重合麦克风录制,或者备选地,这些麦克风信号可以被合成地生成。其他传输元数据涉及形状参数数据,该形状参数数据指示麦克风信号是全向信号,还是具有不同的形状,诸如心形形状或偶极(dipole)形状。在传输表示内具有多于一个麦克风信号的情况下,另外的传输元数据涉及麦克风的位置。其他有用的传输元数据涉及一个或多个麦克风的朝向数据、指示两个麦克风之间的距离的距离数据、或麦克风的方向模式。此外,附加的传输元数据可以涉及对麦克风阵列(诸如圆形麦克风阵列)的描述或识别,或者来自这种圆形麦克风阵列的哪些麦克风信号已被选择为传输表示。
另外的传输元数据可以涉及与波束成形、对应的波束成形权重或对应的波束方向有关的信息,并且在这种情况下,传输表示通常优选地由合成创建的具有特定波束方向的信号组成。另外的传输元数据备选方案可以涉及所包括的传输信号是全向麦克风信号还是非全向麦克风信号(诸如心形信号或偶极信号)的纯信息。
因此,很明显,不同的传输元数据备选方案是高度灵活的,并且可以以高度紧凑的方式表示,以使得附加传输元数据通常不会导致大量的附加比特率。替代地,附加传输元数据的比特率要求通常可以小到小于传输表示的量的1%或甚至小于1/1000或甚至更小。然而,另一方面,这种非常少量的附加元数据造成更高的灵活性,同时,由于附加灵活性以及在不同音频片段上或者甚至在不同时间帧和/或频率仓的同一个音频片段中具有改变的传输表示的可能性,音频质量显著提高。
优选地,编码器附加地包括用于根据空间音频表示来生成空间参数的参数处理器,以使得除了传输表示和传输元数据之外,空间参数也被包括在经编码的音频信号中,以相对于仅可通过传输表示和传输元数据获得的质量来增强音频质量。这些空间参数优选地是时间和/或频率相关的到达方向(DoA)数据和/或频率和/或时间相关的扩散度数据,例如从DirAC编码中已知的。
在音频解码器侧,输入接口接收经编码的音频信号,其包括与传输表示有关的信息和与传输元数据有关的信息。此外,在用于对经编码的音频信号进行解码的装置中提供的空间音频合成器使用与传输表示有关的信息和与传输元数据有关的信息这两者来合成空间音频表示。在优选实施例中,解码器附加地使用可选地发送的空间参数来合成空间音频表示,其不仅使用与传输元数据有关的信息和与传输表示有关的信息,而且还使用空间参数。
用于对经编码的音频信号进行解码的装置接收传输元数据,解释或解析接收到的传输元数据,然后控制组合器来组合传输表示信号或控制组合器来从传输表示信号中进行选择或生成一个或若干个参考信号。然后组合器/选择器/参考信号发生器将参考信号转发到分量信号计算器,该分量信号计算器根据特定选择或生成的参考信号来计算所需的输出分量。在优选实施例中,不仅如空间音频合成器中的组合器/选择器/参考信号发生器受传输元数据控制,而且分量信号计算器也受其控制,以使得基于接收到的传输数据,不仅控制参考信号生成/选择,而且也控制实际的分量计算。然而,在仅分量信号计算受传输元数据控制或仅参考信号生成或选择仅受传输元数据控制的实施例也是有用的,并且提供优于现有解决方案的改进的灵活性。
不同信号选择备选方案的优选过程是选择传输表示中的多个信号中的一个作为分量信号的第一子集的参考信号,并为分量信号的另一个正交子集选择传输表示中的另一个传输信号,以用于多声道输出、一阶或更高阶Ambisonics输出、音频对象输出或双耳输出。其他过程依赖于基于传输表示中包括的各个信号的线性组合来计算参考信号。取决于特定的传输表示实现方式,传输元数据用于从实际发送的传输信号中确定(虚拟)声道的参考信号,并且基于回退确定缺失的分量,诸如所发送或生成的全向信号分量。这些过程依赖于使用与一阶或更高阶Ambisonics空间音频表示的特定模式和阶相关的空间基函数响应来优选地计算缺失的FOA或HOA分量。
其他实施例涉及描述传输表示中包括的麦克风信号的传输元数据,并且基于所发送的形状参数和/或查看方向,参考信号确定适用于接收到的传输元数据。此外,全向信号或偶极信号的计算以及剩余分量的附加合成也基于如下传输元数据来执行:指示例如第一传输声道是左心形信号或前心形信号,而第二传输信号是右心形信号或后心形信号。
另外的过程涉及基于某个扬声器到某个麦克风位置的最小距离来确定参考信号,或者选择传输表示中包括的具有最接近的查看方向或最接近的波束成形器或某个最接近的阵列位置的麦克风信号作为参考信号。另一个过程是选择任意传输信号作为针对所有直达声音分量的参考信号,并且使用所有可用传输信号(诸如从间隔开的麦克风发送的全向信号)来生成扩散声音参考信号,然后通过将直达和扩散分量相加来生成对应的分量以获得最终声道或Ambisonics分量或对象信号或双耳声道信号。在基于特定参考信号计算实际分量信号时具体实现的另外过程涉及基于特定麦克风距离对相关的量进行设置(优选地限制)。
附图说明
下面参照附图公开本发明的优选实施例,在附图中:
图1a示出了具有Ambisonics声道/分量编号的球谐函数;
图1b示出了基于DirAC的空间音频编码处理器的编码器侧;
图2a示出了基于DirAC的空间音频编码处理器的解码器;
图2b示出了本领域已知的高阶Ambisonics合成处理器;
图3示出了支持不同音频格式的基于Dirac的空间音频编码的编码器侧。
图4示出了提供不同音频格式的基于Dirac的空间音频编码的解码器侧;
图5示出了用于对空间音频表示进行编码的装置的另一实施例;
图6示出了用于对空间音频表示进行编码的装置的另一实施例;
图7示出了用于对经编码的音频信号进行解码的装置的另一实施例;
图8a示出了可彼此单独使用或彼此一起使用的传输表示发生器的一组实现方式;
图8b图示了示出可彼此单独使用或彼此一起使用的不同传输元数据备选方案的表;
图8c示出了用于传输元数据或者如果适当则用于空间参数的元数据编码器的另一实现方式;
图9a示出了图7的空间音频合成器的优选实现方式;
图9b示出了具有传输表示的经编码的音频信号,该传输表示带有n个传输信号、传输元数据和可选的空间参数;
图9c图示了示出取决于说话者标识和传输元数据的参考信号选择器/发生器的功能的表;
图9d示出了空间音频合成器的另一实施例;
图9e图示了示出不同传输元数据的另一表;
图9f示出了空间音频合成器的另一实现方式;
图9g示出了空间音频合成器的另一实施例;
图9h示出了可彼此单独使用或彼此一起使用的空间音频合成器的另一组实现备选方案;
图10示出了用于使用直达信号和扩散信号来计算低阶或中阶声场分量的示例性优选实现方式;
图11示出了仅使用直达分量而不使用扩散分量来计算较高阶声场分量的另一实现方式;以及
图12示出了使用与扩散部分组合的直达部分来计算(虚拟)扬声器信号分量或对象的另一实现方式。
具体实施方式
图6示出了用于对表示音频场景的空间音频表示进行编码的装置。该装置包括用于根据空间音频表示生成传输表示的传输表示发生器600。此外,传输表示发生器600生成与传输表示的生成有关或指示传输表示的一个或多个方向属性的传输元数据。该装置附加地包括用于生成经编码的音频信号的输出接口640,其中经编码的音频信号包括与传输表示有关的信息和与传输元数据有关的信息。除了传输表示发生器600和输出接口640之外,该装置优选地包括用户接口650和参数处理器620。参数处理器620被配置用于从空间音频表示中导出空间参数,并且优选地提供(经编码的)空间参数612。此外,除了(经编码的)空间参数612之外,(经编码的)传输元数据610和(经编码的)传输表示611被转发到输出接口640,以优选地将三个经编码的项复用到经编码的音频信号中。
图7示出了用于对经编码的音频信号进行解码的装置的优选实现方式。经编码的音频信号被输入到输入接口700,并且输入接口在经编码的音频信号内接收与传输表示有关的信息和与传输元数据有关的信息。将传输表示711从输入接口700被转发到空间音频合成器750。此外,空间音频合成器750从输入接口接收传输元数据710并且优选地附加接收空间参数712(如果包括在经编码的音频信号中)。空间音频合成器750使用项710、711,并且优选地附加使用项712,以便合成空间音频表示。
图3示出了用于对图3中的指示为空间音频信号的空间音频表示进行编码的装置的优选实现方式。具体地,空间音频信号被输入到下混生成块610中,并且被输入到空间音频分析块621中。根据空间音频信号从空间音频分析块621导出的空间参数615被输入到元数据编码器622中。此外,由下混生成块601生成的下混参数630也被输入到元数据编码器603中。元数据编码器621和元数据编码器603在图3中被指示为单个块,但也可以被实现为单独的块。下混音频信号640被输入到核心编码器603中,并且经核心编码的表示611被输入到比特流发生器641中,该比特流发生器附加地接收经编码的下混参数610和经编码的空间参数612。因此,图6中所示的传输表示发生器600包括图3的实施例中的下混生成块601和核心编码器块603。此外,图6中所示的参数处理器620包括用于空间参数615的空间音频分析器块621和元数据编码器块622。此外,图6的传输表示发生器60附加地包括用于传输元数据630的元数据编码器块603,该传输元数据由元数据编码器603作为经编码的传输元数据610输出。在图3的实施例中,输出接口640被实现为比特流发生器641。
图4示出了用于对经编码的音频信号进行解码的装置的优选实现方式。具体地,该装置包括元数据解码器752和核心解码器751。元数据解码器752接收经编码的传输元数据710作为输入,并且核心解码器751接收经编码的传输表示711。此外,元数据解码器752优选地在可用时接收经编码的空间参数712。元数据解码器对传输元数据710进行解码以获得下混参数720,并且元数据解码器752优选地对经编码的空间参数712进行解码以获得经解码的空间参数722。经解码的传输表示或下混音频表示721与传输元数据720一起被输入到空间音频合成块753中,并且附加地,空间音频合成块753可以接收空间参数722以便使用两个分量721和720或所有三个分量721、720和722来生成包括一阶或更高阶(FOA/HOA)表示754或包括多声道(MC)表示755或包括对象表示(对象)756的空间音频表示,如图4中所示。因此,图7中所示的用于对经编码的音频信号进行解码的装置在空间音频合成器750内包括图4的块752、751和753,并且空间音频表示可以包括在图4的754、755和756处所示的备选方案中的一个。
图5示出了用于对表示音频场景的空间音频表示进行编码的装置的另一实现方式。此处,表示音频场景的空间音频表示作为麦克风信号被提供,并且优选地,作为与麦克风信号相关联的附加空间参数来提供。因此,在图5的实施例中,关于图6讨论的传输表示600包括下混生成块601、用于下混参数613的元数据编码器603和用于下混音频表示的核心编码器602。与图3的实施例相比,空间音频分析器块621不包括在用于编码的装置中,因为麦克风输入已经(优选地以分离的形式)一方面具有麦克风信号另一方面具有空间参数。
在关于图3到图5讨论的实施例中,下混音频614表示传输表示,并且下混参数613表示与传输表示的生成相关或者如稍后将概述的指示传输表示的一个或多个方向属性的传输元数据的备选方案。
本发明的优选实施例:用于灵活的传输声道配置的下混信令
在一些应用中,由于比特率限制,不可能将FOA信号的所有四个分量都作为传输声道进行发送,而只能发送具有数量减少的信号分量或声道的下混信号。为了在解码器处实现改进的再现质量,所发送的下混信号的生成可以以时变方式完成并且可以适于空间音频输入信号。如果空间音频编码系统允许包括灵活的下混信号,那么重要的是不仅发送这些传输声道而且还包括指定下混信号的重要空间特性的元数据。然后,位于空间音频编码系统的解码器处的DirAC合成能够考虑到下混信号的空间特性而以最佳方式调适渲染过程。因此,本发明提出在参数空间音频编码流中包括与下混相关的元数据,该元数据用于指定或描述下混传输声道的重要空间特性,以便提高空间音频解码器处的渲染质量。
在下文中,描述了实际下混信号配置的说明性示例。
如果输入的空间音频信号主要包括水平平面中的声能,则只将FOA信号的与全向信号、与笛卡尔坐标系的x轴对齐的偶极信号以及与y轴对齐的偶极信号相对应的前三个信号分量包括在下混信号中,而与z轴对齐的偶极信号被排除在外。
在另一示例中,可以仅发送两个下混信号以进一步降低传输声道所需的比特率。例如,如果存在源自于左半球的主要声能,则有利的是生成包括主要来自左方向的声能的下混声道和包括主要源自于相反方向(即在本示例中为右半球)的声音的附加下混声道。这可以通过FOA信号分量的线性组合来实现,以使得所得信号与具有分别指向左侧和右侧的心形方向性模式的方向性麦克风信号相对应。类似地,可以通过适当地组合FOA输入信号来生成与分别指向前方和后方的一阶方向性模式或任何其他所需的方向性模式相对应的下混信号。
在DirAC合成阶段,基于所发送的空间元数据(例如声音的DOA和扩散度)和音频传输声道来计算扬声器输出声道必须适于实际使用的下混配置。更具体地,对第j个扬声器的参考信号Pref,j(k,n)的最合适的选择取决于下混信号的方向特性和第j个扬声器的位置。
例如,如果下混信号分别对应于指向左侧和右侧的两个心形麦克风信号,则位于左半球的扬声器的参考信号应单独使用指向左侧的心形信号作为参考信号Pref,j(k,n)。位于中心的扬声器可以代替地使用两个下混信号的线性组合。
另一方面,如果下混信号分别对应于指向前方和后方的两个心形麦克风信号,则位于前半球的扬声器的参考信号应单独使用指向前方的心形信号作为参考信号Pref,j(k,n)。
重要的是请注意,如果DirAC合成使用错误的下混信号作为渲染的参考信号,则必须预期到空间音频质量会显著下降。例如,如果对应于指向左侧的心形麦克风的下混信号被用于为位于右半球的扬声器生成输出声道信号,则源自于输入声场的左半球的信号分量将主要指向再现系统的右半球,从而导致输出的空间图像不正确。
因此,优选地在空间音频编码流中包括参数信息,该参数信息指定下混信号的空间特性,诸如对应的方向性麦克风信号的方向性模式。然后,位于空间音频编码系统的解码器处的DirAC合成能够考虑到在下混相关的元数据中描述的下混信号的空间特性而以最佳方式来调适渲染过程。
使用Ambisonics分量选择来进行FOA和HOA音频输入的灵活下混
在本实施例中,空间音频信号(即编码器的音频输入信号)对应于FOA(一阶Ambisonics)或HOA(更高阶Ambisonics)音频信号。图3中描绘了编码器的对应块方案。编码器的输入是空间音频信号,例如FOA或HOA信号。在“空间音频分析”块中,如前所述地估计DirAC参数,即空间参数(例如,DOA和扩散度)。所提出的灵活下混的下混信号在“下混生成”块中生成,这将在下面更详细地解释。所生成的下混信号称为Dm(k,n),其中m是下混声道的索引。然后在“核心编码器”块中例如使用如之前解释的基于EVS的音频编码器对所生成的下混信号进行编码。下混参数,即描述与如何创建下混或与下混信号的其他方向属性有关的相关信息的参数,在元数据编码器中与空间参数一起被编码。最后,经编码的元数据和经编码的下混信号被转换成比特流,该比特流可以被发送到解码器。
在下文中,更详细地解释“下混生成”块和下混参数。例如,如果输入的空间音频信号主要包括水平平面中的声能,则只有FOA/HOA信号的与全向信号W(k,n)、与笛卡尔坐标系的x轴对齐的偶极信号X(k,n)和与y轴对齐的偶极信号Y(k,n)的三个信号分量被包括在下混信号中,而与z轴对齐的偶极信号Z(k,n)(以及所有其他更高阶分量,如果存在)被排除在外。这意味着,下混信号由下式给出:
D1(k,n)=W(k,n),D2(k,n)=X(k,n),D3(k,n)=Y(k,n)
备选地,如果例如输入空间音频信号主要包括x-z平面中的声能,则下混信号包括偶极信号Z(k,n)而不包括偶极信号Y(k,n)。
在本实施例中,图3中描绘的下混参数包含哪些FOA/HOA分量已经被包括在下混信号中的信息。例如,该信息可以是与所选FOA分量的索引相对应的一组整数,例如,如果W(k,n)、X(k,n)和Z(k,n)分量被包括在内,则是{1,2,4}。
请注意,可以例如基于手动用户输入或自动地为下混信号选择FOA/HOA分量。例如,当在机场跑道上录制空间音频输入信号时,可以假设大部分声能被包含在特定的竖直笛卡尔平面中。在这种情况下,例如选择W(k,n)、X(k,n)和Z(k,n)分量。相比之下,如果在街道交叉口进行录制,则可以假设大部分声能被包含在水平笛卡尔平面中。在这种情况下,例如选择W(k,n)、X(k,n)和Y(k,n)分量。备选地,如果例如将摄像机与音频录制一起使用,则可以使用面部识别算法来检测说话者位于哪个笛卡尔平面,因此,可以选择与该平面对应的FOA分量进行向下混合。备选地,可以通过使用现有技术声源定位算法来确定具有最高能量的笛卡尔坐标系的平面。
还请注意,FOA/HOA分量选择和对应的下混元数据可以是时间和频率相关的,例如,可以为每个频带和时间实例分别自动选择一组不同的分量和索引(例如,通过自动确定每个时频点能量最高的笛卡尔平面)。例如,可以通过利用时频相关空间参数中包含的信息来定位直达声能[Thiergart09]。
图4中描绘了对应于该实施例的解码器块方案。解码器的输入是包含经编码的元数据和经编码的下混音频信号的比特流。下混音频信号在“核心解码器”中解码,而元数据在“元数据解码器”中解码。经解码的元数据由空间参数(例如,DOA和扩散度)和下混参数组成。在“空间音频合成”块中使用经解码放入下混音频信号和空间参数来创建所需的空间音频输出信号,例如其可以是FOA/HOA信号、多声道(MC)信号(例如,扬声器信号)、音频对象或用于耳机播放的双耳立体声输出。空间音频合成附加地受下混参数控制,如下所述。
前面描述的空间音频合成(DirAC合成)需要为每个输出声道j提供合适的参考信号Pref,j(k,n)。在本发明中,建议使用附加的下混元数据来根据下混信号Dm(k,n)计算Pref,j(k,n)。在本实施例中,下混信号Dm(k,n)由FOA或HOA信号的特定选择的分量组成,并且下混元数据描述哪些FOA/HOA分量已被发送到解码器。
当渲染到扬声器时(即,解码器的MC输出),当为每个扬声器声道计算所谓的虚拟麦克风信号时,可以实现高质量的输出,该信号指向对应的扬声器,如[Pulkki07]中解释的。通常,计算虚拟麦克风信号需要所有FOA/HOA分量在DirAC合成中可用。然而,在本实施例中,只有原始FOA/HOA分量的子集在解码器处可用。在这种情况下,只能针对FOA/HOA分量对于其可用的笛卡尔平面(如下混元数据所指示的)计算虚拟麦克风信号。例如,如果下混元数据指示W(k,n)、X(k,n)和Y(k,n)分量已被发送,则我们可以计算xy平面(水平平面)中所有扬声器的虚拟麦克风信号,其中可以如[Pulkki07]中所述地执行计算。对于水平面外的高架(elevated)扬声器,我们可以对参考信号Pref,j(k,n)使用回退解决方案,例如,我们可以使用全向分量W(k,n)。
请注意,在渲染到双耳立体声输出(例如,用于耳机播放)时,可以使用类似的概念。在这种情况下,两个输出声道的两个虚拟麦克风指向虚拟立体声扬声器,其中扬声器的位置取决于收听者的头部朝向。如果虚拟扬声器位于笛卡尔平面内,针对该笛卡尔平面FOA/HOA分量已经如下混元数据指示的那样被发送,则我们可以计算对应的虚拟麦克风信号。否则,对参考信号Pref,j(k,n),例如全向分量W(k,n)使用回退解决方案。
当渲染到FOA/HOA(图4中解码器的FOA/HOA输出)时,下混元数据使用如下:下混元数据指示哪些FOA/HOA分量已被发送。这些分量不需要在空间音频合成中计算,因为所发送的分量可以直接用于解码器输出。在空间声音合成中例如通过使用全向分量W(k,n)作为参考信号Pref,j(k,n)来计算所有其余的FOA/HOA分量。例如,在[Thiergart17]中描述了使用空间元数据来根据全向分量W(k,n)合成FOA/HOA分量。
使用组合的Ambisonics分量来进行FOA和HOA音频输入的灵活下混
在本实施例中,空间音频信号(即,编码器的音频输入信号)对应于FOA(一阶Ambisonics)或HOA(更高阶Ambisonics)音频信号。分别在图3和图4中描绘了编码器的对应块方案。在本实施例中,可以仅将两个下混信号从编码器发送到解码器以进一步降低传输声道所需的比特率。例如,如果存在源自于左半球的主要声能,则有利的是生成包括主要来自左半球的声能的下混声道和包括主要来自相反方向(即在本示例中为右半球)的声音的附加下混声道。这可以通过FOA或HOA音频输入信号分量的线性组合来实现,以使得所得信号对应于具有例如分别指向左半球和右半球的心形方向性模式的方向性麦克风信号。类似地,可以通过适当地组合FOA或HOA音频输入信号,来分别生成与分别指向前向和后向的一阶(或更高阶)方向性模式或任何其他所需方向性模式相对应的下混信号。
在图3中的“下混生成”块中的编码器中生成下混信号。从FOA或HOA信号分量的线性组合中获得下混信号。例如,在FOA音频输入信号的情况下,四个FOA信号分量对应于一个全向信号W(k,n)和三个偶极信号X(k,n)、Y(k,n)和Z(k,n),其中方向性模式与笛卡尔坐标系的x轴、y轴、z轴对齐。这四个信号通常称为B格式信号。可以通过四个B格式分量的线性组合获得的所得方向性模式通常称为一阶方向性模式。一阶方向性模式或对应的信号可以用不同的方式表达。例如,第m个下混信号Dm(k,n)可以用具有相关权重的B格式信号的线性组合来表示,即,
Dm(k,n)=am,WW(k,n)+am,XX(k,n)+am,YY(k,n)+am,ZZ(k,n)。
请注意,在HOA音频输入信号的情况下,可以使用可用的HOA系数类似地执行线性组合。在该示例中,线性组合的权重(即,权重am,W、am,X、am,Y和am,Z)确定所得方向性麦克风信号(即,第m个下混信号Dm(k,n))的方向性模式。在FOA音频输入信号的情况下,线性组合的所需权重可以计算为
am,W=cm
[am,X am,Y am,Z]T=(1-cm)wm
其中
此处,cm是所谓的一阶参数或形状参数,并且Φm和Θm是所生成的第m个方向性麦克风信号的查看方向的所需方位角和仰角。例如,对于cm=0.5,实现具有心形方向性的方向性麦克风,cm=1对应于全向特性,cm=0对应于偶极特性。换句话说,该参数cm描述了一阶方向性模式的一般形状。
线性组合的权重(例如am,W、am,X、am,Y和am,Z或对应的参数cm、Φm和Θm)描述了对应的方向性麦克风信号的方向性模式。该信息由图3中编码器中的下混参数表示,并作为元数据的一部分被发送到解码器。
可以使用不同的编码策略来有效地表示比特流中的下混参数,包括方向信息的量化或通过索引引用表条目,其中该表包括所有相关参数。
在一些实施例中,对于查看方向Φm和Θm以及形状参数cm仅使用有限数量的预设已经足够或更有效。这显然对应于也对权重am,W、am,X、am,Y和am,Z使用有限数量的预设。例如,形状参数可以限制为仅表示三种不同的方向性模式:全向、心形和偶极特性。可能的查看方向Φm和Θm的数量可以被限制,使得它们仅表示左、右、前、后、上和下的情况。
在另一个更简单的实施例中,形状参数保持固定并且总是对应于心形模式,或者根本没有定义形状参数。与查看方向相关联的下混参数用于发信号通知一对下混声道是对应于左/右还是前/后声道对配置,以使得解码器处的渲染过程可以使用最佳下混声道作为参考信号,以用于渲染位于左半球、右半球或前半球的某个扬声器声道。
在实际应用中,可以例如手动定义参数cm(通常为cm=0.5)。可以自动设置查看方向Φm和Θm(例如,通过使用现有技术声源定位方法来定位活动声源,并且将第一下混信号导向所定位的源以及将第二下混信号导向反方向)。
请注意,与前面的实施例类似,下混参数可以是时频相关的,即,可以对每个时间和频率使用不同的下混配置(例如,当根据在每个频带中独立定位的活动源方向引导下混信号时)。例如,可以通过利用时频相关空间参数中包含的信息来进行定位[Thiergart09]。
在图4解码器中的“空间音频合成”级中,使用所发送的空间参数(例如声音的DOA和扩散度)和如前面描述的下混音频声道Dm(k,n)的解码器输出信号(FOA/HOA输出、MC输出或对象输出)的计算必须适于实际使用的下混配置,这是由下混元数据指定的。
例如,当生成扬声器输出声道(MC输出)时,参考信号Pref,j(k,n)的计算必须适于实际使用的下混配置。更具体地,对第j个扬声器的参考信号Pref,j(k,n)的最合适的选择取决于下混信号的方向特性(例如,其查看方向)和第j个扬声器的位置。例如,如果下混元数据指示下混信号分别对应于指向左侧和右侧的两个心形麦克风信号,则位于左半球的扬声器的参考信号应主要或单独使用指向左侧的心形下混信号作为参考信号Pref,j(k,n)。位于中心的扬声器可以代替地使用两个下混信号的线性组合(例如,两个下混信号的和)。另一方面,如果下混信号分别对应于指向前方和后方的两个心形麦克风信号,则位于前半球的扬声器的参考信号应主要或单独使用指向前方的心形信号作为参考信号Pref,j(k,n)。
当在图4中的解码器中生成FOA或HOA输出时,参考信号Pref,j(k,n)的计算也必须适于实际使用的下混配置,该下混配置由下混元数据描述。例如,如果下混元数据指示下混信号分别对应于指向左侧和右侧的两个心形麦克风信号,则用于合成第一FOA分量(全向分量)的参考信号Pref,1(k,n)可以被计算为两个心形下混信号的和,即,
Pref,1(k,n)=D1(k,n)+D2(k,n)。
事实上,众所周知,具有相反查看方向的心形信号的和会产生全向信号。在这种情况下,Pref,1(k,n)直接产生所需FOA或HOA输出信号的第一分量,即该分量不需要进一步的空间声音合成。类似地,第三FOA分量(y方向的偶极分量)可以被计算为两个心形下混信号的差,即,
Pref,3(k,n)=D1(k,n)-D2(k,n)。
事实上,众所周知,具有相反查看方向的心形信号的差会导致偶极信号。在这种情况下,Pref,3(k,n)直接产生所需FOA或HOA输出信号的第三分量,即该分量不需要进一步的空间声音合成。所有其余FOA或HOA分量都可以根据包含来自所有方向的音频信息的全向参考信号合成。这意味着,在该示例中,两个下混信号的和用于合成其余FOA或HOA分量。如果下混元数据指示两个音频下混信号的不同方向性,则可以相应地调整参考信号Pref,j(k,n)的计算。例如,如果两个心形音频下混信号指向前方和后方(而不是左侧和右侧),则两个下混信号的差可用于生成第二FOA分量(x方向上的偶极分量)而不是第三FOA分量。通常,如上面的示例所示,可以通过接收到的下混音频信号的线性组合来找到最佳参考信号Pref,j(k,n),即,
Pref,j(k,n)=A1,jD1(k,n)+A2,jD2(k,n)
其中线性组合的权重A1,j和A2,j取决于下混元数据,即,取决于传输声道配置和所考虑的第j个参考信号(例如,当渲染到第j个扬声器时)。
请注意,例如在[Thiergart17]中描述了使用空间元数据来根据全向分量合成FOA或HOA分量。
通常,重要的是请注意,如果空间音频合成使用错误的下混信号作为参考信号以供渲染,则必须预期到空间音频质量会显著下降。例如,如果对应于指向左侧的心形麦克风的下混信号被用于为位于右半球的扬声器生成输出声道信号,则源自于输入声场的左半球的信号分量将主要指向再现系统的右半球,从而导致输出的空间图像不正确。
参数空间音频输入的灵活下混
在本实施例中,编码器的输入对应于所谓的参数空间音频输入信号,该参数空间音频输入信号包括由两个或更多个麦克风与空间声音的空间参数(例如,DOA和扩散度)一起组成的具有任意阵列配置的音频信号。
在图5中描绘本实施例的编码器。麦克风阵列信号用于在“下混生成”块中生成一个或多个音频下混信号。描述传输声道配置(例如下混信号是如何计算的或它们的一些属性)的下混参数与空间参数一起表示编码器元数据,在“元数据编码器”块中对该编码器元数据进行编码。请注意,(与之前的实施例相比)参数空间音频输入通常不需要空间音频分析步骤,因为空间参数已经作为输入提供给编码器。然而,请注意,参数空间音频输入信号的空间参数和由空间音频编码器生成的用于传输的比特流中包括的空间参数不一定相同。在这种情况下,必须在编码器处执行输入空间参数和用于传输的参数的转码或映射。例如使用基于EVS的音频编解码器在“核心编码器”块中对下混音频信号进行编码。经编码的音频下混信号和经编码的元数据形成被发送到解码器的比特流。对于解码器,图4中的相同块方案适用于先前的实施例。
在下文中,描述了可以如何生成音频下混信号和对应的下混元数据。
在第一示例中,通过选择可用输入麦克风信号的子集来生成音频下混信号。可以手动完成(例如,基于预设)或自动完成该选择。例如,如果具有M个间隔开的全向麦克风的均匀圆形阵列的麦克风信号用作空间音频编码器的输入,并且使用两个音频下混传输声道进行传输,则手动选择可以包括例如选择对应于阵列的前部和后部的麦克风的一对信号,或者对应于阵列的左侧和后侧的麦克风的一对信号。在解码器处合成空间声音时,选择前部和后部的麦克风作为下混信号可以很好地区分前面的声音和来自后面的声音。类似地,在解码器端渲染空间声音时,选择左侧和右侧的麦克风可以很好地区分沿y轴的空间声音。例如,如果录制的声源位于麦克风阵列的左侧,则分别在左侧和右侧麦克风处的源信号的到达时间存在差异。换句话说,信号首先到达左侧麦克风,然后到达右侧麦克风。因此,在解码器的渲染过程中,也很重要的是使用与左侧麦克风信号关联的下混信号来渲染位于左半球的扬声器,并且类似地使用与右侧麦克风信号关联的下混信号来渲染位于右半球的扬声器。否则,分别包括在左下混信号和右下混信号中的时间差将以不正确的方式导向扬声器,并且由扬声器信号引起的所得感知线索是不正确的,即收听者感知的空间音频图像也将不正确。类似地,重要的是能够在解码器处区分对应于前后或上下的下混声道,以实现最佳渲染质量。
可以通过考虑包含大部分声能或预期包含最相关的声能的笛卡尔平面来选择合适的麦克风信号。为了执行自动选择,可以执行例如现有技术声源定位,然后选择最接近对应于声源方向的轴的两个麦克风。可以应用类似的概念,例如,如果麦克风阵列由M个重合的方向性麦克风(例如心形方向性麦克风)而不是间隔开的全向麦克风组成。在这种情况下,可以选择朝向包含(或预期包含)大部分声能的笛卡尔轴的方向和相反方向的两个方向性麦克风。
在该第一示例中,下混元数据包含与所选择的麦克风有关的相关信息。该信息可以包含例如所选择的麦克风的麦克风位置(例如,根据笛卡尔坐标系中的绝对或相对坐标)和/或麦克风间距离和/或朝向(例如,按照极坐标系中的坐标,即根据方位角Φm和仰角和Θm)。此外,下混元数据可以包括关于所选择的麦克风的方向性模式的信息,例如,通过使用之前描述的一阶参数cm。
在解码器端(图4),在“空间音频合成”块中使用下混元数据以获得最佳渲染质量。例如,对于扬声器输出(MC输出),当下混元数据指示两个特定位置的两个全向麦克风被发送作为下混信号时,可以选择如前所述的从中生成扬声器信号的参考信号Pref,j(k,n)以对应于与第j个扬声器位置距离最小的下混信号。类似地,如果下混元数据指示发送了具有查看方向{Φm,Θm}的两个方向性麦克风,则可以选择Pref,j(k,n)以对应于具有朝向扬声器位置的最接近的查看方向的下混信号。备选地,如第二实施例中所解释,可以执行所发送的重合定向下混信号的线性组合。
当在解码器处生成FOA/HOA输出时,如果下混元数据指示已发送间隔开的全向麦克风,则可以(随意)选择单个下混信号来针对所有FOA/HOA分量生成直达声音。事实上,由于全向特性,每个全向麦克风都包含关于要再现的直达声音的相同信息。然而,为了生成扩散声参考信号可以考虑所有所发送的全向下混信号。事实上,如果声场是扩散的,则间隔开的全向下混信号将被部分地去相关,以使得生成互不相关的参考信号所需的去相关较少。可以通过使用例如[Vilkamo13]中提出的基于协方差的渲染方法来从所发送的下混音频信号中生成互不相关的参考信号。
众所周知,扩散声场中两个麦克风的信号之间的相关性在很大程度上取决于麦克风之间的距离:麦克风之间的距离越大,扩散声场中录制的信号相关性就越小[Laitinen11]。可以在解码器处使用与下混参数中包括的麦克风距离相关的信息来确定必须将下混声道合成地去相关的程度以适合渲染扩散声音分量。在下混信号由于足够大的麦克风间隔而已经充分去相关的情况下,甚至可以丢弃人工去相关并且可以避免任何与去相关相关的伪影。
当下混元数据指示例如如果重合的方向性麦克风信号已作为下混信号被发送时,则可以如第二实施例中所解释那样生成用于FOA/HOA输出的参考信号Pref,j(k,n)。
请注意,并非在编码器中选择麦克风的子集作为下混音频信号,而是可以选择所有可用的麦克风输入信号(例如两个或更多个)来作为下混音频信号。在这种情况下,下混元数据描述了整个麦克风阵列配置,例如,根据笛卡尔麦克风位置、极坐标系中的麦克风查看方向Φm和Θm,或根据一阶参数cm的麦克风方向性。
在第二示例中,在编码器中在“下混生成”块中使用输入麦克风信号的线性组合(例如,使用空间滤波(波束成形))来生成下混音频信号。在这种情况下,下混信号Dm(k,n)可以计算为
此处,x(k,n)是包含所有输入麦克风信号的向量,而是用于第m个音频下混信号的线性组合的权重,即,空间滤波器或波束成形器的权重。存在多种方法可以以最佳方式计算空间滤波器或波束成形器[Veen88]。在许多情况下,定义了查看方向{Φm,Θm},波束成形器指向该方向。然后可以计算波束成形器的权重,例如,作为延迟求和波束成形器或MVDR波束成形器[Veen88]。在本实施例中,为每个音频下混信号定义波束成形器查看方向{Φm,Θm}。这可以以与第二实施例中描述的相同的方式手动(例如,基于预设)或自动完成。表示不同音频下混信号的波束成形器信号的查看方向{Φm,Θm}然后可以表示传输到图4中的解码器的下混元数据。
另一个示例特别适用于在解码器(MC输出)处使用扬声器输出。在这种情况下,该下混信号Dm(k,n)用作波束成形器的查看方向最接近扬声器方向的Pref,j(k,n)。由下混元数据描述所需的波束成形器查看方向。
请注意,在所有示例中,传输声道配置(即下混参数)可以根据时频进行调整,例如,基于空间参数进行调整,与前面的实施例类似。
随后,关于相同的或附加的或另外的方面讨论本发明的另外的实施例或之前已经描述的实施例。
优选地,图6的传输表示发生器600包括图8a中所示的特征中的一个或若干个。特别地,提供了用于控制块602的能量位置确定器606。块602可以包括用于在输入是FOA或HOA信号时从Ambisonics系数信号中进行选择的选择器。备选地或附加地,能量位置确定器606控制用于组合Ambisonics系数信号的组合器。附加地或备选地,完成从多声道表示或从麦克风信号的选择。在这种情况下,输入具有麦克风信号或多声道表示,而不是FOA或HOA数据。附加地或备选地,如图8a中的602所示,执行声道组合或麦克风信号的组合。对于下面的两个备选方案,输入多声道表示或麦克风信号。
由一个或若干个块602生成的传输数据被输入到图6的传输表示发生器600中包括的传输元数据发生器605中,以便生成(经编码的)传输元数据610。
块602中的任何一个生成优选地未编码的传输表示614,其然后被诸如图3或图5所示的核心编码器603进一步编码。
概述了传输表示发生器600的实际实现方式可以仅包括图8a中的块602中的一个或图8a中所示的块中的两个或更多个。在后一种情况下,传输元数据发生器605被配置为附加地将另外的传输元数据项包括在传输元数据610中,该另外的传输元数据项指示:针对空间音频表示的哪个(时间和/或频率)部分,已经采用了在项602处指示的备选方案中的任一个。因此,图8a示出了其中只有一个备选方案602是活动的或者其中两个或更多个是活动的,并且可以在用于传输表示生成或下混与对应的传输元数据的不同备选方案之间执行信号相关的切换的情况。
图8b示出了可以由图6的传输表示发生器600生成并且可以由图7的空间音频合成器使用的不同传输元数据备选方案的表。传输元数据备选方案包括用于指示已选择一组音频输入数据分量的哪个子集作为传输表示的元数据的选择信息。例如,示例是从例如四个FOA分量中仅选择了两个或三个分量。备选地,选择信息可以指示已经选择了麦克风信号阵列的哪些麦克风信号。图8b的另一个备选方案是指示某个音频表示输入分量或信号如何被组合的组合信息。某个组合信息可以指用于线性组合的权重,或例如在相等或预定义的权重的情况下指哪些声道已经被组合。另外的信息指与某个传输信号相关联的扇区或半球信息。半球信息的扇区可以指针对收听位置的左扇区或右扇区或前扇区或后扇区,或者备选地,指比180°扇区小的扇区。
另外的实施例涉及指示形状参数的传输元数据,该形状参数涉及例如生成对应的传输表示信号的特定物理或虚拟麦克风方向性的形状。形状参数可以指示全向麦克风信号形状或心形麦克风信号形状或偶极麦克风信号形状或任何其他相关形状。另外的传输元数据备选方案涉及麦克风位置、麦克风朝向、麦克风之间的距离或麦克风的方向性模式,这些麦克风已生成或录制了在(经编码的)传输表示614中包括的传输表示信号。另外的实施例涉及传输表示中包括的信号的查看方向或多个查看方向,或者关于波束成形权重或波束成形器方向的信息,或者备选地或附加地,与所包括的麦克风信号是全向麦克风信号、心形麦克风信号还是其他信号有关。可以通过简单地包括指示传输信号是来自全向麦克风还是来自不同于全向麦克风的任何其他麦克风的麦克风信号的单个标志来生成非常小的传输元数据边(side)信息(相对于比特率)。
图8c示出了传输元数据发生器605的优选实现方式。特别地,对于数字传输元数据,传输元数据发生器包括传输元数据量化器605a或622和随后连接的传输元数据熵编码器605b。图8c中所示的过程也可以应用于参数元数据,特别是也可以应用于空间参数。
图9a示出了图7中的空间音频合成器750的优选实现方式。空间音频合成器750包括用于解释(经解码的)传输元数据710的传输元数据解析器。来自块752的输出数据被引入组合器/选择器/参考信号发生器760,其附加地接收从图7的输入接口700获得的传输表示中包括的传输信号711。基于传输元数据,组合器/选择器/参考信号发生器生成一个或多个参考信号,并且将这些参考信号转发到分量信号计算器770,该分量信号计算器计算合成空间音频表示的分量,诸如多声道输出的通用分量、FOA或HOA输出的Ambisonics分量、双耳表示或音频对象分量的左右声道,其中音频对象分量是单声道或立体声对象信号。
图9b示出了由例如在项611处指示的n个传输信号T1、T2、Tn组成并且附加地由传输元数据610和可选空间参数612组成的经编码的音频信号。图9b中仅示意性地示出了不同数据块的顺序和某个数据块相对于另一个数据块的大小。
图9c示出了针对特定传输元数据、特定传输表示和特定扬声器设置的组合器/选择器/参考信号发生器760的过程的概述表。特别地,在图9c的实施例中,传输表示例如包括左传输信号(或前传输信号或全向或心形信号),并且传输表示附加地包括作为右传输信号(或后传输信号、全向传输信号或心形传输信号)的第二传输信号T2。在左/右的情况下,选择左扬声器A的参考信号作为第一传输信号T1,而选择右扬声器的参考信号作为传输信号T2。对于左环绕和右环绕,如表771中概述的那样为相应声道选择左信号和右信号。对于中心声道,选择左传输信号T1和右传输信号T2之和作为合成空间音频表示的中心声道分量的参考信号。
在图9c中,示出了当第一传输信号T1是前传输信号并且第二传输信号T2是右传输信号时的另外选择。然后,为左、右、中心选择第一传输信号T1,并且为左环绕和右环绕选择第二传输信号T2。
图9d示出了图7的空间音频合成器的另一优选实现方式。在块910中,关于某个一阶Ambisonics或更高阶Ambisonics选择计算传输或下混数据。例如,图9d中示出了四种不同的选择备选方案,其中在第四备选方案中,仅选择了两个传输信号T1、T2而不是第三分量,在其他备选方案中是全向分量。
基于传输下混数据确定(虚拟)声道的参考信号,并且回退过程用于缺失的分量,即,用于关于图9d中的示例的第四分量,或在第四示例的情况下用于两个缺失的分量。然后,在块912处,使用从传输数据接收或导出的方向参数生成声道信号。因此,方向或空间参数可以被附加地接收,如图7中的712所示,或者可以通过传输表示信号的信号分析从传输表示导出。
在备选实现方式中,如块913中所指示的那样执行将分量选择为FOA分量,并且使用如图9d中的项914所示的空间基函数响应来执行缺失分量的计算。在图10中的块410处示出使用空间基函数响应的特定过程,其中在图10中,块826提供扩散部分的平均响应,而图10中的块410针对直达信号部分的每个模式m和阶l提供特定响应。
图9e示出了指示特定传输元数据的另一表,该特定传输元数据具体包括形状参数,或除了形状参数或作为形状参数的备选方案还包括查看方向。形状参数可以包括为1、0.5或0的形状因子cm。因子cM=1指示麦克风录制特性的全向形状,而因子0.5指示心形形状,值为0指示偶极形状。
在图9f中,示出了空间音频合成器的另一实现方式,其中在块910中,读取传输元数据,例如由图7的输入接口700或空间音频合成器750的输入端口完成。在块950中,参考信号确定适用于读取的传输元数据,例如由块760执行。然后,在块916中,使用经由块915获得的参考信号和可选地发送的参数数据712(如果可用)来计算多声道、FOA/HOA、对象或双耳输出,特别是这些类型的数据输出的特定分量。
图9g示出了组合器/选择器/参考信号发生器760的另一实现方式。例如,当传输元数据示出第一传输信号T1是左心形信号并且第二传输信号T2是右心形信号时,在块920中,通过将T1和T2相加来计算全向信号。如块921所概述的,通过获得T1与T2之间的差或T2与T1之间的差来计算偶极信号Y。然后,在块922中,使用全向信号作为参考来合成其余分量。在块922中用作参考的全向信号优选地是块920的输出。附加地,如在项712中所概述的,可选的空间参数也可以用于合成其余分量,诸如FOA或HOA分量。
图9h示出了当如块930中概述的那样接收两个或更多个麦克风信号作为传输表示以及接收相关联的传输元数据时,可由空间音频合成器或组合器/选择器/参考信号发生器760完成的过程的不同备选方案的另一实现方式。如块931中所概述的,可以执行如下操作:选择与例如某个扬声器位置相距最小距离的传输信号来作为某个信号分量的参考信号。块932中所示的另一备选方案包括选择如下麦克风信号作为特定扬声器的参考信号:具有最接近的查看方向,或例如相对于某个扬声器或虚拟声源(诸如双耳表示中的左/右)具有最接近的波束成形器或误差位置。块933中所示的另一个备选方案是选择任意传输信号作为所有直达声音分量的参考信号,诸如用于FOA或HOA分量的计算或扬声器信号的计算。在934处所示的另一个备选方案涉及使用所有可用的传输信号(诸如全向信号)来计算扩散声参考信号。另外的备选方案涉及基于传输元数据中包括的麦克风距离来设置或限制用于计算分量信号的相关量。
为了执行备选方案931至935中的一个或若干个的目的,若干相关联的传输元数据是有用的,其在图9h的右侧被指示为包括以下项:选择性麦克风的麦克风位置、麦克风间距离、诸如cM之类的麦克风朝向或方向性模式、阵列描述、波束成形因子wm或例如对于每个传输声道,实际的到达方向或具有方位角和仰角θ的声音方向。
图10示出了用于直达/扩散过程的低阶或中阶分量发生器的优选实现方式。特别地,低阶或中阶分量发生器包括参考信号发生器821,其优选地由传输元数据控制并且接收输入信号并且在输入信号是单声道信号时通过复制或照原样采用来生成参考信号,或通过利用如之前讨论的或如WO 2017/157803 A1中所示的计算从输入信号导出参考信号来生成参考信号,WO 2017/157803 A1的全部教导以引用方式整体并入本文中。
此外,图10示出了定向增益计算器410,其被配置为根据特定DOA信息(Φ,θ)以及根据特定模式数m和特定阶数l计算定向增益Gl m。在优选实施例中,对于由k,n引用的每个单独的瓦块在时/频域中进行处理,为每个这样的时间/频率瓦块计算方向增益。加权器820接收特定时间/频率瓦块的参考信号和扩散数据,并且加权器820的结果是直达部分。扩散部分由去相关滤波器823和随后的加权器824执行的处理生成,该加权器接收特定时间帧和频率仓的扩散值Ψ,特别是接收对由平均响应提供器826生成的Dl指示的特定模式m和阶l的平均响应,该平均响应提供器接收所需模式m和所需阶l作为输入。
加权器824的结果是扩散部分,并且通过加法器825将扩散部分加到直达部分,以获得特定m模式和特定l阶的特定中阶声场分量。优选地将关于图6讨论的扩散补偿增益仅应用于由块823生成的扩散部分。这可以有利地在由(扩散)加权器完成的过程内完成。因此,只有信号中的扩散部分被增强,以便补偿由未接收完整合成的较高分量引起的扩散能量损失,如图10中所示。
对于高阶分量发生器,图11中示出了仅直达部分生成。基本上,就直达分支而言,高阶分量发生器以与低阶或中阶分量发生器相同的方式实现,但不包括块823、824、825和826。因此,高阶分量发生器仅包括(直达)加权器822,其从定向增益计算器410接收输入数据并且从参考信号发生器821接收参考信号。优选地,仅生成用于高阶分量发生器和低阶或中阶分量发生器的单个参考信号。然而,视情况而定,两个块也可以具有单独的参考信号发生器。然而,优选仅具有单个参考信号发生器。因此,由高阶分量发生器执行的处理非常有效,因为仅要执行具有特定方向增益Gl m的单个加权方向,以及特定的时间/频率瓦块的扩散信息Ψ。因此,可以非常有效和迅速地生成高阶声场分量,并且通过增强低阶声音场分量或优选地中阶声场分量的仅扩散部分,可以很容易地补偿由于输出信号中未生成扩散分量或未使用扩散分量而导致的任何错误。图11中所示的过程也可用于生成低阶或中阶分量。
因此,图10示出了具有扩散部分的低阶或中阶声场分量的生成,而图11示出了计算高阶声场分量或通常不需要或不接收任何扩散部分的分量的过程。
然而,在生成声场分量时,特别是对于FOA或HOA表示,可以应用具有扩散部分的图10的过程或没有扩散部分的图11的过程。参考信号发生器821、760在图10和图11的两个过程中都由传输元数据控制。此外,加权器822不仅由空间基函数响应Gl n控制,而且优选地还由诸如扩散参数712、722之类的空间参数控制。此外,在优选实施例中,扩散部分的加权器824也由传输元数据,特别是由麦克风距离控制。图10中的示意图中示出了麦克风距离D与加权因子W之间的特定关系。大的距离D导致小的加权因子,而小的距离导致大的加权因子。因此,当传输信号表示中包括两个彼此相距很远的麦克风信号时,可以假设两个麦克风信号已经非常去相关,因此,去相关滤波器的输出可以用接近于零的加权因子进行加权,从而最终输入到加法器825的信号与从直达加权器822输入到加法器的信号相比非常小。在极端情况下,甚至可以关闭相关分支,从而例如可以通过设置权重W=0来实现。当然,还有其他方法通过使用阈值运算等计算出的开关来关闭扩散分支。
当然,图10所示的分量生成可以通过仅通过传输元数据控制参考信号发生器821、760而无需权重器804的控制来执行,或者备选地,通过仅控制权重器804而无需任何参考信号生成控制块821、760来执行。
图11示出了缺失扩散分支并且因此也没有执行对图10的扩散加权器824的任何控制的情况。
图10和图12示出了包括去相关滤波器823和加权器824的特定扩散信号发生器830。当然,加权器824和去相关滤波器823之间的信号处理的顺序可以交换,以使得所生成的参考信号的加权或参考信号发生器821、760的输出在信号被输入到去相关滤波器823之前执行。
虽然图10示出了诸如FOA或HOA之类的声场分量表示的低阶或中阶声场分量的生成,即具有球形或圆柱形分量信号的表示,但图12示出了用于扬声器分量信号或对象的计算的备选方案或通用实现方式。特别地,对于扬声器信号/对象的生成和计算,提供了对应于图9a的块760的参考信号发生器821、760。此外,对于直达分支,图9a中所示的分量信号计算器770包括加权器822,而对于扩散分支,扩散信号发生器830包括去相关滤波器823和加权器824。此外,图9a的分量信号计算器770另外包括执行直达信号Pdir和扩散信号Pdiff的相加的加法器825。加法器的输出是(虚拟)扬声器信号或对象信号或双耳信号,如示例参考数字755、756所示。特别地,参考信号计算器821、760由传输元数据710控制,并且扩散加权器824也可以由传输元数据710控制。通常,分量信号计算器例如使用诸如VBAP(虚拟基础幅度平移)增益之类的平移增益计算直达部分。从优选地以方位角和仰角θ给出的到达方向信息导出增益。这导致直达部分Pdir。
此外,由参考信号计算器Pref生成的参考信号被输入到去相关滤波器823以获得去相关参考信号,然后该信号被加权,优选地使用扩散参数并且还优选地使用从传输元数据710获得的麦克风距离。加权器824的输出是扩散分量Pdiff,并且加法器825将直达分量和扩散分量相加以获得用于对应表示的某个扬声器信号或对象信号或双耳声道。具体地,当计算虚拟扬声器信号时,可以如图9c中所示执行由参考信号计算器821、760响应于传输元数据而执行的过程。备选地,可以将参考信号生成为从定义的收听位置指向特定说话者的声道,并且可以使用传输表示中包括的信号的线性组合来执行参考信号的这种计算。
作为列表的本发明的优选实施例
基于FOA的输入
·空间音频场景编码器
ο接收表示空间音频场景的空间音频输入信号(例如FOA分量)
ο生成或接收包括至少一个方向参数的空间音频参数
ο基于接收到的音频输入信号生成下混音频信号(选项:还使用空间音频参数进行自适应下混生成)
ο生成描述下混信号的方向属性的下混参数(例如下混系数或方向性模式)
ο对下混信号、空间音频参数和下混参数进行编码。
·空间音频场景解码器
ο接收包括下混音频信号、空间音频参数和下混参数的经编码的空间音频场景
ο对下混音频信号、空间音频参数和下混/传输声道参数进行解码
ο用于基于下混音频信号、空间音频参数和下混(位置)参数对经解码的表示进行空间渲染的空间音频渲染器。
基于间隔麦克风录制和相关空间元数据的输入(参数空间音频输入):
·空间音频场景编码器
ο生成或接收从录制的麦克风信号生成的至少两个空间音频输入信号
ο生成或接收包括至少一个方向参数的空间音频参数
ο生成或接收描述从录制的麦克风信号生成的空间音频输入信号的几何或位置特性的位置参数(例如,麦克风的相对或绝对位置或麦克风间距)
ο对从空间音频输入信号、空间音频参数和位置参数导出的空间音频输入信号或下混信号进行编码。
·空间音频场景解码器
ο接收包括至少两个音频信号、空间音频参数和位置参数(与音频信号的位置属性相关)的经编码的空间音频场景。
ο对音频信号、空间音频参数和位置参数进行解码
ο用于基于音频信号、空间音频参数和位置参数对经解码的表示进行空间渲染的空间音频渲染器。
尽管已经在装置的背景下中描述了一些方面,但很明显,这些方面也表示了对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的背景下描述的方面也表示对应装置的对应块或项或特征的描述。
取决于某些实现方式要求,本发明的实施例可以以硬件或软件来实现。该实现方式可以使用数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,它们具有存储在其上的电子可读控制信号,它们与可编程计算机系统协作(或能够与可编程计算机系统合作),从而执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,这些控制信号能够与可编程计算机系统协作,从而执行本文所述的方法中的一项。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作用于执行方法中的一项。程序代码可以例如被存储在机器可读载体上。
其他实施例包括用于执行本文描述的方法中的一项的计算机程序,该计算机程序被存储在机器可读载体或非暂时性存储介质上。
换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文描述的方法中的一项。
因此,本发明方法的另一实施例是数据载体(或数字存储介质,或计算机可读介质),其上记录有用于执行本文所述方法中的一项的计算机程序。
因此,本发明方法的另一实施例是表示用于执行本文描述的方法中的一项的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)来传输。
另一实施例包括处理装置,例如计算机或可编程逻辑设备,其被配置为或适合于执行本文所述的方法中的一项。
另一实施例包括其上安装有用于执行本文所述方法中的一项的计算机程序的计算机。
在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作以执行本文所述方法中的一项。通常,这些方法优选地由任何硬件设备执行。
上述实施例仅用于说明本发明的原理。应当理解,对本领域技术人员而言,本文描述的布置和细节的修改和变化将是显而易见的。因此,其意图是仅受限于即将到来的专利权利要求的范围,而不是受限于通过本文实施例的描述和解释呈现的具体细节。
参考资料
[Pulkki07]V.Pulkki,“Spatial Sound Reproduction with Directional AudioCoding”(使用方向性音频编码的空间声音再现),J.Audio Eng.Soc.,第55卷第6期第503-516页;2007年6月。
[Pulkki97]V.Pulkki,“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”(使用基于向量的幅度平移的虚拟声源定位)J.AudioEng.Soc.,第45卷第6期第456-466页;1997年6月。
[Thiergart09]O.Thiergart、R.Schultz-Amling、G.Del Galdo、D.Mahne、F.Kuech,“Localization of Sound Sources in Reverberant Environments Based onDirectional Audio Coding Parameters”(基于定向音频编码参数的混响环境中的声源定位),AES公约127,论文编号7853,2009年10月。
[Thiergart17]O.Thiergart等人的WO2017157803 A1,“APPARATUS,METHOD ORCOMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION”(用于生成声场描述的装置、方法或计算机程序)。
[Laitinen11]M.Laitinen、F.Kuech、V.Pulkki,“Using Spaced Microphoneswith Directional Audio Coding”(使用带定向音频编码的间隔麦克风),AES公约130,论文编号8433,2011年5月。
[Vilkamo13]J.Vilkamo、V.Pulkki,“Minimization of Decorrelator Artifactsin Directional Audio Coding by Covariance Domain Rendering”(通过协方差域渲染将定向音频编码中的去相关器伪影最小化),J.Audio Eng.Soc,第61卷,第9期,2013年9月。
[Veen88]B.D.Van Veen、K.M.Buckley,“Beamforming:a versatile approach tospatial filtering”(波束成形:空间滤波的通用方法),IEEE ASSP Mag.,第5卷,第2期,第4-24页,1998。
[1]V.Pulkki、M-V Laitinen、J Vilkamo、J Ahonen、T Lokki和T“Directional audio coding-perception-based reproduction of spatial sound”(方向性音频编码-基于感知的空间声音再现),空间听觉原理和应用国际研讨会,2009年11月,Zao;日本宫城。
[2]M.V.Laitinen和V.Pulkki,“Converting 5.1audio recordings to B-formatfor directional audio coding reproduction”(将5.1录音转换为B格式以进行定向音频编码再现),2011年IEEE国际声学、语音和信号处理会议(ICASSP),布拉格,2011年,第61-64页。
[3]R.K.Furness,“Ambisonics—An overview”(Ambisonics—概述),AES第八届国际会议,1990年4月,第181-189页。
[4]C.Nachbar、F.Zotter、E.Deleflie和A.Sontacchi,“AMBIX–ASuggestedAmbisonics Format”(AMBIX-建议的Ambisonics格式),2011年Ambisonics研讨会论文集。
Claims (45)
1.一种用于对表示音频场景的空间音频表示进行编码以获得经编码的音频信号的装置,所述装置包括:
传输表示发生器(600),用于根据所述空间音频表示来生成传输表示,并且用于生成与所述传输表示的生成有关或指示所述传输表示的一个或多个方向属性的传输元数据;以及
输出接口(640),用于生成所述经编码的音频信号,所述经编码的音频信号包括与所述传输表示有关的信息以及与所述传输元数据有关的信息。
2.根据权利要求1所述的装置,还包括:参数处理器(620),用于根据所述空间音频表示来导出空间参数,
其中所述输出接口(640)被配置用于生成所述经编码的音频信号,使得所述经编码的音频信号附加地包括与所述空间参数有关的信息。
3.根据权利要求1或2所述的装置,
其中所述空间音频表示是包括多个系数信号的一阶Ambisonics或更高阶Ambisonics表示,或者是包括多个音频声道的多声道表示,
其中所述传输表示发生器(600)被配置为从所述一阶Ambisonics或更高阶Ambisonics表示中选择一个或多个系数信号,或者组合来自所述一阶Ambisonics或更高阶Ambisonics表示的系数,或者其中所述传输表示发生器(600)被配置为从所述多声道表示中选择一个或多个音频声道,或者组合来自所述多声道表示的两个或更多个音频声道,并且
其中所述传输表示发生器(600)被配置为生成如下内容作为所述传输元数据:指示选择了哪个或哪些特定的一个或多个系数信号或音频声道的信息,或者指示如何组合了两个或更多个系数信号或音频声道或者组合了所述一阶Ambisonics或更高阶Ambisonics系数信号或音频声道中的哪些的信息。
4.根据权利要求1、2或3所述的装置,
其中所述传输表示发生器(600)被配置为确定大部分声能是否位于水平平面中,或者
其中响应于所述确定或响应于音频编码器设置,仅选择全向系数信号、X系数信号和Y系数信号作为所述传输表示,并且
其中所述传输表示发生器(600)被配置为确定所述传输元数据以使得所述传输元数据包括与对系数信号的选择有关的信息。
5.根据权利要求1、2或3所述的装置,
其中所述传输表示发生器(600)被配置为确定大部分声能是否位于x-z平面中,或者
其中响应于所述确定或响应于音频编码器设置,仅选择全向系数信号、X系数信号和Z系数信号作为所述传输表示,并且
其中所述传输表示发生器(600)被配置为确定所述传输元数据以使得所述传输元数据包括与对系数信号的选择有关的信息。
6.根据权利要求1、2或3所述的装置,
其中所述传输表示发生器(600)被配置为确定大部分声能是否位于y-z平面中,或者
其中响应于所述确定或响应于音频编码器设置,仅选择全向系数信号、Y系数信号和Z系数信号作为所述传输表示,并且
其中所述传输表示发生器(600)被配置为确定所述传输元数据以使得所述传输元数据包括与对系数信号的选择有关的信息。
7.根据权利要求1、2或3所述的装置,
其中所述传输表示发生器(600)被配置为确定主要声能是否源自特定扇区或半球,例如左半球或右半球或前半球或后半球,或者
其中所述传输表示发生器(600)被配置为根据主要声能所源自的所述特定扇区或半球或响应于音频编码器设置来生成第一传输信号,以及根据不同的扇区或半球来生成第二传输信号,所述不同的扇区或半球是例如相对于参考位置以及相对于所述特定扇区或半球具有相反方向的扇区或半球,以及
其中所述传输表示发生器(600)被配置为确定所述传输元数据以使得所述传输元数据包括识别所述特定扇区或半球的信息,或者识别所述不同的扇区或半球的信息。
8.根据前述权利要求中的一项所述的装置,
其中所述传输表示发生器(600)被配置为组合所述空间音频表示的系数信号,使得作为第一传输信号的第一所得信号对应于指向特定扇区或半球的方向性麦克风信号,并且作为第二传输信号的第二所得信号对应于指向不同扇区或半球的方向性麦克风信号。
9.根据前述权利要求中的一项所述的装置,还包括:用户接口(650),用于接收用户输入,
其中所述传输表示发生器(600)被配置为基于在所述用户接口(650)处接收到的用户输入来生成所述传输表示,以及
其中所述传输表示发生器(600)被配置为生成所述传输元数据以使得所述传输元数据具有与所述用户输入有关的信息。
10.根据前述权利要求中的一项所述的装置,
其中所述传输表示发生器(600)被配置为以时变或频率相关的方式来生成所述传输表示和所述传输元数据,以使得第一帧的传输表示和传输元数据与第二帧的传输表示和传输元数据不同,或者使得第一频带的传输表示和传输元数据与不同的第二频带的传输表示和传输元数据不同。
11.根据前述权利要求中的一项所述的装置,
其中所述传输表示发生器(600)被配置为通过所述空间音频表示的两个或更多个系数信号的加权组合(602)来生成一个或两个传输信号,以及
其中所述传输表示发生器(600)被配置为计算所述传输元数据以使得所述传输元数据包括与在所述加权组合中使用的权重有关的信息、或与作为所生成的方向性麦克风信号的查看方向的方位角和/或仰角有关的信息、或与指示方向性麦克风信号的方向特性的形状参数有关的信息。
12.根据前述权利要求中的一项所述的装置,
其中所述传输表示发生器(600)被配置为生成定量传输元数据,以量化(605a)所述定量传输元数据以获得经量化的传输元数据,并对所述经量化的传输元数据进行熵编码(605b),并且其中所述输出接口(640)被配置为将经编码的传输元数据包括到所述经编码的音频信号中。
13.根据权利要求1至11中的一项所述的装置,
其中所述传输表示发生器(600)被配置为将所述传输元数据转换为表索引或预设参数,以及
其中所述输出接口(640)被配置为将所述表索引或预设参数包括在所述经编码的音频信号中。
14.根据前述权利要求中的一项所述的装置,
其中所述空间音频表示包括至少两个音频信号和空间参数,
其中所述参数处理器(620)被配置为通过从所述空间音频表示中提取所述空间参数来从所述空间音频表示中导出所述空间参数,
其中所述输出接口(640)被配置为将与所述空间参数有关的信息包括在所述经编码的音频信号中,或将与从所述空间参数中导出的经处理的空间参数有关的信息包括在所述经编码的音频信号中,或者
其中所述传输表示发生器(600)被配置为:选择所述至少两个音频信号的子集作为所述传输表示并且生成所述传输元数据以使得所述传输元数据指示对所述子集的选择,或者组合所述至少两个音频信号或所述至少两个音频信号的子集并且计算所述传输元数据以使得所述传输元数据包括与为计算所述空间音频表示的所述传输表示而执行的音频信号的组合有关的信息。
15.根据前述权利要求中的一项所述的装置,
其中所述空间音频表示包括由麦克风阵列获取的一组至少两个麦克风信号,
其中所述传输表示发生器(600)被配置为选择与特定位置或与所述麦克风阵列的特定麦克风相关联的一个或多个特定麦克风信号,并且
其中所述传输元数据包括与如下内容有关的信息:所述特定位置或所述特定麦克风,或与选择的麦克风信号相关联的位置之间的麦克风距离;或者包括与如下内容有关的信息:与选择的麦克风信号相关联的麦克风的麦克风朝向,或与选择的麦克风相关联的麦克风信号的麦克风方向模式。
16.根据权利要求15所述的装置,
其中所述传输表示发生器(600)被配置为:
根据由用户接口接收的用户输入来选择所述空间音频表示的一个或多个信号(650),
对所述空间音频表示执行(606)关于哪个位置具有哪种声能的分析,并且根据分析结果来选择(602)所述空间音频表示的一个或多个信号,或者
执行声源定位并且根据所述声源定位的结果来选择(602)所述空间音频表示的一个或多个信号。
17.根据权利要求1至15中的一项所述的装置,
其中所述传输表示发生器(600)被配置为选择空间音频表示的所有信号,并且
其中所述传输表示发生器(600)被配置为生成所述传输元数据以使得所述传输元数据识别从中导出所述空间音频表示的麦克风阵列。
18.根据前述权利要求中的一项所述的装置,
其中所述传输表示发生器(600)被配置为使用空间滤波或波束成形来组合(602)包括在所述空间音频表示中的音频信号,并且
其中所述传输表示发生器(600)被配置为将与所述传输表示的查看方向有关的信息或将与在计算所述传输表示时使用的波束成形权重有关的信息包括在所述传输元数据中。
19.根据前述权利要求中的一项所述的装置,
其中所述空间音频表示是对与参考位置相关的声场的描述,以及
其中参数处理器(620)被配置为从所述空间音频表示中导出空间参数,其中所述空间参数定义与声音在所述参考位置的到达方向有关的时变参数或频率相关参数,或与所述声场在所述参考位置的扩散度有关的时变参数或频率相关参数,或者
其中所述传输表示发生器(600)包括下混器(601),所述下混器用于生成下混表示作为所述传输表示,所述下混表示具有少于所述空间音频表示中包括的第一数量的独立信号的第二数量的独立信号,其中所述下混器(601)被配置为选择所述空间音频表示中包括的独立信号的子集,或者组合所述空间音频表示中包括的独立信号以便将第一数量的信号减少为第二数量的信号。
20.根据前述权利要求中的一项所述的装置,
其中参数处理器(620)包括空间音频分析器(621),所述空间音频分析器用于通过执行音频信号分析来从所述空间音频表示中导出所述空间参数,以及
其中所述传输表示发生器(600)被配置为基于所述空间音频分析器(621)的结果来生成所述传输表示,或者
其中所述传输表示包括核心编码器(603),所述核心编码器用于对所述传输表示的传输信号的一个或多个音频信号进行核心编码,或者
其中所述参数处理器(620)被配置为对所述空间参数进行量化和熵编码(622),以及
其中所述输出接口(640)被配置为将经核心编码的传输表示(611)作为与所述传输表示有关的信息包括在所述经编码的音频信号中,或者将经熵编码的空间参数(612)作为与空间参数有关的信息包括在所述经编码的音频信号中。
21.一种用于对经编码的音频信号进行解码的装置,包括:
输入接口(700),用于接收经编码的音频信号,所述经编码的音频信号包括与传输表示有关的信息和与传输元数据有关的信息;以及
空间音频合成器(750),用于使用所述与传输表示有关的信息和所述与传输元数据有关的信息来合成空间音频表示。
22.根据权利要求21所述的装置,其中所述输入接口(700)被配置为接收附加地包括与空间参数有关的信息的经编码的音频信号,以及
其中所述空间音频合成器(750)被配置用于附加地使用所述与空间参数有关的信息来合成所述空间音频表示。
23.根据权利要求21或22所述的装置,其中所述空间音频合成器(750)包括:
核心解码器(751),用于对表示所述与传输表示有关的信息的两个或更多个经编码的传输信号进行核心解码,以获得两个或更多个经解码的传输信号,或者
其中所述空间音频合成器(750)被配置为计算所述空间音频表示的一阶Ambisonics或更高阶Ambisonics表示(754)或多声道信号(755)或对象表示(756)或双耳表示,或者
其中所述空间音频合成器(750)包括元数据解码器(752),所述元数据解码器用于对所述与传输元数据有关的信息进行解码以导出经解码的传输元数据(720),或用于对所述与空间参数有关的信息(722)进行解码以获得经解码的空间参数。
24.根据权利要求21、22或23所述的装置,
其中所述空间音频表示包括多个分量信号,
其中所述空间音频合成器(750)被配置为使用所述与传输表示(711)有关的信息和所述与传输元数据(710)有关的信息来针对所述空间音频表示的分量信号确定(760)参考信号,以及
使用所述参考信号和所述与空间参数有关的信息来计算(770)所述空间音频表示的分量信号,或使用所述参考信号来计算(770)所述空间音频表示的分量信号。
25.根据权利要求22至24中的一项所述的装置,
其中所述空间参数包括时变或频率相关的到达方向或扩散度参数中的至少一个,
其中所述空间音频合成器(750)被配置为使用所述空间参数来执行方向性音频编码(DirAC)合成,以生成所述空间音频表示的多个不同分量,
其中所述空间音频表示的第一分量是使用至少两个传输信号中的一个或所述至少两个传输信号的第一组合来确定的,
其中所述空间音频表示的第二分量是使用所述至少两个传输信号中的另一个或所述至少两个传输信号的第二组合来确定的,
其中所述空间音频合成器(750)被配置为根据所述传输元数据来执行(760)对所述至少两个传输信号中的一个或不同的一个的确定,或执行(760)对所述第一组合或不同的所述第二组合的确定。
26.根据权利要求21至25中的一项所述的装置,
其中所述传输元数据将第一传输信号指示为涉及与所述空间音频表示的参考位置相关的第一扇区或半球,并且将第二传输信号指示为涉及与所述空间音频表示的所述参考位置相关的不同的第二扇区或半球,
其中所述空间音频合成器(750)被配置为使用所述第一传输信号而不使用所述第二传输信号来生成(915)所述空间音频表示的与所述第一扇区或半球相关联的分量信号,或者其中所述空间音频合成器(750)被配置为使用所述第二传输信号而不使用所述第一传输信号来生成(915)所述空间音频表示的与所述第二扇区或半球相关联的另一分量信号,或者
其中所述空间音频合成器(750)被配置为使用所述第一传输信号和所述第二传输信号的第一组合来生成(915)与所述第一扇区或半球相关联的分量信号,或者使用所述第一传输信号和所述第二传输信号的第二组合来生成(915)与不同的第二扇区或半球相关联的分量信号,其中所述第一组合受所述第一传输信号的影响比所述第二组合更强,或者其中所述第二组合受所述第二传输信号的影响比第一组合更强。
27.根据权利要求21至26中的一项所述的装置,
其中所述传输元数据包括与如下内容有关的信息:与所述传输表示的传输信号相关联的方向特性,
其中所述空间音频合成器(750)被配置为使用一阶Ambisonics或更高阶Ambisonics信号、扬声器位置和所述传输元数据来计算(911)虚拟麦克风信号,或者
其中所述空间音频合成器(750)被配置为使用所述传输元数据来确定(911)所述传输信号的方向特性,并且与所述传输信号的所确定的方向特性一致地确定所述传输信号中的一阶Ambisonics或更高阶Ambisonics分量(754),或者
根据回退过程确定(911)与所述传输信号的所述方向特性无关的一阶Ambisonics或更高阶Ambisonics分量(754)。
28.根据权利要求21至27中的一项所述的装置,
其中所述传输元数据包括与如下内容有关的信息:与第一传输信号相关联的第一查看方向,以及与第二传输信号相关联的第二查看方向,
其中所述空间音频合成器(750)被配置为基于所述传输元数据和与所述空间音频表示的分量信号相关联的扬声器的位置来选择(771)用于计算所述空间音频表示的所述分量信号的参考信号。
29.根据权利要求28所述的装置,
其中所述第一查看方向指示左半球或前半球,其中所述第二查看方向指示右半球或后半球,
其中,对于左半球中的扬声器的分量信号的计算,使用所述第一传输信号而不是所述第二传输信号(771),或者其中对于右半球中的扬声器信号的计算,使用所述第二传输信号而不是所述第一传输信号(771),或者
其中对于前半球中的扬声器的计算,使用所述第一传输信号而不是所述第二传输信号(771),或者其中对于后半球中的扬声器的计算,使用所述第二传输信号而不是所述第一传输信号(771),或者
其中对于中心区域中的扬声器的计算,使用左传输信号和所述第二传输信号的组合(771),或者其中对于与前半球和后半球之间的区域中的扬声器相关联的扬声器信号的计算,使用所述第一传输信号和所述第二传输信号的组合(771)。
30.根据权利要求21至29中的一项所述的装置,
其中所述与传输元数据有关的信息指示左传输信号的左方向作为第一查看方向,并且指示第二传输信号的右查看方向作为第二查看方向,
其中所述空间音频合成器(750)被配置为通过将所述第一传输信号和所述第二传输信号相加(920)来计算第一Ambisonics分量,或者通过将所述第一传输信号和所述第二传输信号相减(921)来计算第二Ambisonics分量,或者其中使用所述第一传输信号和所述第二传输信号的和来计算(922)另一Ambisonics分量。
31.根据权利要求21至27中的一项所述的装置,
其中所述传输元数据针对第一传输信号指示前查看方向并且针对第二传输信号指示后查看方向,
其中所述空间音频合成器(750)被配置为通过执行对所述第一传输信号与所述第二传输信号之间的差值(921)的计算来计算x方向的一阶Ambisonics分量,并且使用所述第一传输信号和所述第二传输信号的相加(920)来计算全向一阶Ambisonics分量,以及
使用所述第一传输信号和所述第二传输信号的和来计算(922)另一个一阶Ambisonics分量。
32.根据权利要求21至26中的一项所述的装置,
其中所述传输元数据指示与所述传输表示的传输信号的加权系数或查看方向有关的信息,
其中所述空间音频合成器(750)被配置为使用与所述查看方向或所述加权系数有关的信息、使用所述传输信号和所述空间参数来计算(932)所述空间音频表示的不同的一阶Ambisonics分量,或者其中所述空间音频合成器(750)被配置为使用与所述查看方向或所述加权系数有关的信息并使用所述传输信号来计算(932)所述空间音频表示的不同的一阶Ambisonics分量。
33.根据权利要求21至32中的一项所述的装置,
其中所述传输元数据包括与在两个不同位置处或在不同查看方向下从麦克风信号中导出的传输信号有关的信息,
其中所述空间音频合成器(750)被配置为选择(931)位置最接近扬声器位置的参考信号,或者选择(932)相对于从所述空间音频表示的参考位置到扬声器位置的方向具有最接近的查看方向的参考信号,或者
其中所述空间音频合成器(750)被配置为执行所述传输信号的线性组合(771),以确定被放置在由所述传输元数据指示的两个查看方向之间的扬声器的参考信号。
34.根据权利要求21至33中的一项所述的装置,
其中所述传输元数据包括与如下内容有关的信息:与所述传输信号相关联的麦克风位置之间的距离,
其中所述空间音频合成器(750)包括扩散信号发生器(830、823、824),并且其中所述扩散信号发生器(830、823、824)被配置为使用与所述距离有关的信息来控制由所述扩散信号发生器生成的扩散信号中的去相关信号的量,以使得与针对第二距离的去相关信号的量相比,针对第一距离在所述扩散信号中包括更大量的去相关信号,其中所述第一距离小于所述第二距离,或者
其中所述空间音频合成器(750)被配置为:针对所述麦克风位置之间的第一距离,使用去相关滤波器(823)的输出信号以及利用从声音到达方向信息中导出的增益进行加权(822)的参考信号来计算所述空间音频表示的分量信号,所述去相关滤波器被配置用于对参考信号或缩放的参考信号进行去相关;以及针对所述麦克风位置之间的第二距离,使用利用从声音到达方向信息中导出的增益进行加权(822)的所述参考信号来计算所述空间音频表示的分量信号,而不进行任何去相关处理,所述第二距离大于所述第一距离或大于距离阈值。
35.根据权利要求21至34中的一项所述的装置,
其中所述传输元数据包括与如下内容有关的信息:与所述传输表示的所述传输信号相关联的波束成形或空间滤波,以及
其中所述空间音频合成器(750)被配置为使用如下传输信号来生成(932)扬声器的扬声器信号:具有最接近从所述空间音频表示的参考位置到所述扬声器的查看方向的查看方向的传输信号。
36.根据权利要求21至35中的一项所述的装置,
其中所述空间音频合成器(750)被配置为将所述空间音频表示的分量信号确定为直达声音分量和扩散声音分量的组合(825),其中所述直达声音分量是通过使用取决于扩散度参数或方向参数的因子缩放(822)参考信号来获得的,其中所述方向参数取决于声音的到达方向,其中对所述参考信号的确定是基于所述与传输元数据有关的所述信息来执行(821、760)的,并且其中所述扩散声音分量是使用相同的所述参考信号和所述扩散度参数来确定(823、824)的。
37.根据权利要求21至36中的一项所述的装置,
其中所述空间音频合成器(750)被配置为将所述空间音频表示的分量信号确定为直达声音分量和扩散声音分量的组合(825),其中所述直达声音分量是通过使用取决于扩散度参数或方向参数的因子缩放(822)参考信号来获得的,其中所述方向参数取决于声音的到达方向,其中对所述参考信号的确定是基于所述与传输元数据有关的所述信息来执行(821、760)的,并且其中所述扩散声音分量是使用去相关滤波器(823)、相同的所述参考信号以及所述扩散度参数来确定(823、824)的。
38.根据权利要求21至37中的一项所述的装置,其中所述传输表示包括至少两个不同的麦克风信号,
其中所述传输元数据包括指示至少两个不同的麦克风信号是否是全向信号、偶极信号或心形信号中的至少一者的信息,以及
其中所述空间音频合成器被配置用于:使参考信号确定适用(915)于所述传输元数据,以针对所述空间音频表示的分量确定独立参考信号;以及使用针对相应的分量确定的独立参考信号来计算(916)所述相应的分量。
39.一种用于对表示音频场景的空间音频表示进行编码以获得经编码的音频信号的方法,所述方法包括:
根据所述空间音频表示生成传输表示;
生成与所述传输表示的生成相关或指示所述传输表示的一个或多个方向属性的传输元数据;以及
生成经编码的音频信号,所述经编码的音频信号包括与所述传输表示有关的信息以及与所述传输元数据有关的信息。
40.根据权利要求39所述的方法,还包括:从所述空间音频表示中导出空间参数,并且其中所述经编码的音频信号附加地包括与所述空间参数有关的信息。
41.一种用于对经编码的音频信号进行解码的方法,所述方法包括:
接收包括与传输表示有关的信息和与传输元数据有关的信息的经编码的音频信号;以及
使用与传输表示有关的所述信息和与传输元数据有关的所述信息来合成空间音频表示。
42.根据权利要求41所述的方法,还包括:接收与空间参数有关的信息,并且其中所述合成附加地使用所述与空间参数有关的信息。
43.一种计算机程序,所述计算机程序当在计算机或处理器上运行时用于执行根据权利要求39至42中任一项所述的方法。
44.一种经编码的音频信号,包括:
与空间音频表示的传输表示(611)有关的信息;以及
与传输元数据(610)有关的信息。
45.根据权利要求44所述的经编码的音频信号,还包括与如下内容有关的信息:与所述传输表示(611)相关联的空间参数(612)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19152911 | 2019-01-21 | ||
EP19152911.4 | 2019-01-21 | ||
PCT/EP2020/051396 WO2020152154A1 (en) | 2019-01-21 | 2020-01-21 | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113490980A true CN113490980A (zh) | 2021-10-08 |
Family
ID=65236852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080010287.XA Pending CN113490980A (zh) | 2019-01-21 | 2020-01-21 | 用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20210343300A1 (zh) |
EP (1) | EP3915106A1 (zh) |
JP (2) | JP2022518744A (zh) |
KR (1) | KR20210124283A (zh) |
CN (1) | CN113490980A (zh) |
AU (1) | AU2020210549B2 (zh) |
BR (1) | BR112021014135A2 (zh) |
CA (1) | CA3127528A1 (zh) |
MX (1) | MX2021008616A (zh) |
SG (1) | SG11202107802VA (zh) |
TW (1) | TWI808298B (zh) |
WO (1) | WO2020152154A1 (zh) |
ZA (1) | ZA202105927B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115552518A (zh) * | 2021-11-02 | 2022-12-30 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 |
CN117501362A (zh) * | 2021-06-15 | 2024-02-02 | 北京字跳网络技术有限公司 | 音频渲染系统、方法和电子设备 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3195295A1 (en) * | 2020-10-13 | 2022-04-21 | Andrea EICHENSEER | Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesi |
CN112259110B (zh) * | 2020-11-17 | 2022-07-01 | 北京声智科技有限公司 | 音频编码方法及装置、音频解码方法及装置 |
CN114582357A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
GB2605190A (en) * | 2021-03-26 | 2022-09-28 | Nokia Technologies Oy | Interactive audio rendering of a spatial stream |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
WO2023210978A1 (ko) * | 2022-04-28 | 2023-11-02 | 삼성전자 주식회사 | 다채널 오디오 신호 처리 장치 및 방법 |
JP2024026010A (ja) * | 2022-08-15 | 2024-02-28 | パナソニックIpマネジメント株式会社 | 音場再現装置、音場再現方法及び音場再現システム |
US20240098439A1 (en) * | 2022-09-15 | 2024-03-21 | Sony Interactive Entertainment Inc. | Multi-order optimized ambisonics encoding |
WO2024175587A1 (en) * | 2023-02-23 | 2024-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal representation decoding unit and audio signal representation encoding unit |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110222694A1 (en) * | 2008-08-13 | 2011-09-15 | Giovanni Del Galdo | Apparatus for determining a converted spatial audio signal |
US8891797B2 (en) * | 2009-05-08 | 2014-11-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio format transcoder |
CN104471641A (zh) * | 2012-07-19 | 2015-03-25 | 汤姆逊许可公司 | 用于改善对多声道音频信号的呈现的方法和设备 |
EP2873071A1 (en) * | 2012-07-16 | 2015-05-20 | Thomson Licensing | Method and apparatus for encoding multi-channel hoa audio signals for noise reduction, and method and apparatus for decoding multi-channel hoa audio signals for noise reduction |
US20170164130A1 (en) * | 2014-07-02 | 2017-06-08 | Dolby International Ab | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
WO2018162803A1 (en) * | 2017-03-09 | 2018-09-13 | Aalto University Foundation Sr | Method and arrangement for parametric analysis and processing of ambisonically encoded spatial sound scenes |
US20180277127A1 (en) * | 2015-10-08 | 2018-09-27 | Dolby International Ab | Layered coding for compressed sound or sound field representations |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2640815T3 (es) * | 2013-05-24 | 2017-11-06 | Dolby International Ab | Codificación eficiente de escenas de audio que comprenden objetos de audio |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
CA2999393C (en) | 2016-03-15 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method or computer program for generating a sound field description |
GB2559765A (en) * | 2017-02-17 | 2018-08-22 | Nokia Technologies Oy | Two stage audio focus for spatial audio processing |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2576769A (en) * | 2018-08-31 | 2020-03-04 | Nokia Technologies Oy | Spatial parameter signalling |
GB2587335A (en) * | 2019-09-17 | 2021-03-31 | Nokia Technologies Oy | Direction estimation enhancement for parametric spatial audio capture using broadband estimates |
-
2020
- 2020-01-21 EP EP20700746.9A patent/EP3915106A1/en active Pending
- 2020-01-21 AU AU2020210549A patent/AU2020210549B2/en active Active
- 2020-01-21 MX MX2021008616A patent/MX2021008616A/es unknown
- 2020-01-21 WO PCT/EP2020/051396 patent/WO2020152154A1/en active Search and Examination
- 2020-01-21 TW TW109102256A patent/TWI808298B/zh active
- 2020-01-21 SG SG11202107802VA patent/SG11202107802VA/en unknown
- 2020-01-21 CA CA3127528A patent/CA3127528A1/en active Pending
- 2020-01-21 BR BR112021014135-9A patent/BR112021014135A2/pt unknown
- 2020-01-21 KR KR1020217026835A patent/KR20210124283A/ko not_active Application Discontinuation
- 2020-01-21 JP JP2021542163A patent/JP2022518744A/ja active Pending
- 2020-01-21 CN CN202080010287.XA patent/CN113490980A/zh active Pending
-
2021
- 2021-07-14 US US17/375,465 patent/US20210343300A1/en active Pending
- 2021-08-18 ZA ZA2021/05927A patent/ZA202105927B/en unknown
-
2023
- 2023-12-28 JP JP2023222169A patent/JP2024038192A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110222694A1 (en) * | 2008-08-13 | 2011-09-15 | Giovanni Del Galdo | Apparatus for determining a converted spatial audio signal |
US8891797B2 (en) * | 2009-05-08 | 2014-11-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio format transcoder |
EP2873071A1 (en) * | 2012-07-16 | 2015-05-20 | Thomson Licensing | Method and apparatus for encoding multi-channel hoa audio signals for noise reduction, and method and apparatus for decoding multi-channel hoa audio signals for noise reduction |
CN104471641A (zh) * | 2012-07-19 | 2015-03-25 | 汤姆逊许可公司 | 用于改善对多声道音频信号的呈现的方法和设备 |
US20170164130A1 (en) * | 2014-07-02 | 2017-06-08 | Dolby International Ab | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
US20180277127A1 (en) * | 2015-10-08 | 2018-09-27 | Dolby International Ab | Layered coding for compressed sound or sound field representations |
WO2018162803A1 (en) * | 2017-03-09 | 2018-09-13 | Aalto University Foundation Sr | Method and arrangement for parametric analysis and processing of ambisonically encoded spatial sound scenes |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117501362A (zh) * | 2021-06-15 | 2024-02-02 | 北京字跳网络技术有限公司 | 音频渲染系统、方法和电子设备 |
CN115552518A (zh) * | 2021-11-02 | 2022-12-30 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 |
CN115552518B (zh) * | 2021-11-02 | 2024-06-25 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR20210124283A (ko) | 2021-10-14 |
JP2024038192A (ja) | 2024-03-19 |
ZA202105927B (en) | 2023-10-25 |
TWI808298B (zh) | 2023-07-11 |
AU2020210549A1 (en) | 2021-09-09 |
SG11202107802VA (en) | 2021-08-30 |
CA3127528A1 (en) | 2020-07-30 |
US20210343300A1 (en) | 2021-11-04 |
BR112021014135A2 (pt) | 2021-09-21 |
AU2020210549B2 (en) | 2023-03-16 |
MX2021008616A (es) | 2021-10-13 |
JP2022518744A (ja) | 2022-03-16 |
TW202032538A (zh) | 2020-09-01 |
WO2020152154A1 (en) | 2020-07-30 |
EP3915106A1 (en) | 2021-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210343300A1 (en) | Apparatus and Method for Encoding a Spatial Audio Representation or Apparatus and Method for Decoding an Encoded Audio Signal Using Transport Metadata and Related Computer Programs | |
CN111630592B (zh) | 生成组合的音频场景的描述的装置和方法 | |
JP7311602B2 (ja) | 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム | |
AU2021359777B2 (en) | Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis | |
TWI825492B (zh) | 對多個音頻對象進行編碼的設備和方法、使用兩個以上之相關音頻對象進行解碼的設備和方法、電腦程式及資料結構產品 | |
RU2792050C2 (ru) | Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы | |
US20230274747A1 (en) | Stereo-based immersive coding | |
CN118871987A (zh) | 用于定向音频编码-空间重建音频处理的方法、装置和系统 | |
CN114503195A (zh) | 确定要应用于多声道音频信号的校正、相关编码和解码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |