CN116348951A - 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 - Google Patents
用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 Download PDFInfo
- Publication number
- CN116348951A CN116348951A CN202180067397.4A CN202180067397A CN116348951A CN 116348951 A CN116348951 A CN 116348951A CN 202180067397 A CN202180067397 A CN 202180067397A CN 116348951 A CN116348951 A CN 116348951A
- Authority
- CN
- China
- Prior art keywords
- frame
- sound field
- audio signal
- parameter
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 264
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004590 computer program Methods 0.000 title claims description 13
- 230000000694 effects Effects 0.000 claims abstract description 40
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000009877 rendering Methods 0.000 claims abstract description 19
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 90
- 239000002131 composite material Substances 0.000 claims description 48
- 238000013139 quantization Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 239000012073 inactive phase Substances 0.000 claims description 16
- 230000001427 coherent effect Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000013213 extrapolation Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000007493 shaping process Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 42
- 239000012071 phase Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 239000012072 active phase Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010237 hybrid technique Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了一种用于生成经编码音频场景的设备,和一种用于解码和/或处理经编码音频场景的设备,以及相关方法和储存指令的非暂时性储存单元,指令在由处理器执行时使该处理器执行相关方法。一种用于处理经编码音频场景(304)的设备(200)可包含,在第一帧(346)中的第一声场参数表示(316)和经编码音频信号(346),其中第二帧(348)为非活跃帧,该设备包含:活动检测器(2200),用于检测第二帧(348)为非活跃帧;合成信号合成器(210),用于使用用于第二帧(308)的参数描述(348)合成用于第二帧(308)的合成音频信号(228);音频解码器(230),用于解码用于第一帧(306)的经编码音频信号(346);以及空间渲染器(240),用于使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号(202),或转码器,用于生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧(306)的音频信号(346)、用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的合成音频信号(228)及用于第二帧(308)的第二声场参数表示(318)。
Description
说明书
本文尤其涉及一种用于生成经编码音频场景的设备,以及涉及一种用于解码和/或处理经编码音频场景的设备。本文还涉及相关方法及储存指令的非暂时性储存单元,指令在由处理器执行时使处理器执行相关方法。
本文论述关于音频场景的不连续传输模式(DTX)及舒适噪声生成(CNG)的方法,对于音频场景,通过定向音频编码(DirAC)范式参数化编码空间图像或以元数据辅助空间音频(MASA)格式传输空间图像。
实施例涉及参数化编码的空间音频的不连续传输,诸如针对DirAC及MASA的DTX模式。
本发明的实施例关于有效传输并渲染例如利用声场麦克风捕捉的会话语音。因此所捕捉的音频信号通常称为三维(3D)音频,由于声音事件可局限于三维空间中,这加强了沉浸感并提高了可懂度和用户体验。
例如在三维中传输音频场景需要处置通常引起大量数据传输的多个声道。举例而言,定向音频编码(DirAC)技术[1]可用于降低大原始数据速率。DirAC被视为用于分析音频场景并参数化地表示该音频场景的高效方法。它是感知激励的并借助于每频带所测量的到达方向(DOA)和扩散度来表示声场。它依据如下假定:在一个瞬间且对于一个临界频带,听觉系统的空间分辨率限于对于方向解码一个提示以及对于耳间相干性解码另一提示。随后通过交叉衰落两个流,非定向扩散流和定向非扩散流,在频域中再现空间声音。
此外,在典型的会话中,每个扬声器在约百分之六十的时间内静默。通过区分含有语音(“活跃帧”)的音频信号的帧与仅含有背景噪声或静默(“非活跃帧”)的帧,语音编码器可节省有效数据速率。非活跃帧通常被感知为携带极少信息或不携带信息,且语音编码器通常被配置为减小其用于此类帧的比特率,或甚至不传输信息。在此情况下,编码器在所谓的不连续传输(DTX)模式下运行,这是在不存在话音输入的情况下大幅度减小通信编解码器的传输速率的高效方式。在此模式下,被确定为仅由背景噪声组成的大部分帧被从传输中丢弃且被解码器中的一些舒适噪声生成(CNG)替换。对于这些帧,信号的极低速率参数表示通过定期但并非在每一帧处发送的静默插入描述符(SID)帧传送。这允许解码器中的CNG产生类似于实际背景噪声的人工噪声。
本发明的实施例涉及用于例如由声场麦克风捕捉且可通过编码方案基于DirAC范式及其类似被参数化编码的3D音频场景的DTX系统,以及尤其是SID及CNG。本发明允许对用于传输会话式沉浸式语音的比特率需求的急剧减少。
现有技术
[1]V.Pulkki,M-V.Laitinen,J.Vilkamo,J.Ahonen,T.Lokki,and T.”Directional audio coding-perception-based reproduction of spatial sound”,International Workshop on the Principles and Application on Spatial Hearing,2009年11月,Zao;Miyagi,日本.
[2]3GPP TS 26.194; Voice Activity Detector(VAD);-3GPP technical specification检索于2009-06-17.
[3]3GPP TS 26.449,"Codec for Enhanced Voice Services(EVS);ComfortNoise Generation(CNG)Aspects".
[4]3GPP TS 26.450,"Codec for Enhanced Voice Services(EVS);Discontinuous Transmission(DTX)"
[5]A.Lombard,S.Wilde,E.Ravelli,S.G.Fuchs and M.Dietz,"Frequency-domain Comfort Noise Generation for Discontinuous Transmission inEVS,"2015IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP),Brisbane,QLD,2015年,5893-5897页,doi:10.1109/ICASSP.2015.7179102.
[6]V.Pulkki,”Virtual source positioning using vector base amplitudepanning”,J.Audio Eng.Soc.,45(6):456-466,1997年6月.
[7]J.Ahonen and V.Pulkki,”Diffuseness estimation using temporalvariation of intensity vectors”,in Workshop on Applications of SignalProcessing to Audio and Acoustics WASPAA,Mohonk Mountain House,New Paltz,2009.
[8]T.Hirvonen,J.Ahonen,and V.Pulkki,”Perceptual compression methodsfor metadata in Directional Audio Coding applied to audiovisualteleconference”,AES 126th Convention 2009年,5月7-10日,慕尼黑,德国.
[9]Vilkamo,Juha&Tom&Kuntz,Achim.(2013).Optimized CovarianceDomain Framework for Time--Frequency Processing of Spatial Audio.Journal ofthe Audio Engineering Society.61.
[10]M.Laitinen and V.Pulkki,"Converting 5.1audio recordings to B-format for directional audio coding reproduction,"2011IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),Prague,2011年,61-64页,doi:10.1109/ICASSP.2011.5946328.
发明内容
根据一方面,提供一种用于从具有第一帧和第二帧的音频信号生成经编码音频场景的设备,包含:
声场参数生成器,用于从第一帧中的音频信号确定用于第一帧的第一声场参数表示,并从第二帧中的音频信号确定用于第二帧的第二声场参数表示;
活动检测器,用于分析音频信号以根据音频信号确定第一帧为活跃帧且第二帧为非活跃帧;
音频信号编码器,用于生成用于为活跃帧的第一帧的经编码音频信号,并生成用于为非活跃帧的第二帧的参数描述;以及
经编码信号形成器,用于通过将用于第一帧的第一声场参数表示、用于第二帧的第二声场参数表示、用于第一帧的经编码音频信号及用于第二帧的参数描述组合在一起而构成经编码音频场景。
声场参数生成器可被配置为生成第一声场参数表示或第二声场参数表示,使得第一声场参数表示或第二声场参数表示包含指示音频信号相对于听者位置的特性的参数。
第一声场参数表示或第二声场参数表示可包含指示第一帧中的声音相对于听者位置的方向的一个或多个方向参数,或指示第一帧中的相对于直接声音的扩散声音的部分的一个或多个扩散度参数,或指示第一帧中的直接声音与扩散声音的能量比的一个或多个能量比参数,或第一帧中的声道间/环绕相干性参数。
声场参数生成器可被配置为从音频信号的第一帧或第二帧确定多个个别的声源并针对每一声源确定参数描述。
声场生成器被配置为将第一帧或第二帧分解成多个频率区间,每一频率区间表示个别的声源,并针对每一频率区间确定至少一个声场参数,声场参数示例性地包含方向参数、到达方向参数、扩散度参数、能量比参数或表示由音频信号的第一帧表示的声场相对于听者位置的特性的任何参数。
用于第一帧和第二帧的音频信号可包含具有表示相对于听者的声场的多个分量的输入格式,
其中声场参数生成器被配置为例如使用多个分量的降混来计算用于第一帧和第二帧的一个或多个传送声道,并分析输入格式以确定与一个或多个传送声道相关的第一参数表示,或
其中声场参数生成器被配置为例如使用多个分量的降混来计算一个或多个传送声道,以及
其中活动检测器被配置为分析从第二帧中的音频信号得出的一个或多个传送声道。
用于第一帧或第二帧的音频信号可包含输入格式,对于第一帧和第二帧中的每一帧,输入格式具有与每一帧相关联的一个或多个传送声道及元数据,
其中声场参数生成器被配置为从第一帧和第二帧读取元数据,并将用于第一帧的元数据用作或处理为第一声场参数表示且处理第二帧的元数据以获得第二声场参数表示,其中获得第二声场参数表示的处理使得传输用于第二帧的元数据所需的信息单元的量相对于处理之前所需的量有所减少。
声场参数生成器可被配置为处理用于第二帧的元数据以减少元数据中的信息项的数量或将元数据中的信息项再取样至较低分辨率,诸如时间分辨率或频率分辨率,或将用于第二帧的元数据的信息单元再量化成相对于再量化之前的情形更粗略的表示。
音频信号编码器可被配置为将用于非活跃帧的静默信息描述确定为参数描述,
其中静默信息描述示例性地包含用于第二帧的诸如能量、功率或响度的振幅相关信息及诸如频谱成形信息的成形信息,或用于第二帧的诸如能量、功率或响度的振幅相关信息及用于第二帧的线性预测编码LPC参数,或用于第二帧的具有变化的关联频率分辨率的尺度参数,使得不同尺度参数指具有不同宽度的频带。
音频信号编码器可被配置为针对第一帧使用时域或频域编码模式来编码音频信号,经编码音频信号包含例如经编码时域样本、经编码频谱域样本、经编码LPC域样本及从音频信号的分量获得或从一个或多个传送声道获得的旁侧信息,一个或多个传送声道例如通过降混操作从音频信号的分量得出。
音频信号可包含输入格式,输入格式为一阶立体混响(Ambisonics)格式、高阶立体混响格式、与给定扬声器设置诸如5.1或7.1或7.1+4相关联的多声道格式,或表示一个或若干个不同音频对象的一个或多个音频声道,该一个或若干个不同音频对象位于如由包括在关联元数据中的信息所指示的空间中,或输入格式为元数据关联空间音频表示,
其中声场参数生成器被配置为确定第一声场参数表示和第二声场表示,使得参数相对于限定听者位置表示声场,或
其中音频信号包含如由真实麦克风或虚拟麦克风获取的麦克风信号或例如呈一阶立体混响格式或高阶立体混响格式的合成产生的麦克风信号。
活动检测器可被配置为检测第二帧及第二帧之后的一个或多个帧上的非活跃阶段,以及
其中音频信号编码器被配置为仅针对另一第三帧生成用于非活跃帧的另一参数描述,就帧的时序而言,另一第三帧与第二帧相隔至少一个帧,且
其中声场参数生成器被配置为仅针对音频信号编码器已为其确定参数描述的帧确定另一声场参数表示,或
其中活动检测器被配置为确定包含第二帧及第二帧之后的八个帧的非活跃阶段,以及其中音频信号编码器被配置为仅在每第八个帧处生成用于非活跃帧的参数描述,以及
其中声场参数生成器经被配置为针对每一第八个非活跃帧生成声场参数表示,或
其中声场参数生成器被配置为,甚至在音频信号编码器未生成用于非活跃帧的参数描述时,针对每一非活跃帧生成声场参数表示,或
其中声场参数生成器被配置为,以相较于音频信号编码器生成用于一个或多个非活跃帧的参数描述而言更高的帧率,确定参数表示。
声场参数生成器可被配置为使用用于频带中的一个或多个方向的空间参数和对应于一个方向分量与总能量的比的频带中的关联能量比来确定用于第二帧的第二声场参数表示,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以确定指示扩散声音或直接声音的比的扩散度参数,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以使用与第一帧中的量化相比更粗略的量化方案确定方向信息,或
其中声场参数生成器被配置为使用用于获得更粗略的时间或频率分辨率方向随时间或频率的求平均,确定用于第二帧的第二声场参数表示,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以确定用于一个或多个非活跃帧的声场参数表示,用于一个或多个非活跃帧的声场参数表示具有与在用于活跃帧的第一声场参数表示中相同的频率分辨率,以及关于用于非活跃帧的声场参数表示中的方向信息具有与用于活跃帧的时间发生率相比更低的时间发生率,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以确定具有扩散度参数的第二声场参数表示,其中扩散度参数以与活跃帧相同的时间或频率分辨率但经过更粗略的量化而传输,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以用第一数量的比特量化用于第二声场表示的扩散度参数,以及其中仅传输每一量化索引的第二数量的比特,第二数量的比特少于第一数量的比特,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示,从而若音频信号具有对应于位于空间域中的声道的输入声道,针对第二声场参数表示确定声道间相干性,或若音频信号具有对应于位于空间域中的声道的输入声道,针对第二声场参数表示确定声道间声级差,或
其中声场参数生成器被配置为确定用于第二帧的第二声场参数表示以确定环绕相干性,环绕相干性被限定为在由音频信号表示的声场中相干的扩散能量的比。
根据一方面,提供一种用于处理经编码音频场景的设备,该经编码音频场景在第一帧中包含第一声场参数表示和经编码音频信号,其中第二帧为非活跃帧,设备包含:
活动检测器,用于检测第二帧为非活跃帧;
合成信号合成器,用于使用用于第二帧的参数描述来合成用于第二帧的合成音频信号;
音频解码器,用于解码用于第一帧的经编码音频信号;以及
空间渲染器,用于使用第一声场参数表示并使用用于第二帧的合成音频信号在空间上渲染用于第一帧的音频信号,或转码器,用于生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧的音频信号、用于第一帧的第一声场参数表示、用于第二帧的合成音频信号及用于第二帧的第二声场参数表示。
经编码音频场景可包含用于第二帧的第二声场参数描述,且其中设备包含用于从第二声场参数表示得出一个或多个声场参数的声场参数处理器,且其中空间渲染器被配置为将用于第二帧的一个或多个声场参数用来渲染用于第二帧的合成音频信号。
该设备可包含用于得出用于第二帧的一个或多个声场参数的参数处理器,
其中参数处理器被配置为储存用于第一帧的声场参数表示并使用用于第一帧的所储存的第一声场参数表示来合成用于第二帧的一个或多个声场参数,其中第二帧在时间上在第一帧之后,或
其中参数处理器被配置为储存用于在时间上出现于第二帧之前或在时间上出现于第二帧之后的若干帧的一个或多个声场参数表示,以使用用于若干帧的一个或多个声场参数表示中的至少两个声场参数表示进行外推或内插,以确定用于第二帧的一个或多个声场参数,以及
其中空间渲染器被配置为将用于第二帧的一个或多个声场参数用来渲染用于第二帧的合成音频信号。
参数处理器可被配置为,在进行外推或内插以确定用于第二帧的一个或多个声场参数时,使用在时间上出现于第二帧之前或之后的至少两个声场参数表示中所包括的方向执行抖动。
经编码音频场景可包含用于第一帧的一个或多个传送声道,
其中合成信号生成器被配置为生成用于第二帧的一个或多个传送声道作为合成音频信号,以及
其中空间渲染器被配置为在空间上渲染用于第二帧的一个或多个传送声道。
合成信号生成器可被配置为针对第二帧生成生用于与空间渲染器的音频输出格式相关的个别的分量的多个合成分量音频信号作为合成音频信号。
合成信号生成器可被配置为至少针对与音频输出格式相关的至少两个个别的分量的子集中的每个生成个别的合成分量音频信号,
其中第一个别的合成分量音频信号与第二个别的合成分量音频信号去相关,且
其中空间渲染器被配置为使用第一个别的合成分量音频信号与第二个别的合成分量音频信号的组合来渲染音频输出格式的分量。
空间渲染器可被配置为应用协方差法。
空间渲染器可被配置为不使用任何去相关器处理或控制去相关器处理,使得在生成音频输出格式的分量时仅使用通过如由协方差法所指示的去相关器处理生成的一定量的去相关信号。
合成信号生成器为舒适噪声生成器。
合成信号生成器可包含噪声生成器,且第一个别的合成分量音频信号通过噪声生成器的第一采样生成,以及第二个别的合成分量音频信号通过噪声生成器的第二采样生成,其中第二采样不同于第一采样。
噪声生成器可包含噪声表,并且其中第一个别的合成分量音频信号通过取噪声表的第一部分而生成,以及其中第二个别的合成分量音频信号通过取噪声表的第二部分而生成,其中噪声表的第二部分不同于噪声表的第一部分,或
其中噪声生成器包含伪噪声生成器,并且其中第一个别的合成分量音频信号通过使用用于伪噪声生成器的第一种子而生成,以及其中第二个别的合成分量音频信号使用用于伪噪声生成器的第二种子而生成。
经编码音频场景可包含用于第一帧的两个或更多个传送声道,以及
其中合成信号生成器包含噪声生成器并被配置为使用用于第二帧的参数描述,通过对噪声生成器进行采样来生成第一传送声道及通过对噪声生成器进行采样来生成第二传送声道,其中如通过对噪声生成器进行采样而确定的第一传送声道和第二传送声道使用用于第二帧的相同参数描述进行加权。
空间渲染器可被配置为
使用直接信号与由去相关器在第一声场参数表示的控制下从直接信号生成的扩散信号的混合,在用于第一帧的第一模式下操作,以及
使用第一合成分量信号与第二合成分量信号的混合,在用于第二帧的第二模式下操作,其中第一合成分量信号和第二合成分量信号由合成信号合成器通过噪声处理或伪噪声处理的不同实现来生成。
空间渲染器可被配置为通过由参数处理器为第二帧得出的扩散度参数、能量分布参数或相干性参数,控制第二模式下的混合。
合成信号生成器可被配置为使用用于第二帧的参数描述来生成用于第一帧的合成音频信号,以及
其中空间渲染器被配置为在空间渲染之前或之后执行用于第一帧的音频信号与用于第一帧的合成音频信号的加权组合,其中在加权组合中,用于第一帧的合成音频信号的强度相对于用于第二帧的合成音频信号的强度有所减小。
参数处理器可被配置为针对第二非活跃帧确定环绕相干性,该环绕相干性被限定为在由第二帧表示的声场中相干的扩散能量的比,其中空间渲染器被配置为基于声音相干性重分布第二帧中的直接信号与扩散信号之间的能量,其中从待重分布至定向分量的扩散能量中移除声音环绕相干分量的能量,以及其中在再现空间中平移定向分量。
设备可包含输出接口,该输出接口用于将由空间渲染器生成的音频输出格式转换成经转码输出格式,诸如包含专用于待置放于预定位置处的扬声器的多个输出声道的输出格式,或包含FOA或HOA数据的经转码输出格式,或
其中,替代空间渲染器,提供转码器以用于生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧的音频信号、用于第一帧的第一声场参数及用于第二帧的合成音频信号和用于第二帧的第二声场参数表示。
活动检测器可被配置为检测第二帧为非活跃帧。
根据一方面,提供一种从具有第一帧和第二帧的音频信号生成经编码音频场景的方法,包含:
从第一帧中的音频信号确定用于第一帧的第一声场参数表示,并从第二帧中的音频信号确定用于第二帧的第二声场参数表示;
分析音频信号以根据音频信号确定第一帧为活跃帧且第二帧为非活跃帧;
生成用于作为活跃帧的第一帧的经编码音频信号并生成用于作为非活跃帧的第二帧的参数描述;以及
通过将用于第一帧的第一声场参数表示、用于第二帧的第二声场参数表示、用于第一帧的经编码音频信号及用于第二帧的参数描述组合在一起而构成经编码音频场景。
根据一方面,提供一种处理经编码音频场景的方法,该经编码音频场景在第一帧中包含第一声场参数表示和经编码音频信号,其中第二帧为非活跃帧,方法包含:
检测第二帧为非活跃帧并提供用于第二帧的参数描述;
使用用于第二帧的参数描述来合成用于第二帧的合成音频信号;
解码用于第一帧的经编码音频信号;以及
使用第一声场参数表示并使用用于第二帧的合成音频信号在空间上渲染用于第一帧的音频信号,或生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧的音频信号、用于第一帧的第一声场参数表示、用于第二帧的合成音频信号及用于第二帧的第二声场参数表示。
方法可包含提供用于第二帧的参数描述。
根据一方面,提供一种经编码音频场景,包含:
用于第一帧的第一声场参数表示;
用于第二帧的第二声场参数表示;
用于第一帧的经编码音频信号;以及
用于第二帧的参数描述。
根据一方面,提供一种计算机程序,用于在计算机或处理器上运行时执行以上或以下的方法。
附图
图1(其划分为图1a和图1b)示出可用于根据示例分析及合成的根据现有技术的示例。
图2示出根据示例的解码器和编码器的示例。
图3展示根据示例的编码器的示例。
图4及5示出分量的示例。
图5示出根据示例的分量的示例。
图6至11示出解码器的示例。
实施例
首先,提供已知范式(DTX、DirAC、MASA等)的一些论述,其中一些技术的描述可至少在一些情况下实施于本发明的示例中。
DTX
舒适噪声生成器通常用于语音的不连续传输(DTX)中。在此类模式中,语音首先由话音活动检测器(VAD)分类至活跃和非活跃帧中。VAD的示例可在[2]中找到。基于VAD结果,以标称比特率编码并传输仅活跃语音帧。在仅存在背景噪声的长停顿期间,比特率降低或调零,并且偶发地且参数化地编码背景噪声。随后显著降低平均比特率。噪声在解码器侧在非活跃帧期间由舒适噪声生成器(CNG)生成。举例而言,语音编码器AMR-WB[2]及3GPP EVS[3,4]二者均有可能在DTX模式下运行。高效CNG的示例在[5]中给出。
本发明的实施例以一方式扩展此原理,在该方式中利用声音事件的空间定位将相同原理应用于沉浸式会话语音。
DirAC
DirAC是空间声音的感知上激励重现。假定在一个瞬间且对于一个临界频带,听觉系统的空间分辨率限于针对一个方向解码提示以及针对耳间相干性解码另一提示。
基于这些假定,DirAC通过交叉衰落两个流:非定向扩散流和定向非扩散流,表示一个频带中的空间声音。DirAC处理在两个阶段中执行:如图1中所描绘的分析及合成(图1a示出合成,图1b示出分析)。
在DirAC分析阶段中,呈B格式的一阶重合麦克风被视为输入,并在频域中分析声音的扩散度及到达方向。
在DirAC合成阶段中,声音被分成两个流,非扩散流及扩散流。使用振幅平移将非扩散流再现为点源,振幅平移可通过使用基于向量的振幅平移(VBAP)[6]来进行。扩散流大体负责包围感并通过将彼此去相关的信号传送至扬声器来产生。
在下文中也被称为空间元数据或DirAC元数据的DirAC参数由扩散度及方向的元组组成。方向可通过两个角(方位角及仰角)以球面坐标表示,而扩散度可为介于0与1之间的标量因子。
已进行一些工作以减小元数据的大小,使得DirAC范式能够用于空间音频编码及电话会议情境中[8]。
据本发明人了解,未曾围绕参数空间音频编解码器建构或提议且甚至很少基于DirAC范式建构或提议DTX系统。此为本发明的实施例的主题。
MASA
元数据辅助空间音频(MASA)是从DirAC原理得出的空间音频格式,其可直接从原始麦克风信号中计算出并被传送至音频编解码器而无需经过如立体混响的中间格式。可由例如频带中的方向参数和/或例如频带中的能量比参数(例如,指示定向的声音能量的比例)组成的参数集也可用作音频编解码器或渲染器的空间元数据。可从麦克风阵列捕捉的音频信号估计这些参数;举例而言,单声道或立体声信号可从麦克风阵列信号生成以与空间元数据一起传送。可例如利用诸如3GPP EVS的核心编码器或其衍生物来编码单声道或立体声信号。解码器可将音频信号解码至频带中的声音中且对其进行处理(使用所传输空间元数据)以获得空间输出,该空间输出可为双耳输出、扬声器多声道信号或呈立体混响格式的多声道信号。
动机
沉浸式语音通信是一个新的研究领域且极少系统存在,此外没有设计用于此类应用的DTX系统。
然而,可简单地组合现有解决方案。可例如对每个个别的多声道信号独立地应用DTX。此极简方法面临若干问题。为此,需要分离地传输与低比特率通信约束不兼容且因此几乎不与被设计用于低比特率通信情况的DTX兼容的每个个别的声道。此外,随后需要跨声道地使VAD决策同步以避免不寻常事件和未遮蔽效应,以及也需要充分利用DTX系统的比特率降低。实际上,为中断传输并从中获利,需要确保跨所有声道的话音活动决策同步。
当通过一个或多个舒适噪声生成器在非活跃帧期间生成遗失背景噪声时,另一问题出现在接收器侧。对于沉浸式通信,尤其当直接将DTX应用于个别的声道时,每一声道需要一个生成器。若通常对随机噪声采样的这些生成器被独立地使用,则声道之间的相干性将为零或接近零,并且可能在感知上偏离原始声音景观。另一方面,若仅使用一个生成器且将所得舒适噪声复制至所有输出声道,则相干性将极高且沉浸感将大幅度降低。
这些问题可通过以下操作部分地得到解决:不将DTX直接应用于系统的输入或输出声道,而是替代地在如DirAC的参数空间音频编码方案之后将DTX应用于所得传送声道上,这些传送声道通常为原始多声道信号的降混或减少版本。在此情况下,有必要限定如何通过DTX系统将非活跃帧参数化且接着空间化。此并非无足轻重的且为本发明的实施例的主题。空间图像必须在活跃与非活跃帧之间一致,且必须在感知上尽可能忠实于原始背景噪声。
图3示出根据示例的编码器300。编码器300可从音频信号302生成经编码音频场景304。
音频信号304(比特流)或音频场景304(以及下文所公开的其他音频信号)可被划分成帧(例如,其可为帧的序列)。帧可与时隙相关联,时隙可随后彼此限定(在一些示例中,先前方面可与后续帧重叠)。对于每一帧,时域(TD)或频域(FD)中的值可写入比特流304中。在TD中,可为每一样本(具有例如离散样本序列的每一帧)提供值。在FD中,可为每一频率区间提供值。如稍后将解释,可将每一帧分类(例如,通过活动检测器)为活跃帧306(例如,非空帧)或非活跃帧308(例如,空帧,或静默帧,或仅噪声帧)。也可关联活跃帧306和非活跃帧308来提供不同参数(例如,活跃空间参数316或非活跃空间参数318)(在无数据的情况下,附图标记319示出未提供数据)。
音频信号302可为例如多声道音频信号(例如,具有两个声道或更多)。音频信号302可为例如立体声音频信号。音频信号302可例如为例如呈A格式或B格式的立体混响信号。音频信号302可具有例如元数据辅助空间音频(MASA)格式。音频信号302可具有输入格式,该输入格式为一阶立体混响格式、高阶立体混响格式、与诸如5.1或7.1或7.1+4的给定扬声器设置相关联的多声道格式,或表示一个或若干个不同音频对象的一个或多个音频声道,该一个或若干个不同音频对象位于如由包括于关联元数据中的信息所指示的空间中,或输入格式为元数据关联空间音频表示。音频信号302可包含如由真实麦克风或虚拟麦克风拾取的麦克风信号。音频信号302可包含合成产生的麦克风信号(例如,呈一阶立体混响格式或高阶立体混响格式)。
音频场景304可包含以下中的至少一个或组合:
用于第一帧306的第一声场参数表示(例如,活跃空间参数)316;
用于第二帧308的第二声场参数表示(例如,非活跃空间参数)318;
用于第一帧306的经编码音频信号346;以及
用于第二帧308的参数描述348(在一些示例中,非活跃空间参数318可包括在参数描述348中,但参数描述348也可包括并非空间参数的其他参数)。
活跃帧306(第一帧)可为含有语音(或在一些示例中,也为不同于纯噪声的其他音频声音)的那些帧。非活跃帧308(第二帧)可被理解为不包含语音(或在一些示例中,也为不同于纯噪声的其他音频声音)的那些帧以及可被理解为仅含有噪声。
可提供音频场景分析器(声场参数生成器)310例如以生成音频信号302的传送声道版本324(在326及328当中细分)。此处,可参考每个第一帧306的一个或多个传送声道326和/或每个第二帧308的一个或多个传送声道328(一个或多个传送声道328可被理解为提供例如静默或噪声的参数描述)。一或多个传送声道324(326、328)可为输入格式302的降混版本。一般而言,若输入音频信号302为立体声声道,则传送声道326、328中的每个可为例如一个单声道。若输入音频信号302具有两个以上声道,则输入音频信号302的降混版本324可具有少于输入音频信号302的声道,但在一些示例中,仍具有一个以上声道(例如,若输入音频信号302具有四个声道,则降混版本324可具有一个、二个或三个声道)。
音频信号分析器310可另外或替代性地提供用314指示的声场参数(空间参数)。特别地,声场参数314可包括与第一帧306相关联的活跃空间参数(第一空间参数或第一空间参数表示)316,以及与第二帧308相关联的非活跃空间参数(第二空间参数或第二空间参数表示)318。每一活跃空间参数314(316、318)可包含(例如,可以是)指示音频信号(302)例如相对于听者位置的空间特性的参数。在一些其他示例中,活跃空间参数314(316、318)至少部分地可包含(例如,可以是)指示音频信号302相对于扬声器位置的特性的参数。在一些示例中,活跃空间参数314(316、318)可包含(例如,可以是)可至少部分地包含如取自信号源的音频信号的特性。
举例而言,空间参数314(316、318)可包括扩散度参数:例如指示第一帧306和/或第二帧308中的相对于声音的扩散信号比的一个或多个扩散度参数,或指示第一帧306和/或第二帧308中的直接声音与扩散声音的能量比的一个或多个能量比参数,或第一帧306和/或第二帧308中的声道间/环绕相干性参数,或第一帧306和/或第二帧308中的一个或多个相干扩散功率比,或第一帧306和/或第二帧308中的一个或多个信号扩散比。
在示例中,一个或多个活跃空间参数(第一声场参数表示)316和/或一个或多个非活跃空间参数318(第二声场参数表示)可从呈其完整声道版本或其子集(如高阶立体混响输入信号的一阶分量)形式的输入信号中302获得。
设备300可包括活动检测器320。活动检测器320可分析输入音频信号(或者呈其输入版本302或呈其降混版本324的形式),以根据音频信号(302或324)确定帧是活跃帧306还是非活跃帧308,从而对帧执行分类。如从图3可见到的,可将活动检测器320假定为控制(例如,通过控件321)第一偏差器322及第二偏差器322a。第一偏差器322可在活跃空间参数316(第一声场参数表示)与非活跃空间参数318(第二声场参数表示)之间进行选择。因此,活动检测器320可决定是输出(例如,在比特流304中信令)活跃空间参数316还是非活跃空间参数318。同一控件321可控制第二偏差器322a,该第二偏差器可在传送声道324中输出第一帧326(306)或在传送声道326中输出第二帧328(308)(例如,参数描述)之间进行选择。第一偏差器322及第二偏差器322a的活动彼此协调:当输出活跃空间参数316时,随后也输出第一帧306的传送声道326,以及当输出非活跃空间参数318时,随后输出第一帧306传送声道的传送声道328。这是因为活跃空间参数316(第一声场参数表示)描述第一帧306的空间特性,而非活跃空间参数318(第二声场参数表示)描述第二帧308的空间特性。
活动检测器320可因此基本上决定输出第一帧306(326、346)及其相关参数(316)以及第二帧308(328、348)及其相关参数(318)中的哪一种。活动检测器320还可控制比特流中的一些信令的编码,这些信令发信号通知帧为活跃或非活跃的(可使用其他技术)。
活动检测器320可对输入音频信号302的每一帧306/308执行处理(例如,通过测量帧中的例如在音频信号的特定帧的全部或至少多个频率区间中的能量),且可将特定帧分类为第一帧306或第二帧308。一般而言,活动检测器320可为一个单一完整帧决定一个单一分类结果,而不区分同一帧的不同频率区间与不同样本。举例而言,一个分类结果可为“语音”(其将相当于由活跃空间参数316在空间上描述的第一帧306、326、346)或“静默”(其将相当于由非活跃空间参数318在空间上描述的第二帧308、328、348)。因此,根据由活动检测器320施加的分类,偏差器322及322a可执行其交换,且其结果原则上对于经分类帧的所有频率区间(及样本)有效。
设备300可包括音频信号编码器330。音频信号编码器330可生成经编码音频信号344。特别地,音频信号编码器330可为第一帧(306、326)提供例如由传送声道编码器340生成的经编码音频信号346,该传送声道编码器可为音频信号编码器330的部分。经编码音频信号344可为或包括静默的参数描述348(例如,噪声的参数描述),且可由可为音频信号编码器330的部分的传送声道SI描述器350生成。所生成第二帧348可对应于原始音频输入信号302的至少一个第二帧308且对应于降混信号324的至少一个第二帧328,且可由非活跃空间参数318(第二声场参数表示)在空间上描述。值得注意的是,经编码音频信号344(无论346或348)也可在传送声道中(且可因此为降混信号324)。经编码音频信号344(无论346或348)可被压缩,以便减小其大小。
设备300可包括经编码信号形成器370。经编码信号形成器370可写入至少经编码音频场景304的经编码版本。经编码信号形成器370可通过将用于第一帧306的第一(活跃)声场参数表示316、用于第二帧308的第二(非活跃)声场参数表示318、用于第一帧306的经编码音频信号346及用于第二帧308的参数描述348组合在一起而进行操作。因此,音频场景304可为比特流,其可被传输或储存(或既被传输又被储存)且被通用解码器使用以生成待输出音频信号,该音频信号为原始输入信号302的副本。在音频场景(比特流)304中,可因此获得“第一帧”/“第二帧”的序列,以允许输入信号306的再现。
图2示出编码器300和解码器200的示例。在一些示例中,编码器300可与图3的编码器(或为其变体)相同(在一些其他示例中,其可为不同实施例)。编码器300可输入有音频信号302(其可例如呈B格式)且可具有第一帧306(其可为例如活跃帧)和第二帧308(其可为例如非活跃帧)。音频信号302可在选择器320(其可包括与偏差器322及322a相关联的音频)内部中的选择之后作为信号324(例如,作为用于第一帧的经编码音频信号326,及用于第二帧的经编码音频信号328或参数表示)被提供至音频信号编码器330。值得注意的是,块320还可具有将来自输入信号302(306、308)的降混形成至传送声道324(326、328)的能力。基本上,块320(波束成形/信号选择块)可被理解为包括图3的活动检测器320的功能,但图3中由块310执行的一些其他功能(诸如生成空间参数316和318)可由图2的“DirAC分析块”310执行。因此,声道信号324(326、328)可为原始信号302的降混版本。然而,在一些情况下,以下情况也是可能的:不对信号302执行降混,且信号324仅为第一帧与第二帧之间的选择。音频信号编码器330可包括块340及350中的至少一个,如上文所解释。音频信号编码器330的输出端可针对第一帧346或针对第二帧348输出编码器音频信号344。图2并未示出经编码信号形成器370,但其可存在。
如所示,块310可包括DirAC分析块(或更一般而言,声场参数生成器310)。块310(声场参数生成器)可包括滤波器组分析390。滤波器组分析390可将输入信号302的每一帧细分为多个频率区间,这些频率区间可为滤波器组分析390的输出391。扩散度估计块392a可例如针对由滤波器组分析390输出的多个频率区间391中的每一频率区间提供扩散度参数314a(其可为用于活跃帧306的一个或多个活跃空间参数316中的一个扩散度参数或用于非活跃帧308的一个或多个非活跃空间参数318中的一个扩散度参数)。声场参数生成器310可包括方向估计块392b,该方向估计块的输出314b可为例如用于由滤波器组分析390输出的多个频率区间391中的每一频率区间的方向参数(其可为用于活跃帧306的一个或多个活跃空间参数316中的一个方向参数或用于非活跃帧308的一个或多个非活跃空间参数318中的一个方向参数)。
图4示出块310(声场参数生成器)的示例。声场参数生成器310可与图2的声场参数生成器相同和/或可与图3的块310相同或至少实施块310的功能,尽管事实是图3的块310还能够执行输入信号302的降混,但此事实并未示出(或未实施)在图4的声场参数生成器310中。
图4的声场参数生成器310可包括滤波器组分析块390(其可与图2的滤波器组分析块390相同)。滤波器组分析块390可为每一帧以及每一波束(频率块)提供频域信息391。频域信息391可被提供至可为图3中示出的那些的扩散度分析块392a和/或方向分析块392b。扩散度分析块392a和/或方向分析块392b可提供扩散度信息314a和/或方向信息314b。可为每个第一帧306(346)以及为每个第二帧308(348)提供这些信息。综合地,由块392a和392b提供的信息被视为声场参数314,这些声场参数包含第一声场参数316(活跃空间参数)及第二声场参数318(非活跃空间参数)。可将活跃空间参数316提供至活跃空间元数据编码器396,以及可将非活跃空间参数318提供至非活跃空间元数据编码器398。所得为可被编码在比特流304中(例如,通过编码器信号形成器370)并被储存以供随后由解码器播放的第一声场参数表示及第二声场参数表示(316、318,用314综合指示)。是活跃空间元数据编码器396或还是非活跃空间参数318将编码帧,这可由诸如图3中的控件321控制(偏差器322未示出在图2中)来控制,例如通过活动检测器进行的分类。(应注意,在一些示例中,编码器396、398还可执行量化)。
图5示出可能的声场参数生成器310的另一示例,其可替代图4的声场参数生成器且其也可实施于图2及图3的示例中。在此示例中,输入音频信号302可能已呈MASA格式,其中空间参数已为例如用于多个频率区间中的每一频率区间的输入音频信号302的部分(例如,作为空间元数据)。因此,无需具有扩散度分析块和/或方向块,而是它们可由MASA读取器390M取代。MASA读取器390M可读取音频信号302中的特定数据字段,该字段已含有诸如一个或多个活跃空间参数316及一个或多个非活跃空间参数318(根据信号302的帧是第一帧306还是第二帧308的事实)的信息。可被编码在信号302中的参数(且其可由MASA读取器390M读取)的示例可包括方向、能量比、环绕相干性、散布相干性等中的至少一个。在MASA读取器390M的下游,可提供活跃空间元数据编码器396(例如,如图4中的那个)及非活跃空间元数据编码器398(例如,如图4中的那个)以分别输出第一声场参数表示316及第二声场参数表示318。若输入音频信号302为MASA信号,则活动检测器320可被实施为读取输入MASA信号302中的所确定数据字段并基于被编码在数据字段中的值而分类为活跃帧306或非活跃帧308的元件。图5的示例可针对已将空间信息编码在其中的音频信号302而一般化,空间信息可被编码为活跃空间参数316或非活跃空间参数318。
本发明的实施例可被应用于例如图2中所示的空间音频编码系统,其中描绘基于DirAC的空间音频编码器及解码器。其论述如下。
编码器300可通常分析呈B格式的空间音频场景。替代地,DirAC分析可被调整以分析不同音频格式,如音频对象或多声道信号或任何空间音频格式的组合。
DirAC分析(例如如在阶段392a、392b中的任一个处执行)可从输入音频场景302(输入信号)提取参数表示304。每时间频率单位测量的到达方向(DOA)314b和/或扩散度314a形成一个或多个参数316、318。DirAC分析(例如如在阶段392a、392b中的任一个处执行)后可接着空间元数据编码器(例如,396和/或398),空间元数据编码器可量化和/或编码DirAC参数以获得低比特率参数表示(在各图中,低比特率参数表示316、318由空间元数据编码器396和/或398上游的参数表示的相同附图标记指示)。
连同参数316和/或318一起,可通过传统音频核心编码器编码从一个或多个不同源(例如,不同麦克风)或一个或多个音频输入信号(例如,多声道信号的不同分量)302得出的降混信号324(326)(例如,以供传输和/或以供储存)。在较佳实施例中,EVS音频编码器(例如330,图2)可较佳地用于编码降混信号324(326、328),但本发明的实施例不限于此核心编码器且可应用于任何音频核心编码器。降混信号324(326、328)可由例如也被称作传送声道的不同声道组成:信号324可取决于目标比特率而为例如或包含构成B格式信号、立体声对或单音降混的四个系数信号。可在经由通信声道传输(或储存)之前多路复用经编码空间参数328及经编码音频比特流326。
在解码器(参见下文)中,传送声道344被核心解码器解码,而DirAC元数据(例如,空间参数316、318)可在与经解码传送声道一起被传送至DirAC合成之前先被解码。DirAC合成使用经解码元数据来控制直接声音流及其与扩散声音流的混合的再现。再现声场可再现于任意扬声器布局上或可以任意次序以立体混响格式(HOA/FOA)生成。
DirAC参数估计
此处解释用于估计空间参数316、318(例如,扩散度314a、方向314b)的非限制性技术。提供B格式的示例。
在每一频带中(例如,如从滤波器组分析390获得),可估计声音的到达方向314a连同声音的扩散度314b。从输入B格式分量wi(n),xi(n),yi(n),zi(n)的时间频率分析,压力及速度向量可被确定为:
Pi(n,k)=Wi(n,k)
Ui(n,k)=Xi(n,k)ex+Yi(e,k)ey+Zi(n,k)ez
其中i为输入302的索引,以及k和n为时间频率块的时间和频率索引,且ex,ey,ez表示笛卡尔单元向量。在一些示例中,可需要P(n,k)及U(n,k)以通过例如强度向量的计算来计算DirAC参数(316、318),即DOA 314a和扩散度314a:
其中Ε{.}指示时间平均算子,c表示声音的速度以及声场能量E(k,n)由下式给出:
声场的扩散度被限定为声音强度与能量密度之间的比,该比的值介于0与1之间。
到达方向(DOA)借助单位向量direction(n,k)表示,被限定为:
到达方向314b可通过B格式输入信号302的能量分析(例如,在392b处)确定且可被限定为强度向量的相对方向。方向被限定在笛卡尔坐标中但可例如容易地在由单位半径、方位角及仰角限定球面坐标中变换。
在传输的情况下,参数314a、314b(316、318)需要经由比特流(例如,304)被传输至接收器侧(例如,解码器侧)。对于经由具有有限容量的网络的更稳固传输,低比特率比特流是较佳的或甚至必要的,这可通过设计DirAC参数314a、314b(316、318)的高效编码方案来达成。例如,可利用诸如通过对不同频带和/或时间单位上的参数求平均的频带分组、预测、量化及熵编码的技术。在解码器处,在网络中未出现错误的情况下,可针对每一时间/频率单位(k,n)解码所传输参数。然而,若网络条件并不足够好以保证恰当封包传输,则封包可能在传输期间丢失。本发明的实施例旨在提供对后一情况的解决方案。
解码器
图6示出解码器设备200的示例。解码器设备可为用于处理经编码音频场景(304)的设备,经编码音频场景在第一帧(346)中包含第一声场参数表示(316)及经编码音频信号(346),其中第二帧(348)为非活跃帧。解码器设备200可包含以下至少一个:
活动检测器(2200),用于检测第二帧(348)为非活跃帧且用于提供用于第二帧(308)的参数描述(328);
合成信号合成器(210),用于使用用于第二帧(308)的参数描述(348)合成用于第二帧(308)的合成音频信号(228);
音频解码器(230),用于解码用于第一帧(306)的经编码音频信号(346);以及空间渲染器(240),用于使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号(202)。
值得注意的是,活动检测器(2200)可发出命令221',该命令可确定输入帧是被分类为活跃帧346还是非活跃帧348。活动检测器2200可例如根据信息221确定输入帧的分类,该信息是是否被信令或者从所获得帧的长度确定。
合成信号合成器(210)可例如使用从参数表示348获得的信息(例如,参数信息)例如生成噪声228。空间渲染器220可以如下方式生成输出信号202,即通过非活跃空间参数318处理非活跃帧228(从经编码帧348获得),以获得人类听者具有噪声的来源的3D空间印象。
应注意,在图6中,标号314、316、318、344、346、348与图3的标号相同,这是因为它们由于获取自比特流304而对应。尽管如此,可存在一些轻微差异(例如,归因于量化)。
图6还示出控制221',其可控制偏差器224',使得可例如通过由活动检测器220操作的分类来选择信号226(由合成信号合成器210输出)或音频信号228(由音频解码器230输出)。值得注意的是,信号224(226或228)可以仍为降混信号,其可被提供至空间渲染器220以使得空间渲染器通过活跃或非活跃空间参数314(316、318)生成输出信号202。在一些示例中,信号224(226或228)也可被升混以使得信号224的声道的数量相对于经编码版本344(346、348)增大。在一些示例中,尽管被升混,但信号224的声道的数量可小于输出信号202的声道的数量。
在下文中,提供解码器设备200的其他示例。图7至图10示出可体现解码器设备200的解码器设备700、800、900、1000的示例。
即使在图7至图10中一些元件被示出为在空间渲染器220的内部,但其在一些示例中它们也可处于空间渲染器220的外部。举例而言,合成合成器210可部分或完全地在空间渲染器220的外部。
在那些示例中,可包括参数处理器275(其可在空间渲染器220的内部或外部)。尽管未示出,参数处理器275也可被视为存在于图6的解码器中。
图7至图10中的任一个的参数处理器275可包括例如用于提供可为英特尔参数318(例如,如从比特流304中的信令获得)的非活跃帧的非活跃空间参数解码器278和/或块279(“恢复未传输帧中的空间参数的解码器”),该块提供并非在比特流304中读取但例如通过外推获得(例如,恢复、重建构、外推、推断等)或合成生成的非活跃空间参数。
因此,第二声场参数表示也可为所生成参数219,该参数不存在于比特流304中。如稍后将解释的,经恢复(经重建构、经外推、经推断等)空间参数219可例如通过“维持策略”至“方向策略的外推”和/或通过“方向的抖动”而获得(参见下文)。因此,参数处理器275可外推或以任何方式从先前帧获得空间参数219。如图6至图9中可见的,切换275'可在如在比特流304中信令的非活跃空间参数318与经恢复空间参数219之间选择。如上文所解释的,静默帧348(SID)的编码(以及非活跃空间参数318的编码)以比第一帧346的编码更低的比特率更新:非活跃空间参数318相对于活跃空间参数316以更低的频率更新,且一些策略由参数处理器275(1075)执行以恢复用于未传输非活跃帧的未经信令空间参数219。因此,切换275'可在经信令非活跃空间参数318与未经信令(而是经恢复或以其他方式重建构)非活跃空间参数219之间选择。在一些情况下,参数处理器275'可为在第二帧之前出现或在时间上在第二帧之后出现的若干帧储存一个或多个声场参数表示318,以外推(或内插)用于第二帧的声场参数219。一般而言,空间渲染器220可将用于第二帧219的一个或多个声场参数318用来渲染用于第二帧308的合成音频信号202。另外或替代地,参数处理器275可储存用于活跃空间参数的声场参数表示316(图10中所示)并使用所储存的第一声场参数表示316(活跃帧)合成用于第二帧(非活跃帧)的声场参数219以生成经恢复空间参数319。如图10中所示(也可实施于图6至图9中的任一个中),还可以还包括活跃空间参数解码器276,活跃空间参数316可通过活跃空间参数解码器从比特流304中获得。此可在外推或内插以确定用于第二帧(308)的一个或多个声场参数时执行抖动,其中抖动的方向包括于在时间上在第二帧(308)之前或之后出现的至少两个声场参数表示中。
合成信号合成器210可在空间渲染器220的内部,或可在其外部,或在一些情况下,合成信号合成器可具有内部部分及外部部分。合成合成器210可对传送声道228的降混声道(其少于输出声道)进行操作(此处应注意,M为降混声道的数量以及N为输出声道的数量)。合成信号生成器210(合成信号合成器的别称)可针对第二帧生成用于与空间渲染器的外部格式相关的个别的分量的多个合成分量音频信号(在传送信号的声道中的至少一个中或在输出音频格式的至少一个个别的分量中)作为合成音频信号。在一些情况下,这可在降混信号228的声道中,以及在一些情况下,其可在空间渲染的内部声道中的一个中。
图7示出其中从合成音频信号228获得的至少K个声道228a(例如,在合成音频信号的版本228b中,在滤波器组分析720下游)可被去相关的示例。举例而言,当合成合成器210在合成音频信号228的M个声道中的至少一个中生成合成音频信号228时,获得此情形。此相关处理730可在滤波器组分析块720下游应用于信号228b(或其分量中的至少一个或一些),使得可获得至少K个声道(其中K≥M和/或K≤N,其中N为输出声道的数量)。随后,可将K个去相关声道228a和/或信号228b的M个声道提供至块740以生成混合增益/矩阵,该混合增益/矩阵可通过空间参数218、219(参见上文)提供混合信号742。混合信号742可经受滤波器组合成块746,以获得N个输出声道202中的输出信号。基本上,图7的附图标记228a可以是从个别个合成分量音频信号228b去相关的个别的合成分量音频信号,使得空间渲染器(及块740)利用分量228a与分量228b的组合。图8示出全部声道228生成于K个声道中的示例。
此外,在图7中,应用于K个去相关声道228b的去相关器730在滤波器组分析块720下游。此可例如针对扩散场执行。在一些情况下,信号228b的M个声道在反馈分析块720下游并可被提供至生成混合增益/矩阵的块744。协方差法可用于例如通过以与不同声道之间的协方差互补的值相关联的值缩放声道228b来减少去相关器730的问题。
图8示出在频域中的合成信号合成器210的示例。协方差法可用于图8的合成合成器210(810)。值得注意的是,合成音频合成器210(810)在K个声道(其中K≥M)中提供其输出228c,而传送声道228将在M个声道中。
图9示出解码器900(解码器200的实施例)的示例,其可被理解为利用图8的解码器800及图7的解码器700的混合技术。如此处可见,合成信号合成器210包括第一部分210(710),第一部分在降混信号228的M个声道中生成合成音频信号228。信号228可被输入至滤波器组分析块730,该滤波器组分析块可提供输出228b,其中多个滤波器带区别于彼此。此时,可使声道228b去相关以在K个声道中获得去相关信号228a。同时,M个声道中的滤波器组分析的输出228b被提供至块740,以用于生成可提供混合信号742的混合版本的混合增益矩阵。混合信号742可考虑用于非活跃帧219的非活跃空间参数318和/或经恢复(经重建构)空间参数。应注意,还可在加法器920处将去相关器730的输出228a加至合成信号合成器210的第二部分810的输出228d,第二部分在K个声道中提供合成信号228d。在加法块920处,可将信号228d加总至去相关信号228a以将经加总信号228e提供至混合块740。因此,可以通过使用分量228b与分量228e的组合来渲染最终输出信号202,分量228e考虑了去相关分量228a及所生成分量228d二者。图8及图7的分量228b、228a、228d、228e(存在)可被理解为例如合成信号228的扩散和非扩散分量。特别地,参考图9的解码器900,基本上,信号228e的低频带可从传送声道710获得(并从228a获得)以及信号228e的高频带可在合成器810中生成(并在声道228d中),低频带及高频带在加法器920处的相加准许在信号228e中具有这两者。
值得注意的是,在以上图7至图10中,未示出用于活跃帧的传送声道解码器。
图10示出解码器1000(解码器200的实施例)的示例,其中示出音频解码器230(其提供经解码声道226)和合成信号合成器210(此处被视为划分成第一外部部分710与第二内部部分810)。示出切换224',其可类似于图6de切换(例如,受由活动检测器220提供de控制或命令221'控制)。基本上,可以在将经解码音频场景226提供至空间渲染器220的模式与提供合成音频信号228的另一模式之间进行选择。降混信号224(226、228)在通常少于输出信号202的N个输出声道的M个声道中。
信号224(226、228)可被输入至滤波器组分析块720。滤波器组分析720的输出228b(在多个频率区间中)可被输入至升混加法块750,该升混加法块也可输入由合成信号合成器210的第二部分810提供的信号228d。升混加法块750的输出228f可被输入至相关器处理730。去相关器处理730的输出228a可与升混加法块750的输出228f一起被提供至块740,用于生成混合增益及矩阵。升混加法块750可例如将声道的数量从M增大至K(且在一些情况下,其可将这些声道例如以恒定系数倍增)并可将K个声道与由合成信号合成器210(例如,第二内部部分810)生成的K个声道228d相加。为渲染第一(活跃)帧,混合块740可考虑如在比特流304中提供的活跃空间参数316,如以外推或其他方式获得的经恢复(经重建构)空间参数210(参见上文)中的至少一个。
在一些示例中,滤波器组分析块720的输出可在M个声道中,但可考虑不同频带。对于第一帧(及如位于图10中的切换224'及切换222'),经解码信号226(在至少两个声道中)可被提供至滤波器组分析720,并且可因此通过K个噪声声道228d(合成信号声道)在升混加法块750处加权以在K个声道中获得信号228f。应记住,K≥M且可包含例如扩散声道和定向声道。特别地,扩散声道可被去相关器730去相关以获得去相关信号228a。因此,经解码音频信号224可(例如,在块750处)与合成音频信号228d加权,这可掩蔽活跃帧与非活跃帧(第一帧与第二帧)之间的转变。随后,合成信号合成器210的第二部分810不仅用于活跃帧还用于非活跃帧。
图11示出解码器200的另一示例,其可在第一帧(346)中包含第一声场参数表示(316)及经编码音频信号(346),其中第二帧(348)为非活跃帧,设备包含:活动检测器(220),用于检测第二帧(348)为非活跃帧并用于提供用于第二帧(308)的参数描述(328);合成信号合成器(210),用于使用用于第二帧(308)的参数描述(348)合成用于第二帧(308)的合成音频信号(228);音频解码器(230),用于解码用于第一帧(306)的经编码音频信号(346);以及空间渲染器(240),用于使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号(202),或转码器,用于生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧(306)的音频信号(346)、用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的合成音频信号(228)及用于第二帧(308)的第二声场参数表示(318)。
参考以上示例中的合成信号合成器210,如上文所解释的,它可包含(或甚至是)噪声生成器(例如,舒适噪声生成器)。在示例中,合成信号生成器(210)可包含噪声生成器,且第一个别的合成分量音频信号通过噪声生成器的第一采样生成,以及第二个别的合成分量音频信号通过噪声生成器的第二采样生成,其中第二采样不同于第一采样。
另外或替代地,噪声生成器包含噪声表,并且其中第一个别的合成分量音频信号系通过取噪声表的第一部分而生成,以及其中第二个别的合成分量音频信号通过取噪声表的第二部分而生成,其中噪声表的第二部分不同于噪声表的第一部分。
在示例中,噪声生成器包含伪噪声生成器,且其中第一个别的合成分量音频信号通过使用用于伪噪声生成器的第一种子而生成,以及其中第二个别的合成分量音频信号使用用于伪噪声生成器的第二种子而生成。
一般而言,在图6、图7、图9、图10及图11的示例中,空间渲染器220可使用直接信号与由去相关器(730)在第一声场参数表示(316)的控制从直接信号生成的扩散信号的混合,在用于第一帧(306)的第一模式下操作,且使用第一合成分量信号与第二合成分量信号的混合,在用于第二帧(308)的第二模式下操作,其中第一合成分量信号及第二合成分量信号由合成信号合成器(210)通过噪声处理或伪噪声处理的不同实现而生成。
如上文所解释的,空间渲染器(220)可被配置为通过参数处理器为第二帧(308)得出的扩散度参数、能量分布参数或相干性参数,控制第二模式下的混合(740)。
以上示例还关于一种从具有第一帧(306)及第二帧(308)的音频信号生成经编码音频场景的方法,包含:从第一帧(306)中的音频信号确定用于第一帧(306)的第一声场参数表示(316),并从第二帧(308)中的音频信号确定用于第二帧(308)的第二声场参数表示(318);分析音频信号以根据音频信号确定第一帧(306)为活跃帧且第二帧(308)为非活跃帧;生成用于作为活跃帧的第一帧(306)的经编码音频信号并生成用于作为非活跃帧的第二帧(308)的参数描述(348);以及通过将用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的第二声场参数表示(318)、用于第一帧(306)的经编码音频信号及用于第二帧(308)的参数描述(348)组合在一起而构成经编码音频场景。
以上实例还关于一种处理经编码音频场景的方法,该经编码音频场景在第一帧(306)中包含第一声场参数表示(316)及经编码音频信号,其中第二帧(308)为非活跃帧,该方法包含:检测第二帧(308)为非活跃帧并提供用于第二帧(308)的参数描述(348);使用用于第二帧(308)的参数描述(348)合成用于第二帧(308)的合成音频信号(228);解码用于第一帧(306)的经编码音频信号;以及使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号,或生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧(306)的音频信号、用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的合成音频信号(228)及用于第二帧(308)的第二声场参数表示(318)。
还提供经编码音频场景(304),包含:用于第一帧(306)的第一声场参数表示(316);用于第二帧(308)的第二声场参数表示(318);用于第一帧(306)的经编码音频信号;以及用于第二帧(308)的参数描述(348)。
在以上示例中,可以针对每一频带(子频带)传输空间参数316和/或318。
根据一些示例,此静默参数描述348可含有此部分参数318,该部分参数可因此为SID 348的部分。
用于非活跃帧的空间参数318对于每一子频带(或频带或频率)可以是有效的。
以上所论述的在活跃阶段346期间并在SID 348中传输或编码的空间参数316和/或318可具有不同频率分辨率,且另外或替代地,以上所论述的在活跃阶段346期间并在SID348中传输或编码的空间参数316和/或318可具有不同时间分辨率,且另外或替代地,以上所论述的在活跃阶段346期间并在SID 348中传输或编码的空间参数316和/或318可具有不同量化分辨率。
应注意,解码装置及编码装置可为如CELP或DCX或带宽扩展模块的装置。
还可以利用基于MDCT的编码方案(改进型离散余弦转换)。
在解码器设备200的本示例中(在其任一实施例中,例如图6至图11的那些实施例),可以用转码器取代音频解码器230和空间渲染器240,转码器用于生成元数据辅助输出格式,该元数据辅助输出格式包含用于第一帧的音频信号、用于第一帧的第一声场参数表示、用于第二帧的合成音频信号及用于第二帧的第二声场参数表示。
论述
本发明的实施例提出一种将DTX扩展至参数空间音频编码的方式。因此提议将传统DTX/CNG应用于降混/传送声道(例如,324、224)以利用空间参数(称为后方空间SID)例如316、318来扩展降混/传送声道,并在解码器侧对非活跃帧(例如,308、328、348、228)应用空间渲染。为恢复非活跃帧(例如,308、328、348、228)的空间图像,利用专门设计且与沉浸式背景噪声相关的一些空间参数(空间SID)319(或219)修正传送声道SID326、226。(以下和/或以上论述的)本发明的实施例覆盖至少两个方面:
·扩展传送声道SID以用于空间渲染。为此,利用例如从DirAC范式或MASA格式得出的空间参数318修正描述符。诸如扩散度314a和/或一个或多个到达方向314b和/或声道间/环绕相干性和/或能量比的参数318中的至少一个可连同传送声道SID 328(348)一起被传输。在某些情况下且在某些假定下,可舍弃一些参数318。举例而言,若假定背景噪声完全扩散,则可舍弃随后无意义的方向314b的传输。
·通过在空间中渲染传送声道CNG而在接收器侧对非活跃帧进行空间化:可根据背景噪声的空间SID描述符内的最终传输的空间参数318指导采用DirAC合成原理或其衍生物中的一个。至少存在两个选项,其甚至可以组合:可仅针对传送声道228生成传送声道舒适噪声生成(此为图7的情况,其中舒适噪声228由合成信号合成器710生成);或可针对传送声道以及渲染器中用于升混的额外声道生成传送声道CNG(此为图9的情况,其中一些舒适噪声228由合成信号合成器第一部分710生成,但其他一些舒适噪声228d由合成信号合成器第二部分810生成)。在最新情况下,例如利用不同种子对随机噪声228d采样的CNG第二部分710可自动地使所生成声道228d去相关并最小化去相关器730的采用,去相关器可为典型伪声源。此外,还可在活跃帧中采用CNG(如图10中所示),但在一些示例中,以减小的强度来平滑化活跃与非活跃阶段(帧)之间的转变,并且还掩蔽来自传送声道编码器及参数DirAC范式的最终伪声。
图3描绘编码器设备300的实施例的概述。在编码器侧,信号可被DirAC分析来分析。DirAC可分析如B格式或一阶立体混响(FOA)的信号。然而,还可以将原理扩展至高阶立体混响(HOA),且甚至扩展至与如[10]中所提出的如5.1或7.1或7.1+4的给定扬声器设置相关联的多声道信号。输入格式302还可为表示位于通过包括在关联元数据中的信息指示的空间中的一个或若干不同音频对象的个别的音频声道。替代地,输入格式302可为元数据关联空间音频(MASA)。在此情况下,空间参数及传送声道被直接传送至编码器设备300。可随后跳过音频场景分析(例如如图5中所示),且仅需要针对空间参数的非活跃集合318或针对空间参数的活跃及非活跃集合316、318二者执行最终空间参数(再)量化及再采样。
可针对活跃及非活跃帧306、308进行音频场景分析并产生空间参数的两个集合316、318。在活跃帧308的情况下产生第一集合316,且在非活跃帧308的情况下产生另一集合(318)。有可能不具有非活跃空间参数,但在本发明的较佳实施例中,相比于活跃空间参数316,非活跃空间参数318较少和/或经更粗略的量化。此后,可获得两个版本的空间参数(也称作DirAC元数据)。重要的是,本发明的实施例可主要关于从听者视角的音频场景的空间表示。因此,考虑诸如DirAC参数318、316的空间参数,包括一个或若干个方向连同最终扩散度因子或一个或多个能量比。不同于声道间参数,从听者视角的这些空间参数具有不可知声音捕捉及再现系统的较大优势。此参数化并非特定针对于任何特定麦克风阵列或扬声器布局。
话音活动检测器(或更一般而言,活动检测器)320可随后应用于由音频场景分析器产生的输入信号302和/或传送声道326。传送声道少于输入声道的数量;通常为单声道降混、立体声降混、A格式或一阶立体混响信号。基于VAD决策,处理下的当前帧被限定为活跃(306、326)或非活跃(308、328)的。在活跃帧(306、326)的情况下,执行传送声道的传统语音或音频编码。所得码数据随后与活跃空间参数316组合。在非活跃帧(308、328)的情况下,通常在非活跃阶段期间以规则帧间隔,例如每隔8个活跃帧(306、326、346),偶发地产生传送声道324的静默信息描述328。随后可利用非活跃空间参数在多路复用器(经编码信号形成器)370中修正传送声道SID(328、348)。在非活跃空间参数318为空的情况下,随后仅传输传送声道SID 348。总SID通常可为极低比特率描述,其例如低至2.4或4.25kbps。在非活跃阶段中,平均比特率甚至更低,因为大部分时间未进行传输且不发送数据。
在本发明的较佳实施例中,传送声道SID 348具有2.4kbps的大小,且包括空间参数的总SID具有4.25kbps的大小。对于具有诸如FOA的多声道信号作为输入的DirAC,非活跃空间参数的计算在图4中予以描述,对于MASA输入格式,在图5中,非活跃空间参数可直接从高阶立体混响(HOA)得出。如前所述,可与活跃空间参数316并行地得出非活跃空间参数318,从而对已编码的活跃空间参数318求平均和/或再量化。在如FOA的多声道信号作为输入格式302的情况下,对于各时间及频率块,多声道信号302的滤波器组分析可在计算空间参数、方向及扩散度之前执行。元数据编码器396、398可在应用量化器及编码经量化参数之前对不同频带和/或时隙上的参数316、318求平均。其他非活跃空间元数据编码器可继承在活跃空间元数据编码器中得出的经量化参数中的一些以将其直接用于非活跃空间参数中或将其再量化。在MASA格式的情况下(例如图5),首先可读取输入元数据并以给定时间频率及比特深度分辨率提供至元数据编码器396、398。一个或多个元数据编码器396、398随后将进一步通过以下操作进行处理:最终转换一些参数,调适其分辨率(即,降低分辨率例如对其求平均)以及在例如通过熵编码方案对其编码之前再量化这些参数。
如例如图6中所描绘,在解码器侧首先通过检测所传输封包(例如,帧)的大小或通过检测封包的未传输来恢复VAD信息221(例如,帧是被分类为活跃还是非活跃)。在活跃帧348中,解码器在活跃模式下运行,且传送声道编码器有效负载以及活跃空间参数被解码。空间渲染器220(DirAC合成)随后使用呈输出空间格式的经解码空间参数316、318对经解码传送声道进行升混/空间化。在非活跃帧中,可通过传送声道CNG部分810(例如在图10中)在传送声道中生成舒适噪声。CNG由传送声道SID指导以用于通常调整能量及频谱形状(通过例如应用于频域中的缩放因子或应用于时域合成滤波器的线性预测编码系数)。随后在此时由非活跃空间参数318指导的空间渲染器(DirAC合成)740中渲染/空间化一个或多个舒适噪声228d、228a等。输出空间格式202可为双耳信号(2个声道)、用于给定扬声器布局的多声道或呈立体混响格式的多声道信号。在替代性实施例中,输出格式可为元数据辅助空间音频(MASA),其意味着经解码传送声道或传送声道舒适噪声连同活跃或非活跃空间参数分别被直接输出用以由外部装置渲染。
非活跃空间参数的编码及解码
非活跃空间参数318可由频带中的多个方向中的一个以及对应于一个定向分量与总能量之比的频带中的关联能量比组成。在一个方向的情况下,如在较佳实施例中,能量比可被扩散度替换,扩散度与能量比互补且随后遵循参数的原始DirAC集合。由于一般预期一个或多个定向分量在非活跃帧中与扩散部分相比而言较不相关,因此其可诸如在活跃帧中使用更粗略的量化方案和/或通过对方向随时间或频率求平均以获得更粗略的时间和/或频率分辨率而在较少比特上传输。在较佳实施例中,可针对活跃帧每20ms而非5ms,但使用5个非均匀频带的相同频率分辨率,发送方向。
在较佳实施例中,扩散度314a可以以与在活跃帧中的相同时间/频率但在较少比特上传输,从而迫使实现最小量化索引。举例而言,若扩散度314a在活跃帧中的4个比特上被量化,则其随后仅在2个比特上传输,从而避免从0至3的原始索引的传输。经解码索引随后将添加偏移量+4。
在一些示例中,还可以完全避免发送方向314b或替代地避免发送扩散度314a并在解码器处将其替换为默认值或估计值。
此外,若输入声道对应于位于空间域的声道,则可考虑传输声道间相干性。声道间声级差也为方向的替代方案。
更相关的是发送环绕相干性,该环绕相干性被限定为在声场中相干的扩散能量的比。可例如通过在直接信号与扩散信号之间重分布能量而在空间渲染器(DirAC合成)处利用该环绕相干性。环绕相干分量的能量从待重分布至定向分量的扩散能量中移除,定向分量随后将在空间中更均匀地平移。
自然地,对于非活跃空间参数,可考虑先前所列参数的任何组合。出于节省比特的目的,还可以设想在非活跃阶段中不发送任何参数。
非活跃空间元数据编码器的示例性伪程序代码在下文给出:
非活跃空间元数据解码器的示例性伪程序代码在下文给出:
在解码器侧未传输的情况下恢复空间参数
在非活跃阶段期间的SID的情况下,空间参数可被完全或部分解码且随后用于后续DirAC合成。
在无数据传输的情况下或在无空间参数318连同传送声道348一起传输的情况下,可能需要恢复空间参数219。此可通过考虑过去接收的参数(例如,316及7或318)合成地生成遗失参数219(例如图7至图10)而达成。不稳定空间图像可在感知上令人不适,尤其对于视为稳定且并不快速演变的背景噪声。另一方面,绝对恒定的空间图像可被感知为不自然的。可应用不同策略:
维持策略
认为空间图像必须随时间推移而相对稳定通常是安全的,可针对DirAC参数,即在帧之间不会改变很多的DOA及扩散度来翻译空间图像。出于此原因,简单但有效的方法为保持最后接收的空间参数316和/或318作为经恢复空间参数219。这至少对于具有长期特性的扩散度而言是极稳健的方法。然而,对于方向,可设想不同策略,如下所列。
方向的外推:
替代地或另外,可设想估计音频场景中的声音事件的轨迹且接着尝试外推所估计轨迹。这在声音事件作为点源良好地位于空间中的情况下尤其有意义,点源在DirAC模型中由低扩散度反映。可从过去方向的观测结果并在这些点中拟合曲线来计算所估计轨迹,这可演进为内插或平滑化。还可采用回归分析。接着可通过估计超出所观测数据(例如,包括先前参数316和/或318)的范围的经拟合曲线执行参数219的外推。然而,此方法可导致对于背景噪声是无用的且预期是极大扩散的非活跃帧348相关性较低。
方向的抖动:
当声音事件更为扩散(其特别是对于背景噪声的情况)时,方向不大具有意义且可被视为随机处理的实现。抖动可接着通过在将随机噪声用于未传输帧之前将随机噪声注入至先前方向而帮助使所渲染声场愈加自然且愈加令人愉快。所注入噪声及其方差可取决于扩散度。举例而言,在方位角及仰角上的所注入噪声的方差σazi及σele可遵循扩散度Ψ的简单模型函数,如下:
σazi=65Ψ3.5+σele
σele=33.25Ψ+1.25
舒适噪声生成及空间化(解码器侧)
现论述以上提供的一些示例。
在第一实施例中,在如图7中所描绘的核心解码器中实现舒适噪声生成器210(710)。所得舒适噪声被注入传送声道中且接着借助于所传输非活跃空间参数318或在未传输情况下使用如先前所描述推导出的空间参数219在DirAC合成中被空间化。接着可以以如较早所描述的方式例如通过生成两个流来实现空间化,该两个流是从经解码传送声道得出的定向流及非定向流,并且在非活跃帧的情况下来自传送声道舒适噪声。接着将两个流升混且在块740处根据空间参数318而混合在一起。
替代地,舒适噪声或其部分可直接在滤波器组域中在DirAC合成内生成。实际上,DirAC可借助于传送声道224、空间参数318、316、319及一些去相关器(例如,730)来控制经恢复场景的相干性。去相关器730可减小合成声场的相干性。随后在头戴式耳机再现的情况下以更多宽度、深度、扩散、回响或外化来感知空间图像。然而,去相关器常常倾向于是典型可听伪声,且希望减少其使用。这可例如通过所谓的协方差合成方法[5]通过利用传送声道的已存在非相干分量来达成。然而,此方法可具有限制,尤其在单音传送声道的情况下。
在舒适噪声由随机噪声生成的情况下,则针对每一输出声道或其至少子集生成专用舒适噪声是有利的。更具体地,有利的是不仅对传送声道而且对空间渲染器(DirAC合成)220中(及在混合块740中)使用的中间音频声道应用舒适噪声生成。扩散场的去相关随后通过使用不同噪声生成器而非使用去相关器730来直接给出,这可降低伪声的量并降低总复杂度。实际上,按照定义,随机噪声的不同实现是去相关的。图8及图9示出通过完全或部分地在空间渲染器220内生成舒适噪声达成此情形的两种方式。在图8中,CN如[5]中所描述地在频域中完成,其可直接利用空间渲染器的滤波器组域而生成,从而避免滤波器组分析720及去相关器730。此处,针对其生成舒适噪声的声道的数量K等于或大于传送声道的数量M,且低于或等于输出声道的数量N。在最简单的情况下,K=N。
图9示出在渲染器中包括舒适噪声生成810的另一替代方案。舒适噪声生成被分成在空间渲染器220的内部(710处)与外部(810处)。将渲染器220内的舒适噪声228d添加(在加法器920处)至最终去相关器输出228a。举例而言,低频带可在与核心编码器中的相同域之外生成,以便能够容易地更新所需内存。另一方面,对于高频率,舒适噪声生成可直接在渲染器中执行。
此外,还可在活跃帧346期间应用舒适噪声生成。代替在活跃帧346期间完全关闭舒适噪声生成,可通过减小其强度而保持活跃。随后值得做的是掩蔽活跃与非活跃帧之间的过渡,也掩蔽核心编码器及参数空间音频模型的伪声及缺陷。这在[11]中针对单音语音编码提出。相同原理可扩展至空间语音编码。图10示出实施方式。此时在活跃阶段与非活跃阶段上开启空间渲染器220中的舒适噪声生成。在非活跃阶段348中,渲染器中的舒适噪声生成与在传送声道中执行的舒适噪声生成互补。在渲染器中,在等于或大于M个传送声道的K个声道上达成舒适噪声,旨在减少去相关器的使用。空间渲染器220中的舒适噪声生成被加至传送声道的升混版本228f,这可通过M个声道至K个声道的简单复制来达成。
方面
对于编码器:
1.一种用于利用描述音频场景的元数据编码具有多个声道或一个或若干个音频声道的空间音频格式的音频编码器设备(300),包含以下中的至少一个:
a.空间音频输入信号(302)的场景音频分析器(310),被配置为生成描述含有一个或若干个传送声道的输入信号(202)的空间图像及降混版本(326)的第一组或第一组及第二组空间参数(318、319),传送声道的数量小于输入声道的数量;
b.传送声道编码器装置(340),被配置为在活跃阶段(306)通过编码含有传送声道的经降混信号(326)来生成经编码数据(346);
c.传送声道静默插入描述器(350),用于在非活跃阶段(308)中生成传送声道(328)的背景噪声的静默插入描述(348);
d.多路复用器(370),用于在活跃阶段(306)期间将第一组空间参数(318)与经编码数据(344)组合成比特流(304),并用于在非活跃阶段(308)期间不发送数据或发送静默插入描述(348),或组合发送静默插入描述(348)和第二组空间参数(318)。
2.如1所述的音频编码器,其中场景音频分析器(310)遵循定向音频编码(DirAC)原理。
3.如1所述的音频编码器,其中场景音频分析器(310)解译输入元数据连同一个或若干个传送声道(348)。
4.如1所述的音频编码器,其中场景音频分析器(310)从输入元数据得出一组或两组参数(316、318)并从一个或若干个输入音频声道得出传送声道。
5.如1所述的音频编码器,其中空间参数为一个或若干个到达方向(DOA)(314b),或扩散度(314a),或一个或若干个相干性。
6.如1所述的音频编码器,其中针对不同子频带得出空间参数。
7.如1所述的音频编码器,其中传送声道编码装置遵循CELP原理,或为基于MDCT的编码方案或两个方案的切换组合。
8.如1所述的音频编码器,其中活跃阶段(306)及非活跃阶段(308)由对传送声道执行的话音活动检测器(320)确定。
9.如1所述的音频编码器,其中第一组及第二组空间参数(316、318)在时间或频率分辨率,或量化分辨率,或参数的性质方面不同。
10.如1所述的音频编码器,其中空间音频输入格式(202)呈立体混响格式或B格式,或为与给定扬声器设置相关联的多声道信号,或从麦克风阵列得出的多声道信号,或一组个别的音频声道连同元数据,或元数据辅助空间音频(MASA)。
11.如1所述的音频编码器,其中空间音频输入格式由两个以上音频声道组成。
12.如1所述的音频编码器,其中传送声道的数量为1、2或4(可选择其他数量)。
对于解码器:
1.一种用于解码比特流(304)以从空间音频输出信号(202)产生比特流的音频解码器设备(200),比特流(304)包含被至少非活跃阶段(308)跟随的至少活跃阶段(306),其中比特流已在其中编码至少静默插入描述符帧SlD(348),静默插入描述符帧描述传送/降混声道(228)的背景噪声特性和/或空间图像信息,音频解码器设备(200)包含以下中的至少一个:
a.静默插入描述符解码器(210),被配置为解码静默SlD(348),以重建构传送/降混声道(228)中的背景噪声;
b.解码装置(230),被配置为在活跃阶段(306)期间从比特流(304)重建构传送/降混声道(226);
c.空间渲染装置(220),被配置为在活跃阶段(306)期间从经解码传送/降混声道(224)及所传输空间参数(316)重建构(740)空间输出信号(202),并在非活跃阶段(308)期间从传送/降混声道(228)中的经重建构背景噪声重建构空间输出信号。
2.如1所述的音频解码器,其中在活跃阶段中传输的空间参数(316)由扩散度或到达方向或相干性组成。
3.如1所述的音频解码器,其中空间参数(316、318)通过子频带传输。
4.如1所述的音频解码器,其中静默插入描述(348)除传送/降混声道(228)的背景噪声特性外,还含有空间参数(318)。
5.如4所述的音频解码器,其中在SID(348)中传输的参数(318)可由扩散度或到达方向或相干性组成。
6.如4所述的音频解码器,其中在SID(348)中传输的空间参数(318)通过子频带传输。
7.如4所述的音频解码器,其中在活跃阶段(346)期间及在SID(348)中传输或编码的空间参数(316、318)具有不同频率分辨率或时间分辨率或量化分辨率。
8.如1所述的音频解码器,其中空间渲染器(220)可由以下构成:
a.去相关器(730),用于获得一个或多个经解码传送/降混声道(226)和/或经重建构背景噪声(228)的去相关版本(228b);
b.升混器,用于从一个或多个经解码传送/降混声道(226)或经重建构背景噪声(228)及其去相关版本(228b)并从空间参数(348)得出输出信号。
9.如8所述的音频解码器,其中空间渲染器的升混器包括:
a.至少两个噪声生成器(710、810),用于生成具有静默描述符(448)中描述的特性和/或由应用于活跃阶段(346)中的噪声估计给出的特性的至少两个去相关背景噪声(228、228a、228d)。
10.如9所述的音频解码器,其中考虑到活跃阶段中传输的空间参数和/或包括在SID中的空间参数,升混器中的所生成去相关背景噪声与经解码传送声道或传送声道中的经重建构背景噪声混合。
11.如前述方面中的一个的音频解码器,其中解码装置包含如CELP的语音编码器或如TCX的通用音频编码器或带宽扩展模块。
附图的其他表征
图1:来自[1]的DirAC分析及合成。
图2:低比特率3D音频编码器中的DirAC分析及合成的详细块图。
图3:解码器的块图。
图4:DirAC模式下的音频场景分析器的块图。
图5:用于MASA输入格式的音频场景分析器的块图。
图6:解码器的块图。
图7:空间渲染器(DirAC合成)的块图,其中传送声道中的CNG在渲染器的外部。
图8:空间渲染器(DirAC合成)的块图,其中在渲染器的滤波器组域中针对K个声道直接执行CNG,K>=M个传送声道。
图9:空间渲染器(DirAC合成)的块图,其中在空间渲染器的外部及内部中执行CNG。
图10:空间渲染器(DirAC合成)的块图,其中在空间渲染器的外部及内部中执行CNG且针对活跃及非活跃帧开启CNG。
优势
本发明的实施例允许以高效方式将DTX扩展至参数空间音频编码。甚至对于非活跃帧,这可利用高感知保真度对背景噪声进行恢复,对于非活跃帧,可中断传输以节省通信带宽。
为此,通过与描述背景噪声的空间图像相关的非活跃空间参数扩展传送声道的SID。所生成舒适噪声在被渲染器(DirAC合成)空间化之前被应用于传送声道中。替代地,为了改进质量,在渲染内CNG可被应用于比传送声道更多的声道。这允许复杂度降低且减少去相关器伪声的烦扰。
其他方面
此处应提及,可单独地使用如之前所论述的所有替代方案或方面及如在以下方面中由独立方面限定的所有方面,即,无需除预期替代方案、对象或独立方面外的任何其他替代方案或对象。然而,在其他实施例中,替代方案或方面或独立方面中的两个或更多个可彼此组合,且在其他实施例中,所有方面或替代方案及所有独立方面可彼此组合。
本发明的经编码信号可被储存于数字储存媒体或非暂时性储存媒体上,或可在传输媒体,诸如无线传输媒体或诸如因特网的有线传输媒体上传输。
尽管已在设备的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面也表示对应设备的对应块或项目或特征的描述。
取决于某些实施要求,本发明的实施例可在硬件或软件中实施。可使用其上储存有与可程序计算机系统协作(或能够协作)的电子可读控制信号的数字储存媒体,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方式,使得执行各个方法。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,该数据载体能够与可程序计算机系统协作,使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码操作性地用于执行方法中的一个。程序代码可例如储存于机器可读载体上。
其他实施例包含用于执行本文中描述的方法中的一个的计算机程序,该计算机程序储存于机器可读载体或非暂时性储存媒体上。
换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法中的一个。
因此,本发明方法的另一实施例为数据载体(或数字储存媒体,或计算机可读媒体),该数据载体包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为经由数据通信连接,例如经由因特网而传送。
另一实施例包含处理构件,例如被配置或调适以执行本文中所描述的方法中的一个的计算机或可程序逻辑装置。
另一实施例包含计算机,该计算机上安装有用于执行本文中所描述的方法中的一个的计算机程序。
在一些实施例中,可程序逻辑装置(例如,现场可程序门阵列)可用以执行本文中所描述的方法的功能中的一些或全部。在一些实施例中,现场可程序门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。一般而言,方法较佳地由任何硬设备执行。
上述实施例仅说明本发明的原理。应理解,对本文中所描述的布置及细节的修改及变化对本领域技术人员是显而易见的。因此,意图为仅受到接下来的专利方面的范围限制,而不受到由本文中的实施例的描述及解释所呈现的特定细节限制。
用于第一组实施例及第二组实施例的随后限定方面可以组合,使得一组实施例的某些特征可包括在另一组实施例中。
Claims (37)
1.一种用于从具有第一帧(306)和第二帧(308)的音频信号(302)生成经编码音频场景(304)的设备(300),包含:
声场参数生成器(310),用于从第一帧(306)中的音频信号(302)确定用于第一帧(306)的第一声场参数表示(316)并从第二帧中(308)的音频信号(302)确定用于第二帧(308)的第二声场参数表示(318);
活动检测器(320),用于分析音频信号(302)以根据音频信号(302)确定第一帧为活跃帧(304)且第二帧为非活跃帧(306);
音频信号编码器(330),用于生成用于作为活跃帧(306)的第一帧的经编码音频信号(346)并生成用于作为非活跃帧(308)的第二帧的参数描述(348);以及
经编码信号形成器(370),用于通过将用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的第二声场参数表示(318)、用于第一帧(306)的经编码音频信号(346)及用于第二帧(308)的参数描述(348)组合在一起而构成经编码音频场景(304)。
2.如权利要求1所述的设备,其中声场参数生成器(310)被配置为生成第一声场参数表示(316)或第二声场参数表示(318),使得第一声场参数表示(316)或第二声场参数表示(318)包含指示音频信号(302)相对于听者位置的特性的参数。
3.如权利要求1或2所述的设备,其中第一声场参数表示或第二声场参数表示(316)包含指示第一帧(306)中的声音相对于听者位置的方向的一个或多个方向参数,或指示第一帧(306)中的相对于直接声音的扩散声音部分的一个或多个扩散度参数,或指示第一帧(306)中的直接声音与扩散声音的能量比的一个或多个能量比参数,或第一帧(306)中的声道间/环绕相干性参数。
4.如前述权利要求中的一项所述的设备,
其中声场参数生成器(310)被配置为从音频信号的第一帧(306)或第二帧(308)确定多个个别的声源并针对每一声源确定参数描述(348)。
5.如权利要求4所述的设备,
其中声场生成器(310)被配置为将第一帧(306)或第二帧(308)分解成多个频率区间,每一频率区间表示个别的声源,并针对每一频率区间确定至少一个声场参数,声场参数示例性地包含方向参数、到达方向参数、扩散度参数、能量比参数或表示由音频信号的第一帧(306)表示的声场相对于听者位置的特性的任何参数。
6.如前述权利要求中的一项所述的设备,其中用于第一帧(306)和第二帧(308)的音频信号包含输入格式,输入格式具有表示相对于听者的声场的多个分量,
其中声场参数生成器(310)被配置为例如使用多个分量的降混来计算用于第一帧(306)和第二帧(308)的一个或多个传送声道,并分析输入格式以确定与一个或多个传送声道相关的第一参数表示,或
其中声场参数生成器(310)被配置为例如使用多个分量的降混来计算一个或多个传送声道,以及
其中活动检测器(320)被配置为分析从第二帧(308)中的音频信号得出的一个或多个传送声道。
7.如权利要求1至5中的一项所述的设备,
其中用于第一帧(306)或第二帧(308)的音频信号包含输入格式,对于第一帧和第二帧中的每一帧,输入格式具有与每一帧相关联的一个或多个传送声道及元数据,
其中声场参数生成器(310)被配置为从第一帧(306)和第二帧(308)读取元数据,并将用于第一帧的元数据用作或处理为第一声场参数表示(316)且处理第二帧(308)的元数据以获得第二声场参数表示(318),其中获得第二声场参数表示(318)的处理使得传输用于第二帧(308)的元数据所需的信息单元的量相对于处理之前所需的量有所减少。
8.如权利要求7所述的设备,
其中声场参数生成器(310)被配置为处理用于第二帧(308)的元数据以减少元数据中的信息项的数量或将元数据中的信息项再采样至较低分辨率,诸如时间分辨率或频率分辨率,或将用于第二帧(308)的元数据的信息单元再量化成相对于再量化之前的情形更粗略的表示。
9.如前述权利要求中的一项所述的设备,
其中音频信号编码器(330)被配置为将用于非活跃帧的静默信息描述确定为参数描述(348),
其中静默信息描述示例性地包含用于第二帧(308)的诸如能量、功率或响度的振幅相关信息及诸如频谱成形信息的成形信息,或用于第二帧(308)的诸如能量、功率或响度的振幅相关信息及用于第二帧(308)的线性预测编码LPC参数,或用于第二帧(308)的具有变化的关联频率分辨率的尺度参数,使得不同尺度参数指具有不同宽度的频带。
10.如前述权利要求中的一项所述的设备,
其中音频信号编码器(330)被配置为针对第一帧使用时域或频域编码模式来编码音频信号,经编码音频信号包含例如经编码时域样本、经编码频谱域样本、经编码LPC域样本及从音频信号的分量获得或从一个或多个传送声道获得的旁侧信息,一个或多个传送声道例如通过降混操作从音频信号的分量得出。
11.如前述权利要求中的一项所述的设备,
其中音频信号(302)包含输入格式,输入格式为一阶立体混响格式、高阶立体混响格式、与给定扬声器设置诸如5.1或7.1或7.1+4相关联的多声道格式,或表示一个或多个不同音频对象的一个或多个音频声道,一个或多个不同音频对象位于由包括在关联元数据中的信息所指示的空间中,或输入格式为元数据关联空间音频表示,
其中声场参数生成器(310)被配置为确定第一声场参数表示(316)和第二声场表示,使得参数相对于限定听者位置表示声场,或
其中音频信号包含由真实麦克风或虚拟麦克风获取的麦克风信号或例如呈一阶立体混响格式或高阶立体混响格式的合成产生的麦克风信号。
12.如前述权利要求中的一项所述的设备,
其中活动检测器(320)被配置为检测第二帧(308)和第二帧(308)之后的一个或多个帧上的非活跃阶段,以及
其中音频信号编码器(330)被配置为仅针对另一第三帧生成用于非活跃帧的另一参数描述(348),就帧的时序而言,另一第三帧与第二帧(308)相隔至少一个帧,且
其中声场参数生成器(310)被配置为仅针对音频信号编码器(330)已为其确定参数描述的帧确定另一声场参数表示,或
其中活动检测器(320)被配置为确定包含第二帧(308)和第二帧(308)之后的八个帧的非活跃阶段,以及其中音频信号编码器(330)被配置为仅在每第八个帧处生成用于非活跃帧的参数描述,以及其中声场参数生成器(310)被配置为针对每第八个非活跃帧生成声场参数表示,或
其中声场参数生成器(310)被配置为,甚至在音频信号编码器(330)未生成用于非活跃帧的参数描述时,针对每一非活跃帧生成声场参数表示,或
其中声场参数生成器(310)被配置为,以相较于音频信号编码器(330)生成用于一个或多个非活跃帧的参数描述而言更高的帧率,确定参数表示。
13.如前述权利要求中的一项所述的设备,
其中声场参数生成器(310)被配置为使用用于频带中的一个或多个方向的空间参数和对应于一个方向分量与总能量的比的频带中的关联能量比,确定用于第二帧(308)的第二声场参数表示(318),或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以确定指示扩散声音或直接声音的比的扩散度参数,或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以使用与第一帧(306)中的量化相比更粗略的量化方案确定方向信息,或
其中声场参数生成器(310)被配置为使用用于获得更粗略的时间或频率分辨率的方向随时间或频率的平均,确定用于第二帧(308)的第二声场参数表示(318),或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以确定用于一个或多个非活跃帧的声场参数表示,用于一个或多个非活跃帧的声场参数表示具有与在用于活跃帧的第一声场参数表示(316)中相同的频率分辨率,以及关于用于非活跃帧的声场参数表示中的方向信息具有与用于活跃帧的时间发生率相比更低的时间发生率,或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以确定具有扩散度参数的第二声场参数表示(318),其中扩散度参数以与活跃帧相同的时间或频率分辨率但经过更粗略的量化而传输,或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以用第一数量的比特量化用于第二声场表示的扩散度参数,以及其中仅传输每一量化索引的第二数量的比特,第二数量的比特少于第一数量的比特,或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318),从而若音频信号具有对应于位于空间域中的声道的输入声道,针对第二声场参数表示(318)确定声道间相干性,或若音频信号具有对应于位于空间域中的声道的输入声道,针对第二声场参数表示(318)确定声道间声级差,或
其中声场参数生成器(310)被配置为确定用于第二帧(308)的第二声场参数表示(318)以确定环绕相干性,环绕相干性被限定为在由音频信号表示的声场中相干的扩散能量的比。
14.一种用于处理经编码音频场景(304)的设备(200),经编码音频场景在第一帧(346)中包含第一声场参数表示(316)和经编码音频信号(346),其中第二帧(348)为非活跃帧,设备包含:
活动检测器(2200),用于检测第二帧(348)为非活跃帧;
合成信号合成器(210),用于使用用于第二帧(308)的参数描述(348)来合成用于第二帧(308)的合成音频信号(228);
音频解码器(230),用于解码用于第一帧(306)的经编码音频信号(346);以及
空间渲染器(240),用于使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号(202),或
转码器,用于生成元数据辅助输出格式,元数据辅助输出格式包含用于第一帧(306)的音频信号(346)、用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的合成音频信号(228)和用于第二帧(308)的第二声场参数表示(318)。
15.如权利要求14所述的设备,其中经编码音频场景(304)包含用于第二帧(308)的第二声场参数描述(318),且其中设备包含用于从第二声场参数表示(318)得出一个或多个声场参数(219,318)的声场参数处理器(275,1075),且其中空间渲染器(220)被配置为将用于第二帧(308)的一个或多个声场参数用来渲染用于第二帧(228)的合成音频信号(228)。
16.如权利要求14所述的设备,包含用于得出用于第二帧(308)的一个或多个声场参数(219,318)的参数处理器(275,1075),
其中参数处理器(275,1075)被配置为储存用于第一帧(306)的声场参数表示并使用用于第一帧(306)的所储存的第一声场参数表示(316)来合成用于第二帧(308)的一个或多个声场参数,其中第二帧(308)在时间上在第一帧(306)之后,或
其中参数处理器(275,1075)被配置为储存用于在时间上出现于第二帧(308)之前或在时间上出现于第二帧(308)之后的多个帧的一个或多个声场参数表示(318),以使用用于多个帧的一个或多个声场参数表示中的至少两个声场参数表示进行外推或内插,以确定用于第二帧(308)的一个或多个声场参数,以及
其中空间渲染器被配置为将用于第二帧(308)的一个或多个声场参数用来渲染用于第二帧(308)的合成音频信号(228)。
17.如权利要求16所述的设备,
其中参数处理器(275)被配置为,在进行外推或内插以确定用于第二帧(308)的一个或多个声场参数时,以在时间上出现于第二帧(308)之前或之后的至少两个声场参数表示中所包括的方向执行抖动。
18.如权利要求14至17中的一项所述的设备,
其中经编码音频场景(304)包含用于第一帧(306)的一个或多个传送声道(326),
其中合成信号生成器(210)被配置为生成用于第二帧(308)的一个或多个传送声道(228)作为合成音频信号(228),以及
其中空间渲染器(220)被配置为在空间上渲染用于第二帧(308)的一个或多个传送声道(228)。
19.如权利要求14至18中的一项所述的设备,
其中合成信号生成器(210)被配置为针对第二帧(308)生成用于与空间渲染器的音频输出格式相关的个别的分量的多个合成分量音频信号作为合成音频信号(228)。
20.如权利要求19所述的设备,其中合成信号生成器(210)被配置为至少针对与音频输出格式(202)相关的至少两个个别的分量(228a,228b)的子集中的每个生成个别的合成分量音频信号,
其中第一个别的合成分量音频信号(228a)与第二个别的合成分量音频信号(228b)去相关,以及
其中空间渲染器(220)被配置为使用第一个别的合成分量音频信号(228a)与第二个别的合成分量音频信号(228b)的组合来渲染音频输出格式(202)的分量。
21.如权利要求20所述的设备,
其中空间渲染器(220)被配置为应用协方差法。
22.如权利要求21所述的设备,
其中空间渲染器(220)被配置为不使用任何去相关器处理或控制去相关器处理(730),使得在生成音频输出格式(202)的分量时仅使用通过由协方差法所指示的去相关器处理(730)生成的多个去相关信号(228a)。
23.如权利要求14至22中的一项所述的设备,其中合成信号生成器(210,710,810)为舒适噪声生成器。
24.如权利要求20至23中的一项所述的设备,其中合成信号生成器(210)包含噪声生成器,并且第一个别的合成分量音频信号通过噪声生成器的第一采样生成以及第二个别的合成分量音频信号通过噪声生成器的第二采样生成,其中第二采样不同于第一采样。
25.如权利要求24所述的设备,其中噪声生成器包含噪声表,并且及其中第一个别的合成分量音频信号通过取噪声表的第一部分而生成,以及其中第二个别的合成分量音频信号通过取噪声表的第二部分而生成,其中噪声表的第二部分不同于噪声表的第一部分,或
其中噪声生成器包含伪噪声生成器,并且其中第一个别的合成分量音频信号通过使用用于伪噪声生成器的第一种子而生成,以及其中第二个别的合成分量音频信号使用用于伪噪声生成器的第二种子而生成。
26.如权利要求14至25中的一项所述的设备,
其中经编码音频场景(304)包含用于第一帧(306)的两个或更多个传送声道(326),以及
其中合成信号生成器(210,710,810)包含噪声生成器(810)并被配置为使用用于第二帧(308)的参数描述(348),通过对噪声生成器(810)进行采样来生成第一传送声道以及通过对噪声生成器(810)进行采样来生成第二传送声道,其中通过对噪声生成器(810)进行采样而确定的第一传送声道和第二传送声道使用用于第二帧(308)的相同参数描述(348)进行加权。
27.如权利要求14至26中的一项所述的设备,其中空间渲染器(220)被配置为
使用直接信号与由去相关器(730)在第一声场参数表示(316)的控制下从直接信号生成的扩散信号的混合,在用于第一帧(306)的第一模式下操作,以及
使用第一合成分量信号与第二合成分量信号的混合,在用于第二帧(308)的第二模式下操作,其中第一合成分量信号和第二合成分量信号由合成信号合成器(210)通过噪声处理或伪噪声处理的不同实现来生成。
28.如权利要求27所述的设备,其中空间渲染器(220)被配置为通过由参数处理器为第二帧(308)得出的扩散度参数、能量分布参数或相干性参数,控制第二模式下的混合(740)。
29.如权利要求14至28中的一项所述的设备,
其中合成信号生成器(210)被配置为使用用于第二帧(308)的参数描述(348)来生成用于第一帧(306)的合成音频信号(228),以及
其中空间渲染器被配置为在空间渲染之前或之后执行用于第一帧(306)的音频信号与用于第一帧(306)的合成音频信号(228)的加权组合,其中在加权组合中,用于第一帧(306)的合成音频信号(228)的强度相对于用于第二帧(308)的合成音频信号(228)的强度有所减小。
30.如权利要求14至29中的一项所述的设备,
其中参数处理器(275,1075)被配置为针对第二非活跃帧(308)确定环绕相干性,环绕相干性被限定为在由第二帧(308)表示的声场中的相干的扩散能量的比,其中空间渲染器被配置为基于声音相干性重分布第二帧(308)中的直接信号与扩散信号之间的能量,其中从待重分布至定向分量的扩散能量中移除声音环绕相干分量的能量,以及其中在再现空间中平移定向分量。
31.如权利要求14至18中的一项所述的设备,还包含输出接口,输出接口用于将由空间渲染器生成的音频输出格式转换成经转码输出格式,诸如包含专用于待置放于预定位置处的扬声器的多个输出声道的输出格式,或包含FOA或HOA数据的经转码输出格式,或
其中,替代空间渲染器,提供转码器以用于生成元数据辅助输出格式,元数据辅助输出格式包含用于第一帧(306)的音频信号、用于第一帧(306)的第一声场参数及用于第二帧(308)的合成音频信号(228)和用于第二帧(308)的第二声场参数表示(318)。
32.如权利要求14至31中的一项所述的设备,其中活动检测器(2200)被配置为检测第二帧(348)为非活跃帧。
33.一种从具有第一帧(306)和第二帧(308)的音频信号生成经编码音频场景的方法,包含:
从第一帧(306)中的音频信号确定用于第一帧(306)的第一声场参数表示(316)并从第二帧中(308)的音频信号确定用于第二帧(308)的第二声场参数表示(318);
分析音频信号以根据音频信号确定第一帧(306)为活跃帧且第二帧(308)为非活跃帧;
生成用于作为活跃帧的第一帧(306)的经编码音频信号并生成用于作为非活跃帧的第二帧(308)的参数描述(348);以及
通过将用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的第二声场参数表示(318)、用于第一帧(306)的经编码音频信号及用于第二帧(308)的参数描述(348)组合在一起而构成经编码音频场景。
34.一种处理经编码音频场景的方法,经编码音频场景在第一帧(346)中包含第一声场参数表示(316)和经编码音频信号,其中第二帧(348)为非活跃帧,方法包含:
检测第二帧(308)为非活跃帧;
使用用于第二帧(308)的参数描述(348)来合成用于第二帧(308)的合成音频信号(228);
解码用于第一帧(306)的经编码音频信号;以及
使用第一声场参数表示(316)并使用用于第二帧(308)的合成音频信号(228)在空间上渲染用于第一帧(306)的音频信号,或生成元数据辅助输出格式,元数据辅助输出格式包含用于第一帧(306)的音频信号、用于第一帧(306)的第一声场参数表示(316)、用于第二帧(308)的合成音频信号(228)和用于第二帧(308)的第二声场参数表示(318)。
35.如权利要求34所述的方法,还包含提供用于第二帧(308)的参数描述(348)。
36.一种经编码音频场景(304),包含:
用于第一帧(306)的第一声场参数表示(316);
用于第二帧(308)的第二声场参数表示(318);
用于第一帧(306)的经编码音频信号;以及
用于第二帧(308)的参数描述(348)。
37.一种计算机程序,用于在计算机或处理器上运行时执行如权利要求33或权利要求34所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20188707 | 2020-07-30 | ||
EP20188707.2 | 2020-07-30 | ||
PCT/EP2021/064576 WO2022022876A1 (en) | 2020-07-30 | 2021-05-31 | Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116348951A true CN116348951A (zh) | 2023-06-27 |
Family
ID=71894727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180067397.4A Pending CN116348951A (zh) | 2020-07-30 | 2021-05-31 | 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 |
Country Status (12)
Country | Link |
---|---|
US (1) | US20230306975A1 (zh) |
EP (1) | EP4189674A1 (zh) |
JP (1) | JP2023536156A (zh) |
KR (1) | KR20230049660A (zh) |
CN (1) | CN116348951A (zh) |
AU (2) | AU2021317755B2 (zh) |
BR (1) | BR112023001616A2 (zh) |
CA (1) | CA3187342A1 (zh) |
MX (1) | MX2023001152A (zh) |
TW (2) | TW202347316A (zh) |
WO (1) | WO2022022876A1 (zh) |
ZA (1) | ZA202301024B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051954A1 (en) | 2022-09-09 | 2024-03-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata |
WO2024051955A1 (en) | 2022-09-09 | 2024-03-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata |
WO2024056701A1 (en) * | 2022-09-13 | 2024-03-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive stereo parameter synthesis |
CN116368460A (zh) * | 2023-02-14 | 2023-06-30 | 北京小米移动软件有限公司 | 音频处理方法、装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
JP5753540B2 (ja) * | 2010-11-17 | 2015-07-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
TWI603632B (zh) * | 2011-07-01 | 2017-10-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
EP2927905B1 (en) * | 2012-09-11 | 2017-07-12 | Telefonaktiebolaget LM Ericsson (publ) | Generation of comfort noise |
US9489955B2 (en) * | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
CN106471822B (zh) * | 2014-06-27 | 2019-10-25 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 |
KR102219752B1 (ko) * | 2016-01-22 | 2021-02-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 채널 간 시간 차를 추정하기 위한 장치 및 방법 |
CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN117351966A (zh) * | 2016-09-28 | 2024-01-05 | 华为技术有限公司 | 一种处理多声道音频信号的方法、装置和系统 |
BR112020026793A2 (pt) * | 2018-06-28 | 2021-03-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Determinação de parâmetro de ruído de conforto adaptativo |
CN109448741B (zh) * | 2018-11-22 | 2021-05-11 | 广州广晟数码技术有限公司 | 一种3d音频编码、解码方法及装置 |
-
2021
- 2021-05-31 CA CA3187342A patent/CA3187342A1/en active Pending
- 2021-05-31 CN CN202180067397.4A patent/CN116348951A/zh active Pending
- 2021-05-31 BR BR112023001616A patent/BR112023001616A2/pt unknown
- 2021-05-31 JP JP2023506177A patent/JP2023536156A/ja active Pending
- 2021-05-31 EP EP21729320.8A patent/EP4189674A1/en active Pending
- 2021-05-31 KR KR1020237006968A patent/KR20230049660A/ko active Search and Examination
- 2021-05-31 MX MX2023001152A patent/MX2023001152A/es unknown
- 2021-05-31 WO PCT/EP2021/064576 patent/WO2022022876A1/en active Application Filing
- 2021-05-31 AU AU2021317755A patent/AU2021317755B2/en active Active
- 2021-07-29 TW TW112106853A patent/TW202347316A/zh unknown
- 2021-07-29 TW TW110127932A patent/TWI794911B/zh active
-
2023
- 2023-01-24 ZA ZA2023/01024A patent/ZA202301024B/en unknown
- 2023-01-27 US US18/160,894 patent/US20230306975A1/en active Pending
- 2023-12-27 AU AU2023286009A patent/AU2023286009A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230306975A1 (en) | 2023-09-28 |
JP2023536156A (ja) | 2023-08-23 |
AU2021317755B2 (en) | 2023-11-09 |
AU2021317755A1 (en) | 2023-03-02 |
WO2022022876A1 (en) | 2022-02-03 |
BR112023001616A2 (pt) | 2023-02-23 |
TW202347316A (zh) | 2023-12-01 |
TW202230333A (zh) | 2022-08-01 |
EP4189674A1 (en) | 2023-06-07 |
MX2023001152A (es) | 2023-04-05 |
AU2023286009A1 (en) | 2024-01-25 |
ZA202301024B (en) | 2024-04-24 |
CA3187342A1 (en) | 2022-02-03 |
TWI794911B (zh) | 2023-03-01 |
KR20230049660A (ko) | 2023-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2535892B1 (en) | Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages | |
AU2010303039B2 (en) | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value | |
TWI794911B (zh) | 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式 | |
US11854560B2 (en) | Audio scene encoder, audio scene decoder and related methods using hybrid encoder-decoder spatial analysis | |
RU2809587C1 (ru) | Устройство, способ и компьютерная программа для кодирования звукового сигнала или для декодирования кодированной аудиосцены | |
JP2023548650A (ja) | 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
JP2023549038A (ja) | パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
JP2023549033A (ja) | パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |