CN115989682A - 基于立体声的沉浸式编码(stic) - Google Patents
基于立体声的沉浸式编码(stic) Download PDFInfo
- Publication number
- CN115989682A CN115989682A CN202180052259.9A CN202180052259A CN115989682A CN 115989682 A CN115989682 A CN 115989682A CN 202180052259 A CN202180052259 A CN 202180052259A CN 115989682 A CN115989682 A CN 115989682A
- Authority
- CN
- China
- Prior art keywords
- channel
- stereo signal
- audio content
- weighting factors
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000009877 rendering Methods 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 25
- 230000002123 temporal effect Effects 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 abstract description 34
- 238000012545 processing Methods 0.000 abstract description 26
- 230000003595 spectral effect Effects 0.000 abstract description 15
- 230000004807 localization Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 8
- 238000004091 panning Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 22
- 239000000203 mixture Substances 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000003672 processing method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000004260 weight control Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种通过双声道立体声信号和方向参数表示沉浸式信号的音频编解码器,该双声道立体声信号是沉浸式信号的立体声渲染。这些方向参数可基于描述虚拟扬声器对的方向的感知模型来重新创建所感知的主导声音的地点。可使用时频拼贴在多个声道对的频域中对立体声信号执行解码器处的音频处理。音频信号的空间定位可使用平移方法,具体通过将加权应用于针对每个输出声道对的立体声信号的时频拼贴。针对时频拼贴的加权可基于方向参数、立体声信号的分析以及输出声道布局来导出。这些加权可用于使用去相关器自适应地处理时频拼贴,以减少或最小化由于空间渲染引起的频谱失真。
Description
相关申请的交叉引用
本申请要求于2020年8月27日提交的美国临时申请第63/071,149号的权益,其公开内容以引用的方式全文并入本文。
技术领域
本公开涉及音频通信领域;更具体地,涉及被设计成使用立体声信号来传送沉浸式音频内容的数字信号处理方法。还描述了其他方面。
背景技术
消费电子设备正在提供日益复杂且性能不断改善的数字音频编码和解码能力。传统上,主要使用提供左右音频声道的双声道立体声格式来生产、分发和消费音频内容。最近的市场发展旨在使用支持多声道音频、基于对象的音频和/或高保真度立体声响复制(Ambisonics)的更丰富的音频格式(例如Dolby Atmos或MPEG-H)来提供更加沉浸式的听者体验。
沉浸式音频内容的传送与更大的带宽需求相关联,即需要相比用于立体声内容的更大的数据速率来进行流式传输和下载。如果带宽有限,则需要可在保持可能的最佳音频质量的同时减小音频数据大小的技术。感知音频编码中常见的减少带宽的方法是利用听觉的感知特性来保持音频质量。例如,在最低比特率下,音频编码可利用参数化方法来对某些声音特征进行比特率有效编码,使得可在解码器中近似地重新创建这些特征。参数化环绕音频编码的示例为MPEG环绕(MPEG Surround)或双耳线索编码(BCC),该双耳线索编码可使用空间参数从单声道音频信号重新创建多声道音频信号。要使用有限带宽来传送更丰富和更沉浸式的音频内容,还需要其他音频编码和解码(编解码器)技术。
发明内容
本发明公开了一种新的沉浸式音频编解码器的多个方面,该沉浸式音频编解码器可基于双声道立体声信号和方向参数来重新创建沉浸式音频体验。该立体声信号是该沉浸式音频信号的高质量立体声渲染,并且这些方向参数可基于感知模型,该感知模型导出描述所感知的主导声音的方向的参数。该沉浸式音频信号可包括多声道音频、音频对象或更高阶高保真度立体声响复制(HOA),该更高阶高保真度立体声响复制描述了基于球谐函数的声场。例如,当该沉浸式音频信号是多于两个声道的多声道输入时,其可被缩混为立体声信号。当该沉浸式音频信号表示音频对象或HOA分量时,对象或HOA分量可被渲染为立体声信号。该立体声信号和这些方向参数可由编码器进行编码并传输到解码器以进行重建和回放。
在解码器处,经解码立体声信号可从时域转换为频域,并分离为时频拼贴。这些时频拼贴的左右信号可由多个处理单元并行处理,每个处理单元与一对回放声道或扬声器相关联。可将加权因子应用于这些拼贴以生成该输出声道对的对应的加权时频拼贴。在给定回放声道布局的情况下,可控制这些加权因子以通过空间渲染创建感知的方向,这些时频拼贴的音频信号将在该多声道回放系统中从该感知的方向被收听到。从该编码器接收到的这些方向参数可表示这些时频拼贴的子带中所感知的主导声音的方向,并且这些方向参数可由该解码器用来控制这些加权因子。
在一个方面,解码器可基于对立体声信号的分析和方向参数来控制加权因子,以减少声道对之间的相关。可应用去相关来减少梳状滤波效应,这些梳状滤波效应在听者移动时可能导致所感知的音频信号出现大的图像偏移。这些效应在具有平滑包络和高预测增益的音频信号中可能会很明显。该解码器可分析该立体声信号和这些方向参数以生成用于去相关的加权因子,并且估计针对每个时频拼贴的去相关的量。在一个方面,要减轻由于空间渲染引起的失真(诸如,由不同方向上存在的并发源导致的不稳定的图像或由瞬时信号导致的起音的时间拖尾),该解码器可估计这些时频拼贴的子带中的主导的感知方向的时间波动,以控制这些加权因子的生成。
在将加权因子应用于声道对的时频拼贴进行空间渲染之后,将合并加权的时频拼贴以将每个声道对的左右信号从频域转换回时域。可组合针对这些声道对的时域信号以生成针对多声道回放系统的扬声器的信号。在一个方面,立体声信号可用作回退音频信号,用于无法解码方向参数、只有一个立体声回放系统,或者其立体声信号优选用于耳机回放的系统。
有利的是,为了降低比特率,本公开的多个方面减少了要传输到两个声道的音频声道的数量。对于方向参数,该立体声信号仅使用少量的边信息,远低于单个音频声道所需的比特率。基于这些方向参数和对该立体声信号的分析来执行信号处理,以使用技术(诸如,加权因子的时间平滑和去相关)来减少或最小化由于空间渲染引起的频谱失真。沉浸式音频内容的音频质量可在实现比特率降低的同时得到增强。
在一个方面,公开了一种用于对音频内容进行编码的方法。该方法包括从音频内容(诸如沉浸式音频信号)生成双声道立体声信号。该方法还包括基于该音频内容生成方向参数。这些方向参数描述虚拟扬声器对的最佳方向,以在多个频率子带中重新创建该音频内容的所感知的主导声音地点。该方法还包括通过通信声道将该双声道立体声信号和这些方向参数传输到解码设备。
在一个方面,公开了一种用于解码音频内容的方法。该方法包括从编码设备接收双声道立体声信号和方向参数。这些方向参数描述虚拟扬声器对的最佳方向,以在多个频率子带中重新创建由该双声道立体声信号表示的音频内容的所感知的主导声音地点。该方法还包括从该双声道立体声信号生成回放系统的多个声道对的多个时频拼贴。该多个时频拼贴表示多个频率子带中的该双声道立体声信号的每个声道的频域表示。该方法还包括基于这些方向参数生成用于该多个声道对的该多个时频拼贴的加权因子。该方法还包括将这些加权因子应用于该多个时频拼贴,以通过该回放系统的该多个声道对对这些时频拼贴进行空间渲染。
上面的概述不包括本发明的所有方面的详尽列表。设想本发明包括可从上面概述的各个方面以及在下面的具体实施方式中公开并在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实践的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。
附图说明
本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。
图1是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的功能框图。
图2描绘了根据本公开的一个方面的五个扬声器布局的顶视图。
图3描绘了根据本公开的一个方面的从五个扬声器布局中感知的音频源的幻影图像地点。
图4是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的功能框图,该系统包括用于减少或最小化由于空间渲染引起的失真的处理模块。
图5是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的感知模型的功能框图,该感知模型用于估计方向参数。
图6是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的感知模型的功能框图,该感知模型用于根据基于声道的输入来估计方向参数。
图7描绘了根据本公开的一个方面的当基于立体声的沉浸式音频编码系统的感知模型使用虚拟声道对的方位角/仰角作为元数据时用于对象渲染的虚拟声道对的使用。
图8是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的声道对的解码器处理的功能框图。
图9是根据本公开的一个方面的用于调整加权因子的基于立体声的沉浸式音频编码系统的音频分析模块的功能框图。
图10是根据本公开的一个方面的用于生成用于时频拼贴的加权因子的加权控制模块的功能框图。
图11描绘了根据本公开的一个方面的针对七个扬声器布局的多个扇区的音频声道的缩混。
图12是根据本公开的一个方面的对扬声器布局的多个区段或扇区进行编码和解码的基于立体声的沉浸式音频编码系统的功能框图。
图13是根据本公开的一个方面的基于混合立体声的沉浸式音频编码系统的功能框图,该系统独立于使用STIC系统编码和解码的其他声道来对诸如中央声道等的单一声道进行编码和解码。
图14是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的编码器侧处理方法的流程图,用以从沉浸式音频信号生成立体声信号和方向参数。
图15是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的解码器侧处理方法的流程图,用以重建用于多声道回放系统的沉浸式音频信号。
具体实施方式
我们希望通过带宽有限的传输声道从音频源将沉浸式音频内容提供到回放系统,同时尽可能保持最佳音频质量。沉浸式音频内容可包括多声道音频、音频对象或空间音频重建(称为高保真度立体声响复制),该高保真度立体声响复制描述了基于球谐函数的声场,可用于重新创建用于回放的声场。高保真度立体声响复制可包括一阶或更高阶球谐函数,也称为更高阶高保真度立体声响复制(HOA)。沉浸式音频内容可被渲染为较低比特率的音频内容,并且可生成空间参数以利用听觉的感知特性。编码器可通过有限的带宽声道传输较低比特率的音频内容和空间参数,以允许解码器重建沉浸式音频体验。
本发明公开了针对沉浸式音频编码技术的系统和方法,该技术基于双声道立体声信号和方向参数来重新创建沉浸式音频体验。可使用时频拼贴在多个声道对的频域中对立体声信号的左右信号执行解码器处的音频处理。方向参数可指示虚拟扬声器对的最佳方向,以针对时频拼贴重新创建所感知的主导声音地点。经解码音频信号的空间定位可在多声道回放系统的声道对之间的中位平面中对立体声信号使用平移方法,具体通过将加权因子应用于针对每个输出声道对的立体声信号的时频拼贴。解码器可基于描述虚拟扬声器对方向的方向参数、对经解码立体声信号的分析以及输出声道布局来导出用于时频拼贴的加权因子。这些加权因子可用于使用去相关器自适应地处理时频拼贴,以减少或最小化由于编码技术的空间渲染引起的频谱失真。
以下描述示出了许多具体细节。然而,应当理解,这里可在不需要这些具体细节的情况下来实践本公开的方面。在其他情况下,未详细示出已熟知的电路、结构和技术,以免模糊对此描述的理解。
本文中所使用的术语仅仅是为了描述特定方面并非旨在对本发明进行限制。空间相关术语,诸如“在……之下”、“在……下方”、“下”、“在……上方”、“上”等可在本文中用于描述的方便,以描述一个元件或特征部与另外一个或多个元件或一个或多个特征部的关系,如在附图中示出的。应当理解,空间相对术语旨在涵盖除了在附图所示取向之外的元件或特征部使用或操作过程中的不同取向。例如,如果图中包含多个元件的设备被翻转,则被描述为在其他元件或特征部“下方”或“之下”的元件然后可被取向成在其他元件或特征部“上方”。因此,示例性术语“在……下方”可涵盖在……上方和在……下方这两个取向。设备可以其他方式取向(例如,旋转90度或在其他的取向处),并且在本文中使用的空间相关描述符被相应地解释。
如本文所用,单数形式“一个”(“a”,“an”)和“该”旨在同样包括复数形式,除非上下文另外指出。应当进一步理解,术语“包括”和“包含”限定了所述特征、步骤、操作、元件、或部件的存在,但不排除一个或多个其他特征、步骤、操作、元件、部件、或其组的存在或添加。
本文所用的术语“或”以及“和/或”应被解释为包含在内或意指任何一个或任何组合。因此,“A、B或C”或“A、B和/或C”指“以下中的任意一种:A;B;C;A和B;A和C;B和C;A、B和C。”仅当元素、功能、步骤或动作的组合以某种方式固有地互相排斥时,才会出现这个定义的例外。
图1是根据本公开的一个方面的基于立体声的沉浸式编码(STIC)系统的功能框图。STIC系统的音频输入可包括各种沉浸式音频输入格式,诸如多声道音频、音频对象、HOA。应当理解,HOA还可包括一阶高保真度立体声响复制(FOA)。为了降低数据比特率,缩混器/渲染器模块105可将音频输入还原为双声道立体声信号。就多声道输入而言,可存在已知输入声道布局的M个声道,诸如7.1.4布局(7个扬声器位于中位平面、4个扬声器位于上平面、1个低频效果(LFE)扬声器)。缩混器/渲染器模块105可将除LFE声道之外的多声道输入缩混为立体声信号。就音频对象而言,所有M个对象可首先由缩混器/渲染器105渲染为立体声信号。就HOA而言,可存在M个HOA分量,其中M取决于HOA阶数。缩混器/渲染器105可将HOA信号渲染为立体声信号。双声道立体声信号可被称为右声道信号和左声道信号。
立体声音频信号可由音频编解码器109的编码器进行编码,以降低音频比特率。音频编解码器109可使用任何已知的编码和解码技术,不作进一步阐述。参数生成模块107可生成对音频输入的空间图像参数描述。STIC系统的解码器侧或接收器使用这些空间图像参数从立体声信号重建沉浸式音频内容。在一个方面,这些空间图像参数可以是描述虚拟扬声器对的最佳方向以重新创建所感知的主导声音的地点的参数。在一个方面,可在传输这些空间图像参数之前先对其进行编码。STIC系统的编码器侧或发射器可通过带宽有限的声道将所编码立体声信号和空间图像参数传输到解码器侧。在一个方面,带宽有限的声道可以是有线或无线通信介质。在另一方面,编码器侧可对立体声信号和空间图像参数进行编码,以减小或最小化用于存储的文件大小。解码器侧可稍后检索所存储的文件,该文件包含用于解码和回放的所编码立体声信号和所编码空间图像参数。
在解码器侧处,音频编解码器109的解码器可对经编码立体声信号进行解码。时频拼贴分离器111可将经解码立体声信号从时域转换为频域(诸如,通过短时傅立叶变换(STFT)),以跨频域生成B个拼贴。B个拼贴中的每个拼贴可表示经解码立体声信号在特定时间段的频率子带。子带的数量B可由所需的频谱分辨率来确定。在一个方面,每个子带可包括来自STFT的多个频率仓(frequency bin)的分组。在一个方面,经解码音频信号可被划分为固定时间段的块(也称为帧大小),由频域中的B个拼贴表示。立体声信号的频域表示可被分离或复制到P个并行处理路径中,其中每个处理路径可与一对回放声道或扬声器相关联。因此,立体声信号可被分离为PxB个时频拼贴,每个拼贴表示针对一对回放声道或扬声器在一帧持续时间内的立体声信号的左右声道的频域表示的一个子带。
时频拼贴加权控制模块115可生成加权因子w(p,b),这些加权因子被应用于立体声信号的对应PxB个拼贴,以生成P个输出声道对的加权的时频拼贴。加权因子w(p,b)控制空间渲染以创建感知的方向,时频拼贴的音频信号将在给定回放声道布局的情况下在该多声道回放系统中从该感知的方向被收听到。从编码器接收到的方向参数可表示虚拟扬声器对的最佳方向,以在时频拼贴的子带中重新创建所感知的主导声音的地点,并且这些方向参数可由时频拼贴加权控制模块115用来控制加权因子w(p,b)。
时频拼贴合并器模块113可合并加权的PxB个时频拼贴,以将每个输出声道对的左右信号从频域转换回时域。在一个方面,该操作可以是时频拼贴分离器111的操作的逆操作。时频拼贴合并器模块113可组合针对P个输出声道对的时域信号,以生成用于多声道回放系统的N个扬声器的音频信号。在一个方面,扬声器的数量N可以不是2xP。
图2描绘了根据本公开的一个方面的回放系统的五个扬声器(N=5)布局的顶视图。图2示出了5.0扬声器布局,其中中位平面中的五个扬声器相对于位于中心的听者在水平平面中以圆形布置布局。这里所用的声道对是指分配给相对于面向前方的听者左右对称定位的两个扬声器的声道。例如,在图2中,分配给具有p=3的扬声器的声道属于声道对3。为了简化描述,位于中位平面中的单个扬声器可具有被添加以提供扬声器信号的两个相关联的声道。从而,此类扬声器也与声道对相关联(例如,参见图2中p=1的扬声器)。
如果图1的加权因子w(p,b)针对除了p=3之外的所有声道对均设置为0(例如,w(p,b)针对p=3被设置为1),则时频拼贴的音频信号将被全部引导至声道对3,如图2中的箭头所示,并且听者将定位来自该方向的声音。通过将非零加权因子分配给一个以上的声道对,可进一步操纵所感知的声音地点。例如,如果用于声道对2和3的加权因子具有相同的值,则声音将在与这些声道对相关联的扬声器之间的某处被感知。即,立体声音频信号中的源定位在很大程度上基于所谓的幻影图像现象。
图3描绘了根据本公开的一个方面的从相同的五个扬声器(N=5)布局中感知的音频源的幻影图像地点。未显示与p=1相关联的扬声器,以免混淆图中描绘的一些细节。在图3中,如果声道对2(p=2)的两个扬声器发射出相同的声音,则听者将感知前面的这两个扬声器之间的幻影图像。类似地,如果现在转由声道对3(p=3)发射出相同的声音信号,则听者将感知到声道对3的两个扬声器之间的幻影图像。通过操纵用于声道对2和3的加权因子,幻影图像地点可偏移到这些扬声器对之间的任何地点。
相同的加权因子可应用于声道对的左右信号。随后,幻影图像将保持在与立体声缩混信号中相同的所感知横向位置处。由于电影原声带中的对话或音乐录音中的主唱通常被平移至中心地点,因此保持此类主要声音场景元素的所感知地点可能非常重要。STIC系统的幻影图像的空间定位包括在多声道回放系统的声道对之间的中位平面中对经解码立体声信号的平移方法。在使用加权因子w(p,b)和空间图像参数的基于拼贴的处理的支持下,平移可随时间和频率而变化。例如,加权因子w(p,b)可基于对经解码立体声信号的分析和描述虚拟扬声器对的方向的方向参数进行导出,以在经解码立体声信号的子带中重新创建主导声音。在一个方面,加权因子w(p,b)可用于自适应地处理时频拼贴,以减少或最小化由于空间定位引起的频谱失真。
如所述使用时频拼贴从立体声信号合成沉浸式音频内容可实现所需的空间定位,但也可能给音频回放信号带来各种失真。例如,当不同方向上存在并发源时,可能会感知到不稳定的图像。失真也可能由于立体声信号中起音或瞬时的时间拖尾而发生。当针对多个输出声道生成高度相关的信号时,可能存在梳状滤波效应。此类效应在听者四处移动时可能导致大的图像偏移。其他失真可包括当宽带声音的各种频率分量的相对量值改变时的着色效应或响度调制。
图4是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的功能框图,该系统包括用于减少或最小化由于空间定位引起的失真以便增强音频质量的附加处理模块。缩混器/渲染器105和音频编解码器109可与图1中的相同,并且为简明起见,将不重复这些模块的描述。
感知模型117导出描述虚拟扬声器对的最佳方向以重新创建音频输入信号的所感知的主导声音的地点的参数。在一个方面,可使用时频拼贴针对频率子带估计虚拟扬声器对的方向。感知模型117内部用于方向估计的频率子带的频谱分辨率可不同(例如,更高)于时频拼贴分离器111针对经解码立体声信号使用的频率子带的频谱分辨率。感知模型117可将针对内部频率子带估计的虚拟扬声器对的方向映射到经解码立体声信号的B个子带。针对B个子带中的每个子带的虚拟扬声器对的方向可作为相对于默认听者位置的方位角和仰角(以度为单位)给出。方位角和仰角可表示虚拟扬声器对的最佳地点,用于在原始地点处重新创建主导声音。参数编解码器119可对方向参数进行编码,以降低用于传输的数据速率。在解码器侧,参数编解码器119的解码器可对所接收到的参数进行解码,以将方向参数发送到加权控制模块123。在一个方面,经解码立体声信号可用作回退音频信号,用于无法解码方向参数、只有一个立体声回放系统,或者其立体声信号优选用于耳机回放的系统。
图5是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的感知模型117的功能框图,该感知模型用于估计方向参数。主导源提取模块1170可从M个输入中提取一个或多个主导源及其方向。对于基于声道的音频输入,可应用源提取或波束成形来近似估计最主导的声道对中的一者或多者及其方向。可将方向插置在最主导的声道对的声道对方向之间。
滤波器组或时频频率转换模块1171可使用技术(诸如,STFT)将一个或多个最主导的源从时域转换为多个子带中的频域。子带的分辨率可由听觉系统的特性确定。例如,可选择高频处更精细的分辨率,以便支持足够的频谱分辨率从而分离不同方向上的多个源。在一个方面,每个子带可包括来自STFT的多个频率仓的分组。如所提及的,用于主导源估计的频谱分辨率可高于(例如,更精细于)用于经解码立体声信号的时频拼贴的频谱分辨率。由于所需的参数数据速率大致与子带的数量成比例,子带的数量还可取决于用于方向参数传输的目标比特率。
部分掩蔽响度模块1172可针对主导源的子带的响度估计进行操作,以说明在多个竞争源部分掩蔽彼此时的掩蔽效应,从而获得具有最大响度的主导源。部分掩蔽响度模块1172通过考虑不同的空间方向,可对掩蔽效应进行建模。编码带映射模块1173可将子带中估计的响度值映射到将在解码器侧针对立体声信号使用的时频拼贴的B个子带。方向估计模块1174可估计虚拟扬声器对的方向,以将每个子带中的主导声音地点作为相对于默认听者位置的方位角和仰角(以度为单位)进行重新创建。
在实施过程中,通常仅针对具有对应元数据的基于对象的音频,才可精确地知道预期的感知源方向。在一个方面,不使用源提取模块1170,而是基于元数据和掩蔽效应后的对象信号响度来进行方向估计。对于高保真度立体声响复制,可应用源提取或波束成形来近似估计最主导的源及其方向。
图6是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的感知模型117的功能框图,该感知模型用于根据基于声道的输入来估计主导声音及其相关联的虚拟扬声器对方向。如图5中,滤波器组或时频转换模块1171可将M个输入源从时域转换为多个子带中的频域。
响度模型1175可对来自每个输入声道的响度估计进行操作,以对掩蔽效应进行建模,并且基于输入声道布局来考虑方向估计。响度模型1175可在两个或三个最响声道的扬声器位置之间执行三角测量来说明幻影图像。因此,方向估计考虑了输入声道布局。使用图6的基于声道的输入模型来估计主导声音的虚拟扬声器对方向,可比图5的源提取模型在计算上更有效,但可能不如其准确。编码带映射模块1173可将子带中估计的响度值映射到编码器侧的立体声信号的B个子带。方向估计模块1176可基于输入声道布局,将每个子带中的虚拟扬声器对方向作为相对于默认听者位置的方位角和仰角(以度为单位)进行估计。
对于基于对象的音频,其源方向通常由元数据给出。对象元数据通常描述了对象地点、大小和可由渲染器(诸如,图4的渲染器105)用以获得所需的源对象图像的其他特性。位于回放声道布局的球面的区段内的对象可被渲染为将被传输到如图4所示的解码器侧的立体声信号。然而,由于对象地点已知,因此感知模型117可能不需要估计该对象的源方向。而是使用一个或多个对象针对其进行渲染的虚拟声道对的方位角和仰角。
图7描绘了根据本公开的一个方面的当基于立体声的沉浸式音频编码系统的感知模型117使用虚拟声道对的方位角/仰角作为元数据时用于对象渲染的虚拟声道对的使用。图7示出了一个虚拟声道对和两个音频对象,这两个音频对象在通过虚拟声道对回放所渲染的立体声信号时显现。对象1是干点源,其通过将单声道对象信号仅复制到右声道来进行渲染。对象2通过添加一些混响以增加所感知的距离以及添加左右声道之间的一些去相关来进行渲染,并且该对象被平移到右侧。通过将两个渲染的信号相加来生成缩混信号。源方向的STIC元数据是虚拟声道对的方位角/仰角。由于虚拟声道对角度通常不同于虚拟声道对产生的幻影图像的源角度,该方向通常不同于对象元数据。
球面的同一区段中的对象可被渲染到不同的虚拟声道对,以实现更好的空间分辨率和优化的STIC渲染质量。当使用多个虚拟声道对时,感知模型117(诸如,图6的响度模型1175)可通过估计每个虚拟声道对在掩蔽效应之后产生的响度来估计哪个虚拟声道对在经解码立体声信号的每个时频拼贴中占主导。
对于基于HOA的信号,可通过奇异值分解法(SVD)来导出主要的主导源信号和方向。然后,感知模型117可以与对象信号相同的方式处理这些主导源信号和方向,以导出部分掩蔽的响度。
重新参考图4,加权控制模块123可生成加权因子wc和wd,这些加权因子被应用于立体声信号的对应PxB个拼贴,以生成P个输出声道对的加权时频拼贴。加权控制模块123可通过基于回放声道布局、主导声音的虚拟扬声器对的方向以及由音频分析模块121对经解码立体声信号执行分析后的结果,生成用于PxB个拼贴的加权因子wc和wd来控制空间渲染。时频拼贴分离器111的输出被分成两个路径,其中一个路径具有去相关器,该去相关器应用加权因子wd来减少声道对之间的相关。可应用去相关来减少梳状滤波效应,这些梳状滤波效应在听者移动时可能导致所感知的音频信号出现大的图像偏移。可通过加权因子wc和wd的比率来控制去相关的量。
图8是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的声道对的处理的功能框图。经解码立体声缩混信号801可被划分为帧,并且由时频拼贴分离器111进行处理以将左右信号从时域转换为频域中的B个子带。针对B个子带的左右信号803被馈送到表示P对输出声道的P个并行处理单元中。每个处理单元可包括两个倍增器830、去相关器832、加法器834和时频拼贴合并器模块836。在处理单元中,左右信号803可针对该对的左右声道接受相同的并行处理。
每个处理单元中的左右信号803均被分成两条路径,一条路径乘以加权因子wc,作为去相关器路径的第二条路径乘以加权因子wd。P对输出通道的加权因子wc和wd可分别索引为{wc,1,wc,2,…wc,P}和{wd,1,wd,2,…wd,P}。在一个方面,同一组{wc,1,wc,2,…wc,P}和{wd,1,wd,2,…wd,P}可应用于跨信号803的所有B个子带。用于去相关器路径的倍增器830中的输出被应用于去相关器125。每个处理单元中的去相关器125对左右信号的wd加权信号进行滤波,以解除对应的声道对与所有其他声道对的相关,但并不旨在改变该左右声道对之间的相关。加法器834将去相关器125中的去相关的输出805的左右信号与wc加权路径中未经处理的输出807的对应左右信号进行求和,以生成用于声道对的加权输出信号809。通过在加法器834中将声道对的去相关的输出805与未经处理的输出807加权相加,针对每个声道对的加权因子wc和wd的比率可控制针对该声道对的加权输出信号809的去相关的量。
处理单元可执行去相关的输出805与未经处理的输出807的加权相加,以针对B个子带中的每个子带生成加权输出信号809。时频拼贴合并器模块113将针对每个声道对的B个子带的加权输出信号809从频域转换回时域,以生成声道对信号811。声道对组合器模块131组合来自输出声道布局的P个声道对的声道对信号811,以生成用于回放系统的N个扬声器的音频信号813。在一个方面,N可等于2xP,并且每个声道对信号811的左右信号可驱动对应声道对的左右扬声器。在一个方面,可组合左右信号以驱动单个扬声器。
对于基于STFT的处理的具体实施,以数学术语进行表示,时频拼贴分离器111将立体声缩混信号801的左右声道信号lmix和rmix转换为STFT表示:
Lmix(k)=STFT(lmix(n)) (公式1)
Rmix(k)=STFT(rmix(n))
其中n为时域样本索引,k为STFT仓索引。
通过将去相关的输出805与未经处理的输出807相加,计算每个声道对的加权输出信号809,得到:
Lout(p,k)=wc(p,b)Lmix(k)+Decorr(wd(p,b)Lmix(k)) (公式2)
Rout(p,k)=wc(p,b)Rmix(k)+Decorr(wd(p,b)Rmix(k))
其中p为声道对索引,b为子带索引,wc(p,b)为加权因子wc,wd(p,b)为声道对p和子带b的加权因子wd。每个子带可包括STFT仓的分组。
时频拼贴合并器模块113将加权输出信号809的复数STFT频谱转换回声道对信号811的时域:
lout(p,n)=STFT-1(Lout(p,k)) (公式3)
rout(p,n)=STFT-1(Rout(p,k))
加权因子wc和wd可通过下公式进行计算:
wPan(p,b)=PanningWeight(α,ε) (公式4)
w(p,b,f)=(1-wsmooth)wPan(p,b)+wsmoothwPan(p,b,f-1) (公式5)
其中,PanningWeight()是一个函数,用于在给定目标声道布局的几何结构的情况下,基于传输的方位角α和仰角ε来计算针对声道对p和子带b的平移加权因子wPan(p,b)。在一个方面,方位角α和仰角ε可包括虚拟扬声器对的方位角和仰角,以重新创建从感知模型117接收到的主导源。例如,虚拟对的左扬声器位于{-α,ε},右扬声器位于{α,ε}。为了减少或最小化由于空间渲染引起的频谱失真,可执行加权因子的时间平滑。wsmooth是可取决于缩混信号801的信号特性的平滑因子,例如,由音频分析模块121执行的信号分析中的预测增益和起音强度。在一个方面,wsmooth可能对于所有P个声道对和B个子带是相同的。加权系数wcorr通过控制wc(p,b)与wd(p,b)之间的比率来控制应用的去相关的量。加权系数wcorr还可取决于缩混信号801的预测增益和起音强度。在一个方面,wcorr可能对于所有P个声道对和B个子带是相同的。帧索引f指示当前的STFT帧。可针对后续帧执行w(p,b,f)的平滑。在一个方面,wPan(p,b)、w(p,b,f)、wc(p,b)和wd(p,b)可独立于子带。
图9是根据本公开的一个方面的用于调整加权因子的基于立体声的沉浸式音频编码系统的音频分析模块121的功能框图。经解码立体声信号(诸如,立体声缩混信号801)的每个声道都可由向前预测器1211在时域中进行处理。向前预测器1211可生成预测信号901,该预测信号从实际的经解码立体声信号中减去以生成预测误差信号903。预测增益估计器1212可基于经解码立体声信号和预测误差信号903的RMS水平的估计差值来估计预测增益。并行地,起音/瞬时检测器1213评估经解码立体声信号的包络,以估计起音的强度。两个声道中的结果的最大值用于进一步处理。
预测增益是经解码音频信号的时间“平滑度”的指示。对于具有高预测增益的音频信号,加权因子可能需要更多的平滑。随后可增加加权因子wc和wd的时间平滑,并且可应用更多的去相关。另一方面,如果起音强度显著,则可减小加权因子wc和wd的时间平滑,同时可应用更少的去相关。如果起音强度高,则时频拼贴的音频信号可主要限于单个回放声道对,以避免时间拖尾和频谱失真。因此,可限制加权因子wc和wd,使得仅一个声道对携带大部分信号能量,而所有其他声道对具有的能量可忽略不计。在一个方面,编码器侧可对立体声信号执行信号分析,以估计其起音强度和预测增益。编码器侧可将对应于所编码立体声信号的起音强度和预测增益的参数传输到解码器以供如所述使用。
图10是根据本公开的一个方面的用于生成用于时频拼贴的加权因子的加权控制模块123的功能框图。第一估计器模块1231可估计针对时频拼贴的方向参数的时间波动。第二估计器模块1232可基于第一估计器模块1231中所估计的方向参数的时间波动,来计算针对加权因子的时间平滑的参数的初始估计(诸如,公式5中的平滑因子wsmooth)。加权因子生成模块1233可基于时间平滑参数的初始估计、针对通过方向参数接收到的子带的虚拟扬声器对的方位角α和仰角ε、来自音频分析模块121的预测增益和起音强度以及回放声道布局,来生成加权因子(诸如,用于P个声道对和帧f的B个子带的公式6的w(p,b,f))。
去相关估计器模块1234可通过基于如所述的预测增益和起音强度来生成公式6和7的加权系数wcorr,从而控制应用的去相关的量。如所提及的,可应用去相关以避免当听者移动时可能导致大的图像偏移的梳状滤波效应。这些效应在具有平滑包络和高预测增益的信号中最明显。然而,当应用去相关时,还可能导致可听见的混响的增加,并且信号源与输入信号相比可能显得更远。
由于所感知的距离和混响的修改,去相关的使用被减少或最小化并且仅在必要时应用。这可通过去相关估计器模块1234来实现,具体地使用预测增益和起音强度参数通过加权系数wcorr的生成来控制去相关。加权系数wcorr可应用于加权因子生成模块1233中的w(p,b,f),以生成公式6和7的wc(p,b)和wd(p,b)。加权因子wc(p,b)和wd(p,b)可用于自适应地处理时频拼贴,以减少或最小化由于空间定位引起的频谱失真。
由于加权因子wd是在去相关器125之前而不是之后被应用于时频拼贴,因此仅经解码立体声信号的需要被去相关的那些部分进入去相关125。如果加权因子wd是在去相关器125之后而不是之前被应用,则不需要去相关的大的起音可能会暂时扩散到经解码立体声信号的需要去相关的部分中,并且因此可能导致混响伪影。另外,通过从去相关器处理中排除具有最大能量的输出声道对,可在每个时频拼贴中减少或最小化去相关器125的使用。这是可能的,因为该声道对不与由去相关器125处理的任何其他声道对相关。
可平衡加权因子,使输入信号响度得以保留。在一个方面,作为第一近似值,时频拼贴中针对所有P个声道对的加权因子的RMS值可被设置为1。通过使用1.0和2.0之间的频率相关指数σ进行归一化(在较低频率处具有较小的值),可实现更准确的响度匹配并防止着色:
其中wc(p)和wd(p)是针对特定子带的wc(p,b)和wd(p,b)。
图4的基于立体声的沉浸式音频编码系统是基于音频内容的单个立体声缩混。这意味着,例如,任何后声道内容可与前声道内容混合,如果信号在时间和频率上重叠,继而还会导致空间渲染后的不同定位。为了提高定位精确度,可以使用多个缩混,其中每个缩混仅包括位于由缩混表示的球面的扇区中的那些信号。所有扇区可覆盖整个球面而不重叠。
图11描绘了根据本公开的一个方面的针对七个扬声器布局的多个扇区的音频声道的缩混。图11示出了生成两个缩混的示例,一个用于7.0布局的前部扇区中的声道,一个用于后部扇区中的声道。例如,对于具有天空声道(诸如,7.0.4)的布局,可使用相同的映射将天空声道分配给扇区。
图12是根据本公开的一个方面的对扬声器布局的多个区段或扇区进行编码和解码的基于立体声的沉浸式音频编码系统的功能框图。区段分离模块133可将声道布局的球面分离为多个区段或扇区。图1的STIC系统的多个实例用于对与球面的各个区段相关联的信号进行编码。在解码器侧,将各个区段中的音频输出信号相加,以生成回放系统的最终音频输出。在一个方面,图4的STIC系统的多个实例可用于对与多个区段相关联的信号进行编码和解码。一般来讲,区段可具有任意数量和任意形状。然而,对于基于声道的音频,区段通常跨中位平面对称。为了实现良好的比特率与质量的权衡,区段的数量应尽可能小,但又要足够大以便达到所需的定位精确度。
在基于混合立体声的沉浸式音频编码系统的一个方面,当应用STIC技术时,从其余声道中移除一个声道(诸如,前中央声道)可能是有利的。前中央声道可独立于STIC系统进行编码、解码,并添加到使用图4的STIC系统渲染的其余声道中。该混合配置可改善前中央声道的渲染图像,该声道通常用于电影和电视内容中的对话。
图13是根据本公开的一个方面的基于混合立体声的沉浸式音频编码系统的功能框图,该系统独立于使用STIC系统编码和解码的其他声道来对诸如中央声道等的单一声道进行编码和解码。在一个示例中,环绕信号的输入声道可具有5.1布局,包括2个声道对(左右声道对,左环绕和右环绕声道对)和两个单一声道(中央和LFE)。
声道对提取模块141可提取所有声道对(诸如,左右声道对以及左环绕和右环绕声道对),用于由图1、图4或图12的STIC系统进行编码。单一声道提取模块143可提取单一声道(诸如,中央和LFE),以独立于STIC系统进行编码。在一个方面,音频编解码器145可对所提取的单一声道进行编码。关于单一声道的存在和地点的信息可被添加到STIC参数,使得解码器可正确地渲染声道。
在解码器侧处,音频编解码器145的解码器可对单一声道进行解码。单一声道渲染器147可将经解码的单一声道渲染到回放声道布局所指示的输出布局。例如,如果输出布局在单一声道位置处具有扬声器位置(诸如,前中央扬声器),那么可将中央声道的经解码的单一声道传递到前中央扬声器。否则,可将中央声道的经解码的单一声道渲染为最接近的可用声道。在一个方面,可使用虚拟声源定位技术(诸如,基于向量的振幅平移(VBAP))。
声道合并器模块149可将经渲染的单一声道添加到由STIC系统渲染的声道对,以生成重建的音频信号。例如,如果回放声道布局具有前中央声道,则声道合并器模块149可将针对单一中央声道渲染的信号路由到前中央声道,或者声道合并器模块149可将渲染到声道对的单一中央声道的信号添加到由STIC系统渲染的对应声道对信号。在一个方面,如果存在LFE声道,则针对LFE的单一声道可被路由到回放声道布局的LFE声道。
图14是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的编码器侧处理方法1400的流程图,用以从沉浸式音频信号生成立体声信号和方向参数。方法1400可由图1、图4、图12或图13的STIC系统的编码器侧实施。
在操作1401中,方法1400从沉浸式音频信号生成双声道立体声信号。沉浸式音频信号可包括输入声道布局的多个音频声道、多个音频对象或HOA。在一个方面,缩混器模块可将多声道输入缩混到立体声信号,或者渲染器模块可将多个音频对象或HOA渲染到立体声信号。
在操作1403中,方法1400基于音频内容生成方向参数,这些方向参数描述最佳虚拟扬声器对方向,以在多个频率子带中重新创建该音频内容的所感知的主导声音地点。针对子带中的每个子带的虚拟扬声器对方向可作为相对于默认听者位置的方位角和仰角(以度为单位)给出。
在操作1405中,方法1400通过通信声道将双声道立体声信号和方向参数传输到解码设备。通信声道可能带宽有限。方向参数的带宽要求可显著低于立体声信号的单个音频声道的带宽要求。
图15是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的解码器侧处理方法1500的流程图,用以重建用于多声道回放系统的沉浸式音频信号。方法1500可由图1、图4、图12或图13的STIC系统的解码器侧实施。
在操作1501中,方法1500从编码设备接收双声道立体声信号和方向参数,这些方向参数描述最佳虚拟扬声器对方向,以在多个频率子带中重新创建由双声道立体声信号表示的音频内容的所感知的主导声音地点。音频内容可以是多个声道的沉浸式音频信号。
在操作1503中,方法1500从双声道立体声信号生成回放系统的多个声道对的多个时频拼贴,这些多个时频拼贴表示多个频率子带中的双声道立体声信号的每个声道的频域表示。子带的数量B可由所需的频谱分辨率来确定。双声道立体声信号可被划分为由时频拼贴表示的帧。立体声信号的频域表示可被分离或复制到P个并行处理路径中,其中每个处理路径可与回放系统的每个声道对相关联。
在操作1505中,方法1500基于方向参数生成用于多个声道对的多个时频拼贴的加权因子。在一个方面,加权因子可基于以下各项生成:用以在多个频率子带中重新创建由双声道立体声信号表示的音频内容的所感知的主导声音地点的虚拟扬声器对方向、立体声信号的分析以及回放系统的输出声道布局。在一个方面,可控制加权因子以减少声道对之间的相关。
在操作1507中,方法1500将多个加权因子应用于多个时频拼贴,以通过回放系统的多个声道对对时频拼贴进行空间渲染。这些加权因子可用于自适应地处理时频拼贴(诸如,使用去相关器),以减少或最小化由于空间渲染引起的频谱失真。
本文所述的基于立体声的沉浸式音频编码技术的实施方案可例如通过网络计算机、网络服务器、平板计算机、智能电话、膝上型计算机、台式计算机、其他消费电子设备、或其他数据处理系统在数据处理系统中实现。具体地讲,针对基于立体声的沉浸式编码系统所述的操作是由执行存储在一个或多个存储器中的指令的处理器执行的数字信号处理操作。处理器可从存储器读取所存储的指令并且执行指令以执行所述的操作。这些存储器代表可存储或包含在被执行时使得数据处理系统执行本文所述的一个或多个方法的计算机程序指令的机器可读非暂态存储介质的示例。处理器可为本地设备诸如智能电话中的处理器、远程服务器中的处理器、或本地设备和远程服务器中的多个处理器的分布式处理系统,其中它们的相应存储器包含执行所述的操作所需的指令的各个部分。
虽然附图中描述并且示出了某些示例性实例,但应当理解,这些实例仅为示例性的并对广义发明不具有限制性,并且本发明不限于所示和所述的具体构造和布置,因为本领域的普通技术人员可进行各种其他修改。因此,要将描述视为示例性的而非限制性的。
Claims (34)
1.一种对音频内容进行编码的方法,所述方法包括:
由编码设备从所述音频内容生成双声道立体声信号;
由所述编码设备基于所述音频内容生成方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建所述音频内容的感知的主导声音地点;以及
通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。
2.根据权利要求1所述的方法,其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。
3.根据权利要求1所述的方法,其中生成所述方向参数包括:
由所述编码设备将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带;
由所述编码设备基于与所述多声道信号相关联的所述扬声器布局,使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度;以及
由所述编码设备为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。
4.根据权利要求1所述的方法,其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角,用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。
5.根据权利要求1所述的方法,其中生成所述方向参数包括:
由所述编码设备将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像;
由所述编码设备确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度;以及
由所述编码设备生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。
6.根据权利要求1所述的方法,还包括:
基于提供所述音频内容的多个音频源的布局,将所述音频内容划分为多个区段,
其中从所述音频内容生成所述双声道立体声信号包括:
生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号;
其中生成所述方向参数包括:
生成分别对应于所述多个区段中的所述音频内容的多个方向参数,所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向,以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点,
并且其中传送所述双声道立体声信号和所述方向参数:
通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。
7.根据权利要求1所述的方法,还包括:
分析所述双声道立体声信号以生成内容分析参数;以及
将所述内容分析参数传送到所述解码器。
8.根据权利要求7所述的方法,其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。
9.一种被配置为对音频内容进行编码的系统,所述系统包括:
存储器,所述存储器被配置为存储指令;
处理器,所述处理器被耦接到所述存储器,并且被配置为执行存储在所述存储器中的所述指令以:
从所述音频内容生成双声道立体声信号;
基于所述音频内容生成方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建所述音频内容的感知的主导声音地点;以及
通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。
10.根据权利要求9所述的系统,其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。
11.根据权利要求9所述的系统,其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:
将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带;
基于与所述多声道信号相关联的所述扬声器布局,使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度;以及
为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。
12.根据权利要求9所述的系统,其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角,用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。
13.根据权利要求9所述的系统,其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:
将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像;
确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度;以及
生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。
14.根据权利要求9所述的系统,其中所述处理器还执行存储在所述存储器中的所述指令以:
基于提供所述音频内容的多个音频源的布局,将所述音频内容划分为多个区段,
其中要从所述音频内容生成所述双声道立体声信号,所述处理器还执行存储在所述存储器中的所述指令以:
生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号;
其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:
生成分别对应于所述多个区段中的所述音频内容的多个方向参数,所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向,以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点,
并且其中要传送所述双声道立体声信号和所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:
通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。
15.根据权利要求9所述的系统,其中所述处理器还执行存储在所述存储器中的所述指令以:
分析所述双声道立体声信号以生成内容分析参数;以及
将所述内容分析参数传送到所述解码器。
16.根据权利要求15所述的系统,其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。
17.一种对音频内容进行解码的方法,所述方法包括:
由解码器设备从编码设备接收双声道立体声信号和方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建由所述双声道立体声信号表示的所述音频内容的感知的主导声音地点;
由所述解码器设备从所述双声道立体声信号生成回放系统的多个声道对的多个时频拼贴,所述多个时频拼贴表示所述多个频率子带中的所述双声道立体声信号的每个声道的频域表示;
基于所述方向参数生成针对所述多个声道对的所述多个时频拼贴的多个加权因子;以及
将所述多个加权因子应用于所述多个时频拼贴,以通过所述回放系统的所述多个声道对对所述时频拼贴进行空间渲染。
18.根据权利要求17所述的方法,其中将所述多个加权因子应用于所述多个时频拼贴包括:
将针对所述多个声道对的所述多个时频拼贴的所述多个加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者的两个声道,以通过所述回放系统的所述多个声道对为所述多个频率子带重新创建所述音频内容的所感知的主导声音方向。
19.根据权利要求17所述的方法,其中所述多个加权因子包括针对所述多个声道对的所述多个时频拼贴的多个去相关加权因子,并且其中将所述多个加权因子应用于所述多个时频拼贴包括:
将针对所述多个声道对的所述多个时频拼贴的所述多个去相关加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者,以减少所述多个声道对之间的相关。
20.根据权利要求17所述的方法,其中生成针对所述多个声道对的所述多个时频拼贴的所述多个加权因子包括:
生成所述双声道立体声信号的特性;以及
基于以下各项生成所述多个加权因子:所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的布局以及描述所述虚拟扬声器对方向的所述方向参数,所述方向参数用以在所述多个频率子带中重新创建所述音频内容的所感知的主导声音地点。
21.根据权利要求20所述的方法,其中生成所述双声道立体声信号的特性包括:
分析所述双声道立体声信号以基于所述双声道立体声信号的前向预测来生成预测增益,其中所述预测增益测量所述双声道立体声信号的时间平滑度;以及
分析所述双声道立体声信号以生成起音强度,其中所述起音强度估计所述双声道立体声信号的起音强度。
22.根据权利要求21所述的方法,其中基于所述双声道立体声信号的所述特性生成所述多个加权因子包括:
当所述起音强度较强时,控制针对所述多个时频拼贴的所述加权因子,以使所述声道对中的一个声道对携带所述双声道立体声信号的大部分信号能量。
23.根据权利要求21所述的方法,其中基于所述双声道立体声信号的所述特性生成所述多个加权因子包括:
基于所述预测增益和所述起音强度生成针对所述多个声道对的所述多个时频拼贴的多个去相关加权因子,其中将所述多个去相关加权因子应用于所述多个声道对的所述多个时频拼贴,以减少所述多个声道对之间的相关。
24.根据权利要求20所述的方法,其中基于所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的所述布局以及所述方向参数来生成所述多个加权因子包括:
估计所述多个频率子带中的所述方向参数的时间波动;以及
基于所估计的所述方向参数的时间波动,确定对所述多个加权因子进行时间平滑化的平滑因子。
25.根据权利要求20所述的方法,其中基于所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的所述布局以及所述方向参数来生成所述多个加权因子包括:
控制针对所述多个声道对的所述多个加权因子,以跨所述多个声道对分布所述双声道立体声信号的信号能量,从而在空间上定位所述音频内容的感知的图像。
26.一种被配置为对音频内容进行解码的系统,所述系统包括:
存储器,所述存储器被配置为存储指令;
处理器,所述处理器被耦接到所述存储器,并且被配置为执行存储在所述存储器中的所述指令以:
从编码设备接收双声道立体声信号和方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建由所述双声道立体声信号表示的所述音频内容的感知的主导声音地点;
从所述双声道立体声信号生成回放系统的多个声道对的多个时频拼贴,所述多个时频拼贴表示所述多个频率子带中的所述双声道立体声信号的每个声道的频域表示;
基于所述方向参数生成针对所述多个声道对的所述多个时频拼贴的多个加权因子;以及
将所述多个加权因子应用于所述多个时频拼贴,以通过所述回放系统的所述多个声道对对所述时频拼贴进行空间渲染。
27.根据权利要求26所述的系统,其中要将所述多个加权因子应用于所述多个时频拼贴,所述处理器还执行存储在所述存储器中的所述指令以:
将针对所述多个声道对的所述多个时频拼贴的所述多个加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者的两个声道,以通过所述回放系统的所述多个声道对为所述多个频率子带重新创建所述音频内容的所感知的主导声音方向。
28.根据权利要求26所述的系统,其中所述多个加权因子包括针对所述多个声道对的所述多个时频拼贴的多个去相关加权因子,并且其中要将所述多个加权因子应用于所述多个时频拼贴,所述处理器还执行存储在所述存储器中的所述指令以:
将针对所述多个声道对的所述多个时频拼贴的所述多个去相关加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者,以减少所述多个声道对之间的相关。
29.根据权利要求26所述的系统,其中要生成针对所述多个声道对的所述多个时频拼贴的多个加权因子,所述处理器还执行存储在所述存储器中的所述指令以:
生成所述双声道立体声信号的特性;以及
基于以下各项生成所述多个加权因子:所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的布局以及描述所述虚拟扬声器方向的所述方向参数,所述方向参数用以在所述多个频率子带中重新创建所述音频内容的所感知的主导声音地点。
30.根据权利要求29所述的系统,其中要生成所述双声道立体声信号的特性,所述处理器还执行存储在所述存储器中的所述指令以:
分析所述双声道立体声信号以基于所述双声道立体声信号的前向预测来生成预测增益,其中所述预测增益测量所述双声道立体声信号的时间平滑度;以及
分析所述双声道立体声信号以生成起音强度,其中所述起音强度估计所述双声道立体声信号的起音强度。
31.根据权利要求30所述的系统,其中要基于所述双声道立体声信号的所述特性生成所述多个加权因子,所述处理器还执行存储在所述存储器中的所述指令以:
当所述起音强度较强时,控制针对所述多个时频拼贴的所述加权因子,以使所述声道对中的一个声道对携带所述双声道立体声信号的大部分信号能量。
32.根据权利要求30所述的系统,其中要基于所述双声道立体声信号的所述特性生成所述多个加权因子,所述处理器还执行存储在所述存储器中的所述指令以:
基于所述预测增益和所述起音强度生成针对所述多个声道对的所述多个时频拼贴的多个去相关加权因子,其中将所述多个去相关加权因子应用于所述多个声道对的所述多个时频拼贴,以减少所述多个声道对之间的相关。
33.根据权利要求29所述的系统,其中要基于所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的所述布局以及所述方向参数来生成所述多个加权因子,所述处理器还执行存储在所述存储器中的所述指令以:
估计所述多个频率子带中的所述方向参数的时间波动;以及
基于所估计的方向参数的时间波动,确定对所述多个加权因子进行时间平滑化的平滑因子。
34.根据权利要求29所述的系统,其中要基于所述双声道立体声信号的所述特性、所述回放系统的所述多个声道对的所述布局以及所述方向参数来生成所述多个加权因子,所述处理器还执行存储在所述存储器中的所述指令以:
控制针对所述多个声道对的所述多个加权因子,以跨所述多个声道对分布所述双声道立体声信号的信号能量,从而在空间上定位所述音频内容的感知的图像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063071149P | 2020-08-27 | 2020-08-27 | |
US63/071,149 | 2020-08-27 | ||
PCT/US2021/046810 WO2022046533A1 (en) | 2020-08-27 | 2021-08-20 | Stereo-based immersive coding (stic) |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115989682A true CN115989682A (zh) | 2023-04-18 |
Family
ID=77711495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180052259.9A Pending CN115989682A (zh) | 2020-08-27 | 2021-08-20 | 基于立体声的沉浸式编码(stic) |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230274747A1 (zh) |
CN (1) | CN115989682A (zh) |
DE (1) | DE112021004444T5 (zh) |
GB (1) | GB2611733A (zh) |
WO (1) | WO2022046533A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
BR112018010073B1 (pt) * | 2015-11-17 | 2024-01-23 | Dolby Laboratories Licensing Corporation | Método para codificar áudio de entrada com base em objeto ou canal para reprodução e método para decodificar um sinal de áudio codificado |
GB2559765A (en) * | 2017-02-17 | 2018-08-22 | Nokia Technologies Oy | Two stage audio focus for spatial audio processing |
GB2572419A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
-
2021
- 2021-08-20 GB GB2301517.5A patent/GB2611733A/en active Pending
- 2021-08-20 WO PCT/US2021/046810 patent/WO2022046533A1/en active Application Filing
- 2021-08-20 US US18/019,226 patent/US20230274747A1/en active Pending
- 2021-08-20 CN CN202180052259.9A patent/CN115989682A/zh active Pending
- 2021-08-20 DE DE112021004444.3T patent/DE112021004444T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230274747A1 (en) | 2023-08-31 |
DE112021004444T5 (de) | 2023-06-22 |
WO2022046533A1 (en) | 2022-03-03 |
GB2611733A (en) | 2023-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
EP3444815B1 (en) | Multiplet-based matrix mixing for high-channel count multichannel audio | |
US8379868B2 (en) | Spatial audio coding based on universal spatial cues | |
CN108632736B (zh) | 用于音频信号呈现的方法和装置 | |
TWI808298B (zh) | 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式 | |
US20110249822A1 (en) | Advanced encoding of multi-channel digital audio signals | |
CN111630592A (zh) | 用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序 | |
CN112219236A (zh) | 空间音频参数和相关联的空间音频播放 | |
CN107077861B (zh) | 音频编码器和解码器 | |
CN110890101A (zh) | 用于基于语音增强元数据进行解码的方法和设备 | |
CN112567765B (zh) | 空间音频捕获、传输和再现 | |
JP2022553913A (ja) | 空間オーディオ表現およびレンダリング | |
JP6686015B2 (ja) | オーディオ信号のパラメトリック混合 | |
WO2022079044A1 (en) | Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis | |
CN112823534B (zh) | 信号处理设备和方法以及程序 | |
CN113646836A (zh) | 声场相关渲染 | |
TWI803998B (zh) | 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 | |
US20230274747A1 (en) | Stereo-based immersive coding | |
CN112133316A (zh) | 空间音频表示和渲染 | |
TWI803999B (zh) | 使用頻寬擴展處理編碼音頻場景的裝置、方法或電腦程式 | |
TW202347317A (zh) | 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統 | |
JP2023549033A (ja) | パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
WO2022258876A1 (en) | Parametric spatial audio rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |