CN114503608A - 利用变换参数的音频编码/解码 - Google Patents
利用变换参数的音频编码/解码 Download PDFInfo
- Publication number
- CN114503608A CN114503608A CN202080066709.5A CN202080066709A CN114503608A CN 114503608 A CN114503608 A CN 114503608A CN 202080066709 A CN202080066709 A CN 202080066709A CN 114503608 A CN114503608 A CN 114503608A
- Authority
- CN
- China
- Prior art keywords
- binaural
- presentation
- playback
- audio
- playback presentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009466 transformation Effects 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000009877 rendering Methods 0.000 claims description 78
- 230000006870 function Effects 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 6
- 210000003128 head Anatomy 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 208000029523 Interstitial Lung disease Diseases 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000005010 torso Anatomy 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
编码/解码技术,其中多个变换参数集与输入音频内容的被渲染回放呈现一起被编码。在解码器侧使用多个变换参数来变换该回放呈现,以提供对于个体收听者相对于他们的听觉简档而优化的个性化双耳回放呈现。这可以通过选择或组合元数据流中存在的数据来实现。
Description
相关申请的交叉引用
本申请要求2019年9月23日提交的美国临时专利申请第62/904,070号和2020年6月2日提交的美国临时专利申请第63/033,367号的优先权,这些申请通过引用而结合于此。
发明领域
本公开涉及具有一个或多个音频分量的音频内容的编码和解码。
发明背景
沉浸式娱乐内容通常采用基于通道或基于对象的格式,以用于跨诸如电影院、家庭音频系统和耳机的目标回放系统的音频的创建、编码、分发和再现。基于通道的格式和基于对象的格式两者采用不同的渲染策略,例如下混合,以便优化音频在其中被再现的目标系统的回放。
在耳机回放的情况下,一种潜在的渲染方案(如图1所示)涉及使用头部相关脉冲响应(HRIRs,时域)或头部相关传递函数(HRTFs,频域)来模拟多通道扬声器回放系统。HRIRs和HRTFs模拟声音从扬声器传播到收听者耳膜时声学环境的各个方面。具体而言,这些响应引入了特定的线索,包括双耳时间差(ITD)、双耳声级差(ILD)和频谱线索,这些线索告知收听者对声音在环境中的空间位置的感知。混响线索的附加模拟可以告知声音相对于收听者的感知距离,并提供关于房间或其他环境的具体物理特征的信息。所得的双通道信号被称为音频内容的双耳回放呈现。
然而,这种方法面临一些挑战。首先,在数据网络上传送沉浸式内容格式(高通道计数或基于对象的)与这种传送的增加的传输带宽和相关成本/技术限制相关联。第二,在回放设备上利用HRIR/HRTF要求对于被传送内容中的每个通道或对象应用信号处理。这意味着渲染的复杂性随着每个被传送的通道/对象而线性增长。由于具有有限的处理能力和电池寿命的移动设备往往是用于耳机音频回放的设备,这样的渲染场景将缩短电池寿命并限制可用于其他应用的处理(即,图形/视频渲染)。
降低设备侧需求的一种方案是在传输之前执行与HRIR/HRTF的卷积(“双耳预渲染”),从而降低设备上音频渲染的计算复杂度以及传输所需的总带宽两者(即,传送两个音频通道来代替更高的通道或对象计数)。然而,双耳预渲染与额外的约束相关联:当在扬声器上回放音频时,被引入到内容中的各种空间线索(ITD、ILD和频谱线索)也将存在,这实际上导致这些线索被应用两次,将不期望的伪像引入到最终的音频再现中。
文献WO 2017/035281公开了一种方法,当再现系统与内容创建/编码期间所设想的指定布局不匹配时,该方法使用变换参数形式的元数据来将第一信号表示(signalrepresentation)变换成第二信号表示。该方法应用的一个具体例子是将音频编码为预期用于立体声扬声器对的信号呈现,并包括元数据(参数),该元数据(参数)允许该信号呈现被变换为预期用于耳机回放的信号呈现。在这种情况下,元数据将引入由HRIR/BRIR卷积过程产生的空间线索。利用这种方法,回放设备将以相对较低的成本(带宽和处理能力)访问两种不同的信号呈现。
发明内容
尽管代表了显著的改进,但是WO 2017/035281中的方法具有一些缺点。例如,由于个体身体特征的差异,代表人类感知声音空间位置的能力的ITD、ILD和频谱线索因人而异。具体来说,耳朵、头部和躯干的大小和形状将决定线索的性质,所有这些都可能在个体之间显著不同。每个人都随着时间的推移而学习,以最佳地利用由他们的身体与声学环境的相互作用引起的特定线索以用于空间收听。因此,由元数据参数提供的呈现变换可能不会为大量个人带来耳机上的最佳音频再现,因为在解码过程中由该变换引入的空间线索将不会匹配他们与声学环境的自然发生的交互。
期望提供一种令人满意的解决方案,用于以成本高效的方式在回放设备中提供信号呈现的改进的个体化。
因此,本发明的一个目的是提供回放设备中信号呈现的改进的个性化。另一个目的是优化再现质量和效率,并在耳机回放期间保留基于通道和基于对象的空间音频内容的创作意图。
根据本发明的第一方面,该目的和其他目的通过一种对具有一个或多个音频分量的输入音频内容进行编码的方法来实现,其中每个音频分量与空间位置相关联,该方法包括以下步骤:渲染输入音频内容的音频回放呈现(playback presentation),所述音频回放呈现预期在音频再现系统上再现,通过将M组传递函数应用于输入音频内容来确定一组M个双耳表征,其中所述M组传递函数基于个体双耳回放简档的集合,计算能够实现从所述音频回放呈现到所述M个双耳表征的M个近似的变换的M组变换参数,其中通过优化所述M个双耳表征和所述M个近似之间的差异来确定所述M组变换参数;以及对所述音频回放呈现和所述M组变换参数进行编码,以传输到解码器。
根据本发明的第二方面,该目的和其他目的通过一种从音频比特流解码个性化双耳回放呈现的方法来实现,该方法包括以下步骤:接收并解码音频回放呈现,所述音频回放呈现预期在音频再现系统上再现;接收并解码M组变换参数,所述M组变换参数使得能够实现从所述音频回放呈现到M个双耳表征的M个近似的变换,其中,所述M组变换参数已经由编码器确定,以最小化所述M个双耳表征和通过将变换参数应用于音频回放呈现而生成的所述M个近似之间的差异;将所述M组变换参数组合成个性化的一组变换参数;以及将个性化的该组变换参数应用于音频回放呈现,以生成所述个性化双耳回放呈现。
根据本发明的第三方面,该目的和其他目的通过一种编码器来实现,该编码器用于编码具有一个或多个音频分量的输入音频内容,其中每个音频分量与空间位置相关联,该编码器包括第一渲染器,用于渲染所述输入音频内容的音频回放呈现,所述音频回放呈现预期在音频再现系统上再现;第二渲染器,用于通过将M组传递函数应用于输入音频内容来确定一组M个双耳表征,其中所述M组传递函数基于个体双耳回放简档的集合;参数估计模块,用于计算能够实现从所述音频回放呈现到所述M个双耳表征的M个近似的变换的M组变换参数,其中通过优化所述M个双耳表征和所述M个近似之间的差异来确定所述M组变换参数;以及编码模块,用于对所述音频回放呈现和所述M组变换参数进行编码,以传输到解码器。
根据本发明的第四方面,该目的和其他目的通过一种解码器来实现,该解码器用于从音频比特流解码个性化双耳回放呈现,该解码器包括解码模块,用于接收所述音频比特流,并解码预期在音频再现系统上再现的音频回放呈现、以及M组变换参数,所述M组变换参数使得能够实现从所述音频回放呈现到M个双耳表征的M个近似的变换,其中,所述M组变换参数已经由编码器确定,以最小化所述M个双耳表征和通过将变换参数应用于音频回放呈现而生成的所述M个近似之间的差异;处理模块,用于将所述M组变换参数组合成个性化的一组变换参数;以及呈现变换模块,用于将个性化的该组变换参数应用于音频回放呈现,以生成所述个性化双耳回放呈现。
根据本发明的一些方面,在编码器侧,多个变换参数集(多个元数据流)与输入音频的被渲染的回放呈现一起被编码。多个元数据流表示不同组的变换参数、或呈现系数,它们是通过使用多个(个体)听觉简档、设备传递函数、HRTF、或表示个体之间HRTF中的差异的简档来确定输入沉浸式音频内容的一组双耳表征,然后计算从回放呈现开始近似该表征所需的变换参数而得到的。
根据本发明的一些方面,在解码器(回放)侧,使用变换参数来变换回放呈现,以提供对于个体收听者针对他们的听觉简档、选择的耳机设备和/或收听者特定的空间线索(ITD、ILD、频谱线索)而优化的双耳回放呈现。这可以通过选择或组合元数据流中存在的数据来实现。更具体地,通过应用用户特定的选择或组合规则来获得个性化呈现。
使用变换参数来允许从编码回放呈现中近似双耳回放呈现的概念本身并不新颖,并且在WO 2017/035281中有一些详细讨论,该申请通过引用而结合于此。
对于本公开的实施例,采用多个这样的变换参数集来允许个性化。随后,可以针对尽可能接近地匹配给定用户的听觉简档、回放设备和/或HRTF,为给定用户产生个性化双耳呈现。
本公开基于如下这样的认识,即双耳呈现在比传统回放呈现更大的程度上受益于个性化,并且变换参数的概念提供了一种成本高效的提供这种个性化的方法。
附图简述
将参照附图更详细地描述本公开,附图示出了本公开的当前优选实施例。
图1示出了将音频数据渲染为双耳回放呈现。
图2示意性地示出了根据本公开实施例的编码器/解码器系统。
图3示意性地示出了根据本公开另一实施例的编码器/解码器系统。
本发明实施例的详细描述
下文公开的系统和方法可以实现为软件、固件、硬件或其组合。在硬件实现中,任务的划分不一定对应于物理单元的划分;相反,一个物理组件可以具有多种功能,并且一个任务可以由若干物理组件合作地执行。某些组件或所有组件可以实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这种软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域技术人员所公知的,术语“计算机存储介质”包括以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质,用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备,或者可用于存储所希望的信息并可由计算机访问的任何其他介质。此外,本领域技术人员公知的,通信介质通常将计算机可读指令、数据结构、程序模块、或其他数据体现在诸如载波或其他传输机制的调制数据信号中,并且包括任何信息传递介质。
本文公开的实施例提供了用于基于通道和/或对象的音频的低比特率、低复杂度编码/解码的方法,该音频适用于立体声或耳机(双耳)回放。这是通过以下来实现的:(1)渲染预期用于特定音频再现系统(例如但不限于扬声器)的音频回放呈现,以及(2)添加附加元数据,该附加元数据允许将该音频回放呈现转换成预期用于在耳机上再现的一组双耳呈现。根据定义,双耳呈现是双声道呈现(预期用于耳机),而音频回放呈现原则上可以具有任意数量的通道(例如,用于立体声扬声器呈现的两个通道,或者用于5.1扬声器呈现的五个通道)。然而,在具体实施例的以下描述中,音频回放呈现总是双通道呈现(立体声或双耳)。
在下面的公开内容中,表达“双耳表征”也用于表示双耳信息、但其本身不一定用于回放的信号对。例如,在一些实施例中,双耳呈现可以通过双耳表征的组合或者通过双耳呈现与双耳表征的组合来实现。
个体优化的双耳音频的扬声器兼容传送
在图2所示的第一实施例中,编码器11包括第一渲染模块12,用于将多通道或基于对象的(沉浸式)音频内容10渲染为回放呈现Z,这里为预期用于在两个扬声器上回放的双通道(立体声)呈现。编码器11还包括第二渲染模块13,用于使用存储在数据库14中的HRTF(或由其导出的数据)将音频内容渲染为一组M个双耳呈现Ym(m=1,...,M)。编码器还包括参数估计模块15,其被连接以接收回放呈现Z和M个双耳呈现Ym的集合,并且被配置为针对每个双耳呈现Ym计算一组呈现变换参数Wm。呈现变换参数Wm允许从扬声器呈现Z近似M个双耳呈现。最后,编码器11包括实际编码模块16,其将回放呈现Z和参数集Wm组合成编码比特流20。
图2还示出了解码器21,包括解码模块22,用于将比特流20解码成回放呈现Z和M个参数集Wm。编码器还包括处理模块23,处理模块23接收m组变换参数,并被配置成输出单独一组变换参数W’,它是M个参数集Wm的选择或组合。由处理模块23执行的选择或组合被配置为针对当前收听者优化所得的双耳呈现Y’。它可以基于先前存储的用户简档24或者可以是用户控制的过程。
呈现变换模块25被配置成将变换参数W’应用于音频呈现Z,以提供估计的(个性化的)双耳呈现Y’。
现在将更详细地讨论图2中的编码器/解码器中的处理。
给定具有离散时间样本索引n的一组输入通道或对象xi[n],通过代表对象/通道i到扬声器s的增益的幅度平移增益gs,i在渲染器12中生成对应的回放呈现Z,其这里是一组扬声器通道:
取决于输入内容是基于通道的还是基于对象的,幅度平移增益gs,i或者是恒定的(基于通道),或者是时变的(基于对象,作为相关联的时变位置元数据的函数)。
并行地,对于每个输入i和对于每个呈现m,使用滤波器对h{l,r},m,i在渲染器13中渲染耳机呈现信号对Ym={yl,m,yr,m}:
其中(○)是卷积运算符。用于每个输入i和呈现m的滤波器对h{l,r},m,i是从M个HRTF集合h{l,r},m(α,θ)中导出的,这些集合描述了对于每个呈现m从由方位角(α)和仰角(θ)给出的声源位置到双耳的声学传递函数(头部相关传递函数,HRTF)。作为一个例子,各种呈现m可能涉及各个收听者,而HRTF集合反映了各收听者的人体测量属性的差异。为方便起见,呈现的N个时间连续样本的帧表示如下:
这里给出
Wm=(Z*Z+∈I)-1Z*Ym
其中(*)是复共轭转置算子,ε是正则化参数。编码模块16将每个呈现m的呈现变换数据Wm与回放呈现Z一起编码,以形成编码器输出比特流20。
在解码器侧,解码模块22将比特流20解码成回放呈现Z以及呈现变换数据Wm。处理块23基于用户输入或先前存储的用户简档24,使用或组合呈现变换数据Wm的全部或子集,以提供个性化呈现变换W′。近似的个性化输出双耳呈现Y′由下式给出:
Y′=ZW′
在一个例子中,框23中的处理只是M个参数集Wm之一的选择。然而,个性化呈现变换W′可替换地被公式化为M组呈现变换系数Wm的加权线性组合。
其中,对于至少两个收听者,权重am是不同的。
个性化呈现变换W′在模块25中被应用于解码的回放呈现Z,以提供被估计的个性化双耳呈现Y′。
变换可以是线性增益N×2矩阵的应用,其中N是音频回放呈现中的通道数量,并且其中矩阵的元素由变换参数形成。在当前情况下,其中变换是从两通道扬声器呈现到两通道双耳呈现的,矩阵将是2×2矩阵。
个性化双耳呈现Y′可以输出到一组耳机26。
支持默认双耳呈现的个体呈现
如果不需要扬声器兼容的呈现,则回放呈现可以是双耳呈现,而不是扬声器呈现。该双耳呈现可以用默认HRTF来渲染,例如,用预期为所有收听者提供通用型方案的HRTF来渲染。默认HRTF的一个示例是从仿真头部或人体模型测量或导出的HRTF。默认HRTF集合的另一个示例是跨来自各个收听者的集合被平均的集合。在这种情况下,信号对Z由下式给出:
基于规范HRTF集的实施例
在另一个实施例中,用于创建多个双耳呈现的HRTFs被选择为使得它们覆盖宽范围的人体测量可变性。在这种情况下,编码器中使用的HRTF可以被称为规范(canonical)HRTF集,因为这些HRTF集中的一个或多个的组合可以描述跨越广泛收听者群体的任何现有HRTF集。规范HRTF的数量可以随频率而变化。规范HRTF集可以通过聚类HRTF集、识别离群值、多元密度估计、使用诸如头部直径和耳廓大小的人体测量属性中的极值等来确定。
使用规范HRTF生成的比特流需要选择或组合规则来解码和再现个性化呈现。如果特定收听者的HRTF是已知的,并且对于左耳(l)和右耳(r)以及方向i由h′{l,r},i给定,则可以例如选择使用基于某种距离准则与收听者的HRTF集最相似的规范HRTF集m′来解码,例如:
或者,可以基于相似性度量,例如HRTF集m和收听者的HRTFh′{l,r},i之间的相关性,跨规范HRTF使用权重am来计算加权平均值:
使用HRTF基函数的有限集合的实施例
作为使用规范的HRTF的替代,HRTF群可以被分解成一组固定的基函数和一组用户相关的权重,以重构特定的HRTF集。这个概念本身并不新颖,在文献中已有描述。计算这种正交基函数的一种方法是使用文章Modeling of Individual HRTFs based on SpatialPrincipal Component Analysis,by Zhang,Mengfan&Ge,Zhongshu&Liu,Tiejun&Wu,Xihong&Qu,Tianshu.(2019)中所讨论的主分量分析(PCA)。
这种基函数在呈现变换的上下文中的应用是新颖的,并且可以利用有限数量的呈现变换数据集来获得高的个性化精度。
作为示例性实施例,个体化HRTF集h′l,i,h′r,i可以通过HRTF基函数bl,m,i,br,m,i的加权和来构建,其中对于每个基函数m,权重为am:
出于渲染目的,个性化双耳表征然后由下式给出:
重新排序求和揭示了这等同于从每个基函数生成的贡献的加权和:
注意,从不预期被孤立地收听的意义上来说,基函数贡献表示双耳信息,但不是呈现,因为它们仅表示收听者之间的差异。它们可以被称为双耳差异表征。
参考图3中的编码器/解码器系统,在编码器31中,双耳渲染器32通过将从数据库14中选择的HRTF集应用于输入音频10来渲染主要(默认)双耳呈现Z。并行地,渲染器33通过将来自数据库34的基函数应用于输入音频10来渲染各种双耳差异表征,根据下式:
模块35以与上述相同的方式,通过用基函数贡献代替多个双耳呈现,计算m组变换系数Wm:
Wm=(Z*Z+∈I)-1Z*Ym
编码模块36将(默认)双耳呈现Z和m组变换参数Wm编码为被包括在比特流40中。
或者,甚至更简单,相同的组合技术可以应用于呈现变换系数:
这种方法在图3的解码器41中示出。比特流40在解码模块42中被解码,并且在处理块43中使用个人简档信息44处理m个参数集Wm,以获得个性化呈现变换在呈现变换模块45中将变换应用于默认双耳呈现,以获得个性化双耳差异与上文类似,变换可以是线性增益2×2矩阵。
根据下式,通过将该双耳差异与默认双耳呈现Z相加,最终获得个性化双耳呈现Y′:
描述这一点的另一种方式是根据下式定义总个性化变换W′:
在这种情况下,比特流40将包括立体声回放呈现、呈现变换参数和表示双耳差异的m组变换参数Wm,如上所述。在解码器中,通过将第一组呈现变换参数应用于回放呈现Z来获得默认(主要)双耳呈现。以参考图3所述的相同方式获得个性化双耳差异,并且将该个性化双耳差异添加到默认双耳呈现。在这种情况下,总变换矩阵W′变成:
多呈现变换数据集的选择和高效编码
呈现变换数据Wm典型地是针对一系列呈现或基函数计算的,并且是时间和频率的函数。如果没有进一步的数据简化技术,所导致的与变换数据相关联的数据速率可能相当大。
一种经常应用的技术是采用差分编码。如果在时间、频率或变换集m上计算差分值时变换数据集具有较低的熵,则可以实现比特率的显著降低。在对于每一帧,可以基于比特率最小化约束来选择应用时间、频率和/或呈现差分熵编码的意义上,这种差分编码可以被动态地应用。
降低呈现变换元数据的传输比特率的另一种方法是具有随频率而变化的数个呈现变换集。例如,HRTF的PCA分析表明,在低频下,各个HRTF可以用少量基函数被精确重构,而在高频下需要大量基函数。
此外,编码器可以动态地(例如作为时间和频率的函数)选择发送或丢弃特定一组的呈现变换数据。例如,取决于正在处理的内容,一些基函数呈现可能在特定帧或频率范围中具有非常低的信号能量。
某些基本呈现信号可能具有低能量的一个直观例子是在收听者前面有一个活动对象的场景。对于这样的内容,任何代表收听者头部大小的基函数对整体呈现的贡献都非常小,因为对于这样的内容,在收听者之间双耳呈现非常相似。因此,在这个简单的情况下,编码器可以选择丢弃表示这种群体差异的基函数呈现变换数据。
更一般地,对于基函数呈现yl,m,yr,m被渲染为:
其中<·>是期望值算子,并且如果相应的能量低于某个阈值,则随后丢弃相关的基函数呈现变换数据Wm。该阈值例如可以是绝对能量阈值、相对能量阈值(相对于其他基函数呈现能量),或者可以基于对于被渲染场景估计的听觉掩蔽曲线。
结束语
如WO 2017/035281中所述,上述过程通常作为时间和频率的函数来使用。为此,通常对于数个频带和时间帧计算和传输单独的一组呈现变换系数。适合于提供所需的时间和频率分段的变换或滤波器组包括离散傅立叶变换(DFT)、正交镜像滤波器组(QMF)、听觉滤波器组、小波变换等。在DFT的情况下,样本索引n可以表示DFT区间索引。不失一般性并且为了标记简易,在整个文档中省略了时间和频率索引。Wm
当对于两个或更多个频带生成和传输呈现变换数据时,集合的数量可以跨频带变化。例如,在低频时,可能只传输2或3个呈现变换数据集。另一方面,在较高的频率下,呈现变换数据集的数量可以高得多,这是由于HRTF数据通常在高频(例如,高于4kHz)下比在低频(例如,低于1kHz)下在主题之间显示出大得多的变化。
此外,呈现变换数据集的数量可以随时间而变化。可能存在如下这样的帧或子带,对于这些帧或子带,双耳信号在收听者之间实际上是相同的,因此一组变换参数就足够了。在具有潜在更复杂性质的其他帧中,需要更大数量的呈现变换数据集来提供所有用户的所有可能HRTF的覆盖。
如本文所用,除非另有说明,使用序数形容词“第一”、“第二”、“第三”等描述共同的对象仅仅表示相同对象的不同实例被引用,而并不意味着如此描述的对象必须在时间上、空间上、排序上或以任何其他方式处于给定的顺序。
在下面的权利要求书和这里的描述中,术语“包括”是开放性的术语,意味着至少包括随后的元件/特征,但不排除其他元件/特征。因此,当在权利要求中使用时,术语“包括”不应被解释为限于其后列出的装置或元件或步骤。例如,表述“设备包括A和B”的范围不应限于设备仅由元件A和B组成。这里使用的术语“包含”也是开放性的术语,也意味着至少包含该术语后面的元件/特征,但不排除其他元件/特征。因此,“包括”与“包含”同义。
如这里所使用的,术语“示例性的”是在提供例子的意义上使用的,与指示质量相反。也就是说,“示例性实施例”是作为示例提供的实施例,而不是必须是示例性质量的实施例。
应当理解,在本发明的示例性实施例的上述描述中,出于简化公开内容和帮助理解一个或多个各种发明方面的目的,本发明的各种特征有时被组合在单个实施例、附图或其描述中。然而,这种公开方法不应被解释为反映了要求保护的发明需要比每个权利要求中明确记载的更多的特征的意图。相反,如以下权利要求所反映的,创造性方面在于少于单个前述公开实施例的所有特征。因此,在详细描述之后的权利要求由此明确地结合到该详细描述中,每个权利要求独立地作为本发明的单独实施例。
此外,尽管本文描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征,但是不同实施例的特征的组合意味着在本发明的范围内,并且形成不同的实施例,如本领域技术人员将理解的。例如,在以下权利要求中,任何被要求保护的实施例可被以任何组合使用。
此外,一些实施例在这里被描述为可以由计算机系统的处理器或者由执行该功能的其他装置实现的方法或者方法的元素的组合。因此,具有用于执行这种方法或方法元素的必要指令的处理器形成了用于实行该方法或方法元素的手段。此外,这里描述的装置实施例的元件是用于实行出于实现本发明的目的而由该元件执行的功能的手段的示例。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,本发明的实施例可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出公知的方法、结构和技术,以免模糊对本说明书的理解。
类似地,应当注意,术语“耦合”在权利要求中使用时,不应被解释为仅限于直接连接。可以使用术语“耦合”和“连接”以及它们的派生词。应该理解,这些术语并不打算作为彼此的同义词。因此,表述“设备A耦合到设备B”的范围不应限于其中设备A的输出直接连接到设备B的输入的设备或系统。这意味着在A的输出和B的输入之间存在路径,该路径可以是包括其他设备或手段的路径。“耦合”可以意味着两个或更多个元件直接物理接触或电接触,或者两个或更多个元件彼此不直接接触但是仍然彼此合作或交互。
因此,尽管已经描述了本发明的具体实施例,但是本领域技术人员将认识到,在不脱离本发明的精神的情况下,可以对其进行其它和进一步的修改,并且意图要求所有这些改变和修改都落入本发明的范围内。例如,上面给出的任何公式仅仅是可以被使用的程序的代表。功能可以从框图中添加或删除,并且操作可以在功能块之间互换。在本发明的范围内,可以对所描述的方法添加或删除步骤。例如,在图示的实施例中,终端设备被图示为一对耳上式耳机。然而,本发明也适用于其他端点设备,例如入耳式耳机和助听器。
Claims (29)
1.一种对具有一个或多个音频分量的输入音频内容进行编码的方法,其中每个音频分量与空间位置相关联,该方法包括以下步骤:
渲染所述输入音频内容的音频回放呈现,所述音频回放呈现预期在音频再现系统上再现;
通过将M组传递函数应用于输入音频内容来确定一组M个双耳表征,其中所述M组传递函数基于个体双耳回放简档的集合;
计算能够实现从所述音频回放呈现到所述M个双耳表征的M个近似的变换的M组变换参数,其中通过优化所述M个双耳表征和所述M个近似之间的差异来确定所述M组变换参数;和
对所述音频回放呈现和所述M组变换参数进行编码,以传输到解码器。
2.根据权利要求1所述的方法,其中所述M个双耳表征是预期在耳机上再现的M个个体双耳回放呈现,所述M个个体双耳回放呈现对应于M个个体回放简档。
3.根据权利要求1所述的方法,其中所述M个双耳表征是预期在耳机上再现的M个规范双耳回放呈现,所述M个规范双耳回放呈现代表个体回放简档的较大集合。
4.根据权利要求1的方法,其中所述M组传递函数是M组头部相关传递函数。
5.根据权利要求1所述的方法,其中所述音频回放呈现是预期在耳机上再现的主要双耳回放呈现,并且其中所述M个双耳表征是M个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异。
6.根据权利要求1所述的方法,其中所述音频回放呈现预期用于扬声器系统,并且其中M个双耳表征包括预期在耳机上再现的主要双耳呈现,以及M-1个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异。
7.根据权利要求5所述的方法,其中所述M个信号对由M个主分量分析(PCA)基函数渲染。
8.根据权利要求1所述的方法,其中,对于不同的频带,传递函数集的数量M是不同的。
9.根据权利要求1所述的方法,其中通过将线性增益N×2矩阵应用于音频回放呈现来执行将个性化的变换参数集应用于音频回放呈现的步骤,其中N是音频回放呈现中通道的数量,并且矩阵的元素由变换参数形成。
10.一种对来自音频比特流的个性化双耳回放呈现进行解码的方法,该方法包括以下步骤:
接收并解码音频回放呈现,所述音频回放呈现预期在音频再现系统上再现;
接收并解码M组变换参数,所述M组变换参数使得能够实现从所述音频回放呈现到M个双耳表征的M个近似的变换,
其中,所述M组变换参数已经由编码器确定,以最小化所述M个双耳表征和通过将变换参数应用于音频回放呈现而生成的所述M个近似之间的差异;
将所述M组变换参数组合成个性化的一组变换参数;以及
将个性化的该组变换参数应用于音频回放呈现,以生成所述个性化的双耳回放呈现。
11.根据权利要求10的方法,其中组合所述M组变换参数的步骤包括选择个性化组作为该M组之一。
12.根据权利要求10的方法,其中组合所述M组变换参数的步骤包括形成作为该M组的线性组合的个性化组。
13.根据权利要求10所述的方法,其中所述音频回放呈现是预期在耳机上再现的主要双耳回放呈现,并且
其中,所述M组变换参数能够实现从所述音频回放呈现到M个信号对的变换,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异,以及
其中,将个性化的一组变换参数应用于主要双耳回放呈现的步骤包括:
通过将该个性化的一组变换参数作为线性增益2×2矩阵应用于主要双耳回放呈现来形成个性化双耳差异,以及
将所述个性化双耳差异和主要双耳回放呈现进行求和。
14.根据权利要求10所述的方法,其中所述音频回放呈现预期在扬声器上再现,并且
其中,所述M组变换参数中的第一组使得能够从所述音频回放呈现变换成主要双耳呈现的近似,并且剩余的变换参数组使得能够从所述音频回放呈现变换成M-1个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档相对应的双耳回放呈现之间的差异,并且
其中,将个性化的一组变换参数应用于主要双耳回放呈现的步骤包括:
通过将第一组变换参数应用于音频回放呈现来形成主要双耳呈现,
通过将该个性化的一组变换参数作为线性增益2×2矩阵应用于所述主要双耳回放呈现来形成个性化的双耳差异,以及
将所述个性化双耳差异和主要双耳回放呈现求和。
15.根据权利要求14所述的方法,其中通过将线性增益N×2矩阵应用于音频回放呈现来执行将第一组变换参数应用于音频回放呈现的步骤,其中N是音频回放呈现中通道的数量,并且矩阵的元素由变换参数形成。
16.一种用于编码具有一个或多个音频分量的输入音频内容的编码器,其中每个音频分量与空间位置相关联,该编码器包括:
第一渲染器,用于渲染所述输入音频内容的音频回放呈现,所述音频回放呈现预期在音频再现系统上再现;
第二渲染器,用于通过将M组传递函数应用于输入音频内容来确定一组M个双耳表征,其中所述M组传递函数基于个体双耳回放简档的集合;
参数估计模块,用于计算能够实现从所述音频回放呈现到所述M个双耳表征的M个近似的变换的M组变换参数,其中通过优化所述M个双耳表征和所述M个近似之间的差异来确定所述M组变换参数;和
编码模块,用于对所述音频回放呈现和所述M组变换参数进行编码,以传输到解码器。
17.根据权利要求16所述的编码器,其中所述第二渲染器被配置为渲染预期在耳机上再现的M个个体双耳回放呈现,所述M个个体双耳回放呈现对应于M个个体回放简档。
18.根据权利要求16所述的编码器,其中所述第二渲染器被配置为渲染预期在耳机上再现的M个规范双耳回放呈现,所述M个规范双耳回放呈现代表个体回放简档的较大集合。
19.根据权利要求16所述的编码器,其中所述第一渲染器被配置为渲染预期在耳机上再现的主要双耳回放呈现,并且其中所述第二渲染器被配置为渲染M个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异。
20.根据权利要求16所述的编码器,其中所述第一渲染器被配置为渲染预期用于扬声器系统的音频回放呈现,并且所述第二渲染器被配置为渲染预期在耳机上再现的主要双耳呈现,以及M-1个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异。
21.一种用于从音频比特流中解码个性化双耳回放呈现的解码器,该解码器包括:
解码模块,用于接收所述音频比特流,并解码预期在音频再现系统上再现的音频回放呈现、以及M组变换参数,所述M组变换参数使得能够实现从所述音频回放呈现到M个双耳表征的M个近似的变换,
其中,所述M组变换参数已经由编码器确定,以最小化所述M个双耳表征和通过将变换参数应用于音频回放呈现而生成的所述M个近似之间的差异;
处理模块,用于将所述M组变换参数组合成个性化的一组变换参数;以及
呈现变换模块,用于将个性化的该组变换参数应用于音频回放呈现,以生成所述个性化的双耳回放呈现。
22.根据权利要求21所述的解码器,其中所述处理模块被配置为选择该M组之一作为所述个性化组。
23.根据权利要求21所述的解码器,其中所述处理模块被配置成将个性化组形成为该M组的线性组合。
24.根据权利要求21所述的解码器,其中所述音频回放呈现是预期在耳机上再现的主要双耳回放呈现,并且其中,所述M组变换参数能够实现从所述音频回放呈现到M个信号对的变换,每个信号对表示所述主要双耳回放呈现和与个体回放简档对应的双耳回放呈现之间的差异,以及
其中,所述呈现变换模块被配置为:
通过将该个性化的一组变换参数作为线性增益2×2矩阵应用于主要双耳回放呈现来形成个性化双耳差异,以及
将所述个性化双耳差异和所述主要双耳回放呈现进行求和。
25.根据权利要求21所述的解码器,其中所述音频回放呈现预期在扬声器上再现,并且其中,所述M组变换参数中的第一组使得能够从所述音频回放呈现变换成主要双耳呈现的近似,并且剩余的变换参数组使得能够从所述音频回放呈现变换成M-1个信号对,每个信号对表示所述主要双耳回放呈现和与个体回放简档相对应的双耳回放呈现之间的差异,并且
其中,所述呈现变换模块被配置为:
通过将第一组变换参数应用于音频回放呈现来形成主要双耳呈现,
通过将该个性化的一组变换参数作为线性增益2×2矩阵应用于所述主要双耳回放呈现来形成个性化的双耳差异,以及
将所述个性化双耳差异和主要双耳回放呈现求和。
26.一种计算机程序产品,包括被配置为当在处理器上执行时实行根据权利要求1-9中任一项所述的方法的步骤的计算机程序代码部分。
27.根据权利要求26所述的计算机程序产品,存储在非暂时性计算机可读介质上。
28.一种计算机程序产品,包括被配置为当在处理器上执行时实行根据权利要求10-15中任一项所述的方法的步骤的计算机程序代码部分。
29.根据权利要求28所述的计算机程序产品,存储在非暂时性计算机可读介质上。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962904070P | 2019-09-23 | 2019-09-23 | |
US62/904,070 | 2019-09-23 | ||
US202063033367P | 2020-06-02 | 2020-06-02 | |
US63/033,367 | 2020-06-02 | ||
PCT/US2020/052056 WO2021061675A1 (en) | 2019-09-23 | 2020-09-22 | Audio encoding/decoding with transform parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114503608A true CN114503608A (zh) | 2022-05-13 |
CN114503608B CN114503608B (zh) | 2024-03-01 |
Family
ID=72753008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080066709.5A Active CN114503608B (zh) | 2019-09-23 | 2020-09-22 | 利用变换参数的音频编码/解码 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220366919A1 (zh) |
EP (1) | EP4035426A1 (zh) |
JP (1) | JP7286876B2 (zh) |
CN (1) | CN114503608B (zh) |
WO (1) | WO2021061675A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023220024A1 (en) * | 2022-05-10 | 2023-11-16 | Dolby Laboratories Licensing Corporation | Distributed interactive binaural rendering |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050190925A1 (en) * | 2004-02-06 | 2005-09-01 | Masayoshi Miura | Sound reproduction apparatus and sound reproduction method |
US20120201389A1 (en) * | 2009-10-12 | 2012-08-09 | France Telecom | Processing of sound data encoded in a sub-band domain |
WO2017035281A2 (en) * | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
CN108353242A (zh) * | 2015-08-25 | 2018-07-31 | 杜比实验室特许公司 | 音频解码器和解码方法 |
EP3509327A1 (en) * | 2018-01-07 | 2019-07-10 | Creative Technology Ltd. | Method for generating customized spatial audio with head tracking |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101390443B (zh) | 2006-02-21 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 音频编码和解码 |
US9426589B2 (en) * | 2013-07-04 | 2016-08-23 | Gn Resound A/S | Determination of individual HRTFs |
CN107005778B (zh) | 2014-12-04 | 2020-11-27 | 高迪音频实验室公司 | 用于双耳渲染的音频信号处理设备和方法 |
-
2020
- 2020-09-22 JP JP2022517390A patent/JP7286876B2/ja active Active
- 2020-09-22 WO PCT/US2020/052056 patent/WO2021061675A1/en unknown
- 2020-09-22 EP EP20786659.1A patent/EP4035426A1/en active Pending
- 2020-09-22 CN CN202080066709.5A patent/CN114503608B/zh active Active
- 2020-09-22 US US17/762,709 patent/US20220366919A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050190925A1 (en) * | 2004-02-06 | 2005-09-01 | Masayoshi Miura | Sound reproduction apparatus and sound reproduction method |
US20120201389A1 (en) * | 2009-10-12 | 2012-08-09 | France Telecom | Processing of sound data encoded in a sub-band domain |
WO2017035281A2 (en) * | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
CN108141685A (zh) * | 2015-08-25 | 2018-06-08 | 杜比国际公司 | 使用呈现变换参数的音频编码和解码 |
CN108353242A (zh) * | 2015-08-25 | 2018-07-31 | 杜比实验室特许公司 | 音频解码器和解码方法 |
EP3509327A1 (en) * | 2018-01-07 | 2019-07-10 | Creative Technology Ltd. | Method for generating customized spatial audio with head tracking |
Also Published As
Publication number | Publication date |
---|---|
CN114503608B (zh) | 2024-03-01 |
EP4035426A1 (en) | 2022-08-03 |
JP2022548697A (ja) | 2022-11-21 |
WO2021061675A1 (en) | 2021-04-01 |
US20220366919A1 (en) | 2022-11-17 |
JP7286876B2 (ja) | 2023-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107533843B (zh) | 用于捕获、编码、分布和解码沉浸式音频的系统和方法 | |
US11798567B2 (en) | Audio encoding and decoding using presentation transform parameters | |
EP2000001B1 (en) | Method and arrangement for a decoder for multi-channel surround sound | |
JP5227946B2 (ja) | フィルタ適応周波数分解能 | |
US11950078B2 (en) | Binaural dialogue enhancement | |
Breebaart et al. | Phantom materialization: A novel method to enhance stereo audio reproduction on headphones | |
CN114503608B (zh) | 利用变换参数的音频编码/解码 | |
WO2017132082A1 (en) | Acoustic environment simulation | |
CN112823534A (zh) | 信号处理设备和方法以及程序 | |
KR20080078907A (ko) | 양 귀 오디오 신호들의 복호화 제어 | |
EA042232B1 (ru) | Кодирование и декодирование звука с использованием параметров преобразования представления | |
Cheng et al. | Binaural reproduction of spatially squeezed surround audio | |
Aarts | Applications of DSP for sound reproduction improvement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |