CN114556973A - 空间音频表示和渲染 - Google Patents
空间音频表示和渲染 Download PDFInfo
- Publication number
- CN114556973A CN114556973A CN202080070895.XA CN202080070895A CN114556973A CN 114556973 A CN114556973 A CN 114556973A CN 202080070895 A CN202080070895 A CN 202080070895A CN 114556973 A CN114556973 A CN 114556973A
- Authority
- CN
- China
- Prior art keywords
- data set
- audio signal
- binaural
- predefined
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 153
- 230000005236 sound signal Effects 0.000 claims abstract description 176
- 230000004044 response Effects 0.000 claims description 116
- 230000006870 function Effects 0.000 claims description 87
- 238000000034 method Methods 0.000 claims description 54
- 238000012546 transfer Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 41
- 238000012545 processing Methods 0.000 description 29
- 230000005540 biological transmission Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 16
- 238000002156 mixing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000005259 measurement Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
一种装置,包括被配置为执行以下操作的部件:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
Description
技术领域
本申请涉及用于空间音频表示和渲染的装置和方法,但不是仅限于用于音频解码器的音频表示。
背景技术
沉浸式音频编解码器正被实现,以支持范围从低比特率操作到透明性的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(IVAS)编解码器,其被设计为适合于在诸如3GPP 4G/5G网络之类的通信网络上使用,包括在诸如例如用于虚拟现实(VR)的沉浸式语音和音频之类的沉浸式服务中使用。该音频编解码器被预期处理语音、音乐和通用音频的编码、解码和渲染。此外还被预期支持基于通道的音频和基于场景的音频输入,包括关于声场和声源的空间信息。编解码器还被预期以低延迟进行操作,以启用会话服务并在各种传输条件下支持高差错鲁棒性。
输入信号可以以多种支持格式之一(以及以一些允许的格式组合)来被呈现给IVAS编码器。例如,可以使用增强型语音服务(EVS)编码器对单通道音频信号(无元数据)进行编码。其他输入格式可以利用新的IVAS编码工具。针对IVAS提出的一种输入格式是元数据辅助空间音频(MASA)格式,其中编码器可以利用例如单通道和立体声编码工具以及元数据编码工具的组合来用于格式的有效传输。MASA是适用于空间音频处理的参数化空间音频格式。参数化空间音频处理是使用一组参数来描述声音(或声音场景)的空间方面的音频信号处理领域。例如,在来自麦克风阵列的参数化空间音频捕获中,从麦克风阵列信号中估计一组参数(例如,声音在频带中的方向,所捕获的声音在频带中的定向部分和非定向部分的相对能量,例如被表示为频带中的直接对总能量比(direct-to-total energy ratio)或环境对总能量比(ambient-to-total energy ratio))是典型且有效的选择。已知这些参数很好描述了所捕获的声音在麦克风阵列的位置处的感知空间特性。因此,这些参数可被用在空间声音的合成中,用于双耳式耳机、用于扬声器、或其他格式(诸如全景环绕声(Ambisonics)。
例如,可以存在两个通道(立体声)的音频信号和空间元数据。此外,空间元数据可以定义如下参数:方向索引,描述声音按时频参数间隔的到达方向;电平/相位差;直接对总能量比,描述针对方向索引的能量比;扩散度(diffuseness);相干性(coherence),诸如扩展相干性(spread coherence),描述针对方向索引的能量扩展;扩散对总能量比(diffuse-to-total energy ratio),描述非定向声音在周围方向上的能量比;环绕相干性,描述非定向声音在周围方向上的相干性;剩余对总能量比(remainder-to-total energy ratio),描述剩余部分(诸如麦克风噪声)声能的能量比,以满足能量比之和为1的要求;距离,以对数刻度描述以米为单位的源自方向索引的声音的距离;与多通道扬声器信号有关的协方差矩阵,或与这些协方差矩阵有关的任何数据;引导特定解码器的其他参数,例如,中心预测系数和一对二解码系数(例如,在MPEG环绕声中使用)。这些参数中的任何一个都可以在频带中被确定。
收听日常环境中的自然音频场景不仅仅关于在特定方向上的声音。即使没有背景环境,到达耳朵的大部分声能通常并不是来自直接声音,而是来自声学环境的间接声音(即,反射和混响)。基于房间效应(包括离散反射和混响),收听者在听觉上感知声源距离和房间特性(小、大、潮湿、混响)等特征,并且房间添加了音频内容的感知感觉。换句话说,声学环境是空间声音的基本和感知相关的特征。
发明内容
根据第一方面,提供一种装置,其包括被配置为执行以下操作的部件:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
与双耳渲染有关的至少一个数据集可以包括以下中的至少一个:一组双耳房间脉冲响应或传递函数;一组头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的数据集;以及基于头部相关脉冲响应或传递函数的数据集。
与双耳渲染有关的至少一个预定义数据集可以包括以下中的至少一个:一组预定义的双耳房间脉冲响应或传递函数;一组预定义的头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的预定义数据集;以及基于所捕获的头部相关脉冲响应或传递函数的预定义数据集。
该部件可以进一步被配置为:将至少一个数据集划分成第一部分和第二部分,其中,该部件被配置为:生成至少一个数据集的第一部分与至少一个预定义数据集的第一部分组合。
被配置为基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该部件可以被配置为:基于至少一个数据集的第一部分与至少一个预定义数据集的组合以及空间音频信号,生成第一部分双耳音频信号。
被配置为生成至少一个数据集和至少一个预定义数据集的至少一部分的组合的该部件可以进一步被配置为:生成第二部分组合,该第二部分组合包括以下中的一个:至少一个数据集的第二部分与至少一个预定义数据集的至少一部分的组合;至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分是空(null)集;以及至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分被确定为基本上有错误、是噪声、或者被损坏。
被配置为基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该部件可以被配置为:基于第二部分组合和空间音频信号,生成第二部分双耳音频信号。
被配置为基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该部件可以被配置为:组合第一部分双耳音频信号与第二部分双耳音频信号。
被配置为将至少一个数据集划分成第一部分和第二部分的该部件可以被配置为:基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚降函数的第一窗口函数,其中,该第一窗口函数被应用于至少一个数据集以生成第一部分;以及基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚升函数的第二窗口函数,其中,该第二窗口函数被应用于至少一个数据集以生成第二部分。
该部件可以被配置为:生成至少一个数据集和至少一个预定义数据集的至少一部分的组合。
被配置为生成至少一个数据集和至少一个预定义数据集的至少一部分的组合的该部件可以被配置为:基于选择至少一个数据集,生成初始组合数据集;确定该初始组合数据集内的由该初始组合数据集的至少一对相邻元素所定义的至少一个间隙,其中该至少一对相邻元素的方向差异大于所确定的阈值;以及针对每个间隙:在至少一个预定义数据集内识别至少一个预定义集的方向位于该间隙内的元素;以及组合至少一个预定义数据集的所识别的元素与初始组合数据集。
所确定的阈值可以包括:方位角阈值;以及仰角阈值。
至少一个数据集和至少一个预定义数据集的至少一部分的组合可以在方向范围上被定义,并且其中,在该方向范围上,该组合不包括大于所定义的阈值的定向间隙。
至少一个数据集的至少一部分可以是至少一个数据集的没有以下中的至少一个的元素:基本错误;基本噪音;以及基本损坏。
被配置为获得包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据的空间音频信号的该部件可以被配置为:从另一装置接收该空间音频信号。
被配置为获得与双耳渲染有关的至少一个数据集的该部件可以被配置为:从另一装置接收该至少一个数据集。
根据第二方面,提供一种方法,其包括:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
与双耳渲染有关的至少一个数据集可以包括以下中的至少一个:一组双耳房间脉冲响应或传递函数;一组头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的数据集;以及基于头部相关脉冲响应或传递函数的数据集。
与双耳渲染有关的至少一个预定义数据集可以包括以下中的至少一个:一组预定义的双耳房间脉冲响应或传递函数;一组预定义的头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的预定义数据集;以及基于所捕获的头部相关脉冲响应或传递函数的预定义数据集。
该方法可以进一步包括:将至少一个数据集划分成第一部分和第二部分;以及生成至少一个数据集的第一部分与至少一个预定义数据集的第一部分组合。
基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号可以包括:基于至少一个数据集的第一部分与至少一个预定义数据集的组合以及空间音频信号,生成第一部分双耳音频信号。
生成至少一个数据集和至少一个预定义数据集的至少一部分的组合可以进一步包括:生成第二部分组合,该第二部分组合包括以下中的一个:至少一个数据集的第二部分与至少一个预定义数据集的至少一部分的组合;至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分是空集;以及至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分被确定为基本上有错误、是噪声、或者被损坏。
基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号可以包括:基于第二部分组合和空间音频信号,生成第二部分双耳音频信号。
基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号可以包括:组合第一部分双耳音频信号与第二部分双耳音频信号。
将至少一个数据集划分成第一部分和第二部分可以包括:基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚降函数的第一窗口函数,其中,该第一窗口函数被应用于至少一个数据集以生成第一部分;以及基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚升函数的第二窗口函数,其中,该第二窗口函数被应用于至少一个数据集以生成第二部分。
该方法可以包括:生成至少一个数据集和至少一个预定义数据集的至少一部分的组合。
生成至少一个数据集和至少一个预定义数据集的至少一部分的组合可以包括:基于选择至少一个数据集,生成初始组合数据集;确定该初始组合数据集内的由该初始组合数据集的至少一对相邻元素所定义的至少一个间隙,其中该至少一对相邻元素的方向差异大于所确定的阈值;以及针对每个间隙:在至少一个预定义数据集内识别至少一个预定义集的方向位于该间隙内的元素;以及组合至少一个预定义数据集的所识别的元素与初始组合数据集。
所确定的阈值可以包括:方位角阈值;以及仰角阈值。
至少一个数据集和至少一个预定义数据集的至少一部分的组合可以在方向范围上被定义,并且其中,在该方向范围上,该组合不包括大于所定义的阈值的定向间隙。
至少一个数据集的至少一部分可以是至少一个数据集的没有以下中的至少一个的元素:基本错误;基本噪音;以及基本损坏。
获得包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据的空间音频信号可以包括:从另一装置接收该空间音频信号。
获得与双耳渲染有关的至少一个数据集可以包括:从另一装置接收该至少一个数据集。
根据第三方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
与双耳渲染有关的至少一个数据集可以包括以下中的至少一个:一组双耳房间脉冲响应或传递函数;一组头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的数据集;以及基于头部相关脉冲响应或传递函数的数据集。
与双耳渲染有关的至少一个预定义数据集可以包括以下中的至少一个:一组预定义的双耳房间脉冲响应或传递函数;一组预定义的头部相关脉冲响应或传递函数;基于双耳房间脉冲响应或传递函数的预定义数据集;以及基于所捕获的头部相关脉冲响应或传递函数的预定义数据集。
该装置可以进一步被使得:将至少一个数据集划分成第一部分和第二部分;以及生成至少一个数据集的第一部分与至少一个预定义数据集的第一部分组合。
被使得基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该装置可以被使得:基于至少一个数据集的第一部分与至少一个预定义数据集的组合以及空间音频信号,生成第一部分双耳音频信号。
被使得生成至少一个数据集和至少一个预定义数据集的至少一部分的组合的该装置可以进一步被使得:生成第二部分组合,该第二部分组合包括以下中的一个:至少一个数据集的第二部分与至少一个预定义数据集的至少一部分的组合;至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分是空集;以及至少一个预定义数据集的至少一部分,其中,至少一个数据集的第二部分被确定为基本上有错误、是噪声、或者被损坏。
被使得基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该装置可以被使得:基于第二部分组合和空间音频信号,生成第二部分双耳音频信号。
被使得基于至少一个数据集和至少一个预定义数据集的至少一部分的组合以及空间音频信号来生成双耳音频信号的该装置可以被使得:组合第一部分双耳音频信号与第二部分双耳音频信号。
被使得将至少一个数据集划分成第一部分和第二部分的该装置可以被配置为:基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚降函数的第一窗口函数,其中,该第一窗口函数被应用于至少一个数据集以生成第一部分;以及基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚升函数的第二窗口函数,其中,该第二窗口函数被应用于至少一个数据集以生成第二部分。
该装置可以被使得:生成至少一个数据集和至少一个预定义数据集的至少一部分的组合。
被使得生成至少一个数据集和至少一个预定义数据集的至少一部分的组合的该装置可以被使得:基于选择至少一个数据集,生成初始组合数据集;确定该初始组合数据集内的由该初始组合数据集的至少一对相邻元素所定义的至少一个间隙,其中该至少一对相邻元素的方向差异大于所确定的阈值;以及针对每个间隙:在至少一个预定义数据集内识别至少一个预定义集的方向位于该间隙内的元素;以及组合至少一个预定义数据集的所识别的元素与初始组合数据集。
所确定的阈值可以包括:方位角阈值;以及仰角阈值。
至少一个数据集和至少一个预定义数据集的至少一部分的组合可以在方向范围上被定义,并且其中,在该方向范围上,该组合不包括大于所定义的阈值的定向间隙。
至少一个数据集的至少一部分可以是至少一个数据集的没有以下中的至少一个的元素:基本错误;基本噪音;以及基本损坏。
被使得获得包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据的空间音频信号的该装置可以被使得:从另一装置接收该空间音频信号。
被使得获得与双耳渲染有关的至少一个数据集的该装置可以被使得:从另一装置接收该至少一个数据集。
根据第四方面,提供了一种装置,其包括:获得电路,被配置为获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得电路,被配置为获得与双耳渲染有关的至少一个数据集;获得电路,被配置为获得与双耳渲染有关的至少一个预定义数据集;以及生成电路,被配置为基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
根据第五方面,提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质],这些指令/程序指令用于使装置至少执行以下操作:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
根据第六方面,提供了一种包括程序指令的非暂时性计算机可读介质,这些程序指令用于使装置至少执行以下操作:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
根据第七方面,提供了一种装置,包括:用于获得空间音频信号的部件,其中,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;用于获得与双耳渲染有关的至少一个数据集的部件;用于获得与双耳渲染有关的至少一个预定义数据集的部件;以及用于基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号来生成双耳音频信号的部件。
根据第八方面,提供了一种包括指令的计算机可读介质,这些指令用于使装置至少执行以下操作:获得空间音频信号,该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据;获得与双耳渲染有关的至少一个数据集;获得与双耳渲染有关的至少一个预定义数据集;以及基于该至少一个数据集和该至少一个预定义数据集的至少一部分的组合以及该空间音频信号,生成双耳音频信号。
一种装置,包括用于执行如上所述的方法的动作的部件。
一种装置,被配置为执行如上所述的方法的动作。
一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
一种电子设备可以包括如本文所述的装置。
一种芯片组可以包括如本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出适于实现一些实施例的装置的系统;
图2示出根据一些实施例的示例装置的操作的流程图;
图3示意性地示出根据一些实施例的如图1中所示的合成处理器;
图4示出根据一些实施例的如图3中所示的示例装置的操作的流程图;
图5示出根据一些实施例的示例早期-晚期部分划分器;
图6示出根据一些实施例的用于生成经组合的早期部分渲染数据的示例方法的流程图;
图7示出根据一些实施例的渲染数据的示例插值或曲线拟合;
图8更详细示出根据一些实施例的如图3中所示的示例早期和晚期渲染器;
图9示出适于实现前面附图中所示装置的示例设备。
具体实施方式
下面更详细地描述用于使用所加载的双耳数据集来渲染包含(传输)音频信号和与这些音频信号相关联的空间元数据的空间音频流(或空间音频信号)的合适装置和可能机制。其目的是使能将具有次优定向分辨率的HRTF和BRIR加载到双耳渲染器,而同时仍提供最优的再现音频质量(准确的定向感知和未着色的音色)。这在收听者加载其个人HRTF/BRIR时非常重要,其通常不能用高定向分辨率来测量。
使用单独测量的HRTF/BRIR已表明可改进定位并增强音色。因此,收听者可有兴趣将其个人响应加载到双耳渲染器(和/或包含双耳渲染器的编解码器,诸如IVAS)。然而,由于(在起草本申请时)获得这种响应并不常见,因此,没有常规或标准化的方法来衡量它们。因此,可以以各种各样的方式来测量它们,这也可导致响应具有任意方向分辨率(即,响应的数量,并且可用响应的数据点之间的间距可在各种测量方法之间差异很大)。实际上,在旨在以高空间保真度向所有方向渲染音频的已知双耳渲染方法中,可用HRTF可比预期的HRTF少。
这种多样性效应在BRIR数据库用于渲染空间音频信号的上下文中更加明显。即使对于专业产生的数据集,它们也通常具有比HRTF数据库低的定向分辨率(并且通常在用户提供的数据集中具有甚至更低的分辨率)。这样做的实际原因在于将定制的双耳测量系统安装到普通房间非常困难且非常耗时。因此,通常只有几个数据点可用,例如,对应于最常见的多通道扬声器布局,诸如5.1和/或7.1+4。
HRTF/BRIR数据集的稀疏性会导致双耳渲染出现问题。例如,HRTF/BRIR数据集可仅包含水平方向,而渲染可能还需要支持渲染仰角。渲染器还需要在数据集稀疏的那些方向(例如,5.1双耳渲染数据集在180度处没有HRTF/BRIR)上准确地渲染声音。另外,渲染可能需要在任何轴上进行头部跟踪,并因此以良好的空间精度渲染到任何方向变得相关。当数据集稀疏时,在数据点之间插值原则上是一种选择,然而,用稀疏数据点进行插值会导致严重的伪影,诸如声音的音色的着色,以及不精确且非点状的定位。此外,用户提供的数据集也可被损坏,例如,它可具有低SNR或在其他方面失真或损坏的响应,这会影响双耳渲染的质量(例如,音色、空间精度、外部化)。
此外,当所加载的数据集是HRTF数据集时,根据定义,该数据集仅包括无回声空间中的传递函数,并且不涉及反射和混响。然而,已知渲染房间效应(包含反射和/或混响)对于某些信号类型是有益的,诸如多通道信号(例如,5.1)。所产生的多声道信号可以在具有混响的普通房间中收听。如果在无回声空间(HRTF渲染与它相对应)中收听它们,则它们被感知到缺乏空间感和包围感,从而降低了所感知的音频质量。因此,双耳渲染器应支持在所有情况下添加房间效应(即使所加载的数据集是HRTF数据集)。
因此,该构思提供了一种渲染器,其使得能够加载具有任意分辨率并潜在地具有测量质量问题的HRTF和BRIR集。此外,如在一些实施例中讨论的渲染器被配置为从可具有在任意方向上的声源的数据格式(诸如MASA格式和/或头部跟踪双耳化)渲染双耳音频。此外,在一些实施例中,渲染器被配置为在具有和没有来自任何所加载的HRTF和BRIR数据集的所添加房间响应的情况下渲染双耳音频。
此外,实施例可以被配置为在不需要高定向分辨率数据集的情况下进行操作(不能在所有情况下都得到保证,尤其是对于由收听者加载的数据集),以及向任意方向(导致音色着色和次优的空间化)实现具有良好质量的双耳渲染。
实施例涉及使用所加载的双耳数据集(例如,基于HRTF和BRIR)对包含传输音频信号和空间元数据的空间音频流进行双耳渲染。因此,实施例描述了一种方法,即使在双耳数据集具有低定向分辨率的情况下,该方法也可以产生具有良好定向精度和无着色音色的双耳空间音频。另外,在一些实施例中,这可以通过组合(包括感知匹配过程)所加载的双耳数据集与预定义的双耳数据集并使用经组合的双耳数据集以将空间音频流渲染到双耳输出来实现。
在一些实施例中,双耳渲染器可以例如是解码器(诸如IVAS解码器)的一部分。因此,它可以接收或获取要被渲染到双耳输出的空间音频流。此外,该双耳渲染器支持加载双耳数据集。这些双耳数据集可以例如由收听者加载,并且可以例如包含为他们定制的个人响应。
在一些实施例中,双耳渲染器还包括预定义的双耳数据集。在典型情况下,预定义的双耳渲染数据集的特征在于空间准确性,这意味着它是基于在空间上密集的BRIR/HRTF数据集。因此,该预定义的数据集表示渲染器中预先存在的确保高质量的默认数据集。
所加载的双耳渲染数据集可以包括被选择要在渲染中使用(例如,因为它们是个人响应)的但在某种意义上是次优的响应。例如,次优可意味着:
-该数据集是基于稀疏的一组测量(例如,对应于22.2或5.1方向)。某些方向(例如,仰角、侧面)可没有响应。本发明允许加载低至单个的(双耳)响应,而仍然向任何方向提供渲染;以及
-该数据集受到噪声或被损坏的测量过程的影响。
在一些实施例中,例如通过以下操作来将所加载的双耳数据集与预定义的数据集进行组合:
-将所加载的数据集附加到预定义的数据集,以便在所加载的数据稀疏的那些方向(即,数据集的角度间隙很大)上基本上使用预定义的数据;以及
-用预定义的双耳渲染数据部分地或完全地替换所加载的双耳渲染数据。
另外,实施例描述了例如通过以下操作来对经组合的数据集执行感知匹配过程的实现:
-基于所加载的数据集来调整经组合的数据集的频谱特性;以及
-基于所加载的数据集来调整经组合的数据集的耳间相位/时间特性。
因此,所得到的双耳数据集可以是在空间上密集的,并且可以与所加载的双耳数据集的特征相匹配。使用此数据集来渲染空间音频。因此,收听者可获得具有准确定向感知和无着色音色的个性化双耳空间音频播放。
在一些实施例中,当所加载的数据集是HRTF数据集时,并且当需要渲染双耳混响时,使用预定义的双耳混响数据(或“晚期部分(late part)渲染数据”)来渲染双耳混响。
另外,在一些实施例中,当预定义的数据集是BRIR数据集时,该预定义的数据集的早期部分(early part)被提取以用于如本文详细讨论的处理操作。
在一些实施例中,当所加载的数据集是BRIR数据集时,所加载的数据集的早期部分被提取以用于如本文详细讨论的处理操作。
此外,在一些实施例中,当需要渲染双耳混响时,所加载的数据集的晚期部分被提取以用于渲染双耳混响。在一些实施例中,它可以直接被使用,或者可以修改预定义的晚期混响双耳数据,以使得其与所加载的数据集的特征(例如,混响时间或频谱特性)相匹配。
关于图1,根据一些实施例示出了用于实现音频捕获和渲染的示例装置和系统。
系统199被示出具有编码器/分析器101部分和解码器/合成器105部分。
在一些实施例中,编码器/分析器101部分包括音频信号输入,其被配置为接收输入音频信号110。这些输入音频信号可以来自任何合适的源,例如:安装在移动电话上的两个或更多个麦克风;其他麦克风阵列,例如,B格式麦克风或Egenmike;Ambisonics信号,例如,一阶Ambisonics(FOA)、高阶Ambisonics(HOA);扬声器环绕混音和/或对象。输入音频信号110可以被提供给分析处理器111和传输信号生成器113。
编码器/分析器101部分可以包括分析处理器111。分析处理器111被配置为对输入音频信号执行空间分析以产生合适的元数据112。因此,分析处理器111的目的是估计频带中的空间元数据。对于所有前述的输入类型,存在已知的方法来生成合适的空间元数据,例如,频带中的方向和直接对总能量比(或类似的参数,诸如扩散度,即,环境对总能量比)。这些方法在本文中被详述,然而,一些示例可以包括针对输入信号执行合适的时频变换,进而在输入是移动电话麦克风阵列时在频带中估计使麦克风间相关性最大化的麦克风对之间的延迟值,以及制定与该延迟对应的方向值(如GB专利申请号1619573.7和PCT专利申请号PCT/FI2017/050778中所述),并基于相关值来制定比率参数。元数据可以具有各种形式,并且可以包含空间元数据和其他元数据。典型的用于空间元数据的参数化是每个频带中的一个方向参数θ(k,n)以及每个频带中的相关联的直接对总能量比r(k,n),其中,k是频带索引,n是时间帧索引。确定或估计方向和比率取决于从中获得音频信号的设备或实现。例如,可以使用在GB专利申请号1619573.7和PCT专利申请号PCT/FI2017/050778中描述的方法,使用空间音频捕获(SPAC)来获得或估计元数据。换句话说,在该特定上下文中,空间音频参数包括旨在描绘声场的特征的参数。在一些实施例中,所生成的参数可以在不同的频带上不同。因此,例如,在频带X中,生成并发送所有的参数,而在频带Y中,仅生成和发送一个参数,此外在频带Z中,没有生成或发送参数。这样的一个实际示例可以是对于一些频带(诸如最高频带),由于感知的原因,不需要某些参数。
当输入是FOA信号或B格式麦克风时,分析处理器111可以被配置为确定诸如强度向量之类的参数(方向参数是基于其而制定的),并将强度向量长度与总声场能量估计相比较以确定比率参数。这种方法在文献中被称为定向音频编码(DirAC)。
当输入是HOA信号时,分析处理器可以取信号的FOA子集并使用上述方法,或者将HOA信号划分成多个部分(sector),在每个部分中使用上述方法。这种基于部分的方法在文献中被称为高阶DirAC(HO-DirAC)。在这种情况下,存在每频带多于一个的同时的方向参数。
当输入是扬声器环绕混音和/或对象时,分析处理器111可以被配置为将该信号转换成FOA信号(经由使用球面谐波编码增益)并如上所述地分析方向和比率参数。
由此,分析处理器111的输出是在频带中确定的空间元数据。该空间元数据可涉及频带中的方向和比率,但也可具有先前列出的任何元数据类型。该空间元数据可以随时间和频率而变化。
在一些实施例中,空间分析器和空间分析可以在系统199外部实现。例如,在一些实施例中,与音频信号相关联的空间元数据可以作为单独的比特流被提供给编码器。在一些实施例中,空间元数据可以被提供为一组空间(方向)索引值。
编码器/分析器101部分可以包括传输信号生成器113。传输信号生成器113被配置为接收输入信号,并生成合适的传输音频信号114。该传输音频信号可以是立体声或单声道音频信号。传输音频信号114的生成可以使用如下所总结的已知方法来实现。
当输入是移动电话麦克风阵列音频信号时,传输信号生成器113可以被配置为选择左右麦克风对,并对该信号对应用合适的处理,诸如自动增益控制、麦克风噪声去除、风噪声去除、以及均衡。
当输入是FOA/HOA信号或B格式麦克风时,传输信号生成器113可以被配置为制定朝向左右方向的定向波束信号,诸如两个相对的心形信号。
当输入是扬声器环绕混音和/或对象时,传输信号生成器113可以被配置为生成下混合信号(其将左侧通道组合到左下混合通道并将右侧通道组合到右下混合通道),并以合适的增益将中央通道添加到这两个传输通道。
在一些实施例中,传输信号生成器113被配置为绕过输入。例如,在某些情况下,分析和合成发生在同一设备处在单个处理步骤中,而无需中间编码。传输通道的数量也可以是任何合适的数量(而不是在示例中讨论的一个或两个通道)。
在一些实施例中,编码器/分析器部分101可以包括编码器/复用器115。编码器/复用器115可以被配置为接收传输音频信号114和元数据112。编码器/复用器115还可以被配置为生成编码或压缩形式的元数据信息和传输音频信号。在一些实施例中,编码器/复用器115可以进一步交织、复用到单个数据流116,或者在传输或存储之前将元数据嵌入到编码音频信号内。可以使用任何合适的方案来实现复用。
例如,编码器/复用器115可以被实现为IVAS编码器或任何其他合适的编码器。因此,编码器/复用器115被配置为对音频信号和元数据进行编码,并形成比特流116(例如,IVAS比特流)。
进而,如虚线所示,比特流116可以被发送/存储103。在一些实施例中,没有编码器/复用器115(并因此没有下文讨论的解码器/解复用器121)。
此外,系统199可以包括解码器/合成器部分105。解码器/合成器部分105被配置为接收、获取或以其他方式获得比特流116,并从该比特流生成要被呈现给收听者/收听者播放装置的合适的音频信号。
解码器/合成器部分105可以包括解码器/解复用器121,解码器/解复用器121被配置为接收比特流,并对经编码的流进行解复用,进而对音频信号进行解码以获得传输信号124和元数据122。
此外,在一些实施例中,如上所讨论的,可不存在任何解复用器/解码器121(例如,在没有相关联的编码器/复用器115的情况下,因为编码器/分析器部分101和解码器/合成器105两者位于同一设备内)。
解码器/合成器部分105可以包括合成处理器123。合成处理器123被配置为获得传输音频信号124、空间元数据122、以及所加载的与BRIR或HRTF对应的双耳渲染数据集126,并产生可以在耳机上再现的双耳输出信号128。
该系统的操作相对于图2中所示的流程图进行了总结。例如,如图2中步骤201所示,接收输入音频信号。
进而,如图2中步骤203所示,该流程图示出了分析(空间)输入音频信号以生成空间元数据。
进而,如图2中步骤204所示,从输入音频信号生成传输音频信号。
进而,如图2中步骤205所示,所生成的传输音频信号和元数据可以被复用。这在图2中被示为可选的虚线框。
此外,如图2中步骤207所示,经编码的信号可以被解复用和解码,以生成传输音频信号和空间元数据。这也被示为可选的虚线框。
进而,如图2中步骤209所示,可以基于传输音频信号、空间元数据和与BRIR或HRTF对应的双耳渲染数据集来合成双耳音频信号。
进而,如图2中步骤211所示,可以将经合成的双耳音频信号输出到合适的输出设备(例如,一组耳机)。
关于图3,更详细地示出了合成处理器123。
在一些实施例中,合成处理器123包括早期/晚期部分划分器301。早期/晚期部分划分器301被配置为接收双耳渲染数据集126(对应于BRIR或HRTF)。在一些实施例中,该双耳渲染数据集可以采用任何合适的形式。例如,在一些实施例中,该数据集采用HRTF(头部相关传递函数)、HRIR(头部相关脉冲响应)、BRIR(双耳房间脉冲响应)或BRTF(双耳房间传递函数)的形式,以用于一组所确定的方向。在一些实施例中,该数据集是基于HRTF、HRIR、BRIR或BRTF的参数化数据集。参数化例如可以是诸如Bark频带之类的频带中的时间差和频谱。此外,在一些实施例中,该数据集可以是被转换到另一个域(例如,被转换成球面谐波)的HRTF、HRIR、BRIR或BRTF。
在以下示例中,渲染数据采用HRIR或BRIR(即,一组时域脉冲响应对)的典型形式,以用于一组所确定的方向。如果响应是HRTF或BRTF,则它们可以例如被逆时频变换成HRIR或BRIR以进行后续处理。还描述了其他示例。
早期/晚期部分划分器301被配置为将所加载的双耳渲染数据划分成被定义为加载早期数据(loaded early data)302和加载晚期数据(loaded late data)304的部分,加载早期数据302被提供给早期部分渲染数据组合器303,而加载晚期数据304被提供给晚期部分渲染数据组合器305。
在其中数据集仅包含HRIR数据的一些实施例中,这被直接提供为加载早期数据302。在一些实施例中,加载早期数据302可以在此时被变换到频域。在这种示例中,加载晚期数据304仅是晚期部分不存在的指示。
在其中数据集是BRIR数据集的一些实施例中,可以应用窗口化来划分响应,其针对加载早期数据302主要为定向(包含直接部分和可能的第一反射),针对加载晚期数据304主要为混响。例如可以利用以下步骤来执行划分。
首先,测量BRIR的最大能量的时间(这提供了第一到达声音的时间的近似值)。
其次,设计窗口函数。在图5中示出了示例的设计窗口函数。例如,图5示出了包括第一窗口551的窗口函数以用于提取早期部分,该第一窗口551在最大能量时间501之后直到定义偏移503时间为止是单位值(unity)。第一窗口551函数通过交叉505时间减小,直到之后它是零为止。
该窗口函数进一步包括第二窗口553,以用于提取晚期部分,该第二窗口553具有零值直到交叉505时间开始为止。第二窗口553函数值通过交叉505时间增加到单位值,并且之后它是单位值。
这仅是合适的函数的示例,并且可以采用其他函数。在一些实施例中,偏移时间例如可以是5ms,而交叉时间例如可以是2ms。
第三,窗口函数可以被应用于BRIR以获得经窗口化的早期部分和经窗口化的晚期部分。
第四,经窗口化的早期部分作为加载早期数据302被提供给早期部分渲染数据组合器303。在一些实施例中,该加载早期数据可以在此时被变换到频域。
第五,经窗口化的晚期部分作为加载晚期数据304被提供给晚期部分渲染数据组合器305。
在一些实施例中,合成处理器还包含预定义早期数据(pre-defined early data)300和预定义晚期数据(pre-defined late data)392,它们可以基于预定义的HRIR、BRIR等响应利用如上所述的等效步骤已被生成。在其中数据集不包含晚期部分的这些实施例中,预定义的晚期部分392仅是晚期部分不存在的指示。
在一些实施例中,合成处理器123包括早期部分渲染数据组合器303。早期部分渲染数据组合器303被配置为接收预定义早期数据300和加载早期数据302。早期部分渲染数据组合器303被配置为评估加载早期数据是否是在空间上密集的。
例如,在一些实施例中,早期部分渲染数据组合器303被配置为基于水平密度标准来确定数据是否是在空间上密集的。在这些实施例中,该早期部分渲染数据组合器可以检查响应的水平分辨率是否足够密集。例如,水平响应之间的最大方位角间隙不大于阈值。该水平响应距离阈值例如可以是10度。
例如,在一些实施例中,早期部分渲染数据组合器303被配置成基于仰角密度标准来确定数据是否是在空间上密集的。在这些实施例中,该早期部分渲染数据组合器可以检查在升高的角度上没有方向,其中,最接近的响应在角度上比阈值更远。该垂直响应距离阈值例如可以是10度或20度。
如果满足这些条件,则早期部分渲染数据组合器303被配置为将加载早期数据302作为经组合的早期部分渲染数据306提供给早期部分渲染器307而无需修改。
如果不满足这些条件,则早期部分渲染数据组合器303被配置为还使用预定义早期数据300以形成经组合的早期部分渲染数据。
在本文描述的示例中,假定预定义早期数据300满足如上所述的水平密度标准和仰角密度标准。此外,在本文描述的实施例中,组合是基于所加载的数据集不满足合适的密度标准,然而,在满足上述密度标准但所加载的数据具有单独缺陷(例如,数据具有很差的SNR或在其他方面被损坏)的情况下,也可以实现组合。
例如,早期部分渲染数据组合器303可以被配置为以如图6中所描述的方式来组合数据。在这种方法中,所加载的早期渲染数据302用于在其中所加载的数据存在的那些方向上渲染声音,而预定义早期数据300用于在其他方向上渲染声音。当已知所加载的早期数据包含高质量测量(例如,良好的SNR、有效的测量过程)时,这种方法很有用,但由于它是稀疏的,因此需要在某些方向上进行附加。
图6示出了根据这些实施例的所加载的早期部分数据302和预定义的早期部分数据300的组合的流程图。
如图6中步骤601所示,第一操作是将经初步组合的早期数据生成为加载早期数据的副本。换句话说,首先,早期部分渲染数据组合器303通过简单地将加载早期数据复制到经组合的早期部分渲染数据306来生成经初步组合的早期数据。
下一操作是评估经组合的数据中是否存在大于阈值的水平间隙。这在图6中由步骤603示出。
如果发现这种间隙,则将响应从预定义早期数据300添加到经组合的早期部分数据306到该间隙中。这在图6中由步骤605示出。
进而,由返回到步骤603的箭头所示,操作可以循环回到进一步的评估检查。换句话说,在需要时重复评估和填充的过程,直到经组合的数据中没有大于阈值的水平间隙为止。
如果经组合的数据中不存在原始水平间隙或者如果间隙已被填充,则早期部分渲染数据组合器303可以被配置为检查预定义早期数据的所有方向。换句话说,如图6中步骤607所示,该操作是从预定义早期数据中找到具有与经组合的早期部分数据处的最接近数据点的最大角度差的方向,并确定该差异是否大于阈值。
如图6中步骤609所示,如果该差异大于阈值,则将对应的响应从预定义的早期部分数据300添加到经组合的早期部分数据306。
进而,操作返回到步骤607,其中,只要前述的最大角度差估计大于阈值,就重复该过程。
如图6中步骤611所示,如果该角度差小于阈值,则输出经组合的早期部分数据。
在一些实施例中,早期部分渲染数据组合器603被配置为直接使用预定义的早期部分数据600作为经组合的早期部分数据,而不使用所加载的早期部分数据602。当在所加载的数据集处可存在次优性(例如,很差的SNR、不合适的测量过程)时,该方法是有用的。
因此,所得到的经组合的早期数据306具有这种密度的数据点(响应方向),以使得满足前述的水平和垂直密度标准。
在一些实施例中,早期部分渲染数据组合器303被配置为向来自预定义早期数据300的经组合的早期部分数据306处的数据点应用感知匹配过程。
因此,在一些实施例中,早期部分渲染数据组合器303被配置为执行频谱匹配。
作为初步步骤,在频带中测量原始预定义和所加载的早期数据集的所有数据点(方向)的能量:
其中,HRTFloaded(b,ch,q)是所加载的早期部分数据302的复合增益,HRTFpre(b,ch,q)是预定义的早期部分数据300的复合增益,b是仓(bin)索引(其中,表达式b∈k意味着“所有仓都属于频带k”),ch是通道(即,耳朵)索引,ql是在所加载的早期数据集处的响应的索引,qp是在预定义的早期数据集处的索引。
即使使用HRTF表示,响应也可以不是无回声的,但可以对应于BRIR响应的早期部分。在一些实施例中,HRTF(b,ch,qc)标示经组合的早期部分数据306的复合增益,qc作为对应的数据集索引。
在一些实施例中,定义了两个角度值:
αl,c(ql,qc)是在所加载的早期数据集的第ql个数据点与在经组合的早期数据集的第qc个数据点之间的角度差;以及
αp,c(qp,qc)是来自在预定义的早期数据集的第qp个数据点与在经组合的早期数据集的第qc个数据点的角度差。
进而,在一些实施例中,针对在经组合的早期部分数据处的源自预定义的早期部分数据300的每个数据点qc来执行以下操作。
首先,找到所加载的早期数据集的加权平均能量值:
其次,找到预定义的早期数据集的加权能量值:
其中,Qp是在预定义的早期数据集的数据点的数量。
第三,制定均衡增益以校正平均能量:
第四,针对属于频带k的所有仓b,向在经组合的早期数据(其源自预定义的早期部分数据)处的第qc个响应应用均衡增益qEQ(k):
HRTF′(b,ch,qc)=HRTF(b,ch,qc)gEQ(k,qc)
进而,针对在经组合的早期部分数据处的源自预定义的早期部分数据的所有索引qc,并针对所有频带k,可以重复上述操作。
在一些实施例中,早期部分渲染数据组合器被配置为可选地应用相位/时间匹配,其解释了数据集之间的最大耳间时间延迟差的差异。例如,针对相位/时间匹配可以执行以下操作:
首先,从在水平面的早期部分响应估计在低频范围(例如,最高1.5kHz)的耳间时间差(inter-aural time difference,ITD)。例如,可以通过左右耳响应的组延迟(在该频率范围内)的中值的差异来找到耳间时间差。所估计的ITD值被标示为ITD(θp),其中,θp是方位角值,p=1…P,并且P是在水平面的响应数量。
其次,分别针对源自预定义的早期部分数据集和源自所加载的早期部分数据集的响应索引p,将ITD数据拟合为正弦曲线ITDmax sinθ,其中,ITDmax是待解变量。可以通过测试从0.7到1.0毫秒(或其他时间间隔)的大量(例如,100)ITDmax值,并测试哪个值提供以下最小差异e来直接执行拟合。
可以从源自预定义数据集的索引p估计ITDmax,并且结果是ITDmax,pre,还可以从源自所加载的数据集的索引p估计ITDmax,并且结果是ITDmax,loaded。在图7中,示出了将正弦曲线(虚线)拟合到示例ITD数据(被示为圆圈)的两个示例。
第三,找到ITD缩放项为:
ITDscale=ITDmax,loaded-ITDmax,pre
第四,至少在低频范围(例如,最高1.5kHz)通过下式来更新在经组合的数据处的源自预定义的早期部分数据集的那些响应:
在上面的示例中,水平响应用于确定ITD并找到ITDmax。在一些实施例中,例如,当响应不在水平面中时(而是例如在均匀球面分布中),则可以选择所有响应或在某个仰角范围的响应来进行ITDmax确定。进而,例如可以将前面提及的误差测量修改为:
进而,可以将经组合的早期部分渲染数据输出到早期部分渲染器307。
在一些实施例中,即使使用HRTF″(b,ch)表示,响应也可以不是无回声的,但可以对应于BRIR响应的早期部分。
在一些实施例中,合成处理器123包括晚期部分渲染数据组合器305。晚期部分渲染数据组合器305可以被配置为接收预定义的晚期部分数据392和所加载的晚期部分数据304,并生成经组合的晚期部分渲染数据312,其被输出到晚期部分渲染器309。
在一些实施例中,预定义和所加载的晚期部分渲染数据(当它们存在时)包括基于BRIR的晚期部分窗口化响应。在这种实施例中,晚期部分渲染数据组合器305可以被配置为:
首先确定是否存在所加载的晚期部分数据304。
如果存在所加载的晚期部分数据304,则将所加载的晚期部分数据304直接用作经组合的晚期部分渲染数据312。作为示例,所有可用响应都被转发到晚期部分渲染器309,其进而将决定如何使用这些响应。在一些实施例中,这些响应的子集可以被选择(例如,一个响应对朝向左,并且另一个响应对朝向右),并被用作经组合的晚期部分渲染数据312并被转发到晚期部分渲染器309。
如果所加载的晚期部分数据304不存在但预定义的晚期部分数据392存在,则将预定义的晚期部分数据用作经组合的晚期部分渲染数据312。然而,在这种情况下,对经组合的晚期部分渲染数据312部分应用均衡。例如可以通过下式在频带中获得均衡增益:
例如可以通过对经组合的晚期部分渲染数据312进行频率变换、在频域应用均衡增益、以及将结果逆变换回时域来应用均衡增益。
如果所加载的晚期部分数据304和预定义的晚期部分数据392都不存在,则经组合的晚期部分渲染数据312仅是晚期混响数据不存在的指示。如在下面进一步描述的,当实现晚期部分渲染时,这将在晚期部分渲染器309处触发默认晚期部分渲染过程。
进而,经组合的晚期部分渲染数据312被提供给晚期部分渲染器309。
在一些实施例中,合成处理器123包括渲染器,其可以被划分成早期部分渲染器307和晚期部分渲染器309。早期部分渲染器307关于图8被进一步详细示出。早期部分渲染器307被配置为接收传输音频信号122、空间元数据124、经组合的早期部分渲染数据306,并生成合适的双耳早期部分信号308给组合器311。
在一些实施例中,在图8中进一步详细示出的早期部分渲染器307包括时频变换器801。时频变换器801被配置为接收(时域)传输音频信号122并将它们转换到时频域。合适的变换例如包括短时傅里叶变换(STFT)和复合调制正交镜像滤波器组(QMF)。所得到的信号可以被标示为xi(b,n),其中,i是通道索引,b是时频变换的频率仓索引,n是时间索引。时频信号例如在此以向量形式被表示为(例如,对于两个通道,该向量形式是):
进而,可以在时频域内并在频带上实现以下处理操作。频带可以是所应用的时频变换器(滤波器组)的一个或多个频率仓(单独的频率分量)。在一些实施例中,频带可以近似于感知相关的分辨率(诸如Bark频带),其在低频比在高频在频谱上更具选择性。可替代地,在一些实现中,频带可以对应于频率仓。频带通常是那些(或近似那些)空间元数据已由分析处理器确定的频带。每个频带k可以依据最低频率仓blow(k)和最高频率仓bhigh(k)来定义。
在一些实施例中,时频传输信号802可以被提供给协方差矩阵估计器807和混合器811。
在一些实施例中,早期部分渲染器307包括协方差矩阵估计器807。其被配置为接收时频域传输信号802,并估计这些时频传输信号的协方差矩阵及它们的总能量估计(在频带中)。例如,在一些实施例中,协方差矩阵可以被估计为:
其中,上标H标示共轭转置。该协方差矩阵的估计可以涉及在时间上进行平均,诸如在若干时间索引n上的FIR平均或IIR平均。所估计的协方差矩阵810可以被输出到混合规则确定器809。
协方差矩阵估计器807还可以被配置为生成总能量估计E(k,n)即Cx(k,n)的对角线值之和,并将该总能量估计提供给目标协方差矩阵确定器805。
在一些实施例中,早期部分渲染器307包括HRTF确定器833。HRTF确定器833可以接收经组合的早期部分渲染数据306,其是合适密集的一组HRTF。该HRTF确定器被配置为针对角度θ(k,n)和频带k,确定2x1复合值的头部相关传递函数(HRTF)h(θ(k,n),k)。在一些实施例中,HRTF确定器833被配置为接收从其获得角度θ(k,n)的空间元数据124,并确定用于输出HRTF数据336的HRTF。
例如,HRTF确定器833可以确定在频带k的中频处的HRTF。在其中涉及收听者头部定向跟踪的情况下,可以在获得HRTF之前修改方向参数θ(k,n)以说明当前的头部定向。在一些实施例中,HRTF确定器833可以针对每个频带k确定扩散场协方差矩阵,其例如可以通过采用均匀分布的一组方向θd(其中,d=1..D)并通过将该扩散场协方差矩阵估计为
基于经组合的部分渲染数据306来制定。该扩散场协方差矩阵可以被提供为输出HRTF数据336的一部分(除了所确定的HRTF之外)。
HRTF确定器833可以通过使用任何合适的方法来应用HRTF的插值(在确定用于方向θ(k,n)的HRTF时)。例如,在一些实施例中,一组HRTF被分解成作为频率函数的耳间电平差和左右耳的能量。进而,当需要在给定角度的HRTF时,会在该HRTF组找到最接近的现有数据点,并且在给定角度的延迟和能量被插值。进而,这些能量和延迟可以被转换为要使用的复乘数。
在一些实施例中,通过将HRTF数据集转换成频带中的一组球面谐波波束成形矩阵来对HRTF进行插值。进而,可以通过以下操作来确定针对频率的针对任何角度的HRTF:制定针对该角度的面谐波函数权重向量,并将该向量与该频率的波束成形矩阵相乘。结果同样是2x1HRTF向量。
在一些实施例中,HRTF确定器833简单地从可用HRTF数据点中选择最接近的HRTF。
在一些实施例中,早期部分渲染器307包括目标协方差矩阵确定器805。目标协方差矩阵确定器805被配置为接收空间元数据124,其在该示例中可以包括至少一个方向参数θ(k,n)和至少一个直接对总能量比参数r(k,n)、总能量估计E(k,n)808、以及由HRTFsh(θ(k,n),k)和扩散场协方差矩阵CD(k)组成的HRTF数据336。进而,协方差矩阵确定器805被配置为基于空间元数据124、数据306和总能量估计808来确定目标协方差矩阵806。例如,目标协方差矩阵确定器805可以通过下式来制定目标协方差矩阵。
Cy(k,n)=E(k,n)r(k,n)h(θ(k,n),k)hH(θ(k,n),k)+E(k,n)(1-r(k,n))CD(k)
进而,目标协方差矩阵Cy(k,n)806可以被提供给混合规则确定器809。
在一些实施例中,早期部分渲染器307包括混合规则确定器809。混合规则确定器809被配置为接收目标协方差矩阵806和所估计的协方差矩阵810。混合规则确定器809被配置为基于目标协方差矩阵Cy(k,n)806和所测量的协方差矩阵Cx(k,n)810来生成混合矩阵M(k,n)812。
在一些实施例中,混合矩阵是基于在J Vilkamo,TA Kuntz的“用于空间音频的时频处理的优化协方差域框架(Optimized covariance domain framework fortime–frequency processing of spatial audio)”(音频工程学会期刊,第61卷,第6期(2013):第403-411页)中描述的方法而生成的。
综上所述,可以提供混合矩阵M(k,n),当被应用于具有协方差矩阵Cx(k,n)的信号时,它以最小二乘优化的方式产生具有协方差矩阵Cy(k,n)的信号。矩阵Q引导这种混合中的信号内容,并且在此示例中,矩阵就是单位矩阵,因为经处理的左右信号应尽可能地类似于原始的左右信号。换句话说,设计是在获得用于经处理的输出的Cy(k,n)的同时最小地更改信号。针对每个频带k制定混合矩阵M(k,n)并将其提供给混合器811。在其中涉及头部跟踪的一些实施例中,矩阵Q可以基于头部定向进行调整。例如,当用户旋转180度时,矩阵Q可以在对角线处为0,在非对角线处为1。这意味着在实践中,左输出通道应尽可能地类似于原始的右通道(在头部转动180度的情况下),反之亦然。
在一些实施例中,早期部分渲染器307包括混合器811。混合器811接收时频音频信号802和混合矩阵812。混合器811被配置为处理每个频率仓b中的时频音频信号(输入信号)以生成两个经处理的(早期部分)时频信号814。这例如可以基于下面的表达式来形成:
其中,频带k是仓b所在的频带。
上述过程假定输入信号x(b,n)在它们之间具有合适的不相干性,以渲染具有期望的目标协方差矩阵特性的输出信号y(b,n)。在某些情况下,例如,当只有单个通道传输信号或者信号以其他方式高度相关时,输入信号不具有合适的通道间不相干性。因此,在一些实施例中,实现去相关操作以基于x(b,n)来生成去相关信号,并将这些去相关信号混合到特定的残差信号中,该残差信号被添加到上式中的信号y(b,n)中。获得这种残差信号的过程是已知的,并且例如已在上述参考文章中进行了描述。
经处理的双耳(早期部分)时频信号y(b,n)814被提供给逆T/F变换器813。
在一些实施例中,早期部分渲染器307包括逆T/F变换器813,T/F变换器813被配置为接收双耳(早期部分)时频信号y(b,n)814并应用逆时频变换,该逆时频变换与由T/F变换器801所应用的时频变换相对应。逆T/F变换器813的输出是双耳(早期部分)信号308,其被传递给组合器311(诸如图3中所示)。
当经组合的晚期部分渲染数据312仅是晚期部分响应不存在的指示时,晚期部分渲染器309被配置为使用默认双耳晚期部分响应来生成双耳晚期部分信号310。例如,根据对应于典型收听房间的预定义设置,晚期部分渲染器309可以生成一对经处理为具有双耳扩散场耳间相关性以及衰减时间和频谱的白噪声响应。前面提及的参数中的每一个都可以被定义为频率函数。在一些实施例中,这些设置可以是用户可定义的。
在一些实施例中,晚期部分渲染器309还可以接收指示,该指示确定是否应渲染晚期部分渲染。如果不需要晚期部分渲染,则晚期部分渲染器309不提供输出。如果需要晚期部分渲染,则晚期部分渲染器309被配置为根据合适的方法来生成并添加混响。
例如,在一些实施例中,应用卷积器以生成晚期部分双耳输出。已知若干信号处理结构可执行卷积。可以使用FFT卷积或部分FFT卷积来有效地应用卷积,例如,使用Gardner,William G.的“无输入/输出延迟的有效卷积(Efficient convolution without input/output delay)”(音频工程学会第97届会议,音频工程学会,1994年)。
在一些实施例中,晚期部分渲染器309可以(从晚期部分渲染数据组合器305)接收来自许多方向的晚期部分BRIR响应。至少以下用于选择用于渲染的BRIR对的过程是一个选项。例如,在一些实施例中,将传输音频信号相加到单个通道以用一对混响响应进行处理。由于在典型的一组BRIR中存在来自若干方向的响应,因此,可以将响应选择为该组中的响应对之一,诸如中央前方BRIR尾部(center front BRIR tail)。混响响应也可以是基于来自多个方向的BRIR的经组合(例如,平均)响应。在一些实施例中,传输音频通道(例如,两个通道)是用不同的混响响应对来处理的。将卷积的结果相加在一起(分别用于左耳和右耳输出)以获得双通道双耳晚期部分输出。在这个两个传输通道的示例中,左侧传输信号的混响响应例如可以从90度左侧BRIR(或最接近的可用响应)中选择,并相应地应用于右侧。在这种情况下,混响响应也可以是基于来自多个方向的BRIR的经组合(例如,平均)响应。
进而,双耳晚期信号可以被提供给组合器311块。
在一些实施例中,合成处理器可以包括组合器311,其被配置为接收来自早期部分渲染器307的双耳早期部分信号308和来自晚期部分渲染器309的双耳晚期部分信号310,并(分别针对左右通道)将它们组合或相加在一起。该信号可以在耳机上再现。
关于图4,示出了示出合成处理器的操作的流程图。
如图4中步骤401所示,该流程图示出了接收诸如传输音频信号、空间元数据、以及所加载的双耳渲染数据集之类的输入的操作。
此外,如图4中步骤403所示,该方法包括从所加载的双耳渲染数据集确定早期/晚期部分渲染数据集。
如图4中步骤405所示,基于所确定的所加载的早期部分渲染数据和预定早期部分渲染数据,生成早期部分渲染数据。
如图4中步骤406所示,基于所确定的所加载的晚期部分渲染数据和预定晚期部分渲染数据,生成晚期部分渲染数据。
如图4中步骤407所示,可以进一步存在基于早期部分渲染数据以及传输音频信号和空间元数据的双耳渲染。
另外,如图4中步骤408所示,可以存在基于晚期部分渲染数据和传输音频信号(以及可选的晚期渲染控制信号)的双耳渲染。
进而,如图4中步骤409所示,早期和晚期渲染信号可以被组合或相加。
进而,如图4中步骤411所示,可以输出经组合的双耳音频信号。
在上文中,描述了一种示例情况,其中,双耳渲染数据集由来自一组方向的响应组成。虽然这是一种典型形式,但双耳数据也可以采用其他形式。例如,渲染数据(预定义和/或所加载的)可以是在球面谐波域中。例如,已知可以将HRTF数据集近似为滤波器或复合值球面谐波系数。当用这种滤波器或增益来处理Ambisonic信号时,结果是经双耳化的音频信号。在这种实施例中,当所加载的双耳渲染数据是在球面谐波域中时,它不对应于任何离散的一组方向。换句话说,密度的考虑不再相关。然而,如果所加载的渲染数据集存在其他质量问题(例如,噪声),则可以将其替换为预定义的渲染数据,并且可以使用如先前所描述的感知匹配过程。
在一些实施例中,预定义的早期部分渲染数据被存储在球面谐波域(例如,3阶或4阶Ambisonic域)中。这是因为这种数据集既可以用于将Ambisonic音频渲染为双耳输出,也可以用于确定针对任何角度的HRTF。当用户进而将个性化的HRIR或BRIR加载到系统(例如,稀疏集)时,可以采用以下步骤来确定经组合的早期部分渲染数据:
首先,基于预定义的(球面谐波域)渲染数据,确定一组HRTF,例如,球面等间距HRTF数据集。
其次,执行如上所述的组合和感知匹配过程。
第三,例如通过找到在最小二乘意义上近似于经组合的早期部分渲染数据集的这种球面谐波增益来将所得到的经组合的早期部分渲染数据集转换回球面谐波域。
渲染数据可以以参数化形式被存储,即,不作为任何域中的响应被存储。例如,它可以以在一组方向上的左右耳能量和耳间时间差的形式被存储。在这种情况下,参数化形式可以直接被转换成HRTF,并且可以应用所有先前例示的过程。晚期部分渲染数据也可以被参数化,例如,被参数化为作为频率函数的混响时间和频谱。
即使所加载的数据集是在空间上稀疏的,如本文详细讨论的构思也示出如何生成密集的数据集。在渲染阶段,当需要将声音渲染到特定角度时,系统可以执行以下操作之一:
从经组合的早期数据集中选择最接近的响应(如果已生成特别密集的早期数据集);
例如使用任何已知方法来在最接近的数据点之间进行插值;
基于最接近的数据点,制定响应的加权平均值(在时域或频域中),就像执行幅度平移一样;
例如通过分别对能量和ITD进行插值,以参数化方式在数据点之间进行插值;以及
使用球面谐波域(SHD)中的早期渲染数据,这本质上也意味着插值到任何方向。
在一些实施例中,利用本发明创建的经组合的双耳渲染数据集可以在任何域中被存储或使用,诸如在球面谐波域(SHD)、时域、频域、和/或参数化域中。
在本文讨论的示例中,描述了晚期部分渲染是基于晚期部分响应和卷积的示例情况。然而,存在许多现有的混响器结构,其可以以更有效的方式执行混响,例如:
可以实现反馈延迟网络(FDN)。FDN是一种混响器信号处理结构,其在多个互连反馈回路中循环信号并输出晚期混响;
Vilkamo,J.、Neugebauer,B.和Plogsties,J.在“稀疏频域混响器(Sparsefrequency-domain reverberator)”(音频工程学会期刊,第59卷,第12期,第936-943页,2012年)中的混响器使用比FDN的更简单的环路结构,但利用大量的频带。
可以产生两个基本上不相干的混响响应(例如,上述任何一个)的任何混响器都可以用于生成双耳晚期部分信号。通常,混响器结构生成基本上不相干的信号,进而这些信号依据频率而被混合以获得在混响声场中对于人类来说很自然的耳间相关性。如果晚期部分渲染数据采用BRIR晚期部分响应的形式,则可以利用一些混响器(例如,上述出版物中的混响器)来调整混响参数以近似BRIR晚期部分响应。这通常意味着将混响时间设置为混响器的频率和频谱增益的函数,以匹配BRIR晚期部分响应的对应特征。
在一些实施例中,经组合的晚期部分渲染数据通常采用与晚期部分渲染器使用的特定信号处理结构相关的形式,例如:
当使用卷积时,晚期部分渲染数据采用响应的形式;
当使用如上所述的混响器时,晚期部分渲染数据采用配置参数的形式,诸如作为频率函数的混响时间。如果用户加载在渲染中要使用的BRIR数据集,则可以从混响响应中估计这种参数。
在一些实施例中,可以在空间音频渲染期间执行感知匹配过程,而不是在数据集上执行它。
在此示例中,混合矩阵是基于输入是双通道传输音频信号来定义的。然而,这些方法可以适于针对任何数量的传输音频通道的实施例。
上面描述了如何使用预定义的双耳渲染数据集以及所加载的双耳渲染数据集。在一些实施例中,可以通过使用高质量的预定义的双耳渲染数据集,根据所加载的双耳渲染数据集来提高双耳渲染的再现质量。
尽管前文描述可暗示其中处理发生在单个处理实体上的情况(处理双耳渲染数据集的加载和双耳音频输出的渲染),但是可以理解,处理可以发生在多个处理实体上。例如,处理可以发生在不同的软件模块和/或设备上,因为一些处理是离线的而一些处理可以是实时的。
因此,处理步骤可以分布到多于一个的不同的设备或软件模块对于本领域技术人员是显而易见的。在一个实际示例中,可以在计算机上运行的第一程序中实现一些处理步骤,而处理的其他部分可以在另一程序(例如,在单独的计算机或移动电话上运行的音频处理库)中实现。
与双耳渲染数据集的分析有关的步骤可以在能够进行数据可视化并因此能够检测任何响应特征估计中的潜在错误的任何合适平台上执行。
作为实际示例,当使用合适的程序执行部分处理时,所涉及的步骤可以包括以下操作:一组双耳房间脉冲响应(BRIR)被加载到该程序中;在该程序中,BRIR数据集被划分成早期和晚期;在该程序中,早期和晚期部分的频谱信息被估计;在该程序中,作为频率函数的混响时间(例如,BRIR集的平均值)被估计;频谱信息和混响时间从该程序被输出并被合并到音频处理软件模块,其中,该软件模块具有预定义的HRTF数据集和可配置的混响器;该音频处理软件被使能基于该预定义的HRTF数据集,使用频谱信息来更改处理的频谱;该音频处理软件被使能使用混响时间(和频谱信息)来配置混响器;该软件例如在移动电话上被编译并运行,因此,它被使能可以利用房间效应来渲染双耳音频,其中,该房间效应是基于所加载的BRIR数据集,然而,也可以通过使用预定义的HRTF数据集。
在上文中,“经组合的双耳数据集”因此由预定义的HRTF数据集、基于所加载的BRIR数据集而获取的频谱信息、以及基于所加载的BRIR数据集而获取的混响参数组成。如由上面这个示例所示,可以理解,本领域技术人员能够以各种方式将处理分发到各种平台。
关于图9,示出了可以被用作如上所述的系统的任何装置部件的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1700是移动设备、用户设备、平板计算机、计算机、音频播放装置等。该设备例如可以被配置为如图1中所示地实现编码器/分析器部分101或解码器/合成器部分105,或者将其实现为或如上所描述的任何功能块。
在一些实施例中,设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行各种程序代码,诸如本文所述的方法。
在一些实施例中,设备1700包括存储器1711。在一些实施例中,至少一个处理器1707被耦接到存储器1711。存储器1711可以是任何合适的存储部件。在一些实施例中,存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1711还可以包括用于存储数据(例如根据本文所述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要,被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦接而被处理器1707取得。
在一些实施例中,设备1700包括用户接口1705。在一些实施例中,用户接口1705可以被耦接到处理器1707。在一些实施例中,处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中,用户接口1705可以使得用户能够例如经由小键盘向设备1700输入命令。在一些实施例中,用户接口1705可以使得用户能够从设备1700获得信息。例如,用户接口1705可以包括被配置为向用户显示来自设备1700的信息的显示器。在一些实施例中,用户接口1705可以包括触摸屏或触摸接口,其既能够使信息被输入到设备1700中,又能够向设备1700的用户显示信息。在一些实施例中,用户接口1705可以是用于通信的用户接口。
在一些实施例中,设备1700包括输入/输出端口1709。在一些实施例中,输入/输出端口1709包括收发机。在这种实施例中,收发机可以被耦接到处理器1707,并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦接来与其他电子设备或装置通信。
收发机可以通过任何合适的已知通信协议来与其他装置通信。例如,在一些实施例中,收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。
收发机输入/输出端口1709可以被配置为接收信号。
在一些实施例中,设备1700可以被用作合成设备的至少一部分。输入/输出端口1709可以被耦接到头戴式耳机(其可以是头部跟踪或非跟踪的头戴式耳机)等。
通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件来实现,而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示,但是众所周知地,本文所描述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现,或者由硬件、或者由软件和硬件的组合来执行。此外,就此而言,应当注意,如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上,诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。
可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序,诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序,使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。
前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而,当结合附图和所附权利要求书阅读时,鉴于以上描述,各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。
Claims (22)
1.一种装置,包括被配置为执行以下操作的部件:
获得空间音频信号,所述空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的空间元数据;
获得与双耳渲染有关的至少一个数据集;
获得与双耳渲染有关的至少一个预定义数据集;以及
基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的组合以及所述空间音频信号,生成双耳音频信号。
2.根据权利要求1所述的装置,其中,与双耳渲染有关的所述至少一个数据集包括以下中的至少一个:
一组双耳房间脉冲响应或传递函数;
一组头部相关脉冲响应或传递函数;
基于双耳房间脉冲响应或传递函数的数据集;以及
基于头部相关脉冲响应或传递函数的数据集。
3.根据权利要求1和2中任一项所述的装置,其中,与双耳渲染有关的所述至少一个预定义数据集包括以下中的至少一个:
一组预定义的双耳房间脉冲响应或传递函数;
一组预定义的头部相关脉冲响应或传递函数;
基于双耳房间脉冲响应或传递函数的预定义数据集;以及
基于所捕获的头部相关脉冲响应或传递函数的预定义数据集。
4.根据权利要求1至3中任一项所述的装置,其中,所述部件进一步被配置为:
将所述至少一个数据集划分成第一部分和第二部分,其中,所述部件被配置为:生成所述至少一个数据集的所述第一部分与所述至少一个预定义数据集的第一部分组合。
5.根据权利要求4所述的装置,其中,被配置为基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的组合以及所述空间音频信号来生成双耳音频信号的所述部件被配置为:基于所述至少一个数据集的所述第一部分与所述至少一个预定义数据集的所述组合以及所述空间音频信号,生成第一部分双耳音频信号。
6.根据权利要求4和5中任一项所述的装置,其中,被配置为生成所述至少一个数据集和所述至少一个预定义数据集的至少一部分的组合的所述部件进一步被配置为:生成第二部分组合,所述第二部分组合包括以下中的一个:
所述至少一个数据集的所述第二部分与所述至少一个预定义数据集的至少一部分的组合;
所述至少一个预定义数据集的至少一部分,其中,所述至少一个数据集的所述第二部分是空集;以及
所述至少一个预定义数据集的至少一部分,其中,所述至少一个数据集的所述第二部分被确定为基本上有错误、是噪声、或者被损坏。
7.根据权利要求6所述的装置,其中,被配置为基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合以及所述空间音频信号来生成双耳音频信号的所述部件被配置为:基于所述第二部分组合和所述空间音频信号,生成第二部分双耳音频信号。
8.根据从属于权利要求5的权利要求7所述的装置,其中,被配置为基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合以及所述空间音频信号来生成双耳音频信号的所述部件被配置为:组合所述第一部分双耳音频信号与所述第二部分双耳音频信号。
9.根据权利要求4至8中任一项所述的装置,其中,被配置为将所述至少一个数据集划分成第一部分和第二部分的所述部件被配置为:
基于与所确定的最大能量的时间的偏移时间以及交叉时间,生成具有滚降函数的第一窗口函数,其中,所述第一窗口函数被应用于所述至少一个数据集以生成所述第一部分;以及
基于与所确定的最大能量的时间的所述偏移时间以及所述交叉时间,生成具有滚升函数的第二窗口函数,其中,所述第二窗口函数被应用于所述至少一个数据集以生成所述第二部分。
10.根据权利要求1至9中任一项所述的装置,其中,所述部件被配置为:生成所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合。
11.根据权利要求10所述的装置,其中,被配置为生成所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合的所述部件被配置为:
基于选择所述至少一个数据集,生成初始组合数据集;
确定所述初始组合数据集内的由所述初始组合数据集的至少一对相邻元素所定义的至少一个间隙,其中所述至少一对相邻元素的方向差异大于所确定的阈值;以及
针对每个间隙:
在所述至少一个预定义数据集内识别所述至少一个预定义集的方向位于所述间隙内的元素;以及
组合所述至少一个预定义数据集的所识别的元素与所述初始组合数据集。
12.根据权利要求10和11中任一项所述的装置,其中,所述所确定的阈值包括:
方位角阈值;以及
仰角阈值。
13.根据权利要求1至12中任一项所述的装置,其中,所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合是在方向范围上被定义的,并且其中,在所述方向范围上,所述组合不包括大于所定义的阈值的定向间隙。
14.根据权利要求1至12中任一项所述的装置,其中,所述至少一个数据集的至少一部分是所述至少一个数据集的没有以下中的至少一个的元素:
基本错误;
基本噪音;以及
基本损坏。
15.根据权利要求1至14中任一项所述的装置,其中,被配置为获得包括至少一个音频信号和与所述至少一个音频信号相关联的空间元数据的空间音频信号的所述部件被配置为:从另一装置接收所述空间音频信号。
16.根据权利要求1至15中任一项所述的装置,其中,被配置为获得与双耳渲染有关的至少一个数据集的所述部件被配置为:从另一装置接收所述至少一个数据集。
17.一种方法,包括:
获得空间音频信号,所述空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的空间元数据;
获得与双耳渲染有关的至少一个数据集;
获得与双耳渲染有关的至少一个预定义数据集;以及
基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的组合以及所述空间音频信号,生成双耳音频信号。
18.根据权利要求17所述的方法,其中,与双耳渲染有关的所述至少一个数据集包括以下中的至少一个:
一组双耳房间脉冲响应或传递函数;
一组头部相关脉冲响应或传递函数;
基于双耳房间脉冲响应或传递函数的数据集;以及
基于头部相关脉冲响应或传递函数的数据集。
19.根据权利要求17和18中任一项所述的方法,其中,与双耳渲染有关的所述至少一个预定义数据集包括以下中的至少一个:
一组预定义的双耳房间脉冲响应或传递函数;
一组预定义的头部相关脉冲响应或传递函数;
基于双耳房间脉冲响应或传递函数的预定义数据集;以及
基于所捕获的头部相关脉冲响应或传递函数的预定义数据集。
20.根据权利要求17至19中任一项所述的方法,其中,所述方法进一步包括:
将所述至少一个数据集划分成第一部分和第二部分;以及
生成所述至少一个数据集的所述第一部分与所述至少一个预定义数据集的第一部分组合。
21.根据权利要求20所述的方法,其中,基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的所述组合以及所述空间音频信号来生成双耳音频信号包括:基于所述至少一个数据集的所述第一部分与所述至少一个预定义数据集的所述组合以及所述空间音频信号,生成第一部分双耳音频信号。
22.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
获得空间音频信号,所述空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的空间元数据;
获得与双耳渲染有关的至少一个数据集;
获得与双耳渲染有关的至少一个预定义数据集;以及
基于所述至少一个数据集和所述至少一个预定义数据集的至少一部分的组合以及所述空间音频信号,生成双耳音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1914716.4A GB2588171A (en) | 2019-10-11 | 2019-10-11 | Spatial audio representation and rendering |
GB1914716.4 | 2019-10-11 | ||
PCT/FI2020/050641 WO2021069794A1 (en) | 2019-10-11 | 2020-09-29 | Spatial audio representation and rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114556973A true CN114556973A (zh) | 2022-05-27 |
Family
ID=68619568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080070895.XA Pending CN114556973A (zh) | 2019-10-11 | 2020-09-29 | 空间音频表示和渲染 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220369061A1 (zh) |
EP (1) | EP4046399A4 (zh) |
JP (1) | JP2022553913A (zh) |
CN (1) | CN114556973A (zh) |
GB (1) | GB2588171A (zh) |
WO (1) | WO2021069794A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2609667A (en) * | 2021-08-13 | 2023-02-15 | British Broadcasting Corp | Audio rendering |
GB2618983A (en) * | 2022-02-24 | 2023-11-29 | Nokia Technologies Oy | Reverberation level compensation |
GB2616280A (en) * | 2022-03-02 | 2023-09-06 | Nokia Technologies Oy | Spatial rendering of reverberation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1685762A (zh) * | 2002-09-23 | 2005-10-19 | 皇家飞利浦电子股份有限公司 | 声音重现系统、程序和数据载体 |
CN103329576A (zh) * | 2011-01-05 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 音频系统及其操作方法 |
CN104904239A (zh) * | 2013-01-15 | 2015-09-09 | 皇家飞利浦有限公司 | 双耳音频处理 |
CN109644314A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 在数字音频信号处理双耳渲染环境中产生头戴式耳机驱动信号 |
CN110021306A (zh) * | 2018-01-07 | 2019-07-16 | 创新科技有限公司 | 用于利用头部跟踪生成自定义空间音频的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050069143A1 (en) * | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
CN104919820B (zh) * | 2013-01-17 | 2017-04-26 | 皇家飞利浦有限公司 | 双耳音频处理 |
GB201609089D0 (en) * | 2016-05-24 | 2016-07-06 | Smyth Stephen M F | Improving the sound quality of virtualisation |
JP7038725B2 (ja) * | 2017-02-10 | 2022-03-18 | ガウディオ・ラボ・インコーポレイテッド | オーディオ信号処理方法及び装置 |
WO2019054559A1 (ko) * | 2017-09-15 | 2019-03-21 | 엘지전자 주식회사 | Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치 |
US10609504B2 (en) * | 2017-12-21 | 2020-03-31 | Gaudi Audio Lab, Inc. | Audio signal processing method and apparatus for binaural rendering using phase response characteristics |
-
2019
- 2019-10-11 GB GB1914716.4A patent/GB2588171A/en not_active Withdrawn
-
2020
- 2020-09-29 WO PCT/FI2020/050641 patent/WO2021069794A1/en unknown
- 2020-09-29 US US17/767,265 patent/US20220369061A1/en active Pending
- 2020-09-29 JP JP2022521423A patent/JP2022553913A/ja active Pending
- 2020-09-29 EP EP20874561.2A patent/EP4046399A4/en active Pending
- 2020-09-29 CN CN202080070895.XA patent/CN114556973A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1685762A (zh) * | 2002-09-23 | 2005-10-19 | 皇家飞利浦电子股份有限公司 | 声音重现系统、程序和数据载体 |
CN103329576A (zh) * | 2011-01-05 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 音频系统及其操作方法 |
CN104904239A (zh) * | 2013-01-15 | 2015-09-09 | 皇家飞利浦有限公司 | 双耳音频处理 |
CN109644314A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 在数字音频信号处理双耳渲染环境中产生头戴式耳机驱动信号 |
CN110021306A (zh) * | 2018-01-07 | 2019-07-16 | 创新科技有限公司 | 用于利用头部跟踪生成自定义空间音频的方法 |
Also Published As
Publication number | Publication date |
---|---|
GB201914716D0 (en) | 2019-11-27 |
EP4046399A4 (en) | 2023-10-25 |
EP4046399A1 (en) | 2022-08-24 |
WO2021069794A1 (en) | 2021-04-15 |
JP2022553913A (ja) | 2022-12-27 |
GB2588171A (en) | 2021-04-21 |
US20220369061A1 (en) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
US11832080B2 (en) | Spatial audio parameters and associated spatial audio playback | |
US20220369061A1 (en) | Spatial Audio Representation and Rendering | |
CN112567765B (zh) | 空间音频捕获、传输和再现 | |
JP2024023412A (ja) | 音場関連のレンダリング | |
GB2576769A (en) | Spatial parameter signalling | |
US20240089692A1 (en) | Spatial Audio Representation and Rendering | |
US20230199417A1 (en) | Spatial Audio Representation and Rendering | |
US20230274747A1 (en) | Stereo-based immersive coding | |
WO2022258876A1 (en) | Parametric spatial audio rendering | |
WO2023156176A1 (en) | Parametric spatial audio rendering | |
WO2021105550A1 (en) | Converting binaural signals to stereo audio signals | |
CN116547749A (zh) | 音频参数的量化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |