CN114009065A - 声场相关渲染 - Google Patents
声场相关渲染 Download PDFInfo
- Publication number
- CN114009065A CN114009065A CN202080043343.XA CN202080043343A CN114009065A CN 114009065 A CN114009065 A CN 114009065A CN 202080043343 A CN202080043343 A CN 202080043343A CN 114009065 A CN114009065 A CN 114009065A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- focus
- spatial audio
- spatial
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001419 dependent effect Effects 0.000 title claims description 9
- 238000009877 rendering Methods 0.000 title description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 412
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 39
- 230000003595 spectral effect Effects 0.000 claims description 24
- 230000003247 decreasing effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 description 24
- 230000000007 visual effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000004091 panning Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000000670 limiting effect Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种用于空间音频再现的装置,包括被配置为执行以下操作的部件:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状(103);处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状(103)内的一部分(105)至少部分地相对于空间音频信号的在聚焦形状(103)之外的其他部分(151、153、155)的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状(103)内的一部分(105)至少部分地相对于空间音频信号的在聚焦形状(103)之外的其他部分(151、153、155)的相对加重。
Description
技术领域
本申请涉及用于与声场相关的音频表示和渲染的装置和方法,但非排他地涉及用于音频解码器的音频表示的装置和方法。
背景技术
用多个观看方向呈现媒体的空间音频回放是已知的。这种回放的示例包括这种媒体的观看视觉内容,包括用以下方式回放:在具有(至少)头部定向跟踪的头戴式显示器(或头戴式电话)上;或者在非头戴式的电话屏幕上,其中,可以通过改变电话的位置/定向或通过任何用户接口手势来跟踪观看方向;或者在周围的屏幕上。
与“具有多个观看方向的媒体”相关联的视频例如可以是360度视频、180度视频、或视角比传统视频宽得多的其他视频。传统视频是指通常在屏幕上整体显示的视频内容,而没有改变观看方向的选项(或任何特定需要)。
与具有多个观看方向的视频相关联的音频可以在耳机上呈现,其中,观看方向被跟踪并影响空间音频回放;或者可以用环绕扬声器设置来呈现。
与具有多个观看方向的视频相关联的空间音频可以源自从麦克风阵列(例如,被安装在类似OZO的VR相机或手持式移动设备上的阵列)捕获的空间音频,或者源自诸如录音室混音之类的其他源。音频内容也可以是诸如麦克风捕获的声音和所添加的解说员轨道之类的若干内容类型的混合。
与具有多个观看方向的视频相关联的空间音频可以采用各种形式,例如:由球面谐波音频信号分量组成的全景环绕声(Ambisonic)信号(任意阶)。球面谐波可以被认为是一组空间选择性波束信号。当前例如在YouTube 360VR视频服务中使用Ambisonics。Ambisonics的优势在于它是一种简单且定义明确的信号表示;环绕扬声器信号,例如5.1。目前,典型电影的空间音频是以这种形式传送的。环绕扬声器信号的优势是简单性和传统兼容性。类似于环绕扬声器信号格式的一些音频格式包括音频对象,其可以被视为具有时变位置的音频通道。位置可以通知音频对象的方向和距离两者,或者方向;参数化空间音频,诸如两个音频通道音频信号和感知相关频带中的相关联的空间元数据。一些最先进的音频编码方法和空间音频捕获方法应用了这种信号表示。空间元数据在本质上确定了应如何在接收器端空间再现音频信号(例如,到在不同频率的那些方向)。参数化空间音频的优势在于其多功能性、质量、以及使用低比特率编码的能力。
发明内容
根据第一方面,提供了一种装置,其包括被配置为执行以下操作的部件:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状(focus shape);处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重(emphasis)。
至少一个聚焦参数可以进一步被配置为定义聚焦量(focus amount),并且被配置为处理空间音频信号的部件可以被配置为:处理空间音频信号,以便进一步根据聚焦量,至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
被配置为处理空间音频信号的部件可以被配置为:至少部分地增大空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重,或者至少部分地减少空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
被配置为处理空间音频信号的部件可以被配置为:至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对声级。
被配置为处理空间音频信号的部件可以被配置为:根据聚焦量,至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对声级。
该部件可以被配置为:获得再现控制信息,以控制输出经处理的空间音频信号的至少一个方面,并且其中,被配置为输出经处理的空间音频信号的部件可以被配置为执行以下中的一个:根据再现控制信息,处理表示经修改的音频场景的经处理的空间音频信号以生成输出空间音频信号;在被配置为处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号并输出经处理的空间音频信号作为输出空间音频信号的部件之前,根据再现控制信息处理空间音频信号。
空间音频信号和经处理的空间音频信号可以包括相应的Ambisonic信号,并且其中,被配置为处理空间音频信号以生成经处理的空间音频信号的部件可以被配置为针对一个或多个频率子带,执行以下操作:将与空间音频信号相关联的Ambisonic信号转换成采用定义的模式的一组波束信号;基于该组波束信号、聚焦形状和聚焦量,生成一组经修改的波束信号;以及转换经修改的波束信号,以生成与经处理的空间音频信号相关联的经修改的Ambisonic信号。
定义的模式可以包括在平面上或在体积上均匀间隔的定义数量的波束。
空间音频信号和经处理的空间音频信号可以包括相应的高阶Ambisonic信号。
空间音频信号和经处理的空间音频信号可以包括任意阶的Ambisonic信号分量的子集。
空间音频信号和经处理的空间音频信号可以包括相应的参数化空间音频信号,其中,参数化空间音频信号可以包括一个或多个音频通道以及空间元数据,其中,空间元数据可以包括针对多个频率子带的相应方向指示、能量比率参数、以及可能的距离指示,其中,被配置为处理输入空间音频信号以生成经处理的空间音频信号的部件可以被配置为:针对一个或多个频率子带,基于空间元数据、聚焦形状和聚焦量,计算频谱调整因子;针对一个或多个音频通道的一个或多个频率子带应用频谱调整因子,以生成一个或多个经处理的音频通道;基于聚焦形状、聚焦量、以及空间元数据的至少一部分,计算与经处理的空间音频信号的一个或多个频率子带相关联的相应的经修改的能量比率参数;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的音频通道、经修改的能量比率参数、以及除了能量比率参数之外的空间元数据。
空间音频信号和经处理的空间音频信号可以包括多通道扬声器通道和/或音频对象通道,其中,被配置为将空间音频信号处理成经处理的空间音频信号的部件可以被配置为:基于相应的音频通道方向指示、聚焦形状和聚焦量,计算增益调整因子;对各音频通道应用增益调整因子;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的多通道扬声器音频通道和/或一个或多个经处理的音频对象通道。
多通道扬声器通道和/或音频对象通道还可以包括相应的音频通道距离指示,并且其中,计算增益调整因子可以进一步基于音频通道距离指示。
该部件可以进一步被配置为确定默认的相应的音频通道距离,并且其中,计算增益调整因子可以进一步基于音频通道距离。
被配置为定义聚焦形状的至少一个聚焦参数可以包括以下中的至少一个:聚焦方向;聚焦宽度;聚焦高度;聚焦半径;聚焦距离;聚焦深度;聚焦范围;聚焦直径;以及聚焦形状表征器。
该部件可以进一步被配置为从包括至少一个方向传感器的传感器装置和至少一个用户输入获得聚焦输入,其中,该聚焦输入可以包括:基于至少一个方向传感器方向的针对聚焦形状的聚焦方向的指示;以及基于至少一个用户输入的聚焦宽度的指示。
聚焦输入还可以包括基于至少一个用户输入的聚焦量的指示。
根据第二方面,提供了一种方法,其包括:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号在聚焦形状之外的的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
至少一个聚焦参数可以进一步被配置为定义聚焦量,并且处理空间音频信号可以包括:处理空间音频信号,以便进一步根据聚焦量,至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
处理空间音频信号可以包括:至少部分地增大空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重,或者至少部分地减少空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
处理空间音频信号可以包括:至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对声级。
处理空间音频信号可以包括::根据聚焦量,至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对声级。
该方法可以包括:获得再现控制信息,以控制输出经处理的空间音频信号的至少一个方面,并且其中,输出经处理的空间音频信号可以包括执行以下中的一个:根据再现控制信息,处理表示经修改的音频场景的经处理的空间音频信号以生成输出空间音频信号;在被配置为处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号并输出经处理的空间音频信号作为输出空间音频信号的部件之前,根据再现控制信息处理空间音频信号。
空间音频信号和经处理的空间音频信号可以包括相应的Ambisonic信号,并且其中,处理空间音频信号以生成经处理的空间音频信号可以包括针对一个或多个频率子带:将与空间音频信号相关联的Ambisonic信号转换成采用定义的模式的一组波束信号;基于该组波束信号、聚焦形状和聚焦量,生成一组经修改的波束信号;以及转换经修改的波束信号,以生成与经处理的空间音频信号相关联的经修改的Ambisonic信号。
定义的模式可以包括在平面上或在体积上均匀间隔的定义数量的波束。
空间音频信号和经处理的空间音频信号可以包括相应的高阶Ambisonic信号。
空间音频信号和经处理的空间音频信号可以包括任意阶的Ambisonic信号分量的子集。
空间音频信号和经处理的空间音频信号可以包括相应的参数化空间音频信号,其中,参数化空间音频信号可以包括一个或多个音频通道以及空间元数据,其中,空间元数据可以包括针对多个频率子带的相应方向指示、能量比率参数、以及可能的距离指示,其中,处理输入空间音频信号以生成经处理的空间音频信号可以包括:针对一个或多个频率子带,基于空间元数据、聚焦形状和聚焦量,计算频谱调整因子;针对一个或多个音频通道的一个或多个频率子带应用频谱调整因子,以生成一个或多个经处理的音频通道;基于聚焦形状、聚焦量、以及空间元数据的至少一部分,计算与经处理的空间音频信号的一个或多个频率子带相关联的相应的经修改的能量比率参数;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的音频通道、经修改的能量比率参数、以及除了能量比率参数之外的空间元数据。
空间音频信号和经处理的空间音频信号可以包括多通道扬声器通道和/或音频对象通道,其中,将空间音频信号处理成经处理的空间音频信号可以包括:基于相应的音频通道方向指示、聚焦形状和聚焦量,计算增益调整因子;对各音频通道应用增益调整因子;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的多通道扬声器音频通道和/或一个或多个经处理的音频对象通道。
多通道扬声器通道和/或音频对象通道还可以包括相应的音频通道距离指示,并且其中,计算增益调整因子可以进一步基于音频通道距离指示。
该方法还可以包括确定默认的相应的音频通道距离,并且其中,计算增益调整因子可以进一步基于音频通道距离。
被配置为定义聚焦形状的至少一个聚焦参数可以包括以下中的至少一个:聚焦方向;聚焦宽度;聚焦高度;聚焦半径;聚焦距离;聚焦深度;聚焦范围;聚焦直径;以及聚焦形状表征器。
该方法还可以包括从包括至少一个方向传感器的传感器装置和至少一个用户输入获得聚焦输入,其中,该聚焦输入可以包括:基于至少一个方向传感器方向的针对聚焦形状的聚焦方向的指示;以及基于至少一个用户输入的聚焦宽度的指示。
聚焦输入还可以包括基于至少一个用户输入的聚焦量的指示。
根据第三方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
至少一个聚焦参数可以进一步被配置为定义聚焦量,并且被使得处理空间音频信号的该装置可以被使得:处理空间音频信号,以便进一步根据聚焦量,至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
被使得处理空间音频信号的该装置可以被使得:至少部分地增大空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重,或者至少部分地减少空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
被使得处理空间音频信号的该装置可以被使得:至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对声级。
被使得处理空间音频信号的该装置可以被使得:根据聚焦量,至少部分地增大或降低空间音频信号的在聚焦形状内的一部分至少部分地相对于在聚焦形状之外的空间音频信号的其他部分的相对声级。
可以使该装置获得再现控制信息,以控制输出经处理的空间音频信号的至少一个方面,并且其中,被使得输出经处理的空间音频信号的该装置可以被使得执行以下中的一个:根据再现控制信息,处理表示经修改的音频场景的经处理的空间音频信号以生成输出空间音频信号;在被配置为处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号并输出经处理的空间音频信号作为输出空间音频信号的部件之前,根据再现控制信息处理空间音频信号。
空间音频信号和经处理的空间音频信号可以包括相应的Ambisonic信号,并且其中,被使得处理空间音频信号以生成经处理的空间音频信号的该装置可以被使得针对一个或多个频率子带,执行以下操作:将与空间音频信号相关联的Ambisonic信号转换成采用定义的模式的一组波束信号;基于该组波束信号、聚焦形状和聚焦量,生成一组经修改的波束信号;以及转换经修改的波束信号,以生成与经处理的空间音频信号相关联的经修改的Ambisonic信号。
定义的模式可以包括在平面上或在体积上均匀间隔的定义数量的波束。
空间音频信号和经处理的空间音频信号可以包括相应的高阶Ambisonic信号。
空间音频信号和经处理的空间音频信号可以包括任意阶的Ambisonic信号分量的子集。
空间音频信号和经处理的空间音频信号可以包括相应的参数化空间音频信号,其中,参数化空间音频信号可以包括一个或多个音频通道以及空间元数据,其中,空间元数据可以包括针对多个频率子带的相应方向指示、能量比率参数、以及可能的距离指示,其中,被使得处理输入空间音频信号以生成经处理的空间音频信号的该装置可以被使得:针对一个或多个频率子带,基于空间元数据、聚焦形状和聚焦量,计算频谱调整因子;针对一个或多个音频通道的一个或多个频率子带应用频谱调整因子,以生成一个或多个经处理的音频通道;基于聚焦形状、聚焦量、以及空间元数据的至少一部分,计算与经处理的空间音频信号的一个或多个频率子带相关联的相应的经修改的能量比率参数;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的音频通道、经修改的能量比率参数、以及除了能量比率参数之外的空间元数据。
空间音频信号和经处理的空间音频信号可以包括多通道扬声器通道和/或音频对象通道,其中,被使得将空间音频信号处理成经处理的空间音频信号的该装置可以被使得:基于相应的音频通道方向指示、聚焦形状和聚焦量,计算增益调整因子;对各音频通道应用增益调整因子;以及组成经处理的空间音频信号,该经处理的空间音频信号包括一个或多个经处理的多通道扬声器音频通道和/或一个或多个经处理的音频对象通道。
多通道扬声器通道和/或音频对象通道还可以包括相应的音频通道距离指示,并且其中,计算增益调整因子可以进一步基于音频通道距离指示。
可以进一步使该装置确定默认的相应的音频通道距离,并且其中计算增益调整因子可以进一步基于音频通道距离。
被配置为定义聚焦形状的至少一个聚焦参数可以包括以下中的至少一个:聚焦方向;聚焦宽度;聚焦高度;聚焦半径;聚焦距离;聚焦深度;聚焦范围;聚焦直径;以及聚焦形状表征器。
该装置可以进一步被使得从包括至少一个方向传感器的传感器装置和至少一个用户输入获得聚焦输入,其中,该聚焦输入可以包括:基于至少一个方向传感器方向的针对聚焦形状的聚焦方向的指示;以及基于至少一个用户输入的聚焦宽度的指示。
聚焦输入还可以包括基于至少一个用户输入的聚焦量的指示。
根据第四方面,提供了一种装置,包括:获得电路,被配置为获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;空间音频信号处理电路,被配置为处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出控制电路,被配置为输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
根据第五方面,提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质],这些指令用于使装置至少执行以下操作:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
根据第六方面,提供了一种非暂时性计算机可读介质,其包括用于使装置至少执行以下操作的程序指令:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
根据第七方面,提供了一种装置,其包括:用于获得获得至少一个聚焦参数的部件,其中,该至少一个聚焦参数被配置为定义聚焦形状;用于处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重的部件;以及用于输出经处理的空间音频信号的部件,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
根据第八方面,提供了一种计算机可读介质,其包括用于使装置至少执行以下操作的程序指令:获得至少一个聚焦参数,该至少一个聚焦参数被配置为定义聚焦形状;处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重;以及输出经处理的空间音频信号,其中,经修改的音频场景至少部分地使能空间音频信号的在聚焦形状内的一部分至少部分地相对于空间音频信号的在聚焦形状之外的其他部分的相对加重。
一种装置,包括用于执行如上所述的方法的动作的部件。
一种装置,被配置为执行如上所述的方法的动作。
一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
一种电子设备可以包括如本文所述的装置。
一种芯片组可以包括如本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1a和图1b示出示出了音频聚焦区或区域的示例声音场景;
图2a和图2b示意性地示出根据一些实施例的示例回放装置和用于操作回放装置的方法;
图3示出在一些实施例中应用的球面谐波模式和这些球面谐波模式的所选择子集的示意图;
图4示意性地示出与Ambisonic信号对应的波束模式以及与20度的示例聚焦方向对齐的变换后的波束信号;
图5a和图5b示意性地示出根据一些实施例的具有高阶Ambisonic音频信号输入的如图2a中所示的示例聚焦处理器和操作该示例聚焦处理器的方法;
图6示意性地示出示例的20度的聚焦方向和45度的聚焦宽度的处理的可视化;
图7示意性地示出另一示例的负90度的聚焦方向和90度的聚焦宽度的处理的可视化;
图8a和图8b示意性地示出根据一些实施例的具有参数化空间音频信号输入的如图2a中所示的示例聚焦处理器和操作该示例聚焦处理器的方法;
图9a和图9b示意性地示出根据一些实施例的具有多通道和/或音频对象音频信号输入的如图2a中所示的示例聚焦处理器和操作该示例聚焦处理器的方法;
图10示出根据一些实施例的基于聚焦距离和半径输入的示例聚焦宽度确定;
图11a和图11b示意性地示出根据一些实施例的具有高阶Ambisonic音频信号输入的如图2a中所示的示例再现处理器和操作该示例再现处理器的方法;
图12a和图12b示意性地示出根据一些实施例的具有参数化空间音频信号输入的如图2a中所示的示例再现处理器和操作该示例再现处理器的方法;
图13示出一些实施例的示例实现;
图14示出根据一些实施例的用于控制聚焦方向、聚焦量和聚焦宽度的示例控制器;
图15示出根据一些实施例的基于处理高阶Ambisonic音频信号的示例处理输出;
图16示出适于实现所示装置的示例设备。
具体实施方式
下面进一步详细地描述了用于提供空间音频信号的有效渲染和回放的合适装置和可能的机制。
先前的空间音频信号回放示例允许用户控制聚焦方向和聚焦量。然而,在某些情况下,这种聚焦方向/量的控制可能是不够的。在某些情况下,可期望使用户能够利用控制接口来控制聚焦的形状。在声场中,可存在许多不同的特征,诸如在某些观看方向上的多个主导声源以及环境声音。一些用户可能更喜欢听到该声场的某些特征,而一些其他用户可能更喜欢听到该声场的替代特征,这取决于所期望的观看方向。可以理解,这种回放音频取决于一个或多个偏好,并且可以基于用户相关的偏好来配置。回放装置的期望性能是配置空间声音的回放,以使得可以控制针对各种形状或区域(例如,窄的、宽的、浅的、深的、近的、远的)的聚焦。
作为示例,在扇形区域(或锥体或另一个空间跨度或范围)内而不是仅在一个方向上可存在感兴趣的音频内容。具体地,控制聚焦的空间跨度可以是有用的。下面描述的图1a和图1b示出了用户预期在收听再现空间音频信号时感知的事物。例如,在用户的一侧可存在感兴趣的源,而在用户的另一侧可存在令人分心的源,如图1a中所示。图1a示出了以定义的定向定位的用户101。在音频场景内存在感兴趣的源105,例如,在由聚焦方向和宽度定义的期望聚焦区103内的剧场表演中的讲话者。此外,可存在在观看方向之外(诸如在观看方向后面)的观众或其他环境音频内容107。
此外,用户可能希望随时间改变扇形区域的宽度。例如,首先通过保持聚焦扇形区域相对较宽(如图1a中所示)来聚焦到剧场表演中的所有源,然后通过缩窄聚焦扇形区域而聚焦到特定源。
作为另一个示例,期望或感兴趣的音频内容可以在某一距离处(相对于收听者或相对于另一个位置)。例如,在某一方向上在某一距离处可存在不期望或不感兴趣的音频源,并且在相同方向(或几乎相同的方向)上在另一距离处可存在期望或感兴趣的音频源。这在图1b中被示出。例如,图1b示出了用户101以定义的定向定位在具有感兴趣的源105的音频场景内,感兴趣的源例如是在桌子周围的讲话者,其在由中心位置和半径定义的期望聚焦区103内。此外,可存在其他环境音频内容,诸如在左侧的环境音频内容151、音乐源音频分量155、以及超出感兴趣的源在期望聚焦区之外的其他讲话者音频内容153。在这种实施例中,音频聚焦区或形状是由中心聚焦位置和聚焦半径确定。
因此,如本文所讨论的实施例试图(除了聚焦方向和量之外还)提供聚焦形状的控制。如关于本文所描述的实施例而讨论的概念涉及:通过提供对音频聚焦形状的控制来在具有多个观看方向的媒体回放中进行空间音频再现,其中,在所控制的音频聚焦形状上的音频场景发生变化但信号格式可以保持相同。
实施例通过调整与所选择的方向对应的以下参数中的任意一个(或两个或全部的组合)来提供与可选方向对应的至少一个聚焦形状参数:聚焦宽度;聚焦高度;聚焦半径;聚焦距离;以及聚焦深度。在一些实施例中,这个参数集包括定义任何任意形状的参数。
在一些实施例中,空间音频信号处理可以通过以下操作来执行:获得与具有多个观看方向的媒体相关联的空间音频信号;获得聚焦方向和量参数;获得至少一个聚焦形状参数;修改空间音频信号以具有所期望的聚焦特性;以及(用耳机或扬声器)再现经修改的空间音频信号。
所获得的空间音频信号例如可以是:Ambisonic信号;扬声器信号;参数化空间音频格式,诸如一组音频通道和相关联的空间元数据。
在一些实施例中,聚焦形状可以取决于哪些参数可用。例如,如果只有方向、宽度和高度,则形状可以是椭圆锥体类型体积。作为另一个示例,如果只有距离和深度,则聚焦形状可以是空心球体。如果没有宽度/高度和/或深度,那么它们可以被认为具有一些默认值。此外,在一些实施例中,可以使用任意的聚焦形状。
在一些实施例中,聚焦量可以确定聚焦的“度”或聚焦多少。例如,聚焦可以是从0%到100%,其中,0%意味着保持原始声音场景不改变,而100%意味着最大程度地聚焦在所期望的空间形状上。
在一些实施例中,不同的用户可能希望具有不同的聚焦特性,并且可以针对每个用户,基于他们的个人偏好,单独地修改和再现原始空间音频信号。
图2a示出了根据示例的空间音频处理装置250的一些组件和/或实体的框图。可以理解,在该附图中示出并且随后进一步详述的两个单独的步骤(聚焦处理器+再现处理器)可以被实现为集成过程,或者在一些示例中以如本文所描述的相反顺序(其中,再现处理器操作之后是聚焦处理器操作)来实现。空间音频处理装置250包括音频聚焦处理器201,其被配置为接收输入音频信号,此外还接收聚焦参数202;以及基于输入音频信号200并根据聚焦参数202(其可以包括聚焦方向;聚焦量;聚焦高度;聚焦半径;聚焦距离;以及聚焦深度),得到具有聚焦声音分量的音频信号204。在一些实施例中,该装置可以被配置为获得聚焦形状,其中,该聚焦形状包括至少一个聚焦参数(其可以被配置为定义聚焦形状)。此外,空间音频处理装置250还可以包括音频再现处理器207,其被配置为接收具有聚焦声音分量的音频信号204以及再现控制信息206,并且被配置为基于具有聚焦声音分量的音频信号204并进一步根据再现控制信息206,以预定义的音频格式得到输出音频信号208,其中,再现控制信息206用于控制与在音频再现处理器207中处理具有聚焦分量的空间音频信号有关的至少一个方面。再现控制信息206可以包括再现定向(或再现方向)的指示和/或适用的扬声器配置的指示。考虑到用于处理上述空间音频信号的方法,音频聚焦处理器201可以被设置为通过修改音频场景来实现处理空间音频信号的方面,以便根据所接收的聚焦量,在所接收的聚焦区中控制至少空间音频信号的一部分的加重。音频再现处理器207可以基于所观察的方向和/或位置,输出经处理的空间音频信号作为经修改的音频场景,其中,经修改的音频场景在聚焦区中并根据所接收的聚焦量至少针对空间音频信号的所述部分表现出加重。
在图2a的图示中,输入音频信号、具有聚焦声音分量的音频信号以及输出音频信号中的每一个被提供为采用预定义的空间音频格式的相应的空间音频信号。因此,这些信号可以分别被称为输入空间音频信号、具有聚焦声音分量的空间音频信号、以及输出空间音频信号。沿着前文中所描述的思路,通常,空间音频信号传送涉及在音频场景的各具体位置处的一个或多个定向声源以及音频场景的环境两者的音频场景。然而,在一些情况下,空间音频场景可以涉及没有环境的一个或多个定向声源或者没有任何定向声源的环境。就此而言,空间音频信号包括传送一个或多个定向声音分量和/或环境声音分量的信息,其中,该一个或多个定向声音分量表示在音频场景内具有某一位置的不同声源(例如,相对于收听点的某一到达方向和某一相对强度),该环境声音分量表示在音频场景内的环境声音。应当注意,将音频场景划分成定向声音分量和环境分量通常只是一种表示或近似,而实际的声音场景可涉及诸如宽源和相干声反射之类的更复杂的特征。尽管如此,即使具有如此复杂的声学特征,至少在感知意义上将音频场景概念化为定向分量和环境分量(direct andambient components)的组合通常是一种合理的表示或近似。
通常,输入音频信号和具有聚焦声音分量的音频信号以相同的预定义空间格式来提供,而输出音频信号可以以与被应用于输入音频信号(和具有聚焦声音分量的音频信号)相同的空间格式来提供,或者可以对输出音频信号使用不同的预定义空间格式。输出音频信号的空间音频格式是鉴于被应用于回放输出音频信号的声音再现硬件的特性而选择的。通常,可以以第一预定空间音频格式提供输入音频信号,并且可以以第二预定空间音频格式提供输出音频信号。适合用作第一和/或第二空间音频格式的空间音频格式的非限制性示例包括Ambisonics、根据预定义扬声器配置的环绕扬声器信号、预定义的参数化空间音频格式。在空间音频处理装置250的框架中使用这些空间音频格式作为第一和/或第二空间音频格式的更详细的非限制性示例随后在本公开中提供。
空间音频处理装置250通常被应用于将输入空间音频信号200作为输入帧序列处理成相应的输出帧序列,每个输入(输出)帧包括用于输入(输出)空间音频信号的每个通道的相应的数字音频信号段,以预定义的采样频率被提供为相应的在时间上的一系列输入(输出)样本。在一些实施例中,空间音频处理装置250的输入信号可以具有编码形式,例如,AAC或AAC+嵌入式元数据。在这种实施例中,编码的音频输入最初可以被解码。类似地,在一些实施例中,可以以任何合适的方式对来自空间音频处理装置250的输出进行编码。
在典型的示例中,空间音频处理装置250使用固定的预定义帧长度以使得每个帧包括用于输入空间音频信号的每个通道的相应的L个样本,该固定的预定义帧长度在预定义的采样频率映射到对应的时长。作为这方面的示例,固定帧长度可以是20毫秒(ms),其在8、16、32或48kHz的采样频率下分别导致每通道L=160、L=320、L=640和L=960个样本的帧。这些帧可以是非重叠的,或者它们可以部分重叠,取决于处理器是否应用滤波器组以及如何配置这些滤波器组。然而,这些值用作非限制性示例并且可以代替地使用与这些示例不同的帧长度和/或采样频率,取决于例如期望音频带宽、期望成帧延迟和/或可用处理能力。
在空间音频处理装置250中,聚焦是指用户可选择的感兴趣的空间区。聚焦通常例如可以是音频场景的某一方向、距离、半径、弧。在另一个示例中,聚焦区是在其中当前定位感兴趣的(定向)声源的区。在前一种情况下,用户可选择的聚焦典型地标示保持不变或不经常改变的区,因为聚焦主要是在特定空间区中,而在后一种情况下,用户选择的聚焦可以更频繁地改变,因为聚焦被设置到某一声源,该声源可以(或可以不)随时间改变其在音频场景中的位置/形状/大小。在示例中,聚焦例如可以被定义为定义感兴趣的空间方向相对于第一预定义参考方向的方位角,和/或被定义为定义感兴趣的空间方向相对于第二预定义参考方向的仰角,和/或被定义为形状和/或距离和/或半径或形状参数。
可以例如根据由在图2b中描绘的流程图所示的方法260来提供在前文中参考空间音频处理装置250的组件描述的功能。方法260例如可以由被设置为实现在本公开中经由多个示例描述的空间音频处理系统250的装置来提供。方法260用作一种用于将表示音频场景的输入空间音频信号处理成表示经修改的音频场景的输出空间音频信号的方法。方法260包括接收聚焦区的指示和聚焦强度的指示,如框261中所示。方法260还包括将输入空间音频信号处理成表示经修改的音频场景的中间空间音频信号,其中,根据所述聚焦强度来修改从所述聚焦区到达的声音的相对级别,如框263中所示。方法260还包括接收再现控制信息,该再现控制信息控制将中间空间信号处理成输出空间音频信号,如框265中所示。再现控制信息例如可以定义用于输出空间音频信号的再现定向(例如,收听方向或观看方向)或扬声器配置中的至少一个。方法260还包括根据所述再现控制信息,将中间空间音频信号处理成输出空间音频信号,如框267中所示。
方法260可以以多种方式改变,例如,根据与在上文和下文中提供的空间音频处理装置250的组件的相应功能有关的示例。
在一些实施例中,空间音频处理装置250的输入是Ambisonic信号。该装置可以被配置为接收(并且该方法可以被应用于)任何阶的Ambisonic信号。然而,由于一阶Ambisonic(FOA)信号在空间选择性方面相当广泛(具体而言是一阶方向性),因此,利用具有更高空间选择性的更高阶Ambisonic(HOA)可以更好地举例说明对聚焦形状进行精细控制。特别地,在以下示例中,该方法和装置被配置为接收三阶Ambisonic音频信号。
三阶Ambisonic音频信号总共(在3D中)具有16个波束模式信号。然而,如图3中所示,为了简单起见,以下示例在此仅考虑更“水平”的那7个Ambisonic分量(换句话说,音频信号),以便示出聚焦形状参数的实现。例如,图3示出了0阶球面谐波模式301、一阶球面谐波模式303、二阶球面谐波模式305、以及三阶球面谐波模式307。此外,图3示出了与更“水平”的三阶球面谐波模式相关的子集309和311。
关于图5a,示出了聚焦处理器550,其被配置为接收示例Ambisonic信号xHOA(t)500和聚焦方向502。在这个示例中,聚焦处理器550的输入是3阶Ambisonic信号的子集,例如,子集309和311,如上所描述的。为了简单起见,三阶Ambisonic信号xHOA(t)500在下文中也被描述为HOA。从水平方位角θ到达的信号x(t)(其中,t是离散样本索引)可以通过下式被表示为HOA信号:
其中,a(θ)是针对方位角θ的Ambisonic权重的向量。如在此等式中所见,Ambisonic模式的所选择子集在水平面中可以用这些非常简单的数学表达式来定义。
在一些实施例中,聚焦处理器550包括矩阵处理器501。在一些实施例中,矩阵处理器501被配置为将Ambisonic(HOA)信号500(对应于Ambisonic或球面谐波模式)转换成在7个均匀间隔的水平方向上的一组波束信号(对应于波束模式)。在一些实施例中,这可以通过变换矩阵T(θf)来表示,其中,θf是聚焦方向502参数:
xc(t)=T(θf)xHOA(t)
其中,
例如,当θf=20度时,与变换后的信号xc(t)504对应的波束模式和与原始HOA信号对应的波束模式在图4中被示出。图4例如示出了顶行401和底行403,顶行401示出了与Ambisonic信号对应的示例波束模式,底行403示出了聚焦方向是在20度的变换后的波束信号。进而,变换后的音频信号可以被输出到空间波束(基于聚焦参数)处理器503。
聚焦处理器550还可以包括空间波束(基于聚焦参数)处理器503。空间波束处理器503被配置为从矩阵处理器501接收变换后的Ambisonic信号xc(t)504,此外还接收聚焦量和宽度聚焦参数508。
空间波束处理器503被配置为进而基于聚焦量和形状参数508来修改空间波束信号xc(t)504以生成经处理或经修改的空间波束信号x′c(t)506。经处理或经修改的空间波束信号x′c(t)506进而可以被输出到另一矩阵处理器505。空间波束处理器503被配置为基于聚焦形状参数的类型来实现各种处理方法。在这个示例实施例中,聚焦参数是聚焦方向、聚焦宽度、以及聚焦量。聚焦量可以被确定为范围在0..1之间的值a,其中,1标示最大聚焦。聚焦宽度θw(被确定为从聚焦方向到聚焦弧的边缘的角度)也是可变或可控的参数。空间波束信号可以由下式生成:
x′c(t)=I(θw,a)xc(t)
其中,I(θw,a)是对角矩阵,其对角元素被确定为i(θw,a),其中,
应当注意,在这个示例中,波束xc(t)以如下这样一种方式被公式化:第一波束指向聚焦方向、第二波束指向聚焦方向+p,以以此类推。因此,当应用矩阵I(θw,a)时,距离聚焦方向更远的波束将根据聚焦宽度参数而被衰减。
聚焦处理器201包括另一矩阵处理器505。另一矩阵处理器505被配置为接收经处理或经修改的空间波束信号x′c(t)506以及聚焦方向502,并且对结果进行逆变换以生成经聚焦处理的HOA信号。变换矩阵T(θf)是可逆的,并因此,逆处理可以被表达为:
x′HOA(t)=T-1(θf)x′c(t)
其中,x′HOA(t)是经聚焦处理的HOA输出510。
关于图6示出了一个示例,其中,聚焦参数具有最大聚焦量a=1,聚焦方向是θf=20度,并且具有聚焦宽度θw=45度。顶行601示出了与经聚焦处理的变换域信号x′c(t)对应的波束模式以及聚焦效应区(focus effect region),底行603示出了与输出信号x′HOA(t)对应的波束模式。关于图7示出了一个示例,其中,聚焦参数具有最大聚焦量a=1,聚焦方向参数是θf=-90度,并且θw=90度。顶行701示出了与经聚焦处理的变换域信号x′c(t)对应的波束模式,底行703示出了与输出信号x′HOA(t)对应的波束模式。
在上述示例中,仅在示出一组更“水平”的波束模式信号时才考虑HOA处理。可以理解,这些操作可以使用3D中的一组波束模式而被扩展到3D。
关于图5b,示出了如图5a中所示的HOA聚焦处理器的操作560的流程图。
如图5b中步骤561所示,初始操作是接收HOA音频信号(以及聚焦参数,诸如方向、宽度、量或其他控制信息)。
如图5b中步骤563所示,下一操作是将变换后的HOA音频信号生成为波束信号。
如图5b中步骤565所示,在已将HOA音频信号变换成波束信号之后,下一操作是进行空间波束处理。
进而,如图5b中步骤567所示,经处理的波束音频信号进而被逆变换回HOA格式。
进而,如图5b中步骤569所示,输出经处理的HOA音频信号。
关于图8a,示出了聚焦处理器,其被配置为接收参数化空间音频信号作为输入。参数化空间音频信号包括音频信号和空间元数据,诸如频带中的方向和定向与总能量比(direct-to-total energy ratio)。参数化空间音频信号的结构和生成是已知的,并且已经从麦克风阵列(例如,移动电话、VR相机)描述了其生成。此外,也可以从扬声器信号和Ambisonic信号生成参数化空间音频信号。在一些实施例中,参数化空间音频信号可以从IVAS(沉浸式语音和音频服务)音频流生成,其可以被解码和解复用为空间元数据和音频通道的形式。这种参数化空间音频流中的音频通道的典型数量是两个音频通道音频信号,然而,在一些实施例中,音频通道的数量可以是任意数量的音频通道。
在这些示例中,参数化信息包括深度/距离信息,其可以在6自由度(6DOF)再现中被实现。在6DOF中,距离元数据(连同其他元数据)被用于确定声音的能量和方向应如何根据用户移动发生变化。
因此,在这个示例中,每个空间元数据方向参数与定向与总能量比和距离参数两者相关联。在参数化空间音频捕获的上下文中的距离参数的估计已在诸如GB专利申请GB1710093.4和GB1710085.0之类的较早申请中详述,但出于明确的原因未进一步探讨。
被配置为接收参数化(在这种情况下支持6DOF)空间音频800的聚焦处理器850被配置为使用聚焦参数(其在这些示例中是聚焦方向、量、距离和半径)以确定参数化空间音频信号的定向分量和环境分量应被衰减或加重多少以使能聚焦效应。
在以下示例中,方法(和公式)在没有随时间发生变化的情况下被表述,但应当理解,所有参数可以随时间发生变化。
在一些实施例中,聚焦处理器包括比率修改器和频谱调整因子确定器801,其被配置为接收聚焦参数808,另外还接收由频带中的方向802、距离822、和定向与总能量比804组成的空间元数据。
比率修改器和频谱调整因子确定器被配置为将聚焦形状实现为3D空间中的球体。首先,聚焦方向和距离通过下式被转换到笛卡尔坐标系(3x1 y-z-x向量f):
类似地,在每个频带k,空间元数据方向和距离被转换到笛卡尔坐标系(3x1 y-z-x向量m(k)):
空间元数据距离和聚焦距离参数的单位应当相同(例如,均以米为单位,或均以任何其他尺度为单位)。F与m(k)之间的相互距离值d(k)可以简单地被公式化为:
d(k)=|f-m(k)|
其在此是指向量(f-m(k))的长度。
进而,在增益函数中使用相互距离值d(k),连同在0..1之间的聚焦量参数a以及聚焦半径参数dr(采用与d(k)相同的单位)。当执行聚焦时,示例增益公式是:
其中,c是用于聚焦的增益常数,例如,值为4。
在实践中,可能需要平滑上述函数,以使得聚焦增益函数从在聚焦区域的高值平滑地过渡到在非聚焦区域的低值。
进而,参数空间音频信号的新的定向部分(direct portion)值D(k)可以被公式化为:
D(k)=r(k)*f(k)
其中,r(k)是在频带k的定向与总能量比值。新的环境部分(ambient portion)值A(k)可以被公式化为:
A(k)=(1-r(k))*(1-a)
被输出812到频谱调整处理器803的频谱校正因子s(k)进而基于声能的整体修改而被公式化,换句话说:
新的经修改的定向与总能量比参数r′(k)进而被公式化以代替空间元数据中的r(k):
在数值不确定的情况下,D(k)=A(k)=0,进而r′(k)也可以被设置为零。
在一些实施例中,空间元数据的方向和距离参数可以不被元数据调整和频谱调整因子确定器801修改,并得到经修改和未经修改的元数据输出810。
空间处理器850可以包括频谱调整处理器803。频谱调整处理器803可以被配置为接收音频信号806和频谱调整因子812。在一些实施例中,音频信号可以采用时频表示,或者可替代地它们首先被变换到时频域以进行频谱调整处理。输出814也可以是在时频域中,或者在输出之前被逆变换到时域。输入和输出的域取决于实现。
频谱调整处理器803可以被配置为针对每个频带k,将在频带k内的所有通道的(时频变换的)频率区间(frequency bin)乘以频谱调整因子s(k)。换句话说,执行频谱调整。相乘(即,频谱校正)可以随时间进行平滑以避免处理伪影。
换句话说,该处理器被配置为修改信号的频谱以及空间元数据,以使得该过程产生已根据聚焦参数(在这种情况下:聚焦方向、数量、距离、半径)而被修改的参数化空间音频信号。
关于图8b,示出了如图8a中所示的参数化空间音频输入处理器的操作的流程图860。
如图8b中步骤861所示,初始操作是接收参数化空间音频信号(以及聚焦参数或其他控制信息)。
如图8b中步骤863所示,下一操作是修改参数化元数据,并生成频谱调整因子。
如图8b中步骤865所示,下一操作是对音频信号进行频谱调整。
进而,如图8b中步骤867所示,可以输出频谱调整后的音频信号和经修改的(以及未经修改的)元数据。
关于图9a,示出了被配置为接收多通道或对象音频信号作为输入900的聚焦处理器950。在这种示例中,该聚焦处理器可以包括聚焦增益确定器901。聚焦增益确定器901被配置为接收聚焦参数908和通道/对象位置/定向信息,其可以是静态的或时变的。聚焦增益确定器901被配置为针对每个通道,基于聚焦参数908和来自输入信号900的通道/对象位置/定向信息902来生成定向增益(direct gain)f(k)参数,其被输出为聚焦增益912。在一些实施例中,通道信号方向被信令传送,并且在一些实施例中,它们被假定。例如,当存在6个通道时,方向可以被假定为5.1音频通道方向。在一些实施例中,可以存在查找表,其被用于根据通道数量来确定通道方向。
对于具有方向和距离(即,位置)的音频对象,聚焦增益确定器901可以使用与在参数化音频处理的上下文中所表述的相同的实现处理以基于空间元数据和聚焦参数来确定定向增益f(k)912。在这些实施例中,没有滤波器组。换句话说,只存在一个频带k。
此外,聚焦处理器还可以包括聚焦增益处理器(针对每个通道)903。聚焦增益处理器903被配置为接收针对每个音频通道的聚焦增益f(k)912以及音频信号906。进而,聚焦增益912可以被应用于对应的音频通道信号906(并且在一些实施例中还进行时间平滑)。来自聚焦增益处理器903的输出可以是经聚焦处理的音频通道音频信号914。
在这些示例中,通道定向/位置信息902没有被改变,并且也作为通道定向/位置信息输出910被提供。
在一些实施例中,当输入音频通道没有距离信息(例如,输入是只具有方向但没有距离的扬声器或对象声音)时,处理这种音频通道的一个选项是确定用于这种信号的固定默认距离并应用相同的公式以确定f(k)。
在一些实施例中,确定用于这种音频通道的聚焦增益f(k)912可以是基于聚焦方向与音频通道的方向之间的角度差。在一些实施例中,这可以首先确定聚焦宽度θw。例如,如图10中所示,可以使用聚焦距离1001和聚焦半径1103基于三角学原理来确定聚焦宽度θw1005,其中,该聚焦宽度是由具有由聚焦距离1001形成的斜边和由聚焦半径1003形成的对边的直角三角形所形成的角生成的。该聚焦宽度可以简单地通过下式来确定:
进而,确定聚焦方向与音频通道的方向之间的角度θa(单独地针对每个音频通道)。进而,可以使用与上述类似的公式来确定f(k),其中,dr由θw来代替,d(k)由θa来代替(当在没有距离信息的情况下确定用于音频通道的聚焦增益时)。在一些实施例中,当聚焦半径大于聚焦距离时,不定义上述的asin函数,并且一个大的值(例如,π)可以被用于聚焦宽度θw。
关于图9b,示出了如图9a中所示的多通道/对象音频输入处理器的操作的流程图960。
如图9b中步骤961所示,初始操作是接收多通道/对象音频信号(以及聚焦参数或其他控制信息和通道信息,诸如方向/距离)。
如图9b中步骤963所示,下一操作生成聚焦增益因子。
如图9b中步骤969所示,下一操作是针对每个通道音频信号应用聚焦增益。
进而,如图9b中步骤967所示,可以输出处理音频信号和未经修改的通道方向(和距离)。
在一些实施例中,还可以使用其他参数和参数的其他组合来定义聚焦形状。在这些情况下,可以根据上述示例来修改聚焦处理器以使用这些参数。
关于图11a,示出了基于Ambisonic音频输入的再现处理器1150的示例(例如,其可以被配置为接收来自如图5a中所示的示例聚焦处理器的输出)。
在这些示例中,该再现处理器可以包括Ambisonic旋转矩阵处理器1101。Ambisonic旋转矩阵处理器1101被配置为接收经聚焦处理的Ambisonic信号1100以及观看方向1102。Ambisonic旋转矩阵处理器1101被配置为基于观看方向参数1102,生成旋转矩阵。在一些实施例中,这可以使用任何合适的方法,诸如被应用于头部跟踪的Ambisonic双耳化的那些方法(或者更一般地,这种球面谐波函数的旋转在包括除了音频之外的其他领域的许多领域中被使用)。进而,该旋转矩阵被应用于Ambisonic音频信号。其结果是得到具有所添加的聚焦1104的旋转Ambisonic信号,这些旋转Ambisonic信号被输出到Ambisonic到双耳滤波器1103。
Ambisonic到双耳滤波器1103被配置为接收具有所添加的聚焦/散焦1104的旋转Ambisonic信号。Ambisonic到双耳滤波器1103可以包括预先制定的2xK有限脉冲响应(FIR)滤波器矩阵,这些FIR滤波器被应用于K个Ambisonic信号以生成2个双耳信号1106。FIR滤波器已经通过关于一组头部相关脉冲响应(HRIR)的最小二乘优化方法而生成。这种设计过程的示例是将HRIR数据集变换为频率区间(例如,通过FFT)以获得HRTF数据集,并针对每个频率区间确定一个复值处理矩阵,该复值处理矩阵在最小二乘意义上在HRTF数据集的数据点处近似可用HRTF数据集。当以这种方式针对所有频率区间确定复值矩阵时,其结果可以被逆变换(例如,通过逆FFT)为时域FIR滤波器。FIR滤波器还可以例如通过使用Hann窗口而被窗口化。
存在许多已知的方法可以被用于将Ambisonic信号渲染为扬声器输出。一个示例可以是将Ambisonic信号线性解码到目标扬声器配置。当Ambisonic信号的阶数足够高(例如,至少3阶,但优选地4阶)时这可以被应用。在这种线性解码的特定示例中,Ambisonic解码矩阵可以被设计为当被应用于Ambisonic信号(对应于Ambisonic波束模式)时,生成与在最小二乘意义上近似适合于目标扬声器配置的向量基幅度平移(VBAP)波束模式的波束模式对应的扬声器信号。用这种所设计的Ambisonic解码矩阵处理Ambisonic信号可以被配置为生成扬声器声音输出。在这种实施例中,再现处理器被配置为接收关于扬声器配置的信息。
关于图11b,示出了如图11a中所示的Ambisonic输入再现处理器的操作的流程图1160。
如图11b中步骤1161所示,初始操作是接收经聚焦处理的Ambisonic音频信号(以及观看方向)。
如图11b中步骤1163所示,下一操作是基于观看方向,生成旋转矩阵。
如图11b中步骤1165所示,下一操作是将旋转矩阵应用于Ambisonic音频信号,以生成旋转的聚焦处理的Ambisonic音频信号。
进而,如图11b中步骤1167所示,下一操作是将Ambisonic音频信号转换成合适的音频输出格式,例如双耳格式(或多通道音频格式)。
进而,如图11b中步骤1169所示,输出音频格式被输出。
关于图12a,示出了基于参数化空间音频输入的再现处理器1250的示例(例如,其可以被配置为接收来自如图8a中所示的示例聚焦处理器输出)。
在一些实施例中,该再现处理器包括滤波器组1201,其被配置为接收音频通道1200音频信号,并将这些音频通道变换到频带(除非输入已经在合适的时频域中)。合适的滤波器组的示例包括短时傅立叶变换(STFT)和复正交镜像滤波器(QMF)组。时频音频信号1202可以被输出到参数化双耳合成器703。
在一些实施例中,该再现处理器包括参数化双耳合成器1203,其被配置为接收时频音频信号1202和经修改的(以及未经修改的)元数据1204,此外还接收观看方向1206(或者合适的再现相关控制或跟踪信息)。在6DOF再现的上下文中,用户位置可以与观看方向参数一起被提供。
参数化双耳合成器1203可以被配置为实现任何合适的已知的参数化空间合成方法,该方法被配置为生成双耳音频信号(频带中)1208,因为在参数化双耳化块之前已经对信号和元数据进行了聚焦修改。双耳化时频音频信号1208进而可以被传递到逆滤波器组1205。实施例的特征进一步在于包括逆滤波器组1205的该再现处理器被配置为接收双耳化时频音频信号1208,并针对所应用的前向滤波器组应用逆滤波,因此生成具有适合于由耳机(在图12a中未示出)再现的聚焦特性的时域双耳化音频信号1210。
在一些实施例中,使用合适的扬声器合成方法来用来自参数化空间音频信号的扬声器通道音频信号输出格式来代替双耳音频信号输出。可以使用任何合适的方法,例如,基于合适的已知方法,用扬声器的位置的信息来代替观看方向参数,并且用扬声器处理器来代替双耳处理器。
关于图12b,示出了如图12a中所示的参数化空间音频输入再现处理器的操作的流程图1260。
如图12b中步骤1261所示,初始操作是接收经聚焦处理的参数化空间音频信号(以及观看方向或其他再现相关控制或跟踪信息)。
如图12b中步骤1263所示,下一操作是对音频信号进行时频转换。
如图12b中步骤1265所示,下一操作是基于时频转换后的音频信号、元数据以及观看方向(或其他信息),应用参数化双耳(或扬声器通道格式)处理器。
进而,如图12b中步骤1267所示,下一操作是对所生成的双耳或扬声器通道音频信号进行逆变换。
进而,如图12b中步骤1269所示,输出音频格式被输出。
考虑到当音频信号采用多通道音频的形式并应用图9a中的聚焦处理器950时用于再现处理器的扬声器输出,那么在一些实施例中再现处理器可以包括直通(pass-through),其中,输出扬声器配置与输入信号的格式相同。在输出扬声器配置与输入扬声器配置不同的一些实施例中,再现处理器可以包括向量基幅度平移(VBAP)处理器。进而,可以使用VBAP(一种已知的幅度平移技术)来处理每一个经聚焦处理的音频通道,以使用目标扬声器配置在空间上再现它们。因此,输出音频信号与输出扬声器设置相匹配。
在一些实施例中,可以使用任何合适的幅度平移技术来实现从第一扬声器配置到第二扬声器配置的转换。例如,幅度平移技术可以包括导出幅度平移增益的N×M矩阵,其定义了从第一扬声器配置的M个通道到第二扬声器配置的N个通道的转换,进而使用该矩阵,以使其与根据第一扬声器配置而被提供为多通道扬声器信号的中间空间音频信号的通道相乘。中间空间音频信号可以被理解为与具有如图2a中所示的聚焦声音分量204类似的音频信号。作为非限制性示例,VBAP幅度平移增益的导出在Pulkki,Ville的“使用向量基幅度平移的虚拟声源定位(Virtual sound source positioning using vector baseamplitude panning)”(《音频工程学会学报》第45卷第6期(1997年):第456-466页)中提供。
对于双耳输出,可以实现多通道扬声器信号格式(和/或对象)的任何合适的双耳化。例如,典型的双耳化可以包括用头部相关传递函数(HRTF)处理音频通道,并添加合成室内混响以生成收听室的听觉印象。通过采用例如在GB专利申请GB1710085.0中概述的原理,音频对象声音的距离+方向(即,位置)信息可以被用于随用户移动的6DOF再现。
在图13中示出了适于以运行合适的软件1403的移动电话或移动设备1401的形式实现的示例装置。视频例如可以通过将移动电话1401附接到Daydream视图类型设备来再现(然而为了清楚起见,在此并不讨论视频处理)。
音频比特流获得器1423被配置为获得音频比特流1424,例如从存储设备接收/取回。在一些实施例中,该移动设备包括解码器1425,其被配置为接收压缩音频,并对其进行解码。在AAC解码的情况下,解码器的示例是AAC解码器。所得到的解码(例如,Ambisonic,其中,示例实现是如图5a和11a中所示的示例)音频信号1426可以被转发到聚焦处理器1427。
移动电话1401在控制器数据接收器1411处接收来自外部控制器的控制器数据1400(例如,经由蓝牙),并将该数据传递给聚焦参数(来自控制器数据)确定器1421。聚焦参数(来自控制器数据)确定器1421例如基于控制器设备的定向和/或按钮事件来确定聚焦参数。聚焦参数可以包括所提出的聚焦参数(例如,聚焦方向、聚焦量、聚焦高度、以及聚焦宽度)的任何种类的组合。聚焦参数1422被转发到聚焦处理器1427。
基于Ambisonic音频信号和聚焦参数,聚焦处理器1427被配置为创建具有期望聚焦特性的经修改的Ambisonic信号148。这些经修改的Ambisonic信号1428被转发到Ambisonic到双耳处理器1429。Ambisonic到双耳处理器1429还被配置为从移动电话1401的定向跟踪器1413接收头部定向信息1404。基于经修改的Ambisonic信号1428以及头部定向信息1404,Ambisonic到双耳处理器1429被配置为创建头部跟踪双耳信号1430,其可以从移动电话输出,并使用例如耳机来回放。
图14示出了示例装置(或聚焦参数控制器)1550,其可以被配置为控制或生成合适的聚焦参数,诸如聚焦方向、聚焦量、以及聚焦宽度。该装置的用户可以被配置为通过将控制器指向期望方向1509并按下选择聚焦方向按钮1505来选择聚焦方向。该控制器具有定向跟踪器1501,并且定向信息可以被用于确定聚焦方向(例如,在如图13中所示的聚焦参数(来自控制器数据)确定器1421中)。在一些实施例中,聚焦方向可以在选择聚焦方向时在视觉显示器中被可视化。
在一些实施例中,可以使用聚焦量按钮(在图14中被示为+和-)1507来控制聚焦量。每次按下会将聚焦量增加/减少一定量,例如,10个百分点。可以使用聚焦宽度按钮(在图14中被示为+和-)1503来控制聚焦宽度。每次按压可以被配置为将聚焦宽度增加/减少一个固定量,诸如10度。
在一些实施例中,可以利用控制器(例如,用图14中所描绘的控制器)通过绘制所期望的形状来确定聚焦形状。用户可以通过按住选择聚焦方向按钮来启动绘制操作,进而用控制器来绘制所期望的形状,最后通过停止按压来批准该形状。所绘制的形状可以在绘制形状时在视觉显示器中被可视化。所绘制的形状可以被转换成聚焦方向、聚焦高度和聚焦宽度参数。如先前的示例中所述,可以利用“聚焦量”按钮来选择聚焦量。
在一些实施例中,如图14中所示的聚焦控制器被修改,以使得“聚焦宽度”控件被“聚焦半径”控件代替,以使能对复杂的、内容自适应的聚焦形状的控制。在这种实施例中,它可以被实现为高级虚拟现实再现系统的一部分,其中,360度视频不仅是全景的,而且还包含深度信息(即,它基本上是可以对6自由度的用户移动做出反应的3D视频)。例如,视频内容可以已经通过计算机图形方法或者由能够检测视觉深度的VR视频捕获系统而生成,并因此使能与计算机生成的内容类似的6DOF。
在示例场景中,存在两个感兴趣的源,例如,讲话者。进而,用户针对两个源指向并点击“选择聚焦方向”,视觉显示器进而向用户指示这些源(其不仅是听觉源,而且是某些方向和距离的视觉源)已经被选择以用于音频聚焦。进而,用户选择聚焦量和聚焦半径参数,其中,该聚焦半径指示距离感兴趣的源多远的听觉事件将被包括在所确定的聚焦形状内。在控制调整期间,该聚焦半径可以被指示为在感兴趣的视觉源周围的视觉球体。
视场可以对用户移动做出反应,但是源也可以在场景内移动,并且通常在视觉上跟踪源位置。因此,聚焦形状(在这种情况下其可以由3D空间中的两个球体表示)进而通过移动这些球体来自适应地改变其整体形状。
换句话说,获得还具有深度聚焦的复杂的聚焦形状。进而,根据空间音频格式,聚焦形状可以被准确地再现(在空间音频具有可靠的距离信息的条件下),或者以例如在上面所例示的其他方式进行近似。
在一些实施例中,可能需要例如通过确定聚焦信号的期望频率范围或频谱特性来进一步指定聚焦处理。特别地,如下操作可以是有用的:在语音频率范围内加重聚焦的音频频谱以提高清晰度,例如,通过衰减低频内容(例如,低于200Hz)和高频内容(例如,高于8kHz),从而留下与语音相关的特别有用的频率范围。
应当理解,经聚焦处理的信号可以用任何已知的音频处理技术进行进一步的处理,诸如自动增益控制或增强技术(例如,带宽扩展、噪声抑制)。
在一些进一步的实施例中,聚焦参数(包括方向、量和至少一个聚焦形状参数)是由内容创建者生成的,并且这些参数与空间音频信号一起被发送。例如,场景可以是在舞台附近的不插电音乐会的VR视频/音频记录。内容创建者可以假定典型的远距离收听者希望确定聚焦弧,该聚焦弧朝向舞台跨越而且还针对室内声学效果跨越到两侧,但至少一定程度地移除来自观众(在VR相机主方向后面)的直接声音。因此,聚焦参数轨道被添加到流中,并且它可以被设置为默认渲染模式。然而,观众声音仍然存在于流中,并且一些用户可能更愿意放弃聚焦处理而使能再现包括观众声音的完整声音场景。
换句话说,代替用户需要选择聚焦的方向和形状,而是可以选择可能的动态聚焦参数预设。该预设可以已经由内容创建者微调以很好地跟随节目,例如,以使得在每首歌曲结束时关闭聚焦,向收听者回放掌声。内容创建者可以生成一些预期的偏好配置文件作为聚焦参数。该方法是有益的,因为只需要传送一个空间音频信号,但可以添加不同的偏好配置文件。不支持聚焦的传统播放器可以解码Ambisonic信号而没有聚焦过程。
在一些进一步的实施例中,聚焦形状与具有多个观看方向的视频中的视觉缩放一起被控制。视觉缩放可以被概念化为用户在全景或360或3D视频中控制一套虚拟双筒望远镜。在这种使用实例中,当启用视觉缩放特征(例如,设置至少1.5倍缩放)时,还可以启用空间音频信号的音频聚焦。由于用户随后明显对特定方向感兴趣,因此可以将聚焦量设置为一个高值,例如,80%,并且可以将聚焦宽度设置为与虚拟双筒望远镜中的视觉视图的弧度相对应。换句话说,当视觉缩放增大时,聚焦宽度变得更小。由于聚焦被设置为80%,因此用户可以在一定程度上听到在适当方向上的剩余空间声音。以这种方式,用户听到感兴趣的新内容出现,知道关闭视觉缩放,并向感兴趣的新方向观看。缩放处理还可以在允许这种处理的音频编解码器的上下文中使用。这种编解码器的示例可以例如是MPEG-I。
在如上所述的这种实施例中的用户可以使用本发明以多种方式来控制聚焦形状。
图15示出了基于针对高阶Ambisonic(HOA)信号而描述的实现的示例处理输出。该附图将8-通道扬声器解码输出示出为具有在0°的讲话者、在-90°的正弦波和在110°的白噪声的三阶HOA信号的频谱图。其图示了朝向讲话者的窄聚焦如何降低正弦波和白噪声的相对能量,以及包含讲话者和正弦波两者的更宽的聚焦如何只显著地降低白噪声的相对能量。
关于图16,示出了可以被用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1700是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
在一些实施例中,设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行各种程序代码,诸如本文所描述的方法。
在一些实施例中,设备1700包括存储器1711。在一些实施例中,至少一个处理器1707被耦合到存储器1711。存储器1711可以是任何合适的存储部件。在一些实施例中,存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1711还可以包括用于存储数据(例如根据本文所描述的实施例已被处理或将要被处理的数据)的存储数据部分。在需要时,被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦合而被处理器1707取得。
在一些实施例中,接口设备1700包括用户接口1705。在一些实施例中,用户接口1705可以被耦合到处理器1707。在一些实施例中,处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中,用户接口1705可以使得用户能够例如经由小键盘向设备1700输入命令。在一些实施例中,用户接口1705可以使得用户能够从设备1700获得信息。例如,用户接口1705可以包括被配置为向用户显示来自设备1700的信息的显示器。在一些实施例中,用户接口1705可以包括触摸屏或触摸接口,其既能够使信息被输入到设备1700中,又能够向设备1700的用户显示信息。
在一些实施例中,设备1700包括输入/输出端口1709。在一些实施例中,输入/输出端口1709包括收发机。在这种实施例中,收发机可以被耦合到处理器1707,并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦合来与其他电子设备或装置通信。
收发机可以通过任何合适的已知通信协议来与其他装置通信。例如,在一些实施例中,收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。
收发机输入/输出端口1709可以被配置为接收信号,并且在一些实施例中获得如本文所描述的聚焦参数。
在一些实施例中,可以使用设备1700以使用处理器1707执行合适的代码来生成合适的音频信号。输入/输出端口1709可以被耦合到任何合适的音频输出,例如被耦合到多通道扬声器系统和/或耳机(其可以是头戴跟踪式或非跟踪式耳机)等。
通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件来实现,而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示,但是众所周知地,本文所描述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现,或者由硬件、或者由软件和硬件的组合来执行。此外,就此而言,应当注意,如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上,诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。
可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序,诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序,可以使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。
前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而,当结合附图和所附权利要求书阅读时,鉴于以上描述,各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。
Claims (21)
1.一种用于空间音频再现的装置,包括被配置为执行以下操作的部件:
获得至少一个聚焦参数,所述至少一个聚焦参数被配置为定义聚焦形状;
处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重;以及
输出所述经处理的空间音频信号,其中,所述经修改的音频场景至少部分地使能所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
2.根据权利要求1所述的装置,其中,至少一个聚焦参数进一步被配置为定义聚焦量,并且被配置为处理所述空间音频信号的部件被配置为:处理所述空间音频信号,以便进一步根据所述聚焦量,至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
3.根据权利要求1或2所述的装置,其中,被配置为处理所述空间音频信号的部件被配置为:至少部分地增大所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重,或者至少部分地减少所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
4.根据权利要求1至3中任一项所述的装置,其中,被配置为处理所述空间音频信号的部件被配置为:至少部分地增大或降低所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对声级。
5.根据从属于权利要求2的权利要求4所述的装置,其中,被配置为处理所述空间音频信号的部件被配置为:根据所述聚焦量,至少部分地增大或降低所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对声级。
6.根据权利要求1至5中任一项所述的装置,其中,所述部件被配置为:
获得再现控制信息,以控制输出所述经处理的空间音频信号的至少一个方面,并且其中,被配置为输出所述经处理的空间音频信号的部件被配置为执行以下中的一个:
根据所述再现控制信息,处理表示所述经修改的音频场景的所述经处理的空间音频信号以生成输出空间音频信号;
在被配置为处理表示音频场景的所述空间音频信号以生成表示经修改的音频场景的所述经处理的空间音频信号并输出所述经处理的空间音频信号作为所述输出空间音频信号的部件之前,根据所述再现控制信息处理所述空间音频信号。
7.根据权利要求2或从属于权利要求2的任一权利要求所述的装置,其中,所述空间音频信号和所述经处理的空间音频信号包括相应的全景环绕声信号,并且其中,被配置为处理所述空间音频信号以生成所述经处理的空间音频信号的部件被配置为针对一个或多个频率子带,执行以下操作:
将与所述空间音频信号相关联的全景环绕声信号转换成采用定义的模式的一组波束信号;
基于所述一组波束信号、所述聚焦形状和所述聚焦量,生成一组经修改的波束信号;以及
转换所述经修改的波束信号,以生成与所述经处理的空间音频信号相关联的经修改的全景环绕声信号。
8.根据权利要求7所述的装置,其中,所述定义的模式包括在平面上或在体积上均匀间隔的定义数量的波束。
9.根据权利要求7或8所述的装置,其中,所述空间音频信号和所述经处理的空间音频信号包括相应的高阶全景环绕声信号。
10.根据权利要求7至9中任一项所述的装置,其中,所述空间音频信号和所述经处理的空间音频信号包括任意阶的全景环绕声信号分量的子集。
11.根据权利要求2或从属于权利要求2的任一权利要求所述的装置,其中,所述空间音频信号和所述经处理的空间音频信号包括相应的参数化空间音频信号,其中,参数化空间音频信号包括一个或多个音频通道以及空间元数据,其中,所述空间元数据包括针对多个频率子带的相应方向指示、能量比率参数、以及可能的距离指示,
其中,被配置为处理所述输入空间音频信号以生成所述经处理的空间音频信号的部件被配置为:
针对一个或多个频率子带,基于所述空间元数据、所述聚焦形状和所述聚焦量,计算频谱调整因子;
针对所述一个或多个音频通道的所述一个或多个频率子带应用所述频谱调整因子,以生成一个或多个经处理的音频通道;
基于所述聚焦形状、所述聚焦量、以及所述空间元数据的至少一部分,计算与所述经处理的空间音频信号的所述一个或多个频率子带相关联的相应的经修改的能量比率参数;以及
组成所述经处理的空间音频信号,所述经处理的空间音频信号包括所述一个或多个经处理的音频通道、所述经修改的能量比率参数、以及除了所述能量比率参数之外的空间元数据。
12.根据权利要求2或从属于权利要求2的任一权利要求所述的装置,其中,所述空间音频信号和所述经处理的空间音频信号包括多通道扬声器通道和/或音频对象通道,
其中,被配置为将所述空间音频信号处理成所述经处理的空间音频信号的部件被配置为:
基于相应的音频通道方向指示、所述聚焦形状和所述聚焦量,计算增益调整因子;
对各音频通道应用所述增益调整因子;以及
组成所述经处理的空间音频信号,所述经处理的空间音频信号包括所述一个或多个经处理的多通道扬声器音频通道和/或所述一个或多个经处理的音频对象通道。
13.根据权利要求12所述的装置,其中,所述多通道扬声器通道和/或音频对象通道进一步包括相应的音频通道距离指示,并且其中,计算增益调整因子进一步基于所述音频通道距离指示。
14.根据权利要求12所述的装置,其中,所述部件进一步被配置为:确定默认的相应的音频通道距离,并且其中,计算增益调整因子进一步基于所述音频通道距离。
15.根据权利要求1至14中任一项所述的装置,其中,被配置为定义聚焦形状的所述至少一个聚焦参数包括以下中的至少一个:
聚焦方向;
聚焦宽度;
聚焦高度;
聚焦半径;
聚焦距离;
聚焦深度;
聚焦范围;
聚焦直径;以及
聚焦形状表征器。
16.根据权利要求1至15中任一项所述的装置,其中,所述部件进一步被配置为:从包括至少一个方向传感器的传感器装置和至少一个用户输入获得聚焦输入,其中,所述聚焦输入包括:
基于所述至少一个方向传感器方向的针对所述聚焦形状的聚焦方向的指示;以及
基于所述至少一个用户输入的聚焦宽度的指示。
17.根据从属于权利要求2的权利要求16或从属于权利要求2的任一权利要求所述的装置,其中,所述聚焦输入进一步包括基于所述至少一个用户输入的所述聚焦量的指示。
18.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
获得至少一个聚焦参数,所述至少一个聚焦参数被配置为定义聚焦形状;
处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重;以及
输出所述经处理的空间音频信号,其中,所述经修改的音频场景至少部分地使能所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
19.一种方法,包括:
获得至少一个聚焦参数,所述至少一个聚焦参数被配置为定义聚焦形状;
处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重;以及
输出所述经处理的空间音频信号,其中,所述经修改的音频场景至少部分地使能所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
20.一种包括指令的计算机程序或包括程序指令的计算机可读介质,所述指令或所述程序指令用于使装置至少:
获得至少一个聚焦参数,所述至少一个聚焦参数被配置为定义聚焦形状;
处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重;以及
输出所述经处理的空间音频信号,其中,所述经修改的音频场景至少部分地使能所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
21.一种非暂时性计算机可读介质,包括程序指令,所述程序指令用于使装置至少执行以下操作:
获得至少一个聚焦参数,所述至少一个聚焦参数被配置为定义聚焦形状;
处理表示音频场景的空间音频信号以生成表示经修改的音频场景的经处理的空间音频信号,以便至少部分地控制所述空间音频信号的在所述聚焦形状内的一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重;以及
输出所述经处理的空间音频信号,其中,所述经修改的音频场景至少部分地使能所述空间音频信号的在所述聚焦形状内的所述一部分至少部分地相对于所述空间音频信号的在所述聚焦形状之外的其他部分的相对加重。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1908346.8 | 2019-06-11 | ||
GB1908346.8A GB2584838A (en) | 2019-06-11 | 2019-06-11 | Sound field related rendering |
PCT/FI2020/050387 WO2020249860A1 (en) | 2019-06-11 | 2020-06-03 | Sound field related rendering |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114009065A true CN114009065A (zh) | 2022-02-01 |
Family
ID=67386323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080043343.XA Pending CN114009065A (zh) | 2019-06-11 | 2020-06-03 | 声场相关渲染 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220303710A1 (zh) |
EP (1) | EP3984252A4 (zh) |
JP (2) | JP2022537513A (zh) |
CN (1) | CN114009065A (zh) |
GB (1) | GB2584838A (zh) |
WO (1) | WO2020249860A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2612587A (en) * | 2021-11-03 | 2023-05-10 | Nokia Technologies Oy | Compensating noise removal artifacts |
GB2620978A (en) * | 2022-07-28 | 2024-01-31 | Nokia Technologies Oy | Audio processing adaptation |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
JP5825176B2 (ja) * | 2012-03-29 | 2015-12-02 | 富士通株式会社 | 携帯端末、音源位置制御方法および音源位置制御プログラム |
US10635383B2 (en) | 2013-04-04 | 2020-04-28 | Nokia Technologies Oy | Visual audio processing apparatus |
JP6125457B2 (ja) * | 2014-04-03 | 2017-05-10 | 日本電信電話株式会社 | 収音システム及び放音システム |
US9578439B2 (en) * | 2015-01-02 | 2017-02-21 | Qualcomm Incorporated | Method, system and article of manufacture for processing spatial audio |
US10070094B2 (en) * | 2015-10-14 | 2018-09-04 | Qualcomm Incorporated | Screen related adaptation of higher order ambisonic (HOA) content |
GB2549532A (en) * | 2016-04-22 | 2017-10-25 | Nokia Technologies Oy | Merging audio signals with spatial metadata |
GB2559765A (en) * | 2017-02-17 | 2018-08-22 | Nokia Technologies Oy | Two stage audio focus for spatial audio processing |
US10477310B2 (en) * | 2017-08-24 | 2019-11-12 | Qualcomm Incorporated | Ambisonic signal generation for microphone arrays |
US10165388B1 (en) * | 2017-11-15 | 2018-12-25 | Adobe Systems Incorporated | Particle-based spatial audio visualization |
EP3777244A4 (en) * | 2018-04-08 | 2021-12-08 | DTS, Inc. | EXTRACTION OF AMBISONIC DEPTHS |
-
2019
- 2019-06-11 GB GB1908346.8A patent/GB2584838A/en not_active Withdrawn
-
2020
- 2020-06-03 EP EP20822884.1A patent/EP3984252A4/en active Pending
- 2020-06-03 JP JP2021573579A patent/JP2022537513A/ja active Pending
- 2020-06-03 CN CN202080043343.XA patent/CN114009065A/zh active Pending
- 2020-06-03 WO PCT/FI2020/050387 patent/WO2020249860A1/en unknown
- 2020-06-03 US US17/596,119 patent/US20220303710A1/en active Pending
-
2024
- 2024-01-18 JP JP2024006056A patent/JP2024028526A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2584838A (en) | 2020-12-23 |
EP3984252A4 (en) | 2023-06-28 |
EP3984252A1 (en) | 2022-04-20 |
GB201908346D0 (en) | 2019-07-24 |
WO2020249860A1 (en) | 2020-12-17 |
US20220303710A1 (en) | 2022-09-22 |
JP2024028526A (ja) | 2024-03-04 |
JP2022537513A (ja) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10785589B2 (en) | Two stage audio focus for spatial audio processing | |
US9820037B2 (en) | Audio capture apparatus | |
US10635383B2 (en) | Visual audio processing apparatus | |
US11659349B2 (en) | Audio distance estimation for spatial audio processing | |
WO2017182714A1 (en) | Merging audio signals with spatial metadata | |
CN112806030B (zh) | 用于处理空间音频信号的方法和装置 | |
JP2024028526A (ja) | 音場関連レンダリング | |
CN112019993B (zh) | 用于音频处理的设备和方法 | |
WO2019175472A1 (en) | Temporal spatial audio parameter smoothing | |
JP2024028527A (ja) | 音場関連レンダリング | |
US11483669B2 (en) | Spatial audio parameters | |
US20240171927A1 (en) | Interactive Audio Rendering of a Spatial Stream | |
WO2024115045A1 (en) | Binaural audio rendering of spatial audio | |
EP4035428A1 (en) | Presentation of premixed content in 6 degree of freedom scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |