CN116959461A - 用于离散指向性数据的表示、编码和解码的方法、设备和系统 - Google Patents
用于离散指向性数据的表示、编码和解码的方法、设备和系统 Download PDFInfo
- Publication number
- CN116959461A CN116959461A CN202310892061.2A CN202310892061A CN116959461A CN 116959461 A CN116959461 A CN 116959461A CN 202310892061 A CN202310892061 A CN 202310892061A CN 116959461 A CN116959461 A CN 116959461A
- Authority
- CN
- China
- Prior art keywords
- directivity
- directional
- unit vectors
- unit
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 156
- 239000013598 vector Substances 0.000 claims abstract description 361
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 73
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000009826 distribution Methods 0.000 description 20
- 238000009877 rendering Methods 0.000 description 16
- 230000005855 radiation Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及一种用于离散指向性数据的表示、编码和解码的方法、设备和系统。本公开涉及一种处理包括至少一个声源的指向性信息的音频内容的方法,指向性信息包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益。本公开进一步涉及对包括至少一个声源的指向性信息的音频内容进行编码和解码的对应方法。
Description
本申请是申请日为2020年6月30日、申请号为202080052257.5、发明名称为“用于离散指向性数据的表示、编码和解码的方法、设备和系统”的中国专利申请的分案申请,该中国专利申请要求于2019年7月02日提交的美国临时申请62/869,622和于2019年7月02日提交的欧洲申请19183862.2的优先权。
技术领域
本公开涉及提供用于对音频内容进行处理和编码的方法和设备,该音频内容包括至少一个声源的离散指向性信息(指向性数据)。具体地,本公开涉及离散指向性信息的表示、编码和解码。
背景技术
天然或人造的真实世界声源(例如,扬声器、乐器、语音、机械装置)都以非各向同性(non-isotropic)的方式辐射声音。表征声源的复杂辐射图案(或“指向性”)对于适当的渲染可能至关重要,尤其是在如视频游戏和虚拟/增强现实应用等交互式环境的背景下。在这些环境中,用户通常可以通过在指向的音频对象周围走动从而改变用户对所生成的声音的听觉立体感(auditory perspective)来与指向的音频对象进行交互。用户还可以能够抓取并且动态旋转虚拟对象,这同样需要在对应的(多个)声源的辐射图案中不同方向的渲染。除了更真实地渲染从源到收听者的直接传播效果之外,辐射特性还将在源与其环境(例如,视频游戏中的虚拟环境)之间的高阶声学耦合中发挥重要作用,从而影响回响声。因此,辐射特性将影响其他空间线索,如感知距离。
声源的辐射图案或其参数表示必须作为元数据传输到6自由度(6DoF)音频渲染器。辐射图案可以通过例如球谐分解或离散向量数据的方式来表示。
然而,如已经被发现的,直接应用传统的离散指向性表示对于6DoF渲染来说是次优的。
因此,需要用于指向的声源的离散指向性数据(指向性信息)的改进的表示和/或改进的编码方案的方法和设备。
发明内容
本公开的一方面涉及一种处理包括至少一个声源的指向性信息的音频内容的方法。该方法可以在编码的上下文中在编码器处执行。替代性地,该方法可以在渲染之前在解码器处执行。例如,声源可以是指向的声源和/或可以与音频对象有关。指向性信息可以是离散指向性信息。进一步地,指向性信息可以是音频对象的元数据的一部分。指向性信息可以包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益。第一指向性单位向量可以被非均匀地分布在3D球体的表面上。单位向量应意指单位长度向量。该方法可以包括基于期望的表示准确度(取向表示准确度)将用于排列在3D球体的表面上的单位向量的数量确定为计数数量。确定步骤也可以说是涉及基于期望的表示准确度来确定要生成的用于排列在3D球体的表面上的单位向量的数量。单位向量的确定数量可以被定义为由单位向量构成的组的基数(cardinality)。例如,期望的表示准确度可以是期望的角度准确度或期望的指向准确度。进一步地,期望的表示准确度可以与期望的角度分辨率(例如,以度数表示)相对应。该方法可以进一步包括通过使用预定排列算法将确定数量的单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量。预定排列算法可以是用于单位向量在3D球体的表面上近似均匀球面分布的算法。预定排列算法可以随着要排列/生成的单位向量的数量而缩放(即,数量可以是预定排列算法的控制参数)。该方法可以进一步包括针对第二指向性单位向量,基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益,确定相关联的第二指向性增益。第一指向性单位向量的组可以是第一集合的第一指向性单位向量中的适当子组或适当子集。
如上文所描述配置的,所提出的方法提供了离散指向性信息的表示(即,确定的数量和第二指向性增益),该离散指向性信息允许在解码器处渲染而无需插值以提供对象到收听者取向改变上的“均匀响应”。此外,离散指向性信息的表示可以用低比特率编码,因为在感知上相关的指向性单位向量没有被存储在该表示中,而是可以在解码器处被计算。最后,所提出的方法可以降低渲染时的计算复杂度。
在一些实施例中,可以确定单位向量的数量,使得所述单位向量当由预定排列算法分布在3D球体的表面上时,将以达到期望的表示准确度近似由第一集合的第一指向性单位向量指示的方向。
在一些实施例中,可以确定单位向量的数量,使得当所述单位向量由预定排列算法分布在3D球体的表面上时,对于第一集合中的每个第一指向性单位向量,单位向量中的至少一个单位向量相对于相应的第一指向性单位向量的方向差小于期望的表示准确度。例如,方向差可以是角距离。方向差可以以合适的方向差范数(norm)来定义。
在一些实施例中,确定单位向量的数量可以涉及使用表示准确度与单位向量的对应数量之间的预先建立的函数关系,该单位向量由预定排列算法分布在3D球体的表面上并且以达到相应的表示准确度近似由第一集合的第一指向性单位向量指示的方向。
在一些实施例中,针对给定的第二指向性单位向量确定相关联的第二指向性增益可以涉及将第二指向性增益设置为与最接近(本公开上下文中的接近由适当的距离范数定义)给定的第二指向性单位向量的那个第一指向性单位向量相关联的第一指向性增益。替代性地,例如,该确定可以涉及立体投影(stereographic projection)或三角测量(triangulation)。
在一些实施例中,预定排列算法可以涉及在3D球体的表面上叠加从球体上的第一点延伸到球体上与第一点相对的第二点的螺旋路径,以及沿螺旋路径依次排列单位向量。其中,可以基于单位向量的数量来确定螺旋路径的间距和/或沿螺旋路径的相应两个相邻单位向量之间的偏移。
在一些实施例中,确定单位向量的数量可以进一步涉及将单位向量的数量映射(例如,舍入)到预定数量之一。可以通过比特流参数用信号传输预定数量。例如,比特流参数可以是二位参数,如directivity_precision参数。对于编码,该方法然后可以包括将确定的数量编码到比特流参数的值中。
在一些实施例中,可以基于人类收听者(例如,参考人类收听者)的感知指向性灵敏度阈值的模型来确定期望的表示准确度。
在一些实施例中,第二集合的第二指向性单位向量的基数可以小于第一集合的第一指向性单位向量的基数。这可以暗示期望的表示准确度小于由第一集合的第一指向性单位向量提供的表示准确度。
在一些实施例中,第一指向性单位向量和第二指向性单位向量可以在球面坐标系或笛卡尔坐标系中表示。例如,第一指向性单位向量可以均匀地分布在方位角-仰角平面中,这暗示3D球体的表面上的非均匀(球形)分布。第二指向性单位向量可以非均匀地分布在方位角-仰角平面中,以此方式使得其(半)均匀地分布在3D球体的表面上。
在一些实施例中,由第一集合的第一指向性单位向量和相关联的第一指向性增益表示的指向性信息可以以声学空间取向格式(SOFA格式)存储,包括由音频工程学会标准化的格式(参见例如,AES69-2015)。另外或替代性地,由第二集合的第一指向性单位向量和相关联的第二指向性增益表示的指向性信息可以以SOFA格式存储。
在一些实施例中,该方法可以是对音频内容进行编码的方法并且可以进一步包括将单位向量的确定数量与第二指向性增益一起编码到比特流中。该方法可以又进一步包括输出比特流。这假设所提出的方法的至少一部分是在编码器侧执行的。
本公开的另一个方面涉及一种对包括至少一个声源的指向性信息的音频内容进行解码的方法。指向性信息可以包括指示在3D球体的表面上近似均匀分布的单位向量的数量的数量(例如,计数数量),以及每个这样的单位向量的相关联的指向性增益。可以假设单位向量由预定排列算法分布在3D球体的表面上。其中,预定排列算法可以是用于单位向量在3D球体的表面上近似均匀球面分布的算法。所述方法可以包括接收包括音频内容的比特流。该方法可以进一步包括从比特流中提取数量和指向性增益。该方法可以又进一步包括通过使用预定排列算法将该数量的单位向量分布在3D球体的表面上来确定(例如,生成)指向性单位向量集合。从这个意义上说,单位向量的数量可以作为预定排列算法的控制参数。该方法可以进一步包括将每个指向性单位向量与其指向性增益相关联的步骤。该方面假设所提出的方法分布在编码器侧与解码器侧之间。
在一些实施例中,该方法可以进一步包括,对于从声源指向收听者位置的给定目标指向性单位向量,基于与目标指向性单位向量最接近的一组指向性单位向量中的一个或多个指向性单位向量的相关联的指向性增益针对目标指向性单位向量来确定目标指向性增益。指向性单位向量的组可以是指向性单位向量的集合中的适当子组或适当子集。
在一些实施例中,针对目标指向性单位向量确定目标指向性增益可以涉及将目标指向性增益设置为与最接近该目标指向性单位向量的那个指向性单位向量相关联的指向性增益。
本公开的另一个方面涉及一种对包括至少一个声源的指向性信息的音频内容进行解码的方法。指向性信息可以包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益。该方法可以包括接收包括音频内容的比特流。该方法可以进一步包括从比特流中提取第一集合的指向性单位向量和相关联的第一指向性增益。该方法可以进一步包括基于期望的表示准确度将用于排列在3D球体的表面上的向量的数量确定为计数数量。该方法可以进一步包括通过使用预定排列算法将确定数量的单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量。其中,预定排列算法可以是用于单位向量在3D球体的表面上近似均匀球面分布的算法。该方法可以进一步包括针对第二指向性单位向量,基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益,确定相关联的第二指向性增益。该方法可以又进一步包括对于从声源指向收听者位置的给定目标指向性单位向量,基于与目标指向性单位向量最接近的一组第二指向性单位向量中的一个或多个第二指向性单位向量的相关联的第二指向性增益针对目标指向性单位向量来确定目标指向性增益。第二指向性单位向量的组可以是第二集合的第二指向性单位向量中的适当子组或适当子集。该方面假设所有提出的方法都是在解码器侧执行的。
在一些实施例中,针对目标指向性单位向量确定目标指向性增益可以涉及将目标指向性增益设置为与最接近目标指向性单位向量的那个第二指向性单位向量相关联的第二指向性增益。
在一些实施例中,该方法可以进一步包括从比特流中提取是否应该生成第二集合的指向性单位向量的指示。该指示可以是1位标志,例如,directivity_type参数。该方法可以进一步包括如果指示表明应该生成第二集合的指向性单位向量,则确定单位向量的数量并且生成第二集合的第二指向性单位向量。否则,可以从比特流中提取单位向量的数量和(第二)指向性增益。
本公开的另一个方面涉及一种用于处理包括至少一个声源的指向性信息的音频内容的设备。指向性信息可以包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益。设备可以包括处理器,该处理器被适配成执行根据上文所描述的第一方面和其任何实施例所述的方法的步骤。
本公开的另一方面涉及一种用于对包括至少一个声源的指向性信息的音频内容进行解码的设备。指向性信息可以包括指示在3D球体的表面上近似均匀分布的单位向量的数量(例如,计数数量)的数量,以及每个这样的单位向量的相关联的指向性增益。可以假设单位向量由预定排列算法分布在3D球体的表面上。其中,预定排列算法可以是用于单位向量在3D球体的表面上近似均匀球面分布的算法。设备可以包括处理器,该处理器被适配成执行根据上文所描述的第二方面和其任何实施例所述的方法的步骤。
本公开的另一方面涉及一种用于对包括至少一个声源的指向性信息的音频内容进行解码的设备。指向性信息可以包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益。设备可以包括处理器,该处理器被适配成执行根据上文所描述的第三方面和其任何实施例所述的方法的步骤。
本公开的另一个方面涉及包括指令的计算机程序,指令当由处理器执行时,使处理器执行根据上文所描述的第一方面至第三方面中任一项和其实施例中的任一项的方法。
本公开的另一个方面涉及一种存储前述方面的计算机程序的计算机可读介质。
本公开的另一个方面涉及一种音频解码器,该音频解码器包括耦接到存储用于处理器的指令的存储器的处理器。处理器可以被适配成执行根据上述方面或实施例中的相应方面或实施例所述的方法。
本公开的另一个方面涉及一种音频编码器,该音频编码器包括耦接到存储用于处理器的指令的存储器的处理器。处理器可以被适配成执行根据上述方面或实施例中的相应方面或实施例所述的方法。
本公开的另外的方面涉及对应的计算机程序和计算机可读存储介质。
应当理解,方法步骤和设备特征可以以多种方式互换。具体地,如本领域的技术人员所理解的,所公开的方法的细节可以被实施为被适配成执行该方法的一些或全部步骤的设备,并且反之亦然。具体地,应当理解,关于该方法的相应陈述同样适用于对应设备,并且反之亦然。
附图说明
下文参考附图解释本公开的示例实施例,其中,相同的附图标记指示相同或相似的元件,并且其中,
图1A、图1B和图1C示意性地图示了包括离散指向性单位向量和相关联的指向性增益的指向性信息的表示的示例,
图2示意性地图示了指向性单位向量及其相关联的指向性增益的示例,
图3示意性地图示了根据期望的表示准确度在3D球体的表面上排列指向性单位向量的示例,
图4示意性地图示了根据期望的表示准确度在3D球体的表面上排列指向性单位向量的另一个示例,
图5是示意性地图示了在假设用于将单位向量排列在3D球体的表面上的给定排列算法的情况下单位向量的数量与所得表示准确度之间的关系的图形,
图6是示意性地图示了在假设用于将单位向量排列在3D球体的表面上的给定排列算法的情况下单位向量的数量与所得表示准确度之间的建模关系的图形,
图7A、图7B和图7C示意性地图示了根据本公开的实施例的包括离散指向性单位向量和相关联的指向性增益的指向性信息的表示的示例,
图8A示意性地图示了不同表示准确度的离散指向性信息的传统表示,
图8B示意性地图示了根据本公开的实施例的不同表示准确度的离散指向性信息的表示,
图9以流程图的形式示意性地图示了根据本公开的实施例的对包括至少一个声源的指向性信息的音频内容进行处理或编码的方法,
图10以流程图的形式示意性地图示了根据本公开的实施例的对包括至少一个声源的指向性信息的音频内容进行解码的方法的示例,
图11以流程图的形式示意性地图示了根据本公开的实施例的对包括至少一个声源的指向性信息的音频内容进行解码的方法的另一个示例,
图12示意性地图示了根据本公开的实施例的用于对包括至少一个声源的指向性信息的音频内容进行处理或编码的设备,以及
图13示意性地图示了根据本公开的实施例的用于对包括至少一个声源的指向性信息的音频内容进行解码的设备。
具体实施方式
如上文所指示的,本公开中相同或相似的附图标记指示相同或相似的元件,并且为简洁起见,可以省略对其的重复描述。
包括声源的指向性数据(指向性信息)的音频格式可以用于音频内容的6DoF渲染。在这些音频格式中的一些格式中,指向性数据是离散指向性数据,该离散指向性数据(例如,以SOFA格式)存储为由方向(例如,方位角、仰角)和量值(例如,增益)构成的离散向量集合。然而,如上文所述,直接应用这样的传统离散指向性表示以进行6DoF渲染已被证明是次优的。具体地,对于传统的离散指向性表示,向量方向通常在3D空间中明显非等距地间隔,这需要在渲染(例如,6DoF渲染)时在向量方向之间进行插值。进一步地,指向性数据包含冗余和不相关性,这导致用于对表示进行编码的比特流大小很大。
在图1A、图1B和图1C中示意性地图示了声源的离散指向性信息的传统表示的示例。传统表示包括多个离散指向性单位向量10和相关联的指向性增益15。图1A示出了排列在3D球体的表面上的指向性单位向量10的3D视图。在本示例中,这些指向性单位向量10均匀地(即,等距地)排列在方位角-仰角平面中,这导致3D球体的表面上的非均匀球面排列。这可以在图1B中看出,图1B示出了其上排列有指向性单位向量10的3D球体的俯视图。图1C最后示出了针对指向性单位向量10的指向性增益15,由此给出了声源的辐射图案(或“指向性”)的指示。
因为方向可以在解码器侧(例如,通过方程、表格或其他预先计算的查找信息)计算,所以可以实现离散指向性信息的表示的改进,并且从生理声学的角度来看,传统的表示可能涉及不必要的细粒度的方向采样。
本公开假设包括M个离散声源指向性增益Gi的集合的声源(sound source/acoustic source)的离散指向性信息的初始(例如,传统)表示。数据Gi在非均匀分布的指向性单位向量Pi=1,...,M上定义,其中,每个指向性单位向量Pi都具有其相关联的指向性增益Gi=G(Pi)。指向性单位向量是单位长度指向性向量。图2示意性地图示了指向性单位向量Pi210及其相关联的指向性增益Gi。其中,指向性单位向量Pi排列在作为单位球体的3D球体的表面230上。在本公开的上下文中,指向性单位向量Pi的集合可以被称为第一集合的第一指向性单位向量。指向性增益Gi可以被称为与第一指向性向量中的相应第一指向性向量相关联的第一指向性增益。
如上所述,指向性单位向量Pi的非均匀分布需要在解码器侧对指向性增益Gi进行插值,以实现对对象到收听者取向变化的“均匀响应”。
为了解决该问题,本公开寻求以产生等效的(例如,主观上不可区分的)6DoF音频渲染输出的方式提供近似原始数据G的优化指向性表示此处,例如,指向性单位向量Pi和/或指向性单位向量/>可以在球面坐标系或笛卡尔坐标系中表示。
优化的表示应在指向性向量/>的半均匀分布上定义,导致更小的比特流大小Bs,即,/>和/或允许计算高效的解码处理。在本公开的上下文中,半均匀应意指达到给定的(例如,期望的)表示准确度的均匀。
为了这样做,本公开假设对象到收听者取向是任意的并且具有均匀的概率分布,并且假设对象到收听者取向表示准确度(即,期望的表示准确度)是已知的,并且例如,基于人类收听者(例如,参考人类收听者)的主观指向性灵敏度阈值来定义。
本公开提供至少以下技术益处。第一个技术益处涉及利用3D空间(不在方位角-仰角平面中)中的均匀指向性表示的指向性信息的参数化的益处。第二个技术益处来自于丢弃原始数据G中包含的对指向性感知没有贡献(即,低于取向表示准确度)的指向性信息。
均匀指向性表示并非不重要,因为在3D空间中的N个方向的均匀分布问题(例如,在3D单位球体的表面上相等间距N个点)通常无法精确求解N>4的任意数,并且因为在3D单位球体上生成(半)等距分布点的数值近似方法通常非常复杂(例如,迭代、随机和计算量大)。
原始数据G中的无关性和冗余减少也很重要,因为其与基于生理声学考虑的取向表示准确度的定义高度相关。
基于至少这些技术益处,本公开提出了一种均匀指向性表示的近似的高效方法,该方法允许避免在解码器侧对指向性增益进行插值,并且实现比特率的显著降低而不会使6DoF渲染的输出的所得生理声学指向性感知降级。
图9以流程图的形式图示了根据本公开的实施例的对包括至少一个声源(例如,音频对象)的(离散)指向性信息的音频内容进行处理(或编码)的方法900的示例。假设指向性信息与上文定义的指向性信息G相关,即,包括表示指向性方向和相关联的第一指向性增益的第一集合的第一指向性单位向量。指向性信息G可以作为声源(例如,音频对象)的元数据的一部分被包括在音频内容中。
作为初始步骤(流程图中未示出),方法900可以获得音频内容。由第一集合的第一指向性向量和相关联的第一指向性增益表示的指向性信息可以以SOFA格式存储。
在步骤S910处,基于期望的表示准确度D,将用于排列在3D球体的表面上的单位向量的数量N确定(例如,计算)为计数数量。这可能涉及(例如,基于计算)确定(半)等距分布的方向或(指向性)单位向量(例如,基于给定的取向表示准确度D)的数量N。此处,半等距分布被理解为意指以达到表示准确度D等距分布。例如,表示准确度D可以与角度准确度或定向准确度相对应。从这个意义上说,表示准确度可以与角分辨率相对应。在一些实施方式中,可以基于人类收听者(例如,参考人类收听者)的感知指向性阈值的模型来确定期望的表示准确度。
特别地,该步骤的输出是单个整数,即,指向性单位向量的数量N。实际指向性单位向量的生成将在下文描述的步骤S920处执行。换句话说,步骤S910确定要生成的指向性单位向量集合的基数。可以确定单位向量的数量N,使得当N个单位向量例如由预定排列算法(半)等距地分布在3D(单位)球体的表面上时,该单位向量将以达到期望的表示准确度D近似由第一集合的第一指向性向量指示的方向。因此,预定排列算法可以是用于单位向量在3D球体的表面上近似均匀球面分布(例如,达到表示准确度)的算法。下文将描述这种排列算法的示例。换句话说,可以确定单位向量的数量N,使得当单位向量由预定排列算法分布在3D球体的表面上时,对于第一集合中的每个第一指向性单位向量,该单位向量中的至少一个单位向量相对于相应第一指向性单位向量的方向差小于期望的表示准确度D。数量N可以作为预定排列算法的定标器(即控制参数),即,预定排列算法可以适用于在3D球体的表面上排列任何数量的单位向量。
例如,在上文中,方向差可以是角距离(例如,角度)。方向差可以根据合适的方向差范数(例如,取决于所涉及的指向性单位向量的标积的方向差范数)来定义。
在步骤S920处,通过使用预定排列算法将确定数量的N个单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量。如上所述,预定排列算法是用于单位向量在3D球体的表面上近似均匀球面分布的算法。第二指向性单位向量可以与上文定义的指向性单位向量相对应。因此,该步骤可以涉及使用由定标器N控制的预定排列算法(例如,基于计算)来确定指向性向量/>优选地,第二集合的第二指向性单位向量的基数小于第一集合的第一指向性单位向量的基数。这假设期望的表示准确度D小于由第一集合的第一指向性单位向量提供的表示准确度。
在步骤S930处,针对第二指向性单位向量基于第一指向性增益来确定(例如,计算)相关联的第二指向性增益。例如,针对第二指向性单位向量,该确定可以基于最接近第二指向性单位向量的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益。例如,该确定可以涉及立体投影或三角测量。在特别简单的实施方式中,针对给定的第二指向性单位向量的第二指向性增益被设置为与最接近给定的第二指向性向量(即,到给定的第二指向性向量的指向的距离最小)的那个第一指向性单位向量相关联的第一指向性增益。通常,该步骤可以涉及找到在Pi上定义的原始数据G的上定义的指向性近似/>由第二集合的第二指向性向量和相关联的第二指向性增益表示的指向性信息可以以SOFA格式呈现(例如,存储)。
如果方法900是编码方法,则其进一步包括下文描述的步骤S940和S950。在这种情况下,方法900可以在编码器处执行。
在步骤S940处,将单位向量的确定数量N与第二指向性增益一起编码到比特流中。这可以涉及对包含数据和数量N的比特流进行编码。由第二集合的第二指向性向量和相关联的第二指向性增益表示的指向性信息可以以SOFA格式呈现(例如,存储)。
在步骤S950处,输出比特流。例如,可以输出比特流以传输到解码器或存储在合适的存储介质上。
图10以流程图形式图示了根据本公开的实施例的对包括至少一个声源(例如,音频对象)的(离散)指向性信息的音频内容进行解码的方法1000的示例。方法1000可以在解码器处执行。例如,可以通过上文所描述的方法900的步骤S910至S950在比特流中对音频内容进行编码。因此,指向性信息可以包括指示在3D球体的表面上近似均匀分布的单位向量的数量的数量N(的表示),以及每个这样的单位向量的相关联的指向性增益。相关联的指向性增益可以是上文定义的第二指向性增益(数据)。可以假设单位向量通过预定排列算法分布在3D球体的表面上(例如,与用于对音频内容进行处理/编码的相同的预定排列算法),其中,预定排列算法是用于单位向量在3D球体的表面上近似均匀球面分布的算法。
在步骤S1010处,接收包括音频内容的比特流。
在步骤S1020处,(例如,通过解复用器(demultiplexer))从比特流中提取数量N和指向性增益。该步骤可以涉及对包含数据和数量N的比特流进行解码以获得数据/>和数量N。
在步骤S1030处,通过使用预定排列算法将N个数量的单位向量分布在3D球体的表面上来确定(例如,生成)指向性单位向量集合。该步骤可以以与上文所描述的步骤S920相同的方式进行。在该步骤处确定的每个指向性单位向量在步骤S1020处从比特流中提取的指向性增益中具有其关联的指向性增益。假设在对音频内容进行处理/编码和对音频内容进行解码时使用相同的预定排列算法,则以与在步骤S920处生成的第二指向性单位向量相同的顺序确定在步骤S1030处生成的指向性单位向量。然后,在步骤S940处将第二指向性增益作为有序集合编码到比特流中允许在步骤S1030处将指向性增益明确指派给所生成的指向性单位向量中的相应指向性单位向量。
在步骤S1040处,对于从声源指向收听者位置的给定目标指向性单位向量,基于指向性单位向量的相关联的指向性增益针对目标指向性单位向量来确定(例如,计算)目标指向性增益。例如,可以基于最接近目标指向性单位向量的一组指向性单位向量中的一个或多个指向性单位向量的相关联的指向性增益来确定(例如,计算)目标指向性增益。
例如,该确定可以涉及立体投影或三角测量。在特别简单的实施方式中,针对目标指向性单位向量的目标指向性增益被设置为与最接近目标指向性向量(即,到目标指向性向量的指向距离最小)的那个指向性单位向量相关联的指向性增益。通常,该步骤可以涉及使用在上定义的/>来进行音频指向性建模。
替代性地,上文概述的步骤可以在编码器侧与解码器侧之间不同地分布。例如,如果存在编码器无法执行上文列出的方法900的操作的情况(例如,如果所提出的近似的准确度(表示准确度)只能在解码器侧定义),则必要的步骤只能在解码器侧执行,这进而不会导致更小的比特流大小,但仍然具有节省在解码器侧用于渲染的计算复杂度的益处。
图11以流程图形式图示了根据本公开的实施例的对包括至少一个声源(例如,音频对象)的(离散)指向性信息的音频内容进行解码的方法1100的对应示例。假设指向性信息与上文定义的指向性信息G相关,即,包括表示指向性方向和相关联的第一指向性增益的第一集合的第一指向性单位向量。从这个意义上说,与方法1000相反,方法1100接收音频内容作为输入,尚未通过根据本公开的方法针对该输入优化指向性信息。指向性信息G可以作为声源(例如,音频对象)的元数据的一部分被包括在音频内容中。
在步骤S1110处,接收包括音频内容的比特流。替代性地,音频内容可以取决于使用情况通过任何其他可行的方式获得。
在步骤S1120处,第一集合的指向性单位向量和相关联的第一指向性增益是从比特流中提取的(或取决于使用情况通过任何其他可行的方式获得)。在一个示例中,指向性向量和相关联的第一指向性增益可以从比特流中解复用。
在步骤S1130处,基于期望的表示准确度将用于排列在3D球体的表面上的向量的数量确定为计数数量。该步骤可以以与上文所描述的步骤S910相同的方式进行。
在步骤S1140处,通过使用预定排列算法将确定数量的单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量。预定排列算法是用于单位向量在3D球体的表面上近似均匀球面分布的算法。该步骤可以以与上文所描述的步骤S920相同的方式进行。
在步骤S1150处,针对第二指向性单位向量基于第一指向性增益来确定相关联的第二指向性增益。例如,可以针对第二指向性单位向量基于最接近相应第二指向性单位向量的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益来确定相关联的第二指向性增益。因此步骤可以以与上文所描述的步骤S930相同的方式进行。
在步骤S1160处,对于从声源指向收听者位置的给定目标指向性单位向量,基于第二指向性增益针对目标指向性单位向量来确定目标指向性增益。例如,可以基于最接近目标指向性单位向量的一组第二指向性单位向量中的一个或多个第二指向性单位向量的相关联的第二指向性增益针对目标指向性单位向量来确定目标指向性增益。该步骤可以以与上文所描述的步骤S1040相同的方式进行。
在特别简单的实施方式中,针对目标指向性单位向量的目标指向性增益被设置为与最接近目标指向性向量(即,到目标指向性向量的指向距离最小)的那个第二指向性单位向量相关联的第二指向性增益。
由于在编码器侧和解码器侧执行哪些步骤可能存在灵活性,因此进一步建议向解码器发送信号通知其必须执行的步骤(或者,换句话说,指向性数据具有哪种格式)。这可以使用一位信息轻松完成,例如使用用于下表1中示出的指向性表示信号传输的比特流语法。下表2中示出了用于指向性表示信号传输的可能的比特流变量语义的示例。
表1
表2
根据上文,根据本公开的实施例的对音频内容进行解码的方法可以包括从比特流中提取是否应该生成第二集合的指向性单位向量的指示。进一步地,该方法可以包括(仅)在指示表明应该生成第二集合的指向性单位向量的情况下确定单位向量的数量并且生成第二集合的第二指向性单位向量。该指示可以是1位标志,例如,如上文所定义的directivity_type参数。
使用根据本公开的方法,可以生成离散指向性数据的表示,该表示不需要在6DoF渲染时进行插值来提供对对象到收听者取向变化的“均匀响应”。此外,可以实现用于传输表示的低比特率,因为感知相关的指向性单位向量不是存储的而是计算的。
图7A、图7B和图7C示意性地图示了可通过根据本公开的方法实现的声源的离散指向性数据的表示的示例。该表示将与图1A、图1B和图1C中示意性地图示的表示进行比较。图7A示出了排列在3D球体的表面上的(第二)指向性单位向量20的3D视图。这些指向性单位向量20在空间上均匀地分布在3D球体的表面上,这暗示在方位角-仰角平面中的不均匀分布。这可以在图7B中看出,图7B示出了其上排列有指向性单位向量20的3D球体的俯视图。图7C最后示出了针对(第二)指向性单位向量20的(第二)指向性增益25,由此给出了声源的辐射图案(或“指向性”)的指示。该图案的包络(envelope)与图1C中示出的图案的包络基本上相同,并且包含相同数量的相关生理声学信息。
图8A和图8B示出了针对不同数量N个指向性单位向量(和对应的取向表示准确度D)将声源的离散指向性数据的传统表示与根据本公开的实施例的表示进行比较的另外的示例。图8A(上排)图示了传统表示G并且图8B(下排)图示了根据本公开的实施例的表示最左侧的分图与N=28和D<6°的情况有关。左起第二个分图与N=29和D<4°的情况有关。左起第三个分图与N=210和D<3°的情况有关。最右侧的分图与N=211和D<2°的情况有关。
接下来将描述根据本公开的实施例的方法的上述方法步骤的具体实施方式示例。
对于这些具体实施方式示例,假设原始的M个离散声源指向性测量(估计)G的集合由以下辐射图案格式给出:
G=G(Pk)
[等式(1)]
其中,Pk=(θi,φj)是相对于声源的离散仰角和方位角φi∈[0,2π),M是角对的总数k=(i,j),k∈{1,...,M}。如上所述,原始的M个离散声源指向性测量的集合可以与第一集合的第一指向性单位向量和相关联的第一指向性增益相对应。
有了上述假设,方法900的步骤S920(或方法1100的步骤S1140)可以如下进行。
为了计算(即,生成)在3D空间(即,3D单位球面上的位置)中近似均匀的指向性分布的N个指向性向量可以使用任何适当的数值近似方法(排列算法)(参见例如,D.P.Hardina,T.Michaelsab,E.B.Saff“A Comparison of Popular PointConfigurations on S2[S2上流行点配置的比较]”(2016)Dolomites Research Notes onApproximation[多洛米蒂近似研究笔记]:第9卷,第16-49页)。然而,本公开提议但不旨在限于基于以下考虑一种特定的近似方法(排列算法):Kogan,Jonathan“A NewComputationally Efficient Method for Spacing n Points on a Sphere[用于在球体上间隔n个点的计算高效方法]”(2017)Rose-Hulman Undergraduate MathematicsJournal[罗斯-豪曼本科数学杂志]:第18卷,第2期,第5条。这种选择的原因包括该方法的低计算复杂度和其对单个控制参数N的依赖以及不存在对其的限制(对于N≥2)。
以下等式(例如,在编码器和解码器处求解)定义并且避免其将/>显式存储在比特流中:
其中,坐标ai、bi针对如下定义的每个参数si进行计算:
si={开始+步长*i},i=1,...,N
[等式(3)]
并且其中,开始和步长参数如下获得:
开始=r-1,步长=-2*r*开始,r=(N-1)-1
[等式(4)]
更一般地,预定排列算法可以涉及在3D球体的表面上叠加螺旋路径。螺旋路径从球体上的第一点(例如,极点中的一个)延伸到球体上与第一点相对的第二点(例如,极点中的另一个)。然后,预定排列算法可以沿螺旋路径依次排列单位向量。可以基于单位向量的数量N来确定螺旋路径的间距和沿螺旋路径的相应两个相邻单位向量之间的偏移(例如,步长)。
以下MatLab函数的示例可以用于生成指向性向量
以下MatLab脚本的示例可以用于在笛卡尔坐标系中表示向量
有了上述假设,方法900的步骤S910(或方法1100的步骤S1130)可以如下进行。
为了计算指向性向量控制参数N必须基于如下定义的取向表示准确度值D来指定:
以简明的语言来说,对于任何方向P,存在至少一个/>索引k,使得对应的方向/>(由例如步骤S920的方法定义)与P相差小于或等于取向表示准确度D的值。
这在图3中示意性地图示,其中,与指向性单位向量20中最接近的一个的最大距离310小于期望表示准确度D。这可以通过以下来实现:假设3D球体的表面被细分为围绕相应指向性单位向量/>的多个单元,其中每个单元包括比任何其他指向性单位向量/>更接近该单元的指向性单位向量/>的所有那些方向,确保单元边界上的任何方向与最接近的指向性单位向量/>的方向差不大于期望的表示准确度D。
因此,表示准确度(取向表示准确度)值D表示图4中示意性图示的最坏情况场景:声音辐射图案G被定义为对于一个单个方向P1具有非零值,对于所有其他方向为零:G(Pi≠1)=0。在这种情况下,具有取向表示准确度D(例如,以度数表示)的指向性辐射图案表示具有半径D 410的锥体420。
在一些实施方式中,确定单位向量的数量N可以涉及使用表示准确度D与单位向量的对应数量N之间的预先建立的函数关系,单位向量由预定排列算法分布在3D球体的表面上并且以达到相应的表示准确度D近似由第一集合的第一指向性单位向量(例如,Pi)指示的方向。
这种函数关系可以例如通过在表面上重复分布不同数量N的指向性单位向量并且确定所得表示准确度的强力(brute force)方法来获得,例如,以参考图3所图示的方式。对于上文参考等式(2)至等式(4)描述的排列算法,获得图5的图形(圆形标记510)中图示的D与N之间的关系。可以使用线性函数来近似这种关系(图5中的连续线520)
ln(N)=9-2*ln(D)
[等式(6)]
因此,在本示例中,单位球面上半等距分布的点N以实现期望的指向性表示准确度D的最小所需数量N可以通过函数关系N=N(D)计算为:
N=INTEGER(e(9-2*ln(D)))
[等式(7)]
其中,INTEGER指示到相邻整数的适当映射程序。该方法对于N<~2000具有效率范围,并且所得取向表示准确度D与~2°的主观指向性灵敏度阈值相对应。图6图示了对数-对数标度上的这种关系610。该图形中的虚线矩形图示了N<~2000的效率范围。单位向量的数量N与表示准确度D之间的建模关系也针对下表3中的所选值进行了图示。
N | 32412 | 8103 | 3601 | 2026 | 1296 | 900 | 661 | 506 | 400 | 324 | 268 | 225 | 192 | 165 | 144 | 127 | 112 | 100 | 90 | 81 |
D | 0.5° | 1° | 1.5° | 2° | 2.5° | 3° | 3.5° | 4° | 4.5° | 5° | 5.5° | 6° | 6.5° | 7° | 7.5° | 8° | 8.5° | 9° | 9.5° | 10° |
表3
方法900的步骤S930(或方法1100的步骤S1150)可以如下进行。
为了获得在Pi上定义的原始数据G(例如,第一集合的第一指向性单位向量和相关联的第一指向性增益)的在上定义的指向性数据近似/>(例如,相关联的第二指向性增益),可以使用任何近似(例如,立体投影)方法。如果在编码器侧执行这种操作(例如,在方法900的步骤S930中),则计算复杂度不会起主要作用。
另一方面,用于确定指向性数据近似(例如,第二指向性增益)的特别简单的程序是针对每个指向性单位向量/>(例如,第二指向性单位向量)选取与相应指向性单位向量的方向差最小的指向性单位向量Pi(例如,第一指向性单位向量)的指向性增益G(Pi)(例如,第一指向性增益)。选取指向性单位向量/>的“最近邻”可以按照下式进行
比特流编码(例如,在方法900的步骤S940处)和比特流解码(例如,在方法1000的步骤S1020处)可以按照以下考虑进行。
生成的比特流必须包含用于控制指向性向量生成过程(例如,在方法1000的步骤S1030处)的经编码的标量值N和的指向性增益/>的对应集合。
有两种可能的模式用于传输指向性数据
一种可能的模式(第一模式)是对指向性增益的完整集合进行编码。在这种情况下,比特流将包括例如按照其在比特流中的顺序指派给对应方向/>的N个增益值/>的完整阵列。
另一种可能的模式(第二模式)是将部分子集编码到比特流中, 在这种情况下,比特流将仅包括指派给对应方向/>的Nsubset个增益值/>的阵列,该阵列例如由在比特流中用信号传输的显式索引i指示(即,用信号传输子集中的索引i)。
这两种可能模式的比特流大小Bs可以如下估计。对于第一模式,比特流大小Bs可以估计为
对于第二模式,比特流大小Bs可以估计为
其中,运算符表示对值x进行编码所需的内存的量。
为了针对实现更好的比特流编码效率,在一些实施方式中,可以使用数值近似方法(例如,曲线拟合)。本公开的一个特定优点是应用1D近似方法的可能性(因为数据G被定义并且均匀地分布在1D螺旋路径si上)。在这种情况下,使用均匀分布在方位角-仰角平面(θi,φj)中的指向性单位向量的离散指向性信息的传统表示将需要应用2D近似方法并且考虑边界条件。
为了针对实现更好的比特流编码效率,在一些实施方式中,确定单位向量的数量N可以涉及例如通过舍入(rounding)到预定数量集合中最接近的一个来将单位向量的数量N映射到预定数量集合之一。然后可以通过比特流参数(例如,比特流参数directivity_precision)将预定数量用信号传输给解码器。在这种情况下,在编码器侧与解码器侧之间可以就比特流参数的值与预定数量中的对应的数量之间的关系达成一致。例如,这种一致可以通过在编码器侧和解码器侧存储相同的查找表来建立。
换句话说,为了实现更好的比特流编码效率,可以推荐对产生最佳二元表示(例如,位)和准确度D的N使用预先选择的设置:
N | 256 | 512 | 1024 | 2048 |
D | ~5.6° | ~3.9° | ~28° | ~1.9° |
表4
下表5中示出了用于指向性大小信号传输的比特流语法的示例。
表5
下表6中示出了用于指向性大小信号传输的可能的比特流变量语义的示例。
表6
6DoF渲染中的音频指向性建模(例如,在方法1000的步骤S1040处或方法1100的步骤S1160处)可以如下进行。
对于每个给定的对象到收听者相对方向P(目标指向性向量),对应于最接近方向向量的索引k如下确定
然后,对这种对象信号应用对应的指向性增益以将声源渲染到收听者位置。
应当注意,为了方便注释和演示,声源的辐射图案已被假设为宽带、恒定并且覆盖所有S2空间。然而,本公开同样适用于频谱频率依赖性辐射图案(例如,通过在逐个频带的基础上执行所提出的方法)。此外,本公开同样适用于时间依赖性辐射图案,以及涉及方向的任意子集的辐射图案。
应当进一步注意,本公开中描述的概念和方案可以以频率和时间变换的方式指定,可以直接在频谱或时域中应用,可以全局定义或以对象依赖性方式定义,可以硬编码到音频渲染器中或者可以经由对应输入接口指定。
本文所描述的方法和系统可以实施为软件、固件和/或硬件。某些部件可以实施为在数字信号处理器或微处理器上运行的软件。其他部件可以实施为硬件和或专用集成电路。所描述的方法和系统中遇到的信号可以被存储在如随机存取存储器或光学存储介质等介质上。这些信号可以经由如无线电网络、卫星网络、无线网络或有线网络(例如,因特网)等网络来传输。利用本文所描述的方法和系统的典型装置是用于存储和/或渲染音频信号的便携式电子装置或其他消费者设备。
图12示意性地图示了根据本公开的实施例的用于对音频内容进行编码的设备1200(例如,编码器)的示例。设备1200可以包括接口系统1210和控制系统1220。接口系统1210可以包括一个或多个网络接口、控制系统与存储器系统之间的一个或多个接口、控制系统与另一装置之间的一个或多个接口和/或一个或多个外部装置接口。控制系统1220可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、离散门或晶体管逻辑、或离散硬件部件中的至少一个。因此,在一些实施方式中,控制系统1220可以包括一个或多个处理器和操作性地耦接到该一个或多个处理器的一个或多个非暂态存储介质。
根据一些这样的示例,控制系统1220可以被配置成经由接口系统120接收要处理/编码的音频内容。控制系统1220可以进一步被配置成基于期望的表示准确度(例如,如在上文所描述的步骤S910中)将用于排列在3D球体的表面上的单位向量的数量确定为计数数量,以通过使用预定排列算法将确定数量的单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量,其中,预定排列算法是用于单位向量在3D球体的表面上近似均匀球面分布的算法(例如,如在上文所描述的步骤S920中),用于针对第二指向性单位向量基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益来确定相关联的第二指向性增益(例如,如在上文所描述的步骤S930中),以及用于将确定的数量与第二指向性增益一起编码到比特流中(例如,如在上文所描述的步骤S940中)。控制系统1220可以进一步被配置成经由接口系统输出以输出比特流(例如,如在上文所描述的步骤S950中)。
图13示意性地图示了根据本公开的实施例的用于对音频内容进行解码的设备1300(例如,解码器)的示例。设备1300可以包括接口系统1310和控制系统1320。接口系统1310可以包括一个或多个网络接口、控制系统与存储器系统之间的一个或多个接口、控制系统与另一装置之间的一个或多个接口和/或一个或多个外部装置接口。控制系统1320可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑装置、离散门或晶体管逻辑、或离散硬件部件中的至少一个。因此,在一些实施方式中,控制系统1320可以包括一个或多个处理器和操作性地耦接到一个或多个处理器的一个或多个非暂态存储介质。
根据一些这样的示例,控制系统1320可以被配置成经由接口系统1310接收包括音频内容的比特流。控制系统1320可以进一步被配置成从比特流中提取数量和指向性增益(例如,如在上文所描述的步骤S1010中),通过使用预定排列算法将该数量的单位向量分布在3D球体的表面上来生成指向性单位向量集合(例如,如在上文所描述的步骤S1020中),并且对于从声源指向收听者位置的给定目标指向性单位向量,基于与目标指向性单位向量最接近的一组指向性单位向量中的一个或多个指向性单位向量的相关联的指向性增益针对目标指向性单位向量来确定目标指向性增益(例如,如在上文所描述的步骤S1030中)。
而且,根据一些这样的示例,控制系统1320可以被配置成经由接口系统1310接收包括音频内容的比特流(例如,如在上文所描述的步骤S1110中)。控制系统1320可以进一步被配置成从比特流中提取第一集合的指向性向量和相关联的第一指向性增益(例如,如在上文所描述的步骤S1120中),基于期望的表示准确度将用于排列在3D球体的表面上的向量的数量确定为计数数量(例如,如在上文所描述的步骤S1130中),通过使用预定排列算法将确定数量的单位向量分布在3D球体的表面上来生成第二集合的第二指向性单位向量,其中,预定排列算法是用于单位向量在3D球体的表面上近似均匀球面分布的算法(例如,如在上文所描述的步骤S1140中),用于针对第二指向性单位向量基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的第一指向性增益来确定相关联的第二指向性增益(例如,如在上文所描述的步骤S1150中),并且对于从声源指向收听者位置的给定目标指向性单位向量,基于与目标指向性单位向量最接近的一组第二指向性单位向量中的一个或多个第二指向性单位向量的相关联的第二指向性增益针对目标指向性单位向量来确定目标指向性增益(例如,如在上文所描述的步骤S1160中)。
在一些示例中,可以在单个装置中实施上述设备1200和1300中的任一个或每个。然而,在一些实施方式中,可以在多于一个装置中实施设备。在一些这样的实施方式中,控制系统的功能可以被包括在多于一个装置中。在一些示例中,设备可以是另一个装置的部件。
除非另外特别声明,从以下讨论中清晰可见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算装置的将表示为物理(如电子)量的数据操纵和/或转化为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据转化为例如可以被存储在寄存器和/或存储器中的其他电子数据的任何装置或装置的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,该处理器接受包含一组指令的计算机可读(也称为机器可读)代码,该指令在由一个或多个处理器执行时执行本文描述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入装置,如字母数字输入单元(如键盘)、定点控制装置(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。一些配置中的处理系统可以包括声音输出装置和网络接口装置。存储器子系统因此包括携带计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括一组指令,该指令在由一个或多个处理器执行时使得执行本文描述的方法中的一种或多种。应当注意的是,当该方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器可以作为独立装置运行,或者可以在联网部署中被连接,例如,联网到其他处理器,该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等(peer-to-peer)或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或共同地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,例如为用于在一个或多个处理器(例如,作为web服务器装置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、如专用设备的设备、如数据处理系统的设备、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,该一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,该载体介质携带体现在该介质中的计算机可读程序代码。
可以经由网络接口装置通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,该指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,该一组指令在被执行时实施方法;以及网络中的传输介质,该传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示一组指令的传播信号。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性被包括在本公开的至少一个示例实施例中。因此,在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的元件/特征,但不排除其他。因此,当在权利要求中使用术语“包括(comprising)”时,该术语不应当被解释为限于在其之后列出的装置或元件或步骤。例如,包括A和B的装置的表达的范围不应限于仅包括元件A和B的装置。如本文所使用的,术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语,其也意指至少包括所述术语之后的元件/特征,但不排除其他。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
应当理解,在以上对本公开的示例实施例的描述中,有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起,以便使本公开更流畅,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在以下权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了什么被认为是本公开的最佳模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
1.一种处理包括针对至少一个声源的指向性信息的音频内容的方法,所述指向性信息包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益,所述方法包括:
将用于排列在3D球体的表面上的单位向量的数量确定为计数数量,其中,单位向量的所述数量与期望的表示准确度有关;
通过使用预定排列算法将所确定数量的单位向量分布在所述3D球体的所述表面上来生成第二集合的第二指向性单位向量,其中,所述预定排列算法是用于所述单位向量在所述3D球体的所述表面上近似均匀球面分布的算法;以及
针对所述第二指向性单位向量,基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的所述第一指向性增益,确定相关联的第二指向性增益。
2.根据EEE 1所述的方法,其中,确定单位向量的所述数量,使得所述单位向量当由所述预定排列算法分布在所述3D球体的所述表面上时,将以达到所述期望的表示准确度近似由所述第一集合的第一指向性单位向量指示的方向。
3.根据EEE 1或2所述的方法,其中,确定单位向量的所述数量,使得当所述单位向量由所述预定排列算法分布在所述3D球体的所述表面上时,对于所述第一集合中的每个所述第一指向性单位向量,将有所述单位向量中的至少一个单位向量相对于相应的第一指向性单位向量的方向差小于所述期望的表示准确度。
4.根据前述EEE中任一项所述的方法,其中,确定单位向量的所述数量涉及使用表示准确度与单位向量的对应数量之间的预先建立的函数关系,所述单位向量由所述预定排列算法分布在所述3D球体的所述表面上并且以达到相应的表示准确度近似由所述第一集合的第一指向性单位向量指示的所述方向。
5.根据前述EEE中任一项所述的方法,其中,针对给定的第二指向性单位向量确定所述相关联的第二指向性增益涉及:
将所述第二指向性增益设置为所述第一指向性增益,所述第一指向性增益与最接近所述给定的第二指向性单位向量的那个第一指向性单位向量相关联。
6.根据前述EEE中任一项所述的方法,其中,所述预定排列算法涉及在所述3D球体的所述表面上叠加螺旋路径,所述螺旋路径从所述球体上的第一点延伸到所述球体上与所述第一点相对的第二点,以及沿所述螺旋路径接连排列所述单位向量,
其中,基于单位向量的所述数量来确定所述螺旋路径的间距和沿所述螺旋路径的相应两个相邻单位向量之间的偏移。
7.根据前述EEE中任一项所述的方法,其中,确定单位向量的所述数量进一步涉及将单位向量的所述数量映射到预定数量之一,其中,所述预定数量能够通过比特流参数用信号传输。
8.根据前述EEE中任一项所述的方法,其中,基于人类收听者的感知指向性灵敏度阈值的模型来确定所述期望的表示准确度。
9.根据前述EEE中任一项所述的方法,其中,所述第二集合的第二指向性单位向量的基数小于所述第一集合的第一指向性单位向量的基数。
10.根据前述EEE中任一项所述的方法,其中,所述第一指向性单位向量和所述第二指向性单位向量在球面坐标系或笛卡尔坐标系中表示。
11.根据前述EEE中任一项所述的方法,其中,由所述第一集合的第一指向性单位向量和相关联的第一指向性增益表示的所述指向性信息以SOFA格式存储;和/或
其中,由所述第二集合的第一指向性单位向量和相关联的第二指向性增益表示的所述指向性信息以SOFA格式存储。
12.根据前述EEE中任一项所述的方法,其中,所述方法是对所述音频内容进行编码的方法,并且进一步包括:
将单位向量的所述确定数量与所述第二指向性增益一起编码到比特流中;以及输出所述比特流。
13.一种对包括针对至少一个声源的指向性信息的音频内容进行解码的方法,所述指向性信息包括指示在3D球体的表面上近似均匀分布的单位向量的数量的数量,以及对于每个这样的单位向量的相关联的指向性增益,其中,假设所述单位向量由预定排列算法分布在所述3D球体的所述表面上,其中,所述预定排列算法是用于所述单位向量在所述3D球体的所述表面上近似均匀球面分布的算法,所述方法包括:
接收包括所述音频内容的比特流;
从所述比特流中提取所述数量和所述指向性增益;以及
通过使用所述预定排列算法将所述数量的单位向量分布在所述3D球体的表面上来生成指向性单位向量集合。
14.根据前述EEE所述的方法,其进一步包括:
对于从所述声源指向收听者位置的给定目标指向性单位向量,基于与所述目标指向性单位向量最接近的一组指向性单位向量中的一个或多个指向性单位向量的所述相关联的指向性增益针对所述目标指向性单位向量来确定目标指向性增益。
15.根据前述EEE所述的方法,其中,针对所述目标指向性单位向量确定所述目标指向性增益涉及:
将所述目标指向性增益设置为所述指向性增益,所述指向性增益与最接近所述目标指向性单位向量的那个指向性单位向量相关联。
16.一种对包括针对至少一个声源的指向性信息的音频内容进行解码的方法,所述指向性信息包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益,所述方法包括:
接收包括所述音频内容的比特流;
从所述比特流中提取所述第一集合的指向性单位向量和所述相关联的第一指向性增益;
将用于排列在3D球体的表面上的向量的数量确定为计数数量,其中,单位向量的所述数量与期望的表示准确度有关;
通过使用预定排列算法将所述确定数量的单位向量分布在所述3D球体的所述表面上来生成第二集合的第二指向性单位向量,其中,所述预定排列算法是用于所述单位向量在所述3D球体的所述表面上近似均匀球面分布的算法;
针对所述第二指向性单位向量,基于与相应的第二指向性单位向量最接近的一组第一指向性单位向量中的一个或多个第一指向性单位向量的所述第一指向性增益,确定相关联的第二指向性增益;以及
对于从所述声源指向收听者位置的给定目标指向性单位向量,基于与所述目标指向性单位向量最接近的一组第二指向性单位向量中的一个或多个第二指向性单位向量的所述相关联的第二指向性增益针对所述目标指向性单位向量来确定目标指向性增益。
17.根据EEE 16所述的方法,其中,针对所述目标指向性单位向量确定所述目标指向性增益涉及:
将所述目标指向性增益设置为所述第二指向性增益,所述第二指向性增益与最接近所述目标指向性单位向量的那个第二指向性单位向量相关联。
18.根据EEE 16所述的方法,进一步包括:
从所述比特流中提取是否应该生成所述第二集合的指向性单位向量的指示;以及
如果所述指示表明应该生成所述第二集合的指向性单位向量,则确定单位向量的所述数量并且生成所述第二集合的第二指向性单位向量。
19.一种用于处理包括针对用于至少一个声源的指向性信息的音频内容的设备,所述指向性信息包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益,所述设备包括被适配成执行根据EEE 1至12中任一项所述的方法的步骤的处理器。
20.一种用于对包括针对至少一个声源的指向性信息的音频内容进行解码的设备,所述指向性信息包括指示在3D球体的表面上近似均匀分布的单位向量的数量的数量,以及对于每个这样的单位向量相关联的指向性增益,其中,假设所述单位向量由预定排列算法分布在所述3D球体的所述表面上,其中,所述预定排列算法是用于所述单位向量在所述3D球体的所述表面上近似均匀球面分布的算法,所述设备包括被适配成执行根据EEE 13至15中任一项所述的方法的步骤的处理器。
21.一种用于对包括针对至少一个声源的指向性信息的音频内容进行解码的设备,所述指向性信息包括表示指向性方向的第一集合的第一指向性单位向量和相关联的第一指向性增益,所述设备包括被适配成执行根据EEE 16至18中任一项所述的方法的步骤的处理器。
22.一种包括指令的计算机程序,所述指令当由处理器执行时使所述处理器执行根据EEE 1至18中任一项所述的方法。
23.一种计算机可读介质,存储有根据EEE 22所述的计算机程序。
Claims (5)
1.一种处理包括针对至少一个声源的指向性信息的音频内容的方法,所述方法包括:
基于期望的表示准确度,将用于排列在3D球体的表面上的单位向量的数量确定为计数数量;
通过使用预定排列算法将所确定数量的单位向量分布在所述3D球体的所述表面上来生成第二指向性单位向量的集合;
针对所述第二指向性单位向量,基于第一指向性增益来确定相关联的第二指向性增益;
将单位向量的所确定数量与所述第二指向性增益一起编码到比特流中;以及
输出所述比特流。
2.根据权利要求1所述的方法,其中,输出所述比特流包括:
输出所述比特流以传输到解码器或存储在存储介质上。
3.一种设备,包括处理器,所述处理器被适配成执行根据权利要求1至2中任一项所述的方法。
4.一种包括指令的计算机程序,所述指令当由处理器执行时使所述处理器执行根据权利要求1至2中任一项所述的方法。
5.一种计算机可读介质,所述计算机可读介质存储有根据权利要求4所述的计算机程序。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962869622P | 2019-07-02 | 2019-07-02 | |
US62/869,622 | 2019-07-02 | ||
EP19183862.2 | 2019-07-02 | ||
EP19183862 | 2019-07-02 | ||
CN202080052257.5A CN114127843B (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
PCT/EP2020/068380 WO2021001358A1 (en) | 2019-07-02 | 2020-06-30 | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080052257.5A Division CN114127843B (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959461A true CN116959461A (zh) | 2023-10-27 |
Family
ID=71138767
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310892063.1A Pending CN116978387A (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
CN202310892061.2A Pending CN116959461A (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
CN202080052257.5A Active CN114127843B (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310892063.1A Pending CN116978387A (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080052257.5A Active CN114127843B (zh) | 2019-07-02 | 2020-06-30 | 用于离散指向性数据的表示、编码和解码的方法、设备和系统 |
Country Status (13)
Country | Link |
---|---|
US (2) | US11902769B2 (zh) |
EP (1) | EP3994689B1 (zh) |
JP (1) | JP7576582B2 (zh) |
KR (1) | KR20220028021A (zh) |
CN (3) | CN116978387A (zh) |
AU (1) | AU2020299973A1 (zh) |
BR (1) | BR112021026522A2 (zh) |
CA (1) | CA3145444A1 (zh) |
CL (1) | CL2021003533A1 (zh) |
IL (1) | IL289261B2 (zh) |
MX (1) | MX2021016056A (zh) |
TW (1) | TW202117705A (zh) |
WO (1) | WO2021001358A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117716424A (zh) * | 2021-05-27 | 2024-03-15 | 弗劳恩霍夫应用研究促进协会 | 方向性编解码 |
WO2024214318A1 (ja) * | 2023-04-14 | 2024-10-17 | ソニーグループ株式会社 | 情報処理装置および方法、並びにプログラム |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030170006A1 (en) | 2002-03-08 | 2003-09-11 | Bogda Peter B. | Versatile video player |
CA2552125C (en) | 2005-07-19 | 2015-09-01 | General Mills Marketing, Inc. | Dough compostions for extended shelf life baked articles |
DE102007018484B4 (de) | 2007-03-20 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen |
ES2663269T3 (es) | 2007-06-11 | 2018-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio para codificar una señal de audio que tiene una porción similar a un impulso y una porción estacionaria |
US8817991B2 (en) * | 2008-12-15 | 2014-08-26 | Orange | Advanced encoding of multi-channel digital audio signals |
JP2011221688A (ja) | 2010-04-07 | 2011-11-04 | Sony Corp | 認識装置、認識方法、およびプログラム |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP3239978B1 (en) | 2011-02-14 | 2018-12-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
ES2871224T3 (es) | 2011-07-01 | 2021-10-28 | Dolby Laboratories Licensing Corp | Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo |
EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
US9131305B2 (en) | 2012-01-17 | 2015-09-08 | LI Creative Technologies, Inc. | Configurable three-dimensional sound system |
EP2688066A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9197962B2 (en) * | 2013-03-15 | 2015-11-24 | Mh Acoustics Llc | Polyhedral audio system based on at least second-order eigenbeams |
CN104240711B (zh) | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
CN104464739B (zh) * | 2013-09-18 | 2017-08-11 | 华为技术有限公司 | 音频信号处理方法及装置、差分波束形成方法及装置 |
EP2863386A1 (en) | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
US10412522B2 (en) | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
EP2960903A1 (en) | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
US10693936B2 (en) | 2015-08-25 | 2020-06-23 | Qualcomm Incorporated | Transporting coded audio data |
CN106093866A (zh) | 2016-05-27 | 2016-11-09 | 南京大学 | 一种适用于空心球阵列的声源定位方法 |
WO2017218973A1 (en) | 2016-06-17 | 2017-12-21 | Edward Stein | Distance panning using near / far-field rendering |
CN105976822B (zh) | 2016-07-12 | 2019-12-03 | 西北工业大学 | 基于参数化超增益波束形成器的音频信号提取方法及装置 |
MC200185B1 (fr) * | 2016-09-16 | 2017-10-04 | Coronal Audio | Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel |
EP3297298B1 (en) | 2016-09-19 | 2020-05-06 | A-Volute | Method for reproducing spatially distributed sounds |
US10674301B2 (en) | 2017-08-25 | 2020-06-02 | Google Llc | Fast and memory efficient encoding of sound objects using spherical harmonic symmetries |
BR112020011026A2 (pt) | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
CN108419174B (zh) | 2018-01-24 | 2020-05-22 | 北京大学 | 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 |
-
2020
- 2020-06-30 CN CN202310892063.1A patent/CN116978387A/zh active Pending
- 2020-06-30 US US17/621,547 patent/US11902769B2/en active Active
- 2020-06-30 CN CN202310892061.2A patent/CN116959461A/zh active Pending
- 2020-06-30 MX MX2021016056A patent/MX2021016056A/es unknown
- 2020-06-30 CN CN202080052257.5A patent/CN114127843B/zh active Active
- 2020-06-30 IL IL289261A patent/IL289261B2/en unknown
- 2020-06-30 EP EP20734565.3A patent/EP3994689B1/en active Active
- 2020-06-30 AU AU2020299973A patent/AU2020299973A1/en active Pending
- 2020-06-30 WO PCT/EP2020/068380 patent/WO2021001358A1/en unknown
- 2020-06-30 BR BR112021026522A patent/BR112021026522A2/pt unknown
- 2020-06-30 CA CA3145444A patent/CA3145444A1/en active Pending
- 2020-06-30 KR KR1020227002986A patent/KR20220028021A/ko unknown
- 2020-06-30 JP JP2021578040A patent/JP7576582B2/ja active Active
- 2020-07-02 TW TW109122445A patent/TW202117705A/zh unknown
-
2021
- 2021-12-28 CL CL2021003533A patent/CL2021003533A1/es unknown
-
2024
- 2024-01-11 US US18/410,891 patent/US20240223984A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
IL289261B1 (en) | 2024-03-01 |
TW202117705A (zh) | 2021-05-01 |
MX2021016056A (es) | 2022-03-11 |
BR112021026522A2 (pt) | 2022-02-15 |
CN114127843B (zh) | 2023-08-11 |
EP3994689B1 (en) | 2024-01-03 |
US11902769B2 (en) | 2024-02-13 |
US20220377484A1 (en) | 2022-11-24 |
CN114127843A (zh) | 2022-03-01 |
AU2020299973A1 (en) | 2022-01-27 |
CA3145444A1 (en) | 2021-01-07 |
CN116978387A (zh) | 2023-10-31 |
CL2021003533A1 (es) | 2022-08-19 |
KR20220028021A (ko) | 2022-03-08 |
JP2022539217A (ja) | 2022-09-07 |
WO2021001358A1 (en) | 2021-01-07 |
JP7576582B2 (ja) | 2024-10-31 |
IL289261A (en) | 2022-02-01 |
US20240223984A1 (en) | 2024-07-04 |
IL289261B2 (en) | 2024-07-01 |
EP3994689A1 (en) | 2022-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10567903B2 (en) | Audio processing apparatus and method, and program | |
US11438723B2 (en) | Apparatus and method for generating a plurality of audio channels | |
CN106471822B (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 | |
US20240223984A1 (en) | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data | |
CN107077852B (zh) | 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示 | |
EP3332557B1 (en) | Processing object-based audio signals | |
CN106471580B (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 | |
CN111869241B (zh) | 用于使用多通道扬声器系统的空间声音再现的装置和方法 | |
EP3777242B1 (en) | Spatial sound rendering | |
RU2812145C2 (ru) | Способы, устройство и системы для представления, кодирования и декодирования дискретных данных направленности |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |