CN112219411B - 空间声音渲染 - Google Patents
空间声音渲染 Download PDFInfo
- Publication number
- CN112219411B CN112219411B CN201980035666.1A CN201980035666A CN112219411B CN 112219411 B CN112219411 B CN 112219411B CN 201980035666 A CN201980035666 A CN 201980035666A CN 112219411 B CN112219411 B CN 112219411B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- spatial
- parameter
- signal
- ambient energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009877 rendering Methods 0.000 title description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 354
- 238000009826 distribution Methods 0.000 claims abstract description 165
- 230000007613 environmental effect Effects 0.000 claims abstract description 62
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 21
- 238000009792 diffusion process Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 description 29
- 238000004458 analytical method Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000004091 panning Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012732 spatial analysis Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003891 environmental analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
Abstract
一种用于空间音频信号解码的装置,所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
Description
技术领域
本申请涉及用于空间声音渲染的装置和方法。这包括但不限于用于多声道扬声器设置的空间声音渲染。
背景技术
参数化空间音频处理是音频信号处理的一个领域,其中使用参数集描述声音的空间方面。例如,在从麦克风阵列进行参数化空间音频捕获中,从麦克风阵列信号中估计参数集是一种典型而有效的选择,该参数集例如频带中声音的方向,以及表示在频带中所捕获声音的定向和非定向部分的相对能量的比率参数。众所周知,这些参数很好地描述了麦克风阵列的位置处的所捕获声音的感知空间特性。这些参数可以相应地用于空间声音的合成,用于双耳式耳机、用于扬声器或其他格式,例如全景声(Ambisonics)。
因此,频带中的方向和直接与总体能量比(direct-to-total energy ratio)是对空间音频捕获特别有效的参数化。
由频带中的方向参数和频带中的能量比参数(指示定向的声音能量的比例)组成的参数集也可以用作用于音频编解码器的空间元数据。例如,可以从麦克风阵列捕获的音频信号估计这些参数,并且例如可以从麦克风阵列信号生成立体声信号,以与空间元数据一起传送。立体声信号可以例如用AAC编码器编码。解码器可以将音频信号解码为PCM信号,并处理频带中的声音(使用空间元数据)以获取空间输出,例如双耳输出。
参数化编码器输入格式可以是一种或几种输入格式。示例输入格式是一阶全景声(FOA)格式。在与定向音频编码(DirAC)和谐波平面波扩展(Harpex)相关的科学文献中记录了分析FOA输入以进行空间元数据提取。这是因为存在能够直接提供FOA信号(或者具体来说是变体,B格式信号)的专业麦克风阵列,并且已经实现了对这种输入的分析。
发明内容
提供了一种装置,该装置包括至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
被致使基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号的所述装置,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布,可以被进一步致使:基于所述空间元数据将所述至少一个相关联的音频信号划分为直接部分和漫射(diffuse)部分;基于所述至少一个相关联的音频信号的所述直接部分和所述至少一个定向参数来合成直接音频信号;基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数,确定漫射部分增益;基于所述至少一个相关联的音频信号的所述漫射部分和所述漫射部分增益来合成漫射音频信号;以及组合所述直接音频信号和所述漫射音频信号以生成所述至少一个输出音频信号。
被致使基于所述至少一个相关联的音频信号的所述漫射部分来合成漫射音频信号的所述装置可以被致使:对所述至少一个相关联的音频信号进行去相关。
被致使基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数来确定所述漫射部分增益的所述装置可以被致使:确定原型输出信号集所指向的方向;对于所述原型输出信号集中的每一个,确定所述原型输出信号的方向是否在由表示所述至少一个空间音频信号的环境能量分布的至少一个参数所定义的扇区内;将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益。
被致使将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益的所述装置可以被致使为:将与所述扇区内的原型输出信号相关联的增益设置为1;将与所述扇区外的原型输出信号相关联的增益设置为0;以及将所述收益的平方和归一化为单位值(unity)。
被致使接收包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数的空间元数据的所述装置可以被致使执行以下至少一项:分析所述至少一个空间音频信号,以确定表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数;以及接收表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数。
表示所述空间音频信号的定向信息的所述至少一个定向参数可以包括以下至少一项:至少一个表示到达方向的方向参数;与所述至少一个方向参数相关联的漫射参数;以及与所述至少一个方向参数相关联的能量比参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以包括以下至少一项:第一参数,所述第一参数包括与具有局部最大的平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;以具有所述局部最大的平均环境能量的所述至少一个空间扇区的范围角为基础的至少一个其他参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以是在逐个频带的基础上表示的参数。
根据第二方面,提供了一种用于空间音频信号处理的装置,所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器促使所述装置至少:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
被致使为确定包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数的所述空间元数据的所述装置还可被进一步致使为:基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号;基于所述定向模式滤波信号,确定每空间扇区的环境能量的加权时间平均值;确定具有局部最大平均环境能量的至少一个空间扇区,并生成第一参数,所述第一参数包括与具有所述局部最大平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;基于相邻空间扇区的平均环境能量与所述局部最大平均环境能量的比较来确定所述局部最大平均环境能量的范围角,并以具有所述局部最大平均环境能量的所述至少一个空间扇区的范围角为基础生成至少一个其他参数。
被致使基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号的所述装置可以被致使:形成由所述方位角和/或所述仰角定义的虚拟心形信号。
被致使确定与所述至少一个空间音频信号相关联的空间元数据的所述装置,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数,可以被致使:在逐个频带的基础上确定空间元数据。
根据第三方面,提供了一种用于空间音频信号解码的方法,所述方法包括:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布,可以进一步包括:基于所述空间元数据将所述至少一个相关联的音频信号划分为直接部分和漫射部分;基于所述至少一个相关联的音频信号的所述直接部分和所述至少一个定向参数来合成直接音频信号;基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数,确定漫射部分增益;基于所述至少一个相关联的音频信号的所述漫射部分和所述漫射部分增益来合成漫射音频信号;以及组合所述直接音频信号和所述漫射音频信号以生成所述至少一个输出音频信号。
基于所述至少一个相关联的音频信号的所述漫射部分来合成漫射音频信号可以包括:对所述至少一个相关联的音频信号去相关。
基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数来确定所述漫射部分增益可以包括:确定原型输出信号集所指向的方向;对于所述原型输出信号集中的每一个,确定所述原型输出信号的方向是否在由表示所述至少一个空间音频信号的环境能量分布的至少一个参数所定义的扇区内;将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益。
将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益可以包括:将与所述扇区内的原型输出信号相关联的增益设置为1;将与所述扇区外的原型输出信号相关联的增益设置为0;以及将所述收益的平方和归一化为单位值。
接收包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数的空间元数据可以包括以下至少一项:分析所述至少一个空间音频信号,以确定表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数;以及接收表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数。
表示所述空间音频信号的定向信息的所述至少一个定向参数可以包括以下至少一项:表示到达方向的至少一个方向参数;与所述至少一个方向参数相关联的漫射参数;以及与所述至少一个方向参数相关联的能量比参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以包括以下至少一项:第一参数,所述第一参数包括与具有局部最大的平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;以具有所述局部最大的平均环境能量的所述至少一个空间扇区的范围角为基础的至少一个其他参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以是在逐个频带的基础上表示的参数。
根据第四方面,提供了一种用于空间音频信号处理的方法,所述方法包括:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
确定包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数的所述空间元数据还可以包括:基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号;基于所述定向模式滤波信号,确定每空间扇区的环境能量的加权时间平均值;确定具有局部最大平均环境能量的至少一个空间扇区,并生成第一参数,所述第一参数包括与具有所述局部最大平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;基于相邻空间扇区的平均环境能量与所述局部最大平均环境能量的比较来确定所述局部最大平均环境能量的范围角,并以具有所述局部最大平均环境能量的所述至少一个空间扇区的范围角为基础生成至少一个其他参数。
基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号可以包括:形成由所述方位角和/或所述仰角定义的虚拟心形信号。
确定与所述至少一个空间音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数,可以包括:在逐个频带的基础上确定空间元数据。
根据第五方面,提供了一种装置,包括用于执行以下操作的模块:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
所述用于基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号的模块,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布,可以进一步被配置用于:基于所述空间元数据将所述至少一个相关联的音频信号划分为直接部分和漫射部分;基于所述至少一个相关联的音频信号的所述直接部分和所述至少一个定向参数来合成直接音频信号;基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数,确定漫射部分增益;基于所述至少一个相关联的音频信号的所述漫射部分和所述漫射部分增益来合成漫射音频信号;以及组合所述直接音频信号和所述漫射音频信号以生成所述至少一个输出音频信号。
所述用于基于所述至少一个相关联的音频信号的所述漫射部分来合成漫射音频信号的模块可以被配置用于:对所述至少一个相关联的音频信号去相关。
所述用于基于表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数来确定所述漫射部分增益的模块可以被配置用于:确定原型输出信号集所指向的方向;对于所述原型输出信号集中的每一个,确定所述原型输出信号的方向是否在由表示所述至少一个空间音频信号的环境能量分布的至少一个参数所定义的扇区内;将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益。
所述用于将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益的模块可以被配置用于:将与所述扇区内的原型输出信号相关联的增益设置为1;将与所述扇区外的原型输出信号相关联的增益设置为0;以及将所述收益的平方和归一化为单位值。
所述用于接收包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数的空间元数据的模块可以被配置用于以下至少一项:分析所述至少一个空间音频信号,以确定表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数;以及接收表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数。
表示所述空间音频信号的定向信息的所述至少一个定向参数可以包括以下至少一项:至少一个表示到达方向的方向参数;与所述至少一个方向参数相关联的漫射参数;以及与所述至少一个方向参数相关联的能量比参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以包括以下至少一项:第一参数,所述第一参数包括与具有当地最大的平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;以具有所述当地最大的平均环境能量的所述至少一个空间扇区的范围角为基础的至少一个其他参数。
表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数可以是在逐个频带的基础上表示的参数。
根据第六方面,提供了一种用于空间音频信号处理的装置,所述装置包括用于执行以下操作的模块:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
所述用于确定包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数表示所述空间音频信号的定向信息的和至少一个定向参数的所述空间元数据的模块还可以被配置用于:基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号;基于所述定向模式滤波信号,确定每空间扇区的环境能量的加权时间平均值;确定具有局部最大平均环境能量的至少一个空间扇区,并生成包括与具有所述局部最大平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角的第一参数;基于相邻空间扇区的平均环境能量与所述局部最大平均环境能量的比较来确定所述局部最大平均环境能量的范围角,并以具有所述局部最大平均环境能量的所述至少一个空间扇区的范围角为基础生成至少一个其他参数。
所述用于基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号的模块可以被配置用于:形成由所述方位角和/或所述仰角定义的虚拟心形信号。
所述用于确定与所述至少一个空间音频信号相关联的空间元数据的模块,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数,可以被配置用于在逐个频带的基础上确定空间元数据。
根据第七方面,提供了一种装置,包括:接收电路,其被配置为接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和指示所述空间音频信号的定向信息的至少一个定向参数;合成电路,其被配置为基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
根据第八方面,提供了一种用于空间音频信号处理的装置,所述装置包括:接收电路,其被配置为接收至少一个空间音频信号;确定电路,其配置为从所述至少一个空间音频信号中确定至少一个相关联的音频信号;以及确定电路,其被配置为确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储电路,其被配置为发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
根据第九方面,提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质],用于致使装置执行至少以下操作:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
根据第十方面,提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质],用于致使装置执行至少以下操作:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
根据第十一方面,提供了一种非暂时性计算机可读介质,其包括用于致使装置至少执行以下操作的程序指令:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
根据第十二方面,提供了一种非暂时性计算机可读介质,其包括用于致使装置至少执行以下操作的程序指令:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
根据第十三方面,提供了一种计算机可读介质,其包括用于致使装置至少执行以下操作的程序指令:接收至少一个相关联的音频信号,所述至少一个相关联的音频信号基于空间音频信号;与所述至少一个相关联的音频信号相关联的空间元数据,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和指示所述空间音频信号的定向信息的至少一个定向参数;基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
根据第十四方面,提供了一种计算机可读介质,其包括用于致使装置至少执行以下操作的程序指令:接收至少一个空间音频信号;从所述至少一个空间音频信号中确定至少一个相关联的音频信号;确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述空间音频信号的定向信息的至少一个定向参数;发送和/或存储电路被配置为发送和/或存储:所述相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的所述至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数。
一种包括用于致使装置执行上述方法的程序指令的非暂时性计算机可读介质。一种被配置为执行上述方法的动作的装置。
一种包括用于使计算机执行上述方法的程序指令的计算机程序。
一种存储在介质上的计算机程序产品可以致使装置执行本文所述的方法。
一种电子设备可以包括如本文所述的装置。
一种芯片组可以包括本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出了根据一些实施例的示例空间捕获和合成器;
图2示出了根据一些实施例的操作示例空间捕获和合成器的方法的流程图;
图3示出了根据一些实施例的确定操作示例空间合成器的示例方法的流程图;
图4示出了根据一些实施例的环境能量分布参数定义的示例;
图5示意性地示出了根据一些实施例的示例空间合成器;
图6示出了根据一些实施例的操作示例空间合成器的示例方法的流程图;
图7示出了基于环境能量分布参数确定漫射流增益的示例方法的流程图;
图8示意性地示出了根据一些实施例的进一步示例空间捕获和合成器;以及
图9示意性地示出了适于实现所示装置的示例设备。
具体实施方式
下面进一步详细描述用于基于一系列音频输入格式提供有效的空间处理和渲染的合适的装置和可能的机制。
由方向和频带中的直接与总体能量比(或漫射比)参数组成的空间元数据特别适合于表达自然声场的感知特性。
然而,声音场景可以是各种类型的,并且在某些情况下,声场具有不均匀的环境能量分布(例如,仅在或主要在某些轴或空间区域处的环境)。如本文的实施例中所讨论的概念描述了当与原始空间声音相比时在再现声音处精确地再现漫射/环境声音能量的空间分布的装置和方法。
在一些实施例中,这可以是能够选择的,并且因此可以在渲染期间控制效果以确定意图是再现环境能量的均匀分布还是再现原始声音场景的环境能量的分布。在不同的实施例中,再现环境能量的均匀分布可以指的是环境能量均匀分布到不同输出声道,或者是指环境能量以空间平衡的方式分布。
下文将进一步详细讨论的概念是在比特流中添加环境能量分布元数据字段或参数,并在渲染期间利用该字段或参数以使得能够再现空间音频,从而使其更紧密地表示原始声场。
这样,下文描述的实施例涉及使用与声场相关的参数化(频带中的方向和比率)的音频编码和解码,并且其中这些实施例旨在提高用前述参数化编码的声场的再现质量。此外,这些实施例描述了通过以下来改善环境质量的情况:与定向参数一起传送环境能量分布参数,以及基于定向参数和环境能量分布参数来再现声音,从而使得环境能量分布参数影响使用频带中的方向和比率的漫射流合成。
特别地,下文讨论的实施例被配置为使用环境能量分布参数来修改漫射流合成,从而更好地再现声场的能量分布。
在一些实施例中,环境能量分布参数至少包括与所分析的环境能量分布相关联的方向和范围或宽度。
在一些实施例中,可以针对一阶全景声(FOA)输入和针对高阶全景声(HOA)输入来实现输入/处理。在使用HOA输入而不是如以下关于FOA输入所描述的那样形成虚拟心形信号的实施例中,该方法可以将虚拟心形信号c(k,n)替换为具有从零阶到第二阶或更高阶HOA分量或任何合适的手段形成的一侧定向模式(或者主要是一侧定向模式)的信号,以从HOA信号生成具有一侧定向模式的信号。
关于图1,示出了根据一些实施例的示例空间捕获和合成器。在该示例中示出了空间捕获和合成器,其接收空间音频信号100作为输入。空间音频信号100可以是任何合适的音频信号格式,例如,由多个麦克风或包括麦克风阵列的麦克风捕获的麦克风音频信号、合成音频信号、扬声器声道格式音频信号、或一阶全景声(FOA)格式或其变体(例如B格式信号)或高阶全景声(HOA)。
在一些实施例中,转换器(例如,扬声器或麦克风输入到FOA转换器)101被配置为接收输入音频信号101并将其转换为合适的FOA格式信号102。
在一些实施例中,转换器101被配置为基于对输入音频信号中的声道的位置的了解,从扬声器混合中生成FOA信号。换句话说,FOA信号的wi(t)、xi(t)、yi(t)、zi(t)分量可通过以下方式在azii和elei处从扬声器信号si(t)生成:
w、x、y、z信号是针对具有其自己的方位角和仰角方向的每个扬声器(或对象)信号si生成的。
在一些实施例中,转换器101被配置为根据任何合适的方法从麦克风阵列信号生成FOA信号。转换器可以使用线性方法从麦克风信号获取FOA信号,换句话说,在频带中应用滤波器矩阵或复增益矩阵以从麦克风阵列信号获取FOA信号。转换器可被配置为从音频信号中提取特征以及根据这些特征不同处理的信号。本文描述的实施例至少在一些频带和/或球形谐波阶和/或空间维度方面描述了自适应处理。因此,与传统的全景声(ambisonics)相对,输出和输入之间没有线性对应关系。在一些实施例中,转换器的输出在时-频域中。换句话说,在一些实施例中,转换器101被配置为应用适当的时-频变换。在一些实施例中,输入空间音频100在时-频域中,或者可以通过合适的变换或滤波器组被传递。
在一些实施例中,转换器将设计的线性滤波器的矩阵用于麦克风信号以获取球形谐波分量。一种等同的替代方法是,将麦克风信号变换到时-频域,并针对每个频带使用设计的混合矩阵来获取在时-频域中的球形谐波信号。另一种转换方法是这样的,其中空间音频捕获(SPAC)技术表示用于从麦克风阵列进行空间音频捕获并基于动态SPAC分析输出全景声格式的方法。空间音频捕获(SPAC)在这里是指使用自适应时-频分析和处理,以从任何配备麦克风阵列的设备提供高感知质量的空间音频再现的技术。在水平面上进行SPAC捕获需要至少3个麦克风,而对于3D捕获需要至少4个麦克风。SPAC方法是自适应的,换句话说,它们使用非线性方法以从当前传统线性捕获技术中提高空间准确性。
在本文档中,术语SPAC用作广义术语,涵盖提供空间音频捕获的任何自适应阵列信号处理技术。范围内的方法将分析和处理应用于频带信号中,因为这是一个对空间听觉感知有意义的域。在频带中动态分析空间元数据,例如到达声音的方向和/或确定记录的声音的定向或非定向的比率或能量参数。在再现阶段应用元数据,以便以高空间精度将空间声音动态合成到耳机或扬声器或到全景声(例如FOA)输出。例如,到达阵列的平面波可以在接收机端被再现为点源。
空间音频捕获(SPAC)再现的一种方法是定向音频编码(DirAC),其是一种使用声场强度和能量分析来提供空间元数据的方法,该空间元数据使得能够实现用于扬声器或耳机的高质量的自适应空间音频合成。另一个示例是谐波平面波扩展(Harpex),其是一种可以同时分析两个平面波的方法,可以进一步提高在某些声场条件下的空间精度。另一种方法是主要用于移动电话空间音频捕获的方法,该方法使用麦克风之间的延迟和相干分析来获取空间元数据,以及其变体用于包含更多麦克风的设备。尽管在以下示例中描述了两个变体,但是可以使用应用于获取空间元数据的任何合适方法。
空间分析器103可被配置为接收FOA信号102并生成合适的空间参数,例如方向106和比率108。空间分析器103可以例如是计算机或移动电话(运行合适的软件),或替代地,使用例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的特定设备。在转换器101采用空间音频捕获技术以将输入音频信号格式转换为FOA格式信号的一些实施例中,于是空间分析器103可以包括转换器101,或者转换器可以包括空间分析器103。
合适的空间分析方法示例是定向音频编码(DirAC)。DirAC方法可以从一阶全景声(FOA)信号估计方向和漫射比率(等同于直接与总体比率参数的信息)。
在一些实施例中,DirAC方法使用合适的时到频域变换,例如使用短时傅立叶变换(STFT),将FOA信号变换到频带,从而产生时-频信号w(k,n)、x(k,n)、y(k,n)、z(k,n),其中k为频仓(frequency bin)索引,n为时间索引。在这样的示例中,DirAC方法可以通过以下来估计强度向量:
其中,Re表示实数部分,星号*表示复共轭。强度表示传播声音能量的方向,因此方向参数可以由强度向量的相反方向确定。在一些实施例中,可以在方向参数的确定之前在几个时间和/或频率索引上对强度向量取平均。
此外,在一些实施例中,DirAC方法可以基于FOA分量来确定漫射(假设施密特半归一化(SN3D归一化))。在对漫射声的SN3D归一化中,所有全景声分量在一阶内的能量之和相等。例如,如果零阶W具有1单位的能量,则每个一阶X Y Z具有1/3单位(总和为1)的能量。以此类推至更高阶。
因此,可以将漫射确定为
漫射是一个比率值,其当声音完全为环境时为1,当声音完全为定向时为0。在一些实施例中,通常将等式中的所有参数在时间和/或频率上取平均。在某些系统中,期望运算符E[]可被替换为平均运算符。
在一些实施例中,可以根据已经以两种不同方式获取的FOA分量来分析方向参数和漫射参数。特别地,在该实施例中,可以从如上所述的信号分析方向参数。可以从被表示为的并在下面更详细描述的另一FOA信号集中分析漫射。作为一个特定示例,考虑从具有扬声器(方位角为0、+/-30和+/-110(所有仰角为零,对于所有i,cos(elei)=1、sin(elei)=0)的5.0输入到FOA分量的转换。用于方向参数分析的FOA分量按以下方式获取:
漫射可以从如下获取的另一FOA信号集中分析:
其中,是修改后的虚拟扬声器位置。用于漫射分析的修改后的虚拟扬声器位置被获取,从而使得虚拟扬声器在创建FOA信号时以均匀的间距定位。用于漫射分析的虚拟扬声器的这种均匀间隔的定位的好处在于,非相干声音从虚拟麦克风周围的不同方向均匀到达,并且强度向量的时间平均值加起来接近零。在5.0的情况下,修改后的虚拟扬声器位置为0、+/-72、+/-144度。因此,虚拟扬声器具有恒定的72度间距。
可以为其他扬声器配置创建类似的修改后的虚拟扬声器位置,以确保相邻扬声器之间的间距恒定。在本发明的实施例中,通过将整个360度除以水平面中的扬声器的数量来获取修改后的虚拟扬声器的间距。然后,通过从中央扬声器或其他合适的起始扬声器开始以所获取的间距定位虚拟扬声器,来获取修改后的虚拟扬声器位置。
在一些实施例中,可以确定替代的比率参数,例如直接与总体能量比率,其可以通过以下方式获取:
r(k,n)=1-ψ(k,n)
当取平均时,可以在结合几个频仓k(例如近似于巴克频率分辨率)的频带中确定漫射(和方向)参数。
如上所述,DirAC是确定方向和比率元数据的一种可能的空间分析方法选项。可以根据任何合适的方法来确定也称为空间元数据或元数据的空间音频参数。例如,通过模拟麦克风阵列并使用空间音频捕获(SPAC)算法。此外,空间元数据可以包括(但不限于):方向和直接与总体能量比率;方向和漫射;声道间电平差、声道间相位差和声道间相干性。在一些实施例中,在时-频域中确定这些参数。应该注意的是,也可以使用除上述参数之外的其他参数化。一般而言,通常,空间音频参数化描述声音是如何在空间中大体地(例如,使用方向)或相对地(例如,作为某些声道之间的电平差)分布的。
传输信号生成器105还被配置为接收FOA信号102并生成合适的传输音频信号110。传输音频信号也可以被称为相关联的音频信号,并且基于包含声场的定向信息并被输入到该系统中的空间音频信号。应当理解,在这种上下文中的声场可以指的是具有定向信息的捕获的自然声场,或者是指利用已知的混合和音频处理手段创建的具有定向信息的环绕声场景。传输信号生成器105可被配置为生成任何合适数量的传输音频信号(或声道),例如,在一些实施例中,传输信号生成器被配置为生成两个传输音频信号。在一些实施例中,传输信号生成器105还被配置为对音频信号进行编码。例如,在一些实施例中,可以使用高级音频编码(AAC)或增强的语音服务(EVS)压缩编码来对音频信号进行编码。在一些实施例中,传输信号生成器105可被配置为均衡音频信号、应用自动噪声控制、动态处理或任何其他合适的处理。在一些实施例中,传输信号生成器105可以将空间分析器103的输出作为输入,以促进传输信号110的生成。在一些实施例中,代替FOA信号102,传输信号生成器105可以采用空间音频信号100以生成传输信号。
环境能量分布分析器107还可被配置为接收空间分析器103的输出和FOA信号102,并生成环境能量分布参数104。
环境能量分布参数104、空间元数据(方向106和比率108)和传输音频信号110可以被发送或存储例如在一些存储设备107(例如存储器)中,或者替代地直接在相同设备中被处理。在一些实施例中,可以通过适当的编码和/或复用操作将环境能量分布参数104、空间元数据106、108和传输音频信号110编码或量化或组合或复用为单个数据流。在一些实施例中,编码的音频信号与诸如mp4容器之类的媒体容器中的视频流(例如360度视频)捆绑在一起,以被发送给合适的接收机。
合成器111被配置为接收环境能量分布参数104、传输音频信号110、诸如方向106和比率108之类的空间参数,并生成扬声器音频信号112。
合成器111例如可被配置为通过采用空间声音再现来生成扬声器音频信号,其中3D空间中的声音被定位于任意方向。例如,合成器111可以是计算机或移动电话(运行合适的软件),或者替代地是例如利用FPGA或ASIC的特定设备。基于数据流(传输音频信号和元数据)。合成器111可被配置为产生输出音频信号。对于耳机收听,输出信号可以是双耳信号。在一些其他场景中,输出信号可以是全景声信号,或采用一些其他所需输出格式的信号。
在一些实施例中,空间分析器和合成器(以及本文所述的其他组件)可以被实现在相同设备内,并且也可以是相同软件的一部分。
关于图2,示出了图1所示的装置的操作的示例概要。
初始操作是接收空间音频信号(例如扬声器-5.0格式、麦克风格式),如图2中通过步骤201所示。
如图2中通过步骤203所示,可以将接收到的扬声器格式音频信号转换为FOA信号或流。
可以分析转换后的FOA信号以生成空间元数据(例如,方向和/或能量比),如图2中通过步骤205所示。
可以从转换后的FOA信号确定环境能量分布参数,并且在图2中通过步骤207示出来自空间分析器的输出。
转换后的FOA信号也可以被处理以生成传输音频信号,如图2中通过步骤209所示。
然后可以可选地组合环境能量分布参数、传输音频信号和元数据以形成数据流,如图2中通过步骤211所示。
然后,可以发送和接收(或存储和检索)环境能量分布参数、传输音频信号和元数据(或组合数据流),如图2中通过步骤213所示。
在已经接收或检索了环境能量分布参数、传输音频信号和元数据(或数据流)之后,可以至少基于环境能量分布参数、传输音频信号和元数据来合成输出音频信号,如图2中通过步骤215所示。
合成的音频信号输出信号然后可被输出给合适的输出。
关于图3,进一步详细示出了环境能量分布分析器107的操作。
对环境能量分布的分析基于以下:根据时间(在频带中)分析空间扇区处的环境能量,找到至少最大环境能量的方向,以及至少基于最大环境能量的方向对环境能量分布进行参数化。
因此,环境能量分布分析器可以使用该方法获取多个这样的空间方向。可以例如以45度间隔的均匀分布的方位角来获取空间方向。
其中w(k,n)、x(k,n)、y(k,n)、z(k,n)是FOA时频信号,其中k为频仓索引,n为时间索引。w(k,n)是全向信号,x(k,n)、y(k,n)、z(k,n)是与笛卡尔坐标轴相对应的偶极子。于是,心形信号被获取为
其中,N是用于将信号转换到频域的离散傅立叶变换的长度,并且r(k,n)是直接与总体能量比率。
在图3中通过步骤301示出了基于FOA信号的虚拟心形信号的生成。
环境能量分布分析器于是可被配置为计算每空间扇区的环境能量的加权时间平均。例如,这可以通过以下方式获取:
其中,α=0.1。
在图3中通过步骤303示出了每空间扇区的环境能量的加权时间平均值的生成。
环境能量分布分析器于是可被配置为确定具有最大平均环境能量的空间扇区。这可被确定为:
在图3中通过步骤305示出了具有最大平均环境能量的扇区的确定。
在图3中通过步骤307示出了存储具有最大平均环境能量的扇区的方位角和仰角的操作。
于是,环境能量分布分析器可以确定环境能量分布的范围(或宽度或展开(spread))。这可以通过检查其他空间方向θ=ρ,上的平均环境能量值来完成,使得并且是ρ,σ的相邻空间扇区。如果此相邻空间扇区的环境大于阈值乘以最大值,在该空间扇区上扩展环境空间范围。也就是说,如果满足条件
阈值thr的合适值=0.9。如果以上条件对空间扇区ρ,σ适用,则环境分布范围被扩展在空间扇区ρ,σ上。
通常,可以通过将具有不同的已知能量分布的合成环境信号输入到分析方法中,并监控具有不同阈值的所估计环境能量分布参数,来获取合适的阈值参数thr值。此外,可以收听以不同阈值获取的利用不同环境能量分布参数值合成的音频信号,并且可以基于给出最接近原始空间音频场的听觉感知的参数值来选择阈值。
于是,对所有相邻空间扇区重复上述平均环境能量值的检查,和有条件地将其包含在环境分布范围内。在相邻空间扇区已经被处理之后,环境能量分布分析器然后可以对那些满足以上条件的空间扇区重复以上处理。因此,环境能量分布分析器可以再次检查相邻空间扇区并扩展环境能量分布以跨越满足上述条件的这种空间扇区。
当没有空间扇区剩余或没有更多空间扇区满足该条件时,此范围确定终止。结果,该过程返回具有高于该阈值的环境能量的空间扇区的列表。环境能量分布的范围被定义为使得其覆盖找到的空间扇区。
在图3中通过步骤309示出了对环境能量分布的范围的确定。
然后,可以如图3中通过步骤311所示的那样存储环境能量分布的范围。
上述过程能够找到在某个空间扇区中支配环境能量的连续空间扇区(单峰(unimodal)环境能量分布)。
这样的示例可以在图4中示出,图4示出了由扇区411内的ambianceAzi 401向量定义的环境能量分布的中心。此外,还示出了由ambianceExtent 403角度定义的环境能量分布的范围,其在该示例中扩展到标记为412和413的相邻扇区。在此示例中,ambianceAzi等于45/2度,而ambianceExtent等于135度。
在一些实施例中,环境能量分布分析器可以可选地确定第二环境能量扇区。这可以在这样的情况下的示例实施例中实现,其中,与第二最大环境能量相对应的空间扇区足够远离与最大能量相对应的空间扇区。例如,如果它大约在空间音频场的相对侧。在这种情况下,可以将用于环境能量分布的第二中心定义为与第二最大环境能量值相对应的方向。环境能量分布的第二部分也可以以类似于第一部分的方式获取范围参数。这使环境能量分布分析器能够描述双峰环境能量分布,例如在空间音频场的相对侧处的音频源。
在一些实施例中,环境能量分布分析器可被配置为输出以下参数(其用信号发送给解码器/合成器:
ambianceAzi:度(所分析的环境能量分布的中心的方位角)
ambianceEle:度(所分析的环境能量分布的中心的仰角)
ambianceExtent:度(所分析的环境能量分布的宽度)
在一些实施例中,可能存在以上参数中的几个,每个参数描述了重大环境能量的扇区。
在一些实施例中,环境能量分布参数的每个扇区都有比率参数。该比率参数描述一个扇区中的环境能量与总环境能量的比率(ambianceSectorEnergyRatio)。
可以在该编码器处针对每个帧更新这些参数。在一些实施例中,可以以较低速率用信号发送这些参数(较少频繁地发送给解码器/合成器)。在一些实施例中,非常低的更新速率(例如每秒一次)就足够了。缓慢的更新速率可以确保渲染的空间能量分布不会改变得太快。
在输入是采用扬声器输入格式的一些实施例中,一些实施例可以直接在扬声器声道上执行分析。在这些实施例中,代替形成虚拟心形信号,该方法可以在时-频域中直接用输入扬声器声道代替虚拟心形信号c(k,n)。
此外,在一些实施例中,可以针对更高阶混音(HOA)输入来实现输入/处理。在这些实施例中,代替形成虚拟心形信号,该方法可以将虚拟心形信号c(k,n)替换为具有从零阶到第二阶或更高阶HOA分量或任何合适的手段形成的一侧定向模式(或者主要是一侧定向模式)的信号,以从HOA信号生成具有一侧定向模式的信号。
关于图5,示出了根据一些实施例的示例性合成器111。
在一些实施例中,合成器111的输入可以是方向106、比率108空间元数据、传输音频信号流110(其可能已经被解码为FOA信号)以及输入环境能量分布参数104。系统的其他输入可以是启用/禁用550输入。
原型输出信号生成器501可被配置为接收传输音频信号110,并从中生成原型输出信号。传输音频信号流110可以在时域中并且在生成原型输出信号之前被转换到时-频域。从两个传输信号到原型信号的示例生成可以是通过以下进行:将左侧原型输出声道设置为左传输声道的副本,将右侧原型输出声道设置为右传输声道的副本,以及中心(或中间)原型声道为左右传输声道的混合。原型输出信号的示例是虚拟麦克风信号,其当传输信号实际上是FOA信号时尝试重新生成虚拟麦克风信号。
平方根(比率)处理器503可以接收比率108并生成该值的平方根。
第一增益级509(直接信号生成器)可以接收比率的平方根,并将其应用于原型输出信号以生成直接音频信号部分。
VBAP 507被配置为接收方向106并生成合适的VBAP增益。
生成VBAP增益的示例方法可以基于
1)自动对扬声器设置进行三角测量,
2)基于方向选择合适的三角形(使得对于给定的方向,选择三个扬声器,这些扬声器形成了给定方向所属的三角形),并且
3)计算形成该特定三角形的该三个扬声器的增益。
在一些实施例中,VBAP增益(对于每个方位角和仰角)和扬声器三元组(triplet)或其他合适数量的扬声器或扬声器节点(针对每个方位角和仰角)可以被预先公式化为存储在存储器中的查找表。在一些实施例中,实时方法然后通过从存储器中找到针对所需的平移(panning)方向的适当的扬声器三元组(或数量)以及针对这些扬声器对应于所需平移方向的增益,来执行幅度平移。
VBAP的第一阶段是将3D扬声器设置划分成三角形。三角测量的生成没有单一的解决方案,并且可以以多种方式对扬声器设置进行三角测量。在一些实施例中,尝试寻找最小尺寸的三角形或多边形(在具有尽可能相等长度的三角形和边内没有扬声器)。在一般情况下,这是一种有效的方法,因为它平等地对待任何方向的听觉对象,并尝试最小化与用于在该方向上创建听觉对象的扬声器的距离。
用于三角测量或虚拟表面布置生成的另一种计算快速的方法是:根据由扬声器角度确定的数据点生成凸包(convex hull)。这也是一种平等对待所有方向和数据点的通用方法。
下一阶段或第二阶段是选择与平移方向相对应的合适的三角形或多边形或虚拟表面。
下一阶段是制定与平移方向相对应的平移增益。
直接部分增益级515被配置为将VBAP增益应用于直接部分音频信号以生成空间处理的直接部分。
平方根(1-比率)处理器505可以接收比率108,并生成1-比率值的平方根。
第二增益级511(漫射信号生成器)可以接收1-比率的平方根,并将其应用于原型输出信号以生成漫射音频信号部分。
去相关器513被配置为从第二增益级511接收漫射音频信号部分并生成去相关的漫射音频信号部分。
漫射部分增益确定器517可被配置为接收启用/禁用输入和输入环境能量分布参数104。启用/禁用输入可被配置为选择性地启用或禁用以下操作。
漫射部分增益确定器517可被配置为如果原始空间音频场具有环境能量的不均匀分布,则选择性地(基于输入)将能量不均匀地分布至不同方向。因此,漫射再现中的能量分布可能更接近原始声场。
漫射增益级519可被配置为接收漫射部分增益并将其应用于去相关的漫射音频信号部分。
组合器521然后可被配置为组合处理后的漫射音频信号部分和处理后的直接信号部分,并生成合适的输出音频信号。在一些实施例中,这些组合的音频信号可以在被输出到合适的输出设备之前被进一步转换成时域形式。
关于图6,示出了图5中所示的合成器111的操作的流程图。
该方法可以包括接收传输音频信号、元数据、(启用/禁用参数)和输入环境能量分布参数104,如图6中通过步骤601所示。
该方法还可以包括基于传输音频信号来生成原型输出信号,如图6中通过步骤603所示。
该方法还可以包括从原型输出信号和比率元数据确定直接部分,如图6中通过步骤611所示。
该方法还可以包括从原型输出信号和比率元数据确定漫射部分,如图6中通过步骤607所示。
将VBAP应用于直接部分,如图6中通过步骤613所示。
该方法还可以包括基于输入环境能量分布参数104(和启用/禁用参数)来确定漫射部分增益,如图6中通过步骤605所示。
该方法可以进一步包括将漫射部分增益应用于确定的漫射部分,如图6中通过步骤609所示。
于是,可以将处理后的直接部分和漫射部分进行组合以生成输出音频信号,如图6中通过步骤615所示。
于是可以输出组合的输出音频信号,如图6中通过步骤617所示。
关于图7,示出了根据一些实施例的示例漫射部分增益确定器605的操作的流程图。
示例漫射部分增益确定器605可被配置为接收/获取输入环境能量分布参数104,例如,先前描述的ambianceAzi、ambianceEle和ambianceExtent参数,如图7中通过步骤701所示。
在一些实施例中,示例漫射部分增益确定器605于是可被配置为确定与原型输出信号相关联的方向。在扬声器合成的情况下,原型输出信号与每个输出扬声器的方向相关联。在双耳合成的情况下,可以创建具有相关联方向的原型输出信号,以均匀地和/或以恒定的间距填充空间音频场。
在图7中通过步骤703示出了确定与原型输出相关联的方向指向何处。
然后,漫射部分增益确定器605可以针对每个原型输出信号确定原型信号(或虚拟麦克风)的方向是否在环境能量分布的接收扇区内。
例如,对于(方位角0,仰角0)和范围90度的环境能量分布,从(方位角45,仰角0)到(方位角一45,仰角0)的空间位置是在环境能量分布内的。
在图7中通过步骤705示出了对原型输出信号的方向是否在环境能量分布的扇区内的确定。
于是,漫射部分增益确定器605可被配置为针对该分布内的任何原型输出信号将增益值设置为1,并且针对该分布外的任何原型输出信号将增益值设置为0。更一般地,漫射部分增益确定器可被配置为将与该扇区内的原型输出信号相关联的增益设置为平均大于与该扇区外的虚拟麦克风信号相关联的增益。
增益值的设置在图7中通过步骤707示出。
平方增益的总和然后可被归一化为单位值,如图7中通过步骤709所示。
然后可以将这些增益传递到漫射增益级519,该漫射增益级519被配置为使用所获取的增益执行环境合成,如图7中通过步骤711所示。
因此,以上合成的效果是减少的环境能量或没有环境能量被合成朝着所接收的环境能量分布之外的方向。
如果环境能量分布参数包含该环境能量比参数,则以适合的能量比将环境能量合成到不同的扇区。
在一些实施例中,对于不同的空间音频输入格式,没有转换为诸如FOA的通用格式,而是将空间音频输入到空间分析、环境能量分布分析和传输信号生成。这在图8中进行了描绘。输入的空间音频800可以是扬声器输入格式、全景声(FOA或HOA)、多麦克风格式(即麦克风阵列的输出信号),或者已经采用具有通过空间音频捕获模块分析的方向和比率元数据的参数化格式。在输入已经是参数化格式的情况下,空间分析器803可以不执行任何操作,或者可以仅执行从一个参数表示到另一参数表示的转换。如果输入不是参数格式,则空间分析器803可被配置为执行空间分析以导出方向和比率元数据。环境能量分布分析器807确定表示环境能量的分布的参数。用于环境能量分布的参数的确定可以对于不同的输入格式是不同的。在某些情况下,该确定可以基于分析不同输入声道处的环境能量。它可以基于从输入空间音频的分量形成具有一侧定向模式的信号。具有一侧定向模式的信号可以通过波束成形或任何合适的手段获取。
本文所述的合成还可以与基于协方差矩阵的合成集成。基于协方差矩阵的合成是指一种操作信号的协方差矩阵同时保持良好音频质量的最小二乘优化信号混合技术(least-squares optimized signal mixing technique)。该合成利用输入信号的协方差矩阵度量和目标协方差矩阵(由所需的输出信号特征确定的),并提供混合矩阵以执行此类处理。
于是,需要确定的关键信息是频带中的混合矩阵,该矩阵是基于频带中的输入和目标协方差矩阵制定的。输入协方差矩阵是从频带中的输入信号测量的,并且目标协方差矩阵被制定为环境部分协方差矩阵与直接部分协方差矩阵的和。环境部分协方差矩阵的对角线条目被创建,从而使得与环境分布内部的空间方向相对应的条目被设置为单位值,其他条目被设置为零。对角线条目然后被归一化,以使它们求和为单位值。在一些实施例中,扇区内的能量增加而扇区外的能量减少,然后被归一化,使得它们求和为单位值。
替代地,可以使用如针对定向信息所定义的那样的用于球形表面网格的类似方向索引,来用信号通知所分析的环境能量分布的中心的方向。例如,可以通过在较大的球体上形成固定的小球体网格并将这些小球体的中心视为定义几乎等距方向的网格的点,来获取源方向的索引。环境能量分布的宽度或范围可以用弧度而不是度表示,并被量化为合适的分辨率。替代地,宽度或范围可被表示为数字,该数字指示其覆盖多少固定宽度的空间扇区。例如,在图4的示例中,ambianceExtent的值可以为3,指示它跨越三个45度的扇区。在一些实施例中,ambienceExtent信息可以包括附加参数ambianceExtentSector,其指示用于环境能量分布分析的分析扇区的大小。因此,在图4的示例中,ambianceAnalysisSectorWidth的值可以为45度。用信号通知环境分析扇区的跨度,使编码器能够使用不同大小的扇区进行环境能量分析。适应环境能量分析扇区的大小对于调整具有不同环境特性的声场的系统操作以及调整编码器和/或解码器的带宽和计算复杂性要求可能是有利的。
关于图9,示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行各种程序代码,诸如本文所述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407耦合到存储器1411。存储器1411可以是任何合适的存储模块。在一些实施例中,存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411还可以包括用于存储数据(例如根据本文所述的实施例已被处理或将要处理的数据)的存储数据部分。只要需要,就可以通过存储器-处理器耦合由处理器1407检索存储在程序代码部分内的实现的程序代码和存储在存储数据部分内的数据。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可以耦合到处理器1407。在一些实施例中,处理器1407可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中,用户接口1405可以使用户能够例如经由小键盘向设备1400输入命令。在一些实施例中,用户接口1405可以使用户能够从设备1400获取信息。例如,用户接口1405可以包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中,用户接口1405可以包括触摸屏或触摸接口,其既能够使信息能够被输入到设备1400,又能够向设备1400的用户显示信息。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发器。在这样的实施例中,收发器可以耦合到处理器1407,并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中,收发器或任何合适的收发器或发射机和/或接收机模块可被配置为经由有线或有线耦合与其他电子设备或装置通信。
收发器可以通过任何适当的已知通信协议与另外的装置进行通信。例如,在一些实施例中,收发器可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短程射频通信协议、或红外数据通信路径(IRDA)。
收发器输入/输出端口1409可被配置为接收信号,并且在一些实施例中,通过使用执行合适代码的处理器1407来确定如本文所述的参数。此外,该设备可以生成合适的传输信号和参数输出以发送给合成设备。
在一些实施例中,设备1400可以用作合成设备的至少一部分。这样,输入/输出端口1409可被配置为接收传输信号以及在一些实施例中如本文所述在捕获设备或处理设备处确定的参数,并通过使用执行适当代码的处理器1407生成适当的音频信号格式输出。输入/输出端口1409可以耦合到任何合适的音频输出,例如耦合到多声道扬声器系统和/或耳机或类似物。
通常,本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示,但是可以理解的是,本文所述的这些框、装置、系统、技术或方法可以以作为非限制示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
如在本申请中使用的,术语“电路”可以指以下的一个或多个或全部:
(a)纯硬件电路实现(例如仅在模拟和/或数字电路中的实现),以及
(b)硬件电路和软件的组合,例如(如适用):
(i)模拟和/或数字硬件电路与软件/固件的组合,以及
(ii)具有软件(包括数字信号处理器)的硬件处理器的任何部分、软件和存储器,这些部分共同工作以使诸如移动电话或服务器之类的装置执行各种功能),以及
(c)需要软件(例如,固件)用于运行的硬件电路和/或处理器(例如微处理器或微处理器的一部分),但当运行不需要时可能不存在该软件。
电路的这种定义适用于该术语在本申请中的所有使用,包括在任何权利要求中。作为进一步的示例,如本申请中所使用的,术语“电路”也仅覆盖硬件电路或处理器(或多个处理器)或硬件电路或处理器及其(或它们)随附软件和/或固件的一部分的实现。术语电路还覆盖例如并且在适用于特定权利要求元素的情况下的用于移动设备的基带集成电路或处理器集成电路,或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。
本发明的实施例可以由可由移动设备的例如在处理器实体中的数据处理器执行的计算机软件来实现,或者由硬件来实现,或者由软件和硬件的组合来实现。进一步在这一点上,应当注意,如图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、决和功能的组合。该软件可以存储在诸如存储器芯片或在处理器内实现的存储器块的物理介质上、诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适合本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、栅级电路以及基于多核处理器架构的处理器中的一个或多个作为非限制性示例。
本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为易于在半导体衬底上蚀刻和形成的半导体电路设计。
程序,例如由加利福尼亚州山景城的Synopsys,Inc.和加利福尼亚州圣何塞的Cadence Design提供的程序,将使用完善的设计规则以及预存储的设计模块库自动对导体进行布线并在半导体芯片上定位组件。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。
前面的描述通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且有益的描述。然而,当结合附图和所附权利要求书阅读时,鉴于前面的描述,各种修改和适配对于相关领域的技术人员而言将变得显而易见。但是,本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所定义的本发明的范围内。
Claims (20)
1.一种用于空间音频信号解码的装置,所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起致使所述装置至少:
接收至少一个相关联的音频信号和与所述至少一个相关联的音频信号相关联的空间元数据,所述至少一个相关联的音频信号基于空间音频信号,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数,其中表示环境能量分布的所述至少一个参数是至少与在多个方向上的各自的环境声音能量相关联;
基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
2.根据权利要求1所述的装置,其中,被致使从所述至少一个相关联的音频信号合成所述至少一个输出音频信号的所述装置被进一步致使:
基于所述空间元数据将所述至少一个相关联的音频信号划分为直接部分和漫射部分;
基于所述至少一个相关联的音频信号的所述直接部分和所述至少一个定向参数来合成直接音频信号;
基于表示所述空间音频信号的所述环境能量分布的所述至少一个参数,确定漫射部分增益;
基于所述至少一个相关联的音频信号的所述漫射部分和所述漫射部分增益来合成漫射音频信号;以及
组合所述直接音频信号和所述漫射音频信号以生成所述至少一个输出音频信号。
3.根据权利要求2所述的装置,其中,被致使合成所述漫射音频信号的所述装置被进一步致使:对所述至少一个相关联的音频信号进行去相关。
4.根据权利要求2所述的装置,其中,被致使确定所述漫射部分增益的所述装置被致使:
确定原型输出信号集所指向的方向;
对于所述原型输出信号集中的各原型输出信号,确定各原型输出信号的方向是否在利用表示所述空间音频信号的所述环境能量分布的所述至少一个参数定义的扇区内;
将与所述扇区内的原型输出信号相关联的增益设置为平均大于与所述扇区外的原型输出信号相关联的增益。
5.根据权利要求4所述的装置,其中,被致使设置所述与所述扇区内的原型输出信号相关联的增益的所述装置被进一步致使为:
将所述与所述扇区内的原型输出信号相关联的增益设置为1;
将所述与所述扇区外的原型输出信号相关联的增益设置为0;以及
将与所述扇区内的原型输出信号相关联的增益和与所述扇区外的原型输出信号的增益的平方和归一化为单位值。
6.根据权利要求1所述的装置,其中,被致使接收空间元数据的所述装置被致使执行以下至少一项:
分析所述空间音频信号,以确定表示所述空间音频信号的所述环境能量分布的所述至少一个参数;以及
接收表示所述空间音频信号的所述环境能量分布的所述至少一个参数。
7.根据权利要求1所述的装置,其中,所述至少一个定向参数包括以下至少一项:
至少一个表示到达方向的方向参数;
与所述至少一个方向参数相关联的漫射参数;以及
与所述至少一个方向参数相关联的能量比参数。
8.根据权利要求1所述的装置,其中,所述至少一个参数是以下至少一项:
第一参数,所述第一参数包括与具有局部最大的平均环境能量的至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;
以具有所述局部最大的平均环境能量的所述至少一个空间扇区的范围角为基础的至少一个其他参数。
9.根据权利要求1所述的装置,其中,所述至少一个参数是在逐个频带的基础上表示的参数。
10.一种用于空间音频信号处理的装置,所述装置包括至少一个处理器和至少一个包括计算机程序代码的存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器致使所述装置至少:
接收至少一个空间音频信号;
从所述至少一个空间音频信号中确定至少一个相关联的音频信号;
确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述至少一个空间音频信号的定向信息的至少一个定向参数,其中表示环境能量分布的所述至少一个参数是至少与在多个方向上的各自的环境声音能量相关联;
发送和/或存储:所述至少一个相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的所述环境能量分布的所述至少一个参数和表示所述至少一个空间音频信号的所述定向信息的所述至少一个定向参数。
11.根据权利要求10所述的装置,其中,被致使为确定所述空间元数据的所述装置被进一步致使为:
基于所述至少一个空间音频信号形成到利用方位角和/或仰角定义的几个空间方向的定向模式滤波信号;
基于所述定向模式滤波信号,确定每空间扇区的环境能量的加权时间平均值;
确定具有局部最大平均环境能量的至少一个空间扇区,并生成第一参数,所述第一参数包括与具有所述局部最大平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;
基于相邻空间扇区的平均环境能量与所述局部最大平均环境能量的比较来确定所述局部最大平均环境能量的范围角;以及
以具有所述局部最大平均环境能量的所述至少一个空间扇区的范围角为基础生成至少一个其他参数。
12.根据权利要求11所述的装置,其中,被致使形成所述定向模式滤波信号的所述装置被致使:形成利用所述方位角和/或所述仰角定义的虚拟心形信号。
13.根据权利要求10所述的装置,其中,被致使确定所述空间元数据的所述装置被致使:在逐个频带的基础上确定所述空间元数据。
14.一种用于空间音频信号解码的方法,所述方法包括:
接收至少一个相关联的音频信号和与所述至少一个相关联的音频信号相关联的空间元数据,所述至少一个相关联的音频信号基于空间音频信号,所述空间元数据包括表示所述空间音频信号的环境能量分布的至少一个参数和表示所述空间音频信号的定向信息的至少一个定向参数,其中表示环境能量分布的所述至少一个参数是至少与在多个方向上的各自的环境声音能量相关联;
基于所述至少一个定向参数和所述至少一个参数从所述至少一个相关联的音频信号合成至少一个输出音频信号,其中,所述至少一个参数控制所述至少一个输出信号的环境能量分布。
15.根据权利要求14所述的方法,其中,合成所述至少一个输出音频信号进一步包括:
基于所述空间元数据将所述至少一个相关联的音频信号划分为直接部分和漫射部分;
基于所述至少一个相关联的音频信号的所述直接部分和所述至少一个定向参数来合成直接音频信号;
基于表示所述空间音频信号的所述环境能量分布的所述至少一个参数,确定漫射部分增益;
基于所述至少一个相关联的音频信号的所述漫射部分和所述漫射部分增益来合成漫射音频信号;以及
组合所述直接音频信号和所述漫射音频信号以生成所述至少一个输出音频信号。
16.根据权利要求14所述的方法,其中,接收设施空间元数据包括执行以下中的至少一项:
分析所述空间音频信号,以用于确定表示所述空间音频信号的所述环境能量分布的所述至少一个参数;以及
接收表示所述空间音频信号的所述环境能量分布的所述至少一个参数。
17.一种用于空间音频信号处理的方法,所述方法包括:
接收至少一个空间音频信号;
从所述至少一个空间音频信号中确定至少一个相关联的音频信号;
确定与所述至少一个相关联的音频信号相关联的空间元数据,其中所述空间元数据包括表示所述至少一个空间音频信号的环境能量分布的至少一个参数,以及表示所述至少一个空间音频信号的定向信息的至少一个定向参数,其中表示环境能量分布的所述至少一个参数是至少与在多个方向上的各自的环境声音能量相关联;以及
发送和/或存储:所述至少一个相关联的音频信号以及所述空间元数据,所述空间元数据包括表示所述至少一个空间音频信号的所述环境能量分布的所述至少一个参数和表示所述至少一个空间音频信号的所述定向信息的所述至少一个定向参数。
18.根据权利要求17所述的方法,其中,确定所述空间元数据进一步包括:
基于所述至少一个空间音频信号形成到由方位角和/或仰角定义的几个空间方向的定向模式滤波信号;
基于所述定向模式滤波信号,确定每空间扇区的环境能量的加权时间平均值;
确定具有局部最大平均环境能量的至少一个空间扇区,并生成第一参数,所述第一参数包括与具有所述局部最大平均环境能量的所述至少一个空间扇区相关联的至少一个方位角和/或至少一个仰角;
基于相邻空间扇区的平均环境能量与所述局部最大平均环境能量的比较,来确定所述局部最大平均环境能量的范围角;以及
以具有所述局部最大平均环境能量的所述至少一个空间扇区的范围角为基础,生成至少一个其他参数。
19.根据权利要求18所述的方法,其中,形成所述定向模式滤波信号包括:形成利用所述方位角和/或所述仰角定义的虚拟心形信号。
20.根据权利要求17所述的方法,其中,确定所述空间元数据进一步包括:在逐个频带的基础上确定所述空间元数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210762830.2A CN115209337A (zh) | 2018-03-29 | 2019-03-25 | 空间声音渲染 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1805216.7A GB2572420A (en) | 2018-03-29 | 2018-03-29 | Spatial sound rendering |
GB1805216.7 | 2018-03-29 | ||
PCT/FI2019/050243 WO2019185990A1 (en) | 2018-03-29 | 2019-03-25 | Spatial sound rendering |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210762830.2A Division CN115209337A (zh) | 2018-03-29 | 2019-03-25 | 空间声音渲染 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112219411A CN112219411A (zh) | 2021-01-12 |
CN112219411B true CN112219411B (zh) | 2022-08-02 |
Family
ID=62142203
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980035666.1A Active CN112219411B (zh) | 2018-03-29 | 2019-03-25 | 空间声音渲染 |
CN202210762830.2A Pending CN115209337A (zh) | 2018-03-29 | 2019-03-25 | 空间声音渲染 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210762830.2A Pending CN115209337A (zh) | 2018-03-29 | 2019-03-25 | 空间声音渲染 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11350230B2 (zh) |
EP (1) | EP3777241A4 (zh) |
CN (2) | CN112219411B (zh) |
GB (1) | GB2572420A (zh) |
WO (1) | WO2019185990A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10735882B2 (en) * | 2018-05-31 | 2020-08-04 | At&T Intellectual Property I, L.P. | Method of audio-assisted field of view prediction for spherical video streaming |
CN113490980A (zh) * | 2019-01-21 | 2021-10-08 | 弗劳恩霍夫应用研究促进协会 | 用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序 |
MX2021015219A (es) * | 2019-06-12 | 2022-01-18 | Fraunhofer Ges Forschung | Ocultacion de la perdida de paquetes para la codificacion de audio espacial basada en dirac. |
GB2593419A (en) * | 2019-10-11 | 2021-09-29 | Nokia Technologies Oy | Spatial audio representation and rendering |
GB2594265A (en) * | 2020-04-20 | 2021-10-27 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling rendering of spatial audio signals |
GB2615323A (en) * | 2022-02-03 | 2023-08-09 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling rendering of spatial audio |
WO2024073594A1 (en) * | 2022-09-29 | 2024-04-04 | Google Llc | Reverberation decorrelation for ambisonics audio compression |
CN117499850B (zh) * | 2023-12-26 | 2024-05-28 | 荣耀终端有限公司 | 一种音频数据播放方法及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1957640A (zh) * | 2004-04-16 | 2007-05-02 | 编码技术股份公司 | 用于生成对低位速率应用的参数表示的方案 |
EP2205007A1 (en) * | 2008-12-30 | 2010-07-07 | Fundació Barcelona Media Universitat Pompeu Fabra | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
EP2733965A1 (en) * | 2012-11-15 | 2014-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals |
TW201523600A (zh) * | 2013-07-30 | 2015-06-16 | Toshiba Kk | 磁性儲存元件,磁性儲存裝置,磁性記憶體,及驅動磁性儲存元件的方法 |
KR20160078142A (ko) * | 2014-12-24 | 2016-07-04 | 주식회사 케이티 | 지식체계 관리 시스템 및 방법 |
CN105898667A (zh) * | 2014-12-22 | 2016-08-24 | 杜比实验室特许公司 | 从音频内容基于投影提取音频对象 |
CN107017000A (zh) * | 2016-01-27 | 2017-08-04 | 诺基亚技术有限公司 | 用于编码和解码音频信号的装置、方法和计算机程序 |
EP3297298A1 (en) * | 2016-09-19 | 2018-03-21 | A-Volute | Method for reproducing spatially distributed sounds |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2004320207A1 (en) * | 2004-05-25 | 2005-12-08 | Huonlabs Pty Ltd | Audio apparatus and method |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
WO2012125855A1 (en) * | 2011-03-16 | 2012-09-20 | Dts, Inc. | Encoding and reproduction of three dimensional audio soundtracks |
EP2560161A1 (en) * | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP2805326B1 (en) * | 2012-01-19 | 2015-10-14 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
US9993822B2 (en) * | 2013-07-08 | 2018-06-12 | Hitachi High-Technologies Corporation | Nucleic acid amplification/detection device and nucleic acid inspection device using same |
US9859052B2 (en) | 2013-11-25 | 2018-01-02 | A.K. Stamping Co., Inc. | Wireless charging coil |
GB2521649B (en) * | 2013-12-27 | 2018-12-12 | Nokia Technologies Oy | Method, apparatus, computer program code and storage medium for processing audio signals |
MX365162B (es) * | 2014-01-03 | 2019-05-24 | Dolby Laboratories Licensing Corp | Generacion de audio binaural en respuesta a audio multicanal utilizando al menos una red de retardo realimentada. |
WO2016014254A1 (en) * | 2014-07-23 | 2016-01-28 | Pcms Holdings, Inc. | System and method for determining audio context in augmented-reality applications |
CN105992120B (zh) * | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
US20170098452A1 (en) * | 2015-10-02 | 2017-04-06 | Dts, Inc. | Method and system for audio processing of dialog, music, effect and height objects |
US9940922B1 (en) * | 2017-08-24 | 2018-04-10 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for utilizing ray-parameterized reverberation filters to facilitate interactive sound rendering |
US11576005B1 (en) * | 2021-07-30 | 2023-02-07 | Meta Platforms Technologies, Llc | Time-varying always-on compensation for tonally balanced 3D-audio rendering |
-
2018
- 2018-03-29 GB GB1805216.7A patent/GB2572420A/en not_active Withdrawn
-
2019
- 2019-03-25 WO PCT/FI2019/050243 patent/WO2019185990A1/en active Application Filing
- 2019-03-25 EP EP19777628.9A patent/EP3777241A4/en active Pending
- 2019-03-25 CN CN201980035666.1A patent/CN112219411B/zh active Active
- 2019-03-25 CN CN202210762830.2A patent/CN115209337A/zh active Pending
- 2019-03-25 US US17/040,669 patent/US11350230B2/en active Active
-
2022
- 2022-04-11 US US17/717,597 patent/US11825287B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1957640A (zh) * | 2004-04-16 | 2007-05-02 | 编码技术股份公司 | 用于生成对低位速率应用的参数表示的方案 |
EP2205007A1 (en) * | 2008-12-30 | 2010-07-07 | Fundació Barcelona Media Universitat Pompeu Fabra | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
EP2733965A1 (en) * | 2012-11-15 | 2014-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals |
TW201523600A (zh) * | 2013-07-30 | 2015-06-16 | Toshiba Kk | 磁性儲存元件,磁性儲存裝置,磁性記憶體,及驅動磁性儲存元件的方法 |
CN105898667A (zh) * | 2014-12-22 | 2016-08-24 | 杜比实验室特许公司 | 从音频内容基于投影提取音频对象 |
KR20160078142A (ko) * | 2014-12-24 | 2016-07-04 | 주식회사 케이티 | 지식체계 관리 시스템 및 방법 |
CN107017000A (zh) * | 2016-01-27 | 2017-08-04 | 诺基亚技术有限公司 | 用于编码和解码音频信号的装置、方法和计算机程序 |
EP3297298A1 (en) * | 2016-09-19 | 2018-03-21 | A-Volute | Method for reproducing spatially distributed sounds |
Non-Patent Citations (2)
Title |
---|
RDFx: Audio Effects Utilising Musical Metadata," 2010 IEEE Fourth International Conference on Semantic Computing;T. Wilmering and M. Sandler;《2010 IEEE Fourth International Conference on Semantic Computing》;20101111;第452-453页 * |
国外视音频元数据研究综述;姚星星,屈鹏;《数字图书馆论坛》;20071012;第11-18页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019185990A1 (en) | 2019-10-03 |
CN115209337A (zh) | 2022-10-18 |
EP3777241A1 (en) | 2021-02-17 |
EP3777241A4 (en) | 2021-12-29 |
US20210051430A1 (en) | 2021-02-18 |
GB201805216D0 (en) | 2018-05-16 |
GB2572420A (en) | 2019-10-02 |
CN112219411A (zh) | 2021-01-12 |
US11350230B2 (en) | 2022-05-31 |
US20220240038A1 (en) | 2022-07-28 |
US11825287B2 (en) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112219411B (zh) | 空间声音渲染 | |
US11671781B2 (en) | Spatial audio signal format generation from a microphone array using adaptive capture | |
US11368790B2 (en) | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding | |
CN112567763B (zh) | 用于音频信号处理的装置和方法 | |
US10313815B2 (en) | Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals | |
CN112219236A (zh) | 空间音频参数和相关联的空间音频播放 | |
CN112189348B (zh) | 空间音频捕获的装置和方法 | |
AU2019392988B2 (en) | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding using low-order, mid-order and high-order components generators | |
CN112567765B (zh) | 空间音频捕获、传输和再现 | |
CN114846541A (zh) | 空间音频参数的合并 | |
CN114846542A (zh) | 空间音频参数的组合 | |
WO2020043935A1 (en) | Spatial parameter signalling | |
EP3777242B1 (en) | Spatial sound rendering | |
WO2023148426A1 (en) | Apparatus, methods and computer programs for enabling rendering of spatial audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |