CN112823534B - 信号处理设备和方法以及程序 - Google Patents
信号处理设备和方法以及程序 Download PDFInfo
- Publication number
- CN112823534B CN112823534B CN201980066990.XA CN201980066990A CN112823534B CN 112823534 B CN112823534 B CN 112823534B CN 201980066990 A CN201980066990 A CN 201980066990A CN 112823534 B CN112823534 B CN 112823534B
- Authority
- CN
- China
- Prior art keywords
- signal
- mute
- processing
- information
- virtual speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/03—Aspects of the reduction of energy consumption in hearing devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Abstract
本技术涉及用于使得能够减少计算量的信号处理设备和方法以及程序。信号处理设备基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少一个处理。本技术可以应用于信号处理设备。
Description
技术领域
本技术涉及信号处理设备和方法以及程序,并且尤其涉及使得可以减少算术运算量的信号处理设备和方法以及程序。
背景技术
在过去,已经在电影、游戏等中使用了对象音频技术,并且还已经开发了能够处理对象音频的编码方法。具体地,例如,作为国际标准和类似标准的MPEG(运动图像专家组)-H第3部分:3D音频标准是已知的(例如,参考非专利文献1)。
与用于5.1声道等的现有2声道立体声方法或多声道立体声方法一起,在如上所述的这种编码方法中,可以将运动声源等视为独立的音频对象,并且将对象的位置信息与音频对象的信号数据一起编码为元数据。
这使得可以在扬声器的数量或布置不同的各种观看环境中执行再现。此外,在再现特定声源的声音时,在特定声源的声音的音量调节中或者对特定声源的声音添加效果时,可以容易地处理特定声源的声音,这是现有编码方法难以做到的。
在如上所述的这种编码方法中,比特流的解码由解码侧执行,使得获得作为音频对象的音频信号的对象信号和包括指示音频对象在空间中的位置的对象位置信息的元数据。
然后,基于对象位置信息执行用于将对象信号渲染到虚拟地布置在空间中的多个虚拟扬声器的渲染处理。例如,在非专利文献1的标准中,被称为三维VBAP(基于向量的振幅平移)的方法(以下简称为VBAP)用于渲染处理。
此外,在通过渲染处理获得对应于每个虚拟扬声器的虚拟扬声器信号之后,基于虚拟扬声器信号执行HRTF(头部相关传递函数)处理。在HRTF处理中,生成用于允许从实际耳机或扬声器输出声音的输出音频信号,使得听起来好像声音是从虚拟扬声器再现的。
引用列表
非专利文献
非专利文献1:国际标准ISO/IEC 23008-3第一版2015-10-15信息技术-异构环境中的高效编码和媒体递送-第3部分:3D音频(INTERNATIONAL STANDARD ISO/IEC 23008-3First edition2015-10-15 Information technology-High efficiency coding andmediadelivery in heterogeneous environments-Part 3∶3D audio)。
发明内容
技术问题
顺便提及,如果对关于上述音频对象的虚拟扬声器执行渲染处理和HRTF处理,则可以实现音频再现,使得声音听起来好像是从虚拟扬声器再现的,并且因此可以获得高存在感。
然而,在对象音频中,诸如渲染处理和HRTF处理的用于音频再现的处理需要大量的算术运算。
具体地,在试图用装置(诸如,智能电话)再现对象音频的情况下,由于算术运算量的增加加速了电池的消耗,因此需要在不损害存在感的情况下减少算术运算量。
已经鉴于如上所述的这种情况做出了本技术,并且使得可以减少算术运算量。
问题的解决方案
在根据本技术的一个方面的信号处理设备中,基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
根据本技术的一个方面的信号处理方法或程序包括以下步骤:基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
在本技术的一个方面,基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
附图说明
[图1]是示出输入比特流的处理的示图。
[图2]是示出VBAP的示图。
[图3]是示出HRTF处理的示图。
[图4]是描绘信号处理设备的配置的示例的示图。
[图5]是示出输出音频信号生成处理的流程图。
[图6]是描绘解码处理部分的配置的示例的示图。
[图7]是示出对象信号生成处理的流程图。
[图8]是描绘渲染处理部分的配置的示例的示图。
[图9]是示出虚拟扬声器信号生成处理的流程图。
[图10]是示出增益计算处理的流程图。
[图11]是示出平滑处理的流程图。
[图12]是描绘元数据的示例的示图。
[图13]是描绘计算机的配置的示例的示图。
具体实施方式
在下文中,参考附图描述应用本技术的实施例。
<第一实施例>
<本技术>
本技术通过省略静音间隔期间的至少一部分处理,或者通过输出预先确定的预定值作为与算术运算结果相对应的值而不在静音间隔期间实际执行算术运算,使得可以减少算术运算量而不引起输出音频信号的误差。这使得可以在减少算术运算量的同时获得高存在感。
首先,描述当对通过使用MPEG-H第3部分:3D音频标准的编码方法编码获得的比特流执行解码(解码)以生成对象音频的输出音频信号时执行的一般处理。
例如,如果如图1所示输入通过编码获得的输入比特流,则对输入比特流执行解码处理。
通过解码处理,获得作为用于再现音频对象的声音的音频信号的对象信号和包括指示音频对象在空间中的位置的对象位置信息的元数据。
然后,执行用于基于包括在元数据中的对象位置信息将对象信号渲染到虚拟地布置在空间中的虚拟扬声器的渲染处理,使得生成用于再现将从每个虚拟扬声器输出的声音的虚拟扬声器信号。
此外,基于每个虚拟扬声器的虚拟扬声器信号执行HRTF处理,并且生成用于使声音从安装在用户上的耳机或布置在实际空间中的扬声器输出的输出音频信号。
如果基于以如上所述的这种方式获得的输出音频信号从实际耳机或扬声器输出声音,则可以实现音频再现,使得声音听起来好像是从虚拟扬声器再现的。应当注意,在以下描述中,实际布置在实际空间中的扬声器也被具体称为实际扬声器。
当要实际再现如上所述的这种对象音频时,在可以在空间中布置大量实际扬声器的情况下,可以从实际扬声器按原样再现渲染处理的输出。相对照地,在不能在空间中布置大量实际扬声器的情况下,执行HRTF处理,使得由少量实际扬声器(诸如,耳机或条形音箱)执行再现。通常,在大多数情况下,由耳机或少量实际扬声器执行再现。
在此处,进一步描述一般的渲染处理和HRTF处理。
例如,在渲染时,执行预定方法(诸如,上述VBAP)的渲染处理。VBAP是通常称为摇摄的渲染方法之一,并且增益从存在于以用户的位置为原点的球面上的虚拟扬声器中分配到最靠近存在于同一球面上的音频对象的三个虚拟扬声器以执行渲染。
假设例如如图2所示,作为听众的用户U11在三维空间中,并且三个虚拟扬声器SP1至SP3被布置在用户U11的前面。
在此处,假设用户U11的头部的位置被确定为原点O,并且虚拟扬声器SP1至SP3位于以原点O为中心的球面上。
现在假设音频对象存在于球面上由虚拟扬声器SP1至SP3包围的区域TR11中,并且声像位于音频对象的位置VSP1。
在刚描述的这种情况下,根据VBAP,关于音频对象的增益被分配给存在于位置VSP1周围的虚拟扬声器SP1至SP3。
具体地,在参考(原点)为原点O的三维坐标系中,位置VSP1由从原点O开始并在位置VSP1处结束的三维向量P表示。
此外,如果从原点开始并在虚拟扬声器SP1至SP3的位置结束的三维向量被分别确定为向量L1至L3,则向量P可以由向量L1至L3的线性和来表示,如以下表达式(1)所示。
[数学公式1]
P=g1L1+g2L2+g3L3…(1)
在此处,如果计算乘以表达式(1)中的向量L1至L3的系数g1至g3,并且将这样的系数g1至g3确定为分别从虚拟扬声器SP1至SP3输出的声音的增益,则可以将声像定位在位置VSP1。
例如,如果将具有系数g1至g3作为其元素的向量给出为g123=[g1,g2,g3],并且将具有向量L1至L3作为其元素的向量给出为L123=[L1,L2,L3],则可以通过变换上文给出的表达式(1)来获得以下表达式(2)。
[数学公式2]
g123=PTL-1 123…(2)
如果通过使用通过如上给出的这样的表达式(2)的计算获得的系数g1至g3作为增益从虚拟扬声器SP1至SP3输出基于对象信号的声音,则声像可以定位在位置VSP1。
应当注意,由于虚拟扬声器SP1至SP3的布置位置是固定的,并且指示虚拟扬声器的位置的信息是已知的,因此可以预先确定作为逆矩阵的L123。
在图2所示的球面上由三个虚拟扬声器包围的三角形区域TR11被称为网格。通过组合布置在空间中的大量虚拟扬声器来配置多个网格,音频对象的声音可以被定位在空间中的任何位置。
以这种方式,如果针对每个音频对象确定虚拟扬声器的增益,则可以通过执行以下表达式(3)的算术运算来获得每个虚拟扬声器的虚拟扬声器信号。
[数学公式3]
应当注意,在表达式(3)中,SP(m,t)表示在M个虚拟扬声器中的第m个(其中,m=0,1,…,M-1)虚拟扬声器的时间t处的虚拟扬声器信号。此外,在表达式(3)中,S(n,t)表示N个音频对象中的第n个(其中,n=0,1,…,N-1)音频对象的时间t处的对象信号。
此外,在表达式(3)中,G(m,n)表示要乘以第n个音频对象的对象信号S(n,t)的增益,以获得关于第m个虚拟扬声器的虚拟扬声器信号SP(m,t)。具体地,增益G(m,n)表示根据上文给出的表达式(2)计算的关于第n个音频对象的分配给第m个虚拟扬声器的增益。
在渲染处理中,表达式(3)的计算是需要最高计算成本的处理。换句话说,表达式(3)的算术运算是算术运算量最大的处理。
现在,参考图3描述在耳机或少量实际扬声器再现基于通过表达式(3)的算术运算获得的虚拟扬声器信号的声音的情况下执行的HRTF处理的示例。应当注意,在图3中,为了简化描述,虚拟扬声器被布置在二维水平面上。
在图3中,五个虚拟扬声器SP11-1至SP11-5并排布置在空间中的圆形线上。在以下描述中,在没有必要具体区分虚拟扬声器SP11-1至SP11-5的情况下,虚拟扬声器SP11-1至SP11-5中的每一个有时被简单地称为虚拟扬声器SP11。
此外,在图3中,作为声音接收人的用户U21位于由五个虚拟扬声器SP11包围的位置,即,位于布置虚拟扬声器SP11的圆形线的中心位置。因此,在HRTF处理中,生成用于实现音频再现的输出音频信号,使得声音听起来好像用户U21正在享受从相应虚拟扬声器SP11输出的声音。
特别地,假设在本示例中,收听位置由用户U21所处的位置给出,并且由耳机再现基于通过渲染到五个虚拟扬声器SP11而获得的虚拟扬声器信号的声音。
在刚描述的这种情况下,例如,基于虚拟扬声器信号从虚拟扬声器SP11-1输出(发出)的声音遵循由箭头标记Q11指示的路径,并且到达用户U21的左耳的鼓膜。因此,从虚拟扬声器SP11-1输出的声音的特性应该通过从虚拟扬声器SP11-1到用户U21的左耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等而变化。
因此,如果通过从虚拟扬声器SP11-1到用户U21的左耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等而获得的传递函数H_L_SP11被卷积到虚拟扬声器SP11-1的虚拟扬声器信号中,则可以获得用于再现要被用户U21的左耳听到的来自虚拟扬声器SP11-1的声音的输出音频信号。
类似地,基于虚拟扬声器信号从虚拟扬声器SP11-1输出的声音遵循由箭头标记Q12指示的路径,并且到达用户U21的右耳的鼓膜。因此,如果通过从虚拟扬声器SP11-1到用户U21的右耳的空间传递特性、用户U21的面部或耳朵的形状、反射吸收特性等而获得的传递函数H_R_SP11被卷积到虚拟扬声器SP11-1的虚拟扬声器信号中,则可以获得用于再现要被用户U21的右耳听到的来自虚拟扬声器SP11-1的声音的输出音频信号。
由此,当基于五个虚拟扬声器SP11的虚拟扬声器信号的声音最终由耳机再现时,对于左声道,如果用于相应虚拟扬声器的左耳的传递函数被卷积到虚拟扬声器信号中,并且作为卷积的结果获得的信号相加以形成左声道的输出音频信号,这就足够了。
类似地,对于右声道,如果用于相应虚拟扬声器的右耳的传递函数被卷积到虚拟扬声器信号中,并且作为卷积的结果获得的信号相加以形成右声道的输出音频信号,这就足够了。
应当注意,同样在用于再现的装置不是耳机而是实际扬声器的情况下,执行类似于耳机情况下的HRTF处理。然而,在这种情况下,由于来自扬声器的声音通过空间传播到达用户的左耳和右耳,因此执行考虑串扰的处理作为HRTF处理。刚描述的这种HRTF处理也称为跨耳处理。
通常,如果左耳(即,左声道)的频率表达输出音频信号由L(ω)表示,右耳(即,右声道)的频率表达输出音频信号由R(ω)表示,则可以通过计算以下表达式(4)获得L(ω)和R(ω)。
[数学公式4]
应当注意,在表达式(4)中,ω表示频率,并且SP(m,ω)表示用于M个虚拟扬声器中的第m个(其中,m=0,1,…,M-1)虚拟扬声器的频率ω的虚拟扬声器信号。可以通过上述虚拟扬声器信号SP(m,t)的时间频率转换来获得虚拟扬声器信号SP(m,ω)。
此外,在表达式(4)中,H_L(m,ω)表示用于左耳的传递函数,该传递函数乘以用于第m个虚拟扬声器的虚拟扬声器信号SP(m,ω),以获得左声道的输出音频信号L(ω)。同样,H_R(m,ω)表示右耳的传递函数。
在这样的HRTF传递函数H_L(m,ω)和传递函数H_R(m,ω)表示为时域中的脉冲响应的情况下,至少需要大约一秒钟。因此,在例如虚拟扬声器信号的采样频率是48kHz的情况下,必须执行48000抽头的卷积,并且即使使用FFT(快速傅立叶变换)的高速计算方法用于传递函数的卷积,仍然需要大量的算术运算量。
在执行解码处理、渲染处理和HRTF处理以生成输出音频信号并且使用耳机或少量实际扬声器再现对象音频的情况下,如上所述,需要大量的算术运算量。此外,随着音频对象数量的增加,该算术运算量增加很多。
顺便提及,虽然立体声比特流包括非常少量的静音间隔,但是通常很少音频对象比特流包括所有音频对象的所有间隔中的信号。
在许多音频对象比特流中,大约30%的间隔是静音间隔,并且在某些情况下,60%的间隔是静音间隔。
因此,在本技术中,比特流中的音频对象所具有的信息用于使得可以在静音间隔期间以小的算术运算量减少解码处理、渲染处理和HRTF处理的算术运算量,而无需计算对象信号的能量。
<信号处理设备的配置的示例>
现在,描述应用本技术的信号处理设备的配置的示例。
图4是描绘应用本技术的信号处理设备的实施例的配置的示例的示图。
图4所示的信号处理设备11包括解码处理部分21、静音信息生成部分22、渲染处理部分23和HRTF处理部分24。
解码处理部分21接收并解码(解码)向其发送的输入比特流,并将作为解码的结果获得的音频对象的对象信号和元数据提供给渲染处理部分23。
在此处,对象信号是用于再现音频对象的声音的音频信号,并且元数据至少包括指示音频对象在空间中的位置的对象位置信息。
更具体地,在解码处理时,解码处理部分21将关于从输入比特流等提取的每个时间帧中的频谱的信息提供给静音信息生成部分22,并且从静音信息生成部分22接收指示静音或非静音状态的信息的提供。然后,解码处理部分21基于从静音信息生成部分22提供的指示静音或非静音状态的信息在执行静音间隔的处理的省略等的同时执行解码处理。
静音信息生成部分22从解码处理部分21和渲染处理部分23接收各种信息的提供,基于向其提供的信息生成指示静音或非静音状态的信息,并将该信息提供给解码处理部分21、渲染处理部分23和HRTF处理部分24。
渲染处理部分23执行向静音信息生成部分22传送信息和从静音信息生成部分22传送信息,并且根据从静音信息生成部分22提供的指示静音或非静音状态的信息基于从解码处理部分21提供的对象信号和元数据执行渲染处理。
在渲染处理中,基于指示静音或非静音状态的信息,省略静音间隔的处理等。渲染处理部分23将通过渲染处理获得的虚拟扬声器信号提供给HRTF处理部分24。
HRTF处理部分24根据从静音信息生成部分22提供的指示静音或非静音状态的信息基于从渲染处理部分23提供的虚拟扬声器信号执行HRTF处理,并且将作为HRTF处理的结果获得的输出音频信号输出到后级。在HRTF处理中,基于指示静音或非静音状态的信息,省略静音间隔的处理。
应当注意,此处描述了在解码处理、渲染处理和HRTF处理中对静音信号的一部分(静音间隔)执行算术运算的省略等的示例。然而,仅需要在解码处理、渲染处理和HRTF处理中的至少任一个中执行算术运算(处理)的省略等,并且在刚描述的这种情况下,可以整体减少算术运算量。
<输出音频信号生成处理的描述>
现在,描述图4所示的信号处理设备11的操作。具体地,下面参考图5的流程图描述信号处理设备11的输出音频信号生成处理。
在步骤S11中,解码处理部分21在向静音信息生成部分22发送信息和从静音信息生成部分22接收信息的同时,对向其提供的输入比特流执行解码处理以生成对象信号,并将对象信号和元数据提供给渲染处理部分23。
例如,在步骤S11中,静音信息生成部分22生成指示每个时间帧(以下有时仅称为帧)是否静音的频谱静音信息,并且解码处理部分21执行解码处理,在该解码处理中,基于频谱静音信息执行部分处理的省略等。此外,在步骤S11中,静音信息生成部分22生成指示每帧的对象信号是否是静音信号的音频对象静音信息,并将其提供给渲染处理部分23。
在步骤S12中,在渲染处理部分23向静音信息生成部分22发送信息和从静音信息生成部分22接收信息的同时,渲染处理部分23基于从解码处理部分21提供的对象信号和元数据来执行渲染处理以生成虚拟扬声器信号,并将该虚拟扬声器信号提供给HRTF处理部分24。
例如,在步骤S12中,由静音信息生成部分22生成指示每帧的虚拟扬声器信号是否是静音信号的虚拟扬声器静音信息。此外,基于从静音信息生成部分22提供的音频对象静音信息和虚拟扬声器静音信息来执行渲染处理。特别地,在渲染处理中,在静音间隔期间执行处理的省略。
在步骤S13中,HRTF处理部分24基于从静音信息生成部分22提供的虚拟扬声器静音信息通过执行在静音间隔期间省略处理的HRTF处理来生成输出音频信号,并且将输出音频信号输出到后级。在以这种方式输出输出音频信号之后,输出音频信号生成处理结束。
信号处理设备11以所描述的这种方式生成频谱静音信息、音频对象静音信息和虚拟扬声器静音信息作为指示静音或非静音状态的信息,并基于该信息执行解码处理、渲染处理和HRTF处理以生成输出音频信号。特别地,在此处,基于可以直接或间接从输入比特流获得的信息,生成频谱静音信息、音频对象静音信息和虚拟扬声器静音信息。
由此,信号处理设备11在静音间隔期间执行处理的省略等,并且可以减少算术运算量而不损害存在感。换句话说,可以在减少算术运算量的同时以高存在感执行对象音频的再现。
<解码处理部分的配置的示例>
在此处,更详细地描述解码处理、渲染处理和HRTF处理。
例如,解码处理部分21以如图6所示的这种方式配置。
在图6所示的示例中,解码处理部分21包括解复用部分51、子信息解码部分52、频谱解码部分53和IMDCT(逆修正离散余弦变换)处理部分54。
解复用部分51解复用向其提供的输入比特流以从输入比特流中提取(分离)音频对象数据和元数据,并将所获得的音频对象数据提供给子信息解码部分52,并将元数据提供给渲染处理部分23。
在此处,音频对象数据是用于获得对象信号的数据,并且包括子信息和频谱数据。
在本实施例中,在编码侧,即在输入比特流的生成侧,对作为时间信号的对象信号执行MDCT(修正离散余弦变换),并且作为MDCT的结果获得的MDCT系数是作为对象信号的频率分量的频谱数据。
此外,在编码侧,通过基于上下文的算术编码方法来执行光谱数据的编码。然后,编码频谱数据和解码频谱数据所需的编码子信息作为音频对象数据放置到输入比特流中。
此外,如上所述,元数据至少包括对象位置信息,该对象位置信息是指示音频对象在空间中的位置的空间位置信息。
应当注意,通常,元数据也经常被编码(压缩)。然而,由于本技术可以应用于元数据,而不管元数据是否处于编码状态,即元数据是否处于压缩状态,因此此处继续描述,假设元数据不处于编码状态以便简化描述。
子信息解码部分52解码包括在从解复用部分51提供的音频对象数据中的子信息,并将解码子信息和包括在向其提供的音频对象数据中的频谱数据提供给频谱解码部分53。
换句话说,包括解码子信息和处于编码状态的频谱数据的音频对象数据被提供给频谱解码部分53。特别地,在此处,来自包括在通用输入比特流中的每个音频对象的音频对象数据中所包括的数据之内的除频谱数据之外的数据是子信息。
此外,子信息解码部分52将max_sfb提供给静音信息生成部分22,max_sfb是关于通过解码获得的子信息内的每个帧的频谱的信息。
例如,子信息包括IMDCT处理或解码频谱数据所需的信息,诸如指示在对对象信号进行MDCT处理时选择的变换窗口的类型和执行编码频谱数据的比例因子带的数量的信息。
在MPEG-H第3部分:3D音频标准中,在ics_info()中,max_sfb用与在MDCT处理时选择的变换窗口的类型相对应(即,与window_sequence相对应)的4比特或6比特编码。该max_sfb是表示编码频谱数据量的信息,即表示执行编码频谱数据的比例因子带的数量的信息。换句话说,音频对象数据包括频谱数据,其数量与由max_sfb指示的比例因子带的数量相对应。
例如,在max_sfb的值为0的情况下,不存在编码频谱数据,并且由于帧中的所有频谱数据都被视为0,所以该帧可以被确定为静音帧(静音间隔)。
静音信息生成部分22基于从子信息解码部分52提供的每个帧的每个音频对象的max_sfb,生成每个帧的每个音频对象的频谱静音信息,并将该频谱静音信息提供给频谱解码部分53和IMDCT处理部分54。
特别地,在此处,在max_sfb的值为0的情况下,生成频谱静音信息,其指示目标帧是静音间隔,即,对象信号是静音信号。相对照地,在max_sfb的值不为0的情况下,生成指示目标帧是声音间隔(即,对象信号是声音信号)的频谱静音信息。
例如,在频谱静音信息的值为1的情况下,这表示频谱静音信息是静音间隔,但是在频谱静音信息的值为0的情况下,这表示频谱静音信息是声音间隔,即,频谱静音信息不是静音间隔。
以这种方式,静音信息生成部分22基于作为子信息的max_sfb来执行静音间隔(静音帧)的检测,并生成指示检测的结果的频谱静音信息。这使得可以指定具有非常小处理量(算术运算量)的静音帧,利用该静音帧来确定从输入比特流提取的max_sfb是否为0,而不需要计算来获得对象信号的能量。
应当注意,例如,“美国专利US 9,905,232 B2,Hatanaka等人”提出了不使用max_sfb并且在某个信道可以被认为是静音的情况下,单独添加标志使得不对该信道执行编码的编码方法。
根据该编码方法,通过根据MPEG-H第3部分:3D音频标准进行编码,每通道的编码效率可以提高30至40比特,并且在本技术中,也可以应用刚描述的这种编码方法。在刚描述的这种情况下,子信息解码部分52提取包括作为子信息并且指示音频对象的帧是否可以被视为静音,即,是否已经执行了频谱数据的编码的标志,并且将该标志提供给静音信息生成部分22。然后,静音信息生成部分22基于从子信息解码部分52提供的标志生成频谱静音信息。
此外,在允许解码处理时增加算术运算量的情况下,静音信息生成部分22可以计算频谱数据的能量以确定该帧是否是静音帧,并根据确定的结果生成频谱静音信息。
频谱解码部分53基于从子信息解码部分52提供的子信息和从静音信息生成部分22提供的频谱静音信息来解码从子信息解码部分52提供的频谱数据。在此处,频谱解码部分53通过与基于上下文的算术编码方法相对应的解码方法来执行频谱数据的解码。
例如,根据MPEG-H第3部分:3D音频标准,对频谱数据执行基于上下文的算术编码。
通常,根据算术编码,对于一个输入数据不存在一个输出编码数据,但是通过多个输入数据的转换获得最终输出编码数据。
例如,在非基于上下文的算术编码中,由于用于输入数据的编码的出现频率表变得很大,或者可切换地使用多个出现频率表,所以有必要编码表示出现频率表的ID并将该ID分别发送到解码侧。
相对照地,在基于上下文的算术编码中,通过计算获得注意到的频谱数据之前的帧的特性(内容)或频率低于注意到的频谱数据的频率的频谱数据的特性作为上下文。然后,基于上下文的计算结果自动确定要使用的出现频率表。
因此,在基于上下文的算术编码中,虽然解码侧也必须总是执行上下文的计算,但是存在这样的优点,即出现频率表可以变得紧凑,并且除此之外出现频率表的ID不需要发送到解码侧。
例如,在从静音信息生成部分22提供的频谱静音信息的值为0并且处理目标的帧是声音间隔的情况下,频谱解码部分53适当地使用从子信息解码部分52提供的子信息和其他频谱数据的解码的结果来执行上下文的计算。
然后,频谱解码部分53选择由相对于上下文的计算的结果确定的值(即,由ID)指示的出现频率表,并使用该出现频率表来解码频谱数据。频谱解码部分53将解码频谱数据和子信息提供给IMDCT处理部分54。
相对照地,在频谱静音信息的值为1并且处理目标的帧是静音间隔(静音信号的间隔)的情况下,即,在上文描述的max sfb的值为0的情况下,由于该帧中的频谱数据为0(零数据),所以通过上下文计算获得的指示出现频率表的ID毫无例外地指示相同的值。换句话说,毫无例外地选择相同的出现频率表。
因此,在频谱静音信息的值为1的情况下,频谱解码部分53不执行上下文计算,而是选择由预先确定的特定值的ID指示的出现频率表,并使用该出现频率表来解码频谱数据。在这种情况下,对于被确定为静音信号的数据的频谱数据,不执行上下文计算。然后,预先确定为与上下文的计算结果相对应的值(即,表示上下文的计算结果的值)的特定值的ID用作选择出现频率表的输出,并且执行用于解码的后续处理。
通过不以这种方式根据频谱静音信息执行上下文的计算,即,通过省略上下文的计算并输出预先确定的值作为表示计算结果的值,可以减少解码(解码)时的处理的算术运算量。此外,在这种情况下,作为频谱数据的解码结果,可以获得与不省略上下文的计算时完全相同的结果。
根据从静音信息生成部分22提供的频谱静音信息,基于从频谱解码部分53提供的频谱数据和子信息,IMDCT处理部分54执行IMDCT(逆修正离散余弦变换),并将作为IMDCT的结果获得的对象提供给渲染处理部分23。
例如,在IMDCT中,根据“国际标准ISO/IEC 23008-3第一版2015-10-15信息技术-异构环境中的高效编码和媒体递送-第3部分:3D音频”中描述的表达式执行处理。
在max_sfb的值为0并且目标帧是静音间隔的情况下,IMDCT的输出(处理结果)的时间信号的所有样本值都为0。即,通过IMDCT获得的信号是零数据。
因此,在从静音信息生成部分22提供的频谱静音信息的值为1并且目标帧是静音间隔(静音信号的间隔)的情况下,IMDCT处理部分54输出零数据而无需对频谱数据执行IMDCT处理。
具体地,实际上不执行IMDCT处理,并且作为IMDCT处理的结果输出零数据。换句话说,作为指示IMDCT的处理结果的值,输出作为预先确定的值的“0”(零数据)。
更具体地,IMDCT处理部分54重叠合成作为处理目标的当前帧的IMDCT的处理结果的时间信号和作为紧接在当前帧之前的帧的IMDCT的处理结果获得的时间信号以生成当前帧的对象信号并输出该对象信号。
通过在静音间隔期间省略IMDCT处理,IMDCT处理部分54可以减少IMDCT的整体算术运算量而不会引起作为输出获得的对象信号的任何误差。换句话说,在减小IMDCT的整体算术运算量的同时,可以获得与不省略IMDCT处理的情况完全相同的对象信号。
通常,在MPEG-H第3部分:3D音频标准中,由于音频对象的解码处理中的频谱数据的解码和IMDCT处理占据了解码处理的大部分,所以可以减少IMDCT处理,从而导致算术运算量显著减少。
此外,IMDCT处理部分54向静音信息生成部分22提供静音帧信息,该静音帧信息指示作为IMDCT的处理结果获得的当前帧的时间信号是否是零数据,即时间信号是否是静音间隔的信号。
因此,静音信息生成部分22基于从IMDCT处理部分54提供的处理目标的当前帧的静音帧信息和在时间上紧接在当前帧之前的帧的静音帧信息来生成音频对象静音信息,并将该音频对象静音信息提供给渲染处理部分23。换句话说,静音信息生成部分22基于作为解码处理的结果获得的静音帧信息来生成音频对象静音信息。
在此处,在当前帧的静音帧信息和前一帧的静音帧信息两者都是作为静音间隔期间的信号的信息的情况下,静音信息生成部分22生成表示当前帧的对象信号是静音信号的音频对象静音信息。
相对照地,在当前帧的静音帧信息和前一帧的静音帧信息中的至少任一个是在静音间隔期间不是信号的信息的情况下,静音信息生成部分22生成表示当前帧的对象信号是声音信号的音频对象静音信息。
特别地,在该示例中,在音频对象静音信息的值为1的情况下,确定这表示当前帧的对象信号是静音信号,并且在音频对象静音信息的值为0的情况下,确定这表示对象信号是声音信号,即不是静音信号。
如上所述,IMDCT处理部分54通过与作为前一帧的IMDCT的处理结果获得的时间信号重叠合成来生成当前帧的对象信号。因此,由于当前帧的对象信号受到前一帧的影响,所以在生成音频对象静音信息时,需要考虑重叠合成的结果,即前一帧的IMDCT的处理结果。
因此,仅在当前帧和前一帧两者中的max_sfb的值都为0的情况下,即,仅在作为IMDCT的处理结果获得零数据的情况下,静音信息生成部分22确定当前帧的对象信号是静音间隔的帧。
通过以这种方式考虑IMDCT处理来生成指示对象信号是否静音的音频对象静音信息,后级的渲染处理部分23可以正确地识别处理目标的帧的对象信号是否静音。
<对象信号生成处理的描述>
现在,更详细地描述参考图5描述的输出音频信号生成处理中的步骤S11中的处理。具体地,下面参考图7的流程图描述与图5的步骤S11相对应并且由解码处理部分21和静音信息生成部分22执行的对象信号生成处理。
在步骤S41,解复用部分51解复用向其提供的输入比特流,并将作为解复用的结果获得的音频对象数据和元数据分别提供给子信息解码部分52和渲染处理部分23。
在步骤S42中,子信息解码部分52解码包括在从解复用部分51提供的音频对象数据中的子信息,并将解码后的子信息和包括在向其提供的音频对象数据中的频谱数据提供给频谱解码部分53。此外,子信息解码部分52将包括在子信息中的max_sfb提供给静音信息生成部分22。
在步骤S43中,静音信息生成部分22基于从子信息解码部分52向其提供的max_sfb生成频谱静音信息,并将该频谱静音信息提供给频谱解码部分53和IMDCT处理部分54。例如,在max_sfb的值为0的情况下,生成值为1的频谱静音信息,但是在max_sfb的值不为0的情况下,生成值为0的频谱静音信息。
在步骤S44中,频谱解码部分53基于从子信息解码部分52提供的子信息和从静音信息生成部分22提供的频谱静音信息,解码从子信息解码部分52提供的频谱数据。
此时,尽管频谱解码部分53通过与基于上下文的算术编码方法相对应的解码方法来执行频谱数据的解码,但是在频谱静音信息的值为1的情况下,频谱解码部分53省略解码时的上下文的计算,并且通过使用特定的出现频率表来执行频谱数据的解码。频谱解码部分53将解码频谱数据和子信息提供给IMDCT处理部分54。
在步骤S45中,IMDCT处理部分54根据从静音信息生成部分22提供的频谱静音信息,基于从频谱解码部分53提供的频谱数据和子信息执行IMDCT,并将作为IMDCT的结果获得的对象信号提供给渲染处理部分23。
此时,当从静音信息生成部分22提供的频谱静音信息的值为1时,IMDCT处理部分54不执行IMDCT处理,而是通过使用零数据来执行重叠合成以生成对象信号。此外,IMDCT处理部分54根据IMDCT的处理结果是否是零数据来生成静音帧信息,并将该静音帧信息提供给静音信息生成部分22。
执行上述解复用、子信息解码、频谱数据解码和IMDCT的处理作为输入比特流的解码处理。
在步骤S46中,静音信息生成部分22基于从IMDCT处理部分54提供的静音帧信息生成音频对象静音信息,并将该音频对象静音信息提供给渲染处理部分23。
在此处,基于当前帧和前一帧的静音帧信息生成当前帧的音频对象静音信息。在生成音频对象静音信息之后,对象信号生成处理结束。
解码处理部分21和静音信息生成部分22以如上所述的这种方式解码输入比特流以生成对象信号。此时,通过生成频谱静音信息,使得不适当地执行上下文的计算或IMDCT的处理,可以减少解码处理的算术运算量而不会引起作为解码结果获得的对象信号的误差。这使得即使使用少量的算术运算也可以获得高存在感。
<渲染处理部分的配置的示例>
随后,描述渲染处理部分23的配置。例如,渲染处理部分23以如图8所示的这种方式配置。
图8所示的渲染处理部分23包括增益计算部分81和增益应用部分82。
增益计算部分81基于包括在从解码处理部分21的解复用部分51提供的元数据中的对象位置信息,针对每个音频对象(即,针对每个对象信号),计算与每个虚拟扬声器相对应的增益,并将该增益提供给增益应用部分82。此外,增益计算部分81向静音信息生成部分22提供搜索网格信息,该搜索网格信息表示多个网格中的配置网格的虚拟扬声器(即,位于网格的三个顶点的虚拟扬声器)的所有增益具有等于或高于预定值的值的网格。
静音信息生成部分22基于从增益计算部分81针对每个帧中的每个音频对象(即,针对每个对象信号)提供的搜索网格信息和音频对象静音信息,生成每个虚拟扬声器的虚拟扬声器静音信息。
在虚拟扬声器信号是静音间隔期间的信号(静音信号)的情况下,虚拟扬声器静音信息的值为1,但是在虚拟扬声器信号不是静音间隔期间的信号的情况下,即,在虚拟扬声器信号是声音间隔期间的信号(声音信号)的情况下,虚拟扬声器静音信息的值为0。
从静音信息生成部分22向增益应用部分82提供音频对象静音信息和虚拟扬声器静音信息,并且在从解码处理部分21的IMDCT处理部分54向增益应用部分82提供对象信号的同时从增益计算部分81向增益应用部分82提供增益。
增益应用部分82基于音频对象静音信息和虚拟扬声器静音信息,将对象信号乘以来自每个虚拟扬声器的增益计算部分81的增益,并将乘以增益的对象信号相加以生成虚拟扬声器信号。
此时,增益应用部分82根据音频对象静音信息和虚拟扬声器静音信息,不对静音对象信号或静音虚拟扬声器信号执行用于生成虚拟扬声器信号的算术运算处理。换句话说,省略了用于生成虚拟扬声器信号的至少一部分算术运算处理的算术运算。增益应用部分82将所获得的虚拟扬声器信号提供给HRTF处理部分24。
以这种方式,渲染处理部分23执行包括用于获得虚拟扬声器的增益的增益计算处理(更具体地,下文参考图10描述的增益计算处理的一部分)和用于生成虚拟扬声器信号的增益应用处理的处理作为渲染处理。
<虚拟扬声器信号生成处理的描述>
在此处,更详细地描述上文参考图5描述的输出音频信号生成处理中的步骤S12中的处理。具体地,参考图9的流程图描述与图5的步骤S12相对应并且由渲染处理部分23和静音信息生成部分22执行的虚拟扬声器信号生成处理。
在步骤S71中,增益计算部分81和静音信息生成部分22执行增益计算处理。
具体地,增益计算部分81基于包括在从解复用部分51提供的元数据中的对象位置信息,对每个对象信号执行上文给出的表达式(2)的计算,以计算每个虚拟扬声器的增益,并将该增益提供给增益应用部分82。此外,增益计算部分81将搜索网格信息提供给静音信息生成部分22。
此外,静音信息生成部分22基于从增益计算部分81提供的搜索网格信息和音频对象静音信息,针对每个对象信号生成虚拟扬声器静音信息。静音信息生成部分22将音频对象静音信息和虚拟扬声器静音信息提供给增益应用部分82,并将虚拟扬声器静音信息提供给HRTF处理部分24。
在步骤S72中,增益应用部分82基于音频对象静音信息、虚拟扬声器静音信息、来自增益计算部分81的增益和来自IMDCT处理部分54的对象信号来生成虚拟扬声器信号。
此时,增益应用部分82不执行(即省略)用于根据音频对象静音信息和虚拟扬声器静音信息生成虚拟扬声器信号的算术运算处理的至少一部分,以减少渲染处理的算术运算量。
在这种情况下,由于省略了对象信号和虚拟扬声器信号静音的间隔期间的处理,因此获得与不省略该处理的情况下完全相同的虚拟扬声器信号。换句话说,可以减少算术运算量而不会引起虚拟扬声器信号的误差。
由渲染处理部分23执行上述增益的计算(calculation)(计算(computation))和用于生成虚拟扬声器信号的处理作为渲染处理。
增益应用部分82将所获得的虚拟扬声器信号提供给HRTF处理部分24,并且虚拟扬声器信号生成处理结束。
渲染处理部分23和静音信息生成部分22以如上所述的这种方式生成虚拟扬声器静音信息并生成虚拟扬声器信号。此时,通过省略用于根据音频对象静音信息和虚拟扬声器静音信息生成虚拟扬声器信号的算术运算处理的至少一部分,可以减少渲染处理的算术运算量而不会引起作为渲染处理的结果获得的虚拟扬声器信号的任何误差。因此,即使使用少量的算术运算也可以获得高存在感。
<增益计算处理的描述>
此外,针对每个音频对象执行图9的步骤S71中执行的增益计算处理。更具体地,执行图10所述的处理作为增益计算处理。在下文中,参考图10的流程图描述与图9的步骤S71中的处理相对应并且由渲染处理部分23和静音信息生成部分22执行的增益计算处理。
在步骤S101中,增益计算部分81和静音信息生成部分22将指示作为处理目标的音频对象的索引obj_id的值初始化为0,并且静音信息生成部分22进一步将所有虚拟扬声器的虚拟扬声器静音信息a_spk_mute[spk_id]的值初始化为1。
在此处,假设从输入比特流获得的对象信号的数量(即,音频对象的总数)是max_obj。然后,假设按照从由索引obj_id=0指示的音频对象开始并以由索引obj_id=max_obj-1指示的音频对象结束的顺序将对象信号确定为处理目标的音频对象。
此外,spk_id是指示虚拟扬声器的索引,并且a_spk_mute[spk_id]指示关于由索引spk_id指示的虚拟扬声器的虚拟扬声器静音信息。如上所述,在虚拟扬声器静音信息a_spk_mute[spk_id]的值为1的情况下,这表示与虚拟扬声器相对应的虚拟扬声器静音信号是静音的。
注意,此处假设布置在空间中的虚拟扬声器总数为max_spk。因此,在该示例中,存在从由索引spk_id=0指示的虚拟扬声器到由索引spk_id=max_spk-1指示的虚拟扬声器的总共max_spk个虚拟扬声器。
在步骤S101中,增益计算部分81和静音信息生成部分22将指示处理目标的音频对象的索引obj id的值设置为0。
此外,静音信息生成部分22将关于每个索引spk_id(其中,0≤spk_id≤max_spk-1)的虚拟扬声器静音信息a_spk_mute[spk_id]的值设置为1。在此处,暂时假设所有虚拟扬声器的虚拟扬声器信号是静音的。
在步骤S102中,增益计算部分81和静音信息生成部分22将指示作为处理目标的网格的索引mesh_id的值设置为0。
在此处,假设max_mesh网格由空间中的虚拟扬声器形成。换句话说,存在于空间中的网格的总数为max_mesh。此外,此处假设按照从由索引mesh_id=0指示的网格开始的顺序(即按照索引mesh_id的值的升序)选择网格作为处理目标的网格。
在步骤S103中,增益计算部分81通过计算针对处理目标的索引obj_id的音频对象在上文给出的表达式(2),获得配置作为处理目标的索引mesh_id的网格的三个虚拟扬声器的增益。
在步骤S103中,索引obj_id的音频对象的对象位置信息用于执行表达式(2)的计算。因此,获得了相应三个虚拟扬声器的增益g至g3。
在步骤S104中,增益计算部分81判定通过步骤S103中的计算获得的所有三个增益g1至g3是否等于或高于预先确定的阈值TH1。
在此处,阈值TH1是等于或小于0的浮点数,并且是例如由配备的设备的算术运算精度确定的值。通常,作为阈值TH1的值,经常使用大约-1×10-5的小值。
例如,在关于处理目标的音频对象的所有增益g1至g3等于或高于阈值TH1的情况下,这指示音频对象存在于(位于)处理目标的网格中。相对照地,在增益g1至g3中的任何一个低于阈值TH1的情况下,这指示处理目标的音频对象不存在于(不位于)处理目标的网格中。
在旨在再现处理目标的音频对象的声音的情况下,仅需要仅从配置包括音频对象的网格的三个虚拟扬声器输出声音,并且如果使其他虚拟扬声器的虚拟扬声器信号为静音信号就足够了。因此,在增益计算部分81中,执行对包括处理目标的音频对象的网格的搜索,并且根据搜索的结果来确定虚拟扬声器静音信息的值。
在步骤S104中判定所有三个增益g1至g3不等于或高于阈值TH1的情况下,增益计算部分81在步骤S105中判定处理目标的网格的索引mesh_id的值低于max_mesh,即,是否满足mesh_id<max_mesh。
在步骤S105中判定不满足mesh_id<max_mesh的情况下,处理前进到步骤S110。应当注意,基本上在步骤S105中不预先假定满足mesh_id<max_mesh。
相对照地,在步骤S105中判定满足mesh_id<max_mesh的情况下,处理前进到步骤S106。
在步骤S106中,增益计算部分81和静音信息生成部分22将指示处理目标的网格的索引mesh_id的值增大1。
在执行步骤S106中的处理之后,处理返回到步骤S103,并且重复执行上述处理。具体地,重复执行用于计算增益的处理,直到检测到包括处理目标的音频对象的网格为止。
另一方面,在步骤S104中判定所有三个增益g1至g3都等于或高于阈值TH1的情况下,增益计算部分81生成指示作为处理目标的索引mesh id的网格的搜索网格信息,并将该搜索网格信息提供给静音信息生成部分22。此后,处理前进到步骤S107。
在步骤S107中,静音信息生成部分22判定处理目标的索引obj_id的音频对象的对象信号的音频对象静音信息a_obj_mute[obj_id]的值是否为0。
在此处,a_obj_mute[obj_id]表示索引为obj_id的音频对象的音频对象静音信息。如上所述,在音频对象静音信息a_obj_mute[obj_id]的值为1的情况下,这表示索引obj_id的音频对象的对象信号是静音信号。
相对照地,在音频对象静音信息a_obj_mute[obj_id]的值为0的情况下,这表示索引obj_id的音频对象的对象信号是声音信号。
在步骤S107中判定音频对象静音信息a_obj_mute[obj_id]的值为0的情况下,即,在对象信号是声音信号的情况下,处理前进到步骤S108。
在步骤S108中,静音信息生成部分22将配置由从增益计算部分81提供的搜索网格信息指示的索引mesh_id的网格的三个虚拟扬声器的虚拟扬声器静音信息的值设置为0。
例如,对于索引mesh_id的网格,指示网格的信息被设置为网格信息mesh_info[mesh_id]。该网格信息mesh_info[mesh_id]具有指示配置索引mesh_id的网格的三个虚拟扬声器的索引spk_id=spk1、spk2和spk3作为成员变量。
具体地,指示配置索引mesh id的网格的第一虚拟扬声器的索引spk_id具体表示为spk_id=mesh_info[mesh_id].spk1。
类似地,指示配置索引mesh_id的网格的第二虚拟扬声器的索引spk_id被表示为spk_id=mesh_info[mesh_id].spk2,并且指示配置索引mesh_id的网格的第三虚拟扬声器的索引spk_id被表示为spk_id=mesh_info[mesh_id].spk3。
在音频对象静音信息a_obj_mute[obj_id]的值为0的情况下,由于音频对象的对象信号是有声的,所以从配置包括音频对象的网格的三个虚拟扬声器输出的声音是有声的。
因此,静音信息生成部分22将配置索引mesh_id的网格的三个虚拟扬声器的虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk1]、虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk2]和虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk3]的值中的每一个从1改变为0。
以这种方式,在静音信息生成部分22中,基于虚拟扬声器的增益的计算结果(计算结果)和音频对象静音信息来生成虚拟扬声器静音信息。
在以这种方式执行虚拟扬声器静音信息的设置之后,处理前进到步骤S109。
另一方面,在步骤S107中判定音频对象静音信息a_obj_mute[obj_id]不为0(即为1)的情况下,不执行步骤S108中的处理,并且处理前进到步骤S109。
在这种情况下,由于处理目标的音频对象的对象信号是静音的,所以虚拟扬声器的虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk1]、虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk2]以及虚拟扬声器静音信息a_spk_mute[mesh_info[mesh_id].spk3]的值保持为1,如已经在步骤S101中所设置的。
如果执行步骤S108中的处理,或者如果在步骤S107中判定音频对象静音信息的值为1,则执行步骤S109中的处理。
具体地,在步骤S109中,增益计算部分81将通过步骤S103中的计算获得的增益设置为配置处理目标的索引mesh_id的网格的三个虚拟扬声器的增益的值。
例如,假设关于索引obj_id的音频对象的索引spk_id的虚拟扬声器的增益被表示为a_gain[obj_id][spk_id]。
此外,假设通过步骤S103中的计算获得的增益g1至g3中与索引spk_id=mesh_info[mesh_id].spk1相对应的虚拟扬声器的增益是g1。类似地,假设与索引spk_id=mesh_info[mesh_id].spk2相对应的虚拟扬声器的增益是g2,并且与索引spk_id=mesh_info[mesh_id].spk3相对应的虚拟扬声器的增益是g3。
在刚描述的这种情况下,假设增益计算部分81基于步骤S103中的计算的结果来设置虚拟扬声器的增益a_gain[obj_id][mesh_info[mesh_id].spk1=g1。类似地,增益计算部分81设置增益a_gain[obj_id][mesh_info[mesh_id].spk2]=g2,并且设置增益a_gain[obj_id][mesh_info[mesh_id].spk3]=g3。
在以这种方式确定配置处理目标的网格的三个虚拟扬声器的增益之后,处理前进到步骤S110。
如果在步骤S105中判定不满足mesh_id<max_mesh,或者如果执行步骤S109中的处理,则增益计算部分81在步骤S110中判定是否满足obj_id<max_obj。换句话说,判定是否已经对作为处理目标的所有音频对象执行了处理。
在步骤S110中判定满足obj_id<max_obj(即,尚未将所有音频对象设置为处理目标)的情况下,处理前进到步骤S111。
在步骤S111中,增益计算部分81和静音信息生成部分22将指示作为处理目标的音频对象的索引obj_id的值增大1。在执行步骤S111中的处理之后,处理返回到步骤S102,并且重复执行上述处理。具体地,对于新设置为处理目标的音频对象,计算增益并执行虚拟扬声器静音信息的设置。
另一方面,在步骤S110中判定不满足obj_id<max_obj的情况下,因为已经对被设置为处理目标的所有音频对象执行了处理,所以增益计算处理结束。当增益计算处理结束时,建立一种状态,其中,针对所有对象信号获得每个虚拟扬声器的增益,并且针对每个虚拟扬声器生成虚拟扬声器静音信息。
渲染处理部分23和静音信息生成部分22以如上所述的这种方式计算虚拟扬声器的增益并生成虚拟扬声器静音信息。如果以这种方式生成虚拟扬声器静音信息,则由于可以正确识别虚拟扬声器信号是否静音,所以后级的增益应用部分82和HRTF处理部分24可以适当地省略处理。
<平滑处理的描述>
在上文参考图9描述的虚拟扬声器信号生成处理的步骤S72中,使用例如通过上文参考图10描述的增益计算处理获得的虚拟扬声器的增益和虚拟扬声器静音信息。
然而,在例如音频对象的位置针对每个时间帧而改变的情况下,增益有时在音频对象的位置的改变点处突然波动。在刚描述的这种情况下,如果在图10的步骤S109中确定的增益按原样使用,则在虚拟扬声器信号中产生噪声,并且因此不仅可以使用当前帧中的增益还可以使用前一帧中的增益来执行平滑处理,诸如线性插值。
在刚描述的这种情况下,增益计算部分81基于当前帧中的增益和前一帧中的增益执行增益平滑处理,并将平滑(平滑)之后的增益作为最终获得的当前帧的增益提供给增益应用部分82。
在以这种方式执行增益平滑的情况下,需要在考虑当前帧和前一帧中的虚拟扬声器静音信息的情况下执行平滑(平滑)。在这种情况下,静音信息生成部分22执行例如图11所示的平滑处理,以平滑每个虚拟扬声器的虚拟扬声器静音信息。在下文中,参考图11的流程图描述静音信息生成部分22的平滑处理。
在步骤S141中,静音信息生成部分22设置指示作为处理目标的虚拟扬声器的索引spk_id的值(其中,0≤spk_id≤max_spk-1)。
此外,假设对由此处的索引spk_id指示的处理目标的虚拟扬声器获得的当前帧的虚拟扬声器静音信息被表示为a_spk_mute[spk_id],并且当前帧的前一帧的虚拟扬声器静音信息被表示为a_prev_spk_mute[spk_id]。
在步骤S142中,静音信息生成部分22判定当前帧和前一帧的虚拟扬声器静音信息是否为1。
具体地,判定当前帧的虚拟扬声器静音信息a_spk_mute[spk_id]和前一帧的虚拟扬声器静音信息a_prev_spk_mute[spk_id]的值两者是否都为1。
在步骤S142中判定虚拟扬声器静音信息为1的情况下,静音信息生成部分22在步骤S143中将当前帧的虚拟扬声器静音信息a_spk_mute[spk_id]的最终值确定为1。此后,处理前进到步骤S145。
另一方面,在步骤S142中判定虚拟扬声器静音信息不为1的情况下,即,在当前帧和前一帧中的至少任一个的虚拟扬声器静音信息为0的情况下,处理前进到步骤S144。在这种情况下,在当前帧和前一帧中的至少任一个中,虚拟扬声器信号是有声的。
在步骤S144中,静音信息生成部分22将当前帧的虚拟扬声器静音信息a_spk_mute[spk_id]的最终值设置为0,并且然后处理前进到步骤S145。
例如,在虚拟扬声器信号在当前帧和前一帧中的至少任一个中有声的情况下,通过将当前帧的虚拟扬声器静音信息的值设置为0,可以防止虚拟扬声器信号的声音中断并变得静音或者虚拟扬声器信号的声音突然变得有声。
在执行步骤S143或步骤S144中的处理之后,执行步骤S145中的处理。
在步骤S145中,静音信息生成部分22将通过图10的增益计算处理获得的关于处理目标的当前帧的虚拟扬声器静音信息a_spk_mute[spk_id]确定为要在下一平滑处理中使用的前一帧的虚拟扬声器静音信息a_prev_spk_mute[spk_id]。换句话说,当前帧的虚拟扬声器静音信息a_spk_mute[spk_id]用作下一周期的平滑处理中的虚拟扬声器静音信息a_prev_spk_mute[spk_id]。
在步骤S146中,静音信息生成部分22判定是否满足spk_id<max_spk。换句话说,判定是否已经对作为处理目标的所有虚拟扬声器执行了处理。
在步骤S146中判定满足spk_id<max_spk的情况下,由于尚未将所有虚拟扬声器处理为处理目标,所以在步骤S147中,静音信息生成部分22将指示处理目标的虚拟扬声器的索引spk_id的值增大1。
在执行步骤S147中的处理之后,处理返回到步骤S142,并且重复执行上述处理。换句话说,用于平滑新确定为处理目标的虚拟扬声器的虚拟扬声器静音信息a_spk_mute[spk_id]的处理。
另一方面,在步骤S146中判定不满足spk_id<max_spk的情况下,由于已经对当前帧中的所有虚拟扬声器执行了虚拟扬声器静音信息的平滑,所以平滑处理结束。
静音信息生成部分22也以如上所述的这种方式考虑前一帧来执行针对虚拟扬声器静音信息的平滑处理。通过以这种方式执行平滑,可以获得具有较少突然变化和噪声的适当的虚拟扬声器信号。
在执行图11所示的平滑处理的情况下,这表示在增益应用部分82和HRTF处理部分24中使用了在步骤S143或步骤S144中获得的最终虚拟扬声器静音信息。
此外,在上文参考图9描述的虚拟扬声器信号生成处理的步骤S72中,使用通过图10的增益计算处理或图11的平滑处理获得的虚拟扬声器静音信息。
具体地,通常执行上文所述的表达式(3)的计算以获得虚拟扬声器信号。在这种情况下,不管对象信号或虚拟扬声器信号是否是静音信号,都执行所有算术运算。
相对照地,增益应用部分82通过考虑从静音信息生成部分22提供的音频对象静音信息和虚拟扬声器静音信息计算以下表达式(5)来获得虚拟扬声器信号。
[数学公式5]
应当注意,在表达式(5)中,SP(m,t)表示M个虚拟扬声器中的第m个(其中,m=0,1,…,M-1)虚拟扬声器的时间t处的虚拟扬声器信号。此外,在表达式(5)中,S(n,t)表示N个音频对象中的第n个(其中,n=0,1,…,N-1)音频对象的时间t处的对象信号。
此外,在表达式(5)中,G(m,n)表示要乘以第n个音频对象的对象信号S(n,t)的增益,以获得第m个虚拟扬声器的虚拟扬声器信号SP(m,t)。具体地,增益G(m,n)是在图10的步骤S109中获得的每个虚拟扬声器的增益。
此外,在表达式(5)中,a_spk_mute[spk_id]指示由第m个虚拟扬声器的虚拟扬声器静音信息a_spk_mute[spk_id]确定的系数。具体地,在虚拟扬声器静音信息a_spk_mute[spk_id]的值为1的情况下,系数a_spk_mute(m)的值被设置为0,并且在虚拟扬声器静音信息a_spk_mute[spk_id]的值为0的情况下,系数a_spk_mute(m)的值被设置为1。
因此,在虚拟扬声器信号是静音(静音信号)的情况下,增益应用部分82不对虚拟扬声器信号执行算术运算。具体地,不执行用于获得静音的虚拟扬声器信号SP(m,t)的算术运算,并且输出零数据作为虚拟扬声器信号SP(m,t)。换句话说,省略了虚拟扬声器信号的算术运算,并且减少了算术运算量。
此外,在表达式(5)中,a_obj_mute(n)表示由关于第n个音频对象的对象信号的音频对象静音信息a_obj_mute[obj_id]确定的系数。
具体地,在音频对象静音信息a_obj_mute[obj_id]的值为1的情况下,系数a_obj_mute(n)的值被设置为0,并且在音频对象静音信息a_obj_mute[obj_id]的值为0的情况下,系数a_obj_mute(n)的值被设置为1。
因此,在增益应用部分82中,在对象信号是静音(静音信号)的情况下,增益应用部分82不执行关于对象信号的算术运算。具体地,不执行静音的对象信号S(n,t)的项的乘积和算术运算。换句话说,省略了基于对象信号的算术运算部分,并且减少了算术运算量。
应当注意,在增益应用部分82中,如果省略被确定为静音信号的对象信号的一部分和被确定为静音信号的虚拟扬声器信号的一部分中的至少任一个的算术运算,则可以减少算术运算量。因此,省略被确定为静音信号的对象信号的一部分和被确定为静音信号的虚拟扬声器信号的一部分两者的算术运算的示例不是限制性的,并且可以省略其中一个的算术运算。
在图9的步骤S72中,增益应用部分82基于从静音信息生成部分22提供的音频对象静音信息和虚拟扬声器静音信息、从增益计算部分81提供的增益以及从IMDCT处理部分54提供的对象信号,执行类似于表达式(5)的算术运算,以获得每个虚拟扬声器的虚拟扬声器信号。特别地,在此处,对于省略算术运算的部分,零数据用作算术运算结果。换句话说,不执行实际的算术运算,并且输出零数据作为与该算术运算结果相对应的值。
通常,在对特定时间帧T(即,在帧数为T的间隔期间)执行表达式(3)的计算的情况下,需要进行M×N×T次的算术运算。
然而,此处假设由音频对象静音信息确定为静音的音频对象的数量是所有音频对象的30%,并且由虚拟扬声器静音信息确定为静音的虚拟扬声器的数量是所有虚拟扬声器的30%。
在刚描述的这种情况下,如果通过表达式(5)的计算获得虚拟扬声器信号,则算术运算次数是0.7×M×0.7×N×T,并且算术运算量与表达式(3)的情况相比可以减少大约50%。此外,在这种情况下,通过表达式(3)和表达式(5)最终获得的虚拟扬声器信号是相同的,并且省略部分算术运算不会引起误差。
通常,在音频对象的数量很大并且虚拟扬声器的数量也很大的情况下,在内容创建者对音频对象的空间布置中,更可能出现静音音频对象或静音虚拟扬声器。换句话说,可能出现对象信号静音的间隔或虚拟扬声器信号静音的间隔。
因此,根据像表达式(5)那样省略部分算术运算的方法,在音频对象的数量或虚拟扬声器的数量很大并且算术运算量非常大的情况下,可以实现算术运算量的更高的减少效果。
此外,如果由增益应用部分82生成虚拟扬声器信号并将其提供给HRTF处理部分24,则在图5的步骤S13中生成输出音频信号。
具体地,在步骤S13中,HRTF处理部分24基于从静音信息生成部分22提供的虚拟扬声器静音信息和从增益应用部分82提供的虚拟扬声器信号生成输出音频信号。
通常,通过传递函数和虚拟扬声器信号的卷积处理获得输出音频信号,该传递函数是由表达式(4)指示的HRTF系数。
然而,在HRTF处理部分24中,虚拟扬声器静音信息用于根据以下表达式(6)获得输出音频信号。
[数学公式6]
应当注意,在表达式(6)中,ω表示频率,并且SP(m,ω)表示M个虚拟扬声器中的第m个(其中,m=0,1,…,M-1)虚拟扬声器的频率ω的虚拟扬声器信号。可以通过对作为时间信号的虚拟扬声器信号进行时间频率转换来获得虚拟扬声器信号SP(m,ω)。
此外,在表达式(6)中,H_L(m,ω)表示用于左耳的传递函数,该传递函数乘以用于第m个虚拟扬声器的虚拟扬声器信号SP(m,ω),以获得左声道的输出音频信号L(ω)。同样,H_R(m,ω)表示右耳的传递函数。
此外,在表达式(6)中,a_spk_mute(m)表示由关于第m个虚拟扬声器的虚拟扬声器静音信息a_spk_mute[spk_id]确定的系数。具体地,在虚拟扬声器静音信息a_spk_mute[spk_id]的值为1的情况下,系数a_spk_mute(m)的值被设置为0,并且在虚拟扬声器静音信息a_spk_mute[spk_id]的值为0的情况下,系数a_spk_mute(m)的值被设置为1。
因此,在虚拟扬声器信号是来自虚拟扬声器静音信息的静音(静音信号)的情况下,HRTF处理部分24不执行关于虚拟扬声器信号的算术运算。具体地,不执行静音的虚拟扬声器信号SP(m,ω)的项的乘积和算术运算。换句话说,省略了用于卷积静音的虚拟扬声器信号和传递函数的算术运算(处理),并且减少了算术运算量。
因此,在算术运算量非常大的卷积处理中,可以仅对有声的虚拟扬声器信号限制性地执行卷积算术运算,由此可以显著减少算术运算量。此外,在这种情况下,根据表达式(4)和表达式(6)两者最终获得的输出音频信号彼此相同,并且省略部分算术运算不会引起误差。
如上所述,根据本技术,在音频对象中存在静音间隔(静音信号)的情况下,通过省略解码处理、渲染处理和HRTF处理的至少一部分的处理,可以减少算术运算量而不会引起输出音频信号的任何误差。换句话说,即使使用少量的算术运算也可以获得高存在感。
因此,在本技术中,由于减少平均处理量以减少处理器的功率使用,所以即使使用便携式设备(诸如,智能电话),也可以在更长的时间段内连续再现内容。
<第二实施例>
<对象优先级的使用>
顺便提及,在MPEG-H第3部分:3D音频标准中,音频对象的优先级可以与指示音频对象位置的对象位置信息一起被放置到元数据(比特流)中。应当注意,音频对象的优先级在下文中被称为对象优先级。
在以这种方式将对象优先级包括在元数据中的情况下,元数据例如具有如图12所示的格式。
在图12所示的示例中,“num_objects”表示音频对象的总数,并且[object_priority]表示对象优先级。
此外,“position_azimuth”表示音频对象在球面坐标系中的水平角度;“position_elevation”表示音频对象在球面坐标系中的垂直角度;“position_radius”表示从球面坐标系的原点到音频对象的距离(半径)。在此处,包括水平角度、垂直角度和距离的信息使得对象位置信息指示音频对象的位置。
此外,在图12中,对象优先级object_priority是3比特的信息,并且可以采用从低优先级0到高优先级7的值。换句话说,从优先级0到优先级7的优先级的较高值指示具有较高对象优先级的音频对象。
例如,在解码侧不能对所有音频对象执行处理的情况下,可以根据解码侧的资源仅处理具有高对象优先级的音频对象。
具体地,假设例如存在三个音频对象,并且音频对象的对象优先级为7、6和5。此外,假设处理设备的负载如此高,使得难以处理所有三个音频对象。
例如,在刚描述的这种情况下,可以不对对象优先级为5的音频对象执行处理,而仅对对象优先级为7和6的音频对象执行处理。
另外,在本技术中,还可以考虑音频对象的信号是否静音来选择要实际处理的音频对象。
具体地,例如,基于频谱静音信息或音频对象静音信息,从处理目标的帧中的多个音频对象中排除任何静音音频对象。然后,从排除静音音频对象之后的剩余音频对象中,按照对象优先级的降序顺序选择要处理的音频对象的数量,该数量由资源等确定。
换句话说,例如,基于频谱静音信息、音频对象静音信息和对象优先级执行解码处理和渲染处理中的至少任一个。
例如,假设输入比特流包括音频对象AOB1至音频对象AOB5的五个音频对象的音频对象数据,并且信号处理设备11具有仅处理三个音频对象的空间。
此时,例如,假设音频对象AOB5的频谱静音信息的值为1,并且其他音频对象的频谱静音信息的值为0。此外,假设音频对象AOB1至音频对象AOB4的相应对象优先级为7、7、6和5。
在刚描述的这种情况下,例如,频谱解码部分53首先从音频对象AOB1至AOB5中排除静音的音频对象AOB5。然后,频谱解码部分53从剩余音频对象AOB1至AOB4中选择具有高对象优先级的音频对象AOB1至AOB3。
然后,频谱解码部分53仅解码最终选择的音频对象AOB1至AOB3的频谱数据。
这使得即使在信号处理设备11的处理负荷高到信号处理设备11不能执行所有音频对象的处理的情况下,也可以基本上减少要丢弃的音频对象的数量。
<计算机的配置的示例>
虽然上述一系列处理可以由硬件执行,但是也可以由软件执行。在由软件执行一系列处理的情况下,构建软件的程序被安装到计算机中。此处的计算机包括内置在专用硬件中的计算机、可以通过将各种程序安装到个人计算机中来执行各种功能的例如通用的个人计算机等。
图13是描绘根据程序执行上述一系列处理的计算机的硬件配置的示例的框图。
在计算机中,CPU(中央处理器)501、ROM(只读存储器)502和RAM(随机存取存储器)503通过总线504相互连接。
此外,输入/输出接口505连接到总线504。输入部分506、输出部分507、记录部分508、通信部分509和驱动器510连接到输入/输出接口505。
输入部分506包括例如键盘、鼠标、麦克风、成像元件等。输出部分507包括显示器、扬声器等。记录部分508包括例如硬盘、非易失性存储器等。通信部分509包括网络接口等。驱动器510驱动可移动记录介质511,诸如磁盘、光盘、磁光盘或半导体存储器。
在以如上所述这种方式配置的计算机中,CPU 501通过输入/输出接口505和总线504将例如记录在记录部分508中的程序加载到RAM 503中,并执行该程序以执行上述一系列处理。
要由计算机(CPU 501)执行的程序可以记录并设置在例如作为封装介质的可移动记录介质511上。此外,可以通过有线或无线传输介质(诸如局域网、因特网或数字卫星广播)来提供程序。
在计算机中,通过将可移动记录介质511安装在驱动器510上,可以通过输入/输出接口505将程序安装到记录部分508中。此外,程序可以由通信部分509通过有线或无线传输介质接收,并安装到记录部分508中。此外,可以预先将程序安装在ROM 502或记录部分508中。
应当注意,要由计算机执行的程序可以是按照如本说明书中所述的顺序以时间序列执行处理的程序,或者可以是并行执行处理或者在必要的定时(诸如当调用处理时)执行处理的程序。
此外,本技术的实施例不限于上文描述的实施例,并且在不脱离本技术的主题的情况下允许各种变更。
例如,本技术可以采用云计算的配置,通过该配置,一个功能由多个设备通过网络共享并协同处理。
此外,上文结合流程图描述的步骤不仅可以由单个设备执行,而且可以由多个设备共享和执行。
此外,在一个步骤中包括多个处理的情况下,包括在一个步骤中的多个处理不仅可以由一个设备执行,而且可以由多个设备共享和执行。
此外,本技术可以采取以下配置。
(1)
一种信号处理设备,其中,
基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
(2)
根据(1)的信号处理设备,其中,
在解码处理和渲染处理中的至少任一个中,根据音频对象静音信息省略至少一部分算术运算,或者输出预先确定的值作为与预定算术运算的结果相对应的值。
(3)
根据(1)或(2)的信号处理设备,进一步包括:
HRTF处理部分,其基于通过渲染处理获得的并用于通过虚拟扬声器再现声音的虚拟扬声器信号和指示虚拟扬声器信号是否是静音信号的虚拟扬声器静音信息来执行HRTF处理。
(4)
根据(3)的信号处理设备,其中,
HRTF处理部分从HRTF处理中省略用于卷积由虚拟扬声器静音信息确定为静音信号的虚拟扬声器信号和传递函数的算术运算。
(5)
根据(3)或(4)的信号处理设备,进一步包括:
静音信息生成部分,其被配置为基于关于对象信号的频谱的信息来生成音频对象静音信息。
(6)
根据(5)的信号处理设备,进一步包括:
解码处理部分,其被配置为执行解码处理,该解码处理包括解码由基于上下文的算术编码方法编码的对象信号的频谱数据,其中,
解码处理部分不执行由音频对象静音信息确定为静音信号的频谱数据的上下文的计算,而是通过使用作为上下文的计算的结果预先确定的值来解码频谱数据。
(7)
根据(6)的信号处理设备,其中,
解码处理部分执行包括解码频谱数据和解码频谱数据的IMDCT处理的解码处理,并且输出零数据,而不对由音频对象静音信息确定为静音信号的解码频谱数据执行IMDCT处理。
(8)
根据(5)至(7)中任一项的信号处理设备,其中,
静音信息生成部分基于解码处理的结果生成不同于解码处理中使用的音频对象静音信息的另一音频对象静音信息,并且
信号处理设备进一步包括渲染处理部分,其被配置为基于另一音频对象静音信息来执行渲染处理。
(9)
根据(8)的信号处理设备,其中,
渲染处理部分执行获得通过解码处理获得的每个对象信号的虚拟扬声器的增益的增益计算处理和基于增益和对象信号生成虚拟扬声器信号的增益应用处理作为渲染处理。
(10)
根据(9)的信号处理设备,其中,
渲染处理部分在增益应用处理中省略由虚拟扬声器静音信息确定为静音信号的虚拟扬声器信号的算术运算和基于由另一音频对象静音信息确定为静音信号的对象信号的算术运算中的至少任一个。
(11)
根据(9)或(10)的信号处理设备,其中,
静音信息生成部分基于增益的计算结果和另一音频对象静音信息来生成虚拟扬声器静音信息。
(12)
根据(1)至(11)中任一项的信号处理设备,其中,
基于音频对象的优先级和音频对象静音信息来执行解码处理和渲染处理中的至少任一个。
(13)
一种信号处理方法,其中,
信号处理设备基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
(14)
一种程序,用于使计算机进行包括以下步骤的处理:
基于指示音频对象的信号是否是静音信号的音频对象静音信息,执行音频对象的对象信号的解码处理和渲染处理中的至少任一个。
参考标记列表
11:信号处理设备
21:解码处理部分
22:静音信息生成部分
23:渲染处理部分
24:HRTF处理部分
53:频谱解码部分
54:IMDCT处理部分
81:增益计算部分
82:增益应用部分。
Claims (8)
1.一种信号处理设备,包括:
解码处理部分,被配置为对输入比特流执行解码处理以获得作为用于再现音频对象的声音的音频信号的对象信号和包括指示对象位置信息的元数据;其中,所述解码处理部分基于指示所述音频对象的所述对象信号是否是静音状态的频谱静音信息,执行所述音频对象的所述对象信号的所述解码处理;
渲染处理部分,被配置为基于从所述解码处理部分提供的所述对象信号和所述元数据执行渲染处理以生成虚拟扬声器信号;
头部相关传递函数处理部分,被配置为基于通过所述渲染处理获得的并用于通过虚拟扬声器再现声音的所述虚拟扬声器信号和指示所述虚拟扬声器信号是否是静音状态的虚拟扬声器静音信息来执行头部相关传递函数处理;
静音信息生成部分,被配置为基于关于所述对象信号的频谱的信息来生成所述频谱静音信息;
其中,所述静音信息生成部分被配置为基于所述解码处理的结果生成不同于所述解码处理中使用的所述频谱静音信息的音频对象静音信息,并且
其中,所述渲染处理部分被配置为基于所述音频对象静音信息来执行所述渲染处理,
其中,所述渲染处理部分被配置为执行获得通过所述解码处理获得的每个对象信号的所述虚拟扬声器的增益的增益计算处理和基于所述增益和所述对象信号生成所述虚拟扬声器信号的增益应用处理作为所述渲染处理;
其中,所述静音信息生成部分基于所述增益的计算结果和所述音频对象静音信息来生成所述虚拟扬声器静音信息。
2.根据权利要求1所述的信号处理设备,其中,
在所述解码处理和所述渲染处理中的至少任一个中,根据所述频谱静音信息省略至少一部分算术运算,或者输出预先确定的值作为与预定算术运算的结果相对应的值。
3.根据权利要求1所述的信号处理设备,其中,
所述头部相关传递函数处理部分从所述头部相关传递函数处理中省略用于卷积由所述虚拟扬声器静音信息确定为静音状态的所述虚拟扬声器信号和传递函数的算术运算。
4.根据权利要求1所述的信号处理设备,其中,
所述解码处理部分执行包括解码所述对象信号的频谱数据和解码频谱数据的逆修正离散余弦变换处理的所述解码处理,并且输出零数据,而不对由所述频谱静音信息确定为静音状态的所述解码频谱数据执行所述逆修正离散余弦变换处理。
5.根据权利要求1所述的信号处理设备,其中,
所述渲染处理部分在所述增益应用处理中省略由所述虚拟扬声器静音信息确定为静音状态的所述虚拟扬声器信号的算术运算和基于由所述音频对象静音信息确定为静音状态的所述对象信号的算术运算中的至少任一个。
6.根据权利要求1所述的信号处理设备,其中,
基于所述音频对象的优先级和所述频谱静音信息来执行所述解码处理和所述渲染处理中的至少任一个。
7.一种信号处理方法,包括:
对输入比特流执行解码处理以获得作为用于再现音频对象的声音的音频信号的对象信号和包括指示对象位置信息的元数据;其中,基于指示所述音频对象的所述对象信号是否是静音状态的频谱静音信息,执行所述音频对象的所述对象信号的所述解码处理;
基于所述对象信号和所述元数据执行渲染处理以生成虚拟扬声器信号;
基于通过所述渲染处理获得的并用于通过虚拟扬声器再现声音的所述虚拟扬声器信号和指示所述虚拟扬声器信号是否是静音状态的虚拟扬声器静音信息来执行头部相关传递函数处理;
基于关于所述对象信号的频谱的信息来生成所述频谱静音信息;
基于所述解码处理的结果生成不同于所述解码处理中使用的所述频谱静音信息的音频对象静音信息;
基于所述音频对象静音信息来执行所述渲染处理,
执行获得通过所述解码处理获得的每个对象信号的所述虚拟扬声器的增益的增益计算处理和基于所述增益和所述对象信号生成所述虚拟扬声器信号的增益应用处理作为所述渲染处理;以及
基于所述增益的计算结果和所述音频对象静音信息来生成所述虚拟扬声器静音信息。
8.一种存储有程序的计算机存储介质,当被执行时,所述程序用于使计算机进行包括以下步骤的处理:
对输入比特流执行解码处理以获得作为用于再现音频对象的声音的音频信号的对象信号和包括指示对象位置信息的元数据;其中,基于指示所述音频对象的所述对象信号是否是静音状态的频谱静音信息,执行所述音频对象的所述对象信号的所述解码处理;
基于所述对象信号和所述元数据执行渲染处理以生成虚拟扬声器信号;
基于通过所述渲染处理获得的并用于通过虚拟扬声器再现声音的所述虚拟扬声器信号和指示所述虚拟扬声器信号是否是静音状态的虚拟扬声器静音信息来执行头部相关传递函数处理;
基于关于所述对象信号的频谱的信息来生成所述频谱静音信息;
基于所述解码处理的结果生成不同于所述解码处理中使用的所述频谱静音信息的音频对象静音信息;
基于所述音频对象静音信息来执行所述渲染处理,
执行获得通过所述解码处理获得的每个对象信号的所述虚拟扬声器的增益的增益计算处理和基于所述增益和所述对象信号生成所述虚拟扬声器信号的增益应用处理作为所述渲染处理;以及
基于所述增益的计算结果和所述音频对象静音信息来生成所述虚拟扬声器静音信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-194777 | 2018-10-16 | ||
JP2018194777 | 2018-10-16 | ||
PCT/JP2019/038846 WO2020080099A1 (ja) | 2018-10-16 | 2019-10-02 | 信号処理装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112823534A CN112823534A (zh) | 2021-05-18 |
CN112823534B true CN112823534B (zh) | 2023-04-07 |
Family
ID=70283084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980066990.XA Active CN112823534B (zh) | 2018-10-16 | 2019-10-02 | 信号处理设备和方法以及程序 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11445296B2 (zh) |
EP (1) | EP3869826A4 (zh) |
JP (1) | JP7447798B2 (zh) |
KR (1) | KR20210071972A (zh) |
CN (1) | CN112823534B (zh) |
WO (1) | WO2020080099A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3869826A4 (en) | 2018-10-16 | 2022-03-16 | Sony Group Corporation | SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM |
US20230254656A1 (en) * | 2020-07-15 | 2023-08-10 | Sony Group Corporation | Information processing apparatus, information processing method, and terminal device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120013884A (ko) * | 2010-08-06 | 2012-02-15 | 삼성전자주식회사 | 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템 |
CN105247610A (zh) * | 2013-05-31 | 2016-01-13 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN106105269A (zh) * | 2014-03-19 | 2016-11-09 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和设备 |
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2071564A4 (en) | 2006-09-29 | 2009-09-02 | Lg Electronics Inc | METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS |
EP2118888A4 (en) * | 2007-01-05 | 2010-04-21 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL |
US10659904B2 (en) * | 2016-09-23 | 2020-05-19 | Gaudio Lab, Inc. | Method and device for processing binaural audio signal |
US10356545B2 (en) * | 2016-09-23 | 2019-07-16 | Gaudio Lab, Inc. | Method and device for processing audio signal by using metadata |
EP3869826A4 (en) | 2018-10-16 | 2022-03-16 | Sony Group Corporation | SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM |
-
2019
- 2019-10-02 EP EP19873638.1A patent/EP3869826A4/en active Pending
- 2019-10-02 US US17/284,419 patent/US11445296B2/en active Active
- 2019-10-02 CN CN201980066990.XA patent/CN112823534B/zh active Active
- 2019-10-02 JP JP2020553032A patent/JP7447798B2/ja active Active
- 2019-10-02 WO PCT/JP2019/038846 patent/WO2020080099A1/ja unknown
- 2019-10-02 KR KR1020217009529A patent/KR20210071972A/ko active IP Right Grant
-
2022
- 2022-09-12 US US17/942,663 patent/US11743646B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120013884A (ko) * | 2010-08-06 | 2012-02-15 | 삼성전자주식회사 | 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템 |
CN105247610A (zh) * | 2013-05-31 | 2016-01-13 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
CN106105269A (zh) * | 2014-03-19 | 2016-11-09 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和设备 |
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
Also Published As
Publication number | Publication date |
---|---|
EP3869826A4 (en) | 2022-03-16 |
JPWO2020080099A1 (ja) | 2021-09-09 |
JP7447798B2 (ja) | 2024-03-12 |
EP3869826A1 (en) | 2021-08-25 |
US11445296B2 (en) | 2022-09-13 |
US20210352408A1 (en) | 2021-11-11 |
CN112823534A (zh) | 2021-05-18 |
US11743646B2 (en) | 2023-08-29 |
WO2020080099A1 (ja) | 2020-04-23 |
KR20210071972A (ko) | 2021-06-16 |
US20230007396A1 (en) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10555104B2 (en) | Binaural decoder to output spatial stereo sound and a decoding method thereof | |
CN107533843B (zh) | 用于捕获、编码、分布和解码沉浸式音频的系统和方法 | |
JP6105062B2 (ja) | 後方互換性のあるオーディオ符号化のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
KR102294767B1 (ko) | 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 | |
JP5081838B2 (ja) | オーディオ符号化及び復号 | |
KR102429953B1 (ko) | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 | |
JP4939933B2 (ja) | オーディオ信号符号化装置及びオーディオ信号復号化装置 | |
US8817991B2 (en) | Advanced encoding of multi-channel digital audio signals | |
CN106663433B (zh) | 用于处理音频数据的方法和装置 | |
CN108600935B (zh) | 音频信号处理方法和设备 | |
KR100928311B1 (ko) | 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법 | |
CN110890101B (zh) | 用于基于语音增强元数据进行解码的方法和设备 | |
US7719445B2 (en) | Method and apparatus for encoding/decoding multi-channel audio signal | |
US9219972B2 (en) | Efficient audio coding having reduced bit rate for ambient signals and decoding using same | |
US20140086416A1 (en) | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients | |
CN107077861B (zh) | 音频编码器和解码器 | |
US11743646B2 (en) | Signal processing apparatus and method, and program to reduce calculation amount based on mute information | |
KR100763919B1 (ko) | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치 | |
CN115580822A (zh) | 空间音频捕获、传输和再现 | |
JP6520937B2 (ja) | オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム | |
CN112218229A (zh) | 用于双耳对话增强的方法和装置 | |
JP6686015B2 (ja) | オーディオ信号のパラメトリック混合 | |
US9311925B2 (en) | Method, apparatus and computer program for processing multi-channel signals | |
CA3159189A1 (en) | Multichannel audio encode and decode using directional metadata | |
CN115836535A (zh) | 信号处理装置、方法和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |