CN117479077A - 信号处理装置、方法和存储介质 - Google Patents
信号处理装置、方法和存储介质 Download PDFInfo
- Publication number
- CN117479077A CN117479077A CN202311456015.4A CN202311456015A CN117479077A CN 117479077 A CN117479077 A CN 117479077A CN 202311456015 A CN202311456015 A CN 202311456015A CN 117479077 A CN117479077 A CN 117479077A
- Authority
- CN
- China
- Prior art keywords
- reverberation
- information
- audio object
- signal
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 205
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 21
- 238000009877 rendering Methods 0.000 description 52
- 230000005236 sound signal Effects 0.000 description 29
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
- G10K15/12—Arrangements for producing a reverberation or echo sound using electronic time-delay networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本技术涉及能够提高编码效率的信号处理装置、方法和存储介质。信号处理装置包含:获取单元,用于获取混响信息和音频对象的音频对象信号,其中该混响信息包括音频对象周围的空间中固有的空间混响信息和音频对象中固有的对象混响信息中的至少一个;以及混响处理单元,用于基于混响信息和音频对象信号产生音频对象的混响分量的信号。本技术适用于信号处理装置。
Description
本申请为国际申请日为2018年10月5日、国际申请号为PCT/JP2018/037330、发明名称为“信号处理装置、方法和程序”的中国国家阶段申请的分案申请,该中国国家阶段申请的进入国家阶段日为2020年03月30日、申请号为201880063759.0、发明名称为“信号处理装置、方法和程序”。
技术领域
本技术涉及信号处理装置、方法和程序,更具体地,涉及能够提高编码效率的信号处理装置、方法和程序。
背景技术
传统上,已经在电影、游戏等中使用了对象音频技术,并且已经开发了能够处理对象音频的编码方法。具体地,例如,已知作为国际标准的MPEG(运动图像专家组)-H部分3:3D音频标准等(例如,参见非专利文献1)。
在这种编码方法中,类似于传统方法中的双声道立体声音方法和诸如5.1声道的多声道立体声音方法,运动声音源等被视为独立的音频对象,并且对象的位置信息可以与音频对象的信号数据一起被编码为元数据。
利用这种布置,可以在具有不同数量扬声音器的各种观看/收听环境中执行再现。此外,可以容易地在再现期间对特定声音源的声音执行处理,诸如调整特定声音源的声音的音量以及对特定声音源的声音添加效果,这在传统编码方法中是困难的。
例如,在非专利文献1的标准中,将称为基于三维矢量的振幅平移(VBAP)(以下简称为VBAP)的方法用于渲染处理。
这是通常称为摇摄的再现方法之一,并且是通过将增益分配给在同样以观看/收听位置作为原点存在于球面上的扬声音器之中最接近存在于球面上的音频对象的三个扬声音器来执行再现的方法。
通过摇摄的音频对象的这种渲染基于这样的前提,即所有音频对象都在以观看/收听位置作为原点的球面上。因此,在音频对象接近观看/收听位置或远离观看/收听位置的情况下的距离感测仅由音频对象的增益大小控制。
然而,实际上,如果不考虑取决于频率分量的不同衰减率、存在音频对象的空间中的反射等,则距离感的表达远离实际体验。
为了在收听体验中反映这样的效果,首先可以想到物理地计算空间中的反射和衰减以获得最终的输出音频信号。然而,尽管这种方法对于能够以非常长的计算时间产生的运动图像内容(诸如电影)是有效的,但是在实时再现音频对象的情况下使用这种方法是困难的。
此外,在通过物理计算空间中的反射和衰减而获得的最终输出中,难以反映内容创建者的意图。特别是对于诸如音乐剪辑的音乐作品,需要容易反映内容创建者意图的格式,诸如将优选的混响处理应用于声音轨等。
引证列表
非专利文献
非专利文献1:国际标准ISO/IEC23008-3第一版2015-10-15信息技术-异构环境中的高效编码和媒体递送-第3部分:3D音频
发明内容
本发明要解决的问题
因此,在实时再现中,期望将考虑到每个音频对象在空间中的反射和衰减的混响处理所需的系数等的数据以及音频对象的位置信息存储在文件或发送流中,并通过使用它们获得最终的输出音频信号。
然而,对于每个帧,在文件或发送流中存储每个音频对象所需的混响处理数据会增加发送速率,并且需要具有高编码效率的数据发送。
鉴于这种情况而做出本技术,并且本技术旨在提高编码效率。
解决问题的方法
根据本技术的一个方面的信号处理装置包括:获取单元,该获取单元获取混响信息和音频对象的音频对象信号,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象的对象混响信息中的至少一个;以及混响处理单元,基于混响信息和音频对象信号生成音频对象的混响分量的信号。
根据本技术的一个方面的信号处理方法或程序包括以下步骤:获取混响信息,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象的对象混响信息以及音频对象的音频对象信号中的至少一个;以及基于混响信息和音频对象信号生成音频对象的混响分量的信号。
在本技术的一个方面中,获取混响信息,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象的对象混响信息和音频对象的音频对象信号中的至少一个,并且基于混响信息和音频对象信号生成音频对象的混响分量的信号。
本发明的效果
根据本技术的一个方面,可以提高编码效率。
注意,本文描述的效果不必受到限制,并且可以是本公开中描述的任何效果。
附图说明
[图1]是示出信号处理装置的配置示例的图示。
[图2]是示出渲染处理单元的配置示例的图示。
[图3]是示出音频对象信息的语法示例的图示。
[图4]是示出对象混响信息和空间混响信息的语法示例的图示。
[图5]是示出混响分量的定位位置的图示。
[图6]是示出脉冲响应的图示。
[图7]是示出音频对象和观看/收听位置之间的关系的图示。
[图8]是示出直接声音分量、初始反射声音分量和后混响分量的图示。
[图9]是示出音频输出处理的流程图。
[图10]是示出编码装置的配置示例的图示。
[图11]是示出编码处理的流程图。
[图12]是示出计算机的配置示例的图示。
实施本发明的方式
在下文中,将参照附图描述应用本技术的实施例。
<第一实施例>
<信号处理装置的配置示例>
本技术通过根据音频对象和观看/收听位置之间的关系自适应地选择混响参数的编码方法,使得可以以高编码效率发送混响参数。
图1是示出应用了本技术的信号处理装置的实施例的配置示例的图示。
图1所示的信号处理装置11包括核心解码处理单元21和渲染处理单元22。
核心解码处理单元21接收并解码已发送的输入位流,并将由此获得的音频对象信息和音频对象信号提供给渲染处理单元22。换言之,核心解码处理单元21用作获取音频对象信息和音频对象信号的获取单元。
在此,音频对象信号是用于再现音频对象的声音的音频信号。
此外,音频对象信息是音频对象的元数据,即音频对象信号。音频对象信息包括关于音频对象的信息,该信息是由渲染处理单元22执行的处理所必需的。
具体地,音频对象信息包括对象位置信息、直接声音增益、对象混响信息、对象混响声音增益、空间混响信息和空间混响增益。
在此,对象位置信息是指示音频对象在三维空间中的位置的信息。例如,对象位置信息包括指示从作为参考的观看/收听位置观看的音频对象的水平位置的水平角度、指示从观看/收听位置观看的音频对象的垂直位置的垂直角度,以及指示从观看/收听位置到音频对象的距离的半径。
此外,直接声音增益是用于在生成音频对象的声音的直接声音分量时用于增益调整的增益值。
例如,当渲染音频对象,即音频对象信号时,渲染处理单元22从音频对象产生直接声音分量的信号、特定于对象的混响声音的信号和特定于空间的混响声音的信号。
特别地,特定于对象的混响声音或特定于空间的混响声音的信号是诸如来自音频对象的声音的反射声音或混响声音的分量的信号,即,通过对音频对象信号执行混响处理而获得的混响分量的信号。
特定于对象的混响声音是音频对象的声音的初始反射声音分量,并且是音频对象的状态(诸如音频对象在三维空间中的位置)做出贡献大的声音。即,特定于对象的混响声音是取决于音频对象的位置的混响声音,其根据观看/收听位置和音频对象之间的相对位置关系而极大地改变。
另一方面,特定于空间的混响声音是音频对象的声音的后混响分量,并且是音频对象的状态做出贡献小并且音频对象周围的环境的状态做出贡献大的声音,即,音频对象周围的空间。
即,特定于空间的混响声音根据音频对象周围的空间中的观看/收听位置和墙壁等之间的相对位置关系、墙壁和地板的材料等而极大地改变,但是根据观看/收听位置和音频对象之间的相对位置关系几乎不改变。因此,可以说特定于空间的混响声音是取决于音频对象周围空间的声音。
在渲染处理单元22中进行渲染处理时,通过对音频对象信号的混响处理来生成来自音频对象的直接声音分量、特定于对象的混响声音分量和特定于空间的混响声音分量。直接声音增益用于产生这种直接声音分量信号。
对象混响信息是关于特定于对象的混响声音的信息。例如,对象混响信息包括指示特定于对象的混响声音的声音图像的定位位置的对象混响位置信息,以及用于在混响处理期间生成特定于对象的混响声音分量的系数信息。
由于特定于对象的混响声音是特定于音频对象的分量,因此可以说对象混响信息是特定于音频对象的混响信息,其用于在混响处理期间生成特定于对象的混响声音分量。
注意,在下文中,由对象混响位置信息指示的特定于对象的混响声音的声音图像在三维空间中的定位位置也被称为对象混响分量位置。可以说,对象混响分量位置是输出特定于对象的混响声音的真实扬声音器或虚拟扬声音器在三维空间中的布置位置。
此外,包括在音频对象信息中的对象混响声音增益是用于特定于对象的混响声音的增益调整的增益值。
空间混响信息是关于特定于空间的混响声音的信息。例如,空间混响信息包括指示特定于空间的混响声音的声音图像的定位位置的空间混响位置信息,以及用于在混响处理期间生成特定于空间的混响声音分量的系数信息。
由于特定于空间的混响声音是音频对象的贡献低的特定于空间分量,因此可以说空间混响信息是音频对象周围的特定于空间的混响信息,其用于在混响处理期间生成特定于空间的混响声音分量。
注意,在下文中,特定于空间的混响声音的声音图像在由空间混响位置信息指示的三维空间中的定位位置也被称为空间混响分量位置。可以说,空间混响分量位置是在三维空间中输出特定于空间的混响声音的真实扬声音器或虚拟扬声音器的布置位置。
此外,空间混响增益是用于特定于对象的混响声音的增益调整的增益值。
从核心解码处理单元21输出的音频对象信息至少包括对象位置信息、直接声音增益、对象混响信息、对象混响声音增益、空间混响信息和空间混响增益中的对象位置信息。
渲染处理单元22基于从核心解码处理单元21提供的音频对象信息和音频对象信号生成输出音频信号,并将输出音频信号提供给后一部分的扬声音器、记录单元等。
即,渲染处理单元22基于音频对象信息执行混响处理,并且为每个音频对象生成直接声音的一个或多个信号、特定于对象的混响声音的信号以及特定于空间的混响声音的信号。
然后,渲染处理单元22通过VBAP对所获得的直接声音、特定于对象的混响声音和特定于空间的混响声音的每个信号执行渲染处理,并且生成具有与再现设备相对应的声道配置的输出音频信号,该再现设备诸如是用作输出目的地的扬声音器系统或耳机。此外,渲染处理单元22将包括在为每个信号生成的输出音频信号中的相同声道的信号相加,以获得一个最终输出音频信号。
当基于这样获得的输出音频信号再现声音时,音频对象的直接声音的声音像被定位在由对象位置信息指示的位置处,特定于对象的混响声音的声音像被定位在对象混响分量位置处,并且特定于空间的混响声音的声音像被定位在空间混响分量位置处。结果,实现了其中音频对象的距离感测被适当地控制的更逼真的音频再现。
<渲染处理单元的配置示例>
接下来,将描述图1所示的信号处理装置11的渲染处理单元22的更详细的配置示例。
在此,将描述存在两个音频对象的情况作为特定示例。注意,可以有任何数量的音频对象,并且可以处理与计算资源所允许的一样多的音频对象。
在下文中,在区分两个音频对象的情况下,一个音频对象也被描述为音频对象OBJ1,并且音频对象OBJ1的音频对象信号也被描述为音频对象信号OA1。此外,另一个音频对象也被描述为音频对象OBJ2,并且音频对象OBJ2的音频对象信号也被描述为音频对象信号OA2。
此外,在下文中,音频对象OBJ1的对象位置信息、直接声音增益、对象混响信息、对象混响声音增益和空间混响增益也被具体描述为对象位置信息OP1、直接声音增益OG1、对象混响信息OR1、对象混响声音增益RG1和空间混响增益SG1。
类似地,在下文中,将音频对象OBJ2的对象位置信息、直接声音增益、对象混响信息、对象混响声音增益和空间混响增益具体描述为对象位置信息OP2、直接声音增益OG2、对象混响信息OR2、对象混响声音增益RG2和空间混响增益SG2。
在如上所述存在两个音频对象的情况下,例如如图2所示配置渲染处理单元22。
在图2所示的示例中,渲染处理单元22包括放大单元51-1、放大单元51-2、放大单元52-1、放大单元52-2、特定于对象的混响处理单元53-1、特定于对象的混响处理单元53-2、放大单元54-1、放大单元54-2、特定于空间的混响处理单元55和渲染单元56。
放大单元51-1和放大单元51-2将从核心解码处理单元21提供的直接声音增益OG1和直接声音增益OG2乘以从核心解码处理单元21提供的音频对象信号OA1和音频对象信号OA2,以执行增益调整。由此获得的音频对象的直接声音信号被提供给渲染单元56。
注意,在下文中,在不必特别区分放大单元51-1和放大单元51-2的情况下,放大单元51-1和放大单元51-2也简称为放大单元51。
放大单元52-1和放大单元52-2将从核心解码处理单元21提供的对象混响声音增益RG1和对象混响声音增益RG2与从核心解码处理单元21提供的音频对象信号OA1和音频对象信号OA2相乘,以执行增益调整。利用该增益调整来调整每个特定于对象的混响声音的响度。
放大单元52-1和放大单元52-2将增益调整后的音频对象信号OA1和音频对象信号OA2提供给特定于对象的混响处理单元53-1和特定于对象的混响处理单元53-2。
注意,在下文中,在不必特别区分放大单元52-1和放大单元52-2的情况下,放大单元52-1和放大单元52-2也简称为放大单元52。
特定于对象的混响处理单元53-1基于从核心解码处理单元21提供的对象混响信息OR1,对从放大单元52-1提供的增益调整的音频对象信号OA1执行混响处理。
通过混响处理,生成用于音频对象OBJ1的特定于对象的混响声音的一个或多个信号。
此外,基于从核心解码处理单元21提供的对象位置信息OP1和包括在对象混响信息OR1中的对象混响位置信息,特定于对象的混响处理单元53-1生成指示每个特定于对象的混响声音在三维空间中的声音图像的绝对定位位置的位置信息。
如上所述,对象位置信息OP1是包括基于三维空间中的观看/收听位置指示音频对象OBJ1的绝对位置的水平角度、垂直角度和半径的信息。
另一方面,对象混响位置信息可以是指示在三维空间中从观看/收听位置观看的特定于对象的混响声音的声音图像的绝对位置(定位位置)的信息,或者是指示在三维空间中特定于对象的混响声音的声音图像相对于音频对象OBJ1的相对位置(定位位置)的信息。
例如,在对象混响位置信息是指示从三维空间中的观看/收听位置观看的特定于对象的混响声音的声音图像的绝对位置的信息的情况下,对象混响位置信息是包括基于三维空间中的观看/收听位置的水平角度、垂直角度以及半径的指示特定于对象的混响声音的声音图像的绝对定位位置的信息。
在这种情况下,特定于对象的混响处理单元53-1原样使用对象混响位置信息作为指示特定于对象的混响声音的声音图像的绝对位置的位置信息。
另一方面,在对象混响位置信息是指示特定于对象的混响声音的声音像相对于音频对象OBJ1的相对位置的信息的情况下,对象混响位置信息是包括水平角、垂直角和半径的指示从三维空间中的视/听位置观看的特定于对象的混响声音的声音像相对于音频对象OBJ1的相对位置的信息。
在这种情况下,基于对象位置信息OP1和对象混响位置信息,将特定于对象的混响处理单元53-1基于三维空间中的观看/收听位置生成包括水平角、垂直角和半径的指示特定于对象的混响声音的声音像的绝对定位位置的信息,作为指示特定于对象的混响声音的声音像的绝对位置的位置信息。
特定于对象的混响处理单元53-1以这种方式向渲染单元56提供针对一个或多个特定于对象的混响声音中的每一个获得的特定于对象的混响声音的一对信号和位置信息。
如上所述,通过混响处理生成特定于对象的混响声音的信号和位置信息,从而可以将每个特定于对象的混响声音的信号处理为独立的音频对象信号来处理。
类似地,特定于对象的混响处理单元53-2基于从核心解码处理单元21提供的对象混响信息OR2、对从放大单元52-2提供的增益调整的音频对象信号OA2执行混响处理。
通过混响处理,生成用于音频对象OBJ2的特定于对象的混响声音的一个或多个信号。
此外,基于从核心解码处理单元21提供的对象位置信息OP2和包括在对象混响信息OR2中的对象混响位置信息,特定于对象的混响处理单元53-2生成指示每个特定于对象的混响声音在三维空间中的声音图像的绝对定位位置的位置信息。
然后,特定于对象的混响处理单元53-2将以这种方式获得的特定于对象的混响声音的一对信号和位置信息提供给渲染单元56。
注意,在下文中,在不必特别区分特定于对象的混响处理单元53-1和特定于对象的混响处理单元53-2的情况下,特定于对象的混响处理单元53-1和特定于对象的混响处理单元53-2也被简单地称为特定于对象的混响处理单元53。
放大单元54-1和放大单元54-2将从核心解码处理单元21提供的空间混响增益SG1和空间混响增益SG2乘以从核心解码处理单元21提供的音频对象信号OA1和音频对象信号OA2,以执行增益调整。利用该增益调整调整每个特定于空间的混响声音的响度。
此外,放大单元54-1和放大单元54-2将增益调整后的音频对象信号OA1和音频对象信号OA2提供给特定于空间的混响处理单元55。
注意,在下文中,在不必特别区分放大单元54-1和放大单元54-2的情况下,放大单元54-1和放大单元54-2也简称为放大单元54。
特定于空间的混响处理单元55基于从核心解码处理单元21提供的空间混响信息,对从放大单元54-1和放大单元54-2提供的增益调整的音频对象信号OA1和音频对象信号OA2执行混响处理。此外,特定于空间的混响处理单元55通过将通过对音频对象OBJ1和音频对象OBJ2的混响处理获得的信号相加来生成特定于空间的混响声音的信号。特定于空间的混响处理单元55生成特定于空间的混响声音的一个或多个信号。
此外,与特定于对象的混响处理单元53的情况相同,特定于空间的混响处理单元55基于包括在从核心解码处理单元21提供的空间混响信息中的空间混响位置信息,生成对象位置信息OP1和对象位置信息OP2作为指示特定于空间的混响声音的声音图像的绝对定位位置的位置信息。
该位置信息例如是包括水平角度、垂直角度和半径的信息,该信息指示基于三维空间中的观看/收听位置的特定于空间的混响声音的声音图像的绝对定位位置。
特定于空间的混响处理单元55将以这种方式获得的一个或多个特定于空间的混响声音的一对信号和特定于空间的混响声音的位置信息提供给渲染单元56。注意,特定于空间的混响声音可以被视为独立的音频对象信号,因为它们具有类似于特定于对象的混响声音的位置信息。
放大单元51通过上述特定于空间的混响处理单元55用作构成在渲染单元56之前提供的混响处理单元的处理块,并且基于音频对象信息和音频对象信号执行混响处理。
渲染单元56基于所提供的每个声音信号和每个声音信号的位置信息执行VBAP的渲染处理,并且生成并输出包括具有预定声道配置的每个声道的信号的输出音频信号。
即,渲染单元56基于从核心解码处理单元21提供的对象位置信息和从放大单元51提供的直接声音信号,通过VBAP执行渲染处理,并且为每一个音频对象OBJ1和音频对象OBJ2生成每个声道的输出音频信号。
此外,渲染单元56基于该一对信号和从特定于对象的混响处理单元53提供的特定于对象的混响声音的位置信息,对每对执行VBAP的渲染处理,并且为每个特定于对象的混响声音生成每个声道的输出音频信号。
此外,渲染单元56基于该一对信号和从特定于空间的混响处理单元55提供的特定于空间的混响声音的位置信息,为每对执行VBAP的渲染处理,并为每个特定于空间的混响声音生成每个声道的输出音频信号。
然后,渲染单元56将包括在针对每个音频对象OBJ1、音频对象OBJ2、特定于对象的混响声音和特定于空间的混响声音获得的输出音频信号中的相同声道的信号相加,以获得最终输出音频信号。
<输入位流的格式示例>
在此,将描述提供给信号处理装置11的输入位流的格式示例。
例如,输入位流的格式(语法)如图3所示。在图3所示的示例中,由字符“object_metadata()”指示的部分是音频对象的元数据,即音频对象信息的一部分。
音频对象信息的该部分包括关于由字符“num_objects”指示的音频对象的数量的音频对象的对象位置信息。在该示例中,水平角度position_azimuth[i]、垂直角度position_elevation[i]和半径position_radius[i]被存储为第i个音频对象的对象位置信息。
此外,音频对象信息包括混响信息标志,其由字符“flag_obj_reverb”指示并且指示是否包括诸如对象混响信息和空间混响信息的混响信息。
在此,在混响信息标志flag_obj_reverb的值为“1”的情况下,其指示音频对象信息包括混响信息。
换句话说,在混响信息标志flag_obj_reverb的值是“1”的情况下,可以说包括空间混响信息或对象混响信息中的至少一个的混响信息被存储在音频对象信息中。
注意,更详细地,根据稍后描述的重新使用标志use_prev的值,存在音频对象信息包括用于标识过去混响信息(即,稍后描述的混响ID)的标识信息作为混响信息,并且不包括对象混响信息或空间混响信息的情况。
另一方面,在混响信息标志flag_obj_reverb的值为“0”的情况下,其指示音频对象信息不包括混响信息。
在混响信息标志flag_obj_reverb的值为“1”的情况下,在音频对象信息中,字符“dry_gain[i]”所指示的直接声音增益、字符“wet_gain[i]”所指示的对象混响声音增益以及字符“room_gain[i]”所指示的空间混响增益中的每一种都被存储作为混响信息。
直接声音增益dry_gain[i]、对象混响声音增益wet_gain[i]和空间混响增益room_gain[i]确定输出音频信号中的直接声音、特定于对象的混响声音和特定于空间的混响声音的混合比。
此外,在音频对象信息中,由字符“use_prev”指示的重新使用标志被存储为混响信息。
重新使用标志use_prev是指示是否重新使用由混响ID指定的过去对象混响信息作为第i个音频对象的对象混响信息的标志信息。
在此,将混响ID作为用于识别(指定)对象混响信息的识别信息给予在输入位流中发送的每个对象混响信息。
例如,当重新使用标志use_prev的值是“1”时,其指示重新使用过去的对象混响信息。在这种情况下,在音频对象信息中,存储由字符“reverb_data_id[i]”指示并指示要重新使用的对象混响信息的混响ID。
另一方面,当重新使用标志use_prev的值是“0”时,其指示对象混响信息未被重新使用。在这种情况下,在音频对象信息中,存储由字符“obj_reverb_data(i)”指示的对象混响信息。
此外,在音频对象信息中,由字符“flag_room_reverb”指示的空间混响信息标志被存储为混响信息。
空间混响信息标志flag_room_reverb是指示空间混响信息的存在或不存在的标志。例如,在空间混响信息标志flag_room_reverb的值为“1”的情况下,其指示存在空间混响信息,并且由字符“room_reverb_data(i)”指示的空间混响信息被存储在音频对象信息中。
另一方面,在空间混响信息标志flag_room_reverb的值为“0”的情况下,其指示不存在空间混响信息,并且在这种情况下,在音频对象信息中不存储空间混响信息。注意,类似于对象混响信息的情况,可以针对空间混响信息存储重新使用标志,并且可以适当地重新使用空间混响信息。
此外,例如,输入位流的音频对象信息中的对象混响信息obj_reverb_data(i)和空间混响信息room_reverb_data(i)的部分的格式(语法)如图4所示。
在图4所示的示例中,包括由字符“reverb_data_id”指示的混响ID、由字符“num_out”指示的要生成的特定于对象的reverb声音分量的数量,以及由字符“len_ir”指示的抽头长度作为对象混响信息。
注意,在该示例中,假设脉冲响应的系数被存储为用于生成特定于对象的混响声音分量的系数信息,并且抽头长度len_ir指示脉冲响应的抽头长度,即脉冲响应的系数的数量。
此外,包括要生成的特定于对象的混响声音分量的num_out的特定于对象的混响声音的对象混响位置信息作为对象混响信息。
即,将水平角度位置方位角[i]、垂直角度位置仰角[i]和半径位置半径[i]存储为第i个特定于对象的混响声音分量的对象混响位置信息。
此外,作为第i个特定于对象的混响声音分量的系数信息,针对抽头长度len_ir的数目存储脉冲响应impulse_response[i][j]的系数。
另一方面,包括由字符“num_out”指示的要生成的特定于空间的混响声音分量的数量和由字符“len_ir”指示的抽头长度作为空间混响信息。抽头长度len_ir是作为用于生成特定于空间的混响声音分量的系数信息的脉冲响应的抽头长度。
此外,包括特定于空间的混响声音的空间混响位置信息作为空间混响信息,该特定于空间的混响声音的空间混响位置信息用于要生成的特定于空间的混响声音分量的数量num_out。
即,将水平角度position_azimuth[i]、垂直角度position_elevation[i]和半径position_radius[i]存储为第i个特定于空间的混响声音分量的空间混响位置信息。
此外,作为第i特定于空间的混响声音分量的系数信息,针对抽头长度len_ir的数目存储脉冲响应impulse_response[i][j]的系数。
注意,在图3和图4中图示的示例中,已经描述了其中脉冲响应被用作用于生成特定于对象的混响声音分量和特定于空间的混响声音分量的系数信息的示例。即,已经描述了其中执行使用采样混响的混响处理的示例。然而,本技术不限于此,并且可以使用参数混响等来执行混响处理。此外,可以通过使用诸如霍夫曼编码的无损编码技术来压缩系数信息。
如上所述,在输入位流中,混响处理所需的信息被划分为关于直接声音的信息(直接声音增益)、关于诸如对象混响信息的特定于对象的混响声音的信息,以及关于诸如空间混响信息的特定于空间的混响声音的信息,并且通过划分获得的信息而被发送。
因此,可以针对诸如关于直接声音的信息、关于特定于对象的混响声音的信息和关于特定于空间的混响声音的信息的每条信息,以适当的发送频率混合和输出信息。即,例如,在音频对象信号的每个帧中,可以基于音频对象和观看/收听位置之间的关系,从诸如关于直接声音的信息的多条信息中选择性地仅发送必要的信息。结果,可以降低输入位流的位率,并且可以实现更有效的信息发送。即,可以提高编码效率。
<关于输出音频信号>
接下来,将描述基于输出音频信号再现的音频对象的直接声音、特定于对象的混响声音和特定于空间的混响声音。
音频对象的位置和对象混响分量位置之间的关系例如如图5所示。
在此,在一个音频对象的位置OBJ11附近,存在音频对象的四个特定于对象的混响声音的对象混响分量位置RVB11到对象混响分量位置RVB14。
在此,在图的上侧示出表示物体混响分量位置RVB11到物体混响分量位置RVB14的水平角度(方位角)和垂直角度(仰角)。在该示例中,可以看到,四个特定于对象的混响声音分量围绕原点O布置,该原点O是观看/收听位置。
其中特定于对象的混响声音的定位位置和特定于对象的混响声音的声音类型在很大程度上取决于音频对象在三维空间中的位置。因此,可以说,对象混响信息是取决于音频对象在空间中的位置的混响信息。
因此,在输入位流中,对象混响信息并非链接到音频对象,而是由混响ID管理。
当从输入位流中读出对象混响信息时,核心解码处理单元21将读出的对象混响信息保持一定的周期。即,核心解码处理单元21始终在过去的预定周期内保持对象混响信息。
例如,假定重新使用标志use_prev的值在预定时间是“1”,并且给出重新使用对象混响信息的指令。
在这种情况下,核心解码处理单元21从输入位流获取预定音频对象的混响ID。即,读出混响ID。
然后,核心解码处理单元21从核心解码处理单元21保存的过去的对象混响信息中读出由读出的混响ID指定的对象混响信息,并且在预定时间重新使用该对象混响信息作为关于预定音频对象的对象混响信息。
通过以这种方式管理具有混响ID的对象混响信息,例如,针对音频对象OBJ1发送的对象混响信息也可以像针对音频对象OBJ2发送的对象混响信息一样被重新使用。因此,可以进一步减少临时保存在核心解码处理单元21中的对象混响信息的条数,即数据量。
顺便提及,通常,在脉冲发射到空间中的情况下,例如,如图6所示,通过存在于周围空间中的地板、墙壁等的反射产生初始反射声音,并且除了直接声音之外,还产生通过反射的重复产生的后混响分量。
在此,由箭头Q11指示的部分指示直接声音分量,并且直接声音分量对应于由放大单元51获得的直接声音的信号。
此外,由箭头Q12指示的部分指示初始反射声音分量,并且初始反射声音分量对应于由特定于对象的混响处理单元53获得的特定于对象的混响声音的信号。此外,由箭头Q13指示的部分指示后混响分量,并且后混响分量对应于由特定于空间的混响处理单元55获得的特定于空间的混响声音的信号。
例如,如果在二维平面上描述,则直接声音、初始反射声音和后混响分量之间的这种关系如图7和图8所示。注意,在图7和图8中,彼此对应的部分由相同的附图标记表示,并且将适当地省略其描述。
例如,如图7所示,假设在由矩形框架表示的壁包围的室内空间中存在两个音频对象OBJ21和OBJ22。还假设观众/听众U11处于参考观看/收听位置。
在此,假设从观众/听众U11到音频对象OBJ21的距离是ROBJ21,并且从观众/听众U11到音频对象OBJ22的距离是ROBJ22。
在这种情况下,如图8所示,在音频对象OBJ21处生成并直接指向观众/听众U11的、由图中虚线箭头绘制的声音是音频对象OBJ21的直接声音DOBJ21。类似地,由附图中的虚线箭头绘制的、在音频对象OBJ22处生成的,并且直接指向观众/听众U11的声音是音频对象OBJ22的直接声音DOBJ22。
此外,由附图中的虚线箭头绘制的、在音频对象OBJ21处生成的,并且在被室内墙壁等反射一次之后指向观众/听众U11的声音是音频对象OBJ21的初始反射声音EOBJ21。类似地,由附图中的虚线箭头绘制的,在音频对象OBJ22处生成的,并且在被室内墙壁等反射一次之后指向观众/听众U11的声音是音频对象OBJ22的初始反射声音EOBJ22。
此外,包括声音SOBJ21和声音SOBJ22的声音分量是后混响分量。声音SOBJ21在音频对象OBJ21处生成,并被室内墙壁等反复反射以到达观众/听众U11。声音SOBJ22在音频对象OBJ22处生成,并被室内墙壁等反复反射以到达观众/听众U11。在此,后混响分量由实线箭头绘制。
在此,距离ROBJ22比距离ROBJ21短,并且音频对象OBJ22比音频对象OBJ21更靠近观众/听众U11。
结果,针对音频对象OBJ22,直接声音DOBJ22作为观众/听众U11能够听到的声音比初始反射声音EOBJ22更占优势。因此,针对音频对象OBJ22的混响,直接声音增益被设置为大值、对象混响声音增益和空间混响增益被设置为小值,并且这些增益被存储在输入位流中。
另一方面,音频对象OBJ21比音频对象OBJ22离观众/听众U11更远。
结果,针对音频对象OBJ21,作为观众/听众U11能够听到的声音,后混响分量的初始反射声音EOBJ21和声音SOBJ21比直接声音DOBJ21更占优势。因此,针对音频对象OBJ21的混响,直接声音增益被设置为小值、对象混响声音增益和空间混响增益被设置为大值,并且这些增益被存储在输入位流中。
此外,在音频对象OBJ21或音频对象OBJ22移动的情况下,初始反射声音分量很大程度上根据音频对象的位置与作为周围空间的房间的墙壁和地板的位置之间的位置关系而改变。
因此,必须以与对象位置信息相同的频率发送音频对象OBJ21和音频对象OBJ22的对象混响信息。这种对象混响信息是很大程度上取决于音频对象的位置的信息。
另一方面,由于后混响分量很大程度上取决于诸如墙壁和地板的空间的材料等,所以通过以最小所需频率发送空间混响信息,并且根据音频对象的位置仅控制后混响分量的幅度关系,可以充分地确保主观质量。
因此,例如,空间混响信息以比对象混响信息低的频率被发送到信号处理装置11。换言之,核心解码处理单元21以比获取对象混响信息的频率低的频率获取空间混响信息。
在本技术中,通过划分诸如直接声音、特定于对象的混响声音和特定于空间的混响声音的每个声音分量的混响处理所需的信息,可以减少混响处理所需的信息(数据)的数据量。
通常,采样混响需要大约一秒的长脉冲响应数据,但是通过如在本技术中那样划分每个声音分量的必要信息,脉冲响应可以实现为固定延迟和短脉冲响应数据的组合,并且可以减少数据量。通过这种布置,不仅在采样混响中而且在参数混响中,可以类似地减少双二阶滤波器的级数。
此外,在本技术中,通过划分每个声音分量的必要信息并发送通过划分获得的信息,可以以所需频率发送混响处理所需的信息,从而提高编码效率。
如上所述,根据本技术,在发送用于控制距离感测的混响信息的情况下,与诸如VBAP的基于平移的渲染方法相比,即使在存在大量音频对象的情况下,也可以实现更高的发送效率。
<音频输出处理的说明>
接下来,将描述信号处理装置11的具体操作。即,下面将参照图9中的流程图描述信号处理装置11的音频输出处理。
在步骤S11中,核心解码处理单元21对接收到的输入位流进行解码(数据)。
核心解码处理单元21将通过解码获得的音频对象信号提供给放大单元51、放大单元52和放大单元54,并将通过解码获得的直接声音增益、对象混响声音增益和空间混响增益分别提供给放大单元51、放大单元52和放大单元54。
此外,核心解码处理单元21将通过解码获得的对象混响信息和空间混响信息提供给特定于对象的混响处理单元53和特定于空间的混响处理单元55。此外,核心解码处理单元21将通过解码获得的对象位置信息提供给特定于对象的混响处理单元53、特定于空间的混响处理单元55和渲染单元56。
注意,此时,核心解码处理单元21暂时保存从输入位流读出的对象混响信息。
此外,更具体地,当重新使用标志use_prev的值是“1”时,核心解码处理单元21向特定于对象的混响处理单元53提供由从核心解码处理单元21保存的对象混响信息片段的输入位流中读出的混响ID指定的对象混响信息,作为音频对象的对象混响信息。
在步骤S12中,放大单元51将从核心解码处理单元21提供的直接声音增益乘以从核心解码处理单元21提供的音频对象信号以执行增益调整。因此,放大单元51产生直接声音信号,并将直接声音信号提供给渲染单元56。
在步骤S13中,特定于对象的混响处理单元53生成特定于对象的混响声音的信号。
即,放大单元52将从核心解码处理单元21提供的对象混响声音增益乘以从核心解码处理单元21提供的音频对象信号以执行增益调整。然后,放大单元52将增益调整后的音频对象信号提供给特定于对象的混响处理单元53。
此外,特定于对象的混响处理单元53基于在从核心解码处理单元21提供的对象混响信息中包括的脉冲响应的系数,对从放大单元52提供的音频对象信号执行混响处理。即,执行脉冲响应系数和音频对象信号的卷积处理,以生成特定于对象的混响声音的信号。
此外,特定于对象的混响处理单元53基于从核心解码处理单元21提供的对象位置信息和包括在对象混响信息中的对象混响位置信息来生成特定于对象的混响声音的位置信息。然后,特定于对象的混响处理单元53将获得的位置信息和特定于对象的混响声音的信号提供给渲染单元56。
在步骤S14中,特定于空间的混响处理单元55生成特定于空间的混响声音的信号。
即,放大单元54将从核心解码处理单元21提供的空间混响增益乘以从核心解码处理单元21提供的音频对象信号以执行增益调整。然后,放大单元54将增益调整后的音频对象信号提供给特定于空间的混响处理单元55。
此外,特定于空间的混响处理单元55基于包括在从核心解码处理单元21提供的空间混响信息中的脉冲响应的系数,对从放大单元54提供的音频对象信号执行混响处理。即,执行脉冲响应系数和音频对象信号的卷积处理,将通过卷积处理获得的用于每个音频对象的信号相加,并且生成特定于空间的混响声音的信号。
此外,特定于空间的混响处理单元55基于从核心解码处理单元21提供的对象位置信息和包括在空间混响信息中的空间混响位置信息来生成特定于空间的混响声音的位置信息。特定于空间的混响处理单元55将获得的位置信息和特定于空间的混响声音的信号提供给渲染单元56。
在步骤S15中,渲染单元56执行渲染处理并输出所获得的输出音频信号。
即,渲染单元56基于从核心解码处理单元21提供的对象位置信息和从放大单元51提供的直接声音信号来执行渲染处理。此外,渲染单元56基于从特定于对象的混响处理单元53提供的特定于对象的混响声音的信号和位置信息来执行渲染处理,并且基于从特定于空间的混响处理单元55提供的特定于空间的混响声音的信号和位置信息来执行渲染处理。
然后,渲染单元56为每个声道添加通过每个声音分量的渲染处理获得的信号,以生成最终输出音频信号。渲染单元56将如此获得的输出音频信号输出到后一部分,并且音频输出处理结束。
如上所述,信号处理装置11基于包括针对直接声音、特定于对象的混响声音和特定于空间的混响声音的每个分量划分的信息的音频对象信息来执行混响处理和渲染处理,并生成输出音频信号。通过这种配置,可以提高输入位流的编码效率。
<编码装置的配置示例>
接下来,将描述产生并输出上述输入位流作为输出位流的编码装置。
例如,如图10所示,配置这种编码装置。
图10所示的编码装置101包括对象信号编码单元111、音频对象信息编码单元112和分组单元113。
对象信号编码单元111通过预定编码方法对提供的音频对象信号进行编码,并将编码的音频对象信号提供给分组单元113。
音频对象信息编码单元112对提供的音频对象信息进行编码,并将编码的音频对象信息提供给分组单元113。
分组单元113在位流中存储从对象信号编码单元111提供的编码音频对象信号和从音频对象信息编码单元112提供的编码音频对象信息,以获得输出位流。分组单元113将获得的输出位流发送到信号处理装置11。
<编码处理的描述>
接下来,将描述编码装置101的操作。即,下面将参考图11中的流程图描述由编码装置101执行的编码处理。例如,对音频对象信号的每一帧执行编码处理。
在步骤S41中,对象信号编码单元111通过预定编码方法对所提供的音频对象信号进行编码,并将编码后的音频对象信号提供给分组单元113。
在步骤S42中,音频对象信息编码单元112对所提供的音频对象信息进行编码,并将所编码的音频对象信息提供给分组单元113。
在此,例如,提供和编码包括对象混响信息和空间混响信息的音频对象信息,使得空间混响信息以比对象混响信息更低的频率被发送到信号处理装置11。
在步骤S43中,分组单元113在位流中存储从对象信号编码单元111提供的编码音频对象信号。
在步骤S44中,分组单元113在位流中存储包括在从音频对象信息编码单元112提供的编码音频对象信息中的对象位置信息。
在步骤S45中,分组单元113确定从音频对象信息编码单元112提供的编码音频对象信息是否包括混响信息。
在此,在既不包括对象混响信息也不包括空间混响信息作为混响信息的情况下,确定不包括混响信息。
如果在步骤S45中确定不包括混响信息,则处理进行到步骤S46。
在步骤S46中,分组单元113将混响信息标志flag_obj_reverb的值设置为“0”,并将混响信息标志flag_obj_reverb存储在位流中。结果,获得了不包括混响信息的输出位流。在获得输出位流之后,处理进行到步骤S54。
另一方面,在步骤S45中确定为包括混响信息的情况下,进入步骤S47。
在步骤S47,分组单元113将混响信息标志flag_obj_reverb的值设置为“1”,并将包括在从音频对象信息编码单元112提供的编码音频对象信息中的混响信息标志flag_obj_reverb和增益信息存储在位流中。在此,上述直接声音增益dry_gain[i]、对象混响声音增益wet_gain[i]和空间混响增益room_gain[i]作为增益信息存储在位流中。
在步骤S48,分组单元113确定是否重新使用对象混响信息。
例如,在从音频对象信息编码单元112提供的编码音频对象信息不包括对象混响信息并且包括混响ID的情况下,确定要重新使用对象混响信息。
如果在步骤S48中确定要重新使用对象混响信息,则处理进行到步骤S49。
在步骤S49,分组单元113将重新使用标志use_prev的值设置为“1”,并在位流中存储包括在从音频对象信息编码单元112提供的编码音频对象信息中的重新使用标志use_prev和混响ID。在存储混响ID之后,处理进行到步骤S51。
另一方面,在步骤S48中确定为不重复使用对象混响信息的情况下,进入步骤S50。
在步骤S50中,分组单元113将重新使用标志use_prev的值设置为“0”,并在位流中存储重新使用标志use_prev和包括在从音频对象信息编码单元112提供的编码音频对象信息中的对象混响信息。在存储了对象混响信息之后,处理进行到步骤S51。
在执行步骤S49或步骤S50的处理之后,执行步骤S51的处理。
即,在步骤S51中,分组单元113确定从音频对象信息编码单元112提供的编码音频对象信息是否包括空间混响信息。
如果在步骤S51中确定包括空间混响信息,则处理进行到步骤S52。
在步骤S52中,分组单元113将空间混响信息标志flag_room_reverb的值设置为“1”,并且将包括在从音频对象信息编码单元112提供的编码音频对象信息中的空间混响信息标志flag_room_reverb和空间混响信息存储在位流中。
结果,获得包括空间混响信息的输出位流。在获得输出位流之后,处理进行到步骤S54。
另一方面,在步骤S51中确定为不包含空间混响信息的情况下,进入步骤S53。
在步骤S53中,分组单元113将空间混响信息标志flag_room_reverb的值设置为“0”,并将空间混响信息标志flag_room_reverb存储在位流中。结果,获得了不包括空间混响信息的输出位流。在获得输出位流之后,处理进行到步骤S54。
在执行步骤S46、步骤S52或步骤S53的处理以获得输出位流之后,执行步骤S54的处理。注意,通过这些处理获得的输出位流例如是具有图3和4所示格式的位流。
在步骤S54中,分组单元113输出所获得的输出位流,并且编码处理结束。
如上所述,编码装置101在位流中存储音频对象信息,该音频对象信息适当地包括为直接声音、特定于对象的混响声音和特定于空间的混响声音的每个分量划分的信息,并将输出位流进行输出。通过这种配置,可以提高输出位流的编码效率。
注意,尽管上面已经描述了将诸如直接声音增益、对象混响声音增益和空间混响增益之类的增益信息作为音频对象信息给出的示例,但是可以在解码侧生成增益信息。
在这种情况下,例如,信号处理装置11基于包括在音频对象信息中的对象位置信息、对象混响位置信息、空间混响位置信息等生成直接声音增益、对象混响声音增益和空间混响增益。
<计算机配置示例>
顺便提及,上述一系列处理可以由硬件或软件执行。在由软件执行一系列处理的情况下,构成软件的程序被安装在计算机中。在此,计算机包括结合在专用硬件中的计算机,或者能够通过安装各种程序来执行各种功能的计算机,例如通用个人计算机。
图12是示出由程序执行上述一系列处理的计算机的硬件的配置示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
输入/输出接口505还连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风和图像传感器。输出单元507包括显示器和扬声音器。记录单元508包括硬盘和非易失性存储器。通信单元509包括网络接口。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质511。
在如上所述配置的计算机中,CPU501例如经由输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM503,并执行程序,从而执行上述一系列处理。
由计算机(CPU501)执行的程序可以通过例如作为封装介质等记录在可移动记录介质511上来提供。此外,可以经由诸如局域网、因特网或数字卫星广播的有线或无线发送介质来提供节目。
在计算机中,通过将可移动记录介质511附加到驱动器510,可以经由输入/输出接口505将程序安装在记录单元508中。此外,该程序可以由通信单元509通过有线或无线发送介质接收并安装在记录单元508中。另外,程序可以预先安装在ROM502或记录单元508中。
注意,由计算机执行的程序可以是其中以在本说明书中描述的顺序在时间序列中执行处理的程序,或其中并行地或在必要的定时(诸如当进行呼叫时)执行处理的程序。
此外,本技术的实施例不限于上述实施例,在不脱离本技术的要旨的情况下,能够进行各种变更。
例如,本技术可以具有云计算的配置,其中一个功能由多个装置经由网络共享并共同处理。
此外,上述流程图中描述的每个步骤可以由一个装置执行,或者可以由多个装置共享来执行。
此外,在一个步骤中包括多种类型的处理的情况下,一个步骤中包括的多种类型的处理可以由一个装置执行或者可以由多个装置共享来执行。
此外,本技术可以具有以下配置。
(1)信号处理装置包括:
获取单元,该获取单元获取混响信息,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象的对象混响信息和音频对象的音频对象信号中的至少一个;以及
基于混响信息和音频对象信号生成音频对象的混响分量的信号的混响处理单元。
(2)根据(1)的信号处理装置,其中以低于对象混响信息的频率获取空间混响信息。
(3)根据(1)或(2)的信号处理装置,其中在由获取单元获取指示过去混响信息的识别信息的情况下,混响处理单元基于由识别信息指示的混响信息和音频对象信号生成混响分量的信号。
(4)根据(3)的信号处理装置,其中识别信息是指示对象混响信息的信息,并且
混响处理单元基于由识别信息指示的对象混响信息、空间混响信息和音频对象信号生成混响分量的信号。
(5)根据(1)至(4)中任一项的信号处理装置,其中对象混响信息是取决于音频对象的位置的信息。
(6)根据(1)至(5)中任一项的信号处理装置,其中混响处理单元
基于空间混响信息和音频对象信号生成特定于空间的混响分量的信号,以及
基于对象混响信息和音频对象信号生成特定于音频对象的混响分量的信号。
(7)信号处理方法包括:
通过信号处理装置获取混响信息,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象和音频对象的音频对象信号的空间混响信息中的至少一个;以及
信号处理装置基于混响信息和音频对象信号生成音频对象的混响分量的信号。
(8)使计算机执行处理的程序包括以下步骤:
获取混响信息,该混响信息包括特定于音频对象周围的空间的空间混响信息或特定于音频对象的对象混响信息和音频对象的音频对象信号中的至少一个;以及
基于混响信息和音频对象信号生成音频对象的混响分量的信号。
附图标记列表
11 信号处理装置
21 核心解码处理单元
22 渲染处理单元
51-1、51-2、51放大单元
52-1、52-2、52放大单元
53-1、53-2、53特定于对象的混响处理单元
54-1、54-2、54放大单元
55特定于空间的混响处理单元
56 渲染单元
101 编码装置
111 对象信号编码单元
112 音频对象信息编码单元
113 分组装置。
Claims (8)
1.一种信号处理装置,包含:
获取单元,所述获取单元获取混响信息和音频对象的音频对象信号,所述混响信息包括以下中的至少一个:特定于音频对象周围的空间的空间混响信息和特定于所述音频对象的对象混响信息;以及
混响处理单元,所述混响处理单元基于所述混响信息和所述音频对象信号来生成所述音频对象的混响分量的信号。
2.根据权利要求1所述的信号处理装置,其中,以低于所述对象混响信息的频率来获取所述空间混响信息。
3.根据权利要求1所述的信号处理装置,其中,在由所述获取单元获取指示过去混响信息的识别信息的情况下,所述混响处理单元基于由所述识别信息指示的所述混响信息和所述音频对象信号来生成所述混响分量的信号。
4.根据权利要求3所述的信号处理装置,其中,所述识别信息是指示所述对象混响信息的信息,并且
所述混响处理单元基于由所述识别信息指示的所述对象混响信息、所述空间混响信息和所述音频对象信号来生成混响分量的信号。
5.根据权利要求1所述的信号处理装置,其中,所述对象混响信息是取决于所述音频对象的位置的信息。
6.根据权利要求1所述的信号处理装置,其中,所述混响处理单元:
基于所述空间混响信息和所述音频对象信号来生成特定于所述空间的所述混响分量的信号,并且
基于所述对象混响信息和所述音频对象信号来生成特定于所述音频对象的所述混响分量的信号。
7.一种信号处理方法,包含:
由信号处理装置获取混响信息和音频对象的音频对象信号,所述混响信息包括以下中的至少一个:特定于音频对象周围的空间的空间混响信息和特定于所述音频对象的对象混响信息;并且
由所述信号处理装置基于所述混响信息和所述音频对象信号来生成所述音频对象的混响分量的信号。
8.一种在其上存储有指令的计算机可读存储介质,当由计算机执行时,所述指令使所述计算机执行包含以下步骤的处理:
获取混响信息和音频对象的音频对象信号,所述混响信息包括以下中的至少一个:特定于音频对象周围的空间的空间混响信息和特定于所述音频对象的对象混响信息;并且
基于所述混响信息和所述音频对象信号来生成所述音频对象的混响分量的信号。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017203877 | 2017-10-20 | ||
JP2017-203877 | 2017-10-20 | ||
CN201880063759.0A CN111164673B (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和程序 |
PCT/JP2018/037330 WO2019078035A1 (ja) | 2017-10-20 | 2018-10-05 | 信号処理装置および方法、並びにプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880063759.0A Division CN111164673B (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117479077A true CN117479077A (zh) | 2024-01-30 |
Family
ID=66174521
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311456015.4A Pending CN117479077A (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和存储介质 |
CN201880063759.0A Active CN111164673B (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和程序 |
CN202311448231.4A Pending CN117475983A (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和存储介质 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880063759.0A Active CN111164673B (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和程序 |
CN202311448231.4A Pending CN117475983A (zh) | 2017-10-20 | 2018-10-05 | 信号处理装置、方法和存储介质 |
Country Status (7)
Country | Link |
---|---|
US (3) | US11109179B2 (zh) |
EP (1) | EP3699905A4 (zh) |
JP (2) | JP7272269B2 (zh) |
KR (2) | KR20230162143A (zh) |
CN (3) | CN117479077A (zh) |
RU (1) | RU2020112483A (zh) |
WO (1) | WO2019078035A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2020112483A (ru) | 2017-10-20 | 2021-09-27 | Сони Корпорейшн | Устройство, способ и программа для обработки сигнала |
US11257478B2 (en) | 2017-10-20 | 2022-02-22 | Sony Corporation | Signal processing device, signal processing method, and program |
KR20220097888A (ko) * | 2019-11-04 | 2022-07-08 | 퀄컴 인코포레이티드 | 비트스트림에서 오디오 효과 메타데이터의 시그널링 |
CN114762364A (zh) | 2019-12-13 | 2022-07-15 | 索尼集团公司 | 信号处理装置、信号处理方法及程序 |
JPWO2021140959A1 (zh) * | 2020-01-10 | 2021-07-15 | ||
JP2022017880A (ja) * | 2020-07-14 | 2022-01-26 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
GB202105632D0 (en) * | 2021-04-20 | 2021-06-02 | Nokia Technologies Oy | Rendering reverberation |
EP4175325B1 (en) * | 2021-10-29 | 2024-05-22 | Harman Becker Automotive Systems GmbH | Method for audio processing |
WO2024203148A1 (ja) * | 2023-03-31 | 2024-10-03 | ソニーグループ株式会社 | 情報処理装置および方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2554615A1 (fr) | 1983-11-07 | 1985-05-10 | Telediffusion Fse | Sommateur de signaux analogiques applicable dans des filtres transversaux analogiques |
JPH04149599A (ja) | 1990-10-12 | 1992-05-22 | Pioneer Electron Corp | 残響音生成装置 |
WO2005055193A1 (en) | 2003-12-02 | 2005-06-16 | Thomson Licensing | Method for coding and decoding impulse responses of audio signals |
US7492915B2 (en) | 2004-02-13 | 2009-02-17 | Texas Instruments Incorporated | Dynamic sound source and listener position based audio rendering |
TWI245258B (en) | 2004-08-26 | 2005-12-11 | Via Tech Inc | Method and related apparatus for generating audio reverberation effect |
WO2006047387A2 (en) | 2004-10-26 | 2006-05-04 | Burwen Technology Inc | Unnatural reverberation |
SG135058A1 (en) | 2006-02-14 | 2007-09-28 | St Microelectronics Asia | Digital audio signal processing method and system for generating and controlling digital reverberations for audio signals |
US8234379B2 (en) | 2006-09-14 | 2012-07-31 | Afilias Limited | System and method for facilitating distribution of limited resources |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
JP2008311718A (ja) | 2007-06-12 | 2008-12-25 | Victor Co Of Japan Ltd | 音像定位制御装置及び音像定位制御プログラム |
US20110016022A1 (en) | 2009-07-16 | 2011-01-20 | Verisign, Inc. | Method and system for sale of domain names |
US8908874B2 (en) | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
JP5141738B2 (ja) | 2010-09-17 | 2013-02-13 | 株式会社デンソー | 立体音場生成装置 |
EP2541542A1 (en) * | 2011-06-27 | 2013-01-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal |
EP2840811A1 (en) * | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder |
KR101782916B1 (ko) | 2013-09-17 | 2017-09-28 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
SG11201605692WA (en) * | 2014-01-16 | 2016-08-30 | Sony Corp | Audio processing device and method, and program therefor |
US9510125B2 (en) | 2014-06-20 | 2016-11-29 | Microsoft Technology Licensing, Llc | Parametric wave field coding for real-time sound propagation for dynamic sources |
JP6511775B2 (ja) | 2014-11-04 | 2019-05-15 | ヤマハ株式会社 | 残響音付加装置 |
JP2017055149A (ja) * | 2015-09-07 | 2017-03-16 | ソニー株式会社 | 音声処理装置および方法、符号化装置、並びにプログラム |
US10320744B2 (en) | 2016-02-18 | 2019-06-11 | Verisign, Inc. | Systems, devices, and methods for dynamic allocation of domain name acquisition resources |
US10659426B2 (en) | 2017-05-26 | 2020-05-19 | Verisign, Inc. | System and method for domain name system using a pool management service |
US11257478B2 (en) | 2017-10-20 | 2022-02-22 | Sony Corporation | Signal processing device, signal processing method, and program |
RU2020112483A (ru) * | 2017-10-20 | 2021-09-27 | Сони Корпорейшн | Устройство, способ и программа для обработки сигнала |
-
2018
- 2018-10-05 RU RU2020112483A patent/RU2020112483A/ru unknown
- 2018-10-05 WO PCT/JP2018/037330 patent/WO2019078035A1/ja unknown
- 2018-10-05 KR KR1020237039834A patent/KR20230162143A/ko active Search and Examination
- 2018-10-05 JP JP2019549206A patent/JP7272269B2/ja active Active
- 2018-10-05 CN CN202311456015.4A patent/CN117479077A/zh active Pending
- 2018-10-05 CN CN201880063759.0A patent/CN111164673B/zh active Active
- 2018-10-05 US US16/755,771 patent/US11109179B2/en active Active
- 2018-10-05 EP EP18868539.0A patent/EP3699905A4/en active Pending
- 2018-10-05 CN CN202311448231.4A patent/CN117475983A/zh active Pending
- 2018-10-05 KR KR1020207009926A patent/KR102615550B1/ko active Application Filing
-
2021
- 2021-08-11 US US17/400,010 patent/US11805383B2/en active Active
-
2022
- 2022-12-23 US US18/088,002 patent/US20230126927A1/en active Pending
-
2023
- 2023-04-21 JP JP2023070102A patent/JP2023083502A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210377691A1 (en) | 2021-12-02 |
JPWO2019078035A1 (ja) | 2020-11-12 |
RU2020112483A3 (zh) | 2022-04-21 |
EP3699905A1 (en) | 2020-08-26 |
US20210195363A1 (en) | 2021-06-24 |
CN117475983A (zh) | 2024-01-30 |
EP3699905A4 (en) | 2020-12-30 |
CN111164673A (zh) | 2020-05-15 |
WO2019078035A1 (ja) | 2019-04-25 |
CN111164673B (zh) | 2023-11-21 |
KR102615550B1 (ko) | 2023-12-20 |
JP2023083502A (ja) | 2023-06-15 |
RU2020112483A (ru) | 2021-09-27 |
KR20230162143A (ko) | 2023-11-28 |
JP7272269B2 (ja) | 2023-05-12 |
US11109179B2 (en) | 2021-08-31 |
US11805383B2 (en) | 2023-10-31 |
US20230126927A1 (en) | 2023-04-27 |
KR20200075826A (ko) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111164673B (zh) | 信号处理装置、方法和程序 | |
JP7116144B2 (ja) | 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 | |
RU2759160C2 (ru) | УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ | |
US11785408B2 (en) | Determination of targeted spatial audio parameters and associated spatial audio playback | |
EP3123741B1 (en) | Apparatus and method for screen related audio object remapping | |
RU2617553C2 (ru) | Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала | |
US11743646B2 (en) | Signal processing apparatus and method, and program to reduce calculation amount based on mute information | |
US11122386B2 (en) | Audio rendering for low frequency effects | |
JP2023500631A (ja) | 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化 | |
JP6626397B2 (ja) | 音像量子化装置、音像逆量子化装置、音像量子化装置の動作方法、音像逆量子化装置の動作方法およびコンピュータプログラム | |
EP3987824B1 (en) | Audio rendering for low frequency effects | |
Noisternig et al. | D3. 2: Implementation and documentation of reverberation for object-based audio broadcasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |