CN111164679A - 编码装置和方法、解码装置和方法以及程序 - Google Patents
编码装置和方法、解码装置和方法以及程序 Download PDFInfo
- Publication number
- CN111164679A CN111164679A CN201880063308.7A CN201880063308A CN111164679A CN 111164679 A CN111164679 A CN 111164679A CN 201880063308 A CN201880063308 A CN 201880063308A CN 111164679 A CN111164679 A CN 111164679A
- Authority
- CN
- China
- Prior art keywords
- metadata
- audio
- frame
- aac
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000012545 processing Methods 0.000 claims description 74
- 230000008569 process Effects 0.000 claims description 72
- 238000005516 engineering process Methods 0.000 abstract description 33
- 230000005540 biological transmission Effects 0.000 description 70
- 238000005192 partition Methods 0.000 description 61
- 238000010586 diagram Methods 0.000 description 19
- 238000009877 rendering Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 101150016104 DSE2 gene Proteins 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 101001109993 Artemia salina 60S acidic ribosomal protein P2 Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 101150095491 AACS gene Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本技术涉及一种编码装置和方法、一种解码装置和方法以及一种程序,其被配置为使得可以提高便利性。该解码装置包括:解码单元,其对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从可以存储编码比特流的期望数据的区域读取目标音频的元数据;以及输出单元,其基于元数据输出解码的音频数据。本技术可以应用于解码装置。
Description
技术领域
本技术涉及一种编码装置和方法、一种解码装置和方法以及一种程序,尤其涉及一种编码装置和方法、一种解码装置和方法以及一种程序,其适于能够提高便利性。
背景技术
传统上,诸如高级音频编码(AAC)和运动图像专家组2音频层3(MP3)等音频编码技术是已知的(例如,参考非专利文献1和非专利文献2)。
这些音频编码技术(例如,AAC和MP3)用于包括音乐分发在内的各种用途,并且从声音质量和实现的角度来看,已经取得了实际效果。
引文目录
非专利文献
非专利文献1:ISO/IEC 14496-3:2009信息技术——视听对象的编码——第3部分:音频
非专利文献2:ISO/IEC 11172-3:1993信息技术——最高1.5Mbit/s的数字存储媒体的运动图片和相关音频的编码——第3部分:音频
发明内容
本发明要解决的问题
然而,这些音频编码技术(换言之,传统的音频编码标准)是基于处理基于信道的音频数据的前提的编码技术。
因此,用于再现三维音频(3D音频)的目标音频数据和包括每条目标音频数据的位置信息的3D音频元数据不能按原样编码。
出于这样的原因,为了将上述音频编码标准用于3D音频,期望在保持与传统标准的兼容性的同时扩展这些标准。
本技术是考虑到这种情况而设计的,并且适于能够提高便利性。
问题的解决方案
根据本技术的第一方面的解码装置具有:解码单元,对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;以及输出单元,其基于元数据输出解码的音频数据。
根据本技术的第一方面的解码方法或程序包括以下步骤:对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;并且基于元数据输出解码的音频数据。
在本技术的第一方面,解码包括目标音频的音频数据,该音频数据包括在编码比特流中,并且从可以存储编码比特流的任意数据的区域读取目标音频的元数据,并且基于元数据输出解码的音频数据。
根据本技术的第二方面的编码装置具有:编码单元,其编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流。
根据本技术的第二方面的编码方法或程序包括编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流的步骤。
在本技术的第二方面,编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流。
本发明的效果
根据本技术的第一和第二方面,可以提高便利性。
应当注意,本文描述的效果不一定是限制性的,并且可以是本公开中描述的任何一种效果。
附图说明
图1是示出本技术的示图;
图2是示出AAC比特流的示图;
图3是示出编码装置的配置示例的示图;
图4是示出解码装置的配置示例的示图;
图5是示出3D AAC比特流的配置示例的示图;
图6是示出3D音频元数据的应用的示图;
图7是示出使用外部获得的3D音频元数据的示图;
图8是示出音频对象的位置信息的示图;
图9是示出音频对象的位置信息的示图;
图10是示出编码处理的流程图;
图11是示出解码处理的流程图;
图12是示出3D音频元数据的划分传输的示图;
图13是示出3D音频元数据的划分传输的示图;
图14是示出3D音频元数据的划分传输的示图;
图15是示出帧中的DSE划分信息的示图;
图16是示出帧划分信息的示图;
图17是示出划分信息的示图;
图18是示出将3D音频元数据划分成多个帧的示图;
图19是示出编码处理的流程图;
图20是示出解码处理的流程图;
图21是示出计算机的配置示例的示图。
具体实施方式
下面将参考附图描述应用本技术的实施方式。
<第一实施方式>
<关于本技术>
根据本技术,即使使用诸如AAC和MP3等编码方法,该编码方法最初也不是基于处理3D音频(换言之,目标音频数据)这一假设。通过编码和传输目标音频数据和3D音频元数据以使解码侧能够实现3D音频再现,来提高便利性。
本技术尤其具有如下所述的特征。
特征(1)
在不支持3D音频的编解码器(例如,AAC)中,将渲染3D音频所需的3D音频元数据存储在辅助数据区域中。
特征(2)
在一个辅助数据区不足以存储3D音频元数据的情况下,将3D音频元数据存储在多个辅助数据区域中。
特征(3)
在3D音频元数据间歇存在的情况下,已经获得的3D音频元数据中的最后获得的3D音频元数据应用于要再现的帧。
特征(4)
通过在编解码器层的注释字段中描述与3D音频数据的配置相关的信息,在保持传统编解码器(编码)标准的同时传输音频数据。
特征(5)
在一帧的辅助数据区域不足以存储3D音频元数据的情况下,在多个帧上传输3D音频元数据。在这种情况下,在编码装置侧,基于原始帧对应当存储的3D音频元数据执行稀疏处理,并且传输多个帧的3D音频元数据的代表值。
特征(6)
3D音频的频道映射尽可能多地分配给现有频道映射,并且指示频道映射的信息存储在比特流中,然后传输。
根据具有如上所述特征的本技术,在保持编码技术兼容性的情况下,可以使用诸如AAC和MP3等现有编码技术来实现3D音频的再现。
具体地,例如,关于3D音频,诸如音频对象等声源的声像可以定位在三维空间中的任意位置。
对于这种3D音频,不仅需要包括音频对象的音频数据(换言之,基于对象的音频数据和基于信道的音频数据)的音频元素,还需要3D音频元数据。
在此处,3D音频元数据是包括例如指示音频对象在三维空间中的位置的位置信息和用于调整音频对象的音频数据的增益的增益信息的数据。
然而,诸如AAC和MP3等编码方法最初并不旨在处理这样的3D音频元数据。因此,不能按原样编码和传输3D音频元数据。
因此,在本技术中,如图1的箭头Q11所示,编码的3D音频元数据存储在存储音频数据的编码比特流中提供的扩展区域中。
因此,即使在基于不支持3D音频的编码方法的编码比特流的情况下,也可以传输3D音频元数据,并且可以再现3D音频。
在此处,存储3D音频元数据的扩展区域是由现有编码技术定义并且允许用户根据特定规则记录自由数据的区域。换言之,扩展区域是可以存储任意数据的区域,也称为辅助数据区域。
具体地,例如,在本技术应用于AAC编码技术的情况下,如箭头Q12所示,在作为编码比特流的AAC比特流中提供数据流元素(DSE),作为与箭头Q11所示的示例的扩展区域相对应的区域。因此,当通过AAC编码方法对音频数据进行编码时,编码的3D音频元数据存储在DSE中,作为辅助数据。
例如,在已经接收到由箭头Q12所示的AAC比特流的解码装置支持3D音频(即,3D音频元数据)的情况下,解码装置能够从AAC比特流读取3D音频元数据,然后解码3D音频元数据,并使用3D音频元数据来再现3D音频。
同时,不支持3D音频元数据的解码装置不能将3D音频元数据解释为DSE中描述的辅助数据。
然而,解码装置能够获得由AAC标准定义的并且指示记录在DSE中的辅助数据的数据大小的数据大小信息。因此,解码装置能够通过使用数据大小信息来跳过DSE中的3D音频元数据部分,并且能够保持与AAC标准的兼容性。
此外,在本技术应用于MP3的情况下,如箭头Q13所示,在作为编码比特流的MP3比特流中提供辅助数据区域,作为与箭头Q11所示的示例的扩展区域相对应的区域。因此,当音频数据被MP3编码方法编码时,编码的3D音频元数据存储在辅助数据区域中,作为辅助数据。
然后,下面将更详细地描述本技术。为了具体说明,下面将描述将本技术应用于AAC标准的示例,换言之,通过使用AAC编码技术,在保持AAC标准的兼容性的情况下再现3D音频的示例。
在本技术应用于AAC标准的情况下,AAC比特流(换言之,通过根据AAC对音频数据进行编码而获得的编码比特流)具有图2所示的配置。
换言之,AAC比特流具有节目配置元素(PCE)和DSE;并且包括用于再现的音频数据的AAC音频元素数据存储在AAC比特流中。
例如,作为用于实现3D音频再现的音频数据,AAC音频元素数据包括音频对象的音频数据、基于信道的音频数据或基于高阶立体声(High Order Ambisonic,HOA)的音频数据中的至少任何一种。
在此处,音频对象的音频数据(换言之,基于对象的音频数据)是所谓的目标音频,并且是用于再现音频对象的声音的音频信号。此外,基于信道的音频数据例如是具有预定信道配置的每个信道的音频信号,例如,5.1信道和22.2信道,换言之,是由对应于每个信道的扬声器再现的声音的音频信号。
此外,基于HOA的音频数据是具有立体声格式的音频信号。换言之,基于HOA的音频数据是以立体声格式表达基于信道的音频信号的音频数据。应当注意,在下文中,基于HOA的音频数据也称为“基于立体声的音频数据”。
在下文中,在不特别需要区分音频对象的音频数据、基于信道的音频数据和基于立体声的音频数据的情况下,也仅仅称为“音频数据”。
指示AAC音频元素数据的分量的3D音频组件信息存储在注释字段中,该注释字段能够在AAC比特流的PCE中存储任意数据。在此处,3D音频组件信息是指示以下内容的信息:信道基数,即构成AAC音频元素数据的基于信道的音频数据的数量;目标音频的数量,即音频对象的音频数据的数量;以及HOA音频的数量,即基于立体声的音频数据的数量。
此外,作为构成AAC音频元素数据的音频数据的元数据的3D音频元数据作为辅助数据存储在AAC比特流的DSE中。
在此处,包括基于信道的元数据、基于对象的元数据和基于立体声的元数据,作为3D音频元数据。
例如,基于信道的元数据是基于信道的音频数据的元数据,并且包括指示每个基于信道的音频数据与哪个信道相关联的相关信道信息。
另外,基于对象的元数据是音频对象的音频数据的元数据,并且包括:指示音频对象数量的对象数量信息;指示每个音频对象在三维空间中的位置的位置信息;以及增益信息,指示增益乘以每个音频对象的音频数据的增益。
此外,基于立体声的元数据是基于立体声的音频数据的元数据,并且包括指示立体声的阶数和模式的信息。
应当注意,在下文中,通过应用本技术而获得的AAC比特流(换言之,基于AAC并且其中存储了3D音频元数据的编码比特流)也特别称为“3D AAC比特流”。
<编码装置的配置示例>
随后,将描述生成上述3D AAC比特流的编码装置以及接收和解码从编码装置输出的3D AAC比特流的解码装置。
图3是示出应用了本技术的编码装置的配置示例的示图。
图3所示的编码装置11包括3D音频元数据编码单元21和AAC编码单元22。
在编码装置11中,基于信道的元数据、基于对象的元数据和基于立体声的元数据作为3D音频元数据从外部提供给3D音频元数据编码单元21。
此外,各种音频数据和3D音频组件信息从外部提供给AAC编码单元22,各种音频数据包括音频对象的音频数据(目标音频)、基于信道的音频数据和基于立体声的音频数据。在此处,每个音频数据是用于再现内容的脉冲编码调制(PCM)信号;并且从外部向AAC编码单元22提供至少包括目标音频的一条或多条音频数据。
3D音频元数据编码单元21对从外部提供的3D音频元数据进行编码,并将编码的3D音频元数据提供给AAC编码单元22。在下文中,已经由3D音频元数据编码单元21编码的3D音频元数据也称为“编码的3D音频元数据”。
AAC编码单元22通过AAC编码方法对从3D音频元数据编码单元21提供的编码的3D音频元数据以及从外部提供的3D音频组件信息和音频数据进行编码,以生成3D AAC比特流,然后输出3D AAC比特流。
在此处,由于提供给AAC编码单元22的音频数据是PCM信号,所以这些音频数据可以基于AAC标准被编码为AAC音频元素数据。
应当注意,作为从外部向AAC编码单元22提供3D音频组件信息的替代,AAC编码单元22可以适于从3D音频元数据编码单元21提供所需信息,并且基于该信息生成3D音频组件信息。
<解码装置的配置示例>
接下来,将描述接收并解码从图3所示的编码装置11输出的3D AAC比特流的解码装置的配置。例如,如图4所示,配置这种解码装置。
图4所示的解码装置51包括AAC解码单元61、3D音频元数据解码单元62、3D音频元数据获得单元63和3D音频渲染器64。
AAC解码单元61接收从编码装置11传输的3D AAC比特流,并解码接收的3D AAC比特流。
AAC解码单元61将通过解码3D AAC比特流而获得的编码的3D音频元数据提供给3D音频元数据解码单元62,并且将通过解码而获得的音频数据(换言之,PCM信号)提供给3D音频渲染器64。
在此处,从AAC解码单元61提供给3D音频渲染器64的音频数据是音频对象的音频数据(目标音频数据)、基于信道的音频数据、基于立体声的音频数据等。
此外,AAC解码单元61适当地将通过解码而获得的3D音频组件信息提供给控制解码装置51的上级控制单元。
3D音频元数据解码单元62解码从AAC解码单元61提供的编码的3D音频元数据,并将作为所获得的3D音频元数据的基于频道的元数据、基于对象的元数据和基于立体声的元数据作为结果提供给3D音频渲染器64。
3D音频元数据获得单元63通过从外部获得生成3D音频元数据所需的信息,或者通过从外部服务器等接收3D音频元数据,适当地获得3D音频元数据,然后将3D音频元数据提供给3D音频渲染器64。
3D音频渲染器64用作输出单元,该输出单元执行渲染处理,以生成用于3D音频再现的再现数据,并且输出所获得的再现数据,换言之,用作基于3D音频元数据输出解码的音频数据的输出单元。
具体地,3D音频渲染器64基于从3D音频元数据解码单元62或3D音频元数据获得单元63提供的3D音频元数据以及从AAC解码单元61提供的音频数据来执行渲染,并且生成具有预定数量信道的音频数据,作为再现数据。
再现数据例如是用于实现3D音频再现的音频信号,该音频信号包括具有诸如2信道和5.1信道等预定信道配置的每个信道的音频数据。例如,如果基于该再现数据再现声音,则音频对象的声音的声像可以定位在由包括在音频对象的3D音频元数据中的位置信息指示的三维空间中的位置。
3D音频渲染器64将获得的再现数据输出到外部。例如,3D音频渲染器64将再现数据提供给扬声器,以再生声音,并将再现数据提供给未示出的记录单元,并使记录单元记录再现数据。
<3D AAC比特流的配置示例>
在此处,将描述在编码装置11和解码装置51(例如,上述那些)之间输出的和接收的3D AAC比特流的具体配置示例。
例如,假设AAC音频元素数据由基于7.1信道的音频数据、两个音频对象的音频数据和基于立体声的一阶立体声音频数据配置成。
在这种情况下,例如,如图5所示,配置3D AAC比特流。在这个示例中,对于一帧音频数据,PCE和DSE设置在3D AAC比特流的开头。此外,3D音频组件信息存储在PCE中;并且编码的3D音频元数据存储在DSE中。
此外,在DSE之后,设置一个单信道元素(SCE)、三个信道对元素(CPE)和一个低频效应(LFE)。此外,基于7.1信道的音频数据存储在这些SCE、CPE和LFE中,以形成基于信道的音频元素。
此外,在基于信道的音频元素之后,设置两个SCE,并且将两个音频对象的音频数据存储在这些SCE中,以形成基于对象的音频元素。
在基于对象的音频元素之后,设置四个SCE,并且基于立体声的一阶立体声音频数据存储在这些SCE中,以便形成基于立体声的音频元素。
此外,在基于立体声的音频元素之后,换言之,在一帧的3D AAC比特流的末尾,设置FIL。
以这种方式,在图5所示的示例中,AAC音频元素数据由基于信道的音频元素、基于对象的音频元素和基于立体声的音频元素来配置。
应当注意,AAC音频元素数据可以由基于信道的音频元素、基于对象的音频元素或基于立体声的音频元素中的至少任何一个来配置。
<关于3D音频元数据的传输>
顺便提及,关于3D音频,基本上基于帧传输3D音频元数据。然而,在例如没有发生音频对象移动的帧部分的情况下,当多个帧中的每一个不总是需要3D音频元数据时,不需要基于帧传输3D音频元数据。
在这种情况下,例如,如图6所示,在没有传输3D音频元数据的帧中,在该帧之前的帧的3D音频元数据中,在时间上最后获得的3D音频元数据用作当前帧的3D音频元数据。
在图6所示的示例中,由箭头A11至A15指示的相应四边形分别表示帧N至帧(N+4)的3D AAC比特流。应当注意,在下文中,一帧的3D AAC比特流也称为“AAC帧数据”。
例如,在帧N中,AAC帧数据存储帧N的3D音频元数据,因此解码装置51通过使用通过解码而获得的帧N的3D音频元数据(以下也称为“3D音频元数据(N)”)来执行渲染。
同时,在下一帧(N+1)中,3D音频元数据不存储在AAC帧数据中。因此,解码装置51使用最后获得(换言之,通过解码而最后获得)的帧N的3D音频元数据(N),来执行帧(N+1)的渲染。
以这种方式,在不存在当前帧的3D音频元数据的情况下,在时间上早于已经从3DAAC比特流的DSE读取的当前帧的帧的3D音频元数据中,在时间上最接近当前帧的帧的3D音频元数据用作当前帧的3D音频元数据。
换言之,从比当前帧早的帧的DSE中读取的3D音频元数据中,在时间上最后读取的3D音频元数据用作当前帧的3D音频元数据,并且执行当前帧的渲染。此外,作为结果,在不存在当前帧的3D音频元数据的情况下,则将紧接当前帧之前的帧中使用的3D音频元数据用作当前帧的3D音频元数据。
与帧(N+1)的情况一样,在后续帧(N+2)和(N+3)中,3D音频元数据也不存储在那些帧中,因此,通过使用最后获得的帧N的3D音频元数据(N),来执行渲染。
同时,在帧(N+3)之后的帧(N+4)中,通过解码,获得帧(N+4)的3D音频元数据(N+4),因此通过使用3D音频元数据(N+4),来执行渲染。
顺便提及,在当前帧的DSE中没有存储任何内容的情况下,结果是已经确定没有存储3D音频元数据,可以参考在时间上在当前帧之前的帧的3D音频元数据。
在这种情况下,也可以说,确定3D音频元数据没有存储在当前帧的DSE中表示参考在时间上在当前帧之前的帧的3D音频元数据的指令。
除了上述之外,DSE可以适于不仅存储3D音频元数据,还存储指示是否使用(参考)在时间上在当前帧之前的帧的3D音频元数据的前一帧参考标记。
即,前一帧参考标记是给出指令的信息,该指令关于是否使用在从时间上早于当前帧的帧的DSE读取的3D音频元数据中在时间上最后读取的3D音频元数据作为当前帧的3D音频元数据。
换言之,前一帧参考标记是给出指令的信息,该指令关于是否使用在时间上早于当前帧的帧的DSE中已经存储的3D音频元数据中最接近当前帧的帧的3D音频元数据作为当前帧的3D音频元数据。
在这种情况下,例如,在参考前一帧的3D音频元数据的情况下,前一帧参考标记的值设置为“1”,并且在DSE中仅描述具有值1的前一帧参考标记。
同时,在没有参考前一帧的3D音频元数据的情况下,前一帧参考标记的值被设置为“0”,并且在具有值0的前一帧参考标记之后,在DSE中描述3D音频元数据。在下文中,将假设先前的帧参考标记存储在DSE中继续描述。
此外,3D音频元数据是存储在DSE中的数据,并且是独立于AAC编码标准的数据。
因此,在从中间再现3D AAC比特流的情况下,换言之,在从中间再现内容的情况下,即使可以解码基于AAC标准的帧(音频数据),也存在3D音频元数据的解码没有完成的情况。这是因为在通过差分编码对3D音频元数据进行编码的情况下,直到出现未经过差分编码的复位帧,才知道差分的起始点。
此外,在从中间再现3D AAC比特流的情况下,还存在在一些帧中省略3D音频元数据的情况。
因此,在本技术中,在不能获得当前帧的3D音频元数据的情况下,按原样使用时间上先前的帧的3D音频元数据,并且可替换地,可以使用预先保存在解码装置51侧的3D音频元数据的默认值。
应当注意,在下文中,不同于从3D AAC比特流读取的3D音频元数据的其他3D音频元数据也称为“外部获得的3D音频元数据”,其他3D音频元数据包括预先保存在解码装置51侧的默认值。
例如,如图7所示,假设在内容的头部的一些帧中不可能获得3D音频元数据。
在图7中,由箭头A21至A25指示的相应四边形表示帧0至4的相应AAC帧数据。
在该示例中,尽管基于AAC标准的音频数据可以从开头帧0解码到第四帧3,但是由于3D音频元数据不能解码所以不存在3D音频元数据,并且3D音频元数据没有存储在DSE中。
因此,3D音频元数据获得单元63获得预定的初始元数据值,作为外部获得的3D音频元数据,并将初始元数据值提供给3D音频渲染器64。
例如,在初始元数据值中,由音频对象的位置信息指示的位置是例如预定位置,例如,三维空间中用户正前方的位置。
另外,当获得初始元数据值时,例如,3D音频元数据获得单元63基于从PCE读取的3D音频组件信息,获得初始元数据值用作外部获得的3D音频元数据。具体地,例如,基于由3D音频组件信息指示的目标音频的数量,获得多条位置信息和多条增益信息,条数等于音频对象的数量。
在获得外部获得的3D音频元数据的情况下,需要AAC音频元素数据的特定配置,换言之,需要指示音频数据的配置的信息,例如,信道基数和目标音频的数量。因此,在例如编码装置11中,前一帧参考标记的值被设置为“1”,并且在3D音频元数据没有存储在DSE中的情况下,总是在PCE中描述3D音频组件信息。
当3D音频渲染器64具有用作外部获得的3D音频元数据的初始元数据值时,3D音频渲染器64通过使用所提供的初始元数据值对帧0至3进行渲染。随后,当从帧4中的DSE读取3D音频元数据时,基于读取的3D音频元数据对帧4进行渲染。
以这种方式,在长时间不能从内容的头部、中部等的DSE获得3D音频元数据的情况下,如果使用基于3D音频组件信息等获得的外部获得的3D音频元数据,则可以再现3D音频。
例如,在编码装置11侧,当3D音频元数据没有在多个帧上变化时,例如,在没有发生对象移动的情况下,前一帧参考标记的值被设置为“1”,并且还存在3D音频元数据在稍微长的时间段内没有传输的情况。在这种情况下,当在解码装置51侧由于某种原因没有获得要参考的3D音频元数据时,可以通过使用外部获得的3D音频元数据来再现3D音频。
应当注意,在使用外部获得的3D音频元数据的情况下,则随后使用从DSE读取的3D音频元数据时,如果3D音频元数据从外部获得的3D音频元数据等突然变为从DSE读取的3D音频元数据,则还存在由于例如音频对象的位置不连续而产生不适感的情况。因此,例如,在一些帧期间,基于最后使用的外部获得的3D音频元数据和从DSE读取的3D音频元数据来执行插值处理,并且通过插值处理获得的3D音频元数据可以用于使得音频对象的位置等平滑地改变。
另外,可以以任何方式获得外部获得的3D音频元数据;例如,外部获得的3D音频元数据可以由3D音频元数据获得单元63基于例如从外部获得的信息来生成,或者可以通过网络从服务器获得,或者可以独立于3D AAC比特流从编码装置11获得。此外,预先为每个内容准备在每个再现时间处的外部获得的3D音频元数据,并且可以根据内容的再现时间获得适当的外部获得的3D音频元数据。
此外,可以通过用户的指令等来改变3D音频元数据。作为示例,关于由多个用户交互式共享和再现的内容,不仅可以考虑用户在解码装置51中的操作,还可以考虑其他用户的操作等,来改变包括例如网络类型匹配游戏、3D音频元数据的内容。
如上所述,在获得外部获得的3D音频元数据的情况下,需要用于识别音频数据类型的识别信息,该识别信息指示已经通过AAC编码方法编码的AAC音频元素数据是否是基于信道的AAC音频元素数据、基于对象的AAC音频元素数据、基于立体声的AAC音频元素数据等。换言之,需要指示AAC音频元素数据的配置的配置信息。可在不解码3D音频元数据的情况下获得这种信息。
因此,在本技术中,如参考图2所述,作为用于识别音频数据类型的信息,换言之,作为指示AAC音频元素数据的配置的信息,3D音频组件信息存储在PCE的注释字段中。应当注意,由3D音频组件信息指示的信息也包括在3D音频元数据中。
通过在PCE的注释字段中存储3D音频组件信息,解码装置51能够在基于AAC解码单元61中的AAC标准的解码处理中获得3D音频组件信息。此外,由于即使在MPEG-4文件格式层中也独立地使用PCE,所以PCE具有这样的优点,即当3D音频组件信息存储在PCE时,也可以从系统层获得3D音频组件信息。
应当注意,关于PCE的注释字段,与DSE的情况一样,不支持本技术的解码装置能够跳过根据AAC标准记录的注释字段的字节数,因此能够保持与AAC标准的兼容性。
<关于二维平面上位置信息的传输>
顺便提及,关于AAC标准,每个音频元素的扬声器设置信息(即,每个音频数据)可以作为二维平面上位置的位置信息记录在PCE中,该位置是前位置(FRONT)、侧位置(SIDE)或后位置(BACK)。换言之,指示用于再现音频数据的扬声器设置在哪个方向(正面、背面或侧面)的扬声器设置信息可以存储在PCE。
同时,在3D AAC比特流中,作为每个音频对象(即,基于对象的音频数据)的位置信息,3D音频元数据包括指示音频对象在平面方向上的位置的角度和指示高度方向上的位置的角度。
在本技术中,尽管在元素的数量上存在上限(限制),但是可以在PCE中尽可能描述根据平面方向上的角度对应于音频对象的位置的扬声器设置信息。
具体地,例如,如图8所示,假设有四个音频对象EL11至EL14,作为音频对象。
在图8中,近侧是作为观看者/收听者的用户U11的正面方向,换言之,是图中的正面方向;图中的远端是用户U11的后方。
在该示例中,音频对象EL11位于用户U11的前上方;并且音频对象EL12位于用户U11的右前上方。此外,音频对象EL13位于用户U11的后上方;并且音频对象EL14位于用户U11的左上方。
在这种情况下,在编码装置11中,处理音频对象EL11和音频对象EL12,作为位于前方的前位置音频元素。此外,在PCE中指示前方位置的信息被描述为那些音频对象的扬声器设置信息。
换言之,音频对象EL11和音频对象EL12在三维空间中的位置再次映射到二维平面上的前方位置。随后,根据映射的结果,这些音频对象的位置信息(换言之,指示前方位置的信息)在PCE中被描述为扬声器设置信息。
此外,处理音频对象EL13,作为位于后方的后方位置音频元素,并且指示作为音频对象EL13在二维平面上的位置的后方位置的信息在PCE中被描述为扬声器设置信息。
类似地,处理音频对象EL14,作为位于侧面的侧面位置音频元素,并且指示作为音频对象EL14在二维平面上的位置的侧面位置的信息在PCE中被描述为扬声器设置信息。
这种扬声器设置信息是指示应当输出音频对象的音频数据的扬声器的信息,换言之,与对应于音频对象的扬声器设置相关的信息。换言之,扬声器设置信息是指示每个音频对象的音频数据使用哪个信道的信息,换言之,是指示音频对象的信道映射的信息。
也可以说,这种扬声器设置信息是指示音频对象在二维平面上的位置的位置信息。在下文中,这种扬声器设置信息也称为“指示音频对象在二维平面上的位置的位置信息”。
以这种方式,通过在PCE中描述指示每个音频对象在二维平面上的位置的位置信息,即使3D音频元数据由于某种原因不能在解码装置51中使用,例如,因为解码装置51不支持3D音频,也可以识别每个音频对象在二维平面上的位置。
因此,例如,如图9所示,每个音频对象的声像可以根据指示在PCE中描述的二维平面上的位置的位置信息定位在二维平面上的正确位置。应当注意,在图9中,相同的附图标记用于表示对应于图8所示的部件,并且将适当地省略其描述。
在该示例中,通过从PCE读取指示音频对象EL11至EL14在二维平面上的位置的位置信息(扬声器设置信息),解码装置51能够将相应音频对象设置在由这些位置信息指示的位置。
换言之,尽管不能获得与高度方向相关的信息,但是可以尽可能多地将3D音频信道映射分配给现有的信道映射。因此,可以从设置在平面上音频对象的近似位置的扬声器输出基于对象的音频元素数据的声音。
在图9所示的示例中,音频对象EL11至EL14的高度不同于原始高度,并且与用户U11的头部高度相同。然而,音频对象EL11和音频对象EL12设置在用户U11的前面,音频对象EL13设置在用户U11的后面,并且音频对象EL14设置在用户U11的左侧。
因此,如果使用指示二维平面上的位置的位置信息,则音频对象EL11至EL14的声音的声像可以定位在基本上与原始方向相同的位置。
<编码处理说明>
随后,将描述编码装置11和解码装置51的操作。
首先,将参考图10所示的流程图描述编码装置11的编码处理。当提供要编码的音频数据时,编码处理开始。
在步骤S11中,3D音频元数据编码单元21检查作为处理目标的当前帧,以确定是否存在要传输的3D音频元数据。
例如,在已经从外部提供3D音频元数据的情况下,确定存在要传输的3D音频元数据。应当注意,例如,在作为处理目标的当前帧和紧接的前一帧之间的3D音频元数据没有变化的情况下,当参考前一帧的3D音频元数据时,不提供作为处理目标的当前帧的3D音频元数据。
在已经在步骤S11中确定存在要传输的3D音频元数据的情况下,在步骤S12中,3D音频元数据编码单元21执行对从外部提供的3D音频元数据进行编码的3D音频元数据编码处理。随后,3D音频元数据编码单元21将通过3D音频元数据编码处理获得的编码的3D音频元数据提供给AAC编码单元22。
在步骤S13中,AAC编码单元22对从3D音频元数据编码单元21提供的编码的3D音频元数据、前一帧参考标记和从外部提供的音频数据进行AAC编码,以生成一帧的AAC帧数据。
换言之,AAC编码单元22在AAC帧数据的DSE中存储具有值“0”的前一帧参考标记,然后,在前一帧参考标记之后,在DSE中存储编码的3D音频元数据。
此外,AAC编码单元22通过AAC编码方法对从外部提供的一帧的音频数据进行编码,并将编码的音频数据存储在AAC帧数据的SCE、CPE、LFE等中,作为AAC音频元素数据。
此外,AAC编码单元22还在AAC帧数据的PCE中存储从外部提供的3D音频组件信息以及指示音频对象在二维平面上的位置的位置信息(扬声器设置信息)。因此,获得具有例如图5所示配置的AAC帧数据,作为一帧的3D AAC比特流。
AAC编码单元22输出(传输)以这种方式获得的一帧的3D AAC比特流,并且随后处理进行到步骤S17。
同时,在步骤S11中确定没有要传输的3D音频元数据的情况下,在步骤S14中,AAC编码单元22确定在解码侧是否参考前一帧的3D音频元数据。
在已经在步骤S14中确定参考前一帧的3D音频元数据的情况下,随后处理进行到步骤S15。
在步骤S15中,AAC编码单元22将前一帧参考标记的值设置为“1”,并对从外部提供的音频数据进行AAC编码。
换言之,AAC编码单元22在AAC帧数据的DSE中存储具有值“1”的前一帧参考标记。此外,AAC编码单元22通过AAC编码方法对从外部提供的一帧的音频数据进行编码,并将编码的音频数据存储在AAC帧数据的SCE、CPE、LFE等中,作为AAC音频元素数据。
此外,AAC编码单元22还在AAC帧数据的PCE中存储从外部提供的3D音频组件信息以及指示音频对象在二维平面上的位置的位置信息。
AAC编码单元22输出以这种方式获得的AAC帧数据,作为一帧的3D AAC比特流,并且随后处理进行到步骤S17。
同时,在已经在步骤S14中确定没有参考前一帧的3D音频元数据的情况下,随后处理进行到步骤S16。
在步骤S16中,AAC编码单元22将前一帧参考标记的值设置为“0”,并对从外部提供的音频数据进行AAC编码。
换言之,AAC编码单元22在AAC帧数据的DSE中存储具有值“0”的前一帧参考标记,并且通过AAC编码方法对从外部提供的一帧的音频数据进行编码,以将编码的音频数据存储在AAC帧数据中。应当注意,在下文中,已经编码的音频数据也称为“编码音频数据”。
此外,AAC编码单元22还在AAC帧数据的PCE中存储从外部提供的3D音频组件信息以及指示音频对象在二维平面上的位置的位置信息。
AAC编码单元22输出以这种方式获得的AAC帧数据,作为一帧的3D AAC比特流,并且随后处理进行到步骤S17。
在步骤S13的处理之后,执行步骤S15的处理或步骤S16的处理,然后执行步骤S17的处理。
在步骤S17中,编码装置11确定是否存在要编码的音频数据。
在已经在步骤S17中确定仍然存在要编码的音频数据的情况下,处理返回到步骤S11,并且重复执行上述处理。
同时,在步骤S17中已经确定没有要编码的音频数据的情况下,换言之,要传输的内容的音频数据已经全部编码并输出,编码处理结束。
如上所述,编码装置11将3D音频元数据存储在DSE中,并生成3D AAC比特流。以这种方式执行处理,能够扩展现有的AAC标准,并且通过在解码侧使用3D音频元数据来执行3D音频再现。结果,可以提高便利性。
此外,通过存储前一帧参考标记,可以在解码侧参考时间上前一帧的3D音频元数据,因此3D AAC比特流的编码量可以减少3D音频元数据的量。
此外,通过在3D AAC比特流的PCE中描述指示每个音频对象在二维平面上的位置的位置信息,即使在解码侧不能获得3D音频元数据,每个音频对象的声像也可以定位在二维平面上的正确位置。换言之,可以在不破坏真实感的情况下进行音频再现。
<解码处理说明>
接下来,将参考图11所示的流程图描述解码装置51执行的解码处理。当接收到编码装置11传输的3D AAC比特流时,开始该解码处理。
在步骤S41,AAC解码单元61对一帧的接收的3D AAC比特流(换言之,AAC帧数据)进行AAC解码处理,该AAC解码处理是通过对应于AAC编码方法的解码方法进行的解码处理。
换言之,AAC解码单元61从PCE读取3D音频组件信息,以将3D音频组件信息提供给上层控制单元,或者从PCE读取指示每个音频对象在二维平面上的位置的位置信息,即扬声器设置信息,以直接或通过上层控制单元将位置信息提供给3D音频渲染器64。
此外,AAC解码单元61对存储在AAC帧数据中的编码音频数据进行解码,并将获得的音频数据(即,作为结果的PCM数据)提供给3D音频渲染器64。
在步骤S42中,AAC解码单元61确定在AAC帧数据的DSE中是否存在3D音频元数据。
例如,在DSE开头处描述的前一帧参考标记的值之后描述了编码的3D音频元数据的情况下,AAC解码单元61确定存在3D音频元数据。在这种情况下,前一帧参考标记的值为“0”。
在已经在步骤S42中确定存在3D音频元数据的情况下,AAC解码单元61从DSE读取编码的3D音频元数据,以将编码的3D音频元数据提供给3D音频元数据解码单元62,并且随后处理进行到步骤S43。
在步骤S43中,3D音频元数据解码单元62解码从AAC解码单元61提供的编码的3D音频元数据,并将作为其结果的所获得的3D音频元数据提供给3D音频渲染器64。在以这种方式获得3D音频元数据之后,随后处理进行到步骤S47。
此外,在步骤S42中确定不存在3D音频元数据的情况下,在步骤S44中,AAC解码单元61确定在DSE开头描述的前一帧参考标记的值是否为“1”。
在步骤S44中,在前一帧参考标记的值不是“1”的情况下,换言之,在尽管前一帧参考标记的值是“0”、但不能从DSE获得3D音频元数据的情况下,随后处理进行到步骤S48。
同时,在步骤S44中已经确定前一帧参考标记的值是“1”的情况下,随后处理进行到步骤S45。在这种情况下,编码的3D音频元数据不存储在DSE中。
在步骤S45中,AAC解码单元61确定是否存在过去的3D音频元数据。换言之,针对在时间上在当前帧(作为相同的内容,即,是要解码的3D AAC比特流中的处理目标)之前的帧,在存在从DSE读取的3D音频元数据的情况下,确定存在过去的3D音频元数据。
在已经在步骤S45中确定存在过去的3D音频元数据的情况下,AAC解码单元61指示3D音频元数据解码单元62输出从DSE读取的过去的帧中的在时间上最接近当前帧的帧的3D音频元数据,换言之,最后使用的3D音频元数据(每个帧都具有3D音频元数据),并且随后处理进行到步骤S47。
在这种情况下,3D音频元数据解码单元62根据AAC解码单元61的指令将过去帧中使用的3D音频元数据提供给3D音频渲染器64。
具体地,在例如图6所示的示例中,如果帧(N+1)是当前帧,则3D音频元数据解码单元62将帧N的3D音频元数据(N)提供给3D音频渲染器64。
同时,在已经在步骤S45中确定不存在过去的3D音频元数据的情况下,由于某种原因或其他原因,不能从3D AAC比特流中获得在当前帧中使用的3D音频元数据,并且相应地,随后处理进行到步骤S46。
在步骤S46中,AAC解码单元61确定是否存在从除了3D AAC比特流之外的源获得的3D音频元数据。换言之,确定是否存在由3D音频元数据获得单元63获得的外部获得的3D音频元数据。
在步骤S46中已经确定没有获得3D音频元数据的情况下,随后处理进行到步骤S48。
另外,在已经在步骤S46中确定获得了3D音频元数据的情况下,AAC解码单元61指示3D音频元数据获得单元63输出获得的3D音频元数据,并且随后处理进行到步骤S47。
在这种情况下,3D音频元数据获得单元63将外部获得的3D音频元数据提供给3D音频渲染器64,外部获得的3D音频元数据是从外部获得的,或者3D音频元数据获得单元63本身已经生成了外部获得的3D音频元数据。
在已经执行步骤S43的处理的情况下,在步骤S45中已经确定存在过去的3D音频元数据的情况下,或者在步骤S46中已经确定获得了3D音频元数据的情况下,然后执行步骤S47的处理。
在步骤S47中,3D音频渲染器64基于从3D音频元数据解码单元62或3D音频元数据获得单元63提供的3D音频元数据以及从AAC解码单元61提供的音频数据来执行渲染。
随后,3D音频再现器64输出通过渲染获得的当前帧的再现数据,以实现3D音频再现,然后处理进行到步骤S49。
另外,在步骤S44中已经确定前一帧参考标记的值不是“1”的情况下,或者在步骤S46中已经确定没有获得3D音频元数据的情况下,执行步骤S48的处理。
换言之,在步骤S48中,3D音频渲染器64基于从AAC解码单元61提供的音频数据执行由普通AAC标准定义的渲染,并输出作为其结果的所获得的再现数据。
在这种情况下,基于从PCE读取的指示每个音频对象在二维平面上的位置的位置信息(扬声器设置信息),3D音频渲染器64以每个音频对象的声像定位在由位置信息指示的二维平面上的位置的方式,适当地生成每个信道的音频数据,作为再现数据。因此,即使不能获得3D音频元数据(其结果是不能执行音频对象(声源)在高度方向上的声像侧化控制),每个音频对象的声像也可以定位在二维平面上的正确位置。
以这种方式,在输出当前帧的再现数据之后,该处理然后进行到步骤S49。
在执行步骤S47的处理或步骤S48的处理之后,当输出一帧的再现数据时,在步骤S49中,AAC解码单元61确定是否存在要解码的3D AAC比特流。
例如,在步骤S49中,在接收的3D AAC比特流尚未全部解码的情况下,确定存在要解码的3D AAC比特流。
在已经在步骤S49中确定存在要解码的3D AAC比特流的情况下,处理返回到步骤S41,并且重复执行上述处理。
同时,在步骤S49中确定没有要解码的3D AAC比特流的情况下,解码处理结束。
如上所述,解码装置51从DSE读取3D音频元数据,并通过使用读取的3D音频元数据来执行渲染。以这种方式执行处理,使得能够在扩展现有AAC标准的情况下执行3D音频再现,并且因此能够增强便利性。
此外,由于在3D AAC比特流的PCE中描述了指示每个音频对象在二维平面上的位置的位置信息,所以即使不能获得3D音频元数据,每个音频对象的声像也可以定位在二维平面上的正确位置。换言之,可以在不破坏真实感的情况下进行音频再现。
<第二实施方式>
<关于3D音频元数据的划分传输>
顺便提及,随着音频对象数量的增加,换言之,随着目标音频数量的增加,3D音频元数据的数据量(编码量)增加。
因此,如果3D音频元数据的数据量增加,则存在3D音频元数据的大小(数据量)超过AAC标准中定义的DSE的上限大小的情况。此外,还存在一种情况,即一帧存储3D音频元数据所需的DSE数量超过了AAC标准中定义的DSE数量的上限。
因此,在本技术中,在3D音频元数据的数据量大的情况下,作为传输多个帧中的每一个的3D音频元数据的替代,这些3D音频元数据适当地稀疏,并且3D音频元数据的代表值与存储在多个帧的DSE中的代表值一起传输。换言之,代表值在多个帧上传输。
例如,如图12所示,假设可以在一帧的AAC帧数据中提供三个DSE。应当注意,在图12中,其中示出的具有相应字符“DSE 1”至“DSE 3”的四边形表示在一帧的AAC帧数据中提供的相应DSE。在下文中,这些DSE也称为“DSE 1至DSE 3”。
在该示例中,一帧的3D音频元数据的数据量很大,因此3D音频元数据处于3D音频元数据不能完全存储在第一DSE 1中的状态。
在这种情况下,编码装置11将3D音频元数据分成三个数据。在此处,通过划分3D音频元数据获得的三个数据被指定为划分的3D音频元数据(1)到划分的3D音频元数据(3)。此外,在下文中,在不特别需要区分通过划分3D音频元数据获得的数据的情况下,这些数据也称为“划分的3D音频元数据”。
编码装置11分别将通过划分而获得的划分的3D音频元数据(1)至(3)存储到DSE 1到DSE 3中。
在这一点上,为了通知已经划分3D音频元数据,并且为了能够识别:每个划分的3D音频元数据与从开头开始计数的数据编号的关联,编码装置11生成帧内DSE划分计数器和帧内DSE划分终止标志。
帧内DSE划分计数器是指示存储划分的3D音频元数据的DSE在一帧的AAC帧数据中的数量的信息。
换言之,也可以说,帧内DSE划分计数器是指示在一帧的AAC帧的DSE中存储的划分的3D音频元数据中,每个划分的3D音频元数据对应的数量的信息。
例如,存储在DSE中的划分的3D音频元数据(该元数据的帧内DSE划分计数器的值是“i-1”(1≤i))成为存储在一帧的AAC帧的DSE中的从开始的第i个划分的3D音频元数据。
此外,帧内DSE划分终止标志是指示DSE是否是在一帧的AAC帧数据中按顺序排列的DSE中存储划分的3D音频元数据的最后DSE的标志信息。
具体地,在帧内DSE划分终止标志的值为“0”的情况下,指示该DSE不是存储划分的3D音频元数据的最后一个DSE。
同时,在帧内DSE划分终止标志的值为“1”的情况下,指示该DSE是在AAC帧数据中存储划分的3D音频元数据的最后一个DSE。
编码装置11在每个DSE中不仅存储划分的3D音频元数据,还存储帧内DSE划分计数器和帧内DSE划分终止标志。
换言之,在该示例中,第一DSE 1存储:具有值“0”的帧内DSE划分计数器,其指示划分的3D音频元数据是第一划分的3D音频元数据;帧内DSE划分终止标志的值为“0”,其指示该DSE不是最后一个DSE;以及划分的3D音频元数据(1)。
此外,第二DSE 2存储:帧内DSE划分计数器,具有值“1”,其指示划分的3D音频元数据是第二划分的3D音频元数据;帧内DSE划分终止标志的值为“0”,其指示该DSE不是最后一个DSE;以及划分的3D音频元数据(2)。此外,第三DSE 3存储:具有值“2”的帧内DSE划分计数器,其指示划分的3D音频元数据是第三划分的3D音频元数据;帧内DSE划分终止标志的值为“1”,其指示该DSE是最后一个DSE;以及划分的3D音频元数据(3)。
以这种方式,通过存储帧内DSE划分计数器和帧内DSE划分终止标志,可以在解码侧读取划分的3D音频元数据,以正确地组合划分的3D音频元数据,从而可以获得原始3D音频元数据。
此外,在3D音频元数据不能完全存储在一帧的AAC帧数据中的情况下,例如,如图13所示,编码装置11将作为3D音频元数据的代表值划分为多个帧的多个AAC帧数据,并存储划分的多个AAC帧数据。应当注意,在此处,为了简化解释,假设每帧提供一个DSE。
在图13中,由相应箭头A51至A55指示的四边形表示帧(N-1)至(N+3)的相应AAC帧数据。另外,在此处,原始帧(i)的3D音频元数据(然而,N-1≤i≤N+3)也称为“3D音频元数据(i)”。
在这个示例中,3D音频元数据(N-1)到3D音频元数据(N+3)最初是为帧(N-1)到(N+3)准备的。然而,由于3D音频元数据(N)到3D音频元数据(N+3)的数据量很大,因此无法将那些3D音频元数据照原样存储在对应的一帧的DSE中。
因此,编码装置11新生成一个3D音频元数据,以便获得帧(N)至(N+3)的3D音频元数据。换言之,通过稀疏掉一些3D音频元数据来选择代表性的3D音频元数据。
具体地,例如,编码装置11确定一个3D音频元数据,作为表示3D音频元数据(N)到3D音频元数据(N+2)的代表值。
在此处,代表值可以是例如从3D音频元数据(N)到3D音频元数据(N+2)中选择的任何一个3D音频元数据,或者3D音频元数据(N)到3D音频元数据(N+2)的平均值可以用作代表值。
在这种情况下,注意例如一个音频对象,例如,作为3D音频元数据的音频对象的帧(N)到(N+2)的位置信息的平均值用作音频对象的3D音频元数据的代表值。
除了上述之外,例如,假设存在多个音频对象,多个音频对象中的一个特定音频对象是最重要的,并且特定音频对象在帧(N+1)中的移动是最重要的。
在这种情况下,例如,作为特定音频对象的3D音频元数据(N+1)的位置信息用作特定音频对象的代表值。此外,对于所有其他音频对象,作为那些音频对象的3D音频元数据(N+1)的相应位置信息用作那些音频对象的相应代表值。
此外,例如,假设存在多个音频对象,多个音频对象中的一个特定音频对象是最重要的,并且特定音频对象在帧(N+1)中的移动是最重要的。在这种情况下,例如,作为特定音频对象的3D音频元数据(N+1)的位置信息可以用作所有音频对象的代表值。
此外,作为另一示例,确定多个音频对象的相应帧的位置信息的平均值,每个相应帧具有最重要的移动,并且所获得的平均值可以用作所有音频对象共享的代表值。
在确定3D音频元数据(N)到3D音频元数据(N+2)的代表值之后,编码装置11生成包括多个帧的时间段(下文中也称为“划分传输时间段”)的结束帧的3D音频元数据,作为结束值,其中,一个3D音频元数据划分成多个帧,用于传输。
例如,在该示例中,从帧(N)到帧(N+3)的时间段是划分传输时间段,因此划分传输时间段的结束帧是帧(N+3)。因此,编码装置11以某种方式确定结束值,例如,通过原样使用3D音频元数据(N+3)作为结束值。
此外,编码装置11在划分传输时间段中的帧中确定应用了代表值的帧,作为应用了代表值的帧,并且生成指示应用了代表值的帧的应用帧索引。在此处,应用了代表值的帧是一个帧,其代表值在解码侧原样用作3D音频元数据。
例如,在图13的示例中,在应用了代表值的帧是帧(N+1)的情况下,编码装置11生成指示帧(N+1)的信息,作为应用的帧索引。
具体地,例如,在应用代表值的帧是在划分传输时间段中从开头开始的第i帧(1≤i)的情况下,应用的帧索引的值被设置为“i-1”。因此,在图13所示的示例中,从划分传输时间段的开头开始的第二帧(N+1)是应用了代表值的帧,因此应用的帧索引的值是“1”。
在如上所述获得划分传输时间段的代表值和结束值以及应用的帧索引之后,编码装置11使用代表值和结束值,作为划分传输时间段的3D音频元数据,并划分3D音频元数据。
换言之,编码装置11将划分传输时间段的3D音频元数据划分成划分的3D音频元数据,其数量等于划分传输时间段中包括的帧数。
在该示例中,构成划分传输时间段的帧数是4,因此3D音频元数据划分为由字符“划分的3D音频元数据(1)”到“划分的3D音频元数据(4)”指示的四个划分的3D音频元数据。
应当注意,在下文中,由字符“划分的3D音频元数据(1)”到“划分的3D音频元数据(4)”指示的划分的3D音频元数据也称为“划分的3D音频元数据(1)到划分的3D音频元数据(4)”。
在获得划分的3D音频元数据之后,编码装置11将这些划分的3D音频元数据存储在每个帧的AAC帧数据的DSE中,并输出划分的3D音频元数据。
在此处,由相应箭头A61至A65指示的四边形表示从编码装置11实际输出的帧(N-1)至(N+3)的相应AAC帧数据。
在该示例中,在帧(N-1)的AAC帧数据中,未划分的3D音频元数据(N-1)原样存储在DSE中。
同时,在帧(N)的AAC帧数据中,划分的3D音频元数据(1)和应用的帧索引存储在DSE中;并且在帧(N+1)的AAC帧数据中,划分的3D音频元数据(2)存储在DSE中。此外,在帧(N+2)的AAC帧数据中,划分的3D音频元数据(3)存储在DSE中;并且在帧(N+3)的AAC帧数据中,划分的3D音频元数据(4)存储在DSE中。
应当注意,所应用的帧索引可以存储在任何帧的DSE中,只要该DSE属于划分传输时间段中的一个帧。
此外,已经接收到这种3D AAC比特流的解码装置51执行解码,例如,如图14所示。应当注意,在图14中,关于与图13中所示的部件相对应的部件,将省略其描述。
在图14所示的示例中,解码装置51接收由箭头A71至A75指示的AAC帧数据构成的3D AAC比特流。
在此处,相应箭头A71至A75所示的帧的AAC帧数据对应于图13中相应箭头A61至A65所示的帧的AAC帧数据。
对于未划分其3D音频元数据的帧(N-1),解码装置51从帧(N-1)的AAC帧数据中读取3D音频元数据(N-1),如箭头A81所示。随后,解码装置51基于读取的3D音频元数据执行渲染(N-1)。
同时,对于3D音频元数据已经划分的帧(N)至(N+3),基于划分的3D音频元数据(1)至划分的3D音频元数据(4)来生成那些帧的3D音频元数据。
换言之,解码装置51的AAC解码单元61从帧(N)到(N+3)的相应DSE中读取相应划分的3D音频元数据(1)到(4),3D音频元数据(1)到(4)是通过针对那些帧划分3D音频元数据而获得的。随后,AAC解码单元61将那些读取的划分的3D音频元数据(1)至(4)组合成一个编码的3D音频元数据。
随后,解码装置51通过解码所获得的编码3D音频元数据来获得代表值和结束值,并从DSE读取所应用的帧索引。随后,解码装置51通过基于已经获得的代表值、结束值和应用的帧索引执行插值处理,来生成划分传输时间段中的帧的3D音频元数据。
具体地,如箭头A83所示,解码装置51使用代表值作为由应用的帧索引指示的帧(N+1)的3D音频元数据。
另外,如箭头A82所示,解码装置51基于帧(N-1)的3D音频元数据(N-1)和作为帧(N+1)的3D音频元数据的代表值,通过插值处理来生成帧(N)的3D音频元数据(N)。
此外,如箭头A85所示,解码装置51原样使用结束值,作为帧(N+3)的3D音频元数据。如箭头A84所示,解码装置51基于作为帧(N+1)的3D音频元数据的代表值和作为帧(N+3)的3D音频元数据的结束值,通过插值处理来生成帧(N+2)的3D音频元数据(N+2)。
在帧(N)至(N+3)中,解码装置51通过使用以这种方式获得的3D音频元数据(N)至(N+3)来执行渲染。
如上所述,解码装置51读取已经分开存储在多个帧中的划分的3D音频元数据,并且获得划分传输时间段的相应帧的3D音频元数据。以这种方式执行处理,能够有效地传输3D音频元数据,导致便利性的提高,并且实现具有真实感的3D音频再现。
应当注意,此处已经解释了划分传输时间段的3D音频元数据包括结束值的示例。然而,划分传输时间段的3D音频元数据可以适于不包括结束值。在这种情况下,仅需要将紧接在划分传输时间段结束之后的帧的3D音频元数据用作结束值。
<DSE语法示例>
如上所述,在一帧的AAC帧数据中,在3D音频元数据分成多个划分的3D音频元数据,并且多个划分的3D音频元数据存储在多个DSE中的情况下,需要使解码侧能够识别上述情况。
因此,在编码侧的DSE中描述了帧内DSE划分信息,该信息是与帧中3D音频元数据的划分相关的信息,换言之,在AAC帧数据中,帧内DSE划分信息包括上述帧内DSE划分计数器和帧内DSE划分终止标志。
例如,如图15所示,定义这种帧内DSE划分信息的语法。在图15所示的示例中,字符“dse_div_info()”表示存储帧内DSE划分信息的函数,并且该函数存在于每帧的3D音频元数据中。在此处,帧内DSE划分信息基于DSE而存在。
此外,帧内DSE划分信息包括:由字符“dse_div_cnt”指示的帧内DSE划分计数器;以及由字符“dse_div_terminate”指示的帧内DSE划分终止标志。
如上所述,帧内DSE划分计数器是从0开始的计数器信息,该计数器信息指示在同一帧中存储划分的3D音频元数据的DSE中对应的DSE是多少。在此处,帧内DSE划分计数器是3比特信息,因此3D音频元数据或划分的3D音频元数据可以在一帧中划分成多达八个划分的3D音频元数据。换言之,最多可以提供八个DSE。
此外,当帧内DSE划分终止标志的值为“0”时,帧内DSE划分终止标志指示相应的DSE不是在帧中存储划分的3D音频元数据的最后一个DSE。同时,当帧内DSE划分终止标志具有值“1”时,帧内DSE划分终止标志指示对应的DSE是在帧中存储划分的3D音频元数据的最后一个DSE。
此外,在通过划分一个3D音频元数据获得的划分的3D音频元数据存储在多个帧的DSE中的情况下,需要使解码侧能够识别上述情况。
因此,在编码侧,与帧内DSE划分信息的情况一样,在DSE中描述了帧划分信息,该信息是与帧之间3D音频元数据的划分相关的信息,换言之,用于多个帧的3D音频元数据的划分。
例如,如图16所示,定义这种帧划分信息的语法。
在图16所示的示例中,字符“frame_div_info()”表示存储帧划分信息的函数,并且该函数存在于每一帧的3D音频元数据中。在此处,一个帧存在一条帧划分信息。
帧划分信息包括由字符“frm_div_mode”指示的帧划分模式信息。
该帧划分模式信息是指示模式是否是帧划分模式的信息,在帧划分模式中,一个3D音频元数据在多个帧上传输,换言之,一个3D音频元数据分开存储在多个帧的DSE中。
在此处,在帧划分模式信息具有值“0”的情况下,帧划分模式信息指示该模式不是帧划分模式,换言之,一帧的3D音频元数据存储在一帧的DSE中。
同时,在帧划分模式信息的值为“1”的情况下,帧划分模式信息指示该模式是帧划分模式,换言之,一个3D音频元数据划分成存储在多个帧的DSE内的片段。
另外,在帧划分模式信息具有值“1”的情况下,帧划分信息还存储:由字符“frm_div_cnt”指示的帧划分计数器;以及由字符“frm_div_terminate”指示的帧划分终止标志。
帧划分计数器是从0开始的计数器信息,帧划分计数器指示在构成划分传输时间段的帧中从开头开始计算对应帧的数目。在此处,帧划分计数器是3比特信息,因此可以提供划分传输时间段,作为最多具有八个帧的时间段。换言之,一个3D音频元数据可以在八个帧上传输。
另外,当帧划分终止标志的值为“0”时,帧划分终止标志指示相应的帧不是划分传输时间段中的最后一帧。同时,当帧划分终止标志的值为“1”时,帧划分终止标志指示相应的帧是划分传输时间段中的最后(结束)帧。
此外,在帧划分计数器的值为“0”的情况下,帧划分信息还存储由字符“apply_frm_Index”指示的应用帧索引。换言之,应用帧索引存储在划分传输时间段中的第一(开头)帧的DSE中。
该应用帧索引是指示应用了代表值的帧的信息,并且在此处,应用了代表值的帧的帧划分计数器的值是应用帧索引的值。
顺便提及,当划分帧的数量(即,构成划分传输时间段的帧的数量)是F时,在应用的帧索引的值比F小1(F-1)的情况下,只包括代表值或结束值,作为3D音频元数据。
换言之,在由应用的帧索引指示的帧是划分传输时间段的结束帧的情况下,结束值变成代表值,因此只传输代表值或结束值,作为3D音频元数据。
一帧的AAC帧数据存储上述帧内DSE划分信息和帧划分信息。在下文中,包括帧内DSE划分信息和帧划分信息的信息也称为“划分信息”。然而,划分信息存储在AAC帧数据的每个DSE中。尽管划分信息不总是需要包括帧划分信息,但是划分信息适于总是包括帧内DSE划分信息。
在这种情况下,存储在AAC帧数据中的划分信息的语法如图17所示。
在图17所示的示例中,字符“div_info()”表示存储划分信息的函数,并且该函数存在于每帧的3D音频元数据中。
此外,在此处,包括由字符“dse_div_info()”指示的帧内DSE划分信息,作为划分信息。此外,在帧内dse划分信息中包括的帧内DSE划分计数器(dse_div_cnt)的值为“0”的情况下,还包括由字符“frame_div_info()”指示的帧划分信息,作为划分信息。
换言之,AAC帧数据中的第一个(开头)DSE包括帧内DSE划分信息和帧划分信息,作为划分信息;并且AAC帧数据中的第二个和以后的DSE仅包括帧内DSE划分信息,作为划分信息。
如图17所示,在划分信息存储在AAC帧数据中的情况下,当一个3D音频元数据在三个帧上传输时,处理数据,例如,如图18所示。
在图18所示的示例中,一个3D音频元数据存储在作为由箭头A101至A103指示的多个AAC帧数据的AAC帧数据(1)至(3)中。
换言之,第一AAC帧数据(1)具有作为第一DSE的DSE 1和作为第二DSE的DSE 2。
该AAC帧数据(1)的DSE 1存储作为划分信息的帧内DSE划分信息(dse_div_info())和帧划分信息(frame_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(1-1)。
在这种情况下,在AAC帧数据(1)的DSE 1中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“0”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“0”。
另外,在AAC帧数据(1)的DSE 1中的帧划分信息中,帧划分模式信息(frm_div_mode)的值是“1”,帧划分计数器(frm_div_cnt)的值是“0”,帧划分终止标志(frm_div_terminate)的值是“0”,并且包括具有适当值的应用帧索引。
此外,AAC帧数据(1)的DSE 2存储作为划分信息的帧内DSE划分信息(dse_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(1-2)。
在这种情况下,在AAC帧数据(1)的DSE 2中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“1”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“1”。
类似地,第二AAC帧数据(2)具有第一DSE 1和第二DSE 2。
AAC帧数据(2)的DSE 1存储作为划分信息的帧内DSE划分信息(dse_div_info())和帧划分信息(frame_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(2-1)。
在这种情况下,在AAC帧数据(2)的DSE 1中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“0”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“0”。
另外,在AAC帧数据(2)的DSE 1中的帧划分信息中,帧划分模式信息(frm_div_mode)的值是“1”,帧划分计数器(frm_div_cnt)的值是“1”,并且帧划分终止标志(frm_div_terminate)的值是“0”。应当注意,该帧划分信息不包括应用的帧索引。
此外,AAC帧数据(2)的DSE 2存储作为划分信息的帧内DSE划分信息(dse_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(2-2)。
在这种情况下,在AAC帧数据(2)的DSE 2中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“1”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“1”。
此外,第三AAC帧数据(3)具有第一DSE 1和第二DSE 2。
AAC帧数据(3)的DSE 1存储作为划分信息的帧内DSE划分信息(dse_div_info())和帧划分信息(frame_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(3-1)。
在这种情况下,在AAC帧数据(3)的DSE 1中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“0”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“0”。
另外,在AAC帧数据(3)的DSE 1中的帧划分信息中,帧划分模式信息(frm_div_mode)的值是“1”,帧划分计数器(frm_div_cnt)的值是“2”,并且帧划分终止标志(frm_div_terminate)的值是“1”。应当注意,该帧划分信息不包括应用的帧索引。
此外,AAC帧数据(3)的DSE2存储作为划分信息的帧内DSE划分信息(dse_div_info())以及作为划分的3D音频元数据的划分的3D音频元数据(3-2)。
在这种情况下,在AAC帧数据(3)的DSE 2中的帧内DSE划分信息中,帧内DSE划分计数器(dse_div_cnt)的值是“1”,并且帧内DSE划分终止标志(dse_div_terminate)的值是“1”。
因此,解码装置51读取包括在AAC帧数据(1)至(3)中的划分的3D音频元数据(1-1)、划分的3D音频元数据(1-2)、划分的3D音频元数据(2-2)、划分的3D音频元数据(3-1)和划分的3D音频元数据(3-2),然后将这些划分的3D音频元数据组合成一个3D音频元数据。随后,通过解码一个获得的3D音频元数据,获得上面已经描述的代表值和结束值。
<编码处理说明>
接下来,将描述在3D音频元数据适当地分开存储的情况下执行的编码处理和解码处理。首先,将参考图19所示的流程图描述编码装置11的编码处理。
在步骤S81中,关于要处理的当前帧,3D音频元数据编码单元21将帧划分模式信息(frm_div_mode)的值设置为“0”。
随后,在步骤S82中,3D音频元数据编码单元21确定要处理的当前帧是否包括要传输的3D音频元数据。在步骤S82中,执行类似于图10的步骤S11中的处理。
在步骤S82中确定存在要传输的3D音频元数据的情况下,在步骤S83中,3D音频元数据编码单元21执行3D音频元数据编码处理,以对从外部提供的3D音频元数据进行编码。在步骤S83中,执行类似于图10的步骤S12中的处理。
在步骤S84中,3D音频元数据编码单元21确定在步骤S83的处理中获得的要处理的当前帧的编码的3D音频元数据的编码量(数据量)是否落在预定的允许范围内。
在此处,在编码的3D音频元数据的数据量大于(大于)作为允许范围的阈值的情况下,结果是编码的3D音频元数据不能完全存储在当前帧的AAC帧数据的DSE中,确定编码的3D音频元数据的数据量不在允许范围内。
在已经在步骤S84中确定编码的3D音频元数据的编码量落在允许范围内的情况下,3D音频元数据编码单元21将在步骤S83的处理中获得的编码的3D音频元数据原样提供给AAC编码单元22,然后处理进行到步骤S90。
更详细地,此时,在编码的3D音频元数据不能完全存储在一个DSE中的情况下,3D音频元数据编码单元21将编码的3D音频元数据分成一些划分的3D音频元数据。随后,3D音频元数据编码单元21使得通过划分获得的各个划分的3D音频元数据存储在当前帧的AAC帧数据中的多个DSE中。
另外,3D音频元数据编码单元21还生成适当的帧内DSE划分信息和帧划分信息,并将那些帧内DSE划分信息和帧划分信息提供给AAC编码单元22。特别地,在此处,当前帧的3D音频元数据存储在当前帧的AAC帧数据中,因此帧划分模式信息(frm_div_mode)的值被设置为“0”。换言之,在步骤S81中设置的帧划分模式信息原样提供给AAC编码单元22。
应当注意,可以不在3D音频元数据编码单元21中,而是在AAC编码单元22中,执行编码的3D音频元数据的划分以及帧内DSE划分信息和帧划分信息的生成。
同时,在步骤S84中已经确定编码的3D音频元数据的编码量不在允许范围内的情况下,随后处理进行到步骤S85。
在步骤S85中,3D音频元数据编码单元21将在步骤S81中设置的当前帧的帧划分模式信息(frm_div_mode)的值改变为“1”。
此外,3D音频元数据编码单元21将迄今为止被视为当前帧的帧视为划分传输时间段的开头帧。
3D音频元数据编码单元21将时间上在开头帧之后的帧视为要新处理的帧,并且还获得要新处理的帧的3D音频元数据。此外,针对划分传输时间段中的帧的3D音频元数据,3D音频元数据编码单元21可以减少3D音频元数据的数据量,例如,通过适当地删除低重要性音频对象或无移动音频对象的位置信息等。
在步骤S86中,3D音频元数据编码单元21计算每个帧的针对3D音频元数据的代表值和结束值,从划分传输时间段的开头帧直到被视为当前要处理的帧的帧。
换言之,3D音频元数据编码单元21认为被视为当前要处理的帧的帧是划分传输时间段的结束帧。
随后,3D音频元数据编码单元21基于构成划分传输时间段的每个帧的3D音频元数据,更详细地,基于除了结束帧之外的每个帧的3D音频元数据,确定划分传输时间段的3D音频元数据的代表值。例如,当确定3D音频元数据的代表值时,例如,如上所述,根据需要执行用于确定平均值的计算,并且3D音频元数据编码单元21还确定应用了代表值的应用代表值的帧。
另外,基于例如划分传输时间段的结束帧的3D音频元数据,3D音频元数据编码单元21确定结束值,该结束值是结束帧的最终3D音频元数据。
3D音频元数据编码单元21将已经以这种方式确定的代表值和结束值视为构成划分传输时间段的多个帧的3D音频元数据。在这种情况下,3D音频元数据编码单元21用作元数据确定单元,其确定划分传输时间段的代表值和结束值。
在步骤S87中,3D音频元数据编码单元21通过使用在步骤S86中获得的代表值和结束值作为3D音频元数据来执行3D音频元数据编码处理,并且编码3D音频元数据。
在步骤S88中,3D音频元数据编码单元21确定通过步骤S87的处理获得的编码的3D音频元数据的编码量(数据量)是否落在由构成划分传输时间段的帧数确定的允许范围内。
在此处,在编码的3D音频元数据的数据量大于(大于)作为允许范围的阈值的情况下,结果是编码的3D音频元数据不能完全存储在构成划分传输时间段的所有帧的AAC帧数据的DSE内,确定编码的3D音频元数据的数据量不在允许范围内。
在已经在步骤S88中确定编码的3D音频元数据的编码量不在允许范围内的情况下,3D音频元数据的数据量对于划分传输时间段来说仍然太多,因此处理返回到步骤S86,并且重复执行上述处理。此时,在时间上在作为现在为止的划分传输时间段的时间段的结束帧之后的帧被视为新的划分传输时间段的结束帧。
同时,在步骤S88中已经确定编码的3D音频元数据的编码量落在允许范围内的情况下,3D音频元数据编码单元21在步骤S89中执行帧划分处理。
换言之,3D音频元数据编码单元21将在步骤S87的处理中获得的编码的3D音频元数据分成多个划分的3D音频元数据。在例如图18所示的示例中,编码的3D音频元数据分成划分的3D音频元数据(1-1)到划分的3D音频元数据(3-2)。
此外,根据划分3D音频元数据的结果、划分传输时间段等,3D音频元数据编码单元21还生成包括具有在步骤S85中确定的值“1”的帧划分模式信息的帧划分信息和帧内DSE划分信息。在此处,为划分传输时间段的每个帧生成帧划分信息;并且为划分传输时间段的每个帧的每个DSE生成帧内DSE划分信息。
另外,3D音频元数据编码单元21将已经生成的帧内DSE划分信息和帧划分信息以及划分的3D音频元数据提供给AAC编码单元22,并且随后处理进行到步骤S90。应当注意,步骤S89中的帧划分处理可以由AAC编码单元22执行。
在已经在步骤S84中确定编码的3D音频元数据的编码量落在允许范围内的情况下,或者当执行步骤S89的处理时,然后执行步骤S90的处理。
在步骤S90中,AAC编码单元22对已经从3D音频元数据编码单元21提供的编码的3D音频元数据、帧内DSE划分信息和帧划分信息以及从外部提供的音频数据进行AAC编码,以生成3D AAC比特流。
具体地,AAC编码单元22根据图15至17所示的语法,在AAC帧数据的DSE中存储帧内DSE划分信息和帧划分信息,并且还在DSE中适当地存储划分的编码3D音频元数据。
例如,当在多个帧上传输3D音频元数据时,AAC编码单元22在划分传输时间段的多个帧的相应DSE中存储通过划分多个帧的3D音频元数据而获得的各条划分的3D音频元数据。在这种情况下,AAC编码单元22还存储帧划分信息,包括具有适当值的帧划分模式信息,并且包括应用的帧索引,并且还将帧内DSE划分信息适当地存储在DSE中。
此外,AAC编码单元22通过AAC编码方法对从外部提供的音频数据进行编码,并将编码的音频数据作为AAC音频元素数据存储在AAC帧数据的SCE、CPE、LFE等中。此外,AAC编码单元22还存储从外部提供的3D音频组件信息以及在AAC帧数据的PCE中指示音频对象在二维平面上的位置的位置信息。
AAC编码单元22输出(传输)包括以这种方式获得的一帧或多帧的AAC帧数据的3DAAC比特流,并且随后处理进行到步骤S92。
此外,在步骤S82中确定没有要传输的3D音频元数据的情况下,随后处理进行到步骤S91。
在步骤S91中,AAC编码单元22对从外部提供的音频数据进行AAC编码。
换言之,AAC编码单元22通过AAC编码方法对从外部提供的一帧的音频数据进行编码,并将编码的音频数据存储在AAC帧数据中。另外,AAC编码单元22还在AAC帧数据的PCE中存储从外部提供的3D音频组件信息以及指示音频对象在二维平面上的位置的位置信息。
AAC编码单元22输出包括以这种方式获得的一帧的AAC帧数据的3D AAC比特流,并且随后处理进行到步骤S92。
顺便提及,尽管本文已经描述了不使用前一帧参考标记的示例,但是不用说,可以使用前一帧参考标记。
在这种情况下,在步骤S90中,前一帧参考标记存储在DSE中。另外,在步骤S82中确定没有要传输的3D音频元数据的情况下,然后执行与图10中从步骤S14到步骤S16类似的处理。
执行步骤S90的处理或步骤S91的处理,并且随后执行步骤S92的处理。
在步骤S92中,编码装置11确定是否存在要编码的音频数据。
在已经在步骤S92中确定仍然存在要编码的音频数据的情况下,处理返回到步骤S81,并且重复执行上述处理。
同时,在步骤S92中已经确定没有要编码的音频数据的情况下,换言之,已经全部编码并输出要传输的内容的音频数据,编码处理结束。
如上所述,编码装置11将3D音频元数据存储在DSE中,并生成3D AAC比特流。以这种方式执行处理,能够扩展现有的AAC标准,并且通过在解码侧使用3D音频元数据来执行3D音频再现。结果,可以提高便利性。特别地,在3D音频元数据不能完全存储在一帧的AAC帧数据中的情况下,处理代表值和结束值,作为3D音频元数据,并且3D音频元数据存储在多个帧的AAC帧数据中,这使得能够有效地传输3D音频元数据。
<解码处理说明>
接下来,将参考图20所示的流程图描述解码装置51执行的解码处理。
在步骤S131中,AAC解码单元61对接收的3D AAC比特流进行AAC解码处理,该AAC解码处理是通过对应于AAC编码方法的解码方法的解码处理。
在步骤S131中,执行类似于图11中的步骤S41的处理,将通过解码获得的3D音频组件信息提供给上层控制单元,读取二维平面上的每个音频对象的位置信息,并且将通过解码获得的音频数据提供给3D音频渲染器64。
在步骤S132中,AAC解码单元61确定在3D AAC比特流的AAC帧数据的DSE中是否存在3D音频元数据。
在已经在步骤S132中确定存在3D音频元数据的情况下,随后处理进行到步骤S133。
在步骤S133中,基于存储在AAC帧数据的DSE中的帧划分模式信息(frm_div_mode),AAC解码单元61确定是否已经执行了帧划分。例如,在帧划分模式信息的值为“1”的情况下,确定已经执行了帧划分,换言之,一个3D音频元数据通过多个帧记录在AAC帧数据中。
在已经在步骤S133中确定没有执行帧划分的情况下,换言之,在帧划分模式信息的值为“0”的情况下,处理进行到步骤S134。
在这种情况下,AAC解码单元61从一帧的AAC帧数据的DSE中读取编码的3D音频元数据,并将编码的3D音频元数据提供给3D音频元数据解码单元62。
应当注意,在3D音频元数据在此时分开存储在一帧的AAC帧数据的多个DSE中的情况下,AAC解码单元61参考每个DSE的帧内DSE划分信息,并从那些DSE读取划分的3D音频元数据。换言之,从一帧的AAC帧数据的多个DSE读取通过划分一帧的3D音频元数据而获得的各条划分的3D音频元数据。
随后,AAC解码单元61将从相应DSE读取的划分的3D音频元数据组合成一个编码的3D音频元数据,并将该所述一个编码的3D音频元数据提供给3D音频元数据解码单元62。
在步骤S134中,3D音频元数据解码单元62解码从AAC解码单元61提供的编码的3D音频元数据,并将作为其结果获得的一帧的3D音频元数据提供给3D音频渲染器64。
在以这种方式获得3D音频元数据之后,随后处理进行到步骤S140。
同时,在已经在步骤S133中确定已经执行了帧划分的情况下,在步骤S135中,AAC解码单元61从一帧的AAC帧数据的DSE获得(读取)划分的3D音频元数据。
同样在这种情况下,在划分的3D音频元数据存储在一帧的AAC帧数据中的多个DSE的情况下,参考帧内DSE划分信息,并且从那些DSE读取划分的3D音频元数据。
在步骤S136中,AAC解码单元61通过至此的处理来组合从划分传输时间段的开头帧获得的划分3D音频元数据。关于组合划分的3D音频元数据的处理,AAC解码单元61适当地参考从DSE读取的帧划分信息来执行组合。
在步骤S137中,AAC解码单元61确定紧接在前一步骤S135中处理的帧是否是划分传输时间段的结束帧。例如,在紧接在前一步骤S135中处理的帧的帧划分终止标志(frm_div_terminate)的值为“1”的情况下,AAC解码单元61确定紧接在前一步骤S135中处理的帧是结束帧。
在已经在步骤S137中确定在紧接在前一步骤S135中处理的帧不是结束帧的情况下,在划分传输时间段中存在尚未读取划分的3D音频元数据的帧,因此处理返回到步骤S135,并且重复执行上述处理。换言之,从下一帧读取划分的3D音频元数据。
同时,在已经在步骤S137中确定在紧接在前一步骤S135中处理的帧是结束帧的情况下,已经通过紧接之前执行的步骤S136的处理获得了用于划分传输时间段的编码3D音频元数据,因此处理然后前进到步骤S138。
此时,AAC解码单元61向3D音频元数据解码单元62提供针对通过组合获得的划分传输时间段的编码3D音频元数据以及诸如从划分传输时间段的DSE的帧内DSE划分信息和帧划分信息中读取的应用帧索引(apply_frm_Index)等信息。结果,3D音频元数据解码单元62能够识别构成划分传输时间段的帧数以及应用了代表值的特定帧。
在步骤S138中,3D音频元数据解码单元62对划分传输时间段的从AAC解码单元61提供的编码的3D音频元数据进行解码。因此,获得了划分传输时间段的代表值和结束值。
在步骤S139中,3D音频元数据解码单元62基于以下内容来执行插值处理:通过步骤S138的处理获得的代表值和结束值;紧接在划分传输时间段之前的帧的已经获得的3D音频元数据;以及应用的帧索引。
例如,在插值处理中,如参考图14所述,通过使用紧接在划分传输时间段之前的帧的3D音频元数据和代表值,通过插值,计算从划分传输时间段的开头帧到紧接在应用了代表值的帧之前的帧的每个帧的3D音频元数据。
类似地,通过使用代表值和结束值,通过插值,计算从紧接在应用代表值的帧之后的帧到紧接在划分传输时间段的结束帧之前的帧的每个帧的3D音频元数据。
在这种情况下,3D音频元数据解码单元62用作元数据生成单元,该元数据生成单元执行插值处理,以生成划分传输时间段的每个帧的3D音频元数据。
作为这种处理的结果,获得划分传输时间段的相应帧的3D音频元数据。应当注意,在插值处理时,适当地参考已经从AAC解码单元61提供的包括应用的帧索引的信息。
在获得划分传输时间段的相应帧的3D音频元数据之后,3D音频元数据解码单元62将这些3D音频元数据提供给3D音频渲染器64,并且随后处理进行到步骤S140。
执行步骤S134或步骤S139的处理,结果,获得一个或多个帧的3D音频元数据,并且随后执行步骤S140的处理。
换言之,在步骤S140中,3D音频渲染器64基于从3D音频元数据解码单元62提供的3D音频元数据和从AAC解码单元61提供的音频数据来执行渲染。应当注意,在步骤S140中,执行类似于图11的步骤S47中的处理。
在通过渲染获得再现数据之后,3D音频再现器64输出获得的再现数据,并且随后处理进行到步骤S142。
同时,在步骤S132中已经确定不存在3D音频元数据的情况下,然后执行步骤S141的处理。
换言之,在步骤S141中,3D音频渲染器64基于从AAC解码单元61提供的音频数据执行由普通AAC标准定义的渲染,并输出作为其结果获得的再现数据。在步骤S141中,执行类似于图11的步骤S48中的处理。
以这种方式,在输出再现数据之后,该处理然后进行到步骤S142。
顺便提及,尽管此处已经描述了不使用前一帧参考标记的示例,但是不用说,可以使用前一帧参考标记。
在这种情况下,在步骤S132中确定不存在3D音频元数据的情况下,然后执行类似于图11的步骤S44至S46和S48中的处理。
在执行步骤S140或步骤S141的处理之后,AAC解码单元61在步骤S142中确定是否存在要解码的3D AAC比特流。
在已经在步骤S142中确定存在要解码的3D AAC比特流的情况下,处理返回到步骤S131,并且重复执行上述处理。
同时,在步骤S142中确定没有要解码的3D AAC比特流的情况下,解码处理结束。
如上所述,解码装置51从DSE读取3D音频元数据,并通过使用读取的3D音频元数据来执行渲染。以这种方式执行处理,使得能够在扩展现有AAC标准的情况下执行3D音频再现,并且因此能够增强便利性。
特别地,当划分传输时间段的3D音频元数据通过多个帧存储在AAC帧数据中时,通过基于作为3D音频元数据的代表值和结束值执行插值处理,以获得每个帧的3D音频元数据,即使编码量小,也可以有效地再现3D音频。
如上所述,根据本技术,可以在具有辅助数据区域的现有音频编解码器的标准内传输3D音频数据,而不依赖于音频编解码器(编码方法)。
另外,在诸如DSE等辅助数据区域的大小受限的情况下,可以通过划分3D音频元数据,然后通过以分布式方式将划分的3D音频元数据存储在多个辅助数据区域中,来传输3D音频元数据。
此外,通过传输指示音频对象在二维平面上的位置的位置信息,换言之,与信道映射相关的信息(扬声器设置信息)以及存储在PCE等中的位置信息尽可能多地使用位置信息,使得即使在不支持3D音频的现有解码装置中也能够执行音频再现。
<计算机的配置示例>
顺便提及,上述一系列处理可以由硬件执行,也可以由软件执行。在一系列处理由软件执行的情况下,配置软件的程序安装在计算机中。在此处,计算机包括内置于专用硬件中的计算机以及能够通过安装各种程序来执行各种函数的计算机,例如,通用个人计算机等。
图21是示出通过程序执行上述一系列处理的计算机的硬件配置示例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
输入输出接口505进一步连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入输出接口505。
输入单元506包括键盘、鼠标、麦克风、图像拾取元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移动记录介质511,例如,磁盘、光盘、磁光盘或半导体存储器。
在如上所述配置的计算机中,CPU 501通过输入输出接口505和总线504将例如存储在记录单元508中的程序加载到RAM 503中,然后执行该程序,并因此执行上述一系列处理。
可以通过记录在例如可移动记录介质511(例如,封装介质)中,来提供由计算机(CPU 501)执行的程序。此外,可以通过有线或无线传输介质提供该程序,例如,局域网、互联网和数字卫星广播。
在计算机中,通过将可移动记录介质511安装到驱动器510,程序可以通过输入输出接口505安装在记录单元508中。此外,该程序可以由通信单元509通过有线或无线传输介质接收,并且可以安装在记录单元508中。除此之外,程序可以预先安装在ROM 502或记录单元508中。
应当注意,由计算机执行的程序可以是按照本说明书中描述的顺序按时间顺序执行处理的程序,或者可以是例如当进行调用时并行或在所需的时间执行处理的程序。
此外,本技术的实施方式不限于上述实施方式。在不偏离本技术要点的范围内,可以进行各种修改。
例如,本技术可以被配置为云计算,其中,通过由多个装置通过网络合作共享来处理一个功能。
此外,上述流程图中解释的每个步骤由一个装置执行。或者,每个步骤可以通过由多个装置共享来执行。
此外,在一个步骤包括多个处理的情况下,一个步骤中包括的多个处理由一个装置执行。或者,可以通过由多个装置共享来执行多个处理。
此外,本技术可以具有以下配置。
(1)一种解码装置,包括:
解码单元,对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;以及
输出单元,其基于元数据输出解码的音频数据。
(2)根据(1)所述的解码装置,其中,
所述解码单元从一帧的编码比特流中的相应多个区域,读取通过划分元数据而获得的多条数据,并基于多条数据获得元数据。
(3)根据(1)所述的解码装置,其中,
所述解码单元从编码比特流中多个帧的相应多个区域读取通过划分元数据而获得的多条数据,并基于多条数据获得多个帧的元数据。
(4)根据(3)所述的解码装置,其中,
所述多个帧的元数据包括用于包括多个帧的时间段的元数据的代表值以及作为该时间段的结束帧中的元数据的结束值。
(5)根据(4)所述的解码装置,其中,
所述解码单元还包括元数据生成单元,其进一步从所述区域读取指示使用代表值作为元数据的帧的应用帧信息,并且
通过基于代表值、终止值和应用帧信息执行插值处理,来生成时间段中的帧的元数据。
(6)根据(1)至(5)中任一项所述的解码装置,其中,
基于从预定帧之前的帧中的区域读取的元数据中在时间上最后读取的元数据,所述输出单元输出预定帧的解码音频数据。
(7)根据(6)所述的解码装置,其中,
根据关于是否使用最后读取的元数据的指令,所述输出单元基于最后读取的元数据输出预定帧的解码音频数据。
(8)根据(1)至(5)中任一项所述的解码装置,其中,
在无法获得预定帧的元数据的情况下,所述输出单元基于不同于从该区域读取的元数据的另一元数据,输出预定帧的解码音频数据。
(9)根据(1)至(8)中任一项所述的解码装置,其中,
所述编码比特流包括AAC比特流,并且
所述解码单元从作为区域的DSE读取元数据。
(10)根据(1)至(9)中任一项所述的解码装置,其中,
所述编码比特流包括AAC比特流,并且
所述解码单元从AAC比特流的PCE读取音频数据的配置信息或音频数据的扬声器设置信息。
(11)一种由解码装置执行的解码方法,包括以下步骤:
对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;并且
基于元数据输出解码的音频数据。
(12)一种使计算机执行处理的程序,包括以下步骤:
对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取目标音频的元数据;并且
基于元数据输出解码的音频数据。
(13)一种编码装置,包括
编码单元,其编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流。
(14)根据(13)所述的编码装置,其中,
所述编码单元存储通过在一帧的编码比特流中的相应多个区域中划分元数据而获得的多条数据。
(15)根据(13)所述的编码装置,其中,
所述编码单元在所述编码比特流中多个帧的相应的多个区域中存储通过划分针对多个帧的元数据而获得的多条数据。
(16)根据(15)所述的编码装置,还包括
元数据确定单元,其确定包括多个帧的时间段的元数据的代表值,并使用该代表值作为多个帧的元数据。
(17)根据(16)所述的编码装置,其中,
所述元数据确定单元确定作为该时间段的结束帧中的元数据的结束值,并使用代表值和结束值作为多个帧的元数据。
(18)根据(16)或(17)所述的编码装置,其中,
所述编码单元在该区域中存储应用帧信息,所述应用帧信息指示使用代表值作为元数据的帧。
(19)根据(13)至(18)中任一项所述的编码装置,其中,
所述编码单元在所述区域中存储信息,所述信息给出关于是否使用在时间上在预定帧之前的帧区域中存储的元数据中最接近预定帧的帧的元数据作为预定帧的元数据的指令。
(20)根据(13)至(19)中任一项所述的编码装置,其中,
所述编码比特流包括AAC比特流,并且
所述编码单元将元数据存储在作为区域的DSE中。
(21)根据(13)至(20)中任一项所述的编码装置,其中,
所述编码比特流包括AAC比特流,并且
所述编码单元在AAC比特流的PCE中存储音频数据的配置信息或音频数据的扬声器设置信息。
(22)一种通过编码装置进行编码的方法,包括
编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流的步骤。
(23)一种使计算机执行处理的程序,包括
编码包括目标音频的音频数据,并将目标音频的元数据存储在可以存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流的步骤。
附图标记列表
11 编码装置
21 3D音频元数据编码单元
22 AAC编码单元
51 解码装置
61 AAC解码单元
62 3D音频元数据解码单元
63 3D音频元数据获得单元
64 3D音频渲染器
Claims (23)
1.一种解码装置,包括:
解码单元,对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;以及
输出单元,基于所述元数据输出解码音频数据。
2.根据权利要求1所述的解码装置,其中,
所述解码单元从一帧的所述编码比特流中的相应的多个区域中,读取通过划分所述元数据而获得的多条数据,并基于所述多条数据获得所述元数据。
3.根据权利要求1所述的解码装置,其中,
所述解码单元从所述编码比特流中多个帧的相应的多个区域中读取通过划分所述元数据而获得的多条数据,并基于所述多条数据获得针对所述多个帧的元数据。
4.根据权利要求3所述的解码装置,其中,
针对所述多个帧的元数据包括由多个帧构成的时间段的元数据的代表值以及作为该时间段的结束帧中的元数据的结束值。
5.根据权利要求4所述的解码装置,其中,
所述解码单元还从所述区域读取指示使用代表值作为元数据的帧的应用帧信息,并且
所述的解码装置还包括元数据生成单元,所述元数据生成单元通过基于所述代表值、所述结束值和所述应用帧信息执行插值处理,来生成所述时间段中的帧的元数据。
6.根据权利要求1所述的解码装置,其中,
所述输出单元基于从在预定帧之前的帧中的区域读取的多条元数据中的在时间上最后读取的元数据,输出所述预定帧的所述解码音频数据。
7.根据权利要求6所述的解码装置,其中,
所述输出单元根据关于是否使用最后读取的元数据的指令,基于最后读取的元数据输出所述预定帧的所述解码音频数据。
8.根据权利要求1所述的解码装置,其中,
在无法获得预定帧的元数据的情况下,所述输出单元基于不同于从该区域读取的元数据的另一元数据,输出所述预定帧的所述解码音频数据。
9.根据权利要求1所述的解码装置,其中,
所述编码比特流包括AAC比特流,并且
所述解码单元从作为区域的DSE中读取所述元数据。
10.根据权利要求1所述的解码装置,其中,
所述编码比特流包括AAC比特流,并且
所述解码单元从AAC比特流的PCE中读取音频数据的配置信息或音频数据的扬声器设置信息。
11.一种由解码装置执行的解码方法,包括以下步骤:
对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取所述目标音频的元数据;并且
基于所述元数据输出解码音频数据。
12.一种使计算机执行处理的程序,所述处理包括以下步骤:
对包括在编码比特流中的包括目标音频的音频数据进行解码,并且从能够存储所述编码比特流的任意数据的区域中读取目标音频的元数据;并且
基于所述元数据输出解码音频数据。
13.一种编码装置,包括
编码单元,编码包括目标音频的音频数据,并将所述目标音频的元数据存储在能够存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流。
14.根据权利要求13所述的编码装置,其中,
所述编码单元在一帧的所述编码比特流中的相应的多个区域中存储通过划分所述元数据而获得的多条数据。
15.根据权利要求13所述的编码装置,其中,
所述编码单元在所述编码比特流中多个帧的相应的多个区域中存储通过划分针对多个帧的元数据而获得的多条数据。
16.根据权利要求15所述的编码装置,还包括
元数据确定单元,确定由多个帧构成的时间段的元数据的代表值,并使用该代表值作为针对多个帧的元数据。
17.根据权利要求16所述的编码装置,其中,
所述元数据确定单元确定作为该时间段的结束帧中的元数据的结束值,并使用所述代表值和所述结束值作为针对多个帧的元数据。
18.根据权利要求16所述的编码装置,其中,
所述编码单元在所述区域中存储应用帧信息,所述应用帧信息指示使用所述代表值作为元数据的帧。
19.根据权利要求13所述的编码装置,其中,
所述编码单元在所述区域中存储信息,所述信息给出关于是否使用在时间上在预定帧之前的帧的区域中存储的多条元数据中最接近所述预定帧的帧的元数据作为所述预定帧的元数据的指令。
20.根据权利要求13所述的编码装置,其中,
所述编码比特流包括AAC比特流,并且
所述编码单元将元数据存储在作为区域的DSE中。
21.根据权利要求13所述的编码装置,其中,
所述编码比特流包括AAC比特流,并且
所述编码单元在AAC比特流的PCE中存储所述音频数据的配置信息或所述音频数据的扬声器设置信息。
22.一种通过编码装置进行编码的方法,包括
编码包括目标音频的音频数据,并将所述目标音频的元数据存储在能够存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流的步骤。
23.一种使计算机执行处理的程序,所述处理包括
编码包括目标音频的音频数据,并将所述目标音频的元数据存储在能够存储任意数据的区域中,以生成包括元数据和编码音频数据的编码比特流的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017195064 | 2017-10-05 | ||
JP2017-195064 | 2017-10-05 | ||
PCT/JP2018/034981 WO2019069710A1 (ja) | 2017-10-05 | 2018-09-21 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111164679A true CN111164679A (zh) | 2020-05-15 |
CN111164679B CN111164679B (zh) | 2024-04-09 |
Family
ID=65995091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880063308.7A Active CN111164679B (zh) | 2017-10-05 | 2018-09-21 | 编码装置和方法、解码装置和方法以及程序 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11595056B2 (zh) |
EP (1) | EP3693961B1 (zh) |
JP (1) | JP7358986B2 (zh) |
KR (1) | KR20200054978A (zh) |
CN (1) | CN111164679B (zh) |
RU (1) | RU2020111480A (zh) |
WO (1) | WO2019069710A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11930348B2 (en) | 2020-11-24 | 2024-03-12 | Naver Corporation | Computer system for realizing customized being-there in association with audio and method thereof |
KR102505249B1 (ko) | 2020-11-24 | 2023-03-03 | 네이버 주식회사 | 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법 |
JP2022083445A (ja) * | 2020-11-24 | 2022-06-03 | ネイバー コーポレーション | ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013006338A2 (en) * | 2011-07-01 | 2013-01-10 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
WO2015182491A1 (ja) * | 2014-05-30 | 2015-12-03 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US20160104496A1 (en) * | 2013-05-24 | 2016-04-14 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
US20160142850A1 (en) * | 2013-07-22 | 2016-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
WO2016203994A1 (ja) * | 2015-06-19 | 2016-12-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104885151B (zh) | 2012-12-21 | 2017-12-22 | 杜比实验室特许公司 | 用于基于感知准则呈现基于对象的音频内容的对象群集 |
JP6190947B2 (ja) * | 2013-05-24 | 2017-08-30 | ドルビー・インターナショナル・アーベー | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 |
US9716959B2 (en) | 2013-05-29 | 2017-07-25 | Qualcomm Incorporated | Compensating for error in decomposed representations of sound fields |
JP6652320B2 (ja) | 2013-12-16 | 2020-02-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 送信方法、受信方法、送信装置及び受信装置 |
WO2016060101A1 (ja) * | 2014-10-16 | 2016-04-21 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
-
2018
- 2018-09-21 JP JP2019546624A patent/JP7358986B2/ja active Active
- 2018-09-21 US US16/651,532 patent/US11595056B2/en active Active
- 2018-09-21 EP EP18864075.9A patent/EP3693961B1/en active Active
- 2018-09-21 RU RU2020111480A patent/RU2020111480A/ru unknown
- 2018-09-21 CN CN201880063308.7A patent/CN111164679B/zh active Active
- 2018-09-21 WO PCT/JP2018/034981 patent/WO2019069710A1/ja unknown
- 2018-09-21 KR KR1020207007879A patent/KR20200054978A/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013006338A2 (en) * | 2011-07-01 | 2013-01-10 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
CN103650539A (zh) * | 2011-07-01 | 2014-03-19 | 杜比实验室特许公司 | 用于自适应音频信号产生、编码和呈现的系统和方法 |
US20160104496A1 (en) * | 2013-05-24 | 2016-04-14 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
US20160142850A1 (en) * | 2013-07-22 | 2016-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
WO2015182491A1 (ja) * | 2014-05-30 | 2015-12-03 | ソニー株式会社 | 情報処理装置および情報処理方法 |
WO2016203994A1 (ja) * | 2015-06-19 | 2016-12-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200265853A1 (en) | 2020-08-20 |
EP3693961A4 (en) | 2020-11-11 |
JP7358986B2 (ja) | 2023-10-11 |
CN111164679B (zh) | 2024-04-09 |
EP3693961A1 (en) | 2020-08-12 |
KR20200054978A (ko) | 2020-05-20 |
RU2020111480A3 (zh) | 2021-12-08 |
WO2019069710A1 (ja) | 2019-04-11 |
US11595056B2 (en) | 2023-02-28 |
RU2020111480A (ru) | 2021-09-20 |
EP3693961B1 (en) | 2024-06-12 |
JPWO2019069710A1 (ja) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11705139B2 (en) | Efficient coding of audio scenes comprising audio objects | |
JP6012884B2 (ja) | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング | |
US9756448B2 (en) | Efficient coding of audio scenes comprising audio objects | |
KR101760248B1 (ko) | 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 | |
CN110537220B (zh) | 信号处理设备和方法及程序 | |
CN111164679B (zh) | 编码装置和方法、解码装置和方法以及程序 | |
US20230091281A1 (en) | Method and device for processing audio signal, using metadata | |
US20200126582A1 (en) | Signal processing device and method, and program | |
CN114128309B (zh) | 信号处理装置和方法、以及程序 | |
EP4080502A1 (en) | Signal processing device and method, and program | |
US20220215566A1 (en) | Method of piecewise linear scaling of geometry atlas and apparatus using the same | |
KR102421292B1 (ko) | 오디오 객체 신호 재생 시스템 및 그 방법 | |
KR20210035060A (ko) | 이머시브 영상 처리 방법 및 이머시브 영상 합성 방법 | |
WO2024100110A1 (en) | Efficient time delay synthesis | |
CN118248153A (zh) | 信号处理设备和方法及程序 | |
CN114051194A (zh) | 一种音频轨道元数据和生成方法、电子设备及存储介质 | |
KR100943216B1 (ko) | 멀티채널 오디오 신호를 처리하는 장치 및 방법 | |
CN115966216A (zh) | 音频流处理方法及装置 | |
KR20140128182A (ko) | 예외 채널 근방의 객체 신호의 렌더링 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |