CN113470665A

CN113470665A - 编码装置和方法、解码装置和方法及计算机可读记录介质

Info

Publication number: CN113470665A
Application number: CN202110632109.7A
Authority: CN
Inventors: 山本优树; 知念彻; 辻实
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-19
Filing date: 2016-06-03
Publication date: 2021-10-01
Anticipated expiration: 2036-06-03
Also published as: US20190304479A1; JPWO2016203994A1; EP3316599B1; EP3316599A4; CN107637097B; JP6915536B2; JP2024111209A; TW201717663A; JP2021114001A; CA2989099C; US20180315436A1; BR112017026743A2; MX2017016228A; KR102140388B1; CN107637097A; JP7509190B2; KR20180107307A; WO2016203994A1; CA2989099A1; RU2720439C2

Abstract

本技术涉及编码装置和方法、解码装置和方法及计算机可读记录介质。解码装置包括：获取部，其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据；解码部，其被配置成对所述编码音频数据进行解码；以及渲染部，其被配置成基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染，其中，所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。

Description

编码装置和方法、解码装置和方法及计算机可读记录介质

本申请是申请日为2016年6月3日、申请号为“201680034330.X”(国际阶段申请号为PCT/JP2016/066574)、发明名称为“编码装置和方法、解码装置和方法以及程序”的发明专利申请的分案申请。

技术领域

本技术涉及编码装置、编码方法、解码装置、解码方法和程序。更具体地，本技术涉及用于获取较高质量的声音的编码装置、编码方法、解码装置、解码方法和程序。

背景技术

在过去，已知用于对音频对象的音频信号以及与该音频对象有关的诸如位置信息的元数据进行压缩(编码)的运动图像专家组高质量(MPEG-H)、三维(3D)音频标准(例如参见NPL 1)。

根据上述技术，音频对象的音频信号及其元数据被每帧地编码并且发送。在这种情况下，对音频对象的音频信号的每个帧最多编码并且发送一个元数据。亦即，一些帧可能不具有元数据。

此外，经编码的音频信号和元数据被解码装置解码。然后，基于通过解码而获得的音频信号和元数据来进行渲染。

亦即，解码装置首先对音频信号和元数据进行解码。当被解码时，音频信号变成每个帧中的每样本的脉冲编码调制(PCM)采样数据。亦即，获得PCM数据作为音频信号。

另一方面，被解码时的元数据变成与帧中的代表性样本有关的元数据。具体地，此处获得的是与帧中的最后一个样本有关的元数据。

利用如此获得的音频信号和元数据，解码装置中的渲染器基于由与每个帧中的代表性样本有关的元数据构成的位置信息，通过VBAP来计算基于矢量的幅度平移(VBAP)增益，使得音频对象的声像定位在由位置信息指定的位置处。针对在再现侧所配置的每个扬声器来计算VBAP增益。

然而，应当注意，与音频对象有关的元数据是与每个帧中的代表性样本有关的元数据，即如上所述的与帧中的最后一个样本有关的元数据。这意味着由渲染器计算的VBAP增益是帧中的最后一个样本的增益。未获得帧中的任何其他样本的VBAP增益。因此，为了再现音频对象的声音，还需要计算除了音频信号的代表性样本之外的样本的VBAP增益。

因此，渲染器通过插值处理来计算每个样本的VBAP增益。具体地，对于每个扬声器，进行线性插值，以使用当前帧中的最后一个样本和紧前一帧中的最后一个样本来计算这两个“最后一个样本”之间的、当前帧中的样本的VBAP增益。

以这种方式，针对每个扬声器获得要与音频对象的音频信号相乘的每个样本的VBAP增益。这允许再现音频对象的声音。

亦即，解码装置在将音频对象的音频信号提供给扬声器用于声音再现之前，将音频信号乘以针对每个扬声器计算的VBAP增益。

引用列表

非专利文献

[NPL 1]

ISO/IEC JTC1/SC29/WG11 N14747，2014年8月，日本，札幌，“Text of ISO/IEC23008-3/DIS,3D Audio”

发明内容

技术问题

然而，上述技术难以获取足够高质量的声音。

例如，VBAP涉及归一化，使得针对每个所配置的扬声器计算的VBAP增益的平方和变为1。这样的归一化允许声像定位在以再现空间中的预定参考点为中心、半径为1的球体的表面上，其中，预定参考点例如为观看或收听诸如具有声音的视频或音乐的内容的虚拟用户的头部位置。

然而，因为通过插值处理来计算帧中的代表性样本的VBAP增益以外的样本的VBAP增益，所以针对每个扬声器的这些样本的VBAP增益的平方和不会变成1。考虑到其VBAP增益通过插值处理来计算的样本，当声音再现时在虚拟用户看来，声像的位置可以在上述球体表面上沿法线方向、垂直方向或水平方向偏移。因此，在声音再现期间，音频对象的声像位置可能在单个帧周期中不稳定。这可能会使定位感变差并且导致声音的质量下降。

特别地，构成每个帧的样本数目越多，当前帧中的最后一个样本位置与紧前一帧中的最后一个样本位置之间的时间区间就可能变得越长。这可能导致通过插值处理计算的针对所配置的扬声器的VBAP增益的平方和与值1之间的较大差，从而引起声音的质量劣化。

此外，当通过插值处理计算除了代表性样本的VBAP增益以外的样本的VBAP增益时，随着音频对象的速度越高，当前帧中的最后一个样本的VBAP增益与紧前一帧中的最后一个样本的VBAP增益之间的差可能变得越大。如果发生这种情况，则更难以准确地渲染音频对象的移动，从而引起声音的质量下降。

此外，在诸如体育或电影的实际内容中，场景可能会不连续地切换。在以这种方式切换场景的部分中，音频对象不连续地移动。然而，如果通过如上所述的插值处理来计算VBAP增益，则音频对象看似在下述时间区间中相对于声音连续地移动：该时间区间处于通过插值处理计算其VBAP增益的样本之间，即，当前帧中的最后一个样本与紧前一帧中的最后一个样本之间。这使得不可能通过渲染表示音频对象的不连续移动，这可能会使声音的质量变差。

鉴于上述情况而设计了本技术。因此，本技术的目的是获取更高质量的声音。

问题的解决方案

根据本技术的第一方面，提供了一种解码装置，该解码装置包括：获取部，其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据；解码部，其被配置成对编码音频数据进行解码；以及渲染部，其被配置成基于多个元数据和通过解码而获得的音频信号来进行渲染，其中，多个元数据中的每个元数据是音频信号的帧中的多个样本的各自的元数据。

元数据可以包括指示音频对象的位置的位置信息。

多个元数据中的每个元数据可以是以将构成该帧的样本的数目除以多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。

多个元数据中的每个元数据可以是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。

多个元数据中的每个元数据可以是该帧中以预定样本数目的间隔排列的多个样本的各自的元数据。

多个元数据可以包括用于对音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据而计算的。

此外，根据本技术的第一方面，提供了一种解码方法或记录有程序的计算机可读记录介质，所述方法包括以下步骤或者所述程序用于使计算机进行包括以下步骤的处理：获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据；对编码音频数据进行解码；以及基于多个元数据和通过解码而获得的音频信号来进行渲染，其中，多个元数据中的每个元数据是音频信号的帧中的多个样本的各自的元数据。

因此，根据本技术的第一方面，获取通过对预定时间间隔的帧中的、音频对象的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据，对编码音频数据进行解码，并且基于通过解码而获得的音频信号和多个元数据来进行渲染。

根据本技术的第二方面，提供了一种编码装置，该编码装置包括：编码部，其被配置成对音频对象的预定时间间隔的帧中的音频信号进行编码；以及生成部，其被配置成生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流，其中，多个元数据中的每个元数据是音频信号的帧中的多个样本的各自的元数据。

元数据可以包括指示音频对象的位置的位置信息。

多个元数据可以包括用于对音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据计算的。

编码装置还可以包括插值处理部，该插值处理部被配置成对元数据进行插值处理。

此外，根据本技术的第二方面，提供了一种编码方法或记录有程序的计算机可读记录介质，所述方法包括以下步骤或者所述程序用于使计算机进行包括以下步骤的处理：对音频对象的预定时间间隔的帧中的音频信号进行编码；以及生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流，其中，多个元数据中的每个元数据是音频信号的帧中的多个样本的各自的元数据。

因此，根据本技术的第二方面，对预定时间间隔的帧中的、音频对象的音频信号进行编码，并且生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流。

本发明的有益效果

根据本技术的第一方面和第二方面，获得了更高质量的声音。

上面概述的有益效果不是对本公开内容的限制。从下面的描述中，本公开内容的其他优点将会是明显的。

附图说明

图1是说明比特流的示意图。

图2是描绘编码装置的典型配置的示意图。

图3是说明编码处理的流程图。

图4是描绘解码装置的典型配置的示意图。

图5是说明解码处理的流程图。

图6是描绘计算机的典型配置的框图。

具体实施方式

下面参照附图来描述本技术的一些优选实施方式。

<第一实施方式>

<本技术的概述>

本技术的目的是在音频对象的音频信号以及与音频对象有关的元数据例如位置信息在被发送之前被编码的情况下，获取更高质量的声音，其中，在解码侧，经编码的音频信号和元数据被解码并且被可听地再现。在下面的描述中，音频对象可以被简单地称为对象。

本技术涉及在发送编码元数据之前，对每帧的音频信号的多个元数据进行编码，即，针对每个帧中的音频信号编码至少两个元数据。

此外，该上下文中的元数据指的是音频信号的每个帧中的样本的元数据，即被给予至样本的元数据。例如，由作为元数据的位置信息指定的音频对象在空间中的位置表明从被给予了元数据的那些样本再现声音的定时位置。

元数据可以通过以下三种方法中的一种进行发送：数目指定方法、样本指定方法和自动切换方法。在元数据发送时，可以使用针对每个对象或针对预定时间间隔的每个帧而相继切换的这三种方法来发送元数据。

(数目指定方法)

首先，下面说明数目指定方法。

数目指定方法包括在发送指定数目的元数据之前，将指示每帧发送的元数据的数目的元数据数目信息包括到比特流语法中。指示构成一个帧的样本的数目的信息被保存在比特流的报头中。

此外，可以例如根据每个帧的等分部分的位置来针对每个帧预先确定与要发送的每个元数据相关的特定样本。

例如，假设2048个样本构成一个帧，并且每帧发送四个元数据。在这种情况下，假设构成一个帧的区间按照要被发送的元数据的数目被等分，使得关于位于该区间的这些分割之间的每个边界上的样本来发送元数据。亦即，针对位于通过将一个帧中的样本的数目除以所涉及的元数据的数目而获得的样本数目的间隔的那些样本发送元数据。

在上述情况下，针对从帧的开始起的第512个样本、第1024个样本、第1536个样本和第2048个样本来发送元数据。

替代地，在附图标记S表示构成一个帧的样本的数目并且A表示每帧要发送的元数据的数目的情况下，可以针对处于由S/2^(A-1)所限定的位置处的样本发送元数据。亦即，可以针对帧中位于S/2^(A-1)的间隔的那些样本中的全部样本或一部分样本来发送元数据。在这种情况下，例如，如果元数据数目A是1，则针对帧中的最后一个样本发送元数据。

作为另一种替代，可以针对位于预定间隔(即位于预定样本数目的间隔)的那些样本来发送元数据。

(样本指定方法)

接下来，下面描述样本指定方法。

样本指定方法包括：除了通过上述数目指定方法发送的元数据数目信息之外，在发送比特流之前还将指示每个元数据的样本位置的样本索引包括在比特流中。

例如，假设2048个样本构成一个帧，并且每帧发送四个元数据。还假设针对从帧的开始起的第128个样本、第512个样本、第1536个样本和第2048个样本发送元数据。

在这种情况下，比特流保存指示“4”作为每帧发送的元数据的数目的元数据数目信息以及指示从帧的开始起的第128个样本、第512个样本、第1536个样本和第2048个样本的位置的样本索引。例如，样本索引值128指示从帧的开始起的第128个样本的位置。

样本指定方法允许发送与每个不同的帧中的随机选择的样本有关的元数据。这使得例如可以发送在场景切换位置前后的那些样本的元数据。在这种情况下，可以通过渲染来表示对象的不连续移动，这提供了高质量的声音。

(自动切换方法)

接下来说明自动切换方法。

自动切换方法包括：取决于构成一个帧的样本的数目、即取决于每帧的样本数目而自动地切换每帧要发送的元数据的数目。

例如，如果1024个样本构成一个帧，则针对该帧内位于256个样本的间隔的各个样本发送元数据。在该示例中，针对从该帧的开始起的第256个样本、第512个样本、第768个样本和第1024个样本发送总共四个元数据。

作为另一示例，如果2048个样本构成一个帧，则针对该帧中位于256个样本的间隔的各个样本来发送元数据。在该示例中，发送总共八个元数据。

如上所述，如果使用数目指定方法、样本指定方法或自动切换方法每帧发送至少两个元数据，则可以发送更多的元数据，特别是当大量样本构成一个帧时更是如此。

上面的方法缩短了将通过线性插值计算其VBAP增益的样本连续排列的区间。这提供了更高质量的声音。

例如，将通过线性插值计算其VBAP增益的样本连续排列的区间越短，则对于所配置的每个扬声器，VBAP增益的平方和与值1之间的差将越小。这改善了对象的声像的定位感。

在被提供有元数据的样本之间的距离因此缩短的情况下，这些样本的VBAP增益之间的差也减小。这允许更准确地渲染对象移动。此外，在被提供有元数据的样本之间的距离缩短的情况下，当对象实际上不连续地移动时，可以缩短对象看似关于声音连续移动的时段。特别地，样本指定方法允许通过发送与位于适当位置的样本有关的元数据来表示对象的不连续移动。

可以使用上述数目指定方法、样本指定方法和自动切换方法中的一种方法来发送元数据。替代地，可以每帧或每个对象来相继切换这三种方法中的至少两种。

例如，假设针对每个帧或每个对象而相继切换数目指定方法、样本指定方法和自动切换方法这三种方法。在这种情况下，比特流可以被布置成保存指示发送元数据的方法的切换索引。

在这种情况下，例如，如果切换索引的值为0，则这意味着选择了数目指定方法，即，通过数目指定方法来发送元数据。如果切换索引的值为1，则这意味着选择了样本指定方法。如果切换索引的值为2，则这意味着选择了自动切换方法。在随后的段落中，假设针对每个帧或每个对象而相继切换数目指定方法、样本指定方法和自动切换方法。

根据由上述MPEG-H 3D音频标准限定的发送音频信号和元数据的方法，仅发送与每个帧中的最后一个样本有关的元数据。因此，如果要通过插值处理来计算样本的VBAP增益，则需要当前帧的紧前一帧中的最后一个样本的VBAP增益。

因此，如果再现侧(解码侧)试图随机访问期望帧的音频信号以从该期望帧开始再现，则因为没有计算随机访问的帧之前的帧的VBAP增益，所以不能进行对VBAP增益的插值处理。为此，在MPEG-H 3D音频标准下无法实现随机访问。

相较之下，本技术允许将插值处理所需的元数据和与每个帧有关的或与随机间隔的各帧有关的元数据一起发送。这使得可以计算当前帧之前的帧中的样本的VBAP增益或当前帧中的第一个样本的VBAP增益，这使得能够进行随机访问。在随后的描述中，可以将与普通元数据一起发送并且在插值处理中使用的元数据特别地称为附加元数据。

例如，和与当前帧有关的元数据一起发送的附加元数据可以是与当前帧的紧前一帧中的最后一个样本有关的元数据，或与当前帧中的第一个样本有关的元数据。

此外，为了容易地确定对于每个帧是否存在附加元数据，比特流被布置成包括每帧的指示与每个对象有关的附加元数据存在或不存在的附加元数据标志。例如，如果给定帧的附加元数据标志的值为1，则这意味着存在与该帧有关的附加元数据。如果附加元数据标志的值为0，则这意味着不存在与该帧有关的附加元数据。

基本上，附加元数据标志针对同一帧中的所有对象具有相同的值。

如上所述，与按需要发送的附加元数据一起，以每帧来发送附加元数据标志。这允许随机访问具有附加元数据的帧。

如果对于被指定为随机访问的目的地的帧不存在附加元数据，则可以选择在时间上最接近所指定的帧的那个帧作为随机访问的目的地。因此，如果以适当的帧的间隔发送附加元数据，则可以在不会让用户体验到不自然的感觉的情况下实现随机访问。

尽管上面说明了附加元数据，但是可以在不使用附加元数据的情况下对被指定为随机访问的目的地的帧的VBAP增益进行插值处理。在这种情况下，可以在使由使用附加元数据所引起的比特流中的数据量(比特率)的增加最小化的情况下完成随机访问。

具体地，在被指定为随机访问的目的地的帧中，在一方面针对当前帧之前的帧假定为0的VBAP增益的值与另一方面针对当前帧计算的VBAP增益的值之间进行插值处理。替代地，插值处理不限于上面描述的内容，并且可以以下述方式进行：使得当前帧中的每个样本的VBAP增益的值变得与针对当前帧计算的VBAP增益的值相同。同时，未被指定为随机访问目的地的帧经历使用当前帧之前的帧的VBAP增益进行的普通插值处理。

如上所述，可以取决于关注的帧是否被指定为随机访问的目的地来切换对VBAP增益进行的插值处理。这使得可以在不使用附加元数据的情况下进行随机访问。

根据上述MPEG-H 3D音频标准，比特流被布置成包括独立性标志(也称为indepFlag)，该独立性标志指示当前帧是否适合于仅使用比特流中的当前帧的数据进行解码和渲染(被称为独立帧)。如果独立性标志的值为1，则这意味着当前帧可以在不使用与当前帧之前的帧有关的数据或通过对这些数据进行解码而获得的任何信息的情况下进行解码和渲染。

因此，如果独立性标志的值为1，则需要在不使用当前帧之前的帧的VBAP增益的情况下对当前帧进行解码和渲染。

考虑到独立性标志的值为1的帧，上述附加元数据可以被包括在比特流中。替代地，可以如上所述的那样切换插值处理。

以这种方式，取决于独立性标志的值，可以确定是否要将附加元数据包括到比特流中，或者可以切换对VBAP增益的插值处理。因此，当独立性标志的值为1时，当前帧可以在不使用当前帧之前的帧的VBAP增益的情况下进行解码和渲染。

此外，上面说明了根据上述MPEG-H 3D音频标准，通过解码而获得的元数据仅与代表性样本有关，即与帧中的最后一个样本有关。然而，在音频信号和元数据被编码的一侧，在对这些元数据进行压缩(编码)以输入至编码装置之前，帧中的所有样本限定的元数据很少。亦即，音频信号的帧中很多待编码的样本不具有元数据。

目前，最常见的情况是，在帧中仅位于规则间隔的样本例如第0个样本、第1024个样本和第2048个样本，或者位于不规则间隔的样本例如第0个样本、第138个样本和第2044个样本被给予元数据。

在这种情况下，取决于帧，可能存在未被提供有元数据的样本。对于没有具有元数据的样本的那些帧，不发送元数据。考虑到缺少具有元数据的样本的帧，解码侧需要对具有元数据并且在当前帧之后的帧的VBAP增益进行计算，以计算每个样本的VBAP增益。因此，在解码和渲染元数据时出现延迟，使得难以实时地进行解码和渲染。

因此，本技术涉及允许编码侧根据需要通过插值处理(样本插值)而获得与处于具有元数据的样本之间的那些样本有关的元数据，并且允许解码侧实时地对元数据进行解码和渲染。特别需要使视频游戏的音频再现中的延迟最小化。因此，对于本技术而言，重要的是减少解码和渲染中的延迟，即例如改善玩游戏的交互性。

对元数据的插值处理可以以任何合适的形式来进行，例如使用高维函数的非线性插值或线性插值。

<比特流>

下面描述的是上面概述的本技术的更具体的实施方式。

例如，图1中描绘的比特流是由对每个对象的音频信号及其元数据进行编码的编码装置输出的。

报头被放置在图1所描绘的比特流的开始处。报头包括与每个对象的音频信号的构成一个帧的样本的数目、即每帧的样本数目有关的信息(该信息在下文中可以被称为样本数目信息)。

在比特流中，报头之后是每个帧中的数据。具体地，区域R10包括指示当前帧是否是独立帧的独立性标志。区域R11包括通过对同一帧中的每个对象的音频信号进行编码而获得的编码音频数据。

此外，区域R11之后的区域R12包括通过对与同一帧中的每个对象有关的元数据进行编码而获得的编码元数据。

例如，区域R12中的区域R21包括与一个帧中的一个对象有关的编码元数据。

在该示例中，编码元数据由附加元数据标志开头。附加元数据标志之后是切换索引。

此外，切换索引之后是元数据数目信息和样本索引。该示例仅描述了一个样本索引。然而，更具体地，编码元数据可以包括与编码元数据中包括的元数据的数目一样多的样本索引。

在编码元数据中，如果切换索引指示了数目指定方法，则切换索引之后是元数据数目信息，而不是样本索引。

此外，如果切换索引指示了样本指定方法，则切换索引之后是元数据数目信息以及样本索引。此外，如果切换索引指示了自动切换方法，则切换索引之后既没有元数据数目信息也没有样本索引。

根据需要而被包括的元数据数目信息和样本索引之后是附加元数据。附加元数据之后是限定数目的与每个样本有关的元数据。

仅当附加元数据标志的值为1时才包括附加元数据。如果附加元数据标志的值为0，则不包括附加元数据。

在区域R12中，针对每个对象排列与区域R21中的编码元数据类似的编码元数据。

在比特流中，单个帧的数据由区域R10中包括的独立性标志、区域R11中的与每个对象有关的编码音频数据、以及区域R12中的与每个对象有关的编码元数据所构成。

<编码装置的典型配置>

下面描述的是如何配置用于输出图1中所描绘的比特流的编码装置。图2是描绘应用本技术的编码装置的典型配置的示意图。

编码装置11包括音频信号获取部21、音频信号编码部22、元数据获取部23、插值处理部24、相关信息获取部25、元数据编码部26、多路复用部27和输出部28。

音频信号获取部21获取每个对象的音频信号并且将获取的音频信号馈送至音频信号编码部22。音频信号编码部22以帧为单位对从音频信号获取部21馈送的音频信号进行编码，并且向多路复用部27提供每帧的所得到的与每个对象有关的编码音频数据。

元数据获取部23获取每帧的与每个对象有关的元数据、更具体地是与帧中的每个样本有关的元数据，并且将所获取的元数据馈送至插值处理部24。元数据包括例如指示对象在空间中的位置的位置信息、指示对象的重要程度的重要程度信息以及指示对象的声像的扩展程度的信息。元数据获取部23获取与每个对象的音频信号中的特定样本(PCM样本)有关的元数据。

插值处理部24对从元数据获取部23馈送的元数据进行插值处理，从而生成与音频信号中的不具有元数据的样本中的全部或其特定部分有关的元数据。插值处理部24通过插值处理来生成与帧中的样本有关的元数据，使得一个对象的一个帧中的音频信号将具有多个元数据，即一个帧中的多个样本将具有元数据。

插值处理部24向元数据编码部26提供通过插值处理获得的与每个帧中的每个对象有关的元数据。

相关信息获取部25获取与元数据相关的信息诸如指示当前帧是否是独立帧的信息(被称为独立帧信息)、以及样本数目信息、指示发送元数据的方法的信息、指示附加元数据是否被发送的信息以及指示音频信号的每个帧中关于每个对象被发送了元数据的样本的信息。基于这样获取的相关信息，相关信息获取部25生成从附加元数据标志、切换索引、元数据数目信息以及样本索引当中选择的每帧的与每个对象有关的必要信息。相关信息获取部25将所生成的信息馈送至元数据编码部26。

基于从相关信息获取部25馈送的信息，元数据编码部26对来自插值处理部24的元数据进行编码。元数据编码部26向多路复用部27提供所得到的每帧的与每个对象有关的编码元数据以及从相关信息获取部25馈送的信息中所包括的独立帧信息。

多路复用部27通过对从音频信号编码部22馈送的编码音频数据、从元数据编码部26馈送的编码元数据以及根据从元数据编码部26馈送的独立帧信息获得的独立性标志进行多路复用来生成比特流。多路复用部27将所生成的比特流馈送至输出部28。输出部28输出从多路复用部27馈送的比特流。亦即，比特流被发送。

<编码处理的说明>

当从外部被提供了对象的音频信号时，编码装置11对音频信号进行编码处理以输出比特流。下面参照图3的流程图来描述由编码装置11进行的典型编码处理。对音频信号的每个帧进行编码处理。

在步骤S11中，音频信号获取部21获取针对一个帧的、每个对象的音频信号，并且将获取的音频信号馈送至音频信号编码部22。

在步骤S12中，音频信号编码部22对从音频信号获取部21馈送的音频信号进行编码。音频信号编码部22向多路复用部27提供所得到的针对一个帧的与每个对象有关的编码音频数据。

例如，音频信号编码部22可以对音频信号进行修正离散余弦变换(MDCT)，由此将音频信号从时间信号转换成频率信号。音频信号编码部22还对通过MDCT获得的MDCT系数进行编码，并且将所得到的比例因子、边信息和量化谱放到通过对音频信号进行编码而获取的编码音频数据中。

此处获取的是例如被放到图1所描绘的比特流的区域R11中的与每个对象有关的编码音频数据。

在步骤S13中，元数据获取部23获取与音频信号的每个帧中的每个对象有关的元数据，并且将所获取的元数据馈送至插值处理部24。

在步骤S14中，插值处理部24对从元数据获取部23馈送的元数据进行插值处理。插值处理部24将所得到的元数据馈送至元数据编码部26。

例如，在被提供了一个音频信号的情况下，插值处理部24根据作为与给定样本有关的元数据的位置信息以及作为与在时间上在给定样本之前的另一样本有关的元数据的位置信息，通过线性插值来计算与位于上述给定样本与上述另一样本之间的那些样本中的每个样本有关的位置信息。类似地，插值处理部24对作为元数据的声像的重要程度信息和扩展程度信息进行诸如线性插值的插值处理，从而生成与每个样本有关的元数据。

在对元数据的插值处理中，可以计算元数据，使得一个帧中的对象的音频信号的所有样本均被提供有元数据。替代地，可以计算元数据，使得所有样本当中仅必要的样本被提供有元数据。此外，插值处理不限于线性插值。替代地，非线性插值可以用于插值处理。

在步骤S15中，相关信息获取部25获取与每个对象的音频信号的帧有关的元数据相关信息。

基于如此获取的相关信息，相关信息获取部25生成从针对每个对象的附加元数据标志、切换索引、元数据数目信息以及样本索引当中选择的必要信息。相关信息获取部25将所生成的信息馈送至元数据编码部26。

可以不要求相关信息获取部25生成附加元数据标志、切换索引和其他信息。替代地，相关信息获取部25可以从外部获取附加元数据标志、切换索引以及其他信息，而非生成这样的信息。

在步骤S16中，元数据编码部26根据从相关信息获取部25馈送的诸如附加元数据标志、切换索引、元数据数目信息和样本索引的信息，对从插值处理部24馈送的元数据进行编码。

生成编码元数据，使得在关于每个对象的与音频信号的帧中的每个样本有关的元数据中，仅发送样本数目信息、由切换索引指示的方法、元数据数目信息以及由样本索引限定的样本位置。必要时，与帧中的第一个样本有关的元数据或与紧前一帧中的最后一个样本有关的保留的元数据被包括作为附加元数据。

除了元数据之外，编码元数据还包括附加元数据标志和切换索引。元数据数目信息、样本索引和附加元数据也可以根据需要被包括在编码元数据中。

此处获取的是例如保存在图1所描绘的比特流的区域R12中的与每个对象有关的编码元数据。例如，保存在区域R21中的编码元数据与一个帧的一个对象有关。

在这种情况下，如果在该帧中选择了数目指定方法以针对该对象进行处理并且如果发送了附加元数据，则此处生成的是由附加元数据标志、切换索引、元数据数目信息、附加元数据和元数据组成的编码元数据。

此外，如果在该帧中选择了样本指定方法以针对该对象进行处理并且如果未发送附加元数据，则在这种情况下生成的是由附加元数据标志、切换索引、元数据数目信息、样本索引和元数据组成的编码元数据。

此外，如果在该帧中选择了自动切换方法以针对该对象进行处理并且如果发送了附加元数据，则此处生成的是由附加元数据标志、切换索引、附加元数据和元数据组成的编码元数据。

元数据编码部26向多路复用部27提供通过对元数据进行编码获得的与每个对象有关的编码元数据以及从相关信息获取部25馈送的信息中包括的独立帧信息。

在步骤S17中，多路复用部27通过对从音频信号编码部22馈送的编码音频数据、从元数据编码部26馈送的编码元数据以及基于从元数据编码部26馈送的独立帧信息而获得的独立性标志进行多路复用来生成比特流。多路复用部27将所生成的比特流馈送至输出部28。

此处生成的是例如由图1所描绘的比特流的区域R10至R12组成的单个帧的比特流。

在步骤S18中，输出部28输出从多路复用部27馈送的比特流。这终止了编码处理。如果输出比特流的前导部分，则也输出如图1中所描绘的主要包含样本数目信息的报头。

以上述方式，编码装置11对音频信号和元数据进行编码，并且输出由所得到的编码音频数据和编码元数据组成的比特流。

此时，如果多个元数据被布置成针对每个帧被发送，则解码侧可以进一步缩短对通过插值处理计算出其VBAP增益的样本进行排列的区间。这提供了更高质量的声音。

此外，在对元数据进行插值处理的情况下，总是针对每个帧发送至少一个元数据。这允许解码侧实时地进行解码和渲染。可以根据需要发送的附加元数据允许实现随机访问。

<解码装置的典型配置>

下面描述的是解码装置，其对从编码装置11输出的所接收到(获取的)比特流进行解码。例如，应用本技术的解码装置如图4所描绘的那样被配置。

该配置的解码装置51与布置在声音再现空间中的多个扬声器所组成的扬声器系统52连接。解码装置51将通过针对每个通道进行解码和渲染而获得的音频信号馈送至构成扬声器系统52的各通道上的扬声器用于声音再现。

解码装置51包括获取部61、解多路复用部62、音频信号解码部63、元数据解码部64、增益计算部65和音频信号生成部66。

获取部61获取从编码装置11输出的比特流，并且将获取的比特流馈送至解多路复用部62。解多路复用部62将从获取部61馈送的比特流解多路复用成独立性标志、编码音频数据以及编码元数据。解多路复用部62将编码音频数据馈送至音频信号解码部63，并且将独立性标志和编码元数据馈送至元数据解码部64。

根据需要，解多路复用部62可以从比特流的报头读取诸如样本数目信息的各项信息。解多路复用部62将所取回的信息馈送至音频信号解码部63和元数据解码部64。

音频信号解码部63对从解多路复用部62馈送的编码音频数据进行解码，并且将所得到的每个对象的音频信号馈送至音频信号生成部66。

元数据解码部64对从解多路复用部62馈送的编码元数据进行解码，并且向增益计算部65提供所得到的与音频信号的每个帧中的每个对象有关的元数据以及从解多路复用部62馈送的独立性标志。

元数据解码部64包括：附加元数据标志读取部分71，其从编码元数据读取附加元数据标志；以及切换索引读取部分72，其从编码元数据读取切换索引。

增益计算部65基于以下各项来计算与每个对象有关的音频信号的每个帧中的样本的VBAP增益：预先保存的指示布置在扬声器系统52组成的空间中的每个扬声器的位置的布置位置信息、从元数据解码部64馈送的每帧的与每个对象有关的元数据、以及独立性标志。

此外，增益计算部65包括插值处理部分73，该插值处理部分73基于预定样本的VBAP增益通过插值处理来计算其他样本的VBAP增益。

增益计算部65向音频信号生成部66提供关于每个对象而计算的、音频信号的帧中的每个样本的VBAP增益。

音频信号生成部66根据从音频信号解码部63馈送的每个对象的音频信号以及从增益计算部65馈送的每个对象的每个样本的VBAP增益来生成每个通道上的音频信号，即，要馈送到每个通道的扬声器的音频信号。

音频信号生成部66将所生成的音频信号馈送至构成扬声器系统52的每个扬声器，使得扬声器将基于音频信号来输出声音。

在解码装置51中，由增益计算部65和音频信号生成部66组成的块用作基于通过解码而获得的音频信号和元数据来进行渲染的渲染器(渲染部)。

<解码处理的说明>

当从编码装置11发送比特流时，解码装置51进行解码处理以接收(获取)并且解码比特流。下面参照图5的流程图来描述由解码装置51进行的典型解码处理。该解码处理是对音频信号的每个帧进行的。

在步骤S41中，获取部61获取从编码装置11输出的针对一个帧的比特流，并且将获取的比特流馈送至解多路复用部62。

在步骤S42中，解多路复用部62将从获取部61馈送的比特流解多路复用成独立性标志、编码音频数据和编码元数据。解多路复用部62将编码音频数据提供给音频信号解码部63，并且将独立性标志和编码元数据提供给元数据解码部64。

此时，解多路复用部62向元数据解码部64提供从比特流的报头读取的样本数目信息。样本数目信息可以被布置成在获取比特流的报头时被馈送。

在步骤S43中，音频信号解码部63对从解多路复用部62馈送的编码音频数据进行解码，并且向音频信号生成部66提供所得到的针对一个帧的每个对象的音频信号。

例如，音频信号解码部63通过对编码音频数据进行解码来获得MDCT系数。具体地，音频信号解码部63基于作为编码音频数据而提供的比例因子、边信息和量化谱来计算MDCT系数。

此外，基于MDCT系数，音频信号解码部63进行逆修正离散余弦变换(IMDCT)以获得PCM数据。音频信号解码部63将所得到的PCM数据作为音频信号馈送至音频信号生成部66。

在对编码音频数据进行解码之后，对编码元数据进行解码。亦即，在步骤S44中，元数据解码部64中的附加元数据标志读取部分71从馈送自解多路复用部62的编码元数据中读取附加元数据标志。

例如，元数据解码部64连续地以与从解多路复用部62连续馈送的编码元数据相对应的对象为目标进行处理。附加元数据标志读取部分71从与每个目标对象有关的编码元数据中读取附加元数据标志。

在步骤S45中，元数据解码部64中的切换索引读取部分72从馈送自解多路复用部62的与目标对象有关的编码元数据中读取切换索引。

在步骤S46中，切换索引读取部分72确定由步骤S45中读取的切换索引所指示的方法是否是数目指定方法。

如果在步骤S46中确定指示了数目指定方法，则控制转到步骤S47。在步骤S47中，元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取元数据数目信息。

与目标对象有关的编码元数据包括与以上述方式读取的元数据数目信息所指示的元数据数目一样多的元数据。

在步骤S48中，元数据解码部64识别与目标对象有关的所发送的元数据中的、音频信号的帧中的样本位置，该识别是基于在步骤S47中读取的元数据数目信息以及从解多路复用部62馈送的样本数目信息。

例如，由与样本数目信息所指示的样本数目一样多的样本构成的单个帧区间被等成与元数据数目信息所指示的元数据数目一样多的均等区间。将每个所划分的区间中的最后一个样本的位置视为元数据样本位置，即，具有元数据的样本的位置。如此获得的样本位置是编码元数据中所包括的每个元数据中的样本的位置；这些样本是具有元数据的样本。

上面说明的是，发送与从单个帧区间划分的每个分割中的最后一个样本有关的元数据。根据要被发送元数据的每个特定样本，使用样本数目信息和元数据数目信息来计算每个元数据的样本位置。

在识别与目标对象有关的编码元数据中包括的元数据的数目之后，并且在识别每个元数据的样本位置之后，控制转到步骤S53。

另一方面，如果在步骤S46中确定没有指示数目指定方法，则控制转到步骤S49。在步骤S49中，切换索引读取部分72确定在步骤S45中读取的切换索引是否指示了样本指定方法。

如果在步骤S49中确定指示了样本指定方法，则控制转到步骤S50。在步骤S50中，元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取元数据数目信息。

在步骤S51中，元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取样本索引。此时读取的是与由元数据数目信息所指示的元数据数目一样多的样本索引。

考虑到以这种方式读出的元数据数目信息和样本索引，可以识别与目标对象有关的编码元数据中包括的元数据的数目以及这些元数据的样本位置。

在识别与目标对象有关的编码元数据中包括的元数据的数目之后并且在识别每个元数据的样本位置之后，控制转到步骤S53。

如果在步骤S49中确定没有指示样本指定方法，即，通过切换索引指示了自动切换方法，则控制转到步骤S52。

在步骤S52中，基于从解多路复用部62馈送的样本数目信息，元数据解码部64识别与目标对象有关的编码元数据中包括的元数据的数目以及每个元数据的样本位置。然后控制转到步骤S53。

例如，自动切换方法涉及预先确定与组成一个帧的样本的数目有关的要被发送的元数据的数目以及每个元数据的样本位置，即要被发送元数据的特定样本。

为此，考虑到样本数目信息，元数据解码部64可以识别与目标对象有关的编码元数据中包括的元数据的数目并且还识别这些元数据的样本位置。

在步骤S48、步骤S51或步骤S52之后，控制转到步骤S53。在步骤S53中，元数据解码部64基于在步骤S44中读出的附加元数据标志的值来确定是否存在附加元数据。

如果在步骤S53中确定存在附加元数据，则控制转到步骤S54。在步骤S54中，元数据解码部64从与目标对象有关的编码元数据中读取附加元数据。在附加元数据被读出的情况下，控制转到步骤S55。

相较之下，如果在步骤S53中确定不存在附加元数据，则跳过步骤S54并且控制转到步骤S55。

在步骤S54中读出附加元数据之后，或如果在步骤S53中确定不存在附加元数据，则控制转到步骤S55。在步骤S55中，元数据解码部64从与目标对象有关的编码元数据中读取元数据。

此时，从编码元数据读取的是与在上述步骤中识别的数目一样多的元数据。

在上述处理中，从一个帧的音频信号读取与目标对象有关的元数据和附加元数据。

元数据解码部64将所取回的元数据馈送至增益计算部65。此时，元数据以下述方式被馈送：使得增益计算部65可以识别哪个元数据与哪个对象的哪个样本相关。此外，如果附加元数据被读出，则元数据解码部64将所取回的附加元数据馈送至增益计算部65。

在步骤S56中，元数据解码部64确定是否已经关于所有对象读取了元数据。

如果在步骤S56中确定尚未关于所有对象读取元数据，则控制返回到步骤S44并且重复随后的步骤。在这种情况下，选择待处理的另一对象作为新的目标对象，并且从与新对象有关的编码元数据中读取元数据和其他信息。

相较之下，如果在步骤S56中确定已经关于所有对象读取了元数据，则元数据解码部64向增益计算部65提供从解多路复用部62馈送的独立性标志。然后控制转到步骤S57，并且开始渲染。

亦即，在步骤S57中，增益计算部65基于从元数据解码部64馈送的元数据、附加元数据和独立性标志来计算VBAP增益。

例如，增益计算部65相继选择每个目标对象进行处理，并且还在每个目标对象的音频信号的帧中相继选择具有元数据的一个目标样本。

考虑到目标样本，增益计算部65基于由作为与样本有关的元数据的位置信息所指示的对象在空间中的位置以及由布置位置信息所指示的构成扬声器系统52的每个扬声器在空间中的位置，通过VBAP来计算针对每个通道的目标样本的VBAP增益，即，针对每个通道的扬声器的VBAP增益。

VBAP允许两个或三个扬声器放置在给定对象周围，以输出具有预定增益的声音，使得声像可以定位在对象的位置处。VBAP的详细描述例如由以下文献给出：Ville Pulkki的“Virtual Sound Source Positioning Using Vector Base Amplitude Panning,”Journal of AES(AES杂志)，第45卷，第6期，第456至466页，1997年。

在步骤S58中，插值处理部分73进行插值处理以计算与不具有元数据的样本有关的、每个扬声器的VBAP增益。

例如，插值处理涉及使用在前面的步骤S57中计算的目标样本的VBAP增益以及与目标对象在同一帧中或在紧前一帧中的具有元数据的样本的VBAP增益(在下文中后者样本可以被称为参考样本)，后者样本在时间上在目标样本之前。亦即，通常进行线性插值以针对构成扬声器系统52的每个扬声器(通道)使用目标样本的VBAP增益和参考样本的VBAP增益来计算目标样本与参考样本之间的那些样本的VBAP增益。

例如，如果指定了随机访问，或者如果从元数据解码部64馈送的独立性标志的值是1并且存在附加元数据，则增益计算部65使用附加元数据来计算VBAP增益。

具体地，假设以目标对象的音频信号的帧中的具有元数据的第一个样本为目标进行处理并且计算目标样本的VBAP增益。在这种情况下，不计算当前帧之前的帧的VBAP增益。因此，增益计算部65将当前帧中的第一个样本或紧前一帧中的最后一个样本视为参考样本，并且使用附加元数据来计算参考样本的VBAP增益。

然后，插值处理部分73使用目标样本的VBAP增益和参考样本的VBAP增益，通过插值处理来计算目标样本与参考样本之间的那些样本的VBAP增益。

另一方面，如果指定了随机访问，或者如果从元数据解码部64馈送的独立性标志的值是1并且不存在附加元数据，则不使用附加元数据来计算VBAP增益。相反，插值处理被切换。

具体地，假设将目标对象的音频信号的帧中的具有元数据的第一个样本视为目标样本并且计算目标样本的VBAP增益。在这种情况下，不计算关于当前帧之前的帧的VBAP增益。因此，增益计算部65将当前帧中的第一个样本或紧前一帧中的最后一个样本视为参考样本，并且将0设置为用于增益计算的参考样本的VBAP增益。

然后，插值处理部分73进行插值处理，以使用目标样本的VBAP增益和参考样本的VBAP增益来计算目标样本与参考样本之间的那些样本的VBAP增益。

插值处理不限于上面所描述的内容。替代地，例如，插值处理可以以下述方式进行，使得要被插值的每个样本的VBAP增益变得与目标样本的VBAP值相同。

当如上所述那样切换对VBAP增益的插值处理时，可以对不具有附加元数据的帧进行随机访问，并且进行独立帧的解码和渲染。

在上面的示例中说明了使用插值处理来获得不具有元数据的样本的VBAP增益。替代地，元数据解码部64可以进行插值处理以获得与不具有元数据的样本有关的元数据。在这种情况下，获得与音频信号的所有样本有关的元数据，使得插值处理部分73不对VBAP增益进行插值处理。

在步骤S59中，增益计算部65确定是否已经计算目标对象的音频信号的帧中的所有样本的VBAP增益。

如果在步骤S59中确定尚未计算所有样本的VBAP增益，则控制返回到步骤S57并且重复随后的步骤。亦即，选择具有元数据的下一个样本作为目标样本，并且计算该目标样本的VBAP增益。

另一方面，如果在步骤S59中确定已经计算所有样本的VBAP增益，则控制转到步骤S60。在步骤S60中，增益计算部65确定是否已经计算所有对象的VBAP增益。

例如，如果以所有对象为目标进行了处理并且如果计算了针对每个扬声器的每个对象的样本的VBAP增益，则确定已经计算所有对象的VBAP增益。

如果在步骤S60中确定尚未计算所有对象的VBAP增益，则控制返回到步骤S57并且重复随后的步骤。

另一方面，如果在步骤S60中确定已经计算所有对象的VBAP增益，则增益计算部65将所计算的VBAP增益馈送至音频信号生成部66。然后，控制转到步骤S61。在这种情况下，音频信号生成部66被提供有针对每个扬声器计算的每个对象的音频信号的帧中的每个样本的VBAP增益。

在步骤S61中，音频信号生成部66基于从音频信号解码部63馈送的每个对象的音频信号以及从增益计算部65馈送的每个对象的每个样本的VBAP增益，针对每个扬声器生成音频信号。

例如，音频信号生成部66通过把下述信号相加来针对给定扬声器生成音频信号：这些信号中的每个信号是通过将每个样本的每个对象的音频信号乘以针对同一扬声器所获得的该对象的VBAP增益而得到的。

具体地，假设存在三个对象OB1至OB3作为对象、并且已经针对构成扬声器系统52的一部分的给定扬声器SP1获得了这些对象的VBAP增益G1至G3。在这种情况下，将乘以了VBAP增益G1的对象OB1的音频信号、乘以了VBAP增益G2的对象OB2的音频信号、以及乘以了VBAP增益G3的对象OB3的音频信号相加。由上述相加得到的音频信号是要馈送至扬声器SP1的音频信号。

在步骤S62中，音频信号生成部66向扬声器系统52的每个扬声器提供在步骤S61中针对该扬声器获得的音频信号，使扬声器基于这些音频信号再现声音。这终止了解码处理。以这种方式，扬声器系统52再现每个对象的声音。

以上述方式，解码装置51对编码音频数据和编码元数据进行解码，并且对通过解码而获得的音频信号和元数据进行渲染以生成针对每个扬声器的音频信号。

在进行渲染时，解码装置51获得每个对象的音频信号的每个帧的多个元数据。因此可以缩短将使用插值处理来计算其VBAP增益的样本进行排列的区间。这不仅提供了更高质量的声音，而且还允许实时地进行解码和渲染。因为一些帧具有包括在编码元数据中的附加元数据，所以可以实现对独立帧的解码和渲染以及随机访问。此外，在不包括附加元数据的帧的情况下，可以切换对VBAP增益的插值处理以便也允许对独立帧的解码和渲染以及随机访问。

上述的一系列处理可以通过硬件或软件来执行。在要通过软件执行这些处理的情况下，构成软件的程序被安装到适当的计算机中。计算机的变型包括预先在其专用硬件中安装软件的计算机以及能够基于其中安装的程序执行不同功能的通用个人计算机或类似设备。

图6是描绘能够使用程序进行上述一系列处理的计算机的硬件的典型配置的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。

总线504还与输入/输出接口505连接。输入/输出接口505与输入部506、输出部507、记录部508、通信部509和驱动器510连接。

输入部506例如由键盘、鼠标、麦克风和成像元件组成。输出部507例如由显示器和扬声器形成。记录部508通常由硬盘和非易失性存储器构成。通信部509例如由网络接口构成。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。

在如上所述配置的计算机中，CPU 501通过执行例如经由输入/输出接口505和总线504从记录部508加载到RAM 503中的程序来进行上面说明的一系列处理。

由计算机(即CPU 501)执行的程序在被提供时可以记录在可移动记录介质511上，可移动记录介质511通常构成软件包。此外，程序可以通过诸如局域网、因特网或数字卫星服务的有线或无线传输介质来提供。

在计算机中，程序可以在经由输入/输出接口505从置于驱动器510中的可移除记录介质511被读取之后被安装到记录部508中。替代地，程序可以经由有线或无线传输介质被通信部509接收，并且被安装到记录部508中。作为另一替代方案，程序可以预先安装在ROM 502中或记录部508中。

计算机要执行的程序可以按时间顺序进行处理，即按照本描述中所描绘的顺序进行处理；并行地或以其他适当的时间方式(例如当那些程序根据需要被调用时)进行处理。

本技术的实施方式不限于上面讨论的那些实施方式。在本技术的范围和精神内，可以以各种方式修改、改变或改进实施方式。

例如，本技术可以以云计算配置来进行，在云计算配置中每个功能由多个装置通过网络共享和共同管理。

此外，上面结合流程图说明的每个步骤可以由单个装置进行或由多个装置以共享方式进行。

此外，如果单个步骤包括多个处理，则包括在单个步骤中的这些处理可以由单个装置进行或由多个装置以共享方式进行。

本技术还可以优选地按如下配置：

(1)一种解码装置，包括：

获取部，其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据；

解码部，其被配置成对所述编码音频数据进行解码；以及

渲染部，其被配置成基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。

(2)根据上述段(1)所述的解码装置，其中，所述元数据包括指示所述音频对象的位置的位置信息。

(3)根据上述段(1)或(2)所述的解码装置，其中，所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。

(4)根据上述段(3)所述的解码装置，其中，所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。

(5)根据上述段(3)所述的解码装置，其中，所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。

(6)根据上述段(3)所述的解码装置，其中，所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。

(7)根据上述段(1)至(6)中任一项所述的解码装置，其中，所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据而计算的。

(8)一种解码方法，包括以下步骤：

获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据；

对所述编码音频数据进行解码；以及

基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。

(9)一种程序，其用于使计算机进行包括以下步骤的处理：

对所述编码音频数据进行解码；以及

(10)一种编码装置，包括：

编码部，其被配置成对音频对象的预定时间间隔的帧中的音频信号进行编码；以及

生成部，其被配置成生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。

(11)根据上述段(10)所述的编码装置，其中，所述元数据包括指示所述音频对象的位置的位置信息。

(12)根据上述段(10)或(11)所述的编码装置，其中，所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。

(13)根据上述段(12)所述的编码装置，其中，所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。

(14)根据上述段(12)所述的编码装置，其中，所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。

(15)根据上述段(12)所述的编码装置，其中，所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。

(16)根据上述段(10)至(15)中任一项所述的编码装置，其中，所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据而计算的。

(17)根据上述段(10)至(16)中任一项所述的编码装置，还包括：

插值处理部，其被配置成对元数据进行插值处理。

(18)一种编码方法，包括以下步骤：

对音频对象的预定时间间隔的帧中的音频信号进行编码；以及

生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。

(19)一种程序，其用于使计算机进行包括以下步骤的处理：

[附图标记列表]

11编码装置、22音频信号编码部、24插值处理部、25相关信息获取部、26元数据编码部、27多路复用部、28输出部、51解码装置、62解多路复用部、63音频信号解码部、64元数据解码部、65增益计算部、66音频信号生成部、71附加元数据标志读取部分、72切换索引读取部分、73插值处理部分

Claims

1.一种解码装置，包括：

解码部，其被配置成对所述编码音频数据进行解码；以及

渲染部，其被配置成基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染，

其中，所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。

2.根据权利要求1所述的解码装置，其中，所述元数据包括指示所述音频对象的位置的位置信息。

3.根据权利要求1所述的解码装置，其中，所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。

4.根据权利要求1所述的解码装置，其中，所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。

5.根据权利要求1所述的解码装置，其中，所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。

6.根据权利要求1所述的解码装置，其中，所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据而计算的。

7.一种解码方法，包括以下步骤：

对所述编码音频数据进行解码；以及

基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染，

8.一种记录有程序的计算机可读记录介质，所述程序用于使计算机进行包括以下步骤的处理：

对所述编码音频数据进行解码；以及

9.一种编码装置，包括：

生成部，其被配置成生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流，

10.根据权利要求9所述的编码装置，其中，所述元数据包括指示所述音频对象的位置的位置信息。

11.根据权利要求9所述的编码装置，其中，所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。

12.根据权利要求9所述的编码装置，其中，所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。

13.根据权利要求9所述的编码装置，其中，所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。

14.根据权利要求9所述的编码装置，其中，所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据，所述增益是基于元数据而计算的。

15.根据权利要求9所述的编码装置，还包括：

插值处理部，其被配置成对元数据进行插值处理。

16.一种编码方法，包括以下步骤：

生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流，

17.一种记录有程序的计算机可读记录介质，所述程序用于使计算机进行包括以下步骤的处理：