CN106663435A

CN106663435A - 编码装置和方法、解码装置和方法、以及程序

Info

Publication number: CN106663435A
Application number: CN201580046902.1A
Authority: CN
Inventors: 知念彻; 畠中光行; 辻实; 本间弘幸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-09-08
Filing date: 2015-08-27
Publication date: 2017-05-10
Also published as: US20180374490A1; JPWO2016039150A1; US20170309278A1; RU2017106641A3; EP3196877A4; EP3196877A1; US10109285B2; JP6798312B2; RU2017106641A; WO2016039150A1; US10446160B2

Abstract

本技术涉及一种使得能够减少用于解码的计算量的编码装置和方法、解码装置和方法、以及程序。分离单元将提供的比特流分离为包括对话源的通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。对话信息解码单元对对话信息的编码数据进行解码。当通过解码获取的对话信息被呈现给观看者时，观看者从对话源和一些附加对话源中选择一个源。附加对话源解码单元仅对观看者选择的附加对话源的编码数据进行解码。附加对话选择单元响应于来自观看者的选择指令而输出观看者从附加对话源或对话源的音频信号中选择的音频信号。本技术适用于编码装置和解码装置。

Description

编码装置和方法、解码装置和方法、以及程序

技术领域

本技术涉及一种编码装置和方法、解码装置和方法、以及程序，具体地，涉及一种能够减少用于解码音频信号的计算量的编码装置和方法、解码装置和方法、以及程序。

背景技术

作为用于对音频信号进行编码的方法，在国际标准(如运动图像专家组(MPEG)-2高级音频编码(AAC)标准、MPEG-4AAC标准或MPEG-D USAC标准)中，已知多通道编码(例如，参见非专利文献1和非专利文献2)。

引用列表

非专利文献

非专利文献1：国际标准ISO/IEC 14496-3第四版2009-09-01信息技术——视听对象的编码——第3部分：音频

非专利文献2：国际标准ISO/IEC 23003-3第一版2012-04-01信息技术——视听对象的编码——第3部分：联合语音和音频编码

发明内容

本发明要解决的问题

顺便提及，需要使用更多音频通道的编码技术，以执行比常规5.1通道环绕再现更生动的再现并且传输多个语音(对话)。

例如，假设对22个通道的音频信号以及用英语、法语、德语等的多个对话源的音频信号进行编码和传输以执行解码。

在这种情况下，通过编码获取的编码数据由22个通道源的编码数据的比特流和多个对话源的编码数据的比特流构成，并且比特流被组合以在编码数据的一个比特流中进行传输。

此外，在解码侧根据编码数据的比特流对22个通道源的编码数据和多个对话源的编码数据进行解码。从而，获取22个通道源的解码数据和多个对话源的解码数据。

然后，从解码侧的多个对话源的解码数据中仅选择期望的对话源的解码数据，并且用所选择的期望的对话源的解码数据来替换22个通道源中的对话通道源的解码数据。

另一方面，编码数据在一个比特流中进行传输，因此，尽管在解码侧最终只需要期望的对话源，但是需要对对话源的所有编码数据都进行解码，并且用于对最终不再现的对话源进行解码的处理导致浪费。

在诸如当前的AAC或USAC的音频编解码器中需要对所有通道和所有对话进行解码，因此难以减少用于解码的计算量。

本技术是根据上述情况而做出的，并且旨在减少用于解码的计算量。

问题的解决方案

本技术的第一方面的编码装置包括：通道源编码单元，其用于对包括对话源的多个通道源的音频信号进行编码以生成编码数据；附加对话源编码单元，其用于对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据；以及复用器，其用于对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。

附加对话源的编码数据和对话信息可以存储在通过复用获取的比特流的用户数据区中。

用户数据区可以假定为在MPEG AAC(运动图像专家组-高级音频编码)或MPEG-DUSAC(联合语音和音频编码)中定义的DSE(数据流元素)。

对话信息可以包括关于对话源的信息。

对话信息可以包括指示附加对话源的类型的信息和指示对话源的类型的信息。

对话信息可以包括指示多通道配置中的多个通道源的音频信号的通道中的对话源的通道的信息。

对话信息可以包括用于对附加对话源的音频信号进行增益校正的增益信息。

对话信息可以包括用于根据多个附加对话源对多个附加对话源的音频信号进行增益校正的校正增益信息。

本技术的第一方面的编码方法或程序包括以下步骤：对包括对话源的多个通道源的音频信号进行编码以生成编码数据；对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据；以及对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。

根据本技术的第一方面，对包括对话源的多个通道源的音频信号进行编码以生成编码数据，对与对话源不同的附加对话源的音频信号进行编码以生成编码数据，以及对包括关于附加对话源的信息的对话信息、多个通道源的编码数据和附加对话源的编码数据进行复用。

本技术的第二方面的解码装置包括：分离单元，其用于将编码比特流分离为包括对话源的多个通道源的编码数据、与对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息；以及附加对话源解码单元，其用于对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。

解码装置还可以设置有通道源解码单元，该通道源解码单元用于对多个通道源的编码数据进行解码。

解码装置还可以设置有对话选择单元，该对话选择单元用于用通过对所选择的附加对话源的编码数据进行解码而获取的音频信号来替换通过对对话源的编码数据进行解码而获取的音频信号并输出。

附加对话源解码单元可以对响应于对话信息的呈现而选择的附加对话源的编码数据进行解码。

本技术的第二方面的解码方法或程序包括以下步骤：将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息；以及对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。

根据本技术的第二方面，将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于附加对话源的信息的对话信息，并且对从一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。

本发明的效果

根据本技术的第一方面和第二方面，可以减少用于解码的计算量。

顺便提及，本文中描述的效果不必受限制，并且可以获得本公开内容中描述的任何效果。

附图说明

图1是用于说明用于22个通道源的再现系统的图。

图2是示出了编码装置的示例性配置的图。

图3是示出了对话信息的示例性比特流语法的图。

图4是示出了附加对话源的编码数据的示例性比特流语法的图。

图5是用于说明编码处理的流程图。

图6是示出了解码装置的示例性配置的图。

图7是用于说明解码处理的流程图。

图8是示出了计算机的示例性配置的图。

具体实施方式

下面将参照附图来描述应用本技术的示例性实施方式。

<第一示例性实施方式>

<本技术的概述>

本技术涉及当多个通道源的编码数据的比特流和多个对话源的编码数据的比特流被组合以在编码数据的一个比特流中进行传输时传输添加有对话信息的比特流。

因此，可以仅对要被再现为对话通道的对话源进行解码，从而减少了用于解码的计算量。

此时，附加对话源的数量和关于附加对话源的信息被呈现给解码侧的观看者，并且从观看者接收关于是否用观看者选择的对话源替换对话通道源的指令，从而仅对要被再现为对话通道的对话源进行解码。

具体地，根据本技术，附加对话源的数量、关于附加对话源的信息和对话通道的位置以及附加对话源的增益在编码侧被编码为对话信息。然后，对话信息的编码数据被复用在附加对话源的编码数据和22个通道源的编码数据上，使得所得的比特流被输出。

此外，在解码侧分离对话信息的编码数据、附加对话源的编码数据和22个通道源的编码数据。此外，附加对话源的数量或关于附加对话源的信息被呈现给观看者，并且由观看者做出关于是否用该观看者选择的对话源替换对话通道源的指令。

当观看者做出这样的指令时，只对要被再现为对话通道的对话源进行解码，并且响应于观看者的指令在解码侧替换对话源，从而再现22个通道源。

<用于22个通道源的再现系统>

下面将描述应用本技术的更具体的示例性实施方式。另外，将在假设要再现的音频信号是多通道配置中的22个通道的信号的情况下进行描述，但是要再现的音频信号可以是任何通道的信号。

图1是示出了能够再现多通道配置中的22个通道的解码音频信号的、用于22个通道源的再现系统的图。在该示例中，对内容的视频和附于视频的22个通道的音频信号进行再现。

在图1中，用于在其上显示视频的屏幕SC11设置在观看者US11的前方，并且九个扬声器SP1至SP9布置在前方。

也就是说，扬声器SP1布置在相对于观看者US11的前方的中间层的中心，并且扬声器SP2和扬声器SP3分别布置在扬声器SP1的左侧和右侧。此外，扬声器SP4布置在图中的中间层上方的上层的中心，并且扬声器SP5和扬声器SP6分别布置在扬声器SP4的左侧和右侧。

类似地，扬声器SP7布置在图中的中间层下方的下层的中心，并且扬声器SP8和扬声器SP9分别布置在扬声器SP7的左侧和右侧。此外，扬声器SP10布置在图中的观看者US11的上方或者在天花板上。

此外，六个扬声器SP11至SP16布置在相对于观看者US11位于图中的左边的左侧。也就是说，扬声器SP11和扬声器SP12布置在左侧的中间层，扬声器SP13和扬声器SP14布置在左侧的上层，并且扬声器SP15和扬声器SP16布置在左侧的下层。

类似地，六个扬声器SP17至SP22布置在相对于观看者US11位于图中的右边的右侧。也就是说，扬声器SP17和扬声器SP18布置在右侧的中间层，扬声器SP19和扬声器SP20布置在右侧的上层，并且扬声器SP21和扬声器SP22布置在右侧的下层。

在具有22个扬声器SP1至SP22和解码装置(未示出)的用于22个通道源的再现系统中输入通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。

这里将描述通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。

通道源的编码数据是通过对与22个扬声器SP1至SP22相对应的多通道配置中的每个通道的音频信号进行编码而获取的数据。由每个通道的音频信号再现的语音在下面也将被称为通道源。

此外，作为对话语音的对话源包括在与各个通道相对应的通道源中。将在假设一个对话源被包括在通道源中的情况下进行描述，但是可以采用任意数量的对话源。此外，用于再现对话源的音频信号的通道在下面也将被称为对话通道。

附加对话源的编码数据是通过对作为添加对话语音的附加对话源的音频信号进行编码而获取的数据，添加对话语音是要替换对话源的候选。在用于22个通道源的再现系统中，用当再现通道源时要再现的附加对话源替换包括在通道源中的对话源。

对话信息的编码数据是通过对包括关于对话源或附加对话源的信息的对话信息进行编码而获取的数据。

当将包括通道源的编码数据、附加对话源的编码数据和对话信息的编码数据的比特流提供至用于22个通道源的再现系统时，根据需要对编码数据进行解码并且再现通道源。

例如，首先，通过解码获取的对话信息被呈现给观看者US11。观看者US11然后根据需要指示对对话源进行替换。也就是说，从对话源和一个或更多个附加对话源中选择要再现的对话源。

当在这里由观看者US11选择对话源时，例如，仅对包括该对话源的通道源的编码数据进行解码。然后，通过解码获取的各个通道源的音频信号或者各个通道的音频信号被提供至与通道相对应的扬声器，使得通道源被再现。

此时，扬声器SP1至SP22中的一个用作用于再现对话源的扬声器。在该示例中，对话源在观看者US11前方的中间层的中心处的扬声器SP1中再现。

顺便提及，可以在编码侧指定用于再现对话源的任何扬声器，但是将在假设扬声器SP1作为用于再现对话源的扬声器的情况下进行描述。

另一方面，当选择附加对话源作为要再现的对话源时，对通道源的编码数据进行解码，并且还对所选择的附加对话源的编码数据进行解码。然后，用通过解码获取的所选择的附加对话源的音频信号替换通过解码获取的通道源的音频信号中的对话源的音频信号，使得通道源被再现。

因此，在这种情况下，在扬声器SP1中再现所选择的附加对话源，并且在其中再现与剩余的扬声器SP2至SP22相对应的通道源。此外，在这种情况下，不对其他未选择的附加对话源的编码数据进行解码。

另外，本文将在假设通道源中要替换的源是对话源或对话语音的情况下进行描述，但是可以替换任何其它源(如对象源)。

<编码装置的示例性配置>

随后，将描述用于在上述用于22个通道源的再现系统中生成比特流输入的编码装置以及构成用于22个通道源的再现系统并涉及对从编码装置输出的比特流进行解码的解码装置。

首先将描述编码装置。图2是示出了应用本技术的编码装置的一个示例性实施方式的示例性配置的图。

图2的编码装置11具有通道源编码单元21、附加对话源编码单元22、对话信息编码单元23和复用器24。

通道源编码单元21对构成22个通道的每个通道源的所提供的音频信号进行编码，并且将所得到的编码数据提供至复用器24。附加对话源编码单元22对所提供的附加对话源的音频信号进行编码，并且将所得到的编码数据提供至复用器24。

对话信息编码单元23对所提供的对话信息进行编码，并且将所得到的编码数据提供至复用器24。复用器24对从通道源编码单元21、附加对话源编码单元22和对话信息编码单元23提供的编码数据进行复用以生成比特流并输出比特流。

在编码装置11中，按照例如AAC(MPEG AAC)标准或USAC(MPEG-D USAC)标准对通道源、附加对话源和对话信息进行编码。

<对话信息和附加对话源>

顺便提及，从复用器24输出的比特流是符合例如AAC标准或USAC标准的编码比特流。例如，在比特流中，对话信息的编码数据布置在通道源的编码数据之后，并且每个附加对话源的编码数据进一步布置在对话信息的编码数据之后。

此外，对话信息的编码数据存储在比特流的用户数据区中，该用户数据区能够由用户自由地限定，并且被称为在例如AAC标准或USAC标准中定义的比特流数据流元素(DSE)。类似地，在DSE将对话信息的编码数据存储在其中之后，还将每个附加对话源的编码数据存储在与附加对话源一样多的DSE中(根据需要，其在下面将被表示为DSE())。也就是说，一个附加对话源的编码数据存储在一个DSE中。

这里将描述对话信息的编码数据和附加对话源的编码数据的比特流语法的具体示例。

图3是示出了对话信息的编码数据的比特流语法的图。

在该示例中，作为指示编码对话信息的存在的同步码的dialogue_info_sync被布置在DSE的头部处作为对话信息的编码数据。

此外，作为关于包括在通道源中的对话源的信息(其将被称为主对话信息)的main_dialogue_info布置在同步码dialogue_info_sync之后。例如，主对话信息main_dialogue_info被假定为指示对话源的类型(如日语主声音(main voice)或叙述声音(narration voice))的信息。

dialogue_src_index是指示包括在通道源中的对话源的音频信号的通道或再现对话源的扬声器位置的对话位置信息。因此，对话源或附加对话源由扬声器SP1至SP22中的由对话位置信息dialogue_src_index指定的扬声器来再现。

dialogue_gain指示对话替换时附加对话源的增益值或者当附加对话源被再现时用于进行增益校正的增益信息。num_additional_dialogue是指示附加对话源的数量的附加对话数量信息。

此外，与由附加对话数量信息num_additional_dialogue指示的一样多的additional_dialogue_info[i]和additional_dialogue_gain[i]布置在附加对话数量信息num_additional_dialogue之后。

additional_dialogue_info[i]是关于第i个附加对话源的信息(其将被称为附加对话信息)。

像主对话信息一样，附加对话信息additional_dialogue_info[i]被假定为指示附加对话源的类型(如法语辅声音、用于内容说明的声音和慢速讲话叙述声音)的信息。

additional_dialogue_gain[i]指示第i个附加对话源的校正增益值。校正增益值additional_dialogue_gain[i]是用于校正附加对话源中的音量变化的增益信息。

如上所述，对话信息至少包括主对话信息、对话位置信息、附加对话源的增益值、附加对话数量信息、附加对话信息和附加对话源的校正增益值。

此外，例如，每个附加对话源的编码数据的比特流语法如图4所示。

在该示例中，指示附加对话源的编码音频信号的存在的同步码additional_dialogue_data_sync布置在DSE的头部处作为附加对话源的编码数据。

此外，布置在同步码additional_dialogue_data_sync之后的additional_dialogue_index指示用于标识存储在DSE中的附加对话源的音频信号(编码数据)的索引。此外，布置在索引之后的single_channel_element()指示按照AAC或USAC定义的单个通道的编码数据或附加对话源的编码音频信号。

<编码处理的描述>

下面将描述编码装置11的操作。

当提供有要编码的多通道配置的每个帧的音频信号时，编码装置11开始编码处理并且输出通过编码获取的比特流。下面将参照图5的流程图来描述编码装置11中的编码处理。

在步骤S11中，编码装置11确定是否存在一帧未编码数据。

在步骤S11中，当确定存在一帧编码数据时，在步骤S12中，通道源编码单元21对包括当前帧的对话通道的通道源的音频信号进行编码。也就是说，通道源编码单元21对构成22个通道的每个通道源的所提供的音频信号进行编码，并且将所得到的编码数据提供至复用器24。

在步骤S13中，对话信息编码单元23确定是否存在对话信息。例如，当从外部提供了当前帧的对话信息时，确定存在对话信息。

在步骤S13中，当确定不存在对话信息时，不执行步骤S14至步骤S26中的处理，并且处理进行至步骤S27。在这种情况下，不存在附加对话源，因此仅通道源的编码数据存储在比特流中。

相反，在步骤S13中，当确定存在对话信息时，处理进行至步骤S14。

在步骤S14中，对话信息编码单元23基于所提供的对话信息生成对话信息同步码dialogue_info_sync和主对话信息main_dialogue_info。

在步骤S15中，对话信息编码单元23基于对话信息生成对话位置信息dialogue_src_index。

在步骤S16中，对话信息编码单元23基于对话信息生成在对话替换期间的附加对话源的增益值dialogue_gain。

在步骤S17中，对话信息编码单元23基于对话信息生成指示附加对话源的数量的附加对话数量信息num_additional_dialogue。

在步骤S18中，对话信息编码单元23基于对话信息生成与附加对话数量信息num_additional_dialogue指示的数量一样多的附加对话源的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。也就是说，以i＝0至num_additional_dialogue-1生成附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。从而，获取每个附加对话源的编码的附加对话信息和校正增益值。另外，可以采用一个或更多个附加对话源。

在步骤S19中，对话信息编码单元23将在步骤S14至步骤S18中生成的数据存储在一个DSE()中。

也就是说，同步码dialogue_info_sync、主对话信息main_dialogue_info、对话位置信息dialogue_src_index、增益值dialogue_gain、附加对话数量信息num_additional_dialogue、附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]存储在DSE中。因此，根据例如图3所示的比特流语法来生成对话信息的编码数据。

对话信息编码单元23将这样获取的对话信息的编码数据提供至复用器24。

在步骤S20中，附加对话源编码单元22将指示当前附加对话源的索引i的值设置为i＝0。这里，由索引i指定的附加对话源指示第i个当前附加对话源。这里，附加对话源的数量为num_additional_dialogue，因此可以处理索引i＝0至num_additional_dialogue-1的附加对话源。

在步骤S21中，附加对话源编码单元22确定索引i的值是否是i<num_additional_dialogue。

也就是说，当i<num_additional_dialogue成立时，未对所有的附加对话源进行处理。在步骤S21中，当确定i<num_additional_dialogue成立时，处理进行至步骤S22。

在步骤S22中，附加对话源编码单元22生成附加对话源同步码additional_dialogue_data_sync。

在步骤S23中，附加对话源编码单元22生成索引i作为用于标识当前的附加对话源的索引additional_dialogue_index的值。也就是说，索引i的值被设置为索引additional_dialogue_index的值。

在步骤S24中，附加对话源编码单元22根据以AAC或USAC定义的single_channel_element()的比特流语法来生成第i个附加对话源的编码数据。也就是说，附加对话源编码单元22对从外部提供的第i个附加对话源的音频信号进行编码。

在步骤S25中，附加对话源编码单元22将在步骤S22至步骤S24的处理中生成的数据存储在一个DSE()中。

也就是说，同步码additional_dialogue_data_sync、索引additional_dialogue_index和附加对话源的编码音频信号存储在DSE中。因此，根据例如图4所示的比特流语法来生成附加对话源的编码数据。

在步骤S26中，附加对话源编码单元22使索引i的值递增1，然后处理返回至步骤S21，并且重复执行上述处理。

此外，在步骤S21中，当确定i<num_additional_dialogue不成立时，所有附加对话源都被编码，因此附加对话源编码单元22将通过编码获取的每个附加对话源的编码数据提供至复用器24，并且处理进行至步骤S27。

在步骤S21中，当确定i<num_additional_dialogue不成立时，或在步骤S13中，当确定不存在对话信息时，在步骤S27中，复用器24执行完成一个帧的处理。

也就是说，复用器24对从通道源编码单元21、附加对话源编码单元22和对话信息编码单元23提供的编码数据进行复用，以生成并输出一帧的比特流。

在步骤S27中，当输出了一帧的比特流时，处理返回至步骤S11，并且重复执行上述处理。然后，在步骤S11中，当确定不存在要编码的一帧数据时，编码处理结束。

如上所述，编码装置11不仅对通道源和附加对话源的音频信号进行编码，而且对包括关于通道源中的对话源和附加对话源的信息的对话信息进行编码，并且复用并输出编码数据。

以这种方式，对对话信息进行编码并且将其包括在比特流中进行传输的，因此，在解码侧可以仅对所需的附加对话源的编码数据进行解码，从而减少解码期间的计算量。

<解码装置的示例性配置>

下面将描述用于响应于从编码装置11输出的输入比特流而对包括在比特流中的编码数据进行解码的解码装置。例如，解码装置被配置为如图6所示。另外，与图1中的部分对应的部分在图6中用相同的附图标记来表示，因此根据需要将省略其描述。

图6所示的解码装置71具有分离单元81、通道源解码单元82、附加对话源解码单元83、对话信息解码单元84、呈现单元85、输入单元86、增益校正单元87、对话选择单元88、增益校正单元89和附加对话选择单元90。

分离单元81将输入比特流分离为通道源的编码数据、附加对话源的编码数据和对话信息的编码数据。分离单元81为通道源解码单元82提供通道源的编码数据，为附加对话源解码单元83提供附加对话源的编码数据，并且为对话信息解码单元84提供对话信息的编码数据。

通道源解码单元82对从分离单元81提供的每个通道源的编码数据进行解码，将所得到的对话通道的音频信号提供至附加对话选择单元90，并且将其他通道源的音频信号提供至与通道源对应的扬声器SP2至SP22。

附加对话源解码单元83仅对从分离单元81提供的附加对话源的编码数据中的、由从输入单元86提供的选择指令指示的附加对话源的编码数据进行解码，并将其提供至增益校正单元87。

对话信息解码单元84对从分离单元81提供的对话信息的编码数据进行解码，并且为呈现单元85提供所得到的对话信息。此外，对话信息解码单元84为增益校正单元89提供通过解码获取的对话信息的增益值dialogue_gain，并且为增益校正单元87提供对话信息的校正增益值additional_dialogue_gain[i]。

呈现单元84为观看者US11呈现从对话信息解码单元84提供的对话信息。输入单元86将指示响应于观看者US11的输入操作的信号或者由观看者US11选择的对话源或附加对话源的选择指令提供至附加对话源解码单元83、对话选择单元88和附加对话选择单元90。

增益校正单元87基于从对话信息解码单元84提供的校正增益值additional_dialogue_gain[i]对从附加对话源解码单元83提供的附加对话源的音频信号进行增益校正，并且将经增益校正的音频信号提供至对话选择单元88。更具体地，增益校正单元87具有与每个附加对话源对应的放大器，并且每个放大器使从附加对话源解码单元83提供的附加对话源的音频信号与对应于附加对话源的校正增益值相乘以输出。

对话选择单元88基于从输入单元86提供的选择指令来选择从增益校正单元87提供的附加对话源的音频信号中的一个音频信号，并将其提供至增益校正单元89。更特别地，对话选择单元88例如由开关构成，并且根据来自输入单元86的选择指令将开关的输出端子连接至增益校正单元87中的与附加对话源对应的放大器的输出端子中的一个输出端子。因而，仅由选择指令指示的附加对话源的音频信号从开关的输出端子输出至增益校正单元89。

增益校正单元89基于从对话信息解码单元84提供的增益值dialogue_gain对从对话选择单元88提供的附加对话源的音频信号进行增益校正，并将经增益校正的音频信号提供至附加对话选择单元90。附加对话选择单元90例如由开关构成，并且基于从输入单元86提供的选择指令来选择从通道源解码单元82提供的对话源的音频信号或者从增益校正单元89提供的附加对话源的音频信号，并将其提供至扬声器SP1。

另外，在本文中，基于以下假设进行描述：解码装置71具有分离单元81至附加对话选择单元90，但是可以仅分离单元81至对话信息解码单元84设置在解码装置71中，并且呈现单元85至附加对话选择单元90可以设置在解码装置71外部。

<解码处理的描述>

随后，将描述解码装置71的操作。

当提供有从编码装置11传输的比特流时，解码装置71开始解码处理并且再现通过解码获取的通道源。下面将参照图7的流程图来描述解码装置71中的解码处理。

在步骤S61中，分离单元81确定在所提供的比特流中是否存在一帧未处理的数据。

在步骤S61中，当确定存在一帧数据时，在步骤S62中，分离单元81确定对话信息是否包括在一帧的比特流中。

例如，当其中存储了同步码dialogue_info_sync的DSE()存在于构成比特流的DSE()中时，确定包括对话信息。

在步骤S62中，当确定不包括对话信息时，不存在对话信息，因此不执行步骤S63和步骤S64中的处理，并且处理进行至步骤S65。此时，分离单元81将通道源的编码数据从比特流中分离，并将其提供至通道源解码单元82。

相反，在步骤S62中，当确定包括对话信息时，处理进行至步骤S63。此时，分离单元81将通道源的编码数据从比特流中分离并将其提供至通道源解码单元82，并且将对话信息的编码数据从比特流中分离并将其提供至对话信息解码单元84。

在步骤S63中，对话信息解码单元84从由分离单元81提供的编码数据中获取主对话信息main_dialogue_info、对话位置信息dialogue_src_index、增益值dialogue_gain和附加对话数量信息num_additional_dialogue。此外，对话信息解码单元84将获取的增益值dialogue_gain提供至增益校正单元89。

在步骤S64中，对话信息解码单元84从由分离单元81提供的编码数据中获取与由附加对话数量信息num_additional_dialogue指示的数量一样多的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。也就是说，获取与索引i＝0至num_additional_dialogue-1一样多的附加对话信息additional_dialogue_info[i]和校正增益值additional_dialogue_gain[i]。

对话信息解码单元84为增益校正单元87提供获取的校正增益值additional_dialogue_gain[i]，并且处理进行至步骤S65。

通过上述步骤S63和步骤S64中的处理，例如根据图3所示的比特流语法来解码对话信息。

在步骤S62中，当确定不包括对话信息时，或者在步骤S64中，当获取了附加对话信息和校正增益值时，执行步骤S65中的处理。

在步骤S65中，通道源解码单元82对包括对话通道的通道源的每个通道进行解码。也就是说，通道源解码单元82对从分离单元81提供的通道源的编码数据进行解码，并输出所得到的每个通道源的音频信号。此时，对话源或对话通道的音频信号被提供至附加对话选择单元90，并且除了对话源以外的通道源或其他通道的音频信号被提供至与通道源对应的扬声器。

在步骤S66中，对话信息解码单元84确定是否存在对话信息。例如，当比特流中存在其中存储了同步码dialogue_info_sync的DSE()时，或者当在步骤S63和步骤S64中对对话信息进行解码时，确定存在对话信息。

在步骤S66中，当确定不存在对话信息时，不执行步骤S67至步骤S69中的处理，并且处理进行至步骤S70。

相反，在步骤S66中，当确定存在对话信息时，对话信息解码单元84为呈现单元85提供通过解码获取的对话信息，并且处理进行至步骤S67。

在步骤S67中，呈现单元85为观看者US11呈现从对话信息解码单元84提供的对话信息。

例如，至少呈现对话信息中的主对话信息、附加对话数量信息和附加对话信息。观看者US11确认所呈现的对话信息，并且从对话源和一些附加对话源中选择要再现的一个对话。观看者US11然后根据他/她的选择来操作输入单元86，并且做出对话选择指令。

在步骤S68中，输入单元86获取观看者US11的对话选择指令。输入单元86然后将取决于观看者US11的操作的选择指令提供至附加对话源解码单元83、对话选择单元88和附加对话选择单元90。

在步骤S69中，附加对话源解码单元83、对话选择单元88和附加对话选择单元90基于从输入单元86提供的选择指令来确定观看者US11选择的对话是否是包括在通道源中的对话通道的对话源的对话。

在步骤S69中，当确定对话是包括在通道源中的对话通道的对话源的对话时，或者当没有做出切换至附加对话源的指令时，处理进行至步骤S70。此时，附加对话源解码单元83不对附加对话源进行解码。

在步骤S69中，当确定对话是包括在通道源中的对话通道的对话源的对话时，或者在步骤S66中，当不存在对话信息时，执行步骤S70中的处理。

在步骤S70中，解码装置71输出包括对话通道的对话源的通道源。

也就是说，附加对话选择单元90为扬声器SP1提供从通道源解码单元82提供的对话通道的音频信号，并且基于从输入单元86提供的选择指令来再现对话源。此外，扬声器SP2至扬声器SP22基于从通道源解码单元82提供的音频信号来再现每个通道源。

当以这种方式再现了一帧的通道源时，处理返回至步骤S61，并且重复执行上述处理。

相反，在步骤S69中，当确定对话不是包括在通道源中的对话通道的对话源的对话时，或者当确定对话是附加对话源的对话时，处理进行至步骤S71。

在步骤S71中，附加对话源解码单元83基于从输入单元86提供的选择指令从分离单元81获取其中存储了所选择的附加对话源的编码数据的DSE()，并且根据例如图4所示的附加对话源的编码数据的比特流语法对附加对话源进行解码。

通过该处理，仅选择指令所指示的附加对话源的编码数据被解码。附加对话源解码单元83为增益校正单元87提供通过解码获取的附加对话源的音频信号。

在步骤S72中，增益校正单元87使从附加对话源解码单元83提供的附加对话源的音频信号与从对话信息解码单元84提供的由选择指令指示的附加对话源的校正增益值additional_dialogue_gain[i]相乘，从而进行增益校正。

增益校正单元87为对话选择单元88提供附加对话源的经增益校正的音频信号。此外，对话选择单元88基于从输入单元86提供的选择指令来切换开关的连接目的地。从而，从增益校正单元87提供的由选择指令指示的附加对话源的音频信号被提供至增益校正单元89。

在步骤S73中，增益校正单元89使从对话选择单元88提供的附加对话源的音频信号与从对话信息解码单元84提供的增益值dialogue_gain相乘以进行增益校正，并且将所得到的值提供至附加对话选择单元90。

在步骤S74中，附加对话选择单元90基于从输入单元86提供的选择指令，用从增益校正单元89提供的附加对话源的音频信号来替换从通道源解码单元82提供的对话源或对话通道的音频信号并输出。

在这种情况下，选择指令指示所选择的附加对话源，因而，附加对话选择单元90为扬声器SP1提供从增益校正单元89提供的附加对话源的音频信号，以再现附加对话源。此外，扬声器SP2至扬声器SP22基于从通道源解码单元82提供的音频信号来再现每个通道源。

从而，在扬声器SP2至扬声器SP22中再现通道源，并且在扬声器SP1中取代作为通道源的对话源而再现附加对话源。

此外，在步骤S70或步骤S74中再现通道源之后，在步骤S61中，当确定不存在一帧数据时，解码处理结束。

如上所述，解码装置71从比特流获取对话信息的编码数据并且对该对话信息的编码数据进行解码，呈现对话信息，并且响应于观看者US11的选择指令对通道源和所需的附加对话源进行解码。

以这种方式对对话信息进行解码，使得可以呈现对话信息，并且响应于根据对话信息的呈现而做出的选择指令仅对所需的附加对话源进行解码，从而减少用于解码的计算量。

另外，基于以下假设进行了描述：要替换的通道或通过对话通道的音频信号再现对话源的扬声器位置是扬声器SP1。然而，对话信息包括对话位置信息dialogue_src_index，因此可以每帧指定作为用于再现对话源的扬声器的位置的任何扬声器位置。

在这种情况下，基于对话位置信息dialogue_src_index指定要替换的扬声器位置或要替换的通道源。然后，响应于观看者US11的选择指令，针对指定的通道源做出关于是输出通道源的音频信号还是用选择的附加源的音频信号来替换通道源的音频信号的选择。

顺便提及，上述一系列处理可以在硬件或软件中执行。当在软件中执行一系列处理时，在计算机中安装构成该软件的程序。在本文中，计算机可以是并入专用硬件中的计算机、能够通过在其中安装各种程序来执行各种功能的通用个人计算机等。

图8是示出了用于通过程序执行一系列处理的计算机的示例性硬件配置的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503经由总线504相互连接。

总线504还与I/O接口505连接。I/O接口505与输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接。

输入单元506由键盘、鼠标、麦克风、成像装置等构成。输出单元507由显示器、扬声器等构成。记录单元508由硬盘、非易失性存储器等构成。通信单元509由网络接口等构成。驱动器510驱动可移除介质511，(如磁盘、光盘、磁光盘或半导体存储器)。

在这样配置的计算机中，CPU 501经由例如I/O接口505和总线504将记录在记录单元508中的程序加载至RAM 503中并且执行该程序，使得执行上述一系列处理。

例如，由计算机(CPU 501)执行的程序可以记录在可移除介质511中作为封装介质来提供。此外，可以经由有线或无线传输介质(如局域网、因特网或数字卫星广播)来提供程序。

在计算机中，可移除介质511安装在驱动器510上，使得程序可以经由I/O接口505安装在记录单元508中。此外，可以由通信单元509经由有线或无线传输介质接收程序并将该程序安装在记录单元508中。另外，程序可以预先安装在ROM 502或记录单元508中。

另外，由计算机执行的程序可以使得按照说明书中描述的顺序以时间序列执行使得一系列处理，或者使得并行执行或者在必要的定时(如在调用时)执行一系列处理。

此外，本技术的实施方式不限于上述实施方式，并且可以在不脱离本技术的精神的情况下进行各种改变。

例如，本技术可以采用其中经由网络在多个装置中分配和处理一个功能的云计算配置。

此外，流程图中描述的每个步骤可以在一个装置中执行，而且可以在多个装置中分配和执行。

此外，当一个步骤中包括多种处理时，该步骤中包括的多种处理可以在一个装置中执行，而且可以在多个装置中分配和执行。

此外，本技术可以采用以下配置。

[1]一种编码装置，包括：

通道源编码单元，其用于对包括对话源的多个通道源的音频信号进行编码以生成编码数据；

附加对话源编码单元，其用于对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据；以及

复用器，其用于对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。

[2]根据[1]所述的编码装置，

其中，所述附加对话源的编码数据和所述对话信息存储在通过所述复用获取的比特流的用户数据区中。

[3]根据[2]所述的编码装置，

其中，所述用户数据区是在运动图像专家组-高级音频编码MPEG AAC或MPEG-D联合语音和音频编码USAC中定义的数据流元素DSE。

[4]根据[1]至[3]中任一项所述的编码装置，

其中，所述对话信息包括关于所述对话源的信息。

[5]根据[4]所述的编码装置，

其中，所述对话信息包括指示所述附加对话源的类型的信息和指示所述对话源的类型的信息。

[6]根据[4]或[5]所述的编码装置，

其中，所述对话信息包括指示多通道配置中的所述多个通道源的音频信号的通道中的所述对话源的通道的信息。

[7]根据[1]至[6]中任一项所述的编码装置，

其中，所述对话信息包括用于对所述附加对话源的音频信号进行增益校正的增益信息。

[8]根据[1]至[7]中任一项所述的编码装置，

其中，所述对话信息包括用于根据多个所述附加对话源对所述多个附加对话源的音频信号进行增益校正的校正增益信息。

[9]一种编码方法，所述编码方法包括以下步骤：

对包括对话源的多个通道源的音频信号进行编码以生成编码数据；

对与所述对话源不同的附加对话源的音频信号进行编码以生成编码数据；以及

对包括关于所述附加对话源的信息的对话信息、所述多个通道源的编码数据和所述附加对话源的编码数据进行复用。

[10]一种程序，所述程序用于使计算机执行包括以下步骤的处理：

[11]一种解码装置，包括：

分离单元，其用于将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息；以及

附加对话源解码单元，其用于对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。

[12]根据[11]所述的解码装置，还包括：

通道源解码单元，其用于对所述多个通道源的编码数据进行解码。

[13]根据[11]或[12]所述的解码装置，还包括：

对话选择单元，其用于用通过对所选择的附加对话源的编码数据进行解码而获取的音频信号来替换通过对所述对话源的编码数据进行解码而获取的音频信号并输出。

[14]根据[11]至[13]中任一项所述的解码装置，

其中，所述附加对话源解码单元对响应于所述对话信息的呈现而选择的附加对话源的编码数据进行解码。

[15]一种解码方法，所述解码方法包括以下步骤：

将编码比特流分离为包括对话源的多个通道源的编码数据、与所述对话源不同的一个或更多个附加对话源的编码数据以及包括关于所述附加对话源的信息的对话信息；以及

对从所述一个或更多个附加对话源的编码数据中选择的附加对话源的编码数据进行解码。

[16]一种程序，所述程序用于使计算机执行包括以下步骤的处理：

附图标记列表

11 编码装置

21 通道源编码单元

22 附加对话源编码单元

23 对话信息编码单元

24 复用器

71 解码装置

81 分离单元

82 通道源解码单元

83 附加对话源解码单元

84 对话信息解码单元

85 呈现单元

86 输入单元

87 增益校正单元

88 对话选择单元

89 增益校正单元

90 附加对话选择单元

Claims

1.一种编码装置，包括：

2.根据权利要求1所述的编码装置，

3.根据权利要求2所述的编码装置，

其中，所述用户数据区是在运动图像专家组-高级音频编码MPEGAAC或MPEG-D联合语音和音频编码USAC中定义的数据流元素DSE。

4.根据权利要求1所述的编码装置，

其中，所述对话信息包括关于所述对话源的信息。

5.根据权利要求4所述的编码装置，

6.根据权利要求4所述的编码装置，

7.根据权利要求1所述的编码装置，

8.根据权利要求1所述的编码装置，

9.一种编码方法，所述编码方法包括以下步骤：

10.一种程序，所述程序用于使计算机执行包括以下步骤的处理：

11.一种解码装置，包括：

12.根据权利要求11所述的解码装置，还包括：

13.根据权利要求11所述的解码装置，还包括：

14.根据权利要求11所述的解码装置，

15.一种解码方法，所述解码方法包括以下步骤：

16.一种程序，所述程序用于使计算机执行包括以下步骤的处理：