CN106465028B

CN106465028B - 音频信号处理装置和方法、编码装置和方法以及程序

Info

Publication number: CN106465028B
Application number: CN201580028187.9A
Authority: CN
Inventors: 畠中光行; 知念徹; 辻实; 本间弘幸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-06
Filing date: 2015-05-22
Publication date: 2019-02-15
Anticipated expiration: 2035-05-22
Also published as: JPWO2015186535A1; CN106465028A; US20170194009A1; US10621994B2; JP6520937B2; KR20170017873A; WO2015186535A1; EP3154279A1; EP3154279A4

Abstract

本技术涉及音频信号处理装置和方法、编码装置和方法以及程序，从而可以获得更高质量的声音。选择单元，从提供的多声道音频信号中选择对话声音的声道的音频信号和缩混目标声道的音频信号。缩混单元对缩混目标声道的音频信号进行缩混。添加单元将对话声音的声道的音频信号添加到预定声道的音频信号，其是由缩混获得的一个或多个声道的音频信号。本技术可以应用于解码器。

Description

音频信号处理装置和方法、编码装置和方法以及程序

技术领域

本技术涉及音频信号处理装置和方法、编码装置和方法以及程序，并且更具体地涉及能够获得更高质量声音的音频信号处理装置和方法、编码装置和方法以及程序。

背景技术

通常，对于多声道数据的音频再现，当实际再现环境不同于或优于原来的内容要求的再现环境时，一般来说，采用执行缩混处理将信号转换为更少的声道中的音频信号来再现的方法(例如，参见非专利文献1)。

引用列表

非专利文献

非专利文献1：ISO/IEC 14496-3:2009/AMD 4:2013 Information technology-Coding of audio-visual objects-Part 3:Audio

发明内容

发明所要解决的问题

这种多声道数据有时包括与其它背景声音相比，重要并非常有意义的声道(例如主要由人类的声音组成的对话声音)，在缩混处理的缩混之后，并且对话声音的声道的信号分布在一些声道。进一步地，通过增益抑制校正来抑制在缩混处理中添加多个声道的信号引起的削波(clip)，每个声道的信号增益在添加前被变小了。

由于上述原因，在缩混处理之后的对话声音的声音图像定位变得不清楚，或者对话声音的声音再现音量降低了，并且这使得对话声音难以识别。

如上所述，根据上述的技术，当执行多声道数据的音频再现(特别是缩混处理)时，对话声音变得不清楚并且再现的声音的质量恶化。

有鉴于这种情况创作本技术，并且能够获得更高质量的声音。

问题的解决方案

根据本技术的第一方面的音频信号处理装置，包括：选择单元，被配置为基于与多声道音频信号的每个声道有关的信息从该多声道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号；缩混单元，被配置为将该待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号；以及添加单元，被配置为将该对话声音的声道的音频信号添加到通过缩混获得的该一个或多个声道的音频信号中的预定声道的音频信号。

添加单元可以用来将该对话声音的声道的音频信号添加到该预定声道，该预定声道是由添加目的地信息指定的声道，该添加目的地信息指示待添加该对话声音的声道的音频信号的目的地。

可以进一步包括增益校正单元，被配置为基于增益信息执行该对话声音的声道的音频信号的增益校正，该增益信息指示在向该预定声道的音频信号添加该对话声音的声道的音频信号时的增益，添加单元可以用来将由该增益校正单元校正了增益的音频信号添加到该预定声道的音频信号中。

音频信号处理装置可以进一步包括：提取单元，被配置为从比特流提取与每个声道有关的信息、该添加目的地信息以及该增益信息。

提取单元可以用来进一步从该比特流提取经编码的多声道音频信号，并且从而进一步包括解码单元，该解码单元被配置为将经编码的多声道音频信号解码并输出至该选择单元。

缩混单元可以用来对该待缩混的多个声道的音频信号执行多级缩混，并且添加单元可以用来将该对话声音的声道的音频信号添加到在该多级缩混中获得的该一个或多个声道的音频信号中的该预定声道的音频信号。

根据本技术的第一方面的音频信号处理方法或程序，包括以下步骤：基于与多声道音频信号的每个声道有关的信息从该多声道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号；将该待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号；并且将该对话声音的声道的音频信号添加到在缩混中获得的该一个或多个声道的音频信号中的预定声道的音频信号。

根据本技术的第一方面，基于与多声道音频信号的每个声道有关的信息从该多声道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号；将该待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号；并且将该对话声音的声道的音频信号添加到在缩混中获得的该一个或多个声道的音频信号中的预定声道的音频信号。

根据本技术的第二方面的编码装置，包括：编码单元，被配置为对多声道音频信号进行编码；生成单元，被配置为生成标识信息，该标识信息指示该多声道音频信号的每个声道是否是对话声音的声道；和封装单元，被配置为生成包含经编码的多声道音频信号和该标识信息的比特流。

当该多声道音频信号被缩混时，该生成单元进一步可以生成添加目的地信息，该添加目标信息表示通过缩混获得的一个或多个声道的音频信号中作为待添加该对话声音的声道的音频信号的目的地的音频信号的声道，并且该封装单元可以生成包括经编码的多声道音频信号、该标识信息以及该添加目的地信息的该比特流。

该生成单元可以进一步用来在向由该添加目的地信息表示的声道添加该对话声音的声道的音频信号时生成增益信息。该封装单元可以生成包括经编码的多声道音频信号、该标识信息、该添加目的地信息以及该增益信息的该比特流。

根据本技术的第二方面的编码方法或程序，包括以下步骤：

对多声道音频信号进行编码；

生成标识信息，该标识信息表示该多声道音频信号中的每个声道是否是对话声音的声道；并且

生成包括经编码的多声道音频信号和该标识信息的比特流。

根据本技术的第二方面，对多声道音频信号进行编码；生成标识信息，该标识信息表示该多声道音频信号中的每个声道是否是对话声音的声道；并且生成包括经编码的多声道音频信号和该标识信息的比特流。

发明的效果

根据本技术的第一方面和第二方面，可以获得更高质量的声音。

此处，这里所描述的效果不必是有限的，并且可以提供本说明中所描述的任何一个效果。

附图说明

[图1]是用于说明比特流的示意图。

[图2]是用于说明对话声道信息的示意图。

[图3]是用于说明每个声道的映射的示意图。

[图4]是用于说明增益因子的示意图。

[图5]是用于说明编码器的配置示例的示意图。

[图6]是用于说明对话声道信息的编码的示意图。

[图7]是用于说明编码处理的流程图。

[图8]是示出解码器的配置示例的示意图。

[图9]是示出缩混处理单元的配置示例的示意图。

[图10]是示出更具体的缩混处理单元的配置示例的示意图。

[图11]是用于说明解码处理的流程图。

[图12]是用于说明缩混处理的流程图。

[图13]是示出缩混处理单元的更具体的配置示例的示意图。

[图14]是示出计算机的配置示例的示意图。

具体实施方式

在下文中，将参考附图描述应用本技术的实施例。

<第一实施例>

<本技术的概要>

本技术有助于防止对话声音变得不清楚，并且通过输出包括多声道音频信号中的对话声音的声道的音频信号，从单独指定的声道中获得更高质量的声音，如从缩混处理的目标排除的。进一步地，根据本发明，通过在包括对话声音的多声道音频信号中识别多个对话声音的声道，可以选择性地再现对话声音。

此处，在这种情况下，该情况是从缩混处理的目标排除的声道是将作为示例被说明的对话声音的声道的情况；然而，并不局限于对话声音，并且相比背景声音，重要并且非常有意义的其它声音声道可以从缩混排除并且作缩混之后添加到预定声道。进一步地，在下面的情况中，该情况是多声道音频信号根据先进音频编码标准(AAC)编码；然而，在其它系统中，类似的处理可以在编码的情况中执行。

例如，当多声道音频信号根据AAC标准编码并传输时，每个声道的音频信号的逐帧编码和传输。

具体地，如图1所示，已编码音频信号和音频信号编码所需的信息存储在多个要素(比特流要素)中，并且包括这些要素的比特流被传输。

在该示例中，单个帧的比特流中，要素EL1至ELN的编号n从开始顺序设置，并且在最后具有标识符TERM，其表明帧中的信息的终点位置。

例如，设置在开始的要素EL1是称为数据流要素(DSE)的辅助数据区域，并且在DSE中，写入包括涉及音频信号缩混的信息、涉及对话声音的对话声道信息和类似的多个声道的信息。

在跟随要素EL1的要素EL2至ELn中，存储已编码音频信号。更具体地，存储单个声道音频信号的要素称为SCE，并且存储削减的2个声道的音频信号的要素称为CPE。

根据本技术，当对多声道音频信号缩混时，对话声音的声道的音频信号不包含在缩混的目标中。因此，根据本技术，生成对话声道信息并存储在DSE中，这样对话音声道可以在比特流接收侧很容易地指定。

例如，这样的对话声道信息的语法如图2中所示。

在图2中，“ext_diag_status”是表明在该ext_diag_status之后，是否具有涉及对话声音信息的标志。更具体地，当ext_diag_status的值是“1”时，具有涉及对话声音的信息，当ext_diag_status的值是“0”时，没有涉及对话声音的信息。当ext_diag_status的值是“0”时，在ext_diag_status之后设置“0000000”。

进一步地，“get_main_audio_chans()”是辅助函数，其用于获得包括在比特流中的一些音频声道，并且由使用该辅助函数的计算获得的各个声道的信息在get_main_audio_chans()后被存储。

此处，在使用get_main_audio_chans()的计算中，获得作为计算结果的不包括LFE声道的一些声道(即，一些主要音频声道)。这是因为，对话声道信息不包括涉及LFE声道的信息。

“init_data(chans)”是辅助函数，其用于为由音频信号重现侧中的自变量指定的各个声道“chans”的数量，初始化涉及对话声音的声道的各种参数，该音频信号重现侧是在比特流解码侧。更具体地，通过计算辅助函数，包括“diag_tag_idx[i]”、“num_of_dest_chans5[i]”、“diag_dest5[i][j-1]”、“diag_mix_gain5[i][j-1]”、“num_of_dest_chans2[i]”、“diag_dest2[i][j-1]”、“diag_mix_gain2[i][j-1]”、“num_of_dest_chans1[i]”和“diag_mix_gain1[i]”的总共九条信息的值设置为“0”。

“ceil(log(chans+1)/log(2))”是辅助函数，其作为输出，返回大于由自变量给定的分数值的最小整数值，并且用辅助函数执行计算来获得一些被要求来表达对话声音的声道的属性的比特，即，后面描述的diag_tag_idx[i]。

“diag_present_flag[i]”是表明由包括在比特流中的多个声道的指数i(此处，0≤i≤chans-1)指定的声道(即，声道编号i的声道)是否是对话声音的声道的标识信息。

更具体地，当diag_present_flag[i]的值是“1”时，这表明声道编号i的声道是对话声音的声道，并且，当diag_present_flag[i]的值是“0”时，这表明声道编号i的声道不是对话声音的声道。此处，在该示例中，具有与由get_main_audio_chans()获得的声道的数量一样多的diag_present_flag[i]；然而，可以使用传输对话声音的声道数量的信息和显示扬声器映射的标识信息的方法，在扬声器映射中与对话音声声道数量一样多的各个对话声音的声道被对应。

进一步地，关于使用音频声道的扬声器映射(即，哪个声道编号i被设置为对应哪个扬声器的映射)，例如，如图3所示的在每个编码模式中定义的映射。

在图3中，图中的左边部分示出编码模式，即，每个扬声器系统有多少个声道，而在图中的右边部分示出提供给对应编码模式的每个声道的声道数量。

此处，声道数量的映射和对应于图3所示的扬声器的声道不仅用于多存储在比特流中的声道音频信号，也用于接收侧的比特流中的缩混音频信号。换句话说，图3所示的映射示出声道编号i、由后面描述的diag_dest5[i][j-1]表明的声道编号或由后面描述的diag_dest2[i][j-1]表明的声道编号与对应于扬声器的声道之间的对应关系。

例如，在2声道(立体声)的编码模式中，声道编号0表示FL声道并且声道编号1表示FR声道。

进一步地，例如，在5.1声道的编码模式中，声道编号0、1、2、3和4分别代表FC声道、FL声道、FR声道、LS声道和RS声道。

因此，例如，当由get_main_audio_chans()获得的声道数量(即，存储在比特流中的音频信号声道数量)是2个声道，“声道编号i＝1”代表FR声道。在下文中，声道编号i的声道也简称为声道i。

回到图2的说明，对于本应是通过diag_present_flag[i]的对话声音的声道的声道i，在diag_present_flag[i]之后，存储“diag_tag_idx[i]”、“num_of_dest_chans5[i]”、“diag_dest5[i][j-1]”、“diag_mix_gain5[i][j-1]”、“num_of_dest_chans2[i]”、“diag_dest2[i][j-1]”、“diag_mix_gain2[i][j-1]”、“num_of_dest_chans1[i]”和“diag_mix_gain1[i]”的总共九条信息。

“diag_tag_idx[i]”是标识声道i的属性的信息。换句话说，这代表声道i的声音是多个对话声音中的哪个。

更具体地，例如，其代表属性，例如声道i是否是日语声音的声道或英语声音的声道。此处，对话声音的属性不限于语言，并且可以是任何事，例如标识执行者的信息或者标识对象的信息。根据本技术，由于每个对话声音的声道由diag_tag_idx[i]标识，例如，当再现音频信号时，可以实现更灵活的音频再现，例如再现具有特定属性的对话声音的声道的音频信号。

“num_of_dest_chans5[i]”表明在音频信号缩混为5.1声道(在下文中，也称为5.1ch)的情况下，音频i的音频信号被加入其中的缩混后的一些声道。

在缩混为5.1声道后，“diag_dest5[i][j-1]”存储表明对话声音的声道i的音频信号添加到其中的声道的声道信息。例如，基于图3所示的映射，当diag_dest5[i][j-1]是＝2时，发现缩混后的FR声道是其中添加了声道i的音频信号的声道。

“diag_mix_gain5[i][j-1]”存储表明增益因子的指数，当声道i的音频信号添加到由存储在diag_dest5[i][j-1]中的信息(声道数量)标识的(指定的)声道。

diag_dest5[i][j-1]和diag_mix_gain5[i][j-1]存储在与由num_of_dest_chans5[i]表明的一样多的对话声道信息中。此处，diag_dest5[i][j-1]和diag_mix_gain5[i][j-1]的变量j设置为从1到num_of_dest_chans5[i]的值。

例如，由diag_mix_gain5[i][j-1]的值定义的增益因子通过如图4所示地函数因素获得。换句话说，在图4中，图的左边说明diag_mix_gain5[i][j-1]的值和图的右边说明预先设置到diag_mix_gain5[i][j-1]的值的增益因子(增益值)。例如，当diag_mix_gain5[i][j-1]的值是“000”时，增益因子设置为“1.0”(0dB)。

回到图2的说明，当音频信号缩混为2声道(2ch)时，“num_of_dest_chans2[i]”表明缩混后的添加了声道i的音频信号的声道数量。

在将信号缩混为2ch后，“diag_dest2[i][j-1]”存储表明添加了对话声音的声道i的音频信号的声道的声道信息(声道数量)。进一步地，当声道i的音频信号添加到由存储在diag_dest2[i][j-1]中的信息标识的声道中时，“diag_mix_gain2[i][j-1]”存储表明增益因子的指数。此处，diag_mix_gain2[i][j-1]的值和增益因子之间的对应关系是如图4所示的关系。

进一步地，一对diag_dest2[i][j-1]和diag_mix_gain2[i][j-1]存储在对话声道信息中，与num_of_dest_chans2[i]中显示的数字一样多。此处，diag_dest2[i][j-1]和[i][j-1]diag_mix_gain2中的变量j设置为从1到num_of_dest_chans2[i]的值。

当音频信号缩混为单声道声道时(即1声道(1ch))，“num_of_dest_chans1[i]”表明添加声道i的音频信号的缩混后的声道数量。，当声道i的音频信号添加到缩混后的音频信号时“diag_mix_gain1[i]”存储表明增益因子的指数。此处，diag_mix_gain1[i]的值和增益因子之间的对应关系是如图4所示的关系。

<编码器的配置示例>

接下来，将说明应用本技术的编码器的实施方式。

图5是示出应用本技术的编码器的配置示例的示意图。

编码器11包括对话声道信息生成单元21、编码单元22、封装单元23和输出单元24。

对话声道信息生成单元21基于从外部和涉及对话声音的各种信息提供的多声道音频信号生成对话声道信息，并且向封装单元23提供对话声道信息。

编码单元22对从外部提供的多声道音频信号进行编码，并将编码的音频信号(在下文中，也称为编码数据)提供给封装单元23。进一步地，编码单元22包括时间到频率转换单元31，其对音频信号执行时间到频率的转换。

封装单元23通过对由对话声道信息生成单元21提供的对话声道信息和由编码单元22提供的编码数据进行封装来生成比特流，并将比特流提供给输出单元24。输出单元24将由封装单元23提供的比特流输出给解码器。

<编码处理的说明>

下面，说明编码器11的操作。

当多声道音频信号从外部提供时，编码器11对音频信号逐帧编码，并输出比特流。在这种情况下，例如，如图6所示，对于组成多声道的每个声道，生成diag_present_flag[i]作为每个帧的对话声音的声道的标识信息并对其进行解码。

在该示例中，FC、FL、FR、LS、RS、TpFL和TpFR分别代表组成7.1ch的FC声道、FL声道、FR声道、LS声道、RS声道、TpFL声道和TpFR声道，并且为各个声道生成标识信息。

在这种情况下，每个矩形代表每个帧的每个声道的标识信息并且这些矩形中的数值“1”或“0”表示标识信息的值。因此，在该示例中，可以看出，在FC声道和LS声道是对话声音的声道而其它声道是没有对话声音的声道。

编码器11为音频信号的每个帧生成包括每个声道的标识信息的对话声道信息，并输出包括对话声道信息和编码数据的比特流。

在下文中，将参考图7的流程图，说明编码器11编码音频信号并输出比特流的编码处理。此处，该编码处理对音频信号的每个帧执行。

在步骤S11中，基于从外部提供的多声道音频信号，对话声道信息生成单元21判断组成多声道的每个声道是否是音频信号声道，并基于判断结果生成标识信息。

例如，对话声道信息生成单元21从被提供作为预定声道的音频信号的脉冲编码调制(PCM)数据提取特征量，并基于特征量判断声道的音频信号是否是对话声音信号。然后，对话声道信息生成单元21基于判断结果生成标识信息。通过这种配置，获得如图2所示的diag_present_flag[i]作为标识信息。

此处，表明每个声道是否是对话声音的声道的信息可以从外部提供给对话声道信息生成单元21。

在步骤S12中，对话声道信息生成单元21基于涉及由外界提供的对话声音的信息和在步骤S11生成的标识信息生成对话音声道信息，并将对话道信息提供给封装单元23。换句话说，对话声道信息生成单元21生成diag_dest5[i][j-1]或diag_mix_gain5[i][j-1]，diag_dest5[i][j-1]是表明目标添加对话音声道的目标的信息，diag_mix_gain5[i][j-1]是表明当基于涉及由外界提供的对话声音的信息添加对话声音的声道时的增益的增益信息。然后，对话声道信息生成单元21通过编码这些信息和标识信息获得对话声道信息。以这种配置，例如，获得如图2所示的对话声道信息。

在步骤S13中，编码单元22对从外部提供的多声道音频信号编码。

更具体地，时间至频率转换单元31对音频信号执行修正离散余弦转换(MDCT)并将音频信号从时间信号转换为频率信号。

进一步地，编码单元22对从音频信号的MDCT获得的MDCT系数编码，并且获得比例因子、边信息和量子谱。然后，编码单元22将获得的比例因子、边信息和量子谱提供给封装单元23，作为通过对音频信号编码获得的编码数据。

在步骤S14中，封装单元23通过对从对话声道信息生成单元21提供的对话声道信息和从编码单元22提供的编码数据封装，生成比特流。

换句话说，对于要处理的帧，封装单元23生成由SCE和CPE构成的存储编码数据的比特流和包括对话声道信息等的DSE，并将比特流提供给输出单元24。

在步骤S15中，输出单元24将从封装单元23提供的比特流输出到解码，并且编码处理结束。然后，在那之后，执行随后的帧的编码。

如上所述，当对音频信号进行编码时，编码器11在音频信号的基础上生成标识信息，然后生成包括标识信息的对话声道信息，并在比特流中存储对话声道信息。有了该配置，比特流的接收侧可以指定哪个声道的音频信号是对话声音的音频信号。因此，对话声音的音频信号可以从缩混处理排除并添加到缩混后的信号上，从而可以获得高质量的声音。

<解码器的配置示例>

接下来，将说明接收从编码器11输出的比特流并解码音频信号的解码器。

图8是示出应用本技术的解码器的配置示例的示意图。

图8的解码器51是由获取单元61、提取单元62、解码单元63、缩混处理单元64和输出单元65。

获取单元61从编码器11获取比特流，并向提取单元62提供比特流。提取单元62从获取单元61提供的比特流提取对话声道信息，并将对话声道信息提供给缩混处理单元64，并且还从比特流提取编码数据，并将编码数据提供给解码单元63。

解码单元63对由提取单元62提供的编码数据进行解码。进一步地，解码单元63包括频率到时间转换单元71。基于由解码单元63对编码数据进行解码获得的MDCT系数，频率到时间转换单元71执行修正离散余弦逆转换(IMDCT)。解码单元63向缩混处理单元64提供PCM数据，其是通过IMDCT获得的音频信号。

缩混处理单元64基于提取单元62提供的对话声道信息，从解码单元63提供的音频信号中选择将被缩混的音频信号和将不被缩混的音频信号。进一步地，缩混处理单元64对选择的音频信号执行缩混处理。

进一步地，缩混处理单元64通过向对话声道信息在缩混处理中获得的预定数量的声道的音频信号中指定的声道的音频信号添加从缩混处理目标排除的音频信号，获得最后的多声道或单声道音频信号。缩混处理单元64向输出单元65提供获得的音频信号。

输出单元65向后一阶段的未图示的再现装置等输出由缩混处理单元64提供的每一帧的音频信号。

<缩混处理单元的配置示例>

进一步地，例如，如图8所示的缩混处理单元64如图9所示地配置。

如图9所示的缩混处理单元64包括选择单元111、缩混单元112、增益校正单元113和添加单元114。

缩混处理单元64从对话声道信息读取由提取单元62提供给缩混处理单元64的各种信息，并根据需要将信息提供给缩混处理单元64的各个单元。

选择单元111基于diag_present_flag[i](从对话声道信息读取的标识信息)，从由解码单元63提供的每个声道i的音频信号中选择将被缩混的音频信号和将不被缩混的音频信号。换句话说，将多声道音频信号分为对话声音音频信号和无对话声音的音频信号，并根据分类结果确定提供音频信号的目标。

更具体的，选择单元111将diag_present_flag[i]为1的音频信号，即对话声音的音频信号，提供给增益校正单元113作为不被缩混的信号。另一方面，选择单元111将diag_present_flag[i]为0的音频信号，即没有对话声音的音频信号，提供给缩混单元112作为将被缩混的信号。此处，更多细节的，对话声音的音频信号的信号值设置为“0”，并且对话声音的音频信号也提供到缩混单元112。

缩混单元112对选择单元111提供的音频信号执行缩混处理，将从选择单元111输入的多声道音频信号转换为更少声道的音频信号，并将信号提供给添加单元114。此处，在缩混处理中，根据需要使用从比特流中读取的缩混系数。

增益校正单元113通过将由从对话声音音频信号读取的diag_mix_gain5[i][j-1]、[i][diag_mix_gain2J-1]或[i]diag_mix_gain1定义的增益因子与由选择单元111提供的对话声音音频信号复用执行增益校正，并将增益校正音频信号提供被添加单元114。

添加单元114将从增益校正单元113提供的对话声音音频信号添加到由缩混单元112提供的音频信号之间的预定声道，并将作为结果获得的音频信号提供到输出单元65。

在这种情况下，添加对话声音音频信号的目标由从对话声道信息读取的diag_dest5[i][j-1]或[i][j-1]diag_dest2指定。

此处，当缩混处理单元64的输入是7.1ch音频信号并且缩混处理单元64的输出是5.1ch音频信号时，即当执行从7.1ch到5.1ch的缩混时，例如，缩混处理单元64假设具有如图10所示的更多的细节的配置。此处，在图10中，在对应于图9的情况下的部分提供相同的附图标记，并且其说明将被省略。

图10示出更具体的图9所示的缩混处理单元64的每个单元的配置。

换句话说，向选择单元111提供输出选择单元141和开关处理单元142-1至142-7。

向输出选择单元141提供开关151-1到151-7，并且，将FC声道、FL声道、FR声道、LS声道、RS声道、TpFL声道和TpFR声道从解码单元63的音频信号提供到开关151-1到151-7。

此处，“0”到“6”的声道编号i分别对应于FC、FL、FR、LS、RS、TpFL和TpFR各自的声道。

开关151-I(这里，I＝1，2，…，7)包括输出端子152-I(这里，I＝1，2，…，7)和输出端子153-I(这里，I＝1，2，…，7)，并将从解码单元63提供的音频信号提供给输出端子152-I和153-I。

更具体地，当标识信息diag_present_flag[i]的值是“0”时，开关151-I(I＝i+1)将提供的音频信号通过输出端子152-I提供给缩混单元112。

进一步地，当diag_present_flag[i]的值是“1”时，开关151-I将提供的音频信号输出到输出端子153-I。从输出端子153-I输出的音频信号分叉为2部分。音频信号的一部分只提供给开关处理单元142-I，并且音频信号的另一部分在值设置为“0”后提供给缩混单元112。在这样的设置下，对话声音频信号实际上不提供给缩混单元112。

此处，将音频信号值设置为“0”的方法可以是任何方法，例如，将音频信号的值写为“0”或者乘以具有0的因子的增益数量。

在下文中，当不特别需要区分开关151-1到151-7时，它们也简称为开关151。同样的，在下面，当不特别需要区分输出端子152-1到152-7时，它们也简称为输出端子152，当不特别需要区分输出端子153-1到153-7时，它们也简称为输出端子153。

开关处理单元142-I(这里，I＝1，2，…，7)包括关和关通过diag_dest5[i][j-1]控制的交换机161-I-1到161-I-5(这里，I＝1，2，…，7)。开关处理单元142-I将从开关151-I提供的音频信号提供给乘法单元171-I-1到171-I-5(此处，I＝1，2，…，7)，来根据需要通过开关161-I-1到161-I-5(这里，I＝1，2，…，7)组成增益校正单元113。

更具体地，当diag_dest5[i][j-1]指定各自的FC、FL、FR、LS、RS为目标声道添加音频信号的声道数，相应开关161-I-1到161-I-5(这里I＝i+1)打开和音频信号提供给乘法单元171-I-1到171-I-5(这里I＝i+1)。

例如，当缩混FC声道是由指定diag_dest5[i][j-1]作为一个旅游目标声道添加音频信号的FC声道具有声道数i＝0，开关161-1-1打开并从输出端子153-1音频信号提供给171-1-1乘法单元。

在下文中，当不特别需要区分开关处理单元142-1到142-7，它们也简称为开关处理单元142。

同时，在下面，当不特别需要区分开关161-I-1到161-I-5(这里，I＝1，2，…，7)时，它们也简称为开关161-I，并且当不特别需要区分开关161-1到161-7时，它们也简称为开关161。

进一步地，在下文中，当不特别需要区分乘法单元171-I-1到171-I-5(这里，I＝1，2，…，7)时，它们也简称为乘法单元171-I，当不特别需要区分乘法单元171-1到171-7时，它们也简称为乘法单元171。

增益校正单元113包括乘法单元171-1-1到171-7-5，并且在乘法单元171中，由diag_mix_gain5[i][j-1]定义的增益因子被设置。

更具体地，当diag_dest5[i][j-1]分别指定FC、FL、FR、LS和RS为目标声道，来添加声道编号i的音频信号，由diag_mix_gain5[i][j-1]定义的增益因子被分别设置到乘法单元171-I-1到171-I-5(这里I＝i+1)。

乘法单元171-I-1到171-I-5(这里，I＝1，2，…，7)将设置的增益因子与由开关161-I-1到161-I-5提供的音频信号相乘，并将信号提供到添加单元114的加法器181-1到181-5。在这样的配置下，从缩混目标排除的对话声音的每个声道i的音频信号被增益校正，以提供给添加单元114。

添加单元114包括加法器181-1到181-5，并且由缩混单元112将FC、FL、FR、LS和RS声道各自的缩混的音频信号提供到加法器181-1到181-5。

加法器181-1至181-5将由乘法单元171提供的对话声音音频信号添加到从缩混单元112提供的音频信号，并提供给输出单元65。

在下文中，如果不特别需要区分加法器181-1到181-5，它们也简称为加法器181。

<解码处理的说明>

接下来，将说明解码器51中的操作。此处，在下面，缩混处理单元64的配置是如图10所示的配置，并且在假设音频信号从7.1ch缩混为5.1声道的基础上进行说明。

当比特流被从编码器11发送时，解码器51开始解码处理来接收和解码比特流。

在下文中，参考图11的流程图，将说明由解码器51执行的解码处理。对音频信号的每一帧进行解码处理。

在步骤S41中，获取单元61接收从编码器11发送的比特流，并将比特流提供到提取单元62。

在步骤S42中，提取单元62从由获取单元61提供的DSE提取对话声道信息比特流，并向缩混处理单元64提供信息。进一步地，提取单元62根据需求从DSE提取信息(例如，缩混系数)，并向缩混处理单元64提供信息。

在步骤S43中，提取单元62从由获取单元61提供的比特流提取每个声道的编码数据，并向解码单元63提供数据。

在步骤S44中，解码单元63解码由提取单元62提供的每个声道的编码数据。

换句话说，解码单元63解码编码数据，并获得MDCT系数。更特别的，解码单元63基于比例因子、所述信息和提供作为编码数据的量子谱计算MDCT系数。然后，频率到时间转换单元71基于MDCT系数执行IMDCT处理，并将作为IMDCT处理的结果获得的音频信号提供给缩混处理单元64的开关151。换句话说，执行音频信号的频率到时间转换，并获得作为时间信号的音频信号。

在步骤S45中，缩混处理单元64基于由解码单元63提供的音频信号和由提取单元62提供的对话声道信息执行缩混处理，并将作为缩混处理的结果获得的音频信号提供给输出单元65。输出单元65在后一阶段将由缩混处理单元64提供的音频信号输出到再现装置等，并且解码处理结束。

此处，虽然将在后面介绍缩混处理的细节，在缩混处理中，不是对话声音的音频信号被缩混，并且对话声音的音频信号被添加到缩混音频信号。进一步地，从输出单元65输出的音频信号被提供到扬声器，该扬声器通过再现装置等适用于每个声道，并且声音被再现。

如上所述，在利用对话声道信息只缩混没有对话声音的音频信号并添加对话声音音频信号到缩混音频信号时，解码器51解码编码数据，并获得音频信号。这可以防止对话声音不清楚，并可以获得更高质量的声音。

<缩混处理的说明>

接下来，将参考如图12所示的流程图，说明对应于图11的步骤S45的缩混处理。

在步骤S71中，缩混处理单元64从由提取单元62提供的对话声道信息读取get_main_audio_chans()，并计算以获得多个存储在比特流的音频信号声道。

进一步地，缩混处理单元64还从对话声道信息读取init_data(chans)，并计算来初始化diag_tag_idx[i]等的值作为参数。换句话说，各声道i的diag_tag_idx[i]等的值设置为“0”。

在步骤S72中，缩混处理单元64将表明将要处理的声道的声道数量的计数器的值(即由计数器表明的声道i的值)设置为i＝0。在下文中，表示要处理的声道数的计数器也被称为计数器i。

在步骤S73中，缩混处理单元64确定计数器的值是否小于步骤S71中获得的声道数量。换句话说，确定是否所有的声道都作为将处理的声道。

在步骤S73中，当确定计数器i的值小于声道数量时，缩混处理单元64从对话声道信息读取声道i的标识信息diag_present_flag[i]，作为处理目标，并将diag_present_flag[i]提供给输出选择单元141，并且然后处理进行到步骤S74。

在步骤S74中，输出选择单元141确定要处理的声道i是否是对话声音的声道。例如，当要处理的声道i的diag_present_flag[i]的值是“1”时，输出选择单元141确定声道是对话声音的声道。

当在步骤S74中确定声道不是对话音声道时，在步骤S75中，输出选择单元141控制使由解码单元63提供的声道i的音频信号被按照原样提供给缩混单元112。换句话说，输出选择单元141控制对应于声道i的开关151，并将开关151的输入端与输出端子152连接。采用这种配置，声道i的音频信号被按照原样提供给缩混单元112。

当通过控制开关151选择了提供音频信号的目的地时，缩混处理单元64将计数器i保持的值增加1。然后，处理返回到步骤S73，并重复上述处理。

另一方面，当在步骤S74确定声道是对话音声道时，在步骤S76中，输出选择单元141控制使由解码单元63提供的声道i的音频信号按照原样提供给开关处理单元142，并且由解码单元63提供的音频信号被设置为0值，并提供给缩混单元112。

换句话说，输出选择单元141控制对应于声道i的开关151，并将开关151的输入端与输出端子153连接。因此，来自解码单元63的音频信号在从输出端子153输出后分叉为2部分，并且音频信号的一部分的信号值(振幅)设置为“0”，并提供给缩混单元112。换句话说，控制来不实际地向混频单元112提供音频信号。进一步地，分开的音频信号的另一部分按照原样提供对应于声道i给开关处理单元142。

在步骤S77中，缩混处理单元64为要处理的声道i设置增益因子。

换句话说，缩混处理单元64从对话声道信息读取与由存储在对话声道信息的num_of_dest_chans5[i]表明的数量一样多的要处理的声道i的diag_dest5[i][j-1]和[i][j-1]diag_mix_gain5。

然后，选择单元111基于diag_dest5[i][j-1]的每个值，识别目标来添加要处理的声道i的音频信号到缩混音频信号，并根据识别结果控制开关处理单元142的操作。

更具体地，选择单元111控制被提供声道i的音频信号的开关处理单元142-(i+1)，来关闭五个开关161-(i+1)中对应于要添加声道i的音频信号的目标的开关161-(i+1)，并关闭其它开关161-(i+1)。

通过以这种方式控制开关处理单元142，要处理的声道i的音频信号被提供给对应于声道的乘法单元171，以作为添加音频信号的目标。

进一步地，缩混处理单元64基于从对话声道信息读取的diag_mix_gain5[i][j-1]，获取作为添加声道i的音频信号的目标的各个声道的增益因子，并将增益因子提供给增益校正单元113。更具体地，例如，缩混处理单元64通过计算函数因素(fac[diag_mix_gain5[i][j-1]])获取增益因子。

增益校正单元113向对应于5个乘法单元171-(i+1)之中的要添加声道i的音频信号的目标的乘法单元171-(i+1)提供并设置增益因子。

例如，当缩混后，基于diag_dest5[0][j-1]的每个值确定要添加声道i是“0”的FC声道的音频信号的目标是FC、FL和FR声道时，开关161-1-1到161-1-3被打开，并且其它开关161-1-4和161-1-5被关闭。

然后，基于diag_mix_gain5[0][j-1]，在缩混后向FC、FL和FR声道的每个声道添加的时刻，读取缩混前的FC声道的增益因子，并且向乘法单元171-1-1到171-1-3提供并设置增益因子。此处，由于音频信号没有提供给乘法单元171-1-4和171-1-5，增益因子没有设置。

当开关处理单元142选择音频信号的数据目标，并用这种方式设置增益因子，缩混处理单元64将保持在计数器i的值增加1。然后，处理返回到步骤S73，并且重复上述处理。

进一步地，当在步骤S73中确定计数器i的值不小于在步骤S71中获得的声道数量，即当所有的声道都处理了时，缩混处理单元64向开关151输入由解码单元63提供的音频信号，并使处理进行到步骤S78。采用这种配置，不是对话声音的音频信号提供到缩混单元112，并且对话声音的音频信号通过开关161提供到乘法单元171。

在步骤S78中，缩混单元112对由输出选择单元141的开关151提供的7.1ch的音频信号执行缩混处理，并将作为缩混处理的结果获得的5.1ch的每个声道的音频信号提供给加法器181。在这种情况下，缩混处理单元64通过根据需要从DSE等获取指数获得缩混系数，，并将缩混系数提供给缩混单元112，并且缩混单元112使用提供的缩混系数执行缩混。

在步骤S79中，增益校正单元113执行由开关161提供了对话声音的音频信号的增益校正，并向加法器181提供信号。换句话说，被从开关161提供音频信号的每个乘法单元171通过将设置的增益因子与音频信号相乘执行增益校正，并将增益校正的音频信号提供给加法器181。

在步S80中，加法器181将由乘法单元171提供的对话声音的音频信号添加到由缩混单元112提供的音频信号，并将信号提供给输出单元65。当音频信号从输出单元65输出时，缩混处理结束，并且从而如图11所示的解码处理也结束了。

如上所述，缩混处理单元64基于作为标识信息的diag_present_flag[i]，确定每个声道的音频信号是否是对话声音信号，从缩混处理目标排除对话声音的音频信号，并向缩混音频信号添加被排除的信号。

采用这种配置，可以获得更高质量的声音。换句话说，当包括对话声音的音频信号的所有声道的音频信号被缩混时，对话声音在整个缩混声道传播，并且使得对话声音由于增益降低而不清楚。另一方面，通过解码器51，对话声音不受缩混影响，并且在所需要的声道重现，并且这使得对话声音更清晰。

此处，将说明在已参考图12说明的缩混处理中执行的计算的具体示例。此处，假设num_of_dest_chans5[0]＝1、num_of_dest_chans5[1]＝1、diag_dest5[0][0]＝0和diag_dest5[1][0]＝0。

换句话说，假设缩混前的FC声道和FL声道是对话声音，并且缩混后要添加那些对话声音的目标是FC声道。

在这种情况下，输出选择单元141通过计算下面的公式(1)获取作为缩混输入的信号。

[数学公式1]

FC_dmin＝inv(diag_present_flag[0])×FC

FL_dmin＝inv(diag_present_flag[1])×FL

FR_dmin＝inv(diag_present_flag[2])×FR

LS_dmin＝inv(diag_present_flag[3])×LS

RS_dmin＝inv(diag_present_flag[4])×RS

TpFL_dmin＝inv(diag_present_flag[5])×TpFL

TpFR_dmin＝inv(diag_present_flag[6])×TpFR (1)

此处，在公式(1)中，FC、FL、FR、LS、RS、TpFL和TpFR代表由解码单元63提供的FC、FL、FR、LS、RS、TpFL和TpFR每个声道的音频信号的值。进一步地，inv()是inv(1)＝0并且inv(0)＝1的函数，即变换输入值的函数。

进一步地，在公式(1)中，FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin，TpFL_dmin和TpFR_dmin分别代表FC、FL、FR、LS、RS、TpFL和TpFR每个声道的音频信号，作为缩混单元112的输入。

因此，在公式(1)的计算中，在根据diag_present_flag[i]的值被设置为“0”后，由解码单元63提供的每个声道的音频信号被处理为按照原样的值，或作为缩混单元112的输入。

进一步地，缩混单元112基于作为输入的FC_dmin，fl_dmin、FR_dmin，LS_dmin，RS_dmin，TpFL_dminhe TpFR_dmin计算下面的公式(2)，并在缩混后获得FC、FL、FR、LS和RS每个信道的音频信号，处理作为加法器181的输入。

[数学公式2]

FC'＝FC_dmin

FL'＝TL_dmin×dmx_f1+TpFL_dmin×dmx_f2

FR'＝FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

LS'＝LS_dmin

RS'＝RS_dmin (2)

此处，在公式(2)中，FC'、FL'、FR'、LS'和RS'分别代表FC、FL、FR、LS、RS每个频道的处理作为加法器181-1到181-5的输入的路音频信号。进一步地，dmx_f1和dmx_f2代表缩混系数。

进一步地，乘法单元171和加法器181获得FC、FL、FR、LS和RS每个声道最终的音频信号。在该示例中，对话声音的加入不是对FL、FR、LS、RS和RS的每个声道进行，所以FL'、FR'、LS'和RS'按照原样输出到输出单元65。

另一方面，对FC声道进行下面的公式(3)的计算，并且作为计算结果获得的FC”作为FC声道的最终音频信号被输出。

[数学公式3]

FC”＝FC+FC×fac[diag_mix_gain5[0][0]]

+FL×fac[diag_mix_gain5[1][0]] (3)

此处，在公式(3)中，FC和FL代表通过输出选择单元141提供给乘法单元171的FC声道和FL声道的音频信号。进一步地，fac[diag_mix_gain5[0][0]]代表通过向函数系数设定diag_mix_gain5[0][0]获得的增益因子，并且fac[diag_mix_gain5[1][0]]代表通过向函数系数设定diag_mix_gain5[1][0]获得的增益因子。

<缩混处理单元的另一个配置示例>

此处，在上面的内容中，音频信号从7.1ch缩混到5.1ch的情况已经作为示例进行了说明；然而，在缩混之前和之后的音频信号的声道配置可任意配置。

例如，当音频信号从7.1ch缩混到2ch时，例如，如图9所示的缩混处理单元64的单元被如图13所示地设置。此处，在图13中，相同的附图标记应用到对应于图9或10的那些部分，并且其说明将被省略。

在如图13所示的缩混处理单元64中，选择单元111上设置有输出选择单元141和开关处理单元211-1到211-7。

在类似于图10的情况的输出选择单元141中，提供了开关151-1到151-7，并且在开关处理单元211-I(这里，I＝1，2，…，7)中，提供了开关221-I-1和221-I-2(这里，I＝1，2，…，7)。

进一步地，在缩混单元112中，提供了缩混单元231和缩混单元232，在增益校正单元113中，提供了乘法单元241-1-1到241-7-2。进一步地，添加单元114中，提供了加法器251-1和251-2。

在该示例中，FC声道、FL声道、FR声道、LS声道、RS声道、TpFL声道和TpFR声道的音频信号被分别从解码单元63提供到开关151-1到151-7。

当作为标识信息diag_present_flag[i]的值是“0”时，开关151-I(这里I＝i+1)将提供的音频信号通过输出端152-I提供给缩混单元231。

进一步地，当diag_present_flag[i]的值是“1”时，开关151-I向输出端子153-I输出提供的音频信号。从输出端子153-I输出的音频信号被分为2部分；音频信号的一部分按照原样提供到开关处理单元211-I，并且音频信号的另一部分在值被设置为“0”后提供给缩混单元231。

开关处理单元211-I(这里，I＝1，2，…，7)根据需要通过开关221-I-1和221-I-2(此处，I＝1，2，…，7)，将由开关151-I提供的音频信号提供到组成增益校正单元113的乘法单元241-I-1和241-I-2(这里，I＝1，2，…，7)。

更具体的，当diag_dest2[i][j-1]分别指定FL和FR作为添加声道编号i的音频信号的目标声道时，各个开关221-I-1和221-I-2(这里，I＝i+1)被打开，并且音频信号提供给乘法单元241-I-1和241-I-2(这里，I＝i+1)。

在下文中，当不特别需要区分开关处理单元211-1到211-7时，它们也简称为开关处理单元211。

进一步地，在下面的内容中，当不特别需要区分开关221-I-1和221-I-2(这里，I＝1，2，…，7)，也简称为开关221-I，当它不是特别需要区分开关221-1到221-7时，它们也简称为开关221。

进一步地，在下面的内容中，当不特别需要区分乘法单元241-I-1和241-I-2(这里，I＝1，2，…，7)时，它们也简称为乘法单元241-I，并且当不特别需要区分乘法单元241-1到241-7时，它们也简称为乘法单元241。

在增益校正单元113中，当diag_dest2[i][j-1]分别指定FL和FR作为目标声道添加声道i的音频信号，由diag_mix_gain2[i][j-1]定义的增益因子被分别设置到乘法单元241-I-1和241-I-2(这里I＝i+1)。

乘法单元241-I-1和241-I-2(这里，I＝1，2，…，7)将设置的增益因子与由开关221-I-1和221-I-2提供的音频信号相乘，并且将信号提供给添加单元114的加法器251-1和251-2。采用这种结构，对不是缩混目标的信道i的每个音频信号执行增益校正，并且信号被提供给添加单元114。

缩混单元231将由输出选择单元141提供的7.1ch的音频信号缩混到5.1ch的音频信号，并且将信号提供到缩混单元232。从缩混单元231输出的5.1ch的音频信号由FC、FL、FR、LS和RS声道构成。

缩混单元232将由缩混单元231提供的5.1ch的音频信号缩混到2ch的音频信号，并将信号提供给添加单元114。从缩混单元232输出的2ch的音频信号由FL和FR声道构成。

FL和FR声道的各个缩混音频信号从混频单元232提供到添加单元114的相应的加法器251-1和251-2。

加法器251-1和251-2将由乘法单元241提供的音频信号添加到由缩混单元232提供的音频信号，并提供到输出单元65。

在下文中，当不特别需要区分加法器251-1和251-2，它们也简称为加法器251。

如图13所示的缩混处理单元64在多个阶段中执行从7.1ch到5.1ch的缩混，并且然后从5.1ch缩混到2ch。当从7.1ch到2ch的缩混在4如图13所示的缩混处理单元6中如上面所描述地执行时，例如，执行下面的计算。

此处，假设num_of_dest_chans2[0]＝2、num_of_dest_chans2[1]＝2、diag_dest2[0][0]＝0、diag_dest2[0][1]＝1、diag_dest2[1][0]＝0和diag_dest2[1][1]＝1。

换句话说，假设在缩混前FC声道和FL声道是对话声音的声道，并且添加那些缩混的对话声音的目标是FL声道和FR声道。

在这种情况下，输出选择单元141通过计算下面的公式(4)获得缩混输入信号。

[数学公式4]

FC_dmin＝inv(diag_present_flag[0])×FC

FL_dmin＝inv(diag_present_flag[1])×FL

FR_dmin＝inv(diag_present_flag[2])×FR

LS_dmin＝inv(diag_present_flag[3])×LS

RS_dmin＝inv(diag_present_flag[4])×RS

TpFL_dmin＝inv(diag_present_flag[5])×TpFL

TpFR_dmin＝inv(diag_present_flag[6])×TpFR (4)

换句话说，在公式(4)中，执行类似于上述公式(1)的计算。

进一步地，缩混单元231基于FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin和TpFR_dmin的输入计算下面的公式(5)，并获得作为缩混单元232输入的FC、FL、FR、LS和RS声道的缩混音频信号。

[数学公式5]

FC'＝FC_dmin

FL'＝FL_dmin×dmx_f1+TpFL_dmin×dmx_f2

FR'＝FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

LS'＝LS_dmin

RS'＝RS_dmin (5)

换句话说，在公式(5)中，执行类似于上述公式(2)的计算。

进一步地，缩混单元232基于FC'、FL'、FR'、LS'和RS'的输入和LFE声道音频信号LFE'计算下面的公式(6)，并获得添加单元114的输入的缩混的FL和FR声道的音频信号。

[数学公式6]

FL”＝FL'+FC'×dmx_b+LS'×dmx_a+LFE'×dmx_c

FR”＝FR'+FC'×dmx_b+RS'×dmx_a+LFE'×dmx_c (6)

此处，在公式(6)中，FL”和FR”代表将要输入到加法器251-1和251-2中的FL和FR声道的音频信号。进一步地，dmx_a、dmx_b和dmx_c代表缩混系数。

进一步地，乘法单元241和加法器251获得FL和FR声道的最终的音频信号。在该示例中，通过计算下面的公式(7)，对话声音被添加到FL”和FR”，并且从而获得作为加法器251最终输出的FL声道和FR声道音频信号。

[数学公式7]

FL”'＝FL”+diag_mix1

FR”'＝FR”+diag_mix2 (7)

此处，在公式(7)中，FL”'和FR”'代表FL声道和FR的音频信号，其是加法器251的最终输出。进一步地，假设由下面的公式(8)获得diag_mix1和diag_mix2。

[数学公式8]

diag_mix1＝FC×fac[diag_mix_gain2[0][0]]

+FL×fac[diag_mix_gain2[1][0]]

diag_mix2＝FC×fac[diag_mix_gain2[0][1]]

+FL×fac[diag_mix_gain2[1][1]] (8)

此处，在公式(8)中，FC和FL代表由乘法单元241通过输出选择单元141提供的FC声道和FL声道的音频信号。

进一步地，fac[diag_mix_gain2[0][0]]代表通过对函数系数设定diag_mix_gain2[0][0]获得的增益因子，并且fac[diag_mix_gain2[1][0]]代表通过对函数系数设定diag_mix_gain2[1][0]获得的增益因子。类似的，fac[diag_mix_gain2[0][1]]代表通过向函数系数设定diag_mix_gain2[0][1]获得的增益因子，并且fac[diag_mix_gain2[1][1]]代表通过向函数系数设定diag_mix_gain2[1][1]获得的增益因子。

进一步地，在缩混处理单元64中，可以在执行从7.1ch到5.1ch的缩混和进一步执行从5.1ch到2ch的缩混后执行从2ch到1ch的缩混。在这种情况下，例如，执行下面的计算。

此处，在这种情况下，假设num_of_dest_chans1[0]＝1并且num_of_dest_chans1[1]＝1。换句话说，假设在缩混之前FC声道和FL声道是对话声音的声道，并且添加缩混对话声音的目标是FC声道。

在这种情况下，选择单元111通过计算下面的公式(9)获取缩混输入信号。

[数学公式9]

FC_dmin＝inv(diag_present_flag[0])×FC

FL_dmin＝inv(diag_present_flag[1])×FL

FR_dmin＝inv(diag_present_flag[2])×FR

LS_dmin＝inv(diag_present_flag[3])×LS

RS_dmin＝inv(diag_present_flag[4])×RS

TpFL_dmin＝inv(diag_present_flag[5])×TpFL

TpFR_dmin＝inv(diag_present_flag[6])×TpFR (9)

换句话说，在公式(9)中，执行类似于上述公式(1)的计算。

进一步地，缩混单元112基于FC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin和TpFR_dmin的输入，通过计算下面的公式(10)执行从7.1ch到5.1ch的缩混。

[数学公式10]

FC'＝FC_dmin

FL'＝FL_dmin×dmx_f1+TpFL_dmin×dmx_f2

FR'＝FR_dmin×dmx_f1+TpFR_dmin×dmx_f2

LS'＝LS_dmin

RS'＝RS_dmin (10)

换句话说，在公式(10)中，执行类似于上述公式(2)的计算。

进一步地，缩混单元112基于FC'、FL'、FR'、LS'和RS'以及LFE声道的音频信号LFE'，通过计算下面的公式(11)执行从5.1ch到2ch的缩混。

[数学公式11]

FL”＝FL'+FC'×dmx_b+LS'×dmx_a+LFE”×dmx_c

FR”＝FR'+FC'×dmx_b+RS'×dmx_a+LFE'×dmx_c (11)

换句话说，在公式(11)中，执行类似于上述公式(6)的计算。

最后，通过增益校正单元113和添加单元114计算下面的公式(12)，并获得FC声道的最终音频信号。

[数学公式12]

FC”'＝FL”+FR'+diag_mix (12)

这里，在公式(12)中，FC”'代表FC声道的最终的音频声道，并假设diag_mix由下面的公式(13)获得。

[数学公式13]

diag_mix＝FC×fac[diag_mix_gain1[0]]

+FL×fac[diag_mix_gain1[1]] (13)

在公式(13)中，FC和FL代表由增益校正单元111通过选择单元113提供的FC声道和FL声道的音频信号。

进一步地，fac[diag_mix_gain1[0]]代表通过向函数系数设定diag_mix_gain1[0]获得的增益因子，并且fac[diag_mix_gain1[1]]代表向函数系数设定diag_mix_gain1[1]获得的增益因子。

此处，在上面的描述中，已经说明了由于对话声音的声道没有用在缩混处理中，要输入到缩混的对话声音的音频信号被设置为“0”值的示例；然而，缩混系数可设置是“0”。在这种情况下，缩混处理单元64设置声道i的缩混系数，其中diag_present_flag[i]的值是“1”到“0”。在这样的配置下，对话声音的声道实际上从缩混处理被排除。

进一步地，由于对话声道信息包括指示对话声音的声道的特性的diag_tag_idx[i]，只有一些优选的对话声音可以通过利用diag_tag_idx[i]从多个对话声音中被选择并重现。

更具体的，当多个对话声音用于开关时，缩混处理单元64的选择单元111基于diag_tag_idx[i]由上游装置从多个对话声音的声道中选择指定的一个或多个对话声音的声道，并且将声道提供给缩混单元112和增益校正单元113。在这种情况下，提供到缩混单元112的对话声音的声道的音频信号被设置为“0”值。进一步地，至于为选择的其它对话声音的声道，选择单元111丢弃那些声道的音频信号。在这样的配置下，可以容易地执行语言等的开关。

此处，上述一系列处理可以通过硬件或软件执行。当一系列处理由软件执行时，包括软件的程序被安装在计算机中。此处，例如，计算机可以是安装在专用的硬件上的计算机，或者是能够通过安装各种程序执行各种功能的通用个人计算机。

图14是示出使用程序执行上述一系列处理的计算机硬件的配置示例的方框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504彼此连接。

输入/输出接口505也连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。

输入单元506包括键盘、鼠标、麦克风、图像捕捉元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可移除介质511(例如，磁盘、光学、磁性光盘、半导体存储器等)。

在具有上述配置的计算机中，例如，上述一系列处理由CPU501由输入/输出接口505和总线504向RAM503通过下载并执行记录在记录单元508中的程序执行。

例如，由计算机(CPU 501)执行的程序可以通过记录在作为便携式介质等的可移除介质511中来提供。进一步地，程序可以通过有线或无线传输介质(例如，局域网、互联网、数字卫星广播等)提供。

在计算机中，程序可以通过在驱动器510上附加可移除介质511经由输入/输出接口505安装在记录单元单元508中。进一步地，程序可以通过通信单元509经由有线或无线传输介质接收，并且然后安装在记录单元508中。除了上面的内容，程序可以提前安装在ROM502或记录单元508中。

此处由计算机执行的程序可以是沿着本说明书描述的顺序的时间顺序执行处理的程序，或者可以是处理是并行执行或在需要的时机(例如，执行呼叫的时机)执行的程序。

进一步地，本技术的实施方式没有限制在上述实施方式，并且可以在本技术的范围内进行各种改变。

例如，本技术可以应用云计算的配置，该云计算的配置是由超过一个装置通过通络来共享或一起工作处理的一个函数。

进一步地，在上面说明的流程图的每个步骤可以由单个装置执行或者通过在超过一个装置间共享执行。

进一步地，当多个处理包括在一个步轴中时，该步骤中包括的多个处理可以由单个装置执行或者通过在超过一个装置间共享执行。

进一步地，本技术可以采用下面的配置。

(1)一种音频信号处理装置，包括：

选择单元，被配置为基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号；

缩混单元，被配置为将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号；以及

添加单元，被配置为将所述对话声音的声道的音频信号添加到通过缩混获得的所述一个或多个声道的音频信号中的预定声道的音频信号。

(2)根据(1)所述的音频信号处理装置，其中，

所述添加单元将所述对话声音的声道的音频信号添加到所述预定声道，所述预定声道是由添加目的地信息指定的声道，所述添加目的地信息指示待添加所述对话声音的声道的音频信号的目的地。

(3)根据(2)所述的音频信号处理装置，进一步包括：

增益校正单元，被配置为基于增益信息执行所述对话声音的声道的音频信号的增益校正，所述增益信息指示在向所述预定声道的音频信号添加所述对话声音的声道的音频信号时的增益，

其中，所述添加单元将由所述增益校正单元校正了增益的音频信号添加到所述预定声道的音频信号中。

(4)根据(3)所述的音频信号处理装置，进一步包括：

提取单元，被配置为从比特流提取与每个声道有关的信息、所述添加目的地信息以及所述增益信息。

(5)根据(4)所述的音频信号处理装置，

其中，所述提取单元进一步从所述比特流提取经编码的多声道音频信号，并且

所述音频信号处理装置进一步包括解码单元，所述解码单元被配置为将经编码的多声道音频信号解码并输出至所述选择单元。

(6)根据(1)到(5)所述的音频信号处理装置，其中，

所述缩混单元对所述待缩混的多个声道的音频信号执行多级缩混，并且

所述添加单元将所述对话声音的声道的音频信号添加到在所述多级缩混中获得的所述一个或多个声道的音频信号中的所述预定声道的音频信号。

(7)一种音频信号处理方法，包括以下步骤：

基于与多声道音频信号的每个声道有关的信息从所述多声道音频信号选择对话声音的声道的音频信号以及待缩混的多个声道的音频信号；

将所述待缩混的多个声道的音频信号缩混为一个或多个声道的音频信号；并且

将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道的音频信号中的预定声道的音频信号。

(8)一种使计算机执行步骤的程序，所述步骤包括：

(9)一种编码装置，包括：

编码单元，被配置为对多声道音频信号进行编码；

生成单元，被配置为生成标识信息，所述标识信息指示所述多声道音频信号的每个声道是否是对话声音的声道；以及

封装单元，被配置为生成包含经编码的多声道音频信号和所述标识信息的比特流。

(10)根据(9)所述的编码装置，其中

当所述多声道音频信号被缩混时，所述生成单元进一步生成添加目的地信息，所述添加目标信息表示通过缩混获得的一个或多个声道的音频信号中作为待添加所述对话声音的声道的音频信号的目的地的音频信号的声道，并且

所述封装单元生成包括经编码的多声道音频信号、所述标识信息以及所述添加目的地信息的所述比特流。

(11)根据(10)所述的编码装置，其中，

所述生成单元进一步在向由所述添加目的地信息表示的声道添加所述对话声音的声道的音频信号时生成增益信息，并且

所述封装单元生成包括经编码的多声道音频信号、所述标识信息、所述添加目的地信息以及所述增益信息的所述比特流。

(12)一种编码方法，包括以下步骤：

对多声道音频信号进行编码；

生成标识信息，所述标识信息表示所述多声道音频信号中的每个声道是否是对话声音的声道；并且

生成包括经编码的多声道音频信号和所述标识信息的比特流。

(13)一种使计算机执行包括步骤的处理的程序，所述步骤包括：

对多声道音频信号进行编码；

生成标识信息，所述标识信息表示所述多声道音频信号的每个声道是否是对话声音的声道；和

生成包括编码的多声道音频信号和所述标识信息的比特流。

符号说明

11 编码器

21 对话声道信息生成单元

22 编码单元

23 封装单元

51 解码器

63 解码单元

64 缩混处理单元

111 选择单元

112 缩混单元

113 增益校正单元

114 添加单元

Claims

1.一种音频信号处理装置，包括：

添加单元，被配置为将所述对话声音的声道的音频信号添加到通过缩混获得的所述一个或多个声道的音频信号中的预定声道的音频信号，其中，所述预定声道是由指示待添加对话声音的声道的音频信号的目的地的添加目标信息所指定的。

2.根据权利要求1所述的音频信号处理装置，进一步包括：

3.根据权利要求2所述的音频信号处理装置，进一步包括：

4.根据权利要求3所述的音频信号处理装置，

5.根据权利要求1所述的音频信号处理装置，其中，

6.一种音频信号处理方法，包括以下步骤：

将所述对话声音的声道的音频信号添加到在缩混中获得的所述一个或多个声道的音频信号中的预定声道的音频信号，其中，所述预定声道是由指示待添加对话声音的声道的音频信号的目的地的添加目标信息所指定的。

7.一种编码装置，包括：

编码单元，被配置为对多声道音频信号进行编码；

封装单元，被配置为生成包含经编码的多声道音频信号和所述标识信息的比特流；

8.根据权利要求7所述的编码装置，其中，