CN105637582A

CN105637582A - 音频编码装置及音频解码装置

Info

Publication number: CN105637582A
Application number: CN201480056559.4A
Authority: CN
Inventors: 宫阪修二; 阿部一任; 刘宗宪; 沈荣辉; 陈英俊
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2013-10-17
Filing date: 2014-08-20
Publication date: 2016-06-01
Anticipated expiration: 2034-08-20
Also published as: CN105637582B; US20170365262A1; JPWO2015056383A1; US10002616B2; EP3059732A4; WO2015056383A1; JP6288100B2; EP3059732A1; US9779740B2; EP3059732B1; US20160225377A1

Abstract

输入信号由基于声道的音频信号和基于对象的音频信号构成，音频编码装置具备：音频场景分析单元(100)，根据输入信号判断音频场景，并且检测音频场景信息；基于声道的编码器(101)，对从音频场景分析单元输出的基于声道的音频信号进行编码；基于对象的编码器(102)，对从音频场景分析单元输出的基于对象的音频信号进行编码；以及音频场景编码单元(103)，对音频场景信息进行编码。

Description

音频编码装置及音频解码装置

技术领域

本发明涉及对信号进行压缩编码的音频编码装置、以及对已编码的信号进行解码的音频解码装置。

背景技术

近几年，提出了在基于对象的音频系统中能够处理背景音的系统(例如，参考非专利文献1)。根据这个技术，提出了将背景音作为多声道背景对象(MBO)，作为多声道信号来输入，而被输入的信号，通过MPS编码器(MPEGSurroundencoder：MPEG环绕声编码器)被压缩为单声道或者双声道的信号，将其作为1个对象来处理(例如，参考非专利文献2)。

(现有技术文献)

(非专利文献)

非专利文献1：JonasEngdegard,BarbaraResch,CorneliaFalch,OliverHellmuth,JohannesHilpert2,AndreasHoelzer,LeonidTerentiev,JeroenBreebaart,JeroenKoppens,ErikSchuijersandWernerOomen,“SpatialAudioObjectCoding(SAOC)TheUpcomingMPEGStandardonParametricObjectBasedAudioCoding.”inAES124thConvention,Amsterdam,2008,May17－20.

非专利文献2：ISO/IEC23003－1

然而，在所述一样的构成的情况下，背景音被压缩为单声道或者双声道，在解码侧不能完全恢复成原来的背景音，存在音质恶化这样的课题。此外，背景音的解码处理中，需要大量运算。

发明内容

本申请鉴于上述课题，目的在于提供一种高音质且解码时的运算量少的音频编码装置及音频解码装置。

为了解决所述的课题，本申请的一个方案涉及的音频编码装置是对输入信号进行编码的装置，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述音频编码装置具备：音频场景分析单元，根据所述输入信号判断音频场景，并且检测音频场景信息；基于声道的编码器，对从所述音频场景分析单元输出的所述基于声道的音频信号进行编码；基于对象的编码器，对从所述音频场景分析单元输出的所述基于对象的音频信号进行编码；以及音频场景编码单元，对所述音频场景信息进行编码。

并且，本申请的一个方案涉及的音频解码装置是对编码信号进行解码的装置，该编码信号是对输入信号进行了编码的信号，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述编码信号包括基于声道的编码信号、基于对象的编码信号、以及音频场景编码信号，所述基于声道的编码信号是编码了所述基于声道的音频信号的信号，所述基于对象的编码信号是编码了基于对象的音频信号的信号，所述音频场景编码信号是编码了从所述输入信号提取的音频场景信息的信号，所述音频解码装置具备：分离单元，从所述编码信号分离出所述基于声道的编码信号、所述基于对象的编码信号、以及所述音频场景编码信号；音频场景解码单元，从所述编码信号取出所述音频场景信息的编码信号，并进行解码；基于声道的解码器，对所述基于声道的音频信号进行解码；基于对象的解码器，利用在所述音频场景解码单元被解码的所述音频场景信息，对所述基于对象的音频信号进行解码；以及音频场景合成单元，根据所述音频场景信息之外另外被指示的扬声器配置信息，合成所述基于声道的解码器的输出信号和所述基于对象的解码器的输出信号，并且再现被合成的音频场景合成信号。

通过本申请能够提供高音质且解码时的运算量少的音频编码装置及音频解码装置。

附图说明

图1是表示实施方式1涉及的音频编码装置的构成的图。

图2是表示判断音频对象的感知重要度的方法的一例的图。

图3是表示判断音频对象的感知重要度的方法的另一例的图。

图4是表示判断音频对象的感知重要度的方法的另一例的图。

图5是表示判断音频对象的感知重要度的方法的另一例的图。

图6是表示判断音频对象的感知重要度的方法的另一例的图。

图7是表示判断音频对象的感知重要度的方法的另一例的图。

图8是表示判断音频对象的感知重要度的方法的另一例的图。

图9是表示判断音频对象的感知重要度的方法的另一例的图。

图10是表示判断音频对象的感知重要度的方法的另一例的图。

图11是表示比特流的构成的图。

图12是表示实施方式2涉及的音频解码装置的构成的图。

图13是表示比特流的构成以及跳过再现的情况的图。

图14是表示实施方式2涉及的音频解码装置的构成的图。

图15是表示以往技术中的基于声道的音频的构成的图。

图16是表示以往技术中的基于对象的音频的构成的图。

具体实施方式

(作为本申请的基础的知识)

说明本申请的实施方式之前，先说明作为本申请的基础的知识。

周知的有通过基于声道的音频系统及基于对象的音频系统，对背景音进行编码及解码的声场再现技术。

图15示出基于声道的音频系统的构成。

在基于声道的音频系统中，将接收的声源群(吉他，钢琴，主唱等)，按照系统设想的再现扬声器配置来预先进行渲染。所谓渲染是指，以各声源预期的位置上连接声像的方式，向各个扬声器分配该声源的信号。例如，系统设想的扬声器配置是5声道的情况下，分别向各个声道分配所接收的声源群，以使接收的声源群在5声道的扬声器并恰当的声像位置上再现。将这样生成的各声道的信号进行编码、记录、以及传送。

在解码侧，扬声器的构成(声道数)是系统设想的构成的情况下，将解码信号原样分配到各个扬声器。如果不是的情况下，结合扬声器的构成，对解码信号进行上混UpMix(转换为比解码信号的声道数多的声道数)或缩混DownMix(转换为比解码信号的声道数少的声道数)。

即，如图15所示，基于声道的音频系统，将接收的声源通过渲染器分配为5声道的信号，由基于声道的编码器进行编码，将编码信号记录并传送。之后，由基于声道的解码器进行解码，将被解码的5声道的声场，以及缩混为双声道或者上混为7.1声道的声场，通过扬声器再现。

这个系统的优点是，解码侧的扬声器的构成是系统设想的构成的情况下，不给解码侧负荷，并且能够再现最佳的声场。此外，伴随背景音和混响的声响信号等，预先恰当地追加到各个声道信号，从而能够恰当地表现。

这个系统的缺点是，在解码侧的扬声器的构成不是系统设想的构成的情况下，不得不担负上混和缩混的运算负荷来进行处理，而且，即便如此也不能再现最佳的声场。

图16示出基于对象的音频系统的构成。

在基于对象的音频系统，接收的声源群(吉他，钢琴，主唱等)，原样作为音频对象进行编码、记录及传送。那时将各个声源的再现位置信息也一并记录及传送。在解码器侧，按照声源的位置信息和扬声器配置，对各个音频对象进行渲染。

例如，在解码侧的扬声器配置是5声道的情况下，以通过5声道的扬声器，各个音频对象在与各自的再现位置信息对应的位置再现的方式，分别向各声道分配音频对象。

即，如图16所示，在基于对象的音频系统中，由基于对象的编码器来对接收的声源群进行编码，并对编码信号进行记录及传送。之后，由基于对象的解码器进行解码，经由双声道、5.1声道或者7.1声道的渲染器，由各声道的扬声器再现声场。

这个系统的优点是，能够按照再现侧的扬声器配置，再现最佳的声场。

这个系统的缺点是，解码侧具有运算负荷，以及伴随背景音和混响的声响信号等作为音频对象不能恰当地表现。

近几年，提出了在基于对象的音频系统能够处理背景音的系统。通过该技术提出了如下，背景音作为多声道背景对象(MBO)，作为多声道信号而被输入，并且由MPS编码器压缩为单声道或者双声道信号，将其作为一个对象来处理。其构成公开在非专利文献1的Figure5∶ArchitectureoftheSAOCsystemhandlingtheMBO。

然而，如所述一样的基于对象的音频系统的构成的情况下，背景音被压缩为单声道或者双声道，所以存在解码侧不能完全恢复成原来的背景音这样的课题。此外还存在该处理需要非常大的运算量的课题。

此外，在以往的基于对象的音频系统，对基于对象的音频信号进行压缩编码的时候，没有确立针对各个音频对象的比特分配的方针。

下面说明的音频编码装置及音频解码装置是鉴于以往的课题而提出的，是输入基于声道的音频信号和基于对象的音频信号，高音质并且解码时的运算量少的音频编码装置及音频解码装置。

即，为了解决所述的课题，本申请的音频编码装置是对输入信号进行编码的装置，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述音频编码装置具备：音频场景分析单元，根据所述输入信号判断音频场景，并且检测音频场景信息；基于声道的编码器，对从所述音频场景分析单元输出的所述基于声道的音频信号进行编码；基于对象的编码器，对从所述音频场景分析单元输出的所述基于对象的音频信号进行编码；以及音频场景编码单元，对所述音频场景信息进行编码。

通过该构成，能够恰当地使基于声道的音频信号和基于对象的音频信号共存地进行编码。

此外，所述音频场景分析单元，还从所述输入信号分离出所述基于声道的音频信号和所述基于对象的音频信号，并进行输出。

通过该构成，能够恰当地实施从基于声道的音频信号转换为基于对象的音频信号，或者相反的转换。

此外，所述音频场景分析单元，至少提取基于对象的音频信号的感知重要度信息，并按照该提取结果来决定分别分配给所述基于声道的音频信号和所述基于对象的音频信号的编码比特数，所述基于声道的编码器，按照所述编码比特数，对所述基于声道的音频信号进行编码，所述基于对象的编码器，按照所述编码比特数，对所述基于对象的音频信号进行编码。

通过该构成，能够向基于声道的音频信号和基于对象的音频信号分配恰当的编码比特。

此外，所述音频场景分析单元，至少对所述输入信号中的所述基于对象的音频信号中包含的音频对象的数量、各个所述音频对象的声音的大小、所述音频对象的声音的大小的变化、各个所述音频对象的位置、所述音频对象的位置的轨迹、各个所述音频对象的频率特性、各个所述音频对象的掩蔽特性、以及所述音频对象与影像信号的关系中的任一个进行检测，并按照该检测结果来决定分别分配给所述基于声道的音频信号和所述基于对象的音频信号的所述编码比特数。

通过该构成，能够准确地算出基于对象的音频信号的感知重要度。

此外，所述音频场景分析单元，至少对所述输入信号中的所述基于对象的音频信号中包含的多个音频对象的各个声音的大小、多个所述音频对象的各个声音的大小的变化、各个所述音频对象的位置、所述音频对象的轨迹、各个所述音频对象的频率特性、各个所述音频对象的掩蔽特性、以及所述音频对象与影像信号的关系中的任一个进行检测，并按照该检测结果来决定分别分配给各个所述音频对象的所述编码比特数。

通过该构成，能够准确地算出多个基于对象的音频信号的感知重要度。

此外，所述基于对象的音频信号的感知重要度信息的编码结果，与所述基于对象的音频信号的编码结果成对地保存在比特流中，所述感知重要度信息的编码结果，配置在所述基于对象的音频信号的编码结果之前。

通过该构成，能够在解码器侧容易掌握基于对象的音频信号和该信号的感知重要度。

此外，各个所述音频对象的感知重要度信息的编码结果，与各个所述音频对象的编码结果成对地保存在比特流中，所述感知重要度信息的编码结果，配置在所述音频对象的编码结果之前。

通过该构成，能够在解码器侧容易掌握各个音频对象和该音频对象的感知重要度。

此外，为了解决所述的课题，本申请的音频解码装置是对编码信号进行解码的装置，该编码信号是对输入信号进行了编码的信号，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述编码信号包括基于声道的编码信号、基于对象的编码信号、以及音频场景编码信号，所述基于声道的编码信号是编码了所述基于声道的音频信号的信号，所述基于对象的编码信号是编码了基于对象的音频信号的信号，所述音频场景编码信号是编码了从所述输入信号提取的音频场景信息的信号，所述音频解码装置具备：分离单元，从所述编码信号分离出所述基于声道的编码信号、所述基于对象的编码信号、以及所述音频场景编码信号；音频场景解码单元，从所述编码信号取出所述音频场景信息的编码信号，并进行解码；基于声道的解码器，对所述基于声道的音频信号进行解码；基于对象的解码器，利用在所述音频场景解码单元被解码的所述音频场景信息，对所述基于对象的音频信号进行解码；以及音频场景合成单元，根据所述音频场景信息之外另外被指示的扬声器配置信息，合成所述基于声道的解码器的输出信号和所述基于对象的解码器的输出信号，并且再现被合成的音频场景合成信号。

通过该构成，进行再现时能够恰当地反映音频场景。

此外，所述音频场景信息是音频对象的编码比特数信息，根据另外被指示的信息，决定所述音频对象中不进行再现的音频对象，并根据该不再现的音频对象的编码比特数，跳过该不再现的音频对象。

通过该构成，能够按照再现时的情况，恰当地跳过音频对象。

此外，所述音频场景信息是所述音频对象的感知重要度信息，在解码所需的运算资源不足的情况下，跳过感知重要度低的所述音频对象。

通过该构成，即使运算电容小的处理器，也能够尽量维持音质地进行再现。

此外，所述音频场景信息是音频对象位置信息，根据该信息、另外被指示的再现侧扬声器配置信息、以及另外被指示的或者预先设想的收听者的位置信息，决定进行缩混时的、并且与各扬声器对应的头部相关传输函数系数。

通过该构成，能够按照收听者的位置信息，以高的临场感进行再现。

以下，作为所述的音频编码装置及音频解码装置的一个形态示出实施方式。另外，以下说明的实施方式均示出一个具体例子。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置以及连接形式等，都是一个例子，主旨不是限制本发明。本发明由权利要求书来确定。因此，在以下的实施方式的构成要素中，对于独立权利要求中没有记载的构成要素，视为不是达成本发明的课题所必需的要素，可以说明为是构成更优选的形态。

(实施方式1)

下面，参考附图来说明实施方式1涉及的音频编码装置。

图1是表示本实施方式涉及的音频编码装置的构成的图。

如图1所示，音频编码装置具备：音频场景分析单元100、基于声道的编码器101、基于对象的编码器102、音频场景编码单元103、复用单元104。

音频场景分析单元100，根据由基于声道的音频信号和基于对象的音频信号构成的输入信号，判断音频场景，检测音频场景信息。

基于声道的编码器101，将作为音频场景分析单元100的输出信号的基于声道的音频信号，根据作为音频场景分析单元100的输出信号的音频场景信息来进行编码。

基于对象的编码器102，将作为音频场景分析单元100的输出信号的基于对象的音频信号，根据作为音频场景分析单元100的输出信号的音频场景信息来进行编码。

音频场景编码单元103，对作为音频场景分析单元100的输出信号的音频场景信息进行编码。

复用单元104，将作为基于声道的编码器101的输出信号的基于声道的编码信号、作为基于对象的编码器102的输出信号的基于对象的编码信号、以及作为音频场景编码单元103的输出信号的音频场景编码信号进行复用，生成并输出比特流。

以下说明如上所述构成的音频编码装置的动作。

首先，音频场景分析单元100，根据由基于声道的音频信号和基于对象的音频信号构成的输入信号，判断音频场景，检测音频场景信息。

音频场景分析单元100的功能大致分为两个。一个是重构基于声道的音频信号和基于对象的音频信号的功能，另一个是判断音频对象的感知重要度，该音频对象是基于对象的音频信号的各个要素。

本实施方式涉及的音频场景分析单元100，同时具备该两个功能。另外，音频场景分析单元100，也可以只具备该两个功能中的一方。

首先说明重构基于声道的音频信号和基于对象的音频信号的功能。

音频场景分析单元100，解析被输入的基于声道的音频信号，特定的声道信号是从其他声道信号独立的信号的情况下，将该声道信号编入到基于对象的音频信号。该情况下，将音频信号的再现位置信息设为该声道的扬声器应该放置的位置。

例如，只有中央声道的信号记录了台词(对白)的情况下，可以使该声道的信号作为基于对象的音频信号(音频对象)。在这个情况下，该音频对象的再现位置是中央。由此，假设因为物理上的限制，中央声道的扬声器不能放置在中央位置上的情况等，在再现侧(解码器侧)，利用其他扬声器，能够渲染成中央位置。

另一方面，伴随背景音和混响的声响信号，作为基于声道的音频信号来输出。由此，在解码器侧能够以高音质且低运算量来进行再现处理。

加之，音频场景分析单元100，解析被输入的基于对象的音频信号，特定的音频对象位于特定的扬声器位置的情况下，将该音频对象与从所述扬声器发出的声道信号进行混合(Mixing)。

例如，表示某个乐器的声音的音频对象，位于右侧扬声器的位置的情况下，可以将该音频对象与从右侧扬声器发出的声道信号混合。由此，能够减少一个音频对象的数量，从而能够对减少传送和记录时的比特率作出贡献。

下面说明音频场景分析单元100的功能中的判断音频对象的感知重要度的功能。

音频场景分析单元100，如图2所示，判断声压级高的音频对象比声压级低的音频对象感知重要度高。这是为了反映更注意声压级高的声音这样的收听者的心理。

例如，在图2，用黑圆点1示出的声源1比用黑圆点2示出的声源2声压级高。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如图3所示，判断再现位置接近收听者的音频对象，比再现位置从收听者远离的音频对象，感知重要度高。这是为了反映更注意接近的物体这样的收听者的心理。

例如，在图3，用黑圆点1示出的声源1是接近收听者的声源，用黑圆点2示出的声源2是从收听者远离的声源。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如图4所示，判断再现位置在收听者前方的音频对象，比再现位置在收听者后方的音频对象，感知重要度高。

此外，音频场景分析单元100，判断再现位置在收听者的正面的音频对象，比再现位置在上方的音频对象，感知重要度高。这是因为收听者对位于前方的物体的灵敏度比对位于旁边的物体的灵敏度高，收听者对位于旁边的物体的灵敏度比位于收听者的上下方的物体的灵敏度高，即感知重要度高。

例如，在图4，用白圆点1示出的声源3位于收听者的前方，用白圆点2示出的声源4位于收听者的后方。在这个情况下，声源3被判断为比声源4感知重要度高。此外在图4，用黑圆点1示出的声源1，位于收听者的正面，用黑圆点2示出的声源2，位于收听者的上方。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如图5所示，判断再现位置在收听者的左右移动的音频对象，比再现位置在收听者的前后移动的音频对象，感知重要度高。此外，音频场景分析单元100，判断再现位置在收听者的前后移动的音频对象，比再现位置在收听者的上下移动的音频对象，感知重要度高。这是因为收听者对左右移动的灵敏度比对前后移动的灵敏度高，收听者对前后移动的灵敏度比上下移动的灵敏度高。

例如，在图5，用黑圆点1示出的声源轨迹1，相对于收听者左右移动，用黑圆点2示出的声源轨迹2，相对于收听者前后移动，用黑圆点3示出的声源轨迹3，相对于收听者上下移动。在这个情况下，声源轨迹1被判断为比声源轨迹2感知重要度高。此外，声源轨迹2被判断为比声源轨迹3感知重要度高。

音频场景分析单元100，如图6所示，判断再现位置移动的音频对象比再现位置静止的音频对象，感知重要度高。此外，音频场景分析单元100，判断移动速度快的音频对象比移动速度慢的音频对象，感知重要度高。这是因为收听者对听觉声源的移动的灵敏度高。

例如，在图6，用黑圆点1示出的声源轨迹1，相对于收听者移动，用黑圆点2示出的声源轨迹2，相对于收听者静止。在这个情况下，声源轨迹1被判断为比声源轨迹2感知重要度高。

音频场景分析单元100，如图7所示，判断在屏幕上显示该物体的音频对象，比没有显示的音频对象在感知重要度高。

例如，在图7，用黑圆点1示出的声源1，相对于收听者静止或者移动，并且在屏幕上显示。此外，用黑圆点2示出的声源2，其位置与声源1相同。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如图8所示，判断由数量少的扬声器渲染的音频对象比由数量多的扬声器渲染的音频对象，感知重要度高。这是因为估计由数量多的扬声器渲染的音频对象，能够比由数量少的扬声器渲染的音频对象准确地再现声像，所以需要对由数量少的扬声器渲染的音频对象更正确地进行编码。

例如，在图8，用黑圆点1示出的声源1，由1个扬声器渲染，用黑圆点2示出的声源2由比声源1多的4个扬声器渲染。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如图9所示，判断大量包含听觉上灵敏度高的频率成分的音频对象，比大量包含听觉上灵敏度不高的频率成分的音频对象，感知重要度高。

例如，在图9，用黑圆点1示出的声源1是人的声音的频带的声音，用黑圆点2示出的声源2是飞机的飞行音等的频带的声音，用黑圆点3示出的声源3相对于收听者上下移动。在此，人的听觉对包含人的声音的频率成分的声音(对象)灵敏度很高，对包含飞机的飞行音等比人的声音的频率高的频率成分的声音，灵敏度是中等程度，对包含低音吉他等比人的声音的频率低的频率成分的声音，灵敏度低。在这个情况下，声源1被判断为比声源2感知重要度高。此外，声源2被判断为比声源3感知重要度高。

音频场景分析单元100，如图10所示，判断大量包含被掩蔽的频率成分的音频对象，比大量包含不被掩蔽的频率成分的音频对象，感知重要度低。

例如，在图10，用黑圆点1示出的声源1是爆炸音，用黑圆点2示出的声源2在人的听觉中是大量包含被爆炸音掩蔽的频率的枪声。在这个情况下，声源1被判断为比声源2感知重要度高。

音频场景分析单元100，如所述一样判断各音频对象的感知重要度，按照其总量，在基于对象的编码器和基于声道的编码器中进行编码时，分别分配比特数。

其方法例如如下。

设基于声道的输入信号的声道数为A，基于对象的输入信号的对象数为B，对基于声道的权重为a，对基于对象的权重为b，能够用于编码的总比特数为T(T表示已经减去赋予音频场景信息的比特数和赋予头信息的比特数的、赋予基于声道和基于对象的音频信号的总比特数)时，针对基于对象的信号，首先暂时分配以T×(b×B/(a×A+b×B))算出的比特数。换言之，各个音频对象分别被分配以T×(b/(a×A+b×B))计算出的比特数。在此，a和b分别是1.0附近的正值，但是具体的值，可以根据内容的性质以及收听者的嗜好而决定。

接着，按每个音频对象，用图2至图10所示的方法判断其感知重要度，在感知重要度高的情况下用大于1的值，低的情况下用小于1的值，乘以分配给各个音频对象的比特数。对全部的音频对象实施上述处理，计算其总计。在其总计为X的情况下，作为Y＝T－X来求出Y，将Y分配为基于声道的音频信号的编码用。向各个音频对象分配所述计算的各个值的比特数。

图11的(a)示出将如上所述分配的比特数，按每个音频帧进行分配的例子。在图11的(a)，斜条纹部分示出基于声道的音频信号的编码量的总量。横条纹部分示出基于对象的音频信号的编码量的总量。白色部分示出音频场景信息的编码量的总量。

在图11的(a)，区间1是音频对象不存在的区间。因此，全部的比特分配给基于声道的音频信号。区间2示出音频对象出现的时候的状态。区间3示出音频对象的感知重要度的总量比区间2减少的情况。区间4示出音频对象的感知重要度的总量比区间3增加的情况。区间5示出音频对象不存在的状态。

图11的(b)以及(c)示出在规定的音频帧中，分配给各个音频对象的各自的比特数的详细内容以及其信息(音频场景信息)如何配置在比特流的一个例子。

分配给各个音频对象的比特数，按照该音频对象的感知重要度来决定。按照该音频对象的感知重要度(音频场景信息)，可以如图11的(b)所示，全部放置在比特流上的规定的场所，也可以如图11的(c)所示，附带在各个音频对象上。

接着，基于声道的编码器101，以由音频场景分析单元100分配的比特数，来对从音频场景分析单元100输出的基于声道的音频信号进行编码。

接着，基于对象的编码器102，以由音频场景分析单元100分配的比特数，来对从音频场景分析单元100输出的基于对象的音频信号进行编码。

接着，音频场景编码单元103，对音频场景信息(所述的例子中是，基于对象的音频信号的感知重要度)进行编码。例如作为基于对象的音频信号的该音频帧的信息量来进行编码。

最后，复用单元104，将作为基于声道的编码器101的输出信号的基于声道的编码信号、作为基于对象的编码器102的输出信号的基于对象的编码信号、以及作为音频场景编码单元103的输出信号的音频场景编码信号进行复用，生成比特流。即，生成如图11的(b)或图11的(c)所示的比特流。

在此，对基于对象的编码信号和音频场景编码信号(在这个例子中是基于对象的音频信号的该音频帧的信息量)进行如下复用。

(1)将基于对象的编码信号和其信息量成对地进行编码。

(2)将各个音频对象的编码信号和与其对应的信息量成对地进行编码。

在此，“成对”的意思并不表示信息相邻地配置。“成对”是指，所述各个编码信号和与其对应的信息量，建立关联地复用。由此，在解码器侧，将按照音频场景的处理，按每个音频对象进行控制。这个意义上，优选的是音频场景编码信号保存在基于对象的编码信号之前。

如上所述，本实施方式的音频编码装置，对输入信号进行编码，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述音频编码装置具备：音频场景分析单元，根据所述输入信号判断音频场景，并且检测音频场景信息；基于声道的编码器，对从所述音频场景分析单元输出的所述基于声道的音频信号进行编码；基于对象的编码器，对从所述音频场景分析单元输出的所述基于对象的音频信号进行编码；以及音频场景编码单元，对所述音频场景信息进行编码。

由此，能够恰当地重构基于声道的音频信号与基于对象的音频信号，能够达到解码器侧的高音质和减轻运算负荷。这是因为，针对基于声道来输入的信号(包含背景音和混响的声响信号)可以原样进行编码。

此外，通过本实施方式涉及的音频编码装置，还能达到比特率的削减。这是因为，将能够基于声道来表现的音频对象与基于声道的信号混合，从而能够减少音频对象的数量。

此外，通过本实施方式涉及的音频编码装置，还能够提高在解码器侧的渲染的自由度。这是因为能够从基于声道的信号中检测能够进行音频对象化的声音，对其进行音频对象化并记录、传送。

此外，通过本实施方式涉及的音频编码装置，能够恰当地分配对基于声道的音频信号和基于对象的音频信号各自编码时的对各自的编码的比特数。

(实施方式2)

下面，参考附图来说明实施方式2涉及的音频解码装置。

图12是表示本实施方式涉及的音频解码装置的构成的图。

如图12所示，音频解码装置具备分离单元200、音频场景解码单元201、基于声道的解码器202、基于对象的解码器203、音频场景合成单元204。

分离单元200，从输入到分离单元200的比特流，分离出基于声道的编码信号和基于对象的编码信号和音频场景编码信号。

音频场景解码单元201，对在分离单元200分离的音频场景编码信号进行解码，输出音频场景信息。

基于声道的解码器202，对在分离单元200分离的基于声道的编码信号进行解码，输出声道信号。

基于对象的解码器203，根据音频场景信息，对基于对象的编码信号进行解码，输出对象信号。

音频场景合成单元204，根据作为基于声道的解码器202的输出信号的声道信号、作为基于对象的解码器203的输出信号的对象信号、以及另外被指示的扬声器配置信息，来合成音频场景。

下面说明如上所述构成的音频解码装置的动作。

首先，在分离单元200，从被输入的比特流，分离出基于声道的编码信号和基于对象的编码信号和音频场景编码信号。

在本实施方式中，将音频场景编码信号设为对各音频对象的感知重要度的信息进行了编码的信号。感知重要度，可以作为各个音频对象的信息量来编码，也可以将重要度的顺序作为第一位、第二位、第三位等来进行编码。并且，也可以是所述的双方。

音频场景编码信号，在音频场景解码单元201被解码，被输出音频场景信息。

接着，基于声道的解码器202解码基于声道的编码信号，基于对象的解码器203，根据音频场景信息，来解码基于对象的编码信号。此时，基于对象的解码器203被赋予表示再现情况的附加信息。例如，表示再现情况的附加信息，可以是执行该处理的处理器的运算电容的信息。

另外，如果运算电容不足的情况下，跳过感知重要度低的音频对象。感知重要度，用编码量来表示的情况下，所述跳过的处理可以根据该编码量的信息来执行。感知重要度以第一位、第二位、第三位等顺序来表示的情况下，读出顺序低的音频对象，原样(不处理)丢弃就可以。

图13示出在根据音频场景信息，表示音频对象的感知重要度低，并且感知重要度作为编码量来表示的情况下，根据该编码量的信息执行跳过的例子。

赋予基于对象的解码器203的附加信息，可以是收听者的属性信息。例如，在收听者是儿童的情况下，只选择与其对应的音频对象，除此以外就丢弃。

在这里，在执行跳过的时候，根据与该音频对象对应的编码量，跳过音频对象。此外，这个情况下，向各个音频对象赋予了元数据，定义该音频对象示出怎样的特性。

最后，在音频场景合成单元204，根据作为基于声道的解码器202的输出信号的声道信号、作为基于对象的解码器203的输出信号的对象信号、以及另外被指示的扬声器配置信息，决定分配给各扬声器的信号，并且进行再现。

该方法如下。

基于声道的解码器202的输出信号，原样分配给各个声道。基于对象的解码器203的输出信号，按照基于对象的音频中原本就包含的对象的再现位置信息，以在该位置构成声像的方式，向各个声道分配音(渲染)。该方法可以是以往周知的任何方法。

另外，图14与图12相同是表示音频解码装置的构成的概略图，不同之处在于音频场景合成单元204中被输入了收听者的位置信息。可以按照该位置信息和基于对象的解码器203原本就包含的对象的再现位置信息，来构成HRTF(HeadRelatedTransferFunctions：头部相关传输函数)。

如上所述，本实施方式涉及的音频解码装置，对编码信号进行解码，该编码信号是对输入信号进行了编码的信号，所述输入信号由基于声道的音频信号和基于对象的音频信号构成，所述编码信号包括基于声道的编码信号、基于对象的编码信号、以及音频场景编码信号，所述基于声道的编码信号是编码了所述基于声道的音频信号的信号，所述基于对象的编码信号是编码了基于对象的音频信号的信号，所述音频场景编码信号是编码了从所述输入信号提取的音频场景信息的信号，所述音频解码装置具备：分离单元，从所述编码信号分离出所述基于声道的编码信号、所述基于对象的编码信号、以及所述音频场景编码信号；音频场景解码单元，从所述编码信号取出所述音频场景信息的编码信号，并进行解码；基于声道的解码器，对所述基于声道的音频信号进行解码；基于对象的解码器，利用在所述音频场景解码单元被解码的所述音频场景信息，对所述基于对象的音频信号进行解码；以及音频场景合成单元，根据所述音频场景信息之外另外被指示的扬声器配置信息，合成所述基于声道的解码器的输出信号和所述基于对象的解码器的输出信号，并且再现被合成的音频场景合成信号。

通过该构成，将音频对象的感知重要度作为音频场景信息，从而即使在运算电容小的处理器进行处理的情况下，也按照感知重要度，能够跳过音频对象，能够尽量抑制音质恶化地进行再现。

此外，通过本实施方式涉及的音频解码装置，将音频对象的感知重要度作为编码量来表示，使其作为音频场景信息，从而在跳过的时候，能够预先掌握跳过的量，所以能够极为简单地执行跳过处理。

此外，通过本实施方式涉及的音频解码装置，向音频场景合成单元204赋予收听者的位置信息，从而根据该位置信息和音频对象的位置信息，能够生成HRTF并进行处理。从而能够进行临场感强的音频场景合成。

以上根据实施方式对本发明的一个方案涉及的音频编码装置以及音频解码装置进行了说明，不过本发明并非受上述的实施方式所限。只要不超出本发明的宗旨，则技术者想出的各种变形例实施在各个实施例的例子，也包括在本发明的范围中。

本申请涉及的音频编码装置以及音频解码装置，能够恰当地编码背景音以及音频对象，并且能够减轻解码侧的运算量，所以能够广泛应用于音频再现设备和伴随图像的AV再现设备。

符号说明

100音频场景分析单元

101基于声道的编码器

102基于对象的编码器

103音频场景编码单元

104复用单元

200分离单元

201音频场景解码单元

202基于声道的解码器

203基于对象的解码器

204音频场景合成单元

Claims

1.一种音频编码装置，对输入信号进行编码，

所述输入信号由基于声道的音频信号和基于对象的音频信号构成，

所述音频编码装置具备：

音频场景分析单元，根据所述输入信号判断音频场景，并且检测音频场景信息；

基于声道的编码器，对从所述音频场景分析单元输出的所述基于声道的音频信号进行编码；

基于对象的编码器，对从所述音频场景分析单元输出的所述基于对象的音频信号进行编码；以及

音频场景编码单元，对所述音频场景信息进行编码。

2.如权利要求1所述的音频编码装置，

所述音频场景分析单元，还从所述输入信号分离出所述基于声道的音频信号和所述基于对象的音频信号，并进行输出。

3.如权利要求1所述的音频编码装置，

所述音频场景分析单元，至少提取基于对象的音频信号的感知重要度信息，并按照该提取结果来决定分别分配给所述基于声道的音频信号和所述基于对象的音频信号的编码比特数，

所述基于声道的编码器，按照所述编码比特数，对所述基于声道的音频信号进行编码，

所述基于对象的编码器，按照所述编码比特数，对所述基于对象的音频信号进行编码。

4.如权利要求3所述的音频编码装置，

所述音频场景分析单元，至少对所述输入信号中的所述基于对象的音频信号中包含的音频对象的数量、各个所述音频对象的声音的大小、所述音频对象的声音的大小的变化、各个所述音频对象的位置、所述音频对象的位置的轨迹、各个所述音频对象的频率特性、各个所述音频对象的掩蔽特性、以及所述音频对象与影像信号的关系中的任一个进行检测，并按照该检测结果来决定分别分配给所述基于声道的音频信号和所述基于对象的音频信号的所述编码比特数。

5.如权利要求3所述的音频编码装置，

所述音频场景分析单元，至少对所述输入信号中的所述基于对象的音频信号中包含的多个音频对象的各个声音的大小、多个所述音频对象的各个声音的大小的变化、各个所述音频对象的位置、所述音频对象的轨迹、各个所述音频对象的频率特性、各个所述音频对象的掩蔽特性、以及所述音频对象与影像信号的关系中的任一个进行检测，并按照该检测结果来决定分别分配给各个所述音频对象的所述编码比特数。

6.如权利要求4所述的音频编码装置，

所述基于对象的音频信号的感知重要度信息的编码结果，与所述基于对象的音频信号的编码结果成对地保存在比特流中，

所述感知重要度信息的编码结果，配置在所述基于对象的音频信号的编码结果之前。

7.如权利要求5所述的音频编码装置，

各个所述音频对象的感知重要度信息的编码结果，与各个所述音频对象的编码结果成对地保存在比特流中，

所述感知重要度信息的编码结果，配置在所述音频对象的编码结果之前。

8.一种音频解码装置，对编码信号进行解码，该编码信号是对输入信号进行了编码的信号，

所述编码信号包括基于声道的编码信号、基于对象的编码信号、以及音频场景编码信号，所述基于声道的编码信号是编码了所述基于声道的音频信号的信号，所述基于对象的编码信号是编码了基于对象的音频信号的信号，所述音频场景编码信号是编码了从所述输入信号提取的音频场景信息的信号，

所述音频解码装置具备：

分离单元，从所述编码信号分离出所述基于声道的编码信号、所述基于对象的编码信号、以及所述音频场景编码信号；

音频场景解码单元，从所述编码信号取出所述音频场景信息的编码信号，并进行解码；

基于声道的解码器，对所述基于声道的音频信号进行解码；

基于对象的解码器，利用在所述音频场景解码单元被解码的所述音频场景信息，对所述基于对象的音频信号进行解码；以及

音频场景合成单元，根据所述音频场景信息之外另外被指示的扬声器配置信息，合成所述基于声道的解码器的输出信号和所述基于对象的解码器的输出信号，并且再现被合成的音频场景合成信号。

9.如权利要求8所述的音频解码装置，

所述音频场景信息是音频对象的编码比特数信息，根据另外被指示的信息，决定所述音频对象中不进行再现的音频对象，并根据该不再现的音频对象的编码比特数，跳过该不再现的音频对象。

10.如权利要求8所述的音频解码装置，

所述音频场景信息是所述音频对象的感知重要度信息，在解码所需的运算资源不足的情况下，跳过感知重要度低的所述音频对象。

11.如权利要求8所述的音频解码装置，

所述音频场景信息是音频对象位置信息，根据该信息、另外被指示的再现侧扬声器配置信息、以及另外被指示的或者预先设想的收听者的位置信息，决定进行缩混时的、并且与各扬声器对应的头部相关传输函数系数。