CN101490745B

CN101490745B - 用于编码和解码基于对象的音频信号的方法和装置

Info

Publication number: CN101490745B
Application number: CN2007800262426A
Authority: CN
Inventors: 尹圣龙; 房熙锡; 李显国; 金东秀; 林宰显
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-11-24
Filing date: 2007-11-24
Publication date: 2013-02-27
Anticipated expiration: 2027-11-24
Also published as: CN101490744A; CN101490745A; CN101490744B

Abstract

本发明涉及一种用于编码和解码基于对象的音频信号的方法和装置。该音频解码方法包括：从音频信号中提取音乐对象基于声道被编码的第一音频信号和第一音频参数，和提取嗓音对象基于对象被编码的第二音频信号和第二音频参数；通过利用第一和第二音频信号中的至少一个来生成第三音频信号，并且通过利用第一和第二音频参数中的至少一个和第三音频信号来生成多声道音频信号。从而，可有效减少编码和解码处理的计算量以及被编码的比特流的大小。

Description

用于编码和解码基于对象的音频信号的方法和装置

技术领域

本发明涉及一种用于编码和解码基于对象的音频信号的音频编码和解码方法及装置，使得音频信号可通过分组得到有效的处理。

背景技术

一般来说，基于对象的音频编/解码采用一种方法，该方法发送从每个对象信号中提取出的特定参数之和以及对象信号，从中恢复各个对象信号，并且混音对象信号以得到期望声道数。则，当对象信号的数量很多时，混音各个对象信号所需的信息量也随着对象信号的数量而增长。

然而，在具有紧密关联的对象信号中，对于每一个对象信号，发送相似的混音信息及类似信息。从而，如果对象信号被打包到一个组中，则相同的信息就只被发送一次，于是提高了效率。

在一般的编码和解码方法中，通过将多个对象信号打包到一个对象信号中可以获得相同的效果。然而，如果使用该方法，增加了对象信号的单位，并且也无法作为打包前的原始对象信号单元来混音对象信号。

发明内容

技术问题

从而，本发明的一个目的是提供一种用于编码和解码对象信号的音频编码和解码方法及其装置，其中有关联的对象音频信号被打包进一个组中，并且可以基于每个组进行处理。

技术方案

为了实现目的，根据本发明的音频信号解码方法包括：从音频信号中提取音乐对象基于声道被编码的第一音频信号和第一音频参数，并提取嗓音对象基于对象被编码的第二音频信号和第二音频参数；通过利用该第一和第二音频信号中的至少一个来生成第三音频信号；和通过利用该第一和第二音频参数中的至少一个以及该第三音频信号来生成多声道音频信号。

进一步，为了实现上述目的，根据本发明的音频解码方法包括步骤：接收缩减混音信号；从该缩减混音信号中提取包含嗓音对象的音乐对象被编码的第一音频信号，并提取嗓音对象被编码的第二音频信号；根据该第一和第二音频信号生成仅包括嗓音对象的音频信号、包括嗓音对象的音频信号和不包括嗓音对象的音频信号中的任何一个。

同时，根据本发明的音频信号解码装置包括：解复用器，用于从接收到的比特流中提取缩减混音信号和边信息；对象解码器，用于通过利用从该缩减混音信号中提取的音乐对象基于声道被编码的第一音频信号和从该缩减混音信号中提取的嗓音对象基于对象被编码的第二音频信号中的至少一个来生成第三音频信号；和多声道解码器，用于通过利用从该边信息中所提取出的第一音频参数和第二音频参数中的至少一个和该第三音频信号来生成多声道音频信号。

进一步，根据本发明的音频解码装置包括：对象解码器，用于根据从缩减混音信号中提取的音乐对象被编码的第一音频信号和从缩减混音信号中提取的嗓音对象被编码的第二音频信号，来生成仅包括嗓音对象的音频信号、包括嗓音对象的音频信号和不包括嗓音对象的音频信号中的任何一个；和多声道解码器，用于通过利用从该对象解码器中输出的信号来生成多声道音频信号。

进一步，根据本发明的音频编码方法包括步骤：生成音乐对象基于声道被编码的第一音频信号和相应于该音乐对象的第一音频参数；生成嗓音对象基于对象被编码的第二音频信号和相应于该嗓音对象的第二音频参数；和生成包括该第一和第二音频信号以及该第一和第二音频参数的比特流。

根据本发明，其提供了一种音频编码装置包括：多声道编码器，用于生成音乐对象基于声道被编码的第一音频信号和关于该音乐对象的基于声道的第一音频参数；对象编码器，用于生成嗓音对象基于对象被编码的第二音频信号和关于该嗓音对象的基于对象的第二音频参数；和复用器，用于生成包括该第一和第二音频信号以及该第一和第二音频参数的比特流。

为实现上述方面，本发明提供一种计算机可读记录介质，其中记录有用于执行上述方法的程序。

有益效果

根据本发明，有关联的对象音频信号可按组被处理，同时最大可能地利用了基于对象的音频信号的编码和解码的优点。从而，提高了编码和解码处理中的计算量，被编码的比特流的大小等方面的效率。进一步，通过将对象信号打包到一个音乐对象、嗓音对象中，本发明可被有效应用到卡拉OK系统等。

附图说明

图1是根据本发明第一实施例的音频编码和解码装置的方框图；

图2是根据本发明第二实施例的音频编码和解码装置的方框图；

图3是表示声音源、组和对象信号之间的关系的示意图；

图4是根据本发明第三实施例的音频编码和解码装置的方框图；

图5和图6是表示主对象和背景对象的示意图；

图7和图8是表示在编码装置中生成的比特流的结构示意图；

图9是根据本发明第四实施例的音频编码和解码装置的方框图；

图10是表示使用多个主对象的例子的示意图；

图11是根据本发明第五实施例的音频编码和解码装置的方框图；

图12是根据本发明第六实施例的音频编码和解码装置的方框图；

图13是根据本发明第七实施例的音频编码和解码装置的方框图；

图14是根据本发明第八实施例的音频编码和解码装置的方框图；

图15是根据本发明第九实施例的音频编码和解码装置的方框图；

图16是表示逐步编码嗓音对象的例子的示意图。

实施本发明的最佳模式

现在将参照附图来详细描述本发明。

图1是根据本发明第一实施例的音频编码和解码装置的方框图。根据本实施例的音频解码和编码装置根据分组的概念来解码并编码相应于基于对象的音频信号的对象信号。换句话说，通过将有关联的一个或多个对象信号打包到一个相同的组中，基于每个组来执行编码和解码。

参见图1，其表示包括对象编码器111的音频编码装置110，及包括对象解码器121和混音器/渲染器123的音频解码装置120。虽然未在图中示出，编码装置110可包括复用器等，用于生成缩减混音信号和边信息所组成的比特流，并且解码装置120可包括解复用器等，用于从接收到的比特流中提取缩减混音信号和边信息。稍后将描述根据其它实施例的具有该结构的编码和解码装置。

编码装置110接收N个对象信号和有关联的对象信号的基于每个组的的组信息，该组信息包括有关位置信息、大小信息、时间标志信息等。编码装置110编码在其中有关联的对象信号被分组在一起的信号，并且生成具有一个或多个声道的基于对象的缩减混音信号和包括从每个对象信号提取出的信息的边信息等。

在解码装置120中，对象解码器121根据缩减混音信号和边信息来生成基于分组被编码的信号，并且混音器/渲染器123根据控制信息将从对象解码器121中输出的信号以特定电平放置于多声道空间中的特定位置。也就是说，解码装置120生成多声道信号，而不会对以分组为基础编码的信号重新以对象为基础进行解包。

根据这种结构，通过分组和编码具有时间上的相同的位置改变、大小改变、延迟改变等的对象，可减少需要被传输的信息量。进一步，如果对象信号被分组，可传输关于一个组的共用边信息，所以可以容易地控制属于相同组的多个对象信号。

图2是根据本发明第二实施例的音频编码和解码装置的方框图。根据该实施例的音频信号解码装置140与第一实施例不同，其区别在于音频信号解码装置140进一步包括对象提取器143。

换句话说，编码装置130、对象解码器141、和混音器/渲染器145具有与第一实施例相同的功能和结构。然而，因为解码装置140进一步包括对象提取器143，当必须解包对象单元时，相应对象信号所属的一个组可以对象为单位被解包。在这种情况下，不会以对象为单位被解包，而只对不可能以组为单位进行混音的组提取对象信号。

图3是表示声音源、组和对象信号之间的关系的示意图。如图3所示，具有相同属性的对象信号被分组在一起，这样可以减小比特流的大小，并且所有的对象信号属于上层的组。

图4是根据本发明第三实施例的音频编码和解码装置的方框图。在根据本实施例的音频编码和解码装置中，使用了核心缩减混音声道这一概念。

参见图4，其示出了属于音频编码装置的对象编码器151，及包括对象解码器161和混音器/渲染器163的音频解码装置160。

对象编码器151接收N个对象信号(N＞1)，并且生成M个声道的缩减混音信号(1＜M＜N)。在解码装置160中，对象解码器161再次将M个声道的缩减混音信号解码为N个对象信号，并且混音器/渲染器163最终输出L个声道信号(L≥1)。

此时，由对象编码器151所生成的M个缩减混音声道包括K个核心缩减混音声道(K＜M)和M-K个非核心缩减混音声道。缩减混音声道具有上述结构的原因是因为其重要性可根据对象信号而改变。换句话说，对于对象信号一般的编码和解码方法不具有足够的分辨率，因此其可以包括基于每个对象信号的其它对象信号的成分。则，如果缩减混音声道包括如上所述的核心缩减混音声道和非核心缩减混音声道，可最小化对象信号之间的冲突。

在这种情况下，核心缩减混音声道可使用不同于非核心缩减混音声道所使用的处理方法。举例来说，参见图4，输入到混音器/渲染器163的边信息可仅在核心缩减混音声道中被定义。换句话说，混音器/渲染器163可被配置为仅控制从核心缩减混音声道中解码出的对象信号，而不控制从非核心缩减混音声道中解码出的对象信号。

作为另一个例子，核心缩减混音声道可仅由少数对象信号构成，这些对象信号被分组在一起并根据一个控制信息被控制。举例来说，额外的核心缩减混音声道可仅由嗓音信号构成以构成卡拉OK系统。进一步，额外的核心缩减混音声道可通过仅分组鼓声等信号来构成，所以低频信号，例如鼓声信号的强度，可被精确控制。

同时，通常通过混合多种具有轨迹形式的音频信号来生成音乐。举例来说，在音乐是由鼓声、吉他声、钢琴声和嗓音信号组成的情况下，鼓声、吉他声、钢琴声和嗓音信号的每一个都可作为一个对象信号。在这种情况下，全部对象信号中的某一个信号被确定为特别重要的信号，并且可由用户来控制，或者多个对象信号，其被作为一个对象信号来混音和控制，可被定义为主对象。进一步，全部对象信号中的主对象以外的对象信号的混合可被定义为背景对象。根据该定义，可以说全部对象或音乐对象包括主对象和背景对象。

图5和图6是表示主对象和背景对象的示意图。如图5a所示，假设主对象是嗓音，背景对象是嗓音之外的全部乐器声的混合，音乐对象可包括嗓音对象和除嗓音之外的乐器的混音后的背景对象。如图5b所示，主对象的数量可以是一个或多个。

进一步，主对象可以具有在其中多种对象信号被混音的形态。举例来说，如图6所示，嗓音和吉他声的混音可被作为主对象，剩余乐器声可被作为背景对象。

为了能分别控制音乐对象中的主对象和背景对象，在编码装置中编码的比特流必须具有如图7所示的格式之一。

图7a表示在编码装置中生成的比特流由音乐比特流和主对象比特流组成时的情况。音乐比特流具有这样的形态，即所有的对象信号混合于其中，并且是指相应于所有主对象和背景对象之和的比特流。图7b表示比特流是由音乐比特流和背景对象比特流组成时的情况。图7c表示比特流是由主对象比特流和背景对象比特流组成时的情况。

在图7中，通过使用具有相同方法的编码器和解码器来确定规则以生成音乐比特流、主对象比特流和背景比特流。然而，当主对象被用作为嗓音对象时，可使用MP3来解码和编码音乐比特流，并且可使用例如AMR、QCELP、EFR或EVRC的语音编解码器来解码和编码嗓音对象比特流，这样可以减少比特流的容量。换句话说，音乐对象和主对象，主对象和背景对象等的编码和解码方法可以不同。

在图7a中，使用与通常编码方法相同的方法来配置音乐比特流部分。进一步，在诸如MP3或AAC之类的编码方法中，在比特流的后半部分中，可包含诸如副区域或辅助区域之类指示边信息的部分，主对象比特流可被增加到这个部分。因此，总比特流是由音乐对象被编码的区域和接着音乐对象被编码的区域的主对象区域所组成的。此时，将一个表示增加了主对象的标识符、标志等添加到边区域的第一半部分，所以在解码装置中可以确定是否存在主对象。

图7b的情况基本上与图7a的格式相同。在图7b中，使用背景对象来代替图7a中的主对象。

图7c表示比特流是由主对象比特流和背景对象比特流组成时的情况。在这种情况下，音乐对象是由主对象和背景对象的总和或混音所组成的。在该配置比特流的方法中，首先存储背景对象，并且接着在辅助区域中存储主对象。可选的是，首先存储主对象，并且接着在辅助区域中存储背景对象。在这样的情况下，如上所述，可将表示边区域信息的标识符添加到边区域的第一半部分。

图8表示配置比特流的方法，以便确定增加的主对象。第一个例子是在音乐比特流完成后相应的区域为辅助区域，直到下一帧开始。在第一个例子中，仅包括表示主对象已被编码的标识符。

第二个例子相应于需要表示从音乐比特流之后开始的辅助区域或数据区域已经完成的标识符的编码方法。为此，在编码主对象的过程中，需要两种标识符，比如一个表示辅助区域开始的标识符，和一个表示主对象的标识符。在解码该比特流的过程中，通过读取标识符来确定数据的类型，并且接着通过数据部分来解码比特流。

图9是根据本发明第四实施例的音频编码和解码装置的方框图。根据该实施例的音频编码和解码装置编码和解码在其中增加了嗓音对象作为主对象的比特流。

参见图9，包括在编码装置中的编码器211编码包括嗓音对象和音乐对象的音乐信号。编码器211的音乐信号的例子包括MP3、AAC、WMA等。编码器211将嗓音对象作为除音乐信号之外的主对象增加到比特流中。此时，编码器211将嗓音对象增加到表示边信息的部分中，例如以上提及的副区域或辅助区域，并且将表示把存在额外的嗓音对象这个事实通知给编码装置的标识符增加到该部分。

解码装置220包括一般编解码解码器221，嗓音解码器223和混音器225。一般编解码解码器221解码所接收到的比特流的音乐比特流部分。在这种情况下，主对象区域可被简单地识别为边区域或数据区域，但其在解码处理中不被使用。嗓音解码器223解码所接收到的比特流中的嗓音对象部分。混音器225对在一般编解码解码器221和嗓音解码器223中所解码的信号进行混音，并且输出混音结果。

当接收到的比特流中包括作为主对象的嗓音对象时，不包括嗓音解码器223的解码装置仅解码音乐比特流并且输出解码结果。然而，即使在这种情况下，其还是和通常的音频输出一样，因为在音乐比特流中包括了嗓音信号。进一步，在解码处理中，其根据标识符等来确定是否有嗓音对象被增加到了比特流中。当不可能解码嗓音对象时，通过跳过来忽略嗓音对象，但是当可能解码嗓音对象时，嗓音信号被解码并被用于混音。

一般编解码解码器221适用于音乐播放和一般使用的音频解码。举例来说，有MP3、AAC、HE-AAC、WMA、Ogg Vorbis等。嗓音解码器223可使用与一般编解码解码器221相同或不同的编解码器。举例来说，嗓音解码器223可使用语音编解码器，例如EVRC、EFR、AMR或QCELP。在这种情况下，可减少解码的计算量。

进一步，如果嗓音对象是由单声所组成的，可以最大可能地减少比特率。然而，如果音乐比特流不能仅由单声组成，因其是由立体声道组成且左右声道的嗓音信号不相同，嗓音对象也可由立体声组成。

在根据本实施例的解码装置220中，可以对仅播放音乐的模式、仅播放主对象的模式、和充分混音并播放音乐和主对象的模式中的任何一种模式进行选择并播放，以响应于诸如在播放装置上的按钮或菜单的操作之类的用户控制命令。

在主对象被忽略并且仅播放原始音乐这一事件中，其对应于当前音乐的播放。然而，因为可以响应于用户控制命令进行混音，所以可以控制主对象或背景对象的大小。当主对象是嗓音对象时，这意味着当与背景音乐相比较后只有嗓音可被增加或减小。

仅播放主对象的例子可以包括嗓音对象或一个特定的乐器声以作为主对象。换句话说，这意味着仅可听到嗓音而听不到背景音乐，仅可听到乐器声而听不到背景音乐等。

当音乐和主对象被充分地混音并播放时，这意味着当与背景音乐相比较后只有嗓音可被增加或减小。尤其是，在嗓音成分被完全从音乐中剥离出后，因为嗓音成分的消失，该音乐可被用于卡拉OK系统。如果嗓音对象在编码装置中被编码，其中嗓音对象的相位被逆转，解码装置可通过将嗓音对象增加到音乐对象中而播放卡拉OK系统。

在上述处理中，已经描述了音乐对象和主对象被分别解码然后被混音。然而，可以在解码处理期间执行混音处理。举例来说，在诸如包括MP3和AAC之类的MDCT(修改的离散余弦变换)变换编码系列中，可对MDCT系数执行混音并且最终执行逆MDCT，这样来生成PCM输出。在这种情况下，可有效减少总计算量。此外，本发明并不限制于MDCT，而是包括所有的变换，其中关于一般变换编码系列解码器的系数被混合进变换域中，并且接着执行解码。

此外，在上述例子中已经描述了使用一个主对象的例子。然而，还可以使用多个主对象。举例来说，如图10所示，嗓音信号可作为主对象1，吉他声音可作为主对象2。该结构在仅播放音乐中除了嗓音和吉他之外的背景对象，并且用户直接唱歌和弹吉他时是特别有用的。进一步，可通过音乐的多种组合来播放该比特流，该音乐组合的其中之一可为不包括嗓音的音乐、不包括吉他的音乐、不包括嗓音和吉他的音乐等。

同时，在本发明中，由嗓音比特流所指示的声道可被扩展。举例来说，可使用鼓声比特流来播放音乐的整个部分、音乐的鼓声部分、或音乐中整个部分中不包括鼓声的那部分。进一步，可使用两个或更多额外的比特流，例如嗓音比特流和鼓声比特流来基于每个部分控制混音。

此外，在本实施例中，仅主要描述了立体声/单声。然而，本实施例还可被扩展到多声道。举例来说，可通过将嗓音对象、主对象比特流等增加到5.1声道比特流来配置比特流，并且可以播放原始声音、剥离了嗓音的声音和仅包括嗓音的声音中的任何一个。

本实施例还可被配置为仅支持音乐和从音乐中剥离了嗓音的模式，而不支持仅播放嗓音(主对象)的模式。该方法可被应用于当演唱者不希望仅播放嗓音时。其可被扩展到解码器的配置，在该配置中指示是否存在仅支持嗓音的功能的标识符被放置于比特流中，并且根据该比特流来决定播放的范围。

图11是根据本发明第五实施例的音频编码和解码装置的方框图。根据该实施例的音频编码和解码装置可使用残差信号来实现卡拉OK系统。当其专用于卡拉OK系统时，音乐对象可被划分为如上所述的背景对象和主对象。主对象涉及与背景对象分离控制的对象信号。尤其是，主对象涉及嗓音对象信号。背景对象是除主对象之外的整个对象信号之和。

参见图11，包括在编码装置中的编码器251编码一起输出的背景对象和主对象。在编码过程中，可使用诸如AAC或MP3之类的一般音频编解码器。如果在解码装置260中解码信号，解码后的信号包括背景对象信号和主对象信号。假设解码后的信号是原始解码信号，可使用以下方法以将卡拉OK系统应用给该信号。

主对象是以残差信号的形式包括在全部比特流中。主对象被解码并且接着被从原始解码信号中剥离。在这种情况下，第一解码器261解码全部信号，并且第二解码器263解码残差信号，其中g＝1。可选的是，具有相反相位的主对象信号可以残差信号的形式包括在全部比特流中。主对象信号可被解码并且接着被增加给原始解码信号。在这种情况下，g＝-1。在以上任一方法中，可通过控制g值来实现一种可伸缩的卡拉OK系统。

举例来说，当g＝-0.5或g＝0.5时，主对象或嗓音对象没有被完全移除，而仅可控制其电平。进一步，如果值g被设为正数或0负数，其影响嗓音对象的大小的控制。如果没有使用原始解码信号，并且仅输出残差信号，也可支持仅有嗓音的独唱模式。

图12是根据本发明第六实施例的音频编码和解码装置的方框图。根据该实施例的音频编码和解码装置通过区分用于卡拉OK信号输出和嗓音模式输出的残差信号而使用两个残差信号。

参见图12，在第一解码器291解码的原始解码信号在对象分离单元295中被划分为背景对象信号和主对象信号，并且接着被输出。事实上，背景对象包括一些主对象成分和原始背景对象，并且主对象也包括一些背景对象成分和原始主对象。这是因为将原始解码信号划分为背景对象和主对象信号的过程是不完全的。

尤其是，关于背景对象，包括在背景对象中的主对象成分可被预先以残差信号的形式包括在所有比特流中，所有比特流将被解码，并且可从背景对象中减去主对象成分。在这种情况下，在图12中，g＝-1。通过如第五实施例中所述的那样控制g值的任一方法可以实现可伸缩的卡拉OK系统。

以同样的方法，在残差信号被应用到主对象信号后通过控制值g1可以支持独唱模式。考虑残差信号和原始对象的相位比较及嗓音模式的程度，g1值可如以上描述那样被应用。

图13是根据本发明第七实施例的音频编码和解码装置的方框图。在该实施例中，使用以下方法来进一步减少上述实施例中的残差信号的比特率。

当主对象信号是单声信号时，立体声-三声道变换单元305对在第一解码器301中解码的原始立体声信号执行立体声-三声道变换。因为立体声-三声道变换没有完成，背景对象(也就是一个输出)包括一些主对象成分和背景对象成分，并且主对象(也就是另一个输出)也包括一些背景对象成分和主对象成分。

接着，第二解码器303对所有比特流的残差部分执行解码(或在解码后，进行qmf变换或mdct-qmf变换)，并且加权到背景对象信号和主对象信号中。从而，可以分别获得由背景对象成分和主对象成分所组成的信号。

该方法的优点是，因为背景对象信号和主对象信号通过立体声-三声道变换已被划分，可使用较少比特率来构建用于去除包括在信号中的其它成分的残差信号(即，保留在背景对象信号中的主对象成分和保留在主对象信号中的背景对象成分)。

参见图13，假设在背景对象信号BS中的背景对象成分为B、主对象成分为m，以及在主对象信号MS中的主对象成分为M、背景对象成分为b，则建立以下公式。

算式1

BS＝B+m

MS＝M+b

举例来说，当残差信号R由b-m组成，最终卡拉OK输出KO结果为：

算式2

KO＝BS+R＝B+b

最终独唱模式输出SO结果为：

算式3

SO＝BS-R＝M+m

在上述公式中可把残差信号的符号改为相反的，也就是说，R＝m-b，g＝-1&g1＝1。

当配置BS和MS时，根据如何设置B、m、M和/或b的符号，可容易地计算出g和g1的值，上述g和g1用于使得KO和SO的最终值能由B和b及M和m组成的。在上述情况中，由原始信号对卡拉OK和独唱信号虽然只做了微小改变，但就可以实现实际使用的输出信号的高质量，这是因为卡拉OK的输出不包括独唱成分，并且独唱的输出也不包括卡拉OK成分。

进一步，当存在两个或多个主对象时，可逐步使用二至三声道变换和残差信号的增加/减少。

图14是根据本发明第八实施例的音频编码和解码装置的方框图。根据该实施例的音频信号解码装置330与第七实施例不同，其区别在于当主对象信号是立体声信号时，对每个原始立体声声道执行两次单声-立体声变换。

因为单声-立体声变换不是完美的，背景对象信号(也就是一个输出)包括一些主对象成分和背景对象成分，并且主对象信号(也就是另一个输出)包括一些背景对象成分和主对象成分。其后，对所有比特流中的残差部分执行解码(或在解码后，执行qmf变换或mdct-qmf变换)，则左和右声道成分乘上加权后被分别增加到背景对象信号和主对象信号的左右声道中，所以可以获得由背景对象成分(立体声)和主对象成分(立体声)所组成的信号。

在通过利用立体声背景对象和立体声主对象之间的差而形成的立体声残差信号中，图14中的g＝g2＝-1且g1＝g3＝1。此外，如上所述，可根据背景对象信号、主对象信号和残差信号的符号容易地计算出g、g1、g2和g3的值。

一般来说，主对象信号可以是单声或立体声。因为这个原因，指示主对象是单声还是立体声的标志被放置于所有比特流中。当主对象信号是单声时，可使用如图13所示的第七实施例的方法来解码主对象信号，当主对象信号是立体声时，通过读取标志可使用如图14所示的第八实施例的方法来解码主对象信号。

此外，当包括一个或多个主对象时，可根据每个主对象是单声还是立体声来连续地使用上述方法。此时，每个方法所使用的次数与单声/立体声主对象数量一样。举例来说，当主对象的数量为3，三个主对象中的单声主对象数量为2，立体声主对象数量为1时，可通过使用第七实施例所述的方法两次和图14中的第八实施例所述的方法一次来输出卡拉OK信号。此时，可预先决定第七实施例所述的方法和第八实施例所述的方法的顺序。举例来说，对于单声主对象总是执行第七实施例所述的方法，而对于立体声对象执行第八实施例所述的方法。作为另一种顺序决定方法，用于描述第七实施例所述的方法和第八实施例所述的方法的顺序的描述符可被放置于总比特流中，并且可以根据描述符来选择性地执行方法。

图15是根据本发明第九实施例的音频编码和解码装置的方框图。根据该实施例的音频编码和解码装置使用多声道编码器来生成音乐对象或背景对象。

参见图15，显示了一种音频编码装置350，其包括多声道编码器351，对象编码器353和复用器355，还显示了一种音频解码装置360，其包括解复用器361，对象解码器363和多声道解码器369。对象解码器363可包括声道变换器365和混音器367。

多声道编码器351使用基于声道的音乐对象来生成缩减混音信号，并且通过提取音乐对象的信息来生成基于声道的第一音频参数信息。对象编码器353生成一缩减混音信号(该缩减混音信号是通过使用嗓音对象和多声道编码器351生成的缩减混音信号编码而得)作为对象基础、并生成基于对象的第二音频参数信息和相应于嗓音对象的残差信号。复用器355生成对象编码器353所生成的缩减混音信号和边信息所组合的比特流。此时，边信息是包括多声道编码器351所生成的第一音频参数，残差信号和对象解码器353所生成的第二音频参数等的信息。

在音频解码装置360中，解复用器361从接收到的比特流中解复用缩减混音信号和边信息。对象解码器363通过利用在其中音乐对象基于声道被编码的音频信号和在其中嗓音对象被编码的音频信号中的至少一个来生成带有被控制的嗓音成分的音频信号。对象解码器363包括声道变换器365，其可以在解码处理中执行单声-立体声变换或二-三变换。混音器367可以使用包括在控制信息中的混音参数等来控制特定对象信号的电平、位置等。多声道解码器369使用在对象解码器363所解码的音频信号和边信息等来生成多声道信号。

对象解码器363可以根据输入的控制信息来生成对应于在其中生成不具有嗓音成分的音频信号的卡拉OK模式，在其中生成仅包括嗓音成分的音频信号的独唱模式，和在其中生成包括嗓音成分的音频信号的一般模式这三种模式中的任何一种的音频信号。

图16是表示逐步编码嗓音对象情况下的示意图。参见图16，根据本实施例的编码装置380包括多声道编码器381，第一到第三对象编码器383、385和387，和复用器389。

多声道编码器381具有与图15所示的多声道编码器一样的结构与功能。本实施例与图15所示的第九实施例的区别在于：第一到第三对象编码器383、385和387被配置为逐步分组嗓音对象和残差信号，残差信号是在各个分组步骤生成的，并且包括在复用器389生成的比特流中。

在解码通过这种处理而生成的比特流时，可通过将从比特流中所提取的残差信号应用到通过逐步分组音乐对象而被编码的音频信号或通过逐步分组嗓音对象而被编码的音频信号中来生成具有控制的嗓音成分或其它期望的对象成分的信号。

同时，在上述实施例中，执行原始编码信号与残差信号之和或之差，或者背景对象或主对象与残差信号之和或之差的位置并不限制于某一特定区域。举例来说，可在时域中或在频域中，诸如MDCT域中执行该处理。可选的是，可在子带域，诸如QMF子带域或混合子带域中执行该处理。尤其是，当在频域或子带域中执行该处理时，可通过控制不包括残差成分的频带数量来生成可伸缩的卡拉OK信号。举例来说，当原始解码信号的子带数量为20时，如果残差信号的频带数量被设为20，则可以输出完美的卡拉OK信号。当仅覆盖了10个低频时，仅从低频部分排除嗓音成分，并在高频部分保留。在后一种情况中，声音质量比前一种情况要低，但是其具有更低比特率的优点。

进一步，当主对象的数量不是一个时，多个残差信号可被包括在所有比特流中，并且可以多次执行残差信号之和或之差。举例来说，当两个主对象包括嗓音和吉他时，并且它们的残差信号包括在所有比特流中，则可以以如下方式生成去除了嗓音和吉他信号的卡拉OK信号：首先从所有信号中去除嗓音信号，接着再去除吉他信号。在这种情况下，可以生成在其中仅去除了嗓音信号的卡拉OK信号和在其中仅去除了吉他信号的卡拉OK信号。可选的是，可仅输出嗓音信号或仅输出吉他信号。

此外，为了通过从所有信号中完全地仅去除嗓音信号而生成卡拉OK信号，所有信号和嗓音信号被分别编码。根据用于编码的编解码器的类型而需要以下两种方式。第一，总是在所有信号和嗓音信号中使用相同的编码编解码器。在这种情况下，要在比特流中建立一个能够确定关于所有信号和嗓音信号的编码编解码器类型的标识符，并且解码器通过确定该标识符来执行编解码器类型的识别、解码信号、并且接着去除嗓音成分的处理。在该处理中，以上所述，使用了和及差。标识符的信息可包括是否残差信号使用了与原始解码信号相同的编解码器，用于编码残差信号的编解码器的类型等。

另外，对于所有信号和嗓音信号可以使用不同的编码编解码器。举例来说，嗓音信号(也就是残差信号)总是使用固定的编解码器。在这种情况下，用于残差信号的标识符就不是必需的，并且只有预定的编解码器可被用于解码所有信号。然而，在这种情况下，从所有信号中去除残差信号的处理被限制于在两个信号之间的处理是立即可行的域，诸如时域或子带域。举例来说，在MDCT域中，两个信号之间的处理不是立即可行的。

此外，根据本发明，可输出仅由背景对象信号所组成的卡拉OK信号。可通过对卡拉OK信号执行额外的扩展混音来生成多声道信号。举例来说，如果额外应用MPEG环绕声给本发明所生成的卡拉OK信号，可以生成5.1声道卡拉OK信号。

另外，在上述实施例中，已经描述了一帧内的音乐对象和主对象的数量，或背景对象和主对象的数量是相同的情况了。然而，一帧内的主对象和主对象的数量，或背景对象和主对象的数量可以不同。举例来说，音乐可存在于每帧中，并且主对象可存在于每两帧。此时，主对象可被解码，并且解码结果可被应用于两个帧。

音乐和主对象可以具有不同的采样频率。举例来说，当音乐的采样频率为44.1KHz，主对象的采样频率为22.05KHz时，主对象的MDCT系数可被计算，并且接着可仅对音乐的MDCT系数的相应区域执行混音。其利用了在卡拉OK系统中，嗓音具有比乐器声更低的频带的原理，并且其具有减少数据容量的优点。

此外，根据本发明，可在处理器可读的记录介质上实现处理器可读的代码。处理器可读的记录介质可包括在其上存储有可被处理器读取的数据的所有种类的记录装置。处理器可读的记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储器等，并且还包括例如通过因特网的传输的载波。此外，处理器可读的记录介质可在通过网络而连接的系统中被分配，并且处理器可读的代码可以分布方式被存储和执行。

尽管本发明已参照其优选实施例进行了描述，可以理解的是本发明并不限于这些特定实施例，本领域技术人员可以作出多种可能的修改。需要注意的是，这些修改不应脱离于本发明的技术精神和期望而被单独理解。

工业实用性

本发明可被用于基于对象的音频信号的编码和解码处理，根据组来处理关联的对象信号，并且可以提供播放模式，诸如卡拉OK模式，独唱模式和一般模式。

Claims

1.一种音频解码方法，其包括：

从接收的比特流提取缩减混音信号和边信息；

从所述边信息中提取第一音频参数和第二音频参数；

从所述缩减混音信号中提取第一音频信号和至少一个嗓音对象

通过使用至少一个所述第一音频信号和所述至少一个嗓音对象来生成第三音频信号；和

通过使用所述第一音频参数和所述第二音频参数中的至少一个以及所述第三音频信号来生成多声道音频信号，

其中：

使用至少两个音乐对象作为声道基础而产生所述第一音频信号；

通过提取关于音乐对象的信息而产生所述第一音频参数；

当所述第一音频信号和所述至少一个嗓音对象被缩减混音到所述缩减混音信号中作为对象基础时，生成所述第二音频参数。

2.如权利要求1所述的音频解码方法，其中，根据用户控制命令来生成所述第三音频信号。

3.如权利要求1所述的音频解码方法，其中，通过从所述缩减混音信号中减去所述第一音频信号和所述至少一个嗓音对象中的一个而生成所述第三音频信号。

4.如权利要求1所述的音频解码方法，其中，通过去除所述第一音频信号和所述至少一个嗓音对象中的一个而生成所述第三音频信号。

5.如权利要求1所述的音频解码方法，其中，所述第一音频信号是不包括嗓音成分的信号。

6.如权利要求1所述的音频解码方法，其中，所述比特流是从广播信号中接收到的信号。

7.一种音频解码装置，其包括：

解复用器，用于从接收的比特流提取缩减混音信号和边信息；

对象解码器，用于从所述边信息中提取第一音频参数和第二音频参数、从所述缩减混音信号中提取第一音频信号和至少一个嗓音对象、以及通过使用至少一个所述第一音频信号和所述至少一个嗓音对象来生成第三音频信号；和

多声道解码器，用于通过使用所述第一音频参数和所述第二音频参数中的至少一个和所述第三音频信号来生成多声道音频信号，

其中：

使用至少两个音乐对象作为声道基础来生成所述第一音频信号；

通过提取关于所述音乐对象的信息来生成所述第一音频参数；

当所述第一音频信号和所述至少一个嗓音对象被缩减混音到所述缩减混音信号中时，生成所述第二音频参数。

8.如权利要求7所述的音频解码装置，其中，所述对象解码器通过从所述缩减混音信号中减去所述第一音频信号和所述至少一个嗓音对象中的一个而生成所述第三音频信号。

9.一种音频编码方法，其包括：

通过缩减混音至少两个音乐对象作为声道基础来生成第一音频信号；

通过提取关于所述音乐对象的信息来生成第一音频参数；

通过缩减混音所述第一音频信号和至少一个嗓音对象作为对象基础而生成缩减混音信号和第二音频参数；和

生成包括所述缩减混音信号以及所述第一音频参数和所述第二音频参数的比特流。

10.一种音频编码装置，其包括：

多声道编码器，用于通过缩减混音至少两个音乐对象作为声道基础来生成第一音频信号，通过提取关于所述音乐对象的信息来生成第一音频参数；

对象编码器，用于通过缩减混音所述第一音频信号和至少一个嗓音对象作为对象基础来生成缩减混音信号和第二音频参数；和

复用器，用于生成包括缩减混音信号以及所述第一音频参数和所述第二音频参数的比特流。