CN101542596B - 用于编码和解码基于对象的音频信号的方法和装置 - Google Patents

用于编码和解码基于对象的音频信号的方法和装置 Download PDF

Info

Publication number
CN101542596B
CN101542596B CN200880000383.5A CN200880000383A CN101542596B CN 101542596 B CN101542596 B CN 101542596B CN 200880000383 A CN200880000383 A CN 200880000383A CN 101542596 B CN101542596 B CN 101542596B
Authority
CN
China
Prior art keywords
signal
information
audio
reduction
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880000383.5A
Other languages
English (en)
Other versions
CN101542596A (zh
Inventor
金东秀
房熙锡
林宰显
尹圣龙
李显国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Priority claimed from PCT/KR2008/000885 external-priority patent/WO2008100100A1/en
Publication of CN101542596A publication Critical patent/CN101542596A/zh
Application granted granted Critical
Publication of CN101542596B publication Critical patent/CN101542596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

提供了一种音频解码方法和装置及音频编码方法和装置,其可以有效地处理基于对象的音频信号。该音频解码方法包括:接收缩减混音信号和基于对象的边信息,该缩减混音信号包括至少两个缩减混音声道信号;从该基于对象的边信息中提取增益信息;以及根据基于该增益信息生成用于逐声道地修改该缩减混音声道信号的修改信息;以及通过把该修改信息应用到该缩减混音声道信号来修改该缩减混音声道信号。

Description

用于编码和解码基于对象的音频信号的方法和装置
技术领域
本发明涉及一种音频编码方法和装置,以及一种音频解码方法和装置,其中可通过执行编码和解码操作来有效处理基于对象的音频信号。
背景技术
一般来说,在多声道音频编码和解码技术中,多声道信号的多个声道信号被缩减混音进较少个数的声道信号中,传输关于原始声道信号的边信息(sideinformation)并且恢复具有和原始多声道信号一样多的声道的多声道信号。
基于对象的音频编码和解码技术与多声道音频编码和解码技术在将多个声音源缩减混音进较少个数的声音源信号中,并传输关于原始声音源的边信息方面是基本上相似的。然而,在基于对象的音频编码和解码技术中,对象信号其为声道信号的基本元素(例如乐器的声音或人的语音),被视为与多声道音频编码和解码技术中的声道信号相同,并且也可被编/解码。
换句话说,在基于对象的音频编码和解码技术中,对象信号被视为是要被编/解码的主体(entities)。在这点上,基于对象的音频编码和解码技术与多声道音频编码和解码技术是有区别的,该区别在于多声道音频编/解码操作是简单地根据声道间信息而被编/解码的,而与要被编/解码的声道信号中的元素数量无关。
发明内容
技术问题
本发明提供了一种音频编码方法和装置,以及一种音频解码方法和装置,其中可以编码或解码音频信号以使得该音频信号可被应用于各种环境。
技术方案
根据本发明的一个方面,其提供了一种音频解码方法,包括:接收缩减混音信号和基于对象的边信息,该缩减混音信号包括至少两个缩减混音声道信号;从该基于对象的边信息中提取增益信息;以及根据基于该增益信息生成用于逐声道地修改该缩减混音声道信号的修改信息;以及通过把该修改信息应用到该缩减混音声道信号来修改该缩减混音声道信号。
根据本发明的另一个方面,其提供了一种音频编码方法,包括:通过缩减混音对象信号生成缩减混音信号,该缩减混音信号包括至少两个缩减混音声道信号;提取关于该对象信号的对象相关信息,并基于该对象相关信息生成基于对象的边信息;并把用于逐声道地修改该缩减混音声道信号的增益信息插入到该基于对象的边信息中。
根据本发明的另一个方面,其提供了一种解码装置,包括:解复用器,其被配置为从输入音频信号中提取缩减混音信号和基于对象的边信息,该缩减混音信号包括至少两个缩减混音声道信号;和代码转换器,其被配置为根据从该基于对象的边信息中提取的增益信息生成用于逐声道地修改该缩减混音声道信号的修改信息,并通过把该修改信息应用到该缩减混音声道信号来修改该缩减混音声道信号。
根据本发明的另一个方面,其提供了一种计算机可读记录介质,其中记录有用于执行一种音频解码方法的计算机程序,该音频解码方法包括:接收缩减混音信号和基于对象的边信息,该缩减混音信号包括至少两个缩减混音声道信号;从该基于对象的边信息中提取增益信息;以及
根据该增益信息生成用于逐声道地修改该缩减混音声道信号的修改信息;以及通过把该修改信息应用到该缩减混音声道信号来修改该缩减混音声道信号。
根据本发明的另一个方面,其提供了一种计算机可读记录介质,其中记录有用于执行一种音频编码方法的计算机程序,该音频编码方法包括:通过缩减混音对象信号生成缩减混音信号,该缩减混音信号包括至少两个缩减混音声道信号;提取关于该对象信号的对象相关信息,并基于该对象相关信息生成基于对象的边信息;并把用于逐声道地修改该缩减混音声道信号的增益信息插入到该基于对象的边信息中。
附图说明
图1是典型的基于对象的音频编码/解码系统的方框图;
图2是根据本发明第一实施例的音频解码装置的方框图;
图3是根据本发明第二实施例的音频解码装置的方框图;
图4是根据本发明第三实施例的音频解码装置的方框图;
图5是可用于图4所示的音频解码装置的任意缩减混音增益(ADG)模块的方框图;
图6是根据本发明第四实施例的音频解码装置的方框图;
图7是根据本发明第五实施例的音频解码装置的方框图;
图8是根据本发明第六实施例的音频解码装置的方框图;
图9是根据本发明第七实施例的音频解码装置的方框图;
图10是根据本发明第八实施例的音频解码装置的方框图;
图11和12是用于解释代码转换器操作的框图;
图13至16是用于解释基于对象的边信息的结构的框图;
图17至22是用于解释将多个基于对象的边信息的片段合并成一个单独的边信息的框图;
图23至27是用于解释预处理操作的框图;和
图28至33是用于解释将使用基于对象的信号解码的多个比特流合并进一个比特流中的情况的框图。
实施本发明的最佳模式
现在将参考附图来详细说明本发明,在附图中已表示了本发明的示例性实施例。
根据本发明的一种音频编码方法和装置以及一种音频解码方法和装置可被应用于基于对象的音频处理操作,但是本发明并不限于此。换句话说,该音频编码方法和装置以及音频解码方法和装置还可被应用于基于对象的音频处理操作之外的各种信号处理操作。
图1是典型的基于对象的音频编码/解码系统的方框图。通常来说,输入给基于对象的音频编码装置的音频信号与多声道信号的声道是不对应的,这些音频信号是独立的对象信号。在这点上,基于对象的音频编码装置与多声道音频编码装置是不同的,其区别在于多声道音频编码装置输入多声道信号的声道信号。
举例来说,诸如5.1声道信号的左前声道信号和右前声道信号之类的声道信号被输入到多声道音频信号中,然而诸如人语音或乐器声音(例如小提琴或钢琴的声音)之类的比声道信号小的主体的对象信号可被输入到基于对象的音频编码装置中。
参见图1,该基于对象的音频编码/解码系统包括:基于对象的音频编码装置和基于对象的音频解码装置。基于对象的音频编码装置包括对象编码器100,基于对象的音频解码装置包括对象解码器111和混音器/渲染器113。
对象编码器100接收N个对象信号,并且生成带有一个或多个声道的基于对象的缩减混音信号和边信息,所述边信息包括从N个对象音频信号中提取的多个信息,例如能量差信息,相位差信息和相关性信息。边信息和基于对象的缩减混音信号被合并成一个单一比特流,并且该比特流被传输给基于对象的解码装置。
边信息可包括指示是否执行基于声道的音频编/解码或基于对象的音频编/解码的标志,则,可以根据边信息的标志来确定是执行基于声道的音频编/解码还是执行基于对象的音频编/解码。边信息还可包括关于对象信号的能量信息、分组信息、静止期信息,缩减混音增益信息和延迟信息。
边信息和基于对象的缩减混音信号可被合并到一个单独比特流中,并且该比特流可被传输给基于对象的音频解码装置。
对象解码器111接收来自基于对象的音频编码装置的基于对象的缩减混音信号和边信息,并且根据基于对象的缩减混音信号和边信息来恢复具有与N个对象信号相似属性的对象信号。由对象解码器111生成的对象信号并没有被分配到多声道空间中的任何位置,即混音器/渲染器113将由对象解码器111生成的对象信号的每一个分配到多声道空间中的预定位置,并且确定对象信号的电平,这样可通过由混音器/渲染器113指定的各个相应位置和由混音器/渲染器113确定的各个相应电平来再现对象信号。与由对象解码器111生成的每个对象信号相关的控制信息可随时间而改变,则,由对象解码器111生成的对象信号的空间位置和电平可根据控制信息而改变。
图2是根据本发明第一实施例的音频解码装置120的方框图。参见图2,该音频解码装置120能够通过分析控制信息来执行自适应解码。
参见图2,该音频解码装置120包括:对象解码器121,混音器/渲染器123,和参数变换器125。该音频解码装置120还包括解复用器(未示出),用于从输入的比特流中提取缩减混音信号和边信息,并且该解复用器将应用于根据本发明的其它实施例的所有音频解码装置中。
对象解码器121根据缩减混音信号和由参数变换器125提供的修改后的边信息来生成多个对象信号。混音器/渲染器123根据控制信息来将由对象解码器121生成的对象信号的每一个分配到多声道空间中的预定位置,并且确定由对象解码器121生成的对象信号的电平。参数变换器125通过合并边信息和控制信息来生成修改后的边信息。接着,参数变换器125将修改后的边信息传输给对象解码器121。
对象解码器121可通过分析修改后的边信息中的控制信息来执行自适应解码。
举例来说,如果控制信息指示第一对象信号和第二对象信号被分配到多声道空间中的相同的位置并且具有相同的电平,典型的音频解码装置可分别解码第一和第二对象信号,接着通过混音/渲染操作来将它们安排到多声道空间中。
在另一方面,所述音频解码装置120的对象解码器121从修改后的边信息中的控制信息中得知第一和第二对象信号被分配到多声道空间中的相同位置并且具有相同电平,如同第一和第二对象信号是一个单独的声音源。从而,对象解码器121将第一和第二对象信号看成一个单独的声音源而解码第一和第二对象信号,而不将它们分开解码。这样的话,解码的复杂度降低了。另外,因为需要处理的声音源的数量减少了,混音/渲染的复杂度也降低了。
音频解码装置120可被有效地使用于当对象信号的数量大于输出声道的数量这种情况,因为多个对象信号很有可能被分配到相同的空间位置。
可选的是,音频解码装置120可被使用于当第一对象信号和第二对象信号被分配到多声道空间中的相同位置,但具有不同电平这种情况。这种情况下,音频解码装置120将第一和第二对象信号视为单一信号来解码第一和第二对象信号,而不分别解码第一和第二对象信号,并且将解码后的第一和第二对象信号传输给混音器/渲染器123。更具体来说,对象解码器121从修改后的边信息中的控制信息得到关于第一和第二对象信号的电平之间的差的信息,并根据获得的信息来解码第一和第二对象信号。这样的话,即使第一和第二对象信号具有不同电平,也可将第一和第二对象信号当成单一声音源来进行解码。
同样可选的是,对象解码器121可根据控制信息来调整由对象解码器121生成的对象信号的电平。接着,对象解码器121可解码调整过电平的对象信号。从而,混音器/渲染器123不需要调整由对象解码器121提供的解码后的对象信号的电平,而只要简单地将由对象解码器121提供的解码后的对象信号安排到多声道空间中。简而言之,因为对象解码器121根据控制信息调整了由对象解码器121生成的对象信号的电平,混音器/渲染器123可容易地将由对象解码器121生成的对象信号安排到多声道空间中,而不需要额外调整由对象解码器121生成的对象信号的电平。因此,可以减少混音/渲染的复杂度。
根据图2的实施例,音频解码装置120的对象解码器可通过对控制信息的分析来自适应地执行解码操作,从而减少了解码的复杂度和混音/渲染的复杂度。可使用由音频解码装置120执行的所述方法的合并。
图3是根据本发明第二实施例的音频解码装置130的方框图。参见图3,该音频解码装置130包括对象解码器131和混音器/渲染器133。该音频解码装置130的特征在于:其不仅提供边信息给对象解码器131,还提供边信息给混音器/渲染器133。
即使在存在相应于静止期的对象信号时,音频解码装置130也可有效地执行解码操作。举例来说,第二至第四对象信号可能相应于乐器演奏的音乐演奏期,第一对象信号可能相应于仅有背景音乐演奏的静音(mute)期,和第一对象信号可能相应于伴奏演奏的静止(silent)期。在这种情况下,指示多个对象信号中的哪一个对应于静止期的信息可被包括在边信息中,并且该边信息可被提供给混音器/渲染器133和对象解码器131。
对象解码器131可通过不对相应于静止期的对象信号进行解码来最小化解码复杂度。对象解码器131将一个对象信号设置为相应于0值,并且将该对象信号的电平传输给混音器/渲染器133。一般来说,具有0值的对象信号被视为与具有非0值的对象信号相同,并且一起进入混音/渲染操作。
在另一方面,音频解码装置130传输包括指示多个对象信号中的哪些信号是相应于静止期的信息的边信息给混音器/渲染器133,则可以阻止相应于静止期的对象信号进入由混音器/渲染器133执行的混音/渲染操作。因此,音频解码装置130可阻止混音/渲染的复杂度的不必要增加。
图4是根据本发明第三实施例的音频解码装置140的方框图。参见图4,该音频解码装置140使用多声道解码器141来代替对象解码器和混音器/渲染器,并且在对象信号被适当地安排到多声道空间中后解码多个对象信号。
具体来说,音频解码装置140包括多声道解码器141和参数变换器145。多声道解码器141生成多声道信号,这些多声道信号的对象信号根据缩减混音信号和空间参数信息已被安排到多声道空间中,该空间参数信息是由参数变换器145提供的基于声道的参数信息。参数变换器145分析由音频编码装置(未示出)传输来的边信息和控制信息,并且根据分析的结果生成空间参数信息。更具体的,参数变换器145通过合并边信息和控制信息来生成空间参数信息,该控制信息包括再现设置信息和混音信息。也就是说,参数变换器145执行将边信息和控制信息的合并变换为对应于一至二(OTT)盒或二至三(TTT)盒的空间数据。
音频解码装置140可执行多声道解码操作,其中基于对象的解码操作和混音/渲染操作被合并,并且可以跳过对每个对象信号的解码。因此,可以降低解码和/或混音/渲染的复杂度。
举例来说,当使用5.1声道扬声器系统来再现10个对象信号和根据这10个对象信号而获得的多声道信号时,典型的基于对象的音频解码装置根据缩减混音信号和边信息来生成分别对应于这10个对象信号的解码后的信号,并且通过将这10个对象信号适当地安排到多声道空间中来生成5.1声道信号,则这些对象信号变得适于5.1声道扬声器环境。然而,在5.1声道信号生成期间,生成10个对象信号的效率是很低的,并且这个问题在对象信号的数量和要生成的多声道信号的声道数量之间的差增加时变得更加严重。
在另一方面,根据图4所示的实施例,音频解码装置140根据边信息和控制信息来生成适于5.1声道信号的空间参数信息,并且将空间参数信息和缩减混音信号提供给多声道解码器141。接着,多声道解码器141根据空间参数信息和缩减混音信号生成5.1声道信号。换句话说,当要输出的声道的数量是5.1声道时,音频解码装置140根据缩减混音信号可容易地生成5.1声道信号,而不需要生成10个对象信号,则该音频解码装置相对于通常的音频解码装置在复杂度方面更有效率。
当通过分析由音频编码装置传输来的边信息和控制信息来计算对应于每个OTT盒和TTT盒的空间参数信息所需的计算量小于在解码每个对象信号之后执行混音/渲染操作所需的计算量时,该音频解码装置140是更有效率的。
通过分析边信息和控制信息来把用于生成空间参数信息的模块加入到典型的多声道音频解码装置,可容易地获得该音频解码装置140,并且可维持与典型的多声道音频解码装置的兼容性。同样的,音频解码装置140可通过使用典型的多声道解码装置的现有的工具来提高声音质量,诸如包络整形器,子带时域处理(STP)工具和去相关器。通过所述内容,可以推断出典型的多声道音频解码方法的所有优点都可被轻松地应用于基于对象的音频解码方法。
由参数变换器145传输给多声道解码器141的空间参数信息可被压缩以适于传输。可选的是,该空间参数信息可具有与由典型的多声道编码装置所传输的数据一样的格式。也就是说,空间参数信息可进行霍夫曼解码操作或导频解码操作,并且可作为未压缩的空间线索数据(spatialcuedata)传输给每个模块。前一种方式适于将空间参数信息传输给遥控位置的多声道音频解码装置,后一种方式也很方便,因为不需要多声道音频解码装置把压缩的空间线索数据转换到容易在解码操作中使用的未压缩的空间线索数据。
根据对边信息和控制信息的分析的空间参数信息的配置可能导致延迟。为了补偿该延迟,可提供一个额外的缓冲器给缩减混音信号,这样可以补偿缩减混音信号和比特流之间的延迟。可选的是,可提供一个额外的缓冲器给从控制信息处获得的空间参数信息,这样可以补偿空间参数信息和比特流之间的延迟。然而这些方法是不方便的,因为需要提供额外的缓冲器。可选的是,边信息可于缩减混音信号之前被传输,其已经考虑了可能发生的缩减混音信号和空间参数信息之间的延迟。在这种情况下,通过合并边信息和控制信息而得到的空间参数信息不需要再被调整而可被容易地使用。
如果缩减混音信号的多个对象信号具有不同电平,能直接补偿缩减混音信号的任意缩减混音增益(ADG)模块可以确定对象信号的相关电平,并且可使用诸如声道电平差(CLD)信息,声道间相关性(ICC)信息和声道预测系数(CPC)信息之类的空间线索数据来将每个对象信号分配到多声道空间中的预定位置。
举例来说,如果控制信息指示一个预定对象信号将被分配到多声道空间中的预定位置,并且该对象信号的电平高于其它对象信号,典型的多声道解码器可计算缩减混音信号的声道能量之间的差,并且根据计算的结果将缩减混音信号划分为若干输出声道。然而,典型的多声道解码器不能增加或减小缩减混音信号中声音的音量。换句话说,典型的多声道解码器简单地将缩减混音信号分配给若干输出声道,并且不增加或减小缩减混音信号中声音的音量。
根据控制信息将由对象编码器生成的缩减混音信号的多个对象信号的每一个分配到多声道空间中的预定位置也是相对很简单的。然而,增加或减小预定对象信号的幅度则需要特殊的技术。换句话说,如果使用由对象编码器生成的缩减混音信号,减小缩减混音信号的每个对象信号的幅度是困难的。
因此,根据本发明一个实施例,可使用如图5中所示的ADG模块147来根据控制信息改变对象信号的相对幅度。该ADG模块147可被安装于多声道解码器141中,或与多声道解码器141相分离。
如果使用ADG模块147来适当地调整缩减混音信号的对象信号的相对幅度,则可以使用典型的多声道解码器来执行对象解码。如果由对象编码器生成的缩减混音信号是单声道或立体声信号或具有三个或更多声道的多声道信号,该缩减混音信号可被ADG模块147处理。如果由对象编码器生成的缩减混音信号具有两个或更多声道,并且需要由ADG模块147来调整的预定对象信号仅存在于缩减混音信号中的一个声道中,则ADG模块147可仅被应用于包括该预定对象信号的声道,而不是应用于缩减混音信号的所有声道。由ADG模块147通过所述方法处理后的缩减混音信号可很容易地使用典型的多声道解码器来处理,而不需要修改多声道解码器的结构。
即使当最终输出的信号不是可被多声道扬声器再现的多声道信号,而是双耳信号,也可以使用ADG模块147调整最终输出信号的对象信号的相对幅度。
作为使用ADG模块147的替代,在多个对象信号的生成期间,控制信息中可包括指定将要应用于每个对象信号的增益值的增益信息。为此,可能要修改典型的多声道解码器的结构。即使需要修改现有多声道解码器的结构,在解码操作期间,通过将增益值应用于每个对象信号,而不需要计算ADG和补偿每个对象信号,该方法在降低解码复杂度方面还是很方便的。
ADG模块147可不仅被用于调整对象信号的电平,还可被用于修改特定对象信号的频谱信息。更具体的,ADG模块147可不仅被用于增加或降低特定对象信号的电平,还可被用于修改特定对象信号的频谱信息,例如放大特定对象信号的高音或低音部分。可以不使用ADG模块147而修改频谱信息。
图6是根据本发明第四实施例的音频解码装置150的方框图。参见图6,该音频解码装置150包括多声道双耳解码器151,第一参数变换器157,和第二参数变换器159。
第二参数变换器159分析由音频编码装置提供的边信息和控制信息,并且根据分析结果来配置空间参数信息。第一参数变换器157通过增加三维(3D)信息,例如头相关传输函数(HRTF)参数给空间参数信息,来配置可被多声道双耳解码器151使用的虚拟三维(3D)参数信息。多声道双耳解码器151通过将双耳参数信息应用给缩减混音信号来生成双耳信号。
第一参数变换器157和第二参数变换器159可被一个单独的模块所取代,即参数变换模块155,其接收边信息、控制信息和3D信息,并且根据边信息、控制信息和HRTF参数来配置双耳参数信息。
通常来说,为了使用头戴式耳机生成用于再现包括10个对象信号的缩减混音信号的双耳信号,对象信号必须根据缩减混音信号和边信息来分别生成对应于10个对象信号的10个解码后的信号。其后,混音器/渲染器参考控制信息将10个对象信号的每一个分配到多声道空间中的预定位置以适于5声道扬声器环境。其后,混音器/渲染器生成可使用5声道扬声器再现的5声道信号。其后,混音器/渲染器将3D信息应用到5声道信号中,从而生成2声道信号。简而言之,所述通常的音频解码方法包括:再现10个对象信号,将这10个对象信号转换为5声道信号,并且根据5声道信号生成2声道信号,可见其效率是很低的。
在另一方面,音频解码装置150可根据对象信号而容易地生成可使用头戴式耳机再现的双耳信号。另外,音频解码装置150通过对边信息和控制信息的分析来配置空间参数信息,并且使用典型的多声道双耳解码器来生成双耳信号。而且,即便在装配有一体化参数变换器时,音频解码装置150仍然可以使用典型的多声道双耳解码器,该参数变换器接收边信息、控制信息和HRTF参数,并且根据边信息、控制信息和HRTF参数来配置双耳参数信息。
图7是根据本发明第五实施例的音频解码装置160的方框图。参见图7,音频解码装置160包括预处理器161,多声道解码器163,和参数变换器165。
参数变换器165生成可被多声道解码器163使用的空间参数信息,和被预处理器161使用的参数信息。预处理器161执行对缩减混音信号的预处理操作,并且传输预处理操作结果的缩减混音信号给多声道解码器163。多声道解码器163对由预处理器161传输来的缩减混音信号执行解码操作,从而输出立体声信号、双耳立体声信号或多声道信号。由预处理器161所执行的预处理操作的例子包括:通过滤波在时域或频域中修改或变换缩减混音信号。
如果输入到音频解码装置160中的缩减混音信号是立体声信号的话,在该缩减混音信号被输入到多声道解码器163前,该缩减混音信号可被用于由预处理器161执行的缩减混音预处理,因为多声道解码器163不能通过解码将对应于立体声缩减混音信号的左声道的对象信号映射到多声道信号的右声道。因此,为了能将属于立体声缩减混音信号的左声道的对象信号转移到右声道上,该立体声缩减混音信号可能需要被预处理器161预处理,预处理后的缩减混音信号可被输入给多声道解码器163。
可根据从边信息和从控制信息处获得的预处理信息来执行立体声缩减混音信号的预处理。
图8是根据本发明第六实施例的音频解码装置170的方框图。参见图8,该音频解码装置170包括多声道解码器171,后处理器173和参数变换器175。
参数变换器175生成可被多声道解码器171使用的空间参数信息,和可被后处理器173使用的参数信息。后处理器173执行对由多声道解码器171输出的信号的后处理。多声道解码器171所输出的信号的例子包括:立体声信号、双耳立体声信号和多声道信号。
后处理器173所执行的后处理操作的例子包括:修改或变换输出信号的每个声道或所有声道。举例来说,如果边信息包括关于预定对象信号的基本频率信息,后处理器173可参考该基本频率信息从预定对象信号中去除谐波分量。多声道音频解码方法对于卡拉OK系统来说可能不够高效。然而,如果关于嗓音对象信号的基本频率信息被包括在边信息中,且嗓音对象信号的谐波分量在后处理操作期间已被去除,通过使用图8的实施例可实现高性能的卡拉OK系统。图8的实施例也可应用于除嗓音对象信号之外的对象信号。举例来说,可使用图8的实施例来去除预定乐器的声音。同样,可以使用图8的实施例来使用关于对象信号的基本频率信息来放大预定的谐波分量。简而言之,后处理参数可以实现无法由多声道解码器171执行的多种效果的应用,例如回响效果的插入、噪声的加入和低音部分的放大。
后处理器173可直接应用一个额外的效果给缩减混音信号,或将缩减混音信号增加到已应用效果的多声道解码器171的输出。后处理器173可以在任何需要的时候改变对象的频谱或修改缩减混音信号。如果直接执行效果处理操作(诸如对缩减混音信号的混响)并把效果处理操作所获得的信号传输给多声道解码器171不是很适当的话,后处理器173可把经效果处理操作所获得的信号加入到多声道解码器171的输出,以代替对缩减混音信号直接执行效果处理并把效果处理的结果传输给多声道解码器171。
图9是根据本发明第七实施例的音频解码装置180的方框图。参见图9,音频解码装置180包括预处理器181,多声道解码器183,后处理器185和参数变换器187。
对所述预处理器161的说明可直接应用于预处理器181。后处理器185可被用于把预处理器181的输出和多声道解码器183的输出加在一起,以提供最终信号。在这种情况下,后处理器185简单地采用了一个加法器,用于加入信号。可提供效果参数给预处理器181和后处理器185中的任意一个以执行效果的应用。此外,通过将效果应用给缩减混音信号和多声道解码器183的输出而获得的信号的加入,以及将效果应用给多声道解码器183的输出可被同时执行。
图7和图9中的预处理器161和181可根据由用户提供的控制信息来执行对于缩减混音信号的渲染。此外,图7和图9中的预处理器161和181可增加或减小对象信号的电平和改变对象信号的频谱。在这种情况下,图7和图9中的预处理器161和181可执行ADG模块的功能。
根据对象信号方向信息的对象信号的渲染、对象信号电平的调整和对象信号的频谱的改变可被同时执行。此外,可通过使用预处理器161或181来执行某些根据对象信号方向信息的对象信号的渲染,某些对象信号电平的调整和某些对象信号的频谱的改变,并且任何没有通过预处理器161或181执行的根据对象信号方向信息的对象信号的渲染,对象信号电平的调整和对象信号的频谱的改变可使用ADG模块来执行。举例来说,通过使用ADG模块来改变对象信号的频谱是低效的,因为ADG模块使用量子化电平间隔和参数带间隔。在这种情况下,可使用预处理器161或181来逐个频率地精确地改变对象信号的频谱,而使用ADG模块来调整对象信号的电平。
图10是根据本发明第八实施例的音频解码装置的方框图。参见图10,该音频解码装置200包括渲染矩阵生成器201,代码转换器203,多声道解码器205,预处理器207,效果处理器208和加法器209。
渲染矩阵生成器201生成渲染矩阵,其表示关于对象信号的位置的对象位置信息,和关于对象信号电平的再现配置信息,并且将渲染矩阵提供给代码转换器203。渲染矩阵生成器201根据对象位置信息生成3D信息,例如HRTF系数。HRTF是描述任意位置的声音源及耳膜之间的声波传输的传输函数,并且返回根据声音源的高度和方向而改变的值。如果使用HRTF来过滤没有方向性的信号,该信号听上去好像是从特定方向被再生一样。
由渲染矩阵生成器201接收到的对象位置信息和再现配置信息可随时间而改变,并且可由终端用户而提供。
代码转换器根据基于对象的边信息、渲染矩阵和3D信息来生成基于声道的边信息,并且将多声道解码器205所必需的基于声道的边信息和3D信息提供给多声道解码器205。也就是说,代码转换器203传输从关于N个对象信号的基于对象的参数信息中获得的关于M个声道的基于声道的边信息,和N个对象信号的每一个的3D信息给多声道解码器205。
多声道解码器205根据缩减混音信号和由代码转换器提供的基于声道的边信息来生成多声道音频信号,并且根据3D信息对多声道音频信号执行3D渲染,从而生成3D多声道信号。渲染矩阵生成器201可包括3D信息数据库(未示出)。
如果需要在将缩减混音信号输入给多声道解码器205之前预处理缩减混音信号,代码转换器203传输关于预处理的信息给预处理器207。基于对象的边信息包括关于所有对象信号的信息,渲染矩阵包括对象位置信息和再现配置信息。代码转换器203根据基于对象的边信息和渲染矩阵来生成基于声道的边信息,并且接着根据该声道信息生成混音和再生对象信号所必须的基于声道的边信息。此后,代码转换器203将基于声道的边信息传输给多声道解码器205。
由代码转换器203提供的基于声道的边信息和3D信息可包括帧索引。因此,多声道解码器205可通过使用帧索引来同步基于声道的边信息和3D信息,并且可以将3D信息仅应用到比特流的特定帧。此外,即使3D信息被更新了,也可通过使用帧索引来容易地同步基于声道的边信息和更新后的3D信息。也就是说,帧索引可分别包括在基于声道的边信息和3D信息中,以使多声道解码器205同步基于声道的边信息和3D信息。
如果有必要,在输入的缩减混音信号被输入给多声道解码器205之前,预处理器207可对输入的缩减混音信号执行预处理。如上所述,如果输入的缩减混音信号是立体声信号,并且需要从右声道再现属于左声道的对象信号,在缩减混音信号被输入到多声道解码器205之前,该缩减混音信号需要进行由预处理器207执行的预处理,因为多声道解码器205不能将对象信号从一个声道转移到另一个声道。代码转换器203可将预处理输入的缩减混音信号所必须的信息提供给预处理器207。由预处理器207执行预处理所获得的缩减混音信号可被传输给多声道解码器205。
效果处理器208和加法器209可将额外的效果直接应用于缩减混音信号,或将缩减混音信号增加给已应用了效果的多声道解码器205的输出。效果处理器208可在任何需要的时候改变对象的频谱或修改缩减混音信号。如果对缩减混音信号直接执行诸如混响之类的效果处理操作,并且将由效果处理操作获得的信号传输给多声道解码器205是不合适的,效果处理器208可简单地增加由效果处理操作所获得的信号给多声道处理器205的输出,以代替直接对缩减混音信号执行效果处理和将效果处理的结果传输给多声道解码器205。
以下将详细描述由渲染矩阵生成器201所生成的渲染矩阵。
渲染矩阵是表示对象信号的位置和再现配置的矩阵。也就是说,如果有N个对象信号和M个声道,渲染矩阵可指示如何以各种方式将N个对象信号映射到M个声道上。
更具体的,当N个对象信号被映射到M个声道上时,可建立一个N*M渲染矩阵。在这种情况下,该渲染矩阵包括N行,该N行分别表示N个对象信号,及M列,该M列分别表示M个声道。在N行中的每一行的M个系数的每一个是实数或整数,其表示分配到相应声道的对象信号部分与整个对象信号的比例。
更具体的,N*M渲染矩阵中的N行的每一行的M个系数是实数。接着,如果N*M渲染矩阵中一行的M个系数之和等于预定参考值,例如1,其可以确定对象信号的电平没有改变。如果M个系数之和小于1,其可以确定对象信号的电平降低了。如果M个系数之和大于1,其可以确定对象信号的电平增加了。该预定的参考值可以是1之外的数值。对象信号的电平变化量被限制在12dB范围内。举例来说,如果预定的参考值为1,并且M个系数之和为1.5,其可以确定对象信号的电平增长了12dB。如果预定参考值为1,并且M个系数之和为0.5,其可以确定对象信号的电平降低了12dB。如果预定参考值为1,并且M个系数之和为0.5至1.5,其可以确定对象信号在-12dB和+12dB之间变化了预定量,该预定量可通过M个系数之和线性地确定。
N*M渲染矩阵中的N行的每一行的M个系数可以是整数。接着,如果N*M渲染矩阵中某一行的M个系数之和等于预定参考值,例如10,20,30或100,其可以确定对象信号的电平没有改变。如果M个系数之和小于预定参考值,其可以确定对象信号的电平降低。如果M个系数之和大于预定参考值,其可以确定对象信号的电平增加。对象信号的电平变化量被限制在例如12dB的范围内。M个系数之和与预定参考值的差异量表示对象信号的电平变化量(单位:dB)。举例来说,如果M个系数之和超过预定参考值1,其可以确定对象信号的电平增加了2dB。因此,如果预定参考值为20,并且M个系数之和为23,其可以确定对象信号的电平已增加了6dB。如果预定参考值为20,并且M个系数之和为15,其可以确定对象信号的电平已降低了10dB。
举例来说,如果有6个对象信号和5个声道(也就是左前(FL),右前(FR),中间(C),左后(RL)和右后(RR)声道),建立一个6*5渲染矩阵,其具有6行,分别对应于6个对象信号,和5列,分别对应于5个声道。该6*5渲染矩阵的系数是整数,其指示6个对象信号中的每一个被分配在5个声道中的比例。该6*5渲染矩阵可以具有参考值10。则,如果6*5渲染矩阵中的6行任意之一行的5个系数之和等于10,其可以确定相应的对象信号的电平没有变化。6*5渲染矩阵中的6行任意之一行的5个系数之和与参考值的差异量表示相应的对象信号的电平改变的量。举例来说,如果6*5渲染矩阵中的6行任意之一行的5个系数之和与参考值的差异为1,其可以确定相应的对象信号的电平改变了2dB。该6*5渲染矩阵可由公式(1)表示:
【公式1】
3 1 2 2 2 2 4 3 1 2 0 0 12 0 0 7 0 0 0 0 2 2 2 2 2 2 1 1 2 1
参见公式(1)的6*5渲染矩阵,第一行对应于第一对象信号,并且表示该第一对象信号已分配到FL,FR,C,RL和RR中的其中一个的比例。因为第一行的第一系数具有最大的整数值3,并且第一行的系数之和为10,其可以确定第一对象信号主要被分配到FL声道,并且第一对象信号的电平没有变化。因为对应于第二对象信号的第二行的第二系数具有最大的整数值4,并且第二行的系数之和为12,其可以确定第二对象信号主要被分配给FR声道,并且第二对象信号的电平增加了4dB。因为对应于第三对象信号的第三行的第三系数具有最大的整数值12,并且第三行的系数之和为12,其可以确定第三对象信号仅被分配给C声道,并且第三对象信号的电平增加了4dB。因为对应于第五对象信号的第五行的所有系数具有相同的整数值2,并且第五行的系数之和为10,可确定第五对象信号被平均地分配给FL,FR,C,RL和RR声道,并且第五对象信号的电平没有变化。
可选的是,当N个对象信号被映射到M个声道中时,建立一个N*(M+1)渲染矩阵。该N*(M+1)渲染矩阵与N*M渲染矩阵非常相似。更具体的,在N*(M+1)渲染矩阵中,如同在N*M渲染矩阵中,N行中的每一行的第一至第M个系数表示分配到FL,FR,C,RL和RR声道中的相应的对象信号的比例。然而,N*(M+1)渲染矩阵与N*M渲染矩阵不同在于,其具有额外的列(也就是第(M+1)列),用于表示对象信号的电平。
N*(M+1)渲染矩阵不同于N*M渲染矩阵,其指示如何在M个声道之间分配对象信号,并单独指示对象信号的电平是否有变化。则,通过使用N*(M+1)渲染矩阵,其可以容易地获得关于任何对象信号中的电平变化的信息,而不需要额外的计算。因为N*(M+1)渲染矩阵几乎与N*M渲染矩阵相同,该N*(M+1)渲染矩阵可容易地被转换为N*M渲染矩阵而不需要额外的计算,反之亦然。
同样可选的是,当N个对象信号被映射到M个声道中时,建立一个N*2渲染矩阵。该N*2渲染矩阵的第一列指示对象信号的角度位置,第二列指示对象信号的每一个的可能的电平变化。该N*2渲染矩阵可以在0-360度的范围内以1或3度的规则间隔来表示对象信号的角度位置。在所有方向上平均分配的对象信号可由预定值来表示,而不是使用角度来表示。
该N*2渲染矩阵可被转换为N*3渲染矩阵,该N*3渲染矩阵不仅指示对象信号的2D方向,还指示对象信号的3D方向。更具体的,N*3渲染矩阵的第二列可被用于指示对象信号的3D方向。N*3渲染矩阵的第三列使用与N*M渲染矩阵所使用的相同的方法来指示每个对象信号的可能的电平变化。如果对象解码器的最终再现模式是双耳立体声,渲染矩阵生成器201可传输指示每个对象信号的位置的3D信息或对应于3D信息的索引。在后一种情况下,代码转换器203可能需要得到对应于由渲染矩阵生成器201所传输的索引的3D信息。此外,如果指示每个对象信号的位置的3D信息从渲染矩阵生成器201处被接收,代码转换器203能够根据接收到的3D信息、渲染矩阵和基于对象的边信息来计算出可被多声道解码器205使用的3D信息。
渲染矩阵和3D信息可根据由终端用户对对象位置信息和再现配置信息所做出的修改来实时进行自适应变化。因此,在渲染矩阵和3D信息中的关于渲染矩阵和3D信息是否已更新和正在更新的消息以规则的时间间隔被传输给代码转换器203,该时间间隔例如是0.5秒。接着,如果检测到渲染矩阵和3D信息中的更新,代码转换器203可对接收到的更新和现有的渲染矩阵和现有的3D信息执行线性变换,假设该渲染矩阵和该3D信息随时间线性的变化。
在渲染矩阵和3D信息被传输给代码转换器203时,如果对象位置信息和再现配置信息没有被终端用户修改,指示渲染矩阵和3D信息没有改变的信息可被传输给代码转换器203。在另一方面,在渲染矩阵和3D信息被传输给代码转换器203时,如果对象位置信息和再现配置信息已被终端用户修改,在渲染矩阵和3D信息中的指示渲染矩阵和3D信息已变化和更新的信息可被传输给代码转换器203。更具体的,渲染矩阵中的更新和3D信息中的更新可被分别传输给代码转换器203。可选的是,渲染矩阵中的更新和/或3D信息中的更新可共同地由一个预定的代表值来表示。接着,该预定的代表值可随指示该预定的代表值对应于渲染矩阵中的更新或对应于3D信息中的更新的信息一起被传输给代码转换器203。通过这样的方式,其可以容易地通知代码转换器203渲染矩阵和3D信息是否有更新。
与公式(1)所表示的渲染矩阵类似的N*M渲染矩阵可以包括一个额外的列,来表示对象信号的3D方向信息。在这种情况下,该额外的列可在-90度至+90度的角度范围内表示对象信号的3D方向信息。该额外的列不仅可被提供给N*M矩阵,还可以被提供给N*(M+1)渲染矩阵和N*2矩阵。对象信号的3D方向信息在多声道解码器的正常解码模式中不是必须使用的。然而,对象信号的3D方向信息在多声道解码器的双耳模式中是必须要使用的。该对象信号的3D方向信息可随渲染矩阵一起被传输。可选的是,对象信号的3D方向信息可随3D信息一起被传输。在双耳模式解码操作期间,该对象信号的3D方向信息不影响基于声道的边信息,但是影响3D信息。
关于空间位置和对象信号电平的信息可作为渲染矩阵被提供。可选的是,关于空间位置和对象信号电平的信息可由对象信号的频谱的修改来表示,例如加强对象信号的低音部分或高音部分。在这种情况下,关于对象信号的频谱的修改的信息可作为在被多声道编解码器所使用的每个参数带中的电平变化而被传输。如果一个终端用户控制对象信号的频谱的修改,关于对象信号的频谱的修改的信息可作为与渲染矩阵分离的频谱矩阵被传输。该频谱矩阵有多少对象信号就有多少行,有多少参数就有多少列。该频谱矩阵的每个系数表示关于每个参数带电平调整的信息。
其后,以下将详细描述代码转换器203的操作。该代码转换器203根据基于对象的边信息、渲染矩阵信息和3D信息为多声道解码器205生成基于声道的边信息,并且将该基于声道的边信息传输给多声道解码器205。此外,该代码转换器203为多声道解码器205生成3D信息,并且将该3D信息传输给多声道解码器205。如果输入的缩减混音信号在输入到多声道解码器205前需要被预处理,该代码转换器203可传输关于该输入缩减混音信号的信息。
该代码转换器203可接收基于对象的边信息,该基于对象的边信息指示多个对象信号是如何包括在输入的缩减混音信号中的。基于对象的边信息可通过使用OTT盒和TTT盒,以及通过使用CLD,ICC和CPC信息来指示多个对象信号是如何包括在输入的缩减混音信号中的。该基于对象的边信息可提供对多种方法的说明以指示关于多个对象信号的每一个的信息,并且可以指示对象信号如何包括在边信息中,这些方法可由对象编码器来执行。
在多声道编解码器的TTT盒情况下,L,C和R信号可被缩减混音或扩展混音到L和R信号。在这种情况下,C信号可共用L和R信号的某些比特。然而,这在缩减混音或扩展混音对象信号的情况中是很少发生的。因此,OTT盒更广泛地被用于执行对象编/解码的扩展混音或缩减混音。即使C信号包括除L和R信号部分之外的独立信号分量,TTT盒可被用于执行对象编/解码的扩展混音或缩减混音。
举例来说,如图11所示,如果有6个对象信号,这6个对象信号可被OTT盒转换为缩减混音信号,可使用OTT盒来获得关于每个对象信号的信息。
参见图11,6个对象信号可由一个缩减混音信号和由5个OTT盒211,213,215,217及219的整体提供的信息(例如,CLD和ICC信息)来表示。图11所示的结构可以各种方式来改变。也就是说,参见图11,第一OTT盒211可接收6个对象信号中的两个。此外,OTT盒211,213,215,217和219的分级连接方法可以随意变化。因此,边信息可以包括指示OTT盒211,213,215,217和219如何分级连接的分级结构信息,和指示每个对象信号输入到哪个OTT盒的输入位置信息。如果OTT盒211,213,215,217和219形成任意树形结构,多声道编解码器所使用的表示该任意树形结构的方法可被用于指示这种分级结构信息。此外,这种输入位置信息可由各种方式指示。
边信息还可以包括关于每个对象信号的静音期的信息。在这种情况下,OTT盒211,213,215,217和219的树形结构可随时间自适应变化。举例来说,参见图11,当第一对象信号(OBJECT1)是静音的,关于第一OTT盒211的信息不是必要的,并且仅有第二对象信号(OBJECT2)输入到第四OTT盒217中。接着,相应地改变OTT盒211,213,215,217和219的树形结构。则,关于OTT盒211,213,215,217和219的树形结构的变化的信息可包括在边信息中。
如果预定的对象信号是静音的,可提供指示不使用相应于预定对象信号的OTT盒的信息,以及指示没有OTT盒可用的线索的信息。在这种情况下,其可以通过在边信息中不包括关于不被使用的OTT盒或TTT盒的信息来减小边信息的大小。即使多个OTT或TTT盒的树形结构被修改了,其可以根据表示哪个对象信号是静音的信息来容易地确定打开或关闭哪些OTT或TTT盒。因此,不需要频繁地传输可能的关于修改的信息给OTT或TTT盒的树形结构。相反,指示静音的对象信号的信息可被传输。接着,解码器可容易地确定OTT或TTT盒的树形结构的哪部分需要被修改。因此,其可以最小化需要被传输给解码器的信息的大小。此外,其可以容易地传输关于对象信号的线索给解码器。
图12是用于解释多个对象信号如何被包括在缩减混音信号中的框图。在图11的实施例中,其采用了一种多声道编解码器的OTT盒结构。然而,在图12的实施例中,使用了一种多声道编解码器的OTT盒结构的变形。也就是说,参见图12,多个对象信号被输入到每个盒中,并且最后仅生成一个缩减混音信号。参见图12,关于多个对象信号的每一个的信息可由每一个对象信号的的能量级(energylevel)与对象信号的总能量级之比来表示。然而,随着对象信号数量的增加,每个对象信号的能量级与对象信号的总能量级之比减小了。为了克服这个问题,在预定参数带中搜索多个对象信号中具有最高能量级的一个对象信号(以下称为最高能量对象信号),并且提供其它对象信号(以下称为非最高能量对象信号)的能量级与最高能量对象信号的能量级之比,以作为关于每个对象信号的信息。在这种情况下,一旦给定了指示最高能量对象信号和最高能量对象信号的能量级的绝对值的信息,就可容易地确定其它非最高能量的对象信号的能量级了。
最高能量的对象信号的能量级对于在多点控制单元(MCU)中执行的将多个比特流合并到单个比特流来说是必需的。然而,在大多数情况下,最高能量对象信号的能量级不是必需的,因为可以从其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比而容易地获得最高能量对象信号的能量级的绝对值。
举例来说,假设有4个属于预定参数带的对象信号A,B,C和D,并且对象信号A是最高能量对象信号。则,预定参数带的能量EP和对象信号A的能量级的绝对值EA满足公式(2):
【公式2】
Ep=EA+(a+b+c)EA
E A = E p 1 + a + b + c
其中a,b和c分别表示对象信号B,C和D的能量级与对象信号A的能量级之比。参见公式(2),其可以根据比例a,b和c以及预定参数带的能量EP来计算对象信号A的能量级的绝对值EA。因此,除非需要使用MCU来将多个比特流合并到一个单独比特流中,对象信号A的能量级的绝对值EA不需要包括在该比特流中。指示对象信号A的能量级的绝对值EA是否包括在比特流中的信息可包括在比特流的头部中,从而减少了比特流的大小。
在另一方面,如果需要使用MCU将多个比特流并入到一个单独的比特流中,则最高能量对象信号的能量级就是必需的。在这种情况下,根据非最高能量对象信号的能量级与最高能量的对象信号的能量级之比来计算出的能量级之和可能与通过缩减混音所有对象信号而获得的缩减混音信号的能量级不同。举例来说,当缩减混音信号的能量级为100时,计算出的能量级之和可能为98或103,这是由于例如在量化和解量化操作期间引起的错误而导致的。为了克服这个问题,缩减混音信号的能量级和计算出的能量级之和的差可通过使用预定系数乘上每个计算出的能量级来近似补偿。如果缩减混音信号的能量级为X,并且计算出的能量级之和为Y,每个计算出的能量级可乘上X/Y。如果不对缩减混音信号的能量级与计算出的能量级之和的差进行补偿的话,这些量化错误可能包括到参数带和帧中,从而导致信号失真。
因此,在预定的参数带中,指示多个对象信号中的哪一个具有最大的能量绝对值的信息是必需的。该信息可由多个比特表示。在预定参数带中用于指示多个对象信号中的哪一个具有最大能量绝对值所必需的比特数根据对象信号的数量而改变。随着对象信号数量的增加,在预定参数带中用于指示多个对象信号的中的哪一个具有最大能量绝对值所必需的比特数也增加。在另一方面,随着对象信号数量的减少,在预定参数带中用于指示多个对象信号中的哪一个具有最大能量绝对值所必须的比特数也减少。预定的比特数可能被提前分配以指示在预定参数带增长时多个对象信号中的哪一个具有最大能量绝对值。可选的是,可根据特定的信息来确定用于在预定参数带中指示多个对象信号中的哪一个具有最大能量绝对值所必需的比特数。
通过使用用于减小在多声道编解码器的OTT和/或TTT盒所使用的CLD,ICC和CPC信息的大小的相同的方法,在每个参数带中指示多个对象信号中的哪一个具有最大能量绝对值的信息的大小可被减小,例如,通过使用时间差分方法、频率差分方法或导频编解码方法。
为了指示在每个参数带中的多个对象信号的哪一个具有最大能量绝对值,可以使用优化的霍夫曼表。在这种情况下,可能需要指示对象信号的能量级以怎样的顺序与具有最高能量绝对值的对象信号的能量级之比的信息。举例来说,如果有5个对象信号(也就是第一至第五对象信号),并且第三对象信号是最高能量对象信号,可能提供关于第三对象信号的信息。接着,可以以各种方式来提供第一、第二、第四和第五对象信号的能量级与第三对象信号的能量级之比,以下将进一步详细描述这些方式。
可以顺序地提供第一、第二、第四和第五对象信号的能量级与第三对象信号的能量级之比。可选的是,以循环的方式顺序地提供第四、第五、第一和第二对象信号的能量级与第三对象信号的能量级之比。接着,提供的指示第一、第二、第四和第五对象信号的能量级与第三对象信号的能量级之比的顺序的信息可包括在文件头部或可在多个帧的间隔期间被发送。多声道编解码器可根据OTT盒的连续编号来确定CLD和ICC信息。同样的,指示如何将每个对象信号映射到比特流中的信息也是必需的。
在多声道编解码器的情况下,关于相应于每个声道的信息可由OTT或TTT盒的连续编号来表示。根据一种基于对象的音频编码方法,如果有N个对象信号,该N个对象信号可能需要被适当编号。然而,对于终端用户来说,使用对象解码器来控制N个对象信号有时是必需的。在这种情况下,终端用户可能不仅需要N个对象信号的连续编号,还需要对于这N个对象信号的说明,例如指示第一对象信号相应于女性语音,并且第二对象信号相应于钢琴声的说明。N个对象信号的这些说明可作为元数据被包括在比特流的头部中,并且接着随着该比特流一起被传输。更具体的,N个对象信号的这些说明可以文本方式被提供,或通过使用码表或码字来提供。
关于对象信号之间的相关性的信息有时也是必需的。为此,最高能量对象信号和其它非最高能量对象信号之间的相关性可被计算。在这种情况下,一个单独相关性值可被指定给所有的对象信号,就如同在所有OTT盒中使用一个ICC值。
如果对象信号是立体声信号,对象信号的左声道能量与右声道能量之比及ICC信息是必需的。可以使用根据最高能量对象信号的能量级绝对值和其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比来计算多个对象信号的能量级的相同的方法来计算对象信号的左声道能量与右声道能量之比。举例来说,如果最高能量对象信号的左和右声道的能量级的绝对值分别为A和B,并且非最高能量对象信号的左声道的能量级与A之比,及非最高能量对象信号的右声道的能量级与B之比分别为x和y,非最高能量对象信号的左和右声道的能量级可通过A*x及B*y来计算。通过这种方式,可以计算出立体声对象信号的左声道与右声道之比。
当对象信号为单声信号时,也要使用最高能量对象信号的能量级的绝对值,和其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比,由单声对象信号所获得的缩减混音信号为立体声信号,并且该单声对象信号包括在立体声缩减混音信号的两个声道中。在这种情况下,包括在立体声缩减混音信号的左声道中的每一个单声对象信号的部分的能量,和相应的包括在缩减混音信号的右声道中的单声对象信号的部分的能量以及相关性信息是必须,并且其被直接应用于立体声对象信号。如果单声对象信号包括在立体声缩减混音信号的L和R声道中,单声对象信号的L-和R-声道分量可能仅具有电平差异,并且该单声对象可能具有从1到整个参数带的相关性值。在这种情况下,为了降低数据量,可额外的提供一个指示单声对象信号具有从1到整个参数带的相关性值的信息。接着,不需要为每个参数带指示相关性值1。替代的是,相关性值1指示整个参数带。
在通过把多个对象信号加在一起来生成缩减混音信号期间,可能会发生削波(clipping)。为了解决这个问题,可将预定义增益乘以该缩减混音信号,则该缩减混音信号的最大电平可以超过削波阈值。该预定义增益可随时间而变化。因此,关于该预定义增益的信息是必需的。如果缩减混音信号是立体声信号,为了防止削波,可以为该缩减混音信号的L-和R-声道提供不同的增益值。为了减少数据传输量,不同增益值可以不被分开传输。替代的是,传输不同增益值之和,以及不同增益值之比。接着,相比较于分别传输不同增益值的情况,其可以减低动态范围并且减少数据传输量。
为了进一步减少数据传输量,可提供一比特用于指示在通过多个对象信号的合计来生成缩减混音信号期间是否发生削波。接着,仅在确定削波发生时,增益值才被传输。这些削波信息对于为了在合并多个比特流的多个缩减混音信号之和期间阻止削波是必需的。为了阻止削波,可通过预定义的增益值的倒数来乘以多个缩减混音信号之和以阻止削波。
图13至16是用于解释配置基于对象的边信息的各种方法的框图。图13至16的实施例不仅可被应用于单声或立体声对象信号,还可被应用于多声道对象信号。
参见图13,多声道对象信号(对象A(声道1)至对象A(声道n))被输入到对象编码器221中。接着,该对象编码器221根据多声道对象信号(对象A(声道1)至对象A(声道n))来生成缩减混音信号和边信息。对象编码器223接收多个对象信号对象1至对象n和由对象编码器221生成的缩减混音信号,并且根据对象信号对象1至对象N以及接收到的缩减混音信号来生成另一个缩减混音信号和另一个边信息。复用器225将由对象编码器221生成的边信息和由对象编码器223生成的边信息合并在一起。
参见图14,对象编码器233根据多声道对象信号(对象A(声道1)至对象A(声道n))来生成第一比特流。接着,对象编码器231根据多个非多声道对象信号对象1至对象n来生成第二比特流。接着,对象编码器235通过使用用于在MCU帮助下将多个比特流合并到一个单独比特流的几乎相同的方法将第一和第二比特流合并到一个单独比特流中。
参见图15,多声道编码器241根据多声道对象信号(对象A(声道1)至对象A(声道n))来生成缩减混音信号和基于声道的边信息。对象编码器243接收由多声道编码器241生成的缩减混音信号和多个非多声道对象信号对象1至对象n,并且根据接收到的缩减混音信号和对象信号对象1至对象n来生成一个对象比特流和边信息。复用器245将由多声道编码器241生成的基于声道的边信息和由对象编码器243生成的边信息合并在一起,并且输出合并的结果。
参见图16,多声道编码器253根据多声道对象信号(对象A(声道1)至对象A(声道n))来生成缩减混音信号和基于声道的边信息。对象编码器251根据多个非多声道对象信号对象1至对象n来生成缩减混音信号和边信息。对象编码器255接收由多声道编码器253生成的缩减混音信号和由对象编码器251生成的缩减混音信号,并且将接收到的缩减混音信号合并在一起。复用器257将由对象编码器251生成的边信息和由多声道编码器253生成基于声道的边信息合并在一起,并且输出合并的结果。
在电话会议中使用基于对象的音频编码的情况下,有时必须将多个对象比特流合并成一个单独的比特流。以下将详细描述将多个对象比特流合并成一个单独的比特流。
图17是用于解释合并两个对象比特流的框图。参见图17,当两个对象比特流被合并成一个单独的对象比特流时,分别存在于两个对象比特流中的边信息,例如CLD和ICC信息需要被修改。可以简单地通过使用额外的OTT盒,也就是第十一OTT盒,和使用诸如由第十一OTT盒提供的CLD和ICC信息的边信息,来将两个对象比特流合并成一个单独的对象比特流。
这两个对象比特流的每一个的树形结构信息必须合并到合并后的树形结构信息中,以将两个对象比特流合并成一个单独的对象比特流。为此,由两个对象比特流合并所生成的任何额外的配置信息可被修改,用于生成两个对象比特流的OTT盒的编号索引也要被修改,并且仅执行少量额外的处理,例如由第十一OTT盒执行的计算处理,和两个对象比特流的两个缩减混音信号的缩减混音。通过这种方式,两个对象比特流可容易地被合并成一个单独的对象比特流,而不需要修改关于多个对象信号的每一个的信息,因此,提供了一种简单的将两个比特流生成一个比特流的方法。
参见图17,第十一OTT盒是可选的。在这种情况下,两个对象比特流的两个缩减混音信号可被当作两声道缩减混音信号而使用。则,两个对象比特流可被合并成一个单独的对象比特流,而无需额外的计算。
图18是用于解释将两个或更多独立的对象比特流合并成一个单独的具有立体声缩减混音信号的对象比特流的框图。参见图18,如果两个或更多独立的对象比特流具有不同的参数带数量,可针对对象比特流执行参数带映射,这样具有较少参数带的一个对象比特流的参数带数量可增加到与另一个对象比特流的参数带数量相同。
更具体的,可使用预定映射表来执行参数带映射。在这种情况下,可使用简单的线性公式来执行参数带映射。
如果有重叠的参数带,考虑到重叠参数带彼此重叠的量而适当地混合参数值。在优先考虑复杂度这一情况下,可针对两个对象比特流执行参数带映射,所以两个对象比特流中的具有较多参数带的一个比特流的参数带数量减少到与另一个对象比特流的参数带数量一样。
在图17和18的实施例中,两个或更多独立的对象比特流可被合并成一个合并后的对象比特流,而不需要对独立的对象比特流的现有参数的计算。然而,在合并多个缩减混音信号这一情况下,关于该缩减混音信号的参数可能需要通过QMF/混合分析被再次计算。然而,该计算需要很大的计算量,从而包括图17和18的实施例的有益之处。因此,需要提出一种方法,即使当缩减混音信号被缩减混音时,可以提取参数而不需要QMF/混合分析或合成。为此,关于每个缩减混音信号的每个参数带的能量的信息可包括在一个对象比特流中。接着,当缩减混音信号被缩减混音时,可根据这些能量信息容易地计算出诸如CLD信息之类的信息,而不需要QMF/混合分析或合成。这些能量信息可表示每个参数带的最高能量级,或每个参数带的最高能量对象信号的能量级的绝对值。通过使用从时域获得的整个参数带的ICC值可进一步减少计算量。
在多个缩减混音信号缩减混音期间,可能发生削波(clipping)。为了克服这个问题,可以降低缩减混音信号的电平。如果缩减混音信号的电平被降低了,关于缩减混音信号的被降低后的电平的电平信息可能需要包括在对象比特流中。用于阻止削波的电平信息可被应用于对象比特流的每个帧,或仅被应用于在其中发生削波的某些帧。可通过对用于阻止在解码操作期间发生的削波的电平信息的逆应用来计算原始缩减混音信号的电平。用于阻止削波的电平信息可在时域中被计算,则不需要引入QMF/混合合成或分析。可使用如图12所示的结构来执行将多个对象信号合并成一个单独的对象比特流,以下将参照图19来详细说明该操作。
图19是用于解释将两个独立的对象比特流合并成一个单独的对象比特流的框图。参见图19,第一盒261生成第一对象比特流,第二盒263生成第二对象比特流。接着,第三盒265通过合并第一和第二比特流而生成第三对象比特流。在这种情况下,如果第一和第二对象比特流包括关于每个参数带的最高能量对象信号的能量级的绝对值的信息,和其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比,以及关于增益值的增益信息,该增益值将与来自于第一和第二盒261和263的缩减混音信号相乘,第三盒265可通过将第一和第二比特流合并在一起而生成第三对象比特流,而不需要额外的参数计算或提取。
第三盒265接收多个缩减混音信号DOWNMIX_A和DOWNMIX_B。第三盒265将缩减混音信号DOWNMIX_A和DOWNMIX_B转换为PCM信号,并且把这些PCM信号加在一起从而生成单独的缩减混音信号。在该操作期间,然而,可能发生削波。为了克服这个问题,缩减混音信号DOWNMIX_A和DOWNMIX_B可乘上一个预定义的增益值。关于该预定义的增益值的信息可包括在第三对象比特流中,并且随第三对象比特流一起传输。
以下将进一步详细描述将多个对象比特流合并成一个单独的对象比特流。参见图19,边信息A可包括关于多个对象信号对象1至对象n哪一个是最高能量对象信号的信息,和其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比。同样的,边信息B可包括与边信息A一样的信息,其包括关于多个对象信号对象1至对象n哪一个是最高能量对象信号的信息,和其它非最高能量对象信号的能量级与最高能量对象信号的能量级之比。
如图20所示,SIDE_INFO_A和SIDE_INFO_B可并行地包括在一个比特流中。在这种情况下,可额外提供一比特用于指示是否并行地存在多于一个的比特流。
参见图20,为了指示预定的比特流是否是包括多于一个的比特流的合并后的比特流,指示预定的比特流是合并后的比特流的信息,关于比特流数量的信息将会包括在预定的比特流中。并且,包括在预定的比特流中的任何关于比特流的原始位置的信息可提供在预定比特流的头部中,并且其后接着多于一个的比特流。在这种情况下,解码器可通过分析位于预定的比特流的头部中的信息来确定该预定的比特流是否是包括多于一个的比特流的合并后的比特流。这种类型的比特流合并方法除了增加少数标识符给比特流以外不需要额外的处理。然而,这些标识符需要在多个帧的间隔期间被提供,而且这种类型的比特流合并方法需要解码器去确定该解码器所接收的每个比特流是否是合并后的比特流。
作为所述比特流合并方法的替换,可通过使得解码器不会识别出多个比特流是否被合并成了单个比特流的方式来将多个比特流合并成一个比特流。以下将参照图21详细说明该方式。
参见图21,比较由SIDE_INFO_A来表示的最高能量对象信号的能量级和由SIDE_INFO_B来表示的最高能量对象信号的能量级。接着,这两个对象信号中具有更高能量级的对象信号被确定为合并后的比特流的最高能量对象信号。举例来说,如果由SIDE_INFO_A来表示的最高能量对象信号的能量级高于由SIDE_INFO_B来表示的最高能量对象信号的能量级,则由SIDE_INFO_A来表示的最高能量对象信号就是合并后的比特流的最高能量对象信号。接着,SIDE_INFO_A的能量比信息可被用于合并后的比特流,而SIDE_INFO_B的能量比信息可乘上A和B中的最高能量对象信号的能量级之比。
接着,SIDE_INFO_A和SIDE_INFO_B其中之一的包括关于合并后的比特流的最高能量对象信号的信息的能量比信息,和由SIDE_INFO_A表示的最高能量对象信号的能量比信息,以及由SIDE_INFO_B表示的最高能量对象信号可被用于该合并后的比特流。该方法包括对SIDE_INFO_B的能量比信息的再计算。然而,对SIDE_INFO_B的能量比信息的再计算相对并不复杂。在该方法中,解码器可能无法确定所接收到的比特流是否是包括多于一个比特流的合并后的比特流,并且可以使用典型的解码器方法。
通过使用合并包括单声缩减混音信号的比特流所使用的方法几乎相同的方法,包括立体声缩减混音信号的两个对象比特流可被容易地合并成一个单独的对象比特流,而不需要对关于对象信号的信息的再计算。在一个对象比特流中,存在关于树形结构的信息,缩减混音对象信号后面跟随着从树形结构的每个分支(也就是每个盒)中所获得的对象信号信息。
以上已描述了对象比特流,假设该特定的对象仅被分配给立体声缩减混音信号的左声道或右声道。然而,对象信号通常是被分配给立体声缩减混音信号的两个声道。因此,以下将详细描述如何根据分配给立体声缩减混音信号的两个声道的对象比特流而生成对象比特流。
图22是用于解释通过混音多个对象信号而生成立体声缩减混音信号的方法的框图,更具体的,一种用于将从对象1至对象4的4个对象信号缩减混音到L和R立体声信号的方法。举例来说,第一对象信号对象1以比例a:b被分配到L和R声道,如公式(3)所示:
【公式3】
Eng Obj 1 L = a a + b Eng Obj 1
Eng Obj 1 R = b a + b Eng Obj 1
如果对象信号被分配到立体声缩减混音信号的L和R声道,可能额外需要关于对象信号在L和R声道之间分配的比例(a:b)的声道分配比例信息。接着,通过针对立体声缩减混音信号的L和R声道来使用OTT盒执行缩减混音而计算出关于对象信号的信息,例如CLD和ICC信息,以下将参照图23来详细描述该操作。
参见图23,在缩减混音操作期间一旦从多个OTT盒中获得CLD和ICC信息,并且提供了多个对象信号的每一个的声道分配比例信息,其可以计算出多声道比特流,该多声道比特流可根据终端用户对对象位置信息和再现配置信息做出的任何修改而自适应的变化。此外,如果一个立体声缩减混音信号在缩减混音预处理期间需要被处理,其可以获得关于在缩减混音预处理期间如何处理该缩减混音信号的信息,并将获得的信息传输给预处理器。也就是说,如果没有提供多个对象信号的每一个的声道分配比例信息,就没有办法计算出多声道比特流和获得预处理器的操作所必需的信息。对象信号的声道分配比例信息可由两个整数或标量(scalar)之比(单位:dB)来表示。
如上所述,如果一个对象信号被分配到立体声缩减混音信号的两个声道之间,可能需要对象信号的声道分配比例信息。该声道分配比例信息可能是固定的值,其指示该对象信号分配到立体声缩减混音信号的两个声道之间的比例。可选的是,对象信号的声道分配比例信息可从对象信号的一个频带变化到另一个频带,尤其当将该声道分配比例信息作为ICC信息时。如果通过复杂的缩减混音操作来获得立体声缩减混音信号,例如如果对象信号属于立体声缩减混音信号的两个声道,并且通过改变ICC信息从对象信号的一个频带到另一个频带来缩减混音该对象信号,可能额外的需要对该对象信号缩减混音的详细说明,以解码最终渲染的对象信号。该实施例可被应用于以上所描述的所有可能的对象结构。
此后,以下将参考图24至27来详细描述预处理。如果输入到对象解码器中的缩减混音信号是立体声信号,在输入到对象解码器的多声道解码器之前,该输入的缩减混音信号需要被预处理,因为多声道解码器不能将属于输入的缩减混音信号的左声道的信号映射到右声道。
因此,为了使终端用户能够将属于输入的缩减混音信号的左声道的对象信号的位置移动到右声道,该输入的缩减混音信号需要被预处理,并且预处理后的缩减混音信号可被输入给多声道解码器。
可通过从对象比特流中和从渲染矩阵中获得预处理信息来执行立体声缩减混音信号的预处理,并且根据预处理信息来适当地处理立体声缩减混音信号,以下将详细描述该操作。
图24是用于解释根据4个对象信号对象1至对象4来如何配置立体声缩减混音信号的框图。参见图24,第一对象信号对象1以比例a:b被分配到L和R声道,第二对象信号对象2以比例c:d被分配到L和R声道,第三对象信号对象3仅被分配给L声道,并且第四对象信号对象4仅被分配给R声道。可以通过在多个OTT之间传递第一至第四对象信号对象1至对象4的每一个来生成诸如CLD和ICC之类的信息,并且可根据生成的信息来生成缩减混音信号。
假设终端用户通过适当设置第一至第四对象信号对象1至对象4的位置和电平而获得渲染矩阵,并且有5个声道。该渲染矩阵可由公式(4)表示:
【公式4】
30 10 20 30 10 10 30 20 10 30 22 22 22 22 22 21 21 31 11 11
参见公式(4),当4行的每行的5个系数之和等于预定义的参考值,也就是100时,其确定相应的对象信号的电平没有变化。4行中每一行的5个系数之和与预定义的参考值之间的差异的量就是相应的对象信号的电平的改变量(单位:dB)。公式(4)的渲染矩阵的第一、第二、第三、第四和第五列分别表示FL,FR,C,RL和RR声道。
公式(4)的渲染矩阵的第一行相应于第一对象信号对象1,并且具有总共5个系数,也就是30,10,20,30和10。因为第一行这5个系数之和为100,其确定第一对象信号对象1的电平没有变化,并且仅有第一对象信号对象1的空间位置发生了改变。即使第一行的5个参数表示不同的声道方向,它们也可被大致分类为两个声道:L和R声道。接着,第一对象信号对象1在L和R声道之间分配的比例可由70%(=(30+30+20)*0.5):30%(=(10+10+20)*0.5)来计算。因此,公式(4)的渲染矩阵指示第一对象信号对象1的电平没有变化,并且第一对象信号对象1以70%:30%的比例被分配到L和R声道之间。如果公式(4)的渲染矩阵的任一行的5个系数之和小于或大于100,其确定相应的对象信号的电平已改变,并且接着,相应的对象信号可通过预处理被处理,或被转换为ADG并传输。
为了预处理缩减混音信号,可计算该缩减混音信号在参数带之间的分配比例,参数带中的参数是从由对缩减混音信号执行QMF/混合变换而获得的信号中提取出来的,并且该缩减混音信号可根据渲染矩阵的设置来再分配到参数带之间。以下将详细描述各种将缩减混音信号再分配到参数带中的方法。
在第一再分配方法中,分别使用L-和R-声道缩减混音信号的边信息(例如CLD和ICC信息)和使用与多声道编解码器所使用的方法几乎相同的方法来分别解码L-和R-声道缩减混音信号。接着,恢复分配到L-和R-声道缩减混音信号中的对象信号。为了减少计算量,可仅通过CLD信息来解码L-和R-声道缩减混音信号。可根据边信息来确定每个恢复的对象信号分配到L-和R-声道缩减混音信号之间的比例。
每个恢复后的对象信号可根据渲染矩阵被分配到L-和R-声道缩减混音信号之间。接着,使用OTT基于声道至声道地对再分配了的对象信号进行缩减混音,从而完成该预处理。简而言之,第一再分配方法采用与多声道编解码器所使用的相同的方法。然而,第一再分配方法对于每个声道都需要执行与对象信号一样多的解码处理,并且需要再分配处理和基于声道的缩减混音处理。
在第二再分配方法中,不同于第一再分配方法,不从L-和R-缩减混音信号中恢复对象信号。替代的是,每个L-和R-缩减混音信号被划分为两个部分:如图25所示,一部分的L_L或R_R被留在相应声道中,并且其它部分的L_R或R_L被再分配。参见图25,L_L指示L--声道缩减混音信号应该被留在L声道中的部分,L_R指示L-声道缩减混音信号的应该被增加到R声道中的部分。同样的,R_R指示R-声道缩减混音信号的应该留在R声道中的部分,并且R_L指示R-声道缩减混音信号的应该被增加到L声道中的部分。每个L-和R-声道缩减混音信号可以根据如公式(2)所定义的每个对象信号被分配到L-和R-缩减混音信号之间的比例,以及如公式(3)所定义的每个对象信号应该分配到预处理后的L和R声道之间的比例而被划分为两部分(L_L和L_R,或R_R和R_L)。因此,其可以通过比较每个对象信号被分配给L-和R-缩减混音信号之间的比例和每个对象信号应该被再分配给预处理后的L和R声道的比例来确定如何在预处理后的L和R声道之间再分配L-和R-缩减混音信号。
以上已描述了根据预定义的能量比来将L-声道信号划分为信号L_L和L_R。一旦L-声道信号被划分为信号L_L和L_R,则需要确定在信号L_L和L_R之间的ICC。可根据关于对象信号的ICC消息而容易地确定在信号L_L和L_R之间的ICC。也就是说,可根据每个对象信号分配给信号L_L和L_R之间的比例来确定在信号L_L和L_R之间的ICC。
以下将进一步详细描述第二缩减混音再分配方法。假设L-和R-声道缩减混音信号L和R是由如图24所示的方法所获得的,并且第一、第二、第三和第四对象信号对象1(OBJECT1)、对象2(OBJECT2)、对象3(OBJECT3)和对象4(OBJECT4)分别以1:2,2:3,1:0和0:1的比例被分配到L-和R-声道缩减混音信号L和R之间。多个对象信号可通过多个OTT盒被缩减混音,并且可以从对象信号的缩减混音中获得信息,例如CLD和ICC信息。
为第一至第四对象信号对象1至对象4所建立的渲染矩阵的一个例子由公式(4)所表示。该渲染矩阵包括第一至第四对象信号对象1至对象4的位置信息。则,可以通过使用渲染矩阵来执行预处理而获得预处理后的L-和R-声道缩减混音信号L和R。以上已经参考公式(3)描述了如何建立和解释该渲染矩阵。
可以通过公式(5)来计算第一至第四对象信号对象1至对象4中的每一个被分配到预处理后的L-和R-声道缩减混音信号L和R之间的比例:
【公式5】
Object1: Eng Obj 1 L ′ = 30 + 30 + 20 * 0.5 = 70 ,
Eng Obj 1 R ′ = 10 + 10 + 20 * 0.5 = 30
Eng Obj 1 L ′ : Eng Obj 1 R ′ = 70 : 30
Object2: Eng Obj 2 L ′ = 10 + 10 + 20 * 0.5 = 30 ,
Eng Obj 2 R ′ = 30 + 30 + 20 * 0.5 = 70
Eng Obj 2 L ′ : Eng Obj 2 R ′ = 30 : 70
Eng Obj 3 R ′ = 22 + 22 + 22 * 0.5 = 55
Eng Obj 3 L ′ : Eng Obj 3 R ′ = 55 : 55
Object4: Eng Obj 4 L ′ = 21 + 11 + 31 * 0.5 = 47.5 ,
Eng Obj 4 R ′ = 21 + 11 + 31 * 0.5 = 47.5
Eng Obj 4 L ′ : Eng Obj 4 R ′ = 47.5 : 47.5
可通过公式(6)来计算第一至第四对象信号对象1至对象4中的每一个被分配到L-和R-声道缩减混音信号L和R的比例:
【公式6】
Objectl: Eng Obj 1 L : Eng Obj 1 R = 1 : 2
Object2: Eng Obj 2 L : Eng Obj 2 R = 2 : 3
Object3: Eng Obj 3 L : Eng Obj 3 R = 1 : 0
Object4: Eng Obj 4 L : Eng Obj 4 R = 0 : 1
参见公式(5),分配到预处理后的L-声道缩减混音信号的第三对象信号对象3的部分与分配到预处理后的R-声道缩减混音信号的第三对象信号对象3的部分之和为110,则其确定第三对象信号对象3的电平增加了10。在另一方面,分配给预处理后的L-声道缩减混音信号L的第四对象信号对象4的部分与分配到预处理后的R-声道缩减混音信号的第四对象信号对象4的部分之和为95,则其确定第四对象信号对象4的电平减少了5。如果针对第一至第四对象信号对象1至对象4的渲染矩阵具有参考值100,并且该渲染矩阵的每一行中的系数之和与参考值100的差异量表示相应的对象信号的电平改变的量(单位:dB),其可以确定第三对象信号对象3的电平增加了10dB,和第四对象信号对象4的电平减少了5dB。
公式(5)和公式(6)可被重排列进公式(7):
【公式7】
Objectl: Eng Obj 1 L : Eng Obj 1 R = 33.3 : 66.7 Eng Obj 1 L ′ : Eng Obj 1 R ′ = 70 : 30
Object2: Eng Obj 2 L : Eng Obj 2 R = 40 : 60 Eng Obj 2 L ′ : Eng Obj 2 R ′ = 30 : 70
Object3: Eng Obj 3 L : Eng Obj 3 R = 100 : 0 Eng Obj 3 L ′ : Eng Obj 3 R ′ = 50 : 50
Object4: Eng Obj 4 L : Eng Obj 4 R = 0 : 100 Eng Obj 4 L ′ : Eng Obj 4 R ′ = 50 : 50
公式(7)包括每个第一至第四对象信号对象1至对象4被分配到预处理之前的L-和R-声道缩减混音信号之间的比例,和每个第一至第四对象信号对象1至对象4分配到预处理之后的L-和R-声道缩减混音信号之间的比例。因此,通过使用公式(7),其可以容易地确定每个第一至第四对象信号对象1至对象4的多少应该通过预处理被再分配。举例来说,参见公式(7),第二对象信号对象2从分配到L-和R-声道缩减混音信号之间的比例从40:60变为30:70,则其可以确定被预先分配给了L-声道缩减混音信号的第二对象信号对象2的四分之一(25%)部分需要被切换到R-声道缩减混音信号中。这一操作通过参考公式(8)将变得更明显:
【公式8】
对象1:预先分配给R的对象1的55%部分需要被切换到L
对象2:预先分配给L的对象1的25%部分需要被切换到R
对象3:预先被分配给L的对象1的50%部分需要被切换到R
对象4:预先被分配给R的对象1的50%部分需要被切换到L。
通过使用公式(8),可用公式(9)来表示图25的信号L_L、L_R、R_L和R_R:
【公式9】
Eng L _ L = Eng Obj 1 L + 0.75 · Eng Obj 2 L + 0.5 · Eng Obj 3
Eng L _ R = 0.25 · Eng Obj 2 L + 0.5 · Eng Obj 3
Eng R _ L = 0.55 · Eng Obj 1 R + 0.5 · Eng Obj 4
Eng R _ R = 0.45 · Eng Obj 1 R + Eng Obj 2 R + 0.5 · Eng Obj 4
公式(9)中的每个对象信号的值可由通过使用由OTT盒提供的去量化CLD信息将相应的对象信号分配到L和R声道之间的比例来表示,如公式(10)所示:
【公式10】
Eng Obj 1 L = 10 CLD 2 10 1 + 10 CLD 2 10 · 10 CLD 1 10 1 + 10 CLD 1 10 · Eng L ,
Eng Obj 2 L = 10 CLD 2 10 1 + 10 CLD 2 10 · 1 1 + 10 CLD 1 10 · Eng L
Eng Obj 1 R = 10 CLD 4 10 1 + 10 CLD 4 10 · 10 CLD 3 10 1 + 10 CLD 3 10 · Eng R ,
Eng Obj 2 R = 10 CLD 4 10 1 + 10 CLD 4 10 · 1 1 + 10 CLD 3 10 · Eng R
Eng Obj 3 = 1 1 + 10 CLD 2 10 · Eng L ,
Eng Obj 4 = 1 1 + 10 CLD 4 10 · Eng R
用于图25的每个解析块的CLD可使用公式(11)来确定:
【公式11】
CLD pars 1 = 10 log 10 ( L _ L + ϵ L _ R + ϵ )
ε为常数以避免除以零,例如:低于
最大信号输出96dB。
CLD pars 2 = 10 log 10 ( R _ L + ϵ R _ R + ϵ )
在这种方式中,可以确定解析块所使用的用于根据L-声道缩减混音信号而生成信号L_L和L_R的CLD和ICC信息,并且还可以确定解析块所使用的用于根据R-声道缩减混音信号而生成信号R_L和R_R的CLD和ICC信息。如图25所示,一旦获得了信号L_L,L_R,R_L和R_R,可以增加信号L_R和R_R,从而获得预处理后的立体声缩减混音信号。如果最终声道是立体声声道,可以输出由预处理所获得的L-和R-声道缩减混音信号。在这种情况下,每个对象信号任何可能的改变仍然需要被调整。为此,可能额外提供执行ADG模块功能的预定的模块。可使用与计算ADG信息相同的方法来计算用于调整每个对象信号的电平的信息,并且以下将进一步详细描述该操作。可选的是,在预处理操作期间调整每个对象信号的电平。在这种情况下,可使用与处理ADG相同的方法来执行对每个对象信号的电平的调整。对于图25的实施例,可选的是,如图26所示,为了调整由混音所获得的信号L和R之间的相关性,去相关操作可由去相关器和混音器来执行,而不是由解析块PARSING1和PARSING2执行。参见图26,Pre_L和Pre_R指示由电平调整所获得的L-和R-声道信号。信号Pre_L和Pre_R中的一个被输入到去相关器中,并且进入由混音器所执行的混音操作中,从而获得相关性调整后的信号。
预处理后的立体声缩减混音信号可被输入给多声道解码器。为了提供与由终端用户所设置的对象位置信号和再现配置信息相兼容的多声道输出,不仅需要预处理后的缩减混音信号,还需要用于执行多声道解码的基于声道的边信息。以下将通过再次解释所述例子来详细描述如何获得基于声道的边信息。根据公式(5)所定义的输入给多声道解码器的预处理后的缩减混音信号L和R可由公式(12)表示:
【公式12】
EngL′=EngL_L+EngR_L
=0.7EngObj1+0.3EngObj2+0.5EngObj3+0.5EngObj4
EngR′=EngL_R+EngR_R
=0.3EngObj1+0.7EngObj2+0.5EngObj3+0.5EngObj4
第一至第四对象信号对象1至对象4中的每一个被分配到FL,RL,C,FR和RR声道之间的比例可由公式(13)所确定:
【公式13】
EngFL=0.3EngObj1+0.1EngObj2+0.2EngObj3+0.21·100/95·EngObj4
EngRL=0.3EngObj1+0.1EngObj2+0.2EngObj3+0.11·100/95·EngObj4
EngC=0.2EngObj1+0.2EngObj2+0.2EngObj3+0.31·100/95·EngObj4
EngFR=0.1EngObj1+0.3EngObj2+0.2EngObj3+0.21·100/95·EngObj4
EngRR=0.1EngObj1+0.3EngObj2+0.2EngObj3+0.11·100/95·EngObj4
如图27所示,预处理后的缩减混音信号L和R可通过MPS被扩展到5.1声道。参见图27,需要在参数带内计算TTT盒的参数TTT0以及OTT盒的参数OTTA、OTTB和OTTC,即使为了方便起见没有示出参数带。
TTT盒TTT0可被用于两种不同的模式:一种基于能量的模式和一种预测模式。当用于基于能量的模式时,TTT盒TTT0需要两个CLD信息。当用于预测模式时,TTT盒TTT0需要两个CPC信息和一个ICC信息。
为了计算基于能量模式时的CLD信息,可使用公式(6)、(10)和(13)来计算图27中的信号L”,R”和C的能量比。信号L”的能量级可由公式(14)计算得出:
【公式14】
Eng L ′ ′ = Eng FL + Eng RL = 0.6 Eng Obj 1 + 0.2 Eng Obj 2 + 0.4 Eng Obj 3 + 0.32 · 100 / 95 · Eng Obj 4
= 0.6 · 1 3 · 10 CLD 2 10 1 + 10 CLD 2 10 · 10 CLD 1 10 1 + 10 CLD 1 10 · Eng L
+ 0.2 · 2 5 · 10 CLD 2 10 1 + 10 CLD 2 10 · 1 1 + 10 CLD 1 10 · Eng L
+ 0.4 · 1 1 + 10 CLD 2 10 · Eng L
+ 0.32 · 100 / 95 · 1 1 + 10 CLD 4 10 · Eng R
公式(14)还可被用于计算R”或C的能量级。其后,可根据信号L”、R”和C的能量级来计算用于TTT盒TTT0的CLD信息,如公式(15)所示:
【公式15】
TTT CLD 1 = 10 log 10 ( Eng L ′ ′ + Eng R ′ ′ Eng C ′ ′ )
TTT CLD 2 = 10 log 10 ( Eng C ′ ′ Eng R ′ ′ )
可根据公式(10)来建立公式(14)。即使公式(10)仅定义了如何计算L声道的能量值,也可以使用公式(10)来计算R声道的能量值。通过这样的方式,可根据第一和第二OTT盒的CLD和ICC值来计算出第三和第四OTT盒的CLD和ICC值。然而可以不将此应用于所有树形结构,而仅应用于特定的树形结构以解码对象信号。包括在对象比特流中的信息可被传输给每个OTT盒。可选的是,包括在对象比特流中的信息可仅被传输给一些OTT盒,并且通过计算可以获得指示没有接收到信息的OTT盒的信息。
可以通过使用所述方法来计算用于OTT盒OTTA、OTTB和OTTC的参数,例如CLD和ICC信息。这些多声道参数可被输入给多声道解码器,并且接着进入多声道解码,从而获得根据终端用户所期待的对象位置信息和再现配置信息被适当渲染的多声道信号。
如果对象信号的电平没有因预处理而调整,多声道参数可包括ADG参数。以下将再次描述所述例子来详细地描述ADG参数的计算。
当渲染矩阵被建立时,第三对象信号的电平可以增加10dB,第四对象信号的电平可以降低5dB,则在L中的第三对象信号分量的电平可以增加10dB,并且在L中的第四对象信号分量的电平可以降低5dB,可使用公式(16)来计算第三和第四对象信号的电平调整前和调整后的能量级的比例RatioADG,L
【公式16】
可通过将公式(10)代入公式(16)来确定比例RatioADG,L。也可使用公式(16)来计算R声道的比例RatioADG,R。每个RatioADG,L和RatioADG,R表示因为对象信号的电平的调整而引起的相应的参数带的能量的变化。则,可使用RatioADG,L和RatioADG,R来计算ADG值ADG(L)和ADG(R),如公式(17)所示:
【公式17】
ADG(L′)=10log10(RatioADG,L′)
ADG(R′)=10log10(RatioADG,R′)
一旦确定了ADG参数ADG(L)和ADG(R),可使用ADG量化表来量化ADG参数ADG(L)和ADG(R),并且传输量化后的ADG值。如果不需要进一步精确调整ADG值ADG(L)和ADG(R),可由预处理器来执行ADG值ADG(L)和ADG(R)的调整,而不是使用MPS解码器。
用于表示在对象比特流中的对象信号的参数带的数量和间隔与多声道解码器所使用的参数带的数量和间隔可以不同。在这种情况下,对象比特流的参数带可被线性地映射到多声道解码器的参数带上。更具体的,如果对象比特流的特定参数带延伸到两个多声道解码器的参数带上,可执行线性映射,以根据相应参数带分配到多声道解码器的两个参数带之间的比例来划分对象比特流的该特定参数带。在另一方面,如果多于一个的对象比特流的参数带包括在多声道解码器的特定参数带中,可以平均化对象比特流的参数值。可选的是,可使用现有的多声道标准的参数带映射表来执行参数带的映射。
当对象编解码是用于电话会议的时候,不同人的语音对应于对象信号。对象解码器分别输出对应于对象信号的语音给特定扬声器。然而,当同时有多于一个人说话时,对象解码器很难通过解码来适当分配人语音给不同的扬声器,并且人语音的渲染可能导致声音失真和声音质量的恶化。为了克服这个问题,指示是否有多于一个人同时说话的信息可包括于比特流中。接着,如果根据该信息确定了有多于一个人同时说话,可修改基于声道的比特流,则与缩减混音信号相同的几乎没有被解码的信号(barely-decoded)被输出给每个扬声器。
举例来说,假设有3个人a,b和c,并且这三个人a,b和c的语音需要被解码并分别输出给扬声器A,B和C。当这三个人a,b和c同时说话时,这三个人a,b和c的语音可被包括在缩减混音信号中,该缩减混音信号是由对分别表示这三个人a,b和c的语音的对象信号进行缩减混音而获得的。在这种情况下,关于分别对应于这三个人a,b和c的语音的部分的缩减混音信号的信息可被配置为多声道比特流。接着,可使用典型的对象解码方法来解码该缩减混音信号,使得这三个人a,b和c的语音可被分别输出给扬声器A,B和C。然而,扬声器A,B和C每一个的输出可能失真,并且可能具有比原始缩减混音信号更低的识别率。此外,这三个人a,b和c的语音可能无法彼此完全的隔离。为了克服这个问题,指示这三个人a,b和c同时说话的信息可被包括在一个比特流中。接着,代码转换器生成多声道比特流,使得由缩减混音分别对应于这三个人a,b和c的语音的对象信号而获得的缩减混音信号被输出给扬声器A,B和C的每一个。通过这样的方式,其可以防止信号失真。
实际上,当多于一个人同时说话时,很难分隔每个人的语音。因此,当缩减混音信号被输出时,其声音质量可能高于当缩减混音信号被渲染时的声音质量,因此不同人的语音可彼此间隔开,并被输出给不同扬声器。为此,代码转换器可生成多声道比特流,所以从多于一个人同时说话中所获得的缩减混音信号可被输出给所有扬声器,或该缩减混音信号可被放大并且接着被输出给扬声器。
为了指示对象比特流的缩减混音信号是否来自一个或多个人同时说话,如上所述,对象编码器可适当地修改对象比特流,以代替提供额外的信息。在这种情况下,对象解码器可对对象比特流执行典型的解码操作,使得缩减混音信号可被输出给扬声器,或该缩减混音信号可被放大但是不扩展到引发失真,接着被输出给扬声器。
下面将详细描述提供给多声道解码器的3D信息,例如HTRF。
当对象解码器操作在双耳模式下时,对象解码器中的多声道解码器也操作在双耳模式下。终端用户可根据对象信号的空间位置将最优化后的3D信息,例如HRTF传输给多声道解码器。
更具体的,当有两个对象信号,也就是对象1和对象2时,这两个对象信号对象1和对象2被分别放置于位置1和2,渲染矩阵生成器或代码转换器可能具有指示对象信号对象1和对象2的位置的3D信息。如果渲染矩阵生成器具有指示对象信号对象1和对象2的位置的3D信息,该渲染矩阵生成器可将指示对象信号对象1和对象2的位置的3D信息传输给代码转换器。在另一方面,如果代码转换器具有指示对象信号对象1和对象2的位置的3D信息,该渲染矩阵生成器仅将对应于该3D信息的索引信息传输给代码转换器。
在这种情况下,可根据3D信息指定位置1和2来生成双耳信号,如公式(18)所示:
【公式18】
L=Obj1*HRTFL,Pos1+Obj2*HRTFL,Pos2
R=Obj1*HRTFR,Pos1+Obj2*HRTFR,Pos2
假设将使用5.1声道扬声器系统来再生声音,多声道双耳解码器通过执行解码来获得双耳声音,并且该双耳声音可由公式(19)来表示:
【公式19】
L=FL*HRTFL,FL+C*HRTFL,C+FR*HRTFL,FR
+RL*HRTFL,RL+RR*HRTFL,RR
R=FL*HRTFR,FL+C*HRTFR,C+FR*HRTFR,FR
+RL*HRTFR,RL+RR*HRTFR,RR
对象信号对象1的L-声道分量可由公式(20)来表示:
【公式20】
LObj1=Obj1*HRTFL,Pos1
LObj1=FLObj1*HRTFL,FL+CObj1*HRTFL,C+FRObj1*HRTFL,FR
+RLObj1*HRTFL,RL+RRObjl*HRTFL,RR
对象信号对象1的R-声道分量以及对象信号对象2的L-和R-声道分量也可使用公式(20)来定义。
举例来说,如果对象信号对象1和对象2的能量级与能量级总和之比分别为a和b,被分配到FL声道的对象信号对象1的部分与整个对象信号对象1之比为c,并且被分配到FL声道的对象信号对象2的部分与整个对象信号对象2之比为d,对象信号对象1和对象2被分配到FL声道的比例为ac:bd。在这种情况下,可确定FL声道的HRTF,如公式(21)所示:
【公式21】
HRTF FL , L = ac ac + bd · HRTF L , Pos 1 + bd ac + bd · HRTF L , Pos 2
HRTF FL , R = ac ac + bd · HRTF R , Pos 1 + bd ac + bd · HRTF R , Pos 2
通过这样的方式,可获得在多声道双耳解码器中所使用的3D信息。因为在多声道双耳解码器中所使用的3D信息能更好地表示对象信号的精确位置,其可以通过使用在多声道双耳解码器中所使用的3D信息的双耳解码来更生动地再生双耳信号,该再生比当使用对应于5个扬声器的位置的3D信息来执行多声道解码时的再生更好。
如上所述,可根据表示对象信号的空间位置的3D信息和能量比信息来计算在多声道双耳解码器中所使用的3D信息。可选的是,当根据对象信号的ICC信息来合计表示对象信号空间位置的3D信息时,可通过适当执行去相关来生成在多声道双耳解码器中所使用的3D信息。
效果处理可作为预处理的一部分而被执行。可选的是,效果处理的结构可被简单地增加到多声道解码器的输出中。在前一个例子中,为了执行针对对象信号的效果处理,需要另外对L-声道信号到L_L和L_R的划分以及R-声道到R_R和R_L的划分执行对象信号的提取。
更具体的,首先可从L-和R-声道信号中提取处对象信号。接着,该L-声道信号可被划分为L_L和L_R,并且该R-声道信号可被划分为R_R和R_L。对针对该对象信号执行效果处理。接着,效果处理后的对象信号可根据渲染矩阵被划分为L-和R-声道分量。其后,可将效果处理后的对象信号的L-声道分量增加给L_L和R_L,将效果处理后的对象信号的R-声道分量增加给R_R和L_R。
可选的是,可首先生成预处理后的L-和R-声道信号L和R。其后,可从预处理后的L-和R-声道信号L和R中提取处对象信号。其后,可针对对象信号执行效果处理,并且将效果处理的结果回加给预处理后的L-和R-声道信号。
可通过效果处理来修改对象信号的频谱。举例来说,可选择性地提高对象信号的高音部分或低音部分的电平。为此,可仅修改对应于该对象信号的高音部分或低音部分的频谱部分。在这种情况下,需要相应修改包括在对象比特流中的对象相关信息。举例来说,如果特定对象信号的低音部分的电平提高了,该特定对象信号的低音部分的能量也提高了。则,包括在对象比特流中的能量信息不再准确地表示该特定对象信号的能量。为了克服这个问题,可根据该特定对象信号的能量的变化而直接修改包括在对象比特流中的能量信息。可选的是,由代码转换器提供的频谱变化信息可被应用于多声道比特流的形成中,这样该特定对象信号的能量变化可反映在多声道比特流中。
图28至33是用于解释将多个基于对象的边信息和多个缩减混音信号合并进一个边信息和一个缩减混音信号中的框图。在电话会议的例子中,有时必须将多个基于对象的边信息和多个缩减混音信号合并进一个边信息和一个缩减混音信号中,在这种情况下,需要考虑许多因素。
图28是编码后的对象比特流的框图。参见图28,该编码后的对象比特流包括缩减混音信号和边信息。该缩减混音信号与该边信息同步。因此,该编码后的对象比特流可容易地被解码,而不需要考虑额外因素。然而,在将多个比特流合并到一个单独比特流的情况中,必须保证该单独比特流的缩减混音信号与该单独比特流的边信息同步。
图29是用于解释合并多个编码后的对象比特流BS1和BS2的框图。参见图29,参考标记1、2和3指示帧号。为了将多个缩减混音信号合并成一个单独的缩减混音信号,该缩减混音信号要被转换为脉冲编码调制(PCM)信号,该PCM信号在时域内被缩减混音,并且缩减混音后的PCM信号要被转换为压缩编解码格式。如图29(b)所示,在该操作期间,可能生成延迟d。因此,当通过合并多个比特流而获得将被解码的比特流时,必须确保将被解码的比特流的缩减混音信号与将被解码的比特流的边信息完全同步。
如果给出了比特流的缩减混音信号和边信息之间的延迟,则可以使用对应于该延迟的预定量来补偿该比特流。比特流的缩减混音信号和边信息之间的延迟可随着用于生成缩减混音信号的压缩编解码器的类型而变化。因此,指示比特流的缩减混音信号和边信息之间任何可能的延迟的比特可包括在边信息中。
图30表示当通过不同的编解码器类型生成比特流BS1和BS2的缩减混音信号时,或当比特流BS2的边信息的配置不同于比特流BS1的边信息的配置时,将两个比特流BS1和BS2合并成一个单独的比特流的情况。参见图30,当通过不同的编解码类型生成比特流BS1和BS2的缩减混音信号时,或当比特流BS2的边信息的配置不同于比特流BS1的边信息的配置时,可以确定比特流BS1和BS2具有不同信号延迟d1和d2,这些延迟是将缩减混音信号变换为时域信号和使用单个压缩编解码器来变换时域信号所导致的。在这种情况下,如果简单地把比特流BS1和BS2加在一起,而不考虑不同信号的延迟,则比特流BS1的缩减混音信号可能与比特流BS2的缩减混音信号产生偏移,并且比特流BS1的边信息可能与比特流BS2的边信息产生偏移。为了克服这个问题,具有延迟d1的比特流BS1的缩减混音信号可被进一步延迟以与具有延迟d2的比特流BS2的缩减混音信号相同步。接着,可使用与图30的实施例相同的方法来合并比特流BS1和BS2。如果有多于一个比特流要被合并,其中具有最大延迟的比特流被当作参考比特流,接着,其它比特流被进一步延迟以与参考比特流相同步。指示缩减混音信号和边信息之间的延迟的比特可包括在对象比特流中。
可提供指示在比特流中存在信号延迟的比特。仅在比特信息指示在比特流中存在信号延迟时,可额外提供指定信号延迟的信息。通过这种方式,其可以最小化用于指示在比特流中任何可能的信号延迟所需的信息量。
图32是用于解释如何通过不同信号延迟之差来补偿具有不同信号延迟的两个比特流BS1和BS2中的其中一个的框图,具体来说,如何补偿具有比比特流BS1更大信号延迟的比特流BS2。参见图32,比特流BS1的边信息的第一至第三帧全部可以以其本来的方式被使用。在另一方面,不可以以其本来的方式使用比特流BS2的边信息的第一至第三帧,因为比特流BS2的边信息的第一至第三帧没有与比特流BS1的边信息的第一至第三帧分别同步。举例来说,比特流BS1的边信息的第二帧不仅对应于比特流BS2的边信息的第一帧的一部分,还对应于比特流BS2的边信息的第二帧的一部分。可以计算出相应于比特流BS1的边信息的第二帧的比特流BS2的边信息的第二帧的一部分与比特流BS2的边信息的整个第二帧之比,以及相应于比特流BS1的边信息的第二帧的比特流BS2的边信息的第一帧的一部分与比特流BS2的边信息的整个第一帧之比,并且可根据该计算的结果来平均化或内插比特流BS2的边信息的第一和第二帧。如图32(b)所示,通过这种方式,比特流BS2的边信息的第一至第三帧可分别与比特流BS1的边信息的第一至第三帧相同步。接着,可使用图29的实施例的方法来合并比特流BS1的边信息和比特流BS2的边信息。比特流BS1和BS2的缩减混音信号可被合并成一个单独的缩减混音信号,而无需延迟补偿。在这种情况下,相应于信号延迟d1的延迟信息可被存储在由合并比特流BS1和BS2而获得的合并后的比特流中。
图33是用于解释如何补偿具有不同信号延迟的两个比特流中具有更小信号延迟的比特流的框图。参见图33,比特流BS2的边信息的第一至第三帧全部可以以其本来的方式被使用。在另一方面,不可以以其本来的方式使用比特流BS1的边信息的第一至第三帧,因为比特流BS1的边信息的第一至第三帧没有与比特流BS2的边信息的第一至第三帧分别同步。举例来说,比特流BS2的边信息的第一帧不仅对应于比特流BS1的边信息的第一帧的一部分,还对应于比特流BS1的边信息的第二帧的一部分。可以计算出相应于比特流BS2的边信息的第一帧的比特流BS1的边信息的第一帧的一部分与比特流BS1的边信息的整个第一帧之比,以及相应于比特流BS2的边信息的第一帧的比特流BS1的边信息的第二帧的一部分与比特流BS1的边信息的整个第二帧之比,并且可根据该计算的结果来平均化或内插比特流BS1的边信息的第一和第二帧。如图33(b)所示,通过这种方式,比特流BS1的边信息的第一至第三帧可分别与比特流BS2的边信息的第一至第三帧相同步。接着,可使用图29的实施例的方法来合并比特流BS1的边信息和比特流BS2的边信息。比特流BS1和BS2的缩减混音信号可被合并成一个单独的缩减混音信号,而无需延迟补偿,即使该缩减混音信号具有不同信号延迟。在这种情况下,相应于信号延迟d2的延迟信息可被存储在由合并比特流BS1和BS2而获得的合并后的比特流中。
如果多个编码后的对象比特流被合并成一个单独的比特流,该编码后的对象比特流的缩减混音信号需要被合并成一个单独的缩减混音信号。为了将相应于不同压缩编解码器的多个缩减混音信号合并成一个单独的缩减混音信号,这些缩减混音信号可被转换为PCM信号或频域信号,并且该PCM信号或频域信号可在相应的域中被加在一起。其后,可使用预定压缩编解码器来变换所述加在一起的结果。根据在PCM操作期间是否把缩减混音信号加在了一起或在频域中是否加在了一起,以及根据压缩编解码的类型,可能会发生各种信号延迟。因为解码器无法轻松地从要被解码的比特流中识别处各种信号延迟,指定各种信号延迟的延迟信息需要被包括在比特流中。这些延迟信息表示在PCM信号中的延迟采样数量或在频域中的延迟采样数量。
本发明可使用记录在计算机可读介质上的计算机可读代码来实现。该计算机可读记录介质可以是任何类型的记录装置,在其中数据以计算机可读的方式被存储。计算机可读记录介质的例子包括ROM,RAM,CD-ROM,磁带,软盘,光学数据存储器和载波(例如通过因特网的数据传输)。计算机可读记录介质可通过连接到网络上的多个计算机系统而被分配,所以计算机可读代码被写入其中,并且以非集中方式被执行。普通的本领域技术人员可容易地构造出用于实现本发明的功能性程序、代码和代码段。
如上所述,根据本发明,受益于基于对象的音频编码和解码方法,每一个对象信号的声音图像可被定位。这样,在再现对象信号期间,可以提供更生动的声音。此外,本发明可被应用于交互式游戏,并且可以提供更真实的虚拟实体经历给用户。
尽管本发明已参照其优选实施例进行了描述及说明,很明显本领域的技术人员可做出多种形式上和细节上的改变,而不脱离由权利要求所定义的本发明的精神或范畴。

Claims (7)

1.一种音频解码方法,其包括:
接收缩减混音信号和基于对象的边信息,所述缩减混音信号包括至少两个缩减混音声道信号,并且所述缩减混音信号是通过缩减混音多个对象信号而生成的;
从所述基于对象的边信息中提取具有固定的值的声道分配比例信息,所述声道分配比例信息指示使得所述对象信号被分配到每个缩减混音声道信号的所述对象信号的比例;
根据所述声道分配比例信息生成用于逐声道地修改所述缩减混音声道信号的修改信息;以及
通过把所述修改信息应用到所述缩减混音声道信号来修改所述缩减混音声道信号。
2.如权利要求1所述的音频解码方法,进一步包括:
接收渲染矩阵,所述渲染矩阵指示所述缩减混音信号中所包括的对象信号的位置和电平;以及
根据所述渲染矩阵和所述基于对象的边信息来生成基于声道的边信息。
3.如权利要求2所述的音频解码方法,进一步包括:
根据所述基于声道的边信息和修改后的缩减混音声道信号生成多声道音频信号。
4.如权利要求1所述的音频解码方法,其中,所述基于对象的边信息包括指示所述缩减混音增益信息是否包括在所述基于对象的边信息中的标志信息。
5.一种音频解码装置,其包括:
解复用器,其被配置为从输入音频信号中提取缩减混音信号和基于对象的边信息,所述缩减混音信号包括至少两个缩减混音声道信号;
代码转换器,其被配置为提取声道分配比例信息,所述声道分配比例信息指示使得对象信号被分配到每个缩减混音声道信号的所述对象信号的比例,并且所述代码转换器被配置为基于所述声道分配比例信息生成用于逐声道地修改所述缩减混音声道信号的修改信息;以及
预处理器,其被配置为通过将所述修改信息应用于所述缩减混音声道信号来修改所述缩减混音信号。
6.如权利要求5所述的音频解码装置,其中,所述解复用器进一步提取渲染矩阵,所述渲染矩阵指示在所述缩减混音信号中所包括的对象信号的位置和电平,并且其中所述代码转换器根据所述渲染矩阵和所述基于对象的边信息来生成基于声道的边信息。
7.如权利要求6所述的音频解码装置,进一步包括:
多声道解码器,其根据所述基于声道的边信息和修改后的缩减混音声道信号生成多声道音频信号。
CN200880000383.5A 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置 Active CN101542596B (zh)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US90108907P 2007-02-14 2007-02-14
US60/901,089 2007-02-14
US90164207P 2007-02-16 2007-02-16
US60/901,642 2007-02-16
US90381807P 2007-02-28 2007-02-28
US60/903,818 2007-02-28
US90768907P 2007-04-13 2007-04-13
US60/907,689 2007-04-13
US92402707P 2007-04-27 2007-04-27
US60/924,027 2007-04-27
US94762007P 2007-07-02 2007-07-02
US60/947,620 2007-07-02
US94837307P 2007-07-06 2007-07-06
US60/948,373 2007-07-06
PCT/KR2008/000885 WO2008100100A1 (en) 2007-02-14 2008-02-14 Methods and apparatuses for encoding and decoding object-based audio signals

Publications (2)

Publication Number Publication Date
CN101542596A CN101542596A (zh) 2009-09-23
CN101542596B true CN101542596B (zh) 2016-05-18

Family

ID=41124181

Family Applications (3)

Application Number Title Priority Date Filing Date
CN200880000382.0A Active CN101542595B (zh) 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置
CN200880000383.5A Active CN101542596B (zh) 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置
CN2008800003869A Active CN101542597B (zh) 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN200880000382.0A Active CN101542595B (zh) 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2008800003869A Active CN101542597B (zh) 2007-02-14 2008-02-14 用于编码和解码基于对象的音频信号的方法和装置

Country Status (1)

Country Link
CN (3) CN101542595B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2564504T3 (es) * 2010-12-29 2016-03-23 Samsung Electronics Co., Ltd Aparato de codificación y aparato de descodificación con una ampliación de ancho de banda
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
WO2014020181A1 (en) 2012-08-03 2014-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
AU2013301864B2 (en) 2012-08-10 2016-04-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
CN110364190B (zh) * 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
JP7230799B2 (ja) * 2017-03-28 2023-03-01 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN107886962B (zh) * 2017-11-17 2020-10-02 南京理工大学 一种面向ip语音的高安全性隐写方法
CN108806705A (zh) * 2018-06-19 2018-11-13 合肥凌极西雅电子科技有限公司 音频处理方法和处理系统
KR20210092728A (ko) * 2018-11-20 2021-07-26 소니그룹주식회사 정보 처리 장치 및 방법, 그리고 프로그램
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
MY151722A (en) * 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Also Published As

Publication number Publication date
CN101542597A (zh) 2009-09-23
CN101542597B (zh) 2013-02-27
CN101542595A (zh) 2009-09-23
CN101542595B (zh) 2016-04-13
CN101542596A (zh) 2009-09-23

Similar Documents

Publication Publication Date Title
CN101542596B (zh) 用于编码和解码基于对象的音频信号的方法和装置
US9449601B2 (en) Methods and apparatuses for encoding and decoding object-based audio signals
CN101484935B (zh) 用于编码和解码基于对象的音频信号的方法和装置
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant