发明内容
技术课题
本发明为了类似自动伴奏录音的服务,提供多音频对象信号编码/解码方法和装置,以及转码方法和转码器,可按对象信号各自来控制类似声音的前景对象和由其他信号组成的背景对象BGO(Back Ground Object)信号的音量。
本发明提供多音频对象信号编码/解码方法和装置,以及转码方法和转码器,可将前景对象信号和背景对象信号一起编码和解码来增加要控制的对象信号的个数。
本发明提供多音频对象信号编码/解码方法和装置,以及转码方法和转码器。按对象信号各自来控制前景对象和背景对象信号的音量,在极端的控制环境中也可减少音质的劣化。
技术方案
根据本发明的一个实施例的多音频对象信号编码装置,可包括第一编码器和第二编码器。第一编码器将多个输入对象信号中不包括前景对象信号的对象信号缩混来生成背景对象信号和SAOC参数;第二编码器缩混所述前景对象信号和所述背景对象信号来生成最终缩混信号和EKS参数(EnhancedKaraoke-Solo)。
此外,该装置可进一步包括多路传输单元,多路传输所述SAOC参数和所述EKS参数来生成SAOC比特流。
在这种情况下,所述第一编码器和第二编码器可根据控制所述前景对象信号的EKS编码模式和控制所述背景对象信号的典型编码模式选择性地进行运作。
根据本发明的一个实施例的多音频对象信号编码方法,可包括以下步骤:将多个输入对象信号中不包括前景对象信号的对象信号缩混来生成背景对象信号和SAOC参数;以及缩混所述前景对象信号和所述背景对象信号来生成最终缩混信号和EKS(Enhanced Karaoke-Solo)参数。
此外,该方法可进一步包括以下步骤:多路传输所述SAOC参数和所述EKS参数来生成SAOC比特流。
根据本发明的一个实施例的多音频对象信号解码装置,可包含比特流分析单元、第一解码器、第二解码器、和渲染单元。比特流分析单元从被多路传输的SAOC(Spatial Audio Object Codec)比特流提取SAOC参数和EKS参数;第一解码器利用所述EKS参数,从最终缩混信号将前景对象信号和背景对象信号复原;第二解码器利用所述SAOC参数和渲染矩阵,从所述背景对象信号生成第一渲染信号;渲染单元利用所述前景对象信号和所述第一渲染信号来生成最终渲染信号。
在这种情况下,所述渲染单元可基于所述渲染矩阵利用从所述前景对象信号生成的第二渲染信号和所述第一渲染信号来生成所述最终渲染信号。
此外,所述第一解码器可包括缩混预处理单元、SAOC转码器、和MPS解码器。缩混预处理单元根据所述渲染矩阵,预处理所述背景对象信号来生成修正的缩混信号(modified downmix signal);SAOC转码器根据所述渲染矩阵,将所述SAOC参数转换成影像解压缩环绕MPS(MPEG Surround)比特流;MPS解码器基于所述MPS比特流,渲染所述修正的缩混信号来生成所述第1渲染信号。
在这种情况下,所述渲染单元利用被渲染所述修正的缩混信号和所述前景对象信号来生成所述最终渲染信号。
此外,所述第1解码器和第2解码器可根据控制所述前景对象信号的EKS解码模式和控制所述背景对象信号的典型解码模式选择性地进行运作。
此外,所述第1解码器可根据所述渲染矩阵来渲染前景对象信号,且所述渲染单元可添加被渲染的所述前景对象信号和被渲染的所述背景对象信号来生成所述最终渲染信号。
根据本发明的一个实施例的多音频对象信号解码方法可包括以下步骤:从被多路传输的SAOC(Spatial Audio Object Codec)比特流提取SAOC参数和EKS参数;利用所述EKS参数,从最终缩混信号将前景对象信号和背景对象信号复原;利用所述SAOC参数和渲染矩阵,从所述背景对象信号生成第一渲染信号;利用所述前景对象信号和所述第一渲染信号来生成最终渲染信号。
在这种情况下,所述生成最终渲染信号的步骤可基于所述渲染矩阵,利用从所述前景对象信号生成的第二渲染信号和所述第一渲染信号来生成所述最终渲染信号。
此外,所述生成第1渲染信号的步骤可包括以下步骤:根据所述渲染矩阵,预处理所述背景对象信号来生成修正的缩混信号(modified downmixsignal);根据所述渲染矩阵,将所述SAOC参数转换成影像解压缩环绕MPS比特流;以及基于所述MPS(MPEG Surround)比特流,渲染所述修正的缩混信号来生成所述第1渲染信号。
此外,所述生成最终渲染信号的步骤可利用被渲染的所述修正的缩混信号和所述前景对象信号来生成所述最终渲染信号。
此外,该方法可进一步包括以下步骤:根据所述渲染矩阵来渲染被复原的所述前景对象信号。且所述生成最终渲染信号的步骤可添加被渲染的所述前景对象信号和被渲染的所述背景对象信号来生成所述最终渲染信号。
根据本发明的一个实施例的多音频对象信号解码装置,可包括比特流分析单元、第一解码器、第二解码器、和渲染单元。比特流分析单元从被多路传输的SAOC(Spatial Audio Object Codec)比特流提取SAOC参数和EKS参数;第一解码器利用所述EKS参数,从最终缩混信号将前景对象信号和背景对象信号复原,并根据渲染矩阵渲染被复原的所述前景对象信号;第二解码器利用所述SAOC参数和所述渲染矩阵来渲染所述背景对象信号;渲染单元添加被渲染的所述前景对象信号和被渲染的所述背景对象信号来生成最终渲染信号。
根据本发明的一个实施例的多音频对象信号解码方法,可包括以下步骤:从被多路传输的SAOC(Spatial Audio Object Codec)比特流提取SAOC参数和EKS参数;利用所述EKS参数,从最终缩混信号将前景对象信号和背景对象信号复原;渲染被复原的所述前景对象信号且根据渲染矩阵来渲染;利用所述SAOC参数和所述渲染矩阵来渲染所述背景对象信号;添加被渲染的所述前景对象信号和被渲染的所述背景对象信号来生成最终渲染信号。
技术效果
根据本发明的一个实施例,可按对象信号各自来控制类似自动伴奏录音的前景对象信号和背景对象信号的音量。
根据本发明的一个实施例,可将前景对象信号和背景对象信号一起编码和解码来增加要控制的对象信号的个数。
根据本发明的一个实施例,按对象信号各自来控制前景对象和背景对象信号的音量,在极端的控制环境中也可减少音质的劣化。
具体实施方式
以下,参照附图对本发明的实施例进行详细地说明。
图1是示出根据本发明的一个实施例的多音频对象信号编码装置的构成的示图。此外,图2是为说明根据本发明的一个实施例的将多音频对象信号编码的过程所提供的示图。
参照图1,多音频对象信号编码装置100可包括第一编码器110、第二编码器120、多路传输单元130。
参照图1和图2,多音频对象信号是指多个输入对象信号。在这种情况下,多个输入对象信号的个数为N个时,N个的输入对象信号可由K个的前景对象信号FGOs(ForeGround Objects)和N-K个的对象信号来构成。即,N-K个的对象信号为多个输入对象信号中不包括K个的前景对象信号的对象信号,在此,N、K为常数。
首先,在步骤201中,第一编码器110缩混对象信号来生成背景对象信号BGOs(BackGround Objects)和SAOC(Spatial Audio Object Codec)参数。由此,背景对象信号可被输入至第二编码器120。
根据一个实施例,在第一编码器110中,N个的对象信号中不包括K个的前景对象信号的N-K个的对象信号可被输入。由此,SAOC参数作为N-K个的对象信号各自的空间参数(Spatial Cue Parameter),可包括背景对象信号的能源信息和相关(correlation)信息。
在这种情况下,第一编码器110可被定义为缩混N-K个的对象信号的典型模式编码器(Classic Mode Encoder),典型模式编码器是只利用MPEGSAOC标准中定义的空间参数的编码器。
在此,前景对象信号FGOs是指多个输入对象信号中单独再生或完全消除时音质劣化急剧发生的对象信号,是听众特别要求控制的对象信号。
根据一个实施例,多个输入对象信号是由包含声音的乐器信号所组成的多对象信号,且在特定控制对象信号为声音(vocal)信号时,在多对象信号中将声音信号完全消除时,最终信号可成为自动伴奏录音信号。在这种情况下,成为完全消除的对象的声音信号可成为前景对象信号。
此外,在步骤220中,第二编码器120缩混前景对象信号和背景对象信号来生成最终缩混信号和EKS(Enhanced Karaoke-Solo)参数。在此,EKS参数背景对象信号作为前景对象信号和背景对象信号对象各自的空间参数(Spatial Cue Parameter),可包括最终缩混信号的能源信息和相关信息,以及从缩混信号和前景个体信号算出的剩余信号(residual signal)。
在这种情况下,第二编码器120可被定义为将前景对象信号和背景对象信号一起缩混的EKS模式编码器(EKS Mode Encoder),EKS模式编码器可利用MPEG SAOC标准中定义的剩余信号编码(residual coding)来提高对象信号的音质。
接着,在步骤230中,多路传输单元130可多路传输SAOC参数和EKS参数来生成SAOC比特流(bit stream)。根据一个实施例,多路传输单元130可接收输入的SAOC参数和EKS参数,以SAOC标准比特流来多路传输。
由此,在步骤240中,多路传输单元130可将生成的SAOC比特流和最终缩混信号传送至多音频对象信号解码装置300中,即,多路传输单元130可将在SAOC比特流和第二编码器120中生成的最终缩混信号一起传送至多音频对象信号解码装置300中。
以上,对缩混前景对象信号和背景对象信号来生成最终缩混信号的编码过程进行了说明。如图1和图2所述,多音频对象信号编码装置100虽然在一般情况下,第一编码器110和第二编码器120一起运作,但也可利用前景对象信号和背景对象信号中的任何一个来生成最终缩混信号。即,第一编码器110和第二编码器120可根据典型编码模式或EKS编码模式来选择性进行运作。
根据一个实施例,在以典型编码模式运作时,第二编码器120和多路传输单元130被非活性化,有可能不运作。由此,在第一编码器110中生成的背景对象信号可成为最终缩混信号。据此,背景对象信号和SAOC参数可被传送至多音频对象信号解码装置300中。在此,典型编码模式是以N个(K=0)的对象信号为对象,在要按N个的对象信号来限制性地控制音量的情况下运作的模式。
根据另一个实施例,在以EKS编码模式运作时,第一编码器110和多路传输单元130被非活性化,有可能不运作。由此,第二编码器120可缩混M个的背景对象信号和K个的前景对象信号来生成最终缩混信号和EKS参数。在此,EKS参数可包括从M个的背景对象信号和K个的前景对象信号算出的各自的空间参数,以及从缩混信号和前景个体信号算出的剩余信号(residual signal)。
此外,在以EKS编码模式运作时,以根据EKS编码模式生成的最终缩混信号和EKS参数来构成SAOC比特流,并可被传送至多音频对象信号解码装置300中。
以上,参照图1和图2对将多音频对象信号编码的过程进行了说明,以下参照图3和图4,对将多音频对象信号解码的过程进行说明。
图3是示出根据本发明的一个实施例的多音频对象信号解码装置的构成的示图。此外,图4是为说明根据本发明的一个实施例的将多音频对象信号解码的过程所提供的示图。
参照图3,多音频对象信号解码装置300可包括比特流分析单元310、第一解码器320、第二解码器330、渲染单元340。
参照图3和图4,在步骤410中多音频对象信号解码装置300可从多音频对象信号编码装置100接收最终缩混信号和SAOC比特流。在此,最终缩混信号可为在第二编码器120中所生成的最终缩混信号(Downmix Signal)。由此,SAOC比特流被输入至比特流分析单元310中,且最终缩混信号被输入至第一解码器320中。
接着,在步骤420中,比特流分析单元310可在SAOC比特流中提取SAOC参数和EKS参数。由此,被提取的EKS参数可被输入至第一解码器320中,且SAOC参数可被输入至第二解码器330中。
根据一个实施例,比特流分析单元310可分析(Parsing)被输入的SAOC比特流来提取SAOC参数和EKS参数。在此,SAOC参数为多个输入对象信号中不包括前景对象信号的对象信号各自的空间参数(Spatial CueParameter),且EKS参数为前景对象信号各自的空间参数(Spatial CueParameter)。
此外,在步骤430中,第一解码器320可利用EKS参数,从最终缩混信号将前景对象信号FGOs和背景对象信号BGOs复原。在此,第一解码器320可被定义为EKS模式解码器(EKS Mode Decoder)。在这种情况下,被复原的背景对象信号BGOs可被输入至第二解码器330中。
接着,在步骤440中,第二解码器330可利用SAOC参数和被预存储的渲染矩阵来从背景对象信号生成第一渲染信号(Pre-rendered scene)。
根据一个实施例,第二解码器330可根据包含在渲染矩阵中增益值(gainvalue),调节背景对象信号的增益来生成第一渲染信号。由此,生成的第一渲染信号(Pre-rendered Scene)可被输入至渲染单元340中。
此外,在步骤450中,渲染单元(Renderer)340可将在第一解码器320中复原的前景对象信号FGOs渲染来生成第二渲染信号。
根据一个实施例,渲染单元340可根据包含在渲染矩阵中增益值(gainvalue),调节前景对象信号的增益来生成第二渲染信号。
接着,在步骤460中,渲染单元340可添加第一渲染信号(Pre-renderedScene)和第二渲染信号来生成最终渲染信号(rendered scene)。
在上述中,对利用被复原的前景对象信号和被复原的背景对象信号来生成最终渲染信号的解码过程进行了说明。参照图3和图4,如上所述,多音频对象信号解码装置100虽然在一般情况下第一解码器320和第二解码器330一起运作,但也可只利用被复原的前景对象信号和被复原的背景对象信号中的任何一个来生成最终渲染信号。即,第一解码器320和第二解码器330可根据典型解码模式或EKS编码模式选择性地进行运作。
根据一个实施例,以典型解码模式运作时,第一解码器320和渲染单元340被非活性化,有可能不运作。由此,在多音频对象信号编码装置100中被传送的最终缩混信号可被直接输入至至第二解码器330中。在这种情况下,最终缩混信号可为在第一编码器110中生成的背景对象信号BGOs。
由此,第二解码器330可利用SAOC参数和渲染矩阵来从背景对象信号BGOs生成最终渲染信号(rendered Scene)。根据一个实施例,第二解码器330可基于SAOC参数,根据包含在渲染矩阵的增益值,调节背景对象信号的增益来生成最终渲染信号(rendered scene)。
根据另一个实施例,在以EKS解码模式运作时,第二解码器330被活性化,有可能不运作。在此,第二解码器330不运作是指SAOC参数不存在于SAOC比特流中,且SAOC比特流只包括EKS参数。由此,第一解码器320中被复原的前景对象信号FGOs和被复原的背景对象信号BGOs可直接被输入至渲染单元340中。此外,渲染矩阵也可被直接输入至渲染单元340中。
此外,渲染单元340可利用被预存储的渲染矩阵来从被复原的前景对象信号FGOs和被复原的背景对象信号BGOs生成最终渲染信号。根据一个实施例,渲染单元340可基于渲染矩阵,根据包含在渲染矩阵中的增益值,调节背景对象信号的增益来生成最终渲染信号(rendered scene)。
以上,参照图3和图4,对将多音频对象信号解码的过程进行了说明。以下,参照图5和图6,对多音频对象信号的转码过程进行说明。
图5是示出根据本发明的一个实施例的多音频对象信号转码装置的构成的示图。此外,图6是为说明根据本发明的一个实施例的将多音频对象信号转码的过程所提供的示图。
参照图5,多音频对象信号转码器(SAOC Transcoder)500可包括比特流分析单元540、第一解码器520、第二解码器530、渲染单元540。在图5中,比特流分析单元510、第一解码器520、以及渲染单元540与图3的相同,且在图6中,步骤610至步骤630与图4的步骤410至步骤430相同,因此,在此省略重复的说明。即,在多音频对象信号转码器500中,第二解码器530的构成和图3的多音频对象信号解码装置300的构成不同。
参照图5,第二解码器530可包括缩混预处理单元531、转码器532、MPS解码器533。
参照图5和图6,在步骤640中,缩混预处理单元(DownmixPre-processor)531可预处理(pre-processing)被复原的背景对象信号BGOs来生成修正的缩混信号(Modified Downmix signal)。根据一个实施例,缩混预处理单元531可根据被预存储的渲染矩阵,将被复原的背景对象信号预处理(pre-processing)。在这种情况下,根据渲染矩阵的预处理过程可作为与MPEGSAOC标准中定义的缩混预处理过程相同的过程被利用。
接着,在步骤650中,转码器532可将SAOC参数转换为影像解压缩环绕MPS(MPEG Surround)比特流。根据一个实施例,转码器532可根据预存储的渲染矩阵,将SAOC参数转换为MPS比特流。在这种情况下,转换过程可作为与MPEG SAOC标准中定义的转换过程相同的过程被利用。
此外,在步骤660中,MPS解码器533可基于MPS比特流,渲染修正的缩混信号(Modified Downmix Signal)来生成第一渲染信号(Pre-renderedScene)。由此,生成的第一渲染信号(Pre-rendered Scene)可被输入至渲染单元540中。在这种情况下,MPS解码器533可将修正的缩混信号(ModifiedDownmix Signal)渲染至多频道中。即,MPS解码器533可生成多频道的第一渲染信号。
接着,在步骤670中,渲染单元540可基于预存储的渲染矩阵来从被复原的前景对象信号生成第二渲染信号。根据一个实施例,渲染单与540可根据包含在渲染矩阵中的增益值,调节被复原的前景对象信号的增益来生成第二渲染信号。
此外,在步骤680中,渲染单元540可添加第一渲染信号(Pre-renderedScene)和第二渲染信号来生成最终渲染信号(rendered scene)。在此,第一渲染信号为被渲染的修正的缩混信号。
由此,生成的最终渲染信号(rendered scene)可通过扬声器等音响装置被重新生成。
在这种情况下,为生成最终渲染信号需要频率/时间转换过程,该频率/时间转换过程可在MPS解码器533和渲染单元540中被选择性地执行。根据一个实施例,MPS解码器533可将被渲染的修正的缩混信号(Pre-renderedScene)从频率区域转换至时间区域中。根据另一个实施例,渲染单元540可将被复原的前景对象信号FGOs从频率区域转换至时间区域中。
以上,参照图5和图6,对利用被复原的前景对象信号和被复原的背景对象信号来生成最终渲染信号的多音频对象信号的转码过程进行了说明。
如参照图5和图6所述的,多音频对象信号转码器500虽然在一般情况下,第一解码器520和第二解码器530一起运作,但也可只利用被复原的前景对象信号和被复原的背景对象信号中的任何一个来生成最终渲染信号。
即,第一解码器520和第二解码器530可根据典型解码模式或EKS解码模式选择性地进行运作。在这种情况下,根据典型模式和EKS模式来生成最终渲染信号的过程与图3和图4所述相同,在此,省略详细的说明。
此外,在图3和图5中,对渲染单元340、540渲染被复原的前景对象信号进行了说明,但替代渲染单元340、540,也可在第一解码器320、520中渲染被复原的前景对象信号来生成第二渲染信号。即,图3和图5中所述的渲染过程可根据在SAOC标准中定义的与渲染相同的过程被执行。
根据一个实施例,参照图3和图5的点线,第一解码器320、520可根据包含在渲染矩阵中的增益值,调节被复原的前景对象信号的增益来生成第二渲染信号。由此,渲染单元340、540可添加第二渲染信号和在第二解码器330、530中生成的第一渲染信号(Pre-rendered scene)来生成最终渲染信号(rendered scene)。即,参照点线,渲染矩阵也有可能不输入至渲染单元340、540中。
另一方面,在图1和图2中所述的多音频对象信号编码过程中,第一编码器110和第二编码器120可按顺序地被执行。此外,在N个的输入对象信号中,当前景对象信号FGOs为K时,输入至第二编码器120的前景对象信号的最大个数可被限制为4个或2个以下。根据一个实施例,当输入至第二编码器的前景对象信号为单声道(mono)前景对象信号时,最大个数被限制为4个,且为立体声(stereo)前景对象信号时,最大个数为2个,即,可被限制为4频道。
如上所示,本发明虽然已参照有限的实施例和附图进行了说明,但是本发明并不局限于所述实施例,在本发明所属领域中具备通常知识的人均可以从此记载中进行各种修改和变形。
因此,本发明的范围不受说明的实施例的局限或定义,而是由后附的权利要求范围以及权利要求范围等同内容定义。