CN106471575B - 多信道音频信号处理方法及装置 - Google Patents

多信道音频信号处理方法及装置 Download PDF

Info

Publication number
CN106471575B
CN106471575B CN201580036477.8A CN201580036477A CN106471575B CN 106471575 B CN106471575 B CN 106471575B CN 201580036477 A CN201580036477 A CN 201580036477A CN 106471575 B CN106471575 B CN 106471575B
Authority
CN
China
Prior art keywords
signal
channel
channels
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580036477.8A
Other languages
English (en)
Other versions
CN106471575A (zh
Inventor
白承权
徐廷一
成钟模
李泰辰
张大永
金镇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Priority to CN201911107604.5A priority Critical patent/CN110895943B/zh
Priority to CN201911107595.XA priority patent/CN110992964B/zh
Priority to CN201911108867.8A priority patent/CN110970041B/zh
Priority claimed from PCT/KR2015/006788 external-priority patent/WO2016003206A1/ko
Publication of CN106471575A publication Critical patent/CN106471575A/zh
Application granted granted Critical
Publication of CN106471575B publication Critical patent/CN106471575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing

Abstract

公开了一种多信道音频信号处理方法及多信道音频信号处理装置。多信道音频信号处理方法,可根据N‑N/2‑N结构从N/2信道的下混信号,生成N信道的输出信号。

Description

多信道音频信号处理方法及装置
技术领域
本发明涉及多信道音频信号处理方法及装置,更具体地,涉及对N-N/2-N结构更有效地处理多信道音频信号的方法及装置。
背景技术
MPEG环绕(MPEG Surround;MPS)是用于编码5.1信道、7.1信道等多信道信号的音频编解码器,表示以高压缩率压缩多信道信号可传输的编码及解码技术。MPS在编码及解码过程中,具有向下兼容的限制事项。所以,通过MPS压缩之后,传输到解码器的比特流,即使利用以前的音频编解码器,也要满足以单一或立体声方式可播放的限制事项。
因此,即使增加构成多信道信号的输入信道个数,传输到解码器的比特流要包括被编码的单一信号或立体声信号。并且,解码器可使通过比特流传输的单一信号或立体声信号上混,可附加地接收附加信号。解码器利用附加信息,可从单一信号或立体声信号复原多信道信号。
但是,要求使用5.1信道、7.1信道以上的多信道音频信号,以现有MPS定义的结构,处理多信道音频信号时,对音频信号的质量具有问题。
发明内容
技术课题
本发明提供通过N-N/2-N结构,处理多信道音频信号的方法及装置。
技术方案
根据本发明的一个实施例,多信道音频信号处理方法,可包括以下步骤:识别从N信道的输入信号生成的N/2信道的下混信号和残余信号;将所述N/2信道的下混信号和残余信号适用在第一矩阵;输出经所述第一矩阵被输入到对应于N/2个OTT框的N/2个去相关器中的第一信号,及没有被输入到N/2个去相关器中而是被传达至第二矩阵的第二信号;通过所述N/2个去相关器从所述第一信号输出去相关的信号;将所述去相关的信号和所述第二信号适用在所述第二矩阵;以及通过所述第二矩阵生成N信道的输出信号。
当所述N信道的输出信号中不包含LFE信道时,N/2个去相关器可对应于所述N/2个OTT框。
当所述去相关器的个数超过以模块演算的基准值时,所述去相关器的索引可根据基准值被反复地重新使用。
当所述N信道的输出信号中包含LFE信道时,所述去相关器可使用N/2个中除了LFE信道个数以外的剩余个数,且所述LFE信道不使用OTT框的去相关器。
当不使用时域成形功能时,含有从所述第二信号、所述去相关器导出的去相关的信号、以及从所述去相关器导出的残余信号的一个向量可被输入到所述第二矩阵。
当使用时域成形功能时,由所述第二信号及所述去相关器导出的残余信号对应于构成的直接信号的向量,以及由所述去相关器导出的去相关的信号对应于构成的扩散信号的向量可被输入到所述第二矩阵。
生成所述N信道的输出信号的步骤是,当使用子带域时间处理STP时,将基于扩散信号和直接信号的标度因子可适用在输出信号的扩散信号部分,从而成形输出信号的时域包络。
生成所述N信道的输出信号的步骤是,当使用引导的包络成形GES时,按N信道的输出信号的信道,可将直接信号部分的包络整平并重新成形。
所述第一矩阵的大小,根据应用所述第一矩阵的下混信号的信道个数和去相关器的个数被决定,且所述第一矩阵的元素,可经CLD参数或CPC参数被决定。
根据本发明的其他实施例,多信道音频信号处理方法,可包括以下步骤:识别N/2信道的下混信号和N/2信道的残余信号;将所述N/2信道的下混信号和N/2信道的残余信号输入到N/2个OTT框中,来生成N信道的输出信号,且所述N/2个OTT框互相不连接且被并列配置,所述N/2个OTT框中用于输出LFE信道的OTT框,其(1)仅接收除了残余信号以外的下混信号,(2)并在CLD参数和ICC参数中利用CLD参数,(3)不输出经去相关器被去相关的信号。
根据本发明的一个实施例,多信道音频信号处理装置包括执行多信道音频信号处理方法的处理器,且所述多信道音频信号处理方法可包括以下步骤:识别从N信道的输入信号生成的N/2信道的下混信号和残余信号;将所述N/2信道的下混信号和残余信号适用在第一矩阵;输出经所述第一矩阵被输入到对应于N/2个OTT框的N/2个去相关器中的第一信号,及没有被输入到N/2个去相关器中而是被传达至第二矩阵的第二信号;通过所述N/2个去相关器从所述第一信号输出去相关的信号;将所述去相关的信号和所述第二信号适用在所述第二矩阵;以及通过所述第二矩阵生成N信道的输出信号。
当所述N信道的输出信号中不包含LFE信道时,N/2个去相关器可对应于所述N/2个OTT框。
当所述去相关器的个数超过以模块演算的基准值时,所述去相关器的索引可根据基准值被反复地重新使用。
当所述N信道的输出信号中包含LFE信道时,所述去相关器可使用N/2个中除了LFE信道个数以外的剩余个数,且所述LFE信道不使用OTT框的去相关器。
当不使用时域成形功能时,含有从所述第二信号、所述去相关器导出的去相关的信号、以及从所述去相关器导出的残余信号的一个向量可被输入到所述第二矩阵。
当使用时域成形功能时,由所述第二信号和所述去相关器导出的残余信号对应于构成的直接信号的向量,以及由所述去相关器导出的去相关的信号对应于构成的扩散信号的向量可被输入到所述第二矩阵。
生成所述N信道的输出信号的步骤是,当使用子带域时间处理STP时,可将基于扩散信号和直接信号的标度因子适用在输出信号的扩散信号部分,从而将输出信号的时域包络成形。
生成所述N信道的输出信号的步骤是,当使用引导的包络成形GES时,按N信道的输出信号的信道,可将直接信号部分的包络整平并重新成形。
所述第一矩阵的大小,可根据应用所述第一矩阵的下混信号的信道个数和去相关器的个数被决定,且所述第一矩阵的元素,经CLD参数或CPC参数被决定。
根据本发明的其他实施例,多信道音频信号处理装置包括执行多信道音频信号处理方法的处理器,且所述多信道音频信号处理方法可包括以下步骤:识别N/2信道的下混信号和N/2信道的残余信号;将N/2信道的下混信号和N/2信道的残余信号输入到N/2个OTT框中,来生成N信道的输出信号,且所述N/2个OTT框互相不连接且被并列配置,所述N/2个OTT框中用于输出LFE信道的OTT框,其(1)仅接收除了残余信号以外的下混信号,(2)并在CLD参数和ICC参数中利用CLD参数,(3)不输出经去相关器被去相关的信号。
技术效果
根据本发明的一个实施例,根据N-N/2-N结构处理多信道音频信号,可有效地处理在MPS定义的信道数更多信道个数的音频信号。
附图说明
图1是示出根据一个实施例的3D音频解码器。
图2是示出根据一个实施例,在3D音频解码器处理的域。
图3是示出根据一个实施例的USAC 3D编码器和USAC 3D解码器。
图4是示出根据一个实施例的图3的第一编码单元详细构成的第一图。
图5是示出根据一个实施例的图3的第一编码单元详细构成的第二图。
图6是示出根据一个实施例的图3的第一编码单元详细构成的第三图。
图7是示出根据一个实施例的图3的第一编码单元详细构成的第四图。
图8是示出根据一个实施例的图3的第二解码单元详细构成的第一图。
图9是示出根据一个实施例的图3的第二解码单元详细构成的第二图。
图10是示出根据一个实施例的图3的第二解码单元详细构成的第三图。
图11是示出根据一个实施例,体现图3的示例。
图12是示出根据一个实施例,简单表现图11。
图13是示出根据一个实施例的图12的第二编码单元和第一解码单元的详细构成。
图14是示出根据一个实施例,结合图11的第一编码单元和第二编码单元,结合第一解码单元和第二解码单元的结果。
图15是示出根据一个实施例,简单表现图14。
图16是示出根据一个实施例,对N-N/2-N结构的音频处理方式。
图17是示出根据一个实施例,以树形表现N-N/2-N结构。
图18是示出根据一个实施例,对FCE结构的编码器和解码器。
图19是示出根据一个实施例,对TCE结构的编码器和解码器。
图20是示出根据一个实施例,对ECE结构的编码器和解码器。
图21是示出根据一个实施例,对SiCE结构的编码器和解码器。
图22是示出根据一个实施例,根据FCE结构处理24信道音频信号的过程。
图23是示出根据一个实施例,根据ECE结构处理24信道音频信号的过程。
图24是示出根据一个实施例,根据FCE结构处理14信道音频信号的过程。
图25是示出根据一个实施例,根据FCE结构和SiCE结构处理14信道音频信号的过程。
图26是示出根据一个实施例,根据TCE结构处理11.1信道音频信号的过程。
图27是示出根据一个实施例,根据FCE结构处理11.1信道音频信号的过程。
图28是示出根据一个实施例,根据TCE结构处理9.0信道音频信号的过程。
图29是示出根据一个实施例,根据FCE结构处理9.0信道音频信号的过程。
具体实施方式
以下,参考附图对本发明实施例进行详细地说明。
图1是示出根据一个实施例的3D音频解码器。
参考本发明,在编码器下混多信道音频信号,在解码器上混下混信号,可复原多信道音频信号。在以下图2至图29说明的实施例中,有关解码器的内容对应于图1。一方面,图2至图29显示处理多信道音频信号的过程,所以,在图1可对应于比特流、USAC 3D解码器、DRC-1、格式转换(Format conversion)中任何一个的构成要素。
图2是示出根据一个实施例,在3D音频解码器处理的域。
在图1说明的USAC解码器是用于核心域的译码,在时间域和频率域中任何一个域处理音频信号。并且,音频信号为多频带时,DRC-1在频率域处理音频信号。一方面,格式转换(Format conversion)在频率域处理音频信号。
图3是示出根据一个实施例的USAC 3D编码器和USAC 3D解码器。
参考图3,USAC 3D编码器可都包括第一编码单元301和第二编码单元302。或者,USAC 3D编码器可包括第二编码单元302。类似地,USAC 3D解码器可包括第一解码单元303和第二解码单元304。或者,USAC 3D解码器可包括第一解码单元303。
在第一编码单元301输入N信道的输入信号。之后,第一编码单元301对N信道的输入信号进行下混,可输出M信道的下混信号。在这种情况下,N比M可具有大值。作为一个示例,N为偶数时,M可以是N/2。并且,N为奇数时,M可以是(N-1)/2+1。整理此,可表现为数学式1。
【数学式1】
第二编码单元302编码M信道的下混信号,可生成比特流。作为一个示例,第二编码单元302可编码M信道的下混信号,可活用为一般的音频编码器。例如,第二编码单元302为Extended HE-AAC的USAC编码器时,第二编码单元302可编码24个信道信号并传输。
只是,仅利用第二编码单元302编码N信道的输入信号时,比起利用第一编码单元301和第二编码单元302编码N信道的输入信号,需要相对多个比特,也可发生音质恶化。
一方面,第一解码单元303解码第二编码单元302生成的比特流,可输出M信道的下混信号。由此,第二解码单元304上混M信道的下混信号,可生成N信道的输出信号。N信道的输出信号与输入在第一编码单元301的N信道的输入信号类似地被复原。
作为一个示例,第二解码单元304可解码M信道的下混信号,可活用为一般的音频编码器。例如,第二解码单元304为Extended HE-AAC的USAC编码器时,第二解码单元302可解码24信道的下混信号。
图4是示出根据一个实施例的图3的第一编码单元详细构成的第一图。
第一编码单元301可包括多个下混单元401。在这种情况下,输入在第一编码单元301的N信道的输入信号,以每两个成对的构成之后,可输入在下混单元401。由此,下混单元401可显示TTO(Two-To-Two)框。下混单元401从输入在2信道的输入信号,提取空间线索的声道电平差(Channel Level Difference;CLD)、道间相关性/连贯性(Inter ChannelCorrelation/Coherence;ICC)、内部信道相位差(Inter Channel Phase Difference;IPD)、信道预测系统(Channel Prediction Coefficient;CPC)或整体相位差(OverallPhase Difference;OPD),下混2信道(立体声)的输入信号,可生成1信道(单一)的下混信号。
包括在第一编码单元301的多个下混单元401,可显示并列结构。例如,在第一编码单元301输入N信道的输入信号且N为偶数时,可需要N/2个包括在第一编码单元301的,由TTO框体现的下混单元401。图4的情况,第一编码单元301通过N/2个TTO框,下混N信道的输入信号,可生成M信道(N/2信道)的下混信号。
图5是示出根据一个实施例的图3的第一编码单元详细构成的第二图。
上述说明的图4是在第一编码单元301输入N信道的输入信号,N为偶数时,显示第一编码单元301的详细构成。并且,图5是在第一编码单元301输入N信道的输入信号,N为奇数时,显示第一编码单元301的详细构成。
参考图5,第一编码单元301可包括多个下混单元501。在这种情况下,第一编码单元301可包括(N-1)/2个下混单元501。并且,为了处理剩余一个信道信号,第一编码单元301可包括延迟单元502。
在这种情况下,将输入在第一编码单元301的N信道的输入信号,以每2个信道成对的构成之后,可输入在下混单元501。下混单元501可显示TTO框。下混单元501从输入的2信道的输入信号提取空间线索的CLD、ICC、IPD、CPC或OPD,下混2信道(立体声)的输入信号,可生成1信道(单一)的下混信号。从第一编码单元301输出的M信道的下混信号,根据下混信号501的个数和延迟单元502的个数被决定。
并且,适用在延迟单元502的延迟值,可与适用在下混单元501的延迟值相同。如果,第一编码单元301输入信号的M信道的下混信号为PCM信号时,延迟值可根据以下数学式2被决定。
【数学式2】
Enc_Delay=Delay1(QMF Analysis)+Delay2(Hybrid QMF Analysis)+Delay3(QMF Synthesis)
其中,Enc_Delay显示适用在下混单元501和延迟单元502的延迟值。并且,Delay1(QMF Analysis)显示对MPS的64带分析QMF时发生的延迟值,可以是288。并且,Delay2(Hybrid QMF Analysis)显示分析使用13分接头(tap)滤波器的Hybrid QMF时发生的延迟值,可以是6*64=384。其中,适用64的理由是因为对64带执行QMF分析之后,执行HybridQMF分析。
如果,第一编码单元301输出信号的M信道的下混信号为QMF信号时,延迟值可根据数学式3被决定。
【数学式3】
Enc_Delay=Delay1(QMF Analysis)+Delay2(Hybrid QMF Analysis)
图6是示出根据一个实施例的图3的第一编码单元详细构成的第三图。并且,图7是示出根据一个实施例的图3的第一编码单元详细构成的第四图。
如果,假设N信道的输入信号由N’信道的输入信号和K信道的输入信号被构成。在这种情况下,假设N’信道的输入信号输入在第一编码单元301,K信道的输入信号输入不到第一编码单元301。
在这种情况下,由数学式4可决定输入在第二编码单元301的,对应于M信道的下混信号的信道个数M。
【数学式4】
在这种情况下,图6显示N’为偶数时的第一编码单元301的结构,图7显示N’为奇数时的第一编码单元301的结构。
经图6,N’为偶数时,N’信道的输入信号输入在多个下混单元601,K信道的输入信号可输入在多个延迟单元602。其中,N’信道的输入信号输入在显示N’/2个TTO框的下混单元601,K信道的输入信号可输入在K个延迟单元602。
并且,经图7,N’为奇数时,N’信道的输入信号可输入在多个下混单元701和一个延迟单元702。并且,K信道的输入信号可输入在多个延迟单元702。其中,N’信道的输入信号可输入在显示N’/2个TTO框的下混单元701和一个延迟单元702。并且,K信道的输入信号可输入在K个延迟单元702。
图8是示出根据一个实施例的图3的第二解码单元详细构成的第一图。
参考图8,第二解码单元304上混从第一解码单元303传达的M信道的下混信号,可生成N信道的输出信号。第一解码单元303可解码包括在比特流的M信道的下混信号。在这种情况下,第二解码单元304利用在图3的从第二编码单元301传输的空间线索,上混M信道的下混信号,可生成N信道的输出信号。
作为一个示例,在N信道的输出信号中N为偶数时,第二解码单元304可包括多个去相关单元801和上混单元802。并且,在N信道的输出信号中N为奇数时,第二解码单元304可包括多个去相关单元801、上混单元802及延迟单元803。即,在N信道的输出信号中N为奇数时,可与图8示出不同不需要延迟单元803。
在这种情况下,在去相关单元801生成去相关的信号的过程中,可发生附加的延迟,所以,延迟单元803的延迟值可与编码器适用的延迟值不同。图8显示从第二解码单元304导出的,N信道的输出信号中,N为奇数的情况。
在第二解码单元304输出的N信道的输出信号为PCM信号时,延迟单元803的延迟值可根据以下数学式5被决定。
【数学式5】
Dec_Delay=Delay1(QMF Analysis)+Delay2(Hybrid QMF Analysis)+Delay3(QMF Synthesis)+Delay4(Decorrelator filtering delay)
其中,Enc_Delay表示延迟单元803的延迟值。并且,Delay1表示根据QMF分析发生的延迟值、Delay2是根据混合QMF分析发生的延迟值、Delay3是根据QMF合成发生的延迟值。并且,Delay4表示在去相关单元801,根据适用去相关性滤波器发生的延迟值。
并且,在第二解码单元304输出的N信道的输出信号为QMF信号时,延迟单元803的延迟值,可根据以下数学式6被决定。
【数学式6】
Dec_Delay=Delay3(QMF Synthesis)+Delay4(Decorrelator filtering delay)
首先,多个去相关单元801各个可生成输入到第二解码单元304的M信道的下混信号的去相关的信号。在多个去相关单元801各个生成的去相关的信号,可输入在上混单元802。
在这种情况下,与在MPS生成去相关的信号不同,多个去相关单元801可利用M信道的下混信号,生成去相关的信号。即,为了生成去相关的信号,利用从编码器传达的M信道的下混信号情况下,再现多信道信号的声场时,可能不会发生音质恶化。
以下,对包括在第二解码单元304的上混单元802的操作进行说明。输入在第二解码单元304的M信道的下混信号,可由m(n)=[m0(n),m1(n),...,mM-1(n)]T定义。并且,利用M信道的下混信号生成的M个去相关的信号,可由定义。此外,通过第二解码单元304输出的N信道的输出信号,可由y(n)=[y0(n),y1(n),...,yM-1(n)]T定义。
由此,第二解码单元304可根据以下数学式7,生成N信道的输出信号。
【数学式7】
其中,M(n)表示在n个样品时间中,对M信道的下混信号,为了执行上混的矩阵。在这种情况下,M(n)可由以下数学式8定义。
【数学式8】
在数学式8,0是2x2零矩阵,Ri(n)是2x2矩阵如以下数学式9定义。
【数学式9】
其中,Ri(n)的构成要素可从编码器传输的空间线索被导出。从编码器实际传输的空间线索,可决定按帧单位的b索引,由样品单位适用的Ri(n)可由相邻的帧间内插(interpolation)被决定。
可根据MPS方法,由以下数学式10决定。
【数学式10】
在数学式10,cL,R可从CLD导出。并且,α(b)和β(b)可从CLD和ICC导出。数学式10可根据定义在MPS的空间线索的处理方式被导出。
并且,在数学式7,演算子显示交错(interlace)向量的各要素,用于生成新向量列的演算子。在数学式7中,可根据以下数学式11决定。
【数学式11】
通过这些过程,数学式7可由以下数学式12表现。
【数学式12】
在数学式12,为了明确地显示输入信号和输出信号的处理过程,使用了{}。经数学式11,M信道的下混信号和去相关的信号相互成对,可输入上混矩阵的数学式12。即,经数学式12,在每M信道的下混信号适用去相关的信号,可最小化上混过程的音质歪曲,声场效果也可最接近原信号的生成。
以上说明的数学式12也可由以下数学式13表现。
【数学式13】
图9是示出根据一个实施例的图3的第二解码单元详细构成的第二图。
参考图9,第二解码单元304解码从第一解码单元303传达的M信道的下混信号,可生成N信道的输出信号。M信道的下混信号由N’/2信道的音频信号和K信道的音频信号构成时,第二解码单元304也可反映在编码器处理结果进行处理。
例如,假设输入在第二解码单元304的M信道的下混信号满足数学式4时,如图9,第二解码单元304可包括多个延迟单元903。
在这种情况下,满足数学式4的M信道的下混信号的N’为奇数时,第二解码单元304可具有如图9相同的结构。如果,满足数学式4的M信道的下混信号的N’为偶数时,在图9的第二解码单元304,可排除位于上混单元902下的一个延迟单元903。
图10是示出根据一个实施例的图3的第二解码单元详细构成的第三图。
参考图10,第二解码单元304上混从第一解码单元303传达的M信道的下混信号,可生成N信道的输出信号。在这种情况下,在图10示出的在第二解码单元304的上混单元1002,可包括显示OTT(One-To-Two)框的多个信号处理单元1003。
在这种情况下,多个信号处理单元1003各个利用M信道的下混信号中1信道的下混信号,和在去相关单元1001生成的去相关的信号,可生成2信道的输出信号。在上混单元1002由并列结构布置的多个信号处理单元1003,可生成N-1信道的输出信号。
如果,N为偶数时,延迟单元1004可从第二解码单元304被排除。由此,在上混单元1002由并列结构布置的多个信号处理单元1003,可生成N信道的输出信号。
信号处理单元1003可根据数学式13进行上混。并且,在所有信号处理单元1003执行的上混过程,可由如数学式12相同的一个上混矩阵表现。
图11是示出根据一个实施例,体现图3的示例。
参考图11,第一编码单元301可包括TTO框的多个下混单元1101和多个延迟单元1102。并且,第二编码单元302可包括多个USAC编码器1103。一方面,第一解码单元303可包括多个USAC解码器1106,第二解码单元304可包括OTT框的多个上混单元304和多个延迟单元1108。
参考图11,第一编码单元301利用N信道的输入信号,可输出M信道的下混信号。在这种情况下,M信道的下混信号可输入在第二编码单元302。在这种情况下,M信道的下混信号中,经过TTO框下混单元1101的1信道的下混信号对,可在包括在第二编码单元302的USAC编码器1103,由立体声形态被编码。
并且,M信道的下混信号中,不经过TTO框的下混单元1101且经过延迟单元1102的下混信号,在USAC编码器1103可由单一形态或立体声形态编码。换句话说,M信道的下混信号中经过延迟单元1102的1信道的下混信号,可在USAC编码器1103由单一形态编码。并且,M信道的下混信号中,经过2个延迟单元1102的2个1信道的下混信号,在USAC编码单元1103可由立体形态编码。
M个信道信号在第二编码单元302被编码,可由多个比特流被生成。并且,多个比特流通过多路转换器单元1104,可由一个比特流被重定格式。
在多路转换器单元1104生成的比特流传达至多路分配器单元1104,多路分配器单元1105可由对应于包括在第一解码单元303的USAC解码器303的多个比特流,多路解编比特流。
多路解编的多个比特流可分别输入到包括在第一解码单元303的USAC解码器1106。并且,USAC解码器303可根据包括在第二编码单元302的USAC编码器1103编码方式解码。由此,第一解码单元303可从多个比特流输出M信道的下混信号。
之后,第二解码单元304利用M信道的下混信号,可生成N信道的输出信号。在这种情况下,第二解码单元304利用OTT框的上混单元1107,可上混输入的M信道的下混信号的一部分。具体地,M信道的下混信号中,1信道的下混信号输入在上混单元1107,上混单元1107利用1信道的下混信号和去相关的信号,可生成2信道的输出信号。作为一个示例,上混单元1107利用数学式13可生成2信道的输出信号。
一方面,多个上混单元1107各个利用对应于数学式13的上混矩阵,执行M次的上混,可使第二解码单元304生成N信道的输出信号。由此,数学式12要执行M次的根据数学式13的上混才被导出,所以,数学式12的M可与包括在第二解码单元304的上混单元1107的个数相同。
并且,N信道的输入信号中,在第一编码单元301通过不是TTO框的下混单元1101的延迟单元1102,在M信道的下混信号包括K信道的音频信号时,K信道的音频信号可在第二解码单元304不是OTT框的上混单元1107的延迟单元被处理。在这种情况下,通过上混单元1107输出的输出信号的信道个数可以是N-K。
图12是示出根据一个实施例,简单表现图11。
参考图12,N信道的输入信号可输入在以每2信道的成对,包括在第一编码单元301的下混单元1201。下混单元1201可由TTO框构成,下混2信道的输入信号可生成1信道的下混信号。第一编码单元301利用以并列布置的多个上混单元1201,可从N信道的输入信号生成M信道的下混信号。根据本发明的一个实施例,N是比M大的正数,M可以是N/2。
由此,包括在第二编码单元302的立体声类型的USAC编码器1202,编码从2个下混单元1201输出的2个1信道的下混信号,可生成比特流。
并且,包括在第一解码单元303的立体声类型的USAC解码器1203,可从比特流的M信道的下混信号,复原2个1信道的下混信号。2个1信道下混信号,可分别输入在显示包括在第二解码单元304的OTT框的2个上混单元1204。由此,上混单元1204利用1信道的下混信号和去相关的信号,可生成构成N信道的输出信号的2信道的输出信号。
图13是示出根据一个实施例的图12的第二编码单元和第一解码单元的详细构成。
在图13,包括在第二编码单元302的USAC编码器1302,可包括TTO框的下混单元1303、频带复制(Spectral Band Replication;SBR)单元1304及核心编码单元1305。
包括在第一编码单元301的TTO框的下混单元1301,下混N信道的输入信号中的2信道的输入信号,可生成构成M信道的下混信号的1信道的下混信号。根据下混单元1301的个数,可决定M信道的信道个数。
由此,从包括在第一编码单元301的2个下混单元1301输出的2个1信道的下混信号,可输入到包括在USAC编码器1302的TTO框的下混单元1303。下混单元1303下混从2个下混单元1301输出的1信道的下混信号对,可生成1信道的下混信号。
为了编码在下混单元1303生成的单一信号的高频带宽的参数,SBR单元1304在单一信号除了高频带,只可提取低频带宽。由此,核心编码单元1305编码相应于核心带宽的低频带宽的单一信号,可生成比特流。
最终,根据本发明的一个实施例,从N信道的输入信号为了生成包括M信道的下混信号的比特流,可连续地执行TTO形态的下混过程。换句话说,TTO框的下混单元1301可下混N信道的输入信号中,立体声形态的2信道的输入信号。并且,在2个下混单元1301各个输出的结果,作为M信道的下混信号的一部分,可输入在TTO框的下混单元1303。即,N信道的输入信号中的4信道的输入信号,可通过TTO形态的下混,连续地输出1信道的下混信号。
并且,在第二编码单元302生成的比特流,可输入在第一解码单元302的USAC解码器1306。在图13,包括在第二编码单元302的USAC解码器1306,可包括核心解码单元1307、SBR单元1308、OTT框的上混单元1309。
核心解码单元1307利用比特流,可输出对应于低频带宽的核心带宽的单一信号。由此,SBR单元1308复制单一信号的低频带宽,可复原高频带宽。上混单元1309上混从SBR单元1308输出的单一信号,可生成构成M信道的下混信号的立体信号。
由此,包括在第二解码单元304的OTT框的上混单元1310,上混在第一解码单元302生成的包括在立体信号的单一信号,可生成立体声信号。
最终,根据本发明的一个实施例,为了从比特流复原N信道的输出信号,OTT形态的上混过程,可由并列的连续执行。换句话说,OTT框的上混单元1309上混单一信号(1信道),可生成立体声信号。并且,构成上混单元1309输出信号的立体信号2个单一信号,可输入在OTT框的上混单元1310。OTT框的上混单元1301上混输入的单一信号,可输出立体信号。即,通过连续地OTT形态的上混的单一信道,可生成4信道的输出信号。
图14是示出根据一个实施例,结合图11的第一编码单元和第二编码单元,结合第一解码单元和第二解码单元的结果。
结合图11的第一编码单元和第二编码单元,可体现如图14示出的一个编码单元1401。并且,结合图11的第一解码单元和第二解码单元,显示如在图14示出的以一个解码单元1402体现结果。
图14的编码单元1401可在包括TTO框的下混单元1405、SBR单元1406及核心编码单元1407的USAC编码器,包括附加地含有TTO框的下混单元1404的编码单元1403。在这种情况下,编码单元1401可包括由并列结构布置的多个编码单元1403。或者,编码单元1403可对应于包括TTO框的下混单元1404的USAC编码器。
即,根据本发明的一个实施例,编码单元1403在N信道的输入信号的4信道输入信号,连续地适用TTO形态的下混,可生成1信道的单一信号。
以相同的方式,图14的解码单元1402可在包括核心解码单元1411、SBR单元1412及OTT框的上混单元1413的USAC解码器,包括附加地含有OTT框的上混单元1404的解码单元1410。在这种情况下,解码单元1402可包括由并列结构布置的多个解码单元1410。或者,解码单元1410可对应于包括OTT框的上混单元1404的USAC解码器。
即,根据本发明的一个实施例,解码单元1410在单一信号连续地适用OTT形态的上混,可生成N信道的输出信号中4信道的输出信号。
图15是示出根据一个实施例,简单表现图14。
在图15,编码单元1501可对应于图14的编码单元1403。其中,编码单元1501可对应于修改的USAC编码器。即,修改的USAC编码器可在包括TTO框的下混单元1504、SBR单元1505及核心编码单元1506的原来USAC编码器,以附加包括TTO框的下混单元1503被体现。
并且,在图15,解码单元1502可对应于图14的解码单元1410。其中,解码单元1502可对应于修改的USAC解码器。即,修改的USAC解码器可在包括核心解码单元1507、SBR单元1508及OTT框的上混单元1509的原来USCA解码器,以附加包括OTT框的上混单元1510被体现。
图16是示出根据一个实施例,对N-N/2-N结构的音频处理方式。
参考16,定义在MPEG SURROUND的结构显示变更的N-N/2-N结构。MPEG SURROUND的情况,如表1可在解码器执行空间合成(spatial synthesis)。空间合成通过输入信号的混合正交镜像滤波器分析组合(hybrid QMF(Quadrature Mirror Filter)analysis bank),在时间域可变换为非均匀(non-uniform)子带域。其中,非均匀的意思对应于混合。
由此,解码器在混合子带运行。解码器基于从编码器传达的空间参数(spatialparameter)执行空间合成,可从输入信号生成输出信号。之后,解码器利用混合正交镜像滤波器分析组合(hybrid QMF synthesis bank),可在混合子带以时间域逆变换输出信号。
【表1】
图16说明解码器执行的空间合成,通过混合的矩阵处理多信道音频信号的过程。基本地,MPEG SURROUND定义5-1-5结构、5-2-5结构、7-2-7结构、7-5-7结构,但本发明提议N-N/2-N结构。
N-N/2-N结构的情况,N信道的输入信号变换为N/2信道的下混信号之后,显示从N/2信道的下混信号生成N信道的输出信号的过程。根据本发明的一个实施例,解码器上混N/2信道的下混信号,可生成N信道的输出信号。基本地,在本发明的N-N/2-N结构,对N信道的个数没有限制。即,N-N/2-N结构不仅支持在MPS支持的信道结构,而且也支持在MPS不支持的多信道音频信号的信道结构。
在图16,NumInCh表示下混信号的信道个数,NumOutCh表示输出信号的信道个数。即,NumInCh是N/2个,NumOutCh是N个。
在图16,N/2信道的下混信号(X0~XNumInch-1)和残余信号构成输入向量X。在图16,NumInCh是N/2,所以从X0到XNumInCh-1表示N/2信道的下混信号。OTT(One-To-Two)框的个数为N/2个,所以,为了处理N/2信道的下混信号,输出信号的信道个数的N为偶数。
与对应于矩阵M1的向量相乘的输入向量X,表示包括N/2信道的下混信号的向量。在N信道的输出信号不包括LFE信道时,可最大地使用N/2个的去相关器(decorrelator)。但是,输出信号的信道个数N超过20时,可重新使用去相关器滤波器。
为了保障去相关器输出信号的正交性(orthogonality),N为20时可活用的去相关器的个数有必要被限制为特定个数(ex.10个),所以,可反复几个去相关器的索引。由此,根据本发明的优选地一个实施例,在N-N/2-N结构中,输出信号的信道个数N有必要小于限制的特定个数的二倍(ex.N<20)。如果,在输出信号包括LFE信道时,N信道考虑LFE信道的个数,有必要由特定个数二倍稍微多的信号少数的信道(ex.N<24)构成。
并且,去相关器的输出结果根据比特流,可被代替为特定频率领域的残余信号。LFE信道为OTT框的输出中的一个时,对基于上混OTT框,不使用去相关器。
在图16中,从1到M(ex.NumInCh-NumLfe)被标记的去相关器、对应于去相关器的输出结果(去相关的信号)、残余信号对应于相互不同的OTT框。d1~dM是去相关器(D1~DM)输出结果的去相关的信号,res1~resM时去相关器(D1~DM)输出结果的残余信号。并且,去相关器D1~DM分别对应于相互不同的OTT框。
以下,定义在N-N/2-N结构使用的向量和矩阵。在N-N/2-N结构中,输入到去相关器的输入信号由向量vn,k被定义。
向量vn,k可根据使用时域成形功能(termporal shaping tool)或不使用,不同地被决定。
(1)不使用时域成形功能(termporal shaping tool)时
不使用时域成形功能时,向量vn,k根据数学式14由对应于向量xn,k和矩阵M1的被导出。并且,表示N次行的第一列的矩阵。
【数学式14】
在这种情况下,在数学式14向量vn,k元素中,不输入到对应于N/2个OTT框的N/2个的去相关器,可直接输入到矩阵M2。由此,可定义为直接信号(direct signal)。并且,在向量vn,k的单元中,除了的剩余信号(),可输入在对应于N/2个OTT框的N/2个的去相关器。
向量wn,k由直接信号、从去相关器输出的去相关的信号(decorrelated signals)的d1~dM及从去相关器输出的残余信号res1~resM构成。向量wn,k可由以下数学式15决定。
【数学式15】
在数学式15,由定义,kset表示满足κ(k)<mresProc(X)的所有k的集合。并且,表示信号输入在去相关器DX时,从去相关器输出的去相关的信号。特别地,表示OTT框为OTTx残余信号为时,从去相关器输出的信号。
输出信号的子带对所有时隙n和所有混合子带k,可由从属的被定义。输出信号yn,k可通过向量w和矩阵M2,由以下数学式16决定。
【数学式16】
其中,表示由NumOutCh行和NumInCh-NumLfe列构成的矩阵M2。对0≤l<L,0≤k<K可由以下数学式17定义。
【数学式17】
其中,定义成并且,可根据以下数学式18被平滑。
【数学式18】
其中,κ(k)表示第一行是混合带k,第二行对应于过程带的函数。对应于之前帧的最后参数集。
一方面,yn,k表示通过混合合成滤波器组,可由时间域合成的混合子带信号。其中,混合合层滤波器组是经过奈奎斯特合成组(Nyquist synthesis banks),组合QMF合成组(QMF synthesis bank),yn,k通过混合合成滤波器组,可在混合子带域变换为时间域。
(2)使用时域成形功能时
如果,使用时域成形功能时,向量vn,k与上述说明相同,但向量wn,k可如同以下数学式19、数学式20,分为两种向量。
【数学式19】
【数学式20】
表示不经过去相关器,而直接输入到矩阵M2的直接信号和从去相关器输出的残余信号,表示从去相关器输出的去相关的信号。并且,被定义成kset表示满足κ(k)<mresProc(X)的所有k的集合。此外,在去相关器DX输入输入信号时,表示从去相关器DX输出的去相关的信号。
因定义在数学式19、数学式20的最终输出的信号可由被区分。包括直接信号(direct signal),包括扩散信号(diffuse signal)。即,是不通过去相关器,从直接输入在矩阵M2的直接信号导出的结果,是从去相关器输出,从输入在矩阵M2的扩散信号导出的结果。
如果,子带域时间过程(Subband Domain Temporal Processing;STP)用于N-N/2-N结构时,引导包络成形(Guided Envelope Shaping;GES)被区分为用于N-N/2-N结构,导出在这种情况下,可由数字流元素bsTempShapeConfig被识别。
<STP被使用时>
为了合成输出信号的信道间的去相关程度,通过空间合成的去相关器,生成扩散信号。在这种情况下,生成的扩散信号可与直接信号混。通常,扩散信号的时间包络不与直接信号的包络匹配。
在这种情况下,子带域时间过程为了成形输出信号的各个扩散信号部分的包络,匹配从编码器传输的下混信号的时间形状(termpoal shape),而被使用。这些过程可由对直接信号和扩散信号的,如包络比率计算或扩散信号的上位频谱部分的成形的包络推定被体现。
即,在通过上混生成的输出信号,可推定相应于直接信号的部分和对应于扩散信号部分的时间能量。成形因素可由相应于直接信号的部分和对应于扩散信号部分的时间能量包络间的比率被计算。
STP可由bsTempShapeConfig=1传讯。如果为bsTempShapeEnableChannel(ch)=1时,通过上混生成的输出信号的扩散信号部分,可通过STP被处理。
一方面,对于生成输出信号的空间上混,为了减少传输原本下混信号的延迟对齐(delay alignment)的必要性,空间上混的下混可由传输的原本下混信号的近似值(approximation)计算。
对于N-N/2-N结构,对(NumInCh-NumLfe)的直接下混信号,可由以下数学式21被定义。
【数学式21】
其中,对于N-N/2-N结构chd包括对应于输出信号的信道d的输出信号的成对(pair-wise)。
【表2】
结构 ch<sub>d</sub>
N-N/2-N {ch<sub>0</sub>,ch<sub>1</sub>}<sub>d=0</sub>,{ch<sub>2</sub>,ch<sub>3</sub>}<sub>d=1</sub>,...,{ch<sub>2d</sub>,ch<sub>2d+1</sub>,}<sub>d=NumInCh-NumLfe</sub>
下混的宽带包络和对各个上混信道的扩散信号部分的包络,可利用归一化直接能量,根据以下数学式22推定。
【数学式22】
其中,BPsb表示带通因素,GFsb表示光谱均匀因素(spectral flatteringfactor)。
在N-N/2-N结构存在对NumInCh-NumLfe的直接信号,所以,满足0≤d<(NumInCh-NumLfe)的直接信号能量的Edirect_norm,d,可由在MPEG Surround定义的5-1-5结构相同的方式获得。对最终包络处理的标度因子,可如以下数学式23被定义。
【数学式23】
在数学式23,标度因子可在N-N/2-N结构0≤d<(NumInCh-NumLfe)的情况下被定义。由此,在输出信号的扩散信号部分适用标度因子,使输出信道的时间包络实际上映射于下混信号的时间包络。由此,在N信道的输出信号的各个信道,由标度因子处理的扩散信号部分可与直接信号部分混合。由此,按输出信号的信道,可传讯扩张信号部分是否由标度因子被处理。(bsTempShapeEnableChannel(ch)=1时,显示扩张信号部分由标度因子被处理)
<GES被使用时>
在上述说明的输出信号的扩张信号部分执行时域成形时,具有发生特定歪曲的可能性。因此,引导包络成形(Guided Envolope Shaping;GES)解决歪曲问题的同时,可提高时间/空间质量。在解码器个别处理输出信号的直接信号部分和扩张信号部分,但适用GES时,只可变更上混的输出信号的直接信号部分。
GES可复原合成输出信号的宽带包络。GES在按输出信号额各信道,对直接信号部分整平(flatterning)包络,再成形(reshaping)过程之后,包括修改的上混过程。
对再成形,可使用包括在比特流的参数宽带包络(parametric broadbandenvelop)的附加信息。附加信息包括原本输入信号的包络和对下混信号包络的包络比率。在解码器,包络比率按输出信号的信道,可适用在包括在帧的各个时隙的直接信号部分。因GES,按输出信号的信道,扩散信号部分不被改变(alter)。
如果,为bsTempShapeConfig=2时,可进行GES过程。如果,可使用GES,输出信号的扩张信号和直接信号根据以下数学式24,在混合子带域可利用修改的后混合矩阵M2,分别合成。
【数学式24】
因0≤k<K及0≤n<numSlots
在数学式24,对输出信号y的直接信号部分,提供直接信号和残余信号,对输出信号y的扩张信号部分提供扩张信号。整体上,经GES只处理直接信号。
GES处理的结果,可根据以下数学式25被决定。
【数学式25】
GES依赖于树结构,经除了LFE信道执行空间合成的下混信号及解码器,对于从下混信号上混的输出信号的特定信道,可提取包络。
在N-N/2-N结构中,输出信号choutput可如以下表3被定义。
【表3】
结构 ch<sub>output</sub>
N-N/2-N 0≤ch<sub>out</sub>&lt;2(NumInCh-NumLfe)
并且,在N-N/2-N结构中,输入信号chinput可如以下表4被定义。
【表4】
结构 ch<sub>input</sub>
N-N/2-N 0≤ch<sub>input</sub>&lt;(NumInCh-NumLfe)
此外,在N-N/2-N结构中,下混信号Dch(chouput)可如以下表5被定义。
【表5】
以下,对在所有时隙n和所有混合子带k定义的矩阵和矩阵进行说明。这些矩阵是基于参数时隙和有效于过程带的CLD、ICC、CPC参数,定义提供的参数时隙l和提供的过程带m的的插补版本。
<矩阵M1(Pre-Matrix)的定义>
在图16的N-N/2-N结构中,对应于矩阵M1的说明下混信号如何输入到在解码器使用的去相关器。矩阵M1可由自由矩阵表现。
矩阵M1的大小依赖于输入在矩阵M1的下混信号的信道个数和在解码器使用的去相关器的个数。相反地,矩阵M1的单元可从CLD和/或CPF参数导出。M1可由以下数学式26被定义。
【数学式26】
因0≤l<L,0≤k<K
在这种情况下,被定义为
一方面,可由以下数学式27被平滑。
【数学式27】
因0≤k<K,0≤l<L
其中,在κ(k)和κkonj(k,x),第一行是混合子带k,第二行是处理带,第三行是对特定混合子带k,x的复共轭性(complex conjugation)的x*。并且,表示之前帧的最后参数组。
用于矩阵M1的矩阵可如下定义。
(1)矩阵R1
矩阵可控制输入到去相关器信号的个数。这不附加去相关的信号,所以,只由CLD和CPC的函数表现。
矩阵可根据信道结构不同的被定义。在N-N/2-N结构中,为了使OTT框不被串接,输入信号的所有信道,可在OTT框以2信道成对的输入。由此,N-N/2-N结构的情况,OTT框的个数是N/2。
在这种情况下,矩阵依赖于包括输入信号的向量xn,k的列大小(column size)和相同OTT框的个数。但是,基于OTT框的Lfe上混不需要去相关器,所以,在N-N/2-N结构不考虑。矩阵的所有单元可以是1或0中任何一个。
在N-N/2-N结构中,可由以下数学式28被定义。
【数学式28】
在N-N/2-N结构中,所有OTT框表现不是串接的并列处理阶段(parallelprocessing stage)。所以,在N-N/2-N结构,所有OTT框不与任何其他OTT框连接。因此,矩阵可由单位矩阵INumInCh和单位矩阵INumInCh-NumLfe构成。在这种情况下,单位矩阵IN可以是N*N大小的单位矩阵。
(2)矩阵G1
在MPEG Surround解码之前,为了控制下混信号或从外部供给的下混信号,可适用由校正因子(correction factors)控制的数据流。校正因子可由矩阵适用在下混信号或从外部供给的下混信号。
矩阵可保障参数表现的特征时间/频率图块(time frequency tile)的下混信号的级别,与在编码器推定空间参数时获得的下混信号的级别相同。
这由3种情况区分,可由(i)没有外部下混补偿时(bsArbitraryDownmix=0)、(ii)具有参数化的外部下混补偿时(bsArbitraryDownmix=1)及(iii)基于外部下混补偿执行残余编码时(bsArbitraryDownmix=2)区分。如果,为bsArbitraryDownmix=1时,解码器不支持基于外部下混补偿的残余编码。
并且,如果在N-N/2-N结构不适用外部的下混补偿(external downmixcompensation)时(bsArbitraryDownmix=0),在N-N/2-N结构中,矩阵G1 l,m可由以下数学式29被定义。
【数学式29】
其中,INumInch表示显示NumInCh*NumInCh大小的单位矩阵,且ONumInCh表示显示NumInCh*NumInCh大小的零矩阵。
与此不同,如果在N-N/2-N结构,适用外部补偿(external downmixcompensation)时(bsArbitraryDownmix=1),对N-N/2-N结构可由以下数学式30被定义。
【数学式30】
其中,由0≤X<NumInCh,0≤m<Mproc,0≤l<L定义。
一方面,在N-N/2-N结构中,基于外部的下混补偿适用参与编码(residualcoding)时(bsArbitraryDownmix=2),可由以下数学式31被定义。
【数学式31】
其中,可由0≤X<NumInCh,0≤m<Mproc,0≤l<L定义。并且,α可更新。
(3)矩阵H1
在N-N/2-N结构中,下混信号的信道个数可比5个多。因此,逆(inverse)矩阵H可以是对所有参数组和处理带,具有与输入信号的向量xn,k的列的个数相同大小的单位矩阵。
<矩阵M2(post-matrix)的定义>
在N-N/2-N结构中,矩阵M2的为了再生成多信道的输出信号,定义如何组合直接信号和去相关的信号。可由以下数学式32被定义。
【数学式32】
因0≤l<L,0≤k<K
其中,被定义为
一方面,可由以下数学式33被平滑。
【数学式33】
其中,在κ(k)和κkonj(k,x),第一行是混合子带k、第二行是处理带、第三行是对特定混合子带k的x复共轭性(complex conjugation)的x*。并且,表示之前帧的最后参数组。
用于矩阵M2的矩阵的元素,可从OTT框的等值模型(equivalent model)计算。OTT框包括去相关器和混合单元。输入在OTT框的单形态的输入信号,分别传达到去相关器和混合单元。混合单元利用通过单形态的输入信号和去相关器输出的去相关的信号及CLD、ICC参数,可生成立体声形态的输出信号。其中,CLD在立体声域控制局部化(localization),ICC控制输出信号的立体声宽(wideness)。
由此,任意从OTT框输出的结果,可由以下数学式34被定义。
【数学式34】
OTT框由OTTX被标记(0≤X<numOttBoxes),表示对于OTT框,在时隙l和参数带m任意矩阵(Arbitrary matrix)单元。
在这种情况下,后增益矩阵可由以下数学式35被定义。
【数学式35】
其中,被定义为
一方面,可由0=-11/72因0≤m<Mproc,0≤l<L)定义。
并且,由定义。
在这种情况下,在N-N/2-N结构中,可由以下数学式36定义。
【数学式36】
其中,CLD和ICC可由以下数学式37定义。
【数学式37】
在这种情况下,可由0≤X<NumInCh,0≤m<Mproc,0≤l<L定义。
<去相关器的定义>
在N-N/2-N结构中,去相关器在QMF子带域可由混响滤波器(reverberationfilter)被执行。混响滤波器在所有混合子带,基于当前相应于何种混合子带,显示相互不同的滤波器特征。
混响滤波器IIR格子滤波器。为了生成相互去相关直交信号,对相互不同的去相关器,IIR格子滤波器具有相互不同的滤波器系数。
由去相关器执行的去相关过程,以多种过程进行。首先,矩阵M1的输出vn,k由全通过(all-pass)去相关滤波器组输入。由此,被滤波的信号可成为能量成形。其中,能量成形使去相关的信号更接近的匹配到输入信号,成形频谱或时间包络。
输入到任意去相关器的输入信号是向量vn,k的一部分。为了保障通过多个去相关器导出的去相关的信号间的直交性,多个去相关器具有相互不同的滤波器系数。
去相关滤波器以固定的频率相关延迟(constant frequency-dependent delay),由先行的多个全通过(All-pass(IIR))领域构成。频率轴使对应于QMF分割频率,可由相互不同领域分割。在各领域,延迟的长度和滤波器系数向量的长度相同。并且,因附加相位旋转(additional phase rotation),具有分数延迟(fractional delay)的去相关器的滤波器系数,依赖于混合子带索引。
如上述,为了保障从去相关器输出的去相关的信号间的直交性,去相关器的滤波器具有相互不同的滤波器系数。在N-N/2-N结构中,需要N/2个去相关器。在这种情况下,在N-N/2-N结构中,去相关器的个数可由10限制。在不存在Lfe模块的N-N/2-N结构中,OTT框的个数N/2超过10时,根据10基本模操作(basis modulo operation),去相关器可对应于超过10的OTT框的个数,重新使用。
以下表6表示在N-N/2-N结构的解码器中的去相关器索引。参考图6,N/2个去相关器以10单位反复索引。即,第0次去相关器和第10次去相关器,以具有相同的索引。
【表6】
在N-N/2-N结构的情况下,可由以下表7的语法被体现。
【表7】
这种情况下,bsTreeConfig可由以下表8体现。
【表8】
并且,在N-N/2-N结构中,下混信号的信道个数bsNumInCh,可由以下表9被体现。
【表9】
并且,在N-N/2-N结构中,输出信号中LFE信道的个数NLFE可由以下表10被体现。
【表10】
并且,在N-N/2-N结构中,输出信号的信道顺序可根据输出信号的信道个数即LFE信道的个数,如表11被体现。
【表11】
在表7中,bsHasSpeakerConfig是实际要播放的输出信号的布局,在表11显示具体化信道顺序和其他布局与否的标志。如果,bsHasSpeakerConfig==1时,实际播放时的扬声器布局的audioChannelLayout,可为了渲染被使用。
并且,audioChannelLayout显示实际播放时的扬声器布局。如果,扬声器包括LFE信道时,LFE信道与不是LFE信道的一起利用一个OTT框进行处理,且在信道列表中位于最后。例如,LFE信道在信道列表L、Lv、R、Rv、Ls、Lss、Rs、Rss、C、LFE、Cvr、LFE2位于最后。
图17是示出根据一个实施例,以树形表现N-N/2-N结构。
在图16示出的N-N/2-N结构,如图17可由树形态表现。在图17,所有OTT框基于CLD、ICC、残余信号及输入信号,可再生成2个信道的输出信号。OTT框和对应于此的CLD、ICC、残余信号及输入信号,可根据显示在比特流的顺序编号。
经图17,多个OTT框存在N/2个。在这种情况下,多信道音频信号处理装置解码器,利用N/2个OTT框可从N/2信道的下混信号生成N信道的输出信号。其中,N/2个OTT框通过多个阶层不被体现。即,OTT框按N/2信道的下混信号的各信道,并列地执行上混。换句话说,任何一个OTT框不与其他OTT框连接。
一方面,在图17,左侧图是在N信道的输出信号未包括LFE信道的情况,且右侧图显示在N信道的输出信号包括LFE信道的情况。
在这种情况下,在N信道的输出信号未包括LFE信道时,N/2个OTT框利用残余信号res和下混信号M,可生成N信道的输出信号。但是,在N信道的输出信号包括LFE信道时,N/2个OTT框中,输出LFE信道的OTT框,只可利用除了残余信号的下混信号。
不仅如此,在N信道的输出信号包括LFE信道时,N/2个OTT框中不输出LFE信道的OTT框,利用CLD和ICC上混下混信号,但是,输出LFE信道的OTT框只利用CLD,可上混下混信号。
并且,在N信道的输出信号包括LFE信道时,N/2个OTT框中没有输出LFE信道的OTT框,通过去相关器生成去相关的信号,但是,输出LFE信道的OTT框不执行去相关过程,所以,不生成去相关的信号。
图18是示出根据一个实施例,对FCE结构的编码器和解码器。
参考图18,四信道元素(Four Channel Element;FCE)对应于下混4个信道的输入信号生成1个信道的输出信号,或者上混1个信道的输入信号生成4个信道的输出信号的装置。
FCE编码器1801利用2个TTO框1803,1804和USAC编码器1805,可从4个信道的输入信号生成1个信道的输出信号。TTO框1803,1804分别下混2个信道的输入信号,可从4个信道的输入信号生成1个信道的下混信号。USC编码器1805可在下混信号的核心频带执行编码。
并且,FCE解码器1802由FCE编码器1801执行的操作频带执行。FCE解码器1802利用USAC解码器1806和2个OTT框1807,1808,可从1个信道的输入信号生成4个信道的输出信号。OTT框1807,1808经USAC解码器1806分别上混被解码的1个信道的输入信号,可生成4个信道的输出信号。USC解码器1806可在FCE下混信号的核心频带执行编码。
FCE解码器1802利用如CLD、IPD、ICC的空间线索(spatial cue),为了操作成参数化模式,可在低比特率执行编码。基于操作比特率和输入信号的整个信道个数、参数的分辨率及量子化级别中至少一个,可变更参数化类型。FCE编码器1801和FCE解码器1802可从128kbps到48kbps,被广泛地使用。
FCE解码器1802的输出信号的信道个数(4个),与输入在FCE编码器1801的输入信号的信道个数(4个)相同。
图19是示出根据一个实施例,对TCE结构的编码器和解码器。
参考图19,三信道元素(Three Channel Element;TCE)对应于从3个信道的输入信号生成1个信道的输出信号,或者从1个信道的输入信号生成3个信道的输出信号的装置。
TCE编码器1901可包括1个TTO框1903和1个QMF变换器1904及1个USAC编码器1905。其中,QMF变换器可包括混合分析/合成器。在这种情况下,2个信道的输入信号输入在TTO框1903,1个信道的输入信号可输入在QMF变换器1904。TTO框1903下混2个信道的输入信号,可生成1个信道的下混信号。QMF变换器1904可将1个信道的输入信号变换成QMF域。
TTO框1903的输出结果和QMF变换器1904的输出结果,可输入在USAC编码器1905。USAC编码器1905可编码由TTO框1903的输出结果和QMF变换器1904的输出结果输入的2个信道的信号核心频带。
经图19,输入信号的信道个数为3个是奇数,所以,只有2个信道的输入信号输入在TTO框1903,剩余的1个信道的输入信号跳过TTO框1903,可输入在USAC编码器1905。在这种情况下,TTO框190由参数化模式运行,所以,TCE编码器1901主要适用在输入信号的信道个数为11.1或9.0的情况。
TCE解码器1902可包括1个USAC解码器1906、1个OTT框1907和1个QMF逆变换器1904。在这种情况下,从TCE编码器1901输入的1个信道的输入信号,通过USAC解码器1906被解码。在这种情况下,USAC解码器1906可在1个信道的输入信号,对核心频带进行解码。
通过USAC解码器1906输出的2个信道的输入信号,可分别由信道输入在OTT框1907和QMF逆变换器1908。QMF逆变换器1908可包括混合分析/合成器。OTT框1907上混1个信道的输入信号,可生成2个信道的输出信号。并且,QMF逆变换器1908可将通过USAC解码器1906输出的2个信道的输入信号中,剩余的1个信道的输入信号,从QMF域逆变换为时间域或频率域。
TCE解码器1902的输出信号的信道个数(3个),与输入在TCE编码器1901的输入信号的信道个数(3个)相同。
图20是示出根据一个实施例,对ECE结构的编码器和解码器。
参考图20,八信道元素(Eight Channel Element;ECE)对应于下混8个信道的输入信号生成1个信道的输出信号,或者上混1个信道的输入信号生成8个信道的输出信号的装置。
ECE编码器2001利用6个TTO框2003~2008和USAC编码器2009,可从8个信道的输入信号生成1个信道的输出信号。首先,8个信道的输入信号,经4个TTO框2003~2006分别由2个信道的输入信号被输入。由此,4个TTO框2003~2006各个下混2个信道的输入信号,可生成1个信道的输入信号。4个TTO框2003~2006的输出结果输入到连接在4个TTO框2003~2006的2个TTO框2007,2008。
2个TTO框2007,2008在4个TTO框2003~2006的输出信号中,分别下混2个信道的输出信号,可生成1个信道的输出信号。由此,2个TTO框2007,2008的输出结果,输入到连接在2个TTO框2007,2008的USAC编码器2009。USAC编码器2009编码2个信道的输入信号,可生成1个信道的输出信号。
最终,ECE编码器2001利用由2阶段的树形态连接的TTO框,可从8个信道的输入信号生成1个信道的输出信号。换句话说,4个TTO框2003~2006和2个TTO框2007,2008,相互以串接形态连接,可由2个阶层的树构成。ECE编码器2001对输入信号的信道结构为22.2或14.0情况,可在48kbps模式或64kbps模式被使用。
ECE解码器2002利用6个OTT框2011~2016和USAC解码器2010,可从1个信道的输入信号生成8个信道的输出信号。首先,在ECE编码器2001生成的1个信道的输入信号,可输入到包括在ECE解码器2002的USAC解码器2010。由此,USAC解码器2010解码1个信道的输入信号的核心频带,可生成2个信道的输出信号。从USAC解码器2010输出的2个信道的输出信号,以各个信道可输入到OTT框2011和OTT框2012。OTT框2011上混1个信道的输入信号,可生成2个信道的输出信号。与此同时,OTT框2012上混1个信道的输入信号,可生成2个信道的输出信号。
由此,OTT框2011,2012的输出结果,可分别输入在与OTT框2011,2012连接的OTT框2013~2016。OTT框2013~2016各个得到OTT框2011,2012输出结果的2个信道输出信号中1个信道的输出信号输入,可进行上混。即,OTT框2013~2016各个上混1个信道的输入信号,可生成2个信道的输出信号。由此,从4个OTT框2013~2016各个生成的输出信号的信道个数是9个。
最终,ECE解码器2002利用以2阶段的树形态连接的OTT框,可从1个信道的输入信号生成8个信道的输出信号。换句话说,4个OTT框2013~2016和2个OTT框2011,2012,相互可由串接形态连接,以2个阶层的树构成。
ECE解码器2002的输出信号的信道个数(8个),与输入在ECE编码器2001的输入信号的信道个数(8个)相同。
图21是示出根据一个实施例,对SiCE结构的编码器和解码器。
参考图21,六信道元素(Six Channel Element;SICE)对应于从6个信道的输入信号生成1个信道的输出信号,或者从1个信道的输入信号生成6个信道的输出信号的装置。
SICE编码器2101可包括4个TTO框2103~2106及1个USAC编码器2107。在这种情况下,6个信道的输入信号可输入在3个TTO框2103~2106。由此,3个TTO框2103~2106各个下混6个信道的输入信号中的2个信道的输入信号,可生成1个信道的输出信号。3个TTO框2103~2106中的2个TTO框,可与其他一个TTO框连接。图21的情况,TTO框2103,2104可与TTO框2106连接。
TTO框2103,2104的输出结果,可输入在TTO框2106。如图21示出,TTO框2106下混2个信道的输入信号,可生成1个信道的输出信号。一方面,TTO框2105的输出结果,没有输入在TTO框2106。即,TTO框2105的输出结果跳过TTO框2106,输入在USAC编码器2107。
USAC编码器2107编码TTO框2105和TTO框2106的输出结果的2个信道的输入信号的核心频带,可生成1个信道的输出信号。
SiCE编码器2101的3个TTO框2103~2105和1个TTO框2106,构成相互不同的阶层。只是,与ECE编码器2001不同,SiCE编码器2101的3个TTO框2103~2105中的2个TTO框2103~2104,与1个TTO框2106连接,剩余的1个TTO框2105跳过TTO框2106。SiCE编码器2101可在48kbps、64kbps,处理14.0信道结构的输入信号。
SiCE解码器2102可包括1个USAC解码器2108、4个OTT框2109~2112。
在SiCE编码器2101生成的1个信道的输出信号,可输入在SiCE解码器2102。由此,SiCE解码器2102的USAC解码器2108,解码1个信道的输入信号的核心频带,可生成2个信道的输出信号。由此,从USAC解码器2108生成的2个信道的输出信号中,1个信道的输出信号输入在OTT框2109,剩余的1个信道的输出信号跳过OTT框2109,直接输入在OTT框2112。
由此,OTT框2109上混从USAC解码器2108传达的1个信道的输入信号,可生成2个信道的输出信号。由此,从OTT框2109生成的2个信道的输出信号中1个信道的输出信号输入在OTT框2110,剩余的1个信道的输出信号可输入在OTT框2111。之后,OTT框2110~2112上混1个信道的输入信号,可生成2个信道的输出信号。
在以上图18至图21说明的FCE结构、TCE结构、ECE结构、SiCE结构的编码器,利用多个TTO框可从N信道的输入信号生成1个信道的输出信号。在这种情况下,包括在FCE结构、TCE结构、ECE结构、SiCE结构编码器的USAC编码器的内部,也可存在1个TTO框。
一方面,ECE结构、SiCE结构的编码器可由2个阶层的TTO框构成。此外,如TCE结构、SiCE,输入信号的信道个数为奇数时,存在跳过TTO框的情况。
并且,FCE结构、TCE结构、ECE结构、SiCE结构的解码器,利用多个OTT框可从1个信道的输入信号生成N信道的输出信号。在这种情况下,包括在FCE结构、TCE结构、ECE结构、SiCE结构解码器的USAC解码器的内部,也可存在1个OTT框。
一方面,ECE结构、SiCE结构的解码器可由2个阶层的OTT框构成。此外,如TCE结构、SiCE结构,输入信道的信道个数为奇数时,存在跳过OTT框的情况。
图22是示出根据一个实施例,根据FCE结构处理24信道音频信号的过程。
具体地,图22的情况下,作为22.2信道结构可在128kbps和96kbps进行操作。参考图22,24个信道的输入信号可在6个FCE编码器2201,各个输入4个信道。由此,如图18说明,FCE编码器2201可从4个信道的输入信号生成1个信道的输出信号。由此,在图22示出,通过从6个FCE编码器2201各个输出的比特流格式器,可将1个信道的输出信号以比特流形态输出。即,比特流可包括6个输出信号。
之后,比特流反格式器可从比特流导出6个输出信号。6个输出信号,可分别输入在6个FCE解码器2202。由此,如图18说明,FCE解码器2202可从1个信道的输入信号生成4个信道的输出信号。通过6个FCE解码器2202,可生成总24个信道的输出信号。
图23是示出根据一个实施例,根据ECE结构处理24信道音频信号的过程。
图23如在图22说明的22.2信道结构,假设24个信道的输入信号被输入的情况。但是,假设图23的操作模式在比图22更低的比特流的48kbps、64kbps操作。
参考图23,24个信道的输入信号可分别由8个信道输入在3个ECE编码器2301。由此,如图20说明,ECE编码器2301可从8个信道的输入信号生成1个信道的输入信号。由此,在图23示出,通过从3个ECE编码器2301各个输出的比特流格式器,可将1个信道的输出信号以比特流形态输出。即,比特流可包括3个输出信号。
之后,比特流反格式器可从比特流导出3个输出信号。3个输出信号,可分别输入在3个ECE解码器2302。由此,如图20说明,ECE解码器2302可从1个信道的输入信号生成8个信道的输出信号。通过3个FCE解码器2302,可生成总24个信道的输出信号。
图24是示出根据一个实施例,根据FCE结构处理14信道音频信号的过程。
图24显示14个信道的输入信号通过3个FCE编码器2301和1个CPE编码器2402,生成4个信道输出信号的过程。在这种情况下,图24显示如128kbps、96kbps,在相对高的比特流操作的情况。
3个FCE编码器2401可分别从4个信道的输入信号生成1个信道的输出信号。并且,1个CPE编码器2402下混2个信道的输入信号,可生成1个信道的输出信号。由此,比特流格式器可生成从3个FCE编码器2401的输出结果和1个CPE编码器2402的输出结果,包括4个输出信号的比特流。
一方面,比特流反格式器从比特流提取4个输出信号之后,3个输出信号传达到3个FCE编码器2403,剩余的1个输出信号可传达到1个CPE解码器2404。由此,3个FCE解码器2403可分别从1个信道的输入信号生成4个信道的输出信号。并且,1个CPE解码器2404可从1个信道的输入信号生成2个信道的输出信号。即,通过3个FCE解码器2403和1个CPE解码器2404,可生成总14个输出信号。
图25是示出根据一个实施例,根据FCE结构和SiCE结构,处理14信道音频信号的过程。
参考图25,显示ECE编码器2501和SiCE编码器2502处理14个信道的输入信号。图25与图24不同,适用在相对低的比特率的情况(ex.48kbps,96kbps)。
ECE编码器2501可从14个信道的输入信号中的8个信道的输入信号,生成1个信道的输出信号。并且,SiCE编码器2502可从14个信道的输入信号中的6个信道的输入信号,生成1个信道的输出信号。比特流格式器可利用ECE编码器2501和SiCE编码器2502的输出结果的2个输出信号,生成比特流。
一方面,比特流反格式器可从比特流提取2个输出信号。由此,2个输出信号可分别输入在ECE解码器2503和SiCE解码器2504。ECE解码器2503利用1个信道的输入信号生成8个信道的输出信号,SiCE解码器2504可利用1个信道的输入信号生成6个信道的输出信号。即,通过各个ECE解码器2503和SiCE解码器2504,可生成总14个输出信号。
图26是示出根据一个实施例,根据TCE结构处理11.1信道音频信号的过程。
参考图26,4个CPE编码器2601和1个TCE编码器2602,可从11.1信道的输入信号生成5个信道的输出信号。图26的情况,如128kbps、96kbps在相对高的比特率可处理音频信号。
4个CPE编码器2601各个可从2个信道的输入信号生成1个信道的输出信号。一方面,1个TCE编码器2602可从3个信道的输入信号生成1个信道的输出信号。4个CPE编码器2601和1个TCE编码器2602的输出结果,可输入在比特流格式器由比特流输出。即,比特流可包括5个信道的输出信号。
一方面,比特流反格式器可从比特流提取5个信道的输出信号。由此,5个输出信号可输入在4个CPE解码器2603和1个TCE解码器2604。由此,4个CPE解码器2603分别可从1个信道的输入信号,生成2个信道的输出信号。一方面,TCE解码器2604可从1个信道的输入信号生成3个信道的输出信号。由此,最终通过4个CPE解码器2603和1个TCE解码器2604,可输出11个信道的输出信号。
图27是示出根据一个实施例,根据FCE结构处理11.1信道音频信号的过程。
图27与图26不同,可在相对低的比特率操作(ex.64kbps、48kbps)。参考图27,通过3个FCE编码器2701,可从12个信道的输入信号生成3个信道的输出信号。具体地,3个FCE编码器2701各个可从12个信道的输入信号中的4个信道的输入信号,生成1个信道的输出信号。由此,比特流格式器利用从3个FCE编码器2701输出的3个信道的输出信号,可生成比特流。
一方面,比特流反格式器可从比特流输出3个信道的输出信号。由此,3个信道的输出信号分别可输入在3个FCE解码器2702。之后,FCE解码器2702可利用1个信道的输入信号,生成3个信道的输出信号。由此,通过3个FCE解码器2702,可生成12个信道的输出信号。
图28是示出根据一个实施例,根据TCE结构处理9.0信道音频信号的过程。
参考图28,示出了处理9个信道的输入信号的过程。图28可在相对高的比特率(ex.128kbps、96kbps)处理9个信道的输入信号。在这种情况下,基于3个CPE编码器2801和1个TCE编码器2802,可处理9个信道的输入信号。3个CPE编码器2801分别可从2个信道的输入信号,生成1个信道的输出信号。一方面,1个TCE编码器2802可从3个信道的输入信号生成1个信道的输出信号。由此,总4个信道的输出信号输入在比特流格式器,可由比特流输出。
比特流反格式器可提取包括在比特流的4个信道的输出信号。由此,4个信道的输出信号可输入在3个CPE解码器2803和1个TCE解码器2804。3个CPE解码器2803各个可从1个信道的输入信号生成2个信道的输出信号。一方面,1个TCE解码器2804可从1个信道的输入信号生成3个信道的输出信号。由此,可生成总9个信道的输出信号。
图29是示出根据一个实施例,根据FCE结构处理9.0信道音频信号的过程。
参考图29,示出了处理9个信道的输入信号的过程。图29可在相对低的比特率(64kbps、48kbps)处理9个信道的输入信号。在这种情况下,基于2个FCE编码器2901和1个SCE编码器2902,处理9个信道的输入信号。2个FCE编码器2901各个可从4个信道的输入信号生成1个信道的输出信号。一方面,1个SCE编码器2902可从1个信道的输入信号生成1个信道的输出信号。由此,总3个信道的输出信号输入在比特流格式器,可由比特流输出。
比特流反格式器可提取包括在比特流的3个信道的输出信号。由此,3个信道的输出信号可输入在2个FCE解码器2903和1个SCE解码器2904。2个FCE解码器2903分别可从1个信道的输入信号生成4个信道的输出信号。一方面,1个SCE解码器2904可从1个信道的输入信号,生成1个信道的输出信号。由此,可生成总9个信道的输出信号。
以下表12显示执行空间编码(spatial coding)时,根据输入信号的信道个数的参数组构成。其中,bsFreqRes表示与USAC编码器个数相同的分析带(analysis带)的个数。
【表12】
USAC编码器可编码输入信号的核心频带。USAC编码器利用基于显示信道元素(CPEs、SCEs)和与对象渲染的信道信号之间关系信息的元数据的信道和对象间的映射信息,可根据输入信号的个数控制多个编码器。以下表13显示在USAC编码器使用的比特率和采样率。根据表13的采样率可适当地调整频带复制(spectral band replication;SBR)的编码参数。
【表13】
根据本发明实施例的方法,可通过多样的计算机手段被执行的程序命令形态被体现,可被记录在计算机可判读媒体。所述计算机可判读媒体可包括程序名称、数据文件、数据结构等的单独或者且组合。记录在所述媒体的程序命令,为了本发明被特别地设计且构成,但是,也可以是被计算机软件从业者公知,能使用的。
如上所示,本发明虽然经有限的实施例和附图进行了说明,但是,在本发明所属领域的技术人员,均可以从此记载中进行多样地修改和变形。
所以,本发明的范围不能局限于由说明的实施例被决定,且不仅是后述的权利要求,而且经与此权利要求均等的被决定。

Claims (20)

1.一种多信道音频信号处理方法,包括以下步骤:
识别从N信道的输入信号生成的N/2信道的下混信号和残余信号;
将所述N/2信道的下混信号和残余信号适用在第一矩阵;
输出经所述第一矩阵被输入到对应于N/2个OTT框的N/2个去相关器中的第一信号,及没有被输入到N/2个去相关器中而是被传达至第二矩阵的第二信号;
通过所述N/2个去相关器从所述第一信号输出去相关的信号;
将所述去相关的信号和所述第二信号适用在所述第二矩阵;以及
通过所述第二矩阵生成N信道的输出信号。
2.根据权利要求1所述的多信道音频信号处理方法,其中,当所述N信道的输出信号中不包含LFE信道时,N/2个去相关器对应于所述N/2个OTT框。
3.根据权利要求1所述的多信道音频信号处理方法,其中,当所述去相关器的个数超过以模块演算的基准值时,所述去相关器的索引根据基准值被反复地重新使用。
4.根据权利要求1所述的多信道音频信号处理方法,其中,当所述N信道的输出信号中包含LFE信道时,所述去相关器使用N/2个中除了LFE信道个数以外的剩余个数,且
所述LFE信道不使用OTT框的去相关器。
5.根据权利要求1所述的多信道音频信号处理方法,其中,当不使用时域成形功能时,含有从所述第二信号、所述去相关器导出的去相关的信号、以及从所述去相关器导出的残余信号的一个向量被输入到所述第二矩阵。
6.根据权利要求1所述的多信道音频信号处理方法,其中,当使用时域成形功能时,由所述第二信号及所述去相关器导出的残余信号对应于构成的直接信号的向量,以及由所述去相关器导出的去相关的信号对应于构成的扩散信号的向量被输入到所述第二矩阵。
7.根据权利要求6所述的多信道音频信号处理方法,其中,生成所述N信道的输出信号的步骤是,当使用子带域时间处理STP时,将基于扩散信号和直接信号的标度因子适用在输出信号的扩散信号部分,从而成形输出信号的时域包络。
8.根据权利要求6所述的多信道音频信号处理方法,其中,生成所述N信道的输出信号的步骤是,当使用引导的包络成形GES时,按N信道的输出信号的信道,将直接信号部分的包络整平并重新成形。
9.根据权利要求1所述的多信道音频信号处理方法,其中,所述第一矩阵的大小,根据应用所述第一矩阵的下混信号的信道个数和去相关器的个数被决定,且
所述第一矩阵的元素,经CLD参数或CPC参数被决定。
10.一种多信道音频信号处理方法,包括以下步骤:
识别N/2信道的下混信号和N/2信道的残余信号;
将所述N/2信道的下混信号和N/2信道的残余信号输入到N/2个OTT框中,来生成N信道的输出信号,且
所述N/2个OTT框互相不连接且被并列配置,
所述N/2个OTT框中用于输出LFE信道的OTT框,其(1)仅接收除了残余信号以外的下混信号,(2)并在CLD参数和ICC参数中利用CLD参数,(3)不输出经去相关器被去相关的信号。
11.一种多信道音频信号处理装置,所述多信道音频信号处理装置包括执行多信道音频信号处理方法的处理器,且所述多信道音频信号处理方法包括以下步骤:
识别从N信道的输入信号生成的N/2信道的下混信号和残余信号;
将所述N/2信道的下混信号和残余信号适用在第一矩阵;
输出经所述第一矩阵被输入到对应于N/2个OTT框的N/2个去相关器中的第一信号,及没有被输入到N/2个去相关器中而是被传达至第二矩阵的第二信号;
通过所述N/2个去相关器从所述第一信号输出去相关的信号;
将所述去相关的信号和所述第二信号适用在所述第二矩阵;以及
通过所述第二矩阵生成N信道的输出信号。
12.根据权利要求11所述的多信道音频信号处理装置,其中,当所述N信道的输出信号中不包含LFE信道时,N/2个去相关器对应于所述N/2个OTT框。
13.根据权利要求11所述的多信道音频信号处理装置,其中,当所述去相关器的个数超过以模块演算的基准值时,所述去相关器的索引根据基准值被反复地重新使用。
14.根据权利要求11所述的多信道音频信号处理装置,其中,当所述N信道的输出信号中包含LFE信道时,所述去相关器使用N/2个中除了LFE信道个数以外的剩余个数,且
所述LFE信道不使用OTT框的去相关器。
15.根据权利要求11所述的多信道音频信号处理装置,其中,当不使用时域成形功能时,含有从所述第二信号、所述去相关器导出的去相关的信号、以及从所述去相关器导出的残余信号的一个向量被输入到所述第二矩阵。
16.根据权利要求11所述的多信道音频信号处理装置,其中,当使用时域成形功能时,由所述第二信号和所述去相关器导出的残余信号对应于构成的直接信号的向量,以及由所述去相关器导出的去相关的信号对应于构成的扩散信号的向量被输入到所述第二矩阵。
17.根据权利要求16所述的多信道音频信号处理装置,其中,生成所述N信道的输出信号的步骤是,当使用子带域时间处理STP时,将基于扩散信号和直接信号的标度因子适用在输出信号的扩散信号部分,从而将输出信号的时域包络成形。
18.根据权利要求16所述的多信道音频信号处理装置,其中,生成所述N信道的输出信号的步骤是,当使用引导的包络成形GES时,按N信道的输出信号的信道,将直接信号部分的包络整平并重新成形。
19.根据权利要求11所述的多信道音频信号处理装置,其中,所述第一矩阵的大小,根据应用所述第一矩阵的下混信号的信道个数和去相关器的个数被决定,且
所述第一矩阵的元素,经CLD参数或CPC参数被决定。
20.一种多信道音频信号处理装置,所述多信道音频信号处理装置包括执行多信道音频信号处理方法的处理器,且所述多信道音频信号处理方法包括以下步骤:
识别N/2信道的下混信号和N/2信道的残余信号;
将N/2信道的下混信号和N/2信道的残余信号输入到N/2个OTT框中,来生成N信道的输出信号,且
所述N/2个OTT框互相不连接且被并列配置,
所述N/2个OTT框中用于输出LFE信道的OTT框,其(1)仅接收除了残余信号以外的下混信号,(2)并在CLD参数和ICC参数中利用CLD参数,(3)不输出经去相关器被去相关的信号。
CN201580036477.8A 2014-07-01 2015-07-01 多信道音频信号处理方法及装置 Active CN106471575B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911107604.5A CN110895943B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911107595.XA CN110992964B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911108867.8A CN110970041B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20140082030 2014-07-01
KR10-2014-0082030 2014-07-01
PCT/KR2015/006788 WO2016003206A1 (ko) 2014-07-01 2015-07-01 다채널 오디오 신호 처리 방법 및 장치

Related Child Applications (3)

Application Number Title Priority Date Filing Date
CN201911107604.5A Division CN110895943B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911108867.8A Division CN110970041B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911107595.XA Division CN110992964B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置

Publications (2)

Publication Number Publication Date
CN106471575A CN106471575A (zh) 2017-03-01
CN106471575B true CN106471575B (zh) 2019-12-10

Family

ID=55169676

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201911108867.8A Active CN110970041B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911107595.XA Active CN110992964B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201580036477.8A Active CN106471575B (zh) 2014-07-01 2015-07-01 多信道音频信号处理方法及装置
CN201911107604.5A Active CN110895943B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201911108867.8A Active CN110970041B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置
CN201911107595.XA Active CN110992964B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201911107604.5A Active CN110895943B (zh) 2014-07-01 2015-07-01 处理多信道音频信号的方法和装置

Country Status (4)

Country Link
US (3) US9883308B2 (zh)
KR (1) KR102144332B1 (zh)
CN (4) CN110970041B (zh)
DE (1) DE112015003108B4 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970041B (zh) 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
FI3405950T3 (fi) * 2016-01-22 2022-12-15 Stereoaudiokoodaus ILD-pohjaisella normalisoinnilla ennen keski/sivupäätöstä
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101690270A (zh) * 2006-05-04 2010-03-31 Lg电子株式会社 采用再混音能力增强音频
CN102171750A (zh) * 2008-10-06 2011-08-31 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
CN102598120A (zh) * 2009-10-30 2012-07-18 诺基亚公司 多信道信号的编码
JP2013148935A (ja) * 2004-03-25 2013-08-01 Dts Inc 可逆マルチチャネル・オーディオ・コーデック
CN103474077A (zh) * 2009-06-24 2013-12-25 弗兰霍菲尔运输应用研究公司 音频信号译码器、提供上混信号表示型态的方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL1618763T3 (pl) * 2003-04-17 2007-07-31 Koninl Philips Electronics Nv Synteza sygnału audio
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
RU2008132156A (ru) * 2006-01-05 2010-02-10 Телефонактиеболагет ЛМ Эрикссон (пабл) (SE) Персонализированное декодирование многоканального объемного звука
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
CN101411214B (zh) 2006-03-28 2011-08-10 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
CN101617360B (zh) 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
JP5232795B2 (ja) * 2007-02-14 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
BRPI0816557B1 (pt) * 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101600352B1 (ko) 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR101430118B1 (ko) * 2010-04-13 2014-08-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 또는 비디오 인코더, 오디오 또는 비디오 디코더 그리고 가변적인 예상 방향을 이용하여 멀티-채널 오디오 또는 비디오 신호들을 프로세싱하기 위한 관련 방법들
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
WO2016003206A1 (ko) 2014-07-01 2016-01-07 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
CN110970041B (zh) 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013148935A (ja) * 2004-03-25 2013-08-01 Dts Inc 可逆マルチチャネル・オーディオ・コーデック
CN101690270A (zh) * 2006-05-04 2010-03-31 Lg电子株式会社 采用再混音能力增强音频
CN102171750A (zh) * 2008-10-06 2011-08-31 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
CN103474077A (zh) * 2009-06-24 2013-12-25 弗兰霍菲尔运输应用研究公司 音频信号译码器、提供上混信号表示型态的方法
CN103489449A (zh) * 2009-06-24 2014-01-01 弗兰霍菲尔运输应用研究公司 音频信号译码器、提供上混信号表示型态的方法
CN102598120A (zh) * 2009-10-30 2012-07-18 诺基亚公司 多信道信号的编码

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
从有损到无损的音频编解码框架;杨新辉 等;《数字信号处理》;20101231;第60-64页 *

Also Published As

Publication number Publication date
US20190289413A1 (en) 2019-09-19
US20180139555A1 (en) 2018-05-17
CN110992964A (zh) 2020-04-10
US20170134873A1 (en) 2017-05-11
US10645515B2 (en) 2020-05-05
CN110992964B (zh) 2023-10-13
CN110895943A (zh) 2020-03-20
KR102144332B1 (ko) 2020-08-13
DE112015003108T5 (de) 2017-04-13
CN110895943B (zh) 2023-10-20
KR20160003572A (ko) 2016-01-11
US9883308B2 (en) 2018-01-30
CN110970041B (zh) 2023-10-20
DE112015003108B4 (de) 2021-03-04
CN106471575A (zh) 2017-03-01
CN110970041A (zh) 2020-04-07
US10264381B2 (en) 2019-04-16

Similar Documents

Publication Publication Date Title
KR101303441B1 (ko) 다운믹스를 이용한 오디오 코딩
RU2430430C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
EP1902443B1 (en) Audio encoding and decoding
KR101823278B1 (ko) 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램
KR102537360B1 (ko) Mdct-기반의 복소수 예측 스테레오 코딩
CN106471575B (zh) 多信道音频信号处理方法及装置
US11056122B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
JP4988717B2 (ja) オーディオ信号のデコーディング方法及び装置
KR20160101692A (ko) 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
KR20070025903A (ko) 멀티채널 오디오 코딩에서 효과적인 레지듀얼 신호의파라미터 밴드 수 비트스트림 구성방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant