CN101552006A - 加窗信号mdct域的能量及相位调整方法及其装置 - Google Patents
加窗信号mdct域的能量及相位调整方法及其装置 Download PDFInfo
- Publication number
- CN101552006A CN101552006A CNA2009100620287A CN200910062028A CN101552006A CN 101552006 A CN101552006 A CN 101552006A CN A2009100620287 A CNA2009100620287 A CN A2009100620287A CN 200910062028 A CN200910062028 A CN 200910062028A CN 101552006 A CN101552006 A CN 101552006A
- Authority
- CN
- China
- Prior art keywords
- mdct
- mdst
- conversion
- window
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了加窗信号在MDCT域的能量及相位调整方法及其装置,通过加窗信号的MDCT谱和MDST谱,构造加窗信号的CMCLT谱;根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息和相位信息,然后根据所得能量信息及相位信息,在MDCT域上提取空间参数。所述CMCLT谱是共轭调制复重叠变换谱,是以变换时所用窗函数为共轭窗函数的MDCT谱和MDST谱分别作为实部和虚部,从而定义MDCT的一种复数化扩展形式。应用本发明可统一空间音频编码系统中的时频分析工具,有效提取多声道信号的空间参数。统一时频变换工具后,整个编码端只需进行一次时频变换,较大幅度降低了空间音频编解码系统的复杂度,从而优化编解码工作。
Description
技术领域
本发明属于空间音频技术领域,特别是涉及加窗信号在MDCT域的能量及相位调整方法及其装置。
背景技术
音频信号属于短时平稳过程,实际信号处理中,通过对信号采样分帧,将具有平稳统计特性的每帧信号作为处理对象。信号分帧相当于采用普通矩形窗对信号进行截短处理,由于矩形窗有陡峭的到零的下降沿,造成分帧后帧间的频谱泄漏,使得重建后的声音信号在帧间产生抖动。因此,有必要在变换前对时域信号加窗,避免因分帧产生的块效应,保证帧间过渡的平滑。多声道音频编码技术追求高音质和低码率,为了重现原始声音效果,在实际信号处理中通常以加窗信号作为研究对象。本发明所称多声道包括双声道及更多声道的情况。
对信号进行加窗处理时,通常应用的窗函数主要有矩形窗、三角窗、汉宁窗、海明窗和凯撒窗等类型。其中矩形窗主瓣较集中,旁瓣较高并有负旁瓣,易使变换产生高频干扰和频谱泄漏。与矩形窗相比,汉宁窗可缓解频谱泄漏,但频率分辨力下降。海明窗与汉宁窗均为余弦窗,仅加权系数不同。每种窗型都有自己的特点,实际信号处理时一般根据输入信号的特性选择窗型。
空间音频编码技术作为多声道音频技术的典型代表,将加窗后的多声道信号所包含的音频信息和空间信息相分离并分别编码。现有的传统空间音频编解码系统如图1所示,编码端输入的多声道信号加窗后,一方面通过下混成为一个声道进行传统单声道音频编码(MDCT时频分析,包括MDCT变换和量化编码),另一方面经声源分离(HQMF/CFB/STDFT时频分析)后进行空间参数提取和空间参数编码;解码端通过码流分析分离出下混声道和空间参数信息,相应地分别对下混声道进行传统单声道音频解码、上混,对空间参数信息进行空间参数解码,最终通过合成滤波得到输出多声道信号。
在空间音频编码系统中,空间参数反映多声道音频信号(包括双声道)的空间信息,编码端空间参数的有效提取是解码端音质还原的关键。空间参数主要包括用以定位声源水平方位的声道间强度差(Interaural Level Difference,简称ILD)和声道间时间差(Interaural Time Difference,简称ITD),以及用以确定声源声场宽度的声道间相关度(Interaural Correlation,简称IC)。其中,ILD记录了声道间信号的能量比,ITD记录了声道间信号具有最大互相关的时间偏移,IC记录了此时的归一化相关度。因此,ILD和ITD分别与时域加窗信号的能量及延时特性相关,IC同时受信号能量及延时特性的影响。
实际信号处理中,通常在编码端对加窗信号进行时频域变换,完成信号的声源分离。在MP3、AAC等通用音频编码系统中,传统的单声道音频编码采用修正离散余弦变换(Modified Discrete Cosine Transform,简称MDCT)作为最常见的时频分析工具,且MDCT具有时域抗混叠特性;而编码端在提取声场空间信息时则采用模拟人耳听觉特性的时频分析工具,包括人工耳蜗滤波器(Cochlear Filter Bank,简称CFB)、短时离散傅立叶变换(Short-Time DFT,简称STDFT)以及混合正交镜像滤波器组(Hybrid Quadrature MirrorFilterbank,简称HQMF)。
现有技术表明,若传统的单声道编码与空间参数提取使用相同的时频分析工具,可以有效降低编解码的复杂度和算法延时。针对空间参数提取的时频分析工具CFB、STDFT和HQMF由于复杂度、临界采样特性以及与心理声学的匹配性等原因不适合在传统的单声道编码器中使用。因此,为了降低复杂度和延时,当采用基于MDCT的感知音频编码器作为传统单声道编码器时,研究如何提取加窗信号MDCT域上的空间参数成为空间音频编码领域的研究热点。
然而,MDCT变换属于实变换,与同时包含信号相位信息和幅度信息的复变换不同,在MDCT域上提取空间参数存在困难:首先MDCT谱的能量抖动使MDCT谱的声道间强度差ILD与原加窗信号ILD不一致,导致ILD参数提取存在差异;其次MDCT谱中不包含直接的相位信息,难以反映原时域加窗信号的延时特性,导致直接提取声道间时间差参数ITD存在困难。
此外,空间音频编解码系统通常以加窗信号作为研究对象,由于加窗处理会对时域及变换域上的信号特性产生影响,在实际信号处理中通常采用与未加窗信号不同的处理方法,因此研究加窗信号在MDCT域上的能量及相位调整方法是有别于未加窗信号的,研究本身具有不可忽视的价值。
发明内容
本发明目的在于针对现有技术的不足,提出了加窗信号在MDCT域的能量及相位调整方法及其装置,以统一空间音频编码系统中的时频分析工具。
本发明提供的加窗信号MDCT域的能量及相位调整方法,技术方案包含以下步骤:
步骤1,对输入信号进行MDCT加窗得到加窗信号,以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数,具体构造方法如下,
将MDCT变换的窗函数wc(n)分解为两个N点窗函数w0(n)和w1(n)的衔接:
取MDST变换的窗函数ws(n)为MDCT变换的窗函数wc(n)的共轭窗函数,则ws(n)满足如下条件:
步骤2,根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;由MDST变换的窗函数得到加窗信号MDST变换的形式化表达;
所述加窗信号MDCT变换的形式化表达如下:
所述加窗信号MDST变换的形式化表达如下:
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi(n)为输入信号x(n)的第i帧信号,其中n表示第n个采样点;<,>表示向量内积,ck(n)、sk(n)分别为MDCT变换基和MDST变换基,wc(n)为MDCT变换的窗函数,ws(n)为MDST变换的窗函数;
步骤3,由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱,包括以下四个步骤,
步骤3.2,根据加窗信号MDCT变换和加窗信号MDST变换的形式化表达,提取MDCT谱至MDST谱的转换矩阵,包括和矩阵A及差矩阵B;提取具体方式如下,
首先,对于2N维的MDCT变换基ck和MDST变换基sk,分别分解为N维列向量,即
从而得到以下四个N×N矩阵形式的子向量C0、C1、S0、S1:
和矩阵A及差矩阵B根据以上子向量得到,
其中,k=0,1,...,N-1,上标“T”表示转置,上标“0”和“1”分别用于标示变换基前半部分和后半部分的子向量;
步骤3.3,稀疏化近似步骤3.2所得和矩阵A,得到近似和矩阵Am;
所述稀疏化具体方式为,保留和矩阵A中绝对值最大的2m个元素值,其它元素均置为0值;其中m取小于N×N/2的任意自然数;
步骤4,依据步骤2中所得加窗信号的MDCT谱和步骤3中所得加窗信号的MDST谱,构造加窗信号的CMCLT谱;所述CMCLT谱是共轭调制复重叠变换谱,是以变换时所用窗函数为共轭窗函数的MDCT谱和MDST谱分别作为实部和虚部,从而定义MDCT的一种复数化扩展形式,构造的CMCLT谱如下式所示
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi为输入信号的第i帧信号,ck、sk分别为MDCT变换基和MDST变换基,Wc和Ws分别为MDCT变换和MDST变换的窗函数矩阵表示,即
其中W0=diag{w0(n)},W1=diag{w1(n)},w0(n)和w1(n)分别为步骤1中窗函数wc(n)分解后的两个N点窗函数;
步骤5,根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息和相位信息;
步骤6,根据步骤5所得能量信息及相位信息,在MDCT域上提取空间参数。而且,所述相位信息的提取过程包括以下三个步骤,
(1)将MDCT变换的窗函数wc(n)表示为离散正弦变换的四型变换基sk(n)的线性组合,确定展开系数,即
wc(n)=α0s0+α1s0+...+αksk+...+αN-1sN-1
其中,αk为窗函数wc(n)以离散正弦变换的四型变换基sk(n)展开的系数,k取0,1,...,N-1,且四型变换基sk(n)表示如下:
(3)进行CMCLT谱的线性组合,将CMCLT谱转换为DFT谱的形式,按照所述线性组合方式形成的新谱线如下式所示:
上式表现的关系展示了一个CMCLT谱的线性组合,等价于输入信号的DFT谱线附加一个与输入信号无关的相位偏移,且线性组合的形式依赖于四型变换基sk(n)展开的系数。
本发明还提供了实现上述MDCT域信号能量与相位补偿方法的相应装置,包含以下部分:
MDCT加窗模块,用于对输入信号进行MDCT加窗得到加窗信号;
共轭窗构造模块,用于以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数;
加窗MDST表示模块,用于MDST变换的窗函数得到加窗信号MDST变换的形式化表达;
加窗MDCT变换模块,用于根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;
加窗MDST构造模块,用于由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱;
加窗CMCLT构造模块,用于依据加窗信号的MDCT谱和加窗信号的MDST谱,构造加窗信号的CMCLT谱;
能量提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息;
相位提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的相位信息;
空间参数提取模块,用于根据加窗信号在CMCLT域的能量信息和相位信息,在在MDCT域上提取空间参数;
其中,输入信号进入MDCT加窗模块,MDCT加窗模块分别连接加窗MDCT变换模块和共轭窗构造模块,MDCT加窗模块通过连接输出加窗信号进入加窗MDCT变换模块,输出MDCT加窗变换所用的窗函数到共轭窗构造模块;共轭窗构造模块与加窗MDST表示模块相连,共轭窗构造模块通过连接输出MDST变换的窗函数到加窗MDST表示模块;加窗MDST表示模块和加窗MDCT变换模块的输出分别接入加窗MDST构造模块,加窗MDST表示模块通过连接输出加窗信号MDST变换的形式化表达到加窗MDST构造模块,加窗MDCT变换模块输出加窗信号的MDCT谱到加窗MDST构造模块;加窗MDST构造模块和加窗MDCT变换模块的输出分别接入加窗CMCLT构造模块,加窗MDST构造模块通过连接输出加窗信号的MDST谱到加窗CMCLT构造模块,加窗MDCT变换模块通过连接输出加窗信号的MDCT谱到加窗CMCLT构造模块;加窗CMCLT构造模块的输出分别接入能量提取模块和相位提取模块,能量提取模块所得能量信息和相位提取模块所得相位信息最终进入空间参数提取模块,空间参数提取模块输出在MDCT域上提取的空间参数。
本发明提供了加窗信号在MDCT域的能量及相位调整方法及其装置,可统一空间音频编码系统中的时频分析工具,有效提取多声道信号的空间参数。统一时频变换工具后,整个编码端只需进行一次时频变换,较大幅度降低了空间音频编解码系统的复杂度,从而优化编解码工作。
附图说明
图1为现有空间音频编解码系统结构框图。
图2为本发明的装置结构框图。
图3为本发明实施例的加窗MDST构造模块实现框图。
图4为本发明实施例的相位提取模块的实现框图。
图5为本发明在空间音频编解码系统中的应用示意图。
具体实施方式
本发明提供的技术方案流程如下,具体实施时可以采用计算机实现以下流程的自动运行:
步骤1,对输入信号进行MDCT加窗得到加窗信号,以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数。
在空间音频技术领域,MDST为常用变换手段,意为修正离散正弦变换(Modified Discrete Sine Transform,简称MDST),即MDCT的共轭变换。以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数,具体构造方法如下:
将MDCT变换的窗函数wc(n)分解为两个N点窗函数w0(n)和w1(n)的衔接:
取MDST变换的窗函数ws(n)为MDCT变换的窗函数wc(n)的共轭窗函数,则ws(n)满足如下条件:
本发明实施例对输入信号x(n)加窗采用正弦窗型,具体实施时若采用其它窗型,都可参考该实施例实现。
因为采用正弦窗型,信号MDCT变换的窗函数可表示为:
(式1)
分析知wc(n)的共轭窗函数为余弦窗,信号MDST变换的窗函数可表示为:
(式2)
步骤2,根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;由MDST变换的窗函数得到加窗信号MDST变换的形式化表达。
所述加窗信号MDCT变换的形式化表达如下:
所述加窗信号MDST变换的形式化表达如下:
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi(n)为输入信号x(n)的第i帧信号,其中n表示第n个采样点;<,>表示向量内积,ck(n)、sk(n)分别为MDCT变换基和MDST变换基,wc(n)为MDCT变换的窗函数,ws(n)为MDST变换的窗函数;
本发明实施例根据式1和式2,取得
(A)加窗信号MDCT变换的形式化表达如下:
(式3)
(B)加窗信号MDST变换的形式化表达如下:
(式4)
步骤3,由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱,包括以下四个步骤:
步骤3.2,根据加窗信号MDCT变换和加窗信号MDST变换的形式化表达,提取MDCT谱至MDST谱的转换矩阵,包括和矩阵A及差矩阵B;提取具体方式如下,
首先,对于2N维的MDCT变换基ck和MDST变换基sk,分别分解为N维列向量,即
MDCT变换基ck和MDST变换基sk各有N个,因此得到以下四个N×N矩阵形式的子向量C0、C1、S0、S1:
和矩阵A及差矩阵B根据以上子向量得到,
其中,k=0,1,...,N-1,上标“T”表示转置,上标“0”和“1”分别用于标示变换基前半部分和后半部分的子向量。
步骤3.3,稀疏化近似步骤3.2所得和矩阵A,得到近似和矩阵Am;
所述稀疏化具体方式为,保留和矩阵A中绝对值最大的2m个元素值,其它元素均置为0值;其中m取小于(N×N)/2的任意自然数。
在步骤3.3中,差矩阵B是一个符号单位阵的转置,和矩阵A是一个稀疏对角阵。因此可以针对和矩阵,将和矩阵进行稀疏化近似,即保留和矩阵A中绝对值最大的2m个元素值,其它元素均置为0值,并将稀疏化近似后的和矩阵A记为近似和矩阵Am。
步骤4,依据步骤2中所得加窗信号的MDCT谱和步骤3中所得加窗信号的MDST谱,构造加窗信号的CMCLT谱;所述CMCLT谱是共轭调制复重叠变换谱,是以变换时所用窗函数为共轭窗函数的MDCT谱和MDST谱分别作为实部和虚部,从而定义MDCT的一种复数化扩展形式,构造的CMCLT谱如下式所示
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi为输入信号的第i帧信号,ck、sk分别为MDCT变换基和MDST变换基。值得注意的是,步骤2中xi(n)、ck(n)、sk(n)加(n)是计算需要,n指第i帧信号的第n个采样点,此次不加n表示直接针对第i帧信号整体考虑,运算包括该帧信号内所有采样点。
Wc和Ws分别为MDCT变换和MDST变换的窗函数矩阵表示,即
其中W0=diag{w0(n)},W1=diag{w1(n)},w0(n)和w1(n)分别为步骤1中窗函数wc(n)分解后的两个N点窗函数。diag{w0(n)}表示对角矩阵W0的对角线上元素为w0(n),diag{w1(n)}表示对角矩阵W1的对角线上元素为w1(n)。
本发明实施例中,就是用步骤2所得加正弦窗的MDCT谱和步骤3中构造的MDST谱分别作为实部和虚部,构造加窗信号的CMCLT谱步骤5,根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息和相位信息。
本发明对于加窗信号在CMCLT域的能量信息进行了一番考察:
将加窗信号在CMCLT域的能量记为Em,未加窗的时域信号能量记为En,令CMCLT变换矩阵R=(WcC WsS),则
其中Wc和Ws分别为MDCT变换和MDST变换的窗函数矩阵表示,I2N为2N×2N的单位阵、IN为N×N的单位阵、JN是N×N的反对角单位阵。C和S分别为MDCT变换基ck和MDST变换基sk组成的矩阵:
C=(c0 c1 ... cN-1)
S=(s0 s1 ... sN-1)
因此,有下式成立:
本发明对于加窗信号在CMCLT域的相位信息提供了具体提取方案:
(1)MDCT变换的窗函数wc(n)表示为离散正弦变换的四型变换基sk(n)的线性组合,确定展开系数,即
wc(n)=α0s0+α1s0+...+αksk+...+αN-1sN-1
其中,αk为窗函数wk(n)以基函数sk(n)展开的展开系数,且基函数sk(n)表示如下:
本发明实施例中,将输入信号加窗并进行MDCT变换所采用的正弦窗wc(n)表示为离散正弦变换的四型变换基sk(n)的线性组合,即
上式中展开系数除α0=1,其余均为0。离散正弦变化的四型变换基简称DST-IV变换基,MDCT变换基和MDST变换基是其变形,这三者均属于现有技术。
其中,e为数学常量2.71828183,l取0,1,...,N/2-1,k取0,1,...,N-1。上式中表达一个CMCLT谱线的线性组合,等价于输入信号的DFT谱线附加一个与输入信号无关的相位偏移,且线性组合的形式依赖于四型变换基sk(n)展开的系数。DFT是离散傅里叶变换的简称,由于DFT变换具有线性相位,则构造的亦具有和时域延时相对应的线性相位。根据上式,将周期为2N的第i帧加窗信号xi(n)延时d,即 则延时后的CMCLT谱因此信号的时域延时对应于CMCLT谱的线性附加相位
首先依据一般窗型CMCLT谱的线性组合方法,将CMCLT谱转换为DFT谱的形式,其中一般窗型的构造如下式所示
(式6)
因此式6中仅有l=0的项有效,即
(式8)
将式3、式4和式5代入式8化简得
由式9知,通过对加窗信号CMCLT谱实部和虚部的线性组合,得到一个与DFT仅有相位差的变换。依据式9,将周期为2N的第i帧加窗信号xi(n)延时d,即 则延时后的CMCLT谱因此信号的时域延时对应于CMCLT谱的线性附加相位
步骤6,根据步骤5所得能量信息及相位信息,在MDCT域上提取空间参数。
在步骤5知道CMCLT域的能量信息和相位信息后,就可以在MDCT域上提取等同的空间参数。具体实施时,往往需要多个空间参数反映多声道音频信号的空间信息。在步骤6中,依据步骤5中所得加窗信号CMCLT谱的能量信息提取MDCT域上与能量相关的空间参数,依据步骤5中所得加窗信号CMCLT谱的相位信息提取MDCT域上与相位相关的空间参数。为了具体说明空间参数的提取,本步骤以双耳线索ILD,ITD为实施例具体说明,具体实施方式如下:
(A)在MDCT域提取ILD信息,ILD记录了左右声道信号的能量比:ILD在时域的值ILDt在时域上的定义公式为: 但由于信号处理不是在时域上进行,而是在MDCT域上进行,因此根据CMCLT域的能量信息按下式进行调整:
其中,ILDm为在MDCT域提取的ILD的值,xl(t)和xr(t)分别为左右声道信号,和分别为左右声道第i帧加窗信号的CMCLT谱。因为存在能量的倍数关系,所以可以用左右声道信号在MDCT域上的CMCLT谱能量之比,从而得到MDCT域上的值ILDm,从而得到等价于时域上的值ILDt的左右声道信号的能量比。
(B)在MDCT域提取ITD信息,ITD记录了左右声道信号最大互相关的时间偏移:
ITD在时域的值ITDt在时域上的定义公式为: 但由于信号处理不是在时域上进行,而是在MDCT域上进行,因此根据CMCLT域的能量信息按下式进行调整:
其中ITDt为ITD在时域的值,ITDm为在MDCT域提取的ITD的值,xl(t)和xr(t)分别为左右耳入声,k=0,1,...,N-1。τ为具有最大互相关时的时间偏移。通过计算左右声道第i帧加窗信号的CMCLT谱和相位差的群延时提取MDCT域的ITD值。
具体实施时,除了采用软件流程方式实现本发明提供的加窗信号MDCT域的能量及相位调整技术方案外;还可以通过模块化技术提供加窗信号MDCT域的能量及相位调整装置,以支持面向用户的能量及相位调整工作。参见图2,加窗信号MDCT域的能量及相位调整装置可包含以下部分:
MDCT加窗模块,用于对输入信号进行MDCT加窗得到加窗信号;
共轭窗构造模块,用于以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数;
加窗MDST表示模块,用于MDST变换的窗函数得到加窗信号MDST变换的形式化表达;
加窗MDCT变换模块,用于根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;
加窗MDST构造模块,用于由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱;
加窗CMCLT构造模块,用于依据加窗信号的MDCT谱和加窗信号的MDST谱,构造加窗信号的CMCLT谱;
能量提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息;
相位提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的相位信息;
空间参数提取模块,用于根据加窗信号在CMCLT域的能量信息和相位信息,在在MDCT域上提取空间参数;
其中,输入信号进入MDCT加窗模块,MDCT加窗模块分别连接加窗MDCT变换模块和共轭窗构造模块,MDCT加窗模块通过连接输出加窗信号进入加窗MDCT变换模块,输出MDCT加窗变换所用的窗函数到共轭窗构造模块;共轭窗构造模块与加窗MDST表示模块相连,共轭窗构造模块通过连接输出MDST变换的窗函数到加窗MDST表示模块;加窗MDST表示模块和加窗MDCT变换模块的输出分别接入加窗MDST构造模块,加窗MDST表示模块通过连接输出加窗信号MDST变换的形式化表达到加窗MDST构造模块,加窗MDCT变换模块输出加窗信号的MDCT谱到加窗MDST构造模块;加窗MDST构造模块和加窗MDCT变换模块的输出分别接入加窗CMCLT构造模块,加窗MDST构造模块通过连接输出加窗信号的MDST谱到加窗CMCLT构造模块,加窗MDCT变换模块通过连接输出加窗信号的MDCT谱到加窗CMCLT构造模块;加窗CMCLT构造模块输出的CMCLT谱分别接入能量提取模块和相位提取模块,能量提取模块所得能量信息和相位提取模块所得相位信息输入空间参数提取模块,空间参数提取模块输出在MDCT域上提取的空间参数。
具体实施时,还可以进行更细致的划分设计,例如加窗MDST构造模块由谱线运算单元、加窗转换矩阵提取单元、加窗转换矩阵简化单元和MDCT-MDST转换单元构成;相位提取模块由窗函数展开单元、CMCLT谱线运算单元和CMCLT-DFT转换单元构成。可参见图3,加窗MDST构造模块的谱线运算单元用于实现步骤3.1,输出运算后谱线和到加窗转换矩阵提取单元;加窗转换矩阵提取单元用于实现步骤3.2,输出和矩阵A到加窗转换矩阵简化单元,输出及差矩阵B到MDCT-MDST转换单元;加窗转换矩阵简化单元用于实现步骤3.3,输出近似和矩阵Am到MDCT-MDST转换单元;MDCT-MDST转换单元用于实现步骤3.4,输出所得加窗信号的MDST谱。可参见图4,相位提取模块的窗函数展开单元用于将信号MDCT变换所加窗型wc(n)表示为DST-IV变换基sk(n)的线性组合,确定展开系数αk并输出到CMCLT谱线运算单元;CMCLT谱线运算单元用于对第i帧加窗信号CMCLT谱的实部和虚部做线性运算,构造及并输出到CMCLT-DFT转换单元;CMCLT-DFT转换单元用于构造,实现CMCLT谱的线性组合,将CMCLT谱转换为DFT谱的形式。
将本发明用于空间音频编解码系统,基于本发明的空间音频编解码系统应用装置如图5所示。图5将应用本发明前后的空间音频编解码系统作了对比。图片左方是未应用本发明的现有空间音频编解码系统,其中的空间参数提取和传统单声道音频编码运用独立的时频分析工具,分别为HQMF/CFB/STDFT以及MDCT变换。图片右方是基于本发明的空间音频编解码系统,其中的空间参数提取和传统单声道音频编码共同采用MDCT时频变换。空间参数提取可通过本发明提供的装置实现,在空间参数提取模块基础上扩展共轭窗构造模块、加窗MDST表示模块、加窗MDCT变换模块、加窗MDST构造模块、加窗CMCLT构造模块、能量提取模块、相位提取模块。统一时频变换工具后,整个编码端只需进行一次时频变换,较大幅度降低了空间音频编码系统的复杂度。相应的解码端合成滤波采用MDCT时频变换的逆变换(即IMDCT变换)即可。
Claims (3)
1.一种加窗信号MDCT域的能量及相位调整方法,其特征在于,包含以下步骤:步骤1,对输入信号进行MDCT加窗得到加窗信号,以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数,具体构造方法如下,
将MDCT变换的窗函数wc(n)分解为两个N点窗函数w0(n)和w1(n)的衔接:
取MDST变换的窗函数ws(n)为MDCT变换的窗函数wc(n)的共轭窗函数,则ws(n)满足如下条件:
步骤2,根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;由MDST变换的窗函数得到加窗信号MDST变换的形式化表达;
所述加窗信号MDCT变换的形式化表达如下:
所述加窗信号MDST变换的形式化表达如下:
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi(n)为输入信号x(n)的第i帧信号,其中n表示第n个采样点;<,>表示向量内积,ck(n)、sk(n)分别为MDCT变换基和MDST变换基,wc(n)为MDCT变换的窗函数,ws(n)为MDST变换的窗函数;
步骤3,由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱,包括以下四个步骤,
步骤3.2,根据加窗信号MDCT变换和加窗信号MDST变换的形式化表达,提取MDCT谱至MDST谱的转换矩阵,包括和矩阵A及差矩阵B;提取具体方式如下,
首先,对于2N维的MDCT变换基ck和MDST变换基sk,分别分解为N维列向量,即
从而得到以下四个N×N矩阵形式的子向量C0、C1、S0、S1:
和矩阵A及差矩阵B根据以上子向量得到,
其中,k=0,1,...,N-1,上标“T”表示转置,上标“0”和“1”分别用于标示变换基前半部分和后半部分的子向量;
步骤3.3,稀疏化近似步骤3.2所得和矩阵A,得到近似和矩阵Am;
所述稀疏化具体方式为,保留和矩阵A中绝对值最大的2m个元素值,其它元素均置为0值;其中m取小于N×N/2的任意自然数;
步骤4,依据步骤2中所得加窗信号的MDCT谱和步骤3中所得加窗信号的MDST谱,构造加窗信号的CMCLT谱;所述CMCLT谱是共轭调制复重叠变换谱,是以变换时所用窗函数为共轭窗函数的MDCT谱和MDST谱分别作为实部和虚部,从而定义MDCT的一种复数化扩展形式,构造的CMCLT谱如下式所示
其中,分别为第i帧加窗信号的MDCT谱和MDST谱,xi为输入信号的第i帧信号,ck、sk分别为MDCT变换基和MDST变换基,Wc和Ws分别为MDCT变换和MDST变换的窗函数矩阵表示,即
其中W0=diag{w0(n)},w1=diag{w1(n)},w0(n)和w1(n)分别为步骤1中窗函数wc(n)分解后的两个N点窗函数;
步骤5,根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息和相位信息;
步骤6,根据步骤5所得能量信息及相位信息,在MDCT域上提取空间参数。
2.如权利要求1所述的能量及相位调整方法,其特征在于:所述相位信息的提取过程包括以下三个步骤,
(1)将MDCT变换的窗函数wc(n)表示为离散正弦变换的四型变换基sk(n)的线性组合,确定展开系数,即
wc(n)=α0s0+α1s0+...+αksk+...+αN-1sN-1
其中,αk为窗函数wc(n)以离散正弦变换的四型变换基sk(n)展开的系数,k取0,1,...,N-1,且四型变换基sk(n)表示如下:
上式表现的关系展示了一个CMCLT谱的线性组合,等价于输入信号的DFT谱线附加一个与输入信号无关的相位偏移,且线性组合的形式依赖于四型变换基sk(n)展开的系数。
3.用于实现权利要求1或2所述加窗信号MDCT域的能量及相位调整方法的装置,其特征在于:包含以下部分,
MDCT加窗模块,用于对输入信号进行MDCT加窗得到加窗信号;
共轭窗构造模块,用于以MDCT加窗变换所用的窗函数为共轭窗函数构造MDST变换的窗函数;
加窗MDST表示模块,用于MDST变换的窗函数得到加窗信号MDST变换的形式化表达;
加窗MDCT变换模块,用于根据MDCT变换的窗函数得到加窗信号MDCT变换的形式化表达,根据该形式化表达对加窗信号进行MDCT变换,得到加窗信号的MDCT谱;
加窗MDST构造模块,用于由加窗信号的MDCT谱和加窗信号MDST变换的形式化表达构造加窗信号的MDST谱;
加窗CMCLT构造模块,用于依据加窗信号的MDCT谱和加窗信号的MDST谱,构造加窗信号的CMCLT谱;
能量提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的能量信息;
相位提取模块,用于根据加窗信号的CMCLT谱,提取加窗信号在CMCLT域的相位信息;
空间参数提取模块,用于根据加窗信号在CMCLT域的能量信息和相位信息,在在MDCT域上提取空间参数;
其中,输入信号进入MDCT加窗模块,MDCT加窗模块分别连接加窗MDCT变换模块和共轭窗构造模块,MDCT加窗模块通过连接输出加窗信号进入加窗MDCT变换模块,输出MDCT加窗变换所用的窗函数到共轭窗构造模块;共轭窗构造模块与加窗MDST表示模块相连,共轭窗构造模块通过连接输出MDST变换的窗函数到加窗MDST表示模块;加窗MDST表示模块和加窗MDCT变换模块的输出分别接入加窗MDST构造模块,加窗MDST表示模块通过连接输出加窗信号MDST变换的形式化表达到加窗MDST构造模块,加窗MDCT变换模块输出加窗信号的MDCT谱到加窗MDST构造模块;加窗MDST构造模块和加窗MDCT变换模块的输出分别接入加窗CMCLT构造模块,加窗MDST构造模块通过连接输出加窗信号的MDST谱到加窗CMCLT构造模块,加窗MDCT变换模块通过连接输出加窗信号的MDCT谱到加窗CMCLT构造模块;加窗CMCLT构造模块的输出分别接入能量提取模块和相位提取模块,能量提取模块所得能量信息和相位提取模块所得相位信息最终进入空间参数提取模块,空间参数提取模块输出在MDCT域上提取的空间参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100620287A CN101552006B (zh) | 2009-05-12 | 2009-05-12 | 加窗信号mdct域的能量及相位调整方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100620287A CN101552006B (zh) | 2009-05-12 | 2009-05-12 | 加窗信号mdct域的能量及相位调整方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101552006A true CN101552006A (zh) | 2009-10-07 |
CN101552006B CN101552006B (zh) | 2011-12-28 |
Family
ID=41156209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100620287A Expired - Fee Related CN101552006B (zh) | 2009-05-12 | 2009-05-12 | 加窗信号mdct域的能量及相位调整方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101552006B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851433A (zh) * | 2015-12-10 | 2018-03-27 | 华侃如 | 基于谐波模型和声源‑声道特征分解的语音分析合成方法 |
CN110249385A (zh) * | 2017-02-03 | 2019-09-17 | 高通股份有限公司 | 多信道解码 |
CN110534119A (zh) * | 2019-10-29 | 2019-12-03 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于人耳听觉频率尺度信号分解的音频编解码方法 |
CN106796801B (zh) * | 2014-07-28 | 2021-02-26 | 日本电信电话株式会社 | 编码方法、装置、以及记录介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0154387B1 (ko) * | 1995-04-01 | 1998-11-16 | 김주용 | 음성다중 시스템을 적용한 디지탈 오디오 부호화기 |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
US6980933B2 (en) * | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
CN101069232A (zh) * | 2004-11-30 | 2007-11-07 | 松下电器产业株式会社 | 立体声编码装置、立体声解码装置及其方法 |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
-
2009
- 2009-05-12 CN CN2009100620287A patent/CN101552006B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106796801B (zh) * | 2014-07-28 | 2021-02-26 | 日本电信电话株式会社 | 编码方法、装置、以及记录介质 |
CN107851433A (zh) * | 2015-12-10 | 2018-03-27 | 华侃如 | 基于谐波模型和声源‑声道特征分解的语音分析合成方法 |
CN107851433B (zh) * | 2015-12-10 | 2021-06-29 | 华侃如 | 基于谐波模型和声源-声道特征分解的语音分析合成方法 |
CN110249385A (zh) * | 2017-02-03 | 2019-09-17 | 高通股份有限公司 | 多信道解码 |
CN110249385B (zh) * | 2017-02-03 | 2023-05-30 | 高通股份有限公司 | 多信道解码 |
CN110534119A (zh) * | 2019-10-29 | 2019-12-03 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于人耳听觉频率尺度信号分解的音频编解码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101552006B (zh) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103400583B (zh) | 多声道下混对象编码的增强编码和参数表示 | |
CN103348703B (zh) | 用以利用预先算出的参考曲线来分解输入信号的装置和方法 | |
CN105900455B (zh) | 用于处理音频信号的方法和设备 | |
CN105659630B (zh) | 用于处理多媒体信号的方法和设备 | |
CN104285390B (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
CN102388417B (zh) | 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码 | |
CN101882441B (zh) | 利用复调制滤波器组的高效滤波 | |
CN102124516B (zh) | 音频信号格式变换 | |
CN105190747A (zh) | 用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法 | |
EP2722845B1 (en) | Method and apparatus for generating downmix signal | |
CN110100279A (zh) | 使用边增益和残差增益对多声道信号进行编码或解码的装置和方法 | |
CN109616130A (zh) | 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备 | |
CN1761998B (zh) | 用于生成单声道信号的方法、部件、音频编码器和系统 | |
TR201910073T4 (tr) | Vektörel çarpımı geliştirilmiş harmonik aktarım. | |
CN102148035A (zh) | 使用复值滤波器组的音频信号的编码和解码 | |
CN103366749B (zh) | 一种声音编解码装置及其方法 | |
CN102577384A (zh) | 用相位信息和残差信息进行编码/解码的设备和方法 | |
CN101484936A (zh) | 音频解码 | |
CN103534753B (zh) | 用于信道间差估计的方法和空间音频编码装置 | |
CN103069481B (zh) | 音频信号合成器 | |
CN101552006B (zh) | 加窗信号mdct域的能量及相位调整方法及其装置 | |
CN103297058A (zh) | 对音频信号解码的设备 | |
CN101361117A (zh) | 处理媒体信号的方法和装置 | |
EP2410518A1 (en) | Apparatus and method for encoding and decoding multi-channel audio signal | |
CN102986254A (zh) | 音频信号产生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111228 Termination date: 20160512 |
|
CF01 | Termination of patent right due to non-payment of annual fee |