CN101615393A - 对语音和/或非语音音频输入信号编码或解码的方法和设备 - Google Patents

对语音和/或非语音音频输入信号编码或解码的方法和设备 Download PDF

Info

Publication number
CN101615393A
CN101615393A CN200910150302A CN200910150302A CN101615393A CN 101615393 A CN101615393 A CN 101615393A CN 200910150302 A CN200910150302 A CN 200910150302A CN 200910150302 A CN200910150302 A CN 200910150302A CN 101615393 A CN101615393 A CN 101615393A
Authority
CN
China
Prior art keywords
coding
signal
mlt
voice
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910150302A
Other languages
English (en)
Other versions
CN101615393B (zh
Inventor
奥利弗·威伯特
约翰尼斯·伯姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Thomson Licensing LLC
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101615393A publication Critical patent/CN101615393A/zh
Application granted granted Critical
Publication of CN101615393B publication Critical patent/CN101615393B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

已知音频/语音编解码的不足之处在于编码质量对内容类型的明显依赖性,即,类似音乐的音频信号最好由音频编解码器来编码,而类似语音的音频信号最好由语音编解码器来编码。没有任何已知编解码针对混合的语音/音乐内容掌握着主导地位。本发明的联合语音/音频编解码使用了语音编码技术以及音频变换编码技术。通过在编解码输入处使用调制重叠变换,以有利的方式将基于变换的音频编码处理与基于线性预测的语音编码处理相结合,其中MLT输出频谱被划分成分配给语音编码的频率箱(低频率)以及分配给基于变换的音频编码的剩余频率箱(高频率)。本发明实现了针对类似语音和类似音乐的音频信号二者的统一、优良的编解码质量,特别是既针对非常低的比特率,也针对较高的比特率。

Description

对语音和/或非语音音频输入信号编码或解码的方法和设备
技术领域
本发明涉及对语音和/或非语音音频输入信号进行编码或解码的方法和设备。
背景技术
已知多种宽带或者语音/音频编解码,例如:
S.Ragor等人的“ITU-T G.729.1:An 8-32 Kbit/s scalable coderinteroperable with G.729 for wideband telephony and voice over IP”,IEEE International Conference on Acoustics,Speech and SignalProcessing 2007,ICASSP 2007,vol.4,pp.IV-529至IV-532。该宽带语音编码器包括被永久性地使用的嵌入式G.729语音编码器。因此,类似音乐的信号(非语音)的质量不是很好。尽管该编码器使用了变换编码技术,但是其是语音编码器。
S.A.Ramprashad的“A two stage hybrid embedded speech/audiocoding structure”,Proceedings of the 1998 IEEE International Conferenceon Acoustics,Speech,and Signal Processing 1998,ICASSP 1998,vol.1,pp.337-340。该编码器使用了类似于上述编码器的原理结构。该处理是基于时间域信号的,这意味着难以处理核心编码器/解码器(语音编码器)中的延迟。为了抑制该问题,该处理是基于普通变换的。同样,永久性地使用该核心编码器(即,语音编码器),这造成了针对类似音乐(非语音)信号的非最优质量。
M.Purat,P.Noll的“A new orthonormal wavelet packetdecomposition for audio coding using frequency-varying modulatedlapped transforms”,IEEE ASSP Workshop on Applications of SignalProcessing to Audio and Acoustics,1995,pp.183-186。
M.Purat,P.Noll的“Audio coding with a dynamic wavelet packetdecomposition based on frequency-varying modulated lapped transforms”,IEEE International Conference on Acoustics,Speech,and SignalProcessing 1996,ICASSP 1996,vol.2,pp.1021-1024。
发明内容
已知音频/语音编解码的不足之处在于编码质量对内容类型的明显依赖性,即,类似音乐的音频信号最好由音频编解码器来编码,而类似语音的音频信号最好由语音编解码器来编码。没有任何已知编解码针对混合的语音/音乐内容掌握着主导地位。
本发明要解决的问题是提供一种针对语音和音乐二者而言的良好编解码性能,并且进一步提高针对此类混合信号的编解码性能。该问题由权利要求1和3中披露的方法所解决。使用了这些方法的设备在权利要求2和4中披露。
本发明的联合语音/音频编解码使用了语音编码技术以及音频变换编码技术。通过在编解码输入处使用一个或者更多调制重叠变换(Modulated Lapped Transform),并且在编解码输出处使用一个或者更多调制重叠逆变换(IMLT),以有利的方式将已知的基于变换的音频编码处理与基于线性预测的语音编码处理相结合。MLT输出频谱被划分为分配给编解码的语音编码部分的频率箱(低频率),以及分配给编解码的基于变换的编码部分的剩余频率箱(高频率),其中,在编解码输入和输出处的变换长度可以是以信号适应性的方式切换的。
作为备选,在基于变换的编码/解码部分中,变换长度可以是以输入信号适应性的方式切换的。
本发明实现了针对类似语音和类似音乐的音频信号二者的统一、优良的编解码质量,特别是既针对非常低的比特率,也针对较高的比特率。
从原理上讲,本发明方法适合对语音和/或非语音音频输入信号进行编码,包括下列步骤:
-通过至少一个初始MLT变换对所述输入信号的连续且可能重叠的部分进行变换,并且将得到的输出频率箱(frequency bin)划分为低频带信号和剩余频带信号;
-将所述低频带信号传递至语音/音频切换并通过语音编码/解码环(loop),所述语音编码/解码环包括至少一个第一型短MLT变换、语音编码、相应的语音解码、以及类型与上述第一型短MLT变换相反的至少一个第二型短MLT变换;
-在接收所述音频输入信号作为输入的心理声学模型(psycho-acoustic model)的控制下,对所述剩余频带信号进行量化和编码;
-将所述量化和编码的输出信号、所述切换的切换信息信号、可能地所述语音编码的输出信号、以及可选地其它编码辅助信息结合起来,以针对所述输入信号的当前部分形成输出比特流,
其中,所述语音/音频切换接收所述低频带信号、以及从所述第二型短MLT变换的输出导出的第二输入信号,并且决定是使所述第二输入信号绕开所述量化和编码步骤,还是将所述低频带信号与所述剩余频带信号一起在所述量化和编码步骤中编码,
在后一种情况下,所述语音编码的所述输出信号不包括在所述输出比特流的当前部分中。
从原理上讲,本发明设备适用于对语音和/或非语音音频输入信号进行编码,所述设备包括适用于如下的装置:
-通过至少一个初始MLT变换对所述输入信号的连续且可能重叠的部分进行变换,并且将得到的输出频率箱(frequency bin)划分为低频带信号和剩余频带信号;
-将所述低频带信号传递至语音/音频切换并通过语音编码/解码环,所述语音编码/解码环包括至少一个第一型短MLT变换、语音编码、相应的语音解码、以及类型与上述第一型短MLT变换相反的至少一个第二型短MLT变换;
-在接收所述音频输入信号作为输入的心理声学模型(psycho-acoustic model)的控制下,对所述剩余频带信号进行量化和编码;
-将所述量化和编码的输出信号、所述切换的切换信息信号、可能地所述语音编码的输出信号、以及可选地其它编码辅助信息结合起来,以针对所述输入信号的当前部分形成输出比特流,
其中,所述语音/音频切换接收所述低频带信号、以及从所述第二型短MLT变换的输出导出的第二输入信号,并且决定是使所述第二输入信号绕开所述量化和编码步骤,还是将所述低频带信号与所述剩余频带信号一起在所述量化和编码步骤中编码,
在后一种情况下,所述语音编码的所述输出信号不包括在所述输出比特流的当前部分中。
从原理上讲,本发明方法适用于对代表了编码的语音和/或非语音音频输入信号的比特流进行解码,其中该比特流是依照于上述方法被编码的,该解码方法包括步骤:
-对所述比特流的连续部分进行解多路复用(demultiplexing),以恢复所述量化和编码的输出信号、所述切换信息信号,可能地还恢复所述语音编码的输出信号,以及如果存在的话还恢复所述编码辅助信息;
-如果在所述比特流的当前部分中存在所述语音编码的输出信号,将所述语音编码的输出信号传递通过语音解码以及所述第二型短MLT变换;
-如果存在的话,在所述编码辅助信息的控制下,对所述量化和编码的输出信号进行解码,以向所述当前部分提供重建的剩余频带信号以及重建的低频带信号;
-向语音/音频切换提供所述重建的低频带信号以及从所述第二型MLT变换的输出导出的第二输入信号,并且根据所述切换信息信号,传递所述重建的低频带信号或传递所述第二输入信号;
-对与所述重建的剩余频带信号结合的所述切换的输出信号、以及可能地重叠的连续部分进行MLT逆变换,以形成重建输出信号的当前部分。
从原理上讲,本发明设备适用于对代表了编码语音和/或非语音音频输入信号的比特流进行解码,其中该比特流是依照于上述编码方法被编码的,上述设备包括适用于如下的装置:
-对所述比特流的连续部分进行解多路复用(demultiplexing),以恢复所述量化和编码的输出信号、所述切换信息信号,可能地还恢复所述语音编码的输出信号,以及如果存在的话还恢复所述编码辅助信息;
-如果在所述比特流的当前部分中存在所述语音编码的输出信号,将所述语音编码的输出信号传递通过语音解码以及所述第二型短MLT变换;
-如果存在的话,在所述编码辅助信息的控制下,对所述量化和编码的输出信号进行解码,以向所述当前部分提供重建的剩余频带信号以及重建的低频带信号;
-向语音/音频切换提供所述重建的低频带信号以及从所述第二型MLT变换的输出导出的第二输入信号,并且根据所述切换信息信号,传递所述重建的低频带信号或传递所述第二输入信号;
-对与所述重建的剩余频带信号结合的所述切换的输出信号、以及可能地重叠的连续部分进行MLT逆变换,以形成重建输出信号的当前部分。
在各个从属权利要求中披露了本发明其他的有利实施例。
附图说明
参照附图,描述本发明的示例实施例,附图中:
图1示出了本发明的联合语音和音频编码器的框图;
图2示出了“量化&编码”步骤/级(短的块编码)中的较高时间分辨率处理;
图3示出了本发明的联合语音和音频解码器的框图;
图4示出了“解码”步骤/级(短的块解码)中的较高时间分辨率处理;
图5示出了本发明的联合语音和音频编码器的其它实施例的框图;
图6示出了其它实施例的“量化&编码”步骤/级(短的块编码)中的较高时间分辨率处理;
图7示出了其它实施例的本发明联合语音和音频解码器的框图;
图8示出了其它实施例的“解码”步骤/级(短的块解码)中的较高时间分辨率处理;
图9示出了本发明联合语音和音频编码器(短的块编码)的又一实施例的框图。
具体实施方式
在根据图1的本发明联合语音和音频编解码中,针对类似语音的信号的已知编码处理(基于线性预测的语音编码处理,例如CELP,ACELP,cf.ISO/IEC 14496-3,分部2和3,以及MPEG4-CELP)与针对普通音频或者类似音乐的信号的基于时间-频率变换的当前技术编码处理(例如MDCT)结合在一起。在步骤/级10中,通过具有预定长度的调制重叠变换MLT(Modulated Lapped Transform)对PCM音频输入信号IS进行变换。作为MLT的特殊处理,例如改进的离散余弦变换MDCT(Modified Discrete Cosine Transform),其适合音频编码应用。MDCT最初被Princen和Bradley称作“Oddly-stacked Time Domain AliasCancellation Transform”,并且公开在John P.Princen以及Alan B.Bradley的“Analysis/synthesis filter bank design based on time domainaliasing cancellation”中,IEEE Transactions on Acoustics Speech SigalProcessing ASSP-34(5),pp.1153-1161,1986。
在H.S.Malvar,“Signal processing with lapped transform”,ArtechHouse Inc.,Norwood,1992,以及M.Temerinac,B.Edler,“A unifiedapproach to lapped or-thogonal transforms”,IEEE Transactions on ImageProcessing,Vol.1,No.1,pp.111-116,Januar 1992中,称为调制重叠变换(MLT)并且大体上示出了其与重叠正交变换(Lapped OrthoginalTransform)的关系,还证明了其是QMF滤波器组的特殊情况。改进的离散余弦变换(MDCT)以及逆MDCT(iMDCT)可以被认为是具有完美重建属性的临界采样滤波器组(critically sampled filter-bank)。
MDCT计算如下:
X ( k ) = 4 N Σ n = 0 N - 1 h ( n ) · x ( n ) · cos [ π K · ( n + K + 1 2 ) · ( k + 1 2 ) ] , k = 0,1 . . , K - 1 ; K = N / 2
x ( n ) = 4 N Σ k = 0 K - 1 h ( n ) · X ( k ) · cos [ π K · ( n + K + 1 2 ) · ( k + 1 2 ) ] , n = 0,1 . . , N - 1
在MLT输出处,获得的频谱被划分为属于语音频带(代表了低频带信号)的频率箱和代表了剩余频带信号RBS的剩余箱(高频)。在步骤/级11中,使用变换长度相对于步骤/级10中的预定长度而言较短的逆MLT,例如逆MDCT,将语音频带箱变换回时域。得到的时间信号具有比输入时间信号低的采样频率,并且仅包含语音频带箱的对应频率。背后的理论在逆MLT中仅使用MLT箱的子集,该背后的理论在上面引用的1995和1996年的Purat文章中有所描述。
然后,使用生成的时域信号作为语音编码步骤/级12的输入信号。语音编码的输出可以在输出比特流OBS中传送,这取决于下面描述的由语音/音频交换15进行的决定。编码的“语音”信号在相关的语音解码步骤/级13中被解码,并且在步骤/级14,使用对应于步骤/级11的逆MLT的MLT(即,具有短长度的“相反类型”MLT),将解码的“语音”信号变换回频域,以重新生成语音频带信号,即,重建的语音信号RSS。在这些频率箱和原始低频箱之间的差信号DS,以及原始低频箱信号,作为语音/音频切换15的输入。在该切换中,决定是将原始低频箱与剩余高频箱一起编码(这意味着编码的“语音”信号不在比特流OBS中传送),还是将差信号DS与剩余高频箱一起在下面的量化&编码步骤/级16中编码(这意味着编码的“语音”信号在比特流OBS中传送)。该切换可以通过使用速率失真最优化(rate-distortionoptimization)来操作。关于切换15的决定的信息项SWI被包括在比特流中以供解码之用。不仅在该切换中,也在其它步骤/级中,应当考虑到级联的变换所引入的不同延迟。针对这些步骤/级,可以使用对应的缓冲来平衡这些不同的延迟。
可以使用低频频带中的原始频率箱和差信号频率箱的混合,作为步骤/级16的输入。在这种情况下,关于该混合是如何构成的信息被传递至解码侧。
在任何情况下,步骤/级10输出的剩余频率箱(即,高频)均在量化&编码步骤/级16中受到处理。
在步骤/级16中,使用适合的量化(例如,类似于AAC中使用的量化技术),随后使用例如哈夫曼(Huffman)编码或者算术编码来对量化的频率箱进行编码。
在语音/音频切换15决定存在类似音乐的信号并因此根本不使用语音编码器/解码器或者其输出的情况下,对应于语音频带的原始频率箱将在量化&编码步骤/级16中被编码(与剩余频率箱一起)。
量化&编码步骤/级16由心理声学模型计算18来控制,心理声学模型计算18利用了针对量化的输入信号IS的遮蔽属性(maskingproperties)。因此辅助信息SI可以在比特流多路复用中传送至解码器。
切换15还可以从心理声学模型步骤/级18接收合适的控制信息(例如,音调或者频谱平坦的程度,或者信号类似噪音的程度)。
比特流多路复用步骤/级17将语音编码器12的输出码(如果存在的话)、切换15的切换信息、量化&编码步骤/级16的输出码、以及可选的辅助信息码SI结合起来,并且提供输出比特流OBS。
如图2所示,为了达到在基于变换的编码中的较高时间分辨率,在量化&编码步骤/级16的输入处,可以使用若干个小的逆MLT(与MLT 10的类型匹配)(例如,逆MDCT,iMDCT),以将具有高频率分辨率的初始MLT 10的长输出频谱变换22为若干个具有较低频率分辨率但较高时间分辨率的较短频谱。逆MLT步骤/级22布置在第一分组步骤/级21和第二分组步骤/级23之间,并提供两倍数量的输出值。同样,该处理的背后理论在上面引用的1995和1996年的Purat文章中被描述。在第一分组21中,若干个相邻的MLT箱被结合并被用作逆MLT 22的输入。表示逆MLT的变换长度的、结合后的MLT箱的数量定义了得到的时间和频率分辨率,其中较长的逆MLT产生了较高的时间分辨率。在随后的分组23中,执行重叠/相加(可选地,还包括窗函数的应用),并且应用在相同输入频谱上的逆MLT的输出被排序,从而得到若干个(该数量依赖于逆MLT的大小)时间(temporally)上连续的“短块”谱(spectra),该短块”谱在步骤/级16中被量化和编码。关于所使用的“短块编码”模式的信息包括在辅助信息SI中。可选地,可以使用具有不同MLT逆变换长度的多个“短块编码”模式,并且在SI中对这些模式进行告知。由此方便实现了在短块谱上的非均匀时间-频率分辨率,例如,针对高频的较高时间分辨率以及针对低频的较高频率分辨率。例如,对于最低频率来说,逆MLT可以获得2个连续频率箱的长度,并且对于最高频率来说,逆MLT可以获得16个连续频率箱的长度。在选择了非均匀频率分辨率的情况中,不可能使例如8个短块谱(spectra)成组。可以使用对得到的频率箱进行编码的不同顺序,例如一个“频谱”可以不仅包含同一时刻的不同频率箱,还可以包含不同时间点的相同频率箱。
在根据图1的处理和根据图2的处理之间的输入信号IS适应性的切换是由心理声学模型步骤/级18控制的。例如,如果从一帧到下一帧,输入信号IS中的信号能量增长到阈值之上(即,在输入信号中存在瞬变(transient)),则执行根据图2的处理。在信号能量低于该阈值的情况中,执行根据图1的处理。该切换信息也被包括在输出比特流OBS中,以用于解码中的对应切换。变换块部分可以由窗函数来加权,特别是以重叠方式,其中窗函数的长度对应于当前变换长度。
分析和合成窗可以是相同的,但不需要是相同的。分析和合成窗hA(n)以及hS(n)的函数必须满足针对连续块i和i+1的重叠区域的一些约束,以使得完美重建成为可能:
hA(i+1,n)·hS(i+1,n)+hA(i,n+N/2)·hS(i,n+N/2)=1,
hA(i+1,n)=hS(i,N-1-n),hS(i+1,n)=hA(i,N-1-n),n=0...N/2-1
已知的窗函数类型是正弦窗:
h sin ( n ) = sin ( π · n + 0.5 N ) , n = 0 . . . N - 1
具有增强远距抑制(far away rejection)但较宽主瓣(main lobe)的窗是OGG窗,其非常类似于Kaiser-Bessel导出窗(Kaiser-Besselderived window):
h OGG ( n ) = sin ( sin ( π N · ( n + 1 2 ) ) 2 · π 2 ) , n = 0 . . . N - 1
另一窗函数在AC-3音频编码标准的表7.33中公开。
在切换变换长度的情况下,使用转换窗函数(transition windowfunction),例如,如B.Edler在″Codierung von Audiosignalen mitüberlappender Transformation und adaptiven Fensterfunktionen″,FREQUENZ,vol.43,pp.252-256,1989中描述的,或者如在MP3中使用的并且在MPEG1标准ISO/IEC 11172-3(具体是节2.4.3.4.10.3)中描述的,或者如在AAC中使用的(例如,如MPEG4标准ISO/IEC 14496-3,分部4中描述的)。
在图3的本发明解码器中,接收到的或者重放的比特流OBS在相应步骤/级37中被解多路复用(demultiplexing),从而提供了针对语音解码器33的码(如果存在的话)、针对切换35的切换信息SWI、针对解码步骤/级36的码和切换信息、以及可选地辅助信息码SI。在针对当前数据帧在编码侧使用了语音子编码器11,12,13,14的情况下,在该当前帧中,由语音解码步骤/级33以及下游MLT步骤/级34相应地重建相应的编码语音频带频率箱,从而提供重建的语音信号RSS。在解码步骤/级36中,相应地解码剩余的编码频率箱,由此相应地逆转了编码侧量化操作。在切换信息SWI的控制下,语音/音频切换35与编码侧的操作相对应地进行操作。在切换信号SWI指示了在当前帧中存在类似音乐的输入信号并因此不使用语音编码/解码的情况下,对应于低频带的频率箱与剩余频率箱一起在解码步骤/级36中被解码,从而提供重建的剩余频带信号RRBS以及重建的低频带信号RLBS。
步骤/级36以及切换35的输出信号在逆MLT(例如iMDCT)步骤/级30中被相应地结合,并被合成,以提供解码输出信号OS。在切换35和其它步骤/级中,要考虑级联的变换引入的不同延迟。针对这些步骤/级,可以使用相应的缓冲来平衡不同的延迟。
在编码侧使用相应的选项的情况中,针对在切换35和在步骤/级30中的相应处理,不是使用结合的信号CS的频率箱,而是使用重建语音信号RSS的频率箱,即分别在步骤/级16和36中均不存在对低频带频谱的编码/解码。
图4示出了在编码侧使用“短块模式”编码以达到基于变换的编码中的较高时间分辨率的情况下,“短块模式”的步骤/级36中的解码。根据编码过程,在步骤/级36中对若干个时间上连续的“短块”谱进行解码,并且在第一分组步骤/级43中将其收集。执行重叠/相加(可选地,还包括窗函数的应用)。其后,使用对应的MLT步骤/级42,对时间上连续的频谱系数的每个集合进行变换,并且提供数量减半的输出值。然后,生成的频谱系数在第二分组步骤/级41中被分组成具有初始高频率分辨率和变换长度的一个MLT频谱。可选地,可以如SI中告知的一样,使用具有不同MLT变换长度的多个“短块解码”模式,从而方便实现短块谱(spectra)上的非均匀时间-频率分辨率,例如针对高频的较高时间分辨率和针对低频的较高频率分辨率。
作为备选实施例,可以使用MLT的不同的级联,其中切换了语音编码器中的内MLT/逆MLT对(inner MLT/inverse MLT pair)的顺序。在图5中,示出了相应编码的框图,其中图1的附图标记表示图1中相同操作。
逆MLT 11由MLT步骤/级51替代,并且MLT 14由逆MLT步骤/级54替代(即“相反类型”MLT)。由于这些MLT的交换后的顺序,语音编码器输入信号相比于图1中的那些具有不同属性。因此对语音编码器52和语音解码器53进行适配,以适合这些不同的属性(例如,从而可以剔除掉混叠分量)。
类似于针对图1实施例的图2所示,在针对图5的实施例的解码步骤/级36中,可以如图6所示使用“短块模式”处理,其中对应于图4中所述步骤的MLT步骤/级62替代了图2中的逆MLT步骤/级22。
在图7中所示的备选实施例解码器中,图3中的语音解码步骤/级33被相应地适配的语音解码步骤/级73所替代,并且图3中的MLT步骤/级34被相应的逆MLT步骤/级74所替代。
类似于针对图3实施例的图4所示,针对图7实施例,可以使用图8所示的“短块模式”处理,其中对应于图1中所示步骤的相应的逆MLT步骤/级82替代了图4中的MLT步骤/级42。
在图9的另一实施例中,执行了不同方式的块切换,而不是通过结合图2和图6而描述的处理来达到较高时间分辨率(在量化&编码步骤/级16以及解码步骤/级36中的块切换)。可以开启若干个短MLT(或者MDCT)90,而不是在划分成语音和音频频带之前使用固定的较大MLT 10(例如MDCT)。例如,不是使用具有2048个采样的变换长度的一个MDCT,而是可以使用具有256个采样的变换长度的8个短MDCT。尽管如此,短变换的长度之和不是一定要等于长的变换长度(尽管如果相等,缓冲处理更容易)。
相应地,在语音编码器12之前使用若干个短的逆MLT 91,并且在语音解码器13之后使用若干个短的MLT 94。有利的是,对于图9的长/短块模式切换来说,内部缓冲处理比根据图1至8的长/短块模式切换中的更容易,但是以在语音频带和剩余频带之间的频带划分较不尖锐为代价的。对内部缓冲处理更容易的原因如下:至少对于每个逆MLT操作而言,需要附加的缓冲器,这在内变换的情况下会导致在并行高频路径中也必须使用附加缓冲器。因此,在最外部变换处的切换对于缓冲器的副作用最少。另一方面,由于仅仅针对编码瞬变输入信号使用短块,所以时域中的尖锐(sharp)划分更重要。
在图9中,图1中的附图标记确实表示如图1中相同的操作。MLT 10是由短MLT步骤/级90以输入信号IS适应性的方式而替代的,逆MLT 11由较短的逆MLT步骤/级91所替代,并且MLT 14由较短的MLT步骤/级94所替代。
由于这种块切换,协调了第一变换90,30、以及第二变换11,34,51,74(用于重建语音频带的iMDCT)、以及第三变换14,54的长度。此外,为了收集针对语音编码器的完整的输入数据帧的足够采样,可以在图9的iMDCT 91之后对语音频带信号的若干个短块进行缓冲。
也可以对应于图5所述的编码,对图9的编码进行适配。
基于图9的实施例,对根据图3的解码或者根据图7的解码进行相应地适配,即,逆MLT 34以及30被相应的适应性切换的较短逆MLT所替代。基于图9的实施例,在MLT 90中的编码侧以及在逆MLT 30的解码侧,由窗函数对变换块部分进行加权,具体地以重叠的方式,其中窗函数的长度对应于当前变换长度。在切换变换长度的情况下,为了实现在长和短块之间的平滑转换,使用特别地形状的较长窗(开始和结束窗,或者转换窗(transistion window))。

Claims (15)

1、一种对语音和/或非语音音频输入信号(IS)进行编码的方法,所述方法包括下列步骤:
-通过至少一个初始MLT变换对所述输入信号(IS)的连续且可能重叠的部分进行变换(10,90),并且将得到的输出频率箱划分为低频带信号和剩余频带信号(RBS);
-将所述低频带信号传递至语音/音频切换(15)并通过语音编码/解码环,所述语音编码/解码环包括至少一个短的第一型MLT变换(11,51,91)、语音编码(12,52)、相应的语音解码(13,53)、以及类型与所述短第一型MLT变换的相反的至少一个短的第二型MLT变换(14,54,94);
-在接收所述音频输入信号(IS)作为输入的心理声学模型的控制下,对所述剩余频带信号(RBS)进行量化和编码(16);
-将所述量化和编码(16)的输出信号、所述切换(15)的切换信息信号(SWI)、可能地所述语音编码(12,52)的输出信号、以及可选地其它编码辅助信息(SI)结合起来(17),以针对所述输入信号(IS)的所述当前部分,形成输出比特流(OBS),
其中,所述语音/音频切换(15)接收所述低频带信号以及从所述短的第二型MLT变换(14,54,94)的输出导出的第二输入信号(DS),并且决定是使所述第二输入信号绕开所述量化和编码(16)步骤、还是将所述低频带信号与所述剩余频带信号(RBS)一起在所述量化和编码(16)步骤中编码,
在后一种情况下,所述语音编码(12,52)的所述输出信号不被包括在所述输出比特流(OBS)的当前部分中。
2、一种用于对语音和/或非语音音频输入信号(IS)进行编码的设备,所述设备包括适用于如下的装置:
-通过至少一个初始MLT变换对所述输入信号(IS)的连续且可能重叠的部分进行变换(10,90),并且将得到的输出频率箱划分为低频带信号和剩余频带信号(RBS);
-将所述低频带信号传递至语音/音频切换(15)并通过语音编码/解码环,所述语音编码/解码环包括至少一个短的第一型MLT变换(11,51,91)、语音编码(12,52)、相应的语音解码(13,53)、以及类型与所述短第一型MLT变换的相反的至少一个短的第二型MLT变换(14,54,94);
-在接收所述音频输入信号(IS)作为输入的心理声学模型的控制下,对所述剩余频带信号(RBS)进行量化和编码(16);
-将所述量化和编码(16)的输出信号、所述切换(15)的切换信息信号(SWI)、可能地所述语音编码(12,52)的输出信号、以及可选地其它编码辅助信息(SI)结合起来(17),以针对所述输入信号(IS)的所述当前部分,形成输出比特流(OBS),
其中,所述语音/音频切换(15)接收所述低频带信号以及从所述短的第二型MLT变换(14,54,94)的输出导出的第二输入信号(DS),并且决定是使所述第二输入信号绕开所述量化和编码(16)步骤、还是将所述低频带信号与所述剩余频带信号(RBS)一起在所述量化和编码(16)步骤中编码,
在后一种情况下,所述语音编码(12,52)的所述输出信号不被包括在所述输出比特流(OBS)的当前部分中。
3、一种对代表了编码语音和/或非语音音频输入信号(IS)的比特流(OBS)进行解码的方法,其中所述比特流是根据权利要求1的方法被编码的,所述解码方法包括步骤:
-对所述比特流的连续部分进行解多路复用(37),以恢复所述量化和编码(16)的输出信号、所述切换信息信号(SWI)、可能地所述语音编码(12,52)的输出信号,以及如果存在的话还有所述编码辅助信息(SI);
-如果在所述比特流(OBS)的当前部分中存在所述语音编码的所述输出信号,将所述语音编码的所述输出信号传递通过语音解码(33,73)以及所述短的第二型MLT变换(34,74);
-如果存在的话,则在所述编码辅助信息的控制下,对所述量化和编码(16)的所述输出信号进行解码(36),以向所述当前部分提供重建的剩余频带信号(RRBS)以及重建的低频带信号(RLBS);
-向语音/音频切换(15)提供所述重建的低频带信号以及从所述第二型MLT变换(34,74)的输出导出的第二输入信号(CS),并且根据所述切换信息信号(SWI),传递所述重建的低频带信号(RLBS)或者传递所述第二输入信号(CS);
-对与所述重建的剩余频带信号(RRBS)结合的所述切换(15)的输出信号、以及可能地重叠的连续部分进行MLT逆变换(30),以形成重建输出信号(OS)的当前部分。
4、一种对代表了编码语音和/或非语音音频输入信号(IS)的比特流(OBS)进行解码的设备,其中该比特流是根据权利要求1的方法被编码的,所述设备包括适用于如下的装置:
-对所述比特流的连续部分进行解多路复用(37),以恢复所述量化和编码(16)的输出信号、所述切换信息信号(SWI)、可能地所述语音编码(12,52)的输出信号,以及如果存在的话还有所述编码辅助信息(SI);
-如果在所述比特流(OBS)的当前部分中存在所述语音编码的所述输出信号,将所述语音编码的所述输出信号传递通过语音解码(33,73)以及所述短的第二型MLT变换(34,74);
-如果存在的话,则在所述编码辅助信息的控制下,对所述量化和编码(16)的所述输出信号进行解码(36),以向所述当前部分提供重建的剩余频带信号(RRBS)以及重建的低频带信号(RLBS);
-向语音/音频切换(15)提供所述重建的低频带信号以及从所述第二型MLT变换(34,74)的输出导出的第二输入信号(CS),并且根据所述切换信息信号(SWI),传递所述重建的低频带信号(RLBS)或者传递所述第二输入信号(CS);
-对与所述重建的剩余频带信号(RRBS)结合的所述切换(15)的输出信号、以及可能地重叠的连续部分进行MLT逆变换(30),以形成重建输出信号(OS)的当前部分。
5、根据权利要求1或3所述的方法,或者根据权利要求24所述的设备,其中,在编码的输入处使用单一MLT变换(10)并且在解码的输出处使用单一MLT逆变换(30)的情况下,以输入信号(IS)适应性的方式,在所述量化和编码(16)的输入处以及在所述解码(36)的输出处,分别执行各自长度均比所述单一MLT变换(10)和所述单一MLT逆变换(30)的长度小的若干个短的MLT变换:
要么是在所述量化和编码(16)的输入处的短的MLT逆变换(22)以及在所述解码(36)的输出处的短的MLT变换(22),
要么是在所述量化和编码(16)的输入处的短的MLT变换(62)以及在所述解码(36)的输出处的短的MLT逆变换(82)。
6、根据权利要求5所述的方法或者设备,其中,如果在所述输入信号(IS)的当前部分中的信号能量超过了阈值水平,则分别执行所述短的MLT变换以及所述短的MLT逆变换。
7、根据权利要求1或者3所述的方法,或者根据权利要求2或者4所述的设备,其中,在编码的输入处,以输入信号(IS)适应性的方式,从单一MLT变换(10)切换到多个较短的MLT变换(90),并且在所述解码(36)的输出处,相应地从单一MLT逆变换(30)切换到多个较短的MLT逆变换。
8、根据权利要求7所述的方法或者设备,其中,如果所述输入信号(IS)的当前部分中的信号能量超过阈值水平,则分别执行所述多个较短的MLT变换和所述多个较短的MLT逆变换。
9、根据权利要求1、3以及5至8的任意一个权利要求所述的方法,或者根据权利要求2以及4至8的任意一个权利要求所述的设备,其中,所述第二输入信号(DS)是在所述低频带信号和所述第二型MLT变换(14,54,94)的输出信号(RSS)之间的差信号。
10、根据权利要求1,3以及5至8的任意一个权利要求所述的方法,或者根据权利要求2以及4至8的任意一个权利要求所述的设备,其中,所述第二输入信号(DS)是所述第二型MLT变换(14,54,94)的所述输出信号(RSS)。
11、根据权利要求1,3以及5至10的任意一个权利要求所述的方法,或者根据权利要求2以及4至10的任意一个权利要求所述的设备,其中,上述切换(15)是由从所述心理声学模型(18)接收到的信息所控制的。
12、根据权利要求1,3以及5至11的任意一个权利要求所述的方法,或者根据权利要求2以及4至11的任意一个权利要求所述的设备,其中,所述切换(15)是通过使用速率-失真最优化来操作的。
13、根据权利要求1,3以及5至12的任意一个权利要求所述的方法,或者根据权利要求2以及4至12的任意一个权利要求所述的设备,其中,所述输入信号(IS)的连续部分和所述输出信号(OS)的连续部分由长度与相关的变换长度相对应的窗函数来加权,具体地以重叠的方式,以及,如果变换长度被切换,则使用对应的转换窗函数。
14、一种根据权利要求1,3以及5至13的任意一个权利要求所述的方法被编码的数字音频信号。
15、一种存储介质,例如光盘,其包含或者存储、或者在其上记录了根据权利要求14的数字音频信号。
CN2009101503026A 2008-06-25 2009-06-19 对语音和/或非语音音频输入信号编码或解码的方法和设备 Expired - Fee Related CN101615393B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08159018.4 2008-06-25
EP08159018A EP2139000B1 (en) 2008-06-25 2008-06-25 Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal

Publications (2)

Publication Number Publication Date
CN101615393A true CN101615393A (zh) 2009-12-30
CN101615393B CN101615393B (zh) 2013-01-02

Family

ID=39718977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101503026A Expired - Fee Related CN101615393B (zh) 2008-06-25 2009-06-19 对语音和/或非语音音频输入信号编码或解码的方法和设备

Country Status (2)

Country Link
EP (1) EP2139000B1 (zh)
CN (1) CN101615393B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074242A (zh) * 2010-12-27 2011-05-25 武汉大学 语音音频混合分级编码中核心层残差提取系统及方法
CN102103859A (zh) * 2011-01-11 2011-06-22 东南大学 一种数字音频编码、解码方法及装置
CN103198834A (zh) * 2012-01-04 2013-07-10 中国移动通信集团公司 一种音频信号处理方法、装置及终端
CN106463134A (zh) * 2014-03-28 2017-02-22 三星电子株式会社 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
US10504532B2 (en) 2014-05-07 2019-12-10 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
CN107424621B (zh) 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN106033982B (zh) * 2015-03-13 2018-10-12 中国移动通信集团公司 一种实现超宽带语音互通的方法、装置和终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003065353A1 (en) * 2002-01-30 2003-08-07 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
CN1471236A (zh) * 2003-07-01 2004-01-28 北京阜国数字技术有限公司 用于感知音频编码的信号自适应多分辨率滤波器组

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074242A (zh) * 2010-12-27 2011-05-25 武汉大学 语音音频混合分级编码中核心层残差提取系统及方法
CN102103859A (zh) * 2011-01-11 2011-06-22 东南大学 一种数字音频编码、解码方法及装置
CN102103859B (zh) * 2011-01-11 2012-04-11 东南大学 一种数字音频编码、解码方法及装置
CN103198834A (zh) * 2012-01-04 2013-07-10 中国移动通信集团公司 一种音频信号处理方法、装置及终端
WO2013102403A1 (zh) * 2012-01-04 2013-07-11 中国移动通信集团公司 一种音频信号处理方法、装置及终端
CN103198834B (zh) * 2012-01-04 2016-12-14 中国移动通信集团公司 一种音频信号处理方法、装置及终端
CN106463134A (zh) * 2014-03-28 2017-02-22 三星电子株式会社 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
CN106463134B (zh) * 2014-03-28 2019-12-13 三星电子株式会社 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
US10515646B2 (en) 2014-03-28 2019-12-24 Samsung Electronics Co., Ltd. Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
US11450329B2 (en) 2014-03-28 2022-09-20 Samsung Electronics Co., Ltd. Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
US10504532B2 (en) 2014-05-07 2019-12-10 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
US11238878B2 (en) 2014-05-07 2022-02-01 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
US11922960B2 (en) 2014-05-07 2024-03-05 Samsung Electronics Co., Ltd. Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same

Also Published As

Publication number Publication date
EP2139000B1 (en) 2011-05-25
CN101615393B (zh) 2013-01-02
EP2139000A1 (en) 2009-12-30

Similar Documents

Publication Publication Date Title
CN101615393B (zh) 对语音和/或非语音音频输入信号编码或解码的方法和设备
CN102177426B (zh) 多分辨率切换音频编码/解码方案
CA2730355C (en) Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
CN102089811B (zh) 用于编码和解码音频样本的音频编码器和解码器
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
JP5520967B2 (ja) 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
CN101527138B (zh) 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
CN101878504A (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
CN101371296B (zh) 用于编码和解码信号的设备和方法
KR20080097178A (ko) 부호화/복호화 장치 및 방법
KR20110043592A (ko) 샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더
KR20070012194A (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
KR20100086031A (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
CN103531203A (zh) 编码和解码语音与音频统合信号的方法
KR20110055515A (ko) 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법
KR102105305B1 (ko) 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
JP5969614B2 (ja) 音声信号符号化方法及び音声信号復号方法
Mathew et al. Modified MP3 encoder using complex modified cosine transform
Jung et al. A bit-rate/bandwidth scalable speech coder based on ITU-T G. 723.1 standard
Tsujino et al. Low-complexity bandwidth extension in MDCT domain for low-bitrate speech coding
Murodjonovich PRESERVING QUALITY WHILE COMPRESSING THE VOLUME OF AUDIO AND VIDEO DATA
Hong et al. Enhancement of super-wideband coder by considering audio feature in MDCT domain

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20160619

CF01 Termination of patent right due to non-payment of annual fee