CN104718570A - 帧丢失恢复方法,和音频解码方法以及使用其的设备 - Google Patents
帧丢失恢复方法,和音频解码方法以及使用其的设备 Download PDFInfo
- Publication number
- CN104718570A CN104718570A CN201380053376.2A CN201380053376A CN104718570A CN 104718570 A CN104718570 A CN 104718570A CN 201380053376 A CN201380053376 A CN 201380053376A CN 104718570 A CN104718570 A CN 104718570A
- Authority
- CN
- China
- Prior art keywords
- frame
- conversion coefficient
- attenuation constant
- band
- previous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000006243 chemical reaction Methods 0.000 claims abstract description 150
- 238000011084 recovery Methods 0.000 claims description 44
- 239000000872 buffer Substances 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 9
- 238000009795 derivation Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 abstract description 12
- 230000001939 inductive effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000005070 sampling Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及帧丢失恢复方法、音频解码方法和使用该方法的装置。一种根据本发明恢复音频信号的帧丢失的方法,包括:在当前帧的先前帧之中将至少一个帧的变换系数分组为预先确定数目的带;根据带的音调推导出衰减常数;以及通过将衰减常数应用于当前帧的先前帧,恢复当前帧的变换系数。
Description
技术领域
本发明涉及音频信号的编码和解码,尤其是,涉及在音频信号的解码过程中用于恢复丢失的方法和装置。
更具体地,本发明涉及用于来自语音和音频编码器的比特流在数字通信环境下丢失情形的恢复方法,和使用该方法的装置。
背景技术
通常,音频信号包括各种频带的信号。人类听得到的频率是在20Hz至20kHz的范围内,而通常人类语音是在200Hz至3kHz的频率范围内。可能存在输入音频信号不仅包括其中存在人类语音的带,而且包括人类语音很难存在的大于或等于7kHz的高频带分量的情形。
近来,随着网络发展和用户需求对于高质量服务的增长,音频信号经由各种带,诸如窄带(NB)、宽带(WB)和超宽带(SWB)发送。
在这点上,如果可应用于NB(具有大约8kHz的采样率)的编码方案应用于WB(具有大约16kHz的采样率)的信号,则存在声音质量劣化的问题。
此外,如果可应用于NB(具有大约8kHz的采样率)的编码方案,或者可应用于WB(具有大约16kHz的采样率)的编码方案应用于SWB(具有大约32kHz的采样率)的信号,则存在声音质量劣化的问题。
因此,存在对于语音和音频编码器/解码器正在进行的开发,其可以在包括相对于从NB到WB或者SWB的各种带范围或者在各种带之间的通信环境的各种环境下使用。
同时,信息丢失可能在编码语音信号的操作或者发送编码信息的操作中发生。在这种情况下,在解码操作中,可以执行用于恢复或者隐藏丢失信息的过程。如上所述,如果在使用对于每个带优化的编码/解码方法的情形下丢失发生在SWB信号中,则需要通过使用除处理WB丢失的方法以外的不同的方法恢复或者隐藏该丢失。
发明内容
本发明提供用于恢复丢失的当前帧的修改的离散余弦变换(MDCT)系数的方法和装置。
本发明还提供用于对每个带自适应地获得缩放系数(衰减常数)以经由在当前帧的先前的好帧之间的相关性恢复当前帧的MDCT系数的方法和装置,作为没有附加的延迟的丢失恢复方法。
本发明还提供用于通过不仅使用丢失的当前帧的紧接着先前的帧,而且使用当前帧的多个先前的好帧自适应地计算衰减常数的方法和装置。
本发明还提供用于通过考虑每带(pre-band)特征应用衰减常数的方法和装置。
本发明还提供用于基于当前帧的特定数目的先前的好帧,根据每带音调推导出衰减常数的方法和装置。
本发明还提供用于通过考虑丢失的当前帧的先前的好帧的变换系数特征恢复当前帧的方法和装置。
本发明还提供用于以下述方式有效地恢复信号的方法和装置,即,如果存在连续的帧丢失,则推导为应用于单个帧丢失的衰减常数,和/或推导为应用于连续的帧丢失的衰减常数被应用于先前帧的恢复的变换系数,而不是在先前衰减的前提之下简单地执行帧恢复。
根据本发明的一个方面,一种恢复音频信号的帧丢失的方法,包括:在当前帧的先前帧之中将至少一个帧的变换系数分组为预先确定数目的带;根据带的音调推导衰减常数;以及通过将衰减常数应用于当前帧的先前帧,恢复当前帧的变换系数。
根据本发明的另一个方面,一种音频解码方法,包括:确定是否在当前帧中存在丢失;如果当前帧丢失,则基于当前帧的先前帧的变换系数恢复当前帧的变换系数;以及反变换恢复的变换系数,其中在变换系数的恢复中,基于在先前帧之中的至少一个帧的变换系数的每带音调恢复当前帧的变换系数。
根据本发明,通过不仅使用丢失的当前帧的紧接着先前的帧,而且使用当前帧的多个先前的好帧,自适应地计算衰减常数。因此,可以显著地提高恢复效果。
根据本发明,通过考虑每带特征应用衰减常数。因此,可以获得考虑每带特征的恢复效果。
根据本发明,可以基于当前帧的特定数目的先前的好帧,取决于每带音调推导衰减常数。因此,可以通过考虑带特征自适应地应用衰减常数。
根据本发明,可以通过考虑丢失的当前帧的先前的好帧的变换系数特征恢复当前帧。因此,可以改善恢复性能。
根据本发明,即使存在连续的帧丢失,推导为应用于单个帧丢失的衰减常数和/或推导为应用于连续的帧丢失的衰减常数应用于先前帧的恢复的变换系数,而不是在先前衰减的前提之下简单地执行帧恢复。因此,信号可以被更加有效地恢复。
附图说明
图1是示出当使用带扩展方法处理SWB信号的时候可以使用的编码器结构示例的示意图。
图2是示出当使用带扩展方法处理SWB信号的时候可以使用的解码器结构示例的示意图。
图3是用于简要地解释当包含音频信息的比特流在通信环境下丢失的时候可以应用的解码器示例的方框图。
图4是用于简要地解释根据本发明应用于隐藏帧丢失的解码器示例的方框图。
图5是用于简要地解释根据本发明的帧丢失隐藏单元示例的方框图。
图6是用于简要地解释根据本发明在解码器中隐藏/恢复帧丢失方法示例的流程图。
图7是用于简要地解释根据本发明推导相关性操作的示意图。
图8是用于简要地解释根据本发明在解码器中隐藏/恢复帧丢失方法示例的流程图。
图9是用于简要地解释根据本发明的恢复(隐藏)帧丢失方法示例的流程图。
图10是用于简要地解释根据本发明的音频解码方法示例的流程图。
具体实施方式
在下文中,将参考附图详细描述本发明示范的实施例。在本发明示范的实施例的以下的描述中,公知的功能或者结构可以不必描述,由于它们将使本发明在细节方面难以理解。
当构成元件提及为“连接”或者“接入”另一个构成元件的时候,这可以指的是其直接连接到或者接入另一个构成元件,但是,应该理解,可以存在插入的构成元件。
应该理解,虽然术语“第一”和“第二”在此处使用来描述各种元件,这些元件不应该受这些术语限制。这些术语仅仅用于区别一个元件与另一个元件。
为了表示特定的单独的功能的目的,根据本发明的实施例的构成元件被独立地图示,并且这不意味着相应的构成元件由单独的硬件构成元件或者一个软件构成元件构成。为了解释方便起见,构成元件被分开地布置,并且因此,该功能可以通过组合构成元件的至少两个为一个构成元件,或者通过将一个构成元件划分为多个构成元件来执行。
为了应付网络开发和对高质量服务的需要,正在关于从窄带(NB)到宽带(WB)或者超宽带(SWB)的各种带范围研究处理音频信号的方法。例如,作为语音和音频编码/解码技术,可以使用码激励线性预测(CELP)模式、正弦模式等等。
编码器可以被分成基线编码器和增强层。该增强层可以被分成低带增强(LBE)层、带宽扩展(BWE)层,和高带增强(HBE)层。
LBE层对激励信号执行编码/解码,从而改善低带的声音质量,该激励信号是表示在以核心编码器/核心解码器处理的声音和原始声音之间的差异的信号。由于相对于低带信号高带信号具有相似性,所以通过使用低带扩展高带的方法可用于以低比特率恢复高带信号。
作为通过扩展信号经由编码和解码恢复高带信号的方法,能够考虑通过执行可分级扩展处理SWB信号的方法。用于SWB信号的带扩展方法可以在修改的离散余弦变换(MDCT)域中操作。
扩展层可以在通用模式和正弦模式下以划分的方式处理。例如,在使用三个扩展模式的情况下,第一扩展层可以以通用模式和正弦模式处理,并且第二和第三扩展层可以以正弦模式处理。
在本说明书中,正弦包括通过相移正弦波半个波长获得的正弦波和余弦波。因此,在本发明中,正弦可以暗指正弦波,或者可以暗指余弦波。如果输入正弦是余弦波,则其可以在编码/解码过程中被变换成正弦波或者余弦波,并且这种变换遵循应用于输入信号的变换方法。即使输入正弦是正弦波,其也可以在编码/解码过程中被变换成余弦波或者正弦波,并且这种变换遵循应用于输入信号的变换方法。
在通用模式中,编码是基于编码的宽带信号的子带的自适应复制实现的。在正弦模式的编码中,正弦被增加给高频内容。
在正弦模式中,作为对于具有强的周期信号或者具有单音分量的信号的有效的编码方案,符号、幅度和位置信息可以对于每个正弦分量编码。特定数目(例如,10个)的MDCT系数可以对于每个层编码。
图1是示出当使用带扩展方法处理SWB信号的时候可以使用的编码器结构示例的示意图。在图1中,例如,描述正弦模式应用于的G.718附录B可分级扩展的编码器的结构。
对于SWB扩展,图1的编码器具有通用模式和正弦模式。当分配附加比特的时候,正弦模式可以以扩展方式使用。
参考图1,编码器100包括下采样单元105、WB核心110、变换单元115、音调估算单元120和SWB编码器150。SWB编码器150包括音调确定单元125、通用模式单元130、正弦模式单元135和附加正弦单元140和145。
当输入SWB信号的时候,下采样单元105对输入信号执行下采样以产生可以由核心编码器处理的WB信号。
SWB编码在MDCT域中执行。WB核心110对通过编码WB信号合成的WB信号执行MDCT,并且输出MDCT系数。
在MDCT中,时域信号被变换为频域信号。通过使用重叠相加方案,原始信号可以被完美地重建为变换之前的信号。公式1示出MDCT的示例。
<公式1>
是经历加窗的时域输入信号,并且w是对称窗函数。αr是N个MDCT系数。是具有2N个采样的恢复的时域输入信号。
变换单元115对SWB信号执行MDCT。音调估算单元120估算MDCT变换的信号的音调。将使用在通用模式和正弦模式之间的哪个模式可以基于音调确定。
音调估算可以基于在当前帧和过去帧中的频谱峰值之间的相关分析执行。音调估算单元120将音调估算值输出给音调确定单元125。
基于该音调,音调确定单元125确定是否MDCT变换的信号是调性的,并且将确定结果传送给通用模式单元130和正弦模式单元135。例如,音调确定单元125可以将从音调估算单元120输入的音调估算值与特定的参考值比较,以确定是否MDCT变换的信号是调性信号或者无调性信号。
如图示的,SWB编码器150处理MDCT变换的SWB信号的MDCT系数。在这种情况下,SWB编码器150可以通过使用经由核心编码器110输入的合成WB信号的MDCT系数处理SWB信号的MDCT系数。
如果由音调确定单元125确定MDCT变换的信号是无调性的,则该信号被传送给通用模式单元130。如果其确定信号是调性的,则该信号被传送给正弦模式单元135。
当确定输入帧是无调性的时候可以使用通用模式。通用模式单元130可以将低频频谱直接运送到高频,并且可以将其参数化以遵循原始高频包络。在这种情况下,参数化可以比原始高频情形更粗糙地实现。通过应用通用模式,高频内容可以以低的比特率编码。
例如,在通用模式中,高频带被分成子带,并且根据特定的相似性确定准则,在编码和包络标准化的WB内容之中选择最类似匹配的内容。选择的内容经历调度,并且此后被作为合成的高频内容输出。
当输入帧是调性的时候可以使用正弦模式单元135。在正弦模式中,正弦分量的有限集被增加给高频(HF)频谱以产生SWB信号。在这种情况下,通过使用SWB合成信号的MDCT系数产生HF频谱。
当分配附加比特的时候,附加的正弦单元140和145可用于以扩展方式应用正弦模式。
附加的正弦单元140和145通过对以通用模式输出的信号和以正弦模式输出的信号增加附加的正弦改善产生的信号。例如,当分配附加比特的时候,附加的正弦单元140和145通过扩展正弦模式来改善信号,其中要发送的附加的正弦(脉冲)被确定和量化。
同时,如图示的,核心编码器110、音调确定单元125、通用模式单元135、正弦模式单元140、附加的正弦单元145和150的输出可以作为比特流发送给解码器。
图2是示出当使用带扩展方法处理SWB信号的时候可以使用的解码器结构示例的示意图。在图2中,G.718附录B SWB可分级扩展的解码器被作为一个在SWB信号的带扩展中使用的解码器的示例描述。
参考图2,解码器200包括WB解码器205、SWB解码器235、反变换单元240和加法器245。SWB解码器235包括音调确定单元210、通用模式单元215、正弦模式单元225、附加的正弦单元220和230。
通常,如果根据比特流的分析信息输入好帧(正常帧),则SWB信号被经由SWB解码器235合成。
通过使用在WB解码器205中的SWB参数合成帧的WB信号。
在解码器200中输出的最终的SWB信号是从WB解码器205输出的WB信号和经由SWB解码器235和反变换单元240输出的信号的总和。
更具体地说,在WB解码器205和SWB解码器235中,要处理的目标信息和/或用于处理的辅助信息可以从比特流输入。
WB解码器205解码WB信号以合成WB信号。合成的WB信号的MDCT系数可以输入给SWB解码器235。
SWB解码器235解码从比特流输入的SWB信号的MDCT。在这种情况下,可以使用从WB解码器205输入的合成的WB信号的MDCT系数。SWB信号的解码主要在MDCT域中执行。
音调确定单元210可以确定是否MDCT变换的信号是调性信号或者无调性信号。如果MDCT变换的信号被确定为调性,则SWB扩展的信号在通用模式单元215中合成,并且如果其确定为无调性,则SWB扩展的信号(MDCT系数)可以通过在正弦模式单元225中使用正弦波信息合成。通用模式单元215和正弦模式单元225解码扩展层的第一层。高层可以在附加的正弦单元235和230中通过使用一个附加比特解码。例如,作为层7或者层8,可以通过使用附加的正弦模式的正弦波信息位合成MDCT系数。
合成的MDCT系数可以在反变换单元240中被反变换,从而产生SWB扩展的合成信号。在这种情况下,根据附加的正弦块的层信息执行合成。
加法器245可以通过将从WB解码器205输出的WB信号和从反变换单元240输出的SWB扩展的合成信号相加来输出SWB信号。
同时,如果在传递编码的音频信息给解码器的过程中出现丢失,则丢失可以经由前向纠错(FEC)恢复或者隐藏。
如果在发送信息的过程中出现错误,则在FEC的情况下该错误可以被校正或者丢失可以被补偿/隐藏,不同于通过在接收侧示意是否接收到信息,从发送侧重发信息的自动重复请求(ARQ)。
更具体地说,在FEC的情况下,能够校正错误或者补偿/隐藏丢失的信息(用于错误/丢失校正的信息)可以包括在从发送侧(编码器)发送的数据或者存储在存储介质中的数据中。在接收侧(解码器)中,发送的数据或者存储的数据的错误/丢失可以通过使用用于错误/丢失校正的信息恢复。在这种情况下,先前的好帧(正常帧)的参数、MDCT系数、编码/解码的信号等等可以用作供错误/丢失校正的信息。
如参考图1描述的,SWB比特流可以由WB信号和SWB扩展信号的比特流组成。由于WB信号的比特流和SWB扩展信号的比特流由一个分组组成,所以如果音频信号的一个帧丢失,则WB信号的一位和SWB扩展信号的一位都丢失。
在这种情况下,FEC解码器可以通过应用FEC分别输出WB信号和SWB扩展信号,类似于对于好帧(正常帧)的解码操作,并且此后,通过将WB信号和SWB扩展信号相加可以输出用于丢失帧的SWB信号。
如果当前帧丢失,则FEC解码器可以通过使用当前帧的先前的好帧的调性信息和合成的MDCT系数,合成用于丢失的当前帧的MDCT系数。通过反变换合成的MDCT系数,FEC解码器可以输出SWB扩展信号,并且通过将SWB扩展信号和WB信号相加,可以解码用于丢失的当前帧的SWB信号。
图3是用于简要地解释当包含音频信息的比特流在通信环境下丢失的时候可以应用的解码器示例的方框图。更具体地说,能够解码丢失的帧的解码器的示例在图3中示出。
在图3中,G.718附录B SWB可分级扩展的FEC解码器作为一个可以应用于丢失的帧的解码器的示例描述。
参考图3,FEC解码器300包括WB FEC解码器305、SWB FEC解码器330、反变换单元335和加法器340。
WB FEC解码器305可以解码比特流的WB信号。WB FEC解码器305可以通过将FEC应用于丢失的WB信号(WB信号的MDCT系数)执行解码。在这种情况下,WB FEC解码器305可以通过使用丢失的当前帧的先前帧(好帧)的信息恢复当前帧的MDCT系数。
SWB FEC解码器330可以解码比特流的SWB扩展信号。SWB FEC解码器330可以通过将FEC应用于丢失的SWB扩展信号(SWB扩展信号的MDCT系数)执行解码。SWB FEC解码器330可以包括音调确定单元310和复制单元315、320和325。
音调确定单元310可以确定是否SWB扩展信号是调性的。
确定为调性的SWB扩展信号(调性SWB扩展信号)和确定为无调性的SWB扩展信号(无调性SWB扩展信号)可以经由不同的过程恢复。例如,调性SWB扩展信号可以经历复制单元315,并且无调性SWB扩展信号可以经历复制单元320,并且此后两个信号可以被相加,然后经由复制单元325恢复。
在这种情况下,应用于调性SWB扩展信号的缩放因子和应用于无调性SWB扩展信号的缩放因子具有不同的值。此外,应用于通过相加调性SWB扩展信号和无调性SWB扩展信号获得的SWB扩展信号的缩放因子可以不同于应用于调性分量的缩放因子和应用于无调性分量的缩放因子。
更具体地说,为了恢复SWB扩展信号,SWB FEC解码器330可以恢复IMDCT目标信号(SWB扩展信号的MDCT系数),以便在反变换单元335中执行反变换(IMDCT)。SWB FEC解码器330可以根据丢失帧(当前帧)的先前的好帧(正常帧)的模式应用缩放系数,以便好帧的信号(MDCT系数)被线性地衰减,从而能够恢复用于丢失的帧的SWB信号的MDCT系数。
在这种情况下,通过关于连续的帧丢失保持线性衰减,即便连续的帧丢失,丢失信号也可以被恢复。
根据是否恢复目标信号是通用模式的信号或者正弦模式的信号(是否其是调性信号或者无调性信号),可以应用不同的缩放系数。例如,缩放因子βFEC可以应用于通用模式,并且缩放因子βFEC,sin可以应用于正弦模式。
例如,如果当前帧丢失,则先前帧(其是好帧)是通用模式,并且层存在直到层7,然后可以设置βFEC=0.5和βFEC,sin=0.6作为用于恢复当前帧(丢失帧)的缩放因子。在这种情况下,当前帧(丢失帧)的MDCT系数可以如公式2所示恢复。
<公式2>
在公式2中,和是合成的MDCT系数,并且表示在SWB带的频率k处当前帧的MDCT系数的幅值。表示在先前帧中的合成的MDCT系数的幅值,并且表示在SWB带的频率k处先前帧的MDCT系数的幅值。posFEC(n)表示在通过应用FEC恢复的信号中对应于波数n的位置。nFEC表示通过应用FEC恢复的MDCT系数的数目。
此外,如果当前帧丢失,则先前帧,其是好帧(正常帧),处于正弦模式之中,并且层存在直到层7,然后,可以设置βFEC=0和βFEC,sin=0.8作为用于恢复当前帧(丢失帧)的缩放因子。在这种情况下,当前帧(丢失帧)的MDCT系数可以如公式3所示恢复。
<公式3>
通过概括公式2和公式3,用于丢失帧的SWB扩展信号的MDCT系数可以如公式4所示恢复。
<公式4>
同时,在前面提到的FEC方法中,如果当前帧丢失,则在在MDCT系数被线性地衰减的假设之下,通过仅仅使用先前帧(过去帧)的MDCT系数恢复丢失信号。在应用这种方法的情况下,如果在信号的能量逐渐衰减的持续时间中出现丢失,则信号可以被有效地恢复。但是,如果信号的能量提高或者信号处于正常状态之中(能量的幅值保持在特定范围内的状态),则发生声音质量失真。
此外,前面提到的FEC方法在丢失帧具有在好帧(正常帧)期间一个或者二个帧被丢失的小的丢失率的通信环境下可以表现出良好性能。与此不同,如果连续的帧丢失(如果丢失经常发生),或者丢失发生的持续时间很长,则声音质量损失在恢复的信号中可以显著地发生。
通过考虑前面提到的方面,本发明可以通过不仅使用在当前帧(丢失帧)的先前的好帧之中的一个帧的变换系数(MDCT系数),而且使用在当前帧的先前的好帧中的变化程度,自适应地应用缩放因子。
此外,代替如上所述的将相同的缩放因子应用于SWB扩展带,本发明可以考虑MDCT特征对于每个带不同。例如,通过考虑当前帧(丢失帧)的先前的好帧的变化程度,本发明可以修改用于每个带的缩放因子。因此,在用于每个带的缩放因子中可以考虑MDCT系数的变化。
应用本发明的方法可以简要地划分为如下所述的(1)和(2)。
(1)如果单个帧丢失。–由于本发明还应用于时间轴信号被变换成另一个轴(例如,频率轴)信号,诸如MDCT或者快速傅里叶变换(FFT)的情形,所以在上SWB侧中的帧丢失可以在图2或者图3示出的G.718的SWB解码器结构中被有效地恢复或者隐藏。
当单个帧丢失的时候,隐藏帧丢失的方法可以大致地包括如下的三个步骤(i)至(iii):(i)确定是否接收的帧丢失;(ii)如果接收的帧丢失,则从用于先前的好帧的变换系数恢复用于丢失帧的变换系数;和(iii)反变换恢复的变换系数。
例如,在确认帧丢失的情形下,在恢复变换系数的步骤中,如果第n个帧丢失,则用于第n个帧的变换系数可以从作为用于先前帧(第(n-1)个帧、第(n-2)个帧、第(n-N)个帧)的变换系数存储的变换系数中恢复。在此处,N表示在丢失隐藏过程中使用的帧的数目。接下来,可以通过对用于恢复的第n个帧的变换系数(MDCT系数)执行反变换(IMDCT)隐藏帧丢失。
在这种情况下,在恢复变换系数的步骤中,衰减常数(缩放因子)可以对于每个带变化。此外,估算是否存在好帧(无损的帧)的调性分量,并且衰减常数可以取决于调性分量的存在/不存在而变化。
例如,在具有强的调性分量的带的情况下,可以通过使用在先前帧中的正弦脉冲的相关信息(MDCT系数)推导出用于恢复丢失帧的变换系数的衰减分量。在没有或者弱的调性分量的带的情况下,可以通过估算用于先前的好帧(正常帧)的变换系数(MDCT系数)的能量信息推导出用于恢复丢失帧的变换系数的衰减常数。
对于帧连续地丢失的情形,恢复的变换系数、每个带的调性分量和衰减常数可以存储用于丢失恢复(隐藏)。
(2)如果连续的帧丢失。–当连续的帧丢失的时候,隐藏丢失的方法可以大致地包括如下的两个步骤(a)和(b):(a)关于接收的帧确定是否连续的帧丢失;和(b)如果连续的帧丢失,则通过使用先前的好帧(无损的帧)的变换系数,关于连续丢失的帧恢复激励信号(MDCT系数)。
即使连续的帧丢失,要应用于每个带的附加的衰减常数(缩放因子)可以根据用于每个带的调性分量的存在/不存在,或者调性分量的强/弱而变化。
图4是用于简要地解释根据本发明应用于隐藏帧丢失的解码器示例的方框图。
参考图4,解码器400包括用于WB信号的帧丢失确定单元405,用于WB信号的帧丢失隐藏单元410,用于WB信号的解码器415,用于SWB信号的帧丢失确定单元420,用于SWB信号的解码器425,用于SWB信号的帧丢失隐藏单元430,帧备份单元435,反变换单元440,和加法器445。
帧丢失确定单元405确定是否存在用于WB信号的帧丢失。帧丢失确定单元420确定是否存在用于SWB信号的帧丢失。帧丢失确定单元405和420可以确定是否在单个帧或者连续的帧中出现丢失。
虽然用于WB信号的帧丢失确定单元405和用于SWB信号的帧丢失确定单元420在此处被描述为单独的操作单元,但本发明不受限于此。例如,解码器400可以包括一个帧丢失单元,并且帧丢失单元可以确定用于WB信号的帧丢失和用于SWB信号的帧丢失两者。做为选择,由于预计当帧丢失出现的时候,WB信号和SWB信号两者都丢失,所以可以确定用于WB信号的帧丢失,并且此后,确定结果可以应用于SWB信号,或者可以确定用于SWB信号的帧丢失,并且此后,确定结果可以应用于WB信号。
关于被确定为具有丢失的WB信号的帧,帧丢失隐藏单元410隐藏帧丢失。帧丢失隐藏单元410可以基于先前的好帧(正常帧)信息恢复丢失出现的帧(当前帧)的信息。
关于被确定为不具有丢失的WB信号的帧,WB解码器415可以执行WB信号的解码。
对于WB信号解码或者恢复的信号可以传递给用于SWB信号的解码或者恢复的SWB解码器425。此外,对于WB信号解码或者恢复的信号可以传递给加法器445,从而用于合成SWB信号。
同时,关于被确定为不具有丢失的SWB信号的帧,SWB解码器425可以执行SWB扩展信号的解码。在这种情况下,SWB解码器425可以通过使用解码的WB信号解码SWB扩展信号。
关于被确定为具有丢失的SWB信号,SWB帧丢失隐藏单元430可以恢复或者隐藏帧丢失。
如果在单个帧中存在丢失,则通过使用存储在帧备份单元435中的先前的好帧的变换系数,SWB帧丢失隐藏单元430可以恢复当前帧的变换系数。如果在连续的帧中存在丢失,则通过使用用于不仅先前恢复的丢失帧的变换系数和好帧(正常帧)的变换系数而且先前丢失帧的变换系数恢复的信息(例如,每带调性分量、每带衰减常数信息等等),SWB帧丢失隐藏单元430可以存储用于当前帧(丢失帧)的变换系数。
在SWB丢失隐藏单元430中恢复的变换系数(MDCT系数)可以在反变换单元440中经历反变换(IMDCT)。
帧备份单元435可以存储当前帧的变换系数(MDCT系数)。帧备份单元435可以删除先前存储的变换系数(先前帧的变换系数),并且可以存储用于当前帧的变换系数。当在下一个帧中存在丢失的时候,用于当前帧的变换系数可用于隐藏该丢失。
与此不同,帧备份单元435可以具有N个缓存器(这里N是整数),并且可以存储帧的变换系数。在这种情况下,包括在缓存器中的帧可以是好帧(正常帧)和从丢失恢复的帧。
例如,帧备份单元435可以删除存储在第N个缓存器中的变换系数,并且可以将存储在每个缓存器中帧的变换系数逐个地移动到下一个缓存器,并且此后将用于当前帧的变换系数存储进第一缓存器。在这种情况下,缓存器的数目N可以通过考虑解码器性能、音频质量等等确定。
反变换单元440可以通过反变换在解码器425中解码的变换系数和在SWB帧丢失隐藏单元430中恢复的变换系数来产生SWB扩展信号。
加法器445可以相加WB信号和SWB扩展信号以输出SWB信号。
图5是用于简要地解释根据本发明的帧丢失隐藏单元示例的方框图。在图5中,例如描述对于单个帧丢失的情形的帧丢失隐藏单元。
如上所述,当单个帧丢失的时候,通过使用关于存储在帧备份单元中的先前的好帧(正常帧)的变换系数的信息,帧丢失隐藏单元可以恢复丢失帧的变换系数。
参考图5,帧丢失隐藏单元500包括带分割单元505、调性分量存在确定单元510、相关性计算单元515、衰减常数计算单元520、能量计算单元525、能量预测单元530、衰减常数计算单元535,和丢失帧变换系数恢复单元540。
在根据本发明的帧丢失隐藏/恢复中,可以通过考虑每带MDCT系数的特征恢复MDCT系数。更具体地说,在帧丢失/隐藏中,可以通过应用对于每个带不同的变化率(衰减常数)恢复用于丢失帧的MDCT系数。
因此,在帧丢失隐藏单元500中,带分割单元505对存储在缓存器中的先前的好帧(正常帧)的变换系数执行分组为M个带(M个组)。当执行分组的时候,带分割单元505允许连续的变换系数属于一个带,从而获得对于每个频带分解好帧的变换系数的结果。例如,M个组对应于M个带。
通过使用存储在N个缓存器(第一至第N个缓存器)中的变换系数,调性分量存在确定单元510分析在对数域中的频谱峰值的能量相关,从而能够计算用于每个带的变换系数的音调。也就是说,调性分量存在确定单元510计算用于每个带的音调,从而能够确定用于每个带的调性分量的存在。例如,如果丢失帧是第n个帧,则可以通过使用存储在N个缓存器中先前帧(第(n-1)个帧至第(n-N)个帧)的变换系数推导出用于第n个帧(丢失帧)的M个带的音调。
根据确定用于每个带的丢失帧音调的结果,可以通过使用经由相关性计算单元515和衰减常数计算单元520推导出的衰减常数恢复具有许多调性分量的带。
根据确定用于每个带的丢失帧音调的结果,可以通过使用经由能量计算单元525、能量预测单元530和衰减常数计算单元535推导出的衰减常数恢复没有或者有小的调性分量的带。
更具体地说,用于无损帧的变换系数的相关性计算单元515可以计算用于在调性分量存在确定单元510中被确定为调性的带(例如,第M个带)的相关性。也就是说,在确定为具有调性分量的带中,相关性计算单元515测量在作为第n个帧的当前帧(丢失帧)的先前的连续的好帧(第(n-1)个帧、…、第(n-N)个帧)的脉冲之间位置的相关性,从而能够确定该相关性。
关于在连续的好帧中具有强相关性的帧,在脉冲(MDCT系数)的位置位于距重要的MDCT系数或者大的MDCT系数±L的范围的前提下,可以执行相关性确定。
衰减常数计算单元520可以基于在相关性计算单元515中计算的相关性,自适应地计算用于具有许多调性分量的带的衰减常数。
同时,用于无损帧的帧的能量计算单元525可以计算用于没有或者有小的调性分量的带的能量。能量计算单元525可以计算用于当前帧(丢失帧)的先前的好帧的每带能量。例如,如果当前帧(丢失帧)是第n个帧,并且有关N个先前帧的信息被存储在N个缓存器中,则能量计算单元525可以从第(n-1)个帧到第(n-N)个帧计算用于帧的每带能量。在这种情况下,其中能量被计算的带可以是属于由调性分量存在确定单元510确定为没有或者有小的调性分量带的带。
能量预测单元606可以基于从能量计算单元525对于每个帧计算的每带能量,通过线性预测当前帧(丢失帧)的能量执行估算。
衰减常数计算单元535可以基于在能量预测单元530中计算的能量的预测值,推导出用于没有或者有小的调性分量的带的衰减常数。
换句话说,作为具有许多调性分量的带,衰减常数计算单元520可以基于在相关性计算单元515中计算的无损帧的变换系数之间的相关性,推导出衰减常数。此外,关于没有或者有小的调性分量的带,能量预测单元530可以基于在能量预测单元530中预测的当前帧(丢失帧)的能量和先前的好帧的能量之间的比率,推导出衰减常数。例如,如果当前帧(丢失帧)是第n个帧,则在作为第n个帧的能量预测的值和第(n-1)个帧的能量之间的比率(第(n-1)个帧的能量/第n个帧的能量预测值)可以推导为要应用于第n个帧的衰减常数。
用于丢失帧的变换系数恢复单元540可以通过使用在衰减常数计算单元520和535中计算的衰减常数(缩放因子)和当前帧的先前的好帧的变换系数,恢复当前帧(丢失帧)的变换系数。
参考附图更加详细地描述在图5的帧丢失隐藏单元中执行的操作。
图6是用于简要地解释根据本发明在解码器中隐藏/恢复帧丢失方法示例的流程图。在图6中,例如描述当单个帧被丢失的时候应用的帧丢失隐藏方法。图6的操作可以在音频信号解码器或者在解码器的特定的操作单元中执行。例如,参考图5的描述,图6的操作也可以在图5的帧丢失隐藏单元中执行。但是,为了解释方便起见,在此处描述解码器执行图6的操作。
参考图6,解码器接收包括音频信号的帧(步骤S600)。解码器确定是否存在帧丢失(步骤S650)。
如果接收的帧被确定为好帧,则可以由SWB解码器执行SWB解码(步骤S650)。如果其确定帧丢失存在,则解码器执行帧丢失隐藏。
更具体地说,如果确定存在帧丢失,则解码器从帧备份缓存器取出用于存储的先前好帧的变换系数(步骤S615),并且将它们分解为M个带(这里M是整数)(步骤S610)。带分解与如上所述的相同。
解码器确定是否存在无损帧(好帧)的调性分量(步骤S620)。例如,如果当前帧(丢失帧)是第n个帧,则通过使用分组为当前帧的先前帧的第(n-1)个帧、第(n-2)个帧、…、第(n-N)个帧的M个带的变换系数,可以确定每个带存在多少调性分量。在这种情况下,N是用于存储先前帧的变换系数的缓存器的数目。如果缓存器的数目是N,则可以存储用于N个帧的变换系数。
可以通过使用好帧(第(n-1)个帧、第(n-2)个帧、…、第(n-N)个帧)的每带变换系数,基于在对数轴中频谱相似性确定音调。例如,在将变换系数分组为三个带(M=3)的情况下,当前帧的先前的好帧的变换系数被划分为3个带,并且音调可以对于每个带变化。例如,可以确定第一带具有调性分量,第二带不具有调性分量,并且第三带具有调性分量。
因而,音调可以对于每个带不同地确定,并且每带衰减常数可以根据音调通过使用不同的方法推导出。
例如,如果确定存在许多调性分量,则计算在无损帧(好帧)的变换系数之间的相关性(步骤S625),并且可以基于计算的相关性计算衰减常数(步骤S630)。
更具体地说,解码器可以通过使用对在帧备份缓存器中存储的变换系数(MDCT系数)执行带分割获得的信号,计算在无损帧(好帧)的变换系数之间的相关性(步骤S625)。相关性计算可以仅仅对于在步骤S620中确定为具有调性分量的带执行。
计算变换系数相关性的步骤(步骤S625)是用于测量在具有强音调的带中具有大的连续性的谐波,并且使用变换系数的正弦脉冲的位置在连续的好帧中没有显著变化的方面。
也就是说,可以通过测量连续的好帧的正弦脉冲的位置相关性对于每个带计算相关性。在这种情况下,具有大的幅值(大的绝对值)的K个变换系数可以被选择为用于计算相关性的正弦脉冲。
每带相关性可以通过使用公式5计算。
<公式5>
在此处,Wm表示用于第m个带的权重。该权重可以被分配使得频带越低,该值越大。因此,可以建立W1≥W2≥W3…的关系。在公式5中,Wm可以具有大于1的值。因此,当信号被对于每个帧增大的时候,也可以应用公式5。
在公式5中,Ni,n-1表示第(n-1)个帧的第i个正弦脉冲,并且Ni,n-2表示第(n-2)个帧的第i个正弦脉冲。
在公式5中,为了解释方便起见,描述仅仅考虑当前帧(丢失帧)的先前的两个好帧(第(n-1)个好帧和第(n-2)个好帧)的情形。
图7是用于简要地解释根据本发明推导相关性操作的示意图。
为了解释方便起见,在图7中,例如描述变换系数被分组为在两个好帧(第(n-1)个帧和第(n-2)个帧)中的三个带的情形。
在图7的示例中假设带1和带2是具有音调的带。在这种情况下,相关可以通过公式5计算。
通过使用公式5,在带1的情况下,由于具有大的幅值的脉冲在第(n-1)个帧和第(n-2)个帧中具有类似的位置,所以计算了大值的相关性。与此不同,在带1的情况下,由于具有大的幅值的脉冲在第(n-1)个帧和第(n-2)个帧中具有不同的位置,所以计算了小值的相关性。
返回到图6,解码器可以基于计算的相关性计算衰减常数(步骤S630)。相关性的最大值小于1,并且因此,解码器可以将每带相关性推导为衰减常数。也就是说,解码器可以将每带相关性作为衰减常数使用。
如在步骤S625和S630中描述的,根据本发明,衰减常数可以基于对于具有音调的带计算的脉冲间相关性自适应地计算。
同时,关于具有小的或者无音调的带,解码器可以计算无损帧(好帧)的变换系数的能量(步骤S635),可以基于计算的能量预测第n个帧(当前帧,丢失帧)的能量(步骤S640),并且可以通过使用丢失帧的预测的能量和好帧的能量计算衰减常数(步骤S645)。
更具体地说,作为具有小的或者无音调的带,解码器可以计算用于当前帧(丢失帧)的先前的好帧的每带能量(步骤S635)。例如,如果当前帧是第n个帧,则可以对于第(n-1)个帧、第(n-2)个帧、…、第(n-N)个帧(这里N是缓存器的数目)计算每带能量。
解码器可以基于好帧的计算的能量预测当前帧(丢失帧)的能量(步骤S640)。例如,可以通过考虑关于先前的好帧的每帧能量变化量预测当前帧的能量。
解码器可以通过使用帧间能量比率计算衰减常数(步骤S645)。例如,解码器可以经由在当前帧(第n个帧)的预测的能量和先前帧(第(n-1)个帧)的能量之间的比率计算衰减常数。如果能量由En,pred表示,并且在当前帧的先前帧中的能量是En-1,则用于具有小的或者无音调的当前帧的带的衰减常数可以是En,pred/En-1。
解码器可以通过使用用于每个带计算的衰减常数恢复当前帧(丢失帧)的变换系数(步骤S660)。解码器可以通过将对于每个带计算的衰减常数乘以当前帧的先前的好帧的变换系数恢复当前帧的变换系数。在这种情况下,由于衰减常数被对于每个带被推导出,所以其乘以在由好帧的变换系数构成的带之中相应对应的带的变换系数。
例如,解码器可以通过将多路复用用于第Kk个带的衰减常数,通过乘以在第(n-1)个帧(这里k和n是整数)的第Kk个带中的变换系数来推导第n个帧(丢失的当前帧)的第Kk个带的变换系数。解码器可以通过多路复用将用于第(n-1)个帧的每个带的相应对应的衰减常数相乘来,恢复用于所有带的第n个帧(当前帧)的变换系数。
解码器可以通过反变换恢复的变换系数和解码的变换系数输出SWB扩展信号(步骤S665)。解码器可以通过反变换(IMDCT)变换系数(MDCT系数)输出SWB扩展信号。解码器可以通过相加SWB扩展信号和WB信号,输出SWB信号。
同时,在步骤S660中恢复的变换系数、表示在步骤S620中确定的调性分量的存在/不存在的信息,和诸如在步骤S630和S645中计算的衰减常数的信息可以存储在帧备份缓存器中(步骤S655)。当帧在以后的时间丢失的时候,存储的变换系数可用于恢复丢失帧的变换系数。例如,如果连续的帧丢失,则解码器可以通过使用存储的恢复信息(在先前帧中恢复的变换系数、关于先前帧的调性分量信息、衰减常数等等),恢复连续的丢失帧。
图8是用于简要地解释根据本发明在解码器中隐藏/恢复帧丢失方法示例的流程图。在图8中,例如描述当连续的帧丢失的时候应用的帧丢失隐藏方法。图8的操作可以在音频信号解码器或者在解码器的特定的操作单元中执行。例如,参考图5的描述,图8的操作也可以在图5的帧丢失隐藏单元中执行。但是,为了解释方便起见,在此处描述解码器执行图8的操作。
参考图8,解码器确定是否存在对于当前帧的帧丢失(步骤S800)。
当存在帧丢失的时候,解码器确定是否在连续的帧中发生丢失(步骤S810)。如果当前帧丢失,则解码器可以通过判断是否先前帧也丢失来确定是否在连续的帧中发生丢失。
如果先前帧是好帧(如果单个帧丢失),则解码器可以顺序地执行带分解步骤(步骤S610)及其在图6中描述的随后的步骤。
如果确定帧丢失也在先前帧中发生,并且因此,确定连续的帧丢失,则解码器可以从帧备份缓存器取出信息(步骤S820),并且可以将其分解为M个带(这里M是整数)(步骤S830)。在步骤S830中执行的带分解也与如上所述的相同。但是,与在步骤830中先前的好帧的变换系数分解为M个带的单个帧丢失情形不同,在先前的好帧中恢复的变换系数被分解为M个带。
解码器确定是否存在先前帧(恢复的帧)的调性分量(步骤S840)。例如,如果当前帧(丢失帧)是第n个帧,则解码器可以通过使用作为当前帧的先前帧第(n-1)个帧(其是丢失帧)的被分组为M个带的变换系数,确定对于每个带存在多少调性分量。
可以通过使用每带变换系数,基于在对数轴中的频谱相似性确定音调。例如,在将变换系数分组为三个带(M=3)的情况下,先前帧的变换系数被划分为3个带,并且音调可以对于每个带变化。例如,可以确定第一带具有调性分量,第二带不具有调性分量,并且第三带具有调性分量。
因而,音调可以对于每个带不同地确定,并且每带衰减常数可以根据音调推导出。
解码器可以通过将附加的衰减元素应用于先前帧的衰减常数,推导出要应用于当前帧的衰减常数(步骤S850)。
更具体地说,如果p个帧连续地丢失(如果帧#p的丢失连续发生),则确定使得用于第一帧丢失的第一衰减常数是λ1,用于第二帧丢失的附加的衰减常数是λ2,…,用于第q帧丢失的附加的衰减常数是λq,…,并且用于第p帧丢失的附加的衰减常数是λp(在此处,p和q是整数,这里q<p)。在这种情况下,应用于在丢失帧之中的第q帧的衰减常数可以从它们的第一衰减常数和/或附加的衰减常数的乘积中推导出。
在这种情况下,大的附加的衰减可以应用于具有强的音调的带,并且小的附加的衰减可以应用于具有弱的音调的带。因此,当带的音调是大的时候,可以提高附加的衰减,并且当带的音调是小的时候,可以降低附加的衰减。
例如,如由公式6表示的,关于第r个帧丢失(这里r是整数),具有强的音调的带的附加的衰减常数,即,λr,强音调,具有大于或等于具有弱的音调的带的附加的衰减常数,即,λr,弱音调的值。
<公式6>
λr,强音调≤λr,强音调
例如,假设三个帧连续地丢失的情形。在此处,在具有强的音调的带的情况下,用于第一帧丢失的第一衰减常数可以被设置为1,并且用于第二帧丢失的附加的衰减常数可以被设置为0.9,以及用于第三帧丢失的附加的衰减常数可以被设置为0.7。在具有弱的音调的带的情况下,用于第一帧丢失的第一衰减常数被设置为1,并且用于第二帧丢失的附加的衰减常数被设置为0.95,以及用于第三帧丢失的附加的衰减常数被设置为0.85。
虽然附加的衰减常数可以根据是否带具有强的音调或者弱的音调而不同地设置,但是用于第一帧丢失的第一衰减常数可以根据是否带具有强的音调或者弱的音调而不同地设置,或者可以与带的音调无关地设置。
解码器将推导出的衰减常数应用于先前帧的带(步骤S860),从而能够恢复当前帧的变换系数。
解码器可以将对于每个带推导出的衰减常数应用于对应于先前帧(恢复的帧)的带。例如,如果当前帧是第n个帧(丢失帧),并且第(n-1)个帧是恢复的帧,则解码器可以通过将用于第k个带的衰减常数乘以用于构成恢复的帧(第(n-1)个帧)的第k个带的变换系数,获得构成当前帧(第n个帧)的第k个带的变换系数。解码器可以通过将对应于第(n-1)个帧的每个带的衰减常数相乘,恢复用于所有带的第n个帧(当前帧)的变换系数。
解码器可以反变换恢复的变换系数(步骤S880)。解码器可以通过反变换(IMDCT)恢复的变换系数(MDCT系数)产生SWB扩展信号,并且可以通过增加给WB信号输出SWB信号。
同时,虽然在图8中描述第一衰减常数和附加的衰减常数根据音调被设置,但是本发明不受限于此。
例如,第一衰减常数和附加的衰减常数的至少一个可以根据音调推导出。更具体地说,解码器可以基于关于具有强的音调的带在帧备份缓存器中存储的恢复的帧和好帧的变换系数的相关性,计算如在步骤S625和S630中描述的衰减常数。在这种情况下,如果假设h个帧(这里h是整数)连续地丢失,并且当前帧是在当前帧的丢失帧之中的第h个帧,则作为在恢复的帧之中用于第一帧的衰减常数,存储在帧备份缓存器中的衰减常数是第一衰减常数,并且从第二恢复的帧到当前帧的衰减常数是附加的衰减常数。因此,如由公式7表示的,关于当前帧,可以通过对于当前帧推导出的衰减常数和用于先前的(h-1)个连续的恢复的帧的衰减常数的乘积推导出具有强的音调的带的衰减常数。
<公式7>
λts,当前=λts1*λts2*…*λtsh
在公式7中,λts,当前是为了推导当前帧的变换系数应用于先前的恢复帧的衰减常数,λts1是用于作为h个连续的帧丢失的第一帧丢失的衰减常数,λts2是用于第二帧丢失的衰减常数,并且λtsh是基于关于当前帧的与先前帧的相关性推导出的衰减常数。可以关于具有强的音调的带对于每个带推导衰减常数。
此外,关于具有弱的音调的带,解码器可以基于存储在帧备份缓存器中的恢复帧和好帧的变换系数的能量,计算如在步骤S635和S645中描述的衰减常数。在这种情况下,如果假设h个帧(这里h是整数)连续地丢失,并且当前帧是在当前帧的丢失帧之中的第h个帧,则作为用于在恢复的帧之中第一帧的衰减常数,存储在帧备份缓存器中的衰减常数是第一衰减常数,并且从第二恢复的帧到当前帧的衰减常数是附加的衰减常数。因此,如由公式8表示的,关于当前帧,可以通过对于当前帧推导出的衰减常数和用于先前的(h-1)个连续的恢复的帧的衰减常数的乘积推导出具有弱音调的带的衰减常数。
<公式8>
λtw,当前=λtw1*λtw2*…*λtwh
在公式8中,λtw,当前是应用于用于推导当前帧的变换系数的先前的恢复帧的衰减常数,λtw1是用于作为h个连续的帧丢失的第一帧丢失的衰减常数,λtw2是用于第二帧丢失的衰减常数,并且λtwh是基于关于当前帧的与先前帧的相关性推导出的衰减常数。可以关于具有弱音调的带对于每个带推导衰减常数。
图9是用于简要地解释根据本发明的恢复(隐藏)帧丢失方法示例的流程图。图9的操作可以在解码器中执行,或者可以在解码器的帧丢失隐藏单元中执行。为了解释方便起见,在此处描述图9的操作在解码器中执行。
参考图9,解码器对在当前帧的先前帧之中的至少一个帧的变换系数执行分组为特定数目的带(步骤S910)。在这种情况下,当前帧可以是丢失帧,并且当前帧的先前帧可以是在帧备份缓存器中存储的恢复的帧或者好帧(正常帧)。
解码器可以根据分组的带的音调推导出衰减常数(步骤S920)。在这种情况下,衰减常数可以基于当前帧的先前的N个好帧(这里N是整数)的变换系数推导出。N可以表示用于存储先前帧的信息的缓存器的数目。
此外,在具有强音调变换系数的带中,衰减常数可以基于在先前的好帧(正常帧)的变换系数之间的相关性推导出。在具有弱音调变换系数的带中,衰减常数可以基于用于先前的好帧的能量推导出。
此外,衰减常数可以基于当前帧的先前的N个好帧和恢复帧(这里N是整数)的变换系数推导出。N可以表示用于存储先前帧的信息的缓存器的数目。
此外,在具有强音调变换系数的带中,衰减常数可以基于在先前的好帧和恢复的帧之间的相关性推导出。在具有弱音调变换系数的带中,衰减常数可以基于用于先前的好帧和恢复的帧的能量推导出。
衰减常数的细节与如上详细地所述的相同。
解码器可以通过应用当前帧的先前帧的衰减常数来恢复当前帧的变换系数(步骤S930)。当前帧的变换系数可以被恢复为通过将对于每个带推导的衰减常数乘以先前帧的每带变换系数获得的值。如果当前帧的先前帧是恢复的帧,也就是说,如果连续的帧丢失,则可以通过另外将当前帧的衰减常数应用于先前帧的衰减常数恢复当前帧的变换系数。
通过应用衰减常数恢复当前帧(丢失帧)的变换系数的方法的细节与如上所述的相同。
图10是用于简要地解释根据本发明的音频解码方法示例的流程图。图10的操作可以在解码器中执行。
参考图10,解码器可以确定是否当前帧丢失(步骤S1010)。
如果当前帧丢失,解码器可以基于当前帧的先前帧的变换系数,恢复当前帧的变换系数(步骤S1020)。在这种情况下,解码器可以基于在先前帧之中的至少一个帧的变换系数的每带音调恢复当前帧的变换系数。
通过将在当前帧的先前帧之中的至少一个帧的变换系数分组为预先确定数目的带,通过根据分组的带的音调推导出衰减常数,并且通过将衰减常数应用于当前帧的先前帧,可以执行变换系数的恢复。在这种情况下,如果当前帧的先前帧是恢复的帧,则可以通过另外将当前帧的衰减常数应用于先前帧的衰减常数恢复当前帧的变换系数。另外应用于具有强音调的带的衰减常数可以小于或等于另外应用于具有弱调性分量的带的衰减常数。
关于带的分组、衰减常数的推导,和衰减常数的应用,除了图9之外还应用与在本说明书的较早部分中详细说明的相同的那些。
解码器可以反变换恢复的变换系数(步骤S1030)。如果恢复的变换系数(MDCT系数)是用于SWB,则解码器可以经由反变换(IMDCT)产生SWB扩展信号,并且可以通过增加给WB信号输出SWB信号。
同时,迄今为止已经在本说明书中通过三个类型的表达表示用于音调的准则:(a)存在许多调性分量和没有调性分量;(b)存在许多的调性分量和没有或者有小的调性分量;和(c)存在音调和(存在小的或者)没有音调。但是,应当注意到,三个类型的表达是为了解释方便起见,并且因此,不表示不同的准则,而是相同的准则。
换句话说,在本说明书中,“存在调性分量”、“存在许多的调性分量”和“存在音调”的三个类型的表达全部暗指存在比特定的参考值更大量的调性分量,并且“没有调性分量”、“没有或者有小的调性分量”和“(存在小的或者)没有音调”的三个类型的表达全部暗指存在比特定的参考值更少量的调性分量。
虽然前面提到的示范的实施例的方法已经基于在其中步骤或者模块依次列出的流程图描述,本发明的步骤不局限于某个顺序。因此,相对于如上所述,某个步骤可以在不同的步骤中,或者以不同的顺序或者同时执行。此外,前面提到的示范的实施例包括各种方面的示例。例如,前面提到的实施例可以组合执行,并且这些也包括在本发明的实施例中。所有替换、修改和变化将落在本发明的权利要求的精神和范围内。
Claims (17)
1.一种恢复帧丢失的方法,该方法包括:
在当前帧的先前帧之中,将至少一个帧的变换系数分组为预先确定数目的带;
根据所述带的音调推导衰减常数;以及
通过将所述衰减常数应用于所述当前帧的所述先前帧,恢复所述当前帧的变换系数。
2.根据权利要求1所述的方法,其中,基于所述当前帧的先前的N个正常帧(这里N是整数)的变换系数推导所述衰减常数。
3.根据权利要求2所述的方法,其中,N是用于存储所述先前帧的信息的缓存器的数目。
4.根据权利要求1所述的方法,其中,在具有强音调变换系数的带中,基于在先前的正常帧的变换系数之间的相关性推导所述衰减常数。
5.根据权利要求4所述的方法,其中,每带相关性被用作每带衰减常数,并且具有高的帧间正弦脉冲的位置相关性的带具有高的相关性。
6.根据权利要求1所述的方法,其中,在具有弱音调变换系数的带中,基于用于先前的正常帧的能量推导所述衰减常数。
7.根据权利要求6所述的方法,其中,所述衰减常数是在关于所述当前帧的所述先前帧的能量值和基于在先前帧的能量之间的变化对于所述当前帧预测的能量预测值之间的比率。
8.根据权利要求1所述的方法,其中,所述当前帧的所述变换系数被恢复为通过将对于每个带推导的衰减常数乘以所述先前帧的每带变换系数获得的值。
9.根据权利要求8所述的方法,其中,如果所述当前帧的所述先前帧是恢复的帧,则通过另外将所述当前帧的衰减常数应用于所述先前帧的衰减常数恢复所述当前帧的所述变换系数。
10.一种音频解码方法,包括:
确定是否在当前帧中存在丢失;
如果所述当前帧已经丢失,则基于所述当前帧的先前帧的变换系数恢复所述当前帧的变换系数;以及
反变换恢复的变换系数,
其中,在变换系数的恢复中,基于在所述先前帧之中的至少一个帧的变换系数的每带音调恢复所述当前帧的所述变换系数。
11.根据权利要求10所述的音频解码方法,其中,变换系数的恢复包括:
在所述当前帧的先前帧之中,将至少一个帧的变换系数分组为预先确定数目的带;
根据带的音调推导衰减常数;以及
通过将所述衰减常数应用于所述当前帧的所述先前帧,恢复所述当前帧的所述变换系数。
12.根据权利要求11所述的音频解码方法,其中,基于所述当前帧的特定数目的先前的正常帧的变换系数推导所述衰减常数。
13.根据权利要求11所述的音频解码方法,其中,在具有强音调变换系数的带中,基于在先前的正常帧的变换系数之间的相关性推导所述衰减常数。
14.根据权利要求11所述的音频解码方法,其中,在具有弱音调变换系数的带中,基于关于先前的正常帧的能量推导所述衰减常数。
15.根据权利要求10所述的音频解码方法,其中,所述当前帧的所述变换系数被恢复为通过将对于每个带推导的所述衰减常数乘以所述先前帧的每带变换系数获得的值。
16.根据权利要求15所述的音频解码方法,其中,如果所述当前帧的所述先前帧是恢复的帧,则通过另外将所述当前帧的衰减常数应用于所述先前帧的衰减常数恢复所述当前帧的所述变换系数。
17.根据权利要求16所述的音频解码方法,其中,另外应用于具有强音调的带的衰减常数小于或等于另外应用于具弱调性分量的带的衰减常数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261700865P | 2012-09-13 | 2012-09-13 | |
US61/700,865 | 2012-09-13 | ||
PCT/KR2013/008235 WO2014042439A1 (ko) | 2012-09-13 | 2013-09-11 | 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104718570A true CN104718570A (zh) | 2015-06-17 |
CN104718570B CN104718570B (zh) | 2017-07-18 |
Family
ID=50278466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380053376.2A Expired - Fee Related CN104718570B (zh) | 2012-09-13 | 2013-09-11 | 帧丢失恢复方法,和音频解码方法以及使用其的设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9633662B2 (zh) |
EP (1) | EP2897127B1 (zh) |
JP (1) | JP6139685B2 (zh) |
KR (1) | KR20150056770A (zh) |
CN (1) | CN104718570B (zh) |
WO (1) | WO2014042439A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166800A1 (zh) * | 2016-03-29 | 2017-10-05 | 华为技术有限公司 | 丢帧补偿处理方法和装置 |
CN107851439A (zh) * | 2015-08-18 | 2018-03-27 | 高通股份有限公司 | 在带宽变换周期期间的信号再使用 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX352099B (es) * | 2013-06-21 | 2017-11-08 | Fraunhofer Ges Forschung | Método y aparato para obtener coeficientes de espectro para un cuadro de reemplazo de una señal de audio, decodificador de audio, receptor de audio y sistema para transmitir señales de audio. |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN106683681B (zh) * | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN112967727A (zh) | 2014-12-09 | 2021-06-15 | 杜比国际公司 | Mdct域错误掩盖 |
EP3427257B1 (en) | 2016-03-07 | 2021-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands |
WO2017153300A1 (en) | 2016-03-07 | 2017-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame |
KR20200027475A (ko) | 2017-05-24 | 2020-03-12 | 모듈레이트, 인크 | 음성 대 음성 변환을 위한 시스템 및 방법 |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
EP4226362A1 (en) | 2020-10-08 | 2023-08-16 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030609A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム |
KR20060035998A (ko) * | 2004-10-23 | 2006-04-27 | 삼성전자주식회사 | 음소별 코드북 매핑에 의한 음색변환방법 |
US20070094009A1 (en) * | 2005-10-26 | 2007-04-26 | Ryu Sang-Uk | Encoder-assisted frame loss concealment techniques for audio coding |
JP2008111991A (ja) * | 2006-10-30 | 2008-05-15 | Ntt Docomo Inc | 復号装置、符号化装置、復号方法及び符号化方法 |
CN101361113A (zh) * | 2006-08-15 | 2009-02-04 | 美国博通公司 | 丢包后的约束和受控解码 |
CN101777960A (zh) * | 2008-11-17 | 2010-07-14 | 华为终端有限公司 | 音频编码方法、音频解码方法、相关装置及通信系统 |
KR20110002070A (ko) * | 2008-05-22 | 2011-01-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 프레임 손실 은폐를 위한 방법 및 장치 |
KR20110095236A (ko) * | 2008-09-10 | 2011-08-24 | 성준형 | 디바이스 인터페이싱을 위한 다중모드 조음 통합 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
DK2571024T3 (en) * | 2007-08-27 | 2015-01-05 | Ericsson Telefon Ab L M | Adaptive transition frequency between the noise filling and bandwidth extension |
KR101228165B1 (ko) * | 2008-06-13 | 2013-01-30 | 노키아 코포레이션 | 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체 |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
BR122021018240B1 (pt) * | 2012-02-23 | 2022-08-30 | Dolby International Ab | Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado |
-
2013
- 2013-09-11 KR KR1020157006324A patent/KR20150056770A/ko not_active Application Discontinuation
- 2013-09-11 WO PCT/KR2013/008235 patent/WO2014042439A1/ko active Application Filing
- 2013-09-11 JP JP2015531852A patent/JP6139685B2/ja not_active Expired - Fee Related
- 2013-09-11 CN CN201380053376.2A patent/CN104718570B/zh not_active Expired - Fee Related
- 2013-09-11 EP EP13837778.3A patent/EP2897127B1/en not_active Not-in-force
- 2013-09-11 US US14/427,778 patent/US9633662B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030609A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム |
KR20060035998A (ko) * | 2004-10-23 | 2006-04-27 | 삼성전자주식회사 | 음소별 코드북 매핑에 의한 음색변환방법 |
US20070094009A1 (en) * | 2005-10-26 | 2007-04-26 | Ryu Sang-Uk | Encoder-assisted frame loss concealment techniques for audio coding |
CN101361113A (zh) * | 2006-08-15 | 2009-02-04 | 美国博通公司 | 丢包后的约束和受控解码 |
JP2008111991A (ja) * | 2006-10-30 | 2008-05-15 | Ntt Docomo Inc | 復号装置、符号化装置、復号方法及び符号化方法 |
KR20110002070A (ko) * | 2008-05-22 | 2011-01-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 프레임 손실 은폐를 위한 방법 및 장치 |
KR20110095236A (ko) * | 2008-09-10 | 2011-08-24 | 성준형 | 디바이스 인터페이싱을 위한 다중모드 조음 통합 |
CN101777960A (zh) * | 2008-11-17 | 2010-07-14 | 华为终端有限公司 | 音频编码方法、音频解码方法、相关装置及通信系统 |
Non-Patent Citations (2)
Title |
---|
SANG ET AL.: "An MDCT Domain Frame-Loss Concealment Technique for MPEG Advanced Audio Coding", 《2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
SANG ET AL.: "Encoder Assisted Frame Loss Concealment for MPEG-AAC Decoder", 《2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING PROCEEDINGS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851439A (zh) * | 2015-08-18 | 2018-03-27 | 高通股份有限公司 | 在带宽变换周期期间的信号再使用 |
CN107851439B (zh) * | 2015-08-18 | 2021-12-31 | 高通股份有限公司 | 在带宽变换周期期间的信号再使用 |
WO2017166800A1 (zh) * | 2016-03-29 | 2017-10-05 | 华为技术有限公司 | 丢帧补偿处理方法和装置 |
CN107248411A (zh) * | 2016-03-29 | 2017-10-13 | 华为技术有限公司 | 丢帧补偿处理方法和装置 |
US10354659B2 (en) | 2016-03-29 | 2019-07-16 | Huawei Technologies Co., Ltd. | Frame loss compensation processing method and apparatus |
CN107248411B (zh) * | 2016-03-29 | 2020-08-07 | 华为技术有限公司 | 丢帧补偿处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6139685B2 (ja) | 2017-05-31 |
EP2897127B1 (en) | 2017-11-08 |
EP2897127A4 (en) | 2016-08-17 |
KR20150056770A (ko) | 2015-05-27 |
CN104718570B (zh) | 2017-07-18 |
US9633662B2 (en) | 2017-04-25 |
US20150255074A1 (en) | 2015-09-10 |
JP2015534115A (ja) | 2015-11-26 |
EP2897127A1 (en) | 2015-07-22 |
WO2014042439A1 (ko) | 2014-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104718570A (zh) | 帧丢失恢复方法,和音频解码方法以及使用其的设备 | |
US9761234B2 (en) | High frequency regeneration of an audio signal with synthetic sinusoid addition | |
US7933769B2 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
CN101878504B (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
US5794186A (en) | Method and apparatus for encoding speech excitation waveforms through analysis of derivative discontinues | |
RU2214048C2 (ru) | Способ кодирования речи (варианты), кодирующее и декодирующее устройство | |
US8428957B2 (en) | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands | |
US20070147518A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
US7805314B2 (en) | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
CN101471073B (zh) | 一种基于频域的丢包补偿方法、装置和系统 | |
US20090198500A1 (en) | Temporal masking in audio coding based on spectral dynamics in frequency sub-bands | |
EP2037451A1 (en) | Method for improving the coding efficiency of an audio signal | |
CN101783142B (zh) | 转码方法、装置和通信设备 | |
KR20140082676A (ko) | 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 | |
US7603271B2 (en) | Speech coding apparatus with perceptual weighting and method therefor | |
WO2020169754A1 (en) | Methods for phase ecu f0 interpolation split and related controller | |
KR20070008377A (ko) | 주파수 크기데이터 양자화/역양자화 방법 및 장치와 이를이용한 오디오 부호화/복호화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170718 Termination date: 20190911 |
|
CF01 | Termination of patent right due to non-payment of annual fee |