CN1898722B - 经改善的频域误码掩蔽 - Google Patents
经改善的频域误码掩蔽 Download PDFInfo
- Publication number
- CN1898722B CN1898722B CN2004800381050A CN200480038105A CN1898722B CN 1898722 B CN1898722 B CN 1898722B CN 2004800381050 A CN2004800381050 A CN 2004800381050A CN 200480038105 A CN200480038105 A CN 200480038105A CN 1898722 B CN1898722 B CN 1898722B
- Authority
- CN
- China
- Prior art keywords
- coefficients
- frame
- spectral
- coding
- error concealment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 71
- 230000003595 spectral effect Effects 0.000 claims description 108
- 230000000873 masking effect Effects 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000002411 adverse Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种频域误码掩蔽技术,用于基于逐个帧的由编码系数代表的信息。其基本思想是通过利用在时间和频率中的编码系数相关性来掩蔽出错编码系数。该技术可用于压缩成编码系数并且在不利信道条件下传输的任何信息,比如音频、视频和图像数据。由本发明的提出的误码掩蔽技术具有利用在时间和频率中的原始信息冗余的优点。例如,这提供了在帧之间(帧间)和在帧之内(帧内)利用冗余的可能性。使用来自具有出错编码系数的帧的编码系数有时称为帧内系数相关,它是更一般的频率相关的特殊情况。
Description
技术领域
本发明通常涉及误码掩蔽,更具体地说,涉及用于诸如子带编解码器或变换编解码器之类的编解码器的解码侧的频域掩蔽技术。
背景技术
媒体编码器是能够分析诸如音频、视频或图像数据流之类的信息流和按编码的形式输出代表媒体的信息流的设备、电路或计算机程序。产生的信息经常用于传输、存储和/或加密的目的。另一方面,解码器是能够转化编码器操作、使得它接收编码的信息流并且输出解码的媒体流的设备、电路或计算机程序。
在大多数当前技术的音频和视频编码器中,在频域中分析输入信号的每一帧。取决于应用,对分析的结果进行量化和编码并然后传送或存储。在接收侧,或者当使用存储的编码的信号时,后面有同步过程的解码过程使得在时域中能恢复信号。
编解码器经常用于音频和视频数据等信息的压缩/解压,以在带宽受限的通信信道上进行有效传输。
最常见的音频和视频编解码器是子带编解码器和变换编解码器。子带编解码器是基于过滤器组,而变换编解码器通常是基于例如DCT(离散余弦变换)的时域-频域变换。然而,这两种类型的编解码器能认为是数学上等价的。就某种意义来说它们基于相同的原理,其中变换编解码器可视为具有大量子带的子带编解码器。
这些编解码器的常见特性是它们工作在样本块即帧的上面。根据动态位分配量化各帧的由变换分析或子带分析产生的编码系数,并且上述系数会逐帧变化。编码器一旦接收到位流,就计算位分配 并将编码的系数解码。
在基于分组的通信中,量化的编码系数和/或参数可以按分组来组合。一个分组可含有与几帧、一帧有关的数据,或仅含有部分帧的数据。
在不利的信道条件下,来自编码器的经编码/压缩的信息可能丢失的或到达解码侧时有误码。一般而言,在不利信道条件下音频、视频和其它有关数据的传输已称为今天最具挑战性的问题之一。为了缓解在传输期间由分组丢失的或已破坏数据引入的误码效应,经常采用所谓的误码掩蔽来减少编码系数所代表的音频、视频或其它数据的退化。
误码掩蔽方案通常依赖于与原始信息类似的、丢失的(或更一般地说出错的)分组的量化编码系数的替代物之产生。这是可能的,因为比如音频的信息,并且尤其是语音,表现出大量的短期自相似性。因此,这些技术对于较小丢失的率(10%)和小分组(4-40ms)效果最佳。
多描述编码是不可靠信道上的信息传输领域中一种公知技术。编码器生成相同音频信号的几个不同描述,而解码器能用编码描述的任何子集来产生原始音频信号的有用重建。该技术假定在各描述独立地发生误码或丢失的。这将意味着各描述将在其自身的信道上传送,或者这些描述共享相同的信道但在时间上彼此置换。在这种情况下,各时刻解码器接收到有效数据的概率很高。因此一个描述的丢失的能利用相同信号的另一描述之存在来桥接。该方法明显增加了在发射机和接收机之间的总延迟。而且,为了增加冗余度,不是要增加数据速率就是得牺牲一些质量。
在面向块或帧的变换编解码器的场合,可以在时域中(即在解码器的输出端)或者在频域中(即在解码器内)完成丢失的信号间隔的估计。
在时域中,现有技术中有几种公知的误码掩蔽技术。如基于净 噪的方法等的基本技术,只要数据错误就对输出信号进行净噪来修复它们的丢失的。出错数据由零信号来取代。虽然非常简单,但是由于该方法随同信号能量的突然降落而引入的可感觉到的不连续,该方法导致了非常讨厌的效应。
重复的方法与净噪技术非常相似,但是当出错数据发生时,它不是用零信号取代数据,而是重复最近接收的数据的一部分。该方法以增加存储器消耗为代价比净噪方法表现得更好。然而该方法的性能是受限的并且会发生一些很讨厌的人为迹象。例如,如果最近接收的帧是鼓声,则后者的重复在仅仅期待一次鼓声的情况下可能导致两次鼓声。如果例如重复的频率是短的则会发生其它的人为迹象,由于梳状滤波效应而引入嗡鸣声。
其它更复杂的技术致力于通过例如波形替代、基于间距的波形复制或时标修改来内插音频信号。这些技术比前面描述的基本技术表现得更好。但是,它们需要更多的复杂性。而且,在许多情况下,执行内插所需要的延时量是不可接受的。
人们熟知的例如[1]、[2]、[3]等音频恢复文献中的技术提供了一些有用的见解,实际上它们处理的是相似的问题。
在文献[4]、[5]中考虑了频域中的误码掩蔽。在DCT(离散余弦变换)变换的例中,发现简单的掩蔽技术是去掉大的DCT系数。
在文献[6]中,与频谱能量的听觉调整选择一起使用数据替代方法。更具体地说,在出错数据发生之前在无损的音频数据中找到模式(pattern)。当发现该模式时,基于该模式确定替代数据。
在文献[7]中,描述了频域误码掩蔽技术。所描述的技术是相当通用的技术并用来变换编码器。它用预测来恢复丢失的或出错的系数。出错的频仓(bin)/频率信道系数的预测以相同的频率/信道的过去的系数为根据,并因而在尝试保持所谓的水平相位相干性中会考虑频仓/频率信道中的相位如何随时间而变化。在一些场合,该技术可提供相当令人满意的效果。
然而,在文献[7]中提出的误码掩蔽技术一般会导致所谓的垂直相位相干性丢失的,这会导致帧的不连续和可感觉到的人为迹象。
Zhang等人的文章“可扩缩视频编码中误码掩蔽的最佳估计”(“Optimal estimation for Error Concealment in Scalable VideoCoding”)给出了另一例经典的频域误码掩蔽方案。该方案使用变换系数(逐帧)随时间演变的统计模型并执行对重建系数的估计。用来自当前基层(base layer)和前一增强层(enhancement layer)的信息重建丢失的DCT系数。通过使用来自基层的DCT系数量化区间的信息,能够确定原始DCT系数的可能范围。基于前一增强层中的DCT系数信息并用该原始DCT系数的范围作为约束,可确定重建丢失的DCT系数的最佳估计值。
在文献[8]中,Wiese等人描述了一种基于若干掩模策略之间的转换的误码掩蔽技术,它至少包括将子带净噪和重复或估计子带的步骤。
发明内容
本发明可克服了现有技术装置中的上述的和其它的缺陷。
本发明的一般目的是提供经改善的误码掩蔽技术。
本发明的另一目的是提供一种可最佳地利用原始信息信号冗余的频域误码掩蔽技术。
本发明的再一目的是提供一种能应用到子带和变换编解码器的通用且有效的频域误码掩蔽技术。
还有一个目的是提供一种经改善的频域误码掩蔽装置,以及包括这种误码掩蔽装置的解码器和接收机。
上述的和其它的目的由所附的专利权利要求所规定的发明来满足。
本发明涉及一种频域误码掩蔽技术,适用于逐帧由编码系数代表的信息。其基本思想是通过在时间和频率中采用编码系数相关性 来掩蔽出错编码系数。该技术适用于压缩成编码系数的诸如音频、视频和图像数据的任何信息并且在不利的信道条件下传送。由本发明提出的误码掩蔽技术具有在时间和频率中采用原始信息信号的冗余的清晰优点。例如,该技术提供了在帧间和在帧内利用冗余的可能性。
有采用时间和频率相关性的许多可能性,包括:将来自出错编码系数所在的相同帧的编码系数与来自一个或多个前面和/或后面的帧的系数在一起使用;使用来自若干个前面和/或后面的帧中每一个的几个不同的系数;或者甚至使用编码系数的对角模式(diagonal pattern)。然而应当理解,使用来自一个或多个后面的帧的编码系数通常会引入延时,根据不同的应用这或者可被接受或者不可被接受。
使用来自具有出错编码系数的帧的编码系数有时称作帧内系数相关并且它是更一般的频率相关的特例。相似地,使用来自一个或多个后面的帧的编码系数有时称作帧间相关,或者仅为时间相关。
根据本发明的误码掩蔽最好通过以下方法来执行:基于在出错系数的帧内的至少一个其它的编码系数以及一个或多个其它帧的至少一个编码系数,估计新的编码系数;以及由新的编码系数取代出错(一般为丢失的)编码系数。
与通常在子带和变换编解码器中一样,信息可由若干频仓(frequency bin)、频带或变换频率分量的编码系数来代表。在特别有益且可行的实现中,当检测到某帧中某频仓的出错编码系数时,至少部分地基于在相同帧中的至少一个其它频仓的至少一个编码系数,并且还最好基于在一个或多个其它帧中的相同频仓的至少一个编码系数,可以估计该频仓的新编码系数。还考虑在一个或多个其它帧中的至少一个其它频仓的至少一个编码系数也许是有利的。
一个不引入任何额外延时的特别有益的实现方式,不仅基于对来自出错或丢失的频仓的前面数据的出错系数的估计,而且基于其它频仓的当前和/或前面的数据。这意味着时间和频率冗余都被采用。特别是对于由其频率随时间慢慢变化的谐波之和构成的音频信号,情况确实如此。对于这种非常普通的音频情况,频谱峰值的位置随时间变化。例如,位于在帧m-1的峰值会位于在帧m中的另一位置。因此,利用这种双冗余的估计器或预测器使用起来非常理想。
特别是,本发明还提出一种估计新编码系数的专用方法,该方法使用预定的近似判据并基于帧间的近似组延时相比配来预测频谱相位分量。这最好由来自至少一个其它帧的第一估计组延时来执行,然后通过至少近似地将出错频谱分量的组延时相比与估计的组延时相比配来计算频谱相位。
频谱幅值分量可基于被考虑帧的频谱系数的能量与至少一个其它帧的对应频谱系数的能量的相比进行预测幅值。
就变换编码而言,当编码系数是复频谱变换系数时,通过分开地预测频谱幅值和相位并随后将预测的频谱幅值和相位合并到新的复频谱编码系数,来优选地估计某频仓的新复频谱编码系数。频谱能量相比和组延时相比于是能单独地分别预测复编码系数的频谱幅值分量和频谱相位分量。
应当理解,出错编码系数可以是部分出错系数或完全丢失的编码系数。在更高级的误码检测协议中,还能将最低有效位中的误码从编码系数的最高有效位中的误码区分出来,并且据此重复使用至少部分信息。
本发明具有以下优点:
-可改善误码掩蔽;
-可最佳地利用原始信息信号的冗余;
-普遍适用于任何子带或变换编解码器应用。
通过阅读本发明的实施例的以下描述,当会了解本发明的其它优点。
附图说明
结合附图,通过参考参考以下描述,当会最好地理解本发明及其其他目的和优点。
图1是传统的源编码应用的示意略图;
图2A-H是说明采用编码系数的时间和频率相关性的各种示范例的示意图;
图3是时域输入样本的可能重叠的帧段(frame division)的示意图;
图4是一例基于基本变换的编码器的示意框图;
图5是一例具有误码掩蔽的基于基本变换的解码器的示意框图;
图6是本发明优选实施例的误码掩蔽单元的示意框图;
图7是一例基本子带编码器的示意框图;
图8是一例具有误码掩蔽的基本子带解码器的示意框图;
图9A-B是说明基于组延时相比的相位外推的示意图;以及
图10是本发明优选实施例的复系数估计器的示意框图。
具体实施方式
整个附图中,相同的附图标记用于对应或相似的部件。
为了更好的理解本发明,从常见的涉及通信信道上的编码信息的传输的源编码应用的简短概述开始说明。如较早提及的,编解码器是能够处理信息流的集成器件、电路或计算机程序,并且它一般包括编码部分和解码部分。编解码器通常用于音频和视频数据之类的信息的压缩/解压,以在频带受限的通信信道上进行有效传输。
在大多数当前技术的音频和视频编解码器中,各帧输入信号在频域中被分解。该分析的结果被编码并随后进行传送。在接收侧,通过合成过程在时域中恢复该信号。
在频域中编码的基本思想是用过滤器组或块变换分析将频谱分成通常表示为频仓的频带或分量。在编码和解码后,这些频仓可用来通过过滤器组求和或逆变换重新合成为输入信号的仿样。
属于频域编解码器的两种公知的编解码器是子带编解码器和变换编解码器。两种编码器的基本原理是将频谱分成频仓。在子带编码中,用过滤器组将输入信号分成若干较宽的频带。另一方面,在变换编码中用块变换方法来提供精细得多的频率分辨率。
这些编解码器的共同特性是它们工作在样本块即帧上。各帧的由变换分析或子带分析产生的编码系数被量化、编码并传送。在接收侧,经编码和量化的编码系数被解码以恢复原始信息。
参考图1,编码器10执行编码过程,将信息流变换成通常为量化和编码的编码系数的编码形式。然后将经编码的信息转发到信道 处理块20,以将经编码的信息置于适合在通信信道上传输的形式。在接收机侧,通常由信道处理块30处理输入位流,该信道处理块30可以执行解复用和误码检测。在基于分组的通信中,例如可以通过执行CRC(循环冗余检验)校验或者等价的误码检测来校验分组的比特误码。经常,简单地丢弃具有不正确校验和的分组。为了缓解在传输期间引入到分组的误码的效应,经常在块40的解码过程中采用误码掩蔽块,用于通过估计新取代系数来掩蔽出错或丢失的编码系数。然后,解码块40在未出错系数和估计的取代系数上执行合成过程以恢复原始信息。
本发明涉及专门为频域误码掩蔽设计的技术,其基本想法是利用在时间和频率中的编码系数相关性来掩蔽错误代码系数。该技术可用于被压缩为编码系数并在不利信道条件下传送的任何信息,比如音频、视频和图像数据。本发明提出的误码掩蔽技术利用在时间和频率上的信息信号冗余,并提供了在帧间和帧内利用冗余的可能性。
存在许多利用编码系数的时间和频率相关性/关联性的可能。为了估计取代出错或丢失的系数的要使用的新编码系数,需要分析并确定相位和/或幅值如何随时间(在帧之间)变化并且,还有相位和/或幅值如何关于频率变化。有时这也分别被称作水平相关性/关联性和垂直相关性/关联性。
例如,对于给定的错误系数,能基于来自出错编码系数所在帧的编码系数及其来自一个或多个前面和/或后面的帧的系数来估计新编码系数。另一种可能是利用来自若干前面和/或后面的各帧中的多个系数。还能利用在时间和频率中的系数相关的对角模式。
然而应当理解,使用来自一个或多个后面的帧通常引入延时,根据具体应用这或者可被接受或者不可被接受。一般而言,当然能够不仅使用未出错的编码系数,而且使用前面估计的替代系数。
图2A-H是说明利用编码系数的时间和频率相关性的各示范例的 示意图。应当理解,根据设计选择、期望的计算复杂性等因素,可能会有许多其它的变形例。
在图2A的简化示意图中,假定在给定的块或帧m中,对于给定的频仓k已检测到出错编码系数(由叉所示)。图2A说明了一个基本例,其中所考虑的错误系数基于相同频仓的前面系数以及所考虑的错误系数的同一帧内的两个相邻频仓的系数而被取代。这是利用时间和频率上的系数相关性的基本例。利用来自出错编码系数的同一帧的编码系数有时称作帧内系数相关,它是更一般的频率相关的一个特例。类似地,利用来自一个或多个前面和/或后面的帧的编码系数称作帧间相关或时间相关。这种基于帧间和帧内系数相关性的掩蔽出错编码系数的原理特别有用。
图2B说明了一例在相同频仓中的连续的出错系数。在此假定帧m的出错系数已经由估计的新替代系数所取代,例如图2A中所示。在下一帧m+1,出错系数基于在先前帧m中的相同频仓的替代系数(由圈入的虚线叉所示)及其例如所考虑的出错系数的同一帧内的两个相邻频仓的系数而被取代。最好能调节与未出错系数相比而估计的替代系数的影响。这可以通过提供加权系数来实现,加权系数根据系数是未出错传送的系数还是估计的替代系数、以及与所考虑的出错系数在时间上相隔的“距离”(即帧的数量)和/或在频率上相隔的“距离”(即频仓的数量)而变化加权系数。
图2C说明了一例当前帧中有几个编码系数出错的情况。在这种情况下,在当前帧中未出错编码系数与相同频仓的前面系数以及先前帧中其它频仓的系数一起使用。通常对当前帧的每个出错系数重复该过程,直到它们由新的系数取代。
图2D说明了一例其中多于一个的先前帧的几个编码系数与当前帧内的系数一起被考虑的情况。
图2E说明了另一例其中来自几个先前帧的相同频仓的系数与当前帧内的几个频仓的系数一起被使用的情况。
图2F说明了一例对角相关模式。
图2G说明了一个基本例,其中后续帧中的相同频仓的系数与所考虑出错系数的同一帧内的两个相邻频仓的系数一起使用。这意味着当在给定帧内检测到出错系数时,为了访问后续帧的系数误码掩蔽算法而必须等到下一帧。显然,这引入了一帧延时,并且还假定后续帧中的相同频仓的系数是未出错/复原系数。
图2H说明了具有两帧延时的另一例,其中所考虑的出错系数的同一帧内的若干系数与两个紧接的帧中的尽可能多的未出错/复原系数一起使用。
以下主要在变换和子带编解码器方面更详细地描述本发明。为了解包括关于位分配、步长及抽取的信息的关于子带和变换编解码器的更详细的信息,请参考文献[9]。
如图3所示,各分析帧m可由时域输入样本x(n)的可能重叠的块组成。图4是一例简单的变换编解码器的示意框图。能看到各输入信号块x(m,n)与加权函数h(n)相乘,然后通过使用FFT(快速傅立叶变换)单元12变换到频域。显然,应当理解,基于FFT的编码器仅是一个示例,也可使用其它类型的变换,例如MDCT(经修改的离散余弦变换)。由频仓号k标示的频域复系数y(m,k)由量化器14量化,成为量化复系数yq(m,k)。然后将经量化的系数由块16编码并复用到复用信息流。结果得到的成帧的位流由块18分组化并最终传送到在接收侧的解码器。
如图5所示,在接收侧,由块32将输入位流拆分组,该块32为各帧m产生成帧的位流和坏帧指示符bfi(m)。该坏帧指示符可以是CRC校验或者丢失的分组检测的结果。成帧的位流及其对应的坏帧指示符被转发到块42,该块执行解复用和解码以提取量化的复变换系数。如果没有检测到误码,量化的系数就简单地在IFFT(傅立叶逆变换)单元46中进行逆变换而得到时域信号,该信号被乘以窗口函数w(n)并在重叠相加单元48中重叠相加,以恢复时域解码信号 xq(n)。
与一帧相关的数据会部分或整个地丢失的,这取决于编码数据的复用和分组化方式。这会使得至少部分的频谱系数出错。坏帧指示符bfi(m)的解复用会确定哪些编码系数出错,因而产生坏系数指示符bci(m,k)。在本发明的优选实施例中,误码掩蔽单元(ECU)44因而除了接收提取的未出错频谱系数yq(m,k)以外,还接收错误或丢失的频谱系数的指示bci(m,k)。基于坏系数指示符bci(m,k),误码掩蔽单元44由新频谱系数取代那些被指示为出错或丢失的频谱系数。
图6是本发明优选实施例的误码掩蔽单元44的示意框图。基于在帧m中的所有频仓k的坏系数指示符,逻辑单元52和54用来将出错系数与未出错系数区分开。坏系数指示符bci(m,k)最好是布尔型的。当没有信道误码时,指示符总是设置为FALSE,这意味着误码掩蔽单元44简单地输出其输入值,即 )。另一方面,当检测到坏的或丢失的系数时,指示符设置为TRUE,这意味着系数由估计器56的输出取代。有时需要一直运行估计器以保持其内部存储器状态最新,因此作为替代物桥接的仅是其输出。因此bci(m,k)用来选择哪些频谱系数需要由估计器56估计的频谱系数取代。在下文中,在帧m中的出错频谱系数的标示为k的那组表示为:S={k,使得bci(m,k)=TRUE}。重新合并单元58接收并安排估计的帧m的替代系数和未出错系数,以用于输出。
为不失一般性,参考图7和8简单地说明子带编解码器的情况。
图7是一例基本子带编码器的示意框图。在子带编码器中,用过滤器组12-1到12-N来将输入信号分成数量为N的频带,各频带通常被低通变换到零频以生成对应的编码系数yq(m,k)。然后得到的由频仓号k标示的系数y(m,k)被一组量化器14-1到14-N量化成量化复系数yq(m,k)。然后,经量化的系数由块16编码并复用,然后由块18在传输到接收侧的解码器之前进行分组化。
如图8所示,在接收侧,由块32将输入位流拆分组,该块32 为各帧m产生成帧的位流和坏帧指示符bfi(m)。成帧的位流及坏帧指示符被转发到块42,该块执行解复用和解码以提取经量化的复变换系数和坏系数指示符bci(m,k)。如果没有检测到误码,则将经量化的系数简单地由过滤器组46-1到46-N变换回到其原始频率位置,并相加在一起而给出原始信号的近似xq(n)。在不利的信道条件下,当在传输期间发生误码时,误码掩蔽单元(ECU)44除了接收提取的未出错频谱系数yq(m,k)以外,还接收关于该出错频谱系数的指示bci(m,k)。与上文所述类似,基于坏系数指示符,误码掩蔽单元44用新频谱系数取代那些被指示为错误或丢失的系数。
不失一般性,现在给出一些示例,描述用于复编码系数的情况的合并的时间和频率相关性利用的情况。然而应当理解,下文中描述的用于在时间和频率中利用系数相关性的一些基本原理也可应用到单值编码系数。此外,我们主要关注那些要求没有或者要求非常小的延时的实时应用之实现。因此,下面示例中仅仅考虑用前面的帧来估计新编码系数。
幅值和相位预测
在本实施例中,最好分开预测幅值和相位,然后将它们合并。频谱的幅值和相位通过以下关系式与频谱系数相关:
幅值预测
现有技术中,幅值预测经常基于简单地重复前面的频仓幅值:
这有如下缺陷:如果例如音频信号具有逐渐减小的幅值,则预测会导致能被不好地感觉到的过高估计。
本发明提出的一个更完善的方案,利用时间和频率上的冗余,它能提供更好的频谱幅值预测。例如,预测的频谱幅值能写作:
其中G(m)是通过将当前帧的未出错/复原的频谱系数的能量与相比对应的先前帧的频谱系数相比而得到的自适应增益,因子γ是衰减因子,0<γ≤1,例如γ=0.9。能量相比的示例能是通过下式计算自适应增益:
在不背离本发明的基本思想的前提下,可以使用其它类型的频谱能量相比措施。
在另一实施例中,能通过将频谱系数组合成子带并在每个子带中估计增益来估计增益G(m)。子带组合可以是关于受心理声学启发而得到的均匀标度或吼叫标度(bark scale)。因此在子带l中的自适应增益由下式估计:
频率子带l中的频谱系数的预测幅值由下式给出:
通过使用例如在时域和频域中的低通滤波或者在频域中的多项式拟合和在时域中的低通滤波,各频带上的估计增益极大地受益于时域中的平滑(在m中平滑)和频域中的平滑(在l中平滑)。
如果频谱丢失的系数在频率轴上均匀分布,则子带实施例特别有用。在某些场合,前面赋值的子带组合的频谱系数会全部丢失的。在这种情况下,可将相邻的子带组合合并或者将与子带关联的增益 确定为在相邻子带中估计的增益的平均。另一策略涉及对前面增益的重新使用,即G(m,l)=G(m-1,l),或者频域过滤型式,即 。在不背离本发明基本思想的前提下当然也可以使用其它策略。
对于所有的频谱系数均丢失的情况,则可以通过使用前面的两帧或者通过使用前面的自适应增益相比配来估计自适应增益相比,即G(m,l)=G(m-1,l)。
可以使用更完善但是更复杂的装置来进行增益预测。例如,可以使用线性自适应增益预测器。于是能由下式形成预测:
其中,例如在一些比如最小均方之类的最小误差的意义上,预测器系数Apl(m,k)能被自适应地调节。
相位预测
相位预测更加关键,因为如果预测的频谱系数远离真实的频谱系数,则在重叠部分的相位失配会导致严重的听得到的人为迹象。在Laroche和Dolson的论文[10]“改进的相位声码器时间标度音频修正”(“Improved Phase Vocoder Time-Scale Modification of Audio”)中,他们提到在时间拉伸的相位声码器的环境中,人为迹象的主要原因之一是缺少相位相关性。
本发明提出的相位预测技术最好使用在时间和频率这二者中的信息信号冗余。一个特别有利的模型基于近似组延时相比。这来自音频应用中的观察:对于静止单音,相位关于频率的导数即群延时是在时间上近似恒定的。对应恒定的幅值复音,这在理论上已被证明:
其中,L是重叠量。
两个信号部分的加窗DFT(离散傅立叶变换)由下式给出:
并且容易看出两个信号部分的群延时是相同的:
它示出了群延时是常数且不与m相关。该结果能近似地适用于多音,这取决于窗口阻带的好坏。
因此,对来自先前帧的相位导数的估计使得能通过外插来估计丢失的频谱分量相位。
一种简单的基于群延时相比的执行相位预测的方法是,首先估计在先前帧中的相位的导数。这能通过使用简单的有限差分来完成:
当然可以使用得到对群延时估计的其它方式。而且其思想是近似地恢复各丢失的频谱分量的相同的群延时。这可通过计算预测的相位来使它们将误差函数最小化来实现,例如:
其中,未知参数是φ(m,k),使得k∈S,即丢失的频谱系数的相位,且W(k)是正的加权系数。
加权系数设置成与先前帧的频谱的幅值、或当前帧的预测的幅值、或平滑的频谱包络成比例是有利的。这允许强调频谱峰值的重要性并过滤掉对由在频谱谷值中的噪声引入的相位导数的坏估计值。
换句话说,相位预测最好基于来自至少一个其它(前面)帧的群延时的估计,并且根据一些近似判据,确定出错系数的频谱相位,使得与出错系数相关联的群延时尽可能地靠近估计的群延时。
给出了在W(k)=1地情况中的解决方案的示例。如在图9A-B中所示,丢失的系数在频仓K和频仓K+N之间。
误差判据的最小化导致下面的用于外插预测的相位的递归解决方案:
k=K+1,...,K+N-1,
其中,
在该解决方案中,很明显 被用来起始递归。
对于所有频谱系数均丢失的情况,则使用辅助相位预测器来使进行对上述递归的初始化成为可能。
在不背离群延时相比/保持的基本思想的前提下,可以使用更完善但更复杂的手段进行相位预测。例如,用群延时守恒来附加地利用时域冗余。
图10是本发明优选实施例的复系数估计器的示意框图。估计器56主要包括:用于存储属于可选择数量的帧的编码系数的存储单元60;以及用于执行估计新的取代系数所需的计算的单元70。存储单元60接收提取的当前帧的系数并且将这些系数与属于一个或多个先前帧的未出错/恢复的编码系数一起存储。计算单元70接收关于哪个系数要估计的信息S,并基于从存储单元60取得的所存储的系数来计算对应的取代系数。在本发明的一个适用于复变换系数的优选实施例中,计算单元70包括:基于前面描述的能量相比原理工作的幅值估计单元72;基于前面描述的群延时相比原理工作的相位估计单元74;以及用于将估计的相位和幅值分量合并成复系数的合并单元76。
然而应当理解,能够独立地使用由本发明提出的先进的相位和幅值估计技术。例如,能基于如上所述的群延时相比用较为简单的幅值估计来估计相位。另一方面,能基于如上所述的频谱能量相比用较为简单的相位估计来估计幅值。
直接系数预测
一般,这可由时间相关的自适应预测器函数fm,k表示如下:
其中k1,k2,...,kp表示未出错频谱系数的下标。预测器函数能例如采取线性预测器的形式。
上文描述的实施例仅仅作为示例给出,但是应当理解,本发明并不限于此。本发明的范围涵盖保持本文公开和要求的基本原理的进一步的修改、改变和改善。
参考文献
S.J.Godsill,P.J.W.Rayner,″Digital Audio Restoration″,Springer,1998.
J.J.K.O Ruanaidh,W.J.Fitzgerald,″Numerical BayesianMethods Applied to Signal Processing″,Springer 1998.
R.Veldhuis″Restauration of lost samples in digital signals″,Prentice Hall.1990.
J.Herre,E.Eberlein,″Error Concealment in the spectraldomain″,93rd AES Convention,1992 Oct,1-4,preprint 3364.
J.Herre,E.Eberlein,″Evaluation of concealment techniquesfor compressed digital audio″,94th AES Convention,1993 Oct,1-4,preprint 3364.
US-6 421 802-B1
EP-0 574 288-B1
US-6 351 728-B1
A.M.Kondoz,″Digital Speech:Coding For Low Bit RateCommunication″,Wiley(1994),pp.123-128.
J.Laroche,M.Dolson,″Improved Phase Vocoder Time-ScaleModification of Audio″,IEEE transactions on speech and audioprocessing,323-332,Vol.7,No 3,May 1999.
Claims (41)
1.一种频域误差掩蔽方法,用于基于逐个帧由编码系数代表的信息,其特征在于:通过基于在时间和频率中的编码系数相关性来估计新编码系数的步骤和用所述新编码系数取代出错编码系数的步骤来掩蔽帧中的所述出错编码系数。
2.如权利要求1所述的频域误差掩蔽方法,其中:所述出错编码系数是部分出错编码系数和完全丢失的编码系数中的至少一种。
3.如权利要求1或2所述的频域误差掩蔽方法,其中所述编码系数是量化的编码系数。
4.如权利要求1所述的频域误差掩蔽方法,其中:所述掩蔽出错编码系数的步骤包括以下步骤:
-基于在出错编码系数的同一帧内至少一个其它编码系数和至少一个其它帧的至少一个编码系数来估计新编码系数;
-由所述新编码系数取代所述出错编码系数。
5.如权利要求4所述的频域误差掩蔽方法,其中:所述信息由若干频仓的编码系数代表,所述出错编码系数为帧中的某个频仓而检测,并且至少部分地基于在所述帧中的至少一个其它频仓的至少一个编码系数来估计所述频仓的新编码系数。
6.如权利要求5所述的频域误差掩蔽方法,其中:还基于在至少一个其它帧中的相同频仓的至少一个编码系数来估计所述频仓的所述新编码系数。
7.如权利要求6所述的频域误差掩蔽方法,其中:还基于在至少一个其它帧中的至少一个其它频仓的至少一个编码系数来估计所述频仓的所述新编码系数。
8.如权利要求1所述的频域误差掩蔽方法,其中:所述估计新编码系数的步骤包括使用预定的近似判据、基于帧间的近似群延时比配来预测频谱相位分量的步骤。
9.如权利要求8所述的频域误差掩蔽方法,其中:所述预测频谱相位分量的步骤包括以下步骤:
-估计来自至少一个其它帧的群延时;以及
-通过至少近似地将与新频谱分量相关联的群延时与所估计的群延时相比配来计算频谱相位。
11.如权利要求1所述的频域误差掩蔽方法,其中:所述估计新编码系数的步骤包含基于帧间的频谱能量比配来预测频谱幅值分量的步骤。
12.如权利要求11所述的频域误差掩蔽方法,其中预测频谱幅值分量的所述步骤包含以下步骤:
-通过将出错编码系数的同一帧的频谱系数的能量与至少一个其它帧的对应频谱系数的能量相比配来计算加权系数;以及
-基于所述至少一个其它帧的相同频仓的频谱幅值和所述加权系数来计算频谱幅值。
13.如权利要求4所述的频域误差掩蔽方法,其中:所述至少一个其它帧包括至少一个先前帧。
14.如权利要求4所述的频域误差掩蔽方法,其中:所述至少一个其它帧包括至少一个后续帧。
15.如权利要求1所述的频域误差掩蔽方法,其中:所述编码系数是复频谱变换系数。
16.如权利要求15所述的频域误差掩蔽方法,其中:通过分开地预测频谱幅值和相位并随后将所预测的频谱幅值和相位合并成新复频谱编码系数来估计某频仓的新复频谱编码系数。
17.如权利要求16所述的频域误差掩蔽方法,其中:基于至少一个其它帧的相同频仓的频谱幅值和加权系数来预测频谱幅值,所述加权系数通过将所述帧的频谱系数的能量与所述至少一个其它帧的对应频谱系数的能量相比配来计算。
18.如权利要求16或17所述的频域误差掩蔽方法,其中:估计来自至少一个其它帧的至少两个频谱相位分量的群延时,并通过至少近似地将与新频谱分量相关联的群延时与所估计的群延时比配来计算频谱相位,从而预测频谱相位。
19.如权利要求15所述的频域误差掩蔽方法,其中:直接地预测新复频谱编码系数。
20.如权利要求1所述的频域误差掩蔽方法,其中:所述信息包括音频、视频和图像数据中的至少一种。
21.一种频域误差掩蔽装置,用于基于逐个帧由编码系数代表的信息,其特征在于:掩蔽在帧中的出错编码系数的部件(44)包含基于在时间和频率中的编码系数相关性来估计新编码系数的部件(56)和用所述新编码系数取代所述出错编码系数的部件(56、58)。
22.如权利要求21所述的频域误差掩蔽装置,其中:所述出错编码系数是部分出错编码系数和完全丢失的编码系数中的至少一种。
23.如权利要求21或22所述的频域误差掩蔽装置,其中:所述用于掩蔽出错编码系数的部件包括:
-用于基于在出错编码系数的同一帧内至少一个其它编码系数和至少一个其它帧的至少一个编码系数来估计新编码系数的部件(56);
-用于由所述新编码系数取代所述出错编码系数的部件(56、58)。
24.如权利要求23所述的频域误差掩蔽装置,其中:所述信息由若干频仓的编码系数代表,所述出错编码系数为所述帧中的某个频仓而检测,并且所述估计新编码系数的部件(56)至少部分地基于在所述帧中的至少一个其它频仓的至少一个编码系数来估计所述频仓的新编码系数。
25.如权利要求24所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)还基于在至少一个其它帧中的相同频仓的至少一个编码系数来估计所述频仓的所述新编码系数。
26.如权利要求25所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)还基于在至少一个其它帧中的至少一个其它频仓的至少一个编码系数来估计所述频仓的所述新编码系数。
27.如权利要求21所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)包括使用预定的近似判据、基于帧间的近似群延时比配来预测频谱相位分量的部件(74)。
28.如权利要求27所述的频域误差掩蔽装置,其中:所述预测频谱相位分量的部件(74)包含:
-估计来自至少一个其它帧的群延时的部件;以及
-通过至少近似地将与新频谱分量相关联的群延时与所估计的群延时相比配来计算频谱相位的部件。
30.如权利要求21所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)包含基于帧间的频谱能量比配来预测频谱幅值分量的部件。
31.如权利要求30所述的频域误差掩蔽装置,其中:用于预测频谱幅值分量的所述部件包含:
-通过将出错编码系数的同一帧的频谱系数的能量与至少一个其它帧的对应频谱系数的能量相比配来计算加权系数的部件(72);以及
-基于所述至少一个其它帧的相同频仓的频谱幅值和所述加权系数来计算频谱幅值的部件(72)。
32.如权利要求23所述的频域误差掩蔽装置,其中:所述至少一个其它帧包括至少一个先前帧。
33.如权利要求23所述的频域误差掩蔽装置,其中:所述至少一个其它帧包括至少一个后续帧。
34.如权利要求21所述的频域误差掩蔽装置,其中:所述编码系数是复频谱变换系数。
35.如权利要求34所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)通过分开地预测频谱幅值和相位并随后将预测的频谱幅值和相位合并成新复频谱编码系数来估计某频仓的新复频谱编码系数。
36.如权利要求35所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)基于至少一个其它帧的相同频仓的频谱幅值和加权系数来预测频谱幅值,其中所述估计新编码系数的部件(56)通过将所述帧的频谱系数的能量与所述至少一个其它帧的对应频谱系数的能量相比配来计算所述加权系数。
37.如权利要求35或36所述的频域误差掩蔽装置,其中:所述估计新编码系数的部件(56)估计来自至少一个其它帧的至少两个频谱相位分量的群延时,并通过至少近似地将与新分量相关联的群延时与所估计的群延时比配来计算频谱相位,从而预测频谱相位。
38.如权利要求34所述的频域误差掩蔽装置,其中:直接地预测新复频谱编码系数。
39.如权利要求21所述的频域误差掩蔽装置,其中:所述信息包括音频、视频和图像数据中的至少一种。
40.一种解码器(40),包括如权利要求21所述的频域误差掩蔽装置。
41.一种接收机,包括权利要求21所述的频域误差掩蔽装置。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE03034980 | 2003-12-19 | ||
SE0303498-0 | 2003-12-19 | ||
SE0303498A SE0303498D0 (sv) | 2003-12-19 | 2003-12-19 | Spectral loss conccalment in transform codecs |
SE04004180 | 2004-02-20 | ||
SE0400418A SE527669C2 (sv) | 2003-12-19 | 2004-02-20 | Förbättrad felmaskering i frekvensdomänen |
SE0400418-0 | 2004-02-20 | ||
PCT/SE2004/001868 WO2005059900A1 (en) | 2003-12-19 | 2004-12-15 | Improved frequency-domain error concealment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1898722A CN1898722A (zh) | 2007-01-17 |
CN1898722B true CN1898722B (zh) | 2011-08-10 |
Family
ID=30768817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800381050A Expired - Fee Related CN1898722B (zh) | 2003-12-19 | 2004-12-15 | 经改善的频域误码掩蔽 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN1898722B (zh) |
SE (1) | SE0303498D0 (zh) |
ZA (1) | ZA200603725B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
CN107566831B (zh) * | 2017-09-18 | 2020-11-20 | 山东师范大学 | 基于随机偏移量化多描述编码的自适应编解码方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134581A (zh) * | 1994-12-21 | 1996-10-30 | 三星电子株式会社 | 音响信号的误差隐匿方法及其装置 |
US6421802B1 (en) * | 1997-04-23 | 2002-07-16 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method for masking defects in a stream of audio data |
-
2003
- 2003-12-19 SE SE0303498A patent/SE0303498D0/xx unknown
-
2004
- 2004-12-15 ZA ZA200603725A patent/ZA200603725B/en unknown
- 2004-12-15 CN CN2004800381050A patent/CN1898722B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134581A (zh) * | 1994-12-21 | 1996-10-30 | 三星电子株式会社 | 音响信号的误差隐匿方法及其装置 |
US6421802B1 (en) * | 1997-04-23 | 2002-07-16 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method for masking defects in a stream of audio data |
Also Published As
Publication number | Publication date |
---|---|
CN1898722A (zh) | 2007-01-17 |
ZA200603725B (en) | 2007-09-26 |
SE0303498D0 (sv) | 2003-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7356748B2 (en) | Partial spectral loss concealment in transform codecs | |
JP4950210B2 (ja) | オーディオ圧縮 | |
KR101376762B1 (ko) | 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법 | |
EP2186087B1 (en) | Improved transform coding of speech and audio signals | |
AU2011282276B2 (en) | Spectrum flatness control for bandwidth extension | |
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
EP1697927B1 (en) | Improved frequency-domain error concealment | |
US5701390A (en) | Synthesis of MBE-based coded speech using regenerated phase information | |
US11908484B2 (en) | Apparatus and method for generating an enhanced signal using independent noise-filling at random values and scaling thereupon | |
US6732075B1 (en) | Sound synthesizing apparatus and method, telephone apparatus, and program service medium | |
EP0893791A2 (en) | Methods for encoding speech, for enhancing speech and for synthesizing speech | |
CN113544773B (zh) | 用于lc3隐藏的解码器和解码方法 | |
EP3217398B1 (en) | Advanced quantizer | |
KR102380487B1 (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
JP2020170187A (ja) | デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置 | |
US20080255860A1 (en) | Audio decoding apparatus and decoding method | |
EP3928312A1 (en) | Methods for phase ecu f0 interpolation split and related controller | |
CN1898722B (zh) | 经改善的频域误码掩蔽 | |
Yu et al. | Detecting MP3Stego using calibrated side information features. | |
KR100902332B1 (ko) | 변형 선형예측 부호화를 이용한 오디오 부호화 및 복호화장치 및 그 방법 | |
Ofir | Packet loss concealment for audio streaming | |
Taleb et al. | Partial spectral loss concealment in transform coders | |
Moya et al. | Survey of Error Concealment Schemes for Real-Time Audio Transmission Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1098569 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1098569 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110810 Termination date: 20211215 |