CN109155134B - 隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法 - Google Patents
隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法 Download PDFInfo
- Publication number
- CN109155134B CN109155134B CN201780028408.1A CN201780028408A CN109155134B CN 109155134 B CN109155134 B CN 109155134B CN 201780028408 A CN201780028408 A CN 201780028408A CN 109155134 B CN109155134 B CN 109155134B
- Authority
- CN
- China
- Prior art keywords
- audio frame
- error concealment
- concealment unit
- energy
- correctly decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013016 damping Methods 0.000 claims abstract description 214
- 230000003595 spectral effect Effects 0.000 claims description 87
- 230000002123 temporal effect Effects 0.000 claims description 33
- 230000007423 decrease Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013213 extrapolation Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 abstract description 16
- 238000001228 spectrum Methods 0.000 description 16
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000000872 buffer Substances 0.000 description 7
- 238000005562 fading Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000003252 repetitive effect Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
提供一种用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息(107)的错误隐藏单元(100)、方法和计算机程序。在一个实施例中,错误隐藏单元基于丢失的音频帧之前的正确解码的音频帧为丢失的音频帧提供错误隐藏音频信息。错误隐藏单元基于丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出阻尼因子(103)。错误隐藏单元使用阻尼因子(103)执行淡出(104)。
Description
技术领域
根据本发明的实施例创建用于提供用于对编码的音频信息中的音频帧或更多音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏单元。
根据本发明的实施例创建用于基于编码的音频信息提供解码的音频信息的音频解码器,解码器包括错误隐藏单元。
根据本发明的一些实施例创建用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的方法。
根据本发明的一些实施例创建用于执行所述方法的一个的计算机程序。
一些实施例涉及用于频域音频编解码器的自适应阻尼因子的使用。
背景技术
近年来,对音频内容的数字传输和存储的需求不断增加。然而,音频内容通常在不可靠的信道上传输,这带来了包括一个或多个音频帧(例如,以编码表示的形式,如,例如,编码的频域表示或编码的时域表示)的数据单元(例如,封包)丢失的风险。在一些情况下,可能请求丢失的音频帧(或包括一个或多个丢失的音频帧的数据单元,如封包)的重复(重发)。然而,这通常会带来很大的延迟,因此需要大量的音频帧的缓冲。在其他情况下,几乎不可能请求丢失的音频帧的重复。
考虑到在不提供大量缓冲(这将消耗大量存储并且还会大大降低音频编码的实时能力)的情况下的音频帧丢失的情况,为了获得良好或至少可接受的音频质量,期望具有处理一个或多个音频帧的丢失的概念。特别地,即使在音频帧丢失的情况下,也期望具有带来良好的音频质量或至少可接受的音频质量的概念。
过去,已经开发了一些错误隐藏概念,其可以用于不同的音频编码概念中。高级音频编解码器(AAC)中的传统隐藏技术是噪声替换。它在频域中运行,适用于嘈杂和音乐项。
还开发了用于降低替换帧(或谱值)的强度的淡出技术。这些技术通常是基于将替换帧缩放预定系数(阻尼因子)。通常,阻尼因子表示为0和1之间的值:阻尼因子越低,淡出越强。
在封包丢失的情况下,语音和音频编解码器通常朝向零或背景噪声衰落以防止令人讨厌的重复伪声。例如,在G.719[1]中,合成信号以因子0.5渐减地缩放,然后用作当前帧的重构变换系数。对于如[2]的所有AAC系列解码器,当不允许额外延迟时,隐藏的频谱以等于的恒定的阻尼因子淡出。无论信号特性如何,该阻尼因子都应用于整个频谱。
然而,尤其对于语音或瞬态信号,这种淡出技术并不完全令人满意。当第一个丢失帧恰好在单词的结束之后,噪声替换将意味着前一个正确解码的音频帧(即其中单词结束的帧)的重复:无用的词性(不携带信息)将被重复,意味着令人讨厌的后回声。例如,参见与图11(其中不存在回声)相比较的图10(具有回声)。图10和11中的纵坐标表示频率,横坐标表示时间(以百ms或hms为单位)。
该回声是正确解码的音频帧的重复的直接的、不可避免的结果。
最好克服这种技术障碍。G.729.1[3]和EVS[4]提出自适应淡出技术,这取决于信号特性的稳定性。淡出因子取决于最后良好接收的超帧类的参数和连续擦除的超帧的数量。该因子还取决于无声的超帧的LP滤波器的稳定性(正在执行的有声的和无声的帧之间的分类)。由于在如AAC-ELD[5]的AAC解码器中没有可用的信号特性,编解码器用固定因子盲目地使隐藏的信号阻尼,这可能导致上面讨论的令人讨厌的重复伪声。
在某些条件下,已经发现,可以通过频谱表示中的空洞生成令人讨厌的伪声。
需要一种解决方案克服或至少减小现有技术的至少一些损伤的发生率。
发明内容
根据本发明的实施例,提供一种用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏单元。错误隐藏单元用于基于在丢失的音频帧之前的正确解码的音频帧使用频域隐藏提供错误隐藏音频信息。错误隐藏单元用于根据不同频带的不同阻尼因子淡出隐藏的音频帧。
根据本发明的实施例,还提供一种用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏单元。错误隐藏单元用于基于丢失的音频帧之前的正确解码的音频帧提供用于丢失的音频帧的错误隐藏音频信息。错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出一个或多个阻尼因子。错误隐藏单元用于使用阻尼因子执行淡出。
因此,已经观察到,可以通过使用基于对丢失的音频帧之前的正确解码的音频帧的解码表示的特性的分析的技术克服由后回声伪声引起的问题。信号的特性提供关于信号能量的准确信息,其可用于对音频信息进行分类并根据这种分类抑制(dampen)隐藏的音频帧。
根据本发明的方面,错误隐藏单元可以用于基于在丢失的音频帧之前的正确解码的音频帧的解码的时域表示的特性得出阻尼因子。
例如,可以简单地基于这样的时域表示的方面识别出先前正确解码的音频帧包含单词或语音的结束(或者,通常,随时间的能量的减小)。并且,可以从解码表示中以良好的精度得出解码的音频帧的不同特征(如时间调制、瞬态特性等)。
根据本发明的方面,错误隐藏单元可以用于执行解码的时域表示的分析,并且基于分析得出阻尼因子。
因此,可以通过分析解码的时域表示直接得出阻尼因子。分析解码表示通常比使用解码的输入参数估计信号的特性更准确。在此情况下,分析不在编码器处完成。
可选地,在编码器处计算一些信号特性并在解码器将随后在其上确定阻尼因子的比特流中发送一些信号特性。
根据本发明的方面,错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势得出阻尼因子。
实际上,已经注意到,可以通过分析其能量趋势确定正确解码的音频帧(其将“替换”错误接收的帧)的性质。由于语音(和诸如音乐的其他预期的音频信息)通常意味着比噪声更多的能量,帧中能量的衰减可以用作发生单词结束的指标。因此,可以基于先前正确解码的音频帧的确定的性质不同地淡出音频信息。通过将不同的衰落应用于不同性质的帧,可以减小后回声伪声的发生。
已经认识到,解码表示(其可以采用时域表示的形式)比编码表示更接近地表示音频信号的时间演变,因此基于解码表示的特性得出阻尼因子(或者甚至多个阻尼因子)是有利的(其中,可以例如通过解码表示的分析得出解码表示的特性)。
根据本发明的方面,错误隐藏单元可以用于计算在丢失的音频帧之前的正确解码的音频帧的解码表示的第一部分或其加权版本的能量,并计算在丢失的音频帧之前的正确解码的音频帧的解码表示的第二部分或其加权版本的能量。解码表示的第一部分的开始在时间上先于解码表示的第二部分的开始,或者第一部分的时间值的平均在时间上先于第二部分的时间值的平均。错误隐藏单元可以用于依据第一部分的能量并且依据第二部分的能量计算阻尼因子。
因此,可以计算能量趋势(例如,通过能量趋势值实现):如果帧的时间上的在前部分具有比帧的随后部分更多的能量,可以以足够的确定度确定语音的结束(或者,通常能量随时间的减小)。注意,帧的第一部分可以包含第二部分(反之亦然)。第一部分的平均时间在第二部分的平均时间之前(例如,第一部分的中心在时间上先于第二部分的中心)。
特别地,解码表示的第二部分可以包含在丢失的音频帧之前的正确解码的音频帧的解码表示的最后区间的样本。解码表示的第一部分可以包含丢失的音频帧之前的正确解码的音频帧的所有样本,或者与第二部分重叠的丢失的音频帧之前的正确解码的音频帧的区间的样本,以使得第一部分的样本的至少一些在第二部分的所有样本之前。
因此,本发明的实施例的基本原理之一基于以下观察:令人讨厌的重复伪声主要发生在丢失的帧跟随语音的结束的时候:不是重现静音或噪声,而是无用地重复单词的片段。这是本发明的实施例基于识别丢失的帧(或连续丢失的帧序列中的第一个)是在单词(或语音)的结束之后的帧的原因之一,例如通过识别最后正确解码的音频帧是在单词(或语音)的结束之后的帧,或者更一般地说,是能级突然下降的帧。(在帧相当长(如80ms)的一些情况下,即使在能量衰减期间中途出现帧丢失,也可能存在某种后回声。)
可以计算以下之间的商:
-在丢失的音频帧之前的正确解码的音频帧的解码表示的结束部分中或者在丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本的结束部分中的能量,以及
-在丢失的音频帧之前的正确解码的音频帧的解码表示中或者在丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本中的总能量,
以获得阻尼因子。
尽管第一部分可以包含帧的所有样本,第二部分可以仅包含相同帧的后半部分的样本(或所声称的后半部分中的一些);通过将与第二部分相关联的能量相关的值除以与第一部分(例如整个帧)相关联的能量相关的值,可以获得值(当第一部分包括整个帧时,值可以在0和1之间并且可以表示为百分比):值(或百分比)越低,帧包含单词的结束(或者能量随时间的显著减小)的可能性越大。
在一些实施例中,等于零的商可以意味着第二部分的样本中不存在能量,指示第二部分的样本携带“静音”作为唯一信息。
根据一个实施例,可以使用以下公式计算时间能量趋势(fac):
其中值L是以样本为单位的帧长度,xk是(值基于)采样的信号值,wk是权重因子,以及c是0.5和0.9之间的值,优选0.6和0.8之间,更优选0.65和0.75之间,甚至更优选0.7。值L可以是以样本为单位的帧长度(例如,诸如1024的数字),xk可以是采样的信号值,wk可以是权重因子,并且c可以是0.5到0.9之间的值,优选0.6到0.8之间,更优选0.65至0.75之间,甚至更优选0.7。
还可以计算验证以下条件的权重因子:
已经注意到合适的权重因子是:
其中d是0.4和0.6之间的值,优选0.49和0.51之间,更优选0.499和0.501之间,甚至更优选0.5;其中h是0.15和0.25之间的值,优选0.19和0.21之间,更优选0.199和0.201之间,甚至更优选0.2;其中g为0.05和0.15之间的值,优选0.09和0.11之间,更优选0.1。
根据本发明的方面,错误隐藏单元可以用于相对于先前隐藏的音频帧减小阻尼因子并且使用减小的阻尼因子淡出先前隐藏的音频帧之后的至少一个随后隐藏的音频帧。
当多个连续帧被错误地解码时,该解决方案特别有利。这样,音频信号将被适当地抑制。
根据本发明的方面,错误隐藏单元可以用于在至少三个连续隐藏的音频帧上根据超过指数时间衰减执行淡出。
已经注意到,用于与淡出相关联的阻尼因子的超过指数时间衰减是优选的并且允许在衰落的优雅性和降低音频信息的强度的必要性之间获得良好的折衷。特别地,已经注意到,通过迭代地在第二连续丢失的帧处将先前阻尼因子乘以0.9,在第三连续丢失的帧处乘以0.75,对于第三连续丢失的帧乘以0.5,在第四及以后连续丢失的帧处乘以0.2获得尤其合适的衰减。
根据本发明的方面,错误隐藏单元可以用于确定定量地描述在丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势的能量趋势值。错误隐藏单元还可以用于使用能量趋势值或其缩放版本来限定阻尼因子。
根据本发明的方面,如果当前能量趋势值位于指示相对小的能量随时间减小的预定范围内,错误隐藏单元可以用于将阻尼因子设置为低于当前能量趋势值的预定值。
因此,如果时间能量趋势接近于1(或者,至少,大于可以是(1/2)1/2的阈值),可以以足够的确定度确定正确解码的音频帧不包含语音的结束(或者无论如何不是能量突然减小的音频帧)。因此,可以使用固定的阻尼值。
根据本发明的方面,如果当前能量趋势值位于预定范围之外并且指示相对较大的能量随时间减小,错误隐藏可以用于确定阻尼因子,以使得阻尼因子等于当前能量趋势值,或者随着变化的能量趋势值线性地变化。
因此,如果时间能量趋势小于阈值(例如,可以是1/21/2),可以以足够的确定度确定正确解码的音频帧包含单词(或语音)的结束。因此,可以使用减小的阻尼值加速淡出,从而避免根据本发明的后回声。
根据本发明的方面,错误隐藏可以用于:
-如果优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类噪声的,将阻尼因子设置为第一预定值(例如,可以是0.95或0.97和1之间的值),其指示比第二预定值(例如,可以是)更小的阻尼,和/或
-如果优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的而语音在丢失的音频帧之前的正确解码的音频帧中没有结束,将阻尼因子设置为第二预定值,和/或
-如果优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧是类语音的而语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将阻尼因子设置为基于能量趋势值或其缩放版本的值。
通过对正确解码的音频帧进行分类(例如,分为噪声/语音在帧中结束/语音继续),可以执行三种不同的衰落:
-用于噪声的小的衰落或完全没有衰落(优选地用于噪声);
-当语音在正确解码的音频帧中没有结束时的中等衰落(在没有令人讨厌的回声的风险的情况下);
-当语音在正确解码的音频帧中终止时的猛烈的衰落(因此减小令人讨厌的回声的影响)。
错误隐藏用于对不同的频带确定不同的阻尼因子。
根据本发明的方面,错误隐藏单元用于得出阻尼因子,以使得阻尼因子反映在丢失的音频帧之前的最后正确解码的音频帧的结束部分中的能级的时间演变的朝向丢失的音频帧的外推。
根据本发明的方面,错误隐藏单元用于使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以便得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元用于使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以便得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元用于执行频谱域到时域的变换,以便获得丢失的音频帧之前的正确解码的音频帧的解码表示。
根据本发明的实施例,提供一种用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息方法,包括以下步骤:
-基于丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出阻尼因子,以及
-使用阻尼因子执行淡出。
可以与上面讨论的任何发明方面结合使用该方法。
根据本发明的实施例,提供一种计算机程序,当计算机程序在计算机上运行时,用于执行本发明的方法和/或用于控制上述的本发明的产品实施例。
根据本发明的实施例,提供一种用于基于编码的音频信息提供解码的音频信息的音频解码器,音频解码器包括如上所述的错误隐藏单元或实施如上所述的方法。
根据本发明的实施例,提供一种错误隐藏单元,用以提供对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息,其中错误隐藏单元用于基于在丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息。错误隐藏单元用于针对不同的频带使用不同的阻尼因子执行淡出。
已经注意到,可以对音频帧的相同频谱表示的不同频带使用不同的阻尼因子。因此,可以避免由于谱空洞引起的令人讨厌的伪声的发生,因为例如可以将不同的阻尼因子应用于类噪声的频带(或谱仓)而不是类语音的(或主要包含语音的)频带(或谱仓)。
因此,阻尼因子可以适应于不同的频带或不同的谱仓的信号特性,或者不同的频带或谱仓中的能量的时间演变。
根据本发明的方面,错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的谱域表示的特性得出阻尼因子。
根据本发明的方面,错误隐藏单元可以用于修改一个或多个阻尼因子,以例如使得在丢失的音频帧之前的正确解码的音频帧的有声频带比在丢失的音频帧之前的正确解码的音频帧的无声频带或正确解码类噪声频带更快地淡出。
通过使淡出适应每个频带(或谱仓),可以获得最佳的衰落行为:特别地,与语音相关联的谱带可以比与噪声相关联的谱带更快地抑制,从而减小人收听音频解码信息的烦恼。
根据本发明的方面,错误隐藏单元可以用于修改一个或多个阻尼因子,以使得在丢失的音频帧之前的并且具有相对较高的每谱仓的能量的正确解码的音频帧的一个或多个频带比在丢失的音频帧之前并且具有相对较低的每谱仓的能量的正确解码的音频帧的一个或多个频带更快地淡出。
根据本发明的基本原理,预期具有相对较高的每谱仓的能量的频带包含比噪声更多的语音信息。因此,提出增加这些语音相关频带的阻尼,同时仅缓慢地淡出低能量(类噪声的)频带。
根据本发明的方面,错误隐藏单元可以用于基于与在丢失的音频帧之前的正确解码的音频帧中的至少一个频带相关联的能量值和阈值之间的比较为至少一个频带设置阻尼因子。
与阈值的比较允许执行简单(但重要)的测试,其结果尤其是频带的确定预期携带与语音或噪声相关的信息。
根据本发明的方面,如果与至少一个频带相关联的能量值低于阈值,错误隐藏单元可以用于对至少一个频带使用预定阻尼因子。如果与至少一个频带相关联的能量值高于阈值,错误隐藏单元可以用于对至少一个频带使用小于预定阻尼因子的阻尼因子。
因此,较高能量频带将比较较低能量频带更快地抑制,因此减小听众的烦恼。
根据本发明的方面,如果与至少一个频带相关联的能量值低于阈值,错误隐藏单元可以用于对至少一个频带使用表示相对较慢的淡出的阻尼因子。如果与至少一个频带相关联的能量值高于阈值,错误隐藏单元可以用于对至少一个频带使用表示相对较快的淡出的阻尼因子。
根据本发明的方面,如果与至少一个频带相关联的能量值低于阈值,错误隐藏单元可以用于将阻尼因子限定为预定值。如果与至少一个频带相关联的能量值高于阈值,错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值得出用于至少一个频带的阻尼因子,以比与至少一个频带相关联的能量值低于阈值的情况更快地淡出至少一个频带。
不仅可以比较低能量频带更快地抑制较高能量频带(预期与语音相关),而且还可以根据正确解码的音频帧的演变淡出频带。例如,如果正确解码的音频帧的能量演变指示后者是单词(或语音)已经结束的帧,优选地增加较高能量频带的抑制,这预期与语音相关。因此,当正确解码的音频帧包含单词的结束时,可以避免令人讨厌的回声伪声。
根据本发明的方面,错误隐藏单元可以用于为不同的频带限定不同的阈值。
例如,可以预期具有许多仓但低强度的频带与噪声相关联。相反,可以预期具有高能量的频带与语音相关联。因此,可以通过对不同的频带使用不同的阈值进行不同的比较获得这些频带之间的区别。
根据本发明的方面,错误隐藏单元可以用于基于至少一个频带的能量值或平均能量值或预期能量值设置阈值。
例如,可以预期具有低能量的频带与噪声相关联。相反,可以预期具有高能量的频带与语音相关联。因此,通过为每个频带选择取决于频带的能量值或平均能量值或预期能量值的阈值获得这些频带之间的区别。
根据本发明的方面,错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的能量值与丢失的音频帧之前的正确解码的音频帧的整个谱的谱线的数量之间的比率设置阈值。
根据本发明的方面,错误隐藏单元可以用于基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势设置阈值。
时间能量趋势可以包含正确解码的音频帧是否包含单词的结束是否在帧中的信息的信息。优选地,更快地抑制在包含单词的结束的音频帧之后的帧,以避免令人讨厌的回声伪声。因此,可以优选地基于时间能量趋势选择阈值。单词在正确解码的帧中终止的概率越高(能量趋势接近于0),阈值越低,频带的阻尼越快。
根据本发明的方面,错误隐藏单元可以用于使用以下公式设置第i个频带的阈值:
thresholdi=newEnergyPerLine·nbOfLinesi
值nbOfLinesi可以是第i个频带中的线的数目,以及
值fac可以是表示在丢失的音频帧之前的正确解码的音频帧中的时间能量趋势的量,或者是从表示在丢失的音频帧之前的正确解码的音频帧中的时间能量趋势的量得出的阻尼值。值energytotal是在丢失的音频帧之前的正确解码的音频帧的所有频带上的总能量。值nbOfYoyalLines可以是丢失的音频帧之前的正确解码的音频帧的谱线的总数。
根据本发明的方面,错误隐藏单元可以用于针对不同缩放因子频带使用不同阻尼因子执行淡出。用于缩放逆量化谱值的不同缩放因子可以与不同缩放因子频带相关联。
根据本发明的方面,错误隐藏单元可以用于使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以便得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元可以用于使用不同的阻尼因子缩放在丢失的音频帧之前的音频帧的频谱表示的不同频带,从而以不同淡出速度淡出不同频带的谱值,以便得出丢失的音频帧的隐藏的频谱表示。
因此,可以获得合适的隐藏,其中使得包含诸如语音的信息的频带比那些包含噪声的频带的阻尼更多。
根据本发明的方面,错误隐藏单元可以用于:
-如果优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类噪声的,将与给定频带相关联的阻尼因子设置为第一预定值(例如,在0.95和1之间),其指示比第二预定值(例如,大约1/21/2)更小的阻尼,和/或
-如果优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中没有结束,将与给定频带相关联的阻尼因子设置为第二预定值,和/或
-如果优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将与给定频带相关联的阻尼因子设置为基于能量趋势值或其缩放版本的值。
例如,可以区分包含诸如语音(或诸如音乐的预期音频信息)的信息的频带和包含噪声的那些频带。包含预期音频信息的频带可以比包含噪声的频带更快地抑制。在先前解码的音频帧包含单词(或语音或无论如何是预期音频信息)的结束的情况下,阻尼相对增加(例如通过减小阻尼因子)。
根据本发明的方面,错误隐藏单元可以用于将给定频带中的能量与阈值进行比较。如果给定频带中的能量大于阈值,错误隐藏单元可以用于提供基于在丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势得出的给定频带的缩放因子。如果优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧是类噪声的,并且如果给定频带中的能量小于阈值,错误隐藏单元可以用于将阻尼因子设置为第一预定值,其指示比第二预定值更小的阻尼。如果优选地基于比特流信息或者基于信号分析识别出丢失的音频帧之前的正确解码的音频帧不是类噪声的,错误隐藏单元可以用于将阻尼因子设置为第二预定值。
根据本发明的方面,错误隐藏单元可以用于执行谱域到时域的变换,以便获得在丢失的音频帧之前的正确解码的音频帧的解码表示。
本发明的实施例还涉及一种用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的方法,该方法包括:
-基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息;以及
-针对不同频带使用不同阻尼因子执行淡出。
本发明的方法可以实现上面讨论的一个或多个方面。
本发明的实施例还涉及一种计算机程序,用于当计算机程序在计算机上运行时执行所发明的方法和/或用于实现上述的产品方面。
本发明的实施例还涉及一种包括如上所述的错误隐藏单元的音频解码器。
音频解码器可以用于使用不同的缩放因子缩放在丢失的音频帧之前的音频帧的频谱表示的不同缩放因子频带的谱值。
上面讨论的方面可以彼此组合。
附图说明
下面将参照附图描述本发明的实施例,其中:
图1示出根据本发明的隐藏单元的示意框图;
图2示出根据本发明的实施例的音频解码器的示意框图;
图3示出根据本发明的另一实施例的音频解码器的示意框图;
图4示出根据本发明的实施例的频域隐藏的示意框图;
图5示出根据本发明的实施例的能量趋势值的计算的细节;
图6示出根据本发明的实施例的用于计算能量趋势的帧的细分的细节;
图7示出根据本发明的实施例的用于计算能量趋势值的权重(“修改的汉恩窗(hann window)”)的图示;
图8示出根据本发明的实施例的用于计算阻尼因子的手段的实施例;
图9示出所发明的隐藏方法的实施例;
图10-11示出信号图的比较示例;
图12示出根据本发明的实施例的阈值的定义的示例;
图13示出信号图的比较示例;
图14-15示出根据本发明的实施例的用于计算阻尼因子的手段的实施例;
图16示出所发明的隐藏方法的实施例。
具体实施方式
在本节中,参考附图讨论本发明的实施例。
5.1根据图1的错误隐藏单元
图1示出根据本发明的错误隐藏单元100的示意框图。
错误隐藏单元100提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息107。错误隐藏单元100被输入音频信息,例如正确解码的音频帧的谱版本(或表示)101。另外,错误隐藏单元100被输入音频信息,例如正确解码的音频帧(特别地,其谱值被输入作为101的相同的正确解码的音频帧)的时域版本102(或表示)。可以使用后处理版本102’代替时域信号102(在下文中,为了简洁,仅参考时域信号102,尽管可以使用后处理版本102’来体现本发明)。
错误隐藏单元100用于基于丢失的音频帧之前的正确解码的音频帧的解码表示102的特性得出阻尼因子103。
错误隐藏单元100用于使用阻尼因子103执行淡出。
可以由缩放器104实施淡出的示例,以使用阻尼因子103缩放正确解码的音频帧的频谱版本101。
可以实施阻尼因子确定器110以基于正确解码的音频帧的时域版本102得出阻尼因子103。
阻尼因子确定器110可以基于丢失的音频帧之前的正确解码的音频帧的解码的时域表示102的特性得出阻尼因子103。
能量趋势分析器111可用于执行正确解码的音频帧102的分析。根据一些实施,可以分析帧中的能量趋势。
阻尼因子映射器(或计算器)112可用于缩放阻尼因子(例如,当获得多个连续的不正确数据帧时)。
此外,借助于噪声添加器117,可以可选择地将噪声添加至频域表示101的缩放版本105,以得出隐藏的帧的频域表示107。
注意,根据错误隐藏单元100的实施例,正确解码的帧的频谱表示101可以可选择地被划分为不同的频带;在这种情况下,缩放器104可以采用多个缩放因子,对于每个频带一个缩放因子。
5.2根据图2的错误隐藏单元
图2示出根据本发明的实施例的音频解码器200的示意框图。音频解码器200接收编码的音频信息210,其可以例如包括以频域表示编码的音频帧。原则上,编码的音频信息210经由不可靠的信道接收,使得帧丢失不时地发生。音频解码器200还基于编码的音频信息210提供解码的音频信息212。
音频解码器200可以包括解码/处理220,其在没有帧丢失的情况下基于编码的音频信息提供解码的音频信息。
音频解码器200还包括错误隐藏230(其可以由错误隐藏单元100实现),提供错误隐藏音频信息232。错误隐藏230用于提供用于对音频帧的丢失进行隐藏的错误隐藏音频信息232(105,107)。
换句话说,解码/处理220可以提供用于音频帧的解码的音频信息222,音频帧以频域表示的形式(即,以编码表示)的形式编码,其编码值描述不同频率仓中的强度。换言之,解码/处理220可以例如包括频域音频解码器,其从编码的音频信息210得出一组谱值并执行频域到时域的变换,从而得出构成解码的音频信息222的或者在存在附加的后处理的情况下形成提供解码的音频信息122的基础的时域表示。
此外,应注意,音频解码器200可以由以下单独地或组合地描述的任何特性和功能补充。
在一些实施例中,错误隐藏230还可以以不同阻尼因子淡出不同频带。
5.3根据图3的音频解码器
图3示出根据本发明的实施例的音频解码器300的示意框图。
音频解码器300用于接收编码的音频信息310并基于其提供解码的音频信息312。音频解码器300包括比特流分析器320(其也可以被指定为“比特流解格式器”或“比特流解析器”)。比特流分析器320接收编码的音频信息310并且基于其提供频域表示322和可能的附加控制信息324。频域表示322可以例如包括编码谱值326,编码的缩放因子328,以及可选择地,附加的辅助信息330,其可以例如控制特定的处理步骤,例如,噪声填充、中间处理或后处理。音频解码器300还包括谱值解码340,其用于接收编码谱值326,并且基于其提供一组解码谱值342。音频解码器300还可以包括缩放因子解码350,其可用于接收编码的缩放因子328并且基于其提供一组解码的缩放因子352。
作为缩放因子解码的替代,可以例如在编码的音频信息包括编码的LPC信息而不是缩放因子信息的情况下使用LPC-缩放(LPC-to-scale)因子转换354。然而,在一些编码模式中(例如,在USAC音频解码器或在EVS音频解码器中的TCX解码模式中),可以使用一组LPC系数在音频解码器侧得出一组缩放因子。LPC-缩放因子转换354可以达到该功能。
音频解码器300还可以包括缩放器360,其可以用于将该组缩放因子352应用于该组谱值342,从而获得一组缩放的解码谱值362。例如,可以使用第一缩放因子缩放包括多个解码谱值342的第一频带,并且可以使用第二缩放因子缩放包括多个解码谱值342的第二频带。因此,获得该组缩放的解码谱值362。音频解码器300还可以包括可选择的处理366,其可以对缩放的解码谱值362应用一些处理。例如,可选择的处理366可以包括噪声填充或一些其他操作。
音频解码器300还可以包括频域到时域的变换370,其用于接收缩放的解码谱值362或其处理版本378,并提供与一组缩放的解码谱值362相关联的时域表示372。例如,频域到时域的变换370可以提供时域表示372,其与音频内容的帧或子帧相关联。例如,频域到时域的变换可以接收一组MDCT系数(其可以被认为是缩放的解码谱值)并且基于其提供可以形成时域表示372的时域样本块。
音频解码器300可以可选择地包括后处理376,其可以接收时域表示372并且稍微修改时域表示372,从而获得时域表示372的后处理版本378。
根据本发明,音频解码器300包括错误隐藏380(其可以由隐藏单元100或230中的一个实现)。错误隐藏380接收解码谱值362(其可以体现值101)或其端口处理版本368。
错误隐藏380还可以接收来自频域到时域的变换的时域表示372(其可以体现值102)或来自可选择的后处理376的后处理值378(其可以体现值102’)。然而,在错误隐藏将不同阻尼因子应用于不同频带但是不基于正确解码的音频帧的解码表示得出一个或多个阻尼因子的实施例中,错误隐藏380可能没有必要接收信号372、378。
另外,错误隐藏380为一个或多个丢失的音频帧提供错误隐藏音频信息382。如果音频帧丢失,使得例如没有编码谱值326可用于所述音频帧(或音频子帧),错误隐藏380可以提供错误隐藏音频信息。错误隐藏音频信息可以是音频内容的频域表示(其可以被提供至频域到时域变换器370)或音频内容的时域表示(其可以被提供至信号组合390)。
应注意,错误隐藏380可以例如执行上述错误隐藏单元100和/或错误隐藏230的功能。错误隐藏380可以将时域隐藏信号382输出至信号组合390,或者将频域隐藏信号382’输出至频域到时域的变换370。
关于错误隐藏,应注意,错误隐藏不会在帧解码的同时发生。例如,如果帧n是良好的,那么我们进行正常解码,最后我们保存一些变量,这些变量将对于我们是否需要隐藏下一帧有帮助,然后如果帧n+1丢失,我们调用给出来自先前良好帧的变量的隐藏函数。我们还将更新一些变量以对于下一帧丢失或恢复到下一个良好帧有帮助。
音频解码器300还包括信号组合390,其用于接收时域表示372(或者在存在后处理376的情况下接收后处理的时域表示378)。此外,信号组合390可以接收错误隐藏音频信息382,其通常也是为丢失的音频帧提供的错误隐藏音频信号的时域表示。信号组合390可以例如组合与随后音频帧相关联的时域表示。在存在随后正确解码的音频帧的情况下,信号组合390可以组合(例如,重叠和添加)与这些随后正确解码的音频帧相关联的时域表示。然而,如果音频帧丢失,信号组合390可以组合(例如,重叠和添加)与丢失的音频帧之前的正确解码的音频帧相关联的时域表示和与丢失的音频帧相关联的错误隐藏音频信息,从而在适当接收的音频帧和丢失的音频帧之间具有平滑过渡。类似地,信号组合390可以用于组合(例如,重叠和添加)与丢失的音频帧相关联的错误隐藏音频信息和与丢失的音频帧之后的另一个正确解码的音频帧相关联的时域表示(或者,在多个连续音频帧丢失的情况下的与另一个丢失的音频帧相关联的另一错误隐藏音频信息)。
因此,信号组合390可以提供解码的音频信息312,从而为正确解码的音频帧提供时域表示372或其后处理版本378,以使得错误隐藏音频信息382被提供给丢失的音频帧,其中通常在随后音频帧的音频信息(不管它是由频域到时域的变换370还是由错误隐藏380提供)之间执行重叠和添加操作。由于一些编解码器在需要被取消的重叠和添加部分上具有一些混叠,我们可以可选择地在我们已创建的半帧上创建一些人为混叠来执行重叠添加。
应注意,音频解码器300的功能类似于根据图2的音频解码器200的功能。此外,应注意,根据图3的音频解码器300可以通过本文中描述的任何特性和功能补充。特别地,错误隐藏380可以通过本文中关于错误隐藏所描述的任何特性和功能补充。
在一个实施例中,错误隐藏380可以对缩放因子频带执行隐藏,例如,如下面参考图14所述。在这种情况下,可以或可以不基于正确解码的音频帧的解码表示的特性提供阻尼因子。
5.4频域错误隐藏和淡出
在此,提供如可由错误隐藏单元100实现或使用的涉及频域隐藏的一些信息。例如,可以在缩放器104中部分地或全部地获得下面描述的功能。
频域隐藏功能将解码器的延迟增加一帧。频域隐藏作用于例如恰好在最终频率到时间转换之前的谱数据。在单个帧被破坏的情况下,隐藏可以在最后一个(或最后中的一个)良好帧(正确解码的音频帧)和第一个良好帧之间进行插值,以创建丢失帧的谱数据。可以通过频率到时间转换(例如,频域到时域的变换370)处理先前帧。如果多个帧被破坏,隐藏首先基于来自最后一个良好帧的稍微修改的谱值实施淡出。只要良好帧是可用的,隐藏在新的谱数据中衰落。
在图4中绘示频域隐藏。在步骤401,确定(例如,基于CRC或类似策略)当前音频信息是否包含正确解码的帧。如果确定的结果是肯定的,在402处将正确解码的帧的谱值用作适当的音频信息。谱也被记录在缓冲器403中以供进一步使用。
如果确定的结果是否定的(损坏的帧),在步骤404,先前记录的先前正确解码的音频帧的频谱表示405(在前一周期的步骤403中保存于缓冲器中)用于“替换”损坏的(且丢弃的)音频帧。
特别地,复印机和缩放器407在先前记录的先前正确解码的音频帧的正确解码的频谱表示405的频率范围内复制和缩放频率仓(或谱仓)405a、405b、……的谱值,以获得被用来替代损坏的音频帧的频率仓(或谱仓)的值406a、406b、……。
根据频带携带的特定信息,谱值的每个可以乘以公共缩放值或相应的系数(或阻尼因子)。而且,可以可选择地在谱值406中添加噪声。
此外,在连续隐藏的情况下,可以使用一个或多个阻尼因子410抑制信号以迭代地降低信号的强度。
特别地,在一些实施例中可以可选择地使用不同的阻尼因子410不同地抑制不同的频带(例如,缩放因子频带)。
总之,复印机和缩放器407可以体现缩放器104,并且步骤404可以可选择地还包括噪声插入器107的功能。
5.5正确解码的音频帧的时间能量趋势的分析
根据本发明的实施例,可以基于丢失的音频帧之前的正确解码的音频帧的解码的时域表示(例如,102、102’、372、378)的特性得出阻尼因子(例如,在110、230、380或404中)。
图5示出可以体现分析器111的能量趋势分析器500的示例。能量趋势分析器500包括存储部分(例如,缓冲器)501,其中存储正确解码的音频帧的时域表示的样本。根据一些实施例,样本的数量可以是1024。缓冲器的每个字段存储一个样本的值。
第一部分502可以由一定数量的样本或全部样本形成。第二部分503可以由一定数量的样本(例如最后30%的样本(例如,1024个中的约307个样本))或者帧的后半部分的样本的子集形成。第一部分502的平均时间在第二部分503的平均时间之前。第一部分502的重要数量的样本可以在第二部分503的大多数样本之前。
在504处,可以计算与第二部分503(或表示第二部分503的能量)的能量相关的值504’。由权重块506获得的权重值507也可以应用于第二部分503。例如,能量趋势计算器可以包括(例如通过计算差值或商)值504’、505’,以得出能量趋势值。
在505处,可以计算与第一部分505的能量相关的值505’。
能量趋势计算器508可用于获得能量趋势值509,并且可用于例如计算阻尼因子。
根据一些实施例,即使执行隐藏以便对正确解码的音频帧的频域表示的不同谱带使用不同的阻尼因子,对于相同帧的不同频带,能量趋势值也不会改变。相反,可以针对给定帧计算单个能量趋势值。
5.6帧的第一和第二部分
为了获得(或选择)帧的第一和第二部分(例如,用于计算能量趋势值),可以使用几种策略。
图6(a)示出第一部分502由初始区间的样本形成,而第二部分503包含帧的所有样本。在可选实施例中,第一部分由仅在初始区间的帧中采取的一组样本形成,而第二部分由在整个帧中采取的一组样本形成(不仅在初始区间中)。
图6(b)示出第一部分502包含帧的所有(或几乎所有)样本,而第二部分503由最终区间(或组)的样本形成。例如,第一部分502可以包含1024个样本,第二部分503仅包含最后30%的样本。
图6(c)示出第一部分502包含帧的初始样本,而第二部分503包含最终区间(或组)的样本。
图6(d)示出第一和第二部分是两个不同的区间(或仅从两个不同的区间采取的样本组)以使得第一部分的大多数(或重要组)样本先于第二部分的大多数(或重要组)样本的实施例。
如果每个样本与时间t0、t1、t2...tL(t0和tL分别是帧的第一个和最后一个样本时刻,例如帧的第一个和第1024个样本)相关联,并且帧的一部分通常由从时刻kinitial开始到时刻kfinal结束的时间区间形成,第一区间的平均时间为:
例如,图6(a)中的第二部分503的平均时间和图6(b)中的第一部分502的平均时间正好在帧的中间。
图6(b)的实施例被认为是优选实施例,并且将在以下段落中参考它。
5.7时间能量趋势
可以使用以下公式计算(例如,在趋势计算器508中)时间能量趋势值(例如,509):
其中L是以样本为单位的帧长度(例如,正确解码的音频帧),xk是采样的信号值(例如,在丢失的音频帧之前的正确解码的音频帧的解码表示的值,wk是权重因子,并且c是0.5和0.9之间的值,优选0.6和0.8之间,更优选0.65和0.75之间,甚至更优选0.7。
通过如图6(b)中那样限定音频帧的第一部分和第二部分,时间能量趋势值fac是0和1之间的值。在这种情况下,时间能量趋势fac可以用作百分比:如果所有能量分布在最后区间的帧中,能量趋势的百分比将是100%。如果所有能量都分布于在帧的开始,能量趋势将为0%。
还可以计算验证以下条件的权重因子,以验证以下等式:
已经注意到合适的权重因子是:
其中d是0.4和0.6之间的值,优选0.49和0.51之间,更优选0.499和0.501之间,甚至更优选0.5;其中h是0.15和0.25之间的值,优选0.19和0.21之间,更优选0.199和0.201之间,甚至更优选0.2;其中g为0.05和0.15之间的值,优选为0.09和0.11之间,更优选为0.1。
换句话说,窗值wk可以被归一化。
图7示出权重因子的图形表示700。
能量趋势值定量地描述在丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势。其值或其缩放(或限制)版本可用于限定阻尼因子(例如,103或410)。
5.8.1阻尼因子的计算
图8(a)示出可以体现计算器112的阻尼因子计算器800的示例。在块804,将能量趋势值801(例如,509)与阈值802进行比较。获得阻尼因子803(其可以体现值103或410)。
如果当前能量趋势值位于指示相对较小的能量随时间减小的预定范围内,阻尼因子803可以被设置(例如,通过块804)为低于当前能量趋势值(例如,与能量趋势值相比,指示更大的阻尼或能量随时间减小)的预定值。
如果当前能量趋势值801位于预定范围之外并且指示相对较大的能量随时间减小,阻尼因子803也可以被设置为等于当前能量趋势值801,或者可以随着变化的能量趋势值801线性地变化。
注意,当为不同的频带限定不同的阻尼因子时,可以为正确解码的音频帧的每个频带获得不同的阻尼因子803。例如,可以为每个频带限定不同的阈值802。
作为额外的例子,图8(b)示出使用能量趋势值(例如,509或801)执行的阻尼因子的确定810。在811处,执行能量趋势值的分析。该分析可以考虑根据上面讨论的示例中的一个计算时间能量趋势值。
如果识别出正确解码的音频帧主要包含噪声,在812处执行小的阻尼(或根本没有阻尼),例如通过将阻尼因子限定为0.98或1。
如果识别出正确解码的音频帧主要包含语音但是单词没有在正确解码的音频帧中终止(或者能量趋势值指示相对较小的能量随时间减小),在813处执行减小的(中等的)阻尼,例如通过限定阻尼因子为0.7071。
如果识别出正确解码的音频帧包含语音在相同帧中终止(或者能量趋势值指示显著能量在正确解码的音频帧中减小),在814处执行快速阻尼。在如上计算时间能量趋势值的情况下(并且类似于图6(b)的实施例限定帧的第一和第二部分),也可以将阻尼因子803限定为能量趋势值801(或509)的相同值(或缩放值)。
基本上,可以执行这样的实施例:阻尼因子反映在丢失的音频帧之前的最后正确解码的音频帧的结束部分中的能级的时间演变朝向丢失的音频帧的外推。
注意,当为不同的频带限定不同的阻尼因子时,可以对正确解码的音频帧的每个频带执行步骤811-814。
5.8.2阻尼因子的衰减
可能配置错误隐藏单元,使得在多个连续帧丢失的情况下,阻尼因子衰减,例如,遵循超过指数的衰减。
图8(c)示出图8(a)的变型,其中缩放器807提供阻尼因子803的缩放版本803’。当比较块804通过将能量趋势值801与阈值802进行比较来运行时,阻尼因子803被存储在缓冲器804中。当两个连续帧丢失时,存储在缓冲器804中的阻尼因子(用于第一个丢失的帧或前一帧)乘以查找表805中包含的因子,以便获得用于第二个丢失的帧或者通常是随后帧或当前帧的阻尼因子。
对于连续的帧丢失,当前帧的阻尼因子fac可以取决于前一个fac-1:
其中nbLost是连续丢失的帧的数量。由于更快的淡出,这导致较少的后回声。
注意,当为不同的频带限定不同的阻尼因子时,不同的衰减可以应用于不同的频带。
5.9创新方法
图9(a)示出用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏方法900,包括以下步骤:
-在910处,基于丢失的音频帧之前的正确解码的音频帧(例如,包含在501中)的解码表示(例如,102)的特性得出阻尼因子(例如,阻尼因子103、803或803’),以及
-在920处,使用阻尼因子执行淡出(例如,在811-814处)。
图9(b)示出变形900b,其中,在步骤910之前执行对正确解码的音频帧的能量趋势值进行分析的步骤905。
注意,当为不同的频带限定不同的阻尼因子时,对于正确解码的音频帧的不同频带重复(例如,通过迭代)方法。
6.本发明的实施例和实验结果的运行
根据本发明旨在淡出隐藏的帧。
图10示出具有信号的谱视图的图示1000,其中由附图标记1002和1003指示的一些帧使用传统技术隐藏。即使在先前正确解码的帧中语音已被终止,人为地解释令人讨厌的回声。
特别是对于语音或瞬态信号,静态阻尼因子是不够的,例如,如果第一个丢失的帧恰好在单词的结束之后,这将导致令人讨厌的后回声(见左下图)。为了防止这种情况,必须使阻尼因子适应于当前信号。根据G.729.1[3]和EVS[4],提出了一种自适应淡出,其取决于信号特性的稳定性。因此,该因子取决于最后良好接收的超帧类的参数和连续擦除的超帧的数量。该因子还取决于无声的超帧的LP滤波器的稳定性。由于在如AAC-ELD[5]的AAC解码器中没有可用的信号特性,编解码器使用固定因子盲目地使得隐藏的信号阻尼,这可以导致上述令人讨厌的重复伪声。
为了解决实施例中的问题,观察最后合成的良好帧x(例如,正确解码的音频帧)的时间能量趋势值,以计算第一个丢失的帧的新阻尼因子fac。将最后一帧x中随时间变化的能级演变外推至下一帧,这将确定阻尼因子。因此,通过关于完整的先前良好帧x的能量设置x的最后样本的能量计算阻尼因子:
其中L是帧长度并且wk是修改的汉恩窗:
窗的形状以这样的方式设计
与[1]中的将0.7071的静态阻尼因子始终应用于整个谱相比,如果阻尼因子低于0.7071的默认值,将使用所计算的阻尼因子fac;否则,将使用fac=0.7071。在一些情况下,我们有一些关于可以是说明信号是否具有有声的、嘈杂的或起始的特性的信号的能量稳定性或信号类别的信号特性的在先知识。然后(例如,如果在丢失的音频帧之前正确解码的音频帧被分类为噪声),通过使用所计算的阻尼因子有时有利于较慢地淡出。例如,如果信号确实是嘈杂的,我们希望保持能量恒定,这尤其有助于单帧丢失。最后,阻尼因子可以以1最大化,以防止高能量增加伪声。
在现有技术[1]中,在多帧丢失期间,频谱被0.7071的恒定因子缩放。在本发明的方法中,自适应阻尼因子仅用在第一隐藏的帧中。对于连续帧丢失,当前帧(fac)的阻尼因子将取决于前一帧(fac-1):
其中nbLost是连续丢失的帧的数量。由于更快的淡出(或描述当前帧是否是丢失的帧的序列的第二、第三、第四…丢失帧的指标),这导致较少的后回声。
从图11中可以看出,区域1002和1003(现有技术中已经被令人讨厌的回声影响)现在已经被有利地“抛光”。
7.本公开的其他实施例
图14示出相同的正确解码的音频帧的不同频带(或仓)被不同地抑制的错误隐藏1400。尽管可能,但并不是严格必须体现图1或图3体现图14。
参考图2和4,为了提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息,获得错误隐藏单元。错误隐藏单元用于基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息。错误隐藏单元用于针对不同频带使用不同阻尼因子执行淡出。
存储于不同的存储器部分(例如,缓冲器)405a、405b…405g中的不同的仓由不同的阻尼因子1408a、1408b…1408g缩放(阻尼因子乘以缩放器407a、407b…407g处的仓值),以获得存储于隐藏音频信息的不同存储部分406a、406b…406g中的不同的仓。
根据一个实施例,可以基于丢失的音频帧之前的正确解码的音频帧的谱域表示的特性得出不同的阻尼因子。
图14示出在块1402在不同频带1403a、1403b…1403g之间细分正确解码的音频帧的FD表示。每个频带的一个或多个谱仓值在1404a、1404b…1404g处缩放。随后,频带的值彼此组合并在块1406(其可以与上面讨论的块370相同)处变换并且可以用作隐藏音频信息1407。
块1402实际上不存在,在简单的实施例中,仅表示谱仓值的逻辑分组。类似地,块1405实际上不存在,但是表示修改的(缩放的)谱值的逻辑组合。
可以修改一个或多个阻尼因子,以便使得在丢失的音频帧之前的正确解码的音频帧的有声的频带(或具有相对高能量的频带)比在丢失的音频帧之前的正确解码的音频帧的无声的或类似噪声的频带更快地淡出。
根据一个实施例,可以修改阻尼因子1408a、1408b…1408g,以便使得正确解码的音频帧的具有每谱仓的相对较高的能量的一个或多个频带(即,整个谱的第i个频带)比在丢失的音频帧之前的正确解码的音频帧的具有每谱仓的相对较低的能量的一个或多个频带更快地淡出。
如图15(a)中可以看出,在比较块1504处,可以基于与正确解码的音频帧中的至少一个频带相关联的能量值1501与阈值1502之间的比较为至少一个频带1403a、1403b…1403g设置阻尼因子1503。
根据一个实施例,如果与至少一个频带相关联的能量值低于阈值,可以对至少一个频带使用预定阻尼因子。如果与至少一个频带相关联的能量值高于阈值,可以对至少一个频带使用小于预定阻尼因子的阻尼因子(其可以通常指示更强的阻尼或更快的淡出)。
根据一个实施例,如果与至少一个频带相关联的能量值低于阈值,可以对于至少一个频带使用表示相对较慢的淡出的阻尼因子。如果与至少一个频带相关联的能量值高于阈值,错误隐藏单元可以用于对于至少一个频带使用表示相对较快的淡出的阻尼因子。
根据一个实施例,如果与至少一个频带相关联的能量值低于阈值,可以将阻尼因子限定为预定值。如果与至少一个频带相关联的能量值高于阈值,可以基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值得出用于至少一个频带的阻尼因子,以便比与至少一个频带相关联的能量值低于阈值的情况更快地淡出至少一个频带。
图15(b)示出通过将与一个频带的能量相关的值(例如,正确解码的音频帧的谱的第i个频带)与阈值(例如,阈值1502)比较执行的确定1510。在1511处,执行确定。该确定可以考虑根据上面讨论的示例的一个计算第i频带中的时间能量趋势值(也参见上面的图5和8(b)以及说明书中的相关段落)。
如果识别出正确解码的音频帧的第i频带包含噪声(例如,与频带的能量相关的值低于阈值),在1512处执行小阻尼(或根本没有阻尼),例如,通过将阻尼因子限定为在0.95和1之间的值。
如果识别出第i个频带包含语音但是单词没有在正确解码的音频帧中终止(或者随时间减小的能量小于预定阈值),在1513执行减小的阻尼,例如,通过限定阻尼因子为0.7071。
特别地,如果识别出正确解码的音频帧的第i个频带包含终止于同一帧的语音的元素,在1514执行强阻尼。在如上计算时间能量趋势值(并且类似于图6(b)的实施例限定帧的第一和第二部分)的情况下,也可以将阻尼因子限定为频带i的能量趋势值801的相同的值(或缩放的值)。
然而,不必将本发明限制为仅两个阻尼因子(如在1512或1513处所使用的)。还可以限定具有两个以上的默认因子:例如,类似于0.7071的值作为中间阻尼(1513);0.9用于较低频带;0.95用于中间频带;0.98用于较高频带,作为小阻尼因子(1512),如果信号类别为有声的则为0.9,如果信号类别为无声的则为0.95,作为小阻尼因子(1512)等。
如图15(c)中可以看出,可以为不同的频带i、i+1等限定不同的阈值1501i、1501(i+1)等,以获得不同的阻尼因子1503i、1503(i+1)等。在图12中提供示例,其中阈值根据频率而变化,这意味着与不同频带(或缩放因子频带)的能量相关的值与不同的阈值进行比较。
特别地,可以基于至少一个频带的能量值或平均能量值或预期能量值设置阈值。
根据一个实施例,可以基于在丢失的音频帧之前的正确解码的音频帧的能量值与在丢失的音频帧之前的正确解码的音频帧的整个谱中的谱线的数量之间的比率设置阈值。
阈值可以基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值。
可以使用以下公式获得用于第i个频带的阈值:
thresholdi=newEnergyperLine·nbOfLinesi
其中nbOfLinesi是第i个频带中的线的数目,其中
值fac表示在丢失的音频帧之前的正确解码的音频帧中的时间能量趋势值,或者从表示在丢失的音频帧之前的正确解码的音频帧中的时间能量趋势值的量得出的阻尼值。值energytotal是在丢失的音频帧之前的正确解码的音频帧的所有频带上的总能量。值nbOfTotalLines是丢失的音频帧之前的正确解码的音频帧的谱线的总数。
频带可以是缩放因子频带,其谱值使用不同的缩放因子进行缩放。用于缩放逆量化谱值的不同缩放因子与不同缩放因子频带相关联。可以使用阻尼因子缩放在丢失的音频帧之前的音频帧的频谱表示,以便得出丢失的音频帧的隐藏的频谱表示。
可以使用不同的阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示的不同频带,从而以不同的淡出速度淡出不同频带的谱值,以便得出丢失的音频帧的隐藏的频谱表示。
以图15(b)为参考,对于正确解码的帧的每第i个频带,可以是:
-在1512处,如果在1511处优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧是类噪声的,将与第i个频带相关联的阻尼因子设置为第一预定值,其指示比第二预定值小的阻尼,和/或
-在1513处,如果在1511处优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中没有结束,将与第i个频带相关联的阻尼因子设置为第二预定值,和/或
-在1514处,如果在1511处优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将与第i个频带相关联的阻尼因子设置为基于能量趋势值或其缩放版本的值;
-在1515处,选择新的频带i+1,并且对新的频带重复上述过程。
根据一个实施例,错误隐藏单元用于将给定的第i个频带中的能量与阈值(例如,1502)进行比较,以及
-如果给定的第i个频带中的能量大于阈值,错误隐藏单元为给定的第i个频带提供缩放因子,该缩放因子是基于在丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值得出的;以及
-如果优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧被识别为类噪声的,并且如果给定的第i个频带中的能量小于阈值,错误隐藏单元将阻尼因子设置为第一预定值(例如,在1512处),其指示比第二预定值更小的阻尼;和/或
-如果优选地基于比特流信息或基于信号分析识别出在丢失的音频帧之前的正确解码的音频帧不是类噪声的,错误隐藏单元用于将阻尼因子设置为第二预定值。
根据一个实施例,错误隐藏单元进行谱域到时域的变换(例如,在1406处),以便获得在丢失的音频帧之前的正确解码的音频帧的解码表示(例如,1407)。
图16(a)示出用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏方法1600,其中正确解码的音频帧的谱表示被细分为1、2…i等频带,该方法包括以下步骤:
-在1605处,选择第一频带1(例如,i:=1);
-在910处,对于频带i基于丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出阻尼因子;
-在920处,使用用于频带i的阻尼因子执行淡出;
-在1630处,选择新的频带i+1;
-对正确解码的音频帧的谱视图的所有频带重复此过程。
图16(b)示出变形1600b,其中,在步骤910(参见图16(a))之前执行分析正确解码的音频帧的能量趋势值的步骤905。
在方法1600和1600b中,保持方法900和900b的附图标记以允许理解方法的不同实施例之间的相似性。
8.本发明的实施例和实验结果的运行
根据本发明的方面,在此发现通过使用不同的阻尼因子淡出信号的不同频带淡出隐藏的帧是有利的。
已经发现,并不总是期望以相同的速度使得信号的每个部分阻尼。例如,在语音具有背景噪声的情况下,我们希望淡出信号的有声部分而不会过多地淡出背景噪声以避免来自谱中的空洞的令人讨厌的伪声。因此,在一些实施例中,阻尼因子在信号的不同频率区域上被不同地应用。这可以基于LPC或缩放因子来完成。
一种应用是下面解释的缩放因子频带相依阻尼(也参见图12)。
为了防止可能出现在现有技术方法中的低能量缩放因子频带(SFB)中的能隙/谱空洞,将逐缩放因子带地应用阻尼因子。如果SFB的能量高于某阈值,将使用修改的阻尼因子fac(其可以例如如5.7节中所述获得)。否则,将应用0.7071(1/21/2)的默认阻尼因子(例如,参见图12)。在某些情况下,淡出甚至更慢地淡出低于阈值的SFB是有益的;因此,这些部分不会变为零,这意味着信号朝向淡出的白噪声衰落。
例如,阈值可以取决于每个频带中的线的数目。这意味着,对于SFB i,阈值为:
thresholdi=newEnergyPerLine·nbOfLinesi
其中nbOfLinesi是第i个SFB中的线的数目且
其中nbOfTotalLines是整个谱中的全部线的数目,以及energytotal是所有SFB上的总能量。
可以通过图13(a)和(b)(纵坐标:以百ms或hms为单位的时间;横坐标:频率)的结果提供示例,其中将非阻尼信号的图1300a与阻尼信号的图1300b进行比较。较高阻尼区域1301(主要是语音,特别是语音已经终止的帧)在与不变区域1302(主要是非抑制的噪声)相对的位置中示出。特别地,图13(a)中发生的较高阻尼区域1301在图13(b)中被合适地抑制,因此减小令人讨厌的回波。相反,优选地,区域1302的噪声没有被抑制。
9.结论
描述了用于频域音频编解码器中的封包丢失隐藏的自适应淡出。
在封包丢失的情况下,语音和音频编解码器通常朝向零或背景噪声衰落以防止令人讨厌的重复伪声。对于所有AAC系列解码器,无论信号特性如何,隐藏的频谱都会以恒定的阻尼因子淡出。特别是对于语音或瞬态信号,静态阻尼因子可能不足。因此,根据本发明的实施例,依据最后良好帧的时间能量趋势值计算自适应阻尼因子。此外,在隐藏的频谱上应用频率自适应阻尼以避免谱中的令人讨厌的空洞。
例如,可以在技术领域ELD、XLD、DRM或MPEG-H中例如与这种类型的音频解码器组合使用实施例。
10.额外的说明
在封包丢失的情况下,语音和音频编解码器通常朝向零或背景噪声衰落,以防止令人讨厌的重复伪声。
对于所有AAC系列解码器,无论信号特性如何,隐藏的频谱以恒定的阻尼因子淡出。
特别是对于语音或瞬态信号,静态阻尼因子是不够的。
因此,提供了一种用于依据最后良好帧的时间能量趋势计算自适应阻尼因子的工具。
此外,在隐藏的频谱上应用频率自适应阻尼以避免谱中的令人讨厌的空洞。
11.实施替代方案
尽管已经在装置的上下文中描述了一些方面,但是显然这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。相似地,在方法步骤的上下文中描述的方面还表示对应装置的对应块或项或特征的描述。一些或所有方法步骤可以由(或使用)硬件装置执行,如例如微处理器、可编程计算机或电子电路。在一些实施例中,一些或多个最重要的方法步骤可以由这样的装置执行。
根据某些实施要求,本发明的实施例可以在硬件或软件中实施。可以使用具有存储于其上的电子可读控制信号的例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器的数字存储介质进行实施,电子可读控制信号与可编程计算机系统协作(或能够协作)以执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实施为具有程序代码的计算机程序产品,该程序代码可操作用于当计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括用于执行存储在机器可读载体上的本文所述方法之一的计算机程序。
换句话说,所发明的方法的实施例因此是具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或数字存储介质,或计算机可读介质),其包括记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非易失的。
因此,本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如用于经由数据通信连接传输,例如经由因特网。
另一实施例包括处理构件,例如计算机或可编程逻辑设备,用于或适用于执行本文所述的方法之一。
另一实施例包括计算机,其上安装有用于执行本文所述方法之一的计算机程序。
根据本发明的另一实施例包括一种用于将用于执行本文所述方法之一的计算机程序传送(例如,电子地或光学地)至接收器的装置或系统。接收器可以例如是计算机、移动设备、存储设备等。该装置或系统可以例如包括用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文描述的方法之一。通常,优选地由任何硬件装置执行方法。
可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合实施本文描述的装置。
可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合执行本文描述的方法。
上述实施例仅用于说明本发明的原理。应理解,本文所述的布置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因此,意在仅受到以下专利权利要求的范围的限制,而不受通过本文实施例的描述和解释呈现的具体细节的限制。
12.参考文献
[1]3GPP TS 26.402,,Enhanced aacPlus general audio codec;Additionaldecoder tools(Release 11)”,
[2]J.Lecomte,et al,“Enhanced time domain packet loss concealment inswitched speech/audio codec”,submitted to IEEE ICASSP,Brisbane,Australia,Apr.2015.
[3]WO 2015063045 A1
[4]“Apparatus and method for improved concealment of the adaptivecodebook in ACELP-like concealment employing improved pitch lag estimation”,2014,PCT/EP2014/062589
[5]“Apparatus and method for improved concealment of the adaptivecodebook in ACELP-like concealment employing improved pulse“synchronization”,2014,PCT/EP2014/062578
Claims (25)
1.一种错误隐藏单元(100,230,380),用于提供用于对编码的音频信息(210)中的音频帧的丢失进行隐藏的错误隐藏音频信息(107,232,382),
其中所述错误隐藏单元用于基于丢失的音频帧之前的正确解码的音频帧(102,403,501)为丢失的音频帧提供错误隐藏音频信息,
其中所述错误隐藏单元用于基于所述丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出(8004,811,910,1504)阻尼因子(103,410,803,1408a-1408c),以及
其中所述错误隐藏单元用于使用所述阻尼因子(103,410,803,1408a-1408c)执行淡出(104,404,812-814,920)。
2.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于基于所述丢失的音频帧之前的正确解码的音频帧的解码的时域表示(102,372)的特性得出所述阻尼因子(103,410,803,1408a-1408c)。
3.根据权利要求2所述的错误隐藏单元,其中所述错误隐藏单元用于执行所述解码的时域表示(102)的分析(111,500),并且基于所述解码的时域表示的分析得出所述阻尼因子(103,410,803,1408a-1408c)。
4.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于基于所述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势(509,801)得出所述阻尼因子(103,410,803,1408a-1408c)。
5.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于计算所述丢失的音频帧之前的正确解码的音频帧(501)的解码表示的第一部分(502)或其加权版本的能量。
6.根据权利要求1所述的错误隐藏单元,用于计算所述丢失的音频帧之前的正确解码的音频帧的解码表示的第二部分(503)或其加权版本的能量。
7.根据权利要求5所述的错误隐藏单元,用于计算所述丢失的音频帧之前的正确解码的音频帧的解码表示的第二部分(503)或其加权版本的能量,以使得所述解码表示的第一部分的开始在时间上先于所述解码表示的第二部分的开始。
8.根据权利要求5所述的错误隐藏单元,用于计算所述丢失的音频帧之前的正确解码的音频帧的解码表示的第二部分(503)或其加权版本的能量,以使得所述第一部分的时间值的平均在时间上先于所述第二部分的时间值的平均。
9.根据权利要求7或8所述的错误隐藏单元,其中所述错误隐藏单元用于依据所述第一部分的能量并且依据所述第二部分的能量计算所述阻尼因子(103,410,803,1408a-1408c)。
10.根据权利要求5所述的错误隐藏单元,其中所述解码表示的第二部分包含所述丢失的音频帧之前的正确解码的音频帧的解码表示的最后区间的样本,以及
其中所述解码表示的第一部分包含所述丢失的音频帧之前的正确解码的音频帧的所有样本,或者与所述第二部分重叠的所述丢失的音频帧之前的正确解码的音频帧的区间的样本,以使得所述第一部分的至少一些样本先于所述第二部分的所有样本。
11.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于计算
所述丢失的音频帧之前的正确解码的音频帧的解码表示的结束部分中的能量,或者所述丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本的结束部分中的能量,以及
所述丢失的音频帧之前的正确解码的音频帧的解码表示中的总能量,或者所述丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本中的总能量
之间的商,以获得所述阻尼因子(103,410,803,1408a-1408c)。
12.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于相对于先前隐藏的音频帧减小所述阻尼因子(103,410,803,1408a-1408c)并且使用减小的阻尼因子(103,410,803,1408a-1408c)淡出所述先前隐藏的音频帧之后的至少一个随后隐藏的音频帧。
13.根据权利要求12所述的错误隐藏单元,其中所述错误隐藏单元用于根据超过指数时间衰减在至少三个连续隐藏的音频帧上执行淡出。
14.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于确定定量地描述所述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势的能量趋势值,以及
其中所述错误隐藏单元用于使用所述能量趋势值或其缩放版本来限定所述阻尼因子(103,410,803,1408a-1408c)。
15.根据权利要求14所述的错误隐藏单元,其中,如果当前能量趋势值位于指示相对小的能量随时间减小的预定范围内,所述错误隐藏单元用于将所述阻尼因子(103,410,803,1408a-1408c)设置为低于所述当前能量趋势值的预定值。
16.根据权利要求14所述的错误隐藏单元,其中,如果当前能量趋势值位于预定范围之外并且指示相对较大的能量随时间减小,所述错误隐藏单元用于确定所述阻尼因子(103,410,803,1408a-1408c),以使得所述阻尼因子等于所述当前能量趋势值或随变化的能量趋势值线性地变化。
17.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于:
如果优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类噪声的,将所述阻尼因子(103,410,803,1408a-1408c)设置为第一预定值,所述第一预定值指示比第二预定值小的阻尼,和/或
如果优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类语音的并且语音没有在所述丢失的音频帧之前的正确解码的音频帧中结束,将所述阻尼因子(103,410,803,1408a-1408c)设置为第二预定值,和/或
如果优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在所述丢失的音频帧之前的正确解码的音频帧中衰减或结束,将所述阻尼因子(103,410,803,1408a-1408c)设置为基于能量趋势值或其缩放版本的值。
18.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于为不同的频带确定不同的阻尼因子(103,410,803,1408a-1408c)。
19.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于得出所述阻尼因子(103,410,803,1408a-1408c),以使得所述阻尼因子(103,410,803,1408a-1408c)反映所述丢失的音频帧之前的最后正确解码的音频帧的结束部分中的能级的时间演变朝向所述丢失的音频帧的外推。
20.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于使用所述阻尼因子(103,410,803,1408a-1408c)淡出所述丢失的音频帧之前的音频帧的音频内容。
21.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于使用所述阻尼因子(103,410,803,1408a-1408c)缩放所述丢失的音频帧之前的音频帧的频谱表示,以便得出所述丢失的音频帧的隐藏的频谱表示。
22.根据权利要求1所述的错误隐藏单元,其中所述错误隐藏单元用于执行谱域到时域变换,以便获得所述丢失的音频帧之前的正确解码的音频帧的解码表示。
23.一种用于提供用于对编码的音频信息中的音频帧的丢失进行隐藏的错误隐藏音频信息的错误隐藏方法,包括以下步骤:
基于丢失的音频帧之前的正确解码的音频帧的解码表示的特性得出阻尼因子(103,410,803,1408a-1408c),并使用所述阻尼因子执行淡出。
24.一种存储指令的计算机可读存储单元,当所述指令由计算机运行时,使所述计算机执行根据权利要求23所述的方法。
25.一种音频解码器,用于基于编码的音频信息提供解码的音频信息,所述音频解码器包括根据权利要求1所述的错误隐藏单元。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16159033 | 2016-03-07 | ||
EP16159033.6 | 2016-03-07 | ||
EP16171444 | 2016-05-25 | ||
EP16171444.9 | 2016-05-25 | ||
PCT/EP2017/055107 WO2017153300A1 (en) | 2016-03-07 | 2017-03-03 | Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109155134A CN109155134A (zh) | 2019-01-04 |
CN109155134B true CN109155134B (zh) | 2023-05-23 |
Family
ID=58213109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780028408.1A Active CN109155134B (zh) | 2016-03-07 | 2017-03-03 | 隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法 |
Country Status (11)
Country | Link |
---|---|
US (2) | US10937432B2 (zh) |
EP (1) | EP3427258B1 (zh) |
JP (1) | JP6883047B2 (zh) |
KR (1) | KR102192999B1 (zh) |
CN (1) | CN109155134B (zh) |
BR (1) | BR112018068060A2 (zh) |
CA (1) | CA3016730C (zh) |
ES (1) | ES2870959T3 (zh) |
MX (1) | MX2018010756A (zh) |
RU (1) | RU2712093C1 (zh) |
WO (1) | WO2017153300A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10225395B2 (en) * | 2015-12-09 | 2019-03-05 | Whatsapp Inc. | Techniques to dynamically engage echo cancellation |
CA3016730C (en) * | 2016-03-07 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame |
WO2020164751A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment |
CN113454714B (zh) * | 2019-02-21 | 2024-05-14 | 瑞典爱立信有限公司 | 根据mdct系数的频谱形状估计 |
CN113035208B (zh) * | 2021-03-04 | 2023-03-28 | 北京百瑞互联技术有限公司 | 一种音频解码器的分级错误隐藏方法、装置及存储介质 |
CN114613372B (zh) * | 2022-02-21 | 2022-10-18 | 北京富通亚讯网络信息技术有限公司 | 一种音频传输抗丢包的错误隐藏技术方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1074975A2 (en) * | 1999-08-05 | 2001-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for decoding an audio signal with transmission error concealment |
CN101155140A (zh) * | 2006-10-01 | 2008-04-02 | 华为技术有限公司 | 音频流错误隐藏的方法、装置和系统 |
CN101405791A (zh) * | 2006-10-25 | 2009-04-08 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频子带值的装置和方法以及用于产生时域音频采样的装置和方法 |
CN101689961A (zh) * | 2007-03-20 | 2010-03-31 | 弗劳恩霍夫应用研究促进协会 | 数据分组序列的传输设备和方法及其解码器和设备 |
WO2015003027A1 (en) * | 2013-07-05 | 2015-01-08 | Dolby International Ab | Packet loss concealment apparatus and method, and audio processing system |
WO2015063045A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
CN104969290A (zh) * | 2013-02-05 | 2015-10-07 | 瑞典爱立信有限公司 | 用于对音频帧丢失隐藏进行控制的方法和设备 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2177413A1 (en) * | 1995-06-07 | 1996-12-08 | Yair Shoham | Codebook gain attenuation during frame erasures |
US6675054B1 (en) | 1998-04-20 | 2004-01-06 | Sun Microsystems, Inc. | Method and apparatus of supporting an audio protocol in a network environment |
US6597961B1 (en) * | 1999-04-27 | 2003-07-22 | Realnetworks, Inc. | System and method for concealing errors in an audio transmission |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
SE527669C2 (sv) | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Förbättrad felmaskering i frekvensdomänen |
JP5202960B2 (ja) | 2005-01-31 | 2013-06-05 | スカイプ | 通信システムにおけるフレームの連結方法 |
US20070282601A1 (en) * | 2006-06-02 | 2007-12-06 | Texas Instruments Inc. | Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder |
KR101292771B1 (ko) * | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
JP4708446B2 (ja) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
WO2008126347A1 (ja) * | 2007-03-16 | 2008-10-23 | Panasonic Corporation | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
US20110022924A1 (en) * | 2007-06-14 | 2011-01-27 | Vladimir Malenovsky | Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711 |
US20100195490A1 (en) | 2007-07-09 | 2010-08-05 | Tatsuya Nakazawa | Audio packet receiver, audio packet receiving method and program |
FR2929466A1 (fr) | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
CN102057424B (zh) | 2008-06-13 | 2015-06-17 | 诺基亚公司 | 用于经编码的音频数据的错误隐藏的方法和装置 |
CN104934036B (zh) | 2010-11-22 | 2018-11-02 | 株式会社Ntt都科摩 | 音频编码装置、方法以及音频解码装置、方法 |
PL2661745T3 (pl) * | 2011-02-14 | 2015-09-30 | Fraunhofer Ges Forschung | Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio |
US9047863B2 (en) | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
KR102102450B1 (ko) | 2012-06-08 | 2020-04-20 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
CN104718570B (zh) | 2012-09-13 | 2017-07-18 | Lg电子株式会社 | 帧丢失恢复方法,和音频解码方法以及使用其的设备 |
TR201808890T4 (tr) | 2013-06-21 | 2018-07-23 | Fraunhofer Ges Forschung | Bir konuşma çerçevesinin yeniden yapılandırılması. |
MX371425B (es) | 2013-06-21 | 2020-01-29 | Fraunhofer Ges Forschung | Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono. |
ES2635027T3 (es) | 2013-06-21 | 2017-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores |
ES2739477T3 (es) | 2013-10-31 | 2020-01-31 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CA3016730C (en) | 2016-03-07 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame |
MX2018010754A (es) * | 2016-03-07 | 2019-01-14 | Fraunhofer Ges Forschung | Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes. |
-
2017
- 2017-03-03 CA CA3016730A patent/CA3016730C/en active Active
- 2017-03-03 EP EP17708528.9A patent/EP3427258B1/en active Active
- 2017-03-03 WO PCT/EP2017/055107 patent/WO2017153300A1/en active Application Filing
- 2017-03-03 BR BR112018068060A patent/BR112018068060A2/pt active Search and Examination
- 2017-03-03 RU RU2018134938A patent/RU2712093C1/ru active
- 2017-03-03 JP JP2018547420A patent/JP6883047B2/ja active Active
- 2017-03-03 KR KR1020187028548A patent/KR102192999B1/ko active IP Right Grant
- 2017-03-03 MX MX2018010756A patent/MX2018010756A/es unknown
- 2017-03-03 ES ES17708528T patent/ES2870959T3/es active Active
- 2017-03-03 CN CN201780028408.1A patent/CN109155134B/zh active Active
-
2018
- 2018-09-06 US US16/123,427 patent/US10937432B2/en active Active
-
2020
- 2020-08-28 US US17/006,349 patent/US11386906B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1074975A2 (en) * | 1999-08-05 | 2001-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for decoding an audio signal with transmission error concealment |
CN101155140A (zh) * | 2006-10-01 | 2008-04-02 | 华为技术有限公司 | 音频流错误隐藏的方法、装置和系统 |
WO2008040250A1 (fr) * | 2006-10-01 | 2008-04-10 | Huawei Technologies Co., Ltd. | Procédé, dispositif et système destinés au masquage d'erreurs d'un flux de données audio |
CN101405791A (zh) * | 2006-10-25 | 2009-04-08 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频子带值的装置和方法以及用于产生时域音频采样的装置和方法 |
CN101689961A (zh) * | 2007-03-20 | 2010-03-31 | 弗劳恩霍夫应用研究促进协会 | 数据分组序列的传输设备和方法及其解码器和设备 |
CN104969290A (zh) * | 2013-02-05 | 2015-10-07 | 瑞典爱立信有限公司 | 用于对音频帧丢失隐藏进行控制的方法和设备 |
WO2015003027A1 (en) * | 2013-07-05 | 2015-01-08 | Dolby International Ab | Packet loss concealment apparatus and method, and audio processing system |
WO2015063045A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
Non-Patent Citations (2)
Title |
---|
H.264视频解码系统的错误隐藏技术研究;陶小娟;《中国优秀硕士学位论文全文数据库》;20140515(第5期);全文 * |
Streaming real-time audio and video data with transformation-based error concealment and reconstruction;B.W. Wah;《Proceedings of the First International Conference on Web Information Systems Engineering》;20020806;全文 * |
Also Published As
Publication number | Publication date |
---|---|
KR20180123686A (ko) | 2018-11-19 |
KR102192999B1 (ko) | 2020-12-18 |
CN109155134A (zh) | 2019-01-04 |
US11386906B2 (en) | 2022-07-12 |
CA3016730A1 (en) | 2017-09-14 |
EP3427258B1 (en) | 2021-03-31 |
CA3016730C (en) | 2021-09-28 |
RU2712093C1 (ru) | 2020-01-24 |
US20210056977A1 (en) | 2021-02-25 |
EP3427258A1 (en) | 2019-01-16 |
JP2019512733A (ja) | 2019-05-16 |
ES2870959T3 (es) | 2021-10-28 |
JP6883047B2 (ja) | 2021-06-02 |
MX2018010756A (es) | 2019-01-14 |
US20190005965A1 (en) | 2019-01-03 |
WO2017153300A1 (en) | 2017-09-14 |
BR112018068060A2 (pt) | 2019-01-08 |
US10937432B2 (en) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313905B (zh) | 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法 | |
US10283124B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
EP3336839B1 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
CN109155134B (zh) | 隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |