CN109313905B - 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法 - Google Patents

隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法 Download PDF

Info

Publication number
CN109313905B
CN109313905B CN201780028290.2A CN201780028290A CN109313905B CN 109313905 B CN109313905 B CN 109313905B CN 201780028290 A CN201780028290 A CN 201780028290A CN 109313905 B CN109313905 B CN 109313905B
Authority
CN
China
Prior art keywords
audio frame
error concealment
concealment unit
correctly decoded
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780028290.2A
Other languages
English (en)
Other versions
CN109313905A (zh
Inventor
杰雷米·勒孔特
艾德里安·托马斯克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN109313905A publication Critical patent/CN109313905A/zh
Application granted granted Critical
Publication of CN109313905B publication Critical patent/CN109313905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了用于提供错误隐藏音频信息(1407)的错误隐藏单元(1402‑1405)、方法和计算机程序,错误隐藏音频信息(1407)用于隐藏编码的音频信息中音频帧的丢失。在一个实施例中,错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧使用频域隐藏提供错误隐藏音频信息(1407)。错误隐藏单元被配置为对不同的频带(1403a‑1403g)根据不同的阻尼因子(1404a‑1404g)淡出(920)隐藏的音频帧。

Description

隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法
技术领域
根据本发明的实施例创建用于提供用于隐藏编码音频信息中音频帧或多个音频帧的丢失的错误隐藏音频信息的错误隐藏单元。
根据本发明的实施例创建用于基于编码音频信息提供解码音频信息的音频解码器,解码器包括错误隐藏单元。
根据本发明的一些实施例创建用于提供用于隐藏编码音频信息中音频帧的丢失的错误隐藏音频信息的方法。
根据本发明的一些实施例创建用于执行所述方法中的一个的计算机程序。
一些实施例与将自适应阻尼因子用于频域音频编解码器的使用有关。
背景技术
近年来,对音频内容的数字传送和存储的需求增加。然而,音频内容通常在不可靠的信道上传送,这带来包括一个或多个音频帧(例如,以编码表示的形式,比如,例如,编码频域表示或编码时域表示)的数据单元(例如,包)丢失的风险。在一些情况下,将可以请求丢失的音频帧(或包括一个或多个丢失的音频帧的数据单元,如包)的重复(重发送)。然而,这通常带来大的延迟,并因此能需要音频帧的广泛的缓存。在其他情况下,几乎不可能请求丢失的音频帧的重复。
为在音频帧丢失而不提供广泛的缓存(这将消耗大量的内存并还可能极大地降低音频编码的实时能力)的情况下获得好的或至少可接受的音频质量,期望具有处理一个或多个音频帧的丢失的概念。特别地,期望具有甚至在音频帧丢失的情况下带来好的音频质量或者至少可接受的音频质量的概念。
过去,已经发展了一些错误隐藏概念,其可以用于不同的音频编码概念中。先进的音频编解码器(AAC)中的传统隐藏技术是噪声替代。其在频域中操作并适用于嘈杂和音乐项目。
还已经发展了用于降低替代帧(或频谱值)的强度的淡出技术。这些技术还通常是基于以预定系数(阻尼因子)缩放替代帧。一般地,阻尼因子被表示为0至1之间的值:阻尼因子越低,淡出越强。
在包丢失的情况下,语音和音频编解码器通常向零或背景噪声淡出以防止令人讨厌的重复伪象。例如在G.719[1]中,合成信号被以因子0.5递减地缩小且然后被用作当前帧的重构变换系数。对于如[2]的所有AAC家族解码器,当不允许附加的延迟时,以等于
Figure GDA0004051504450000021
Figure GDA0004051504450000022
的恒阻尼因子淡出隐藏的频谱。此阻尼因子应用在整个频谱上,而不管信号特征。
然而,特别对于语音或瞬态信号,这样的淡出技术不完全令人满意。当第一丢失的帧正好在话语结尾后时,噪声替代将意味着先前正确解码的音频帧(即,其中话语结束的帧)的重复:语音的无用部分(不携带信息)将被重复,意味着令人讨厌的后回声。例如,参见图10(具有回声)与图11(其中不存在回声)的比较。图10和11的纵轴表示频率且横轴表示时间(以百ms或hms)
此回声是正确解码的音频帧的重复的直接的、不可避免的结果。
克服这样的技术损害将是优选的。G.729.1[3]和EVS[4]提出自适应谈出技术,其取决于信号特征的稳定性。淡出因子取决于最后良好接收的超帧类的参数和连续擦除的超帧的数量。因子还取决于用于非声音超帧的LP滤波器的稳定性(执行声音帧和非声音帧之间的分类)。由于在如AAC-ELD[5]的AAC解码器中没有信号特征可用,编解码器使用固定的因子盲目地阻尼隐藏的信号,这可能导致如上所讨论的令人讨厌的重复伪象。
在一些情况下,已经发现令人讨厌的伪象可能由频谱表示中的洞生成。
需要克服或至少减少现有技术的至少一些损害的发生的技术方案。
发明内容
根据本发明的实施例,提供用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的错误隐藏单元。错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧使用频域隐藏提供错误隐藏音频信息。错误隐藏单元被配置为对不同的频带根据不同的阻尼因子淡出隐藏的音频帧。
根据本发明的实施例,还提供用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的错误隐藏单元。错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧为丢失的音频帧提供错误隐藏音频信息。错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的解码表示的特征得出一个或多个阻尼因子。错误隐藏单元被配置为使用阻尼因子执行淡出。
已经观察到,相应地,由后回声伪象导致的问题可以通过使用基于丢失的音频帧之前的正确解码的音频帧的解码特征的分析的技术来克服。信号的特征提供关于信号的能量的准确信息,其还可以用于分类音频信息并根据这样的分类阻尼隐藏的音频帧。
根据本发明的方面,错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的解码时域表示的特征得出阻尼因子。
例如,可以简单地基于这样的时域表示的方面识别出先前正确解码的音频帧包含话语或语音的结束(或,通常,一段时间内能量的降低)。此外,解码的音频帧的不同特性(例如,时间调制、瞬态特征等)可以从解码表示以良好的准确性得出。
根据本发明的方面,错误隐藏单元可以被配置为执行解码的时域表示的分析并基于分析得出阻尼因子。
相应地,可以通过分析解码的时域表示直接得出阻尼因子。分析解码表示通常比使用解码的输入参数估计信号的特征准确的多。在此情况下,不在编码器处进行分析。
可替换地,一些信号特征在编码器处被计算并在比特流中被传送,解码器然后将基于比特流确定阻尼因子。
根据本发明的方面,错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势得出阻尼因子。
事实上,已经注意到,可以通过分析其能量趋势确定正确解码的音频帧(其将“替代”不正确接收的帧)的性质。由于语音(或其他有意的音频信息,例如音乐)通常意味着比噪声更多的能量,帧中的能量的衰减可以被用作话语的结束的发生的指标。因此,可以基于先前正确解码的音频帧的确定的性质不同地淡出音频信息。通过对不同性质的帧应用不同的淡出,可以减少后回声伪象的发生。
已经意识到,相比于编码表示,解码表示(其可以采用时域表示的形式)更接近地表示音频信号的时间演化,且因此基于解码表示的特征(其中解码表示的特征可以例如通过解码表示的分析得出)得出阻尼因子(或甚至多个阻尼因子)是有利的。
根据本发明的方面,错误隐藏单元可以被配置为计算丢失的音频帧之前的正确解码的音频帧的解码表示的第一部分或其加权版本的能量,以及计算丢失的音频帧之前的正确解码的音频帧的解码表示的第二部分或其加权版本的能量。解码表示的第一部分的开始在时间上在解码表示的第二部分的开始之前,或第一部分的时间值的平均在时间上在第二部分的时间值的平均之前。错误隐藏单元可以被配置为取决于第一部分的能量并取决于第二部分的能量计算阻尼因子。
相应地,可以计算能量趋势(例如,由能量趋势值体现):若帧的时间上先前的部分具有比帧的随后的部分更多的能量,可以以足够的确定度确定语音的结束(或,通常,一段时间内能量的降低)。值得注意的是,帧的第一部分可以包含第二部分(或反之亦然)。第一部分在时间上的平均在第二部分在时间上的平均之前(例如,第一部分的中心在时间上在第二部分的中心之前)。
特别地,解码表示的第二部分可以包含丢失的音频帧之前的正确解码的音频帧的解码表示的最后区间的样本。解码表示的第一部分可以包含丢失的音频帧之前的正确解码的音频帧的所有样本,或丢失的音频帧之前的正确解码的音频帧的样本的区间,其与第二部分重叠使得第一部分的样本的至少一些在第二部分的所有样本之前。
相应地,本发明的实施例下的基本原理中的一个是基于这样的观察:令人讨厌的重复伪象主要发生在丢失的帧在语音的结束之后时:代替再现无声或噪声,话语的片段被无用地重复。这是为什么本发明的实施例是基于识别出丢失的帧(或连续丢失的帧的序列的第一个)是话语(或语音)的结束之后的帧的一个原因,例如通过识别出最后正确解码的音频帧是话语(或语音)的结束之后的帧,或更加一般地,是其中能级已经急剧下降的帧。(在一些情况下,当帧相当长,如80ms时,即使在能量衰减期间半途出现帧丢失,会出现某种后回声。)
可以计算以下之间的商:
—丢失的音频帧之前的正确解码的音频帧的解码表示的结束部分中的能量,或丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本的结束部分中的能量,和
—丢失的音频帧之前的正确解码的音频帧的解码表示中的总能量,或丢失的音频帧之前的正确解码的音频帧的解码表示的缩放版本中的总能量,以获得阻尼因子。
当第一部分可以包括帧的所有样本时,第二部分可以仅包括相同帧的第二半的样本(或权利要求的第二半的一些);通过将与相关于第二部分的能量有关的值除以与相关于第一部分(例如整个帧)的能量有关的值,可以获得值(当第一部分包括整个帧时,值可以在0至1之间并可以被表示为百分比):值(或百分比)越低,帧越可能包含话语的结束(或一段时间内能量的明显的降低)。
在一些实施例中,等于零的商可以意味着,在第二部分的样本中不存在能量,指示第二部分的样本携带“无声”作为唯一信息。
根据一个实施例,可以使用以下公式计算时间能量趋势(fac):
Figure GDA0004051504450000041
其中,值L是以样本的帧长,xk是采样的信号值(基于采样的信号值的值),wk是权重因子,且c是0.5至0.9之间的值,优选地在0.6至0.8之间,更加优选地在0.65至0.75之间,或甚至更加优选地为0.7。值L可以以样本的帧长(例如,如1024的数量),xk可以是采样的信号值,wk可以是权重因子,且c可以是在0.5至0.9之间的值,优选地在0.6至0.8之间,更加优选地在0.65至0.75之间,并甚至更加优选地为0.7。
值得注意的是,
Figure GDA0004051504450000051
考虑帧的最后样本的积分能量(特别地由窗加权),而/>
Figure GDA0004051504450000052
指的是与整个帧相关的积分能量。
还可以计算验证以下条件的权重因子:
Figure GDA0004051504450000053
已经注意到,适当的权重因子是:
Figure GDA0004051504450000054
其中,d是在0.4至0.6之间的值,优选地在0.49至0.51之间,更加优选地在0.499至0.501之间,并甚至更加优选地为0.5;其中h是在0.15至0.25之间的值,优选地在0.19至0.21之间,更加优选地在0.199至0.201之间,并甚至更加优选地为0.2;且其中g是在0.05至0.15之间的值,优选地在0.09至0.11之间,并更加优选地为0.1。
根据本发明的方面,错误隐藏单元可以被配置为关于先前隐藏的音频帧减小阻尼因子并使用减小的阻尼因子淡出先前隐藏的音频帧之后的至少一个后续隐藏的音频帧。
当多个连续的帧被不正确地解码时,此方案是特别有利的。以此方式,音频信号将被正确地阻尼。
根据本发明的方面,错误隐藏单元可以被配置为在至少三个连续隐藏的音频帧上根据超过指数时间衰减执行淡出。
已经注意到,超过指数时间衰减对与淡出相关的阻尼因子是优选的并允许获得淡出的优雅和减小音频信息的强度的必要性之间的良好权衡。特别地,已经注意到,通过迭代地在第二连续丢失帧处将先前的阻尼因子乘以0.9,在第三连续丢失帧处乘以0.75,对于第三连续丢失帧乘以0.5,在第四及其后连续丢失帧处乘以0.2,获得特别适当的衰减。
根据本发明的方面,错误隐藏单元可以被配置为确定定量描述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势的能量趋势值。错误隐藏单元还可以被配置为使用能量趋势值或其缩放版本以限定阻尼因子。
根据本发明的方面,错误隐藏单元可以被配置为,若当前能量趋势值位于指示一段时间内相对小的能量降低的预设范围内,将阻尼因子设置为低于当前能量趋势值的预设值。
相应地,若时间能量趋势接近1(或至少高于可以是(1/2)1/2的阈值),可以以足够的确定度确定正确解码的音频帧不包含语音的结束(或无论如何不是其中能量急剧降低的音频帧)。因此,可以使用固定的阻尼值。
根据本发明的方面,错误隐藏单元可以被配置为,若当前能量趋势值位于预设范围之外并指示一段时间内的相对较大的能量降低,将阻尼因子确定成使得阻尼因子等于当前能量趋势值,或随能量趋势值的变化而线性变化。
相应地,若时间能量趋势小于阈值(例如,其可以是1/21/2),可以以足够的确定度确定正确解码的音频帧包含话语(或语音)的结束。因此,可以使用减小的阻尼值以加速淡出,因此根据本发明避免后回声。
根据本发明的方面,错误隐藏单元可以被配置为:
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类噪声的,将阻尼因子设置为第一预设值(其可以例如是在0.95或0.97至1之间的值),其指示比第二预设值(其可以例如是
Figure GDA0004051504450000061
)更小的阻尼,和/或
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音不在丢失的音频帧之前的正确解码的音频帧中结束,将阻尼因子设置为第二预设值,和/或
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将阻尼因子设置为基于能量趋势值或其缩放版本的值。
通过分类正确解码的音频帧(例如,作为噪声/帧中结束的语音/持续的语音),可以执行三个不同的淡出:
—对噪声的小的淡出或完全无淡出(优选地对于噪声);
—当语音不在正确解码的音频帧中结束时(无令人讨厌的回声的风险的情况下),中等淡出;
—当语音在正确解码的音频帧中终止时(因此减少令人讨厌的回声的影响),猛烈的淡出。
错误隐藏被配置为对不同的频带确定不同的阻尼因子。
根据本发明的方面,错误隐藏单元被配置为得出阻尼因子,使得阻尼因子反映丢失的音频帧之前的最后正确解码的音频帧的结束部分中的能级的时间演化朝丢失的音频帧的外推。
根据本发明的方面,错误隐藏单元被配置为使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元被配置为使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元被配置为执行谱域至时域变换,以获得丢失的音频帧之前的正确解码的音频帧的解码表示。
根据本发明的方面,提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息方法,包括以下步骤:
—基于丢失的音频帧之前的正确解码的音频帧的解码表示的特征得出阻尼因子,以及
—使用阻尼因子执行淡出。
本方法可以与上面讨论的本发明的方面的任一个相结合使用。
根据本发明的实施例,提供计算机程序,当计算机程序运行在计算机上时,用于执行本发明的方法和/或用于控制上面讨论的本发明的产品实施例。
根据本发明的实施例,提供用于基于编码的音频信息提供解码的音频信息的音频解码器,音频解码器包括如上面讨论的或实施如上面讨论的方法。
根据本发明的实施例,提供错误隐藏单元,错误隐藏单元提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息,其中错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息。错误隐藏单元被配置为对不同的频带使用不同的阻尼因子执行淡出。
已经注意到,可以对音频帧的相同频谱表示的不同频带使用不同的阻尼因子。相应地,可以避免由于频谱洞引起的令人讨厌的伪象的发生,原因是可以例如与应用至类语音(或主要包含语音)的频带(或频谱仓)相比将不同的阻尼因子应用至类噪声的频带(或频谱仓)。
因此,阻尼因子可以适用于不同频带或不同频谱仓的信号特征,或适用于不同频带或频谱仓中能量的时间演化。
根据本发明的方面,错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的谱域表示的特征得出阻尼因子。
根据本发明的方面,错误隐藏单元可以被配置为调节一个或多个阻尼因子,以例如比丢失的音频帧之前的正确解码的音频帧的非声音或类噪声的频带更快地淡出丢失的音频帧之前的正确解码的音频帧的声音的频带。
通过将淡出适应于每个频带(或频谱仓),可以获得最佳的淡出行为:特别地,与语音相关的频谱带可以比与噪声相关的频谱带更快地被阻尼,从而减少收听音频解码信息的人的厌烦。
根据本发明的方面,错误隐藏单元可以被配置为调节一个或多个阻尼因子,以比丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较低能量的一个或多个频带更快地淡出丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较高能量的一个或多个频带。
根据本发明的基本原理,具有每频谱仓相对较高能量的频带被预期包含比噪声更多的语音信息。因此,提出增加这些语音有关的频带的阻尼,同时仅缓慢地淡出低能量(类噪声)的频带。
根据本发明的方面,错误隐藏单元可以被配置为基于与丢失的音频帧之前的正确解码的音频帧中至少一个频带相关的能量值和阈值之间的比较,对至少一个频带设置阻尼因子。
与阈值的比较允许执行简单(但重要)的测试,测试的结果是(除其他之外)预期携带关于语音或噪声的信息的频带的确定。
根据本发明的方面,错误隐藏单元可以被配置为,若与至少一个频带相关的能量值低于阈值,对至少一个频带使用预设的阻尼因子。错误隐藏单元可以被配置为,若与至少一个频带相关的能量值高于阈值,对至少一个频带使用小于预设的阻尼因子的阻尼因子。
相应地,较高能量的带将比较低能量的带更快地被阻尼,因此减小收听者的厌烦。
根据本发明的方面,错误隐藏单元可以被配置为,若与至少一个频带相关的能量值低于阈值,对至少一个频带使用表示相对较慢的淡出的阻尼因子。错误隐藏单元可以被配置为,若与至少一个频带相关的能量值高于阈值,对至少一个频带使用表示相对较快的淡出的阻尼因子。
根据本发明的方面,错误隐藏单元可以被配置为,若与至少一个频带相关的能量值低于阈值,将阻尼因子限定为预设值。错误隐藏单元可以被配置为,若与至少一个频带相关的能量值高于阈值,基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值对至少一个频带得出阻尼因子,以比其中与至少一个频带相关的能量值低于阈值的情况更快地淡出至少一个频带。
不仅可以比较低能量的带更快地阻尼较高能量的带(预期与语音有关),还可以根据正确解码的音频帧的演化来淡出带。若例如正确解码的音频帧的能量演化指示正确解码的音频帧是其中话语(或语音)已经结束的帧,优选地增加较高能量的带(其被预期与语音相关)的阻尼。相应地,当正确解码的音频帧包含话语的结束时,可以避免令人讨厌的回声伪象。
根据本发明的方面,错误隐藏单元可以被配置为对不同的频带限定不同的阈值。
具有许多仓但低强度的带例如可以被预期为与噪声相关。相反,具有高能量的带被预期为与语音相关。因此,通过对不同的带进行与不同阈值的不同比较可以获得这些带之间的区别。
根据本发明的方面,错误隐藏单元可以被配置为基于至少一个频带的能量值、或平均能量值、或期望的能量值设置阈值。
具有低能量的带例如可以被预期为与噪声相关。相反,具有高能量的带可以被预期为与语音相关。因此,通过对每个带选择取决于带的能量值、或平均能量值、或期望的能量值的阈值可以获得这些带之间的区别。
根据本发明的方面,错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的能量值和丢失的音频帧之前的正确解码的音频帧的整个频谱中频谱线的数量之间的比设置阈值。
根据本发明的方面,错误隐藏单元可以被配置为基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势设置阈值。
时间能量趋势可以包含正确解码的音频帧是否包含话语的结束是否在帧中的信息的信息。优选的是,更快地阻尼在包含话语的结束的音频帧之后的帧,以避免令人讨厌的回声伪象。因此,可以优选的是,基于时间能量趋势选择阈值。话语在正确解码的帧中停止的可能性越高(能量趋势接近0),阈值越低,带的阻尼越快。
根据本发明的方面,错误隐藏单元可以被配置为使用以下公式对第i个频带设置阈值:
thresholdi=newEnergyPerLine·nbOfLinesi
值nbOfLinesi可以是第i个频带中线的数量,且
Figure GDA0004051504450000091
/>
值fac可以是表示丢失的音频帧之前的正确解码的音频帧中时间能量趋势的量,或从表示丢失的音频帧之前的正确解码的音频帧中时间能量趋势的量得出的阻尼值。值nergytotal可以是丢失的音频帧之前的正确解码的音频帧的所有频带上的总能量。值nbOfTotalLines可以是丢失的音频帧之前的正确解码的音频帧的频谱线的总数。
根据本发明的方面,错误隐藏单元可以被配置为对不同的比例因子带使用不同的阻尼因子执行淡出。用于缩放逆量化的频谱值的不同比例因子可以与不同比例因子带相关。
根据本发明的方面,错误隐藏单元可以被配置为使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以得出丢失的音频帧的隐藏的频谱表示。
根据本发明的方面,错误隐藏单元可以被配置为使用不同的阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示的不同频带,从而以不同的淡出速度淡出不同频带的频谱值,以得出丢失的音频帧的隐藏的频谱表示。
相应地,可以获得其中包含如语音的信息的带比包含噪声的带被更多地阻尼的适当的隐藏。
根据本发明的方面,错误隐藏单元可以被配置为:
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类噪声的,将与给定的频带相关的阻尼因子设置为第一预设值(例如,在0.95至1之间),第一预设值指示比第二预设值(例如,约1/21/2)小的阻尼,和/或
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音不在丢失的音频帧之前的正确解码的音频帧中结束,将与给定的频带相关的阻尼因子设置为第二预设值,和/或
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将与给定的频带相关的阻尼因子设置为基于能量趋势值或其缩放版本的值。
例如,可以区分包含如语音(或有意的音频信息,如音乐)的带和包含噪声的带。包含有意的音频信息的带可以比包含噪声的带被更快地阻尼。在先前解码的音频帧包含话语(或语音或无论如何是有意的音频信息)的结束的情况下,阻尼相对增加(例如,通过减小阻尼因子)。
根据本发明的方面,错误隐藏单元可以被配置为比较给定的频带中的能量与阈值。错误隐藏单元可以被配置为,若给定的频带中的能量大于阈值,为给定的频带提供基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势得出的比例因子。错误隐藏单元可以被配置为,若优选地基于比特流信息或位于信号分析识别出丢失的音频帧之前的正确解码的音频帧被识别为是类噪声的,并且若给定的频带中的能量小于阈值,将阻尼因子设置为第一预设值,第一预设值指示比第二预设值小的阻尼。错误隐藏单元可以被配置为,若优选地基于比特流信息或基于信号分析将丢失的音频帧之前的正确解码的音频帧识别为不是类噪声的,将阻尼因子设置为第二预设值。
根据本发明的方面,错误隐藏单元可以被配置为执行谱域至时域变换,以获得丢失的音频帧之前的正确解码的音频帧的解码表示。
本发明的实施例还涉及用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的方法,方法包括:
—基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息;以及
—对不同的频带使用不同的阻尼因子执行淡出。
本发明的方法可以实施上面讨论的方面中的一个或多个。
本发明的实施例还涉及计算机程序,当计算机程序运行在计算机上时,用于执行本发明的方法和/或用于实施上面讨论的产品方面。
本发明的实施例还涉及包含上面讨论的错误隐藏单元的音频解码器。
音频解码器可以被配置为使用不同的比例因子缩放丢失的音频帧之前的音频帧的频谱表示的不同比例因子带的频谱值。
上面讨论的方面可以彼此组合。
附图说明
本发明的实施例将参考所附附图被随后描述,其中:
图1示出根据本发明的隐藏单元的块示意图;
图2示出根据本发明的实施例的音频解码器的块示意图;
图3示出根据本发明的另一实施例的音频解码器的块示意图;
图4示出根据本发明的实施例的频域隐藏的块示意图;
图5示出根据本发明的实施例的能量趋势值的计算的细节;
图6示出根据本发明实施例的实施例的用于计算能量趋势的帧的细分的细节;
图7示出根据本发明的实施例的用于计算能量趋势值的权重(“修改的哈宁窗”)的图;
图8示出根据本发明的实施例的用于计算阻尼因子的构件的实施例;
图9示出本发明的隐藏方法的实施例;
图10-11示出信号图的比较示例;
图12示出根据本发明的实施例的阈值的限定的示例;
图13示出信号图的比较示例;
图14-15示出根据本发明的实施例的用于计算阻尼因子的构件的实施例;
图16示出本发明的隐藏方法的实施例。
具体实施方式
在本部分中,参考附图讨论本发明的实施例。
5.1根据图1的错误隐藏单元
图1示出根据本发明的错误隐藏单元100的块示意图。
错误隐藏单元100提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息107。错误隐藏单元100被输入音频信息,例如正确解码的音频帧的频谱版本(或表示)101。此外,错误隐藏单元100被输入音频信息,例如正确解码的音频帧(特别地,其频谱值被输入作为101的同样的正确解码的音频帧)的时域版本(或表示)102。可以使用后处理版本102’,而非时域信号102(此后,尽管可以使用后处理版本102’实施本发明,但是为简洁,仅参考时域信号102)。
错误隐藏单元100被配置为基于丢失的音频帧之前的正确解码的音频帧的解码表示102的特征得出阻尼因子103。
错误隐藏单元100被配置为使用阻尼因子103执行淡出。
淡出的示例可以由缩放器104实施,以使用阻尼因子103缩放正确解码的音频帧的频谱版本101。
可以实施阻尼因子确定器110以基于正确解码的音频帧的时域版本102得出阻尼因子103。
阻尼因子确定器110可以基于丢失的音频帧之前的正确解码的音频帧的解码时域表示102的特征得出阻尼因子103。
能量趋势分析器111可以被配置为执行对正确解码的音频帧102的分析。根据一些实施方式,可以分析帧中能量的趋势。
阻尼因子映射器(或计算器)112可以被配置为缩放阻尼因子(如,当获得多个连续的不正确数据帧时)。
此外,通过噪声添加器117,可以将噪声可选地添加至频域表示101的缩放版本105,以得出隐藏的帧的频域表示107。
应注意的是,根据错误隐藏单元100的实施例,正确解码的帧的频谱表示101可以可选地被分为不同的带;在此情况下,缩放器104可以采用多个比例因子,一个比例因子用于带的一个。
5.2根据图2的错误隐藏单元
图2示出根据本发明的实施例的音频解码器200的块示意图。音频解码器200接收编码的音频信息210,编码的音频信息210例如可以包括以频域表示编码的音频帧。编码的音频信息210原则上经由不可靠的信道接收,使得不时发生帧丢失。音频解码器200还基于编码的音频信息210提供解码的音频信息212。
音频解码器200可以包括解码/处理220,解码/处理220在没有帧丢失的情况下,基于编码的音频信息提供解码的音频信息。
音频解码器200还包括提供错误隐藏音频信息232的错误隐藏230(其可以由错误隐藏单元100实现)。错误隐藏230被配置为提供用于隐藏音频帧的丢失的错误隐藏音频信息232(105、107)。
也就是说,解码/处理220可以为以频域表示的形式编码的(即,以编码表示的形式的)音频帧提供解码的音频信息222,其编码值描述不同频率仓中的强度。换句话说,解码/处理220可以例如包括频域音频解码器,其从编码的音频信息210得出一组频谱值,并执行频域至时域变换,从而得出组成解码的音频信息222的或在有附加的后处理的情况下形成提供解码的音频信息122的基础的时域表示。
此外,应当注意的是,音频解码器200可以由下面描述的任何特征和功能单独地或结合地来补充。
在一些实施例中,错误隐藏230还可以使用不同的阻尼因子淡出不同的带。
5.3根据图3的音频解码器
图3示出根据本发明的实施例的音频解码器300的块示意图。
音频解码器300被配置为接收编码的音频信息310并基于其提供解码的音频信息312。音频解码器300包括比特流分析器320(其还可以被命名为“比特流去格式化器”或“比特流解析器”)。比特流分析器320接收编码的音频信息310并基于其提供频域表示322并可能地提供附加的控制信息324。频域表示322可以例如包括编码的频谱值326、编码的比例因子328并可选地包括附加的边信息330,附加的边信息330可以例如控制特定处理步骤,如噪声填充、中间处理或后处理。音频解码器300还包括频谱值解码340,频谱值解码340被配置为接收编码的频谱值326并基于其提供一组解码的频谱值342。音频解码器300还可以包括比例因子解码350,比例因子解码350可以被配置为接收编码的比例因子328并基于其提供一组解码的比例因子352。
作为比例因子解码的替代,LPC至比例因子转换354可以用于例如编码的音频信息包括编码的LPC信息而非比例因子信息的情况中。然而,在一些编码模式(例如,在USAC音频解码器的TCX解码模式中或在EVS音频解码器中),一组LPC系数可以用于在音频解码器一侧处得出一组比例因子。此功能可以由LPC至比例因子转换354实现。
音频解码器300还可以包括缩放器360,缩放器360可以被配置为将该组比例因子352应用至该组频谱值342,从而获得一组缩放的解码频谱值362。例如,包括多个解码的频谱值342的第一频带可以使用第一比例因子被缩放,且包括多个解码的频谱值342的第二频带可以使用第二比例因子被缩放。相应地,获得该组缩放的解码频谱值362。音频解码器300还可以包括可选的处理366,可选的处理366可以将一些处理应用至缩放的解码频谱值362。例如,可选的处理366可以包括噪声填充或一些其他操作。
音频解码器300还可以包括频域至时域变换370,频域至时域变换370被配置为接收缩放的解码频谱值362或其处理后的版本378,并提供与一组缩放的解码频谱值362相关的时域表示372。例如,频域至时域变换370可以提供时域表示372,时域表示372与音频内容的帧或子帧相关。例如,频域至时域变换可以接收一组MDCT系数(其可以被认为是缩放的解码频谱值)并基于其提供可以形成时域表示372的时域样本的块。
音频解码器300可以可选地包括后处理376,后处理376可以接收时域表示372并稍微修改时域表示372,从而获得时域表示372的后处理版本378。
根据本发明,音频解码器300包括错误隐藏380(其可以由隐藏单元100或230中的一个实施)。错误隐藏380接收解码的频谱值362(其可以实施值101)或其后处理版本368。
错误隐藏380还可以接收来自频域至时域变换的时域表示372(其可以实施值102)或接收来自可选的后处理376的后处理值378(其可以实施值102’)。然而,在其中错误隐藏将不同的阻尼因子应用至不同的频带,但不基于正确解码的音频帧的解码表示得出一个或多个阻尼因子的实施例中,错误隐藏380接收信号372、378可能不是必要的。
此外,错误隐藏380为一个或多个丢失的音频帧提供错误隐藏音频信息382。若丢失音频帧使得例如对于所述音频帧(或音频子帧)不可获得编码的频谱值326,错误隐藏380可以提供错误隐藏音频信息。错误隐藏音频信息可以是音频内容的频域表示(其可以被提供给频域至时域变换器370)或音频内容的时域表示(其可以被提供给信号组合390)。
应当注意的是,错误隐藏380可以例如执行上面描述的错误隐藏单元100和/或错误隐藏230的功能。错误隐藏380可以将时域隐藏信号382输出至信号组合390,或将频域隐藏信号382’输出至频域至时域变换370。
关于错误隐藏,应当注意的是,错误隐藏不在帧解码的同时发生。例如,若帧n是好的,那么我们进行正常解码,且最后我们保存若我们不得不隐藏下一帧将有帮助的一些变量,然后若帧n+1丢失,我们调用给出来自先前好帧的变量的隐藏函数。我们还将更新一些变量以帮助下一帧丢失或至下一好帧的恢复。
音频解码器300还包括信号组合390,信号组合390被配置为接收时域表示372(或在存在后处理376的情况下的后处理的时域表示378)。此外,信号组合390可以接收错误隐藏音频信息382,错误隐藏音频信息382通常还是提供给丢失的音频帧的错误隐藏音频信号的时域表示。信号组合390可以例如组合与后续音频帧相关的时域表示。在存在后续正确解码的音频帧的情况下,信号组合390可以组合(例如,重叠和相加)与这些后续正确解码的音频帧相关的时域表示。然而,若丢失音频帧,信号组合390可以将与丢失的音频帧之前的正确解码的音频帧相关的时域表示和与丢失的音频帧相关的错误隐藏音频信息相组合(例如重叠和相加),从而具有在正确接收的音频帧和丢失的音频帧之间的平滑过渡。相似地,音频组合390可以被配置为将与丢失的音频帧相关的错误隐藏音频信息和与丢失的音频帧之后的另一正确解码的音频帧相关的时域表示(或在丢失多个连续的音频帧的情况下与另一丢失的音频帧相关的另一错误隐藏音频信息)相组合(例如重叠和相加)。
相应地,信号组合390可以提供解码的音频信息312,使得将时域表示372或其后处理版本378提供给正确解码的音频帧,以及使得将错误隐藏音频信息382提供给丢失的音频帧,其中通常在后续的音频帧的音频信息(不管其是由频域至时域变换370或由错误隐藏380提供)之间执行重叠和相加操作。由于一些编解码器在重叠和相加部分上具有需要删除的一些混叠,可选地,我们可以在我们已经生成的半帧上生成一些人工混叠以执行重叠相加。
应当注意的是,音频解码器300的功能与根据图2的音频解码器200的功能相似。此外,应当注意的是,根据图3的音频解码器可以由在此描述的任何特征和功能来补充。特别地,错误隐藏380可以由在此关于错误隐藏描述的任何特征和功能来补充。
在一个实施例中,错误隐藏380可以在比例因子带上执行隐藏,例如如下面参考图14所描述的。在此情况下,可以或可以不基于正确解码的音频帧的解码表示的特征提供阻尼因子。
5.4频域错误隐藏和淡出
在此提供关于如可以由错误隐藏单元100实施或使用的频域隐藏的一些信息。例如,可以部分或完全地在缩放器104中获得下面描述的功能。
频域隐藏函数将解码器的延迟增加一帧。频域隐藏例如恰好在最终频率到时间转换之前对频谱数据起作用。在单帧被破坏的情况下,隐藏可以在最后(或最后中的一个)好帧(正确解码的音频帧)和第一好帧之间内插以生成丢失帧的频谱数据。先前帧可以由频率至时间转换(例如频域至时域变换370)执行。若多个帧被破坏,隐藏首先基于来自最后好帧的稍微修改的频谱值实施淡出。只要获得好帧,隐藏在新的频谱数据中淡出。
图4中描绘了频域隐藏。在步骤401,(例如基于CRC或相似策略)确定当前音频信息是否包含正确解码的帧。若确定的结果是肯定的,在402,正确解码的帧的频谱值被用作正确的音频信息。还将频谱记录在缓存器403中用于进一步使用。
若确定的结果是否定的(破坏的帧),在步骤404,先前正确解码的音频帧的先前记录的频谱表示405(在先前循环中在步骤403保存在缓存器中)用于“替代”破坏的(或丢弃的)音频帧。
特别地,复制器和缩放器407复制并缩放先前正确解码的音频帧的先前记录的正确解码的频谱表示405的频率范围内的频率仓(或频谱仓)405a、405b……的频谱值,以获得待被用于替换破坏的音频帧的频率仓(或频谱仓)406a、406b……的值。
频谱值的每个可以乘以共用缩放值,或乘以根据由带携带的频谱信息的各自的系数(或阻尼因子)。此外,噪声可以可选地添加到频谱值406中。
此外,一个或多个阻尼因子410可以用于阻尼信号以在连续隐藏的情况下迭代地降低信号强度。
特别地,不同的阻尼系数410可以可选地在一些实施例中用于不同地阻尼不同的带(或比例因子带)。
总之,复制器和缩放器407可以实施缩放器104,且步骤404可以可选地还包括噪声插入器107的功能。
5.5正确解码的音频帧的时间能量趋势的分析
根据本发明的实施例,可以基于丢失的音频帧之前的正确解码的音频帧的解码时域表示(例如102、102’、372、378)的特征得出阻尼因子(例如在110、230、380或404中)。
图5示出可以实现分析器111的能量趋势分析器500的示例。能量趋势分析器500包括其中存储正确解码的音频帧的时域表示的样本的存储器部分(例如,缓存器)501。根据一些实施例,样本的数量可以是1024。缓存器的每个字段存储一个样本的值。
第一部分502可以由一定数量的样本或也可以由所有样本形成。第二部分503可以由一定数量的样本,例如样本的后30%(例如1024中的约307个样本),或帧的后半部分的样本的子集形成。第一部分502的时间上的平均在第二部分503的时间上的平均之前。第一部分502的大量的样本可以在第二部分503的大多数样本之前。
在504,可以计算关于第二部分503的能量(或表示第二部分503的能量)的值504’。由权重块506获得的权重值507还可以应用至第二部分503。例如,能量趋势计算器可以包括(例如通过计算差或商)值504’、505’,以得出能量趋势值。
在505,可以计算与第一部分505的能量有关的值505’。
能量趋势计算器508可以用于获得能量趋势值509并可以例如用于计算阻尼因子。
根据一些实施例,即使执行隐藏以将不同的阻尼因子用于正确解码的音频帧的频域表示的不同频谱带,能量趋势值不随相同帧的不同带变化。相反,可以对给定的帧计算单一的能量趋势值。
5.6帧的第一部分和第二部分
为获得(或选择)帧的第一部分和第二部分(例如,用于能量趋势值的计算),可以使用一些策略。
图6(a)示出第一部分502由最初区间的样本形成,而第二部分503包含帧的全部样本。在可替换的实施例中,第一部分由仅在帧的最初区间中取得的一组样本形成,而第二部分由贯穿整个帧(不仅在最初区间中)取得的一组样本形成。
图6(b)示出第一部分502包括帧的全部(或几乎全部)样本,而第二部分503由最后区间(或组)的样本形成。例如,第一部分502可以包含1024个样本且第二部分503仅包含样本的后30%。
图6(c)示出第一部分502包括帧的最初样本,而第二部分503包括最后区间(或组)的样本。
图6(d)示出其中第一部分和第二部分是两个不同的区间(或仅从两个不同的区间取得的样本的组)使得第一部分的样本的大多数(或大的组)在第二部分的样本的大多数(或大的组)之前。
若样本的每个与时间t0、t1、t2……tL相关(t0和tL分别是帧的第一样本时刻和最后样本时刻,例如,帧的第一个样本和第1024个样本),且帧的部分通常由在时刻kinitial处开始且在时刻kfinal处结束的时间时刻的区间形成,则由以下提供第一区间在时间上的平均:
Figure GDA0004051504450000171
例如,图6(a)中的第二部分503在时间上的平均和图6(b)中的第一部分502在时间上的平均恰好在帧的中间。
图6(b)的实施例被认为是优选的实施例,且将在下面的段落中参考它。
5.7时间能量趋势
使用以下公式可以(例如,在趋势计算器508中)计算时间能量趋势值(如,509):
Figure GDA0004051504450000172
其中,L是以样本的帧长(例如,正确解码的音频帧的帧长),xk是采样的信号值(例如,丢失的音频帧之前的正确解码的音频帧的解码表示的值),wk是权重因子,且c是0.5至0.9之间的值,优选地在0.6至0.8之间,更加优选地在0.65至0.75之间,且甚至更加优选地为0.7。
Figure GDA0004051504450000181
保持考虑丢失的音频帧之前的正确解码的音频帧的第二部分(如最后区间)的积分能量;/>
Figure GDA0004051504450000182
保持考虑与正确解码的音频帧的第一部分相关的积分能量(在此情况下,如在图6(b)中指示的整个帧)。
通过限定如图6(b)中的音频帧的第一部分和第二部分,时间能量趋势值fac是在0至1之间的值。在该情况下,时间能量趋势fac可以被认为是百分比:若所有能量分布在帧的最后区间,能量趋势的百分比将是100%。若所有能量分布在帧的开始,能量趋势将是0%。
还可以计算验证以下条件的权重因子以验证以下等式:
Figure GDA0004051504450000183
已经注意到,适当的权重因子是:
Figure GDA0004051504450000184
其中,d是在0.4至0.6之间的值,优选地在0.49至0.51之间,更加优选地在0.499至0.501之间,并且甚至更加优选地为0.5;其中h是在0.15至0.25之间的值,优选地在0.19至0.21之间,更加优选地在0.199至0.201之间,并且甚至更加优选地为0.2;且其中g是在0.05至0.15之间的值,优选地在0.09至0.11之间,并且更加优选地为0.1。
换句话说,窗值wk可以被归一化。
图7示出权重因子的图形表示700。
能量趋势值定量地描述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势。其值、或其缩放(或限制的)版本可以用于限定阻尼因子(如,103或410)。
5.8.1阻尼因子的计算
图8(a)示出可以实施计算器112的阻尼因子计算器800的示例。在块804,能量趋势值801(如,509)与阈值802相比较。获得阻尼因子803(其可以实施值103或401)。
若当前能量趋势值位于指示一段时间内相对小的能量降低的预设范围内,可以(例如,由块804)将阻尼因子803设置为低于当前能量趋势值的预设值(例如,指示当与能量趋势值相比更大的阻尼或一段时间内能量降低)。
若当前能量趋势值801位于预设范围之外并表明在一段时间内相对较大的能量降低,阻尼因子803还可以被设置为等于当前能量趋势值801,或可以随能量趋势值801的变化而线性变化。
值得注意的是,当对不同的带限定不同的阻尼因子时,可以为正确解码的音频帧的每个带获得不同的阻尼因子803。例如,可以对每个频带限定不同的阈值802。
作为附加的示例,图8(b)示出使用能量趋势值(例如,509或801)执行的阻尼因子的确定810。在811,执行能量趋势值的分析。分析可以考虑根据上面讨论的示例中的一个的时间能量趋势值的计算。
若识别出正确解码的音频帧主要包含噪声,例如通过限定0.98或1的阻尼因子,在812执行小的阻尼(或完全不执行阻尼)。
若识别出正确解码的音频帧主要包含语音但话语不在正确解码的音频帧中停止(或能量趋势值指示一段时间内相对较小的能量降低),例如通过限定阻尼因子0.7071,在813执行减小的(中等)阻尼。
若识别出正确解码的音频帧包含在相同的帧中停止的语音(或能量趋势值指示正确解码的音频帧中的显著的能量降低),在814执行快速的阻尼。其中如上计算时间能量趋势值(且与图6(b)的实施例相似地限定帧的第一部分和第二部分),还可以将阻尼因子803限定为与能量趋势值801(或509)相同的值(或缩放的值)。
基本上,可以执行其中阻尼因子反映丢失的音频帧之前的最后正确解码的音频帧的结束部分中的能级的时间演化朝丢失的音频帧的外推的实施例。
值得注意的是,当对不同的带限定不同的阻尼因子时,可以为正确解码的音频帧的每个带执行步骤811-814。
5.8.2阻尼因子的衰减
可以将错误隐藏单元配置成:在多个连续帧丢失的情况下,阻尼因子例如遵循超过指数衰减而衰减。
图8(c)示出其中缩放器807提供阻尼因子803的缩放版本803’的图8(a)的变型。虽然比较块804通过比较能量趋势值801和阈值802而操作,阻尼因子803被记忆在缓存器804中。当丢失两个连续帧时,记忆在缓存器804中的阻尼因子(其用于第一丢失帧或先前帧)乘以查找表805中包含的因子,以获得用于第二丢失帧或通常用于后续帧或当前帧的阻尼因子。
对于连续的帧丢失,当前帧的阻尼因子fac可以取决于前一个fac-1
Figure GDA0004051504450000201
其中,nbLost是连续的丢失帧的数量。这由于更快的淡出导致更少的后回声。
值得注意的是,当对不同的带限定不同的阻尼因子时,不同的衰减可以应用至不同的频带。
5.9本发明的方法
图9(a)示出用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的错误隐藏方法900,包括以下步骤:
—在910,基于丢失的音频帧之前的正确解码的音频帧(例如,包含在501中)的解码表示(例如,102)的特征得出阻尼因子(例如,阻尼因子103、803或803’),以及
—在920,使用阻尼因子执行淡出(例如,在811-814)。
图9(b)示出其中在步骤910之前执行其中分析正确解码的音频帧的能量趋势值的步骤905的变型900b。
值得注意的是,当对不同的带限定不同的阻尼因子时,对正确解码的音频帧的不同的带重复方法(例如,通过迭代)。
6.本发明的实施例的操作及实验结果
根据本发明意在淡出隐藏的帧。
图10示出其中使用传统技术隐藏由附图标记1002和1003指示的一些帧的信号的频谱图的示意图1000。尽管语音已经在先前正确解码的帧中停止,令人讨厌的回声可以被人为地解释。
特别地,对于语音或瞬态信号,静态的阻尼因子是不够的。例如,当第一丢失帧恰好在话语结束之后时,这将导致令人厌烦的后回声(参见下面的左侧图)。为阻止此,阻尼因子不得不适应于当前信号。根据G.729.1[3]和EVS[4],提出自适应淡出,其取决于信号特征的稳定性。因此,因子取决于最后良好接收的超帧类的参数和连续擦除的超帧的数量。因子还取决于对于非声音超帧的LP滤波器的稳定性。由于在如AAC-ELD[5]的AAC解码器中不可获得信号特征,编解码器使用固定因子盲目地阻尼隐藏的信号,这可以导致上面描述的令人讨厌的重复伪象。
为解决实施例中的问题,观察最后合成的好帧x(例如,正确解码的音频帧)的时间能量趋势值,以为第一丢失帧计算新的阻尼因子fac。最后帧x中的一段时间内的能级演化被外推至后面的帧,其将确定阻尼因子。因此,通过设置与整个先前好帧x的能量有关的x的最后样本的能量而计算阻尼因子:
Figure GDA0004051504450000211
其中,L是帧长且wk是修改的哈宁窗:
Figure GDA0004051504450000212
窗的形状以这样的方式设计成,
Figure GDA0004051504450000213
相比于其中0.7071的静态阻尼因子将一直被应用至整个频谱的[1],若计算的阻尼因子fac低于0.7071的默认值将使用计算的阻尼因子fac;否则,将使用fac=0.7071。在一些情况下,我们具有关于信号特征的一些先前知识,信号特征可以是信号的能量稳定性或说明信号是否是声音的、嘈杂的或开始特征的信号类。然后(例如,若丢失的音频帧之前的正确解码的音频帧被分类为嘈杂的),通过使用计算的阻尼因子,有时有利于较慢的淡出。例如,若信号确实是嘈杂的,我们希望将能量保持为常数,这尤其对当个帧丢失是有帮助的。最后,阻尼因子可以被最大化为1,以防止高能量增加的伪象。
在现有技术[1]中,在多个帧丢失期间,频谱由0.7071的恒因子缩放。本发明的方法中,自适应阻尼因子仅用于第一隐藏帧。对于连续的帧丢失,当前帧的阻尼因子(fac)将依赖于先前的一个(fac-1):
Figure GDA0004051504450000214
其中nbLost是连续丢失的帧的数量。这由于较快的淡出导致较少的后回声(或描述当前帧是否为丢失帧的序列中的第二、第三、第四……丢失帧的指标)。
如在图11中可以看出,现在已经有利地“抛光”区域1002和1003(其在现有技术中可能已经受令人讨厌的回声影响)。
7.本公开的其他实施例
图14示出其中相同的正确解码的音频帧的不同频带(或仓)被不同地阻尼的错误隐藏1400。尽管可能,不严格要求实施图1或图3以实施图14。
参考图2和4,获得错误隐藏单元,用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的目的。错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息。错误隐藏单元被配置为对不同的频带使用不同的阻尼因子执行淡出。
将存储在不同的存储器部分(例如,缓存器)405a、405b……405g中的不同仓由不同的阻尼因子1408a、1408b……1408g缩放(在缩放器407a、407b……407g处阻尼因子乘以仓值),以获得隐藏音频信息的存储在不同存储器部分406a、406b……406g中的不同仓。
根据一个实施例,可以基于丢失的音频帧之前的正确解码的音频帧的频谱域表示的特征得出不同的阻尼因子。
图14示出正确解码的音频帧的FD表示在块1402处被在不同的频带1403a、1403b……1403g之间细分。每个带的一个或多个频谱仓值在1404a、1404b……1404g处被缩放。随后,带的值相互组成并在块1406(其可以与上面讨论的块370相同)处被变换并可以被用作隐藏音频信息1407。
块1402不真实存在且在简单的实施例中仅表示频谱仓值的逻辑分组。相似地,块1405不真实存在,而表示修改的(缩放的)频谱值的逻辑组合。
可以调节一个或多个阻尼因子,以比丢失的音频帧之前的正确解码的音频帧的非声音或类噪声的频带更快地淡出丢失的音频帧之前的正确解码的音频帧的声音的频带(或具有相对高能量的频带)。
根据一个实施例,可以调节阻尼因子1408a、1408b……1408g,以比丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较低能量的一个或多个频带更快地淡出正确解码的音频帧的具有每频谱仓相对较高能量的一个或多个频带(即,整个频谱的第i个带)。
如在图15(a)中可以看出,在比较块1504处,可以基于与正确解码的音频帧中的至少一个频带相关的能量值1501和阈值1502之间的比较,对至少一个频带1403a、1403b……1403g设置阻尼因子1503。
根据一个实施例,若与至少一个频带相关的能量值低于阈值,可以对至少一个频带使用预设的阻尼因子。若与至少一个频带相关的能量值高于阈值,可以对至少一个频带使用低于预设的阻尼因子的阻尼因子(其一般来说可以指示较强的阻尼或较快的淡出)。
根据一个实施例,若与至少一个频带相关的能量值低于阈值,可以对至少一个频带使用表示相对较慢的淡出的阻尼因子。若与至少一个频带相关的能量值高于阈值,错误隐藏单元可以被配置为对至少一个频带使用表示相对较快的淡出的阻尼因子。
根据一个实施例,若与至少一个频带相关的能量值低于阈值,可以将阻尼因子定义为预设值。若与至少一个频带相关的能量值高于阈值,可以基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值得出用于至少一个频带的阻尼因子,以比与至少一个频带相关的能量值低于阈值的情况更快地淡出至少一个频带。
图15(b)示出通过比较与一个带(例如,正确解码的音频帧的频谱的第i个带)的能量有关的值与阈值(例如,阈值1502)执行的确定1510。在1511处,执行确定。确定可以考虑根据上面讨论的示例中的一个的第i个频带中的时间能量趋势值的计算(还参见上述图5和图8(b)及说明书中的相关段落)。
若识别出正确解码的音频帧的第i个带包含噪声(例如,与带的能量有关的值在阈值之下),例如通过将阻尼因子限定为包括在0.95至1之间的值,在1512处执行小的阻尼(或完全不执行阻尼)。
若识别出第i个带包含语音但话语不在正确解码的音频帧中停止(或一段时间内的能量小于预设阈值),例如通过将阻尼因子限定为0.7071,在1513处执行减小的阻尼。
特别地,若识别出正确解码的音频帧的第i个带包含在相同的帧中停止的语音的元素,在1514处执行强的阻尼。其中如上计算时间能量趋势值(且与图6(b)的实施例相似地计算帧的第一部分和第二部分),还可以对于带i,将阻尼因子限定为与能量趋势值801相同的值(或缩放的值)。
然而,不必须将本发明限制为仅两个阻尼因子(如在1512或1513处使用的)。还可以限定多于两个的默认因子:例如与0.7071相似的值作为中等阻尼(1513);对于较低带的0.9;对于中间带的0.95;对于较高带的0.98作为小的阻尼因子(1512),或若信号类为声音的为0.9且若信号类为非声音的为0.95作为小的阻尼因子(1512),等等。
如在图15(c)中可以看出,可以为不同的频带i、i+1等限定不同的阈值1501i、1501(i+1)等,以获得不同的阻尼因子1503i、1503(i+1)等。在图12中提供示例,其中,阈值根据频率改变,意味着与不同带(或比例因子带)的能量有关的值与不同的阈值比较。
特别地,可以基于至少一个频带的能量值、或平均能量值、或期望能量值设置阈值。
根据一个实施例,可以基于丢失的音频帧之前的正确解码的音频帧的能量值和丢失的音频帧之前的正确解码的音频帧的整个频谱中频谱线的数量之间的比设置阈值。
阈值可以基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值。
第i个频带的阈值可以使用公式获得:
thresholdi=newEnergyPerLine·nbOfLinesi
其中bOfLinesi是第i个频带中线的数量,
其中,
Figure GDA0004051504450000241
值fac表示丢失的音频帧之前的正确解码的音频帧中的时间能量趋势值,或从表示丢失的音频帧之前的正确解码的音频帧中的时间能量趋势值的量得出的阻尼值。值energytotal是丢失的音频帧之前的正确解码的音频帧的全部频带上的总能量。值nbOfTotalLines是丢失的音频帧之前的正确解码的音频帧的频谱线的总数量。
带可以是比例因子带,使用不同的比例因子缩放比例因子带的频谱值。用于缩放逆量化的频谱值的不同的比例因子与不同的比例因子带相关。可以使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以得出丢失的音频帧的隐藏的频谱表示。
可以使用不同的阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示的不同的频带,从而以不同的淡出速度淡出不同频带的频谱值,以得出丢失的音频帧的隐藏的频谱表示。
参考图15(b),对于正确解码的帧的第i个带,可以:
—在1512处,若在1511处优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类噪声的,将与第i个频带相关的阻尼因子设置为第一预设值,第一预设值指示比第二预设值小的阻尼,和/或
—在1513处,若在1511处优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音不在丢失的音频帧之前的正确解码的音频帧中结束,将与第i个频带相关的阻尼因子设置为第二预设值,和/或
—在1514处,若在1511处优选地基于比特流信息或基于信号分析识别出丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在丢失的音频帧之前的正确解码的音频帧中衰减或结束,将与第i个频带相关的阻尼因子设置为基于能量趋势值或其缩放版本的值;
—在1515处,选择新的带i+1,且对于新的带重复上述过程。
根据一个实施例,错误隐藏单元被配置为比较给定的第i个频带中的能量与阈值(例如,1502),并且
—若给定的第i个频带中的能量高于阈值,错误隐藏单元为给定的第i个频带提供基于丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势值得出的比例因子,且
—若优选地基于比特流信息或基于信号分析识别出丢失的音频帧的之前的正确解码的音频帧被识别为类噪声的,并且若给定的第i个频带中的能量低于阈值,错误隐藏单元将阻尼因子设置为第一预设值(例如,在1512处),第一预设值指示比第二预设值小的阻尼;和/或
—若优选地基于比特流信息或基于信号分析将丢失的音频帧之前的正确解码的音频帧识别为不是类噪声的,错误隐藏单元被配置为将阻尼因子设置为第二预设值。
根据一个实施例,错误隐藏单元执行谱域至时域变换(例如,在1406处),以获得丢失的音频帧之前的正确解码的音频帧的解码表示(例如,1407)。
图16(a)示出用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的错误隐藏方法1600,其中正确解码的音频帧的频谱表示被细分为1、2……i等带,方法包括以下步骤:
—在1605处,选择第一带1(例如,i:=1);
—在910处,对带i,基于丢失的音频帧之前的正确解码的音频帧的解码表示的特征得出阻尼因子;
—在920处,对带i,使用阻尼因子执行淡出;
—在1630处,选择新的带i+1;
—对正确解码的音频帧的频谱图的所有带,重复此过程。
图16(b)示出其中在步骤910(参见图16(a))之前执行其中分析正确解码的音频帧的能量趋势值的步骤905的变型1600b。
在方法1600和1600b中,保留方法900和900b的附图标记以允许理解方法的不同实施例之间的相似性。
8.本发明的实施例的操作和实验结果
根据本发明的方面,在此发现了通过使用不同的阻尼因子淡出信号的不同带来淡出隐藏的帧是有利的。
已经发现,以相同的速度阻尼信号的每个部分通常是不期望的。例如,在具有背景噪声的语音的情况下,我们希望淡出信号的声音部分而不过多地淡出背景噪声以避免来自频谱中的洞的令人讨厌的伪象。因此,在一些实施例中,阻尼因子被不同地应用至信号的不同频率区域。这可以基于LPC或比例因子完成。
一个应用是如下(还参见图12)说明的比例因子带相依的阻尼。
为防止低能量比例因子带(SFB)中的能量隙/频谱洞(其可以在现有技术方法中出现),阻尼因子将被逐比例因子带地应用。若SFB的能量高于特定阈值,将使用适应的阻尼因子fac(其可以例如如在部分5.7中描述的被获得)。否则,将应用0.7071(1/21/2)的默认阻尼因子(例如,参见图12)。在一些情况下,甚至更慢地淡出低于阈值的SFB是有利的;使得那些部分不变为零,这意味着信号朝淡出的白噪声衰落。
例如,阈值可以取决于每个带中线的数量。这意味着,对于SFBi,阈值是:
thresholdi=newEnergyPerLine·nbOfLinesi
其中,nbOfLinesi是第i个SFB中线的数量,并且
Figure GDA0004051504450000261
其中nbOfTotalLines是整个频谱中全部线的数量,且energytotal是在所有SFB上的总能量。
可以由图13(a)和(b)的结果提供示例(纵轴:以百ms或hms为单位的时间;横轴:频率),其中未阻尼的信号的图1300a与阻尼的信号的图1300b相比较。在与无变化区域1302(主要是非阻尼的噪声)相反的位置显示较高阻尼区域1301(主要是语音,特别是其中语音已经停止的帧)。特别地,可以在图13(a)中发生的较高阻尼区域1301在图13(b)中被适当地阻尼,因此减小令人讨厌的回声。相反,如优选的,区域1302的噪声不被阻尼。
9.结论
描述用于频域音频编解码器中的包丢失隐藏的自适应淡出。
在包丢失的情况下,语音和音频编解码器通常朝零或背景噪声衰落以防止令人讨厌的重复伪象。对于所有的AAC家族解码器,不管信号特征如何,使用恒阻尼因子淡出隐藏的频谱。特别地,对于语音或瞬态信号,静态的阻尼因子可能是不够的。因此,根据本发明的实施例取决于最后好帧的时间能量趋势值计算自适应阻尼因子。此外,频率自适应阻尼被应用至隐藏的频谱以防止令人讨厌的频谱中的洞。
例如,实施例可以例如用于ELD、XLD、DRM或MPEG-H技术领域中,例如与该种音频解码器结合。
10.附加的评论
在包丢失的情况下,语音和音频编解码器通常朝零或背景噪声衰落,以防止令人讨厌的重复伪象。
对于所有的ACC家族解码器,不管信号特征如何,使用恒阻尼因子淡出隐藏的频谱。
特别对于语音或瞬态信号,静态的阻尼因子是不够的。
因此,提供用于取决于最后好帧的时间能量趋势计算自适应阻尼因子的工具。
此外,频率自适应阻尼被应用至隐藏的频谱以防止令人讨厌的频谱中的洞。
11.实施替换
尽管已经在装置的上下文中描述了一些方面,清楚的是,这些方面还表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应的块或项或对应的装置的特征的描述。方法步骤的一些或全部可以由硬件装置执行(或使用硬件装置),例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一些或多个可以由这样的装置执行。
取决于特定实施要求,本发明的实施例可以以硬件或软件实施。使用其上存储有电子可读控制信号的数字存储介质(例如软盘,DVD,蓝光,CD,ROM,PROM,EPROM,EEPROM或闪存)执行实施,电子可读控制信号与可编程计算机系统协作(或能够协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行在此描述的方法中的一个。
通常,本发明的实施例可以被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码被操作用于执行方法中的一个。程序代码例如可以存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的用于执行在此描述的方法中的一个的计算机程序。
换句话说,本发明方法的实施例因此是具有当计算机程序在计算机上运行时,用于执行在此描述的方法中的一个的程序代码的计算机程序。
本发明方法的另一实施例因此是包括记录其上的用于执行在此描述的方法中一个的计算机程序的数据载体(或数字存储介质,或计算机可读介质)。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。
本发明方法的另一实施例因此是表示用于执行在此描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)被传送。
另一实施例包括被配置为或适于执行在此描述的方法中的一个的处理构件,例如计算机或可编程逻辑设备。
另一实施例包括具有安装其上的用于执行在此描述的方法中的一个的计算机程序的计算机。
根据本发明的另一实施例包括被配置为将用于执行在此描述的方法中的一个的计算机程序(例如,电地或光地)传送至接收器的装置或系统。接收器可以例如是计算机、移动设备、存储器设备等。装置或系统可以例如包括用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可编程逻辑设备(例如,现场可编程门阵列)可以用于执行在此描述的方法的功能的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行在此描述的方法中的一个。通常,优选地由任何硬件装置执行方法。
可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合实施在此描述的装置。
可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合执行在此描述的方法。
上面描述的实施例对本发明的原理仅是说明性的。应理解的是,在此描述的布置和细节的修改和变型将对本领域技术人员是明显的。因此,意图仅受限于所附专利权利要求的范围,而不受限于通过在此的实施例的描述和解释的方式所呈现的具体细节。
12.参考书目
[1]3GPP TS 26.402,,Enhanced aacPlus general audio codec;Additionaldecoder tools(Release 11)”,
[2]J.Lecomte等“Enhanced time domain packet loss concealment inswitched speech/audio codec”,submitted to IEEE ICASSP,布里斯班,澳大利亚,2015年4月.
[3]WO 2015063045 A1
[4]"Apparatus and method for improved concealment of the adaptivecodebook in ACELP-like concealment employing improved pitch lag estimation",2014,PCT/EP2014/062589
[5]"Apparatus and method for improved concealment of the adaptivecodebook in ACELP-like concealment employing improved pulse“synchronization",2014,PCT/EP2014/062578

Claims (37)

1.一种用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息(107、1407)的错误隐藏单元(100、1402-1405),
其中,所述错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧提供错误隐藏音频信息,
其中,所述错误隐藏单元被配置为对所述丢失的音频帧之前的正确解码的音频帧的不同的频带(1403a-1403g)使用不同的阻尼因子(1404a-1404g)执行淡出(920),
其中,所述错误隐藏单元被配置为调节一个或多个阻尼因子,以比所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较低能量的一个或多个频带更快地淡出所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较高能量的一个或多个频带。
2.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述丢失的音频帧之前的正确解码的音频帧的频谱域表示(1401)的特征得出所述阻尼因子。
3.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为调节一个或多个阻尼因子,以比所述丢失的音频帧之前的正确解码的音频帧的非声音的或类噪声的频带更快地淡出所述丢失的音频帧之前的正确解码的音频帧的声音的频带。
4.根据前述权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于与所述丢失的音频帧之前的正确解码的音频帧中的至少一个频带相关的能量值(1501i)和阈值(1502i)之间的比较,对所述至少一个频带设置阻尼因子。
5.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为,若与至少一个频带相关的能量值低于所述阈值,对所述至少一个频带使用预设的阻尼因子,和/或
其中,所述错误隐藏单元被配置为,若与所述至少一个频带相关的能量值高于所述阈值,对所述至少一个频带使用小于预设的阻尼因子的阻尼因子。
6.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为,若与所述至少一个频带相关的能量值低于所述阈值,对所述至少一个频带使用表示相对较慢的淡出的阻尼因子,和/或
其中,所述错误隐藏单元被配置为,若与所述至少一个频带的能量值相关的能量值高于所述阈值,对所述至少一个频带使用表示相对较快的淡出的阻尼因子。
7.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为,若与所述至少一个频带相关的能量值低于所述阈值,将所述阻尼因子限定为预设值,
其中,所述错误隐藏单元被配置为,若与所述至少一个频带相关的能量值高于所述阈值,基于所述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势,得出用于所述至少一个频带的阻尼因子,以比与所述至少一个频带相关的能量值低于所述阈值的情况更快地淡出所述至少一个频带。
8.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为对不同的频带限定不同的阈值。
9.根据权利要求5所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述至少一个频带的能量值、或平均能量值或期望能量值设置所述阈值。
10.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述丢失的音频帧之前的正确解码的音频帧的能量值和所述丢失的音频帧之前的正确解码的音频帧的至少一个频带中的频谱线的数量之间的比设置所述阈值。
11.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势设置所述阈值。
12.根据权利要求4所述的错误隐藏单元,其中,所述错误隐藏单元被配置为使用以下公式设置第i个频带的阈值:
thresholdi=newEnergyPerLine·nbOfLinesi
其中nbOfLinesi是所述第i个频带中线的数量,
其中
Figure FDA0004051504440000021
其中,fac是表示所述丢失的音频帧之前的正确解码的音频帧中的时间能量趋势的量,或从表示所述丢失的音频帧之前的正确解码的音频帧中的时间能量趋势的量得出的阻尼值;
其中,energytotal是所述丢失的音频帧之前的正确解码的音频帧的所有频带上的总能量;且
其中,nbOfTotalLines是所述丢失的音频帧之前的正确解码的音频帧的频谱线的总数。
13.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为对不同的比例因子带使用不同的阻尼因子执行淡出,
其中,用于缩放逆量化的频谱值的不同的比例因子与不同的比例因子带相关。
14.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为使用所述阻尼因子缩放所述丢失的音频帧之前的音频帧的频谱表示,以得出所述丢失的音频帧的隐藏频谱表示。
15.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为使用不同的阻尼因子缩放所述丢失的音频帧之前的音频帧的频谱表示的不同频带,从而以不同的淡出速度淡出不同频带的频谱值,以得出所述丢失的音频帧的隐藏频谱表示。
16.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为:
若优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类噪声的,将与给定的频带相关的阻尼因子设置为第一预设值,所述第一预设值指示小于第二预设值的阻尼,和/或
若优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类语音的并且语音不在所述丢失的音频帧之前的正确解码的音频帧中结束,将与给定的频带相关的阻尼因子设置为第二预设值,和/或
若优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧是类语音的并且语音在所述丢失的音频帧之前的正确解码的音频帧中衰减或结束,将与给定的频带相关的阻尼因子设置为基于能量趋势值或所述能量趋势值的缩放版本的值。
17.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为比较给定的频带中的能量和阈值,以及
其中,所述错误隐藏单元被配置为,若所述给定的频带中的能量高于所述阈值,为所述给定的频带提供基于所述丢失的音频帧之前的正确解码的音频帧的解码表示的时间能量趋势得出的比例因子;以及
其中,所述错误隐藏单元被配置为,若优选地基于比特流信息或基于信号分析识别出所述丢失的音频帧之前的正确解码的音频帧被识别为是类噪声的,并且若所述给定的频带中的能量小于所述阈值,将所述阻尼因子设置为第一预设值,所述第一预设值指示比第二预设值小的阻尼;和/或
其中,所述错误隐藏单元被配置为,若优选地基于比特流信息或基于信号分析将所述丢失的音频帧之前的正确解码的音频帧识别为不是类噪声的,将所述阻尼因子设置为所述第二预设值。
18.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为执行谱域至时域变换,以获得所述丢失的音频帧之前的正确解码的音频帧的解码表示。
19.根据权利要求1所述的错误隐藏单元(1402-1405),
其中,所述错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧使用频域隐藏提供错误隐藏音频信息(1407)。
20.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为使用所述正确解码的音频帧的频域表示(1401)。
21.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于阈值(1502、1502i)和与所述正确解码的音频帧中的至少一个频带相关的能量值(1501、1501i)之间的比较,对所述至少一个频带设置阻尼因子(1503i)。
22.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为将默认阻尼因子设置(1512、1513)为阈值高于与至少一个频带相关的能量值的结果。
23.根据权利要求1所述的错误隐藏单元,其中,所述阻尼因子被包括在0.95至1之间。
24.根据权利要求22所述的错误隐藏单元,其中,所述阻尼因子被包括在0.6至0.8之间。
25.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为将适用于至少一个频带且低于默认阻尼因子的阻尼因子设置(1514)为阈值小于与所述至少一个频带相关的能量值的结果。
26.根据权利要求21所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于以下参数中的至少一个或组合,对至少一个频带设置阈值:
频带中频率线的数量;
对整个帧平均的每个线的平均能量;以及
用于频带的先前计算的阻尼因子。
27.根据权利要求26所述的错误隐藏单元,其中,所述错误隐藏单元被配置为将阈值设置为与所述参数中的至少一个成比例。
28.根据权利要求1所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述正确解码的音频帧的时域表示(102、372)的特征,对至少一个频带设置阻尼因子。
29.根据权利要求28所述的错误隐藏单元,其中,所述错误隐藏单元被配置为基于所述正确解码的音频帧的时域表示的时间能量趋势(509、801)限定阻尼因子。
30.根据权利要求28所述的错误隐藏单元,其中,所述错误隐藏单元被配置为通过关于先前隐藏的音频帧减小(807)阻尼因子来淡出后续隐藏的音频帧中的至少一个。
31.根据权利要求1所述的错误隐藏单元,其中,所述频带是比例因子带,所述比例因子带的频谱值被使用不同的比例因子缩放。
32.一种用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息(212、312)的方法(1630、1600b),所述方法包括:
基于丢失的音频帧之前的正确解码的音频帧提供所述错误隐藏音频信息;以及
对所述丢失的音频帧之前的正确解码的音频帧的不同的频带使用不同的阻尼因子执行淡出,
以比所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较低能量的一个或多个频带更快地淡出所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较高能量的一个或多个频带。
33.一种非临时性存储单元,存储有指令,当所述指令由计算机运行时,使所述计算机执行根据权利要求32所述的方法。
34.一种用于基于编码的音频信息提供解码的音频信息的音频解码器(200、300),所述音频解码器包括根据权利要求1所述的错误隐藏单元。
35.根据权利要求34所述的音频解码器,其中,所述音频解码器被配置为使用不同的比例因子缩放丢失的音频帧之前的音频帧的频谱表示的不同比例因子带的频谱值。
36.一种用于提供用于隐藏编码的音频信息中音频帧的丢失的错误隐藏音频信息的方法(1603、1600b),所述方法包括:
执行频域隐藏以提供错误隐藏音频信息分量;
对所述丢失的音频帧之前的正确解码的音频帧的不同的频带根据不同的阻尼因子淡出隐藏的音频帧,
以比所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较低能量的一个或多个频带更快地淡出所述丢失的音频帧之前的正确解码的音频帧的具有每频谱仓相对较高能量的一个或多个频带。
37.一种非临时性存储单元,存储有指令,当所述指令由计算机运行时,使所述计算机执行根据权利要求36所述的方法。
CN201780028290.2A 2016-03-07 2017-03-03 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法 Active CN109313905B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16159033 2016-03-07
EP16159033.6 2016-03-07
EP16171443.1 2016-05-25
EP16171443 2016-05-25
PCT/EP2017/055106 WO2017153299A2 (en) 2016-03-07 2017-03-03 Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands

Publications (2)

Publication Number Publication Date
CN109313905A CN109313905A (zh) 2019-02-05
CN109313905B true CN109313905B (zh) 2023-05-23

Family

ID=58185547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780028290.2A Active CN109313905B (zh) 2016-03-07 2017-03-03 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法

Country Status (11)

Country Link
US (1) US10706858B2 (zh)
EP (1) EP3427257B1 (zh)
JP (1) JP6826126B2 (zh)
KR (1) KR102192998B1 (zh)
CN (1) CN109313905B (zh)
BR (1) BR112018068098A2 (zh)
CA (1) CA3016949C (zh)
ES (1) ES2874629T3 (zh)
MX (1) MX2018010754A (zh)
RU (1) RU2711108C1 (zh)
WO (1) WO2017153299A2 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
ES2870959T3 (es) * 2016-03-07 2021-10-28 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método relacionado y programa informático que usa características de una representación decodificada de una trama de audio decodificada apropiadamente
BR112018067944B1 (pt) * 2016-03-07 2024-03-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
WO2020165260A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode channel coding with mode specific coloration sequences
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
JP7178506B2 (ja) * 2019-02-21 2022-11-25 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 位相ecu f0補間スプリットのための方法および関係するコントローラ
BR112021021928A2 (pt) 2019-06-13 2021-12-21 Ericsson Telefon Ab L M Método para gerar um subquadro de áudio de ocultação, dispositivo decodificador, programa de computador, e, produto de programa de computador
CN114387989B (zh) * 2022-03-23 2022-07-01 北京汇金春华科技有限公司 语音信号处理方法、装置、系统及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1316087A1 (fr) * 2000-09-05 2003-06-04 France Telecom Dissimulation d'erreurs de transmission dans un signal audio
WO2008040250A1 (fr) * 2006-10-01 2008-04-10 Huawei Technologies Co., Ltd. Procédé, dispositif et système destinés au masquage d'erreurs d'un flux de données audio
CN101689961A (zh) * 2007-03-20 2010-03-31 弗劳恩霍夫应用研究促进协会 数据分组序列的传输设备和方法及其解码器和设备
WO2012070340A1 (ja) * 2010-11-26 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
WO2013183977A1 (ko) * 2012-06-08 2013-12-12 삼성전자 주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
CN103620672A (zh) * 2011-02-14 2014-03-05 弗兰霍菲尔运输应用研究公司 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
WO2014123471A1 (en) * 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
WO2015003027A1 (en) * 2013-07-05 2015-01-08 Dolby International Ab Packet loss concealment apparatus and method, and audio processing system
WO2015063045A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US6675054B1 (en) * 1998-04-20 2004-01-06 Sun Microsystems, Inc. Method and apparatus of supporting an audio protocol in a network environment
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
RU2405217C2 (ru) * 2005-01-31 2010-11-27 Скайп Лимитед Способ взвешенного сложения с перекрытием
US20070282601A1 (en) 2006-06-02 2007-12-06 Texas Instruments Inc. Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
WO2009008220A1 (ja) 2007-07-09 2009-01-15 Nec Corporation 音声パケット受信装置、音声パケット受信方法、およびプログラム
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
AU2009256551B2 (en) * 2008-06-13 2015-08-13 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
PL3518234T3 (pl) * 2010-11-22 2024-04-08 Ntt Docomo, Inc. Urządzenie i sposób kodowania audio
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
KR20150056770A (ko) 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
CA2915805C (en) 2013-06-21 2021-10-19 Jeremie Lecomte Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
MY181026A (en) * 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
TR201808890T4 (tr) 2013-06-21 2018-07-23 Fraunhofer Ges Forschung Bir konuşma çerçevesinin yeniden yapılandırılması.
PT3285255T (pt) * 2013-10-31 2019-08-02 Fraunhofer Ges Forschung Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1316087A1 (fr) * 2000-09-05 2003-06-04 France Telecom Dissimulation d'erreurs de transmission dans un signal audio
WO2008040250A1 (fr) * 2006-10-01 2008-04-10 Huawei Technologies Co., Ltd. Procédé, dispositif et système destinés au masquage d'erreurs d'un flux de données audio
CN101689961A (zh) * 2007-03-20 2010-03-31 弗劳恩霍夫应用研究促进协会 数据分组序列的传输设备和方法及其解码器和设备
WO2012070340A1 (ja) * 2010-11-26 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
CN103620672A (zh) * 2011-02-14 2014-03-05 弗兰霍菲尔运输应用研究公司 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
WO2013183977A1 (ko) * 2012-06-08 2013-12-12 삼성전자 주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2014123471A1 (en) * 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
WO2015003027A1 (en) * 2013-07-05 2015-01-08 Dolby International Ab Packet loss concealment apparatus and method, and audio processing system
WO2015063045A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
H.264视频解码系统的错误隐藏技术研究;陶小娟;《中国优秀硕士学位论文全文数据库》;20140515(第5期);全文 *
Streaming real-time audio and video data with transformation-based error concealment and reconstruction;B.W. Wah;《roceedings of the First International Conference on Web Information Systems Engineering》;20020806;全文 *

Also Published As

Publication number Publication date
BR112018068098A2 (pt) 2019-01-15
ES2874629T3 (es) 2021-11-05
EP3427257A2 (en) 2019-01-16
RU2711108C1 (ru) 2020-01-15
JP2019511740A (ja) 2019-04-25
WO2017153299A3 (en) 2017-10-19
US20190005966A1 (en) 2019-01-03
JP6826126B2 (ja) 2021-02-03
US10706858B2 (en) 2020-07-07
MX2018010754A (es) 2019-01-14
KR20180122660A (ko) 2018-11-13
CN109313905A (zh) 2019-02-05
EP3427257B1 (en) 2021-05-05
KR102192998B1 (ko) 2020-12-18
WO2017153299A2 (en) 2017-09-14
CA3016949C (en) 2021-08-31
CA3016949A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
CN109313905B (zh) 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法
US10269359B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
US10249310B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
CN109155134B (zh) 隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant