CN106463122A - 突发帧错误处理 - Google Patents
突发帧错误处理 Download PDFInfo
- Publication number
- CN106463122A CN106463122A CN201580031034.XA CN201580031034A CN106463122A CN 106463122 A CN106463122 A CN 106463122A CN 201580031034 A CN201580031034 A CN 201580031034A CN 106463122 A CN106463122 A CN 106463122A
- Authority
- CN
- China
- Prior art keywords
- frame
- frequency
- signal
- noise component
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 135
- 238000001228 spectrum Methods 0.000 claims description 150
- 238000004590 computer program Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 21
- 230000001965 increasing effect Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 abstract description 28
- 238000006467 substitution reaction Methods 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 63
- 238000004458 analytical method Methods 0.000 description 42
- 230000005236 sound signal Effects 0.000 description 38
- 230000006978 adaptation Effects 0.000 description 31
- 230000004044 response Effects 0.000 description 23
- 230000011218 segmentation Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 239000000654 additive Substances 0.000 description 7
- 230000000996 additive effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000005562 fading Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000010363 phase shift Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 108010022579 ATP dependent 26S protease Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Radio Relay Systems (AREA)
- Circuits Of Receivers In General (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Communication Control (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
提供了用于帧丢失隐藏的机制。一种方法由接收实体执行。该方法包括与为丢失帧构造替代帧相关联地将噪声分量添加到所述替代帧。所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
Description
技术领域
本文档涉及音频编码和在接收机中生成替代信号,作为在传输错误的情况下丢失、擦除或削弱的信号帧的替代。这里描述的技术可以是编解码器和/或解码器的一部分,但是它也可以在解码器之后的信号增强模块中实现。该技术可以有利地用于接收机中。
具体地,本文提出的实施例涉及帧丢失隐藏,并且具体地涉及用于帧丢失隐藏的方法、接收实体、计算机程序和计算机程序产品。
背景技术
许多现代通信系统用帧来传输语音和音频信号,这意味着发送侧首先将信号设置为例如20-40ms的短的分段或帧,其随后被编码并作为逻辑单元例如在传输分组中传输。接收机对这些单元中的每个单元进行解码,并且重构相应的信号帧,该信号帧进而最后被输出为重构信号采样的连续序列。在编码之前,通常存在将来自麦克风的模拟语音或音频信号转换成音频采样序列的模数(A/D)转换。相反地,在接收端,通常存在将重构的数字信号采样序列转换成用于扬声器重放的时间连续模拟信号的最终数模(D/A)转换。
然而,几乎任何这样的用于语音和音频信号的传输系统都可能会遭遇传输错误。这可能导致所发送的帧中的一个或几个在接收机处不可用于重构的情况。在这种情况下,解码器必须生成针对每个被擦除(即,不可用)的帧的替代信号。这在接收机侧信号解码器的所谓的帧丢失或错误隐藏单元中完成。帧丢失隐藏的目的是使得帧丢失尽可能不被听到,并且因此尽可能减轻帧丢失对重构信号质量造成的影响。
最近有一种用于音频的帧丢失隐藏方法是所谓的“相位ECU”。这是一种在信号是音乐信号的情况下在分组或帧丢失之后提供特别高质量的恢复的音频信号的方法。还存在在先前申请中公开的控制方法,该方法响应于例如帧丢失的(统计)性质来控制相位ECU类型的帧丢失隐藏方法的行为。
帧丢失的突发被用作所述控制方法中的一个指示符,在该控制方法中,可以适配诸如相位ECU的帧丢失隐藏方法的响应。一般来说,帧丢失的突发意味着发生接连的若干帧丢失,使得帧丢失隐藏方法难以使用有效的最近解码的信号部分用于其操作。更具体地,典型的现有技术的帧丢失突发指示符是观察到的连续帧丢失的数目n。该数目可以保持在计数器中,该计数器在每次新帧丢失时递增1,并且在接收到有效帧时被重置为零。
响应于帧丢失突发的诸如相位ECU的帧丢失隐藏方法的特定适配方法是对替代帧频谱Z(m)的相位或频谱幅度的频率选择性调整,其中m是诸如离散傅立叶变换(DFT)的频域变换的频率索引。使用衰减因子α(m)来进行幅度适配,该衰减因子随着帧丢失突发计数器n的增大而将索引为m的频率变换系数缩放到0。通过增大索引为m的频率变换系数的相位(其具有增加的随机相位分量)的加性随机化来进行相位适配。
因此,如果相位ECU的原始替代帧频谱遵循如 的表达式,则适配的替代帧频谱遵循如 的表达式。
这里,相位θk(其中k=1...K)是索引m和由相位ECU方法识别的K个频谱峰值的函数,并且Y(m)是先前接收的音频信号的帧的频域表示(频谱)。
尽管在突发帧丢失的情况下上述对相位ECU的适配方法有较多优点,但在非常长的丢失突发的情况下(例如,当n大于或等于5时)其仍然存在质量缺点。在这种情况下,尽管执行了相位随机化,重构的音频信号的质量仍然可能受到例如音调伪像的影响。同时,增大的幅度衰减可以减少这些可听见的缺点。然而,信号的衰减对于长帧丢失突发可能被感知为静音或信号遗漏。这可能再次影响例如音乐或语音信号的环境噪声的整体质量,因为这些信号对太强水平的变化敏感。
因此,仍然需要改进的帧丢失隐藏。
发明内容
本文的目的在于提供高效的帧丢失隐藏。
根据第一方案,提供了一种用于帧丢失隐藏的方法。该方法由接收实体执行。该方法包括:与为丢失帧构造替代帧相关联地将噪声分量添加到所述替代帧。所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
有利地,这提供了高效的帧丢失隐藏。
根据第二方案,提供了一种用于帧丢失隐藏的接收实体。接收实体包括处理电路。处理电路被配置为使接收实体执行一组操作。该组操作包括:与为丢失帧构造替代帧相关联地将噪声分量添加到所述替代帧。所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
根据第三方案,提出了一种用于帧丢失隐藏的计算机程序,所述计算机程序包括计算机程序代码,当所述计算机程序代码在接收实体上运行时使得所述接收实体执行根据第一方案所述的方法。
根据本发明的第四方案,提出了一种计算机程序产品,所述计算机程序产品包括根据根据本发明第三方案的计算机程序和存储所述计算机程序的计算机可读装置。
应当注意的是,适当时,第一、第二、第三和第四方案的任意特征可以应用到任意其它方案。同样,第一方案的任何优点可以分别等同地应用到第二、第三和/或第四方案,并且反之亦然。通过以下详细公开、所附从属权利要求以及附图,所公开的实施例的其他目标、特征和优点将变得显而易见。
一般地,除非另有明确说明,权利要求中使用的所有术语根据其技术领域中的普通含义来解释。除非本文中另行明确声明,否则对“一/一个/所述单元、设备、组件、装置、步骤等”的所有引用应被开放地解释为指代单元、设备、组件、装置、步骤等的至少一个实例。除非明确声明,否则本文所公开的任何方法的步骤不一定严格按所公开的顺序来执行。
附图说明
下面参照附图以示例方式描述本发明构思,在附图中:
图1是示出了根据实施例的通信系统的示意图;
图2是示出了根据实施例的接收实体的功能单元的示意图;
图3示意地示出了根据实施例的替代帧插入;
图4是示出了根据实施例的接收实体的功能单元的示意图;
图5、图6和图7是根据实施例的方法的流程图;
图8是示出了根据实施例的接收实体的功能单元的示意图;
图9是示出了根据实施例的接收实体的功能模块的示意图;以及
图10示出了根据实施例的包括计算机可读装置的计算机程序产品的一个示例。
具体实施方式
现将在下文参照其中示出本发明的特定实施例的附图来更全面地描述发明构思。然而,本发明构思可以被实施为多种不同形式,并且不应被解释为受限于本文阐述的实施例。相反,通过示例的方式给出这些实施例,使得本公开将透彻和完整,并且向本领域技术人员充分地传达本发明构思的范围。在本描述的全文中,相似的标记指代相似的元素。由虚线示出的任何步骤和特征应当被看做是可选择的。
如上所述,本文提出的实施例涉及帧丢失隐藏,并且具体地涉及用于帧丢失隐藏的方法、接收实体、计算机程序和计算机程序产品。
图1示意性地示出了通信系统100,其中发射(TX)实体101通过信道102与接收(RX)实体103通信。假设信道102导致由TX实体101发送到RX实体103的帧或分组丢失。假设接收实体可操作为对诸如语音或音乐的音频进行解码,并且可操作为与例如通信系统100中的其它节点或实体进行通信。接收实体可以是编解码器、解码器、无线设备和/或固定设备;实际上,它可以是期望处理音频信号的突发帧错误的任意类型的单元。它可以例如智能电话、平板电脑、计算机或能够进行有线和/或无线通信以及音频解码的任意其它设备。接收机实体可以被表示为例如接收节点或接收装置。
图2示意性地示出了被配置为处理帧丢失的已知RX实体200的功能模块。输入比特流被解码器201解码以形成重构信号,并且如果没有检测到帧丢失,则该重构信号被提供作为来自RX实体200的输出。由解码器201生成的重构信号也被馈送到缓冲器202用于临时存储。由正弦分析器203执行对缓冲的重构信号的正弦分析,并且由相位演化单元204执行缓冲的重构信号的相位演化,其后,所得到的信号被馈送到正弦合成器205,用于生成在帧丢失的情况下从RX实体200输出的替代重构信号。以下将提供RX实体200的操作的进一步细节。
图3的(a)、(b)、(c)和(d)示意性地示出了在帧丢失的情况下创建和插入替代帧的过程的四个阶段。图3(a)示意性地示出了先前接收的信号301的部分。在303示意性地示出了窗口。该窗口用于提取先前接收的信号301的帧(所谓的原型帧304);之前接收的信号301的中间部分是不可见的,因为它与窗口303等于1的原型帧304相同。图3(b)示意性地示出了图3(a)中的原型帧根据离散傅里叶变换(DFT)的幅度谱,其中标识出了两个频率峰值fk和fk+1。图3(c)示意性地示出了所生成的替代帧的频谱,其中围绕峰的相位被适当地演化,并且原型帧的幅度谱被保留。图3(d)示意性地示出了已经插入的所生成的替代帧305。
鉴于上述公开的用于帧丢失隐藏的机制,已经发现,尽管进行了随机化,但是仍然由于替代帧频谱的太强的周期性和太尖锐的谱峰而引起了音调伪像。
还应注意的是,结合相位ECU类型的帧丢失隐藏方法的适配方法所描述的机制对于在频域或时域中生成丢失帧的替代信号的其他帧隐藏方法也是典型的。因此,可能期望在丢失或损坏的帧的长突发的情况下提供用于帧丢失隐藏的通用机制。
除了提供有效的帧丢失隐藏之外,还希望找到可以以最小的计算复杂度以及最小的存储要求来实现的机制。
这里公开的实施例中的至少一些实施例基于逐渐地将主帧丢失隐藏方法的替代信号与噪声信号叠加,其中噪声信号的频率特性是先前正确接收的信号的帧(“好帧”)的低分辨率频谱表示。
现在参照图6的流程图,公开了根据实施例的由接收实体执行的用于帧丢失隐藏的方法。
接收实体被配置为在步骤S208中,与为丢失帧构造替代帧频谱相关联地将噪声分量添加到所述替代帧。所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
在这方面,如果在频域中执行步骤S208中的添加,则可以认为噪声分量被添加到已经生成的替代帧的频谱中,因此,添加了噪声分量的替代帧可以被视为次级替代帧或进一步的替代帧。因此,次级替代帧由主替代帧和噪声分量组成。这些分量又由频率分量组成。
根据一个实施例,将噪声分量添加到替代帧的步骤S208涉及确认突发错误长度n超过第一阈值T1。第一阈值的一个示例是设置T1≥2。
现在参照图7的流程图,公开了根据其它实施例的由接收实体执行的用于帧丢失隐藏的方法。
根据第一优选实施例,用于丢失帧的替代信号由主帧丢失隐藏方法生成,并与噪声信号叠加。随着接连的帧丢失的增加,主帧丢失隐藏的替代信号被逐渐衰减,优选地根据在突发帧丢失的情况下的主帧丢失隐藏方法的静音行为而衰减。同时,通过添加具有与先前接收的信号的帧(例如,最后正确接收的帧)类似的频谱特性的噪声信号来补偿由于主帧丢失隐藏方法的静音行为而引起的帧能量损失。
因此,可以用取决于连续丢失帧的数量的缩放因子来缩放噪声分量和替代帧频谱,使得噪声分量以作为连续丢失帧的数量的函数的增加幅度而被逐渐叠加在替代帧频谱上。
如下面将进一步公开的,替代帧频谱可以通过衰减因子α(m)逐渐衰减。
替代帧频谱和噪声分量可以在频域中叠加。备选地,低分辨率频谱表示是基于一组线性预测编码(LPC)参数,并且噪声分量因此可以在时域中叠加。关于如何应用LPC参数的进一步公开,请参见下文。
更具体地,主帧丢失隐藏方法可以是如上所述的具有响应于突发丢失的适配特性的相位ECU类型的方法。也就是说,替代帧分量可以通过诸如相位ECU的主帧丢失隐藏方法来导出。
在这种情况下,由主帧丢失隐藏方法生成的信号是类型 其中α(m)和是幅度衰减和相位随机化项。也就是说,替代帧频谱可以具有相位,并且相位可以与随机相位值叠加。
并且如上所述,相位θk(其中k=1…K)是索引m和由相位ECU方法识别的K个频谱峰值的函数,并且Y(m)是先前接收的音频信号的帧的频域表示(频谱)。
如这里所提出的,然后可以通过加性噪声分量β(m)·ejη(m))来进一步修改该频谱,以产生组合分量 其中是先前接收的“好帧”(即,至少相对正确接收的信号的帧)的幅度谱表示。由此,可以向噪声分量提供随机相位值η(m)。
以这种方式,频谱索引m的频谱系数遵循以下表达式:
这里,β(m)是幅度缩放因子,η(m)是随机相位。因此,加性噪声分量由幅度谱的缩放的随机相位频谱系数组成。根据本发明,可以选择β(m)使得其补偿在将衰减因子α(m)应用于主帧丢失隐藏的替代帧频谱的频谱系数Y(m)时的能量损失。因此,接收实体可以被配置为在可选步骤S204中确定噪声分量的幅度缩放因子β(m),使得β(m)补偿由将衰减因子α(m)应用于替代帧频谱而导致的能量损失。
在随机相位项对上述方程式的两个相加项和进行去相关的假设下,β(m)可以例如被确定为:
为了避免上述由于太尖锐的频谱峰引起的音调伪像的问题,同时仍然保持在突发帧丢失之前的信号的总体频率特性,幅度谱表示是低分辨率表示。已经发现,通过对先前接收的信号的帧(例如,正确接收的帧,“好”帧)的幅度谱|Y(m)|进行逐频率组平均来获得幅度谱的非常合适的低分辨率表示。接收实体可以被配置为在可选步骤S202a中通过对先前接收的帧中的信号的幅度谱进行逐频率组平均来获得幅度谱的低分辨率表示。低分辨率频谱表示可以基于先前接收的帧中的信号的幅度谱。
令Ik=[mk-1+1,...,mk]指示覆盖从mk-1+1至mk的DFT箱的第k个区间,k=1…K,则这些区间定义K个频带。然后可以通过对频带k中的频谱系数的幅度的平方进行平均并计算其平方根来进行该频带的逐频率组平均:
这里,|Ik|表示频率组k的大小,即所包括的频率箱的数量。应注意,区间Ik=[mk-1+1,...,mk]对应于频带其中,fs表示使用的音频采样频率,并且N表示频域变换的块长度。
频带大小或宽度的示例性合适的选择是使它们成为相等的大小(例如数百100赫兹的宽度)。另一种示例方式是使频带宽度遵循人类听觉临界频带的大小,即将它们与人类听觉系统的频率分辨率相关。也就是说,在逐频率组平均期间使用的组宽度可以遵循人类听觉临界频带。这意味着对于高达1kHz的频率使频带宽度大致相等,并将它们指数增大至1kHz以上。指数增大意味着,例如当递增频带索引k时,使频率宽度加倍。
计算低分辨率幅度谱系数的另一示例性具体实施例是将其基于先前接收的信号的大量n个低分辨率频域变换。接收实体因此可以被配置为在可选步骤S202b中通过对先前接收的帧中的信号的大量n个低分辨率频域变换进行逐频率组平均来获得所述幅度谱的低分辨率表示。例如n的合适选择是n=2。
根据该实施例,首先计算先前接收的信号的帧(例如,最近接收的好帧)的左部分(子帧)和右部分(子帧)的平方幅度谱。这里的帧可以是在传输中使用的音频分段或帧的大小,或者帧可以是一些其它大小,例如由相位ECU构造和使用的大小,其可以构造具有与重构信号不同长度的自身帧。这些低分辨率变换的块长度Npart可以是主帧丢失隐藏方法的原始帧大小的一小部分(例如,1/4)。然后,其次,通过对来自左子帧和右子帧的平方频谱幅度进行逐频率组平均来计算频率组低分辨率幅度谱系数,并且最后计算其平方根:
然后从K个频率组代表中获得低分辨率幅度谱的系数:
对于m∈Ik,k=1…K。
这种计算低分辨率幅度谱系数的方法有各种优点;在具有较大块长度的单频域变换上的计算复杂度方面优选使用两个短频域变换。此外,平均稳定了频谱的估计,即,它减少了可能影响可实现的质量的统计波动。在结合前面提到的相位ECU控制器应用本实施例时的具体优点是,其可以依赖于对与先前接收的信号的帧(“好帧”)中的瞬态状况的检测相关的频谱分析。这进一步减少了与本发明相关联的计算开销。
还实现了提供具有最小存储要求的机制的目的,因为该实施例允许仅利用K个值来表示低分辨率频谱,其中K实际上可以低至例如7或8。
已经进一步发现,如果与噪声信号的逐频率组叠加施加一定程度的低通特性,则可以进一步增强在长丢失突发的情况下重构的音频信号的质量。因此,可以对低分辨率频谱表示施加低通特性。
这种特性有效地避免了替代信号中的令人不愉快的高频噪声。更具体地,这是通过针对较高频率通过噪声信号的因子λ(m)引入附加衰减来实现的。与上述噪声缩放因子β(m)的计算相比,该因子现在根据下式来计算
这里,对于小的m,因子λ(m)可以等于1,对于大的m,该因子可以小于1。也就是说,可以将β(m)确定为其中λ(m)是频率相关的衰减因子。例如,对于低于阈值的m,λ(m)可以等于1,并且对于高于该阈值的m,λ(m)可以小于1。
应当注意,缩放因子α(m)和β(m)优选是逐频率组固定的。这有助于降低复杂性和存储要求。在这种情况下,也根据以下表达式来逐频率组地应用因子λ:
已经发现,有利的是对于高于8000Hz的频带将λk设置为0.1,对于4000Hz-8000Hz的频带将其设置为0.5。对于较低频带,λk等于1。其他值也是可能的。
已经进一步发现,尽管所提出的方法的质量优点是将主帧丢失隐藏方法的替代信号与噪声信号叠加,但是对例如n>10(相当于200ms或更大)的非常长的帧丢失突发强制执行静音特性是有益的。因此,接收实体可以被配置为:当突发错误长度n超过至少与第一阈值T1一样大的第二阈值T2时,在可选步骤S206中将长期衰减因子γ应用于β(m)。根据一个示例,T2≥10。
更详细地,在持续的噪声的情况下,信号合成可能对收听者造成干扰。为了解决这个问题,可以因此从大于例如n=10的丢失突发开始衰减加性噪声信号。具体地,引入另一长期衰减因子γ(例如γ=0.5)和阈值thresh,如果丢失突发长度n超过thresh,则用该衰减因子对噪声信号进行衰减。这导致噪声缩放因子的以下修改:
βγ(m)=γmax(0,n-thresh)·β(m)
通过该修改实现的特性是,如果n超过阈值,则用γn-thresh对噪声信号进行衰减。作为示例,如果n=20(400ms)并且γ=0.5和T2=thresh=10,则噪声信号按比例缩小到大约1/1000。
应当注意,同样,该操作也可以按照逐频率组进行,如在上述实施例中那样。
总之,根据至少一些实施例,Z(m)表示替代帧的频谱,并且该频谱是基于原型帧(即,先前接收的信号的帧)的频谱Y(m)通过使用诸如相位ECU之类的主帧丢失隐藏方法来生成的。
对于长丢失突发,具有所述控制器的原始相位ECU基本上衰减该频谱并使相位随机化。对于非常大的n,这意味着所生成的信号被完全静音。
如本文所公开的,通过添加合适量的谱形噪声来补偿该衰减。因此,即使对于n>5,信号的电平保持基本上稳定。对于极长的丢失突发,例如n>10,一个实施例涉及甚至对该加性噪声进行衰减/静音。
根据另一实施例,加性低分辨率噪声信号频谱可以由一组LPC参数表示,因此在这种情况下的频谱对应于以这些LPC参数作为系数的LPC合成滤波器的频谱。如果主PLC方法不是相位ECU类型,而是例如在时域中操作的方法,则这样的实施例可以是优选。在这种情况下,通过合成滤波器利用所述LPC系数对白噪声进行滤波,也可以优选地在时域中生成与加性低分辨率噪声信号频谱相对应的时间信号。
例如,可以在频域或时域或其它等效信号域中执行步骤S208中的将噪声分量添加到替代帧。例如,存在诸如正交镜像滤波器(QMF)或子带滤波器域的信号域,其中主帧丢失隐藏方法可以在所述信号域中操作。在这种情况下,可以优选地在这些对应的信号域中生成与所描述的低分辨率噪声信号频谱相对应的加性噪声信号。除了添加了噪声信号的信号域的差异之外,上述实施例仍然适用。
现在参照图5的流程图,公开了根据一个特定实施例的由接收实体执行的用于帧丢失隐藏的方法。
在动作S101中,可以确定噪声分量,其中噪声分量的频率特性是先前接收的信号的帧的低分辨率频谱表示。噪声分量可以例如是组合的并被表示为其中β(m)可以是幅度缩放因子,η(m)可以是随机相位,并且可以是先前接收的“好帧”的幅度谱表示。
在可选动作S103中,可以确定丢失或错误帧的数目n是否超过阈值。阈值可以是例如8、9、10或11个帧。当n小于阈值时,在动作S104中将噪声分量添加到替代帧频谱Z中。替代帧频谱Z可以通过诸如相位ECU之类的主帧丢失隐藏方法来导出。当丢失帧数n超过阈值时,可以对噪声分量应用衰减因子γ。衰减因子可以在某些频率范围内是恒定的。当应用衰减因子γ时,在动作S104中,可以将噪声分量添加到替代帧频谱Z中。
本文描述的实施例还涉及将在下面参照图4、8和9描述的接收实体或接收节点。为了避免不必要的重复,将仅简要描述接收实体。
接收实体可以被配置为执行本文描述的一个或多个实施例。
图4示意性地公开了根据实施例的接收实体400的功能模块。接收实体400包括帧丢失检测器401,其被配置为检测沿信号路径410接收的信号中的帧丢失。帧丢失检测器与低分辨率表示生成器402和替代帧生成器403进行交互。低分辨率表示生成器402被配置为生成对先前接收的帧中的信号的低分辨率频谱表示。替代帧生成器403被配置为根据诸如相位ECU之类的已知机制来生成替代帧。功能块404和405分别表示利用上文公开的缩放因子β、γ和α对由低分辨率表示生成器402和替代帧生成器403生成的信号进行缩放。功能块406和407表示将如此缩放的信号与上文公开的相位值η和相叠加。功能块408表示用于将如此生成的噪声分量添加到替代帧的加法器。功能块409表示由帧丢失检测器401控制的开关,用于用生成的替代帧替代丢失帧。如上所述,存在可以执行诸如在步骤S208中的添加之类的操作的许多域。因此,上文公开的功能块中的任一个可以被配置为执行这些域中的任意域中的操作。
下面,将参照图8描述适于实现上述用于处理突发帧错误的方法的执行的示例性接收实体800。
接收实体中主要与本文建议的解决方案相关的部分被示为由虚线包围的装置801。接收实体的该装置和可能的其它部分适于实现上文(例如在图5、6和7中)描述和示出的一个或多个过程的执行。接收实体800被示为经由通信单元802与其他实体通信,这可以被认为包括用于根据接收实体可操作的通信标准或协议的无线和/或有线通信的传统装置。该装置和/或接收实体还可以包括其他功能单元807,用于提供例如常规接收实体功能,例如与对诸如语音和/或音乐之类的音频的解码相关联的信号处理。
可以如下实现和/或描述接收实体的装置部分:
该装置包括处理装置803(例如处理器)以及用于存储指令的存储器804。存储器包括计算机程序805形式的指令,当其被处理装置执行时使得接收实体或装置执行如本文所公开的方法。
图9中示出了接收实体800的备选实施例。图9示出了可操作为对音频信号解码的接收实体900。
可以如下实现和/或示意性地描述装置901。装置901可以包括确定单元903,被配置为确定具有先前接收的信号的帧的低分辨率频谱表示的频率特性的噪声分量,并且确定幅度的缩放因子。该装置还可以包括添加单元904,被配置为将噪声分量添加到替代帧频谱。该装置还可以包括获得单元910,被配置为获得先前接收的帧中的信号的幅度谱的低分辨率表示。该装置还可以包括应用单元911,被配置为应用长期衰减因子。接收实体可以包括其他单元907,被配置为例如确定用于噪声分量的缩放因子β(m)。接收实体900还包括功能与通信单元802相同的具有发射机(Tx)908和接收机(Rx)909的通信单元902。接收实体900还包括功能与存储器804相同的存储器906。
上述装置中的单元或模块可以例如通过以下中的一个或多个来实现:处理器或微处理器和恰当的软件以及用于存储该软件的存储器、可编程逻辑器件(PLD)或其他电子组件或被配置为执行上述动作的处理电路,并且如图8中所示。也就是说,在上述装置中的单元或模块可以被实现为模拟和数字电路的组合、和/或由存储在存储器中的软件和/或固件配置的一个或多个处理器。这些处理器中的一个或多个以及其它数字硬件可以包括在单个专用集成电路(ASIC)中,或者若干个处理器和各种数字硬件可以分布在若干个分离的组件上,不论单独封装还是组装为片上系统(SoC)。
图10示出了包括计算机可读装置1001在内的计算机程序产品1000的一个示例。在该计算机可读装置1001上,可以存储计算机程序1002,该计算机程序1002可以使得处理电路803和可操作地耦接到处理电路803的实体和设备(例如,通信单元802和存储介质804)执行根据本文描述的实施例的方法。计算机程序1002和/或计算机程序产品1001可以因此提供执行如本文公开的任何步骤的方法。
在图10的示例中,计算机程序产品1001示出为光盘,例如CD(高密度盘)或DVD(数字多功能盘)或蓝光盘。计算机程序产品1001还可以体现为存储器,例如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、或电可擦除可编程只读存储器(EEPROM),以及更具体地体现为外部存储器中的设备的非易失性存储介质,例如USB(通用串行总线)存储器或闪存(例如紧凑闪存)。因此,尽管计算机程序1002这里示意性地示出为所描述的光盘上的轨道,计算机程序1002可以用适于计算机程序产品1001的任意方式进行存储。
以下概述可能特征和实施例的一些定义,部分参照图5的流程图。
一种由接收实体执行的用于改善帧丢失隐藏或突发帧错误的处理的方法,所述方法包括:与构建替代帧频谱Z相关联地,将噪声分量添加(动作104)添加到替代帧频谱Z,其中噪声分量的频率特性是先前接收的信号的帧的低分辨率频谱表示。
在可能的实施例中,低分辨率频谱表示基于先前接收的信号的帧的幅度谱。可以例如通过对先前接收的信号的帧的幅度谱进行逐频率组平均来获得幅度谱的低分辨率表示。备选地,幅度谱的低分辨率表示可以基于先前接收的信号的大量n个低分辨率频域变换。
在可能的实施例中,低分辨率频谱表示基于一组线性预测编码(LPC)参数。
在用衰减因子α(m)逐渐衰减替代帧频谱Z的可能实施例中,该方法包括确定用于噪声分量的幅度缩放因子β(m),使得β(m)补偿由于应用衰减因子α(m)而导致的能量损失。β(m)可以例如被确定为
在可能的实施例中,β(m)被导出为其中因子λ(m)是用于噪声信号的某些频率(例如更高频率)的衰减因子。λ(m)对于小m可以等于1,对于大m可以小于1。
在可能的实施例中,缩放因子α(m)和β(m)是逐频率组固定的。
在可能的实施例中,该方法包括当突发错误长度超过阈值时应用(动作103)衰减因子γ。
替代帧频谱Z可以通过诸如相位ECU之类的主帧丢失隐藏方法来导出。
不同的实施例可以以任意合适的方式组合。
下面,将提供关于帧丢失隐藏方法相位ECU的示例性实施例的信息,但是将不明确地提及术语“相位ECU”。已经在本文中例如在主帧丢失隐藏方法方面提及相位ECU,用于在添加噪声分量之前导出Z。
下文描述的实施例的构思包括通过以下操作来隐藏丢失音频帧:
-对先前接收或重构的音频信号的至少一部分执行正弦分析,其中该正弦分析包括识别音频信号的正弦分量的频率;
-向先前接收或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失帧的替代帧,以及
-创建替代帧涉及响应于对应的识别的频率来对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻。
正弦分析
根据实施例的帧丢失隐藏包括对先前接收的或重构的音频信号的部分执行正弦分析。该正弦分析的目的是找到该信号的主正弦分量(即正弦波)的频率。由此,以下假设是音频信号是由正弦模型生成,并且该音频信号包括有限数量的单个正弦波,即该音频信号是以下类型的多正弦信号:
在该方程式中,K是假设构成信号的正弦波的数量。针对索引为k=1...K的每个正弦波,ak是幅度,fk是频率,并且是相位。fs表示采样频率,以及n表示时间离散信号采样s(n)的时间索引。
正弦的频率尽可能地精确是有益的,甚至是重要的。虽然理想的正弦信号会具有线频率为fk的线谱,但是找到它们的真值在原理上将需要无限的测量时间。因此,在实践中难以找到这些频率,因为只能基于短的测量时间段来估计它们,该测量时间段与用于根据本文描述的实施例的正弦分析的信号分段相对应;下文中,该信号分段称为分析帧。另一个困难是,在实践中,信号可以是时变的,这意味着上述方程式的参数随着时间而变化。因此,一方面期望使用长分析帧来使得测量更准确;另一方面需要短的测量时间段以便更好地处理可能的信号变化。较好的折衷在于使用级数为例如20-40ms的分析帧长度。
根据优选实施例,通过对分析帧进行频域分析来识别正弦的频率fk。为此,例如借助DFT(离散傅里叶变换)或DCT(离散余弦变换)或类似的频域变换来将分析帧变换到频域。在使用分析帧的DFT的情况下,离散频率索引m处的频谱X(m)由下式给出:
在该方程式中,w(n)表示窗函数,通过该窗函数来对长度为L的分析帧进行提取和加权;j是虚数单位,e是指数函数。
典型的窗函数是针对n∈[0...L-1]等于1否则等于0的矩形窗。假设设置了先前接收的音频信号的时间索引,使得用时间索引n=0...L-1引用原型帧。其它可以更适于谱分析的窗函数是例如Hamming、Hanning、Kaiser或Blackman。
另一窗函数是Hamming窗与矩形窗的组合。这种窗具有形状像长度为L1的Hamming窗的左半边的上升沿和形状像长度为L1的Hamming窗的右半边的下降沿,以及在上升沿与下降沿之间,窗针对长度L-L1等于1。
加窗的分析帧的幅度谱|X(m)|的峰值构成对要求的正弦频率fk的近似。然而,该近似的精度受到DFT的频率间隔的限制。针对具有块长度L的DFT,该精度限制于
然而,在根据本文描述的实施例的方法范围内,该精度级别太低,并且能够基于以下考虑的结果来获得提高的精度:
通过将窗函数的谱与正弦模型信号S(Ω)的线谱进行卷积来给出加窗的分析帧的谱,随后在DFT的网格点处采样:
在该方程式中,δ表示Dirac delta函数,并且符号*表示卷积运算。通过使用正弦模型信号的谱表达,这可以被写为
因此,采样的谱由下式给出
其中m=0...L-1。基于此,分析帧的幅度谱中观察的峰值来自于具有K个正弦波的加窗的正弦信号,其中在峰值附近找到真的正弦频率。因此,识别正弦分量的频率还可以包括识别在与使用的频域变换有关的谱的峰值附近的频率。
如果假设mk是观察的第k个峰值的DFT索引(网格点),则对应的频率是其可以被视为真的正弦频率fk的近似。真的正弦频率fk可以假设为位于如下区间中:
为了清楚起见,应当注意的是,窗函数的谱与正弦模型信号的线谱的卷积可以被理解为窗函数谱的频移版本的叠加,从而偏移频率是正弦波的频率。然后在DFT网格点处对该叠加进行采样。
基于上述讨论,可以通过增大查找的分辨率使其大于使用的频域变换的分辨率,来找到对真的正弦频率的更好近似。
因此,识别正弦分量的频率优选使用比使用的频域变换的频率分辨率更高的分辨率来执行,并且该识别还可以包括内插。
寻找对正弦的频率fk的更好近似的一种示例优选方式是应用抛物线内插。一种方法是将通过DFT幅度谱的围绕峰值的网格点来拟合抛物线,并且计算属于抛物线顶点的相应的频率,并且对于抛物线的阶数的示例性适当的选择是2。更详细地,可以应用以下步骤:
1)识别加窗的分析帧的DFT峰值。峰值查找将会传送峰值的数量K和峰值的对应的DFT索引。峰值查找能够典型地在DFT幅度谱或对数DFT幅度谱上进行。
2)对于具有相应DFT索引的每个峰值k(其中k=1...K),通过三个点来拟合抛物线:{P1;P2;P3}={(mk-1,log(|X(mk-1)|);(mk,log(|X(mk)|);(mk+1,log(|X(mk+1)|)},其中,log表示对数算子。这导致由定义的抛物线的抛物线系数bk(0)、bk(1)、bk(2)。
3)针对K个抛物线中的每一个,计算对应于q的值的内插的频率索引抛物线针对q的值具有其最大值,其中使用作为针对正弦频率fk的近似。
应用正弦模型
为了执行根据实施例的帧丢失隐藏操作而应用正弦模型可以描述如下:
在由于对应的编码信息不可用(即由于帧已经丢失)而导致解码器不能重构编码信号的给定分段的情况下,在该分段之前的信号的可用部分可以用作原型帧。如果y(n)(其中n=0…N-1)是不可用的分段,必须针对该分段生成替代帧z(n),并且y(n)(其中n<0)是可用的先前解码的信号,则使用窗函数w(n)来提取可用信号的长度为L且起始索引为n-1的原型帧,并且例如通过DFT的方式将其变换到频域:
窗函数可以是在上文正弦分析中描述的窗函数中的一个。优选地,为了降低数字的复杂度,经频域变换的帧应当与正弦分析期间使用的相同。
在下一步骤中应用正弦模型假设。根据该正弦模型假设,原型帧的DFT可以写为以下方程式:
该表达式还用于分析部分并且在上文中进行了详细描述。
接下来,认识到的是,所使用的窗函数的谱仅在接近零的频率范围中具有显著贡献。对于接近零的频率来说窗函数的幅度谱较大,而对于其他频率(在从-π到π的归一化频率范围内,对应于采样频率的一半)来说窗函数的幅度谱较小。因此,作为近似,假设窗谱W(m)仅针对区间
[-mmin,mmax](其中mmin和mmax是小的正数)是非零的。具体地,使用窗函数谱的近似,使得针对每个k,上述表达式中的偏移窗谱的贡献是严格地非重叠的。因此在上述方程式中,针对每个频率索引,总是仅在最大值处存在来自一个被加数(即来自一个偏移的窗谱)的贡献。这意味着上述表达式缩减为以下近似表达:针对非负m∈Mk且针对每个k,
这里,Mk表示整数区间:
其中mmin,k和mmax,k满足上文说明的约束,使得区间不重叠。对于mmin,k和mmax,k的合适的选择是将它们设置为小的整数值,例如δ=3。然而,如果与两个相邻正弦的频率fk和fk+1相关的DFT索引小于2δ,则将δ设置为使得确保区间不重叠。函数floor(·)是小于或等于函数自变量的最接近于该函数自变量的整数。
根据实施例的下一个步骤是应用根据上述表达式的正弦模型并且随时间演变其K个正弦波。假设被擦除的分段的时间索引与原型帧的时间索引相比相差n-1个采样,这意味着正弦波的相位提前了
因此,演化的正弦模型的DFT谱由以下方程式给出:
再一次应用近似(根据该近似,偏移窗函数谱不重叠)给出:
针对非负m∈Mk并且针对每个k:
通过使用近似,将原型帧Y-1(m)的DFT与演变的正弦模型Y0(m)的DFT进行比较,发现针对每个m∈Mk,幅度谱保持不变而相位偏移了
因此,可以通过以下表达式来计算替代帧:
z(n)=IDFT{Z(m)},其中针对非负m∈Mk且针对每个k,
具体实施例处理针对不属于任何区间Mk的DFT索引的相位随机化。如上所述,必须设置区间Mk,k=1…K,使得这些区间严格地不重叠,这是通过使用控制区间大小的某些参数δ来实现的。可能发生δ关于两个相邻正弦波的频率距离较小。因此,在此情况下,在两个区间之间存在间隙。所以针对对应的DFT索引m,不定义根据上述表达式的相移。根据本实施例的适当的选择是针对这些索引来随机化相位,以产生Z(m)=Y(m)·ej2 πrand(·),其中函数rand(·)返回特定随机数。
在一个步骤中,对先前接收的或重构的音频信号的部分执行正弦分析,其中正弦分析包括识别音频信号的正弦分量(即正弦波)的频率。接下来,在一个步骤中,向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,并且在一个步骤中,创建针对丢失音频帧的替代帧,包括响应于对应的识别的频率来对原型帧的正弦分量(即正弦波)进行时间演化,直到丢失音频帧的时刻。
根据其它实施例,假设音频信号由有限数量的单个正弦分量组成,并且假设在频域中执行正弦分析。此外,识别正弦分量的频率可以包括识别在与使用的频域变换有关的谱的峰值附近的频率。
根据示例性实施例,识别所述正弦分量的频率是使用比使用的频域变换的分辨率更高的分辨率来执行的,并且该识别还可以包括例如抛物线类型的内插。
根据示例性实施例,该方法包括使用窗函数从可用的先前接收的或重构的信号中提取原型帧,并且其中,可以将所提取的原型帧变换到频域。
另一实施例包括对所述窗函数的谱进行近似,使得替代帧的谱包括所近似的窗函数谱的严格非重叠的部分。
根据其它示例性实施例,该方法包括:响应于所述正弦分量的频率并且响应于所述丢失音频帧与所述原型帧之间的时间差,通过使正弦分量的相位提前,来对原型帧的频谱的正弦分量进行时间演化,并且通过相移来改变包括在正弦波k附近的区间Mk中的原型帧的谱系数,该相移与正弦频率fk以及与丢失音频帧和原型帧之间的时间差成正比。
其它实施例包括将不属于所识别的正弦波的原型帧的谱系数的相位改变随机相位,或者将不包括在与所识别的正弦波的附近相关的任何区间中的原型帧的谱系数的相位改变随机值。
一实施例还包括对所述原型帧的频谱进行频域逆变换。
更具体地,根据其它实施例的音频帧丢失隐藏方法包括以下步骤:
1)分析可用的先前合成的分段来获得正弦模型的组成正弦频率fk。
2)从可用的先前合成的信号中提取原型帧,并且计算该帧的DFT。
3)响应于正弦频率fk以及原型帧与替代帧之间的时间提前来计算针对每个正弦波k的相移θk。
4)针对每个正弦波k,选择性地针对与正弦频率fk周围相关的DFT索引使原型帧DFT的相位提前。
5)计算在4)中获得的谱的逆DFT。
上述实施例还可以通过以下假设来说明:
a)假设信号可以通过有限数量的正弦波来表示。
b)与一些较早的时刻相比,假设替代帧足够好地由在时间上演化的这些正弦曲线表示。
c)假设对窗函数的谱进行近似,使得能够通过频移的窗函数谱的非重叠部分来构成替代帧的谱,移动的频率是正弦频率。
关于进一步阐述相位ECU的信息将在下面给出:
下文描述的实施例的思想包括通过以下操作来隐藏丢失音频帧:
-对先前接收或重构的音频信号的至少一部分执行正弦分析,其中该正弦分析包括识别音频信号的正弦分量的频率;
-向先前接收或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失帧的替代帧;
-创建用于丢失音频帧的替代帧涉及基于对应的识别的频率对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻。
-执行在识别频率中的增强频率估计和响应于音频信号的音调而创建替代帧的适配中的至少一个,其中增强的频率估计包括主瓣近似、谐波增强和帧间增强中的至少一个。
这里描述的实施例包括增强的频率估计。这可以例如通过使用主瓣近似、谐波增强或帧间增强来实现,并且下面描述这三个备选实施例:
主瓣近似
上述抛物线内插的一个限制是由于所使用的抛物线不接近窗函数的幅度谱|W(Ω)|的主瓣的形状而导致的。作为解决方案,该实施例通过DFT幅度谱的围绕峰值的网格点拟合近似于的主瓣的函数P(q),并且计算属于该函数最大值的相应频率。函数P(q)可以等同于窗函数的频移幅度谱为了数值的简单,应当例如宁愿是允许直接计算函数最大值的多项式。应用以下详细过程。
1.识别加窗的分析帧的DFT峰值。峰值查找将会传送峰值的数量K和峰值的对应的DFT索引。峰值查找能够典型地在DFT幅度谱或对数DFT幅度谱上进行。
2.对于给定的区间(q1,q2)导出近似窗函数的幅度谱或对数幅度谱的函数P(q)。
3.对每个具有对应DFT索引mk的峰值k(其中k=1...K),通过环绕加窗正弦信号的连续谱的期望真实峰值的两个DFT网格点来拟合频移函数因此,对于使用对数幅度谱进行操作的情况,如果|X(mk-1)|大于|X(mk+1)|,则通过点{P1;P2}={(mk-1,log(|X(mk-1)|);(mk,log(|X(mk)|)}拟合否则通过点{P1;P2}={(mk,log(|X(mk)|);(mk+1,log(|X(mk+1)|)}拟合对于使用线性而非对数幅度谱进行操作的备选示例,如果|X(mk-1)|大于|X(mk+1)|,则通过点{P1;P2}={(mk-1,|X(mk-1)|;(mk,|X(mk)|}拟合否则通过点{P1;P2}={(mk,|X(mk)|;(mk+1,|X(mk+1)|}拟合
P(q)可以被简单地选为2或4阶的多项式。这将步骤2中的近似呈现为简单的线性回归计算和直接的的计算。可以将该区间(q1,q2)选为固定的并且对于所有峰值相同,例如(q1,q2)=(-1,1),或自适应的。
在自适应方法中,可以选择区间使得函数在相关DFT网格点{P1;P2}的范围内拟合窗函数谱的主瓣。
4.对于针对期望加窗的正弦信号的连续谱具有其峰值的K个频移参数中的每一个偏移参数,计算作为对正弦频率fk的近似。
频率估计的谐波增强
发送的信号可以是谐波的,这意味着信号由频率为某一基频f0的整数倍的正弦波组成。当信号非常具有周期性时是这种情况,例如对于发声的语音或某一乐器的持续音。这意味着实施例的正弦模型的频率不是独立的,而是具有谐波关系并源自同一基频。将该谐波属性纳入考虑可以因此实质上对正弦分量频率的分析进行改进,并且该实施例涉及以下过程:
1.检查信号是否是谐波。这可以例如通过在帧丢失之前评估信号的周期性来完成。一种直接方法是执行对信号的自相关分析。这种自相关函数对于某一时滞τ>0的最大值可以用作指示符。如果该最大值的值超过给定阈值,则可以认为信号是谐波。相应的时滞τ随后通过对应于与基频有关的信号的周期。
许多线性预测语音编码方法应用所谓的开环或闭环音高预测或使用自适应码本的CELP(码激励线性预测)编码。如果信号是谐波,则通过这种编码方法导出的音高增益和相关联的音高迟滞参数也分别是针对时滞的有用指示符。
以下描述了另一方法:
2.对于整数范围1...Jmax内的每个谐波索引j,检查在谐波频率fj=j·f0邻近范围内的分析帧的(对数)DFT幅度谱中是否存在峰值。可以将fj的邻近范围定义为其中增量与的频率分辨率相对应的fj周围的增量范围,即区间
在出现这种具有相应估计的正弦频率的峰值的情况下,则用来取代
对于上述过程,也可能做出关于信号是否是谐波的检查,并隐式且可能地按照迭代方式导出基频,而不必使用来自某一单独方法的指示符。下面给出了这种技术的示例:
对于一组备选值{f0,1...f0,P}中的每个f0,p,应用过程2(尽管不取代),但是对在谐波频率(即f0,p的整数倍)邻近范围内存在多少个DFT峰值进行计数。识别基频对于该基频获得了在谐波频率处或谐波频率周围的最大数量的峰值。如果峰值的最大数量超过给定阈值,则认为信号是谐波。在那种情况下,可以将认为是基频,然后用基频执行过程2而得到增强的正弦频率。然而,一种更优选的备选方式是,首先基于已经被发现与谐波频率一致的峰值频率来对基频f0进行优化。假设已经发现一组M个谐波(即某一基频的整数倍{n1...nM})与频率处的某组M个谱峰相一致,则可以计算下层(优化后的)基频估计f0,opt,以使谐波频率和谱峰频率之间的误差最小。如果将误差最小化为均方误差则最优基频估计被计算为
可以从DFT峰值的频率或所估计的正弦频率获得候选频率的初始集合{f0, 1...f0,P}。
频率估计的帧间增强
根据该实施例,所估计的正弦频率的精度通过考虑它们的时间演化来增强。因此,可以通过平均或预测的方式来对来自多个分析帧的正弦频率的估计进行组合。在平均或预测之前,应用峰值跟踪,其将所估计的谱峰与相应的同一下层正弦波联系起来。
应用正弦模型
为了执行根据实施例的帧丢失隐藏操作而应用正弦模型可以描述如下:
在由于对应的编码信息不可用(即由于帧已经丢失)而导致解码器不能重构编码信号的给定分段的情况下,在该分段之前的信号的可用部分可以用作原型帧。如果y(n)(其中n=0...N-1)是不可用的分段,必须针对该分段生成替代帧z(n),并且y(n)(其中n<0)是可用的先前解码的信号,则使用窗函数w(n)来提取长度为L且起始索引为n-1的可用信号的原型帧,并且例如通过DFT的方式将其变换到频域:
窗函数可以是在上文正弦分析中描述的窗函数中的一个。优选地,为了降低数字的复杂度,频域变换的帧应当与正弦分析期间使用的帧相同,这意味着分析帧和原型帧将是相同的,类似地,它们各自的频域变换也是相同的。
在下一步骤中应用正弦模型假设。根据该正弦模型假设,原型帧的DFT可以写为以下方程式:
该表达式还用于分析部分并且在上文中进行了详细描述。
接下来,认识到的是,所使用的窗函数的谱仅在接近零的频率范围中具有显著贡献。如上所述,对于接近零的频率来说窗函数的幅度谱较大,而对于其他频率(在从-π到π的归一化频率范围内,对应于采样频率的一半)来说窗函数的幅度谱较小。因此,作为近似,假设窗谱W(m)仅针对区间M=[-mmin,mmax]是非零的,其中mmin和mmax是小的正数。具体地,使用窗函数谱的近似,使得针对每个k,上述表达式中的偏移窗谱的贡献是严格地非重叠的。因此在上述方程式中,针对每个频率索引,总是仅在最大值处存在来自一个被加数(即来自一个偏移的窗谱)的贡献。这意味着上述表达式缩减为以下近似表达:
针对非负m∈Mk且针对每个k。
这里,Mk表示整数区间 其中mmin,k和mmax,k满足上文说明的约束,使得区间不重叠。对于mmin,k和mmax,k的合适的选择是将它们设置为小的整数值δ,例如δ=3。然而,如果与两个相邻正弦的频率fk和fk+1相关的DFT索引小于2δ,则将δ设置为使得确保区间不重叠。函数floor(·)是小于或等于函数自变量的最接近于该函数自变量的整数。
根据实施例的下一个步骤是应用根据上述表达式的正弦模型并且随时间演化其K个正弦波。假设被擦除的分段的时间索引与原型帧的时间索引相比相差n-1个采样意味着正弦的相位提前了
因此,演化的正弦模型的DFT谱由以下方程式给出:
再一次应用近似(根据该近似,偏移窗函数谱不重叠)给出:
针对非负m∈Mk且针对每个k, 通过使用近似将原型帧的DFT Y-1(m)与演化的正弦模型的DFT Y0(m)相比较,发现幅度谱保持不变,而针对每个m∈Mk相移了因此,可以通过以下表达式来计算替代帧:
z(n)=IDFT{Z(m)}其中,针对非负m∈Mk且针对每个k,其中,IDFT表示逆DFT。
具体实施例处理针对不属于任何区间的DFT索引的相位随机化。如上所述,必须设置区间Mk,k=1…K,,使得这些区间严格地不重叠,这是通过使用控制区间大小的某些参数δ来实现的。可能出现δ关于两个相邻正弦波的频率距离较小。因此,在此情况下,在两个区间之间存在间隙。所以针对对应的DFT索引m,不定义根据上述表达式的相移。根据本实施例的适当的选择是针对这些索引来随机化相位,以产生Z(m)=Y(m)·ej2πrand(·),其中函数rand(.)返回特定随机数。
下面描述响应于信号的音调来适配区间Mk的大小的实施例。
本发明的一个实施例包括响应于信号的音调来适配区间Mk的大小。这种适配可以与上述增强的频率估计组合,其使用例如主瓣近似、谐波增强或帧间增强。然而,响应于音调对区间Mk的大小的适配,可以替代地在没有任何先前增强的频率估计的情况下执行信号。
已经发现对区间Mk的大小进行优化对于重构信号的质量是有益的。具体地,如果信号是非常调性的(tonal)(即当具有清楚的和明显的谱峰时),该区间应当更大。例如当信号是具有清晰的周期性的谐波时是这种情况。在信号具有较宽的谱最大值的较少发声的谱结构的情况下,已经发现的是使用较小区间会导致更好的质量。该发现导致了根据信号的属性调整区间大小的进一步的改进。一种实现方式是使用调性或周期性检测器。如果该检测器识别信号为调性的,则将控制区间大小的δ参数设置为相对较大的值。否则,将δ参数设置为相对较小的值。
在一个步骤中,对先前接收的或重构的音频信号的部分执行正弦分析,其中正弦分析包括识别音频信号的正弦分量(即正弦波)的频率。在一个步骤中,向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,并且在一个步骤中,创建针对丢失音频帧的替代帧,包括响应于对应的识别的频率来对原型帧的正弦分量(即正弦波)进行时间演化,直到丢失音频帧的时刻。然而,识别正弦分量的频率的步骤和/或创建替代帧的步骤还可以包括执行频率识别中的增强频率估计和响应于音频信号的音调对替代帧的创建的适配中的至少一个。增强频率估计包括主瓣近似、谐波增强和帧间增强中的至少一个。
根据其它实施例,假设音频信号由有限数量的单个正弦分量组成。
根据示例性实施例,该方法包括使用窗函数从可用的先前接收的或重构的信号中提取原型帧,并且其中,可以将所提取的原型帧变换到频域表示。
根据第一备选实施例,增强的频率估计包括近似与窗函数相关的幅度谱的主瓣的形状,并且其还可以包括识别一个或多个谱峰k和与分析帧相关联的相应离散频域变换索引mk;导出近似与窗口函数相关的幅度谱的函数P(q),且对于具有相应的离散频域变换索引mk的每个峰值k,通过离散频域变换的围绕与分析帧相关联的假设正弦模型信号的连续频谱的预期真的峰值的两个网格点来拟合频移函数P(q-qk)。
根据第二备选实施例,增强的频率估计是谐波增强,包括确定音频信号是否是谐波;以及如果信号是谐波则导出基频。所述确定可以包括执行音频信号的自相关分析和使用闭环音高预测的结果(例如,音高增益)中的至少个。导出步骤可以包括使用闭环音高预测的另一结果,例如,音高滞后。进一步根据该第二备选实施例,导出步骤可以包括针对谐波指数j检查在与所述谐波指数和基频相关联的谐波频率附近的幅度谱中是否存在峰值,其中所述幅度谱与识别步骤相关联。
根据第三备选实施例,增强的频率估计是帧间增强,包括对从两个或更多个音频信号帧中识别的频率进行组合。组合可以包括平均和/或预测,并且可以在该平均和/或预测之前应用峰值跟踪。
根据实施例,响应于音频信号的音调的适配包括根据音频信号的音调来适配位于正弦分量k附近的区间Mk的大小。此外,适配区间的大小可以包括:增大具有相对更加不同的谱峰的音频信号的区间的大小,以及减小具有相对较宽的谱峰的音频信号的区间的大小。
根据实施例的方法可以包括响应于所述正弦分量的频率并且响应于所述丢失音频帧与所述原型帧之间的时间差,通过使正弦分量的相位提前,来对原型帧的频谱的正弦分量进行时间演化。其还可以包括通过相移来改变包括在正弦波k附近的区间Mk中的原型帧的谱系数,该相移与正弦频率fk以及与丢失音频帧和原型帧之间的时间差成正比。
实施例还可以包括在频谱系数的上述改变之后对原型帧的频谱的逆频域变换。
更具体地,根据其它实施例的音频帧丢失隐藏方法包括以下步骤:
1)分析可用的先前合成的分段来获得正弦模型的组成正弦频率。
2)从可用的先前合成的信号中提取原型帧y-1,并且计算该帧的DFT。
3)响应于正弦频率fk和在原型帧与替代帧之间的时间提前n-1来计算每个正弦波k的相移θk,其中,区间Mk的大小可以已经响应于音频信号的音调而被适配。
4)针对每个正弦波k,选择性地针对与正弦频率fk周围相关的DFT索引使原型帧DFT的相位提前θk。
5)计算步骤4中获得的谱的逆DFT。
上述实施例还可以通过以下假设来说明:
d)假设信号可以通过有限数量的正弦波来表示。
e)与一些较早的时刻相比,假设替代帧足够好地由在时间上演化的这些正弦曲线表示。
f)假设对窗函数的谱进行近似,使得能够通过频移的窗函数谱的非重叠部分来构成替代帧的谱,移动的频率是正弦频率。
下文涉及之前提到的用于相位ECU的控制方法。
帧丢失隐藏方法的适配
在以上执行的步骤指示建议帧丢失隐藏操作的适配的条件的情况下,对替代帧频谱的计算进行修改。
尽管替代帧频谱的原始计算是根据表达式Z(m)=Y(m)·ejθk完成的,现在引入修改幅度和相位二者的适配。通过用两个因子α(m)和β(m)的缩放来修改幅度,并且用加性相位分量来修改相位。这导致对替代帧的以下修改后的计算。
应该注意的是,如果α(m)=1,β(m)=1且则使用原始(非适配的)帧丢失隐藏方法。因此这些相应值是默认的。
引入幅度适配的一般目的是避免帧丢失隐藏方法的听得见的伪像。这种伪像可以是音乐的或音调的声音或从瞬态声音的重复中出现的奇怪声音。这种伪像将进而导致质量降级,避免质量降级是所述适配的目的。这种适配的一种合适的方式是将替代帧的幅度谱修改至合适的程度。
现在将描述隐藏方法修改的实施例。如果突发丢失计数器nburst超过某一阈值thrburst(例如thrburst=3),则优选地做出幅度适配。在那种情况下,针对衰减因子使用小于1的值,例如α(m)=0.1。
然而已经发现用逐渐增大的程度来执行衰减是有利的。实现这一点的一个优选实施例是定义用于指定每帧衰减中的对数增大的对数参数att_per_frame。然后,在突发计数器超过阈值的情况下,则利用下式来计算逐渐增大的衰减因子:
这里,常数c仅是允许例如以分贝(dB)来指示参数att_per_frame的缩放常数。
响应于信号被估计为是音乐还是语音的指示符来完成附加的优选适配。与语音内容相比,对于音乐内容优选增大阈值thrburst和降低每帧的衰减。这等同于以较低程度来执行对帧丢失隐藏方法的适配。这类适配的背景是:与语音相比,音乐通常对于较长的丢失突发较不敏感。因此,对于这种情况,至少对于较大数量的接连的帧丢失的情况,原始(即未修改的)帧丢失隐藏方法仍是优选的。
一旦已经基于指示符Rl/r,band(k)或可选地,Rl/r(m)或Rl/r已超过阈值而检测到了瞬态,则优选地完成关于幅度衰减因子的隐藏方法的另一适配。在那种情况下,合适的适配动作是修改第二幅度衰减因子β(m),使得总衰减由两个因子的乘积α(m)·β(m)控制。
响应于所指示的瞬态来设置β(m)。在检测到偏移的情况下,优选地选择因子β(m)来反映该偏移的能量降低。合适的选择是将β(m)设置为检测到的增益改变:
对于m∈Ik,k=1...K。
在检测到了起始的情况下,发现限制替代帧中的能量增大是相当有利的。在那种情况下,可以将因子设置为某一固定值(例如1),这意味着没有衰减也没有任何放大。
以上应当注意的是,优选频率选择性地(即利用针对每个频带的单独计算的因子)应用幅度衰减因子。在不使用频带方式的情况下,仍然可以用模拟的方式来获得相应的幅度衰减因子。在DFT箱层级上使用频率选择性瞬态检测的情况下,可以针对每个DFT箱单独设置β(m)。或者,在根本没有使用频率选择性瞬态指示的情况下,β(m)可以对于所有m全部相同。
结合通过附加相位分量修改相位完成了幅度衰减因子的另一优选适配。在对于给定的m使用这种相位修改的情况下,进一步减小衰减因子β(m)。优选地,甚至考虑相位修改的程度。如果相位修改仅是中等程度的,则β(m)仅按比例轻微缩小,而如果相位修改是大幅的,则β(m)按比例较大程度地缩小。
引入相位适配的一般目的是避免在所生成的替代帧中过强的调性或信号周期性,这将进而导致质量降级。这种适配的合适的方式是将相位随机化或抖动至合适的程度。
如果将附加相位分量设置为随机值以某一控制因子缩放,则实现了这种相位抖动:
例如,通过函数rand(·)获得的随机值通过某一伪随机数发生器来生成。这里假设它提供区间[0,2π]内的随机数。
以上等式中的缩放因子a(m)控制原始相位θk抖动的程度。以下实施例通过控制该缩放因子解决相位适配。用模拟的方式来实现对缩放因子的控制,作为上述对幅度修改因子的控制。
根据第一实施例,响应于突发丢失计数器适配缩放因子α(m)。如果突发丢失计数器nburst超过某一阈值thrburst,(例如thrburst=3),则使用大于0的值(例如a(m)=0.2)。
然而已经发现用逐渐增大的程度来执行抖动是有利的。实现了这一点的一个优选实施例是定义指示每帧抖动增大的参数dith_increase_per_frame。然后,在突发计数器超过阈值的情况下,利用下式来计算逐渐增大的抖动控制因子:
a(m)=dith_increase_per_frame·(nburst-thrburst)。
应该注意的是,在以上方程式中,必须将a(m)局限于实现了全相位抖动的最大值1。
应该注意的是,用于发起相位抖动的突发丢失阈值thrburst可以是与用于幅度衰减的相同的阈值。然而,通过将这些阈值设置为单独的最佳值可以获得更好的质量,这通常意味着这些阈值可以不同。
响应于信号被估计为是音乐还是语音的指示符来完成附加的优选适配。与语音内容相比,对于音乐内容优选增大阈值thrburst,这意味着与语音相比,仅在接连更多丢失帧的情况下完成针对音乐的相位抖动。这等同于对于音乐用较低程度来执行对帧丢失隐藏方法的适配。这类适配的背景是:与语音相比,音乐通常对于较长的丢失突发较不敏感。因此,对于这种情况,至少对于较大数量的接连的帧丢失的情况,原始(即未修改的)帧丢失隐藏方法仍是优选的。
另一个优选的实施例是响应于检测到的瞬态对相位抖动进行适配。在那种情况下,可以针对DFT箱使用较强程度的相位抖动,其中对于该箱、相应频带的DFT箱、或整个频带的DFT箱指示了瞬态。
所描述的方案的部分解决了用于谐波信号以及特别是用于发声语音的帧丢失隐藏方法的优化。
在没有实现如上述使用增强的频率估计的方法的情况下,对发声的语音信号的质量进行优化的帧丢失隐藏方法的另一种适配可能是切换至特别针对语音(而不是包含音乐和语音的通用音频信号)进行设计和优化的另一种帧丢失隐藏方法。在那种情况下,关于信号包括发声的语音信号的指示符被用于选择另一种语音优化的帧丢失隐藏方案而不是上述方案。
总之,应当理解,对互动单元或模块的选择以及单元的命名仅用于示例目的,并且可通过多个备选方式来配置,从而能够执行所公开的处理动作。
还应当注意,本公开中描述的单元或模块应被认为是逻辑实体,并且不必是分离的物理实体。可以理解,本文公开技术的范围完全覆盖对本领域技术人员来说显而易见的其他实施例,相应地,本公开的范围不限于此。
除非明确地阐述,单数形式的元件的参考不意图表示“一个且仅一个”,而是“一个或更多个”。上述优选元素实施例的元素的对于本领域的普通技术人员已知的所有结构和功能等同物明确通过引用并入本文,并旨在由本权利要求所涵盖。此外,设备或方法不必须解决本文公开的技术所要解决的每个问题,其用于被包含于此。
在前述说明中,出于描述而非限制的目的,阐述例如特定结构、接口、技术等特定细节,以提供对所公开的技术的透彻理解。然而,本领域技术人员将显而易见,所公开技术可以在偏离这些特定细节的其他实施例或实施例的组合中实践。即,本领域技术人员将能够想出体现所公开技术的原理的各种配置,尽管并未这里明确地描述或示出。在一些实例中,省略众所周知的装置、电路和方法的详细说明,以免不必要的细节模糊所公开技术的说明。本文中列出所公开技术的原理、方面和实施例,以及其具体实例的所有陈述旨在包括其结构和功能等同物。此外,不考虑结构,希望这种等价形式既包括当前已知的等价形式,也包括未来发展的等价形式,例如执行相同功能的发展的单元。
因此,例如本领域技术人员将理解本文的附图可以代表体现技术的原理的说明性电路或其他功能单元的概念性视图,和/或可以大体上在计算机可读介质中表示和利用计算机或处理器执行的各种过程,即便不能在附图中明确示出这种计算机或处理器。
可以通过诸如电路硬件和/或能够执行在计算机可读介质上存储的编码指令形式的软件的硬件的使用来提供包括功能模块的各种单元的功能。因此,这种功能和所示出的功能模块被理解为或者是硬件实现的和/或计算机实现,并因此是机器实现的。
上述实施例被理解为本发明的几个说明性示例。本领域技术人员将理解,在不脱离本发明的范围的前提下,可以对实施例作出各种修改、合并和改变。尤其是,不同实施例中的不同部分的方案可在其他技术上可行配置中进行组合。
以上已经参照一些实施例主要地描述了发明构思。然而,本领域技术人员容易理解的是,上述公开之外的在如由所附权利要求所限定的发明构思的范围之内的其它实施例同样是可能的。
Claims (29)
1.一种用于帧丢失隐藏的方法,所述方法由接收实体(103、200、400、800、900)执行,包括:
与为丢失帧构造替代帧相关联地将噪声分量添加(S104、S208)到所述替代帧,
其中,所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
2.根据权利要求1所述的方法,其中用取决于连续丢失帧的数量的缩放因子来缩放噪声分量和替代帧,使得噪声分量以作为连续丢失帧的所述数量的函数的增加幅度而被逐渐叠加在替代帧上。
3.根据权利要求1或2所述的方法,其中替代帧频谱和噪声分量在频域中叠加。
4.根据前述权利要求中任一项所述的方法,其中所述低分辨率频谱表示基于所述先前接收的帧中的所述信号的幅度谱。
5.根据权利要求4所述的方法,还包括:
通过对所述先前接收的帧中的所述信号的所述幅度谱进行逐频率组平均来获得(S202a)所述幅度谱的所述低分辨率表示。
6.根据权利要求4所述的方法,还包括:
通过对所述先前接收的帧中的所述信号的大量n个低分辨率频域变换进行逐频率组平均来获得(S202b)所述幅度谱的所述低分辨率表示。
7.根据权利要求5或6所述的方法,其中在所述逐频率组平均期间使用的组宽度遵循人类听觉临界频带。
8.根据前述权利要求中任一项所述的方法,其中所述低分辨率频谱表示基于一组线性预测编码LPC参数。
9.根据前述权利要求中任一项所述的方法,其中,将噪声分量添加到替代帧是在频域中执行的。
10.根据权利要求1至8中任一项所述的方法,其中,将噪声分量添加到替代帧是在时域中执行的。
11.根据权利要求3至9中任一项所述的方法,其中,替代帧通过衰减因子α(m)而被逐渐衰减。
12.根据权利要求11所述的方法,其中替代帧具有相位,并且其中所述相位与随机相位值θ(m)叠加。
13.根据权利要求11或12所述的方法,还包括:
确定(S204)噪声分量的幅度缩放因子β(m),使得β(m)补偿由将衰减因子α(m)应用于替代帧而导致的能量损失。
14.根据权利要求13所述的方法,其中,向噪声分量提供随机相位值η(m)。
15.根据权利要求12至14所述的方法,其中β(m)被确定为
16.根据权利要求12或14所述的方法,其中β(m)被确定为
其中λ(m)是频率相关的衰减因子。
17.根据权利要求16所述的方法,其中对于小于阈值的m,λ(m)等于1,而对于大于所述阈值的m,λ(m)小于1。
18.根据前述权利要求中任一项所述的方法,其中,在所述低分辨率频谱表示上施加低通特性。
19.根据权利要求13到18中的任一项所述的方法,其中缩放因子α(m)和β(m)是逐频率组固定的。
20.根据前述权利要求中任一项所述的方法,其中将噪声分量添加到替代帧包括确认突发错误长度n超过第一阈值T1。
21.根据权利要求20所述的方法,其中,T1≥2。
22.根据权利要求20或21所述的方法,还包括:
当所述突发错误长度n超过至少与所述第一阈值一样大的第二阈值T2时,将长期衰减因子γ应用(S103,S206)于β(m)。
23.根据权利要求22所述的方法,其中,T2≥10。
24.根据前述权利要求中任一项所述的方法,其中替代帧分量由诸如相位ECU的主帧丢失隐藏方法导出。
25.一种用于帧丢失隐藏的接收实体(103、200、400、800、900),所述接收实体包括处理电路(803),所述处理电路被配置为使所述接收实体执行一组操作,包括:
与为丢失帧构造替代帧相关联地将噪声分量添加到所述替代帧,
其中,所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
26.根据权利要求25所述的接收实体,还包括存储所述一组操作的存储介质(804),并且其中处理电路被配置为从存储介质检索所述一组操作,以使所述接收实体执行所述一组操作。
27.根据权利要求25或26所述的接收实体,其中所述一组操作被提供为一组可执行指令。
28.一种用于帧丢失隐藏的计算机程序(805、1002),所述计算机程序包括计算机代码,所述计算机代码当在接收实体(103、200、400、800、900)的处理电路(803)上运行时使接收实体:
与为丢失帧构造替代帧相关联地将噪声分量添加(S104、S208)到所述替代帧,
其中,所述噪声分量具有与先前接收的帧中的信号的低分辨率频谱表示相对应的频率特性。
29.一种计算机程序产品(1001),包括根据权利要求28所述的计算机程序(805、1002)和存储所述计算机程序的计算机可读装置(1003)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010083611.2A CN111312261B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
CN202010083612.7A CN111292755B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462011598P | 2014-06-13 | 2014-06-13 | |
US62/011,598 | 2014-06-13 | ||
PCT/SE2015/050662 WO2015190985A1 (en) | 2014-06-13 | 2015-06-08 | Burst frame error handling |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083611.2A Division CN111312261B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
CN202010083612.7A Division CN111292755B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106463122A true CN106463122A (zh) | 2017-02-22 |
CN106463122B CN106463122B (zh) | 2020-01-31 |
Family
ID=53502813
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083611.2A Active CN111312261B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
CN202010083612.7A Active CN111292755B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
CN201580031034.XA Active CN106463122B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010083611.2A Active CN111312261B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
CN202010083612.7A Active CN111292755B (zh) | 2014-06-13 | 2015-06-08 | 突发帧错误处理 |
Country Status (12)
Country | Link |
---|---|
US (5) | US9972327B2 (zh) |
EP (3) | EP3367380B1 (zh) |
JP (3) | JP6490715B2 (zh) |
CN (3) | CN111312261B (zh) |
BR (1) | BR112016027898B1 (zh) |
DK (1) | DK3664086T3 (zh) |
ES (2) | ES2897478T3 (zh) |
MX (3) | MX361844B (zh) |
PL (1) | PL3367380T3 (zh) |
PT (1) | PT3664086T (zh) |
SG (2) | SG10201801910SA (zh) |
WO (1) | WO2015190985A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112016027898B1 (pt) * | 2014-06-13 | 2023-04-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
CA3127443A1 (en) * | 2019-01-23 | 2020-07-30 | Sound Genetics, Inc. | Systems and methods for pre-filtering audio content based on prominence of frequency content |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144936A (en) * | 1994-12-05 | 2000-11-07 | Nokia Telecommunications Oy | Method for substituting bad speech frames in a digital communication system |
US20060178872A1 (en) * | 2005-02-05 | 2006-08-10 | Samsung Electronics Co., Ltd. | Method and apparatus for recovering line spectrum pair parameter and speech decoding apparatus using same |
CN101046964A (zh) * | 2007-04-13 | 2007-10-03 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US20090103517A1 (en) * | 2004-05-10 | 2009-04-23 | Nippon Telegraph And Telephone Corporation | Acoustic signal packet communication method, transmission method, reception method, and device and program thereof |
US20110191111A1 (en) * | 2010-01-29 | 2011-08-04 | Polycom, Inc. | Audio Packet Loss Concealment by Transform Interpolation |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3601074B2 (ja) * | 1994-05-31 | 2004-12-15 | ソニー株式会社 | 信号処理方法及び信号処理装置 |
US6952668B1 (en) | 1999-04-19 | 2005-10-04 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
EP1195745B1 (en) * | 2000-09-14 | 2003-03-19 | Lucent Technologies Inc. | Method and apparatus for diversity control in multiple description voice communication |
JP2002229593A (ja) | 2001-02-06 | 2002-08-16 | Matsushita Electric Ind Co Ltd | 音声信号復号化処理方法 |
DE10130233A1 (de) * | 2001-06-22 | 2003-01-02 | Bosch Gmbh Robert | Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung |
DE60223580T2 (de) | 2001-08-17 | 2008-09-18 | Broadcom Corp., Irvine | Verbessertes verbergen einer rahmenlöschung für die prädiktive sprachcodierung auf der basis einer extrapolation einer sprachsignalform |
JP2003099096A (ja) | 2001-09-26 | 2003-04-04 | Toshiba Corp | オーディオ復号処理装置及びこの装置に用いられる誤り補償装置 |
US20040122680A1 (en) * | 2002-12-18 | 2004-06-24 | Mcgowan James William | Method and apparatus for providing coder independent packet replacement |
JP2004361731A (ja) * | 2003-06-05 | 2004-12-24 | Nec Corp | オーディオ復号装置及びオーディオ復号方法 |
US7565286B2 (en) * | 2003-07-17 | 2009-07-21 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry, Through The Communications Research Centre Canada | Method for recovery of lost speech data |
US7546508B2 (en) * | 2003-12-19 | 2009-06-09 | Nokia Corporation | Codec-assisted capacity enhancement of wireless VoIP |
WO2005086138A1 (ja) * | 2004-03-05 | 2005-09-15 | Matsushita Electric Industrial Co., Ltd. | エラー隠蔽装置およびエラー隠蔽方法 |
KR100708123B1 (ko) * | 2005-02-04 | 2007-04-16 | 삼성전자주식회사 | 자동으로 오디오 볼륨을 조절하는 방법 및 장치 |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
WO2008022184A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Constrained and controlled decoding after packet loss |
JP2008058667A (ja) * | 2006-08-31 | 2008-03-13 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
JP2009063928A (ja) * | 2007-09-07 | 2009-03-26 | Fujitsu Ltd | 補間方法、情報処理装置 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
US8321216B2 (en) * | 2010-02-23 | 2012-11-27 | Broadcom Corporation | Time-warping of audio signals for packet loss concealment avoiding audible artifacts |
KR102102450B1 (ko) * | 2012-06-08 | 2020-04-20 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
TWI553628B (zh) * | 2012-09-24 | 2016-10-11 | 三星電子股份有限公司 | 訊框錯誤隱藏方法 |
ES2597829T3 (es) | 2013-02-05 | 2017-01-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Ocultación de pérdida de trama de audio |
US9478221B2 (en) | 2013-02-05 | 2016-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced audio frame loss concealment |
PL3125239T3 (pl) | 2013-02-05 | 2019-12-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Sposób i urządzenie do kontrolowania ukrywania utraty ramek audio |
CN103456307B (zh) * | 2013-09-18 | 2015-10-21 | 武汉大学 | 音频解码器中帧差错隐藏的谱代替方法及系统 |
BR112016027898B1 (pt) * | 2014-06-13 | 2023-04-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro |
-
2015
- 2015-06-08 BR BR112016027898-4A patent/BR112016027898B1/pt active IP Right Grant
- 2015-06-08 EP EP18167282.5A patent/EP3367380B1/en active Active
- 2015-06-08 EP EP15733938.3A patent/EP3155616A1/en not_active Ceased
- 2015-06-08 DK DK20152601.9T patent/DK3664086T3/da active
- 2015-06-08 JP JP2016567382A patent/JP6490715B2/ja active Active
- 2015-06-08 MX MX2016014776A patent/MX361844B/es active IP Right Grant
- 2015-06-08 PT PT201526019T patent/PT3664086T/pt unknown
- 2015-06-08 CN CN202010083611.2A patent/CN111312261B/zh active Active
- 2015-06-08 CN CN202010083612.7A patent/CN111292755B/zh active Active
- 2015-06-08 EP EP20152601.9A patent/EP3664086B1/en active Active
- 2015-06-08 ES ES20152601T patent/ES2897478T3/es active Active
- 2015-06-08 ES ES18167282T patent/ES2785000T3/es active Active
- 2015-06-08 MX MX2018015154A patent/MX2018015154A/es unknown
- 2015-06-08 WO PCT/SE2015/050662 patent/WO2015190985A1/en active Application Filing
- 2015-06-08 PL PL18167282T patent/PL3367380T3/pl unknown
- 2015-06-08 MX MX2021008185A patent/MX2021008185A/es unknown
- 2015-06-08 US US14/651,592 patent/US9972327B2/en active Active
- 2015-06-08 SG SG10201801910SA patent/SG10201801910SA/en unknown
- 2015-06-08 CN CN201580031034.XA patent/CN106463122B/zh active Active
- 2015-06-08 SG SG11201609159PA patent/SG11201609159PA/en unknown
-
2018
- 2018-02-22 US US15/902,223 patent/US10529341B2/en active Active
-
2019
- 2019-02-27 JP JP2019034610A patent/JP6714741B2/ja active Active
- 2019-12-10 US US16/709,297 patent/US11100936B2/en active Active
-
2020
- 2020-06-05 JP JP2020098857A patent/JP6983950B2/ja active Active
-
2021
- 2021-07-21 US US17/382,042 patent/US11694699B2/en active Active
-
2023
- 2023-05-19 US US18/199,560 patent/US20230368802A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144936A (en) * | 1994-12-05 | 2000-11-07 | Nokia Telecommunications Oy | Method for substituting bad speech frames in a digital communication system |
US20090103517A1 (en) * | 2004-05-10 | 2009-04-23 | Nippon Telegraph And Telephone Corporation | Acoustic signal packet communication method, transmission method, reception method, and device and program thereof |
US20060178872A1 (en) * | 2005-02-05 | 2006-08-10 | Samsung Electronics Co., Ltd. | Method and apparatus for recovering line spectrum pair parameter and speech decoding apparatus using same |
CN101115051A (zh) * | 2006-07-25 | 2008-01-30 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101046964A (zh) * | 2007-04-13 | 2007-10-03 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US20110191111A1 (en) * | 2010-01-29 | 2011-08-04 | Polycom, Inc. | Audio Packet Loss Concealment by Transform Interpolation |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104969290B (zh) | 用于对音频帧丢失隐藏进行控制的方法和设备 | |
EP1719116B1 (en) | Switching from ACELP into TCX coding mode | |
KR101180202B1 (ko) | 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 | |
KR102102450B1 (ko) | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 | |
EP2382622B1 (en) | Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system | |
US20070147518A1 (en) | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX | |
KR102217709B1 (ko) | 노이즈 신호 처리 방법, 노이즈 신호 생성 방법, 인코더, 디코더, 및 인코딩/디코딩 시스템 | |
CN102272831A (zh) | 基于峰值检测的选择性缩放掩码计算 | |
EP3096314B1 (en) | Audio frame loss concealment | |
US20230368802A1 (en) | Burst frame error handling | |
EP2774146B1 (en) | Audio encoding based on an efficient representation of auto-regressive coefficients | |
US12009000B2 (en) | Apparatus and method for comfort noise generation mode selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |