CN108564958B - 音频帧丢失隐藏 - Google Patents
音频帧丢失隐藏 Download PDFInfo
- Publication number
- CN108564958B CN108564958B CN201810571350.1A CN201810571350A CN108564958B CN 108564958 B CN108564958 B CN 108564958B CN 201810571350 A CN201810571350 A CN 201810571350A CN 108564958 B CN108564958 B CN 108564958B
- Authority
- CN
- China
- Prior art keywords
- frame
- sinusoidal
- prototype
- frequency
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 56
- 238000001228 spectrum Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 230000010363 phase shift Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 30
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 101150096839 Fcmr gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Stringed Musical Instruments (AREA)
- Packaging For Recording Disks (AREA)
- Television Receiver Circuits (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
通过对先前接收的或重构的音频信号的部分指定正弦分析(81)来隐藏接收的音频信号的丢失音频帧,其中正弦分析包含识别音频信号的正弦分量的频率,向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧以便创建针对丢失音频帧的替代帧,以及响应于对应的识别的频率,通过直到丢失音频帧的时刻对原型帧的正弦分量进行时间演化来创建针对丢失音频帧的替代帧(83)。
Description
分案说明
本申请是申请日为2014年1月22日、申请号为201480007537.9、发明名称为“音频帧丢失隐藏”的发明专利申请的分案申请。
技术领域
本发明总体上涉及一种隐藏接收的音频信号的丢失音频帧的方法。本发明还涉及一种被配置为隐藏接收的编码音频信号的丢失音频帧的解码器。本发明还涉及包括一种解码器的接收机,以及计算机程序和计算机程序产品。
背景技术
传统的音频通信系统以帧来传输语音和音频信号,这意味着发送侧首先将音频信号设置为例如20=40ms的短的分段,即音频信号帧,短的分段随后被编码并作为逻辑单元在例如传输包中传输。接收侧的解码器对这些单元中的每个单元进行解码,并且重构对应的音频信号帧,该音频信号帧继而最后作为重构音频信号样本的连续序列来输出。
在编码之前,模数(A/D)转换可以将来自麦克风的模拟语音或音频信号转换成数字音频信号样本的序列。相反地,在接收端,最终的D/A转换步骤典型地将重构的数字音频信号样本的序列转换成时间连续的模拟信号,以用于扬声器回放。
然而,针对语音和音频信号的传统传输系统可能会遭受传输错误,这可能导致传输的帧中的一个或若干个不可用于在接收侧进行重构的情况。在这种情况下,解码器必须生成针对每个不可用帧的替代信号。这可以通过在接收侧的解码器中的所谓的音频帧丢失隐藏单元来执行。帧丢失隐藏的目的是使得尽可能听不到帧丢失,并且因此减轻帧丢失对重构的信号质量造成的影响。
传统的帧丢失隐藏方法可以取决于编解码器的结构或构造,例如通过重复先前接收的编解码器参数。这样的参数重复技术显然取决于使用的编解码器的具体参数,并且可能不容易适用于具有不同结构的其它编解码器。当前的帧丢失隐藏方法可以例如冻结并外插(extrapolate)之前接收的帧的参数,以便生成针对丢失帧的替代帧。标准化的线性预测编解码器AMR和AMR-WB是参数化的语音编解码器,其冻结早先接收的参数或使用对参数的外插来进行解码。本质上,原则是取得针对编码/解码的给定模型,并且利用冻结或外插的参数来应用相同的模型。
很多音频编解码器应用编码频域技术,该技术包括在频域变换之后向谱参数应用编码模型。解码器根据接收的参数来重构信号谱,并且将谱变换回时间信号。典型地,时间信号是逐帧重构的,并且这些帧通过重叠添加技术和可能的进一步处理来组合以形成最后的重构信号。对应的音频帧丢失隐藏针对丢失帧来应用相同或至少部分类似的解码模型,其中冻结或者适当地外插来自先前接收的帧的频域参数,然后在频率到时间域转换中使用。
然而,传统的音频帧丢失隐藏方法可能遭受质量减损,例如由于参数冻结和外插技术和针对丢失帧的相同解码器模型的重应用并不能始终保证从先前解码的信号帧到丢失帧的平滑和忠实的信号演化。这可能导致具有对应的质量影响的可听信号中断。因此,人们期望并需要质量损害减小的音频帧丢失隐藏。
发明内容
本发明的实施例的目的是至少处理一些上文概述的问题,并且该目的和其它目的是通过根据附加独立权利要求的方法和装置以及通过根据从属权利要求的实施例来实现的。
根据一方面,实施例提供了一种用于隐藏丢失音频帧的方法,该方法包括对先前接收的或重构的音频信号的部分执行正弦分析,其中正弦分析包括识别音频信号的正弦分量的频率。此外,向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧。替代帧的创建包括响应于对应的识别的频率来进行的原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻。
根据第二方面,实施例提供了一种被配置为隐藏接收的音频信号的丢失音频帧的解码器,该解码器包括处理器和存储器,存储器包含能够由处理器执行的指令,借由此所述解码器被配置为:对先前接收的或重构的音频信号的部分执行正弦分析,其中所述正弦分析包括识别音频信号的正弦分量的频率。解码器被配置为向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,以及通过响应于对应的识别的频率,对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻,来创建针对所述丢失音频帧的替代帧。
根据第三方面,实施例提供了一种解码器,被配置为隐藏接收的音频信号的丢失音频帧,该解码器包括输入单元以及帧丢失隐藏单元,所述输入单元被配置为接收编码的音频信号,所述帧丢失隐藏单元包括用于对先前接收的或重构的音频信号的部分执行正弦分析的装置,其中所述正弦分析包括识别所述音频信号的正弦分量的频率。帧丢失隐藏单元还包括用于向先前接收的或重构的音频信号的分段应用正弦模型的装置,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧。帧丢失隐藏单元还包括用于通过响应于对应的识别的频率,对原型帧的正弦分量进行时间演化,直到所述丢失音频帧的时刻,来创建针对丢失音频帧的替代帧的装置。
解码器可以在诸如移动电话之类的设备中实现。
根据第四方面,实施例提供了一种接收机,该接收机包括根据上述第二和第三方面中的任一方面所述的解码器。
根据第五方面,实施例提供了一种计算机程序,被定义用于隐藏丢失音频帧,其中该计算机程序包括指令,指令在由处理器运行时使得处理器与上述第一方面一致地隐藏丢失音频帧。
根据第六方面,实施例提供了一种计算机程序产品,该计算机程序产品包括存储了根据上述第五方面的计算机程序的计算机可读介质。
本文描述的实施例的优点是提供了一种帧丢失隐藏方法,使得能够减轻在音频信号(例如编码的语音)的传输中的帧丢失的听得见的影响。大体的优点是提供了针对丢失帧的重构信号的平滑且忠实的演化,其中与传统技术相比,大大地减小了帧丢失的听得见的影响。
在阅读以下描述和附图时,本申请的实施例中教义的其它特征和优点将变得更加清楚。
附图说明
将参照附图更详细地描述实施例,在附图中:
图1示出了典型的窗函数;
图2示出了特定的窗函数;
图3显示了窗函数的幅度谱的示例;
图4示出了具有频率fk的示例性正弦信号的线谱;
图5示出了具有频率fk的加窗的正弦信号的谱;
图6示出了基于分析帧的与DFT的网格点的幅度相对应的条形图;
图7示出了与DFT网格点拟合的抛物线;
图8是根据实施例的方法的流程图;
图9和图10a-图10b示出了根据实施例的解码器,以及
图11示出了根据实施例的计算机程序和计算机程序产品。
具体实施方式
在下文中,将更详细地描述本发明的实施例。为了说明而非限制的目的,公开了特定细节,例如具体场景和技术,以便提供充分的理解。
此外,显而易见的是,述示例性方法和设备可以通过使用与编程的微处理器或通用计算机结合起作用的软件和/或使用特定用途集成电路(ASIC)来实现。此外,实施例还可以至少部分地实现为计算机程序产品,或者在包括计算机处理器和耦合到处理器的存储器的系统中实现,其中存储器可以使用可以执行本文公开的功能的一个或多个程序来编码。
下文描述的实施例的思想包括通过以下操作来隐藏丢失音频帧:
-对先前接收或重构的音频信号的至少一部分执行正弦分析,其中该正弦分析包括识别音频信号的正弦分量的频率;
-向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,以及
-创建替代帧,包括响应于对应的识别的频率来对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻。
正弦分析
根据实施例的帧丢失隐藏包括对先前接收的或重构的音频信号的部分执行正弦分析。该正弦分析的目的是找到该信号的主正弦分量(即正弦波)的频率。由此,以下假设是音频信号是由正弦模型生成,并且该音频信号包括有限数量的单个正弦波,即该音频信号是以下类型的多正弦信号:
找到尽可能准确的正弦波的频率是重要的。虽然理想的正弦信号会具有线频率fk的线谱,但是找到它们的真值在原则上将需要无限的测量时间。因此,在实践中难以找到这些频率,因为只能基于短的测量时间段来估计它们,该测量时间段与用于根据本文描述的实施例的正弦分析的信号分段相对应;下文中,该信号分段是指分析帧。另一个困难是,在实践中,信号可以是时变的,这意味着上述方程式的参数随着时间而变化。因此,在一方面需要使用长的分析帧使测量更准确;另一方面需要短的测量时间段以便更好的处理可能的信号变化。好的折衷是使用长度大约为例如20-40ms数量级的分析帧。
根据优选实施例,通过对分析帧进行频域分析来识别正弦fk的频率。为此,例如借助DFT(离散傅里叶变换)或DCT(离散余弦变换)或类似的频域变换来将分析帧变换到频域。在使用分析帧的DFT的情况下,由以下方程式来给出谱:
在该方程式中,w(n)表示窗函数,通过该窗函数来对长度为L的分析帧进行提取和加权。
图1示出了典型的窗函数,即针对n∈[0...L-1]等于1否则等于0的矩形窗。假设设置了之前接收的音频信号的时间索引,使得原型帧引用时间索引n=0...L-1。其它可以更适于谱分析的窗函数是例如Hamming、Hanning、Kaiser或Blackman。
图2示出了更有用的窗函数,该窗函数是Hamming窗与矩形窗的组合。图2中示出的窗具有形状像长度为L1的Hamming窗的左半边的上升沿和形状像长度为L1的Hamming窗的右半边的下降沿,以及在上升沿与下降沿之间,窗针对长度L-L1等于1。
然而,在根据本文描述的实施例的方法范围内,该精度级别太低,并且能够基于以下考虑的结果来获得提高的精度:
通过将窗函数的谱与正弦模型信号S(Ω)的线谱进行卷积来给出加窗的分析帧的谱,随后在DFT的网格点处采样:
通过使用正弦模型信号的谱表达式,该方程式可以写成:
因此,采样的谱由以下方程式给出:
其中m=0...L-1。
基于此,分析帧的幅度谱中观察的波峰来自于具有K个正弦波的加窗的正弦信号,其中在波峰附近找到真的正弦频率。因此,识别正弦分量的频率还可以包括在与使用的频域变换有关的谱的波峰附近识别频率。
为了清楚起见,应当注意的是,窗函数的谱与正弦模型信号的线谱的卷积可以被理解为窗函数谱的频移版本的叠加,由此移动频率是正弦波的频率。然后在DFT网格点处对该叠加进行采样。图3-图7示出了窗函数的谱与正弦模型信号的线谱的卷积,其中图3显示了窗函数的幅度谱的示例,并且图4显示了具有频率fk的单个正弦波的示例正弦信号的幅度谱(线谱)。图5示出了加窗的正弦信号的幅度谱,该加窗的正弦信号以正弦波的频率来重复并叠加频移窗波谱,并且图6中的条对应于加窗的正弦波的DFT的网格点的幅度,网格点是通过计算分析帧的DFT来获得的。注意,所有的波谱是周期的,其具有对应于采样频率fs的归一化的频率参数Ω,其中Ω=2π。
基于上述讨论,并且基于图6的图示,可以通过增大查找的分辨率使其大于使用的频域变换的分辨率,来找到真的正弦频率的更好近似。
因此,识别正弦分量的频率优选使用比使用的频域变换的频率分辨率更高的分辨率来执行,并且该识别还可以包括内插。
一种找到正弦波的频率fk的更好近似的示例性优选方式是应用抛物线内插。一种方法是将抛物线穿过围绕波峰的DFT幅度谱的网格点,并且计算属于抛物线顶点的相应的频率,并且对于抛物线的阶数的示例性适当的选择是2。更详细地,可以应用以下步骤:
1)识别加窗的分析帧的DFT波峰。波峰查找将会传送波峰的数量K和波峰的对应的DFT索引。能够典型地在DFT幅度谱或对数DFT幅度谱上实现波峰查找。
2)针对对应DFT索引为mk的每个波峰k(其中k=1...K),将抛物线穿过三个点:{P1;P2;P3}={(mk-1,log(|X(mk-1)|);(mk,log(|X(mk)|);(mk+1,log(|X(mk+1)|)}。这导致抛物线的抛物线系数bk(0),bk(1),bk(2)由以下公式限定:
图7示出了穿过DFT网格点P1、P2和P3的抛物线。
应用正弦模型
为了执行根据实施例的帧丢失隐藏操作而应用正弦模型可以描述如下:
在由于对应的编码信息不可用(即由于帧已经丢失)而导致解码器不能重构编码信号的给定分段的情况下,在该分段之前的信号的可用部分可以用作原型帧。如果y(n)(n=0...N-1)是不可用的分段,必须针对该分段生成替代帧z(n),并且y(n)(n<0)是可用的之前解码的信号,则使用窗函数w(n)来提取长度为L和起始索引为n-1的可用信号的原型帧,并且例如通过DFT的方式将其变换到频域:
窗函数可以是在上文正弦分析中描述的窗函数中的一个。优选地,为了降低数字的复杂度,经频域变换的帧应当与正弦分析期间使用的相同。
在下一个步骤中,应用正弦模型假设。根据该正弦模型假设,原型帧的DFT可以写为以下方程式:
该方程式还用在分析部分中,并且在上文中详细描述。
接下来,可以意识到的是,使用的窗函数的谱在频率范围接近零中只具有一个显著贡献。如图3所示,对于接近零的频率来说窗函数的幅度谱是大的,相反则是小的(在从-π到π的正常化频率范围中,对应于采样频率的一半)。因此,作为近似,假设窗谱W(m)仅针对区间M=[-mmin,mmax]是非零的,其中mmin和mmax是小的正数。具体地,使用窗函数谱的近似,使得针对每个k,上述表达式中的移动的窗波普的贡献是严格地非重叠的。因此,在上述表达式中,针对每个频率索引,永远只存在位于最大值的来自家属的贡献,即来自一个移动的窗谱。这意味着上述方程式减小为针对非负m∈Mk并且针对每个的k以下近似式:
这里,Mk表示整数区间
其中mmin,k和mmax,k满足上述解释的约束,使得区间并不重叠。对于mmin,k和mmax,k的合适的选择是将它们设置为小的整数值,例如δ=3。然而,如果与两个相邻正弦的频率fk和fk+1相关的DFT索引小于2δ,则将δ设置为使得确保区间不重叠。函数floor(·)是小于等于函数变量的最接近的整数。
根据实施例的下一个步骤是应用根据上述表达式的正弦模型并且随时间演化其K个正弦波。假设擦除的分段的时间索引与原型帧的时间索引相比相差n-1个样本意味着正弦波的相位提前:
因此,演化的正弦模型的DFT谱由以下方程式给出:
因此,针对非负m∈Mk并且针对每个k,可以通过以下表达式来计算替代帧:
具体实施例处理针对不属于任何区间Mk的DFT索引的相位随机化。如上所述,必须设置区间Mk(k=1...K)使得区间严格地不重叠,这是通过使用控制区间大小的特定参数δ来实现的。δ关于两个相邻正弦波的频率距离可能较小。因此,在这种情况下,两个区间之间可能存在缝隙。所以针对对应的DFT索引m,不定义根据上述表达式的相移。根据本实施例的适当的选择是针对这些索引来随机化相位,以产生Z(m)=Y(m)·ej2 πrand(·),其中函数rand(·)返回特定随机数。
基于上述内容,图8是示出了根据实施例的示例性音频帧丢失隐藏方法的流程图:
在步骤81中,对先前接收的或重构的音频信号的部分执行正弦分析,其中正弦分析包括识别音频信号的正弦分量(即正弦波)的频率。接下来,在步骤82中,向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,并且在步骤83中,创建针对丢失音频帧的替代帧,包括响应于对应的识别的频率来对原型帧的正弦分量(即正弦波)进行时间演化,直到丢失音频帧的时刻。
根据其它实施例,假设音频信号由有限数量的单个正弦分量组成,并且假设在频域中执行正弦分析。此外,识别正弦分量的频率可以包括在与使用的频域变换有关的谱的波峰附近识别频率。
根据示例性实施例,识别所述正弦分量的频率是使用比使用的频域变换的分辨率更高的分辨率来执行的,并且该识别还可以包括例如抛物线类型的内插。
根据示例性实施例,该方法包括使用窗函数从可用的先前接收的或重构的信号中提取原型帧,并且其中,可以将所提取的原型帧变换到频域。
另一实施例包括对所述窗函数的谱进行近似,使得替代帧的谱包括所近似的窗函数谱的严格非重叠的部分。
根据其它示例性实施例,该方法包括:响应于所述正弦分量的频率并且响应于所述丢失音频帧与所述原型帧之间的时间差,通过使正弦分量的相位提前,来对原型帧的频谱的正弦分量进行时间演化,并且通过相移来改变包括在正弦波k附近的区间Mk中的原型帧的谱系数,该相移与正弦频率fk以及与丢失音频帧与原型帧之间的时间差成正比。
其它实施例包括将不属于所识别的正弦波的原型帧的谱系数的相位改变随机相位,或者将不包括在与所识别的正弦波的附近相关的任何区间中的原型帧的谱系数的相位改变随机值。
一实施例还包括对所述原型帧的频谱进行频域逆变换。
更具体地,根据其它实施例的音频帧丢失隐藏方法包括以下步骤:
1)分析可用的先前合成的分段来获得正弦模型的组成正弦频率fk。
2)从可用的先前合成的信号中提取原型帧y-1,并且计算该帧的DFT。
3)响应于正弦频率fk以及原型帧与替代帧之间的时间提前n-1来计算针对每个正弦波k的相移θk。
4)针对每个正弦波k,选择性地针对与正弦波频率fk周围有关DFT索引来使原型帧DFT的相位向前移动θk。
5)计算在4)获得的谱的逆DFT。
上述实施例还可以通过以下假设来说明:
a)假设信号可以通过有限数量的正弦波来表示。
b)假设相比于一些更早的时刻,替代帧由时间演化的这些正弦波充分地表示。
c)假设对窗函数的谱进行近似,使得能够通过频移的窗函数谱的非重叠部分来构成替代帧的谱,移动的频率是正弦波频率。
图9是示出了根据实施例的被配置为执行音频帧丢失隐藏方法的示例性解码器1的示意框图。所示出的解码器包括一个或多个处理器11和具有适当的存储或存储器12的充足的软件。通过输入(IN)来接收进入的编码音频信号,处理器11和存储器12连接到该输入。从软件获得的解码并重构的音频信号从输出(OUT)输出。示例性解码器被配置为隐藏接收的音频信号的丢失音频帧,并且该解码器包括处理器11和存储器12,其中存储器包含可由处理器11执行的指令,并且由此解码器1被配置为:
-对先前接收的或重构的音频信号的部分执行正弦分析,其中所述正弦分析包括识别音频信号的正弦分量的频率;
-向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧,并且
-通过响应于对应的识别的频率,对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻,来创建针对所述丢失音频帧的替代帧。
根据解码器的其它实施例,所应用的正弦模型假定所述音频信号包括有限数量的单个正弦分量,并且别所述音频信号的正弦分量的频率还可以包括抛物线内插。
根据其它实施例,解码器被配置为使用窗函数从可用的先前接收的或重构的信号中提取原型帧,以及被配置为将所提取的原型帧变换到频域。
根据其它实施例,解码器被配置为响应于每个正弦分量的频率并且响应于丢失音频帧与原型帧之间的时间差,通过使正弦分量的相位提前,来对所述原型帧的频谱的正弦分量进行时间演化,并且被配置为通过对所述频谱执行频域逆变换来创建所述替代帧。
图10a示出了根据备选实施例的解码器,该解码器包括输入单元,被配置为接收编码的音频信号。附图示出了逻辑帧丢失隐藏单元13进行的帧丢失隐藏,其中解码器1被配置为实现根据上述实施例的丢失音频帧的隐藏。图10b也示出了逻辑帧丢失隐藏单元13,逻辑帧丢失隐藏单元13包括适于隐藏丢失音频帧的装置,即:装置14、装置15、和装置16,装置14用于对先前接收的或重构的音频信号的部分执行正弦分析,其中正弦分析包括识别音频信号的正弦分量的频率;装置15用于向先前接收的或重构的音频信号的分段应用正弦模型,其中所述分段用作原型帧,以便创建针对丢失音频帧的替代帧;以及装置16用于通过响应于对应的识别的频率,对原型帧的正弦分量进行时间演化,直到丢失音频帧的时刻,来创建丢失音频帧的替代帧。
附图中示出的包括在解码器中的单元和装置可以至少部分地以硬件来实现,并且存在能够使用并且组合以实现解码器的单元的功能的电路元件的大量变体。这样的变体由实施例所涵盖。解码器的硬件实现的具体示例以数字信号处理器(DSP)硬件和集成电路技术(其中包括通用电路和专用电路)来实现。
根据本发明实施例的计算机程序包括指令,当指令由处理器运行时使得处理器执行根据结合图8所描述的方法的方法。图11示出了根据实施例的计算机程序产品9,该计算机程序产品采取非易失性存储器的形式,例如EEPROM(电可擦除可编程只读存储器)、闪存或磁盘驱动。计算机程序产品包括存储计算机程序91的计算机可读介质,计算机程序91包括计算机程序模块91a、b、c、d,在解码器1上运行时使得解码器的处理器执行根据图8的步骤。
根据本发明的实施例的解码器可以用在例如移动设备(例如移动电话或膝上型计算机)的接收机中,或者用在固定设备(例如个人电脑)的接收机中。
本文描述的实施例的优点是提供了一种帧丢失隐藏方法,使得能够减轻在音频信号(例如编码的语音)的传输中的帧丢失的听得见的影响。大体的优点是提供了针对丢失帧的重构的信号的平滑且忠实的演化,其中与传统技术相比,大大地减小了帧丢失的听得见的影响。
应当理解的是,对互动单元或模块的选择以及单元的命名只是为了示例的目的,并且能够以多种备选方式来配置,以便能够执行公开的处理活动。还应当注意的是,本公开中描述的单元或模块被称作逻辑实体,并且并不必须是分离的物理实体。将会认识到的是,本文公开的技术范围完全涵盖其它实施例,这对于本领域技术人员是显而易见的,并且因此本公开的范围不应当被限制。
Claims (7)
1.一种帧丢失隐藏方法,其中先前接收或重构的音频信号的分段用作原型帧以创建针对丢失音频帧的替代帧,所述方法包括:
-将原型帧变换到频域;
-将正弦模型应用于原型帧以识别音频信号的正弦分量的频率;
-计算针对所识别的正弦分量的相移θk;
-将所识别的正弦分量相位偏移θk;
-通过执行原型帧的频谱的频率逆变换来创建替代帧;
其特征在于
-将所识别的正弦分量相位偏移包括:将包括在正弦波k附近的区间Mk中的原型帧的所有谱系数的相位偏移θk;
-未被相移的谱系数的相位被随机化;以及
-原型帧的幅度谱保持不变。
2.根据权利要求1所述的帧丢失隐藏方法,其中,相移θk取决于正弦频率fk以及原型帧与丢失帧之间的时间偏移。
3.一种用于创建针对丢失音频帧的替代帧的设备,所述设备包括:
-用于根据先前接收或重构的音频信号的分段生成原型帧的装置;
-用于将原型帧变换到频域的装置;
-用于将正弦模型应用于原型帧以识别音频信号的正弦分量的频率的装置;
-用于计算针对所识别的正弦分量的相移θk的装置;
-用于将所识别的正弦分量相位偏移θk的装置;
-用于通过执行原型帧的频谱的频率逆变换来创建替代帧的装置;
其特征在于
-将所识别的正弦分量相位偏移包括:将包括在正弦波k附近的区间Mk中的原型帧的所有谱系数的相位偏移θk;
-未被相移的谱系数的相位被随机化;以及
-原型帧的幅度谱保持不变。
4.根据权利要求3所述的设备,其中,相移θk取决于正弦频率fk以及原型帧与丢失帧之间的时间偏移。
5.一种音频解码器,包括根据权利要求3或4所述的设备。
6.一种包括根据权利要求5所述的音频解码器的设备。
7.一种计算机可读数据载体,其上存储有包括指令的计算机程序(91),所述指令在由至少一个处理器执行时,使得所述至少一个处理器执行根据1或2所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361760814P | 2013-02-05 | 2013-02-05 | |
US61/760,814 | 2013-02-05 | ||
CN201480007537.9A CN104995675B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
PCT/SE2014/050067 WO2014123470A1 (en) | 2013-02-05 | 2014-01-22 | Audio frame loss concealment |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007537.9A Division CN104995675B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564958A CN108564958A (zh) | 2018-09-21 |
CN108564958B true CN108564958B (zh) | 2022-11-15 |
Family
ID=50113007
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007537.9A Active CN104995675B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
CN201810571350.1A Active CN108564958B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
CN201810572688.9A Active CN108847247B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007537.9A Active CN104995675B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810572688.9A Active CN108847247B (zh) | 2013-02-05 | 2014-01-22 | 音频帧丢失隐藏 |
Country Status (13)
Country | Link |
---|---|
US (4) | US9847086B2 (zh) |
EP (6) | EP3333848B1 (zh) |
JP (1) | JP5978408B2 (zh) |
KR (3) | KR20150108419A (zh) |
CN (3) | CN104995675B (zh) |
BR (1) | BR112015017222B1 (zh) |
DK (3) | DK3096314T3 (zh) |
ES (5) | ES2664968T3 (zh) |
HU (2) | HUE036322T2 (zh) |
NZ (1) | NZ709639A (zh) |
PL (4) | PL3333848T3 (zh) |
PT (1) | PT3333848T (zh) |
WO (1) | WO2014123470A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2664968T3 (es) * | 2013-02-05 | 2018-04-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Encubrimiento de pérdida de trama de audio |
NO2780522T3 (zh) * | 2014-05-15 | 2018-06-09 | ||
DK3664086T3 (da) | 2014-06-13 | 2021-11-08 | Ericsson Telefon Ab L M | Burstramme-fejlhåndtering |
KR20190008663A (ko) * | 2017-07-17 | 2019-01-25 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 시스템 |
MX2021009635A (es) * | 2019-02-21 | 2021-09-08 | Ericsson Telefon Ab L M | Estimacion de la forma espectral a partir de coeficientes de mdct. |
SG11202110071XA (en) * | 2019-03-25 | 2021-10-28 | Razer Asia Pacific Pte Ltd | Method and apparatus for using incremental search sequence in audio error concealment |
EP4252227A1 (en) * | 2020-11-26 | 2023-10-04 | Telefonaktiebolaget LM Ericsson (publ) | Noise suppression logic in error concealment unit using noise-to-signal ratio |
CN113096685B (zh) * | 2021-04-02 | 2024-05-07 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT362479B (de) * | 1979-06-22 | 1981-05-25 | Vianova Kunstharz Ag | Verfahren zur herstellung von bindemitteln fuer die elektrotauchlackierung |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
EP0804787B1 (en) * | 1995-11-22 | 2001-05-23 | Koninklijke Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
DE19921122C1 (de) * | 1999-05-07 | 2001-01-25 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals |
US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US7054279B2 (en) | 2000-04-07 | 2006-05-30 | Broadcom Corporation | Method and apparatus for optimizing signal transformation in a frame-based communications network |
CN1386354A (zh) * | 2000-07-25 | 2002-12-18 | 皇家菲利浦电子有限公司 | 受引导的判定频移估计 |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US20040002856A1 (en) | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US20040122680A1 (en) | 2002-12-18 | 2004-06-24 | Mcgowan James William | Method and apparatus for providing coder independent packet replacement |
US6985856B2 (en) | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
ES2354427T3 (es) | 2003-06-30 | 2011-03-14 | Koninklijke Philips Electronics N.V. | Mejora de la calidad de audio decodificado mediante la adición de ruido. |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US20050091044A1 (en) | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CN1930607B (zh) | 2004-03-05 | 2010-11-10 | 松下电器产业株式会社 | 差错隐藏装置以及差错隐藏方法 |
US7734381B2 (en) | 2004-12-13 | 2010-06-08 | Innovive, Inc. | Controller for regulating airflow in rodent containment system |
WO2006079348A1 (en) | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for generating concealment frames in communication system |
US20070147518A1 (en) | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
DE102006017280A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals |
CN101361112B (zh) * | 2006-08-15 | 2012-02-15 | 美国博通公司 | 隐藏丢包后解码器状态的更新 |
FR2907586A1 (fr) | 2006-10-20 | 2008-04-25 | France Telecom | Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch. |
CN101261833B (zh) * | 2008-01-24 | 2011-04-27 | 清华大学 | 一种使用正弦模型进行音频错误隐藏处理的方法 |
CN101308660B (zh) * | 2008-07-07 | 2011-07-20 | 浙江大学 | 一种音频压缩流的解码端错误恢复方法 |
EP2109096B1 (en) * | 2008-09-03 | 2009-11-18 | Svox AG | Speech synthesis with dynamic constraints |
ES2374008B1 (es) * | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | Codificación, modificación y síntesis de segmentos de voz. |
US8538038B1 (en) * | 2010-02-12 | 2013-09-17 | Shure Acquisition Holdings, Inc. | Audio mute concealment |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
DK2375782T3 (en) * | 2010-04-09 | 2019-03-18 | Oticon As | Improvements in sound perception by using frequency transposing by moving the envelope |
WO2012049659A2 (en) * | 2010-10-14 | 2012-04-19 | Centro De Investigación Y De Estudios Avanzados Del Instituto Politécnico Nacional | High payload data-hiding method in audio signals based on a modified ofdm approach |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US20150051452A1 (en) * | 2011-04-26 | 2015-02-19 | The Trustees Of Columbia University In The City Of New York | Apparatus, method and computer-accessible medium for transform analysis of biomedical data |
ES2664968T3 (es) * | 2013-02-05 | 2018-04-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Encubrimiento de pérdida de trama de audio |
MX2021000353A (es) | 2013-02-05 | 2023-02-24 | Ericsson Telefon Ab L M | Método y aparato para controlar ocultación de pérdida de trama de audio. |
-
2014
- 2014-01-22 ES ES16178186.9T patent/ES2664968T3/es active Active
- 2014-01-22 KR KR1020157022751A patent/KR20150108419A/ko active Application Filing
- 2014-01-22 DK DK16178186.9T patent/DK3096314T3/en active
- 2014-01-22 WO PCT/SE2014/050067 patent/WO2014123470A1/en active Application Filing
- 2014-01-22 EP EP17208127.5A patent/EP3333848B1/en active Active
- 2014-01-22 BR BR112015017222-9A patent/BR112015017222B1/pt active IP Right Grant
- 2014-01-22 DK DK14704704.7T patent/DK2954517T3/en active
- 2014-01-22 EP EP14704704.7A patent/EP2954517B1/en active Active
- 2014-01-22 HU HUE16178186A patent/HUE036322T2/hu unknown
- 2014-01-22 EP EP19185955.2A patent/EP3576087B1/en active Active
- 2014-01-22 ES ES21166868T patent/ES2954240T3/es active Active
- 2014-01-22 PL PL17208127T patent/PL3333848T3/pl unknown
- 2014-01-22 PL PL14704704.7T patent/PL2954517T3/pl unknown
- 2014-01-22 PL PL19185955T patent/PL3576087T3/pl unknown
- 2014-01-22 JP JP2015555963A patent/JP5978408B2/ja active Active
- 2014-01-22 PL PL21166868.6T patent/PL3866164T3/pl unknown
- 2014-01-22 ES ES19185955T patent/ES2877213T3/es active Active
- 2014-01-22 DK DK19185955.2T patent/DK3576087T3/da active
- 2014-01-22 US US14/764,318 patent/US9847086B2/en active Active
- 2014-01-22 KR KR1020167015066A patent/KR101855021B1/ko active Application Filing
- 2014-01-22 NZ NZ709639A patent/NZ709639A/en unknown
- 2014-01-22 EP EP16178186.9A patent/EP3096314B1/en active Active
- 2014-01-22 KR KR1020187011581A patent/KR102037691B1/ko active IP Right Grant
- 2014-01-22 ES ES17208127T patent/ES2757907T3/es active Active
- 2014-01-22 PT PT172081275T patent/PT3333848T/pt unknown
- 2014-01-22 CN CN201480007537.9A patent/CN104995675B/zh active Active
- 2014-01-22 ES ES14704704.7T patent/ES2597829T3/es active Active
- 2014-01-22 CN CN201810571350.1A patent/CN108564958B/zh active Active
- 2014-01-22 EP EP21166868.6A patent/EP3866164B1/en active Active
- 2014-01-22 EP EP23185443.1A patent/EP4276820A3/en active Pending
- 2014-01-22 HU HUE17208127A patent/HUE045991T2/hu unknown
- 2014-01-22 CN CN201810572688.9A patent/CN108847247B/zh active Active
-
2017
- 2017-11-10 US US15/809,493 patent/US10339939B2/en active Active
-
2019
- 2019-05-16 US US16/414,020 patent/US11482232B2/en active Active
-
2022
- 2022-09-20 US US17/948,603 patent/US20230008547A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564958B (zh) | 音频帧丢失隐藏 | |
CN108899038B (zh) | 用于对音频帧丢失隐藏进行控制的方法和设备 | |
AU2011208899B2 (en) | Improved subband block based harmonic transposition | |
US9478221B2 (en) | Enhanced audio frame loss concealment | |
JP2016515725A (ja) | 重み付けされたノイズの注入によるフレーム消失補正 | |
AU2022200874B2 (en) | Improved Subband Block Based Harmonic Transposition | |
AU2015203065B2 (en) | Improved subband block based harmonic transposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |