CN113950719A - 时间反转的音频子帧错误隐藏 - Google Patents
时间反转的音频子帧错误隐藏 Download PDFInfo
- Publication number
- CN113950719A CN113950719A CN202080042683.0A CN202080042683A CN113950719A CN 113950719 A CN113950719 A CN 113950719A CN 202080042683 A CN202080042683 A CN 202080042683A CN 113950719 A CN113950719 A CN 113950719A
- Authority
- CN
- China
- Prior art keywords
- time
- spectrum
- subframe
- peak
- reversed phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 201
- 238000000034 method Methods 0.000 claims abstract description 104
- 230000005236 sound signal Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001237745 Salamis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 235000015175 salami Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
提供了一种生成音频信号的隐藏音频子帧的方法和解码器设备。该方法包括:在子帧的基础上生成频谱,其中,该音频信号的连续子帧具有以下特性:连续子帧中的第一子帧的已施加窗口形状是连续子帧中的第二子帧的镜像版本或时间反转版本。针对隐藏子帧,检测先前接收的音频信号的信号频谱的峰值,以及估计每个峰值的相位。基于该估计相位来导出时间反转的相位调整,以及向信号频谱的峰值施加时间反转的相位调整以形成经时间反转的相位调整的峰值。
Description
技术领域
本公开一般地涉及通信,并且更具体地涉及用于控制针对单声道、立体声或多声道音频编码和解码的分组丢失隐藏的方法和装置。
背景技术
现代电信服务通常在最终用户之间提供可靠的连接。但是,这样的服务仍然需要处理变化的信道条件,在这些信道条件下,偶尔的数据分组可能由于例如网络拥塞或不良小区覆盖而丢失。为了克服传输错误和丢失包的问题,电信服务可以使用分组丢失隐藏技术(PLC)。在数据分组由于不良连接、网络拥塞等而丢失的情况下,可以在解码器中由合成信号代替接收机侧的丢失分组的缺失信息。PLC技术通常可以与解码器密切关联,其中可以使用内部状态来产生信号延续或外推以弥补分组丢失。对于针对不同信号类型具有多种操作模式的多模式编解码器,通常存在多种PLC技术来处理隐藏。对于分组丢失隐藏技术使用许多不同的术语,包括帧错误隐藏(FEC)、帧丢失隐藏(FLC)、以及错误隐藏单元(ECU)。
对于基于线性预测(LP)的语音编码模式,PLC可以基于使用所估计的帧尾音高信息和前一个帧的音高周期的复本来调整声门脉冲位置[1]。长期预测器(LTP)的增益收敛到零,收敛速度取决于连续丢失帧的数量和最后一个良好(即,无错误)帧的稳定性[2]。基于频域(FD)的编码模式被设计为处理一般或复杂信号,例如音乐。可以根据最后一个接收帧的特征来使用不同的技术。这样的分析可以包括检测到的音调分量的数量和信号的周期。如果在高度周期性的信号(例如有效语音或单一器乐)期间发生帧丢失,则时域PLC(类似于基于LP的PLC)可能是合适的。在这种情况下,FD PLC可以通过基于最后一个接收帧估计LP参数和激励信号来模仿LP解码器[2]。如果在非周期性或类噪声信号期间发生丢失帧,则最后一个接收帧可以在频谱域中被重复,其中将系数与随机符号信号相乘以减少重复信号的金属声(metallic sound)。对于平稳音调信号,已发现使用基于检测到的音调分量的预测和外推的方法是有利的。有关上述技术的更多细节可以在[1][2][3]中找到。
在频域中操作的通用错误隐藏方法是相位ECU(错误隐藏单元)[4]。相位ECU是一种独立的工具,其在先前解码和重构的时域信号的缓冲区上操作。相位ECU的框架基于正弦分析和合成范式。在这种方法中,最后一个良好帧的正弦分量可以被提取和相移。当帧丢失时,在DFT(离散傅立叶变换)域中从过去的解码合成中获得正弦频率。首先,通过找到幅度频谱平面的峰值来识别对应的频率区间(frequency bin)。然后,使用峰值频率区间来估计峰值的分数频率。与峰值以及相邻峰值相对应的频率区间被使用分数频率进行相移。对于帧的其余部分,过去合成的幅度被保留,而相位被随机化。还处理突发错误,以使得通过将估计信号收敛到零而使估计信号被平滑地静音。有关相位ECU的更多详细信息可以在[4]中找到。
相位ECU的概念可以被用于在频域中操作的解码器。这一概念包括在频域中执行解码的编码和解码系统,如图1所示,而且还包括执行时域解码和附加频域处理的解码器,如图2所示。在图1中,时域输入音频信号(子)帧被加窗100并且通过DFT 101被变换到频域。编码器102在频域中执行编码并且提供用于传输103的编码参数。解码器104对接收的帧进行解码,或者在帧丢失的情况下施加PLC 109。在隐藏帧的构造中,PLC可以使用先前解码的帧的存储器108。解码或隐藏的帧通过逆DFT 110被变换到时域,然后通过重叠-相加运算111来重构输出音频信号。图2示出了编码器和解码器对,其中解码器施加DFT变换以促进频域处理。接收和解码的时域信号首先按(子)帧被加窗105,然后通过DFT 106被变换到频域以进行频域处理107,这可以在PLC 109之前或在PLC 109之后(在帧丢失的情况下)进行。
因为已经针对每个帧产生频域频谱,所以通过简单地将最后解码的频谱存储在存储器中,能够轻松获得用于相位ECU的原材料。但是,如果经解码的频谱对应于具有不同加窗函数的时域信号的帧(参见图1),则算法的效率可能降低。当解码器将合成帧分成更短子帧例如以处理需要更高时间分辨率的瞬态声音时,可能发生这种情况。为了获得良好结果,ECU应当针对每个帧产生期望窗口形状,否则每个帧边界处可能存在过渡伪影(transitionartefacts)。一种解决方案是存储与特定窗口相对应的每个帧的频谱,并且在它们上个别地施加ECU。另一种解决方案可以是针对ECU存储单个频谱,并且在时域中校正加窗。这可以通过施加反转窗口并且然后重新施加具有期望形状的窗口来实现。这些解决方案具有下面讨论的一些缺点。
针对个体子帧施加频域ECU的一个缺点是,在丢失帧期间将针对每个子帧被复制的子帧之间可能存在差异。对于连续帧丢失,这可能导致重复伪影,因为每个子帧可能具有略微不同的频谱特征。另一个问题是存储器需求增加,因为需要存储每个子帧的频谱。
窗口重新调整解决方案(其中加窗被反转并且被重新施加)克服了不同频谱特征的问题,因为ECU可以基于单个子帧。但是,施加反转窗口和施加新窗口涉及针对每个样本的除法和乘法,其中除法是计算复杂的运算并且计算成本高。可以通过将预先计算的重新调整窗口存储在存储器中来改进该解决方案,但是这将增加所需的表存储器。如果针对频谱的子部分施加ECU,则还可能需要重新调整全频谱,因为全频谱需要具有相同的窗口形状。
发明内容
根据第一方面,提供了一种在解码设备中生成音频信号的隐藏音频子帧的方法。所述方法包括:在子帧的基础上生成频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本。所述方法还包括:在分数频率尺度上检测先前接收的音频信号的信号频谱的峰值;估计每个所述峰值的相位;以及基于所估计的相位,导出要施加于所述信号频谱的所述峰值的时间反转的相位调整以形成经时间反转的相位调整的峰值。所述方法还包括:向所述隐藏音频子帧施加时间反转。
提供的潜在优势是通过施加反转的时间合成,从单个子帧频谱生成多子帧ECU。这种生成可以适合于子帧窗口是彼此的时间反转版本的情况。从单个存储的解码帧生成所有ECU帧确保了子帧具有类似的频谱特征,同时将存储器占用和计算复杂性保持为最低。
根据第二方面,提供了一种被配置为生成音频信号的隐藏音频子帧的解码器设备。所述解码器设备被配置为:在子帧的基础上生成频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本。所述解码器设备还被配置为:在分数频率尺度上检测先前接收的音频信号的信号频谱的峰值;以及估计每个所述峰值的相位。所述解码器设备还被配置为:基于所估计的相位,导出要施加于所述信号频谱的所述峰值的时间反转的相位调整;以及通过向所述信号频谱的所述峰值施加所述时间反转的相位调整来形成经时间反转的相位调整的峰值。所述解码器设备还被配置为:向所述隐藏音频子帧施加时间反转。
根据第三方面,提供了一种计算机程序。所述计算机程序包括要由被配置为在通信网络中操作的解码器设备的处理电路执行的程序代码,由此所述程序代码的执行使得所述解码器设备执行根据第一方面的操作。
根据第四方面,提供了一种计算机程序产品。所述计算机程序产品包括非暂时性存储介质,所述非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备的处理电路执行的程序代码,由此所述程序代码的执行使得所述解码器设备执行根据第一方面的操作。
根据第五方面,提供了一种在解码设备中生成音频信号的隐藏音频子帧的方法。所述方法包括:在子帧的基础上生成频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本。存储与第一两个连续子帧中的第二子帧相对应的信号频谱。所述方法还包括:接收针对第二两个连续子帧的坏帧指示符。所述方法还包括:获得所述信号频谱;在分数频率尺度上检测所述信号频谱的峰值;估计每个所述峰值的相位;以及基于所估计的相位,针对所述第二两个连续子帧中的第一子帧导出要施加于所存储的频谱的所述峰值的时间反转的相位调整。所述方法还包括:向所述信号频谱的所述峰值施加所述时间反转的相位调整以形成经时间反转的相位调整的峰值。所述方法还包括:向所述隐藏音频子帧施加时间反转;将所述经时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合以形成用于所述第二两个连续子帧中的所述第一子帧的组合频谱;以及基于所述组合频谱,生成合成隐藏音频子帧。
根据第六方面,提供了一种被配置为生成音频信号的隐藏音频子帧的解码器设备。所述解码器设备包括处理电路和在操作上与所述处理电路耦接的存储器,其中,所述存储器包括指令,所述指令当由所述处理电路执行时使得所述解码器设备执行根据第一或第五方面的操作。
根据第七方面,提供了一种解码器设备。所述解码器设备被配置为生成音频信号的隐藏音频子帧,其中,所述解码器设备适于执行根据第五方面的方法。
根据第八方面,提供了一种计算机程序。所述计算机程序包括要由被配置为在通信网络中操作的解码器设备的处理电路执行的程序代码,由此所述程序代码的执行使得所述解码器设备执行根据第五方面的操作。
根据第九方面,提供了一种计算机程序产品。所述计算机程序产品包括非暂时性存储介质,所述非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备的处理电路执行的程序代码,由此所述程序代码的执行使得所述解码器设备执行根据第五方面的操作。
附图说明
被包括以提供对本公开的进一步理解并且被结合在本申请中并构成本申请的一部分的附图示出了特定非限制性实施例。在附图中:
图1是示出编码器和解码器对的框图,其中在DFT域进行编码;
图2是示出编码器和解码器对的框图,其中解码器施加DFT变换以促进频域处理;
图3是解码器的两个子帧窗口的图示,其中被施加在第二子帧上的窗口是被施加在第一子帧上的窗口的时间反转版本或镜像版本;
图4是示出根据一些实施例的包括PLC方法的编码器和解码器系统的框图,该PLC方法执行相位估计,以及使用时间反转的相位计算器在反转的时间中施加ECU合成;
图5是示出根据一些实施例的执行时间反转的ECU合成的解码器设备的操作的流程图;
图6是根据一些实施例的在正弦波上的时间反转的窗口的图示;
图7是根据一些实施例的反转时间的窗口如何影响复平面中的DFT系数的图示;
图8是根据一些实施例的φε-频率f的图示;
图9是示出根据一些实施例的解码器设备的框图;
图10是示出根据一些实施例的解码器设备的操作的流程图;
图11是示出根据一些实施例的解码器设备的操作的流程图。
具体实施方式
现在将在以下参考附图更全面地描述本公开的各方面,在附图中示出了实施例的示例。但是,实施例可以以多种不同的形式体现,并且不应被解释为限于本文阐述的实施例。而是,提供这些实施例以使得本公开详尽并完整,并且将本实施例的范围完全传达给本领域技术人员。还应当注意,这些实施例并不相互排斥。来自一个实施例的组件可以默认为在另一个实施例中存在/被使用。
以下描述提供了所公开的主题的各种实施例。这些实施例被提供为教导示例,并且不被解释为限制所公开的主题的范围。例如,在不偏离所描述主题的范围的情况下,可以修改、省略或扩展所描述的实施例的特定细节。
图9是示出根据实施例的被配置为提供无线通信的解码器设备900的单元的框图,解码器设备900可以是移动终端、移动通信终端、无线通信设备、无线终端、无线通信终端、用户设备UE、用户设备节点/终端/设备等的一部分。如图所示,解码器900可以包括被配置为提供与其他设备/实体/功能等的通信的网络接口电路906(也被称为网络接口)。解码器900还可以包括在操作上耦接到网络接口电路906的处理器电路902(也被称为处理器)以及在操作上耦接到处理器电路的存储器电路904(也被称为存储器)。存储器电路904可以包括计算机可读程序代码,该计算机可读程序代码当由处理器电路902执行时使得处理器电路执行根据本文公开的实施例的操作。
根据其他实施例,处理器电路902可以被定义为包括存储器,以使得不需要单独的存储器电路。如本文所讨论的,解码器900的操作可以由处理器902和/或网络接口906来执行。例如,处理器902可以控制网络接口906以向多通道音频播放器发送通信和/或通过网络接口906从一个或多个其他网络节点/实体/服务器(例如编码器节点、储存库服务器等)接收通信。此外,模块可以被存储在存储器904中,并且这些模块可以提供指令,以使得当模块的指令由处理器902执行时,处理器902执行相应操作。
在下面的描述中,将使用子帧符号(notation)来描述实施例。在此,子帧表示更大的帧的一部分,其中更大的帧包括一组子帧。所描述的实施例还可以与帧符号一起使用。换句话说,子帧可以形成具有与本文描述的窗口形状相同的窗口形状的帧组,并且子帧不需要是更大的帧的一部分。
考虑编码器和解码器对中的解码器,其中解码方法在子帧的基础上生成频谱。连续子帧可以具有以下特性:已施加窗口形状是彼此的镜像版本或时间反转版本,如图3所示,其中,子帧2是子帧1的镜像版本或时间反转版本。解码器获得每个帧m的重构子帧的频谱。在一个实施例中,可以从重构的时域合成中获得子帧频谱,其中n是样本索引。图2中的虚线方框指示可以在存储器和PLC模块之前或之后进行频域处理。可以通过将与子帧加窗函数w1(n)和w2(n)相乘并且根据下式施加DFT变换来获得频谱:
其中,N表示子帧窗口的长度,Nstep12是第一子帧与第二子帧的起始点之间的样本距离。子帧加窗函数w1(n)和w2(n)是彼此的镜像版本或时间反转版本。在此,从解码器时域合成中获得子帧频谱,类似于图2中概述的系统。应当注意,实施例同样适用于如图1中概述的系统,其中解码器直接重构子帧频谱。对于每个被正确接收和解码的音频帧m,对应于第二子帧的频谱被存储在存储器中。
对于被正确接收的帧,解码器设备900可以继续执行频域处理步骤、执行逆DFT变换以及使用重叠-相加策略来重构输出音频。缺失或损坏的帧可以由处理连接的传输层来标识,并且通过坏帧指示符(BFI)被信令发送到解码器作为“坏帧”,BFI可以采取标志的形式。当解码器设备900通过坏帧指示符(BFI)检测到坏帧时,PLC算法被激活。PLC遵循相位ECU的原理[4]。所存储的频谱被输入到在分数频率尺度上检测峰值的峰值检测器算法。可以检测一组峰值
F={fi},i=1,2,…Npeaks
这些峰值由它们的估计分数频率fi表示,并且其中Npeaks是检测到的峰值的数量。类似于正弦编码范式,使用具有特定幅度、频率和相位的正弦波对频谱的峰值进行建模。分数频率可以被表示为DFT区间(bin)的分数,以使得例如在f=N/2+1处发现奈奎斯特(Nyquist)频率。每个峰值可以与表示该峰值的多个频率区间相关联。通过将分数频率舍入到最接近的整数并且包括相邻区间(例如,每侧的Nnear个峰值)来找到这些区间:
其中[·]表示舍入运算,Gi是表示在频率fi处的峰值的区间组。数量Nnear是可以在设计系统时确定的调谐常数。更大的Nnear在每个峰值表示中提供更高的准确度,但是也在可以被建模的峰值之间引入更大的距离。Nnear的合适值可以是1或2。可以通过使用这些区间组来形成隐藏频谱的峰值,其中已向每个组施加相位调整。相位调整考虑了基础正弦波中的相位变化,假设频率在被最后正确接收和解码的帧与隐藏帧之间保持相同。相位调整是基于分数频率和在前一个帧的分析帧与当前帧开始位置之间的样本数量。如图3所示,在最后一个接收帧的第二子帧的开始与第一ECU帧的第一子帧的开始之间,该样本数量是Nstep21,而在最后一个接收帧的第一子帧与第一ECU帧的第一子帧之间,该样本数量是Nfull。注意,Nfull还给出了在最后一个接收帧的第二子帧与第一ECU帧的第二子帧之间的距离。
图4示出了根据下面描述的实施例的编码器和解码器系统,其中PLC块109使用相位估计器112来执行相位估计,以及使用时间反转的相位计算器在反转的时间中施加ECU合成。
图5是示出下面描述的时间反转的ECU合成的步骤的流程图。对于第一子帧的隐藏,可以在反转的时间中进行ECU合成以获得期望窗口形状。对于第一子帧,峰值i的相位调整或相位校正或相位进展(progression)(这些术语在整个说明书中可以互换使用)可以被表示为
Δφi=-2φi-2πfi(N+Nstep21+(Nlost-1)Nfull)/N,
其中Nlost表示连续丢失帧的数量,而φi表示在频率fi处的正弦波的相位。项(Nlost-1)Nfull处理突发错误的相位进展,其中步长随着全帧的帧长度Nfull而增大。对于第一丢失帧,Nlost=1。对于以频谱的频率区间为中心的频率,仅通过提取角度即可轻松获得相位φi:
其中ki=[fi]。
一般而言,频率fi是分数,并且需要在操作501中估计相位。一种估计方法是使用相位频谱的线性插值。
其中和分别表示用于向下舍入和向上舍入的运算符。但是,发现这种估计方法不稳定。这种估计方法还需要两个相位提取,如果使用采取标准形式a+bi的复数来表示频谱,则这需要计算上复杂的反正切(arctan)函数。发现在相对低的计算复杂性下可靠的另一种相位估计是:
ffrac=fi-ki
其中,ffrac是舍入误差,而φC是调谐常数,其取决于被施加的窗口形状。对于该实施例的窗口形状,发现合适的值是φC=0.33。对于另一个窗口形状,发现合适的值是φC=0.48。一般而言,预期可以在范围[0.1,0.7]内找到合适的值。
在操作502中,如上面说明的那样导出时间反转的相位调整Δφi。
可以通过在操作503中向所存储的频谱施加相位调整来形成隐藏频谱的峰值。
星号“*”表示复共轭,其在操作504中给出信号的时间反转。这导致第一ECU子帧的时间反转。应当注意,还可以在逆DFT之后在时域中执行反转。但是,如果仅表示完整频谱的一部分,则这需要例如通过在DFT分析之前的时间反转,对剩余频谱进行预处理。
其中φrand表示随机相位值。还可以使用保留信号的期望特性(例如,与多信道解码器系统中的第二信道的相关性)的频谱系数来填充剩余区间。在操作505中,将峰值频谱(其中k∈Gi)与噪声频谱(其中)相组合以形成组合频谱。
在噪声在时域中生成并且被加窗和变换的实施例中,应当在施加上述的时间反转之前,执行噪声的时间反转(以匹配峰值分量的加窗)以及与峰值频谱的组合。
对于在正常(非反转)时间中被合成的第二子帧的生成,可以使用常规的相位调整。
Δφi=2πfiNfullNlost/N
用于第二子帧的ECU合成可以类似于第一子帧来形成,但是省略峰值系数上的复共轭。
一旦在操作505中生成组合隐藏频谱,便可以在操作506中将组合隐藏频谱馈送到后续处理步骤,包括逆DFT和导致输出音频信号的重叠-相加运算。
输出音频信号可以被发送到一个或多个扬声器,例如用于播放的扬声器。扬声器可以是解码设备的一部分、单独的设备或另一个设备的一部分。
用于时间反转的ECU合成的相位校正公式的推导
假设正弦分量的起始相位为φ0,正弦波的频率为f。在前进Nstep个样本之后的正弦波的期望相位φ1则为:
φ1=φ0+2πfNstep/N
对于正弦波的时间反转的延续,需要通过施加复共轭或者通过简单地取负相位-φ1而在实轴中镜像相位。因为该相位角现在表示ECU合成帧的端点,所以相位需要回绕分析帧的长度以达到期望起始相位φ2。
φ2=-φ1-2πf(N-1)/N
为了获得相位校正Δφ,需要减去起始相位,即
代入φ2给出
Δφ=-2φ0-2πf(Nstep+N-1)/N
为了添加连续帧丢失(突发丢失)的进展(progression),可以添加与全帧的起始点之间的样本数量相对应的因子Noffset=(Nlost-1)Nfull。这提供了最终相位校正:
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N,
通过使用复共轭以及单样本循环移位,可以在DFT域中实现期望的时间反转。可以通过2πk/N的相位校正来实现这种循环移位,该相位校正可以被包括在最终相位校正中。
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N+2πk/N
对于表示单个峰值的系数,循环移位的频率区间k可以被近似为分数频率k≈f,而相位校正可以被简化为:
Δφ=-2φ0-2πf(N+Nstep-1+(Nlost-1)Nfull)/N+2πf/N=-2φ0-2πf(N+Nstep+(Nlost-1)Nfull)/N
可以设计窗口以使得N=Nfull,在这种情况下,该表达式可以被进一步简化为:
Δφ=-2φ0-2πf(Nstep+Nlost·N)/N
反转的时间ECU合成的替代实施例
在另一个实施例中,以两个步骤进行相位校正。在第一步骤中使相位前进,忽略窗口的不匹配。
Δφ=2πf(Nstep+(Nlost-1)Nfull)
在第二步骤中,可以通过使相位按照-φm返回、施加复共轭以及使用φm恢复相位来实现加窗的时间反转:
通过研究如图6所示的时间反转的窗口对正弦波的影响,可以发现该操作的动机。在图6中,上图示出了在第一方向上施加的窗口,下图示出了在反转方向上施加的窗口。在图7中示出了表示正弦波的三个系数,该图示出了反转时间的窗口如何影响复平面中的DFT系数。近似图6的上图中的正弦波的三个DFT系数使用圆圈来标记,而图6的下图的对应系数使用星号来标记。菱形表示正弦波的原始相位的位置,虚线示出观察到的镜像平面,时间反转的窗口的系数通过该镜像平面被投影。时间反转的窗口给出系数在镜像平面中的镜像且角度为φm。
φm=φ0+φfrac
通过实验,发现φfrac可以被表达为:
φfrac=πffrac
ffrac=fi-ki
ki=[fi]
其中[·]表示舍入运算。还发现φε(被表达为正角)可以被近似为与ffrac的线性关系。在图8中,角度φε被表达为频率f的函数。研究图8的锯齿形状,发现φε的良好近似为:
φε=-ffacφC
其中φC是常数。在一个实施例中,φC可以被设置为φC=0.33,这产生了接近的近似。由于φ0未显式已知,所以φm的替代近似可以被记为:
其中,φki是在第一相位调整步骤之后在舍入后的频率区间ki处发现的最大峰值系数的相位,
将镜像平面与实轴对齐、施加复共轭以及再次反转相位的操作可以被理解为将整形后的正弦波的相位调整到对于复共轭中性的相位位置(0或π),从而仅反转信号的时间形状。两步方法比先前描述的实施例在计算上更复杂。但是,观察还可以导致对φ0的近似。从图7可以看出,φ0可以被表达为:
这是上面使用的相位近似。
现在将参考根据一些实施例的图10的流程图来讨论解码器设备900(使用图9的框图的结构实现)的操作。例如,模块可以被存储在图9的存储器904中,并且这些模块可以提供指令,以使得当模块的指令由相应的解码器设备处理电路902执行时,处理电路902执行流程图的相应操作。
在操作1000中,处理电路902在子帧的基础上生成频谱,其中,音频信号的连续子帧具有以下特性:连续子帧中的第一子帧的已施加窗口形状是连续子帧中的第二子帧的镜像版本或时间反转版本。例如,针对第一两个连续子帧中的每个子帧生成频谱包括确定:
其中,N表示子帧窗口的长度,子帧加窗函数w1(n)是连续子帧中的第一子帧的子帧加窗函数,w2(n)是连续子帧中的第二子帧的子帧加窗函数,以及Nstep12是在第一两个连续子帧中的第一子帧与第一两个连续子帧中的第二子帧之间的样本的数量。
在操作1002中,处理电路902确定是否已接收到坏帧指示符(BFI)。坏帧指示符提供音频帧已丢失或已损坏的指示。
在操作1004中,对于每个被正确解码的音频帧,处理电路902将与第二子帧相对应的频谱存储在存储器中。例如,对于被正确解码的帧m,与第二子帧相对应的频谱被存储在存储器中,例如对于被正确接收的帧,解码器设备900可以继续执行频域处理步骤、执行逆DFT变换以及使用重叠-相加策略来重构输出音频,如上面所述和图4所示。注意,重叠-相加的原理对于子帧和帧两者是相同的。帧的创建要求针对子帧施加重叠-相加,而最终输出帧是帧之间的重叠-相加运算的结果。
当处理电路902在操作1002中通过坏帧指示符(BFI)检测到坏帧时,执行PLC操作1006至1030。
在操作1006中,处理电路902获得与先前被正确解码并处理的第一两个连续子帧中的第二子帧相对应的信号频谱。例如,处理电路902可以从解码设备的存储器904中获得信号频谱。
在操作1008中,处理电路902在分数频率尺度上检测音频信号的先前接收的音频帧的信号频谱的峰值,先前接收的音频帧是在接收坏帧指示符之前被接收的。
在操作1010中,处理电路902确定隐藏帧是否用于两个连续子帧中的第一子帧。
如果隐藏帧用于第一子帧,则在操作1012中,处理电路902估计每个峰值的相位。在一个实施例中,根据下式来针对经时间反转的相位校正的峰值中的峰值计算相位估计:
ffrac=fi-ki
在操作1014中,处理电路902基于所估计的相位,导出要施加于信号频谱的峰值的时间反转的相位校正。
在操作1016中,处理电路902向信号频谱的峰值施加时间反转的相位校正以形成经时间反转的相位校正的峰值。
在操作1018中,处理电路902向隐藏音频子帧施加时间反转。在一个实施例中,可以通过向隐藏音频子帧施加复共轭来施加时间反转。
在操作1020中,处理电路902将经时间反转的相位校正的峰值与信号频谱的噪声频谱相组合以形成隐藏音频子帧的组合频谱。
转到图11,在一个实施例中,处理电路902可以通过在操作1100中将每个峰值与多个峰值频率区间相关联来执行1016和1018。处理电路902关联可以通过在操作1102中向多个频率区间中的每一个施加时间反转的相位校正来施加时间反转的相位校正。在操作1104中,使用被施加了随机相位的信号频谱的系数来填充剩余区间。
返回到图10,在操作1022中,处理电路902基于组合频谱来生成合成隐藏音频子帧。
如果在操作1010中确定隐藏帧未用于第一子帧,则处理电路902在操作1024中针对至少两个连续隐藏子帧中的第二隐藏子帧,导出要施加于信号频谱的峰值的非时间反转的相位校正。
在操作1026中,处理电路902针对第二子帧向信号频谱的峰值施加非时间反转的相位校正以形成经非时间反转的相位校正的峰值。
在操作1028中,处理电路902将经非时间反转的相位校正的峰值与信号频谱的噪声频谱相组合以形成用于第二隐藏子帧的组合频谱。
在操作1030中,处理电路902基于组合频谱,生成第二合成隐藏音频子帧。
转到图11,在一个实施例中,处理电路902可以通过在操作1100中将每个峰值与多个峰值频率区间相关联来执行1026和1028。处理电路902关联可以通过在操作1102中向多个频率区间中的每一个施加非时间反转的相位校正来施加非时间反转的相位校正。在操作1104中,使用被施加了随机相位的信号频谱的系数来填充剩余区间。
针对解码器设备和相关方法的一些实施例,来自图10的流程图的各种操作可以是可选的。例如,关于示例实施例1(下面阐述)的方法,图10的方框1004和1022-1030的操作可以是可选的。例如,关于示例实施例19(下面阐述)的方法,图10的方框1010和1022-1030的操作可以是可选的。
下面讨论示例实施例。
1.一种在解码设备中生成音频信号的隐藏音频子帧的方法,该方法包括:
在子帧的基础上生成(1000)频谱,其中,音频信号的连续子帧具有以下特性:连续子帧中的第一子帧的已施加窗口形状是连续子帧中的第二子帧的镜像版本或时间反转版本;
接收(1002)坏帧指示符;
在分数频率尺度上检测(1008)音频信号的先前接收的音频帧的信号频谱的峰值,先前接收的音频帧是在接收坏帧指示符之前被接收的;
估计(1012)每个峰值的相位;
基于所估计的相位,导出(1014)要施加于信号频谱的峰值的时间反转的相位校正;
向信号频谱的峰值施加(1016)时间反转的相位校正以形成经时间反转的相位校正的峰值;
向隐藏音频子帧施加(1018)时间反转;
将经时间反转的相位校正的峰值与信号频谱的噪声频谱相组合(1020)以形成用于隐藏音频子帧的组合频谱;以及
基于组合频谱,生成(1022)合成隐藏音频子帧。
2.根据实施例1所述的方法,其中,合成隐藏音频帧包括至少两个连续隐藏子帧,并且其中,导出时间反转的相位校正、施加时间反转的相位校正、施加时间反转以及组合经时间反转的相位校正的峰值是针对至少两个连续隐藏子帧中的第一隐藏子帧执行的,该方法还包括:
针对至少两个连续隐藏子帧中的第二隐藏子帧,导出(1024)要施加于信号频谱的峰值的非时间反转的相位校正;
针对第二子帧,向信号频谱的峰值施加(1026)非时间反转的相位校正以形成经非时间反转的相位校正的峰值;
将经非时间反转的相位校正的峰值与信号频谱的噪声频谱相组合(1028)以形成用于第二隐藏子帧的组合频谱;以及
基于组合频谱,生成(1030)第二合成隐藏音频子帧。
3.根据实施例1-2中任一项所述的方法,其中,隐藏音频子帧包括用于丢失的音频帧和损坏的音频帧中的一个的隐藏音频子帧。
4.根据实施例1-3中任一项所述的方法,其中,坏帧指示符提供音频帧丢失或损坏的指示。
5.根据实施例1-4中任一项所述的方法,还包括:从解码器的存储器中获得先前接收的音频信号帧的信号频谱。
6.根据实施例1-5中任一项所述的方法,其中,施加时间反转包括:向隐藏音频子帧施加复共轭。
7.根据实施例1-6中任一项所述的方法,还包括:
将多个峰值中的每个峰值与表示该峰值的多个峰值频率区间相关联(1100)。
8.根据实施例7所述的方法,其中,对于多个峰值中的每个峰值,时间反转的相位校正和非时间反转的相位校正中的一个被施加(1102)到该峰值。
9.根据实施例8中任一项所述的方法,还包括:
使用被施加了随机相位的所存储的信号频谱的系数来填充(1104)信号频谱的剩余区间。
10.根据实施例1-9中任一项所述的方法,其中,估计每个峰值的相位包括:
根据下式来针对经时间反转的相位校正的峰值中的峰值计算相位估计:
ffrac=fi-ki
11.根据实施例10所述的方法,其中,φC具有在0.1与0.7之间的范围内的值。
12.根据实施例10所述的方法,其中,针对非经时间反转的相位校正的峰值计算相位估计是根据下式来计算的:
Δφi=2πfiNfullNlost/N
其中,Δφi表示在频率fi处的正弦波的相位校正,Nfull表示在两个帧之间的样本的数量,Nlost表示连续丢失帧的数量,以及N表示子帧窗口的长度。
13.根据实施例1-12中任一项所述的方法,还包括:向信号频谱的噪声频谱施加随机相位。
14.根据实施例13所述的方法,其中,向噪声频谱施加随机相位包括:在将非经时间反转的相位校正的峰值与噪声频谱相组合之前,向噪声频谱施加随机相位。
15.一种解码器设备(900),被配置为生成所接收的音频信号的隐藏音频子帧,其中,解码设备的解码方法在子帧的基础上生成频谱,其中,连续子帧具有以下特性:已施加窗口形状是彼此的镜像版本或时间反转版本,该解码器设备包括:
处理电路(902);以及
与处理电路耦接的存储器(904),其中,存储器包括指令,这些指令当由处理电路执行时使得解码器设备执行根据实施例1-14中任一项所述的操作。
16.一种解码器设备(900),被配置为生成所接收的音频信号的隐藏音频子帧,其中,解码设备的解码方法在子帧的基础上生成频谱,其中,连续子帧具有以下特性:已施加窗口形状是彼此的镜像版本或时间反转版本,其中,解码器设备适于根据实施例1-14中任一项来执行。
17.一种计算机程序,包括要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此这些程序代码的执行使得解码器设备(900)执行根据实施例1-14中任一项所述的操作。
18.一种包括非暂时性存储介质的计算机程序产品,该非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此这些程序代码的执行使得解码器设备(900)执行根据实施例1-14中任一项所述的操作。
19.一种在解码设备中生成音频信号的隐藏音频子帧的方法,该方法包括:
在子帧的基础上生成(1000)频谱,其中,音频信号的连续子帧具有以下特性:连续子帧中的第一子帧的已施加窗口形状是连续子帧中的第二子帧的镜像版本或时间反转版本;
存储(1004)与第一两个连续子帧中的第二子帧相对应的信号频谱;
接收针对第二两个连续子帧的坏帧指示符(1002);
获得(1006)信号频谱;
在分数频率尺度上检测(1008)信号频谱的峰值;
估计(1012)每个峰值的相位;
基于所估计的相位,针对第二两个连续子帧中的第一子帧导出(1014)要施加于所存储的频谱的峰值的时间反转的相位校正;
向信号频谱的峰值施加(1016)时间反转的相位校正以形成经时间反转的相位校正的峰值;
向隐藏音频子帧施加(1018)时间反转;
将经时间反转的相位校正的峰值与信号频谱的噪声频谱相组合(1020)以形成用于第二两个连续子帧中的第一子帧的组合频谱;以及
基于组合频谱,生成(1022)合成隐藏音频子帧。
20.根据实施例19所述的方法,其中,合成隐藏音频帧包括至少两个连续隐藏子帧,并且其中,导出时间反转的相位校正、施加时间反转的相位校正以及组合经时间反转的相位校正的峰值是针对至少两个连续隐藏子帧中的第一隐藏子帧执行的,该方法还包括:
针对第二两个连续子帧中的第二子帧,导出(1024)要施加于信号频谱的峰值的非时间反转的相位校正;
针对第二两个连续子帧中的第二子帧,向信号频谱的峰值施加(1026)非时间反转的相位校正以形成经非时间反转的相位校正的峰值;
将非时间反转的音频子帧与信号频谱的噪声频谱相组合(1028)以形成用于第二两个连续子帧中的第二子帧的第二组合频谱;以及
基于第二组合频谱,生成(1030)第二合成音频子帧。
21.根据实施例19-20中任一项所述的方法,其中,隐藏音频子帧包括丢失的音频帧和损坏的音频帧中的一个的隐藏音频子帧。
22.根据实施例19-21中任一项所述的方法,其中,坏帧指示符提供音频帧丢失或损坏的指示。
23.根据实施例19-22中任一项所述的方法,还包括:从解码器的存储器中获得信号频谱。
24.根据实施例19-23中任一项所述的方法,其中,施加时间反转包括:向隐藏音频子帧施加复共轭。
25.根据实施例18-24中任一项所述的方法,还包括:
将每个峰值与表示该峰值的多个峰值频率区间相关联。
26.根据实施例25所述的方法,还包括:对于多个峰值中的每个峰值,向该峰值施加时间反转的相位校正和非时间反转的相位校正中的一个。
27.根据实施例26所述的方法,还包括:
使用被施加了随机相位的所存储的频谱的系数来填充信号频谱的剩余区间。
28.根据实施例19-27中任一项所述的方法,其中,估计相位包括:
根据下式来针对经时间反转的相位校正的峰值计算相位估计:
ffrac=fi-ki
29.根据实施例28所述的方法,其中,φC具有在0.1与0.7之间的范围内的值。
30.根据实施例28所述的方法,还包括:根据下式来针对非经时间反转的相位校正的峰值计算相位估计:
Δφi=2πfiNfullNlost/N
其中,Δφi表示在频率fi处的正弦波的相位校正,Nfull表示在两个帧之间的帧样本的数量,Nlost表示连续丢失帧的数量,以及N表示子帧窗口的长度。
31.根据实施例19-30中任一项所述的方法,其中,生成用于第一两个连续子帧中的每个子帧的频谱包括确定以下项:
其中,N表示子帧窗口的长度,子帧加窗函数w1(n)是用于连续子帧中的第一子帧的子帧加窗函数,w2(m)是用于连续子帧中的第二子帧的子帧加窗函数,以及Mstep12是在第一两个连续子帧中的第一子帧与第一两个连续子帧中的第二子帧之间的样本的数量。
32.根据实施例19-31中任一项所述的方法,还包括:向信号频谱的噪声频谱施加随机相位。
33.根据实施例32所述的方法,其中,向噪声频谱施加随机相位包括:在将经非时间反转的相位校正的峰值与噪声频谱相组合之前,向噪声频谱施加随机相位。
34.一种解码器设备(900),被配置为生成所接收的音频信号的隐藏音频子帧,其中,解码设备的解码方法在子帧的基础上生成频谱,其中,连续子帧具有以下特性:已施加窗口形状是彼此的镜像版本或时间反转版本,该解码器设备包括:
处理电路(902);以及
与处理电路耦接的存储器(904),其中,存储器包括指令,这些指令当由处理电路执行时使得解码器设备执行根据实施例19-33中任一项所述的操作。
35.一种解码器设备(900),被配置为生成所接收的音频信号的隐藏音频子帧,其中,解码设备(900)的解码方法在子帧的基础上生成频谱,其中,连续子帧具有以下特性:已施加窗口形状是彼此的镜像版本或时间反转版本,其中,解码器设备适于根据实施例19-33中任一项来执行。
36.一种计算机程序,包括要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此这些程序代码的执行使得解码器设备(900)执行根据实施例19-33中任一项所述的操作。
37.一种包括非暂时性存储介质的计算机程序产品,该非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此这些程序代码的执行使得解码器设备(900)执行根据实施例19-33中任一项所述的操作。
下面提供对本公开中使用的各种缩写/首字母缩略词的说明。
缩写 说明
DFT 离散傅立叶变换
IDFT 逆离散傅立叶变换
LP 线性预测
PLC 分组丢失隐藏
ECU 错误隐藏单元
FEC 帧错误校正/隐藏
下面提供参考文献。
[1]T.Vaillancourt、M.Jelinek、R.Salami和R.Lefebvre的“Efficient FrameErasure Concealment in Predictive Speech Codecs using Glottal PulseResynchronisation(使用声门脉冲重新同步的预测语音编解码器中的有效帧擦除隐藏)”,2007年IEEE声学、语音和信号处理国际会议—ICASSP'07,夏威夷火奴鲁鲁,2007年,第IV-1113-IV-1116页。
[2]J.Lecomte等人的“Packet-loss concealment technology advances in EVS(EVS中的分组丢失隐藏技术进步)”,2015年IEEE声学、语音和信号处理国际会议(ICASSP),昆士兰州布里斯班,2015年,第5708-5712页。
[3]3GPP TS 26.447,Codec for Enhanced Voice Services(EVS);ErrorConcealment of Lost Packets(Release 12)(用于增强型语音服务(EVS)的编解码器;丢失分组的错误隐藏(版本12))
[4]S.Bruhn、E.Norvell、J.Svedberg和S.Sverrisson的“A novel sinusoidalapproach to audio signal frame loss concealment and its application in thenew evs codec standard(一种新的音频信号帧丢失隐藏正弦方法及其在新evs编解码器标准中的应用)”,2015年IEEE声学、语音和信号处理国际会议(ICASSP),昆士兰州布里斯班,2015年,第5142-5146页。
通常,除非清楚地给出了不同的含义和/或在使用术语的上下文中隐含了不同的含义,否则本文中使用的所有术语将根据其在相关技术领域中的普通含义来解释。除非明确说明,否则对一/一个/该元件、装置、组件、部件、步骤等的所有引用应公开地解释为是指该元件、装置、组件、部件、步骤等的至少一个实例。除非明确地将一个步骤描述为在另一个步骤之后或之前和/或隐含地一个步骤必须在另一个步骤之后或之前,否则本文所公开的任何方法的步骤不必以所公开的确切顺序执行。在适当的情况下,本文公开的任何实施例的任何特征可以应用于任何其他实施例。同样,任何实施例的任何优点可以适用于任何其他实施例,反之亦然。通过下面的描述,所附实施例的其他目的、特征和优点将显而易见。
在各种实施例的上面描述中,将理解,本文使用的术语仅为了描述特定的实施例而并非旨在作为限制。除非另外定义,否则本文使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员通常理解的相同含义。还将理解,诸如在常用字典中定义的那些术语应该被解释为具有与其在本说明书和相关领域的上下文中的含义相一致的含义,并且将不被以理想化或过于正式的意义来解释,除非本文明确地如此定义。
当单元被称为“连接到”、“耦接到”、“响应于”(或者其变型)另一个单元时,它可以被直接连接到、耦接到或响应于另一个单元,或者可以存在中间单元。相比之下,当单元被称为“直接连接到”、“直接耦接到”、“直接响应于”(或者其变型)另一个单元时,不存在中间单元。本文内相同的编号指相同的单元。此外,如本文所使用的,“耦接”、“连接”、“响应”或其变型可以包括无线耦接、连接或响应。如本文所使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。为了简洁和/或清晰起见,公知的功能或结构可能未被详细描述。术语“和/或”包括一个或多个列出的关联项目的任何和所有组合。
将理解,尽管在本文中可以使用术语第一、第二、第三等来描述各种单元/操作,但是这些单元/操作不应被这些术语限制。这些术语仅被用于将一个单元/操作与另一个单元/操作区分开。因此,一些实施例中的第一单元/操作可以在其他实施例中被称为第二单元/操作而不偏离本公开的教导。本说明书内的相同参考标号或相同参考指示符表示相同或类似的单元。
如本文所使用的,术语“包括”、“包含”、“具有”或其变型是开放的,并且包括一个或多个所声明的特征、整数、单元、步骤、组件或功能,但是并不排除一个或多个其他特征、整数、单元、步骤、组件、功能或其组合的存在或增加。此外,如本文所使用的,可以使用源自拉丁语短语“exempli gratia”的通用缩写“例如”来引入或指定先前提及的项目的一个或多个一般示例,而并非旨在作为这种项目的限制。可以使用源自拉丁语短语“id est”的通用缩写“即”来从更一般的详述中指定特定的项目。
本文参考计算机实现的方法、装置(系统和/或设备)和/或计算机程序产品的框图和/或流程图来描述示例实施例。将理解,框图和/或流程图的方框、以及框图和/或流程图中各方框的组合,可以由通过一个或多个计算机电路执行的计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机电路、专用计算机电路和/或其他可编程数据处理电路的处理器电路以生产一种机器,以使得这些指令在经由计算机和/或其他可编程数据处理装置的处理器执行时,变换和控制晶体管、存储在存储单元中的值以及这种电路内的其他硬件组件,以实现框图和/或流程图中的一个或多个方框中指定的功能/操作,从而产生实现框图和/或流程图中的方框中指定的功能/操作的装置(功能)和/或结构。
还可以将这些计算机程序指令存储在有形计算机可读介质中,这些指令可以使计算机或其他可编程数据处理装置以特定方式工作,以使得存储在计算机可读介质中的指令产生包括实现框图和/或流程图中的一个或多个方框中指定的功能/操作的指令的制造品(article of manufacture)。因此,本公开的实施例可以以硬件和/或软件(包括固件、驻留软件、微代码等)体现,该软件在诸如数字信号处理器之类的处理器上运行,硬件和/或软件可以被统称为“电路”、“模块”或其变型。
还应当注意,在一些替代实现中,方框中所标注的功能/操作可以以不同于流程图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能/操作而定。此外,流程图和/或框图的给定方框的功能可以被分成多个方框,和/或流程图和/或框图的两个或更多个方框的功能可以被至少部分地集成。最后,可以在示出的方框之间添加/插入其他方框,和/或可以省略方框/操作而不偏离实施例的范围。此外,尽管一些图在通信路径上包括箭头以示出通信的主要方向,但是将理解,通信可以以与示出的箭头相反的方向发生。
可以对实施例进行许多改变和修改而基本上不偏离本公开的原理。在本文中,所有这些改变和修改旨在被包括在本公开的范围内。因此,上面公开的主题被视为说明性的而非限制性的,并且实施例的示例旨在覆盖落入本公开的精神和范围内的所有这些修改、增强和其他实施例。因此,在法律允许的最大范围内,本公开的范围将由对本公开(包括实施例的示例及其等效物)的最广泛的允许解释来确定,并且不应被上面的详细描述来限定或限制。
Claims (50)
1.一种在解码设备中生成音频信号的隐藏音频子帧的方法,所述方法包括:
在子帧的基础上生成(1000)频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本;
在分数频率尺度上检测(1008)先前接收的音频信号的信号频谱的峰值;
估计(1012)每个所述峰值的相位;
基于所估计的相位,导出(1014)要施加于所述信号频谱的所述峰值的时间反转的相位调整;
向所述信号频谱的所述峰值施加(1016)所述时间反转的相位调整以形成经时间反转的相位调整的峰值;以及
向所述隐藏音频子帧施加(1018)时间反转。
2.根据权利要求1所述的方法,还包括:
将所述经时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合(1020)以形成用于所述隐藏音频子帧的组合频谱;以及
基于所述组合频谱,生成(1022)合成隐藏音频子帧。
3.根据权利要求1或2所述的方法,其中,合成隐藏音频帧包括至少两个连续隐藏子帧,并且其中,导出所述时间反转的相位调整、施加所述时间反转的相位调整、施加所述时间反转以及组合所述经时间反转的相位调整的峰值是针对所述至少两个连续隐藏子帧中的第一隐藏子帧来执行的,所述方法还包括:
针对所述至少两个连续隐藏子帧中的第二隐藏子帧,导出(1024)要施加于所述信号频谱的所述峰值的非时间反转的相位调整;
针对所述第二子帧,向所述信号频谱的所述峰值施加(1026)所述非时间反转的相位调整以形成经非时间反转的相位调整的峰值;
将所述经非时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合(1028)以形成用于所述第二隐藏子帧的组合频谱;以及
基于所述组合频谱,生成(1030)第二合成隐藏音频子帧。
4.根据权利要求1-3中任一项所述的方法,还包括:从所述解码设备的存储器中获得(1006)所述先前接收的音频信号的所述信号频谱。
5.根据权利要求1-4中任一项所述的方法,其中,施加所述时间反转包括:向所述经时间反转的相位调整的峰值施加复共轭。
6.根据权利要求1-5中任一项所述的方法,还包括:将所检测到的峰值中的每个峰值与表示该峰值的多个峰值频率区间相关联(1100)。
7.根据权利要求6所述的方法,其中,对于所述多个峰值频率区间中的每个峰值频率区间,所述时间反转的相位调整和所述非时间反转的相位调整中的一个被施加(1102)到该峰值频率区间。
8.根据权利要求7所述的方法,还包括:
使用所存储的信号频谱的系数来填充(1104)所述信号频谱的剩余区间,所述频谱系数保留所述信号的期望特性。
9.根据权利要求8所述的方法,其中,所述期望特性包括与多信道解码器系统中的第二信道的相关性。
11.根据权利要求10所述的方法,其中,根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφi=-2φi-2πfi(N+Nstep21+(Nlost-1)Nfull)/N。
12.根据权利要求10所述的方法,其中,根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφ=-2φ0-2πf(Nstep21+Nlost·N)/N。
13.根据权利要求2-12中任一项所述的方法,还包括:向所述信号频谱的所述噪声频谱施加随机相位。
14.根据权利要求13所述的方法,其中,向所述噪声频谱施加所述随机相位包括:在将所述经非时间反转的相位调整的峰值与所述噪声频谱相组合之前,向所述噪声频谱施加所述随机相位。
15.一种解码器设备(900),被配置为生成音频信号的隐藏音频子帧,所述解码器设备包括:
处理电路(902);以及
存储器(904),其在操作上与所述处理电路耦接,其中,所述存储器存储指令,所述指令当由所述处理电路执行时使得所述解码器设备执行根据权利要求1-14中任一项所述的操作。
16.一种解码器设备(900),被配置为生成音频信号的隐藏音频子帧,其中,所述解码器设备适于:
在子帧的基础上生成频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本;
在分数频率尺度上检测先前接收的音频信号的信号频谱的峰值;
估计每个所述峰值的相位;
基于所估计的相位,导出要施加于所述信号频谱的所述峰值的时间反转的相位调整;
向所述信号频谱的所述峰值施加所述时间反转的相位调整以形成经时间反转的相位调整的峰值;以及
向所述隐藏音频子帧施加时间反转。
17.根据权利要求16所述的解码器设备,还适于:
将所述经时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合以形成用于所述隐藏音频子帧的组合频谱;以及
基于所述组合频谱,生成合成隐藏音频子帧。
18.根据权利要求16或17所述的解码器设备,其中,合成隐藏音频帧包括至少两个连续隐藏子帧,并且其中,导出所述时间反转的相位调整、施加所述时间反转的相位调整、施加所述时间反转以及组合所述经时间反转的相位调整的峰值是针对所述至少两个连续隐藏子帧中的第一隐藏子帧来执行的,所述解码器设备还适于:
针对所述至少两个连续隐藏子帧中的第二隐藏子帧,导出要施加于所述信号频谱的所述峰值的非时间反转的相位调整;
针对所述第二子帧,向所述信号频谱的所述峰值施加所述非时间反转的相位调整以形成经非时间反转的相位调整的峰值;
将所述经非时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合以形成用于所述第二隐藏子帧的组合频谱;以及
基于所述组合频谱,生成第二合成隐藏音频子帧。
19.根据权利要求16-18中任一项所述的解码器设备,还适于:从所述解码器设备的存储器中获得所述先前接收的音频信号的所述信号频谱。
20.根据权利要求16-19中任一项所述的解码器设备,所述解码器设备适于:通过向所述经时间反转的相位调整的峰值施加复共轭来施加所述时间反转。
21.根据权利要求16-20中任一项所述的解码器设备,还适于:将所检测到的峰值中的每个峰值与表示该峰值的多个峰值频率区间相关联。
22.根据权利要求21所述的解码器设备,还适于:向所述多个峰值频率区间中的每个峰值频率区间施加所述时间反转的相位调整和所述非时间反转的相位调整中的一个。
23.根据权利要求22所述的解码器设备,还适于:
使用所存储的信号频谱的系数来填充所述信号频谱的剩余区间,所述频谱系数保留所述信号的期望特性。
24.根据权利要求23所述的解码器设备,其中,所述期望特性包括与多信道解码器系统中的第二信道的相关性。
26.根据权利要求25所述的解码器设备,所述解码器设备适于:根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφi=-2φi-2πfi(N+Nstep21+(Nlost-1)Nfull)/N。
27.根据权利要求25所述的解码器设备,所述解码器设备适于:根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφ=-2φ0-2πf(Nstep21+Nlost·N)/N。
28.根据权利要求16-27中任一项所述的解码器设备,还适于:向所述信号频谱的所述噪声频谱施加随机相位。
29.根据权利要求28所述的解码器设备,还适于:在将所述经非时间反转的相位调整的峰值与所述噪声频谱相组合之前,向所述噪声频谱施加所述随机相位。
30.一种计算机程序,包括要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此所述程序代码的执行使得所述解码器设备(900)执行根据权利要求1-14中任一项所述的操作。
31.一种包括非暂时性存储介质的计算机程序产品,所述非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此所述程序代码的执行使得所述解码器设备(900)执行根据权利要求1-14中任一项所述的操作。
32.一种在解码设备中生成音频信号的隐藏音频子帧的方法,所述方法包括:
在子帧的基础上生成(1000)频谱,其中,所述音频信号的连续子帧具有以下特性:所述连续子帧中的第一子帧的已施加窗口形状是所述连续子帧中的第二子帧的镜像版本或时间反转版本;
存储(1004)与第一两个连续子帧中的第二子帧相对应的信号频谱;
接收针对第二两个连续子帧的坏帧指示符(1002);
获得(1006)所述信号频谱;
在分数频率尺度上检测(1008)所述信号频谱的峰值;
估计(1012)每个所述峰值的相位;
基于所估计的相位,针对所述第二两个连续子帧中的第一子帧导出(1014)要施加于所存储的频谱的所述峰值的时间反转的相位调整;
向所述信号频谱的所述峰值施加(1016)所述时间反转的相位调整以形成经时间反转的相位调整的峰值;
向所述隐藏音频子帧施加(1018)时间反转;
将所述经时间反转的相位调整的峰值与所述信号频谱的噪声频谱相组合(1020)以形成用于所述第二两个连续子帧中的所述第一子帧的组合频谱;以及
基于所述组合频谱,生成(1022)合成隐藏音频子帧。
33.根据权利要求32所述的方法,其中,所述合成隐藏音频帧包括至少两个连续隐藏子帧,并且其中,导出所述时间反转的相位调整、施加所述时间反转的相位调整、以及组合所述经时间反转的相位调整的峰值是针对所述至少两个连续隐藏子帧中的第一隐藏子帧来执行的,所述方法还包括:
针对所述第二两个连续子帧中的第二子帧,导出(1024)要施加于所述信号频谱的峰值的非时间反转的相位调整;
针对所述第二两个连续子帧中的所述第二子帧,向所述信号频谱的所述峰值施加(1026)所述非时间反转的相位调整以形成经非时间反转的相位调整的峰值;
将所述非时间反转的音频子帧与所述信号频谱的噪声频谱相组合(1028)以形成用于所述第二两个连续子帧中的所述第二子帧的第二组合频谱;以及
基于所述第二组合频谱,生成(1030)第二合成音频子帧。
34.根据权利要求32或33所述的方法,还包括:从解码设备的存储器中获得所述信号频谱。
35.根据权利要求32-34中任一项所述的方法,其中,施加所述时间反转包括:向所述经时间反转的相位调整的峰值施加复共轭。
36.根据权利要求32-35中任一项所述的方法,还包括:
将每个峰值与表示该峰值的多个峰值频率区间相关联。
37.根据权利要求36所述的方法,还包括:对于所述多个峰值频率区间中的每个峰值频率区间,向该峰值频率区间施加所述时间反转的相位调整和所述非时间反转的相位调整中的一个。
38.根据权利要求37所述的方法,还包括:
使用所存储的频谱的系数来填充所述信号频谱的剩余区间,所述频谱系数保留所述信号的期望特性。
39.根据权利要求38所述的方法,其中,所述期望特性包括与多信道解码器系统中的第二信道的相关性。
41.根据权利要求40所述的方法,其中,φC具有在0.1与0.7之间的范围内的值。
42.根据权利要求40所述的方法,其中,根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφi=-2φi-2πfi(N+Nstep21+(Nlost-1)Nfull)/N。
43.根据权利要求40所述的方法,其中,根据下式来计算针对所述时间反转的隐藏音频子帧的所述峰值的相位调整:
Δφ=-2φ0-2πf(Nstep21+Nlost·N)/N。
45.根据权利要求32-44中任一项所述的方法,还包括:向所述信号频谱中的所述噪声频谱施加随机相位。
46.根据权利要求45所述的方法,其中,向所述噪声频谱施加所述随机相位包括:在将所述经非时间反转的相位调整的峰值与所述噪声频谱相组合之前,向所述噪声频谱施加所述随机相位。
47.一种解码器设备(900),被配置为生成音频信号的隐藏音频子帧,所述解码器设备包括:
处理电路(902);以及
存储器(904),其在操作上与所述处理电路耦接,其中,所述存储器存储指令,所述指令当由所述处理电路执行时使得所述解码器设备执行根据权利要求1-14或32-46中至少一项所述的操作。
48.一种解码器设备(900),被配置为生成音频信号的隐藏音频子帧,其中,所述解码器设备适于执行根据权利要求32-46中至少一项所述的方法。
49.一种计算机程序,包括要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此所述程序代码的执行使得所述解码器设备(900)执行根据权利要求32-46中任一项所述的操作。
50.一种包括非暂时性存储介质的计算机程序产品,所述非暂时性存储介质存储要由被配置为在通信网络中操作的解码器设备(900)的处理电路(902)执行的程序代码,由此所述程序代码的执行使得所述解码器设备(900)执行根据权利要求32-46中任一项所述的操作。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962860922P | 2019-06-13 | 2019-06-13 | |
US62/860,922 | 2019-06-13 | ||
PCT/EP2020/064394 WO2020249380A1 (en) | 2019-06-13 | 2020-05-25 | Time reversed audio subframe error concealment |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113950719A true CN113950719A (zh) | 2022-01-18 |
Family
ID=70847403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080042683.0A Pending CN113950719A (zh) | 2019-06-13 | 2020-05-25 | 时间反转的音频子帧错误隐藏 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11967327B2 (zh) |
EP (1) | EP3984026A1 (zh) |
JP (2) | JP7371133B2 (zh) |
CN (1) | CN113950719A (zh) |
BR (1) | BR112021021928A2 (zh) |
CO (1) | CO2021016704A2 (zh) |
WO (1) | WO2020249380A1 (zh) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2006208529B2 (en) * | 2005-01-31 | 2010-10-28 | Microsoft Technology Licensing, Llc | Method for weighted overlap-add |
US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
WO2014108738A1 (en) * | 2013-01-08 | 2014-07-17 | Nokia Corporation | Audio signal multi-channel parameter encoder |
FR3001593A1 (fr) * | 2013-01-31 | 2014-08-01 | France Telecom | Correction perfectionnee de perte de trame au decodage d'un signal. |
SG10201700846UA (en) * | 2013-02-05 | 2017-03-30 | Ericsson Telefon Ab L M | Method and apparatus for controlling audio frame loss concealment |
FR3004876A1 (fr) | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
ES2952973T3 (es) * | 2014-01-15 | 2023-11-07 | Samsung Electronics Co Ltd | Dispositivo de determinación de la función de ponderación y procedimiento para cuantificar el coeficiente de codificación de predicción lineal |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
RU2711108C1 (ru) | 2016-03-07 | 2020-01-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, подвергающие затуханию замаскированный аудиокадр согласно разным коэффициентам затухания для разных полос частот |
JP6652469B2 (ja) | 2016-09-07 | 2020-02-26 | 日本電信電話株式会社 | 復号装置、復号方法及びプログラム |
CN110114988B (zh) * | 2016-11-10 | 2021-09-07 | 松下电器(美国)知识产权公司 | 发送方法、发送装置及记录介质 |
US10714098B2 (en) * | 2017-12-21 | 2020-07-14 | Dolby Laboratories Licensing Corporation | Selective forward error correction for spatial audio codecs |
-
2020
- 2020-05-25 JP JP2021573331A patent/JP7371133B2/ja active Active
- 2020-05-25 CN CN202080042683.0A patent/CN113950719A/zh active Pending
- 2020-05-25 BR BR112021021928A patent/BR112021021928A2/pt unknown
- 2020-05-25 EP EP20728023.1A patent/EP3984026A1/en active Pending
- 2020-05-25 WO PCT/EP2020/064394 patent/WO2020249380A1/en unknown
- 2020-06-04 US US17/618,676 patent/US11967327B2/en active Active
-
2021
- 2021-12-09 CO CONC2021/0016704A patent/CO2021016704A2/es unknown
-
2023
- 2023-10-18 JP JP2023179369A patent/JP2024012337A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020249380A1 (en) | 2020-12-17 |
JP7371133B2 (ja) | 2023-10-30 |
JP2024012337A (ja) | 2024-01-30 |
BR112021021928A2 (pt) | 2021-12-21 |
US20220246156A1 (en) | 2022-08-04 |
US11967327B2 (en) | 2024-04-23 |
EP3984026A1 (en) | 2022-04-20 |
CO2021016704A2 (es) | 2022-01-17 |
JP2022536158A (ja) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10360927B2 (en) | Method and apparatus for frame loss concealment in transform domain | |
US9514755B2 (en) | Position-dependent hybrid domain packet loss concealment | |
JP6469079B2 (ja) | 重み付けされたノイズの注入によるフレーム消失補正 | |
JP7116521B2 (ja) | パワー補償を使用してエラー隠し信号を生成する装置及び方法 | |
KR20080002756A (ko) | 가중된 오버랩 애드 방법 | |
JP7167109B2 (ja) | 適応型ノイズ推定を使用してエラー隠し信号を生成する装置及び方法 | |
CN108847247B (zh) | 音频帧丢失隐藏 | |
US10614818B2 (en) | Apparatus and method for generating an error concealment signal using individual replacement LPC representations for individual codebook information | |
JP7471375B2 (ja) | 位相ecu f0補間スプリットのための方法および関係するコントローラ | |
US11990141B2 (en) | Method and apparatus for controlling multichannel audio frame loss concealment | |
CN113950719A (zh) | 时间反转的音频子帧错误隐藏 | |
US12002477B2 (en) | Methods for phase ECU F0 interpolation split and related controller | |
TWI738106B (zh) | 用於提供處理後的音訊信號表示的設備、音訊信號處理器、音訊解碼器、音訊編碼器、方法及電腦程式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |