CN104903956A - 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 - Google Patents
用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 Download PDFInfo
- Publication number
- CN104903956A CN104903956A CN201380064128.8A CN201380064128A CN104903956A CN 104903956 A CN104903956 A CN 104903956A CN 201380064128 A CN201380064128 A CN 201380064128A CN 104903956 A CN104903956 A CN 104903956A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- coefficient
- frequency
- signal
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了一种基于编码音频信号频谱生成音频输出信号的设备。该设备包括处理单元(115),其用于对编码音频信号频谱进行处理,以获得包括多个频谱系数的解码音频信号频谱,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置被依次排序,使得频谱系数形成频谱系数序列。此外,该设备包括伪系数确定器(125),其用于确定解码音频信号频谱的一个或更多个伪系数,每个伪系数具有频谱值。此外,该设备包括替换单元(135),其用于用确定的频谱模式替换至少一个或更多个伪系数,以获得修改的音频信号频谱,其中,确定的频谱模式包括至少两个模式系数,其中,该至少两个模式系数中的每一个具有频谱值。此外,该设备包括频谱时间转换单元(145),其用于将修改的音频信号频谱转换至时域,以获得音频输出信号。
Description
本发明涉及音频信号编码、解码和处理,并且具体地涉及通过使用频谱模式有效合成正弦曲线和扫描。
音频信号处理变得越来越重要。由于现代感知音频编解码器被要求以越来越低的比特率来传送满意的音频质量,所以出现了挑战。另外,例如对于双向通信应用或分布式游戏等而言,可允许的延迟通常也很低。
现代波形保留变换音频编码器通常伴随着参数化编码增强如噪声替换或带宽扩展。除了这些熟知的参数化工具以外,可能还期望在这样的解码器中根据参数化边信息来合成正弦音调。计算复杂度始终是编解码器发展中的重要标准,原因在于:对于编解码器的广泛接受和部署而言,低复杂度是必要的。因此,需要的是生成这些音调的有效方式。
例如,虽然MPEG-D USAC(MPEG-D=运动图像专家组-D;USAC=统一语音和音频编码)音频编解码器通常在时域预测编码和变换域编码之间进行切换,然而音乐内容仍然主要在变换域中进行编码。在低比特率如<14kbit/s时,音乐项目中的音调成分在通过变换编码器进行编码时通常不好听,这使得以足够的质量对音频进行编码的任务甚至更具有挑战性。
另外,低延迟约束一般引起变换编码器的滤波器组的次优频率响应(原因是低延迟优化窗口形状和/或变换长度),并且因此进一步损害这样的编解码器的感知质量。
根据传统心理声学模型,对关于量化噪声的透明度的先决条件进行了定义。在高比特率的情况下,这与遵守人类听觉掩蔽等级的量化噪声的感知适配最佳时间/频率分布有关。然而,在低比特率的情况下,无法实现透明度。因此,在低比特率的情况下,可以使用掩蔽等级要求降低策略。
已经针对音乐内容提供了一流的编解码器,具体地为基于改进的离散余弦变换(MDCT)的变换编码器,其在频域中量化并传输频谱系数。然而,在数据速率非常低的情况下,每个时间帧中的仅很少的频谱线可以通过该帧的可用的比特进行编码。因此,时间调制伪声和所谓的颤音伪声不可避免地被引入编码信号中。
最显著地,在拟稳态音调成分中可以感知到这些类型的伪声。如果由于延迟约束而必须选择由于公知的泄露效应会在相邻频谱系数(频谱展宽)之间引入显著串扰的变换窗口形状,则尤其出现该情形。然而,尽管如此,通常这些相邻频谱系数中的仅一个或几个在由低比特率编码器进行粗量化之后,仍然保持为非零。
如上所述,根据现有技术中的一种方法,使用变换编码器。非常适合于对音乐内容进行编码的现代高压缩率音频编解码器全部依靠于变换编码。最突出的示例是MPEG2/4高级音频编码(AAC)和MPEG-D统一语音和音频编码(USAC)。USAC具有切换式核心,该切换式核心与主要意图用于语音编码的代数码激发线性预测(ACELP)模块加上变换编码激励(TCX)模块(参见[5])一致,并且替代地,与主要意图用于对音乐进行编码的AAC一致。如同AAC一样,TCX也是基于变换的编码方法。在低比特率设置的情况下,这些编码方案容易展现出颤音伪声,尤其在基本编码方案基于改进的离散余弦变换(MDCT)(参见[1])的情况下。
对于音乐再现而言,变换编码器是用于音频数据压缩的优选技术。然而,在低比特率的情况下,传统变换编码器展现出强颤音和粗糙伪声。大多数伪声来源于过度稀疏编码的音调频谱成分。在通过次优的频谱变换功能(泄露效应)对这些频谱成分进行频谱涂抹的情况下,此情形尤其发生,该次优的频谱变换功能主要被设计成满足严格的延迟约束。
根据现有技术中的另一种方法,对于瞬变、正弦曲线和噪声而言,编码方案是完全参数化的。具体地,对于中比特率和低比特率,完全参数化音频编解码器已经被标准化,其中最突出的是:MPEG-4第三部分,第七子部分,谐波和特征线加噪声(HILN)(参见[2])以及MPEG-4第三部分,第八子部分,正弦编码(SSC)(参见[3])。然而,参数化编码器遭受令人不舒服的伪声,并且随着比特速率增加,参数化编码器不会很好地调整以接近感知透明度。
另一种方法提供混合波形和参数化编码。在[4]中,提出了基于变换的波形编码和MPEG 4-SSC(仅正弦部分)的混合。在迭代的过程中,提取正弦曲线且从信号中减去正弦曲线来形成残差信号,进而要通过变换编码技术进行编码。所提取的正弦曲线通过参数集进行编码且与残差一起进行传输。在[6]中,提供了一种分别对正弦曲线和残差进行编码的混合编码方法。在[7]中,在所谓的受限能量交叠变换(CELT)编解码器/重影网页处,描绘了利用振荡器组进行混合编码的思想。然而,通过与解码器并行运行并且其输出在时域中与解码器的合成滤波器组的输出进行混合的振荡器组来生成伪音调意味着巨大的计算负担,因为很多振荡器必须以高采样率并行地进行计算。计算复杂度始终是编解码器发展和部署中的重要标准,因此需要的是生成这些音调的更有效的方式。
在中比特率或较高比特率的情况下,变换编码器由于其自然的声音而非常适用于对音乐进行编码。其中,基础心理声学模型的透明度要求得以完全满足或几乎完全满足。然而,在低比特率的情况下,编码器不得不严重违反心理声学模型的要求,并且在这样的情形下,变换编码器易于发生颤音伪声、粗糙伪声和音乐噪声伪声。
尽管完全参数化音频编解码器最适合于较低的比特率,但是,已知的是这些音频编解码器发出令人不舒服的伪声。此外,这些编解码器并不无缝地调整至感知透明度,因为相当粗糙的参数化模型的逐步细化并不可行。
混合波形和参数化编码可以潜在地克服个别方法的限制,并且可以潜在地受益于两种技术的相互正交的特性。然而,在当前的先进技术下,混合波形和参数化编码由于混合编解码器的变换编码部分与参数化部分之间缺乏相互作用而受到阻碍。问题涉及:参数化部分与变换编解码器部分之间的信号分割、变换部分与参数化部分之间的比特预算操控、用信号发出参数的技术以及参数化输出与变换编解码器输出的无缝合并。
本领域中另外的先前出版物涉及直接在时域中合成正弦音调,或在DFT频域中合成逐段恒定的音调[13],并且涉及在DFT域中对截断模式的SNR最优化[12]。已经描述了在感知编解码器环境中基于MDCT频谱嵌入逐段恒定频率音调[10]或带宽拓展情形[11]。然而,似乎既没有解决在MDCT域中对扫描及其与无缝轨迹的链接的有效生成,也没有解决在参数空间中对可用自由度的合理限制的定义。
本发明的目的是提供用于混合音频解码的改进概念。本发明的目的由以下项来实现:根据权利要求1所述的设备、根据权利要求14所述的设备、根据权利要求20所述的方法、根据权利要求21所述的方法以及根据权利要22所述的计算机程序。
提供了一种基于编码音频信号频谱生成音频输出信号的设备。
该设备包括处理单元,其用于对编码音频信号频谱进行处理,以获得包括多个频谱系数的解码音频信号频谱,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置依次被排序,使得频谱系数形成频谱系数序列。
此外,该设备包括伪系数确定器,其用于确定解码音频信号频谱的一个或更多个伪系数,每个伪系数具有频谱位置和频谱值。
此外,该设备包括替换单元,其通过确定的频谱模式来替换至少一个或更多个伪系数以获得修改的音频信号频谱,其中,确定的频谱模式包括至少两个模式系数,其中,至少两个模式系数中的每个具有频谱值。
此外,该设备包括频谱时间转换单元,其用于将修改的音频信号频谱转换至时域以获得音频输出信号。
在实施方式中,该设备还可以包括存储单元,其包括数据库或存储器,在数据库内或在存储器内存储有多个存储的频谱模式,其中,存储的频谱模式中的每个具有某一频谱特性(例如,恒定频率、扫描频率——每个在频点上或频点间的位置版本中等)。替换单元可以被配置成向存储单元请求存储的频谱模式中的一个作为请求的频谱模式。存储单元可以被配置成提供所述请求的频谱模式,并且替换单元可以被配置成通过基于请求的频谱模式的确定的频谱模式来替换至少一个或更多个伪系数。
根据实施方式,替换单元可以被配置成:取决于从由伪系数确定器确定的一个或更多个伪系数中的至少一个而导出的第一导出频谱位置,向存储单元请求所述存储的存储模式中的一个。
在一种实施方式中,从一个或更多个伪系数中的至少一个导出的第一导出频谱位置可以是伪系数中的一个的频谱位置。
在另一实施方式中,一个或更多个伪系数是带符号的值,每个伪系数包括符号成分,并且替换单元被配置成基于一个或更多个伪系数中的一个伪系数的频谱位置且基于所述伪系数的符号成分来确定第一导出频谱位置,使得当所述符号成分具有第一符号值时,第一导出频谱位置等于所述伪系数的频谱位置,并且使得当所述符号号成分具有不同的第二值时,第一导出频谱位置等于修改的位置,所述修改的位置是通过将所述伪系数的频谱位置偏移预定义值而产生的。
例如,伪线的二分之一频点频率分辨率可以由所述伪系数的符号通过信号发送。当伪系数的符号成分具有第二符号值时,所述伪系数的频谱位置所偏移的预定义值则可以对应于频率差的二分之一,例如当考虑时频域时,所述频率差为两个随后的频点的频率差。
伪系数的符号成分可以由伪系数的频谱值组成。
在实施方式中,存储在存储单元的数据库或存储器内的多个存储的频谱模式可以是固定音调模式或频率扫描模式。伪系数确定器可以被配置成:确定解码音频信号频谱的两个或更多个时间上连续的伪系数。替换单元可以被配置成:取决于从第一伪系数导出的第一导出频谱位置与从第二伪系数导出的第二导出频谱位置之间的绝对差是否小于阈值,将两个或更多个时间上连续的伪系数中的第一伪系数和第二伪系数分配给轨迹。并且替换单元可以被配置成:当从轨迹的第一伪系数导出的第一导出频谱位置等于从轨迹的第二伪系数导出的第二导出频谱位置时,向该存储单元请求固定音调模式中的一个。此外,替换单元可以被配置成:当从轨迹的第一伪系数导出的第一导出频谱位置不同于从轨迹的第二伪系数导出的第二导出频谱位置时,向存储单元请求频率扫描模式中的一个。
根据实施方式,替换单元可以被配置成:当从轨迹的第二伪系数导出的第二导出频谱位置与从轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于预定义值的二分之一时,向存储单元请求频率扫描模式中的第一频率扫描模式。此外,替换单元可以被配置成:当从轨迹的第二伪系数导出的第二导出频谱位置与从轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于预定义值时,向存储单元请求频率扫描模式中的第二频率扫描模式,其不同于第一频率扫描模式。此外,替换单元可以被配置成:当从轨迹的第二伪系数导出的第二导出频谱位置与从轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于预定义值的1.5倍时,向存储单元请求频率扫描模式中的第三频率扫描模式,其不同于第一扫描模式和第二频率扫描模式。
根据实施方式,替换单元包括模式适配单元,该模式适配单元被配置成:对由存储单元提供的请求的频谱模式进行修改,以获得确定的频谱模式。
在实施方式中,模式适配单元可以被配置成:取决于一个或更多个伪系数中的一个的频谱值对请求的频谱模式的模式系数的频谱值进行重新调整,来对由存储单元提供的请求的频谱模式进行修改,以获得确定的频谱模式。
根据实施方式,模式适配单元可以被配置成:取决于起始相位来对由存储单元提供的请求的频谱模式进行修改,使得当起始相位具有第一起始相位值时,以第一方式对请求的频谱模式的每个模式系数的频谱值进行修改,并且使得当起始相位具有不同的第二起始相位值时,以不同的第二方式对请求的频谱模式的每个模式系数的频谱值进行修改。
根据实施方式,请求的频谱模式的每个模式系数的频谱值可以是包括实部和虚部的复数系数。在这样的实施方式中,模式适配单元可以被配置成通过以下操作对请求的频谱模式进行修改:通过应用复数旋转因子对由存储单元提供的请求的频谱模式的每个模式系数的实部和虚部进行修改,其中,是角度(例如,角度值)。由此,对于每个复数系数而言,表示复数平面中的所述复数系数的向量被旋转对于每个复数系数相同的角度。
在实施方式中,请求的频谱模式的每个模式系数的频谱值包括实部和虚部。模式适配单元可以被配置成通过以下操作对由存储单元提供的请求的频谱模式进行修改:对请求的频谱模式的每个模式系数的频谱值的实部和虚部进行求反,或者将请求的频谱模式的每个模式系数的频谱值的实部或求反的实部与虚部或求反的虚部进行交换。
在实施方式中,模式适配单元可以被配置成通过实现模式的时间镜像来对由存储单元提供的请求的频谱模式进行修改。通常,这在频域中可以通过计算模式的复共轭(通过将虚部乘以-1)并且应用复数相位项(转动)而获得。
根据实施方式,解码音频信号频谱在MDCT域中表示。模式适配单元可以被配置成:通过对请求的频谱模式的模式系数的频谱值进行修改来对由存储单元提供的请求的频谱模式进行修改,以获得修改的频谱模式,其中,频谱值在奇数堆叠式离散傅里叶变换域中表示。此外,模式适配单元可以被配置成:将修改的频谱模式的模式系数的频谱值从奇数堆叠式离散傅里叶变换域变换至MDCT域,以获得确定的频谱模式。此外,替换单元可以被配置成:通过在MDCT域中表示的确定的频谱模式来替换至少一个或更多个伪系数,以获得在MDCT域中表示的修改的音频信号频谱。
替代地,在实施方式中,频谱值可以在复数改进的离散余弦变换(CMDCT)域中表示。此外,在这些实施方式中,模式适配单元可以被配置成:通过仅提取复数修改的模式的实部来将修改的频谱模式的模式系数的频谱值从CMDCT域变换至MDCT域,以获得确定的频谱模式。
此外,提供了一种用于生成多个频谱模式的设备。该设备包括用于在第一域中生成多个信号的信号生成器。此外,该设备包括信号变换单元,其用于将多个信号中的每个信号从第一域变换至第二域,以获得多个频谱模式,多个变换的频谱模式中的每个模式包括多个系数。此外,该设备包括后处理单元,其用于通过移除变换的频谱模式的系数中的一个或更多个来将变换的频谱模式截断,以获得多个处理的模式。此外,该设备包括存储单元,其包括数据库或存储器,其中,存储单元被配置成将多个处理的模式中的每个处理的模式存储在数据库或存储器中。信号生成器被配置成基于以下公式来生成多个信号中的每个信号:
以及
其中,t和τ表示时间,其中,是在t处的瞬时相位,并且其中f(τ)是在τ处的瞬时频率,其中,多个信号中的每个信号具有起始频率(f0)和目标频率(f1),起始频率(f0)是所述信号在第一时间点处的瞬时频率,目标频率(f1)是所述信号在不同的第二时间点处的瞬时频率。信号生成器被配置成生成多个信号中的第一信号,使得第一信号的目标频率等于起始频率。此外,信号生成器被配置成生成多个信号中的不同的第二信号,使得第一信号的目标频率不同于起始频率。
根据实施方式,信号变换单元可以被配置成将多个信号中的每个信号从第一域变换至第二域,第一域是时域,第二域是频谱域。信号变换单元可以被配置成生成用于对所述信号进行变换的多个时间块中的第一时间块,其中,多个时间块中的每个时间块包括多个加权的样本,其中,每个所述加权的样本是通过多个权重中的一个权重进行加权的所述信号的信号样本,其中,将多个权重分配给所述时间块,并且其中,将多个权重中的每个权重分配给时间点。多个信号中的每个信号的起始频率(f0)可以是所述信号在第一时间点处的瞬时频率,其中,将时间块中的第一时间块的权重中的第一权重分配给第一时间点,其中,将时间块中的不同的第二时间块的权重中的第二权重分配给第一时间点,其中,时间块中的第一时间块与时间块中的第二时间块交叠,并且其中,权重中的第一权重等于权重中的第二权重。多个信号中的每个信号的目标频率(f1)可以是所述信号在第二时间点处的瞬时频率,其中,将时间块中的第一时间块的权重中的第三权重分配给第二时间点,其中,将时间块中的不同的第三时间块的权重中的第四权重分配给第二时间点,其中,时间块中的第一时间块与时间块中的第三时间块交叠,并且其中,权重中的第三权重等于权重中的第四权重。
应注意,例如,对于模式的生成而言,生成仅一个时间块(例如,时间块中的第一时间块)就足够了。
根据实施方式,多个信号中的每个信号具有起始相位和目标相位起始相位是所述信号在第一时间点处的相位,目标相位是所述信号在不同的第二时间点处的相位,其中,信号生成器被配置成生成多个信号,使得多个信号中的第一信号的起始相位等于多个信号中的不同的第二信号的起始相位
可以在所述起始时间点和终止时间点处对多个信号中的每个信号的起始相位(以及终止相位,其通过对起始频率和目标频率的选择而暗示)进行调整。
通过对起始时间点和终止时间点的这种特殊选择,减少了在具有不同频谱特性的模式被链接的情况下可能发生的交叠相加伪声。
在实施方式中,后处理单元还可以被配置成:对每个变换的频谱模式的频谱系数进行π/4的旋转,以获得多个旋转的频谱模式。
在另一实施方式中,后处理单元还可以被配置成:对每个变换的频谱模式的频谱系数进行任意相位角的旋转,以获得多个任意旋转的频谱模式。
根据进一步的实施方式,信号生成器可以被配置成生成第一信号、第二信号以及一个或更多个进一步的信号来作为多个信号,使得每个进一步的信号的目标频率与起始频率的各个差是第二信号的目标频率与起始频率的差的整数倍。
此外,提供了一种基于编码音频信号频谱来生成音频输出信号的方法。该方法包括:
-处理编码音频信号频谱以获得包括多个频谱系数的解码音频信号频谱,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置依次被排序,使得频谱系数形成频谱系数序列;
-确定解码音频信号频谱的一个或更多个伪系数,其中,每个伪系数是频谱系数中的一个;
-通过确定的频谱模式替换至少一个或更多个伪系数以获得修改的音频信号频谱,其中,确定的频谱模式包括至少两个模式系数,其中,至少两个模式系数中的每个具有频谱值;以及:
-将修改的音频信号频谱转换至时域以获得音频输出信号。
此外,提供了一种用于生成多个频谱模式的方法。该方法包括:
-在第一域中生成多个信号;
-将多个信号中的每个信号从第一域变换至第二域以获得多个频谱模式,多个变换的频谱模式中的每个模式包括多个系数;
-通过移除变换的频谱模式的系数中的一个或更多个来将变换的频谱模式截断,以获得多个处理的模式;以及
-将多个处理的模式中的每个处理的模式存储在数据库或存储器中。
基于以下公式来进行多个信号中的每个信号的生成:
以及
其中,t和τ表示时间,其中,是在t处的瞬时相位,并且其中,f(τ)是在τ处的瞬时频率,其中,多个信号中的每个信号具有起始频率(f0)和目标频率(f1),起始频率(f0)是所述信号在第一时间点处的瞬时频率,目标频率(f1)是所述信号在不同的第二时间点处的瞬时频率。
通过以下操作来进行多个信号的生成:生成多个信号中的第一信号,使得第一信号的目标频率(f1)等于起始频率(f0)。此外,通过以下操作来进行多个信号的生成:生成多个信号中的不同的第二信号,使得第一信号的目标频率(f1)不同于起始频率(f0)。
此外,提供了一种计算机程序,当该计算机程序在计算机或信号处理器上被执行时用于实现上述方法。
由于如AAC或USAC的现代编解码器基于音频的MDCT域表示,所以实施方式提供了用于通过在解码器处将音调模式修补至MDCT频谱中来生成合成音调的概念。论述了如何可以导出适当的频谱模式并且将其适配至其在MDCT时间/频率(t/f)网格中(以及两者之间)的目标位置,进而无缝地合成包括扫描的高质量正弦音调。
如高级音频编码(AAC)或统一语音和音频编码(USAC)的现代编解码器基于音频的改进的离散余弦变换(MDCT)域表示。实施方式通过在解码器处将音调模式直接修补至MDCT频谱中来生成合成音调。仅通过这样,可以实现超低复杂度的实施。
在实施方式中,导出适当的模式并且将其适配至其在MDCT t/f网格中(以及两者之间)的目标位置来合成包括扫描的高质量正弦音调。
根据实施方式,提供了低延迟和低比特率音频编码。一些实施方式基于被称为音调填充(TF)的新的且具有发明性的概念。术语音调填充表示编码技术,其中由在感知上类似但纯的正弦音调来替换否则的话被糟糕编码的自然音调。因此,某一速率下的、取决于相对于最近的MDCT频点的频谱位置的正弦曲线的频谱位置的振幅调制伪声得以避免(已知为“颤音”)。
在实施方式中,所有可想到的伪声的烦恼程度被加权。这与如音高、调和性、调制的感知方面有关,并且与伪声的固定性有关。在声音感知烦恼模型(SPAM)中对所有方面进行评估。通过这样的模型来操控,音调填充提供显著优势。与由疏松量化的自然音调造成的相加噪声和不良固定性(“颤音”)的影响相对,通过用纯的正弦音调来替换自然音调而引入的音高和调制误差被加权。
音调填充给正弦曲线加噪声编解码器提供了显著的差异。例如,TF用正弦曲线以及具有预定义的斜率的线性正弦扫描来替代音调,而不是减去正弦曲线。在感知上类似的音调具有与要被替代的原始声音成分相同的局部重心(COG)。根据实施方式,在音频频谱(COG函数的从左至右的音步)中抹除原始音调。通常,用于替代的正弦曲线的频率分辨率尽可能粗糙以使边信息最小化,并且同时考虑感知要求以避免走调的感觉。
在一些实施方式中,由于所述感知要求,可以在较低的截止频率以上进行音调填充,但是在较低的截止频率以下不进行音调填充。当进行音调填充时,在变换编码器内通过频谱伪线来表示音调。然而,在配置有音调填充的编码器中,伪线经受由传统心理声学模型控制的常规处理。因此,当进行音调填充时,无需对参数化部分进行先验限制(在比特率x下,y音调成分被替代)。因此,实现了到变换编解码器中的紧密整合。
可以在编码器处通过以下操作来使用音调填充功能:检测局部COG(平滑估计;峰值质量测量);移除音调成分;生成替代的伪线(例如伪系数),该替代的伪线经由伪线的振幅携带电平信息,经由伪线的频谱位置携带频率信息,并且经由伪线的符号携带精细的频率信息(二分之一频点偏移)。伪系数(伪线)就如同任何常规频谱系数(频谱线)一样由编解码器的后续量化器单元来处理。
此外,可以在解码器处通过检测隔离的频谱线来使用音调填充,其中,真实的伪系数(伪线)可以通过标志阵列(例如位字段)来标记。解码器可以链接伪线信息来建立正弦轨迹。可以使用出生/延续/死亡方案来合成连续的轨迹。
为了进行解码,伪系数(伪线)可以同样地由在边信息内进行传输的标志阵列来标记。伪线的二分之一频点频率分辨率可以由伪系数(伪线)的符号用信号发送。在解码器处,伪线可以在逆变换单元之前从频谱中被抹除,并且由振荡器组单独地来合成。随着时间的流逝,可以链接成对的振荡器,并且使用参数内插来确保平滑地展开振荡器输出。
可以改变参数驱动型振荡器的开始和偏移的形状,使得其紧密对应于变换编解码器的加窗操作的时间特征,从而确保在输出信号的变换编解码器生成的部分与振荡器生成的部分之间的无缝转换。
所提供的概念很好地且毫不费力地整合于如AAC、TCX或类似配置的现有变换编码方案中。参数量化精度的操控可以隐含地由编解码器的现有速率控制来执行。
在一些实施方式中,伪线(伪系数)就如同任何常规的频谱线一样可以由编解码器的现有量化器来处理;而不是单独用信号发送正弦参数。
在一些实施方式中,可以使用从对先前的频谱进行外插所获得的正弦轨迹的可选地测量的起始相位。
根据一些实施方式,可以通过对正弦轨迹的开始/偏移处的混叠进行建模来使用可选的时域混叠消除(TDAC)技术。
在下文中,参考附图更详细地描述了本发明的实施方式,在附图中:
图1a图示了根据实施方式的基于编码音频信号频谱来生成音频输出信号的设备;
图1b图示了根据另一实施方式的基于编码音频信号频谱来生成音频输出信号的设备;
图1c图示了根据又一实施方式的基于编码音频信号频谱来生成音频输出信号的设备;
图1d图示了根据实施方式的用于生成多个频谱模式的设备;
图2描绘了扫描模式关于MDCT时间块的参数校准;
图3示出了音调模式的修补过程,其中,(a-b)图示了原型模式生成,其中,(c)图示了模式截断,其中,(d)图示了到目标位置和相位的模式适配,并且其中,(e-f)图示了模式修补;
图4图示了归一化的频谱音调模式:频点上的正弦曲线、频点间的正弦曲线、频点上的扫描、频点间的扫描(从顶部面板至底部面板);
图5描绘了作为正弦窗口的模式长度的函数的截断的音调模式的信噪比(SNR);
图6a示出了根据实施方式的交叠块的正弦扫描在各时间点处的瞬时频率;
图6b描绘了根据实施方式的DCT和DCT IV基函数的相位进展;
图6c图示了根据实施方式的功率谱、替代的MDCT频谱、量化的MDCT频谱以及具有模式的MDCT频谱;
图7图示了根据实施方式的对音频信号输入频谱进行编码的设备;
图8描绘了音频信号输入频谱、对应的功率谱以及修改的(替换的)音频信号频谱;
图9图示了另一功率谱、另一修改的(替换的)音频信号频谱以及量化的音频信号频谱,其中,在一些实施方式中,在编码器侧生成的量化的音频信号频谱可以对应于在解码侧解码的解码音频信号频谱;
图10图示了根据实施方式的基于编码音频信号频谱来生成音频输出信号的设备;
图11描绘了根据另一实施方式的基于编码音频信号频谱来生成音频输出信号的设备;以及
图12示出了对原始正弦曲线与通过MDCT/逆MDCT链接处理之后的正弦曲线进行比较的两个示意图。
图7图示了根据实施方式的对音频信号输入频谱进行编码的设备。用于编码的该设备包括极值确定器410、频谱修改器420、处理单元430和边信息生成器440。
在更详细地考虑图7的设备之前,更详细地考虑由图7的设备进行编码的音频信号输入频谱。
原则上,任何类型的音频信号频谱可以由图7的设备来编码。音频信号输入频谱可以例如是MDCT(改进的离散余弦变换)频谱、DFT(离散傅里叶变换)幅度谱或MDST(改进的离散正弦变换)频谱。
图8图示了音频信号输入频谱510的示例。在图8中,音频信号输入频谱510是MDCT频谱。
音频信号输入频谱包括多个频谱系数。每个频谱系数具有频谱值和在音频信号输入频谱内的频谱位置。
考虑图8的示例,在该示例中,音频信号输入频谱是由音频信号的MDCT变换而产生的,例如已经对音频信号进行变换以获得音频信号输入频谱的滤波器组可以例如使用1024个通道。那么,每个频谱系数与1024个通道中的一个相关联,并且通道编号(例如,介于0和1023之间的编号)可以被视为所述频谱系数的频谱位置。在图8中,横坐标511指的是频谱系数的频谱位置。为了更好地说明,图8仅图示了具有介于52和148之间的频谱位置的系数。
在图8中,纵坐标512有助于确定频谱系数的频谱值。在描绘MDCT频谱(即音频信号输入频谱的频谱系数的频谱值)的图8的示例中,横坐标512指的是频谱系数的频谱值。应注意,MDCT音频信号输入频谱的频谱系数可以具有正实数和负实数作为频谱值。
然而,其它音频信号输入频谱可以仅具有其频谱值为正或零的频谱系数。例如,音频信号输入频谱可以是由离散傅里叶变换产生的DFT幅度谱,其频谱系数具有表示系数的幅度的频谱值。这些频谱值可以仅为正或零。
在另外的实施方式中,音频信号输入频谱包括其频谱值为复数的频谱系数。例如,表示幅度和相位信息的DFT频谱可以包括其频谱值为复数的频谱系数。
如图8中示例性地所示,频谱系数根据其在音频信号输入频谱内的频谱位置依次被排序,使得频谱系数形成频谱系数序列。每个频谱系数具有一个或更多个前驱和一个或更多个后继中的至少一个,其中,所述频谱系数的每个前驱是在该序列内在所述频谱系数之前的频谱系数中的一个。所述频谱系数的每个后继是在该序列内在所述频谱系数之后的频谱系数中的一个。例如,在图8中,具有频谱位置81、82或83(等等)的频谱系数是具有频谱位置80的频谱系数的后继。具有频谱位置79、78或77(等等)的频谱系数是具有频谱位置80的频谱系数的前驱。对于MDCT频谱的示例,频谱系数的频谱位置可以是该频谱系数所涉及的MDCT变换的通道(例如,介于例如0和1023之间的通道编号)。此外,应注意,出于说明的目的,图8的MDCT频谱510仅图示了介于52与148之间的频谱位置的频谱系数。
返回至图7,现在更详细地描述极值确定器410。极值确定器410被配置成确定一个或更多个极值系数。
一般而言,极值确定器410为了极值系数而对音频信号输入频谱或与音频信号输入频谱有关的频谱进行检查。确定极值系数的目的是:稍后将在音频信号频谱中用伪系数来替代一个或更多个局部音调区,例如,每个音调区用单个伪系数来替代。
一般而言,音频信号输入频谱所涉及的音频信号的功率谱的峰值区域表示音调区。因此,优选的是,可以在音频信号输入频谱所涉及的音频信号的功率谱中识别峰值区域。极值确定器410可以例如检查包括系数的功率谱,该系数可以被称为比较系数(因为其频谱值由极值确定器进行两两比较),使得音频信号输入频谱的频谱系数中的每一个具有与之相关联的比较值。
在图8中,图示了功率谱520。功率谱520和MDCT音频信号输入频谱510涉及同一音频信号。功率谱520包括被称为比较系数的系数。每个频谱系数包括比较值和涉及横坐标521的频谱位置。音频信号输入频谱的每个频谱系数具有与之相关联的比较系数,并且因此,另外具有与之相关联的比较系数的比较值。例如,与音频信号输入频谱的频谱值相关联的比较值可以是具有与音频信号输入频谱的所考虑的频谱系数相同的频谱位置的比较系数的比较值。音频信号输入频谱510的频谱系数中的三个频谱系数与功率谱520的比较系数中的三个比较系数之间的关联(并且因此,与这些比较系数的比较值的关联)由虚线513、514、515表示,这些虚线表示相应的比较系数(或其比较值)与音频信号输入频谱510的相应的频谱系数的关联。
极值确定器410可以被配置成确定一个或更多个极值系数,使得每个极值系数是以下频谱系数中的一个:其比较值大于其前驱中的一个的比较值;以及其比较值大于其后继中的一个的比较值。
例如,极值确定器410可以确定功率谱的局部最大值。换言之,极值确定器410可以被配置成确定一个或更多个极值系数,使得每个极值系数是以下频谱系数中的一个:其比较值大于其直接前驱的比较值;以及其比较值大于其直接后继的比较值。在此,频谱系数的直接前驱是在功率谱中紧接在所述频谱系数之前的频谱系数中的一个。所述频谱系数的直接后继是在功率谱中紧接在所述频谱系数之后的频谱系数中的一个。
然而,其它实施方式不要求极值确定器410确定所有局部最大值。例如,在一些实施方式中,极值确定器可以仅检查功率谱的某些部分如仅与某一频率范围有关的部分。
在其它实施方式中,极值确定器410被配置成仅将这些系数作为极值系数,其中,所考虑的局部最大值的比较值与后续的局部最小值和/或先前的局部最小值的比较值之间的差大于阈值。
极值确定器410可以确定比较频谱上的一个极值或多个极值,其中,将比较频谱的系数的比较值分配给MDCT频谱的MDCT系数中的每一个。然而,与音频信号输入频谱相比,比较频谱可以具有较高的频谱分辨率。例如,比较频谱可以是其频谱分辨率是MDCT音频信号输入频谱的频谱分辨率的两倍的DFT频谱。由此,随后仅将DFT频谱的每秒频谱值分配给MDCT频谱的频谱值。然而,当确定比较频谱的一个极值或多个极值时,可以考虑比较频谱的其它系数。由此,可以将比较频谱的系数确定为以下极值:未将该极值分配给音频信号输入频谱的频谱系数,但是具有直接前驱和直接后继,分别将该直接前驱和该直接后继分配给音频信号输入频谱的频谱系数和该音频信号输入频谱的频谱系数的直接后继。因此,可以认为将(例如高分辨率DFT频谱的)比较频谱的所述极值分配给(MDCT)音频信号输入频谱内的频谱位置,其位于(MDCT)音频信号输入频谱的所述频谱系数与(MDCT)音频信号输入频谱的所述频谱系数的所述直接后继之间。如稍后所说明的,这样的情形可以通过选择伪系数的适当的符号值来进行编码。由此,实现子频点分辨率。
应注意,在一些实施方式中,极值系数不必满足以下要求:极值系数的比较值大于其直接前驱的比较值与其直接后继的比较值。替代地,在上述实施方式中,极值系数的比较值大于其前驱中的一个和其后继中的一个就足够了。考虑如以下情形,其中:
频谱位置 | 212 | 213 | 214 | 215 | 216 |
比较值 | 0.02 | 0.84 | 0.83 | 0.85 | 0.01 |
表格1
在表格1所描述的情形中,极值确定器410可以合理地将在频谱位置214处的频谱系数视为极值系数。频谱系数214的比较值不大于其直接前驱213的比较值(0.83<0.84),并且不大于其直接后继215的比较值(0.83<0.85),但是(显著地)大于其前驱中的另一个(前驱212)的比较值(0.83>0.02),并且(显著地)大于其后继中的另一个(后继216)的比较值(0.83>0.01)。此外,将频谱系数214视为此“峰值区域”的极值似乎是合理的,原因在于:频谱系数位于三个系数213、214、215的中间,与系数212和216的比较值相比,这三个系数213、214、215具有相对大的比较值。
例如,极值确定器410可以被配置成:根据比较系数中的一些或全部来确定所述比较系数的比较值是否大于最靠近所述比较系数的频谱位置的三个前驱的比较值中的至少一个。并且/或者,极值确定器410可以被配置成:根据比较系数中的一些或全部来确定所述比较系数的比较值是否大于最靠近所述比较系数的频谱位置的三个后继的比较值中的至少一个。然后,极值确定器410可以取决于所述确定的结果来决定是否选择所述比较系数。
在一些实施方式中,每个频谱系数的比较值是由音频信号的能量保留变换而产生的另外的频谱(比较频谱)的另外的系数的平方值。
在另外的实施方式中,每个频谱系数的比较值是由音频信号的能量保留变换而产生的另外的频谱的另外的系数的振幅值。
根据实施方式,另外的频谱是离散傅里叶变换频谱,并且其中,能量保留变换是离散傅里叶变换。
根据另外的实施方式,另外的频谱是复数改进的离散余弦变换(CMDCT)频谱,并且其中,能量保留变换是CMDCT。
在另一实施方式中,极值确定器410可以不检查比较频谱,但是替代地,可以检查音频信号输入频谱本身。当音频信号输入频谱本身由能量保留变换而产生时,例如,当音频信号输入频谱是离散傅里叶变换幅度谱时,上述操作可以例如是合理的。
例如,极值确定器410可以被配置成确定一个或更多个极值系数,使得每个极值系数是以下频谱系数中的一个:该频谱系数的频谱值大于其前驱中的一个的频谱值,并且频谱系数的频谱值大于其后继中的一个的频谱值。
在实施方式中,极值确定器410可以被配置成确定一个或更多个极值系数,使得每个极值系数是以下频谱系数中的一个:该频谱系数的频谱值大于其直接前驱的频谱值,并且该频谱系数的频谱值大于其直接后继的频谱值。
此外,该设备包括频谱修改器420,其用于通过将极值系数中的至少一个的前驱或后继的频谱值设置为预定义值来修改音频信号输入频谱,以获得修改的音频信号频谱。频谱修改器420被配置成不将一个或更多个极值系数的频谱值设置成预定义值,或者被配置成用伪系数来替换一个或更多个极值系数中的至少一个,其中,伪系数的频谱值不同于预定义值。
优选地,预定义值可以为零。例如,在图8的修改的(替换的)音频信号频谱530中,很多频谱系数的频谱值已经由频谱修改器420设置成零。
换言之,为了获得修改的音频信号频谱,频谱修改器420会至少将极值系数中的一个的前驱或后继的频谱值设置成预定义值。预定义值可以例如为零。这样的前驱或后继的比较值小于所述极值的比较值。
此外,关于极值系数本身,频谱修改器420将按以下进行:
-频谱修改器420不会将极值系数设置成预定义值,或者:
-频谱修改器420将用伪系数替换极值系数中的至少一个,其中,伪系数的频谱值不同于预定义值。这意味着极值系数中的至少一个的频谱值被设置成预定义值,并且频谱系数中的另一个的频谱值被设置成与预定义值不同的值。这样的值可以例如从以下频谱值中导出:所述极值系数的频谱值、所述极值系数的前驱中的一个的频谱值或者所述极值系数的后继中的一个的频谱值。或者,这样的值可以例如从以下比较值中导出:所述极值系数的比较值、所述极值系数的前驱中的一个的比较值,或者所述极值系数的后继中的一个的比较值。
频谱修改器420可以例如被配置成用伪系数替换极值系数中的一个,该伪系数的频谱值从以下中导出:所述极值系数的频谱值或比较值、所述极值系数的前驱中的一个的频谱值或比较值或者所述极值系数的后继中的一个的频谱值或比较值。
此外,该设备包括处理单元430,其用于对修改的音频信号频谱进行处理,以获得编码音频信号频谱。
例如,处理单元430可以是任何类型的音频编码器,例如以下:MP3(MPEG-1音频层III或MPEG-2音频层III;MPEG=运动图像专家组)音频编码器、用于WMA(视窗媒体音频)的音频编码器、用于WAVE文件的音频编码器或MPEG-2/4AAC(高级音频编码)音频编码器或MPEG-D USAC(统一速度和音频编码)编码器。
处理单元430可以例如是如[8](ISO/IEC 14496-3:2005-信息技术-音频视觉对象编码-第三部分:音频,第四子部分)或者如[9](ISO/IEC14496-3:2005-信息技术-音频视觉对象编码-第三部分:音频,第四子部分)中所描述的音频编码器。例如,例如如[8]中所描述的,处理单元430可以包括量化器和/或时间噪声整形工具,和/或例如如[8]中所描述的,处理单元430可以包括感知噪声替代工具。
此外,该设备包括用于生成并传输边信息的边信息生成器440。边信息生成器440被配置成在由频谱修改器420生成的修改的音频信号输入频谱内找出一个或更多个伪系数候选者。此外,边信息生成器440被配置成选择伪系数候选者中的至少一个作为所选择的候选者。此外,边信息生成器440被配置成生成边信息,使得边信息将所选择的候选者表示为伪系数。
在图7所示的实施方式中,边信息生成器440被配置成通过频谱修改器420接收伪系数的位置(例如每个伪系数的位置)。此外,在图7的实施方式中,边信息生成器440被配置成接收伪系数候选者的位置(例如每个伪系数候选者的位置)。
例如,在一些实施方式中,处理单元430可以被配置成基于经量化的音频信号频谱来确定伪系数候选者。在实施方式中,处理单元430可能已经通过对修改的音频信号频谱进行量化来生成量化的音频信号频谱。例如,处理单元430可以将以下量化的音频信号频谱的至少一个频谱系数确定为伪系数候选者:该频谱系数具有其频谱值等于预定义值(例如等于0)的直接前驱,并且具有其频谱值等于预定义值的直接后继。
替代地,在其它实施方式中,处理单元430可以将量化的音频信号频谱传递至边信息生成器440,并且边信息生成器440本身可以基于量化的音频信号频谱来确定伪系数候选者。根据其它实施方式,基于修改的音频信号频谱以替代方式来确定伪系数候选者。
由边信息生成器生成的边信息可以具有不变的预定义大小,或者其大小可以以信号自适应方式进行迭代地估计。在这种情况下,边信息的实际大小也被传输至解码器。因此,根据实施方式,边信息生成器440被配置成传输边信息的大小。
根据实施方式,极值确定器410被配置成检查比较系数如图8中的功率谱520的系数,并且被配置成确定一个或更多个最小系数,使得每个最小系数是以下频谱系数中的一个:该频谱系数的比较值小于其前驱中的一个的比较值,并且其比较值小于其后继中的一个的比较值。在这样的实施方式中,频谱修改器420可以被配置成基于极值系数中的一个或更多个的比较值和最小系数中的一个或更多个的比较值来确定代表值,使得该代表值不同于预定义值。此外,频谱修改器420可以被配置成通过将所述频谱值设置成代表值来改变音频信号输入频谱的系数中的一个的频谱值。
在特定实施方式中,极值确定器被配置成检查比较系数如图8中的功率谱520的系数,并且被配置成确定一个或更多个最小系数,使得每个最小系数是以下频谱系数中的一个:该频谱系数的比较值小于其直接前驱的比较值,并且其比较值小于其直接后继的比较值。
替代地,极值确定器410被配置成检查音频信号输入频谱510本身,并且被配置成确定一个或更多个最小系数,使得一个或更多个最小系数中的每一个是以下频谱系数中的一个:该频谱系数的频谱值小于其前驱中的一个的频谱值,并且其频谱值小于其后继中的一个的频谱值。在这样的实施方式中,频谱修改器420可以被配置成基于极值系数中的一个或更多个的频谱值和最小系数中的一个或更多个的频谱值来确定代表值,使得该代表值不同于预定义值。此外,频谱修改器420可以被配置成通过将所述频谱值设置成代表值来改变音频信号输入频谱的系数中的一个的频谱值。
在特定实施方式中,极值确定器410被配置成检查音频信号输入频谱510本身,并且被配置成确定一个或更多个最小系数,使得一个或更多个最小系数中的每一个是以下频谱系数中的一个:该频谱系数的频谱值小于其直接前驱的频谱值,并且其频谱值小于其直接后继的频谱值。
在这两个实施方式中,频谱修改器420考虑最小系数中的一个或更多个和极值系数(具体为它们相关联的比较值或它们的频谱值)来确定代表值。然后,将音频信号输入频谱的频谱系数中的一个的频谱值设置成该代表值。对于频谱系数而言,其频谱值被设置成代表值的频谱系数可以例如是极值系数本身,或者,其频谱值被设置成代表值的频谱系数可以是替换极值系数的伪系数。
在实施方式中,极值确定器410可以被配置成确定频谱值序列的一个或更多个子序列,使得子序列中的每一个包括音频信号输入频谱的多个后续频谱系数。后续频谱系数根据其频谱位置在子序列内被依次排序。每个子序列具有在所述依次排序的子序列中为第一的第一元素和在所述依次排序的子序列中为最后的最后元素。
在特定实施方式中,每个子序列可以例如包括最小系数中的恰好两个和极值系数中的恰好一个,其中最小系数中的一个为子序列的第一元素,最小系数中的另一个为子序列的最后元素。
在实施方式中,频谱修改器420可以被配置成基于子序列中的一个的系数的频谱值或比较值来确定代表值。例如,如果极值确定器410已经检查了如功率谱520的比较频谱的比较系数,则频谱修改器420可以被配置成基于子序列中的一个的系数的比较值来确定代表值。然而,如果极值确定器410已经检查了音频信号输入频谱510的频谱系数,则频谱修改器420可以被配置成基于子序列中的一个的系数的频谱值来确定代表值。
频谱修改器420被配置成通过将所述频谱值设置成代表值来改变所述子序列的系数中的一个的频谱值。
表格2提供了具有频谱位置252至258处的五个频谱系数的示例。
频谱位置 | 252 | 253 | 254 | 255 | 256 | 257 | 258 |
比较值 | 0.12 | 0.05 | 0.48 | 0.73 | 0.45 | 0.03 | 0.18 |
表格2
极值确定器410可以确定频谱系数255(具有频谱位置255的频谱系数)是极值系数,因为频谱系数255的比较值(0.73)大于其(在此为直接)前驱254的比较值(0.48),并且因为其比较值(0.73)大于其(在此为直接)后继256的比较值(0.45)。
此外,极值确定器410可以确定频谱系数253是最小系数,因为频谱系数253的比较值(0.05)小于其(在此为直接)前驱252的比较值(0.12),并且因为其比较值(0.05)小于其(在此为直接)后继254的比较值(0.48)。
此外,极值确定器410可以确定频谱系数257是最小系数,因为频谱系数257的比较值(0.03)小于其(在此为直接)前驱256的比较值(0.45),并且因为其比较值(0.03)小于其(在此为直接)后继258的比较值(0.18)。
因此,极值确定器410可以通过以下操作来确定包括频谱系数253至257的子序列:确定频谱系数255是极值系数;将频谱系数253确定为最小系数,该最小系数是最靠近极值系数255的前面的最小系数;以及将频谱系数257确定为最小系数,该最小系数是最靠近极值系数255的后面的最小系数。
现在,频谱修改器420可以基于所有频谱系数253至257的比较值来确定子序列253至257的代表值。
例如,频谱修改器420可以被配置成对该子序列的所有频谱系数的比较值进行求和。(例如,对于表格2,子序列253至257的代表值则合计成:0.05+0.48+0.73+0.45+0.03=1.74)。
或者,例如,频谱修改器420可以被配置成对该子序列的所有频谱系数的比较值的平方进行求和。(例如,对于表格2,子序列253至257的代表值则合计成:(0.05)2+(0.48)2+(0.73)2+(0.45)2+(0.03)2=0.9692)。
或者,例如,频谱修改器420可以被配置成对子序列253至257的所有频谱系数的比较值的平方和进行求平方根。(例如,对于表格2,代表值则为0.98448)。
根据一些实施方式,频谱修改器420会将极值系数的频谱值(在表格2中,频谱系数253的频谱值)设置成预定义值。
然而,其它实施方式使用重心法。表格3图示了包括频谱系数282至288的子序列:
频谱位置 | 281 | 282 | 283 | 284 | 285 | 286 | 287 | 288 | 289 |
比较值 | 0.12 | 0.04 | 0.10 | 0.20 | 0.93 | 0.92 | 0.90 | 0.05 | 0.15 |
表格3
虽然极值系数位于频谱位置285处,但是根据重心法,重心位于不同的频谱位置。
为了确定重心的频谱位置,极值确定器410对子序列的所有频谱系数的加权频谱位置进行求和,然后将上述结果除以子序列的频谱系数的比较值的总和。然后,可以对除法的结果使用四舍五入来确定重心。频谱系数的加权频谱位置是其频谱位置与其比较值的乘积。
简而言之,极值确定器可以通过以下来获得重心:
1)针对子序列的每个频谱系数确定比较值与频谱位置的乘积;
2)对1)中所确定的乘积进行求和,以获得第一总和;
3)对子序列的所有频谱系数的比较值进行求和,以获得第二总和;
4)将第一总和除以第二总和,以生成中间结果;以及
5)对中间结果应用舍入至最接近的四舍五入来获得重心(舍入至最接近的四舍五入:将8.49四舍五入为8;将8.5四舍五入为9)。
因此,对于表格3的示例,通过以下来获得重心:
(0.04·282+0.10·283+0.20·284+0.93·285+0.92·286+0.90·287+0.05·288)/(0.04+0.10+0.20+0.93+0.92+0.90+0.05)=897.25/3.14=285.75=286。
因此,在表格3的示例中,极值确定器410会被配置成将频谱位置286确定为重心。
在一些实施方式中,极值确定器410不检查完整的比较频谱(例如功率谱520)或不检查完整的音频信号输入频谱。替代地,极值确定器410可以仅检查部分的比较频谱或音频信号输入频谱。
图9图示了这样的示例。在该示例中,已经由极值确定器410在系数55处开始检查功率谱620(作为比较频谱)。尚未检查小于55的频谱位置处的系数。因此,小于55的频谱位置处的频谱系数在替代的MDCT频谱630中保持未修改。相比之下,图8图示了其中已经由频谱修改器420对所有MDCT频谱线进行修改的替代的MDCT频谱530。
因此,频谱修改器420可以被配置成对音频信号输入频谱进行修改,使得音频信号输入频谱的频谱系数中的至少一些的频谱值未经修改而留下。
在一些实施方式中,频谱修改器420被配置成确定极值系数中的一个的比较值或频谱值中的一个之间的值差是否小于阈值。在这样的实施方式中,频谱修改器420被配置成取决于该值差是否小于阈值来修改音频信号输入频谱,使得音频信号输入频谱的频谱系数中的至少一些的频谱值在修改的音频信号频谱中未经修改而留下。
例如,在实施方式中,频谱修改器420可以被配置成不修改或不替换所有极值系数,而是替代地仅修改或替换极值系数中的一些。例如,当极值系数(例如局部最大值)的比较值与后续的和/或前面的最小值的比较值之间的差小于阈值时,可以确定频谱修改器不修改这些频谱值(以及如在其之间的频谱系数的频谱值),但是替代地,在修改的(替代的)MDCT频谱630中留下这些频谱值而未经修改。在图9的修改的MDCT频谱630中,在未修改的(替代的)频谱630中频谱修改器已经留下频谱系数100至112的频谱值和频谱系数124至136的频谱值而未经修改。
处理单元还可以被配置成对修改的(替代的)MDCT频谱630的系数进行量化,以获得量化的MDCT频谱635。
根据实施方式,频谱修改器420可以被配置成接收微调信息。音频信号输入频谱的频谱系数的频谱值可以是带符号的值,每个频谱值包括符号成分。频谱修改器可以被配置成:当微调信息处于第一微调状态下时,将一个或更多个极值系数中的一个的符号成分或伪系数的符号成分设置成第一符号值。此外,频谱修改器可以被配置成:当微调信息处于不同的第二微调状态下时,将一个或更多个极值系数中的一个的频谱值的符号成分或伪系数的符号成分设置成不同的第二符号值。
例如,在表格4中,
频谱位置 | 291 | 301 | 321 | 329 | 342 | 362 | 388 | 397 | 405 |
频谱值 | +0.88 | -0.91 | +0.79 | -0.82 | +0.93 | -0.92 | -0.90 | +0.95 | -0.92 |
微调状态 | 第一 | 第二 | 第一 | 第二 | 第一 | 第二 | 第二 | 第一 | 第二 |
表格4
频谱系数的频谱值表示的是:频谱系数291处于第一微调状态下,频谱系数301处于第二微调状态下,频谱系数321处于第一微调状态下等。
例如,返回至上面所说明的重心确定,如果重心在两个频谱位置之间(例如近似在中间),则频谱修改器可以设置符号,使得表示第二微调状态。
根据实施方式,处理单元430可以被配置成对修改的音频信号频谱进行量化,以获得经量化的音频信号频谱。此外,处理单元430还可以被配置成对经量化的音频信号频谱进行处理以获得编码音频信号频谱。
此外,处理单元430还可以被配置成生成边信息,该边信息仅针对以下量化的音频信号频谱的频谱系数来表示所述系数是否为极值系数中的一个:这些频谱系数具有其频谱值等于预定义值的直接前驱和其频谱值等于预定义值的直接后继。
可以由极值确定器410向处理单元430提供这样的信息。
例如,这样的信息可以由处理单元430存储在位字段中,其针对以下量化的音频信号频谱的每个频谱系数来表示所述系数是否为极值系数中的一个(例如通过比特值1)或所述系数是否不是极值系数中的一个(例如通过比特值0):该频谱系数具有其频谱值等于预定义值的直接前驱和其频谱值等于预定义值的直接后继。在实施方式中,解码器稍后可以使用该信息来恢复音频信号输入频谱。位字段可以具有固定的长度或信号自适应选取长度。在后一种情况下,可以另外将位字段的长度传送至解码器。
例如,由处理单元430生成的位字段[000111111]可以表示的是:在(依次排序的)(量化的)音频信号频谱中出现的前三个“独立的”系数(其频谱值不等于预定义值,但是其前驱的频谱值和其后继的频谱值等于预定义值)不是极值系数,但接下来的六个“独立的”系数是极值系数。该位字段描述了在图9的量化的MDCT频谱635中可以看到的情形,其中前三个“独立的”系数5、8、25不是极值系数,但是其中接下来的六个“独立的”系数59、71、83、94、116、141是极值系数。
同样地,所述频谱系数的直接前驱是量化的音频信号频谱内的紧接在所述频谱系数之前的另一频谱系数,并且所述频谱系数的直接后继是量化的音频信号频谱内的紧接在所述频谱系数之后的另一频谱系数。
在低比特率的情况下,所提出的概念基于变换编解码器提高了传统块的感知质量。提出的是:在音频信号频谱中用伪线(也被称为伪系数)替代跨越相邻的局部最小值、包括局部最大值的局部音调区,在一些实施方式中,所述伪线具有与要被替代的所述区类似的能量或电平。
在低比特率的情况下,实施方式提供以下概念:如何紧密地整合波形编码与参数化编码,以获得相比于单一技术而言提高的感知质量以及感知质量与比特率之间改进的调整。
在一些实施方式中,可以各自由单一正弦曲线来完全替代频谱的峰值区域(跨越相邻的局部最小值、包括局部最大值);与从残差中迭代地减去合成的正弦曲线的正弦编码器相反。在平滑且略微白化的频谱表示上提取适当的峰值区域,并且考虑到某些特征(峰值高度、峰值形状)来选择适当的峰值区域。
根据一些实施方式,这些替代正弦曲线可以被表示为频谱内的要进行编码的伪线(伪系数),并且反映正弦曲线的满振幅或能量(与之相反的,例如,常规MDCT线对应于真值的实际投射)。
根据一些实施方式,伪线(伪系数)可以因此由边信息标志阵列来标记。
在一些实施方式中,伪线的符号的选择可以表示半子频带频率分辨率。
根据一些实施方式,由于有限的频率分辨率(例如半子频带),正弦替代的较低截止频率可能是可取的。
在下文中,提供了基于编码音频信号生成音频输出信号的概念。这些概念在MDCT域中实现正弦曲线和扫描的有效合成。
图1a图示了根据实施方式的基于编码音频信号频谱来生成音频输出信号的设备。
该设备包括处理单元115,其用于对编码音频信号频谱进行处理,以获得包括多个频谱系数的解码音频信号频谱,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置被依次排序,使得频谱系数形成频谱系数序列。
此外,该设备包括伪系数确定器125,其用于确定解码音频信号频谱的一个或更多个伪系数,其中,每个伪系数是频谱系数中的一个(因为每个伪系数是频谱系数中的一个,所以每个伪系数具有频谱位置和频谱值)。
此外,该设备包括替换单元135,其用于用确定的频谱模式替换至少一个或更多个伪系数,以获得修改的音频信号频谱,其中,确定的频谱模式包括至少两个模式系数,其中,至少两个模式系数中的每一个具有频谱值。
例如,在一些实施方式中,替换单元135可以从存储单元获得频谱模式作为获得的频谱模式,其中,存储单元包括该设备,并且其中,存储单元包括数据库或存储器。在其它实施方式中,替换单元135可以例如从远程单元如位于远离该设备的远程数据库获得频谱模式。在另外的实施方式中,将在传输过程中(当需要时处于运行状态)以分析的方式生成模式。然后,可以将获得的频谱模式用作确定的频谱模式。或者,可以例如通过修改获得的频谱模式而从获得的频谱模式得到确定的频谱模式。
此外,该设备包括频谱时间转换单元145,其用于将修改的音频信号频谱转换至时域来获得音频输出信号。
图1b图示了根据另一实施方式的基于编码音频信号频谱生成音频输出信号的设备。图1b的设备与图1a的实施方式的设备的不同之处在于:其还包括本身包括数据库或存储器的存储单元155。
具体地,图1b的实施方式的设备还包括存储单元155,该存储单元155包括数据库或存储器,该数据库内或该存储器内存储有多个存储的频谱模式。每个存储的频谱模式具有频谱特性(例如每个在频点或频点间位置版本中的恒定频率、扫描频率等)。替换单元135被配置成向存储单元155请求存储的频谱模式中的一个作为请求的频谱模式。存储单元155被配置成提供所述请求的频谱模式。此外,替换单元135被配置成基于请求的频谱模式用确定的频谱模式替换至少一个或更多个伪系数。
在优选实施方式中,存储的频谱模式尚未针对特定频率而进行存储。这将需要大量的存储器。因此,仅将每个模式(例如,恒定的频点上模式、恒定的频点间模式以及针对各种扫描的一些模式)存储一次。然后,向例如数据库请求该一般模式被适配至目标频率如被适配至目标频率8200Hz,请求该一般模式被适配至要求的相位(例如0弧度),并且接着在目标频谱位置处对其进行修补。
在实施方式中,替换单元135被配置成取决于第一导出频谱位置向存储单元155请求存储的频谱模式中的一个,该第一导出频谱位置是从由伪系数确定器125确定的一个或更多个伪系数中的至少一个而导出的。例如,该请求取决于模式的性质(恒定、扫描等),并且模式适配取决于频谱位置以及在正弦轨迹内的前驱或正弦轨迹的以信号自适应方式确定的起始相位。
在一种实施方式中,从一个或更多个伪系数中的至少一个导出的第一导出频谱位置可以是伪系数中的一个的频谱位置。
在另一实施方式中,一个或更多个伪系数是带符号的值,每个伪系数包括符号成分,并且替换单元135被配置成基于一个或更多个伪系数中的一个伪系数的频谱位置且基于所述伪系数的符号成分来确定第一导出频谱位置,使得当该符号成分具有第一符号值时,第一导出频谱位置等于所述伪系数的频谱位置,并且使得当该符号成分具有不同的第二值时,第一导出频谱位置等于修改的位置,该修改的位置是通过将所述伪系数的频谱位置偏移预定义值而产生的。
例如,伪线的二分之一频点频率分辨率可以通过所述伪系数的符号用信号发送。当伪系数的符号成分具有第二符号值时,所述伪系数的频谱位置所偏移的预定义值则可以对应于频率差的二分之一,例如当考虑时频域时,该频率差如为两个后续频点的频率差。
在特定实施方式中,伪系数125确定器被配置成确定解码音频信号频谱的两个或更多个时间上连续的伪系数。替换单元135被配置成:取决于从第一伪系数导出的第一导出频谱位置与从第二伪系数导出的第二导出频谱位置之间的绝对差是否小于阈值,将两个或更多个时间上连续的伪系数中的第一伪系数和第二伪系数分配给轨迹。存储在存储单元的存储器或数据库内的多个存储的频谱模式可以是固定音调模式或频率扫描模式。然后,替换单元135可以被配置成:当从该轨迹的第一伪系数导出的第一导出频谱位置等于从该轨迹的第二伪系数导出的第二导出频谱位置时,向存储单元155请求固定音调模式中的一个。此外,替换单元135可以被配置成:当从该轨迹的第一伪系数导出的第一导出频谱位置不同于从该轨迹的第二伪系数导出的第二导出频谱位置时,向存储单元155请求频率扫描模式中的一个。
例如,从该轨迹的第一伪系数导出的第一导出频谱位置可以是第一伪系数的频谱位置。例如,从该轨迹的第二伪系数导出的第二导出频谱位置可以是第二伪系数的频谱位置。
例如,可以将伪系数分配给多个时间频率频点中的一个,或分配给两个时间频率频点间的中间频率位置,例如,分配给时间频率频点(n,k),其中,n表示时间,并且其中,k表示频率。伪系数的时间频率频点的频率或两个时间频率频点间的频率位置则可以表示伪系数的频谱位置。当接收到时间频率频点(n,k)时,替换单元135将核查其是否已经接收到分配给以下时间频率频点的伪系数:该时间频率频点在时间(n-1)处紧接在当前伪系数的时间频率频点之前,并且等于或接近当前伪系数的时间频率频点的频率(等于或接近k)。然后,替换单元135将两个伪系数分配给轨迹。
例如,在两个频率的绝对频率差小于阈值的情况下(例如,在将频率索引视为频率的情况下,在绝对差小于2的情况下),可以认为具有在时间上紧接在当前时间频率频点之前的时间频率频点的伪系数接近当前时间频率频点的频率。
在轨迹的两个伪系数具有相同的频谱位置的情况下,替换单元135将这视为存在固定音调的迹象,并且请求具有相应的频率的固定音调模式。
然而,在轨迹的频谱系数的频谱位置不同的情况下,替换单元135将这视为存在扫描的迹象,并且向存储单元155请求频率扫描模式。在轨迹内由前面的伪系数的频谱位置表示的频率则可以表示扫描模式的起始频率,并且在轨迹内由当前伪系数的频率位置表示的频率则可以表示扫描模式的目标频率。
根据实施方式,替换单元135可以被配置成:当轨迹的第二伪系数与轨迹的第一伪系数之间的频率差等于预定义值的二分之一时,向存储单元请求频率扫描模式中的第一频率扫描模式。
此外,替换单元135可以被配置成:当轨迹的第二伪系数与轨迹的第一伪系数之间的频率差等于预定义值时,向存储单元请求频率扫描模式中的第二频率扫描模式,其不同于第一频率扫描模式。
此外,替换单元135可以被配置成:当轨迹的第二伪系数与轨迹的第一伪系数之间的频率差等于预定义值的1.5倍时,向存储单元请求频率扫描模式中的第三频率扫描模式,其不同于第一扫描模式和第二频率扫描模式。
例如,预定义值可以为两个时间上连续的时间频率频点之间的频率差。因此,在这样的实施方式中,提供了扫描模式,其中,起始频率与目标频率之间的频率差相差1/2倍频率频点差,相差1.0倍频率频点差,以及相差3/2倍频率频点差。
图1c图示了根据实施方式的设备,其中,替换单元135包括模式适配单元138,其被配置成修改由存储单元155提供的请求的频谱模式,以获得确定的频谱模式。
在实施方式中,模式适配单元138可以被配置成:取决于一个或更多个伪系数中的一个的频谱值,通过重新调整请求的频谱模式的模式系数的频谱值来修改由存储单元155提供的请求的频谱模式,以获得确定的频谱模式。然后,频谱替换单元135被配置成用确定的频谱模式替换至少一个或更多个伪系数,以获得修改的音频信号频谱。因此,根据该实施方式,可以取决于伪系数的频谱值来调整请求的频谱模式的模式系数的频谱值的大小。
根据实施方式,模式适配单元138可以被配置成:取决于起始相位来修改由存储单元提供的请求的频谱模式,使得当起始相位具有第一起始相位值时,以第一方式来修改请求的频谱模式的模式系数中的每一个的频谱值,并且使得当起始相位具有不同的第二起始相位值时,以不同的第二方式来修改请求的频谱模式的模式系数中的每一个的频谱值。通过调整轨迹模式的相位,可以实现从轨迹的一个模式至下一个模式的无缝转换。
根据实施方式,请求的频谱模式的模式系数中的每一个的频谱值是包括实部和虚部的复数系数。模式适配单元138可以被配置成:通过修改由存储单元155提供的请求的频谱模式的模式系数中的每一个的实部和虚部来修改请求的频谱模式,使得针对每个复数系数,将表示复数平面中的所述复数系数的向量旋转对于每个复数系数而言相同的角度。替代地,可以通过应用复数旋转因子来旋转存储模式的相位,其中为任意相位角。
在特定实施方式中,请求的频谱模式的模式系数中的每一个的频谱值包括实部和虚部。在这样的实施方式中,模式适配单元138可以被配置成通过以下操作来修改由存储单元155提供的请求的频谱模式:对请求的频谱模式的模式系数中的每一个的频谱值的实部和虚部进行求反,或者将请求的频谱模式的模式系数中的每一个的频谱值的实部或求反的实部与虚部或求反的虚部进行交换。
在实施方式中,模式适配单元138可以被配置成通过实现该模式的时间镜像来修改由存储单元155提供的请求的频谱模式。通常,这可以通过计算该模式的复共轭(通过将虚部乘以-1)和应用复数相位项(转动)而在频域中获得。
根据实施方式,解码音频信号频谱在MDCT域中表示。在这样的实施方式中,模式适配单元138则被配置成:通过修改请求的频谱模式的模式系数的频谱值来修改由存储单元155提供的请求的频谱模式,以获得修改的频谱模式,其中,频谱值在奇数堆叠式离散傅里叶变换域中表示。此外,在这样的实施方式中,模式适配单元138被配置成将修改的频谱模式的模式系数的频谱值从奇数堆叠式离散傅里叶变换域变换至MDCT域,以获得确定的频谱模式。此外,在这样的实施方式中,替换单元135被配置成:用MDCT域中表示的确定的频谱模式替换至少一个或更多个伪系数,以获得在MDCT域中表示的修改的音频信号频谱。
替代地,在实施方式中,频谱值可以在复数改进的离散余弦变换(CMDCT)域中表示。此外,在这些实施方式中,模式适配单元138可以被配置成:仅仅通过提取复数修改的模式的实部来将修改的频谱模式的模式系数的频谱值从CMDCT域变换至MDCT域,以获得确定的频谱模式。
图1d图示了根据实施方式的用于生成多个频谱模式的设备。
该设备包括信号生成器165,其用于在第一域中生成多个信号。
此外,该设备包括信号变换单元175,其用于将多个信号中的每个信号从第一域变换至第二域以获得多个频谱模式,多个变换的频谱模式中的每个模式包括多个系数。
此外,该设备包括后处理单元185,其用于通过移除变换的频谱模式的系数中的一个或更多个来截断变换的频谱模式,以获得多个处理的模式。
此外,该设备包括存储单元195,其包括数据库或存储器,其中,存储单元195被配置成将多个处理的模式中的每个处理的模式存储在数据库或存储器中。
信号生成器165被配置成基于以下公式来生成多个信号中的每个信号:
以及
其中,t和τ表示时间,其中,是在t处的瞬时相位,并且其中,f(τ)是在τ处的瞬时频率,其中,多个信号中的每个信号具有起始频率(f0)和目标频率(f1),起始频率(f0)是所述信号在第一时间点处的瞬时频率,目标频率(f1)是所述信号在不同的第二时间点处的瞬时频率。
信号生成器165被配置成生成多个信号中的第一信号,使得第一信号的目标频率(f1)等于起始频率(f0)。此外,信号生成器165被配置成生成多个信号中的不同的第二信号,使得第一信号的目标频率(f1)不同于起始频率(f0)。
根据实施方式,信号变换单元175被配置成将多个信号中的每个信号从第一域变换至第二域,第一域是时域,第二域是频谱域。信号变换单元175被配置成生成用于变换所述信号的多个时间块中的第一时间块,其中,多个时间块中的每个时间块包括多个加权的样本,其中,所述加权的样本中的每个是通过多个权重中的一个权重来加权的所述信号的信号样本,其中,将多个权重分配给所述时间块,并且其中,将多个权重中的每个权重分配给时间点。多个信号中的每个信号的起始频率(f0)是所述信号在第一时间点处的瞬时频率,其中,将时间块中的第一时间块的权重中的第一权重分配给第一时间点,其中,将时间块中的不同的第二时间块的权重中的第二权重分配给第一时间点,其中,时间块中的第一时间块与时间块中的第二时间块交叠,并且其中,权重中的第一权重等于权重中的第二权重。多个信号中的每个信号的目标频率(f1)是所述信号在第二时间点处的瞬时频率,其中,将时间块中的第一时间块的权重中的第三权重分配给第二时间点,其中,将时间块中的不同的第三时间块的权重中的第四权重分配给第二时间点,其中,时间块中的第一时间块与时间块中的第三时间块交叠,并且其中,权重中的第三权重等于权重中的第四权重。
例如,图6a图示了示例,其中,第一时间点由n0表示,而第二时间点由n1表示。交叠块由块L和块L+1图示。权重分别由块L中的曲线和块L+1中的曲线图示。
应注意,例如,对于模式的生成而言,仅生成一个时间块(例如时间块中的第一时间块)就足够了。
根据实施方式,多个信号中的每个信号具有起始相位和目标相位起始相位是所述信号在第一时间点处的相位,目标相位是所述信号在不同的第二时间点处的相位,其中,信号生成器(165)被配置成生成多个信号,使得多个信号中的第一信号的起始相位等于多个信号中的不同的第二信号的起始相位
在所述起始时间点和终止时间点对多个信号中的每个信号的起始相位(以及目标(终止)相位,其通过对起始频率和终止频率的选择而暗示)进行调整。
通过对第一(起始)时间点和第二(终止)时间点的这种特殊选择,减少了在将具有不同频谱特性的模式进行链接的情况下可能发生的交叠相加的伪声。
在实施方式中,后处理单元185还可以被配置成对变换的频谱模式中的每一个的频谱系数进行π/4的旋转,以获得多个旋转的频谱模式。
根据另外的实施方式,信号生成器165可以被配置成生成第一信号、第二信号以及一个或更多个另外的信号来作为多个信号,使得所述另外的信号中的每一个的目标频率与起始频率的各个差是第二信号的目标频率与起始频率的差的整数倍。
例如,第二信号的目标频率与起始频率的频率差可以对应于二分之一频点频率差,如当考虑时间频率频点时的两个后续频点的频率差的二分之一的频率差。另外的第三信号的目标频率与起始频率的频率差可以对应于一个频点频率差,如当考虑时间频率频点时的对应于两个后续频点的一个频率差的频率差。另外的第四信号的目标频率与起始频率的频率差可以对应于1.5倍频点频率差,如当考虑时间频率频点时的对应于两个后续频点的频率差的1.5倍的频率差。
因此,第三信号的目标频率与起始频率的差和第二信号的目标频率与起始频率的差的比率是2.0(整数值)。第四信号的目标频率与起始频率的差和第二信号的目标频率与起始频率的差的比率是3.0(整数值)。
在提供对具体实施方式的更详细的描述之前,为了更好地说明,对MDCT原理进行了描述。
对于长度为N的由时间l处的w(n)加窗的信号段(即, ),实际信号x(n)的MDCT的定义如下:
(m+1/2)中的+1/2表示频率偏移。(n+1/2+M/2)表示时间偏移。
将逆变换写成:
MDCT可以被视为复数改进的离散余弦变换(CMDCT)的实部,将CMDCT定义为:
此外,可以将CMDCT表示为奇数堆叠式离散傅里叶变换(ODFT)或离散傅里叶变换(DFT)以及指数预转动相位项和指数后转动相位项:
表示通过后转动的时间偏移。
在下文中,对MDCT域中音调模式的提取和修补进行描述。现在,针对特定的MDCT特别之处来提供一些说明。具体地,首先考虑MDCT的规定。
如从包括指数型所谓的后转动项的方程式4可以看出的那样,与DFT或ODFT相比,CMDCT具有时间偏移的基函数。因此,如果期望将修补的正弦曲线的绝对相位偏移与修补应用的实际频谱位置解耦,则应该考虑这种转动。
在与MDCT系数混合之前,实施方式在ODFT域中进行模式提取和修补,并且通过应用所述转动来对所有模式的叠加进行后处理。
通过提取根据下面的方程生成的原型正弦曲线或扫描的截断复数ODFT频谱来获得每个修补。可以将具有变化的瞬时频率(IF)f(t)的正弦曲线合成为
其中,瞬时相位为
为了简单描述时间离散MDCT与时间连续的正弦曲线之间的关系,在下文中假定归一化采样率fs=1。选择扫描模板的瞬时频率(IF)f(τ),使得分别在长度为N的每个MDCT时间块的时域混叠消除(TDAC)对称点t0=N/4+0.5和t1=3N/4+0.5处恰好达到起始IF和目标IF。在长度为M=N/2的时间间隔中,跨越频率范围Δf=f1–f0的从频率f0至f1的线性扫描具有以下瞬时频率(IF):
其引起了以下瞬时相位:
通过选择和可以产生具有双倍分辨率(与将被用于模式合成的MDCT相比)的起始频率和终止频率的正弦曲线,其中频率偏移m是以变换频点索引来测量的。奇数索引对应于“频点上”频率,并且偶数索引给出“频点间”频率。可以将后续帧之间的相位进展计算为:
这表示:为了对模式进行无缝时间链接,应当取决于前面的模式的起始频率索引k和频率偏移索引m来将每个修补的相位调整的整数倍。变量m也可以被视为扫描速率,其中如m=1表示在一个时间块的持续时间上的二分之一频点扫描。
此外,可以进行对整数频点频谱偏移的补偿。有利地,将这些原型正弦曲线或扫描的频谱位置选择为位于频谱的中间,以便使循环折叠误差最小化。为了一直获得独立于修补目标位置的预定义的固定相位,根据修补目标位置和原型正弦曲线的频谱距离d,通过dπ/2的后处理旋转对该修补进行适配。换言之,后处理旋转对内在地由频谱偏移引起的不需要的相位旋转进行补偿。
现在提供对效率和准确度的考量。首先,考虑计算效率:
表格I提供了用于实现不同的后转动的运算。为了保持要被存储的模式的量合理地小,并且最重要地,为了能够利用可以通过表格I中列出的运算来得到进行π的某些简单分数的旋转的事实,应该限制可能的频率和扫描。
表格I
(用于简单旋转的运算)
在下文中,考虑频率分辨率。同时要求这些限制来允许对参数化编码的信号部分的感知上令人满意的再现。由于这样的信号部分可以包括音调模式的任意时间序列,所以每个另外的自由度使要存储的模式的数量倍增,或者替代地,使用于模式适配的计算成本倍增。因此,选择频谱分辨率以使得一般听者在预期目标频谱范围中不会感知到失谐效果是很有道理的。
受过训练的听者和音乐人能够感知低至5分的失谐,一般听者可以接受约10分(半音调的十分之一)的偏差。因此,应当仅在某一截止频率以上完成正弦音调的频谱替换,该截止频率对应于所允许的失谐的最坏情况。例如,在512个频带的MDCT中,在12.8kHz的采样频率下,每个频带的频谱分辨率是12.5Hz。针对音调模式选择半频带分辨率,最大频率偏差等于3.125Hz,其在约540Hz的截止频率以上等于或低于10分。
现在考虑模式大小。根据实施方式,截断要存储的模式。模式的实际大小取决于可允许的信噪比(SNR)和通常已由变换编码器确定的窗口类型(例如用于AAC的正弦窗口或凯塞-贝塞尔(Kaiser-Bessel)导出(KBD)窗口)。虽然存储复数值模式,但是仅使用适当旋转的模式的实部来完成实际的修补。
在下文中,考虑音调模式。首先描述固定音调模式。
出于上面提及的原因,应将频谱分辨率选择为MDCT的标称分辨率的两倍。因此,需要存储所有模式的两个版本,一个针对具有与频点位置(频点上的模式)一致的频率的正弦曲线,而一个针对位于频点位置之间(频点间模式)的频率。为了最小可能的存储器要求,可以通过仅存储实际模式的系数的二分之一来利用模式对称性。
根据等式9(设置m=0),在这些固定音调模式的任何时间序列中,对于频点上模式而言,包裹相位进展等于或而对于频点间模式而言,包裹相位进展等于或这归因于MDCT的奇数频率堆叠。
可以通过来计算绝对包裹相位,其中对于频点上模式而言,n为∈{1,3}的整数,而对于频点间模式而言,n为∈{2,4}的整数。对实际整数的选择取决于频点数字的奇偶性(偶数/奇数)。表示任意相位偏移值。因此,对于纯粹固定音调模式而言,需要通过由四个替代的旋转进行的后处理,以便将模式放到其在MDCT频谱序列的t/f网格中的预期位置。对的选择使这些旋转是简单的。
现在考虑频率扫描模式。
由于频谱分辨率是MDCT的标称分辨率的两倍,所以还需要存储每个扫描模式的两个版本,一个针对具有与频点位置一致的起始频率的扫描,而一个针对位于频点间位置的起始频率。此外,可允许的扫描被定义为线性的,并且覆盖每个时间块的半个MDCT频点、整个MDCT频点以及1.5倍MDCT频点,以上中的每个在向下和向上的方向版本中,从而产生另外要存储的12个模式。为了最小可能的存储器要求,可以仅存储一个方向上的扫描模式;可以通过该模式的时间镜像来得到相反的方向。根据等式9(设置m∈{1,3,5...}),涉及二分之一频点扫描距离的模式需要的后处理旋转。
在下文中,考虑模式的链接。出于此目的,参考图2。图2图示了关于MDCT时间块的正弦模式的参数校准。如果以时间序列链接模式,则必须(使用上面提及的旋转)选择图2的点n0处的实际模式的起始相位,并且必须存储点n1处的目标相位(终止相位),以用于与后续模式的无缝连续。
对于扫描模式和固定模式两者而言,通过的后处理旋转对包括二分之一频点扫描距离的扫描进行后处理,因为可以以时间序列任意地链接扫描部分和固定部分。对的选择引起以下旋转:通过模式的实部与虚部的和/差以及通过的后续调整,该旋转也相当容易计算。替代地,所有模式可以另外存储在预旋转了π/4的版本中,并且可以与nπ/2(n=1、2、3)的简单后处理旋转一起应用(参见表格1)。
图3图示了示例性音调模式修补过程,其中,(a-b)图示了原型模式生成,其中,(c)图示了模式截断,其中,(d)图示了到目标位置和相位的模式适配,并且其中,(e-f)图示了模式修补。
具体地,在图3的面板(a)至(f)中,如上面关于MDCT特点所描述的,对从模式测量一直到模式适配和修补的整个过程进行了描绘。首先,通过根据等式5和等式6生成正弦曲线或扫描来构造模式。然后,将生成的信号变换至ODFT频域(a)来获得复数频谱(b)。接下来,将复数模式截断成其预期的长度(c),并且将预期的长度(c)存储在表格中。
无论何时为了合成音调信号部分而需要该模式,都将该模式适配至如上所述的关于模式链接的目标相位,并且另外,如上所述的关于整数频点频谱偏移的补偿,针对由频谱偏移引起的相位旋转对该模式进行补偿(d)。此外,存在于CMDCT中的相对于ODFT的时间偏移通过应用如上所述的后转动来实现。在对要被修补至频谱中的所有模式的贡献求和之后,可以有效地完成应用后转动(e)。最后,仅使用适配的模式的实部,实际修补发生在MDCT域中。IMDCT产生期望的时域信号,其频谱在面板(f)中进行描绘。
图4图示了根据实施方式的归一化的频谱音调模式,具体地,频点上的正弦曲线、频点间的正弦曲线、频点上的扫描、频点间的扫描(从顶部面板至底部面板)。更具体地,图4示意性图示了针对使用512频带MDCT的典型低比特率变换编解码器情形而对不同的音调模式的选择,其中,正弦窗口的采样频率为12.8kHz,而音调模式具有二分之一频点分辨率。从顶部面板到底部面板,绘制了若干归一化的频谱ODFT音调模式:频点上的正弦曲线、频点间的正弦曲线、频点上的扫描和频点间的扫描。类似这些的若干模式必须在表格中进行存储。
所有模式类型以4个变型进行存储:
●频点上和频点间
●起始相位0和起始相位π/4(如上面关于模式的链接所描述的,进行预旋转)
扫描模式具有另外的6个变型:
●二分之一频点扫描、全频点扫描和1.5倍频点扫描
●向上扫描方向和向下扫描方向
要被存储的模式的总数是4乘以(1个固定模式+6个扫描模式)且等于28个复数模式。
对于最小可能的存储器要求,替代地,可以仅在一个方向上存储扫描模式;可以通过与该模式的时间镜像对偶的频谱处理来得到相反的方向。通常,这可以通过计算该模式的复共轭(通过将虚部乘以-1)以及应用复数相位项(转动)而在频域中获得,该复数相位项取决于实际的域(ODFT、CMDCT等)。
可以通过合成截断的频谱模式而获得的信号质量依赖于通常已由变换编解码器确定的窗口类型,并且依赖于对模式长度的实际选择,该模式长度可以被适配于编解码器的总体感知质量和可利用的资源(存储器、计算复杂度)。
图5图示了截断的音调模式的作为正弦窗口的模式长度的函数的信噪比(SNR)。具体地,图5图示了作为正弦窗口的模式长度的函数的平均SNR。在关于图3所描述的情形中,将模式截断成如19个频点产生约65dB的平均SNR。在如很低的比特率编解码器中可以接受较低的SNR的情况下,5个频点的模式长度就可能已经足够了。
图6a描绘了图2的图示的变化,其中,图6a图示了根据实施方式的交叠块在各个时间点处的瞬时频率。
图6b图示了有关图6a所提供的示图的根据实施方式的DCT基函数和DCT IV基函数的相位进展。
图6c图示了根据实施方式的功率谱670、替代的MDCT频谱675、量化的MDCT频谱680和具有模式的MDCT频谱685。
已经在编码器侧上通过对替代的MDCT频谱675进行量化来生成量化的MDCT频谱680。已经基于如上所述来自编码器的音频信号输入频谱(未示出)且基于功率谱670来生成替代的MDCT频谱675。
将在解码器侧上通过对编码音频信号频谱(未示出)进行处理来获得量化的MDCT频谱680,以获得作为解码音频信号频谱的量化的MDCT频谱680。
如从图6c中可以看到,分别用频谱模式651、652、653、654、655和656替换解码音频信号频谱680中的伪系数691、692、693、694、695和696。
针对与上面相同的低比特率编解码器情形,将新提出的音调模式合成的计算复杂度与时域中的普通振荡器组的计算复杂度进行了比较。假设以下:在设置为相当低的13.2kbps比特率的完全感知编解码器中对单声道项目进行编码时,最多20个正弦轨迹是活动的。在编解码器的C实现中测量了计算工作量。用于测量的项目各自包括具有丰富的泛音内容的至少一个主要的音调乐器(例如律管、小提琴、大键琴、流行萨克斯风、铜管合奏)。平均下来,基于音调模式的合成的计算复杂度仅为使用时域中的振荡器组的直接实现的10%。
上述实施方式提供了以下概念:通过参数化正弦曲线和正弦扫描的生成来增强基于低比特率MDCT的音频编码器。应用所提供的概念,可以在解码器中使用通过后处理相位旋转进行适配的音调模式而非常有效地生成这样的信号。对于这些音调模式的实际合成,可以同时使用编码器的IMDCT滤波器组。如上所述,对频谱分辨率的初始选择确定了以下:用于感知上适当的音调生成的较低截止频率、存储器内存要求以及所要求的模式后处理的计算复杂度。在示例性低比特率音频编解码器情形中,与时域振荡器组的实现相比,已经实现了在65dB的SNR下的90%的计算复杂度减少量。
虽然一种解决方案将在全采样率下使用时域中的振荡器组,但是该解决方案将允许后续参数之间的平滑内插。然而,该解决方案的计算量大。
对于低计算复杂度而言,使用MDCT音调填充(TF)频谱模式是有利的。其中,可以在块采样率下用TF模式来修补频谱。可以将截断的频谱模式存储在例如表格(如数据库或存储器的表格)中。
在实施方式中,提供了通过50%交叠合成窗口对振幅的正弦轨迹的“内插”以及通过选择具有适当的斜率的扫描模式对频率的“内插”,其计算效率很高。
实施方式提供了用于最小混叠的时域模式设计。相位和瞬时频率(IF)在交叠块具有相等权重的时间点处完全匹配。
如从图6a中可以看到,对称点位于
n0:1/4*b_长度+0.5;以及
n1:3/4*b_长度+0.5。
为了无缝地拟合正弦轨迹,根据实施方式,模式选自整数频点模式(“频点上位置”)、分数频点模式(“频点间位置”)以及以下线性扫描:二分之一频点扫描、全频点扫描和1.5倍频点扫描。
通过进行振幅调整,并且通过关于相位进行作为模式源位置、目标位置、时间前驱相位的函数的复数旋转(转动),选择的模式被适配至MDCTt/f网格中的期望位置。
由于有限的频率分辨率,仅需要一组离散的预定义的旋转,具体地:
-经由实部和虚部以及符号的交换的N*π/2旋转;以及
-通过π/4预旋转模式实现的N*π/4旋转。
实现MDCT时间偏移要求ODFT域中的模式/修补。二分之一频点的分辨率由π/2相位粒度以及两个不同的模式类型来实现。
ODFT/DCT-IV频率偏移由通过+π/2或–π/2的整数频点模式进展相位来实现,由通过0或π的分数频点模式进展相位来实现,并且依赖于频点数字的奇偶性(偶数/奇数)。这由图6b所图示。
在实施方式中,将所有模式存储在4个变型中,其涵盖以下替代项的组合:
-整数频点或分数频点;
-或(进行预旋转,其是处理二分之一频点扫描所需的)。
在实施方式中,扫描模式具有另外的6个变型,其涵盖以下替代项的组合;
-二分之一频点扫描、全频点扫描或1.5倍频点扫描;以及
-向上或向下
这产生总数为4*(1个固定模式+6个扫描)=28个复数模式。实际修补是最终(旋转的)模式的实部。
所提供的概念可以例如用于USAC,尤其在变换编码信号路径中。
综上所述,由于颤音伪声的出现,在低比特率下MDCT对音调信号进行编码是至关重要的。然而,传统心理声学模型未考虑此情形。因此,需要最少烦恼模型。参数化编码工具在低比特率下可能有所帮助。音调填充伪声可能比颤音所带来的烦恼要少。
音调填充振荡器的有效实现可以通过对经t/f适配的MDCT模式进行修补来实现。通过使用音调填充,获得在音调音乐的低比特率和低延迟编码下的不错的质量。
在下文中,提供关于一些另外的实施方式的描述。
图10图示了用于基于编码音频信号频谱生成音频输出信号的设备。
该设备包括处理单元110,其用于对编码音频信号频谱进行处理,以获得解码音频信号频谱。该解码音频信号频谱包括多个频谱系数,其中,每个频谱系数具有频谱值和在编码音频信号频谱内的频谱位置,其中,频谱系数根据其在编码音频信号频谱内的频谱位置被依次排序,使得频谱系数形成频谱系数序列。
此外,该设备包括伪系数确定器120,其用于使用边信息(side info)来确定解码音频信号频谱的一个或更多个伪系数,每个伪系数具有频谱位置和频谱值。
此外,该设备包括频谱修改单元130,其用于将一个或更多个伪系数设置成预定义值,以获得修改的音频信号频谱。
此外,该设备包括频谱时间转换单元140,其用于将修改的音频信号频谱转换至时域,以获得时域转换信号。
此外,该设备包括可控振荡器150,其用于生成时域振荡器信号,该可控振荡器由一个或更多个伪系数中的至少一个的频谱位置和频谱值来控制。
此外,该设备包括混合器160,其用于将时域转换信号和时域振荡器信号混合,以获得音频输出信号。
在实施方式中,混合器可以被配置成:在时域中通过将时域转换信号与时域振荡器信号相加来将时域转换信号和时域振荡器信号混合。
处理单元110可以例如是任何类型的音频解码器,例如以下:MP3音频解码器、用于WMA的音频解码器、用于WAVE文件的音频解码器、AAC音频解码器或USAC音频解码器。
处理单元110可以例如是如[8](ISO/IEC 14496-3:2005-信息技术-音频视觉对象的编码-第三部分:音频,第四子部分)中所描述的音频解码器,或如[9](ISO/IEC 14496-3:2005-信息技术-音频视觉对象的编码-第三部分:音频,第四子部分)中所描述的音频解码器。例如,处理单元430可以包括对量化的值进行重新调整(“去量化”)和/或如例如[8]中所描述的时间噪声整形工具,和/或处理单元430可以包括如例如[8]中所描述的感知噪声替代工具。
根据实施方式,每个频谱系数可以具有直接前驱和直接后继中的至少一个,其中,所述频谱系数的直接前驱可以是在序列内紧接在所述频谱系数之前的频谱系数中的一个,其中,所述频谱系数的直接后继可以是在序列内紧接在所述频谱系数之后的频谱系数中的一个。
伪系数确定器120可以被配置成通过确定序列的至少一个频谱系数来确定解码音频信号频谱的一个或更多个伪系数,该序列的至少一个频谱系数具有不同于预定义值的频谱值,该序列的至少一个频谱系数具有其频谱值等于预定义值的直接前驱,并且该序列的至少一个频谱系数具有其频谱值等于预定义值的直接后继。在实施方式中,预定义值可以为零,以及预定义值可以为零。
换言之,针对解码音频信号频谱的系数中的一些或全部伪系数确定器120确定以下:分别考虑的系数是否不同于预定义值(优选地:不同于0),前面的系数的频谱值是否等于预定义值(优选地:等于0),以及后面的系数的频谱值是否等于预定义值(优选地:等于0)。
在一些实施方式中,这样确定的系数是(始终是)伪系数。
然而,在其它实施方式中,这样确定的系数是(仅仅是)伪系数候选者,并且可能是或可能不是伪系数。在那些实施方式中,伪系数确定器120被配置成确定至少一个伪系数候选者,该至少一个伪系数候选者具有不同于预定义值的频谱值,该至少一个伪系数候选者具有其频谱值等于预定义值的直接前驱,并且该至少一个伪系数候选者可以具有其频谱值等于预定义值的直接后继。
接着,伪系数确定器120被配置成:通过确定边信息是否表示所述伪系数候选者是伪系数来确定伪系数候选者是否是伪系数。
例如,可以由伪系数确定器120在位字段中接收这样的边信息,其对于以下量化的音频信号频谱的每个频谱系数来表示所述系数是否是极值系数中的一个(例如通过比特值1)或所述系数是否不是极值系数中的一个(例如通过比特值0):该频谱系数具有其频谱值等于预定义值的直接前驱和其频谱值等于预定义值的直接后继。
例如,位字段[000111111]可以表示:在(被依次排序的)(量化的)音频信号频谱中出现的前三个“独立的”系数(其频谱值不等于预定义值,但其前驱和其后继的频谱值等于预定义值)不是极值系数,但是接下来六个“独立的”系数是极值系数。该位字段描述了可以在图9中的量化的MDCT频谱635中看到的情形,其中前三个“独立的”系数5、8、25不是极值系数,但是其中接下来六个“独立的”系数59、71、83、94、116、141是极值系数。
频谱修改单元130可以被配置成从解码音频信号频谱中“删除”伪系数。事实上,频谱修改单元将解码音频信号频谱的伪系数的频谱值设置成预定义值(优选地,设置成0)。这是合理的,原因在于:将仅需要(至少一个)伪系数来控制(至少一个)可控振荡器150。因此,考虑例如图9中的量化的MDCT频谱635。如果将频谱635视为解码音频信号频谱,则频谱修改单元130将设置极值系数59、71、83、94、116和141的频谱值,以获得修改的音频信号频谱,并且将留下该频谱的其它系数而不经修改。
频谱时间转换单元140将修改的音频信号频谱从频谱域转换至时域。例如,修改的音频信号频谱可以是MDCT频谱,而频谱时间转换单元140可以是改进的离散余弦逆变换(IMDCT)滤波器组。在其它实施方式中,频谱可以是MDST频谱,而频谱时间转换单元140可以是改进的离散正弦逆变换(IMDST)滤波器组。或者,在另外的实施方式中,频谱可以是DFT频谱,而频谱时间转换单元140可以是离散傅里叶逆变换(IDFT)滤波器组。
可控振荡器150可以被配置成生成具有振荡器信号频率的时域振荡器信号,使得振荡器信号的振荡器信号频率可以取决于一个或更多个伪系数中的一个的频谱位置。由振荡器生成的振荡器信号可以是时域正弦信号。可控振荡器150可以被配置成取决于一个或更多个伪系数中的一个的频谱值来控制时域正弦信号的振幅。
根据实施方式,伪系数是带符号的值,每个伪系数包括符号成分。可控振荡器150可以被配置成生成时域振荡器信号,使得振荡器信号的振荡器信号频率还可以取决于一个或更多个伪系数中的一个的符号成分,使得当符号成分具有第一符号值时,振荡器信号频率可以具有第一频率值,并且使得当符号成分具有不同的第二值时,振荡器信号频率可以具有不同的第二频率值。
例如,考虑图9的MDCT频谱635中的频谱位置59处的伪系数。如果会将频率8200Hz分配给频谱位置59,并且如果会将频率8400Hz分配给频谱位置60,则例如在伪系数的频谱值的符号为正的情况下,可控振荡器可以被配置成将振荡器频率设置为8200Hz,并且例如在伪系数的频谱值的符号为负的情况下,可控振荡器可以被配置成将振荡器频率设置为8300Hz。
因此,伪系数的频谱值的符号可以用于控制可控振荡器是否将振荡器频率设置成:被分配给从伪系数导出的频谱位置(例如频谱位置59)的频率(例如8200Hz),或者介于被分配给从伪系数导出的频谱位置(例如频谱位置59)的频率(例如8200Hz)与被分配给紧接在从伪系数导出的频谱位置之后的频谱位置(例如频谱位置60)的频率(例如8400Hz)之间的频率(例如8300Hz)。
图11图示了其中该设备包括另外的可控振荡器252、254、256的实施方式,另外的可控振荡器252、254、256用于生成由一个或更多个伪系数中的另外的伪系数的频谱值控制的另外的时域振荡器信号。另外的可控振荡器252、254、256各自生成另外的时域振荡器信号中的一个。可控振荡器252、254、256中的每一个被配置成基于从伪系数中的一个导出的频谱位置来操控振荡器信号频率。以及/或者,可控振荡器252、254、256中的每一个被配置成基于伪系数中的一个的频谱值来操控振荡器信号的振幅。
另外的可控振荡器252、254、256各自生成另外的时域振荡器信号中的一个。可控振荡器252、254、256中的每一个被配置成基于伪系数中的一个的频谱位置来操控振荡器信号频率。以及/或者,可控振荡器252、254、256中的每一个被配置成基于伪系数中的一个的频谱值来操控振荡器信号的振幅。
图10和图11的混合器160被配置成:将由频谱时间转换单元140生成的时域转换信号与由一个或更多个可控振荡器150、252、254、256生成的一个或更多个时域振荡器信号混合,以获得音频输出信号。混合器160可以通过时域转换信号与一个或更多个时域振荡器信号的叠加来生成音频输出信号。
图12图示了将原始正弦曲线(左)与在由MDCT/IMDCT链进行处理之后的正弦曲线(右)进行比较的两个示图。在由MDCT/IMDCT链进行处理之后,正弦曲线包括颤音伪声。上面所提供的概念避免了正弦曲线由MDCT/IMDCT链进行处理,但是替代地,通过伪系数来编码正弦信息和/或通过可控振荡器来再现正弦曲线。
虽然已经在该设备的背景下描述了一些方面,但是清楚的是,这些方面还给出了对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的背景下描述的方面还给出了对相应的块或项目或相应的设备的特征的描述。
可以将发明性的分解信号存储在数字存储器介质上,或者可以在诸如无线传输介质或有线传输介质如因特网的传输介质上传输该发明性的分解信号。
取决于某些实现要求,本发明的实施方式可以以硬件或软件来实现。可以使用例如以下的数字存储器介质来执行实现:其上存储有电可读控制信号的软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或快闪存储器,该电可读控制信号与可编程计算机系统进行协作(或能够协作),使得相应的方法得以执行。
根据本发明的一些实施方式包括非瞬时性数据载体,其具有电可读控制信号,该电子可读控制信号能够与可编程计算机系统进行协作,使得本文中描述的方法之一得以执行。
通常,本发明的实施方式可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码操作地用于执行方法之一。可以例如在机器可读载体上存储程序代码。
其它实施方式包括存储在机器可读介质上的、用于执行本文中描述的方法之一的计算机程序。
因此,换言之,本发明方法的实施方式是具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中描述的方法之一。
因此,本发明方法的另外的实施方式是数据载体(或数字存储器介质、或计算机可读介质),该数据载体包括其上记录有用于执行本文中描述的方法之一的计算机程序。
因此,本发明方法的另外的实施方式是表示用于执行本文中描述的方法之一的计算机程序的数据流或信号序列。该数据流或信号序列可以例如被配置成经由数据通信连接如经由因特网进行传送。
另外的实施方式包括被配置成或适于执行本文中描述的方法之一的处理装置如计算机或可编程逻辑器件。
另外的实施方式包括其上安装有用于执行本文中描述的方法之一的计算机程序的计算机。
在一些实施方式中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文中描述的方法中的一些或全部功能。在一些实施方式中,现场可编程门阵列可以与微处理器进行协作,以便执行本文中描述的方法之一。通常,优选地,方法由任意硬件设备来执行。
对于本发明的原理而言,上述实施方式仅仅是说明性的。应当理解,对本领域中的其他技术人员而言,本文中描述的布置和细节的修改和变化将是明显的。因此,意在仅受限于所附专利权利要求的范围,而非通过本文中的实施方式的描述和说明的方式而给出的具体细节。
参考文献
[1]Daudet,L.;Sandler,M.;,“MDCT analysis of sinusoids:exact resultsand applications to coding artifacts reduction”,语音和音频处理,IEEE会刊,第12卷,第3期,第302-312页,2004年5月
[2]Purnhagen,H.;Meine,N.;,“HILN-the MPEG-4parametric audiocoding tools”,电路和系统,2000.会议录。2000年,日内瓦,ISCAS。2000年IEEE国际研讨会,第3卷,期,第201-204页第3卷,2000年
[3]Oomen,Werner;Schuijers,Erik;den Brinker,Bert;Breebaart,Jeroen:,“Advances in Parametrie Coding for High-Quality Audio”,第114届音频工程协会会议,预印本,阿姆斯特丹/荷兰,2003年3月
[4]van Schijndel,N.H.;van de Par,S.;,“Rate-distortion optimized hybridsound coding”,信号处理在音频和声学中的应用,2005。IEEE研讨会,卷,期,第235页至238页,2005年10月16日至19日
[5]Bessette,8.;Lefebvre,R.;Salami,R.;,“Universal speech/audio codingusing hybrid ACELP/TCX techniques”,声学、语音和信号处理,2005。会议录(ICASSP'05)。IEEE国际会议,第3卷,期,第iii/301-iii/304页第3卷,2005年3月18日至23日
[6]Ferreira,A.J.S.,“Combined spectral envelope normalization andsubtraction of sinusoidal components in the ODFT and MDCT frequencydomains”,信号处理在音频和声学中的应用,2001年IEEE研讨会,卷,期,第51至54页,2001年
[7]http://people.xiph.org/~xiphmont/demo/ghost/demo.html
相应的互联网档案馆-网站存储于:
http://web.archive.org/web/20110121141149/http://people.xiph.org/~xiphmont/demo/ghost/demo.html
[8]ISO/IEC 14496-3:2005(E)–信息技术–音频视觉对象的编码–第3部分:音频,第4子部分
[9]ISO/IEC 14496-3:2009(E)–信息技术–音频视觉对象的编码–第3部分:音频,第4子部分
[10]Anibal J.S.Ferreira,Perceptual coding using sinusoidal modeling inthe mdct domain,音频工程协会会议ll2,2002年4月
[11]Deepen Ferreira、Anibal J.S.;Sinha,Accurate spectral replacement。音频工程协会会议JJ 8,2005年5月
[12]Rade Kutil,Optimized sinusoid synthesis via inverse truncatedfourier transforrn。音频、语音和语言处理学报,17(2):221至230,2009年2月
[13]Nikolaus Meine和Heiko Purnhagen,Fast sinusoid synthesis formpeg-4hiln parametric audio decoding。关于数字音频效果的第5届国际会议的会议录(DAFx-02),汉堡,德国,9月26日至28日,2002,0(0),2002年
Claims (22)
1.一种基于编码音频信号频谱生成音频输出信号的设备,其中,所述设备包括:
处理单元(115),用于对所述编码音频信号频谱进行处理以获得包括多个频谱系数的解码音频信号频谱,其中,每个所述频谱系数具有频谱值和在所述编码音频信号频谱内的频谱位置,其中,所述频谱系数根据所述频谱系数在所述编码音频信号频谱内的频谱位置被依次排序,使得所述频谱系数形成频谱系数序列,
伪系数确定器(125),用于确定所述解码音频信号频谱的一个或更多个伪系数,其中,每个所述伪系数是所述频谱系数中的一个,
替换单元(135),用于用确定的频谱模式替换至少一个或更多个伪系数以获得修改的音频信号频谱,其中,所述确定的频谱模式包括至少两个模式系数,其中,所述至少两个模式系数中的每一个具有频谱值,以及
频谱时间转换单元(145),用于将所述修改的音频信号频谱转换至时域以获得所述音频输出信号。
2.根据权利要求1所述的设备,
其中,所述设备还包括存储单元(155),其包括数据库或存储器,在所述数据库内或者在所述存储器内存储有多个存储的频谱模式,其中,每个所述存储的频谱模式具有频谱特性,
其中,所述替换单元(135)被配置成向所述存储单元(155)请求所述存储的频谱模式中的一个作为请求的频谱模式,
其中,所述存储单元(155)被配置成提供所述请求的频谱模式,以及
其中,所述替换单元(135)被配置成基于所述请求的频谱模式用所述确定的频谱模式替换至少一个或更多个伪系数。
3.根据权利要求2所述的设备,其中,所述替换单元(135)被配置成:取决于从由所述伪系数确定器(125)确定的所述一个或更多个伪系数中的至少一个导出的第一导出频谱位置,向所述存储单元(155)请求所述存储的频谱模式中的所述一个。
4.根据权利要求3所述的设备,
其中,所述一个或更多个伪系数是带符号的值,每个所述伪系数包括符号成分,以及
其中,所述替换单元(135)被配置成:基于所述一个或更多个伪系数中的一个伪系数的频谱位置并基于所述伪系数的符号成分来确定所述第一导出频谱位置,使得当所述符号成分具有第一符号值时,所述第一导出频谱位置等于所述伪系数的频谱位置,并且使得当所述符号成分具有不同的第二值时,所述第一导出频谱位置等于修改的位置,所述修改的位置通过使所述伪系数的频谱位置偏移预定义值而产生。
5.根据权利要求3或4所述的设备,
其中,存储在所述存储单元(155)的数据库或存储器内的多个存储的频谱模式是固定音调模式或频率扫描模式,
其中,所述伪系数确定器(125)被配置成确定所述解码音频信号频谱的两个或更多个时间上连续的伪系数,
其中,所述替换单元(135)被配置成:取决于从第一伪系数导出的第一导出频谱位置与从第二伪系数导出的第二导出频谱位置之间的绝对差是否小于阈值,将所述两个或更多个时间上连续的伪系数中的第一伪系数和第二伪系数分配给轨迹,以及
其中,所述替换单元(135)被配置成:当从所述轨迹的第一伪系数导出的第一导出频谱位置等于从所述轨迹的第二伪系数导出的第二导出频谱位置时,向所述存储单元(155)请求所述固定音调模式中的一个,并且其中,所述替换单元(135)被配置成:当从所述轨迹的第一伪系数导出的第一导出频谱位置不同于从所述轨迹的第二伪系数导出的第二导出频谱位置时,向所述存储单元(155)请求所述频率扫描模式中的一个。
6.根据权利要求5所述的设备,
其中,所述替换单元(135)被配置成:当从所述轨迹的第二伪系数导出的第二导出频谱位置与从所述轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于预定义值的二分之一时,向所述存储单元(155)请求所述频率扫描模式中的第一频率扫描模式,
其中,所述替换单元(135)被配置成:当从所述轨迹的第二伪系数导出的第二导出频谱位置与从所述轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于所述预定义值时,向所述存储单元(155)请求所述频率扫描模式中的第二频率扫描模式,其不同于所述第一频率扫描模式,以及
其中,所述替换单元(135)被配置成:当从所述轨迹的第二伪系数导出的第二导出频谱位置与从所述轨迹的第一伪系数导出的第一导出频谱位置之间的频率差等于所述预定义值的1.5倍时,向所述存储单元(155)请求所述频率扫描模式中的第三频率扫描模式,其不同于所述第一扫描模式和所述第二频率扫描模式。
7.根据权利要求2至6中的一项所述的设备,其中,所述替换单元(135)包括模式适配单元(138),其被配置成:对由所述存储单元(155)提供的请求的频谱模式进行修改,以获得所述确定的频谱模式。
8.根据权利要求7所述的设备,其中,所述模式适配单元(138)被配置成:取决于所述一个或更多个伪系数中的一个的频谱值,通过重新调整所述请求的频谱模式的模式系数的频谱值来对由所述存储单元(155)提供的请求的频谱模式进行修改。
9.根据权利要求7或8所述的设备,其中,所述模式适配单元(138)被配置成:取决于起始相位对由所述存储单元(155)提供的请求的频谱模式进行修改,使得当所述起始相位具有第一起始相位值时,以第一方式对所述请求的频谱模式的每个模式系数的频谱值进行修改,并且使得当所述起始相位具有不同的第二起始相位值时,以不同的第二方式对所述请求的频谱模式的每个模式系数的频谱值进行修改。
10.根据权利要求7至9中的一项所述的设备,
其中,所述请求的频谱模式的每个模式系数的频谱值是包括实部和虚部的复数系数,以及
其中,所述模式适配单元(138)被配置成通过以下操作对所述请求的频谱模式进行修改:通过应用复数旋转因子对由所述存储单元(155)提供的请求的频谱模式的每个模式系数的实部和虚部进行修改,其中,是角度值。
11.根据权利要求7至9中的一项所述的设备,
其中,所述请求的频谱模式的每个模式系数的频谱值是包括实部和虚部的复数系数,以及
其中,所述模式适配单元(138)被配置成通过以下操作对由所述存储单元(155)提供的请求的频谱模式进行修改:对所述请求的频谱模式的每个模式系数的频谱值的实部和虚部进行求反,或者将所述请求的频谱模式的每个模式系数的频谱值的实部或求反的实部与虚部或求反的虚部进行交换。
12.根据权利要求7至11中的一项所述的设备,其中,所述模式适配单元(138)被配置成通过以下操作对由所述存储单元(155)提供的请求的频谱模式进行修改:通过计算所述模式的复共轭以及应用复数相位项来实现所述模式的时间镜像。
13.根据权利要求7至12中的一项所述的设备,
其中,所述解码音频信号频谱在MDCT域中表示,
其中,所述模式适配单元(138)被配置成:通过对所述请求的频谱模式的模式系数的频谱值进行修改来对由所述存储单元(155)提供的请求的频谱模式进行修改,以获得修改的频谱模式,其中,所述频谱值在奇数堆叠式离散傅里叶变换域中表示,
其中,所述模式适配单元(135)被配置成:将所述修改的频谱模式的模式系数的频谱值从所述奇数堆叠式离散傅里叶变换域变换至所述MDCT域,以获得所述确定的频谱模式,以及
其中,所述替换单元(135)被配置成:用在所述MDCT域中表示的确定的频谱模式替换所述至少一个或更多个伪系数,以获得在所述MDCT域中表示的修改的音频信号频谱。
14.一种用于生成多个频谱模式的设备,包括:
信号生成器(165),用于在第一域中生成多个信号,
信号变换单元(175),用于将所述多个信号中的每个信号从所述第一域变换至第二域以获得多个频谱模式,多个变换的频谱模式中的每个模式包括多个系数,
后处理单元(185),用于通过移除所述变换的频谱模式的系数中的一个或更多个来将所述变换的频谱模式截断,以获得多个处理的模式,以及
存储单元(195),其包括数据库或存储器,其中,所述存储单元(195)被配置成将所述多个处理的模式中的每个处理的模式存储在所述数据库或所述存储器中,
其中,所述信号生成器(165)被配置成基于以下公式生成所述多个信号中的每个信号:
以及
其中,t和τ表示时间,
其中,是在t处的瞬时相位,以及
其中,f(τ)是在τ处的瞬时频率,
其中,所述多个信号中的每个信号具有起始频率(f0)和目标频率(f1),所述起始频率(f0)是所述信号在第一时间点处的瞬时频率,所述目标频率(f1)是所述信号在不同的第二时间点处的瞬时频率,
其中,所述信号生成器(165)被配置成:生成所述多个信号中的第一信号,使得所述第一信号的目标频率等于所述起始频率,以及
其中,所述信号生成器(165)被配置成:生成所述多个信号中的不同的第二信号,使得所述第一信号的目标频率不同于所述起始频率。
15.根据权利要求14所述的设备,
其中,所述信号变换单元(175)被配置成:将所述多个信号中的每个信号从所述第一域变换至第二域,所述第一域是时域,所述第二域是频谱域,
其中,所述信号变换单元(175)被配置成生成用于对所述信号进行变换的多个时间块中的第一时间块,
其中,所述多个时间块中的每个时间块包括多个加权的样本,其中,每个所述加权的样本是由多个权重中的一个权重进行加权的所述信号的信号样本,其中,将所述多个权重分配给所述时间块,并且其中,将所述多个权重中的每个权重分配给时间点,
其中,所述多个信号中的每个信号的起始频率(f0)是所述信号在所述第一时间点处的瞬时频率,其中,将所述时间块中的第一时间块的权重中的第一权重分配给所述第一时间点,其中,将所述时间块的不同的第二时间块的权重中的第二权重分配给所述第一时间点,其中,所述时间块中的第一时间块与所述时间块中的第二时间块交叠,并且其中,所述权重中的第一权重等于所述权重中的第二权重,以及
其中,所述多个信号中的每个信号的目标频率(f1)是所述信号在所述第二时间点处的瞬时频率,其中,将所述时间块中的第一时间块的权重中的第三权重分配给所述第二时间点,其中,将所述时间块的不同的第三时间块的权重中的第四权重分配给所述第二时间点,其中,所述时间块中的第一时间块与所述时间块中的第三时间块交叠,并且其中,所述权重中的第三权重等于所述权重中的第四权重。
16.根据权利要求14或15所述的设备,
其中,所述多个信号中的每个信号具有起始相位其是所述信号在第一时间点处的相位,
其中,所述信号生成器(165)被配置成:生成所述多个信号,使得所述多个信号中的第一信号的起始相位等于所述多个信号中的不同的第二信号的起始相位
17.根据权利要求14至16中的一项所述的设备,其中,所述后处理单元(185)还被配置成:对每个变换的频谱模式的频谱系数进行任意相位角的旋转,以获得多个任意旋转的频谱模式。
18.根据权利要求14至16中的一项所述的设备,其中,所述后处理单元(185)还被配置成:对每个变换的频谱模式的频谱系数进行π/4的旋转,以获得多个旋转的频谱模式。
19.根据权利要求14至18中的一项所述的设备,其中,所述信号生成器(165)被配置成生成所述第一信号、所述第二信号以及一个或更多个另外的信号来作为所述多个信号,使得每个所述另外的信号的目标频率与起始频率的各个差是所述第二信号的目标频率与起始频率的差的整数倍。
20.一种用于基于编码音频信号频谱生成音频输出信号的方法,其中,所述方法包括:
处理所述编码音频信号频谱,以获得包括多个频谱系数的解码音频信号频谱,其中,每个所述频谱系数具有频谱值和在所述编码音频信号频谱内的频谱位置,其中,所述频谱系数根据其在所述编码音频信号频谱内的频谱位置被依次排序,使得所述频谱系数形成频谱系数序列,
确定所述解码音频信号频谱的一个或更多个伪系数,其中,每个所述伪系数是所述频谱系数中的一个,
用确定的频谱模式替换至少一个或更多个伪系数以获得修改的音频信号频谱,其中,所述确定的频谱模式包括至少两个模式系数,其中,所述至少两个模式系数中的每一个具有频谱值,以及
将所述修改的音频信号频谱转换至时域,以获得所述音频输出信号。
21.一种用于生成多个频谱模式的方法,包括:
在第一域中生成多个信号,
将所述多个信号中的每个信号从所述第一域变换至第二域,以获得多个频谱模式,多个变换的频谱模式中的每个模式包括多个系数,
通过移除所述变换的频谱模式的系数中的一个或更多个来将所述变换的频谱模式截断,以获得多个处理的模式,以及
将所述多个处理的模式中的每个处理的模式存储在数据库或存储器中,
其中,基于以下公式进行所述多个信号中的每个信号的生成:
以及
其中,t和τ表示时间,
其中,是在t处的瞬时相位,以及
其中,f(τ)是在τ处的瞬时频率,
其中,所述多个信号中的每个信号具有起始频率(f0)和目标频率(f1),所述起始频率(f0)是所述信号在第一时间点处的瞬时频率,所述目标频率(f1)是所述信号在不同的第二时间点处的瞬时频率,
其中,通过以下操作进行所述多个信号的生成:生成所述多个信号中的第一信号,使得所述第一信号的目标频率(f1)等于起始频率(f0),以及
其中,通过以下操作进行所述多个信号的生成:生成所述多个信号中的不同的第二信号,使得所述第一信号的目标频率(f1)不同于起始频率(f0)。
22.一种计算机程序,当在计算机或信号处理器上执行所述计算机程序时,所述计算机程序用于实现根据权利要求20或21所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261712013P | 2012-10-10 | 2012-10-10 | |
US61/712,013 | 2012-10-10 | ||
EP12199266.3A EP2720222A1 (en) | 2012-10-10 | 2012-12-21 | Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns |
EP12199266.3 | 2012-12-21 | ||
PCT/EP2013/069592 WO2014056705A1 (en) | 2012-10-10 | 2013-09-20 | Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104903956A true CN104903956A (zh) | 2015-09-09 |
CN104903956B CN104903956B (zh) | 2018-11-16 |
Family
ID=47715790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380064128.8A Active CN104903956B (zh) | 2012-10-10 | 2013-09-20 | 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 |
Country Status (18)
Country | Link |
---|---|
US (1) | US9570085B2 (zh) |
EP (3) | EP2720222A1 (zh) |
JP (3) | JP6563338B2 (zh) |
KR (1) | KR101777485B1 (zh) |
CN (1) | CN104903956B (zh) |
AR (1) | AR092958A1 (zh) |
AU (3) | AU2013329734B2 (zh) |
BR (1) | BR112015008114B1 (zh) |
CA (2) | CA2887188C (zh) |
ES (1) | ES2896016T3 (zh) |
HK (1) | HK1213688A1 (zh) |
MX (1) | MX344955B (zh) |
MY (1) | MY193732A (zh) |
RU (1) | RU2633136C2 (zh) |
SG (2) | SG10201702285QA (zh) |
TW (1) | TWI543152B (zh) |
WO (1) | WO2014056705A1 (zh) |
ZA (1) | ZA201503152B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867194A (zh) * | 2019-11-05 | 2020-03-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频的评分方法、装置、设备及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2963648A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using vertical phase correction |
EP2980791A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
CN107004417B (zh) | 2014-12-09 | 2021-05-07 | 杜比国际公司 | Mdct域错误掩盖 |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
CN108074588B (zh) * | 2016-11-15 | 2020-12-01 | 北京唱吧科技股份有限公司 | 一种音高计算方法及装置 |
CN110062945B (zh) * | 2016-12-02 | 2023-05-23 | 迪拉克研究公司 | 音频输入信号的处理 |
CN116631415A (zh) * | 2017-01-10 | 2023-08-22 | 弗劳恩霍夫应用研究促进协会 | 音频解码器、提供解码的音频信号的方法、和计算机程序 |
CN106847294B (zh) * | 2017-01-17 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0713295A1 (en) * | 1994-04-01 | 1996-05-22 | Sony Corporation | Method and device for encoding information, method and device for decoding information, information transmitting method, and information recording medium |
CN1197958A (zh) * | 1997-03-31 | 1998-11-04 | 索尼公司 | 编码方法和设备、译码方法和设备和记录介质 |
EP1047047A2 (en) * | 1999-03-23 | 2000-10-25 | Nippon Telegraph and Telephone Corporation | Audio signal coding and decoding methods and apparatus and recording media with programs therefor |
CN1358301A (zh) * | 2000-01-11 | 2002-07-10 | 松下电器产业株式会社 | 多模式话音编码装置和解码装置 |
US20030138057A1 (en) * | 2000-12-14 | 2003-07-24 | Minoru Tsuji | Encoder and decoder |
US20030169821A1 (en) * | 2001-02-09 | 2003-09-11 | Kyoya Tsutsui | Content supply system and information processing method |
US20040225505A1 (en) * | 2003-05-08 | 2004-11-11 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
CN1669359A (zh) * | 2002-07-12 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
US20070174052A1 (en) * | 2005-12-05 | 2007-07-26 | Sharath Manjunath | Systems, methods, and apparatus for detection of tonal components |
CN101162584A (zh) * | 2006-09-18 | 2008-04-16 | 三星电子株式会社 | 使用带宽扩展技术对音频信号编码和解码的方法和设备 |
US20080221905A1 (en) * | 2006-10-18 | 2008-09-11 | Markus Schnell | Encoding an Information Signal |
US20080259014A1 (en) * | 2007-04-17 | 2008-10-23 | Nec Lcd Technologies, Ltd. | Liquid crystal display device |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US20110060754A1 (en) * | 2002-12-20 | 2011-03-10 | Wolfgang Theimer | Method and device for organizing user provided information with meta-information |
CN102027533A (zh) * | 2009-04-03 | 2011-04-20 | 弗劳恩霍夫应用研究促进协会 | 用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1099777C (zh) * | 1993-06-30 | 2003-01-22 | 索尼公司 | 数字信号的编码装置、解码装置和编码方法 |
JP4534382B2 (ja) * | 2001-02-09 | 2010-09-01 | ソニー株式会社 | 符号列生成装置及び方法、信号再生装置及び方法、並びにコンテンツ供給システム |
JP2003029797A (ja) * | 2001-05-11 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置および放送システム |
JP4012506B2 (ja) * | 2001-08-24 | 2007-11-21 | 株式会社ケンウッド | 信号の周波数成分を適応的に補間するための装置および方法 |
DE602004024703D1 (de) * | 2003-10-13 | 2010-01-28 | Koninkl Philips Electronics Nv | Audiocodierung |
US7693709B2 (en) * | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US20100324708A1 (en) * | 2007-11-27 | 2010-12-23 | Nokia Corporation | encoder |
EP2320416B1 (en) * | 2008-08-08 | 2014-03-05 | Panasonic Corporation | Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method |
KR101390433B1 (ko) | 2009-03-31 | 2014-04-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템 |
ES2400661T3 (es) * | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
CA2827249C (en) * | 2011-02-14 | 2016-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
JP6185457B2 (ja) * | 2011-04-28 | 2017-08-23 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
FR2996047B1 (fr) * | 2012-09-27 | 2014-09-05 | Renault Sa | Dispositif inductif limitant les oscillations acoustiques |
-
2012
- 2012-12-21 EP EP12199266.3A patent/EP2720222A1/en not_active Withdrawn
-
2013
- 2013-09-20 EP EP13766036.1A patent/EP2907132B1/en active Active
- 2013-09-20 MY MYPI2015000889A patent/MY193732A/en unknown
- 2013-09-20 KR KR1020157011967A patent/KR101777485B1/ko active IP Right Grant
- 2013-09-20 EP EP16193357.7A patent/EP3133598A1/en not_active Withdrawn
- 2013-09-20 CN CN201380064128.8A patent/CN104903956B/zh active Active
- 2013-09-20 BR BR112015008114-2A patent/BR112015008114B1/pt active IP Right Grant
- 2013-09-20 CA CA2887188A patent/CA2887188C/en active Active
- 2013-09-20 CA CA2944927A patent/CA2944927C/en active Active
- 2013-09-20 ES ES13766036T patent/ES2896016T3/es active Active
- 2013-09-20 SG SG10201702285QA patent/SG10201702285QA/en unknown
- 2013-09-20 MX MX2015004506A patent/MX344955B/es active IP Right Grant
- 2013-09-20 WO PCT/EP2013/069592 patent/WO2014056705A1/en active Application Filing
- 2013-09-20 SG SG11201502744YA patent/SG11201502744YA/en unknown
- 2013-09-20 AU AU2013329734A patent/AU2013329734B2/en active Active
- 2013-09-20 RU RU2015117432A patent/RU2633136C2/ru active
- 2013-09-20 JP JP2015536045A patent/JP6563338B2/ja active Active
- 2013-10-09 TW TW102136550A patent/TWI543152B/zh active
- 2013-10-09 AR ARP130103664A patent/AR092958A1/es active IP Right Grant
-
2015
- 2015-04-08 US US14/682,015 patent/US9570085B2/en active Active
- 2015-05-08 ZA ZA2015/03152A patent/ZA201503152B/en unknown
-
2016
- 2016-02-14 HK HK16101589.7A patent/HK1213688A1/zh unknown
- 2016-12-21 AU AU2016277636A patent/AU2016277636A1/en not_active Abandoned
-
2017
- 2017-11-13 JP JP2017217969A patent/JP6789915B2/ja active Active
-
2018
- 2018-10-19 AU AU2018250490A patent/AU2018250490B2/en active Active
-
2019
- 2019-08-14 JP JP2019148934A patent/JP7005564B2/ja active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0713295A1 (en) * | 1994-04-01 | 1996-05-22 | Sony Corporation | Method and device for encoding information, method and device for decoding information, information transmitting method, and information recording medium |
CN1126004A (zh) * | 1994-04-01 | 1996-07-03 | 索尼公司 | 信息编码方法和设备、信息解码方法和设备、信息传输方法以及信息记录媒体 |
CN1197958A (zh) * | 1997-03-31 | 1998-11-04 | 索尼公司 | 编码方法和设备、译码方法和设备和记录介质 |
EP1047047A2 (en) * | 1999-03-23 | 2000-10-25 | Nippon Telegraph and Telephone Corporation | Audio signal coding and decoding methods and apparatus and recording media with programs therefor |
CN1358301A (zh) * | 2000-01-11 | 2002-07-10 | 松下电器产业株式会社 | 多模式话音编码装置和解码装置 |
US20030138057A1 (en) * | 2000-12-14 | 2003-07-24 | Minoru Tsuji | Encoder and decoder |
US20030169821A1 (en) * | 2001-02-09 | 2003-09-11 | Kyoya Tsutsui | Content supply system and information processing method |
CN1669359A (zh) * | 2002-07-12 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
US20110060754A1 (en) * | 2002-12-20 | 2011-03-10 | Wolfgang Theimer | Method and device for organizing user provided information with meta-information |
US20040225505A1 (en) * | 2003-05-08 | 2004-11-11 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
US20070174052A1 (en) * | 2005-12-05 | 2007-07-26 | Sharath Manjunath | Systems, methods, and apparatus for detection of tonal components |
CN101162584A (zh) * | 2006-09-18 | 2008-04-16 | 三星电子株式会社 | 使用带宽扩展技术对音频信号编码和解码的方法和设备 |
US20080221905A1 (en) * | 2006-10-18 | 2008-09-11 | Markus Schnell | Encoding an Information Signal |
US20080259014A1 (en) * | 2007-04-17 | 2008-10-23 | Nec Lcd Technologies, Ltd. | Liquid crystal display device |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
CN102027533A (zh) * | 2009-04-03 | 2011-04-20 | 弗劳恩霍夫应用研究促进协会 | 用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
Non-Patent Citations (2)
Title |
---|
DAUDET ET AL: ""MDCT analysis of sinusoids:Exact Results and application to coding artifacts Reduction"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
MICHAEL GOODWIN ET AL: ""Overlap-Add Synthesis of Nonstationary Sinusoids"", 《INTERNATIONAL COMPUTER MUSIC CONFERENCE PROCEEDING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867194A (zh) * | 2019-11-05 | 2020-03-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频的评分方法、装置、设备及存储介质 |
CN110867194B (zh) * | 2019-11-05 | 2022-05-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频的评分方法、装置、设备及存储介质 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104903956A (zh) | 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 | |
US9343074B2 (en) | Apparatus and method for audio encoding and decoding employing sinusoidal substitution | |
CN102027537A (zh) | 利用谐波带宽扩充及非谐波带宽扩充的组合、基于输入信号表示型态产生扩充带宽信号的表示型态的装置、方法及计算机程序 | |
CN105719655A (zh) | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 | |
CN105706166A (zh) | 通过在频域插入时间预整形噪声进行音频带宽扩展 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Munich, Germany Applicant after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |