CN103065637A - 音频编码器和解码器 - Google Patents

音频编码器和解码器 Download PDF

Info

Publication number
CN103065637A
CN103065637A CN2013100055033A CN201310005503A CN103065637A CN 103065637 A CN103065637 A CN 103065637A CN 2013100055033 A CN2013100055033 A CN 2013100055033A CN 201310005503 A CN201310005503 A CN 201310005503A CN 103065637 A CN103065637 A CN 103065637A
Authority
CN
China
Prior art keywords
scale factor
frame
transform
mdct
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100055033A
Other languages
English (en)
Other versions
CN103065637B (zh
Inventor
P·H·海德林
P·J·卡尔森
J·L·萨缪尔森
M·舒格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Sweden AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39710955&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN103065637(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN103065637A publication Critical patent/CN103065637A/zh
Application granted granted Critical
Publication of CN103065637B publication Critical patent/CN103065637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

本发明涉及音频编码器和解码器。本发明教导了可以以低比特率对一般音频和语音信号进行编码的新的音频编码系统。所提出的音频编码系统包括用于基于自适应滤波器过滤输入信号的线性预测单元;用于将经滤波的输入信号的帧转换为变换域的变换单元;以及用于量化所述变换域信号的量化单元。所述量化单元基于输入信号特征,决定利用基于模型的量化器或非基于模型的量化器来编码所述变换域信号。优选地,决定是基于变换单元应用的帧大小的。

Description

音频编码器和解码器
本申请是申请号为200880125539.2、申请日为2008年12月30日、发明名称为“音频编码器和解码器”的发明专利申请的分案申请。
技术领域
本发明涉及音频信号的编码,具体而言,涉及对不仅限于语音、音乐或者其组合的任何音频信号的编码。
发明背景
在现有技术中,有专门设计为通过将编码基于信号的源模型,即,人的发音系统,来对语音信号进行编码的语音编码器。这些编码器不能处理诸如音乐或任何其他非语音信号之类的任意音频信号。另外,在现有技术中还有通常被称为音频编码器的音乐编码器,它们将编码基于人的听觉系统的构想,而不是基于信号的源模型。这些编码器可以很好地处理任意信号,但是对于低比特率的语音信号,专用的语音编码器提供了优良的音频质量。因此,到目前为止,还不存在用于编码任意音频信号的通用的编码结构,并且当以低比特率操作时,其既能作为针对语音的语音编码器又能作为针对音乐的音乐编码器。
因此,需要一种能改善音频质量和/或降低比特率的增强型音频编码器和解码器。
发明内容
本发明涉及以等于或好于专门针对特定信号定制的的系统的质量水平的质量水平有效地编码任意音频信号。
本发明涉及包含线性预测编码(LPC)和对经LPC处理的信号进行操作的变换编码器部分的音频编码解码器算法。
本发明进一步涉及取决于变换帧大小的量化策略。此外,还提出了使用算术编码的基于模型的熵约束量化器。另外,还可在均匀标量量化器中插入随机偏移。本发明进一步建议了使用算术编码的基于模型的量化器,例如,熵约束量化器(ECQ)。
本发明进一步涉及通过利用LPC数据的存在来有效地编码音频编码器变换编码部分中的比例因子。
本发明进一步涉及有效地利用带有可变帧大小的音频编码器中的比特储存器(reservoir)。
本发明进一步涉及用于对音频信号进行编码并生成比特流的编码器,以及用于对比特流进行解码并生成感觉上与输入的音频信号难区分的重构的音频信号的解码器。
本发明的第一方面涉及变换编码器中的、例如应用改进离散余弦变换(MDCT)的量化。所提出的量化器优选地量化MDCT线。不论编码器是否进一步使用线性预测编码(LPC)分析或额外的长期预测(LTP),此方面都适用。
本发明提供了一种音频编码系统,包括用于基于自适应滤波器过滤(滤波)输入信号的线性预测单元;用于将所述经滤波(filter)的输入信号的帧转换为变换域的变换单元;以及,用于量化所述变换域信号的量化单元。所述量化单元,基于输入信号特征,决定利用基于模型的量化器或非基于模型的量化器来编码所述变换域信号。优选地,决定是基于变换单元应用的帧大小来作出的。然而,也可以预见用于切换量化策略的其他输入信号依赖的准则,它们都在本申请的范围内。
本发明的另一个重要方面是量化器可以是自适应的。具体而言,基于模型的量化器中的模型可以是自适应的,以调整到输入音频信号。模型可以随着时间而变化,例如,取决于输入信号特征。这可以降低量化失真,并如此会改善编码质量。
根据一个实施例,所提出的量化策略取决于帧大小。还提出了,量化单元可以基于由变换单元应用的帧大小,决定利用基于模型的量化器或非基于模型的量化器来编码所述变换域信号。优选地,量化单元被配置成通过基于模型的熵约束量化,为帧大小小于阈值的帧编码变换域信号。基于模型的量化可以取决于分类的参数。大帧可以,例如通过带有例如基于赫夫曼的熵编码的标量量化器,来进行量化,如在,例如,AAC编解码器中所使用的。
音频编码系统还可以进一步包括长期预测(LTP)单元,用于基于所述经滤波的输入信号的前面的段的重构,来估计所述经滤波的输入信号的所述帧,以及变换域信号组合单元,用于在所述变换域中,组合所述长期预测估计和所述经变换的输入信号,以生成输入到量化单元中的所述变换域信号。
MDCT线的不同的量化方法之间的切换是本发明的优选实施例的另一个方面。通过对于不同的变换大小而使用不同的量化策略,编解码器可以在MDCT域中执行所有量化和编码,无需与变换域编解码器并联地或串联地运行特定的时域语音编码器。本发明教导了,对于有LTP增益的语音之类的信号,优选地,使用短的变换和基于模型的量化器来对信号进行编码。基于模型的量化器特别适合于短变换,并且如稍后将概述的,提供了时域语音特定的矢量量化器(VQ)的优点,而仍在MDCT域中操作,并且没有输入信号是语音信号的要求。换言之,当基于模型的量化器与LTP相结合地用于短变换段时,保留了专用时域语音编码器VQ的效率,而没有失去通用性,也没有离开MDCT域。
另外,对于更静止的音乐信号,优选使用相对较大的变换,如通常在音频编解码器中所使用的,以及可以利用通过大变换来判别的稀疏的谱线的量化方案。因此,本发明教导了对于长变换使用这种量化方案。
如此,根据帧大小来切换量化策略,可使编解码器既可保留专用语音编解码器的属性,又可保留专用音频编解码器的属性,只需通过选择变换大小即可。这就避免了力图同样以低速率处理语音和音频信号的现有技术系统中的所有问题,因为这些系统不可避免地遇到有效地将时域编码(语音编码器)与频域编码(音频编码器)组合的问题和困难。
根据本发明的另一个方面,量化使用自适应步长。优选地,变换域信号的分量的量化步长是基于线性预测和/或长期预测参数而自适应的。量化步长还可以进一步被配置成依赖于频率。在本发明的各实施例中,量化步长是基于下列各项中的至少一项确定的:自适应滤波器的多项式、编码速率控制参数、长期预测增益值,以及输入信号方差。
优选地,量化单元包括用于量化变换域信号分量的均匀标量量化器。每一标量量化器都例如基于概率模型,向MDCT线应用均匀量化。概率模型可以是拉普拉斯或高斯模型,或适于信号特征的任何其他概率模型。量化单元还可以进一步将随机偏移插入到均匀标量量化器中。随机偏移插入向均匀标量量化器提供了矢量量化优点。根据一个实施例,随机偏移是基于量化失真的优化而确定的,优选地,在感知域中和/或考虑到按照对量化指数进行编码所需的比特的数量的成本。
量化单元还可以进一步包括用于编码由均匀标量量化器所生成的量化指数的算术编码器。这就获得了趋近于由信号熵所给出的可能的最小值的低比特率。
量化单元还可以进一步包括残余量化器,用于量化由均匀标量量化器而产生的残余量化信号,以便进一步降低总失真。残余量化器优选是固定速率矢量量化器。
可以在编码器的去量化单元中和/或解码器中的反量化器中使用多个量化重构点。例如,可以使用最小均方误差(MMSE)和/或中心点(中点)重构点,来基于其量化指数重构量化值。量化重构点还可以进一步基于中心点和MMSE点之间的可能通过数据的特征来控制的动态内插。这允许控制噪声插入,并避免由于为了低比特率而向零量化条(bin)指定MDCT线所造成的频谱缺陷(hole)。
在确定量化失真以便向特定频率分量设置不同的权重时优选地应用变换域中的感知加权。感知权重可以有效地来源于线性预测参数。
本发明的另一个独立的方面涉及利用LPC和SCF(比例因子)数据的共存的一般概念。在例如应用改进离散余弦变换(MDCT)的基于变换的编码器中,可以在量化中使用比例因子来控制量化步长。在现有技术中,这些比例因子是根据原始信号估计的,以确定掩蔽曲线。现在建议,借助于感知滤波器或根据LPC数据计算出的心理声学模型来估计第二组比例因子。这允许通过只传输/存储实际应用的比例因子与LPC估计的比例因子之间的差代替传输/存储真实的比例因子,降低用于传输/存储比例因子的成本。如此,在包含诸如,例如LPC之类的语音编码元件,以及诸如MDCT之类的变换编码元件的音频编码系统中,本发明通过利用由LPC所提供的数据,降低用于传输编解码器的变换编码部分所需的比例因子信息的成本。应当注意,此方面独立于所提出的音频编码系统的其他方面,并也可以在其他音频编码系统中实现。
例如,可以基于自适应滤波器的参数来估计感知掩蔽曲线。基于线性预测的第二组比例因子可以基于估计的感知掩蔽曲线来确定。然后,基于在量化中实际使用的比例因子和根据基于LPC的感知掩蔽曲线计算出的比例因子之间的差,来确定存储的/传输的比例因子信息。这就从存储的/传输的信息中删除动态特性和冗余,以便存储/传输比例因子所需的比特更少。
在LPC和MDCT不以相同帧速率操作的情况下,即,具有不同的帧大小,则可以基于内插的线性预测参数,估计变换域信号的帧的基于线性预测的比例因子,以便对应于由MDCT帧所覆盖的时间窗口(window)。
因此,本发明提供了基于变换编码器、并包括来自语音编码器的基本预测和整形模块的音频编码系统。本发明的系统包括用于基于自适应滤波器过滤输入信号的线性预测单元;用于将所述经滤波的输入信号的帧转换为变换域的变换单元;用于量化变换域信号的量化单元;比例因子确定单元,用于基于掩蔽阈值曲线,生成比例因子,供在量化所述变换域信号时在所述量化单元中使用;线性预测比例因子估计单元,用于基于所述自适应滤波器的参数,估计基于线性预测的比例因子;以及比例因子编码器,用于编码所述基于掩蔽阈值曲线的比例因子和所述基于线性预测的比例因子之间的差。通过编码应用的比例因子和可以基于可用的线性预测信息而在解码器中确定的比例因子之间的差,编码和存储效率可以得到提高,并且只需要存储/传输更少的比特。
本发明的另一个独立编码器特定的方面涉及对于可变帧大小的比特储存器处理。在可以对可变长度的帧进行编码的音频编码系统中,通过在多个帧之间分布可用的比特,控制比特储存器。在给定各个帧的合理难度测度和定义的大小的比特储存器的情况下,与所要求的恒定比特率的某一偏差允许更好的总质量,而不会违犯由比特储存器大小施加的缓冲区要求。本发明将使用比特储存器的概念扩展到针对带有可变帧大小的一般化音频编解码器的比特储存器控制。因此,音频编码系统可以包括比特储存器控制单元,用于基于帧的长度和帧的难度测度,确定许可用于编码经滤波的信号的帧的比特的数量。优选地,比特储存器控制单元对于不同的帧难度测度和/或不同的帧大小,具有单独的控制方程。不同的帧大小的难度测度可以被归一化,如此,可以更加容易地对它们进行比较。为了控制对于可变速率编码器的比特分配,比特储存器控制单元优选将许可的比特控制算法的较低的允许限制设置到最大允许的帧大小的比特的平均数。
本发明的进一步方面涉及使用基于模型的量化器,例如,熵约束量化器(ECQ)的编码器中的比特储存器的处理。建议最小化ECQ步长的变化。建议了将量化器步长与ECQ速率相关联的特定控制方程。
用于过滤输入信号的自适应滤波器,优选地基于线性预测编码(LPC)分析,包括产生白化输入信号的LPC滤波器。输入数据的当前帧的LPC参数可以通过本领域已知的算法来确定。LPC参数估计单元可以对于输入数据的帧,计算任何合适的LPC参数表示,如多项式、传输函数、反射系数、线谱频率等等。用于编码或其他处理的特定类型的LPC参数表示取决于相应的要求。如本领域技术人员已知的,某些表示比其他表示更加适合于某些运算,因此,某些表示对于实现这些运算是优选的。线性预测单元可以以固定的(例如,20毫秒)第一帧长度来操作。线性预测过滤还可以进一步在扭曲频率轴上操作,以有选择地相对于其他频率强调某些频率范围,如低频率。
应用于经滤波的输入信号的帧的变换,优选是以可变第二帧长度来操作的改进离散余弦变换(MDCT)。音频编码系统可以包括窗口序列控制单元,该单元通过对于包括数个帧的整个输入信号块最小化编码成本函数,优选为简单化的感知熵,来对于输入信号块,确定用于重叠MDCT窗口的帧长度。如此,导出将输入信号块分割为具有相应的第二帧长度的MDCT窗口的最优分割法。因此,提出了一种变换域编码结构,包括带有自适应长度MDCT帧的语音编码器元件,只作为LPC除外的所有处理的基本单位。由于MDCT帧长度可以呈现许多不同的值,因此,可以发现最佳的序列,并且可以避免如在只应用小窗口大小和大窗口大小的现有技术中常用的那样的突变(abrupt)的帧大小变化。另外,也不需要如在某些现有技术的小的和大的窗口大小之间的过渡的方法中所使用的那样的具有锋利的边的过渡变换窗口。
优选地,连续的MDCT窗口长度至多按因子(2)来变化,和/或MDCT窗口长度是二元值。更具体地,MDCT窗口长度可以是输入信号块的二元分区。因此,MDCT窗口序列仅限于易于利用少量的比特编码的预定的序列。另外,窗口序列也具有帧大小的平稳过渡,从而排除了突变的帧大小变化。
窗口序列控制单元可以进一步被配置成,当搜索对于输入信号块而最小化编码成本函数的MDCT窗口长度的序列时,对于窗口长度候选考虑通过长期预测单元所生成的长期预测估计。在此实施例中,当确定MDCT窗口长度时,长期预测循环是封闭的,这会导致改善适合于编码的MDCT窗口的序列。
音频编码系统还可以进一步包括LPC编码器,用于以可变速率递归地编码由线性预测单元生成的线谱频率或其他适当的LPC参数表示,以便存储和/或传输到解码器。根据一个实施例,提供了线性预测内插单元,用于内插以对应于第一帧长度的速率生成的线性预测参数,以便匹配变换域信号的可变帧长度。
根据本发明的一个方面,音频编码系统可以包括感知建模单元,该单元通过对于LPC帧啁啾和/或倾斜由线性预测单元生成的LPC多项式,修改自适应滤波器的特征。通过对自适应滤波器特征的修改而接收到的感知模型可以在系统中用于许多目的。例如,它可以作为量化或长期预测中的感知加权函数来应用。
本发明的另一个方面涉及长期预测(LTP),具体而言,涉及MDCT域中的长期预测、MDCT帧自适应的LTP和MDCT加权的LTP搜索。不论在变换编码器的上游是否存在LPC分析,这些方面都是适用的。
根据一个实施例,音频编码系统进一步包括反量化和逆变换单元,用于生成经滤波的输入信号的帧时域重构。此外,还可以提供用于存储经滤波的输入信号的前面的帧的时域重构的长期预测缓冲区。这些单元可以以从量化单元到长期预测提取单元的反馈回路的方式排列,该反馈回路在长期预测缓冲区中搜索最佳匹配经滤波的输入信号的当前帧的重构的段。另外,还可以提供长期预测增益估计单元,用于调整来自长期预测缓冲区的所选段的增益,以便它最佳匹配当前帧。优选地,从变换域中的经变换的输入信号中减去长期预测估计。因此,可以提供用于将所选段变换为变换域的第二变换单元。长期预测循环还可以包括在反量化之后并且在逆变换为时域之前,将变换域中的长期预测估计添加到反馈信号。如此,可以使用反向自适应长期预测方案,该方案在变换域中,基于前面的帧预测经滤波的输入信号的当前帧。为了更有效,可以以不同的方式进一步适应(adapt)长期预测方案,如下面对于某些示例所提出的。
根据一个实施例,长期预测单元包括长期预测提取器,用于确定滞后值,该值指定了最佳适合经滤波的信号的当前帧的经滤波的信号的重构的段。长期预测增益估计器可以估计应用于经滤波的信号的所选段的信号的增益值。优选地,如此确定滞后值和增益值,以便最小化涉及感知域中的长期预测估计与变换的输入信号的差的失真准则。当最小化失真准则时,可以将修改过的线性预测多项式作为MDCT域均衡增益曲线来应用。
长期预测单元可以包括变换单元,用于将来自LTP缓冲区的段的重构信号变换为变换域。为有效实现MDCT变换,优选地,变换是IV类型离散余弦变换。
本发明的另一个方面涉及用于解码由上面的编码器的实施例生成的比特流的音频解码器。根据一个实施例的解码器包括去量化单元,用于基于比例因子去量化输入比特流的帧;逆变换单元,用于逆向地变换变换域信号;用于过滤所述逆向地变换的变换域信号的线性预测单元;以及比例因子解码单元,用于基于接收到的比例因子增量(deltaΔ)信息,生成去量化中所使用的所述比例因子,其编码了在所述编码器中应用的所述比例因子和基于所述自适应滤波器的参数而生成的比例因子之间的差。解码器还可以进一步包括比例因子确定单元,用于基于来源于当前帧的线性预测参数的掩蔽阈值曲线,生成比例因子。比例因子解码单元可以组合接收到的比例因子增量信息和所生成的基于线性预测的比例因子,以生成用于输入到去量化单元的比例因子。
根据另一个实施例的解码器包括基于模型的去量化单元,用于去量化输入比特流的帧;逆变换单元,用于逆向地变换变换域信号;以及用于过滤逆向地变换的变换域信号的线性预测单元。去量化单元可以包括非基于模型的去量化器和基于模型的去量化器。
优选地,去量化单元包括至少一个自适应概率模型。去量化单元可以被配置成作为传输的信号特征的函数来自适应去量化。
去量化单元还可以进一步基于经解码的帧的控制数据,来决定去量化策略。优选地,去量化控制数据是与比特流一起接收到的,或来源于接收到的数据。例如,去量化单元基于帧的变换大小来决定去量化策略。
根据另一个方面,去量化单元包括自适应重构点。去量化单元可以包括均匀标量去量化器,它们被配置成每个量化区间使用两个去量化重构点,具体而言,中点和MMSE重构点。
根据一个实施例,去量化单元与算术编码相结合地使用基于模型的量化器。
另外,解码器可以包括如上文对于编码器所公开的许多方面。一般而言,解码器将镜像(mirror)编码器的操作,虽然某些操作只在编码器中执行,而在解码器中没有对应的组件。如此,如果没有以别的方式陈述,对于编码器所公开的内容被视为也适用于解码器。
本发明的上面的方面可以作为装置、设备、方法或在可编程装置上操作的计算机程序来实现。本发明的方面还可以进一步以信号、数据结构和比特流来实现。
如此,本申请进一步公开了音频编码方法和音频解码方法。示例性音频编码方法包括下列步骤:基于自适应滤波器过滤输入信号;将所述经滤波的输入信号的帧转换为变换域;量化所述变换域信号;基于掩蔽阈值曲线,生成比例因子,供在量化所述变换域信号时在所述量化单元中使用;基于所述自适应滤波器的参数,估计基于线性预测的比例因子;以及编码所述基于掩蔽阈值曲线的比例因子和所述基于线性预测的比例因子之间的差。
另一个音频编码方法包括下列步骤:基于自适应滤波器过滤输入信号;将所述经滤波的输入信号的帧转换为变换域;以及量化所述变换域信号;其中所述量化单元基于输入信号特征,决定利用基于模型的量化器或非基于模型的量化器来编码所述变换域信号。
示例性音频解码方法包括下列步骤:基于比例因子,去量化输入比特流的帧;逆向地变换变换域信号;线性预测过滤所述逆向地变换的变换域信号;基于所述自适应滤波器的参数,估计第二比例因子;以及基于接收到的比例因子差信息和所估计的第二比例因子,生成去量化中所使用的所述比例因子。
另一个音频编码方法包括下列步骤:去量化输入比特流的帧;逆向地变换变换域信号;以及线性预测过滤所述逆向地变换的变换域信号;其中,所述去量化使用非基于模型的去量化器和基于模型的去量化器。
这些只是本申请教导的优选的音频编码/解码方法和计算机程序的示例,所属技术领域的专业人员可以从下面对示例性实施例的描述中导出其他方法。
附图说明
现在将参考附图,以只作为说明性示例而非限制本发明的范围或精神的方式,对本发明进行描述,其中:
图1示出了根据本发明的编码器和解码器的优选实施例;
图2示出了根据本发明的编码器和解码器的比较详细的视图;
图3示出了根据本发明的编码器的另一个实施例;
图4示出了根据本发明的编码器的优选实施例;
图5示出了根据本发明的解码器的优选实施例;
图6示出了根据本发明的MDCT线路编码和解码的优选实施例;
图7示出了根据本发明的编码器和解码器的优选实施例,以及从一个传输到另一个的相关控制数据的示例;
图7a是根据本发明的实施例的编码器的方面的另一个例图;
图8示出了根据本发明的实施例的LPC数据和MDCT数据之间的窗口序列和关系的示例;
图9示出了根据本发明的比例因子数据和LPC数据的组合;
图9a示出了根据本发明的比例因子数据和LPC数据的组合的另一个实施例;
图9b示出了根据本发明的编码器和解码器的另一个简化框图;
图10示出了根据本发明将LPC多项式转换为MDCT增益曲线的优选实施例;
图11示出了根据本发明的将恒定的更新速率LPC参数映射到自适应MDCT窗口序列数据的优选实施例;
图12示出了根据本发明的基于量化器的变换大小和类型自适应感知加权滤波器计算的优选实施例;
图13示出了根据本发明的自适应取决于帧大小的量化器的优选实施例;
图14示出了根据本发明的自适应取决于帧大小的量化器的优选实施例;
图15示出了根据本发明的作为LPC和LTP数据的函数来自适应量化步长的优选实施例;
图15a示出了如何通过增量自适应模块从LPC和LTP参数导出增量曲线;
图16示出了根据本发明的利用随机偏移的基于模型的量化器的优选实施例;
图17示出了根据本发明的基于模型的量化器的优选实施例;
图17a示出了根据本发明的基于模型的量化器的另一个优选实施例;
图17b概要地示出了根据本发明的一个实施例的基于模型的MDCT线解码器2150;
图17c示出了根据本发明的一个实施例的量化器预处理的方面;
图17d概要地示出了根据本发明的一个实施例的步长的方面;
图17e概要地示出了根据本发明的一个实施例的基于模型的熵约束编码器;
图17f概要地示出了均匀标量量化器(USQ)的操作;
图17g概要地示出了根据本发明的一个实施例的概率计算;
图17h示出了根据本发明的一个实施例的去量化过程;
图18示出了根据本发明的比特储存器控制的一个优选实施例;
图18a示出了比特储存器控制的基本概念;
图18b示出了根据本发明的可变帧大小的比特储存器控制的概念;
图18c示出了根据一个实施例的比特储存器控制的示例性控制曲线;
图19示出了根据本发明的使用不同的重构点的反量化器的一个优选实施例。
具体实施方式
下面所描述的实施例只是本发明的音频编码器和解码器的原理的说明。应该理解,对此处所描述的布局和细节的修改和变体对本领域技术人员是明显的。因此,意图仅在于由所附专利权利要求的范围加以限制,而不由其中作为实施例的描述和说明而呈现的具体细节加以限制。实施例的类似的组件通过类似的附图标记来进行编号。
在图1中,示出了编码器101和解码器102。编码器101获取时域输入信号,并产生随后发送到解码器102的比特流103。解码器102基于接收到的比特流103,产生输出波形。输出信号在心理声学方面类似于原始输入信号。
在图2中,示出了编码器200和解码器210的一个优选实施例。编码器200中的输入信号被传递通过LPC(线性预测编码)模块201,该模块201为具有第一帧长度的LPC帧生成白化残余信号,以及对应的线性预测参数。另外,在LPC模块201中还可以包括增益归一化。来自LPC的残余信号被以第二可变帧长度操作的MDCT(改进离散余弦变换)模块202转换成频域。在图2中所描绘的编码器200中,包括了LTP(长期预测)模块205。在本发明的又一实施例中,将详细说明LTP。MDCT线被量化203,还被去量化204,以便在其对解码器210可用时向LTP缓冲区馈送经解码的输出的副本。由于量化失真,此副本叫做相应的输入信号的重构。在图2下部,描绘了解码器210。解码器210取已量化的MDCT线,将它们去量化211,添加来自LTP模块214的贡献,并执行逆MDCT变换212,接下来是LPC合成滤波器213。
上面的实施例的一个重要方面是,MDCT帧是用于编码的唯一基本单位,虽然LPC具有其自己的(并且在一个实施例中恒定的)帧大小,并且也编码LPC参数。该实施例从变换编码器开始,并引入来自语音编码器的基本预测和整形模块。如稍后所讨论的,MDCT帧大小是可变的,并通过最小化简单化的感知熵成本函数,确定整个块的最佳MDCT窗口序列,使其适用于输入信号块。这可使缩放(scale)维持最佳时间/频率控制。此外,所提出的统一的结构避免了不同的编码范例的切换或分层的组合。
在图3中,比较详细地概要地描述了编码器300的部分。从图2的编码器中的LPC模块201输出的白化信号被输入到MDCT滤波器组302。MDCT分析可以可任选地是时间扭曲的MDCT分析,该分析确保在MDCT变换窗口内信号的音高恒定(如果信号是周期性并带有明确定义的音高)。
在图3中,比较详细地描绘了LTP模块310。它包括保留了前面的输出信号段的重构的时域样本的LTP缓冲区311。在给定当前输入段的情况下,LTP提取器312查找LTP缓冲区311中的最佳匹配段。在从当前输入到量化器303的段中减去此段之前,由增益单元313向此段应用合适的增益值。显然,为了在量化之前执行减法,但是LTP提取器312还将所选定的信号段变换到MDCT域。当将重构的前面的输出信号段与经变换的MDCT域输入帧组合时,LTP提取器312搜索最小化感知域中的误差函数的最佳增益和滞后值。例如,优化来自LTP模块310的经变换的重构的段和经变换的输入帧(即,减法之后的残余信号)之间的均方误差(MSE)函数。此优化可以在感知域中执行,在那里根据它们的感知重要性,加权频率分量(即,MDCT线)。LTP模块310在MDCT帧单元中操作,而编码器300一次考虑一个MDCT帧残余,例如,对于量化模块303中的量化。可以在感知域中执行滞后和增益搜索。可任选地,LTP可以是可选择频率的,即,对频率自适应增益和/或滞后。描绘了反量化单元304和逆MDCT单元306。如后面所解释的,MDCT可以是时间扭曲的。
在图4中,示出了编码器400的另一个实施例。除图3之外,为阐明而包括了LPC分析401。示出了用来将选定信号段变换为MDCT域的DCT-IV变换414。另外,还示出了计算进行LTP段选择的最小误差的数种方式。除如图4所示的残余信号的最小化之外(在图4中标识为LTP2),还示出了在被逆向地变换到重构的时域信号以便存储在LTP缓冲区411中之前经变换的输入信号和去量化的MDCT域信号之间的差的最小化(表示为LTP3)。此MSE函数的最小化将把LTP贡献引导向经变换的输入信号和用于存储在LTP缓冲区411中的重构的输入信号的最佳(尽可能地)相似度。另一个替代误差函数(表示为LTP 1)基于时域中的这些信号的差。在此情况下,LPC滤波的输入帧和LTP缓冲区411中的对应的时域重构之间的MSE被最小化。优选地,MSE是基于MDCT帧大小计算的,MDCT帧大小可以不同于LPC帧大小。另外,量化器和去量化器块被替换为频谱编码块403和频谱解码块404(“Spec enc”和“Spec dec”),它们可以包含除量化之外的额外的模块,如在图6中所描绘的。再次,MDCT和逆MDCT可以是时间扭曲的(WMDCT,IWMDCT)。
在图5中,示出了所提出的解码器500。来自接收到的比特流的频谱数据被逆向地量化511,并添加(add)来自LTP缓冲区515的由LTP提取器所提供的LTP贡献。还示出了解码器500中的LTP提取器516和LTP增益单元517。总计的MDCT线被MDCT合成块合成到时域,而时域信号被LPC合成滤波器513进行频谱整形。
在图6中,比较详细地描述了图4的“Spec dec”和“Spec enc”块403、404。在一个实施例中,在该图的右边所示出的“Spec enc”块603包括谐波预测分析模块610、TNS分析(时域噪声整形)模块611,接下来是MDCT线的比例因子缩放模块612,最后是编码线模块613中的线的量化和编码。在该图的左边所示出的解码器“Spec Dec”块604执行逆过程,即,接收到的MDCT线在解码线模块620中被去量化,并是比例因子(SCF)缩放模块621撤销缩放。应用TNS合成622和谐波预测合成623。
在图7中,描绘了本发明的编码系统的非常一般的例图。示例性编码器取输入信号,并产生比特流,除了别的数据之外,还包含:
·已量化的MDCT线;
·比例因子;
·LPC多项式表示;
·信号段能量(例如,信号方差);
·窗口序列;
·LTP数据。
根据实施例的解码器读取所提供的比特流,并产生在心理声学方面类似于原始信号的音频输出信号。
图7a是根据本发明的一个实施例的编码器700的方面的另一个例图。编码器700包括LPC模块701、MDCT模块704、LTP模块705(只简要示出)、量化模块703和用于将重构的信号反馈到LTP模块705的反量化模块704。进一步提供了用于估计输入信号的音高的音高估计模块750,以及用于为更大输入信号块确定最佳MDCT窗口序列(例如,1秒)的窗口序列确定模块751。在此实施例中,MDCT窗口序列是基于开环方法确定的,在该方法中,确定最小化编码成本函数,例如简单化的感知熵的MDCT窗口大小候选的序列。当搜索最佳MDCT窗口序列时,可以可任选地考虑LTP模块705对被窗口序列确定模块751最小化的编码成本函数的贡献。优选地,对于每一个已评估的窗口大小候选,确定对于对应于窗口大小候选的MDCT帧的最佳长期预测贡献,并估计相应的编码成本。一般而言,短MDCT帧大小更适合于语音输入,而具有精细频谱分辨率的长变换窗口对于音频信号为优选。
感知权重或感知加权函数是基于由LPC模块701计算出的LPC参数确定的,下面将更详细地对其进行说明。将感知权重提供到两者都在MDCT域中操作的LTP模块705和量化模块703,以便根据它们相应的感知重要性加权频率分量的误差或失真贡献(contribution)。图7a还示出了哪些编码参数优选地由稍后将讨论的适当编码方案传输到解码器。
接下来,将讨论LPC和MDCT数据的共存和MDCT中的LPC的效果的模拟,两者都为了反作用和实际滤波省略。
根据一个实施例,LP模块过滤输入信号,以便移除信号的谱形,LP模块的随后的输出是频谱平坦的信号。这对于例如LTP的操作是有利的。然而,对频谱平坦的信号进行操作的编解码器的其他部分可以受益于知道在进行LP滤波之前原始信号的谱形是什么样子。因为编码器模块在滤波之后,对频谱平坦的信号的MDCT变换进行操作,本发明教导了在进行LP滤波之前原始信号的谱形可以,如果需要的话,通过将所使用的LP滤波器的传输函数(即,原始信号的频谱包络)映射到对频谱平坦信号的MDCT表示的频点(bin)应用的增益曲线或均衡曲线,被重新施加于频谱平坦信号的MDCT表示。相反,LP模块可以省略实际滤波,并只估计随后被映射到增益曲线的传输函数,该增益曲线可以被施加于信号的MDCT表示,如此消除了对输入信号进行时域滤波的必要性。
本发明的各实施例的一个突出的方面是,对LPC白化信号使用灵活的窗口分割(segmentation)来操作基于MDCT的变换编码器。在图8中对此进行了描绘,在该图中,与LPC的加窗一起,给出了示例性MDCT窗口序列。因此,从该图可以清楚地看出,LPC对恒定帧大小(例如,20ms)进行操作,而MDCT对可变窗口序列(例如,4到128ms)进行操作。这允许独立地为LPC选择最佳窗口长度,而为MDCT选择最佳窗口序列。
图8还示出了LPC数据和MDCT数据之间的关系,该LPC数据具体为以第一帧速率生成的LPC参数,该MDCT数据具体为以第二可变速率生成的MDCT线。该图中的向下的箭头代表被内插在LPC帧(圆圈)之间的LPC数据,以便匹配对应的MDCT帧。例如,为如MDCT窗口序列所确定的时间实例,内插LPC生成的感知加权函数。
向上的箭头代表用于MDCT线编码的细化数据(即,控制数据)。对于AAC帧,此数据通常是比例因子,而对于ECQ帧,该数据通常是方差校正数据等等。实线对虚线代表在给定某一量化器的情况下,哪些数据对于MDCT线编码是最“重要的”数据。双向下箭头代表编解码器谱线。
可以利用编码器中的LPC和MDCT数据的共存,例如,来通过考虑根据LPC参数所估计的感知掩蔽曲线,降低编码MDCT比例因子的比特要求。此外,当确定量化失真时,还可以使用LPC导出的感知加权。如图所示并如下面将讨论的,取决于接收到的数据的帧大小,即对应于MDCT帧或窗口大小,量化器以两种模式操作,并生成两种类型的帧(ECQ帧和AAC帧)。
图11示出了将恒定速率LPC参数映射到自适应MDCT窗口序列数据的一个优选实施例。LPC映射模块1100根据LPC更新速率接收LPC参数。另外,LPC映射模块1100还接收有关MDCT窗口序列的信息。然后,它生成LPC到MDCT的映射,例如,用于将基于LPC的心理声学数据映射到以可变的MDCT帧速率生成的相应的MDCT帧。例如,LPC映射模块内插LPC多项式或对应于MDCT帧的时间实例的相关数据,用作例如,LTP模块或量化器中的感知权重。
现在,通过参考图9,讨论基于LPC的感知模型的细节。在本发明的一个实施例中,自适应LPC模块901,以通过对于16kHz采样速率信号,使用例如阶16的线性预测,来产生白色输出信号。例如,图2中的来自LPC模块201的输出是在进行LPC参数估计和滤波之后的残余。如在图9的左下部概要地示出的所估计的LPC多项式A(z),可以通过带宽扩展系数被啁啾,在本发明的一种实现中,还可以通过修改对应的LPC多项式的第一反射系数,被倾斜(tilt)。通过将多项式的极点向内移动到单位圆中,啁啾可以扩展LPC传输函数中的峰值的带宽,如此导致更软的峰值。倾斜可使LPC传输函数更平,以便平衡较低和较高的频率的影响。这些修改力求从已估计的LPC参数生成将在系统的编码器和解码器两侧可用的感知掩蔽曲线A'(z)。在下面的图12中呈现了LPC多项式的操纵的细节。
对LPC残余操作的MDCT编码,在本发明的一种实现中,具有控制量化器的分辨率或量化步长(以及如此,由量化所引入的噪声)的比例因子。这些比例因子是由比例因子估计模块960对原始输入信号来进行估计的。例如,比例因子是从根据原始信号估计的感知掩蔽阈值曲线导出的。在一个实施例中,可以使用单独的频率变换(可能具有不同的频率分辨率)来确定掩蔽阈值曲线,但是,这并不总是必需的。可另选地,根据由变换模块所生成的MDCT线,来估计掩蔽阈值曲线。图9的右下部概要地示出了由比例因子估计模块960所生成的比例因子,用于控制量化,以便所引入的量化噪声仅限于听不见的失真。
如果LPC滤波器连接到MDCT变换模块的上游,则将白化信号变换到MDCT域。由于此信号具有白谱,因此,不太适合从它导出感知掩蔽曲线。如此,当估计掩蔽阈值曲线和/或比例因子时,可以使用生成的用于补偿频谱的白化的MDCT域均衡增益曲线。这是因为,需要对具有原始信号的绝对频谱属性的信号来估计比例因子,以便正确地估计感觉上的掩蔽。下面将参考图10比较详细地讨论从LPC多项式计算MDCT域均衡增益曲线。
图9a中描绘了上面概述的比例因子估计图式的一个实施例。在此实施例中,输入信号被输入到估计通过A(z)所描述的输入信号的频谱包络的LP模块901,并输出所述多项式以及输入信号的经滤波的版本。利用A(z)的逆对输入信号进行滤波,以便获取如编码器的其他部分所使用的频谱白信号。经滤波的信号
Figure BDA00002712770300191
被输入到MDCT变换单元902,而A(z)多项式被输入到MDCT增益曲线计算单元970(如图14中所描绘的)。向MDCT系数或线应用从LP多项式估计的增益曲线,以便在进行比例因子估计之前保留原始输入信号的频谱包络。经增益调整的MDCT线被输入到为输入信号估计比例因子的比例因子估计模块960。
通过使用上面所概述的方法,在编码器和解码器之间传输的数据包含LP多项式以及在变换编解码器中通常使用的比例因子,当使用基于模型的量化器时,可以从LP多项式导出相关感知信息以及信号模型。
详细来说,返回到图9,该图中的LPC模块901从输入信号来估计信号的频谱包络A(z),并从此导出感知表达A'(z)。另外,对输入信号来估计通常在基于变换的感知音频编解码器中所使用的比例因子,或者,如果在比例因子估计中考虑LP滤波器的传输函数,也可以对由LP滤波器所产生的白信号估计它们(如在下面的图10的上下文中所描述的)。然后,可以在给定LP多项式的情况下,在比例因子自适应模块961中自适应比例因子,如下面所概述的,以便降低传输比例因子所需的比特率。
通常,比例因子被传输到解码器,LP多项式也是如此。现在,假定它们两者都是从原始输入信号估计的,并且它们两者都在某种程度上与原始输入信号的绝对频谱属性相关联,提出了编码两者之间的增量表达,以便消除在两者分开传输的情况下可能会产生的任何冗余。根据一个实施例,按如下方式利用此关联。由于LPC多项式,当被正确地啁啾和倾斜之后,力求代表掩蔽阈值曲线,因此,可以将两种表达组合起来,以便变换编码器的已传输的比例因子代表所希望的比例因子和可以从已传输的LPC多项式导出的那些比例因子之间的差。因此,如图9所示的比例因子自适应模块961计算从原始输入信号所生成的所希望的比例因子和LPC导出的比例因子之间的差。此方面保留了在LPC结构内具有对LPC残余进行操作的基于MDCT的量化器(该量化器具有变换编码器中所通常使用的比例因子的概念)的能力,并且仍具有切换到仅仅从线性预测数据导出量化步长的基于模型的量化器的可能性。
在图9b中,给出了根据一个实施例的编码器和解码器的简化框图。编码器中的输入信号被传递通过生成白化残余信号和对应的线性预测参数的LPC模块901。另外,在LPC模块901中还可以包括增益归一化。来自LPC的残余信号被MDCT变换902转换成频率域。在图9b右边,描绘了解码器。解码器取已量化的MDCT线,将它们去量化911,并应用逆MDCT变换912,接下来是LPC合成滤波913。
从图9b的编码器中的LPC模块901输出的白化信号被输入到MDCT滤波器组902。MDCT线由于MDCT分析,被利用包括为MDCT频谱的不同的部分引导所期望的量化步长的感知模型的变换编码算法而变换编码。确定量化步长的值叫做“比例因子”,对于MDCT频谱的名为比例因子带的每一分区,有一个比例因子值。在现有技术变换编码算法中,比例因子通过比特流被传输到解码器。
根据本发明的一个方面,当编码量化中所使用的比例因子时,使用如参考图9所说明的从LPC参数估计的感知掩蔽曲线。估计感知掩蔽曲线的另一种可能性是对于MDCT线上的能量分布的估计,使用未修改的LPC滤波系数。利用此能量估算,可以在编码器和解码器两者中应用如在变换编码方案中所使用的心理声学模型,以获得掩蔽曲线的估计。
然后,将掩蔽曲线的两种表达组合起来,以便变换编码器的要传输的比例因子代表所期望的比例因子和可以从已传输的LPC多项式或基于LPC的心理声学模型导出的那些比例因子之间的差。此特征保留了在LPC结构内具有对LPC残余进行操作的基于MDCT的量化器(该量化器具有变换编码器中所通常使用的比例因子的概念)的能力,并且仍具有根据变换编码器的心理声学模型以每个比例因子带为基础地控制量化噪声的可能性。优点是,与传输绝对比例因子值而不考虑已经存在的LPC数据相比,传输比例因子的差将花费较少的比特。取决于比特率、帧大小或其他参数,可以选择要传输的比例因子残余的量。为具有对每一比例因子带的完全控制,可以利用适当的无噪编码方案来传输比例因子增量。在其他情况下,用于传输比例因子的成本可以通过比例因子差的更粗略的表达来进一步降低。具有最低的开销的特殊情况是当对于所有频带比例因子差都被设置为0,并且不传输额外的信息时。
图10示出了根据本发明将LPC多项式转换为MDCT增益曲线的一个优选实施例。如图2所描绘的,MDCT对由LPC滤波器1001进行白化的白化信号进行操作。为了保留原始输入信号的频谱包络,由MDCT增益曲线模块1070来计算MDCT增益曲线。对于由MDCT变换中的点(bin)所表示的频率,可以通过估计由LPC滤波器所描述的频谱包络的幅度响应,来获得MDCT域均衡增益曲线。然后,可以对MDCT数据应用增益曲线,例如,当如图3所描绘的计算最小均方误差时,或当如上文参考图9所描绘的估计用于进行比例因子确定的感知掩蔽曲线时。
图12示出了基于量化器的变换大小和/或类型自适应感知加权滤波器计算的一个优选实施例。由图16中的LPC模块1201来估计LP多项式A(z)。LPC参数修改模块1271接收诸如LPC多项式A(z)的LPC参数,并通过修改LPC参数来生成感知加权滤波器A'(z)。例如,扩展LPC多项式A(z)的带宽,和/或倾斜该多项式。输入到自适应啁啾与倾斜模块1272的参数是默认啁啾和倾斜值ρ和γ。在给定预定规则的情况下,基于所使用的变换大小,和/或所使用的量化策略Q,来修改这些值。经修改的啁啾和倾斜参数ρ'和γ'被输入到LPC参数修改模块1271,该模块1271将由A(z)所表示的输入信号频谱包络转换为由A'(z)所表示的感知掩蔽曲线。
下面,将说明根据本发明的一个实施例的取决于帧大小的量化策略,以及取决于分类的参数的基于模型的量化。本发明的一个方面是,它对于不同的变换大小或帧大小,利用不同的量化策略。这在图13中示出,在该图中,帧大小被用作使用基于模型的量化器或非基于模型的量化器的选择参数。值得注意的是,此量化方面独立于所公开的编码器/解码器的其他方面,并且也可以应用于其他编解码器中。非基于模型的量化器的一个示例是AAC音频编码标准中所使用的基于霍夫曼码表的量化器。基于模型的量化器可以是使用算术编码的熵约束量化器(ECQ)。然而,也可以本发明的各实施例中使用其他量化器。
根据本发明的一个独立方面,提出了在给定特定帧大小的情况下,作为帧大小的函数来在不同的量化策略之间进行切换以便能够使用最佳量化策略。作为示例,窗口序列可以规定对于信号的非常静止的音调音乐段,使用长变换。对于此特定信号类型,使用长变换,使用可以利用信号谱中的“稀少的”字符(即,定义明确的离散的音调)的量化策略是十分有益的。将AAC中所使用的量化方法与也如AAC中所使用的霍夫曼码表和谱线组相结合,是非常有益的。然而,相反,对于语音段,在给定LTP的编码增益的情况下,窗口序列可以规定使用短变换。对于此信号类型和变换大小,使用不试图查找或引入频谱中的稀少性,但是却维持了宽带能量(在给定LTP的情况下,将保留如原始输入信号的字符的脉冲)的量化策略是有益的。
图14给出了此概念的更一般的图示,在该图中,输入信号被转换成MDCT域,随后被由用于MDCT变换的变换大小或帧大小控制的量化器量化。
根据本发明的另一个方面,作为LPC和/或LTP数据的函数来自适应量化器步长。这允许根据帧的难度来确定步长,并控制被分配用于对帧进行编码的比特的数量。在图15中,给出了有关如何通过LPC和LTP数据来控制基于模型的量化的例图。在图15的顶部,给出了MDCT线的示意图示。下面,描绘了作为频率的函数的量化步长增量Δ。从此特定示例很清楚地看出,量化步长随着频率而增大,即,对于较高的频率,会产生更多的量化失真。通过图15a中所描绘的增量自适应模块从LPC和LTP参数导出增量曲线。如参考图13所说明的,增量曲线还可以进一步通过啁啾和/或倾斜从预测多项式A(z)导出。
在下面的等式中给出了来源于LPC数据的优选感知加权函数:
P ( z ) = 1 - ( 1 - τ ) r 1 z - 1 A ( z / ρ )
其中,A(z)是LPC多项式,τ是倾斜参数,ρ控制啁啾,而r1是根据A(z)多项式计算出的第一反射系数。应当注意,可以对于不同的表达式的分类,再计算A(z)多项式,以便从多项式中提取相关信息。如果某人对频谱斜率感兴趣,以便应用“倾斜”来对抗频谱的斜率,则将多项式再计算为反射系数是优选的,因为第一反射系数代表频谱的斜率。
另外,还可以作为输入信号方差σ、LTP增益g以及来源于预测多项式的第一反射系数r1的函数,自适应增量值Δ。例如,自适应可以基于下面的等式:
Δ′=Δ(1+r1(1-g2))
下面,概述了根据本发明的一个实施例的基于模型的量化器的各方面。在图16中,示出了基于模型的量化器的各方面的一个方面。使用均匀标量量化器,将MDCT线输入到量化器。另外,还将随机偏移输入到量化器,并将其用作移动区间边界的量化区间的偏移值。所提出的量化器提供了矢量量化优点,而又维持了标量量化器的可搜索性。量化器对一组不同的偏移值进行迭代,并对于这些偏移值,计算量化误差。使用对于被量化的特定MDCT线最小化了量化失真的偏移值(或偏移值矢量)来进行量化。然后,将偏移值与已量化的MDCT线一起传输到解码器。随机偏移的使用在去量化的解码信号中引入了噪声填充,通过这样做,避免了量化频谱中的频谱缺陷。对于其中许多MDCT线被以别的方式量化到零值的低比特率,这特别重要,零值将会导致在重构的信号的频谱中有听得见的缺陷。
图17概要地示出了根据本发明的一个实施例的基于模型的MDCT线量化器(MBMLQ)。图17的顶部描绘了MBMLQ编码器1700。MBMLQ编码器1700以MDCT帧中的MDCT线或LTP残余的MDCT线(如果LTP存在于系统中的话)作为输入。MBMLQ使用MDCT线的统计模型,使源代码以逐MDCT帧为基础地适应于信号属性,产生到比特流的有效的压缩。
可以作为MDCT线的RMS值来估计MDCT线的局部增益,并且,在被输入到MBMLQ编码器1700之前,MDCT线在增益归一化模块1720中被归一化。局部增益归一化MDCT线,并且是对LP增益归一化的补充。LP增益适应于较大的时标上的信号电平变化,而局部增益适应于较小时标的变化,会改善瞬态声的品质和语音中的开始(on-sets)。局部增益是通过固定速率或可变速率编码来进行编码的,并被传输到解码器。
可以使用速率控制模块1710来控制用于对MDCT帧进行编码的比特的数量。速率控制指数控制所使用的比特的数量。速率控制指数指向额定量化器步长的列表。可以按步长的降序对表进行排序(参见图17g)。
利用一组不同速率控制指数来运行MBMLQ编码器,对于帧,产生低于由比特储存器控制给出的许可的比特的数量的比特计数的速率控制指数。速率控制指数慢慢地变化,这可以被用来降低搜索复杂性,并有效地对指数进行编码。如果测试围绕前面的MDCT帧的指数启动,则可以降低测试的该组指数。同样,如果概率围绕指数的前一值达到峰值,则获得该指数的有效的熵编码。例如,对于32个步长的列表,可以使用平均为每个MDCT帧2个比特来编码速率控制指数。
图17还概要地示出MBMLQ解码器1750,在该图中,如果在编码器1700中估计了局部增益,则MDCT帧被增益重新归一化。
图17a概要地示出了根据一个实施例的基于模型的MDCT线编码器1700。它包括量化器预处理模块1730(参见图17c),基于模型的熵约束编码器1740(参见图17e),以及可以是现有技术的算术编码器的算术编码器1720。量化器预处理模块1730的任务是以逐MDCT帧为基础地使MBMLQ编码器自适应信号统计信息。它取其他编解码器参数作为输入,并从它们导出有关信号的可以用来修改基于模型的熵约束编码器1740的行为的有用统计信息。基于模型的熵约束编码器1740,例如,通过一组控制参数来加以控制:量化器步长Δ(增量,间隔长度),MDCT线的一组方差估计V(矢量;每个MDCT线,一个估计值),感知掩蔽曲线Pmod,(随机)偏移的矩阵或表,以及描述了MDCT线的分布的形状以及它们的相互依赖关系的MDCT线的统计模型。所有上文所提及的控制参数都可以在各MDCT帧之间变化。
图17b概要地示出了根据本发明的一个实施例的基于模型的MDCT线解码器1750。它取来自比特流的边信息比特作为输入,并将它们解码为被输入到量化器预处理模块1760的参数(参见图17c)。量化器预处理模块1760优选地在编码器1700中具有与解码器1750中的完全相同的功能。被输入到量化器预处理模块1760的参数在编码器中与在解码器中完全相同。量化器预处理模块1760输出一组控制参数(与在编码器1700中相同),并将这些控制参数输入到概率计算模块1770(参见图17g;与在编码器中相同,参见图17e),并输入到去量化模块1780(参见图17h;与在编码器中相同,参见图17e)。在给定用于量化的增量以及信号的方差的情况下,来自概率计算模块1770的代表所有MDCT线的概率密度函数的cdf表,被输入到算术解码器(可以是为本领域的技术人员所知的任何算术编码器),然后,该算术解码器将MDCT线比特解码为MDCT线指数。然后,通过去量化模块1780将MDCT线指数去量化为MDCT线。
图17c概要地示出了根据本发明的一个实施例的量化器预处理的方面,包括i)步长计算,ii)感知掩蔽曲线修改,iii)MDCT线方差估计,iv)偏移表构建。
在图17d中更加详细地说明了步长计算。它包括i)表查询,其中,到步长的表中的速率控制指数点产生额定步长Δnom(delta_nom),低能量自适应,以及iii)高通自适应。
增益归一化通常导致高能量声音和低能量声音利用相同段SNR编码。这会导致过多的比特数用于低能量声音上。所提出的低能量自适应允许在低能量和高能量声音之间细化(fine)调节中。当信号能量如在图17d-ii)中所描绘的那样变低时,可以增大步长,在这些图中,示出了信号能量(增益g)和控制因子qLe之间的关系的示例性曲线。信号增益g可以作为输入信号本身或LP残余的RMS值来计算。图17d-ii)中的控制曲线只是一个示例,可以使用用于增大低能量信号的步长的其他控制功能。在所描绘的示例中,控制功能是通过由阈值T1和T2以及步长因子L所定义的逐步线性区段来确定的。
高通声音感觉上没有低通声音重要。当MDCT帧是高通时,即,当本MDCT帧中的信号的能量被集中到较高频率时,高通自适应功能增大步长,导致在这种帧上花费更少的比特。如果LTP存在并且如果LTP增益gLTP接近于1,则LTP残余能变为高通;在这种情况下,不增大步长是有利的。在图17d-iii)中描绘了此机制,其中,r是来自LPC的第一反射系数。所提出的高通自适应可以使用下面的等式:
Figure BDA00002712770300271
图17c-ii)概要地示出了使用低频率(LF)提升来移除“类似于隆隆声”的编码伪像的感知掩蔽曲线修改。低频提升可以是固定的,或使其是自适应的,以便只提升低于第一频谱峰值下面的部分。可以通过使用LPC包络数据来自适应低频提升。
图17c-iii)概要地示出了MDCT线方差估计。在LPC白化滤波器活动的情况下,所有MDCT线都具有单位方差(根据LPC包络)。在基于模型的熵约束编码器1740中的感知加权之后(参见图17e),MDCT线具有作为平方感知掩蔽曲线或平方修改的掩蔽曲线Pmod的逆的方差。如果存在LTP,则它可以降低MDCT线的方差。在图17c-iii)中,描绘了使估计方差自适应LTP的机制。该图示出了频率f上的修改函数qLTP。经修改的方差可以通过VLTPmod=V·qLTP来确定。值LLTP可以是LTP增益的函数,以便如果LTP增益在1周围(表示LTP已经找到好的匹配),则LLTP更靠近0,而如果LTP增益在0周围,则LLTP更靠近1。所提出的方差V={v1,v2,...,Vj,...,vn}的LTP自适应只影响低于某一频率(fLTPcutoff)的MDCT线。结果,降低了低于截频fLTPcutoff的MDCT线方差,该降低取决于LTP增益。
图17c-iv)概要地示出了偏移表结构。额定偏移表是用分布在-0.5和0.5之间的伪随机数填充的矩阵。矩阵中的列的数量等于通过MBMLQ编码的MDCT线的数量。行的数量是可调节的,并等于在基于模型的熵约束编码器1740中的RD优化中测试的偏移矢量的数量(参见图17e)。偏移表结构函数随着量化器步长缩放额定偏移表,以便偏移在-Δ/2和+Δ/2之间分布。
图17g概要地示出了偏移表的一个实施例。偏移指数是指向表的指针,并选择所选偏移矢量O={o1,o2,...,on,...,ON},其中N是MDCT帧中的MDCT线的数量。
如下面所描述的,偏移提供了用于进行噪声填充的手段。如果对于与量化器步长Δ相比具有低方差vj的MDCT线偏移的分布是受限的,则获得更好的目标和感知质量。在图17c-iv)中,描述了这样的限制的一个示例,在该图中,k1和k2是调节参数。偏移的分布可以是均匀的,并分布在-s和+s之间。边界s可以根据下列公式来确定:
对于低方差MDCT线(其中,vj与Δ相比小),使偏移分布不均匀并依赖于信号是有利的。
图17e概要地示出了基于模型的熵约束编码器1740。通过利用感知掩蔽曲线的值(优选地,来源于LPC多项式)来分割输入的MDCT线,来在感觉上对它们进行加权,导致加权的MDCT线矢量y=(y1,...,yN)。随后编码的目标是向感知域中的MDCT线引入白量化噪声。在解码器中,应用感知加权的逆,这会导致遵循感知掩蔽曲线的量化噪声。
首先,概述对随机偏移的迭代。对于偏移矩阵中的每一行j,执行下列操作:通过偏移均匀标量量化器(USQ)来量化每一MDCT线,其中,每一量化器都被从偏移行矢量获取的其自己的唯一偏移值偏移(offset)。
在概率计算模块1770中计算来自每一USQ的最小失真区间的概率(参见图17g)。USQ指数是熵编码的。如图17e所示,计算按照对指数进行编码所需的比特的数量的成本,产生理论码字长Rj。MDCT线j的USQ的过载边界可以如
Figure BDA00002712770300282
来计算,其中,k3可以被选择为任何适当的数字,例如,20。过载边界是幅度上量化误差大于量化步长的一半的边界。
由去量化模块1780计算每一MDCT线的标量重构值(参见图17h),产生量化的MDCT矢量
Figure BDA00002712770300291
在RD优化模块1790中,计算失真
Figure BDA00002712770300292
Figure BDA00002712770300293
可以是均方误差(MSE),或另一种感觉上更相关的失真测度,例如,基于感知加权函数。具体而言,一起对MSE以及y和
Figure BDA00002712770300294
之间的能量不匹配进行加权的失真测度可能有用。
在RD优化模块1790中,优选地,基于失真Dj和/或偏移矩阵中的每一行j的理论码字长Rj,来计算成本C。成本函数的示例是C=10*log10(Dj)+λ*Rj/N。选择最小化C的偏移,并从基于模型的熵约束编码器1780输出对应的USQ指数和概率。
RD优化可以可任选地进一步通过与偏移一起改变量化器的其他属性来加以改善。例如,代替对于在RD优化中测试的每一个偏移矢量,使用相同的固定的方差估计V,能够改变方差估计矢量V。对于偏移行矢量m,可以使用方差估计km·V,其中,km可以随着m从m=1变化到m=(偏移矩阵中的行数)而横跨,例如,范围0.5到1.5。这使得熵编码和MMSE计算对统计模型不能捕获的输入信号统计中的变化不太敏感。一般而言,这会导致较低的成本C。
可以通过使用如图17e中所描绘的残余量化器,进一步细化去量化的MDCT线。残余量化器可以是,例如,固定速率随机矢量量化器。
图17f概要地示出了用于量化MDCT线n的均匀标量量化器(USQ)的操作,该图示出了处于具有指数in的最小失真区间的MDCT线n的值。“x”标记表示具有步长Δ的量化区间的中心(中点)。标量量化器的原点从偏移矢量O={o1,o2,...,on,...,oN}移动了偏移oo。如此,区间边界和中点移动了该偏移。
偏移的使用在量化信号中引入了编码器控制的噪声填充,通过这样做,避免了量化频谱中的频谱缺陷。此外,偏移还通过提供一组比立方格子更有效地填充空间的编码替代方案,来提高编码效率。同样,偏移还在由概率计算模块1770计算出的概率表中提供变化,这会导致对MDCT线指数的更有效的熵编码(即,所需更少的比特)。
使用可变步长Δ(增量)允许量化有可变的准确性,以便对于感觉上重要的声音,可以使用更大的准确性,而对于次要的声音,可以使用较小的准确性。
图17g概要地示出了概率计算模块1770中的概率计算。对此模块的输入是适合于MDCT线的统计模型、量化器步长Δ、方差矢量V、偏移指数,以及偏移表。概率计算模块1770的输出是cdf表。对于每一个MDCT线xj,评估统计模型(即,概率密度函数,pdf)。一个区间i的pdf函数下的面积是该区间的概率pi,j。此概率用于MDCT线的算术编码。
图17h概要地示出了如,例如在去量化模块1780中执行的去量化过程。与区间的中点xMp一起,计算每一MDCT线的最小失真区间的质心(MMSE值)
Figure BDA00002712770300302
。考虑到量化MDCT线的N维矢量,标量MMSE值是次优的,并且一般而言,太低。这导致经解码的输出中的方差丢失和频谱不平衡。此问题可以通过如图17h所描述的方差保留解码来缓解,其中,重构值作为MMSE值和中点值的加权总和来计算。进一步的可选的改进是自适应权重,以便对于话音MMSE值占支配地位,而对于非话音中点占支配地位。这会产生更清晰的语音,而对于非话音保留了频谱平衡和能量。
根据本发明的一个实施例的方差保留解码是通过根据下面的等式来确定重构点而获得的:
xdequant=(1-χ)xMMSE+xMP
自适应方差保留解码可以基于下面的规则来确定内插因子:
Figure BDA00002712770300301
自适应权重还可以进一步是,例如,LTP预测增益的函数gLTP:X=f(gLTP)。自适应权重慢慢地改变,并可以有效地通过递归熵编码来进行编码。
在概率计算(图17g)和去量化中(图17h)所使用的MDCT线统计模型将反映实信号的统计信息。在一个版本中,统计模型假设MDCT线是独立的,并且是拉普拉斯分布的。另一个版本将MDCT线建模为独立高斯。一个版本将MDCT线建模为高斯混合模型,包括MDCT帧内的和MDCT帧之间的MDCT线之间的相互依赖关系。另一个版本使统计模型自适应于线信号统计。自适应统计模型可以是前向和/或反向自适应的。
图19概要地示出了涉及量化器的修改过的重构点的本发明的另一个方面,在该图中,描绘了一个实施例的解码器中所使用的反量化器。该模块除反量化器的正常的输入,即,量化的线和有关量化步长(量化类型)的信息之外,还具有有关量化器的重构点的信息。当根据对应的量化指数in确定重构的值
Figure BDA00002712770300311
时,此实施例的反量化器可以使用多种类型的重构点。如上文所提及的重构值
Figure BDA00002712770300312
进一步用于,例如,MDCT线编码器(参见图17)中,来确定输入到残余量化器的量化残余。此外,还在反量化器304中执行量化重构,以便重构编码的MDCT帧,用于LTP缓冲区中(参见图3),并且当然用于解码器中。
反量化器可以,例如选择量化区间的中点作为重构点,或MMSE重构点。在本发明的一个实施例中,量化器的重构点被选择为中心和MMSE重构点之间的平均值。一般而言,重构点可以内插在中点和MMSE重构点之间,例如,取决于诸如信号周期性之类的信号属性。信号周期性信息可以,例如来源于LTP模块。此特征可使系统控制失真和能量保存。中心重构点将确保能量保存,而MMSE重构点将确保最小的失真。在给定信号的情况下,系统可以将重构点自适应到提供最佳折衷处。
本发明进一步包括新窗口序列编码格式。根据本发明的一个实施例,用于MDCT变换的窗口是二元大小,并可以在一个窗口到另一个窗口之间大小只以因子2(2倍)改变。在16kHz采样速率时,二元变换大小是,例如,对应于4,8,...,128ms的64,128,...,2048样本。一般而言,提出了可变大小窗口,可以取最小窗口大小和最大大小之间的多个窗口大小。在一个序列中,连续的窗口大小可以只通过因子2来改变,以便产生没有突然变化的窗口大小的光滑序列。如一个实施例所定义的窗口序列,即,仅限于二元大小,并只被允许在一个窗口到另一个窗口之间大小只以因子2改变,具有多个优点。首先,不需要特定启动或停止窗口,即,带有锋利的边的窗口。这会维持好的时间/频率分辨率。其次,对于编码,窗口序列变得非常有效,即,向解码器发送使用什么特定窗口序列的信号。最后,窗口序列将始终很好地适合(fit)超帧结构。
当在其中需要传输某一解码器配置参数以便能够启动解码器的现实的系统中操作编码器时,超帧结构十分有用。此数据通常存储在比特流中的描述编码的音频信号的标头字段。为了最小化比特率,标头不是对于编码数据的每一帧传输的,特别是在由本发明提出的系统中,在该系统中,MDCT帧大小可能从非常短变为非常大。因此,本发明提出了将一定量的MDCT帧分组在一起成为超帧,在超帧的开始处传输标头数据。超帧通常被定义为特定的时间长度。因此,需要小心,以便MDCT帧大小的变化适合固定长度,预先定义的超帧长度。上文概述的本发明的窗口序列确保了所选窗口序列始终适合超帧结构。
根据本发明的一个实施例,LTP滞后和LTP增益以可变速率方式编码。这是有利的,因为由于对于固定周期信号的LTP有效性,在有些长的段内,LTP滞后趋向于相同。因此,这可以通过算术编码被利用,导致可变速率LTP滞后和LTP增益编码。
类似地,本发明的一个实施例对于LP参数的编码,也利用比特储存器和可变速率编码。另外,本发明还教导了递归LP编码。
本发明的另一个方面是处理编码器中的可变帧大小的比特储存器。在图18中,描绘了根据本发明的比特储存器控制单元1800。除作为输入提供的难度测度之外,比特储存器控制单元还接收有关当前帧的帧长度的信息。供在比特储存器控制单元中使用的难度测度的示例是感知熵,或功率谱的对数。比特储存器控制在其中帧长度可以在一组不同的帧长度内变化的系统中是重要的。当计算对于要编码的帧的许可的比特的数量时,建议的比特储存器控制单元1800会考虑帧长度,如下面所概述的。
这里,比特储存器被定义为缓冲区中的某一比特固定量,必须大于一个帧被允许用于给定比特率的比特的平均数。如果大小相同,则一个帧的比特的数量没有变化将是可能的。在取出将被许可用于编码算法的比特作为实际帧的允许的比特数之前,比特储存器控制始终检查比特储存器的水平。如此,满比特储存器意味着,在比特储存器中可用的比特的数量等于比特储存器大小。在对帧进行编码之后,将从缓冲区中减去所使用的比特的数量,通过添加代表恒定比特率的比特的数量,比特储存器获得更新。因此,如果在对帧进行编码之前比特储存器中的比特的数量等于每个帧的平均比特的数量,则比特储存器是空的。
在图18a中,描绘了比特储存器控制的基本概念。编码器提供了计算与前面的帧相比编码实际帧的难度如何的手段。对于1.0的平均难度,许可的比特的数量取决于在比特储存器中可用的比特的数量。根据给定控制线,如果比特储存器十分满,则从比特储存器中取出比对应于平均比特率的比特数更多的比特。在空的比特储存器的情况下,用于对帧进行编码的比特数将比平均比特数要少。对于带有平均难度的比较长的帧序列,此行为让位于平均比特储存器水平。对于带有较高难度的帧,控制线可以被向上移动,具有难以进行编码的帧被允许在相同比特储存器水平使用更多比特的效果。相应地,为易于对帧进行编码,只需通过将图18a中的控制线向下移动,从平均难度的情况移动到难度小的情况,对于一个帧允许的比特的数量将会更少。除简单地移动控制线之外也可以有其他修改。例如,如图18a所示,可以根据帧难度,改变控制曲线的斜率。
当计算许可的比特的数量时,必须遵守对比特储存器的下端的限制,以便不致于从缓冲区中取出比允许的更多的比特。通过如图18a所示的控制线的包括计算许可的比特的比特储存器控制方案只是可能的比特储存器水平和难度测度与许可的比特关系的一个示例。同样,其他控制算法将共同具有对比特储存器水平的下端的硬性限制,其防止比特储存器违犯空的比特储存器限制,以及具有对上端的限制,其中,如果编码器将消费太低的比特数,编码器将被迫写入填充比特。
为使这种控制机制能够处理一组可变帧大小,必须自适应此简单控制算法。必须归一化要使用的难度测度,以便不同的帧大小的难度值是可比较的。对于每一帧大小,对于许可的比特将会有不同的允许范围,并且因为每个帧的比特的平均数对于可变帧大小是不同的,因此,每一帧大小都具有其自己的控制方程,并带有其自己的限制。图18b中示出了一个示例。对固定帧大小的情况的一个重要修改是控制算法的较低的允许的边界。代替对应于固定比特率情况的实际帧大小的比特的平均数,现在,最大允许的帧大小的比特的平均数是在取出实际帧的比特之前对于比特储存器水平的最低的允许值。这是对于固定帧大小的比特储存器控制的主要区别之一。此限制保证了,带有最大可能的帧大小的后面的帧可以至少利用对于此帧大小的比特的平均数。
难度测度可以基于,例如来源于心理声学模型的掩蔽阈值的感知熵(PE)计算,如在AAC中执行的那样,或作为带有固定步长的量化的替代比特计数,如在根据本发明的一个实施例的编码器ECQ部分中执行的那样。这些值可以相对于可变帧大小而被归一化,这可以通过简单的除以帧长度的除法来实现,结果将分别是每个样本的PE比特计数。可以对于平均难度,执行另一个归一化步骤。为该目的,可以使用过去的帧移动平均值,导致对于困难的帧,有大于1.0的难度值,或对于简单的帧,有小于1.0的难度值。在两遍编码器的情况下或大超前的情况下,对于难度测度的此归一化,也可以考虑未来帧的难度值。
本发明的另一个方面涉及对于ECQ的比特储存器处理的细节。ECQ的比特储存器管理的工作前提是,当使用恒定量化器步长来进行编码时,ECQ产生大致恒定的质量。恒定量化器步长产生可变速率,比特储存器的目标是使不同的帧之间的量化器步长的变化尽可能地小,而又不会违犯比特储存器缓冲区约束。除由ECQ所产生的速率之外,还按MDCT帧为基础地传输更多信息(例如,LTP增益和滞后)。额外的信息一般而言也是熵编码的,并且如此在帧与帧之间消费不同的速率。
在本发明的一个实施例中,所提出的比特储存器控制试图通过引入三个变量来最小化ECQ步长的变化(参见图18c):
-RECQ_AVG:先前所使用的每个样本的平均ECQ速率;
ECQ_AVG:先前所使用的平均量化器步长。
这些变量都动态地更新,以反映最新的编码统计。
-RECQ_AVG_DES:对应于平均总的比特率的ECQ速率。
在比特储存器水平已经在平均窗口的时间帧期间改变的情况下,此值将不同于RECQ_AVG,例如,在此时间帧内已经使用了高于或低于指定的平均比特率的比特率。它还随着边信息的速率变化而更新,以便总速率等于指定的比特率。
比特储存器控制使用这三个值来确定要用于当前帧的增量上的初始估计。它是通过查找如图18c所示的RECQ_Δ曲线上的对应于RECQ_AVG_DES的RECQ_AVG_DES来这样完成。在第二阶段,如果速率没有根据比特储存器约束,则可能改变此值。图18c中的示例性曲线RECQ-Δ基于下面的等式:
R ECQ = 1 2 log 2 α Δ 2
当然,也可以使用RECQ和Δ之间的其他数学关系式。
在静止情况下,
Figure BDA00002712770300352
将接近于RECQ_AVG_DES,Δ的变化将非常小。在非静止情况下,平均运算将确保Δ的平滑变化。
尽管已参考本发明的特定实施例对前面的内容进行了描述,但是,应该理解,本发明的理念不仅限于所描述的实施例。另一方面,本申请中呈现的发明将使本领域普通技术人员能够理解和实现本发明。本领域的技术人员将能理解,在不偏离由所附权利要求所排他性提出的本发明的精神和范围的情况下,可以作出各种修改。

Claims (14)

1.一种音频编码系统,包括:
线性预测单元,用于基于自适应滤波器过滤输入信号;
变换单元,用于将所述经过滤的输入信号的帧转换至变换域;
量化单元,用于量化所述变换域信号;
比例因子确定单元,用于基于掩蔽阈值曲线生成比例因子,供在量化所述变换域信号时在所述量化单元中使用;
线性预测比例因子估计单元,用于基于所述自适应滤波器的参数,估计基于线性预测的比例因子;以及
比例因子编码器,用于编码所述基于掩蔽阈值曲线的比例因子和所述基于线性预测的比例因子之间的差。
2.根据权利要求1所述的音频编码系统,其中,所述线性预测比例因子估计单元包括感知掩蔽曲线估计单元,用于基于所述自适应滤波器的所述参数来估计感知掩蔽曲线,其中,所述基于线性预测的比例因子是基于所估计的感知掩蔽曲线而确定的。
3.根据权利要求1所述的音频编码系统,其中,所述变换域信号的帧的所述基于线性预测的比例因子是基于内插的线性预测参数而估计的。
4.根据权利要求1所述的音频编码系统,包括:
长期预测单元,用于基于所述经滤波的输入信号的先前的段的重构,确定所述经滤波的输入信号的所述帧的估计;以及
变换域信号组合单元,用于在所述变换域中组合所述长期预测估计和经变换的输入信号,以生成所述变换域信号。
5.根据权利要求1所述的音频编码系统,包括比特储存器控制单元,用于基于所述帧的长度和所述帧的难度测度,确定用于编码所述经滤波的信号的帧的被许可的比特的数量。
6.根据权利要求5所述的音频编码系统,其中,所述比特储存器控制单元对于不同的帧难度测度和/或不同的帧大小,具有单独的控制方程。
7.根据权利要求5或6所述的音频编码系统,其中,所述比特储存器控制单元归一化不同的帧大小的难度测度。
8.根据权利要求5或6所述的音频编码系统,其中,所述比特储存器控制单元将所许可的比特控制算法的允许下限设置到最大允许的帧大小的比特的平均数。
9.一种音频解码器,包括:
去量化单元,用于基于比例因子,去量化输入比特流的帧;
逆变换单元,用于逆向地变换变换域信号;
线性预测单元,用于过滤经逆向地变换的变换域信号;以及
比例因子解码单元,用于基于接收到的比例因子增量信息,生成去量化中所使用的比例因子,该比例因子增量信息对在编码器中应用的比例因子和基于自适应滤波器的参数而生成的比例因子之间的差进行编码。
10.根据权利要求9所述的音频解码器,包括
比例因子确定单元,用于基于来源于当前帧的线性预测参数的掩蔽阈值曲线,生成比例因子,其中,所述比例因子解码单元组合所述接收到的比例因子增量信息和所生成的基于线性预测的比例因子,以生成用于输入到所述去量化单元的比例因子。
11.一种音频编码方法,包括下列步骤:
基于自适应滤波器过滤输入信号;
将经滤波的输入信号的帧转换至变换域;
量化所述变换域信号;
基于掩蔽阈值曲线生成比例因子,供在量化所述变换域信号时在量化单元中使用;
基于所述自适应滤波器的参数,估计基于线性预测的比例因子;以及
编码所述基于掩蔽阈值曲线的比例因子和所述基于线性预测的比例因子之间的差。
12.一种音频解码方法,包括下列步骤:
基于比例因子,去量化输入比特流的帧;
逆向地变换变换域信号;
线性预测过滤经逆向地变换的变换域信号;
基于自适应滤波器的参数,估计第二比例因子;以及
基于接收到的比例因子差信息和所估计的第二比例因子,生成去量化中所使用的比例因子。
13.一种音频解码设备,包括:
用于基于比例因子,去量化输入比特流的帧的装置;
用于逆向地变换变换域信号的装置;
用于线性预测过滤经逆向地变换的变换域信号的装置;
用于基于自适应滤波器的参数,估计第二比例因子的装置;以及
用于基于接收到的比例因子差信息和所估计的第二比例因子,生成去量化中所使用的比例因子的装置。
14.一种音频解码方法,包括:
去量化步骤,用于基于比例因子,去量化输入比特流的帧;
逆变换步骤,用于逆向地变换变换域信号;
线性预测步骤,用于过滤经逆向地变换的变换域信号;以及
比例因子解码步骤,用于基于接收到的比例因子增量信息,生成去量化中所使用的比例因子,所述比例因子增量信息对在编码器中应用的比例因子和基于自适应滤波器的参数而生成的比例因子之间的差进行编码。
CN201310005503.3A 2008-01-04 2008-12-30 音频编码器和解码器 Active CN103065637B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
SE0800032 2008-01-04
SE0800032-5 2008-01-04
US5597808P 2008-05-24 2008-05-24
EP08009530.0 2008-05-24
US61/055,978 2008-05-24
EP08009530A EP2077550B8 (en) 2008-01-04 2008-05-24 Audio encoder and decoder

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2008801255392A Division CN101939781B (zh) 2008-01-04 2008-12-30 音频编码器和解码器

Publications (2)

Publication Number Publication Date
CN103065637A true CN103065637A (zh) 2013-04-24
CN103065637B CN103065637B (zh) 2015-02-04

Family

ID=39710955

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201310005503.3A Active CN103065637B (zh) 2008-01-04 2008-12-30 音频编码器和解码器
CN2008801255814A Active CN101925950B (zh) 2008-01-04 2008-12-30 音频编码器和解码器
CN2008801255392A Active CN101939781B (zh) 2008-01-04 2008-12-30 音频编码器和解码器

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN2008801255814A Active CN101925950B (zh) 2008-01-04 2008-12-30 音频编码器和解码器
CN2008801255392A Active CN101939781B (zh) 2008-01-04 2008-12-30 音频编码器和解码器

Country Status (14)

Country Link
US (4) US8484019B2 (zh)
EP (4) EP2077551B1 (zh)
JP (3) JP5356406B2 (zh)
KR (2) KR101196620B1 (zh)
CN (3) CN103065637B (zh)
AT (2) ATE518224T1 (zh)
AU (1) AU2008346515B2 (zh)
BR (1) BRPI0822236B1 (zh)
CA (4) CA3076068C (zh)
DE (1) DE602008005250D1 (zh)
ES (1) ES2677900T3 (zh)
MX (1) MX2010007326A (zh)
RU (3) RU2562375C2 (zh)
WO (2) WO2009086919A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761969A (zh) * 2014-02-20 2014-04-30 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN106605263A (zh) * 2014-07-29 2017-04-26 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
CN112992164A (zh) * 2014-07-28 2021-06-18 日本电信电话株式会社 编码方法、装置、程序以及记录介质
WO2022258036A1 (zh) * 2021-06-11 2022-12-15 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
WO2010005224A2 (en) * 2008-07-07 2010-01-14 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CA2729751C (en) 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
MX2011000370A (es) 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
RU2494477C2 (ru) 2008-07-11 2013-09-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ генерирования выходных данных расширения полосы пропускания
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
BR122019023947B1 (pt) 2009-03-17 2021-04-06 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
PL2394268T3 (pl) * 2009-04-08 2014-06-30 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do realizacji upmixu sygnału audio downmixu z użyciem wygładzania wartości faz
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
JP5365363B2 (ja) * 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
EP2315358A1 (en) 2009-10-09 2011-04-27 Thomson Licensing Method and device for arithmetic encoding or arithmetic decoding
MY160807A (en) 2009-10-20 2017-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Audio encoder,audio decoder,method for encoding an audio information,method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
CN102081622B (zh) * 2009-11-30 2013-01-02 中国移动通信集团贵州有限公司 评估系统健康度的方法及系统健康度评估装置
MX2012006823A (es) * 2009-12-16 2012-07-23 Dolby Int Ab Mezcla descendente de parametros de corriente de bits sbr.
TWI476757B (zh) 2010-01-12 2015-03-11 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、用以將音訊資訊編碼及解碼之方法、以及基於先前解碼頻譜值之範數來獲取脈絡子區值之電腦程式
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
JP5714002B2 (ja) * 2010-04-19 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法及び復号方法
KR102159194B1 (ko) * 2010-07-19 2020-09-23 돌비 인터네셔널 에이비 고주파 복원 동안 오디오 신호들의 프로세싱
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
AU2011287747B2 (en) * 2010-07-20 2015-02-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
ES2526320T3 (es) * 2010-08-24 2015-01-09 Dolby International Ab Ocultamiento de la recepción mono intermitente de receptores de radio estéreo de FM
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
KR101998609B1 (ko) * 2010-10-25 2019-07-10 보이세지 코포레이션 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
US8849053B2 (en) * 2011-01-14 2014-09-30 Sony Corporation Parametric loop filter
US9280980B2 (en) * 2011-02-09 2016-03-08 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
CN102186083A (zh) * 2011-05-12 2011-09-14 北京数码视讯科技股份有限公司 量化处理方法及装置
BR112013029347B1 (pt) * 2011-05-13 2021-05-11 Samsung Electronics Co., Ltd método para alocação de bits, mídia de gravação permanente legível por computador, aparelho para alocação de bits, aparelho para codificação de áudio, e aparelho para decodificação de áudio
KR101572034B1 (ko) * 2011-05-19 2015-11-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 오디오 코딩 방식들의 포렌식 검출
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
IL290229B2 (en) * 2011-06-16 2023-04-01 Ge Video Compression Llc Entropy coding of motion vector differences
WO2013002696A1 (en) * 2011-06-30 2013-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
JP5714172B2 (ja) * 2012-02-28 2015-05-07 日本電信電話株式会社 符号化装置、この方法、プログラムおよび記録媒体
WO2013129439A1 (ja) * 2012-02-28 2013-09-06 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
KR101311527B1 (ko) * 2012-02-28 2013-09-25 전자부품연구원 영상처리장치 및 영상처리방법
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
CN107591157B (zh) 2012-03-29 2020-12-22 瑞典爱立信有限公司 谐波音频信号的变换编码/解码
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9799339B2 (en) 2012-05-29 2017-10-24 Nokia Technologies Oy Stereo audio signal encoder
US20140046670A1 (en) * 2012-06-04 2014-02-13 Samsung Electronics Co., Ltd. Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same
WO2014001182A1 (en) * 2012-06-28 2014-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based audio coding using improved probability distribution estimation
WO2014007095A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
EP2743921A4 (en) 2012-07-02 2015-06-03 Sony Corp DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM
AR090703A1 (es) 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
MX342822B (es) 2013-01-08 2016-10-13 Dolby Int Ab Prediccion basada en modelo en un banco de filtros de muestreo critico.
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
CA2898677C (en) 2013-01-29 2017-12-05 Stefan Dohla Low-frequency emphasis for lpc-based coding in frequency domain
RU2676870C1 (ru) * 2013-01-29 2019-01-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
MX347080B (es) * 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
KR101897092B1 (ko) 2013-01-29 2018-09-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 노이즈 채움 개념
ES2613651T3 (es) 2013-01-29 2017-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
US9530430B2 (en) * 2013-02-22 2016-12-27 Mitsubishi Electric Corporation Voice emphasis device
JP6089878B2 (ja) 2013-03-28 2017-03-08 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
MY173488A (en) * 2013-04-05 2020-01-28 Dolby Int Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
KR101754094B1 (ko) * 2013-04-05 2017-07-05 돌비 인터네셔널 에이비 고급 양자화기
RU2665214C1 (ru) 2013-04-05 2018-08-28 Долби Интернэшнл Аб Стереофонический кодер и декодер аудиосигналов
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
CA3029037C (en) 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
US20140327737A1 (en) * 2013-05-01 2014-11-06 Raymond John Westwater Method and Apparatus to Perform Optimal Visually-Weighed Quantization of Time-Varying Visual Sequences in Transform Space
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
WO2015034115A1 (ko) * 2013-09-05 2015-03-12 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
EP3048609A4 (en) 2013-09-19 2017-05-03 Sony Corporation Encoding device and method, decoding device and method, and program
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
CN110767241B (zh) 2013-10-18 2023-04-21 瑞典爱立信有限公司 谱峰位置的编码与解码
KR101831088B1 (ko) * 2013-11-13 2018-02-21 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
KR102251833B1 (ko) 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
MX2016008172A (es) 2013-12-27 2016-10-21 Sony Corp Metodo y aparato de decodificacion, y programa.
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP3109611A4 (en) * 2014-02-17 2017-08-30 Samsung Electronics Co., Ltd. Signal encoding method and apparatus, and signal decoding method and apparatus
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
CN105659321B (zh) * 2014-02-28 2020-07-28 弗朗霍弗应用研究促进协会 解码装置和解码方法
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
TR201811073T4 (tr) * 2014-03-24 2018-08-27 Nippon Telegraph & Telephone Kodlama metodu, kodlayıcı, program ve kayıt ortamı.
PL3447766T3 (pl) * 2014-04-24 2020-08-24 Nippon Telegraph And Telephone Corporation Sposób kodowania, urządzenie kodujące, odpowiedni program i nośnik zapisu
EP3537439B1 (en) * 2014-05-01 2020-05-13 Nippon Telegraph and Telephone Corporation Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium
GB2526128A (en) * 2014-05-15 2015-11-18 Nokia Technologies Oy Audio codec mode selector
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
JP6641304B2 (ja) * 2014-06-27 2020-02-05 ドルビー・インターナショナル・アーベー 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
CN104077505A (zh) * 2014-07-16 2014-10-01 苏州博联科技有限公司 一种提高16Kbps码率音频数据压缩编码音质方法
EP3413307B1 (en) * 2014-07-25 2020-07-15 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio signal coding apparatus, audio signal decoding device, and methods thereof
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
RU2632151C2 (ru) * 2014-07-28 2017-10-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
KR102128330B1 (ko) 2014-11-24 2020-06-30 삼성전자주식회사 신호 처리 장치, 신호 복원 장치, 신호 처리 방법, 및 신호 복원 방법
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016162283A1 (en) * 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
KR102061300B1 (ko) * 2015-04-13 2020-02-11 니폰 덴신 덴와 가부시끼가이샤 선형 예측 부호화 장치, 선형 예측 복호 장치, 이들의 방법, 프로그램 및 기록 매체
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
WO2017169890A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置および方法
AU2017262757B2 (en) * 2016-05-10 2022-04-07 Immersion Services LLC Adaptive audio codec system, method, apparatus and medium
KR102343639B1 (ko) * 2016-05-24 2021-12-28 소니그룹주식회사 압축 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
CN109328382B (zh) * 2016-06-22 2023-06-16 杜比国际公司 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法
WO2018049279A1 (en) 2016-09-09 2018-03-15 Dts, Inc. System and method for long-term prediction in audio codecs
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
AU2018368588B2 (en) * 2017-11-17 2021-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
FR3075540A1 (fr) * 2017-12-15 2019-06-21 Orange Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle.
EP3729427A1 (en) * 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
US10565973B2 (en) * 2018-06-06 2020-02-18 Home Box Office, Inc. Audio waveform display using mapping function
EP3813064A4 (en) * 2018-06-21 2021-06-23 Sony Corporation CODERS AND CODING METHODS, DECODERS AND DECODING METHODS AND PROGRAM
RU2769788C1 (ru) * 2018-07-04 2022-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
EP3874495B1 (en) * 2018-10-29 2022-11-30 Dolby International AB Methods and apparatus for rate quality scalable coding with generative models
CN111383646B (zh) * 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
US10645386B1 (en) 2019-01-03 2020-05-05 Sony Corporation Embedded codec circuitry for multiple reconstruction points based quantization
EP3903308A4 (en) * 2019-01-13 2022-02-23 Huawei Technologies Co., Ltd. HIGH RESOLUTION AUDIO CODING
US20230136085A1 (en) * 2019-02-19 2023-05-04 Akita Prefectural University Acoustic signal encoding method, acoustic signal decoding method, program, encoding device, acoustic system, and decoding device
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN113129913A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统
CN112289327A (zh) * 2020-10-29 2021-01-29 北京百瑞互联技术有限公司 一种lc3音频编码器后置残差优化方法、装置和介质
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
CN114189410A (zh) * 2021-12-13 2022-03-15 深圳市日声数码科技有限公司 一种车载数码广播音频接收系统
CN115604614B (zh) * 2022-12-15 2023-03-31 成都海普迪科技有限公司 采用吊装麦克风进行本地扩声和远程互动的系统和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004711A1 (en) * 2001-06-26 2003-01-02 Microsoft Corporation Method for coding speech and music signals
US20030129470A1 (en) * 2000-03-23 2003-07-10 Osamu Tajima Solid polymer fuel cell
CN1669075A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
JP3856652B2 (ja) * 2000-02-10 2006-12-13 松下電器産業株式会社 隠れデータ埋込み方法および装置

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5936280B2 (ja) * 1982-11-22 1984-09-03 日本電信電話株式会社 音声の適応変換符号化方式
JP2523286B2 (ja) * 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
CA2121667A1 (en) * 1994-04-19 1995-10-20 Jean-Pierre Adoul Differential-transform-coded excitation for speech and audio coding
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
JPH09127998A (ja) 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3684751B2 (ja) * 1997-03-28 2005-08-17 ソニー株式会社 信号符号化方法及び装置
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
JP4281131B2 (ja) * 1998-10-22 2009-06-17 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
US20020040299A1 (en) * 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
KR100378796B1 (ko) 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
EP1496500B1 (en) * 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
EP1775718A4 (en) * 2004-07-22 2008-05-07 Fujitsu Ltd AUDIOCODING DEVICE AND AUDIOCODING METHOD
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
WO2007052088A1 (en) * 2005-11-04 2007-05-10 Nokia Corporation Audio compression
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP4658853B2 (ja) 2006-04-13 2011-03-23 日本電信電話株式会社 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
PL2109098T3 (pl) * 2006-10-25 2021-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do generowania próbek audio w dziedzinie czasu
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
BR122019024992B1 (pt) * 2006-12-12 2021-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CA2729751C (en) * 2008-07-10 2017-10-24 Voiceage Corporation Device and method for quantizing and inverse quantizing lpc filters in a super-frame
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3856652B2 (ja) * 2000-02-10 2006-12-13 松下電器産業株式会社 隠れデータ埋込み方法および装置
US20030129470A1 (en) * 2000-03-23 2003-07-10 Osamu Tajima Solid polymer fuel cell
US20030004711A1 (en) * 2001-06-26 2003-01-02 Microsoft Corporation Method for coding speech and music signals
CN1669075A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761969A (zh) * 2014-02-20 2014-04-30 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN103761969B (zh) * 2014-02-20 2016-09-14 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
CN112992164A (zh) * 2014-07-28 2021-06-18 日本电信电话株式会社 编码方法、装置、程序以及记录介质
CN106605263A (zh) * 2014-07-29 2017-04-26 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
CN106605263B (zh) * 2014-07-29 2020-11-27 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
WO2022258036A1 (zh) * 2021-06-11 2022-12-15 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Also Published As

Publication number Publication date
CA3076068A1 (en) 2009-07-16
EP2573765A3 (en) 2017-05-31
JP2011509426A (ja) 2011-03-24
KR101202163B1 (ko) 2012-11-15
EP2077551B1 (en) 2011-03-02
JP5350393B2 (ja) 2013-11-27
EP2235719B1 (en) 2018-05-30
US8484019B2 (en) 2013-07-09
AU2008346515A1 (en) 2009-07-16
RU2015118725A3 (zh) 2019-02-07
BRPI0822236A2 (pt) 2015-06-30
EP2235719A1 (en) 2010-10-06
JP5356406B2 (ja) 2013-12-04
WO2009086919A1 (en) 2009-07-16
RU2010132643A (ru) 2012-02-10
CN101925950A (zh) 2010-12-22
EP2077550A1 (en) 2009-07-08
WO2009086918A1 (en) 2009-07-16
JP5624192B2 (ja) 2014-11-12
RU2015118725A (ru) 2016-12-10
CN103065637B (zh) 2015-02-04
RU2456682C2 (ru) 2012-07-20
RU2696292C2 (ru) 2019-08-01
US20130282382A1 (en) 2013-10-24
CA2960862C (en) 2020-05-05
CA2709974C (en) 2017-04-11
CA3076068C (en) 2023-04-04
DE602008005250D1 (de) 2011-04-14
CN101925950B (zh) 2013-10-02
BRPI0822236B1 (pt) 2020-02-04
RU2012120850A (ru) 2013-12-10
KR101196620B1 (ko) 2012-11-02
CA2709974A1 (en) 2009-07-16
US8924201B2 (en) 2014-12-30
CA2960862A1 (en) 2009-07-16
ES2677900T3 (es) 2018-08-07
EP2077550B1 (en) 2011-07-27
EP2077550B8 (en) 2012-03-14
ATE518224T1 (de) 2011-08-15
US20100286991A1 (en) 2010-11-11
JP2011510335A (ja) 2011-03-31
EP2077551A1 (en) 2009-07-08
MX2010007326A (es) 2010-08-13
JP2014016625A (ja) 2014-01-30
EP2573765A2 (en) 2013-03-27
CN101939781A (zh) 2011-01-05
KR20100106564A (ko) 2010-10-01
ATE500588T1 (de) 2011-03-15
CA3190951A1 (en) 2009-07-16
CN101939781B (zh) 2013-01-23
RU2562375C2 (ru) 2015-09-10
US8494863B2 (en) 2013-07-23
AU2008346515B2 (en) 2012-04-12
US20130282383A1 (en) 2013-10-24
US8938387B2 (en) 2015-01-20
KR20100105745A (ko) 2010-09-29
US20100286990A1 (en) 2010-11-11

Similar Documents

Publication Publication Date Title
CN101939781B (zh) 音频编码器和解码器
JP6184519B2 (ja) 音声信号復号化または符号化の時間領域レベル調整
US10311884B2 (en) Advanced quantizer
CN102968998A (zh) 使用mdct频谱的组合编码的可缩放的语音和音频编码
CN105247614A (zh) 音频编码器和解码器
CN107710324A (zh) 音频编码器和用于对音频信号进行编码的方法
AU2012201692B2 (en) Audio Encoder and Decoder
CN105122358A (zh) 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法
KR20220084294A (ko) 생성 모델을 사용한 오디오 신호의 파형 코딩 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant