CN101542910A - 数字数据的无损编码和解码 - Google Patents

数字数据的无损编码和解码 Download PDF

Info

Publication number
CN101542910A
CN101542910A CN200780042135.2A CN200780042135A CN101542910A CN 101542910 A CN101542910 A CN 101542910A CN 200780042135 A CN200780042135 A CN 200780042135A CN 101542910 A CN101542910 A CN 101542910A
Authority
CN
China
Prior art keywords
envelope
index
quantization index
coding
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200780042135.2A
Other languages
English (en)
Other versions
CN101542910B (zh
Inventor
简·斯科格隆
凯恩·沃斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Global IP Solutions GIPS AB
Global IP Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20060123963 external-priority patent/EP1921752B1/en
Application filed by Global IP Solutions GIPS AB, Global IP Solutions Inc filed Critical Global IP Solutions GIPS AB
Priority claimed from PCT/EP2007/009764 external-priority patent/WO2008058692A1/en
Publication of CN101542910A publication Critical patent/CN101542910A/zh
Application granted granted Critical
Publication of CN101542910B publication Critical patent/CN101542910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4006Conversion to or from arithmetic code
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数字数据的编码和解码,并且特别涉及表示音频、图像或视频数据的数字数据的无损算术编码和解码。通过采用在要被编码的数据集合上变化的一个或多个参数,控制用于数字数据的无损算术编码的概率密度函数。包络函数形式的参数模型描述了从变换域中的数据获得的量化索引的展宽。通过传送所述一个或多个参数与算术地编码的数据,接收解码器可以通过采用与编码器使用的相同的参数模型来对数据进行解码。

Description

数字数据的无损编码和解码
技术领域
本发明一般涉及数字数据的编码和解码,并且特别涉及表示音频、图像或视频数据的数字数据的无损算术编码和解码。
背景技术
通常对例如数字音频信号、数字图像或数字视频的数字数据进行编码以实现有效存储或传输。数字数据编码中两个根本地不同的方法是无损编码和有损编码。无损编码允许解码器精确地重构数字数据。相反,有损编码在解码的数字数据中引入不能恢复的错误,同时实现更加有效的压缩。类似于无损编码,有损编码包括无损压缩,但是仅针对数字数据集合中的相关信息,而丢弃不相关的信息。这里公开的本发明定义的无损编码方法或压缩方法可以用于无损数字数据编码器和有损数字数据编码器两者。
数字数据编码的重要应用是分组网络上的实时语音通信的音频编码。这里,典型地,有损编码是优选的,因为其导致比无损编码更低的位率。在此应用领域中,典型地,结合良好的讲话质量和高编码效率,针对语音信号优化编解码器。对于使用这样的编解码器的愉快对话,重要的是将通信链路中的等待时间保持在最小,这要求编码和分组化(packetization)引入很小的延迟。后者只能通过以短间隔发送分组来实现,例如,每10或20毫秒一次。用于分组网络的语音的编解码器的另一重要特性是对于分组丢失的鲁棒性,因为对于许多类型的网络,完整分组会丢失或变得严重延迟。这可以通过最小化解码器中对先前解码的分组的依赖性来提供。另一方面,典型地不要求对于分组内的位错误的鲁棒性,因为大部分分组网络提供错误检测和校正。根据运行音频编解码器的硬件,还需要保持计算的复杂性为最小。
G.D.T.Schuller等人的“Perceptual Audio Coding Using Adaptive Pre-andPost-Filters and Lossless Compression”,IEEE Transaction on Speech and AudioProcessing,Vol.10,No 6,2002年9月中描述了有损音频编码器的示例。此音频编码器合并无损压缩方法来对被认为相关的信息进行编码。通过对音频信号进行预滤波并随后量化该结果而获得此相关信息。借助于向后自适应预测滤波器而完成对量化索引(index)的无损编码,所述向后自适应预测滤波器基于先前编码的量化索引而对每个量化索引的值作出预测。因为实际索引与预测的索引之间的差具有比量化索引其自身更小的展宽(spread),所以可以更加有效地对该索引进行编码。然而,这种向后自适应预测滤波器不是非常适合用于仅几十毫秒的短分组。原因是:当分组丢失时,预测滤波器将对于下个分组将不在正确状态中,并且无损解码器从而将给出错误的结果。这可以通过为每个新分组重置预测滤波器来解决,但是,这将严重地降低编码效率。为了克服这个问题,本发明中描述的方法使用基于向前自适应建模的无损编码和解码,其中,独立于先前编码的分组对每个分组进行编码。
T.Liebchen、M.Purat和P.Noll的“Lossless Transform Coding of AudioSignals”,proceedings of the 102nd AES Convention,Munich,1997中描述了无损音频编码器的示例。此编码器使用离散余弦变换来将时间样本块(block)转换为频率系数块。将这些频率系数进行量化,随后对量化索引进行无损编码。为此目的,每32个相邻系数而对频率系数进行分组,并且观察到每组中的系数具有近似的拉普拉斯(Laplacian)分布,从而可以使用赖斯(Rice)编码来有效地进行编码。对于每组,选择与该组内的分布匹配得最好的某一赖斯码。然而,对于此方案,存在一些缺点。首先,赖斯码仅针对拉普拉斯分布的标准偏差(展宽)的离散值而存在。其次,该方法假设统计量(statistics)在32个系数的组上是恒定的,并且在两个组之间的边界处突然改变,而实际的标准偏差将从系数到系数而波动。最后,赖斯码对于拉普拉斯分布的系数工作良好,但实际上,频率系数不完全是拉普拉斯分布的。因为所有这些原因,在赖斯码与系数的分布之间会存在相当大的失配,导致更高的位率。根据本发明描述的方法克服了这些限制的每一个。
算术编码是用于码元序列的无损编码或无损压缩的有效方案。对于任意大小的数据块,码长将位于要被编码的数据的自身信息的一些位中。使用针对源码符号集的概率模型而非使用码字的预存储的表格,提供了更高的计算负担,但是要求较小的存储空间,因为不需要存储具有码字的表格。对于技术人员,算术编码的理论是众所周知的。通常,假设编码器的输入数据由N个源码元的序列s1,s2,…,sN组成。每个码元si来自K个字母的符号集{a1,a2,…,aK},并且,编码器和解码器已知每个字母aj的概率Pi(aj)。对于每个码元si,字母概率{Pi(aj)}合计为一(unity)。因此,关于第一个码元s1的概率{P1(aj)}定义了将长度为1的线段划分为宽度P1(aj)的间隔。采取所述间隔的次序(order)为与符号集中的字母的次序相同。对于第二个码元s2,以宽度P1(aj)P2(ak)的子间隔再划分这些间隔,对于剩余码元诸如此类等。结果是将单位间隔划分为相邻的非重叠的间隔,并且针对每个可能的输入序列有一个间隔。间隔的宽度等于相应序列的似然(likelihood)。这一产生间隔的方法是算术编码的本质。实际上,代替找出所有可能的间隔,仅计算对应于实际输入数据的间隔是足够的。
因此,算术编码依赖于输入码元的概率。然而实际上,很少知道这些概率,作为替代,使用提供实际概率的近似值的模型。因此,当使用术语概率用于算术编码时,其实际上指某假设的概率。
当使用算术编码时,通过编码设计中使用的码元概率与正被编码的码元的实际概率有多么相关来控制编码的效率。如果存在失配,则编码将平均产生比所必须的更长的码字,并且编码在其压缩中将更加低效。因此,为了获得有效的编码,关键是具有数据统计的描述,即,尽可能准确的码元概率。传统上,这意味着:收集许多数据,并且确定概率密度函数(PDF)以适合该集合中的所有数据。然而,问题是:例如音频或图像的许多现实的数据源具有在收集的数据块的范围显著变化的特征。
发明内容
本发明的思想是:通过采用在要被编码的数据集合上变化的一个或多个参数,来控制用于数字数据的无损算术编码的概率密度函数。包络函数形式的参数模型描述了从数据获得的量化索引的展宽,作为变换域中的函数。通过传送一个或多个参数与算术编码的数据,接收解码器可以通过利用与编码器使用的相同的参数模型来解码该数据。
本发明的一个优点是:该方法考虑了变换域中(例如,频域中、或空间频域中)的展宽对于要被编码的数据块而波动。在现有技术中,在通常假设或估计该展宽在块上恒定的同时,使用概率密度函数。在现有技术中,选择概率密度函数以适合块中的所有数据。可选择地,改进的现有技术编码器将使用若干个不同的概率密度函数,每个具有各自的恒定展宽。通过根据本发明、以参数模型的一个或多个参数调节一个概率密度函数,获得针对要被编码的数据块中不同数据点的不同统计性。这样,本发明的编码方法更接近于要被编码的数据的实际概率而操作,导致比否则可能的码字更短的码字。因此,实现用于编码的、更高程度的压缩,从而需要较小的带宽用于传输编码的数据。
依据本发明的大量示例性实施例的下列详细描述,本发明另外的特征以及其优点将变得更显而易见。如所理解的,当研究这里提出的总体示教和下列详细的描述时,对本领域的技术人员而言,在如所附的权利要求定义的本发明的范围内的各种修改、改变以及特征的不同组合将变得显而易见。
附图说明
现在将参考附图,描述本发明的示例性实施例,其中:
图1是根据本发明的实施例的、包括无损编码器的有损音频编码器的示意性框图;
图2是根据本发明的实施例的、包括无损编码器的有损图像编码器的示意性框图;
图3是根据本发明的实施例的、包括无损解码器的有损音频解码器的示意性框图;
图4是根据本发明的实施例的、包括无损解码器的有损图像解码器的示意性框图;
图5是图1和2中所示的无损编码器的示意性框图;
图6是图3和4中所示的无损解码器的示意性框图;
图7示出了当应用为音频时的示例性信号频谱和相应的包络信号;
图8示出了当应用为图像编码时的示例性量化图像变换系数和相应的包络。
具体实施方式
图1是图示根据本发明的实施例的、用于对音频信号进行编码的系统的总框图。音频编码器对音频样本块进行操作。输入音频信号是例如线性脉冲编码调制(PCM)的数字化格式,并且由数字(number)序列组成,每一个数字表示一个音频样本。通过掩码滤波器(masking filter)分析过程10来分析音频样本块以获得参数滤波器表示。编码器12对参数表示进行量化和编码,用于作为辅助信息而传送至解码器。还对量化的滤波器表示进行反量化(dequantize),并且用来配置预滤波器14,该预滤波器14以有益于编码过程的方式在时间和频率上对编码噪声进行整形。由适当的变换16将预滤波的音频样本块转换为变换系数块,例如,由时间-频率变换将其换转换为频率系数。使用均匀标量量化器17来量化作为结果的变换系数,均匀标量量化器17具有针对所有系数和所有块都恒定的量化步长。有利地,量化器17采用减抖动(subtractive dithering)以减少音乐噪声。由下面详细描述的无损编码器18来对量化的变换系数块进行编码。多路复用器19将来自编码器12的编码的参数滤波器表示、以及来自无损编码器18的编码的变换表示合并为在输出处得到的位流,用于传送至解码器。
图2是图示根据本发明的另一实施例的、用于编码图像的系统的可选实施例的总框图。图像编码器对图像像素块进行操作。输入图像数据由数字序列组成,每个数字表示像素的强度或色值。类似于音频采样的实施例,通过掩码滤波器分析过程来分析图像像素块以获得参数滤波器表示,编码器(未示出)对参数表示进行量化和编码,用于作为辅助信息而传送至解码器。由适当的变换26将像素块转换为变换系数块,例如,由空间-频率变换将其转换为空间频率系数。使用均匀标量量化器27量化作为结果的系数,该均匀标量量化器27具有针对所有系数和所有块都恒定的量化步长。由下面详细描述的无损解码器28来对量化的变换系数块进行解码。如音频实施例,多路复用器(未示出)将来自编码器的编码的滤波器表示、以及来自无损编码器44的编码的变换表示合并为位流,用于传送至解码器。
图3是图示根据本发明的实施例的、用于对来自编码位流的音频信号进行解码的系统的总框图。此系统本质上采取每个相应编码步骤的相反操作,并且这些步骤采用相反次序。多路分离器30将解码器输入处可得到的位流分离为定义编码的滤波器表示的辅助信息、以及表示编码的变换系数的位流。由无损解码器32将表示变换系数的位流解码为量化索引块。下面详细描述无损解码器32。在均匀反量化器34中对这些量化索引反量化(dequartize)以产生量化的变换系数。逆变换36将量化的变换系数变换回时域中的音频样本块。由解码器38将定义滤波器表示的辅助信息解码并反量化,并将其用于配置后滤波器39,该后滤波器39执行图1的相应编码器中的预滤波器14的相反(reciprocal)操作。后滤波器39的输出构成重构的音频信号。
图4是图示根据本发明的第二实施例的、用于对来自编码的位流的图像数据进行解码的系统的总框图。此系统执行参考图2而讨论的编码步骤的相反操作。以与图3的实施例中讨论的类似方式执行多路分离、辅助信息的解码以及后滤波,并且既不在这里重复也不在图4中显示。由无损解码器42将位流解码为量化索引块。下面详细描述无损解码器42。在均匀反量化器44中反量化这些量化索引以产生量化的变换系数。逆变换46将量化的系数变换回图像像素块,例如,通过空间-频率变换。
图5是图1和图2中所示的无损编码器的框图。输入由量化索引块组成,每个索引表示量化的变换系数。参数建模模块51反量化量化索引,并且对围绕零的量化的系数的展宽进行建模,作为变换域的函数。例如,对于使用时间-频率变换的音频应用,无损编码器输入将是量化的频率系数,包络将是频率变化展宽函数。图7示出了具有针对音频样本块的相应包络信号的、反量化的频率信号的示例。对于使用KLT变换的图像应用,图8中示出了针对图像数据组的相应包络信号。然而,如技术人员将理解的,其它变换可以用于音频、图像、视频或其它应用。因此,即使上面已经提到了优选的包络模型,但是包络模型可以例如是描述信号能量或信号强度等的函数。
通过大量包络参数来描述在使用域中具有变化的展宽的函数或包络,并且将这些参数量化和编码,用于作为辅助信息而传输至解调器。此外,逆包络产生器52使用量化的包络参数以产生逆包络函数。对于每个量化索引,由模块(modules)Voronoi下限53和Voronoi上限54来重新创建相应量化区域的界限。下面将讨论Voronoi界限的定义。随后将下限和上限乘以变换域中对应于量化系数的位置处的逆包络函数的值。累积概率密度函数55和56分别将相乘后的下限和上限转换为下概率值和上概率值。将这两个概率值传递至算术编码器57,其将两个概率编码为算术位流。对于所有输入量化索引,重复下列过程:确定Voronoi界限,乘以适当的逆包络值,确定概率值和算术编码。多路复用器58连结(concatenate)编码的参数与算术位流以形成输出位流。
图6是图示如解码器中使用的量化索引的无损解码或解压缩的框图。多路分离器61将输入位流分离为编码的包络参数和算术位流的描述。在逆包络产生器62中,对包络参数进行解码和反量化,并且将其用于以计算逆包络。算术解码器63接受算术位流,并且借助于逆包络值,确定从试验性地(tentatively)编码的量化索引产生的一对概率值是否与算术编码器编码的一对相同。算术解码器63控制量化索引选择器64以调整量化索引,直到已经找到索引为止,其中对于该索引,概率值与位流中的信息匹配。对于测试的每个量化索引,由两个模块Voronoi下限65和Voronoi上限66重新创建相应量化区域的界限。随后将这些下限和上限乘以变换域中对应于量化系数的位置处的逆包络函数的值。累积概率密度函数67和累积概率密度函数68分别将相乘后的下限和上限转换为下概率值和上概率值。当算术解码器63观察到针对量化索引的当前值是准确的值时,将该索引发送至输出端,并且对下个量化进行解码,直到已经对整个索引块进行了解码为止。
如上所述,图7图示了有关于音频样本的实施例中的包络函数。图7示出了针对量化的频率系数块的包络函数对量化的频率系数的展宽进行建模,作为频率函数。图8图示了有关于图像像素数据的实施例中的包络函数,其中,该包络函数对量化的KLT变换系数块的展宽进行建模。如讨论的,本发明使用一个概率密度函数(pdf)(典型地,通用pdf),其具有被允许在块上变化的一些可变参数。这种通用PDF的示例可以是具有控制参数均值和方差的高斯密度。在编码器和解码器两者处需要已知并使用这些参数。必须将此附加信息或辅助信息传送至解码器以有效地描述块上的参数轨迹。在图8中,数据均值完全恒定(零),并且唯一变化的是方差。因此,需要描述此方差的变化并将其传送至解码器。在图8的图像编码示例中,可以通过指数衰减曲线(包络)来对方差迹线(trace)建模,该指数衰减曲线对于块中的所有数据仅需要两个参数,振幅和衰减常数。传统的编码器将对于整个块仅使用一个恒定方差。在图7的音频编码示例中,方差迹线具有不同的外观,并且需要再多一些参数,例如,具有四个系数的AR曲线。
可以通过离散余弦变换(DCT)、傅立叶变换、哈达马(Hadamard)变换,或者通过许多其它可能的变换之一,将图1中的变换16实现为时间-频率变换。两个连续块的变换可以正在对输入样本的重叠段进行操作,例如是关于重叠正交变换的情况。典型地并有利地,精确地(critically)采样该变换,这意味着时间输入样本和频率输出系数的速率相等。欠采样的变换具有低于输入速率的输出速率,这意味着信息丢失。对于过采样的变换,其具有高于输入速率的输出速率,在频率系数之间存在冗余,这通常增加编码器的位率。
对于产生复系数的变换(例如是关于傅立叶变换的情况),将每个复系数的实部和虚部视为两个实值的量,并且,通过交织复变换系数的实部和虚部而创建频率系数块。
虽然有关于音频编码的实施例将被描述为使用时间-频率变换,但是,本发明的音频编码和其它应用可以使用其它变换。例如,在通过无损编码器对图像象元(像素)块进行变换、量化以及编码的图像编码系统的实施例中,变换将是适于图像编码的任何变换,普通示例是Karhunen-Loeve变换(KLT)和离散小波变换。在图8的示例中,对8*8=64像素的块进行KLT变换、量化以及编码。
已经优选地使用标量量化器来量化这里描述的、表示频率系数的量化索引。标量量化器优于矢量量化器的主要优点是低复杂性,其以编码效率中的适度损失为代价。由其后跟随熵编码器的均匀标量量化器给出了基于提供极好的率失真产物的标量量化的编码方法。
通常,在量化之前,信号被称作未量化的信号。对信号值进行量化产生量化索引,其转而可以由反量化器例如通过使用查找表而转换为表示值,其也称作量化的值。对于标量量化器,Voronoi区域是全部产生相同量化索引的量化器输入值的范围的一部分,并且对于该Voronoi区域,在该部分外部不存在产生相同量化索引的值。关于量化索引的Voronoi下限和上限分别是被量化为该量化索引的最低量化器输入水平(level)和最高量化器输入水平。
抖动的量化用于减轻从频谱量化产生的音乐噪声。规则抖动包括由抖动信号来偏移Voronoi界限但是剩下表示值不受影响。
有利地,可以使用减抖动,这使得必须由相同的抖动信号来偏移Voronoi界限和表示值两者。
用包络模型来参数建模量化索引的展宽,作为索引块中的位置的函数。对于任何给定的包络模型,优化方法可以分析量化索引并且计算模型参数的集合,从而最小化无损编码器的总位率。然而,为了节省计算复杂性,可以简化分析方法以产生仅近似地最小化总位率的参数。
例如,包络模型可以是通常用在频谱估计中的自回归(AR)模型。AR模型将包络表示为
σ n = b | 1 + Σ k = 1 d a k e - jkπ n N | , n=0...N-1.
这里,n指示块中的位置,N是块大小,例如320,j等于-1的平方根,d是模型阶数,例如6,ak是AR系数,以及b是包络尺度参数(scale parameter)。d+1个包络模型参数由ak和b组成。在无损编码器中用Voronoi界限乘以逆包络,即1/σn
计算来自量化索引块的包络参数的简单而有效的分析方法是计算时间自相关系数,然后使用Levinson-Durbin递归将这些转换为AR系数。接下来描述此分析方法的细节。
首先对量化索引反量化,
sn=Q-1(qn),
其中,qn是第n个量化索引,以及sn是量化的频率系数。然后我们使用如下Einstein-Wiener-Khinchin公式来计算时域自相关系数
c k = 1 N Σ n = 0 N - 1 s n 2 cos ( π n N - 1 k ) , k=0...d.
这里,我们假设sn表示例如从傅立叶变换得到的正确的信号频谱。然而,尽管作为结果的ck或许不表示实际时域自相关系数,但是该方法适用于任何信号。除以N将相关系数标准化(normalize)为每样本量。
根据相关系数ck,可以使用众所周知的Levinson-Durbin递归来获得AR系数ak。第一个AR系数ak总是等于1.0,因此不需要被编码。包络标度因子(scale factor)如下给出
b = c 0 + Σ k = 1 d a k c k .
从而,该包络标度因子等于针对第d阶最小均方差线性预测器的预测误差方差的平方根。
对包络参数ak和b进行编码并传送至解码器。此参数编码通常由变换、量化和熵编码三个步骤组成;这些步骤的第一个和最后一个不是严格必须的。对于参数ak,变换可以例如是将AR系数转换为对数面积(Log Area)(LAR)系数或线谱频率(LSF)。可以通过对数映射来变换标度因子b。量化是标量或矢量量化器并且将变换的参数转换为一个或多个量化索引。然后,可以利用例如哈夫曼或算术编码来对这些量化索引进行熵编码。
利用算术编码器对输入量化索引qn的无损编码需要概率模型,对于N个量化索引的块中的所有位置n,所述概率模型指定每个可能的量化索引值的似然。这里使用的模型假设针对未量化的频率系数fn的条件概率密度函数(pdf)p(fnn)。对于每个频率系数,通过根据上面讨论的包络σn定标非条件pdf而获得条件pdf
p ( f n | σ n ) = 1 σ n p ( f n σ n )
此公式简单表示了:条件pdf等于通过包络σn在宽度上定标的非条件概率。为了保持具有曲线1下面的总面积的正确的pdf,需要用逆包络来定标高度。
现在通过在关于某一的量化索引qn=Q(fn)的Voronoi区域上对条件pdf积分,给出该量化索引的建模的似然
P ( q n | σ n ) = ∫ L ( q n ) U ( q n ) p ( τ | σ n ) dτ
= ∫ L ( q n ) U ( q n ) 1 σ n p ( τ σ n ) dτ
= ∫ L ( q n ) / σ n U ( q n ) / σ n p ( τ ) dτ
= C ( U ( q n ) σ n ) - C ( L ( q n ) σ n ) ,
其中,U(q)和L(q)表示关于量化索引q的上Voronoi界限值和下Voronoi界限值,P(qnn)是条件概率质量函数(cmf),以及C(x)是累积密度函数(cdf),其定义为
C ( x ) = ∫ - ∞ x p ( τ ) dτ
概率模型可以例如基于高斯概率分布,在该情况下,cdf为
C ( x ) = ∫ - ∞ x 1 2 π e - 1 2 t 2 dt
作为替代,可以使用许多其它分布,例如逻辑斯特(logistic)分布、拉普拉斯分布等。
有利地,可以利用训练数据的数据库来优化cdf,例如通过将cdf实现为分段线性曲线。该优化找到最小化总的建模的熵的cdf
H = Σ Σ n = 0 N - 1 - P ( q n | σ n ) log ( P ( q n | σ n ) ) ,
其中,第一个总和对训练数据库中的所有信号块求和,而第二个总和对每个块中的量化索引求和。cdf的训练离线进行且仅进行一次,并且可以用例如梯度下降算法的简单数字优化过程来实现该cdf的训练。通过使用充分大的和多样的数据库,训练的cdf将提供对操作期间遇到的概率的匹配,从而最小化平均位率。
由算术编码器使用建模的概率值以产生有效编码的位流。算术编码器需要针对要被编码的每个码元的累积质量函数(cmf),其通过在定标的Voronioi界限的值处求cdf的值而直接获得
P ( Q < q n ) = C ( L ( q n ) &sigma; n )
P ( Q &le; q n ) = C ( U ( q n ) &sigma; n ) .
解码器已经接近精确相同的cmf,因为其使用相同的包络和相同的Voronoi界限。通过测试量化索引的不同选择,可以确定cmf值匹配位流信息的索引。
应当注意,已经仅通过举例说明而给出了本发明的不同实施例的上面的详细描述,因此这些并非意在限制本发明的范围,因为本发明的范围由所附权利要求所定义。此外,应当理解,当学习权利要求和具体说明书时,落入所附权利要求范围内的各种改变和修改对于本领域的技术人员变得显而易见。
例如,代替具有单个固定cdf,可能具有几个可用的不同cdf函数,并且对于每个块,选择导致最低位率的一个cdf。随后将此决定作为辅助信息而指示给解码器。
可选择的,可以使用几个不同的cdf函数,并且,选择用于对一个量化索引进行编码的cdf取决于相应包络值的水平(level)。换句话说,将包络值的范围划分为区域,并且对每个区域分配特定cdf。可以独立地优化这些cdf函数的每一个,导致较低的平均位率。根据此方法,不向解码器指示附加的辅助信息。
可选择的,可以基于已经被编码的块中的码元,对关于当前量化索引的未量化的值进行预测。然后在无损编码器和解码器中从Voronoi界限减去此预测值。结果,典型地Voronoi界限移动得更接近零,在那里cdf更陡峭。这增加了码元的建模的似然,从而减小位率。在本领域中,在无损编码中使用预测是众所周知的。
虽然上面的扩展中的每一个降低了平均位率,但是其也增加了复杂性。对于要求低复杂性的编解码器的应用,较高的复杂性通常不能由较低的位率来证明是适当的。

Claims (14)

1.一种对变换域中的量化索引块进行无损编码以作为位流传输的方法,该方法包括:
利用通过至少一个包络参数描述的包络函数来对量化索引的展宽建模;
对于每个量化索引:
重新创建对应于索引的量化区域的上限和下限;
确定在对应于索引的位置处的包络函数的值;以及
通过将所述上限和下限乘以对应于索引的逆包络函数值,确定所述索引的上概率值和下概率值;以及
算术地编码所述索引的上概率值和下概率值,
对描述包络函数的至少一个包络参数进行编码;以及
提供用于传输至解码器的位流,所述位流包括算术地编码的量化索引以及编码的至少一个包络参数。
2.如权利要求1所述的方法,其中,所述量化索引表示音频信号,所述方法包括对数字化的音频样本进行时间-频率变换以获得频率系数,以及随后量化所述频率系数,其中,所述对量化索引的展宽建模的步骤包括对量化的频率系数的展宽建模。
3.如权利要求1所述的方法,其中,所述量化索引表示基于像素的图像,所述方法包括对数字化的像素数据进行空间-频率变换以获得空间频率系数,以及随后量化所述空间频率系数,其中,所述对量化索引的展宽建模的步骤包括对量化的空间频率系数的展宽建模。
4.如权利要求1-3的任何一个所述的方法,其中,所述上概率值和下概率值是累积概率密度函数的值。
5.如权利要求4所述的方法,其中,累积概率密度函数的概率模型基于在下面的集合中包括的分布:高斯概率分布、逻辑斯特分布和拉普拉斯分布。
6.如权利要求1-5的任何一个所述的方法,其中,所述至少一个包络参数包括包络标度参数。
7.如权利要求6所述的方法,其中,包络模型是自回归AR模型,并且包络参数包括AR系数。
8.一种对作为位流接收的、变换域中的量化索引块进行无损解码的方法,所述方法包括:
将接收的位流分离为算术位流和对至少一个编码的包络参数的描述;
对至少一个包络参数进行解码;
基于所述至少一个包络参数来确定包络函数,所述包络函数对编码的量化索引的展宽进行建模;
对于每个要被解码的量化索引:
对来自所述算术位流的一对上概率值和下概率值算术地解码;
通过重新创建对应于索引的量化区域的上限和下限而试验性地对量化索引进行编码,确定在对应于所述索引的位置处的包络函数的值,并且通过将所述上限和下限乘以对应于所述索引的、确定的包络函数值的逆来确定所述索引的上概率值和下概率值;
调整所述量化索引并且重复所述实验性地对索引进行编码的步骤,直到针对所述实验性地编码的索引的上概率值和下概率值匹配来自所述算术位流的解码的所述一对上概率值和下概率值为止;以及
输出导致匹配的量化索引。
9.如权利要求8所述的方法,其中,要被解码的量化索引表示音频信号的量化的频率系数,包络函数作为频率的函数对编码的量化索引的展宽进行建模,所述方法包括对输出量化索引进行频率-时间变换以获得音频信号的数字化的音频样本。
10.如权利要求8所述的方法,其中,要被解码的量化索引表示基于像素的图像的量化的空间频率系数,包络函数作为空间频率的函数对编码的量化索引的展宽进行建模,所述方法包括对输出量化索引进行频率-空间变换以获得基于像素的图像的数字化的像素数据。
11.如权利要求8-10的任何一个所述的方法,其中,所述上概率值和下概率值是累积概率密度函数的值。
12.如权利要求11所述的方法,其中,累积概率密度函数的概率模型基于在下面的集合中包括的分布:高斯概率分布、逻辑斯特分布和拉普拉斯分布。
13.如权利要求8-12的任何一个所述的方法,其中,所述至少一个包络参数包括包络标度参数。
14.如权利要求13所述的方法,其中,包络模型是自回归AR模型,并且包络参数包括AR系数。
CN200780042135.2A 2006-11-13 2007-11-12 数字数据的无损编码和解码 Active CN101542910B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP06123963.8 2006-11-13
US11/595,995 2006-11-13
EP20060123963 EP1921752B1 (en) 2006-11-13 2006-11-13 Adaptive arithmetic encoding and decoding of digital data
US11/595,995 US7756350B2 (en) 2006-11-13 2006-11-13 Lossless encoding and decoding of digital data
PCT/EP2007/009764 WO2008058692A1 (en) 2006-11-13 2007-11-12 Lossless encoding and decoding of digital data

Publications (2)

Publication Number Publication Date
CN101542910A true CN101542910A (zh) 2009-09-23
CN101542910B CN101542910B (zh) 2012-12-05

Family

ID=39369279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780042135.2A Active CN101542910B (zh) 2006-11-13 2007-11-12 数字数据的无损编码和解码

Country Status (2)

Country Link
US (1) US7756350B2 (zh)
CN (1) CN101542910B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103299307A (zh) * 2011-08-23 2013-09-11 华为技术有限公司 用于估计量化索引的概率分布的估计器
CN105071815A (zh) * 2009-10-09 2015-11-18 汤姆森特许公司 算术编码或算术解码的方法和设备
CN110140330A (zh) * 2017-01-02 2019-08-16 杜塞尔多夫华为技术有限公司 用于整形数据序列概率分布的装置和方法
CN116032901A (zh) * 2022-12-30 2023-04-28 北京天兵科技有限公司 多路音频数据信号采编方法、装置、系统、介质和设备

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2282310B1 (en) 2002-09-04 2012-01-25 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US8243820B2 (en) * 2004-10-06 2012-08-14 Microsoft Corporation Decoding variable coded resolution video with native range/resolution post-processing operation
US9071847B2 (en) 2004-10-06 2015-06-30 Microsoft Technology Licensing, Llc Variable coding resolution in video codec
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
DE102006022346B4 (de) 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data
DE602007010514D1 (de) * 2006-12-18 2010-12-23 Koninkl Philips Electronics Nv Bildkomprimierung und dekomprimierung
US8107571B2 (en) * 2007-03-20 2012-01-31 Microsoft Corporation Parameterized filters and signaling techniques
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
WO2010074068A1 (ja) * 2008-12-26 2010-07-01 日本電気株式会社 逆量子化方法、逆量子化装置及びプログラム
PL3723090T3 (pl) 2009-10-21 2022-03-21 Dolby International Ab Nadrpóbkowanie w połączonym banku modułu transpozycji
WO2011126277A2 (en) 2010-04-05 2011-10-13 Samsung Electronics Co., Ltd. Low complexity entropy-encoding/decoding method and apparatus
KR20110112168A (ko) * 2010-04-05 2011-10-12 삼성전자주식회사 내부 비트뎁스 확장에 기반한 비디오 부호화 방법 및 그 장치, 내부 비트뎁스 확장에 기반한 비디오 복호화 방법 및 그 장치
US8849053B2 (en) 2011-01-14 2014-09-30 Sony Corporation Parametric loop filter
EP2710589A1 (en) 2011-05-20 2014-03-26 Google, Inc. Redundant coding unit for audio codec
TWI671736B (zh) * 2011-10-21 2019-09-11 南韓商三星電子股份有限公司 對信號的包絡進行寫碼的設備及對其進行解碼的設備
WO2015037961A1 (ko) * 2013-09-13 2015-03-19 삼성전자 주식회사 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
PL3660843T3 (pl) 2013-09-13 2023-01-16 Samsung Electronics Co., Ltd. Sposób kodowania bezstratnego
US9438899B1 (en) * 2013-12-11 2016-09-06 Harris Corporation Statistically lossless compression system and method
US9686560B2 (en) * 2015-02-23 2017-06-20 Teledyne Dalsa, Inc. Lossless data compression and decompression apparatus, system, and method
EP3822916A1 (en) * 2019-11-13 2021-05-19 Disney Enterprises, Inc. Image compression using normalizing flows
US20220147777A1 (en) * 2020-11-11 2022-05-12 Space Pte. Ltd. Automatic Partial Discharge and Noise Signals Separation using Arithmetic Coding in Time Domain and Magnitude Distributions in Frequency Domain

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3890606B2 (ja) * 1995-03-09 2007-03-07 ソニー株式会社 画像信号符号化装置及び画像信号符号化方法
JP2840589B2 (ja) 1996-02-09 1998-12-24 富士通株式会社 データ圧縮装置及びデータ復元装置
US6101276A (en) * 1996-06-21 2000-08-08 Compaq Computer Corporation Method and apparatus for performing two pass quality video compression through pipelining and buffer management
US6366614B1 (en) * 1996-10-11 2002-04-02 Qualcomm Inc. Adaptive rate control for digital video compression
US6353680B1 (en) * 1997-06-30 2002-03-05 Intel Corporation Method and apparatus for providing image and video coding with iterative post-processing using a variable image model parameter
US6067118A (en) * 1997-12-16 2000-05-23 Philips Electronics North America Corp. Method of frame-by-frame calculation of quantization matrices
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
KR100384090B1 (ko) * 1998-11-04 2003-05-16 미쓰비시덴키 가부시키가이샤 화상 복호화 장치 및 화상 부호화 장치
US7046852B2 (en) * 2001-09-13 2006-05-16 Sharp Laboratories Of America, Inc. Fast image decompression via look up table
US7609904B2 (en) 2005-01-12 2009-10-27 Nec Laboratories America, Inc. Transform coding system and method
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071815A (zh) * 2009-10-09 2015-11-18 汤姆森特许公司 算术编码或算术解码的方法和设备
US9973208B2 (en) 2009-10-09 2018-05-15 Dolby Laboratories Licensing Corporation Method and device for arithmetic encoding or arithmetic decoding
CN105071815B (zh) * 2009-10-09 2018-10-16 杜比国际公司 算术编码设备和算术解码设备
US10516414B2 (en) 2009-10-09 2019-12-24 Dolby Laboratories Licensing Corporation Method and device for arithmetic encoding or arithmetic decoding
US10848180B2 (en) 2009-10-09 2020-11-24 Dolby Laboratories Licensing Corporation Method and device for arithmetic encoding or arithmetic decoding
US11381249B2 (en) 2009-10-09 2022-07-05 Dolby Laboratories Licensing Corporation Arithmetic encoding/decoding of spectral coefficients using preceding spectral coefficients
US11770131B2 (en) 2009-10-09 2023-09-26 Dolby Laboratories Licensing Corporation Method and device for arithmetic encoding or arithmetic decoding
CN103299307A (zh) * 2011-08-23 2013-09-11 华为技术有限公司 用于估计量化索引的概率分布的估计器
CN103299307B (zh) * 2011-08-23 2016-08-03 华为技术有限公司 用于估计量化索引的概率分布的估计方法及估计器
CN110140330A (zh) * 2017-01-02 2019-08-16 杜塞尔多夫华为技术有限公司 用于整形数据序列概率分布的装置和方法
CN110140330B (zh) * 2017-01-02 2021-08-13 杜塞尔多夫华为技术有限公司 用于整形数据序列概率分布的装置和方法
CN116032901A (zh) * 2022-12-30 2023-04-28 北京天兵科技有限公司 多路音频数据信号采编方法、装置、系统、介质和设备

Also Published As

Publication number Publication date
CN101542910B (zh) 2012-12-05
US20080112632A1 (en) 2008-05-15
US7756350B2 (en) 2010-07-13

Similar Documents

Publication Publication Date Title
CN101542910B (zh) 数字数据的无损编码和解码
JP4506039B2 (ja) 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
EP1667109A1 (en) Method and device of multi-resolution vector quantilization for audio encoding and decoding
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
US6721700B1 (en) Audio coding method and apparatus
US6807526B2 (en) Method of and apparatus for processing at least one coded binary audio flux organized into frames
US20110224975A1 (en) Low-delay audio coder
CA2877161C (en) Linear prediction based audio coding using improved probability distribution estimation
EP1921752B1 (en) Adaptive arithmetic encoding and decoding of digital data
EP3069449B1 (en) Split gain shape vector coding
KR20070046752A (ko) 신호 처리 방법 및 장치
EP1498874B1 (en) Wide-band speech signal compression and decompression apparatus, and method thereof
EP2023339B1 (en) A low-delay audio coder
KR100952065B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
WO2005033860A2 (en) A fast codebook selection method in audio encoding
CN102074243B (zh) 一种基于比特平面的感知音频分级编码系统及方法
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
WO2008058692A1 (en) Lossless encoding and decoding of digital data
Lee et al. KLT-based adaptive entropy-constrained quantization with universal arithmetic coding
Kandadai et al. Scalable audio compression at low bitrates
JPS6333025A (ja) 音声符号化法
Lakhdhar et al. Context-based adaptive arithmetic encoding of EAVQ indices
KR20070037771A (ko) 오디오 부호화 시스템
Afrabandpey et al. On the Importance of Temporal Dependencies of Weight Updates in Communication Efficient Federated Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GOOGLE INC.

Free format text: FORMER OWNER: GLOBAL IP SOLUTIONS INC.

Effective date: 20111111

Free format text: FORMER OWNER: GLOBAL IP SOLUTIONS INC. (US)

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20111111

Address after: American California

Applicant after: Google Inc.

Address before: Stockholm

Applicant before: Global IP solutions (GIPS) limited liability company

Co-applicant before: Global IP Solutions Inc.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google Inc.

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.