CN104246875A - 利用条件量化器的音频编码和解码 - Google Patents
利用条件量化器的音频编码和解码 Download PDFInfo
- Publication number
- CN104246875A CN104246875A CN201380021648.0A CN201380021648A CN104246875A CN 104246875 A CN104246875 A CN 104246875A CN 201380021648 A CN201380021648 A CN 201380021648A CN 104246875 A CN104246875 A CN 104246875A
- Authority
- CN
- China
- Prior art keywords
- data
- quantized
- index
- value
- coded frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 205
- 238000013139 quantization Methods 0.000 claims abstract description 94
- 230000008569 process Effects 0.000 claims description 93
- 238000006243 chemical reaction Methods 0.000 claims description 51
- 238000011002 quantification Methods 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 10
- 230000001143 conditioned effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 15
- 230000008859 change Effects 0.000 description 14
- 230000000873 masking effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000007667 floating Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- OJIJEKBXJYRIBZ-UHFFFAOYSA-N cadmium nickel Chemical compound [Ni].[Cd] OJIJEKBXJYRIBZ-UHFFFAOYSA-N 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/14—Conversion to or from non-weighted codes
- H03M7/24—Conversion to or from floating-point codes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一些方法可以涉及接收包括变换系数数据的编码音频数据的帧。变换系数数据可以包括指数数据和尾数数据。尾数数据可以包括通过均匀或不均匀的量化间隔的边界被编码的尾数值。可以至少部分基于指数概况数据来重构尾数值。基于指数概况数据,可以推断关于预量化尾数值的统计数据。指数概况数据可以包括指数差分数据。一些这样的指数差分数据可以是指数差对,但是在替代方法中可以估计多于两个的指数差分数据点。在每个频率段,尾数值重构可以取决于指数差分数据,例如,取决于指数差对。
Description
相关申请的交叉引用
本申请要求2012年4月25日提交的美国临时专利申请No.61/638,090和2012年7月27日提交的美国实用专利申请No.13/560,144的优先权,这些申请的全部内容特此通过引用并入。
技术领域
本公开涉及对音频信号进行编码或者对编码的音频信号进行解码。特别地,本公开涉及量化和逆量化处理。
背景技术
对于音频和视频数据的数字编码和解码处理的发展持续对娱乐内容的递送具有显著影响。尽管存储器器件的容量提高并且越来越高带宽的数据递送广泛可用,但是存在对于最小化将被存储和/或传输的数据量的持续压力。音频和视频数据常常一起递送,并且用于音频数据的带宽常常受视频部分的要求约束。
因此,音频数据常常以高压缩因子进行编码,有时压缩因子为30:1或更高。因为信号失真随着所应用的压缩的量而增大,所以可以在解码的音频数据的保真度与存储和/或传输编码数据的效率之间进行权衡。
而且,希望降低编码和解码算法的复杂度。对关于编码处理的附加数据进行编码可以简化解码处理,但是是以存储和/或传输附加编码数据为代价的。因此,在参数化向后自适应方法中,不对用于每个尾数的比特分配数据进行编码。相反,解码器必须从其他编码信息重新计算比特分配数据。这样的方法使得可编码更少的数据,但是在解码器侧涉及相对更大的复杂度。类似地,虽然有损尾数编码处理允许大幅度的数据压缩,但是在编码处理中,特别是在尾数量化处理期间,丢失了关于原始尾数值的一些信息。尽管现有的音频编码和解码方法大致是令人满意的,但是改进方法将是令人期望的。
发明内容
本公开中描述的技术主题的一些方面可以在编码或解码方法中实现。一些这样的方法可以涉及接收包括变换系数数据的编码音频数据的帧。变换系数数据可以包括指数数据和尾数数据。尾数数据可以包括通过均匀或不均匀的量化间隔的边界被编码的尾数值。可以至少部分基于关于指数的信息来重构尾数值。这样的信息在本文中可以被称为指数概况数据(exponent profile data)。基于指数概况数据,可以推断关于预量化尾数值的统计数据。
根据一些实现,指数概况数据可以包括指数差分数据。一些这样的指数差分数据可以是指数差对,但是在替代实现中可以估计多于两个的指数差分数据点。在每个频率段,尾数值重构可以以指数差分数据为条件,例如,以指数差对为条件。
本文中描述的一些方法涉及:接收包括音频数据的编码帧,并且响应于从该编码帧提取的信息,确定量化器分辨率数据。量化器分辨率数据可以对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个(a number of)量化间隔。所述方法可以涉及:从所述编码帧确定变换系数的指数概况数据,并且至少部分基于量化器分辨率数据和指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法。所述方法还可以涉及根据所述去量化方法对所述尾数值进行去量化。
指数概况数据可以包括指数差分数据。在一些这样的实现中,指数差分数据可以对应于5种差分状态。指数差分数据可以例如包括指数差对。对尾数值进行去量化可以涉及根据与用于频率的指数差对相应的去量化方法对用于该频率的尾数值进行去量化。用于所述频率的指数差对可以包括与用于较低频率的指数相关的第一指数差以及与用于较高频率的指数相关的第二指数差。
在一些实现中,在对尾数值进行量化的处理期间使用的量化间隔可以是均匀的量化间隔。然而,在其他实现中,量化间隔可以不是均匀的量化间隔。在一些实现中,在对尾数值进行量化的处理期间使用的量化值可以对应于量化间隔的边界之间的中点。然而,至少一些去量化值可以不对应于量化间隔的边界之间的中点。
所述去量化方法中的至少一些可以涉及与在对所述编码帧的尾数值进行量化的处理期间使用的量化值不同的去量化值的应用。在一些实现中,指数概况数据可以包括关于对于其在所述编码帧中不存在相应的尾数值的指数的数据。
本文中描述的一些实现提供包括逻辑系统以及一个或多个接口的装置。所述逻辑系统可以包括下列中的一个或多个:通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、或分立硬件组件。所述逻辑系统可以被配置为:从所述接口接收包括音频数据的编码帧,并且响应于从该编码帧提取的信息,确定量化器分辨率数据。编码帧可以为各种格式之一,诸如AC-3格式或增强AC-3格式。量化器分辨率数据可以对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔。
所述逻辑系统还可以被配置为从所述编码帧确定变换系数的指数概况数据。所述逻辑系统可以被配置为至少部分基于量化器分辨率数据和指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法。所述逻辑系统还可以被配置为根据所述去量化方法对尾数值进行去量化。
所述装置可以包括存储器器件。所述接口可以是逻辑系统与存储器器件之间的接口。可替代地,或者附加地,所述接口包括网络接口。
在一些实现中,指数概况数据可以包括指数差分数据。例如,指数差分数据可以包括与多个频率中的每个相应的指数差对。在一些这样的实现中,所述装置包括在其上存储有数据结构的存储器。所述数据结构包括多种去量化方法以及相应的指数差分数据。所述逻辑系统可以被配置为通过参照所述数据结构来确定与指数差分数据相应的去量化方法。
本文中描述的一些实现可以在其上存储有的软件的非暂态介质中实现。所述软件可以包括用于控制解码装置执行以下操作的指令:接收包括音频数据的编码帧,并且响应于从该编码帧提取的信息,确定量化器分辨率数据。量化器分辨率数据可以对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔。
所述软件可以包括用于控制解码装置执行以下操作的指令:从所述编码帧确定变换系数的指数概况数据,并且至少部分基于量化器分辨率数据和指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法。所述软件可以包括用于控制解码装置根据所述去量化方法对尾数值进行去量化的指令。
本文中提供替代方法。一些这样的方法可以涉及:接收时域中的第一音频数据,并且将第一音频数据变换为频域中的第二音频数据。第二音频数据可以包括变换系数。所述方法可以涉及:从变换系数确定包括指数概况数据的指数数据,并且响应于该指数数据确定量化器分辨率数据。量化器分辨率数据可以对应于在对变换系数的尾数值进行量化的处理期间将使用的若干个量化间隔。所述方法可以涉及:至少部分基于量化器分辨率数据和指数概况数据来确定用于变换系数的尾数值的多种量化方法。所述方法可以涉及根据所述量化方法对所述尾数值进行量化。
所述方法可以涉及形成包括第二音频数据、指数数据和量化的尾数值的编码帧。在一些实现中,在对尾数值进行量化的处理期间使用的一个或多个量化值可以不对应于量化间隔的边界之间的中点。所述量化方法中的一种或多种可以使用边界被不均匀地分隔的量化间隔。
本公开的替代方面可以在包括逻辑系统以及至少一个接口的装置中实现。所述逻辑系统可以被配置为从接口接收包括频域中的第一音频数据、指数数据和量化的尾数值的编码帧。可以根据至少部分基于从指数数据确定的指数概况数据和量化器分辨率数据的量化方法来确定量化的尾数值。
所述逻辑系统可以被配置为:从量化的尾数值确定去量化的尾数值,至少部分基于去量化的尾数值来确定变换系数,并且使用变换系数来执行逆变换以生成时域中的第二音频数据。
本说明书中描述的技术主题的一种或多种实现的细节在附图和以下描述中阐述。其他特征、方面和优点从描述、附图和权利要求书将变得清楚。注意,附图的相对尺寸可能不按比例绘制。
附图说明
图1是例示音频编码处理的例子的流程图。
图2A是示出对绝对指数值的指数遮盖(tenting)处理的一个例子的结果的图。
图2B是示出差分指数值的图。
图3A是描绘3级对称量化处理的例子的图。
图3B是描绘4级非对称量化处理的例子的图。
图4是例示音频解码处理的例子的流程图。
图5是例示涉及条件逆量化器的替代音频解码处理的例子的流程图。
图6A是示出变换系数值的概率密度函数的例子的图。
图6B-6D是关于图6A的变换系数的尾数和选定指数值的概率密度函数的图。
图7是指示各个频率处的指数值的例子的图。
图8是描绘根据向后指数差分和向前指数差分的规格化尾数方差的例子的示图。
图9是示出建立用于使用条件逆量化器的音频解码方法的参数的处理的例子的流程图。
图10是提供编码器或解码器装置的组件的例子的框图。
各个图中的相似的附图标记和标号指示相似的元件。
具体实施方式
以下描述针对出于描述本公开的一些创新性方面的目的的某些实现、以及在其中可以实现这些创新性方面的环境的例子。然而,可以以各种不同的方式应用本文中的教导。尽管本申请中提供的例子主要就AC-3音频编解码器(也被称为“Dolby Digital”)和增强AC-3音频编解码器(也被称为E-AC-3或“Dolby Digital Plus”)进行描述,但是本文中提供的构思适用于其他音频编解码器,包括但不限于,MPEG-2 AAC和MPEG-4 AAC。而且,所描述的实现可以在各种音频编码器和/或解码器中实现,所述音频编码器和/或解码器可以被包括在移动电话、智能电话、台式计算机、手持或便携式计算机、上网本、笔记本、智能本、平板、立体声系统、电视、DVD播放器、数字记录设备以及各种其他设备中。因此,本公开的教导并非意图被限于附图中所示的和/或本文中描述的实现,而是相反地具有广泛的适用性。
图1是例示音频编码处理的例子的流程图。音频编码处理100的操作,像本文中所示和/或所描述的其他处理那样,不一定按所指示的次序执行。而且,本文中提供的处理可以包括比所示的和/或所描述的块多或少的块。音频编码处理100以及本文中描述的其他音频处理和解码处理可以至少部分由音频编码器和/或解码器执行,所述音频编码器和/或解码器可以经由硬件、固件、记录在非暂态介质上的软件等实现。在本文中的其他地方描述一些例子。
在音频编码处理100中,在变换处理104中将时域中的输入采样102变换到频域中。可以将输入采样102分组为音频数据帧,每个帧中具有多个块。在一些这样的例子中,变换处理104涉及对输入帧102进行修正离散余弦变换(MDCT)以生成变换系数106a。然而,在替代实现中,可以使用其他变换方法(诸如快速傅立叶变换或各种分析滤波器组,即,正交镜像滤波器组(QMF))。可以对输入采样102的块进行加窗和叠加。变换处理104的输出可以被约束在某些值内。例如,MDCT的输出可以是约束在-1.0与1.0之间的“小数表示”。
在处理108中,将所述小数表示转换为浮点表示以供以后处理。在一些实现中,处理108的输出可以是具有尾数值和指数值的变换系数。在一些这样的实现中,处理108的输出可以为以下形式:
X=Y2-k [式1]
在式1中,X表示变换系数106a,Y表示尾数值112a,k表示指数值110(参见图1)。在一些实现中,尾数值112a和指数值110可以被约束落在预定范围内。例如,为了用AC-3音频编解码器进行编码,指数值110可以大于或等于零。尾数值112a可以被约束为大于或等于0.5并且小于或等于1.0。
在处理128之前可以以各种方式对指数值110进行处理,其中,指数值110被包括在音频数据的编码帧130中。在一些实现中,可以跨时间和/或频率对指数值110进行分组。当指数值110随时间和/或跨频率相对缓慢地变化时,这样的分组可能是更可取的。
例如,指数值110可以在单个指数值110用于可以表示频率范围的每个频率分量(在本文中也被称为“区段”或“频率段”)的情况下被编码。可替代地,指数值110可以在单个指数值110用于多个区段(例如,2个、4个或更多个区段)的情况下被编码。如果跨多个频率段对指数值110进行分组,则与这些区段中的一些相应的指数值110可能需要改变。如果需要改变,则可以改变相应的尾数值112a,以便使每个变换系数106a保持为等量值。
类似地,可以跨时间或者可以不跨时间对指数值110进行分组。如果不跨时间对指数值110进行分组,则可对于每个块编码不同的指数值110。然而,如果多个块之间共享单个指数值110,则其他块中的指数值110中的一些可能需要改变。如果需要改变,则可以改变相应的尾数值112a,以便对每个变换系数106a保持等量值。
当根据指数值110的变化改变尾数值112a时,希望以无损的方式这样做。在一些实现中,如果当相应的指数值110改变时将尾数值112a调整得高于阈值,则将尾数值112a“裁剪”到最大值(诸如1.0)。这样的“裁剪”引入了信号失真。因此,不是当相应的指数值110改变时将尾数值112a调整得高于阈值,而是可能优选的是对具有较低尾数值112a的变换系数106a的等量值进行编码。
图2A是示出对绝对指数值的指数遮盖处理的一个例子的结果的图。在这个例子中,图220描绘绝对指数值110和相应的频率段225的序列。在这个例子中,相邻指数值110之间的差分被约束为小于±12dB。这里,分别在相邻区段225i与225j中的指数值110a和110b之间的差分超过12dB。因此,作为该指数遮盖处理的结果,用于区段225j的指数值从110b降至110c。在这个例子中,调整相应的尾数值112a,以便对于相应的变换系数106a保持等量值。
图2B是示出差分指数值的图。图2B的图250中所示的差分指数值225对应于指数遮盖处理之后图2A的绝对指数值之间的差。例如,差分指数值225a(-1)对应于区段225b的指数值110与区段225a的指数值110之间的差。差分指数值225b(-2)对应于区段225c的指数值110与区段225b的指数值110之间的差。
在这个例子中,差分指数值255被约束落在-2至2的范围内,并且具有5种可能的状态:-2、-1、0、1或2。因此,差分指数值255i(对应于区段225j的指数值110与区段225i的指数值110之间的差)已经从3降至2。再次参照图1,在比特流打包处理128期间,可以将这些差分指数值255包括在编码帧130的指数数据120中。指数数据120可以包括在本文中被称为指数概况数据的内容。在一些实现中,可以从指数数据120推导指数概况数据。以下描述使用指数概况数据的一些例子。
现在将描述对尾数值112a进行编码的一些例子。比特分配处理114可以包括对每个尾数值112a确定最佳的量化器分辨率。例如,可以从每帧可用的比特的总数减去开销、指数编码等所需的比特数量。功率谱密度(即每个区段的谱能量的估计)可以从指数值110计算,或者通过使用参考指数值和差分指数值255来计算。
可以计算解释人类听力的心理声学性质的掩蔽曲线,并且将该掩蔽曲线与每个区段的功率谱密度进行比较。在一些这样的实现中,将对多个频带中的每个应用掩蔽曲线。还可以应用人类听力的绝对阈值。
可以计算信号掩蔽比,其表示每个区段的功率谱密度与相应的掩蔽值之间的差。在一些实现中,量化器分辨率可以基于信号掩蔽比。例如,在尾数量化处理116期间应用的量化器分辨率可以与信号隐蔽比成正比。在一些实现中,编码帧130中所包括的比特分配参数118可以与该量化器分辨率相对应。因此,编码帧130的比特分配参数118可以包括与在尾数量化处理116期间使用的若干个量化间隔相应的量化器分辨率数据。然而,在替代实现中,比特分配参数118不被包括在编码帧130中。在参数化向后自适应实现(诸如Dolby Digital和Dolby Digital Plus)中,比特分配参数118(或者与量化器分辨率相应的其他数据)可以由解码器从编码帧中所包括的指数数据、掩蔽曲线偏移数据等计算。这样的方法使得可编码较少的数据,但是在解码器侧涉及相对大的复杂度。
在一些实现中,只有与每个区段的超过掩蔽曲线值(或者人类听力的绝对阈值)的那些功率谱密度值相应的比特将被包括在编码帧130中。然而,功率谱密度值超过掩蔽曲线值的程度可能随时间大幅度变化。因此,可能潜在地被编码的比特的相应数量也可能随时间大幅度变化。
为了补偿这样的变化,一些编码器实现涉及迭代搜索以针对可用比特的数量对信号掩蔽比进行优化。在一些这样的实现中,如果潜在地可能被编码的比特的数量超过可用比特数量,则可以将掩蔽曲线上移。如果可能潜在地被编码的比特的数量少于可用比特数量,则可以将掩蔽曲线下移。可以确定最佳掩蔽曲线偏移,其导致在不超过可用比特数量的情况下使用尽可能多的比特。
现在将描述尾数量化处理116的一些例子。如以上所指出的,尾数量化处理116的量化器分辨率可以基于信号掩蔽比。一些编码实现可以涉及大量的可能的量化器分辨率。
例如Dolby Digital包括16个可能的量化器分辨率,每个量化器分辨率对应于比特分配指针值。比特分配指针0对应于如下实例,其中因为功率谱密度值落至掩蔽曲线或绝对听力阈值的水平以下,因此对于采样没有尾数值被编码。比特分配指针1对应于3级对称量化处理。比特分配指针2-5对应于5级、7级、11级和15级对称量化处理。比特分配指针6-16对应于2n级非对称量化处理,其中,n可以是5-12、14或16的范围中的整数。
图3A是描绘3级对称量化处理的例子的图。在这个例子中,量化间隔305是均匀的:量化间隔305a、305b和305c均是2/3。中点310可以参照量化间隔305的边界315而确定。例如,中点310a在量化间隔305a的边界315a与315b之间的中间。
在图300中,在尾数量化处理116期间应用的量化值122对应于量化间隔305的中点310。例如,量化间隔305a的中点310a为-2/3,其对应于量化的尾数值122a。类似地,量化间隔305c的中点310c为2/3,其对应于量化的尾数值122c。
替代的量化处理116可以涉及或者可以不涉及均匀量化间隔305的应用。而且,替代的量化处理116可以涉及或者可以不涉及量化值320与量化间隔305的中点310之间的对应。图3B中示出了用于一个这样的替代量化处理116的参数。
图3B是描绘4级非对称量化处理的例子的图。在这个例子中,量化间隔305在1/4(参见量化间隔305d)至3/4(参见量化间隔305g)的范围内。在这个例子中,量化间隔305e和305f为1/2。对于量化间隔305e和305f,中点310e和310f与量化的尾数值122e和122f相对应。然而,量化间隔305d和305g的中点310d和310g不与量化的尾数值122d和122g相对应。
一些替代的非均匀量化处理116涉及矢量量化。一些矢量量化方法使得多维数据矢量可以用单个码字表示。该码字可以与矢量的预定义数据结构(例如,表)的特定矢量相应。该码字的长度可以取决于所述数据结构中的矢量的数量:相对多的矢量可以与相对长的码字相对应。
例如,Dolby Digital Plus的一些量化处理116涉及其中码字可以在2个比特到9个比特的范围内的矢量量化。单个码字可以用于表示每个尾数矢量。Dolby Digital Plus编码器可以基于信号掩蔽比为尾数矢量选择适当的矢量表。在该表内,编码器可以确定哪个矢量最接近地匹配该尾数矢量。与用于最佳匹配矢量的表索引相应的码字可以被包括在编码帧130中。通过使用码字,解码器可以通过从该适当的表提取与码字相应的矢量来恢复量化的尾数值。以下将描述尾数量化处理116的附加的实现。
图4是例示音频解码处理的例子的流程图。广泛地讲,音频解码处理400涉及撤销在音频编码处理100期间进行的行为。在一些实现中,音频解码处理400基本上是音频编码处理100的镜像。
当解码器接收到编码帧130时,音频解码处理400开始。例如,当解码设备经由接口(诸如网络接口)接收到多个编码帧130时,该处理可以开始。可替代地,或者附加地,解码设备的逻辑系统可以经由逻辑系统与存储器器件之间的接口接收编码帧130。
在比特流拆包处理402期间,从编码帧130提取指数数据120和量化的尾数值122。在一些实现中,比特分配参数118(或者与量化器分辨率相对应的其他数据)也被包括在编码帧130中。在比特分配处理404中,可以从比特分配参数118计算比特分配值。在尾数去量化处理406中对量化的尾数值122进行去量化以生成尾数值112b。比特分配参数118可以包括指示在尾数去量化处理406期间使用的若干个量化间隔的量化器分辨率数据。然而,在一些实现中,比特分配参数118不被包括在编码帧130中。比特分配参数118(或者与量化器分辨率相对应的其他数据)可以由解码器从编码帧中所包括的指数数据、掩蔽曲线偏移数据等计算得到。因为尾数量化处理116是有损处理,所以尾数值112b不一定与输入到尾数量化处理116的尾数值112a相同。以下将描述尾数去量化处理406的一些新颖变动。
在块浮点解码处理408期间,将尾数值112b和相应的指数值110从浮点表示转换为变换系数106b的小数表示。块浮点解码处理408的输出可以被约束在某些值内。例如,变换系数106b的值可以被约束在-1.0与1.0之间。
在逆变换处理410中,将频域中的变换系数106b变换为时域中的解码采样412。在一些这样的例子中,逆变换处理410涉及变换系数106b的逆MDCT以生成解码的采样412。然而,替代实现可以涉及其他逆变换方法,诸如快速傅立叶变换或合成滤波器组(即,逆QMF)。
图5是例示涉及条件逆量化器的替代音频解码处理的例子的流程图。在一些实现中,音频解码处理500可以类似于上述音频解码处理400。然而,音频解码处理500涉及新颖的去量化方法和相关处理。与本文中描述的其他方法一样,音频解码处理500的块可以按或者可以不按所指示的顺序执行。例如,在一些实现中,块515可以在块510之前执行,或者块510和515可以基本上同时执行。
在这个例子中,当解码器接收包括音频数据的一个或多个编码帧(块505)时,音频解码处理500开始。例如,当解码设备经由接口接收到编码帧(或多个编码帧)时,该处理可以开始。在一些实现中,编码帧可以基本上类似于如上所述的编码帧130,并且可以为AC-3格式、增强AC-3格式或本领域的普通技术人员已知的另一音频编解码器。然而,如以下所讨论的,在一些实现中,编码帧可能已经根据本文中描述的新颖处理进行了编码。根据一些这样的实现,尾数重构可以以指数信息为条件。
通过其接收编码帧的接口可以是网络接口。可替代地,或者附加地,逻辑系统可以经由逻辑系统与存储器器件之间的接口接收编码帧。图10中示出了编码器或解码器装置的组件的例子,以下将对这些例子进行描述。
在块510中,从编码帧提取量化器分辨率数据,或者响应于该帧中所包括的其他信息来确定量化器分辨率数据。量化器分辨率数据可以对应于在对用于编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔。量化间隔可以是或者可以不是均匀的量化间隔,这依尾数量化处理而定。类似地,在尾数量化处理期间使用的量化值可以对应于或者可以不对应于量化间隔的边界之间的中点,这依尾数量化处理而定。
如以上参照图1所指出的,在尾数量化处理116期间应用的量化器分辨率可以与信号掩蔽比成正比。编码帧130中所包括的比特分配参数118可以与该量化器分辨率相对应。因此,编码帧130的比特分配参数118可以包括与在尾数量化处理116期间使用的若干个量化间隔相对应的量化器分辨率数据。
在一些实现中,量化器分辨率数据可以包括比特分配指针。如以上所指出的,Dolby Digital包括16个可能的量化器分辨率,每个量化器分辨率对应于响应于编码帧130中的数据而确定的比特分配指针。比特分配指针0对应于如下实例,其中因为功率谱密度值落至绝对听力阈值或掩蔽曲线的水平以下,因此对于采样没有尾数值被编码。比特分配指针1与3级对称量化处理相对应。比特分配指针2-5与5级、7级、11级和15级对称量化处理相对应。比特分配指针6-16与2n级非对称量化处理相应,其中,n可以是5-12、14或16的范围中的整数。
在块515中,从编码帧提取变换系数的指数概况数据,或者根据该帧中所包括的指数信息来确定变换系数的指数概况数据。在一些实现中,指数概况数据将包括指数差分数据。在这样的实现中,指数差分数据可以基本上如以上参照差分指数值255所描述的那样进行确定(参见图2A和图2B以及相应的讨论)。在一些这样的实现中,差分指数值255可以被约束落在-2至2的范围内,并且可以具有5种可能的状态:-2、-1、0、1或2。
在块520中,至少部分根据量化分辨率数据和指数概况数据来确定用于编码帧的尾数值的去量化方法。在一些实现中,去量化方法中的至少一些可以涉及与在对编码帧的尾数值进行量化的处理期间使用的量化值不同的去量化值的应用。例如,即使在量化处理期间使用的量化值是量化间隔的边界之间的中点,去量化方法中的至少一些也可以涉及与量化间隔的边界之间的中点不相对应的去量化值的应用。现在将参照图6A-6D说明这样的实现背后的推论。
图6A是示出变换系数值的概率密度函数的例子的图。在图600中,轴605表示变换系数106的每个相应值的概率密度px(x)。最高概率密度值与变换系数106的零值相对应。在这个例子中,概率密度值随着变换系数106的绝对值增大而降低。在这个例子中,变换系数106的绝对值小于或等于1。
图6B-6D是选定指数值和图6A的变换系数的尾数的概率密度函数的图。这些图均基于从图6A的例子pdf推导的以下方程:
在方程2中,Py|k(y|k)表示以指数值k为条件的尾数y的概率密度函数。如以上在方程1的讨论中所指出的,尾数值可以(如这里)被约束大于或等于0.5并且小于或等于1.0。
在图6B中,k=0,而在图6C中,k=2,在图6D中,k=7。首先参照图6B,可以看出,当k=0时,常常将是这样的情况,即,将量化值(或去量化值)设置为量化间隔的边界之间的中点将不是最佳的,这是因为它将不导致最小化误差度量(诸如最小均方量化误差)。然而,随着k的值增大,量化器间隔内的尾数统计数据变得足够均匀以使得对于量化器间隔的最佳(就最小化均方误差而言)重构几乎与其中点相同,即,由于将重构设置为间隔的中点而导致的平均量化误差几乎与将重构设置为就最小化均方差而言的最佳值的平均量化误差相同。可以使用其他误差度量,诸如平均绝对量化误差。
前述分析表明,对于给定的量化器分辨率数据值,k的不同值可以指示去量化值是否应与量化间隔的边界之间的中点相对应。然而,音频数据常常随时间高度变化,因此,px(x)常常可能随时间高度变化。音频数据在频谱上可能具有类似的变化。因此,绝对指数值可能不是尾数统计数据的一致且可靠的指示符。
为了考虑到时间和频率上的这样的变化,在一些实现中,用于每个频率段的尾数去量化方法可以至少部分基于差分指数值和/或指数值的趋势。可以通过对于顺序的频率段比较用于两个或更多个差分指数值来确定这样的趋势。根据一些这样的实现,可以根据量化分辨率数据和指数差对来确定用于每个频率段的尾数去量化方法。现在将参照图7描述一些这样的实现。
图7是指示各个频率处的指数值的例子的图。因为变换系数的值与指数值的值成反比,所以在图700中,k在向下的方向上增大。示出了用于各个频率段725的k的值。在一些实现中,用于每个频率段725的指数差对将是与用于较低频率的指数相关的第一指数差以及与用于较高频率的指数相关的第二指数差。
例如,用于频率段725b的指数差对将是与用于频率段725a的指数值相关的第一指数差以及与用于频率段725c的指数值相关的第二指数差。第一指数差在本文中可以被称为“向后指数差”,第二指数差在本文中可以被称为“向前指数差”。术语“diff”和“差”在本文中可以互换使用。
通过至少考虑每个频率区间的向后指数diff和向前指数diff,可以确定指数值的趋势如何。例如,用于频率段725b和725i的向后指数diff和向前指数diff指示向上的斜率,其中,k值下降。用于频率段725c的向后指数diff和向前指数diff指示谱峰,该谱峰对应于用于频率区间725c的变换系数的局部极大值。对于这样的值,尾数的分布趋向于歪斜。因此(如以上参照图6B所描述的情况下那样,在图6中,k=0),将去量化值设置为量化间隔的边界之间的中点通常将不是最佳的。
用于频率段725f和725g的向后指数diff和向前指数diff指示向下的斜率。用于频率段725h的向后指数diff和向前指数diff指示谷或沟。与谱峰一样,指数数据中的这样的趋势也可以与尾数统计数据相对应。
图8是描绘根据向后指数差分和向前指数差分的实际音频数据的规格化尾数方差的例子的示图。图800中描绘的结果表示对于到目前为止所使用的特定类型的音频数据的结果。在这个例子中,图800的垂直轴805指示以分贝为单位的规格化尾数方差。轴810指示向前指数diff,轴815指示向后指数diff。在这个例子中,指数差分数据具有与在-2.0至2.0(-2.0和2.0包括在内)的范围内的整数相应的5种不同状态。因此,指数对包括25种不同的可能组合。
点820对应于指数差对(-2,2),其又对应于尖锐的谱峰。点820在这个例子中对应于大约-2.5dB的规格化尾数方差(即,指数差对中的任何一个的最低方差)。在图800中,较低方差对应于可能的尾数值的范围上的概率密度值的相对较不均匀的分布。分布越不均匀,尾数值将越有可能相对地更歪斜。因此,将去量化值设置为量化间隔的边界之间的中点通常将不是那么优化的。
在另一个极端,点825对应于指数差对(2,-2),其对应于尖锐的谱谷。点825在这个例子中具有约1.7dB的规格化尾数方差(即,指数差对中的任何一个的最高方差)。在图800中,较高方差对应于可能的尾数值的范围上的概率密度值的相对较均匀的分布。概率密度值的越均匀的分布意味着将去量化值设置为量化间隔的边界之间的中点越有可能提供令人满意的结果。
再次参照图5,在一些实现中,块520中的用于每个频率段的尾数去量化方法可以(至少部分)根据与频率段相对应的指数差对和量化分辨率数据对来确定。块520可以涉及确定用于每个频率段的指数差对,包括向后指数diff和向前指数diff。在一些实现中,从编码帧提取的指数概况数据(参见块515)可以包括差分指数值。这样的实现进一步使确定指数差对的处理成流水线。
每个指数差对可以与去量化方法相对应。块520可以涉及通过参照指数差对和相应的去量化方法的数据结构来获得用于特定频率段的去量化方法。块520可以涉及从所述数据结构检索与用于频率段的指数差对相应的去量化方法的指示。在一些实现中,所述数据结构将与用于频率段的量化分辨率数据相对应。例如,所述数据结构可以与特定比特分配指针值相对应。
从编码帧提取的指数概况数据(参见块515)可以包括对于其在编码帧中不存在相应的尾数值的指数值。例如,可以在尾数量化处理期间将零比特分配给这样的尾数值。在一些实现中,然而相关联的指数数据可以用于确定用于相应的尾数值的去量化方法。不是分配随机尾数值,而是可以根据与用于频率段的指数差对和量化分辨率数据相应的去量化方法来重构用于该频率段的尾数值。
在块525中,根据在块525中确定的去量化方法和相应的量化分辨率数据对与每个频率段相应的尾数值进行去量化。这些去量化方法中的至少一些可以不同于编码中使用的量化方法。例如,在编码处理中使用的量化值可以是量化间隔的边界之间的中点,而在块520中确定并且在块525中应用的这些去量化方法中的至少一些可以不涉及应用与量化间隔的边界之间的中点相应的去量化值。然而,在本文中描述的一些编码方法中,量化值不一定是量化间隔的边界之间的中点。
在块530中,完成对于所述帧的解码处理。块530可以涉及重构与去量化的尾数值相应的绝对指数值。块530可以涉及块浮点解码处理,其中,将去量化的尾数值和相应的指数值从浮点表示转换为变换系数的小数表示。块530可以涉及逆变换处理,其中,将频域中的变换系数变换为时域中的解码的采样。
在块535中,确定是否需要对任何剩余的编码帧进行处理。如果需要,则在这个例子中,处理回到块505。如果不需要,则处理结束(块540)。
图9是示出建立用于使用条件逆量化器的音频解码方法的参数的处理的例子的流程图。方法900从块905开始,在块905中,收集尾数训练数据。这样的训练数据可以包括各种类型的音频数据,诸如用于各种不同音乐风格的音频数据、用于各种电影音轨的音频数据、听众鼓掌数据、周围音频数据、它们的组合等。
在块910中,将尾数训练数据划分为指数差对集合。例如,可以将尾数训练数据从时域变换到频域。可以将块浮点编码处理应用于该数据来生成尾数值和相应的绝对指数值。可以对绝对指数值计算差分指数值。差分指数值对可以在多个频率段中的每一个处与尾数值相关联。
然后可以对每个指数差对确定去量化方法(块915)。量化方法还可以对应于特定量化分辨率。例如,可以对根据3级对称量化方法、5级对称量化方法、7级对称量化方法和/或其他量化方法而量化的尾数确定不同的去量化方法。一些这样的去量化方法可以涉及应用与在这些量化方法中使用的量化间隔的边界之间的中点不相对应的去量化值。相反,该去量化值可以与从尾数训练数据确定的统计数据相对应。然而,其他去量化方法可以涉及应用与这样的中点相应的去量化值。
在块920中,针对每个量化分辨率填充数据结构。所述数据结构可以包括去量化方法和相应的指数差对。可以将所述数据结构保存在存储器中。在块925中,确定是否将针对另外的量化分辨率确定去量化方法。如果是,则处理可以回到块915或920。如果否,则处理结束(块930)。
应注意,处理900仅仅是用于条件逆量化的设计处理的一个例子。在这个例子中,逆量化器以其为条件的指数概况数据包括指数差对集合。然而,如本文中其他地方所指出的,在替代实现中,逆量化器可以以其他类型的指数概况数据为条件。例如,在替代实现中,指数概况数据可以包括用于每个频率段的多于两个的指数差值。当逆量化器以不同类型的指数概况数据为条件时,要相应地修改图9的步骤。例如,在块910中,可以将训练数据划分为更小的组,每个组对应于替代的指数概况数据的特定值。
本文中描述的各种解码方法可以与根据现有编解码器编码的音频数据一起使用,现有的编解码器包括但不限于Dolby Digital和DolbyDigital Plus。然而,本文中公开的一些实现提供新颖的量化和去量化方法。
根据一些这样的实现,甚至对于相同的量化分辨率,量化间隔边界和/或量化值的选择也可以变化。在一些这样的实现中,编码设备对于量化间隔边界和/或量化值的选择可以以指数信息(诸如用于特定频率段的指数差对)为条件。编码设备可以根据尾数训练数据来确定与指数差对相关联的量化间隔边界和/或量化值,所述尾数训练数据可以基于实际音频数据。解码设备可以例如根据相应的去量化间隔边界和/或去量化值来对编码的音频数据进行去量化。
用于本文中描述的新颖编码器的条件量化器的设计可以涉及与处理900类似的处理,处理900在上面参照图9进行了描述。然而,在这样的实现中,可以适当地修改步骤915以确定量化方法,而不是去量化方法,或者除了去量化方法之外还确定量化方法。根据一些这样的实现,可以将步骤920修改以填充包括量化方法、而不是去量化方法或者除了去量化方法之外还包括量化方法的数据结构。
这样的新颖的编码技术提供不仅适合于供本文中描述的新颖的解码设备使用、而且还适合于供老式解码设备使用的编码的音频数据。
图10是提供编码器或解码器装置的组件的例子的框图。设备100可以是移动电话、智能电话、台式计算机、手持或便携式计算机、上网本、笔记本、智能本、平板、立体声系统、电视、DVD播放器、数字记录设备、或各种其他设备。
在这个例子中,所述设备包括接口系统1005。接口系统1005可以包括网络接口,诸如无线网络接口。可替代地,或者附加地,接口系统1005可以包括通用串行(USB)接口或另一个这样的接口。
设备1000包括逻辑系统1010。逻辑系统1010可以包括处理器,诸如通用单芯片或多芯片处理器。逻辑系统1010可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、或分立硬件组件、或它们的组合。逻辑系统1010可以被配置为控制设备1000的其他组件。尽管图10中在设备1000的组件之间没有示出接口,但是逻辑系统1010可以被配置为与其他组件进行通信。视情况而定,所述其他组件可以或者可以不被配置为彼此进行通信。
逻辑系统1010可以被配置为执行编码器和/或解码器功能,包括但不限于本文中描述的编码器和/或解码器功能的类型。在一些这样的实现中,逻辑系统1010可以被配置为(至少部分)根据存储在一个或多个非暂态介质上的软件进行操作。所述非暂态介质可以包括与逻辑系统1010相关联的存储器,诸如随机存取存储器(RAM)和/或只读存储器(ROM)。所述非暂态介质可以包括存储器系统1015的存储器。存储器系统1015可以包括一种或多种合适类型的非暂态存储介质,诸如闪存、硬盘驱动器等。
例如,逻辑系统1010可以被配置为经由接口系统1005接收编码的音频数据的帧并且根据本文中描述的解码器方法对该编码的音频数据进行解码。可替代地,或者附加地,逻辑系统1010可以被配置为经由存储器系统1015与逻辑系统1010之间的接口接收编码的音频数据的帧。逻辑系统1010可以被配置为根据解码的音频数据控制扬声器(一个或多个)1020。在一些实现中,逻辑系统1010可以被配置为根据常规的编码方法和/或根据本文中描述的编码方法对音频数据进行编码。逻辑系统1010可以被配置为经由麦克风1025、经由接口系统1005等接收这样的音频数据。
显示系统1030可以包括一种或多种合适类型的显示器,这依设备1000的表现形式而定。例如,显示系统1030可以包括液晶显示器、等离子体显示器、双稳态显示器等。
用户输入系统1035可以包括被配置为从用户接受输入的一个或多个设备。在一些实现中,用户输入系统1035可以包括覆盖显示系统1030的显示器的触摸屏。用户输入系统1035可以包括按钮、键盘、开关等。在一些实现中,用户输入系统1035可以包括麦克风1025:用户可以经由麦克风1025对设备1000提供语音命令。逻辑系统可以被配置为进行语音识别并且根据这样的语音命令控制设备1000的至少一些操作。
电源系统1040可以包括一个或多个合适的储能设备,诸如镍镉电池或锂离子电池。电源系统1040可以被配置为从插座接收电源。
对于本文中描述的实现的各种修改对于本领域的普通技术人员可能是容易明白的。在不脱离本公开的精神或范围的情况下,本文中定义的一般原理可以应用于其他实现。例如,虽然已经就指数差对描述了各种实现,但是替代实现可以涉及用于每个频率段的多于两个的指数差值。而且,虽然已经就Dolby Digital和Dolby Digital Plus描述了各种实现,但是本文中描述的方法可以结合其他音频编解码器实现。因此,权利要求并非意图被限于本文中所示的实现,而是要被给予与本公开、本文中描述的原理和新颖特征一致的最广泛的范围。
Claims (31)
1.一种方法,包括:
接收包括音频数据的编码帧;
响应于从所述编码帧提取的信息确定量化器分辨率数据,所述量化器分辨率数据对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔;
从所述编码帧确定变换系数的指数概况数据;
至少部分基于所述量化器分辨率数据和所述指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法;和
根据所述去量化方法对所述尾数值进行去量化。
2.根据权利要求1所述的方法,其中,所述指数概况数据包括指数差分数据。
3.根据权利要求2所述的方法,其中,所述指数差分数据对应于5种差分状态。
4.根据权利要求2所述的方法,其中,所述指数差分数据包括指数差对。
5.根据权利要求4所述的方法,其中,对所述尾数值进行去量化包含根据与用于频率的指数差对相应的去量化方法对所述频率的尾数值进行去量化。
6.根据权利要求5所述的方法,其中,用于频率的指数差对包括与用于较低频率的指数相关的第一指数差以及与用于较高频率的指数相关的第二指数差。
7.根据权利要求1-6中的任何一个所述的方法,其中,在对尾数值进行量化的处理期间使用的量化间隔是均匀的量化间隔。
8.根据权利要求1-7中的任何一个所述的方法,其中,在对尾数值进行量化的处理期间使用的量化值对应于量化间隔的边界之间的中点,并且其中至少一些去量化值不对应于量化间隔的边界之间的中点。
9.根据权利要求1-8中的任何一个所述的方法,其中,所述去量化方法中的至少一些包含应用与在对所述编码帧的尾数值进行量化的处理期间使用的量化值不同的去量化值。
10.根据权利要求1-9中的任何一个所述的方法,其中,所述指数概况数据包括关于对于其在所述编码帧中不存在相应的尾数值的指数的数据。
11.一种装置,包括:
接口;和
逻辑系统,所述逻辑系统被配置为:
从所述接口接收包括音频数据的编码帧;
响应于从所述编码帧提取的信息确定量化器分辨率数据,所述量化器分辨率数据对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔;
从所述编码帧确定变换系数的指数概况数据;
至少部分基于所述量化器分辨率数据和所述指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法;和
根据所述去量化方法对所述尾数值进行去量化。
12.根据权利要求11所述的装置,其中,所述编码帧为AC-3格式或增强AC-3格式。
13.根据权利要求11或权利要求12所述的装置,其中,所述逻辑系统包括下列中的至少一个:通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、或分立硬件组件。
14.根据权利要求11-13中的任何一个所述的装置,还包括存储器器件,其中,所述接口包括所述逻辑系统与所述存储器器件之间的接口。
15.根据权利要求11-14中的任何一个所述的装置,其中,所述接口包括网络接口。
16.根据权利要求11-15中的任何一个所述的装置,其中,所述指数概况数据包括指数差分数据。
17.根据权利要求16所述的装置,其中,所述指数差分数据包括与多个频率中的每一个相应的指数差对。
18.根据权利要求16或权利要求17所述的装置,还包括存储器,在所述存储器上存储数据结构,所述数据结构包括多种去量化方法和相应的指数差分数据。
19.根据权利要求18所述的装置,其中,所述逻辑系统被配置为通过参照所述数据结构来确定与指数差分数据相应的去量化方法。
20.一种在其上存储有软件的非暂态介质,所述软件包括用于控制解码装置执行以下操作的指令:
接收包括音频数据的编码帧;
响应于从所述编码帧提取的信息确定量化器分辨率数据,所述量化器分辨率数据对应于在对用于所述编码帧的音频数据的变换系数的尾数值进行量化的处理期间使用的若干个量化间隔;
从所述编码帧确定变换系数的指数概况数据;
至少部分基于所述量化器分辨率数据和所述指数概况数据来确定用于所述编码帧的尾数值的多种去量化方法;和
根据所述去量化方法对所述尾数值进行去量化。
21.一种方法,包括:
接收时域中的第一音频数据;
将所述第一音频数据变换为频域中的第二音频数据,所述第二音频数据包括变换系数;
从所述变换系数确定指数数据,所述指数数据包括指数概况数据;
响应于所述指数数据确定量化器分辨率数据,所述量化器分辨率数据对应于在对所述变换系数的尾数值进行量化的处理期间将使用的若干个量化间隔;
至少部分基于所述量化器分辨率数据和所述指数概况数据来确定用于所述变换系数的尾数值的多种量化方法;和
根据所述量化方法对所述尾数值进行量化。
22.根据权利要求21所述的方法,还包括形成包括所述第二音频数据、指数数据和量化的尾数值的编码帧。
23.根据权利要求21或权利要求22所述的方法,其中,在对尾数值进行量化的处理期间使用的一个或多个量化值不对应于量化间隔的边界之间的中点。
24.根据权利要求21-23中的任何一个所述的方法,其中,所述量化方法中的一种或多种使用边界被不均匀地分隔的量化间隔。
25.一种装置,包括:
接口;和
逻辑系统,所述逻辑系统被配置为:
从所述接口接收编码帧,所述编码帧包括频域中的第一音频数据、指数数据和量化的尾数值,所述量化的尾数值根据至少部分基于从所述指数数据确定的指数概况数据和量化器分辨率数据的量化方法而被确定;
从所述量化的尾数值确定去量化的尾数值;
部分基于所述去量化的尾数值确定变换系数;和
使用所述变换系数来执行逆变换操作以生成时域中的第二音频数据。
26.根据权利要求25所述的装置,其中,所述编码帧为AC-3格式或增强AC-3格式。
27.根据权利要求25或权利要求26所述的装置,所述逻辑系统包括下列中的至少一个:通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立门或晶体管逻辑、或分立硬件组件。
28.根据权利要求25-27中的任何一个所述的装置,还包括存储器器件,其中,所述接口包括所述逻辑系统与所述存储器器件之间的接口。
29.根据权利要求25-28中的任何一个所述的装置,其中,所述接口包括网络接口。
30.根据权利要求25-29中的任何一个所述的装置,其中,所述量化方法中的一种或多种使用边界被不均匀地分隔的量化间隔。
31.根据权利要求25-30中的任何一个所述的装置,其中,所述量化方法中的一种或多种使用不对应于量化间隔的边界之间的中点的量化值。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261638090P | 2012-04-25 | 2012-04-25 | |
US61/638,090 | 2012-04-25 | ||
US13/560,144 US8401863B1 (en) | 2012-04-25 | 2012-07-27 | Audio encoding and decoding with conditional quantizers |
US13/560,144 | 2012-07-27 | ||
PCT/US2013/026481 WO2013162679A1 (en) | 2012-04-25 | 2013-02-15 | Audio encoding and decoding with conditional quantizers |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104246875A true CN104246875A (zh) | 2014-12-24 |
CN104246875B CN104246875B (zh) | 2016-08-24 |
Family
ID=47844802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380021648.0A Expired - Fee Related CN104246875B (zh) | 2012-04-25 | 2013-02-15 | 利用条件量化器的音频编码和解码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8401863B1 (zh) |
EP (1) | EP2842126B1 (zh) |
JP (1) | JP5970602B2 (zh) |
CN (1) | CN104246875B (zh) |
TW (1) | TWI585750B (zh) |
WO (1) | WO2013162679A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396119B1 (en) * | 2009-09-30 | 2013-03-12 | Ambarella, Inc. | Data sample compression and decompression using randomized quantization bins |
US11609784B2 (en) * | 2018-04-18 | 2023-03-21 | Intel Corporation | Method for distributing a computational process, workload distribution device and system for distributing a computational process |
US10769819B2 (en) * | 2018-09-24 | 2020-09-08 | Qualcomm Incorporated | Floating-point data compression |
US11562247B2 (en) * | 2019-01-24 | 2023-01-24 | Microsoft Technology Licensing, Llc | Neural network activation compression with non-uniform mantissas |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0797324A2 (en) * | 1996-03-22 | 1997-09-24 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
WO2002091361A1 (en) * | 2001-05-08 | 2002-11-14 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US6775587B1 (en) * | 1999-10-30 | 2004-08-10 | Stmicroelectronics Asia Pacific Pte Ltd. | Method of encoding frequency coefficients in an AC-3 encoder |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
CN101427307A (zh) * | 2005-09-27 | 2009-05-06 | Lg电子株式会社 | 编码/解码多声道音频信号的方法和装置 |
WO2011050293A2 (en) * | 2009-10-23 | 2011-04-28 | Samplify Systems, Inc. | Block floating point compression of signal data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009518659A (ja) * | 2005-09-27 | 2009-05-07 | エルジー エレクトロニクス インコーポレイティド | マルチチャネルオーディオ信号の符号化/復号化方法及び装置 |
-
2012
- 2012-07-27 US US13/560,144 patent/US8401863B1/en active Active
-
2013
- 2013-02-15 EP EP13709608.7A patent/EP2842126B1/en not_active Not-in-force
- 2013-02-15 WO PCT/US2013/026481 patent/WO2013162679A1/en active Application Filing
- 2013-02-15 JP JP2015504552A patent/JP5970602B2/ja not_active Expired - Fee Related
- 2013-02-15 CN CN201380021648.0A patent/CN104246875B/zh not_active Expired - Fee Related
- 2013-02-18 TW TW102105591A patent/TWI585750B/zh not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0797324A2 (en) * | 1996-03-22 | 1997-09-24 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6775587B1 (en) * | 1999-10-30 | 2004-08-10 | Stmicroelectronics Asia Pacific Pte Ltd. | Method of encoding frequency coefficients in an AC-3 encoder |
WO2002091361A1 (en) * | 2001-05-08 | 2002-11-14 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
CN101427307A (zh) * | 2005-09-27 | 2009-05-06 | Lg电子株式会社 | 编码/解码多声道音频信号的方法和装置 |
WO2011050293A2 (en) * | 2009-10-23 | 2011-04-28 | Samplify Systems, Inc. | Block floating point compression of signal data |
Also Published As
Publication number | Publication date |
---|---|
CN104246875B (zh) | 2016-08-24 |
WO2013162679A1 (en) | 2013-10-31 |
EP2842126A1 (en) | 2015-03-04 |
JP5970602B2 (ja) | 2016-08-17 |
TW201351395A (zh) | 2013-12-16 |
US8401863B1 (en) | 2013-03-19 |
EP2842126B1 (en) | 2016-05-04 |
JP2015512532A (ja) | 2015-04-27 |
TWI585750B (zh) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689427B2 (en) | Methods and apparatus for implementing embedded scalable encoding and decoding of companded and vector quantized audio data | |
US10699720B2 (en) | Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus | |
TWI671736B (zh) | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 | |
CN103415884B (zh) | 用于执行霍夫曼编码的装置和方法 | |
US10789964B2 (en) | Dynamic bit allocation methods and devices for audio signal | |
WO2008022564A1 (en) | Audio encoding system | |
TW201108205A (en) | Method and apparatus for vector quantization codebook search | |
KR102401002B1 (ko) | 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치 | |
CN104246875A (zh) | 利用条件量化器的音频编码和解码 | |
CN102158692B (zh) | 编码方法、解码方法、编码器和解码器 | |
TWI450267B (zh) | 編碼時域音訊訊號之方法及電子裝置以及產生頻帶之頻率係數的比例因子之方法 | |
WO2016023323A1 (zh) | 多声道声音信号编码方法、解码方法及装置 | |
EP2476114B1 (en) | Audio signal encoding employing interchannel and temporal redundancy reduction | |
EP3637417B1 (en) | Signal processing method and device | |
CN102568484A (zh) | 弯曲谱和精细估计音频编码 | |
US20110135007A1 (en) | Entropy-Coded Lattice Vector Quantization | |
US20210390967A1 (en) | Method and apparatus for encoding and decoding audio signal using linear predictive coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180627 Address after: No. 18, Wu Sha seashore road, Changan Town, Dongguan, Guangdong Patentee after: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd. Address before: American California Patentee before: DOLBY LABORATORIES LICENSING Corp. |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 |
|
CF01 | Termination of patent right due to non-payment of annual fee |