CN105324812A - 不同信号维度的参数矢量的多级量化 - Google Patents
不同信号维度的参数矢量的多级量化 Download PDFInfo
- Publication number
- CN105324812A CN105324812A CN201480034435.6A CN201480034435A CN105324812A CN 105324812 A CN105324812 A CN 105324812A CN 201480034435 A CN201480034435 A CN 201480034435A CN 105324812 A CN105324812 A CN 105324812A
- Authority
- CN
- China
- Prior art keywords
- dimension
- value
- parameter
- kth
- vector quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 255
- 238000013139 quantization Methods 0.000 title claims abstract description 222
- 238000000034 method Methods 0.000 claims abstract description 208
- 230000008569 process Effects 0.000 claims abstract description 78
- 230000008878 coupling Effects 0.000 claims description 71
- 238000010168 coupling process Methods 0.000 claims description 71
- 238000005859 coupling reaction Methods 0.000 claims description 71
- 230000004044 response Effects 0.000 claims description 29
- 238000011002 quantification Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 14
- 238000011282 treatment Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000581364 Clinitrachus argentatus Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- OJIJEKBXJYRIBZ-UHFFFAOYSA-N cadmium nickel Chemical compound [Ni].[Cd] OJIJEKBXJYRIBZ-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 230000006903 response to temperature Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/94—Vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mathematical Physics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
第一矢量量化处理可被应用于N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值。可至少部分地基于第一组量化值中的一个或多个值对于该N维参数集合的第二维度计算两个或更多个参数预测值。可至少部分地基于参数预测值计算预测残差值。第二矢量量化处理可被应用于该预测残差值以产生第二组量化值。这些处理可被扩展到任何数量的维度。对应的逆矢量量化处理可被执行。
Description
相关申请的交叉引用
本申请要求2013年6月17日提交的美国临时专利申请No.61/835,954的优先权,该申请的全部内容通过引用并入此。
技术领域
本公开涉及信号处理。
背景技术
尽管存储设备的容量增加并且以日益增加的高带宽输送数据已广泛普及,但是对于最小化要被存储和/或传输的数据量仍持续存在压力。例如,音频和视频数据常常被一起输送,并且音频数据的带宽往往受到视频部分的需求的约束。
因此,音频数据常常被以高压缩率编码,有时被以30:1或更高的压缩率编码。由于信号失真随应用的压缩率的增大而增大,可能要在解码音频数据的保真度与存储和/或传输编码数据的效率之间进行折中。
此外,希望降低编码和解码算法的复杂度。对关于编码处理的额外数据进行编码可简化解码处理,但是代价是存储和/或传输额外的编码数据。尽管已有的数据编码和解码方法通常令人满意,但是仍希望改进的方法。
发明内容
本公开中所描述的主旨中的一些方面可在包括编码和解码方法和设备的信号处理方法和设备中实现。一些这样的方法可包含接收信号并且分析信号以确定N维参数集合的参数值。如文中使用的,短语“N维参数集合”指的是其中每个参数在N维中被索引的参数集合。
在一些实现中,信号可包括音频数据。根据一些这样的实现,维度(dimension)可对应于通道、频带、时间单位(例如,块)等。在一些实现中,参数集合的参数可包括单独离散通道与耦合通道之间的相关系数。这些相关系数在文中可被称为“α”。作为替代或者附加地,参数集合的参数可包括通道间相关系数,其指示成对的单独离散通道之间的相关性。这样的参数在文中有时可被认为反映“通道间相干性”或者“ICC”。但是,文中描述的信号处理方法和设备不仅仅可应用于音频数据的维度和参数,而且具有广泛适用性。
一些实现包含将第一矢量量化处理应用于N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值。这样的实现可包含至少部分地基于第一组量化值中的一个或多个值计算该N维参数集合的沿第二维度的两个或更多个参数预测值。该实现可包含至少部分地基于该参数预测值计算预测残差值,并且将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
一些这样的实现可包含确定对应于第一组量化值的第一矢量量化索引,并且确定对应于第二组量化值的第二矢量量化索引。第一和第二量化索引可例如包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
一些实现可包含至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算N维参数集合的沿第k维度的两个或更多个参数预测值,至少部分地基于沿第k维度的参数预测值计算预测残差值,并且将第k矢量量化处理应用于沿第k维度的预测残差值以产生第k组量化值。
一些这样的实现可包含确定维度k的最大矢量量化器长度Mk,并且确定要被矢量量化的值的数量Vk超过Mk。这样的实现可包括确定要被矢量量化的Vk-Mk个剩余值,并且至少部分地基于Mk个量化值中的至少一个来预测沿第k维度的Vk-Mk个参数预测值。该实现可包含计算(Vk-Mk)个第k维预测残差值,并且对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
根据一些实现,一种方法可包含接收信号并且分析该信号以确定N维参数集合的参数值。在一些实现中,该信号可包括音频数据。该方法可包含将第一矢量量化处理应用于N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值,并且至少部分地基于第一组量化值中的一个或多个值计算沿该N维参数集合的第二维度的两个或更多个参数预测值。该方法可包含至少部分地基于该参数预测值计算预测残差值,并且将第二矢量量化处理应用于该预测残差值以产生第二组量化值。在执行处理中用于设计量化器的或者在代码本搜索中使用的失真度量可以是均方误差失真度量。
该方法可包含确定对应于第一组量化值的第一矢量量化索引,并且确定对应于第二组量化值的第二矢量量化索引。第一和第二量化索引可例如包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
该方法可包含至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算N维参数集合的沿第k维度的两个或更多个参数预测值,至少部分地基于沿第k维度的参数预测值计算预测残差值,并且将第k矢量量化处理应用于沿第k维度的预测残差值以产生第k组量化值。
该方法可包括如下处理:确定维度k的最大矢量量化器长度Mk;确定要被矢量量化的值的数量Vk超过Mk;确定要被矢量量化的Vk-Mk个剩余值;至少部分地基于Mk个量化值中的至少一个来预测沿第k维度的Vk-Mk个参数预测值;计算(Vk-Mk)第k维预测残差值,并且对于(Vk-Mk)第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
确定最大矢量量化器长度Mk可包含接收来自用户的最大矢量量化器长度Mk的指示。最大矢量量化器长度Mk可以是控制用于对参数编码的比特率的变量,并且可至少部分地基于可用于参数编码的比特率被确定。
该方法可包含以信号自适应方式将参数集合形成参数集合的分区。在一些实现中,分析、应用和计算处理可分别应用于参数集合的每个分区。形成处理可随时间改变。
维度可包括通道和/或频带。维度可包括时间块。参数值可包括空间参数值。例如,空间参数值可包括单独离散通道和耦合通道之间的相关系数(“α值”)。该方法的第k级的α值的预测可包括该方法的第(k-1)级的α值的重构。
频带可包括耦合通道频带。α值可在至少一些相邻时间块之间被共享。该方法可包括在时间块或频带中的至少一个上执行α的窗口化计算。
维度可包括单独离散通道的对。参数值可包括指示单独离散通道的对之间的相关性的通道间相关系数(“ICC”)。第一维度可对应于单独离散通道的对。第一矢量量化处理可产生第一量化ICC值。例如,第一矢量量化可包括以下处理:量化包括Mp通道对循环中的M-1个通道对的ICC以产生M-1个ICC的量化值;至少部分地基于M-1个ICC的量化值计算第MpICC所处的范围;以及利用取决于所计算的范围的标量量化器来量化第MpICC。
根据一些作为替代的实现,一种方法可包括接收包括第一和第二矢量量化索引的信号,并且响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值。该方法可包括至少部分地基于N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个来确定该N维参数集合的第二维度的两个或更多个参数预测值,响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值,并且将第二维度的参数预测值与第二维度的预测残差值相组合以重构第二维度的两个或更多个参数值。
该方法可包含以下处理:接收第k矢量量化索引;至少部分地基于N维参数集合的小于k的维度的一个或多个先前确定的参数值确定N维参数集合的沿第k维的两个或更多个参数预测值;响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且将第k维度的参数预测值与第k维度的预测残差值相组合以重构第k维度的两个或更多个参数值。
该方法可包括以下处理:接收维度k的最大矢量量化器长度Mk的指示;确定沿维度k要被重构的参数值的数量Vk超过Mk;至少部分地基于第k量化索引重构沿维度k的前Mk个值;至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值;接收第k维度的附加矢量量化索引;响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值;并且将第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值相组合以重构第k维度的剩余Vk-Mk个参数值。
根据一些实现,第一矢量量化索引可对应于第一组量化值的存储位置,而第二矢量量化索引可对应于第二组量化值的存储位置。
该方法可包括接收参数集合分区信息,并且根据参数集合分区信息实现该执行和/或确定步骤。
信号可包括编码的音频数据。维度可包括通道和频带。维度可包括时间块。参数值可以是空间参数值。例如,空间参数值可包括单独离散通道与耦合通道之间的相关系数(“α值”)。频带可包括耦合通道频带。在一些实现中,该方法的第k级的α值的预测可包括该方法的第(k-1)级的α值的重构。在一些示例中,α值可在至少一些相邻时间块之间被共享。
维度可包括单独离散通道的对。参数值可包括指示单独离散通道的对之间的相关性的通道间相关系数(“ICC”)。
根据一些实现,装置可包括接口和逻辑系统。逻辑系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、或离散硬件组件中的至少一个。该装置可包括存储设备。接口可以是逻辑系统和存储设备之间的接口。作为替代或者附加地,接口可包括网络接口。
逻辑系统可能够经由接口接收信号。逻辑系统可能够分析信号以确定N维参数集合的参数值,并且将第一矢量量化处理应用于N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值。该逻辑系统可能够至少部分地基于第一组量化值中的一个或多个值计算该N维参数集合的沿第二维度的两个或更多个参数预测值,至少部分地基于该参数预测值计算预测残差值,并且将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
该逻辑系统可进一步能够确定对应于第一组量化值的第一矢量量化索引,并且确定对应于第二组量化值的第二矢量量化索引。第一和第二量化索引可包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
该逻辑系统可进一步能够执行以下操作:至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算N维参数集合的沿第k维度的两个或更多个参数预测值;至少部分地基于沿第k维度的参数预测值计算预测残差值,并且将第k矢量量化处理应用于沿第k维度的预测残差值以产生第k组量化值。
该逻辑系统可进一步能够执行以下操作:确定维度k的最大矢量量化器长度Mk;确定要被矢量量化的值的数量Vk超过Mk;确定要被矢量量化的Vk-Mk个剩余值;至少部分地基于Mk个量化值中的至少一个来预测沿第k维度的Vk-Mk个参数预测值;计算(Vk-Mk)个第k维预测残差值,并且对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
根据一些实现,装置可包括接口和逻辑系统。逻辑系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、或离散硬件组件中的至少一个。该装置可包括存储设备。接口可以是逻辑系统和存储设备之间的接口。作为替代或者附加地,接口可包括网络接口。
该逻辑系统可能够经由接口接收包括第一和第二矢量量化索引的信号。在一些实现中,该信号可包括编码的音频数据。该逻辑系统可能够响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值。该逻辑系统可能够至少部分地基于N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个来确定N维参数集合的第二维度的两个或更多个参数预测值。
该逻辑系统可能够响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值。该逻辑系统可能够将第二维度的参数预测值与第二维度的预测残差值相组合以重构第二维度的两个或更多个参数值。
该逻辑系统还可能够执行以下操作:经由接口接收第k矢量量化索引;至少部分地基于N维参数集合的小于k的维度的一个或多个先前确定的参数值确定N维参数集合的沿第k维的两个或更多个参数预测值;响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且将第k维度的参数预测值与第k维度的预测残差值相组合以重构第k维度的两个或更多个参数值。
该逻辑系统可进一步能够接收维度k的最大矢量量化器长度Mk的指示;确定沿维度k要被重构的参数值的数量Vk超过Mk,以及至少部分地基于第k量化索引重构沿维度k的前Mk个值。该逻辑系统可能够至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值。该逻辑系统可能够接收第k维度的附加矢量量化索引;以及响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值。该逻辑系统可能够将第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值相组合以重构第k维度的剩余Vk-Mk个参数值。
根据一些实现,第一矢量量化索引可对应于第一组量化值的存储位置,而第二矢量量化索引可对应于第二组量化值的存储位置。逻辑系统可进一步能够接收参数集合分区信息;并且能够根据参数集合分区信息实现该执行和确定步骤。
根据一些实现,装置可包括接口和逻辑系统。逻辑系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、或离散硬件组件中的至少一个。该装置可包括存储设备。在一些实现中,接口可以是逻辑系统和存储设备之间的接口。作为替代,接口可以是网络接口。
本公开的一些方面可经由其上存储有软件的非暂态介质实现。软件可包括控制至少一个装置以执行以下操作的指令:接收信号;分析信号以确定N维参数集合的参数值;将第一矢量量化处理应用于N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值;至少部分地基于第一组量化值中的一个或更多个值计算该N维参数集合的第二维度的两个或更多个参数预测值;至少部分地基于该参数预测值计算预测残差值,并且将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
该软件可包括控制至少一个装置执行以下操作的指令:确定对应于第一组量化值的第一矢量量化索引,并且确定对应于第二组量化值的第二矢量量化索引。第一和第二量化索引可例如是指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
该软件可包括控制至少一个装置执行以下操作的指令:至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算N维参数集合的沿第k维度的两个或更多个参数预测值;至少部分地基于沿第k维度的参数预测值计算预测残差值,并且将第k矢量量化处理应用于沿第k维度的预测残差值以产生第k组量化值。
该软件可包括控制至少一个装置执行以下操作的指令:确定维度k的最大矢量量化器长度Mk;确定要被矢量量化的值的数量Vk超过Mk;确定要被矢量量化的Vk-Mk个剩余值;至少部分地基于Mk个量化值中的至少一个来预测沿第k维度的Vk-Mk个参数预测值;计算(Vk-Mk)个第k维预测残差值,并且对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
本公开的其它方面也可经由其上存储有软件的非暂态介质实现。软件可包括控制至少一个装置以执行以下操作的指令:接收包括第一和第二矢量量化索引的信号;响应于第一矢量量化索引执行第一逆矢量量化处理以重构N维参数集合的沿第一维度的两个或更多个参数值;至少部分地基于N维参数集合的第一维度的所述两个或更多个参数值中的一个或更多个来确定N维参数集合的第二维度的两个或更多个参数预测值;响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值;并且将第二维度的参数预测值与第二维度的预测残差值相组合以重构第二维度的两个或更多个参数值。在一些实现中,信号可包括编码的音频数据。
该软件可包括控制至少一个装置以执行以下操作的指令:接收第k矢量量化索引;至少部分地基于N维参数集合的小于k的维度的一个或多个先前确定的参数值确定N维参数集合的沿第k维的两个或更多个参数预测值;响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且将第k维度的参数预测值与第k维度的预测残差值相组合以重构第k维度的两个或更多个参数值。
该软件可包括控制至少一个装置以执行以下操作的指令:接收维度k的最大矢量量化器长度Mk的指示;确定沿维度k要被重构的参数值的数量Vk超过Mk,至少部分地基于第k量化索引重构沿维度k的前Mk个值;至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值;接收第k维度的附加矢量量化索引;响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值;以及将第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值相组合以重构第k维度的剩余Vk-Mk个参数值。
在一些实现中,第一矢量量化索引可对应于第一组量化值的存储位置,而第二矢量量化索引可对应于第二组量化值的存储位置。软件可包括控制至少一个装置以接收参数集合分区信息并且根据该参数集合分区信息来实现该执行和确定步骤的指令。
本公开的其它方面也可在其上存储有软件的非暂态介质中实现。软件可包括控制一个或多个设备以执行文中描述的方法中的至少一些的指令。
文中所描述的主旨的一个或多个实现的细节在附图和以下的描述中被说明。从描述、附图和权利要求可清楚了解其它特征、方面和优点。应指出,以下附图的相对尺寸可以不是按比例绘制的。
附图说明
图1A和1B是示出音频编码处理期间的通道耦合的示例的曲线图。
图2A和2B是提供空间参数的简化例示的矢量图。
图3是在四个通道耦合在一起时的两个通道的α的联合概率密度函数(pdf)的曲线图。
图4A是通道的相邻频带的α的概率密度函数(pdf)的曲线图。
图4B是频带n+1和n+2的α与频带n的α之间的差的概率密度函数(pdf)的曲线图。
图5A是概述包含矢量量化的编码方法的块的流程图。
图5B是概述将图5A的方法扩展到第k维度的编码方法的块的流程图。
图5C是概述包含同一维度中的一系列矢量量化操作的编码方法的块的流程图。
图6是提供对于3维参数集合实现根据图5的方法的示例的透视图。
图7A是描述参数的3维阵列的单元的透视图。
图7B是描述处于与和图7A对应的时间不同的时间的参数的3维阵列的单元的透视图。
图7C是描述已经被分区的参数的3维阵列的单元的透视图。
图8A是示出了通道间矢量量化器的信噪比(“SNR”)对每个样本的比特的示例的曲线图。
图8B是示出了频带间矢量量化器的信噪比(“SNR”)对每个样本的比特的示例的曲线图。
图9是一个维度对应于单独离散通道对的参数集合示图。
图10A是概述包含逆矢量量化的解码方法的块的流程图。
图10B是概述将图10A的方法扩展到第k维度的解码方法的块的流程图。
图10C是概述包含同一维度的一系列逆矢量量化操作的解码方法的块的流程图。
图11是示出了可如何在音频处理系统中使用去相关器的示例的框图。
图12是提供了可被配置为实现文中描述的处理的各方面的装置的组件的示例的框图。
各个附图中相似的附图标记和名称指示相似的元件。
具体实施方式
以下描述针对出于描述此公开的一些创新方面的目的的某些实现、以及可实现这些创新方面的情境的示例。但是,文中的教导可被以多种不同的方式应用。
通常希望最小化要被存储和/或传输的数据的量。对额外的数据进行编码可简化解码处理和/或为解码器提供更大的功能性,但代价是要存储和/或传输额外的编码数据。因此,存在许多在其中高效数据编码可提供益处的情境。尽管本申请中提供的示例主要在音频数据方面被描述,但是文中所提供的概念可应用于其它类型的数据,包括但不限于视频数据、图像数据、语音数据、传感器信号(例如,来自温度传感器、压力传感器、陀螺仪、加速仪等的信号)等。此外,所描述的实现可在包括但不限于编码器和/或解码器的各种信号处理设备中被实现,该信号处理设备可被包括在影院再现系统、移动电话、智能电话、台式计算机、手提或便携计算机、上网本、笔记本电脑、智能本、平板电脑、立体声系统、电视、机顶盒、包括但不限于音频和视听接收器的接收器、家庭影院系统、DVD播放器、数字记录设备和各种其它设备。因此,此公开的教导不预期被局限于附图中示出的和/或文中描述的实现,相反具有广泛适用性。
包括AC-3和E-AC-3音频编解码器(其专有实现被特许为“DolbyDigital”以及“DolbyDigitalPlus”)的一些音频编解码器采用一些形式的通道耦合来利用通道之间的冗余,更高效地编码数据并且降低编码比特率。例如,对于AC-3和E-AC-3编解码器,在特定“耦合开始频率”之外的耦合通道频率范围中,离散通道(文中也被称为“单独通道”)的修正离散余弦变换(MDCT)系数被下混到单通道(monochannel)中,该单通道在文中可被称为“复合通道”或“耦合通道”。一些编解码器可形成两个或更多个耦合通道。
AC-3和E-AC-3解码器使用基于在比特流中发送的耦合坐标的缩放因子将耦合通道的单声信号上混到离散通道中。这样,解码器恢复每个通道的耦合通道频率范围中的音频数据的高频包络,而不是相位。
图1A和1B是示出了音频编码处理期间的通道耦合的示例的曲线图。图1A的曲线102指示对应于通道耦合之前的左通道的音频信号。曲线104指示对应于通道耦合之前的右通道的音频信号。图1B示出了编码(包括通道耦合)和解码之后的左通道和右通道。在此简化示例中,曲线106指示左通道的音频数据基本未改变,而曲线108指示右通道的音频数据现在与左通道的音频数据同相。
如图1A和1B中所示,耦合开始频率之外的解码信号可在通道之间是相干的。因此,与原始信号相比,耦合开始频率之外的解码信号可能听上去空间坍塌。当解码通道被下混时,例如关于经由耳机虚拟化的双耳呈现或者立体声扬声器上的回放,耦合通道可相干地累加。与原始基准信号相比,这可能导致音色不匹配。通道耦合的负面影响可能在多通道解码音频信号被双耳呈现或者下混以便在耳机和立体声扬声器上展示时尤其明显。
文中描述的各种实现可至少部分地消除这些影响。一些这样的实现包括新颖的音频编码和/或解码工具。例如,一些这样的实现可包括可在去相关处理中使用的诸如空间参数的参数的高效编码,该去相关处理可恢复通道耦合所编码的频率区域中输出通道的相位差异。
文中描述的一些音频处理系统可被配置为确定音频数据的一种或多种空间参数。一些这样的空间参数可以是单独离散通道与耦合通道之间的相关系数,其在文中还可被称为“α”。α在文中也可被称为“混合比”。例如,如果耦合通道包括四个通道的音频数据,则可存在四个α,一个α用于一个通道。在一些这样的实现中,四个通道可以是左通道(“L”)、右通道(“R”)、左环绕通道(“Ls”)和右环绕通道(“Rs”)。在一些实现中,耦合通道可包括上述通道和中心通道的音频数据。依赖于中心通道是否将被去相关,对于中心通道可计算α或者不计算α。其它实现可包括更多或更少的通道。
其它空间参数可以是指示成对的单独离散通道之间的相关性的通道间相关系数。这样的参数在文中有时可被称为反映“通道间相干性”或者“ICC”。在上文提及的四通道示例中,可涉及针对L-R对、L-Ls对、L-Rs对、R-Ls对、R-Rs对以及Ls-Rs对的六个ICC值。
在一些实现中,通过设备(诸如解码器)确定空间参数可包括接收比特流中的明确的空间参数。作为替代或者附加地,设备(诸如编码器或解码器)可被配置为确定或估计至少一些空间参数。一些设备可被配置为至少部分地基于空间参数确定混合参数。
图2A和2B是提供空间参数的简化例示的矢量图。图2A和2B可被认为是D维矢量空间中的信号的3维概念展示。每个D维矢量可表示实数值或者虚数值随机变量,其D个坐标对应于任何D个独立实验。例如,D个坐标可对应于频率范围内的和/或时间间隔内(例如,在若干音频块期间)的信号的D个频域系数的集合。
首先参照图2A的左半部,此矢量图代表左输入通道lin、右输入通道rin以及耦合通道xmono(通过对lin和rin进行求和而形成的单声下混)之间的空间关系。图2A是形成耦合通道的简化示例,其可由编码装置执行。左输入通道lin和耦合通道xmono之间的相关系数为αL,右输入通道rin和耦合通道xmono之间的相关系数为αR。因此,代表左输入通道lin和耦合通道xmono的矢量之间的角度θL等于arccos(αL),代表右输入通道rin和耦合通道xmono的矢量之间的角度θR等于arccos(αR)。
图2A的右半部示出了将单独输出通道与耦合通道去相关的简化示例。此种去相关处理可例如由解码装置执行。通过生成与耦合通道xmono不相关(垂直)的去相关信号yL,并使用适当的权重将之与耦合通道xmono混合,单独输出通道(在此示例中,lout)的振幅及其与耦合通道xmono的角分离可准确反映单独输入通道的振幅及其与耦合通道的空间关系。去相关信号yL应具有与耦合通道xmono相同的功率分布(由矢量长度表示)。在此示例中,通过指示
但是,恢复单独离散通道和耦合通道之间的空间关系无法确保恢复离散通道之间的空间关系(由ICC表示)。此事实在图2B中被示出。图2B中的两幅画面示出了两种极端情况。lout和rout之间的间隔在去相关信号yL和yR被分隔180°时最大,如图2B的左半部所示。在此情况下,左通道和右通道之间的ICC最小,而lout和rout之间的相位差异最大。相反,如图2B的右半部所示,lout和rout之间的间隔在去相关信号yL和yR被分隔0°时最小。在此情况下,左通道和右通道之间的ICC最大,而lout和rout之间的相位差异最小。
在图2B所示的示例中,所有示出的矢量都位于同一平面中。在其它示例中,yL和yR可被定位为相互成其它角度。但是,优选地是yL和yR与耦合通道xmono是垂直的,或者至少部分垂直。在一些示例中,yL或yR可至少部分地延伸到与图2B的平面正交的平面中。
由于离散通道最终被再现和展示给听众,离散通道之间的空间关系(ICC)的正确恢复可显著改进音频数据的空间特性的恢复。如从图2B的示例中可见,ICC的准确恢复依赖于创建相互具有正确空间关系的去相关信号(这里,yL和yR)。去相关信号之间的此相关性在文中可被称为“去相关信号间相干性”或者“IDC”。
在图2B的左半部中,yL和yR之间的IDC是-1。如上文指出的,此IDC对应于左通道和右通道之间的最小ICC。通过将图2B的左半部与图2A的右半部相比较,可观察到在具有两个耦合通道的此示例中,lout和rout之间的空间关系准确反映了lin和rin之间的空间关系。在图2B的右半部中,yL和yR之间的IDC是1(完全相关)。通过将图2B的右半部与图2A的左半部相比较,可观察到在此示例中,lout和rout之间的空间关系没有准确反映lin和rin之间的空间关系。
因此,通过将空间相邻单独通道之间的IDC设定为-1,这些通道之间的ICC可被最小化,并且通道之间的空间关系可在这些通道占主导时被接近地恢复。这导致在感知上接近原始音频信号的声音图像的总体声音图像。这样的方法可被称为“符号翻转”方法。在这样的方法中,不需要知晓实际ICC。
但是,应指出,这样的方法仍可使用α参数,并且一些方法可包含将这些α参数编码到比特流中并且将该被编码的参数传输到接收设备,诸如解码设备或相关设备。接收设备可使用这些α参数例如作为去相关处理的输入。其它附带信息(诸如通道特定缩放因子)可在比特流中被提供给解码器。例如,如果音频数据已经根据AC-3或E-AC-3音频编解码器被编码,则缩放因子可以是与音频数据的其余部分一起被编码的耦合坐标或者“cplcoord”。在作为替代的实现中,ICC可在编码器处被导出、被编码并通过比特流发送到解码设备。一些这样的实现可包括在需要的情况下使用所传输的ICC参数来导出α参数。
在一些实现中,α可每帧被传输至少一次,而在其它实现中,α可每个块地频繁传输。在一些实现中,每当耦合策略改变时将重新传输α。α的重新传输通常意味着对于所有通道的重新传输。α通常以与cplcoord相同的频率分辨率被传输,并且例如如由耦合频带结构确定地,可在频率之间共享。
编码器可计算通道的耦合频带的α作为在相同频带中的通道的复(MDCT或MDST)变换系数与耦合通道的复变换系数之间的相关系数的实部。此值可以在α在其上被共享和量化的块上求平均。此外,编码器可采用α的窗口化计算,其可应用跨频率(例如,在连续频率系数集合上)的以特定频带为中心并向相邻频带逐渐减小的窗口。然后可计算给定通道的窗口化系数与耦合通道的类似窗口化系数的叉积以导出频带的相关系数。
文中描述了用于对信息(包括但不局限于音频数据)进行高效编码的各种实现。一些实现包含利用跨各种维度的参数值之间的相关性。在音频数据的示例中,一些实现可通过利用跨频带、时间间隔、通道和/或其它维度的参数值之间的相关性实现相对更大的数据编码效率。跨维度的参数的一些这样的相关性现在将在音频数据的情境中被描述。
图3是在四个通道耦合在一起时两个通道的α的联合概率密度函数(“pdf”)的曲线图。在此示例中,左(“L”)、右(“R”)、左环绕(“Ls”)和右环绕(“Rs”)通道被耦合。图3指示L和Ls通道的α的联合pdf。在此示例中,α值在[-11]的范围中。
如图3的尖峰所示,在L和Ls通道的α之间存在相关性。分布朝第一象限(0和1之间的α值的范围)倾斜。此偏置可被预料到,这是因为耦合通道是单独通道的下混并且在其为强通道的情况下将可能与给定通道具有正相关系数。
根据文中描述的一些实现,不同通道的α值之间的此相关性被利用以增加编码效率。在一些这样的实现中,可通过使用矢量量化器(“VQ”)来联合量化耦合通道的α以提高编码效率。
图4A是通道的相邻频带的α的概率密度函数(pdf)的曲线图。在此示例中,通道是L通道。横轴上绘制了频带n的α,竖轴上绘制了频带n+1的α。分布沿线y=x高度集中,这指示相邻频带的α之间的高度依赖性。此依赖性可经由跨频率的差分编码而被用于α的量化处理。
图4B是频带n+1和n+2的α与频带n的α之间的差的概率密度函数(pdf)的曲线图。在此示例中,频带n+1的α与频带n的α之间的差被绘制在竖轴上。频带n+2的α与频带n的α之间的差被绘制在横轴上。通过比较图4A和4B,很明显,这些差之间的相关性不和频带n+1和n的α之间的相关性一样大。
但是,图4B指示即使被减弱,仍存在一定程度的相关性。为了利用跨频带的α差之间的这些相关性并且在这些差的小动态范围上高效地分布比特,文中描述的一些实现包括用于跨多个频带对α差进行编码的带间VQ。
图5A是概述包含矢量量化的编码方法的块的流程图。方法500的操作以及文中描述的其它方法并不必须按所指示的顺序执行。此外,这些方法可包括比所示出和/或所描述的块更多或更少的块。这些方法可至少部分地由诸如图12中所示且在下文描述的逻辑系统1210的逻辑系统实现。此外,这样的方法可经由其上存储有软件的非暂态介质实现。软件可包括用于控制一个或多个设备以至少部分地执行文中所述方法的指令。
在此示例中,方法500从块502开始,在块502中,信号被接收到。例如,在块502中,信号可被编码设备的逻辑系统接收到。在此实现中,块504包括分析信号以确定N维参数集合的参数值。
图6是提供对于3维参数集合实现根据图5的方法的示例的透视图。在图6所示的示例中,块502中接收的信号包括音频数据,并且块502中所确定的参数值是空间参数值,其在此实现中为α值。在此示例中,维度1(“D1”)对应于通道,维度2(“D2”)对应于频带,维度3(“D3”)对应于时间块。在一些实现中,频带可以是耦合通道频带。
在图6中,单元605被描述为矩形棱柱,并且对应于通道0,频带0和块0。图6的每个单元的对应α值被指示为αi,k,t,其中i对应于通道号,k对应于频带号,而t对应于时间块号。因此,单元605的α值为α0,0,0。为了简化图6,没有示出所有的α值。此外,尽管图6中所示的每个单元均对应于矩形棱柱,但是仅示出其它单元的单个壁。
在图5A的块506中,将第一矢量量化处理应用于N维参数集合的沿第一维度的两个或更多个参数值,以产生第一组量化值。在图6所示的示例中,频带0和时间块0的α值(α0,0,0,α1,0,0和α2,0,0)可跨通道被编码,通道是维度D1。在此示例中,这些α值可通过长度为3的通道间VQ被编码。
块506还可包括确定对应于第一组量化值的第一矢量量化索引。第一矢量量化索引可例如是指向在该处可存储第一组量化值的数据结构位置的指针。
块508可包括至少部分地基于第一组量化值的一个或多个值计算N维参数集合的沿第二维度的两个或更多个参数预测值。在此示例中,第二维度为D2,其对应于频带,并且通道0的频带1到4的参数预测值(对应于单元610、615、620和625)是α0,0,0的量化值或类似的,通道1和通道2的频带1到4的参数预测值分别是α1,0,0和α2,0,0的量化值。因此,在此示例中,参数预测值对应于第一组量化值。但是,在作为替代的实现中,参数预测值可被从第一组量化值导出,而与第一组量化值不相同。
在此示例中,块510包含至少部分地基于参数预测值计算预测残差值。这里,预测残差值是每个单元的参数值(在此实例中为α值)与该单元的参数预测值之间的差值。
在此实现中,块512包含将第二矢量量化处理应用于预测残差值以产生第二组量化值。块512还可包括确定对应于第二组量化值的第二矢量量化索引。第二矢量量化索引可以是指向在该处存储或者将存储第二组量化值的数据结构位置的指针。数据结构可以是代码本。在一些实现中,失真度量可被用于设计用于VQ处理(或者在代码本搜索中)的量化器。例如,失真度量可以是均方误差失真度量。VQ设计处理可将矢量的训练集合分割成群集以使得每个训练矢量与包含该训练矢量的子集中的质心或平均矢量之间的距离的总和被最小化。这里,距离可以是在用训练矢量所属的子集的质心来近似训练矢量时所产生的失真,其是由失真度量计算的。换句话说,子集的质心可以是子集中的训练矢量的重构。
在图6所示的示例中,第二矢量量化处理包括通过长度为4的带间VQ来对预测残差值进行编码。因此,相同的参数预测值被用于计算单元610、615、620和625以及通道1和2的对应单元的预测残差值。方法500(以及文中描述的其它编码方法)也可包含对数据(包括但不局限于所指示的块中的一个或多个的结果)进行编码。例如,方法500可包含对第一和第二量化索引、VQ长度信息等进行编码。
上文描述的编码处理可被扩展到任何数量的维度。图5B是概述将图5A的方法扩展到第k维的编码方法的块的流程图。在此示例中,在方法520的块522开始之前,已经执行了方法500的块502到512。
这里,块522包含至少部分地基于先前产生的(k-1)组量化值中的一个组或多个组中的一个或多个值来计算N维参数集合的沿第k维度的两个或更多个参数预测值。在此实现中,块524包含至少部分地基于沿第k维度的参数预测值计算预测残差值。
在图6所示的示例中,第k维度为维度D3,其对应于时间块。因此,块522可包含至少部分地基于先前产生的对应于第一维度和/或第二维度的一组或多组量化值来计算沿三维参数集合的第3维度的参数预测值。因此,块522可包括至少部分地基于先前产生的(k-1)组量化值中的一个组或多个组中的一个或多个值来计算N维参数集合的第k维度的参数预测值。这样的量化值可已经在该方法的第(k-1)级期间或者在先前级期间被产生。但是,第k维度不必需对应于第三维度,而预期是指示大于1的维度的广义方式。
这里,用于确定通道0、频带0的预测残差值的参数预测值是α0,0,0的量化值。单元630、635、640和645的预测残差值是通过从对应于各单元的α值减去α0,0,0的量化值而确定的。
在此实现中,块526包括将第k矢量量化处理应用于沿第k维度的预测残差值以产生第k组量化值。在图6所示的示例中,长度为4的VQ被用于编码单元630、635、640和645的预测残差值。方法520还可包括确定并编码对应于第k组量化值的第k量化索引、对应的VQ长度信息等。
其它频带和块的预测残差值可被以相似的方式确定。参照图6,例如,对应的处理可被用于对通道1和2的时间块的预测残差值进行矢量量化。单元650的预测残差值可根据来自同一频带的值被确定(如箭头655所指示),或者根据来自同一时间块的值被确定(如箭头660所指示)。单元650的预测残差值可根据来自同一频带的但是来自先前时间块的值被确定(如箭头655所指示);例如,单元650的预测残差值可以是单元610的α0,1,0的重构。作为替代,单元650的预测残差值可根据来自同一时间块的但是来自不同频带的值被确定(如箭头660所指示);例如,其可以是单元630的α0,0,1的重构。还另外的方法可根据沿频率和时间轴两者的相邻单元来获得单元650的预测残差值,例如,单元650的预测残差值可以是α0,1,0和α0,0,1的重构的加权组合(例如,平均)。
图5C是概述包含同一维度中的一系列矢量量化操作的编码方法的块的流程图。在此示例中,在方法530的块532之前已经执行了方法500的至少块502到512、可能为块502到526。
这里,块532包括确定维度k的最大矢量量化器长度Mk。在一些实现中,确定最大矢量量化器长度Mk可包括接收来自用户的例如经由用户接口的最大矢量量化器长度Mk的指示。作为替代,块532可包括从存储器检索最大矢量量化器长度Mk。在一些实现中,最大矢量长度Mk可以是控制用于对参数进行编码的比特率的变量。因此,最大矢量长度Mk可至少部分地基于参数编码可用的比特率。在一些实现中,此比特率可随时间改变。VQ长度可受限于最大值Mk的另一原因将约束存储VQ代码本(与VQ对应的重构的表格)所需的存储器的量。
在此示例中,块534包含确定要被矢量量化的值的数量Vk超过Mk,并且块536包括确定要被矢量量化的Vk-Mk个剩余值。参照图6,例如,可观察到频带1到4的值(例如,单元610、615、620和625的值)已经通过长度为4的带间VQ被编码。在此示例中,长度4对应于最大VQ长度,因此Mk为4。(在其它实现中,最大VQ长度可大于或小于4)但是,此VQ长度不足以对此示例中的全部7个频带的值进行编码:这里,块534包含确定Vk是7,其超过4,并且块536包含确定存在(Vk-Mk)=3个要被矢量量化的剩余值。
在此实现中,块538包括至少部分地基于Mk个量化值中的至少一个来预测沿第k维度的(Vk-Mk)个参数预测值。在图6所示的示例中,单元670、675和680的三个参数预测值是相同值,其是α0,4,0的量化值。在一些实例中,(Vk-Mk)可能仍大于Mk。在这样的实例中,可在第一操作中仅量化Mk个参数,并且额外的预测残差值将余下被量化。该处理将重复进行,直到沿此维度的所有Vk个参数被量化。因此,在方法530的一些实现中,要被矢量量化的剩余值的数量可根据模运算符被表示,例如,(Vk)modMk。多个长度为Mk的矢量可在用剩余的(Vk)modMk个值完成该处理之前被编码。
这里,图5C的块540包括计算(Vk-Mk)个第k维预测残差值。再次参照图6,单元670、675和680的预测残差值是通过从各单元的α值减去参数预测值而确定的。
在此实现中,块542包括对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。在图6的示例中,单元670、675和680的预测残差值在块542中被使用长度为3的带间VQ进行矢量量化。方法530还可包括确定和编码对应于第k参数集合的Vk-Mk个量化值的第k维度的附加量化索引、对应的VQ长度信息等。
在一些实现中,块536可包含确定仅存在1个要被量化的剩余参数值(Vk-Mk=1)。在这样的实现中,参数值可被标量量化。
如上所述,文中提供的各种实现包括为编码的信号提供VQ长度的指示。这可能在VQ长度不是固定的而是可变(例如,作为时间、频率、通道等中的一个或多个的函数)的情况中是必需的。
作为第一示例,在一些实现中,VQ长度可被改变以控制参数编码的比特率和分辨率。图8A是示出了在包含α的量化的一个实施例中通道间VQ的SNR对每个样本的比特的示例的曲线图。在此示例中,标量量化器(其可被认为是长度为1的VQ)需要每个样本3比特,并且对应的SNR值为17dB。这里,长度为4的VQ仅需要每个样本2比特,并且对应的SNR值为7dB。
图8B是示出了带间VQ的SNR对每个样本的比特的示例的曲线图。在此示例中,标量量化器需要每个样本3比特,并且具有约14.3dB的对应SNR值,而长度为2的VQ需要每个样本约2.5比特,并且具有约10dB的对应SNR值。但是,长度为4的VQ需要每个样本仅1.75比特,并且具有约6dB的对应SNR值。因此,在此实现中,如果参数要被以更好的分辨率(更高的SNR)编码,用户可选择降低用于编码的VQ的最大大小,即从4降到2。
此外,VQ长度还可基于除比特率之外的考虑被改变。例如,信号特性可随时间改变,响应于此,对于参数编码的包括VQ长度的编码决定可改变。例如,可在音频信号的不同通道中在不同的时间发生瞬态。由于典型地仅不具有强瞬态的通道被耦合,因此依赖于哪个时间块具有瞬态,耦合中的通道的数量和选择可因时间块而改变。每当这样的耦合决定改变时,可能需要重新传输α参数。当然,如果2个通道耦合,则通道间VQ可能需要长度仅为2,而如果3个通道耦合,则通道间VQ可能需要长度为3。现在将参照图7A和7B描述一些其它实现。
图7A是描述参数的3维阵列的单元的透视图。在对应于图7A的时间,第三维度(D3)的参数值正通过尺寸为4的VQ被编码。在此示例中,第三维度对应于时间,因此,VQ是尺寸为4的块间VQ。
图7B是描述处于与和图7A对应的时间不同的时间的参数的3维阵列的单元的透视图。此时,第三维度的参数值正通过尺寸为2的VQ被编码。在此示例中,第三维度对应于时间,因此,VQ是尺寸为2的块间VQ。对应于这样的改变的VQ长度数据可被编码。在图7A和7B中使用对应于不同块数的VQ长度的原因可能是在7A表示的时间期间信号特性在4个块上是相似的,而在图7B表示的时间中信号特性仅对于2个块是相似的。
在一些实现中,与所描述的图7A和7B之间的改变类似的改变可由将参数集合形成参数集合的分区而导致。图7C是描述已经被分区的参数的3维阵列的单元的透视图。在此示例中,沿第三维度的参数值已经被分成体积705和710。分区处理可随时间改变。分区处理可例如以信号自适应方式执行。例如,分区处理可根据耦合的音频通道的数量、根据参数值是否在时间块之间被共享等而改变。因此,分区指示可根据相关处理或参数的改变而被明确编码和/或确定。
此外,在一些实现中,上文参照图5A到5C描述的处理中的至少一些可对于参数集合的每个分区被单独执行。例如,在一些实现中,方法500的分区、应用和计算处理(见图5A)可对于图7C的体积705和710被单独应用。
这样的分区例如对于避免超过用于对与体积705和710中的每一个对应的参数值进行编码的最大VQ长度是有利的。例如,如果最大VQ长度是3,而对于沿维度3的数据的每个单位(例如,对于数据的每个帧)要编码6个参数值,则将沿维度3的阵列分区并且将参数值分成3个组可能是有利的。
尽管图7C示出了沿第三维度的分区处理的结果,但是这仅是示例。一些实现将包括沿其它维度进行分区。一些这样的实现可包括同时沿多个维度、例如沿维度D3和D3、沿维度D1、D2和D3等进行分区。
图9是一个维度对应于单独离散通道对的参数集合示图。在此示例中,对应于单独离散通道对的维度是第一维度。这里,单独离散通道对包括L-R通道对、R-C通道对和C-L通道对。在此示例中,通道对形成3通道对循环,这是因为每个通道对包括其它通道对的通道:C-L通道对可被概念化为链接回L-R通道对。在此示例中,参数值是指示单独离散通道对之间的相关性的通道间相关系数(“ICC”)。
这些参数值可如上文参照图5A到5C中的任一个所述的那样被量化。例如,第一矢量量化处理可产生通过长度为3的VQ被编码的第一量化ICC值。第二矢量量化处理可包括产生通过长度为4的带间VQ被编码的第二量化ICC值。剩余的ICC值可通过长度为3的带间VQ被编码。
在一些实现中,量化处理(例如,第一矢量量化处理)可包含量化包括Mp通道对循环中的M-1个通道对的ICC的矢量,以产生M-1个ICC的量化值。参照图9,例如,这样的量化处理可包括通过长度为2的VQ对三个通道对中的两个(例如,L-R通道对和R-C通道对)的ICC值进行编码。
量化处理还可包括至少部分地基于M-1个ICC的量化值计算第Mp个ICC所处的范围。参照图9,例如,此处理可包含至少部分地基于L-R通道对和R-C通道对的量化值计算C-L通道对的ICC所处的范围。量化处理还可包括利用取决于所计算的范围的标量量化器对第Mp个ICC进行量化。参照图9,此处理可包含利用取决于所计算的范围的标量量化器对C-L通道对的ICC进行量化。例如,在一种极端情况下,如果L-R通道对和R-C通道对两者的ICC都已被量化为1,则C-L通道对的ICC也将通常接近1。在此情况下,具有其范围跨ICC可处于的整个范围(在此示例中,[-11])的标量量化器是没有意义的。相反,ICC要跨越较小的范围[a,1](其中,“a”是接近1的数字(例如,0.75))可能就足够了。在此情况下,ICC跨越较小的范围[a,1]的优点是对于编码C-LICC所花费的相同比特数可实现更好的分辨率。
图10A是概述包含逆矢量量化的解码方法的块的流程图。方法1000的操作可至少部分地由诸如图12中所示的以及下文描述的逻辑系统1210的逻辑系统实现。
方法1000可包含接收包括根据上文所述的方法编码的数据的信号。在此示例中,方法1000的块1002包含接收包括第一和第二矢量量化索引的信号。信号还可包含其它信息,诸如VQ长度的指示、分区信息等。在一些实现中,信号可包括编码的音频数据。第一和第二量化索引可例如包括指向在该处分别存储第一组和第二组量化值的数据结构位置的指针。数据结构位置可以是可由解码设备访问的代码本中的位置,例如在解码设备的存储器中的位置。
这里,块1004包括响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值。在一些实现中,参数值可以是空间参数值。参照图6,例如,参数值可以是沿维度D1的跨通道被编码的频带0和时间块0的量化α值(α0,0,0,α1,0,0和α2,0,0)。
在此示例中,块1006包括至少部分地基于N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个来确定该N维参数集合的第二维度的两个或更多个参数预测值。再次参照图6,在一些实现中,参数预测值可与频带0和时间块0的量化α值相同。在其他实现中,参数预测值可基于量化α值,而与之不同。在还另外的实现中,参数预测值可根据第一矢量量化索引被确定。例如,参数预测值可通过对第一矢量量化索引指示的值执行操作而被确定。
在此实现中,块1008包含响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值。在上文所述的各种实现中,这些预测残差值例如通过编码设备被矢量量化。第二矢量量化索引可包括指向在该处可找到被矢量量化的第二维度的预测残差值的数据结构位置的指针。
再次参照图6,第二维度可对应于频带。在一些实现中,频带可包括耦合通道频带。预测残差值可对应于单元610、615、620和625中指示的值,其是对应于各单元的参数值(这里,对应于各单元的α)与各单元中指示的参数预测值之间的差。
在此示例中,块1008的输出是这些预测残差值,而不是实际的参数值。因此,块1010包含将第二维度的参数预测值与第二维度的预测残差值相组合以重构第二维度的两个或更多个参数值。在图6所示的示例中,在块1010中可确定对应于各通道的四个频带的α。
如上所述,一些实现可包含以时变和/或信号自适应的方式将参数集合形成分区。因此,在一些实现中,块1002可包含接收其它信息,诸如参数集合分区信息。块1002还可包含接收VQ长度信息。方法1000(以及文中所述的其它解码方法)的处理可至少部分地根据参数集合分区信息和/或VQ长度信息被执行。
图10B是概述将图10A的方法扩展到第k维度的解码方法的块的流程图。这里,块1022包括接收第k矢量量化索引。在此示例中,在块1022的处理被执行之前,已经执行了方法1000的块1002到1012。
在此实现中,块1024包含至少部分地基于先前确定的小于k的维度的一个或多个参数值来确定N维参数集合的沿第k维度的两个或更多个参数预测值。在图6所示的示例中,第k维度是第三维度,其对应于时间。因此,块1024可包含至少部分地基于先前产生的对应于第一维度和/或第二维度的一组或多组量化值来确定3维参数集合的沿第三维度的参数预测值。因此,方法1020的第k级的α值的预测包含该方法的第(k-1)级的α值(例如,根据方法1000确定的α值)的重构。在图6的示例中,沿轴D3的单元630、635、640和645的参数预测值是α0,0,0的量化值。
在其它实现中,参数预测值可基于量化α值,而与之不同。在还另外的实现中,参数预测值可根据第一矢量量化索引被确定。例如,参数预测值可通过对第一矢量量化索引指示的值执行操作而被确定。
在此示例中,方法1000的块1026包含响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值。在图6的示例中,单元630、635、640和645的预测残差值是通过从对应于各单元的α值减去α0,0,0的量化值而被预先确定的。这些预测残差值通过长度为4的VQ被量化的矢量。在此示例中,第k矢量量化索引包括指向存储这些量化的矢量的数据结构位置的指针。这里,块1026包括重构这些预测残差值的逆矢量量化操作。
为了重构实际参数值,方法1020包括进一步操作:这里,块1028将第k维度的参数预测值与第k维度的预测残差值相组合以重构第k维度的两个或更多个参数值。在图6的示例中,单元630、635、640和645的α值可在块1028中被重构。对应的处理可用于重构通道1和2的时间块的α值。
在一些实现中,α值可在至少一些相邻时间块之间被共享。因此,单元630、635、640和645的α值可对应于多于4个的时间块。此外,在一些实现中,维度可包括单独离散通道对。重构的参数值可以是指示单独离散通道对之间的相关性的通道间相关系数(“ICC”)。
图10C是概述包含同一维度的一系列逆矢量量化操作的解码方法的块的流程图。这里,方法1030的块1032包含接收维度k的最大矢量量化器长度Mk的指示。在此示例中,在块1032之前,已经执行了方法1000的至少块1002到1010,可能执行了块1002到1028。
在此实现中,块1034包含确定沿维度k的要被重构的剩余参数值的数量Vk超过Mk。参照图6,例如,块1034可包含确定存在对应于频带1到7的7个要被重构的α值,但是针对维度2的最大矢量量化器长度为4。
这里,块1036包含至少部分地基于第k量化索引重构沿维度k的前Mk个值。在图6所示的示例中,块1036可包含至少部分地基于第二量化索引重构沿维度2的前4个值,例如如上文所述。
在此示例中,块1038包含至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值。在图6的示例中,剩余三个频带(这里,单元670、675和680)的参数预测值由对应于单元625的重构参数值(如上所述,其基于第k量化索引被导出)被确定。具体而言,所有这3个参数预测值等于对应于单元625的重构参数值(这里,α0,4,0的量化值)。
在块1040中,接收第k维度的附加矢量量化索引。在此示例中,附加矢量量化索引对应于单元670、675和680的预测残差值。
在块1042中,响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个额外的预测残差值。在此示例中,逆矢量量化操作重构了对应于单元670、675和680的预测残差值。
这里,块1044包含将块1042中获得的第k维度的Vk-Mk个预测残差值与块1038中获得的第k维度的Vk-Mk个参数预测值相组合以重构第k维度的剩余Vk-Mk个参数值。在图6的示例中,在块1044中可重构α0,5,0.,α0,6,0和α0,7,0的值。
图11是示出了可如何在音频处理系统中使用去相关器的示例的框图。在此示例中,音频处理系统1100是包括去相关器1105的解码器。在一些实现中,解码器可被配置为根据AC-3或E-AC-3音频编解码器工作。但是,在一些实现中,音频处理系统可被配置为处理用于其它音频编解码器的音频数据。
音频处理系统1100可被配置为执行诸如上文所述的、例如参照图10A到10C描述的方法。在一些实现中,这些方法的输出可被用作去相关处理的输入。例如,已经被编码设备矢量量化的空间参数可被音频处理系统1100接收和重构。这样的空间参数可用作一些去相关处理的输入。
在此示例中,上混器1125接收音频数据1100,其包括耦合通道的音频数据的频域表示。在此示例中,频域表示是MDCT系数。
上混器1125还接收各通道以及耦合通道频率范围的耦合坐标1112。在此实现中,表现为耦合坐标1112的形式的缩放信息已经在DolbyDigital或DolbyDigitalPlus编码器中以指数尾数的形式被计算。上混器1125可通过将耦合通道频率坐标乘以通道的耦合坐标而计算各输出通道的频率系数。
在此实现中,上混器1125输出耦合通道频率范围中的各个通道的解耦MDCT系数至去相关器1105。因此,在此示例中,输入去相关器1105的音频数据1120包括MDCT系数。
在图11所示的示例中,去相关器1105输出的去相关音频数据1130包括去相关MDCT系数。在此示例中,并非所有由音频处理系统1100接收的音频数据都被去相关器1105去相关。例如,关于低于耦合通道频率范围的频率的音频数据1145a的频域表示以及关于高于耦合通道频率范围的频率的音频数据1145b的频域表示没有被去相关器1105去相关。这些数据连同从去相关器1105输出的去相关MDCT系数1130一起被输入逆MDCT处理1155。在此示例中,音频数据1145b包括通过SpectralExtension工具(E-AC-3音频编解码器的音频带宽扩展工具)确定的MDCT系数。
在此示例中,去相关信息1140被去相关器1105接收。被接收的去相关信息1140的类型可根据实现改变。在一些实现中,去相关信息1140可包括显式、去相关器特定控制信息和/或可形成这样的控制信息的基础的显式信息。去相关信息1140可例如包括空间参数,诸如单独离散通道与耦合通道之间的相关系数和/或单独离散通道之间的相关系数。这样的显式去相关信息1140还可包括显示音调信息和/或瞬态信息。此信息可被用于至少部分地确定用于去相关器1105的去相关过滤参数。
但是,在作为替代的实现中,去相关器105没有接收到这样的显式去相关信息1140。根据一些这样的实现,去相关信息1140可包括来自传统音频编解码器的比特流的信息。例如,去相关信息1140可包括在根据AC-3音频编解码器或者E-AC-3音频编解码器编码的比特流中可获得的时间段信息。去相关信息1140可包括耦合使用信息、块切换信息、指数信息、指数策略信息等。这样的信息可已经连同音频数据1110一起在比特流中被音频处理系统接收到。
在一些实现中,去相关器1105(或者音频处理系统1100的其它元件)可基于音频数据的一个或多个属性确定空间参数、音调信息和/或瞬态信息。例如,音频处理系统1100可基于耦合通道频率范围之外的音频数据1145a或1145b确定耦合通道频率范围中的频率的空间参数。作为替代或者附加地,音频处理系统1100可基于来自传统音频编解码器的比特流的信息确定音调信息。
图12是提供了可被配置为实现文中描述的处理的各方面的装置的组件的示例的框图。设备1200可以是移动电话、智能电话、台式计算机、手提或者便携式计算机、上网本、笔记本电脑、智能本、平板电脑、立体声系统、电视、DVD播放器、数字记录设备、或者多种其它设备中的任一种。设备1200可包括编码工具和/或解码工具。但是,图12中所示的组件仅是示例。特定设备可被配置为实现文中所描述的各种实施例,但是可包括或者可不包括所有组件。例如,一些实现可能不包括扬声器或者麦克风。
在此示例中,设备包括接口系统1205。接口系统1205可包括网络接口,诸如无线网络接口。作为替代或者附加地,接口系统1205可包括通用串行总线(USB)接口或者另一种这样的接口。
设备1200可包括逻辑系统1210。逻辑系统1210可包括处理器,诸如通用单芯片或多芯片处理器。逻辑系统1210可包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、离散硬件组件或它们的组合。逻辑系统1210可被配置为控制设备1200的其它组件。尽管设备1200的组件之间的接口在图12中未被示出,但是逻辑系统1210可被配置为与其它组件通信。根据情况,其它组件可被配置为或者可不被配置为相互通信。
逻辑系统1210可被配置为执行各种音频处理功能,诸如编码器和/或解码器功能。这样的编码器和/或解码器功能可包括但不局限于文中描述的编码器和/或解码器功能的类型。例如,逻辑系统1210可被配置为提供文中所描述的矢量量化、分区、编码、解码、逆矢量量化和/或去相关器相关的功能。在一些这样的实现中,逻辑系统1210可被配置为(至少部分地)根据一个或多个非暂态介质上存储的软件操作。非暂态介质可包括与逻辑系统1210相关联的存储器,诸如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可包括存储系统1215的存储器。存储系统1215可包括一个或多个合适类型的非暂态存储介质,诸如闪存、硬盘驱动器等。
例如,逻辑系统1210可被配置为经由接口系统1205接收编码的音频数据的帧,并且根据文中所述的方法对编码的音频数据进行解码。作为替代或者附加地,逻辑系统1210可被配置为经由存储系统1215和逻辑系统1210之间的接口接收编码的音频数据的帧。逻辑系统1210可被配置为根据解码的音频数据控制扬声器1220。在一些实现中,逻辑系统1210可被配置为根据常规编码方法和/或根据文中所述的编码方法对音频数据进行编码。逻辑系统1210可被配置为经由麦克风1225、经由接口系统1205等接收这样的音频数据。
依赖于设备1200的表现形式,显示系统1230可包括一种或多种合适类型的显示器。例如,显示系统1230可包括液晶显示器、等离子显示器、双稳态显示器等。
用户输入系统1235可包括被配置为接受来自用户的输入的一个或多个设备。在一些实现中,用户输入系统1235可包括覆盖显示系统1230的显示器的触摸屏。用户输入系统1235可包括按钮、键盘、开关等。在一些实现中,用户输入系统1235可包括麦克风1225;用户可经由麦克风1225提供针对设备1200的语音命令。逻辑系统可被配置用于语音识别以及用于根据这样的语音命令控制设备1200的至少一些操作。
电源系统1240可包括一个或多个合适的能源存储设备、诸如镍镉电池或者锂离子电池。电源系统1240可被配置为来自电源插座的电力。
本领域技术人员可容易地想到对于本公开中所描述的实现的各种修改。文中所描述的一般性原理可被应用于其它实现而不会背离本公开的精神或范围。例如,尽管已经关于DolbyDigital以及DolbyDigitalPlus描述了各种实现,但是文中所描述的方法可结合其它音频编解码器来实现。此外,文中所描述的矢量量化和逆矢量量化方法可不局限于音频数据应用,而是具有广泛适用性。
例如,考虑多视图视频序列的运动矢量。每个运动矢量可包括代表从一个视频帧到下一个视频帧的图像的小块的在x和y方向上的位移的一对参数。此外,每个视图可具有该视图中的每个这样的块的运动矢量。由于视频对象可在多个视图中被呈现,因此相关联的运动矢量可跨视图相关联。因此,每个位移参数可被两个维度索引:一个维度可指示视图,而另一个维度可指示位移是在x方向上还是在y方向上。单个视图中的沿x和y方向的位移(例如,运动矢量)可首先被矢量量化。然后,可从第一视图的运动矢量预测相邻视图的运动矢量。沿单个位置(x或y)的多个视图的预测残差值可被联合矢量量化。
文中所述的方法还可应用于信号处理应用。例如,考虑被配置为响应于温度变化的电子传感器网格。因此,温度是可被从由这些传感器提供的(可能被数字化的)电信号提取的参数。温度参数因此可被用网格中的传感器号码索引,并且可被采样时间索引。因此,温度参数可具有至少两个维度。参数可被提取并压缩以便存储并稍后使用,或者在具有受限带宽的通道上传输至处理中心。这样的数据压缩可包含参数的量化。给定时间来自多个传感器的温度可被联合矢量量化。后续时刻的每个传感器的温度可被从已经考虑的时刻的量化温度被预测。跨时间的预测残差可被分组并再次矢量量化。
因此,权利要求并不预期局限于文中所示的实现,而是应被给予与此公开、其中公开的原理和新颖特征相一致的最宽泛的范围。
Claims (67)
1.一种方法,包括:
接收信号;
分析该信号以确定N维参数集合的参数值;
将第一矢量量化处理应用于所述N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值;
至少部分地基于第一组量化值中的一个或多个值计算所述N维参数集合的沿第二维度的两个或更多个参数预测值;
至少部分地基于该参数预测值计算预测残差值;并且
将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
2.根据权利要求1所述的方法,进一步包括:
确定对应于第一组量化值的第一矢量量化索引;并且
确定对应于第二组量化值的第二矢量量化索引。
3.根据权利要求2所述的方法,其中,第一和第二量化索引包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
4.根据权利要求1到3中任一项所述的方法,进一步包括:
至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算所述N维参数集合的沿第k维度的两个或更多个参数预测值;
至少部分地基于沿第k维度的所述参数预测值计算预测残差值;并且
将第k矢量量化处理应用于沿第k维度的所述预测残差值以产生第k组量化值。
5.根据权利要求1到4中任一项所述的方法,进一步包括:
确定维度k的最大矢量量化器长度Mk;
确定要被矢量量化的值的数量Vk超过Mk;
确定要被矢量量化的Vk-Mk个剩余值;
至少部分地基于Mk个量化值中的至少一个预测沿第k维度的Vk-Mk个参数预测值;
计算(Vk-Mk)个第k维预测残差值;并且
对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
6.根据权利要求5所述的方法,其中,确定最大矢量量化器长度Mk包含接收来自用户的最大矢量量化器长度Mk的指示。
7.根据权利要求6所述的方法,其中,最大矢量长度Mk是控制用于对参数编码的比特率的变量,并且基于能够用于参数编码的比特率被确定。
8.根据权利要求1到7中任一项所述的方法,进一步包含以信号自适应方式将参数集合形成参数集合的分区。
9.根据权利要求8所述的方法,其中,分析、应用和计算处理分别应用于参数集合的每个分区。
10.根据权利要求8所述的方法,其中,形成处理随时间改变。
11.根据权利要求1到10中任一项所述的方法,其中,信号包含音频数据。
12.根据权利要求11所述的方法,其中,维度包括通道和频带。
13.根据权利要求12所述的方法,其中,维度包括时间块。
14.根据权利要求12或13所述的方法,其中,参数值包括空间参数值。
15.根据权利要求14所述的方法,其中,空间参数值包括单独离散通道和耦合通道之间的相关系数(“α值”)。
16.根据权利要求15所述的方法,其中,所述方法的第k级的α值的预测包括所述方法的第(k-1)级的α值的重构。
17.根据权利要求15所述的方法,其中,频带包括耦合通道频带。
18.根据权利要求15所述的方法,其中,α值在至少一些相邻时间块之间被共享。
19.根据权利要求15、17或18中任一项所述的方法,进一步包括跨时间块或频带中的至少一个执行α的窗口化计算。
20.根据权利要求11所述的方法,其中,维度包括单独离散通道对。
21.根据权利要求20所述的方法,其中,参数值包括指示单独离散通道对之间的相关性的通道间相关系数(“ICC”)。
22.根据权利要求21所述的方法,其中,第一维度包括单独离散通道对,并且第一矢量量化处理产生第一量化ICC值。
23.根据权利要求22所述的方法,其中,第一矢量量化包括:
量化包括Mp通道对循环中的M-1个通道对的ICC的矢量以产生M-1个ICC的量化值;
至少部分地基于M-1个ICC的量化值计算第MpICC所处的范围;以及
利用取决于所计算的范围的标量量化器来量化第MpICC。
24.根据权利要求1-23中任一项所述的方法,其中,在执行处理中用于设计量化器的或者用于代码本搜索的失真度量是均方误差失真度量。
25.一种方法,包括:
接收包括第一和第二矢量量化索引的信号;
响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值;
至少部分地基于所述N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个确定所述N维参数集合的第二维度的两个或更多个参数预测值;
响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值;并且
组合第二维度的参数预测值与第二维度的预测残差值以重构第二维度的两个或更多个参数值。
26.根据权利要求25所述的方法,进一步包括:
接收第k矢量量化索引;
至少部分地基于所述N维参数集合的小于k的维度的一个或多个先前确定的参数值确定所述N维参数集合的沿第k维的两个或更多个参数预测值;
响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且
组合第k维度的参数预测值与第k维度的预测残差值以重构第k维度的两个或更多个参数值。
27.根据权利要求26所述的方法,进一步包括:
接收维度k的最大矢量量化器长度Mk的指示;
确定沿维度k的要被重构的参数值的剩余数量Vk超过Mk;
至少部分地基于第k量化索引重构沿维度k的前Mk个值;
至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值;
接收第k维度的附加矢量量化索引;
响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值;并且
组合第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值以重构第k维度的剩余Vk-Mk个参数值。
28.根据权利要求25到27中任一项所述的方法,其中:
第一矢量量化索引对应于第一组量化值的存储位置;并且
第二矢量量化索引对应于第二组量化值的存储位置。
29.根据权利要求25到28中任一项所述的方法,进一步包括:接收参数集合分区信息;并且
根据参数集合分区信息实现该执行以及确定步骤。
30.根据权利要求25到29中任一项所述的方法,其中,信号包括编码的音频数据。
31.根据权利要求30所述的方法,其中,维度包括通道和频带。
32.根据权利要求31所述的方法,其中,维度包括时间块。
33.根据权利要求31或32所述的方法,其中,参数值包括空间参数值。
34.根据权利要求33所述的方法,其中,空间参数值包括单独离散通道与耦合通道之间的相关系数(“α值”)。
35.根据权利要求34所述的方法,其中,所述方法的第k级的α值的预测包括所述方法的第(k-1)级的α值的重构。
36.根据权利要求34所述的方法,其中,频带包括耦合通道频带。
37.根据权利要求34所述的方法,其中,α值在至少一些相邻时间块之间被共享。
38.根据权利要求30所述的方法,其中,维度包括单独离散通道对。
39.根据权利要求38所述的方法,其中,参数值包括指示单独离散通道对之间的相关性的通道间相关系数(“ICC”)。
40.一种装置,包括:
接口;以及
逻辑系统,所述逻辑系统能够:
经由接口接收信号;
分析该信号以确定N维参数集合的参数值;
将第一矢量量化处理应用于所述N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值;
至少部分地基于第一组量化值中的一个或多个值计算所述N维参数集合的沿第二维度的两个或更多个参数预测值;
至少部分地基于该参数预测值计算预测残差值;并且
将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
41.根据权利要求40所述的装置,其中,所述逻辑系统进一步能够:
确定对应于第一组量化值的第一矢量量化索引;并且
确定对应于第二组量化值的第二矢量量化索引。
42.根据权利要求41所述的装置,其中,第一和第二量化索引包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
43.根据权利要求40到42中任一项所述的装置,其中,所述逻辑系统进一步能够:
至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算所述N维参数集合的沿第k维度的两个或更多个参数预测值;
至少部分地基于沿第k维度的所述参数预测值计算预测残差值;并且
将第k矢量量化处理应用于沿第k维度的所述预测残差值以产生第k组量化值。
44.根据权利要求40到43中任一项所述的装置,其中,所述逻辑系统进一步能够:
确定维度k的最大矢量量化器长度Mk;
确定要被矢量量化的值的数量Vk超过Mk;
确定要被矢量量化的Vk-Mk个剩余值;
至少部分地基于Mk个量化值中的至少一个预测沿第k维度的Vk-Mk个参数预测值;
计算(Vk-Mk)个第k维预测残差值;并且
对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
45.根据权利要求40到44中任一项所述的装置,其中,所述逻辑系统包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、或离散硬件组件中的至少一个。
46.根据权利要求40到45中任一项所述的装置,进一步包括存储设备,其中所述接口包括逻辑系统和存储设备之间的接口。
47.根据权利要求40到46中任一项所述的装置,其中,所述接口包括网络接口。
48.一种装置,包括:
接口;以及
逻辑系统,所述逻辑系统能够:
经由接口接收包括第一和第二矢量量化索引的信号;
响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值;
至少部分地基于所述N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个确定所述N维参数集合的第二维度的两个或更多个参数预测值;
响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值;并且
组合第二维度的参数预测值与第二维度的预测残差值以重构第二维度的两个或更多个参数值。
49.根据权利要求48所述的装置,其中,所述逻辑系统进一步能够:
经由接口接收第k矢量量化索引;
至少部分地基于所述N维参数集合的小于k的维度的一个或多个先前确定的参数值确定所述N维参数集合的沿第k维的两个或更多个参数预测值;
响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且
组合第k维度的参数预测值与第k维度的预测残差值以重构第k维度的两个或更多个参数值。
50.根据权利要求49所述的装置,其中,所述逻辑系统进一步能够:
接收维度k的最大矢量量化器长度Mk的指示;
确定沿维度k的要被重构的参数值的剩余数量Vk超过Mk;
至少部分地基于第k量化索引重构沿维度k的前Mk个值;
至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值;
接收第k维度的附加矢量量化索引;
响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值;并且
组合第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值以重构第k维度的剩余Vk-Mk个参数值。
51.根据权利要求48到50中任一项所述的装置,其中,
第一矢量量化索引对应于第一组量化值的存储位置;并且
第二矢量量化索引对应于第二组量化值的存储位置。
52.根据权利要求48到51中任一项所述的装置,其中,所述逻辑系统进一步能够:
接收参数集合分区信息;以及
根据所述参数集合分区信息实现所述执行和确定步骤。
53.根据权利要求48到52中任一项所述的装置,其中,信号包括编码的音频数据。
54.根据权利要求48到53中任一项所述的装置,其中,所述逻辑系统包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑器件、或离散硬件组件中的至少一个。
55.根据权利要求48到54中任一项所述的装置,进一步包括存储设备,其中,所述接口包括逻辑系统和存储设备之间的接口。
56.根据权利要求48到55中任一项所述的装置,其中,接口包括网络接口。
57.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括控制至少一个装置以执行以下操作的指令:
接收信号;
分析该信号以确定N维参数集合的参数值;
将第一矢量量化处理应用于所述N维参数集合的沿第一维度的两个或更多个参数值以产生第一组量化值;
至少部分地基于第一组量化值中的一个或多个值计算所述N维参数集合的沿第二维度的两个或更多个参数预测值;
至少部分地基于该参数预测值计算预测残差值;并且
将第二矢量量化处理应用于该预测残差值以产生第二组量化值。
58.根据权利要求57所述的非暂态介质,其中,所述软件包括控制至少一个装置执行以下操作的指令:
确定对应于第一组量化值的第一矢量量化索引;并且
确定对应于第二组量化值的第二矢量量化索引。
59.根据权利要求58所述的非暂态介质,其中,第一和第二量化索引包括指向分别存储第一组量化值和第二组量化值的数据结构位置的指针。
60.根据权利要求57到59中任一项所述的非暂态介质,其中,所述软件包括控制至少一个装置执行以下操作的指令:
至少部分地基于先前产生的(k-1)组量化值中的一组或多组中的一个或多个值来计算沿所述N维参数集合的第k维度的两个或更多个参数预测值;
至少部分地基于沿第k维度的所述参数预测值计算预测残差值;并且
将第k矢量量化处理应用于沿第k维度的所述预测残差值以产生第k组量化值。
61.根据权利要求57到60中任一项所述的非暂态介质,其中,所述软件包括控制至少一个装置执行以下操作的指令:
确定维度k的最大矢量量化器长度Mk;
确定要被矢量量化的值的数量Vk超过Mk;
确定要被矢量量化的Vk-Mk个剩余值;
至少部分地基于Mk个量化值中的至少一个预测沿第k维度的Vk-Mk个参数预测值;
计算(Vk-Mk)个第k维预测残差值;并且
对于(Vk-Mk)个第k维预测残差值执行矢量量化处理以产生第k参数集合的Vk-Mk个量化值。
62.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括控制至少一个装置以执行以下操作的指令:
接收包括第一和第二矢量量化索引的信号;
响应于第一矢量量化索引执行第一逆矢量量化操作以重构N维参数集合的沿第一维度的两个或更多个参数值;
至少部分地基于所述N维参数集合的第一维度的所述两个或更多个参数值中的一个或多个确定所述N维参数集合的第二维度的两个或更多个参数预测值;
响应于第二矢量量化索引执行第二逆矢量量化操作以重构第二维度的两个或更多个预测残差值;并且
组合第二维度的参数预测值与第二维度的预测残差值以重构第二维度的两个或更多个参数值。
63.根据权利要求62所述的非暂态介质,其中,所述软件包括控制至少一个装置以执行以下操作的指令:
接收第k矢量量化索引;
至少部分地基于所述N维参数集合的小于k的维度的一个或多个先前确定的参数值确定所述N维参数集合的沿第k维的两个或更多个参数预测值;
响应于第k矢量量化索引执行第k逆矢量量化操作以重构第k维度的两个或更多个预测残差值;并且
组合第k维度的参数预测值与第k维度的预测残差值以重构第k维度的两个或更多个参数值。
64.根据权利要求63所述的非暂态介质,其中,所述软件包括控制至少一个装置以执行以下操作的指令:
接收维度k的最大矢量量化器长度Mk的指示;
确定沿维度k的要被重构的参数值的剩余数量Vk超过Mk;
至少部分地基于第k量化索引重构沿维度k的前Mk个值;
至少部分地基于第k量化索引确定第k维度的Vk-Mk个参数预测值;
接收第k维度的附加矢量量化索引;
响应于该第k维度的附加矢量量化索引执行逆矢量量化操作以重构第k维度的Vk-Mk个预测残差值;并且
组合第k维度的Vk-Mk个参数预测值与第k维度的Vk-Mk个预测残差值以重构第k维度的剩余Vk-Mk个参数值。
65.根据权利要求62到64中任一项所述的非暂态介质,其中:
第一矢量量化索引对应于第一组量化值的存储位置;并且
第二矢量量化索引对应于第二组量化值的存储位置。
66.根据权利要求62到65中任一项所述的非暂态介质,其中,所述软件包括控制至少一个装置以进行如下操作的指令:
接收参数集合分区信息;以及
根据所述参数集合分区信息实现所述执行和确定步骤。
67.根据权利要求62到66中任一项所述的非暂态介质,其中,信号包括编码的音频数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361835954P | 2013-06-17 | 2013-06-17 | |
US61/835,954 | 2013-06-17 | ||
PCT/US2014/042696 WO2014204935A2 (en) | 2013-06-17 | 2014-06-17 | Multi-stage quantization of parameter vectors from disparate signal dimensions |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105324812A true CN105324812A (zh) | 2016-02-10 |
Family
ID=51134446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480034435.6A Pending CN105324812A (zh) | 2013-06-17 | 2014-06-17 | 不同信号维度的参数矢量的多级量化 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160133266A1 (zh) |
EP (1) | EP3011562A2 (zh) |
JP (1) | JP2016524191A (zh) |
CN (1) | CN105324812A (zh) |
WO (1) | WO2014204935A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541592A (zh) * | 2020-12-06 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的联邦学习方法、装置及电子设备 |
CN116032901A (zh) * | 2022-12-30 | 2023-04-28 | 北京天兵科技有限公司 | 多路音频数据信号采编方法、装置、系统、介质和设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3467824B1 (en) * | 2017-10-03 | 2021-04-21 | Dolby Laboratories Licensing Corporation | Method and system for inter-channel coding |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0395076A2 (en) * | 1989-04-28 | 1990-10-31 | Fujitsu Limited | Speech coding apparatus |
CN101919165A (zh) * | 2008-01-31 | 2010-12-15 | 日本电信电话株式会社 | 附极性多重向量量化方法、装置、程序及其记录介质 |
CN102792369A (zh) * | 2010-03-17 | 2012-11-21 | 索尼公司 | 语音处理装置、语音处理方法和程序 |
CN102906812A (zh) * | 2010-04-08 | 2013-01-30 | Lg电子株式会社 | 处理音频信号的方法和装置 |
CN102982807A (zh) * | 2012-07-17 | 2013-03-20 | 深圳广晟信源技术有限公司 | 用于对语音信号lpc系数进行多级矢量量化的方法和系统 |
CN103035249A (zh) * | 2012-11-14 | 2013-04-10 | 北京理工大学 | 一种基于时频平面上下文的音频算术编码 方法 |
CN103081006A (zh) * | 2010-08-24 | 2013-05-01 | Lg电子株式会社 | 处理音频信号的方法和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5077798A (en) * | 1988-09-28 | 1991-12-31 | Hitachi, Ltd. | Method and system for voice coding based on vector quantization |
ATE378675T1 (de) * | 2005-04-19 | 2007-11-15 | Coding Tech Ab | Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter |
-
2014
- 2014-06-17 US US14/898,211 patent/US20160133266A1/en not_active Abandoned
- 2014-06-17 JP JP2016521507A patent/JP2016524191A/ja not_active Ceased
- 2014-06-17 CN CN201480034435.6A patent/CN105324812A/zh active Pending
- 2014-06-17 EP EP14736250.3A patent/EP3011562A2/en not_active Withdrawn
- 2014-06-17 WO PCT/US2014/042696 patent/WO2014204935A2/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0395076A2 (en) * | 1989-04-28 | 1990-10-31 | Fujitsu Limited | Speech coding apparatus |
CN101919165A (zh) * | 2008-01-31 | 2010-12-15 | 日本电信电话株式会社 | 附极性多重向量量化方法、装置、程序及其记录介质 |
CN102792369A (zh) * | 2010-03-17 | 2012-11-21 | 索尼公司 | 语音处理装置、语音处理方法和程序 |
CN102906812A (zh) * | 2010-04-08 | 2013-01-30 | Lg电子株式会社 | 处理音频信号的方法和装置 |
CN103081006A (zh) * | 2010-08-24 | 2013-05-01 | Lg电子株式会社 | 处理音频信号的方法和设备 |
CN102982807A (zh) * | 2012-07-17 | 2013-03-20 | 深圳广晟信源技术有限公司 | 用于对语音信号lpc系数进行多级矢量量化的方法和系统 |
CN103035249A (zh) * | 2012-11-14 | 2013-04-10 | 北京理工大学 | 一种基于时频平面上下文的音频算术编码 方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541592A (zh) * | 2020-12-06 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的联邦学习方法、装置及电子设备 |
CN116032901A (zh) * | 2022-12-30 | 2023-04-28 | 北京天兵科技有限公司 | 多路音频数据信号采编方法、装置、系统、介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
US20160133266A1 (en) | 2016-05-12 |
EP3011562A2 (en) | 2016-04-27 |
JP2016524191A (ja) | 2016-08-12 |
WO2014204935A2 (en) | 2014-12-24 |
WO2014204935A3 (en) | 2015-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798568B2 (en) | Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data | |
CN112735447B (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
US8190425B2 (en) | Complex cross-correlation parameters for multi-channel audio | |
US7831434B2 (en) | Complex-transform channel coding with extended-band frequency coding | |
CN104282309A (zh) | 丢包掩蔽装置和方法以及音频处理系统 | |
US8041041B1 (en) | Method and system for providing stereo-channel based multi-channel audio coding | |
KR20160099531A (ko) | 오디오 신호들의 파라메트릭 재구성 | |
JP2022509440A (ja) | 空間オーディオパラメータの符号化及び対応する復号の決定 | |
CN105324812A (zh) | 不同信号维度的参数矢量的多级量化 | |
US9794714B2 (en) | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation | |
US10224043B2 (en) | Audio signal processing apparatuses and methods | |
TWI762949B (zh) | 用於丟失消隱之方法、用於解碼Dirac經編碼音訊場景之方法及對應電腦程式、丟失消隱設備及解碼器 | |
US20230298601A1 (en) | Audio encoding and decoding method and apparatus | |
CN106663434B (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法 | |
CN107079171B (zh) | 使用改进的预测滤波器编码和解码视频信号的方法和装置 | |
US10600426B2 (en) | Audio signal processing apparatuses and methods | |
KR20220093158A (ko) | 방향성 메타데이터를 사용한 멀티채널 오디오 인코딩 및 디코딩 | |
US20240137041A1 (en) | Optimized encoding of rotation matrices for encoding a multichannel audio signal | |
KR20240034186A (ko) | 최적화된 구형 벡터 양자화 | |
KR20240150468A (ko) | 최적화된 구면 양자화 딕셔너리를 사용하는 구면 좌표의 코딩 및 디코딩 | |
JP2012123090A (ja) | 音響符号化装置及び復号装置、並びにこれらのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160210 |