CN105706369A - 划分的增益形状向量编码 - Google Patents
划分的增益形状向量编码 Download PDFInfo
- Publication number
- CN105706369A CN105706369A CN201480061092.2A CN201480061092A CN105706369A CN 105706369 A CN105706369 A CN 105706369A CN 201480061092 A CN201480061092 A CN 201480061092A CN 105706369 A CN105706369 A CN 105706369A
- Authority
- CN
- China
- Prior art keywords
- vector
- segments
- segment
- avg
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 claims abstract description 86
- 238000005192 partition Methods 0.000 claims description 64
- 238000000638 solvent extraction Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 28
- 238000013139 quantization Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及用于支持划分的增益形状向量编码和解码的编码器和解码器以及其中的方法。由编码器执行的方法中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制。所述方法包括:确定针对目标向量x的分段的初始数量Np_init;以及基于向量比特预算和Np_init,进一步确定平均每分段比特数量BAVG。所述方法还包括:基于Np_init个分段的能量以及B和BAVG之差,确定将在增益形状向量编码中针对向量x使用的分段的最终数量。执行所述方法使得能够在目标向量上高效地分配比特预算的比特。
Description
技术领域
本文公开的本发明大体上涉及增益形状向量编码和解码,具体地,涉及划分的增益形状向量量化。
背景技术
针对例如音频和/或视频的编码方法通常包括对信号分段的某种类型的量化。已知无约束向量量化(VQ)对于具有特定长度的分组样本(即,向量)是有用的量化方法。但是,存储器和搜索复杂度限制导致了结构化向量量化器的发展。不同的结构在搜索复杂度和存储器要求方面具有不同的折中。一种针对结构化向量量化的传统方法是增益形状向量量化,其中使用形状向量r和增益G来表示目标向量x:
增益形状向量量化的构思是对增益和形状分量对{r,G}进行量化,而不是直接对目标向量进行量化。然后,使用形状量化器(针对归一化的(normalized)形状输入对其进行调谐)和增益量化器(其处理信号的动态性)来对增益和形状分量进行编码。由于划分成动态性和形状(还表示为精细结构)非常符合感知听觉模型,所以该结构常用于音频编码。
此外,许多音频编解码器(比如IETFOpus以及ITU-TG.719)使用增益形状向量量化来对目标音频信号的频谱系数进行编码。这两种编解码器都使用固定的频带结构来将频谱分成多个分段,并且频带结构不存在对目标向量的任何改变的自适应。
增益形状量化的一个问题是找到合适的向量长度。较长的向量引起向量内的较大变化,从而形状量化器需要处理信号的动态性。较短的向量降低向量内的动态性,但可能会受到以下事实的影响:形状VQ的较低维度利用样本修正的能力较差。此外,增益编码的开销会随着分割数量的增加而增加,这使得留给形状编码的比特更少。
发明内容
期望实现高效的增益形状向量编码和解码。
根据第一方面,提供了一种用于支持划分的增益形状向量编码的方法。将由媒体编码器执行所述方法,其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制。所述方法包括:确定针对目标向量x的分段的初始数量Np_init;以及基于向量比特预算和Np_init,进一步确定平均每分段比特数量BAVG。所述方法还包括:基于Np_init个分段的能量以及BMAX和BAVG之差,确定将在增益形状向量编码中针对向量x使用的分段的最终数量。
根据第二方面,提供了一种用于支持划分的增益形状向量解码的方法。将由媒体解码器执行所述方法,其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制。所述方法包括:针对将被重构的向量xq,确定分段的初始数量。所述方法还包括:从媒体编码器接收对是否针对向量xq应用了增加数量的分段的指示。所述方法还包括:基于所接收的指示,确定用于向量xq的解码的分段的最终数量。
根据第三方面,提供了一种媒体编码器,该媒体编码器能够操作以执行划分的增益形状向量编码,其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制。所述媒体编码器被配置为:确定针对目标向量x的分段的初始数量Np_init;以及基于向量比特预算和Np_init,确定针对向量x的平均每分段比特数量BAVG。所述媒体编码器还被配置为:基于Np_init个分段的能量以及BMAX和BAVG之差,确定将在增益形状向量编码中使用的分段的最终数量。
根据第四方面,提供了一种媒体解码器,该媒体解码器能够操作以执行增益形状向量解码,其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制。所述媒体解码器被配置为:针对将被重构的向量xq,确定分段的初始数量Np_init;以及进一步从媒体编码器接收对是否针对向量xq应用了增加数量的分段的指示。所述媒体解码器还被配置为:基于所接收的指示,确定用于向量xq的解码的分段的最终数量。
根据第五方面,提供了一种无线设备,该无线设备包括根据第三方面的媒体编码器。
根据第六方面,提供了一种无线设备,该无线设备包括根据第四方面的媒体解码器。
根据第七方面,提供了一种计算机程序,该计算机程序包括指令,所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据第一和/或第二方面的方法。
根据第八方面,提供了一种载体,该载体包含第七方面的计算机程序。
附图说明
根据以下对附图中示出的实施例更具体的描述,本文公开的技术的以上和其他目的、特征和优点将显而易见。附图不必按比例绘制,相反重点在于说明本文公开的技术的原理。
图1-2是示出了根据示例实施例由编码器执行的方法的流程图。
图3a示出了针对多个向量分段的EAVG和每分段平均能量。
图3b示出了针对多个向量分段的BMAX和BAVG。
图4是示出了根据示例实施例由编码器执行的方法的流程图。
图5-6是示出了根据示例实施例由解码器执行的方法的流程图。
图7是示出了形状方差随划分数量的总体下降。
图8示出了目标向量(上图)和针对3个划分(中图)和4个划分(下图)的相应能量的示例。注意的是,具有4个划分的模型更接近地符合目标向量中的能量动态性。
图9是示出了在针对增益形状量化对目标向量进行划分中的折中的图。较低数量的划分不能足够好地归一化形状向量。较高数量的划分需要较大的比特开销来发送增益,结果为形状编码留下数量不足的比特。
图10示出了目标向量和针对2路和3路划分的相应分段能量的示例。
图11是示出了分段能量的方差随着图10中的目标向量被划分成的分段的数量的变化的图。
图12a-14示出了根据示例实施例的编码器和/或解码器的不同实现。
具体实施方式
本文描述的实施例的构思用于在给定特定尺寸的目标向量的情况下分析形状和确定分成子向量的合适分辨率(resolution)。在音频编解码器的情况下,这可以减少量化误差并增加感知质量。此外,本文描述的一些实施例的目的在于,找到切片(section)的优化数量,即目标向量的划分的数量。
本文的实施例涉及一种用于支持划分的增益形状向量编码的方法。在对每个向量分段的编码受到与最大比特数量BMAX相关的限制的情况下,旨在由媒体编码器执行所述方法。也就是说,在允许用于对向量分段进行编码的最大比特数是BMAX的情况中。这一限制可能是由于媒体编码器的例如处理能力和/或存储容量导致的。下文将参考图1描述根据示例实施例的方法。图1中所示的方法包括:针对目标向量x,确定(101)针对目标向量x的分段的初始数量Np_init。可以基于例如BMAX和比特预算(即分配用于对整个向量x进行编码的比特数量)确定数量Np_init。所述方法还包括:基于向量比特预算和Np_init,确定(102)每分段的平均比特数BAVG。注意到,在这一阶段,无需实际对向量x进行划分,即使已经确定了分段的初始数量和可用于初始向量分段的平均比特数量也是如此。所述方法还包括:基于Np_init个分段的能量以及BMAX和BAVG之差,确定将在增益形状向量编码中使用的分段的最终数量Np。通过基于这些参数确定分段的最终数量,能够在目标向量上高效地分配比特预算的比特,这将在下文中进一步详细描述。对分段数量的确定可以备选地被表达为确定划分数量,这是因为分段的数量和划分的数量是紧密相关的。备选地,术语“划分”可以用来表示分段。
然后,可以向媒体解码器指示所确定的分段的最终数量Np,以便使得媒体解码器能够充分地对经编码的增益形状向量进行解码。应该注意的是,不必指示分段的实际数量,而是指示与所确定的分段的初始数量相比的改变。关于对Np_init的确定,可以将分段的这一初始数量提供给编码器和解码器。在这种情况中,术语“确定”将是指例如为了使用确立Np_init,或类似。
在如图2所示的一个实施例中,对分段的最终数量的确定包括:当Np_init个分段的能量与BMAX和BAVG之差之间的关系满足标准时,增加(204)分段(和划分)的数量。这里,“增加”分段的数量的意思是相比于分段的初始数量Np_init而增加。例如,可以增加一个划分(和分段),导致分段的最终数量Np=Np_init+1。然后,可以通过合适的方式向媒体解码器指示(205)分段数量的增加。有利地,使用尽可能少的比特来向解码器指示分段的最终数量。当增加预定数量的分段(或划分)(例如一个)时,可以使用单个比特向媒体解码器指示分段(或划分)的最终增加后的数量,该单个比特通常被称为标志(flag)。例如,当应用了增加后的数量的分段时,所述比特可以被设置为“1”或“真(true)”,当将使用初始数量的分段时,所述比特可以被设置为“0”或“伪(false)”。也就是说,对分段的最终数量的确定还可以包括:当Np_init个分段的能量与BMAX和BAVG之差之间的关系不满足所述标准时或当没有满足相应的标准时,确定(206)应该使用分段的初始数量Np_init,即Np=Np_init。这在图2中被示为动作206。
对分段的最终数量Np的确定可以包括:当目标向量分段能量与针对目标向量x的平均每分段能量值EAVG的最大偏差大于基于BMAX和BAVG之差的阈值时,针对目标向量x,相比于初始数量增加(204)分段的数量。也就是说,可以将目标向量分段上的能量变化与基于BMAX和BAVG之差的阈值相比较。使用与平均每分段能量值EAVG的最大偏差隐含的逻辑可以通过简化的方式描述为:当与平均每分段能量的偏差较大时,不同分段的感知重要性会有较大的差别。应该注意的是,可以通过其他方式来表达“阈值”比较,使得将BMAX和BAVG之差与取决于或基于Np_init个分段的能量的阈值进行比较。也就是说,以上内容可被表达为:当BMAX和BAVG之差小于取决于目标向量分段能量与针对目标向量x的平均每分段能量值EAVG的最大偏差的阈值时,分段数量应该增加,等等。例如,这可以被表达为当M>α(BMAX-BAVG)时或当时,划分的数量应该增加,其中α(BMAX-BAVG)或可以被表示为阈值。
关于分段的能量,每分段的对数能量可以被计算为:
其中,i是分段索引,并且k是样本索引。
然后,平均每分段能量可以被定义为:
然后,可以将能量变化的度量定义为与平均值的绝对最大对数能量偏差:
关于何时添加附加划分的确定或决定可以基于测试能量变化度量M是否高于基于BMAX和BAVG的特定阈值:
当M>α(BMAX-BAVG)时,设置Np=(Np_init+1);
否则,设置Np=Np_init
图3a示出了每分段平均能量(黑点)和总平均能量EAVG(分段平均的平均)。为了最小化编码失真,与对包括较少能量的分段进行编码相比,期望使用更多的比特来对包括较多能量的分段进行编码。从而,当分段之间存在较大的能量变化时,将期望将包括较少能量的分段的比特重新分配给包括较多能量的分段(假定所有的分段初始被分配至少大约BAVG个比特,即假定比特在分段上具有初始均匀分布)。图3b是示出了分段数量BMAX值和BAVG值的简化图。当BMAX和BAVG之差(本文中还可以被表示为余量)“较小”(例如小于阈值)时,在达到BMAX之前,将不能将这么多的比特重新分配到高能量含量分段。然而,通过增加分段数量,BAVG将会减小(这在图3a中通过虚线箭头示出),从而增加了将更多的比特分配到高能量含量分段的可能性。通过增加分段的数量,允许与BAVG的更高的比特数量正偏差,这使得能够重新分配比特。最大允许正偏差是BMAX-BAVG。这里,术语“重新分配”并不意味着在重新分配之前将平均数量BAVG的比特实际分配到每个分段,而是仅用来便于对本文提供的方案进行理解。
一个示例性实施例可以被描述为:当向量分段之间的能量变化相对于余量BMAX-BAVG“较大”时,划分和分段的数量增加“1”,然后通过设置一比特标志来向解码器进行指示。可以通过使用阈值来执行对“较大”的确定,阈值可以是基于例如仿真来选择的。图4中示出了该实施例。在图4中,能量变化被表示为M,并且在该示例中,阈值MTHR基于BMAX-BAVG。以下将进一步描述针对能量变化的表达的不同示例。
由于BMAX和BAVG之差(即余量)是比特数量(其应该与作为能量度量的能量变化(例如与平均值的最大偏差)相比),因此可以使用调谐参数α来使得决定阈值与余量成正比。α的值可基于例如仿真导出。
此外,存在一些情形,在这些情形中,不认为对上述分段数量进行分析是有意义的。这里,分析意味着对BAVG的确定(102)和对分段的最终数量的确定(103)。在这种情形中,并不期望执行所述分析或在向解码器指示分段数量上浪费比特。因此,对所述分析的执行和对结果的指示可以是有条件的,即只有当满足了至少一个附加条件时才执行。一个这类附加条件可以是向量比特预算高于阈值。这一条件的理由将是当比特预算较低时,没有那么多的比特来重新分配给其他分段。另一附加条件可以是划分或切片的初始数量应该低于阈值。这一条件的理由将是例如复杂度限制。
应该注意的是,以上描述的实施例意图是非递归的,这意味着复杂度较低。与更为消耗资源的递归方法相比,这可以是有利的。还应注意的是,分段旨在在向量上是至少近似均匀分布的,即具有至少近似相同的尺寸。与产生具有非常不同的尺寸的分段的方法相比,这也可以是一个优点。
本文的实施例还涉及一种用于支持划分的增益形状向量解码的方法。所述方法对应于上文所述的编码方法。在对增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制的情况中,旨在由媒体解码器执行所述方法。这里,术语“媒体”旨在指代例如音频和/或视频。下文将参考图5描述根据示例实施例的方法。图5中示出的方法包括:针对将被重构的向量xq,确定(501)分段的初始数量Np_init;所述方法还包括:从媒体编码器接收(502)对是否针对向量xq应用了增加数量的分段的指示;以及基于分段的初始数量和所接收的指示,确定(503)用于向量xq的解码的分段的最终数量。然后,可以基于分段的最终数量,对向量xq进行解码(504)。与编码器侧的示例类似,所述指示可以是通过比特标志的形式接收的,当将应用附加划分时(Np=Np_init+1),该比特标志被设置为例如“1”,并且当将使用初始数量的分段时(Np=Np_init),该比特标志被设置为例如“0”。图6中还示出了使用标志作为指示符。
与编码器侧一致,对指示的接收是有条件的,从而只有当满足了一个或多个附加条件时才执行。在编码器侧和解码器侧应该使用相同的条件。如前文所述,这些附加条件可以是向量比特预算高于阈值T1,以及划分或分段的初始数量低于阈值T2,和/或每样本比特率BSAMPLE高于给定界限。(T1和T2只用来指示针对两种情况的阈值并不相同)。
下文中,将描述本文所提供的方案的更多细节和变形。在具体实施方式的结尾将描述与上文所述的方法实施例相对应的媒体编码器和媒体解码器的实施例。
可以通过将目标向量划分成较小的切片来捕获目标向量上的能量变化。划分的益处将取决于目标向量的能量分布。这可以通过在对每个切片中的能量进行归一化之后计算目标信号的方差σ2来示出。假定切片具有相等的尺寸,则这可以被表达为:
其中,是切片i的方差,以及Np是分段数量。
如图7所示,通常,对于前几个划分,方差值快速地下降,然后达到饱和。注意图7中的曲线的形状,饱和点可以被解释为不需要更多切片中的进一步分辨率的点。此外,可以注意到,由于最终划分将导致各个切片均包括一个样本(每一个切片具有零方差),所以该曲线总是收敛到零。图8示出了示例目标向量以及针对3路和4路划分的相应切片能量。
在另一实施例中,针对不同的划分配置(即,针对不同的分段数量),对各个切片/分段之间的能量的方差进行比较。不同划分配置之间(例如3个分段与2个分段)的方差的较大增长指示对目标向量的附加划分将是有益的。方差V被计算为:
分段i中的每系数能量是:
其中BWi是分段的长度,
并且,每系数的平均能量是:
图10示出了示例目标向量(上图)以及分别针对示例目标向量的2路划分(中图)和3路划分(下图)的相应分段能量。在图11中,针对变化数量的分段,示出了分段能量的相应方差。考虑从2个分段到3个分段的改变,方差V增加,从而指示划分成3个分段与划分成2个分段相比更为有益。
在一个实施例中,针对附加划分的决定是基于以下作出的:
如果
Np=Np+1
发送标志=1
否则
发送标志=0
其中,β是针对两个连续数量的划分之间的分段能量的方差的增加的较低阈值。当方差的增加足够(即,在该示例中,超出阈值β)时,分段数量增加例如1。如前所述,可以通过例如使用一个比特来发信号通知一个附加划分或没有任何附加划分,将附加划分的使用从编码器发信号通知给解码器。然而,如果希望的话,可以使用更多的比特来发信号通知多于一个附加划分。
以上实施例的变化是将归一化分段中的每系数平均能量直接用作能量变化的度量。这样做的动机在于,当每系数平均能量在两个连续数量的划分之间不改变很多时,每个分段内的分布是相似的,并且不会从进一步的划分获益,而两个连续数量的划分之间的较大改变则会促使附加划分。与上述表达相似,可以基于阈值γ作出上述决定:
如果
Np=Np+1
发送标志=1
否则
发送标志=0
在另一实施例中,假定这一点并且给定了分段的初始数量Np_init(例如由于量化器限制),算法通过以下过程来作出关于是否增加Np_init的决定:
首先,每分段对数能量被计算为:
然后,平均每分段能量可以被定义为:
将能量变化的度量定义为与平均值的绝对最大对数能量偏差:
在与平均值存在任何较大偏差(不管是正是负)而必须进行触发的情况下,使用绝对值。在一些情况中,只有上限是重要的,在这种情况中,可省略绝对值,记为:
在又一实施例中,下限可能更为重要,并且然后可以定义所述度量以找到最小的负偏差:
在能量偏差度量的所有示意性实施例中,目的都在于在所估计的能量偏差较大的情况中增加划分的数量。如前所述,原因在于,附加划分应该提供稍微更多的自由度来局部地分配比特。关于何时添加附加划分的决定可以按如下内容基于测试能量变化度量M是否高于特定阈值MTHR(图4中同样示出):
如果M>MTHR
Np=Np+1
发送标志=1
否则
发送标志=0
在一个实施例中,针对附加划分的决定还可能受到编码器上的针对不同切片或分段的限制的影响。在这些情况中,如果必要的比特分配不能针对每个切片或分段位于最大比特数量BMAX之下,则可能需要附加划分。如前文所述,每切片的最大比特数量BMAX和每切片的平均比特数量BAVG之差可以被表示为比特分配的余量(BMAX-BAVG)。每频带的平均比特可以被计算为:
其中BBAND表示针对给定频带的比特数量,即针对表示频带的目标向量的比特预算。这里,术语“频带”可以被解释为例如目标向量所表示的频带。此外,可以使用调谐参数α来调节决定阈值,以使得决定阈值与余量成正比:
如果M>α(BMAX-BAVG)
Np=Np+1
发送标志=1
否则
发送标志=0
关于使用附加划分的决定还可以被编码为参数,并且从编码器发送到解码器。为了确保只在需要时才进行附加划分信号通知(例如,由于当使用时需要附加比特),上述算法可以被限制为只在可能有益的情况中才使用。例如,其可以被限制为只在划分或分段的初始数量Np_init低于划分或分段的最大数量时(例如NP_init<NP,max)和/或当每样本的比特率BSAMPLE高于给定界限时(例如BSAMPLE>BSAMPLE,THR)才使用。为了同步,在编码器和解码器中应该使用相同的条件,以用于正确的比特流解码。
所述实施例的优点在于它们可以改善增益形状量化方案的性能。划分的标准需要微小的附加计算复杂度,并且由于对较小的分段进行量化没有对整个目标向量进行量化复杂,因此实施例的所提出的算法还可以实现计算复杂度的降低。
实现
上文所描述的方法和技术可以实现于编码器和解码器中,这些编码器和解码器可以是其他设备的一部分。
编码器,图12a-12c
在图12a中通过一般的方式示出了媒体编码器的示例性实施例。媒体编码器指的是针对例如音频和/或视频信号的编码器。编码器1200被配置为执行以上参照图1-2和4中的任一个描述的方法实施例中的至少一个。编码器1200与和之前描述的方法实施例相同的技术特征、对象和优点相关联。为了避免不必要的重复,将简要描述编码器。
可以如下实现和/或描述编码器:
编码器1200被配置用于划分的增益形状向量编码。编码器1200包括处理电路或处理装置1201和通信接口1202。处理电路1201被配置为使得编码器1200针对目标形状向量x执行以下操作:确定分段的初始数量Np_init,以及进一步基于向量比特预算和Np_init确定平均每分段比特数量BAVG。处理电路1201还被配置为使得编码器:基于Np_init个分段的能量以及BMAX和BAVG之差,确定将在增益形状向量编码中使用的分段的最终数量。通信接口1202(其还可被表示为例如输入/输出(I/O)接口)包括用于向其他实体或模块发送数据和从其他实体或模块接收数据的接口。
如图12b所示,处理电路1201可以包括处理装置,比如处理器1203(例如CPU)和用于存储或保存指令的存储器1204。从而,存储器将包括例如计算机程序1205的形式的指令,所述指令当被处理装置1203执行时使得编码器1200执行以上所述的动作。
在图12c中示出了处理电路1201的备选实现。这里,处理电路包括:第一确定单元1206,被配置为使得编码器1200确定针对目标形状向量x的分段的初始数量Np_init。处理电路还包括:第二确定单元1207,被配置为使得编码器基于向量比特预算和Np_init,确定平均每分段比特数量BAVG。所述处理电路还包括:第三确定单元1208,被配置为使得编码器基于Np_init个分段的能量以及BMAX和BAVG之差,针对向量x确定将在增益形状向量编码中使用的分段的最终数量。处理电路1201可以包括更多的单元,比如指示单元1209,所述指示单元1209被配置为使得编码器向媒体解码器指示分段的最终数量,例如与初始数量相比增加一个分段。该任务可以备选地由其他单元之一来执行。
上文所述的编码器可以被配置用于本文所描述的不同方法实施例,比如当目标向量分段能量与针对目标向量x的平均每分段能量值EAVG的最大偏差大于基于BMAX和BAVG之差的阈值时,针对目标向量x,相比于初始数量增加用于增益形状向量编码的分段的数量。
编码器1200可以被假定为包括用于执行常规的编码器功能的其他功能。
解码器,图13a-13c
本文的实施例还涉及媒体解码器1300,所述媒体解码器1300被配置为执行上文所述的解码方法的实施例。也就是说,例如图5中所示的用于支持划分的增益形状向量解码的方法。在图13a中通过一般的方式示出了解码器1300的示例性实施例。解码器1300被配置为执行以上参照图5-6描述的方法实施例中的至少一个。解码器1300与和之前描述的方法实施例相同的技术特征、对象和优点相关联。为了避免不必要的重复,将简要描述解码器。
解码器1300被配置用于支持划分的增益形状向量解码,并且能够操作以执行划分的增益形状向量解码。解码器1300包括处理电路1301和通信接口1302。处理电路1301被配置为使得网络节点针对将被重构的向量xq确定初始数量Np_init;并且进一步从媒体编码器接收对是否针对向量xq应用了增加数量的分段的指示。所述处理电路1301还被配置为:使得网络节点基于所接收的指示,确定用于向量xq的解码的分段的最终数量。通信接口1302(其还可被表示为例如输入/输出(I/O)接口)包括用于向其他实体或模块发送数据和从其他实体或模块接收数据的接口。
如图13b所示,处理电路1301可包括处理装置,比如处理器1303,和用于存储或保存指令的存储器1304。从而,存储器将包括例如计算机程序1305的形式的指令,所述指令当被处理装置1303执行时使得网络节点1300执行以上所述的动作。
在图13c中示出了处理电路1301的备选实现。这里,处理电路包括:第一确定单元1306,被配置为使得网络节点针对将被重构的向量xq确定分段的初始数量Np_init。处理电路1301还包括:接收单元1307,被配置为使得网络节点从媒体编码器接收对是否针对向量xq应用了增加数量的分段的指示。处理电路1301还包括:第二确定单元1308,被配置为使得网络节点基于所接收的指示,确定用于向量xq的解码的分段的最终数量。
网络节点1300可以被假定为包括用于执行常规的解码器功能的其他功能。
备选地,可以如图14所示来描述和/或实现编码器和解码器。图14是根据本文建议的方案的实施例的划分算法编码器和解码器的示意框图。编码器包括:初始划分决定器单元、能量变化分析器单元和划分编码器单元。解码器包括:初始划分决定器和决定解码器。可以用硬件和/或软件实现编码器和解码器以及其所包括的单元。
备选地,本文所述的编码器和解码器可以由例如处理器和具有合适存储或存储器的适当软件中的一个或多个来实现,以根据本文所述的实施例执行对输入向量的划分和/或分段的足够数量的确定,参见图15和16。针对图15中所示的编码器,由连接到处理器和存储器的输入端(IN)接收到来的向量,并且从输出端(OUT)输出从软件获得的向量的编码表示(例如音频信号(参数))。
本文所述的解码器可以由例如处理器和具有合适存储或存储器的适当软件中的一个或多个来实现,以根据本文所述的实施例执行对输入参数的解码,参见图16。油连接到处理器和存储器的输入端(IN)接收到来的参数,并且从输出端(OUT)输出从软件获得的解码信号。
上文描述的技术可以被包括在例如无线设备(比如用户设备、移动终端、平板计算机、用于机器到机器通信的移动无线设备、集成或嵌入式无线卡、外部插入无线卡、电子狗等)中或包括在静态或半静态设备(比如个人计算机或智能TV)中。
结论
本文所述的步骤、功能、过程、模块、单元和/或方块可以使用任何常规技术实现在硬件中,例如分立电路或集成电路技术,包括通用电子电路和专用电路。
特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路,例如被互连以执行专门功能的分立逻辑门、或者专用集成电路(ASIC)。
备选地,上述步骤、功能、过程、模块、单元和/或方块中的至少一些可以实现在软件中,例如由包括一个或多个处理单元的合适处理电路来执行的计算机程序。在使用网络节点中的计算机程序之前和/或期间,软件可以被载体所承载,所述载体例如为电信号、光信号、无线电信号或计算机可读存储介质。
当被一个或多个处理器执行时,本文提出的流程图可以被认为是计算机流程图。对应的装置可以被定义为一组功能模块,其中由处理器执行的每个步骤对应于功能模块。在这种情形中,功能模块被实现为在处理器上运行的计算机程序。
处理电路的示例包括但不限于,一个或多个微处理器、一个或多个数字信号处理器DSP、一个或多个中央处理单元CPU、和/或任何合适的可编程逻辑电路,例如一个或多个现场可编程门阵列FPGA或一个或多个可编程逻辑控制器PLC。也就是说,上述不同节点中的布置中的单元或模块可以通过模拟电路和数字电路、和/或配置有软件和/或固件(例如存储在存储器中)的一个或多个处理器的组合来实现。这些处理器中的一个或多个以及其它数字硬件可以包括在单个专用集成电路ASIC中,或者若干个处理器和各种数字硬件可以分布在若干个分离的组件上,不论单独封装还是组装为片上系统SoC。
还应理解的是,可以重新使用实现所提出的技术的任何传统设备或单元的通用处理能力。还可以例如通过对现有的软件进行重新编程或者通过添加新的软件组件来重新使用现有的软件。
上述实施例只是作为示例给出的,应该理解的是,所提出的技术不限于此。本领域技术人员将会理解,在不背离本范围的情况下,可以对该实施例进行各种修改、组合和改变。尤其是,不同实施例中的不同部分的方案可以在其他配置中进行组合(在技术上可行的情况下)。
当使用词语“包括(comprise)”或“包含(comprising)”时,应当被理解为非限制性的,即意味着“至少包括”。
还应该注意的是,在一些备选实现中,在块中标记的功能/动作可以不以流程图中标记的顺序发生。例如依赖于所涉及的功能/动作,连续示出的两个块实际上可以实质上同时执行,或者块有时可以按照相反的顺序执行。此外,可以将流程图和/或框图中的给定块的功能分离成多个块和/或流程图和/或框图的两个或更多块的功能可以至少部分地集成。最后,在不偏离发明构思的范围的情况下,可以在所示出的块之间添加/插入其他块,和/或可以省略块/操作。
应当理解的是,在本公开中对交互单元的选择以及对单元的命名仅用于示例目的,并且可以通过多个备选方式来配置适合执行上述方法中的任何一个的节点,从而能够执行所建议的过程动作。
还应当注意,本公开中描述的单元应被认为是逻辑实体,而不必是分离的物理实体。
除非明确如此说明,否则以单数的形式提及某一元素并不意味着“一个且仅有一个”,而是指“一个或多个”。上述实施例的元素的对于本领域的普通技术人员已知的所有结构和功能等同物通过引用的方式明确地并入本文,并旨在由此被涵盖。此外,设备或方法不必解决本文公开的技术想要解决的每个问题,这是因为它将由此被涵盖。
在本文的一些实例中,省略众所周知的设备、电路和方法的详细说明,以免不必要的细节模糊所公开技术的说明。本文中列出所公开技术的原理、方面和实施例以及其具体示例的所有陈述旨在包括其结构和功能等同物。此外,这种等同物旨在包括当前已知的等同物和未来开发的等同物(例如所开发的执行相同功能的任何元素),而不管结构如何。
以下列出了一组(29个)附加的示例性实施例。实施例主要对应于之前描述的实施例,但形式上略有不同。
实施例1:一种由媒体编码器执行的用于支持划分的增益形状向量编码的方法,其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述方法包括:
针对目标向量x:
-确定划分的初始数量,以用于将目标向量x分成初始数量Np_init个分段;
-基于向量比特预算和Np_init,确定平均每分段比特数量BAVG;以及
-基于BMAX和BAVG之差,确定将在增益形状向量编码中使用的划分的最终数量。
实施例2:根据实施例1所述的方法,其中,确定划分的最终数量包括:
当BMAX和BAVG之差小于阈值(203)时:
-针对目标向量x,相比于初始数量增加用于增益形状向量编码的划分的数量。
实施例3:根据实施例2所述的方法,其中,所述阈值取决于目标向量分段上的能量变化。
实施例4:根据实施例2-3中任一项所述的方法,其中,所述阈值取决于:目标向量分段能量与针对目标向量x的平均每分段能量值EAVG的最大偏差。
实施例5:根据实施例2-4中任一项所述的方法,还包括:
-向媒体解码器指示划分的数量的增加。
实施例6:根据实施例1-4中任一项所述的方法,还包括:
-向媒体解码器指示划分的最终数量。
实施例7:根据实施例1-6中任一项所述的方法,其中,只有在满足至少一个附加条件时才执行对BAVG的确定和基于BMAX和BAVG之差对划分的最终数量的确定。
实施例8:根据实施例1-7中任一项所述的方法,其中,当向量比特预算高于针对附加划分的阈值时和/或当每样本比特率高于给定界限时,执行对BAVG的确定和基于BMAX和BAVG之差对划分的最终数量的确定。
实施例9:根据实施例1-8中任一项所述的方法,其中,当划分的初始数量低于阈值时,执行对BAVG的确定和基于BMAX和BAVG之差对划分的最终数量的确定。
实施例10:一种由媒体解码器执行的用于支持划分的增益形状向量解码的方法,其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述方法包括:
-针对将被重构的向量xq,确定划分的初始数量;
-从媒体编码器接收对是否针对向量xq应用了增加数量的划分的指示;以及
-基于所接收的指示,确定用于向量xq的解码的划分的最终数量。
实施例11:根据实施例10所述的方法,还包括:
-基于划分的最终数量,对向量xq进行解码。
实施例12:根据实施例10或11所述的方法,其中,只有在满足一个或多个附加条件时,才执行对所述指示的接收。
实施例13:根据实施例12所述的方法,其中,附加条件是向量比特预算高于针对附加划分的阈值。
实施例14:根据实施例12或13所述的方法,其中,附加条件是划分的初始数量低于阈值,和/或每样本比特率高于给定界限。
实施例15:一种能够操作以执行划分的增益形状向量编码的媒体编码器,其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述媒体编码器被配置为:
针对目标向量x:
-确定划分的初始数量,以用于将目标向量x分成初始数量Np_init个分段;
-基于向量比特预算和Np_init,确定平均每分段比特数量BAVG;以及
-基于BMAX和BAVG之差,确定将在增益形状向量编码中使用的划分的最终数量。
实施例16:根据实施例15所述的媒体编码器,所述媒体编码器被配置为:为了确定划分的最终数量:
当BMAX和BAVG之差小于阈值时:
-针对目标向量x,相比于初始数量增加用于增益形状向量编码的划分的数量。
实施例17:根据实施例16所述的媒体编码器,其中,所述阈值取决于目标向量分段上的能量变化。
实施例18:根据实施例16或17中任一项所述的媒体编码器,其中,所述阈值取决于:目标向量分段能量与针对目标向量x的平均每分段能量值EAVG的最大偏差。
实施例19:根据实施例16-18中任一项所述的媒体编码器,所述媒体编码器还被配置为:
-向媒体解码器指示划分的数量的增加。
实施例20:根据实施例15-18中任一项所述的媒体编码器,所述媒体编码器还被配置为:
-向媒体解码器指示划分的最终数量。
实施例21:根据实施例15-20中任一项所述的媒体编码器,所述媒体编码器还被配置为:只有在满足至少一个附加条件时,才确定BAVG并且基于BMAX和BAVG之差确定划分的最终数量。
实施例22:根据实施例15-21中任一项所述的媒体编码器,所述媒体编码器还被配置为:当向量比特预算高于针对附加划分的阈值时,确定BAVG和并且基于BMAX和BAVG之差确定划分的最终数量。
实施例23:根据实施例15-22中任一项所述的媒体编码器,所述媒体编码器还被配置为:当划分的初始数量低于阈值时,确定BAVG并且基于BMAX和BAVG之差确定划分的最终数量。
实施例24:一种能够操作以执行增益形状向量解码的媒体解码器,其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述媒体解码器被配置为:
-针对将被重构的向量xq,确定划分的初始数量;
-从媒体编码器接收对是否针对向量xq应用了增加数量的划分的指示;以及
-基于所接收的指示,确定用于向量xq的解码的划分的最终数量。
实施例25:根据实施例24所述的媒体解码器,所述媒体解码器还被配置为:
-基于划分的最终数量,对向量xq进行解码。
实施例26:一种无线设备,包括根据实施例15-23中任一项所述的媒体编码器。
实施例27:一种无线设备,包括根据实施例24-25中任一项所述的媒体解码器。
实施例28:一种计算机程序,包括指令,所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据实施例1-14中任一项所述的方法。
实施例29:一种包含根据前述实施例所述的计算机程序的载体,其中,所述载体是电信号、光信号、无线电信号或计算机可读存储介质之一。
缩写
Np分段数量
E分段能量的对数
EAVG目标向量的分段上的平均分段能量
BMAX每分段的最大允许比特
BAVG平均每分段比特
BSAMPLE每样本的比特
BBAND为给定频带分配的比特
BW带宽
x目标向量
r形状向量(还称为残差)
G用于缩放目标向量的增益(标量或矢量)
i分段索引
k样本索引
Claims (30)
1.一种用于支持由媒体编码器执行的划分的增益形状向量编码的方法,其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述方法包括:
针对目标向量x:
-确定(101、201)针对所述目标向量x的分段的初始数量Np_init;
-基于向量比特预算和Np_init,确定(102、202)平均每分段比特数量BAVG;以及
-基于Np_init个分段的能量以及BMAX和BAVG之差,确定(103)将在所述增益形状向量编码中使用的分段的最终数量,
从而使得能够在所述目标向量上高效地分配比特预算的比特。
2.根据权利要求1所述的方法,其中,确定分段的最终数量包括:
-当所述Np_init个分段的能量与BMAX和BAVG之差之间的关系满足标准时,针对所述目标向量x,相比于所述初始数量增加(204)分段的数量。
3.根据权利要求1或2所述的方法,其中,确定分段的最终数量包括:
-当目标向量分段能量与针对所述目标向量x的平均每分段能量值EAVG的最大偏差大于基于BMAX和BAVG之差的阈值时,针对所述目标向量x,相比于所述初始数量增加(204)分段的数量。
4.根据权利要求2至4中任一项所述的方法,还包括:
-向媒体解码器指示(205)分段的数量的增加。
5.根据权利要求1至4中任一项所述的方法,还包括:
-向媒体解码器指示(104、205)分段的最终数量。
6.根据前述权利要求中任一项所述的方法,其中,只有在满足至少一个附加条件时才执行对BAVG的确定(202)和对分段的最终数量的确定(203)。
7.根据前述权利要求中任一项所述的方法,其中,当所述向量比特预算高于针对附加划分的阈值时和/或当每样本比特率高于给定界限时,执行对BAVG的确定(102)和对分段的最终数量的确定(103)。
8.根据前述权利要求中任一项所述的方法,其中,当分段的初始数量低于阈值时,执行对BAVG的确定(102)和对分段的最终数量的确定(103)。
9.一种用于支持由媒体解码器执行的划分的增益形状向量解码的方法,其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述方法包括:
-针对将被重构的向量xq,确定(501)分段的初始数量;
-从媒体编码器接收(502)对是否针对所述向量xq应用了增加数量的分段的指示;以及
-基于所接收的指示,确定(503)用于所述向量xq的解码的分段的最终数量。
10.根据权利要求9所述的方法,还包括:
-基于分段的最终数量,对所述向量xq进行解码(504)。
11.根据权利要求9或10所述的方法,其中,只有在满足一个或多个附加条件时,才执行对所述指示的接收(502)。
12.根据权利要求11所述的方法,其中,附加条件是向量比特预算高于针对附加划分的阈值。
13.根据权利要求11或12所述的方法,其中,附加条件是划分的初始数量低于阈值,和/或每样本比特率高于给定界限。
14.一种能够操作以执行划分的增益形状向量编码的媒体编码器(1200),其中,对每个向量分段的编码受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述媒体编码器被配置为:
针对目标向量x:
-确定针对所述目标向量x的分段的初始数量Np_init;
-基于向量比特预算和Np_init,确定平均每分段比特数量BAVG;以及
-基于Np_init个分段的能量以及BMAX和BAVG之差,确定将在所述增益形状向量编码中使用的分段的最终数量,
从而使得能够在所述目标向量上高效地分配比特预算的比特。
15.根据权利要求14所述的媒体编码器,所述媒体编码器被配置为:为了确定分段的最终数量:
当所述Np_init个分段的能量与BMAx和BAVG之差之间的关系满足标准时:
-针对所述目标向量x,相比于所述初始数量增加用于增益形状向量编码的分段的数量。
16.根据权利要求14或15所述的媒体编码器,所述媒体编码器被配置为:为了确定分段的最终数量:
-当目标向量分段能量与针对所述目标向量x的平均每分段能量值EAVG的最大偏差大于基于BMAX和BAVG之差的阈值时,针对所述目标向量x,相比于所述初始数量增加(204)分段的数量。
17.根据权利要求15至16中任一项所述的媒体编码器,所述媒体编码器还被配置为:
-向媒体解码器指示分段的数量的增加。
18.根据权利要求14至17中任一项所述的媒体编码器,所述媒体编码器还被配置为:
-向媒体解码器指示分段的最终数量。
19.根据权利要求14至18中任一项所述的媒体编码器,所述媒体编码器还被配置为:只有在满足至少一个附加条件时才确定BAVG和分段的最终数量。
20.根据权利要求14至19中任一项所述的媒体编码器,所述媒体编码器还被配置为:当所述向量比特预算高于针对附加划分的阈值时和/或当每样本比特率高于给定界限时,确定BAVG和分段的最终数量。
21.根据权利要求14至20中任一项所述的媒体编码器,所述媒体编码器还被配置为:当分段的初始数量低于阈值时,确定BAVG和分段的最终数量。
22.一种能够操作以执行增益形状向量解码的媒体解码器(1300),其中,增益形状向量x的每个向量分段的表示受到与允许用于对向量分段进行编码的最大比特数量BMAX相关的限制,所述媒体解码器被配置为:
-针对将被重构的向量xq,确定分段的初始数量Np_init;
-从媒体编码器接收对是否针对所述向量xq应用了增加数量的分段的指示;以及
-基于所接收的指示,确定用于所述向量xq的解码的分段的最终数量。
23.根据权利要求22所述的媒体解码器,所述媒体解码器还被配置为:
-基于分段的最终数量,对所述向量xq进行解码。
24.根据权利要求22或23所述的媒体解码器,所述媒体解码器还被配置为:只有在满足一个或多个附加条件时,才接收所述指示。
25.根据权利要求24所述的媒体解码器,其中,附加条件是所述向量比特预算高于针对附加划分的阈值。
26.根据权利要求24或25所述的媒体解码器,其中,附加条件是划分的初始数量低于阈值,和/或每样本比特率高于给定界限。
27.一种无线设备,包括根据权利要求14至21中任一项所述的媒体编码器。
28.一种无线设备,包括根据权利要求22至26中任一项所述的媒体解码器。
29.一种计算机程序(1205、1305),包括指令,所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据权利要求1至13中任一项所述的方法。
30.一种包含根据前述权利要求所述的计算机程序的载体,其中,所述载体是电信号、光信号、无线电信号或计算机可读存储介质之一。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003152.6A CN110649925B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
CN201911003154.5A CN110708075B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361903024P | 2013-11-12 | 2013-11-12 | |
US61/903,024 | 2013-11-12 | ||
PCT/SE2014/051339 WO2015072914A1 (en) | 2013-11-12 | 2014-11-11 | Split gain shape vector coding |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003154.5A Division CN110708075B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
CN201911003152.6A Division CN110649925B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105706369A true CN105706369A (zh) | 2016-06-22 |
CN105706369B CN105706369B (zh) | 2019-11-19 |
Family
ID=52001045
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003152.6A Active CN110649925B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
CN201480061092.2A Active CN105706369B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
CN201911003154.5A Active CN110708075B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003152.6A Active CN110649925B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003154.5A Active CN110708075B (zh) | 2013-11-12 | 2014-11-11 | 划分的增益形状向量编码 |
Country Status (12)
Country | Link |
---|---|
US (3) | US9385750B2 (zh) |
EP (3) | EP3624347B1 (zh) |
CN (3) | CN110649925B (zh) |
AR (2) | AR099351A1 (zh) |
BR (1) | BR112016009785B1 (zh) |
DK (2) | DK3624347T3 (zh) |
ES (2) | ES2773958T3 (zh) |
MX (3) | MX352106B (zh) |
PL (1) | PL3069449T3 (zh) |
PT (2) | PT3624347T (zh) |
TW (3) | TWI708501B (zh) |
WO (1) | WO2015072914A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061907A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TR201911121T4 (tr) * | 2012-03-29 | 2019-08-21 | Ericsson Telefon Ab L M | Vektör niceleyici. |
EP3624347B1 (en) * | 2013-11-12 | 2021-07-21 | Telefonaktiebolaget LM Ericsson (publ) | Split gain shape vector coding |
JP6170575B2 (ja) | 2014-07-28 | 2017-07-26 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | ピラミッドベクトル量子化器形状サーチ |
US10559315B2 (en) | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
US10762910B2 (en) | 2018-06-01 | 2020-09-01 | Qualcomm Incorporated | Hierarchical fine quantization for audio coding |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1632861A (zh) * | 2004-12-31 | 2005-06-29 | 苏州大学 | 一种低比特率语音编码器 |
CN103052984A (zh) * | 2010-07-30 | 2013-04-17 | 高通股份有限公司 | 用于动态位分配的系统、方法、设备和计算机可读媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310598B1 (en) * | 2002-04-12 | 2007-12-18 | University Of Central Florida Research Foundation, Inc. | Energy based split vector quantizer employing signal representation in multiple transform domains |
US7343291B2 (en) * | 2003-07-18 | 2008-03-11 | Microsoft Corporation | Multi-pass variable bitrate media encoding |
KR101768207B1 (ko) * | 2010-01-19 | 2017-08-16 | 삼성전자주식회사 | 축소된 예측 움직임 벡터의 후보들에 기초해 움직임 벡터를 부호화, 복호화하는 방법 및 장치 |
US9009036B2 (en) * | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
PL2908313T3 (pl) * | 2011-04-15 | 2019-11-29 | Ericsson Telefon Ab L M | Adaptacyjny podział współczynnika kształt - wzmocnienie |
US20130132100A1 (en) * | 2011-10-28 | 2013-05-23 | Electronics And Telecommunications Research Institute | Apparatus and method for codec signal in a communication system |
US9860604B2 (en) * | 2011-11-23 | 2018-01-02 | Oath Inc. | Systems and methods for internet video delivery |
JP2013131918A (ja) * | 2011-12-21 | 2013-07-04 | Jvc Kenwood Corp | 動画像復号装置、動画像復号方法及び動画像復号プログラム |
EP3624347B1 (en) * | 2013-11-12 | 2021-07-21 | Telefonaktiebolaget LM Ericsson (publ) | Split gain shape vector coding |
-
2014
- 2014-11-11 EP EP19186188.9A patent/EP3624347B1/en active Active
- 2014-11-11 EP EP21185475.7A patent/EP3913808A1/en active Pending
- 2014-11-11 DK DK19186188.9T patent/DK3624347T3/da active
- 2014-11-11 CN CN201911003152.6A patent/CN110649925B/zh active Active
- 2014-11-11 MX MX2016005806A patent/MX352106B/es active IP Right Grant
- 2014-11-11 DK DK14805698.9T patent/DK3069449T3/da active
- 2014-11-11 PT PT191861889T patent/PT3624347T/pt unknown
- 2014-11-11 CN CN201480061092.2A patent/CN105706369B/zh active Active
- 2014-11-11 CN CN201911003154.5A patent/CN110708075B/zh active Active
- 2014-11-11 WO PCT/SE2014/051339 patent/WO2015072914A1/en active Application Filing
- 2014-11-11 ES ES14805698T patent/ES2773958T3/es active Active
- 2014-11-11 EP EP14805698.9A patent/EP3069449B1/en active Active
- 2014-11-11 MX MX2017013371A patent/MX365684B/es unknown
- 2014-11-11 BR BR112016009785-8A patent/BR112016009785B1/pt active IP Right Grant
- 2014-11-11 PT PT148056989T patent/PT3069449T/pt unknown
- 2014-11-11 US US14/440,713 patent/US9385750B2/en active Active
- 2014-11-11 PL PL14805698T patent/PL3069449T3/pl unknown
- 2014-11-11 ES ES19186188T patent/ES2891050T3/es active Active
- 2014-11-12 TW TW108125153A patent/TWI708501B/zh active
- 2014-11-12 AR ARP140104266A patent/AR099351A1/es active IP Right Grant
- 2014-11-12 TW TW109142236A patent/TWI776298B/zh active
- 2014-11-12 TW TW103139294A patent/TWI669943B/zh active
-
2016
- 2016-05-04 MX MX2019006311A patent/MX2019006311A/es unknown
- 2016-06-22 US US15/189,627 patent/US9602128B2/en active Active
-
2017
- 2017-02-07 US US15/426,483 patent/US9853659B2/en active Active
-
2018
- 2018-02-01 AR ARP180100239A patent/AR111014A2/es active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1632861A (zh) * | 2004-12-31 | 2005-06-29 | 苏州大学 | 一种低比特率语音编码器 |
CN103052984A (zh) * | 2010-07-30 | 2013-04-17 | 高通股份有限公司 | 用于动态位分配的系统、方法、设备和计算机可读媒体 |
Non-Patent Citations (1)
Title |
---|
A.M.KONDOZ: "《Digital Speech:Coding for Low Bit Rate Communication Systems》", 31 December 2005 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061907A (zh) * | 2019-12-10 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111061907B (zh) * | 2019-12-10 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105706369B (zh) | 划分的增益形状向量编码 | |
US10404984B2 (en) | Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors | |
US10553227B2 (en) | Audio coding method and apparatus | |
RU2750644C2 (ru) | Кодирование и декодирование положений спектральных пиков | |
AU2014286765B2 (en) | Signal encoding and decoding methods and devices | |
US7650277B2 (en) | System, method, and apparatus for fast quantization in perceptual audio coders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |