CN111091843B - 用于编码的矢量分段的方法和设备 - Google Patents

用于编码的矢量分段的方法和设备 Download PDF

Info

Publication number
CN111091843B
CN111091843B CN202010107055.8A CN202010107055A CN111091843B CN 111091843 B CN111091843 B CN 111091843B CN 202010107055 A CN202010107055 A CN 202010107055A CN 111091843 B CN111091843 B CN 111091843B
Authority
CN
China
Prior art keywords
input vector
segment
segments
seg
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107055.8A
Other languages
English (en)
Other versions
CN111091843A (zh
Inventor
托马斯·詹森托夫特戈德
乔纳斯·斯韦德贝里
沃洛佳·格兰恰诺夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN111091843A publication Critical patent/CN111091843A/zh
Application granted granted Critical
Publication of CN111091843B publication Critical patent/CN111091843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

呈现了一种用于对输入矢量进行分区以用于编码的方法。方法包括:获得(210)输入矢量。用非递归的方式将输入矢量分段(220)为整数NSEG个输入矢量分段。用递归的方式确定(230)在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示。提供(250)输入矢量分段和相对能量差的表示,以用于单独编码。呈现了用于对输入矢量进行分区以用于编码的分区单元和计算机程序,以及位置编码器。

Description

用于编码的矢量分段的方法和设备
本申请是PCT国际申请PCT/SE2014/051310的中国国家申请(发明名称“用于编码的矢量分段的方法和设备”,申请号No.201480059683.6,申请日2014年11月6日)的分案申请。
技术领域
所提出的技术一般涉及用于矢量分段的方法和设备,并具体涉及用于对源自音频/视频信号的输入矢量进行分区以用于编码的方法、分区单元、编码器、计算机程序、包括计算机程序的载体以及装置。
背景技术
位置编码方案(例如用于对音频信号编码)的示例是阶乘脉冲编码(FPC)和金字塔矢量量化(PVQ)。尤其对于长的输入矢量可以而言,位置编码可导致较大的码字索引,原因在于通过增加维度而快速增加的组合数。对于低复杂度的实施方式,可以使用对输入矢量进行聚类(cluster)的预处理步骤。这类预处理的另一原因可以是量化器约束。然而,传统的聚类可以导致输入矢量的不同部分具有完全不同的大小,这可能使得位置编码非常低效。因此,需要在位置编码处提供对输入矢量的改进的预处理。
发明内容
目的在于提供用于高效地对输入矢量进行分区的方法和设备。
通过所提出的技术的实施例实现该目的以及其他目的。
根据一方面,提供了一种用于对输入矢量进行分区以用于编码的方法。方法包括以下步骤:获得输入矢量。用非递归的方式将所述输入矢量分段为整数NSEG个输入矢量分段。用递归的方式确定在所述输入矢量分段之间的每个边界的每一侧处所述输入矢量的各部分之间的相应相对能量差的表示。提供所述相对能量差的表示和所述输入矢量分段,以用于单独编码。
根据第二方面,分区单元被配置为对输入矢量进行分区以用于编码。分区单元被配置为获得输入矢量。分区单元还被配置为:用非递归的方式将输入矢量分段为整数NSEG个输入矢量分段。分区单元还被配置为:用递归的方式确定在所述输入矢量分段之间的每个边界的每一侧处所述输入矢量的各部分之间的相应相对能量差的表示。分区单元还被配置为:提供所述相对能量差的表示和所述输入矢量分段,以用于单独编码。
根据第三方面,提供了一种用于位置编码的编码器,包括:被配置为接收对信号进行表示的输入矢量的输入单元、根据第一方面的分区单元、量化器以及编码信号的输出单元。
根据第四方面,一种包括指令的计算机程序,计算机程序当由至少一个处理器执行时,使至少一个处理器:获得输入矢量;用非递归的方式将所述输入矢量分段为整数NSEG个输入矢量分段;用递归的方式确定在所述输入矢量分段之间的每个边界的每一侧处所述输入矢量的各部分之间的相应相对能量差的表示;以及提供所述相对能量差的表示和所述输入矢量分段,以用于单独编码。
根据第五方面,一种包括根据第四方面的计算机程序的载体,其中载体是电信号、光信号、电磁信号、磁信号、电子信号、无线电信号、微波信号或计算机可读存储介质之一。
根据第六方面,一种用于对输入矢量进行分区以用于编码的装置包括:获得模块,用于获得输入矢量。装置还包括:分区模块,用于用非递归的方式将输入所述矢量分段为整数NSEG个输入矢量分段。装置还包括:递归确定模块,用于用递归的方式确定在所述输入矢量分段之间的每个边界的每一侧处所述输入矢量的各部分之间的相应相对能量差的表示。装置还包括:提供模块,用于提供所述相对能量差的表示和所述输入矢量分段,以用于单独编码。
所提出技术的优势在于对输入矢量分段以进行高效编码,特别是进行位置编码,而与不同大小和能量内容(energy content)无关。
当阅读以下详细说明时将会理解其他优点。
附图说明
通过参考以下结合附图的描述,能够最佳地理解实施例及其更多的目的和优点,其中:
图1A-图1B是对位置编码的输入矢量进行分区的示出;
图2是用于对源自音频/视频信号的输入矢量进行分区以用于编码的方法的实施例的步骤流程图;
图3-图6是用于对输入矢量的各部分之间的相应相对能量差的表示进行确定的递归过程的说明;
图7是递归地确定输入矢量的各部分之间的相应相对能量差的表示的步骤的实施例的步骤流程图;
图8是分区单元的实施例的框图;
图9是分区单元的另一实施例的框图;
图10是位置编码器的实施例的框图;
图11是位置编码器的另一实施例的框图;以及
图12是分区单元的实施例的框图。
具体实施方式
贯穿附图,相同的附图标记用于相似或对应的元素。
为了更好地理解所提出的技术,用矢量分割的一些方面的简要综述来开始可能是有帮助的。
作为示例,如图1A和图1B中所示,考虑用两种方式分割16-维输入矢量:
A)对称(8+8),以及
B)非对称(2+14)。
在该两种情况下,我们在每个分段均具有2个要编码的脉冲。
假设不存在重叠,即脉冲不能占用相同位置,并且不存在要发送的符号,将要编码并发送的等级数计算为n!/k!(n-k)!,其中n是分段的维度并且k是脉冲的数量:
A)28+28=56个等级
B)1+91=92个等级
在允许脉冲占用相同位置并且也必须对脉冲的符号进行编码的情况下:
A)128+128=256个等级
B)8+392=400个等级
在该两种情况下显然更对称的分段是更高效的。以下描述的所提出的技术因此旨在创建具有基本上相等大小的分段,以促进高效编码(优选地,位置编码)。
与输入矢量的均匀分割相关联的问题在于:不同部分之间的能量变化可能很大,这将导致不稳定的增益量化。本文描述的所提出的技术因此还旨在确定用于表示分段之间的相对能量差的能量比。
所提出技术的实施例涉及将输入矢量非递归地均匀分割为分段,并且包括针对特定等级的最大可能维度的能量比的递归计算。
用于编码所创建分段的比特可以基于能量并且可选地还基于分段的长度来分布。
图2示出了对输入矢量进行分区以用于编码(优选地,位置编码)的方法的实施例的步骤流程图。优选地,输入矢量源自音频信号,但是这里所提出的想法还适用于例如视频信号。在步骤200中,该过程开始。在步骤210中,获得输入矢量。在步骤220中,将输入矢量分段为整数个输入矢量分段。优选地,该整数是通过其每个输入矢量分段满足与用于编码(优选地,位置编码)的量化器相关联的约束的最小整数。这种与量化器相关联的约束通常包括量化器的实际比特约束。然而,与量化器相关联的约束还可以包括:当将所述输入矢量分段为若干输入矢量分段时,对用于表示相对能量差的有效比特率成本的调整。换言之,确定输入矢量分段的数量,优选地输入矢量分段的最小数量,其中每个单独的输入矢量分段足够小以通过编码(优选地,位置编码)来处理。输入矢量的该整数被表示为NSEG。用非递归的方式执行该分段。在步骤230中,确定在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示。这在另一方面用递归的方式来执行。
在具体实施例中,用于对所创建分段进行编码的比特可以基于能量并且可选地还可以基于分段的长度来分布。在这种实施例中,并且因此由虚线框所示出,方法可以包括另一步骤240:分配用于对每个输入矢量分段进行编码和对等级分段之间的相对能量差的表示进行编码的比特。
根据主实施例,在步骤250中,提供输入矢量分段以及能量比的表示,以用于单独编码(优选地,位置编码)。在步骤299中该过程结束。
用更数学化的方式来表示,可以如下描述分段的实施例。设输入矢量的长度是L,用于对该矢量进行量化的总比特预算是BTOT,以及量化器约束(例如每量化器/分段的最大允许比特是QMAX),则分段数可以被计算为:
Figure BDA0002388286270000051
如果
Figure BDA0002388286270000052
是向上取整函数,量NSEG表示仍可以由该目标量化器处理的输入矢量分段的最小数量。换言之,NSEG是输入矢量分段的最小可能整数,通过其每个输入矢量分段满足用于该编码(优选地,位置编码)的量化器的约束。在具体实施例中,当将输入矢量分割为若干输入矢量分段时,量化器约束可以基于量QMAX和对用于表示相对能量差的有效比特成本进行反映的调整项。
分段的长度可以被获得为:
Figure BDA0002388286270000053
如果输入矢量不能被划分为均等的输入矢量分段,则:
Figure BDA0002388286270000054
其中
Figure BDA0002388286270000055
是向下取整函数。
剩余系数L-LSEGNSEG可以用若干方式分布到分段中,例如全部包括在最后一个段中,或顺次地分布至每个段直至不存在剩余系数。因此优选保持绝大多数分段具有几乎相同的大小。换言之,至少NSEG-1个输入矢量分段具有差别小于1的相应长度。在一个具体实施例中,所有剩余系数包括在最后一个分段中,即前NSEG-1个输入矢量分段具有相同长度。在另一特定实施例中,剩余系数顺次分布到每个分段,直至不再存在剩余系数为止。不同的输入矢量分段将因此在长度上相差最多一个单位。换言之,所有输入矢量分段具有差别不大于1的长度。
在一个实施例中,在对输入矢量进行分段之后,对每个分段的形状矢量进行量化。排除增益,例如假设均方根值为1。描述分段之间的相对能量差的能量比被确定、量化并用于缩放被量化的形状矢量,例如保留输入矢量的形状。从较低分辨率到较高分辨率并用最对称的方式来递归地计算能量比。将结合图3-图6通过示例描述这一点。
在该示例中,分段的特征在于:其用于表示分段的比特数
Figure BDA0002388286270000061
在图3-6中这些比特数还用于表示分段本身。分段
Figure BDA0002388286270000062
因此应当被理解为由
Figure BDA0002388286270000063
个比特编码的分段。类似地,相对能量差的表示的特征在于用于对该差编码的比特,例如
Figure BDA0002388286270000064
在图3中,示出了将输入矢量确定分区为两个分段的情况。等级0(L0)的输入矢量被分割为等级1(L1)的两个分段
Figure BDA0002388286270000065
Figure BDA0002388286270000066
在那些分段之间的一个等级上提供能量比R0的不重要的情况和相对能量差的表示
Figure BDA0002388286270000067
在图4中,示出了将输入矢量确定分割为三个分段的情况。在两个等级上提供能量比,第一分段由于奇数个分段而不对称。更具体地,等级0(L0)的输入矢量被分割为等级1(L1)的两个分段
Figure BDA0002388286270000068
Figure BDA0002388286270000069
这里,分段
Figure BDA00023882862700000610
(或要由
Figure BDA00023882862700000611
个比特编码的分段)包括输入矢量所分区成的分段中的两个分段,而分段
Figure BDA00023882862700000612
包括该输入矢量分段中的一个分段。在那些分段
Figure BDA00023882862700000613
Figure BDA00023882862700000614
之间的等级L1上提供能量比R0和相对能量差的表示
Figure BDA00023882862700000615
分段
Figure BDA00023882862700000616
被顺次地处理为具有等级L1的新的较高等级输入矢量,并进而被分割为具有等级2(L2)的两个分段
Figure BDA00023882862700000617
Figure BDA00023882862700000618
现在,分段
Figure BDA00023882862700000619
Figure BDA00023882862700000620
包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000621
Figure BDA00023882862700000622
之间的等级L2上提供能量比R01和相对能量差的表示
Figure BDA00023882862700000623
在图5中,示出了将输入矢量确定为分割为四个分段的情况。这里能量比在两个等级上对称。更具体地,等级0(L0)的输入矢量被分割为等级1(L1)的两个分段
Figure BDA00023882862700000624
Figure BDA00023882862700000625
这里分段
Figure BDA00023882862700000626
Figure BDA00023882862700000627
包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000628
Figure BDA00023882862700000629
之间的等级L1上提供能量比R0和相对能量差的表示
Figure BDA00023882862700000630
分段
Figure BDA00023882862700000631
被顺次地处理为具有等级L1的新的较高等级输入矢量,并进而被分割为具有等级2(L2)的两个分段
Figure BDA00023882862700000632
Figure BDA0002388286270000071
这里分段
Figure BDA0002388286270000072
Figure BDA0002388286270000073
包括相等数量的输入矢量分段。在那些分段
Figure BDA0002388286270000074
Figure BDA0002388286270000075
之间的等级L2上提供能量比R00和相对能量差的表示
Figure BDA0002388286270000076
分段
Figure BDA0002388286270000077
还被顺次地处理为具有等级L1的新的较高等级输入矢量,并进而被分割为具有等级2(L2)两个分段
Figure BDA0002388286270000078
Figure BDA0002388286270000079
现在,分段
Figure BDA00023882862700000710
Figure BDA00023882862700000711
包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000712
Figure BDA00023882862700000713
之间的等级L2上提供能量比R01和相对能量差的表示
Figure BDA00023882862700000714
在图6中,示出了将输入矢量确定为分割为五个分段的情况。这里在三个等级上计算能量比。更具体地,等级0(L0)的输入矢量被分割为等级1(L1)的两个分段
Figure BDA00023882862700000715
Figure BDA00023882862700000716
这里分段
Figure BDA00023882862700000717
Figure BDA00023882862700000718
不包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000719
Figure BDA00023882862700000720
之间的等级L1上提供能量比R0和相对能量差的表示
Figure BDA00023882862700000721
分段
Figure BDA00023882862700000722
被顺次地处理为具有等级L1的新的较高等级输入矢量,并进而被分割为具有等级2(L2)的两个分段
Figure BDA00023882862700000723
Figure BDA00023882862700000724
这里分段
Figure BDA00023882862700000725
Figure BDA00023882862700000726
包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000727
Figure BDA00023882862700000728
之间的等级L2上提供能量比R00和相对能量差的表示
Figure BDA00023882862700000729
分段
Figure BDA00023882862700000730
还被顺次地处理为具有等级L1的新的较高等级输入矢量,并进而被分割为具有等级2(L2)两个分段
Figure BDA00023882862700000731
Figure BDA00023882862700000732
分段
Figure BDA00023882862700000733
Figure BDA00023882862700000734
不包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000735
Figure BDA00023882862700000736
之间的等级L2上提供能量比R01和相对能量差的表示
Figure BDA00023882862700000737
这里分段
Figure BDA00023882862700000738
包括多于一个最终段,并且因此导致另一等级的能量比计算。因此,将分段
Figure BDA00023882862700000739
处理为具有等级L2的新的较高等级输入矢量,并进而被分割为具有等级3(L3)的两个分段
Figure BDA00023882862700000740
Figure BDA00023882862700000741
这里分段
Figure BDA00023882862700000742
Figure BDA00023882862700000743
包括相等数量的输入矢量分段。在那些分段
Figure BDA00023882862700000744
Figure BDA00023882862700000745
之间的等级L3上提供能量比R011和相对能量差的表示
Figure BDA00023882862700000746
现在,划分了所有分段。
根据以上一系列附图,可以看出将输入矢量设置为最初处于等级L0的较高等级的输入矢量。然后,为了将输入矢量划分为两部分,要找到输入矢量分段之间的中心边界。因此在找到的中心边界处将较高等级输入矢量划分为两个“等级分段”,或较低等级的输入矢量。如果输入矢量可被分割为两个等大的部分,则可以在中心处找到边界。如果输入矢量必须被分割为两个不等大的部分(例如由非偶数分段或具有不同尺寸的分段所导致),则优选地选择距离较高等级输入矢量的中心的第一侧最近的边界。在图3-图6的实施例中,选择左侧边界。换言之,如果较高等级输入矢量必须被划分为不等大小的较低等级输入矢量,则中心边界被选作距离较高等级输入矢量的中心最近的边界,该较高等级输入矢量给出比第一个(左)较低等级输入矢量更大的最后一个(右)较低等级输入矢量。
计算该两个较低等级输入矢量之间的相对能量差的表示。如果该两个较低等级输入矢量中的至少一个包括多于一个矢量分段,则重复该过程,但是现在包括多于一个输入矢量分段的较低等级输入矢量被用作较高等级输入矢量。整个过程继续,直至输入矢量分段之间的全部边界在某一等级处具备相对能量差的相关联表示。
注意在第一阶段中非递归地执行分段的划分。在第二阶段中,用递归的方式确定能量差。
图7示出了用于递归地确定输入矢量分段之间的能量差的表示的步骤230的实施例的子步骤的流程图。流程图从图2的步骤220开始。在步骤231中,将输入矢量分段设置为较高等级输入矢量。在步骤232中,找到中心边界。中心边界是输入矢量分段之间的边界,该边界位于较高等级输入矢量的中心处或距离较高等级输入矢量的中心的第一侧最近。在步骤233中,较高等级输入矢量在中心边界处被划分为两个较低等级输入矢量。在步骤234中,计算该两个较低等级输入矢量之间的相对能量差的表示。在步骤235中,确定是否所有较低等级输入矢量由单个分段组成。当输入矢量之间的所有边界具备相对能量差的相关联表示时,所有较低能量输入矢量由单个分段组成。如果存在包括多于一个分段的剩余较低等级输入矢量,则流程继续至步骤236,其中,该较低等级输入矢量被重置为新的较高等级输入矢量。然后该过程从步骤232继续,如果需要则重复找到、划分和计算。针对包括一个分段(即根本不涵盖任何边界)的任意较高等级输入矢量不执行步骤232、233和234。
如果在步骤235中,得出所有较低等级输入矢量由单个输入矢量分段组成的结论,则流程继续至步骤250或240。
根据以上的进一步讨论,针对每个分段的平均比特数将是:
BSEG=BTOT/NSEG
在特定实施例中,上述计算的每分段平均比特只是一个初始的估计,其可以在计算相邻分段之间的能量比之后重新调整。用于对所创建分段进行编码的比特可以基于能量以及基于分段的长度来分布。可以从具有较低能量的分段向具有较高能量的分段传送比特。同时,不影响尺寸LSEG和分段边界。这例如在图2中的步骤240示出,其示出了用于对每个输入矢量分段进行编码以及对分段(输入矢量分段和等级分段二者)之间的相对能量差的表示进行编码的比特的一般分配。
如图7中所示,作为分级结构中的递归过程,还可以包括步骤240,步骤240分配用于对每个输入矢量分段进行编码以及对等级分段之间的相对能量差的表示进行编码的比特。换言之,可以与用递归的方式确定相应相对能量差的表示的同时执行比特的分配。参照图7所示的实施例,可以看出分配用于对每个输入矢量分段进行编码以及对等级分段之间的相对能量差的表示进行编码的比特的步骤可以结合相对能量差表示的计算来执行。
分级能量比编码可被用于向已经确定的分段递归地分布比特。在较高等级(等级LO)中,比特的总数BTOT被划分为能量比比特BE和较低等级(等级L1)的分段比特BSEG,使得
BTOT=BE+BSEG
其中
Figure BDA0002388286270000091
其中
Figure BDA0002388286270000092
Figure BDA0002388286270000093
分别是为左等级分段和右等级分段(或者关于上述描述,等级L1中的第一个和最后一个较低等级输入矢量)分配的比特。
这针对每个等级重复,在这个意义上说,在每个等级,在较低等级输入矢量涵盖多于一个输入矢量分段的情况下,分配给第一个和最后一个较低等级输入矢量的比特被分割为用于对相对能量差的表示进行编码的比特以及对相应第一个和最后一个较低等级输入矢量进行编码的比特。
如果后续层分段(即,较低等级输入矢量)由单个聚类或分段组成,则将所指派的分段比特BSH分配给形状编码,即例如图4的第二等级,其中
Figure BDA0002388286270000094
优选地,基于这些等级分段或较低等级输入矢量之间的能量比,向第一等级分段(即,(由来自输入矢量的聚类的一个或若干个分段组成的)较低等级输入矢量)分发等级分段比特BSEG。通常,分配比特的步骤根据较低等级输入矢量的系数数量之间的比值和较低等级输入矢量中的能量之间的关系来分配用于较低等级输入矢量的比特。等级分段之间的每系数比特差异
Figure BDA0002388286270000101
是:
Figure BDA0002388286270000102
针对每log2能量差具有半个比特,是:
Figure BDA0002388286270000103
其中E0和E1分别是左等级分段和右等级分段(即,第一个和最后一个较低等级输入矢量)的能量。可以从角度α方面将能量比R0等价地表达为:
R0=tan2α,
其中
Figure BDA0002388286270000104
这意味着用于每个等级分段的比特数为:
Figure BDA0002388286270000105
Figure BDA0002388286270000106
根据输入矢量长度L和聚类(分段)的数量NSEG,聚类可能不等大。这还导致一些较低等级输入矢量具有不同的大小。此外,如果聚类或分段的数量与2n不同,则一些较低等级输入矢量将具有不同大小。输入矢量分段的不同大小还将由于编码(例如,位置编码)而对较大的频带中的形状编码具有不利影响。为了对不同大小的频带进行补偿,可以补偿每系数比特差异,参照等式(1),使得:
Figure BDA0002388286270000111
其中补偿因子fi可以例如是聚类长度
Figure BDA0002388286270000112
的函数
Figure BDA0002388286270000113
其中j是聚类索引(0,...,NSEG-1),分段NSEG数和分段比特BSEG。换言之,补偿因子可以取决于输入矢量分段的长度、该两个较低等级输入矢量内的输入矢量分段的数量以及为该两个较低等级输入矢量分配的比特。组合等式(2)和(3)给出了以下关系:
Figure BDA0002388286270000114
Figure BDA0002388286270000115
其中BSEG是排除所分配的用于对较低等级输入矢量之间的相对能量差的表示进行编码的比特以外的为该两个较低等级输入矢量分配的比特的和,
Figure BDA0002388286270000116
是为第一个较低等级输入矢量分配的比特,
Figure BDA0002388286270000117
Figure BDA0002388286270000118
分别是第一个和最后一个较低等级输入矢量的长度,R0表示较低等级输入矢量中的能量之间的比值,并且f0和f1分别是用于第一个和最后一个较低等级输入矢量内输入矢量分段的不同长度的补偿因子。定义补偿因子f0和f1,使得它们分别针对第一个和最后一个较低等级分段内的输入矢量分段的相等长度变为零。
在一个实施例中,用脉冲量化器(例如PVQ)对形状进行量化。补偿因子基于每个分段的平均比特以及分段长度与最小分段长度之间的差异。换言之,补偿因子分别取决于第一个和最后一个较低等级输入矢量内每输入矢量分段的至少平均比特、分别取决于第一个和最后一个较低等级输入矢量内的输入矢量分段长度,以及最小输入矢量分段长度。
这可以表示为:
Figure BDA0002388286270000119
其中BSEG是针对两个较低等级输入矢量分配的和,并且NSEG是两个较低等级输入矢量内矢量分段的总数。
定义函数F(·),使得当聚类具有长度LMIN时,它变为零。这意味着fi在相应等级分段中的全部聚类具有长度LMIN时变为零。
在该实施例中,当将聚类中的剩余系数(即,输入矢量L-LSEGNSEG的分区,其中NSEG标识矢量分段的总数)仅给予最后一个聚类时,补偿因子f0由于全部聚类j具有长度LMIN而变为零。附加地,由于除表示为
Figure BDA0002388286270000121
的最后一个聚类以外的所有聚类具有长度LMIN,因子f1变为:
Figure BDA0002388286270000122
函数F(·)在该实施例中被定义为:
Figure BDA0002388286270000123
其中函数G1(·)给出了给定矢量长度
Figure BDA0002388286270000124
的单位脉冲数,可以使用
Figure BDA0002388286270000125
比特表示。函数G2(·)给出了用于表示确定脉冲数的函数G1(·)的比特数,但是用于较低维度LMIN
在低复杂度实施方式中,可以通过使用近似或子采样查找表来降低G1(·)和G2(·)的复杂度。
在另一实施例中,补偿因子还至少取决于:分别在第一个和最后一个较低等级输入矢量内的每输入矢量分段平均比特、输入矢量分段长度和最小输入矢量分段长度。
Figure BDA0002388286270000126
其中BSEG是针对两个较低等级输入矢量分配的和,并且NSEG是两个较低等级输入矢量内矢量分段的总数。
由于能量比的分级结构,亲代能量比可被用于控制使用来对子代能量比进行编码的比特BE。在亲代能量比指示当前分段的低能量时,可以减小或限制BE,并且可以将所节省的比特重新分布给使用BSH个比特的形状矢量编码。
此外,如果位置矢量量化器(例如,复杂性优化PVQ脉冲矢量量化器实施方式)是可变速率量化器,可以包含由可变速率量化器针对每个分段偶尔节省或花费的(超出的)比特,并使用其来更新剩余分段(包括其补偿因子)。
因此,在较大矢量的编码(优选地,位置编码)或高比特率编码(例如高比特率位置编码)时,可以对输入矢量进行预处理,包括在实际量化之前进行分区(即,聚类或分段)。本文所描述的实施例的优点在于:实施例提供了针对位置量化器用最佳方式对输入矢量进行分区的轻量级解决方案。实施例还通过对所分配的比特进行调整来补偿当最佳分区不可行时的情况。
所提出的技术提供了一种分区单元,被配置为对输入矢量进行分区以用于编码(优选地位置编码),其中分区单元被配置为获得输入矢量。优选地,分区单元倾向用于音频信号。然而,本文所呈现的思想也适用于例如视频信号。分区单元还被配置为:用非递归的方式将输入矢量分段为整数NSEG个输入矢量分段。分区单元被配置为:用递归的方式确定在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示。分区单元还被配置为:提供输入矢量分段和相对能量差的表示,以用于单独编码(优选地,位置编码)。
将理解的是,本文所描述的方法和设备可以用各种方式组合和重新布置。
例如,实施例可以用硬件,或用由合适的处理电路执行的软件,或其组合来实现。
本文所述的步骤、功能、过程、模块和/或框可以使用任何常规技术实现在硬件中,例如分立式电路或集成电路技术,包括通用电子电路和专用电路二者。
特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路,例如用于专用特别功能的互连的分立逻辑门、或者应用专用集成电路(ASIC)。图8示出分区单元20的一个实施例。通过输入部21获得长度为L的输入矢量。分区单元20被配置成提供输入矢量分段以及根据这里以上描述的能量比的表示。通过输出部29提供输入矢量分段以及在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示,以用于单独编码,优选地单独位置编码。
备选地,上述步骤、功能、过程、模块和/或框的至少一部分可以实现在软件中,由例如一个或多个处理单元的合适处理电路来执行的计算机程序。
因此,当由一个或多个处理器执行时,本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的装置可定义为一组功能模块,其中由处理器执行的每个步骤对应于功能模块。在这种情况下,功能模块实现为在处理器上运行的计算机程序。
具体地,如图9中所示,分区单元20可以包括处理器60和存储器70。存储器70包括可以由处理器60执行的指令,借此处理器60可用于:获得输入矢量;用非递归的方式将输入矢量分段为整数NSEG个输入矢量分段;用递归的方式确定在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示;以及提供输入矢量分段和相对能量差的表示,以用于单独编码(优选地,单独位置编码)。
处理电路的示例包括但不限于,一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)、视频加速硬件、和/或任意合适的可编程逻辑电路,例如一个或多个现场可编程门阵列(FPGA)或一个或多个可编程逻辑控制器(PLC)。
也应当理解,可以重用其中实现了所提出的技术的任意传统设备或单元的通用处理能力。还可以例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有的软件。
在图9特定示例中,用计算机程序上述步骤、功能、过程、模块和/或框的至少一些实现,计算机程序加载到存储器中用于由包括一个或更多个处理器的处理电路执行。处理器和存储器彼此互联,以支持常规软件执行。可选的输入/输出设备还可以与处理器和/或存储器互连,以实现相关数据(例如,输入参数和/或得到的输出参数)的输入和/或输出。
术语“处理器”应当在一般意义上解释为能够执行程序代码或计算机程序指令以执行特定处理、确定或计算任务的任意系统、设备或装置。
因此,包括一个或多个处理器的处理电路被配置为:在运行所述计算机程序时执行例如本文描述的那些明确定义的处理任务。
计算机/处理器不是必须专用于仅执行上述步骤、功能、过程和/或块,而是还可以执行其他的软件任务。
在具体实施例中,输入矢量分段具有相同长度,或具有差别不大于NSEG-1的相应长度。
在具体实施例中,前NSEG-1个输入矢量分段具有相同长度。
在具体实施例中,全部输入矢量分段具有差别不大于1的长度。
在具体实施例中,分区单元被配置为通过以下步骤来执行用递归的方式确定相应相对能量差的表示:将输入矢量设置为较高等级输入矢量,如果存在中心边界,则找到在较高等级输入矢量的中心的第一侧处或距离较高等级输入矢量的中心的第一侧最近的输入矢量分段之间的中心边界,如果存在中心边界,则在中心边界处将较高等级输入矢量划分为两个较低等级输入矢量,如果中心边界存在,则计算两个较低等级输入矢量之间的相对能量差的表示,以及通过将较低等级输入矢量重置为相应较高等级输入矢量来重复找到、划分和计算的步骤,直至输入矢量分段之间的全部边界具备相对能量差的相关联表示为止。
在具体实施例中,分区单元被配置为:如果较高等级输入矢量必须被划分为不等大小的较低等级输入矢量,则将所述中心边界选择为距离给出的最后一个较低等级输入矢量比第一个较低等级输入矢量大的较高等级输入矢量的中心最近的边界。
在具体实施例中,分区单元还被配置为:分配用于对每个输入矢量分段进行编码以及对分段之间的相对能量差的表示进行编码的比特。
在具体实施例中,分区单元被配置为:与用递归方式确定相应相对能量差的表示同时地执行比特分配。
在具体实施例中,分区单元还被配置为:结合计算相对能量差的表示来执行分配用于对每个输入矢量分段进行编码的比特。
在具体实施例中,分区单元被配置为:通过根据较低等级输入矢量的长度之间的比值和较低等级输入矢量中的能量之间的比值来分配用于较低等级输入矢量的比特,来执行比特的分配。
在具体实施例中,分区单元被配置为:通过根据以上呈现的等式来分配用于较低等级输入矢量的比特,来执行比特的分配。
在具体实施例中,补偿因子取决于输入矢量分段的长度、较低等级输入矢量内的输入矢量分段的数量以及针对两个较低等级输入矢量分配的比特。
在具体实施例中,补偿因子至少取决于每输入矢量分段平均比特、输入矢量分段长度和最小输入矢量分段长度。
分区单元通常构成编码器的一部分。一个实施例应用于编码器,优选地用于位置编码的编码器,如图10中所示。
因此,图10是根据实施例的位置编码器50示意框图。该编码器包括被配置为接收长度为L的输入矢量的输入单元10、分区单元20,位置量化器30以及编码音频信号的输出单元40。优选地,编码器被配置为对音频信号进行位置编码,即输入矢量表示要编码的音频信号。然而,本文所呈现的思想也适用于例如视频信号。
可以用硬件实现具有其所包括单元的位置编码器50。存在可使用并组合以实现编码器的单元功能的各种电路元件的变型。这些变体由实施例涵盖。编码器的硬件实现的特定示例是数字信号处理器(DSP)硬件和集成电路技术中的实现,包括通用电子电路和专用电路。
备选地,如图11中所示,本文所述的位置编码器可以由例如处理器60以及因此具有合适存储装置或存储器70的适当软件中的一个或多个来实现,以根据本文中描述的实施例执行输入矢量的分区。输入(IN)10接收进入的矢量,处理器60和存储器70与输入(IN)10连接,并且从输出(OUT)输出40输出从软件得到的编码信号。
在一个实施例中,用于位置编码的编码器包括被配置为接收对信号进行表示的输入矢量的输入单元、根据以上呈现的实施例的分区单元,量化器以及编码信号的输出单元。
在具体实施例中,包括指令的计算机程序,当由至少一个处理器执行指令时,指令使至少一个处理器:获得输入矢量;用非递归的方式将输入矢量分段为整数NSEG个输入矢量分段。指令当由处理器执行时,使处理器还用递归的方式确定在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示;以及
提供输入矢量分段和相对能量差的表示,以用于单独编码(优选地,位置编码)。
所提出的技术还提供了一种包括计算机程序的载体,其中所述载体是电信号、光信号、电磁信号、磁信号、电子信号、无线电信号、微波信号或计算机可读存储介质之一。
通过示例的方式,软件或计算机程序可以实现为计算机程序产品,其通常在在计算机可读介质(具体地,非易失性介质)上承载或存储。计算机可读介质可包括一个或多个可移除或不可移除的存储设备,包括但不限于ROM、RAM、紧致盘(CD)、数字多用途盘(DVD)、通用串行总线存储器(USB)、硬盘驱动(HDD)存储设备、闪存、或者任意其他常规存储设备。因而,计算机程序可加载到计算机或等效处理设备的操作存储器中,由其处理电路来执行。计算机程序可以因此被加载到计算机或等效处理设备的操作存储器中,用于由其处理电路执行。
在具体实施例中,载体包括上述提及的计算机程序,其中所述载体是电信号、光信号、电磁信号、磁信号、电子信号、无线电信号、微波信号或计算机可读存储介质之一。
上述技术可以例如在发送器中使用,该发送器可以在移动设备(例如,移动电话、膝上型计算机)或固定设备(例如,个人计算机)中使用。所提出的技术可以应用于可以是有线或无线设备的用户终端。
如本文中所使用的,非限制性术语“用户设备”和“无线设备”可以指移动电话、蜂窝电话、配备有无线通信能力的个人数字助理PDA、智能电话、膝上型电脑或配备有内部或外部的移动宽带调制解调器的个人计算机PC,具有无线通信能力的平板PC、目标设备、设备到设备UE、机器类型的UE或支持机器到机器通信的UE、iPAD、客户住宅设备CPE、膝上型嵌入式设备LEE、膝上安装的设备LME、USB加密狗、便携式电子无线通信装置、配备有无线通信能力的传感器设备等。具体地,术语“UE”和术语“无线装置”应当理解为非限制性的,包括在蜂窝或移动通信系统中与无线电网络节点通信的任意类型无线设备,或配备有用于根据蜂窝或移动通信系统内的任意相关标准进行无线通信的无线电电路。
如本文所使用的,术语“有线设备”可以指被配置为或准备与网络有线连接的任意设备。具体地,有线设备可以是当配置为用于有线连接时具有或不具有无线电通信能力的上述装置的至少一些。
应当理解,对互动单元或模块的选择以及单元的命名仅用于示例目的,并且可通过多个备选方式来配置,从而能够执行所公开的处理动作。
因此,当由一个或多个处理器执行时,本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的装置可定义为一组功能模块,其中由处理器执行的每个步骤对应于功能模块。在这种情况下,功能模块实现为在处理器上运行的计算机程序。如上文所指出的,编码器可以备选地定义为功能模块的组,其中功能模块实现为在至少一个处理器上运行的计算机程序。
驻留在存储器中的计算机程序可以被组织为合适的功能模块,所述功能模块被配置为,当被处理器执行时,执行上述步骤和/或任务的至少一部分。图12中示出了这些功能模块的示例。
图12是示出对输入矢量进行分区以用于编码(优选地,位置编码)的装置的示例,或包括一组功能模块的分区单元30的示意框图。分区单元30包括:获得模块401,用于获得输入矢量。分区单元30包括:分区模块402,用于用非递归的方式将输入矢量分段为整数NSEG个输入矢量分段。分区单元30包括:递归确定模块403,用于用递归的方式确定在输入矢量分段之间的每个边界的每一侧处输入矢量的各部分之间的相应相对能量差的表示。分区单元30包括:提供模块405,用于提供输入矢量分段和相对能量差的表示,以用于单独编码(优选地单独位置编码)。
优选地,用于分区的装置被配置为对音频信号进行位置编码,即输入矢量表示要编码的音频信号。然而,本文所呈现的思想也适用于例如视频信号。
在具体实施例中,分区单元30还包括分配模块404,用于向输入矢量分段分配比特,并用于较低等级分段之间的相对能量差的表示。
备选地,可以主要通过硬件模块或备选地通过硬件来实现图12中的模块。软件相对于硬件的扩展只是一种实施方式的选择。
还应当注意,本公开中描述的单元或模块应被认为是逻辑实体,并且不必是分离的物理实体。可以理解,本文公开技术的范围完全覆盖对本领域技术人员来说显而易见的其他实施例,相应地,本公开的范围不限于此。
除非明确地阐述,单数形式的元件的参考不意图表示“一个且仅一个”,而是“一个或更多个”。上述优选元素实施例的元素的对于本领域的普通技术人员已知的所有结构和功能等同物明确通过引用并入本文,并旨在由本权利要求所涵盖。此外,设备或方法不是必须解决由本文所公开的技术寻求解决的每一个问题,它可以在本文中涵盖。
在前述说明中,出于描述而非限制的目的,阐述例如特定结构、接口、技术等特定细节,以提供对所公开的技术的透彻理解。
然而,本领域技术人员将显而易见,所公开技术可以在偏离这些特定细节的其他实施例或实施例的组合中实践。即,本领域技术人员将能够想出体现所公开技术的原理的各种配置,尽管并未这里明确地描述或示出。在一些实例中,省略众所周知的装置、电路和方法的详细说明,以免不必要的细节模糊所公开技术的说明。本文中列出所公开技术的原理、方面和实施例,以及其具体实例的所有陈述旨在包括其结构和功能等同物。此外,不考虑结构,希望这种等价形式既包括当前已知的等价形式,也包括未来发展的等价形式,例如执行相同功能的发展的单元。
因此,例如本领域技术人员将理解本文的附图可以代表体现技术的原理的说明性电路或其他功能单元的概念性视图,和/或可以大体上在计算机可读介质中表示和利用计算机或处理器执行的各种过程,即便不能在附图中明确示出这种计算机或处理器。
可以通过诸如电路硬件和/或能够执行在计算机可读介质上存储的编码指令形式的软件的硬件的使用来提供包括功能模块的各种单元的功能。因此,这种功能和所示出的功能模块被理解为或者是硬件实现的和/或计算机实现,并因此是机器实现的。
上述实施例将被理解为本发明的若干说明性示例,并将被理解所提出的技术不限于此。本领域技术人员将理解,在不脱离本发明的范围的前提下,可以对实施例作出各种修改、合并和改变。尤其是,不同实施例中的不同部分的方案可在其他技术上可行配置中进行组合。
缩写
ASIC 专用集成电路
BE 用于编码能量比的比特
BSEG 每分段比特
BSH 用于与某个能量比相对应的形状矢量的比特
BTOT 总可用比特预算
CD 压缩光盘
CPU 中央处理单元
DSP 数字信号处理器
DVD 数字多功能光盘
E 一个等级上每段能量
FPC 阶乘脉冲编码
FPGA 现场可编程门阵列
HDD 硬盘驱动
L 输入矢量的长度(维度)
LSEG 分段的长度(维度)
LEE 膝上型嵌入式设备
LME 膝上型安装设备
NSEG 分段数
PC 个人计算机
PDA 个人数字助理
PLC 可编程逻辑控制器
PVQ 金字塔矢量量化
QMAX 每量化器最大允许比特
R 一个等级上的相邻分段之间的能量比
RAM 随机存取存储器
ROM 只读存储器
UE 用户设备
USB 通用串行总线。

Claims (14)

1.一种用于对输入矢量进行分区以对音频信号进行编码的方法,所述方法包括:
-获得(210)用于对所述音频信号的至少一部分进行编码的输入矢量;
-以非递归方式将所述输入矢量划分(220)为数量NSEG个均匀或接近均匀的分段;
-以递归方式计算(230)角度,其中每个角度α表示所述输入矢量的左等级分段的能量与所述输入矢量的右等级分段的能量之间的比值,其中在偶数NSEG个分段的情况下,所述左等级分段和所述右等级分段包含相等数量的分段,而在奇数NSEG个分段的情况下,所述右等级分段具有的分段数量比所述左等级分段具有的分段数量大,并且其中以递归方式计算角度包括:
a)确定E0,其中E0表示所述输入矢量的第一左等级分段的能量,其中所述输入矢量的所述第一左等级分段包括输入矢量分段中的一个或多个分段;
b)确定E1,其中E1表示所述输入矢量的第一右等级分段的能量,其中所述输入矢量的所述第一右等级分段包括所述输入矢量分段中的一个或多个分段;和
c)计算表示所述输入矢量的所述第一左等级分段的能量与所述输入矢量的所述第一右等级分段的能量之间的比值的第一角度α,其中,计算所述第一角度α包括计算E1/E0;以及
-通过以下方式将可用比特的数量BSEG分配(240)给所述第一左等级分段和所述第一右等级分段:根据i)所述第一左等级分段的长度L0 SEG和所述第一右等级分段的长度L1 SEG之间的比值以及ii)所述第一角度α来确定用于所述第一左等级分段的比特的数量B0 SEG,并将用于所述第一右等级分段的比特的数量B1 SEG确定为BSEG-B0 SEG
2.根据权利要求1所述的方法,其中,所述数量NSEG是使得每个输入矢量分段满足与用于所述编码的量化器相关联的约束的最小整数。
3.根据权利要求1所述的方法,其中,分段数量NSEG是根据用于量化所述输入矢量的总比特预算BTOT与允许用于量化矢量分段的最大比特数QMAX之间的比值来确定的。
4.根据权利要求1所述的方法,其中,所述输入矢量分段具有相同的长度或具有的长度相差不超过1,或者其中,前NSEG-1个输入矢量分段具有相同的长度。
5.根据权利要求1至4中任一项所述的方法,其中,递归地计算所述角度还包括:
确定所述第一右等级分段包括多于一个的输入矢量分段;
作为确定所述第一右等级分段包括多于一个的输入矢量分段的结果,将所述第一右等级分段划分为第二左等级分段和第二右等级分段;以及
计算表示所述第二左等级分段的能量和所述第二右等级分段的能量之间的比值的第二角度。
6.根据权利要求5所述的方法,还包括:将所确定数量B1 SEG的比特分配给所述第二左等级分段和所述第二右等级分段。
7.根据权利要求1至4中任一项所述的方法,其中,所述角度α被计算为:
Figure FDA0004115141430000021
8.根据权利要求1至4中任一项所述的方法,其中,确定用于所述第一左等级分段的比特数B0 SEG包括根据以下公式来确定所述比特数B0 SEG
Figure FDA0004115141430000022
其中f0和f1是补偿因子,并且R0=tan2α。
9.根据权利要求8所述的方法,其中,所述补偿因子取决于输入矢量分段的长度、两个较低等级的输入矢量内的输入矢量分段的数量以及为两个较低等级的输入矢量分配的比特。
10.根据权利要求8所述的方法,其中,所述补偿因子至少取决于两个较低等级的输入矢量内的每个输入矢量分段的平均比特、输入矢量分段长度和最小较低等级输入矢量长度。
11.一种分区单元(20),包括:
处理器,以及
存储器,存储指令,所述指令在由所述处理器执行时,使所述分区单元执行权利要求1至10中至少一项所述的方法。
12.一种用于位置编码的音频编码器(50),包括:被配置为接收表示音频信号的输入矢量的输入单元(10)、根据权利要求11所述的分区单元(20)、量化器(30)和编码信号的输出单元(40)。
13.一种无线设备,包括根据权利要求12所述的音频编码器。
14.一种存储计算机程序的计算机可读存储介质,所述计算机程序包括指令,当由至少一个处理器(60)执行所述指令时,所述指令使所述至少一个处理器(60)执行根据权利要求1至10中任一项所述的方法。
CN202010107055.8A 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备 Active CN111091843B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361901089P 2013-11-07 2013-11-07
US61/901,089 2013-11-07
PCT/SE2014/051310 WO2015069177A1 (en) 2013-11-07 2014-11-06 Methods and devices for vector segmentation for coding
CN201480059683.6A CN105684315B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480059683.6A Division CN105684315B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备

Publications (2)

Publication Number Publication Date
CN111091843A CN111091843A (zh) 2020-05-01
CN111091843B true CN111091843B (zh) 2023-05-02

Family

ID=52001043

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201480059683.6A Active CN105684315B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备
CN202010106531.4A Active CN111554311B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备
CN202010107055.8A Active CN111091843B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201480059683.6A Active CN105684315B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备
CN202010106531.4A Active CN111554311B (zh) 2013-11-07 2014-11-06 用于编码的矢量分段的方法和设备

Country Status (8)

Country Link
US (5) US10320413B2 (zh)
EP (2) EP3066760B1 (zh)
CN (3) CN105684315B (zh)
BR (1) BR112016010273B1 (zh)
DK (1) DK3066760T3 (zh)
ES (1) ES2784620T3 (zh)
HK (1) HK1222480A1 (zh)
WO (1) WO2015069177A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112016010273B1 (pt) * 2013-11-07 2022-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina
KR101777994B1 (ko) 2014-07-28 2017-09-13 텔레폰악티에볼라겟엘엠에릭슨(펍) 피라미드 벡터 양자화기의 형상 검색

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
US5943446A (en) * 1995-07-19 1999-08-24 Unisys Corporation Method and apparatus for increasing the speed of a full code book search in a quantizer encoder
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
EP1039442B1 (en) * 1999-03-25 2006-03-01 Yamaha Corporation Method and apparatus for compressing and generating waveform
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
MXPA02004015A (es) 1999-10-22 2003-09-25 Activesky Inc Un sistema de video orientado a los objetos.
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
KR20030070179A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
US7310598B1 (en) * 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
US7366645B2 (en) * 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US7643558B2 (en) 2003-03-24 2010-01-05 Qualcomm Incorporated Method, apparatus, and system for encoding and decoding side information for multimedia transmission
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US8670557B2 (en) * 2007-09-10 2014-03-11 Spansion Llc Cryptographic system with modular randomization of exponentiation
US20100223237A1 (en) * 2007-11-05 2010-09-02 University Of Florida Research Foundation, Inc. Lossless data compression and real-time decompression
CN101527138B (zh) * 2008-03-05 2011-12-28 华为技术有限公司 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
WO2012019637A1 (en) * 2010-08-09 2012-02-16 Jadhav, Shubhangi Mahadeo Visual music playlist creation and visual music track exploration
WO2012069886A1 (en) * 2010-11-26 2012-05-31 Nokia Corporation Coding of strings
US8942431B2 (en) * 2012-06-24 2015-01-27 Neurologix Security Group Inc Biometrics based methods and systems for user authentication
PL2933799T3 (pl) * 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
CN104427496B (zh) 2013-08-29 2018-06-26 成都鼎桥通信技术有限公司 Td-lte集群通信系统加密传输方法、装置和系统
BR112016010273B1 (pt) * 2013-11-07 2022-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina

Also Published As

Publication number Publication date
US20190268016A1 (en) 2019-08-29
US20220131554A1 (en) 2022-04-28
DK3066760T3 (da) 2020-04-20
BR112016010273A2 (zh) 2017-08-08
US20200304145A1 (en) 2020-09-24
CN111554311B (zh) 2023-05-12
US11894865B2 (en) 2024-02-06
EP3066760B1 (en) 2020-01-15
US10715173B2 (en) 2020-07-14
EP3066760A1 (en) 2016-09-14
US11239859B2 (en) 2022-02-01
CN111091843A (zh) 2020-05-01
WO2015069177A1 (en) 2015-05-14
US20230283293A1 (en) 2023-09-07
US11621725B2 (en) 2023-04-04
US10320413B2 (en) 2019-06-11
CN105684315B (zh) 2020-03-24
CN105684315A (zh) 2016-06-15
ES2784620T3 (es) 2020-09-29
HK1222480A1 (zh) 2017-06-30
US20160065239A1 (en) 2016-03-03
BR112016010273B1 (pt) 2022-05-31
CN111554311A (zh) 2020-08-18
EP3637620A1 (en) 2020-04-15

Similar Documents

Publication Publication Date Title
US11894865B2 (en) Methods and devices for vector segmentation for coding
EP3560198B1 (en) Low-complexity sign prediction for video coding
CN109905718B (zh) 用于棱椎矢量量化编索引和解索引的方法和装置
RU2678168C2 (ru) Кодер, декодер, система и способы кодирования и декодирования
CN110649925B (zh) 划分的增益形状向量编码
WO2020236976A1 (en) Linear neural reconstruction for deep neural network compression
US10869029B2 (en) Hybrid digital-analog coding
KR102126321B1 (ko) 신호 처리 방법 및 장치
US11310505B2 (en) Method and apparatus for adaptive context modeling in video encoding and decoding
KR20110033154A (ko) 규칙적인 지점의 네트워크에서 벡터를 카운팅하는 방법
CN103119649A (zh) 用于基于上下文进行无损编码和解码的方法和设备
JP6549057B2 (ja) 符号化装置および符号化方法
CN117560495A (zh) 一种应用于图像语义通信的细粒度速率控制方法及装置
CN115943390A (zh) 用于训练和/或部署深度神经网络的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant