CN102084594A - 用于处理数字数据的方法 - Google Patents

用于处理数字数据的方法 Download PDF

Info

Publication number
CN102084594A
CN102084594A CN2009801255838A CN200980125583A CN102084594A CN 102084594 A CN102084594 A CN 102084594A CN 2009801255838 A CN2009801255838 A CN 2009801255838A CN 200980125583 A CN200980125583 A CN 200980125583A CN 102084594 A CN102084594 A CN 102084594A
Authority
CN
China
Prior art keywords
index
vector
head
coordinate
norm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801255838A
Other languages
English (en)
Other versions
CN102084594B (zh
Inventor
马克·安东尼尼
莱昂纳多·海德·方特赖斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Universite de Nice Sophia Antipolis UNSA
Original Assignee
Centre National de la Recherche Scientifique CNRS
Universite de Nice Sophia Antipolis UNSA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Universite de Nice Sophia Antipolis UNSA filed Critical Centre National de la Recherche Scientifique CNRS
Publication of CN102084594A publication Critical patent/CN102084594A/zh
Application granted granted Critical
Publication of CN102084594B publication Critical patent/CN102084594B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3082Vector coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及用于处理数字数据的方法,包括在d维空间中为至少一些矢量l计算至少一个矢量索引I1的量化步骤,所述矢量1形成输入数据描述符。该方法的特征在于:所述矢量索引I1对应于按反字典顺序排在所述矢量l前面的矢量的数目,而不包括确定所有矢量的步骤。

Description

用于处理数字数据的方法
技术领域
本发明涉及数字数据处理领域,着眼于诸如数字数据压缩、数字数据搜索、数字数据比较或数字数据解压缩之类的应用。本发明涉及视听数据、更具体为各种类型数字数据的处理。本发明的目的是减少处理时间和与计算能力和内存需求两者相关的计算资源需求。
这些应用特别但不排它地涉及需要超大量数据来对其进行描述的图像的处理。为了减少传输时间和存储所需的大小,通过提取将被单独编码的可视信息来压缩信息。该被编码的信息必须在频率和空间方面处于最优形式,以允许最优再现、同时避免任何不利于编码性能的冗余。为此目的,已知使用小波变换技术,其坐标构成随后经受矢量量化(vector quantisation)步骤的矢量格(vector lattice)。
矢量量化(VQ)的原理是对形成矢量的样本序列进行编码,而不是对每个样本单独编码。编码是通过用属于通常称为“码本”(codebook)的目录形式的矢量对要被编码的序列进行近似来完成的。目录形式的每个矢量都被编以索引。编码期间,将使用最接近要被编码的样本序列的矢量的索引来表示该被编码的样本序列。
已知解决方案需要确定每个矢量、将其记录在内存中,然后关于对所有矢量进行处理,以对矢量进行计数。矢量基(vector base)可能需要数千兆(gigabyte)字节,并且这样大的基所需的计算时间超长。本发明的目的是提出一种避免这些缺陷的计数和索引方法。
背景技术
从文章[1]已知一种量化方法。
从术语的数学意义上看,格是形成加法群的n维空间中的矢量集合。书籍[2]详细描述了这样的格。
现有技术中已知国际专利申请W09933185,其涉及一种编码方法,该方法包括:确定被称为首领(leader)的矢量,该矢量包括与量化矢量相同、但按预定次序排列的分量;然后确定在所述形成的具有与首领相同、并按预定方式排列在所述集合中的分量的集合中,所述量化矢量的等级或级别。该方法因而包括根据首先是表示因此确定的所述首领的索引、其次是所述级别来形成编码。
设计用于压缩的代数矢量量化器遇到的主要困难与对规则点格(其构成量化字典)中的矢量进行计数和编索引的问题相关。我们在此呈现在广义高斯分布源的情况下(例如小波系数)我们为解决这些问题而提出的解决方案。
代数矢量量化
迄今为止,对量化的研究已有几十年,完成的工作已经形成了关于率/失真理论的如今已成为常规的许多成果。特别地,已经证明当需要固定长度编码时,与标量量化(SQ)相比,矢量量化(VQ)具有许多优点。此外,香农(Shannon)的工作已经证明,如果量化矢量的维数n足够大,则VQ的性能接近最优理论性能。
然而,重要的是,要注意到,VQ可达到这些最优性能,需要以高的计算复杂度为代价;复杂度随矢量维数呈指数增加。通常,使用根据表示源的统计数据(学习序列)构造的非结构式字典来执行VQ。在这种情况下,由于字典大小导致的复杂度和存储需求对于压缩应用可能是无法承受的。此外,存在这样的字典稳健性(robustness)问题:针对给定学习序列优化的字典对于学习序列之外的图像给出了很差性能。克服这些问题的一种解决方案是使用n-维结构式VQ,例如代数矢量量化(AVQ)或有关于规则点格的矢量量化。
当字典的矢量被强迫属于结构式规则格时,AVQ的性能一般比非结构式VQ的性能差。
然而,在大多数应用中,该轻微缺点被以下事实抵消:对于AVQ,不需要生成或存储字典,并且降低了编码复杂度。
可将规则点格的量化看作是均匀标量量化的扩展。如在非结构式VQ的情况中那样,在文档的其余部分,术语AVQ将用于或者表示矢量量化,或者表示矢量量化器。AVQ考虑矢量系数以及分割排列的增益之间的空间依赖性。无论源分布为何,AVQ总是比SQ更有效。
以Rn表示的规则点格由构成格的基{y|y=u1a1+u2a2+...+unan}的一组线性无关的矢量ai的所有可能的组合组成,其中系数ui是整数。则空间的分割是规则的,并仅取决于选择的基矢量。每个基定义不同的规则点格。与通过基于广义Lloyd算法的算法的VQ相比,AVQ提供了相当大地降低计算和存储成本的可能性。实际上,使用规则格矢量作为量化值消除了构造字典的操作:通过选择的格的结构隐式地构造字典。文章[1]描述了简单地使用计数操作且仅依赖于矢量的维数n的快速量化算法。1979年,Gersho做出猜想,在渐进情况下(即对于高速率),AVQ的速率/失真性能接近最优。然而,尽管AVQ对于低率不是数学最优的,但这种量化器给予的复杂度的降低使得能够使用大维数的矢量,对于给定速率产生了更好的实验性能。能通过将AVQ与熵编码器组合来得到好的速率/失真性能,这促进了小波领域中关于AVQ的一些工作。已经针对高斯和拉普拉斯源进行了关于VQ的许多理论工作。此外,在衰减参数小于1的广义高斯源的情况下,证明了在速率/失真方面立方格Zn要好于格E8和格Leech。该结果鼓励了我们将AVQ与小波变换相结合的工作。
发明内容
本发明要解决的问题
尽管由于字典的规则几何结构,通过AVQ量化并不是很复杂,然而其实现并不直接。在非渐进模型的情况下,忽略超载噪音(overload noise),这是因为我们假设使用可变长度编码和无限字典。实际上这提出了一定数量的具体问题,特别是在计算和存储方面。在设计AVQ时可以提出两个基本问题:
a)索引:索引是独立于量化的操作。其包括向每个量化矢量分配索引,一旦被编码,则通过信道发送给解码器。在压缩链中该操作是基本的。其实际上确定比特率并使得能无歧义地对矢量解码。已知方法在内存方面通常非常廉价,但是具有不容忽视的计算复杂度(递归算法),或仅在特定情况下(格的类型或特定截断(truncation))起作用。本发明涉及允许关于广义高斯类型分布的索引的更通用方法,导致了内存成本和计算成本之间的良好折衷。
b)计数。索引方法通常基于格的总体(population)的知识。因此我们必须能对依赖于源的分布的n-维曲面上(或n-维体积内)的格中的矢量进行计数。常规计数方法基于生成级数的使用。在此形式中,已经引入了函数Nu。它们允许在金字塔(pyramid)上,即在拉普拉斯分布的情况下进行计数。我们已经提出了一种允许在广义高斯类型分布上计数的更通用方法,导致了内存成本和计算成本之间的良好折衷。第二个专利提出了对此问题的解决方案。
发明目的
本发明的目的是提出一种能使用在存储内存和处理时间方面有限的计算资源来执行的、包括矢量量化步骤的处理方法。
为此目的,根据其最宽泛的意义,本发明涉及一种用于处理数字数据的方法,该方法包括:量化步骤,该量化步骤包括在d维空间中为矢量l的至少一部分计算至少一个首领索引I1,所述矢量l构成输入数据的描述符,所述方法的特征在于,所述首领索引I1对应于按反字典顺序排在所述首领1前面的矢量数目,而不包括确定所有首领的步骤。
所述处理方法优选地不包括任何确定除当前被计算的首领l之外的矢量的步骤。
较佳地,计算所述首领l的范数lp的步骤包括计算所述首领l(x1,x2,...xd)的范数
Figure BDA0000042428780000041
的步骤,其中,x1到xd以增序排列,
Figure BDA0000042428780000042
等于所述函数T(xi)对于在1到d之间变化的i值的结果的和,函数T(xi)返回坐标xi的p次幂除以精度因子δ的结果,所述除法的结果四舍五入到最接近的整数。
在具体变型中,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数
Figure BDA0000042428780000043
的步骤,其中x1到xd按升序排序;以及对坐标xi的递归计数步骤,i值在d到1之间变化,所述计数步骤包括对坐标xi位于xi+1之间的矢量计数,索引I1等于计数步骤结果的和,F(A)是返回整数值w的函数,其中值T(w)小于或等于所述函数F的自变量A。
在另一变型中,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数rp delta,d的步骤,其中x1到xd按降序排序;以及对坐标xi的递归计数步骤,i值在1到d之间变化,所述计数步骤包括对坐标xi位于xi+1之间的矢量计数,索引I1等于计数步骤结果的和,F(A)是返回整数值w的函数,其中值T(w)小于或等于所述函数F的自变量A。
根据另一变型,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数r的步骤,其中x1到xd按升序排序;以及对坐标xi的递归计数步骤,i值在d到1之间变化,所述计数步骤包括对坐标xi位于xi+1和MIN(xi+1,r-xi+1)之间的矢量计数,索引I1等于计数步骤结果的和。
根据另一变型,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数r的步骤,其中x1到xd按降序排序,以及对坐标xi的递归计数步骤,i值在1到d之间变化,所述计数步骤包括对坐标xi位于xi+1和MIN(xi-1,r-xi-1)之间的矢量计数,索引I1等于计数步骤结果的和。
本发明还涉及所述方法用于矢量数据的压缩的应用,包括:记录所述索引I1的二进制编码的结果以及至少记录符号索引Is、范数索引In和置换索引Ip。所述矢量数据包括:
-数字图像,
-数字视频序列,
-数字音频数据,
-数字三维对象,
-数字动画三维对象,
-存储在数据库中的信息,
-来自所述矢量数据的变换的系数(如DCT系数、小波系数等)。
本发明还涉及所述方法用于在矢量数据库中进行搜索的应用,包括:对于参考信息计算索引In,ref以及至少一个符号索引Is,ref、范数索引In,ref以及置换索引Ip,ref,并且包括搜索关联有相同索引的数据。
所述矢量数据包括:
-数字图像,
-数字视频序列,
-数字音频数据,
-数字三维对象,
-数字动画三维对象,
-文本数据库对象,
-来自所述矢量数据的变换的系数(如DCT系数、小波系数等)。
本发明还涉及用于根据前述方法计算出的首领索引I1重构数字数据库的方法,其特征在于,所述方法包括计算首领l的坐标(x1,x2,xd),其特征在于,所述方法包括对索引I1进行包括寻找索引为I1的首领l的处理,所述索引I1对应于按反字典顺序排在所述首领l前面的矢量数目,而不包括确定所有首领的步骤。
优选地,对于在d到1之间变化的变量i执行递归处理,所述处理应用到坐标xi,xi
Figure BDA0000042428780000051
到0之间变化,并包括通过应用所述函数F(A)将计数步骤结果相加,直到所述和大于所述索引I1,要搜索的坐标xi是导致所述索引I1被超过的坐标,该方法然后包括对于坐标xi-1,继续根据值I1求和,其中I1是超过所述索引之前值I1前面的值。
较佳地,对于在1到d之间变化的变量i执行递归处理,所述处理应用到坐标xi,xi
Figure BDA0000042428780000061
到0之间变化,并包括通过应用所述函数F(A)将计数步骤结果相加,直到所述和大于所述索引I1,要搜索的坐标xi是导致所述索引I1被超过的坐标,该方法然后包括对于坐标xi+1,继续根据值I1求和,其中I1是超过所述索引之前值I1前面的值。
根据约定,x d+1是根据处理器精度所允许的最大整数,或至少高于
Figure BDA0000042428780000062
为了重构,I1′=0,当按升序排序时处理坐标xd,当按降序排序时处理坐标x1
附图说明
阅读了参照附图的非限制示例实施方式之后,将更好地理解本发明,其中:
图1示出了根据本发明的数据处理系统的框图,
图2示出了对于格Z2
Figure BDA0000042428780000063
p=0.4且δ=0.3的包络线示例,
图3示出了对于p=1、δ=1且B=4来说通常方法和提出的方法的内存需求之间的比较,
附录1示出了用于实现本发明的编码和解码算法的示例。
具体实施方式
数据处理系统通常包括三个主要模块。第一模块(1)接收输入数据,例如对应于图像的数字信号,并利用已知技术使用该采样信号来计算小波变换。
量化模块(2)通过实现根据本发明的方法的小波系数的矢量量化和索引方法来对小波系数进行编码。
第三模块通过已知的无损压缩方法执行减少存储或发送的信息大小所需的编码。
更确切地说,第二模块(2)执行的量化和索引步骤是本发明的目的。在现有技术的解决方案中,该步骤需要许多资源,涉及确定所有首领矢量并因此至少将它们暂时存储在内存中。
已知关于格的矢量量化方法,该方法通常用在一般而言用于压缩音频、视频和多媒体信号的系统中。格矢量量化是均匀标量量化的多维扩展。后者包括用2N个级别分别量化信号,该信号例如表示图像的每个像素,其中N是分配给量化器的位数。关于格矢量量化,其与规则格相关联,并使得能确定属于讨论中的格的量化矢量(或量化的矢量),其分量表示由要被编码的信号采用的值。
更具体地,量化操作因此包括根据原始矢量确定量化的矢量x,原始矢量的每一个分量表示由要被编码的信号采用的值并因此属于不可数集,例如实数集R,量化的矢量x的每一个分量属于可数集,例如相对数集Z。
格矢量的索引是格量化应用中的重要问题。本发明涉及使用格首领矢量以及分拆理论(theory of partitions)对该问题的解决方案。其对广义高斯分布源起作用并允许使用乘积码。还使得能为高维矢量编索引。
如果矢量维数任意高,则矢量量化(VQ)可使得获得最优理论性能是可能的。
遗憾的是,最优非结构式VQ(例如LBG)的计算复杂度随维数呈指数增长。此外,存储需求可能非常大。对该维数问题的一个解决方案是使用受约束的VQ,例如格矢量量化(LVQ)。
LVQ方法导致了码矢量规则分布在空间中的结构式字典的设计。因此,可能通过根据其分布形式为格矢量编索引来对源进行自适应,而不是优化矢量在空间中的位置。对于大多数实数源来说,这可以通过使用乘积码来有效地完成,导致了对称单峰源分布的最优速率/失真折衷。
这是因为能将这样的分布解释为一组根据源分布具有相同形式的同心超曲面。然后能通过分配与各个面的范数(半径)相对应的第一索引(前缀)和与属于同一面的矢量的计数相对应的第二单一索引(后缀)来为格码字编索引。
大量重要数据源(例如子带话音和图像系数,特别是通过小波变换得到的那些)能通过广义高斯分布模型化。该分布族通过用于单变量随机变量的唯一形状因子p(GG(p))而参数化。具有分布(GG(p))的源的一个有趣特性是,范数lp的包络线对应于常概率面。这导致了有效乘积码的发展。
即使前缀的计算较平凡,但后缀需要位于给定超曲面上的格矢量的计数和索引。此外,鉴于位于包络线上的矢量数随范数而极大地增长,空间维数的增加可能使得索引操作非常复杂,如下表所示,其示出对于格Zn以及不同维数和范数值,在范数l1的情况下,给定正四面体锥(hyperpyramid)的首领数目以及位于该正四面体锥上的格首领总数(基数)的比较。
Figure BDA0000042428780000081
在文献中,一般根据两种不同技术执行后缀的索引。
第一种考虑位于给定超曲面上的矢量总数(基数)来赋予索引。另一种方法利用格的对称,使用首领概念。范数lp的包络线的首领对应于一些格矢量,根据这些格矢量,能通过其坐标的置换(permutation)和符号变化来得到位于对应包络线上的所有其它格矢量。这两种方法的趋势是对于各向同性源来说具有类似的速率/失真性能。
然而,关于格索引的大多数著作仅为拉普拉斯或高斯分布提出解决方案,这两种分布是GG(p)的特定情况,形状参数分别为p=1和p=2。少数作者提出了对于特定情况p=0.5的解决方案。然而,该计数方法不能构造乘数码,且在实践中索引方法非常复杂,对于具有高维数和范数的p≠0.5,1或2来说,尤其如此。
本发明提出了一种为位于0<p≤2的包络线GG(p)上的格矢量Zn编索引的新颖替代方案。提出的解决方案基于矢量并使用分拆理论。
分拆理论的使用使得我们能够克服为了生成首领并为其编索引的复杂度和存储需求。我们提出一种经济的索引算法,该算法在运行中(on the fly)赋予后缀索引而不使用转换表。
在下面的描述中,第一部分展示了LVQ的原理,并描述了索引问题。第二部分提出了为超大LVQ码本编索引的有效解决方案,列出了索引示例,而无论形状参数p为何。描述然后说明了提出的方法的内存和计算成本,并指示了有效实数索引的性能值。
2.格矢量索引
2.1格的定义
以Rn表示的格Λ由一组线性无关的矢量ai(格的基)的任意积分组合组成,使得:
Λ={x|x=u1a1+u2a2+...unan}       (1)
其中ui是整数。空间分割因此是规则的,并仅取决于选择的基矢量ai∈Rm(m≥n)。必须注意,每组基矢量定义了不同的格。
可以认为格的每个矢量v属于包含具有由下式给出的固定范数lp的矢量的曲面或超曲面:
| | v | | p = ( Σ i = 1 n | v i | p ) 1 p .
然后能使用乘积码对给定格矢量编码。很明显,如果源矢量的分布是拉普拉斯分布,则合适的乘积码包含与矢量的范数l1相对应的前缀,以及与其在具有等于讨论中的范数l1的半径的正四面体锥上的位置相对应的后缀。固定范数l1的超曲面称为正四面体锥。能使用计数算法得到矢量在超曲面上的位置。这样的乘积码保证了解码的唯一性。
在广义高斯分布源的形状参数小于或等于1的情况下,D4、E8上的立方格Zn或格Leech的优越性已经被证明[12]。因此,本文剩余部分关注基于立方Zn格的LVQ设计。
2.2基于总计数的索引
现有技术中已知一些为高斯或拉普拉斯分布的情况、以及为基于总计数原理的不同格提出的计数解决方案。特别地,在拉普拉斯源分布的情况下以及对于格Zn,已知一种用于对位于范数l1的正四面体锥上的格矢量的总数进行计数的递归公式。该计数公式已经扩展到形状因子p位于0和2之间的广义高斯源分布。这些解决方案使得确定位于给定截断范数lp内的矢量数是可能的,但是它们没有提出为格Zn的矢量分配实际索引的算法。此外,该解决方案不确定位于给定超曲面上的矢量数,使得很难使用乘积码。
现有技术的著作提出的算法对于0<p≤2根据乘积码方案为矢量编码。其基于广义θ级数(theta series)[4]并使用格几何。对于p=1或2,该级数的展开相对简单。然而,对于其它p值,鉴于不产生闭合的形状,并且禁止使用形式数学,该级数的展开非常复杂。对于该著作提出的解决方案,有必要确定各个维数和高维数的每个可能的范数值,这在有限时间内往往是不可行的。
此外,鉴于对于实际实现、特别对于高维数(见下面的表)来说,超曲面的基数可迅速达到难解(intractable)值,基于包络线的基数的索引技术可迅速超过计算精度。
2.3基于首领的索引
基于首领的方法利用了格的对称。这些方法使用关于固定范数包络线的有效索引算法,并且在称为首领的少数矢量的基础上、而不是在格的所有矢量的基础上赋予索引。
分别处理格的不同对称,与总计数技术相比,构成了不都存在对称时更有效的为源编索引的方法。此外,由编码算法管理的索引比包络线的基数要小的多,这使得对于给定二进制精度,能为不能由基于总计数的方法进行索引的矢量编索引。
在乘积码体系中,除了格的对称之外,后缀索引包含少量首领的索引,根据这些首领,能分配超曲面的所有其它矢量。对于格Zn,对称对应于两种基本操作:矢量坐标符号的改变以及置换。第一种操作对应于矢量所在卦限(octant)的改变。例如,2维矢量(7,-3)在第四卦限,而矢量(-7,-3)在第三卦限。这些矢量相对于y轴对称。第二种操作对应于卦限内对称,例如,矢量(-7,3)和(-3,7)都在第二卦限且相对于卦限的平分线对称。在这种情况下,可以看出,所有这些矢量都能根据矢量(3,7)的置换和符号变化而产生,矢量(3,7)是所有这些矢量的首领。利用所有的置换和符号变化,首领(3,7)能表示8个矢量。该比例随着超曲面的维数而快速增长(见表1)。
因此,该索引方法为每个矢量分配一组三个索引:一个对应于其首领,另两个对应于其置换和首领的符号变化,而不是直接为超曲面上的所有矢量编索引。关于计算置换和符号索引的方法的更多细节。
3.提出的索引方法
3.1在范数l1的情况下提出的首领索引
3.1.1原理
本发明提出了基于按反字典顺序(in reverse lexicographical order)将所有矢量分类、并根据要被编索引的首领之前的矢量数赋予索引的解决方案。在当前情况下,索引不再基于资源消耗高或直接寻址的搜索算法,而是基于低成本计数算法,该算法仅依靠首领数量而非每个首领的具体知识,这使得能避免构造转换表。
半径为r的正四面体锥由所有矢量v=(v1,v2,...,vd)组成,从而||v||1=r。如前所述,首领是超曲面的基本矢量,根据首领进行置换和符号变化操作得到位于该超曲面上的所有其它矢量。这是因为首领是具有以升序(或降序)排序的正坐标的矢量。因此,等于r的范数l1的d维首领是满足以下条件的矢量:
1、 Σ i = 1 d v i = r ;
2、对于i<j并且i,j∈[1,d],0≤vi≤vj
3.1.2与分拆理论的关联
在范数l1的情况下,可以注意到,3.1.1节所列的条件与数论中的分拆理论相关。这是因为,在数论中,正整数r的分拆是将r写成d个正整数(也称为部分)的和的方式。分拆函数P(r)给出r的不同分拆的数目(与次序无关),从而
Σ r = 0 ∞ P ( r ) y r = Π d = 1 ∞ ( 1 1 - y d ) - - - ( 2 )
其对应于欧拉函数的倒数,也称为级数q[10,16,17]。附加的数学展开得到了函数P(r)的表示,使得能加速计算。
例如,对于r=5,方程(2)给出结果P(5)=7。这是因为数字5所有可能的分拆是(5)、(1,4)、(2,3)、(1,1,3)、(1,2,2)、(1,1,1,2)和(1,1,1,1,1)。通过用5维矢量的形式重写这些分拆,例如(0,0,0,0,5)、(0,0,0,1,4)、(0,0,0,2,3)、(0,0,1,1,3)、(0,0,1,2,2)、(0,1,1,1,2)和(1,1,1,1,1),我们看到这些正好对应于范数r=5和维数d=5的正四面体锥的首领,也就是说,这些是范数r=5和维数d=5的正四面体锥中满足3.1.1节的两个条件的仅有的矢量。
然而,我们一般关心d维格中等于r的范数l1的包络线,其中r≠d。在这种情况下,能使用函数q(r,d)[10,18],该函数计算具有不超过d部分的r的分拆数目(在分拆理论中,这等同于计算r的、包括任意元素的部分数都不大于d的分拆数目)。因此,对于范数r=5和维数d=3的正四面体锥,我们得到q(5,3)=5,也就是说,由(0,0,5)、(0,1,4)、(0,2,3)、(1,1,3)和(1,2,2)给出5个首领。
能根据下述递归方程计算函数q(r,d):
q(r,d)=q(r,d-1)+q(r-d,d)            (3)
其中对于d≥r,q(r,d)=P(r),q(1,d)=1且q(r,0)=0。
3.1.3为首领编索引而对函数q(r,d)的使用
如下面所描述的,方程(3)不仅给出位于给定正四面体锥上的首领的总数,还能用于运行时为首领分配唯一索引,而无需转换表。为了说明提出的算法的原理,我们假设给定正四面体锥的首领按反字典顺序如下分类:
Figure BDA0000042428780000121
因此,首领l的索引对应于其前面的矢量的数目。在上面描述的示例中,首领(0,...,1,1,rn-2)必须被分配给索引3。
命题1定义了提出的为首领编索引的解决方案:
命题1。设v=(v1,v2,...,vn)为位于固定范数l1的包络线上的首领l=(x1,x2,...,xn)的格矢量Zn。其首领索引I1由下式给出:
Figure BDA0000042428780000122
其中
Figure BDA0000042428780000123
计算具有不超过小于或等于k的d部分的r的分拆数目,
Figure BDA0000042428780000124
且xn+1=+∞。
证明。我们考虑为维数为n和范数l1
Figure BDA0000042428780000125
的首领l=(x1,x2,...,xn)编索引。鉴于首领按反字典顺序排序,置于1之前的第一组首领由第n个分量严格大于xn的所有首领组成,这就是说,由具有满足xn+1≤gn≤rn的最高坐标gn的所有首领组成。
为了对该第一组中的首领数目进行计数,而不列出所有,我们使用分拆函数q(r,d)。这是因为使用下面的推论可以容易地计算出第n个坐标等于gn的首领的数目:
推论:计算最大坐标等于gn的范数为rn维数为n的首领的数目相当于计算具有不超过n-1部分、每部分都不大于gn的数字rn-gn的分拆数目。
在大多数情况下,我们能通过应用q(rn-gn,n-1)对该分拆数进行计数。然而,该方法仅当rn-gn≤gn时有效,在这种情况下隐含地假设rn-gn的所有分拆没有大于gn的部分。然而,在不保证rn-gn≤gn的更一般的情况下(例如,最大部分等于7的范数rn=20和维数n=5的首领数目将得到q(20-7,5-1)=q(13,4),其中20-7≤7),鉴于rn-gn的一些分拆将使其最大部分超过gn,在这种情况下将不能遵守3.1.1节的条件2,q(rn-gn,n-1)的计算将得到错误的有效首领数。
在这种情况下,我们必须对分拆数目的计算应用第二约束:最大部分的值。我们因此引入由函数
Figure BDA0000042428780000131
得到的归纳
Figure BDA0000042428780000132
其计算具有不超过d部分且任一部分不大于k的给定数字r的分拆数目。通过计数算法完成
Figure BDA0000042428780000133
的计算。
因此,我们能通过应用计算有效首领的正确数目。因此,gn的从xn+1到rn的变化使得能确定最大坐标严格大于xn的首领的数目,由下式给出:
Σ i = x n + 1 r n q ‾ ( r n - i , n - 1 , i ) - - - ( 5 )
其中假设
Figure BDA0000042428780000136
Figure BDA0000042428780000137
Figure BDA0000042428780000138
在这种情况下,我们使用数论中使用的集合符号,其中Z+表示所有正整数{i∈Z|i>0},Z*表示所有非负整数{i∈Z|i>0}。
1之前的第二组首领由第n个坐标等于Xn、但第(n-1)个坐标严格大于xn-1的所有首领组成。为了对该首领数目进行计数,我们能使用前面提到的相同的推论,但是这次应用到n-1维。然后我们能通过使gn-1从xn-1+1变化到min(xnrn-1)、使用
Figure BDA0000042428780000139
Figure BDA00000424287800001310
来计算最大分量gn=xn且第二大分量gn-1>xn-1的首领的数目。min函数保证了符合范数rn以及次序gn-1≤gn=xn
等待附加维数的结果时,能由下式得到l之前的最高坐标等于xn的首领的数目:
Figure BDA00000424287800001312
方程(5)和(6)的组合产生了用于计算置于l之前的首领的总数、以及因此l的索引I1的通式(方程(4)):
Figure BDA0000042428780000141
其中对于j=0,xn+1=+∞。
3.2范数lp的情况的归纳
为了计算位于固定范数lp的包络线之上的矢量v=(v1,v2,...,vn)的首领l=(x1,x2,...,xn)的索引,其中0<p≤2,我们提出应用与l1的情况相同的原理。按反字典顺序列出首领,并使用同样的计数方法赋予索引。因此方程(4)的结构再次适用,其中关于i的总和利用函数
Figure BDA0000042428780000142
根据给定坐标计算首领数目,关于j的总和允许对维数递归。
然而,
Figure BDA0000042428780000143
的使用暗含地表示范数r的和项
Figure BDA0000042428780000144
是整数,并且可以是区间[0,r]内的任意整数。很明显这对于p=1有效,其中和项是正整数格坐标自身。另一方面,对于p≠1,和项
Figure BDA0000042428780000145
不必是整数,或可不必是区间[0,r]内的任意整数(例如,对于p=2,和项是整数,但仅是平方数)。
可通过将
Figure BDA0000042428780000146
四舍五入到精度为δ的最接近整数来解决该问题。[7,9]中使用了类似的技术。该运算引入了由所有整数
Figure BDA0000042428780000147
组成的新的整数子集
Figure BDA0000042428780000148
其中
Figure BDA0000042428780000149
[·]是最接近的整数且xi∈Z*
则得知矢量的范数lp具有精度δ,且由下式得到:
r δ , n p = Σ i = 1 n x ‾ i = Σ i = 1 n [ x i p δ ] - - - ( 7 )
其中精度δ限定了固定范数的包络线宽度,随着其值增加,包括更多矢量(见图2)。
图1:对于格Z2
Figure BDA00000424287800001412
p=0.4且δ=0.3的包络线的示例。
因此,计算固定范数lp中矢量的首领索引对应于计算整数的分拆的正确数目,但是仅使用属于子集的整数。命题2描述了我们提出的解决方案:
命题2。设v=(v1,v2,...,vn)为位于固定范数lp的包络线上的首领l=(x1,x2,m,xn)的格矢量Zn。其首领索引I1由下式给出:
Figure BDA0000042428780000151
Figure BDA0000042428780000152
其中
Figure BDA0000042428780000153
计算具有不超过小于或等于k∈Z*的d部分的
Figure BDA0000042428780000154
的分拆数目,
Figure BDA0000042428780000155
且xn+1=+∞。f(a)返回最大值i∈Z*,从而对于
Figure BDA0000042428780000156
Figure BDA0000042428780000157
t(i)≤a。
证明
我们考虑为维数为n和范数lp的首领l=(x1,x2,...,xn)编索引。如前所述,我们提出使用与方程(4)相同的原理。然而,鉴于p≠1时范数lp的和项不总是整数,不再能使用函数
Figure BDA0000042428780000159
Figure BDA00000424287800001510
四舍五入到精度为δ的最接近整数使得能根据正整数值
Figure BDA00000424287800001511
的总和得到整数范数如方程(7)中所定义的。因此,能通过对将写成
Figure BDA00000424287800001514
的和的不同方式的数目进行计数,来计算精度为δ位于p≠1的包络线上的首领l的索引,其中
Figure BDA00000424287800001515
Figure BDA00000424287800001516
定义的函数t的整个图像,匹配
Figure BDA00000424287800001517
其中
Figure BDA00000424287800001519
重要的是,这里注意,鉴于Z*的不同值能与
Figure BDA00000424287800001520
中的相同值匹配,取决于p和δ的值,函数t可表示非内射函数。因此,不同首领
Figure BDA00000424287800001521
Figure BDA00000424287800001522
中能具有相同表示,并且用于对
Figure BDA00000424287800001523
中的分拆数目计数的任意朴素法(naive procedure)将不仅导致错误首领索引,还导致将相同的错误索引赋予不同首领。
我们定义解决方案,函数
Figure BDA00000424287800001524
为对具有不超过d部分的
Figure BDA00000424287800001525
的分拆数目计数,其中
Figure BDA00000424287800001526
给定每部分,对于i,k∈Z*,不存在i大于k。应该注意,间接使用Z*的值k的对
Figure BDA00000424287800001527
中最大部分的值的约束使得能计数中产生相同分拆的不同首领的数目。
因此,使用
Figure BDA00000424287800001529
对于范数lp方程式(4)能扩展为:
Figure BDA0000042428780000161
其中f(a)返回最大值i∈Z*,使得对于
Figure BDA0000042428780000162
t(i)≤a。
通过使方程(9)中的j从0变化到n-2,对于坐标xn到x2正确地对l之前的首领数目进行计数。在范数l1的情况下,鉴于存在
Figure BDA0000042428780000163
的单个值x1∈Z*,计算以前的首领的总数是充分条件。然而,对于范数lp,由于函数t的非内射,一些值x1∈Z*导致
Figure BDA0000042428780000164
是可能的。因此,为了保证索引的唯一性,计算
Figure BDA0000042428780000165
和x1之间的差,并添加到方程(9)的结果中,以便得到由方程(8)给出的唯一可解码首领索引:
Figure BDA0000042428780000166
Figure BDA0000042428780000167
鉴于
Figure BDA0000042428780000168
可能大于x2(见第4节的示例),而x1可能小于或等于x2,需要min函数。
通过计数算法完成
Figure BDA0000042428780000169
的计算。
3.3对首领索引解码
我们考虑首领l=(x1,x2,...,xn)的索引I,其范数
Figure BDA00000424287800001610
的索引被发送到解码器。此外,我们假设解码器已知编码步骤中使用的矢量维数n、形状因子p和精度δ。这里的目的是仅使用该信息提取xi
Figure BDA00000424287800001611
的正确值。与编码步骤中一样,我们将从处理第n个坐标xn开始。
在解码器中,利用与范数和维数相关的信息,我们可以明显看出,
Figure BDA00000424287800001612
(见方程(8)和(10))。此外,假定I1是1前面的矢量数目,则最高坐标gn≥xn的矢量数目高于I1。这意味着xn
Figure BDA00000424287800001614
Figure BDA00000424287800001615
的第一个值,最高分量gn≥i的矢量数目高于I1
因此,为了提取xn,对最高分量从
Figure BDA0000042428780000171
变化到零的矢量的数目计数,直到得到高于I1的矢量的总数。使用3.1节介绍的原理,这等同于计算分拆数目N:
Figure BDA0000042428780000172
并且对于Np>I1,为xn赋予i的第一个值。在下面的步骤中,我们解码xn-1
通过应用与用于解码xn相同的原理,我们看到
Figure BDA0000042428780000173
Figure BDA0000042428780000174
(见方程(8)和(10))。假定解码器已知
Figure BDA0000042428780000175
且xn已被解码,能通过计算
Figure BDA0000042428780000176
得到
Figure BDA0000042428780000177
接下来,为了解码xn-1,我们使用类似于方程(11)的机制对Np进行计数,但是这次与第(n-1)个坐标相关。
在这种情况下,假定Np>I1,我们必须在第一步使分拆Np的计数器指回第n个分量等于xn的第一个首领,这是通过将Np参数化到其前值,在下文中称为Npbckp(“前值”对应于使Np≤I1的Np的最高值,换句话说,i的最后值被包括在总和之前的Np的值)。该前值表示Np≤I1的Np的最高值,换句话说,将i的最后值包括在总和之前Np的值。因此,将
Figure BDA0000042428780000178
Figure BDA0000042428780000179
的第一个值赋予xn-1,最高坐标gn=xn以及第二最高坐标gn-1≥i的矢量数目高于I1-Npbckp
该处理可以在维数上归纳:
Figure BDA00000424287800001710
其中对于j=0,
Figure BDA00000424287800001711
且xn+1=+∞,
Figure BDA00000424287800001712
通过使j从0变化到n-2,我们能对首领l的坐标xn到x2解码。
一旦解码出坐标x2,可以通过计算
Figure BDA00000424287800001713
得到
Figure BDA00000424287800001714
然而,如前所述,x1∈Z*的多个值能在中匹配(使用方程(7),我们可以推断出)。
为了得到解,我们引入解码器上的差
Figure BDA0000042428780000181
使得能用通过计算 的独特方式对坐标x1解码。实际上,应该注意,
Figure BDA0000042428780000184
(解码x2后得到的Np的前值)等于使用方程(9)计算出的值(添加差之前I1的值),假定这两个是严格相同标准的结果。
因此,仅使用信息I1
Figure BDA0000042428780000185
n、p和δ来计算首领l=(x1,x2,...,xn)。下节描述对首领进行编码和解码的示例。
4.编码和解码示例
设v=(-20,16,15,-40)是应该被编索引的形状因子p=0.3的广义高斯分布源的量化格矢量。假定置换和符号索引的计算不包括在本文的范围内,并能使用[5,13]容易地执行,这里我们将关注为首领编索引。与矢量v相对应的首领是l=(15,16,20,40)。编码和解码算法基于下面的原理。
编码步骤:
1)初始化:设p=0.3,精度δ=0.1。设首领索引l1=0;
2)计算首领l的范数lp,精度为δ:
r δ , 4 p = Σ i = 1 4 [ x i 0.3 0.1 ] = 10 ;
3)执行这些运算;我们将从确定f(101)开始。在这种情况下,f(101)=2264。接下来,对于j=0和i范围为从41(即40+1)到2264(即min(+∞,2264))方程(8)得到:
I 1 = 0 + Σ i = 41 2264 q ‾ 0.1 0.3 ( 101 - [ i 0.3 0.1 ] , 3 , i ) = 10032 ;
4)计算最高分量g4等于40的首领l前面的矢量数目。这意味着我们必须在3个部分中添加
对于f(71)=704、j=1且i范围为从21到40(即min(40,704))使用方程(8)得到:
I 1 = 10032 + 1 Σ i = 21 40 q ‾ 0.1 0.3 ( 71 - [ i 0.3 0.1 ] , 2 , i ) = 10076 ;
5)计算最高分量g4=40且g3=20的l前面的矢量数目。在这种情况下,我们必须在2个部分中添加
Figure BDA0000042428780000191
对于f(46)=167、j=2且i范围为从17到20(即min(20,167))使用方程(8)得到:
I 1 = 10076 + 5 Σ i = 17 20 q ‾ 0.1 0.3 ( 46 - [ i 0.3 0.1 ] , 1 , i ) = 10077 ;
6)在最后一步中,通过计算(见方程(8))更新I1
I 1 = 100774 + ( min ( f ( x ‾ 1 ) ) , x 2 ) - x 1 )
= 100774 + ( min ( f ( 23 ) , 16 ) - 15 )
= 100775 + ( min ( 17,16 ) - 15 )
= 100775 .
因此,对于p=0.3且δ=0.1,首领l=(15,16,20,40)的索引I1=100775。附录中的算法1汇集了整个编码过程。
解码步骤:
1)初始化:设
Figure BDA0000042428780000197
I1=100775,p=0.3,δ=0.1且n=4;
2)计算f(101)=2264;
3)解码x4。在这种情况下,我们将使用方程(12)得到(其中j=0):
Figure BDA0000042428780000198
通过使i从2264变到41,我们得到
Figure BDA0000042428780000199
然而,通过在
Figure BDA00000424287800001910
Figure BDA00000424287800001911
相加的结果中包括i=40,我们得到Np=100786,这严格高于I1。鉴于100321<100775<100786,我们定义坐标x4为i=40,且得到的首领是l=(x1,x2,x3,40)。此外,我们定义
Figure BDA00000424287800001912
4)解码x3。鉴于x4=40,我们发现
Figure BDA00000424287800001913
其中f(71)=704。接下来,我们计算
Figure BDA00000424287800001914
Figure BDA00000424287800001915
对于i=21,我们得到
Figure BDA0000042428780000201
对于i=20,
Figure BDA0000042428780000202
Figure BDA0000042428780000203
因此,x3定义为20,因此l=(x1,x2,20,40)。在这种情况下,
5)解码x2。鉴于x3=20,我们发现
Figure BDA0000042428780000205
其中f(46)=167。接下来,我们计算
Figure BDA0000042428780000206
Figure BDA0000042428780000207
最后一步,解码x1。鉴于x2=16,我们发现
Figure BDA0000042428780000208
最后,我们计算x1
x 1 = min f ( ( r δ , 1 p ) , x 2 ) - ( I 1 - N pbckp ( n - 2 ) )
= min ( f ( 23 ) , 16 ) - ( 100775 - 100774 )
= min ( 17,16 ) - ( 100775 - 100774 )
= 15 .
因此,我们得到1=(15,16,20,40)。附录中的算法2汇集了整个解码过程。
5.内存和计算成本
5.1内存需求
在不在线计算
Figure BDA00000424287800002013
的情况下,能如下面描述的那样计算内存需求。
无论使用哪种计数算法,都能将存储的解释为三维表,其中第一个输入是值
Figure BDA00000424287800002015
第二个是维数d∈Z+,第三个是最大格值k∈Z*。则预计最大内存需求是r·d·k·B字节,其中B是
Figure BDA00000424287800002016
的每个元素的字节数。
然而,对于给定最大范数
Figure BDA00000424287800002017
以及维数d,有效编码和解码步骤的限制更低。这是因为,根据方程(8)、(10)和(12),可以看出当j=0且i=imin(r,d)时,得到
Figure BDA00000424287800002018
的前两个输入变量的最大值。在这种情况下,我们计算
Figure BDA00000424287800002020
因此,使用区间
Figure BDA00000424287800002021
上的第一输入变量(与范数相关)以及区间[1,d-1]上的第二输入变量(与维数相关)就足够了。能根据r确定k的值。鉴于仅当
Figure BDA00000424287800002022
时需要第二约束,因而能在
Figure BDA00000424287800002023
时确定k的最大值,以便为具有位于区间[0,r]内的范数以及维数在区间[1,d]内的任意首领编索引。因此,由下式给出编码和解码步骤的内存成本上限:
Figure BDA0000042428780000211
应该注意,内存需求主要取决于包络线的范数和维数。首领数目决定B的选择。
图3示出了使用索引算法的节省内存,其中表
Figure BDA0000042428780000212
离线计算。内存需求根据p=1、δ=1且B=4(即整数型数据)时的半径r由方程(13)表示出,并与如[5]中描述的基于首领的常规方法的内存上限进行比较。应该注意,即使维数和半径分别低到16和20,常规方法也需要不超过10千兆字节(gigabyte)的内存,而提出的方法仅需要少于100千字节(kilobyte)。
极小的内存需求以及不必知道所有首领的事实使得能为高达64、128、256、512等维数的格矢量编索引。在现有工作中,实际应用限制在16维。
5.2计算成本
本节评估编码/解码算法计算首领索引的成本。在这种情况下,我们忽视构造表以及矢量f(i)和t(i)的成本,这是因为考虑到这些是离线进行的且仅进行一次。
计算成本表示具有范数
Figure BDA0000042428780000214
和维数d的每个首领的运算次数。使用方程(8)以及算法(1)和(2)(见附录),可以推断所需的运算仅仅是加法/减法(A)和逻辑比较运算(LC)。我们忽视内存访问,因为与这两种类型的运算相比,其所需的成本非常少。
下面评估对提出的索引算法进行编码/解码的成本。解码算法2实质上与编码算法1相反,大致包括相同的运算次数。通过对算法1中的运算次数进行计数来评估编码和解码算法的复杂度,如下所示:
1)总求和实现(n-1)A
2)由于“if/break”测试,第一个“for”(关于“j”)约执行nnz(1)次,其中nnz(1)表示l的非零值数。
3)对于第一个“for”的每个循环,我们得到:
i.由于第一个“if”,1A以及7LC
ii.由于函数“min”,1LC
iii.对于发生
Figure BDA0000042428780000221
次的关于“i”的每个“for”循环,3A以及1LC
4)对于最后的“if”和下一行,我们计数2A和2LC
因此,编码/解码算法关于加法、逻辑运算或比较的总成本由下式得到:
AC = ( ( n + 1 ) + nnz ( l ) + 3 · Σ j = 0 max ( min - x j ) ) A - - - ( 14 )
+ ( 2 + 8 · nnz ( l ) + Σ j = 0 max ( min - x j ) ) LC
其中nz(l)是首领l中零元素的数目,并且
Figure BDA0000042428780000224
max=max(nz(l)+1,2)。
根据本发明,为格矢量编索引被简化到为其对应的首领编索引以及置换和符号变化。我们提出了为矢量编索引而无需转换表的方案,使得能降低生成所有首领的内存使用以及复杂度。此外,该方案同样适用于具有0<p≤2的形状参数的广义高斯分布源。提出的方案是解析的,允许使用高矢量维数。
附录
编码和解码算法
算法1
/*用于对属于形状参数为p的面的首领索引进行编码的算法,其中精度为δ,维数
为n*/
CumTotal=cumsum(1,p,δ);//a
I1=0;
maximum=+∞;
for(j=n-1;j>=1;j--)//等于方程(8)的第一总和
{
        if(((p==1)&&(1[j-1]==0))||//b
       ((P!=1)&&(1[j]==0)))
        break;
        else
       { 
    r=CumTotal[j];
    for(i=min(maximum,f[r]);i>1[j];i--)
    {//方程(8)的第二总和
    rmd=r-t[i];
    if(t[i]>rmd)//没有第二约束
I 1 + = q ‾ δ p [ rmd ] [ j - 1 ] [ 0 ] ;
    else
    I1+=qa[rmd][j-1][i];}
         }
    maximum=1[j];
}
if(j==0)
     I1+=min(f[CumTotal[0]],1[1])-1[0];
return I1;//函数在此结束
/*a函数cumsum(1,p,δ)计算域
Figure BDA0000042428780000232
中首领l=(x1,x2,...,xn)的总和,并返回矢量v=(t[x1],t[x1]+t[x2],...,t[x1]+t[x2]+...+t[xn])。
b对于p=1,假设δ=1。
Figure BDA0000042428780000233
[r][d][k]以及矢量f和t由计数算法离线创建。*/
算法2
/*用于对曲面的首领l进行解码的算法,其中范数
Figure BDA0000042428780000234
形状因子为p、精度为δ、维数d=n且索引为I1*/
1=On;//n维零矢量maximum=+∞;
Np=0;
for(j=n-1;j>=1;j--)//相当于在方程(12)中j从0到n-2
{
        i=min(maximum,f[r]);
        while(Np<=I1)
        {
        Npbckp=Np
rmd=r-t[i];
if(t[i]>rmd)//没有第二约束
N p + = q ‾ δ p [ rmd ] [ j - 1 ] [ 0 ] ;
else
N p + = q ‾ δ p [ rmd ] [ j - 1 ] [ i ] ;
i--;
}
i++;
1[j]=i;
Np=Npbckp
maximum=i;
r-=t[i];
if(r==0)
break;
}
if(j==0)
1[0]=min(f[r],1[1])-(I1-Np);
return 1;//函数在此结束

Claims (26)

1.一种用于处理数字数据的方法,所述方法包括:量化步骤,该量化步骤包括在d维空间中为矢量l的至少一部分计算至少一个首领索引I1,所述矢量l构成输入数据的描述符,所述方法的特征在于,所述首领索引I1对应于按反字典顺序排在所述首领l前面的矢量数目,而不包括确定所有首领的步骤。
2.根据前述权利要求所述的处理方法,其特征在于:该处理方法不包括确定当前被计算的首领l之外的任何矢量的步骤。
3.根据权利要求1或2所述的处理方法,其特征在于:计算等于
Figure FDA0000042428770000011
的所述首领l的范数lp的步骤包括对所述首领l的坐标(x1,x2,...,xd)中的每个应用函数T,等于所述函数T(xi)对于在1到d之间变化的i值的结果的和,函数T(xi)返回坐标xi的p次幂除以精度因子δ的结果,所述除法的结果四舍五入到最接近的整数。
4.根据权利要求1-3中的至少一项所述的处理方法,其特征在于,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数
Figure FDA0000042428770000013
的步骤,其中x1到xd按升序排序;以及对坐标xi的递归计数步骤,i值在d到1之间变化,所述计数步骤包括对坐标xi位于xi+1
Figure FDA0000042428770000014
之间的矢量计数,索引I1等于所述计数步骤的结果的和,F(A)是返回整数值w的函数,其中值T(w)小于或等于所述函数F的自变量A。
5.根据权利要求1-3中的至少一项所述的处理方法,其特征在于,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数rp delta,d的步骤,其中x1到xd按降序排序;以及对坐标xi的递归计数步骤,i值在1到d之间变化,所述计数步骤包括对坐标xi位于xi+1
Figure FDA0000042428770000015
之间的矢量计数,索引I1等于所述计数步骤的结果的和,F(A)是返回整数值w的函数,其中值T(w)小于或等于所述函数F的自变量A。
6.根据权利要求1-3中的至少一项所述的处理方法,其特征在于,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数r的步骤,其中x1到xd按升序排序;以及对坐标xi的递归计数步骤,i值在d到1之间变化,所述计数步骤包括对坐标xi位于xi+1和MIN(xi+1,r-xi+1)之间的矢量计数,所述索引I1等于计数步骤的结果的和。
7.根据权利要求1-3中的至少一项所述的处理方法,其特征在于,所述计算首领索引I1的步骤包括:计算所述首领l(x1,x2,...xd)的范数r的步骤,其中x1到xd按降序排序;以及对坐标xi的递归计数步骤,i值在1到d之间变化,所述计数步骤包括对坐标xi位于xi+1和MIN(xi-1,r-xi-1)之间的矢量计数,索引I1等于计数步骤的结果的和。
8.根据权利要求1-7中任一项所述方法用于矢量数据的压缩的应用,包括:记录所述索引I1的二进制编码的结果以及至少记录符号索引Is、范数索引In和置换索引Ip
9.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是数字图像。
10.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是数字视频序列。
11.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是数字音频数据。
12.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是数字三维对象。
13.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是数字动画三维对象。
14.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是来自变换的系数(如DCT系数、小波系数等)。
15.根据权利要求8所述的压缩应用,其特征在于,所述矢量数据是存储在数据库中的信息。
16.根据权利要求1-7中任一项所述方法用于在矢量数据库中进行搜索的应用,包括:对于参考信息计算索引In,ref以及至少一个符号索引Is,ref、范数索引In,ref以及置换索引Ip,ref,并且包括搜索关联有相同索引的数据。
17.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是数字图像。
18.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是数字视频序列。
19.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是数字音频数据。
20.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是数字三维对象。
21.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是数字动画三维对象。
22.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是文本数据库中的对象。
23.根据权利要求16所述的搜索应用,其特征在于,所述矢量数据是来自变换的系数(如DCT系数、小波系数等)。
24.一种用于根据使用根据权利要求1-7中的至少一项所述的方法计算出的首领索引I1重构数字数据的方法,其特征在于,所述方法包括计算首领l的坐标(x1,x2,xd),其特征在于,所述方法包括对索引I1进行涉及寻找索引为I1的首领l的处理,而不包括确定所有首领的步骤,所述索引I1对应于按反字典顺序排在所述首领l前面的矢量数目。
25.根据权利要求24所述的重构数字数据的方法,其特征在于:对于在d到1之间变化的变量i执行递归处理,所述处理应用到坐标xi,xi
Figure FDA0000042428770000031
到0之间变化,并包括通过应用所述函数F(A)将计数步骤的结果相加,直到所述和大于所述索引I1,要搜索的坐标xi是导致所述索引I1被超过的坐标,该方法然后包括对于坐标xi-1,继续根据值I1求和,其中I1是在超过所述索引之前值I1前面的值。
26.根据权利要求24所述的重构数字数据的方法,其特征在于:对于在1到d之间变化的变量i执行递归处理,所述处理应用到坐标xi,xi
Figure FDA0000042428770000032
到0之间变化,并包括通过应用所述函数F(A)将计数步骤的结果相加,直到所述和大于所述索引I1,要搜索的坐标xi是导致所述索引I1被超过的坐标,该方法然后包括对于坐标xi+1,继续根据值I1求和,其中I1是在超过所述索引之前值I1前面的值。
CN200980125583.8A 2008-06-02 2009-05-27 用于处理数字数据的方法 Expired - Fee Related CN102084594B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0803017A FR2931963A1 (fr) 2008-06-02 2008-06-02 Procede de traitement de donnees numeriques
FR08/3017 2008-06-02
PCT/FR2009/000616 WO2009156605A2 (fr) 2008-06-02 2009-05-27 Procède de traitement de donnees numeriques

Publications (2)

Publication Number Publication Date
CN102084594A true CN102084594A (zh) 2011-06-01
CN102084594B CN102084594B (zh) 2014-12-10

Family

ID=40091259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980125583.8A Expired - Fee Related CN102084594B (zh) 2008-06-02 2009-05-27 用于处理数字数据的方法

Country Status (8)

Country Link
US (1) US8660187B2 (zh)
EP (1) EP2289171B1 (zh)
JP (1) JP5584203B2 (zh)
KR (1) KR101627000B1 (zh)
CN (1) CN102084594B (zh)
CA (1) CA2725799C (zh)
FR (1) FR2931963A1 (zh)
WO (1) WO2009156605A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796765A (zh) * 2014-10-08 2017-05-31 日本电信电话株式会社 非减序列判定装置、非减序列判定方法以及程序

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2931964A1 (fr) * 2008-06-02 2009-12-04 Centre Nat Rech Scient Procede de denombrement des vecteurs dans les reseaux reguliers de points.
US8848006B2 (en) * 2012-01-25 2014-09-30 Massachusetts Institute Of Technology Tensor displays
SE538512C2 (sv) * 2014-11-26 2016-08-30 Kelicomp Ab Improved compression and encryption of a file
SE544304C2 (en) * 2015-04-17 2022-03-29 URAEUS Communication Systems AB Improved compression and encryption of a file
JP2018136614A (ja) * 2017-02-20 2018-08-30 株式会社日立製作所 データ分散処理システム、データ分散処理方法、及びデータ分散処理プログラム
US11709270B1 (en) 2018-06-01 2023-07-25 Cintoo SAS, France Method of processing azimuth, elevation and range data from laser scanning an object

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003103151A1 (en) * 2002-05-31 2003-12-11 Voiceage Corporation Method and system for multi-rate lattice vector quantization of a signal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02215230A (ja) * 1989-02-15 1990-08-28 Matsushita Electric Ind Co Ltd ベクトル量子化装置
FR2773022B1 (fr) 1997-12-22 2000-01-28 France Telecom Procede de codage d'un vecteur d'un reseau representatif d'un signal quantifie et procede de decodage correspondant
FR2795589B1 (fr) 1999-06-11 2001-10-05 Centre Nat Rech Scient Decodeur video optimal base sur les standards de type mpeg
JP4590747B2 (ja) * 2001-02-06 2010-12-01 ソニー株式会社 ベクトル量子化のコードブック生成方法及びコードブック生成装置
JP4579930B2 (ja) * 2004-01-30 2010-11-10 フランス・テレコム 次元ベクトルおよび可変解像度量子化
WO2008104725A1 (fr) 2007-02-21 2008-09-04 France Telecom Procede de codage et decodage algebrique optimise, modules et programmes d'ordinateur associes
FR2931964A1 (fr) 2008-06-02 2009-12-04 Centre Nat Rech Scient Procede de denombrement des vecteurs dans les reseaux reguliers de points.
WO2010001020A2 (fr) 2008-06-06 2010-01-07 France Telecom Codage/decodage par plans de bits, perfectionne

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003103151A1 (en) * 2002-05-31 2003-12-11 Voiceage Corporation Method and system for multi-rate lattice vector quantization of a signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FONTELES, LEONARDO HIDD等: "Indexing Zn Lattice Vectors for Generalized Gaussian Distributions", 《INFORMATION THEORY》 *
PIERRE,LOYER等: "Lattice codebook enumeration for generalized Gaussian source", 《INFORMATION THEORY》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796765A (zh) * 2014-10-08 2017-05-31 日本电信电话株式会社 非减序列判定装置、非减序列判定方法以及程序
CN106796765B (zh) * 2014-10-08 2020-10-20 日本电信电话株式会社 非减序列判定装置、非减序列判定方法以及记录介质

Also Published As

Publication number Publication date
CA2725799C (fr) 2019-03-12
KR101627000B1 (ko) 2016-06-02
WO2009156605A8 (fr) 2010-11-04
CN102084594B (zh) 2014-12-10
US20110235719A1 (en) 2011-09-29
EP2289171B1 (fr) 2018-04-25
JP5584203B2 (ja) 2014-09-03
FR2931963A1 (fr) 2009-12-04
EP2289171A2 (fr) 2011-03-02
JP2011525728A (ja) 2011-09-22
KR20110033175A (ko) 2011-03-30
US8660187B2 (en) 2014-02-25
WO2009156605A3 (fr) 2010-10-07
WO2009156605A2 (fr) 2009-12-30
CA2725799A1 (fr) 2009-12-30

Similar Documents

Publication Publication Date Title
CN102084594B (zh) 用于处理数字数据的方法
CN103067022B (zh) 一种整型数据无损压缩方法、解压缩方法及装置
CN100518325C (zh) 用于视频压缩的组合的游程长度编码和可变长度编码
US8990217B2 (en) Lossless compression of high nominal-range data
CN101842988B (zh) 基于概率表动态计算的符号平面编码/解码
Chiarot et al. Time series compression survey
Duan et al. Compact descriptors for visual search
Hsieh et al. Fast search algorithms for vector quantization of images using multiple triangle inequalities and wavelet transform
US20130019029A1 (en) Lossless compression of a predictive data stream having mixed data types
Walder et al. Fast decoding algorithms for variable-lengths codes
Song et al. Efficient hierarchical entropy model for learned point cloud compression
CN112398484A (zh) 一种编码方法及相关设备
CN100370828C (zh) 用于将参数值映像到码字索引的自适应方法和系统
CN114640354A (zh) 数据压缩方法、装置、电子设备及计算机可读存储介质
CN102084595B (zh) 用于对规则点网中的矢量进行计数的方法
CN102132342A (zh) 一种通过内插滤波器更新编码器的方法
CN102422541B (zh) 编码方法、装置与系统、解码方法、装置与系统
CN102395031B (zh) 一种数据压缩方法
Imai et al. A Floating Point Data Compression Using Inter-Extrapolative Predictor
Amin et al. Vector quantization based lossy image compression using wavelets–a review
WO2016004629A1 (zh) 一种计算数据的预期压缩率的方法及装置
Dumitrescu et al. Optimal multiresolution quantization for scalable multimedia coding
SANDHU LOSSLESS DATA COMPRESSION: AN OVERVIEW
Bookstein et al. Models of bitmap generation: A systematic approach to bitmap compression
CN117041586A (zh) 图片压缩方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141210

Termination date: 20190527

CF01 Termination of patent right due to non-payment of annual fee