CN1695306A - 处理位符号的方法和设备、计算机可读媒介、计算机程序单元 - Google Patents
处理位符号的方法和设备、计算机可读媒介、计算机程序单元 Download PDFInfo
- Publication number
- CN1695306A CN1695306A CNA028299426A CN02829942A CN1695306A CN 1695306 A CN1695306 A CN 1695306A CN A028299426 A CNA028299426 A CN A028299426A CN 02829942 A CN02829942 A CN 02829942A CN 1695306 A CN1695306 A CN 1695306A
- Authority
- CN
- China
- Prior art keywords
- bit plane
- symbol
- bit
- data source
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 title claims abstract description 5
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000013179 statistical model Methods 0.000 claims abstract description 43
- 238000005315 distribution function Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 27
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 241001553178 Arachis glabrata Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Image Processing (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
- Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
- Logic Circuits (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
一种处理由数据源产生的位符号的方法,所述数据源特别是视频、静止图像或音频源,所述方法包括下列步骤:从所述数据源构建多个位平面,每个位平面包括多个位平面符号;扫描所述每个位平面的位平面符号,以产生位平面符号的二进制流;以及利用统计模型对所述位平面符号的二进制流进行编码,其中,所述统计模型是基于表征所述数据源的拉普拉斯概率分布函数的统计特性的。
Description
背景技术
在视频、图像和音频处理中,嵌入式编码已经引起了许多注意。这是因为嵌入式编码允许编码器在任何点终止编码过程,以满足预定的目标比特速率。另外,译码器可以在任何点截短比特流,并且仍能够获得被译码的视频、图像或音频的相对优良的质量。换言之,理想的嵌入式编码系统能够提供速率失真的最佳截短比特流,使得所述系统成为用于构建具有精细可伸缩性(FGS,Fine Granularity Scalability)的系统的理想的编码工具。
由于位平面编码(BPC,bit-plane coding)简单,连续位平面编码是实现嵌入式编码系统的常用方法。在BPC中,来自数据源的输入数据向量在位平面中被说明,并且然后从代表输入数据向量的最高有效位(MSB)的最高有效位平面开始,到代表输入数据向量最低有效位(LSB)的最低有效位平面,对所述位平面进行连续地编码。除了所述编码的结构简单以外,从输入数据向量的MSB到LSB的所述编码序列满足如[1]中公开的嵌入式编码过程的原理,其中应该首先对最影响视频/图像/音频数据质量的比特进行编码。
通常,实现给出速率失真曲线的最佳值的位平面编码是很复杂的,并且需要较高的计算资源。这是因为对于通常的数据源,在位平面之间以及数据采样之间存在统计相关性。为了捕获所述相关性,熵编码器必须使用具有大量条目的频率表,这不仅增加了所述熵编码器的复杂度,而且可能导致最终退化编码性能的大量的建模开销[2]。因此,大多位平面编码的实际实现通常采用折衷的方法以减小计算复杂度,但是不幸的是,这导致了性能退化。
因此,希望具有给出速率失真曲线的最佳值的位平面编码过程,其具有较低的计算复杂度,并且还不会导致性能上的严重退化。
发明内容
本发明的目的是提供一种具有较低计算复杂度的嵌入式编码方案,但是该方案具有与上述任何系统可以比拟的性能。
通过独立的权利要求的特性可以达到所述目的。其它特性由附属权利要求产生。
本发明涉及一种用于处理由数据源产生的位符号的方法,所述数据源特别是视频、静止图像或音频源,所述方法包括下列步骤:使用所述数据源产生的位符号来构建多个位平面,每个位平面包括多个位平面符号。扫描每个位平面的位平面符号以产生位平面符号的二进制流,并且利用统计模型对所述位平面符号的二进制流进行编码,其中所述统计模型是基于表征数据源的拉普拉斯概率分布函数的统计特性的。
首先以形成多个位平面的方式,来安排由包括多个输入数据向量的数据源所产生的位符号。每个位平面包括对应于所述数据源的每个位符号的多个位平面符号。
所述数据源可以涉及任何类型的数据信号,所述数据信号可以由捕获设备所捕获以进行进一步处理。具体地,本说明书中的数据源涉及视频、图像或音频源,其可以分别由录像机、照相机和麦克风来捕获以进行进一步处理。
开始于位平面,对所有位平面符号进行扫描以按照一定的方式来选择位平面符号,从而产生所述位平面符号的二进制流,所述位平面优选地包括输入数据向量的MSB。然后利用统计模型对由扫描过程所产生的位平面符号的二进制流进行编码。基于所述数据源的拉普拉斯概率分布函数(pdf)的统计特性而产生统计模型,所述数据源特别是视频/图像/音频源。
利用基于拉普拉斯pdf的统计特性的统计模型来对位平面符号的二进制流进行编码的优势在于,基于所述类型的统计模型的编码过程的计算复杂度非常低。当所述统计模型是基于一般的pdf的统计特性时,需要在编码器中维持特别大的概率表,这对于具有有限的计算资源和存储容量的应用而言是不合适的。为了克服所述问题,根据现有技术状态的多数BPC方案仅对位平面符号的有限子集进行熵编码,所述位平面符号具有非常偏斜的分布,这导致了编码效率的严重损失。
通过利用根据本发明的所述数据源的拉普拉斯pdf的统计特性,消除了对所述大概率表的需求,这大大降低了计算复杂度,并且还没有任何质量上的严重损失。
根据本发明的编码方法使用熵编码过程,所述过程是一种基于统计模型的数据压缩形式。优选地,运算编码器被用作熵编码器来对通过扫描过程所产生的位平面符号的二进制流进行编码。
由于熵编码提供了良好的压缩率,因此熵编码过程的运算编码是优选的。
拉普拉斯pdf可以利用下面的函数来定义:
其中σ是所述拉普拉斯pdf的标准偏差或分布参数。
根据本发明的实施例,使用上面的拉普拉斯pdf等式来确定给每个位平面符号的概率分配。所确定的概率分配随后被用于确定对位平面符号的二进制流进行编码的统计模型。
具体地,给每个所述位平面符号的概率分配由下式来确定:
其中,Pj是给所述位平面符号的概率分配,并且j表示所述位平面。
从所述拉普拉斯pdf获得上面的概率分配等式,并且所述概率分配等式被用于确定每个位平面符号的概率。特别是运算编码器的编码器随后使用所述数据源的概率或统计信息用来对位平面符号的二进制流进行编码。
由于所述拉普拉斯pdf的统计特性,大大减小了确定每个位平面的概率分布的复杂度。
在另一个实施例中,其中所述标准偏差σ不是已知的,基于先前被编码的位平面符号的信息,来确定给每个位平面符号的概率分配。
当所述数据源的统计特性的信息未知时,或当所述数据源是非平稳的,所述自适应过程在实际应用中是非常有用的。在所述情况下,基于从先前被编码的位平面符号所获得的信息来确定所述数据源的统计特性。
具体地,在所述实施例中,给每个位平面符号的概率分配由下式给出:
其中
Pj是给所述位平面符号的概率分配,
Na是直到先前的位平面结束为止,被编码的位平面符号的数目。
N是直到当前位平面符号为止,被编码的位平面符号的数目。
Pj Na是在观察了Na个位平面符号之后的Pj的估计,
Pj ML是针对当前位平面的Pj的最大似然估计,并且被定义为
其中bi,j是所述位平面符号。
优选地,来自先前被编码的位平面的Pj的估计,Pj Na,可以利用下式通过从先前的位平面更新来估计:
其中Pj+1 Na是来自先前位平面的Pj的估计。
在本发明的另一个实施例中,用于处理由数据源产生的位符号的方法还包括以下步骤:从将被编码的输入数据向量中确定最佳位平面(称为惰性平面(lazy plane)),基于每个位平面与惰性平面的关系来确定给每个位平面的概率分配,其中给所述位平面的概率分配被用于对位平面符号的二进制流进行编码的统计模型。
在所述实施例中,由于给每个位平面的概率分配由与所述惰性平面的关系来明确地确定,因此进一步降低了所述编码过程的计算复杂度。
首先,所述惰性平面从多个位平面中被选出。所述惰性平面由整数L表示,L满足下面的不等式:
φ2-L+1≤θ<φ2-L
其中
θ被定义为
上述决策规则实际上将分布参数σ的支持分割为分离的区域,并且指定对应于每个分割区域的惰性平面,以使所述惰性平面满足上面的不等式。
在根据本发明确定所述惰性平面之后,确定给每个位平面的概率分配。所述给每个位平面的概率分配是基于该位平面与最佳位平面的关系的,如下式所给出的:
其中
QJ L是给第j个位平面的概率分配。
可选地,当已知长度和所述数据源的输入数据向量的绝对值和时,所述惰性平面可以利用下面的等式来确定:
L=min{L∈Z|2L+1N≥A}
其中
N是输入数据向量的长度,并且
A是输入数据向量的绝对值和。
所述最佳位平面的确定可以通过稍微修改[3]中所公开的算法来实现,以扩展序列(order)L的范围到负整数。
在另一个可选实施例中,利用下面的等式来确定基于每个位平面与所述惰性平面的关系的给每个位平面的概率分配:
在所述实施例中,可以利用[4]中所公开的偏斜编码器来实现编码器。
如上所述,上述两个可选的实施例具有进一步减少对位平面符号的二进制流进行编码的计算复杂度的优势。
另外,提供了用于处理被编码的位平面符号的二进制流以产生代表所述数据源的输出数据的方法,该方法包括这样的步骤:对被编码的位平面符号的二进制流进行译码,以产生另一个位平面符号的二进制流,以使可以重构包括所述位平面符号的多个位平面。通过另一个统计模型所分配的概率,重构所述多个位平面,并且因此可以重构代表所述输入数据源向量的输出数据。所述统计模型是基于表征所述位平面符号的拉普拉斯概率分布函数的。
所述位平面符号的二进制流的译码过程中产生的统计模型与被用于编码过程的统计模型相同。换言之,被用于在编码过程中形成所述统计模型的概率分配,Pj或Qj L,在译码过程中被重新产生。
因此利用与在编码过程中所利用的统计模型相同的统计模型来重构所述多个位平面,这导致所述被重构的输出数据与原始数据源直到所述位平面完全相同,其中译码器终止被编码的位平面符号的二进制流。
另外,通过由所述统计模型所分配的概率,产生了源向量的最佳均方误差(MSE)重构。具体地,使用所述概率分配Pj来形成编码过程中的统计模型,并且利用下式来重构所述数据源:
其中
xi是被重构的数据源,以及
T是被编码的位平面符号的二进制流被终止的位平面。
同样地,当概率分配Qj L被用于形成编码过程中的统计模型时,利用下式来重构所述数据源:
本发明的所述实施例不仅应用于方法,而且也应用于设备、计算机可读媒介和计算机程序。
附图说明
图1示出了视频/图像/音频编码系统的一般结构;
图2示出了位平面编码系统的一般结构;
图3示出了根据本发明实施例的位平面编码的被修改的结构。
具体实施方式
图1示出了视频/图像/音频编码系统100的一般结构。特别是视频、图像或音频源的数据源由捕获设备101来接收。所述捕获设备101可以是录像机、照相机或麦克风以捕获不同类型的数据源。被捕获的数据首先被模数(A/D)转换器102转换为数字信号以进行进一步处理。
位平面编码系统103(后面将对其进行详细描述)接收所述A/D转换器中产生的数据源的位符号,所述位平面编码系统包括编码器单元104和译码器单元105。所述编码单元104对所述位符号进行编码,并且在信道上将所述被编码的符号发送给所述译码单元105。
所述译码单元105对被编码的符号进行译码,并且将所述被译码的符号发送给输出设备107来显示,所述输出设备例如是数字电视或数字照相机。如果所述输出设备107是模拟设备(例如音频扬声器),在输出所述被译码的符号到所述输出设备107之前,可以使用数模(D/A)转换器106来将该被译码的符号转换为模拟信号。
图2示出了位平面编码系统103的一般结构,该位平面编码系统包括编码单元104和译码单元105。所述编码单元104还包括位平面构建和扫描单元110、第一统计模型单元111和熵编码器112。所述译码单元105还包括熵译码器122、第二统计模型单元121和位平面重构单元120。
在所述编码过程的开始,所述位平面构建和扫描单元110接收所述位符号130。所述位符号130包括多个输入数据向量,该输入数据向量可以被表示为K维输入数据向量:
x={x1,x2,...,xk} (1)
xi也可以被如下表示为二进制形式:
其中si是标记符号,可以表示为:
并且bi,j是幅度符号,其中bi,j∈{0,1}。xi的二进制表示也可以被规范化为整数M满足下面的不等式:
2M-1≤max{|xi|}<2M,i=1,...,k (4)
当所述位平面构建和扫描单元110接收了所述位符号130的每个输入数据向量时,所述输入数据向量被分解为其标记符号si和幅度符号bi,j。安排所述输入数据向量的标记和幅度符号以形成多个位平面,其中每个位平面包括来自每个输入数据向量的标记符号si或幅度符号bi,j。通常,将对应于所述输入数据向量的最有效位(MSB,most significant bit)的幅度符号bi,j安排在第一位平面中,并且将第二MSB的幅度符号bi,j安排在第二位平面中等等。也将所述输入数据向量的标记符号si安排在另一个单独的位平面中。所述位平面的所有标记和幅度符号都称作位平面符号。
一旦构建了所述位平面,对所有包括于位平面中的位平面符号进行扫描,该扫描开始于包括所述输入数据向量的MSB的位平面。所述扫描过程是为了选择所述位平面符号以形成位平面符号131的二进制流。可以以下列步骤来概述一种可能的扫描过程:
1.从包括输入数据向量的MSB的位平面j=M-1开始扫描,
2.选择幅度符号bi,j,该符号的所有前面位平面的对应幅度符号为“0”:bi,M-1=bi,M-2=...=bi,j+1=0。
3.当所述幅度符号bi,j为“1”时,也选择所述标记符号si。步骤2)和3)也称为显著步骤(significance pass)。
4.选择没有在所述显著步骤中被选择的幅度符号bi,j。该步骤被称为精细步骤(refinement pass)。
5.进行到下一个位平面j-1。
迭代进行上述步骤直到一定的终止标准,例如达到预定的比特速率或预定的速率失真限制时终止所述步骤。
一旦上述扫描过程产生了位平面符号131的二进制流,还在熵编码器112中对所述流进行编码或压缩。所述数据源130的位平面符号的统计特性132被用在统计模型111中以提供概率分配133,该概率分配被用于在所述熵编码器112中对位平面符号131的二进制流进行编码。
在信道上发送来自所述熵编码器112的被编码的数据134,随后由所述熵译码器122来接收和译码所述数据。所述信道可以是因特网、广域网(WAN)或无线通信网。
所述熵译码器122接收被编码的数据134并将其译码为位平面符号135的二进制流。理论上,所述熵译码器122产生的位平面符号135的二进制流与位平面符号131的二进制流相同。
所述统计模型121使用位平面137的统计以产生与133相同的概率分配136,以使所述位平面符号可以被正确地译码。所述位平面重构单元120因而使用所述位平面符号135来重构位平面,以产生代表所述数据源的位符号130的输出数据138。
在希望最佳MSE重构的情况下,120也使用所述概率分配136来重新产生输出数据138。
应该指出,为了获得具有通用概率分布函数的数据源的位平面符号131的二进制流的最佳压缩,-log2Pr(si,bi,M-1,...)给出了用于编码位平面符号的熵编码器112所需的比特数目,其中所述概率Pr(si,bi,M-1,...)可以表达为:
Pr(si,bi,M-1,...,bi,M-j)=Pr(si)Pr(bi,M-1|si)...Pr(bi,M-j|si,bi,M-1,...,bi,M-j+1) (5)
其中,Pr(bi,M-j|si,bi,M-1,...,bi,M-j+1)表示在前面被编码的位平面上的bi,M-j的条件概率。
实际上,实现用于对数据源的所有位平面符号进行编码的熵编码器通常将需要具有大量条目的频率/概率表。对于以高比特速率编码而言,在所述频率表中将被维护的条目数量是非常巨大的,并且因此不实用,尤其是在具有有限的计算和存储能力的系统中。另外,自适应地设置具有未知分布的数据源可能引入大量的建模开销[2]。因此,在多数实际系统中采用了简单的技术,其中由所述熵编码器仅对具有非常偏斜分布的位平面符号(在所述显著步骤中被扫描的那些符号)进行编码,如[5]和[6]中所述。
根据本发明,对于位平面编码,所述熵编码器112使用多数数据源中内在的拉普拉斯概率分布函数的特性来对所述数据源进行编码,所述数据源特别是视频、图像和音频源。
具体地,所述统计模型111使用所述数据源的拉普拉斯pdf的统计特性,以产生用于对所述位平面符号132的二进制流进行编码的概率分配133。所述数据源的拉普拉斯pdf可以用下面等式表达:
其中,σ是标准偏差,或拉普拉斯pdf的分布参数。
从(6)中可以容易地验证:拉普拉斯源的位平面符号具有下面的独立特性:
Pj=Pr(bi,j=1)=Pr(bi,j=1|si,bi,M-1,...,bi,j+1) (7)
Pr(bi,j=0)=Pr(bi,j=0|si,bi,M-1,...,bi,j+1)=1-Pj (8)
Pr(si=1)=Pr(si=0)=0.5 (9)
其中,针对所述熵编码器而言对于每个位平面j的概率分配由(7)-(9)式给出。
通过(6),可以计算Pj:
当已知拉普拉斯pdf的分布参数σ(或标准偏差)时,使用等式(10)可以直接确定Pj。
当确定了Pj后,使用等式(7)到(9)可以确定每个位平面符号的概率,并且熵编码器112使用所述数据源的统计信息,来对所述位平面符号131的二进制流进行编码。
可以从上面看到,通过使用所述数据源的拉普拉斯pdf的统计特性,不需要根据现有技术的大量频率表的维护,并且因此大大简化了由所述熵编码器112对所述二进制流131所进行的编码过程。
在本发明的另一个实施例中,使用由等式(10)确定的每个位平面符号的概率分配Pj来重新生成二进制位平面符号135,所述符号由所述位平面重构单元120接收,以产生代表所述数据源130的位符号的输出数据138。
具体地,如果需要最佳的MSE重构,一旦熵译码器122译码了被编码的数据134的位平面T,根据本发明的输出数据138的最佳重新产生由下面等式给出:
当满足了预定的标准时,可以终止所述第二求和,例如当获得了预期数据源的质量。
在本发明的可选实施例中,基于对先前位平面符号编码所获的信息,自适应地确定所述位平面符号的概率分配Pj。当如同在大多实际情况中,所述拉普拉斯pdf的分布参数σ是未知时,所述自适应位平面编码(ABPC,adaptive bit-plane coding)过程是有用的。
当给定k个不同符号的流时,从Lidston的成功定律(Lidston’s Law ofSuccess)开始,如果在过去n个情况中第i个符号发生了ni次,使用下面等式来估计第i个符号发生的概率估计:
Pr(i|{ni},n)=(ni+λ)/(n+kλ) (12)
其中λ是正参数。通过如下重写等式(12),可以看出等式(12)是最大似然估计ni/n和在先平均(uniform prior)1/k的内插。
Pr(i|{ni},n)=μ(ni/n)+(1-μ)(1/k) (13)
其中替换了
μ=n/(n+kλ) (14)
在本发明的实施例中应用等式(13)给出
其中
Na是直到先前位平面结束为止,被编码的位平面符号的数目,
N是在当前位平面符号中,被编码的位平面符号的数目,
Pj Na是观察了Na个位平面符号之后的Pj的估计,
Pj ML是针对当前位平面的Pj的最大似然估计,以及
μ给出了所述两个概率估计之间的内插,μ由下式给出:
μ=1-(Na/N) (16)
由于针对在第j个位平面的N个符号bi,j的Pj的最大似然估计如下给出:
因此,可以定义Pj ML为
优选地,通过等式(10),利用下面等式可以从先前位平面Pj+1 Na来更新Pj Na:
所述实施例目前涉及找出给数据源的每个位平面符号的概率分配。
在本发明的另一个实施例中,采用了“两个步骤(two-pass)”的方法,其中对于将被所述熵编码器使用来对所述位平面符号的二进制流进行编码的每个位平面的概率分配,是通过统计将被编码的数据向量来确定的。
在所述实施例中,从多个离散的位平面中选出称为惰性平面的最佳位平面。所述编码单元104将所选的惰性平面上的信息发送给所述译码单元105,从而可以正确地译码被编码的数据134。
图3示出了根据本发明的所述实施例的、修改过的位平面编码系统的一般结构。
所述统计模型单元121接收包含于被编码的数据134中的所选惰性平面上的信息。所述统计模型单元121产生将被所述熵译码器122接收的概率分配136,以使可以正确地译码所述被编码的数据134的位平面符号。然后所述位平面重构单元120接收所述被译码的位平面符号135,以重构位平面来产生代表数据源的位符号130的输出数据138。
考虑码族(code family)由下式给出:
C={GL|L∈Z} (21)
其中GL表示数据源的位平面符号,并且L是表示惰性平面的整数。
根据本发明的所述实施例的概率分配由下式给出:
其中Qj L是给第j个位平面的概率分配,所述位平面遵循如针对i≥L的位平面的等式(19)所定义的概率更新规则,并且进入针对i<L的位平面的“惰性模式”(由于可以通过将所述输入符号直接输出给被编码的二进制流而获得针对1/2的概率分配的编码)。所述码族C可以被称作位平面戈龙码(BPGC,Bit-Plane Golomb Code)。
通过找出最能满足下面不等式的L的整数值,可以获得所述惰性平面L。
φ2-L+1≤θ<φ2-L (23)
其中:
L是代表最佳位平面的整数,
φ被定义为
并且
θ被定义为:
当已知例如长度和输入数据向量的绝对值和的充足的统计时,可以进一步简化(23)的判决规则为
L=min{|L∈Z|2L+1N≥A} (25)
其中
N是所述输入数据向量的长度,并且
A是所述输入数据向量的绝对值和。
可以利用[3]中描述的算法来实现如所述实施例中描述的选择过程。当[3]中算法被用于确定L的值时,仅可以确定L的正整数范围。为了扩展序列L的范围到负整数,要对[3]中描述的算法进行修改。
具体地,[3]的修改算法为:
if(N<=A)
for(L=1;(N<<(L+1))<A;L++)
else
for(L=-1;(N>>(-L))<=A;L--))
当确定了惰性平面L之后,可以确定将被所述熵编码器使用来对所述位平面符号的二进制流进行编码的位平面的概率分配。
在本发明的另一个可选实施例中,基于每个位平面与所述最佳位平面的关系,利用下面的等式来确定给所述每个位平面的概率分配:
其中
L是代表如可以由(23)来确定的最佳位平面的整数。
在所述实施例中,由(26)所给出的概率分配因此能够使用如[4]中所描述的偏斜编码器(skew coder),来作为以极低的复杂度实现的熵编码器而不是一般算法编码器。[4]的偏斜编码器能够将熵编码过程简化为较小数目的比特偏移,和限制对应于最小可能符号(LPS,least probablesymbol)的二次方的概率区间宽度的附加操作。另外,在对一连串连续最大可能符号(MPS,most probable symbol)的编码中,[4]的偏斜编码器保持了实现加速技术[6]的唯一简化,对所述一连串连续最大可能符号进行编码在对具有较高概率偏斜的位平面的编码中是典型的。
应当指出,在所有所描述的本发明的实施例中,除了产生BPSC的实施例以外,应当优选地使用运算编码器作为熵编码器。
在上面提到的本发明的两个实施例的另一个实施例中,等式(22)或(26)中确定的给每个位平面符号的概率分配Qj L被用来由所述位平面重构单元120产生输出数据,所述输出数据代表了数据源的位符号130。具体地,一旦所述熵译码器122译码了被发送数据134的位平面T,根据本发明的所述输出数据138的最佳重新产生由下面等式给出:
类似等式(11),第一求和
是所述位平面符号的重构,并且第二求和
是拉普拉斯pdf上对应所述输出数据138的位平面符号的内插。
当满足了预定标准时,可以终止所述第二求和,例如当达到了所述数据源的预期质量。
本发明所描述的实施例不仅应用于方法,而且也应用于设备、计算机可读媒介和计算机程序。
虽然已经描述了本发明的实施例,但是所述实施例仅是对本发明原理的说明。在不脱离本发明的精神并且不脱离附加权利要求的范围的前提下,可以设计其它实施例和配置。
本说明书中引用了下列文献:
[1]J.li and S.Lie,“An embedded still image coder withrate-distortion optimization”,IEEE Trans.on Image Processing,Vol.9,pp.1158-1170,Jul.2000.
[2]J.Rissanen,Stochastic Complexity in Statistical Inquiry,London,U.K.;World scientific,1989.
[3]M.J.Weinberger et al,“The LOCO-I lossless image compressionalgorithm:principles and standardization into JPEG-LS”,IEEE Trans.Image Processing,Vol.9,pp 1309-1324,Aug.2000.
[4]G.G.Langdon and J.Rissanen,“A simple general binary sourcecode”,IEEE Trans.Information Theory,Vol.28,pp.800-803,1982.
[5]D.Taubman and A.Zakhor,“Multirate 3-D subband coding ofvideo”,IEEE Trans.Image Processing,Vol.3,pp.572-588,Sept.1994.
[6]E.Ordentlich et al,“A low-complexity modeling approach forembedded coding of wavelet coefficients”,HP Labs Tech.Reports,HPL-97-150,1997.
Claims (20)
1.一种处理由数据源产生的位符号的方法,所述数据源特别是视频、静止图像或音频源,所述方法包括下列步骤:
-利用所述数据源产生的位符号来构建多个位平面,每个位平面包括多个位平面符号;
-扫描所述每个位平面的位平面符号,以产生位平面符号的二进制流;
-利用统计模型对所述位平面符号的二进制流进行编码,其中,所述统计模型是基于表征所述数据源的拉普拉斯概率分布函数的统计特性的。
2.根据权利要求1的方法,其中,由熵编码器来对所述位平面符号的二进制流进行编码。
3.根据权利要求2的方法,其中,运算编码器被用作所述熵编码器。
4.根据权利要求1到3的任何一个的方法,其中所述拉普拉斯概率分布函数由下式定义:
其中,σ是拉普拉斯概率分布函数的标准偏差。
5.根据权利要求4的方法,其中,基于所述拉普拉斯概率分布函数确定给每个位平面符号的概率分配,并且所述概率分配被用于确定对所述位平面符号的二进制流进行编码的统计模型。
6.根据权利要求5的方法,其中,给所述位平面符号的概率分配由下式确定:
其中
Pj是给所述位平面符号的概率分配,并且
j是所述位平面。
7.根据权利要求4的方法,其中,基于先前被编码的位平面符号来确定给每个位平面符号的概率分配。
8.根据权利要求7的方法,其中,给所述位平面符号的概率分配由下式确定:
其中
Pj是给当前位平面符号的概率分配,
j是所述位平面,
Na是直到所述先前位平面结束为止,被编码的位平面符号的数目,
N是直到当前位平面符号为止,被编码的位平面符号的数目,
Pj Na是观察了Na个位平面符号之后的Pj的估计,
Pj ML是针对当前位平面的Pj的最大似然估计,并且被定义为
其中,bi,j是所述位平面符号。
9.根据权利要求8的方法,其中,在观察了Na个位平面符号之后的Pj的估计,Pj Na,可以由下式更新:
其中,Pj+1 Na是来自所述先前位平面的Pj的估计。
10.根据权利要求4的方法,还包括下列步骤:
-从所述多个被构建的位平面来确定最佳位平面;
-基于每个位平面与所述最佳位平面的关系,确定给所述每个位平面的概率分配;
-其中,给所述位平面的概率分配被用于对所述位平面符号的二进制流进行编码的统计模型。
11.根据权利要求10的方法,其中,通过确定最满足下式的整数,来确定所述最佳位平面:
φ2-L+1≤θ<φ2-L
其中
L是代表所述最佳位平面的整数,
φ被定义为
θ由下式定义:
12.根据权利要求11的方法,其中,所述位平面的概率分配由下式确定:
其中
Qj L是给第j个位平面的概率分配。
13.根据权利要求11的方法,其中,所述位平面的概率分配由下式确定:
其中
Qj L是给第j个位平面的概率分配。
14.根据权利要求6或8的方法,还包括下列步骤:
-利用另一个统计模型对所述被编码的位平面符号的二进制流进行译码,以产生另一个位平面符号的二进制流,
-利用另一个位平面符号的二进制流来重构包括所述位平面符号的多个位平面,其中,所述另一个统计模型是基于拉普拉斯概率分布函数的统计特性的,该拉普拉斯概率分布函数表征了所述被重构的位平面的位平面符号。
15.根据权利要求14的方法,其中,通过下式从所述位平面重构所述数据源:
其中
xi是所述被重构的数据源,
xi是i的标记符号,
bi,j是所述位平面符号,以及
T是所述被编码的位平面符号的二进制流被终止的位平面。
16.根据权利要求12或13的方法,还包括下列步骤:
-利用另一个统计模型对所述被编码的位平面符号的二进制流进行译码,以产生另一个位平面符号的二进制流,
-利用另一个位平面符号的二进制流来重构包括所述位平面符号的多个位平面,其中,另一个统计模型是基于拉普拉斯概率分布函数的统计特性的,该拉普拉斯概率分布函数表征了所述被重构的位平面的位平面符号。
17.根据权利要求16的方法,其中,通过下式从所述位平面重构所述数据源:
其中
xi是所述被重构的数据源,
si是i的标记符号,
bi,j是所述位平面符号,以及
T是所述被编码的位平面符号的二进制流被终止的位平面。
18.一种用于处理由数据源产生的位符号的设备,所述数据源特别是视频、静止图像或音频源,所述设备包括:
-位平面构建单元,其用于从所述数据源构建多个位平面,每个位平面包括多个位平面符号,并且扫描所述每个位平面的位平面符号,以产生位平面符号的二进制流,
-统计模型单元,其用于基于表征所述数据源的拉普拉斯概率分布函数的统计特性来提供统计信息,
-编码单元,其用于基于由所述统计模型单元提供的统计信息,对所述位平面符号的二进制流进行编码。
19.一种具有被记录在其上的程序的计算机可读媒介,其中,所述程序可以使计算机执行处理数据源的位符号的过程,所述过程包括下列步骤:
-利用所述数据源产生的位符号来构建多个位平面,每个位平面包括多个位平面符号;
-扫描每个位平面的位平面符号,以产生所述位平面符号的二进制流;
-利用统计模型来对所述位平面符号的二进制流进行编码,其中,所述统计模型是基于表征所述数据源的拉普拉斯概率分布函数的统计特性的。
20.一种计算机程序单元,其可以使计算机执行处理由数据源产生的位符号的过程,所述过程包括下列步骤:
-利用由所述数据源产生的位符号来构建多个位平面,每个位平面包括多个位平面符号;
-扫描所述每个位平面的位平面符号,以产生所述位平面符号的二进制流;
-利用统计模型来对所述位平面符号的二进制流进行编码,其中,所述统计模型是基于表征所述数据源的拉普拉斯概率分布函数的统计特性的,其中,所述数据源具有拉普拉斯概率分布函数的形式。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SG2002/000248 WO2004042933A1 (en) | 2002-10-24 | 2002-10-24 | A method and a device for processing bit symbols generated by a data source; a computer readable medium; a computer program element |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1695306A true CN1695306A (zh) | 2005-11-09 |
CN1695306B CN1695306B (zh) | 2010-05-26 |
Family
ID=32310990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN028299426A Expired - Lifetime CN1695306B (zh) | 2002-10-24 | 2002-10-24 | 用于处理由数据源生成的位符号的方法和设备 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7532763B2 (zh) |
EP (1) | EP1573922B9 (zh) |
JP (1) | JP4067526B2 (zh) |
KR (1) | KR100989686B1 (zh) |
CN (1) | CN1695306B (zh) |
AT (1) | ATE403975T1 (zh) |
AU (1) | AU2002349861A1 (zh) |
BR (1) | BR0215919A (zh) |
DE (1) | DE60228139D1 (zh) |
ES (1) | ES2311637T3 (zh) |
MX (1) | MXPA05004354A (zh) |
WO (1) | WO2004042933A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013026210A1 (en) * | 2011-08-25 | 2013-02-28 | Technicolor (China) Technology Co., Ltd. | Hierarchical entropy encoding and decoding |
CN108616281A (zh) * | 2015-04-15 | 2018-10-02 | 辛博立科伊奥公司 | 用于超密集io数字保留的方法和装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050087956A (ko) * | 2004-02-27 | 2005-09-01 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
KR100818268B1 (ko) * | 2005-04-14 | 2008-04-02 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 장치와 방법 |
EP2183851A1 (fr) * | 2007-08-24 | 2010-05-12 | France Telecom | Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites |
KR101615384B1 (ko) * | 2010-04-05 | 2016-04-25 | 삼성전자주식회사 | 통신 시스템에서의 채널 부호화 장치 및 방법 |
US20130223528A1 (en) * | 2010-11-15 | 2013-08-29 | Electronics And Telecommunications Research Institute | Method and apparatus for parallel entropy encoding/decoding |
WO2013159112A1 (en) * | 2012-04-20 | 2013-10-24 | The Board Of Regents Of The University Of Texas System | Systems and methods for simultaneous compression and encryption |
KR101568398B1 (ko) * | 2014-02-11 | 2015-11-12 | 동서대학교산학협력단 | 탄착점 추출을 위한 레이저 사격 시스템, 그리고 레이저 사격 시스템에서의 탄착점 추출 방법 |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5881176A (en) * | 1994-09-21 | 1999-03-09 | Ricoh Corporation | Compression and decompression with wavelet style and binary style including quantization by device-dependent parser |
GB9422738D0 (en) * | 1994-11-10 | 1995-01-04 | Univ Western Ontario | Context-based, adaptive, progressive, lossless compression of still continuous -tone images |
JP3288191B2 (ja) | 1994-12-13 | 2002-06-04 | 富士通株式会社 | レベルプレーン展開法を用いる符号化方法および符号/復号装置 |
US6625321B1 (en) | 1997-02-03 | 2003-09-23 | Sharp Laboratories Of America, Inc. | Embedded image coder with rate-distortion optimization |
JPH10336463A (ja) | 1997-05-31 | 1998-12-18 | Hirobumi Nakamura | 符号化画素の周辺の階調値のばらつき具合によって頻度分布を選択する画像圧縮復元装置 |
EP1030524A1 (en) | 1999-02-19 | 2000-08-23 | Alcatel | Method for encoding a digital image and coder |
US6477280B1 (en) * | 1999-03-26 | 2002-11-05 | Microsoft Corporation | Lossless adaptive encoding of finite alphabet data |
CN1107381C (zh) * | 1999-06-03 | 2003-04-30 | 鸿友科技股份有限公司 | 扫描图像实时压缩/解压缩方法 |
US7020342B1 (en) * | 1999-08-27 | 2006-03-28 | Koninklijke Philips Electronics N.V. | Scalable coding |
US6433707B1 (en) * | 1999-12-03 | 2002-08-13 | Pixar Animation Studios | Universal lossless compressor for digitized analog data |
US6501397B1 (en) * | 2000-05-25 | 2002-12-31 | Koninklijke Philips Electronics N.V. | Bit-plane dependent signal compression |
-
2002
- 2002-10-24 KR KR1020097021577A patent/KR100989686B1/ko not_active IP Right Cessation
- 2002-10-24 MX MXPA05004354A patent/MXPA05004354A/es active IP Right Grant
- 2002-10-24 JP JP2004549789A patent/JP4067526B2/ja not_active Expired - Lifetime
- 2002-10-24 AT AT02786341T patent/ATE403975T1/de not_active IP Right Cessation
- 2002-10-24 CN CN028299426A patent/CN1695306B/zh not_active Expired - Lifetime
- 2002-10-24 DE DE60228139T patent/DE60228139D1/de not_active Expired - Lifetime
- 2002-10-24 BR BR0215919A patent/BR0215919A/pt not_active IP Right Cessation
- 2002-10-24 AU AU2002349861A patent/AU2002349861A1/en not_active Abandoned
- 2002-10-24 EP EP02786341A patent/EP1573922B9/en not_active Expired - Lifetime
- 2002-10-24 ES ES02786341T patent/ES2311637T3/es not_active Expired - Lifetime
- 2002-10-24 WO PCT/SG2002/000248 patent/WO2004042933A1/en active Application Filing
- 2002-10-24 US US10/532,773 patent/US7532763B2/en not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013026210A1 (en) * | 2011-08-25 | 2013-02-28 | Technicolor (China) Technology Co., Ltd. | Hierarchical entropy encoding and decoding |
CN103858433A (zh) * | 2011-08-25 | 2014-06-11 | 汤姆逊许可公司 | 分层熵编码及解码 |
US9035807B2 (en) | 2011-08-25 | 2015-05-19 | Thomson Licensing | Hierarchical entropy encoding and decoding |
CN103858433B (zh) * | 2011-08-25 | 2017-08-15 | 汤姆逊许可公司 | 分层熵编码及解码 |
CN108616281A (zh) * | 2015-04-15 | 2018-10-02 | 辛博立科伊奥公司 | 用于超密集io数字保留的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US7532763B2 (en) | 2009-05-12 |
KR100989686B1 (ko) | 2010-10-26 |
KR20090122390A (ko) | 2009-11-27 |
WO2004042933A1 (en) | 2004-05-21 |
BR0215919A (pt) | 2005-08-23 |
EP1573922B1 (en) | 2008-08-06 |
CN1695306B (zh) | 2010-05-26 |
JP2006505210A (ja) | 2006-02-09 |
ES2311637T3 (es) | 2009-02-16 |
US20060200709A1 (en) | 2006-09-07 |
ATE403975T1 (de) | 2008-08-15 |
EP1573922A1 (en) | 2005-09-14 |
DE60228139D1 (de) | 2008-09-18 |
JP4067526B2 (ja) | 2008-03-26 |
EP1573922B9 (en) | 2009-03-18 |
MXPA05004354A (es) | 2005-10-18 |
AU2002349861A1 (en) | 2004-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1221927C (zh) | 图像处理装置和方法 | |
CN1220178C (zh) | 在码本中进行搜索以对声音信号编码的方法和设备 | |
CN1257614C (zh) | 信号编码方法与装置以及信号解码方法与装置 | |
CN1225126C (zh) | 用于视频编码的新型空间预测方法及其装置 | |
CN1214647C (zh) | 图像编码方法和图像编码器 | |
CN1656817A (zh) | 上下文自适应的vlc视频变换系数编码/解码方法与设备 | |
CN101060622A (zh) | 数字信号编、解码装置、数字信号算术编、解码方法 | |
CN1767395A (zh) | 整数数据的无损自适应编码与解码 | |
CN1610265A (zh) | 算术解码/编码装置、携带终端、活动图像摄影及记录/重放装置 | |
CN1890711A (zh) | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 | |
CN1910657A (zh) | 声频信号编码方法、声频信号解码方法、发送器、接收器和无线传声系统 | |
CN1535027A (zh) | 一种用于视频编码的帧内预测方法 | |
CN1535024A (zh) | 视频编码设备、方法和程序及视频解码设备、方法和程序 | |
CN1578477A (zh) | 用于色彩图像的视频编码/解码装置和方法 | |
CN1625265A (zh) | 用于可伸缩视频编码和解码的方法和设备 | |
CN1950832A (zh) | 用于ac预测状态以及宏块半帧/帧编码类型信息的位平面编码和解码 | |
CN1575546A (zh) | 变换及后续量化的实现 | |
CN1515078A (zh) | 可变长度编码方法,可变长度译码方法,存储介质,可变长度编码设备,可变长度译码设备,和位流 | |
CN1282107C (zh) | 一种对图像进行快速压缩和解压缩的方法 | |
CN1270541C (zh) | 编码设备和方法 | |
CN1926880A (zh) | 数据处理装置、方法和编码装置 | |
CN1655622A (zh) | 视频通信设备与视频通信方法 | |
CN1076933C (zh) | 图像编码装置及方法 | |
CN1695306A (zh) | 处理位符号的方法和设备、计算机可读媒介、计算机程序单元 | |
CN1652608A (zh) | 数据处理装置及其方法以及编码装置和解码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20100526 |
|
CX01 | Expiry of patent term |