CN107231556B - 一种图像云储存设备 - Google Patents

一种图像云储存设备 Download PDF

Info

Publication number
CN107231556B
CN107231556B CN201710112990.1A CN201710112990A CN107231556B CN 107231556 B CN107231556 B CN 107231556B CN 201710112990 A CN201710112990 A CN 201710112990A CN 107231556 B CN107231556 B CN 107231556B
Authority
CN
China
Prior art keywords
image
quantization
coarse
quantized
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710112990.1A
Other languages
English (en)
Other versions
CN107231556A (zh
Inventor
刘贤明
张晋声
林嘉文
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Research Organization of Information and Systems
Original Assignee
Peking University
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Research Organization of Information and Systems filed Critical Peking University
Publication of CN107231556A publication Critical patent/CN107231556A/zh
Application granted granted Critical
Publication of CN107231556B publication Critical patent/CN107231556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Abstract

根据本发明的微云20,具备一粗密转换单元22,关于从第1量化系数进行的基于第2量化宽度量化的第2量化系数,用于向第一量化系数进行逆映射,所述第1量化系数为将输入图像进行基于第1量化宽度的量化,所述第2量化宽度比第1量化宽度更宽;粗密转换单元22,从第2量化宽度范围内的第1量化系数的备选项中,基于先验概率选择使量化单元量最大的量化系数,将其作为第1量化系数进行逆映射。

Description

一种图像云储存设备
技术领域
本发明涉及一种图像处理设备,特别涉及一种用于处理经过编码转换的压缩图像的图像处理设备。
背景技术
近年来,随着社交媒体网站和照片共享网站的日渐普及,不断增加的用户每天都要上传大量的图像数据。因此,经营此类网站的运营商,期望能够高速而且大量地存储上传的图像。
然而,尽管所产生信息的堆积量在不断增加,但人们给予这些信息的时间或关注则是有限的资源(非专利文献1)。因此,实际上能够获得访问、并由用户浏览的图像仅仅为大量被保存的图像中的一部分。也就是说,在用户上传的图像量和用户下载(被访问阅览)的图像量之间存在不对称的关系。为此,网站运营商有必要采取使整体数据存储费用最小化的方法。
这里,非专利文献2公开了有关稀疏信号(sparse signal)和稀疏模型(sparsitymodel)的技术,而非专利文献3和4公开了与逆量化有关的技术。
另外,例如非专利文献5~8中还公开了有关云计算存储的图像压缩相关技术。非专利文献5公开了通过SIFT描述符重建来自大型图像数据库的图像的技术。非专利文献6公开了改良的用于压缩相册的技术,其不是通过分析和搜索图像间相关性的像素值的搜索、而是通过局部特征的搜索来实现的。
非专利文献7公开了一项有关新型云计算数据库分配图像编码方案的技术。
另外,非专利文献8公开了有关JBIG的技术。
在这里,专利文献1公开了一种用于提高压缩数据压缩度的JPEG图像代码转换相关技术。另外,专利文献2公开了一项图像处理设备相关技术:该设备用于将图像数据作为数据包进行处理,从而实时将图像数据作为存储器存储容量范围内的数据量进行压缩。
【现有技术文献】
【专利文献】
【专利文献1】特表2006-501736号公报
【专利文献2】特开2003-244446号公报
【非专利文献】
【非专利文献1】D.J.Levitin,The Organized Mind:Thinking Straight in theAge of Information Overload,Penguin,2014.
【非专利文献2】M.Elad,M.A.T.Figueiredo,and Y.Ma,“On the role of sparseand redundant representations in image processing,”Proc.IEEE,vol.98,no.6,pp.972-982,June 2010.
【非专利文献3】X.Liu,G.Cheung,X.Wu,and D.Zhao,“Inter-block softdecoding of JPEG images with sparsity and graphsignal smoothness priors,”inIEEE International Conference on Image Processing,Quebec City,Canada,September 2015.
【非专利文献4】X.Liu,X.Wu,J.Zhou,and D.Zhao,“Data-driven sparsity-basedrestoration of JPEG-compressed images in dual transform-pixel domain,”in IEEEConference on Computer Vision and Pattern Recognition(CVPR),June 2015.
【非专利文献5】H.Yue,X.Sun,J.Yang,and F.Wu,“Cloud-based image codingfor mobile devices-toward thousands to one compression,”IEEETrans.Multimedia,vol.15,no.4,pp.845-857,June 2013.
【非专利文献6】Z.Shi,X.Sun,and F.Wu,“Photo album compression for cloudstorage using local features,”IEEE J.Emerg.Sel.Topic Circuits Syst.,vol.4,no.1,pp.17-28,Mar.2014.
【非专利文献7】X.Song,X.Peng,J.Xu,G.Shi,and F.Wu,“Cloud baseddistributed image coding,”IEEE Trans.Circuits Syst.Video Technol.,vol.26,no.6,pp.1-1,June 2016.
【非专利文献8】F.Ono,W.Rucklidge,R.Arps,and C.Constantinescu,“JBIG2-theultimate bi-level image coding standard,”in IEEE International Conference onImage Processing,Vancouver,Canada,September 2000.
【非专利文献9】Xianming Liu,Gene Cheung,Xiaolin Wu,Debin Zhao,"RandomWalk Graph Laplacian based Smoothness Prior for Soft Decoding of JPEGImages,"accepted to IEEE Transactions on Image Processing,October 2016.(arXiv)
【非专利文献10】M.Elad and M.Aharon,“Image denoising via sparse andredundant representation over learned dictionaries,”in IEEE Transactions onImage Processing,vol.15,no.12,December 2006.
【非专利文献11】J.Pang,G.Cheung,W.Hu,and O.C.Au,“Redefining self-similarity in natural images for denoising using graph signal gradient,”inAPSIPA ASC,Siem Reap,Cambodia,December 2014.
【非专利文献12】A.Gersho and R.M.Gray,Vector Quantization and SignalCompression.Norwell,MA,USA:Kluwer Academic Publishers,1991.
【非专利文献13】L.Y.Wei and M.Levoy,“Fast texture synthesis using tree-structured vector quantization,”in SIGGRAPH’00:Proceedings of the 27th annualconference on Computer graphics and interactive techniques.New York,NY,USA:ACM Press/Addison-Wesley Publishing Co.,2000,pp.479-488.[Online].Available:http://dx.doi.org/10.1145/344779.345009
【非专利文献14】K.Ramchandran and M.Vetterli,“Best wavelet packet basesin a rate-distortion sense,”IEEE Transactions on Image Processing,vol.2,no.2,pp.160-175,Apr 1993.。
发明内容
在此,在上述专利文献1所述的代码转换过程中,存在下述问题:解码时,难以实现从粗量化二进制索引(第2次量化产生的量化系数)到密量化二进制索引(第1次量化产生的量化系数)的逆映射(量化数据仓库匹配(QBM,quantization bin matching)。
另外,非专利文献5~8中记载的技术,不能保证用户上传的原始图像的正确恢复。
本发明的目的是提供一种图像处理系统以解决上述问题,该图像处理系统在进行解码时,实现高压缩率的同时,保证用户可以接受的图像质量。
根据本发明第1方面提供的图像处理设备,其特征在于,
具备一逆映射单元,用于关于从第1量化系数进行的基于第2量化宽度的量化的第2量化系数,向第1量化系数进行逆映射,所述第1量化系数为将输入图像进行基于第1量化宽度的量化,所述第2量化宽度比第1量化宽度更宽;
所述逆映射单元,
从所述第2量化宽度范围内的所述第1量化系数的备选项中,基于先验概率(priorprobability)选择能够使量化单元量最大化的量化系数,将其作为所述第1量化系数来进行所述逆映射。
根据本发明的第2个方面提供的图像处理设备,其特征在于,具备
一过度完备字典(over complete dictionary),用于根据多个图像的特征量的分布分类到多个群集;
一稀疏(sparse)图表模板,用于图表化所述特征量的分布,分类到所述多个群集;
一学习单元,用于从所述多个图像学习所述过度完备字典和所述稀疏图表模板;
一再编码单元,用于对于包括第1量化系数的编码图像,基于比所述第1量化宽度更大的第2量化宽度,从所述第1量化系数再编码至第2量化系数,所述第1量化系数为将输入图像基于第1量化宽度进行量化;
和一逆映射单元,用于对于所述第2量化系数,使用所述过度完备字典和所述稀疏图表模板,向所述第1量化系数进行逆映像;
所述学习单元,对于从所述多个图像抽取的多个块图像,通过TSVQ(Tree-Structured Vector Quantization)分类至多个群集,构建二叉树,为了减少对于所述分类的各群集的群集索引的偏移,替换所述二叉树的节点,对于所述替换后的所述二叉树进行修剪,以使比率失真最优化,对于所述修剪后的所述二叉树,学习所述过度完备字典和所述稀疏图表模板;
所述再编码单元,进行再编码时,将群集索引保存在对应于所述第2量化系数的存储设备中,所述群集索引,进行再编码时,用于判断所述输入图像与所述学习后的所述过度完备字典及所述稀疏图表模板的哪个群集相符合;
所述逆映射单元,基于与所述第2量化系数关联的所述群集索引确定所述过度完备字典及所述稀疏图表模板内的群集,使用该确定的群集进行所述逆映射。
本发明能够提供一种图像处理系统,这种图像处理系统不仅可以实现高压缩率,还能在解码时保证用户可以接受的图像质量。
附图说明
图1是根据本发明实施例1表示云存储系统的全部构成的框图。
图2是根据本发明实施例1表示说明图像上传时流程的顺序图。
图3是根据本发明实施例1表示说明图像下载时流程的顺序图。
图4是根据本发明实施例1表示说明QBM解决方案的概念的图。
图5是根据本发明实施例1表示说明粗密转换处理(量化数据仓库匹配)之流程的流程图。
图6是根据本发明实施例1表示压缩增益之实例的示意图。
图7是根据本发明实施例1表示比率失真性能压缩之实例的示意图。
图8是根据本发明实施例1表示比率失真性能压缩之实例的示意图。
图9是根据本发明实施例1表示比率失真性能压缩之实例的示意图。
图10是根据本发明实施例2表示说明对于块内像素进行的密量化与粗量化之间关系的图。
图11是根据本发明实施例3表示图像处理系统之全部构成的框图。
图12是根据本发明实施例3表示说明粗密转换处理之流程的流程图。
图13是根据本发明实施例3表示利用Bag of Visual Words(BoVW)之情况下概念的示意图。
图14是根据本发明实施例3表示在某图像上特征量分布之实例的示意图。
图15是根据本发明实施例4表示云存储系统之全部构成的框图。
图16是根据本发明实施例4表示说明脱机学习之流程的图。
图17是根据本发明实施例4表示稀疏图表模板之实例的示意图。
图18是根据本发明实施例4表示说明通过脱机学习生成的树之概念的图。
图19是表示说明子空间检索的图。
图20是表示说明替换二叉树节点的图。
图21是表示说明比较二进制位分配前后索引偏移之概率分布的示意图。
图22是表示说明微分计数器之概念的图。
图23根据本发明实施例4表示码书设计算法之实例的示意图。
具体实施方式
以下,参照附图详细说明适用本发明的具本实施方式。在各附图中,相同的要素用相同的符号表示,为了说明的清楚明确,如有必要则省略重复说明。
<实施例1>
图1是根据本发明实施例1表示云存储系统的整体结构的框图。云存储系统具备用户终端11和12等、微云20和云存储器30。用户终端11通过网络(未图示)与微云20连接。
用户终端11是用户U1操作的信息处理终端,例如手机、智能手机、平板电脑终端、PC机等。用户终端11具备图像编码单元111和图像解码单元112。图像编码单元111对于用照相机等拍摄的输入图像,使用量化参数(quantization parameters(QP))q进行JPEG的编码,从而生成编码图像P2。也就是说,编码图像P2是对于输入图像P1的压缩数据。本实施例中,用户终端11可以将编码图像P2上传到微云20。图像解码单元112可以对使用JPEG编码的图像解码后用于显示。
用户终端12是用户U2操作的信息处理终端。用户终端12具备与用户终端11相同构成的图像编码单元121及图像解码单元122。用户终端12在从微云20下载用JPEG编码的图像、即恢复编码图像P4的情况下,使用量化参数q进行JPEG的解码,输出(显示等)解码图像P5。
微云20是用1台以上计算机设备实现的云服务器。微云20通过网络与用户终端11等和云存储器30连接。微云20具备再编码单元21、粗密转换单元22和字典DB23。字典DB23是解码过程中存储参考信息的数据库。
对于编码图像P2,再编码单元21使用比QP q更粗的(幅宽的)Q进行再编码,从而生成再编码图像P3。接下来,微云20将再编码图像P3发送并保存至云存储器30。
粗密转换单元22是逆映射单元的一个实例,按照从用户终端12发出的图像请求,从云存储器30获得再编码图像P3,基于字典DB23对再编码图像P3进行粗密转换(量化数据仓库匹配),从而将P3恢复成恢复编码图像P4,再将P4返回到用户终端12。
云存储器30是具备多个永久性存储器31~3n的云计算型存储器,也称作中央云。云存储器30通过网络与微云20连接。例如,存储器31中保存了上述再编码图像P3。
图2是根据本发明实施例1表示说明图像上传时流程的顺序图。首先,用户终端11对于输入图像P1使用QP q进行JPEG编码,从而生成编码图像P2(S101)。具体地,图像编码单元111对于输入图像P1使用DCT(Discrete Cosine Transform离散余弦变换)转换为DCT系数。接下来,图像编码单元111使用量化参数(QP)q进行量化,从DCT系数转换为量化系数。也就是说,图像编码单元111对于每个N像素的代码块m,使用QP q=[q1,...,qN]来计算量化索引集合a(m)=[a1(m),...,aN(m)]。另外,以后也有将a(m)表达为“密(fine)量化二进制索引a”的情况。然后,图像编码单元111对于量化系数通过熵编码转换为代码数据。也就是,编码图像P2中包含了密量化二进制索引a。另外,“量化参数”也可称为“量化表”或“量化宽度”。
接下来,用户终端11将编码图像P2(密量化二进制索引a)上传到微云20(S102)。微云20的再编码单元21,对于接收到的编码图像P2,使用QP Q进行JPEG再编码,将其转换为再编码图像P3(S103)。具体地、再编码单元21,按照每个代码块m,使用QP Q=[Q1,...,QN],将各a(m)映射到对应的量化索引集合b(m)=[b1(m),...,bN(m)]中,按顺序进行再编码。这里,QP Q比上述q要粗些(coarser),也就是量化宽度较大。换言之,QP q比Q更精细(fine),也就是说量化宽度较小。另外,以后,也有将b(m)表达为“粗(coarse)量化二进制索引b”的情况。另外,关于JPEG的再编码,例如,可以采用专利文献1的方法。
在这里,从a(m)到b(m)的映射,可能不是唯一的方式。例如,再编码单元21在对各像素的量化系数进行再编码时,一旦使用QP Q进行量化后,在能够确认可以进行解码,进行可逆转换的情况下,实际上,在对该像素进行再编码,而不进行可逆转换时,是使用QP q的状态。此时,为了估计原始信号,例如,可以使用非专利文献3的逆量化处理,即,粗量化二进制索引b,一部分使用粗QP Q进行量化(再编码),而剩余部分仍保持了使用精细的QP q进行的量化的状态。
接下来,微云20将再编码图像P3(粗量化二进制索引b)保存到云存储器30(S104)。
图3是根据本发明实施例1表示说明图像下载时流程的顺序图。在这里,已经通过图2所示的处理,将再编码图像P3在云存储器30中保存完毕。
首先,用户终端12通过用户U2的操作,将相当于输入图像P1之图像的请求发送至微云20(S201)。接下来,微云20对于云存储器30进行再编码图像P3的搜索(S202)。然后,微云20从云存储器30获得再编码图像P3(粗量化二进制索引b),作为图像的搜索结果(S203)。
这里,微云20的粗密转换单元22参考字典DB23来实施将各个b(m)转换回a(m)的逆映射,即通过粗密转换恢复为恢复编码图像P4(密量化二进制索引a)(S204)。也就是说,由粗的QP Q恢复成更为精细的QP q。然后,粗密转换单元22将恢复编码图像P4发送至用户终端12。即,用户终端12下载恢复编码图像P4(S205)。然后,用户终端12的图像解码单元122,对于恢复编码图像P4使用量化参数q进行JPEG的解码(S206)。通过此项操作,用户终端12可以进行解码图像P5的显示等。
如上所述的本发明实施例1,通过权衡为保存全部图像而发生的存储成本与为了对全部图像的一小部分进行解码(逆映射)而发生的计算成本,可以称为有效的云存储系统。也就是说,首先,永久的存储,将上传的JPEG图像使用粗量化参数(QP)进行再编码,通过保存再编码图像,削减了存储成本。然后,对于请求图像,通过将再编码图像从粗量化二进制索引逆映射到密量化二进制索引,在用户终端侧进行通常的解码。此时,为了进行再编码图像的逆映射处理,虽然需要花费比通常更高的计算成本,但正如上面所述,尽管要求保存的图像数量很大,实际上被请求阅览的图像仅仅是一小部分。因此,即使加上解码过程中发生的计算成本,也可以说削减存储成本的意义更大。
然后,从用户侧的观点来看,最终解码显示的图像,与当初上传的图像相比,可以称为相同水平的密量化二进制索引的图像。也就是说,通过保持人眼无法区别的视觉品质,可以提供与典型云存储器同等的服务水平。另一方面,从运营商的观点来看,通过保存前进行再编码,能够保存比最初更粗的粗量化二进制索引的图像,因而能获得比通常更高的压缩增益及更低的存储成本的结果。
但是,如上所述,由于QP Q比QP q更粗(也就是说、Qi比qi更大),bi(m)与ai(m)相比,为零的可能性更高。也就是说、使用ai(m)时0以外的量化系数,在使用bi(m)时有可能为0。因此,请求图像的情况下,在微云上进行从粗量化二进制索引到密量化二进制索引的逆映射时,有必要在更高精度进行。这个问题称为量化数据仓库匹配问题(quantization binmatching(QBM)problem)。
本实施例中,通过下述最大后验概率(maximum a posteriori(MAP))公式,进行了从粗量化二进制索引到密量化二进制索引的逆映射,为此,有效利用了信号稀疏性模型(signal sparsity prior)。
在这里,若假定信号稀疏性模型(非专利文献2),通过字典的稀疏线性组合(sparse linear combination)取得更近似的信息的可能性更高;对于固定大小的N像素的各个代码块,要使N个粗量化二进制索引在给定频率范围内找出最有可能的N个密量化二进制索引,需要将最大后验概率(maximum a posteriori(MAP))问题公式化。
该公式中,要求在特定N次元量化单元上进行先验分布的集成,与过去的逆量化研究相比,提出一种快速算法来近似先验分布集成,以搜索量化单元内单独求出可能性最高的信号。
因此,本实施例中,为了保证能够完全恢复输入图像,进行设计时需要考虑以下因素。
1)对于各块m,能够正确恢复原来的密量化索引a(m);
2)由于恢复图像与峰值信噪比(Peak signal-to-noise ratio(PSNR)内的输入压缩图像非常相近,用户在视觉上不能区分。
因此,关于比原始QP q更粗的QP Q,设计逆映射f(b)的目的是充分恢复输入图像。在这里,关于使用QP Q再编码图像内足够大的块的一部分,只要求可以进行逆映射,剩余的块使用QP q不能改变。使用JBIG进行无损编码的二进制小图像被追加编码,以使得块使用Q通知再量化的解码。接下来,研究从粗QP Q到密QP q的量化数据仓库匹配问题。
(量化单元相关MAP公式)
作为前提条件,Xi代表目标代码块x的地面实况(ground-truth)的第i号DCT系数。然后,ai,如下式(1)所示,是使用QP qi将Xi量化的量化系数(密量化二进制索引)。
【数1】
Figure GDA0002159399840000111
因此,在具备ai和qi的解码器中,Xi必须在间隔I(ai,qi)=[(ai-0.5)qi,(ai+0.5)qi)的范围内存在。另外,bi是对于再编码化图像内的Xi,使用QP Qi(Qi在qi以上)进行量化的量化系数(粗量化二进制索引)。因此,再编码化后的Xi,必须在更大的间隔I(bi,Qi)=[(bi-0.5)Qi,(bi+0.5)Qi)的范围内存在。究其原因,由于原始编码化内的间隔I(ai,qi)及再编码化内的间隔I(ai,Qi)均包括相同的Xi,这些数据重复了。
因此,执行逆映射f:bi→ai时,需要研究式(2)所示的可能实现的bin集合Fbi
【数2】
Figure GDA0002159399840000124
接下来,将P(Xi)定义为Xi的先验概率(prior probability)。最大后验概率(maximum a posteriori(MAP))公式,基于以下公式(3)及公式(4),搜索离散集合Fbi内的最有可能的二进制^ai。
【数3】
Figure GDA0002159399840000121
其中
【数4】
Figure GDA0002159399840000122
一维QBM问题的MAP公式如图4所示。图4是根据本发明实施例1表示说明QBM解决方案之概念的图。从宽度Q的粗量化bin与重复宽度q的3个密量化二进制(A、B、C)中选择最大总计概率(largest aggregate probability)(P(Xi|bi)的积分值)的其中一个。这与像非专利文献3中的典型逆量化研究不同,与量化二进制内可能性最高的信号相关的MAP公式,可以简洁地导向二进制范围内的P(Xi|bi)的峰值位置。
这里,如将N维的先验概率P(X)连同块x内的N个DCT系数X的全部均予以考虑,在下述公式(5)中表示,能够将更普遍的MAP最优化问题以公式化表示。
【数5】
Figure GDA0002159399840000123
其中,
【数6】
Figure GDA0002159399840000131
以下的公式(7),是将表示多维积分的公式(5),以更简洁的形式改写。
【数7】
Figure GDA0002159399840000132
其中,P ̄a(X|b)是以a(即,根据I(ai,qi);i=1,...,N)定义的量化单元Ca内的概率P(X|b)的总计。求解公式(7)的课题是可以适当定义P(X)的方法,即能够高效并且正确计算P ̄a(X|b)的方法。
(先验概率P(X)的定义)
接下来,假定用于定义先验概率P(X)的稀疏模型(非专利文献2)。具体地,k稀疏信号模式是,像素区域内的N维信号x通过与来自过度完备字典(over-complete dictionary)Φ的k或者更少的原子(最小单位)进行线性结合,来充分近似。
【数8】
x=Φα+ε,||α||0≤k…(8)
这里,模型误差ε很小。本实施例中,在机器学习驱动方法内,经过PCA学习适应字典。
通过在公式(8)的两边适用DCT运算符Τ,获得公式(9)。
【数9】
X=Ψα+ε′…(9)
其中,Ψ=ΤΦ。因此,X的稀疏性可以通过与Φ相关的x的稀疏性来确定。
给出该模型,同时概率分布P(X)可以作为公式(10)表示。
【数10】
Figure GDA0002159399840000141
其中,σ是模型参数。从L0标准值进一步放宽到L1标准值。
最后,目标函数可以改写为公式(11)。
【数11】
Figure GDA0002159399840000142
如上所述,QBM问题一般不是通过图像逆量化(非专利文献3及4)执行的单个最佳稀疏解(sparse solution)来解决,而是可以通过使用其范围内最大的和最稀疏的解来找到量化单元,进行再公式化。
(最优化)
很难直接优化上述公式(11)的目标函数。所以,不是寻找量化单元中的所有可能的稀疏解,而是找出单个最佳稀疏解作为代表,再乘以通过单元的积分获得的解(解的稀疏计数的指数函数)的先验概率值。这是公式(11)的多维积分的近似值,本质上讲,单元的积分越大,被发现的可能性越大,因此,可以找到具有更大总计概率的其它稀疏解。在索引的粗量化单元b内寻找初期稀疏解这一问题,如公式(12)中所示。
【数12】
Figure GDA0002159399840000143
与稀疏解α相关的最优化问题,通过熟知的称为增广拉格朗日方法(AugmentedLagrangian Methods(ALM))的快速L1最小化算法,可有效而快速地加以解决。
如公式(13)所示,识别包含本稀疏解的密量化单元a*。
【数13】
Figure GDA0002159399840000151
识别的密量化单元a(例如、图4所示的单元A及C)与粗量子化单元b仅部分重复的情况下,由于单元积分很小,其总计概率很小。为了对其它解的备选项进行测试,通过公式(12)对于密集的相邻量化单元,进行有关稀疏解的搜索。这些单元中,(单元内识别的稀疏解的)信号模型与单元积分的乘法运算结果中最大的,被选择作为最终解。
图5是根据与本发明实施例1表示说明粗密转换处理(图3的204)之流程的流程图。首先,事先让微云20学习与8x8块有关的字典。
接下来,粗密转换单元22采用公式(12)搜索粗量化二进制索引内最稀疏解的结果(S302)。也就是说,粗密转换单元22分别对于粗量二进制索引bi范围内的多个备选范围(A,B,C)搜索最稀疏解。图4所示的情况下,求出x3、x4、x6。
然后,粗密转换单元22估算P(X|a)(S303),即计算出A中最大的P(x3)值。然后,将A的宽度(x4-x2)乘以P(x3),求出量化单元A的量。同样,关于B,将B的宽度(x5-x4)乘以最大值P(x4),求出量化单元B的量。关于C,将C的宽度(x6-x5)乘以最大值P(x6),求出量化单元C的量。
然后,粗密转换单元22将邻近量化单元(A,B,C)之间的量化单元量进行比较,确定QP q的密量化二进制索引a*。如图4所示,确定了B。另外,如上所述,图4表示了一维的情况,更一般的情况下,8x8块中可以存在64维。
(试验结果)
为了证明本实施例的有效性,进行了下述试验。首先,使用了公知的柯达数据集。为了学习字典学习用的数据,随机选择了5张图像,剩余的图像作为测试图像使用。
关于JPEG编码时的品质因数(quality factor(QF)),通过从量化矩阵的集合中选择其中一个,表明压缩后图像的相对视觉品质在1至100的范围内。试验时,关于不同的图像,粗QF可以从50及55中选择,但将JPEG编码的精细QF固定在80。
这里,第1设计目的是保证能够正确恢复原始版本上传的密量二进制索引。这种情况下,正确恢复二进制索引意味着品质上没有损失。因此,报告了有关比特节省(bitsaving)的情况。另外,通过对具有可以保证正确恢复二进制索引的粗QF的图像块的一部分进行再编码,可以实现比特节省。
图6是根据本发明实施例1表示压缩增益之实例的示意图。图6显示了精细QF及粗QF、用于再编码而选择的块的比例、以及在8幅测试图像使用本方法而获得的纯压缩增益。关于测试图像、42.18%以下的块被选择用于使用粗QF进行补充压缩,结果显示,可以实现14.19%以下的比特节省。
第2替代方案的设计目的是,保证质量上非常接近上传图像的恢复,达到人眼无法识别品质差别的程度。为了实现这个目标,通过允许恢复和输入的密量化二进制索引之间的差异,减少“正确的二进制匹配”。差异的水平通过块水平二进制误差的合计来测算。本试验中,测试了6种情况,其中误差的合计为0,2,3,4,5和6。
图7Lighthouse、图8Ahoy、图9Airplane,分别根据本发明实施例1表示3幅测试图像中使用JPEG的比率失真性能压缩。6种情况的PSNR损失均在0.13dB以内。这样小的PSNR损失在典型情况下可以说不会产生视觉差异。也就是说,结果表明,本方法的JPEG效率很好。
进一步地,通过花费微不足道的PSNR费用,视觉上无法区分的重新配置选项,与正确的二进制索引恢复的情况进行比较,实现足够高的比特节省效果。例如,使用6项误差合计,本方法分别用于Lighthouse、Ahoy及Airplane,与图6所示的3.32%、2.01%及14.19%形成对比,分别实现16.71%、12.82%及20.7%的比特节省率。也就是说,可以实现充分的存储的节约。
如上所述,本实施例提出了一种与JPEG图像相关的云存储系统,该系统能够将用于保存大量上传图像的存储成本与用于对少数请求图像进行粗密转换的计算成本进行权衡。具体地,对于预先在用户终端使用量化参数(QP)q进行量化的编码图像,使用更粗的QPQ重新编码,再保存在存储器中。这样,可以降低存储成本。而且,按照获取图像的请求,通过上述粗密转换(量化二进制配),进行从粗量化二进制索引到密量化二进制索引的恢复。这样,可以保持对于用户来说在视觉上没有差异感的图像质量。
在这里,本实施例可以有下述表现。也就是说,本实施例是具备,关于从基于第1量化幅度(QP q)将输入图像量化的第1量化系数(密量化二进制索引a)到基于比所述第1量化宽度更宽的第2量化宽度而量化的第2量化系数,用于向所述第1量化系数进行逆映射的逆映射单元的图象处理设备。特别地,所述逆映射单元,从所述第2量化宽度范围内的所述第1量化系数的备选项中(例如,对象像素的DCT系数Xi的)选择基于先验概率(priorprobability)将量化单元量最大化的量化系数,作为所述第1量化系数进行所述逆映射。也就是说,逆映射单元,从如图4所示的QP Q的宽度(x6-x2)范围内的密量化二进制索引的备选项(A、B和C的各自所属的密量化二进制索引)中,求出来自P(X)与各备选宽度(A的情形,x4-x2;B的情形,x5-x4;C的情形,x6-x5)的量化单元量(相当于A、B和C的各自P(X)的积分值),作为在对各量化单元量中的最大值进行逆映射后的密量化二进制索引。
另外,所述逆映射单元,基于定义所述先验概率的稀疏模型,近似所述第1量化系数,进行所述逆映射。
进一步,所述逆映射单元,在所述第2量化宽度范围内的所述第1量化系数的范围内,按照每个所述备选项搜索所述先验概率的最大值,基于该最大值与所述第1量化系数的范围,计算出所述量化单元量,通过比较所述备选项之间的所述量化单元量,选择使所述量化单元量最大化的量化系数。也就是说,逆映射单元计算出密量化二进制索引的备选项A、B和C的各自相关P(X)的最大值,计算出P(X)的最大值与A、B和C的宽度的积(面积),将这些数值进行比较,从而选择出最大的值。
<实施例2>
接下来,说明上述实施例1的变形例,即实施例2。如实施例1所述,在再编码单元21进行再编码时(代码转换)时,一旦使用QP Q进行转换后,模拟是否能够恢复原来的代码,只在可以保证可逆变换的情况下,通过QP Q进行再编码。另外,如实施例1中所述,由于按照每个像素单位进行再编码,在处理效率及压缩效率方面有改进的余地。
所以,本实施例2中,将再编码的对象像素设定为以1个像素为间隔。即,关于1块的像素,密量化与粗量化交替进行。图10是根据本发明实施例2表示说明对于块内像素进行的密量化与粗量化之间关系的图。如图10的上部分所示,进行再编码时,密量化二进制索引(fine)和粗量化二进制索引(coarse)的像素交替配置。特别地,根据本实施例2所述的再编码单元21,以用虚线包围的4个像素作为一个单位,如图10的下部分所示,对于右下部的像素(4)进行再编码的情况下,通过使用邻接3个像素(1、2和3)进行粗密转换,应可以判断是否能够保证可逆转换。另外,右下部的像素(4)上的像素(2)与左侧的像素(3),保持了密量化二进制索引(fine)的状态,从而保持了未被再编码的信息量。另外,如图所示,右下部的像素(4)和左上部的像素(1),可以通过粗量化二进制索引(coarse)获得。
因此,最理想的是,再编码单元21,通过至少使用像素(2)和左侧像素(3)2个像素来判断是否可以保证可逆转换,判定是否可以对右下部的像素(4)进行再编码;粗密转换单元22将上部像素(2)与左侧像素(3)2个像素加入,进行右下部像素(4)的逆映射。因此,与实施例1相比,可逆转换的精度提高,作为结果,可进行再编码的概率提高,压缩率也提高。
进一步,补充上述,再编码单元21及粗密转换单元22,最好加入左上部的像素(1),对于是否可以对右下部的像素(4)进行再编码加以判定,并进行逆映射。因此,与上述相比,可逆转换的精度及压缩率可进一步提高。
另外,本实施例2中,在判断是否可保证如上述的4个像素单位的可逆转换后,关于通过微云20进行事先的字典学习,进行有关16x16块的操作。
另外,在实施例2中,在进行粗密转换处理方面,进行图5所示的步骤S302时,需要使用下列公式(14)。
【数14】
Figure GDA0002159399840000191
即,作为约束条件,将密量化与粗量化交替进行的4个像素作为对象。这样,通过将4个像素作为对象进行粗密转换(量化数据仓库匹配)时,同时进行解码处理,可以提高粗密转换处理的效率。
这里,本实施例可以有下述的表现。也就是说,本实施例还具备,关于包括所述第1量化系数的编码图像P2,通过进行再编码,使所述第1量化系数与所述第2量化系数交替,用于向再编码图像进行转换的再编码部。然后,所述逆映射单元,对于所述再编码图像内的所述第2量化系数(像素(4)的粗量二进制索引),使用该第2量化系数与相邻像素的所述第1量化系数(像素(2,3)的密量化二进制索引),进行所述逆映射。
进一步地,所述逆映射单元,进一步使用所述邻接像素和邻接像素的所述第2量化系数(像素(1)的粗量化二进制索引),进行所述逆映射。
<实施例3>
接下来,说明上述实施例1或2的变形例,即实施例3。本实施例3中,采用了多个种类的字典。图11是根据本发明实施例3表示图像处理系统之全部构成的框图。本发明的实施例3中,与图1相比,微云20替换为微云20a,存储器31中保存了与再编码图像P3关联的群集索引311。微云20a具备再编码单元21a,粗密转换单元22a与字典DB23a。
字典DB23a是基于多个测试图像的特征量的、根据其倾向被分类的多个群集组成的数据库。再编码单元21a参照字典DB23a,确定编码图像P2所属的群集。微云20将再编码图像P3及确定的群集的群集索引311发送并保存至云存储器30。存储器31还保存与再编码图像P3关联的群集索引311。
粗密转换单元22a按照从用户终端12发出的图像请求,从云存储器30获得再编码图像P3及群集索引311,参照字典DB23a,使用群集索引311对应的字典,对于再编码图像P3通过粗密转换恢复成恢复编码图像P4,然后返回至用户终端12。
图12是根据本发明实施例3表示说明粗密转换处理之流程的流程图。具体地,追加了图5的最初步骤S301,以后的处理是相同的。也就是说,粗密转换单元22a除了从云存储器获得再编码图像P3以外,还取得与再编码图像P3关联的群集索引311。然后,粗密转换单元22a参照字典DB23a,从群集索引311选择使用的字典(S301)。然后,粗密转换单元22a使用字典DB23a内选择的字典进行粗密转换处理。
这里说明在本实施例中字典的学习方法。按照(步骤1)特征量的直方图,将各个图像分类为群集,按照(步骤2)的各个群集进行字典的学习。
在这里,以本实施例3中字典的学习作为一个实例,说明使用Bag of VisualWords(BoVW)的情形。图13根据本发明实施例3表示利用Bag of VisualWords(BoVW)之情况下概念的示意图。说明上述步骤1。首先,将图13上部分的3个测试图像分割成多个块(或像素)(图13的下部分)。然后,例如,分析各个块,统计3个种类的特征fa、fb及fc的各自出现频率(适合程度)。图13的中段,分别是特征fa、fb及fc相关的直方图的图例。然后,按照这些直方图,将各个测试图像分类为群集。例如,有这样的倾向,即,自行车车座的块具有很明显的特征fb,人物皮肤和眼睛的块具有很明显的特征fa,小提琴的部分块具有较明显特征fc,因此关于各个块,可以进行群集分类。
图14是根据本发明实施例3表示在某图像上特征量分布之实例(直方图)的示意图。也就是说,表示与某幅图像上各块有关的特定特征量的直方图。因此,之后,在上述步骤2,按照与学习对象的图像有关的所属的群集,进行对应于该群集的学习。据此,字典的精度得以提高。
然后,按照上述进行再编码时,进行有关编码图像P2的群集的分类,确定群集索引(图像的特征),并将群集索引保存到云存储器30中。另外,进行解码时,基于粗量化二进制索引连同对应的群集索引来使用字典。因此,提高了计算速度及计算质量。
这里,本实施例可以有以下的表述。也就是说,进一步具备,关于多个图像,从各图像特征量的分布,分类到多个群集的字典信息部(字典DB23a),以及,再编码单元21a,所述再编码单元21a用以将群集索引311保存到与所述第2量化系数(粗量化二进制索引b)关联的存储装置(存储器31),其中,从所述第1量化系数到所述第2量化系数进行再编码时,该群集索引311用于辨别所述输入图像与所述多个群集的哪个相符合。然后,所述逆映射单元,基于与所述第2量化系数关联的所述群集索引确定所述字典信息部内的群集,使用该确定的群集进行所述逆映射。
<实施例4>
接下来,说明上述实施例1至3的变形例,即实施例4。图15是根据本发明实施例4表示云存储系统之全部构成的框图。云存储系统中,存在用户终端11(用户U1)和用户终端(用户U2)、微云20b和云存储器30。系统主要有3项操作动作:脱机学习、图像上传和图像下载。
图像上传动作中,用户终端11将精细(密集)量化(以后称为密量化)的JPEG画像(编码图像)上传至微云,然后,微云20b的再编码单元21b,使用粗糙量化(以后称为粗量化)参数(QP)对图像的代码块的子集合进行再编码,最后将再编码图像P3(及后述边信息312)保存到云存储器30。
在图像下载动作中,微云20b的粗密转换单元22b,将被请求的粗量化图像(再编码图像P3及边信息312)从云存储器30取出,将粗量化的代码块逆映射到密量化块。
脱机学习动作中,为了使从图像下载中的粗量化块到密量化块的逆映射操作易于实现,微云20b的学习单元,事先计算并记忆了适当字典23b及图表模板24。另外,学习单元25也可以设在微云20b的外部。接下来详细说明这些动作。
1)脱机学习:图像下载过程中,将从粗量化块到密量化的逆映射作为信号恢复问题。
近些年,为了实现非专利文献9中从JPEG压缩形式恢复到图像像素补丁,一般情况下将稀疏模型(sparsity prior)(非专利文献10)与图表信号平滑模型(graph-signalsmoothness prior)(非专利文献11)组合使用。这2个模型能够很容易恢复各自像素补丁当中组织化和结构化的图像内容。
假定使用这2个模型,高速实施过程中,必须要使用图像恢复中的小字典和稀疏的(sparse)图表。面对这个目标,我们首先要构造树型结构向量式量化(Tree-StructuredVector Quantization:TSVQ)(非专利文献12),以便将像素块Ψ从大型学习集Ψ0分类至树型结构最终节点对应的类似块的不同群集。对于各个群集i,基于该群集关联的学习数据Ψi,让过度完备字典及稀疏图表模板进行学习。构建分类树后,重要的设想是,图像下载过程中,在能够正确识别将原始块加以分类的群集的情况下,能够很容易地将关联字典及与群集关联的图表从粗块逆映射到密块中。
2)图像上传:用户终端11将JPEG压缩图像(编码图像P2)上传到微云20b(微云)。在这里,N-像素代码块x,分别按照用精密QP q=[q1,…,qN]赋值的N量化二进制索引a(x)=[a1(x),…,aN(x)]的集合列举。详细地,第i号的量化二进制计数ai(x)形成以下结果。
【数15】
Figure GDA0002159399840000231
其中,Ti是DCT变换矩阵T的第i行。
然后,微云20b的再编码单元21b,使用粗QP Q=[Q1,...,QN]对编码图像P2的块的子集合再编码,将精密二进制索引a(x)映射到与永久保存到云存储器30的代码块x相对应的粗二进制索引b(x)中。微云20b在图像上传过程中,对于再编码的块执行逆映射,目的是从使用信号模型的粗b(x)恢复到精细的
a(x)。再编码单元21b只对可以“正常”逆映射的图像中的块x在上传过程中进行逆映射。对于小的二进制图像,使用作为边信息(side information:SI)312的JBIG(非专利文献8),可以进行无损编码,其中,边信息能够给出关于解码器上哪个块使用Q进行粗糙再编码的相关信息。
本系统可以保证,对于JPEG图像中再编码的块,可以在2种模式的任何一种正常进行逆映射。i)无损失恢复(可逆恢复,lossless recovery)(无损失模式):意味着为了准确恢复,对于各个再编码块x的原始a(x),可以确定保证恢复。或者ii)接近无损恢复(near-lossless recovery)(接近无损模式):意味着,为了能够以高概率精确恢复,对应于原始图像的a(x),在统计上可以保证。这样,使得解码的JPEG图像与原始图像很接近,用户从视觉上无法区分差异。无损模式下,为了保证使用适当的字典及图表模板从而对再编码块的各自对应a(x)完全恢复,对应于TSVQ中X的群集索引,在上传过程中,也使用提议的分布式编码方法,作为SI被编码。
3)图像下载:用户U2在召回事先上传的图像时,微云20b从云存储器30取出粗量化的图像(再编码图像),对于用户U2,将块x的粗量化b(x)分别逆映射至密量化的a(x)。为了使图像取出延迟最小化,应该使用,在图像上传过程中以作为SI的编码群集索引表示的,适当的小型字典的和稀疏的图像模板,来高速地进行逆映射。
这里,在粗量化仓库内,首先(作为图4中的x3表示的)通过搜索可能性最高的信号可以重写量化数据仓库匹配问题。
【数16】
Figure GDA0002159399840000241
然后,确定包括可能性最高信号X0的密量化仓库向量a0
【数17】
Figure GDA0002159399840000242
接下来,在粗仓库向量b内,将发现可能性最高信号X0这样的问题作为焦点。
这里,使用2个信号模型,将发现赋值粗仓库索引向量b可能性最高的X^这个问题作为焦点。另外,包括发现的最高可能性信号的密量化仓库为恢复的密仓库索引。另外,2种信号模型是指稀疏模型和图表信号平滑模型。进一步地,为了实现高速实施,我们学习了对应于各群集的小字典及稀疏的图表模板。
通过将2种模型PS(X)与PG(X)结合,将P(X)定义如下。
【数18】
Figure GDA0002159399840000251
发现附加了索引的粗量化单元b内最有可能信号的问题,可以进行下述公式化。
【数19】
Figure GDA0002159399840000252
s.t.,Xi∈I(bi,Qi),i=t,…,N.…(19)
目标函数可以通过交替优化解答。
图16是根据本发明实施例4表示脱机学习之流程的图。学习单元25从学习图像PG抽取(收集)学习块集合BS(块图像)(S401)。优选地,例如,学习图像PG为多数的高分辨率图像群。接下来,学习单元25,对于学习块集合BS,按照TSVQ分类为多个群集,构造树型结构(二叉树)TS。然后,学习单元,为了减少对于所分类各群集的群集索引的偏移,替换树型结构(二叉树)的节点(S403)。另外,该节点的替换,与后面所述树节点的比特分配对应。另外,学习单元25,为了使对应于替换后二叉树的比率失真最优化,进行修剪(S404)。另外,该修剪步骤与后述比率失真最优化树修剪对应。然后,学习单元25对于修剪后的二叉树学习过度完备字典和稀疏图表模板(S405及S406),保存在作为字典DB23b及图表模板24的存储装置(未图示)。另外,该存储装置可以设在微云20b内部或外部。另外,完整的TSVQ在解码器上是必需的,完整树的索引对于各块进行计算。
(适应性的字典及图表模板学习)
考虑多数的脱机学习数据,对应于与类似像素块不同的群集,学习字典及图表模板。对于各群集,基于分类于该群集的学习数据的像素块,使其学习过度完备字典及1个稀疏图表模板。
1)小字典学习:对于特定的群集,存在分配的n学习块Y=[y1,y2,···,yn]。这里,yi表示向量形式内的学习块i。按照K-SVD(非专利文献10),通过使下列目标函数最小化,计算字典Φ。
【数20】
Figure GDA0002159399840000261
2)稀疏图表模板学习:同样地,学习有关特定群集的稀疏图表。对于各个群集,首先计算重心(Centroid)块。重心块是分配给该群集的学习块的中心或平均值。然后,对于该重心块,构造稀疏图表模板。图17是根据本发明实施例4表示稀疏图表模板之实例的示意图。如图17所示,只连接纵向的、横向的或倾斜的邻接节点。究其原因,图表为稀疏图表,如果L为稀疏矩阵,可以采用I+λ2L^逆阵的高速解决方法,能够用于降低公式(21)的计算复杂性。另外,各模板为连接的图表。
【数21】
Figure GDA0002159399840000262
(完全TSVQ构建(Full TSVQ Construction))
假定学习数据集Ψ0后,我们首先构建目标高度Hmax的二进制完整树(a binaryfull tree,完整二叉树)T0(图18(a))。具体地,构建完整树需要采取以下步骤(非专利文献12):
1)初始化:树的高度H=0初始化。我们将学习集Ψ0整体作为关联学习集的平均计算,将重心c0与高度0的路由节点r关联。
2)二进制分配:对于高度H的各节点i,我们生成2个子节点j及k。这里,i→0j、i→1k。我们为了使其重心cj及ck的相关总距离最小化,将与节点i关联的学习集Ψi分配给2个不重复的子集Ψj及Ψk
【数22】
Figure GDA0002159399840000271
使用Lloyd算法(Lloyd Algorithm),可以解答局部最合适的公式(22)。由交替执行的2个步骤构成,直到实现局部收敛性(local convergence)。
·给定固定重心cj和ck的情况下,通过将各ψ∈Ψi作为更近的重心来向分割(partition)分配Ψ,可求出局部最适合的分割Ψj和Ψk
·给定固定分割Ψj及Ψk的情况下,通过使各自的二乘误差最小化,更新重心cj及ck。对于cj,进行如下计算:
【数23】
Figure GDA0002159399840000272
这意味着,通过取Ψj的平均值,计算作为群集的Ψj之中心的cj
开始交替发生劳埃德算法之前,按照非专利文献13,将对应于高度H的节点i的2个子重心cj及ck作为ci及摄动版本进行初始化。即,
【数24】
cj=ci,ck=ci+η…(24)
其中,η表示噪音方差σ=1的高斯噪声。
3)更大二进制完整树的生成:在构成的二进制完整数的高度H比目标值Hmax小的情况下,以1为增量增加H,转到第2步。
(群集索引的稀疏编码)
在无损失模式下,图像下载过程中,为了指定适当的字典及图表模板,以便将再编码块x的粗索引b(x)逆映射到精密索引a(x),将“精确”群集索引i确定为图像上传过程中的SI,进行编码。具体地,使用精密索引a(x)的输入,首先构建硬解码(hard decoded)的块x^,使用块x^从路由节点r至高度Hmax的最终节点e0遍历(traverse)完整树T0。通过遍历,在节点i上,将x^与各自的子节点j及k的2个重心cj和ck进行比较,进入具有更近重心的节点。
到达最终节点e0后,将关联字符串Se0确定为X。作为(后述)群集使用的实际最优化的VLT(Variable-Length Tree)T(图18(b)),由于是典型完整树T0的子集,不使用x^,而是遍历T,T0中间节点T当中的最终节点用作终端,这种情况下,Se是Se0的子字符串(substring)。Se0的子字符串Se表示为QT(X)。2个最终节点T0及T的字符串的实例,如图18(C)所示。
为了降低编码成本,不采取直接编码QT(X),而采取通过粗索引b(x)硬解码的块x^来遍历T0,利用图像下载过程中获得的字符串X及其噪音观察Y之间的相关性,提出高效率的稀疏编码方式。基本的设想是,对于更多的观察/目标字符串的配对(y、x),为实现QT(y+Δ)=QT(X),在码本C设计差分代码字Δj,以用于对作为SI的适当差分Δj进行编码。按照高概率p(Δj)选择差分Δj的情况下,使用算术编码(arithmetic coding)(近似的)的码率-logpj)较低。
为了实现QT(y+Δj)=QT(X),在差分Δj∈C不存在的情况下,直接对索引代码字di编码。其中,i为块x^的群集索引。直接索引代码字对于各群集是唯一的(固有的),所以其概率典型情况下较低,编码成本更高。
基于无损失模式的树型结构向量量化的最优化
这里,定义了TSVQ最优化问题,讨论了TSVQ最优化方法。考虑到存在2个最优化变量VLT T和码本C,提出交替最优化方法。
(A)固定C,最优化T。这称为最优VLT设计问题。
(B)固定T,最优化C。这称为最优差分码本问题。
以下按照顺序说明用于解决这2项问题的详细算法。
(A)最优VLT设计
固定C后,最优化问题表述如下。
【数25】
Figure GDA0002159399840000291
上述的目标函数表示,VLT T的RD成本,可以分别按概率P(i)加权的最终节点i的各项RD成本进行合计。说明了使公式(25)最小化的2项步骤。
首先,根据公式(25),对于不同的最终节点i,为了诱导更有利的误差分布P(y|i)(例如,对于最终节点i,获得更小的比率的结果,实现P(si|i)向中心分布的非对称分布,提出在VLT T上的节点重新分配二进制位(0和1)的步骤(1)。
接下来,对于向VLT T分配所确定的比特,提出步骤(2):从初期的树最优地删除最终节点,进行RD-最优化树修剪。
这2个步骤在实现收敛之前交替执行。接下来说明这2个步骤。
(1)树节点的比特分配:对于密量化块x,以如下方式定义其概率。
【数26】
P(x)=P(i)Pi(x)…(26)
这里,P(i)为最终节点的概率,Pi(x)为通过群集i所属块扩展(spanned)的子空间(subspace)Si内的x的概率。粗量化块y能够估计x的噪音版本(noisy version),按下述方式模型化。
【数27】
y=x+z…(27)
其中,z为噪音。
通过解决下述最优化问题,找到y的可能性最高的群集索引j
【数28】
Figure GDA0002159399840000301
如根据噪音模型,上述的最优化可以按下述方式改写。
【数29】
Figure GDA0002159399840000302
然而,由于x和z均是高维向量(high-dimensional vectors),意味着解答公式(29)并不是不言自明的问题。反而,为了取得与Si的重心Ci最相近的重心,需要找到y的可能性最高的子空间。
【数30】
Figure GDA0002159399840000303
这里,m是y的子空间的备选数量。
求出y后,为了强行使索引j节点接近节点i,需要再分配树节点的二进制位。实例如图19和图20中所示。图19是表示说明子空间检索的图。密量化块x部署在子空间S1中。如果选择噪音模型,可能性较高的噪音观测值y用粗体虚线表示。通过处理公式(29),检索y的可能性最高子空间的索引。图20是表示说明如何替换二叉树节点的图。假定x部署在S1中,检索到的可能性最高的y部署在S3中。索引偏移为2。为了使S1及S3相互接近,向树分支再分配正确的二进制位。索引偏移减少为1。因此,群集索引的偏移减少。图21是表示如何比较二进制位分配前后索引偏移之概率分布的示意图。如图21所示,索引偏移的概率在0的周围更集中,码本C的传送成本更小。因此,对于最终节点i,实现更小的比率。
(2)比率失真最优化树修剪(rate-distortion optimized刚pruning):二进制位重新分配后,为了以最优方式从初期树T去除最终节点,执行RD-最优化树修剪步骤。通过清除更多的最终节点,虽然失真变大,树变得更短,但比率变得更小。我们通过改变树的深度,实现了失真与比率之间的最优权衡。存在若干利用比率失真结构(rate distortionframework)实现的修剪树算法(prune-tree algorithms)。这里,我们的系统中,采用称为修剪子的方法(非专利文献14)。然而,本发明不限于该方法。
对于预定的树T’,存在有限数量的修剪子树(pruned){T}。我们为了找到与公式(25)的最小值相关的数据,进行了广泛的检索。具体地,修剪了2个兄弟最终节点(brotherend nodes),将它们的父节点作为新的最终节点,得到新的VLTT。对于T,总计所有最终节点的失真与比率(rate),计算RD成本。
【数31】
Figure GDA0002159399840000311
对于从左到右最终节点的所有节点对,以递归方式进行该项处理。最终,以下述方式获得最优VLT树:
【数32】
Figure GDA0002159399840000312
(B)最佳代码本设计
1)稀疏编码方法:这里,焦点问题是如何设计赋值VLT T的最适合码本。如已知的,假定统计P(y|x)是固定的,。可行的(feasible)码本C意味着,关于P(y|x)>0的观测/目标对(y,x),i)能够选择如QT(y+Δj)=QT(x)的差分代码字Δj∈C,ii)能够选择如si=QT(x)的直接索引代码字ci。最优的代码本C意味着,对于全部数据对(y,x),可以进行上述可行的选择,将设想的编码成本降至最低。
首先,与典型的差分编码不同,为了对各观测/目标对(y,x)的正确差分Δ=x-y进行编码,不需要采用编码器;如QT(y+Δj)=QT(x)的任何可行差分代码字Δj同样可以接受。我们用r(y,x)表示可实行的差分范围。VLT T中的量化数据仓库i=QT(x)的下限和上限,通过(li,ui)表示。很明显,量化仓库i的大小ui-li越大,获得的范围r(y,x)越大。
设计码本时,直观地,优先小的码本C;概率只集中于少数的代码字Δj或ci,因此编码成本-logpj)或-logp(ci)变小。如上所述,对于对应于数据对(y,x)的群集索引进行编码时,按照范围r(y,x)提供的自由度赋值,我们的设计方法如下所述。首先,只选择覆盖更大范围r(y,x)的少数差分Δj。然后,对于剩余数据对(y,x),为了保持可行性,使用直接索引代码字Ci。接下来,详细说明该处理过程。
2)码本设计算法:首先,为了保证实行的可能性,假定对应于VLT T最终节点i,所有直接索引代码字Ci包括在码本中。然后,按如下方式追加差分代码字Δj。首先,P(y|x)有上升的趋势,所以是使用最普遍的代码字,追加初期(缺省)差分Δ0=0。
对于每个观测/目标数据对(y,x),确认范围r(y,x)与现用码本C中的现有差分Δj不重复。如果不重复,如图22所示,将用P(y|x)按比例缩小的r(y,x)添加至差分计数器H(Δ)。将来自与现存差分代码字不重复的全部数据对(y,x)的范围累积后,将峰值Δ=maxΔH(Δ)添加到C,指定作为下一个备选项。
接下来,将差分代码字的备选项Δ添加至C的情况下,计算预测的编码成本。对于各数据对(y,x),在接近0的范围r(y,x),检索代码字Δj∈C。在r(y,x)内没有Δj∈C的情况下,对于该数据对,使用直接索引(direct index)ci。其中,i=Q(x)。向全部数据对(y,x)的代码字给予映射后,可以用表格表示各代码字对应的概率,可以使用公式(33)计算比率。
【数33】
Figure GDA0002159399840000331
只有在得到的比率减少的情况下,最终追加该备选值Δ。要尝试追加其它差分代码字的各备选值,在比率降低的情况下,重复上述步骤。算法的伪码在算法1(图23)中表示。
伴随统计保证实现的近无损失模式(Near-Lossless Mode)
接下来,说明近无损失模式的相关情况。近无损失模式与无损失模式不同,无损失模式可绝对保证对于各块x能够从粗索引b(x)恢复精密数据仓库索引a(x),而近无损失模式可以统计上保证能够以高概率从b(x)恢复a(x)。通过降低恢复必要条件,近无损失模式能够实现明显降低的计算量。
具体地,脱机学习过程中,完整TSVQ构建后,将学习块分类至不同的群集。相同群集的块共用相似的结构。对于各群集,使用与该群集关联字典及图表模板,计算精密索引a(x)从粗索引b(x)精确逆映射的块的比例。为了保证对于完整图像的统计学保证,使用了各群集的恢复成功率。
图像上传过程中,对于各代码块xi,通过脱机统计,存在关联的恢复成功概率P(xi)。与无损失恢复不同,为了决定对哪个块进行再编码,不是对量化数据仓库匹配进行最优化,而是选择比事先设定的阈值PT更高的平均恢复成功概率。更具体地,沿着队列对全部代码块进行详细搜索(扫描),逐步确定再编码的代码块。到达代码块xi后,按下述方式计算调查的块{xj}i j=1的平均恢复成功概率API
【数34】
Figure GDA0002159399840000341
API≧PT的情况下,将xi追加到再编码的子集。这个决定处理,由于不按块实行实际的逆映射,速度很快。
为了选择用于QMB的字典和图表模板,对完整树进行遍历,图像下载过程中,使用粗量化块。无损失恢复过程中,如那样执行,由于不需要支付由于对群集索引进行编辑所要追加的成本,可以节约更多的存储空间。
这里,本实施例可以如下表述。也就是说,一种图像处理设备微云20b,具备一过度完备字典(over complete dictionary)(字典DB23b),用于根据多个图像的特征量的分布分类到多个群集;一种稀疏(sparse)图表模板(图表模板24),用于图表化所述特征量的分布,分类到所述多个群集;一学习单元25,用于从所述多个图像学习所述过度完备字典和所述稀疏图表模板;一再编码单元21b,用于对于包括第1量化系数的编码图像,从所述第1量化系数,基于比所述第1量化宽度更大的第2量化宽度,再编码至第2量化系数,所述第1量化系数是将输入图像基于第1量化宽度进行量化的系数;和一逆映射单元(粗密转换单元22b),用于对于所述第2量化系数,使用所述过度完备字典和所述稀疏图表模板,向所述第1量化系数进行逆映像。然后,学习单元21,对于从所述多个图像抽取的多个块图像,通过TSVQ(Tree-Structured Vector Quantization)分类至多个群集,构建二叉树,为了减少对于所述分类的各群集的群集索引偏移,替换所述二叉树的节点,对于所述替换后的所述二叉树进行修剪,以使比率失真最优化,对于所述修剪后的所述二叉树,学习所述过度完备字典和所述稀疏图表模板。再编码单元21,将群集索引保存在对应于所述第2量化系数的存储设备(云存储器30)中,所述群集索引,进行再编码时,用于辨别所述输入图像与所述学习后的所述过度完备字典及所述稀疏图表模板的哪个群集相符合。逆映射单元,基于与所述第2量化系数关联的所述群集索引确定所述过度完备字典及所述稀疏图表模板内的群集,使用该确定的群集进行所述逆映射。据此,字典和图表模板的精度提高,逆映射的精度也可以得到提高
<其它发明的实施例>
另外,上述说明中,由于JPEG作为图像压缩手法举例,DCT系数作为转换系数。但是,本发明不仅限于DCT,还适用离散正弦转换(Discrete Sine Transform(DST))或者非对称离散正弦转换(Asymmetric Discrete Sine Transform(ADST))等其它基于块的转换编码及解码装置。
进一步的,本发明不仅限于上述实施例,在不脱离本发明要点范围内的各种变更当然也可以适用。例如,上述实施例中说明了本发明的硬件构成,但本发明肯定不限于此。本发明可以通过向CPU(中央处理器Central Processing Unit)执行计算机程序来实现任何处理。这种情况下,计算机程序可使用各种类型非临时性计算机可读媒介(nontransitory computer readable medium)保存,供计算机使用。
非临时性计算机可读媒介包括各种类型的具有实体的记录媒介(tangiblestorage medium)。非临时性计算机可读媒介的实例包括磁记录媒介(例如软磁盘、磁带和硬盘驱动器)、光磁记录媒体(例如磁光盘)、CD-ROM(只读存储器Read Only Memory)、CD-RCD-R/W、DVD(Digital Versatile Disc)、BD(Blu ray(注册商标Disc)、半导体存储器(例如掩膜只读存储器、PROM(可编程只读存储器Programmable)EPROM(Erasable PROM可擦(可)编程只读存储器)、闪速存储器、RAM(Random Access Memory随机存储器)。另外,计算机程序也可通过各类临时性计算机可读媒介(transitory computer readable medium)提供给计算机。临时性计算机可读媒介的实例包括电信号、光信号及电磁波。临时性计算机可读媒介,通过电线及光纤等有线通信线路或无线通信线路,可以将程序提供给计算机。
【附图符号说明】
U1 用户
11 用户终端
111 图像编码单元
112 图像解码单元
U2 用户
12 用户终端
121 图像编码单元
122 图像解码单元
20 微云
21 再编码单元
22 粗密转换单元
23 字典DB
20a 微云
21a 再编码单元
22a 粗密转换单元
23a 字典DB
30 云存储器
31 存储器
3n 存储器
311 群集索引
P1 输入图像
P2 编码图像
P3 再编码图像
P4 恢复编码图像
P5 解码图像
20B 微云
21B 再编码单元
22B 粗密转换单元
23B 字典DB
24 图表模板
25 学习单元
312 边信息
PG 学习图像
BS 学习块集合
TS 树结构(二叉树)

Claims (1)

1.一种云存储系统,其特征在于,具备用户终端、微云和云存储器;
所述用户终端包括图像编码单元和图像解码单元,所述图像编码单元用于将拍摄的输入图像使用量化参数q进行JPEG的编码生成第一编码图像,并将所述第一编码图像上传至微云;
所述微云包括再编码单元、粗密转换单元和字典,所述字典是解码过程中存储参考信息的数据库;所述再编码单元用于使用比量化参数q的幅宽更宽的量化参数Q进行再编码生成第二编码图像,并将所述第二编码图像上传至云存储器保存;粗密转换单元用于在接收到用户终端的图像请求时,从云存储器获得第二编码图像,并基于所述字典对所述第二编码图像进行粗密转换恢复成第一编码图像,并将第一编码图像返回到用户终端;
所述用户终端包括的图像解码单元用于对所述微云返回的第一编码图像进行JPEG的解码,并输出显示。
CN201710112990.1A 2016-02-29 2017-02-28 一种图像云储存设备 Active CN107231556B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-036602 2016-02-29
JP2016036602 2016-02-29

Publications (2)

Publication Number Publication Date
CN107231556A CN107231556A (zh) 2017-10-03
CN107231556B true CN107231556B (zh) 2020-08-11

Family

ID=59810837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710112990.1A Active CN107231556B (zh) 2016-02-29 2017-02-28 一种图像云储存设备

Country Status (2)

Country Link
JP (1) JP2017158183A (zh)
CN (1) CN107231556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102127846B1 (ko) * 2018-11-28 2020-06-29 주식회사 카이 영상을 처리하는 방법, 영상을 재생하는 방법 및 그 장치들
JP2021005211A (ja) 2019-06-26 2021-01-14 キオクシア株式会社 情報処理方法及び情報処理装置
CN113792767B (zh) * 2021-08-27 2023-06-27 国网福建省电力有限公司 基于图信号处理的负荷用电特征监测分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244446A (ja) * 2002-02-21 2003-08-29 Canon Inc 画像処理装置及び画像処理方法
CN1470132A (zh) * 2000-08-17 2004-01-21 通用器材公司 用于数字视频记录的基于代码转换器的自适应量化
JP2006501736A (ja) * 2002-10-04 2006-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーション Jpegイメージのトランスコーディング中の圧縮向上
CN102870415A (zh) * 2010-05-12 2013-01-09 日本电信电话株式会社 活动图像编码控制方法、活动图像编码装置以及活动图像编码程序
WO2015176280A1 (en) * 2014-05-22 2015-11-26 Microsoft Technology Licensing, Llc Re-encoding image sets using frequency-domain differences

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009152895A (ja) * 2007-12-20 2009-07-09 Panasonic Corp 符号量制御方法および装置、符号量制御プログラム、カメラシステム
CN101989355A (zh) * 2009-07-31 2011-03-23 北京邮电大学 一种针对jpeg图像二次压缩的检测方法
CN102238374B (zh) * 2010-04-21 2016-08-24 腾讯科技(深圳)有限公司 对图像数据进行压缩编码的方法和装置
CA2853002C (en) * 2011-10-18 2017-07-25 Kt Corporation Method for encoding image, method for decoding image, image encoder, and image decoder
CN102413328B (zh) * 2011-11-11 2013-11-06 中国科学院深圳先进技术研究院 Jpeg图像双重压缩检测方法及系统
CN102903100B (zh) * 2012-09-06 2015-04-29 宁波大学 一种数字照片图像压缩历史的检测方法
CN104506752B (zh) * 2015-01-06 2017-08-25 河海大学常州校区 一种基于残差压缩感知的相似图像压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1470132A (zh) * 2000-08-17 2004-01-21 通用器材公司 用于数字视频记录的基于代码转换器的自适应量化
JP2003244446A (ja) * 2002-02-21 2003-08-29 Canon Inc 画像処理装置及び画像処理方法
JP2006501736A (ja) * 2002-10-04 2006-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーション Jpegイメージのトランスコーディング中の圧縮向上
CN102870415A (zh) * 2010-05-12 2013-01-09 日本电信电话株式会社 活动图像编码控制方法、活动图像编码装置以及活动图像编码程序
WO2015176280A1 (en) * 2014-05-22 2015-11-26 Microsoft Technology Licensing, Llc Re-encoding image sets using frequency-domain differences

Also Published As

Publication number Publication date
CN107231556A (zh) 2017-10-03
JP2017158183A (ja) 2017-09-07

Similar Documents

Publication Publication Date Title
US11606560B2 (en) Image encoding and decoding, video encoding and decoding: methods, systems and training methods
US20210082152A1 (en) Point Cloud Compression Using Fixed-Point Numbers
US11221990B2 (en) Ultra-high compression of images based on deep learning
US6724940B1 (en) System and method for encoding multidimensional data using hierarchical self-organizing cluster vector quantization
EP3934254A1 (en) Encoding and decoding of extracted features for use with machines
CN108141592B (zh) 用于编码和解码数字图像或视频流的方法和装置
Jamil et al. Learning-driven lossy image compression: A comprehensive survey
CN110024391B (zh) 用于编码和解码数字图像或视频流的方法和装置
Dupont et al. Coin++: Neural compression across modalities
CN117061766A (zh) 基于机器学习的视频压缩
CN107231556B (zh) 一种图像云储存设备
KR20200089635A (ko) 다수의 상이한 비트레이트로 영상 압축을 하기 위한 시스템들 및 방법들
Gu et al. Compression of human motion capture data using motion pattern indexing
Chang et al. Thousand to one: Semantic prior modeling for conceptual coding
Liu et al. Prior-based quantization bin matching for cloud storage of JPEG images
Hooda et al. A survey on 3D point cloud compression using machine learning approaches
Sumbul et al. Towards simultaneous image compression and indexing for scalable content-based retrieval in remote sensing
JP2016535382A (ja) 元の画像の低品質バージョン及びエピトミから元の画像の推定を構築する方法及び装置
Zhang et al. Globally variance-constrained sparse representation and its application in image set coding
Sivam et al. Survey on video compression techniques for efficient transmission
WO2023118317A1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
Hajizadeh et al. Predictive compression of animated 3D models by optimized weighted blending of key‐frames
JP7401822B2 (ja) 画像符号化方法、画像符号化装置及びプログラム
Thakker et al. Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders
Narmadha et al. An optimal HSI image compression using DWT and CP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant