CN111818346B - 图像编码方法和装置、图像解码方法和装置 - Google Patents

图像编码方法和装置、图像解码方法和装置 Download PDF

Info

Publication number
CN111818346B
CN111818346B CN201910289189.3A CN201910289189A CN111818346B CN 111818346 B CN111818346 B CN 111818346B CN 201910289189 A CN201910289189 A CN 201910289189A CN 111818346 B CN111818346 B CN 111818346B
Authority
CN
China
Prior art keywords
probability
symbol
decoded
image
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910289189.3A
Other languages
English (en)
Other versions
CN111818346A (zh
Inventor
周静
温思寒
谭志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201910289189.3A priority Critical patent/CN111818346B/zh
Priority to EP20151116.9A priority patent/EP3723048A1/en
Priority to US16/750,409 priority patent/US11468602B2/en
Priority to JP2020013211A priority patent/JP7424078B2/ja
Publication of CN111818346A publication Critical patent/CN111818346A/zh
Application granted granted Critical
Publication of CN111818346B publication Critical patent/CN111818346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Abstract

本发明实施例提供一种图像编码方法和装置、图像解码方法和装置。该图像编码方法包括:对待处理的图像数据进行卷积神经网络编码,生成特征向量或特征图;对所述特征向量或特征图进行量化,生成离散的待编码符号;利用多尺度上下文模型估计所述待编码符号的概率,其中,所述多尺度上下文模型包括多个不同尺度的掩模卷积层;以及根据所述待编码符号的概率进行熵编码。

Description

图像编码方法和装置、图像解码方法和装置
技术领域
本发明涉及图像处理领域,尤其涉及一种图像编码方法和装置、图像解码方法和装置。
背景技术
随着计算机技术的发展,图像的应用越来越广泛。为了对图像文件进行高效的存储和传输,需要对图像文件进行图像压缩。图像压缩可以看作是码率以及图像压缩失真程度的一种折中。根据香农信源编码理论,数据压缩的理论极限是信息熵。换句话说,如果能够准确地估计图像数据的熵,那么就可以使用较少的比特或较小的码率来表示图像数据,由此,能够实现速率-失真平衡。
根据信息论,可以根据公式1计算待编码符号
Figure BDA0002024338780000011
的信息熵:
Figure BDA0002024338780000012
其中,
Figure BDA0002024338780000013
为待编码符号,
Figure BDA0002024338780000014
为待编码符号的概率。
可见,为了计算待编码符号的信息熵,需要首先确定待编码符号的概率。但是,通常情况下,待编码符号的概率不是已知的,因此,需要对待编码符号的概率进行估计。假设估计的待编码符号的概率为
Figure BDA0002024338780000015
那么,可以根据公式2计算估计的信息熵:
Figure BDA0002024338780000016
由于待编码符号的估计概率
Figure BDA0002024338780000017
与实际概率
Figure BDA0002024338780000018
之间可能存在偏差,因此,估计的信息熵
Figure BDA0002024338780000019
通常大于实际的信息熵
Figure BDA00020243387800000110
可见,如果能够准确的估计待编码符号的概率,那么可以使用较少的比特或较小的码率来表示图像数据,从而有利于提高图像数据的压缩效率。
目前,深度神经网络已经逐渐应用于图像压缩技术领域并取得了较好的性能。其中,自回归模型(诸如像素递归神经网络(Pixel-RNN,Pixel Recurrent NeuralNetworks)、像素卷积神经网络(Pixel-CNN,Pixel Convolutional Neural Networks))能够使图像的像素数据形成特征序列,使用卷积运算预测每个像素相对于在先前像素的条件概率分布。并且,在有损图像压缩技术中,为了有效的进行图像编码还引入了上下文模型。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在现有技术中,在估计图像数据的潜像表示的条件概率时,通常采用单一尺度的上下文模型。发明人发现,利用通过上述方式估计出来的条件概率进行图像编码时,仍然需要用较多的比特来表示图像数据,不能实现速率-失真平衡。
本发明实施例提出了一种图像编码方法和装置、图像解码方法和装置,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
根据本发明实施例的第一个方面,提供了一种图像编码装置,包括:卷积神经网络编码器,其利用卷积神经网络对待处理的图像数据进行编码,以生成所述图像数据的特征向量或特征图;量化器,其用于对所述特征向量或特征图进行量化,以生成离散的待编码符号;概率估计器,其利用多尺度上下文模型估计所述待编码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层;以及熵编码器,其用于根据所述待编码符号的概率进行熵编码。
根据本发明实施例的第二个方面,提供了一种图像解码装置,包括:概率估计器,其利用多尺度上下文模型估计当前的待解码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层;熵解码器,其用于根据所述概率对所述待解码符号进行熵解码,得到特征向量或特征图;以及卷积神经网络解码器,其用于对所述特征向量或特征图进行解码,生成图像数据。
根据本发明实施例的第三个方面,提供了一种图像编码方法,包括:对待处理的图像数据进行卷积神经网络编码,生成特征向量或特征图;对所述特征向量或特征图进行量化,生成离散的待编码符号;利用多尺度上下文模型估计所述待编码符号的概率,其中,所述多尺度上下文模型包括多个不同尺度的掩模卷积层;以及根据所述待编码符号的概率进行熵编码。
根据本发明实施例的第四个方面,提供了一种图像解码方法,包括:通过多尺度上下文模型估计当前的待解码符号的概率,其中,所述多尺度上下文模型包括多个不同尺度的掩模卷积层;根据所述概率对所述待解码符号进行熵解码,得到特征向量或特征图;以及对所述特征向量或特征图进行卷积神经网络解码,生成图像数据。
本发明实施例的有益效果在于,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
参照以下的附图可以更好地理解本发明的很多方面。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外,在附图中,类似的标号表示几个附图中对应的部件,并可用于指示多于一种实施方式中使用的对应部件。
在附图中:
图1是本实施例1的图像编码方法的流程的一个示意图;
图2是本实施例1的特征图的一个示意图;
图3A是本实施例1的掩模卷积层的一个示意图;
图3B是本实施例1的掩模卷积层的另一个示意图;
图3C是本实施例1的掩模卷积层的另一个示意图;
图4是本实施例1的估计待编码符号概率方法的流程的一个示意图;
图5是本实施例1的估计待编码符号概率方法的流程的另一个示意图;
图6是本实施例1的计算辅助信息方法的流程一个示意图;
图7是本实施例1的图像编码装置的结构的一个示意图;
图8是本实施例2的图像解码方法的流程的一个示意图;
图9A是本实施例2的估计待解码符号概率方法的流程的一个示意图;
图9B是本实施例2的估计待解码符号概率方法的流程的另一个示意图;
图10是本实施例2的图像解码装置的结构的一个示意图;
图11是本实施例3的图像编码装置的结构的一个示意图;
图12是本实施例3的概率估计器的结构的一个示意图;
图13是本实施例3的概率估计器的结构的另一个示意图;
图14是本实施例3的辅助信息计算单元的结构的一个示意图;
图15是本实施例4的图像解码装置的结构的一个示意图;
图16是本实施例4的概率估计器的结构的一个示意图;
图17是本实施例4的概率估计器的结构的另一个示意图;
图18是本实施例5的电子设备的结构的一个示意图。
具体实施方式
参照附图,通过下面的说明书,本发明实施例的前述以及其它特征将变得明显。这些实施方式只是示例性的,不是对本发明的限制。下面参照附图对本发明的具体实施方式进行说明。
在本发明实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本发明实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
在本发明实施例中,以卷积神经网络(CNN,Convolutional Neural Network)为例进行示例性说明,本发明不限于此。关于CNN的基本概念和内容可以参考相关技术。
实施例1
本实施例1提供一种图像编码方法,图1是本实施例的图像编码方法的流程的一个示意图,如图1所示,该方法包括:
步骤101,对待处理的图像数据进行卷积神经网络编码,生成特征向量或特征图;
步骤102,对特征向量或特征图进行量化,生成离散的待编码符号;
步骤103,利用多尺度上下文模型估计待编码符号的概率,其中,多尺度上下文模型包括多个不同尺度的掩模卷积层;以及
步骤104,根据待编码符号的概率进行熵编码。
在本实施例中,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
在本实施例中,在步骤101中,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks),是深度学习(deep learning)的代表算法之一。通过卷积神经网络对待处理的图像数据进行编码能够得到该图像数据对应的特征向量或特征图。
在本实施例中,在步骤102中,通过卷积神经网络编码得到的特征向量或特征图为模拟数据形式。通过对该模拟数据形式的特征向量或特征图进行量化,能够得到离散形式的特征向量或特征图,该离散形式的特征向量或特征图即为待编码符号。在本实施例中,可以采用任意量化方式进行特征向量或特征图的量化,本申请对此不作具体限制。
在本实施例中,在步骤103中,在利用多尺度上下文模型估计概率时,可以按照待编码符号的顺序进行逐点估计,其中,被估计的待编码符号的概率依赖于在该待编码符号之前的已编码符号的信息。
在本实施例中,在步骤103中,多尺度上下文模型可以采用任意结构。例如,该多尺度上下文模型可以包括多个不同尺度的掩模卷积层。其中,掩模卷积层用于对以待编码符号为中心的多个符号进行卷积运算,可以将待编码符号之前的已编码符号的权重置为1,将待编码符号之后的未编码符号的权重置为0。
下面结合图2和图3A-图3C说明利用多个不同尺度的掩模卷积层估计待编码符号的概率的方法。
图2是本实施例的特征图的一个示意图,为了便于说明,图2中示例性的采用了15*10的特征图,可以理解的是,特征图也可以是其他尺寸,本申请对此不作具体限制。如图2所示,在该特征图中,每一个矩形代表一个离散的待编码符号,虚线矩形对应已编码符号,矩形D对应当前的需要估计概率的待编码符号,按照图中箭头所指示的方向逐个对待编码符号进行概率估计。
在本实施例中,在多尺度上下文模型中可以使用任意个不同尺度的掩模卷积层,其中,掩模卷积层的尺度可以是任意尺度。图3A-图3C是本实施例的多个不同尺度的掩模卷积层的示意图。
在本实施例中,如图3A-图3C所示,在多尺度上下文模型中可以使用3个不同尺度的掩模卷积层,其中,掩模卷积层的尺度可以分别是3*3,5*5,7*7。其中,图3A所示的3*3掩模卷积层对应于图2中的矩形A,图3B所示的5*5掩模卷积层对应于图2中的矩形B,图3C所示的7*7掩模卷积层对应于图2中的矩形C,图3A中的矩形301、图3B中的矩形302、图3C中的矩形303对应于图2中的矩形D,即当前的待编码符号。
如图2和图3A-图3C所示,由于被估计的待编码符号的概率依赖于在该待编码符号之前的已编码符号的信息,因此,可以将该待编码符号之前的已编码符号的权重置为1,将该待编码符号之后的未编码符号的权重置为0,根据公式3计算被估计的待编码符号的概率:
Figure BDA0002024338780000061
其中,
Figure BDA0002024338780000062
为被估计的待编码符号的概率,
Figure BDA0002024338780000063
为符号
Figure BDA0002024338780000064
相对于在先符号
Figure BDA0002024338780000065
的条件概率,m为在先符号的个数,其与掩模卷积层的尺度有关,例如,掩模卷积层的尺度为3*3时,m=4,掩模卷积层的尺度为5*5时,m=12,掩模卷积层的尺度为7*7时,m=24。
在本实施例中,根据在先已编码符号来估计当前的待编码符号的概率,也就是说,在估计当前的待编码符号的概率时需要考虑在先已编码符号与该待编码符号的相关性。由于不同的图像数据或者在同一个图像数据中的不同区域,在先已编码符号与当前的待编码符号的相关性可能不同,因此,本实施例通过设置多个不同尺度的掩模卷积层,不仅能够考虑距离当前的待编码符号较远的在先已编码符号,而且还能够考虑距离当前的待编码符号较近的在先已编码符号,由此,能够充分利用在先信息,从而能够精确的估计待编码符号的概率。
在本实施例中,在步骤103中,在利用多尺度上下文模型估计待编码符号的概率时,可以根据上述多个不同尺度的掩模卷积层的运算结果进行概率估计,或者,也可以根据多个不同尺度的掩模卷积层的运算结果以及辅助信息进行概率估计。下面结合图4和图5对步骤103进行示例性说明。
图4是本实施例的估计待编码符号概率方法的流程的一个示意图。如图4所示,该方法包括:
步骤401:利用多个不同尺度的掩模卷积层分别对以待编码符号为中心的多个符号进行卷积运算;
步骤402:根据多个不同尺度的掩模卷积层的计算结果,利用概率网络计算待编码符号的概率模型;以及
步骤403:根据概率模型计算待编码符号的概率。
在本实施例中,步骤401的内容如图2和图3A-图3C所述,将其内容合并于此,此处不再赘述。
在本实施例中,在步骤402中,可以利用任意一种概率网络进行概率模型的计算,例如,可以采用高斯概率网络、拉普拉斯概率网络等。以高斯概率网络为例,在步骤402中,可以根据多个不同尺度的掩模卷积层的计算结果估计高斯分布的均值和方差或标准差,从而得到高斯概率模型。
在本实施例中,在步骤403中,根据步骤402中确定的概率模型计算待编码符号的概率,例如,以高斯概率模型为例,可以根据待编码符号的符号值、高斯分布的均值和方差,确定该待编码符号的概率。
图5是本实施例的估计待编码符号概率的方法的流程的另一个示意图。如图5所示,该方法包括:
步骤501:利用多个不同尺度的掩模卷积层分别对以待编码符号为中心的多个符号进行卷积运算;
步骤502:计算辅助信息;
步骤503:根据多个不同尺度的掩模卷积层的计算结果和辅助信息,利用概率网络计算待编码符号的概率模型;以及
步骤504:根据概率模型计算待编码符号的概率。
在本实施例中,该辅助信息可以是与待编码符号相关的信息。由于在概率估计时考虑了与待编码符号相关的信息,因此,能够更加准确的估计待编码符号的概率。
在本实施例中,步骤501和步骤504与步骤401和步骤403相同,将其内容合并于此,此处不再赘述。
在本实施例中,步骤501和步骤502的顺序可以是任意顺序,例如,可以先执行步骤501,或者先执行步骤502,或者并行执行该两个步骤。
在本实施例中,在步骤502中,可以采用任意方式计算辅助信息。下面结合图6对辅助信息的计算方法进行示例性的说明。图6是本实施例的计算辅助信息的方法的流程一个示意图。如图6所示,该方法包括:
步骤601:从卷积神经网络编码的过程中提取多组中间数据;
步骤602:对多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
步骤603:根据特征向量或特征图以及多组卷积运算结果计算辅助信息。
在本实施例中,从对图像数据进行卷积神经网络编码生成该图像数据的特征向量或特征图的过程中提取多组中间数据,该多组中间数据中包含与该图像数据的特征向量或特征图有关的信息。通过对该多组中间数据进行不同尺度的卷积运算得到多组卷积运算结果,并根据该卷积运算结果和特征向量或特征图来计算辅助信息,能够充分的利用与特征向量或特征图相关的信息,由此,能够为待编码符号的概率估计提供更准确的辅助信息。
在本实施例中,在步骤601中,在从卷积神经网络编码的过程中提取中间数据时,可以提取任意数量的中间数据。例如,可以提取3组中间数据。
在本实施例中,在步骤602中,对多组中间数据分别进行不同尺度的卷积运算时,卷积运算的尺度可以任意设置。例如,以3组中间数据为例,该卷积运算的尺度可以设置为5*5、7*7、9*9。通过使用如上所述的较大尺度的卷积运算,能够包含范围更广的中间数据信息,通过使用尺度不同的卷积运算,能够考虑不同范围的中间数据信息,即高频信息和低频信息均可以包括在内,由此,能够更准确的估计辅助信息。
在本实施例中,在步骤104中,熵编码即编码过程中按熵原理不丢失任何信息的编码。在进行熵编码时,每个待编码符号的出现概率越精确,那么能够用越少的比特表示该待编码符号。在步骤104中,可以采用任意一种熵编码,例如,香农(Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)等。
图7是图像编码装置的结构的一个示意图,下面结合图7对本实施例的图像编码方法进行具体的示例性的说明。
如图7所示,首先,通过卷积神经网络编码器对待处理的图像数据进行卷积神经网络编码,得到该图像数据的潜像表示y(即,特征向量或特征图);通过量化器对潜像表示y进行量化得到离散的潜像表示
Figure BDA0002024338780000091
(即,待编码符号);该离散的潜像表示
Figure BDA0002024338780000092
分别经过3*3卷积核、5*5卷积核、7*7卷积核,得到卷积运算后的结果c1、c2和c3;根据卷积运算后的结果c1、c2和c3以及辅助信息(Side information)s,通过概率模型计算单元计算得到待编码符号的概率模型,以高斯分布为例,概率模型包括高斯分布的均值μ和标准差σ;根据待编码符号的符号值和概率模型,通过第一计算单元计算得到待编码符号的概率
Figure BDA0002024338780000093
根据概率
Figure BDA0002024338780000094
和潜像表示
Figure BDA0002024338780000095
通过算数编码器进行熵编码,生成表示图像数据的码流b2。
其中,辅助信息s可以通过如下方式生成:通过中间数据提取单元从卷积神经网络编码器中提取3组中间数据d1、d2和d3;通过5*5卷积核对中间数据d1进行卷积运算,通过7*7卷积核对中间数据d2进行卷积运算,通过9*9卷积核对中间数据d3进行卷积运算,分别得到卷积运算后的结果e1、e2和e3;通过连接器将卷积运算后的结果e1、e2和e3和潜像表示y连接起来得到连接数据f;通过超编码器对连接数据进行超编码(Hyper encode)生成超编码数据g;通过算数编码器对超编码数据g进行算数编码,生成表示辅助信息的码流b1;通过算数解码器对码流b1进行算数解码生成解码数据g’;通过超解码器对解码数据g’进行超解码(Hyper decode),得到辅助信息s。
在本实施例中,表示辅助信息的码流b1和表示图像数据的码流b2可以用于网络传输或存储。在解码器端,能够通过对码流b1进行相应的解码得到辅助信息,通过对码流b2进行相应的解码重构图像数据。
在本实施例中,在生成辅助信息s时采用了超编码和超解码、算数编码和算数解码的形式,但是,本申请不限于此,也可以采用其他的编解码形式来生成辅助信息。
在本实施例中,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
实施例2
本实施例2提供一种图像解码方法,图8是本实施例的图像解码方法的流程的一个示意图,如图8所示,该方法包括:
步骤801,通过多尺度上下文模型估计当前的待解码符号的概率,其中,多尺度上下文模型包括多个不同尺度的掩模卷积层;
步骤802,根据估计的当前的待解码符号的概率对待解码符号进行熵解码,得到特征向量或特征图;以及
步骤803,对特征向量或特征图进行卷积神经网络解码,生成图像数据。
在本实施例中,通过利用多尺度上下文模型估计待解码符号的概率,能够提高待解码符号的概率估计的准确性,并且,根据该概率对待解码符号进行熵解码,能够提高图像解码的准确性。
在本实施例中,在步骤801中,在利用多尺度上下文模型估计上述概率时,按照待解码符号的顺序进行逐点估计,其中,被估计的待解码符号的概率依赖于在该待解码符号之前的已解码符号的信息。
在本实施例中,多尺度上下文模型可以采用任意结构。例如,该多尺度上下文模型可以包括多个不同尺度的掩模卷积层。其中,掩模卷积层用于对以待解码符号为中心的多个符号进行卷积运算,其中将待解码符号之前的已解码符号的权重置为1,将待解码符号之后的未解码符号的权重置为0。
下面结合图2和图3A-图3C说明利用多个不同尺度的掩模卷积层估计待解码符号的概率的方法。
图2是本实施例的特征图的一个示意图,为了便于说明,图2中示例性的采用了15*10的特征图,但是,可以理解的是,特征图也可以是其他尺寸,本申请对此不作具体限制。如图2所示,在该特征图中,每一个矩形代表一个离散的待解码符号,虚线矩形对应已解码符号,矩形D对应当前的需要估计概率的待解码符号,按照箭头所指示的方向逐个对待解码符号进行概率估计。
在本实施例中,在多尺度上下文模型中可以使用任意个不同尺度的掩模卷积层,其中,掩模卷积层的尺度可以是任意尺度。图3A-图3C是本实施例的多个不同尺度的掩模卷积层的一个示意图。在本实施例中,如图3A-图3C所示,掩模卷积层的数量可以是3个,掩模卷积层的尺寸可以分别是3*3,5*5,7*7。其中,图3A所示的3*3掩模卷积层对应于图2中的矩形A,图3B所示的5*5掩模卷积层对应于图2中的矩形B,图3C所示的7*7掩模卷积层对应于图2中的矩形C,图3A中的矩形301、图3B中的矩形302、图3C中的矩形303可以对应于图2中的矩形D,即对应于当前的待解码符号。如图2和图3A-图3C所示,将该待解码符号之前的已解码符号的权重置为1,将该待解码符号之后的未解码符号的权重置为0,由此,能够根据在先已解码符号估计当前的待解码符号的概率。
在本实施例中,根据在先已解码符号来估计当前的待解码符号的概率,也就是说,在估计当前的待解码符号的概率时需要考虑在先已解码符号与该待解码符号的相关性。由于不同的图像数据或者在同一个图像数据中的不同区域,在先已解码符号与当前的待解码符号的相关性可能不同,因此,本实施例通过设置多个不同尺度的掩模卷积层,不仅能够考虑距离当前的待解码符号较远的在先已解码符号,而且还能够考虑距离当前的待解码符号较近的在先已解码符号,由此能够充分利用在先信息,从而能够精确的估计待解码符号的概率。
在本实施例中,在步骤801中,在利用多尺度上下文模型估计待解码符号的概率时,可以根据多个不同尺度的掩模卷积层的运算结果进行概率估计,或者,也可以根据多个不同尺度的掩模卷积层的运算结果以及辅助信息进行概率估计。下面结合图9A和图9B对步骤801进行举例说明。
图9A是本实施例的估计待解码符号概率的方法的流程的一个示意图。如图9A所示,该方法包括:
步骤901:利用多个不同尺度的掩模卷积层分别对以待解码符号为中心的多个符号进行卷积运算;
步骤902:根据掩模卷积层的计算结果,利用概率网络计算待解码符号的概率模型;以及
步骤903:根据概率模型计算待解码符号的概率。
在本实施例中,步骤901的内容如图2和图3A-图3C所述,将其内容合并于此,此处不再赘述。
在本实施例中,在步骤902中,可以利用任意一种概率网络进行概率模型的计算,例如,可以采用高斯概率网络、拉普拉斯概率网络等。以高斯概率网络为例,在步骤902中可以根据掩模卷积层的计算结果估计高斯分布的均值和方差或标准差,由此得到高斯概率模型。
在本实施例中,在步骤903中,根据步骤902中确定的概率模型计算待解码符号的概率,例如,以高斯概率模型为例,可以根据待解码符号的符号值、高斯分布的均值和方差,确定该待解码符号的概率。
图9B是本实施例的估计待解码符号概率的方法的流程的另一个示意图。如图9B所示,该方法包括:
步骤1001:利用多个不同尺度的掩模卷积层分别对以待解码符号为中心的多个符号进行卷积运算;
步骤1002:计算辅助信息;
步骤1003:根据掩模卷积层的计算结果和辅助信息,利用概率网络计算待解码符号的概率模型;以及
步骤1004:根据概率模型计算待解码符号的概率。
在本实施例中,该辅助信息可以是与待解码符号相关的信息。由于在概率估计时考虑了与待解码符号相关的辅助信息,因此,能够更加准确的估计待解码符号的概率。
在本实施例中,步骤1001和步骤1004与步骤901和步骤903相同,将其内容合并于此,此处不再赘述。
在本实施例中,在步骤1002中,可以采用任意方式计算辅助信息。例如,可以对接收到的与辅助信息对应的比特流进行超解码从而得到辅助信息。但是,本申请不限于此,也可以采用其他的解码形式来生成辅助信息。
在本实施例中,在步骤802中,可以采用任意一种熵解码,例如,与香农(Shannon)编码、哈夫曼(Huffman)编码或算术编码(arithmetic coding)等对应的解码。
图10是图像解码装置的结构的一个示意图,下面结合图10对本实施例的图像解码方法进行示例性的说明。
如图10所示,首先,通过算数解码器对表示图像数据的码流b2进行熵解码得到离散的潜像表示
Figure BDA0002024338780000131
(即,特征向量或特征图);通过卷积神经网络解码器对潜像表示
Figure BDA0002024338780000132
进行解码从而重构图像数据。
其中,在通过算数解码器进行熵解码时还需要用到当前的潜像表示
Figure BDA0002024338780000133
的概率,其中,该概率可以通过如下方式计算:离散的潜像表示
Figure BDA0002024338780000134
分别经过3*3卷积核、5*5卷积核、7*7卷积核得到卷积运算后的结果c1、c2和c3;根据卷积运算后的结果c1、c2和c3以及辅助信息(Side information)s,通过概率模型计算单元计算得到待解码符号的概率模型,以高斯分布为例,概率模型包括高斯分布的均值μ和标准差σ;根据码流b2和概率模型,通过第三计算单元计算得到待解码符号的概率
Figure BDA0002024338780000135
其中,辅助信息s可以通过如下方式生成:通过算数解码器对表示辅助信息的码流b1进行算数解码,生成解码数据g’;通过超解码器对解码数据g’进行超解码(Hyperdecode),得到辅助信息s。
在本实施例中,在生成辅助信息s时采用了超解码、算数解码的形式,但是,本申请不限于此,也可以采用其他的解码形式来生成辅助信息。
在本实施例中,通过利用多尺度上下文模型估计待解码符号的概率,能够提高待解码符号的概率估计的准确性,并且,根据该概率对待解码符号进行熵解码,能够提高图像解码的准确性。
实施例3
本实施例3还提供一种图像编码装置。由于该装置解决问题的原理与实施例1的方法类似,因此其具体的实施可以参考实施例1的方法的实施,内容相同之处不再重复说明。
图11是该图像编码装置1100的结构的一个意图,如图11所示,该装置1100包括:
卷积神经网络编码器1101,其利用卷积神经网络对待处理的图像数据进行编码,以生成图像数据的特征向量或特征图;
量化器1102,其用于对特征向量或特征图进行量化,以生成离散的待编码符号;
概率估计器1103,其利用多尺度上下文模型估计待编码符号的概率,其中,概率估计器1103包括多个不同尺度的掩模卷积层11031;以及
熵编码器1104,其用于根据待编码符号的概率进行熵编码。
在本实施例中,卷积神经网络编码器1101、量化器1102、概率估计器1103和熵编码器1104的实施方式可以参考实施例1中步骤101-104,此处不再赘述。
在本实施例中,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
图12是本实施例的概率估计器1103的结构的一个示意图。如图12所示,概率估计器1103可以包括:
多个不同尺度的掩模卷积层11031,其分别对以待编码符号为中心的多个符号进行卷积运算;
概率模型计算单元11032,其根据掩模卷积层11031的计算结果,利用概率网络计算待编码符号的概率模型;以及
第一计算单元11033,其根据概率模型计算待编码符号的概率。
在本实施例中,多个不同尺度的掩模卷积层11031、概率模型计算单元11032和第一计算单元11033的实施方式可以参考实施例1中步骤401-403,此处不再赘述。
图13是本实施例的概率估计器1103的结构的另一个示意图。如图13所示,概率估计器1103可以包括:
辅助信息计算单元11034,其用于计算辅助信息;
多个不同尺度的掩模卷积层11031,其分别对以待编码符号为中心的多个符号进行卷积运算;
概率模型计算单元11035,其根据掩模卷积层11031的计算结果和辅助信息,利用概率网络计算待编码符号的概率模型;以及
第一计算单元11033,其根据概率模型计算待编码符号的概率。
在本实施例中,多个不同尺度的掩模卷积层11031、辅助信息计算单元11034、概率模型计算单元11035和第一计算单元11033的实施方式可以参考实施例1中步骤501-504,此处不再赘述。
图14是本实施例的辅助信息计算单元11034的结构的一个示意图。如图14所示,辅助信息计算单元11034可以包括:
中间数据提取单元1401,其用于从卷积神经网络编码器中提取多组中间数据;
多尺度卷积单元1402,其用于对多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
第二计算单元1403,其用于根据特征向量或特征图以及多组卷积运算结果计算所述辅助信息。
在本实施例中,中间数据提取单元1401、多尺度卷积单元1402和第二计算单元1403的实施方式可以参考实施例1中步骤601-603,此处不再赘述。
在本实施例中,通过利用多尺度上下文模型估计待编码符号的概率,能够提高待编码符号的概率估计的准确性,并且,根据该概率对待编码符号进行熵编码,能够使用较少的比特来表示图像数据,提高了图像编码的编码效率。
实施例4
本实施例4还提供一种图像解码装置。由于该装置解决问题的原理与实施例2的方法类似,因此其具体的实施可以参考实施例2的方法的实施,内容相同之处不再重复说明。
图15是本实施例的图像解码装置的结构的一个示意图,如图15所示,该装置1600包括:
概率估计器1601,其利用多尺度上下文模型估计当前的待解码符号的概率,其中,概率估计器1601包括多个不同尺度的掩模卷积层16011;
熵解码器1602,其用于根据概率对待解码符号进行熵解码,得到特征向量或特征图;以及
卷积神经网络解码器1603,其用于对特征向量或特征图进行解码,生成图像数据。
在本实施例中,通过利用多尺度上下文模型估计待解码符号的概率,能够提高待解码符号的概率估计的准确性,并且,根据该概率对待解码符号进行熵解码,能够提高图像解码的准确性。
在本实施例中,概率估计器1601、熵解码器1602和卷积神经网络解码器1603的实施方式可以参考实施例2中步骤801-803,此处不再赘述。
图16是本实施例的概率估计器1601的结构的一个示意图。如图16所示,概率估计器1601包括:
多个不同尺度的掩模卷积层16011,其分别对以待解码符号为中心的多个符号进行卷积运算;
概率模型计算单元1701,其根据多个不同尺度的掩模卷积层16011的计算结果利用概率网络计算待解码符号的概率模型;以及
第三计算单元1702,其用于根据述概率模型计算所述待解码符号的概率。
在本实施例中,多个不同尺度的掩模卷积层16011、概率模型计算单元1701和第三计算单元1702的实施方式可以参考实施例2中步骤901-903,此处不再赘述。
图17是本实施例的概率估计器1601的结构的另一个示意图。如图17所示,概率估计器1601包括:
多个不同尺度的掩模卷积层16011,其分别对以待解码符号为中心的多个符号进行卷积运算;
辅助信息计算单元1801,其用于计算辅助信息;
概率模型计算单元1802,其根据多个不同尺度的掩模卷积层16011的计算结果和辅助信息利用概率网络计算待解码符号的概率模型;以及
第三计算单元1702,其用于根据概率模型计算待解码符号的概率。
在本实施例中,多个不同尺度的掩模卷积层16011、辅助信息计算单元1801、概率模型计算单元1802和第三计算单元1702的实施方式可以参考实施例2中步骤1001-1004,此处不再赘述。
在本实施例中,通过利用多尺度上下文模型估计待解码符号的概率,能够提高待解码符号的概率估计的准确性,并且,根据该概率对待解码符号进行熵解码,能够提高图像解码的准确性。
实施例5
本发明实施例还提供一种电子设备,包括有如实施例3所述的图像编码装置或包括实施例4所述的图像解码装置,其内容被合并于此。该电子设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本发明实施例不限于此。
图18是本实施例的电子设备的结构的一个示意图。如图18所示,电子设备1900可以包括:处理器(例如中央处理器CPU)1910和存储器1920;存储器1920耦合到中央处理器1910。其中该存储器1920可存储各种数据;此外还存储信息处理的程序,并且在处理器1910的控制下执行该程序。
在一个实施方式中,图像编码装置1100或图像解码装置1600的功能可以被集成到处理器1910中。其中,处理器1910可以被配置为实现如实施例1所述的图像编码方法或实施例2所述的图像解码方法。
在另一个实施方式中,图像编码装置1100或图像解码装置1600可以与处理器1910分开配置,例如可以将图像编码装置1100或图像解码装置1600配置为与处理器1910连接的芯片,通过处理器1910的控制来实现图像编码装置1100或图像解码装置1600的功能。
例如,处理器1910可以被配置为进行如下的控制:对待处理的图像数据进行卷积神经网络编码,生成特征向量或特征图;对特征向量或特征图进行量化,生成离散的待编码符号;利用多尺度上下文模型估计待编码符号的概率,其中,多尺度上下文模型包括多个不同尺度的掩模卷积层;以及根据待编码符号的概率进行熵编码。
或者,例如,处理器1910可以被配置为进行如下的控制:通过多尺度上下文模型估计当前的待解码符号的概率,其中,多尺度上下文模型包括多个不同尺度的掩模卷积层;根据概率对待解码符号进行熵解码得到特征向量或特征图;以及对特征向量或特征图进行卷积神经网络解码,生成图像数据。
该处理器1910的具体实施方式可以参考实施例1或2,此处不再赘述。
此外,如图18所示,电子设备1900还可以包括:收发单元1930等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备1900也并不是必须要包括图18中所示的所有部件;此外,电子设备1900还可以包括图18中没有示出的部件,可以参考现有技术。
本发明实施例还提供一种计算机可读程序,其中当在图像编码装置中执行该程序时,该程序使得计算机在该图像编码装置中执行如上面实施例1中的图像编码方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中该计算机可读程序使得计算机在图像编码装置中执行上面实施例1中的图像编码方法。
本发明实施例还提供一种计算机可读程序,其中当在图像解码装置中执行该程序时,该程序使得计算机在该图像解码装置中执行如上面实施例2中的图像解码方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中该计算机可读程序使得计算机在图像解码装置中执行上面实施例2中的图像解码方法。
结合本发明实施例描述的在图像编码装置中图像编码的方法或图像解码装置中的图像解码方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图7、图10-图17所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图1、图4-图6、图8-图9B所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在图像编码装置或图像解码装置的存储器中,也可以存储在可插入图像编码装置或图像解码装置的存储卡中。
针对图1、图4-图6、图8-图9B描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1、图4-图6、图8-图9B描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。
关于包括以上多个实施例的实施方式,还公开下述的附记。
1、一种图像编码方法,包括:
对待处理的图像数据进行卷积神经网络编码,生成特征向量或特征图;
对所述特征向量或特征图进行量化,生成离散的所述待编码符号;
利用多尺度上下文模型估计所述待编码符号的概率,其中,所述多尺度上下文模型包括多个不同尺度的掩模卷积层;以及
根据所述待编码符号的概率进行熵编码。
2、如附记1所述的图像编码方法,其中,所述利用多尺度上下文模型估计待编码符号的概率包括:
利用多个不同尺度的所述掩模卷积层分别对以所述待编码符号为中心的多个符号进行卷积运算;
根据所述掩模卷积层的计算结果,利用概率网络计算所述待编码符号的概率模型;以及
根据所述概率模型计算所述待编码符号的概率。
3、如附记1所述的图像编码方法,其中,所述利用多尺度上下文模型估计待编码符号的概率包括:
利用多个不同尺度的所述掩模卷积层分别对以所述待编码符号为中心的多个符号进行卷积运算;
计算辅助信息;
根据所述掩模卷积层的计算结果和辅助信息,利用概率网络计算所述待编码符号的概率模型;以及
根据所述概率模型计算所述待编码符号的概率。
4、如附记3所述的图像编码方法,其中,所述计算辅助信息包括:
从所述卷积神经网络编码的过程中提取多组中间数据;
对所述多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
根据所述特征向量或特征图以及所述多组卷积运算结果计算所述辅助信息。
5、如附记4所述的图像编码方法,其中,所述中间数据为3组,所述多组卷积运算的尺度分别为5*5,7*7,9*9。
6、如附记1所述的图像编码方法,其中,
所述掩模卷积层用于对以所述待编码符号为中心的多个符号进行卷积运算,其中将所述待编码符号之前的已编码符号的权重置为1,将所述待编码符号之后的未编码符号的权重置为0。
7、如附记1所述的图像编码方法,其中,所述掩模卷积层的数量为3个,所述掩模卷积层的尺寸分别为3*3,5*5,7*7。
8、一种图像解码方法,包括:
通过多尺度上下文模型估计当前的待解码符号的概率,其中,所述多尺度上下文模型包括多个不同尺度的掩模卷积层;
根据所述概率对所述待解码符号进行熵解码,得到特征向量或特征图;以及
对所述特征向量或特征图进行卷积神经网络解码,生成图像数据。
9、如附记8所述的图像解码方法,其中,所述利用多尺度上下文模型估计待解码符号的概率包括:
利用多个不同尺度的所述掩模卷积层分别对以所述待解码符号为中心的多个符号进行卷积运算;
根据所述掩模卷积层的计算结果,利用概率网络计算所述待解码符号的概率模型;以及
根据所述概率模型计算所述待解码符号的概率。
10、如附记8所述的图像解码方法,其中,所述利用多尺度上下文模型估计待解码符号的概率包括:
利用多个不同尺度的所述掩模卷积层分别对以所述待解码符号为中心的多个符号进行卷积运算;
计算辅助信息;
根据所述掩模卷积层的计算结果和所述辅助信息,利用概率网络计算所述待解码符号的概率模型;以及
根据所述概率模型计算所述待解码符号的概率。
11、如附记8所述的图像解码方法,其中,
所述掩模卷积层用于对以所述待解码符号为中心的多个符号进行卷积运算,其中将所述待解码符号之前的已解码符号的权重置为1,将所述待解码符号之后的未解码符号的权重置为0。
12、根据权利要求8所述的图像编码装置,其中,所述掩模卷积层的数量为3个,所述掩模卷积层的尺寸分别为3*3,5*5,7*7。
13、一种图像编码装置,包括:
卷积神经网络编码器,其利用卷积神经网络对待处理的图像数据进行编码,以生成所述图像数据的特征向量或特征图;
量化器,其用于对所述特征向量或特征图进行量化,以生成离散的待编码符号;
概率估计器,其利用多尺度上下文模型估计所述待编码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层;以及
熵编码器,其用于根据所述待编码符号的概率进行熵编码。
14、如附记13所述的图像编码装置,其中,多个不同尺度的所述掩模卷积层分别对以所述待编码符号为中心的多个符号进行卷积运算;
所述概率估计器还包括:
概率模型计算单元,其根据多个不同尺度的所述掩模卷积层的计算结果,利用概率网络计算所述待编码符号的概率模型;以及
第一计算单元,其用于根据所述概率模型计算所述待编码符号的概率。
15、如附记13所述的图像编码装置,其中,多个不同尺度的所述掩模卷积层分别对以所述待编码符号为中心的多个符号进行卷积运算;
所述概率估计器还包括:
辅助信息计算单元,其用于计算辅助信息;
概率模型计算单元,其根据多个不同尺度的所述掩模卷积层的计算结果和所述辅助信息,利用概率网络计算所述待编码符号的概率模型;以及
第一计算单元,其用于根据所述概率模型计算所述待编码符号的概率。
16、如附记15所述的图像编码装置,其中,所述辅助信息计算单元包括:
中间数据提取单元,其用于从所述卷积神经网络编码器中提取多组中间数据;
多尺度卷积单元,其用于对所述多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
第二计算单元,其用于根据所述特征向量或特征图以及所述多组卷积运算结果计算所述辅助信息。
17、如附记16所述的图像编码装置,其中,所述中间数据为3组,所述多尺度卷积单元的尺度分别为5*5,7*7,9*9。
18、如附记13所述的图像编码装置,其中,
所述掩模卷积层用于对以所述待编码符号为中心的多个符号进行卷积运算,其中将所述待编码符号之前的已编码符号的权重置为1,将所述待编码符号之后的未编码符号的权重置为0。
19、如附记13所述的图像编码装置,其中,所述掩模卷积层的数量为3个,所述掩模卷积层的尺寸分别为3*3,5*5,7*7。
20、一种图像解码装置,包括:
概率估计器,其利用多尺度上下文模型估计当前的待解码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层;
熵解码器,其用于根据所述概率对所述待解码符号进行熵解码,得到特征向量或特征图;以及
卷积神经网络解码器,其用于对所述特征向量或特征图进行解码,生成图像数据。
21、如附记20所述的图像解码装置,其中,多个不同尺度的所述掩模卷积层分别对以所述待解码符号为中心的多个符号进行卷积运算;
所述概率估计器还包括:
概率模型计算单元,其根据所述掩模卷积层的计算结果,利用概率网络计算所述待解码符号的概率模型;以及
第三计算单元,其用于根据所述概率模型计算所述待解码符号的概率。
22、如附记20所述的图像解码装置,其中,多个不同尺度的所述掩模卷积层分别对以所述待解码符号为中心的多个符号进行卷积运算;
所述概率估计器还包括:
辅助信息计算单元,其用于计算辅助信息;
概率模型计算单元,其根据所述掩模卷积层的计算结果和所述辅助信息,利用概率网络计算所述待解码符号的概率模型;以及
第三计算单元,其用于根据所述概率模型计算所述待解码符号的概率。
23、如附记20所述的图像解码装置,其中,
所述掩模卷积层用于对以所述待解码符号为中心的多个符号进行卷积运算,其中将所述待解码符号之前的已解码符号的权重置为1,将所述待解码符号之后的未解码符号的权重置为0。
24、根据权利要求20所述的图像编码装置,其中,所述掩模卷积层的数量为3个,所述掩模卷积层的尺寸分别为3*3,5*5,7*7。

Claims (9)

1.一种图像编码装置,其特征在于,所述装置包括:
卷积神经网络编码器,其利用卷积神经网络对待处理的图像数据进行编码,以生成所述图像数据的特征向量或特征图;
量化器,其用于对所述特征向量或特征图进行量化,以生成离散的待编码符号;
概率估计器,其利用多尺度上下文模型估计所述待编码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层,各个不同尺度的所述掩模卷积层分别对以所述待编码符号为中心的多个符号进行卷积运算,生成分别与各个不同尺度的所述掩模卷积层对应的多个计算结果,所述概率估计器根据所述多个计算结果,利用概率网络计算所述待编码符号的概率模型,根据所述概率模型计算所述待编码符号的概率;以及
熵编码器,其用于根据所述待编码符号的概率进行熵编码。
2.根据权利要求1所述的图像编码装置,其中,所述概率估计器还包括:
概率模型计算单元,其根据多个不同尺度的所述掩模卷积层的计算结果,利用概率网络计算所述待编码符号的概率模型;以及
第一计算单元,其用于根据所述概率模型计算所述待编码符号的概率。
3.根据权利要求1所述的图像编码装置,其中,所述概率估计器还包括:
辅助信息计算单元,其用于计算辅助信息;
概率模型计算单元,其根据多个不同尺度的所述掩模卷积层的计算结果和所述辅助信息,利用概率网络计算所述待编码符号的概率模型;以及
第一计算单元,其用于根据所述概率模型计算所述待编码符号的概率,
其中,所述辅助信息计算单元包括:
中间数据提取单元,其用于从所述卷积神经网络编码器对所述图像数据进行卷积神经网络编码生成所述图像数据的特征向量或特征图的过程中提取多组中间数据,所述多组中间数据中包含与所述图像数据的特征向量或特征图有关的信息;
多尺度卷积单元,其用于对所述多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
第二计算单元,其用于根据所述特征向量或特征图以及所述多组卷积运算结果计算所述辅助信息。
4.根据权利要求3所述的图像编码装置,其中,所述中间数据为3组,所述多尺度卷积单元的尺度分别为5*5,7*7,9*9。
5.根据权利要求1所述的图像编码装置,其中,
所述掩模卷积层用于对以所述待编码符号为中心的多个符号进行卷积运算,其中将所述待编码符号之前的已编码符号的权重置为1,将所述待编码符号之后的未编码符号的权重置为0。
6.根据权利要求1所述的图像编码装置,其中,所述掩模卷积层的数量为3个,所述掩模卷积层的尺寸分别为3*3,5*5,7*7。
7.一种图像解码装置,其特征在于,所述装置包括:
概率估计器,其利用多尺度上下文模型估计当前的待解码符号的概率,其中,所述概率估计器包括多个不同尺度的掩模卷积层,各个不同尺度的所述掩模卷积层分别对以所述待解码符号为中心的多个符号进行卷积运算,生成分别与各个不同尺度的所述掩模卷积层对应的多个计算结果,所述概率估计器根据所述多个计算结果,利用概率网络计算所述待解码符号的概率模型,根据所述概率模型计算所述待解码符号的概率;
熵解码器,其用于根据所述概率对所述待解码符号进行熵解码,得到特征向量或特征图;以及
卷积神经网络解码器,其用于对所述特征向量或特征图进行解码,生成图像数据。
8.根据权利要求7所述的图像解码装置,其中,所述概率估计器还包括:
概率模型计算单元,其根据所述掩模卷积层的计算结果,利用概率网络计算所述待解码符号的概率模型;以及
第三计算单元,其用于根据所述概率模型计算所述待解码符号的概率。
9.根据权利要求7所述的图像解码装置,其中,所述概率估计器还包括:
辅助信息计算单元,其用于计算辅助信息;
概率模型计算单元,其根据所述掩模卷积层的计算结果和所述辅助信息,利用概率网络计算所述待解码符号的概率模型;以及
第三计算单元,其用于根据所述概率模型计算所述待解码符号的概率,
其中,所述辅助信息计算单元包括:
中间数据提取单元,其用于从卷积神经网络编码器对所述图像数据进行卷积神经网络编码生成所述图像数据的特征向量或特征图的过程中提取多组中间数据,所述多组中间数据中包含与所述图像数据的特征向量或特征图有关的信息;
多尺度卷积单元,其用于对所述多组中间数据分别进行不同尺度的卷积运算,得到多组卷积运算结果;以及
第二计算单元,其用于根据所述特征向量或特征图以及所述多组卷积运算结果计算所述辅助信息。
CN201910289189.3A 2019-04-11 2019-04-11 图像编码方法和装置、图像解码方法和装置 Active CN111818346B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910289189.3A CN111818346B (zh) 2019-04-11 2019-04-11 图像编码方法和装置、图像解码方法和装置
EP20151116.9A EP3723048A1 (en) 2019-04-11 2020-01-10 Method and apparatus for coding and decoding using a convolutional neural network
US16/750,409 US11468602B2 (en) 2019-04-11 2020-01-23 Image encoding method and apparatus and image decoding method and apparatus
JP2020013211A JP7424078B2 (ja) 2019-04-11 2020-01-30 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289189.3A CN111818346B (zh) 2019-04-11 2019-04-11 图像编码方法和装置、图像解码方法和装置

Publications (2)

Publication Number Publication Date
CN111818346A CN111818346A (zh) 2020-10-23
CN111818346B true CN111818346B (zh) 2023-04-18

Family

ID=69157690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910289189.3A Active CN111818346B (zh) 2019-04-11 2019-04-11 图像编码方法和装置、图像解码方法和装置

Country Status (4)

Country Link
US (1) US11468602B2 (zh)
EP (1) EP3723048A1 (zh)
JP (1) JP7424078B2 (zh)
CN (1) CN111818346B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4053740A1 (en) * 2017-07-11 2022-09-07 DeepMind Technologies Limited Learning visual concepts using neural networks
CN111818346B (zh) * 2019-04-11 2023-04-18 富士通株式会社 图像编码方法和装置、图像解码方法和装置
KR102234097B1 (ko) * 2019-07-17 2021-04-01 부산대학교 산학협력단 딥러닝을 위한 이미지 처리 방법 및 이미지 처리 시스템
JP7355622B2 (ja) * 2019-11-29 2023-10-03 株式会社日立製作所 エンコーダを有するストレージシステム
CN112866694B (zh) * 2020-12-31 2023-07-14 杭州电子科技大学 联合非对称卷积块和条件上下文的智能图像压缩优化方法
US20220215265A1 (en) 2021-01-04 2022-07-07 Tencent America LLC Method and apparatus for end-to-end task-oriented latent compression with deep reinforcement learning
CN117768655A (zh) * 2021-02-25 2024-03-26 华为技术有限公司 音视频或图像分层压缩方法和装置
CN113079378B (zh) * 2021-04-15 2022-08-16 杭州海康威视数字技术股份有限公司 图像处理方法、装置和电子设备
CN115412735A (zh) * 2021-05-29 2022-11-29 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN115604485A (zh) * 2021-07-09 2023-01-13 华为技术有限公司(Cn) 视频图像的解码方法及装置
US11367289B1 (en) * 2021-07-16 2022-06-21 Motional Ad Llc Machine learning-based framework for drivable surface annotation
CN115706798A (zh) * 2021-08-17 2023-02-17 华为技术有限公司 熵编解码方法和装置
CN115834888A (zh) * 2021-09-18 2023-03-21 华为技术有限公司 特征图编解码方法和装置
WO2023075488A1 (ko) * 2021-10-28 2023-05-04 엘지전자 주식회사 엔트로피 코딩에 기반한 피쳐 부호화/복호화 방법, 장치, 비트스트림을 저장한 기록 매체 및 비트스트림 전송 방법
CN114095728B (zh) * 2022-01-21 2022-07-15 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481295A (zh) * 2017-08-14 2017-12-15 哈尔滨工业大学 基于动态字节长度分配的卷积神经网络的图像压缩系统
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN109565596A (zh) * 2016-05-12 2019-04-02 交互数字Vc控股公司 用于上下文自适应二进制算术编码表示与视频数据相关的语法元素的二进制符号序列的方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5105179B2 (ja) 2008-04-04 2012-12-19 富士フイルム株式会社 画像処理システム、画像処理方法、およびプログラム
JP5258664B2 (ja) 2009-04-14 2013-08-07 株式会社エヌ・ティ・ティ・ドコモ 画像符号化装置、方法およびプログラム、並びに、画像復号装置、方法およびプログラム
JP5684488B2 (ja) 2009-04-20 2015-03-11 富士フイルム株式会社 画像処理装置、画像処理方法およびプログラム
JP2010272109A (ja) 2009-04-20 2010-12-02 Fujifilm Corp 画像処理装置、画像処理方法およびプログラム
WO2011126277A2 (en) 2010-04-05 2011-10-13 Samsung Electronics Co., Ltd. Low complexity entropy-encoding/decoding method and apparatus
WO2011143780A1 (en) 2010-05-21 2011-11-24 Research In Motion Limited Methods and devices for reducing sources in binary entropy coding and decoding
US8483500B2 (en) 2010-09-02 2013-07-09 Sony Corporation Run length coding with context model for image compression using sparse dictionaries
CN104811706B (zh) 2011-01-06 2017-10-27 三星电子株式会社 视频的编码方法和装置及视频的解码方法和装置
US8571306B2 (en) 2011-08-10 2013-10-29 Qualcomm Incorporated Coding of feature location information
US10713794B1 (en) 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
US20190122073A1 (en) 2017-10-23 2019-04-25 The Charles Stark Draper Laboratory, Inc. System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture
US10733431B2 (en) 2017-12-03 2020-08-04 Facebook, Inc. Systems and methods for optimizing pose estimation
US10692243B2 (en) 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10796452B2 (en) 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
US10674152B2 (en) 2018-09-18 2020-06-02 Google Llc Efficient use of quantization parameters in machine-learning models for video coding
US20200160565A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods And Apparatuses For Learned Image Compression
US11729406B2 (en) 2019-03-21 2023-08-15 Qualcomm Incorporated Video compression using deep generative models
CN111818346B (zh) * 2019-04-11 2023-04-18 富士通株式会社 图像编码方法和装置、图像解码方法和装置
US20200329233A1 (en) 2019-04-12 2020-10-15 Frank Nemirofsky Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content
CN111988609A (zh) * 2019-05-22 2020-11-24 富士通株式会社 图像编码装置、概率模型生成装置和图像解码装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109565596A (zh) * 2016-05-12 2019-04-02 交互数字Vc控股公司 用于上下文自适应二进制算术编码表示与视频数据相关的语法元素的二进制符号序列的方法和装置
CN107481295A (zh) * 2017-08-14 2017-12-15 哈尔滨工业大学 基于动态字节长度分配的卷积神经网络的图像压缩系统
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Conditional image generation with pixelcnn decoders;D. D. Lee等;《Advances in Neural Information Processing Systems 29》;20161231;全文 *
CONTEXT-ADAPTIVE ENTROPY MODEL FOR END-TO-END OPTIMIZED IMAGE COMPRESSION;Jooyoung Lee等;《arXiv 2018》;20181019;正文第1-6节,附图3-6 *
Joint Autoregressive and Hierarchical Priors for Learned Image Compression;David Minnen等;《32nd Conference on Neural Information Processing Systems (NeurIPS 2018)》;20181231;正文第1-5节,附图1、4 *
Jooyoung Lee等.CONTEXT-ADAPTIVE ENTROPY MODEL FOR END-TO-END OPTIMIZED IMAGE COMPRESSION.《arXiv 2018》.2018, *
VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR;Johannes Ballé等;《arXiv 2018》;20180501;全文 *

Also Published As

Publication number Publication date
US20200327701A1 (en) 2020-10-15
US11468602B2 (en) 2022-10-11
CN111818346A (zh) 2020-10-23
JP2020173782A (ja) 2020-10-22
JP7424078B2 (ja) 2024-01-30
EP3723048A1 (en) 2020-10-14

Similar Documents

Publication Publication Date Title
CN111818346B (zh) 图像编码方法和装置、图像解码方法和装置
CN111988629B (zh) 图像编码装置和图像解码装置
CN107832837B (zh) 一种基于压缩感知原理的卷积神经网络压缩方法及解压缩方法
US11869221B2 (en) Data compression using integer neural networks
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN111986278A (zh) 图像编码装置、概率模型生成装置和图像压缩系统
CN113259676A (zh) 一种基于深度学习的图像压缩方法和装置
CN111988609A (zh) 图像编码装置、概率模型生成装置和图像解码装置
US7778468B2 (en) Decoding apparatus, dequantizing method, and program thereof
Sun et al. Q-lic: Quantizing learned image compression with channel splitting
Cui et al. An efficient deep quantized compressed sensing coding framework of natural images
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
WO2018014301A1 (zh) 视频编码方法及装置
CN113438481A (zh) 训练方法、图像编码方法、图像解码方法及装置
JP6765355B2 (ja) デコーダ、エンコーダおよび符号化値を復号化する方法
KR20200044668A (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
US9778354B2 (en) Method and system for coding signals using distributed coding and non-monotonic quantization
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
KR20220045920A (ko) 머신비전을 위한 영상의 처리 방법 및 장치
Sun et al. End-to-end learned image compression with quantized weights and activations
He et al. Post-training quantization is all you need to perform cross-platform learned image compression
JP7476631B2 (ja) 画像コーディング方法及び装置並びに画像デコーディング方法及び装置
CN116828184B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN113949868B (zh) 一种熵编码方法及装置
US20230154053A1 (en) System and method for scene graph lossless compression by context-based graph convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant