CN111295884B - 图像处理装置及图像处理方法 - Google Patents

图像处理装置及图像处理方法 Download PDF

Info

Publication number
CN111295884B
CN111295884B CN201880071077.4A CN201880071077A CN111295884B CN 111295884 B CN111295884 B CN 111295884B CN 201880071077 A CN201880071077 A CN 201880071077A CN 111295884 B CN111295884 B CN 111295884B
Authority
CN
China
Prior art keywords
image
convolution
blocks
residual
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880071077.4A
Other languages
English (en)
Other versions
CN111295884A (zh
Inventor
A·霍奇金森
L·里加齐奥
远间正真
西孝启
安倍清史
加纳龙一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN111295884A publication Critical patent/CN111295884A/zh
Application granted granted Critical
Publication of CN111295884B publication Critical patent/CN111295884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • H04N19/865Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness with detection of the former encoding block subdivision in decompressed video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

图像处理装置(100)具备存储器(120)和电路(110);电路(110)使用神经网络模型,进行使压缩解除图像接近于原图像的处理,该神经网络模型进行了用来使压缩解除图像接近于原图像的学习;神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;1个以上的卷积块分别是包含卷积层的处理块;1个以上的残差块分别是如下处理块:包含由1个以上的卷积块中的至少1个构成的卷积组,将被输入到残差块的数据向残差块中包含的卷积组输入,并且将被输入到残差块中的数据加到从卷积组输出的数据中。

Description

图像处理装置及图像处理方法
技术领域
本发明涉及图像处理装置等。
背景技术
以往,作为用来将运动图像编码的标准,存在也被称作HEVC(High EfficiencyVideo Coding)的H.265(非专利文献1)。
现有技术文献
非专利文献
非专利文献1:H.265(ISO/IEC 23008-2HEVC)/HEVC(High Efficiency VideoCoding)
发明内容
发明要解决的课题
但是,通过对原图像进行压缩及压缩解除而得到的压缩解除图像的画质与原图像的画质相比劣化的可能性较高。
所以,本发明提供一种能够使压缩解除图像适当地接近于原图像的图像处理装置等。
用来解决课题的手段
本发明的一技术方案的图像处理装置具备:存储器;以及能够访问上述存储器的电路;能够访问上述存储器的上述电路使用神经网络模型,进行使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于上述原图像的处理,上述神经网络模型进行了用于使上述压缩解除图像接近于上述原图像的学习;上述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;上述1个以上的卷积块分别是包含卷积层的处理块;上述1个以上的残差块分别是如下的处理块:包含由上述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块的数据向该残差块中包含的上述卷积组输入,并且将被输入到该残差块的数据加到从上述卷积组输出的数据中。
另外,这些包含性或具体的技术方案也可以由系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现,也可以由系统、方法、集成电路、计算机程序及记录介质的任意的组合来实现。
发明效果
本发明的一技术方案的图像处理装置等能够使压缩解除图像适当地接近于原图像。
附图说明
图1是表示实施方式1的后处理滤波器的结构的框图。
图2是表示实施方式1的编解码系统的结构的框图。
图3是表示实施方式1的多个卷积块的连接结构的框图。
图4是表示实施方式1的多个残差块的连接结构的框图。
图5是表示实施方式1的卷积块的结构的框图。
图6是表示实施方式1的残差块的结构的框图。
图7是表示实施方式1的后处理滤波器的功能要素的框图。
图8是表示实施方式1的图像处理装置的安装例的框图。
图9是表示实施方式1的图像处理装置的动作例的流程图。
图10是实现内容分发服务的内容供给系统的整体结构图。
图11是表示可分级编码时的编码构造的一例的图。
图12是表示可分级编码时的编码构造的一例的图。
图13是表示web页的显示画面例的图。
图14是表示web页的显示画面例的图。
图15是表示智能电话的一例的图。
图16是表示智能电话的结构例的框图。
具体实施方式
(作为本发明的基础的认识)
将图像有效地保管到记录介质中是有用的。图像数据量及画质对图像的保管带来影响。图像数据量可通过由有损失的(lossy)编解码器将图像压缩来削减。另一方面,通过由有损失的编解码器将图像压缩而画质劣化。例如,在图像中发生紊乱(也被称作压缩失真)。即,可以想到,通过对原图像进行压缩及压缩解除而得到的压缩解除图像的画质与原图像的画质相比劣化了。
所以,例如有关本发明的一技术方案的图像处理装置具备:存储器;以及能够访问上述存储器的电路;能够访问上述存储器的上述电路使用神经网络模型,进行使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于上述原图像的处理,上述神经网络模型进行了用于使上述压缩解除图像接近于上述原图像的学习;上述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;上述1个以上的卷积块分别是包含卷积层的处理块;上述1个以上的残差块分别是如下的处理块:包含由上述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块的数据向该残差块中包含的上述卷积组输入,并且将被输入到该残差块的数据加到从上述卷积组输出的数据中。
由此,图像处理装置能够使用适合于使压缩解除图像接近于原图像的处理的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如上述1个以上的卷积块也可以是2个以上的卷积块。
由此,图像处理装置能够使用能够进行高精度的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如上述1个以上的残差块也可以是2个以上的残差块。
由此,图像处理装置能够使用能够进行更高精度的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如也可以是,上述1个以上的卷积块是3个以上的卷积块;上述1个以上的残差块构成残差组,包括上述3个以上的卷积块中的至少1个卷积块;上述3个以上的卷积块中的不包含于上述残差组的至少1个卷积块构成第1卷积组;上述3个以上的卷积块中的既不包含于上述残差组也不包含于上述第1卷积组的至少1个卷积块构成第2卷积组;从上述第1卷积组输出的数据被向上述残差组输入,从上述残差组输出的数据被向上述第2卷积组输入。
由此,图像处理装置能够对图像的抽象化的特征应用更高级的运算。因而,能够进行有效的处理。
此外,例如也可以是,上述神经网络模型包括由上述1个以上的卷积块及上述1个以上的残差块构成的处理组;被输入到上述神经网络模型的数据向上述处理组输入,并且被输入到上述神经网络模型的数据加到从上述处理组输出的数据中而从上述神经网络模型输出。
由此,被输入到神经网络模型的数据能够简单地反映到从神经网络模型输出的数据中。因而,图像处理装置能够使用能够进行有效的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如也可以是,上述1个以上的残差块各自中包含的上述卷积组由上述2个以上的卷积块中的至少2个构成。
由此,被输入到至少包含2个卷积块的卷积组中的数据能够简单地反映到从卷积组输出的数据中。因而,能够使至少2个卷积块中的处理一起有效化。此外,不需要的误差(噪声)的放大被适当地抑制。
此外,例如也可以是,使用神经网络模型,进行使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于上述原图像的处理,上述神经网络模型进行了用于使上述压缩解除图像接近于上述原图像的学习;上述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;上述1个以上的卷积块分别是包含卷积层的处理块;上述1个以上的残差块分别是如下的处理块:包含由上述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块的数据向该残差块中包含的上述卷积组输入,并且将被输入到该残差块的数据加到从上述卷积组输出的数据中。
由此,图像处理装置能够使用适合于使压缩解除图像接近于原图像的处理的神经网络模型,使压缩解除图像适当地接近于原图像。
进而,这些包含性或具体的技术方案也可以由系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质实现,也可以由系统、方法、集成电路、计算机程序及记录介质的任意的组合来实现。
以下,参照附图对实施方式具体地进行说明。
另外,以下说明的实施方式都表示包含性或具体的例子。在以下的实施方式中表示的数值、形状、材料、构成要素、构成要素的配置位置及连接形态、步骤、步骤的顺序等是一例,不是限定本发明的意思。此外,关于以下的实施方式的构成要素中的、在表示最上位概念的独立权利要求中没有记载的构成要素,设为任意的构成要素进行说明。
(实施方式1)
首先,作为能够应用在后述的本发明的各技术方案中说明的处理及/或结构的图像处理装置的一例,说明实施方式1的概要。但是,实施方式1只不过是能够应用在本发明的各技术方案中说明的处理及/或结构的图像处理装置的一例,在本发明的各技术方案中说明的处理及/或结构在与实施方式1不同的图像处理装置中也能够实施。
在对实施方式1应用在本发明的各技术方案中说明的处理及/或结构的情况下,例如也可以进行以下中的某一个。
(1)对于实施方式1的图像处理装置,在构成该图像处理装置的多个构成要素中,将与在本发明的各技术方案中说明的构成要素对应的构成要素替换为在本发明的各技术方案中说明的构成要素。
(2)对于实施方式1的图像处理装置,在对构成该图像处理装置的多个构成要素中的一部分的构成要素施以功能或实施的处理的追加、替换、删除等的任意的变更后,将与在本发明的各技术方案中说明的构成要素对应的构成要素替换为在本发明的各技术方案中说明的构成要素。
(3)对于实施方式1的图像处理装置实施的方法,施以处理的追加及/或对该方法中包含的多个处理中的一部分的处理施以替换、删除等的任意的变更后,将与在本发明的各技术方案中说明的处理对应的处理替换为在本发明的各技术方案中说明的处理。
(4)将构成实施方式1的图像处理装置的多个构成要素中的一部分的构成要素,与在本发明的各技术方案中说明的构成要素、具备在本发明的各技术方案中说明的构成要素具备的功能的一部分的构成要素、或实施在本发明的各技术方案中说明的构成要素实施的处理的一部分的构成要素组合而实施。
(5)将具备构成实施方式1的图像处理装置的多个构成要素中的一部分的构成要素具备的功能的一部分的构成要素、或实施构成实施方式1的图像处理装置的多个构成要素中的一部分的构成要素实施的处理的一部分的构成要素,与在本发明的各技术方案中说明的构成要素、具备在本发明的各技术方案中说明的构成要素具备的功能的一部分的构成要素、或实施在本发明的各技术方案中说明的构成要素实施的处理的一部分的构成要素组合而实施。
(6)对于实施方式1的图像处理装置实施的方法,在该方法中包含的多个处理中,将与在本发明的各技术方案中说明的处理对应的处理替换为在本发明的各技术方案中说明的处理。
(7)将实施方式1的图像处理装置实施的方法中包含的多个处理中的一部分的处理与在本发明的各技术方案中说明的处理组合而实施。
另外,在本发明的各技术方案中说明的处理及/或结构的实施的方式并不限定于上述的例子。例如,也可以在以与在实施方式1中公开的图像处理装置或图像处理装置不同的目的利用的装置中实施,也可以将在各技术方案中说明的处理及/或结构单独实施。此外,也可以将在不同的技术方案中说明的处理及/或结构组合而实施。
[图像处理装置的概要]
首先,说明本实施方式的图像处理装置的概要。图像处理装置为了抑制作为对原图像的压缩及压缩解除的结果的压缩解除图像中的紊乱,对压缩解除图像进行后处理。
图像处理装置也可以包括解码装置。解码装置将编码后的图像解码。即,解码装置通过对作为对原图像的压缩的结果的压缩图像进行压缩解除,输出作为对压缩图像的压缩解除的结果的压缩解除图像。此外,图像处理装置也可以包括编码装置。编码装置将图像编码。即,编码装置通过对原图像进行压缩,输出作为对原图像的压缩的结果的压缩图像。
或者,图像处理装置也可以包含于解码装置,也可以包含于编码装置,也可以包含于包括编码装置和解码装置的编解码装置。例如,也可以是图像处理装置包含于编码装置,图像处理装置在编码装置中进行用来生成预测图像的处理。具体而言,也可以在编码装置中通过将编码图像解码而生成解码图像,图像处理装置通过对解码图像进行后处理而生成预测图像。
此外,图像处理装置使用神经网络模型对压缩解除图像进行后处理。神经网络模型是基于人脑的组织上的原理而参数化的数理模型。神经网络模型也被简单称作神经网络。在以下的说明中,为了方便,有时将图像处理装置使用神经网络进行处理的情况作为神经网络进行处理而说明。
此外,多层构造的神经网络也被称作深度神经网络。例如,神经网络由输入层、中间层及输出层构成。并且,数据输入到输入层,经由中间层从输出层输出。中间层也被称作隐藏层。神经网络也可以包括多个中间层。此外,输入层、中间层及输出层分别由多个节点构成。
各节点也被称作神经元。例如,向神经元输入被称作加权输入的数据,应用非线性的激活函数,输出其结果。该非线性意味着不是一次式。此外,关于加权输入,通过对前级的层中的多个节点的输出数据使用加权矩阵进行加权而构建。也可以对加权输入加上偏置(bias)。
神经网络在具有充分的性能的情况下,具有万能函数近似器的性质。即,通过神经网络,能够将各种各样的样式进行模型化。基于这样的性质,神经网络能够被用于包括识别、控制及生成的各种各样的处理。例如,神经网络能够被用于将输入的分布变换为其他分布。即,神经网络能够被用于将输入数据变换为其他数据。
本实施方式的图像处理装置将神经网络应用于将压缩解除图像变换为更接近于原图像的图像。如上述那样,压缩解除图像包含压缩失真。原图像是非压缩图像,不包含压缩失真。即,图像处理装置使用神经网络,将包含压缩失真的压缩解除图像变换为更接近于不包含压缩失真的非压缩图像的图像。
具体而言,向神经网络输入压缩解除图像,从神经网络输出被变换成接近于原图像的压缩解除图像。
此外,例如使用被称作后向传播(误差逆传播法)的梯度下降算法将神经网络进行训练。具体而言,首先神经网络使用训练数据作为输入数据而向正向(也被称作前向)进行处理。并且,神经网络按照损失函数,计算输出数据与正解数据之间的误差。例如,作为损失函数而使用被称作均方误差或L2损失函数的以下的函数。
[数式1]
Figure BDA0002474582390000071
这里,yi是针对训练数据的正解数据。此外,
[数式2]
Figure BDA0002474582390000081
是针对训练数据的神经网络的输出数据。
神经网络向反向(也被称作后向)进行误差的传播,计算与权重等的参数有关的损失函数的梯度。并且,神经网络使用计算出的梯度将参数更新,以使误差成为最小、即进行更高精度的推论。
例如,作为与训练数据对应的输入数据,使用作为对原图像的压缩及压缩解除的结果的压缩解除图像,作为正解数据而使用非压缩的原图像。并且,训练以多个样式进行。具体而言,使用多个原图像及与该多个原图像分别对应的多个压缩解除图像进行训练。
即,在用于编解码器的后处理的生成神经网络的训练中,使用2个图像集。1个图像集由非压缩图像构成。另一方的图像集由使用JPEG或HEVC/H.265那样的编解码器对非压缩图像进行了压缩及压缩解除的压缩解除图像构成。
为了削减处理量,在训练中使用的图像也可以是从较大的尺寸的图像中提取出的图像缩略图或部分图像。例如,图像尺寸也可以是从32×32像素到256×256像素之间的尺寸。
压缩解除图像的图像集被输入到神经网络。并且,神经网络进行推论,输出与非压缩图像对应的图像。例如,神经网络中的1个以上的层进行对于压缩解除图像的特征提取。即,提取出压缩解除图像的特征。并且,神经网络中的1个以上的层进行学习,以提取与压缩解除图像的构造对应的特征。此外,神经网络中的更深的层处理更抽象的特征。
神经网络的性能依赖于在神经网络的设计中设定的架构。作为神经网络的一形态的卷积神经网络(CNN:Convolutional Neural Network)在与视觉关联的处理中具有被进一步改良的性能。具体而言,卷积神经网络是进行卷积运算的前馈网络,被设想为具有比其他的全局耦合网络高的性能。
例如,卷积神经网络具有较少的数量的权重。由此,能够将规模大且性能高的卷积神经网络以较少的处理量训练。此外,卷积神经网络通过卷积运算,能够使用具有在视觉性的处理中有用的空间不变性的特征进行处理。
具体而言,卷积神经网络包括作为包含卷积层的处理块的卷积块。卷积层是神经网络中的中间层的一形态,是进行卷积运算的处理层。例如,在图像处理中,卷积块取得高度、宽度及通道(channel)的三维张量作为输入。并且,卷积块适当应用仿射变换及非线性变换等,输出尺寸及内容可能与输入的三维张量不同的三维张量。
例如,在卷积神经网络中,将多个卷积块分别作为多个层堆叠。并且,多个卷积块进行特征的提取、检测及分类等的复杂的处理。
此外,在卷积神经网络中,也可以应用被称作残差连接的架构。残差连接也被称作跳跃连接。通过残差连接,将一系列的1个以上的卷积层分组。即,通过残差连接,将一系列的1个以上的卷积块分组。这里,有时将被分组的一系列的1个以上的卷积块称作卷积组。
包括被分组的1个以上的卷积层的处理块也被称作残差块。即,残差块包括1个以上的卷积块。再换言之,残差块包括卷积组。
例如,通过残差连接,将向残差块输入的数据加到从残差块输出的数据中。具体而言,进行加法处理。由此,残差块的输入x与残差块的输出F(x)相互关联。并且,作为残差块整体,进行F(x)-x的学习。
即,能够进行输入与输出的差的适当的学习。输入与输出的差的学习意味着接近于0的特征的学习。残差连接能够进行这样的有用的学习。此外,在不使用残差连接的情况下,通过各层的信息处理,不需要的误差(噪声)有可能被放大。通过使用残差连接,抑制这样的不需要的误差的放大。此外,通过残差耦合,抑制误差逆传播中的损失函数的梯度的消失。
此外,作为神经网络可以应用对抗式生成网络(GAN:Generative AdversarialNetwork)。对抗式生成网络由2个子神经网络构成。
1个子神经网络也被称作生成器(Generator)。生成器起到生成与真实的数据相似的数据的作用。另1个子神经网络被称作识别器(Discriminator)。该识别器也被称作对手或鉴别器。识别器起到识别真和伪的作用。
例如,2个子神经网络基于极大极小法及零和游戏共同地被训练。作为该情况下的评价函数,也可以使用以下的函数。
[数式3]
Figure BDA0002474582390000101
这里,D(x)表示识别器,G(z)表示生成器,P(x)表示输入分布,P(z)表示输出分布。此外,右边的第1项(即,右边的左项)对应于识别器将真的数据识别为真的的期望值。右边的第2项(即,右边的右项)应于识别器将假的数据识别为假的的期望值。导出使这样的评价函数最大化的D,并且,也可以通过导出使由导出的D而最大化的评价函数最小化的G,来导出识别器及生成器。
本实施方式的图像处理装置中作为神经网络也可以使用上述那样的对抗式生成网络。具体而言,也可以使用根据压缩解除图像生成与原图像接近的图像的作为子神经网络的生成器、和识别是原图像还是根据压缩解除图像生成的图像的作为子神经网络的识别器。
此外,本实施方式的图像处理装置也可以使用将关于图像的信息的维度压缩、将被压缩的维度复原的自动编码器等的架构作为神经网络。
[图像处理装置的具体例]
图1是表示在本实施方式的图像处理装置中包含的后处理滤波器的结构的框图。
例如,编解码系统200对作为原图像的输入图像应用编解码器。即,编解码系统200对输入图像进行压缩及压缩解除。并且,编解码系统200输出作为对输入图像的压缩及压缩解除的结果的压缩解除图像。编解码系统200既可以使用H.265/HEVC的架构,也可以使用JPEG的架构。
或者,编解码系统200也可以使用神经网络等的基于机器学习的架构。例如,编解码系统200也可以使用自动编码器的架构。
基本上,通过编解码系统200中的有损失的编解码器,压缩解除图像与输入图像相比劣化。
所以,后处理滤波器300进行用来使压缩解除图像接近于输入图像的图像处理。并且,后处理滤波器300输出被进行了图像处理的压缩解除图像作为输出图像。
具体而言,后处理滤波器300具有进行了用来使压缩解除图像接近于原图像的学习的神经网络。并且,后处理滤波器300使用神经网络,进行用来使压缩解除图像接近于原图像的图像处理。此外,后处理滤波器300具有的神经网络包含1个以上的卷积块。此外,神经网络包含1个以上的残差块。
在图1的例子中,神经网络包含1个以上的卷积块310,在1个以上的卷积块310之后包含1个以上的残差块320,在1个以上的残差块320之后包含1个以上的卷积块330。此外,向神经网络输入的数据被加到从神经网络输出的数据中。
即,将根据向神经网络输入的数据经由1个以上的卷积块310、1个以上的残差块320及1个以上的卷积块330得到的结果、与向神经网络输入的数据合计。并且,将合计结果作为输出图像从神经网络输出。
另外,神经网络的结构并不限于图1所示的结构。1个以上的卷积块及1个以上的残差块怎样构成都可以。例如,也可以是全部的卷积块分别包含于某个残差块中。此外,例如也可以是不包含于残差块的卷积块夹在多个残差块之间而存在。此外,也可以不存在将神经网络的输入连接到神经网络的输出的残差连接。
此外,有将由神经网络模型中包含的1个以上的卷积块及1个以上的残差块构成的组表现为处理组的情况。在图1的例子中,1个以上的卷积块310、1个以上的残差块320及1个以上的卷积块330构成处理组。
图2是表示图1所示的编解码系统200的结构的框图。例如,编解码系统200具备编码装置210及解码装置220。此外,后处理滤波器300包含在图像处理装置100中。
编码装置210具备图像编码部211。图像编码部211通过将输入图像编码,对输入图像进行压缩,将作为输入图像的压缩结果的压缩图像作为被编码的图像输出。
解码装置220具备图像解码部221。图像解码部221通过将被编码的图像解码,对压缩图像进行压缩解除,输出作为压缩图像的压缩解除结果的压缩解除图像。
后处理滤波器300对压缩解除图像进行用来使压缩解除图像接近于输入图像的图像处理。并且,后处理滤波器300将被进行了图像处理的压缩解除图像作为输出图像输出。
图像处理装置100也可以具备解码装置220或图像解码部221。进而,图像处理装置100也可以具备编码装置210或图像编码部211。
图3是表示图1所示的1个以上的卷积块310的连接结构的框图。1个以上的卷积块310构成卷积组410。在图3中表示了卷积组410中的2个卷积块310。
在图3的例子中,2个卷积块310被串联连接。即,向卷积组410输入的数据被输入到1个卷积块310(即,在图3中左方的卷积块310)中。并且,从1个卷积块310输出的数据被输入到其他的卷积块310(即,在图3中右方的卷积块310)中。并且,从右方的卷积块310输出的数据从卷积组410输出。
这里,将2个卷积块310串联连接,但也可以将3个以上的卷积块310串联连接。此外,也可以将多个卷积块310并联连接。例如,也可以将与红、绿和蓝对应的3个卷积块310并列连接。此外,也可以不是使用多个卷积块310、而仅使用1个卷积块310。
此外,这里表示了1个以上的卷积块310的连接结构,但1个以上的卷积块330的连接结构也与1个以上的卷积块310的连接结构是同样的。
图4是表示图1所示的1个以上的残差块320的连接结构的框图。1个以上的残差块320构成残差组420。在图4中表示了残差组420中的2个残差块320。
在图4的例子中,2个残差块320被串联连接。即,向残差组420输入的数据被输入到1个残差块320(即,在图4中左方的残差块320)中。并且,从1个残差块320输出的数据被输入到其他的残差块320(即,在图4中右方的残差块320)中。并且,从右方的残差块320输出的数据从残差组420输出。
这里,将2个残差块320串联连接,但也可以将3个以上的残差块320串联连接。此外,也可以将多个残差块320并联连接。例如,也可以将与红、绿和蓝对应的3个残差块320并联连接。此外,也可以不是使用多个残差块320,而仅使用1个残差块320。
图5是表示图1所示的卷积块310的结构的框图。在图5中表示了1个卷积块310的结构,但其他卷积块310的结构也是同样的。此外,1个以上的卷积块330各自的结构也是同样的。
在图5的例子中,卷积块310包括卷积层311、非线性激活函数312及标准化层313。在该例中,被输入到卷积块310中的数据经由卷积层311、非线性激活函数312及标准化层313从卷积块310输出。
卷积层311是对被输入到卷积块310中的数据进行卷积运算而输出卷积运算的结果的处理层。非线性激活函数312是使用从卷积层311输出的数据作为自变量而输出运算结果的函数。例如,非线性激活函数312按照偏置,控制非线性激活函数312的输出。标准化层313为了抑制数据的偏倚,将从非线性激活函数312输出的数据标准化,输出标准化后的数据。
图6是表示图1所示的残差块320的结构的框图。在图6中表示了1个残差块320的结构,但其他残差块320的结构也是同样的。
在图6的例子中,残差块320包括被串联连接的2个卷积块520。例如,向残差块320输入的数据被输入到1个卷积块520(即,在图6中左方的卷积块520)中。并且,从1个卷积块520输出的数据被输入到其他的卷积块520(即,在图6中右方的卷积块520)中。
此外,向残差块320输入的数据被加到从右方的卷积块520输出的数据中,从残差块320输出。即,向残差块320输入的数据和从右方的卷积块520输出的数据被合计而从残差块320输出。
这里,将2个卷积块520串联连接,但也可以将3个以上的卷积块520串联连接。此外,也可以不是使用多个卷积块520,而仅使用1个卷积块520。
本实施方式的图像处理装置100使用包含卷积块并且包含残差块的神经网络,进行用来使压缩解除图像接近于原图像的图像处理。即,本实施方式的图像处理装置100使用包含残差连接的卷积神经网络,进行用来使压缩解除图像接近于原图像的图像处理。
卷积神经网络中的卷积运算由于能够基于图像的空间上的相关适当地提取图像的特征,所以对于图像处理是有效的。此外,通过上述的残差连接,能够进行基于输入的信息与输出的信息的差的适当的学习,能够使输入的信息适当地反映到输出的信息中。
此外,压缩解除图像是通过原图像的压缩及压缩解除得到的图像。能够容易地准备在用来使压缩解除图像接近于原图像的学习中用作教师数据(训练数据)使用的原图像。
因而,在用来使压缩解除图像接近于原图像的图像处理中,应用包含残差连接的卷积神经网络是有效的。图像处理装置100通过使用包含残差连接的卷积神经网络进行用来使压缩解除图像接近于原图像的图像处理,能够削减压缩解除图像的压缩失真,适当地改善压缩解除图像的视觉上的画质。
另外,表示了包含残差连接的卷积神经网络的例子,但也可以对神经网络应用其他架构。
例如,也可以如循环神经网络(Recurrent Neural Network)或递归神经网络(Recursive Neural Network)那样应用反馈构造。具体而言,也可以将1个以上的卷积块的输出用在其1个以上的卷积块的输入。并且,也可以将残差连接反向地使用。
图7是表示图1所示的后处理滤波器300的功能要素的框图。后处理滤波器300包括特征提取610、特征变换620及特征调整630作为功能要素。
具体而言,后处理滤波器300在特征提取610中,从压缩解除图像中提取特征。例如,该特征可以用多个特征向量的组表现。
此外,后处理滤波器300在特征变换620中将所提取的特征进行变换。例如,后处理滤波器300将从压缩解除图像提取出的多个特征向量进行变换,以使其大体上接近于与原图像对应的多个特征向量。
并且,后处理滤波器300在特征调整630中,对变换后的特征进行调整。例如,后处理滤波器300对变换后的特征进行调整,以使得超过压缩解除图像的画质。由此,后处理滤波器300调整图像,将调整后的图像作为输出图像输出。
[图像处理装置的安装例]
图8是表示图像处理装置100的安装例的框图。图像处理装置100具备电路110及存储器120。例如,图2所示的图像处理装置100中能够包含的构成要素由图8所示的电路110及存储器120安装。
电路110是能够访问存储器120的电子电路,进行信息处理。例如,电路110是使用存储器120处理图像的专用或通用的电子电路。电路110也可以是CPU那样的处理器。此外,电路110也可以是多个电子电路的集合体。
存储器120是存储用于电路110处理图像的信息的专用或通用的存储器。存储器120既可以是电子电路,也可以连接在电路110上,也可以包含在电路110中。
此外,存储器120既可以是多个电子电路的集合体,也可以由多个子存储器构成。此外,存储器120既可以是磁盘或光盘等,也可以表现为存储设备或记录介质等。此外,存储器120既可以是非易失性存储器,也可以是易失性存储器。
此外,在存储器120中,既可以存储图像处理前的压缩解除图像,也可以存储图像处理后的压缩解除图像。此外,在存储器120中,也可以存储用于电路110处理压缩解除图像的程序。此外,在存储器120中,也可以存储神经网络模型。例如,在存储器120中,也可以存储神经网络模型的多个参数。
图9是表示图8所示的图像处理装置100的动作例的流程图。例如,图8所示的图像处理装置100进行图9所示的动作。具体而言,图像处理装置100中的电路110使用存储器120进行以下的动作。
即,电路110使用进行了用来使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于原图像的学习的神经网络模型,进行使压缩解除图像接近于原图像的处理(S101)。这里,神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块。
此外,1个以上的卷积块分别是包含卷积层的处理块。此外,1个以上的残差块分别是包含由1个以上的卷积块中的至少1个构成的卷积组的处理块。并且,1个以上的残差块分别将被输入到该残差块中的数据向该残差块中包含的卷积组输入,并将被输入到该残差块中的数据加到从卷积组输出的数据中。
由此,图像处理装置100能够使用适合于使压缩解除图像接近于原图像的处理的神经网络模型,使压缩解除图像适当地接近于原图像。
例如,1个以上的卷积块也可以是2个以上的卷积块。由此,图像处理装置100能够使用能够进行高精度的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如1个以上的残差块也可以是2个以上的残差块。由此,图像处理装置100能够使用能够进行更高精度的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如1个以上的卷积块也可以是3个以上的卷积块。
并且,1个以上的残差块也可以构成残差组,包括3个以上的卷积块中的至少1个卷积块。此外,也可以是3个以上的卷积块中的不包含于残差组的至少1个卷积块构成第1卷积组。此外,也可以是3个以上的卷积块中的既不包含于残差组也不包含于第1卷积组的至少1个卷积块构成第2卷积组。
并且,从第1卷积组输出的数据也可以被输入到残差组中。此外,从残差组输出的数据也可以被输入到第2卷积组中。
由此,图像处理装置100能够对图像的被抽象化的特征应用更高级的运算。因而,能够进行有效的处理。
此外,例如也可以是,神经网络模型包含由1个以上的卷积块及1个以上的残差块构成的处理组。并且也可以是,向神经网络模型输入的数据被输入到处理组,并且,输入到神经网络模型的数据加到从处理组输出的数据中而从神经网络模型输出。
由此,能够使被输入到神经网络模型的数据简单地反映到从神经网络模型输出的数据中。因而,图像处理装置100能够使用可进行有效的学习及推论的神经网络模型,使压缩解除图像适当地接近于原图像。
此外,例如也可以是,1个以上的残差块各自中包含的卷积组由2个以上的卷积块中的至少2个构成。
由此,能够使被输入到至少包括2个卷积块的卷积组中的数据简单地反映到从卷积组输出的数据中。因而,能够使至少2个卷积块中的处理一起有效化。此外,适当地抑制了不需要的误差(噪声)的放大。
此外,例如也可以是,用来使压缩解除图像接近于原图像的学习使用多个其他的原图像及与该多个其他的原图像分别对应的多个其他的压缩解除图像来进行。具体而言,在使用它们将与原图像对应的压缩解除图像输入到神经网络中的情况下,也可以将神经网络的参数更新,以从神经网络输出从压缩解除图像向原图像接近的图像。由此,能够将神经网络的参数适当地调整。
[补充]
本实施方式的图像处理装置100既可以被作为包含将图像编码的构成要素的编码装置利用,也可以被作为包含将图像解码的构成要素的解码装置利用。此外,图像处理装置100也可以被作为包含将图像编码的构成要素及将图像解码的构成要素的编解码装置利用。
此外,图像处理装置100也可以被作为对构成运动图像的各图像进行处理的运动图像处理装置、运动图像编码装置、运动图像解码装置或运动图像编解码装置利用。此外,图像处理装置100也可以被作为滤波器装置利用。
此外,也可以将本实施方式的至少一部分作为图像处理方法利用,也可以作为解码方法利用,也可以作为滤波方法利用,也可以作为其他的方法利用。
此外,也可以将上述的说明中的处理组、卷积组及残差组分别表现为处理块集、卷积块集及残差块集。
此外,在本实施方式中,各构成要素也可以由专用的硬件构成、或通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过由CPU或处理器等的程序执行部将记录在硬盘或半导体存储器等的记录介质中的软件程序读出并执行来实现。
具体而言,图像处理装置100也可以具备处理电路(Processing Circuitry)、和电连接在该处理电路上的能够从该处理电路访问的存储装置(Storage)。例如,处理电路对应于电路110,存储装置对应于存储器120。
处理电路包括专用的硬件及程序执行部的至少一方,使用存储装置执行处理。此外,存储装置在处理电路包含程序执行部的情况下,存储由该程序执行部执行的软件程序。
这里,实现本实施方式的图像处理装置100等的软件是以下这样的程序。
即,该程序也可以使计算机执行以下的图像处理方法:使用进行了用来使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于上述原图像的学习的神经网络模型,进行使上述压缩解除图像接近于上述原图像的处理;上述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;上述1个以上的卷积块分别是包含卷积层的处理块;上述1个以上的残差块分别是如下处理块:包含由上述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块中的数据向该残差块中包含的上述卷积组输入,并且将被输入到该残差块中的数据加到从上述卷积组输出的数据中。
此外,各构成要素如上述那样,也可以是电路。这些电路既可以作为整体而构成1个电路,也可以是分别不同的电路。此外,各构成要素既可以由通用的处理器实现,也可以由专用的处理器实现。
此外,也可以将特定的构成要素执行的处理由其他的构成要素执行。此外,也可以将执行处理的顺序变更,也可以将多个处理并行地执行。此外,也可以适当对构成要素等赋予第1及第2等的序数。
以上,基于实施方式对图像处理装置100的实施方式进行了说明,但图像处理装置100的形态并不限定于该实施方式。只要不脱离本发明的主旨,对本实施方式施以了本领域技术人员想到的各种变形后的形态、或将不同实施方式的构成要素组合而构建的形态也可以也包含在图像处理装置100的范围内。
本技术方案也可以与本发明的其他技术方案的至少一部分组合而实施。此外,也可以将本技术方案的一部分的处理或一部分的结构等与其他技术方案组合而实施。
(实施方式2)
在以上的各实施方式中,功能块分别通常可以由MPU及存储器等实现。此外,功能块各自的处理通常通过由处理器等的程序执行部将记录在ROM等的记录介质中的软件(程序)读出并执行来实现。该软件既可以通过下载等分发,也可以记录到半导体存储器等的记录介质中而分发。另外,当然也可以将各功能块用硬件(专用电路)实现。
此外,在各实施方式中说明的处理既可以通过使用单一的装置(系统)集中处理来实现,或者也可以通过使用多个装置分散处理来实现。此外,执行上述程序的处理器既可以是单个,也可以是多个。即,既可以进行集中处理,或者也可以进行分散处理。
本发明的技术方案并不限定于以上的实施例,能够进行各种变更,它们也包含在本发明的技术方案的范围内。
进而,这里说明在上述各实施方式中表示的运动图像编码方法(图像编码方法)或运动图像解码方法(图像解码方法)的应用例和使用它们的系统。该系统的特征在于,具有使用图像编码方法的图像编码装置、使用图像解码方法的图像解码装置、以及具备两者的图像编解码装置。关于系统中的其他结构,根据情况可以适当地变更。
[使用例]
图10是表示实现内容分发服务的内容供给系统ex100的整体结构的图。将通信服务的提供区分割为希望的尺寸,在各单元内分别设有作为固定无线站的基站ex106、ex107、ex108、ex109、ex110。
在该内容供给系统ex100中,在因特网ex101上经由因特网服务提供商ex102或通信网ex104、以及基站ex106~ex110连接着计算机ex111、游戏机ex112、相机ex113、家电ex114以及智能电话ex115等各设备。该内容供给系统ex100也可以将上述的某些要素组合而连接。也可以不经由作为固定无线站的基站ex106~ex110而将各设备经由电话网或近距离无线等直接或间接地相互连接。此外,流媒体服务器ex103经由因特网ex101等而与计算机ex111、游戏机ex112、相机ex113、家电ex114及智能电话ex115等各设备连接。此外,流媒体服务器ex103经由卫星ex116而与飞机ex117内的热点内的终端等连接。
另外,也可以代替基站ex106~ex110而使用无线接入点或热点等。此外,流媒体服务器ex103既可以不经由因特网ex101或因特网服务提供商ex102而直接与通信网ex104连接,也可以不经由卫星ex116而直接与飞机ex117连接。
相机ex113是数字相机等能够进行静止图像摄影及运动图像摄影的设备。此外,智能电话ex115是与通常被称作2G、3G、3.9G、4G、及今后被称作5G的移动通信系统的方式对应的智能电话机、便携电话机或PHS(Personal Handyphone System)等。
家电ex118是电冰箱或在家庭用燃料电池热电联供系统中包含的设备等。
在内容供给系统ex100中,具有摄影功能的终端经由基站ex106等连接到流媒体服务器ex103上,由此能够进行现场分发等。在现场分发中,终端(计算机ex111、游戏机ex112、相机ex113、家电ex114、智能电话ex115及飞机ex117内的终端等)对由用户使用该终端拍摄的静止图像或运动图像内容进行在上述各实施方式中说明的编码处理,将通过编码得到的影像数据和将与影像对应的声音进行编码而得到的声音数据复用,将得到的数据向流媒体服务器ex103发送。即,各终端作为有关本发明的一技术方案的图像编码装置发挥功能。
另一方面,流媒体服务器ex103将对有请求的客户端发送的内容数据进行流分发。客户端是能够将上述编码处理后的数据进行解码的计算机ex111、游戏机ex112、相机ex113、家电ex114、智能电话ex115或飞机ex117内的终端等。接收到被分发的数据的各设备对接收到的数据进行解码处理并再现。即,各设备作为有关本发明的一技术方案的图像解码装置发挥功能。
[分散处理]
此外,流媒体服务器ex103也可以是多个服务器或多个计算机,将数据分散处理或记录而分发。例如,流媒体服务器ex103也可以由CDN(Contents Delivery Network)实现,通过将分散在世界中的许多边缘服务器与边缘服务器之间相连的网络来实现内容分发。在CDN中,根据客户端而动态地分配在物理上较近的边缘服务器。并且,通过向该边缘服务器高速缓存及分发内容,能够减少延迟。此外,在发生了某种错误的情况下或因通信量的增加等而通信状态变化的情况下,能够用多个边缘服务器将处理分散、或将分发主体切换为其他边缘服务器、或绕过发生故障的网络的部分而继续分发,所以能够实现高速且稳定的分发。
此外,不限于分发自身的分散处理,所拍摄的数据的编码处理既可以由各终端进行,也可以在服务器侧进行,也可以相互分担而进行。作为一例,通常在编码处理中进行2次处理循环。在第1次的循环中对帧或场景单位的图像的复杂度或代码量进行检测。此外,在第2次的循环中进行维持画质而使编码效率提高的处理。例如,通过由终端进行第1次的编码处理、由接收到内容的服务器侧进行第2次的编码处理,能够在减少各终端中的处理负荷的同时使内容的质和效率提高。在此情况下,如果有几乎实时地接收并解码的请求,则也可以将终端进行的第一次编码完成的数据由其他终端接收并再现,所以也能够进行更灵活的实时分发。
作为其他例子,相机ex113等从图像进行特征量提取,将关于特征量的数据作为元数据压缩并向服务器发送。服务器例如根据特征量来判断目标的重要性而切换量化精度等,进行与图像的意义对应的压缩。特征量数据对于服务器中的再次压缩时的运动矢量预测的精度及效率提高特别有效。此外,也可以由终端进行VLC(可变长编码)等简单的编码,由服务器进行CABAC(上下文自适应二值算术编码方式)等处理负荷大的编码。
作为其他例子,在体育场、购物中心或工厂等中,有存在由多个终端拍摄大致相同的场景而得到的多个影像数据的情况。在此情况下,使用进行了拍摄的多个终端、以及根据需要而使用没有进行摄影的其他终端及服务器,例如以GOP(Group of Picture)单位、图片单位或将图片分割而得到的瓦片单位等分别分配编码处理而进行分散处理。由此,能够减少延迟而更好地实现实时性。
此外,由于多个影像数据是大致相同场景,所以也可以由服务器进行管理及/或指示,以将由各终端拍摄的影像数据相互参照。或者,也可以是服务器接收来自各终端的已编码数据并在多个数据间变更参照关系,或将图片自身进行修正或替换而重新编码。由此,能够生成提高了1个个数据的质和效率的流。
此外,服务器也可以进行将影像数据的编码方式变更的转码后将影像数据分发。例如,服务器也可以将MPEG类的编码方式变换为VP类,也可以将H.264变换为H.265。
这样,编码处理能够由终端或1个以上的服务器进行。因此,以下作为进行处理的主体而使用“服务器”或“终端”等的记载,但也可以将由服务器进行的处理的一部分或全部用终端进行,也可以将由终端进行的处理的一部分或全部用服务器进行。此外,关于这些,对于解码处理也是同样的。
[3D、多角度]
近年来,将由相互大致同步的多个相机ex113及/或智能电话ex115等终端拍摄的不同场景、或从不同的角度拍摄了相同场景的图像或影像合并而利用的情况增加。将由各终端拍摄的影像基于另取得的终端间的相对位置关系、或影像中包含的特征点一致的区域等来合并。
服务器不仅是将二维的运动图像进行编码,也可以基于运动图像的场景解析等自动地或在用户指定的时刻将静止图像进行编码并向接收终端发送。服务器还在能够取得拍摄终端间的相对位置关系的情况下,不仅是二维的运动图像,还能够基于从不同的角度拍摄了相同场景的影像,生成该场景的三维形状。另外,服务器也可以将由点云(pointcloud)等生成的三维的数据另行编码,也可以基于使用三维数据将人物或目标进行识别或跟踪的结果,从由多个终端拍摄的影像中选择或重构而生成向接收终端发送的影像。
这样,用户既能够任意地选择与各拍摄终端对应的各影像而欣赏场景,也能够欣赏从使用多个图像或影像重构的三维数据中切取了任意视点的影像的内容。进而,与影像同样,声音也可以从多个不同的角度集音,由服务器匹配于影像而将来自特定的角度或空间的声音与影像复用并发送。
此外,近年来,Virtual Reality(VR:虚拟现实)及Augmented Reality(AR:增强现实)等将现实世界与虚拟世界建立对应的内容也正在普及。在VR图像的情况下,服务器分别制作右眼用及左眼用的视点图像,既可以通过Multi-View Coding(MVC:多视点编码)等进行在各视点影像间容许参照的编码,也可以相互不参照而作为不同的流进行编码。在不同的流的解码时,可以根据用户的视点相互同步地再现,以再现虚拟的三维空间。
在AR图像的情况下,也可以是,服务器基于三维的位置或用户的视点的移动,对现实空间的相机信息重叠虚拟空间上的虚拟物体信息。解码装置取得或保持虚拟物体信息及三维数据,根据用户的视点的移动而生成二维图像,通过平滑地相连来制作重叠数据。或者,也可以是,解码装置除了虚拟物体信息的委托以外还将用户的视点的移动发送给服务器,服务器根据保持在服务器中的三维数据,匹配于接收到的视点的移动而制作重叠数据,将重叠数据进行编码并向解码装置分发。另外,重叠数据在RGB以外具有表示透射度的α值,服务器将根据三维数据制作出的目标以外的部分的α值设定为0等,在该部分透射的状态下进行编码。或者,服务器也可以如色度键那样将规定值的RGB值设定为背景,生成将目标以外的部分设为背景色的数据。
同样,分发的数据的解码处理既可以由作为客户端的各终端进行,也可以在服务器侧进行,也可以相互分担而进行。作为一例,也可以是某个终端先向服务器发送接收请求,由其他终端接收与该请求对应的内容并进行解码处理,将已解码的信号向具有显示器的装置发送。通过与可通信的终端自身的性能无关地都将处理分散而选择适当的内容,能够再现画质较好的数据。此外,作为其他例子,也可以由TV等接收大尺寸的图像数据,并且由欣赏者的个人终端将图片被分割后的瓦片等一部分区域进行解码并显示。由此,能够在使整体像共有化的同时,在手边确认自己的负责领域或想要更详细地确认的区域。
此外,预想今后在不论室内外都能够使用近距离、中距离或长距离的多个无线通信的状况下,利用MPEG-DASH等的分发系统标准,一边对连接中的通信切换适当的数据一边无缝接收内容。由此,用户不仅用自身的终端,还能够自由地选择设置在室内外的显示器等解码装置或显示装置来实时地切换。此外,能够基于自身的位置信息等,切换解码的终端及显示的终端来进行解码。由此,还能够在向目的地的移动中一边在埋入有可显示的设备的旁边的建筑物的墙面或地面的一部分上显示地图信息一边移动。此外,还能够基于在能够从接收终端以短时间访问的服务器中高速缓存有编码数据、或在内容分发服务的边缘服务器中复制有编码数据等的向网络上的编码数据的访问容易性,来切换接收数据的比特率。
[可分级编码]
关于内容的切换,使用图11所示的、使用应用在上述各实施方式中表示的运动图像编码方法进行压缩编码的可分级(scalable)的流进行说明。对服务器而言,作为单独的流也可以具有内容相同而品质不同的多个流,也可以是如图示那样利用通过分层进行编码而实现的时间/空间上的可分级的流的特征来切换内容的结构。即,通过由解码侧根据性能这样的内在因素和通信频带的状态等外在因素来决定解码到哪个层,解码侧能够自由地切换低分辨率的内容和高分辨率的内容来解码。例如在想要将在移动中用智能电话ex115视听的影像的后续在回家后用因特网TV等设备视听的情况下,该设备只要将相同的流解码到不同的层就可以,所以能够减轻服务器侧的负担。
进而,在如上述那样按每个层将图片编码、实现在基本层的上位存在增强层的分级性的结构以外,也可以是增强层(enhancement layer)包含基于图像的统计信息等的元信息,解码侧通过基于元信息将基本层的图片进行超析像来生成高画质化的内容。超析像可以是相同分辨率下的SN比的提高及分辨率的扩大中的任意一种。元信息包括用来确定在超析像处理中使用的线性或非线性的滤波系数的信息、或确定在超析像处理中使用的滤波处理、机器学习或最小2乘运算中的参数值的信息等。
或者,也可以是根据图像内的目标等的意义将图片分割为瓦片等,解码侧通过选择进行解码的瓦片而仅将一部分区域解码的结构。此外,通过将目标的属性(人物、车、球等)和影像内的位置(同一图像中的坐标位置等)作为元信息保存,解码侧能够基于元信息确定希望的目标的位置,决定包括该目标的瓦片。例如,如图12所示,使用HEVC中的SEI消息等与像素数据不同的数据保存构造来保存元信息。该元信息例如表示主目标的位置、尺寸或色彩等。
此外,也可以以流、序列或随机访问单位等由多个图片构成的单位保存元信息。由此,解码侧能够取得特定人物在影像内出现的时刻等,通过与图片单位的信息匹配,能够确定目标存在的图片、以及图片内的目标的位置。
[Web页的优化]
图13是表示计算机ex111等中的web页的显示画面例的图。图14是表示智能电话ex115等中的web页的显示画面例的图。如图13及图14所示,有web页包含多个作为向图像内容的链接的链接图像的情况,根据阅览的设备而其可见方式不同。在画面上能看到多个链接图像的情况下,在用户明示地选择链接图像之前、或链接图像接近于画面的中央附近或链接图像的整体进入到画面内之前,显示装置(解码装置)中作为链接图像而显示各内容所具有的静止图像或I图片,或用多个静止图像或I图片等显示gif动画那样的影像,或仅接收基本层而将影像解码及显示。
在由用户选择了链接图像的情况下,显示装置将基本层最优先地解码。另外,如果在构成web页的HTML中有表示是可分级的内容的信息,则显示装置也可以解码到增强层。此外,在为了确保实时性而在选择之前或通信频带非常紧张的情况下,显示装置可以通过仅将前方参照的图片(I图片、P图片、仅进行前方参照的B图片)解码及显示,来减少开头图片的解码时刻与显示时刻之间的延迟(从内容的解码开始到显示开始的延迟)。此外,显示装置也可以将图片的参照关系强行地忽视而将全部的B图片及P图片设为前方参照而粗略地解码,随着时间经过而接收到的图片增加,进行正常的解码。
[自动行驶]
此外,在为了车的自动行驶或行驶辅助而收发二维或三维的地图信息等的静止图像或影像数据的情况下,接收终端也可以除了属于1个以上的层的图像数据以外,还作为元信息而接收天气或施工的信息等,将它们建立对应而解码。另外,元信息既可以属于层,也可以只与图像数据复用。
在此情况下,由于包含接收终端的车、无人机或飞机等在移动,所以接收终端通过在接收请求时发送该接收终端的位置信息,能够切换基站ex106~ex110来进行无缝接收及解码。此外,接收终端根据用户的选择、用户的状况或通信频带的状态,能够动态地切换将元信息以何种程度接收、或将地图信息以何种程度更新。
如以上这样,在内容供给系统ex100中,客户端能够将用户发送的已编码的信息实时地接收并解码、再现。
[个人内容的分发]
此外,在内容供给系统ex100中,不仅是由影像分发业者提供的高画质、长时间的内容,还能够进行由个人提供的低画质、短时间的内容的单播或多播分发。此外,可以想到这样的个人内容今后也会增加。为了使个人内容成为更好的内容,服务器也可以在进行编辑处理后进行编码处理。这例如可以通过以下这样的结构实现。
在拍摄时实时地或累积下来拍摄后,服务器根据原图像或已编码数据,进行拍摄错误、场景搜索、意义的解析及目标检测等的识别处理。并且,服务器基于识别结果,手动或自动地进行将焦点偏差或手抖动等修正、或将明亮度比其他图片低或焦点没有对上的场景等的重要性低的场景删除、或将目标的边缘强调、或使色调变化等的编辑。服务器基于编辑结果,将编辑后的数据进行编码。此外,已知如果拍摄时刻过长则视听率会下降,服务器也可以根据拍摄时间,不仅将如上述那样重要性低的场景,还将运动少的场景等基于图像处理结果自动地限制,以成为特定的时间范围内的内容。或者,服务器也可以基于场景的意义解析的结果而生成摘要并编码。
另外,个人内容在原状态下有被写入侵害著作权、著作者人格权或肖像权等的内容的情形,也有共享的范围超过了想要的范围等对于个人而言不便的情况。因此,例如服务器也可以将画面的周边部的人的脸、或家中等强行地变更为不对焦的图像而进行编码。此外,服务器也可以识别在编码对象图像内是否拍摄到与预先登记的人物不同的人物的脸,在拍摄到的情况下,进行对脸部分施加马赛克等的处理。或者,作为编码的前处理或后处理,也可以从著作权等的观点出发,用户指定想要将图像加工的人物或背景区域,服务器进行将所指定的区域替换为别的影像、或将焦点模糊化等的处理。如果是人物,则能够在运动图像中跟踪人物的同时,将脸部分的影像替换。
此外,数据量小的个人内容的视听其实时性要求较强,所以虽然也取决于带宽,但解码装置首先将基本层最优先地接收并进行解码及再现。解码装置也可以在此期间中接收增强层,在再现被循环的情况等2次以上被再现的情况下,将增强层也包括在内再现高画质的影像。这样,如果是进行了可分级编码的流,则能够提供在未选择时或刚开始看的阶段是虽然较粗糙的运动图像但流逐渐变得流畅而图像变好的体验。除了可分级编码以外,在第1次被再现的较粗糙的流和参照第1次的运动图像而被编码的第2次的流构成为1个流的情况下也能够提供同样的体验。
[其他使用例]
此外,这些编码或解码处理通常在各终端所具有的LSIex500中处理。LSIex500既可以是单芯片也可以是由多芯片构成的结构。另外,也可以将运动图像编码或解码用的软件装入到能够由计算机ex111等读取的某种记录介质(CD-ROM、软盘、硬盘等)中、使用该软件进行编码处理及解码处理。进而,在智能电话ex115带有相机的情况下,也可以发送由该相机取得的运动图像数据。此时的运动图像数据是用智能电话ex115所具有的LSIex500进行编码处理后的数据。
另外,LSIex500也可以是将应用软件下载并将其激活的结构。在此情况下,终端首先判定该终端是否与内容的编码方式对应、或是否具有特定服务的执行能力。在终端不与内容的编码方式对应的情况下、或不具有特定服务的执行能力的情况下,终端下载编解码器或应用软件,然后进行内容取得及再现。
此外,并不限于经由因特网ex101的内容供给系统ex100,也能够在数字广播用系统中组装上述各实施方式的至少运动图像编码装置(图像编码装置)或运动图像解码装置(图像解码装置)中的某一种。由于利用卫星等使广播用的电波承载将影像与声音复用的复用数据而收发,所以相对于内容供给系统ex100的容易单播的结构,有适合多播的差异,但关于编码处理及解码处理能够进行同样的应用。
[硬件结构]
图15是表示智能电话ex115的图。此外,图16是表示智能电话ex115的结构例的图。智能电话ex115具有用来在与基站ex110之间收发电波的天线ex450、能够拍摄影像及静止图像的相机部ex465、显示由相机部ex465拍摄的影像及将由天线ex450接收到的影像等解码后的数据的显示部ex458。智能电话ex115还具备作为触摸面板等的操作部ex466、用来输出声音或音响的作为扬声器等的声音输出部ex457、用来输入声音的作为麦克风等的声音输入部ex456、能够保存所拍摄的影像或静止图像、录音的声音、接收到的影像或静止图像、邮件等的编码后的数据或解码后的数据的存储器部ex467、或者作为与SIMex468的接口部的插槽部ex464,所述SIMex468用来确定用户,进行以网络为代表向各种数据的访问的认证。此外,也可以代替存储器部ex467而使用外置存储器。
此外,对显示部ex458及操作部ex466等进行综合控制的主控制部ex460与电源电路部ex461、操作输入控制部ex462、影像信号处理部ex455、相机接口部ex463、显示器控制部ex459、调制/解调部ex452、复用/分离部ex453、声音信号处理部ex454、插槽部ex464及存储器部ex467经由总线ex470相互连接。
电源电路部ex461如果通过用户的操作使电源键成为开启状态,则通过从电池组对各部供给电力,将智能电话ex115启动为能够动作的状态。
智能电话ex115基于具有CPU、ROM及RAM等的主控制部ex460的控制,进行通话及数据通信等处理。在通话时,通过声音信号处理部ex454将由声音输入部ex456集音的声音信号变换为数字声音信号,将其用调制/解调部ex452进行波谱扩散处理,由发送/接收部ex451实施数字模拟变换处理及频率变换处理之后经由天线ex450发送。此外,将接收数据放大并实施频率变换处理及模拟数字变换处理,由调制/解调部ex452进行波谱逆扩散处理,由声音信号处理部ex454变换为模拟声音信号后,将其从声音输出部ex457输出。在数据通信时,通过主体部的操作部ex466等的操作将文本、静止图像或影像数据经由操作输入控制部ex462向主控制部ex460送出,同样进行收发处理。在数据通信模式时,在发送影像、静止图像或影像和声音的情况下,影像信号处理部ex455将保存在存储器部ex467中的影像信号或从相机部ex465输入的影像信号通过在上述各实施方式中表示的运动图像编码方法进行压缩编码,将编码后的影像数据向复用/分离部ex453送出。此外,声音信号处理部ex454将在由相机部ex465拍摄影像、静止图像等的过程中由声音输入部ex456集音的声音信号编码,将编码后的声音数据向复用/分离部ex453送出。复用/分离部ex453将已编码影像数据和已编码声音数据以规定的方式复用,由调制/解调部(调制/解调电路部)ex452及发送/接收部ex451实施调制处理及变换处理,经由天线ex450发送。
在接收到添附在电子邮件或聊天工具中的影像、或链接在网页等上的影像的情况下,为了将经由天线ex450接收到的复用数据进行解码,复用/分离部ex453通过将复用数据分离而将复用数据分为影像数据的比特流和声音数据的比特流,经由同步总线ex470将编码后的影像数据向影像信号处理部ex455供给,并将编码后的声音数据向声音信号处理部ex454供给。影像信号处理部ex455通过与在上述各实施方式中表示的运动图像编码方法对应的运动图像解码方法将影像信号进行解码,经由显示器控制部ex459从显示部ex458显示被链接的运动图像文件中包含的影像或静止图像。此外,声音信号处理部ex454将声音信号进行解码,从声音输出部ex457输出声音。另外,由于实时流媒体正在普及,所以根据用户的状况,也可能发生声音的再现在社会上不适合的场合。因此,作为初始值,优选的是不将声音信号再现而仅将影像数据再现的结构。也可以仅在用户进行了将影像数据点击等操作的情况下将声音同步地再现。
此外,这里以智能电话ex115为例进行了说明,但作为终端,可以考虑除了拥有编码器及解码器双方的收发型终端以外,还有仅具有编码器的发送终端、仅具有解码器的接收终端这3种安装形式。进而,在数字广播用系统中,假设将在影像数据中复用了声音数据等的复用数据接收、发送而进行了说明,但在复用数据中除了声音数据以外还可以复用与影像关联的字符数据等,也可以不是将复用数据而是将影像数据自身接收或发送。
另外,假设包括CPU的主控制部ex460控制编码或解码处理而进行了说明,但终端具备GPU的情况也较多。因此,也可以做成通过由CPU和GPU共用的存储器、或以能够共同使用的方式管理地址的存储器,来利用GPU的性能将较大的区域一起处理的结构。由此,能够缩短编码时间,确保实时性,实现低延迟。特别是,如果将运动估计、解块滤波、SAO(SampleAdaptive Offset)及变换/量化的处理不是用CPU进行而是用GPU以图片等单位一起进行,则更有效。
产业上的可利用性
本发明能够利用于例如电视接收机、数字视频记录器、汽车导航系统、移动电话、数字相机、数字摄像机、电视会议系统或电子镜等。
标号说明
100 图像处理装置
110 电路
120 存储器
200 编解码系统
210 编码装置
211 图像编码部
220 解码装置
221 图像解码部
300 后处理滤波器
310、330、520 卷积块
311 卷积层
312 非线性激活函数
313 标准化层
320 残差块
410 卷积组
420 残差组
610 特征提取
620 特征变换
630 特征调整

Claims (7)

1.一种图像处理装置,其特征在于,具备:
存储器;以及
能够访问所述存储器的电路;
能够访问所述存储器的所述电路使用神经网络模型,进行使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于所述原图像的处理,所述神经网络模型进行了用于使所述压缩解除图像接近于所述原图像的学习;
所述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;
所述1个以上的卷积块分别是包含卷积层的处理块;
所述1个以上的残差块分别是如下的处理块:包含由所述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块的数据向该残差块中包含的所述卷积组输入,并且将被输入到该残差块的数据加到从所述卷积组输出的数据中。
2.如权利要求1所述的图像处理装置,其特征在于,
所述1个以上的卷积块是2个以上的卷积块。
3.如权利要求2所述的图像处理装置,其特征在于,
所述1个以上的残差块是2个以上的残差块。
4.如权利要求1~3中任一项所述的图像处理装置,其特征在于,
所述1个以上的卷积块是3个以上的卷积块;
所述1个以上的残差块构成残差组,并且包括所述3个以上的卷积块中的至少1个卷积块;
所述3个以上的卷积块中的不包含于所述残差组的至少1个卷积块构成第1卷积组;
所述3个以上的卷积块中的既不包含于所述残差组也不包含于所述第1卷积组的至少1个卷积块构成第2卷积组;
从所述第1卷积组输出的数据被输入到所述残差组;
从所述残差组输出的数据被输入到所述第2卷积组。
5.如权利要求1~3中任一项所述的图像处理装置,其特征在于,
所述神经网络模型包含由所述1个以上的卷积块及所述1个以上的残差块构成的处理组;
被输入到所述神经网络模型中的数据被输入到所述处理组,并且被输入到所述神经网络模型中的数据被加到从所述处理组输出的数据中而从所述神经网络模型输出。
6.如权利要求2所述的图像处理装置,其特征在于,
所述1个以上的残差块各自中包含的所述卷积组由所述2个以上的卷积块中的至少2个构成。
7.一种图像处理方法,其特征在于,
使用神经网络模型,进行使作为对原图像的压缩及压缩解除的结果的压缩解除图像接近于所述原图像的处理,所述神经网络模型进行了用于使所述压缩解除图像接近于所述原图像的学习;
所述神经网络模型包含1个以上的卷积块,并且包含1个以上的残差块;
所述1个以上的卷积块分别是包含卷积层的处理块;
所述1个以上的残差块分别是如下的处理块:包含由所述1个以上的卷积块中的至少1个构成的卷积组,将被输入到该残差块的数据向该残差块中包含的所述卷积组输入,并且将被输入到该残差块的数据加到从所述卷积组输出的数据中。
CN201880071077.4A 2017-11-08 2018-11-05 图像处理装置及图像处理方法 Active CN111295884B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762583148P 2017-11-08 2017-11-08
US62/583,148 2017-11-08
PCT/JP2018/040999 WO2019093268A1 (ja) 2017-11-08 2018-11-05 画像処理装置及び画像処理方法

Publications (2)

Publication Number Publication Date
CN111295884A CN111295884A (zh) 2020-06-16
CN111295884B true CN111295884B (zh) 2022-08-16

Family

ID=66437765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880071077.4A Active CN111295884B (zh) 2017-11-08 2018-11-05 图像处理装置及图像处理方法

Country Status (3)

Country Link
US (1) US11057646B2 (zh)
CN (1) CN111295884B (zh)
WO (1) WO2019093268A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208677A1 (ja) * 2018-04-27 2019-10-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
JP7071880B2 (ja) * 2018-06-08 2022-05-19 日本放送協会 画像復元装置、学習装置及びプログラム
CN110933429B (zh) * 2019-11-13 2021-11-12 南京邮电大学 基于深度神经网络的视频压缩感知与重构方法和装置
JP7446797B2 (ja) 2019-12-03 2024-03-11 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP7490409B2 (ja) 2020-03-25 2024-05-27 東芝テック株式会社 画像形成装置及び画像形成装置の制御方法
GB2594249B (en) 2020-04-20 2024-05-29 Continental Autonomous Mobility Germany GmbH Method for creating a virtual environment reconstruction of an actual location
CN111931770B (zh) * 2020-09-16 2021-02-12 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN112348743B (zh) * 2020-11-06 2023-01-31 天津大学 一种融合判别式网络和生成式网络的图像超分辨率方法
CN112560760B (zh) * 2020-12-24 2023-03-10 上海交通大学 一种注意力辅助的无监督视频摘要系统
CN112509071B (zh) * 2021-01-29 2021-04-30 电子科技大学 一种亮度信息辅助的色度信息压缩重建方法
JP2022174948A (ja) * 2021-05-12 2022-11-25 横河電機株式会社 装置、監視システム、方法およびプログラム
CN114049372A (zh) * 2021-11-15 2022-02-15 北京医百科技有限公司 一种三维图像分割方法、系统及存储介质
WO2023137710A1 (zh) * 2022-01-21 2023-07-27 深圳市大疆创新科技有限公司 神经网络的训练方法、图像处理方法、装置、系统及介质
CN114598886B (zh) * 2022-05-09 2022-09-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种图像编码的方法、解码的方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683067A (zh) * 2017-01-20 2017-05-17 福建帝视信息科技有限公司 一种基于残差子图像的深度学习超分辨率重建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2788811B2 (ja) * 1992-01-10 1998-08-20 シャープ株式会社 ブロック歪補正器
US11221990B2 (en) * 2015-04-03 2022-01-11 The Mitre Corporation Ultra-high compression of images based on deep learning
WO2017178827A1 (en) * 2016-04-15 2017-10-19 Magic Pony Technology Limited In-loop post filtering for video encoding and decoding
EP3298782B1 (en) * 2016-04-15 2022-12-21 Pony Technology Limited Magic Motion compensation using machine learning
ES2853700T3 (es) * 2016-04-15 2021-09-17 Magic Pony Tech Limited Compensación de movimiento utilizando interpolación de imagen temporal
CN106874898B (zh) * 2017-04-08 2021-03-30 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683067A (zh) * 2017-01-20 2017-05-17 福建帝视信息科技有限公司 一种基于残差子图像的深度学习超分辨率重建方法

Also Published As

Publication number Publication date
CN111295884A (zh) 2020-06-16
US20200267416A1 (en) 2020-08-20
US11057646B2 (en) 2021-07-06
WO2019093268A1 (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
CN111295884B (zh) 图像处理装置及图像处理方法
CN109155854B (zh) 编码装置、解码装置、编码方法及解码方法
US10819985B2 (en) Encoder, decoder, encoding method, and decoding method
WO2019093234A1 (ja) 符号化装置、復号装置、符号化方法及び復号方法
US20190158829A1 (en) Encoder, decoder, encoding method, and decoding method
JP7364752B2 (ja) 復号方法及び符号化方法
CN112425171A (zh) 编码装置、解码装置、编码方法和解码方法
WO2019065444A1 (ja) 符号化装置、復号装置、符号化方法及び復号方法
JP7432653B2 (ja) 符号化装置、復号装置、符号化方法、及び復号方法
JP2023174983A (ja) 画像符号化装置及び非一時的記憶媒体
CN112119637A (zh) 编码装置、解码装置、编码方法和解码方法
JP2023126387A (ja) 符号化装置及び符号化方法
JP7371055B2 (ja) 符号化装置、及び復号装置
CN112640465A (zh) 编码装置、解码装置、编码方法和解码方法
US12022118B2 (en) Encoder, decoder, encoding method, and decoding method
US11902526B2 (en) Encoder, decoder, encoding method, and decoding method
US11812024B2 (en) Encoder, decoder, encoding method, and decoding method
CN112136326A (zh) 编码装置、解码装置、编码方法和解码方法
US11716470B2 (en) Encoder, decoder, encoding method, and decoding method
CN114097245A (zh) 编码装置、解码装置、编码方法和解码方法
CN113994704A (zh) 编码装置、解码装置、编码方法和解码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant