CN115398468A - Ai缩小装置及其操作方法,以及ai放大装置及其操作方法 - Google Patents

Ai缩小装置及其操作方法,以及ai放大装置及其操作方法 Download PDF

Info

Publication number
CN115398468A
CN115398468A CN202180028641.6A CN202180028641A CN115398468A CN 115398468 A CN115398468 A CN 115398468A CN 202180028641 A CN202180028641 A CN 202180028641A CN 115398468 A CN115398468 A CN 115398468A
Authority
CN
China
Prior art keywords
image
dnn
images
restored
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180028641.6A
Other languages
English (en)
Inventor
金昱亨
曹逸铉
具滋尹
金男昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115398468A publication Critical patent/CN115398468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

用于将低分辨率图像放大到高分辨率图像的人工智能(AI)放大装置,包括:存储器,存储一个或多个指令;以及处理器,被配置为执行存储在存储器中的一个或多个指令,其中,处理器被配置为执行一个或多个指令以:获得对应于第一图像的第二图像,第二图像是由AI缩小装置通过使用第一深度神经网络(DNN)从原始图像缩小的;以及通过使用对应于第一DNN的第二DNN放大第二图像来获得第三图像,并且其中,第二DNN被训练为最小化第一恢复图像和第二恢复图像之间的差异,第一恢复图像由不将像素移动应用于原始训练图像引起,并且第二恢复图像由缩小、放大,并随后重新平移通过将像素移动应用于原始训练图像而获得的一个或多个平移图像引起。

Description

AI缩小装置及其操作方法,以及AI放大装置及其操作方法
技术领域
本公开的各种实施例涉及包括用于对图像进行人工智能(AI)缩小的深度神经网络的AI缩小装置及其操作方法,以及包括用于对图像进行AI放大的深度神经网络的AI放大装置及其操作方法,并且更具体地,涉及用于在缩小和放大图像的处理中移除图像中生成的伪像(artifact)的AI缩小装置及其操作方法和AI放大装置及其操作方法。
背景技术
图像由符合一定压缩标准(例如,移动图像专家组(MPEG)标准等)的编解码器编码,然后以比特流格式存储在记录介质中或通过通信信道发送。
随着能够再现和存储高分辨率/高质量图像的硬件已被开发和普及,存在对能够高效地编码和解码高分辨率/高质量图像的编解码器的增长的需求。
最近,为了改进高质量图像的发送效率并实现差异化的恢复图像质量,AI深度学习技术也已被应用于图像流发送和恢复领域。
当图像被缩小到低分辨率,然后被放大回到高分辨率时,伪像是由在缩小到低分辨率期间丢失的信息引起的。也就是说,当原始图像被转换成低分辨率并恢复回高分辨率时,因为用于配置像素的信息不可避免地丢失,所以恢复到高分辨率的图像与原始图像并不相同,并且遭受图像质量劣化。
在现有的图像流中,为了移除伪像,已经执行了用于估计和补偿在帧之间的移动的处理。然而,为了执行移动估计和补偿处理,要求另外的硬件设备,需要改变整体(overall)系统,并且导致成本增加。
发明内容
问题的解决方案
本公开的各种实施例可以提供人工智能(AI)缩小装置及其操作方法和AI放大装置及其操作方法,其允许通过对AI缩小的图像进行AI放大来在恢复AI缩小的图像的处理期间移除伪像。此外,本公开的各种实施例还可以提供训练能够移除伪像的AI缩小装置和AI放大装置的方法。
公开的有利效果
根据本公开的实施例,AI缩小装置和AI放大装置可以将图像恢复为移除了伪像的高分辨率图像,而无需向现有的AI缩小装置和AI放大装置添加另外的硬件、改变现有的硬件、或者导致另外的成本。
附图说明
图1是例示了根据本公开实施例的人工智能(AI)编码处理和AI解码处理的示图。
图2是例示了根据本公开实施例的AI缩小装置的配置的框图。
图3是例示了用于AI缩小原始图像的第一DNN的示例图。
图4是例示了根据本公开实施例的AI放大装置的配置的框图。
图5是例示了用于AI放大第二图像13行的第二DNN的示例图。
图6是例示了根据本公开的实施例的训练第一DNN和第二DNN的方法的流程图。
图7A至7E是例示了根据本公开的实施例的训练用于AI缩小的第一DNN和用于AI放大的第二DNN的方法的参照图。
图8是例示了根据本公开的实施例的总体(ensemble)损失信息的参照图。
图9是例示了根据本公开实施例的AI缩小装置的操作方法的流程图。
图10是例示了根据本公开实施例的AI放大装置的操作方法的流程图。
图11是例示了根据本公开实施例的AI缩小装置的配置的框图。
图12是例示了根据本公开实施例的AI放大装置的配置的框图。
图13是例示了根据本公开的实施例的用于训练第一DNN和第二DNN的训练装置的框图。
具体实施方式
根据本公开的一方面,AI放大装置包括:存储一个或多个指令的存储器;以及处理器,被配置为执行存储在存储器中的一个或多个指令,其中,处理器被配置为执行一个或多个指令以:获得对应于第一图像的第二图像,第二图像是由AI缩小(downscaling)装置通过使用第一深度神经网络(DNN)从原始图像缩小的;以及通过使用对应于第一DNN的第二DNN放大(upscaling)第二图像来获得第三图像,并且其中,第二DNN被训练为最小化原始训练图像的第一恢复图像和一个或多个平移(translation)图像的第二恢复图像之间的差异,第一恢复图像是通过对通过不将像素移动应用于原始训练图像而获得的图像执行缩小和放大而获得的,并且第二恢复图像是通过对通过将像素移动应用于原始训练图像而获得的一个或多个平移图像执行缩小和放大并随后执行重新平移(retranslation)而获得的。
根据本公开的实施例,可以训练第二DNN以最小化基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息。
根据本公开的实施例,损失信息可以包括第一恢复图像和第二恢复图像中的每个与原始训练图像之间的第一差异信息。
根据本公开的实施例,损失信息可以包括第一恢复图像和第二恢复图像之间的第二差异信息。
根据本公开的实施例,第二DNN可以接收第二图像中特定时间点的低分辨率单帧图像作为输入,并输出第三图像中特定时间点的高分辨率单帧图像。
根据本公开的实施例,第二DNN可以包括与第一DNN联合训练并且基于从第一DNN获得的图像进行训练的网络。
根据本公开的另一方面,AI缩小装置包括:存储一个或多个指令的存储器;以及处理器,被配置为执行存储在存储器中的一个或多个指令,其中,处理器被配置为执行一个或多个指令以:通过使用第一深度神经网络(DNN)获得从原始图像缩小的第一图像;并且执行控制以通过网络向AI放大装置发送第一图像,并且其中,第一DNN被训练为最小化原始训练图像的第一恢复图像和一个或多个平移图像的第二恢复图像之间的差异,第一恢复图像是通过对通过不将像素移动应用于原始训练图像而获得的图像执行缩小和放大而获得的,并且第二恢复图像是通过对通过将像素移动应用于原始训练图像而获得的一个或多个平移图像执行缩小和放大并随后执行重新平移而获得的。
根据本公开的实施例,可以训练第一DNN以最小化基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息。
根据本公开的又一方面,训练用于将高分辨率图像缩小为低分辨率图像的第一深度神经网络(DNN)或用于将低分辨率图像放大为高分辨率图像的第二DNN的方法,包括:通过将平移应用于原始训练图像来生成一个或多个平移图像;通过以第一DNN对原始训练图像和一个或多个平移图像执行操作,获得对应于原始训练图像和一个或多个平移图像的多个低分辨率图像;通过以第二DNN对多个低分辨率图像中的每个执行操作,获得对应于多个低分辨率图像的多个高分辨率图像;通过将重新平移应用于多个高分辨率图像当中对应于一个或多个平移图像的高分辨率图像来获得第二恢复图像;以及通过使用基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息来更新第一DNN的第一参数或第二DNN的第二参数中的至少一个。
根据本公开的实施例,第一DNN的第一参数或第二DNN的第二参数中的至少一个的更新可以包括朝着最小化损失信息来更新第一DNN的第一参数或第二DNN的第二参数中的至少一个。
根据本公开的实施例,第二DNN可以包括与第一DNN联合训练并且基于从第一DNN获得的图像进行训练的网络。
公开的模式
本公开可以具有对其的各种改变并具有各种实施例,并且本公开的具体实施例在附图中被例示并将在下面的详细描述中详细描述。然而,应当理解,本公开不限于这些实施例,并且对其的所有改变、等同物或替换物都属于本公开的范围。
在描述实施例时,当确定相关已知技术的具体描述可能使本公开的要点不必要地不清楚时,省略对其的详细描述。此外,本文中用于描述各种组件的诸如“第一”、“第二”等术语仅用于将一个组件与另一个组件区分。
这里,应当理解,当一个组件被称为“耦合到”或“连接到”另一个组件时,除非另有声明,否则一个组件可以直接耦合到或直接连接到另一个组件,或者可以利用其间的居间组件耦合到或连接到另一个组件。
这里,当组件由诸如“……单元”、“……部分”、“……模块”等术语表示时,两个或更多个组件可以集成到一个集成组件中,或者一个组件可以根据功能被再划分成两个或多个子组件。另外,关于下面描述的相应组件,组件可以另外执行另一个组件的一些或所有功能,或者该组件的一些功能可以完全由另一个组件负责和执行。
如本文所使用的,术语“图像”或“图片”可以指代静止图像、包括多个连续静止图像(或帧)的移动图像或视频。
如本文所使用的,术语“深度神经网络(DNN)”是模仿脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。
如本文所使用的,术语“参数”指代的是在构成神经网络的每层的运算处理中使用的值,并且可以包括例如当输入值被应用于一定运算表达式时使用的权重值。此外,参数可以矩阵形式表示。参数是作为训练的结果而设置的值,并且可以按照需要通过使用分开的训练数据来更新。
如本文所使用的,术语“第一DNN”指代的是用于对图像进行AI缩小的DNN,而术语“第二DNN”指代的是用于对图像进行AI放大的DNN。
此外,本文使用的术语“DNN设置信息”指代的是与构成DNN的元素相关的信息,并且包括以上阐述的参数。可以通过使用DNN设置信息来建立第一DNN或第二DNN。
如本文所使用的,术语“原始图像”指代的是由AI编码定为目标的图像,而术语“第一图像”指代的是在AI编码处理中作为对原始图像进行AI缩小的结果而获得的图像。此外,如本文所使用的,术语“第二图像”指代的是在AI解码的处理中通过第一解码获得的图像,而术语“第三图像”指代的是在AI解码处理中通过对第二图像进行AI放大获得的图像。
如本文所使用的,术语“AI缩小”指代的是基于AI降低图像分辨率的处理,并且术语“第一编码”指代的是通过基于频率转换的图像压缩方法的编码处理。此外,如本文所使用的,术语“第一解码”指代的是通过基于频率转换的图像恢复方法的解码处理,并且术语“AI放大”指代的是基于AI增加图像的分辨率的处理。
如本文所使用的,术语“伪像(artifact)”指代的是当具有高分辨率的原始图像被转换成低分辨率并恢复回高分辨率时,由于恢复图像和原始图像之间的信息差异而发生的图像质量恶化。伪像是由在原始图像转换为低分辨率时丢失的信息引起的。伪像可以包括但不限于混叠伪像和锯齿伪像。
如本文所使用的,术语“移动”或“平移”指代的是移动图像或图像的像素。对于平移的方向,可以考虑水平、垂直或对角线方向,并且对于平移的幅度,可以考虑在像素基础上移动多达一个像素、两个像素等。例如,可以考虑在水平方向(1,0)、垂直方向(0,1)或对角线方向(1,1)上将原始图像或图像移动多达一个像素(一个单位幅度)。
如本文所使用的,术语“反向移动”或“重新平移”指代的是将已经平移的图像或图像的像素在反方向上移动多达相同的幅度。例如,当原始图像或图像已经在水平方向(1,0)、垂直方向(0,1)或对角线方向(1,1)上平移了多达一个像素(一个单位幅度)时,重新平移可以被认为是在相对于水平方向(-1,0)、垂直方向(0,-1)或对角线方向(-1,-1)的相反方向上移动了多达一个像素(一个单位幅度)。
图1是例示了根据本公开实施例的AI编码处理和AI解码处理的示图。
随着图像的分辨率已经急剧增加,用于编码/解码的信息处理量也已经增加了,因此,存在对改进编码和解码图像的效率的方法的需要。
如图1所示,根据本公开的实施例,第一图像115是通过对具有高分辨率的原始图像105进行AI缩小110而获得的。这里,原始图像105和第一图像115可以各自是包括多个帧图像的移动图像或视频。此外,因为以相对低的分辨率对第一图像115执行编码120和解码130,所以与对原始图像105执行编码和解码的情况相比,处理比特率可以显著降低。
参照图1,在AI编码处理中,通过原始图像105的AI缩小110获得第一图像115,并且第一图像115被编码120。在AI解码处理中,接收作为AI编码的结果而获得的、包括AI数据和图像数据的AI编码的数据,通过解码130获得第二图像135,并且通过第二图像135的AI放大140获得第三图像145。
对于AI编码处理的更详细描述,当原始图像105作为输入被接收时,原始图像105被AI缩小110以获得具有一定分辨率或一定图像质量的第一图像115。这里,基于AI来执行AI缩小110,并且用于AI缩小110的AI需要与用于AI放大140的AI联合训练。原因是因为,当用于AI缩小110的AI和用于AI放大140的AI彼此分开训练时,由AI编码定为目标的原始图像105和通过AI解码恢复的第三图像145之间的差异增加。
在本公开的实施例中,为了在AI编码处理和AI解码处理中保持这样的联合关系,可以使用AI数据。因此,通过AI编码处理获得的AI数据需要包括指示放大目标的信息,并且在AI解码处理中,需要根据基于AI数据识别的放大目标对第二图像135进行AI放大140。
用于AI缩小110的AI和用于AI放大140的AI可以各自由深度神经网络(DNN)来实现。如下参照图6和图7所述,因为第一DNN和第二DNN被联合训练以通过共享损失信息来实现一定目标,所以AI编码装置可以向AI解码装置提供当第一DNN和第二DNN被联合训练时使用的目标信息,并且AI解码装置可以基于提供的目标信息将第二图像135AI放大140到定为目标的分辨率。
对于图1中所示的编码120和解码130的详细描述,从原始图像105而AI缩小110的第一图像115的信息量可以通过编码120减少。这样的编码120处理可以通过诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和AOMedia视频1(AV1)的、使用频率转换的图像压缩方法中的一个来实现。
对应于第一图像115的第二图像135可以通过图像数据的解码130来恢复。这样的解码130处理可以通过与诸如MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1的使用频率转换的图像压缩方法中的一个对应的图像恢复方法来实现。
通过AI编码处理获得的AI编码数据可包括作为第一图像115的编码120的结果获得的图像数据,以及与原始图像105的AI缩小110相关的AI数据。图像数据可以用于第一解码130的处理,并且AI数据可以用于AI放大140的处理。
图像数据可以以比特流格式发送。图像数据可以包括基于第一图像115中的像素值获得的数据,例如,作为第一图像115和第一图像115的预测数据之间的差异的残差数据。
AI数据用于基于第二DNN的AI放大140。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括允许通过第二DNN准确地执行第二图像135的AI放大140的信息。在AI解码处理中,基于AI数据,第二图像135可以被AI放大140到定为目标的分辨率和/或图像质量。AI数据连同图像数据可以以比特流格式发送。可替换地,根据实施方式示例,AI数据可以以帧或分组格式与图像数据分开发送。作为AI编码的结果而获得的图像数据和AI数据可以通过相同的网络或彼此不同的网络来发送。
图2是例示了根据本公开实施例的AI缩小装置的配置的框图。
参照图2,AI缩小装置200可以包括AI编码器210和发送器230。AI编码器210可以包括AI缩小器212和编码器214。发送器230可以包括数据处理单元232和通信单元234。
尽管图2例示了AI编码器210和发送器230分别是单独的设备,但是AI编码器210和发送器230可以由一个处理器来实现。在这种情况下,一个处理器可以由专用处理器或通用处理器(诸如应用处理器(AP)、中央处理单元(CPU)或图形处理单元(GPU))和软件(S/W)的组合来实现。此外,专用处理器可以被实现为包括用于实现本公开的实施例的存储器,或者可以被实现为包括用于使用外部存储器的存储器处理单元。
此外,AI编码器210和发送器230也可以由多个处理器实现。在这种情况下,多个处理器可以通过专用处理器的组合来实现,或者可以通过多个通用处理器(诸如AP、CPU或GPU)和S/W的组合来实现。AI缩小器212和编码器214可以分别通过不同的处理器来实现。
AI编码器210执行原始图像105的AI缩小和第一图像115的编码,并将AI数据和图像数据向发送器230传送。发送器230向AI放大装置发送AI数据和图像数据。
图像数据包括作为第一图像115的编码结果而获得的数据。图像数据可以包括基于第一图像115中的像素值获得的数据,例如,作为第一图像115和第一图像115的预测数据之间的差异的残差数据。另外,图像数据包括在编码第一图像115的处理中使用的若干条信息。例如,图像数据可以包括用于编码第一图像115的预测模式信息、用于编码移动信息和第一图像115的量化参数相关的信息等。
AI数据包括允许AI放大装置将第二图像135进行AI放大到与第一DNN的缩小目标对应的放大目标的若干条信息。在一个示例中,AI数据可以包括原始图像105和第一图像115之间的差异信息。此外,AI数据可以包括第一图像115相关的信息。第一图像115相关的信息可以包括关于第一图像115的分辨率、作为对第一图像115编码的结果而获得的图像数据的比特率或在对第一图像115编码时使用的编解码器类型中的至少一个的信息。
在本公开的实施例中,AI数据可以包括相互一致(agreed)的DNN设置信息的标识符,以允许第二图像135被AI放大到与第一DNN的缩小目标对应的放大目标。
此外,在本公开的实施例中,AI数据可以包括能够在第二DNN中设置的DNN设置信息。
AI缩小器212可以通过第一DNN从原始图像105获得AI缩小的第一图像115。AI缩小器212可以基于预设准则来确定原始图像105的缩小目标。
为了获得符合缩小目标的第一图像115,AI缩小器212可以存储能够在第一DNN中设置的多条DNN设置信息。AI缩小器212从多条DNN设置信息当中获得对应于缩小目标的一条DNN设置信息,并且通过以获得的一条DNN设置信息设置的第一DNN来AI缩小原始图像105。
多条DNN设置信息中的每条可以被训练以获得具有预设分辨率和/或预设图像质量的第一图像115。例如,在多条DNN设置信息当中,一条DNN设置信息可以包括用于获得具有是原始图像105的分辨率1/2倍低的分辨率的第一图像115的若干条信息,例如,用于获得具有是原始图像105的4K(4096*2160)分辨率的1/2倍低的2K(2048*1080)分辨率的第一图像115的若干条信息,并且另一条DNN设置信息可以包括用于获得具有是原始图像105的分辨率1/4倍低的分辨率的第一图像115的若干条信息,例如,用于获得是原始图像105的8K(8192*4320)分辨率1/4倍低的2K(2048*1080)分辨率的第一图像115的若干条信息。
根据实施方式示例,当构成DNN设置信息的若干条信息(例如,卷积层的数量、每个卷积层的滤波器内核的数量、每个滤波器内核的参数等)以查找表的格式存储时,AI缩小器212可以通过根据缩小目标组合从查找表中的值当中选择的一些值来获得DNN设置信息,并可以通过使用获得的DNN设置信息来AI缩小原始图像105。
根据实施方式示例,AI缩小器212可以确定与缩小目标对应的DNN的结构,并可以获得与确定的DNN的结构对应的DNN设置信息,例如,滤波器内核的参数。
通过联合训练第一DNN和第二DNN,用于AI缩小原始图像105的多条DNN设置信息可以具有优化的值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、每个卷积层的滤波器内核的数量或每个滤波器内核的参数中的至少一个。
AI缩小器212可以利用针对对原始图像105进行AI缩小而确定的一条DNN设置信息来设置第一DNN,并通过第一DNN获得具有一定分辨率和/或一定图像质量的第一图像115。当从多条DNN设置信息当中获得用于对原始图像105进行AI缩小的一条DNN设置信息时,第一DNN中的每层可以基于该条DNN设置信息中包括的多条信息来处理输入数据。
在下文中,将参照图3描述作为AI缩小的基本原理(foundation)的第一DNN 300的示例结构。
图3是例示了用于AI缩小原始图像105的第一DNN 300的示例图。
如图3所示,原始图像105被输入到第一卷积层310。第一卷积层310通过使用32个5×5大小的滤波器内核对原始图像105执行卷积处理。根据本公开,第一DNN 300的参数值(例如,在第一DNN 300的卷积层中使用的滤波器内核的参数值)可以通过第一DNN和第二DNN的联合训练来优化。
作为卷积处理的结果而生成的32个特征图被输入到第一激活层320。第一激活层320可以向32个特征图赋予非线性特性。第一激活层320可以包括但不限于S形函数、双曲正切函数、整流线性单元(ReLU)函数等。
第一激活层320确定是否向第二卷积层330传送从第一卷积层310输出的特征图的样本值。例如,在特征图的样本值当中,一些样本值被第一激活层320激活并被传送给第二卷积层330,并且一些样本值被第一激活层320去激活并不被传送给第二卷积层330。由从第一卷积层310输出的特征图表示的信息被第一激活层320强调。
第一激活层320的输出325被输入到第二卷积层330。第二卷积层330通过使用32个5×5大小的滤波器内核对输入数据执行卷积处理。作为卷积处理的结果而输出的32个特征图被输入到第二激活层340,并且第二激活层340可以向32个特征图赋予非线性特性。
第二激活层340的输出345被输入到第三卷积层350。第三卷积层350通过使用一个5×5大小的滤波器内核对输入数据执行卷积处理。可以从第三卷积层350输出一个图像作为卷积处理的结果。第三卷积层350是用于输出最终图像以及通过使用一个滤波器内核获得一个输出的层。根据本公开的示例,第三卷积层350可以通过卷积运算结果输出第一图像115。
在第一DNN 300中,可以有表示第一卷积层310、第二卷积层330和第三卷积层350中的每个的滤波器内核的数量、滤波器内核的参数等的多条DNN设置信息,并且多条DNN设置信息需要与第二DNN的多条DNN设置信息相关联。第一DNN的多条DNN设置信息和第二DNN的多条DNN设置信息之间的关联可以通过第一DNN和第二DNN的联合训练来实现。
尽管图3例示了第一DNN 300包括三个卷积层310、330和350以及两个激活层320和340,但是这仅仅是示例,卷积层的数量和激活层的数量可以根据实施方式示例而不同地改变。此外,根据实施方式示例,第一DNN 300可以由递归神经网络(RNN)来实现。这意味着将根据本公开的示例的第一DNN 300的CNN结构改变为RNN结构。
在本公开的实施例中,AI缩小器212可以包括用于上述卷积运算和上述激活层的运算的至少一个算术逻辑单元(ALU)。ALU可以由处理器实现。对于卷积运算,ALU可以包括用于在特征图的样本值和滤波器内核的样本值之间执行乘法运算的乘法器,以及用于将乘法的结果值加起来的加法器,特征图是从原始图像105或先前层输出的。此外,对于激活层的运算,ALU可以包括用于将输入样本值乘以预设的S形函数、双曲正切函数、ReLU函数等中使用的权重值的乘法器,以及用于通过将乘法结果与一定值进行比较来确定是否将输入样本值传送给下一层的比较器。
再次参照图2,接收从AI缩小器212传送的第一图像115的编码器214可以通过对第一图像115进行编码来减少第一图像115中的信息量。作为编码器214编码的结果,可以获得对应于第一图像115的图像数据。
数据处理单元232执行处理以允许以一定格式发送AI数据或图像数据中的至少一个。例如,当需要以比特流格式发送AI数据和图像数据时,数据处理单元232处理AI数据来以比特流格式表示AI数据,并通过通信单元234以一个比特流的格式发送AI数据和图像数据。作为另一个示例,数据处理单元232处理AI数据来以比特流格式表示AI数据,并通过通信单元234发送分别对应于AI数据和图像数据的比特流。作为又一示例,数据处理单元232处理AI数据来以帧或分组格式表示AI数据,并通过通信单元234发送具有比特流格式的图像数据和具有帧或分组格式的AI数据。
通信单元234通过网络发送作为AI编码的结果而获得的AI编码数据。作为AI编码的结果而获得的AI编码的数据包括图像数据和AI数据。图像数据和AI数据可以通过同构网络或异构网络发送。
在本公开的实施例中,作为数据处理单元232的处理结果而获得的AI编码的数据可以存储在数据存储介质中,包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光记录介质、诸如光软盘的磁光介质等。
图4是例示了根据本公开实施例的AI放大装置400的框图。
参照图4,根据本公开实施例的AI放大装置400可以包括接收器410和AI解码器430。接收器410可以包括通信单元412、解析单元414和输出单元416。AI解码器430可以包括解码器432和AI放大器434。
接收器410接收并解析作为AI编码的结果而获得的AI编码数据,并通过将图像数据和AI数据彼此分开而将图像数据和AI数据向AI解码器430输出。
具体地,通信单元412通过网络接收作为AI编码的结果而获得的AI编码数据。作为AI编码的结果而获得的AI编码的数据包括图像数据和AI数据。图像数据和AI数据可以通过同构网络或异构网络接收。
解析单元414接收由通信单元412接收的AI编码的数据,并通过解析AI编码的数据将AI编码的数据划分成图像数据和AI数据。例如,通过读取从通信单元412获得的数据的报头(header),可以区分数据是图像数据还是AI数据。在一个示例中,解析单元414通过使用由通信单元412接收的数据的报头将图像数据和AI数据彼此划分,向输出单元416传送图像数据和AI数据,并向解码器432和AI放大器434传送每条划分的数据。这里,包括在AI编码的数据中的图像数据可以被识别为通过一定编解码器(例如,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)获得的图像数据。在这种情况下,为了允许图像数据被识别的编解码器处理,对应的信息可以通过输出单元416被传送给解码器432。
在本公开的实施例中,解析单元414解析的AI编码的数据可以从包括诸如硬盘、软盘和磁带的磁介质,诸如CD-ROM和DVD的光记录介质,诸如光软盘的磁光介质等的数据存储介质获得。
解码器432基于图像数据恢复对应于第一图像115的第二图像135。由解码器432获得的第二图像135被提供给AI放大器434。根据实施方式示例,诸如预测模式信息、移动信息或量化参数信息的包括在图像数据中的解码相关信息还可以被提供给AI放大器434。
接收AI数据的AI放大器434基于AI数据对第二图像135进行AI放大。根据实施方式示例,可以通过进一步使用包括在图像数据中的解码相关信息(诸如预测模式信息或量化参数信息)来执行AI放大。
尽管根据本公开的实施例,接收器410和AI解码器430被描述为单独的设备,但是接收器410和AI解码器430可以由一个处理器实现。在这种情况下,接收器410和AI解码器430可以由专用处理器来实现,或者可以由通用处理器(诸如AP、CPU或GPU)和S/W的组合来实现。此外,专用处理器可以被实现为包括用于实现本公开的实施例的存储器,或者可以被实现为包括用于使用外部存储器的存储器处理单元。
此外,接收器410和AI解码器430可以由多个处理器实现。在这种情况下,接收器410和AI解码器430可以通过专用处理器的组合来实现,或者可以通过多个通用处理器(诸如AP、CPU或GPU)和S/W的组合来实现。同样,AI放大器434和解码器432可以分别通过不同的处理器来实现。
提供给AI放大器434的AI数据包括允许第二图像135被AI放大的若干条信息。这里,放大目标需要对应于第一DNN中的缩小。因此,AI数据需要包括允许识别第一DNN的缩小目标的信息。
具体地,包括在AI数据中的信息的示例可以包括原始图像105的分辨率和第一图像115的分辨率之间的差异信息,以及第一图像115相关的信息。
差异信息可以由关于第一图像115相对于原始图像105的分辨率转换程度的信息(例如,分辨率转换比率信息)来表示。此外,因为分辨率转换的程度可以通过找出第一图像115的分辨率来识别,第一图像115的分辨率是从恢复的第二图像135的分辨率得知的,所以差异信息可以仅由原始图像105的分辨率信息来表示。这里,分辨率信息可以由水平/垂直屏幕大小来表示,或者由水平大小或垂直大小中的一个以及比率(例如,16∶9、4∶3等)两者来表示。此外,当有预设的分辨率信息时,分辨率信息可以以索引或标志(flag)的形式表示。
此外,第一图像115相关的信息可以包括关于作为第一图像115的第一编码的结果获得的图像数据的比特率或在第一图像115的第一编码中使用的编解码器类型中的至少一个的信息。
AI放大器434可以基于包括在AI数据中的差异信息或第一图像115相关的信息中的至少一个来确定第二图像135的放大目标。放大目标可以指示例如第二图像135需要放大到什么分辨率。当确定放大目标时,AI放大器434通过第二DNN对第二图像135进行AI放大,以获得对应于放大目标的第三图像145。
在下文中,将参照图5描述由AI放大器434执行的通过第二DNN对第二图像135进行AI放大的处理。
图5是例示了用于对第二图像135进行AI放大的第二DNN的示例图。
如图5所示,第二图像135被输入到第一卷积层510。图5所示的第一卷积层510中标记的“3X3X4”指示通过使用四个3×3大小的滤波器内核对一个输入图像执行卷积处理。作为卷积处理的结果,四个滤波器内核生成四个特征图。每个特征图表示第二图像135的唯一特性。例如,每个特征图可以表示第二图像135的垂直方向特性、水平方向特性、边缘特性等。
根据本公开,第二DNN的参数值,例如,在第二DNN的卷积层中使用的滤波器内核的参数值,可以通过第一DNN和第二DNN的联合训练来优化。如上所述,AI放大器434可以基于AI数据确定与第一DNN的缩小目标对应的放大目标,并可以将与确定的放大目标对应的参数确定为在第二DNN的卷积层中使用的滤波器内核的参数。
从第一卷积层510输出的特征图被输入到第一激活层520。
第一激活层520可以向每个特征图赋予非线性特性。第一激活层520可以包括但不限于S形函数、双曲正切函数、ReLU函数等。
由第一激活层520赋予非线性特性意味着改变和输出作为第一卷积层510的输出的特征图的一些样本值。这里,通过应用非线性特性来执行改变。
第一激活层520确定是否将从第一卷积层510输出的特征图的样本值向第二卷积层530传送。例如,在特征图的样本值当中,一些样本值被第一激活层520激活并被传送给第二卷积层530,并且一些样本值被第一激活层520去激活并且不被传送给第二卷积层530。由特征图表示的第二图像135的唯一特性被第一激活层520强调。
从第一激活层520输出的特征图525被输入到第二卷积层530。
在第二卷积层530中标记的“3X3X4”指示通过使用四个3X3大小的滤波器内核对输入特征图525执行卷积处理。第二卷积层530的输出被输入到第二激活层540。第二激活层540可以赋予输入数据非线性特性。
从第二激活层540输出的特征图545被输入到第三卷积层550。在图5所示的第三卷积层550中标记的“3X3X1”指示通过使用一个3X3大小的滤波器内核执行卷积处理以做出一个输出图像。第三卷积层550是用于输出最终图像并且通过使用一个滤波器内核来生成一个输出的层。根据本公开的示例,第三卷积层550可以通过卷积运算结果输出第三图像145。
在第二DNN 500中,可以有表示第一卷积层510、第二卷积层530和第三卷积层550中的每个的滤波器内核的数量、滤波器内核的参数等的多条DNN设置信息,并且多条DNN设置信息需要与第一DNN的多条DNN设置信息相关联。第二DNN的多条DNN设置信息和第一DNN的多条DNN设置信息之间的关联可以通过第一DNN和第二DNN的联合训练来实现。
尽管图5例示了第二DNN 500包括三个卷积层510、530和550以及两个激活层520和540,但是这仅仅是示例,卷积层的数量和激活层的数量可以根据实施方式示例而不同地改变。此外,根据实施方式示例,第二DNN 500可以由RNN来实现。这意味着根据本公开的示例的第二DNN 500的CNN结构改变为RNN结构。
在本公开的实施例中,AI放大器434可以包括用于上述卷积运算和上述激活层运算的至少一个ALU。ALU可以由处理器实现。
在下文中,将描述由AI放大器434执行的根据放大目标对第二图像135进行AI放大的方法。
在本公开的实施例中,AI放大器434可以存储能够在第二DNN中设置的多条DNN设置信息。
这里,若干条DNN设置信息可以包括关于第二DNN中包括的卷积层的数量、每个卷积层的滤波器内核的数量或每个滤波器内核的参数中的至少一个的信息。多条DNN设置信息可以分别对应于各种放大目标,并且第二DNN可以基于对应于特定放大目标的一条DNN设置信息来运算。根据一条DNN设置信息,第二DNN可以具有不同的结构。例如,根据某一条DNN设置信息,第二DNN可以包括三个卷积层,根据另一条DNN设置信息,第二DNN可以包括四个卷积层。
在本公开的实施例中,该条DNN设置信息可以仅包括在第二DNN中使用的滤波器内核的参数。在这种情况下,第二DNN的结构不改变,并且其中的滤波器内核的参数可以根据该条DNN设置信息而变化。
AI放大器434可以从多条DNN设置信息当中获得用于对第二图像135进行AI放大的一条DNN设置信息。这里使用的多条DNN设置信息中的每条是用于获得具有预设分辨率和/或预设图像质量的第三图像145的信息,并且是通过与第一DNN的联合训练获得的。
例如,在多条DNN设置信息当中,一条DNN设置信息可以包括用于获得具有是第二图像135的分辨率两倍高的分辨率的第三图像145的若干条信息,例如,用于获得具有是第二图像135的2K(2048*1080)分辨率二倍高的4K(4096*2160)分辨率的第三图像145的若干条信息,另一条DNN设置信息可以包括用于获得是第二图像135的分辨率四倍高的分辨率的第三图像145的若干条信息,例如,用于获得具有是第二图像135的2K(2048*1080)分辨率四倍高的8K(8192*4320)分辨率的第三图像145的若干条信息。
使多条DNN设置信息中的每条与AI缩小装置200的第一DNN的DNN设置信息相关联,并且AI放大器434根据与第一DNN的DNN设置信息的减小比对应的扩大比,从多条DNN设置信息当中获得一条DNN设置信息。为此,AI放大器434需要识别第一DNN的信息。为了AI放大器434识别第一DNN的信息,根据本公开实施例的AI放大装置400从AI缩小装置200接收包括第一DNN的信息的AI数据。
换句话说,通过使用从AI缩小装置200接收的若干条信息,AI放大器434可以识别用于获得第一图像115的第一DNN的一条DNN设置信息所定为目标的信息,并且可以获得与其联合训练的第二DNN的一条DNN设置信息。
当从多条DNN设置信息当中获得用于对第二图像135进行AI放大的一条DNN设置信息时,可以基于根据获得的一条DNN设置信息运算的第二DNN来处理输入数据。
例如,当获得一条DNN设置信息时,在图5所示的第二DNN 500的第一卷积层510、第二卷积层530和第三卷积层550的每个中的滤波器内核的数量和滤波器内核的参数可以被设置为包括在获得的一条DNN设置信息中的值。
AI放大器434可以基于包括在AI数据中的信息,从多条DNN设置信息当中获得用于对第二图像135进行AI放大的一DNN设置信息,并且将详细描述用于获得该条DNN设置信息的AI数据。
在本公开的实施例中,基于包括在AI数据中的差异信息,AI放大器434可以从多条DNN设置信息当中获得用于对第二图像135进行AI放大的一条DNN设置信息。例如,基于差异信息,当原始图像105的分辨率(例如,4K(4096*2160))被识别为是第一图像115的分辨率(例如,2K(2048*1080))的两倍高时,AI放大器434可以获得允许第二图像135的分辨率增加到两倍的若干条DNN设置信息。
在本公开的另一实施例中,基于包括在AI数据中的第一图像115相关的信息,AI放大器434可以从多条DNN设置信息当中获得用于对第二图像135进行AI放大的一条DNN设置信息。AI放大器434可以预先确定若干条图像相关的信息和若干条DNN设置信息之间的映射关系,并且可以获得映射到第一图像115相关的信息的一条DNN设置信息。
如参照图1至图5所描述的,当通过将原始图像105缩小到低分辨率图像(例如,图1的第一图像115)并再次放大低分辨率图像(例如,图1的第二图像135)来执行到高分辨率图像(例如,图1的第三图像145)的恢复时,因为用于配置包括在原始图像中的像素的信息的损失是不可避免的,所以在到高分辨率图像的恢复期间不可避免地发生信息损失。也就是说,由于此,恢复的高分辨率图像不同于原始图像,并且其中生成了伪像。伪像可以包括但不限于混叠伪像和锯齿伪像。
混叠伪像指代的是引起类似于波浪图案的图案的现象,并且锯齿伪像指代的是线或边缘区域弯曲得像阶梯的现象。此外,混叠伪像主要出现在像素值的差异急剧改变的高频范围中,并且表现为包括在帧图像中的同一对象中的图案(或纹理)颤动或闪烁而不是随着帧保持恒定的闪烁现象。
因为这些伪像对图像的图像质量具有显著影响,所以伪像连同改进图像的锐度(sharpness)一起是改进图像质量的关键因素。
为了移除诸如视频的图像流中的伪像,使用图像帧之间的移动信息是代表性方法。例如,通过使用多个图像帧的移动信息来预测当前生成的或将来要生成的帧图像的最优状态。也就是说,通过使用移动估计和移动补偿来移除伪像。然而,通过使用移动估计和移动补偿来移除伪像的系统要求处理移动估计和移动补偿的分开的计算设备。
另外,为了使用移动估计和移动补偿,除了当前帧图像之外,还要求关于前一帧图像或下一帧图像的信息,并且要求用于存储多条帧图像信息的另外的存储器。
此外,由于另外的计算单元和存储器访问,出现了另外的流量,并且由于此,出现了系统延迟。
因此,需要AI放大装置和AI缩小装置,其能够在没有另外的硬件、现有硬件的改变和另外成本的情况下移除伪像。
根据本公开的实施例,AI缩小装置和AI放大装置可以移除在对图像进行AI缩小图像和AI放大的处理中引起的伪像,而无需向现有的AI缩小装置和现有的AI放大装置添加的另外的设备(硬件)、改变现有的硬件和另外的成本。
在下文中,将参照附图详细描述根据本公开实施例的AI缩小装置和AI放大装置。
图6是例示了根据本公开的实施例的训练第一DNN和第二DNN的方法的流程图。
在第一DNN的训练过程期间,第二DNN的若干条设置信息(例如,第二DNN的第二参数)是固定的,并且第一DNN的若干条设置信息中的至少一条(例如,第一DNN的第一参数)可以被更新。此外,在第二DNN的训练过程期间,第一DNN的若干条设置信息是固定的,并且第二DNN的若干条设置信息中的至少一条可以被更新。
参照图6,根据本公开实施例的训练装置可以通过对原始图像应用移动或平移来生成一个或多个平移图像(S610)。
这里,原始图像可以包括构成视频的至少一个帧图像。此外,可以根据意图通过AI缩小获得的分辨率来确定平移。例如,当意图将分辨率降低到该分辨率的1/n倍时,对原始图像中的每n个像素中的一个像素进行采样,并且可以生成与原始图像没有像素移动的一个图像和与原始图像具有像素移动的n-1个平移图像。因此,可以获得由于没有对原始图像应用平移而造成的一个原始图像(没有像素移动的图像),以及由于对原始图像应用n-1个平移而造成的n-1个平移图像,。
例如,在n=4的情况下,总共生成四个图像,四个图像包括没有像素移动的原始图像和通过分别在右、左和对角线方向上将原始图像移动多达一个像素而获得的三个平移图像(第一、第二和第三平移图像)。在执行训练之前,训练装置可以对第一DNN和第二DNN的DNN设置信息执行初始设置。第一DNN和第二DNN可以各自根据预设的DNN设置信息来运算,并且DNN设置信息可以包括关于第一DNN和第二DNN中的卷积层的数量、每个卷积层的滤波器内核的数量、每个卷积层的滤波器内核大小或每个滤波器内核的参数(第一参数和第二参数)中的至少一个的信息。
训练装置可以通过对没有像素移动的原始图像和一个或多个平移图像中的每个执行具有第一DNN的第一参数的运算来获得多个低分辨率图像(S620)。
训练装置可以根据初始设置的DNN设置信息来设置第一DNN的第一参数的值。如参照图3所述,第一DNN可以对没有像素移动的原始图像和一个或多个平移图像中的每个执行具有设置的第一参数的卷积运算、激活层的运算等。因此,第一DNN输出通过对没有像素移动的原始图像和一个或多个平移图像进行AI缩小而获得的多个低分辨率图像。
训练装置可以通过对从第一DNN获得的多个低分辨率图像中的每个执行具有第二DNN的第二参数的运算来获得多个高分辨率图像(S630)。
训练装置可以根据初始设置的DNN设置信息来设置第二DNN的第二参数的值。如参照图5所述,第二DNN可以对多个低分辨率图像中的每个执行具有设置的第二参数的卷积运算、激活层的运算等。因此,第二DNN输出通过对多个低分辨率图像进行AI放大而获得的多个高分辨率图像。
训练装置可以通过对多个高分辨率图像应用反向移动或重新平移来生成多个恢复图像(或结果图像)(S640)。恢复图像(或结果图像)可以包括作为没有像素移动的原始图像的恢复图像的原始恢复图像(第一恢复图像),以及作为一个或多个平移图像的恢复图像的平移恢复图像(第二恢复图像)。
这里,可以基于操作S610中应用的平移来确定重新平移。例如,重新平移可以是相对于平移的相反方向的移动。当在平移中向右做出移动时,在重新平移中可以向左做出移动,并且当在平移中向左做出移动时,在重新平移中可以向右做出移动。此外,当在平移中做出向上移动时,可以在重新平移中做出向下移动,并且当在平移中做出向下移动时,可以在重新平移中做出向上移动。然而,本公开不限于此。
训练装置可以获得原始图像和每个恢复图像(原始恢复图像和平移恢复图像)之间的第一差异信息(内容损失信息(Lc)),以及多个恢复图像(作为没有像素移动的原始图像的恢复图像的原始恢复图像,以及作为一个或多个平移图像的恢复图像的平移恢复图像)之间的第二差异信息(总体损失信息(Le))(S650)。
训练装置可以基于第一差异信息和第二差异信息更新第一DNN的第一参数或第二DNN的第二参数中的至少一个(S660)。
例如,基于第一差异信息和第二差异信息,训练装置可以确定最终损失信息,并且可以朝着减少或最小化最终损失信息来更新第一参数或第二参数中的至少一个。
在第一DNN的训练过程期间,第二DNN的第二参数是固定的,并且第一DNN的第一参数中的至少一个可以被更新。此外,在第二DNN的训练过程期间,第一DNN的第一参数是固定的,而第二DNN的第二参数中的至少一个可以被更新。可替代地,第一DNN的第一参数和第二DNN的第二参数可以一起更新。
根据本公开的实施例,图6中所示的训练第一DNN和第二DNN的方法将在下面参考图7和图8更详细地描述。
图7A至7E是描述了根据本公开的实施例的训练用于AI缩小的第一DNN和用于AI放大的第二DNN的方法的参照图。
图7A至图7E中的第一DNN 730可以对应于图3中的第一DNN 300,并且图7A至图7E中的第二DNN 750可以对应于图5中的第二DNN 500。
在第一DNN 730的训练过程期间,第二DNN 750的若干条设置信息(第二参数)是固定的,并且第一DNN 730的若干条设置信息(第一参数)中的至少一条被更新。在第二DNN750的训练过程期间,第一DNN 730的若干条设置信息(第一参数)是固定的,并且第二DNN750的若干条设置信息(第二参数)中的至少一条被更新。可替换地,第一DNN 730的若干条设置信息(第一参数)和第二DNN 750的若干条设置信息(第二参数)不是固定的,并且第一DNN 730的若干条设置信息(第一参数)和第二DNN 750的若干条设置信息(第二参数)可以朝着减少或最小化最终损失信息一起被更新。然而,本公开不限于此。
如以上参照图1所述,根据本公开的实施例,通过AI缩小处理而AI缩小的原始图像通过AI放大处理被恢复为第三图像145,并且需要AI缩小处理和AI放大处理之间的关联来保持作为AI放大的结果获得的第三图像145和原始图像105之间的相似性。也就是说,在AI缩小处理中损失的信息需要在AI放大处理期间恢复,为此,要求第一DNN 730和第二DNN750的联合训练。
在图7A中,原始训练图像710是由AI缩小定为目标的图像。原始训练图像710可以包括包含多个帧的移动图像或视频。通过对原始训练图像710应用移动或平移715,可以生成包括没有像素移动的原始图像和一个或多个平移图像的多个图像720。这里,图像720的数量可以根据意图通过AI缩小获得的分辨率来确定。在图7A中,将描述一个示例,在该示例中,意图通过AI缩小将分辨率降低到该分辨率的1/4倍。
当意图通过AI缩小将分辨率降低到该分辨率的1/4倍时,可以生成四个图像720。也就是说,四个图像720可以包括一个原始训练图像(没有像素移动的图像)721和三个平移图像722、723和724。例如,三个平移图像722、723和724可以包括通过将包括在原始训练图像710中的像素向右移动多达一个像素而获得的图像(第一平移图像722)、通过将原始训练图像710中包括的像素向下移动多达一个像素而获得的图像(第二平移图像723)、以及通过将原始训练图像710中包括的像素向右移动多达一个像素并向下移动多达一个像素而获得的图像(第三平移图像724)
原始训练图像721和第一至第三平移图像722、723和724可以被输入到第一DNN730。当原始训练图像721和第一至第三平移图像722、723和724被输入到第一DNN 730时,第一DNN 730可以输出通过对原始训练图像721和第一至第三平移图像722、723和724进行AI缩小而获得的四个低分辨率图像740。
对于第一DNN 730和第二DNN 750的联合训练,从第一DNN 730获得的四个低分辨率图像740可以被输入到第二DNN 750。当从第一DNN 730获得的四个低分辨率图像740被输入到第二DNN 750时,第二DNN 750可以输出通过对四个低分辨率图像740进行AI放大而获得的四个高分辨率图像760。
可以通过对从第二DNN获得的四个高分辨率图像760应用反向移动或重新平移765来生成四个恢复图像(或结果图像)770。这里,重新平移765可以是在相对于应用于原始训练图像的平移715的相反方向上的移动。例如,对应于原始训练图像721的第一高分辨率图像761可以照原样变成第一恢复图像771。此外,对应于第一平移图像722的第二高分辨率图像762可以被重新平移成第二恢复图像772,该第二恢复图像772是通过将第二高分辨率图像762中包括的像素向左移动多达一个像素而获得的。对应于第二平移图像723的第三高分辨率图像763可以被重新平移为第三恢复图像773,第三恢复图像773通过将包括在第三高分辨率图像763中的像素向上移动多达一个像素而获得。对应于第三平移图像724的第四高分辨率图像764可以被重新平移成第四恢复图像774,第四恢复图像774是通过将包括在第四高分辨率图像764中的像素向左移动多达一个像素并向上移动多达一个像素而获得的。这里,第一恢复图像771是作为没有像素移动的原始图像的恢复图像的原始恢复图像,并且第二、第三和第四恢复图像772、773和774是作为一个或多个平移图像的恢复图像的平移恢复图像。随着训练的进行,可以确定内容损失信息(Lc)和总体损失信息(Le)。可以基于原始训练图像710和多个恢复图像770中的每个之间的差异信息来确定内容损失信息(Lc)。内容损失信息(Lc)是指示多个恢复图像770相对于原始训练图像710的相似性的程度的信息。随着内容损失信息(Lc)减少,多个恢复图像770更类似于原始训练图像710。
内容损失信息(Lc)可以由下面的等式1表示。
[等式1]
Lc=MSE(xi,y)+…+MSE(xn,y)
内容损失信息(Lc)可以由通过对原始训练图像和多个恢复图像中的每个之间的均方误差求和而获得的值来表示。在等式1中,x1,x2,...和xn分别表示多个恢复图像,并且y表示原始训练图像。
例如,在图7A的情况下,内容损失信息(Lc)可以被确定为通过将第一恢复图像771(x1)和原始训练图像710(y)之间的第一均方误差、第二恢复图像772(x2)和原始训练图像710(y)之间的第二均方误差、第三恢复图像773(x3)和原始训练图像710(y)之间的第三均方误差、和第四恢复图像774(x4)和原始训练图像710(y)之间的第四均方误差进行求和来获得的值。
此外,可以基于多个恢复图像770之间的差异信息来确定总体损失信息(Le)。将参照图8详细描述总体损失信息(Le)。
图8是描述了根据本公开的实施例的总体损失信息的参照图。
参照图8,原始图像810中包括的像素向右移动多达一个像素,从而生成平移图像820。这里,平移图像820的生成类似于当原始图像810被假设为t帧图像时,生成t+1帧图像。也就是说,可以认为原始图像810对应于t帧图像,并且平移图像820对应于t+1帧图像。
为了将原始图像810和平移图像820中的每个的分辨率降低到其分辨率的1/4倍,可以执行像素采样。通过对原始图像810执行像素采样,原始图像810被缩小到第一低分辨率图像815,并且通过对平移图像820执行像素采样,平移图像820被缩小到第二低分辨率图像825。此外,第一低分辨率图像815被放大4倍成第一高分辨率图像817,并且第二低分辨率图像825被放大4倍成第二高分辨率图像827。
此外,第二高分辨率图像827中包括的像素向左移动多达一个像素,从而生成恢复图像829。这里,通过移动像素来生成恢复图像829类似于将t+1帧图像拟合到t帧图像的移动补偿处理。然而,第一高分辨率图像817不同于恢复图像829,因此,导致伪像。
参照图8,当原始图像810和平移图像820被缩小时,因为用于像素采样的像素信息中有差异,所以损失信息中有差异,因此,即使通过放大和重新平移来恢复每个图像,每条恢复图像信息也是不同的。因此,为了移除伪像,恢复图像(即,817和829)需要彼此相同,并且需要减少基于多个恢复图像之间的差异信息确定的总体损失信息(Le)。也就是说,总体损失信息(Le)是指示多个恢复图像相对于彼此的相似性的程度的信息,并且随着总体损失信息减少,恢复图像变得彼此更加相似,并且伪像减少。
再次参照图7A,总体损失信息可以由下面的等式2表示。
[等式2]
Le=MSE(xi,x2)+MSE(xi,x3)+…+MSE(xn-1,xn)
总体损失信息(Le)可以由通过对多个恢复图像之间的均方误差求和而获得的值来表示。在等式2中,x1、x2、...和xn分别表示多个恢复图像。
例如,在图7A的情况下,总体损失信息(Le)可以被确定为通过将第一恢复图像771(x1)和第二恢复图像772(x2)之间的均方误差、第一恢复图像771(x1)和第三恢复图像773(x3)之间的均方误差、第一恢复图像771(x1)和第四恢复图像774(x4)之间的均方误差、第二恢复图像772(x2)和第三恢复图像773(x3)之间的均方误差、第二恢复图像772(x2)和第四恢复图像774(x4)之间的均方误差,以及第三恢复图像773(x3)和第四恢复图像774(x4)之间的均方误差进行求和而获得的值。
参照图7A,第一DNN 730和第二DNN 750可以朝着减少或最小化基于内容损失信息(Lc)和总体损失信息(Le)确定的最终损失信息来更新其参数。此外,如图7B所示,当训练第一DNN 730的第一参数时,第二DNN 750的第二参数是固定的,因此,第二DNN 750可以用作固定的放大器。例如,通过将平移715应用于原始训练图像710来生成多个平移图像722、723和724,并且一个原始训练图像(没有像素移动的图像)721和多个平移图像722、723和724被输入到第一DNN 730,从而输出AI缩小的低分辨率图像740。输出的低分辨率图像740被输入到第二参数被固定的第二DNN 750,从而输出AI放大的高分辨率图像760。通过将重新平移765应用于AI放大的高分辨率图像760来生成恢复图像770。内容损失信息(Lc)和总体损失信息(Le)可以基于原始训练图像710和恢复图像770来确定,并且第一DNN 730的第一参数可以朝着最小化基于内容损失信息(Lc)和总体损失信息(Le)确定的最终损失信息而被更新。
当第一DNN 730的训练完成时,如图7C所示确定第一DNN 730的第一参数的最终值,并且当原始图像105被输入到训练完成的第一DNN 730时,从原始图像105被AI缩小的低分辨率图像(即,第一图像115)可以被输出。
此外,如图7D所示,当训练第二DNN 750的第二参数时,第一DNN 730的第一参数是固定的,因此,第一DNN 730可以用作固定的缩小器。例如,通过将平移715应用于原始训练图像710来生成多个平移图像722、723和724,一个原始训练图像721(没有像素移动的图像)和多个平移图像722、723和724被输入到第一参数被固定的第一DNN 730,从而输出AI缩小的低分辨率图像740。输出的低分辨率图像740被输入到第二DNN 750,从而输出AI放大的高分辨率图像760。通过将重新平移765应用于AI放大的高分辨率图像760来生成恢复图像770。可以基于原始训练图像710和恢复图像770来确定内容损失信息(Lc)和总体损失信息(Le),并且可以朝着最小化基于内容损失信息(Lc)和总体损失信息(Le)确定的最终损失信息来更新第二DNN 750的第二参数。
当第二DNN 750的训练完成时,如图7E所示确定第二DNN 750的第二参数的最终值,并且当第二图像135被输入到训练完成的第二DNN 750时,可以输出从第二图像135被AI放大的高分辨率图像(即,第三图像145)。
为了便于描述,已经通过以当第一DNN 730将分辨率降低到该分辨率的1/4倍并且第二DNN 750将分辨率提高到该分辨率的4倍时第一DNN 730和第二DNN 750的训练方法作为示例,进行了关于图7A、图7B、图7D和图8的描述。然而,本公开不限于此,根据第一DNN730降低分辨率的程度或第二DNN 750提高分辨率的程度,平移图像的数量、恢复图像的数量、内容损失信息、总体损失信息等可以变化。
图9是例示了根据本公开实施例的AI缩小装置的操作方法的流程图。
参照图9,根据本公开实施例的AI缩小装置200通过对原始图像执行具有包括在第一DNN中的第一参数的运算,获得从原始图像被AI缩小的第一图像(S910)。
根据本公开实施例的第一DNN是用于对图像进行AI缩小的网络、对应于用于对图像进行AI放大的第二DNN、并且可以是与第二DNN联合训练的网络。当第一DNN和第二DNN被联合训练时,包括在第一DNN中的第一参数被确定为是与包括在第二DNN中的第二参数相关联的值。
例如,如参照图7A至图7E所述,根据本公开实施例的第一DNN与第二DNN联合训练,当在训练第一DNN和第二DNN的过程期间更新了第一DNN的第一参数时,从第一DNN输出的多个低分辨率图像变化,并且当输入到第二DNN的多个低分辨率图像变化时,从第二DNN输出的多个高分辨率图像也变化,并且恢复图像也变化。因此,新确定了用于训练的损失信息(例如,内容损失信息(Lc)和总体损失信息(Le))。因此,朝着最小化新确定的损失信息来更新第二DNN的第二参数。因此,已被训练的第一DNN的第一参数的值与已被训练的第二DNN的第二参数的值相关联。
此外,因为第一DNN的第一参数和第二DNN的第二参数在训练过程期间朝着最小化总体损失信息被更新,所以通过使用训练完成的第一DNN被AI缩小并且随后通过使用训练完成的第二DNN被AI放大的恢复图像可以是移除伪像的图像。
AI缩小装置200可以对获得的第一图像进行编码(S920)。
AI缩小装置200可以对第一图像进行编码,并向AI放大装置发送编码的第一图像。
图10是例示了根据本公开实施例的AI放大装置的操作方法的流程图。
参照图10,根据本公开实施例的AI放大装置400可以获得与第一图像对应的图像数据(S1010)。
这里,第一图像可以是通过使用第一DNN从原始图像被AI缩小的图像,并且图像数据可以作为对第一图像进行编码的结果而生成。AI放大装置400可以接收比特流格式的图像数据。
AI放大装置400可以基于图像数据恢复与第一图像对应的第二图像(S1020)。
AI放大装置400可以接收图像数据和AI数据,可以通过使用图像数据获得第二图像的残差数据,并可以通过使用预测数据和残差数据恢复第二图像。
AI放大装置400可以将恢复的第二图像输入到第二DNN,并对输入到第二DNN的第二图像执行具有包括在第二DNN中的第二参数的运算,从而获得从第二图像被AI放大并已经历了伪像的移除的第三图像(S1030)。
根据本公开实施例的第二DNN是用于对图像进行AI放大的网络,对应于用于对图像进行AI缩小的第一DNN,并且是与第一DNN联合训练的网络。当第一DNN和第二DNN被联合训练时,包括在第二DNN中的第二参数被确定为是与被包括在第一DNN中的第一参数相关联的值。
例如,如参考图7A至图7E所述,根据本公开实施例的第一DNN与第二DNN联合训练,当在训练第一DNN和第二DNN的过程期间更新第一DNN的第一参数时,从第一DNN输出的多个低分辨率图像变化,并且当输入到第二DNN的多个低分辨率图像变化时,从第二DNN输出的多个高分辨率图像也变化,并且恢复图像也变化。因此,新确定了用于训练的损失信息(例如,内容损失信息(Lc)和总体损失信息(le))。因此,朝着最小化新确定的损失信息来更新第二DNN的第二参数。因此,已被训练的第一DNN的第一参数的值与已被训练的第二DNN的第二参数的值相关联。
此外,因为第一DNN的第一参数和第二DNN的第二参数在训练过程期间朝着最小化总体损失信息被更新,所以通过使用训练完成的第一DNN进行AI缩小并且随后通过使用训练完成的第二DNN进行AI放大的图像可以是移除伪像的图像。
图11是例示了根据本公开实施例的AI缩小装置的配置的框图。
参照图11,根据本公开实施例的AI缩小装置1100可以包括处理器1110、存储器1120和通信单元1130。
根据本公开实施例的处理器1110可以整体控制AI缩小装置1100。根据本公开实施例的处理器1110可以执行存储在存储器1120中的一个或多个程序。
根据本公开实施例的存储器1120可以存储用于驱动和控制AI缩小设备1100的各种数据、程序或应用。存储在存储器1120中的程序可以包括一个或多个指令。存储在存储器1120中的程序(一个或多个指令)或应用可以由处理器1110执行。
根据本公开实施例的处理器1110可以执行参照图2描述的AI编码器210和数据处理单元232的运算或者参照图9描述的AI缩小装置200的运算中的至少一个。
例如,处理器1110可以通过对原始图像执行具有包括在第一DNN 300中的第一参数的运算来获得从原始图像被AI缩小的第一图像,并可以对第一图像进行编码。
根据本公开实施例的通信单元1130可以对应于图2的通信单元234。因此,关于图11,省略了参照图2给出的相同描述。
根据本公开实施例的通信单元1130可以通过处理器1110的控制向外部装置(例如,AI放大装置)发送数据或信号,并从外部装置接收数据或信号。通信单元1130可以通过网络向AI放大装置发送AI编码的数据。
图12是例示了根据本公开实施例的AI放大装置的配置的框图。
参照图12,根据本公开实施例的AI放大装置1200可以包括通信单元1210、处理器1220、存储器1230和显示器1240。
根据本公开实施例的通信单元1210可以对应于图4的通信单元412。因此,关于图12,省略了参照图4给出的相同描述。
根据本公开实施例的通信单元1210可以通过处理器1220的控制向外部装置(例如,AI缩小装置)发送数据或信号,并从外部装置接收数据或信号。通信单元1210可以通过网络从AI缩小装置接收AI编码的数据。
通信单元1210可以包括与AI放大装置1200的能力和结构对应的无线局域网(LAN)(例如,Wi-Fi)适配器、蓝牙适配器和有线以太网适配器中的一个。此外,通信单元1210可以包括无线LAN适配器、蓝牙适配器和有线以太网适配器的组合。
根据本公开实施例的处理器1220可以整体控制AI放大装置1200。根据本公开实施例的处理器1220可以执行存储在存储器1230中的一个或多个程序。
根据本公开实施例的存储器1230可以存储用于驱动和控制AI放大装置1200的各种数据、程序或应用。存储在存储器1230中的程序可以包括一个或多个指令。存储在存储器1230中的程序(一个或多个指令)或应用可以由处理器1220执行。
根据本公开的实施例的处理器1220可以执行参照图4描述的接收器410和AI解码器430的运算中的至少一个,或者参照图10描述的AI放大装置400的运算。
例如,处理器1220可以基于从AI缩小装置接收的图像数据获得第二图像,并可以通过对第二图像执行具有包括在第二DNN中的第二参数的运算来对第二图像执行AI放大和伪像移除,从而获得第三图像。
根据本公开实施例的显示器1240通过转换由处理器1220处理的图像信号、数据信号、OSD信号、控制信号等来生成驱动信号。显示器1240可以由等离子体显示面板(PDP)、液晶显示器(LCD)、有机发光二极管(OLED)显示器、柔性显示器等实现,并且也可以由三维(3D)显示器实现。此外,显示器1240可以包括触摸屏,因此除了用作输出设备之外,还能够用作输入设备。显示器1240可以显示被AI放大的并且已经经历了移除伪像的第三图像。
图13是例示了根据本公开的实施例的用于训练第一DNN和第二DNN的训练装置的配置的框图。
参照图13,根据本公开实施例的训练设备1300可以包括通信单元1330、处理器1310和存储器1320。根据本公开实施例的处理器1310可以整体控制训练装置1300。根据本公开实施例的处理器1310可以执行存储在存储器1320中的一个或多个程序。
根据本公开实施例的存储器1320可以存储用于驱动和控制训练装置1300的各种数据、程序或应用。存储在存储器1320中的程序可以包括一个或多个指令。存储在存储器1320中的程序(一个或多个指令)或应用可以由处理器1310执行。
根据本公开的实施例的处理器1310可以执行参照图6和图7描述的第一DNN和第二DNN的训练操作中的至少一个。
处理器1310可以彼此联合地训练第一DNN和第二DNN,并且当通过完成第一DNN和第二DNN的训练来确定包括在第一DNN中的第一参数的值和包括在第二DNN中的第二参数的值时,处理器1310可以将值存储在存储器1320中。
根据本公开实施例的通信单元1330可以包括允许通过LAN、广域网(WAN)、增值网络(VAN)、移动无线电通信网络、卫星通信网络或其组合进行通信的一个或多个组件。
根据本公开的实施例,通信单元1330可以向AI缩小装置1100或AI放大装置1200发送已经被训练的第一DNN和第二DNN的参数。例如,通信单元1330可以向AI缩小装置发送第一DNN的第一参数,并向AI放大装置发送第二DNN的第二参数。
分别在图11至图13中示出的AI缩小装置1100、AI放大装置1200和训练装置1300的每个框图是本公开实施例的框图。根据实际实现的AI缩小装置1100、AI放大装置1200和训练装置1300的规范,可以对框图中的相应组件执行整合、添加另外的组件或省略。也就是说,根据需要,两个或更多个组件可以被集成到一个组件中,或者一个组件可以被细分成两个或更多个组件。此外,每个块执行的功能用于描述本公开的实施例,并且其具体操作或装置不限制本公开的范围。
根据本公开实施例的AI缩小装置的操作方法、AI放大装置的操作方法以及第一DNN和第二DNN的训练方法可以以可由各种计算机装置(mean)执行的程序的形式实现,并且可以记录在计算机可读记录介质上。计算机可读记录介质可以独自或组合地包括程序指令、数据文件、数据结构等。记录在上述介质上的程序指令可以专门为本公开而设计和配置,或者可以对于计算机软件领域的普通技术人员来说是已知的和可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质,诸如CD-ROM和DVD的光介质,诸如光软盘的磁光介质,以及诸如ROM、RAM和闪存的专门配置为存储和执行程序指令的硬件设备。程序指令的示例包括由编译器做出的机器语言代码,以及可以通过使用解释器等而由计算机执行的高级语言代码。
此外,根据本公开的公开实施例的AI缩小装置的操作方法、AI放大装置的操作方法以及第一DNN和第二DNN的训练方法可以在被包括在计算机程序产品中的同时被提供。计算机程序产品可以作为商品在卖方和买方之间交易。
计算机程序产品可以包括S/W程序,和可以由计算机读取、其中存储有S/W程序的存储介质。例如,计算机程序产品可以包括以通过电子设备的制造商或通过电子市场(例如,谷歌Play商店或App商店)电子分发的S/W程序的形式的商品(例如,可下载的应用)。对于电子分发,至少一部分S/W程序可以存储在存储介质中,或者可以临时生成。在这种情况下,存储介质可以是制造商的服务器的存储介质、电子市场的服务器的存储介质或者临时存储S/W程序的中继服务器的存储介质。
在包括服务器和客户端设备的系统中,计算机程序产品可以包括服务器的存储介质和客户端设备的存储介质。可替代地,当有通信连接到服务器或客户端设备的第三设备(例如,智能手机)时,计算机程序产品可以包括第三设备的存储介质。可替代地,计算机程序产品可以包括S/W程序本身,其从服务器向客户端设备或第三设备发送,或者从第三设备向客户端设备发送。
在这种情况下,服务器、客户端设备和第三设备中的一个可以执行计算机程序产品,从而执行根据本公开的公开实施例的方法。可替代地,服务器、客户端设备和第三设备中的两个或更多个可以执行计算机程序产品,从而分散地执行根据本公开的公开实施例的方法。
例如,服务器(例如,云服务器、AI服务器等)可以执行存储在服务器中的计算机程序产品,从而控制通信地连接到服务器的客户端设备来执行根据本公开的公开的实施例的方法。
迄今为止,虽然已经详细描述了本公开的实施例,但是本公开的范围不限于此,并且本领域普通技术人员通过使用在所附权利要求中限定的本公开的基本构思而做出的各种改变和修改也落入本公开的范围内。

Claims (15)

1.一种人工智能(AI)放大装置,包括:
存储器,存储一个或多个指令;以及
处理器,被配置为执行存储在存储器中的一个或多个指令,
其中,所述处理器被配置为执行一个或多个指令以:获得对应于第一图像的第二图像,第二图像是由AI缩小装置通过使用第一深度神经网络(DNN)从原始图像缩小的;以及通过使用对应于第一DNN的第二DNN放大第二图像来获得第三图像,并且
其中,第二DNN被训练为最小化原始训练图像的第一恢复图像和一个或多个平移图像的第二恢复图像之间的差异,第一恢复图像是通过对通过不将像素移动应用于原始训练图像而获得的图像执行缩小和放大而获得的,并且第二恢复图像是通过对通过将像素移动应用于原始训练图像而获得的一个或多个平移图像执行缩小和放大并随后执行重新平移而获得的。
2.根据权利要求1所述的AI放大装置,其中,第二DNN被训练以最小化基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息。
3.根据权利要求2所述的AI放大装置,其中,所述损失信息包括第一恢复图像和第二恢复图像中的每个与原始训练图像之间的第一差异信息。
4.根据权利要求2所述的AI放大装置,其中,所述损失信息包括第一恢复图像和第二恢复图像之间的第二差异信息。
5.根据权利要求1所述的AI放大装置,其中,第二DNN接收第二图像中特定时间点的低分辨率单帧图像作为输入,并输出第三图像中特定时间点的高分辨率单帧图像。
6.根据权利要求1所述的AI放大装置,其中,第二DNN包括与第一DNN联合训练并且基于从第一DNN获得的图像训练的网络。
7.一种人工智能(AI)缩小装置,包括:
存储器,存储一个或多个指令;以及
处理器,被配置为执行存储在存储器中的一个或多个指令,
其中,所述处理器被配置为执行一个或多个指令以:通过使用第一深度神经网络(DNN)获得从原始图像缩小的第一图像;并且执行控制以通过网络向AI放大装置发送第一图像,并且
其中,第一DNN被训练为最小化原始训练图像的第一恢复图像和一个或多个平移图像的第二恢复图像之间的差异,第一恢复图像是通过对通过不将像素移动应用于原始训练图像而获得的图像执行缩小和放大而获得的,并且第二恢复图像是通过对通过将像素移动应用于原始训练图像而获得的一个或多个平移图像执行缩小和放大并随后执行重新平移而获得的。
8.根据权利要求7所述的AI缩小装置,其中,第一DNN被训练为最小化基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息。
9.根据权利要求8所述的AI缩小装置,其中,所述损失信息包括第一恢复图像和第二恢复图像中的每个与原始训练图像之间的第一差异信息。
10.根据权利要求8所述的AI缩小装置,其中,所述损失信息包括第一恢复图像和第二恢复图像之间的第二差异信息。
11.一种训练用于将高分辨率图像缩小为低分辨率图像的第一深度神经网络(DNN)或用于将低分辨率图像放大为高分辨率图像的第二DNN的方法,该方法包括:
通过将平移应用于原始训练图像来生成一个或多个平移图像;
通过以第一DNN对原始训练图像和一个或多个平移图像执行操作,获得对应于原始训练图像和一个或多个平移图像的多个低分辨率图像;
通过以第二DNN对多个低分辨率图像中的每个执行操作,获得对应于多个低分辨率图像的多个高分辨率图像;
通过将重新平移应用于多个高分辨率图像当中对应于一个或多个平移图像的高分辨率图像来获得第二恢复图像;以及
通过使用基于原始训练图像、原始训练图像的第一恢复图像或一个或多个平移图像的第二恢复图像中的至少一个获得的损失信息来更新第一DNN的第一参数或第二DNN的第二参数中的至少一个。
12.根据权利要求11所述的方法,其中,所述损失信息包括第一恢复图像和第二恢复图像中的每个与原始训练图像之间的第一差异信息。
13.根据权利要求11所述的方法,其中,所述损失信息包括第一恢复图像和第二恢复图像之间的第二差异信息。
14.根据权利要求11所述的方法,其中,第一DNN的第一参数或第二DNN的第二参数中的至少一个的更新包括朝着最小化损失信息来更新第一DNN的第一参数或第二DNN的第二参数中的至少一个。
15.根据权利要求11所述的方法,其中,第二DNN包括与第一DNN联合训练并且基于从第一DNN获得的图像训练的网络。
CN202180028641.6A 2020-04-14 2021-01-11 Ai缩小装置及其操作方法,以及ai放大装置及其操作方法 Pending CN115398468A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2020-0045233 2020-04-14
KR1020200045233A KR20210127412A (ko) 2020-04-14 2020-04-14 Ai 다운스케일 장치 및 그 동작방법, 및 ai 업스케일 장치 및 그 동작방법
PCT/KR2021/000346 WO2021210761A1 (ko) 2020-04-14 2021-01-11 Ai 다운스케일 장치 및 그 동작방법, 및 ai 업스케일 장치 및 그 동작방법

Publications (1)

Publication Number Publication Date
CN115398468A true CN115398468A (zh) 2022-11-25

Family

ID=78085169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180028641.6A Pending CN115398468A (zh) 2020-04-14 2021-01-11 Ai缩小装置及其操作方法,以及ai放大装置及其操作方法

Country Status (5)

Country Link
US (1) US11989852B2 (zh)
EP (1) EP4044105A4 (zh)
KR (1) KR20210127412A (zh)
CN (1) CN115398468A (zh)
WO (1) WO2021210761A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230303B2 (en) 2013-04-16 2016-01-05 The United States Of America, As Represented By The Secretary Of The Navy Multi-frame super-resolution of image sequence with arbitrary motion patterns
CA2997193C (en) * 2015-09-03 2021-04-06 Mediatek Inc. Method and apparatus of neural network based processing in video coding
KR101974261B1 (ko) 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
KR20180100976A (ko) * 2017-03-03 2018-09-12 한국전자통신연구원 딥 신경망 기반 블러 영상 학습을 이용한 영상 부호화/복호화 방법 및 장치
KR101885855B1 (ko) 2017-03-30 2018-08-07 단국대학교 산학협력단 고해상도 추정 기법을 활용한 영상 신호 전송
KR20190062283A (ko) 2017-11-28 2019-06-05 한국전자통신연구원 선택적 손실 함수를 이용한 생성적 적대 네트워크의 학습을 위한 방법 및 장치
KR102179436B1 (ko) 2018-04-24 2020-11-16 주식회사 지디에프랩 변화 매크로블록 추출 기법을 이용한 동영상 화질 개선 시스템

Also Published As

Publication number Publication date
US11989852B2 (en) 2024-05-21
EP4044105A4 (en) 2023-02-01
US20230177638A1 (en) 2023-06-08
WO2021210761A1 (ko) 2021-10-21
KR20210127412A (ko) 2021-10-22
EP4044105A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
CN108810571B (zh) 编码和解码二维点云的方法和设备
KR102263625B1 (ko) 티어드 신호 품질 계층에서의 모션 맵들 및 다른 보조 맵들의 업샘플링 및 다운샘플링
KR102500761B1 (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
CN112703738A (zh) 针对信号增强编码的上采样
JP2008091979A (ja) 画像高画質化装置、及びその方法、並びに画像表示装置
CN115486068A (zh) 用于视频编码中基于深度神经网络的帧间预测的方法和设备
CN102497545B (zh) 内容自适应和艺术可引导可缩放视频编码
US20240048738A1 (en) Methods, apparatuses, computer programs and computer-readable media for processing configuration data
CN112840650A (zh) 人工智能(ai)编码装置及其操作方法和ai解码装置及其操作方法
CN106851399B (zh) 视频分辨率提升方法及装置
WO2024032331A9 (zh) 图像处理方法及装置、电子设备、存储介质
CN113409203A (zh) 图像模糊程度确定方法、数据集构建方法与去模糊方法
JP2012257120A (ja) 超解像補助情報生成装置、符号化装置、復号装置、及びこれらのプログラム
JP2009111969A (ja) 分割映像処理装置および方法、または制御因子計算装置
JP4756665B2 (ja) 画像圧縮装置、復元装置、圧縮方法、復元方法及びプログラム
CN115398468A (zh) Ai缩小装置及其操作方法,以及ai放大装置及其操作方法
CN115375539A (zh) 图像分辨率增强、多帧图像超分辨率系统和方法
US9788025B2 (en) Reproduction device, encoding device, and reproduction method
US20090074054A1 (en) Resolution-converting apparatus, resolution-converting method and previewing apparatus
JP2007288761A (ja) 画像配信システム、画像処理装置および方法、配信装置および方法、並びにプログラム
CN113596450A (zh) 视频图像压缩方法、解压缩方法、处理方法及装置、设备
KR100810391B1 (ko) 움직임 보간을 이용한 프레임 레이트 변환 방법
JP4505729B2 (ja) 画像処理装置、画像処理方法、プログラム、および記録媒体
JP5945816B2 (ja) 映像処理システム
US20240163477A1 (en) 3d prediction method for video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination