CN113994691A - 用于对图像执行人工智能编码和人工智能解码的设备和方法 - Google Patents

用于对图像执行人工智能编码和人工智能解码的设备和方法 Download PDF

Info

Publication number
CN113994691A
CN113994691A CN202080041254.1A CN202080041254A CN113994691A CN 113994691 A CN113994691 A CN 113994691A CN 202080041254 A CN202080041254 A CN 202080041254A CN 113994691 A CN113994691 A CN 113994691A
Authority
CN
China
Prior art keywords
image
artifact
information
data
frequency transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080041254.1A
Other languages
English (en)
Inventor
杨喜喆
李钟硕
朴永五
崔光杓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113994691A publication Critical patent/CN113994691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了与人工智能(AI)缩小和放大有关的方法和设备以及与减少伪影问题有关的技术。一些实施例包括:通过深度神经网络(DNN)缩小原始图像;并且基于频率变换系数从原始图像产生伪影信息,其中,所述伪影信息表示第一图像中的包括第一图像中的伪影的区域。可以基于伪影信息执行后处理以改变第一图像中的像素,从而减少伪影的影响。

Description

用于对图像执行人工智能编码和人工智能解码的设备和方法
技术领域
本公开涉及图像处理。更具体地,本公开涉及一种用于基于人工智能(AI)对图像进行编码和解码的方法和设备。
背景技术
在图像基于预设的数据压缩标准(例如,运动图象专家组(MPEG)标准)被编解码器编码之后,图像以比特流的形式存储在记录介质中或通过通信信道传输。
随着能够再现和存储高分辨率/高清晰度图像的硬件的开发和供应,对能够有效地对高分辨率/高清晰度图像进行编码和解码的编解码器的需求正在增加。
发明内容
问题的解决方案
根据本公开的实施例的用于对图像进行人工智能(AI)编码和AI解码的方法和设备旨在基于AI对图像进行编码和解码,以便实现低比特率。
此外,根据本公开的实施例的用于对图像进行人工智能(AI)编码和AI解码的方法和设备旨在通过去除图像中的伪影来增强图像的质量。
另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过实践本公开的所呈现的实施例来学习。
本文公开了一种人工智能(AI)编码设备,包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的所述一个或更多个指令以执行以下操作:使用用于缩小的深度神经网络(DNN)缩小原始图像以获得第一图像,其中,所述原始图像包括多个块;基于所述原始图像的多个频率变换系数估计第一图像的伪影图,其中,在所述伪影图中通过第一像素值指示存在伪影并且在所述伪影图中通过第二像素值指示不存在伪影;基于所述多个频率变换系数产生表示第一图像中的包括伪影的第一区域的伪影信息;基于所述伪影图对第一图像进行后处理以获得后处理的第一图像,并且对后处理的第一图像进行编码以获得图像数据。
在AI编码设备的一些实施例中,所述伪影图具有预设尺寸。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:对所述多个块中的第一块执行频率变换以产生与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,基于第二多个频率变换系数的分布确定是否满足标准,以及当满足所述标准时产生所述伪影图,其中,所述伪影图中的第一像素值表示第二多个频率变换系数中的每个频率变换系数的程度值,多个程度度值中的每个程度值与所述多个频率变换系数中的一个频率变换系数对应。
在AI编码设备的一些实施例中,当不满足所述标准时,所述伪影图包括多个程度值,并且所述多个程度值中的每个程度值等于第二像素值。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于所述伪影图对第一图像执行形态学处理、平滑处理或无缝处理。
在AI编码设备的一些实施例中,所述原始图像是视频序列中的多个原始图像中的最近图像,并且所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于对所述伪影图与所述视频序列的所述多个原始图像中的先前原始图像的至少一个第二伪影图进行比较来对第一图像进行后处理。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以通过以下操作对第一图像进行后处理:确定N个先前伪影图中的K个或更多个先前伪影图在第二多个频率变换系数的第一位置索引处是否与第一位置索引处的所述伪影图不一致,以及当K个或更多个先前伪影图在第一位置索引处与所述伪影图不一致时,改变第一块的第一像素值,其中,当第一位置索引处的所述伪影图的第一像素值与第一位置索引处的K个或更多个先前伪影图中的每个先前伪影图的第一像素值不同时,第一先前伪影图与所述伪影图不一致。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:对所述多个块中的第一块执行频率变换以产生与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,计算第二多个频率变换系数的第二位置索引处的第一频率变换系数和与至少一个先前原始图像的第二块相关联的第三多个频率变换系数的第二位置索引处的第二频率变换系数之间的绝对差之和(SAD),其中,第二块与第一块同位,确定计算的SAD是否在预设范围内,并且当计算的SAD不在所述预设范围内时,通过改变第一块的第一像素值来对第一图像进行后处理。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于所述伪影图并且基于所述原始图像的运动矢量或所述原始图像的光流中的至少一个对第一图像进行后处理。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:通过基于所述伪影信息将滤波器应用于第一区域来对第一图像进行后处理。
在AI编码设备的一些实施例中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于所述伪影信息,将滤波器应用于所述原始图像的与第一图像中的第一区域对应的第二区域,以产生包括第二像素值的缩小的区域;以及将第一图像中包括所述伪影的第一区域中的第三像素值改变为缩小的区域的第二像素值。
在AI编码设备的一些实施例中,所述滤波器包括高斯滤波器或低通滤波器中的至少一个,并且所述处理还被配置为执行所述一个或更多个指令以执行以下操作:对所述多个块中的第一块执行频率变换以产生与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,以及基于第二多个频率变换系数中的位于高频区域中的变换系数的最大值来确定低通滤波器的截止频率。
在AI编码设备的一些实施例中,所述滤波器包括双三次滤波器、双线性滤波器或Lanczos滤波器中的至少一个。
在AI编码设备的一些实施例中,当满足第一条件、第二条件、第三条件或第四条件中的一个或更多个时,满足所述标准,第一块包括DC频率变换系数、低频区域和高频区域,当高频区域上的第二多个频率变换系数的第一能量值的第一总和超过低频区域上的第二多个频率变换系数的第二能量值的第二总和时,满足第一条件,其中,第二总和的缩放是第一预定缩放,当包括在高频区域上的第二多个频率变换系数的第二频率变换系数的第三位置索引处的第一最大能量值和位于第三位置索引周围的第四位置索引处的频率变换系数的能量值的第三总和超过包括在低频区域上的第二多个频率变换系数的第三频率变换系数的第四位置索引处的第二最大能量值和位于第四位置索引周围的频率变换系数的能量值的第四总和时,满足第二条件,其中,第四总和的缩放是第二预定缩放,当高频区域的第三总和超过第一总和的缩放版本时,满足第三条件,其中,第一总和的缩放是第三预定缩放,或者当频率变换系数具有超过预设值的能量的次数小于阈值数量时,满足第四条件。
本文还提供了一种人工智能(AI)解码方法,包括:获得作为第一图像的编码的结果而产生的图像数据;获得包括从原始图像推导的伪影信息的AI数据,其中,所述伪影信息表示第一图像中包括伪影的区域;执行所述图像数据的解码以产生与第一图像对应的第二图像;使用用于放大的深度神经网络(DNN)来对第二图像进行AI放大以获得第三图像;以及将所述伪影信息和第三图像输出到图像质量引擎;以及由图像质量引擎通过基于所述伪影信息改变第三图像的像素值来对第三图像进行后处理,其中,所述伪影信息在编码器处基于所述原始图像的频率变换系数被确定。
本文还提供了一种人工智能AI编码方法,包括:使用用于缩小的深度神经网络(DNN)缩小原始图像以获得第一图像,其中,所述原始图像包括多个块;基于所述原始图像的多个频率变换系数估计第一图像的伪影图,其中,在所述伪影图中通过第一像素值指示存在伪影并且在所述伪影图中通过第二像素值指示不存在伪影;基于所述多个频率变换系数产生表示第一图像中的包括伪影的第一区域的伪影信息;基于所述伪影图对第一图像进行后处理以获得后处理的第一图像,并且对后处理的第一图像进行编码以获得图像数据。
本文还提供了一种人工智能(AI)解码设备,包括:存储器,存储一个或更多个指令;处理器,被配置为执行存储在存储器中的所述一个或更多个指令以执行以下操作:获得作为第一图像的编码的结果而产生的图像数据以及包括从原始图像推导的伪影信息的AI数据,其中,所述伪影信息表示第一图像中包括伪影的区域;执行所述图像数据的解码以产生与第一图像对应的第二图像;使用用于放大的深度神经网络(DNN)对第二图像进行AI放大以获得第三图像;将所述伪影信息和第三图像输出到图像质量引擎,并且由图像质量引擎通过基于所述伪影信息改变第三图像的像素值来对第三图像进行后处理,其中,所述伪影信息在编码器处基于所述原始图像的频率变换系数被确定。
在AI编码设备的一些实施例中,当第四位置索引容纳在第一块的正方形区域内时,第四位置索引在第三位置索引周围,并且正方形区域具有预定宽度。
根据本公开的实施例,一种人工智能(AI)编码设备包括:存储器,存储一个或更多个指令;处理器,被配置为执行存储在存储器中的一个或更多个指令以执行以下操作:通过用于缩小的深度神经网络(DNN)获得从原始图像被AI缩小的第一图像;基于原始图像的频率变换系数的值产生表示第一图像中包括伪影的区域的伪影信息;基于所述伪影信息执行用于改变第一图像中的像素的像素值的后处理,以及产生与对后处理的第一图像的第一编码的结果对应的图像数据和包括所述伪影信息的AI数据。
所述伪影信息可包括预设尺寸的伪影图。
所述处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:对原始图像的每个块执行频率变换以产生每个块的频率变换系数,基于原始图像的每个块的频率变换系数的分布来确定是否满足预设标准,并且基于确定的结果产生包括每个块的预设像素值的伪影图。
伪影图中包括的像素中满足预设标准的块的像素可以具有第一像素值,并且不满足预设标准的块的像素可以具有第二像素值。
所述处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:对所述伪影图执行形态学处理、平滑处理或无缝处理。
处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:对原始图像的伪影图与先前图像的至少一个伪影图进行比较,并且基于比较的结果执行改变第一图像中的像素的像素值的后处理。
处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:确定N(N为整数)个先前图像(例如,帧)的伪影图中的N个第二块中的第一像素值的块的数量是否大于或等于K(K为整数),其中,N个第二块与原始图像的伪影图中的第一像素值的第一块对应,并且基于确定的结果执行改变第一块中的像素的像素值的后处理。
处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:计算原始图像的第一块的变换系数与至少一个先前原始图像的第二块的变换系数之间的绝对差之和(SAD),其中,第二块与第一块同位,确定计算出的SAD是否在预设范围内,并且基于确定的结果执行改变第一图像中的像素的像素值的后处理,其中,第一块是基于所述伪影信息被确定的。
处理器还可以被配置为执行所述一个或更多个指令以执行以下操作:基于原始图像的运动矢量或原始图像的光流中的至少一个来执行改变第一图像中的像素的像素值的后处理。
所述后处理可以包括:基于所述伪影信息将预设滤波器应用于第一图像中包括伪影的区域。
所述后处理可以包括:基于伪影信息将滤波器应用于原始图像的与第一图像中包括伪影的区域对应的区域以产生缩小的区域;以及将第一图像中包括伪影的区域中的像素的像素值改变为缩小的区域中的像素的像素值。
所述滤波器可以包括高斯滤波器或低通滤波器中的至少一个,并且基于原始图像的与第一图像中包括伪影的区域对应的区域的频率变换系数之中的位于高频区域中的变换系数的最大值来确定低通滤波器的截止频率。
所述滤波器可以包括双三次滤波器、双线性滤波器或Lanczos滤波器中的至少一个。
所述预设标准可以基于以下比较结果中的至少一个比较结果:通过将原始图像的每个块的低频区域的变换系数的值的总和与原始图像的高频区域的变换系数的值的总和进行比较而获得的第一比较结果、通过将每个块的高频区域的变换系数的最大值和位于最大值的第一变换系数周围的变换系数的值的第一总和与低频区域的变换系数的最大值和位于最大值的第二变换系数周围的变换系数的值的总和进行比较而获得的第二比较结果、通过将高频区域的变换系数的总和与高频区域的第一总和进行比较而获得的第三比较结果、或者通过将预设值与大于预设值的值的变换系数的数量进行比较而获得的第四比较结果。
根据本公开的实施例,一种人工智能(AI)解码方法包括:获得作为第一图像的第一编码的结果而产生的图像数据和包括表示包括伪影的区域的伪影信息的AI数据;对所述图像数据执行第一解码以产生与第一图像对应的第二图像;通过用于放大的深度神经网络(DNN)获得从第二图像被AI放大的第三图像;以及将所述伪影信息和第三图像输出到图像质量引擎,其中,基于与原始图像相关的频率变换系数的值来确定所述伪影信息,并且图像质量引擎基于所述伪影信息来执行改变第三图像中的像素的像素值的后处理。
根据本公开的实施例,一种人工智能(AI)编码方法包括:通过用于缩小的深度神经网络(DNN)获得从原始图像被AI缩小的第一图像;基于与原始图像相关的频率变换系数的值,产生表示第一图像中包括伪影的区域的伪影信息;以及基于所述伪影信息执行改变第一图像中的像素的像素值的后处理;以及产生与对后处理的第一图像的第一编码的结果对应的图像数据和包括所述伪影信息的AI数据。
根据本公开的实施例,一种人工智能(AI)解码设备包括:存储器,存储一个或更多个指令;处理器,被配置为执行存储在存储器中的所述一个或更多个指令以执行以下操作:获得作为第一图像的第一编码的结果而产生的图像数据和表示包括伪影的区域的伪影信息;对图像数据执行第一解码以产生与第一图像对应的第二图像;通过用于放大的深度神经网络(DNN)获得从第二图像被AI放大的第三图像;并且将所述伪影信息和第三图像输出到图像质量引擎,其中,所述伪影信息是基于与原始图像相关的频率变换系数的值被确定的,并且图像质量引擎基于所述伪影信息来执行改变第三图像中的像素的像素值的后处理。
附图说明
通过以下结合附图的描述,本公开的特定实施例的以上和其他方面、特征和优点将更加明显,其中:
提供每个附图的简要描述以更全面地理解本说明书中所述的附图;
图1是用于描述根据实施例的人工智能(AI)编码处理和AI解码处理的示图;
图2是根据实施例的AI解码设备的配置的框图;
图3是示出用于对第二图像执行AI放大的第二深度神经网络(DNN)的示图;
图4是用于描述由卷积层进行的卷积运算的示图;
图5是示出若干条图像相关信息和若干条DNN设置信息之间的映射关系的表格;
图6是示出包括多个帧的第二图像的示图;
图7是根据实施例的AI编码设备的配置的框图;
图8是示出用于对原始图像执行AI缩小的第一DNN的示图;
图9是用于描述训练第一DNN和第二DNN的方法的示图;
图10是用于描述训练设备对第一DNN和第二DNN的训练处理的示图;
图11是用于对原始图像执行AI缩小的设备和用于对第二图像执行AI放大的设备的示图;
图12是示出根据本公开的另一实施例的AI编码设备的配置的框图;
图13是用于描述由AI编码设备执行的用于基于原始图像的频率变换系数的值确定伪影图并基于伪影图对第一图像进行后处理的方法的示图;
图14是用于描述基于包括在原始图像中的块中的变换系数的分布来确定伪影区域的方法的示图;
图15A是示出在从原始图像缩小的第一图像中出现的空间混叠伪影的示例示图;
图15B是示出在从原始图像缩小的第一图像中出现的时空混叠伪影的示例示图;
图15C是用于描述在从原始图像缩小的第一图像中出现的时空混叠伪影中由人眼识别的时空混叠伪影的示图;
图15D是用于描述在从原始图像缩小的第一图像中出现的空间混叠伪影之中由人眼识别的空间混叠伪影的示图;
图16示出以块为单位分区的原始图像和第一图像的示例。
图17A和图17B是用于示出在去除异常值之前和去除异常值之后的伪影图的示图;
图18A和图18B是用于描述根据本公开的实施例的由AI编码设备去除异常值的处理的示图;
图19A和图19B是用于描述根据本公开的另一实施例的由AI编码设备去除异常值的处理的示图;
图20A至图20F是用于描述根据本公开的实施例的通过对伪影图的后处理应用区域执行平滑处理和无缝处理来校正伪影图的方法的示图;
图21是用于描述通过将当前帧的伪影图中的块与紧邻先前帧的伪影图中的同位块进行比较来校正伪影区域的方法的示图;
图22A是用于描述根据本公开的另一实施例的AI编码方法的流程图;
图22B是用于描述根据本公开的另一实施例的AI编码方法的示图;
图23是示出根据本公开的另一实施例的AI解码设备的配置的框图;
图24A是用于示出图像质量引擎的示图;
图24B是用于描述由AI解码设备执行的用于基于伪影信息调整低通滤波器的强度并执行滤波的方法的示图;
图25是示出根据本公开的另一实施例的AI解码设备的配置的框图;以及
图26是用于描述根据本公开的另一实施例的AI解码方法的流程图。
具体实施方式
在整个公开内容中,表述“a、b或c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c全部或其变形。
由于本公开允许各种改变和许多示例,因此将在附图中示出并在书面描述中详细描述特定实施例。然而,这并不旨在将本公开限制于特定实践方式,并且应当理解,不脱离本公开的精神和技术范围的所有改变、等同和替代都包括在本公开中。
在实施例的描述中,当认为相关技术的特定详细解释可能不必要地模糊本公开的本质时,省略了相关技术的详细解释。此外,在说明书的描述中使用的数字(例如,第一、第二等)仅仅是用于将一个元件与另一元件区分开的标识码。
此外,在本说明书中,应当理解,当元件彼此“连接”或“耦接”时,元件可以彼此直接地连接或耦接,或者可以通过其间的中间元件彼此连接或耦接,除非另有说明。
在本说明书中,关于表示为“单元”或“模块”的元件,可以将两个或更多个元件组合成一个元件,或者可以根据细分的功能将一个元件划分为两个或更多个元件。另外,下文所述的每个元件除了其自身的主要功能之外,还可以额外执行由另一元件执行的一些或全部功能,并且每个元件的一些主要功能可以完全由另一组件执行。
此外,在本说明书中,“图像”或“图片”可以表示静止图像、包括多个连续静止图像(或帧)的运动图像或视频。
此外,在本说明书中,深度神经网络(DNN)是模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。
此外,在本说明书中,“参数”是在形成神经网络的每层的运算过程中使用的值,并且例如可以包括当将输入值应用于特定运算表达式时使用的权重。这里,可以以矩阵形式表示参数。该参数是作为训练结果的值集合,并且可以在必要时通过单独的训练数据来更新。
此外,在本说明书中,“第一DNN”指示用于对图像进行人工智能(AI)缩小的DNN,“第二DNN”指示用于对图像进行人工智能(AI)放大的DNN。
此外,在本说明书中,“DNN设置信息”包括与构成DNN的元素相关的信息。“DNN设置信息”包括作为与构成DNN的元素相关的信息的上述参数。可以通过使用DNN设置信息来设置第一DNN或第二DNN。
此外,在本说明书中,“原始图像”表示作为AI编码的对象的图像,并且“第一图像”表示作为在AI编码处理期间对原始图像执行AI缩小的结果而获得的图像。此外,“第二图像”表示在AI解码处理期间经由第一解码获得的图像,而“第三图像”表示在AI解码处理期间通过对第二图像进行AI放大获得的图像。
此外,在本说明书中,“AI缩小”表示基于AI降低图像分辨率的处理,“第一编码”表示根据基于频率变换的图像压缩方法的编码处理。此外,“第一解码”表示根据基于频率变换的图像重建方法的解码处理,“AI放大”表示基于AI提高图像分辨率的处理。
图1是用于描述根据实施例的AI编码处理和AI解码处理的示图。
如上所述,当图像的分辨率显著增加时,用于对图像进行编码和解码的信息的吞吐量增加,因此,需要一种用于提高图像的编码和解码效率的方法。
如图1所示,根据本公开的实施例,通过对具有高分辨率的原始图像105执行AI缩小110来获得第一图像115。然后,对具有相对低分辨率的第一图像115执行第一编码120和第一解码130,从而与对原始图像105执行第一编码和第一解码时相比,比特率可以大大降低。
具体地,在图1中,根据实施例,在AI编码处理期间,通过对原始图像105执行AI缩小110来获得第一图像115,并且对第一图像115执行第一编码120。在AI解码处理期间,接收作为AI编码的结果获得的包括AI数据和图像数据的AI编码数据,经由第一解码130获得第二图像135,并且通过对第二图像135执行AI放大140来获得第三图像145。
详细参考AI编码处理,当接收到原始图像105时,对原始图像105执行AI缩小110以获得特定分辨率或特定质量的第一图像115。这里,基于AI执行AI缩小110,并且用于AI缩小110的AI需要与用于第二图像135的AI放大140的AI联合训练。这是因为,当分别训练用于AI缩小110的AI和用于AI放大140的AI时,作为AI编码对象的原始图像105与通过AI解码而重建的第三图像145之间的差异会增大。
在本公开的实施例中,AI数据可用于在AI编码处理和AI解码处理期间保持这种联合关系。因此,通过AI编码处理获得的AI数据可包括指示放大目标的信息,并且在AI解码处理期间,根据基于AI数据验证的放大目标对第二图像135执行AI放大140。
用于AI缩小110的AI和用于AI放大140的AI可以实施为DNN。如稍后将参照图9描述的,因为通过在特定目标下共享损失信息来联合训练第一DNN和第二DNN,所以AI编码设备可将在第一DNN和第二DNN的联合训练期间使用的目标信息提供给AI解码设备,并且AI解码设备可基于所提供的目标信息对第二图像135执行AI放大140以达到目标分辨率。
关于图1的第一编码120和第一解码130,可通过第一编码120减少对原始图像105执行AI缩小110而获得的第一图像115的信息量。第一编码120可包括通过预测第一图像115来产生预测数据的处理、产生与第一图像115和预测数据之间的差异对应的残差数据的处理、将空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理以及对量化的残差数据进行熵编码的处理。可以经由使用频率变换的图像压缩方法(诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和开放媒体联盟1(AV1))之一来执行这样的第一编码120。
可通过对图像数据执行第一解码130来重建与第一图像115对应的第二图像135。第一解码130可包括通过对图像数据进行熵解码来产生量化的残差数据的处理、对量化的残差数据进行反量化的处理、将频域分量的残差数据变换为空间域分量的处理、产生预测数据的处理以及通过使用预测数据和残差数据来重建第二图像135的处理。可以经由与使用频率变换的图像压缩方法(诸如MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)之一对应的图像重建方法来执行这样的第一解码130,其中,所述图像压缩方法是在第一编码120中使用的图像压缩方法。
通过AI编码处理获得的AI编码数据可包括作为对第一图像115执行第一编码120的结果而获得的图像数据、以及与原始图像105的AI缩小110相关的AI数据。可以在第一解码130期间使用图像数据,并且可以在AI放大140期间使用AI数据。
可以以比特流的形式发送图像数据。图像数据可以包括基于第一图像115中的像素值获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差异的残差数据。此外,图像数据包括在对第一图像115执行的第一编码120期间使用的信息。例如,图像数据可以包括在第一编码120期间使用的预测模式信息、运动信息和与量化参数相关的信息。可以根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的规则(例如,根据语法)来产生图像数据。
在基于第二DNN的AI放大140中使用AI数据。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括使得能够通过第二DNN对第二图像135准确地执行AI放大140的信息。在AI解码处理期间,可以基于AI数据对第二图像135执行AI放大140以具有目标分辨率和/或质量。
AI数据可以以比特流的形式与图像数据一起被发送。或者,根据实施例,AI数据可以以帧或包的形式与图像数据分开发送。作为AI编码的结果获得的AI数据和图像数据可以通过相同的网络或通过不同的网络被发送。
图2是根据实施例的AI解码设备100的配置的框图。
参照图2,根据实施例的AI解码设备200可包括接收器210和AI解码器230。接收器210可以包括通信器212、解析器214和输出器216。AI解码器230可以包括第一解码器232和AI放大器234。
接收器210接收并解析作为AI编码的结果而获得的AI编码数据,并将图像数据和AI数据分别输出到AI解码器230。
具体地,通信器212通过网络接收作为AI编码结果而获得的AI编码数据。作为执行AI编码结果而获得的AI编码数据包括图像数据和AI数据。可以通过相同类型的网络或不同类型的网络接收图像数据和AI数据。
解析器214接收通过通信器212接收的AI编码数据,并解析AI编码数据以区分图像数据和AI数据。例如,解析器214可以通过读取从通信器212获得的数据的头部来区分图像数据和AI数据。根据实施例,解析器214经由通过通信器212接收的数据的头部将图像数据和AI数据可区分地发送到输出器216,并且输出器216将区分的图像数据和AI数据分别发送到第一解码器232和AI放大器234。此时,可以验证包括在AI编码数据中的图像数据是经由特定编解码器(例如,MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)产生的图像数据。在这种情况下,可以通过输出器216将相应的信息发送到第一解码器232,使得经由验证过的编解码器处理图像数据。
根据实施例,由解析器214解析的AI编码数据可以从数据存储介质获得,该数据存储介质包括磁介质(诸如硬盘、软盘或磁带)、光学记录介质(诸如CD-ROM或DVD)或磁光介质(诸如光磁软盘)。
第一解码器232基于图像数据重建与第一图像115对应的第二图像135。由第一解码器232获得的第二图像135被提供给AI放大器234。根据实施例,可以将图像数据中包括的第一解码相关信息(诸如预测模式信息、运动信息、量化参数信息等)进一步提供给AI放大器234。
在接收到AI数据时,AI放大器234基于AI数据对第二图像135执行AI放大。根据实施例,可通过进一步使用包括在图像数据中的第一解码相关信息(诸如预测模式信息、量化参数信息等)来执行AI放大。
根据实施例的接收器210和AI解码器230被描述为单独的设备,但是可以通过一个处理器来实现。在这种情况下,可以通过专用处理器或通过软件和通用处理器(诸如应用处理器(AP)、中央处理器(CPU)或图形处理器(GPU))的组合来实现接收器210和AI解码器230。可以通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储处理器来实现专用处理器。
此外,可以通过多个处理器配置接收器210和AI解码器230。在这种情况下,可以通过专用处理器的组合或通过软件和诸如AP、CPU或GPU的通用处理器的组合来实现接收器210和AI解码器230。类似地,可通过不同处理器实现AI放大器234和第一解码器232。
提供给AI放大器234的AI数据包括使得第二图像135能够经由AI放大被处理的信息。这里,放大目标应该对应于第一DNN的缩小。因此,AI数据包括用于验证第一DNN的缩小目标的信息。
AI数据中包括的信息的示例包括原始图像105的分辨率与第一图像115的分辨率之间的差异信息以及与第一图像115相关的信息。
差异信息可以被表示为关于第一图像115与原始图像105相比的分辨率变换程度的信息(例如,分辨率变换率信息)。此外,因为通过重建的第二图像135的分辨率验证第一图像115的分辨率,并且相应地验证分辨率变换程度,所以差异信息可以仅表示为原始图像105的分辨率信息。这里,分辨率信息可以表示为垂直/水平大小或者表示为比率(16:9、4:3等)和一个轴的大小。此外,当存在预先设置的分辨率信息时,分辨率信息可以以索引或标志的形式表示。
与第一图像115相关的信息可以包括关于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率或在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
AI放大器234可基于AI数据中包括的差异信息或与第一图像115相关的信息中的至少一个来确定第二图像135的放大目标。放大目标可以指示例如针对第二图像135分辨率将被放大到什么程度。当确定了放大目标时,AI放大器234通过第二DNN对第二图像135执行AI放大,以获得与放大目标对应的第三图像145。
在描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法之前,将参照图3和图4描述通过第二DNN的AI放大处理。
图3是示出用于对第二图像135执行AI放大的第二DNN 300的图,并且图4是用于描述图3的第一卷积层310中的卷积运算的示图。
如图3所示,第二图像135被输入到第一卷积层310。图3所示的第一卷积层310中指示的3×3×4指示通过使用具有3×3大小的四个滤波器核对一个输入图像执行卷积处理。作为卷积处理的结果,由四个滤波器核产生四个特征图。每个特征图指示第二图像135的固有特性。例如,每个特征图可以表示第二图像135的垂直方向特性、水平方向特性或边缘特性等。
将参照图4详细描述第一卷积层310中的卷积运算。
可以通过在第一卷积层310中使用的大小为3×3的滤波器核430的参数与第二图像135中的对应像素值之间的相乘和相加来产生一个特征图450。因为在第一卷积层310中使用四个滤波器核,所以可以使用四个滤波器核通过卷积运算产生四个特征图。
在图4中的第二图像135中指示的I1至I49指示第二图像135中的像素,并且在滤波器核430中指示的F1至F9指示滤波器核430的参数。此外,在特征图450中指示的M1至M9指示特征图450的样本。
在图4中,第二图像135包括49个像素,但是像素的数量仅是示例,并且当第二图像135具有4K的分辨率时,第二图像135可以包括例如3840×2160个像素。
在卷积运算处理期间,将第二图像135的I1、I2、I3、I8、I9、I10、I15、I16和I17的像素值与滤波器核430的F1至F9分别相乘,并且可以将相乘的结果值的组合(例如,相加)的值指定为特征图450的M1的值。当卷积运算的步幅为2时,第二图像135的I3、I4、I5、I10、I11、I12、I17、I18和I19的像素值分别与滤波器核430的F1至F9相乘,并且相乘的结果值的组合的值可以被指定为特征图450的M2的值。
当滤波器核430沿着步幅移动到第二图像135的最后一个像素时,在第二图像135中的像素值与滤波器核430的参数之间执行卷积运算,并且因此可以产生具有特定尺寸的特征图450。
根据本公开,可以通过第一DNN和第二DNN的联合训练来优化第二DNN的参数的值,例如,在第二DNN的卷积层中使用的滤波器核的参数的值(例如,滤波器核430的F1至F9)。如上所述,AI放大器234可以基于AI数据确定与第一DNN的缩小目标对应的放大目标,并且将与所确定的放大目标对应的参数确定为在第二DNN的卷积层中使用的滤波器核的参数。
包括在第一DNN和第二DNN中的卷积层可以根据参照图4描述的卷积运算处理来执行处理,但是参照图4描述的卷积运算处理仅是示例,且不限于此。
返回参照图3,从第一卷积层310输出的特征图可以被输入到第一激活层320。
第一激活层320可以将非线性特征分配给每个特征图。第一激活层320可包括sigmoid函数、Tanh函数、修正线性单元(ReLU)函数等,但不限于此。
分配非线性特征的第一激活层320指示作为第一卷积层310的输出的特征图的至少一个样点值被改变。这里,通过应用非线性特征来执行改变。
第一激活层320确定是否将从第一卷积层310输出的特征图的样点值发送到第二卷积层330。例如,特征图的一些样点值由第一激活层320激活并且被发送到第二卷积层330,并且一些样点值由第一激活层320去激活并且不被发送到第二卷积层330。通过第一激活层320来突出由特征图表示的第二图像135的固有特性。
从第一激活层320输出的特征图325被输入到第二卷积层330。图3中所示的特征图325中的一个特征图是在第一激活层320中处理参照图4描述的特征图450的结果。
在第二卷积层330中指示的3×3×4指示通过使用具有3×3大小的四个滤波器核对特征图325执行卷积处理。第二卷积层330的输出被输入到第二激活层340。第二激活层340可将非线性特征分配给输入数据。
从第二激活层340输出的特征图345被输入到第三卷积层350。图3中所示的第三卷积层350中指示的3×3×1指示通过使用具有3×3的大小的一个滤波器核执行卷积处理以产生一个输出图像。第三卷积层350是用于输出最终图像的层,并且通过使用一个滤波器核来产生一个输出。根据本公开的实施例,第三卷积层350可以输出第三图像145作为卷积运算的结果。
如稍后将描述的,可以存在指示第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的数量、第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息应该与第一DNN的多条DNN设置信息关联。可以经由第一DNN和第二DNN的联合训练来实现第二DNN的多条DNN设置信息与第一DNN的多条DNN设置信息之间的关联。
在图3中,第二DNN 300包括三个卷积层(第一卷积层310、第二卷积层330和第三卷积层350)和两个激活层(第一激活层320和第二激活层340),但这仅是示例,并且卷积层和激活层的数量可以根据实施例而变化。此外,根据实施例,第二DNN 300可以被实现为递归神经网络(RNN)。在这种情况下,根据本公开的实施例的第二DNN 300的卷积神经网络(CNN)结构被改变为RNN结构。
根据实施例,AI放大器234可包括用于以上描述的卷积运算以及激活层的运算的至少一个算术逻辑单元(ALU)。ALU可以被实现为处理器。对于卷积运算,ALU可以包括乘法器和加法器,其中,乘法器在第二图像135或从先前层输出的特征图的样点值与滤波器核的样点值之间执行乘法,加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可以包括乘法器和比较器,其中,乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
在下文中,将描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法。
根据实施例,AI放大器234可以存储在第二DNN中可设置的多条DNN设置信息。
这里,DNN设置信息可以包括关于第二DNN中包括的卷积层的数量、每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个的信息。多条DNN设置信息可以分别对应于各种放大目标,并且第二DNN可以基于与特定放大目标对应的DNN设置信息进行操作。基于DNN设置信息,第二DNN可以具有不同的结构。例如,第二DNN可以基于任何一条DNN设置信息包括三个卷积层,并且可以基于另一条DNN设置信息包括四个卷积层。
根据实施例,DNN设置信息可以仅包括在第二DNN中使用的滤波器核的参数。在这种情况下,第二DNN的结构不改变,而是仅内部滤波器核的参数可以基于DNN设置信息而改变。
AI放大器234可以获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。此时使用的多条DNN设置信息中的每一条DNN设置信息是用于获得预定分辨率和/或预定质量的第三图像145的信息,并且与第一DNN联合训练。
例如,多条DNN设置信息中的一条DNN设置信息可以包括用于获得分辨率是第二图像135的分辨率两倍高的第三图像145(例如,第二图像135的2K(2048×1080)的两倍高的4K(4096×2160)的第三图像145)的信息,并且另一条DNN设置信息可以包括用于获得分辨率是第二图像135的分辨率四倍高的第三图像145(例如,第二图像135的2K(2048×1080)的四倍高的8K(8192×4320)的第三图像145)的信息。
多条DNN设置信息中的每一条DNN设置信息与图6的AI编码设备600的第一DNN的DNN设置信息联合获得,并且AI放大器234根据与第一DNN的DNN设置信息中的缩小率对应的放大率获得多条DNN设置信息中的一条DNN设置信息。在这方面,AI放大器234可以验证第一DNN的信息。为了AI放大器234验证第一DNN的信息,根据实施例的AI解码设备200从AI编码设备600接收包括第一DNN的信息的AI数据。
换句话说,AI放大器234可以通过使用从AI编码设备600接收的信息,验证用于获得第一图像115的第一DNN的DNN设置信息所针对的信息,并且获得与第一DNN的DNN设置信息联合训练的第二DNN的DNN设置信息。
当从多条DNN设置信息中获得了用于对第二图像135执行AI放大的DNN设置信息时,可以基于根据所获得的DNN设置信息操作的第二DNN来处理输入数据。
例如,当获得了任何一条DNN设置信息时,包括在图3的第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350中的每一个卷积层中包括的滤波器核的数量以及滤波器核的参数被设置为包括在所获得的DNN设置信息中的值。
具体地,在图4的第二DNN的任何一个卷积层中使用的3×3的滤波器核的参数被设置为{1,1,1,1,1,1,1,1,1},并且当之后改变DNN设置信息时,这些参数被替换为改变后的DNN设置信息中包括的参数{2,2,2,2,2,2,2,2,2}。
AI放大器234可以基于AI数据中包括的信息从多条DNN设置信息中获得用于AI放大的DNN设置信息,并且现在将描述用于获得DNN设置信息的AI数据。
根据实施例,AI放大器234可以基于AI数据中包括的差异信息,从多条DNN设置信息中获得用于AI放大的DNN设置信息。例如,当基于差异信息验证出原始图像105的分辨率(例如,4K(4096×2160))是第一图像115的分辨率(例如,2K(2048×1080))的两倍时,AI放大器234可以获得用于将第二图像135的分辨率提高两倍的DNN设置信息。
根据另一实施例,AI放大器234可以基于AI数据中包括的与第一图像115相关的信息,从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。AI放大器234可以预先确定图像相关信息和DNN设置信息之间的映射关系,并且获得映射到与第一图像115相关的信息的DNN设置信息。
图5是示出若干条图像相关信息和若干条DNN设置信息之间的映射关系的表。
通过根据图5的实施例,将确定根据本公开的实施例的AI编码和AI解码处理不会仅考虑分辨率的改变。如图5所示,可以单独地或共同地考虑诸如标准清晰度(SD)、高清晰度(HD)或全HD的分辨率、诸如10Mbps、15Mbps或20Mbps的比特率以及诸如AV1、H.264或HEVC的编解码器信息来选择DNN设置信息。出于对分辨率、比特率和编解码器信息的这种考虑,可以在AI训练处理期间与编码和解码处理联合执行考虑每个元素的训练(参见图9)。
因此,当根据训练如图5中所示基于包括编解码器类型、图像的分辨率等的图像相关信息提供多条DNN设置信息时,,可以基于在AI解码处理期间接收的与第一图像115相关的信息来获得用于AI放大第二图像135的DNN设置信息。
换句话说,AI放大器234能够通过匹配图5的表左侧的图像相关信息和表右侧的DNN设置信息,根据图像相关信息使用DNN设置信息。
如图5中所示,当从与第一图像115相关的信息验证出第一图像115的分辨率是SD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是10Mbps,并且经由AV1编解码器对第一图像115执行第一编码时,AI放大器234可以使用多条DNN设置信息中的A DNN设置信息。
此外,当从与第一图像115相关的信息验证出第一图像115的分辨率是HD,作为执行第一编码的结果获得的图像数据的比特率是15Mbps,并且经由H.264编解码器执行第一编码时,AI放大器234可以使用多条DNN设置信息中的B DNN设置信息。
此外,当从与第一图像115相关的信息验证出第一图像115的分辨率是FUll HD,作为执行第一编码的结果获得的图像数据的比特率是20Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可以使用多条DNN设置信息中的C DNN设置信息,并且当验证出第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可以使用多条DNN设置信息中的DDNN设置信息。基于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps还是15Mbps来选择是C DNN设置信息还是D DNN设置信息。当经由相同编解码器对相同分辨率的第一图像115执行第一编码时获得的图像数据的不同比特率指示重建图像的不同质量。因此,可以基于特定图像质量联合训练第一DNN和第二DNN,并且因此,AI放大器234可以根据指示第二图像135的质量的图像数据的比特率来获得DNN设置信息。
根据另一实施例,AI放大器234可以考虑从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和AI数据中包括的与第一图像115相关的信息两者,从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息。例如,AI放大器234可从第一解码器232接收在第一图像115的第一编码处理期间使用的量化参数信息,验证从AI数据获得的作为第一图像115的编码结果的图像数据的比特率,并且获得与量化参数信息和比特率对应的DNN设置信息。即使当比特率相同时,重建图像的质量也可能根据图像的复杂度而变化。比特率是表示被执行第一编码的整个第一图像115的值,并且即使在第一图像115内,每个帧的质量也可以变化。因此,与仅使用AI数据时相比,当一起考虑来自第一解码器232的针对每个帧可获得的预测模式信息、运动信息和/或量化参数时,可以获得更适合于第二图像135的DNN设置信息。
此外,根据实施例,AI数据可以包括相互协定的DNN设置信息的标识符。DNN设置信息的标识符是用于区分在第一DNN和第二DNN之间联合训练的一对DNN设置信息的信息,使得对第二图像135执行AI放大到与第一DNN的缩小目标对应的放大目标。在获得AI数据中包括的DNN设置信息的标识符之后,AI放大器234可以通过使用与DNN设置信息的标识符对应的DNN设置信息对第二图像135执行AI放大。例如,可以预先指定指示在第一DNN中可设置的多个DNN设置信息中的每一个的标识符和指示在第二DNN中可设置的多个DNN设置信息中的每一个的标识符。在这种情况下,可以为在第一DNN和第二DNN中的每一个中可设置的一对DNN设置信息指定相同的标识符。AI数据可以包括在用于对原始图像105进行AI缩小的第一DNN中设置的DNN设置信息的标识符。接收AI数据的AI放大器234可以通过使用多个DNN设置信息中的由AI数据中包括的标识符指示的DNN设置信息来对第二图像135执行AI放大。
此外,根据实施例,AI数据可以包括DNN设置信息。AI放大器234可以在获得AI数据中包括的DNN设置信息之后通过使用DNN设置信息对第二图像135执行AI放大。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI放大器234可以通过组合基于AI数据中包括的信息从查找表中的值中选择的一些值来获得DNN设置信息,并且通过使用获得的DNN设置信息对第二图像135执行AI放大。
根据实施例,当确定了与放大目标对应的DNN的结构时,AI放大器234可以获得与所确定的DNN的结构对应的DNN设置信息,例如,滤波器核的参数。
AI放大器234通过包括与第一DNN有关的信息的AI数据获得第二DNN的DNN设置信息,并且通过基于所获得的DNN设置信息设置的第二DNN对第二图像135执行AI放大,并且在这种情况下,与为了进行放大而直接分析第二图像135的特征时相比,可以减少存储器使用和吞吐量。
根据实施例,当第二图像135包括多个帧时,AI放大器234可以针对特定数量的帧独立地获得DNN设置信息,或者可以针对全部帧获得公用DNN设置信息。
图6是示出包括多个帧的第二图像135的示图。
如图6中所示,第二图像135可包括帧t0到tn。
根据实施例,AI放大器234可以通过AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息对帧t0至tn执行AI放大。换句话说,可以基于公用DNN设置信息经由AI放大来处理帧t0到tn。
根据另一实施例,AI放大器234可以通过使用从AI数据获得的“A”DNN设置信息对帧t0至tn中的一些(例如,帧t0至ta)执行AI放大,并且通过使用从AI数据获得的“B”DNN设置信息对帧ta+1至tb执行AI放大。此外,AI放大器234可通过使用从AI数据获得的“C”DNN设置信息来对帧tb+1至tn执行AI放大。换句话说,AI放大器234可以针对包括多个帧中的特定数量的帧的每个组独立地获得DNN设置信息,并且通过使用独立获得的DNN设置信息对每个组中包括的帧执行AI放大。
根据另一实施例,AI放大器234可以针对组成第二图像135的每个帧独立地获得DNN设置信息。换句话说,当第二图像135包括三个帧时,AI放大器234可以通过使用与第一帧有关地获得的DNN设置信息对第一帧执行AI放大,通过使用与第二帧有关地获得的DNN设置信息对第二帧执行AI放大,并且通过使用与第三帧有关地获得的DNN设置信息对第三帧执行AI放大。根据基于从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和与包括在上述AI数据中的第一图像115相关的信息获得DNN设置信息的方法,可以针对包括在第二图像135中的每个帧独立地获得DNN设置信息。这是因为可以针对包括在第二图像135中的每个帧独立地确定模式信息、量化参数信息等。
根据另一实施例,AI数据可以包括关于基于AI数据获得的DNN设置信息对哪个帧有效的信息。例如,当AI数据包括指示DNN设置信息直到帧ta有效的信息时,AI放大器234通过使用基于AI数据获得的DNN设置信息对帧t0至ta执行AI放大。此外,当另一条AI数据包括指示DNN设置信息直到帧tn有效的信息时,AI放大器234通过使用基于该另一条AI数据获得的DNN设置信息对帧ta+1至tn执行AI放大。
在下文中,将参照图7描述用于对原始图像105执行AI编码的AI编码设备600。
图7是根据实施例的AI编码设备600的配置的框图。
参照图7,AI编码设备600可包括AI编码器610和发送器630。AI编码器610可以包括AI缩小器612和第一编码器614。发送器630可以包括数据处理器632和通信器634。
在图7中,以单独的设备来说明AI编码器610和发送器630,但可通过一个处理器来实现AI编码器610和发送器630。在这种情况下,可以通过专用处理器或通过软件和通用处理器(诸如AP、CPU或图形处理器GPU)的组合来实现AI编码器610和发送器630。可以通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储处理器来实现专用处理器。
此外,可以通过多个处理器配置AI编码器610和发送器630。在这种情况下,可以通过专用处理器的组合或通过软件和诸如AP、CPU或GPU的多个通用处理器的组合来实现AI编码器610和发送器630。可以通过不同的处理器来实现AI缩小器612和第一编码器614。
AI编码器610对原始图像105执行AI缩小并对第一图像115执行第一编码,并将AI数据和图像数据发送到发送器630。发送器630将AI数据和图像数据发送到AI解码设备200。
图像数据包括作为对第一图像115执行第一编码的结果而获得的数据。图像数据可以包括基于第一图像115中的像素值获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差异的残差数据。此外,图像数据包括在第一图像115的第一编码处理期间使用的信息。例如,图像数据可以包括用于对第一图像115执行第一编码的预测模式信息、运动信息、量化参数信息等。
AI数据包括使能够对第二图像135执行AI放大到与第一DNN的缩小目标对应的放大目标的信息。根据实施例,AI数据可以包括原始图像105和第一图像115之间的差异信息。此外,AI数据可以包括与第一图像115相关的信息。与第一图像115相关的信息可以包括关于第一图像115的分辨率、作为对第一图像115执行第一编码的结果而获得的图像数据的比特率或在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
根据实施例,AI数据可以包括相互协定的DNN设置信息的标识符,使得对第二图像135执行AI放大到与第一DNN的缩小目标对应的放大目标。
此外,根据实施例,AI数据可以包括可在第二DNN中设置的DNN设置信息。
AI缩小器612可以获得通过经由第一DNN对原始图像105执行AI缩小而获得的第一图像115。AI缩小器612可以基于预定标准来确定原始图像105的缩小目标。
为了获得与缩小目标匹配的第一图像115,AI缩小器612可以存储第一DNN中可设置的多条DNN设置信息。AI缩小器612从多条DNN设置信息中获得与缩小目标对应的DNN设置信息,并且通过按照获得的DNN设置信息设置的第一DNN对原始图像105执行AI缩小。
可以训练多条DNN设置信息中的每一条DNN设置信息以获得预定分辨率和/或预定质量的第一图像115。例如,多条DNN设置信息中的任何一条DNN设置信息可以包括用于获得原始图像105的分辨率的一半分辨率的第一图像115(例如,原始图像105的4k(4096×2160)的一半的2k(2048×1080)的第一图像115)的信息,并且另一条DNN设置信息可以包括用于获得原始图像105的分辨率的四分之一分辨率的第一图像115(例如,原始图像105的8k(8192x4320)的四分之一的2k(2048×1080)的第一图像115)的信息。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI缩小器612可以通过组合基于缩小目标从查找表中的值中选择的一些值来获得DNN设置信息,并且通过使用获得的DNN设置信息对原始图像105执行AI缩小。
根据实施例,AI缩小器612可以确定与缩小目标对应的DNN的结构,并且获得与所确定的DNN的结构对应的DNN设置信息,例如,获得滤波器核的参数。
随着第一DNN和第二DNN被联合训练,用于对原始图像105执行AI缩小的多条DNN设置信息可以具有优化值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、每个卷积层的滤波器核的数量和每个滤波器核的参数中的至少一个。
AI缩小器612可以利用为了对原始图像105执行AI缩小而获得的DNN设置信息来设置第一DNN,以通过第一DNN获得特定分辨率和/或特定质量的第一图像115。当从多条DNN设置信息获得了用于对原始图像105执行AI缩小的DNN设置信息时,第一DNN中的每一层可以基于DNN设置信息中包括的信息来处理输入数据。
在下文中,将描述由AI缩小器612执行的确定缩小目标的方法。缩小目标可指示例如从原始图像105将分辨率减小多少以获得第一图像115。
根据实施例,AI缩小器612可以基于压缩比(例如,原始图像105与第一图像115之间的分辨率差异、目标比特率等)、压缩质量(例如,比特率的类型)、压缩历史信息或原始图像105的类型中的至少一个来确定缩小目标。
例如,AI缩小器612可以基于预设的或从用户输入的压缩比、压缩质量等来确定缩小目标。
作为另一示例,AI缩小器612可通过使用存储在AI编码设备600中的压缩历史信息来确定缩小目标。例如,根据AI编码设备600可用的压缩历史信息,可确定用户偏好的编码质量、压缩比等,并且可根据基于压缩历史信息确定的编码质量来确定缩小目标。例如,可以根据基于压缩历史信息的最常使用的编码质量来确定第一图像115的分辨率、质量等。
作为另一示例,AI缩小器612可以基于根据压缩历史信息比特定阈值更频繁使用的编码质量(例如,比特定阈值更频繁使用的编码质量的平均质量)来确定缩小目标。
作为另一示例,AI缩小器612可以基于原始图像105的分辨率、类型(例如,文件格式)等来确定缩小目标。
根据实施例,当原始图像105包括多个帧时,AI缩小器612可以针对特定数量的帧独立地确定缩小目标,或者可以针对全部帧确定缩小目标。
根据实施例,AI缩小器612可以将包括在原始图像105中的帧划分为特定数量的组,并且针对每个组独立地确定缩小目标。可以针对每个组确定相同或不同的缩小目标。根据每个组,组中包括的帧的数量可以相同或不同。
根据另一实施例,AI缩小器612可以针对包括在原始图像105中的每个帧独立地确定缩小目标。可针对每一帧确定相同或不同的缩小目标。
在下文中,将描述AI缩小所基于的第一DNN 700的结构的示例。
图8是示出用于对原始图像105执行AI缩小的第一DNN 700的示图。
如图8所示,原始图像105被输入到第一卷积层710。第一卷积层710通过使用大小为5×5的32个滤波器核对原始图像105执行卷积处理。作为卷积处理的结果而产生的32个特征图被输入到第一激活层720。第一激活层720可以将非线性特征分配给32个特征图。
第一激活层720确定是否将从第一卷积层710输出的特征图的样点值发送到第二卷积层730。例如,特征图的一些样点值由第一激活层720激活并且被发送到第二卷积层730,并且一些样点值由第一激活层720去激活并且不被发送到第二卷积层730。通过第一激活层720来突出由从第一卷积层710输出的特征图表示的信息。
第一激活层720的输出725被输入到第二卷积层730。第二卷积层730通过使用大小为5×5的32个滤波器核对输入数据执行卷积处理。作为卷积处理的结果输出的32个特征图被输入到第二激活层740,并且第二激活层740可以将非线性特征分配给32个特征图。
第二激活层740的输出745被输入到第三卷积层750。第三卷积层750通过使用大小为5×5的一个滤波器核对输入数据执行卷积处理。作为卷积处理的结果,可以从第三卷积层750输出一个图像。第三卷积层750通过将所述一个滤波器核用作用于输出最终图像的层来产生一个输出。根据本公开的实施例,第三卷积层750可以输出第一图像115作为卷积运算的结果。
可以存在指示第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的滤波器核的数量、第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的每个滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息可以与第二DNN的多条DNN设置信息关联。可以经由第一DNN和第二DNN的联合训练来实现第一DNN的多条DNN设置信息与第二DNN的多条DNN设置信息之间的关联。
在图8中,第一DNN 700包括三个卷积层(第一卷积层710、第二卷积层730和第三卷积层750)和两个激活层(第一激活层720和第二激活层740),但这仅是示例,并且卷积层和激活层的数量可以根据实施例而变化。此外,根据实施例,第一DNN 700可以被实现为RNN。在这种情况下,根据本公开的实施例的第一DNN 700的CNN结构被改变为RNN结构。
根据实施例,AI缩小器612可以包括用于以上描述的卷积运算和激活层的运算的至少一个ALU。ALU可以被实现为处理器。对于卷积运算,ALU可以包括乘法器和加法器,乘法器执行原始图像105或从先前层输出的特征图的样点值与滤波器核的样点值之间的乘法,加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可以包括乘法器和比较器,其中,乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
返回参照图7,在从AI缩小器612接收到第一图像115后,第一编码器614可通过对第一图像115执行第一编码来减少第一图像115的信息量。作为由第一编码器614执行第一编码的结果,可以获得与第一图像115对应的图像数据。
数据处理器632将AI数据或图像数据中的至少一个处理为以特定形式被发送。例如,当将以比特流的形式发送AI数据和图像数据时,数据处理器632可以将AI数据处理为以比特流的形式表示,并且通过通信器634以一个比特流的形式发送图像数据和AI数据。作为另一示例,数据处理器632可以将AI数据处理为以比特流的形式表示,并且通过通信器634发送与AI数据对应的比特流和与图像数据对应的比特流中的每个。作为另一示例,数据处理器632可以将AI数据处理为以帧或包的形式表示,并且通过通信器634以比特流的形式发送图像数据并以帧或包的形式发送AI数据。
通信器634通过网络发送作为执行AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。可以通过相同类型的网络或不同类型的网络发送图像数据和AI数据。
根据实施例,作为数据处理器632的处理的结果而获得的AI编码数据可以存储在数据存储介质中,该数据存储介质包括诸如硬盘、软盘或磁带的磁介质、诸如CD-ROM或DVD的光学记录介质、或者诸如光磁软盘的磁光介质。
在下文中,将参照图9描述联合训练第一DNN 700和第二DNN 300的方法。
图9是用于描述训练第一DNN 700和第二DNN 300的方法的示图。
在实施例中,经由AI解码处理将通过AI编码处理对其执行AI编码的原始图像105重建为第三图像145,并且为了保持原始图像105和作为AI解码的结果而获得的第三图像145之间的相似性,需要AI编码处理和AI解码处理之间的关联性。换句话说,AI编码处理中丢失的信息需要在AI解码处理期间重建,并且就此而言,需要联合训练第一DNN 700和第二DNN 300。
为了准确的AI解码,最终,需要减小与图9所示的第三训练图像804和原始训练图像801的比较结果对应的质量损失信息830。因此,质量损失信息830用于训练第一DNN 700和第二DNN 300两者。
首先,将描述图9中所示的训练处理。
在图9中,原始训练图像801是要对其执行AI缩小的图像,并且第一训练图像802是通过对原始训练图像801执行AI缩小而获得的图像。此外,第三训练图像804是通过对第一训练图像802执行AI放大而获得的图像。
原始训练图像801包括静止图像或包括多个帧的运动图像。根据实施例,原始训练图像801可以包括从静止图像或包括多个帧的运动图像中提取的亮度图像。此外,根据实施例,原始训练图像801可以包括从静止图像或包括多个帧的运动图像中提取的分块(patch)图像。当原始训练图像801包括多个帧时,第一训练图像802、第二训练图像和第三训练图像804也各自包括多个帧。当原始训练图像801的多个帧被顺序地输入到第一DNN 700时,可以通过第一DNN 700和第二DNN 300顺序地获得第一训练图像802、第二训练图像和第三训练图像804的多个帧。
为了第一DNN 700和第二DNN 300的联合训练,原始训练图像801被输入到第一DNN700。输入到第一DNN 700的原始训练图像801经由AI缩小被输出为第一训练图像802,并且第一训练图像802被输入到第二DNN 300。作为对第一训练图像802执行AI放大的结果,输出第三训练图像804。
参照图9,第一训练图像802被输入到第二DNN 300,并且根据实施例,在对第一训练图像802执行第一编码和第一解码时获得的第二训练图像可以被输入到第二DNN 300。为了将第二训练图像输入到第二DNN 300,可以使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任何一种编解码器。具体地,可以使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任何一种编解码器来对第一训练图像802执行第一编码,并且对与第一训练图像802对应的图像数据执行第一解码。
参照图9,与通过第一DNN 700输出的第一训练图像802分开,获得通过对原始训练图像801执行传统缩小而获得的缩小的训练图像803。此处,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放或阶梯缩放中的至少一个。
为了防止第一图像115的结构特征极大地偏离原始图像105的结构特征,获得缩小的训练图像803以保留原始训练图像801的结构特征。
在执行训练之前,可以将第一DNN 700和第二DNN 300设置为预定的DNN设置信息。当执行训练时,可以确定结构损失信息810、复杂度损失信息820和质量损失信息830。
可以基于对缩小的训练图像803和第一训练图像802进行比较的结果来确定结构损失信息810。例如,结构损失信息810可以对应于缩小的训练图像803的结构信息与第一训练图像802的结构信息之间的差异。结构信息可以包括可从图像提取的各种特征,诸如图像的亮度、对比度、直方图等。结构损失信息810指示原始训练图像801的多少结构信息被保留在第一训练图像802中。当结构损失信息810小时,第一训练图像802的结构信息类似于原始训练图像801的结构信息。
可基于第一训练图像802的空间复杂度来确定复杂度损失信息820。例如,第一训练图像802的总方差值可以用作空间复杂度。复杂度损失信息820与通过对第一训练图像802执行第一编码而获得的图像数据的比特率相关。定义的是,当复杂度损失信息820小时,图像数据的比特率低。
可以基于对原始训练图像801和第三训练图像804进行比较的结果来确定质量损失信息830。质量损失信息830可以包括关于原始训练图像801和第三训练图像804之间的差异的L1范数值、L2范数值、结构相似性(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值或视频多方法评估融合(VMAF)值中的至少一个。质量损失信息830指示第三训练图像804与原始训练图像801多相似。当质量损失信息830小时,第三训练图像804更相似于原始训练图像801。
参照图9,使用结构损失信息810、复杂度损失信息820和质量损失信息830来训练第一DNN 700,并且使用质量损失信息830来训练第二DNN 300。换句话说,使用质量损失信息830来训练第一DNN 700和第二DNN 300两者。
第一DNN 700可以更新参数,使得基于第一到质量损失信息810至830确定的最终损失信息被减小或最小化。此外,第二DNN 300可以更新参数,使得质量损失信息830被减小或最小化。
用于训练第一DNN 700和第二DNN 300的最终损失信息可以被确定为下面的等式1。
[等式1]
LossDS=a×结构损失信息+b×复杂性损失信息+c×质量损失信息
LossUS=d×质量损失信息
在等式1中,LossDS指示训练第一DNN 700的要被减小或最小化的最终损失信息,并且LossUS指示训练第二DNN 300的要被减小或最小化的最终损失信息。此外,a、b、c和d可以是预定的特定权重。
换句话说,第一DNN 700按照等式1中的LossDS被减小的方向更新参数,并且第二DNN 300按照等式1中的LossUS被减小的方向更新参数。当根据在训练期间推导出的LossDS更新第一DNN 700的参数时,基于更新的参数获得的第一训练图像802变得与基于未更新的参数获得的先前的第一训练图像802不同,因此,第三训练图像804也变得与先前的第三训练图像804不同。当第三训练图像804变得与先前的第三训练图像804不同时,质量损失信息830也被重新确定,并且第二DNN 300相应地更新参数。当质量损失信息830被重新确定时,LossDS也被重新确定,并且第一DNN 700根据重新确定的LossDS更新参数。换句话说,第一DNN 700的参数的更新导致第二DNN 300的参数的更新,并且第二DNN 300的参数的更新导致第一DNN700的参数的更新。换句话说,因为通过共享质量损失信息830来联合训练第一DNN 700和第二DNN 300,所以可以联合优化第一DNN 700的参数和第二DNN 300的参数。
参考等式1,验证了根据质量损失信息830确定LossUS,但这仅是示例,也可以基于结构损失信息810和复杂度损失信息820中的至少一个以及质量损失信息830来确定LossUS。
在上文中,已经描述了AI解码设备200的AI放大器234和AI编码设备600的AI缩小器612存储多条DNN设置信息,并且现在将描述训练存储在AI放大器234和AI缩小器612中的多条DNN设置信息中的每一条DNN设置信息的方法。
如参考等式1所述,第一DNN 700考虑第一训练图像802的结构信息与原始训练图像801的结构信息之间的相似性(结构损失信息810)、作为对第一训练图像802执行第一编码的结果而获得的图像数据的比特率(复杂度损失信息820)、以及第三训练图像804与原始训练图像801之间的差异(质量损失信息830)来更新参数。
具体地,可以更新第一DNN 700的参数,使得当对第一训练图像802执行第一编码时,获得具有与原始训练图像801相似的结构信息的第一训练图像802,并且获得具有小比特率的图像数据,并且同时,对第一训练图像802执行AI放大的第二DNN 300获得与原始训练图像801相似的第三训练图像804。
优化第一DNN 700的参数的方向可以通过调整等式1中的权重a、b和c而变化。例如,当权重b被确定为大时,可以通过使低比特率优先于第三训练图像804的高质量来更新第一DNN 700的参数。此外,当权重c被确定为大时,可以通过使第三训练图像804的高质量优先于高比特率或保持原始训练图像801的结构信息来更新第一DNN 700的参数。
此外,优化第一DNN 700的参数的方向可以根据用于对第一训练图像802执行第一编码的编解码器的类型而变化。这是因为将被输入到第二DNN300的第二训练图像可以根据编解码器的类型而变化。
换句话说,可以基于权重a、b和c以及用于对第一训练图像802执行第一编码的编解码器的类型来联合更新第一DNN 700的参数和第二DNN 300的参数。因此,当在将权重a、b和c各自确定为特定值并且将编解码器的类型确定为特定类型之后训练第一DNN 700和第二DNN 300时,可以确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。
此外,当在改变权重a、b和c以及编解码器的类型之后训练第一DNN 700和第二DNN300时,可以确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。换句话说,当在改变权重a、b和c的值以及编解码器的类型的同时训练第一DNN 700和第二DNN 300时,可以在第一DNN 700和第二DNN 300中确定彼此联合训练的多条DNN设置信息。
如上面参照图5所述,第一DNN 700和第二DNN 300的多条DNN设置信息可以被映射到与第一图像相关的信息。为了设置这样的映射关系,可以根据特定比特率对经由特定编解码器从第一DNN 700输出的第一训练图像802执行第一编码,并且可以将通过对作为执行第一编码的结果而获得的比特流执行第一解码而获得的第二训练图像输入到第二DNN300。换句话说,通过在将环境设置为根据特定比特率经由特定编解码器对特定分辨率的第一训练图像802执行第一编码之后对第一DNN 700和第二DNN 300进行训练,可以确定映射到第一训练图像802的分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及作为对第一训练图像802执行第一编码的结果而获得的比特流的比特率的DNN设置信息对。通过不同地改变第一训练图像802的分辨率、用于对第一训练图像802执行第一编码的编解码器的类型以及根据对第一训练图像802的第一编码获得的比特流的比特率,可以确定第一DNN 700和第二DNN 300的多个DNN设置信息与和第一图像相关的多条信息之间的映射关系。
图10是用于描述训练设备1000对第一DNN 700和第二DNN的训练处理的示图。
参照图9描述的对第一DNN 700和第二DNN 300的训练可以由训练设备1000执行。训练设备1000包括第一DNN 700和第二DNN 300。训练设备1000可以是例如AI编码设备600或单独的服务器。作为训练结果获得的第二DNN 300的DNN设置信息存储在AI解码设备200中。
参照图10,在操作S840和S845,训练设备1000初始地设置第一DNN 700和第二DNN300的DNN设置信息。因此,第一DNN 700和第二DNN 300可以根据预定的DNN设置信息进行操作。DNN设置信息可以包括关于包括在第一DNN 700和第二DNN 300中的卷积层的数量、每个卷积层的滤波器核的数量、每个卷积层的滤波器核的大小或每个滤波器核的参数中的至少一个的信息。
在操作S850,训练设备1000将原始训练图像801输入到第一DNN 700中。原始训练图像801可以包括静止图像或包括在运动图像中的至少一个帧。
在操作S855,第一DNN 700根据初始设置的DNN设置信息处理原始训练图像801,并输出通过对原始训练图像801执行AI缩小而获得的第一训练图像802。在图10中,从第一DNN700输出的第一训练图像802被直接输入到第二DNN 300,但是从第一DNN 700输出的第一训练图像802可以由训练设备1000输入到第二DNN 300。此外,训练设备1000可以经由特定编解码器对第一训练图像802执行第一编码和第一解码,然后将第二训练图像输入到第二DNN300。
在操作S860,第二DNN 300根据初始设置的DNN设置信息处理第一训练图像802或第二训练图像,并输出通过对第一训练图像802或第二训练图像执行AI放大而获得的第三训练图像804。
在操作S865,训练设备1000基于第一训练图像802计算复杂度损失信息820。
在操作S870,训练设备1000通过对缩小的训练图像803和第一训练图像802进行比较来计算结构损失信息810。
在操作S875,训练设备1000通过对原始训练图像801和第三训练图像804进行比较来计算质量损失信息830。
在操作S880,基于最终损失信息经由反向传播处理更新初始设置的DNN设置信息。训练设备1000可以基于复杂度损失信息820、结构损失信息810和质量损失信息830来计算用于训练第一DNN 700的最终损失信息。
在操作S885,第二DNN 300基于质量损失信息830或最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可以基于质量损失信息830计算用于训练第二DNN 300的最终损失信息。
然后,训练设备1000、第一DNN 700和第二DNN 300可以重复操作S850至S885,直到最终损失信息被最小化,以更新DNN设置信息。此时,在每次重复期间,第一DNN 700和第二DNN 300根据在先前操作中更新的DNN设置信息进行操作。
下面的表1示出了当根据本公开的实施例对原始图像105执行AI编码和AI解码时以及当经由HEVC对原始图像105执行编码和解码时的效果。
[表1]
Figure BDA0003390884300000321
Figure BDA0003390884300000331
如表1中所示,根据本公开的实施例,除了当对包括8K分辨率的300个帧的内容执行AI编码和AI解码时的主观图像质量高于当经由HEVC执行编码和解码时的主观图像质量之外,比特率还降低了至少50%。
图11是用于对原始图像105执行AI缩小的设备20和用于对第二图像135执行AI放大的设备40的示图。
设备20接收原始图像105,并通过使用AI缩小器1124和基于变换的编码器1126将图像数据25和AI数据30提供给设备40。根据实施例,图像数据25对应于图1的图像数据,并且AI数据30对应于图1的AI数据。此外,根据实施例,基于变换的编码器1126对应于图7的第一编码器614,并且AI缩小器1124对应于图7的AI缩小器612。
设备40接收AI数据30和图像数据25,并且通过使用基于变换的解码器1146和AI放大器1144来获得第三图像145。根据实施例,基于变换的解码器1146对应于图2的第一解码器232,并且AI放大器1144对应于图2的AI放大器234。
根据实施例,设备20包括CPU、存储器和包括指令的计算机程序。计算机程序存储在存储器中。根据实施例,设备20根据CPU对计算机程序的执行来执行参照图11描述的功能。根据实施例,参照图11描述的功能由专用硬件芯片和/或CPU执行。
根据实施例,设备40包括CPU、存储器和包括指令的计算机程序。计算机程序存储在存储器中。根据实施例,设备40根据CPU对计算机程序的执行来执行参照图11描述的功能。根据实施例,参照图11描述的功能由专用硬件芯片和/或CPU执行。
在图11中,配置控制器1122接收至少一个输入值10。根据实施例,至少一个输入值10可以包括针对AI缩小器1124和AI放大器1144的目标分辨率差异、图像数据25的比特率、图像数据25的比特率类型(例如,可变比特率类型、恒定比特率类型或平均比特率类型)或基于变换的编码器1126的编解码器类型中的至少一个。至少一个输入值10可以包括预先存储在设备20中的值或从用户输入的值。
配置控制器1122基于接收到的输入值10来控制AI缩小器1124和基于变换的编码器1126的操作。根据实施例,配置控制器1122根据所接收的输入值10获得用于AI缩小器1124的DNN设置信息,并且利用所获得的DNN设置信息来设置AI缩小器1124。根据实施例,配置控制器1122可以将接收到的输入值10发送到AI缩小器1124,并且AI缩小器1124可以基于接收到的输入值10获得用于对原始图像105执行AI缩小的DNN设置信息。根据实施例,配置控制器1122可以连同输入值10一起向AI缩小器1124提供附加信息,例如,应用AI缩小的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和高动态范围(HDR)的色调映射信息,并且AI缩小器1124可以考虑输入值10和附加信息来获得DNN设置信息。根据实施例,配置控制器1122将接收到的输入值10的至少一部分发送到基于变换的编码器1126,并且基于变换的编码器1126通过特定值的比特率、特定类型的比特率和特定编解码器对第一图像115执行第一编码。
AI缩小器1124接收原始图像105并执行参照图1、图7、图8、图9或图10中的至少一个描述的操作以获得第一图像115。
根据实施例,AI数据30被提供给设备40。AI数据30可以包括原始图像105和第一图像115之间的分辨率差异信息或与第一图像115相关的信息中的至少一个。可以基于输入值10中的目标分辨率差异来确定分辨率差异信息,并且可以基于目标比特率、比特率类型或编解码器类型中的至少一个来确定与第一图像115相关的信息。根据实施例,AI数据30可以包括在AI放大期间使用的参数。AI数据30可以从AI缩小器1124被提供给设备40。
当基于变换的编码器1126处理原始图像105时,获得图像数据25,并且图像数据25被发送到设备40。基于变换的编码器1126可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或VA1处理第一图像115。配置控制器1142基于AI数据30控制AI放大器1144的操作。根据实施例,配置控制器1142根据接收到的AI数据30获得用于AI放大器1144的DNN设置信息,并用获得的DNN设置信息设置AI放大器1144。根据实施例,配置控制器1142可以将接收到的AI数据30发送到AI放大器1144,并且AI放大器1144可以基于AI数据30获得用于对第二图像135执行AI放大的DNN设置信息。根据实施例,配置控制器1142可以连同AI数据30一起向AI放大器1144提供附加信息,例如,应用AI放大的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息以及HDR的色调映射信息,并且AI放大器1144可以考虑AI数据30和附加信息来获得DNN设置信息。根据实施例,AI放大器1144可从配置控制器1142接收AI数据30,从基于变换的解码器1146接收预测模式信息、运动信息或量化参数信息中的至少一个,并且基于预测模式信息、运动信息和量化参数信息中的至少一个以及AI数据30来获得DNN设置信息。
基于变换的解码器1146可处理图像数据25以重建第二图像135。基于变换的解码器1146可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1处理图像数据25。
AI放大器1144可通过基于所设置的DNN设置信息对从基于变换的解码器1146提供的第二图像135执行AI放大来获得第三图像145。
AI缩小器1124可以包括第一DNN,并且AI放大器1144可以包括第二DNN,并且根据实施例,根据参照图9和图10描述的训练方法来训练第一DNN和第二DNN的DNN设置信息。
图12是示出根据本公开的另一实施例的AI编码设备1200的配置的框图。参照图12,根据本公开的另一实施例的AI编码设备1200可包括AI编码器1210和发送器1230。AI编码器1210可包括AI缩小器1212、伪影去除器1216和第一编码器1214。
如上所述,AI缩小器1212可以获得通过第一DNN从原始图像105AI缩小的第一图像115。第一图像115可以具有低于原始图像105的分辨率的分辨率。上面已经描述了由AI缩小器1212进行的AI缩小,因此,将省略其详细描述。
图13是用于描述由AI编码设备1200执行的用于基于原始图像的频率变换系数的值确定伪影图并基于伪影图对第一图像115进行后处理的方法的示图。
在操作1310,AI编码设备1200可以对原始图像105的每个块执行频率变换以产生频率变换图像1315,并且在操作1320,基于频率变换图像1315的每个块的频率变换系数的分布来确定该块的伪影区域。AI编码设备1200可基于伪影区域产生伪影图1325。此时,可以去除伪影图1325中包括的异常值。稍后将参照图17A至图19B描述去除伪影图1325中包括的异常值的方法。
在操作1310,频率变换可以是快速傅里叶变换(FFT)、离散余弦变换(DCT)和小波变换中的一种,但不限于此。
在操作1330,AI编码设备1200可将伪影图1325存储在缓冲器中。在操作1340,AI编码设备1200可将当前帧的伪影图1325与先前帧的伪影图1335进行比较,以获得用于后处理的伪影图1345。然而,AI编码设备1200可将当前帧的伪影图1325确定为用于后处理的伪影图,而不对伪影图1325与伪影图1335进行比较。
这里,伪影图可以是以块为单位表示包括混叠伪影的伪影区域的图。混叠伪影是当图像的采样频率不足以大于图像中信号的最大频率的两倍时或者当邻近信号频谱由于图像的不适当滤波而彼此重叠时产生的噪声。
当AI缩小器1212通过使用第一DNN对原始图像105执行AI缩小时,与原始图像105的采样频率相比,可以降低采样频率,并且当采样频率变得不足以大于原始图像105中的信号的最大频率时,可能产生混叠伪影。
在操作1350,AI编码设备1200可基于伪影图1345对第一图像115执行后处理以产生后处理的第一图像1355。这里,后处理是改变图像中的像素值的处理,并且可以是使用各种滤波器的处理。
例如,AI编码设备1200可对第一图像115的与伪影区域对应的区域进行滤波。此时,可以使用低通滤波器或高斯滤波器中的一种。后处理的第一图像1355可被输入到第一编码器1214。
可选地,AI编码设备1200可通过执行低通滤波并使用包括缩小函数的典型滤波器(诸如双三次滤波器和双线性滤波器),或者通过使用包括低通滤波函数和缩小函数的典型滤波器(诸如Lanczos滤波器)来对原始图像105的与伪影图1345的伪影区域对应的区域进行滤波,从而产生去除了高频分量的缩小的区域。缩小的区域可以按照与通过第一DNN AI缩小的第一图像115相同的缩放程度来缩小。
AI编码设备1200可以利用缩小的区域的像素值替换第一图像115的与伪影区域对应的像素值,但不限于此。
然而,AI编码设备1200可通过使用典型的低通滤波器对原始图像105的与伪影图1345的伪影区域对应的区域进行滤波,并且通过使用典型的缩小方法对滤波的区域进行缩小,从而产生缩小的图像。AI编码设备1200可以利用缩小的区域的像素值替换第一图像115的与伪影区域对应的像素值。
AI编码设备1200可通过使用针对第一图像115进行后处理的经后处理的第一图像来执行第一编码,以减少人眼可能识别的混叠伪影,从而提高编码的图像的质量。
再次参照图12,根据本公开的另一实施例的AI编码设备1200可包括用于控制AI编码器1210和发送器1230的中央处理器(未示出)。或者,AI编码器1210和发送器1230可由它们自己的处理器(未示出)操作,并且处理器(未示出)可相互有组织地操作,以便操作AI编码设备1200。或者,可以通过外部处理器(未示出)的控制来控制AI编码器1210和发送器1230。
AI编码设备1200可包括用于存储缩小器1212、伪影去除器1216、第一编码器1214和发送器1230的输入/输出数据的一个或更多个数据存储装置(未示出)。AI编码设备1200可包括用于控制到数据存储装置(未示出)的数据输出或者来自数据存储装置(未示出)的数据输入的存储器控制器(未示出)。
AI编码设备1200可通过与内部视频编码处理器或外部视频编码处理器交互工作来执行包括预测的图像编码,以对图像进行编码。根据本公开实施例的AI编码设备1200的内部视频编码处理器可以被设置为单独的处理器,或者中央处理器或图形处理单元可以包括用于实施基本图像编码操作的图像编码处理模块。
图120所示的AI编码设备1200的AI缩放器1212、第一编码器1214、发送器1230的操作可与上面参照图7描述的AI缩放器612、第一编码器614和发送器630的操作相同。
可以将第一图像115提供给伪影去除器1216。伪影去除器1216可以检测第一图像115中的伪影,并去除检测到的伪影。
伪影去除器1216可以执行用于去除第一图像115中的伪影的后处理。通过第一DNNAI缩小的第一图像115可以包括伪影(例如,混叠伪影)。也就是说,因为AI缩小降低了原始图像105的分辨率,所以第一图像115可以由于分辨率的改变而包括原始图像105中不存在的形状。
当基于包括原始图像105中不存在的混叠伪影的第一图像115执行编码和解码时,图像质量可能降低。因此,伪影去除器1216可以执行用于去除或减少第一图像115的伪影的后处理。更具体地,伪影去除器1216可执行用于从第一图像115去除或减少可由人眼检测到的混叠伪影的后处理,从而最小化可由人眼检测到的混叠伪影。因此,可以提高编码图像的质量。
产生了可由人眼检测到的混叠伪影的图像可以是图案连续出现的图像,并且当在这样的图像中产生混叠伪影时,可产生与莫尔图案类似的图案的图像。
也就是说,当在具有小尺寸的连续图案中产生混叠伪影时,邻近图案重叠,使得对应图像的特定区域的样点值不能被平滑地布置,导致扭曲的图案方向或不规则的图案。
在下文中,将描述由于在图像中产生的混叠伪影而导致样点值不能被平滑地布置,从而导致扭曲的图案方向或不规则图案的各种示例。
图15A是示出在从原始图像缩小的第一图像中出现的空间混叠伪影的示例示图。
例如,如图15A所示,与原始图像105的另一区域1505的平滑布置的图案不同,从第一DNN输出的第一图像115的区域1500可以包括具有图案在不同方向上扭曲的特性的混叠伪影区域1510。也就是说,原始图像105中包括的高频分量可能在缩小期间失真并表示为不同的频率分量。为此,可能产生空间混叠伪影。伪影去除器1216可以基于原始图像105的频率变换系数的值来确定产生空间混叠伪影的区域,并且执行用于从第一图像110中的区域去除或减少空间混叠伪影的后处理,从而去除或减少空间混叠伪影。
图15B是示出在从原始图像缩小的第一图像中出现的时空混叠伪影的示例图。
如图15B所示,与原始图像105的另一区域1525不同,一些图案不能平滑地布置,并且方向由于失真而扭曲,因此,即使在几乎没有运动使得失真发生的区域,连续图像也具有与先前图像的像素值在时间上不同的像素值。因此,混叠伪影区域1530可以存在于从第一DNN输出的第一图像115的区域1520中。
在这种情况下,包括在混叠伪影区域1530中的混叠伪影可以是时空混叠伪影。将参照图15C简要描述产生时空混叠伪影的原因。
图15C是用于描述在从原始图像缩小的第一图像中出现的时空混叠伪影中由人眼识别的时空混叠伪影的示图。
参照图15C,当原始图像105被缩小时,原始图像105的分辨率可能降低,并且原始图像105可能具有空间上不同的像素值(产生空间混叠伪影)。因为在时间上连续的原始图像105的空间区域1535中连续地存在相同的值,所以在原始图像105中不发生闪烁。然而,在时间上连续的第一图像115的空间区域1540中,可能由于缩小以改变像素值而产生空间混叠伪影,使得不同的值在时间上是连续的。结果,未闪烁的区域可能闪烁,使得人眼可以识别这种闪烁。
时空混叠伪影可以是当在时间上连续的原始图像105中产生少量运动时产生的混叠伪影。因此,通过检测原始图像105中长时间近似静止而没有任何大运动的区域,可以通过执行用于从第一图像115的与原始图像105的检测到的区域对应的区域中去除或减少空间混叠伪影的后处理来去除或减少时空混叠伪影。
图15D是用于描述在从原始图像缩小的第一图像中出现的空间混叠伪影中由人眼识别的空间混叠伪影的示图。
参照图15D,从第一DNN输出的第一图像115可以包括空间混叠伪影区域,在该空间混叠伪影区域中,原始图像105中包括的图案的方向被扭曲为不同的图案方向或者出现不规则图案,并且空间混叠伪影可以容易地被人眼检测到。当第一图像115包括可以被人眼容易地检测到的伪影时,当原始图像105被变换到频域时,频域块1545中的高频变换系数分量被集中在几个高频分量的变换系数分量1550处,而没有被分散在高频区域中。除了DC分量之外,在频域块1545中可以存在很少的频率变换系数分量。因此,可以基于频率变换系数的分布来确定包括可被人眼容易地识别的混叠伪影的区域。通常,1545的频率变换系数可以利用可变标号(诸如Xvr)来用代数方法表示。虚拟变量“v”可以在频率的水平方向上设置索引,并且虚拟变量“r”可以在频率的垂直方向上设置索引。通常,一对(v,r)在这里可以被指代位置、地点、索引对或位置索引。例如,作为非限制性示例,在图15D中,标号为1550的框内的频率变换系数可在64×64的N×N变换块尺寸的位置(v=0,r=30)、(v=0,r=31)、(v=0,r=32)处。在图15D的项1550的非限制性示例中,对应的频率变换系数是X(0,30)、X(0,31)和X(0,32)。每个系数的能量可以被写为量值平方(诸如|X(0,30)|2、|X(0,31)|2、和|X(0,32)|2)。也就是说,通过确定大部分能量是否集中在高频区域的几个频率分量处,可以确定包括伪影的区域。
根据本公开的实施例,伪影去除器1216可以产生表示第一图像115中的包括伪影的区域的伪影信息。伪影信息可以表示第一图像115中的包括伪影的区域的位置。伪影信息可以包括具有水平尺寸和垂直尺寸的二维(2D)伪影图。伪影图的分辨率可以与第一图像115的分辨率相同。可选地,伪影图的分辨率可与原始图像105的分辨率相同。伪影信息可以是表示第一图像115中的包括伪影的区域的位置的一维(1D)数据。
伪影去除器1216可基于原始图像105的频率变换系数的值来产生表示第一图像115中的包括伪影的区域的伪影信息。
伪影图中的像素可具有第一像素值或第二像素值。第一图像115中的与具有第一像素值的像素或块对应的像素或块可以被确定为包括伪影。
此外,第一图像115中的与具有第二像素值的像素或块对应的像素或块可以被确定为不包括伪影。例如,第一像素值可以是1或更大的整数值,并且第二像素值可以是0。因此,在一些实施例中,第一像素值是指示符。值0指示没有伪影。大于0的值指示伪影。大于0的第一像素值的量值指示伪影的程度。然而,第一像素值和第二像素值不限于上述值,并且可以被设置为各种其他特定值。
更具体地,依据混叠伪影的程度,第一像素值或第二像素值可以具有不同的值。当混叠伪影的程度为0至100时,第一像素值可以是1和100之间的整数值,并且第二像素值可以是0。混叠伪影的程度可以基于MHN/HF比率或最大频率的位置被确定。
根据本公开的实施例,伪影去除器1216可以对原始图像105的每个块执行频率变换来产生每个块的频率变换系数,以产生伪影图。伪影去除器1216可以基于原始图像105的每个块的频率变换系数的分布来确定是否满足预设标准,并且根据确定的结果针对每个块产生具有预设值的伪影图。
这里,预设标准可以是基于通过对原始图像105的每个块的低频区域的变换系数的总和与原始图像105的高频区域的变换系数的总和进行比较而获得的第一比较结果。此外,预设标准可以是基于通过对每个块的高频区域的变换系数的最大值和位于具有最大值的第一变换系数周围的变换系数的值的第一总和与低频区域的变换系数的最大值和位于具有最大值的第二变换系数周围的变换系数的值的第二总和进行比较而获得的第二比较结果。此外,预设标准可以是基于通过对高频区域的变换系数的总和与高频区域中的第一变换系数的第一总和进行比较而获得的第三比较结果。此外,预设标准可以是基于通过对预设值与具有大于预设值的值的变换系数的数量进行比较而获得的第四比较结果。预设标准可以是基于第一比较结果、第二比较结果、第三比较结果或第四比较结果中的至少一个。
例如,伪影去除器1216可以基于下面描述的第一条件针对每个块产生具有预设值的伪影图。通常,下面描述的条件是指域上的能量总和。域在公式中用符号标签(诸如HF、LF、MHN或LHN)指示,并且可以与一系列索引(也称为位置索引)对应。总和的自变量可以是带符号的频率变换系数、绝对值频率变换系数或能量(诸如频率变换系数的量值平方)。在一些情况下,自变量不是能量,而仅仅是事件的计数。这些情况在公式中用符号“number”表示。
[第一条件]
如果((∑HF>α∑LF)并且(∑HF>thd1)并且(∑LF>thd2))
在一些实施例中,第一条件针对thd1和thd2使用值0,使得第一条件仅依据高频区域(例如,图14的不包括“DC”并且不包括低频区域LF 1405的HF 1410)上的总和与低频区域(例如,图14的1405)上的缩放总和的比较。在一些实施例中,总和的自变量是指频率变换系数的能量(诸如|X(v,r)|2)。
图14是用于描述基于包括在原始图像中的块中的变换系数的分布来确定伪影区域的方法的示图。
参照图14,HF表示高频区域1410,LF表示低频区域1405,thd1和thd2表示特定阈值,α表示预设系数。例如,thd1可以是64、thd2可以是1024、并且α可以是1.2,但不限于此。高频区域1410可以表示块中的水平频率或垂直频率中的至少一个大于或等于预设值的区域,并且低频区域1405可以表示块中的水平频率和垂直频率小于或等于预设值的区域,但不限于此。低频区域1405可以不包括DC频率的系数。
当满足第一条件时,伪影去除器1216可以确定每个块具有表示存在伪影的第一像素值的伪影图。
例如,伪影去除器1216可以基于下面描述的第二条件产生每个块具有预设值的伪影图。
[第二条件]
如果((∑MHN>β∑MLN)并且(∑MHN>thd3))
这里,MHN 1415表示包括高频区域1410中具有最大值的频率变换系数1420和位于频率变换系数1420周围的变换系数的区域,并且MLN 1430表示包括低频区域1405中具有最大值的频率变换系数1435和位于频率变换系数1435周围的变换系数的区域。表述“位于周围”指示集群的识别。在信号处理领域中已知有许多方法来识别集群。例如,集群可以被识别为在最大值(量值或能量最大值)的预设距离内。预设距离可以是整数L。例如,如果最大值|X|出现在r=R和v=V处,则围绕最大值的频率变换系数位于由(v=V+/-L,r=R+/-L)定义的正方形内。
例如,在图14中,LF区域中的最大值出现在v=2、r=4处(参见图14中的项1435、位置索引为(2,4)处的系数的示例)。注意,DC系数在v=0、r=0处,并且基于零的计数对于r从上到下并且对于v从左到右发生。对于L=2的示例,将尺寸为4×4的正方形定义为围绕项1435(参见图14的区域1430)。最大值周围的频率变换系数不限于正方形内的位置。最大值周围的频率变换系数可以位于矩形或圆形或各种几何形状等内。
此外,thd3表示特定阈值,β表示预设系数。例如,thd3可以是1024并且β可以是1.2,但不限于此。在一些实施例中,thd3为零,并且第二条件仅依赖于满足MHN和MLN之间的比较。
当满足第二条件时,伪影去除器1216可以确定每个块具有表示存在伪影的第一像素值的伪影图。
例如,伪影去除器1216可以基于下面描述的第三条件产生每个块具有预设值的伪影图。
[第三条件]
如果(∑MHN>γ∑HF)
这里,HF表示高频区域1410,并且MHN 1415表示包括高频区域1410中具有最大值的频率变换系数1420和位于频率变换系数1420周围的变换系数的区域。γ可以是小于1的预设系数。例如,γ可以是0.6,但不限于此。
当满足第三条件时,伪影去除器1216可确定每个块具有表示存在伪影的第一像素值的伪影图。
例如,伪影去除器1216可以基于下面描述的第四条件来产生每个块具有预设值的伪影图。
[第四条件]
如果((number∑(HF(i)>thd4)+number∑(LF(i)>thd4))<thd5)
这里,number表示满足特定条件的频率分量的数量,HF(i)表示高频区域1410中的第i频率变换系数,LF(i)表示低频区域1405中的第i频率变换系数。thd4和thd5表示特定阈值。例如,thd4可以是10,并且thd5可以是大于或等于48的值,但不限于此。
在一些实施例中,仅基于高频区域1410中的那些频率变换系数的数量超过thd4来满足第四条件;也就是说,在一些实施例中,第四条件不要求低频区域中的频率变换系数的数量大于thd4。
在以上第一条件、第二条件、第三条件和第四条件中,总和可以是能量总和。
当满足第四条件时,伪影去除器1216可确定每个块具有表示存在伪影的第一像素值的伪影图。
当满足第一条件至第四条件中的至少一个时,伪影去除器1216可确定每个块具有表示存在伪影的第一像素值的伪影图。例如,当满足所有第一条件至第四条件时,伪影去除器1216可以确定每个块具有表示存在伪影的第一像素值的伪影图。
图16是用于示出以块106为单位被分区的原始图像105和以块116为单位被分区的第一图像115的示图。
参照图16,原始图像105和第一图像115可以被分区成相同数量的块106和块116。块106和块116可以具有预设的尺寸。然而,因为原始图像105的分辨率大于第一图像115的分辨率,所以对原始图像105进行分区的块106的尺寸可大于对第一图像115进行分区的块116的尺寸。
根据本公开的实施例,可以以具有相同尺寸的块106为单位或以具有不同尺寸的块106为单位对原始图像105进行分区。根据本公开的实施例,可以以具有相同尺寸的块116为单位或以具有不同尺寸的块116为单位对第一图像115进行分区。
可以对原始图像105的每个块106执行频率变换,并且可以基于频率变换的块106产生伪影图。
在下文中,将参照图17A至图19B描述由AI编码设备1200执行的用于去除伪影图的异常值的处理。
图17A和图17B是用于示出在去除异常值之前和去除异常值之后的伪影图的示图。
参照图17A和图17B,伪影去除器1216可对基于原始图像105的每个块的频率变换系数的分布产生的伪影图1700执行处理(诸如形态学处理),以产生已经去除异常值的伪影图1710。稍后将参照图18A至图19B详细描述该处理。
可以设置感兴趣区域(ROI),并且在除了ROI之外的剩余区域中,第一像素值可以改变为第二像素值。ROI可以是范围从伪影图的中心开始的具有预设尺寸的区域。
图18A和图18B是用于描述根据本公开的实施例的由AI编码设备1200去除异常值的处理的示图。
示出了基于原始图像105的每个块的频率变换系数的分布而产生的伪影图1800。在图18A中,a1、b1等是用于将块彼此区分开的索引。
参照图18A,块a1、块b1等可以具有第一像素值,并且块c1、块d1等可以具有第二像素值。
具有第一像素值的块可以表示在第一图像115中存在伪影的区域,并且具有第二像素值的块可以表示在第一图像115中不存在伪影的区域。
根据本公开的实施例,伪影去除器1216可以对基于原始图像105的每个块的频率变换系数的分布产生的伪影图1800执行形态学处理。
形态学处理可以是基于相邻像素的像素值改变图像中的洞(hole)的像素值或基于相邻像素的像素值改变图像中的岛(island)的像素值的处理。例如,在图18A中,块i5具有与相邻块h4、i4、j4、h5、j5、h6、i6和j6的像素值不同的像素值,因此,块i5与洞对应。此外,块f7具有与相邻块e6、f6、g6、e7、g7、e8、f8和g8的像素值不同的像素值,因此,块f7与岛对应。
图18B示出被执行形态学处理的伪影图1850。如图18B所示,块i5的像素值可从第二像素值改变为第一像素值,并且块f7的像素值可从第一像素值改变为第二像素值。
形态学处理可以包括侵蚀处理和膨胀处理。形态学处理可以包括连续执行侵蚀处理和膨胀处理的开处理。通过执行开处理,可以通过侵蚀处理去除噪声,并且可以通过膨胀处理恢复尺寸已经减小的区域。
然而,如上参照图18A和图18B所述的去除异常值的操作可能伴随复杂的计算(如形态学处理)。在下文中,将参照图19A和图19B描述由AI编码设备1200通过简单计算去除异常值的处理。
图19A和图19B是用于描述根据本公开的实施例的由AI编码设备去除异常值的处理的示图。
参照图19A,根据本公开的实施例,伪影去除器1216可以执行用于去除基于原始图像105的每个块的频率变换系数的分布产生的伪影图上的异常值的处理。
当伪影图中包括的当前块1910具有第一像素值并且在范围从当前块1910开始的预设区域1900中包括的块1920中具有第一像素值的块的数量大于特定阈值(例如,5)时,伪影去除器1216可以确定不改变当前块1910的第一像素值。参照图19B,根据本公开的实施例,当伪影图中包括的当前块1940具有第一像素值并且在范围从当前块1740开始的预设区域1930中包括的块1950中具有第一像素值的块的数量小于或等于特定阈值(例如,5)时,伪影去除器1216可以将当前块1940的第一像素值改变为第二像素值。
根据本公开的实施例,当第一图像115被配置有多个帧时,伪影去除器1216可以产生与各个帧对应的伪影图。根据本公开的实施例,伪影去除器1216可以产生与第一图像115的多个帧中的一些帧对应的伪影图,以防止比特率增大。例如,伪影去除器1216可产生与多个帧中的发生场景改变的帧和/或I帧对应的伪影图。
根据本公开的实施例,伪影去除器1216可以将原始图像105的伪影图与先前图像的至少一个伪影图进行比较,并且基于确定的结果执行改变第一图像115中的像素的像素值的后处理。
此外,可对伪影图执行基于平滑处理和/或无缝处理改变像素值的处理。平滑处理可以基于用于平滑的各种滤波方法,并且包括形态学处理。
图20A至图20F是用于描述根据本公开的实施例的通过对伪影图的后处理应用区域执行平滑处理和无缝处理来校正伪影图的方法的示图。
参照图20A至图20F,AI编码设备1200可对伪影图2000中包括的伪影区域2010执行平滑处理和/或无缝处理,以产生具有伪影区域2020的伪影图2030。当块图的基本单元是块(例如,N×N,其中,N是整数)时,可以以小于块的像素为单位或以小于N×N的块为单位执行平滑处理和无缝处理。
平滑处理是用于平滑区域的边界的处理。例如,通过对区域2040执行平滑处理,可以产生区域2050。平滑处理可以包括形态学处理(例如,开处理)。
无缝处理是用于使区域的边界模糊的处理。例如,无缝处理可以包括泊松混合处理。例如,通过对区域2040执行无缝处理,可以产生区域2060。
例如,通过对区域2040执行无缝处理和平滑处理两者,可以产生边界模糊且平滑的区域(如区域2070)。
通过基于平滑处理和/或无缝处理对伪影图执行改变像素值的处理,并对与伪影图对应的第一图像115的区域执行后处理,可产生具有平滑边界的更自然的图像。
图21是用于描述通过将当前帧的伪影图中的块与紧邻的先前帧的伪影图中的同位块进行比较来校正伪影区域的方法的示图。
参照图21,伪影去除器1216可以确定N(N是整数)个先前图像(例如,帧)的伪影图2100中的N个第二块之中具有第一像素值的块的数量是否大于或等于K(K是整数),其中,N个第二块与原始图像的伪影图中具有第一像素值的第一块对应,并且基于确定的结果执行改变第一块中的像素的像素值的后处理。此时,与第一块对应的先前图像的第二块可以是与第一块同位的块。
此外,伪影去除器1216可以基于原始图像的运动矢量或光流中的至少一个来执行改变第一图像中的像素的像素值的后处理。例如,当伪影去除器1216确定与原始图像的伪影图2100中具有第一像素值的第一块对应的N(N是整数)个先前图像(例如,帧)的伪影图中的N个第二块之中具有第一像素值的块的数量是否大于或等于K(K是整数)时,伪影去除器1216可以基于原始图像的运动矢量或光流中的至少一个来确定与第一块对应的先前图像的第二块。在这种情况下,当基于运动矢量的幅值和光流的运动幅值大于预设幅值时,当确定块的数量是否大于或等于K时,可以不计数对应的先前图像的伪影图中的第二块。
伪影去除器1216可以计算原始图像的第一块的变换系数与至少一个先前原始图像的第二块的变换系数之间的绝对差之和(SAD),第二块与第一块同位。在一些实施例中,SAD基于在一些域(图像和索引的范围)上指定的频率变换系数X的实部的差的绝对值或虚部的差的绝对值中的至少一个的总和。伪影去除器1216可以确定计算的SAD是否在预设范围内。也就是说,伪影去除器1216可以根据下面的等式2确定计算的SAD是否在预设范围内。
[等式2]
Thd1<SAD<Thd2
这里,Thd1和Thd2可以具有预设值的阈值。
伪影去除器1216可以基于确定的结果执行改变第一图像中的像素的像素值的后处理。也就是说,当伪影去除器1216确定计算的SAD在预设范围内时,伪影去除器1216可以确定改变第一图像中的像素的像素值的后处理。第一块可以是基于伪影信息确定的块,并且可以是伪影图中具有第一像素值的块。
伪影去除器1216可以基于图17A和图17B以及图18A和图18B所示的伪影图1700、1710、1800和1850来执行改变第一图像中的像素的像素值的后处理。
根据本公开的实施例,伪影去除器1216可以基于伪影图将预设滤波器应用于第一图像115中的包括伪影的区域,以执行改变第一图像115中的像素的像素值的后处理。预设滤波器可以包括高斯滤波器或低通滤波器中的至少一个。
例如,伪影去除器1216可以基于伪影图将高斯滤波器应用于空间域的第一图像115中的包括伪影的区域。伪影去除器1216可基于伪影图将低通滤波器应用于频域的第一图像115中的包括伪影的区域。此时,可以基于原始图像中的区域的频率变换系数之中的位于高频区域中的变换系数的最大值来确定低通滤波器的截止频率,其中,原始图像中的区域与第一图像115中包括伪影的区域对应。例如,低通滤波器的截止频率可以被确定为在高频区域中具有最大值的变换系数的频率的1/2。可选地,低通滤波器的截止频率可以由下面的等式3确定。
[等式3]
Cutoff-freq=(pos_max_val_high-pos_dc)/2
这里,pos_max_val_high表示在高频区域中具有最大值的变换系数的频率,pos_dc表示在低频区域中的DC系数的频率。可以针对水平方向和水平方向中的每一个确定截止频率。
根据本公开的实施例,伪影去除器1216可以通过执行低通滤波和使用包括缩小功能的典型滤波器(诸如双三次滤波器和双线性滤波器)的滤波,或者通过使用包括低通滤波功能和缩小功能两者的典型滤波器(诸如Lanczos滤波器)执行滤波,来基于伪影图对与第一图像115中包括伪影的区域对应的原始图像中的区域进行滤波,从而产生已经去除高频分量的缩小的区域。缩小的区域可以按照与通过第一DNN AI缩小的第一图像115相同的缩放程度被缩小。
第一图像115中包括伪影的区域中的像素的像素值可以改变为缩小的区域中的像素的像素值。伪影去除器1216可以扩展原始图像105中的对应区域,将滤波器应用于扩展的区域以产生缩小的区域,减小缩小的区域以与第一图像115中的包括伪影的区域对应,并且将第一图像115中包括伪影的区域中所包括的像素的像素值改变为缩小的区域中的像素的像素值。此外,根据本公开的实施例,伪影去除器1216可使用伪影检测网络来产生伪影图。伪影检测网络可以是一种DNN,并且包括至少一个卷积层。可以基于输入图像和具有确认的伪影的地面实况(GT)图像来训练伪影检测网络。伪影去除器1216可将第一图像115输入到伪影检测网络,并且获得从伪影检测网络输出的伪影图。
第一编码器1214可对被伪影去除器1216后处理的第一图像115进行编码。如上所述,编码可包括预测后处理的第一图像以产生预测数据的处理、产生与后处理的第一图像和预测数据之间的差对应的残差数据的处理、将作为空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理、以及对量化的残差数据进行熵编码的处理。
数据处理器1232可以处理AI数据或图像数据中的至少一个,使得AI数据或图像数据中的至少一个以预设形式发送。例如,当需要以比特流的形式发送AI数据和图像数据时,数据处理器1232可以将AI数据处理为以比特流的形式进行表示,并且通过通信器1234以比特流的形式发送AI数据和图像数据。根据本公开的另一实施例,数据处理器1232可以将AI数据处理为以比特流的形式进行表示,并通过通信器1234发送与AI数据对应的比特流和与图像数据对应的比特流。根据另一示例,数据处理器1232可以将AI数据处理为以帧或包的形式进行表示,并且通过通信器1234以比特流的形式发送图像数据并且以帧或包的形式发送AI数据。
通信器1234可以通过网络发送作为AI编码的结果而产生的AI编码数据。作为AI编码的结果而产生的AI编码数据可以包括图像数据和AI数据。
图像数据和AI数据可以通过相同种类的网络或不同种类的网络被发送。
图像数据可以包括作为对后处理的第一图像的第一编码的结果而产生的数据。图像数据可以包括基于后处理的第一图像中的像素值产生的数据,例如,作为后处理的第一图像与预测数据之间的差的残差数据。此外,图像数据可以包括在对后处理的第一图像执行第一编码的处理中使用的信息。例如,图像数据可以包括关于用于对后处理的第一图像执行第一编码的模式的信息,以及与用于对后处理的第一图像执行第一编码的量化参数相关的信息。
AI数据可包括用于使AI解码设备能够对作为与第一DNN的缩小目标对应的放大目标的第二图像135进行AI放大的信息。根据示例,AI数据可以包括关于原始图像105和第一图像115(或后处理的第一图像)之间的差的信息。此外,AI数据可以包括与第一图像115(或后处理的第一图像)有关的信息。与第一图像115(或后处理的第一图像)有关的信息可以包括关于第一图像115(或后处理的第一图像)的分辨率、作为对后处理的第一图像的第一编码的结果而产生的图像数据的比特率或用于对后处理的第一图像执行第一编码的编解码器类型中的至少一个的信息。此外,AI数据可以包括由伪影去除器1216产生的伪影信息。例如,AI数据可以包括伪影图的数据。
根据本公开的实施例,伪影图也可以首先被第一编码器1214执行第一编码,然后作为图像数据被发送。
图22A是用于描述根据本公开的另一实施例的AI编码方法的流程图。
在操作S2210,AI编码设备1200可通过使用第一DNN获得从原始图像105AI缩小的第一图像115。
在操作S2220,AI编码设备1200可产生表示第一图像115中的包括伪影的区域的伪影信息。伪影可以包括空间混叠伪影或时空混叠伪影中的至少一个。伪影信息可包括具有预设尺寸的伪影图。例如,当原始图像105的分辨率是3840×2160时,可以产生尺寸为240×135的伪影图。在这种情况下,块图的基本单元可以与原始图像105的尺寸为16×16的块对应。当缩小的图像的分辨率是1920×1080时,块图的基本单元可以与缩小的图像的尺寸为8×8的块对应,但不限于此。然而,块图的基本单元可以与原始图像105的尺寸为M×M(M是整数)的块对应。当块图的基本单元与原始图像105的像素对应时,块图可以具有3840×2160的尺寸。伪影可以表示空间混叠伪影或时空混叠伪影中的至少一个。
AI编码设备1200可基于原始图像105的频率变换系数的值来产生伪影图。AI编码设备1200可基于原始图像105的每个块的频率变换系数的分布来产生伪影图。根据另一示例,AI编码设备1200可通过使用伪影检测网络来产生伪影图。
在操作S2230,AI编码设备1200可基于伪影信息执行改变第一图像115中的像素的像素值的后处理。例如,AI编码设备1200可基于伪影信息将预设滤波器应用于第一图像115中的包括伪影的区域,从而改变第一图像115中的像素的像素值。在这种情况下,预设滤波器可以包括高斯滤波器或低通滤波器中的至少一个。
可选地,AI编码设备1200可基于伪影信息将滤波器应用于原始图像105的与第一图像115中的包括伪影的区域对应的区域以产生缩小的区域,并且将第一图像115中的包括伪影的区域中的像素的像素值改变为缩小的区域中的像素的像素值。在这种情况下,滤波器可以是典型滤波器。例如,滤波器可以包括双三次滤波器、双线性滤波器和Lanczos滤波器。
在操作S2240,AI编码设备1200可对后处理的第一图像执行第一编码。AI编码设备1200可将AI数据和作为对后处理的第一图像进行编码的结果而产生的图像数据发送到AI解码设备。AI数据可以包括伪影信息。
图22B是用于描述根据本公开的另一实施例的AI编码方法的示图。在操作S2250,AI编码设备1200可通过使用第一DNN获得从原始图像105AI缩小的第一图像115。
在操作S2260,AI编码设备1200可对原始图像105的块执行频率变换,并且基于通过频率变换产生的每个块的变换系数的值来产生表示第一图像115中的包括伪影的区域的第一伪影信息。第一伪影信息可以包括伪影图。如上所述,可去除伪影图的异常值。
在操作S2270,AI编码设备1200可基于至少一个先前图像的伪影信息或当前图像的第一伪影信息中的至少一个来产生关于当前图像的第二伪影信息。先前图像的伪影信息可以包括伪影图,并且可以去除伪影图的异常值。
在操作S2280,AI编码设备1200可基于第一伪影信息或第二伪影信息中的至少一个来执行改变第一图像115中的像素的像素值的后处理。当AI编码设备1200基于第一伪影信息执行改变第一图像115中的像素的像素值的后处理时,可省略产生第二伪影信息的操作S2270。
图23是示出根据本公开的另一实施例的AI解码设备2300的配置的框图。
参照图23,AI解码设备2300可包括接收器2310和AI解码器2330。接收器2310可包括通信器2312、解析器2314和输出器2316,并且AI解码器2330可包括第一解码器2332和AI放大器2334。通信器2312可通过网络接收包括图像数据和AI数据的AI编码数据。图像数据可以包括作为对后处理的第一图像的第一编码的结果而产生的信息,并且AI数据可以包括伪影信息。
解析器2314可将通过通信器2312接收的AI编码数据分离为图像数据和AI数据,并通过输出器2316将图像数据发送到第一解码器2332并将AI数据发送到AI放大器2334。
如上参照图2所述的AI解码设备200的通信器212、解析器214和输出器216的操作与图23的AI解码设备2300的通信器2312、解析器2314和输出器2316的操作相同,因此,将省略其详细描述。
根据本公开实施例的AI解码设备2300可包括接收器2310和AI解码器2330。AI解码设备2300可包括用于控制接收器2310和AI解码器2330的中央处理器(未示出)。或者,接收器2310和AI解码器2330可由它们自己的处理器(未示出)操作,并且处理器(未示出)可相互有组织地操作以便操作AI解码设备2300。或者,可通过AI解码设备2300的外部处理器(未示出)的控制来控制接收器2310和AI解码器2330。
AI解码设备2300可包括用于存储通信器2312、解析器2314、输出器2316、第一解码器2332和AI放大器2334的输入/输出数据的一个或更多个数据存储装置(未示出)。AI解码设备2300可包括用于控制数据存储装置(未示出)的数据输入/输出的存储器控制器(未示出)。
AI解码设备2300可通过与内部视频解码处理器或外部视频解码处理器交互工作来执行包括预测的图像解码,以对图像进行解码。根据本公开实施例的AI解码设备2300的内部视频解码处理器可被设置为单独的处理器,或者中央处理器或图形处理单元可包括用于实现基本图像解码操作的图像解码处理模块。
第一解码器2332可以对图像数据执行第一解码以产生与后处理的第一图像对应的第二图像135。根据本公开的实施例,当伪影信息被执行第一编码然后被发送到通信器2312时,第一解码器2332可对与伪影信息对应的图像数据执行第一解码以产生伪影信息。
AI放大器2334可以从第一解码器2332接收第二图像135,并且基于第二DNN将第二图像135放大到第三图像145。已经参照图2详细描述了基于第二DNN的AI放大,因此将省略其描述。
AI放大器2334可输出第三图像145和伪影信息。根据本公开的实施例,AI放大器2334可在输出伪影图之前放大伪影图。如上所述,因为伪影图可具有与第一图像115的分辨率相同的分辨率,所以AI放大器2334还可放大伪影图,使得伪影图的分辨率与第三图像145的分辨率相同。此时,AI放大器2334可对伪影图执行传统放大。
根据本公开的实施例,AI放大器2334可以将伪影信息和第三图像145输出到图像质量引擎。图像质量引擎可以在显示设备(诸如TV)显示图像之前对图像执行图像质量增强处理。图像质量引擎可包括用于处理图像的多个滤波器。例如,图像质量引擎可以将图像信号分析、噪声去除、细节增强或放大中的至少一个处理应用于图像以增强图像质量。
根据本公开的实施例,当AI解码设备2300包括在显示设备中时,AI放大器2334可将伪影信息和第三图像145输出到显示设备中的存储装置(例如,主存储装置或辅助存储装置),以将伪影信息和第三图像145存储在存储装置中,使得由图像质量引擎执行第三图像145的图像质量增强。图像质量引擎可以从存储装置加载第三图像145和伪影信息,并对第三图像145执行图像质量增强。可选地,AI放大器2334可以将伪影信息和第三图像145直接发送到显示设备中的图像质量引擎,使得由图像质量引擎执行第三图像145的图像质量增强。
根据本公开的实施例,AI解码设备2300可通过有线和/或无线网络将第三图像145和伪影信息输出或发送到显示设备。
图像质量引擎可以基于伪影信息执行用于改变第三图像145中的像素的像素值的后处理。
图24A是示出图像质量引擎2400的示图。
图像质量引擎2400可包括多个滤波器,并且伪影图可被输入到基于伪影图对第三图像145进行后处理的滤波器,即,图24A的抗混叠滤波器。抗混叠滤波器可以包括低通滤波器或高斯滤波器。低通滤波器可以是以具有预设尺寸的掩模的形状形成的空间域的滤波器或频域的滤波器。
根据本公开的实施例,图像质量引擎2400可以改变低通滤波器的权重,使得可以更有效地去除存在于第三图像145中的混叠伪影。例如,图像质量引擎2400可以改变低通滤波器的预设权重。例如,图像质量引擎2400可以增大或减小低通滤波器的预设权重。
根据本公开的实施例,图像质量引擎2400可基于伪影图将低通滤波器应用于第三图像145中的包括伪影的区域。
更具体地,图像质量引擎2400可将低通滤波器应用于第三图像145中与伪影图中具有第一像素值的区域对应的区域。
例如,AI解码设备2300可接收从AI编码设备1200发送的关于截止频率的信息,并且图像质量引擎2400可基于从AI解码设备2300输出的关于截止频率的信息将频域的低通滤波器应用于第三图像145中的区域。
根据另一示例,图像质量引擎2400可以基于伪影图将以具有预设尺寸的掩模的形状形成的低通滤波器应用于第三图像145中的包括伪影的区域。可根据第三图像145的像素单元或伪影图的值来确定应用于第三图像145的低通滤波器的强度。
将参照图24B描述根据伪影图的值调整以具有预设尺寸的掩模的形状形成的低通滤波器的强度的示例。
图像质量引擎2400可以根据预设标准确定低通滤波器的强度范围。例如,图像质量引擎2400可基于原始图像105的种类、分辨率、尺寸和图像质量、原始图像105中包括的主体的种类或伪影信息中的至少一个来确定滤波器的强度。可以通过显示装置显示通过图像质量引擎2400的多个滤波器的第三图像145。
如上所述,当确定第二图像135未被放大时,可以通过显示设备显示通过图像质量引擎2400的多个滤波器的第二图像135。
图24B是用于描述由AI解码设备2300执行的用于基于伪影信息调整低通滤波器的强度并执行滤波的方法的示图。
参照图24B,低通滤波器可以是以3×3掩膜2450的形状形成的滤波器。AI解码设备2300可通过调整3×3掩膜2450中的系数的值的方法来调整低通滤波器的强度。例如,AI解码设备2300可基于伪影图将3×3掩模2450中的系数中的位于3×3掩膜2450的中心的系数从2改变为5。在这种情况下,可以通过滤波来削弱图像的模糊程度。可选地,AI解码设备2300可基于伪影图将3×3掩膜2450中的系数中除了位于中心的系数之外的剩余系数从1改变为2。
此时,可以基于各种方法来确定系数的比率和值。
例如,当系数基于高斯滤波器时,可以基于下面的等式4来确定系数。
[等式4]
Figure BDA0003390884300000541
AI解码设备2300可通过基于伪影图调整σ来确定各个系数的值。
此外,AI解码设备2300可基于伪影图的第一像素值来确定低通滤波器的强度。例如,当第一像素值小于预设值时,AI解码设备2300可将低通滤波器的强度确定为第一强度,并且当第一像素值大于或等于预设值时,AI解码设备2300可将低通滤波器的强度确定为第二强度。
图25是示出根据本公开另一实施例的AI解码设备2500的配置的框图。
参照图25,AI解码设备2500可包括接收器2510和AI解码器2530。接收器2510可包括通信器2512、解析器2514和输出器2516,并且AI解码器2530可包括第一解码器2532、AI放大器2534和伪影去除器2536。
通信器2512可通过网络接收包括图像数据和AI数据的AI编码数据。图像数据可以包括作为对后处理的第一图像的第一编码的结果而产生的信息,并且AI数据可以包括伪影信息。
解析器2514可将通过通信器2512接收的AI编码数据分离为图像数据和AI数据,并通过输出器2516将图像数据传送到第一解码器2532并将AI数据发送到AI放大器2534。
上面参照图2描述的AI解码设备200的通信器212、解析器214和输出器216的操作与图25的AI解码设备2500的通信器2512、解析器2514和输出器2516的操作相同,因此,将省略其详细描述。
AI解码器2532可以对图像数据执行第一解码以产生与后处理的第一图像对应的第二图像135。根据本公开的实施例,当伪影信息被执行第一编码然后被发送到通信器2512时,第一解码器2532可对与伪影信息对应的图像数据执行第一解码以产生伪影信息。在这种情况下,可将伪影信息从第一解码器2532提供给伪影去除器2536。
伪影去除器2536可以从输出器2516接收AI数据中包括的伪影信息。可选地,伪影去除器2536可从第一解码器2532接收作为对图像数据的第一解码的结果而恢复的伪影信息。可选地,伪影去除器2536可以从AI放大器2534接收AI数据中包括的伪影信息。
伪影去除器2536可以对第二图像135中的包括伪影的区域执行后处理。
伪影去除器2536可接收由第一解码器2532产生的第二图像,并且基于伪影信息执行改变第二图像135的像素的像素值的后处理。更具体地,伪影去除器2536可以将低通滤波器应用于第二图像135中的包括伪影的区域。
从伪影去除器2536输出的后处理的第二图像可以被发送到AI放大器2534,并且AI放大器2534可以输出通过第二DNN AI放大的第三图像145。可以根据需要对第三图像145进行后处理,然后通过显示设备显示。
此外,根据本公开的实施例,伪影去除器2536可以对第三图像145而不是第二图像135执行后处理。在这种情况下,AI放大器2534可以将从由第一解码器2532产生的第二图像135AI放大的第三图像145提供给伪影去除器2536。对于第三图像145的后处理,AI放大器2534可放大具有低分辨率的伪影图以产生具有高分辨率的伪影图,并将具有高分辨率的伪影图提供给伪影去除器2536。
伪影去除器2536可以将低通滤波器应用于第三图像145中的包括伪影的区域。
可以从伪影去除器2536输出后处理的第三图像以进行显示。
图26是用于描述根据本公开的另一实施例的AI解码方法的流程图。
在操作S2610,AI解码设备2500可获得作为对后处理的第一图像的第一编码的结果而产生的图像数据和与AI缩小相关的AI数据。
可以以比特流的形式接收图像数据。图像数据可以包括基于后处理的第一图像中的像素值产生的数据,例如,作为后处理的第一图像与预测数据之间的差的残差数据。此外,图像数据可以包括在对后处理的第一图像的第一编码处理中使用的信息。例如,图像数据可以包括关于用于对后处理的第一图像执行第一编码的模式的信息、以及与用于对后处理的第一图像执行第一编码的量化参数相关的信息。
AI数据可以包括用于使第二DNN能够对作为与第一DNN的缩小目标对应的放大目标的第二图像135进行AI放大的信息。此外,AI数据可以包括表示第一图像115中的包括伪影的区域的伪影信息(例如,伪影图)。
在操作S2620,AI解码设备2500可基于图像数据获得第二图像135。更具体地,AI解码设备2500可通过基于使用频率变换的图像恢复方法对图像数据执行第一解码来产生与后处理的第一图像对应的第二图像135。
在操作S2630,AI解码设备2500可通过使用第二DNN获得从第二图像135AI放大的第三图像145。
在操作S2640,AI解码设备2500可将伪影信息和第三图像145输出到图像质量引擎。AI解码设备2500可请求改变图像质量引擎的多个滤波器中的使用伪影信息处理第三图像145的滤波器的权重。
被图像质量引擎执行图像质量增强的第三图像145可以由显示设备显示。
此外,上面已经参照图9描述了训练第一DNN 700和第二DNN 300的处理。根据本公开的实施例,可以用基于伪影信息后处理的第一训练图像替换图9的第一训练图像802,使得可以训练第一DNN 700和第二DNN 300。此外,可以使用通过对第一训练图像802执行第一编码和第一解码而产生的第二训练图像作为第二DNN 300的输入。此外,可以用基于伪影信息后处理的第三训练图像替换第三训练图像804,使得可以训练第一DNN 700和第二DNN300。
此外,本公开的上述实施例可以被编写为可以存储在介质中的计算机可执行程序或指令。
介质可以连续地存储计算机可执行程序或指令,或者临时存储计算机可执行程序或指令以供执行或下载。此外,介质可以是组合了单件或多件硬件的各种记录介质或存储介质中的任何一种,并且介质不限于直接连接到计算机系统的介质,而是可以发布在网络上。介质的示例包括被配置为存储程序指令的磁性介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光软盘)以及ROM、RAM和闪存。介质的其他示例包括由发布应用的应用商店或者由提供或发布其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。
此外,可以经由软件模块来实现与上述DNN相关的模型。当DNN模型经由软件模块(例如,包括指令的程序模块)实现时,DNN模型可以存储在计算机可读记录介质中。
此外,DNN模型可以通过以硬件芯片的形式集成而成为上述AI解码设备200或AI编码设备600的一部分。例如,DNN模型可以以用于AI的专用硬件芯片的形式制造,或者可以被制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分。
此外,DNN模型可以以可下载软件的形式被提供。计算机程序产品可以包括通过制造商或电子市场电子发布的软件程序形式的产品(例如,可下载的应用)。对于电子发布,软件程序的至少一部分可以存储在存储介质中或者可以临时产生。在这种情况下,存储介质可以是制造商或电子市场的服务器,或者是转发服务器的存储介质。
根据实施例的用于AI编码和AI解码的方法和设备可以通过基于AI的图像编码和解码以低比特率处理图像。
此外,根据本公开的实施例的用于AI编码和AI解码的方法和设备可以去除图像中的伪影以增强图像的质量。
应当注意,根据本公开的实施例的用于AI编码和解码的方法和设备的效果不限于上述那些效果,并且根据以下描述,本公开的其他效果对于本领域技术人员将是显而易见的。
虽然已经参照附图描述了本公开的一个或更多个实施例,但是本领域普通技术人员将理解,在不脱离由所附权利要求限定的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (15)

1.一种用于通过使用人工智能AI提供图像的服务器,其中,所述服务器包括:
一个或更多个处理器,当执行存储在服务器中的一个或更多个指令时,被配置为执行以下操作:
从预先存储在服务器中的多条神经网络NN设置信息中选择NN设置信息,
使用用于缩小的神经网络NN对原始图像进行AI缩小以获得第一图像,其中,用于缩小的NN通过选择的所述NN设置信息被设置,并且所述原始图像包括多个块,
基于所述原始图像的多个频率变换系数,获得包括第一图像的伪影图的伪影信息,其中,所述伪影信息表示第一图像中包括伪影的第一区域,
基于所述伪影信息对第一图像进行后处理以获得后处理的第一图像,
对后处理的第一图像进行编码以获得图像数据,以及
向电子装置提供所述图像数据和与AI缩小相关的AI数据,其中,所述AI数据包括所述伪影信息并且被用于从预先存储在服务器中的多条NN设置信息中选择NN设置信息。
2.如权利要求1所述的服务器,其中,所述伪影图具有预设尺寸。
3.如权利要求1所述的服务器,
其中,在所述伪影图中通过第一像素值指示存在伪影,并且在所述伪影图中通过第二像素值指示不存在伪影,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:
对所述多个块中的第一块执行频率变换以获得与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,
基于第二多个频率变换系数的分布来确定是否满足标准,以及
当满足所述标准时,获得所述伪影图,其中,所述伪影图中的第一像素值表示第二多个频率变换系数的程度值。
4.如权利要求3所述的服务器,其中,当不满足所述标准时,所述伪影图包括作为第二像素值的第二多个频率变换系数的程度值。
5.如权利要求1所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于所述伪影图对第一图像执行形态学处理、平滑处理或无缝处理。
6.如权利要求3所述的服务器,其中,所述原始图像是视频序列中的多个原始图像中的当前图像,并且所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于将所述伪影图与所述视频序列的所述多个原始图像中的先前原始图像的至少一个第二伪影图进行比较来对第一图像进行后处理。
7.如权利要求6所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以通过以下操作对第一图像进行后处理:
确定N个先前伪影图中的K个或更多个先前伪影图在第二多个频率变换系数的第一位置索引处是否与第一位置索引处的所述伪影图不一致,以及
当所述K个或更多个先前伪影图在第一位置索引处与所述伪影图不一致时,改变第一块的第一像素值,其中,当第一位置索引处的所述伪影图的第一像素值与第一位置索引处的K个或更多个先前伪影图中的每个先前伪影图的第一像素值不同时,第一先前伪影图与所述伪影图不一致。
8.如权利要求1所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:
对所述多个块中的第一块执行频率变换以获得与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,
计算第二多个频率变换系数的第二位置索引处的第一频率变换系数和与至少一个先前原始图像的第二块相关联的第三多个频率变换系数的第二位置索引处的第二频率变换系数之间的绝对差之和SAD,其中,第二块与第一块同位,
确定计算的SAD是否在预设范围内,以及
当计算的SAD在所述预设范围内时,通过改变第一块的第一像素值来对第一图像进行后处理。
9.如权利要求1所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:基于所述伪影图并且基于所述原始图像的运动矢量或所述原始图像的光流中的至少一个对第一图像进行后处理。
10.如权利要求1所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:通过基于所述伪影信息将滤波器应用于第一区域来对第一图像进行后处理。
11.如权利要求1所述的服务器,其中,所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:
基于所述伪影信息,将滤波器应用于所述原始图像的与第一图像中的第一区域对应的第二区域,以获得包括第二像素值的缩小的区域;以及
将第一图像中包括伪影的第一区域中的第三像素值改变为缩小的区域的第二像素值。
12.如权利要求10所述的服务器,其中,所述滤波器包括高斯滤波器或低通滤波器中的至少一个,并且所述处理器还被配置为执行所述一个或更多个指令以执行以下操作:
对所述多个块中的第一块执行频率变换以获得与第一块对应的第二多个频率变换系数,其中,所述多个频率变换系数包括第二多个频率变换系数,以及
基于第二多个频率变换系数中的位于高频区域中的变换系数的最大值来确定低通滤波器的截止频率。
13.如权利要求3所述的服务器,其中,当满足第一条件、第二条件、第三条件或第四条件中的一个或更多个时,满足所述标准,
第一块包括DC频率变换系数、低频区域和高频区域,
当高频区域上的第二多个频率变换系数的第一能量值的第一总和超过低频区域上的第二多个频率变换系数的第二能量值的第二总和时,满足第一条件,其中,第二总和的缩放是第一预定缩放,
当包括高频区域上的第二多个频率变换系数的第二频率变换系数的第三位置索引处的第一最大能量值和位于第三位置索引周围的第四位置索引处的频率变换系数的能量值的第三总和超过包括低频区域上的第二多个频率变换系数的第三频率变换系数的第四位置索引处的第二最大能量值和位于第四位置索引周围的频率变换系数的能量值的第四总和时,满足第二条件,其中,第四总和的缩放是第二预定缩放,
当高频区域的第三总和超过第一总和的缩放版本时,满足第三条件,其中,第一总和的缩放是第三预定缩放,或者
当频率变换系数具有超过预设值的能量的次数小于阈值数量时,满足第四条件。
14.一种用于通过被配置为使用人工智能AI的服务器提供图像的方法,其中,所述方法包括:
从预先存储在服务器中的多条神经网络NN设置信息中选择NN设置信息;
使用用于缩小的神经网络NN对原始图像进行缩小以获得第一图像,其中,用于缩小的NN通过选择的所述NN设置信息被设置,并且所述原始图像包括多个块;
基于所述原始图像的多个频率变换系数,获得包括第一图像的伪影图的伪影信息,其中,所述伪影信息表示第一图像中包括伪影的第一区域;
基于所述伪影信息对第一图像进行后处理以获得后处理的第一图像;
对后处理的第一图像进行编码以获得图像数据;以及
向电子装置提供所述图像数据和与AI缩小相关的AI数据,其中,所述AI数据包括所述伪影信息并且被用于从预先存储在服务器中的多条NN设置信息中选择NN设置信息。
15.一种通过被配置为使用人工智能AI的电子装置显示图像的方法,其中,所述方法包括:
获得与对第一图像的编码结果对应的图像数据;
获得与将原始图像AI缩小到第一图像有关的AI数据,其中,所述AI数据包括从所述原始图像推导的伪影信息,其中,所述伪影信息表示第一图像中包括伪影的区域;
执行所述图像数据的解码以获得与第一图像对应的第二图像;
从预先存储在所述电子装置中的多条神经网络NN设置信息中选择NN设置信息,其中,所述NN设置信息与获得的AI数据的至少一部分对应,并且所述NN设置信息被用于对获得的第二图像执行AI放大;
使用用于放大的神经网络NN对第二图像进行AI放大以获得第三图像,其中,用于放大的NN利用选择的所述NN设置信息被设置;
在所述电子装置的图像质量引擎上提供所述伪影信息和第三图像;
由图像质量引擎通过基于所述伪影信息改变第三图像的像素值来对第三图像进行后处理;以及
由图像质量引擎在所述电子装置的显示器上提供后处理的第三图像,
其中,所述伪影信息是在服务器处基于所述原始图像的频率变换系数被确定的。
CN202080041254.1A 2019-06-05 2020-05-29 用于对图像执行人工智能编码和人工智能解码的设备和方法 Pending CN113994691A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR1020190066884A KR20200140096A (ko) 2019-06-05 2019-06-05 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR10-2019-0066884 2019-06-05
US16/826,851 US10825140B1 (en) 2019-06-05 2020-03-23 Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image
US16/826,851 2020-03-23
PCT/KR2020/007048 WO2020246756A1 (en) 2019-06-05 2020-05-29 Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image

Publications (1)

Publication Number Publication Date
CN113994691A true CN113994691A (zh) 2022-01-28

Family

ID=72944506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080041254.1A Pending CN113994691A (zh) 2019-06-05 2020-05-29 用于对图像执行人工智能编码和人工智能解码的设备和方法

Country Status (5)

Country Link
US (2) US10825140B1 (zh)
EP (1) EP3954127A4 (zh)
KR (1) KR20200140096A (zh)
CN (1) CN113994691A (zh)
WO (1) WO2020246756A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080665A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
KR102608147B1 (ko) * 2018-12-05 2023-12-01 삼성전자주식회사 디스플레이 장치 및 그 구동 방법
KR102420104B1 (ko) * 2019-05-16 2022-07-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
US11496769B2 (en) * 2019-09-27 2022-11-08 Apple Inc. Neural network based image set compression
US20210209203A1 (en) * 2020-01-06 2021-07-08 Accenture Global Solutions Limited Methods and systems for protecting digital content against artificial intelligence-based unauthorized manipulation of the digital content
KR102287942B1 (ko) * 2020-02-24 2021-08-09 삼성전자주식회사 전처리를 이용한 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
US11501470B2 (en) * 2020-05-27 2022-11-15 Microsoft Technology Licensing, Llc Geometric encoding of data
US11205077B1 (en) * 2020-05-29 2021-12-21 Arm Limited Operating on a video frame to generate a feature map of a neural network
US20220067879A1 (en) * 2020-09-03 2022-03-03 Nvidia Corporation Image enhancement using one or more neural networks
WO2022098207A1 (ko) * 2020-11-09 2022-05-12 삼성전자 주식회사 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치
EP4189638A4 (en) * 2020-12-12 2024-01-24 Samsung Electronics Co., Ltd. METHOD AND ELECTRONIC DEVICE FOR MANAGING IMAGE ARTIFACTS
EP4262207A4 (en) 2021-02-22 2024-03-27 Samsung Electronics Co., Ltd. IMAGE ENCODING AND DECODING DEVICE USING AI AND IMAGE ENCODING AND DECODING METHOD USING SAID DEVICE
WO2022177383A1 (ko) * 2021-02-22 2022-08-25 삼성전자 주식회사 Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법
EP4250729A4 (en) 2021-02-22 2024-05-01 Samsung Electronics Co., Ltd. AI-BASED IMAGE ENCODING AND DECODING APPARATUS AND RELATED METHOD
CN116940960A (zh) 2021-05-24 2023-10-24 三星电子株式会社 电子装置及其图像处理方法
WO2023043154A1 (ko) * 2021-09-17 2023-03-23 삼성전자 주식회사 Ai를 이용하여 영상을 부호화 및 복호화하는 장치, 및 방법
WO2023085759A1 (ko) * 2021-11-09 2023-05-19 삼성전자 주식회사 Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850294A (en) * 1995-12-18 1998-12-15 Lucent Technologies Inc. Method and apparatus for post-processing images
CN1286575A (zh) 1999-08-25 2001-03-07 松下电器产业株式会社 噪声检测方法、噪声检测装置及图象编码装置
AU759341B2 (en) * 1999-10-29 2003-04-10 Canon Kabushiki Kaisha Method for kernel selection for image interpolation
US6931063B2 (en) 2001-03-26 2005-08-16 Sharp Laboratories Of America, Inc. Method and apparatus for controlling loop filtering or post filtering in block based motion compensationed video coding
US8896725B2 (en) * 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US8391628B2 (en) 2010-12-16 2013-03-05 Stmicroelectronics Asia Pacific Pte Ltd. Directional anti-aliasing filter
KR101910502B1 (ko) 2011-01-10 2018-10-22 삼성전자주식회사 변환계수를 이용한 영상 블록현상 제거 방법 및 그 장치
US8780996B2 (en) 2011-04-07 2014-07-15 Google, Inc. System and method for encoding and decoding video data
US9118932B2 (en) 2013-06-14 2015-08-25 Nvidia Corporation Adaptive filtering mechanism to remove encoding artifacts in video data
WO2015017796A2 (en) * 2013-08-02 2015-02-05 Digimarc Corporation Learning systems and methods
US10880566B2 (en) 2015-08-28 2020-12-29 Boe Technology Group Co., Ltd. Method and device for image encoding and image decoding
US10437878B2 (en) * 2016-12-28 2019-10-08 Shutterstock, Inc. Identification of a salient portion of an image
US10168879B1 (en) * 2017-05-12 2019-01-01 Snap Inc. Interactive image recoloring
US10671082B2 (en) * 2017-07-03 2020-06-02 Baidu Usa Llc High resolution 3D point clouds generation based on CNN and CRF models
KR102285737B1 (ko) * 2017-07-06 2021-08-05 삼성전자주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
US10664716B2 (en) * 2017-07-19 2020-05-26 Vispek Inc. Portable substance analysis based on computer vision, spectroscopy, and artificial intelligence
US10475169B2 (en) * 2017-11-28 2019-11-12 Adobe Inc. High dynamic range illumination estimation
US11756160B2 (en) * 2018-07-27 2023-09-12 Washington University ML-based methods for pseudo-CT and HR MR image estimation
US10547823B2 (en) * 2018-09-25 2020-01-28 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning

Also Published As

Publication number Publication date
KR20200140096A (ko) 2020-12-15
US10817990B1 (en) 2020-10-27
US10825140B1 (en) 2020-11-03
WO2020246756A1 (en) 2020-12-10
EP3954127A1 (en) 2022-02-16
EP3954127A4 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
CN113994691A (zh) 用于对图像执行人工智能编码和人工智能解码的设备和方法
US10825204B2 (en) Artificial intelligence encoding and artificial intelligence decoding methods and apparatuses using deep neural network
CN112889283A (zh) 编码方法及其设备以及解码方法及其设备
US10817989B2 (en) Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
Mantiuk et al. Backward compatible high dynamic range MPEG video compression
CN112889282B (zh) 用于对图像执行人工智能编码和人工智能解码的方法和设备
US11200639B1 (en) Apparatus and method for performing artificial intelligence encoding and decoding on image by using low-complexity neural network
JP2019075783A (ja) 補助フレームをサポートするビデオコーディングフォーマットでビデオストリームを符号化するための方法およびエンコーダ
TW202131695A (zh) 用於視訊資料之編碼方案
US10148963B2 (en) Methods of and apparatus for encoding data arrays
CN114631315A (zh) 图像编码方法和设备以及图像解码方法和设备
US20220207650A1 (en) Image ai-coding method and device, and image ai-decoding method and device
US20230276070A1 (en) Artificial intelligence (ai) encoding apparatus and method and ai decoding apparatus and method for region of object of interest in image
CN112740687A (zh) 用于对图像执行人工智能编码和人工智能解码的设备和方法
US11816872B2 (en) Method and apparatus for performing artificial intelligence encoding and artificial intelligence decoding
CN106664387B (zh) 一种对视频图像帧进行后处理的计算机装置和方法,以及计算机可读介质
Bampis et al. Enhancing temporal quality measurements in a globally deployed streaming video quality predictor
KR20220063063A (ko) 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치
KR102421719B1 (ko) 저복잡도 신경망을 이용한 영상의 ai 부호화 장치 및 방법, ai 복호화 장치 및 방법
US20230281755A1 (en) Method and device for performing artificial intelligence encoding and artificial intelligence decoding
US20230044603A1 (en) Apparatus and method for applying artificial intelligence-based filtering to image
Yang et al. Content adaptive spatial-temporal rescaling for video coding optimization
KR20220063061A (ko) 영상 내 관심 오브젝트 영역을 위한 ai 부호화 장치 및 방법, 및 ai 복호화 장치 및 방법
CN116458157A (zh) 用于图像中感兴趣的对象区域的ai编码装置和方法以及ai解码装置和方法
JP2004222026A (ja) 画像符号化装置および方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination