CN112740687A - 用于对图像执行人工智能编码和人工智能解码的设备和方法 - Google Patents

用于对图像执行人工智能编码和人工智能解码的设备和方法 Download PDF

Info

Publication number
CN112740687A
CN112740687A CN201980061966.7A CN201980061966A CN112740687A CN 112740687 A CN112740687 A CN 112740687A CN 201980061966 A CN201980061966 A CN 201980061966A CN 112740687 A CN112740687 A CN 112740687A
Authority
CN
China
Prior art keywords
image
dnn
data
information
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980061966.7A
Other languages
English (en)
Inventor
金载丸
李钟硕
全善暎
崔光杓
崔珉硕
趋可卡纳哈·迪娜
朴永五
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2019/013421 external-priority patent/WO2020080765A1/en
Publication of CN112740687A publication Critical patent/CN112740687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种人工智能(AI)解码设备,包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行所存储的一个或更多个指令,以进行以下操作:获得与被编码的第一图像对应的图像数据,通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像,确定是否执行对所获得的第二图像的AI放大,基于确定执行对所获得的第二图像的AI放大,通过经由放大深度神经网络(DNN)执行对所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像,并且基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。

Description

用于对图像执行人工智能编码和人工智能解码的设备和方法
技术领域
本公开涉及对图像进行编码和解码。更具体地,本公开涉及用于基于人工智能(AI)对图像进行编码和解码的设备和方法。
背景技术
图像在经由遵循数据压缩标准(诸如运动图像专家组(MPEG)标准)的编解码器而被编码之后以比特流的形式被存储在记录介质中或者经由通信信道被发送。
随着能够再现和存储高分辨率和高质量图像的硬件的发展和供应,对能够有效地对这样的高分辨率和高质量图像进行编码和解码的编解码器的需求增加。
发明内容
技术方案
根据实施例,一种人工智能(AI)解码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行所存储的一个或更多个指令,以进行以下操作:获得与被编码的第一图像对应的图像数据,通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像,确定是否执行所获得的第二图像的AI放大,基于确定执行所获得的第二图像的AI放大,通过经由放大深度神经网络(DNN)执行所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像,并且基于确定不执行所获得的第二图像的AI放大,输出所获得的第二图像。
有益效果
提供了用于对图像执行人工智能(AI)编码和AI解码的设备和方法,其中,基于AI对图像进行编码和解码以实现低比特率。
另外的方面将部分地在下面的描述中被阐述,并且部分地将从描述中显而易见,或者可通过本公开的所提供的实施例的实践而被获知。
附图说明
从结合附图的以下描述,本公开的实施例的以上和其他方面、特征和优点将更加显而易见,其中:
图1a是用于描述根据实施例的人工智能(AI)编码处理和AI解码处理的示图;
图1b是用于描述根据本公开的实施例的AI编码处理和一般解码处理的示图;
图1c是用于描述根据本公开的实施例的一般编码处理和AI解码处理的示图;
图2是根据本公开的实施例的AI解码设备的配置的框图;
图3是示出用于对第二图像执行AI放大的第二深度神经网络(DNN)的示图;
图4是用于描述由卷积层执行的卷积运算的示图;
图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表;
图6是示出包括多个帧的第二图像的示图;
图7是用于描述根据本公开的实施例的用于对第二图像执行AI放大的第二DNN的结构的示图;
图8是用于描述用于对与第一放大目标对应的第二图像执行AI放大的第二DNN的结构的示图;
图9是用于描述用于对与第二放大目标对应的第二图像执行AI放大的第二DNN的结构的示图;
图10是用于描述用于对与第三放大目标对应的第二图像执行AI放大的第二DNN的结构的示图;
图11是用于描述用于对与第四放大目标对应的第二图像执行AI放大的第二DNN的结构的示图;
图12是根据本公开的实施例的AI解码方法的流程图;
图13是根据本公开的实施例的AI编码设备的配置的框图;
图14是示出用于对原始图像执行AI缩小的第一DNN的示图;
图15是示出根据本公开的实施例的用于对原始图像执行AI缩小的第一DNN的结构的示图;
图16是示出根据本公开的实施例的用于对原始图像执行AI缩小的第一DNN的结构的示图;
图17是根据本公开的实施例的AI编码方法的流程图;以及
图18是用于描述训练第一DNN和第二DNN的方法的示图。
图19是用于描述训练设备对第一DNN和第二DNN的训练处理的示图。
图20是用于对原始图像执行AI缩小的设备和用于对第二图像执行AI放大的设备的示图。
最佳模式
根据实施例,一种人工智能(AI)解码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行所存储的一个或更多个指令以进行以下操作:获得与被编码的第一图像对应的图像数据,通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像,确定是否执行对所获得的第二图像的AI放大,基于确定执行对所获得的第二图像的AI放大,通过经由放大深度神经网络(DNN)执行对所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像,并且基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:获得与通过缩小DNN将原始图像AI缩小为第一图像的操作相关的AI数据,并且基于所获得的AI数据来确定是否执行对所获得的第二图像的AI放大。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于所获得的AI数据验证第一图像是否是通过执行对原始图像的AI缩小而获得的,并且基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,确定执行对所获得的第二图像的AI放大。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于所获得的AI数据来验证第一图像是否是通过执行对原始图像的AI缩小而获得的,并验证放大DNN是否可用,并且基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN可用,确定执行对所获得的第二图像的AI放大。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:确定放大DNN是否被存储在AI解码设备中以及用于运算放大DNN的DNN设置信息是否被存储在AI解码设备中,并且基于放大DNN被确定为未被存储在AI解码设备中或者DNN设置信息被确定为未被存储在AI解码设备中,确定放大DNN不可用。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN不可用,输出所获得的第二图像。输出的第二图像可由显示设备来放大。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN不可用,确定执行对所获得的第二图像的传统放大。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于所获得的AI数据来获得多个DNN设置信息中的用于执行对所获得的第二图像的AI放大的DNN设置信息,并且通过基于所获得的DNN设置信息的放大DNN运算执行对所获得的第二图像的AI放大来获得第三图像。
可基于与将从放大DNN输出的训练图像和原始训练图像进行比较的结果对应的质量损失信息来训练放大DNN。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:通过将所获得的第二图像和与所获得的第二图像相关的信息输入到放大DNN来获得第三图像。与所获得的第二图像相关的信息可包括所获得的第二图像的像素的位置信息和编码参数信息中的一个或两者。
放大DNN可包括多个卷积层和旁路缩放器,其中,所述多个卷积层被配置为对所获得的第二图像依次执行多个卷积运算,所述旁路缩放器被配置为对所获得的第二图像执行缩放处理。可基于对所述多个卷积层的输出和旁路缩放器的输出进行组合的结果来获得第三图像。
根据实施例,一种人工智能(AI)编码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的所存储的一个或更多个指令以进行以下操作:确定是否执行对原始图像的AI缩小,基于确定执行对原始图像的AI缩小,通过经由缩小深度神经网络(DNN)执行对原始图像的AI缩小来获得第一图像,通过对所获得的第一图像进行编码来获得图像数据,并且发送所获得的图像数据和AI数据,其中,所述AI数据包括指示所获得的图像数据是否对应于被执行了AI缩小的图像的信息。
处理器还可被配置为执行所存储的一个或更多个指令,以进行以下操作:基于原始图像的分辨率、原始图像的类型和包括在原始图像中的对象的类型中的任意一个或任意组合来确定是否执行对原始图像的AI缩小。
处理器还可被配置为执行所存储的一个或更多个指令,以进行以下操作:验证缩小DNN是否可用,并且基于验证了缩小DNN可用,确定执行对原始图像的AI缩小。
根据实施例,一种人工智能(AI)解码方法包括:获得与被编码的第一图像对应的图像数据,通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像,确定是否执行对所获得的第二图像的AI放大,基于确定执行对所获得的第二图像的AI放大,通过经由放大深度神经网络(DNN)执行对所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像,并且基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。
一种非暂时性计算机可读记录介质,其中,在所述非暂时性计算机可读记录介质上记录有在被计算机执行时可执行AI解码方法的程序。
一种人工智能(AI)编码方法包括:确定是否执行对原始图像的AI缩小,基于确定执行对原始图像的AI缩小,通过经由缩小深度神经网络(DNN)执行对原始图像的AI缩小来获得第一图像,通过对所获得的第一图像进行编码来获得图像数据;并且发送所获得的图像数据和AI数据,其中,所述AI数据包括指示所获得的图像数据是否对应于被执行了AI缩小的图像的信息。
一种非暂时性计算机可读记录介质,其中,在所述非暂时性计算机可读记录介质上记录有在被计算机执行时可执行AI解码方法的程序。
根据实施例,一种人工智能(AI)解码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行所存储的一个或更多个指令以进行以下操作:获得与被编码的第一图像对应的图像数据以及与通过第一深度神经网络(DNN)将原始图像AI缩小为第一图像的操作相关的AI数据,通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像,基于所获得的AI数据来确定是否执行对所获得的第二图像的AI放大,基于确定执行对所获得的第二图像的AI放大,通过经由第二DNN执行对所获得的第二图像的AI放大来获得第三图像,并且基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。
处理器还可被配置为执行所存储的一个或更多个指令以进行以下操作:基于所获得的AI数据来验证第一图像是否是通过执行对原始图像的AI缩小而获得的以及第二DNN是否可用,并且基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了第二DNN可用,确定执行对所获得的第二图像的AI放大。
具体实施方式
本公开的实施例提供了用于对图像执行人工智能(AI)编码和AI解码的设备和方法,其中,基于AI对图像进行编码和解码以实现低比特率。
由于本公开允许各种改变和许多示例,因此将在附图中示出并在书面描述中详细描述本公开的实施例。然而,这并不旨在将本公开限制于实践的模式,并且将理解,不脱离本公开的精神和技术范围的全部改变、等同和替代都被包含在本公开中。
在本公开的实施例的描述中,当认为对相关技术的详细解释可能不必要地使本公开的本质模糊时,省略对相关技术的详细解释。此外,在说明书的描述中使用的数字(例如,第一、第二等)是用于将一个元素与另一元素区分开的标识符代码。
此外,在本说明书中,将理解,当元件彼此“连接”或“耦接”时,所述元件可彼此直接连接或耦接,但是可选地,除非另有指定,否则可通过所述元件之间的中间元件彼此连接或耦接。
在本说明书中,对于被表示为“单元”或“模块”的元件,可将两个或更多个元件组合为一个元件,或者可根据细分的功能将一个元件划分为两个或更多个元件。此外,在下文中描述的每个元件除了其主要功能之外,还可另外执行由另一元件执行的一些或全部功能,并且每个元件的一些主要功能可完全由另一组件来执行。
在整个公开中,表述“a、b或c中的至少一个”指示只有a、只有b、只有c、a和b两者、a和c两者、b和c两者、a、b和c全部或者其变体。
此外,在本说明书中,“图像”或“画面”可表示静止图像、包括多个连续静止图像(或帧)的运动图像或者视频。
此外,在本说明书中,深度神经网络(DNN)是一种模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用算法的人工神经网络模型。
此外,在本说明书中,“参数”是在形成神经网络的每一层的运算处理中使用的值,并且例如,可包括在将输入值应用于运算表达式时使用的权重。这里,参数可以以矩阵形式来表示。参数是作为训练的结果而设置的值,并且可通过单独的训练数据被更新。
此外,在本说明书中,“第一DNN”指示用于对图像进行人工智能(AI)缩小的DNN,“第二DNN”指示用于对图像进行AI放大的DNN。
此外,在本说明书中,“DNN设置信息”包括与构成DNN的元素相关的信息。“DNN设置信息”包括上述作为与构成DNN的元素相关的信息的参数。可通过使用DNN设置信息来设置第一DNN或第二DNN。
此外,在本说明书中,“原始图像”表示作为AI编码的对象的图像,并且“第一图像”表示作为在AI编码处理期间对原始图像执行AI缩小的结果而获得的图像。此外,“第二图像”表示在AI解码处理期间经由第一解码而获得的图像,并且“第三图像”表示在AI解码处理期间通过对第二图像进行AI放大而获得的图像。
此外,在本说明书中,“AI缩小”表示基于AI降低图像的分辨率的处理,并且“第一编码”表示根据基于频率变换的图像压缩方法的编码处理。此外,“第一解码”表示根据基于频率变换的图像重建方法的解码处理,“AI放大”表示基于AI提高图像的分辨率的处理。
图1a是根据实施例的用于描述AI编码处理和AI解码处理的示图。
如上所述,当图像的分辨率显著增加时,用于对图像进行编码和解码的信息的吞吐量增加,因此,需要一种用于提高图像的编码和解码效率的方法。
如图1a中所示,根据本公开的实施例,通过对具有高分辨率的原始图像105执行AI缩小110来获得第一图像115。然后,对具有相对低分辨率的第一图像115执行第一编码120和第一解码130,因此与对原始图像105执行第一编码和第一解码时相比,比特率可大大降低。
在图1a中,根据实施例,通过对原始图像105执行AI缩小110来获得第一图像115,并且在AI编码处理期间对第一图像115执行第一编码120。在AI解码处理期间,接收作为AI编码的结果而获得的包括AI数据和图像数据的AI编码数据,经由第一解码130获得第二图像135,并且通过对第二图像135执行AI放大140来获得第三图像145。
详细参照AI编码处理,当接收到原始图像105时,对原始图像105执行AI缩小110以获得一种分辨率或质量的第一图像115。这里,基于AI来执行AI缩小110,并且用于AI缩小110的AI与用于第二图像135的AI放大140的AI联合训练。这是因为,当用于AI缩小110的AI和用于AI放大140的AI被单独训练时,作为AI编码的对象的原始图像105与通过AI解码重建的第三图像145之间的差会增加。
在本公开的实施例中,AI数据可被用于在AI编码处理和AI解码处理期间保持这样的联合关系。因此,通过AI编码处理获得的AI数据可包括指示放大目标的信息,并且在AI解码处理期间,根据基于AI数据验证的放大目标对第二图像135执行AI放大140。
用于AI缩小110的AI和用于AI放大140的AI可被实施为DNN。如稍后将参照图18描述的,因为通过在目标下共享损失信息来联合训练第一DNN和第二DNN,所以AI编码设备可将在第一DNN和第二DNN的联合训练期间使用的目标信息提供给AI解码设备,并且AI解码设备可基于所提供的目标信息对第二图像135执行AI放大140至目标分辨率。
在AI解码处理期间,可输出第二图像135而不是第三图像145。基于AI数据确定通过AI解码处理输出的图像的类型。基于AI数据确定是否对第二图像135执行AI放大140,并且当执行AI放大140时,在AI解码处理期间输出第三图像145,并且当不执行AI放大140时,输出通过第一解码130而获得的第二图像135。当基于原始图像105获得图像数据时,当不存在用于AI放大140的DNN时,或者当存在用于AI放大140的DNN但不可用时,在AI解码处理期间输出第二图像135。稍后将参照图2描述通过AI解码处理输出的图像的类型。
关于图1a的第一编码120和第一解码130,可通过第一编码120减少通过对原始图像105执行AI缩小110而获得的第一图像115的信息量。第一编码120可包括通过对第一图像115进行预测来生成预测数据的处理、生成与第一图像115与预测数据之间的差对应的残差数据的处理、将空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理、以及对量化的残差数据进行熵编码的处理。这样的第一编码120可经由使用频率变换的图像压缩方法(诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和AOMedia Video1(AV1))中的一种来执行。
可通过对图像数据执行第一解码130来重建与第一图像115对应的第二图像135。第一解码130可包括通过对图像数据进行熵解码来生成量化的残差数据的处理、对量化的残差数据进行反量化的处理、将频域分量的残差数据变换为空间域分量的处理、生成预测数据的处理、以及通过使用预测数据和残差数据来重建第二图像135的处理。这样的第一解码130可经由与在第一编码120中使用的使用频率变换的图像压缩方法(诸如MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)之一对应的图像重建方法来执行。
通过AI编码处理获得的AI编码数据可包括作为对第一图像115执行第一编码120的结果而获得的图像数据以及与原始图像105的AI缩小110相关的AI数据。可在第一解码130期间使用图像数据,并且可在AI放大140期间使用AI数据。
可以以比特流的形式发送图像数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括在对第一图像115执行的第一编码120期间使用的信息。例如,图像数据可包括预测模式信息、运动信息和与在第一编码120期间使用的量化参数相关的信息。可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的规则(例如,根据语法)来生成图像数据。
在基于第二DNN的AI放大140中使用AI数据。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括使得能够通过第二DNN对第二图像135准确地执行AI放大140的信息。在AI解码处理期间,可基于AI数据对第二图像135执行AI放大140以具有目标分辨率和/或质量。
AI数据可与图像数据一起以比特流的形式被发送。可选地,根据实施例,AI数据可与图像数据单独以帧或包的形式被发送。可通过相同的网络或通过不同的网络发送作为AI编码的结果而获得的AI数据和图像数据。
图1b是用于描述根据本公开的实施例的AI编码处理和一般解码处理的示图。
图1b是用于描述接收AI编码数据的一般解码设备不能执行AI解码处理的情况的示图,并且如图1b中所示,一般编码处理仅执行第一解码130。
如上所述,通过AI编码处理获得的包括图像数据和AI数据的AI编码数据被发送到一般解码设备。因为一般解码设备不能对AI数据进行处理,所以一般解码设备通过对图像数据仅执行第一解码130来输出第二图像135。
图1c是用于描述根据本公开的实施例的一般编码处理和AI解码处理的示图。
图1c是用于描述用于对第一图像115进行编码的设备不能执行AI编码处理的情况的示图,并且如图1c中所示,一般编码处理仅执行第一编码120。
一般编码设备通过对第一图像115执行第一编码120来将图像数据发送到AI解码设备。这里,第一图像115可以不是AI缩小后的图像,也就是说,第一图像115可以是原始图像。因为一般编码设备不能执行AI编码处理,所以AI数据未从一般编码设备被发送到AI解码设备。因为接收到的数据不包括AI数据,所以AI解码设备不执行AI放大140,但是通过对图像数据执行第一解码130来输出第二图像135。换句话说,AI解码设备可基于从AI编码设备接收到的数据是否包括AI数据来输出第二图像135或输出第三图像145。
在下文中,将参照图2详细描述执行AI解码处理的AI解码设备。
图2是根据实施例的AI解码设备200的配置的框图。
参照图2,根据实施例的AI解码设备200可包括接收器210和AI解码器230。接收器210可包括通信接口212、解析器214和输出接口216。AI解码器230可包括第一解码器232和AI放大器234。AI解码器230还可包括控制器236。
在图2中,根据实施例的接收器210和AI解码器230被描述为单独的装置,但是可通过一个处理器来实现接收器210和AI解码器230。在这种情况下,可通过专用处理器或者通过软件和通用处理器(诸如应用处理器(AP)、中央处理器(CPU)或图形处理单元(GPU))的组合来实现接收器210和AI解码器230。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现专用处理器。
此外,可由多个处理器来配置接收器210和AI解码器230。在这种情况下,可通过专用处理器的组合或者通过软件和通用处理器(诸如AP、CPU或GPU)的组合来实现接收器210和AI解码器23。类似地,可由不同处理器来实现AI放大器234和第一解码器232。
接收器210接收并解析作为AI编码的结果而获得的AI编码数据,并且将图像数据和AI数据可区分地输出到AI解码器230。
通信接口212通过网络接收作为AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。可通过相同类型的网络或不同类型的网络接收图像数据和AI数据。通信接口212可通过网络仅接收图像数据。换句话说,如上面参照图1c所述,当一般编码由一般编码设备来执行时,通信接口212可从一般编码设备仅接收图像数据。
解析器214接收通过通信接口212接收到的AI编码数据,并对AI编码数据进行解析以将图像数据和AI数据区分开。例如,解析器214可通过读取从通信接口212获得的数据的头来将图像数据和AI数据区分开。根据实施例,解析器214经由通过通信接口212接收到的数据的头将图像数据和AI数据可区分地发送到输出接口216,并且输出接口216将区分开的图像数据和AI数据分别发送到第一解码器232和AI放大器234。此时,可验证包括在AI编码数据中的图像数据是经由编解码器(例如,MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)生成的图像数据。在这种情况下,可通过输出接口216将对应信息发送到第一解码器232,使得经由验证的编解码器对图像数据进行处理。
根据实施例,可从数据存储介质获得由解析器214解析的AI编码数据,其中,所述数据存储介质包括诸如硬盘、软盘或磁带的磁介质、诸如CD-ROM或DVD的光学记录介质或者诸如光磁软盘的磁光介质。
图2以虚线示出指示从输出接口216提供给AI放大器234的AI数据的流动的线,其中,所述虚线指示当由通信接口212接收到的AI编码数据不包括AI数据时AI数据可不被发送到AI放大器234。
第一解码器232基于图像数据重建与第一图像115对应的第二图像135。当第二开关244未被连接到第一解码器232时,由第一解码器232生成的第二图像135被提供给AI放大器234。根据实施例,还可将图像数据中包括的第一解码相关信息(诸如预测模式信息、运动信息、量化参数信息等)提供给AI放大器234。AI放大器234可基于接收到的AI数据来控制将从AI解码器230输出的图像的类型。因此,AI放大器234可通过控制第一开关242和第二开关244来控制通过AI解码器230输出的数据的类型。
图2中所示的第一开关242和第二开关244是为了理解本公开的实施例,并不指示具有物理配置的第一开关242和第二开关244被包括在AI解码器230中。换句话说,描述的是由AI放大器234控制第一开关242和第二开关244的操作,但是AI放大器234可根据程序或指令控制从AI解码器230输出的数据的类型。根据本公开的实施例,控制器236可控制第一开关242和第二开关244。在这种情况下,控制器236可基于AI数据和第二DNN的可用性来控制第一开关242和第二开关244的操作。
首先,第一开关242可处于断开状态,并且第二开关244可被连接到第一解码器232。换句话说,作为默认状态,第一开关242可处于断开状态,并且第二开关244可被连接到第一解码器232。在从输出接口216接收到AI数据时,AI放大器234可基于AI数据改变第一开关242和第二开关244的状态。
如上所述,当AI数据未被包括在AI编码数据中时,第一开关242保持关闭状态,并且第二开关244保持被连接到第一解码器232,并且可从AI解码器230输出基于图像数据生成的第二图像135。
根据本公开的实施例,当从输出接口216接收到AI数据时,AI放大器234可验证第一图像115是否是通过第一DNN被生成。因此,AI数据可包括指示第一图像115是否是通过第一DNN被生成的信息。例如,当第一图像115是通过第一DNN被生成时,AI数据可包括指示第一图像115是通过第一DNN被生成的标志,并且另一方面,当第一图像115不是通过第一DNN被生成时,换句话说,当第一图像115与原始图像105相同时,AI数据可包括指示第一图像115不是通过第一DNN被生成的标志。
当基于AI数据验证了第一图像115是通过第一DNN被生成时,AI放大器234可控制第一开关242处于接通状态并且控制第二开关244连接到AI放大器234。因此,第一解码器232将经由第一解码重建的第二图像135发送到AI放大器234,并且AI放大器234通过对第二图像135执行AI放大来输出第三图像145。当第一开关242处于接通状态时,例如,可将包括在图像数据中的预测模式信息、运动信息、量化参数信息等从第一解码器232发送到AI放大器234。
当基于AI数据验证了第一图像115不是通过第一DNN被生成时,AI放大器234可控制第一开关242处于断开状态,并且控制第二开关244连接到第一解码器232。因此,由第一解码器232生成的第二图像135可作为AI解码器230的输出而被输出。
如上所述,因为AI数据包括用于AI放大的信息,所以当第一图像115不是通过第一DNN被生成时,不需要对第二图像135执行AI放大,因此,由第一解码器232生成的第二图像135可按原样输出。
根据本公开的实施例,当验证了第一图像115是通过第一DNN被生成但是第二DNN不可用时,AI放大器234可将第一开关242控制在断开状态,并且将第二开关244控制为连接到第一解码器232。因此,由第一解码器232生成的第二图像135可作为AI解码器230的输出而被输出。
这里,第二DNN不可用的情况可包括第二DNN未被存储在AI放大器234中的情况、以及即使当第二DNN被存储在AI放大器234中时也未存储用于对第二图像135执行AI放大的DNN设置信息的情况。如稍后将描述的,当DNN设置信息被用于AI缩小时,通过使用与用于AI缩小的DNN设置信息相关联的DNN设置信息来对第二图像135执行AI放大,因此当未存储用于对第二图像135执行AI放大的DNN设置信息时,确定第二DNN不可用。
此外,第二DNN不可用的情况还可包括存储在AI放大器234中的第二DNN和/或DNN设置信息的版本不是最新版本的情况。根据本公开的实施例,AI解码设备200可通过网络从外部服务器接收并存储第二DNN和DNN设置信息,并且当存储在AI解码设备200中的第二DNN和DNN设置信息中的任意一个或两者不是最新版本时,AI放大器234可确定第二DNN不可用。
根据本公开的实施例,当验证了第一图像115是通过第一DNN被生成但是第二DNN不可用时,AI放大器234可将第一开关242控制在断开状态,并将第二开关244控制为连接到第一解码器232,从而使得第二图像135能够通过AI解码器230被输出。
根据本公开的实施例,当验证了第一图像115是通过第一DNN被生成但是第二DNN不可用时,AI放大器234可控制第一开关242处于接通状态并且控制第二开关244连接到AI放大器234。因为第二DNN不可用,所以AI放大器234不对第二图像135执行AI放大,但是因为可显示与原始图像105相比分辨率降低的第二图像135,所以AI放大器234可输出从第一解码器232接收到的第二图像135,同时请求显示设备(例如,显示设备的质量引擎)对第二图像135执行放大。根据本公开的实施例,当验证了第一图像115是通过第一DNN被生成但是第二DNN不可用时,AI放大器234可对第二图像135执行传统放大,然后输出经过传统放大的第二图像135。传统缩放方法是不使用DNN的缩放方法,并且例如,可包括双线性缩放方法、双三次缩放方法、lanczos缩放方法或阶梯缩放方法中的任意一种或任意组合。
当从AI解码器230输出第二图像135或第三图像145时,第二图像135或第三图像145可被输出到显示设备以按原样被显示,或者在后处理之后被输出到显示设备以被显示。换句话说,可显示第三图像145或经过后处理的第三图像145,或者可显示第二图像135或经过后处理的第二图像135。
在接收到AI数据时,AI放大器234基于AI数据对第二图像135执行AI放大。根据实施例,还可通过使用包括在图像数据中的第一解码相关信息(诸如预测模式信息、量化参数信息等)来执行AI放大。如上所述,当通过第一DNN生成第一图像115并且第二DNN可用时,执行AI放大。
提供给AI放大器234的AI数据包括使得第二图像135能够经由AI放大被处理的信息。这里,放大目标可对应于第一DNN的缩小。因此,AI数据包括用于验证第一DNN的缩小目标的信息。
AI数据可包括原始图像105的分辨率与第一图像115的分辨率之间的差信息。此外,AI数据可包括与第一图像115相关的信息。此外,AI数据可包括将由AI解码设备200生成的第三图像145的分辨率信息。
差信息可被表示为关于第一图像115与原始图像105相比的分辨率转换程度的信息(例如,分辨率转换率信息)。此外,因为通过重建的第二图像135的分辨率来验证第一图像115的分辨率,所以差信息可仅被表示为原始图像105的分辨率信息。这里,分辨率信息可被表示为垂直尺寸/水平尺寸、或者比率(16:9、4:3等)和一个轴的尺寸。此外,当存在预先设置的分辨率信息时,可以以索引或标志的形式来表示分辨率信息。
与第一图像115相关的信息可包括关于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率和在第一图像115的第一编码期间使用的编解码器类型中的任意一个或任意组合的信息。
差信息和与第一图像115相关的信息可作为一条AI数据被发送,或者可被单独发送。
AI放大器234可基于包括在AI数据中的差信息、与第一图像115相关的信息和第三图像145的分辨率信息中的任意一个或任意组合来确定第二图像135的放大目标。放大目标可指示例如将针对第二图像135将分辨率放大到什么程度。当放大目标被确定时,AI放大器234通过第二DNN对第二图像135执行AI放大,以获得与放大目标对应的第三图像145。
根据本公开的实施例,AI放大器234还可将参考信息与第二图像135一起输入到第二DNN,以对第二图像135执行AI放大。参考信息可被输入到第二DNN以用于对第二图像135进行有效AI放大。参考信息可包括例如第二图像135中包括的像素的位置信息以及在原始图像105或第一图像115的第一编码期间生成的编码参数信息中的任意一个或任意组合。
包括在第二图像135中的像素的位置信息可包括第二图像135的位置图,并且位置图的样点中的每个样点可具有与第二图像135中的每个像素的位置对应的值。
此外,编码参数信息可包括可在原始图像105的第一编码期间生成的各种编码参数图,诸如根据原始图像105的数据单元(最大编码单元、编码单元、预测单元、变换单元或像素单元)的运动矢量图、帧内模式图、残差分布图、预测运动矢量图和SAO参数图。编码参数图中的每个样点可具有与在每个样点所属的数据单元中生成的编码参数对应的值。根据本公开的实施例,编码参数信息可通过被包括在AI数据中而被发送到AI解码设备200。
如稍后将参照图18描述的,参考信息可被输入到第二DNN以用于第二DNN的训练。第二DNN可基于与参考信息对应的图和输入图像(第一训练图像1702或第二训练图像)之间的根据位置的关系(例如,图的位置处的样点值与输入图像的位置处的像素值之间的关系)来优化参数。因此,当第二图像135和与参考信息对应的图被输入到第二DNN以用于第二图像135的AI放大时,考虑第二图像135和与参考信对应的图之间的根据位置的关系,第二DNN可进一步准确地对第二图像135执行AI放大。根据本公开的实施例,当第二DNN考虑与参考信息对应的图对第二图像135执行卷积运算时,第二DNN可改变关于第二图像135的位置(例如,运动矢量值等于或大于参考值的位置)的特征图450(参见图4)的样点值。例如,如稍后将参照图4描述的,当在第二图像135的位置处执行卷积运算时,可改变作为特征图450的样点值的M1至M9中的至少一个值。
在描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法之前,将参照图3和图4描述通过第二DNN的AI放大处理。
图3是示出用于对第二图像135执行AI放大的第二DNN 300的示图,并且图4是用于描述图3的第一卷积层310中的卷积运算的示图。
如图3中所示,第二图像135被输入到第一卷积层310。图3中所示的第一卷积层310中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对一个输入图像执行卷积处理。由四个滤波器核生成四个特征图作为卷积处理的结果。每个特征图指示第二图像135的固有特性。例如,每个特征图可表示第二图像135的垂直方向特性、水平方向特性或边缘特性等。
将参照图4详细描述第一卷积层310中的卷积运算。
可通过在第一卷积层310中使用的尺寸为3×3的滤波器核430的参数与第二图像135中的对应像素值之间的乘法和加法来生成一个特征图450。因为在第一卷积层310中使用四个滤波器核,所以可使用四个滤波器核通过卷积运算来生成四个特征图。
图4中的第二图像135中指示的I1至I49指示第二图像135中的像素,并且滤波器核430中指示的F1至F9指示滤波器核430的参数。此外,特征图450中指示的M1至M9指示特征图450的样点。
在图4中,第二图像135包括49个像素,但是像素的数量仅是示例,并且当第二图像135具有4K的分辨率时,第二图像135可包括例如3840×2160个像素。
在卷积运算处理期间,将第二图像135的I1、I2、I3、I8、I9、I10、I15、I16和I17的像素值与滤波器核430的F1至F9分别相乘,并且可将相乘的结果值的组合(例如,相加)的值赋值为特征图450的M1的值。当卷积运算的步幅为2时,将第二图像135的I3、I4、I5、I10、I11、I12、I17、I18和I19的像素值分别与滤波器核430的F1至F9相乘,并且相乘的结果值的组合的值可被赋值为特征图450的M2的值。
当滤波器核430沿着步幅移动到第二图像135的最后像素时,在第二图像135中的像素值与滤波器核430的参数之间执行卷积运算,并且因此可生成具有尺寸的特征图450。
根据本公开,可通过第一DNN和第二DNN的联合训练来优化第二DNN的参数的值,例如,在第二DNN的卷积层中使用的滤波器核的参数的值(例如,滤波器核430的F1至F9)。如上所述,AI放大器234可基于AI数据确定与第一DNN的缩小目标对应的放大目标,并且将与所确定的放大目标对应的参数确定为在第二DNN的卷积层中使用的滤波器核的参数。
包括在第一DNN和第二DNN中的卷积层可根据参照图4描述的卷积运算处理来执行处理,但是参照图4描述的卷积运算处理仅是示例,并且不限于此。
返回参照图3,从第一卷积层310输出的特征图可被输入到第一激活层320。
第一激活层320可将非线性特征赋值给每个特征图。第一激活层320可包括sigmoid函数、Tanh函数、修正线性单元(ReLU)函数等,但不限于此。
赋值非线性特征的第一激活层320指示作为第一卷积层310的输出的特征图的至少一个样点值被改变。这里,通过应用非线性特征来执行改变。
第一激活层320确定是否将从第一卷积层310输出的特征图的样点值发送到第二卷积层330。例如,特征图的一些样点值由第一激活层320激活并被发送到第二卷积层330,并且一些样点值由第一激活层320去激活并不被发送到第二卷积层330。由特征图表示的第二图像135的固有特性由第一激活层320来强调。
从第一激活层320输出的特征图325被输入到第二卷积层330。图3中所示的特征图325中的一个特征图是在第一激活层320中对参照图4描述的特征图450进行处理的结果。
第二卷积层330中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对特征图325执行卷积处理。第二卷积层330的输出被输入到第二激活层340。第二激活层340可将非线性特征赋值给输入数据。
从第二激活层340输出的特征图345被输入到第三卷积层350。图3中所示的第三卷积层350中指示的3×3×1指示通过使用尺寸为3×3的一个滤波器核执行卷积处理以生成一个输出图像。第三卷积层350是用于输出最终图像的层,并且通过使用一个滤波器核来生成一个输出。根据本公开的实施例,第三卷积层350可输出第三图像145作为卷积运算的结果。
如稍后将描述的,可存在指示第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的数量、第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息可与第一DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第二DNN的多条DNN设置信息与第一DNN的多条DNN设置信息之间的关联。
在图3中,第二DNN 300包括三个卷积层(第一卷积层310、第二卷积层330和第三卷积层350)以及两个激活层(第一激活层320和第二激活层340),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第二DNN 300可被实现为递归神经网络(RNN)。在这种情况下,将根据本公开的实施例的第二DNN 300的卷积神经网络(CNN)结构改变为RNN结构。
根据实施例,AI放大器234可包括用于上述卷积运算和激活层的运算的至少一个算术逻辑单元(ALU)。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行第二图像135或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的操作,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与一个值进行比较以确定是否将输入样点值发送到下一层。
在下文中,将描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法。
根据实施例,AI放大器234可存储在第二DNN中可设置的多条DNN设置信息。
这里,DNN设置信息可包括关于第二DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量和每个滤波器核的参数中的任意一个或任意组合的信息。多条DNN设置信息可分别对应于各种放大目标,并且第二DNN可基于与放大目标对应的DNN设置信息进行运算。第二DNN可基于DNN设置信息具有不同的结构。例如,第二DNN可基于任意一条DNN设置信息包括三个卷积层,并且可基于另一条DNN设置信息包括四个卷积层。
根据实施例,DNN设置信息可仅包括在第二DNN中使用的滤波器核的参数。在这种情况下,第二DNN的结构不改变,而是仅内部滤波器核的参数可基于DNN设置信息而改变。
AI放大器234可获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。此时使用的多条DNN设置信息中的每条DNN设置信息是用于获得预定分辨率和/或预定质量的第三图像145的信息,并且与第一DNN联合训练。
例如,多条DNN设置信息中的一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的两倍高的第三图像145(例如,分辨率为第二图像135的2K(2048×1080)的两倍高的4K(4096×2160)的第三图像145)的信息,并且另一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的四倍高的第三图像145(例如,分辨率为第二图像135的2K(2048×1080)的四倍高的8K(8192×4320)的第三图像145)的信息。
与图13的AI编码设备1200的第一DNN的DNN设置信息联合获得多条DNN设置信息中的每一条,并且AI放大器234根据与第一DNN的DNN设置信息的缩小比率对应的放大比率来获得多条DNN设置信息中的一条DNN设置信息。就此而言,AI放大器234可验证第一DNN的信息。为了使AI放大器234验证第一DNN的信息,根据实施例的AI解码设备200从AI编码设备1200接收包括第一DNN的信息的AI数据。
换句话说,AI放大器234可通过使用从AI编码设备1200接收到的信息来验证作为用于获得第一图像115的第一DNN的DNN设置信息的目标所针对的信息,并获得与第一DNN的DNN设置信息联合训练的第二DNN的DNN设置信息。
当从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息时,可基于根据所获得的DNN设置信息进行运算的第二DNN来对输入数据进行处理。
例如,当获得了任意一条DNN设置信息时,图3的第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350中的每一个中包括的滤波器核的数量以及滤波器核的参数被设置为包括在所获得的DNN设置信息中的值。
在图4的第二DNN的任意一个卷积层中使用的3×3的滤波器核的参数被设置为{1,1,1,1,1,1,1,1},并且当DNN设置信息随后被改变时,所述参数被作为改变后的DNN设置信息中包括的参数的{2,2,2,2,2,2,2,2,2}替换。
AI放大器234可基于AI数据中包括的信息从多条DNN设置信息中获得用于AI放大的DNN设置信息,并且现在将描述用于获得DNN设置信息的AI数据。
根据实施例,AI放大器234可基于AI数据中包括的差信息从多条DNN设置信息中获得用于AI放大的DNN设置信息。例如,当基于差信息验证了原始图像105的分辨率(例如,4K(4096×2160))是第一图像115的分辨率(例如,2K(2048×1080))的两倍高时,AI放大器234可获得用于将第二图像135的分辨率增加为两倍的DNN设置信息。
根据另一实施例,AI放大器234可基于AI数据中包括的与第一图像115相关的信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。AI放大器234可预先确定图像相关信息与DNN设置信息之间的映射关系,并且获得映射到与第一图像115相关的信息的DNN设置信息。
图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表。
通过根据图5的实施例,将确定根据本公开的实施例的AI编码和AI解码处理不仅考虑分辨率的改变。如图5中所示,可单独或共同考虑诸如标清(SD)、高清(HD)或全HD的分辨率、诸如10Mbps、15Mbps或20Mbps的比特率以及诸如AV1、H.264或HEVC的编解码器信息来选择DNN设置信息。出于这样的对分辨率、比特率和编解码器信息的考虑,考虑每个元素的训练可在AI训练处理期间与编码和解码处理联合执行(参见图18)。
因此,当根据训练基于包括如图5中所示的编解码器类型、图像的分辨率等的图像相关信息提供多条DNN设置信息时,可基于在AI解码处理期间接收到的与第一图像115相关的信息来获得用于对第二图像135进行AI放大的DNN设置信息。
换句话说,AI放大器234能够通过对图5的表的左侧的图像相关信息和表的右侧的DNN设置信息进行匹配来使用根据图像相关信息的DNN设置信息。
如图5中所示,当从与第一图像115相关的信息验证第一图像115的分辨率是SD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是10Mbps,并且经由AV1编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的ADNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由H.264编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的B DNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是20Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的C DNN设置信息,并且当验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的D DNN设置信息。基于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps还是15Mbps来选择C DNN设置信息和D DNN设置信息中的一个。在经由相同编解码器对相同分辨率的第一图像115执行第一编码时获得的图像数据的不同比特率指示重建图像的不同质量。因此,可基于图像质量联合训练第一DNN和第二DNN,并且因此,AI放大器234可根据指示第二图像135的质量的图像数据的比特率来获得DNN设置信息。
根据另一实施例,AI放大器234可考虑从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和AI数据中包括的与第一图像115相关的信息两者从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息。例如,AI放大器234可从第一解码器232接收在第一图像115的第一编码处理期间使用的量化参数信息,验证从AI数据获得的作为第一图像115的编码结果的图像数据的比特率,并且获得与量化参数信息和比特率对应的DNN设置信息。即使当比特率相同时,重建图像的质量也可根据图像的复杂度而变化。比特率是表示对其执行第一编码的整个第一图像115的值,并且即使在第一图像115内,每个帧的质量也可变化。因此,与仅使用AI数据时相比,当一起考虑来自第一解码器232的针对每个帧可获得的预测模式信息、运动信息和/或量化参数时,可获得更适合于第二图像135的DNN设置信息。
此外,根据实施例,AI数据可包括相互约定的DNN设置信息的标识符。DNN设置信息的标识符是用于将在第一DNN与第二DNN之间联合训练的一对DNN设置信息区分开的信息,使得对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标。在获得AI数据中包括的DNN设置信息的标识符之后,AI放大器234可通过使用与DNN设置信息的标识符对应的DNN设置信息对第二图像135执行AI放大。例如,可预先指定指示在第一DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符和指示在第二DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符。在这种情况下,可针对在第一DNN和第二DNN中的每一个中可设置的一对DNN设置信息指定相同的标识符。AI数据可包括在用于原始图像105的AI缩小的第一DNN中设置的DNN设置信息的标识符。接收AI数据的AI放大器234可通过使用多条DNN设置信息中的由AI数据中包括的标识符指示的DNN设置信息来对第二图像135执行AI放大。
此外,根据实施例,AI数据可包括DNN设置信息。AI放大器234可在获得AI数据中包括的DNN设置信息之后通过使用该DNN设置信息对第二图像135执行AI放大。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI放大器234可通过基于AI数据中包括的信息对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用获得的DNN设置信息对第二图像135执行AI放大。
根据实施例,当与放大目标对应的DNN的结构被确定时,AI放大器234可获得与所确定的DNN的结构对应的DNN设置信息,例如,滤波器核的参数。
根据本公开的另一实施例,AI放大器234可基于AI数据中包括的第三图像145的分辨率信息,从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。
AI放大器234通过包括与第一DNN相关的信息的AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息通过第二DNN集对第二图像135执行AI放大,并且在这种情况下,与直接分析第二图像135的特征以进行放大时相比,可降低存储器使用和吞吐量。
根据本公开的实施例,考虑显示设备的性能信息、预先存储在AI解码设备200中的设置值和从用户输入的设置值中的任意一个或任意组合,AI放大器234可获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。
例如,AI放大器234可获得与预先存储在AI解码设备200中的设置值对应的DNN设置信息。例如,当质量和/或分辨率被预先存储在AI解码设备200中时,AI放大器234可获得用于生成具有预先存储的质量和/或分辨率的第三图像145的DNN设置信息。
作为另一示例,AI放大器234可获得与由用户输入的设置值对应的DNN设置信息。例如,当用户输入了质量和/或分辨率时,AI放大器234可获得用于生成具有输入的质量和/或分辨率的第三图像145的DNN设置信息。
作为另一示例,考虑将再现第三图像145或经过后处理的第三图像145的显示设备的性能信息(例如,可由显示设备再现的图像的分辨率信息、可由显示设备再现的图像的质量信息等),AI缩放器234可获得用于生成具有质量和/或分辨率的第三图像145的DNN设置信息。例如,当显示设备仅支持1920×1080的全HD作为最高分辨率并且第二图像135的分辨率是1280×720时,AI放大器234可获得用于将第二图像135的分辨率增加为大约两倍的DNN设置信息。
根据实施例,当第二图像135包括多个帧时,AI放大器234可独立地获得针对多个帧的DNN设置信息,或者可获得针对全部帧的共同的DNN设置信息。
图6是示出包括多个帧的第二图像135的示图。
如图6中所示,第二图像135可包括帧t0至帧tn。
根据实施例,AI放大器234可通过AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息对帧t0至帧tn执行AI放大。换句话说,可基于共同的DNN设置信息经由AI放大来对帧t0至帧tn进行处理。
根据另一实施例,AI放大器234可通过使用从AI数据获得的“A”DNN设置信息对帧t0至帧tn中的一些帧(例如,帧t0至帧ta)执行AI放大,并且通过使用从AI数据获得的“B”DNN设置信息对帧ta+1至帧tb执行AI放大。此外,AI放大器234可通过使用从AI数据获得的“C”DNN设置信息来对帧tb+1至帧tn执行AI放大。换句话说,AI放大器234可独立地获得针对包括多个帧中的许多帧的每一组的DNN设置信息,并且通过使用独立地获得的DNN设置信息对每一组中包括的帧执行AI放大。
根据另一实施例,AI放大器234可独立地获得针对形成第二图像135的每个帧的DNN设置信息。换句话说,当第二图像135包括三个帧时,AI放大器234可通过使用关于第一帧获得的DNN设置信息对第一帧执行AI放大,通过使用关于第二帧获得的DNN设置信息对第二帧执行AI放大,并且通过使用关于第三帧获得的DNN设置信息对第三帧执行AI放大。根据如上所述的基于从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和包括在AI数据中的与第一图像115相关的信息来获得DNN设置信息的方法,可针对包括在第二图像135中的每个帧独立地获得DNN设置信息。这是因为可针对包括在第二图像135中的每个帧独立地确定模式信息、量化参数信息等。
根据另一实施例,AI数据可包括关于基于AI数据获得的DNN设置信息对哪个帧有效的信息。例如,当AI数据包括指示DNN设置信息直到帧ta有效的信息时,AI放大器234通过使用基于AI数据获得的DNN设置信息对帧t0至帧ta执行AI放大。此外,当另一条AI数据包括指示DNN设置信息直到帧tn有效的信息时,AI放大器234通过使用基于所述另一条AI数据获得的DNN设置信息对帧ta+1至帧tn执行AI放大。
根据本公开的实施例,AI解码设备200可存储多个第二DNN以获得不同类型的第三图像145。多个第二DNN可具有不同的层结构或不同的预设参数。AI放大器234可基于图像数据和AI数据中的一个或两者中包括的信息,从多个第二DNN中选择用于对第二图像135执行AI放大的第二DNN。
AI放大器234可基于图像数据、AI数据、显示设备的性能信息、预存储在AI解码设备200中的设置值和从用户输入的设置值中的任意一个或任意组合,从多个第二DNN中选择用于对第二图像135执行AI放大的第二DNN。用于从多个第二DNN中选择用于对第二图像135执行AI放大的第二DNN的标准可与用于获得用于对第二图像135执行AI放大的DNN设置信息的标准相同。
在下文中,将参照图7描述用于对第二图像135执行AI放大的第二DNN的结构,并且将参照图8至图11描述与不同放大目标对应的多个第二DNN的结构。
图7是用于描述根据本公开的实施例的用于对第二图像135执行AI放大的第二DNN600的结构的示图。
第二DNN 600可包括多个卷积层,即,第一卷积层610和第二卷积层640。在每个卷积层中,可对输入图像执行使用至少一个滤波器核的卷积运算。
参照图7,第二图像135被输入到第一卷积层610。在第一卷积层610中,执行使用尺寸为n×n的f个滤波器核的卷积运算。第一卷积层610的输出被输入到第一激活层620。此外,前一层的输出结果被输入到第二卷积层640。在第二卷积层640中,执行使用尺寸为n×n的f个滤波器核的卷积运算。第一卷积层610和第二卷积层640都使用尺寸为N×N的f个滤波器核,但是在第一卷积层610中使用的滤波器核的尺寸和数量可与在第二卷积层640中使用的滤波器核的尺寸和数量不同。第二卷积层640的输出结果被输入到第二激活层650。
此外,与被输入到第一卷积层610分开地,第二图像135可被输入到旁路缩放器660,并且旁路缩放器660的输出可与第二激活层650的输出相加。响应于将旁路缩放器660的输出与第二激活层650的输出相加的结果,可生成第三图像145。
如图7中所示,还可在包括第一卷积层610和第二卷积层640以及第一激活层620和第二激活层650的输入线路和输出线路上提供缩放器630。可存在一个或更多个缩放器630,并且缩放器630可位于任意一个卷积层之前或之后或者任意一个激活层之前或之后。缩放器630和旁路缩放器660可增加输入图像的分辨率,并且例如,可包括双线性缩放器、双三次缩放器、lanczos缩放器和阶梯缩放器中的任意一个或任意组合。根据本发明的实施例,缩放器630和旁路缩放器660中的任意一个或两者可由用于增加输入数据的尺寸的卷积层替换。
图7中所示的第二DNN 600可通过旁路缩放器660生成预测版本第三图像,通过包括第一卷积层610和第二卷积层640的输入线路和输出线路生成残差版本第三图像,并且通过将预测版本第三图像和残差版本第三图像相加来生成第三图像145。因为旁路缩放器660输出预测版本第三图像,所以可减少第二DNN 600的层数,并且因此,消耗了更少的时间来训练参数并且减少了实际驱动期间的运算时间。
图8是用于描述与第一放大目标对应的用于对第二图像135执行AI放大的第二DNN700的结构的示图,并且图9是用于描述与第二放大目标对应的用于对第二图像135执行AI放大的第二DNN 800的结构的示图。此外,图10是用于描述与第三放大目标对应的用于对第二图像135执行AI放大的第二DNN 900的结构的示图,并且图11是用于描述与第四放大目标对应的用于对第二图像135执行AI放大的第二DNN 1000的结构的示图。
根据本公开的实施例,根据第一放大目标生成的第三图像145的分辨率可低于根据第二放大目标生成的第三图像145的分辨率。此外,根据第二放大目标生成的第三图像145的分辨率可低于根据第三放大目标生成的第三图像145的分辨率。此外,根据第三放大目标生成的第三图像145的分辨率可低于根据第四放大目标生成的第三图像145的分辨率。
如上所述,当放大目标被确定时,AI放大器234可将第二图像135输入到多个第二DNN中的与所确定的放大目标对应的第二DNN。
当基于AI数据等确定了放大目标时,AI放大器234可通过图8至图11的第二DNN700至第二DNN 1000中的与放大目标对应的第二DNN来生成第三图像145。
首先,参照图8,第二图像135被输入到第一卷积层710。第一卷积层710通过使用尺寸为3×3的4个滤波器核对第二图像135执行卷积运算。第一卷积层710的输出被输入到第一激活层720,第一激活层720的输出被输入到缩放器730,并且缩放器730的输出被输入到第二激活层740。第二激活层740的输出被输入到第二卷积层750。第二卷积层750通过使用尺寸为3×3的一个滤波器核对输入数据执行卷积运算。
此外,第二图像135被输入到旁路缩放器760,并且在将旁路缩放器760的输出和第二卷积层750的输出相加时,生成第三图像145。
然后,参照图9,第二图像135被输入到第一卷积层810。第一卷积层810通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第一卷积层810的输出被输入到第一激活层820,并且第一激活层820的输出被输入到缩放器830。此外,缩放器830的输出被输入到第二激活层840,并且第二激活层840的输出被输入到第二卷积层850。第二卷积层850通过使用尺寸为3×3的一个滤波器核对输入数据执行卷积运算。此外,将第二图像135输入到旁路缩放器860,并且在将旁路缩放器860的输出和第二卷积层850的输出相加时,生成第三图像145。
参照图10,第二图像135被输入到第一卷积层910。第一卷积层910通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第一卷积层910的输出被输入到第一激活层920,并且第一激活层920的输出被输入到第二卷积层930。第二卷积层930通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第二卷积层930的输出被输入到第二激活层940,并且第二激活层940的输出被输入到缩放器950。然后,缩放器950的输出被输入到第三卷积层960。第三卷积层960通过使用尺寸为3×3的一个滤波器核对输入数据执行卷积运算。此外,第二图像135被输入到旁路缩放器970,并且在将旁路缩放器970的输出和第三卷积层960的输出相加时,生成第三图像145。
然后,参照图11,第二图像135被输入到第一卷积层1010。第一卷积层1010通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第一卷积层1010的输出被输入到第一激活层1020,并且第一激活层1020的输出被输入到第二卷积层1030。第二卷积层1030通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第二卷积层1030的输出被输入到第二激活层1040,并且第二激活层1040的输出被输入到缩放器1050。然后,缩放器1050的输出被输入到第三卷积层1060。第三卷积层1060通过使用尺寸为3×3的8个滤波器核对输入数据执行卷积运算。第三卷积层1060的输出被输入到第三激活层1070,并且第三激活层1070的输出被输入到第四卷积层1080。第四卷积层1080通过使用尺寸为3×3的一个滤波器核对输入数据执行卷积运算。此外,在将接收第二图像135的旁路缩放器1090的输出和第四卷积层1080的输出相加时,生成第三图像145。
图8至图11中所示的第二DNN 700至第二DNN 1000中的每一个可针对不同的放大目标被存储在AI解码设备200中。如图8至图11中所示,多个第二DNN 700至第二DNN 1000可具有不同层结构,或者即使层结构相同也可具有不同尺寸、数量等的滤波器核。AI解码设备200可基于AI数据等确定用于对第二图像135执行AI放大的第二DNN。
多个第二DNN可分别与用于AI缩小的多个第一DNN联合训练。例如,当用于AI缩小的第一DNN的数量是4并且用于AI放大的第二DNN的数量是4时,可以以1:1的方式联合训练4个第一DNN和4个第二DNN。
图12是根据本公开的实施例的AI解码方法的流程图。
在操作S1110,AI解码设备200获得作为对第一图像115执行第一编码120的结果而获得的图像数据。AI解码设备200还可获得与AI缩小相关的AI数据。
可以以比特流的形式接收图像数据。图像数据可包括基于第一图像115中的像素值而生成的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括在对第一图像115执行的第一编码120期间使用的信息。例如,图像数据可包括在第一编码120期间使用的预测模式信息、运动信息、与量化参数相关的信息等。可根据规则(例如,根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的语法)来生成图像数据。
AI数据包括指示第一图像115是否是经由AI缩小被生成的信息。
AI数据包括使得能够对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标的信息。
例如,AI数据中包括的信息可包括原始图像105与第一图像115之间的差信息。差信息可包括关于第一图像115与原始图像105相比的分辨率转换程度的信息(例如,分辨率转换率信息)。此外,因为通过重建的第二图像135的分辨率验证了第一图像115的分辨率,所以差信息可仅被表示为原始图像105的分辨率信息。
例如,AI数据可包括与第一图像115相关的信息。与第一图像115相关的信息可包括关于第一图像115的分辨率、作为对第一图像115执行第一编码120的结果而生成的图像数据的比特率、以及在第一图像115的第一编码120期间使用的编解码器类型中的任意一个或任意组合的信息。
例如,AI数据可包括将通过AI放大生成的第三图像145的分辨率信息。
此外,例如,AI数据还可包括作为将被输入到用于第二图像135的AI放大的第二DNN的参考信息的编码参数信息。编码参数信息指示可在原始图像105或第一图像115的第一编码120期间生成的编码参数。
可以以比特流的形式接收AI数据。可选地,根据本公开的实施例,可以以帧或包的形式接收AI数据。
图像数据和AI数据可通过相同的网络或不同的网络被发送到AI解码设备200。
在操作S1120,AI解码设备200基于图像数据获得第二图像135。AI解码设备200通过基于使用频率变换的图像重建方法对图像数据进行解码来重建与第一图像115对应的第二图像135。
在操作S1130,AI解码设备200确定是否对第二图像135执行AI放大。
当未获得AI数据时,AI解码设备200可确定不对第二图像135执行AI放大。
当获得AI数据并且所获得的AI数据包括第一图像115是通过AI缩小被生成的信息时,AI解码设备200可确定对第二图像135执行AI放大,并且当AI数据包括第一图像115不是通过AI缩小被生成的信息时,AI解码设备200可确定不对第二图像135执行AI放大。
根据本公开的实施例,即使当AI数据包括第一图像115是通过AI缩小被生成的信息时,AI解码设备200也可在第二DNN不可用时确定不对第二图像135执行AI放大。
当确定对第二图像135执行AI放大时,在操作S1140,AI解码设备200通过经由第二DNN对第二图像135执行AI放大来获得第三图像145。然后,当获得第三图像145时,AI解码设备200输出第三图像145,并且当确定不对第二图像135执行AI放大时,AI解码设备200输出第二图像135。根据本公开的实施例,显示设备可对从AI解码设备200输出的第二图像135执行放大。
根据本公开的实施例,当AI数据包括第一图像115是通过AI缩小被生成的信息,但是因为第二DNN不可用而不对第二图像135执行AI放大时,AI解码设备200可在对第二图像135执行传统放大之后输出第二图像135。
在下文中,将参照图13描述用于对原始图像105执行AI编码的AI编码设备1200。
图13是根据实施例的AI编码设备1200的配置的框图。
参照图13,AI编码设备1200可包括AI编码器1210和发送器1230。AI编码器1210可包括AI缩小器1212和第一编码器1214。发送器1230可包括数据处理器1232和通信器1234。
在图13中,AI编码器1210和发送器1230被示出为独立的装置,但是AI编码器1210和发送器1230可通过一个处理器来实现。在这种情况下,AI编码器1210和发送器1230可通过专用处理器或者通过软件和通用处理器(诸如AP、CPU或图形处理单元GPU)的组合来实现。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现专用处理器。
此外,AI编码器1210和发送器1230可由多个处理器来构成。在这种情况下,AI编码器1210和发送器1230可通过专用处理器的组合或者通过软件和多个通用处理器(诸如AP、CPU或GPU)的组合来实现。AI缩小器1212和第一编码器1214可通过不同处理器来实现。
AI编码器1210对原始图像105执行AI缩小并对第一图像115执行第一编码,并且将AI数据和图像数据发送到发送器1230。发送器1230将AI数据和图像数据发送到AI解码设备200。
图像数据包括作为对第一图像115执行第一编码的结果而获得的数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括在第一图像115的第一编码处理期间使用的信息。例如,图像数据可包括用于对第一图像115执行第一编码的预测模式信息、运动信息、量化参数信息等。
AI数据包括使得能够对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标的信息。根据实施例,AI数据可包括原始图像105与第一图像115之间的差信息。此外,AI数据可包括与第一图像115相关的信息。与第一图像115相关的信息可包括关于第一图像115的分辨率、作为对第一图像115执行第一编码的结果而获得的图像数据的比特率、以及在第一图像115的第一编码期间使用的编解码器类型中的任意一个或任意组合的信息。
根据实施例,AI数据可包括相互约定的DNN设置信息的标识符,使得对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标。
此外,根据实施例,AI数据可包括可在第二DNN中设置的DNN设置信息。
此外,AI数据可包括指示将被执行第一编码的图像是否是执行了AI缩小的图像的信息。此外,AI数据可包括将通过AI放大生成的第三图像145的分辨率信息。此外,AI数据还可包括将被输入到用于第二图像135的AI放大的第二DNN的参考信息。
AI缩小器1212确定是否通过第一DNN对原始图像105执行AI缩小。AI缩小器1212可基于原始图像105的分辨率、原始图像105的类型(例如,文件类型)、原始图像105中包括的对象的类型等来确定是否执行AI缩小。例如,当原始图像105的分辨率低于分辨率(例如,高清(HD))时,AI缩小器1212可确定不执行AI缩小。
根据本公开的实施例,当第一DNN可用时,AI缩小器1212可确定对原始图像105执行AI缩小,并且当第一DNN不可用时,AI缩小器1212可确定不对原始图像105执行AI缩小。
这里,第一DNN不可用的情况可包括以下情况:第一DNN未被存储在AI缩小器1212中的情况、以及即使当第一DNN被存储在AI缩小器1212中时也未存储用于对原始图像105执行AI缩小的DNN设置信息的情况。
此外,第一DNN不可用的情况还可包括存储在AI缩小器1212中的第一DNN和/或DNN设置信息的版本不是最新版本的情况。根据本公开的实施例,AI编码设备1200可通过网络从外部服务器接收并存储第一DNN和DNN设置信息,并且当存储在AI编码设备1200中的第一DNN和DNN设置信息中的任意一个或两者不是最新版本时,AI缩小器1212可确定第一DNN不可用。
当确定通过第一DNN对原始图像105执行AI缩小时,AI缩小器1212可通过经由第一DNN对原始图像105执行AI缩小来获得第一图像115。AI缩小器1212还可将参考信息与原始图像105一起输入到第一DNN,以对原始图像105执行AI缩小。参考信息可被输入到第一DNN以用于原始图像105的有效AI缩小。参考信息可包括例如包括在原始图像105中的像素的位置信息。包括在原始图像105中的像素的位置信息可包括原始图像105的位置图,并且位置图的像素中的每个像素可具有与原始图像105中的每个像素的位置对应的值。
AI缩小器1212可基于预定标准确定原始图像105的缩小目标。
为了获得与缩小目标匹配的第一图像115,AI缩小器1212可存储在第一DNN中可设置的多条DNN设置信息。AI缩小器1212从所述多条DNN设置信息中获得与缩小目标对应的DNN设置信息,并且通过在所获得的DNN设置信息中设置的第一DNN对原始图像105执行AI缩小。
可训练多条DNN设置信息中的每条DNN设置信息以获得预定分辨率和/或预定质量的第一图像115。例如,多条DNN设置信息中的任意一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的一半的第一图像115(例如,分辨率为原始图像105的4K(4096×2160)的一半的2K(2048×1080)的第一图像115)的信息,并且另一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的四分之一的第一图像115(例如,分辨率为原始图像105的8K(8192×4320)的四分之一的2K(2048×1080)的第一图像115)的信息。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI缩小器1212可通过基于缩小目标对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用所获得的DNN设置信息对原始图像105执行AI缩小。
根据实施例,AI缩小器1212可确定与缩小目标对应的DNN的结构,并且获得与所确定的DNN的结构对应的DNN设置信息,例如,获得滤波器核的参数。
在第一DNN和第二DNN被联合训练时,用于对原始图像105执行AI缩小的多条DNN设置信息可具有优化值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量和每个滤波器核的参数中的任意一个或任意组合。
AI缩小器1212可利用用于对原始图像105执行AI缩小而获得的DNN设置信息来设置第一DNN,以通过第一DNN获得分辨率和/或质量的第一图像115。当从多条DNN设置信息获得用于对原始图像105执行AI缩小的DNN设置信息时,第一DNN中的每一层可基于DNN设置信息中包括的信息来对输入数据进行处理。
根据本公开的实施例,为了生成与缩小目标匹配的第一图像115,AI缩小器1212可从多个预存储的第一DNN中确定用于对原始图像105执行AI缩小的第一DNN,并且通过所确定的第一DNN对原始图像105执行AI缩小。所述多个第一DNN可具有不同的层结构或不同的预设参数。
AI缩小器1212可基于预定标准(例如,基于原始图像105的压缩比、压缩质量、压缩历史信息和类型中的任意一个或任意组合确定的标准)从多个第一DNN中选择用于对原始图像105执行AI缩小的第一DNN。如上面参照图8至图11所述,多个第一DNN可包括共同的旁路缩放器,但是可具有包括多个卷积层的输入线路和输出线路的不同层结构。
在下文中,将描述由AI缩小器1212执行的确定缩小目标的方法。缩小目标可指示例如分辨率从原始图像105降低多少以获得第一图像115。
根据实施例,AI缩小器1212可基于原始图像105的压缩比(例如,原始图像105与第一图像115之间的分辨率差、目标比特率等)、压缩质量(例如,比特率的类型)、压缩历史信息和类型中的任意一个或任意组合来确定缩小目标。
例如,AI缩小器1212可基于预设或从用户输入的压缩比、压缩质量等确定缩小目标。
作为另一示例,AI缩小器1212可通过使用存储在AI编码设备1200中的压缩历史信息来确定缩小目标。例如,根据可由AI编码设备1200使用的压缩历史信息,可确定用户偏好的编码质量、压缩比等,并且可根据基于压缩历史信息确定的编码质量来确定缩小目标。例如,可根据压缩历史信息基于最常使用的编码质量来确定第一图像115的分辨率、质量等。
作为另一示例,AI缩小器1212可根据压缩历史信息基于比阈值更频繁使用的编码质量(例如,比阈值更频繁使用的编码质量的平均质量)来确定缩小目标。
作为另一示例,AI缩小器1212可基于原始图像105的分辨率、类型(例如,文件格式)等来确定缩小目标。
根据实施例,当原始图像105包括多个帧时,AI缩小器1212可针对多个帧独立地确定缩小目标,或者可确定针对全部帧的缩小目标。
根据实施例,AI缩小器1212可将包括在原始图像105中的帧划分为多个组,并且针对每个组独立地确定缩小目标。可针对每个组确定相同或不同的缩小目标。根据每个组,组中包括的帧的数量可相同或不同。
根据另一实施例,AI缩小器1212可针对包括在原始图像105中的每个帧独立地确定缩小目标。可针对每个帧确定相同或不同的缩小目标。
在下文中,将描述AI缩小所基于的第一DNN 1300的结构的示例。
图14是示出用于对原始图像105执行AI缩小的第一DNN 1300的示图。
如图14中所示,原始图像105被输入到第一卷积层1310。第一卷积层1310通过使用尺寸为5×5的32个滤波器核对原始图像105执行卷积处理。作为卷积处理的结果而生成的32个特征图被输入到第一激活层1320。第一激活层1320可将非线性特征赋值给32个特征图。
第一激活层1320确定是否将从第一卷积层1310输出的特征图的样点值发送到第二卷积层1330。例如,特征图的一些样点值被第一激活层1320激活并且被发送到第二卷积层1330,并且一些样点值被第一激活层1320去激活并且不被发送到第二卷积层1330。由从第一卷积层1310输出的特征图表示的信息由第一激活层1320强调。
第一激活层1320的输出1325被输入到第二卷积层1330。第二卷积层1330通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积处理。作为卷积处理的结果而输出的32个特征图被输入到第二激活层1340,并且第二激活层1340可将非线性特征赋值给32个特征图。
第二激活层1340的输出1345被输入到第三卷积层1350。第三卷积层1350通过使用尺寸为5×5的一个滤波器核对输入数据执行卷积处理。作为卷积处理的结果,可从第三卷积层1350输出一个图像。第三卷积层1350通过使用一个滤波器核作为用于输出最终图像的层来生成一个输出。根据本公开的实施例,第三卷积层1350可输出第一图像115作为卷积运算的结果。
可存在指示第一DNN 1300的第一卷积层1310、第二卷积层1330和第三卷积层1350的滤波器核的数量、第一DNN 1300的第一卷积层1310、第二卷积层1330和第三卷积层1350的每个滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息可与第二DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第一DNN的多条DNN设置信息与第二DNN的多条DNN设置信息之间的关联。
在图14中,第一DNN 1300包括三个卷积层(第一卷积层1310、第二卷积层1330和第三卷积层1350)以及两个激活层(第一激活层1320和第二激活层1340),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第一DNN 1300可被实现为RNN。在这种情况下,将根据本公开的实施例的第一DNN 1300的CNN结构改变为RNN结构。
根据实施例,AI缩小器1212可包括用于上述卷积运算和激活层的运算的至少一个ALU。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行原始图像105或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与一个值进行比较以确定是否将输入样点值发送到下一层。
返回参照图13,在从AI缩小器1212接收到第一图像115时,第一编码器1214可通过对第一图像115执行第一编码来减少第一图像115的信息量。可获得与第一图像115对应的图像数据,作为由第一编码器1214执行第一编码的结果。
数据处理器1232对将以某个形式发送的AI数据和图像数据中的一个或两者进行处理。例如,当将以比特流的形式发送AI数据和图像数据时,数据处理器1232可将AI数据处理为被表示为以比特流的形式,并且通过通信器1234以一个比特流的形式发送图像数据和AI数据。作为另一示例,数据处理器1232可将AI数据处理为以比特流的形式被表示,并且通过通信器1234发送与AI数据对应的比特流和与图像数据对应的比特流中的每个比特流。作为另一示例,数据处理器1232可将AI数据处理为以帧或包的形式被表示,并且通过通信器1234以比特流的形式发送图像数据并以帧或包的形式发送AI数据。
通信器1234通过网络发送作为执行AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。图像数据和AI数据可通过相同类型的网络或不同类型的网络被发送。
根据实施例,作为数据处理器1232的处理结果而获得的AI编码数据可被存储在数据存储介质中,其中,所述数据存储介质包括诸如硬盘、软盘或磁带的磁介质、诸如CD-ROM或DVD的光学记录介质、或者诸如光磁软盘的磁光介质。
在下文中,将描述用于对原始图像105执行AI缩小的第一DNN的另一结构。
图15是示出根据本公开的实施例的用于执行AI缩小的第一DNN 1400的结构的示图。
参照图15,第一DNN 1400可包括多个卷积层,即,第一卷积层1410和第二卷积层1440。在每个卷积层中,可对输入图像执行使用至少一个滤波器核的卷积运算。
第一DNN 1400还可包括至少一个激活层,即,第一激活层1420和第二激活层1450。每个激活层可将非线性特征赋值给前一层的输出结果。
参照图15,原始图像105被输入到第一卷积层1410。在第一卷积层1410中,执行使用尺寸为n×n的f个滤波器核的卷积运算。第一卷积层1410的输出被输入到第一激活层1420。此外,前一层的输出结果被输入到第二卷积层1440。在第二卷积层1440中,执行使用尺寸为n×n的f个滤波器核的卷积运算。第一卷积层1410和第二卷积层1440都使用尺寸为n×n的f个滤波器核,但是在第一卷积层1410中使用的滤波器核的尺寸和数量可与在第二卷积层1440中使用的滤波器核的尺寸和数量不同。第二卷积层1440的输出被输入到第二激活层1450。
此外,与输入到第一卷积层1410分开地,原始图像105可被输入到旁路缩放器1460,并且可将旁路缩放器1460的输出和第二激活层1450的输出相加。响应于将旁路缩放器1460的输出和第二激活层1450的输出相加的结果,可生成第一图像115。
如图15中所示,还可在包括第一卷积层1410和第二卷积层1440以及第一激活层1420和第二激活层1450的输入线路和输出线路上提供缩放器1430。可存在一个或更多个缩放器1430,并且缩放器1430可位于任意一个卷积层之前或之后或者任意一个激活层之前或之后。缩放器1430和旁路缩放器1460可降低输入图像的分辨率,并且例如,可包括双线性缩放器、双三次缩放器、lanczos缩放器和阶梯缩放器中的任意一个或任意组合。根据本公开的实施例,缩放器1430和旁路缩放器1460中的任意一个或两者可由用于增加输入数据的尺寸的卷积层替代。
图15中所示的第一DNN 1400可通过旁路缩放器1460生成预测版本第一图像,通过包括第一卷积层1410和第二卷积层1440的输入线路和输出线路生成残差版本第一图像,并且通过将预测版本第三图像和残差版本第三图像相加来生成第一图像115。因为旁路缩放器1460输出预测版本第一图像,所以可减少第一DNN 1400的层数,并且因此,消耗了更少的时间来训练参数并且减少了实际驱动期间的运算时间。
图16是示出根据本公开的另一实施例的用于执行AI缩小的第一DNN1500的结构的示图。
参照图16,原始图像105被输入到第一卷积层1510,并且第一卷积层1510的输出被输入到第一激活层1520。第一激活层1520的输出被输入到第二卷积层1530,并且第二卷积层1530的输出被输入到第二激活层1540。此外,第二激活层1540的输出被输入到第三卷积层1550,并且第三卷积层1550的输出被输入到第三激活层1560。第三激活层1560的输出被输入到第四卷积层1570。此外,可将从接收原始图像105的旁路缩放器1580输出的结果与第四卷积层1570的输出相加。在图16中,第一卷积层1510可通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积运算,并且第二卷积层1530可通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积运算。此外,第三卷积层1550可通过使用尺寸为7×7的32个滤波器核对输入数据执行卷积运算,并且第四卷积层1570可通过使用尺寸为5×5的一个滤波器核对输入数据执行卷积运算。
在图16中,第一卷积层1510至第四卷积层1570中的任意一个或任意组合(例如,第三卷积层1550)可由用于减小输入图像的尺寸的缩放器代替。
图17是根据本公开的实施例的AI编码方法的流程图。
在操作S1610,AI编码设备1200确定是否对原始图像105执行AI缩小。AI编码设备1200可基于原始图像105的分辨率、原始图像105的类型(例如,文件类型)、原始图像105中包括的对象的类型等来确定是否执行AI缩小。此外,当第一DNN可用时,AI编码设备1200可确定对原始图像105执行AI缩小,并且当第一DNN不可用时,AI编码设备1200可确定不对原始图像105执行AI缩小。
在操作S1620,AI编码设备1200基于确定是否执行AI缩小的结果,通过使用第一DNN对原始图像105执行AI缩小来获得第一图像115。当确定对原始图像105执行AI缩小时,AI编码设备1200通过对原始图像105执行AI缩小来生成第一图像115,并且当确定不对原始图像105执行AI缩小时,AI编码设备1200不对原始图像105执行AI缩小。
在操作S1630,AI编码设备1200通过对第一图像115执行第一编码来获得图像数据。AI编码设备1200通过基于使用频率变换的图像压缩方法对第一图像115进行编码来获得与第一图像115对应的图像数据。当未对原始图像105执行AI缩小时,AI编码设备1200可通过对原始图像105执行第一编码来获得图像数据。
在操作S1640,AI编码设备1200发送AI编码数据。AI编码数据可包括图像数据和与AI缩小相关的AI数据。AI数据包括与用于AI放大的第二DNN的DNN设置信息相关的信息。
如上所述,因为第一DNN和第二DNN被联合训练,所以当AI编码设备1200对原始图像105执行AI缩小至缩小目标时,AI解码设备200对第二图像135执行AI放大至与缩小目标对应的放大目标。因此,AI数据包括使得AI解码设备200能够对第二图像135执行AI放大至与原始图像105的缩小目标对应的放大目标的信息。AI数据包括用于获得与放大目标对应的DNN设置信息的信息。在接收到AI数据时,AI解码设备200能够推断或验证由AI编码设备1200使用DNN设置信息对原始图像105执行了AI缩小,并且因此,可获得与用于执行AI缩小的DNN设置信息对应的DNN设置信息,并通过使用所获得的DNN设置信息来执行AI放大。
此外,AI数据包括指示与图像数据对应的图像是否是通过AI缩小被生成的信息。当因为未对原始图像105执行AI缩小而通过对原始图像105执行第一编码来生成图像数据时,AI数据可包括指示与图像数据对应的图像(即,原始图像105)不是通过AI缩小被生成的信息。此外,当因为对原始图像105执行了AI缩小而通过对第一图像115执行第一编码来生成图像数据时,AI数据可包括指示与图像数据对应的图像(即,第一图像115)是通过AI缩小被生成的信息。
此外,AI数据可包括将由AI解码设备200生成的第三图像145的分辨率信息和将被输入到第二DNN的参考信息。
在下文中,将参照图18描述联合训练第一DNN 1740和第二DNN 1750的方法。
图18是用于描述训练第一DNN 1740和第二DNN 1750的方法的示图。
在实施例中,经由AI解码处理将通过AI编码处理被执行AI编码的原始图像105重建为第三图像145,并且为了保持原始图像105与作为AI解码的结果而获得的第三图像145之间的相似性,在AI编码处理与AI解码处理之间存在关联性。换句话说,在AI解码处理期间重建在AI编码处理中损失的信息,并且就此而言,对第一DNN 1740和第二DNN 1750进行联合训练。
为了进行准确的AI解码,最终,可减少与将图18中所示的第三训练图像1704和原始训练图像1701进行比较的结果对应的质量损失信息1730。因此,质量损失信息1730被用于训练第一DNN 1740和第二DNN 1750两者。
首先,将描述图18中所示的训练处理。
在图18中,原始训练图像1701是将被执行AI缩小的图像,并且第一训练图像1702是通过对原始训练图像1701执行AI缩小而获得的图像。此外,第三训练图像1704是通过对第一训练图像1702执行AI放大而获得的图像。
原始训练图像1701包括静止图像或包括多个帧的运动图像。根据实施例,原始训练图像1701可包括从静止图像或包括多个帧的运动图像提取的亮度图像。此外,根据实施例,原始训练图像1701可包括从静止图像或包括多个帧的运动图像提取的分块图像。当原始训练图像1701包括多个帧时,第一训练图像1702、第二训练图像和第三训练图像1704也各自包括多个帧。当原始训练图像1701的多个帧被依次输入到第一DNN 1740时,可通过第一DNN1740和第二DNN 1750依次获得第一训练图像1702、第二训练图像和第三训练图像1704的多个帧。
对于第一DNN 1740和第二DNN 1750的联合训练,原始训练图像1701被输入到第一DNN 1740。输入到第一DNN 1740的原始训练图像1701经由AI缩小被输出为第一训练图像1702,并且第一训练图像1702被输入到第二DNN 1750。输出第三训练图像1704作为对第一训练图像1702执行AI放大的结果。
参照图18,第一训练图像1702被输入到第二DNN 1750,并且根据实施例,在对第一训练图像1702执行第一编码和第一解码时获得的第二训练图像可被输入到第二DNN 1750。为了将第二训练图像输入到第二DNN 1750,可使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器。MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器可被用于对第一训练图像1702执行第一编码并对与第一训练图像1702对应的图像数据执行第一解码。
根据本公开的实施例,当第一训练图像1702或第二训练图像被输入到第二DNN1750时,还可输入参考信息。参考信息可包括第一训练图像1702或第二训练图像中包括的像素的位置信息以及可在对原始训练图像1701或第一训练图像1702执行第一编码时生成的编码参数信息中的一个或两者。
第一训练图像1702或第二训练图像中包括的像素的位置信息可包括第一训练图像1702或第二训练图像的位置图,并且位置图的样点中的每个样点可具有与第一训练图像1702或第二训练图像中的像素中的每个像素的位置对应的值。
此外,编码参数信息可包括可在原始训练图像1701或第一训练图像1702的第一编码期间生成的各种编码参数图,诸如根据原始训练图像1701或第一训练图像1702的数据单元(最大编码单元、编码单元、预测单元、变换单元或像素单元)的运动矢量图、帧内模式图、残差分布图、预测运动矢量图和SAO参数图。编码参数图中的每个样点可具有与每个样点所属的数据单元中生成的编码参数对应的值。
第二DNN 1750可基于根据参考信息图与输入图像(第一训练图像1702或第二训练图像)之间的位置的关系(例如,图的位置处的样点值与输入图像的位置处的像素值之间的关系)来优化参数。
参照图18,与通过第一DNN 1740输出的第一训练图像1702分开地,通过对原始训练图像1701执行传统缩小来获得缩减的训练图像1703。这里,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放和阶梯缩放中的任意一个或任意组合。
为了防止第一图像115的结构特征极大地偏离原始图像105的结构特征,获得缩减的训练图像1703以保留原始训练图像1701的结构特征。
在执行训练之前,第一DNN 1740和第二DNN 1750可被设置为预定DNN设置信息。当执行训练时,可确定结构损失信息1710、复杂度损失信息1720和质量损失信息1730。
可基于将缩减的训练图像1703和第一训练图像1702进行比较的结果来确定结构损失信息1710。例如,结构损失信息1710可对应于缩减的训练图像1703的结构信息与第一训练图像1702的结构信息之间的差。结构信息可包括可从图像提取的各种特征,诸如图像的亮度、对比度、直方图等。结构损失信息1710指示原始训练图像1701的多少结构信息被保持在第一训练图像1702中。当结构损失信息1710小时,第一训练图像1702的结构信息与原始训练图像1701的结构信息相似。
可基于第一训练图像1702的空间复杂度来确定复杂度损失信息1720。例如,第一训练图像1702的总方差值可被用作空间复杂度。复杂度损失信息1720与通过对第一训练图像1702执行第一编码而获得的图像数据的比特率相关。定义当复杂度损失信息1720小时,图像数据的比特率低。
可基于将原始训练图像1701和第三训练图像1704进行比较的结果来确定质量损失信息1730。质量损失信息1730可包括关于原始训练图像1701与第三训练图像1704之间的差的L1范数值、L2范数值、结构相似度(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值和视频多方法评估融合(VMAF)值中的任意一个或任意组合。质量损失信息1730指示第三训练图像1704与原始训练图像1701有多相似。当质量损失信息1730小时,第三训练图像1704与原始训练图像1701更相似。
参照图18,结构损失信息1710、复杂度损失信息1720和质量损失信息1730被用于训练第一DNN 1740,并且质量损失信息1730被用于训练第二DNN 1750。换句话说,质量损失信息1730被用于训练第一DNN 1740和第二DNN 1750两者。
第一DNN 1740可更新参数,使得基于损失信息1710至1730确定的最终损失信息被减少或最小化。此外,第二DNN 1750可更新参数,使得质量损失信息1730被减少或最小化。
用于训练第一DNN 1740和第二DNN 1750的最终损失信息可被确定为下面的等式1。
[等式1]
LossDS=a×结构损失信息+b×复杂度损失信息+c×质量损失信息
LossUS=d×质量损失信息
在等式1中,LossDS指示将被减小或最小化以训练第一DNN 1740的最终损失信息,并且LossUS指示将被减小或最小化以训练第二DNN 1750的最终损失信息。此外,a、b、c和d可以是预定权重。
换句话说,第一DNN 1740沿方程式1的LossDS减小的方向更新参数,并且第二DNN1750沿LossUS减小的方向更新参数。当根据在训练期间推导出的LossDS来更新第一DNN1740的参数时,基于更新的参数获得的第一训练图像1702变得与基于未更新的参数获得的先前的第一训练图像1702不同,并且因此,第三训练图像1704也变得与先前的第三训练图像1704不同。当第三训练图像1704变得与先前的第三训练图像1704不同时,还重新确定质量损失信息1730,并且第二DNN 1750相应地更新参数。当重新确定质量损失信息1730时,还重新确定LossDS,并且第一DNN 1740根据重新确定的LossDS来更新参数。换句话说,第一DNN 1740的参数的更新导致第二DNN 1750的参数的更新,并且第二DNN 1750的参数的更新导致第一DNN 1740的参数的更新。换句话说,因为通过共享质量损失信息1730来联合训练第一DNN 1740和第二DNN 1750,所以可联合优化第一DNN 1740的参数和第二DNN 1750的参数。
参照等式1,验证了根据质量损失信息1730来确定LossUS,但这仅是示例,并且可基于结构损失信息1710和复杂度损失信息1720中的一个或两者以及质量损失信息1730来确定LossUS。
在上文中,已经描述了AI解码设备200的AI放大器234和AI编码设备1200的AI减小器1212存储多条DNN设置信息,并且现在将描述训练存储在AI放大器234和AI减小器1212中的多条DNN设置信息中的每条DNN设置信息的方法。
如参照等式1所述,第一DNN 1740考虑第一训练图像1702的结构信息与原始训练图像1701的结构信息之间的相似性(结构损失信息1710)、作为对第一训练图像1702执行第一编码的结果而获得的图像数据的比特率(复杂度损失信息1720)、以及第三训练图像1704与原始训练图像1701之间的差(质量损失信息1730)来更新参数。
可更新第一DNN 1740的参数,从而获得具有与原始训练图像1701相似的结构信息的第一训练图像1702并且当对第一训练图像1702执行第一编码时获得具有小比特率的图像数据,并且同时,对第一训练图像1702执行AI放大的第二DNN 1750获得与原始训练图像1701相似的第三训练图像1704。
对第一DNN 1740的参数进行优化的方向可通过调整等式1的权重a、b和c而变化。例如,当权重b被确定为高时,可通过使第三训练图像1704的低比特率优先于高质量来更新第一DNN 1740的参数。此外,当权重c被确定为高时,可通过使第三训练图像1704的高质量优先于高比特率或者保持原始训练图像1701的结构信息来更新第一DNN 1740的参数。
此外,对第一DNN 1740的参数进行优化的方向可根据用于对第一训练图像1702执行第一编码的编解码器的类型而变化。这是因为将被输入到第二DNN 1750的第二训练图像可根据编解码器的类型而变化。
换句话说,可基于权重a、b和c以及用于对第一训练图像1702执行第一编码的编解码器的类型来联合更新第一DNN 1740的参数和第二DNN 1750的参数。因此,当在将权重a、b和c各自确定为一个值并将编解码器的类型确定为一个类型之后训练第一DNN 1740和第二DNN 1750时,可确定彼此关联和优化的第一DNN 1740的参数和第二DNN 1750的参数。
此外,当在改变权重a、b和c以及编解码器的类型之后训练第一DNN 1740和第二DNN 1750时,可确定彼此关联和优化的第一DNN 1740的参数和第二DNN 1750的参数。换句话说,当在改变权重a、b和c的值以及编解码器的类型时训练第一DNN 1740和第二DNN 1750时,可在第一DNN 1740和第二DNN 1750中确定彼此联合训练的多条DNN设置信息。
如上面参照图5所述,第一DNN 1740和第二DNN 1750的多条DNN设置信息可被映射到与第一图像相关的信息。为了设置这样的映射关系,可根据比特率经由编解码器对从第一DNN 1740输出的第一训练图像1702执行第一编码,并且可将通过对作为执行第一编码的结果而获得的比特流执行第一解码而获得的第二训练图像输入到第二DNN 1750。换句话说,通过在设置环境使得根据比特率经由编解码器对一分辨率的第一训练图像1702执行第一编码之后训练第一DNN 1740和第二DNN 1750,可确定映射到第一训练图像1702的所述分辨率的DNN设置信息对、用于对第一训练图像1702执行第一编码的编解码器的类型、以及作为对第一训练图像1702执行第一编码的结果而获得的比特流的比特率。通过不同地改变第一训练图像1702的分辨率、用于对第一训练图像1702执行第一编码的编解码器的类型、以及根据第一训练图像1702的第一编码获得的比特流的比特率,可确定第一DNN 1740和第二DNN 1750的多条DNN设置信息和与第一图像相关的多条信息之间的映射关系。
图19是用于描述训练设备1900对第一DNN 1740和第二DNN 1750的训练处理的示图。
参照图18描述的第一DNN 1740和第二DNN 1750的训练可由训练设备1900来执行。训练设备1900包括第一DNN 1740和第二DNN 1750。训练设备1900可以是例如AI编码设备1200或单独的服务器。作为训练结果而获得的第二DNN 1750的DNN设置信息被存储在AI解码设备200中。
参照图19,在操作S1910和操作S1920,训练设备1900初始设置第一DNN 1740和第二DNN 1750的DNN设置信息。因此,第一DNN 1740和第二DNN 1750可根据预定DNN设置信息进行操作。DNN设置信息可包括关于第一DNN 1740和第二DNN 1750中包括的卷积层的数量、针对每个卷积层的滤波器核的数量、针对每个卷积层的滤波器核的尺寸和每个滤波器核的参数中的任意一个或任意组合的信息。
在操作S1930,训练设备1900将原始训练图像1701输入到第一DNN 1740中。原始训练图像1701可包括静止图像或运动图像中包括的至少一个帧。
在操作S1940,第一DNN 1740根据初始设置的DNN设置信息对原始训练图像1701进行处理,并输出通过对原始训练图像1701执行AI缩小而获得的第一训练图像1702。在图19中,从第一DNN 1740输出的第一训练图像1702被直接输入到第二DNN 1750,但是从第一DNN1740输出的第一训练图像1702可由训练设备1900输入到第二DNN 1750。此外,训练设备1900可经由编解码器对第一训练图像1702执行第一编码和第一解码,然后将第二训练图像输入到第二DNN 1750。
在操作S1950,第二DNN 1750根据初始设置的DNN设置信息对第一训练图像1702或第二训练图像进行处理,并输出通过对第一训练图像1702或第二训练图像执行AI放大而获得的第三训练图像1704。
在操作S1960,训练设备1900基于第一训练图像1702计算复杂度损失信息1720。
在操作S1970,训练设备1900通过将缩减的训练图像1703和第一训练图像1702进行比较来计算结构损失信息1710。
在操作S1980,训练设备1900通过将原始训练图像1701和第三训练图像1704进行比较来计算质量损失信息1730。
在操作S1990,基于最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1900可基于复杂度损失信息1720、结构损失信息1710和质量损失信息1730来计算用于训练第一DNN 1740的最终损失信息。
在操作S1995,第二DNN 1750基于质量损失信息1730或最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1900可基于质量损失信息1730来计算用于训练第二DNN 1750的最终损失信息。
然后,训练设备1900、第一DNN 1740和第二DNN 1750可重复操作S1930至S1995,直到最终损失信息被最小化为止,以更新DNN设置信息。此时,在每次重复期间,第一DNN 1740和第二DNN 1750根据在先前操作中更新的DNN设置信息进行操作。
下面的表1示出当根据本公开的实施例对原始图像105执行AI编码和AI解码时以及当经由HEVC对原始图像105执行编码和解码时的效果。
【表1】
Figure BDA0002986210510000451
如表1中所示,尽管根据本公开的实施例对包括8K分辨率的1750帧的内容执行AI编码和AI解码时的主观图像质量高于经由HEVC执行编码和解码时的主观图像质量,但是比特率降低了至少50%。
图20是用于对原始图像105执行AI缩小的设备20和用于对第二图像135执行AI放大的设备40的示图。
设备20接收原始图像105,并通过使用AI缩小器2024和基于变换的编码器2026将图像数据25和AI数据30提供给设备40。根据实施例,图像数据25对应于图1a的图像数据,并且AI数据30对应于图1a的AI数据。此外,根据实施例,基于变换的编码器2026对应于图13的第一编码器1214,并且AI缩小器2024对应于图13的AI缩小器1212。
设备40接收AI数据30和图像数据25,并且通过使用基于变换的解码器2046和AI放大器2044来获得第三图像145。根据实施例,基于变换的解码器2046对应于图2的第一解码器232,并且AI放大器2044对应于图2的AI放大器234。
根据实施例,设备20包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备20根据CPU对计算机程序的执行来执行将参照图20描述的功能。根据实施例,将参照图20描述的功能由专用硬件芯片和/或CPU来执行。
根据实施例,设备40包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备40根据CPU对计算机程序的执行来执行将参照图20描述的功能。根据实施例,将参照图20描述的功能由专用硬件芯片和/或CPU来执行。
在图20中,配置控制器2022接收至少一个输入值10。根据实施例,至少一个输入值10可包括针对AI缩小器2024和AI放大器2044的目标分辨率差、图像数据25的比特率、图像数据25的比特率类型(例如,可变比特率类型、恒定比特率类型或平均比特率类型)以及针对基于变换的编码器2026的编解码器类型中的任意一个或任意组合。至少一个输入值10可包括被预存储在设备20中的值或从用户输入的值。
配置控制器2022基于接收到的输入值10来控制AI缩小器2024和基于变换的编码器2026的操作。根据实施例,配置控制器2022根据接收到的输入值10获得用于AI缩小器2024的DNN设置信息,并且利用所获得的DNN设置信息来设置AI缩小器2024。根据实施例,配置控制器2022可将接收到的输入值10发送到AI缩小器2024,并且AI缩小器2024可基于接收到的输入值10获得用于对原始图像105执行AI缩小的DNN设置信息。根据实施例,配置控制器2022可将附加信息(例如,应用AI缩小的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和高动态范围(HDR)的色调映射信息)连同输入值10一起提供给AI缩小器2024,并且AI缩小器2024可考虑输入值10和附加信息来获得DNN设置信息。根据实施例,配置控制器2022将接收到的输入值10的至少一部分发送到基于变换的编码器2026,并且基于变换的编码器2026通过某个值的比特率、某个类型的比特率和编解码器对第一图像115执行第一编码。
AI缩小器2024接收原始图像105并执行参照图1a、图1b、图13、图14、图15、图16、图17、图18和图19中的任意一个或任意组合描述的操作以获得第一图像115。
根据实施例,AI数据30被提供给设备40。AI数据30可包括原始图像105与第一图像115之间的分辨率差信息以及与第一图像115相关的信息中的一个或两者。可基于输入值10的目标分辨率差来确定分辨率差信息,并且可基于目标比特率、比特率类型和编解码器类型中的任意一个或任意组合来确定与第一图像115相关的信息。根据实施例,AI数据30可包括在AI放大期间使用的参数。可从AI缩小器2024将AI数据30提供给设备40。
图像数据25随着由基于变换的编码器2026对原始图像105进行处理而被获得,并被发送到设备40。基于变换的编码器2026可根据MPEG-2、H.264 AVC、MPEG-4、HEVC、VC-1、VP8、VP9或VA1对第一图像115进行处理。
配置控制器2042基于AI数据30控制AI放大器2044的操作。根据实施例,配置控制器2042根据接收到的AI数据30获得用于AI放大器2044的DNN设置信息,并且利用所获得的DNN设置信息设置AI放大器2044。根据实施例,配置控制器2042可将接收到的AI数据30发送到AI放大器2044,并且AI放大器2044可基于AI数据30获得用于对第二图像135执行AI放大的DNN设置信息。根据实施例,配置控制器2042可将附加信息(例如,应用AI放大的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和HDR的色调映射信息)连同AI数据30一起提供给AI放大器2044,并且AI放大器2044可考虑AI数据30和附加信息来获得DNN设置信息。根据实施例,AI放大器2044可从配置控制器2042接收AI数据30,从基于变换的解码器2046接收预测模式信息、运动信息和量化参数信息中的任意一个或任意组合,并且基于AI数据30以及预测模式信息、运动信息和量化参数信息中的任意一个或任意组合来获得DNN设置信息。
基于变换的解码器2046可对图像数据25进行处理以重建第二图像135。基于变换的解码器2046可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1对图像数据25进行处理。
AI放大器2044可通过基于所设置的DNN设置信息对从基于变换的解码器2046提供的第二图像135执行AI放大来获得第三图像145。
AI缩小器2024可包括第一DNN,并且AI放大器2044可包括第二DNN,并且根据实施例,根据参照图18和图19描述的训练方法来训练针对第一DNN和第二DNN的DNN设置信息。
上述本公开的实施例可被撰写为可被存储在介质中的计算机可执行程序或指令。
介质可持续存储计算机可执行程序或指令,或者临时存储计算机可执行程序或指令以供执行或下载。此外,介质可以是组合了单件或多件硬件的各种记录介质或存储介质中的任意一种,并且介质不限于直接连接到计算机系统的介质,而是可被分发在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光磁软盘、以及ROM、RAM和闪存)。介质的其他示例包括由分发应用的应用商店或者由供应或分发其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。
与上述DNN相关的模型可经由软件模块来实现。当DNN模型经由软件模块(例如,包括指令的程序模块)来实现时,DNN模型可被存储在计算机可读记录介质中。
此外,DNN模型可通过以硬件芯片的形式被集成而成为上述AI解码设备200或AI编码设备1200的一部分。例如,DNN模型可以以用于AI的专用硬件芯片的形式被制造,或者可被制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分。
此外,DNN模型可以以可下载软件的形式被提供。计算机程序产品可包括以通过制造商或电子市场被电子分发的软件程序的形式的产品(例如,可下载的应用)。对于电子分发,软件程序的至少一部分可被存储在存储介质中或者可被临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器或者中继服务器的存储介质。
虽然已经参照附图描述了本公开的一个或更多个实施例,但是本领域普通技术人员将理解,在不脱离由所附权利要求限定的精神和范围的情况下,可在本公开中进行形式和细节上的各种改变。

Claims (15)

1.一种人工智能AI解码设备,包括:
存储器,存储一个或更多个指令;以及
处理器,被配置为执行所存储的一个或更多个指令以进行以下操作:
获得与被编码的第一图像对应的图像数据;
通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像;
确定是否执行对所获得的第二图像的AI放大;
基于确定执行对所获得的第二图像的AI放大,通过经由放大深度神经网络DNN执行对所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像;并且
基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。
2.如权利要求1所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:
获得与通过缩小DNN将原始图像AI缩小为第一图像的操作相关的AI数据;并且
基于所获得的AI数据来确定是否执行对所获得的第二图像的AI放大。
3.如权利要求2所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:
基于所获得的AI数据验证第一图像是否是通过执行对原始图像的AI缩小而获得的;并且
基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,确定执行对所获得的第二图像的AI放大。
4.如权利要求2所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:
基于所获得的AI数据来验证第一图像是否是通过执行对原始图像的AI缩小而获得的,并验证放大DNN是否可用;并且
基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN可用,确定执行对所获得的第二图像的AI放大。
5.如权利要求4所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:
确定放大DNN是否被存储在AI解码设备中以及用于运算放大DNN的DNN设置信息是否被存储在AI解码设备中;并且
基于确定放大DNN未被存储在AI解码设备中或者确定DNN设置信息未被存储在AI解码设备中,确定放大DNN不可用。
6.如权利要求4所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN不可用,输出所获得的第二图像,并且
其中,输出的第二图像由显示设备放大。
7.如权利要求4所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:基于验证了第一图像是通过执行对原始图像的AI缩小而获得的,并基于验证了放大DNN不可用,确定执行对所获得的第二图像的传统放大。
8.如权利要求2所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:
基于所获得的AI数据来获得多个DNN设置信息中的用于执行对所获得的第二图像的AI放大的DNN设置信息;并且
通过基于所获得的DNN设置信息进行运算的放大DNN执行对所获得的第二图像的AI放大来获得第三图像。
9.如权利要求1所述的AI解码设备,其中,放大DNN是基于与将从放大DNN输出的训练图像和原始训练图像进行比较的结果对应的质量损失信息而训练的。
10.如权利要求1所述的AI解码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:通过将所获得的第二图像和与所获得的第二图像相关的信息输入到放大DNN来获得第三图像,并且
其中,与所获得的第二图像相关的信息包括所获得的第二图像的像素的位置信息和编码参数信息中的一个或两者。
11.如权利要求1所述的AI解码设备,其中,放大DNN包括:
多个卷积层,被配置为对所获得的第二图像依次执行多个卷积运算;以及
旁路缩放器,被配置为对所获得的第二图像执行缩放处理,并且
其中,第三图像是基于对所述多个卷积层的输出和旁路缩放器的输出进行组合的结果而获得的。
12.一种人工智能AI编码设备,包括:
存储器,存储一个或更多个指令;以及
处理器,被配置为执行存储在存储器中的所存储的一个或更多个指令,以进行以下操作:
确定是否执行对原始图像的AI缩小;
基于确定执行对原始图像的AI缩小,通过经由缩小深度神经网络DNN执行对原始图像的AI缩小来获得第一图像;
通过对所获得的第一图像进行编码来获得图像数据;并且
发送所获得的图像数据和AI数据,其中,所述AI数据包括指示所获得的图像数据是否对应于被执行了AI缩小的图像的信息。
13.如权利要求12所述的AI编码设备,其中,处理器还被配置为执行所存储的一个或更多个指令以进行以下操作:基于原始图像的分辨率、原始图像的类型和包括在原始图像中的对象的类型中的任意一个或任意组合来确定是否执行对原始图像的AI缩小。
14.如权利要求12所述的AI编码设备,其中,处理器还被配置为执行所存储的一个或更多个指令,以进行以下操作:
验证缩小DNN是否可用;并且
基于验证了缩小DNN可用,确定执行对原始图像的AI缩小。
15.一种人工智能AI解码方法,包括:
获得与被编码的第一图像对应的图像数据;
通过对所获得的图像数据进行解码来获得与第一图像对应的第二图像;
确定是否执行对所获得的第二图像的AI放大;
基于确定执行对所获得的第二图像的AI放大,通过经由放大深度神经网络DNN执行对所获得的第二图像的AI放大来获得第三图像,并输出所获得的第三图像;并且
基于确定不执行对所获得的第二图像的AI放大,输出所获得的第二图像。
CN201980061966.7A 2018-10-19 2019-10-14 用于对图像执行人工智能编码和人工智能解码的设备和方法 Pending CN112740687A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2018-0125406 2018-10-19
KR20180125406 2018-10-19
KR10-2019-0041108 2019-04-08
KR20190041108 2019-04-08
KR1020190066057A KR20200044662A (ko) 2018-10-19 2019-06-04 영상의 ai 부호화 및 ai 복호화를 위한 장치, 및 방법
KR10-2019-0066057 2019-06-04
PCT/KR2019/013421 WO2020080765A1 (en) 2018-10-19 2019-10-14 Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image

Publications (1)

Publication Number Publication Date
CN112740687A true CN112740687A (zh) 2021-04-30

Family

ID=70466745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980061966.7A Pending CN112740687A (zh) 2018-10-19 2019-10-14 用于对图像执行人工智能编码和人工智能解码的设备和方法

Country Status (3)

Country Link
EP (1) EP3811617A4 (zh)
KR (1) KR20200044662A (zh)
CN (1) CN112740687A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220003812A (ko) 2020-07-02 2022-01-11 삼성전자주식회사 호 채널의 상태에 기반하여 필터를 사용하여 전처리된 컨텐츠를 전송하는 전자 장치 및 전자 장치의 동작 방법
KR102573511B1 (ko) * 2020-11-23 2023-08-31 서울대학교산학협력단 영상 데이터 처리 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140247890A1 (en) * 2013-03-04 2014-09-04 Kabushiki Kaisha Toshiba Encoding device, encoding method, decoding device, and decoding method
KR20140145560A (ko) * 2013-06-12 2014-12-23 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
WO2015104963A1 (ja) * 2014-01-09 2015-07-16 株式会社日立国際電気 画像処理装置及び動画像伝送方法
CN104902273A (zh) * 2012-06-11 2015-09-09 三星电子株式会社 视频解码设备
KR20170100045A (ko) * 2012-09-28 2017-09-01 브이아이디 스케일, 인크. 다층 비디오 코딩을 위한 적응적 업샘플링
CN107431805A (zh) * 2014-12-22 2017-12-01 三星电子株式会社 编码方法和装置以及解码方法和装置
KR101885855B1 (ko) * 2017-03-30 2018-08-07 단국대학교 산학협력단 고해상도 추정 기법을 활용한 영상 신호 전송

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140177706A1 (en) * 2012-12-21 2014-06-26 Samsung Electronics Co., Ltd Method and system for providing super-resolution of quantized images and video

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104902273A (zh) * 2012-06-11 2015-09-09 三星电子株式会社 视频解码设备
KR20170100045A (ko) * 2012-09-28 2017-09-01 브이아이디 스케일, 인크. 다층 비디오 코딩을 위한 적응적 업샘플링
US20140247890A1 (en) * 2013-03-04 2014-09-04 Kabushiki Kaisha Toshiba Encoding device, encoding method, decoding device, and decoding method
KR20140145560A (ko) * 2013-06-12 2014-12-23 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
WO2015104963A1 (ja) * 2014-01-09 2015-07-16 株式会社日立国際電気 画像処理装置及び動画像伝送方法
CN107431805A (zh) * 2014-12-22 2017-12-01 三星电子株式会社 编码方法和装置以及解码方法和装置
KR101885855B1 (ko) * 2017-03-30 2018-08-07 단국대학교 산학협력단 고해상도 추정 기법을 활용한 영상 신호 전송

Also Published As

Publication number Publication date
EP3811617A4 (en) 2021-07-28
EP3811617A1 (en) 2021-04-28
KR20200044662A (ko) 2020-04-29

Similar Documents

Publication Publication Date Title
US10817989B2 (en) Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
US11200702B2 (en) AI encoding apparatus and operation method of the same, and AI decoding apparatus and operation method of the same
US11663747B2 (en) Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
US11610341B2 (en) Apparatus and method for performing artificial intelligence (AI) encoding and AI decoding on image
CN112889283A (zh) 编码方法及其设备以及解码方法及其设备
CN113196761A (zh) 用于评估视频的主观质量的方法及装置
CN112889282B (zh) 用于对图像执行人工智能编码和人工智能解码的方法和设备
US11720997B2 (en) Artificial intelligence (AI) encoding device and operating method thereof and AI decoding device and operating method thereof
US11182876B2 (en) Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image by using pre-processing
CN112840650B (zh) 人工智能(ai)编码装置及其操作方法和ai解码装置及其操作方法
US11720998B2 (en) Artificial intelligence (AI) encoding apparatus and operating method thereof and AI decoding apparatus and operating method thereof
CN112715029A (zh) Ai编码设备及其操作方法和ai解码设备及其操作方法
CN112740687A (zh) 用于对图像执行人工智能编码和人工智能解码的设备和方法
KR102421718B1 (ko) 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치
KR20230025279A (ko) Ai 기반의 영상 제공 장치 및 이에 의한 방법, 및 ai 기반의 디스플레이 장치 및 이에 의한 방법
KR20230094838A (ko) Ai 기반의 영상 제공 장치 및 이에 의한 방법, 및 ai 기반의 디스플레이 장치 및 이에 의한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination