CN112889283A - 编码方法及其设备以及解码方法及其设备 - Google Patents

编码方法及其设备以及解码方法及其设备 Download PDF

Info

Publication number
CN112889283A
CN112889283A CN201980068908.7A CN201980068908A CN112889283A CN 112889283 A CN112889283 A CN 112889283A CN 201980068908 A CN201980068908 A CN 201980068908A CN 112889283 A CN112889283 A CN 112889283A
Authority
CN
China
Prior art keywords
data
frame
image
dnn
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980068908.7A
Other languages
English (en)
Inventor
朴必圭
朴永五
李钟硕
孙有美
严明镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2019/013344 external-priority patent/WO2020080751A1/ko
Publication of CN112889283A publication Critical patent/CN112889283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

提供了一种存储有包含AI编码数据的视频文件的计算机可记录记录介质,其中,所述AI编码数据包括:图像数据,包括通过对高分辨率图像进行AI缩小而生成的低分辨率图像的编码信息;以及AI数据,用于根据所述图像数据重建的低分辨率图像的AI放大,其中,所述AI数据包括:指示AI放大是否被应用于一个或更多个帧的AI目标数据,以及当AI放大被应用于所述一个或更多个帧时,关于多条预设的默认DNN配置信息中的用于所述一个或更多个帧的AI放大的放大DNN信息的AI补充数据。

Description

编码方法及其设备以及解码方法及其设备
技术领域
本公开涉及图像处理领域。更具体地,本公开涉及用于基于深度神经网络对图像进行编码和解码的方法和设备。
背景技术
图像在经由遵循特定数据压缩标准(诸如运动图像专家组(MPEG)标准)的编解码器而被编码之后以比特流的形式被存储在记录介质中或者经由通信信道被发送。
随着能够再现和存储高分辨率和高质量图像的硬件的发展和供应,对能够有效地对高分辨率和高质量图像进行编码和解码的编解码器的需求增加。
发明内容
技术问题
根据本发明的一方面,提供了一种用于对图像进行编码和解码的方法和设备,其中,所述方法和设备使用深度神经网络(DNN)以低比特率对图像进行编码和解码。
此外,公开了一种记录用于在计算机中执行根据本公开的实施例的图像编码方法和图像解码方法的程序的计算机可读记录介质。
问题的解决方案
在本公开中,一种存储有包括人工智能(AI)编码数据的视频文件的计算机可记录记录介质,其中,所述AI编码数据包括:图像数据,包括通过对高分辨率图像进行AI缩小而生成的低分辨率图像的编码信息;以及AI数据,与根据所述图像数据重建的低分辨率图像的AI放大有关,其中,所述AI数据包括:指示AI放大是否将被应用于至少一个帧的AI目标数据;以及当AI放大被应用于所述至少一个帧时,关于多条预设的默认深度神经网络(DNN)配置信息中的用于所述至少一个帧的AI放大的放大DNN信息的AI补充数据。
根据本公开的另一实施例,一种使用人工智能(AI)放大的视频解码方法包括:接收包括AI编码数据的视频文件,其中,所述AI编码数据包括图像数据和关于所述图像数据的AI放大的AI数据;从视频文件的元数据框获得所述AI编码数据的所述AI数据,并且从视频文件的媒体数据框获得所述AI编码数据的所述图像数据;通过对所述图像数据进行解码来重建当前帧的低分辨率图像;从所述AI数据获得当前帧的放大深度神经网络(DNN)信息;并且通过根据当前帧的放大DNN信息对低分辨率图像进行AI放大来生成与低分辨率图像对应的高分辨率图像。
根据本公开的另一实施例,一种使用人工智能(AI)缩小的视频编码方法包括:确定用于将当前帧的高分辨率图像AI缩小为低分辨率图像的缩小深度神经网络(DNN)信息;通过根据所述缩小DNN信息对当前帧的高分辨率图像进行AI缩小来生成当前帧的低分辨率图像;生成关于与所述缩小DNN信息对应的放大DNN信息的AI数据,其中,所述放大DNN信息被用于对当前帧的低分辨率图像进行AI放大;通过对当前帧的低分辨率图像进行编码来获得图像数据;生成包括所述图像数据和所述AI数据的AI编码数据;并且输出包括媒体数据框和元数据框的视频文件,其中,所述AI编码数据的所述图像数据被嵌入在所述媒体数据框中,所述AI编码数据的所述AI数据被嵌入在所述元数据框中。
根据本公开的另一实施例,提供了一种执行使用人工智能(AI)放大的视频解码方法的视频解码设备。所述视频解码设备包括:通信器,被配置为接收包括AI编码数据的视频文件,其中,所述AI编码数据包括图像数据和关于所述图像数据的AI放大的AI数据;解析器,被配置为从所述视频文件的元数据框获得所述AI编码数据的所述AI数据,并从所述视频文件的媒体数据框获得所述AI编码数据的所述图像数据;第一解码器,被配置为通过对所述图像数据进行解码来重建当前帧的低分辨率图像;以及AI放大器,被配置为从所述AI数据获得当前帧的放大深度神经网络(DNN)信息,并通过根据当前帧的放大DNN信息对低分辨率图像进行AI放大来生成与低分辨率图像对应的高分辨率图像。
根据本公开的另一实施例,提供了一种执行使用人工智能(AI)缩小的视频编码方法的视频编码设备。所述视频编码设备包括:AI缩小器,被配置为确定用于将当前帧的高分辨率图像AI缩小为低分辨率图像的缩小深度神经网络(DNN)信息,通过对当前帧的高分辨率图像进行AI缩小来生成当前帧的低分辨率图像,并且生成用于对当前帧的低分辨率图像进行AI放大的AI数据;第一编码器,被配置为通过对当前帧的低分辨率图像进行编码来确定图像数据;数据处理器,被配置为确定包括所述图像数据和所述AI数据的AI编码数据;以及通信器,被配置为输出包括媒体数据框和元数据框的视频文件,其中,所述AI编码数据的所述图像数据被嵌入在所述媒体数据框中,所述AI编码数据的所述AI数据被嵌入在所述元数据框中。
本公开的技术问题不限于上述技术特征,并且可从下面的实施例推断出其他未陈述的技术问题。
公开的有利效果
根据基于实施例的人工智能(AI)编码方法和设备以及AI解码方法和设备,可经由基于AI的图像编码和解码以低比特率对图像进行处理。
附图说明
提供每个附图的简要描述以更全面地理解本说明书中所叙述的附图。
图1是用于描述根据实施例的人工智能(AI)编码处理和AI解码处理的示图。
图2是根据实施例的AI解码设备的配置的框图。
图3是示出用于对第二图像执行AI放大的第二深度神经网络(DNN)的示图。
图4是用于描述由卷积层进行卷积运算的示图。
图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表。
图6是示出包括多个帧的第二图像的示图。
图7是根据实施例的AI编码设备的配置的框图。
图8是示出用于对原始图像执行AI缩小的第一DNN的示图。
图9是用于描述训练第一DNN和第二DNN的方法的示图。
图10是用于描述训练设备对第一DNN和第二DNN的训练处理的示图。
图11是用于对原始图像执行AI缩小的设备以及用于对第二图像执行AI放大的设备的示图。
图12是用于描述图像数据与AI数据之间的对应关系以及图像数据和AI数据的结构的示图。
图13A是用于描述当AI数据被嵌入在图像数据中时AI解码设备中的数据流的示图。
图13B是用于描述当AI数据和图像数据被分离并被包括在两个文件中时AI解码设备中的数据流的示图。
图14示出当在单个文件中AI数据和图像数据被分离时AI编码数据的示例。
图15A示出当在单个文件中AI数据被嵌入在图像数据中时AI编码数据的示例。
图15B示出当在单个文件中AI数据被嵌入在图像数据中时AI编码数据的示例。
图15C示出当在单个文件中部分AI数据被嵌入在图像数据中并且其余AI数据与图像数据分离时AI编码数据的示例。
图16示出当AI数据和图像数据如图14中那样被分离时按视频片段单元划分的AI编码数据的示例。
图17示出被分离并在两个文件中被发送的AI数据和图像数据的示例。
图18A示出适用于图14至图17中描述的视频AI数据的数据结构的示例。
图18B示出适用于图16中描述的视频片段AI数据或者图14、图15A至图15C和图17的帧组AI数据的数据结构的示例。
图19示出实现图18A的数据结构的语法表。
图20示出适用于图14至图17中描述的帧组AI数据或帧AI数据的数据结构的示例。
图21示出实现图20的数据结构的语法表。
图22是根据本公开的根据AI解码器的图像解码方法的流程图。
图23是根据本公开的根据AI编码器的图像编码方法的流程图。
图24是示出根据本公开的图像解码设备的配置的框图。
图25是示出根据本公开的图像编码设备的配置的框图。
最佳模式
在本公开中,一种存储有包括人工智能(AI)编码数据的视频文件的计算机可记录记录介质,其中,所述AI编码数据包括:图像数据,包括通过对高分辨率图像进行AI缩小而生成的低分辨率图像的编码信息;以及AI数据,与根据所述图像数据重建的低分辨率图像的AI放大有关,其中,所述AI数据包括:指示AI放大是否将被应用于至少一个帧的AI目标数据;以及当AI放大被应用于所述至少一个帧时,关于多条预设的默认深度神经网络(DNN)配置信息中的用于所述至少一个帧的AI放大的放大DNN信息的AI补充数据。
具体实施方式
由于本公开允许各种改变和许多示例,因此将在附图中示出并在书面描述中详细描述特定实施例。然而,这并不旨在将本公开限制于实践的特定模式,并且将理解,不脱离本公开的精神和技术范围的全部改变、等同和替代都被包含在本公开中。
在实施例的描述中,当认为对相关技术的特定详细解释可能不必要地使本公开的本质模糊时,省略对相关技术的特定详细解释。此外,在说明书的描述中使用的数字(例如,第一、第二等)仅是用于将一个元素与另一元素区分开的标识符代码。
此外,在本说明书中,将理解,当元件彼此“连接”或“耦接”时,所述元件可彼此直接连接或耦接,但是可选地,除非另有指定,否则可通过所述元件之间的中间元件彼此连接或耦接。
在本说明书中,对于被表示为“单元”或“模块”的元件,可将两个或更多个元件组合为一个元件,或者可根据细分的功能将一个元件划分为两个或更多个元件。此外,在下文中描述的每个元件除了其主要功能之外,还可另外执行由另一元件执行的一些或全部功能,并且每个元件的一些主要功能可完全由另一组件来执行。
此外,在本说明书中,“图像”或“画面”可表示静止图像、包括多个连续静止图像(或帧)的运动图像、或者视频。
此外,在本说明书中,深度神经网络(DNN)是一种模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。
此外,在本说明书中,“参数”是在形成神经网络的每一层的运算处理中使用的值,并且例如,可包括将输入值应用于特定运算表达式时使用的权重。这里,参数可以以矩阵形式来表示。参数是作为训练的结果而设置的值,并且在必要时可通过单独的训练数据被更新。
此外,在本说明书中,“第一DNN”指示用于对图像进行人工智能(AI)缩小的DNN,“第二DNN”指示用于对图像进行AI放大的DNN。
此外,在本说明书中,“DNN设置信息”包括与构成DNN的元素相关的信息。“DNN设置信息”包括以上作为与构成DNN的元素相关的信息而被描述的参数。可通过使用DNN设置信息来设置第一DNN或第二DNN。
此外,在本说明书中,“原始图像”表示作为AI编码的对象的图像,并且“第一图像”表示作为在AI编码处理期间对原始图像执行AI缩小的结果而获得的图像。此外,“第二图像”表示在AI解码处理期间经由第一解码而获得的图像,并且“第三图像”表示在AI解码处理期间通过对第二图像进行AI放大而获得的图像。
此外,在本说明书中,“AI缩小”表示基于AI降低图像的分辨率的处理,并且“第一编码”表示根据基于频率变换的图像压缩方法的编码处理。此外,“第一解码”表示根据基于频率变换的图像重建方法的解码处理,“AI放大”表示基于AI提高图像的分辨率的处理。
图1是根据实施例的用于描述AI编码处理和AI解码处理的示图。
如上所述,当图像的分辨率显著增加时,用于对图像进行编码和解码的信息的吞吐量增加,因此,需要一种用于提高图像的编码和解码效率的方法。
如图1中所示,根据本公开的实施例,通过对具有高分辨率的原始图像105执行AI缩小110来获得第一图像115。然后,对具有相对低分辨率的第一图像115执行第一编码120和第一解码130,因此与对原始图像105执行第一编码和第一解码时相比,比特率可大大降低。
具体地,在图1中,根据实施例,在AI编码处理期间,通过对原始图像105执行AI缩小110来获得第一图像115并且对第一图像115执行第一编码120。在AI解码处理期间,接收作为AI编码的结果而获得的包括AI数据和图像数据的AI编码数据,经由第一解码130获得第二图像135,并且通过对第二图像135执行AI放大140来获得第三图像145。
详细参照AI编码处理,当接收到原始图像105时,对原始图像105执行AI缩小110以获得特定分辨率或特定质量的第一图像115。这里,基于AI来执行AI缩小110,并且用于AI缩小110的AI需要与用于第二图像135的AI放大140的AI联合训练。这是因为,当用于AI缩小110的AI和用于AI放大140的AI被单独训练时,作为AI编码的对象的原始图像105与通过AI解码重建的第三图像145之间的差异会增加。
在本公开的实施例中,AI数据可被用于在AI编码处理和AI解码处理期间保持这样的联合关系。因此,通过AI编码处理获得的AI数据可包括指示放大目标的信息,并且在AI解码处理期间,根据基于AI数据验证的放大目标对第二图像135执行AI放大140。
用于AI缩小110的AI和用于AI放大140的AI可被实施为DNN。如稍后将参照图9描述的,因为通过在特定目标下共享损失信息来联合训练第一DNN和第二DNN,所以AI编码设备可将在第一DNN和第二DNN的联合训练期间使用的目标信息提供给AI解码设备,并且AI解码设备可基于所提供的目标信息对第二图像135执行AI放大140至目标分辨率。
关于图1的第一编码120和第一解码130,可通过第一编码120减少通过对原始图像105执行AI缩小110而获得的第一图像115的信息量。第一编码120可包括通过对第一图像115进行预测来生成预测数据的处理、生成与第一图像115与预测数据之间的差对应的残差数据的处理、将空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理、以及对量化的残差数据进行熵编码的处理。这样的第一编码120可经由使用频率变换的图像压缩方法(诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和AOMedia Video1(AV1))中的一种来执行。
可通过对图像数据执行第一解码130来重建与第一图像115对应的第二图像135。第一解码130可包括通过对图像数据进行熵解码来生成量化的残差数据的处理、对量化的残差数据进行反量化的处理、将频域分量的残差数据变换为空间域分量的处理、生成预测数据的处理、以及通过使用预测数据和残差数据来重建第二图像135的处理。这样的第一解码130可经由与在第一编码120中使用的使用频率变换的图像压缩方法(诸如MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)之一对应的图像重建方法来执行。
通过AI编码处理获得的AI编码数据可包括作为对第一图像115执行第一编码120的结果而获得的图像数据以及与原始图像105的AI缩小110相关的AI数据。可在第一解码130期间使用图像数据,并且可在AI放大140期间使用AI数据。
可以以比特流的形式发送图像数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括对第一图像115执行的第一编码120期间使用的信息。例如,图像数据可包括第一编码120期间使用的预测模式信息、运动信息和与量化参数相关的信息。可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的规则(例如,根据语法)来生成图像数据。
在基于第二DNN的AI放大140中使用AI数据。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括使得能够通过第二DNN对第二图像135准确地执行AI放大140的信息。在AI解码处理期间,可基于AI数据对第二图像135执行AI放大140以具有目标分辨率和/或质量。
AI数据可与图像数据一起以比特流的形式被发送。可选地,根据实施例,AI数据可以以帧或包的形式与图像数据分离地被发送。可通过相同的网络或通过不同的网络发送作为AI编码的结果而获得的AI数据和图像数据。
图2是根据实施例的AI解码设备100的配置的框图。
参照图2,根据实施例的AI解码设备200可包括接收器210和AI解码器230。接收器210可包括通信器212、解析器214和输出器216。AI解码器230可包括第一解码器232和AI放大器234。
接收器210接收并解析作为AI编码的结果而获得的AI编码数据,并且将图像数据和AI数据可区分地输出到AI解码器230。
具体地,通信器212通过网络接收作为AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。可通过相同类型的网络或不同类型的网络接收图像数据和AI数据。
解析器214接收通过通信器212接收到的AI编码数据,并对AI编码数据进行解析以将图像数据和AI数据区分开。例如,解析器214可通过读取从通信器212获得的数据的头来将图像数据和AI数据区分开。根据实施例,解析器214经由通过通信器212接收到的数据的头将图像数据和AI数据可区分地发送到输出器216,并且输出器216将区分开的图像数据和AI数据分别发送到第一解码器232和AI放大器234。此时,可验证包括在AI编码数据中的图像数据是经由特定编解码器(例如,MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)生成的图像数据。在这种情况下,可通过输出器216将对应信息发送到第一解码器232,使得图像数据经由验证的编解码器被处理。
根据实施例,可从数据存储介质获得由解析器214解析的AI编码数据,其中,所述数据存储介质包括诸如硬盘、软盘或磁带的磁介质、诸如CD-ROM或DVD的光学记录介质或者诸如软光盘的磁光介质。
第一解码器232基于图像数据重建与第一图像115对应的第二图像135。由第一解码器232获得的第二图像135被提供给AI放大器234。根据实施例,还可将图像数据中包括的第一解码相关信息(诸如预测模式信息、运动信息、量化参数信息等)提供给AI放大器234。
在接收到AI数据时,AI放大器234基于AI数据对第二图像135执行AI放大。根据实施例,还可通过使用包括在图像数据中的第一解码相关信息(诸如预测模式信息、量化参数信息等)来执行AI放大。
根据实施例的接收器210和AI解码器230被描述为单独的装置,但可通过一个处理器被实现。在这种情况下,可通过专用处理器或者通过软件和通用处理器(诸如应用处理器(AP)、中央处理器(CPU)或图形处理单元(GPU))的组合来实现接收器210和AI解码器230。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。
此外,接收器210和AI解码器230可由多个处理器来配置。在这种情况下,可通过专用处理器的组合或者通过软件和通用处理器(诸如AP、CPU或GPU)的组合来实现接收器210和AI解码器230。类似地,可由不同处理器实现AI放大器234和第一解码器232。
提供给AI放大器234的AI数据包括使得第二图像135能够经由AI放大被处理的信息。这里,放大目标应对应于第一DNN的缩小。因此,AI数据包括用于验证第一DNN的缩小目标的信息。
AI数据中包括的信息的示例包括原始图像105的分辨率与第一图像115的分辨率之间的差信息以及与第一图像115相关的信息。
差信息可被表示为关于第一图像115与原始图像105相比的分辨率转换程度的信息(例如,分辨率转换率信息)。此外,因为通过重建的第二图像135的分辨率来验证第一图像115的分辨率并且因此分辨率转换程度被验证,所以所述差信息可仅被表示为原始图像105的分辨率信息。这里,分辨率信息可被表示为垂直尺寸/水平尺寸、或者比率(16:9、4:3等)和一个轴的尺寸。此外,当存在预先设置的分辨率信息时,可以以索引或标志的形式来表示分辨率信息。
与第一图像115相关的信息可包括关于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率或在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
AI放大器234可基于包括在AI数据中的差信息或与第一图像115相关的信息中的至少一个来确定第二图像135的放大目标。放大目标可指示例如将针对第二图像135将分辨率放大到什么程度。当放大目标被确定时,AI放大器234通过第二DNN对第二图像135执行AI放大,以获得与放大目标对应的第三图像145。
在描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法之前,将参照图3和图4描述通过第二DNN的AI放大处理。
图3是示出用于对第二图像135执行AI放大的第二DNN 300的示图,并且图4是用于描述图3的第一卷积层310中的卷积运算的示图。
如图3中所示,第二图像135被输入到第一卷积层310。图3中所示的第一卷积层310中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对一个输入图像执行卷积处理。由所述四个滤波器核生成四个特征图作为卷积处理的结果。每个特征图指示第二图像135的固有特性。例如,每个特征图可表示第二图像135的垂直方向特性、水平方向特性或边缘特性等。
将参照图4详细描述第一卷积层310中的卷积运算。
可通过在第一卷积层310中使用的尺寸为3×3的滤波器核430的参数与第二图像135中的对应像素值之间的乘法和加法来生成一个特征图450。因为在第一卷积层310中使用四个滤波器核,所以可使用四个滤波器核通过卷积运算来生成四个特征图。
图4中的第二图像135中指示的I1至I49指示第二图像135中的像素,并且滤波器核430中指示的F1至F9指示滤波器核430的参数。此外,特征图450中指示的M1至M9指示特征图450的样点。
在图4中,第二图像135包括49个像素,但是像素的数量仅是示例,并且当第二图像135具有4K的分辨率时,第二图像135可包括例如3840×2160个像素。
在卷积运算处理期间,将第二图像135的I1、I2、I3、I8、I9、I10、I15、I16和I17的像素值与滤波器核430的F1至F9分别相乘,并且可将相乘的结果值的组合(例如,相加)的值赋为特征图450的M1的值。当卷积运算的步幅为2时,将第二图像135的I3、I4、I5、I10、I11、I12、I17、I18和I19的像素值分别与滤波器核430的F1至F9相乘,并且相乘的结果值的组合的值可被赋为特征图450的M2的值。
当滤波器核430沿着步幅移动到第二图像135的最后像素时,在第二图像135中的像素值与滤波器核430的参数之间执行卷积运算,并且因此可生成具有特定尺寸的特征图450。
根据本公开,可通过第一DNN和第二DNN的联合训练来优化第二DNN的参数的值(例如,在第二DNN的卷积层中使用的滤波器核的参数(例如,滤波器核430的F1至F9)的值)。如上所述,AI放大器234可基于AI数据确定与第一DNN的缩小目标对应的放大目标,并且将与所确定的放大目标对应的参数确定为在第二DNN的卷积层中使用的滤波器核的参数。
包括在第一DNN和第二DNN中的卷积层可根据参照图4描述的卷积运算处理来执行处理,但是参照图4描述的卷积运算处理仅是示例,并且不限于此。
返回参照图3,从第一卷积层310输出的特征图可被输入到第一激活层320。
第一激活层320可将非线性特征赋予每个特征图。第一激活层320可包括sigmoid函数、Tanh函数、修正线性单元(ReLU)函数等,但不限于此。
赋予非线性特征的第一激活层320指示作为第一卷积层310的输出的特征图的至少一个样点值被改变。这里,通过应用非线性特征来执行所述改变。
第一激活层320确定是否将从第一卷积层310输出的特征图的样点值发送到第二卷积层330。例如,特征图的一些样点值由第一激活层320激活并被发送到第二卷积层330,并且一些样点值由第一激活层320去激活并不被发送到第二卷积层330。由特征图表示的第二图像135的固有特性通过第一激活层320被强调。
从第一激活层320输出的特征图325被输入到第二卷积层330。图3中所示的特征图325中的一个特征图是在第一激活层320中对参照图4描述的特征图450进行处理的结果。
第二卷积层330中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对特征图325执行卷积处理。第二卷积层330的输出被输入到第二激活层340。第二激活层340可将非线性特征赋予输入数据。
从第二激活层340输出的特征图345被输入到第三卷积层350。图3中所示的第三卷积层350中指示的3×3×1指示通过使用尺寸为3×3的一个滤波器核执行卷积处理以生成一个输出图像。第三卷积层350是用于输出最终图像的层,并且通过使用一个滤波器核来生成一个输出。根据本公开的实施例,第三卷积层350可输出第三图像145作为卷积运算的结果。
如稍后将描述的,可存在指示第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的数量、第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息应与第一DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第二DNN的多条DNN设置信息与第一DNN的多条DNN设置信息之间的关联。
在图3中,第二DNN 300包括三个卷积层(第一卷积层310、第二卷积层330和第三卷积层350)以及两个激活层(第一激活层320和第二激活层340),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第二DNN 300可被实现为递归神经网络(RNN)。在这种情况下,根据本公开的实施例的第二DNN 300的卷积神经网络(CNN)结构被改变为RNN结构。
根据实施例,AI放大器234可包括用于上述卷积运算和激活层的运算的至少一个算术逻辑单元(ALU)。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行第二图像135或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的操作,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
在下文中,将描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法。
根据实施例,AI放大器234可存储可在第二DNN中设置的多条DNN设置信息。
这里,DNN设置信息可包括关于第二DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个的信息。多条DNN设置信息可分别对应于各种放大目标,并且第二DNN可基于与特定放大目标对应的DNN设置信息进行操作。第二DNN可基于DNN设置信息具有不同的结构。例如,第二DNN可基于任意一条DNN设置信息包括三个卷积层,并且可基于另一条DNN设置信息包括四个卷积层。
根据实施例,DNN设置信息可仅包括第二DNN中使用的滤波器核的参数。在这种情况下,第二DNN的结构不改变,而是仅内部滤波器核的参数可基于DNN设置信息而改变。
AI放大器234可获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。此时使用的多条DNN设置信息中的每条DNN设置信息是用于获得预定分辨率和/或预定质量的第三图像145的信息,并且与第一DNN被联合训练。
例如,多条DNN设置信息中的一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的两倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的两倍高的4K(4096×2160)的第三图像145)的信息,并且另一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的四倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的四倍高的8K(8192×4320)的第三图像145)的信息。
所述多条DNN设置信息中的每一条与图6的AI编码设备600的第一DNN的DNN设置信息被联合获得,并且AI放大器234根据与第一DNN的DNN设置信息的缩小比率对应的放大比率来获得所述多条DNN设置信息中的一条DNN设置信息。就此而言,AI放大器234可验证第一DNN的信息。为了使AI放大器234验证第一DNN的信息,根据实施例的AI解码设备200从AI编码设备600接收包括第一DNN的信息的AI数据。
换句话说,AI放大器234可通过使用从AI编码设备600接收到的信息来验证作为用于获得第一图像115的第一DNN的DNN设置信息的目标所针对的信息,并获得与第一DNN的DNN设置信息联合训练的第二DNN的DNN设置信息。
当从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息时,可基于根据所获得的DNN设置信息进行操作的第二DNN来对输入数据进行处理。
例如,当获得了任意一条DNN设置信息时,图3的第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350中的每一个中包括的滤波器核的数量以及滤波器核的参数被设置为包括在所获得的DNN设置信息中的值。
具体地,在图4的第二DNN的任意一个卷积层中使用的3×3的滤波器核的参数被设置为{1,1,1,1,1,1,1,1,1},并且当DNN设置信息随后被改变时,所述参数被作为改变后的DNN设置信息中包括的参数的{2,2,2,2,2,2,2,2,2}替换。
AI放大器234可基于AI数据中包括的信息从多条DNN设置信息中获得用于AI放大的DNN设置信息,并且现在将描述用于获得DNN设置信息的AI数据。
根据实施例,AI放大器234可基于AI数据中包括的差信息从多条DNN设置信息中获得用于AI放大的DNN设置信息。例如,当基于所述差信息验证了原始图像105的分辨率(例如,4K(4096×2160))是第一图像115的分辨率(例如,2K(2048×1080))的两倍高时,AI放大器234可获得用于将第二图像135的分辨率增加为两倍的DNN设置信息。
根据另一实施例,AI放大器234可基于AI数据中包括的与第一图像115相关的信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。AI放大器234可预先确定图像相关信息与DNN设置信息之间的映射关系,并且获得映射到与第一图像115相关的信息的DNN设置信息。
图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表。
通过根据图5的实施例,将确定根据本公开的实施例的AI编码和AI解码处理不仅仅考虑分辨率的改变。如图5中所示,可单独或共同考虑分辨率(诸如标清(SD)、高清(HD)或全HD)、比特率(诸如10Mbps、15Mbps或20Mbps)以及编解码器信息(诸如AV1、H.264或HEVC)来选择DNN设置信息。出于这样的对分辨率、比特率和编解码器信息的考虑,考虑每个元素的训练应在AI训练处理期间与编码和解码处理联合执行(参见图9)。
因此,当根据训练基于包括如图5中所示的编解码器类型、图像的分辨率等的图像相关信息提供了多条DNN设置信息时,可基于在AI解码处理期间接收到的与第一图像115相关的信息来获得用于对第二图像135进行AI放大的DNN设置信息。
换句话说,AI放大器234能够通过对图5的表的左侧的图像相关信息和表的右侧的DNN设置信息进行匹配来根据图像相关信息使用DNN设置信息。
如图5中所示,当从与第一图像115相关的信息验证第一图像115的分辨率是SD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是10Mbps,并且经由AV1编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的ADNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由H.264编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的B DNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是20Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的C DNN设置信息,并且当验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用多条DNN设置信息中的D DNN设置信息。基于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps还是15Mbps来选择C DNN设置信息和DDNN设置信息中的一个。在经由相同编解码器对相同分辨率的第一图像115执行第一编码时获得的图像数据的不同比特率指示重建图像的不同质量。因此,可基于特定图像质量联合训练第一DNN和第二DNN,并且因此,AI放大器234可根据指示第二图像135的质量的图像数据的比特率来获得DNN设置信息。
根据另一实施例,AI放大器234可考虑从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和AI数据中包括的与第一图像115相关的信息两者从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息。例如,AI放大器234可从第一解码器232接收在第一图像115的第一编码处理期间使用的量化参数信息,从AI数据验证作为第一图像115的编码结果所获得的图像数据的比特率,并且获得与量化参数信息和比特率对应的DNN设置信息。即使当比特率相同时,重建图像的质量也可根据图像的复杂度而变化。比特率是表示对其执行第一编码的整个第一图像115的值,并且即使在第一图像115内,每个帧的质量也可变化。因此,与仅使用AI数据时相比,当一起考虑来自第一解码器232的针对每个帧可获得的预测模式信息、运动信息和/或量化参数时,可获得更适合于第二图像135的DNN设置信息。
此外,根据实施例,AI数据可包括相互约定的DNN设置信息的标识符。DNN设置信息的标识符是用于将在第一DNN与第二DNN之间联合训练的一对DNN设置信息区分开的信息,使得对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标。在获得AI数据中包括的DNN设置信息的标识符之后,AI放大器234可通过使用与DNN设置信息的标识符对应的DNN设置信息对第二图像135执行AI放大。例如,可预先指定指示在第一DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符和指示在第二DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符。在这种情况下,可针对在第一DNN和第二DNN中的每一个中可设置的一对DNN设置信息指定相同的标识符。AI数据可包括用于原始图像105的AI缩小的第一DNN中设置的DNN设置信息的标识符。接收AI数据的AI放大器234可通过使用多条DNN设置信息中的由AI数据中包括的标识符指示的DNN设置信息来对第二图像135执行AI放大。
此外,根据实施例,AI数据可包括DNN设置信息。AI放大器234可在获得AI数据中包括的DNN设置信息之后通过使用该DNN设置信息对第二图像135执行AI放大。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI放大器234可通过基于AI数据中包括的信息对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用获得的DNN设置信息对第二图像135执行AI放大。
根据实施例,当与放大目标对应的DNN的结构被确定时,AI放大器234可获得与所确定的DNN的结构对应的DNN设置信息,例如,滤波器核的参数。
AI放大器234通过包括与第一DNN相关的信息的AI数据获得第二DNN的DNN设置信息,并且通过基于所获得的DNN设置信息设置的第二DNN对第二图像135执行AI放大,并且在这种情况下,与直接分析第二图像135的特征以进行放大时相比,可降低存储器使用和吞吐量。
根据实施例,当第二图像135包括多个帧时,AI放大器234可独立地获得针对特定数量个帧的DNN设置信息,或者可获得针对全部帧的共同的DNN设置信息。
图6是示出包括多个帧的第二图像135的示图。
如图6中所示,第二图像135可包括帧t0至帧tn。
根据实施例,AI放大器234可通过AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息对帧t0至帧tn执行AI放大。换句话说,可基于共同的DNN设置信息经由AI放大来对帧t0至帧tn进行处理。
根据另一实施例,AI放大器234可通过使用从AI数据获得的“A”DNN设置信息对帧t0至帧tn中的一些帧(例如,帧t0至帧ta)执行AI放大,并且通过使用从AI数据获得的“B”DNN设置信息对帧ta+1至帧tb执行AI放大。此外,AI放大器234可通过使用从AI数据获得的“C”DNN设置信息来对帧tb+1至帧tn执行AI放大。换句话说,AI放大器234可针对包括多个帧中的特定数量个帧的每一组独立地获得DNN设置信息,并且通过使用独立地获得的DNN设置信息对每一组中包括的帧执行AI放大。
根据另一实施例,AI放大器234可针对形成第二图像135的每个帧独立地获得DNN设置信息。换句话说,当第二图像135包括三个帧时,AI放大器234可通过使用关于第一帧获得的DNN设置信息对第一帧执行AI放大,通过使用关于第二帧获得的DNN设置信息对第二帧执行AI放大,并且通过使用关于第三帧获得的DNN设置信息对第三帧执行AI放大。根据如上所述的基于从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和包括在AI数据中的与第一图像115相关的信息来获得DNN设置信息的方法,可针对包括在第二图像135中的每个帧独立地获得DNN设置信息。这是因为可针对包括在第二图像135中的每个帧独立地确定模式信息、量化参数信息等。
根据另一实施例,AI数据可包括关于基于AI数据获得的DNN设置信息对哪个帧有效的信息。例如,当AI数据包括指示DNN设置信息直到帧ta有效的信息时,AI放大器234通过使用基于AI数据获得的DNN设置信息对帧t0至帧ta执行AI放大。此外,当另一条AI数据包括指示DNN设置信息直到帧tn有效的信息时,AI放大器234通过使用基于所述另一条AI数据获得的DNN设置信息对帧ta+1至帧tn执行AI放大。
在下文中,将参照图7描述用于对原始图像105执行AI编码的AI编码设备600。
图7是根据实施例的AI编码设备600的配置的框图。
参照图7,AI编码设备600可包括AI编码器610和发送器630。AI编码器610可包括AI缩小器66和第一编码器614。发送器630可包括数据处理器632和通信器634。
在图7中,AI编码器610和发送器630被示出为独立的装置,但是AI编码器610和发送器630可通过一个处理器来实现。在这种情况下,AI编码器610和发送器630可通过专用处理器或者通过软件和通用处理器(诸如AP、CPU或图形处理单元GPU)的组合来实现。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。
此外,AI编码器610和发送器630可由多个处理器来构成。在这种情况下,AI编码器610和发送器630可通过专用处理器的组合或者通过软件和多个通用处理器(诸如AP、CPU或GPU)的组合来实现。AI缩小器612和第一编码器614可通过不同处理器来实现。
AI编码器610对原始图像105执行AI缩小并对第一图像115执行第一编码,并且将AI数据和图像数据发送到发送器630。发送器630将AI数据和图像数据发送到AI解码设备200。
图像数据包括作为对第一图像115执行第一编码的结果而获得的数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括第一图像115的第一编码处理期间使用的信息。例如,图像数据可包括用于对第一图像115执行第一编码的预测模式信息、运动信息、量化参数信息等。
AI数据包括使得能够对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标的信息。根据实施例,AI数据可包括原始图像105与第一图像115之间的差信息。此外,AI数据可包括与第一图像115相关的信息。与第一图像115相关的信息可包括关于第一图像115的分辨率、作为对第一图像115执行第一编码的结果而获得的图像数据的比特率、以及在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
根据实施例,AI数据可包括相互约定的DNN设置信息的标识符,使得对第二图像135执行AI放大至与第一DNN的缩小目标对应的放大目标。
此外,根据实施例,AI数据可包括可在第二DNN中设置的DNN设置信息。
AI缩小器612可获得通过经由第一DNN对原始图像105执行AI缩小而获得的第一图像115。AI缩小器612可基于预定标准确定原始图像105的缩小目标。
为了获得与缩小目标匹配的第一图像115,AI缩小器612可存储可在第一DNN中设置的多条DNN设置信息。AI缩小器612从所述多条DNN设置信息中获得与缩小目标对应的DNN设置信息,并且通过所获得的DNN设置信息中设置的第一DNN对原始图像105执行AI缩小。
可训练多条DNN设置信息中的每条DNN设置信息以获得预定分辨率和/或预定质量的第一图像115。例如,多条DNN设置信息中的任意一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的一半的第一图像115(例如,为原始图像105的4K(4096×2160)的一半的2K(2048×1080)的第一图像115)的信息,并且另一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的四分之一的第一图像115(例如,为原始图像105的8K(8192×4320)的四分之一的2K(2048×1080)的第一图像115)的信息。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI缩小器612可通过基于缩小目标对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用所获得的DNN设置信息对原始图像105执行AI缩小。
根据实施例,AI缩小器612可确定与缩小目标对应的DNN的结构,并且获得与所确定的DNN的结构对应的DNN设置信息,例如,获得滤波器核的参数。
随着第一DNN和第二DNN被联合训练,用于对原始图像105执行AI缩小的多条DNN设置信息可具有优化值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个。
AI缩小器612可利用用于对原始图像105执行AI缩小而获得的DNN设置信息来设置第一DNN,以通过第一DNN获得特定分辨率和/或特定质量的第一图像115。当从多条DNN设置信息获得用于对原始图像105执行AI缩小的DNN设置信息时,第一DNN中的每一层可基于DNN设置信息中包括的信息来对输入数据进行处理。
在下文中,将描述由AI缩小器612执行的确定缩小目标的方法。缩小目标可指示例如分辨率从原始图像105降低多少以获得第一图像115。
根据实施例,AI缩小器612可基于原始图像105的压缩比(例如,原始图像105与第一图像115之间的分辨率差、目标比特率等)、压缩质量(例如,比特率的类型)、压缩历史信息或类型中的至少一个来确定缩小目标。
例如,AI缩小器612可基于预设或从用户输入的压缩比、压缩质量等确定缩小目标。
作为另一示例,AI缩小器612可通过使用存储在AI编码设备600中的压缩历史信息来确定缩小目标。例如,根据可由AI编码设备600使用的压缩历史信息,可确定用户偏好的编码质量、压缩比等,并且可根据基于压缩历史信息确定的编码质量来确定缩小目标。例如,可根据压缩历史信息基于最常使用的编码质量来确定第一图像115的分辨率、质量等。
作为另一示例,AI缩小器612可根据压缩历史信息基于比特定阈值更频繁使用的编码质量(例如,比特定阈值更频繁使用的编码质量的平均质量)来确定缩小目标。
作为另一示例,AI缩小器612可基于原始图像105的分辨率、类型(例如,文件格式)等来确定缩小目标。
根据实施例,当原始图像105包括多个帧时,AI缩小器612可针对特定数量个帧独立地确定缩小目标,或者可确定针对全部帧的缩小目标。
根据实施例,AI缩小器612可将包括在原始图像105中的帧划分为特定数量个组,并且针对每个组独立地确定缩小目标。可针对每个组确定相同或不同的缩小目标。根据每个组,组中包括的帧的数量可相同或不同。
根据另一实施例,AI缩小器612可针对包括在原始图像105中的每个帧独立地确定缩小目标。可针对每个帧确定相同或不同的缩小目标。
在下文中,将描述AI缩小所基于的第一DNN 700的结构的示例。
图8是示出用于对原始图像105执行AI缩小的第一DNN 700的示图。
如图8中所示,原始图像105被输入到第一卷积层710。第一卷积层710通过使用尺寸为5×5的32个滤波器核对原始图像105执行卷积处理。作为卷积处理的结果而生成的32个特征图被输入到第一激活层720。第一激活层720可将非线性特征赋予所述32个特征图。
第一激活层720确定是否将从第一卷积层710输出的特征图的样点值发送到第二卷积层730。例如,所述特征图的一些样点值被第一激活层720激活并且被发送到第二卷积层730,并且一些样点值被第一激活层720去激活并且不被发送到第二卷积层730。由从第一卷积层710输出的特征图表示的信息被第一激活层720强调。
第一激活层720的输出725被输入到第二卷积层730。第二卷积层730通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积处理。作为卷积处理的结果而输出的32个特征图被输入到第二激活层740,并且第二激活层740可将非线性特征赋予所述32个特征图。
第二激活层740的输出745被输入到第三卷积层750。第三卷积层750通过使用尺寸为5×5的一个滤波器核对输入数据执行卷积处理。作为卷积处理的结果,可从第三卷积层750输出一个图像。第三卷积层750通过使用一个滤波器核作为用于输出最终图像的层来生成一个输出。根据本公开的实施例,第三卷积层750可输出第一图像115作为卷积运算的结果。
可存在指示第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的滤波器核的数量、第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的每个滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息可与第二DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第一DNN的多条DNN设置信息与第二DNN的多条DNN设置信息之间的关联。
在图8中,第一DNN 700包括三个卷积层(第一卷积层710、第二卷积层730和第三卷积层750)以及两个激活层(第一激活层720和第二激活层740),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第一DNN 700可被实现为RNN。在这种情况下,根据本公开的实施例的第一DNN 700的CNN结构被改变为RNN结构。
根据实施例,AI缩小器612可包括用于上述卷积运算和激活层的运算的至少一个ALU。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行原始图像105或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
返回参照图7,在从AI缩小器612接收到第一图像115时,第一编码器614可通过对第一图像115执行第一编码来减少第一图像115的信息量。可获得与第一图像115对应的图像数据,作为由第一编码器614执行第一编码的结果。
数据处理器632对将以特定形式发送的AI数据或图像数据中的至少一个进行处理。例如,当将以比特流的形式发送AI数据和图像数据时,数据处理器632可将AI数据处理为以比特流的形式被表示,并且通过通信器634以一个比特流的形式发送图像数据和AI数据。作为另一示例,数据处理器632可将AI数据处理为以比特流的形式被表示,并且通过通信器634发送与AI数据对应的比特流和与图像数据对应的比特流中的每个比特流。作为另一示例,数据处理器632可将AI数据处理为以帧或包的形式被表示,并且通过通信器634以比特流的形式发送图像数据并以帧或包的形式发送AI数据。
通信器634通过网络发送作为执行AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。图像数据和AI数据可通过相同类型的网络或不同类型的网络被发送。
根据实施例,作为数据处理器632的处理结果而获得的AI编码数据可被存储在数据存储介质中,其中,所述数据存储介质包括诸如硬盘、软盘或磁带的磁介质、诸如CD-ROM或DVD的光学记录介质、或者诸如软光盘的磁光介质。
在下文中,将参照图9描述联合训练第一DNN 700和第二DNN 300的方法。
图9是用于描述训练第一DNN 700和第二DNN 300的方法的示图。
在实施例中,经由AI解码处理将通过AI编码处理被执行AI编码的原始图像105重建为第三图像145,并且为了保持原始图像105与作为AI解码的结果而获得的第三图像145之间的相似性,需要AI编码处理与AI解码处理之间的关联性。换句话说,需要在AI解码处理期间重建在AI编码处理中损失的信息,并且就此而言,需要对第一DNN 700和第二DNN 300进行联合训练。
为了进行准确的AI解码,最终,需要减少与将图9中所示的第三训练图像804和原始训练图像801进行比较的结果对应的质量损失信息830。因此,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。
首先,将描述图9中所示的训练处理。
在图9中,原始训练图像801是将被执行AI缩小的图像,并且第一训练图像802是通过对原始训练图像801执行AI缩小而获得的图像。此外,第三训练图像804是通过对第一训练图像802执行AI放大而获得的图像。
原始训练图像801包括静止图像或包括多个帧的运动图像。根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的亮度图像。此外,根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的分块图像。当原始训练图像801包括多个帧时,第一训练图像802、第二训练图像和第三训练图像804也各自包括多个帧。当原始训练图像801的多个帧被依次输入到第一DNN 700时,可通过第一DNN 700和第二DNN 300依次获得第一训练图像802、第二训练图像和第三训练图像804的多个帧。
对于第一DNN 700和第二DNN 300的联合训练,原始训练图像801被输入到第一DNN700。输入到第一DNN 700的原始训练图像801经由AI缩小被输出为第一训练图像802,并且第一训练图像802被输入到第二DNN 300。输出第三训练图像804作为对第一训练图像802执行AI放大的结果。
参照图9,第一训练图像802被输入到第二DNN 850,并且根据实施例,在对第一训练图像802执行第一编码和第一解码时获得的第二训练图像可被输入到第二DNN 300。为了将第二训练图像输入到第二DNN 300,可使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器。具体地,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器可被用于对第一训练图像802执行第一编码并对与第一训练图像802对应的图像数据执行第一解码。
参照图9,与通过第一DNN 700输出的第一训练图像802分开地,通过对原始训练图像801执行传统缩小所获得的缩减的训练图像803被获得。这里,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放或阶梯缩放中的至少一个。
为了防止第一图像115的结构特征极大地偏离原始图像105的结构特征,获得缩减的训练图像803以保留原始训练图像801的结构特征。
在执行训练之前,第一DNN 700和第二DNN 300可被设置为预定DNN设置信息。当执行训练时,可确定结构损失信息810、复杂度损失信息820和质量损失信息830。
可基于将缩减的训练图像803和第一训练图像802进行比较的结果来确定结构损失信息810。例如,结构损失信息810可对应于缩减的训练图像803的结构信息与第一训练图像802的结构信息之间的差。结构信息可包括可从图像提取的各种特征,诸如图像的亮度、对比度、直方图等。结构损失信息810指示原始训练图像801的多少结构信息被保持在第一训练图像802中。当结构损失信息810小时,第一训练图像802的结构信息与原始训练图像801的结构信息相似。
可基于第一训练图像802的空间复杂度来确定复杂度损失信息820。例如,第一训练图像802的总方差值可被用作空间复杂度。复杂度损失信息820与通过对第一训练图像802执行第一编码而获得的图像数据的比特率相关。定义当复杂度损失信息820小时,图像数据的比特率低。
可基于将原始训练图像801和第三训练图像804进行比较的结果来确定质量损失信息830。质量损失信息830可包括关于原始训练图像801与第三训练图像804之间的差的L1范数值、L2范数值、结构相似度(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值或视频多方法评估融合(VMAF)值中的至少一个。质量损失信息830指示第三训练图像804与原始训练图像801有多相似。当质量损失信息830小时,第三训练图像804与原始训练图像801更相似。
参照图9,结构损失信息810、复杂度损失信息820和质量损失信息830被用于训练第一DNN 700,并且质量损失信息830被用于训练第二DNN 300。换句话说,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。
第一DNN 700可更新参数,使得基于损失信息810至830确定的最终损失信息被减少或最小化。此外,第二DNN 300可更新参数,使得质量损失信息830被减少或最小化。
用于训练第一DNN 700和第二DNN 300的最终损失信息可如下面的等式1被确定。
[等式1]
LossDS=a×结构损失信息+b×复杂度损失信息+c×质量损失信息
LossUS=d×质量损失信息
在等式1中,LossDS指示将被减小或最小化以训练第一DNN 700的最终损失信息,并且LossUS指示将被减小或最小化以训练第二DNN 300的最终损失信息。此外,a、b、c和d可以是预定的特定权重。
换句话说,第一DNN 700沿等式1的LossDS减小的方向更新参数,并且第二DNN 300沿LossUS减小的方向更新参数。当根据在训练期间推导出的LossDS来更新第一DNN 700的参数时,基于更新的参数获得的第一训练图像802变得与基于未更新的参数获得的先前的第一训练图像802不同,并且因此,第三训练图像804也变得与先前的第三训练图像804不同。当第三训练图像804变得与先前的第三训练图像804不同时,还重新确定质量损失信息830,并且第二DNN 300相应地更新参数。当重新确定质量损失信息830时,还重新确定LossDS,并且第一DNN 700根据重新确定的LossDS来更新参数。换句话说,第一DNN 700的参数的更新导致第二DNN 300的参数的更新,并且第二DNN 300的参数的更新导致第一DNN700的参数的更新。换句话说,因为通过共享质量损失信息830来联合训练第一DNN 700和第二DNN 300,所以可联合优化第一DNN 700的参数和第二DNN 300的参数。
参照等式1,验证了根据质量损失信息830来确定LossUS,但这仅是示例,并且可基于结构损失信息810和复杂度损失信息820中的至少一个以及质量损失信息830来确定LossUS。
在上文中,已经描述了AI解码设备200的AI放大器234和AI编码设备600的AI缩小器612存储多条DNN设置信息,并且现在将描述训练存储在AI放大器234和AI缩小器612中的多条DNN设置信息中的每条DNN设置信息的方法。
如参照等式1所述,第一DNN 700考虑第一训练图像802的结构信息与原始训练图像801的结构信息之间的相似性(结构损失信息810)、作为对第一训练图像802执行第一编码的结果而获得的图像数据的比特率(复杂度损失信息820)、以及第三训练图像804与原始训练图像801之间的差(质量损失信息830)来更新参数。
具体地,可更新第一DNN 700的参数,从而获得与原始训练图像801具有相似的结构信息的第一训练图像802并且当对第一训练图像802执行第一编码时获得具有小比特率的图像数据,并且同时,对第一训练图像802执行AI放大的第二DNN 300获得与原始训练图像801相似的第三训练图像804。
第一DNN 700的参数被优化的方向可通过调整等式1的权重a、b和c而变化。例如,当权重b被确定为高时,可通过使第三训练图像804的低比特率优先于高质量来更新第一DNN 700的参数。此外,当权重c被确定为高时,可通过使第三训练图像804的高质量优先于高比特率或者保持原始训练图像801的结构信息来更新第一DNN 700的参数。
此外,第一DNN 700的参数被优化的方向可根据用于对第一训练图像802执行第一编码的编解码器的类型而变化。这是因为将被输入到第二DNN 300的第二训练图像可根据编解码器的类型而变化。
换句话说,可基于权重a、b和c以及用于对第一训练图像802执行第一编码的编解码器的类型来联合更新第一DNN 700的参数和第二DNN 300的参数。因此,当在将权重a、b和c各自确定为特定值并将编解码器的类型确定为特定类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。
此外,当在改变权重a、b和c以及编解码器的类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。换句话说,当在改变权重a、b和c的值以及编解码器的类型时训练第一DNN 700和第二DNN 300时,可在第一DNN 700和第二DNN 300中确定彼此联合训练的多条DNN设置信息。
如上面参照图5所述,第一DNN 700和第二DNN 300的多条DNN设置信息可被映射到与第一图像相关的信息。为了设置这样的映射关系,可根据特定比特率经由特定编解码器对从第一DNN 700输出的第一训练图像802执行第一编码,并且可将通过对作为执行第一编码的结果而获得的比特流执行第一解码而获得的第二训练图像输入到第二DNN 300。换句话说,通过在设置环境使得根据特定比特率经由特定编解码器对特定分辨率的第一训练图像802执行第一编码之后训练第一DNN 700和第二DNN 300,可确定与第一训练图像802的所述分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及作为对第一训练图像802执行第一编码的结果而获得的比特流的比特率相映射的DNN设置信息对。通过不同地改变第一训练图像802的分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及根据第一训练图像802的第一编码获得的比特流的比特率,可确定第一DNN 700和第二DNN 300的多条DNN设置信息和与第一图像相关的多条信息之间的映射关系。
图10是用于描述训练设备1000对第一DNN 700和第二DNN的训练处理的示图。
参照图9描述的第一DNN 700和第二DNN 300的训练可由训练设备1000来执行。训练设备1000包括第一DNN 700和第二DNN 300。训练设备1000可以是例如AI编码设备600或单独的服务器。作为训练结果而获得的第二DNN 300的DNN设置信息被存储在AI解码设备200中。
参照图10,在操作S840和操作S845,训练设备1000初始设置第一DNN 700和第二DNN 300的DNN设置信息。因此,第一DNN 700和第二DNN 300可根据预定DNN设置信息进行操作。DNN设置信息可包括关于第一DNN 700和第二DNN 300中包括的卷积层的数量、针对每个卷积层的滤波器核的数量、针对每个卷积层的滤波器核的尺寸或每个滤波器核的参数中的至少一个的信息。
在操作S850,训练设备1000将原始训练图像801输入到第一DNN 700中。原始训练图像801可包括静止图像或运动图像中包括的至少一个帧。
在操作S855,第一DNN 700根据初始设置的DNN设置信息对原始训练图像801进行处理,并输出通过对原始训练图像801执行AI缩小而获得的第一训练图像802。在图10中,从第一DNN 700输出的第一训练图像802被直接输入到第二DNN 300,但是从第一DNN 700输出的第一训练图像802可由训练设备1000输入到第二DNN 300。此外,训练设备1000可经由特定编解码器对第一训练图像802执行第一编码和第一解码,然后将第二训练图像输入到第二DNN 300。
在操作S860,第二DNN 300根据初始设置的DNN设置信息对第一训练图像802或第二训练图像进行处理,并输出通过对第一训练图像802或第二训练图像执行AI放大而获得的第三训练图像804。
在操作S865,训练设备1000基于第一训练图像802计算复杂度损失信息820。
在操作S870,训练设备1000通过将缩减的训练图像803和第一训练图像802进行比较来计算结构损失信息810。
在操作S875,训练设备1000通过将原始训练图像801和第三训练图像804进行比较来计算质量损失信息830。
在操作S880,基于最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于复杂度损失信息820、结构损失信息810和质量损失信息830来计算用于训练第一DNN 700的最终损失信息。
在操作S885,第二DNN 300基于质量损失信息830或最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于质量损失信息830来计算用于训练第二DNN 300的最终损失信息。
然后,训练设备1000、第一DNN 700和第二DNN 300可重复操作S850至S885,直到最终损失信息被最小化为止,以更新DNN设置信息。此时,在每次重复期间,第一DNN 700和第二DNN 300根据在先前操作中更新的DNN设置信息进行操作。
下面的表1示出当根据本公开的实施例对原始图像105执行AI编码和AI解码时以及当经由HEVC对原始图像105执行编码和解码时的效果。
[表1]
Figure BDA0003026783620000291
如表1中所示,尽管根据本公开的实施例对包括8K分辨率的300帧的内容执行AI编码和AI解码时的主观图像质量高于经由HEVC执行编码和解码时的主观图像质量,但是比特率降低了至少50%。
图11是用于对原始图像105执行AI缩小的设备20和用于对第二图像135执行AI放大的设备40的示图。
设备20接收原始图像105,并通过使用AI缩小器1124和基于变换的编码器1126将图像数据25和AI数据30提供给设备40。根据实施例,图像数据25对应于图1的图像数据,并且AI数据30对应于图1的AI数据。此外,根据实施例,基于变换的编码器1126对应于图7的第一编码器614,并且AI缩小器1124对应于图7的AI缩小器612。
设备40接收AI数据30和图像数据25,并且通过使用基于变换的解码器1146和AI放大器1144来获得第三图像145。根据实施例,基于变换的解码器1146对应于图2的第一解码器232,并且AI放大器1144对应于图2的AI放大器234。
根据实施例,设备20包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备20根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。
根据实施例,设备40包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备40根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。
在图11中,配置控制器1122接收至少一个输入值10。根据实施例,所述至少一个输入值10可包括针对AI缩小器1124和AI放大器1144的目标分辨率差、图像数据25的比特率、图像数据25的比特率类型(例如,可变比特率类型、恒定比特率类型或平均比特率类型)或者针对基于变换的编码器1126的编解码器类型中的至少一个。所述至少一个输入值10可包括被预存储在设备20中的值或从用户输入的值。
配置控制器1122基于接收到的输入值10来控制AI缩小器1124和基于变换的编码器1126的操作。根据实施例,配置控制器1122根据接收到的输入值10获得用于AI缩小器1124的DNN设置信息,并且利用所获得的DNN设置信息来设置AI缩小器1124。根据实施例,配置控制器1122可将接收到的输入值10发送到AI缩小器1124,并且AI缩小器1124可基于接收到的输入值10获得用于对原始图像105执行AI缩小的DNN设置信息。根据实施例,配置控制器1122可将附加信息(例如,应用AI缩小的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和高动态范围(HDR)的色调映射信息)连同输入值10一起提供给AI缩小器1124,并且AI缩小器1124可考虑输入值10和附加信息来获得DNN设置信息。根据实施例,配置控制器1122将接收到的输入值10的至少一部分发送到基于变换的编码器1126,并且基于变换的编码器1126通过特定值的比特率、特定类型的比特率和特定编解码器对第一图像115执行第一编码。
AI缩小器1124接收原始图像105并执行参照图1、图7、图8、图9或图10中的至少一个描述的操作以获得第一图像115。
根据实施例,AI数据30被提供给设备40。AI数据30可包括原始图像105与第一图像115之间的分辨率差信息或者与第一图像115相关的信息中的至少一个。可基于输入值10的目标分辨率差来确定分辨率差信息,并且可基于目标比特率、比特率类型或编解码器类型中的至少一个来确定与第一图像115相关的信息。根据实施例,AI数据30可包括AI放大期间使用的参数。可从AI缩小器1124将AI数据30提供给设备40。
图像数据25随着由基于变换的编码器1126对原始图像105进行处理而被获得,并被发送到设备40。基于变换的编码器1126可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或VA1对第一图像115进行处理。
配置控制器1142基于AI数据30控制AI放大器1144的操作。根据实施例,配置控制器1142根据接收到的AI数据30获得用于AI放大器1144的DNN设置信息,并且利用所获得的DNN设置信息设置AI放大器1144。根据实施例,配置控制器1142可将接收到的AI数据30发送到AI放大器1144,并且AI放大器1144可基于AI数据30获得用于对第二图像135执行AI放大的DNN设置信息。根据实施例,配置控制器1142可将附加信息(例如,应用AI放大的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和HDR的色调映射信息)连同AI数据30一起提供给AI放大器1144,并且AI放大器1144可考虑AI数据30和附加信息来获得DNN设置信息。根据实施例,AI放大器1144可从配置控制器1142接收AI数据30,从基于变换的解码器1146接收预测模式信息、运动信息或量化参数信息中的至少一个,并且基于预测模式信息、运动信息和量化参数信息中的至少一个以及AI数据30来获得DNN设置信息。
基于变换的解码器1146可对图像数据25进行处理以重建第二图像135。基于变换的解码器1146可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1对图像数据25进行处理。
AI放大器1144可通过基于所设置的DNN设置信息对从基于变换的解码器1146提供的第二图像135执行AI放大来获得第三图像145。
AI缩小器1124可包括第一DNN,并且AI放大器1144可包括第二DNN,并且根据实施例,根据参照图9和图10描述的训练方法来训练针对第一DNN和第二DNN的DNN设置信息。
在图12至图25中,将描述AI编码数据中的AI数据与图像数据之间的关系以及AI数据的数据结构。在下文中,放大DNN是一种用于将诸如第二图像135的低分辨率图像AI放大为诸如第三图像145的高分辨率图像的DNN,类似于图3的第二DNN 300。放大DNN信息指示根据AI数据指定的DNN配置信息,并且可基于放大DNN信息来配置放大DNN。低分辨率图像指示低分辨率的图像,诸如第一图像115和第二图像135。高分辨率图像指示高分辨率的图像,诸如原始图像105和第三图像145。
在图12中,连同图像数据1200和AI数据1240的结构一起描述图像数据1200与AI数据1240之间的对应关系。
在图12中,描述了图像数据1200的视频-帧组-帧层结构。图12的视频1202是包括图像数据1200的所有连续帧的数据单元。视频参数集的参数信息可被应用于视频1202中包括的所有帧。视频参数集被包括在视频头1204中。
视频1202可包括多个帧组。帧组是包括共享帧组参数集的参数信息的一个或更多个连续帧的数据单元。帧组可以是画面组(GOP)或编码视频序列(CVS)。帧组参数集可被包括在帧组头中。例如,第一帧组1210的帧组参数集可被包括在第一帧组头1212中。此外,第二帧组1214的帧组参数集可被包括在第二帧组头1216中。
一个帧组在不参考另一帧组的情况下被独立编码。帧组可包括在不参考另一帧的情况下被编码的即时解码刷新(IDR)帧或帧内随机访问画面(IRAP)帧。此外,通过参考IDR帧(或IRAP帧)对帧组的其余帧进行编码。因此,可在不参考视频1202的另一帧组的情况下独立地对第一帧组1210进行编码。此外,作为第一帧组1210的首先被编码的帧的第一帧1220是IDR帧(或IRAP帧)。通过参考第一帧1220对第一帧组1210的包括第二帧1230的其余帧进行编码。
帧指示包括在视频中的一个静止图像。帧头可包括帧参数集,其中,所述帧参数集包括应用于帧的参数信息。例如,第一帧1220的第一帧头1222可包括应用于第一帧1220的帧参数集。类似地,第二帧1230的第二帧头1232可包括应用于第二帧1230的帧参数集。
将描述根据图12中描述的视频-帧组-帧层结构的AI数据1240的分类方法。可根据应用范围将AI数据1240分类为视频AI数据1242、帧组AI数据1250和帧AI数据1260。视频AI数据1242表示被共同应用于视频1202中包括的所有帧组的AI数据。此外,帧组AI数据1250表示被共同应用于当前帧组中包括的帧的AI数据。此外,帧AI数据1260表示被应用于当前帧的AI数据。
视频AI数据1242对应于视频头1204。因此,视频AI数据1242可与视频头1204并行地被解码。可选地,视频AI数据1242可紧接在视频头1204的解码之前被解码。可选地,视频AI数据1242可紧接在视频头1204的解码之后被解码。
帧组AI数据1250对应于帧组头。根据图12,第一帧组AI数据1252对应于第一帧组头1212。此外,第二帧组AI数据1254对应于第二帧组头1216。第一帧组AI数据1252和第二帧组AI数据1254可分别与第一帧组头1212和第二帧组头1216并行地被解码。可选地,第一帧组AI数据1252和第二帧组AI数据1254可分别紧接在第一帧组头1212和第二帧组头1216的解码之前被解码。可选地,第一帧组AI数据1252和第二帧组AI数据1254可分别紧接在第一帧组头1212和第二帧组头1216的解码之后被解码。
帧AI数据1260对应于帧头。根据图12,第一帧AI数据1262对应于第一帧头1222。此外,第二帧AI数据1264对应于第二帧头1232。第一帧AI数据1262和第二帧AI数据1264可分别与第一帧头1222和第二帧头1232并行地被解码。可选地,第一帧AI数据1262和第二帧AI数据1264可分别紧接在第一帧头1222和第二帧头1232的解码之前被解码。可选地,第一帧AI数据1262和第二帧AI数据1264可分别紧接在第一帧头1222和第二帧头1232的解码之后被解码。
根据本公开的实施例,图7的数据处理器632可生成包括图像数据1200和AI数据1240两者的单个文件格式的AI编码数据。通信器634将单个文件格式的AI编码数据发送到图2的通信器212。在本说明书中,文件表示存储在存储器中的一组数据。此外,视频文件表示存储在存储器中的一组图像数据,并且该图像数据可以以比特流的形式被实现。
根据本公开的实施例,AI数据1240可不被嵌入在图像数据1200中,并且可在单个文件中与图像数据1200分离地被配置。因此,尽管AI编码数据以单个文件被配置,但是因为AI数据1240和图像数据1200被分离,所以AI数据1240和/或图像数据1200可包括关于AI数据1240和图像数据1200的同步的信息。
通信器212可接收AI编码数据。此外,解析器214可从AI编码数据提取AI数据和图像数据。此外,输出器216将图像数据发送到第一解码器232,并将AI数据发送到AI放大器234。此外,第一解码器232通过对图像数据进行解码来生成低分辨率图像。此外,AI放大器234基于AI数据获得适合于低分辨率图像的放大的放大DNN信息,并且AI通过使用根据放大DNN信息设置的放大DNN来对低分辨率图像进行放大。
根据本公开的实施例,用于AI数据和图像数据的同步的同步数据可被包括在AI编码数据中。同步数据可独立于AI数据和图像数据被包括在AI编码数据中。可选地,同步数据可被包括在AI数据或图像数据中。解析器214可根据同步数据来使图像数据和AI数据同步。可选地,AI放大器234可根据同步数据来使图像数据和AI数据同步。可根据同步数据选择适合于对低分辨率图像进行AI放大的放大DNN信息。
根据本公开的实施例,AI数据1240可被嵌入在图像数据1200中。例如,视频AI数据1242可被嵌入在视频头1204中。因此,视频头1204可包括视频AI数据1242以及视频参数集。因此,视频AI数据1242可与视频参数集一起被解码。可选地,视频AI数据1242可独立于视频头1204而被嵌入在单个文件中以位于视频头1204之前或之后。因此,视频AI数据1242可紧接在视频头1204的解码之前或之后被解码。
类似地,第一帧组头1212可与帧组参数集一起被包括在第一帧组AI数据1252中。因此,第一帧组AI数据1252可与帧组参数集一起被解码。可选地,第一帧组AI数据1252可独立于第一帧组头1212而被嵌入在单个文件中以位于第一帧组头1212之前或之后。因此,第一帧组AI数据1252可紧接在第一帧组头1212的解码之前或之后被解码。
类似地,第一帧头1222可包括第一帧AI数据1262以及帧参数集。因此,第一帧AI数据1262可与帧参数集一起被解码。可选地,第一帧AI数据1262可独立于第一帧头1222而被嵌入在单个文件中以位于第一帧头1222之前或之后。因此,第一帧AI数据1262可紧接在第一帧头1222的解码之前或之后被解码。
将参照图13A描述当AI数据被嵌入在图像数据中时AI解码设备200中的数据流。
在AI编码数据中,当AI数据被嵌入在图像数据中时,AI数据不能在不对图像数据进行解码的情况下被独立地解码。因此,在第一解码器232对图像数据进行解码时,从图像数据提取嵌入图像数据中的AI数据。此外,从图像数据提取出的AI数据从第一解码器232被发送到AI放大器234。
根据本公开的实施例,AI数据的一部分可被嵌入在图像数据中,并且AI数据的其余部分可独立于图像数据被包括在AI编码数据中。例如,视频AI数据可独立于图像数据被包括在AI编码数据中,并且帧组AI数据和帧AI数据可被嵌入在图像数据中。
可通过解析器214将独立于图像数据存在的第一AI数据与图像数据分离。此外,从图像数据分离出的第一AI数据可从输出器216被发送到AI放大器234。第一AI数据可以是视频AI数据和/或视频片段AI数据。
此外,由第一解码器232从图像数据提取嵌入图像数据中的第二AI数据。提取出的第二AI数据从第一解码器232被发送到AI放大器234。此外,AI放大器234根据第一AI数据和第二AI数据获得低分辨率图像的AI放大所需的放大DNN信息。第二AI数据可以是帧组AI数据和/或帧AI数据。
根据本公开的实施例,数据处理器632可分开生成与图像数据1200对应的文件和与AI数据1240对应的文件。因此,通信器634以两个文件格式将AI编码数据发送到通信器212。因此,通信器634可经由不同的通信信道发送与图像数据1200对应的文件和与AI数据1240对应的文件。此外,通信器634可以以时间差依次发送与图像数据1200对应的文件和与AI数据1240对应的文件。
根据本公开的实施例,根据参照图12描述的图像数据1200与AI数据1240之间的对应关系,可根据与图像数据1200对应的文件的解码处理来对与AI数据1240对应的文件进行解码。此外,因为与图像数据1200对应的文件和与AI数据1240对应的文件是分离的,所以与图像数据1200对应的文件和与AI数据1240对应的文件可包括关于所述两个文件的同步的信息。
图13B是用于描述当AI数据和图像数据被分离并被配置在两个文件中时AI解码设备200中的数据流的示图。
通信器212可分别接收包括图像数据的文件和包括AI数据的文件,而不是包括AI编码数据的单个文件。此外,通信器212可从包括图像数据的文件或包括AI数据的文件获得图像数据和AI数据的同步所需的同步数据。根据本公开的实施例,可从单独的文件发送同步数据。在图13B中,同步数据被表示为独立于AI数据的数据,但是根据本公开的实施例,AI数据或图像数据可包括同步数据。
根据本公开的实施例,解析器214可根据同步数据使图像数据和AI数据同步。此外,输出器216可将同步的图像数据发送到第一解码器232,并将同步的AI数据发送到AI放大器234。
根据本公开的实施例,输出器216可将图像数据发送到第一解码器232。此外,AI数据和同步数据可被发送到AI放大器234。AI放大器234通过使用根据同步数据和AI数据获得的放大DNN信息对从第一解码器232输出的低分辨率图像进行AI放大。
图14示出当在单个文件中AI数据1420和图像数据1431被分离时AI编码数据的示例。在图14中,AI编码数据被包括在特定容器格式的视频文件1400中。所述特定容器格式可以是MP4、AVI、MKV或FLV。
视频文件1400包括元数据框1410和媒体数据框1430。关于包括在媒体数据框1430中的媒体数据的信息被包括在元数据框1410中。例如,元数据框1410可包括关于媒体数据的类型、用于对媒体数据进行编码的编解码器的类型和媒体的再现时间的信息。
元数据框1410可包括同步数据1415和AI数据1420。同步数据1415和AI数据1420在根据由特定容器格式提供的编码方法被编码之后被存储在元数据框1410中。
解析器214可从元数据框1410提取同步数据1415和AI数据1420。此外,解析器214可从媒体数据框1430提取图像数据1431。输出器216可根据同步数据1415将图像数据1431发送到第一解码器232并将AI数据1420发送到AI放大器234。可选地,输出器216可将同步数据1415发送到AI放大器234,并且AI放大器234可根据同步数据1415使图像数据1431和AI数据1420同步。
AI数据1420可包括视频AI数据1422、帧组AI数据1424和帧AI数据1426。视频AI数据1422可被设置为对应于视频头1432,帧组AI数据1424可被设置为对应于帧组头1436,并且帧AI数据1426可被设置为对应于帧头1440。
根据本公开的实施例,当相同的放大DNN信息被用于视频的所有帧时,可从AI数据1420省略帧组AI数据1424和帧AI数据1426。可选地,当针对每个帧组单元自适应地获得放大DNN信息并且相同的放大DNN信息被用于帧组的所有帧时,可从AI数据1420省略帧AI数据1426。
同步数据1415包括关于视频AI数据1422、帧组AI数据1424和帧AI数据1426以及视频头1432、帧组头1436和帧头1440的同步的信息。例如,同步数据1415可包括媒体数据框1430的图像数据1431的再现顺序信息或解码顺序信息。因此,AI放大器234可从根据同步数据1415的再现顺序信息或解码顺序信息确定的AI数据获得低分辨率图像的AI放大所需的放大DNN信息。
例如,为了对帧1438的低分辨率图像进行AI放大,解析器214或AI放大器234可基于同步数据1415确定与帧组1434对应的帧组AI数据1424或与帧1438对应的帧AI数据1426。此外,考虑应用于所有帧的视频AI数据1422以及帧组AI数据1424和帧AI数据1426,AI放大器234可获得用于帧1438的低分辨率图像的AI放大的放大DNN信息。
元数据框1410的AI数据1420可在媒体数据框1430的图像数据1431之前被解码。因此,AI放大器234可根据AI数据1420在图像数据1431的解码之前获得放大DNN信息。放大DNN信息可被应用于整个视频。可选地,可针对每个帧组获得不同的多条放大DNN信息,以用于对帧组单元的自适应AI放大。可选地,可针对每个帧不同地预先获得放大DNN信息,以用于对帧单元的自适应AI放大。
AI放大器234可根据媒体数据框1430的图像数据1431的解码顺序对元数据框1410的AI数据1420进行解码。视频AI数据1422可紧接在视频头1432的解码之前或之后被解码。可选地,视频AI数据1422可与视频头1432并行地被解码。为了根据视频头1432的解码顺序对视频AI数据1422进行解码,可参考同步数据1415。
类似地,AI放大器234可紧接在第一解码器232对帧组头1436的解码之前或之后对帧组AI数据1424进行解码。可选地,AI放大器234可与第一解码器232对帧组头1436的解码并行地对帧组AI数据1424进行解码。为了根据帧组头1436的解码顺序对帧组AI数据1424进行解码,可参考同步数据1415。
此外,AI放大器234可紧接在第一解码器232对帧头1440的解码之前或之后对帧AI数据1426进行解码。可选地,AI放大器234可与第一解码器232对帧头1440的解码并行地对帧AI数据1426进行解码。为了根据帧头1440的解码顺序对帧AI数据1426进行解码,可参考同步数据1415。
在图14中,为便于描述,在视频文件1400中包括一个元数据框1410和一个媒体数据框1430。然而,视频文件1400可包括两个或更多个元数据框以及两个或更多个媒体数据框。因此,图像数据以特定时间单位被划分的两个或更多个图像数据片段可被存储在两个或更多个媒体数据框中。此外,关于存储在两个或更多个媒体数据框中的图像数据片段的信息可被包括在两个或更多个元数据框中。此外,所述两个或更多个元数据框皆可包括AI数据。
图15A示出当AI数据被嵌入在图像数据1505中时AI编码数据的示例。
类似于图14的视频文件1400,视频文件1500包括元数据框1502和媒体数据框1504。因为AI数据被嵌入在图像数据1505中,所以元数据框1502不包括AI数据。作为替代,嵌入了AI数据的图像数据1505被包括在媒体数据框1504中。可根据图像数据1505的视频编解码器对AI数据进行编码。例如,图像数据1505的视频编解码器可以是H.264、HEVC、AVS2.0和Xvid。
因此,解析器214不从元数据框1502提取AI数据。作为替代,第一解码器232可从图像数据1505提取AI数据,并将提取出的AI数据发送到AI放大器234。此外,AI放大器234可基于经由AI数据获得的放大DNN信息对由第一解码器232重建的低分辨率图像进行AI放大。
与图14的视频文件1400不同,因为AI数据根据图像数据1505的解码顺序被嵌入在图像数据1505中,所以视频文件1500可不包括同步数据。因此,当图像数据1505被解码时,AI数据被顺序地解码。
视频AI数据1508可紧接在包括视频的参数信息的视频头1506之后。因此,可在对包括在视频头1506中的视频参数进行解码之后对视频AI数据1508进行解码。根据本公开的实施例,与图15A不同,视频AI数据1508可紧接在视频头1506之前。
帧组AI数据1514可紧接在包括帧组1510的参数信息的帧组头1512之后。因此,可在对帧组头1512中包括的帧组参数进行解码之后对帧组AI数据1514进行解码。根据本公开的实施例,与图15A不同,帧组AI数据1514可紧接在帧组头1512之前。可以以与帧组AI数据1514和帧组头1512的解码顺序相同的方式确定在帧组1510之后解码的其余帧组的多条帧组AI数据和帧组头的解码顺序。
帧AI数据1520可紧接在包括帧1516的参数信息的帧头1518之后。因此,可在对帧头1518中包括的帧组参数进行解码之后对帧AI数据1520进行解码。根据本公开的实施例,与图15A不同,帧AI数据1520可紧接在帧头1518之前。可以以与帧AI数据1520和帧头1518的解码顺序相同的方式确定在帧1516之后解码的其余帧的多条帧AI数据和帧头的解码顺序。
图15A示出当AI数据被嵌入在图像数据1525中时AI编码数据的另一示例。
类似于图15A的视频文件1500,视频文件1521包括元数据框1522和媒体数据框1524。此外,元数据框1522不包括AI数据,并且作为替代,嵌入了AI数据的图像数据1525被包括在媒体数据框1524中。然而,与图15A的视频文件1500不同,与AI数据对应的数据头被嵌入在视频文件1521中。
视频AI数据1528可被包括在包括视频的参数信息的视频头1526中。因此,视频AI数据1528可与包括在视频头1526中的视频参数一起被解码。
帧组AI数据1534可被包括在帧组头1532中,其中,所述帧组头1532包括帧组1530的参数信息。因此,帧组AI数据1534可与帧组头1532中包括的帧组参数一起被解码。在帧组1530之后解码的其余帧组的帧组AI数据也可被包括在帧组头1532中。
帧AI数据1540可被包括在帧头1538中,其中,所述帧头1538包括帧1536的参数信息。因此,帧AI数据1540可与帧头1538中包括的帧组参数一起被解码。在帧1536之后解码的其余帧的帧AI数据也可被包括在帧头1538中。
图15C示出当部分AI数据被嵌入在图像数据1557中并且其余AI数据与图像数据1557分离时AI编码数据的示例。
类似于图15A的视频文件1500,视频文件1550包括元数据框1552和媒体数据框1556。元数据框1552包括应用于视频的所有帧的视频AI数据1554。此外,帧组AI数据1564和帧AI数据1570被包括在媒体数据框1556的图像数据1557中。
与图15A的视频AI数据1508和图15B的视频AI数据1528不同,可在对图像数据1557的解码之前对包括在元数据框1552中的视频AI数据1554进行解码。此外,当图像数据1557被解码时,帧组AI数据1564和帧AI数据1570可被顺序地解码。
因此,解析器214可从元数据框1552提取视频AI数据1554。此外,通信器212可将视频AI数据1554发送到AI放大器234。此外,通信器212可将图像数据1557发送到第一解码器232。此外,第一解码器232可对图像数据1557进行解码以重建低分辨率图像,并且可提取帧组AI数据1564和帧AI数据1570。此外,第一解码器232可将帧组AI数据1564和帧AI数据1570发送到AI放大器234。此外,AI放大器234可根据视频AI数据1554、帧组AI数据1564和帧AI数据1570获得用于低分辨率图像的AI放大的放大DNN信息。
帧组AI数据1564可紧接在包括帧组1560的参数信息的帧组头1562之后。然而,根据本公开的实施例,帧组AI数据1564可紧接在帧组头1562之前。此外,帧组AI数据1564可被包括在帧组头1562中。
帧AI数据1570可紧接在包括帧1566的参数信息的帧头1568之后。然而,根据本公开的实施例,帧AI数据1570可紧接在帧头1568之前。此外,帧AI数据1570可被包括在帧头1568中。
在图15C中,在元数据框1552中仅包括视频AI数据1554,但是在元数据框1552中可另外包括帧组AI数据1564。可选地,帧组AI数据1564的一部分可被包括在元数据框1552中。可选地,帧AI数据1570的一部分可被包括在元数据框1552中。
在图15A和图15C中,嵌入媒体数据框1504和1556中的帧组AI数据1514和1564以及帧AI数据1520和1570可以以补充增强信息(SEI)消息的形式被嵌入。SEI消息是包括关于图像的附加信息的数据单元,其中,当对图像进行解码时未必需要所述附加信息。SEI消息可以以帧组为单位或以帧为单位被发送。此外,类似于参照图13A描述的第二AI数据,SEI消息可由第一解码器232提取出并被发送到AI放大器234。
图16示出当AI数据和图像数据如图14中那样被分离时按视频片段单元划分的AI编码数据的示例。
当包括AI数据的元数据的大小较大或者图像数据通过通信信道被实时流传输时,AI编码数据可按视频片段单元被划分并被存储在视频文件1600中,以减少对包括AI数据的元数据进行处理所需的开销。视频片段是视频的一部分,并且包括特定时间的帧。例如,视频片段可仅包括一个帧组或包括更多个帧组。当视频片段包括一个帧组时,视频文件1600可包括数量与图像数据的帧组的数量相等的视频片段。
视频片段皆可包括元数据框和媒体数据框。包括AI数据的元数据被划分并被存储在多个视频片段中。因此,AI数据被划分并且不仅被存储在关于整个图像数据的元数据框1610中,而且还被存储在关于视频片段的元数据框中。因此,当图像数据的特定部分从低分辨率图像被AI放大时,与所有AI数据被存储在关于整个图像数据的元数据框1610中时相比,当AI数据被划分并被存储在关于视频片段的元数据框以及元数据框1610中时,可更快地获得用于获得适合于该特定部分的放大DNN信息的AI数据。
例如,当从当前视频片段执行再现时,对于当前视频片段的低分辨率图像的AI放大,可仅参考元数据框1610的视频AI数据1612以及当前视频片段数据框1620的片段元数据框1630的AI数据。此外,不参考其他视频片段的元数据框的AI数据。因此,减少了根据AI数据的解码的开销。
此外,当图像数据被实时流传输时,AI数据在初始再现期间不被立即发送,而是可按视频片段单元被划分和发送。因此,因为AI数据被划分并被顺序地发送,所以可减少根据AI数据的解码的开销。因此,按视频片段单元进行划分和发送可能是有利的。
在图16中,关于整个图像数据的元数据框1610包括视频AI数据1612。视频AI数据1612被应用于视频中包括的所有视频片段。可在当前视频片段数据框1620之前对元数据框1610进行解码。
当前视频片段数据框1620包括片段元数据框1630和片段媒体数据框1640。片段元数据框1630可包括同步数据1631和AI数据1632。此外,片段媒体数据框1640包括视频片段数据1641。
当前视频片段数据框1620的AI数据1632可包括视频片段AI数据1634、帧组AI数据1636和帧AI数据1638。视频片段AI数据1634被应用于当前视频片段中包括的所有帧组。此外,帧组AI数据1636被应用于当前帧组中包括的所有帧。帧AI数据1638被应用于当前帧。
根据本公开的实施例,当相同的放大DNN信息被用于视频片段的所有帧时,可从当前视频片段数据框1620的AI数据1632省略帧组AI数据1636和帧AI数据1638。可选地,当针对每个帧组单元自适应地确定放大DNN信息并且相同的放大DNN信息被用于帧组的所有帧时,可从当前视频片段数据框1620的AI数据1632省略帧AI数据1638。
根据本公开的实施例,当视频片段包括一个帧组时,可从当前视频片段数据框1620的AI数据1632省略视频片段AI数据1634。这里,帧组AI数据1636可执行作为视频片段AI数据1634的功能。可选地,当视频片段仅包括一个帧组并且相同的放大DNN信息被用于帧组的所有帧时,可从当前视频片段数据框1620的AI数据1632省略视频片段AI数据1634和帧AI数据1638。然后,可基于根据帧组AI数据1636的放大DNN信息将AI放大应用于视频片段的所有帧。同步数据1631包括关于视频片段AI数据1634、帧组AI数据1636和帧AI数据1638以及视频片段头1642、帧组头1646和帧头1648的同步的信息。视频片段头1642包括被共同应用于视频片段中包括的帧的视频片段参数。例如,同步数据1631可包括片段媒体数据框1640的视频片段数据1641的再现顺序信息或解码顺序信息。因此,AI放大器234可从根据同步数据1631确定的AI数据获得低分辨率图像的AI放大所需的放大信息。
例如,为了对帧1649的低分辨率图像进行放大,解析器214或AI放大器234可基于同步数据1631获得与帧组1644对应的帧组AI数据1636和与帧1649对应的帧AI数据1638。然后,考虑应用于所有帧的视频片段AI数据1634以及帧组AI数据1636和帧AI数据1638,AI放大器234可获得用于帧1649的低分辨率图像的AI放大的放大DNN信息。
根据本公开的实施例,可在片段媒体数据框1640的视频片段数据1641之前对片段元数据框1630的AI数据1632进行解码。因此,AI放大器234可根据AI数据1632在对视频片段数据1641的解码之前获得放大DNN信息。所获得的放大DNN信息可被应用于整个视频片段。可选地,对于帧组单元的自适应AI放大,可针对每个帧组不同地预先获得放大DNN信息。可选地,对于帧单元的自适应AI放大,可针对每个帧不同地预先获得放大DNN信息。
根据本公开的实施例,AI放大器234可根据片段媒体数据框1640的视频片段数据1641的解码顺序对片段元数据框1630的AI数据1632进行解码。例如,AI放大器234可根据第一解码器232对帧组头1646的解码顺序对帧组AI数据1636进行解码。此外,AI放大器234可根据第一解码器232对帧头1648的解码来对帧AI数据1638进行解码。可通过参考同步数据1631来使视频片段AI数据1634、帧组AI数据1636和帧AI数据1638的解码顺序与视频片段头1642、帧组头1646和帧头1648的解码顺序同步。
可以以与当前视频片段数据框1620相同的方法顺序地对当前视频片段数据框1620之后的其余视频片段数据框进行解码。
图17示出在两个单独文件中发送的AI数据1740和图像数据1700的示例。
当通信器212没有接收到AI数据1740时,从图像数据1700获得的低分辨率图像不被AI放大。当通信器212接收到AI数据1740时,根据通过输出器216被发送到AI放大器234的AI数据1740来获得低分辨率图像的AI放大所需的放大DNN信息。
图像数据1700可包括视频头1710、帧组1720的帧组头1722和帧1730的帧头1732。此外,AI数据1740可包括视频AI数据1742、帧组AI数据1750和帧AI数据1760。因为图像数据1700和AI数据1740在单独的文件中被发送,所以图像数据1700和/或AI数据1740可包括图像数据1700和AI数据1740的同步所需的同步数据。同步数据可指示图像数据1700的解码顺序或再现顺序。
解析器214或AI放大器234可根据同步数据设置视频AI数据1742、帧组AI数据1750和帧AI数据1760的再现顺序或解码顺序,以匹配视频头1710、帧组头1722和帧头1732的再现顺序或解码顺序。图17的视频AI数据1742与视频头1710之间的虚线箭头、帧组AI数据1750与帧组头1722之间的虚线箭头以及帧AI数据1760与帧头1732之间的虚线箭头指示AI数据与数据头之间的同步。
图像数据1700和AI数据1740可包括用于匹配两条数据的标识号。例如,AI数据1740可包括应用AI数据1740的图像数据1700的标识号。另一方面,图像数据1700可包括应用图像数据1700的AI数据1740的标识号。可选地,图像数据1700和AI数据1740两者都可包括标识号。因此,即使当图像数据1700和AI数据1740不被同时发送时,图像数据1700和AI数据1740也可根据标识号而彼此匹配。
根据本公开的实施例,当按帧组单元获得放大DNN信息时,可从AI数据1740省略帧AI数据1760。此外,当相同的放大DNN信息被用于视频的所有帧时,可从AI数据1740省略帧组AI数据1750和帧AI数据1760。
图18A示出适用于图14至图17中描述的视频AI数据的数据结构1800的示例。
视频AI数据的数据结构1800包括与用于AI放大的放大DNN信息相关的元素。所述元素可包括ai_codec_info 1802、ai_codec_applied_channel_info 1804、target_bitrate_info 1806、res_info 1808、ai_codec_DNN_info 1814和ai_codec_supplementary_info 1816。图18A中所示的元素的排列顺序仅是示例,并且本领域普通技术人员可改变和执行所述元素的排列顺序。
根据本公开的实施例,ai_codec_info 1802表示指示AI放大是否将被应用于低分辨率图像的AI目标数据。当ai_codec_info 1802指示AI放大被应用于根据图像数据重建的低分辨率图像时,数据结构1800包括用于获得用于AI放大的放大DNN信息的AI补充数据。另一方面,当ai_codec_info 1802指示AI放大不被应用于根据图像数据重建的低分辨率图像时,数据结构1800可不包括关于AI放大的AI补充数据。AI补充数据包括ai_codec_applied_channel_info 1804、target_bitrate_info 1806、res_info 1808、ai_codec_DNN_info1814和ai_codec_supplementary_info 1816。
ai_codec_applied_channel_info 1804是指示应用AI放大的颜色通道的通道信息。图像可以以RGB格式、YUV格式或YCbCr格式被表示。当从图像数据重建的低分辨率图像是以YCbCr格式时,该低分辨率图像包括关于亮度的Y通道的低分辨率图像、关于色度的Cb通道的低分辨率图像和Cr通道的低分辨率图像。ai_codec_applied_channel_info 1804可指示三个通道中的应用AI放大的颜色通道。此外,AI放大器234可对由ai_codec_applied_channel_info 1804指示的颜色通道的低分辨率图像进行AI放大。AI放大器234可获得针对每个颜色通道的不同的多条的放大DNN信息。
根据本公开的实施例,AI放大可仅被应用于关于亮度的Y通道的低分辨率图像,以根据AI放大来减少吞吐量。因为人眼对针对亮度而不是色度的图像质量更敏感,所以在所有颜色通道的低分辨率图像被AI放大时与仅Y通道的低分辨率图像被AI放大时之间,人们的图像质量的主观感觉的差别可能不显著。
因此,ai_codec_applied_channel_info 1804可指示Cb通道的低分辨率图像和Cr通道的低分辨率图像是否被AI放大。当ai_codec_applied_channel_info 1804指示Cb通道的低分辨率图像和Cr通道的低分辨率图像未被AI放大时,AI放大器234可仅对Y通道的低分辨率图像应用AI放大。另一方面,当ai_codec_applied_channel_info 1804指示Cb通道的低分辨率图像和Cr通道的低分辨率图像被AI放大时,AI放大器234可对所有通道的低分辨率图像应用AI放大。
target_bitrate_info 1806是指示作为由第一编码器614执行的第一编码的结果而获得的图像数据的比特率的信息。AI放大器234可根据target_bitrate_info 1806获得适合于低分辨率图像的图像质量的放大DNN信息。
res_info 1808指示与经由AI放大而获得的高分辨率图像(诸如第三图像145)的分辨率相关的分辨率图像。res_info 1808可包括pic_width_org_luma 1810和pic_height_org_luma 1812。pic_width_org_luma 1810和pic_height_org_luma 1812是分别指示高分辨率图像的宽度和高度的高分辨率图像宽度信息和高分辨率图像高度信息。AI放大器234可根据由pic_width_org_luma 1810和pic_height_org_luma 1812确定的高分辨率图像的分辨率以及由第一解码器232重建的低分辨率图像的分辨率来确定AI放大率。
根据本公开的实施例,res_info 1808可包括指示低分辨率图像和高分辨率图像的分辨率比的分辨率比信息,而不是pic_width_org_luma 1810和pic_height_org_luma1812。因此,AI放大器234可根据基于分辨率比信息的分辨率比以及由第一解码器232重建的低分辨率图像的分辨率来确定高分辨率图像的分辨率。分辨率比信息可包括垂直分辨率比信息和水平分辨率比信息。
AI放大器234可根据基于res_info 1808确定的AI放大率来获得适合于低分辨率图像的AI放大的放大DNN信息。可选地,AI放大器234可根据基于res_info 1808确定的低分辨率图像的分辨率和高分辨率图像的分辨率来获得适合于低分辨率图像的AI放大的放大DNN信息。
ai_codec_DNN_info 1814是指示用于低分辨率图像的AI放大的预先约定的放大DNN信息的信息。AI放大器234可根据ai_codec_applied_channel_info 1804、target_bitrate_info 1806和res_info 1808将多条预先存储的默认DNN配置信息中的一条确定为放大DNN信息。此外,AI放大器234可另外考虑高分辨率图像的其他特征(图像的种类、最大亮度、色域等)来将多条预先存储的默认DNN配置信息中的一条确定为放大DNN信息。
当存在与特定条件匹配的两条或更多条默认DNN配置信息时,ai_codec_DNN_info1814可指示所述两条或更多条默认DNN配置信息中的一条。此外,AI放大器234可通过使用由ai_codec_DNN_info 1814指示的放大DNN信息来对低分辨率图像进行AI放大。
根据本公开的实施例,当存在与特定条件匹配的两条或更多条默认DNN配置信息时,ai_codec_DNN_info 1814可指示所述两条或更多条默认DNN配置信息中的适用于当前视频文件的两条或更多条放大DNN信息。此外,可按帧组或帧单元自适应地选择由ai_codec_DNN_info 1814指示的所述两条或更多条放大DNN信息中的一条。
ai_codec_supplementary_info 1816指示关于AI放大的补充信息。ai_codec_supplementary_info 1816可包括确定应用于视频的放大DNN信息所需的信息。ai_codec_supplementary_info 1816可包括关于种类、高动态范围(HDR)最大亮度、HDR色域、HDR感知量化器(PQ)、编解码器和率控制类型的信息。
根据本公开的实施例,可部分地省略图18A的ai_codec_applied_channel_info1804、target_bitrate_info 1806、res_info 1808、ai_codec_DNN_info 1814和ai_codec_supplementary_info 1816。具有包括所述元素的数据结构1800的视频AI数据可被应用于所有帧组。
图18B示出适用于图16中描述的视频片段AI数据或者图14、图15A至图15C和图17的帧组AI数据的数据结构1820的示例。
数据结构1820具有与图18A的数据结构1800类似的结构。图18B的ai_codec_info1822、ai_codec_applied_channel_info 1826、target_bitrate_info 1828、res_info1830、pic_width_org_luma 1832、pic_height_org_luma 1834、ai_codec_DNN_info 1836和ai_codec_supplementary_info 1838可执行与图18A的ai_codec_info 1802、ai_codec_applied_channel_info 1804、target_bitrate_info 1806、res_info 1808、pic_width_org_luma 1810、pic_height_org_luma 1812、ai_codec_DNN_info 1814和ai_codec_supplementary_info 1816相同的功能。
然而,数据结构1820可另外包括指示AI补充数据在连续的先前数据单元与当前数据单元之间是否相同的AI补充数据相关信息(dependent_ai_condition_info 1824)。当ai_codec_info 1822指示AI放大被应用于低分辨率图像时,数据结构1820可包括dependent_ai_condition_info 1824。当ai_codec_info 1822指示AI放大未被应用于低分辨率图像时,可从数据结构1820省略dependent_ai_condition_info 1824。
当dependent_ai_condition_info 1824指示AI补充数据在连续的先前数据单元与当前数据单元之间相同时,可从数据结构1820省略ai_codec_applied_channel_info1826、target_bitrate_info 1828、res_info 1830、pic_width_org_luma 1832、pic_height_org_luma 1834、ai_codec_DNN_info 1836和ai_codec_supplementary_info1838。此外,从先前数据单元的ai_codec_applied_channel_info 1826、target_bitrate_info 1828、res_info 1830、pic_width_org_luma 1832、pic_height_org_luma 1834、ai_codec_DNN_info 1836和ai_codec_supplementary_info 1838确定信道信息、目标比特率信息、分辨率信息、DNN信息和补充信息。因此,当相同的AI补充数据被应用于多个数据单元时,可根据dependent_ai_condition_info 1824减小AI数据的大小。
当dependent_ai_condition_info 1824指示AI补充数据在连续的先前数据单元与当前数据单元之间不相同时,数据结构1820包括ai_codec_applied_channel_info1826、target_bitrate_info 1828、res_info 1830、pic_width_org_luma 1832、pic_height_org_luma 1834、ai_codec_DNN_info 1836和ai_codec_supplementary_info1838。此外,可独立地获得当前数据单元的放大DNN信息,而不管先前数据单元的放大DNN信息如何。
根据本公开的实施例,可省略最开始发送的数据单元的补充数据相关信息。因此,AI补充数据相关信息被包括在来自第二次发送的视频片段的视频片段头中。
根据本公开的实施例,AI补充数据相关信息可仅指示特定AI补充数据的相关性。例如,AI补充数据相关信息可指示当前数据单元是否继承先前数据单元的分辨率信息。根据AI补充数据相关信息继承的AI数据可包括ai_codec_info 1822、ai_codec_applied_channel_info 1804、target_bitrate_info 1806、res_info 1808、ai_codec_DNN_info1814或ai_codec_supplementary_info 1816中的至少一个。
在图18B中,数据单元可以是视频片段或帧组。当数据单元是视频片段时,dependent_ai_condition_info 1824可指示AI补充数据在连续的先前视频片段与当前视频片段之间是否相同。当数据单元是帧组时,dependent_ai_condition_info 1824可指示AI补充数据在连续的先前帧组与当前帧组之间是否相同。
图19示出实现图18A的数据结构1800的语法表1900。
根据语法表1900,对诸如ai_codec_info、ai_codec_applied_channel_info、target_bitrate、pic_width_org_luma、pic_height_org_luma、ai_codec_DNN_info和ai_codec_supplementary_info_flag的语法元素进行解析。
ai_codec_info是与图18A的ai_codec_info 1802对应的AI目标数据。当ai_codec_info指示AI放大被允许时(if(ai_codec_info)),对与AI补充数据对应的语法元素进行解析。当ai_codec_info指示AI放大不被允许时,不对与AI补充数据对应的语法元素进行解析。
与AI补充数据对应的语法元素包括ai_codec_applied_channel_info、target_bitrate、pic_width_org_luma、pic_height_org_luma、ai_codec_DNN_info和ai_codec_supplementary_info_flag。
ai_codec_applied_channel_info与图18A的ai_codec_applied_channel_info1804对应。target_bitrate是与图18A的target_bitrate_info 1806对应的目标比特率信息。pic_width_org_luma和pic_height_org_luma是分别与图18A的pic_width_org_luma1810和pic_height_org_luma 1812对应的高分辨率图像宽度信息和高分辨率图像高度信息。ai_codec_DNN_info是与图18A的ai_codec_DNN_info 1814对应的DNN信息。
ai_codec_supplementary_info_flag是指示图18A的ai_codec_supplementary_info 1816是否被包括在语法表1900中的补充信息标志。当ai_codec_supplementary_info_flag指示用于AI放大的补充信息不被解析时,不获得附加补充信息。然而,当ai_codec_supplementary_info_flag指示用于AI放大的补充信息被解析时(if(ai_codec_supplementary_info_flag)),则获得附加补充信息。
所获得的附加补充信息可包括genre_info、hdr_max_luminance、hdr_color_gamut、hdr_pq_type和rate_control_type。genre_info指示图像数据的内容的种类,hdr_max_luminance指示应用于高分辨率图像的HDR最大亮度,hdr_color_gamut指示应用于高分辨率图像的HDR色域,hdr_pq_type指示应用于高分辨率图像的HDR PQ信息,并且rate_control_type指示应用于作为第一编码的结果而获得的图像数据的率控制类型。根据本公开的实施例,可在与补充信息对应的语法元素中解析特定语法元素。
图19的语法表1900仅为示例,并且图18A的数据结构1800的元素中的一些元素可被包括在语法表1900中。此外,未被包括在数据结构1800中的元素可被包括在语法表1900中。
根据本公开的实施例,类似于图18B的数据结构1820,图19的语法表1900可包括AI补充数据相关信息,诸如dependent_ai_condition_info。因此,添加了AI补充数据相关信息的语法表1900可被应用于视频片段或帧组。
图20示出适用于图14至图17中描述的(帧组AI数据或)帧AI数据的数据结构2000的示例。
用于按帧单元自适应地确定放大DNN信息的元素被包括在数据结构2000中。所述元素可包括ai_codec_frame_info 2002、dependent_ai_condition_frame_info 2004、ai_codec_frame_DNN_info 2006、ai_codec_enhancement_flag 2008和ai_codec_artifact_removal_flag 2014。图20中所示的元素的排列顺序仅是示例,并且本领域普通技术人员可改变和执行所述元素的排列顺序。
ai_codec_frame_info 2002是指示AI放大是否被允许用于当前帧的帧AI目标数据。根据ai_codec_frame_info 2002,当AI放大被允许用于当前帧时,数据结构2000包括与当前帧的AI放大相关的帧AI补充数据。否则,不将AI放大应用于当前帧,并且数据结构2000不包括帧AI补充数据。帧AI补充数据表示应用于帧的AI补充数据。
根据本公开的实施例,当根据ai_codec_frame_info 2002,AI放大被允许用于当前帧时,数据结构2000可包括dependent_ai_condition_frame_info 2004。dependent_ai_condition_frame_info 2004是指示帧AI补充数据在连续的先前帧与当前帧之间是否相同的帧AI补充数据相关信息。当dependent_ai_condition_frame_info 2004指示帧AI补充数据在连续的先前帧与当前帧之间相同时,数据结构2000可不包括关于当前帧的附加帧AI补充数据,并且当前帧的放大DNN信息被确定为与先前帧的放大DNN信息相同。当dependent_ai_condition_frame_info 2004指示帧AI补充数据在连续的先前帧与当前帧之间不相同时,数据结构2000包括关于当前帧的附加帧AI补充数据,并且当前帧的放大DNN信息是独立于先前帧的放大DNN信息而获得的。附加帧AI补充数据可包括ai_codec_frame_DNN_info2006、ai_codec_enhancement_flag 2008和ai_codec_artifact_removal_flag 2014。
ai_codec_frame_DNN_info 2006是指示关于当前帧的更高数据单元的多条放大DNN信息中的当前帧的放大DNN信息的帧DNN信息。当图18A的ai_codec_DNN_info 1814指示关于视频的两条或更多条放大DNN信息时,ai_codec_frame_DNN_info 2006可从所述两条或更多条放大DNN信息确定当前帧的放大DNN信息。可选地,当图18B的ai_codec_DNN_info1836指示关于视频片段或帧组的两条或更多条放大DNN信息时,ai_codec_frame_DNN_info2006可从所述两条或更多条放大DNN信息确定当前帧的放大DNN信息。当图18A的ai_codec_DNN_info 1814或图18B的ai_codec_DNN_info 1836仅指示一条放大DNN信息时,可省略ai_codec_frame_DNN_info 2006。
ai_codec_enhancement_flag 2008是指示是否激活AI放大准确度的增强处理的AI增强信息。当ai_codec_enhancement_flag 2008指示激活AI放大准确度的增强处理时,根据编码参数信息调整经过AI放大的高分辨率图像的一些样点。当ai_codec_enhancement_flag 2008指示不激活AI放大准确度的增强处理时,增强处理被省略。
当在编码端对原始图像105或第一图像115进行编码时,生成编码参数。可根据对数据单元(最大编码单元、编码单元、预测单元、变换单元或像素单元)的预测、变换和环内滤波处理来生成编码参数。编码参数包括运动矢量、预测运动矢量、帧内模式、残差信号相关信息和SAO参数。
编码参数信息是根据编码参数进行增强处理所需的信息。编码参数信息可包括指示增强处理所参考的编码参数的类型的编码参数类型信息以及指示当前帧中的增强处理的应用区域的编码参数映射信息。
当ai_codec_enhancement_flag 2008指示激活AI放大准确度的增强处理时,数据结构2000可包括作为编码参数类型信息的encod_param_type 2010以及作为编码参数映射信息的encod_param_map 2012。例如,encod_param_type 2010可指示运动矢量。此外,encod_param_map 2012可指示经过AI放大的高分辨率图像中的根据运动矢量的增强处理的应用区域。此外,可根据运动矢量来修改应用区域的像素。
根据本公开的实施例,encod_param_type 2010可指示两个或更多个编码参数。此外,encod_param_map 2012可指示关于每个编码参数的增强处理的应用区域。
根据本公开的实施例,可从数据结构2000省略encod_param_type 2010和encod_param_map 2012。因此,可预先确定增强处理中参考的一个或更多个编码参数以及每个编码参数的应用区域。
ai_codec_artifact_removal_flag 2014是指示经过AI放大的高分辨率图像的伪像去除是否被执行的伪像去除信息。对于高分辨率图像的伪像去除,可对AI放大之前的低分辨率图像的像素进行校正,或者可根据伪像去除信息对根据第二DNN进行AI放大之后的高分辨率图像的像素进行校正,从而去除伪像。
伪像去除信息可包括指示伪像类型的伪像类型信息以及指示伪像所在的伪像区域的伪像图信息。此外,伪像去除信息可包括指示图像的伪像类型的数量的伪像类型数量信息。因此,数据结构2000可包括多条伪像类型信息的数量以及等于根据伪像类型数量信息的数量的伪像图信息。
伪像类型包括轮廓伪像、振铃伪像和混叠伪像。此外,针对每种伪像类型确定一个或更多个伪像区域。例如,可针对轮廓伪像确定一个或更多个伪像区域,并且可针对振铃伪像确定一个或更多个伪像区域。
当ai_codec_artifact_removal_flag 2014指示经过AI放大的高分辨率图像的伪像去除被执行时,数据结构2000可包括作为伪像类型数量信息的num_artifact_type2016。当ai_codec_artifact_removal_flag 2014指示经过AI放大的高分辨率图像的伪像去除不被执行时,从数据结构2000省略num_artifact_type 2016。
数据结构2000可包括作为与由num_artifact_type 2016指示的数量一样多的伪像类型信息的artifact_type 2018。此外,数据结构2000可包括针对每个artifact_type2018的伪像图信息。数据结构2000的伪像图信息可包括指示伪像区域的数量的num_artifact_map 2020。此外,数据结构2000可包括指示每个伪像区域的位置和尺寸的map_x_pos 2022、map_y_pos 2024、map_width 2026、map_height 2028。
根据本公开的实施例,可从数据结构2000省略图20的dependent_ai_condition_frame_info 2004、ai_codec_frame_DNN_info 2006、ai_codec_enhancement_flag 2008和ai_codec_artifact_removal_flag 2014中的一些。
根据本公开的实施例,图20的数据结构2000可被应用于帧组而不是帧。当数据结构2000被应用于帧组时,相同的放大DNN信息、相同的AI增强信息和相同的伪像去除信息可被应用于帧组中包括的所有帧。此外,当数据结构2000被应用于帧组时,数据结构2000可包括应用于帧组的ai_codec_frame_group_info、dependent_ai_condition_frame_group_info和ai_codec_frame_group_DNN_info,而不是ai_codec_frame_info 2002、dependent_ai_condition_frame_info 2004和ai_codec_frame_DNN_info 2006。此外,ai_codec_enhancement_flag 2008、encod_param_type 2010、encod_param_map 2012、ai_codec_artifact_removal_flag 2014、num_artifact_type 2016、artifact_type 2018、num_artifact_map 2020、map_x_pos 2022、map_y_pos 2024、map_width 2026和map_height2028可被应用于帧组的所有帧。
根据本公开的实施例,图18A的数据结构1800可被应用于视频AI数据。此外,图20的数据结构2000可被应用于帧AI数据。根据数据结构1800的视频AI数据包括被共同应用于所有帧的AI数据,并且根据数据结构2000的帧AI数据包括被自适应地应用于帧的AI数据。
根据本公开的实施例,图18A的数据结构1800可被应用于视频AI数据。此外,图20的数据结构2000可被应用于帧组AI数据。根据数据结构1800的视频AI数据包括被共同应用于所有帧的AI数据,并且根据数据结构2000的帧组AI数据包括被自适应地应用于帧组的AI数据。此外,相同的AI数据被应用于包括在帧组中的所有帧。
根据本公开的实施例,图18B的数据结构1820可被应用于视频片段AI数据或帧组AI数据。此外,图20的数据结构2000可被应用于帧AI数据。根据数据结构1820的视频片段AI数据或帧组AI数据包括被共同应用于视频片段或帧组的所有帧的AI数据,并且根据数据结构2000的帧AI数据包括被自适应地应用于帧的AI数据。
根据本公开的实施例,图18B的数据结构1820可被应用于视频片段AI数据。此外,图20的数据结构2000可被应用于帧组AI数据。根据数据结构1820的视频片段AI数据包括被共同应用于视频片段的所有帧的AI数据,并且根据数据结构2000的帧组AI数据包括被自适应地应用于帧组的AI数据。此外,相同的AI数据被应用于包括在帧组中的所有帧。
图21示出实现图20的数据结构2000的语法表2100。
根据语法表2100,诸如ai_codec_frame_info、dependent_ai_condition_frame_info、ai_codec_frame_DNN_info、ai_codec_enhancement_flag和ai_codec_artifact_removal_flag的语法元素被解析。
ai_codec_frame_info是与图20的ai_codec_frame_info 2002对应的帧AI目标数据。当ai_codec_frame_info指示AI放大被允许时(if(ai_codec_frame_info)),对与帧AI补充数据对应的语法元素进行解析。当ai_codec_frame_info指示AI放大不被允许时,不对与帧AI补充数据对应的语法元素进行解析。
与帧AI补充数据对应的语法元素可包括dependent_ai_condition_frame_info、ai_codec_frame_DNN_info、ai_codec_enhancement_flag和ai_codec_artifact_removal_flag。图21的dependent_ai_condition_frame_info、ai_codec_frame_DNN_info、ai_codec_enhancement_flag和ai_codec_artifact_removal_flag对应于图20的dependent_AI_condition_frame_info 2004、AI_codec_frame_DNN_info 2006、ai_codec_enhancement_flag 2008和ai_codec_artifact_removal_flag 2014。
当ai_codec_frame_info指示AI放大被允许时,获得dependent_ai_condition_frame_info。当dependent_ai_condition_frame_info指示帧AI补充数据在连续的先前帧与当前帧之间相同时,将当前帧的放大DNN信息确定为与先前帧的放大DNN信息相同。当dependent_ai_condition_frame_info指示帧AI补充数据在连续的先前帧与当前帧之间不相同时,根据ai_codec_frame_DNN_info、ai_codec_enhancement_flag和ai_codec_artifact_removal_flag来确定当前帧的放大DNN信息、AI增强信息和伪像去除信息。
ai_codec_frame_DNN_info指示关于当前帧的更高数据单元的多条放大DNN信息中的当前帧的放大DNN信息。
ai_codec_enhancement_flag指示是否激活AI放大准确度的增强处理。当ai_codec_enhancement_flag指示激活所述增强处理时(if(ai_codec_enhancement_flag)),获得指示编码参数类型的encod_param_type以及指示编码参数区域的encod_param_map。
ai_codec_artifact_removal_flag指示经过AI放大的高分辨率图像的伪像去除是否被执行。当ai_codec_artifact_removal_flag指示高分辨率图像的伪像去除被执行时(if(ai_codec_artifact_removal_flag)),获得指示伪像类型的数量的num_artifact_type。获得与由num_artifact_type指示的数量一样多的指示伪像类型的artifact_type以及指示伪像区域的数量的num_artifact_map(for(i=0;i<num_artifact_type;i++))。此外,获得与num_artifact_map的数量一样多的指示伪像区域的位置和尺寸的map_x_pos、map_y_pos、map_width和map_height(for(i=0;i<num_artifact_map;i++))。
图21的语法表2100仅是示例,并且图20的数据结构2000的元素中的一些元素可被包括在语法表2100中。此外,未被包括在数据结构2000中的元素可被包括在语法表2100中。
图22是根据本公开的实施例的根据AI解码器的图像解码方法的流程图。
在操作2210,接收包括AI编码数据的视频文件,其中,所述AI编码数据包括图像数据和关于图像数据的AI放大的AI数据。可由通信器212执行操作2210中的AI编码数据的接收。
在操作2220,从视频文件的元数据框获得AI编码数据的AI数据,并且从视频文件的媒体数据框获得AI编码数据的图像数据。当图像数据和AI数据是分离的时,可由解析器214执行操作2220中的图像数据和AI数据的获得。可选地,当AI数据被包括在图像数据中时,可由第一解码器232从图像数据获得AI数据。
根据本公开的实施例,AI编码数据可包括关于图像数据和AI数据的同步的同步数据。同步数据可根据图像数据的解码顺序或再现顺序来指示图像数据与AI数据之间的关系。同步数据可包括关于视频头与视频AI数据的同步、帧组头与帧组AI数据的同步、以及帧头与帧AI数据的同步的信息。
在操作2230,通过对图像数据进行解码来重建当前帧的低分辨率图像。可由第一解码器232执行根据操作2230的低分辨率图像的重建。
在操作2240,从AI数据获得当前帧的放大DNN信息。可由AI放大器234执行根据操作2240的当前帧的放大DNN信息的获得。
根据本公开的实施例,AI数据可包括根据图12的AI数据的层结构的视频AI数据、帧组AI数据和帧AI数据。此外,AI数据可包括图16的视频片段AI数据。根据所述层结构的AI数据可包括应用于对应层的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据。当仅视频AI数据被包括在AI数据中时,可根据视频AI数据从多条默认DNN配置信息获得应用于图像数据的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据。当仅帧组AI数据被包括在AI数据中时,可根据帧组AI数据从多条默认DNN配置信息相对于帧组自适应地获得应用于帧组的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据。当仅帧AI数据被包括在AI数据中时,可根据帧AI数据从多条默认DNN配置信息相对于帧自适应地获得应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据以及视频AI数据。当仅视频AI数据和帧组AI数据被包括在AI数据中时,可根据视频AI数据从多条默认DNN配置信息获得一条或更多条放大DNN信息。此外,可根据帧组AI数据从所述一条或更多条放大DNN信息选择应用于帧组的帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据以及视频AI数据。当仅视频AI数据和帧AI数据被包括在AI数据中时,可根据视频AI数据从多条默认DNN配置信息获得一条或更多条放大DNN信息。此外,可根据帧AI数据从所述一条或更多条放大DNN信息选择应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据以及帧组AI数据。当仅帧组AI数据和帧AI数据被包括在AI数据中时,可根据帧组AI数据从多条默认DNN配置信息获得一条或更多条放大DNN信息。此外,可根据帧AI数据从所述一条或更多条放大DNN信息选择应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频片段AI数据。当仅视频片段AI数据被包括在AI数据中时,可根据视频片段AI数据从多条默认DNN配置信息获得应用于视频片段的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据以及视频片段AI数据。当仅视频AI数据和视频片段AI数据被包括在AI数据中时,可根据视频AI数据从多条默认DNN配置信息获得一条或更多条放大DNN信息。此外,可根据视频片段AI数据从所述一条或更多条放大DNN信息选择应用于视频片段的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据或帧AI数据以及视频片段AI数据。当帧组AI数据或帧AI数据与视频片段AI数据一起被包括在AI数据中时,可根据视频片段AI数据从多条默认DNN配置信息获得一条或更多条放大DNN信息。此外,可以根据帧组AI数据或帧AI数据从所述一条或更多条放大DNN信息选择应用于帧组或帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据全部。当AI数据包括视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据全部时,可根据视频AI数据从多条默认DNN配置信息限制适用于视频的一条或更多条放大DNN信息。此外,可根据视频片段AI数据从适用于视频的所述一条或更多条放大DNN信息选择适用于视频片段的一条或更多条放大DNN信息。此外,可根据帧组AI数据从适用于视频片段的所述一条或更多条放大DNN信息选择适用于帧组的一条或更多条放大DNN信息。此外,可根据帧AI数据从适用于帧组的所述一条或更多条放大DNN信息选择应用于帧的放大DNN信息。根据本公开的上述实施例,可从上述分层的AI数据结构去除视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据中的一些。
根据本公开的实施例,AI数据可包括指示AI放大是否将被应用的AI目标数据以及当AI放大将被应用时关于在AI放大中使用的放大DNN信息的AI补充数据。
视频AI数据可包括指示AI放大是否将被应用于图像数据的视频AI目标数据以及关于适用于包括在图像数据中的帧的AI放大的一条或更多条放大DNN信息的视频AI补充数据。当视频AI目标数据指示AI放大被应用于包括在图像数据中的帧时,根据视频AI补充数据获得一条或更多条放大DNN信息。
视频片段AI数据可包括指示AI放大是否将被应用于视频片段的视频片段AI目标数据以及关于适用于包括在视频片段中的帧的AI放大的一条或更多条放大DNN信息的视频片段AI补充数据。当视频片段AI目标数据指示AI放大被应用于包括在视频片段中的帧时,根据视频片段AI补充数据获得视频片段的一条或更多条放大DNN信息。
帧组AI数据可包括指示AI放大是否将被应用于帧组的帧组AI目标数据以及关于适用于包括在帧组中的帧的AI放大的一条或更多条放大DNN信息的帧组AI补充数据。当帧组AI目标数据指示AI放大被应用于包括在帧组中的帧时,根据帧组AI补充数据获得帧组的一条或更多条放大DNN信息。
帧AI数据可包括指示AI放大是否将被应用于帧的帧AI目标数据以及关于用于帧的AI放大的放大DNN信息的帧AI补充数据。当帧AI目标数据指示AI放大被应用于当前帧时,根据帧AI补充数据获得当前帧的放大DNN信息。
根据本公开的实施例,视频片段AI数据可包括指示视频片段AI补充数据在连续的先前视频片段和当前视频片段之间是否相同的视频片段AI补充数据相关信息。当视频片段AI补充数据相关信息指示视频片段AI补充数据在连续的先前视频片段与当前视频片段之间相同时,将当前视频片段的视频片段AI补充数据确定为与先前视频片段的视频片段AI补充数据相同。
此外,帧组AI数据可包括指示帧组AI补充数据在连续的先前帧组与当前帧组之间是否相同的帧组AI补充数据相关信息。当帧组AI补充数据相关信息指示帧组AI补充数据在连续的先前帧组与当前帧组之间相同时,将当前帧组的帧组AI补充数据确定为与先前帧组的帧组AI补充数据相同。
此外,帧AI数据可包括指示帧AI补充数据在连续的先前帧与当前帧之间是否相同的帧AI补充数据相关信息。当帧AI补充数据相关信息指示帧AI补充数据在连续的先前帧与当前帧之间相同时,可将当前帧的帧AI补充数据确定为与先前帧的帧AI补充数据相同。
根据本公开的实施例,可根据同步数据确定应用于整个图像数据的视频AI数据、与视频片段对应的视频片段AI数据、应用于帧组的帧组AI数据以及应用于帧的帧AI数据。
根据本公开的实施例,AI数据可包括指示应用AI放大的颜色通道的通道信息。此外,可针对由通道信息指示的颜色通道获得放大DNN信息。
根据本公开的实施例,AI数据可包括指示根据图像数据的低分辨率图像的比特率的目标比特率信息或者与经过AI放大的高分辨率图像的分辨率相关的分辨率信息中的至少一个。此外,可根据所述目标比特率信息或所述分辨率信息中的至少一个来确定关于视频、视频片段或帧组的两条或更多条放大DNN信息。此外,可根据帧AI数据从所述两条或更多条放大DNN信息确定当前帧的放大DNN信息。
在操作2250,通过根据当前帧的放大DNN信息对低分辨率图像进行AI放大来生成与低分辨率图像对应的高分辨率图像。可由AI放大器234执行根据操作2250的高分辨率图像的生成。
根据本公开的实施例,可根据基于编码参数的AI放大增强处理来增强所生成的高分辨率图像的准确度。可选地,可根据伪像去除处理来去除所生成的高分辨率图像的伪像。
参照图12至图21描述的AI放大的功能可被应用于图22的图像解码方法。
图23是根据本公开的实施例的根据AI编码器的图像编码方法的流程图。
在操作2310,确定用于将当前帧的高分辨率图像缩小为低分辨率图像的缩小DNN信息。可由AI缩小器612执行根据操作2310的AI数据的确定。
根据目标比特率信息或分辨率信息中的至少一个,可针对视频、视频片段或帧组确定两条或更多条缩小DNN信息。此外,可根据帧AI数据从所述两条或更多条缩小DNN信息确定当前帧的缩小DNN信息。
在操作2320,通过使用缩小DNN信息对当前帧的高分辨率图像进行AI缩小来生成当前帧的低分辨率图像。可由AI缩小器612执行根据操作2320的低分辨率图像的生成。
在操作2330,生成用于当前帧的低分辨率图像的AI放大的AI数据。可由AI缩小器612执行根据操作2330的低分辨率图像的生成。可通过参考在操作2310生成的缩小DNN信息来生成用于AI放大的AI数据。
根据本公开的实施例,AI数据可包括根据图12的AI数据的层结构的视频AI数据、帧组AI数据和帧AI数据。此外,AI数据可包括图16的视频片段AI数据。根据层结构的AI数据可包括应用于对应层的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据。当仅视频AI数据被包括在AI数据中时,视频AI数据可指示多条默认DNN配置信息中的应用于图像数据的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据。当仅帧组AI数据被包括在AI数据中时,帧组AI数据可指示多条默认DNN配置信息中的应用于帧组的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据。当仅帧AI数据被包括在AI数据中时,帧AI数据可指示多条默认DNN配置信息中的应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据以及视频AI数据。当仅视频AI数据和帧组AI数据被包括在AI数据中时,视频AI数据可包括多条默认DNN配置信息中的一条或更多条放大DNN信息。此外,可根据帧组AI数据指示所述一条或更多条放大DNN信息中的应用于帧组的帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据以及视频AI数据。当仅视频AI数据和帧AI数据被包括在AI数据中时,视频AI数据可包括多条默认DNN配置信息中的一条或更多条放大DNN信息。此外,帧AI数据可指示所述一条或更多条放大DNN信息中的应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧AI数据以及帧组AI数据。当仅帧组AI数据和帧AI数据被包括在AI数据中时,帧组AI数据可指示多条默认DNN配置信息中的一条或更多条放大DNN信息。此外,帧AI数据可指示所述一条或更多条放大DNN信息中的应用于帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频片段AI数据。当仅视频片段AI数据被包括在AI数据中时,视频片段AI数据可指示多条默认DNN配置信息中的应用于视频片段的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据以及视频片段AI数据。当仅视频AI数据和视频片段AI数据被包括在AI数据中时,视频AI数据可包括多条默认DNN配置信息中的一条或更多条放大DNN信息。此外,视频片段AI数据可指示所述一条或更多条放大DNN信息中的应用于视频片段的所有帧的放大DNN信息。
根据本公开的实施例,AI数据可包括帧组AI数据或帧AI数据以及视频片段AI数据。当帧组AI数据或帧AI数据与视频片段AI数据一起被包括在AI数据中时,视频片段AI数据可指示多条默认DNN配置信息中的一条或更多条放大DNN信息。此外,帧组AI数据或帧AI数据可指示所述一条或更多条放大DNN信息中的应用于帧组或帧的放大DNN信息。
根据本公开的实施例,AI数据可包括视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据全部。当AI数据包括视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据时全部,视频AI数据可指示多条默认DNN配置信息中的适用于视频的一条或更多条放大DNN信息。此外,视频片段AI数据可指示适用于视频的所述一条或更多条放大DNN信息中的适用于视频片段的一条或更多条放大DNN信息。此外,帧组AI数据可指示适用于视频片段的所述一条或更多条放大DNN信息中的适用于帧组的一条或更多条放大DNN信息。此外,帧AI数据可指示适用于帧组的所述一条或更多条放大DNN信息中的应用于帧的放大DNN信息。根据本公开的上述实施例,可从上述分层的AI数据结构去除视频AI数据、视频片段AI数据、帧组AI数据和帧AI数据中的一个。
根据本公开的实施例,AI数据可包括指示AI放大是否将被应用的AI目标数据。此外,当AI放大被应用时,AI数据可包括关于与用于AI缩小的缩小DNN信息对应的放大DNN信息的AI补充数据。
视频AI数据可包括指示AI放大是否将被应用于图像数据的视频AI目标数据以及关于适用于包括在图像数据中的帧的AI放大的一条或更多条放大DNN信息的视频AI补充数据。可基于AI放大是否将被应用于图像数据来确定视频AI目标数据。此外,可根据包括在图像数据中的帧的一条或更多条放大DNN信息来确定视频AI补充数据。
视频片段AI数据可包括指示AI放大是否将被应用于视频片段的视频片段AI目标数据以及关于适用于包括在视频片段中的帧的AI放大的一条或更多条放大DNN信息的视频片段AI补充数据。可基于AI放大是否将被应用于视频片段来确定视频片段AI目标数据。可根据包括在视频片段中的帧的一条或更多条放大DNN信息来确定视频片段AI补充数据。
帧组AI数据可包括指示AI放大是否将被应用于帧组的帧组AI目标数据以及关于适用于包括在帧组中的帧的AI放大的一条或更多条放大DNN信息的帧组AI补充数据。可基于AI放大是否将被应用于帧组来确定帧组AI目标数据。此外,可根据适用于包括在帧组中的帧的AI放大的一条或更多条放大DNN信息来确定帧组AI补充数据。
帧AI数据可包括指示AI放大是否将被应用于帧的帧AI目标数据以及关于用于帧的AI放大的放大DNN信息的帧AI补充数据。
可基于AI放大是否将被应用于当前帧来确定帧AI目标数据。可根据用于当前帧的AI放大的放大DNN信息来确定帧AI补充数据。
根据本公开的实施例,视频片段AI数据可包括指示视频片段AI补充数据在连续的先前视频片段与当前视频片段之间是否相同的视频片段AI补充数据相关信息。基于视频片段AI补充数据在连续的先前视频片段与当前视频片段之间是否相同来确定视频片段AI补充数据相关信息。
此外,帧组AI数据可包括指示帧组AI补充数据在连续的先前帧组与当前帧组之间是否相同的帧组AI补充数据相关信息。基于帧组AI补充数据在连续的先前帧组与当前帧组之间是否相同来确定帧组AI补充数据相关信息。
此外,帧AI数据可包括指示帧AI补充数据在连续的先前帧与当前帧之间是否相同的帧AI补充数据相关信息。基于帧AI补充数据在连续的先前帧与当前帧之间是否相同来确定帧AI补充数据相关信息。
根据本公开的实施例,AI编码数据可包括关于图像数据和AI数据的同步的同步数据。同步数据可包括关于图像数据和视频AI数据的同步、视频片段和视频片段AI数据的同步、帧组和帧组AI数据的同步、以及当前帧和帧AI数据的同步的数据。
根据本公开的实施例,AI数据可包括指示应用于当前帧的AI放大的颜色通道的通道信息。此外,可针对由通道信息指示的颜色通道确定放大DNN信息。
根据本公开的实施例,AI数据可包括指示低分辨率图像的比特率的目标比特率信息或者指示高分辨率图像的分辨率的分辨率信息中的至少一个。
在操作2340,通过对当前帧的低分辨率图像进行编码来获得图像数据。可由第一编码器614执行根据操作2340的图像数据的获得。
在操作2350,生成包括图像数据和AI数据的AI编码数据。可由数据处理器632执行根据操作2350的AI编码数据的生成。根据本公开的实施例,图像数据和AI数据可不被包括在单个文件中,而是可被配置为单独的文件。
在操作2360,输出包括媒体数据框和元数据框的视频文件,其中,生成的AI编码数据的图像数据被嵌入在所述媒体数据框中,AI编码数据的AI数据被嵌入在所述元数据框中。可由通信器634执行根据操作2360的AI编码数据的输出。
与参照图12至图21描述的AI放大对应的AI缩小的功能可被应用于图23的图像编码方法。
图24是示出根据本公开的实施例的图像解码设备的配置的框图。
参照图24,根据本公开的实施例的图像解码设备2400可包括通信器2410、处理器2420和存储器2430。
通信器2410可接收AI编码数据。可选地,通信器2410可根据处理器2420的控制从外部装置(例如,服务器)接收AI数据和图像数据。
处理器2420通常可控制图像解码设备2400。根据本公开的实施例的处理器2420可执行存储在存储器2430中的一个或更多个程序。处理器2420可执行第一解码器232和AI放大器234的功能。处理器2420可被配置为一个或更多个通用处理器。
根据本公开的实施例,处理器2420可包括图形处理器2422和AI专用处理器2424。此外,处理器2420可以以集成图形处理器2422或AI专用处理器2424中的至少一个的片上系统(SoC)的形式被实现。处理器2420控制图像解码设备2400的整体操作以及图像解码设备2400的内部组件之间的信号流,并对数据进行处理。
图形处理器2422是被专门设计用于图像的解码和后处理的处理器。因此,图形处理器2422可对由图像解码设备2400接收到的图像数据进行处理,并有效地执行第一解码器232的低分辨率图像重建功能。AI专用处理器2424是被专门设计用于AI操作的处理器。因此,AI专用处理器2424可有效地执行AI放大器234的低分辨率图像AI放大功能。
通过通信器2410输入到图像解码设备2400的图像数据和AI数据被处理器2420处理。当由图形处理器2422执行关于图像数据的解码的操作时,可生成低分辨率图像。此外,可由AI专用处理器2424执行关于低分辨率图像的AI放大的操作。因此,当AI专用处理器2424对低分辨率图像进行AI放大时,可生成高分辨率图像。
根据本公开的实施例,处理器2420被描述为包括一个图形处理器2422,但是可包括一个或更多个图形处理器2422。此外,根据本公开的实施例,处理器2420被描述为包括一个AI专用处理器2424,但是可包括一个或更多个AI专用处理器2424。此外,处理器2420可包括一个或更多个通用处理器。可根据所述一个或更多个通用处理器执行AI放大所需的附加处理。AI专用处理器2424可被实现为硬件现场可编程门阵列(FPGA)。
根据本公开的实施例的存储器2430可包括用于驱动和控制图像解码设备2400的各种类型的数据、程序或应用。存储在存储器2430中的程序可包括一个或更多个指令。此外,可由处理器2420执行存储在存储器2430中的程序(一个或更多个指令)或应用。存储器2430可存储源自通信器2410和处理器2420的数据。此外,存储器2430可向处理器2420发送处理器2420所需的数据。
根据本公开的实施例的图像解码设备2400可执行图2中描述的AI解码设备200的功能或图22中描述的图像解码方法的操作中的至少一个。
图25是示出根据本公开的实施例的图像编码设备的配置的框图。
参照图25,根据本公开的实施例的图像编码设备2500可包括通信器2510、处理器2520和存储器2530。
根据本公开的实施例的处理器2520通常可控制图像编码设备2500。根据本公开的实施例的处理器2520可执行存储在存储器2530中的一个或更多个程序。处理器2520可执行AI缩小器612和第一编码器614的功能。处理器2520可被配置为一个或更多个通用处理器。
根据本公开的实施例,处理器2520可包括图形处理器2522和AI专用处理器2524。此外,处理器2520可以以集成图形处理器2522或AI专用处理器2524中的至少一个的SoC的形式被实现。处理器2520控制图像编码设备2500的整体操作以及图像编码设备2500的内部组件之间的信号流,并对数据进行处理。
图形处理器2522是被专门设计用于图像的编码和后处理的处理器。因此,图形处理器2522可有效地执行第一编码器614的低分辨率图像编码功能。AI专用处理器2524是被专门设计用于AI操作的处理器。因此,AI专用处理器2524可有效地执行AI缩小器612的高分辨率图像AI缩小功能。AI专用处理器2524可被实现为硬件FPGA。
由处理器2520执行高分辨率图像的AI缩小和低分辨率图像的编码。当由AI专用处理器2524执行用于高分辨率图像的AI缩小的操作时,可生成低分辨率图像,并且可由AI专用处理器2524生成低分辨率图像的AI放大所需的AI数据。当由图形处理器2522执行用于对低分辨率图像进行编码的操作时,可生成图像数据。
通信器2510可根据处理器2520的控制生成包括AI数据和图像数据的AI编码数据的单个文件。此外,通信器2510可根据处理器2520的控制将AI编码数据的单个文件输出到图像编码设备2500的外部。可选地,通信器2510可根据处理器2520的控制分别生成包括AI数据的文件和包括图像数据的文件。此外,通信器2510可根据处理器2520的控制将包括AI数据的文件和包括图像数据的文件中的每个文件输出到图像编码设备2500的外部。
根据本公开的实施例,处理器2520被描述为包括一个图形处理器2522,但是可包括一个或更多个图形处理器2522。此外,根据本公开的实施例,处理器2520被描述为包括一个AI专用处理器2524,但是可包括一个或更多个AI专用处理器2524。此外,处理器2520可包括一个或更多个通用处理器。可根据所述一个或更多个通用处理器来执行AI放大所需的附加处理。
根据本公开的实施例的存储器2530可包括用于驱动和控制图像编码设备2500的各种类型的数据、程序或应用。存储在存储器2530中的程序可包括一个或更多个指令。此外,可由处理器2520执行存储在存储器2530中的程序(一个或更多个指令)或应用。存储器2530可存储诸如原始图像105的高分辨率图像。存储器2530可存储源自通信器2510和处理器2520的数据。此外,存储器2530可将处理器2520所需的数据发送到处理器2520。
根据本公开的实施例的图像编码设备2500可执行图7中描述的AI编码设备600的功能或图23中描述的图像编码方法的操作中的至少一个。
另外,上述本公开的实施例可被编写为可被存储在介质中的计算机可执行程序或指令。
介质可持续存储计算机可执行程序或指令,或者临时存储计算机可执行程序或指令以供执行或下载。此外,介质可以是组合了单件或多件硬件的各种记录介质或存储介质中的任意一种,并且介质不限于直接连接到计算机系统的介质,而是可分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如软光盘、以及ROM、RAM和闪存)。介质的其他示例包括由分发应用的应用商店或者由供应或分发其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。
另外,与上述DNN相关的模型可经由软件模块来实现。当DNN模型经由软件模块(例如,包括指令的程序模块)来实现时,DNN模型可被存储在计算机可读记录介质中。
此外,DNN模型可通过以硬件芯片的形式被集成而成为上述AI解码设备200或AI编码设备600的一部分。例如,DNN模型可以以用于AI的专用硬件芯片的形式被制造,或者可被制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分。
此外,DNN模型可以以可下载软件的形式被提供。计算机程序产品可包括以通过制造商或电子市场被电子分发的软件程序的形式的产品(例如,可下载的应用)。对于电子分发,软件程序的至少一部分可被存储在存储介质中或者可被临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器或者中继服务器的存储介质。
虽然已经参照附图描述了本公开的一个或更多个实施例,但是本领域普通技术人员将理解,在不脱离由所附权利要求限定的精神和范围的情况下,可在本公开中进行形式和细节上的各种改变。

Claims (22)

1.一种存储有包括人工智能AI编码数据的视频文件的计算机可记录记录介质,
其中,所述AI编码数据包括:
图像数据,包括通过对高分辨率图像进行AI缩小而生成的低分辨率图像的编码信息;以及
AI数据,与根据所述图像数据重建的低分辨率图像的AI放大有关,
其中,所述AI数据包括:
指示AI放大是否将被应用于至少一个帧的AI目标数据;以及
当AI放大被应用于所述至少一个帧时,关于多条预设的默认深度神经网络DNN配置信息中的用于所述至少一个帧的AI放大的放大DNN信息的AI补充数据。
2.如权利要求1所述的计算机可读记录介质,其中,
所述AI目标数据包括以下数据中的至少一个:
视频AI目标数据,指示AI放大是否将被应用于包括在所述图像数据中的帧;
视频片段AI目标数据,指示AI放大是否将被应用于包括在视频片段中的帧;
帧组AI目标数据,指示AI放大是否将被应用于包括在帧组中的帧;或者
帧AI目标数据,指示AI放大是否将被应用于当前帧。
3.如权利要求1所述的计算机可读记录介质,其中,
所述AI补充数据包括以下数据中的至少一个:
视频AI补充数据,与被共同应用于包括在所述图像数据中的帧的AI放大的至少一条放大DNN信息有关;
视频片段AI补充数据,与被共同应用于包括在视频片段中的帧的AI放大的至少一条放大DNN信息有关;
帧组AI补充数据,与被共同应用于包括在帧组中的帧的AI放大的至少一条放大DNN信息有关;或者
帧AI补充数据,与被应用于当前帧的AI放大的放大DNN信息有关。
4.如权利要求1所述的计算机可读记录介质,其中,
所述视频文件包括:
媒体数据框,包括所述图像数据;以及
元数据框,包括关于所述图像数据的元数据,
其中,所述AI数据被包括在所述元数据框中。
5.如权利要求4所述的计算机可读记录介质,其中,
所述元数据框包括关于所述图像数据和所述AI数据的同步的同步数据,并且
所述AI数据被配置为基于所述同步数据根据所述图像数据的帧的再现顺序或解码顺序来被解码。
6.如权利要求1所述的计算机可读记录介质,其中,
所述AI数据被嵌入在所述图像数据中,
关于所述图像数据的AI放大的视频AI数据与被共同应用于所述图像数据的帧的视频编码参数一起位于将被解码的所述图像数据中,
关于包括当前帧的当前视频片段的AI放大的视频片段AI数据与被共同应用于当前视频片段的帧的视频片段编码参数一起位于将被解码的所述图像数据中,
关于包括当前帧的当前帧组的AI放大的帧组AI数据与被共同应用于当前帧组的帧的帧组参数一起位于将被解码的所述图像数据中,并且
关于当前帧的AI放大的帧AI数据与当前帧的编码信息一起位于将被解码的所述图像数据中。
7.如权利要求6所述的计算机可读记录介质,其中,
所述图像数据包括:
视频头,包括所述图像数据的视频编码参数;
视频片段头,包括当前视频片段的视频片段编码参数;
帧组头,包括当前帧组的帧组编码参数;以及
帧头,包括当前帧的编码信息,
所述视频AI数据被包括在所述视频头中或者紧接在所述视频头之前或之后,
所述视频片段AI数据被包括在所述视频片段头中或者紧接在所述视频片段头之前或之后,
所述帧组AI数据被包括在所述帧组头中或者紧接在所述帧组头之前或之后,并且
所述帧AI数据被包括在所述帧头中或者紧接在所述帧头之前或之后。
8.如权利要求1所述的计算机可读记录介质,其中,
所述视频文件包括:
元数据框,包括关于所述图像数据的元数据;以及
多个视频片段数据框,在所述多个视频片段数据框中所述AI编码数据根据特定时间被划分,
其中,所述多个视频片段数据框中的每个视频片段数据框包括:
片段媒体数据框,包括视频片段数据;以及
片段元数据框,包括关于所述视频片段数据的元数据,并且
所述AI数据包括应用于所述图像数据的所有帧的AI放大的视频AI数据以及应用于视频片段的所有帧的AI放大的视频片段AI数据,
其中,所述视频AI数据被包括在所述元数据框中,并且所述视频片段AI数据被包括在所述片段元数据框中。
9.如权利要求3所述的计算机可读记录介质,其中,
所述AI数据包括以下数据中的至少一个:
视频片段AI补充数据相关信息,指示视频片段AI补充数据在当前视频片段与连续的先前视频片段之间是否相同,
帧组AI补充数据相关信息,指示帧组AI补充数据在当前帧组与连续的先前帧组之间是否相同,或者
帧AI补充数据相关信息,指示帧AI补充数据在当前帧与连续的先前帧之间是否相同,
当所述视频片段AI补充数据相关信息指示所述视频片段AI补充数据在当前视频片段与连续的先前视频片段之间相同时,从所述AI数据省略关于当前视频片段的视频片段AI补充数据,
当所述帧组AI补充数据相关信息指示所述帧组AI补充数据在当前帧组与连续的先前帧组之间相同时,从所述AI数据省略关于当前帧组的帧组AI补充数据,并且
当帧AI补充数据相关信息指示帧AI补充数据在当前帧与连续的先前帧之间相同时,从所述AI数据省略关于当前帧的帧AI补充数据。
10.如权利要求1所述的计算机可读记录介质,其中,
所述AI补充数据包括以下数据中的至少一个:
通道信息,指示应用AI放大的颜色通道;
目标比特率信息,指示低分辨率图像的比特率;或者
与经过AI放大的高分辨率图像的分辨率相关的分辨率信息。
11.一种使用人工智能AI放大的视频解码方法,所述视频解码方法包括:
接收包括AI编码数据的视频文件,其中,所述AI编码数据包括图像数据和关于所述图像数据的AI放大的AI数据;
从所述视频文件的元数据框获得所述AI编码数据的所述AI数据,并从所述视频文件的媒体数据框获得所述AI编码数据的所述图像数据;
通过对所述图像数据进行解码来重建当前帧的低分辨率图像;
从所述AI数据获得当前帧的放大深度神经网络DNN信息;并且
通过根据当前帧的放大DNN信息对低分辨率图像进行AI放大来生成与低分辨率图像对应的高分辨率图像。
12.如权利要求11所述的视频解码方法,其中,
所述AI数据包括以下AI数据中的至少一个:关于当前帧的AI放大的帧AI数据、关于包括当前帧的帧组的AI放大的帧组AI数据、关于包括当前帧的视频片段的AI放大的视频片段AI数据或者关于包括当前帧的视频的AI放大的视频AI数据。
13.如权利要求11所述的视频解码方法,其中,
所述AI数据包括:
AI目标数据,指示AI放大是否将被应用于至少一个帧;以及
AI补充数据,与用于对所述至少一个帧进行AI放大的放大DNN信息有关,
其中,获得所述放大DNN信息的步骤包括:
根据所述AI目标数据确定AI放大是否将被应用于所述至少一个帧;并且
当确定AI放大被应用于所述至少一个帧时,根据所述AI补充数据确定应用于所述至少一个帧的至少一条放大DNN信息。
14.如权利要求11所述的视频解码方法,其中,
所述AI数据包括指示低分辨率图像的比特率的目标比特率信息或者与经过AI放大的高分辨率图像的分辨率相关的分辨率信息中的至少一个,并且
获得放大DNN信息的步骤包括:根据所述目标比特率信息或所述分辨率信息中的至少一个,从多条默认DNN配置信息获得所述至少一个帧的两条或更多条放大DNN信息。
15.如权利要求11所述的视频解码方法,其中,
所述视频文件的元数据框包括:
关于所述图像数据和所述AI数据的同步的同步数据,并且
获得所述AI数据的步骤包括:
根据由所述同步数据指示的所述图像数据和所述AI数据的编码顺序或再现顺序,获得与当前帧对应的AI数据。
16.一种使用人工智能AI缩小的视频编码方法,所述视频编码方法包括:
确定用于将当前帧的高分辨率图像AI缩小为低分辨率图像的缩小深度神经网络(DNN)信息;
通过根据所述缩小DNN信息对当前帧的高分辨率图像进行AI缩小来生成当前帧的低分辨率图像;
生成关于与所述缩小DNN信息对应的放大DNN信息的AI数据,其中,所述放大DNN信息被用于对当前帧的低分辨率图像进行AI放大;
通过对当前帧的低分辨率图像进行编码来获得图像数据;
生成包括所述图像数据和所述AI数据的AI编码数据;并且
输出包括媒体数据框和元数据框的视频文件,其中,所述AI编码数据的所述图像数据被嵌入在所述媒体数据框中,所述AI编码数据的所述AI数据被嵌入在所述元数据框中。
17.如权利要求16所述的图像编码方法,其中,
所述AI数据是关于当前帧的AI放大的帧AI数据、关于包括当前帧的帧组的AI放大的帧组AI数据、关于包括当前帧的视频片段的AI放大的视频片段AI数据、或者关于包括当前帧的视频的AI放大的视频AI数据。
18.如权利要求16所述的图像编码方法,其中,
所述AI数据包括:
指示AI放大是否将被应用于至少一个帧的AI目标数据;以及
当AI放大被应用于所述至少一个帧时,关于用于对所述至少一个帧进行AI放大的放大DNN信息的AI补充数据,并且
生成AI数据的步骤包括:
基于AI放大是否将被应用于所述至少一个帧来确定所述AI目标数据;并且
根据将被应用AI放大的所述至少一个帧的放大DNN信息来确定所述AI补充数据。
19.如权利要求16所述的图像编码方法,其中,
所述AI数据包括指示低分辨率图像的比特率的目标比特率信息或与高分辨率图像的分辨率相关的分辨率信息中的至少一个,并且
生成AI数据的步骤包括:基于所述目标比特率信息或所述分辨率信息中的至少一个,从多条默认DNN配置信息确定所述至少一个帧的两条或更多条放大DNN信息。
20.如权利要求16所述的图像编码方法,其中,
所述视频文件的元数据框包括关于所述AI数据和所述图像数据的同步的同步数据,并且
生成AI数据的步骤包括:根据所述图像数据和所述AI数据的编码顺序或再现顺序来确定所述同步数据。
21.一种执行使用人工智能AI放大的视频解码方法的视频解码设备,所述视频解码设备包括:
通信器,被配置为接收包括AI编码数据的视频文件,其中,所述AI编码数据包括图像数据和关于所述图像数据的AI放大的AI数据;
解析器,被配置为从所述视频文件的元数据框获得所述AI编码数据的所述AI数据,并从所述视频文件的媒体数据框获得所述AI编码数据的所述图像数据;
第一解码器,被配置为通过对所述图像数据进行解码来重建当前帧的低分辨率图像;以及
AI放大器,被配置为从所述AI数据获得当前帧的放大深度神经网络DNN信息,并通过根据当前帧的放大DNN信息对低分辨率图像进行AI放大来生成与低分辨率图像对应的高分辨率图像。
22.一种执行使用人工智能AI缩小的视频编码方法的视频编码设备,所述视频编码设备包括:
AI缩小器,被配置为确定用于将当前帧的高分辨率图像AI缩小为低分辨率图像的缩小深度神经网络DNN信息,通过对当前帧的高分辨率图像进行AI缩小来生成当前帧的低分辨率图像,并生成用于对当前帧的低分辨率图像进行AI放大的AI数据;
第一编码器,被配置为通过对当前帧的低分辨率图像进行编码来确定图像数据;
数据处理器,被配置为确定包括所述图像数据和所述AI数据的AI编码数据;以及
通信器,被配置为输出包括媒体数据框和元数据框的视频文件,其中,所述AI编码数据的所述图像数据被嵌入在所述媒体数据框中,所述AI编码数据的所述AI数据被嵌入在所述元数据框中。
CN201980068908.7A 2018-10-19 2019-10-11 编码方法及其设备以及解码方法及其设备 Pending CN112889283A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2018-0125406 2018-10-19
KR20180125406 2018-10-19
KR10-2019-0041111 2019-04-08
KR20190041111 2019-04-08
KR1020190076569A KR102525578B1 (ko) 2018-10-19 2019-06-26 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR10-2019-0076569 2019-06-26
PCT/KR2019/013344 WO2020080751A1 (ko) 2018-10-19 2019-10-11 부호화 방법 및 그 장치, 복호화 방법 및 그 장치

Publications (1)

Publication Number Publication Date
CN112889283A true CN112889283A (zh) 2021-06-01

Family

ID=70466756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980068908.7A Pending CN112889283A (zh) 2018-10-19 2019-10-11 编码方法及其设备以及解码方法及其设备

Country Status (4)

Country Link
US (4) US10819992B2 (zh)
EP (1) EP3866466A4 (zh)
KR (1) KR102525578B1 (zh)
CN (1) CN112889283A (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080873A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Method and apparatus for streaming data
WO2020080665A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
KR102525578B1 (ko) 2018-10-19 2023-04-26 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
US11265580B2 (en) * 2019-03-22 2022-03-01 Tencent America LLC Supplemental enhancement information messages for neural network based video post processing
US11140422B2 (en) * 2019-09-25 2021-10-05 Microsoft Technology Licensing, Llc Thin-cloud system for live streaming content
KR102287947B1 (ko) * 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR102436512B1 (ko) * 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
EP4172944A4 (en) 2020-06-11 2023-12-06 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PERFORMING CODING WITH ARTIFICIAL INTELLIGENCE AND DECODING WITH ARTIFICIAL INTELLIGENCE
EP4113382A4 (en) 2020-09-15 2023-08-30 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE, ITS CONTROL METHOD AND SYSTEM
US11516538B1 (en) * 2020-09-29 2022-11-29 Amazon Technologies, Inc. Techniques for detecting low image quality
CN112261290B (zh) * 2020-10-16 2022-04-19 海信视像科技股份有限公司 显示设备、摄像头以及ai数据同步传输方法
CN112233038B (zh) * 2020-10-23 2021-06-01 广东启迪图卫科技股份有限公司 基于多尺度融合及边缘增强的真实图像去噪方法
EP4195154A4 (en) * 2020-12-09 2024-01-17 Samsung Electronics Co., Ltd. ARTIFICIAL INTELLIGENCE CODING APPARATUS AND OPERATION METHOD THEREFOR, AND ARTIFICIAL INTELLIGENCE DECODING APPARATUS AND OPERATION METHOD THEREFOR
KR20220081648A (ko) * 2020-12-09 2022-06-16 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
CN114827622A (zh) * 2021-01-19 2022-07-29 华为技术有限公司 分层编解码的方法及装置
CN113205599B (zh) * 2021-04-25 2022-06-14 武汉大学 一种视频三维融合时gpu加速的视频纹理更新方法
WO2022250397A1 (en) * 2021-05-27 2022-12-01 Samsung Electronics Co., Ltd. Methods and apparatus for processing of high-resolution video content
US20230025778A1 (en) * 2021-07-22 2023-01-26 Qualcomm Incorporated Motion compensation for neural network enhanced images
WO2023086795A1 (en) * 2021-11-09 2023-05-19 Netflix, Inc. Techniques for reconstructing downscaled video content

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120128058A1 (en) * 2010-11-21 2012-05-24 Human Monitoring Ltd. Method and system of encoding and decoding media content
US20140177706A1 (en) * 2012-12-21 2014-06-26 Samsung Electronics Co., Ltd Method and system for providing super-resolution of quantized images and video
US20170347110A1 (en) * 2015-02-19 2017-11-30 Magic Pony Technology Limited Online Training of Hierarchical Algorithms
CN108012157A (zh) * 2017-11-27 2018-05-08 上海交通大学 用于视频编码分数像素插值的卷积神经网络的构建方法
US20180131953A1 (en) * 2015-03-31 2018-05-10 Magic Pony Technology Limited Training end-to-end video processes
CN108305214A (zh) * 2017-12-28 2018-07-20 腾讯科技(深圳)有限公司 图像数据处理方法、装置、存储介质和计算机设备

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100224801B1 (ko) 1993-08-31 1999-10-15 윤종용 스케일 팩터 조정회로
JP4034380B2 (ja) 1996-10-31 2008-01-16 株式会社東芝 画像符号化/復号化方法及び装置
US7400588B2 (en) 2003-08-01 2008-07-15 Thomson Licensing Dynamic rate adaptation using neural networks for transmitting video data
CN1973546B (zh) 2004-03-09 2010-05-12 汤姆森研究基金公司 用于高级视频编码的降低分辨率更新模式
CN100461864C (zh) 2005-06-25 2009-02-11 华为技术有限公司 基于数字水印的多媒体视频通信客观质量评价方法
US20160360155A1 (en) 2005-09-07 2016-12-08 Vidyo, Inc. System and method for scalable and low-delay videoconferencing using scalable video coding
JP2009540625A (ja) 2006-02-16 2009-11-19 ヴィドヨ,インコーポレーテッド スケーラブルビデオコーディングビットストリームのシニングのためのシステムおよび方法
KR101425602B1 (ko) 2008-03-12 2014-07-31 삼성전자주식회사 영상 부호화/복호화 장치 및 그 방법
PT3349360T (pt) 2011-01-14 2019-12-09 Ge Video Compression Llc Esquema de codificação e descodificação de entropia
JP2012191250A (ja) 2011-03-08 2012-10-04 Sony Corp 画像処理装置、画像処理方法、およびプログラム
US20140086319A1 (en) 2012-09-25 2014-03-27 Sony Corporation Video coding system with adaptive upsampling and method of operation thereof
TW201436531A (zh) 2012-09-28 2014-09-16 Vid Scale Inc 多層視訊編碼適應性升取樣
EP2922302A4 (en) * 2012-11-19 2016-04-06 Lg Electronics Inc SIGNAL TRANSMITTING AND RECEIVING APPARATUS, AND SIGNAL TRANSMITTING AND RECEIVING METHOD
US9143543B2 (en) 2012-11-30 2015-09-22 Google Technology Holdings LLC Method and system for multi-streaming multimedia data
KR102286856B1 (ko) 2013-06-12 2021-08-06 주식회사 케이티 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
KR102062764B1 (ko) 2013-07-19 2020-02-21 삼성전자주식회사 모바일 단말 화면을 위한 3k해상도를 갖는 디스플레이 영상 생성 방법 및 장치
US9251572B2 (en) 2013-07-26 2016-02-02 Qualcomm Incorporated System and method of correcting image artifacts
CN105684491B (zh) 2013-10-30 2020-02-07 株式会社Kt 用于在移动通信网络中配置双连接的方法及其装置
JP2017514367A (ja) 2014-03-28 2017-06-01 富士通株式会社 ベアラ管理装置、方法及び通信システム
KR101653039B1 (ko) 2014-05-22 2016-09-12 주식회사 칩스앤미디어 복호화 정보를 이용한 해상도 변환 장치 및 그 방법
JP6422514B2 (ja) 2014-08-07 2018-11-14 エルジー エレクトロニクス インコーポレイティド 端末が二重連結システムでpdcp pduを処理する方法及びその装置
KR20160080929A (ko) 2014-12-30 2016-07-08 한국전자통신연구원 클라우드 기반의 적응형 초고화질 멀티미디어 스트리밍 서비스 장치 및 방법
GB201603144D0 (en) * 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
US10425427B2 (en) 2015-06-19 2019-09-24 Futurewei Technologies, Inc. Template uniform resource locator signing
CN106470292B (zh) 2015-08-20 2019-08-27 联咏科技股份有限公司 图像处理装置及图像处理方法
KR102124714B1 (ko) 2015-09-03 2020-06-19 미디어텍 인크. 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치
EP3353745A1 (en) 2015-09-30 2018-08-01 Piksel, Inc. Improved video stream delivery via adaptive quality enhancement using error correction models
KR102309910B1 (ko) 2015-11-19 2021-10-08 한국전자기술연구원 비디오 부호화기의 최적 모드 결정 장치 및 최적 모드 결정을 이용한 비디오 부호화 방법
KR20170087278A (ko) 2016-01-20 2017-07-28 한국전자통신연구원 비디오 압축 영상을 위한 거짓 등고선 검출과 제거 방법 및 장치
US10089717B2 (en) 2016-04-05 2018-10-02 Flipboard, Inc. Image scaling using a convolutional neural network
KR101974261B1 (ko) 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
JP6987841B2 (ja) 2016-07-25 2022-01-05 フィリップ・モーリス・プロダクツ・ソシエテ・アノニム キャップ付き流体透過性ヒーター組立品の製造
US11321609B2 (en) 2016-10-19 2022-05-03 Samsung Electronics Co., Ltd Method and apparatus for neural network quantization
US11593632B2 (en) 2016-12-15 2023-02-28 WaveOne Inc. Deep learning based on image encoding and decoding
CN108345939B (zh) 2017-01-25 2022-05-24 微软技术许可有限责任公司 基于定点运算的神经网络
US10902598B2 (en) 2017-01-27 2021-01-26 Arterys Inc. Automated segmentation utilizing fully convolutional networks
US11134253B2 (en) 2017-02-02 2021-09-28 Hewlett-Packard Development Company, L.P. Video compression
US10742708B2 (en) 2017-02-23 2020-08-11 Netflix, Inc. Iterative techniques for generating multiple encoded versions of a media title
US10423843B2 (en) * 2017-02-23 2019-09-24 Magna Electronics Inc. Vehicle vision system with enhanced traffic sign recognition
KR20180100976A (ko) 2017-03-03 2018-09-12 한국전자통신연구원 딥 신경망 기반 블러 영상 학습을 이용한 영상 부호화/복호화 방법 및 장치
KR102474168B1 (ko) 2017-03-17 2022-12-06 포틀랜드 스테이트 유니버시티 적응형 컨볼루션 및 적응형 분리형 컨볼루션을 통한 프레임 인터폴레이션
KR101990092B1 (ko) 2017-03-24 2019-06-17 주식회사 엔씨소프트 영상 압축 장치 및 방법
KR101885855B1 (ko) * 2017-03-30 2018-08-07 단국대학교 산학협력단 고해상도 추정 기법을 활용한 영상 신호 전송
US10410322B2 (en) 2017-04-05 2019-09-10 Here Global B.V. Deep convolutional image up-sampling
KR102511059B1 (ko) 2017-05-17 2023-03-17 삼성전자주식회사 동영상의 초해상 처리 방법 및 이를 위한 영상 처리 장치
WO2018212599A1 (en) 2017-05-17 2018-11-22 Samsung Electronics Co., Ltd. Super-resolution processing method for moving image and image processing apparatus therefor
WO2019087905A1 (ja) 2017-10-31 2019-05-09 シャープ株式会社 画像フィルタ装置、画像復号装置、および画像符号化装置
CN108022212B (zh) 2017-11-24 2022-07-01 腾讯科技(深圳)有限公司 高分辨率图片生成方法、生成装置及存储介质
KR102452653B1 (ko) 2018-02-20 2022-10-11 삼성전자주식회사 전자 장치, 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
CN110300301B (zh) 2018-03-22 2023-01-13 华为技术有限公司 图像编解码方法和装置
GB2572537A (en) 2018-03-27 2019-10-09 Nokia Technologies Oy Generating or obtaining an updated neural network
KR102022648B1 (ko) 2018-08-10 2019-09-19 삼성전자주식회사 전자 장치, 이의 제어 방법 및 서버의 제어 방법
WO2020080827A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Ai encoding apparatus and operation method of the same, and ai decoding apparatus and operation method of the same
KR102525578B1 (ko) * 2018-10-19 2023-04-26 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR102287947B1 (ko) 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
WO2021251611A1 (en) 2020-06-11 2021-12-16 Samsung Electronics Co., Ltd. Apparatus and method for performing artificial intelligence encoding and decoding on image by using low-complexity neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120128058A1 (en) * 2010-11-21 2012-05-24 Human Monitoring Ltd. Method and system of encoding and decoding media content
US20140177706A1 (en) * 2012-12-21 2014-06-26 Samsung Electronics Co., Ltd Method and system for providing super-resolution of quantized images and video
US20170347110A1 (en) * 2015-02-19 2017-11-30 Magic Pony Technology Limited Online Training of Hierarchical Algorithms
US20180131953A1 (en) * 2015-03-31 2018-05-10 Magic Pony Technology Limited Training end-to-end video processes
CN108012157A (zh) * 2017-11-27 2018-05-08 上海交通大学 用于视频编码分数像素插值的卷积神经网络的构建方法
CN108305214A (zh) * 2017-12-28 2018-07-20 腾讯科技(深圳)有限公司 图像数据处理方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
US10819993B2 (en) 2020-10-27
US20200260093A1 (en) 2020-08-13
US11647210B2 (en) 2023-05-09
KR20200044665A (ko) 2020-04-29
US11190782B2 (en) 2021-11-30
EP3866466A1 (en) 2021-08-18
US10819992B2 (en) 2020-10-27
EP3866466A4 (en) 2021-08-18
US20210044813A1 (en) 2021-02-11
KR102525578B1 (ko) 2023-04-26
US20200177898A1 (en) 2020-06-04
US20220030260A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
CN112889283A (zh) 编码方法及其设备以及解码方法及其设备
US10817989B2 (en) Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
US11170534B2 (en) Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
CN112913237A (zh) 使用深度神经网络的人工智能编码和人工智能解码方法和设备
CN114631320A (zh) 对图像执行人工智能(ai)编码和ai解码的设备和方法
CN112889282B (zh) 用于对图像执行人工智能编码和人工智能解码的方法和设备
CN112840650B (zh) 人工智能(ai)编码装置及其操作方法和ai解码装置及其操作方法
US20210264567A1 (en) Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image by using pre-processing
KR102436512B1 (ko) 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
US20230276070A1 (en) Artificial intelligence (ai) encoding apparatus and method and ai decoding apparatus and method for region of object of interest in image
CN112740687A (zh) 用于对图像执行人工智能编码和人工智能解码的设备和方法
US11816872B2 (en) Method and apparatus for performing artificial intelligence encoding and artificial intelligence decoding
US20230196505A1 (en) Artificial intelligence-based image providing apparatus and method, and artificial intelligence-based display apparatus and method
US20230052330A1 (en) Image providing method and apparatus using artificial intelligence, and display method and apparatus using artificial intelligence
KR20230094838A (ko) Ai 기반의 영상 제공 장치 및 이에 의한 방법, 및 ai 기반의 디스플레이 장치 및 이에 의한 방법
CN116458157A (zh) 用于图像中感兴趣的对象区域的ai编码装置和方法以及ai解码装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination