CN114175652A - 解码设备及其操作方法以及人工智能(ai)放大设备及其操作方法 - Google Patents
解码设备及其操作方法以及人工智能(ai)放大设备及其操作方法 Download PDFInfo
- Publication number
- CN114175652A CN114175652A CN202080054848.6A CN202080054848A CN114175652A CN 114175652 A CN114175652 A CN 114175652A CN 202080054848 A CN202080054848 A CN 202080054848A CN 114175652 A CN114175652 A CN 114175652A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- information
- dnn
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 844
- 238000011017 operating method Methods 0.000 title claims description 15
- 238000004891 communication Methods 0.000 claims abstract description 32
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 117
- 230000003321 amplification Effects 0.000 claims description 110
- 238000000034 method Methods 0.000 claims description 108
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 description 148
- 230000008569 process Effects 0.000 description 66
- 238000010586 diagram Methods 0.000 description 43
- 230000009467 reduction Effects 0.000 description 43
- 230000015654 memory Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 21
- 239000003638 chemical reducing agent Substances 0.000 description 18
- 230000000153 supplemental effect Effects 0.000 description 18
- 238000007906 compression Methods 0.000 description 17
- 230000006835 compression Effects 0.000 description 17
- 238000013139 quantization Methods 0.000 description 14
- GJWAPAVRQYYSTK-UHFFFAOYSA-N [(dimethyl-$l^{3}-silanyl)amino]-dimethylsilicon Chemical compound C[Si](C)N[Si](C)C GJWAPAVRQYYSTK-UHFFFAOYSA-N 0.000 description 10
- 230000004913 activation Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 241000023320 Luma <angiosperm> Species 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供了一种解码设备,包括:通信接口,被配置为接收作为原始图像的人工智能(AI)缩小和第一编码的结果而生成的AI编码数据;处理器,被配置为将所述AI编码数据划分为图像数据和AI数据;以及输入/输出(I/O)装置,其中,所述处理器还被配置为:基于所述图像数据,通过对第一图像执行第一解码来获得第二图像,其中,所述第一图像是通过对所述原始图像执行AI缩小而获得的;以及控制所述I/O装置将所述第二图像和所述AI数据发送到外部设备。在一些实施例中,所述外部设备使用所述AI数据对所述第二图像执行AI放大,并显示得到的第三图像。
Description
技术领域
本公开涉及一种用于对压缩图像进行解码的解码设备和解码设备的操作方法,以及一种包括对图像进行放大的深度神经网络(DNN)的人工智能(AI)放大设备和该AI放大设备的操作方法。
背景技术
图像在由符合特定数据压缩标准(例如,运动图像专家组(MPEG)标准)的编解码器进行编码之后以比特流的形式被存储在记录介质中或通过通信通道被发送。
随着能够再现和存储高分辨率和高清晰度图像的硬件的开发和供应,能够有效地对高分辨率和高清晰度图像进行编码和解码的编解码器的必要性正在增加。
发明内容
技术方案
提供了一种用于重建压缩图像并将重建图像和重建图像的人工智能(AI)放大所需的数据发送到AI放大设备的解码设备以及该解码设备的操作方法。
此外,提供了一种用于从解码设备接收图像和AI数据并通过使用放大深度神经网络(DNN)对图像进行AI放大的AI放大设备以及AI放大设备的操作方法。
本发明的有益效果
根据本公开实施例的解码设备可经由输入和输出接口将AI数据和重建图像有效地发送到AI放大设备。
根据本公开实施例的AI放大设备可经由输入和输出接口从解码设备有效地接收AI数据和重建图像。
附图说明
通过以下结合附图的描述,本公开的某些实施例的上述和其他方面、特征和优点将更加明显,其中:
提供每个附图的简要描述以更全面地理解本说明书中所述的附图。
图1是用于描述根据实施例的人工智能(AI)编码处理和AI解码处理的示图。
图2是根据实施例的AI解码设备的配置的框图。
图3是示出用于对第二图像执行AI放大的第二深度神经网络(DNN)的示图。
图4是用于描述通过卷积层进行的卷积运算的示图。
图5是示出若干条图像相关信息和若干条DNN设置信息之间的映射关系的表。
图6是示出包括多个帧的第二图像的示图。
图7是根据实施例的AI编码设备的配置的框图。
图8是示出用于对原始图像执行AI缩小的第一DNN的示图。
图9是用于描述训练第一DNN和第二DNN的方法的示图。
图10是用于描述由训练设备对第一DNN和第二DNN的训练处理的示图。
图11是用于对原始图像执行AI缩小的设备和用于对第二图像执行AI放大的设备的示图。
图12是根据本公开的实施例的AI解码系统的示图;
图13是根据本公开的实施例的解码设备的配置的示图;
图14示出根据本公开的实施例的元数据的形式的AI数据;
图15是用于描述根据本公开的实施例的AI数据以比特流的形式被接收的情况的示图;
图16示出根据本公开的实施例的AI编解码器语法表;
图17是根据本公开的实施例的AI放大设备的配置的框图;
图18是示出根据本公开的实施例的解码设备和AI放大设备通过高清晰度多媒体接口(HDMI)发送和接收数据的示例的示图;
图19是根据本公开的实施例的包括在扩展显示标识数据(EDID)信息中的HDMI规范(HF)厂商特定数据块(VSDB)的示图;
图20是根据本公开的实施例的厂商特定信息帧(VSIF)的报头结构和内容结构的示图;
图21是示出根据本公开的实施例的在VSIF分组中定义AI数据的示例的示图;
图22是根据本公开的实施例的解码设备的操作方法的流程图;
图23是根据本公开的实施例的由解码设备执行的经由HDMI发送第二图像和AI数据的方法的流程图;
图24是根据本公开的实施例的AI放大设备的操作方法的流程图;
图25是根据本公开的实施例的解码设备的配置的框图;以及
图26是根据本公开的实施例的AI放大设备的配置的框图。
具体实施方式
实施本发明的最佳实施方式
提供了一种用于重建压缩图像并将重建图像和重建图像的人工智能(AI)放大所需的数据发送到AI放大设备的解码设备以及解码设备的操作方法。
此外,提供了一种用于从解码设备接收图像数据和AI数据并通过使用放大深度神经网络(DNN)对图像进行AI放大的AI放大设备以及AI放大设备的操作方法。
另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可通过实践本公开的所呈现的实施例来获知。
这里公开了一种解码设备,包括:通信接口,被配置为接收人工智能(AI)编码数据,其中,所述AI编码数据通过对原始图像进行AI缩小紧接着进行第一编码被生成;处理器,被配置为将所述AI编码数据划分为图像数据和AI数据;以及输入/输出(I/O)装置,其中,所述处理器还被配置为:通过对所述图像数据执行第一解码来获得第二图像;以及控制I/O装置将所述第二图像和所述AI数据发送到外部设备。
在所述解码设备的一些实施例中,所述I/O装置包括高清晰度多媒体接口(HDMI),并且所述处理器还被配置为通过所述HDMI将所述第二图像和所述AI数据发送到所述外部设备。
在所述解码设备的一些实施例中,所述处理器还被配置为以厂商特定信息帧(VSIF)分组的形式发送所述AI数据。
在所述解码设备的一些实施例中,所述I/O装置包括显示端口(DP),并且所述处理器还被配置为通过所述DP将所述第二图像和所述AI数据发送到外部设备。
在所述解码设备的一些实施例中,所述AI数据包括指示第二图像已经经过AI放大的第一信息。
在所述解码设备的一些实施例中,所述AI数据包括与用于执行所述第二图像的AI放大的深度神经网络(DNN)相关的第二信息。
在所述解码设备的一些实施例中,所述AI数据指示将被应用AI放大的一个或更多个颜色通道。
在所述解码设备的一些实施例中,所述AI数据指示高动态范围(HDR)最大照度、HDR色域、HDR PQ、HDR编解码器或HDR速率控制中的至少一个。
在所述解码设备的一些实施例中,所述AI数据指示所述原始图像的宽度分辨率和所述原始图像的高度分辨率。
在所述解码设备的一些实施例中,所述AI数据指示第一编码的输出比特率。
这里还公开了一种解码设备的操作方法,所述操作方法包括:接收人工智能(AI)编码数据,其中,所述AI编码数据是通过对原始图像进行AI缩小紧接着进行第一编码被生成;将所述AI编码数据划分为图像数据和AI数据;通过对所述图像数据执行第一解码来获得第二图像;以及通过输入/输出(I/O)装置将所述第二图像和所述AI数据发送到外部设备。
在操作方法的一些实施例中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括通过高清晰度多媒体接口(HDMI)将所述第二图像和所述AI数据发送到所述外部设备。
在操作方法的一些实施例中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括以厂商特定信息帧(VSIF)分组的形式发送所述AI数据。
在操作方法的一些实施例中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括通过显示端口(DP)将所述第二图像和所述AI数据发送到所述外部设备。
在操作方法的一些实施例中,所述AI数据包括指示所述第二图像已经经过AI放大的第一信息。
在操作方法的一些实施例中,所述AI数据包括与用于执行所述第二图像的AI放大的深度神经网络(DNN)相关的第二信息。
本文还公开了一种人工智能(AI)放大设备,包括:输入/输出(I/O)装置,包括高清晰度多媒体接口(HDMI),其中,所述I/O装置被配置为通过所述HDMI接收与使用第一深度神经网络(DNN)的AI缩小相关的AI数据以及与第一图像相应的第二图像,其中,所述第一图像是通过对原始图像执行AI缩小而获得的;存储器,存储至少一个指令;以及处理器,被配置为执行存储在所述存储器中的至少一个指令以进行以下操作:基于所述AI数据获得关于与第一DNN相应的第二DNN的信息;以及通过使用第二DNN执行所述第二图像的AI放大,其中,所述I/O装置还被配置为接收厂商特定信息帧(VSIF)分组形式的AI数据。
本发明的实施方式
由于本公开允许各种改变和许多示例,因此将在附图中示出并在书面描述中详细描述特定实施例。然而,这并不旨在将本公开限制于实践的特定模式,并且将理解,不脱离本公开的精神和技术范围的全部改变、等同和替代都被包含在本公开中。
在实施例的描述中,当认为对相关技术的特定详细解释可能不必要地使本公开的本质模糊时,省略对相关技术的特定详细解释。此外,在说明书的描述中使用的数字(例如,第一、第二等)仅是用于将一个元素与另一元素区分开的标识符代码。
贯穿本公开,表述“a、b或c中的至少一个”指示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c全部或者它们的变型形式。
此外,在本说明书中,将理解,当元件彼此“连接”或“耦接”时,所述元件可彼此直接连接或耦接,但是可选地,除非另有指定,否则可通过所述元件之间的中间元件彼此连接或耦接。
在本说明书中,对于被表示为“单元”或“模块”的元件,可将两个或更多个元件组合为一个元件,或者可根据细分的功能将一个元件划分为两个或更多个元件。此外,在下文中描述的每个元件除了其主要功能之外,还可另外执行由另一元件执行的一些或全部功能,并且每个元件的一些主要功能可完全由另一组件来执行。
此外,在本说明书中,“图像”或“画面”可表示静止图像、包括多个连续静止图像(或帧)的运动图像、或者视频。
此外,在本说明书中,深度神经网络(DNN)是一种模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。
此外,在本说明书中,“参数”是在形成神经网络的每一层的运算处理中使用的值,并且例如,可包括将输入值应用于特定运算表达式时使用的权重。这里,参数可以以矩阵形式来表示。参数是作为训练的结果而设置的值,并且在必要时可通过单独的训练数据被更新。
此外,在本说明书中,“第一DNN”指示用于对图像进行人工智能(AI)缩小的DNN,“第二DNN”指示用于对图像进行AI放大的DNN。
此外,在本说明书中,“DNN设置信息”包括与构成DNN的元素相关的信息。“DNN设置信息”包括以上作为与构成DNN的元素相关的信息而被描述的参数。可通过使用DNN设置信息来设置第一DNN或第二DNN。
此外,在本说明书中,“原始图像”表示将作为AI编码的对象的图像,并且“第一图像”表示作为在AI编码处理期间对原始图像执行AI缩小的结果而获得的图像。此外,“第二图像”表示在AI解码处理期间经由第一解码而获得的图像,并且“第三图像”表示在AI解码处理期间通过对第二图像进行AI放大而获得的图像。
此外,在本说明书中,“AI缩小”表示基于AI降低图像的分辨率的处理,并且“第一编码”表示根据基于频率变换的图像压缩方法的编码处理。此外,“第一解码”表示根据基于频率变换的图像重建方法的解码处理,“AI放大”表示基于AI提高图像的分辨率的处理。
图1是根据实施例的用于描述AI编码处理和AI解码处理的示图。
如上所述,当图像的分辨率显著增加时,用于对图像进行编码和解码的信息的吞吐量增加,因此,需要一种用于提高图像的编码和解码效率的方法。
如在图1中所示出的,根据本公开的实施例,通过对具有高分辨率的原始图像105执行AI缩小110来获得第一图像115。然后,对具有相对低分辨率的第一图像115执行第一编码120和第一解码130,因此与对原始图像105执行第一编码和第一解码时相比,比特率可大大降低。
具体地讲,参照图1,根据实施例,在AI编码处理期间,通过对原始图像105执行AI缩小110来获得第一图像115并且对第一图像115执行第一编码120。在AI解码处理期间,接收作为AI编码的结果而获得的包括AI数据和图像数据的AI编码数据,经由第一解码130获得第二图像135,并且通过对第二图像135执行AI放大140来获得第三图像145。
详细参照AI编码处理,当接收到原始图像105时,对原始图像105执行AI缩小110以获得特定分辨率或特定质量的第一图像115。这里,基于AI来执行AI缩小110,并且用于AI缩小110的AI需要与用于第二图像135的AI放大140的AI联合训练。这是因为,当用于AI缩小110的AI和用于AI放大140的AI被单独训练时,作为AI编码的对象的原始图像105与通过AI解码重建的第三图像145之间的差异会增加。
在本公开的实施例中,AI数据可被用于在AI编码处理和AI解码处理期间保持这样的联合关系。因此,通过AI编码处理获得的AI数据可包括指示放大目标的信息,并且在AI解码处理期间,根据基于AI数据验证的放大目标对第二图像135执行AI放大140。
用于AI缩小110的AI和用于AI放大140的AI可被实施为DNN。如稍后将参照图9描述的,因为通过在特定目标下共享损失信息来联合训练第一DNN和第二DNN,所以AI编码设备可将在第一DNN和第二DNN的联合训练期间使用的目标信息提供给AI解码设备,并且AI解码设备可基于提供的目标信息对第二图像135执行AI放大140至目标分辨率。
关于图1的第一编码120和第一解码130,可通过第一编码120减少通过对原始图像105执行AI缩小110而获得的第一图像115的信息量。第一编码120可包括通过对第一图像115进行预测来生成预测数据的处理、生成与第一图像115与预测数据之间的差相应的残差数据的处理、将空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理、以及对量化的残差数据进行熵编码的处理。这样的第一编码120可经由使用频率变换的图像压缩方法(诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和AOMedia Video1(AV1))中的一种来执行。
可通过对图像数据执行第一解码130来重建与第一图像115相应的第二图像135。第一解码130可包括通过对图像数据进行熵解码来生成量化的残差数据的处理、对量化的残差数据进行反量化的处理、将频域分量的残差数据变换为空间域分量的处理、生成预测数据的处理、以及通过使用预测数据和残差数据来重建第二图像135的处理。这样的第一解码130可经由与在第一编码120中使用的使用频率变换的图像压缩方法(诸如MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)之一相应的图像重建方法来执行。
通过AI编码处理获得的AI编码数据可包括作为对第一图像115执行第一编码120的结果而获得的图像数据以及与原始图像105的AI缩小110相关的AI数据。可在第一解码130期间使用图像数据,并且可在AI放大140期间使用AI数据。
可以以比特流的形式发送图像数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括对第一图像115执行第一编码120期间使用的信息。例如,图像数据可包括第一编码120期间使用的预测模式信息、运动信息和与量化参数相关的信息。可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的规则(例如,根据语法)来生成图像数据。
在基于第二DNN的AI放大140中使用AI数据。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括使得能够通过第二DNN对第二图像135准确地执行AI放大140的信息。在AI解码处理期间,可基于AI数据对第二图像135执行AI放大140以具有目标分辨率和/或质量。
AI数据可与图像数据一起以比特流的形式被发送。可选地,根据实施例,AI数据可以以帧或分组的形式与图像数据分离地被发送。可通过相同的网络或通过不同的网络发送作为AI编码的结果而获得的AI数据和图像数据。
图2是根据实施例的AI解码设备200的配置的框图。
参照图2,根据实施例的AI解码设备200可包括接收器210和AI解码器230。接收器210可包括通信接口212、解析器214和输出接口216。AI解码器230可包括第一解码器232和AI放大器234。
接收器210接收并解析作为AI编码的结果而获得的AI编码数据,并且将图像数据和AI数据可区分地输出到AI解码器230。
具体地讲,通信接口212通过网络接收作为AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。可通过相同类型的网络或不同类型的网络接收图像数据和AI数据。
解析器214接收通过通信接口212接收的AI编码数据,并对AI编码数据进行解析以将图像数据和AI数据区分开。例如,解析器214可通过读取从通信接口212获得的数据的报头来对图像数据和AI数据进行区分。根据实施例,解析器214经由通过通信接口212接收到的数据的报头将图像数据和AI数据可区分地发送到输出接口216,并且输出接口216将区分出的图像数据和AI数据分别发送到第一解码器232和AI放大器234。此时,可验证包括在AI编码数据中的图像数据是经由特定编解码器(例如,MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)生成的图像数据。在这种情况下,可通过输出接口216可将相应信息发送到第一解码器232,使得图像数据经由验证的编解码器被处理。
根据实施例,可从数据存储介质获得由解析器214解析的AI编码数据,其中,所述数据存储介质包括磁介质(诸如,硬盘、软盘或磁带)、光学记录介质(诸如,CD-ROM或DVD)或者磁光介质(诸如,软光盘)。
第一解码器232基于图像数据重建与第一图像115相应的第二图像135。由第一解码器232获得的第二图像135被提供给AI放大器234。根据实施例,还可将图像数据中包括的第一解码相关信息(诸如预测模式信息、运动信息、量化参数信息等)提供给AI放大器234。
在接收到AI数据时,AI放大器234基于AI数据对第二图像135执行AI放大。根据实施例,可通过进一步使用包括在图像数据中的第一解码相关信息(诸如预测模式信息、量化参数信息等)来执行AI放大。
根据实施例的接收器210和AI解码器230在被描述为单独的装置,但可通过一个处理器被实现。在这种情况下,可通过专用处理器或者通过软件和通用处理器(诸如应用处理器(AP)、中央处理器(CPU)或图形处理单元(GPU))的组合来实现接收器210和AI解码器230。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。
此外,接收器210和AI解码器230可由多个处理器来配置。在这种情况下,可通过专用处理器的组合或者通过软件和通用处理器(诸如AP、CPU或GPU)的组合来实现接收器210和AI解码器230。类似地,可通过不同处理器实现AI放大器234和第一解码器232。
提供给AI放大器234的AI数据包括使得第二图像135能够经由AI放大被处理的信息。这里,放大目标应当相应于第一DNN的缩小。因此,AI数据包括用于验证第一DNN的缩小目标的信息。
AI数据中包括的信息的示例包括原始图像105的分辨率与第一图像115的分辨率之间的差信息以及与第一图像115相关的信息。
差信息可被表示为关于第一图像115与原始图像105相比的分辨率转换程度的信息(例如,分辨率转换率信息)。此外,因为通过重建的第二图像135的分辨率来验证第一图像115的分辨率并且因此分辨率转换程度被验证,所以所述差信息可仅被表示为原始图像105的分辨率信息。这里,分辨率信息可被表示为垂直屏幕尺寸/水平尺寸、或者比例(16:9、4:3等)和一个轴的尺寸。此外,当存在预先设置的分辨率信息时,可以以索引或标志的形式来表示分辨率信息。
与第一图像115相关的信息可包括关于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率或在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
AI放大器234可基于包括在AI数据中的差信息或与第一图像115相关的信息中的至少一个来确定第二图像135的放大目标。放大目标可指示例如将针对第二图像135将分辨率放大到什么程度。当放大目标被确定时,AI放大器234通过第二DNN对第二图像135执行AI放大,以获得与放大目标相应的第三图像145。
在描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法之前,将参照图3和图4描述通过第二DNN的AI放大处理。
图3是示出用于对第二图像135执行AI放大的第二DNN 300的示图,并且图4是用于描述图3的第一卷积层310中的卷积运算的示图。
如在图3中所示出的,第二图像135被输入到第一卷积层310。图3中所示的第一卷积层310中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对一个输入图像执行卷积处理。由所述四个滤波器核生成四个特征图作为卷积处理的结果。每个特征图指示第二图像135的固有特性。例如,每个特征图可表示第二图像135的垂直方向特性、水平方向特性或边缘特性等。
将参照图4详细描述第一卷积层310中的卷积运算。
可通过在第一卷积层310中使用的尺寸为3×3的滤波器核430的参数与第二图像135中的相应像素值之间的乘法和加法来生成一个特征图450。因为在第一卷积层310中使用四个滤波器核,所以可使用四个滤波器核通过卷积运算来生成四个特征图。
图4中的第二图像135中指示的I1至I49指示第二图像135中的像素,并且滤波器核430中指示的F1至F9指示滤波器核430的参数。此外,特征图450中指示的M1至M9指示特征图450的样点。
在图4中,第二图像135包括49个像素,但是像素的数量仅是示例,并且当第二图像135具有4K的分辨率时,第二图像135可包括例如3840×2160个像素。
在卷积运算处理期间,将第二图像135的I1、I2、I3、I8、I9、I10、I15、I16和I17的像素值与滤波器核430的F1至F9分别相乘,并且可将相乘的结果值的组合(例如,相加)的值赋为特征图450的M1的值。当卷积运算的步长为2时,将第二图像135的I3、I4、I5、I10、I11、I12、I17、I18和I19的像素值分别与滤波器核430的F1至F9相乘,并且相乘的结果值的组合的值可被赋为特征图450的M2的值。
在滤波器核430沿着步长移动到第二图像135的最后像素的同时,在第二图像135中的像素值与滤波器核430的参数之间执行卷积运算,并且因此可生成具有特定尺寸的特征图450。
根据本公开,可通过第一DNN和第二DNN的联合训练来优化第二DNN的参数的值(例如,在第二DNN的卷积层中使用的滤波器核的参数(例如,滤波器核430的F1至F9)的值)。如上所述,AI放大器234可基于AI数据确定与第一DNN的缩小目标相应的放大目标,并且将与所确定的放大目标相应的参数确定为在第二DNN的卷积层中使用的滤波器核的参数。
包括在第一DNN和第二DNN中的卷积层可根据参照图4描述的卷积运算处理来执行处理,但是参照图4描述的卷积运算处理仅是示例并且不限于此。
返回参照图3,从第一卷积层310输出的特征图可被输入到第一激活层320。
第一激活层320可将非线性特征赋予每个特征图。第一激活层320可包括sigmoid函数、Tanh函数、修正线性单元(ReLU)函数等,但不限于此。
赋予非线性特征的第一激活层320指示改变作为第一卷积层310的输出的特征图的至少一个样点值。这里,通过应用非线性特征来执行所述改变。
第一激活层320确定是否将从第一卷积层310输出的特征图的样点值发送到第二卷积层330。例如,特征图的一些样点值由第一激活层320激活并被发送到第二卷积层330,并且一些样点值由第一激活层320去激活并不被发送到第二卷积层330。由特征图表示的第二图像135的固有特性通过第一激活层320被强调。
从第一激活层320输出的特征图325被输入到第二卷积层330。图3中所示的特征图325中的一个特征图是在第一激活层320中对参照图4描述的特征图450进行处理的结果。
第二卷积层330中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对特征图325执行卷积处理。第二卷积层330的输出被输入到第二激活层340。第二激活层340可将非线性特征赋予输入数据。
从第二激活层340输出的特征图345被输入到第三卷积层350。图3中所示的第三卷积层350中指示的3×3×1指示通过使用尺寸为3×3的一个滤波器核执行卷积处理以生成一个输出图像。第三卷积层350是用于输出最终图像的层并且通过使用一个滤波器核来生成一个输出。根据本公开的实施例,第三卷积层350可输出第三图像145作为卷积运算的结果。
如稍后将描述的,可存在指示第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的数量、第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息应当与第一DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第二DNN的多条DNN设置信息与第一DNN的多条DNN设置信息之间的关联。
在图3中,第二DNN 300包括三个卷积层(第一卷积层310、第二卷积层330和第三卷积层350)以及两个激活层(第一激活层320和第二激活层340),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第二DNN 300可被实现为递归神经网络(RNN)。在这种情况下,根据本公开的实施例的第二DNN 300的卷积神经网络(CNN)结构被改变为RNN结构。
根据实施例,AI放大器234可包括用于上述卷积运算和激活层的运算的至少一个算术逻辑单元(ALU)。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行第二图像135或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的操作,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
在下文中,将描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法。
根据实施例,AI放大器234可存储可在第二DNN中设置的多条DNN设置信息。
这里,DNN设置信息可包括关于第二DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个的信息。多条DNN设置信息可分别相应于各种放大目标,并且第二DNN可基于与特定放大目标相应的DNN设置信息进行操作。第二DNN可基于DNN设置信息具有不同的结构。例如,第二DNN可基于任意一条DNN设置信息包括三个卷积层,并且可基于另一条DNN设置信息包括四个卷积层。
根据实施例,DNN设置信息可仅包括第二DNN中使用的滤波器核的参数。在这种情况下,第二DNN的结构不改变,但仅内部滤波器核的参数可基于DNN设置信息而改变。
AI放大器234可获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。此时使用的多条DNN设置信息中的每条DNN设置信息是用于获得预定分辨率和/或预定质量的第三图像145的信息,并且与第一DNN被联合训练。
例如,多条DNN设置信息中的一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的两倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的两倍高的4K(4096×2160)的第三图像145)的信息,并且另一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的四倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的四倍高的8K(8192×4320)的第三图像145)的信息。
所述多条DNN设置信息中的每一条与图7的AI编码设备600的第一DNN的DNN设置信息被联合获得,并且AI放大器234根据与第一DNN的DNN设置信息的缩小比例相应的放大比例来获得所述多条DNN设置信息中的一条DNN设置信息。就此而言,AI放大器234可验证第一DNN的信息。为了使AI放大器234验证第一DNN的信息,根据实施例的AI解码设备200从AI编码设备600接收包括第一DNN的信息的AI数据。
换句话说,AI放大器234可通过使用从AI编码设备600接收到的信息来验证作为用于获得第一图像115的第一DNN的DNN设置信息的目标所针对的信息,并获得与第一DNN的DNN设置信息联合训练的第二DNN的DNN设置信息。
当从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息时,可基于根据所获得的DNN设置信息进行操作的第二DNN来对输入数据进行处理。
例如,当获得了任意一条DNN设置信息时,图3的第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350中的每一个中包括的滤波器核的数量以及滤波器核的参数被设置为包括在所获得的DNN设置信息中的值。
具体地讲,在图4的第二DNN的任意一个卷积层中使用的3×3的滤波器核的参数被设置为{1,1,1,1,1,1,1,1,1},并且当DNN设置信息随后被改变时,所述参数被作为改变后的DNN设置信息中包括的参数的{2,2,2,2,2,2,2,2,2}替换。
AI放大器234可基于AI数据中包括的信息从所述多条DNN设置信息中获得用于AI放大的DNN设置信息,并且现在将描述用于获得DNN设置信息的AI数据。
根据实施例,AI放大器234可基于AI数据中包括的差信息从所述多条DNN设置信息中获得用于AI放大的DNN设置信息。例如,当基于所述差信息验证了原始图像105的分辨率(例如,4K(4096×2160))是第一图像115的分辨率(例如,2K(2048×1080))的两倍高时,AI放大器234可获得用于将第二图像135的分辨率提高两倍的DNN设置信息。
根据另一实施例,AI放大器234可基于AI数据中包括的与第一图像115相关的信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。AI放大器234可预先确定图像相关信息与DNN设置信息之间的映射关系,并且获得映射到与第一图像115相关的信息的DNN设置信息。
图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表。
通过根据图5的实施例,将确定根据本公开的实施例的AI编码和AI解码处理不仅仅考虑分辨率的改变。如在图5中所示出的,可单独或共同考虑分辨率(诸如标清(SD)、高清(HD)或全HD)、比特率(诸如10Mbps、15Mbps或20Mbps)以及编解码器信息(诸如AV1、H.264或HEVC)来选择DNN设置信息。出于这样的分辨率、比特流和编解码器信息的考虑,考虑到每一个元素的训练应当在AI训练处理期间与编码和解码处理联合执行(参见图9)。
因此,当根据训练基于包括如在图5中所示出的编解码器类型、图像的分辨率等的图像相关信息提供了多条DNN设置信息时,可基于在AI解码处理期间接收到的与第一图像115相关的信息来获得用于对第二图像135进行AI放大的DNN设置信息。
换句话说,AI放大器234能够通过对图5的表的左侧的图像相关信息与表的右侧的DNN设置信息进行匹配来根据图像相关信息使用DNN设置信息。
如在图5中所示出的,当从与第一图像115相关的信息验证第一图像115的分辨率是SD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是10Mbps,并且经由AV1编解码器对第一图像115执行第一编码时,AI放大器234可使用所述多条DNN设置信息中的A DNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由H.264编解码器执行第一编码时,AI放大器234可使用所述多条DNN设置信息中的B DNN设置信息。
此外,当从与第一图像115相关的信息验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是20Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用所述多条DNN设置信息中的C DNN设置信息,以及当验证第一图像115的分辨率是全HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由HEVC编解码器执行第一编码时,AI放大器234可使用所述多条DNN设置信息中的DDNN设置信息。基于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps还是15Mbps来选择C DNN设置信息和D DNN设置信息中的一个。在经由相同编解码器对相同分辨率的第一图像115执行第一编码时获得的图像数据的不同比特率指示重建图像的不同质量。因此,可基于特定图像质量联合训练第一DNN和第二DNN,并且因此,AI放大器234可根据指示第二图像135的质量的图像数据的比特率来获得DNN设置信息。
根据另一实施例,AI放大器234可考虑到从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和AI数据中包括的与第一图像115相关的信息两者来从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息。例如,AI放大器234可从第一解码器232接收在第一图像115的第一编码处理期间使用的量化参数信息,从AI数据验证作为第一图像115的编码结果所获得的图像数据的比特率,并且获得与量化参数信息和比特率相应的DNN设置信息。即使当比特率相同时,重建图像的质量也可根据图像的复杂度而变化。比特率是表示对其执行第一编码的整个第一图像115的值,并且即使在第一图像115内,每个帧的质量也可变化。因此,与仅使用AI数据时相比,当一起考虑来自第一解码器232的针对每个帧可获得的预测模式信息、运动信息和/或量化参数时,可获得更适合于第二图像135的DNN设置信息。
此外,根据实施例,AI数据可包括相互约定的DNN设置信息的标识符。DNN设置信息的标识符是用于将在第一DNN与第二DNN之间联合训练的一对DNN设置信息区分开的信息,使得对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标。AI放大器234可在获得AI数据中包括的DNN设置信息的标识符之后,通过使用与DNN设置信息的标识符相应的DNN设置信息对第二图像135执行AI放大。例如,可预先指定指示在第一DNN中可设置的所述多个DNN设置信息中的每一个DNN设置信息的标识符和指示在第二DNN中可设置的多个DNN设置信息中的每一个DNN设置信息的标识符。在这种情况下,可针对在第一DNN和第二DNN中的每一个中可设置的一对DNN设置信息指定相同的标识符。AI数据可包括用于原始图像105的AI缩小的第一DNN中设置的DNN设置信息的标识符。接收AI数据的AI放大器234可通过使用所述多个DNN设置信息中的由AI数据中包括的标识符指示的DNN设置信息来对第二图像135执行AI放大。
此外,根据实施例,AI数据可包括DNN设置信息。AI放大器234可在获得AI数据中包括的DNN设置信息之后通过使用DNN设置信息对第二图像135执行AI放大。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI放大器234可通过基于AI数据中包括的信息对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用获得的DNN设置信息对第二图像135执行AI放大。
根据实施例,当与放大目标相应的DNN的结构被确定时,AI放大器234可获得与所确定的DNN的结构相应的DNN设置信息,例如,滤波器核的参数。
AI放大器234通过包括与第一DNN相关的信息的AI数据获得第二DNN的DNN设置信息,并且通过基于所获得的DNN设置信息设置的第二DNN对第二图像135执行AI放大,并且在这种情况下,与直接分析第二图像135的特征以进行放大时相比,可降低存储器使用和吞吐量。
根据实施例,当第二图像135包括多个帧时,AI放大器234可针对特定数量个帧独立地获得DNN设置信息,或者可获得针对全部帧的共同的DNN设置信息。
图6是示出包括多个帧的第二图像135的示图。
如在图6中所示出的,第二图像135可包括帧t0至帧tn。例如,第二图像135包括帧t0、……帧ta、……帧tb、……帧tn。
根据实施例,AI放大器234可通过AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息对帧t0至帧tn执行AI放大。换句话说,可基于共同的DNN设置信息经由AI放大来处理帧t0至帧tn。
根据另一实施例,AI放大器234可通过使用从AI数据获得的“A”DNN设置信息对帧t0至帧tn中的一些帧(例如,帧t0至帧ta)执行AI放大,并且通过使用从AI数据获得的“B”DNN设置信息对帧ta+1至帧tb执行AI放大。此外,AI放大器234可通过使用从AI数据获得的“C”DNN设置信息来对帧tb+1至帧tn执行AI放大。换句话说,AI放大器234可针对包括多个帧中的特定数量个帧的每一组独立地获得DNN设置信息,并且通过使用独立地获得的DNN设置信息对每一组中包括的帧执行AI放大。
根据另一实施例,AI放大器234可针对形成第二图像135的每个帧独立地获得DNN设置信息。换句话说,当第二图像135包括三个帧时,AI放大器234可通过使用关于第一帧获得的DNN设置信息对第一帧执行AI放大,通过使用关于第二帧获得的DNN设置信息对第二帧执行AI放大,并且通过使用关于第三帧获得的DNN设置信息对第三帧执行AI放大。根据基于从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和包括在上述AI数据中的与第一图像115相关的信息来获得DNN设置信息的方法,可针对包括在第二图像135中的每个帧独立地获得DNN设置信息。这是因为可针对包括在第二图像135中的每个帧独立地确定模式信息、量化参数信息等。
根据另一实施例,AI数据可包括关于DNN设置信息对哪个帧有效的信息,其中,DNN设置信息是基于AI数据获得的。例如,当AI数据包括指示DNN设置信息直到帧ta有效的信息时,AI放大器234通过使用基于AI数据获得的DNN设置信息对帧t0至帧ta执行AI放大。此外,当另一条AI数据包括指示DNN设置信息直到帧tn有效的信息时,AI放大器234通过使用基于所述另一条AI数据获得的DNN设置信息对帧ta+1至帧tn执行AI放大。
在下文中,将参照图7描述用于对原始图像105执行AI编码的AI编码设备600。
图7是根据实施例的AI编码设备600的配置的框图。
参照图7,AI编码设备600可包括AI编码器610和发送器630。AI编码器610可包括AI缩小器66和第一编码器614。发送器630可包括数据处理器632和通信接口634。
在图7中,AI编码器610和发送器630被示出为独立的装置,但是AI编码器610和发送器630可通过一个处理器来实现。在这种情况下,AI编码器610和发送器630可通过专用处理器或者通过软件和通用处理器(诸如AP、CPU或图形处理器GPU)的组合来实现。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。
此外,AI编码器610和发送器630可由多个处理器来构成。在这种情况下,AI编码器610和发送器630可通过专用处理器的组合或者通过软件和多个通用处理器(诸如AP、CPU或GPU)的组合来实现。AI缩小器612和第一编码器614可通过不同处理器来实现。
AI编码器610对原始图像105执行AI缩小并对第一图像115执行第一编码,并且将AI数据和图像数据发送到发送器630。发送器630将AI数据和图像数据发送到AI解码设备200。
图像数据包括作为对第一图像115执行第一编码的结果而获得的数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括第一图像115的第一编码处理期间使用的信息。例如,图像数据可包括用于对第一图像115执行第一编码的预测模式信息、运动信息、量化参数信息等。
AI数据包括使得能够对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标的信息。根据实施例,AI数据可包括原始图像105与第一图像115之间的差信息。此外,AI数据可包括与第一图像115相关的信息。与第一图像115相关的信息可包括关于第一图像115的分辨率、作为对第一图像115执行第一编码的结果而获得的图像数据的比特率、以及在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。
根据实施例,AI数据可包括相互约定的DNN设置信息的标识符,使得对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标。
此外,根据实施例,AI数据可包括可在第二DNN中设置的DNN设置信息。
AI缩小器612可获得通过经由第一DNN对原始图像105执行AI缩小而获得的第一图像115。AI缩小器612可基于预定标准确定原始图像105的缩小目标。
为了获得与缩小目标匹配的第一图像115,AI缩小器612可存储可在第一DNN中设置的多条DNN设置信息。AI缩小器612从所述多条DNN设置信息中获得与缩小目标相应的DNN设置信息,并且通过在所获得的DNN设置信息中设置的第一DNN对原始图像105执行AI缩小。
可训练所述多条DNN设置信息中的每一条DNN设置信息以获得预定分辨率和/或预定质量的第一图像115。例如,所述多条DNN设置信息中的任意一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的一半的第一图像115(例如,为原始图像105的4K(4096×2160)的一半的2K(2048×1080)的第一图像115)的信息,并且另一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的四分之一的第一图像115(例如,为原始图像105的8K(8192×4320)的四分之一的2K(2048×1080)的第一图像115)的信息。
根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI缩小器612可通过基于缩小目标对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用所获得的DNN设置信息对原始图像105执行AI缩小。
根据实施例,AI缩小器612可确定与缩小目标相应的DNN的结构,并且获得与所确定的DNN的结构相应的DNN设置信息,例如,获得滤波器核的参数。
随着第一DNN和第二DNN被联合训练,用于对原始图像105执行AI缩小的多条DNN设置信息可具有优化值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个。
AI缩小器612可利用用于对原始图像105执行AI缩小的DNN设置信息设置第一DNN,以通过第一DNN获得特定分辨率和/或特定质量的第一图像115。当从多条DNN设置信息获得用于对原始图像105执行AI缩小的DNN设置信息时,第一DNN中的每一层可基于DNN设置信息中包括的信息来对输入数据进行处理。
在下文中,将描述由AI缩小器612执行的确定缩小目标的方法。缩小目标可指示例如分辨率从原始图像105降低多少以获得第一图像115。
根据实施例,AI缩小器612可基于原始图像105的压缩比(例如,原始图像105与第一图像115之间的分辨率差、目标比特率等)、压缩质量(例如,比特率的类型)、压缩历史信息或类型中的至少一个来确定缩小目标。
例如,AI缩小器612可基于预设或从用户输入的压缩比、压缩质量等,确定缩小目标。
作为另一示例,AI缩小器612可通过使用存储在AI编码设备600中的压缩历史信息来确定缩小目标。例如,根据可由AI编码设备600使用的压缩历史信息,可确定用户偏好的编码质量、压缩比等,并且可根据基于压缩历史信息确定的编码质量来确定缩小目标。例如,可根据压缩历史信息基于最常使用的编码质量来确定第一图像115的分辨率、质量等。
作为另一示例,AI缩小器612可根据压缩历史信息基于比特定阈值更频繁使用的编码质量(例如,比特定阈值更频繁使用的编码质量的平均质量)来确定缩小目标。
作为另一示例,AI缩小器612可基于原始图像105的分辨率、类型(例如,文件格式)等来确定缩小目标。
根据实施例,当原始图像105包括多个帧时,AI缩小器612可针对特定数量个帧独立地确定缩小目标,或者可确定针对全部帧的缩小目标。
根据实施例,AI缩小器612可将包括在原始图像105中的帧划分为特定数量个组,并且针对每个组独立地确定缩小目标。可针对每个组确定相同或不同的缩小目标。根据每个组,组中包括的帧的数量可相同或不同。
根据另一实施例,AI缩小器612可针对包括在原始图像105中的每个帧独立地确定缩小目标。可针对每个帧确定相同或不同的缩小目标。
在下文中,将描述AI缩小所基于的第一DNN 700的结构的示例。
图8是示出用于对原始图像105执行AI缩小的第一DNN 700的示图。
如在图8中所示出的,原始图像105被输入到第一卷积层710。第一卷积层710通过使用尺寸为5×5的32个滤波器核对原始图像105执行卷积处理。作为卷积处理的结果而生成的32个特征图被输入到第一激活层720。第一激活层720可将非线性特征赋予所述32个特征图。
第一激活层720确定是否将从第一卷积层710输出的特征图的样点值发送到第二卷积层730。例如,所述特征图的一些样点值被第一激活层720激活并且被发送到第二卷积层730,并且一些样点值被第一激活层720去激活并且不被发送到第二卷积层730。由从第一卷积层710输出的特征图表示的信息被第一激活层720强调。
第一激活层720的输出725被输入到第二卷积层730。第二卷积层730通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积处理。作为卷积处理的结果而输出的32个特征图被输入到第二激活层740,并且第二激活层740可将非线性特征赋予所述32个特征图。
第二激活层740的输出745被输入到第三卷积层750。第三卷积层750通过使用尺寸为5×5的一个滤波器核对输入数据执行卷积处理。作为卷积处理的结果,可从第三卷积层750输出一个图像。第三卷积层750通过将所述一个滤波器核用作用于输出最终图像的层来生成一个输出。根据本公开的实施例,第三卷积层750可输出第一图像115作为卷积运算的结果。
可存在指示第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的滤波器核的数量、第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的每一个滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息可与第二DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第一DNN的所述多条DNN设置信息与第二DNN的所述多条DNN设置信息之间的关联。
在图8中,第一DNN 700包括三个卷积层(第一卷积层710、第二卷积层730和第三卷积层750)以及两个激活层(第一激活层720和第二激活层740),但这仅是示例,并且卷积层和激活层的数量可根据实施例而变化。此外,根据实施例,第一DNN 700可被实现为RNN。在这种情况下,根据本公开的实施例的第一DNN 700的CNN结构被改变为RNN结构。
根据实施例,AI缩小器612可包括用于上述卷积运算和激活层的运算的至少一个ALU。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行原始图像105或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。
返回参照图7,在从AI缩小器612接收到第一图像115时,第一编码器614可通过对第一图像115执行第一编码来减少第一图像115的信息量。可获得与第一图像115相应的图像数据,作为由第一编码器614执行第一编码的结果。
数据处理器632对将以特定形式发送的AI数据或图像数据中的至少一个进行处理。例如,当将以比特流的形式发送AI数据和图像数据时,数据处理器632可将AI数据处理为以比特流的形式被表示,并且通过通信接口634以一个比特流的形式发送图像数据和AI数据。作为另一示例,数据处理器632可将AI数据处理为以比特流的形式被表示,并且通过通信接口634发送与AI数据相应的比特流和与图像数据相应的比特流中的每个比特流。作为另一示例,数据处理器632可将AI数据处理为以帧或分组的形式被表示,并且通过通信接口634以比特流的形式发送图像数据并以帧或分组的形式发送AI数据。
通信接口634通过网络发送作为执行AI编码的结果而获得的AI编码数据。作为执行AI编码的结果而获得的AI编码数据包括图像数据和AI数据。图像数据和AI数据可通过相同类型的网络或不同类型的网络被发送。
根据实施例,作为数据处理器632的处理结果而获得的AI编码数据可被存储在数据存储介质中,其中,所述数据存储介质包括磁介质(诸如,硬盘、软盘或磁带)、光学记录介质(诸如,CD-ROM或DVD)、或者磁光介质(诸如,软光盘)。
在下文中,将参照图9描述联合训练第一DNN 700和第二DNN 300的方法。
图9是用于描述训练第一DNN 700和第二DNN 300的方法的示图。
在实施例中,经由AI解码处理将通过AI编码处理被执行AI编码的原始图像105重建为第三图像145,并且为了保持原始图像105与作为AI解码的结果而获得的第三图像145之间的相似性,需要AI编码处理与AI解码处理之间的关联性。换句话说,需要在AI解码处理期间重建在AI编码处理中损失的信息,并且就此而言,需要对第一DNN 700和第二DNN 300进行联合训练。
为了进行准确的AI解码,最终,需要减少与将图9中所示的第三训练图像804和原始训练图像801进行比较的结果相应的质量损失信息830。因此,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。
首先,将描述图9中所示的训练处理。
在图9中,原始训练图像801是将被执行AI缩小的图像,并且第一训练图像802是通过对原始训练图像801执行AI缩小而获得的图像。此外,第三训练图像804是通过对第一训练图像802执行AI放大而获得的图像。
原始训练图像801包括静止图像或包括多个帧的运动图像。根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的亮度图像。此外,根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的分块图像。当原始训练图像801包括多个帧时,第一训练图像802、第二训练图像和第三训练图像804也各自包括多个帧。当原始训练图像801的多个帧被依次输入到第一DNN 700时,可通过第一DNN 700和第二DNN 300依次获得第一训练图像802、第二训练图像和第三训练图像804的多个帧。
对于第一DNN 700和第二DNN 300的联合训练,原始训练图像801被输入到第一DNN700。输入到第一DNN 700的原始训练图像801经由AI缩小被输出为第一训练图像802,并且第一训练图像802被输入到第二DNN 300。输出第三训练图像804作为对第一训练图像802执行AI放大的结果。
参照图9,第一训练图像802被输入到第二DNN 850,并且根据实施例,对第一训练图像802执行第一编码和第一解码时获得的第二训练图像可被输入到第二DNN 300。为了将第二训练图像输入到第二DNN 300,可使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器。具体地讲,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器可被用于对第一训练图像802执行第一编码并对与第一训练图像802相应的图像数据执行第一解码。
参照图9,与通过第一DNN 700输出的第一训练图像802分开地,获得通过对原始训练图像801执行传统缩小而获得的缩减的训练图像803。这里,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放或阶梯缩放中的至少一个。
为了防止第一图像115的结构特征极大地偏离原始图像105的结构特征,获得缩减的训练图像803以保留原始训练图像801的结构特征。
在执行训练之前,可将第一DNN 700和第二DNN 300设置为预定的DNN设置信息。当执行训练时,可确定结构损失信息810、复杂度损失信息820和质量损失信息830。
可基于将缩减的训练图像803和第一训练图像802进行比较的结果来确定结构损失信息810。例如,结构损失信息810可相应于缩减的训练图像803的结构信息与第一训练图像802的结构信息之间的差。结构信息可包括可从图像提取的各种特征,诸如图像的亮度、对比度、直方图等。结构损失信息810指示原始训练图像801的多少结构信息被保持在第一训练图像802中。当结构损失信息810小时,第一训练图像802的结构信息与原始训练图像801的结构信息相似。
可基于第一训练图像802的空间复杂度来确定复杂度损失信息820。例如,第一训练图像802的总方差值可被用作空间复杂度。复杂度损失信息820与通过对第一训练图像802执行第一编码而获得的图像数据的比特率相关。定义当复杂度损失信息820小时,图像数据的比特率低。
可基于将原始训练图像801与第三训练图像804进行比较的结果来确定质量损失信息830。质量损失信息830可包括关于原始训练图像801与第三训练图像804之间的差的L1范数值、L2范数值、结构相似度(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值或视频多方法评估融合(VMAF)值中的至少一个。质量损失信息830指示第三训练图像804与原始训练图像801有多相似。当质量损失信息830小时,第三训练图像804与原始训练图像801更相似。
参照图9,结构损失信息810、复杂度损失信息820和质量损失信息830被用于训练第一DNN 700,并且质量损失信息830被用于训练第二DNN 300。换句话说,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。
第一DNN 700可更新参数,使得基于第一至质量损失信息810至830确定的最终损失信息被减少或最小化。此外,第二DNN 300可更新参数,使得质量损失信息830被减少或最小化。
用于训练第一DNN 700和第二DNN 300的最终损失信息可如下面的等式1被确定。
[等式1]
LossDS=a×结构损失信息+b×复杂度损失信息+c×质量损失信息
LossUS=d×质量损失信息
在等式1中,LossDS指示将被减小或最小化以训练第一DNN 700的最终损失信息,并且LossUS指示将被减小或最小化以训练第二DNN 300的最终损失信息。此外,a、b、c和d可以是预定的特定权重。
换句话说,第一DNN 700沿等式1的LossDS减小的方向更新参数,并且第二DNN 300沿LossUS减小的方向更新参数。当根据在训练期间推导出的LossDS来更新第一DNN 700的参数时,基于更新的参数获得的第一训练图像802变得与基于未更新的参数获得的先前的第一训练图像802不同,并且因此,第三训练图像804也变得与先前的第三训练图像804不同。当第三训练图像804变得与先前的第三训练图像804不同时,还重新确定质量损失信息830,并且第二DNN 300相应地更新参数。当重新确定质量损失信息830时,还重新确定LossDS,并且第一DNN 700根据重新确定的LossDS来更新参数。换句话说,第一DNN 700的参数的更新导致第二DNN 300的参数的更新,并且第二DNN 300的参数的更新导致第一DNN700的参数的更新。换句话说,因为通过共享质量损失信息830来联合训练第一DNN 700和第二DNN 300,所以可联合优化第一DNN 700的参数和第二DNN 300的参数。
参照等式1,验证了根据质量损失信息830来确定LossUS,但这仅是示例,并且可基于结构损失信息810和复杂度损失信息820中的至少一个以及质量损失信息830来确定LossUS。
在上文中,已经描述了AI解码设备200的AI放大器234和AI编码设备600的AI缩小器612存储多条DNN设置信息,并且现在将描述训练存储在AI放大器234和AI缩小器612中的多条DNN设置信息中的每条DNN设置信息的方法。
如参照等式1所述,第一DNN 700考虑到第一训练图像802的结构信息与原始训练图像801的结构信息之间的相似性(结构损失信息810)、作为对第一训练图像802执行第一编码的结果而获得的图像数据的比特率(复杂度损失信息820)、以及第三训练图像804与原始训练图像801之间的差(质量损失信息830)来更新参数。
具体地讲,可更新第一DNN 700的参数,从而获得与原始训练图像801具有相似的结构信息的第一训练图像802并且当对第一训练图像802执行第一编码时获得具有小比特率的图像数据,并且此时,对第一训练图像802执行AI放大的第二DNN 300获得与原始训练图像801相似的第三训练图像804。
第一DNN 700的参数被优化的方向可通过调整等式1的权重a、b和c而变化。例如,当权重b被确定为高时,可通过使第三训练图像804的低比特率优先于高质量来更新第一DNN 700的参数。此外,当权重c被确定为高时,可通过使第三训练图像804的高质量优先于高比特率或者保持原始训练图像801的结构信息来更新第一DNN 700的参数。
此外,第一DNN 700的参数被优化的方向可根据用于对第一训练图像802执行第一编码的编解码器的类型而变化。这是因为将被输入到第二DNN300的第二训练图像可根据编解码器的类型而变化。
换句话说,可基于权重a、b和c以及用于对第一训练图像802执行第一编码的编解码器的类型来联合更新第一DNN 700的参数和第二DNN 300的参数。因此,当在将权重a、b和c各自确定为特定值并将编解码器的类型确定为特定类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。
此外,当在改变权重a、b和c以及编解码器的类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。换句话说,当在改变权重a、b和c的值以及编解码器的类型的同时训练第一DNN 700和第二DNN 300时,可在第一DNN 700和第二DNN 300中确定彼此联合训练的多条DNN设置信息。
如上面参照图5所述,第一DNN 700和第二DNN 300的多条DNN设置信息可被映射到与第一图像相关的信息。为了设置这样的映射关系,可根据特定比特率经由特定编解码器对从第一DNN 700输出的第一训练图像802执行第一编码,并且可将通过对作为执行第一编码的结果而获得的比特流执行第一解码而获得的第二训练图像输入到第二DNN 300。换句话说,通过在设置环境使得根据特定比特率经由特定编解码器对特定分辨率的第一训练图像802执行第一编码之后训练第一DNN 700和第二DNN 300,可确定与第一训练图像802的所述分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及作为对第一训练图像802执行第一编码的结果而获得的比特流的比特率相映射的DNN设置信息对。通过不同地改变第一训练图像802的分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及根据第一训练图像802的第一编码获得的比特流的比特率,可确定第一DNN700和第二DNN 300的所述多条DNN设置信息和与第一图像相关的所述多条信息之间的映射关系。
图10是用于描述训练设备1000对第一DNN 700和第二DNN的训练处理的示图。
参照图9描述的第一DNN 700和第二DNN 300的训练可由训练设备1000来执行。训练设备1000包括第一DNN 700和第二DNN 300。训练设备1000可以是例如AI编码设备600或单独的服务器。作为训练结果而获得的第二DNN 300的DNN设置信息被存储在AI解码设备200中。
参照图10,在操作S840和操作S845,训练设备1000初始设置第一DNN700和第二DNN300的DNN设置信息。因此,第一DNN 700和第二DNN 300可根据预定DNN设置信息进行操作。DNN设置信息可包括关于第一DNN700和第二DNN 300中包括的卷积层的数量、针对每个卷积层的滤波器核的数量、针对每个卷积层的滤波器核的尺寸或每个滤波器核的参数中的至少一个的信息。
在操作S850,训练设备1000将原始训练图像801输入到第一DNN 700中。原始训练图像801可包括静止图像或运动图像中包括的至少一个帧。
在操作S855,第一DNN 700根据初始设置的DNN设置信息对原始训练图像801进行处理并输出通过对原始训练图像801执行AI缩小而获得的第一训练图像802。S855源于第一DNN 700。在图10中,从第一DNN 700输出的第一训练图像802被直接输入到第二DNN 300,但从第一DNN 700输出的第一训练图像802可由训练设备1000输入到第二DNN 300。此外,训练设备1000可经由特定编解码器对第一训练图像802执行第一编码和第一解码,然后将第二训练图像输入到第二DNN 300。
在操作S860,第二DNN 300根据初始设置的DNN设置信息对第一训练图像802或第二训练图像进行处理,并输出通过对第一训练图像802或第二训练图像执行AI放大而获得的第三训练图像804。
在操作S865,训练设备1000基于第一训练图像802计算复杂度损失信息820。
在操作S870,训练设备1000通过将缩减的训练图像803与第一训练图像802进行比较来计算结构损失信息810。
在操作S875,训练设备1000通过将原始训练图像801与第三训练图像804进行比较来计算质量损失信息830。
在操作S880,基于最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于复杂度损失信息820、结构损失信息810和质量损失信息830来计算用于训练第一DNN 700的最终损失信息。
在操作S885,第二DNN 300基于质量损失信息830或最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于质量损失信息830来计算用于训练第二DNN 300的最终损失信息。
然后,训练设备1000、第一DNN 700和第二DNN 300可重复操作S850至S885,直到最终损失信息被最小化为止,以更新DNN设置信息。此时,在每一次重复期间,第一DNN 700和第二DNN 300根据在先前操作中更新的DNN设置信息进行操作。
下面的表1示出当根据本公开的实施例的原始图像105被执行AI编码和AI解码时以及当原始图像105经由HEVC被执行编码和解码时的效果。
【表1】
如在表1中所示出的,尽管根据本公开的实施例对包括8K分辨率的300帧的内容执行AI编码和AI解码时主观图像质量高于经由HEVC执行编码和解码时主观图像质量,但是比特率降低了至少50%。
图11是用于对原始图像105执行AI缩小的设备20和用于对第二图像135执行AI放大的设备40的示图。
设备20接收原始图像105,并通过使用AI缩小器1124和基于变换的编码器1126将图像数据25和AI数据30提供给设备40。根据实施例,图像数据25相应于图1的图像数据,并且AI数据30相应于图1的AI数据。此外,根据实施例,基于变换的编码器1126相应于图7的第一编码器614,并且AI缩小器1124相应于图7的AI缩小器612。
设备40接收AI数据30和图像数据25,并且通过使用基于变换的解码器1146和AI放大器1144来获得第三图像145。根据实施例,基于变换的解码器1146相应于图2的第一解码器232,并且AI放大器1144相应于图2的AI放大器234。
根据实施例,设备20包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备20根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。
根据实施例,设备40包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备40根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。
在图11中,配置控制器1122接收至少一个输入值10。根据实施例,所述至少一个输入值10可包括针对AI缩小器1124和AI放大器1144的目标分辨率差、图像数据25的比特率、图像数据25的比特率类型(例如,可变比特率类型、恒定比特率类型或平均比特率类型)或者针对基于变换的编码器1126的编解码器类型中的至少一个。所述至少一个输入值10可包括被预存储在设备20中的值或从用户输入的值。
配置控制器1122基于接收到的输入值10来控制AI缩小器1124和基于变换的编码器1126的操作。根据实施例,配置控制器1122根据接收到的输入值10获得用于AI缩小器1124的DNN设置信息,并且利用所获得的DNN设置信息来设置AI缩小器1124。根据实施例,配置控制器1122可将接收到的输入值10发送到AI缩小器1124,并且AI缩小器1124可基于接收到的输入值10获得用于对原始图像105执行AI缩小的DNN设置信息。根据实施例,配置控制器1122可将附加信息(例如,应用AI缩小的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和高动态范围(HDR)的色调映射信息)连同输入值10一起提供给AI缩小器1124,并且AI缩小器1124可考虑到输入值10和附加信息,来获得DNN设置信息。根据实施例,配置控制器1122将接收到的输入值10的至少一部分发送到基于变换的编码器1126,并且基于变换的编码器1126通过特定值的比特率、特定类型的比特率和特定编解码器对第一图像115执行第一编码。
AI缩小器1124接收原始图像105并执行参照图1、图7、图8、图9或图10中的至少一个描述的操作以获得第一图像115。
根据实施例,AI数据30被提供给设备40。AI数据30可包括原始图像105与第一图像115之间的分辨率差信息或者与第一图像115相关的信息中的至少一个。可基于输入值10的目标分辨率差来确定分辨率差信息,并且可基于目标比特率、比特率类型或编解码器类型中的至少一个来确定与第一图像115相关的信息。根据实施例,AI数据30可包括AI放大期间使用的参数。可从AI缩小器1124将AI数据30提供给设备40。
图像数据25随着由基于变换的编码器1126对原始图像105进行处理而被获得,并被发送到设备40。基于变换的编码器1126可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或VA1对第一图像115进行处理。
配置控制器1142基于AI数据30控制AI放大器1144的操作。根据实施例,配置控制器1142根据接收到的AI数据30获得用于AI放大器1144的DNN设置信息,并且利用所获得的DNN设置信息设置AI放大器1144。根据实施例,配置控制器1142可将接收到的AI数据30发送到AI放大器1144,并且AI放大器1144可基于AI数据30获得用于对第二图像135执行AI放大的DNN设置信息。根据实施例,配置控制器1142可将附加信息(例如,应用AI放大的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和HDR的色调映射信息)连同AI数据30一起提供给AI放大器1144,并且AI放大器1144可考虑到AI数据30和附加信息来获得DNN设置信息。根据实施例,AI放大器1144可从配置控制器1142接收AI数据30,从基于变换的解码器1146接收预测模式信息、运动信息或量化参数信息中的至少一个,并且基于预测模式信息、运动信息和量化参数信息中的至少一个以及AI数据30来获得DNN设置信息。
基于变换的解码器1146可对图像数据25进行处理以重建第二图像135。基于变换的解码器1146可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1对图像数据25进行处理。
AI放大器1144可通过基于所设置的DNN设置信息对从基于变换的解码器1146提供的第二图像135执行AI放大来获得第三图像145。
AI缩小器1124可包括第一DNN,并且AI放大器1144可包括第二DNN,并且根据实施例,根据参照图9和图10描述的训练方法来训练针对第一DNN和第二DNN的DNN设置信息。
另外,在图2中示出的AI解码设备200可接收广播(例如,地面广播、有线广播或卫星广播)数据或接收流传输内容,对接收到的广播数据或流传输内容执行AI解码,并且显示或外部输出AI解码的图像。然而,当通过使用由内容制造商提供的专用于用户体验(UX)的专用媒体流传输集线器(例如,FirestickTM或ChromecastTM)接收流传输内容时,流传输集线器可执行第一解码,并且连接到流传输集线器的单独的设备可对被执行第一解码的第二图像执行AI放大。
因此,需要用于分别执行第一解码130和AI放大140的设备以及用于将这些设备彼此连接并发送和接收AI放大所需的AI数据的方法。
图12是根据本公开的实施例的AI解码系统1001的示图。
根据本公开实施例的AI解码系统1001可包括解码设备1100和AI放大设备1200。
根据本公开实施例的解码设备1100可以是从外部源、外部服务器或外部设备接收编码的数据或编码的信号并对编码的数据或编码的信号进行解码的设备。根据本公开实施例的解码设备1100可以以机顶盒或加密狗的形式实现。然而,实施例不限于此,并且解码设备1100可被实现为能够从外部设备接收多媒体数据的任何电子设备。
根据本公开实施例的解码设备1100可接收AI编码数据并基于AI编码数据执行第一解码。AI编码数据是作为原始图像的AI缩小和第一编码的结果而生成的数据,并且可包括图像数据和AI数据。解码设备1100可经由图像数据的第一解码来重建与第一图像相应的第二图像。这里,第一图像可以是通过对原始图像执行AI缩小而获得的图像。
根据实施例的第一解码可包括通过对图像数据执行熵解码来生成量化的残差数据的处理、对量化的残差数据进行反量化的处理、生成预测数据的处理以及通过使用预测数据和残差数据来重建第二图像的处理。可经由与使用频率变换的图像压缩方法(诸如,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)中的一个相应的图像重建方法来执行上述第一解码,其中,图像压缩方法是在对执行AI缩小的第一图像执行第一编码时使用的图像压缩方法。
根据本公开实施例的解码设备1100可将重建的第二图像和包括在AI编码数据中的AI数据发送到AI放大设备1200。这里,解码设备1100可经由输入和输出接口将第二图像和AI数据发送到AI放大设备1200。
此外,解码设备1100还可通过输入和输出接口将第一解码相关信息(诸如,包括在图像数据中的模式信息和量化参数信息)发送到AI放大设备1200。
例如,解码设备1100和AI放大设备1200可经由HDMI线缆或显示端口(DP)线缆彼此连接,并且解码设备1100可通过HDMI或DP将第二图像和AI数据发送到AI放大设备1200。
根据本公开实施例的AI放大设备1200可通过使用从解码设备1100接收的AI数据对第二图像执行AI放大。例如,可通过经由第二DNN对第二图像执行AI放大来生成第三图像。
此外,根据本公开的实施例的AI放大设备1200可被实现为包括显示器的电子设备。例如,AI放大设备1200可被实现为以下各种电子设备中的任何一种电子设备:诸如电视(TV)、移动电话、平板个人计算机(PC)、数字相机、摄像机、膝上型计算机、台式计算机、兼容计算机监视器、视频投影仪、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)和导航装置。
当根据本公开的实施例的AI放大设备1200包括显示器时,AI放大设备1200可在显示器上显示第二图像或第三图像。
图13是根据本公开实施例的解码设备1100的配置的示图。
参照图13,根据本公开实施例的解码设备1100可包括接收器1110、第一解码器1120和输入/输出(I/O)装置1130。
根据本公开实施例的接收器1110可接收作为AI编码的结果而生成的AI编码数据。接收器1110可包括通信接口1111、解析器1112和输出接口1113。接收器1110接收并解析作为AI编码的结果而生成的AI编码数据,将AI编码数据划分为图像数据和AI数据,并且将图像数据输出到第一解码器1120并将AI编码数据输出到I/O接口1130。
具体地,通信接口1111经由网络接收作为AI编码数据的结果而生成的AI编码数据。作为AI编码的结果而生成的AI编码数据包括图像数据和AI数据。
根据本公开实施例的AI数据可通过与图像数据一起被包括在视频文件中被接收。当AI数据被包括在视频文件中时,AI数据可被包括在视频文件的报头的元数据中。
可选地,当执行AI编码的图像数据作为按照预设时间单位划分出的片段被接收时,AI数据可被包括在片段的元数据中。
可选地,AI数据可通过被包括在比特流中而被编码和接收。可选地,AI数据可作为单独的文件被接收。
图13示出AI数据以元数据的形式被接收的情况。
AI编码数据可被划分为图像数据和AI数据。例如,解析器1112通过通信接口1111接收AI编码数据,并对AI编码数据进行解析以将AI编码数据划分为图像数据和AI数据。例如,经由网络接收的数据可以是按照MP4文件格式配置的,其中,MP4文件格式符合广泛用于存储或传输多媒体数据的ISO基本媒体文件格式标准。MP4文件格式包括多个框(box),并且每一个框可包括指示含有哪些数据的类型信息以及指示框的尺寸的尺寸信息。这里,以MP4文件格式接收的数据可包括媒体数据框和元数据框,其中,在媒体数据框中存储有包括图像数据的实际媒体数据,在元数据框中存储有与媒体相关的元数据。通过对接收到的数据中的框类型进行解析,确定数据是图像数据还是AI数据。例如,解析器1112通过识别经由通信接口1111接收的MP4文件格式的数据的框类型来对图像数据和AI数据进行区分,并将图像数据和AI数据发送到输出接口1113,并且输出接口1113将图像数据和AI数据分别发送到第一解码器1120和I/O接口1130。
这里,包括在AI编码数据中的图像数据可被识别为经由特定编解码器(例如,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)生成的图像数据。在这种情况下,可通过输出接口1113将相应的信息发送到第一解码器1120,使得图像数据在识别出的编解码器中被处理。
可从包括硬盘等的数据存储介质获得根据本公开实施例的AI编码数据,并且根据本公开实施例的解码设备1100可通过诸如通用串行总线(USB)端口等的输入和输出接口从数据存储介质获得AI编码数据。
此外,从通信接口1111接收的AI编码数据可被存储在存储器中,并且解析器1112可对从存储器获得的AI编码数据进行解析。然而,本公开的实施例不限于此。
第一解码器1120基于图像数据重建与第一图像相应的第二图像。由第一解码器1120生成的第二图像被发送到I/O接口1130。根据本公开的实施例,包括在图像数据中的第一解码相关信息(诸如,模式信息和量化参数信息)可被进一步发送到I/O接口1130。
I/O接口1130可从输出接口1113接收AI数据。
I/O接口1130可经由输入和输出接口向外部设备发送数据或从外部设备接收数据。例如,I/O接口1130可发送和接收视频数据、音频数据和附加数据。可选地,I/O接口1130可向外部设备请求命令或者从外部设备接收命令,并且发送关于命令的响应消息。然而,本公开的实施例不限于此。
返回参照图13,I/O接口1130可将从第一解码器1120接收的第二图像和从输出接口1113接收的AI数据发送到AI放大设备1200。
例如,I/O接口1130可包括HDMI,并且经由HDMI将第二图像和AI数据发送到AI放大设备1200。
可选地,I/O接口1130可包括DP,并且经由DP将第二图像和AI数据发送到AI放大设备1200。
在下文中,将参照图14详细描述元数据的形式的AI数据的数据结构。
图14示出根据本公开实施例的元数据的形式的AI数据的数据结构。
根据本公开实施例的AI数据被可包括在视频文件的报头的元数据或片段的元数据中。例如,当使用上文所描述的MP4文件格式时,视频文件或片段可包括媒体数据框和元数据框,其中,媒体数据框包括实际媒体数据,元数据框包括与媒体相关的元数据。可在元数据框中发送参照图14描述的元数据的形式的AI数据。
参照图14,根据实施例的AI数据可包括诸如ai_codec_info 1300、ai_codec_applied_channel_info 1302、target_bitrate_info 1304、res_info 1306、ai_codec_DNN_info 1312和ai_codec_supplementary_info 1314的元素。图14中所示出的元件的布置仅是示例,并且本领域普通技术人员可改变元件的布置。
根据本公开的实施例,ai_codec_info 1300表示AI放大是否被应用于低分辨率图像(诸如,第二图像135)。当ai_codec_info 1300指示AI放大被应用于根据图像数据重建的第二图像135时,AI数据的数据结构包括用于获得用于AI放大的放大DNN信息的元素。
ai_codec_applied_channel_info 1302是指示被应用AI放大的颜色通道的通道信息。可以以RGB格式、YUV格式、YCbCr格式等表示图像,并且可根据帧的类型在YCbCr颜色通道、RGB颜色通道或YUV颜色通道之中指示需要AI放大的颜色通道。
target_bitrate_info 1304是指示作为由第一编码器614进行第一编码的结果而获得的图像数据的比特率的信息。AI放大器234可根据target_bitrate_info1304获得适合于第二图像135的质量的AI放大DNN信息。
res_info 1306指示与被执行AI放大的高分辨率图像(诸如,第三图像145)的分辨率相关的分辨率信息。res_info 1306可包括pic_width_org_luma 1308和pic_height_org_luma 1310。pic_width_org_luma 1308和pic_height_org_luma1310分别指示高分辨率图像的宽度和高度,并且分别是高分辨率图像宽度信息和高分辨率图像高度信息。AI放大器234可根据依据pic_width_org_luma1308和pic_height_org_luma 1310确定的高分辨率图像的分辨率以及由第一解码器232重建的低分辨率图像的分辨率来确定AI放大比例。
ai_codec_DNN_info 1312是指示用于第二图像135的AI放大的相互同意的AI放大DNN信息的信息。AI放大器234可根据ai_codec_applied_channel_info 1302、target_bitrate_info 1304和res_info 1306在预先存储的多条DNN设置信息之中确定AI放大DNN信息。此外,AI放大器234可通过另外考虑图像的其他特征(类型、最大亮度、色域等)和编码的编解码器信息在预先存储的所述多条DNN设置信息之中确定AI放大DNN信息。
指示AI放大DNN的DNN信息可由指示如上所述的AI放大器234中预先存储的多条DNN设置信息之一的标识符来表示,或者可包括关于DNN中包括的卷积层的数量、针对每一个卷积层的滤波器核的数量或每一个滤波器核的参数中的至少一个的信息。
ai_codec_supplementary_info 1314指示关于AI放大的补充信息。ai_codec_supplementary_info 1314可包括确定应用于视频的AI放大DNN信息所需的信息。ai_codec_supplementary_info 1314可包括关于体裁、HDR最大亮度、HDR色域、HDR PQ、编解码器和速率控制类型的信息。
另外,当AI数据被包括在片段的元数据中时,AI数据还可包括指示依赖性信息的dependent_ai_condition_info。
dependent_ai_condition_info指示当前片段是否继承前一个片段的AI数据。
例如,当dependent_ai_condition_info指示当前片段继承前一个片段的AI数据时,当前片段的元数据不包括与上述ai_codec_info 1300至ai_codec_supplementary_info 1314相应的AI数据。相反,当前片段的AI数据被确定为与前一个片段的AI数据相同。
此外,当dependent_ai_condition_info指示当前片段没有继承前一个片段的AI数据时,当前片段的元数据包括AI数据。因此,可获得与当前片段的媒体数据相关的AI数据。
另外,根据本公开实施例的接收器1110和第一解码器1120被描述为单独的设备,但可经由一个处理器来实现。在这种情况下,可经由单独的专用处理器来实现接收器1110和第一解码器1120,或者可经由软件(S/W)和通用处理器(诸如,应用处理器(AP)、中央处理器单元(CPU)或图形处理器(GPU))的组合来实现接收器1110和第一解码器1120。此外,可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现专用处理器。
此外,可经由一个或更多个处理器来实现接收器1110和第一解码器1120。在这种情况下,可经由专用处理器的组合来实现接收器1110和第一解码器1120,或者可经由S/W和多个通用处理器(例如,AP、CPU或GPU)的组合来实现接收器1110和第一解码器1120。
图15是用于描述根据本公开的实施例的AI数据通过被包括在图像数据中以比特流的形式被接收的情况的示图。
因为上面已经参照图13详细描述了图15的通信接口1111、输出接口1113、第一解码器1120和I/O接口1130的配置,所以将不再提供其相同的描述。
参照图15,根据本公开实施例的通信接口1111可接收图像数据和AI数据一起被编码的比特流。这里,AI数据可以以补充增强信息(SEI)消息的形式被包括在比特流中,其中,补充增强信息(SEI)消息是能够另外地增强用于第一编码和第一解码的编解码器的功能的信息。可以以帧为单位发送SEI消息。
当AI编码数据以图像数据和AI数据一起被编码的比特流的形式被接收时,不能将图像数据和AI数据彼此区分开。因此,通信接口1111以比特流的形式将AI编码数据发送到输出接口1113,并且输出接口1113以比特流的形式将AI编码数据发送到第一解码器1120。
第一解码器1120基于从输出接口1113接收的比特流中包括的图像数据来重建与第一图像相应的第二图像,并且将第二图像发送到I/O接口1130。
此外,第一解码器1120将包括AI数据的SEI消息的有效载荷从比特流分离,并且将有效载荷发送到I/O接口1130。
I/O接口1130可将从第一解码器1120接收的第二图像和SEI消息的有效载荷(例如,AI数据)发送到AI放大设备1200。在一些实施例中,AI放大设备1200生成第三图像。第三图像可由AI放大设备1200显示或提供给显示装置。
这里,如图16中所示出的,AI数据可以以高级语法的形式被包括在SEI消息中。
图16示出根据本发明的实施例的AI编解码器语法表。
参照图16,AI编解码器语法表可包括AI编解码器主语法表(ai_codec_usage_main)。AI编解码器主语法表包括与AI放大DNN信息相关的元素,其中,AI放大DNN信息用于对根据图像数据重建的第二图像的AI放大。AI编解码器主语法表可包括应用于对视频文件中的所有帧进行AI放大的AI数据。
根据图16的AI编解码器主语法表,对诸如以下的语法元素进行解析:ai_codec_info、ai_codec_applied_channel_info、target_bitrate、pic_width_org_luma、pic_height_org_luma、ai_codec_DNN_info和ai_codec_supplementary_info_flag。
ai_codec_info与图14的ai_codec_info 1300相应,并且指示对于第二图像是否允许AI放大。当ai_codec_info指示允许AI放大时(if(ai_codec_info)),对确定AI放大DNN信息所需的语法元素进行解析。
ai_codec_applied_channel_info是与图14的ai_codec_applied_channel_info1302相应的通道信息。target_bitrate是与图14的target_bitrate_info 1304相应的目标比特率信息。pic_width_org_luma和pic_height_org_luma是与图14的pic_width_org_luma 1308和pic_height_org_luma 1310分别相应的高分辨率图像宽度信息和高分辨率图像高度信息。ai_codec_DNN_info是与图14的ai_codec_DNN_info 1312相应的DNN信息。
ai_codec_supplementary_info_flag是指示图14的ai_codec_supplementary_info 1314是否被包括在语法表中的补充信息标志。当ai_codec_supplementary_info_flag指示不对用于AI放大的补充信息进行解析时,不获得附加补充信息。然而,当ai_codec_supplementary_info_flag指示对用于AI放大的补充信息进行解析时(if(ai_codec_supplementary_info_flag)),则获得附加补充信息。
获得的附加补充信息可包括ai_cdeco_DNNstruct_info、genre_info、hdr_max_luminance、hdr_color_gamut、hdr_pq_type和rate_control_type。ai_codec_DNNstruct_info是指示针对与预先存储在AI放大器中的DNN设置信息分开的适合于图像的新DNN设置信息的结构和参数的信息。例如,关于卷积层的数量、每一个卷积层的滤波器核的数量或每一个滤波器核的参数中的至少一个的信息。
genre_info指示图像数据的内容的体裁,hdr_max_luminance指示应用于高分辨率图像的高动态范围(HDR)最大亮度,hdr_color_gamut指示应用于高分辨率图像的HDR色域,hdr_pq_type指示应用于高分辨率图像的HDR感知量化器(PQ)信息,并且rate_control_type指示应用于作为第一编码的结果而获得的图像数据的速率控制类型。根据本发明的实施例,可从与补充信息相应的语法元素之中解析特定语法元素。
此外,根据本公开的实施例的AI编解码器语法表可包括AI编解码器帧语法表(ai_codec_usage_frame),其中,AI编解码器帧语法表包括应用于当前帧的AI数据。
图17是根据本公开的实施例的AI放大设备1200的配置的框图。
参照图17,AI放大设备1200可包括输入/输出(I/O)装置1210和AI放大器1230。
I/O接口1210可从解码设备1100接收第二图像和AI数据。这里,I/O接口1210可包括HDMI、DP等。
当根据本公开实施例的解码设备1100和AI放大设备1200经由HDMI线缆彼此连接时,I/O接口1210可通过HDMI接收第二图像和AI数据。
可选地,当根据本公开实施例的解码设备1100和AI放大设备1200经由DP线缆彼此连接时,I/O接口1210可通过DP接收第二图像和AI数据。然而,本公开的实施例不限于此,并且可经由各种输入和输出接口中的任何一个接收第二图像和AI数据。此外,I/O接口1210可经由另一方式的输入和输出接口接收第二图像和AI数据。
I/O接口1210可将第二图像和AI数据发送到AI放大器1230。当AI数据被发送时,根据本公开的实施例的AI放大器1230可基于包括在AI数据中的差信息或第一图像相关信息中的至少一个来确定第二图像的放大目标。例如,基于参照图14和图16描述的AI数据,可确定第二图像的放大目标。
放大目标可指示例如第二图像将被放大到什么程度。当放大目标被确定时,AI放大器1230可经由第二DNN对第二图像执行AI放大,以生成与放大目标相应的第三图像。因为已经参照图3至图6详细描述了经由第二DNN对第二图像执行AI放大的方法,所以将省略其详细描述。
根据本公开实施例的AI放大器1230可基于AI数据而不是预先存储在AI放大设备1200中的DNN设置信息来获得新的DNN设置信息,并且通过利用获得的新的DNN设置信息设置第二DNN来对第二图像执行AI放大。
另外,当I/O接口1210仅接收到第二图像而未接收到AI数据时,I/O接口1210可将第二图像发送到AI放大器1230。AI放大器1230可通过在不使用AI数据的情况下根据预设方法对第二图像执行AI放大来生成第四图像。这里,第四图像可具有比通过使用AI数据执行了AI放大的第三图像低的图像质量。
图18是示出根据本公开的实施例的解码设备1100和AI放大设备1200通过HDMI发送和接收数据的示例的示图。
解码设备1100的I/O接口1130和AI放大设备1200的I/O接口1210可经由HDMI线缆彼此连接。当解码设备1100的I/O接口1130和AI放大设备1200的I/O接口1210经由HDMI线缆彼此连接时,可执行提供TMDS数据通道和TMDS时钟通道的四个通道的配对。TMDS通道包括三个数据传输通道,并且可被用于传输视频数据、音频数据和附加数据。这里,分组结构被用于通过TMDS数据通道发送音频数据和附加数据
另外,解码设备1100的I/O接口1130和AI放大设备1200的I/O接口1210可提供显示数据通道(DDC)。DDC是由视频电子标准协会(VESA)定义的用于在计算机图形适配器与监视器(例如,计算机显示装置)之间传输数字信息的协议标准。DDC被用于一个源装置(例如,解码设备)与一个同步装置(例如,AI放大设备)之间的配置和状态信息交换。在一些实施方案中,I/O接口1210被包括在显示装置(诸如,TV、移动电话、平板计算机等)中。
参照图18,解码设备1100的I/O接口1130可包括HDMI发送器1610、VSIF构造器1620和扩展显示标识数据(EDID)获得器1630。此外,AI放大设备1200的I/O接口1210可包括HDMI接收器1640和EDID存储器1650。
根据本公开的实施例的AI放大设备1200的EDID存储器1650可包括EDID信息。EDID信息是包括关于AI放大设备1200的各种类型的信息的数据结构,并且可经由DDC被发送到解码设备1100。
根据本公开的实施例的EDID信息可包括关于AI放大设备1200的AI放大能力的信息。例如,EDID信息可包括关于AI放大设备1200是否能够执行AI放大的信息。这将参照图19详细描述。
图19是根据本公开的实施例的包括在EDID信息中的HDMI规范(HF)厂商特定数据块(VSDB)的示图。
EDID信息可包括包含补充信息的EDID扩展块。EDID扩展块可包括HF-VSDB 1710。HF-VSDB 1710是厂商特定数据可定义的数据块,并且可通过使用HF-VSDB 1710来定义HDMI特定数据。
根据实施例的HF-VSDB 1710可包括保留字段1720和保留字段1730。可通过使用HF-VSDB 1710的保留字段1720和保留字段1730中的至少一个来描述关于AI放大设备1200的AI放大能力的信息。例如,当AI放大设备能够通过使用1比特的保留字段来执行AI放大时,保留字段的比特值可被设置为1,以及当AI放大设备不能执行AI放大时,保留字段的比特值可被设置为0。可选地,当AI放大设备能够执行AI放大时,保留字段的比特值可被设置为0,以及当AI放大设备不能执行AI放大时,保留字段的比特值可被设置为1。
返回参照图18,解码设备1100的EDID获得器1630可通过DDC接收AI放大设备1200的EDID信息。根据本公开实施例的EDID信息可作为HF-VSDB被发送,并且EDID获得器1630可通过使用HF-VSDB的保留字段值来获得关于AI放大设备1200的AI放大能力的信息。
EDID获得器1630可基于关于AI放大设备1200的AI放大能力的信息来确定是否将AI数据发送到AI放大设备1200。例如,当AI放大设备1200能够执行AI放大时,EDID获得器1630可进行操作使得VSIF构造器1620以VSIF分组的形式构造AI数据。另一方面,当AI放大设备1200不能执行AI放大时,EDID获得器1630可进行操作使得VSIF构造器1620不以VSIF分组的形式构造AI数据。
VSIF构造器1620可以以VSIF分组的形式来构造从第一解码器1120或输出接口1113发送的AI数据。将参照图20描述VSIF分组。
图20是根据本公开的实施例的VSIF的报头结构和内容结构的示图。
参照图20,VSIF分组包括VSIF分组报头1810和VSIF分组内容1820。VSIF分组报头1810可包括3个字节,其中,第一字节HB0是指示分组类型的值,并且VSIF分组的值被表示为0x81,第二字节HB1指示版本信息,并且第三字节HB2的较低的6比特以字节为单位指示VSIF分组内容1820的长度。
根据本公开实施例的VSIF构造器1620可以以VSIF分组的形式构造AI数据。例如,VSIF构造器1620可生成VSIF分组,使得VSIF分组包括AI数据。VSIF构造器1620可生成VSIF分组内容1820,使得参照图14和16描述的AI数据在包括在VSIF分组内容1820中的第五分组字节PB5的保留字段值1830和第NV分组字节PB(Nv)的保留字段值1840中被描述。可选地,可生成VSIF分组内容1820,使得AI数据在第NV+k分组字节的保留字段值中被描述,其中,k是从1至n的整数。
VSIF构造器1620可根据AI数据的量来确定用于描述AI数据的分组字节。当AI数据的量小时,可通过仅使用第五分组字节PB5的保留字段值1830来描述AI数据。另一方面,当AI数据的量大时,可通过使用第五分组字节PB5的保留字段值1830和第NV分组字节PB(Nv)的保留字段值1840来描述AI数据。可选地,可通过使用第NV分组字节PB(Nv)的保留字段值1840和第NV+k分组字节的保留字段值来描述AI数据。然而,本公开的实施例不限于此,并且可经由各种方法中的任何一种以VSIF分组的形式构造AI数据。
图21是示出根据本公开的实施例的在VSIF分组中定义AI数据的示例的示图。
参照图21的附图标号1910,根据本公开实施例的VSIF构造器1620可通过仅使用第五分组字节PB5的保留字段值来描述AI数据。VSIF构造器1620可通过使用第五分组字节PB5的比特1来定义ai_codec_available_info。ai_codec_available_info指示对于当前帧是否允许AI放大。此外,可通过使用第五分组字节PB5的比特2至比特3中的至少一个来定义ai_codec_DNN_info。ai_codec_DNN_info是DNN信息,该DNN信息指示用于对当前帧执行AI放大的AI放大DNN。例如,用于放大DNN的DNN设置信息、放大DNN的标识符以及用于放大DNN的查找表的值的标识符可被包括。
此外,可通过使用第五分组字节PB5的比特4至比特5中的至少一个来定义ai_codec_org_width,并且可通过使用第五分组字节PB5的比特6至比特7中的至少一个来定义ai_codec_org_height。ai_codec_org_width在表示第三图像145的宽度的同时表示原始图像105的宽度。此外,ai_codec_org_height在表示第三图像145的高度的同时表示原始图像105的高度。ai_codec_org_height和ai_codec_org_width用于确定放大目标的尺寸。
参照图21的附图标号1920,根据本公开实施例的VSIF构造器1620可通过使用第NV分组字节PB(Nv)和第NV+k分组字节的保留字段值来描述AI数据。
可通过使用第NV分组字节PB(Nv)的比特0至比特3中的至少一个来定义ai_codec_available_info。
此外,可通过使用第NV分组字节PB(Nv)的比特4至比特7中的至少一个来定义ai_codec_DNN_info。
另外,可通过使用第Nv+1分组字节PB(Nv+1)的比特0至比特3中的至少一个来定义ai_codec_org_width,并且可通过使用第Nv+1分组字节PB(Nv+1)的比特4至比特7中的至少一个来定义ai_codec_org_height。
此外,可通过使用第NV+2分组字节PB(Nv+2)的比特0至比特3中的至少一个来定义bitrate_info。bitrate_info是指示重建的第二图像的质量程度的信息。
此外,可通过使用第NV+2分组字节PB(Nv+2)的比特4至比特7中的至少一个来定义ai_codec_applied_channel_info。ai_codec_applied_channel_info是指示需要AI放大的颜色通道的通道信息。根据帧的类型,可在YCbCr颜色通道、RGB颜色通道或YUV颜色通道中指示需要AI放大的颜色通道。
此外,可通过使用其余分组字节的比特(例如,包括在第NV+4分组字节PB(Nv+4)至第Nv+n分组字节PB(Nv+n)中的比特)中的至少一个来定义ai_codec_supplementary_info。ai_codec_supplementary_info指示用于AI放大的补充信息。补充信息可包括关于适合于当前图像的新DNN设置信息的结构和参数、类型、颜色范围、HDR最大照度、HDR色域、HDR PQ信息、编解码器信息和速率控制(RC)类型。
然而,图21中所示出的VSIF分组的结构仅是示例,因此不限于此。必要时可改变包括在图19的VSIF分组中的AI数据被定义的字段的位置或大小,并且参照图14和16描述的AI数据可进一步被包括在VSIF分组中。
返回参照图18,根据本公开的实施例的VSIF构造器1620可生成与多个帧中的每一个相应的VSIF分组。例如,当针对多个帧接收到AI数据一次时,VSIF构造器1620可通过使用一次接收到的AI数据来生成与多个帧中的每一个相应的VSIF分组。例如,可基于相同的AI数据来生成与多个帧相应的VSIF分组。
另一方面,当针对多个帧多次接收到AI数据时,VSIF构造器1620可通过使用新接收到的AI数据来生成新的VSIF分组。
VSIF构造器1620可将生成的VSIF分组发送到HDMI发送器1610,并且HDMI发送器1610可通过TMDS通道将VSIF分组发送到AI放大设备1200。
此外,HDMI发送器1610可通过TMDS通道将从第一解码器1120接收的第二图像发送到AI放大设备1200。
AI放大设备1200的HDMI接收器1640可通过TMDS通道接收以VSIF分组的形式构造的AI数据和第二图像。
根据本公开实施例的AI放大设备1200的HDMI接收器1640可通过在检查HDMI分组的报头信息之后搜索VSIF分组来确定AI数据是否被包括在VSIF分组中。
例如,HDMI接收器1640可通过确定接收到的HDMI分组的报头信息之中的指示分组类型的第一字节HB0是否是0x81,来确定接收到的HDMI分组是否是VSIF分组。此外,当确定HDMI分组是VSIF分组时,HDMI接收器1640可确定AI数据是否被包括在VSIF分组内容中。例如,当比特的值被设置时,HDMI接收器1640可通过使用包括在VSIF分组内容中的第Nv分组字节PB(Nv)至第Nv+n分组字节PB(Nv+n)中包括的比特的值来获得AI数据。例如,HDMI接收器1640可通过使用VSIF分组内容的第Nv分组字节PB(Nv)的比特0至比特3中的至少一个来获得ai_codec_available_info,并且通过使用第Nv分组字节PB(Nv)的比特4至比特7中的至少一个来获得ai_codec_DNN_info。
此外,HDMI接收器1640可通过使用第Nv+1分组字节PB(Nv+1)的比特0至比特3中的至少一个来获得ai_codec_org_width,并且通过使用第Nv+1分组字节PB(Nv+1)的比特4至比特7中的至少一个来获得ai_codec_org_height。
此外,HDMI接收器1640可通过使用第Nv+2分组字节PB(NV+2)的比特0至比特3中的至少一个来获得bitrate_info,并且通过使用第Nv+2分组字节PB(NV+2)的比特4至比特7中的至少一个来获得ai_codec_applied_channel_info。
此外,HDMI接收器1640可通过使用其余分组字节的至少一个比特(例如,第Nv+4分组字节PB(NV+4)至第Nv+n分组字节PB(Nv+n)中包括的比特)来获得ai_codec_supplementary_info。
HDMI接收器1640可将从VSIF分组内容获得的AI数据提供给AI放大器1230,并且还将第二图像提供给AI放大器1230。
在从HDMI接收器1640接收到第二图像和AI数据时,根据本公开的实施例的AI放大器1230可基于包括在AI数据中的差信息或第一图像相关信息中的至少一个来确定第二图像的放大目标。放大目标可指示例如第二图像将被放大到什么程度。当放大目标被确定时,AI放大器1230可经由第二DNN对第二图像执行AI放大,以生成与放大目标相应的第三图像。因为已经参照图3至图6详细描述了经由第二DNN对第二图像执行AI放大的方法,所以将省略其详细描述。
另外,在图18至图21中,解码设备1100和AI放大设备1200经由HDMI线缆彼此连接,但实施例不限于此,并且根据本公开的实施例,解码设备1100和AI放大设备1200可经由DP线缆连接。当解码设备1100和AI放大设备1200经由DP线缆彼此连接时,解码设备1100可经由DP以与HDMI类似的方式将第二图像和AI数据发送到AI放大设备1200。
此外,根据本公开实施例的解码设备1100可经由除了HDMI或DP之外的输入和输出接口将第二图像和AI数据发送到AI放大设备1200。
此外,根据本公开实施例的解码设备1100可经由不同的接口将第二图像和AI数据发送到AI放大设备1200。例如,可经由HDMI发送第二图像,并且可经由DP发送AI数据。可选地,可经由DP发送第二图像,并且可经由HDMI发送AI数据。
图22是根据本公开的实施例的解码设备1100的操作方法的流程图。
参照图22,在操作S2010,根据本公开实施例的解码设备1100可接收AI编码数据。
例如,解码设备1100经由网络接收作为AI编码的结果而生成的AI编码数据。AI编码数据是作为原始图像的AI缩小和第一编码的结果而生成的数据,并且可包括图像数据和AI数据。
这里,根据本公开实施例的AI数据可通过与图像数据一起被包括在视频文件中被接收。当AI数据被包括在视频文件中时,AI数据可被包括在视频文件的报头的元数据中。可选地,当执行AI编码的图像数据作为按照预设时间单位划分出的片段被接收时,AI数据可被包括在片段的元数据中。可选地,AI数据可通过被包括在比特流中而被编码和接收,或者可作为与图像数据分开的文件被接收。然而,本公开的实施例不限于此。
在操作S2020,解码设备1100可将AI编码数据划分为图像数据和AI数据。
当根据本公开实施例的AI数据以视频文件的报头的元数据或片段的元数据的形式被接收时,解码设备1100可对AI编码数据进行解析并将AI编码数据划分为图像数据和AI数据。例如,解码设备1100可读取通过网络接收的框类型数据,以确定数据是图像数据还是AI数据。
当根据本公开实施例的AI数据以比特流的形式被接收时,解码设备1100可接收图像数据和AI数据一起被编码的比特流。这里,AI数据可以以SEI消息的形式被插入。解码设备1100可将包括图像数据和AI数据的SEI消息的有效载荷与比特流区分开。
在操作S2030,根据本公开实施例的解码设备1100可基于图像数据对第二图像进行解码。
在操作S2040,根据本公开实施例的解码设备1100可通过输入和输出接口将第二图像和AI数据发送到外部设备。
根据本公开的实施例的外部设备包括AI放大设备1200。
例如,解码设备1100可经由HDMI或DP将第二图像和AI数据发送到外部设备。当经由HDMI发送AI数据时,解码设备1100可以以VSIF分组的形式发送AI数据。
此外,发送的AI数据包括使得第二图像被AI放大的信息。例如,AI数据可包括指示AI放大是否被应用于第二图像的信息、关于用于放大第二图像的DNN的信息等。
图23是根据本公开的实施例的由解码设备1100执行的经由HDMI发送第二图像和AI数据的方法的流程图。
参照图23,在操作S2110,根据本公开实施例的解码设备1100可经由HDMI线缆连接到AI放大设备1200。
在操作S2120,解码设备1100可经由DDC将EDID信息请求发送到AI放大设备1200。响应于解码设备1100的EDID信息请求,AI放大设备1200可经由DDC将存储在EDID存储器中的EDID信息发送到解码设备1100(S2130)。这里,EDID信息可包括HF-VSDB,并且HF-VSDB可包括关于AI放大设备1200的AI放大能力的信息。
解码设备1100可通过接收EDID信息(例如,HF-VSDB)来获得关于AI放大设备1200的AI放大能力的信息。
在操作S2150,解码设备1100可基于关于AI放大设备1200的AI放大能力的信息来确定是否将AI数据发送到AI放大设备1200。例如,当AI放大设备1200不能执行AI放大时,在操作S2160,解码设备1100可以不按照VSIF分组的形式构造AI数据,而是可经由TDMS通道仅将第二图像发送到AI放大设备1200。
当AI放大设备1200能够执行AI放大时,在操作S2170,解码设备1100可进行操作以按照VSIFD分组的形式构造AI数据。
解码设备1100可通过使用包括在VSIF分组中的保留字段的值来定义AI数据。因为已经参照图20和21详细描述了在VSIF分组中定义AI数据的方法,所以将不再提供其描述。
在操作S2180,解码设备1100可经由TMDS通道将第二图像和在VSIF分组中构造的AI数据发送到AI放大设备1200。
图24是根据本公开的实施例的AI放大设备1200的操作方法的流程图。
参照图24,在操作S2210,根据本公开的实施例的AI放大设备1200可经由输入和输出接口接收第二图像和AI数据。
例如,当经由HDMI线缆连接到解码设备1100时,AI放大设备1200可经由HDMI接收第二图像和AI数据。可选地,当经由DP线缆连接到解码设备1100时,AI放大设备1200可经由DP接收第二图像和AI数据。然而,本公开的实施例不限于此,并且可经由各种输入和输出接口中的任何一种接收第二图像和AI数据。此外,AI放大设备1200可经由另一方式的输入和输出接口接收第二图像和AI数据。
AI放大设备1200可基于是否通过输入和输出接口接收到AI数据来确定是否对第二图像执行AI放大。当未接收到AI数据时,可以在不对第二图像执行AI放大的情况下输出第二图像。
根据本公开实施例的AI放大设备1200可从解码设备1100接收HDMI分组,并且通过识别HDMI分组的报头信息来搜索VSIF分组。当VSIF分组被找到时,AI放大设备1200可确定AI数据是否被包括在VSIF分组中。
AI数据可包括指示AI放大是否被应用于第二图像的信息、关于用于放大第二图像的DNN的信息等。
AI放大设备1200可基于指示AI放大是否被应用于第二图像的信息来确定是否对第二图像执行AI放大。
此外,在操作S2220,AI放大设备1200可基于AI数据获得关于用于对第二图像执行放大的DNN的信息,并且在操作S2230,通过使用根据获得的信息确定的DNN对第二图像执行AI放大来生成第三图像。
图25是本公开实施例提供的解码设备2300的配置的框图。
图25的解码设备2300是图12的解码设备1100的示例。
参照图25,根据本公开实施例的解码设备2300可包括通信接口2310、处理器2320、存储器2330和输入/输出(I/O)装置2340。
图25的通信接口2310可与图13和图15的通信接口1111相应,并且图25的I/O接口2340可与图13和图15的I/O接口1130相应。因此,将不再提供与参照图13和图15所述的描述相同的关于图25的描述。
根据本公开实施例的通信接口2310可在处理器2320的控制下向外部设备(例如,服务器)发送数据或信号以及从外部设备(例如,服务器)接收数据或信号。处理器2320可向经由通信接口2310连接的外部设备发送内容和从经由通信接口2310连接的外部设备接收内容。根据解码设备2300的性能和结构,通信接口2310可包括无线局域网(LAN)2311(例如,Wi-Fi)、蓝牙2312和有线以太网2313中的一个。可选地,通信接口2310可包括无线LAN2311、蓝牙2312和有线以太网2313的组合。
根据本公开的实施例的通信接口2310可接收作为AI编码的结果而生成的AI编码数据。AI编码数据是作为原始图像的AI缩小和第一编码的结果而生成的数据,并且可包括图像数据和AI数据。
根据本公开实施例的处理器2320可整体控制解码设备2300。根据本公开实施例的处理器2320可执行存储在存储器2330中的一个或更多个程序。
根据本公开实施例的存储器2330可存储用于驱动和控制解码设备2300的各种类型的数据、程序或应用。此外,存储器2330可存储根据本公开的实施例接收的AI编码数据或经由第一解码获得的第二图像。存储在存储器2330中的程序可包括一个或更多个指令。可由处理器2320执行存储在存储器2330中的程序(一个或更多个指令)或应用。
根据本公开实施例的处理器2320可包括CPU 2321、GPU 2323和视频处理单元(VPU)2322。可选地,根据本公开的实施例,CPU 2321可包括GPU2323或VPU 2322。可选地,可以以集成了GPU 2323或VPU 2322中的至少一个的片上系统(SoC)的形式来实现CPU 2321。可选地,可集成GPU 2323和VPU 2322。
处理器2320可执行控制解码设备2300的整体操作和解码设备2300的内部组件之间的信号流以及处理数据的功能。处理器2320可控制通信接口2310和I/O接口2340。GPU2323可执行图形处理,并且可生成包括各种对象(诸如,图标、图像和文本)的屏幕。VPU2322可对由解码设备2300接收的图像数据或视频数据执行处理,并且对图像数据或视频数据执行各种图像处理,诸如,解码(例如,第一解码)、缩放、噪声滤波、帧率转换、分辨率转换等。
根据本公开实施例的处理器2320可执行参照图13描述的解析器1112、输出接口1113和第一解码器1120的操作以及参照图15描述的解析器1112、输出接口1113和第一解码器1120的操作中的至少一个,或者可控制将被执行的操作中的至少一个。可选地,处理器2320可执行参照图18描述的VSIF构造器1620和EDID获得器1630的操作中的至少一个,或者可控制将被执行的操作中的至少一个。
例如,处理器2320可将由通信接口2310接收的AI编码数据划分为图像数据和AI数据。当AI数据以视频文件的报头的元数据或片段的元数据的形式被接收时,处理器2320可对AI编码数据进行解析并将AI编码数据划分为图像数据和AI数据。例如,当根据本公开实施例的AI编码数据以MP4文件的形式被配置时,处理器2320可对以MP4文件的形式配置的框类型的接收数据进行解析,以确定该数据是图像数据还是AI数据。
此外,当AI数据以比特流的形式被接收时,AI数据可以以SEI消息的形式被包括在比特流中,并且处理器2320可将包括图像数据和AI数据的SEI消息的有效载荷与比特流区分开。
处理器2320可控制GPU 2323或VPU 2322基于图像数据来重建与第一图像相应的第二图像。
处理器2320可经由I/O接口2340将第二图像和AI数据发送到外部设备。I/O接口2340可在处理器2320的控制下向解码设备2300的外部发送视频、音频和补充信息或接收视频、音频和补充信息。I/O接口2340可包括HDMI端口2341、DP 2342和USB端口2343。对于本领域普通技术人员显而易见的是,将根据本公开的实施例以各种方式实现I/O接口2340的配置和操作。
例如,当解码设备2300和AI放大设备经由HDMI端口2341彼此连接时,I/O接口2340可经由DDC接收AI放大设备的EDID信息。此外,处理器2320可对经由DDC接收的AI放大设备的EDID信息进行解析。EDID信息可包括关于AI放大设备的AI放大能力的信息。
处理器2320可基于关于AI放大设备的AI放大能力的信息来确定是否以VSIF分组的形式构造AI数据。例如,当AI放大设备能够执行AI放大时,处理器2320可控制以VSIF分组的形式构造AI数据,并且当AI放大设备不能执行AI放大时,处理器2320可控制不执行以VSIF分组的形式构造AI数据的操作。
I/O接口2340可在p的控制下以VSIF分组的形式构造AI数据,并且经由TMDS通道将在VSIF分组中构造的AI数据和第二图像发送到AI放大设备。
根据本公开的实施例的AI数据包括使得第二图像被AI放大的信息。例如,AI数据可包括指示AI放大是否被应用于第二图像的信息、关于用于放大第二图像的DNN的信息等。
图26是根据本公开的实施例的AI放大设备2400的配置的框图。
图26的AI放大设备2400是图12的AI放大设备1200的示例。
参照图26,根据本公开的实施例的AI放大设备2400可包括输入/输出(I/O)装置2410、处理器2420、存储器2430和显示器2440。
图26的I/O接口2410可与图17的I/O接口1210相应。因此,将不再提供与参照图17所述的描述相同的关于图26的描述。
根据本公开的实施例的I/O接口2410可在处理器2420的控制下从AI放大设备2400的外部接收视频、音频和补充信息或发送视频、音频和补充信息。I/O接口2340可包括HDMI端口2411、DP 2412和USB端口2413。对于本领域普通技术人员显而易见的是,将根据本公开的实施例以各种方式实现I/O接口2410的配置和操作。
例如,当解码设备和AI放大设备2400经由HDMI端口2411彼此连接时,I/O接口2410可在经由DDC接收到EDID信息读取请求时将AI放大设备2400的EDID信息发送到解码设备。此外,I/O接口2410可经由TMDS通道接收第二图像和以VSIF分组的形式构造的AI数据。
可选地,I/O接口2410可经由DP接收第二图像和AI数据。然而,本公开的实施例不限于此,并且可经由各种输入和输出接口中的任何一种接收第二图像和AI数据。可选地,I/O接口2410可经由另一种方式的输入和输出接口接收第二图像和AI数据。
根据本公开的实施例的处理器2420可整体控制AI放大设备2400。根据本公开实施例的处理器2420可执行存储在存储器2430中的一个或更多个程序。
根据本公开的实施例的存储器2430可存储用于驱动和控制AI放大设备2400的各种类型的数据、程序或应用。例如,存储器2430可存储AI放大设备2400的EDID信息。EDID信息可包括关于AI放大设备2400的各种类型的信息,并且具体地,可包括关于AI放大设备2400的AI放大能力的信息。存储在存储器2430中的程序可包括一个或更多个指令。可由处理器2420执行存储在存储器2430中的程序(一个或更多个指令)或应用。
根据本公开实施例的处理器2420可包括CPU 2421、GPU 2423和VPU2422。可选地,根据本公开的实施例,CPU 2421可包括GPU 2423或VPU 2422。可选地,CPU 2421可以以集成GPU 2423或VPU 2422中的至少一个的SoC的形式实现。可选地,可集成GPU 2423和VPU2422。可选地,处理器2420还可包括神经处理单元(NPU)。
处理器2420可执行控制AI放大设备2400的整体操作以及AI放大设备2400的内部组件之间的信号流以及处理数据的功能。处理器2420可控制I/O接口2410和显示器2440。GPU 2423可执行图形处理,并且可生成包括各种对象(诸如,图标、图像和文本)的屏幕。VPU2422可对由AI放大设备2400接收的图像数据或视频数据执行处理,并且对图像数据或视频数据执行各种图像处理,诸如解码(例如,第一解码)、缩放、噪声滤波、帧率转换、分辨率转换等。根据本公开实施例的处理器2420可执行上面参照图17描述的AI放大器1230的至少一个操作,或者可控制执行至少一个操作。
例如,处理器2420可基于是否通过I/O接口2410接收到AI数据来对第二图像执行AI放大。
处理器2420可通过识别由I/O接口2410接收的HDMI分组的报头信息来搜索VSIF分组。当VSIF分组被找到时,处理器2420可确定AI数据是否被包括在VSIF分组中。AI数据可包括指示AI放大是否被应用于第二图像的信息、关于用于放大第二图像的DNN的信息等。
此外,处理器2420可基于指示是否对第二图像应用AI放大的信息来确定是否对第二图像执行AI放大。
处理器2420可基于AI数据获得关于用于放大第二图像的DNN的信息,并且通过使用根据获得的信息确定的DNN对第二图像执行AI放大来生成第三图像。处理器2420可控制NPU通过使用确定的DNN对第二图像执行AI放大。
当I/O接口2410未接收到AI数据时,处理器2420可通过在不使用AI数据的情况下根据预设方法对第二图像执行AI放大来生成第四图像。这里,第四图像可具有比通过使用AI数据执行了AI放大的第三图像低的图像质量。
显示器2440通过对由处理器2420处理的图像信号、数据信号、OSD信号或控制信号进行转换来生成驱动信号。显示器2440可被实现为等离子体显示面板(PDP)、液晶显示器(LCD)、有机发光二极管(OLED)、柔性显示器等,或者可被实现为三维(3D)显示器。此外,除了输出装置之外,显示器2440还可被配置为触摸屏以用作输入装置。显示器2440可显示第三图像或第四图像。
另外,在图25和图26中所示出的解码设备2300和AI放大设备2400的框图仅是示例。根据实际实现的解码设备2300和AI放大设备2400,可集成或省略框图的组件,或者可向框图的组件添加其他组件。换句话说,必要时可将两个或更多个组件集成到一个组件中,或者可将一个组件分成两个或更多个组件。此外,在每一个框中执行的功能用于描述本公开的实施例,并且特定操作或设备不限制本公开的范围。
根据本公开实施例的解码设备可经由输入和输出接口将AI数据和重建图像有效地发送到AI放大设备。
根据本公开实施例的AI放大设备可经由输入和输出接口从解码设备有效地接收AI数据和重建图像。
另外,上述本公开的实施例可被编写为可存储在介质中的计算机可执行程序或指令。
介质可连续地存储计算机可执行程序或指令,或者临时存储计算机可执行程序或指令以供执行或下载。此外,介质可以是组合了单件硬件或多件硬件的各种记录介质或存储介质中的任何一种,并且介质不限于直接连接到计算机系统的介质,而是可被分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光软盘)以及ROM、RAM和闪存。介质的其他示例包括由发布应用的应用商店或者由提供或发布其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。
另外,与上述DNN相关的模型可经由软件模块来实现。当经由软件模块(例如,包括指令的程序模块)来实现DNN模型时,DNN模型可被存储在计算机可读记录介质中。
此外,DNN模型可通过以硬件芯片的形式被集成而成为上述AI放大设备1200的一部分。例如,DNN模型可以以用于AI的专用硬件芯片的形式被制造,或者可被制造为现有通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分。
此外,DNN模型可以以可下载软件的形式被提供。计算机程序产品可包括通过制造商或电子市场电子发布的软件程序形式的产品(例如,可下载的应用)。对于电子发布,软件程序的至少一部分可被存储在存储介质上或者可被临时生成。在这种情况下,存储介质可以是制造商或电子市场的服务器,或者是中继服务器的存储介质。虽然已经参考附图描述了本公开的一个或更多个实施例,但本领域普通技术人员将理解的是,在不脱离由权利要求限定的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。
Claims (15)
1.一种电子装置,包括:
通信接口,被配置为接收人工智能(AI)编码数据,其中,所述AI编码数据是通过对原始图像进行AI缩小紧接着进行编码而生成的;
一个或更多个处理器,被配置为:
从接收的所述AI编码数据获得与将所述原始图像AI缩小至第一图像相关的AI数据,其中,所述AI数据包括与所述第一图像相关的信息;
从接收的所述AI编码数据获得与对所述第一图像的编码结果相应的图像数据;
通过对获得的图像数据进行解码来获得第二图像;以及
输入/输出(I/O)接口,
其中,所述一个或更多个处理器还被配置为控制所述I/O接口将所述第二图像和所述AI数据发送到外部设备。
2.根据权利要求1所述的电子装置,其中,所述I/O接口包括高清晰度多媒体接口(HDMI),并且
所述一个或更多个处理器还被配置为通过所述HDMI将所述第二图像和所述AI数据发送到所述外部设备。
3.根据权利要求2所述的电子装置,其中,所述一个或更多个处理器还被配置为以厂商特定信息帧(VSIF)分组的形式发送所述AI数据。
4.根据权利要求1所述的电子装置,其中,所述I/O接口包括显示端口(DP),
并且所述一个或更多个处理器还被配置为通过所述DP将所述第二图像和所述AI数据发送到所述外部设备。
5.根据权利要求1所述的电子装置,其中,所述AI数据包括指示所述第二图像已经经过AI缩小的第一信息。
6.根据权利要求5所述的电子装置,其中,所述AI数据包括与用于执行所述第二图像的AI放大的深度神经网络(DNN)相关的第二信息。
7.一种电子装置的操作方法,所述操作方法包括:
接收人工智能(AI)编码数据,所述AI编码数据是通过对原始图像进行AI缩小紧接着进行编码而生成的;
从接收的所述AI编码数据获得与将所述原始图像AI缩小至第一图像相关的AI数据,所述AI数据包括与所述第一图像相关的信息;
从接收的所述AI编码数据获得与对所述第一图像的编码结果相应的图像数据;
通过对获得的图像数据进行解码来获得第二图像;以及
通过输入/输出(I/O)接口将所述第二图像和所述AI数据发送到外部设备。
8.根据权利要求7所述的操作方法,其中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括:通过高清晰度多媒体接口(HDMI)将所述第二图像和所述AI数据发送到所述外部设备。
9.根据权利要求8所述的操作方法,其中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括:以厂商特定信息帧(VSIF)分组的形式发送所述AI数据。
10.根据权利要求7所述的操作方法,其中,将所述第二图像和所述AI数据发送到所述外部设备的步骤包括:通过显示端口(DP)将所述第二图像和所述AI数据发送到所述外部设备。
11.根据权利要求7所述的操作方法,其中,所述AI数据包括指示所述第二图像已经经过AI缩小的第一信息。
12.根据权利要求11所述的操作方法,其中,所述AI数据包括与用于执行所述第二图像的AI放大的深度神经网络(DNN)相关的第二信息。
13.根据权利要求1所述的电子装置,其中,所述AI数据指示将被应用AI放大的一个或更多个颜色通道。
14.根据权利要求1所述的电子装置,其中,所述AI数据指示高动态范围(HDR)最大亮度、HDR色域、HDR PQ、编解码器或速率控制类型中的至少一个。
15.根据权利要求1所述的电子装置,其中,所述AI数据指示所述原始图像的宽度分辨率和所述原始图像的高度分辨率。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20190101323 | 2019-08-19 | ||
KR10-2019-0101323 | 2019-08-19 | ||
KR1020190134113A KR102569447B1 (ko) | 2019-08-19 | 2019-10-25 | 복호화 장치 및 그 동작방법, 및 ai 업 스케일 장치 및 그 동작방법 |
KR10-2019-0134113 | 2019-10-25 | ||
PCT/KR2020/005162 WO2021033867A1 (en) | 2019-08-19 | 2020-04-17 | Decoding apparatus and operating method of the same, and artificial intelligence (ai) up-scaling apparatus and operating method of the same |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114175652A true CN114175652A (zh) | 2022-03-11 |
Family
ID=73019985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080054848.6A Pending CN114175652A (zh) | 2019-08-19 | 2020-04-17 | 解码设备及其操作方法以及人工智能(ai)放大设备及其操作方法 |
Country Status (4)
Country | Link |
---|---|
US (5) | US10839565B1 (zh) |
EP (1) | EP3949411A4 (zh) |
CN (1) | CN114175652A (zh) |
WO (1) | WO2021033867A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114866782A (zh) * | 2022-03-21 | 2022-08-05 | 上海工程技术大学 | 一种基于深度变维码率控制的视频图像处理方法 |
WO2024000532A1 (zh) * | 2022-06-30 | 2024-01-04 | 北京小米移动软件有限公司 | 一种ai模型的传输方法及其装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020080665A1 (en) | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image |
WO2020080765A1 (en) | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image |
US11265580B2 (en) * | 2019-03-22 | 2022-03-01 | Tencent America LLC | Supplemental enhancement information messages for neural network based video post processing |
EP3828809A1 (en) * | 2019-11-28 | 2021-06-02 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
KR102287942B1 (ko) * | 2020-02-24 | 2021-08-09 | 삼성전자주식회사 | 전처리를 이용한 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 |
EP4195154A4 (en) * | 2020-12-09 | 2024-01-17 | Samsung Electronics Co., Ltd. | ARTIFICIAL INTELLIGENCE CODING APPARATUS AND OPERATION METHOD THEREFOR, AND ARTIFICIAL INTELLIGENCE DECODING APPARATUS AND OPERATION METHOD THEREFOR |
CN113052751B (zh) * | 2021-04-27 | 2023-05-30 | 浙江水科文化集团有限公司 | 人工智能处理方法 |
CN114627296B (zh) * | 2022-03-21 | 2022-11-08 | 北京医准智能科技有限公司 | 图像分割模型的训练方法、装置、电子设备及存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7991238B2 (en) | 2004-04-30 | 2011-08-02 | Neiversan Networks Co. Llc | Adaptive compression of multi-level images |
US8223837B2 (en) | 2007-09-07 | 2012-07-17 | Microsoft Corporation | Learning-based image compression |
US20100088736A1 (en) * | 2008-10-07 | 2010-04-08 | Besen Peter D | Enhanced video processing functionality in auxiliary system |
JP5562408B2 (ja) * | 2009-04-20 | 2014-07-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 指揮された補間およびデータの後処理 |
KR20110011361A (ko) * | 2009-07-28 | 2011-02-08 | 삼성전자주식회사 | 샘플링을 이용한 영상 데이터 인코딩/디코딩 장치 및 인코딩/디코딩 방법 |
US20110032986A1 (en) * | 2009-08-07 | 2011-02-10 | Sling Media Pvt Ltd | Systems and methods for automatically controlling the resolution of streaming video content |
US20120320966A1 (en) | 2010-03-09 | 2012-12-20 | Telegent Systems Inc. c/o M & C Corporate Services Limited | Adaptive video decoding circuitry and techniques |
US9398065B2 (en) | 2011-12-17 | 2016-07-19 | Intel Corporation | Audio/video streaming in a topology of devices with native WiGig sink |
US9357197B2 (en) * | 2012-05-24 | 2016-05-31 | Dolby Laboratories Licensing Corporation | Multi-layer backwards-compatible video delivery for enhanced dynamic range and enhanced resolution formats |
JP6522643B2 (ja) * | 2014-03-13 | 2019-05-29 | エルジー エレクトロニクス インコーポレイティド | Hdmiを使用したデータ送受信機器及び方法 |
EP3259920A1 (en) * | 2015-02-19 | 2017-12-27 | Magic Pony Technology Limited | Visual processing using temporal and spatial interpolation |
US10003814B2 (en) * | 2015-05-06 | 2018-06-19 | Mediatek Inc. | Image processor, display image processing method and associated electronic device |
US9936208B1 (en) * | 2015-06-23 | 2018-04-03 | Amazon Technologies, Inc. | Adaptive power and quality control for video encoders on mobile devices |
US10715804B2 (en) | 2016-04-22 | 2020-07-14 | Sony Corporation | Encoding apparatus and encoding method as well as decoding apparatus and decoding method |
US11593632B2 (en) | 2016-12-15 | 2023-02-28 | WaveOne Inc. | Deep learning based on image encoding and decoding |
CN106778867B (zh) * | 2016-12-15 | 2020-07-07 | 北京旷视科技有限公司 | 目标检测方法和装置、神经网络训练方法和装置 |
CN107005714B (zh) * | 2016-12-30 | 2019-05-14 | 深圳市大疆创新科技有限公司 | 图像处理方法与设备 |
KR102287043B1 (ko) | 2017-05-22 | 2021-08-06 | 삼성전자주식회사 | 카메라를 이용하여 획득한 이미지를 처리하는 전자 장치 및 그 동작 방법 |
US10637674B2 (en) | 2017-06-07 | 2020-04-28 | Tg-17, Inc. | System and method for real-time decoding and monitoring for encrypted instant messaging and other information exchange applications |
US20190045248A1 (en) * | 2018-05-31 | 2019-02-07 | Intel Corporation | Super resolution identifier mechanism |
CN108848381B (zh) * | 2018-06-20 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 视频编码方法、解码方法、装置、计算机设备及存储介质 |
JP7255116B2 (ja) * | 2018-09-25 | 2023-04-11 | 富士フイルムビジネスイノベーション株式会社 | 情報処理システム、端末装置およびプログラム |
US10547823B2 (en) | 2018-09-25 | 2020-01-28 | Intel Corporation | View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning |
US11463757B2 (en) * | 2018-09-27 | 2022-10-04 | Intel Corporation | Media streaming for receiver-enabled resolution |
US20200162789A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling |
-
2020
- 2020-03-26 US US16/831,238 patent/US10839565B1/en active Active
- 2020-04-08 US US16/843,515 patent/US10825141B1/en active Active
- 2020-04-17 EP EP20853841.3A patent/EP3949411A4/en active Pending
- 2020-04-17 CN CN202080054848.6A patent/CN114175652A/zh active Pending
- 2020-04-17 WO PCT/KR2020/005162 patent/WO2021033867A1/en unknown
- 2020-11-02 US US17/087,186 patent/US11393071B2/en active Active
- 2020-11-16 US US17/098,907 patent/US11107190B2/en active Active
-
2021
- 2021-05-26 US US17/331,162 patent/US11756159B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114866782A (zh) * | 2022-03-21 | 2022-08-05 | 上海工程技术大学 | 一种基于深度变维码率控制的视频图像处理方法 |
CN114866782B (zh) * | 2022-03-21 | 2024-05-31 | 上海工程技术大学 | 一种基于深度变维码率控制的视频图像处理方法 |
WO2024000532A1 (zh) * | 2022-06-30 | 2024-01-04 | 北京小米移动软件有限公司 | 一种ai模型的传输方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
US11756159B2 (en) | 2023-09-12 |
US20210295468A1 (en) | 2021-09-23 |
US20210073947A1 (en) | 2021-03-11 |
WO2021033867A1 (en) | 2021-02-25 |
EP3949411A1 (en) | 2022-02-09 |
US11107190B2 (en) | 2021-08-31 |
US11393071B2 (en) | 2022-07-19 |
US20210073946A1 (en) | 2021-03-11 |
US10825141B1 (en) | 2020-11-03 |
EP3949411A4 (en) | 2022-05-25 |
US10839565B1 (en) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114175652A (zh) | 解码设备及其操作方法以及人工智能(ai)放大设备及其操作方法 | |
KR102525578B1 (ko) | 부호화 방법 및 그 장치, 복호화 방법 및 그 장치 | |
US11663747B2 (en) | Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image | |
JP7445601B2 (ja) | 奥行きの符号化及び復号化方法及び装置 | |
JP6158247B2 (ja) | カスタマイズされたビデオコンテンツバージョンを含むビデオデータの符号化、配信及び表示 | |
CN112889282B (zh) | 用于对图像执行人工智能编码和人工智能解码的方法和设备 | |
CN109922344B (zh) | 用于对高动态范围图像进行编码、解码和表示的技术 | |
US9516291B2 (en) | Television systems incorporating separate A/V processing systems and television displays | |
US11445160B2 (en) | Image processing device and method for operating image processing device | |
US20240048738A1 (en) | Methods, apparatuses, computer programs and computer-readable media for processing configuration data | |
KR100746005B1 (ko) | 다중 목적의 비디오 스트림을 처리하는 장치 및 방법 | |
KR102589858B1 (ko) | 복호화 장치 및 그 동작방법, 및 ai 업 스케일 장치 및 그 동작방법 | |
US20220180568A1 (en) | Ai encoding apparatus and operation method of the same, and ai decoding apparatus and operation method of the same | |
US20230196505A1 (en) | Artificial intelligence-based image providing apparatus and method, and artificial intelligence-based display apparatus and method | |
US20230085530A1 (en) | Method and apparatus for artificial intelligence downscaling and upscaling during video conference | |
US20230052330A1 (en) | Image providing method and apparatus using artificial intelligence, and display method and apparatus using artificial intelligence | |
KR20220081648A (ko) | Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법 | |
KR20230025279A (ko) | Ai 기반의 영상 제공 장치 및 이에 의한 방법, 및 ai 기반의 디스플레이 장치 및 이에 의한 방법 | |
WO2024147806A1 (en) | Bitstream syntax for mesh displacement coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |