CN112149793A - 人工神经网络模型和包括人工神经网络模型的电子设备 - Google Patents
人工神经网络模型和包括人工神经网络模型的电子设备 Download PDFInfo
- Publication number
- CN112149793A CN112149793A CN202010428019.1A CN202010428019A CN112149793A CN 112149793 A CN112149793 A CN 112149793A CN 202010428019 A CN202010428019 A CN 202010428019A CN 112149793 A CN112149793 A CN 112149793A
- Authority
- CN
- China
- Prior art keywords
- feature map
- layer unit
- layer
- level
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 10
- 238000012886 linear function Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 24
- 230000015654 memory Effects 0.000 description 18
- 239000008186 active pharmaceutical agent Substances 0.000 description 16
- 238000011176 pooling Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 11
- 238000003384 imaging method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 241001428800 Cell fusing agent virus Species 0.000 description 1
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000036971 interstitial lung disease 2 Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4015—Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
描述了一种电子设备,该电子设备包括处理逻辑,所述处理逻辑被配置为接收输入图像数据并使用人工神经网络模型来生成具有与输入图像数据不同的格式的输出图像数据。人工神经网络模型包括多个编码层单元,所述多个编码层单元分别包括位于多个级别的多个层。人工神经网络模型还包括多个解码层单元,所述多个解码层单元包括多个层并且被配置为与处于相同级别的多个编码层形成跳跃连接。第一级别的第一编码层单元接收第一输入特征图并将基于第一输入特征图的第一输出特征图输出到随后的编码层单元和处于第一级别的解码层单元。
Description
相关申请的交叉引用
本申请要求于2019年6月27日向韩国知识产权局提交的韩国专利申请No.10-2019-0077255的权益,其公开内容通过引用整体并入本文。
技术领域
本发明构思涉及一种人工神经网络(ANN)模型,更具体地,涉及一种被配置为执行图像处理操作的ANN模型以及一种包括ANN模型的电子设备。
背景技术
图像传感器可以包含滤色器阵列(CFA)以从检测到的光中分离颜色信息。成像设备可以在称为去马赛克的处理中使用来自图像传感器的未完成的输出颜色采样来重构图像文件。Bayer图案马赛克是使用传感器的方形网格来组织颜色的CFA的示例。红绿蓝(RGB)图像是在已经发生滤波之后的图像传感器的最终输出图像。因此,RGB图像可以是图像处理之后的Bayer图案马赛克的产物。
包含CFA的图像传感器可能产生非常大的图像文件。因此,将来自具有CFA(例如,Bayer图案)的图像传感器的图像去马赛克到输出格式(例如,RGB图像)的处理可能在时间和处理能力上都是昂贵的。因此,在本领域中需要用于将CFA格式的高分辨率图像有效地转换为可用的输出图像的系统和方法。
发明内容
本发明构思提供了具有用于改变图像的格式的新结构的人工神经网络(ANN)模型、以及包括该ANN模型的电子设备。
根据发明构思的一个方面,提供了一种电子设备,所述电子设备包括处理逻辑,所述处理逻辑被配置为接收输入图像数据并使用人工神经网络模型来生成具有与所述输入图像数据不同的格式的输出图像数据。所述人工神经网络模型包括:多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;以及多个解码层单元,每个解码层单元包括多个层并且被配置为与处于与所述解码层单元相同级别的编码层单元形成跳跃连接。第一级别的第一编码层单元接收第一输入特征图并将基于所述第一输入特征图的第一输出特征图输出到随后的编码层单元和处于所述第一级别的解码层单元。所述随后的编码层单元可以处于所述第一级别之后的下一级别,并且通过所述跳跃连接来连接所述第一级别的第一编码层单元和所述处于所述第一级别的解码层单元。
根据本发明构思的另一方面,提供了一种电子设备,所述电子设备包括处理逻辑,所述处理逻辑被配置为使用人工神经网络模型来执行操作。所述人工神经网络模型包括:多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;以及多个解码层单元,每个解码层单元包括多个层并且位于所述多个级别中的一个级别。位于所述多个级别中的第一级别的第一编码层单元接收第一输入特征图,将第一输出特征图输出到位于所述第一级别的下一级别的编码层单元和位于所述第一级别的解码层单元,并且基于所述第一级别来调整所述第一输出特征图的深度。
根据本发明构思的另一方面,提供一种被配置为执行图像处理操作的电子设备。所述电子设备包括处理逻辑,所述处理逻辑被配置为从滤色器阵列接收四(tetra)图像数据,在所述滤色器阵列中,四个相同的滤色器被布置成两行和两列并形成一个像素单元。处理逻辑使用人工神经网络模型来生成具有与所述四图像数据不同的格式的输出图像数据。所述人工神经网络模型包括:多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;以及多个解码层单元,每个解码层单元包括多个层并且被配置为与位于与所述解码层单元相同的级别的编码层单元形成跳跃连接。第一级别的第一编码层单元接收第一输入特征图,并且将基于所述第一输入特征图的第一输出特征图输出到随后的编码层单元和处于所述第一级别的解码层单元,所述随后的编码层单元处于所述第一级别之后的下一级别,并且通过所述跳跃连接来连接所述第一级别的第一编码层单元和所述处于所述第一级别的解码层单元。
附图说明
通过以下结合附图的详细描述,将更清楚地理解本发明构思的实施例,在附图中:
图1是根据示例实施例的电子设备的框图;
图2是神经网络结构的示例的图;
图3是用于说明根据示例实施例的图像数据的图;
图4是根据比较示例的图像处理设备的框图;
图5是用于说明根据示例实施例的神经处理单元(NPU)的框图;
图6是用于说明根据示例实施例的人工神经网络(ANN)模型的图;
图7A和图7B是用于说明根据示例实施例的编码层单元和解码层单元的框图;
图8是根据示例实施例的特征图块的框图;
图9是用于说明根据示例实施例的ANN模型的图;
图10示出了根据示例实施例的特征图的深度值的表;
图11是用于说明根据示例实施例的下采样操作的图;
图12是根据示例实施例的应用处理器(AP)的框图;以及
图13是根据示例实施例的成像设备的框图。
具体实施方式
本公开提供了用于改变图像的格式的人工神经网络(ANN)模型,以及包括该ANN模型的电子设备。ANN是指根据生物大脑进行建模的计算架构。也就是说,ANN可以是包括多个连接的节点(也称为人工神经元)的硬件或软件组件,所述节点可以宽松地与人脑中的神经元相对应。每个连接或边缘可以将信号从一个节点发送到另一个节点(像大脑中的物理突触那样)。当节点接收信号时,它可以处理该信号,并且然后将处理后的信号发送到其他连接的节点。在某些情况下,节点之间的信号包括实数,并且每个节点的输出可以通过其输入的和的函数来计算。每个节点和边缘可以与确定信号如何被处理和发送的一个或多个节点权重相关联。
在训练处理中,可以调整这些权重以提高结果的准确性(即,通过使以某种方式与在当前结果和目标结果之间的差相对应的损失函数最小化)。边缘的权重可以增加或减小在节点之间发送的信号的强度。在某些情况下,节点可以具有阈值,低于该阈值信号根本不被发送。节点还可以聚合为层。不同的层可以对它们的输入执行不同的变换。初始层可以称为输入层,最后一层可以称为输出层。在某些情况下,信号可以多次穿越特定层。
可以基于ANN来实现深度学习或机器学习模型。随着要使用ANN处理的操作的数量的增加,与常规的备选方案相比,使用ANN执行操作变得更加高效。
根据本公开的实施例,ANN模型可以被配置为将高分辨率图像文件转换成另一文件格式,例如,RGB图像。ANN模型的输入图像可以是来自具有滤色器阵列(CFA)的图像传感器的高分辨率文件。ANN模型的输出可以是可用的RGB图像。本公开的实施例在图像编码和解码中使用一个或多个卷积层以在各个层或步骤处输出特征图。可以经由跳跃连接将相同级别的特征图从编码器发送到解码器。
在下文中,将参考附图详细描述本发明构思的实施例。
图1是根据示例实施例的电子设备10的框图。
根据本实施例的电子设备10可以基于人工神经网络(ANN)模型100实时地分析输入数据,提取有效信息,并且基于所提取的信息来生成输出数据。例如,电子设备10可以应用于智能电话、移动设备、图像显示设备、图像捕获设备、图像处理设备、测量设备、智能TV、机器人设备(例如,无人机和高级驾驶员辅助系统(ADAS))、医疗设备、以及物联网(IoT)设备。另外,电子设备10可以安装在各种种类的电子设备之一上。例如,电子设备10可以包括应用处理器(AP)。AP可以执行各种种类的操作,并且AP中包括的神经处理单元(NPU)13可以共享要由ANN模型100执行的操作。
参考图1,电子设备10可以包括中央处理单元(CPU)11、随机存取存储器(RAM)12、神经处理单元(NPU)13、存储装置14和传感器模块15。电子设备10还可以包括输入/输出(I/O)模块、安全模块和电力控制设备,并且还包括各种种类的操作设备。例如,电子设备10的一些或全部组件(即,CPU 11、RAM 12、NPU 13、存储装置14和传感器模块15)可以安装在一个半导体芯片上。例如,电子设备10可以包括片上系统(SoC)。电子设备10的组件可以通过总线16彼此通信。
CPU 11可以控制电子设备10的总体操作。CPU 11可以包括一个处理器核(或单个核)或多个处理器核(或多核)。CPU 11可以处理或执行存储装置14中存储的程序和/或数据。例如,CPU 11可以执行存储装置14中存储的程序并控制NPU 13的功能。
RAM 12可以临时存储程序、数据或指令。例如,可以根据CPU 11的控制代码或前导代码将存储装置14中存储的程序和/或数据临时存储在RAM 12中。RAM 12可以包括存储器,例如,动态RAM(DRAM)或静态RAM(SRAM)。
NPU 13可以接收输入数据,基于ANN模型100执行操作,并且基于操作结果提供输出数据。NPU 13可以基于以下各种种类的网络来执行操作:例如,卷积神经网络(CNN)、区域卷积神经网络(R-CNN)、区域提议网络(RPN)、递归神经网络(RNN)、基于堆叠的深度神经网络(S-DNN)、状态空间动态神经网络(S-SDNN)、反卷积网络、深度置信网络(DBN)、受限Boltzmann机(RBM)、完全卷积网络、长短期记忆(LSTM)网络和分类网络。然而,本发明构思不限于此,并且NPU 13可以执行模拟人类神经网络的各种操作。
图2是神经网络结构的示例的图。
参考图2,ANN模型100可以包括多个层L1至Ln。多个层L1至Ln中的每一个可以是线性层或非线性层。在一些实施例中,至少一个线性层和至少一个非线性层的组合可以被称为一个层。例如,线性层可以包括卷积层和/或完全连接层,并且非线性层可以包括采样层、池化层和/或激活层。
作为示例,第一层L1可以包括卷积层,第二层L2可以包括采样层。ANN模型100可以包括激活层,并且还可以包括被配置为执行不同种类的操作的层。
多个层中的每个层可以接收输入图像数据或在在前层中生成的特征图作为输入特征图,对输入特征图执行操作,并且生成输出特征图。在这种情况下,特征图可以指表示输入数据的各种特征的数据。第一特征图FM1、第二特征图FM2和第三特征图FM3可以具有例如二维(2D)矩阵形式或三维(3D)矩阵形式。第一特征图FM1、第二特征图FM2和第三特征图FM3可以具有可以分别与坐标上的x轴、y轴和z轴相对应的宽度W(或称为列)、高度H(或称为行)和深度D。在这种情况下,深度D可以称为通道的数量。
第一层L1可以将第一特征图FM1与权重图WM进行卷积并生成第二特征图FM2。权重图WM可以对第一特征图FM1进行滤波,并且可以称为滤波器或核。在一些示例中,权重图WM的深度(即,通道的数量)可以等于第一特征图FM1的深度。权重图WM的通道可以分别与其所对应的第一特征图FM1的通道进行卷积。可以通过遍历第一特征图FM1来移位权重图WM作为滑动窗口。移位的量可以被称为“步幅长度”或“步幅”。在每次移位期间,可以将权重图WM中包括的每个权重乘以区域中的特征值,并且相加到所述区域中的特征值中。区域可以是权重图WM中包括的权重值中的每一个与第一特征图FM1重叠的区域。通过将第一特征图FM1与权重图WM进行卷积,可以生成第二特征图FM2的一个通道。尽管在图2中指示了一个权重图WM,但是多个权重图可以充分地与第一特征图FM1进行卷积以生成第二特征图FM2的多个通道。换句话说,第二特征图FM2的通道的数量可以与权重图的数量相对应。
第二层L2可以改变第二特征图FM2的空间尺寸并生成第三特征图FM3。作为示例,第二层L2可以是采样层。第二层L2可以执行上采样操作或下采样操作。第二层L2可以选择第二特征图FM2中包括的数据的一部分。例如,可以以窗口WD的尺寸(例如,4×4矩阵)为单位在第二特征图FM2上移位2D窗口WD。可以选择在与窗口WD重叠的区域中的特定位置(例如,第一行和第一列)的值。第二层L2可以输出所选择的数据作为第三特征图FM3的数据。在另一示例中,第二层L2可以是池化层。在这种情况下,第二层L2可以选择第二特征图FM2与窗口WD重叠的区域中的特征值的最大值(或平均值)。第二层L2可以输出所选择的数据作为第三特征图FM3的数据。
因此,可以从第二特征图FM2生成具有改变的空间尺寸的第三特征图FM3。第三特征图FM3的通道的数量可以等于第二特征图FM2的通道的数量。同时,根据示例实施例,采样层可以具有比池化层更高的操作速度并且提高输出图像的质量(例如,峰值信噪比(PSNR))。例如,因为由于池化层引起的操作涉及计算最大值或平均值,因此由于池化层引起的操作可能比由于采样层引起的操作花费更长的操作时间。
根据一些实施例,第二层L2不限于采样层或池化层。例如,第二层L2可以是与第一层L1类似的卷积。第二层L2可以将第二特征图FM2与权重图进行卷积并生成第三特征图FM3。在这种情况下,与被第一层L1执行卷积运算的权重图WM相比,被第二层L2执行卷积运算的权重图可以是不同的。
第N层可以通过包括第一层L1和第二层L2在内的多个层来生成第N特征图。可以将第N特征图输入到位于ANN模型100的后端的重构层,输出数据从该重构层进行输出。重构层可以基于第N特征图来生成输出图像。此外,重构层可以接收第N特征图和多个特征图,例如,第一特征图FM1和第二特征图FM2,并且基于多个特征图来生成输出图像。
例如,重构层可以是卷积层或反卷积层。在一些实施例中,重构层可以包括能够基于特征图来重构图像的不同种类的层。
作为用于存储数据的存储场所的存储装置14可以存储例如操作系统(OS)、各种程序和各种数据段。存储装置14可以是DRAM,但不限于此。存储装置14可以包括易失性存储器和非易失性存储器中的至少之一。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除和可编程ROM(EEPROM)、闪存、相变随机存取存储器(PRAM)、磁性RAM(MRAM)、电阻RAM(RRAM)、和/或铁电RAM(FRAM)。易失性存储器可以包括DRAM、SRAM、同步DRAM(SDRAM)、PRAM、MRAM、RRAM和/或FRAM。在实施例中,存储装置可以包括硬盘驱动器(HDD)、固态驱动器(SSD)、紧凑型闪存(CF)存储器、安全数字(SD)存储器、微型SD存储器、迷你SD存储器、极端数字(xD)存储器、以及记忆棒中的至少一个。
传感器模块15可以收集关于由电子设备10感测的对象的信息。例如,传感器模块15可以是图像传感器模块。传感器模块15可以感测或接收来自电子设备10的外部的图像信号,并将该图像信号转换成图像数据(即,图像帧)。结果,传感器模块15可以包括以下各种种类的感测设备中的至少一种:例如,图像捕获设备、图像传感器、光检测和测距(LIDAR)传感器、超声(UV)传感器、以及红外(IR)传感器。
图3是用于说明根据示例实施例的图像数据的图。在下文中,将参考图1和图2的附图标记来描述图3。
参考图3,输入数据IDTA可以是由电子设备10接收的图像数据。例如,输入数据IDTA可以是由NPU 13接收以生成输出图像的输入数据IDTA。
输入数据IDTA可以是四单元图像。四单元图像可以是由具有滤色器阵列的图像传感器获得的与图3所示的输入数据IDTA的图像类似的图像。例如,滤色器阵列可以是其中四个相同的滤色器布置成两行和两列的滤色器阵列。该布置可以形成像素单元。
输入数据IDTA可以包括多个像素PX。像素PX可以是表示一种颜色的图像单元,并且包括例如红色像素PX_R、绿色像素PX_G和蓝色像素PX_B。像素PX可以包括至少一个子像素SPX。子像素SPX可以是由图像传感器获得的数据单元。例如,子像素SPX可以是由一个像素电路获得的数据,该像素电路被包括在图像传感器中并且包括一个滤色器。子像素SPX可以表达一种颜色,例如,红色、绿色和蓝色中的一种。
输入数据IDTA可以包括多个像素组PG。像素组PX_G可以包括多个像素PX。例如,像素组PG可以包括形成输入数据IDTA的多种颜色(例如,红色、绿色和蓝色)。例如,像素组PG可以包括红色像素PX_R、绿色像素PX_G和蓝色像素PX_B。另外,颜色不限于如上所述的红色、绿色和蓝色,并且可以实现为各种其他颜色,例如,品红色、青色、黄色、白色等。
输入数据IDTA可以是具有各种格式的图像数据。例如,输入数据IDTA可以包括如上所述的四图像。在另一示例中,输入数据IDTA可以包括各种格式的图像,例如,Bayer图案图像、红-绿-蓝-翠绿(RGBE)图案图像、青-黄-黄-品红(CYYM)图案图像、青-黄-青-品红(CYCM)图案图像和红-绿-蓝-白(RGBW)图案图像。例如,本发明构思不受输入数据IDTA的格式的限制。
输出数据ODTA可以是具有与输入数据IDTA不同的格式的图像数据。例如,输出数据ODTA可以是红-绿-蓝(RGB)图像。RGB图像可以是指示红色、绿色和蓝色被表达的程度的数据。RGB图像可以是基于红色、绿色和蓝色的颜色空间。例如,RGB图像可以是与输入数据IDTA不同的不对图案进行区分的图像。换句话说,可以将指示红色值、绿色值和蓝色值的数据配给包括在RGB图像中的各个像素。输出数据ODTA可以具有与输入数据IDTA不同的格式。输出数据ODTA不限于此,并且可以是例如YUV数据。在此,Y可以是亮度值,U和V可以是色度值。输出数据ODTA的格式不限于RGB数据和YUV数据,并且可以被实现为各种类型的格式。在相关技术中,当输出数据ODTA具有与输入数据IDTA不同的格式时,如下所述可以使用大量的处理操作。
图4是根据比较示例的图像处理设备的框图。
根据比较示例,可以使用多个处理和转换操作来接收输入数据IDTA并生成输出数据ODTA。参考图4,预处理器21可以接收输入数据IDTA并执行诸如串扰校正操作和缺陷校正操作等的预处理操作。预处理器21可以基于输入数据IDTA来执行预处理操作,并输出校正后的输入数据IDTA_C。Bayer转换器22可以接收校正后的输入数据IDTA_C,并将图像的图案转换成Bayer图案。例如,Bayer转换器22可以执行重马赛克操作、降噪操作和锐化操作。RGB转换器23可以接收Bayer图像IDTA_B,将Bayer图像IDTA_b转换为RGB图像,并输出输出数据ODTA。
根据比较示例,由于转换输入数据IDTA的格式并生成输出数据ODTA的处理涉及大量操作,因此可能发生时间损失。此外,在某些情况下,比较示例的实施例可能不会实质上提高图像质量。
图5是用于说明根据示例实施例的神经处理单元(NPU)13的框图。
参考图5,NPU 13可以包括被配置为基于ANN模型100执行操作的处理逻辑200。处理逻辑200可以接收输入数据IDTA、基于输入数据IDTA而执行操作(例如,图像处理操作),并输出输出数据ODTA。例如,输入数据IDTA可以是四图像,输出数据ODTA可以是RGB图像。本发明构思不限于特定的输入数据或输出数据。处理逻辑200通常可以控制ANN模型100。例如,处理逻辑200可以控制ANN模型100中包括的各种参数、配置、功能、操作和连接。更具体地,处理逻辑200可以根据情况对ANN模型100进行各种修改。例如,处理逻辑200可以激活或去激活ANN模型100中包括的跳跃连接。
根据示例实施例,处理逻辑200可以基于ANN模型100执行图像处理操作。ANN模型100可以包括多个层单元。层单元可以包括多个层,可以提供所述多个层中的每个层以执行操作(例如,卷积运算)。然后该操作被分配给该层(例如,卷积层)。在下文中,包括在编码层单元LUa中的多个层将被称为多个编码层。包括在解码层单元LUb中的多个层将被称为多个解码层。
根据示例实施例,层单元可以包括编码层单元LUa和解码层单元LUb。编码层单元LUa和解码层单元LUb可以彼此对称地实现。例如,多个编码层单元LUa中的每一个可以具有与其对应的级别。另外,多个解码层单元LUb中的每一个也可以具有与其对应的级别。换句话说,多个编码层单元LUa可以具有多个级别,并且多个解码层单元LUb也可以具有多个级别。例如,多个编码层单元LUa的级别的数量可以等于多个解码层单元LUb的级别的数量。例如,处于相同级别的编码层单元LUa和解码层单元LUb可以包括相同类型的层。此外,处于相同级别的编码层单元LUa和解码层单元LUb可以建立跳跃连接。编码层单元LUa可以顺序地对图像数据进行编码。另外,解码层单元LUb可以顺序地对由编码层单元LUa编码的数据进行解码并且输出输出数据。
参考图5,解码层单元LUb可以接收由编码层单元LUa编码的数据。例如,编码后的数据可以是特征图。解码层单元LUb可以由于与编码层单元LUa建立的跳跃连接而接收编码后的数据。例如,跳跃连接是指将数据从编码层单元LUa直接传播到解码层单元LUb而不将数据传播到中间层单元的处理。中间层单元可以位于编码层单元Lua与解码层单元LUb之间。换句话说,编码层单元LUa可以将数据直接传播到与编码层单元LUa处于相同级别的解码层单元LUb。备选地,由于跳跃连接,编码层单元LUa和解码层单元LUb可以选择性地彼此连接。在这种情况下,编码层单元LUa和解码层单元LUb处于相同的级别。可以根据跳跃级别来激活或去激活跳跃连接。例如,跳跃连接可以是基于跳跃级别的选择性连接关系。
处理逻辑200可以加载ANN模型100,基于输入数据IDTA执行操作,并且基于操作结果来输出输出数据DOTA。处理逻辑200可以控制ANN模型100的各种参数。例如,处理逻辑200可以控制由编码层单元LUa或解码层单元LUb输出的特征图的宽度W、高度H和深度D中的至少一个。
图6是用于说明根据示例实施例的ANN模型100的图。
参考图6,ANN模型100可以包括输入层IL、输出层OL、编码层单元LUa和解码层单元LUb。由于输入层IL、编码层单元Lua、解码层单元LUb和输出层OL,ANN模型100可以接收输入数据IDTA并计算输入数据IDTA的特征值。例如,ANN模型100可以接收四图像并执行用于将四图像转换为RGB图像的操作。
根据示例实施例,输入层IL可以将特征图FMa0输出到第一编码层单元LUa1。例如,输入层IL可以包括卷积层。以与参考图2描述的类似方式,输入层IL可以对输入数据IDTA和权重图执行卷积运算。在这种情况下,权重图可以在遍历输入数据IDTA的同时以恒定步幅值执行卷积运算。
编码层单元LUa可以接收由在前的编码层单元输出的特征图,并且执行可以分配给每个编码层单元(例如,LUa1)的操作。例如,第一编码层单元LUa1可以接收特征图FMa0并执行由于第一编码层单元LUa1中包括的各个层引起的操作。例如,编码层单元LUa可以包括卷积层、采样层和激活层。卷积层可以执行卷积运算。采样层可以执行下采样操作、上采样操作、平均池化操作、或最大池化操作。激活层可以执行由于修正线性单元(ReLU)函数或S形(sigmoid)函数引起的操作。第一编码层单元LUa1可以基于操作结果来输出特征图FMa1。
由第一编码层单元LUa1输出的特征图FMa1可以具有比输入特征图FMa0更小的宽度、更小的高度和更大的深度。例如,第一编码层单元LUa1可以控制特征图FMa1的宽度、高度和深度。例如,第一编码层单元LUa1可以控制特征图FMa1的深度不增加。第一编码层单元LUa1可以具有用于设置特征图FMa1的深度的参数。同时,第一编码层单元LUa1可以包括下采样层DS。下采样层DS可以从输入特征图FMa0中包括的特征值中选择预定的特征值,并且输出所选择的预定特征值作为特征图FMa1的特征值。换句话说,下采样层DS可以控制特征图FMa1的宽度和高度。第二编码层单元LUa2和第三编码层单元LUa3也可以执行类似于第一编码层单元LUa1的操作。例如,第二编码层单元LUa2和第三编码层单元LUa3中的每一个可以从在前的编码层单元接收特征图,执行由于当前层单元中包括的多个层引起的操作,并且将包括操作结果的特征图输出到下一编码层单元。
编码层单元LUa可以将特征图输出到下一编码层单元Lua或位于与编码层单元LUa相同级别处的解码层单元LUb。每个编码层单元LUa可以固定地连接到下一编码层单元Lua并且通过一个或多个跳跃连接(例如,第一跳跃连接SK0至第四跳跃连接SK3)连接到处于相同级别的解码层单元LUb。例如,当来自输入层IL的一个层单元的序数等于来自输出层OL的另一层单元的序数时,两个层单元可以被称为处于相同级别。处于相同级别的层单元可以是例如第一编码层单元LUa1和第一解码层单元LUb1。
引入跳跃连接SK可以提高深度神经网络的训练。在没有跳跃连接的情况下,附加层的引入有时可以引起输出质量的下降(例如,由于消失的学习梯度问题)。因此,实现编码层单元与解码层单元之间的一个或多个跳跃连接SK可以通过使得能够更有效地训练更深层来提高ANN的总体性能。
根据示例实施例,处理逻辑200、NPU 13或电子设备10可以选择多个跳跃连接中的至少一些(例如,第一跳跃连接SK0至第四跳跃连接SK3)。例如,处理逻辑200可以接收关于跳跃级别的信息。当设置了ANN模型100的跳跃级别时,可以激活与预设的跳跃级别相对应的第一跳跃连接SK0至第四跳跃连接SK3中的一些。例如,当ANN模型100的跳跃级别等于2时,可以激活第一跳跃连接SK0和第二跳跃连接SK1。由于激活的跳跃连接,编码层单元LUa可以将特征图输出到解码层单元LUb。未激活的跳跃连接(例如,SK2和SK3)可以不传播特征图。
根据示例实施例,位于相同级别的层单元(例如,LUa1和LUb1)可以处理具有基本相同尺寸的特征图。例如,由第一编码层单元LUa1接收的特征图FMa0的尺寸可以基本上等于由第一解码层单元LUb1输出的特征图FMb0的尺寸。例如,特征图的尺寸可以包括宽度、高度和深度中的至少一个。另外,由第一编码层单元LUa1输出的特征图FMa1的尺寸可以基本上等于第一解码层单元LUb1的特征图FMb1的尺寸。
根据示例实施例,处于相同级别的编码层单元LUa和解码层单元LUb可以具有基本相同的采样尺寸。例如,第一编码层单元LUa1的下采样尺寸可以等于第一解码层单元LUb1的上采样尺寸。
解码层单元LUb可以从在前的解码层单元LUb接收特征图,或者从处于相同级别的编码层单元LUa接收特征图。解码层单元LUb可以使用接收到的特征图来处理操作。例如,解码层单元LUb可以包括卷积层、采样层和激活层。
由第一编码层单元LUa1输出的特征图FMa1可以具有比输入特征图FMa0更小的宽度、更小的高度和更大的深度。例如,第一编码层单元LUa1可以控制特征图FMa1的宽度、高度和深度。例如,第一编码层单元LUa1可以控制特征图FMa1的深度不增加。第一编码层单元LUa1可以具有用于设置特征图FMa1的深度的参数。
上采样层US可以调整输入特征图的尺寸。例如,上采样层US可以调整特征图的宽度和高度。上采样层US可以执行上采样操作。上采样操作可以使用输入特征图的各个特征值和与各个特征值相邻的特征值。作为示例,上采样层US可以是被配置为使用最邻近方法将相同特征值写入输出特征图的层。在另一示例中,上采样层US可以是转置卷积层并且使用预定的权重图对图像进行上采样。
输出层OL可以将由第一解码层单元LUb1输出的特征图FMb0重构为输出数据ODTA。输出层OL可以是被构造为将特征图转换为图像数据的重构层。例如,输出层OL可以是卷积层、反卷积层和转置卷积层之一。例如,转换后的图像数据可以是RGB数据。
图7A和图7B是用于说明根据示例实施例的编码层单元LUa和解码层单元LUb的框图。
参考图7A,编码层单元LUa可以包括特征图块FMB和下采样层DS,并且还可以包括卷积层CONV。特征图块FMB可以包括多个卷积层、多个激活层和求和器,这将参考图8在下文进行详细描述。
输入层IL可以与输出层OL形成跳跃连接。例如,由输入层IL输出的特征图FMa0可以被输出到第一编码层单元LUa1和输出层OL。在另一示例中,当跳跃级别等于0时,输入层IL可以不直接将特征图输出到输出层OL。在又一示例中,当跳跃级别等于1或更大时,输入层IL可以将特征图直接输出到输出层OL。
编码层单元LUa中包括的多个层可以与分别与其相对应的解码层单元LUb的多个层形成跳跃连接。例如,编码层单元LUa中包含的多个层中的至少一些层可以与解码层单元LUb中包含的多个层中的与编码层单元Lua处于相同级别处的至少一些层形成跳跃连接。
编码层单元LUa中包括的多个层可以与被配置为与其执行对称操作的包括在解码层单元LUb中的多个层形成跳跃连接。例如,卷积层CONV和特征图块FMB可以形成跳跃连接。卷积层CONV和特征图块FMB包括编码层单元LUa和解码层单元LUb中并且处于相同的级别。此外,处于相同级别的下采样层DS和上采样层US可以形成跳跃连接。参考图7A和图7B,处于相同级别的下采样层La13和上采样层Lb11可以形成跳跃连接。处于相同级别的特征图块La22和特征图块Lb22可以形成跳跃连接。为了简洁起见,提供了以上描述。处于相同级别的特征图块La12和特征图块Lb21可以形成跳跃连接。
当设置跳跃级别时,ANN模型100可以基于预设的跳跃级别来激活多个跳跃连接中的一些。例如,ANN模型100可以以基于预设的跳跃级别的级别将数据从编码层单元LUa直接传播到解码层单元LUb。在示例中,当跳跃级别等于0时,跳跃连接可以是未激活的。当跳跃连接是未激活的时,特征图可以不通过跳跃连接从编码层单元Lua进行传播。在另一示例中,当跳跃级别等于1时,可以激活第一跳跃连接SK0。当第一跳跃连接SK0被激活时,输入层IL可以将特征图FMa0传播到输出层OL。在又一示例中,当跳跃级别等于2时,第一编码层单元LUa1中包括的层和输入层IL中的至少一些可以将特征图传播到第一解码层单元LUb1中包括的层和输出层OL中的至少一些。
图8是根据示例实施例的特征图块FMB的框图。
参考图8,特征图块FMB可以包括多个层和求和器SM。多个层可以包括多个卷积层CL0、CL1和CLx以及多个激活层AL0、AL1和ALn。
根据示例实施例,特征图块FMB可以接收特征图FMc。基于特征图FMc,输入激活层AL0可以将特征图FMd输出到中间层组LG和求和器SM。另外,中间层组MID可以输出特征图FMf。求和器SM可以对从中间层组MID和输入激活层AL0接收的特征图FMd和FMf求和,并输出特征图FMg。
前导层组FR可以包括多个层(例如,CL0和AL0)。前导层组FR可以位于特征图块FMB的前端并且接收特征图FMc。特征图FMc由特征图块FMB接收。作为示例,前导层组FR可以包括一个卷积层CL0和一个激活层AL0。在另一示例中,前导层组FR可以包括至少一个卷积层和至少一个激活层。前导层组FR可以将特征图FMd输出到中间层组MID和求和器SM。
中间层组MID可以包括多个层CL1、AL1、……和CLx。在示例中,中间层组MID可以包括多个卷积层和多个激活层。可以交替地设置中间层组MID中包括的多个卷积层和多个激活层的位置。在这种情况下,由卷积层CL1输出的特征图FMe可以被激活层AL1接收。卷积层CL1可以设置在中间层组MID的最前端。备选地,卷积层CLx可以位于中间层组MID的最后端。换句话说,由卷积层CL1接收的特征图FMd可以与由中间层组MID接收到的特征图FMd相同。由卷积层CLx输出的特征图FMf可以与由中间层组MID输出的特征图FMf相同。
输出激活层ALn可以接收由求和器SM输出的特征图FMg。然后,输出激活层ALn可以激活特征图FMg的特性并输出特征图FMh。输出激活层ALn可以位于特征图块FMB的最后端。
图9是用于说明根据示例实施例的ANN模型100的图。
参考图9,ANN模型100可以包括根据每个级别LV具有不同的宽度W、高度H和深度D的特征图。例如,由输入层IL输出的特征图FMa0可以具有最低深度D。随着重复由编码层单元LUa执行的操作,深度D可以增加。另外,当深度D呈指数增加时,每单位时间要处理的操作量可能迅速增加,从而增加了操作时间。在此,操作量可以以例如每秒万亿次操作(TOPS)的单位来表示。
根据示例实施例,ANN模型100可以执行分配给每个层的操作并且控制特征图的深度D。例如,编码层单元LUa和解码层单元LUb可以输出具有与每个级别相对应的深度D的特征图。例如,输出特征图的深度D可以与根据级别的编码层单元LUa和解码层单元LUb的函数相对应。在示例中,处理逻辑200可以控制由ANN模型100输出的特征图的深度D。在另一示例中,深度D的函数可以被存储在每个层中。在又一示例中,深度D的函数可以被存储在ANN模型100的外部存储器中并且被应用于每个层。
根据示例实施例,深度D的函数可以表达为每一层的级别LV的函数。在示例中,深度D的函数相对于级别LV可以是线性的。在这种情况下,深度D的函数可以是以级别LV为参数的线性函数,并且深度D的函数FD可以表示为示出的等式:FD=a*LV+b。在另一示例中,深度D的函数可以是以级别LV为底数的指数函数。例如,深度D的函数FD可以表示为示出的等式:FD=a*(LV^2)+b。备选地,深度D的函数FD可以表示为示出的等式:FD=a*(LV^c)+b。在又一示例中,深度D的函数FD可以是级别LV的对数函数,并且可以任意选择对数函数的底数。例如,深度D的函数可以表示为示出的等式:FD=b*log(LV-2),其中,a、b和c是常数,并且LV表示每一层的级别。备选地,常数a可以满足不等式:a≥b/2。
根据示例实施例,深度D的函数FD可以是其中每个层的级别LV不是指数的函数。例如,深度D的函数FD可以不是b*(2^LV)。备选地,深度D的函数FD可以具有比以每一层的级别LV为指数的函数小的深度D。在这种情况下,深度D较小是由于由ANN模型100引起的操作时间的增加。
图10示出了根据示例实施例的特征图的深度值的表。图10示例性地示出了以上参考图9描述的函数FD。
根据示例实施例,函数FD1和函数FD2可以被包括在ANN模型100中,而函数FD3可以不被包括在ANN模型100中。即使级别LV增加,ANN模型100的函数FD1和函数FD2也可以相对地单调地增加特征图的深度。然而,由于函数FD3具有级别LV作为指数,所以特征图的深度可以急剧增加。因此,ANN模型100可以具有不以级别LV作为指数的函数以缩短操作时间。例如,作为不包含以级别LV作为指数的函数的结果,编码层单元LUa和解码层单元LUb可以调整输出特征图的深度。
图11是用于说明根据示例实施例的下采样操作的图。
参考图11,下采样层DS可以接收特征图31,并且控制特征图31的宽度W和高度H。例如,下采样层DS可以基于采样信息SIF来输出宽度W和高度H被控制的输出特征图32。
下采样层DS可以基于采样信息SIF来执行下采样操作。换句话说,下采样层DS可以选择特征图31中包括的一些特征值。所选择的特征值可以构成输出特征图32。例如,输出特征图32可以具有较小的尺寸(例如,宽度W或高度H)并且包括数量比特征图31少的特征值。同时,采样信息SIF可以由处理逻辑200接收。采样信息SIF可以是写入到下采样层DS的信息。
采样信息SIF可以包括采样尺寸信息、采样位置信息和采样窗口尺寸信息。下采样层DS可以基于采样尺寸信息来定义输出特征图32的尺寸。例如,当采样尺寸等于2时,输出特征图32的宽度W和高度H中的至少一个可以等于2。例如,当输出特征图32的宽度W等于2时,输出特征图32可以具有两列。当输出特征图32的高度H等于3时,输出特征图32可以具有三行。
下采样层DS可以基于采样位置信息在各个特征图区域FAl至FA4中的相同位置处选择特征值。例如,当采样位置信息指示第一行和第一列中的值时,下采样层DS可以计算出12、30、34和37。在这种情况下,计算出的值是在各个特征图区域FAl至FA4中的第一行和第一列中的值,并且生成输出特征图32。
下采样层DS可以基于采样窗口尺寸信息来定义各个特征图区域FA1至FA4的尺寸。例如,当采样窗口尺寸等于2时,一个特征图区域的宽度和高度中的至少一个可以等于2。
根据示例实施例,下采样层DS可以输出输出特征图32,其比池化层具有更高的操作速度和更高的图像质量。例如,池化层可以是最大池化层或平均池化层。例如,由下采样层DS执行的下采样操作所花费的操作时间可以短于池化层所花费的池化操作时间。
图12是根据示例实施例的AP 400的框图。
图12所示的系统可以是AP 400,该AP 400可以包括片上系统(SoC)作为半导体芯片。
AP 400可以包括处理器410和操作存储器420。尽管未在图12中示出,AP 400还可以包括:至少一个知识产权(IP)模块,连接到系统总线。操作存储器420可以存储与应用了AP 400的系统的操作有关的软件,例如,各种程序和指令。作为示例,操作存储器420可以包括操作系统421和ANN模块422。处理器410可以执行加载在操作存储器420中的ANN模块422。处理器410可以基于根据上述实施例的包括编码层单元LUa和解码层单元LUb在内的ANN模型100来执行操作。
图13是根据示例实施例的成像设备5000的框图。
参考图13,成像设备5000可以包括图像捕获单元5100、图像传感器500和处理器5200。例如,成像设备5000可以是能够执行图像处理操作的电子设备。成像设备5000可以捕获对象S的图像并获得输入图像。处理器5200可以将用于每个组件的操作的控制信号和/或信息提供给透镜驱动器5120和时序控制器520。
图像捕获单元5100可以是被配置为接收光的组件,并且包括透镜5110和透镜驱动器5120,并且透镜5110可以包括至少一个透镜。此外,图像捕获单元5100还可以包括虹膜和虹膜驱动器。
透镜驱动器5120可以向处理器5200发送关于焦点检测的信息并从处理器5200接收关于焦点检测的信息,并且可以响应于由处理器5200提供的控制信号调整透镜5110的位置。
图像传感器500可以将入射光转换成图像数据。图像传感器500可以包括像素阵列510、时序控制器520和图像信号处理器530。通过透镜5110发送的光信号可以到达像素阵列510的光接收表面并形成对象S的图像。
像素阵列510可以是被配置为将光信号转换为电信号的互补金属氧化物半导体(CMOS)图像传感器(CIS)。可以通过时序控制器520来调整像素阵列510的曝光时间和灵敏度。作为示例,像素阵列510可以包括用于获得以上参考图3所描述的四图像的滤色器阵列。
处理器5200可以接收来自图像信号处理器530的图像数据,并且对图像数据执行各种图像后处理操作。例如,处理器5200可以基于根据上述实施例的ANN模型100将输入图像(例如,四图像)转换为输出图像(例如,RGB图像)。同时,本发明构思不限于此,并且图像信号处理器530也可以基于ANN模型100执行操作。备选地,位于成像设备5000内部或外部的各种操作处理设备可以基于ANN模型100来转换输入图像的格式并生成输出图像。
根据本实施例,成像设备5000可以包括在各种电子设备中。例如,成像设备5000可以安装在电子设备上,例如,相机、智能电话、可穿戴设备、IoT设备、平板个人计算机(PC)、膝上型PC、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备和显示设备。此外,成像设备5000可以安装在作为车辆、家具、制造设备、门和各种测量设备中的部件而包括的电子设备上。
尽管已经参考本发明的实施例具体示出和描述了本发明构思,但是应当理解,在不脱离所附权利要求的精神和范围的情况下,可以在形式和细节上进行各种改变。
Claims (20)
1.一种电子设备,包括:
处理逻辑,被配置为接收输入图像数据并使用人工神经网络模型来生成具有与所述输入图像数据不同的格式的输出图像数据,
其中,所述人工神经网络模型包括:
多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;和
多个解码层单元,每个解码层单元包括多个其他层并且被配置为与处于与所述解码层单元相同级别的编码层单元形成跳跃连接,
其中,第一级别的第一编码层单元接收第一输入特征图并将基于所述第一输入特征图的第一输出特征图输出到随后的编码层单元和处于所述第一级别的解码层单元。
2.根据权利要求1所述的电子设备,其中,
所述处理逻辑接收跳跃级别信息,并基于由所述跳跃级别信息指示的跳跃级别来激活或去激活所述跳跃连接。
3.根据权利要求1所述的电子设备,其中,
通过所述跳跃连接而连接的所述编码层单元的层和所述解码层单元的层执行彼此对称的操作。
4.根据权利要求1所述的电子设备,其中,
所述第一编码层单元基于所述第一级别来调整所述第一输出特征图的深度。
5.根据权利要求4所述的电子设备,其中,
所述第一编码层单元基于具有所述第一级别作为参数的函数来调整输出特征图的深度,并且所述函数是具有所述第一级别作为参数的线性函数。
6.根据权利要求1所述的电子设备,其中,
处于相同级别的所述编码层单元和所述解码层单元的卷积层通过所述跳跃连接而连接,处于相同级别的所述编码层单元和所述解码层单元的特征图块通过所述跳跃连接而连接,或者处于相同级别的所述编码层单元的下采样层和所述解码层单元的上采样层通过所述跳跃连接而连接。
7.根据权利要求1所述的电子设备,其中,
处于每个级别的所述编码层单元和所述解码层单元包括特征图块,
其中,所述特征图块中的每一个包括:前导层组,被配置为输出第一特征图;中间层组,被配置为接收所述第一特征图并输出第二特征图;求和器,被配置为对所述第一特征图和所述第二特征图求和并输出第三特征图;以及输出激活层,被配置为基于所述第三特征图来输出第四特征图。
8.根据权利要求1所述的电子设备,其中,
所述编码层单元包括:下采样单元,被配置为接收第五特征图,选择所述第五特征图中包括的特征值中的一些、并且输出尺寸小于所述第五特征图的所述第一输出特征图。
9.根据权利要求1所述的电子设备,其中,
所述输入图像数据包括四图像,并且所述输出图像数据包括红-绿-蓝图像。
10.一种电子设备,包括:
处理逻辑,被配置为使用人工神经网络模型来执行操作,
其中,所述人工神经网络模型包括:
多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;和
多个解码层单元,每个解码层单元包括多个其他层并且位于所述多个级别中的一个级别,
其中,位于所述多个级别中的第一级别的第一编码层单元接收第一输入特征图,将第一输出特征图输出到位于所述第一级别的下一级别的编码层单元和所述第一级别的解码层单元,并且基于所述第一级别来调整所述第一输出特征图的深度。
11.根据权利要求10所述的电子设备,其中,
所述第一编码层单元基于具有所述第一级别作为参数的函数来调整输出特征图的深度,并且与具有所述第一级别作为指数的函数相比,所述具有所述第一级别作为参数的函数将所述输出特征图的深度调整为更小的值。
12.根据权利要求10所述的电子设备,其中,
处于相同级别的所述编码层单元的层和所述解码层单元的层选择性地彼此连接。
13.根据权利要求12所述的电子设备,其中,
所述处理逻辑接收跳跃级别信息,并且基于由所述跳跃级别信息指示的跳跃级别来激活或去激活处于相同级别的所述多个编码层单元和所述多个解码层单元的连接。
14.根据权利要求12所述的电子设备,其中,
处于相同级别的所述编码层单元的层和所述解码层单元的层执行彼此对称的操作。
15.根据权利要求12所述的电子设备,其中,
处于相同级别的所述编码层单元和所述解码层单元的卷积层选择性地彼此连接,处于相同级别的所述编码层单元和所述解码层单元的特征图块选择性地彼此连接,或者处于相同级别的所述编码层单元的下采样层和所述解码层单元的上采样层彼此连接。
16.根据权利要求10所述的电子设备,其中,
处于每一级别的所述编码层单元和所述解码层单元包括特征图块,
其中,所述特征图块中的每一个包括:前导层组,被配置为输出第一特征图;中间层组,被配置为接收所述第一特征图并输出第二特征图;求和器,被配置为对所述第一特征图和所述第二特征图求和并输出第三特征图;以及输出激活层,被配置为基于所述第三特征图来输出第四特征图。
17.根据权利要求16所述的电子设备,其中,
其中所述前导层组包括一个卷积层和一个激活层,并且
所述中间层组被配置为顺序地将多个卷积层和多个激活层连接。
18.根据权利要求10所述的电子设备,其中,
所述编码层单元包括:下采样单元,被配置为接收第五特征图,选择所述第五特征图中包括的特征值中的一些,以及输出尺寸小于所述第五特征图的所述第一输出特征图。
19.根据权利要求18所述的电子设备,其中,
所述处理逻辑接收采样位置信息,并且
所述下采样单元从所述第五特征图中包括的特征值中选择位于基于所述采样位置信息的位置的特征值。
20.一种被配置为执行图像处理操作的电子设备,所述电子设备包括:
处理逻辑,被配置为从滤色器阵列接收四图像数据,在所述滤色器阵列中,四个相同的滤色器被布置成两行和两列并形成一个像素单元,所述处理逻辑被配置为使用人工神经网络模型来生成具有与所述四图像数据不同的格式的输出图像数据,
其中,所述人工神经网络模型包括:
多个编码层单元,每个编码层单元包括多个层并且位于多个级别中的一个级别;以及
多个解码层单元,每个解码层单元包括多个层并且被配置为与位于与所述解码层单元相同的级别的编码层单元形成跳跃连接,
其中,第一编码层单元接收第一输入特征图并将基于所述第一输入特征图的第一输出特征图输出到随后的编码层单元和处于第一级别的解码层单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0077255 | 2019-06-27 | ||
KR1020190077255A KR20210001324A (ko) | 2019-06-27 | 2019-06-27 | 인공 신경망 모델 및 이를 포함하는 전자 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149793A true CN112149793A (zh) | 2020-12-29 |
Family
ID=73747770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010428019.1A Pending CN112149793A (zh) | 2019-06-27 | 2020-05-19 | 人工神经网络模型和包括人工神经网络模型的电子设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11544813B2 (zh) |
KR (1) | KR20210001324A (zh) |
CN (1) | CN112149793A (zh) |
DE (1) | DE102020107490A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024103385A1 (en) * | 2022-11-18 | 2024-05-23 | Huawei Technologies Co., Ltd. | Adaptive encoding and decoding of information for network and application functions |
CN118587706A (zh) * | 2024-08-01 | 2024-09-03 | 苏州宝丽迪材料科技股份有限公司 | 一种纤维色母粒团聚与分散超微结构检测方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210001324A (ko) * | 2019-06-27 | 2021-01-06 | 삼성전자주식회사 | 인공 신경망 모델 및 이를 포함하는 전자 장치 |
KR20210109327A (ko) * | 2020-02-27 | 2021-09-06 | 삼성전자주식회사 | 인공신경망의 학습 방법 및 장치 |
KR20220036014A (ko) * | 2020-09-15 | 2022-03-22 | 삼성전자주식회사 | 이미지 센싱 시스템 |
CN116452416A (zh) * | 2022-01-10 | 2023-07-18 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150078456A1 (en) * | 2013-07-31 | 2015-03-19 | Nokia Corporation | Method and apparatus for video coding and decoding |
US20160191931A1 (en) * | 2014-12-31 | 2016-06-30 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
CN108062754A (zh) * | 2018-01-19 | 2018-05-22 | 深圳大学 | 基于密集网络图像的分割、识别方法和装置 |
US20180260793A1 (en) * | 2016-04-06 | 2018-09-13 | American International Group, Inc. | Automatic assessment of damage and repair costs in vehicles |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
US10185891B1 (en) * | 2016-07-08 | 2019-01-22 | Gopro, Inc. | Systems and methods for compact convolutional neural networks |
US20190073553A1 (en) * | 2016-02-17 | 2019-03-07 | Intel Corporation | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN109640101A (zh) * | 2017-10-06 | 2019-04-16 | 想象技术有限公司 | 数据压缩 |
CN109726806A (zh) * | 2017-10-30 | 2019-05-07 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN112997479A (zh) * | 2018-11-15 | 2021-06-18 | Oppo广东移动通信有限公司 | 跨阶段跳跃连接处理图像的方法、系统和计算机可读介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020154833A1 (en) | 2001-03-08 | 2002-10-24 | Christof Koch | Computation of intrinsic perceptual saliency in visual environments, and applications |
US7987491B2 (en) | 2002-05-10 | 2011-07-26 | Richard Reisman | Method and apparatus for browsing using alternative linkbases |
US7082572B2 (en) | 2002-12-30 | 2006-07-25 | The Board Of Trustees Of The Leland Stanford Junior University | Methods and apparatus for interactive map-based analysis of digital video content |
JP4840740B2 (ja) * | 2004-12-01 | 2011-12-21 | 株式会社メガチップス | 画素補間方法および画像判定方法 |
JP4911628B2 (ja) * | 2008-01-28 | 2012-04-04 | 株式会社リコー | 画像処理方法、画像処理装置及び画像撮像装置 |
US8929877B2 (en) | 2008-09-12 | 2015-01-06 | Digimarc Corporation | Methods and systems for content processing |
JP5341010B2 (ja) * | 2010-04-15 | 2013-11-13 | オリンパス株式会社 | 画像処理装置、撮像装置、プログラム及び画像処理方法 |
US9195903B2 (en) | 2014-04-29 | 2015-11-24 | International Business Machines Corporation | Extracting salient features from video using a neurosynaptic system |
US20160239706A1 (en) | 2015-02-13 | 2016-08-18 | Qualcomm Incorporated | Convolution matrix multiply with callback for deep tiling for deep convolutional neural networks |
US10373050B2 (en) | 2015-05-08 | 2019-08-06 | Qualcomm Incorporated | Fixed point neural network based on floating point neural network quantization |
US10751548B2 (en) * | 2017-07-28 | 2020-08-25 | Elekta, Inc. | Automated image segmentation using DCNN such as for radiation therapy |
WO2019040288A1 (en) | 2017-08-25 | 2019-02-28 | Exxonmobil Upstream Researchcompany | AUTOMATED SEISMIC INTERPRETATION USING NEURALLY CONVOLVED NETWORKS |
US11593552B2 (en) * | 2018-03-21 | 2023-02-28 | Adobe Inc. | Performing semantic segmentation of form images using deep learning |
US10803565B2 (en) | 2018-07-10 | 2020-10-13 | Intel Corporation | Low-light imaging using trained convolutional neural networks |
US11756160B2 (en) * | 2018-07-27 | 2023-09-12 | Washington University | ML-based methods for pseudo-CT and HR MR image estimation |
US11164067B2 (en) * | 2018-08-29 | 2021-11-02 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging |
JP2020043435A (ja) * | 2018-09-07 | 2020-03-19 | ソニーセミコンダクタソリューションズ株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
US10547823B2 (en) * | 2018-09-25 | 2020-01-28 | Intel Corporation | View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning |
CN113454680A (zh) * | 2019-03-21 | 2021-09-28 | 华为技术有限公司 | 图像处理器 |
KR20210001324A (ko) * | 2019-06-27 | 2021-01-06 | 삼성전자주식회사 | 인공 신경망 모델 및 이를 포함하는 전자 장치 |
WO2021105765A1 (en) * | 2019-11-27 | 2021-06-03 | Sinha Pavel | Systems and methods for performing direct conversion of image sensor data to image analytics |
-
2019
- 2019-06-27 KR KR1020190077255A patent/KR20210001324A/ko active Search and Examination
-
2020
- 2020-03-18 US US16/822,188 patent/US11544813B2/en active Active
- 2020-03-18 DE DE102020107490.5A patent/DE102020107490A1/de active Pending
- 2020-05-19 CN CN202010428019.1A patent/CN112149793A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150078456A1 (en) * | 2013-07-31 | 2015-03-19 | Nokia Corporation | Method and apparatus for video coding and decoding |
US20160191931A1 (en) * | 2014-12-31 | 2016-06-30 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
US20190073553A1 (en) * | 2016-02-17 | 2019-03-07 | Intel Corporation | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model |
US20180260793A1 (en) * | 2016-04-06 | 2018-09-13 | American International Group, Inc. | Automatic assessment of damage and repair costs in vehicles |
US10185891B1 (en) * | 2016-07-08 | 2019-01-22 | Gopro, Inc. | Systems and methods for compact convolutional neural networks |
CN109640101A (zh) * | 2017-10-06 | 2019-04-16 | 想象技术有限公司 | 数据压缩 |
CN109726806A (zh) * | 2017-10-30 | 2019-05-07 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN108062754A (zh) * | 2018-01-19 | 2018-05-22 | 深圳大学 | 基于密集网络图像的分割、识别方法和装置 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
CN112997479A (zh) * | 2018-11-15 | 2021-06-18 | Oppo广东移动通信有限公司 | 跨阶段跳跃连接处理图像的方法、系统和计算机可读介质 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024103385A1 (en) * | 2022-11-18 | 2024-05-23 | Huawei Technologies Co., Ltd. | Adaptive encoding and decoding of information for network and application functions |
CN118587706A (zh) * | 2024-08-01 | 2024-09-03 | 苏州宝丽迪材料科技股份有限公司 | 一种纤维色母粒团聚与分散超微结构检测方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20210001324A (ko) | 2021-01-06 |
DE102020107490A1 (de) | 2020-12-31 |
US11544813B2 (en) | 2023-01-03 |
US20200410636A1 (en) | 2020-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149793A (zh) | 人工神经网络模型和包括人工神经网络模型的电子设备 | |
AU2018346909B2 (en) | Image signal processor for processing images | |
KR102709413B1 (ko) | 뉴럴 네트워크 프로세서를 구비하는 이미지 프로세싱 장치 및 이의 동작 방법 | |
JP7297470B2 (ja) | 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法 | |
Brady et al. | Deep learning for camera data acquisition, control, and image estimation | |
CN109801279B (zh) | 图像中的目标检测方法及装置、电子设备、存储介质 | |
US11818369B2 (en) | Image sensor module, image processing system, and image compression method | |
US20230377111A1 (en) | Image processing apparatus including neural network processor and method of operation | |
CN112862695A (zh) | 图像恢复方法和设备 | |
KR20220078283A (ko) | 뉴럴 네트워크 프로세서를 구비하는 이미지 처리 장치 및 이의 동작 방법 | |
CN115375615A (zh) | 用于生成感兴趣区域的深度信息的电子设备及其操作方法 | |
JP5738904B2 (ja) | 画像処理装置、撮像装置、画像処理方法及びプログラム | |
US12087019B2 (en) | Image compression method using saturated pixel, encoder, and electronic device | |
US11627250B2 (en) | Image compression method, encoder, and camera module including the encoder | |
US20180300904A1 (en) | Image capturing apparatus that can reduce amount of data that is to be recorded, method for controlling the image capturing apparatus, and storage medium | |
CN109961083A (zh) | 用于将卷积神经网络应用于图像的方法和图像处理实体 | |
US20240013362A1 (en) | Image processing method, image processing apparatus, learning apparatus, manufacturing method of learned model, and storage medium | |
US20240163578A1 (en) | Image signal processor, image sensor, and operating method of the image sensor | |
TWI850572B (zh) | 影像處理設備及系統以及操作影像處理設備的方法 | |
CN115249256A (zh) | 用于生成深度信息的电子装置和生成深度信息的方法 | |
US20240233090A1 (en) | Imaging method and apparatus, and computer-readable medium | |
WO2021249949A1 (en) | Local light field flow as an alternative to plane-sweep volumes | |
CN117956278A (zh) | 自动对焦的方法和装置 | |
CN116506745A (zh) | 成像装置和方法 | |
CN116883232A (zh) | 图像处理方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |