CN111199269A

CN111199269A - 图像处理装置及其操作方法

Info

Publication number: CN111199269A
Application number: CN201911051503.0A
Authority: CN
Inventors: 黄赞荣; 李元宰; 赵仁相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-16
Filing date: 2019-10-30
Publication date: 2020-05-26
Also published as: JP7466289B2; WO2020101143A1; US11132775B2; KR20200063289A; US20200160494A1; JP2020087449A

Abstract

一种图像处理装置通过使用一个或多个神经网络处理图像，并且包括：存储器，存储一个或多个指令以及用于主神经网络和子神经网络的数据结构；以及处理器，被配置为执行存储在存储器中的一个或多个指令，通过使用主神经网络处理输入图像以获得中间结果数据和最终输出图像，并且在通过使用主神经网络正处理输入图像的同时通过使用子神经网络处理中间结果数据以输出中间图像。

Description

图像处理装置及其操作方法

相关申请的交叉引用

本申请基于并要求于2018年11月16日向韩国知识产权局提交的韩国专利申请No.10-2018-0141951的优先权，该申请的公开通过引用全部合并于此。

技术领域

本公开涉及图像处理装置及其操作方法，更具体地，涉及通过使用包括多个卷积层的神经网络处理输入图像的图像处理装置以及操作该图像处理装置的方法。

背景技术

与现有的基于规则的智能系统相比，人工智能(AI)系统是被配置为实现人类水平的智能并且自发地进行自我训练以及进行确定以变得更智能的计算机系统。由于AI系统的识别率提高，并且AI系统被使用得越多就越准确地了解用户的偏好，因此现有的基于规则的智能系统正逐渐地被深度学习AI系统所取代。

AI技术包括机器学习(例如，深度学习)和采用机器学习的元素技术。机器学习是一种对输入数据的特性进行自我分类/学习并使用机器学习算法(例如，深度学习)的算法技术，并且包括诸如语言理解、视觉理解、推演/预测、知识表示和操作控制之类的技术领域。

应用AI技术的各种领域如下。语言理解是一种识别人类的语言/文字并应用/处理人类的语言/文字的技术，包括自然语言处理、机器翻译、会话系统、问答、语音识别/合成等。视觉理解是一种如人类视觉般识别和处理对象的技术，包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推演/预测是一种通过确定信息在逻辑上执行推演和预测的技术，包括基于知识/概率的推演、优化预测、基于偏好的计划、推荐等。知识表示是一种将人类体验信息自动处理为知识数据的技术，包括知识建立(数据生成/分类)、知识管理(数据利用)等。操作控制是一种控制车辆的自动驾驶和机器人的运动的技术，包括运动控制(导航、防撞和驾驶)、操纵控制(行为控制)等。

发明内容

提供了一种能够通过使用主神经网络和子神经网络生成中间输出图像的图像处理装置以及操作该图像处理装置的方法。

附加方面将部分地在接下来的描述中进行阐述，且部分地将通过该描述而变得清楚明白，或者可以通过对本公开的给出的实施例的实践来获知。

根据本公开的实施例，一种图像处理装置可以包括：存储器，存储一个或多个指令以及用于主神经网络和子神经网络的数据结构；以及处理器，被配置为执行存储在所述存储器中的所述一个或多个指令，通过使用所述主神经网络处理输入图像以获得中间结果数据和最终输出图像，并且在通过使用所述主神经网络正处理所述输入图像以获得所述最终输出图像的同时通过使用所述子神经网络处理所述中间结果数据以输出中间图像。

所述主神经网络可以包括多个第一卷积层，并且所述处理器还可以被配置为通过使用所述多个第一卷积层内的一个或多个内核对所述输入图像执行第一卷积运算，以提取特征信息，并基于提取的特征信息生成所述中间结果数据。

所述子神经网络可以包括一个或多个第二卷积层，并且所述处理器还可以被配置为通过在所述一个或多个第二卷积层内将一个或多个内核应用于所述中间结果数据来执行第二卷积运算，以提取特征信息，并基于提取的特征信息输出所述中间图像。

所述主神经网络可以是被训练为通过将预设样式应用于所述输入图像来生成所述最终输出图像的网络，并且所述预设样式应用于所述中间图像的程度可以小于所述预设样式应用于所述最终输出图像的程度。

通过使用所述主神经网络根据所述输入图像生成所述最终输出图像所花费的第一时间段可以大于通过使用所述主神经网络和所述子神经网络根据所述输入图像生成所述中间图像所花费的第二时间段。

所述处理器还可以被配置为预测所述第一时间段和所述第二时间段并且基于预测的第一时间段和预测的第二时间段确定是否通过使用所述子神经网络生成所述中间图像。

所述图像处理装置还可以包括显示器，其中，所述处理器还被配置为控制所述显示器显示从当前时间点起生成所述中间图像或所述最终输出图像中的至少一个所花费的时间段。

所述处理器还可以被配置为基于用户输入在生成所述最终输出图像之前停止对所述输入图像的处理。

所述主神经网络可以包括输入层、输出层、位于所述输入层和所述输出层之间的多个第一卷积层以及位于所述多个第一卷积层中的两个连续卷积层之间的至少一个中间输出层。所述处理器还可以被配置为通过所述至少一个中间输出层将所述中间结果数据发送到所述子神经网络，同时通过所述多个第一卷积层处理所述输入图像以获得所述最终输出图像。

根据本公开的另一实施例，一种图像处理装置可以包括：通信接口，被配置为从包括主神经网络的服务器接收中间结果数据，同时所述服务器正在通过使用所述主神经网络处理输入图像；存储器，存储一个或多个指令和用于子神经网络的数据结构；以及处理器，被配置为执行存储在所述存储器中的所述一个或多个指令，以通过基于所述子神经网络处理所述中间结果数据来输出中间图像。

所述主神经网络可以包括输入层、输出层、位于所述输入层和所述输出层之间的多个第一卷积层以及位于所述多个第一卷积层中的两个连续卷积层之间的至少一个中间输出层。所述处理器还可以被配置为使得所述子神经网络从所述主神经网络的所述至少一个中间输出层接收所述中间结果数据，同时通过所述主神经网络的所述多个第一卷积层正处理所述输入图像。

根据本公开的另一实施例，一种操作图像处理装置的方法可以包括：通过使用主神经网络处理输入图像；通过使用所述主神经网络根据所述输入图像获得中间结果数据，同时处理所述输入图像以获得最终输出图像；以及通过使用子神经网络基于所述中间结果数据生成中间图像。

所述主神经网络可以包括多个第一卷积层，通过使用所述主神经网络处理所述输入图像可以包括：通过对所述输入图像和所述多个第一卷积层中的一个或多个内核执行第一卷积运算来提取特征信息，并且获得所述中间结果数据可以包括：基于提取的特征信息生成所述中间结果数据。

所述子神经网络可以包括一个或多个第二卷积层，并且生成所述中间图像可以包括：通过将所述中间结果数据应用于所述一个或多个第二卷积层中的一个或多个内核以执行第二卷积运算来提取特征信息；并且基于提取的特征信息生成所述中间图像。

所述方法还可以包括：预测所述第一时间段和所述第二时间段；并且基于预测的第一时间段和预测的第二时间段确定是否通过使用所述子神经网络生成所述中间图像。

所述方法还可以包括：在显示器上显示从当前时间点起生成所述中间图像或所述最终输出图像中的至少一个所花费的时间段。

所述方法还可以包括：在生成所述最终输出图像之前，基于用户输入，使所述主神经网络停止处理所述输入图像。

根据本公开的另一实施例，一种计算机程序产品包括其上记录有计算机程序的非暂时性计算机可读记录介质，当由计算机执行时，所述计算机程序可以执行所述操作图像处理装置的方法。

附图说明

根据结合附图的以下描述，本公开的特定实施例的上述和其他方面、特征以及优点将更清楚，在附图中：

图1示出了根据实施例的图像处理装置通过使用主神经网络和子神经网络处理图像的过程；

图2是根据本公开的实施例的操作图像处理装置的方法的流程图；

图3是用于说明根据本公开的实施例的图像处理装置通过使用主神经网络和子神经网络处理图像的方法的示图；

图4是示出了根据本公开的实施例的主神经网络的结构的示图；

图5示出了根据本公开的实施例的主神经网络中包括的第一卷积层的输入数据、内核和输出数据；

图6是用于描述图5的第一卷积层执行卷积运算的过程的示图；

图7是用于描述根据本公开的实施例的图像处理装置进行操作的方法的示图；

图8示出了根据本公开的实施例的图像处理装置显示中间输出图像的示例；

图9示出了根据本公开的实施例的图像处理装置显示中间输出图像的示例；

图10示出了根据本公开的实施例的图像处理装置确定是否进入子神经网络的方法；

图11是用于说明根据本公开的实施例的图像处理装置通过使用主神经网络和子神经网络生成输出图像的方法的示图；

图12是示出了根据本公开的实施例的图像处理装置和服务器彼此交互操作以执行图像处理的示例的示图；

图13是用于说明根据本公开的实施例的训练主神经网络和子神经网络的方法的框图；

图14是根据本公开的实施例的图像处理装置的结构的框图；

图15是根据本公开的实施例的处理器的框图；

图16是示出了根据本公开的实施例的图像处理装置和服务器彼此交互操作以训练和识别数据的示例的示图；以及

图17是根据本公开的另一实施例的图像处理装置的结构的框图。

具体实施方式

在本公开中，表述“a、b或c中的至少一个”指示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c的全部或其变型。

在下文中，将简要描述说明书中所使用的术语，并且然后将具体描述本公开。

尽管考虑到本公开的功能选择了目前广泛使用的一般术语来描述本公开，但是这些一般术语可以根据本领域普通技术人员的意图、案例先例、新技术的出现等而变化。由本公开的申请人任意选择的术语也可以用于特定情况中。在这种情况下，需要在详细描述中给出它们的含义。因此，必须基于其含义和整个说明书的内容来对术语进行定义，而不是通过简单地声明术语来进行定义。

当在本说明书中使用时，术语“包括”和/或“包含”或“具有”和/或“含有”指明存在所述元件，但不排除存在或添加一种或多种其他元件。当在本说明书中使用时，术语“单元”、“...器(...机)”和“模块”表示执行至少一个功能或操作的单元，并且可以实现为硬件、软件或硬件和软件的组合。

本文参考附图详细描述了本公开的实施例，使得本公开可以由本公开所属领域的普通技术人员容易地执行。然而，本公开可以以许多不同形式体现，且不应被解释为受限于本文中所阐述的实施例。在附图中，为了简化说明，省略了与描述无关的部分，并且相同的附图标记始终表示相同的元件。

图1示出了根据本公开的实施例的图像处理装置100通过使用主神经网络和子神经网络处理图像的过程。

图像处理装置100可以是任何类型的电子设备，诸如移动电话、平板个人计算机(PC)、数码相机、摄像机、膝上型计算机、台式计算机、电子书终端、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、MP3播放器或可穿戴设备。

可以通过使用包括显示器的图像显示装置来实现图像处理装置100。具体地，图像处理装置100的实施例可以容易地实现在具有大显示器的图像显示装置(例如，TV)中。然而，本公开的实施例不限于此。例如，图像处理装置100可以是固定的或移动的，或者是数字广播接收器。图像处理装置100不仅可以通过使用平面显示装置来实现，也可以通过使用具有曲率的曲面显示装置或具有可调节曲率的柔性显示装置来实现。图像处理装置100的输出分辨率可以是例如高清(HD)、全HD、超HD或比超HD更清晰的分辨率。

本文使用的术语“用户”表示控制图像处理装置的功能或操作的人。用户的示例可以包括管理员和安装工程师。

图像处理装置100可以包括被训练为根据预设目的处理图像的主神经网络200。主神经网络200可以包括但不限于多个卷积层。

例如，主神经网络200可以是被训练为通过将预设样式15应用于输入图像10来输出样式传递图像20的模型。在这种情况下，可以根据图像上出现的线条、颜色、材料和气氛来确定样式，但是本公开的实施例不限于此。

图像处理装置100可以通过使用主神经网络200处理输入图像(例如，第一图像)10以获得最终输出图像(例如，第二图像)20。图像处理装置100可以获得在正处理输入图像10时输出的中间结果数据，并且可以将中间结果数据输入到子神经网络300。图像处理装置100可以通过使用子神经网络300来处理中间结果数据以生成中间图像(例如，第三图像)。子神经网络300可以包括但不限于一个或多个卷积层。

图像处理装置100可以通过使用子神经网络300处理中间结果数据来获得与最终输出图像20不同的中间输出图像30。

当通过使用单个网络处理图像时，图像处理装置100可以在获得最终输出图像20之前通过使用中间结果数据来获得中间输出图像30。

因此，图像处理装置100可以在生成最终输出图像之前获得中间输出图像30，并且从图像处理装置100的用户的角度来看，可以减少直到生成最终输出图像20的等待时间。

图2是根据本公开的实施例的操作图像处理装置100的方法的流程图。

参考图2，在操作S210中，图像处理装置100可以通过使用主神经网络来处理第一图像。

根据本公开的实施例的主神经网络可以是被训练为根据预设目的处理图像的模型。主神经网络可以是包括多个卷积层的卷积神经网络(CNN)。例如，主神经网络可以是被训练为通过将预设样式应用于输入图像来输出样式传递图像的模型。替代地，主神经网络可以是被训练为将输入的低分辨率图像变换为高分辨率图像并输出高分辨率图像的模型。然而，本公开的实施例不限于此。

图像处理装置100可以通过使用主神经网络处理输入的第一图像来获得最终输出图像。

在操作S220中，图像处理装置100可以获得在正处理第一图像时输出的中间结果数据。

图像处理装置100可以获得已经通过主神经网络中包括的一些卷积层的数据。

在操作S230中，图像处理装置100可以通过使用子神经网络处理中间结果数据来生成第三图像。

图像处理装置100可以通过使用子神经网络来处理中间结果数据，以获得与最终输出图像(例如，第二图像)不同的中间输出图像(例如，第三图像)。在这种情况下，当主神经网络是被训练为应用预设样式的模型时，在最终输出图像中应用预设样式的程度可以不同于在中间输出图像中应用预定样式的程度。例如，在中间输出图像中应用预设样式的程度可以小于在最终输出图像中应用预设样式的程度。然而，本公开的实施例不限于此。

图3是用于说明由根据本公开的实施例的图像处理装置100执行的通过使用主神经网络和子神经网络来处理图像的方法的示图。

参考图3，图像处理装置100可以包括主神经网络200和子神经网络300。

主神经网络200可以是被训练为接收第一图像并根据预设目的处理输入的第一图像以输出第二图像的模型。例如，如图3所示，主神经网络200可以是被训练为通过将预设样式应用于输入图像301来输出样式传递图像302的模型。然而，为了样式传递的目的而被训练仅是示例，并且主神经网络200可以是针对各种目的而训练的模型。

主神经网络200可以具有如下这样的结构：输入数据(例如，图像数据)并在通过隐藏层的同时对数据进行处理，从而输出经处理的数据。主神经网络200可以是包括两个或更多个隐藏层210、220的深度神经网络(DNN)。例如，主神经网络200可以是包括多个卷积层的CNN。

子神经网络300可以接收从主神经网络200输出的中间结果数据，并根据预设目的处理中间结果数据以输出第三图像303。例如，子神经网络300具有如下这样的结构：输入中间数据并在通过一个或多个卷积层(隐藏层)的同时对中间数据进行处理，从而输出经处理的数据303(例如，第三图像)。

现在将参照图4至图6详细描述主神经网络200和子神经网络300的结构和操作。

图4示出了根据本公开的实施例的主神经网络200的结构。

参考图4，主神经网络200可以包括输入层、输出层和多个隐藏层，例如位于输入层和输出层之间的N个卷积层452。主神经网络200可以通过输入层接收输入数据451(例如，第一图像)，并且通过N个卷积层452处理输入数据451以生成输出数据453(例如，第二图像)，并通过输出层提供输出数据453。主神经网络200可以是包括两个或更多个卷积层的深度卷积神经网络。主神经网络200还可以包括池化层、全连接层和归一化层，作为隐藏层。

图像处理装置100可以通过使用主神经网络200从第一图像中提取诸如轮廓、线条和颜色之类的“特征”。主神经网络200中包括的N个卷积层452中的每个可以接收数据，处理接收的数据，并生成输出数据。例如，如图3所示，图像处理装置100可以通过将输入到第一卷积层210的图像(例如，第一图像)与一个或多个内核或滤波器进行卷积来生成第一特征图。图像处理装置100还可以通过将第一特征图输入到第二卷积层220并将输入到第二卷积层220的第一特征图与一个或多个内核或滤波器进行卷积来生成第二特征图。将参考图4至图6更详细地描述在卷积层中执行的卷积运算。

主神经网络200的前卷积层可以操作以从输入图像中提取低水平的特征，例如边缘或梯度。在朝向后卷积层的方向上，后部卷积层可以提取逐渐复杂的特征(例如，眼睛、鼻子、嘴和脸)。

在主神经网络200内接收和输出特征图的一个或多个卷积层可以是隐藏层(例如，隐藏卷积层)。在主神经网络200中，可以执行除了通过将一个或多个内核应用于特征图来执行卷积的操作之外的处理操作。例如，可以执行诸如激活函数和池化之类的运算。图像处理装置100可以应用激活函数，以便将通过执行卷积运算而提取的特征图的值改变为非线性值，诸如“具有或不具有特性”。激活函数的示例可以包括：其中激活与输入(即，来自神经元的加权和)成比例的线性函数、由两个等式f(x)＝x(如果x≥0)和f(x)＝α(e^x-1)(如果x＜0)组成的指数线性单元(ELU)函数、定义为y＝max(0，x)的修正线性单元(ReLU)函数、以实值作为输入并输出0到1之间的另一值的Sigmoid函数、将实值数压到从-1到1的范围的Tanh函数以及计算n个不同事件中事件的概率的Softmax函数。图像处理装置100可以执行子采样(池化)以减小所提取的特征图的大小。在这种情况下，可以使用最大池化、平均池化、L2范数池化等，但是本公开的实施例不限于此。

例如，在第一图像301(输入数据)通过主神经网络200的N个卷积层之后，第一图像301可以经历诸如激活函数或池化之类的运算，并因此可以被输出为第二图像302。

参考图3，主神经网络200可以包括N个卷积层。在这种情况下，输入图像可以与主神经网络200的第一卷积层至第M卷积层210、220、......、255中的每一个内的一个或多个内核进行卷积，因此可以输出中间结果数据。中间结果数据可以输入到子神经网络300。

子神经网络300可以从主神经网络200接收中间结果数据。例如，子神经网络300包括用于接收中间数据的输入层、用于处理中间结果数据的一个或多个卷积层以及用于输出经处理的中间结果数据作为输出数据(例如，第三图像303)的输出层。

子神经网络300中包括的一个或多个卷积层可以是隐藏层(例如，隐藏卷积层)。子神经网络300可以执行除了通过将一个或多个内核应用于特征图来执行卷积的操作之外的处理操作。例如，可以执行诸如激活函数和池化之类的运算。图像处理装置100可以应用激活函数，以便将通过执行卷积运算而提取的特征图的值改变为非线性值，诸如“具有或不具有特性”。在这种情况下，可以使用tanh函数或ReLu函数，但是本公开的实施例不限于此。图像处理装置100可以执行子采样(池化)以减小所提取的特征图的大小。在这种情况下，可以使用最大池化、平均池化、L2范数池化等，但是本公开的实施例不限于此。

例如，在中间结果数据通过子神经网络300的一个或多个卷积层之后，中间结果数据可以经历诸如激活函数或池化之类的运算，并因此可以被输出为第三图像303。

图5示出了根据本公开的实施例的主神经网络中包括的第一卷积层的输入数据、内核和输出数据。

根据本公开的实施例的主神经网络200可以包括N个卷积层452，如图4所示，并且参考图5，现在将N个卷积层452中的第一卷积层称为第一卷积层Conv_1。

第一卷积层Conv_1中的输入数据510(例如，第一输入数据)可以是第一图像，并且输入数据510的大小可以是w×h×C(即，宽度×高度×通道)，其中w、h和C分别表示宽度、高度和通道。例如，第一图像可以具有w×h的大小，并且通道C的数量可以是但不限于3(例如，R、G和B)。第一卷积层Conv_1中的一个或多个内核530(例如，第一内核)可以具有Kw×Kh的大小，并且内核的数量可以是C×D(即，输入通道的数量×输出通道的数量)，其中D表示输出通道的数量。

在第一卷积层Conv_1中，当执行关于输入数据510和第一内核530的卷积运算时，可以生成第一输出数据540。具体地，第一输出数据540可以包括一个或多个特征图，第一输出数据540的大小可以是W×H×D，一个特征图的大小可以是W×H，并且特征图的数量(或通道的数量)可以是D。

图6是用于描述图5的第一卷积层Conv_1执行卷积运算的过程的示图。

为了便于说明，假设在图6中第一卷积层Conv_1的输入数据610具有5×5的大小并且通道的数量是n。还假设应用于输入数据610的内核的大小是3×3×n并且内核的数量是D。这里，n是内核的深度，并因此具有与输入数据610的通道的数量相同的值。可以根据当前层之前的层所使用的内核的数量来确定输入数据610的通道的数量。换句话说，可以认为一个内核包括n个子内核631、632、......、639，每个子内核具有3×3的大小，并且n个子内核631、632、......、639可以分别对应于输入数据610的n个通道。

图6示出了通过将包括n个子内核631、632、......、639的第一内核630从输入数据610的左上端应用到其右下端来提取输入数据610的特征的过程。例如，可以通过将第一内核630(3×3×n)应用于输入数据610的左上端(3×3×n)区域611、612、......、619中包括的像素来执行卷积运算。换句话说，左上端(3×3×n)区域611、612、......、619中包括的像素值可以与第一内核630中包括的权重值相乘并进行求和，从而生成与左上端(3×3×n)区域611、612、......、619映射的单个像素值641。

另外，通过将左上端(3×3×n)区域611、612、......、619向右移动一个像素所获得的3×3×n区域621、622、......、629中所包括的像素值可以与第一内核630中包括的权重值相乘并进行求和，从而生成与3×3×n区域621、622、......、629映射的单个像素值642。使用与上述相同的方法，当在输入数据610内在从左到右和从上到下的方向上以像素为单位扫描卷积运算的目标时，将目标与第一内核630中包括的权重值相乘并进行求和，从而生成像素值。因此，可以输出3×3特征图640(输出数据)。可以在每次移动一个像素的同时对作为卷积运算目标的数据进行扫描，但是也可以在每次移动两个或更多个像素的同时进行扫描。输入数据在扫描期间所移动的像素数被称为步幅(stride)，并且可以根据步幅的大小来确定输出的特征图的大小。

参考图6，输入数据610的大小为5×5，但是输出数据640的大小为3×3，其小于输入数据610的大小。主神经网络包括若干卷积层，并且在通过若干卷积层时，数据的大小连续减小。当在充分提取特征之前数据的大小减小时，输入数据的特征可能丢失，为了防止这种情况，可以执行填补(padding)。填补意味着通过向输出数据的边缘给予特定值(例如，“0”)来增加输入数据的大小，以便防止输出数据具有减小的大小。然而，本公开的实施例不限于此。

尽管图6仅示出了关于第一内核630的卷积运算的结果，但是当在D个内核上执行卷积运算时，可以输出3×3×D的特征图。换句话说，根据内核的数量D确定输出数据的通道数，并因此可以确定下一层中输入数据的通道数。

图7是用于描述根据本公开的实施例的图像处理装置进行操作的方法的示图。

参考图7，图像处理装置100可以通过使用为了样式传递的目的而训练的主神经网络200根据输入的第一图像710生成第二图像720。主神经网络200可以是包括N个卷积层的CNN，并且第二图像720可以是通过将预设样式705应用于第一图像710而获得的图像。

例如，图像处理装置100可以将第一图像710输入到主神经网络200。输入的第一图像710可以包括三个通道(例如，R、G和B通道)，但是本公开的实施例不限于此。

图像处理装置100可以执行将输入图像数据与第一卷积层210内的一个或多个内核进行卷积的操作。经由卷积获得的数据可以由第一卷积层210输出并输入到第二卷积层220。根据与上述相同的方法，在N个卷积层中的每一个内，图像处理装置100可以从前一卷积层接收数据，并且执行将接收的数据与一个或多个内核或滤波器进行卷积的操作，从而将经由卷积获得的数据输出给下一卷积层。图像处理装置100可以对已经通过N个卷积层的数据执行激活函数运算，并且可以基于经由激活函数运算获得的数据生成最终输出图像(例如，第二图像720)。最终输出图像可以是包括三个通道(R、G和B通道)的图像，但是本公开的实施例不限于此。

图像处理装置100可以通过使用主神经网络200在处理第一图像710的同时获得中间结果数据。图像处理装置100可以获得已经通过主神经网络200中包括的卷积层当中的多达第n卷积层的数据。

例如，如图7所示，第一图像710可以输入到主神经网络200，并且当第一图像710通过第一卷积层210和第二卷积层220时，与一个或多个内核或滤波器进行了卷积的数据可以作为第一中间结果数据D1进行输出。第一图像710可以输入到主神经网络200，并且在第一图像710通过第一卷积层至第五卷积层210、220、230、240和250之后获得的数据可以作为第二中间结果数据D2进行输出。第一图像710可以输入到主神经网络200，并且在第一图像710通过第一卷积层至第八卷积层210、220、230、240、250、260、270和280之后获得的数据可以作为第三中间结果数据D3进行输出。第一图像710可以输入到主神经网络200，并且在第一图像710通过第一卷积层至第十一卷积层210、220、230、240、250、260、270、280、290、291和292之后获得的数据可以作为第四中间结果数据D4进行输出。然而，本公开的实施例不限于此。

图像处理装置100可以通过使用子神经网络处理所获得的中间结果数据来生成与最终输出图像720(即，第二图像720)不同的中间输出图像。

例如，图像处理装置100可以包括第一子神经网络至第四子神经网络310、320、330和340。主神经网络200可以包括多个中间输出层，其将中间结果数据输出到子神经网络310、320、330和340。特别地，主神经网络200可以包括：位于第二卷积层220和第三卷积层230之间的第一中间输出层IO₁，将第一中间结果数据D1传送到第一子神经网络310；位于第五卷积层250和第六卷积层260之间的第二中间输出层IO₂，将第二中间结果数据D2传送到第二子神经网络320；位于第八卷积层280和第九卷积层290之间的第三中间输出层IO₃，将第三中间结果数据D3传送到第三子神经网络330；以及位于第十一卷积层292和第十二卷积层293之间的第四中间输出层IO₄，将第四中间结果数据D4传送到第四子神经网络340。

图像处理装置100可以将获得的第一中间结果数据D1输入到第一子神经网络310。第一子神经网络310可以包括一个或多个卷积层，并且该一个或多个卷积层可以执行将输入的第一中间结果数据D1与一个或多个内核或滤波器进行卷积的操作。图像处理装置100可以对卷积数据执行激活函数运算，并且可以基于经由激活函数运算获得的数据生成第一中间输出图像S1。第一中间输出图像S1可以是包括三个通道(例如，R、G和B通道)的图像，但是本公开的实施例不限于此。

图像处理装置100可以通过分别使用第二子神经网络至第四子神经网络320、330和340处理第二中间结果数据至第四中间结果数据D2、D3和D4来生成第二中间输出图像至第四中间输出图像S2、S3和S4。根据通过使用第一子神经网络310处理第一中间结果数据D1来生成第一中间输出图像S1的方法生成第二中间输出图像至第四中间输出图像S2、S3和S4，因此将省略其详细描述。

为获得第一中间输出图像至第四中间输出图像S1、S2、S3和S4中的每一个而应用样式的程度可以小于用于第二图像720的程度。例如，在从第一中间输出图像S1到第四中间输出图像S4的方向上，预设样式705应用于第一图像710的程度可以增大。为获得第二图像720(即，最终输出图像)而应用预设样式705的程度可以大于为获得第四中间输出图像S4而应用预设样式705的程度。

图8和图9是示出了根据本公开的实施例的图像处理装置显示中间输出图像的示例的视图。

参考图8，当图像处理装置100通过使用主神经网络200和第一子神经网络310根据第一图像710生成第一中间输出图像S1时，可以花费第一时间段T1。图像处理装置100可以在显示器上显示所生成的第一中间输出图像S1。当图像处理装置100通过使用主神经网络200和第二子神经网络320根据第一图像710生成第二中间输出图像S2时，可以花费第二时间段T1+T2，并且当图像处理装置100通过使用主神经网络200和第三子神经网络330根据第一图像710生成第三中间输出图像S3时，可以花费第三时间段T1+T2+T3。

当图像处理装置100通过使用主神经网络200根据第一图像710生成最终输出图像720(即，第二图像)时，可以花费第四时间段T4。第四时间段T4可以长于第三时间段T1+T2+T3。

在图像处理装置100通过使用主神经网络200处理第一图像710来生成最终输出图像720之前，图像处理装置100可以生成第一中间输出图像至第三中间输出图像S1、S2和S3并在显示器上显示它们。

图像处理装置100可以显示多条时间信息810和820以及输出图像，每条时间信息指示直到生成下一输出图像所要花费的时间段。例如，如图8所示，在显示第一中间输出图像S1的同时，图像处理装置100还可以显示时间信息810，该时间信息810指示从当前时间点到将生成第二中间输出图像S2的时间点所要花费的时间段T2。在显示第二中间输出图像S2的同时，图像处理装置100还可以显示时间信息820，该时间信息820指示直到生成第三中间输出图像S3所要花费的时间段T3。

图像处理装置100不仅可以显示对直到生成下一中间输出图像所要花费的时间段加以指示的时间信息，还可以显示对直到生成最终输出图像所要花费的时间段加以指示的时间信息。

因此，用户可以检查在生成最终输出图像之前在显示器上显示的中间输出图像，并且可以检查直到生成下一输出图像所要花费的时间段，从而确定是否连续地执行图像处理。

图像处理装置100可以基于用户输入，中断主神经网络200中关于第一图像710的图像处理。例如，当显示第三中间输出图像S3并且此时接收到图像处理中断请求时，图像处理装置100可以中断主神经网络200中关于第一图像710的图像处理。因此，图像处理装置100可以不生成下一中间输出图像和最终输出图像720。

参考图9，图像处理装置100可以基于用户输入对中间输出图像执行附加图像处理。例如，图像处理装置100可以通过执行调整第三中间输出图像S3的色感、亮度、清晰度等的图像处理(锐化)来生成最终图像920。然而，本公开的实施例不限于此。

图10示出了由图像处理装置100执行的确定是否进入子神经网络的方法。

参考图10，图像处理装置100可以将主神经网络200中获得各条中间数据的点确定为子网络点。例如，图像处理装置100可以将获得第一中间结果数据D1的第二卷积层的输出点(第三卷积层的输入点)确定为第一子网络点1010，将获得第二中间结果数据D2的第五卷积层的输出点(第六卷积层的输入点)确定为第二子网络点1020，将获得第三中间结果数据D3的第八卷积层的输出点(第九卷积层的输入点)确定为第三子网络点1030，并且将获得第四中间结果数据D4的第十一卷积层的输出点(第十二卷积层的输入点)确定为第四子网络点1040。然而，本公开的实施例不限于此。

图像处理装置100可以确定是否在第一子网络点至第四子网络点1010、1020、1030和1040处通过使用子神经网络执行图像处理。例如，当在第一卷积层和第二卷积层中完成卷积运算并且因此(在第一子网络点1010处)输出第一中间结果数据D1时，图像处理装置100可以将第一中间结果数据D1输入到第一子神经网络310并执行图像处理，从而确定是否生成第一中间输出图像S1。

图像处理装置100可以计算和估计通过使用第一子神经网络310将第一中间结果数据D1处理成第一中间输出图像S1所要花费的时间段(例如，第一时间段)以及通过使用主神经网络200将第一中间结果数据D1处理成最终输出图像720所要花费的时间段(例如，第二时间段)。当第一时间段和第二时间段之间的差等于或大于预设值时，图像处理装置100可以进入第一子神经网络310。例如，图像处理装置100可以使用第一中间结果数据D1和第一子神经网络310生成第一中间输出图像S1。另一方面，当第一时间段和第二时间段之间的差小于预设值时，图像处理装置100可以不进入第一子神经网络310。例如，在不生成第一中间输出图像S1的情况下，图像处理装置100可以使用第一中间结果数据D1和主神经网络200生成最终输出图像720。

同样地，图像处理装置100可以计算通过使用第二子神经网络320将第二中间结果数据D2处理成第二中间输出图像S2所要花费的时间段(例如，第三时间段)以及通过使用主神经网络200将第二中间结果数据D2处理成最终输出图像720所要花费的时间段(例如，第四时间段)。图像处理装置100可以通过在第二子网络点1020处将第三时间段和第四时间段彼此进行比较来确定是否进入第二子神经网络320。

图像处理装置100还可以通过在第三子网络点1030处把通过使用第三子神经网络330将第三中间结果数据D3处理成第三中间输出图像S3所要花费的时间段(例如，第五时间段)与通过使用主神经网络200将第三中间结果数据D3处理成最终输出图像720所要花费的时间段(例如，第六时间段)进行比较，来确定是否进入第三子神经网络330。

图像处理装置100还可以通过在第四子网络点1040处把通过使用第四子神经网络340将第四中间结果数据D4处理成第四中间输出图像S4所要花费的时间段(例如，第七时间段)与通过使用主神经网络200将第四中间结果数据D4处理成最终输出图像720所要花费的时间段(例如，第八时间段)进行比较，来确定是否进入第四子神经网络340。

图11是用于说明由根据本公开的实施例的图像处理装置执行的通过使用主神经网络和子神经网络生成输出图像的方法的示图。

图11的主神经网络1100可以对应于图7的主神经网络200，图11的第一子神经网络1110可以对应于图7的第一子神经网络310，并且图11的第二子神经网络1120可以对应于图7的第二子神经网络320。因此，这里将省略对主神经网络1100以及第一子神经网络1110和第二子神经网络1120的结构和操作的详细描述。

参考图11，图像处理装置100可以通过使用主神经网络1100根据第一图像710生成第二图像720(即，最终输出图像)。

图像处理装置100可以通过使用主神经网络1100处理第一图像710来获得第一中间结果数据D1，并且可以通过使用第一中间结果数据D1和第一子神经网络1110来生成第一中间输出图像S1。图像处理装置100也可以通过使用主神经网络1100处理第一图像710来获得第二中间结果数据D2，并且可以通过使用第二中间结果数据D2和第二子神经网络1120来生成第二中间输出图像S2。

第一图像710和第二图像720(即，最终输出图像)可以是高分辨率图像，并且第一中间输出图像S1和第二中间输出图像S2可以是低分辨率图像。

图12是示出了根据本公开的实施例的图像处理装置与服务器交互操作的示例的示图。

参考图12，服务器2000可以包括主神经网络2030，并且主神经网络2030可以是被训练为根据预设目的处理图像的模型。例如，主神经网络2030可以是为了样式传递的目的而训练的模型。

服务器2000可以通过使用主神经网络2030将预设样式应用于输入的第一图像710来生成第二图像720(即，最终图像，样式传递图像)。

因为图12的主神经网络2030可以对应于图3的主神经网络200，所以这里将省略对主神经网络2030的结构和操作的详细描述。服务器2000可以将第二图像720发送到图像处理装置100。

服务器2000可以在主神经网络2030中正处理第一图像710的同时获得中间结果数据。例如，中间结果数据可以包括从主神经网络2030中包括的多个卷积层当中的特定层提取的特征图(例如，特征信息)。

服务器2000可以将中间结果数据发送到图像处理装置100。

图像处理装置100可以包括子神经网络2050。子神经网络2050可以包括一个或多个卷积层，并且可以在该一个或多个卷积层中执行卷积运算。例如，图像处理装置100可以将从服务器2000接收的中间结果数据输入到子神经网络2050，并且中间结果数据可以在通过一个或多个卷积层的同时与一个或多个内核进行卷积。图像处理装置100可以对卷积数据执行激活函数运算，并且可以基于经由激活函数运算获得的数据生成第三图像1250(例如，中间输出图像)。

图像处理装置100可以在显示器上显示从服务器2000接收的第二图像720和所生成的第三图像1250。预设样式应用于第三图像1250(例如，中间输出图像)的程度可以小于预设样式应用于第二图像720(例如，最终输出图像)的程度。

如图12所示，在服务器2000中执行主神经网络2030的操作，并且在图像处理装置100中执行子神经网络2050的操作，因此图像处理装置100的存储器带宽和获得输出图像所要花费的时间段可以减小。

图13是用于说明根据本公开的实施例的训练主神经网络和子神经网络的方法的框图。

参考图13，图像处理装置100可以包括图像特征提取器1310、样式分析器1320、内容分析器1330和网络细化器1340。图像特征提取器1310可以从主神经网络200接收图像Y、样式目标图像Ys和内容目标图像Yc。样式目标图像Ys可以是包括通过使用主神经网络200要传递的样式在内的图像。作为传递样式之前的原始图像，内容目标图像Yc可以是与输入到主神经网络200的图像X相同的图像。

图像特征提取器1310可以包括CNN，并且可以通过使用CNN提取接收的样式目标图像Ys、接收的图像Y和接收的内容目标图像Yc的特征图(特征信息)。CNN可以包括多个卷积层，并且可以在该多个卷积层中执行卷积运算。除了多个卷积层中的卷积运算之外，图像特征提取器1310还可以执行诸如激活函数和池化之类的运算，并且可以在每个卷积层中提取特征图。例如，图像特征提取器1310可以在图像特征提取器1310中包括的每个卷积层中提取样式目标图像Ys的特征图、内容目标图像Yc的特征图和图像Y的特征图。

图像特征提取器1310可以在前部卷积层中提取输入图像的低水平的特征，诸如边缘或梯度，并且与前部卷积层相比，可以在后部卷积层中提取逐渐更复杂的特征图。然而，本公开的实施例不限于此。

样式分析器1320可以分析样式目标图像Ys的样式和图像Y的样式之间的差异。例如，样式分析器1320可以分析样式目标图像Ys的特征图和图像Y的特征图之间的差异。

内容分析器1330可以分析内容目标图像Yc的内容与图像Y的内容之间的差异。例如，内容分析器1330可以分析内容目标图像Yc的特征图和图像Y的特征图之间的差异。

网络细化器1340可以调整主神经网络200的内核的权重，使得关于样式目标图像的特征图与输出图像的特征图之间的差异减小。网络细化器1340还可以调整主神经网络200的内核的权重，使得关于内容目标图像的特征图与输出图像的特征图之间的差异减小。然而，本公开的实施例不限于此。

尽管图13仅示出并描述了根据本公开的实施例的训练主神经网络200的方法，但是可以使用与上述相同的方法来训练根据本公开的实施例的子神经网络。

具体地，根据本公开的实施例的图像处理装置可以包括尽管以类似的方式部分地处理图像但输出不同结果的神经网络，作为主神经网络和子神经网络。例如，第一神经网络和第二神经网络之一可以被包括作为主神经网络，并且仅另一神经网络的与主神经网络具有不同处理的一部分可以被包括作为子神经网络。然而，本公开的实施例不限于此。因此，图像处理装置可以通过针对相同的处理不重复训练来提高神经网络训练的效率。

图14是根据本公开的实施例的图像处理装置的结构的框图。

参考图14，根据本公开的实施例的图像处理装置100可以包括处理器120和存储器130。

处理器120可以执行存储在存储器130中的一个或多个程序。处理器120可以包括单核、双核、三核、四核或多核。处理器120可以包括多个处理器。例如，处理器120可以通过使用主处理器和在睡眠模式下操作的子处理器来实现。

存储器130可以存储用于驱动和控制图像处理装置100的各种数据、程序或应用。

存储在存储器130中的程序可以包括一个或多个指令。存储在存储器130中的程序(一个或多个指令)或应用可以由处理器120执行。

处理器120可以执行存储在存储器130中的一个或多个指令，从而通过使用主神经网络来处理第一图像。主神经网络可以是被训练为根据预设条件处理图像的模型。主神经网络可以是包括多个卷积层的CNN。例如，主神经网络可以是被训练为通过将预设样式应用于输入图像来输出样式传递图像的模型。替代地，主神经网络可以是被训练为将输入的低分辨率图像变换为高分辨率图像并输出高分辨率图像的模型。然而，本公开的实施例不限于此。

处理器120可以通过使用主神经网络来处理第一图像以获得最终输出图像(例如，第二图像)。

处理器120可以在处理第一图像的同时获得中间结果数据，并通过使用子神经网络处理所获得的中间结果数据。处理器120可以通过使用子神经网络处理中间结果数据来获得与最终输出图像(例如，第二图像)不同的中间输出图像(例如，第三图像)。

特别地，当主神经网络是被训练为应用预设样式的模型时，为获得最终输出图像已应用预设样式的程度可以不同于为获得中间输出图像已应用预设样式的程度。例如，为获得中间输出图像已应用预设样式的程度可以小于为获得最终输出图像已应用预设样式的程度。然而，本公开的实施例不限于此。

处理器120可以预测根据第一图像(例如，输入图像)生成中间输出图像所花费的时间段(例如，第一时间段)和根据第一图像(例如，输入图像)生成最终输出图像所花费的时间段(例如，第二时间段)。处理器120可以通过将预测的第一时间段和第二时间段之间的差与预设时间进行比较来确定是否通过使用子神经网络生成中间输出图像。

处理器120可以控制显示器显示从当前时刻起生成中间输出图像所花费的时间段或者从当前时刻起生成最终输出图像所花费的时间段。

在生成最终输出图像之前，处理器120可以基于用户输入，终止通过使用主神经网络对第一图像的处理。处理器120可以在向用户提供中间输出图像的同时允许用户通过用户界面停止对第一图像的处理。例如，当显示中间输出图像并且此时接收到图像处理中断请求时，处理器120可以中断主神经网络中对第一图像的处理。因此，处理器120可以不生成下一中间输出图像和最终输出图像。

图15是根据本公开的实施例的处理器120的框图。

参考图15，处理器120可以包括数据学习器1410和数据处理器1420。

根据本公开的实施例，数据学习器1410可以根据预设目的学习图像处理的标准，以便训练主神经网络和子神经网络。例如，数据学习器1410可以学习关于使用输入图像的哪些信息(例如，特征信息)向输入图像应用预设样式的标准。

数据学习器1410可以通过使用图像的特征信息来学习关于如何应用预设样式的标准。数据学习器1410可以通过获得用于学习的数据(例如，图像)并将获得的数据应用于数据处理模型(主神经网络和子神经网络)来学习用于将预设样式应用于输入图像的标准。

可以考虑例如识别模型的应用领域、学习的目的或设备的计算机性能来建立数据处理模型(例如，主神经网络和子神经网络)。数据处理模型可以是例如基于神经网络的模型。例如，诸如深度神经网络(DNN)、递归神经网络(RNN)或双向递归DNN(BRDNN)之类的模型可以用作数据处理模型，但是本公开的实施例不限于此。

数据学习器1410可以通过使用包括例如误差反向传播或梯度下降在内的学习算法等来训练数据处理模型。

例如，数据学习器1410可以通过使用学习数据作为输入值来通过监督学习对数据处理模型进行训练。例如，数据学习器1410可以通过无监督学习来训练数据处理模型，以在没有监督的情况下通过对数据处理所需的数据类型进行自我训练来找到用于数据处理的标准。例如，数据学习器1410可以使用关于根据训练的数据处理的结果是否正确的反馈，通过强化学习来训练数据处理模型。

当训练数据处理模型时，数据学习器1410可以存储经训练的数据处理模型。在这种情况下，数据学习器1410可以将经训练的数据处理模型存储在图像处理装置的存储器中。替代地，数据学习器1410可以将经训练的数据处理模型存储在经由有线或无线网络与图像处理装置连接的服务器的存储器中。

具体地，存储经训练的数据处理模型的存储器还可以存储例如与图像处理装置的至少一个其他组件有关的命令或数据。存储器还可以存储软件和/或程序。例如，程序可以包括内核、中间件、应用编程接口(API)和/或应用程序(或应用)。

数据处理器1420可以将图像输入到包括经训练的主神经网络的数据处理模型，并且数据处理模型可以输出根据预设目的处理的图像作为结果值。例如，数据处理模型可以输出通过将预设样式应用于输入图像而获得的图像。可以使用输出结果值(图像)来更新包括主神经网络和子神经网络的数据处理模型。

数据学习器1410或数据处理器1420中的至少一个可以以至少一个硬件芯片的形式制造，并且可以安装在图像处理装置上。例如，数据学习器1410或数据处理器1420中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式制造，或者可以制造为现有通用处理器(例如，中央处理单元(CPU)或应用处理器(AP))或专用于图形的处理器(例如，图形处理单元(GPU))的一部分，并且可以安装在上述各种图像处理装置中的任何一种上。

数据学习器1410和数据处理器1420可以都安装在单个图像处理装置上，或者可以分别安装在独立的图像处理装置上。例如，数据学习器1410和数据处理器1420中的一个可以包括在图像处理装置中，另一个可以包括在服务器中。数据学习器1410和数据处理器1420可以通过有线或无线方式彼此连接，因此由数据学习器1410建立的模型信息可以被提供给数据处理器1420，并且输入到数据处理器1420的数据可以作为附加学习数据被提供给数据学习器1410。

数据学习器1410或数据处理器1420中的至少一个可以实现为软件模块。当使用软件模块(或包括指令的程序模块)实现数据学习器1410或数据处理器1420中的至少一个时，软件模块可以存储在非暂时性计算机可读记录介质中。在这种情况下，至少一个软件模块可以由操作系统(OS)或由特定应用提供。替代地，至少一个软件模块中的一些可以由OS提供，其他的可以由特定应用提供。

图16是示出了根据本公开的实施例的图像处理装置和服务器彼此交互操作以学习和识别数据的示例的示图。

参考图16，服务器2000可以通过学习根据预设目的进行图像处理的标准来训练主神经网络和子神经网络。

在这种情况下，服务器2000可以执行图15的数据学习器1410的功能。服务器2000可以学习关于根据预设目的将使用哪些学习数据对输入图像进行处理的标准。服务器2000可以通过使用数据来学习用于根据预设目的处理图像的标准。

服务器2000可以通过使用学习数据来训练主神经网络或子神经网络中的至少一个。

图像处理装置100可以将数据发送到服务器2000，并且可以请求服务器2000通过将数据应用于数据处理模型(主神经网络和子神经网络)来对数据进行处理。例如，服务器2000可以通过使用数据处理模型(主神经网络和子神经网络)根据预设目的处理图像。例如，服务器2000可以通过将预设样式应用于输入图像来输出样式传递图像。

替代地，图像处理装置100可以从服务器2000接收由服务器2000生成的数据处理模型，并且可以通过使用接收的数据处理模型来处理数据。例如，图像处理装置100可以通过使用接收的数据处理模型(主神经网络和子神经网络)根据预设目的处理图像。例如，图像处理装置100可以通过将预设样式应用于输入图像来输出样式传递图像。

图17是根据本公开的另一实施例的图像处理装置1700的结构的框图。图17的图像处理装置1700可以是图14的图像处理装置100的实施例。

参考图17，图像处理装置1700可以包括调谐器1740、控制器1710、显示器1720、通信接口1750、传感器1730、输入/输出(I/O)接口1770、视频处理器1780、音频处理器1715、存储装置1790和电源1760。

在经由有线或无线广播信号的放大、混合、共振等获得的许多无线电波分量中，调谐器1740可以调谐并且仅选择图像处理装置1700想要接收的频道的频率。广播信号包括音频、视频和附加信息(例如，电子节目指南(EPG))。

调谐器1740可以根据用户输入(例如，从控制设备接收的控制信号，例如频道号输入、频道加/减输入和EPG屏幕图像上的频道输入)来接收与频道号对应的频带内的广播信号。

调谐器1740可以从多种源(例如，地面广播、有线广播、卫星广播和互联网广播)接收广播信号。调谐器1740还可以从诸如模拟广播或数字广播之类的源接收广播信号。

通信接口1750可以在控制器1710的控制下向外部装置或服务器发送数据或信号，或者从外部装置或服务器接收数据或信号。控制器1710可以向经由通信接口1750连接的外部装置发送内容/从其接收内容，从外部装置下载应用，或执行网络浏览。通信接口1750可以与图像处理装置1700的性能和结构相对应地，根据无线局域网(LAN)1751(例如，Wi-Fi)、蓝牙网络1752或有线以太网网络1753中的至少一种方法发送或接收数据或信号。

视频处理器1780处理由图像处理装置1700接收的视频数据。视频处理器1780可以对接收的视频数据执行各种图像处理，例如解码、缩放、噪声滤除、帧速率变换和分辨率变换。

传感器1730感测用户的语音、用户的图像或与用户的交互，并且可以包括麦克风1731、相机1732和光接收器1733。

麦克风1731接收用户发出的语音。麦克风1731可以将接收到的语音转换为电信号，并将电信号输出到控制器1710。用户语音可以包括例如与图像处理装置1700的菜单或功能相对应的语音。

相机1732可以在相机1732的识别范围内接收与包括手势在内的用户动作相对应的图像(例如，连续帧)。控制器1710可以通过使用接收到的动作的识别结果来选择在图像处理装置1700上显示的菜单，或者执行与动作识别结果相对应的控制。

光接收器1733通过显示器1720的边框的光窗等，从外部控制设备接收光信号(包括控制信号)。光接收器1733可以从控制设备接收与用户输入(例如，触摸、按压、触摸手势、语音或动作)相对应的光信号。可以在控制器1710的控制下从接收到的光信号中提取控制信号。

在控制器1710的控制下，I/O接口1770从图像处理装置1700的外部接收视频(例如，运动图像)、音频(例如，语音或音乐)和附加信息(例如，EPG)。I/O接口1770可以包括高清多媒体接口(HDMI)端口1771、分量插孔1772、PC端口1773或USB端口1774。I/O接口1770可以包括HDMI端口1771、分量插孔1772、PC端口1773和USB端口1774的组合。

控制器1710控制图像处理装置1700的整体操作和图像处理装置1700的内部组件之间的信号传送，并处理数据。当存在用户输入或满足存储的预设条件时，控制器1710可以执行存储在存储装置1790中的OS和各种应用。

控制器1710可以包括随机存取存储器(RAM)1781、只读存储器(ROM)1782和处理器1783，其中，RAM 1781存储由图像处理装置1700的外部源输入的信号或数据或用作由图像处理装置1700执行的各种操作的存储器区域，ROM 1782存储用于控制图像处理装置1700的控制程序。

图形处理器1784通过使用算术单元和渲染单元生成包括各种对象(例如，图标、图像和文本)的屏幕图像。算术单元基于由传感器1730感测的用户交互，根据屏幕图像的布局计算要对每个对象进行显示的属性值，例如坐标值、形状、大小、颜色等。渲染单元基于由算术单元计算的属性值生成包括对象在内的各种布局的屏幕图像。由渲染单元生成的屏幕图像被显示在显示器1720的显示区域上。

第一接口1785-1至第n接口1785-n连接到图像处理装置1700的上述组件。第一接口1785-1至第n接口1785-n之一可以是经由网络与外部装置连接的网络接口。

RAM 1781、ROM 1782、处理器1783、图形处理器1784以及第一接口1785-1至第n接口1785-n可以经由内部总线1786相互连接。

本公开的本实施例中使用的术语“图像处理装置的控制器”包括处理器1783、ROM1782和RAM 1781。

显示器1720可以通过转换由控制器1710处理的图像信号、数据信号、屏上显示(OSD)信号和控制信号来生成驱动信号。显示器1720可以是等离子体显示面板(PDP)、液晶显示器(LCD)、有机发光器件(OLED)、柔性显示器或三维(3D)显示器。显示器1720可以被被配置为触摸屏，并因此可以用作输入设备以及输出设备。

音频处理器1715处理音频数据。音频处理器1715可以对音频数据执行各种处理，例如解码、放大或噪声滤除。音频处理器1715可以包括多个音频处理模块以处理与多条内容相对应的音频。

在控制器1710的控制下，音频输出接口1725输出经由调谐器1740接收到的广播信号中包括的音频。音频输出接口1725还可以输出经由通信接口1750或I/O接口1770输入的音频(例如，语音或声音)。在控制器1710的控制下，音频输出接口1725还可以输出存储装置1790中存储的音频。音频输出接口1725可以包括从扬声器1726、耳机输出端口1727和索尼/飞利浦数字接口(S/PDIF)输出端口1728中选择的至少一个。音频输出接口1725可以包括扬声器1726、耳机输出端口1727和S/PDIF输出端口1728的组合。

在控制器1710的控制下，电源1760将从外部电源输入的电力供应给图像处理装置1700的内部组件。在控制器1710的控制下，电源1760还可以将由位于图像处理装置1700中的一个或多个电池输出的电力供应给图像处理装置1700的内部组件。

存储装置1790可以存储用于在控制器1710的控制下驱动和控制图像处理装置1700的各种数据、程序或应用。存储装置1790可以包括广播接收模块、频道控制模块、音量控制模块、通信控制模块、语音识别模块、动作识别模块、光接收模块、显示控制模块、音频控制模块、外部输入控制模块、电力控制模块、以无线方式(例如，蓝牙)连接的外部装置的电力控制模块、语音数据库(DB)或动作DB。存储装置1790的这些模块和DB可以实现为软件，以便执行图像处理装置1700的广播接收控制功能、频道控制功能、音量控制功能、通信控制功能、语音识别功能、动作识别功能、光接收控制功能、显示控制功能、音频控制功能、外部输入控制功能、电力控制功能或以无线方式(例如，蓝牙)连接的外部装置的电力控制功能。控制器1710可以通过使用存储在存储装置1790中的软件来执行这些功能。

图14和图17中所示的图像处理装置100和1700的框图仅是本公开的示例性实施例。当实际实现时，可以根据图像处理装置100和1700的规格来组合或省略图14和图17中所示的组件，或者可以在图14和图17的框图中包括附加组件。换句话说，两个或更多个组件可以组合成单个组件，或者单个组件可以划分成两个或更多个组件。在每个框中执行的功能仅仅是用于说明本公开的实施例的示例，并且每个框的详细操作或设备不限制本公开的实施例的范围。

根据本公开的实施例的操作图像处理装置的方法可以被实现为可由各种计算机装置执行的程序命令，并且可以被记录在计算机可读记录介质上。计算机可读记录介质可以单独地或组合地包括程序命令、数据文件、数据结构等。要记录在计算机可读记录介质上的程序命令可以被特别设计和配置用于本公开的实施例，或者可以是计算机软件领域的普通技术人员所熟知和可用的。计算机可读记录介质的示例包括：诸如硬盘、软盘和磁带的磁性介质；诸如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)的光学介质；诸如光磁软盘的磁光介质；以及诸如ROM、随机存取存储器(RAM)或闪存的被专门配置为存储和执行程序命令的硬件设备。程序命令的示例是可以由计算机通过使用解释器等执行的高级语言代码以及由编译器产生的机器语言代码。

此外，可以在计算机程序产品中提供根据所公开的实施例的图像处理装置或操作图像处理装置的方法。计算机程序产品可以在卖方和买方之间作为产品进行交易。

计算机程序产品可以包括软件程序和其上存储有软件程序的计算机可读存储介质。例如，计算机程序产品可以包括通过电子设备的制造商或电子市场(例如，Google PlayStore、AppStore)以电子方式分发的软件程序(例如，可下载的应用)形式的产品。针对电子分发，软件程序的至少一部分可以存储在存储介质上，或者可以被临时创建。在这种情况下，存储介质可以是制造商的服务器、电子市场的服务器或用于暂时存储SW程序的中继服务器的存储介质。

在包括服务器和客户端设备的系统中，计算机程序产品可以包括服务器的存储介质或客户端设备的存储介质。替代地，当存在与服务器或客户端设备通信的第三设备(例如，智能电话)时，计算机程序产品可以包括第三设备的存储介质。替代地，计算机程序产品可以包括从服务器发送到客户端设备或第三设备或者从第三设备发送到客户端设备的S/W程序本身。

在这种情况下，服务器、客户端设备和第三设备中的一个可以执行计算机程序产品以执行根据所公开的实施例的方法。替代地，服务器、客户端设备和第三设备中的两个可以执行计算机程序产品以分发和执行根据所公开的实施例的方法。

例如，服务器(例如，云服务器或人工智能服务器)可以执行存储在服务器上的计算机程序产品，以控制与服务器通信的客户端设备执行根据所公开的实施例的方法。

根据本公开的实施例的图像处理装置可以在主神经网络中生成最终输出图像之前通过使用子神经网络生成中间输出图像，因此从用户的角度来看可以减少等待时间。

图像处理装置可以生成中间输出图像，并且用户可以基于中间输出图像确定是否在主神经网络中生成最终输出图像。

图像处理装置可以包括尽管彼此类似地对图像进行部分处理但是输出不同结果的神经网络，作为主神经网络和子神经网络，从而提高神经网络训练的效率。

尽管不限于此，但是示例实施例可以被实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可以存储之后能够被计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光学数据存储设备。计算机可读记录介质也可以分布在联网的计算机系统上，使得按照分布方式存储和执行计算机可读代码。此外，示例实施例可以被写为计算机程序，所述计算机程序通过计算机可读传输介质(例如，载波)传输，并在执行所述程序的通用或专用数字计算机中被接收和执行。此外，可以理解在示例实施例中，上述设备和装置的一个或多个单元可以包括电路、处理器、微处理器等，并且可以执行存储在计算机可读介质中的计算机程序。

上述示例性实施例仅仅是示例性的而不应被解释为限制。本教导能够被容易地应用于其他类型的装置。此外，对示例性实施例的描述意在是说明性的，而不是为了限制权利要求的范围，并且本领域技术人员将清楚多种替代、修改和变化。

Claims

1.一种图像处理装置，包括：

存储器，存储一个或多个指令以及用于主神经网络和子神经网络的数据结构；以及

处理器，被配置为执行存储在所述存储器中的所述一个或多个指令，通过使用所述主神经网络处理输入图像以获得中间结果数据，并且在通过使用所述主神经网络正处理所述输入图像的同时通过使用所述子神经网络处理所述中间结果数据以输出中间图像。

2.根据权利要求1所述的图像处理装置，其中，

所述主神经网络包括多个第一卷积层，并且

所述处理器还被配置为通过使用所述多个第一卷积层内的一个或多个内核对所述输入图像执行第一卷积运算，以提取特征信息，并基于提取的特征信息输出所述中间结果数据。

3.根据权利要求1所述的图像处理装置，其中，

所述子神经网络包括一个或多个第二卷积层，并且

所述处理器还被配置为通过在所述一个或多个第二卷积层内将一个或多个内核应用于所述中间结果数据来执行第二卷积运算，以提取特征信息，并基于提取的特征信息生成所述中间图像。

4.根据权利要求1所述的图像处理装置，其中，所述处理器还被配置为通过使用所述主神经网络处理所述输入图像以获得最终输出图像。

5.根据权利要求4所述的图像处理装置，其中，所述主神经网络是被训练为通过将预设样式应用于所述输入图像来生成所述最终输出图像的网络，并且所述预设样式应用于所述中间图像的程度小于所述预设样式应用于所述最终输出图像的程度。

6.根据权利要求4所述的图像处理装置，其中，通过使用所述主神经网络根据所述输入图像生成所述最终输出图像所花费的第一时间段大于通过使用所述主神经网络和所述子神经网络根据所述输入图像生成所述中间图像所花费的第二时间段。

7.根据权利要求6所述的图像处理装置，其中，所述处理器还被配置为预测所述第一时间段和所述第二时间段并且基于预测的第一时间段和预测的第二时间段确定是否通过使用所述子神经网络生成所述中间图像。

8.根据权利要求4所述的图像处理装置，还包括显示器，其中，所述处理器还被配置为控制所述显示器显示从当前时间点起生成所述中间图像或所述最终输出图像中的至少一个所花费的时间段。

9.根据权利要求4所述的图像处理装置，其中，所述处理器还被配置为基于用户输入，在生成所述最终输出图像之前停止对所述输入图像的处理。

10.一种操作图像处理装置的方法，所述方法包括：

通过使用主神经网络处理输入图像；

通过使用所述主神经网络根据所述输入图像获得中间结果数据，同时处理所述输入图像以获得最终输出图像；以及

通过使用子神经网络基于所述中间结果数据生成中间图像。

11.根据权利要求10所述的方法，其中，

所述主神经网络包括多个第一卷积层，

通过使用所述主神经网络处理所述输入图像包括：通过对所述输入图像和所述多个第一卷积层中的一个或多个内核执行第一卷积运算来提取特征信息，并且

获得所述中间结果数据包括：基于提取的特征信息生成所述中间结果数据。

12.根据权利要求10所述的方法，其中，

所述子神经网络包括一个或多个第二卷积层，并且

生成所述中间图像包括：

通过将所述中间结果数据应用于所述一个或多个第二卷积层中的一个或多个内核以执行第二卷积运算来提取特征信息；并且

基于提取的特征信息生成所述中间图像。

13.根据权利要求10所述的方法，还包括：通过使用所述主神经网络处理所述输入图像来生成所述最终输出图像。

14.根据权利要求13所述的方法，其中，所述主神经网络是被训练为通过将预设样式应用于所述输入图像来生成所述最终输出图像的网络，并且所述预设样式应用于所述中间图像的程度小于所述预设样式应用于所述最终输出图像的程度。

15.根据权利要求13所述的方法，其中，通过使用所述主神经网络根据所述输入图像生成所述最终输出图像所花费的第一时间段大于通过使用所述主神经网络和所述子神经网络根据所述输入图像生成所述中间图像所花费的第二时间段。