CN112534443A - 图像处理设备及其操作方法 - Google Patents
图像处理设备及其操作方法 Download PDFInfo
- Publication number
- CN112534443A CN112534443A CN201980051536.7A CN201980051536A CN112534443A CN 112534443 A CN112534443 A CN 112534443A CN 201980051536 A CN201980051536 A CN 201980051536A CN 112534443 A CN112534443 A CN 112534443A
- Authority
- CN
- China
- Prior art keywords
- image
- classifier
- data
- input
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 209
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 77
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 22
- 230000009467 reduction Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000011017 operating method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/64—Circuits for processing colour signals
- H04N9/67—Circuits for processing colour signals for matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
公开了一种图像处理设备。图像处理设备包括存储一个或多个指令的存储器以及配置为执行存储在存储器中的一个或多个指令的处理器,其中处理器还被配置为:获得指示图像处理的目的的第一图像和分类符,并且通过使用深度神经网络(DNN)来处理第一图像,DNN根据分类符指示的目的来处理输入图像,其中DNN根据不同的目的来处理输入图像。
Description
技术领域
各种实施例涉及一种通过使用深度神经网络来处理图像的图像处理设备及其操作方法,更具体地,涉及一种通过使用单个网络来根据不同目的处理输入图像的图像处理设备及其操作方法。
背景技术
随着数据流量伴随着计算机技术的发展而指数增长,人工智能(AI)已成为推动未来创新的主要趋势。因为AI模仿人类是如何思考的,所以它可以无限地应用于基本上所有的行业。AI的代表性技术可以包括模式识别、机器学习、专家系统、神经网络、自然语言处理等。
神经网络通过使用数学表达式来模拟人类生物神经元的特征,并且使用模拟被称为学习的人类能力的算法。通过使用这种算法,神经网络可以生成输入数据和输出数据之间的映射,并且生成映射的能力可以被表示为神经网络的学习能力。此外,神经网络具有泛化能力(generalization ability),通过该泛化能力能力,可以基于训练后的结果来生成针对还没有用于训练的输入数据的校正输出数据。
发明内容
技术问题
各种实施例可以提供一种图像处理设备及其操作方法,该图像处理设备能够通过使用单个深度神经网络根据各种目的处理输入图像。
公开的有益效果
根据实施例的图像处理设备可以通过使用单个深度神经网络来根据各种目的处理图像。
根据实施例的图像处理设备可以根据各种目的调整图像处理级别。
附图说明
图1示出了使用不同训练数据集训练的第一深度神经网络、第二深度神经网络和第三深度神经网络。
图2示出了根据实施例的由图像处理设备执行的根据不同目的处理输入图像的过程。
图3是根据实施例的图像处理设备的操作方法的流程图。
图4是根据实施例的用于描述由图像处理设备执行的处理图像的方法的参考图。
图5是根据实施例的用于描述由图像处理设备执行的生成输入图像和分类符的方法的参考图。
图6是用于描述由图4的第一卷积层执行的处理卷积操作的过程的参考图。
图7示出了根据实施例的图4的第一卷积层的输入数据和输出数据。
图8示出了图1的第三深度神经网络中的第一卷积层的输入数据和输出数据。
图9示出了根据实施例的深度神经网络的输入数据和输出数据。
图10示出了根据实施例的深度神经网络的输入数据和输出数据。
图11是用于描述根据实施例的生成分类符的方法的参考图。
图12示出了根据实施例的基于第一图像生成的标识图像。
图13是用于描述根据实施例的训练深度神经网络的方法的参考图。
图14是根据实施例的用于描述被配置成根据多个目的执行图像处理的深度神经网络的参考图。
图15是根据实施例的用于描述生成用于训练深度神经网络的训练数据集的方法的参考图。
图16是根据实施例的图像处理设备的框图。
图17是根据实施例的处理器的框图。
图18是根据实施例的图像处理器的框图。
具体实施方式
根据本公开的实施例,提供了一种图像处理设备,其包括:存储器,存储一个或多个指令;以及处理器,其被配置为执行存储在存储器中的一个或多个指令,其中处理器还被配置为:获得指示图像处理的目的的第一图像和分类符,并且通过使用深度神经网络(DNN)来处理第一图像,DNN根据分类符指示的目的来处理输入图像,其中DNN根据不同的目的来处理输入图像。
DNN可以包括N个卷积层,并且处理器还可以被配置为基于第一图像生成输入图像,通过执行卷积操作来提取特征信息,在该卷积操作中,将一个或多个核应用于输入图像和N个卷积层中的分类符,并且基于所提取的特征信息生成第二图像。
处理器还可以被配置为:将包括在第一图像中的R、G和B通道转换为YUV模式的Y通道、U通道和V通道,并且确定Y通道、U通道和V通道中的Y通道的图像作为输入图像。
处理器还可以被配置为:基于通过处理DNN中的Y通道的图像而输出的图像以及基于Y通道、U通道和V通道中的U和V通道的图像来生成第二图像。
包括在分类符中的像素可以具有第一值和大于第一值的第二值中的至少一个,第一值可以指示第一目的,第二值可以指示第二目的。
处理器还可以被配置为:当包括在分类符中的所有像素具有第一值时,根据第一目的处理第一图像,并且当包括在分类符中的所有像素具有第二值时,根据第二目的处理第一图像。
当包括在分类符中的第一区域中的像素具有第一值并且包括在分类符中的第二区域中的像素具有第二值时,可以根据第一目的处理第一图像中的与第一区域对应的第三区域,并且可以根据第二目的处理第一图像中的与第二区域对应的第四区域。
处理器还可以被配置为:根据基于第一目的的图像处理级别和根据第二目的的图像处理级别来处理第一图像,第一目的和第二目的是基于包括在分类符中的像素的值、第一值和第二值来确定的。
处理器可还配置成基于第一图像的特性来生成分类符。
处理器还可被配置为:生成指示包括在第一图像中的文本和边缘的映射图像,并基于映射图像来确定包括在分类符中的像素的值。
DNN可以由包括第一图像数据的第一训练数据集、具有作为像素值的第一值的第一分类符和通过根据第一目的处理第一图像数据而获得的第一标签数据来训练,并且可以由包括第二图像数据的第二训练数据集、具有作为像素值的第二值的第二分类符和通过根据第二目的处理第二图像数据而获得的第二标签数据来训练。
处理器还可以被配置为:调整包括在DNN中的一个或多个核的权重以减小第一标签数据与当第一图像数据和第一分类符输入到DNN时输出的图像数据之间的差;以及调整包括在DNN中的一个或多个核的权重以减小第二标签数据与当第二图像数据和第二分类符输入到DNN时输出的图像数据之间的差。
根据本公开的另一个实施例,提供了一种图像处理设备的操作方法,该方法包括:获得第一图像和指示图像处理目的的分类符;根据分类符指示的目的,利用深度神经网络(DNN)对第一图像进行处理,其中DNN根据不同的目的对多个图像进行处理。
根据本公开的另一实施例,提供了一种计算机程序产品,其包括存储有程序的一个或多个计算机可读记录介质,该程序配置为执行以下操作:获得第一图像和指示图像处理的目的的分类符;以及通过使用配置成根据不同目的对多个图像进行处理的深度神经网络(DNN)根据分类符指示的目的对第一图像进行处理。
公开的实施例
将示意性地描述本说明书中使用的术语,然后将详细描述本发明。
本发明中使用的术语是本领域当前广泛使用的那些通用术语,但是这些术语可以根据本领域普通技术人员的意图、先例或本领域的新技术而变化。此外,可以由申请人选择指定的术语,并且在这种情况下,将在详细描述中描述其详细含义。因此,本发明中使用的术语不应被理解为简单的名称,而应基于术语的含义和总体描述来解释。
在整个说明书中,还应当理解,当部件“包括”一个元件时,除非对其进行了另一个相反的描述,否则应当理解为该部件不排除另一个元件,而是可以进一步包括另一个元件。此外,诸如“单元”、“模块”等术语是指执行至少一个功能或操作的单元,并且这些单元可以被实现为硬件或软件,或者实现为硬件和软件的组合。
在下文中,将参考附图详细描述实施例,使得本发明所属领域的普通技术人员可以容易地实现实施例。然而,本发明可以以许多不同的形式来实施,而不应被解释为限于本文的实施例。在附图中,省略了与说明书无关的部分以清楚地描述本发明,并且在整个说明书中相同的参考标号表示相同的元件。
图1示出了使用不同训练数据集训练的第一深度神经网络(DNN1)、第二深度神经网络(DNN2)和第三深度神经网络(DNN3)。
参照图1,DNN1可以由第一训练数据集11训练。这里,第一训练数据集11可以是用于图像的细节增强(例如,第一目的)的训练数据集。例如,第一训练数据集11可以包括多条第一图像数据D1和多条第一标签数据L1。作为与各条第一图像数据D1对应的高分辨率图像数据,各条第一标签数据L1可以是当各条第一图像数据D1被转换成高分辨率图像时通过增强纹理表示而获得的各条图像数据。
DNN2可以由第二训练数据集21训练。这里,第二训练数据集21可以是用于增强包括在图像中的文本或边缘的训练数据集(第二目的)。例如,第二训练数据集21可以包括第二图像数据D2和第二标签数据L2。作为对应于第二图像数据D2的高分辨率图像数据,各条第二标签数据L2可以是当第二图像数据D2被转换成高分辨率图像时,通过减少出现在文本或边缘(增强文本或边缘表示)周围的锯齿等而获得的各条图像数据。
此外,DNN3可以由第一训练数据集11和第二训练数据集21训练。
如图1所示,当第一图像10输入到DNN1时,DNN1可以输出第一输出图像15,并且第一输出图像15可以是通过增强第一图像10的纹理表示而获得的高分辨率图像。此外,当第二图像20输入到DNN2时,DNN2可以输出第二输出图像25,并且第二输出图像25可以是通过增强第二图像20的文本或边缘表示而获得的高分辨率图像。
另一方面,当第一图像10输入到DNN3时,DNN3可以输出第三输出图像35,并且在这种情况下,第三输出图像35的细节增强(纹理表示增强)程度小于第一输出图像15的细节增强程度。此外,当第二图像20输入到DNN3时,DNN3可以输出第四输出图像45,并且在这种情况下,第四输出图像45的文本或边缘表示增强的程度小于第二输出图像25的程度。
由用于训练第一目的(细节增强)的第一训练数据集11和用于训练第二目的(文本或边缘增强)的第二训练数据集21训练的DNN3不具有由第一训练数据集11训练的DNN1的性能和由第二训练数据集21训练的DNN2的性能。
图2示出了根据实施例的由图像处理设备执行的根据不同目的处理输入图像的过程。
根据实施例的图像处理设备100可以通过使用深度神经网络(DNN)150来处理输入图像。根据实施例的DNN 150可以由用于训练第一目的(例如,细节增强)的第一训练数据集210和用于训练第二目的(例如,文本或边缘增强)的第二训练数据集220来训练。这里,第一训练数据集210可以包括第一图像数据D1、指示第一目的的第一分类符C1、以及第一标签数据L1。各条第一图像数据D1和各条第一标签数据L1与参考图1描述的各条第一图像数据D1和各条第一标签数据L1相同。当输入各条第一图像数据D1和第一分类符C1时,可以训练DNN150以输出各条第一标签数据L1。此外,第二训练数据集220可以包括第二图像数据D2、指示第二目的的第二分类符C2、以及第二标签数据L2。第二图像数据D2和第二标签数据L2与参照图1描述的第二图像数据D2和第二标签数据L2相同。当输入第二图像数据D2和第二分类符C2时,可以训练DNN 150以输出第二标签数据L2。
根据实施例的图像处理设备100可以向DNN 150输入第一图像10和指示第一目的(细节增强)的第一分类符C1,并且DNN 150可以通过根据由第一分类符C1指示的第一目的(例如,细节增强)处理第一图像10来输出第一输出图像230。这里,第一输出图像230中的细节增强程度可以与参考图1描述的DNN1的第一输出图像15的细节增强程度相同或相似。
此外,图像处理设备100可以向DNN 150输入第二图像20和指示第二目的(例如,文本或边缘增强)的第二分类符C2,并且DNN 150可以通过根据由第二分类符C2指示的第二目的(例如,文本或边缘增强)处理第二图像20来输出第二输出图像240。这里,第二输出图像240中的文本或边缘增强的程度可以与参考图1描述的DNN2的第二输出图像25的程度相同或相似。
根据实施例的图像处理设备100可以通过使用由图像数据训练的单个DNN、指示图像数据的处理目的的分类符、以及对应于图像数据的标签数据根据不同的目的来处理多个图像。
图3是根据实施例的图像处理设备的操作方法的流程图。
参照图3,在操作S310,根据实施例的图像处理设备100可以获得第一图像和指示图像处理目的的分类符。
图像处理设备100可以基于第一图像生成要输入到DNN的输入图像和分类符。例如,图像处理设备100可以通过颜色空间转换将包括在第一图像中的R通道、G通道和B通道转换为Y通道、U通道和V通道,并确定Y通道、U通道和V通道中的Y通道的图像作为输入图像。当尝试根据第一目的对第一图像执行图像处理时,图像处理设备100可以将分类符的像素值确定为与第一目的对应的第一值,并且当尝试根据第二目的对第一图像执行图像处理时,将分类符的像素值确定为与第二目的对应的第二值。或者,图像处理设备100可以从第一图像中提取边缘和文本,并基于所提取的边缘和文本生成分类符。
在操作S320中,根据实施例的图像处理设备100可以根据分类符所指示的目的,通过使用DNN来处理第一图像。
DNN可以包括N个卷积层,并且图像处理设备100可以通过执行卷积操作来提取特征信息(特征图),在卷积操作中,将一个或多个核应用于输入图像和N个卷积层中的每一个中的标识图像,并且基于所提取的特征信息,根据分类符所指示的目的来处理第一图像。
图像处理设备100可以基于包括在分类符中的像素的值、对应于第一目的的第一值、以及对应于第二目的的第二值来确定根据第一目的的图像处理级别和根据第二目的的图像处理级别,并且根据所确定的级别来处理第一图像。
另一方面,图像处理设备100可以通过使用具有不同目的的多个训练数据集来训练DNN。例如,图像处理设备100可以通过使用第一训练数据集和第二训练数据集来训练DNN,第一训练数据集包括各条图像数据、第一分类符、以及通过根据第一目的处理各条图像数据而获得的各条第一标签数据,第二训练数据集包括第二各条图像数据、第二分类符、以及通过根据第二目的处理第二各条图像数据而获得的各条第二标签数据。
图像处理设备100可以调整包括在DNN中的一个或多个核的权重,以减小各条第一标签数据与当将第一各条图像数据和第一分类符输入到DNN时输出的各条图像数据之间的差异。此外,图像处理设备100可以调整包括在DNN中的一个或多个核的权重,以减小各条第二标签数据与当将第二图像数据和各条第二分类符输入到DNN时输出的各条图像数据之间的差异。
图4是根据实施例的用于描述由图像处理设备执行的处理图像的方法的参考图。
参照图4,根据实施例的图像处理设备100可以接收第一图像410。图像处理设备100可以将第一图像410输入到DNN 150,或者基于第一图像410生成要输入到DNN 150的输入图像420。此外,根据实施例的图像处理设备100可以生成分类符430,该分类符430指示对第一图像410进行图像处理的目的。将参考图5详细描述生成输入图像420和分类符430的方法。
图5是根据实施例的用于描述由图像处理设备执行的生成输入图像和分类符的方法的参考图。
参照图5,第一图像410可以包括R通道、G通道和B通道(RGB3ch)。根据实施例的图像处理设备100可以将包括在第一图像410中的R通道、G通道和B通道(RGB 3ch)确定为要输入到DNN 150的输入图像。
或者,图像处理设备100可通过颜色空间转换将包括在第一图像410中的R通道、G通道和B通道(RGB 3ch)转换为Y通道、U通道和V通道(YUV 3ch)。这里,Y通道420指示亮度信号,U通道指示亮度信号和蓝色分量之间的差,而V通道指示亮度信号和红色分量之间的差。图像处理设备100可以确定转换后的Y通道、U通道和V通道(YUV 3ch)中的Y通道420的图像作为要输入到DNN 150的输入图像。然而,本实施例不限于此。
此外,根据实施例的图像处理设备100可以生成指示图像处理的目的的分类符430。这里,分类符430可以具有一个像素值或者对于每个区域具有不同的像素值。此外,分类符430的像素值可基于用户输入或待处理的图像(例如,第一图像410)来确定。
例如,当尝试根据第一目的对整个第一图像410执行图像处理时,图像处理设备100可以生成分类符430,使得分类符430的所有像素具有对应于第一目的的第一值。或者,当尝试根据第二目的对整个第一图像410执行图像处理时,图像处理设备100可以生成分类符430,使得分类符430的所有像素具有对应于第二目的的第二值。
或者,图像处理设备100可以基于第一图像410生成分类符430。例如,图像处理设备100可以通过对第一图像410的图像进行分析来确定是根据第一目的还是根据第二目的处理第一图像410。当在第一图像410中主要包括纹理时,图像处理设备100可以确定应该根据第一目的对第一图像410进行处理,并且当在第一图像410中主要包括文本或边缘时,图像处理设备100可以确定应该根据第二目的对第一图像410进行处理。此外,图像处理设备100可以确定对于包括在第一图像410中的每个区域,应该根据第一目的还是第二目的来处理相应的区域。因此,当假定根据第一目的处理第一图像410或第一图像410的部分区域(第一区域)时,图像处理设备100可以生成分类符430,使得包括在分类符430的整个区域或部分区域(对应于第一区域的区域)中的像素具有第一值。或者,当假定根据第二目的处理第一图像410或第一图像410的部分区域(第二区域)时,图像处理设备100可以生成分类符430,使得包括在分类符430的整个区域或部分区域(对应于第二区域的区域)中的像素具有第二值。这将参考图11和图12详细描述。
图像处理设备100可以添加所生成的分类符430作为输入到DNN150的输入通道。因此,输入图像420和分类符430可以输入到DNN150。
回到图4,图像处理设备100可以通过使用DNN(150)根据分类符430所指示的目的来处理输入图像420,并输出处理后的图像。
例如,DNN 150可以包括N个卷积层(两个或多个卷积层)。DNN150具有这样的结构,在该结构中,输入数据(例如,输入图像420和分类符430)被输入并通过N个卷积层以输出输出数据。此外,在DNN 150中,可以执行除通过将一个或多个核应用到特征映射(特征信息)而执行的卷积操作之外的其它处理操作,并且可以在卷积层之间执行这些处理操作。例如,可以执行激活功能、池化等操作。
根据实施例的图像处理设备100可以通过使用DNN 150从输入图像420中提取诸如轮廓、线和颜色的“特征”。包括在DNN 150中的N个卷积层中的每一个都可以接收数据,处理所接收的数据,并生成输出数据。例如,图像处理设备100通过对输入到第一卷积层440的图像(例如,输入图像420和分类符430)应用一个或多个核或过滤器来执行卷积操作,并提取第一特征映射(第一特征信息)作为卷积操作结果。这将参考图6和图7详细描述。
此外,图像处理设备100可以应用激活函数来将所提取的第一特征映射的值改变为指示特征“存在或不存在”的非线性值。在这种情况下,可以使用Relu函数,但是本实施例不限于此。此外,图像处理设备100可以执行降采样(池化)以减小所提取的特征映射的大小,并且在这种情况下,可以使用最大池化、平均池化、L2范数池化等,但是本实施例不限于此。
参考图4,DNN 150可以包括M个残差块。残差块450可以包括一个或多个卷积层,并且图像处理设备100可以执行对数据460(例如,已经应用了Relu函数的第一特征映射)进行逐元素求和(element-wisely summing)的操作(逐元素求和)470,从而跳过包括在残差块450中的卷积层以及已经通过了包括在残差块450中的卷积层的数据(例如,从第三卷积层提取的并且已经应用了Relu函数的第三特征映射)。
此外,DNN 150可以包括去卷积层480。这里,从去卷积层480提取的特征信息的大小可以大于输入到去卷积层480的特征信息的大小。
此外,图像处理设备100可以放大输入到DNN 150的数据。这里,图像处理设备100可以通过对输入到DNN 150的数据应用双线性插值方法、双三次插值方法和卷积插值方法中的至少一个来放大输入数据。图像处理设备100可以通过对放大的图像数据和从去卷积层480提取的特征信息进行逐元素地求和的操作(逐元素求和)来生成输出数据。然而,本实施例不限于此。
此外,图像处理设备100可以放大Y通道、U通道和V通道(YUV3ch)中的U通道和V通道的图像。这里,图像处理设备100可以通过对U通道和V通道的图像应用双线性插值方法、双三次插值方法和卷积插值方法中的至少一个来放大U通道和V通道的图像。第二图像490可以通过将图像数据的放大部分和输出数据级联来生成。在这种情况下,可以通过根据分类符430所指示的目的处理第一图像410来获得第二图像490。
图6是用于描述由图4的第一卷积层440执行的处理卷积操作的过程的参考图。
参照图6,假设第一卷积层440的输入数据600具有8*8的大小,并且通道的数量是2(例如,输入图像610和分类符620)。此外,假设应用于输入数据600的核的大小是3*3*2(水平*垂直*深度),并且核的数量是n。这里,核的深度具有与输入数据600的通道数相同的值。可以认为,一个核包括两个子核,每个子核具有3*3的大小,并且这两个子核可以分别对应于输入数据600的两个通道(输入图像610和分类符620)。
参照图6,示出了通过将包括在第一核Kernel1中的子核631和632应用到输入数据600的左上端到右下端来提取输入数据600的特征的过程。例如,可以通过将第一核Kernel1应用到在输入数据600的左上端处的3*3*2区域611和621中包括的像素来执行卷积操作。也就是说,可以通过将包括在左上端的3*3*2区域611和621中的像素值分别乘以包括在第一核Kernel1中的权重并将相乘结果求和来生成映射到左上端的3*3*2区域611和621的像素值641。
此外,可以通过将包括在3*3*2区域612和622中的像素值分别乘以包括在第一核Kernel1中的权重并将乘法结果求和来生成映射到分别从输入数据600的左上端处的3*3*2区域611和621偏移一个像素的3*3*2区域612和622的像素值642。
以相同的方式,可以通过执行第一核Kernel1中包括的权重的乘法和加法,同时扫描输入数据600内从左到右和从上到下逐个像素的卷积操作区域,来生成像素值。因此,可以输出6*6特征映射(输出数据)640。在这种情况下,可以在逐个像素移位的同时扫描卷积操作的数据,但是可以在每两个或更多像素移位的同时扫描卷积操作的数据。在扫描过程中输入数据被移位的像素的数量被称为步幅,并且可以根据该步幅的大小来确定要输出的特征图的大小。
参照图6,输入数据600具有8*8的大小,但是输出数据640具有6*6的大小,其小于输入数据600的大小。DNN包括多个卷积层,并且当通过多个卷积层时,数据的大小保持减小。在这种情况下,当在特征被充分提取之前数据的大小减小时,输入数据的特征可能丢失,并且为了防止这个问题,可以执行填充(padding)。填充表示通过向输入数据的边缘赋予某一值(例如,“0”)来指示增加输入数据的大小以防止输出数据减小。然而,本实施例不限于此。
尽管图6仅示出了第一核Kernel1的卷积操作结果,但是当对n个核执行卷积操作时,可以输出n个特征映射。即,输出数据的通道的数量根据核的数量(n)来确定,并且因此,也可以确定下一层中的输入数据的通道的数量。
图7示出了根据实施例的图4的第一卷积层440的输入数据和输出数据。
参照图7,图像处理设备100可以将第一输入数据Input1输入到第一卷积层440。这里,第一输入数据Input1可以包括两个通道,包括第一输入图像I1和第一分类符C1。这里,作为主要包括纹理的图像,第一输入图像I1可以是要被处理的图像,以便当图像被转换成高分辨率图像时增强纹理表示。此外,第一分类符C1的像素值可以是指示第一目的(例如,图像的细节增强)的第一值。当输入第一输入图像I1和第一分类符C1时,第一卷积层440可以通过对第一输入图像I1和第一分类符C1应用n个核来执行卷积操作,如参考图6所描述的那样。作为卷积操作的结果,如图7所示,可以提取n个第一特征映射710。
此外,图像处理设备100可以将第二输入数据Input2输入到第一卷积层440。这里,第二输入数据Input2可以包括两个通道,包括第二输入图像I2和第二分类符C2。这里,作为主要包括文本或边缘的图像,第二输入图像I2可以是要被处理的图像,以便当图像被转换成高分辨率图像时增强文本或边缘表示。此外,第二分类符C2的像素值可以是指示第二目的(例如,文本或边缘增强)的第二值。
当输入第二输入图像I2和第二分类符C2时,第一卷积层440可以通过对第二输入图像I2和第二分类符C2应用n个核来执行卷积操作,如参考图6所描述的那样。作为卷积操作的结果,如图7所示,可以提取n个第二特征映射720。
当图7的第一特征映射710和第二特征映射720彼此比较时,纹理特征在第一特征映射710中比第二特征映射720更好地表示,并且文本或边缘特征在第二特征映射720中比第一特征映射710更好地表示。
图8示出了图1的DNN3中的第一卷积层的输入数据和输出数据。
参照图8,当第一输入图像I1输入到参照图1描述的DNN3中所包括的第一卷积层时,可以提取第三特征映射810。此外,当第二输入图像I2输入到包括在DNN3中的第一卷积层时,可以提取第四特征映射820。
当图7的第一特征映射710与图8的第三特征映射810比较时,在第一输入图像I1中包括的纹理特征在第一特征映射710中比在第三特征映射810中更好地表示。此外,当将图7的第二特征映射720与图8的第四特征映射820进行比较时,文本或边缘特征在第二特征映射720中比第四特征映射820更好地表示。
因此,根据实施例的DNN 150可以根据分类符指示的目的对输入图像执行图像处理。
图9示出了根据实施例的DNN的输入数据和输出数据。
参照图9,当第一图像910和第一分类符931输入到DNN 150时,输出第三图像930,并且当第二图像920和第一分类符931输入到DNN150时,输出第四图像940。这里,第一分类符931的像素值可以具有指示细节增强(纹理表示增强)的第一值。当要处理的图像和第一分类符931都输入到DNN 150时,图像处理的目的可以被确定为第一分类符931的细节增强。
第一图像910是主要包括纹理的图像,因此,输出第三图像930可以是通过增强第一图像910的细节而获得的高分辨率图像。然而,第二图像920是主要包括纹理或边缘的图像,因此,输出的第四图像940可能不显示文本或边缘增强的效果。
当第一图像910和第二分类符932输入到DNN 150时,输出第五图像950,并且当第二图像920和第二分类符932输入到DNN 150时,输出第六图像960。这里,第二分类符932的像素值可以具有指示文本或边缘增强的第二值。当要处理的图像和第二分类符932都输入到DNN 150时,图像处理的目的可以由第二分类符932确定为文本或边缘增强。
第二图像920是主要包括文本或边缘的图像,因此,输出第六图像960可以是通过增强包括在第二图像920中的文本或边缘而获得的高分辨率图像。然而,第一图像910是主要包括纹理的图像,因此,输出第五图像950可能不显示纹理增强的效果。
图10示出了根据实施例的DNN的输入数据和输出数据。
参照图10,当第一图像910和第三分类符933输入到DNN 150时,可以输出第七图像970。第三分类符933的像素值可以具有第三值。这里,当指示细节增强的第一值小于指示文本或边缘增强的第二值时,第三值可以小于第一值。或者,当第一值大于第二值时,第三值可以大于第一值。输出第七图像970可以表现出比参考图9描述的第三图像930中表现出的细节增强效果更好的细节增强效果。
此外,当第二图像920和第四分类符934输入到DNN 150时,可以输出第八图像980。第四分类符934的像素值可以具有第四值。这里,当第二值大于第一值时,第四值可以大于第二值。或者,当第二值小于第一值时,第四值可以小于第二值。在这种情况下,输出的第八图像980可以表现出比参考图9描述的第六图像960中表现出的文本或边缘增强效果更好的文本或边缘增强效果。
图11是用于描述根据实施例的生成分类符的方法的参考图。
参照图11,根据实施例的图像处理设备100可以基于要处理的第一图像1010生成分类符1030。
例如,图像处理设备100可以通过提取第一图像1010的边缘和文本来生成指示第一图像1010的边缘和文本的映射图像1020。图像处理设备100可以通过使用各种已知的边缘提取过滤器或文本提取过滤器来提取第一图像1010的边缘和文本。
在这种情况下,在指示边缘和文本的映射图像1020中,边缘和文本区域中的像素值可以被设置为具有第二值,而其它区域中的像素值可以被设置为具有第一值。然而,本实施例不限于此。
图像处理设备100可以通过平滑指示边缘和文本的映射图像1020来生成分类符1030。这里,平滑可以是用于调整边缘和文本周围的像素值以便像素值平滑地改变的图像处理。
参照图11,在分类符1030中,对应于第一图像1010的第一区域A1(其被表示为纹理)的区域可以包括主要具有第一值的像素,并且对应于第一图像1010的第二区域A2(其被表示为文本)的区域可以包括主要具有第二值的像素。
此外,图像处理设备100可以将第一图像1010和生成的分类符1030输入到DNN150,从而生成通过将第一图像1010转换成高分辨率图像而获得的输出图像1040。这里,在输出图像1040中,与第一图像1010的第一区域A1对应的被表示为纹理的区域1041可以表现出细节增强(纹理表示增强)的效果,并且与第一图像1010的第二区域A2对应的被表示为文本的区域1042可以表现出文本增强的效果。
图12示出了根据实施例的基于第一图像生成的标识图像。
参照图12,图像处理设备100可以接收要处理的图像。接收到的图像可以被分类为主要包括纹理表示的图像和主要包括文本或边缘表示的图像。例如,第一至第三图像1210、1220和1230可以是主要包括纹理表示的图像,并且第四至第六图像1240、1250和1260可以是主要包括文本或边缘表示的图像。
当接收到的图像是主要包括纹理表示的图像时,图像处理设备100可以将分类符的像素值确定为第一值,并且生成其中每个像素值具有第一值的第一分类符C1。在这种情况下,包括在图像处理设备100中的DNN 150可以是通过当用训练数据训练网络时输入第一分类符C1以及用于纹理表示增强的训练数据而训练出的网络。
或者,当接收到的图像是主要包括文本或边缘表示的图像时,图像处理设备100可以将分类符的像素值确定为第二值,并且生成具有第二值作为每个像素值的第二分类符C2。在这种情况下,包括在图像处理设备100中的DNN 150可以是通过在用训练数据训练网络时输入第二分类符C2以及用于文本或边缘表示增强的训练数据而训练出的网络。
图13是用于描述根据实施例的训练DNN的方法的参考图。
参照图13,根据实施例的DNN 150可以由具有不同目的的多个训练数据集来训练。例如,训练数据集可以包括用于根据第一目的的图像处理的训练的第一训练数据集D1和L1以及用于根据第二目的的图像处理的训练的第二训练数据集D2和L2。这里,根据第一目的的图像处理可以包括处理输入图像以便当输入图像被转换成高分辨率图像时增强细节(纹理表示)。此外,根据第二目的的图像处理可以包括处理输入图像以便当输入图像被转换成高分辨率图像时增强文本或边缘表示。尽管图13示出了根据两个目的的训练的示例,但是本实施例不限于此。
第一训练数据集D1和L1可以包括第一图像数据D1和第一标签数据L1。作为通过将各条第一图像数据D1转换为高分辨率图像而获得的各条图像数据,各条第一标签数据L1可以是在将各条第一图像数据D1转换为高分辨率图像时增强了纹理表示的各条图像数据。
此外,第二训练数据集D2和L2可以包括第二图像数据D2和第二标签数据L2。作为通过将第二图像数据D2转换成高分辨率图像而获得的图像数据,各条第二标签数据L2可以是通过在将第二图像数据D2转换成高分辨率图像时减少出现在文本或边缘(增强文本或边缘表示)周围的锯齿等而获得的各条图像数据。
根据实施例的图像处理设备100可以将第一分类符C1与第一图像数据D1一起输入到DNN 150,并且将第二分类符C2与第二图像数据D2一起输入到DNN 150。这里,第一分类符C1的像素值和第二分类符C2的像素值可以由用户设置,并且第一分类符C1和第二分类符C2可以具有单个像素值。此外,第一分类符C1的像素值不同于第二分类符C2的像素值。
图像处理设备100可以训练DNN 150,使得当输入第一图像数据D1和第一分类符C1时,输出分别对应于第一图像数据D1的第一标签数据L1。例如,图像处理设备100可以调整包括在DNN 150中的一个或多个核的权重,以便减少各条第一标签数据L1与当将各条第一图像数据D1和第一分类符C1输入到DNN 150时输出的各条图像数据之间的差异。
此外,图像处理设备100可以训练DNN 150,使得当输入第二图像数据D2和第二分类符C2时,输出分别对应于第二图像数据D2的第二标签数据L2。例如,图像处理设备100可以调整包括在DNN 150中的一个或多个核的权重,以便减少第二标签数据L2与当第二图像数据D2和第二分类符C2输入到DNN 150时输出的图像数据之间的差异。
图14是根据实施例的用于描述被配置为根据多个目的执行图像处理的DNN的参考图。
参照图14,根据实施例的DNN 150可以由训练数据集1420训练。训练数据集1420可以包括分别对应于n条图像数据的第一至第n图像数据和第一至第n标签数据。例如,作为通过将n个图像数据分别转换为高分辨率图像而获得的图像数据,n个标签数据可以是通过根据第一目的(例如,细节增强(纹理表示增强))、第二目的(例如,噪声减小)和第三目的(例如,编码伪像(coding artifact)降低)中的至少一个处理n个图像数据中的每一个而获得的图像数据。然而,本实施例不限于此。
DNN 150可以接收第一分类符C1、第二分类符C2和第三分类符C3(四个通道)以及图像数据。这里,第一分类符C1可以是指示细节增强程度的图像,第二分类符C2可以是指示噪声降低程度的图像,并且第三分类符C3可以是指示编码伪像降低的程度的图像。
例如,可以基于第一图像数据1410和第一标签数据来确定输入到DNN 150的第一分类符C1、第二分类符C2和第三分类符C3以及第一图像数据1410的像素值。通过将第一图像数据1410与通过将第一图像数据1410转换成高分辨率图像而获得的第一标签数据进行比较,可以根据在第一标签数据中呈现的细节增强程度来确定第一分类符C1的像素值,可以根据噪声降低程度来确定第二分类符C2的像素值,并且可以根据编码伪像降低程度来确定第三分类符C3的像素值。随着细节增强程度的增加,第一分类符C1的像素值可以更小。
例如,当将第一图像数据1410与第一标签数据进行比较时在第一标签数据中呈现的细节增强程度大于将第二图像数据与第二标签数据进行比较时在第二标签数据中呈现的细节增强程度时,与第一图像数据1410一起输入的第一分类符C1的像素值可以小于与第二图像数据一起输入的第一分类符C1的像素值。
此外,随着噪声降低程度的增加,第二分类符C2的像素值可以更小,并且随着编码伪像降低程度的增加,第三分类符C3的像素值可以更小。然而,本实施例不限于此,并且可以通过各种方法来确定标识图像的像素值。
此外,n个图像数据中的每一个一起输入的第一至第三分类符C1、C2和C3可以根据细节增强程度、噪声降低程度和在n个标签数据中呈现的编码伪像降低程度而不同地确定。
此外,图像处理设备100可以训练DNN 150,使得当输入第一图像数据1410、第一分类符C1、第二分类符C2和第三分类符C3时输出第一标签数据。例如,图像处理设备100可以调整包括在DNN 150中的一个或多个核的权重,以便减小第一标签数据与当第一图像数据1410、第一分类符C1、第二分类符C2和第三分类符C3输入到DNN150时输出的图像数据1430之间的差异。
当通过使用以与上述相同的方式训练的DNN 150来处理输入图像时,可以通过调整第一至第三分类符C1、C2和C3的像素值来确定输入图像的图像处理目的和根据该目的的图像处理级别。例如,当需要输入图像中的较大程度的细节增强、较小程度的噪声降低和较小程度的编码伪像降低时,可以将第一分类符C1的像素值设置为较小的值,并且可以将第二和第三分类符C2和C3的像素值设置为较大的值。然而,本实施例不限于此。
图15是根据实施例的用于描述生成用于训练DNN的训练数据集的方法的参考图。
参照图15,训练数据集可以包括多条图像数据(例如,第一到第三图像数据)1510、1520和1530以及一条标签数据1540。这里,可以使用标签数据1540生成多条图像数据1510、1520和1530。例如,图像处理设备100可以通过使标签数据1540以第一强度虚化来生成第一图像数据1510,通过使标签数据1540以第二强度虚化来生成第二图像数据1520,并且通过使标签数据1540以第三强度虚化来生成第三图像数据1530。
图像处理设备100可以向DNN 150输入第一至第三图像数据1510、1520和1530中的每一个以及指示细节增强程度的分类符。这里,与第一图像数据1510一起输入的第一分类符C1的像素值可以被设置为第一值。此外,可以将与第二图像数据1520一起输入的第二分类符C2的像素值设置为第二值,并且第二值可以小于第一值。此外,可以将与第三图像数据1530一起输入的第三分类符C3的像素值设置为第三值,并且第三值可以小于第二值。然而,本实施例不限于此。
图像处理设备100可以训练DNN 150,以便减小标签数据1540和与输入的第一图像数据1510、第二图像数据1520和第三图像数据1530中的每一个对应地输出的输出数据之间的差。
尽管仅参考图15描述了生成用于细节增强的训练数据集的方法,但是也可以以相同的方式生成用于噪声降低或编码伪像降低的训练数据集。
图16是根据实施例的图像处理设备的框图。
参照图16,根据实施例的图像处理设备100可以包括处理器130和存储器120。
根据实施例的处理器130通常可以控制图像处理设备100。根据实施例的处理器130可以执行存储在存储器120中的一个或多个程序。
根据实施例的存储器120可以存储用于操作和控制图像处理设备100的各种数据、程序或应用。存储在存储器120中的程序可以包括一个或多个指令。存储在存储器120中的程序(一个或多个指令)或应用可以由处理器130执行。
根据实施例的处理器130可以获得第一图像和指示图像处理的目的的分类符,并且根据分类符所指示的目的通过使用DNN来处理第一图像。这里,DNN可以是在图2至图15中示出并参考图2至图15描述的DNN。
或者,处理器130可以基于第一图像生成要输入到DNN的输入图像和分类符。例如,处理器130可以通过颜色空间转换将包括在第一图像中的R通道、G通道和B通道转换为Y通道、U通道和V通道,并将Y通道、U通道和V通道中的Y通道的图像确定为输入图像。当试图根据第一目的对第一图像执行图像处理时,处理器130可以将分类符的像素值确定为与第一目的对应的第一值,并且当试图根据第二目的对第一图像执行图像处理时,处理器130可以将分类符的像素值确定为与第二目的对应的第二值。或者,处理器130可以从第一图像中提取边缘和文本,并基于所提取的边缘和文本生成分类符。
DNN可以包括N个卷积层,并且处理器130可以通过执行卷积操作来提取特征信息(特征图),在卷积操作中,将一个或多个核应用于输入图像和N个卷积层中的每一个中的标识图像,并且基于所提取的特征信息,根据分类符所指示的目的来处理第一图像。
处理器130可以基于包括在分类符中的像素的值、对应于第一目的的第一值以及对应于第二目的的第二值来确定根据第一目的的图像处理级别和根据第二目的的图像处理级别,并且根据所确定的级别来处理第一图像。
处理器130可以通过使用具有不同目的的多个训练数据集来训练DNN。例如,处理器130可以通过使用第一训练数据集和第二训练数据集来训练DNN,第一训练数据集包括多条第一图像数据、第一分类符以及通过根据第一目的处理多条第一图像数据而获得的多条第一标签数据,第二训练数据集包括多条第二图像数据、第二分类符以及通过根据第二目的处理多条第二图像数据而获得的多条第二标签数据。
例如,处理器130可以调整包括在DNN中的一个或多个核的权重,以减小第一标签数据与当将多条第一图像数据和第一分类符输入到DNN时输出的多条图像数据之间的差异。此外,处理器130可以调整包括在DNN中的一个或多个核的权重,以减小第二标签数据与当第二图像数据和第二分类符输入到DNN时输出的多条图像数据之间的差异。
图17是根据实施例的处理器130的框图。
参照图17,根据实施例的处理器130可以包括网络训练器1400和图像处理器1500。
网络训练器1400可以根据实施例获得用于训练DNN的训练数据。网络训练器1400可以获得具有不同目的的多个训练数据集。例如,训练数据集可以包括用于根据第一目的的图像处理的训练的第一训练数据集和用于根据第二目的的图像处理的训练的第二训练数据集。这里,根据第一目的的图像处理可以包括处理输入图像以便当输入图像被转换成高分辨率图像时增强细节(纹理表示)。此外,根据第二目的的图像处理可以包括处理输入图像以便当输入图像被转换成高分辨率图像时增强文本或边缘表示。然而,本实施例不限于此。
或者,网络训练器1400可以生成用于训练DNN的训练数据。例如,可以通过参考图15描述的方法来生成训练数据集。
网络训练器1400可以基于具有不同目的的多个训练数据集来学习如何处理输入图像的参考。或者,网络训练器1400可以学习哪个训练数据集的参考被认为用于处理输入图像。例如,网络训练器1400可以通过使用多个训练数据集通过参考图13和图14描述的方法来训练DNN。
网络训练器1400可以将经过训练的网络(例如,DNN)存储在图像处理设备的存储器中。或者,网络训练器1400可以将经过训练的网络存储在通过有线或无线网络连接到图像处理设备的服务器的存储器中。
其中存储受过训练的网络的存储器还可以存储例如与图像处理设备100的至少一个其他组件相关联的命令或数据。此外,存储器可以存储软件和/或程序。程序可以包括例如核、中间件、应用程序编程接口(API)和/或应用程序(或“应用”)。
或者,网络训练器1400可以基于由图像处理器1500生成的高分辨率图像来训练DNN。例如,可以通过使用包括误差反向传播或梯度下降等的训练算法来训练DNN。
图像处理器1500可以基于第一图像和指示图像处理目的的分类符来处理第一图像。例如,图像处理器1500可以根据分类符所指示的目的,通过使用经过训练的DNN来处理第一图像。
网络训练器1400和图像处理器1500中的至少一个可以以硬件芯片形式制造并安装在图像处理设备中。例如,网络训练器1400和图像处理器1500中的至少一个可以被制造成用于人工智能(AI)的专用硬件芯片形式,或者被制造成常规通用处理器(例如,中央处理单元(CPU)或应用处理器)或图形专用处理器(例如,图形处理单元(GPU))的一部分并且被安装在各种图像处理设备中。
在这种情况下,网络训练器1400和图像处理器1500可以分别安装在一个图像处理设备中或安装在单独的图像处理设备中。例如,网络训练器1400和图像处理器1500的一部分可以被包括在图像处理设备100中,而其余部分可以被包括在服务器中。
此外,网络训练器1400和图像处理器1500中的至少一个可以由软件模块实现。当网络训练器1400和图像处理器1500中的至少一个由软件模块(或包括指令的程序模块)实现时,软件模块可以存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(OS)或某个应用程序提供。或者,至少一个软件模块的一部分可由OS提供,且剩余部分可由特定应用程序提供。
图18是根据实施例的图像处理器1500的框图。
参照图18,图像处理器1500可以包括输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550。
输入图像生成器1510可以接收要处理的第一图像,并且基于第一图像生成要输入到DNN的输入图像。例如,输入图像生成器1510可以通过颜色空间转换将包括在第一图像中的R、G和B通道转换为Y通道、U通道和V通道,并将Y通道、U通道和V通道中的Y通道的图像确定为输入图像。或者,输入图像生成器1510可以确定包括在第一图像中的R、G和B通道作为输入图像。
分类符生成器1520可以在尝试根据第一目的对第一图像执行图像处理时生成具有与第一目的对应的第一值作为像素值的第一分类符,并且当尝试根据第二目的对第一图像执行图像处理时生成具有与第二目的对应的第二值作为像素值的第二分类符。分类符生成器1520可以生成具有单个像素值的分类符或者具有用于各个区域的不同像素值的分类符。
分类符生成器1520可以从第一图像提取边缘和文本,并基于所提取的边缘和文本生成分类符。例如,分类符生成器1520可以通过提取第一图像的边缘和文本来生成指示第一图像的边缘和文本的映射图像。在这种情况下,分类符生成器1520可以通过使用各种已知的边缘提取过滤器或文本提取过滤器来提取第一图像的边缘和文本。此外,分类符生成器1520可以通过平滑化指示边缘和文本的映射图像来生成分类符。
根据实施例的DNN单元1530可以通过使用由网络训练器1400训练的DNN对第一图像执行图像处理。例如,由输入图像生成器1510生成的输入图像和由分类符生成器1520生成的分类符可以作为DNN的输入数据被输入。根据实施例的DNN可以通过执行卷积操作来提取特征信息,在该卷积操作中,一个或多个核被应用于输入图像和分类符。DNN单元1530可以根据分类符所指示的目的,基于所提取的特征信息来处理第一图像。
输出图像生成器1540可以基于从DNN输出的数据生成最终图像(第二图像)。例如,输出图像生成器1540可以放大第一图像的U和V通道的图像,并通过将放大的图像与由DNN处理并从DNN输出的图像(第一图像的Y通道的图像)级联(concatenating)来生成最终图像。这里,最终图像可以是通过根据分类符指示的目的处理第一图像而获得的图像。
网络更新器1550可以基于对从DNN单元1530提供的输出图像或从输出图像生成器1540提供的最终图像的评估来更新DNN。例如,网络更新器1550可以允许网络训练器1400通过向网络训练器1400提供从DNN单元1530或输出图像生成器1540提供的图像数据来更新DNN。
输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550中的至少一个可以以硬件芯片形式制造并安装在图像处理设备中。例如,输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550中的至少一个可以被制造为用于AI的专用硬件芯片形式,或者被制造为常规通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分并安装在各种图像处理设备中。
在这种情况下,输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550可以分别安装在一个图像处理设备中或安装在单独的图像处理设备中。例如,输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550中的一些可以被包括在图像处理设备中,而其它一些可以被包括在服务器中。
此外,输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550中的至少一个可以由软件模块实现。当输入图像生成器1510、分类符生成器1520、DNN单元1530、输出图像生成器1540和网络更新器1550中的至少一个由软件模块(或包括指令的程序模块)实现时,软件模块可以存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由OS或某个应用程序提供。或者,至少一个软件模块的一部分可由OS提供,且剩余部分可由特定应用程序提供。
如图16至图18所示的图像处理设备100、处理器130和图像处理器1500的框图仅用于一个实施例。框图中的每个组件可以根据图像处理设备100的规范被集成、添加或省略。也就是说,根据环境,两个或更多组件可以被集成到一个组件中,或者一个组件可以被分成两个或更多组件。此外,由每个块执行的功能是描述实施例,并且其特定操作或设备不限制本发明的正确范围。
根据实施例的图像处理设备的操作方法可以以可由各种计算机装置执行并记录在计算机可读记录介质上的程序命令的形式来实现。计算机可读记录介质可以包括单独或组合的程序命令、数据文件、数据结构等。记录在介质上的程序命令可以是为本发明专门设计和构造的,或者可以是计算机软件领域的普通技术人员已知的和可用的。计算机可读记录介质的示例包括:磁介质,例如硬盘,软盘或磁带;光学介质,例如光盘只读存储器(CD-ROM);或数字多功能盘(DVD);磁光介质,例如光碟;以及专门配置成存储和执行程序命令的硬件设备,例如,ROM、RAM或闪存。程序命令的示例包括可以由使用解释器的计算机执行的高级语言代码以及由编译器生成的机器语言代码。
此外,根据实施例的用于生成高分辨率视频的图像处理设备和图像处理设备的操作方法可以通过包括在计算机程序产品中来提供。计算机程序产品可以作为卖方和买方之间的产品进行交易。
计算机程序产品可以包括软件(S/W)程序,以及其中存储有S/W程序的计算机可读存储介质。例如,计算机程序产品可以包括通过电子设备的制造公司或电子市场(例如Google PlayStore或App Store)电子分发的产品的S/W程序形式(例如,可下载应用程序)。对于电子分发,可以将S/W程序的至少一部分存储在存储介质中或临时生成它们。在这种情况下,存储介质可以被包括在制造公司的服务器、电子市场的服务器,或者被配置成临时存储S/W程序的中继服务器中。
计算机程序产品可以包括服务器的存储介质或者包括服务器和客户端设备的系统中的客户端设备的存储介质。或者,当存在通过通信连接到服务器或客户端设备的第三设备(例如,智能电话)时,计算机程序产品可以包括第三设备的存储介质。或者,计算机程序产品可包括将从服务器传输到客户端设备或第三设备或从第三设备传输到客户端设备的S/W程序。
在这种情况下,服务器、客户端设备和第三设备中的一个可以执行计算机程序产品并执行根据实施例的方法。或者,服务器、客户端设备和第三设备中的两个或更多可以执行计算机程序产品并以分布式方式执行根据实施例的方法。
例如,服务器(例如,云服务器或AI服务器)可以执行存储在服务器中的计算机程序产品,以控制通过通信连接到服务器的客户端设备,其中客户端设备执行根据所公开的实施例的方法。
虽然已经详细描述了实施例,但是本发明的正确范围不限于此,并且本领域普通技术人员使用权利要求中限定的本发明的基本概念所得的各种修改和改进形式也属于本公开的权利范围。
Claims (15)
1.图像处理设备,包括:
存储器,存储一个或多个指令;以及
处理器,配置成执行存储在所述存储器中的所述一个或多个指令,
其中,所述处理器还配置成:获得第一图像和指示图像处理的目的的分类符,并且通过使用深度神经网络DNN根据由所述分类符指示的所述目的来处理所述第一图像,
其中,所述DNN根据不同的目的处理输入图像。
2.根据权利要求1所述的图像处理设备,其中,
所述DNN包括N个卷积层,以及
所述处理器还配置成:基于所述第一图像生成所述输入图像,通过执行卷积操作来提取特征信息,在所述卷积操作中,一个或多个核在所述N个卷积层中应用到所述输入图像和所述分类符并且基于所提取的特征信息生成第二图像。
3.根据权利要求2所述的图像处理设备,其中,所述处理器还配置成:将包括在所述第一图像中的R通道、G通道和B通道转换为YUV模式的Y通道、U通道和V通道,并将所述Y通道、所述U通道和所述V通道中的所述Y通道的图像确定为所述输入图像。
4.根据权利要求3所述的图像处理设备,其中,所述处理器还配置成:基于通过在所述DNN中处理所述Y通道的图像而输出的图像以及基于所述Y通道、所述U通道和所述V通道中的所述U通道的图像和所述V通道的图像来生成所述第二图像。
5.根据权利要求1所述的图像处理设备,其中,包括在所述分类符中的像素具有第一值和大于所述第一值的第二值中的至少一个,所述第一值指示第一目的,并且所述第二值指示第二目的。
6.根据权利要求5所述的图像处理设备,其中,所述处理器还配置成:
当所述分类符中包括的所有像素具有所述第一值时,根据所述第一目的处理所述第一图像;以及
当所述分类符中包括的所有像素具有所述第二值时,根据所述第二目的处理所述第一图像。
7.根据权利要求5所述的图像处理设备,其中,当包括在所述分类符中的第一区域中的像素具有所述第一值并且包括在所述分类符中的第二区域中的像素具有所述第二值时,根据所述第一目的处理所述第一图像中的与所述第一区域对应的第三区域,并且根据所述第二目的处理所述第一图像中的与所述第二区域对应的第四区域。
8.根据权利要求5所述的图像处理设备,其中,所述处理器还配置成:根据基于所述第一目的而定的图像处理等级以及基于所述第二目的而定的图像处理等级来处理所述第一图像,基于所述第一目的而定的图像处理等级和基于所述第二目的而定的图像处理等级基于包括在所述分类符中的像素的值、所述第一值和所述第二值来确定。
9.根据权利要求1所述的图像处理设备,其中,所述处理器还配置成:基于所述第一图像的特性来生成所述分类符。
10.根据权利要求9所述的图像处理设备,其中,所述处理器还配置成:生成指示包括在所述第一图像中的文本和边缘的映射图像,并且基于所述映射图像确定包括在所述分类符中的像素的值。
11.根据权利要求1所述的图像处理设备,其中,所述DNN通过包括第一图像数据的第一训练数据集、具有作为像素值的第一值的第一分类符以及通过根据第一目的处理所述第一图像数据而获得的第一标签数据来训练,并且通过包括第二图像数据的第二训练数据集、具有作为像素值的第二值的第二分类符以及通过根据第二目的处理所述第二图像数据而获得的第二标签数据来训练。
12.根据权利要求11所述的图像处理设备,其中,所述处理器还配置为:
调整包括在所述DNN中的一个或多个核的权重,以减小所述第一标签数据与当所述第一图像数据和所述第一分类符输入到所述DNN时输出的图像数据之间的差;以及
调整包括在所述DNN中的所述一个或多个核的权重,以减小所述第二标签数据与当所述第二图像数据和所述第二分类符输入到所述DNN时输出的图像数据之间的差。
13.图像处理设备的操作方法,所述方法包括:
获取第一图像和指示图像处理的目的的分类符;以及
利用深度神经网络DNN根据所述分类符指示的目的来处理所述第一图像;
其中,所述DNN根据不同的目的处理多个图像。
14.根据权利要求13所述的方法,其中,获取所述第一图像和所述分类符包括:基于所述第一图像生成输入图像,
所述DNN包括N个卷积层,以及
利用所述DNN根据所述分类符指示的目的来处理所述第一图像包括:
通过执行卷积操作来提取特征信息,在所述卷积操作中,一个或多个核在所述N个卷积层中应用于所述输入图像和所述分类符;以及
基于所提取的特征信息生成第二图像。
15.根据权利要求14所述的方法,其中,基于所述第一图像生成所述输入图像包括:
将所述第一图像中包括的R通道、G通道、B通道转换为YUV模式的Y通道、U通道、V通道;以及
确定所述Y通道、所述U通道和所述V通道中的Y通道的图像作为所述输入图像。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180090432A KR20200015095A (ko) | 2018-08-02 | 2018-08-02 | 영상 처리 장치 및 그 동작방법 |
KR10-2018-0090432 | 2018-08-02 | ||
PCT/KR2019/009400 WO2020027519A1 (ko) | 2018-08-02 | 2019-07-29 | 영상 처리 장치 및 그 동작방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112534443A true CN112534443A (zh) | 2021-03-19 |
Family
ID=69230837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980051536.7A Pending CN112534443A (zh) | 2018-08-02 | 2019-07-29 | 图像处理设备及其操作方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11961203B2 (zh) |
EP (1) | EP3809335A4 (zh) |
KR (1) | KR20200015095A (zh) |
CN (1) | CN112534443A (zh) |
WO (1) | WO2020027519A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11880770B2 (en) * | 2018-08-31 | 2024-01-23 | Intel Corporation | 3D object recognition using 3D convolutional neural network with depth based multi-scale filters |
CN110188765B (zh) * | 2019-06-05 | 2021-04-06 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
KR102315427B1 (ko) * | 2020-05-14 | 2021-10-20 | 아주대학교산학협력단 | 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치 |
WO2021230624A1 (ko) * | 2020-05-15 | 2021-11-18 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작방법 |
KR102669934B1 (ko) | 2020-09-17 | 2024-05-28 | 삼성전자주식회사 | 이미지 신호 프로세서 및, 이미지 신호 프로세서를 포함하는 전자 장치 및 전자 시스템 |
WO2023219277A1 (ko) * | 2022-05-09 | 2023-11-16 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180157916A1 (en) * | 2016-12-05 | 2018-06-07 | Avigilon Corporation | System and method for cnn layer sharing |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06231245A (ja) * | 1993-02-02 | 1994-08-19 | Sony Corp | 画像処理フィルタの構成方法 |
WO2015040450A1 (en) * | 2013-09-17 | 2015-03-26 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Multi-purpose image processing core |
KR20160096460A (ko) | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
US20170132528A1 (en) * | 2015-11-06 | 2017-05-11 | Microsoft Technology Licensing, Llc | Joint model training |
US11024009B2 (en) | 2016-09-15 | 2021-06-01 | Twitter, Inc. | Super resolution using a generative adversarial network |
WO2018088794A2 (ko) | 2016-11-08 | 2018-05-17 | 삼성전자 주식회사 | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 |
KR102359391B1 (ko) | 2016-11-08 | 2022-02-04 | 삼성전자주식회사 | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 |
-
2018
- 2018-08-02 KR KR1020180090432A patent/KR20200015095A/ko not_active Application Discontinuation
-
2019
- 2019-07-29 US US17/264,656 patent/US11961203B2/en active Active
- 2019-07-29 EP EP19844841.7A patent/EP3809335A4/en active Pending
- 2019-07-29 CN CN201980051536.7A patent/CN112534443A/zh active Pending
- 2019-07-29 WO PCT/KR2019/009400 patent/WO2020027519A1/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180157916A1 (en) * | 2016-12-05 | 2018-06-07 | Avigilon Corporation | System and method for cnn layer sharing |
Also Published As
Publication number | Publication date |
---|---|
EP3809335A1 (en) | 2021-04-21 |
KR20200015095A (ko) | 2020-02-12 |
US20210334578A1 (en) | 2021-10-28 |
EP3809335A4 (en) | 2021-08-25 |
WO2020027519A1 (ko) | 2020-02-06 |
US11961203B2 (en) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112534443A (zh) | 图像处理设备及其操作方法 | |
CN108416377B (zh) | 柱状图中的信息提取方法及装置 | |
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
CN112913226B (zh) | 图像处理设备及其操作方法 | |
CN111242841B (zh) | 一种基于语义分割和深度学习的图片背景风格迁移方法 | |
CN114008663A (zh) | 实时视频超分辨率 | |
US9697583B2 (en) | Image processing apparatus, image processing method, and computer-readable recording medium | |
CN111402143A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
JP6341650B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN106855996B (zh) | 一种基于卷积神经网络的灰阶图像着色方法及其装置 | |
US20190266448A1 (en) | System and method for optimization of deep learning architecture | |
US11887218B2 (en) | Image optimization method, apparatus, device and storage medium | |
KR20200132682A (ko) | 이미지 최적화 방법, 장치, 디바이스 및 저장 매체 | |
KR20200067631A (ko) | 영상 처리 장치 및 그 동작방법 | |
JP7463186B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN108154153A (zh) | 场景分析方法和系统、电子设备 | |
CN115588055A (zh) | 数字病理图像的色彩标准化方法及系统 | |
KR20200091661A (ko) | 조작 이미지 판별 장치 및 방법 | |
KR102537207B1 (ko) | 머신 러닝에 기반한 이미지 처리 방법 및 장치 | |
JP7362924B2 (ja) | データ増強基盤空間分析モデル学習装置及び方法 | |
US11200708B1 (en) | Real-time color vector preview generation | |
KR20230013989A (ko) | 이미지 처리 장치, 이의 동작 방법 및, 이를 포함하는 이미지 처리 시스템 | |
CN112991249A (zh) | 一种基于深度可分离cnn模型的遥感图像融合方法 | |
JP7548634B2 (ja) | 情報処理装置 | |
CN109961083A (zh) | 用于将卷积神经网络应用于图像的方法和图像处理实体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |