CN112913226B - 图像处理设备及其操作方法 - Google Patents

图像处理设备及其操作方法 Download PDF

Info

Publication number
CN112913226B
CN112913226B CN201980047752.4A CN201980047752A CN112913226B CN 112913226 B CN112913226 B CN 112913226B CN 201980047752 A CN201980047752 A CN 201980047752A CN 112913226 B CN112913226 B CN 112913226B
Authority
CN
China
Prior art keywords
resolution image
high resolution
neural network
image
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980047752.4A
Other languages
English (en)
Other versions
CN112913226A (zh
Inventor
安一埈
朴镕燮
朴在演
李泰美
千岷洙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112913226A publication Critical patent/CN112913226A/zh
Application granted granted Critical
Publication of CN112913226B publication Critical patent/CN112913226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • H04N7/0132Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter the field or frame frequency of the incoming video signal being multiplied by a positive integer, e.g. for flicker reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0247Flicker reduction other than flicker reduction circuits used for single beam cathode-ray tubes
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/0407Resolution change, inclusive of the use of different resolutions for different screen areas
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/14Solving problems related to the presentation of information to be displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/08Details of image data interface between the display device controller and the data line driver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种用于生成高分辨率图像的图像处理设备。该图像处理设备包括存储一个或多个指令的存储器和被配置为执行存储在存储器中的一个或多个指令的处理器,其中该处理器被配置为通过使用第一卷积神经网络提取关于当前帧的低分辨率图像的特征信息,基于该特征信息生成当前帧的第一高分辨率图像,通过使用先前帧的高分辨率图像去除第一高分辨率图像的闪烁。利用当前帧的去除闪烁的第二高分辨率图像和特征信息中的至少一个来去除下一帧的高分辨率图像的闪烁。

Description

图像处理设备及其操作方法
技术领域
各种实施例涉及一种用于生成高分辨率运动图像的图像处理设备和该图像处理设备的操作方法,更具体地,涉及一种去除存在于高分辨率图像中的闪烁的图像处理设备和该图像处理设备的操作方法。
背景技术
当使用低分辨率图像生成高分辨率运动图像时,会出现闪烁问题。闪烁是这样一种现象,其中包含在帧中的相同对象中的图案(或纹理)不会保持恒定,而是根据帧而抖动或闪烁。这种闪烁可能由于低分辨率图像中固有的闪烁或者在将低分辨率图像上采样为高分辨率运动图像的过程中发生。
传统上,当使用低分辨率图像生成高分辨率运动图像时,对帧间运动进行估计并补偿以去除闪烁。然而,对帧间运动的估计和补偿是复杂的,并且难以执行正确的运动估计。此外,在当前帧中生成的高分辨率图像不用于生成下一帧中的高分辨率图像,从而减弱了生成的高分辨率运动图像中包括的帧之间的相关性。
发明内容
解决的技术问题
各种实施例提供了一种图像处理设备和该图像处理设备的操作方法,该图像处理设备用于通过使用卷积神经网络来生成高分辨率图像,去除存在于高分辨率图像中的闪烁,以及通过使用所生成的当前帧的高分辨率图像来去除下一帧的高分辨率图像中的闪烁。
有益效果
根据实施例的图像处理设备可以使用当前帧的高分辨率图像去除下一帧的高分辨率图像的闪烁,从而增强帧之间的相关性。
根据实施例的图像处理设备还可以跳过图像的复杂和硬帧之间的运动估计和运动补偿来去除闪烁。
根据实施例的图像处理设备还可以通过存储特征信息而不是所生成的高分辨率图像来节省存储器。
附图说明
图1示出了根据一个实施例的由图像处理设备执行的生成高分辨率运动图像的过程。
图2是根据一个实施例的图像处理设备的操作方法的流程图。
图3是描述根据一个实施例的由图像处理设备执行的生成高分辨率图像并去除闪烁的方法的视图。
图4示出了根据一个实施例的第一卷积神经网络的结构。
图5示出了根据一个实施例的包括在第一卷积神经网络中的第一卷积层的输入数据、内核和输出数据。
图6是参照以描述在图5的第一卷积层中处理卷积运算的过程的视图。
图7是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
图8是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
图9是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
图10和图11是参照以描述根据一个实施例的训练第一卷积神经网络和第二卷积神经网络的方法的视图。
图12是根据一个实施例的图像处理设备的框图。
图13是根据一个实施例的处理器的框图。
最优实施方式
根据一个实施例的用于生成高分辨率图像的图像处理设备,包括:存储器,存储一个或多个指令;以及处理器,配置为执行存储在所述存储器中的所述一个或多个指令,其中,所述处理器配置为通过使用第一卷积神经网络来提取关于当前帧的低分辨率图像的特征信息,基于所述特征信息生成所述当前帧的第一高分辨率图像,通过使用先前帧的高分辨率图像来去除第一高分辨率图像的闪烁,以及通过使用当前帧的已去除闪烁的第二高分辨率图像或特征信息中的至少一个来去除下一帧的高分辨率图像的闪烁。
根据一个实施例的第一卷积神经网络包括N个卷积层,并且处理器进一步配置为通过将当前帧的低分辨率图像输入到第一卷积神经网络并与N个卷积层中的每一个中的一个或多个内核执行卷积运算,来提取特征信息。
根据一个实施例的处理器进一步配置为通过对特征信息应用双线性内插方法、双立方内插方法或卷积内插方法中的至少一种来生成第一高分辨率图像。
根据一个实施例的处理器进一步配置为通过将当前帧的第一高分辨率图像和先前帧的高分辨率图像输入到第二卷积神经网络并与M个卷积层中的每一个中的一个或多个内核执行卷积运算,来去除第一高分辨率图像的闪烁。
根据一个实施例的处理器进一步配置为提取对应于所述第二高分辨率图像的第一特征信息及对应于所述当前帧的实际高分辨率图像的第二特征信息,且基于所述第一特征信息及所述第二特征信息来更新所述第一卷积神经网络和所述第二卷积神经网络中的至少一个。
根据一个实施例的处理器进一步配置为调整包括在所述第一卷积神经网络和所述第二卷积神经网络中的至少一个中的一个或多个内核的权重值。
根据一个实施例的处理器进一步配置为调整包括在所述第一卷积神经网络中的一个或多个内核的权重值,以减小所述第一特征信息与所述第二特征信息之间的差异。
根据一个实施例的处理器进一步配置为计算所述第一特征信息与所述第二特征信息之间的第一差值以及对应于所述先前帧的所述高分辨率图像的第三特征信息与对应于所述先前帧的实际高分辨率图像的第四特征信息之间的第二差值,并调整包括在所述第二卷积神经网络中的一个或多个内核的权重值以减小所述第一差值与所述第二差值之间的差。
根据一个实施例的存储器可以存储第二高分辨率图像和特征信息中的至少一个。
根据一个实施例的处理器进一步配置为基于存储在所述存储器中的所述当前帧的特征信息来生成所述第一高分辨率图像,并通过使用所述第一高分辨率图像来去除所述下一帧的所述高分辨率图像的闪烁。
根据一个实施例的用于生成高分辨率运动图像的图像处理设备的操作方法,包括:通过使用第一卷积神经网络提取有关当前帧的低分辨率图像的特征信息;基于所述特征信息生成所述当前帧的第一高分辨率图像;通过使用先前帧的高分辨率图像来去除所述第一高分辨率图像的闪烁;通过使用所述当前帧的已去除闪烁的第二高分辨率图像和所述特征信息中的至少一个来去除下一帧的高分辨率图像的闪烁。
根据一个实施例的计算机程序产品包括一个或多个计算机可读记录介质,其中存储有用于执行以下操作的程序:通过使用第一卷积神经网络提取有关当前帧的低分辨率图像的特征信息;基于所述特征信息生成所述当前帧的第一高分辨率图像;通过使用先前帧的高分辨率图像来去除所述第一高分辨率图像的闪烁;以及通过使用所述当前帧的已去除闪烁的第二高分辨率图像和所述特征信息中的至少一个来去除下一帧的高分辨率图像的闪烁。
具体实施方式
将简要地描述本文中使用的术语,并且将详细地描述本公开。
尽管在本公开中使用的术语是用目前在考虑本公开中的功能的情况下普遍使用的一般术语来选择的,但是这些术语可以根据本领域普通技术人员的意图、司法先例或新技术的引入而变化。此外,在特定情况下,申请人可以主动选择术语,并且在这种情况下,术语的含义在本公开的相应描述部分中公开。因此,在本公开中使用的术语不应由术语的简单名称来定义,而应由在整个公开中的术语和内容的含义来定义。
在本公开的说明书全文中,如果假定某一部分包括某一组件,则术语“包括”意味着相应的组件组分可以进一步包括其它组件,除非记载有与相应组件相反的具体含义。在本公开的实施例中使用的诸如“单元”或“模块”的术语表示用于处理至少一个功能或操作的单元,并且可以用硬件、软件或硬件和软件的组合来实现。
在下文中,将参考附图详细描述本公开的实施例,以允许本领域普通技术人员容易地实现本公开的实施例。然而,本公开可以以各种形式实现,并且不限于这里描述的本公开的实施例。为了清楚地描述本公开,在附图中省略了与描述无关的部分,并且在整个说明书中,相同的附图标记表示相同的部分。
图1示出了根据一个实施例的由图像处理设备执行的生成高分辨率运动图像的过程。
根据一个实施例的图像处理设备100可以通过使用当前帧的低分辨率图像L(t)来生成当前帧的第一高分辨率图像S'(t)。图像处理设备100可以提取关于当前帧的低分辨率图像的特征信息,并且对所提取的特征信息进行上变换(upscale)以生成第一高分辨率图像S'(t)。
此外,第一高分辨率图像S'(t)可以是其中没有去除闪烁的高分辨率图像。闪烁可以指这样的现象,其中包括在帧中的相同对象中的图案(或纹理)没有保持恒定,而是根据帧而抖动或闪烁。
根据一个实施例的图像处理设备100可以通过使用先前帧的高分辨率图像S(t-1)和当前帧的第一高分辨率图像S'(t)来生成其中已去除第一高分辨率图像S'(t)的闪烁的第二高分辨率图像S(t)。在这种情况下,图像处理设备100可以通过使用第二卷积神经网络对第一高分辨率图像S'(t)和先前帧的高分辨率图像S(t-1)执行卷积运算,来去除第一高分辨率图像S'(t)的闪烁。
替代地,图像处理设备100可以通过使用当前帧的第一高分辨率图像S'(t)和先前帧的高分辨率图像S(t-1)来执行运动估计和补偿,并且通过使用运动补偿图像和第一高分辨率图像S'(t)来生成其中已去除闪烁的第二高分辨率图像S(t)。
同时,图像处理设备100可以通过使用所生成的第二高分辨率图像S(t)来去除下一帧的高分辨率图像S'(t+1)的闪烁。因此,可以增强当前帧的已去除闪烁的高分辨率图像S(t)与下一帧的已去除闪烁的高分辨率图像S(t+1)之间的相关性。
图2是根据实施例的图像处理设备的操作方法的流程图。
参照图2,在操作S210,根据一个实施例的图像处理设备100可以通过使用第一卷积神经网络(CNN)来提取关于当前帧的低分辨率图像的特征信息。
例如,图像处理设备100可以通过将输入图像与包括在第一卷积神经网络中的多个卷积层中的每一个中的一个或多个内核或滤波器进行卷积来生成特征图(特征信息)。在这种情况下,在早期卷积层中生成的特征图可以包括低级特征,并且可以在后续的卷积层中逐渐包括复杂特征。
在操作S220,图像处理设备100可以基于所提取的特征信息生成第一高分辨率图像。
例如,图像处理设备100可以通过对所提取的特征信息进行上变换来生成第一高分辨率图像。在这种情况下,图像处理设备100可以通过对所提取的特征信息应用双线性内插方法、双立方内插方法或卷积内插方法中的至少一种来生成第一高分辨率图像。然而,本公开不限于该示例。
在操作S230,图像处理设备100可以去除第一高分辨率图像的闪烁。
图像处理设备100可以通过使用第二卷积神经网络来去除当前帧的第一高分辨率图像的闪烁。在这种情况下,可以将先前帧中的已去除闪烁的高分辨率图像和第一高分辨率图像输入到第二卷积神经网络,并且可以从第二卷积神经网络输出当前帧的已去除闪烁的第二高分辨率图像。
替代地,图像处理设备100可以通过对先前帧的相应特征信息进行上变换来生成先前帧的高分辨率图像,并且将生成的先前帧的高分辨率图像和第一高分辨率图像输入到第二卷积神经网络,从而生成当前帧的已去除闪烁的第二高分辨率图像。
在操作S240,图像处理设备100可以通过使用已去除闪烁的第二高分辨率图像或所提取的特征信息中的至少一个来去除下一帧的高分辨率图像的闪烁。
图像处理设备100可以将从第一卷积神经网络提取的特征信息或者从第二卷积神经网络输出的已去除闪烁的第二高分辨率图像存储在存储器中。图像处理设备100可以使用存储在存储器中的当前帧的高分辨率图像或特征信息,已去除下一帧的高分辨率图像的闪烁。
图3是参照以描述根据一个实施例的由图像处理设备执行的生成高分辨率图像并去除闪烁的方法的视图。
参照图3,图像处理设备100可以包括高分辨率图像生成器310和第二卷积神经网络340。高分辨率图像生成器310可以包括第一卷积神经网络320和上变换器330。图像处理设备100可以通过使用第一卷积神经网络320和上变换器330从低分辨率图像生成高分辨率图像。第一卷积神经网络320可以包括N个卷积层Conv_1,Conv_2,...,Conv_N。
在下文中,将参考图4至图6详细描述第一卷积神经网络320的操作。
图4示出了根据一个实施例的第一卷积神经网络的结构。
参照图4,第一卷积神经网络320可以具有其中输入输入数据351(例如,低分辨率图像)并使其通过N个卷积层352,然后输出输出数据353(例如,特征信息)的结构。在这种情况下,第一卷积神经网络320可以是包括两个或更多个卷积层的深度卷积神经网络。
根据一个实施例的图像处理设备100可以通过使用第一卷积神经网络320从低分辨率图像提取诸如边缘、线、颜色等的“特征”。包括在第一卷积神经网络320中的N个卷积层352中的每一个可以接收数据并处理所接收的数据以生成输出数据。例如,图像处理设备100可以通过将输入到第一卷积层Conv_1 321的图像(例如,低分辨率图像)与一个或多个内核或滤波器进行卷积来生成第一特征图。图像处理设备100可以将所生成的第一特征图输入到第二卷积层Conv_2 322,以将从第二卷积层Conv_2 322输入的第一特征图与一个或多个内核或滤波器进行卷积,从而生成第二特征图。
第一卷积神经网络320的初始卷积层可操作以从输入图像提取低级特征,诸如边缘或梯度。对于后续卷积层,可以提取逐渐复杂的特征(例如,眼睛、鼻子、嘴、脸等)。
在第一卷积神经网络320中输入和输出特征图的一个或多个卷积层可以是隐藏层(例如,隐藏卷积层)。在第一卷积神经网络320中,可以执行除将一个或多个内核应用到特征图的卷积之外的处理操作。例如,可以执行诸如激活函数、池化(pooling)等操作。图像处理设备100可以应用激活函数来将通过执行卷积而提取的特征图的值改变为指示特征的“存在”或“不存在”的非线性值。在这种情况下,可以使用ReLu函数,但不限于此。图像处理设备100可以执行子采样(池化)以减小所提取的特征图的大小。在这种情况下,可以使用最大池化、平均池化、L2范数池化等,但不限于此。
图5示出了根据一个实施例的包括在第一卷积神经网络中的第一卷积层的输入数据、内核和输出数据。
参照图5,根据一个实施例的第一卷积神经网络可以包括N个卷积层352,并且在下文中,第一卷积层将被称为第一卷积层Conv_1。
根据一个实施例,第一卷积层Conv_1中的输入数据510(第一输入数据)可以是低分辨率图像,并且输入数据510的大小可以是w*h*C(宽度*高度*通道)。例如,低分辨率图像的大小可以是w*h,并且通道C的数量可以是但不限于3(例如,R、G、B)。第一卷积层Conv_1中的一个或多个内核530(第一内核)可以具有Kw*Kh的大小,并且内核的数量可以是C*D(输入通道的数量*输出通道的数量)。
在第一卷积层Conv_1中,通过将第一输入数据510与第一内核530进行卷积,可以生成第一输出数据540。第一输出数据540可以包括一个或多个特征图,并且第一输出数据540的大小可以是W*H*D,一个特征图的大小可以是W*H,并且特征图的数量(或通道的数量)可以是D。
图6是参照以描述在图5的第一卷积层中处理卷积运算的过程的视图。
为了便于图6中的描述,假设第一卷积层Conv_1的输入数据610具有5*5的大小,并且通道的数量是n。还假定应用于输入数据610的内核的大小是3*3*n并且内核的数量是D。在这种情况下,指示内核的深度的n可以等于输入数据610的通道的数量。可以根据在当前层之前的层中使用的内核的数量来确定输入数据610的通道的数量。即,一个内核可以包括大小为3*3的n个子内核631,632,...,639,其中n个子内核631,632,...,639,...,可以分别对应于输入数据610的n个通道。
参照图6,示出了通过从输入数据610的左上端到输入数据610的右下端应用包括在第一内核630中的子内核631,632,...,639来提取输入数据610的特征的过程。例如,可以通过将第一内核3*3*n 630应用到包括在输入数据610的左上端3*3*n区域611,612,...,619中的像素来执行卷积运算。即,将包括在左上端3*3*n区域611,612,...,619中的像素和包括在第一内核630中的权重值相乘并求和,从而生成映射到左上端3*3*n区域的一个像素641。
包括在从输入数据610的左上端3*3*n区域611,612,...,619向右移动一个像素的3*3*n区域621,622,...,629中的像素和包括在第一内核630中的权重值相乘并求和,从而生成映射到3*3*n区域621,622,...,629的一个像素642。以相同的方式,在输入数据610中从左到右以及从上到下逐像素地扫描卷积运算的对象时,可以将包括在第一内核630中的权重值相乘并且将乘积求和,从而生成像素。因此,可以输出3*3特征图(输出数据)640。将进行卷积运算的数据可以逐个像素地进行扫描,但是也可以以两个或更多个像素为单位进行扫描。在扫描期间输入数据被移动的像素的数量可以被称为步幅,并且可以基于该步幅的大小来确定输出特征图的大小。
参照图6,输入数据610可以具有5*5的大小,但是输出数据640可以具有3*3的大小,其小于输入数据的大小。卷积神经网络可以包括几个卷积层,其中数据的大小随着数据通过几个卷积层而连续减小。在这种情况下,当在充分提取特征之前数据的大小减小时,输入数据的特征可能丢失并且为了防止这种丢失,可以执行填充(padding)。填充可以意味着通过向输入数据的边缘提供特定值(例如,“0”)来增加输入数据的大小,以防止输出数据的大小减小。然而,本公开不限于该示例。
虽然已在图6中示出关于第一内核630的卷积运算的结果,但是当针对D内核执行卷积运算时,可以输出3*3*D特征图。也就是说,输出数据的通道数量D可以根据内核数量D来确定,从而可以确定下一层中的输入数据的通道数量。
回到图3,第一卷积神经网络320可以包括N个卷积层321,322,...,329,每个卷积层可以包括一个或多个内核。例如,第一卷积层Conv_1 321的输入数据的大小可以是w*h*C,其中w表示输入数据的宽度,h表示输入数据的高度,以及C表示输入数据的通道数(深度)。第一卷积层Conv_1 321的内核的大小可以是K*K*C,其中内核的数量是C1。在这种情况下,K表示内核的宽度和高度,C表示内核的深度。作为在第一卷积层Conv_1 321中执行卷积运算的结果而输出的特征图(输出数据)的大小可以是w*h*C1。在这种情况下,为了使输入数据的宽度和高度与输出数据的宽度和高度相同,可以执行填充,但不限于此。第二卷积层Conv_2 322的输入数据的大小可以等于第一卷积层Conv_1 321的输出数据的大小,其中第二卷积层Conv_2 322的内核的大小可以是K*K*C1,内核的深度可以等于输入数据的通道数量C1,以及前一层(第一卷积层Conv_1 321)的内核的数量C1。内核的数量可以是C2,使得作为在第二卷积层Conv_2 322中执行卷积运算的结果而输出的第二特征图(输出数据)的大小可以是w*h*C2。通过在N个卷积层中重复该过程,最终输出特征图(输出数据)的大小可以是w*h*CN,其中CN指示第N卷积层Conv_N 329中的内核的数量。
根据一个实施例的图像处理设备100可以基于从第N卷积层Conv_N 329输出的特征图(特征信息)来生成第一高分辨率图像。例如,图像处理设备100可以通过对具有w*h*CN的大小的特征图来生成具有W*H*C的尺寸的第一高分辨率图像。在这种情况下,W和H可以分别等于或大于w和h。图像处理设备100可以通过对在第一卷积神经网络中提取的特征图(特征信息)应用双线性内插方法、双立方内插方法或卷积内插方法中的至少一种来生成第一高分辨率图像。然而,本公开不限于该示例。同时,双线性内插方法、双立方内插方法和卷积内插方法是已知的技术,因此将不再详细描述。
所生成的第一高分辨率图像S'(t)可包含闪烁。图像处理设备100可以基于在当前时间t之前的帧中处理的已去除闪烁的高分辨率图像S(t-1),...,S(t-(n-1))以及当前帧的包含闪烁的高分辨率图像(第一高分辨率图像S'(t))来生成从第一高分辨率图像S'(t)去除闪烁而得的第二高分辨率图像S(t)。
当根据一个实施例的图像处理设备100处理当前时间t之前的帧时,图像处理设备100可以将已去除闪烁的高分辨率图像S(t-1),...,S(t-(n-1))存储在存储器中。
图像处理设备100可以使用第二卷积神经网络340来去除第一高分辨率图像S'(t)的闪烁,其中第二卷积神经网络340可以包括M个卷积层。
在当前时间t之前的帧中处理的已去除闪烁的高分辨率图像S(t-1),...,S(t-(n-1))和当前帧的包含闪烁的高分辨率图像(第一高分辨率图像S'(t))可以被输入到第二卷积神经网络340并通过M个卷积层Conv_1',Conv_2',...,Conv_M',使得可以执行卷积运算。输入到第二卷积神经网络340的第一卷积层Conv_1'的数据可以包括n个包含闪烁的高分辨率图像(当前帧的高分辨率图像S'(t))和在先前帧中处理的已去除闪烁的高分辨率图像S(t-1),...,S(t-(n-1))。在这种情况下,输入数据的大小可以是W*H*n*C,其中W和H表示高分辨率图像的宽度和高度,n表示高分辨率图像的数量,以及C表示包括在一个高分辨率图像中的通道的数量。第一卷积层的内核的大小可以是K*K*n*C,其中内核的数量是C'1。在这种情况下,K表示内核的宽度和高度,n*C表示内核的深度。作为在第一卷积层中执行卷积运算的结果而输出的特征图(输出数据)的大小可以是W*H*C'1。在这种情况下,为了使输入数据的宽度和高度与输出数据的宽度和高度相同,可以执行填充,但不限于此。
在第二卷积神经网络340的卷积层Conv_1',Conv_2',...,Conv_M'中执行的卷积运算与关于第一卷积神经网络所描述的相同,因此不再详细描述。然而,将多个图像输入到第二卷积神经网络340,从而使得在第二卷积神经网络340中执行的卷积运算可以是三维(3D)运算。
此外,第二卷积层Conv_2'的输入数据的大小可以等于第一卷积层Conv_1'的输出数据的大小,其中第二卷积层的内核大小可以是K*K*C'1,内核的深度C'1可以等于输入数据的通道数量C'1,以及前一层(第一卷积层)的内核的数量C'1。内核的数量可以是C'2,使得作为在第二卷积层中执行卷积运算的结果而输出的第二特征图(输出数据)的大小可以是W*H*C'2。通过在M个卷积层Conv_1',Conv_2',...,Conv_M'中重复该过程,最终输出特征图(输出数据)的大小可以是W*H*C'M,其中C'M表示第M卷积层的内核的数量。第M卷积层的内核的数量可以等于高分辨率图像的通道的数量C,其中最终输出数据的大小可以是W*H*C。在这种情况下,最终输出数据可以是当前帧的已去除闪烁的高分辨率图像S(t)。
根据一个实施例的图像处理设备100可以将在当前帧中生成的已去除闪烁的高分辨率图像S(t)存储在存储器中,其中存储在存储器中的高分辨率图像S(t)可以被用于去除下一帧的高分辨率图像S'(t+1)的闪烁。例如,当图像处理设备100处理下一帧的图像时,图像处理设备100可以将当前帧的高分辨率图像S(t)输入到第二卷积神经网络340。然而,本公开不限于该示例。
图7是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
参照图7,图像处理设备100可以通过使用第一卷积神经网络320和上变换器330从低分辨率图像L(t)生成高分辨率图像。例如,图像处理设备100可以通过使用第一卷积神经网络320来提取当前帧的图像的特征图(特征信息)F(t),并且对特征图(特征信息)进行上变换以生成第一高分辨率图像S'(t)。
第一卷积神经网络320和上变换器330与图3的第一卷积神经网络320和上变换器330相同,因此不再详细描述。
图像处理设备100可以将在第一卷积神经网络320中提取的当前帧的特征图F(t)存储在存储器中,其中存储在存储器中的当前帧的特征图F(t)可以被用于去除下一帧(t+1)的高分辨率图像S'(t+1)的闪烁。例如,当图像处理设备100处理下一帧的图像时,图像处理设备100可以将其中当前帧的特征图F(t)经上变换而得的高分辨率图像S'(t)输入到第二卷积神经网络340。然而,本公开不限于该示例。
此外,图像处理设备100可以通过使用第二卷积神经网络340来去除所生成的高分辨率图像S'(t)的闪烁。图像处理设备100可以基于在当前时间之前的帧中提取的特征图(特征信息)F(t-1),...,F(t-(n-1))生成先前帧的高分辨率图像S'(t-1),...,S'(t-(n-1))。
当根据一个实施例的图像处理设备100处理当前时间t之前的帧时,图像处理设备100可以将在第一卷积神经网络320中提取的特征图F(t-1),...,F(t-(n-1))存储在存储器中。在这种情况下,通过将特征图F(t-1),...,F(t-(n-1))代替先前帧的高分辨率图像S’(t-1),...,S’(t-(n-1))存储在存储器中,可以减小存储器的尺寸。
图像处理设备100可以通过分别对具有w*h*CN的尺寸的特征图F(t-1),...,F(t-(n-1))进行上变换来生成具有W*H*C的尺寸的高分辨率图像S'(t-1),...,S'(t-(n-1))。在这种情况下,W和H可以分别等于或大于w和h。所生成的先前帧的高分辨率图像S'(t-1),...,S'(t-(n-1))可以是包含闪烁的高分辨率图像。
图像处理设备100可以通过输入先前帧的包含闪烁的高分辨率图像S'(t-1),...,S'(t-(n-1))和当前帧的包含闪烁的第一高分辨率图像S'(t)来生成从第一高分辨率图像S'(t)去除闪烁而得的第二高分辨率图像S(t)。
图8是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
参照图8,图像处理设备100可以通过使用第一卷积神经网络320和上变换器330从低分辨率图像L(t)生成高分辨率图像S'(t)。例如,图像处理设备100可以通过使用第一卷积神经网络320来提取当前帧的图像的特征图(特征信息),并且对该特征图进行上变换以生成第一高分辨率图像S'(t)。
第一卷积神经网络320和上变换器330与图3的第一卷积神经网络320和上变换器330相同,因此不再详细描述。
此外,图像处理设备100可以包括运动估计/补偿器810。运动估计/补偿器810可以基于在当前时间t之前的帧中处理的已去除闪烁的高分辨率图像S’(t-1),...,S’(t-(n-1))和当前帧的第一高分辨率图像S'(t)来执行运动估计和补偿。
运动估计/补偿器810可以执行运动估计和补偿,从而将先前帧的高分辨率图像S’(t-1),...,S’(t-(n-1))翘曲到当前时间。在这种情况下,作为一种几何变形的翘曲可以意味着将图像中的位置(x,y)处的像素映射到(x',y')。图像处理设备100可以基于在先前帧和当前帧之间估计的对象的运动来执行变形,以将先前帧中的对象的位置与当前帧中的对象的位置相匹配。
因此,可以将先前帧的高分辨率图像翘曲到当前时间t,从而生成(n-1)个高分辨率图像W(t-1),...,W(t-(n-1))。
此外,根据一个实施例的图像处理设备100可以包括闪烁去除器820。闪烁去除器820可以基于通过第一卷积神经网络320和上变换器330生成的(n-1)个翘曲的高分辨率图像W(t-1),...,W(t-(n-1))和当前帧的第一高分辨率图像S'(t)来去除第一高分辨率图像S'(t)的闪烁。例如,闪烁去除器820可以通过对n个输入图像求平均来去除第一高分辨率图像S'(t)的闪烁。然而,可以使用各种闪烁去除技术,而不限于该示例。
图9是参照以描述根据一个实施例的由图像处理设备执行的去除闪烁的方法的视图。
参照图9,图像处理设备100可以通过使用第一卷积神经网络320和上变换器330从低分辨率图像L(t)生成高分辨率图像S'(t)。例如,图像处理设备100可以通过使用第一卷积神经网络320来提取当前帧的图像的特征图(特征信息),并且对该特征图进行上变换以生成第一高分辨率图像S'(t)。第一高分辨率图像S'(t)可以是包含闪烁的图像。
第一卷积神经网络320和上变换器330与图3的第一卷积神经网络320和上变换器330相同,因此不再详细描述。
此外,图像处理设备100可以将在第一卷积神经网络320中提取的当前帧的特征图F(t)存储在存储器中,其中存储在存储器中的当前帧的特征图F(t)可以被用于去除下一帧的高分辨率图像S'(t+1)的闪烁。
图像处理设备100可以基于在当前时间t之前的帧中提取的特征图F(t-1),...,F(t-(n-1))和当前帧的第一高分辨率图像S'(t)来执行运动估计和补偿。
当根据一个实施例的图像处理设备100处理当前时间之前的帧时,图像处理设备100可以将在第一卷积神经网络320中提取的特征图F(t-1),...,F(t-(n-1))存储在存储器中。在这种情况下,通过将特征图F(t-1),...,F(t-(n-1))代替先前帧的高分辨率图像存储在存储器中,可以减小存储器的尺寸。
图像处理设备100可以对先前帧的特征图F(t-1),...,F(t-(n-1))进行上变换,以生成高分辨率图像S'(t-1),...,S'(t-(n-1)),其中生成的高分辨率图像可以是包含闪烁的图像。
图像处理设备100可包括运动估计/补偿器910,其可基于先前帧的包含闪烁的高分辨率图像S'(t-1),...,S'(t-(n-1))和当前帧的包含闪烁的第一高分辨率图像S'(t)来执行运动估计和补偿。因此,可以将先前帧的高分辨率图像翘曲到当前时间t,从而生成(n-1)个高分辨率图像W(t-1),...,W(t-(n-1))。
图像处理设备100可包含闪烁去除器920,其可基于(n-1)个翘曲的高分辨率图像W'(t-1),...,W'(t-(n-1))和当前帧的第一高分辨率图像S'(t)来去除高分辨率图像S'(t)的闪烁。例如,闪烁去除器920可以通过对n个输入图像求平均来去除第一高分辨率图像S'(t)的闪烁。然而,可以使用各种闪烁去除技术,而不限于该示例。
图10和图11是参照以描述根据一个实施例的训练第一卷积神经网络和第二卷积神经网络的方法的视图。
参照图10,根据一个实施例的图像处理设备100可以包括图像特征提取器1010、图像分析器1020和闪烁分析器1030。图像特征提取器1010可以接收在图像处理设备100中生成的当前帧的已去除闪烁的高分辨率图像x(t)和当前帧的实际高分辨率图像y(t)。
在这种情况下,可以提供当前帧的实际高分辨率图像y(t)作为训练数据。图像特征提取器1010可以提取所生成的高分辨率图像x(t)和实际高分辨率图像y(t)的一个或多个特征图(特征信息)。
图像特征提取器1010可以通过使用卷积神经网络提取所生成的高分辨率图像x(t)和实际高分辨率图像y(t)的特征图,该卷积神经网络可以包括可以在其中执行卷积运算的多个卷积层。除了卷积运算之外,图像特征提取器1010可以执行诸如激活函数、池化等操作。在这种情况下,可以针对每个卷积层提取特征图。
图像特征提取器1010可以在初始卷积层中提取输入图像的边缘或梯度之类的低级特征,并且可以在后续卷积层中提取逐渐复杂的特征(例如,眼睛、鼻子、嘴、脸等)。
图像分析器1020可分析所生成的高分辨率图像的特征图Fx与实际高分辨率图像的特征图Fy之间的差异。生成的高分辨率图像的特征图Fx和实际高分辨率图像的特征图Fy之间的差异可以由等式1表示。
[等式1]
这里,F1表示在图像特征提取器1010的第l层中提取的特征图,xt表示在时间t的帧中生成的高分辨率图像,以及yt表示在时间t的实际高分辨率图像。此外,i和k表示特征图的像素的位置。
因此,可以意味着,对于在时间t的帧中生成的高分辨率图像,在图像特征提取器1010的第l层中提取的特征图的(i,k)处的像素。/>可以意味着,对于在时间t的帧中的实际高分辨率图像,在图像特征提取器1010的第l层中提取的特征图的(i,k)处的像素。
网络更新器1040可以调整第一卷积神经网络320的内核的权重值,以减小所生成的高分辨率图像的特征图和实际的高分辨率图像的特征图之间的差El,image
此外,闪烁分析器1030可以计算在先前帧中生成的高分辨率图像的特征图与在当前帧中生成的高分辨率图像的特征图之间的差(第一差值)以及在先前帧的实际高分辨率图像的特征图与当前帧的实际高分辨率图像的特征图之间的差(第二差值),并将第一差值与第二差值进行比较,从而分析闪烁。
例如,参考图11,在当前帧中生成的高分辨率图像的特征图与在先前帧中生成的高分辨率图像的特征图之间的差(第一差值)可以包括对象在图像中的实际运动和闪烁。当前帧的实际高分辨率图像的特征图与先前帧的实际高分辨率图像的特征图之间的差(第二差值)可以包括对象的实际运动。因此,通过将第一差值与第二差值进行比较,可以分析闪烁。闪烁可以由等式2表示。
[等式2]
这里,Fl表示在图像特征提取器1010的第l层中提取的特征图,xt表示在时间t的帧中生成的高分辨率图像,以及yt表示在时间t的实际高分辨率图像。此外,i和k表示特征图的像素的位置。
因此,可以意味着,对于在时间t的帧中生成的高分辨率图像,在图像特征提取器1010的第l层中提取的特征图的(i,k)处的像素。/>可以意味着,对于在时间t的帧中的实际高分辨率图像,在图像特征提取器1010的第l层中提取的特征图的(i,k)处的像素。
网络更新器1040可以调整第二卷积神经网络340的内核的权重值,以减少所分析的闪烁El,flicker
图12是根据一个实施例的图像处理设备的框图。
参照图12,根据一个实施例的图像处理设备100可以包括处理器120和存储器130。
根据一个实施例的处理器120可以控制图像处理设备100整体。根据一个实施例的处理器120可以执行存储在存储器130中的一个或多个程序。
根据一个实施例的存储器130可以存储用于驱动和控制图像处理设备100的各种数据、程序或应用。存储在存储器130中的程序可以包括一个或多个指令。存储在存储器130中的程序(例如,一个或多个指令)或应用程序可以由处理器120执行。
根据一个实施例的处理器120可以执行如图3至图11所示以及参照图3至图11所描述的高分辨率图像生成器310、闪烁去除器340、820和920、图像特征提取器1010、图像分析器1020、闪烁分析器1030和网络更新器1040的操作中的至少一个。
例如,处理器120可以通过使用第一卷积神经网络320从低分辨率图像中提取特征图,并且对所提取的特征图进行上变换以生成第一高分辨率图像。处理器120可以基于在当前帧中生成的第一高分辨率图像和在先前帧中处理的已去除闪烁的高分辨率图像来去除在当前帧中生成的第一高分辨率图像的闪烁。
此外,当处理当前时间之前的帧时,根据一个实施例的存储器130可以存储已去除闪烁的高分辨率图像,以及在当前时间生成的已去除闪烁的高分辨率图像。
处理器120可以通过使用第二卷积神经网络340来去除当前帧的第一高分辨率图像的闪烁。在这种情况下,可以将先前帧中的去除闪烁的高分辨率图像和第一高分辨率图像输入到第二卷积神经网络,并且可以从第二卷积神经网络340输出当前帧的已去除闪烁的第二高分辨率图像。
处理器120可以基于在先前帧的处理期间提取的特征信息来去除在当前帧中生成的第一高分辨率图像的闪烁。
例如,当处理当前时间之前的帧时,根据一个实施例的存储器130可以存储在第一卷积神经网络中提取的特征图。处理器120可对先前帧的相应特征信息进行上变换以生成先前帧的高分辨率图像。处理器120可以将先前帧的高分辨率图像和在当前帧中生成的第一高分辨率图像输入到第二卷积神经网络340,而第二卷积神经网络340可以输出已去除闪烁的第二高分辨率图像。
处理器120可通过基于在先前帧中处理的已去除闪烁的高分辨率图像和当前帧的第一高分辨率图像执行运动估计和补偿来获得翘曲到当前时间的高分辨率图像。处理器120可基于翘曲到当前时间的高分辨率图像和当前帧的第一高分辨率图像来去除第一高分辨率图像的闪烁。
处理器120可以对在先前帧中提取的各个特征图进行上变换,以生成先前帧的高分辨率图像。处理器120可以通过基于先前帧的高分辨率图像和当前帧的第一高分辨率图像执行运动估计和补偿来获得翘曲到当前时间的高分辨率图像。处理器120可基于翘曲到当前时间的高分辨率图像和当前帧的第一高分辨率图像来去除第一高分辨率图像的闪烁。
图13是根据一个实施例的处理器120的框图。
参照图13,根据一个实施例的处理器120可以包括网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240。
网络训练器1210可以学习用于生成高分辨率图像的标准和用于去除图像处理设备100中的闪烁的标准。例如,网络训练器1210可以训练根据一个实施例的第一卷积神经网络和第二卷积神经网络。网络训练器1210可以获得用于训练的图像数据,并将所获得的数据应用到第一卷积神经网络,从而学习用于生成高分辨率图像的标准。网络训练器1210还可以将所获得的数据应用到第二卷积神经网络,以学习用于从图像中去除闪烁的标准。
网络训练器1210可以将经过训练的网络(例如,第一卷积神经网络和第二卷积神经网络)存储在图像处理设备的存储器中。替代地,网络训练器1210可以将经过训练的网络存储在与图像处理设备有线或无线连接的服务器的存储器中。
其中存储有经过训练的网络的存储器还可以存储例如与图像处理设备100的至少一个其它元件相关的指令或数据。
高分辨率图像生成器1220可以通过使用第一卷积神经网络来生成高分辨率图像。高分辨率图像生成器1220可以通过使用第一卷积神经网络来提取以低分辨率图像作为输入值的特征信息。高分辨率图像生成器1220可以基于所提取的特征信息生成高分辨率图像。
闪烁去除器1230可以通过使用第二卷积神经网络来去除图像的闪烁。闪烁去除器1230可通过使用第二卷积神经网络,以在高分辨率图像生成器1220中生成的图像和在先前帧中生成的高分辨率图像作为输入值来去除当前帧的高分辨率图像的闪烁。在这种情况下,可以使用已去除闪烁的高分辨率图像来更新第一卷积神经网络和第二卷积神经网络中的至少一个。
此外,网络训练器1210可以基于由高分辨率图像生成器1220和闪烁去除器1230生成的高分辨率图像来训练网络。例如,网络训练器1210可以通过使用诸如误差反向传播或梯度下降的训练算法来训练网络。网络训练器1210可以通过分析所生成的高分辨率图像与实际高分辨率图像进行比较。图13的网络训练器1210可以对应于参考图10描述的图像特征提取器1010、图像分析器1020和闪烁分析器1030,并且将不进行详细描述。
网络更新器1240可以基于网络训练器1210的分析结果,通过调整包括在第一卷积神经网络和第二卷积神经网络中的内核的权重值来更新网络。
网络训练器1210、、闪高分辨率图像生成器1220烁去除器1230和网络更新器1240中的至少一个可以以硬件芯片的形式制造并安装在图像处理设备上。例如,网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240中的至少一个可以被制造成用于人工智能(AI)的专用硬件芯片的形式,或者可以被制造成现有通用处理器(例如,中央处理单元(CPU)或应用处理器)或专用图形处理器(例如,图形处理单元(GPU))的一部分,并安装在上述各种图像处理设备上。
网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240可以分别安装在一个图像处理设备或分开的图像处理设备上。例如,网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240中的一些可以包括在图像处理设备中,并且其中的其它一些可以包括在服务器中。
替代地,网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240中的至少一个可以用软件模块来实现。当用软件模块(或包括指令的程序模块)实现网络训练器1210、高分辨率图像生成器1220、闪烁去除器1230和网络更新器1240中的至少一个时,软件模块可以存储在非暂时性计算机可读介质中。在这种情况下,至少一个软件模块由OS或由应用程序提供。替代地,所述至少一个软件模块的一部分可由OS提供且其另一部分可由应用程序提供。
此外,图12和图13分别示出的图像处理设备100和处理器120的框图是用于实施例的框图。框图的元件可以根据实际实现的图像处理设备100的规格而进行集成、添加或省略。也就是说,当需要时,可以将两个或更多个元件集成到一个元件中,或者可以将一个元件分成两个或更多个元件。在每个元件(或模块)中执行的功能旨在描述本公开的实施例,并且其详细操作或装置不限制本公开的范围。
根据一个实施例的图像处理设备的操作方法可以是以程序指令的形式实现的特征,该程序指令可以通过各种计算机组件执行并被记录在计算机可读记录介质中。计算机可读记录介质可以单独或以组合方式包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质中的程序指令可以是为本实施例专门设计和配置的程序指令或计算机软件领域的技术人员已知使用的程序指令。计算机可读记录介质的示例可以包括诸如硬盘、软盘和磁带的磁介质,诸如光盘只读存储器(CD-ROM)和数字多功能盘(DVD)的光介质,诸如光磁盘的磁光介质,以及特别配置为存储和执行程序指令的硬件设备,诸如只读存储器(ROM)、随机存取存储器(RAM)和闪存等。此外,程序指令的示例包括由编译器创建的机器语言代码和可由使用解释器的计算机执行的高级语言代码。
用于生成高分辨率图像的图像处理设备和根据所公开的实施例的图像处理设备的操作方法可以被包括和提供在计算机程序产品中。计算机程序产品可以作为卖方和买方之间的产品进行交易。
计算机程序产品可以包括软件(S/W)程序和其中存储有S/W程序的非暂时性计算机可读记录介质。例如,计算机程序产品可以包括通过制造商或电子设备或电子市场(例如,谷歌商店(Google Play Store)或苹果商店(App Store))电子分发的S/W程序形式的产品(例如,可下载应用程序)。对于电子分发,可以将S/W程序的至少一部分存储在存储介质中或临时生成。在这种情况下,存储介质可以是制造商或电子市场中的服务器的存储介质或者临时存储S/W程序的中继服务器。
在包括服务器和客户端设备的系统中,计算机程序产品可以包括服务器的存储介质或客户端设备的存储介质。替代地,当存在与服务器或客户端设备通信的第三设备(例如,智能电话)时,计算机程序产品可以包括第三设备的存储介质。替代地,计算机程序产品可包括S/W程序本身,其从服务器传输到客户端设备或第三设备或从第三设备传输到客户端设备。
在这种情况下,服务器、客户端设备和第三设备中的一个可以执行计算机程序产品以执行根据本公开的实施例的方法。替代地,服务器、客户端设备和第三设备中的两个或更多个可以执行计算机程序产品,以便以分布式方式执行根据本公开的实施例的方法。
例如,服务器(例如,云服务器或AI服务器等)可以执行存储在服务器中的计算机程序产品,以控制与服务器通信的客户端设备执行根据本公开的实施例的方法。
虽然已经参考本公开的某些示例性实施方式示出和描述了本公开,但是本公开的范围不限于说明书,并且还包括本领域普通技术人员使用所附权利要求书中定义的本公开的概念进行的各种修改和改进。

Claims (12)

1. 一种用于生成高分辨率运动图像的图像处理设备,所述图像处理设备包括:
存储器,存储一个或多个指令;以及
处理器,配置为执行存储在所述存储器中的所述一个或多个指令,
其中,所述处理器配置为:
通过使用第一卷积神经网络CNN来提取关于当前帧的低分辨率图像的特征信息,
基于所述特征信息生成所述当前帧的第一高分辨率图像,
通过将所述当前帧的所述第一高分辨率图像和先前帧的已去除闪烁的高分辨率图像输入到第二卷积神经网络并与所述第二卷积神经网络的M个卷积层中的每一个中的一个或多个内核执行卷积运算,来去除所述第一高分辨率图像的闪烁,以生成所述当前帧的第二高分辨率图像,其中,所述第二高分辨率图像为所述当前帧的已去除闪烁的高分辨率图像,以及
通过使用所述当前帧的所述第二高分辨率图像来去除下一帧的高分辨率图像的闪烁。
2.根据权利要求1所述的图像处理设备,其中,所述第一卷积神经网络包括N个卷积层,以及
所述处理器进一步配置为通过将所述当前帧的所述低分辨率图像输入到所述第一卷积神经网络并与所述N个卷积层中的每一个中的一个或多个内核执行卷积运算,来提取所述特征信息。
3.根据权利要求1所述的图像处理设备,其中,所述处理器进一步配置为通过对所述特征信息应用双线性内插方法、双立方内插方法或卷积内插方法中的至少一种来生成所述第一高分辨率图像。
4.根据权利要求1所述的图像处理设备,其中,所述处理器进一步配置为提取对应于所述第二高分辨率图像的第一特征信息及对应于所述当前帧的实际高分辨率图像的第二特征信息,且基于所述第一特征信息及所述第二特征信息来更新所述第一卷积神经网络和所述第二卷积神经网络中的至少一个。
5.根据权利要求4所述的图像处理设备,其中,所述处理器进一步配置为调整包括在所述第一卷积神经网络和所述第二卷积神经网络中的至少一个中的一个或多个内核的权重值。
6.根据权利要求5所述的图像处理设备,其中,所述处理器进一步配置为调整包括在所述第一卷积神经网络中的一个或多个内核的权重值,以减小所述第一特征信息与所述第二特征信息之间的差异。
7.根据权利要求5所述的图像处理设备,其中,所述处理器进一步配置为计算所述第一特征信息与所述第二特征信息之间的第一差值以及对应于所述先前帧的所述已去除闪烁的高分辨率图像的第三特征信息与对应于所述先前帧的实际高分辨率图像的第四特征信息之间的第二差值,并调整包括在所述第二卷积神经网络中的一个或多个内核的权重值以减小所述第一差值与所述第二差值之间的差。
8.根据权利要求1所述的图像处理设备,其中,所述存储器存储所述第二高分辨率图像。
9.一种用于生成高分辨率运动图像的图像处理设备的操作方法,所述操作方法包括:
通过使用第一卷积神经网络提取有关当前帧的低分辨率图像的特征信息;
基于所述特征信息生成所述当前帧的第一高分辨率图像;
通过将所述当前帧的所述第一高分辨率图像和先前帧的已去除闪烁的高分辨率图像输入到第二卷积神经网络并与所述第二卷积神经网络的M个卷积层中的每一个中的一个或多个内核执行卷积运算,来去除所述第一高分辨率图像的闪烁,以生成所述当前帧的第二高分辨率图像,其中,所述第二高分辨率图像为所述当前帧的已去除闪烁的高分辨率图像;以及
通过使用所述当前帧的所述第二高分辨率图像来去除下一帧的高分辨率图像的闪烁。
10.根据权利要求9所述的操作方法,其中,提取特征信息包括:
通过将所述当前帧的所述低分辨率图像输入到所述第一卷积神经网络并与所述第一卷积神经网络的N个卷积层中的每一个中的一个或多个内核执行卷积运算。
11.根据权利要求9所述的操作方法,其中,生成所述第一高分辨率图像包括:
通过对所述特征信息应用双线性内插方法、双立方内插方法或卷积内插方法中的至少一种来生成所述第一高分辨率图像。
12.根据权利要求9所述的操作方法,还包括:
提取对应于所述第二高分辨率图像的第一特征信息和对应于所述当前帧的实际高分辨率图像的第二特征信息;以及
基于所述第一特征信息和所述第二特征信息,更新所述第一卷积神经网络和所述第二卷积神经网络中的至少一个。
CN201980047752.4A 2018-07-16 2019-07-16 图像处理设备及其操作方法 Active CN112913226B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0082375 2018-07-16
KR1020180082375A KR102570562B1 (ko) 2018-07-16 2018-07-16 영상 처리 장치 및 그 동작방법
PCT/KR2019/008779 WO2020017871A1 (ko) 2018-07-16 2019-07-16 영상 처리 장치 및 그 동작방법

Publications (2)

Publication Number Publication Date
CN112913226A CN112913226A (zh) 2021-06-04
CN112913226B true CN112913226B (zh) 2024-05-03

Family

ID=69164574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980047752.4A Active CN112913226B (zh) 2018-07-16 2019-07-16 图像处理设备及其操作方法

Country Status (5)

Country Link
US (1) US11871144B2 (zh)
EP (1) EP3790272A4 (zh)
KR (1) KR102570562B1 (zh)
CN (1) CN112913226B (zh)
WO (1) WO2020017871A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4107692A4 (en) * 2020-02-17 2023-11-29 INTEL Corporation SUPER-RESOLUTION USING A CONVOLUTIONAL NEURAL NETWORK
CN111402130B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 数据处理方法和数据处理装置
US11288771B2 (en) * 2020-04-29 2022-03-29 Adobe Inc. Texture hallucination for large-scale image super-resolution
KR102334730B1 (ko) * 2020-11-18 2021-12-03 인하대학교 산학협력단 라이트필드 초해상도와 블러 제거의 동시 수행을 위한 적대적 신경망 모델 장치 및 그 동작 방법
WO2022265321A1 (en) * 2021-06-15 2022-12-22 Samsung Electronics Co., Ltd. Methods and systems for low light media enhancement
TWI806243B (zh) * 2021-11-17 2023-06-21 瑞昱半導體股份有限公司 超解析度影像產生裝置
CN114090500B (zh) * 2022-01-13 2022-04-12 南京初芯集成电路有限公司 一种全通式图像处理soc芯片及图像处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651773A (zh) * 2009-09-14 2010-02-17 中国电影科学技术研究所 一种去除图像闪烁的方法
JP2016019139A (ja) * 2014-07-08 2016-02-01 株式会社朋栄 フリッカーを除去する画像処理方法とその画像処理装置
CN108022212A (zh) * 2017-11-24 2018-05-11 腾讯科技(深圳)有限公司 高分辨率图片生成方法、生成装置及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5376963A (en) 1993-03-31 1994-12-27 Panasonic Technologies, Inc. Neural network video image processor
JP6013667B1 (ja) * 2014-12-15 2016-10-25 オリンパス株式会社 画像処理装置および画像処理方法
WO2016132152A1 (en) * 2015-02-19 2016-08-25 Magic Pony Technology Limited Interpolating visual data
GB201603144D0 (en) * 2016-02-23 2016-04-06 Magic Pony Technology Ltd Training end-to-end video processes
KR20170047489A (ko) * 2015-10-23 2017-05-08 삼성전자주식회사 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체
EP3166070B1 (en) * 2015-11-09 2021-01-06 InterDigital CE Patent Holdings Method for upscaling noisy images, and apparatus for upscaling noisy images
KR20170077621A (ko) * 2015-12-28 2017-07-06 연세대학교 산학협력단 영상 압축에서의 플리커링 현상 제거 방법 및 그 장치
KR101780057B1 (ko) * 2016-08-02 2017-09-19 한양대학교 에리카산학협력단 고해상도 영상 복원 방법 및 장치
US10147459B2 (en) * 2016-09-22 2018-12-04 Apple Inc. Artistic style transfer for videos
US10360494B2 (en) 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN106791283B (zh) * 2017-01-25 2019-11-19 京东方科技集团股份有限公司 一种校正视频闪烁的方法、装置及视频设备
CN107464217B (zh) * 2017-08-16 2020-12-29 清华-伯克利深圳学院筹备办公室 一种图像处理方法及装置
US10726525B2 (en) * 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
US10650495B2 (en) * 2018-06-04 2020-05-12 Adobe Inc. High resolution style transfer
US11348336B2 (en) * 2020-05-13 2022-05-31 International Business Machines Corporation Systems and approaches for learning efficient representations for video understanding
US11967066B2 (en) * 2021-04-12 2024-04-23 Daegu Gyeongbuk Institute Of Science And Technology Method and apparatus for processing image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651773A (zh) * 2009-09-14 2010-02-17 中国电影科学技术研究所 一种去除图像闪烁的方法
JP2016019139A (ja) * 2014-07-08 2016-02-01 株式会社朋栄 フリッカーを除去する画像処理方法とその画像処理装置
CN108022212A (zh) * 2017-11-24 2018-05-11 腾讯科技(深圳)有限公司 高分辨率图片生成方法、生成装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bidirectional Recurrent Convolutional Networks for Mutil-Frame Super-Resolution;Yan Huang;nternational Conference on Neural Information Processing Systems;第3.1、4.3节,图1 *
Yan Huang.Bidirectional Recurrent Convolutional Networks for Mutil-Frame Super-Resolution.International Conference on Neural Information Processing Systems.2015,第3.1、4.3节,图1. *

Also Published As

Publication number Publication date
US11871144B2 (en) 2024-01-09
CN112913226A (zh) 2021-06-04
KR20200008343A (ko) 2020-01-28
EP3790272A1 (en) 2021-03-10
KR102570562B1 (ko) 2023-08-24
US20210224951A1 (en) 2021-07-22
WO2020017871A1 (ko) 2020-01-23
EP3790272A4 (en) 2021-06-30

Similar Documents

Publication Publication Date Title
CN112913226B (zh) 图像处理设备及其操作方法
US10650495B2 (en) High resolution style transfer
CN109671126B (zh) 使用神经网络预测分块位移图
US20200134778A1 (en) Image style transform methods and apparatuses, devices and storage media
CN110210524B (zh) 一种图像增强模型的训练方法、图像增强方法及装置
US10817984B2 (en) Image preprocessing method and device for JPEG compressed file
KR20200067631A (ko) 영상 처리 장치 및 그 동작방법
KR20200015095A (ko) 영상 처리 장치 및 그 동작방법
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113569852A (zh) 语义分割模型的训练方法、装置、电子设备及存储介质
US20180122052A1 (en) Method for deblurring a video, corresponding device and computer program product
CN112689849A (zh) 图像处理装置及其操作方法
CN108229650B (zh) 卷积处理方法、装置及电子设备
US20230360359A1 (en) Image processing apparatus and operation method thereof
US10540735B2 (en) Information processing device, information processing method, and recording medium
CN110136185B (zh) 一种单目深度估计方法及系统
US20230069072A1 (en) Image processing apparatus and operation method thereof
EP4083874A1 (en) Image processing device and operating method therefor
EP4047547A1 (en) Method and system for removing scene text from images
EP3376467A1 (en) Generation of alpha masks of video frames
CN114266846A (zh) 一种用于目标检测模型的自学习填充方法
CN113591528A (zh) 文档矫正方法、装置、计算机设备和存储介质
US20220284555A1 (en) Image processing apparatus and operation method thereof
KR102266903B1 (ko) 영상 처리 장치 및 그 동작방법
EP4276734A1 (en) Image processing device and operation method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant