CN113228061A - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN113228061A
CN113228061A CN202080007394.7A CN202080007394A CN113228061A CN 113228061 A CN113228061 A CN 113228061A CN 202080007394 A CN202080007394 A CN 202080007394A CN 113228061 A CN113228061 A CN 113228061A
Authority
CN
China
Prior art keywords
weight
data
value
kernel
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080007394.7A
Other languages
English (en)
Inventor
安一埈
朴镕燮
朴在演
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113228061A publication Critical patent/CN113228061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

提供了一种电子装置及其控制方法。电子装置包括用于存储至少一个指令的存储器,以及被配置为执行至少一个指令的处理器,其中,处理器被配置为对输入图像执行卷积运算并获得与图像相关的中间特征数据。中间特征数据与在通道方向上的第一内核卷积以获得第一数据。然后第一数据与在空间方向上的第二内核卷积以获得第二数据。基于第二数据设置包括在第一内核和第二内核中的一个或更多个权重的值,并且可以基于权重的位置调整权重的值。

Description

电子装置及其控制方法
技术领域
本公开涉及一种电子装置及其控制方法,更具体地,涉及一种通过利用多个内核对与图像相关的特征数据执行卷积运算以获得无棋盘效应的图像的电子装置及其控制方法。
背景技术
近年来,人工智能系统被应用于各个领域。与基于预先应用的规则执行各种功能的智能系统不同,人工智能系统是机器训练自身、确定并变得智能的系统。因此,随着人工智能系统的使用,识别率得到提高,并且可以更准确地了解用户的偏好,因此,现有的智能系统正逐渐被人工智能系统所取代。神经网络是这种人工智能系统的代表性技术。
神经网络是通过数学表达式对生物神经元的特征进行建模而获得的学习算法。神经网络可以通过上述学习算法生成输入数据和输出数据之间的映射,并且生成映射的能力可以是神经网络的学习能力。神经网络中的卷积神经网络主要用于分析视觉图像。
在卷积神经网络等中,需要执行反卷积运算(或处理),以便通过放大输入图像来生成尺寸大于输入图像尺寸的输出图像。然而,当执行反卷积运算时,在内核的大小值不被应用于反卷积运算的步长的大小值所除的情况下,内核的重叠程度在输出图像的每个位置处可能是不同的。当内核的重叠程度在输出图像的每个位置处变得不同时,可能以棋盘形状在图像中均匀地产生伪影。
另外,存在这样的问题,即现有的反卷积运算的处理量占据了网络的整个处理量的相当大的部分。
发明内容
本文提供了一种电子装置,包括:用于存储至少一个指令的存储器;以及处理器,被配置为执行所述至少一个指令,其中,处理器被配置为执行所述至少一个指令以进行以下操作:对输入图像执行第一卷积运算,并且获得作为第一卷积运算的结果的中间特征数据,通过利用在通道方向上的多个第一内核对中间特征数据执行第二卷积运算以获得第一数据,其中,所述多个第一内核包括第一权重,通过利用在空间方向上的第二内核对第一数据执行第三卷积运算以获得第二数据,其中,第二内核包括第二权重,基于第二数据,设置第一权重的第一值或设置第二权重的第二值,基于第一权重的第一位置调整第一权重的第一值,并且基于第二权重的第二位置调整第二权重的第二值。
在所述电子装置的一些实施例中,所述多个第一内核的高度和宽度中的一个具有第一参数,并且高度和宽度中的另一个具有第二参数,其中,第一参数为1,第二参数为除1之外的预定整数值,其中,所述处理器还被配置为进行以下操作:基于所述多个第一内核中的第一权重的第一位置,对第一权重的第一值进行归一化,以及基于第二内核中的第二权重的第二位置,对第二权重的第二值进行归一化。
在所述电子装置的一些实施例中,所述处理器还被配置为调整第一权重的第一值以使所述多个第一内核中的每个第一内核中的总和相同。
在电子装置的一些实施例中,处理器还被配置为通过将包括权重函数的可靠性图应用于第二内核以调整第二权重的第二值。
在电子装置的一些实施方案中,权重函数包括具有从可靠性图的中心逐渐变化的值的函数。
在所述电子装置的一些实施例中,所述处理器还被配置为进行以下操作:将第二内核的第二权重分解为多个组,并且基于第二内核中的第二权重的位置对所述多个组中的每个组进行归一化。
在电子装置的一些实施例中,处理器还被配置为基于第二内核的参数值和第三卷积运算应用的步长的大小,识别所述多个组的数量和所述多个组中的每个组中包括的权重的数量。
在电子装置的一些实施例中,处理器还被配置为针对所述多个组中的第一组,调整第二权重的第二值以使包括在多个组中的第一组中的第二权重的总和一致。
在电子装置的一些实施例中,处理器还被配置为进行以下操作:通过使用所述多个组对第一数据执行第三卷积运算以获得第二数据,以及通过重新排列第二数据以获得输出图像。
在一些实施方案中,电子装置还包括显示器,并且所述处理器还被配置为控制显示器显示输出图像,其中输出图像具有大于输入图像的第二尺寸的第一尺寸。
本文还提供了一种用于控制电子装置的方法,该方法包括:对输入图像执行第一卷积运算,并且获得作为第一卷积运算的结果的中间特征数据;通过利用在通道方向上的多个第一内核对中间特征数据执行第二卷积运算以获得第一数据,其中所述多个第一内核包括第一权重;通过利用在空间方向上的第二内核对第一数据执行第三卷积运算以获得第二数据,其中,所述第二内核包括第二权重;基于第二数据,设置第一权重的第一值或第二权重的第二值;基于第一权重的第一位置调整第一权重的所述第一值;以及基于第二权重的第二位置调整第二权重的第二值。
根据本公开的实施例,提供了一种用于存储至少一个指令的存储器,以及被配置为执行所述至少一个指令的处理器,其中,处理器被配置为对输入图像执行卷积运算并获得与图像相关的中间特征数据,通过利用在通道方向上的第一内核对中间特征数据执行卷积运算以获得第一数据,并且通过利用在空间方向上的第二内核对所获得的第一数据执行卷积运算以获得第二数据。基于所获得的第二数据设置包括在第一内核和第二内核中的一个或更多个权重的值,并且基于权重的位置调整所设置的权重的值。
根据本公开的另一实施例,提供了一种用于控制电子装置的方法,该方法包括:对输入图像执行卷积运算并获得与图像相关的中间特征数据,通过利用在通道方向上的第一内核对中间特征数据执行卷积运算以获得第一数据,以及通过利用在空间方向上的第二内核对所获得的第一数据执行卷积运算以获得第二数据,基于所获得的第二数据设置包括在第一内核和第二内核中的一个或更多个权重的值,以及基于权重的位置调整所设置的权重的值。
本发明的有益效果
根据本公开的实施例,电子装置可以通过利用多个内核对与图像相关的数据执行卷积运算来防止产生棋盘效应,在调整图像的尺寸时生成高质量图像,并且减少处理量和存储器的大小。
附图说明
图1A是用于描述根据实施例的通过对输入图像执行卷积运算而获得第二数据的处理的视图;
图1B是用于描述根据实施例的通过对输入图像执行卷积运算而获得第二数据的处理的视图;
图1C是用于描述根据实施例的通过对输入图像执行卷积运算而获得第二数据的处理的视图;
图2A是简单地示出根据实施例的电子装置的配置的框图;
图2B是具体地示出根据实施例的电子装置的配置的框图;
图3是用于描述根据实施例的执行反卷积运算的处理的视图;
图4是用于描述根据实施例的利用在通道方向上的第一内核对中间特征数据执行卷积运算的处理的视图;
图5是用于描述根据实施例的调整包括在第二内核中的权重的值的处理的视图;
图6是用于描述根据实施例的将包括在第二内核中的权重分解为多个组的处理的视图;
图7是示出了根据实施例的生成有棋盘效应的图像和无棋盘效应的图像的视图;以及
图8是用于描述根据实施例的用于控制电子装置的方法的流程图。
具体实施方式
本公开是为了解决上述问题而做出的,并且本公开的目的是提供一种电子装置及其控制方法,该电子装置利用多个内核对与图像相关的数据执行卷积运算,并基于执行的结果值调整包括在每个内核中的权重的值。
在下文中,将参考附图描述本公开的各种实施例。应当注意,本公开中公开的技术不是为了将本公开的范围限制于特定实施例,而是应当被解释为包括本公开的实施例的所有修改、等同物或替代物。关于附图的解释,类似的附图标记可以用于类似的元件。
在本公开中,诸如“由......组成”、“可以由......组成”、“包括”或“可以包括”的术语表示特征(例如,诸如数字、功能、操作或部件的组件)的存在,并且不排除附加特征的存在。
在本公开中,诸如“A或B”、“A[和/或]B中的至少一个”或“A[和/或]B中的一个或更多个”的表达包括所列项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”或“A或B中的至少一个”包括(1)至少一个A、(2)至少一个B或(3)至少一个A和至少一个B中的任何一个。
本公开中使用的表述“第一”、“第二”等可以表示各种元件,而不管顺序和/或重要性如何,并且可以被用于将一个元件与另一个元件区分开,并且不限制元件。
如果描述了某个元件(例如,第一元件)“可操作地或可通信地与另一元件(例如,第二元件)耦接/耦接到另一元件(例如,第二元件)”或“连接到另一元件(例如,第二元件)”,则应当理解,该某个元件可以直接地或通过又一元件(例如,第三元件)连接到另一元件。另一方面,如果描述了某个元件(例如,第一元件)“直接耦接到”或“直接连接到”另一元件(例如,第二元件),则可以理解为,在某个元件和另一元件之间不存在元件(例如,第三元件)。
此外,本公开中使用的表述“被配置为”可以根据情况,与诸如“适合于”、“具有……的能力”、“被设计为”、“适于”、“被制造为”和“能够”的其他表述互换使用。另外,表述“被配置为”不一定意味着装置在硬件方面被“专门设计为”。相反,在一些情况下,表述“装置被配置为……”可以表示该装置“能够”与另一装置或组件一起执行操作。例如,短语“单元或处理器被配置(或设置)为执行A、B和C”可以表示用于执行相应操作的专用处理器(例如,嵌入式处理器),或者可以通过执行存储在存储器装置中的一个或更多个软件程序来执行操作的通用处理器(例如,CPU或应用处理器)。
根据本公开的各种实施例的电子设备可以包括例如智能电话、平板PC、移动电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、PDA、便携式多媒体播放器(PMP)、医疗装置、相机或可穿戴装置中的至少一个。在本公开中,术语“用户”可以指使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
在下文中,将参考附图详细描述本公开。
图1A、图1B和图1C是用于描述根据本公开的实施例的通过对输入图像执行卷积运算而获得第二数据的处理的视图。如图1A所示,可以将具有高度h和宽度w的参数的图像10输入到电子装置100。电子装置100可以将输入图像10输入到卷积神经网络(CNN),提取输入图像10的特征,并且基于所提取的特征获得与图像相关的中间特征数据30。中间特征数据30可以是基于输入图像10的提取特征而获得的特征图,或者可以是矢量或矩阵的形式,但是这仅仅是实施例。如图1A所示,中间特征数据30可以以与输入图像10相同的方式具有高度h和宽度w的参数,并且可以具有通道参数d。
如图1B所示,电子装置100可以通过利用在通道方向上的第一内核50-1、50-2、50-3、...、和50-N对中间特征数据30执行卷积运算40来获得第一数据,并且通过利用在空间方向上的第二内核60对所获得的第一数据执行卷积运算50来获得第二数据90。通道方向可以对应于输入深度。在一些实施例中,例如,一个通道可以对应于一种颜色(或图案)。在通道方向上的第一内核50-1、50-2、...、和50-N中的每一个的高度和宽度中的一个可以具有参数1,其中另一个可以具有除1之外的预定整数值的参数,并且为d的通道参数可以与中间特征数据30的通道参数相同。利用空间方向上的第二内核60,可以针对第一数据的每个通道在空间方向上执行卷积。
根据本公开的实施例,图1B示出了第一内核50-1、50-2、...、和50-N,在每个内核中,高度具有参数1,宽度具有除1之外的预定值WVK的参数,并且通道参数与中间特征数据30的通道参数相同。因此,第一内核在深度d上进行运算。如图1B所示,在通道方向上的第一内核50-1、50-2、...、和50-N与中间特征数据30之间执行的运算可以被称为垂直方向卷积。在另一实施例中,利用其中高度具有除1之外的参数WVK,宽度具有预定的1的参数,并且通道参数与中间特征数据30的通道参数相同的内核执行的卷积可以被称为水平方向卷积。将参考图4详细描述第一内核50-1、50-2、...、和50-N与中间特征数据30之间的卷积运算。
电子装置100可以基于包括在第一内核50-1、50-2、...、和50-N中的权重的位置来对第一内核50-1、50-2、...、和50-N进行归一化。具体地,电子装置100可以调整权重的值以具有包括在第一内核50-1、50-2、...、和50-N中的每一个中的相同的权重的总和。通常,在输入数据和内核之间执行反卷积运算的情况下,内核中包括的权重的值的快速变化可能导致输出数据中的棋盘效应。例如,反卷积可以被用于放大图像或减少模糊。特别地,当相邻权重值在输入数据的高频区域(例如,具有高像素值的区域)中快速变化时,可能在与高频区域相对应的输出数据的区域中产生棋盘效应。因此,为了防止棋盘效应的产生,电子装置100可以归一化第一内核50-1、50-2、...、和50-N以具有包括在第一内核50-1、50-2、...、和50-N中的相同的权重的总和。将参考图3和图5详细描述棋盘效应产生的原因和归一化处理。
电子装置100可以通过将包括权重函数的可靠性图70应用于第二内核60来调整包括在第二内核60中的权重的值。权重函数可以包括其中值从可靠性图70的中心逐渐变化的函数。在实施例中,权重函数可以包括线性函数、高斯函数、拉普拉斯函数和样条函数中的至少一个,但是这仅仅是实施例,并且权重函数可以包括各种函数。在将可靠性图70应用于第二内核60的情况下,包括在第二内核60中的权重的值不会快速变化,因此可以防止在第二数据90中的棋盘效应的产生。具体地,可以防止在与输入数据的高频区域(例如,具有高像素值的区域)对应的第二数据90的区域中的棋盘效应的产生。
另外,电子装置100可以将第二内核60的权重分解为多个组80-1、80-2、80-3、...、和80-N并且基于包括在第二内核60中的权重的位置对多个分解组80-1、80-2、...、和80-N中的每一个进行归一化。诸如内核的滤波函数的分解也可以被称为卷积内核的因式分解。具体地,电子装置100可以基于第二内核60的参数值和应用于卷积运算的步长的大小来确定多个组80-1、80-2、...、和80-N的数量以及多个组80-1、80-2、...、和80-N中包括的权重的数量。另外,电子装置100可以调整权重的值以使包括在多个组80-1、80-2、...、和80-N中的每一个中的权重的总和一致。将参考图6详细描述分解第二内核60并将权重的总和设置为一致的处理。
电子装置100可以通过对空间方向上的多个组80-1、80-2、...、和80-N与第一数据执行卷积运算来获得第二数据90,并且通过重新排列所获得的第二数据90来获得输出图像95。针对第一数据的每个通道关于在空间方向上多个组80-1、80-2、...、和80-N执行的卷积运算可以被称为深度方向卷积。将参考图4和图5详细描述执行深度方向卷积的处理。
另外,电子装置100可以获得尺寸大于输入图像10的尺寸的无棋盘效应的输出图像95,并在显示器130上显示所获得的输出图像95。
图2简单地示出了根据本公开的实施例的电子装置100的配置。如图2所示,电子装置100可以包括存储器110和处理器120。然而,对上述配置没有限制,并且可以根据电子装置100的类型添加或省略一些配置。
存储器110可以存储与电子装置100的其他元件中的至少一个有关的指令或数据。特别地,存储器110可以被实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。处理器120可以访问存储器120,并且处理器120可以执行对数据的读取、记录、编辑、删除或更新。本公开中的术语“存储器”可以包括存储器110、处理器120中的ROM(未示出)或RAM(未示出)、或者被安装在电子装置100上的存储卡(未示出)(例如,微型SD卡或记忆棒)。另外,存储器110可以存储用于配置被显示在显示器130的显示区域上的各种屏幕的程序或数据。
此外,存储器110可以存储用于执行人工智能代理的程序。人工智能代理是用于向电子装置100提供各种服务的定制程序。另外,存储器110可以存储被训练用于提取输入图像的数据的人工智能模型。
处理器120可以被电连接到存储器110,并且通过执行至少一个指令来控制电子装置100的一般操作和功能。
具体地,处理器120可以执行与输入图像相关的卷积运算,并获得与图像相关的中间特征数据。在本公开的实施例中,处理器120可以将图像输入到卷积神经网络(CNN)并提取中间特征数据或特征图。通过CNN提取输入图像的特征数据是众所周知的技术,因此将被省略。
处理器120可以通过利用在通道方向上的第一内核对所获得的与图像相关的中间特征数据执行卷积运算(垂直方向卷积或水平方向卷积)来获得第一数据,并且通过利用在空间方向上的第二内核对所获得的第一数据执行卷积运算(深度方向卷积)来获得第二数据。
另外,处理器120可以基于所获得的第二数据来设置包括在第一内核和第二内核中的一个或更多个权重的值。在实施例中,处理器120可以使用包括误差反向传播或梯度下降的学习算法来设置包括在第一内核和第二内核中的权重值。具体地,处理器120可以通过重新排列所获得的第二数据来获得输出图像,并且对输出图像和通过放大输入图像获得的图像进行比较和分析。处理器120可以基于分析结果来设置第一内核和第二内核的权重值。
处理器120可以基于包括在第一内核中的权重的位置来归一化每个第一内核。具体地,应用于包括在通过利用在通道方向上的第一内核执行卷积运算而获得的第一数据中的每个像素的权重的数量可以彼此不同,并且当应用于一个像素的权重未被归一化时,应用于第一数据的每个像素的权重的总和可以不一致。因此,在实施例中,处理器120可以调整权重的值以使包括在每个第一内核中的权重的总和一致。
另外,处理器120可以通过将包括权重函数的可靠性图应用于第二内核来调整包括在第二内核中的权重的值。具体地,处理器120可以通过将第二内核乘以可靠性图来调整包括在第二内核中的权重的值。包括在可靠性图中的权重函数可以包括线性函数、高斯函数、拉普拉斯函数和样条函数中的至少一个,但是这仅仅是实施例,并且权重函数可以包括各种函数。
处理器120可以将第二内核的权重分解为多个组,并且基于包括在第二内核中的权重的位置来对多个分解组中的每一个进行归一化。具体地,处理器120可以基于第二内核的参数值(或大小)和应用于卷积运算的步长的大小来确定多个组的数量和多个组中包括的权重的数量。另外,处理器120可以调整权重的值以使多个分解组中包括的权重的总和一致。
此外,处理器120可以通过对在空间方向上的多个组与第一数据执行卷积运算来获得第二数据,并且通过获得第二数据来获得输出图像。输出图像的尺寸可以大于输入图像的尺寸,并且不会产生棋盘效应。处理器120可以控制显示器130显示输出图像。
在描述本公开时,可以由一个或多个处理器构成处理器120。由存储器110和处理器120操作根据本公开的与人工智能相关的功能。一个或多个处理器120执行控制以根据存储在存储器110中的预定义动作规则或人工智能模型来处理输入数据。通过训练形成该预定义动作规则或该人工智能模型。本文中的通过训练形成的意思是通过将训练算法应用于多条学习数据来形成具有期望特征的预定义动作规则或人工智能模型。这种训练可以在根据本公开的展示人工智能的装置中执行,或者由单独的服务器或系统执行。
由处理器和存储器操作根据本公开的与人工智能相关的功能。可以由一个或多个处理器构成处理器。一个或多个处理器可以是诸如CPU、AP或数字信号处理器(DSP)的通用处理器,诸如GPU或VPU的图形专用处理器,或诸如NPU的人工智能处理器。所述一个或多个处理器执行控制以根据存储在存储器中的预定义动作规则或人工智能模型来处理所述输入数据。另外,如果一个或多个处理器是人工智能专用处理器,则人工智能专用处理器可以被设计为具有专门处理特定人工智能模型的硬件结构。
通过训练形成该预定义动作规则或该人工智能模型。本文中的通过训练形成的意思是通过根据训练算法使用多条学习数据来训练基本人工智能模型,形成设置为执行期望特征的预定义动作规则或者人工智能模型。这种训练可以在根据本公开的展示人工智能的装置中执行,或者由单独的服务器或系统执行。学习算法的示例包括监督学习、无监督学习、半监督学习或强化学习,但不限于这些示例。
可以由多个神经网络层构成人工智能模型。多个神经网络层分别具有多个权重值,并且通过前一层的处理结果和多个权重之间的处理来执行神经网络处理。可以通过人工智能模型的训练结果来优化多个神经网络层的多个权重。例如,可以更新多个权重以减少或最小化人工智能模型在训练处理期间获得的损失值或费用值。人工神经网络可以包括深度神经网络(DNN),并且例如包括卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)或深度Q-网络,但不限于这些示例。
图2B是具体地示出根据本公开的实施例的电子装置100的配置的框图。如图2B所示,电子装置100可以包括存储器110、处理器120、显示器130、相机140和通信单元150。通信单元150可以包括用于与网络通信的网络接口卡和/或用于无线通信的无线电收发器。已经在图2A中描述了存储器110和处理器120,因此将省略重复的描述。
显示器130可以在处理器120的控制下显示各种信息。具体地,处理器120可以控制显示器130显示通过重新排列第二数据获得的输出数据。
显示器130可以被实现为具有触摸面板的触摸屏。然而,对上述实施例没有限制,并且可以根据电子装置100的类型不同地实现显示器130。
相机140可以对用户进行成像。具体地,捕获的用户的图像可以包括在当识别出用户时显示的UI中。相机140可以设置在电子装置100的正面或背面中的至少一个上。相机140可以设置在电子装置100中,但这仅仅是实施例,并且相机140也可以设置在电子装置100的外部并且以有线或无线方式被连接到电子装置100。
通信150可以通过各种通信方法与外部装置执行通信。通信单元150与外部装置之间的通信连接可以包括经由第三装置(例如,中继装置、集线器、接入点、服务器或网关)的通信。
通信单元160可以包括用于与外部装置执行通信的各种通信模块。作为示例,通信单元150可以包括无线通信模块,并且例如可以包括使用LTE、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动通信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)中的至少一个的蜂窝通信模块。在另一示例中,无线通信模块例如可以包括WiFi(无线保真)、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频(RF)或体域网(BAN)中的至少一个。另外,通信单元160可以包括有线通信模块,并且例如可以包括通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232)、电力线通信或普通老式电话服务(POTS)中的至少一个。通过其执行无线通信或有线通信的网络可以包括电信网络(例如,计算机网络(例如,LAN或WAN))、互联网或电话网络中的至少一个。
处理器120可以包括或被定义为中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和ARM处理器中的一个或更多个。另外,处理器120可以被实现为具有嵌入式处理算法的片上系统(SoC)或大规模集成(LSI),或者可以以现场可编程门阵列(FPGA)的形式被实现。处理器120可以通过执行存储在存储器110中的计算机可执行指令来执行各种功能。另外,处理器120可以包括作为单独的AI专用处理器的图形处理单元(GPU)、神经处理单元(NPU)和视觉处理单元(VPU)中的至少一个,以便执行人工智能功能。
图3是用于描述执行反卷积运算的处理和产生棋盘效应的原因的视图。也就是说,图3是用于描述在立即执行反卷积运算以改变从输入图像获得的与图像相关的中间特征数据的大小的情况下可能产生棋盘效应的视图。
在图3中,为了便于描述,假设输入数据310、内核320和输出数据330是一维方式。另外,假设输入数据310的大小是5,应用于输入数据310的内核320的大小是5,步长的大小是1,并且输出数据330的大小是9。
参考图3,通过将输入数据310的像素值I0乘以内核中包括的权重值W0、W1、W2、W3和W4而获得的值I0*W0、I0*W1、I0*W2、I0*W3和I0*W4中的每一个可以被映射到输出数据330的第一至第五像素331、332、333、334和335中的每一个上。
另外,通过将输入数据310的像素值I1乘以内核320中包括的权重值W0、W1、W2、W3和W4而获得的值I1*W0、I1*W1、I1*W2、I1*W3和I1*W4中的每一个可以被映射到输出数据330的第二至第六像素332、333、334、335和336中的每一个上。
另外,通过将输入数据310的像素值I2乘以内核320中包括的权重值W0、W1、W2、W3和W4而获得的值I2*W0、I2*W1、I2*W2、I2*W3和I2*W4中的每一个可以被映射到输出数据330的第三至第七像素333、334、335、336和337中的每一个上。
另外,通过将输入数据310的像素值I3乘以内核320中包括的权重值W0、W1、W2、W3和W4而获得的值I3*W0、I3*W1、I3*W2、I3*W3和I3*W4中的每一个可以被映射到输出数据330的第四至第八像素334、335、336、337和338中的每一个上。
另外,通过将输入数据的像素值I4乘以内核320中包括的权重值W0、W1、W2、W3和W4而获得的值I4*W0、I4*W1、I4*W2、I4*W3和I4*W4中的每一个可被映射到输出数据330的第五至第九像素335、336、337、338和339中的每一个上。
因此,输出数据330的第一像素331的值O0是I0*W0,第二像素332的值O1是I0*W1+I1*W0,第三像素333的值O2是I0*W2+I1*W1+I2*W0,第四像素334的值O3是I0*W3+I1*W2+I2*W1+I3*W0,并且第五像素335的值O4是I0*W4+I1*W3+I2*W2+I3*W1+I4*W0
从输入数据310的角度来看,多个权重值(例如,W0、W1、W2、W3和W4)中的每一个乘以输入数据310的一个像素值(例如,I0),并且将通过乘以多个权重获得的值340映射到输出数据的多个像素(例如,331至335),因此,反卷积运算对应于分散运算。
当内核中包括的权重值(例如,W0、W1、W2、W3和W4)快速变化时,可能在输出数据中产生棋盘效应。特别地,当相邻权重值在输入数据310的高频区域(具有高像素值的区域)中快速变化时,在与高频区域相对应的输出数据的区域中可能产生棋盘效应。另外,从输出数据330的角度来看,输出数据330的一个像素值(例如,O4)是根据通过将值350相加而获得的值来确定,其中,通过将输入数据310的多个像素值(例如,I0、I1、I2、I3和I4)中的每一个乘以多个权重值(例如,W0、W1、W2、W3和W4)中的每一个而获得值350。因此,反卷积运算对应于聚集运算。
应用于输出数据330中包括的每个像素的权重不相同。例如,参考图3,将一个权重W0应用于第一像素331,将两个权重W0和W1应用于第二像素332,将三个权重W0、W1和W2应用于第三像素333,将四个权重W0、W1、W2和W3应用于第四像素334,并且将五个权重W0、W1、W2、W3和W4应用于第五像素335。如上所述,当应用于输出数据330中包括的每个像素的权重的数量彼此不同并且应用于一个像素的权重未被归一化时,应用于输出数据330的每个像素的权重的总和可能不一致。
例如,当应用于第四像素334的四个权重W0、W1、W2和W3的总和与应用于第五像素的五个权重W0、W1、W2、W3和W4的总和不一致时,当执行反卷积运算时,可能在输出数据中产生棋盘效应。在一些情况下,适用权重的数量取决于正在获得的像素的位置(参见图3中的331、339)。通过根据正在获得哪个像素来调整权重的总和,可以减少由滤波器权重本身引起的输出图像中的变化。当对图像中的较小区域进行图像处理时,适用于像素的权重的数量可以在较小区域的边缘处变化。在整个图像的处理中,重复出现变化的权重的数量的事件可能导致棋盘图案。
图4是用于描述根据本公开实施例的利用在通道方向上的第一内核对中间特征数据30执行卷积运算的处理的视图。如图4所示,电子装置100可以对中间特征数据30和在通道方向上的第一内核50-1执行卷积运算。在通道方向上的第一内核50-1的通道参数可以与中间特征数据30的通道参数相同(如d)。关于第一内核50-1的参数,高度和宽度中的一个可以具有参数1,并且其中的另一个可以具有除1之外的预定整数值的参数。图4示出了其中高度具有参数1并且宽度具有除1之外的预定整数值的参数的第一内核50-1,但是这仅仅是实施例,并且第一内核可以具有的参数,其中宽度具有参数1并且高度具有除1之外的预定整数值的参数。
图4仅示出了一个第一内核50-1,但是电子装置100可以通过利用N个第一内核对中间特征数据30执行卷积运算来获得第一数据400。电子装置100可以通过利用在通道方向上的第一内核执行卷积运算来将中间特征数据30压缩到一个通道中。如图4所示,第一数据400的通道参数可以是N,因为电子装置100利用N个第一内核执行卷积运算。
中间特征数据30中包括的所有像素可以包括相同的像素值(例如,1)。包括在第一数据400中的每个像素的值可以表示为应用于每个像素的权重的总和。在应用于一个像素的权重未被归一化的情况下,应用于每个像素的权重的总和不一致,因此,第一数据400可能包括具有某种图案的棋盘效应。因此,电子装置100可以基于包括在第一内核50-1中的权重的位置来对第一内核50-1进行归一化。在示例中,电子装置100可以调整权重的值以使包括在每个第一内核中的权重的总和一致。另外,电子装置100可以调整权重,使得第一数据400的像素的值与中间特征数据30的像素的值(例如,1)相同,并且应用于第一数据400的每个像素的权重的总和成为1。
图5是用于描述根据本公开的实施例的调整包括在第二内核60中的权重的值的处理的视图。如图5所示,电子装置100可以将包括权重函数的可靠性图70应用(501)于第二内核60。电子装置100可以将第二内核60的权重分解为多个组,并且基于包括在第二内核60中的权重的位置对多个分解组中的每一个进行归一化。
电子装置100可以设置在卷积运算中使用的第二内核60中包括的一个或更多个权重的值。此时,可以根据包括执行卷积运算的卷积层的神经网络的学习和更新来设置包括在第二内核60中的权重的值,但不限于此。
根据本公开实施例的电子装置100可以通过将可靠性图70应用(例如,执行乘法)到第二内核60来调整包括在第二内核60中的一个或更多个权重的值。根据本公开的实施例的可靠性图70可以包括权重函数,并且权重函数可以是使值从可靠性图70的中心开始减小的函数。也就是说,当接近可靠性图70的中心时,可靠性就高。权重函数可以包括线性函数、高斯函数、拉普拉斯函数和样条函数中的至少一个,但这仅仅是实施例。图5中所示的可靠性图70可以是表示高斯函数的图。
根据本公开的实施例,在将可靠性图70应用于第二内核60的情况下,包括在第二内核60中的一个或更多个权重的值可能不会快速变化。在权重的值快速变化的情况下,在通过利用第二内核执行的卷积而获得的第二数据的高频区域中可能产生棋盘效应。因此,电子装置100可以通过将可靠性图70应用(例如,执行乘法)到第二内核60来将权重的值设置为不快速变化。
电子装置100可以基于第二内核60中的位置将第二内核60中包括的权重分解为多个组80-1、80-2、...、和80-N。将参考图6详细描述用于将包括在第二内核60中的权重分解为多个组的方法。
电子装置100可以对多个分解组80-1、80-2、...、和80-N中的每一个进行归一化。在示例中,电子装置100可以执行归一化以使包括在第一组80-1和第二组80-2中的权重具有相同的总和(例如,具有相同的总和‘1’)。在包括在组80-1、80-2、...、和80-N中的每一个中的权重的总和不一致的情况下,通过利用多个组80-1、80-2、...、和80-N的卷积运算获得的第二数据可能包括棋盘效应。
电子装置100可以通过对空间方向上的多个组80-1、80-2、...、和80-N与第一数据执行卷积运算来获得第二数据。在第一数据与多个组80-1、80-2、...、和80-N之间执行的卷积运算可以被称为深度方向卷积。在实施例中,电子装置100可以利用仅在空间方向上而不是在通道方向上的第一组80-1对第一数据执行卷积运算。如图5所示,第二内核60被分解为N个组,因此,电子装置100可以通过对在空间方向上的N个组与第一数据执行卷积运算来获得第二数据。
电子装置100可以通过重新排列所获得的第二数据来获得尺寸大于输入图像的尺寸的无棋盘效应的输出图像。另外,电子装置100可以在显示器130上显示输出图像。
如图4和图5所示,在电子装置100利用在通道方向上的第一内核以及利用在空间方向上的第二内核对中间特征数据执行卷积的情况下,与一次性对中间特征数据执行现有的反卷积运算的情况相比,可以显著减少处理量。
可以通过以下数学表达式(1)具体地确认处理量减少的比率。在数学表达式(1)中,分母中的表达式用于计算当一次性对中间特征数据执行反卷积运算时的处理量,并且分子中的表达式用于计算当利用第一内核和第二内核执行卷积运算时的处理量。
[数学表达式1]
Figure BDA0003132613250000151
在中间特征数据的通道参数d是64,第一内核的宽度参数是3,并且第二内核的每个分解组的高度和宽度参数是3的情况下,当在表达式(1)中代入每个值时,推导出值0.349。也就是说,与执行现有反卷积运算的情况相比,当通过执行根据本公开的实施例的卷积运算来输出输出图像时,可以减少大约65%的处理量。
图6是用于描述根据本公开的实施例的将包括在第二内核中的权重分解为多个组的处理的视图。也就是说,图6是用于描述由电子装置100基于第二内核的参数值(或大小)和应用于卷积运算的步长的大小来确定多个组的数量和多个组中包括的权重的数量的处理的视图。
在图6中,将描述用于在第二内核610的大小(抽头)是11×11并且步长的大小是4的情况下,将包括在第二内核610中的权重分解成多个组的方法。图6所示的坐标630是表示第二数据的坐标,其中水平坐标w表示包括在第二数据中的像素在水平方向上的位置,并且垂直坐标h表示包括在第二数据中的像素在垂直方向上的位置。
假设根据实施例的第二内核610被表示为二维矩阵(11×11矩阵),坐标630的上部所示的权重622中所示的索引表示第二内核610中的权重的水平位置j。另外,坐标左侧所示的权重621中所示的索引表示权重在内核中的垂直位置i。
此外,通过考虑步长的大小(例如,四个像素的间隔)和包括在第二数据中的像素的位置,坐标的上部和左侧所示的权重621和622被示出为对应于应用了权重的像素的位置。
例如,关于应用于包括在第二数据中的第一像素631的权重,水平位置j为1、5和9,垂直位置i为1、5和9。当组合权重的水平位置和垂直位置时,应用于第一像素631的权重是包括在第二内核610中的W1,1(611)、W1,5(615)、W1,9(619)、W5,1(651)、W5,5(655)、W5,9(659)、W9,1(691)、W9,5(695)和W9,9(699)。
另外,关于应用于包括在第二数据中的第二像素632的权重,水平位置j为3和7,并且垂直位置i为3和7。当组合权重的水平位置和垂直位置时,应用于第二像素632的权重是包括在第二内核610中的W3,3、W3,7、W7,3和W7,7
另外,关于应用于包括在第二数据中的第三像素633的权重,水平位置j为0、4和8,并且垂直位置i为0、4和8。当组合权重的水平位置和垂直位置时,应用于第三像素633的权重是包括在第二内核610中的W0,0、W0,4、W0,8、W4,0、W4,4、W4,4、W8,0和W8,4
也就是说,电子装置100可以将应用于第二数据中包括的每个像素的权重分解为多个组。在实施例中,电子装置100可以将应用于第一像素631的九个权重的组作为第一组,并且第一组可以表示为矩阵A0,0,如图6所示。另外,电子装置100可以将应用于第二像素632的四个权重的组作为第二组,并且第二组可以表示为矩阵A2,2。电子装置100可以将应用于第三像素633的九个权重的组作为第三组,并且第三组可以表示为A3,3
在包括在图6所示的第二内核610中的权重中,用相同颜色(或图案)示出的权重可以表示包括在相同组中的权重(应用于相同像素)。
在用矩阵表示被分组为一组的权重的情况下,矩阵的大小(size(Ai,j))可以由下面所示的数学表达式2表示。
[数学表达式2]
Size(A(i,j))=[M,N]=[floor(((tap-1)-(c+i))/s)+floor((c+i)/s)+1,floor(((tap-1)-(c+i))/s)+floor((c+i)/s)+1]
在数学表达式2中,floor表示向下舍入,s表示步长的大小,并且c可以由下面所示的数学表达式3表示。
[数学表达式3]
Figure BDA0003132613250000171
参考数学表达式2和3,基于内核的大小(tap)和步长的大小(s)来确定多个组的数量,并且还可以基于内核的大小(tap)和步长的大小(s)来确定多个组中的每个组中包括的权重的数量。
另外,包括在矩阵A中的元素的索引可以由下面所示的数学表达式4表示。
[数学表达式4]
Figure BDA0003132613250000172
在数学表达式4中,tM,i可以由下面示出的数学表达式5表示,并且tN,j可以由数学表达式6表示。
[数学表达式5]
tM,i=(t+1)%s+(M-1)xs
[数学表达式6]
tN,j=(t+1)s+(N-1)xs
在数学表达式5和6中,%表示余数。例如,(t+1)%s表示通过将(t+1)除以s获得的余数。
例如,在内核的大小(tap)是11并且步长的大小(s)是4的情况下,当通过将这些应用于数学表达式1至5来执行计算时,矩阵A0,0的大小是3×3(M=3,N=3),并且矩阵A0,0的第一元素的索引是W9,9
关于每个矩阵,根据实施例的电子装置100可以对每个矩阵中包括的元素值(权重值)的总和进行归一化。在实施例中,电子装置100可以调整权重值以使每个矩阵中包括的权重的总和一致(例如,使总和为“1”)。
图7是示出根据本公开的实施例的产生棋盘效应的图像和无棋盘效应图像的视图。如图7所示,电子装置100可以通过将输入图像710输入到CNN来获得中间特征数据,并且通过利用在通道方向上的第一内核对中间特征数据执行卷积并且利用在空间方向上的第二内核对执行的结果值执行卷积来获得第二数据。电子装置100可以通过重新排列第二数据来获得输出图像。在不对第一内核执行归一化并且不将可靠性图应用于第二内核以及不执行其归一化的情况下,电子装置100可能获得产生棋盘效应的输出图像720。然而,在对第一内核执行归一化并且将可靠性图应用于第二内核以及执行其归一化的情况下,电子装置100可以获得无棋盘效应输出图像730。
图8是用于描述根据本公开的实施例的用于控制电子装置100的方法的流程图。
首先,电子装置100可以对输入图像执行卷积运算,并获得与图像相关的中间特征数据(S810)。具体地,电子装置100可以通过将输入图像输入到CNN来提取特征,并且基于提取的特征获得中间特征数据。通过将输入图像输入到CNN来获得中间特征数据是众所周知的技术,因此将被省略。
电子装置100可以通过利用在通道方向上的第一内核对中间特征数据执行卷积运算来获得第一数据,并且通过利用在空间方向上的第二内核对所获得的第一数据执行卷积运算来获得第二数据(S820)。通道方向上的第一内核的通道参数可以与中间特征数据的通道参数相同。第一内核中的每一个的高度和宽度中的一个可以具有参数1,并且其中的另一个可以具有除1之外的预定整数值的参数。
电子装置100可以基于所获得的第二数据来设置包括在第一内核和第二内核中的一个或更多个权重值(S830)。根据本公开的实施例,电子装置100可以使用包括误差反向传播或梯度下降的学习算法来设置包括在第一内核和第二内核中的权重值。
另外,电子装置100可以比较和分析获得的输出图像和放大的输入图像,并且基于分析结果设置应用于卷积的每个内核的权重值。
电子装置100可以基于权重的位置来调整所设置的权重的值(S840)。根据本公开的实施例,电子装置100可以执行归一化以使每个第一内核中包括的权重的总和一致。另外,电子装置100可以将可靠性图应用(例如,乘法)到第二内核,使得包括在第二内核中的权重的值不会快速变化。电子装置100可以基于包括在第二内核中的权重的位置将权重分解为多个组,并执行归一化以使包括在多个组中的每个组中的权重的总和一致。
如上所述,根据本公开的实施例,电子装置可以通过利用多个内核对与图像相关的数据执行卷积运算来防止棋盘效应的产生,在调整图像的大小时生成高质量图像,并且减少处理量和存储器的大小。
在本公开中,术语“单元”或“模块”可以包括用硬件、软件或固件实现的单元,并且可以与例如逻辑、逻辑块、部件或电路的术语互换使用。单元或模块可以是整体成形的部件或执行一个或更多个功能的部件的最小单元或部分。例如,模块可以被实现为专用集成电路(ASIC)。
本公开的各种实施例可以被实现为包括存储在机器(例如,计算机)可读存储介质中的指令的软件。本文的机器是调用存储在存储介质中的指令并根据调用的指令操作的设备,并且可以包括根据所公开的实施例的电子装置(例如,电子装置100)。在处理器执行指令的情况下,处理器可以直接执行与指令相对应的功能,或者在处理器的控制下使用其他元件执行与指令相对应的功能。指令可以包括由编译器生成或由解释器执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。这里,术语“非暂时性”仅意味着存储介质是有形的而不包括信号,并且它不区分数据是半永久地还是临时地存储在存储介质中。例如,“非暂时性存储介质”可以包括临时存储数据的缓冲器。
在实施例中,可以提供根据本公开的各种实施例的方法以包括在计算机程序产品中。计算机程序产品可以作为商用产品在卖方和买方之间交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者通过应用商店(例如,PlayStoreTM)在线分发。在线分发的情况下,计算机程序产品的至少一部分(例如,可下载的应用)可以至少在诸如制造商的服务器的存储器、应用商店的服务器或中继服务器的存储介质中临时存储或临时生成。
根据各种实施例的每个元件(例如,模块或程序)可以由单个实体或多个实体组成,并且在各种实施例中可以省略上述子元件中的一些子元件,或者可以进一步包括其他子元件。可替代地或另外地,一些元件(例如,模块或程序)可以被集成到一个实体中以执行在集成之前由每个单独的元件执行的相同或相似的功能。根据各种实施例,可以顺序地、并行地、重复地或试探性地执行由模块、程序或其他元件执行的操作,或者可以以不同的顺序执行、省略至少一些操作或者可以添加不同的操作。

Claims (15)

1.一种电子装置,包括:
存储器,用于存储至少一个指令;以及
处理器,被配置为执行所述至少一个指令,
其中,处理器被配置为执行所述至少一个指令进行以下操作:
对输入图像执行第一卷积运算,并且获得作为第一卷积运算的结果的中间特征数据,
通过利用在通道方向上的多个第一内核对中间特征数据执行第二卷积运算以获得第一数据,其中,所述多个第一内核包括第一权重,
通过利用在空间方向上的第二内核对第一数据执行第三卷积运算以获得第二数据,其中,第二内核包括第二权重,
基于第二数据,设置第一权重的第一值或设置第二权重的第二值,
基于第一权重的第一位置调整第一权重的第一值,以及
基于第二权重的第二位置调整第二权重的第二值。
2.根据权利要求1所述的电子装置,其中,所述多个第一内核的高度和宽度中的一个具有第一参数,并且高度和宽度中的另一个具有第二参数,其中,第一参数为1,第二参数为除1之外的预定整数值,
其中,所述处理器还被配置为进行以下操作:
基于所述多个第一内核中的第一权重的第一位置,对第一权重的第一值进行归一化,
基于第二内核中的第二权重的第二位置,对第二权重的第二值进行归一化。
3.根据权利要求2所述的电子装置,其中,所述处理器还被配置为调整第一权重的第一值以使所述多个第一内核中的每个第一内核中的总和相同。
4.根据权利要求1所述的电子装置,其中,所述处理器还被配置为通过将包括权重函数的可靠性图应用于第二内核以调整第二权重的第二值。
5.根据权利要求4所述的电子装置,其中,权重函数包括具有从可靠性图的中心逐渐变化的值的函数。
6.根据权利要求1所述的电子装置,其中,所述处理器还被配置为进行以下操作:
将第二内核的第二权重分解为多个组,以及
基于第二内核中的第二权重的位置,对所述多个组中的每个组进行归一化。
7.根据权利要求6所述的电子装置,其中,所述处理器还被配置为基于第二内核的参数值和第三卷积运算应用的步长的大小,识别所述多个组的数量和所述多个组中的每个组中包括的权重的数量。
8.根据权利要求6所述的电子装置,其中,所述处理器还被配置为基于第二内核的参数值和第三卷积运算应用的步长的大小,识别所述多个组的数量和所述多个组中的每个组中包括的权重的数量。
9.根据权利要求6所述的电子装置,其中,所述处理器还被配置为进行以下操作:
通过使用所述多个组对第一数据执行第三卷积运算以获得第二数据,以及
通过重新排列第二数据以获得输出图像。
10.根据权利要求9所述的电子装置,还包括:
显示器,
其中,所述处理器进一步被配置为控制显示器显示输出图像,其中,输出图像具有大于输入图像的第二尺寸的第一尺寸。
11.一种用于控制电子装置的方法,所述方法包括:
对输入图像执行第一卷积运算,并且获得作为第一卷积运算的结果的中间特征数据;
通过利用在通道方向上的多个第一内核对中间特征数据执行第二卷积运算以获得第一数据,其中,所述多个第一内核包括第一权重;
通过利用在空间方向上的第二内核对第一数据执行第三卷积运算以获得第二数据,其中,第二内核包括第二权重;
基于第二数据,设置第一权重的第一值或第二权重的第二值;
基于第一权重的第一位置调整第一权重的第一值;以及
基于第二权重的第二位置调整第二权重的第二值。
12.根据权利要求11所述的方法,其中,所述多个第一内核的高度和宽度中的一个具有第一参数,并且高度和宽度中的另一个具有第二参数,其中,第一参数为1,第二参数为除1之外的预定整数值,
其中,调整第一权重的第一值的步骤包括:基于在所述多个第一内核中的第一权重的第一位置,对所述多个第一内核进行归一化。
13.根据权利要求12所述的方法,其中,调整第一权重的第一值的步骤包括:调整第一权重的第一值以使所述多个第一内核中的每个第一内核中的总和相同。
14.根据权利要求12所述的方法,其中,调整第二权重的第二值的步骤还包括:通过将包括权重函数的可靠性图应用于第二内核以调整第二权重的第二值。
15.根据权利要求14所述的方法,其中,权重函数包括具有从可靠性图的中心逐渐变化的值的函数。
CN202080007394.7A 2019-05-16 2020-04-24 电子装置及其控制方法 Pending CN113228061A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0057701 2019-05-16
KR1020190057701A KR102420039B1 (ko) 2019-05-16 2019-05-16 전자 장치 및 이의 제어 방법
PCT/KR2020/005432 WO2020231038A1 (en) 2019-05-16 2020-04-24 Electronic device and method for controlling thereof

Publications (1)

Publication Number Publication Date
CN113228061A true CN113228061A (zh) 2021-08-06

Family

ID=73230743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080007394.7A Pending CN113228061A (zh) 2019-05-16 2020-04-24 电子装置及其控制方法

Country Status (4)

Country Link
US (1) US20200364829A1 (zh)
KR (1) KR102420039B1 (zh)
CN (1) CN113228061A (zh)
WO (1) WO2020231038A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827206B (zh) * 2018-08-14 2024-05-28 钰创科技股份有限公司 过滤信号的数位滤波器
KR102553146B1 (ko) * 2018-09-13 2023-07-07 삼성전자주식회사 영상 처리 장치 및 그 동작방법
KR102604016B1 (ko) * 2018-10-24 2023-11-22 삼성전자주식회사 전자 장치 및 이의 제어방법
CN110727633A (zh) * 2019-09-17 2020-01-24 广东高云半导体科技股份有限公司 基于SoC FPGA的边缘人工智能计算系统构架
CN111062396B (zh) * 2019-11-29 2022-03-25 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN112261408B (zh) * 2020-09-16 2023-04-25 青岛小鸟看看科技有限公司 用于头戴显示设备的图像处理方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157814B2 (en) * 2016-11-15 2021-10-26 Google Llc Efficient convolutional neural networks and techniques to reduce associated computational costs
US11354577B2 (en) * 2017-03-15 2022-06-07 Samsung Electronics Co., Ltd System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
WO2019079895A1 (en) * 2017-10-24 2019-05-02 Modiface Inc. SYSTEM AND METHOD FOR IMAGE PROCESSING THROUGH DEEP NEURAL NETWORKS

Also Published As

Publication number Publication date
KR20200132340A (ko) 2020-11-25
KR102420039B1 (ko) 2022-07-13
WO2020231038A1 (en) 2020-11-19
US20200364829A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
CN113228061A (zh) 电子装置及其控制方法
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
AU2019451948B2 (en) Real-time video ultra resolution
US11954822B2 (en) Image processing method and device, training method of neural network, image processing method based on combined neural network model, constructing method of combined neural network model, neural network processor, and storage medium
Min et al. Fast global image smoothing based on weighted least squares
JP7045490B2 (ja) 画像分割と分割ネットワークトレーニング方法および装置、機器、媒体、並びに製品
US10650283B2 (en) Electronic apparatus and control method thereof
US11763542B2 (en) Apparatus and method for image classification and segmentation based on feature-guided network, device, and medium
EP3963516B1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
CN108229497A (zh) 图像处理方法、装置、存储介质、计算机程序和电子设备
CN113378984B (zh) 一种医学图像分类方法、系统、终端以及存储介质
US11074671B2 (en) Electronic apparatus and control method thereof
CN112001923B (zh) 一种视网膜图像分割方法及装置
CN112689849A (zh) 图像处理装置及其操作方法
KR20200027080A (ko) 전자 장치 및 그 제어 방법
Rashid et al. Single MR image super-resolution using generative adversarial network
CN116109505A (zh) 图像去模糊方法、装置、电子设备及存储介质
CN114299010A (zh) 脑部肿瘤图像的分割方法、装置、计算机设备和存储介质
US20230169752A1 (en) Image processing apparatus and operating method thereof
Bui et al. An efficient smoothing and thresholding image segmentation framework with weighted anisotropic-isotropic total variation
Ramadevi et al. FPGA realization of an efficient image scalar with modified area generation technique
US20230010031A1 (en) Method for recognizing text, electronic device and storage medium
US20230169748A1 (en) Image processing apparatus and operating method thereof
EP4276699A1 (en) Image processing device and operating method therefor
CN116486090A (zh) 肺癌脊柱转移图像处理方法、装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination