CN109961083B - 用于将卷积神经网络应用于图像的方法和图像处理实体 - Google Patents

用于将卷积神经网络应用于图像的方法和图像处理实体 Download PDF

Info

Publication number
CN109961083B
CN109961083B CN201811525270.9A CN201811525270A CN109961083B CN 109961083 B CN109961083 B CN 109961083B CN 201811525270 A CN201811525270 A CN 201811525270A CN 109961083 B CN109961083 B CN 109961083B
Authority
CN
China
Prior art keywords
feature
feature map
image
kernel
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811525270.9A
Other languages
English (en)
Other versions
CN109961083A (zh
Inventor
N·丹尼尔松
S·莫林
M·斯堪斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Axis AB
Original Assignee
Axis AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Axis AB filed Critical Axis AB
Publication of CN109961083A publication Critical patent/CN109961083A/zh
Application granted granted Critical
Publication of CN109961083B publication Critical patent/CN109961083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种用于将卷积神经网络应用于图像的方法和图像处理实体(400)。图像处理实体(400)在使用卷积内核提供特征图的同时处理(A020)图像,由此特征图的第二特征图尺寸大于用其训练了特征内核的特征图的第一特征图尺寸。此外,图像处理实体(400)以步进方式重复应用(A040)特征内核到特征图,其中特征内核被训练以基于第一特征图尺寸的特征图识别特征,其中特征内核具有第一特征图尺寸,其中通过将卷积内核卷积在具有第一图像尺寸的图像上来获得特征图,这使得,至少由于卷积,特征图具有第二特征图尺寸,其中步进方式由大于第一特征图尺寸的一半的步长表示。还公开了对应的计算机程序(703)和计算机程序载体(705)。

Description

用于将卷积神经网络应用于图像的方法和图像处理实体
技术领域
本文的实施例涉及通过使用卷积神经网络的图像处理。特别地,公开了用于将卷积神经网络应用于第二图像尺寸的图像的方法和图像处理实体。还公开了对应的计算机程序和计算机程序载体。
背景技术
在图像处理领域内,特定类型(genre)涉及通过卷积神经网络进行对象检测。卷积神经网络的使用例如由于其计算效率已变得越来越流行。
被配置为识别图像中的对象(例如汽车、猫、人等)的已知卷积神经网络将该图像作为输入并提供分数,例如作为对象存在于图像中的概率。
在为了分析图像而执行的所谓卷积动作中,在整个图像上以滑动窗口的方式应用过滤器内核。因此,应用过滤器内核并将其沿行列移动,直到分析整个图像。移动过滤器内核的像素量通常称为步幅。在许多情况下使用一个像素的步幅。过滤器内核以这种方式假定覆盖整个图像的多个位置。在每个位置处,过滤器内核与整个图像的相应部分进行卷积。相应部分具有与过滤器内核相同的尺寸,例如3×3像素,5×5像素等。相应部分通常被称为过滤器内核的感受野(receptive field)。对于每个位置,卷积结果是通常通过非线性函数传递的单个标量值。一旦卷积完成,就获得包括所有位置的值的所谓的特征图。
卷积神经网络可以配置有一个或多个卷积动作,每个动作产生相应的特征图,该特征图用作后续动作的输入。
卷积神经网络还可以配置有一个或多个池化(pooling)动作,其中每个池化动作导致输入特征图的维度减小。与过滤器内核类似,在输入特征图上以滑动窗口方式应用所谓的池化内核。同样在这种情况下,术语“步幅”可用于描述池化内核如何在图像上移动以覆盖其整体。
随后,在作为分类器训练网络的情况下,通过对于要识别和/或要分类的每个对象类型向例如最后特征图(last feature map)应用相应的过滤器,来获得所谓的全连接层。全连接层是向量,其中每个索引对应于相应的对象类型,并且每个索引的相应分数表示概率。因此,对于每个对象类型将存在相应的分数作为对于每个对象类型应用相应过滤器的相应结果。利用卷积神经网络,相应过滤器的尺寸等于如“全连接”的词语所指示的最后特征图。此外,分数因此指示对应对象类型的对象存在于图像中的概率。总之,如果要仅检测一种对象类型,则结果层包括单个标量值。在要检测许多对象的情况下,当然可以对于每个要检测的对象类型有一个标量值。也就是说,全连接层是矢量。在某些情况下,可能存在进一步更早的全连接层。以上描述应用于如何从如上所述的最终或最后特征图获得全连接层。
当使用卷积神经网络进行对象检测时,卷积神经网络需要用一定尺寸的图像进行训练。然后可以将卷积神经网络应用于特定尺寸的图像。这是有问题的,因为技术快速发展并且具有越来越高图像分辨率的相机不断出现在市场上。
在本文中称为“overfeat论文”,P.Sermanet等人于2014年2月24日的“OverFeat:使用卷积网络的集成的识别、定位和检测”(“OverFeat:Integrated Recognition,Localization and Detection using Convolutional Networks”)中,公开了关于如何处理不同尺寸图像的提议。论文描述了使用卷积神经网络进行分类、定位和检测的集成框架。根据该论文,分析了尺寸大于训练期间使用的训练图像的尺寸的图像。因此,最后特征图大于全连接层,其通过训练图像的训练获得的。因此,在每个可能的偏移处应用全连接层,并且产生的输出是交织的。
与上述卷积神经网络相关的问题是在每个可能的偏移处应用全连接层在计算上要求很高。
发明内容
目的可以是提高效率,例如降低使用上述类型的卷积神经网络的特征检测的计算需求。
根据一个方面,该目的通过一种用于将卷积神经网络应用于图像的方法来实现。卷积神经网络包括卷积内核,用于卷积第一图像尺寸的图像以提供(render)特征图,以及特征内核,例如用于获得所谓的全连接层,其经过训练以基于特征图识别图像中的特征。第一图像尺寸小于向其应用卷积神经网络的图像的第二图像尺寸。在使用卷积内核来提供特征图的同时处理图像,由此特征图的第二特征图尺寸大于用其训练特征内核的特征图的第一特征图尺寸。
此外,特征内核以步进方式重复应用于特征图。训练特征内核以基于第一特征图尺寸的特征图来识别特征。相应地,特征内核也具有第一特征图尺寸。通过将卷积内核卷积在具有第一图像尺寸的图像上来获得特征图,这至少由于卷积使得特征图具有第二特征图尺寸。步进方式由步长表示,该步长大于第一特征图尺寸的一半。
根据另一方面,该目的通过配置用于执行上述方法的图像处理实体来实现。
根据进一步方面,该目的通过与上述方面相对应的计算机程序和计算机程序载体来实现。
由于步长大于第一特征图尺寸的一半,因此与使用overfeat论文中提出的步长1时所需的计算相比,实现了覆盖整个特征图所需的计算的减少。通常,步长可以高于1并且基本上高达特征内核的宽度,即第一特征图尺寸。当使用大于第一特征图尺寸的步长时,可能会有一些信息丢失,使其不太理想,尽管是可能的。因此,据信当步长增加到1以上时,可以使用本文的实施例。然而,当步长大于第一特征图尺寸的一半时,由于计算的减少的增益可能更加突出。在一些示例中,可能优选的是,步长小于第一特征图尺寸的两倍,或大约是第一特征图尺寸的两倍,因为预期使用本文的实施例在较大步长情况的信息丢失可以不被补偿。因此,对于在像素方面使用大的输入图像的实施例,本发明的效果是额外有益的。以这种方式,当输入图像由于图像传感器的不断发展而变得越来越大时,本发明能够继续使用已经训练过的网络。
附图说明
根据以下详细描述和附图,将容易理解本文公开的实施例的各个方面,包括其特定特征和优点,其中:
图1是用于检测图像中特征的已知卷积神经网络的示意图;
图2是根据本文的一些实施例的用于检测图像中的特征的示例性卷积神经网络的示意图;
图3是当图2的示例性卷积神经网络应用于比训练时更大的图像时的示意图;
图4是示出图像处理实体的实施例的框图;
图5是示出本文方法的实施例的流程图;
图6是示出特征图内的特征内核的不同位置的框图;以及
图7是示出图像处理实体的实施例的更详细的框图。
具体实施方式
在整个以下描述中,类似的附图标记在适用时用于表示类似的动作、模块、电路、部件、项目、元件、单元等。在本说明书中,“特征检测”是指对象的识别、分类或检测。
为了更好地理解本文实施例的优点,参考图1提供对用于图像中的特征检测的已知卷积神经网络的简要描述。在图1中,特征检测阶段指的是特征的识别、分类或检测。在此上下文中,“特征”可以对应于可以在图像中示出的猫、汽车或任何其他对象或对象的部分。
图1示出了神经网络101,包括卷积阶段102和有时可以被称为全连接阶段的特征检测阶段103。
在动作A1中,卷积阶段102通过在图像104上滑动第一卷积内核105来卷积图像104,以获得第一特征图106。图像104,有时被称为“输入图像”,如从一侧来看地示出,但该图像通常可以具有高度和宽度。此外,图像包括多个像素,每个像素对应于图像104中的位置。每个像素还可以由本领域已知的颜色分量的深度表示。例如,像素可以具有3的深度以表示红色、绿色和蓝色。类似地,第一卷积内核105通常可以具有宽度和高度,但是也可以包括深度。用零填充(padded)图像104,使得第一特征图106获得与图像104相同的尺寸。
通过沿着图像104的行和列移动第一卷积内核105来执行第一卷积内核105的滑动,直到整个图像104已被覆盖。第一卷积内核105移动的量在此被称为步幅尺寸,其可以例如表示为像素的数量。步幅尺寸可以是沿着行和列的相同或不同的移动。如本文所使用的,术语“步幅”可以指卷积内核到原始图像或中间特征图的连续应用的位移。
接下来,在卷积阶段102的动作A2中,通过在第一特征图106上滑动或移动池化内核107来执行第一特征图106的池化,以获得池化特征图108。如上,池化内核107在第一特征图106上移动,直到覆盖其整体。同样,池化特征图108和/或池化内核107可以具有宽度和高度,并且还可能具有深度。以这种方式,可以根据已知的方式获得第一特征图106中的平均、激活的最大选择。
此外,在卷积阶段102的动作A3中,通过滑动池化特征图108的第二卷积内核109来对池化特征图108进行卷积。根据已知方式,用零填充池化特征图108。因此,获得最终特征图110。同样,最终特征图110和/或第二卷积内核109可以具有宽度和高度,并且还可能具有深度。最终特征图110的值可以包含来自图像104的特定区域的信息。有时,该值被称为激活、节点、点等。
在特征检测阶段103中,通过应用连接到最终特征图110中的所有节点的过滤器112来获得全连接层111。这由动作A4示出。全连接层111的每个激活可以指示要检测的特征存在于图像104中的概率。在卷积神经网络被训练为仅检测一个特征的情况下,全连接层可以是标量值,并且在卷积神经网络被训练为检测多个特征的情况下,全连接层可以具有与要检测的特征的数量相对应的维度。如前所述,过滤器112可以具有宽度和高度,并且还可能具有深度,以匹配最终特征图的尺寸。以上关于术语“尺寸”的意见贯穿本公开内容。
应当理解,上面的描述被简化,以免不必要地模糊本文中的实施例的描述。
在继续描述根据本文实施例的示例性方法之前,描述图2和图3。图2示出了与本文的一些实施例一起使用的示例性锥形(conical)卷积神经网络200的训练,图3示出了根据本文的实施例的图2的示例性锥形卷积神经网络200的应用。
因此,参考图2,示出了如何用第一图像尺寸IS1的图像201训练示例性锥形卷积神经网络200。术语“图像”在本文中用于指代整个图像。值得注意的是,该示例可以优选地应用于下面图6中的位置9的训练。对于图6中所示的其他位置,图像边界将导致在锥体220的一侧或多侧处截断,其中锥体220的侧对应于图像的边界。
在该示例中,存在五个卷积动作,其中各个卷积内核202、203、204、205、206在适用时在图像201和/或相应特征图207、208、209、210上滑动。因此,每个卷积动作提供其相应特征图207-211,其中标示为211的相应特征图可以被称为最终特征图。术语“卷积内核”指的是内核,过滤器、卷积过滤器等。取决于用例,各个卷积内核202-206的尺寸可以是1x1、2x2、3x3、4x4、5x5等。各个卷积内核202-206的深度也可以等于前一层中的颜色/过滤器通道的数量。
在该示例中,图像201的第一图像尺寸IS1和各个卷积内核202、203、204、205的尺寸匹配,使得五个卷积动作导致最终特征图211,最终特征图211具有等于特征内核212的特征内核尺寸FKS的第一特征图尺寸FMS1,特征内核212可用于获得所谓的全连接层215的激活。这意味着可能存在进一步的特征内核(未示出),即优选地,用于全连接层215中的每个激活的独特的过滤器内核。
如本文所使用的,当结合术语“图像”、“特征图”、“特征内核”等使用时,术语“尺寸”通常是指像素方面的x/y方向中的尺寸,有时也是颜色深度。表述“尺寸大于”可以意味上述方向/深度中的至少一个大于与其进行比较的图像、内核、图等中的对应方向/深度。
此外,示例性锥形卷积神经网络200包括进一步的锥形卷积阶段213和进一步的特征检测阶段214,其中词汇“进一步”将这些阶段与参考图1所述的阶段区分开。
在进一步的锥形卷积阶段213中,示例性锥形卷积神经网络200通常可以不包括零填充。由于在示例性锥形卷积神经网络200的训练期间使用的锥形形式(如图2所示),可以省略零填充。值得注意的是,图6中的边界段有零填充,如同以上简要描述的那样。将结合图6解释进一步的细节。
通常使用零填充以允许卷积内核应用于边缘像素或边缘像素附近。由于进一步的卷积阶段213没有零填充,或者至少部分地没有零填充,可以确保相应的特征图207、208、209、210、211或它们中的至少一些仅包括源自实际图像数据的信息,即相应的特征图207、208、209、210、211或它们中的至少一些因此不包括部分源自图像201已被填充的零的稀释信息。结果,最终特征图211仅包括源自实际图像数据的信息。
示例性锥形卷积神经网络200可以包括或不包括池化。池化在本领域中是已知的,并且出于简化的原因本文未示出。然而,可以注意到,池化可以优选地遵循与图6中针对卷积所示的相同的方案。例如,池化可以优选地对边界位置使用部分零填充。
通常,神经网络的架构在本文中由所涉及的矩阵(例如图像、特征图、卷积内核、特征内核等)的尺寸,以及如何相互组合例如如何卷积这些矩阵来定义。作为示例,在使用特定步幅的同时执行卷积卷积内核以覆盖图像。因此,特定步幅,即特定步幅的尺寸,构成了构建块(building block)以定义神经网络的架构。
现在转到图3,示出了图2的示例性锥形卷积神经网络200的应用。相应地,图像301被馈送到示例性锥形卷积神经网络200的进一步的锥形卷积阶段213。图像301具有大于图像201的第一图像尺寸IS1的第二图像尺寸IS2,示例性锥形卷积神经网络200根据图2用图像201训练。
在图3中,进一步的锥形卷积阶段213保持与图2中描述的相同。然而,图2的进一步的特征检测阶段214被适应以补偿具有大于第一图像尺寸IS1的第二图像尺寸IS2的图像301被馈送到进一步的锥形卷积阶段213。因此,图3示出了进一步的锥形卷积神经网络300,其具有相同的进一步的卷积阶段213和基于进一步的特征检测阶段214的又进一步的特征检测阶段303。相应地,又进一步的特征检测阶段303包括补偿第二图像尺寸IS2的适应,将如下,例如参考图5所述。已经提到,又进一步的特征检测阶段303重用特征内核212而不对其进行改变。这是非常有利的,因为训练是耗时且繁琐的任务。值得注意的是,获得全连接层310,其中将在特征内核212已经应用于特征图302的每个位置有一个分数。因此,这些分数可以与一个并且相同的对象类型等相关联。进一步的特征内核(未示出)可应用于在适用时获得任何进一步的对象类型等的分数。
当向进一步的锥形卷积阶段213馈送图像301时,其数学结果是获得具有大于第一特征图尺寸FMS1的第二特征图尺寸FMS2的进一步的最终特征图302。
这意味着特征内核212适合于进一步的最终特征图302。当将特征内核212应用于进一步的最终特征图302一次时,将存在尚未分析的进一步的最终特征图302的部分。下面参考图5描述对进一步的最终特征图302的完整分析,其因此还描述了又进一步的特征检测阶段303的特征,即如何调整进一步的特征检测阶段214。
在特征内核212用第一图像尺寸IS1的图像201进行了训练时,由于进一步的锥形卷积神经网络300,使得可以在由于较高的分辨率的第二图像尺寸IS2的图像301中“看得进一步远(see further away)”。这意味着进一步的锥形卷积神经网络300可以检测与锥形卷积神经网络200相同最小像素尺寸的特征。然而,在更高分辨率图像上,例如图像301,具有与图像201相同的视野,这将等于例如从自观察者、相机等进一步远地看特征。
图4示出了图像处理实体400的框图,该图像处理实体400被配置为执行根据本文的实施例的示例性方法。下面参考图7更详细地描述图像处理实体400,诸如数字相机、监视相机、包括图像传感器的移动设备、计算机、在计算机系统中执行的软件应用等。
在图5中,示出了图像处理实体400中的示例性方法的示意性流程图。在该图中,在一些实施例中出现的动作由虚线表示。因此,图像处理实体400执行用于将卷积神经网络(例如图3的示例性卷积神经网络300)应用于图像(诸如图像301)的方法。
卷积神经网络包括卷积内核(例如卷积内核202-206中的一个或多个)用于与第一图像尺寸IS1的图像(例如图像201)卷积以提供特征图(例如用于每个图像201的相应最终特征图211或其他非最终特征图)。
此外,卷积神经网络包括被训练以基于特征图识别图像201中的特征或至少一个特征的特征内核212。更详细地,卷积神经网络可以包括一个或多个进一步的特征内核(未示出),以便识别一个或多个进一步的相应特征(例如每个特征内核一个)。
如上所述,第一图像尺寸IS1小于向其应用卷积神经网络的图像301的第二图像尺寸IM2。
可以以任何合适的顺序执行以下动作中的一个或多个。
动作A010
在将卷积神经网络应用于图像301之前,可以如下训练卷积神经网络。
因此,图像处理实体400或任何其他计算设备可以使用第一图像尺寸IS1的图像来训练图2的示例性锥形卷积神经网络200。更详细地,图像处理实体400或所述任何其他计算设备可以基于从第一图像尺寸IS1的图像获得的特征图来训练特征内核。
动作A020
为了检测图像301中的特征,图像处理实体400在使用卷积内核来提供特征图302的同时处理图像301。结果,特征图302的第二特征图尺寸FMS2大于被用于训练特征内核212的特征图211的第一特征图尺寸FMS1。
通常可以通过将卷积内核202-206在具有第二图像尺寸IS2的图像301上卷积而不进行零填充来获得特征图302。
此外,特征图302通常可以借助于卷积内核202-206被提供为最终特征图。
动作A030
图像处理实体400可以例如在执动作作A040之前基于特征内核相对于特征图的位置在多个特征内核中选择特定特征内核,该位置即应当向其应用要选择的特定特征内核的在特征图302内的位置。
根据以下可能有九个不同的位置。
首先,该位置可以是四个不同角落位置中的一个,其中,角落可以在二维或三维中考虑。由于特征图大于特征内核,因此将出现角落位置。
其次,当第二图像是在任何方向上用其训练锥形卷积神经网络的图像的两倍尺寸时,可以识别至少两个边缘位置。通常,当第二图像在两个方向上是图像的尺寸的两倍时,存在四个边缘位置。
再次,当第二图像是图像的尺寸的四倍时,可以识别内部位置。
因此,多个特征内核包括可能已经在这九个位置中的相应一个处被训练的相应特征内核。因此,图像处理实体400选择与位置相关联即为该位置训练的相应特征内核。因此,该位置是应当向其应用要选择的特定特征内核的当前位置。
动作A040
接下来,为了分析特征图302的整体(即整个特征图302),图像处理实体400在适用时以步进方式将特征内核(即所选择的特征内核)重复地应用于特征图302。
如上所述,训练特征内核以基于第一特征图尺寸FMS1的特征图211识别特征。特征内核具有第一特征图尺寸。通过将卷积内核202-206卷积在具有第一图像尺寸IS1的图像201上来获得特征图211,这导致了,至少由于卷积,特征图302具有第二特征图尺寸FMS2。
步进方式由大于第一特征图尺寸FMS1的一半的步长表示。可以应用特征内核的至少两个连续应用,使得步长小于或等于第一特征图尺寸FMS1。可能优选的是,在特征内核的连续应用之间没有或几乎没有重叠。因此,步长通常设置为等于第一特征图尺寸FMS1。利用本文指定的步长,与背景技术部分中提到的“overfeat论文”相比,可以获得主要的计算增益,因为为了覆盖整个特征图302,需要更少的计算。
如本文所使用的,术语“步”可以指特征内核连续应用到特征图的位移,该特征图对于特征内核来说太大而无法在“一步”中分析,即特征图大于特征内核。
作为示例,特征内核212可以被应用三次到特征图302,例如在特征图302的不同位置处,以便分析特征图302的整体。这将因此产生三个值或分数,指示为其训练特征内核以识别的特征的识别概率。在特征内核的应用之间可能没有或几乎没有重叠,即由于步长大约等于第一特征图尺寸。然后,可以是三个不同分数提供一些信息,信息关于图像301中哪里可能已经识别出特征。如果三个值的第一值是0.9,三个值的第二值是0.2,并且三个值的第三值是0.1,则取决于组织值的顺序,可以是特征是在例如图像301的左上角中识别的。
还可以或替代地,可以将源自特征内核的相应应用或甚至各个特征内核的每个分数合并到要识别的每个特征的公共分数(common score)中。作为示例,可以将公共分数计算为用于识别特征的分数的平均值、用于识别的分数中的最大值等。鉴于前面的示例,可以是将最大值0.9选择作为共同分数。
为了检测大于特征内核尺寸FKS(即第一特征图尺寸FMS1)的特征,可以在图像301的缩小图像版本上重新运行上述方法,或者如果需要在多个缩放上重新运行多次。
如上所述,要在最终特征图内应用特征内核的不同位置可以决定要使用的多个特征内核中的哪个特征内核。图6示出了示例性特征图600(例如最终特征图)中的九个不同位置1-9,在其上要应用所选择的特征内核的。在这种情况下,第二图像尺寸在两个方向上是第一图像尺寸的四倍。因此,第二图像尺寸总共是第一图像尺寸的16倍。
第一角落位置1可以位于特征图600的左上角。第二角落位置3可以位于特征图600的右上角。第三角落位置6可以位于特征图600的左下角。第四角落位置8可以位于特征图600的右下角。
在该示例中,存在两个上边缘位置2、两个左边缘位置4、两个右边缘位置5和两个下边缘位置7。两个上边缘位置2与一个特征内核相关联。类似地,两个左边缘位置4、两个右边缘位置5和两个下边缘位置7与一个相应的特征内核相关联。
此外,在该示例中,存在四个内部位置9,其也与一个相应的特征内核相关联。这意味着所有内部位置9都以相同的方式处理,例如通过将相同的特征内核应用于所有内部位置。同样地,以相同的方式处理两个上边缘位置2,并且以此类推左边缘位置4、右边缘位置5和下边缘位置7。
参考上面提到的池化,可以注意到,在图3的示例性卷积神经网络300或类似的卷积神经网络中应用池化的情况下,也可以使用类似于上面描述的方案。
参考图7,示出了图4的图像处理实体400的实施例的示意性框图。在该图中,在一些实施例中出现的模块等由虚线表示。
根据前述实施例中任一项所述的方法,其中所述方法由图像处理实体400执行。
图像处理实体400可以包括处理模块701,诸如用于执行本文描述的方法的装置。该装置可以以一个或多个硬件模块和/或一个或多个软件模块的形式实现。
图像处理实体400还可以包括存储器702。存储器可以包括,例如包含或存储,例如具有计算机程序703的形式的指令,其可以包括计算机可读代码单元。
根据本文的一些实施例,图像处理实体400和/或处理模块701包括作为示例性硬件模块的处理电路704,其可以包括一个或多个处理器。因此,处理模块701可以以处理电路704的形式或由处理电路704“实现”来实施。指令可以由处理电路704执行,由此图像处理实体400可操作以执行图5的方法。作为另一示例,当由图像处理实体400和/或处理电路704执行时,指令可以使图像处理实体400执行根据图5的方法。
鉴于以上所述,在一个示例中,提供了用于将卷积神经网络应用于图像的图像处理实体400。如上所述,卷积神经网络包括:卷积内核,其用于卷积第一图像尺寸的图像以提供特征图;以及特征内核,其被训练以基于特征图识别图像中的特征,其中第一图像尺寸小于向其应用卷积网络的图像的第二图像尺寸。同样,存储器702包含可由所述处理电路704执行的指令,由此图像处理实体400可操作用于:
在使用卷积内核提供特征图的同时处理图像,由此特征图的第二特征图尺寸大于用其训练特征内核的特征图的第一特征图尺寸,以及
以步进方式重复将特征内核应用于特征图,其中特征内核被训练为基于第一特征图尺寸的特征图识别特征,其中特征内核具有第一特征图尺寸,其中通过将卷积内核在具有第一图像尺寸的图像上卷积来获得特征图,这使得,至少由于卷积,特征图具有第二特征图尺寸,其中步进方式由大于第一特征图尺寸的一半的步长表示。
图7还示出了载体705或程序载体,其包括如上直接所述的计算机程序703。载体705可以是电子信号、光信号、无线电信号和计算机可读介质中的一种。
在一些实施例中,图像处理实体400和/或处理模块701可以包括子处理模块710、应用模块720、选择模块730和训练模块740中的一个或多个,作为示例硬件模块。在其他示例中,前述示例性硬件模块中的一个或多个可以实现为一个或多个软件模块。
此外,处理模块701包括输入/输出单元706。
因此,图像处理实体400被配置用于将卷积神经网络应用于图像。
因此,根据上述各种实施例,图像处理实体400和/或处理模块701和/或子处理模块710被配置用于在使用卷积内核提供特征图的同时处理图像,由此特征图的第二特征图尺寸大于用其训练特征内核的特征图的第一特征图尺寸。
图像处理实体400和/或处理模块701和/或应用模块720可以被配置用于以步进方式将特征内核重复应用于特征图,其中特征内核被训练以基于第一特征图尺寸的特征图来识别特征,其中特征内核具有第一特征图尺寸,其中通过将卷积内核在具有第一图像尺寸的图像上卷积来获得特征图,这使得,至少由于卷积,特征图具有第二特征图尺寸,其中步进方式由大于第一特征图尺寸的一半的步长表示。
图像处理实体400和/或处理模块701和/或选择模块730可以被配置用于基于特征内核相对于特征图的位置在多个特征内核中选择特征内核。
图像处理实体400和/或处理模块701和/或训练模块740可以被配置用于用第一图像尺寸IS1的图像训练图2的示例性锥形卷积神经网络200。
如本文所使用的,术语“模块”可以指代一个或多个功能模块,每个功能模块可以被实现为节点中的一个或多个硬件模块和/或一个或多个软件模块和/或组合的软件/硬件模块。在一些示例中,模块可以表示实现为节点的软件和/或硬件的功能单元。
如本文所使用的,术语“计算机程序载体”、“程序载体”或“载体”可以指电子信号、光信号、无线电信号和计算机可读介质中的一种。在一些示例中,计算机程序载体可以排除暂时的传播信号,例如电子、光和/或无线电信号。因此,在这些示例中,计算机程序载体可以是非暂时性载体,例如非暂时性计算机可读介质。
如本文所使用的,术语“处理模块”可以包括一个或多个硬件模块、一个或多个软件模块或其组合。任何这样的模块,无论是硬件、软件还是组合的硬件-软件模块,都可以是如本文所公开的确定装置、估计装置、捕获装置、关联装置、比较装置、识别装置、选择装置、接收装置、发送装置等。作为示例,表述“装置”可以是结合附图在上面列出的模块相对应的模块。
如本文所使用的,术语“软件模块”可以指软件应用、动态链接库(DLL)、软件组件、软件对象、根据组件对象模型(COM)的对象、软件组件、软件功能、软件引擎、可执行二进制软件文件等。
术语“处理模块”或“处理电路”在本文中可以涵盖处理单元,包括一个或多个处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。处理电路等可以包括一个或多个处理器内核。
如本文所使用的,表述“被配置为/用于”可以意味着处理电路被配置为例如适用于或可操作于借助软件配置和/或硬件配置执行本文描述的一个或多个动作。
如本文所使用的,术语“存储器”可以指硬盘、磁存储介质、便携式计算机磁盘或盘、闪存、随机存取存储器(RAM)等。此外,术语“存储器”可以指处理器等的内部寄存器存储器。
如本文所使用的,术语“计算机可读介质”可以是通用串行总线(USB)存储器、DVD盘、蓝光盘、作为数据流接收的软件模块、闪存、硬盘驱动器、存储卡(例如记忆棒、多媒体卡(MMC)、安全数字(SD)卡)等。计算机可读介质的一个或多个上述示例可以作为一个或多个计算机程序产品提供。
如本文所使用的,术语“计算机可读代码单元”可以是计算机程序的文本、以编译格式表示计算机程序的二进制文件的部分或整个,或它们之间的任何东西。
如本文所使用的,术语“数量”和/或“值”可以是任何类型的数字,例如二进制、实数、虚数或有理数等。此外,“数量”和/或“值”可以是一个或多个字符,例如字母或字母串。“数量”和/或“值”也可以由一串比特,即零和/或1,表示。
如本文所使用的,术语“一组”可以指一个或多个东西。例如,一组设备可以指代一个或多个设备,一组参数可以指代根据本文的实施例的一个或多个参数等。
如本文所用,表述“在一些实施例中”已用于指示所述实施例的特征可与本文公开的任何其他实施例组合。
尽管已经描述了各个方面的实施例,但是对于本领域技术人员而言,其许多不同的改变、修改等将变得显而易见。因此,所描述的实施例不旨在限制本公开的范围。

Claims (5)

1.一种用于将卷积神经网络应用于图像的方法,其中所述卷积神经网络包括用于卷积第一图像尺寸的图像以提供特征图的卷积内核,以及被训练为基于所述特征图识别图像中的特征的特征内核,其中所述第一图像尺寸小于向其应用所述卷积神经网络的所述图像的第二图像尺寸,其中所述方法包括:
使用所述卷积内核提供特征图,其中,所述特征图的第二特征图尺寸大于用其训练所述特征内核的所述特征图的第一特征图尺寸,
基于所述特征内核相对于所述特征图的位置,在多个特征内核中选择所述特征内核,所述特征内核被训练用于所述位置;其中所述位置即应当向其应用要选择的特定特征内核的在所述特征图内的位置;其中所述多个特征内核包括已经在所述特征图中的九个位置中的相应一个处训练的相应特征内核,其中所述位置是四个不同角落位置、四个不同边缘位置和内部位置中的一个,以及
以步进方式重复应用所述特征内核到所述特征图,该步进方式指所述特征内核到所述特征图的连续应用的位移,其中所述特征内核被训练以基于所述第一特征图尺寸的所述特征图识别所述特征,其中所述特征内核的特征内核尺寸等于所述第一特征图尺寸,其中通过将所述卷积内核在具有所述第一图像尺寸的图像上卷积获得所述特征图,这使得,至少由于卷积,所述特征图具有所述第二特征图尺寸,其中,所述步进方式由大于所述第一特征图尺寸的一半的步长表示。
2.根据权利要求1所述的方法,其中应用所述特征内核的至少两个连续应用,使得所述步长小于或等于所述第一特征图尺寸。
3.根据权利要求1所述的方法,其中所述方法由图像处理装置执行。
4.一种图像处理装置,被配置用于执行根据权利要求1所述的方法。
5.一种非暂时性计算机存储介质,包括存储在其中的计算机可读代码单元,所述计算机可读代码单元当在图像处理电路上执行时使得所述图像处理电路执行根据权利要求1所述的方法。
CN201811525270.9A 2017-12-14 2018-12-13 用于将卷积神经网络应用于图像的方法和图像处理实体 Active CN109961083B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17207325.6A EP3499415A1 (en) 2017-12-14 2017-12-14 Method and image processing entity for applying a convolutional neural network to an image
EP17207325.6 2017-12-14

Publications (2)

Publication Number Publication Date
CN109961083A CN109961083A (zh) 2019-07-02
CN109961083B true CN109961083B (zh) 2021-11-16

Family

ID=60915207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811525270.9A Active CN109961083B (zh) 2017-12-14 2018-12-13 用于将卷积神经网络应用于图像的方法和图像处理实体

Country Status (3)

Country Link
US (1) US10832076B2 (zh)
EP (1) EP3499415A1 (zh)
CN (1) CN109961083B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767928B (zh) * 2020-06-28 2023-08-08 中国矿业大学 基于卷积神经网络提取图像特征信息的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873838B2 (en) * 2013-03-14 2014-10-28 Google Inc. Method and apparatus for characterizing an image
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
CN105787488B (zh) * 2016-03-02 2019-04-30 浙江宇视科技有限公司 由全局向局部传递的图像特征提取方法及装置
KR102631381B1 (ko) * 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
CN107145902B (zh) * 2017-04-27 2019-10-11 厦门美图之家科技有限公司 一种基于卷积神经网络的图像处理方法、装置及移动终端
CN107066995A (zh) * 2017-05-25 2017-08-18 中国矿业大学 一种基于卷积神经网络的遥感图像桥梁检测方法
CN109493347B (zh) * 2017-09-12 2021-03-23 深圳科亚医疗科技有限公司 在图像中对稀疏分布的对象进行分割的方法和系统

Also Published As

Publication number Publication date
EP3499415A1 (en) 2019-06-19
CN109961083A (zh) 2019-07-02
US10832076B2 (en) 2020-11-10
US20190188512A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
CN109325954B (zh) 图像分割方法、装置及电子设备
CN112528878B (zh) 检测车道线的方法、装置、终端设备及可读存储介质
US10803357B2 (en) Computer-readable recording medium, training method, and object detection device
KR102338372B1 (ko) 영상으로부터 객체를 분할하는 방법 및 장치
US8103058B2 (en) Detecting and tracking objects in digital images
AU2019345266B2 (en) Ventral-dorsal neural networks: object detection via selective attention
WO2017015390A1 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US11615612B2 (en) Systems and methods for image feature extraction
KR20200044171A (ko) 딥러닝 네트워크 모델에 의한 실시간 객체 검출 방법 및 장치
CN105144710A (zh) 用于增加深度相机图像的精度的技术
CN113901972A (zh) 遥感图像建筑物的检测方法、装置、设备及存储介质
JP2023507248A (ja) 物体検出および認識のためのシステムおよび方法
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
CN115578590A (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
CN109961083B (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体
CN111179212B (zh) 集成蒸馏策略和反卷积的微小目标检测片上实现方法
US20230069608A1 (en) Object Tracking Apparatus and Method
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
US20220414826A1 (en) Image processing apparatus, image processing method, and medium
CN116964643A (zh) 面部表情识别
JP7360303B2 (ja) 画像処理装置および画像処理方法
CN110738225B (zh) 图像识别方法及装置
JP7148462B2 (ja) 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
CN114651272A (zh) 成像传感器、图像处理装置和图像处理方法
Wei et al. Enhanced Object Detection by Integrating Camera Parameters into Raw Image-Based Faster R-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant