CN111178367A - 适应多物件尺寸的特征决定装置及方法 - Google Patents

适应多物件尺寸的特征决定装置及方法 Download PDF

Info

Publication number
CN111178367A
CN111178367A CN201811382941.0A CN201811382941A CN111178367A CN 111178367 A CN111178367 A CN 111178367A CN 201811382941 A CN201811382941 A CN 201811382941A CN 111178367 A CN111178367 A CN 111178367A
Authority
CN
China
Prior art keywords
feature
layer
convolution
convolutional
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811382941.0A
Other languages
English (en)
Other versions
CN111178367B (zh
Inventor
陈彦霖
梁弘一
陈修志
余兆伟
李孟灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN111178367A publication Critical patent/CN111178367A/zh
Application granted granted Critical
Publication of CN111178367B publication Critical patent/CN111178367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

一种适应多物件尺寸的特征决定装置及方法。该装置将多张物件图像个别地输入具有多个卷积层的卷积神经网络以产生各该物件图像所对应的多张特征图。该装置计算各该物件图像的各该特征图的一特征量。该装置根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号。该装置根据各该物件图像的尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的特征图提取建议。

Description

适应多物件尺寸的特征决定装置及方法
技术领域
本发明是关于一种物件的特征决定装置及方法。具体而言,本发明是关于一种适应多物件尺寸的特征决定装置及方法。
背景技术
随着运算硬件及深度学习技术的快速发展,许多电脑视觉装置及图像处理装置(例如:路侧装置)已采用由深度学习技术所建立的物件检测模型来检测图像或图像序列中的物件。目前被广泛地应用于电脑视觉技术及图像处理技术的深度学习模型包含卷积神经网络(Convolutional Neural Network;CNN)模型、区域卷积神经网络(Region-basedConvolutional Neural Network;R-CNN)模型、快速区域卷积神经网络(Faster Region-based Convolutional Neural Network;Faster R-CNN)模型等等。
不论采用哪一种深度学习模型,都需要经过训练才能作为实际要使用的物件检测模型。目前已有一些深度学习技术(例如:单次多框检测器(Single Shot multiboxDetector;SSD))是以图像与图像在深度学习模型中某几层卷积层的特征图(feature map)来进行训练,以提高物件检测模型的准确率。由于硬件资源有限,已知技术是预先设定欲固定提取哪一(或哪些)卷积层的特征图。然而,物件尺寸不一,已知技术的作法极可能提取到无效的特征图(亦即,特征量过少的特征图),造成运算资源的浪费,且导致无法提高训练出来的物件检测模型的准确率。
为便于理解,请参考图1及图2所示的具体范例。图1描绘了一包含有物件“车子”的图像11,以及图像11在一深度学习模型的第1层至第5层卷积层所分别对应的多张特征图。在图1中,第5层卷积层所对应的各该特征图为全黑或近乎全黑,代表所具有的特征量极少(亦即,有用的信息极少),可视为无效的特征图。图2则描绘一包含有物件“人物”的图像21,以及图像21在一深度学习模型的第1层至第5层卷积层所分别对应的多张特征图。在图2中,第4层卷积层及第5层卷积层所对应的各该特征图为全黑或近乎全黑,代表所具有的特征量极少,可视为无效的特征图。比较图1及图2可知,图2的图像21中的物件的尺寸较小,故第4层卷积层所对应的该多个特征图即已为全黑或近乎全黑,而图1的图像11中的物件的尺寸较大,故直到第5层卷积层所对应的该多个特征图才为全黑或近乎全黑。由此可知,在物件的尺寸不一的状况下,预先设定欲固定提取哪一(或哪些)卷积层的特征图势必会提取到无用的信息,造成无意义的运算,无法使训练出来的物件检测模型有较高的准确率。
目前的深度学习模型的另一个问题是需要大量的常态卷积运算,因此硬件需求较高,不易实现于嵌入式平台。为解决前述问题,目前已有一些轻量化(亦即,运算量较少)的深度学习模型,例如:深度分离卷积神经网络(depth-wise separable convolutionneural network)。然而,这些轻量化的深度学习模型在经过多层的卷积运算后,往往会产生无效的特征图(亦即,特征量过少的特征图),造成后续运算资源的浪费。
有鉴于此,如何根据不同物件尺寸提供特征图提取建议,以避免造成无意义运算,乃业界亟需努力的目标。
发明内容
本发明的一目的在于提供一种适应多物件尺寸的特征决定装置。该装置包含一储存器及一处理器,且二者彼此电性连接。该储存器储存多张物件图像。该处理器将各该物件图像输入具有多个卷积层的一卷积神经网络以产生各该物件图像所对应的多张特征图(feature map),其中各该特征图对应至该多个卷积层中的一个。该处理器计算各该物件图像的各该特征图的一特征量。该处理器根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号,其中各该无效层起始编号对应至该多个卷积层中的一个。该处理器根据各该物件图像的一尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议,其中各该特征图提取建议对应至该多个卷积层的一部分。
本发明的另一目的在于提供一种适应多物件尺寸的特征决定方法,其适用于一电子装置。该电子装置储存多张物件图像。该方法包含下列步骤:(a)将各该物件图像输入具有多个卷积层的一卷积神经网络以产生各该物件图像所对应的多张特征图,其中各该特征图对应至该多个卷积层中的一个;(b)计算各该物件图像的各该特征图的一特征量;(c)根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号,其中各该无效层起始编号对应至该多个卷积层中的一个;(d)根据各该物件图像的一尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议,其中各该特征图提取建议对应至该多个卷积层的一部分。
本发明所提供的适应多物件尺寸的特征决定技术(至少包含装置及方法)借由分析多张物件图像在卷积神经网络的各卷积层的特征图的特征量,判断各该物件图像的无效层起始编号,并根据各该物件图像的尺寸及无效层起始编号进行统计,借此决定各个物件尺寸对应的特征图提取建议。本发明所提供的适应多物件尺寸的特征决定技术借由提供不同物件尺寸的特征图提取建议,解决已知技术可能提取到无效的特征图,或是仅提取固定于某一(或某些)卷积层的特征图所造成的无意义运算的问题。
以下结合附图阐述本发明的详细技术及实施方式,使本领域的技术人员能理解所请求保护的发明的特征。
附图说明
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明,其中:
图1是描绘一包含有物件“车子”的图像及其在多个卷积层的特征图;
图2是描绘一包含有物件“人物”的图像及其在多个卷积层的特征图;
图3是描绘第一实施方式的适应多物件尺寸的特征决定装置3的架构示意图;
图4是描绘多张物件图像在多个卷积层所对应的特征图的示意;
图5A是描绘物件图像31a的特征图31a-2的一具体范例;
图5B是描绘物件图像31a、31b、31x所分别对应的特征量分布曲线32a、32b、32x;
图6A是描绘物件尺寸为100*100像素的群组的特征量分布曲线的一具体范例;
图6B是描绘物件尺寸为200*200像素的群组的特征量分布曲线的一具体范例;
图7是描绘混合式卷积神经网络7的架构示意图;
图8是描绘第二实施方式的适应多物件尺寸的特征决定方法的部分流程图;以及
图9是描绘某些实施方式所会执行的方法的部分流程图。
符号说明
11:图像
21:图像
3:特征决定装置
31:储存器
33:处理器
31a、31b、……、31x:物件图像
31a-1、31b-1、……、31x-1:特征图
31a-2、31b-2、……、31x-2:特征图
31a-n、31b-n、……、31x-n:特征图
32a、32b、32x:特征量分布曲线
7:混合式卷积网络
S801-S807:步骤
S901~S903:步骤
具体实施方式
以下将透过实施方式来解释本发明所提供的一种适应多物件尺寸的特征决定装置及方法。然而,该多个实施方式并非用以限制本发明需在如该多个实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未绘示,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本发明的范围。
本发明的第一实施方式为一能适应多物件尺寸的特征决定装置3,其架构示意图如图3所示。特征决定装置3包含一储存器31及一处理器33,且二者彼此电性连接。储存器31可为一存储器、一通用串行总线(Universal Serial Bus;USB)盘、一硬盘、一光盘、一随身碟或本领域的技术人员所知且具有相同功能的任何其他储存媒体或电路。处理器33可为各种处理器、中央处理单元、微处理器、数字信号处理器或本领域的技术人员所知的其他计算装置。在一些实施方式中,特征决定装置3可为但不限于路侧监控装置、录影机或车牌辨识系统的信息搜集装置等。
储存器31储存多张物件图像31a、31b、……、31x。物件图像31a、31b、……、31x为以物件为主的图像(亦即,物件在图像中所占据的面积大于一预设比例,例如:95%)。在其他实施方式中,特征决定装置3则可利用任何的图像,但各图像中需有物件且需提供物件在图像中的位置信息,使特征决定装置3能依据位置信息从图像中取得物件图像。
在本实施方式中,特征决定装置3先取得物件图像31a、31b、……、31x在一卷积神经网络的不同卷积层中的特征图,计算各该特征图的特征量,再根据一预设门槛值及该多个特征量判断各该物件图像的无效层起始编号,再根据各该物件图像的尺寸及各该物件图像所对应的该无效层起始编号进行统计,借此决定多个物件尺寸各自对应的一特征图提取建议。需要说明的是,一卷积神经网络还包含池化层(pooling layer)、线性整流层(rectified linear units layer)等其他层,惟本发明的重点在于与卷积层相关的运算及分析,故以下段落将仅详细说明与本发明相关的实施细节。
具体而言,处理器33将物件图像31a、31b、……、31x分别输入一个具有多个卷积层(例如:n层,其中n为正整数)的卷积神经网络以产生物件图像31a、31b、……、31x各自的多张特征图(feature map),其中各该特征图对应至该多个卷积层中的一个。卷积神经网络的各卷积层具有至少一个卷积核(filter)以分别进行卷积运算。应理解,本发明未限制一卷积层所具有的卷积核的数目。为便于说明,以下将以一卷积层具有一个卷积核为例说明,但本领域的技术人员依据以下说明应能理解当一卷积层有多个卷积核时的操作方式。
具体而言,将一物件图像输入卷积神经网络后,处理器33在各卷积层会以该卷积层的卷积核对该卷积层的输入执行一卷积运算以产生一特征图。一特征图包含多个细胞(cell),且细胞数取决于特征图的尺寸。举例而言,若特征图的尺寸为4*4,则该特征图具有16个细胞。需要说明的是,一卷积神经网络可具有的层数、各卷积层所对应的卷积核的数目、各卷积核的参数为何以及各卷积层如何以对应的卷积核产生特征图并非本发明的重点,本领域的技术人员应可理解其内容,故不赘言。
为便于理解,请参考图4所示的一具体范例,但其非用以限制本发明的范例。在该具体范例中,处理器33将物件图像31a输入该卷积神经网络后,在第1、2、……、n层卷积层分别得到特征图31a-1、31a-2、……31a-n。类似的,处理器33将物件图像31b输入至该卷积神经网络后,在第1、2、……、n层卷积层分别得到特征图31b-1、31b-2、……31b-n。同理,处理器33将物件图像31x输入至该卷积神经网络后,在第1、2、……、n层卷积层分别得到特征图31x-1、31x-2、……、31x-n。处理器33将其他物件图像输入该卷积神经网络后,也会在各卷积层得到对应的特征图,兹不赘言。
接着,处理器33计算物件图像31a、31b、……、31x各自对应的各该特征图的一特征量。特征量是用以评估对应的特征图所带有的图像信息量。在某些实施方式中,一特征图的特征量为该特征图上的一非零细胞(cell)数与一总细胞数间的一比例。在该多个实施方式中,处理器33可根据下列公式(1)对一特征图的各细胞进行计数(若为非零细胞,计数为1;若为零细胞,计数为0),再根据公式(2)计算该特征图的特征量。
Figure BDA0001872310780000061
Figure BDA0001872310780000062
上述公式(1)及公式(2)中,变量x及y为正整数,函数f(x,y)为特征图的坐标位置(x,y)的细胞所对应的计数,函数feature map(x,y)为特征图的坐标位置(x,y)的细胞的值,变量FR代表特征量,变量H为特征图的高度,且变量W为特征图的宽度。
为便于理解,请参考图5A所示的一具体范例,但其非用以限制本发明的范围。在该具体范例中,物件图像31a的特征图31a-2的尺寸为5*5,且各细胞的值如图5A所示。处理器33根据前述公式(1)及公式(2)计算特征图31a-2上非零细胞数与总细胞数的比例,得到特征图31a-2的特征量为7/25。需要说明的是,本发明未限制如何计算一特征图的特征量,任何可以评估一特征图所带有的信息量的方法(例如:非零细胞的数目、细胞的值的分布状态、连续非零细胞的比例、非零细胞的密集度等等)均属于本发明所要保护的范围。
之后,处理器33根据一预设门槛值及物件图像31a、31b、……、31x各自所对应的该多个特征量,判断物件图像31a、31b、……、31x各自的一无效层起始编号,其中各该无效层起始编号对应至该卷积神经网络的该多个卷积层中的一个。具体而言,每一物件图像31a、31b、……、31x对于不同卷积层有一对应的特征量,处理器33借由将物件图像31a、31b、……、31x各自所对应的该多个特征量与一预设门槛值比对以判断物件图像31a、31b、……、31x各自的该无效层起始编号。需要说明的是,在某些实施方式中,若一物件图像在一卷积层有多张特征图,则该物件图像在该卷积层所对应的特征量为该物件图像在该卷积层的该多个特征量的一统计值(例如:一平均值)。在本实施方式中,处理器33对各张物件图像31a、31b、……、31x的各个特征图(如前所述,各特征图对应至某一卷积层)依其经卷积处理的顺序开始计算对应的特征量,并依计算特征量的顺序判断各张物件图像31a、31b、……、31x的特征量是否小于一预设门槛值。若处理器33判断某一物件图像(例如:物件图像31a)的特征值首次小于该预设门槛值,便记录该特征值首次小于该预设门槛值的卷积层为一无效层,且选择该无效层的编号作为一无效层起始编号。
为便于理解,请参考图5B所示的一具体范例,但其非用以限制本发明的范围。图5B显示物件图像31a、31b、31x所分别对应的特征量分布曲线32a、32b、32x。假设预设门槛值设为0.2。由特征量分布曲线32a可知,物件图像31a的特征量从第5层卷积层开始小于该预设门槛值,故处理器33判断物件图像31a的无效起始层编号为5。由特征量分布曲线32b可知,物件图像31b的特征量从第4层卷积层开始小于该预设门槛值,故处理器33判断物件图像31b的无效起始层编号为4。类似的,由特征量分布曲线32x可知,物件图像31x的特征量从第6层卷积层开始小于该预设门槛值,故处理器33判断物件图像31x的无效起始层编号为6。物件图像31a、31b、31x所分别对应的无效起始层编号为5、4、6,表示物件图像31a、31b、31x分别在第5、4、6层卷积层开始就不具有足够的特征量。
接着,处理器33根据物件图像31a、31b、……、31x各自的尺寸及物件图像31a、31b、……、31x各自所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议,其中各该特征图提取建议对应至该多个卷积层的一部分。处理器33所决定的不同物件尺寸的特征图提取建议可供卷积神经网络的训练阶段或辨识阶段使用。
在某些实施方式中,处理器33借由执行下列操作以决定各该物件尺寸的该特征图提取建议。处理器33先依据物件图像31a、31b、……、31x的尺寸,将物件图像31a、31b、……、31x区分为多个群组,其中区分物件图像为不同群组的规则可预先根据经验或使用目的设定不同群组的尺寸范围。在一实施方式中,同一群组中的物件图像的尺寸相同或接近(例如:面积的差异小于5%)。接着,处理器33针对各该群组执行以下操作:借由统计该群组的该多个物件图像的该多个无效层起始编号以决定该特征图提取建议。举例而言,处理器33可分别从各群组的各物件图像所对应的无效层起始编号中选取最小的无效层起始编号为该群组的共同无效起始层编号,接着再选取共同无效起始层的前一层或前数层作为该群组的特征图提取建议,其中,在卷积神经网络中越浅层的卷积层所对应到的编号越小。举例而言,若某一群组的共同无效起始层编号为k,特征图提取建议可为对应于编号k-1的卷积层,或对应于编号k-n、k-n+1…、k-1等编号的n层卷积层,其中k及n皆为正整数,且k大于n。
为便于理解,以图6A及图6B所示的一具体范例说明,但其非用以限制本发明的范围。在该具体范例中,处理器33从物件图像31a、31b、……、31x等多种尺寸中设定二种尺寸范围,例如近似于100*100像素的尺寸范围及近似于200*200像素的尺寸范围,以下分别以物件尺寸100*100像素及物件尺寸200*200像素来表示。处理器33将物件图像31a、31b、……、31x输入卷积神经网络后,依据前述运算产生物件图像31a、31b、……、31x在各卷积层所对应的该多个特征量。另外,处理器33根据物件图像31a、31b、……、31x的尺寸,将物件图像31a、31b、……、31x区分为群组A(亦即,物件尺寸为100*100像素或接近100*100像素的物件图像)及群组B(亦即,物件尺寸为200*200像素或接近200*200像素的物件图像)。
图6A及图6B分别描绘群组A及群组B各自包含的物件图像的特征量分布曲线,由特征量分布曲线可看出物件图像对应至不同卷积层的特征量。假设预设门槛为0.2。物件尺寸为100*100像素的群组A的特征量从第5层卷积层开始小于预设门槛值,代表群组A的共同无效层起始编号为5。物件尺寸为200*200像素的群组B的特征量从第7层卷积层开始小于该预设门槛值,代表群组B的共同无效层起始编号为7。针对各群组,处理器33会选取编号小于该对应的共同无效层起始编号之前一层或前n层(亦即,不会产生无效特征图的卷积层)作为特征图提取建议。以图6A及图6B的具体范例为例,对于物件尺寸为100*100像素,处理器33从第1层卷积层至第4层卷积层(亦即,小于最低无效层起始编号5的那几层)选出一或多层(例如:第2层、第3层、第4层卷积层)作为特征图提取建议。对于物件尺寸为200*200像素,处理器33从第1层至第6层卷积层(亦即,小于最低无效层起始编号7的那几层)选出一或多层(例如:第4层、第5层、第6层卷积层)作为特征图提取建议。
如前所述,处理器33所决定的不同物件尺寸的特征图提取建议可供卷积神经网络的训练阶段或辨识阶段使用。以图6A及图6B的具体范例为例,在卷积神经网络的训练阶段或/及辨识阶段使用,处理器33会针对物件尺寸为100*100像素的物件图像提取出第2、3及4层卷积层的特征图,且会针对物件尺寸为200*200像素的物件图像提取出第4、5及6层卷积层的特征图,以增进卷积神经网络的训练或/及辨识结果。本领域的技术人员应了解如何利用特征图来训练卷积神经网络,以及如何利用特征图来使卷积神经网络进行辨识,故不赘言。
在某些实施方式中,该卷积神经网络为一深度分离卷积神经网络(depth-wiseseparable convolution neural network)。在该多个实施方式中,特征决定装置3还可基于前述物件图像31a、31b、……、31x的无效起始层编号建构出一混合式卷积神经网络。具体而言,处理器33借由统计物件图像31a、31b、……、31x的该多个无效起始层编号以决定一转换层编号。举例而言,处理器33借由统计该多个无效层起始编号而以最低的无效层起始编号作为转换层编号。再举例而言,处理器33借由统计该多个无效层起始编号而以出现最多次的无效层起始编号作为转换层编号。接着,处理器33根据该转换层编号产生具有多个卷积层的一混合式卷积神经网络,其中该混合式卷积神经网络中低于该转换层编号的该多个卷积层采用一深度分离卷积架构,且不低于该转换层编号的该多个卷积层采用一常态卷积架构。在某些实施方式中,该深度分离卷积神经网络的各该卷积层具有至少二个卷积核(filter)以分别执行一深度卷积(depth-wise convolution)运算及一逐点卷积(point-wise convolution)运算。
为便于理解,现以图5B所示的具体范例说明,但其非用以限制本发明的范围。如前所述,在该具体范例中,物件图像31a、31b、31x的无效起始层编号分别为5、4、6。处理器33统计该多个无效层起始编号后,以最低的(亦即,编号最小)的无效起始层编号作为一转换层编号(亦即,4)。接着,处理器33根据该转换层编号产生一个具有多个卷积层的混合式卷积神经网络以作为一图像物件检测模型。具体而言,该混合式卷积神经网络中,低于该转换层编号的该多个卷积层采用一深度分离卷积架构,且不低于该转换层编号的该多个卷积层采用一常态卷积架构。请参考图7的一混合式卷积神经网络7的架构示意图。当转换层编号为t时,混合式卷积网络7的第1层至第t-1层卷积层采用深度分离卷积架构,而第t层至第m层则采用常态卷积架构,前述变量t及变量m皆为自然数,且t小于m。
本领域的技术人员应了解采用深度分离卷积架构的卷积层需要计算的参数量较少。混合式卷积神经网络7的低卷积层(亦即,低于该转换层编号的该多个卷积层)采用深度分离卷积架构,代表在图像的特征图的信息还足够时,混合式卷积神经网络7是以低运算成本的架构进行卷积运算。混合式卷积神经网络7的高卷积层(亦即,不低于该转换层编号的该多个卷积层)采用常态卷积架构,代表当图像的特征图的信息较低时不再使用参数量少的计算方式,故可降低产生无效特征图的几率,避免运算资源的浪费。因此,以混合式卷积神经网络7作为图像物件检测模型可提升物件检测的效率,亦可解决已知深度学习模型需要大量的常态卷积运算,因为硬件需求较高而不易实现于嵌入式平台等问题。
在某些实施方式中,处理器33可针对混合式卷积神经网络7提供不同物件尺寸的特征图提取建议,以供混合式卷积神经网络7的训练阶段或辨识阶段使用。简言之,在训练阶段,处理器33可将欲用于训练的图像输入混合式卷积神经网络7,基于图像中物件的尺寸确认要提取哪几层的特征图,再以图像与特征图一起训练混合式卷积神经网络7。类似的,在辨识阶段,处理器33可将欲辨识/检测的图像输入经训练的混合式卷积神经网络7,基于图像中物件的尺寸确认要提取哪几层的特征图,再由混合式卷积神经网络7基于图像与特征图进行物件辨识/检测。
由上述说明可知,特征决定装置3借由分析多张物件图像在卷积神经网络的各卷积层的特征图的特征量,判断各该物件图像的无效层起始编号,再根据各该物件图像的尺寸及各该物件图像所对应的该无效层起始编号,决定各个物件尺寸对应的特征图提取建议。特征决定装置3借由提供不同物件尺寸的特征图提取建议,因而解决已知技术可能提取到无效的特征图,或是仅提取固定于某一(或某些)卷积层的特征图所造成的无意义运算的问题。
此外,特征决定装置3还可借由分析及统计物件图像在一深度分离卷积神经网络的各卷积层的特征图的特征量,产生一混合式卷积神经网络作为一图像物件检测模型。混合式卷积神经网络的低卷积层采用深度分离卷积架构,代表在图像的特征图的信息还足够时,以低运算成本的架构进行卷积运算,达到轻量化的效果。混合式卷积神经网络的高卷积层采用常态卷积架构,代表当图像的特征图的信息较低时不再使用参数量少的计算方式,故可降低产生无效特征图的几率,避免运算资源的浪费。借由提供一个同时具有分离卷积架构及常态卷积架构的混合式卷积神经网络,可达到轻量化的效果,且以混合式卷积神经网络作为图像物件检测模型可有效地提升物件检测及辨识的准确率。
本发明的第二实施方式为一适应多物件尺寸的特征决定方法(以下简称“特征决定方法”),其流程图如图8所示。特征决定方法适用于一电子装置,例如:第一实施方式所述的特征决定装置3。该电子装置储存多张物件图像,例如:第一实施方式的物件图像31a、31b、……、31x。特征决定方法透过步骤S801至步骤S807决定多个物件尺寸各自对应的一特征图提取建议。
在步骤S801,由该电子装置将各该物件图像输入具有多个卷积层的一卷积神经网络,借此产生各该物件图像所对应的多张特征图,其中各该特征图对应至该多个卷积层中的一个。卷积神经网络的各卷积层具有至少一个卷积核(filter)以分别进行卷积运算。应理解,本发明未限制一卷积层所具有的卷积核的数目。为便于说明,以下将以一卷积层具有一个卷积核为例说明,但本领域的技术人员依据以下说明应能理解当一卷积层有多个卷积核时的操作方式。
在步骤S803,由该电子装置计算各该物件图像的各该特征图的一特征量。一特征图具有多个细胞。在某些实施方式中,各该特征量为对应的该特征图上的一非零细胞数与一总细胞数的一比例。在某些实施方式中,各该特征量为对应的该特征图上的一非零细胞数。
接着,在步骤S805,由该电子装置根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号,其中各该无效层起始编号对应至该多个卷积层中的一个。在某些实施方式中,步骤S805借由将各该物件图像所对应的该多个特征量与该预设门槛值比对以判断各该物件图像的该无效层起始编号。
随后,在步骤S807,由该电子装置根据各该物件图像的一尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议。在某些实施方式中,步骤S807包含一步骤以依据该多个物件图像的该多个尺寸,将该多个物件图像区分为多个群组,再包含另一步骤借由统计各该群组的该多个物件图像的该多个无效层起始编号以决定各该群组的该特征图提取建议。步骤S807所决定的不同物件尺寸的特征图提取建议可供卷积神经网络的训练阶段或辨识阶段使用。
在某些实施方式中,步骤S801的该卷积神经网络为一深度分离卷积神经网络(depth-wise separable convolution neural network),该特征决定方法还会透过图9所示的步骤S901至步骤S903产生一混合式卷积神经网络。
在步骤S901,由该电子装置借由统计该多个无效起始层编号以决定一转换层编号。接着,在步骤S903,由该电子装置根据该转换层编号产生具有多个卷积层的一混合式卷积神经网络作为一物件检测模型,其中该混合式卷积神经网络中低于该转换层编号的该多个卷积层采用一深度分离卷积架构,且不低于该转换层编号的该多个卷积层采用一常态卷积架构。在某些实施方式中,该深度分离卷积神经网络的各该卷积层包含一深度卷积(depth-wise convolution)运算及一逐点卷积(point-wise convolution)运算。
除了上述步骤,第二实施方式亦能执行第一实施方式所描述的特征决定装置3的所有操作及步骤,具有同样的功能,且达到同样的技术效果。本领域的技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等操作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
需要说明的是,在本发明的说明书及权利要求书中,某些用语(包含:卷积层及特征图)前被冠以“第一”或“第二”,该多个“第一”及“第二”仅用来区分不同的用语。例如:第一卷积层及第二卷积层中的“第一”及“第二”仅用来表示不同阶段所使用的预设门槛值。
综上所述,本发明所提供的适应多物件尺寸的特征决定技术(至少包含装置及方法)借由分析多张物件图像在卷积神经网络的各卷积层的特征图的特征量,判断各该物件图像的无效层起始编号,再根据各该物件图像的尺寸及各该物件图像所对应的该无效层起始编号,决定各个物件尺寸对应的特征图提取建议。本发明所提供的适应多物件尺寸的特征决定技术借由提供不同物件尺寸的特征图提取建议,因而解决已知技术可能提取到无效的特征图,或是仅提取固定于某一(或某些)卷积层的特征图所造成的无意义运算的问题。另外,本发明所提供的适应多物件尺寸的特征决定技术还借由统计无效起始层编号,产生一混合式卷积神经网络作为一图像物件检测模型。借由提供一个同时具有分离卷积架构及常态卷积架构的混合式卷积神经网络,可达到轻量化的效果,且以混合式卷积神经网络作为图像物件检测模型可有效地提升物件检测及辨识的准确率。
上述实施方式仅用来例举本发明的部分实施态样,以及阐释本发明的技术特征,而非用来限制本发明的保护范畴及范围。任何本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,而本发明的权利保护范围以权利要求书为准。

Claims (14)

1.一种适应多物件尺寸的特征决定装置,其特征在于,包含:
一储存器,储存多张物件图像;
一处理器,电性连接至该储存器,且执行以下操作:
将各该物件图像输入具有多个第一卷积层的一卷积神经网络以产生各该物件图像所对应的多张第一特征图(feature map),其中各该第一特征图对应至该多个第一卷积层中的一个;
计算各该物件图像的各该第一特征图的一特征量;
根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号,其中各该无效层起始编号对应至该多个第一卷积层中的一个;以及
根据各该物件图像的一尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议,其中各该特征图提取建议对应至该多个第一卷积层的一部分。
2.如权利要求1所述的特征决定装置,其特征在于,该处理器借由执行以下操作以决定各该物件尺寸的该特征图提取建议:
依据该多个物件图像的该多个尺寸,将该多个物件图像区分为多个群组;以及
针对各该群组执行以下操作:
借由统计该群组的该多个物件图像的该多个无效层起始编号以决定该特征图提取建议。
3.如权利要求1所述的特征决定装置,其特征在于,各该特征量为对应的该第一特征图上的一非零细胞(cell)数与一总细胞数的一比例。
4.如权利要求1所述的特征决定装置,其特征在于,各该特征量为对应的该第一特征图上的一非零细胞(cell)数。
5.如权利要求1所述的特征决定装置,其特征在于,该处理器是借由将各该物件图像所对应的该多个特征量与该预设门槛值比对以判断各该物件图像的该无效层起始编号。
6.如权利要求1所述的特征决定装置,其特征在于,该卷积神经网络为一深度分离卷积神经网络(depth-wise separable convolution neural network),该处理器还执行以下操作:
借由统计该多个无效起始层编号以决定一转换层编号;以及
根据该转换层编号产生具有多个第二卷积层的一混合式卷积神经网络,其中低于该转换层编号的该多个第二卷积层采用一深度分离卷积架构,且不低于该转换层编号的该多个第二卷积层采用一常态卷积架构。
7.如权利要求6所述的特征决定装置,其特征在于,该深度分离卷积神经网络的各该第二卷积层包含一深度卷积(depth-wise convolution)运算及一逐点卷积(point-wiseconvolution)运算。
8.一种适应多物件尺寸的特征决定方法,其特征在于,该方法适用于一电子装置,该电子装置储存多张物件图像,该方法包含下列步骤:
将各该物件图像输入具有多个第一卷积层的一卷积神经网络以产生各该物件图像所对应的多张第一特征图(feature map),其中各该第一特征图对应至该多个第一卷积层中的一个;
计算各该物件图像的各该第一特征图的一特征量;
根据一预设门槛值及各该物件图像所对应的该多个特征量,判断各该物件图像的一无效层起始编号,其中各该无效层起始编号对应至该多个第一卷积层中的一个;以及
根据各该物件图像的一尺寸及各该物件图像所对应的该无效层起始编号,决定多个物件尺寸各自对应的一特征图提取建议,其中各该特征图提取建议对应至该多个第一卷积层的一部分。
9.如权利要求8所述的特征决定方法,其特征在于,决定各该物件尺寸的该特征图提取建议的该步骤包含:
依据该多个物件图像的该多个尺寸,将该多个物件图像区分为多个群组;以及
针对各该群组执行下列步骤:
借由统计该群组的该多个物件图像的该多个无效层起始编号以决定该特征图提取建议。
10.如权利要求8所述的特征决定方法,其特征在于,各该特征量为对应的该第一特征图上的一非零细胞(cell)数与一总细胞数的一比例。
11.如权利要求8所述的特征决定方法,其特征在于,各该特征量为对应的该第一特征图上的一非零细胞(cell)数。
12.如权利要求8所述的特征决定方法,其特征在于,判断各该物件图像的该无效层起始编号的该步骤是借由将各该物件图像所对应的该多个特征量与该预设门槛值比对以判断各该物件图像的该无效层起始编号。
13.如权利要求8所述的特征决定方法,其特征在于,该卷积神经网络为一深度分离卷积神经网络(depth-wise separable convolution neural network),该方法还包含下列步骤:
借由统计该多个无效起始层编号以决定一转换层编号;以及
根据该转换层编号产生具有多个第二卷积层的一混合式卷积神经网络,其中低于该转换层编号的该多个第二卷积层采用一深度分离卷积架构,且不低于该转换层编号的该多个第二卷积层采用一常态卷积架构。
14.如权利要求13所述的特征决定方法,其特征在于,该深度分离卷积神经网络的各该第二卷积层包含一深度卷积(depth-wise convolution)运算及一逐点卷积(point-wiseconvolution)运算。
CN201811382941.0A 2018-11-09 2018-11-20 适应多物件尺寸的特征决定装置及方法 Active CN111178367B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107139866 2018-11-09
TW107139866A TWI717655B (zh) 2018-11-09 2018-11-09 適應多物件尺寸之特徵決定裝置及方法

Publications (2)

Publication Number Publication Date
CN111178367A true CN111178367A (zh) 2020-05-19
CN111178367B CN111178367B (zh) 2023-02-24

Family

ID=70551824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811382941.0A Active CN111178367B (zh) 2018-11-09 2018-11-20 适应多物件尺寸的特征决定装置及方法

Country Status (3)

Country Link
US (1) US11037016B2 (zh)
CN (1) CN111178367B (zh)
TW (1) TWI717655B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
US12008740B2 (en) 2020-08-12 2024-06-11 Niantic, Inc. Feature matching using features extracted from perspective corrected image
US11964654B2 (en) * 2020-10-30 2024-04-23 GM Global Technology Operations LLC Spatially invariant 3D convolutional network over spherical coordinate input
KR20220132375A (ko) * 2021-03-23 2022-09-30 현대모비스 주식회사 차량 영상의 화소를 분류하는 행렬 곱셈 가속기에 최적화된 임베디드 의미 분할 네트워크 장치
TWI771098B (zh) * 2021-07-08 2022-07-11 國立陽明交通大學 路側單元之雷達系統之狀態之錯誤診斷系統及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194318A (zh) * 2017-04-24 2017-09-22 北京航空航天大学 目标检测辅助的场景识别方法
CN107506763A (zh) * 2017-09-05 2017-12-22 武汉大学 一种基于卷积神经网络的多尺度车牌精准定位方法
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法
WO2018191155A1 (en) * 2017-04-12 2018-10-18 Here Global B.V. Small object detection from a large image

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HUP1200018A2 (en) * 2012-01-11 2013-07-29 77 Elektronika Mueszeripari Kft Method of training a neural network, as well as a neural network
US9047666B2 (en) * 2013-03-12 2015-06-02 Futurewei Technologies, Inc. Image registration and focus stacking on mobile platforms
CN105303508B (zh) 2014-07-04 2019-06-14 腾讯科技(深圳)有限公司 图片处理方法及装置
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US11157814B2 (en) 2016-11-15 2021-10-26 Google Llc Efficient convolutional neural networks and techniques to reduce associated computational costs
JP6915349B2 (ja) * 2017-04-04 2021-08-04 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
TWI643137B (zh) * 2017-04-21 2018-12-01 潘品睿 物件辨識方法及物件辨識系統
TWI636404B (zh) * 2017-07-31 2018-09-21 財團法人工業技術研究院 深度神經網路、使用深度神經網路的方法與電腦可讀媒體
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
CN108154194B (zh) 2018-01-18 2021-04-30 北京工业大学 一种用基于张量的卷积网络提取高维特征的方法
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US10646156B1 (en) * 2019-06-14 2020-05-12 Cycle Clarity, LLC Adaptive image processing in assisted reproductive imaging modalities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018191155A1 (en) * 2017-04-12 2018-10-18 Here Global B.V. Small object detection from a large image
CN107194318A (zh) * 2017-04-24 2017-09-22 北京航空航天大学 目标检测辅助的场景识别方法
CN107506763A (zh) * 2017-09-05 2017-12-22 武汉大学 一种基于卷积神经网络的多尺度车牌精准定位方法
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法

Also Published As

Publication number Publication date
US11037016B2 (en) 2021-06-15
US20200151492A1 (en) 2020-05-14
TWI717655B (zh) 2021-02-01
CN111178367B (zh) 2023-02-24
TW202018659A (zh) 2020-05-16

Similar Documents

Publication Publication Date Title
CN111178367B (zh) 适应多物件尺寸的特征决定装置及方法
US10692218B2 (en) Method and system of detecting image tampering, electronic device and storage medium
CN108388879B (zh) 目标的检测方法、装置和存储介质
US8792722B2 (en) Hand gesture detection
US8750573B2 (en) Hand gesture detection
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
US20180018503A1 (en) Method, terminal, and storage medium for tracking facial critical area
CN107871130A (zh) 图像处理
CN107622489B (zh) 一种图像篡改检测方法及装置
CN109284700B (zh) 图像中多个人脸检测的方法、存储介质、设备及系统
CN113569968B (zh) 模型训练方法、目标检测方法、装置、设备及存储介质
Luo et al. Traffic analytics with low-frame-rate videos
KR20160072676A (ko) 객체 검출 장치 및 방법과, 컴퓨터 보조 진단 장치 및 방법
CN109598301B (zh) 检测区域去除方法、装置、终端和存储介质
CN112597995B (zh) 车牌检测模型训练方法、装置、设备及介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN115062186B (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN112818774A (zh) 一种活体检测方法及装置
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN117095198A (zh) 遥感图像检索网络训练方法、应用方法、电子设备及介质
CN109726621B (zh) 行人检测方法、装置及设备
CN110969640A (zh) 视频图像的分割方法、终端设备以及计算机可读存储介质
CN112966762A (zh) 一种野生动物检测方法、装置、存储介质及电子设备
CN111898570A (zh) 基于双向特征金字塔网络的图像中文本识别方法
CN115641573B (zh) 一种文本排序方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant