CN112115760A - 物件检测系统及物件检测方法 - Google Patents
物件检测系统及物件检测方法 Download PDFInfo
- Publication number
- CN112115760A CN112115760A CN202010353848.8A CN202010353848A CN112115760A CN 112115760 A CN112115760 A CN 112115760A CN 202010353848 A CN202010353848 A CN 202010353848A CN 112115760 A CN112115760 A CN 112115760A
- Authority
- CN
- China
- Prior art keywords
- object detection
- output
- layer
- convolutional
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 118
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 81
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种物件检测系统及物件检测方法,其中物件检测系统包含影像获取装置、存储器及处理器。影像获取装置用以获取影像。存储器存储对应推论引擎的指令,推论引擎配适于具多重阶层的卷积神经网络结构,其包含第一及第二阶层与物件检测层。处理器用以执行指令以:降低第二阶层的多个卷积层的网络宽度;根据调整后的卷积神经网络结构运行推论引擎,使第一阶层接收影像为初始输入;输入第一阶层根据初始输入产生的第一输出至第二阶层以及物件检测层;输入第二阶层根据第一输出产生的第二输出至物件检测层;以及物件检测层根据第一输出及第二输出产生最终输出以对影像进行物件检测。借此,可在运算速度提升的前提下维持检测准确率。
Description
技术领域
本公开涉及一种物件检测系统及物件检测方法,尤为一种基于卷积神经网络结构的物件检测系统及物件检测方法。
背景技术
众所皆知地,类神经网络(Neural Network)需要大量的数据运算。在现有技术中,可于数据中心(Data Center)的电脑内配置额外的影像处理器(GPU)或其他种类的加速装置,例如现场可程序化逻辑门阵列(FPGA)。然后,边缘装置(Edge Device)可通过网络通信技术(例如:Wi-Fi、Ethernet)与数据中心的电脑通信耦接,并将影像传输至数据中心。数据中心的电脑可根据类神经网络进行运算,再将结果传输回边缘装置。在这种系统配置下,边缘装置获取运算结果的速度不佳,难以满足各种应用程序的需求。
发明内容
为了解决前述问题,本公开提出下列的实施方式,使物件检测程序能优选地运行于边缘装置上。
本公开的一实施方式涉及一种物件检测系统。该物件检测系统至少包含一影像获取装置、一存储器以及一处理器,该存储器以及该影像获取装置耦接于该处理器。该影像获取装置用以获取一影像。该存储器用以存储对应于一推论引擎的至少一指令,该推论引擎配适于具有多重阶层的一卷积神经网络结构,该卷积神经网络结构的该多重阶层包含接收一初始输入的一第一阶层、连接于该第一阶层的一第二阶层以及连接于该第二阶层的一物件检测层,其中该第一阶层的多个第一卷积层对应一第一网络宽度且该第二阶层的多个第二卷积层对应一第二网络宽度。该处理器用以自该存储器存取并执行该至少一指令以执行以下步骤:调整该卷积神经网络结构以降低该些第二卷积层的该第二网络宽度;根据调整后的该卷积神经网络结构运行该推论引擎,使该第一阶层接收该影像,其中该影像为该初始输入;该第一阶层根据该初始输入产生一第一输出,并将该第一输出输入该第二阶层以及该物件检测层;该第二阶层根据该第一输出产生一第二输出,并将该第二输出输入该物件检测层;以及该物件检测层根据该第一输出以及该第二输出产生一最终输出以对该影像进行物件检测。
在本公开的一实施例中,该卷积神经网络结构的该多重阶层还包含介于该第二阶层以及该物件检测层之间的一第三阶层,该第三阶层根据该第二阶层的该第二输出产生一第三输出,并将该第三输出输入该物件检测层,使该物件检测层根据该第一输出、该第二输出以及该第三输出产生该最终输出。
在本公开的一实施例中,该处理器调整该卷积神经网络结构以降低所述多个第二卷积层的该第二网络宽度为减半该第二网络宽度。
在本公开的一实施例中,该处理器更用以自该存储器存取并执行该至少一指令以:调整该卷积神经网络结构以降低所述多个第一卷积层的该第一网络宽度;以及由所述多个第一卷积层中的一最后卷积层产生该第一输出,其中该第一输出为所述多个第一卷积层中的至少二者的一串连输出,所述多个第一卷积层中的该至少二者依序连接于该最后卷积层之前。
在本公开的一实施例中,该处理器调整该卷积神经网络结构以降低该第一网络宽度是指减半该第一网络宽度。
在本公开的一实施例中,所述多个第一卷积层中的该至少二者的数量为四。
在本公开的一实施例中,该第一输出的一第一分辨率大于该第二输出的一第二分辨率。
在本公开的一实施例中,该卷积神经网络结构为一种单次多框检测器。
在本公开的一实施例中,该影像的信息包含三原色值、深度信息以及非可见光值。
本公开的另一实施方式涉及一种物件检测方法。该物件检测方法由一处理器所执行。该物件检测方法至少包含以下步骤:存取对应于一推论引擎的至少一指令,其中该推论引擎配适于具有多重阶层的一卷积神经网络结构,该卷积神经网络结构的该多重阶层包含接收一初始输入的一第一阶层、连接于该第一阶层的一第二阶层以及连接于该第二阶层的一物件检测层,其中该第一阶层的多个第一卷积层对应一第一网络宽度且该第二阶层的多个第二卷积层对应一第二网络宽度;调整该卷积神经网络结构以降低该些第二卷积层的该第二网络宽度;根据调整后的该卷积神经网络结构运行该推论引擎,使该第一阶层接收一影像,其中该影像为该初始输入;该第一阶层根据该初始输入产生一第一输出,并将该第一输出输入该第二阶层以及该物件检测层;该第二阶层根据该第一输出产生一第二输出,并将该第二输出输入该物件检测层;以及该物件检测层的根据该第一输出以及该第二输出产生一最终输出以对该影像进行物件检测。
在本公开的一实施例中,所述的物件检测方法还包含:调整该卷积神经网络结构以降低所述多个第一卷积层的该第一网络宽度;以及由所述多个第一卷积层中的一最后卷积层产生该第一输出,其中该第一输出为所述多个第一卷积层中的至少二者的一串连输出,所述多个第一卷积层中的该至少二者依序连接于该最后卷积层之前。
因此,根据本公开的前述实施方式,本公开至少提供一种物件检测系统以及物件检测方法,可在运算速度提升的前提下维持检测准确率。
附图说明
参照后续段落中的实施方式以及下列附图,当可更佳地理解本发明的内容:
图1是基于本公开一些实施例所示出的物件检测系统的示意图;
图2是基于本公开一些实施例所示出的物件检测方法的流程图;
图3是基于本公开一些实施例所示出的卷积神经网络结构的示意图;
图4是基于本公开一些实施例所示出的卷积神经网络结构的部分示意图;
图5为基于本公开一些实施例所示出的卷积神经网络结构的部分示意图;以及
图6为基于本公开一些实施例所示出的卷积神经网络结构的部分示意图。
附图标记说明:
100:物件检测系统
110:存储器
120:处理器
130:影像获取装置
200:物件检测方法
S201~S205:步骤流程
N:卷积神经网络结构
SC1~SC6:阶层
SC7:物件检测层
INP:初始输入
OP1~OP6:输出
C1~C15:卷积层
具体实施方式
以下将以附图及详细叙述清楚说明本公开的构思,任何所属技术领域中技术人员在了解本公开的实施例后,当可由本公开所教示的技术,加以改变及修饰,其并不脱离本公开的构思与范围。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,意指包含但不限于。
关于本文中所使用的用词(terms),除有特别注明外,通常具有每个用词使用在此领域中、在本公开的内容中与特殊内容中的平常意义。某些用以描述本公开的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本公开的描述上额外的引导。
请参照图1,其为基于本公开一些实施例所示出的物件检测系统的示意图。如图1所示,在一些实施例中,物件检测系统100包含存储器110以及处理器120,存储器110电性/通信耦接于处理器120。在又一些实施例中,物件检测系统100还包含一影像获取装置130,影像获取装置130电性/通信耦接于处理器120。
在一些实施例中,物件检测系统100当中的存储器110、处理器120以及影像获取装置130可共同设置于一处以构成可独立运行的边缘装置(EdgeDevice)。在一些实施例中,物件检测系统100的影像获取装置130主要用以获取影像(或连续的影像串流),使处理器120可根据存储器中所存储的指令以处理影像获取装置130所获取的影像,以实现物件检测系统100的功能。
应理解,本公开所称的“电性耦接”或“通信耦接”可为实体或非实体的耦接。例如,在一些实施例中,处理器120可以通过无线通信技术耦接至存储器110,借此两者可进行双向的信息交换。在一些实施例中,存储器110以及处理器120可以通过实体线路耦接,借此两者亦可进行双向的信息交换。前述实施例皆可称作“电性耦接”或“通信耦接”。
在一些实施例中,存储器110可为包含但不限于快闪(flash)存储器、硬盘(HDD)、固态硬盘(SSD)、动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)当中的一者或其组合。在一些实施例中,作为一种非暂态电脑可读取媒体,存储器110还可存储至少一电脑可读取指令,至少一电脑可读取指令可供处理器120存取,处理器120可执行至少一电脑可读取指令以运行一应用程序,借此实现物件检测系统100的功能。
在一些实施例中,处理器120可包含但不限于单一处理器或多个微处理器的集成,例如,中央处理器(CPU)、绘图处理器(GPU)或特殊应用电路(ASIC)等。承前所述,在一些实施例中,处理器120可用以自存储器110存取并执行至少一电脑可读取指令,借此运行应用程序,进而实现物件检测系统100的功能。
在一些实施例中,影像获取装置130可包含但不限于一般用途光学摄影机、红外线摄影机、深度摄影机或可调式摄影机等。在一些实施例中,影像获取装置130为可单独运行的装置,其可独自获取并存储影像串流。在一些实施例中,影像获取装置130可获取影像串流,并将影像串流存储至存储器110。在一些实施例中,影像获取装置130可获取影像串流,由处理器120处理后存储至存储器110。
为了更佳地理解本公开,由处理器120运行的应用程序的内容将于下面段落中详细解释。
请参照图2,其为基于本公开一些实施例所示出的物件检测方法的流程图。如图2所示,在一些实施例中,物件检测方法200由图1的物件检测系统100的处理器120所实施。为了更佳地理解下面实施例,请一并参照图1的实施例,以理解物件检测系统100当中各单元的运行。
详细而言,图2所示的物件检测方法200即为图1的实施例所述的应用程序,其是由处理器120自存储器110读取并执行至少一电脑可读取指令以运行。在一些实施例中,物件检测方法200的详细步骤如下所示。
S201:存取对应于推论引擎的至少一指令,其中推论引擎配适于具有多重阶层的卷积神经网络结构,卷积神经网络结构的多重阶层包含第一阶层、连接于第一阶层的第二阶层以及连接于第二阶层的物件检测层,其中第一阶层的多个第一卷积层对应第一网络宽度且第二阶层的多个第二卷积层对应第二网络宽度。
在一些实施例中,处理器120可执行至少一电脑可读取指令以运行基于一卷积神经网络结构(Convolutional Neural Network Architecture)的一推论引擎(InferenceEngine)。在一些实施例中,推论引擎为一种物件检测程序,其功能为对影像中的特定物件进行物件检测。
为了更佳地理解,请参照图3。图3为基于本公开一些实施例所示出的卷积神经网络结构的示意图。图3示出了具有多重阶层(Multi-Scale)的卷积神经网络结构N。在一些实施例中,卷积神经网络结构N至少具有阶层SC1~SC6以及物件检测层SC7。应注意的是,本公开的卷积神经网络结构并不以此为限。
在一些实施例中,阶层SC1~SC6可各自包含多个运算层,例如:卷积层(Convolution Layers)。在一些实施例中,阶层SC1~SC6亦可根据需求选择性地包含池化层(Pooling Layers)或激励函数(Activation Function)。
在一些实施例中,每个卷积层可根据具有特定形状(Shape)的过滤器(Filter)对其输入值进行卷积运算,卷积运算产生的结果即为卷积层的输出值。应注意的是,各卷积层的过滤器形状可理解为通过不同的特征萃取(Feature Extract)方式对此层的输入值进行运算。应理解,阶层SC1~SC6包含的卷积层可具有相同/不同的过滤器形状,使每个卷积层具有相同/不同的网络宽度(Width)。卷积神经网络结构N的设计者可根据需求决定各卷积层的过滤器形状,以控制各卷积层的网络宽度。
如图3所示,在一些实施例中,阶层SC1可用以接收初始输入INP。初始输入INP经阶层SC1进行卷积运算后产生输出值OP1。输出值OP1将被输入至阶层SC2,以作为阶层SC2的输入值。输出值OP1经阶层SC2进行卷积运算后产生输出值OP2。输出值OP2将被输入至阶层SC3,以作为阶层SC3的输入值。关于其余输出值OP3~OP6的产生方式皆同上所述,于此不再赘述。
在一些实施例中,初始输入INP可为关联于一影像的信息,其中所述的影像的信息可以包含三原色值、深度信息以及非可见光值。
在一些实施例中,影像的尺寸为224*224*3,各数值分别用以表示影像的长、宽以及通道(Channel)数,其中影像的长及宽可表示影像的分辨率(Resolution),影像的通道数是对应于影像的特征值,例如为影像的三原色(Red,Green,Blue)值。于本实施例中,后续将以网络宽度来代表影像的特征值。若阶层SC1的第一个卷积层使用的过滤器形状为3*3*3*64,此卷积层的网络宽度为64,影像经此卷积层进行卷积运算后获得的输出值尺寸为112*112*64。由此可见,经由卷积层对输入值进行卷积运算后,输出值的前两数值降低(即,分辨率降低),但宽度增加。亦即,若将阶层SC1~SC6依序产生的输出值OP1~OP6理解为影像,输出值OP1~OP6的分辨率依序递减,输出值OP6具有最小的分辨率。
在一些实施例中,根据卷积神经网络结构N当中各卷积层对应的相同/不同网络宽度,各卷积层的输出值尺寸可相同/不同。如图3所示,阶层SC1~SC6当中各卷积层的网络宽度大致呈递增排列(例如:3、32、64、128、256、512、1024、……等),且阶层SC1~SC6中包含某些连续卷积层可具有相同的网络宽度(例如:依序为3、32、32、64、64、128、128、128、128、256、256、……等)。亦即,阶层SC1的卷积层的网络宽度小于阶层SC2当中的卷积层的网络宽度,阶层SC2当中的卷积层的网络宽度小于阶层SC3的卷积层的网络宽度。其余阶层的网络宽度可依此类推,于此不再赘述。
应注意的是,如图3所示,阶层SC1~SC5各自产生的输出OP1~OP5除了直接输入至下一阶层外,亦直接输入至物件检测层SC7。因此,图3的卷积神经网络结构N为一种单次多框检测器(Single Shot Multi-Box Detector,SSD)。在一些实施例中,如图3所示的卷积神经网络结构N可通过MobileNet框架或Resnext框架实施,但本公开并不以此为限。
S202:调整卷积神经网络结构以降低第二卷积层的第二网络宽度。
应理解,利用卷积神经网络结构N进行物件检测的实验结果显示,若将卷积神经网络结构N整体的网络宽度降低,可有效地提升物件检测的运算速度。然而,实验结果亦显示,若卷积神经网络结构N的整体网络宽度降低,将导致检测准确率(Accuracy)降低。
实验结果又显示,当卷积神经网络结构N被使用于检测影像当中相对尺寸较小的物件时,卷积神经网络结构N中的浅阶层(即较靠近初始输入的阶层)的网络宽度对于检测准确率将产生较大的影响。例如,当图3所示的卷积神经网络结构N被使用于检测影像当中尺寸相对较小的物件时,阶层SC1的网络宽度对于整体检测准确率产生的影响最大。应注意的是,此处所述的某物件的尺寸“相对较小”,是指此物件于影像中占据的比例(例如:像素数比例)与其他物件于影像中占据的比例相比具有较低的数值。
为了更佳地理解本公开,请参阅图4。图4为基于本公开一些实施例所示出的卷积神经网络结构的部分示意图。在一些实施例中,卷积神经网络结构N的阶层SC1可包含多个具有不同网络宽度的卷积层C1~C7,卷积神经网络结构N的阶层SC2~SC6可包含卷积层C8~C15。应注意的是,图4所示出的卷积层C1~C15并非卷积神经网络结构N的全部卷积层,阶层SC1~SC6还可包含具有不同网络宽度的多个卷积层,而此图中已省略该些卷积层。
如图4所示,在一些实施例中,阶层SC1当中的卷积层C1~C2的网络宽度为32,卷积层C3~C7的网络宽度为128。应理解,卷积层C2与卷积层C3之间可能有若干网络宽度为64的卷积层被省略。在一些实施例中,阶层SC2~SC6当中的卷积层C8~C9的网络宽度为256,卷积层C10~C11的网络宽度为512,卷积层C12~C15的网络宽度为1024。应理解,卷积层C9与卷积层C10之间可能有若干网络宽度为256、512的卷积层被省略。由此可见,卷积神经网络结构N的网络宽度沿着阶层SC1~SC6的方向逐渐增加。承前所述,卷积神经网络结构N为单次多框检测器,卷积层C7为阶层SC1的最后一个运算层,因此,其输出值同时被输入至阶层SC2的第一个卷积层C8及物件检测层SC7。
在一些实施例中,处理器120可根据至少两种策略来调整阶层SC1~SC6当中的多个卷积层对应的网络宽度,以求在较高的运算速度下增加小物件的检测强度,进而提高整体的检测准确率。
第一策略:整体性地减少阶层SC2~SC6当中各卷积层的网络宽度,但维持阶层SC1的网络宽度。为了更佳地理解本公开,请参阅图5,其为基于本公开一些实施例所示出的卷积神经网络结构的部分示意图。
如图5所示,在一些实施例中,相较于图4的实施例,处理器120维持卷积层C1~C2的网络宽度为32,维持卷积层C3~C7的网络宽度为128,并降低卷积层C8~C9的网络宽度为128,降低卷积层C10~C11的网络宽度为256,降低卷积层C12~C15的网络宽度为512。大致而言,相较于图4的实施例,卷积神经网络结构N当中阶层SC2~SC6的网络宽度减半,阶层SC1的网络宽度则维持。
第二策略:整体性地减少阶层SC1~SC6当中各卷积层的网络宽度,但以串连方式(Concat)增加阶层SC1的输出值的网络宽度。为了更佳地理解本公开,请参阅图6,其为基于本公开一些实施例所示出的卷积神经网络结构的部分示意图。
如图6所示,相较于图4的实施例,处理器120整体性地降低阶层SC1~SC6的网络宽度,但增加阶层SC1当中至少一卷积层的网络宽度。在一些实施例中,处理器120可降低卷积层C1~C2的网络宽度为16,降低卷积层C3~C6的网络宽度为64,并以卷积层C3~C6的输出值的累加值作为卷积层C7的输出值,因此,卷积层C7的网络宽度被改变为256(即64+64+64+64),并降低卷积层C8~C9的网络宽度为128,降低卷积层C10~C11的网络宽度为256,降低卷积层C12~C15的网络宽度为512。相较于图4的实施例,卷积神经网络结构N当中的阶层SC1~SC6的网络宽度整体减半,仅阶层SC1当中的卷积层C7的网络宽度显著增加。
在一些实施例中,处理器120可根据前述两种策略中的至少一种来调整卷积神经网络结构N的阶层SC1~SC6,使阶层SC2~SC6的网络宽度减少,但阶层SC1当中至少有一卷积层(例如:输出至物件检测层SC7的卷积层C7)的网络宽度大于阶层SC2~SC6中的其他卷积层。
S203:根据调整后的卷积神经网络结构运行推论引擎,使第一阶层接收影像作为初始输入。
在一些实施例中,物件检测系统100的处理器120可执行至少一电脑可读取指令以运行基于调整后的卷积神经网络结构N的推论引擎,推论引擎可用以对影像获取装置130所获取的影像进行物件检测。承前所述,如图3所示,当推论引擎运行时,影像获取装置130所获取的影像可作为初始输入INP,由卷积神经网络结构N的阶层SC1所接收。
S204:第一阶层根据初始输入产生第一输出并输入至第二阶层以及物件检测层,第二阶层根据第一输出产生第二输出并输入物件检测层。
在一些实施例中,当推论引擎运行时,卷积神经网络结构N的阶层SC1接收初始输入INP,由阶层SC1中的各卷积层进行卷积运算。如图5、图6所示,初始输入INP将被输入至卷积层C1,其输出值再依序地经由卷积层C2~C15进行卷积运算。如图4所示,阶层SC1产生的输出OP1除了直接被输入阶层SC2外,亦直接被输入至物件检测层SC7。同样地,阶层SC2~SC5产生的输出OP2~OP5除了直接被输入下一阶层外,亦直接被输入至物件检测层SC7。
详细而言,若将阶层SC1视为一第一阶层,并将阶层SC2视为一第二阶层。阶层SC1(即第一阶层)根据初始输入INP运算而产生输出OP1,输出OP1将被输入阶层SC2及物件检测层SC7。阶层SC2(即第二阶层)则根据输出OP1运算而产生输出OP2,输出OP2将被输入阶层SC3及物件检测层SC7。同理地,阶层SC3~SC6中的每一阶层皆是根据上一阶层的输出运算而产生其自身阶层的输出,且此输出将被输入至下一阶层及物件检测层SC7,其运算方式可依此类推。
S205:物件检测层根据第一输出以及第二输出产生最终输出,以根据最终输出对影像进行物件检测。
在一些实施例中,卷积神经网络结构N的物件检测层SC7包含至少一全连接层(Fully-Connected Layer)。应理解,物件检测层SC7主要用以接收阶层SC1~SC6的输出值OP1~OP6,并根据输出值OP1~OP6运算,以产生对应的物件检测结果。
应理解,使用调整后的卷积神经网络结构N运行的推论引擎具有较高的运算速度,且其物件检测准确率得以提升/维持。实验显示处理器120根据调整前的卷积神经网络结构N及调整后的卷积神经网络结构N运行推论引擎的对比结果如下:根据调整前的卷积神经网络结构N运行推论引擎时,处理时间为276毫秒(ms),检测准确率为63%;根据以第一策略调整的卷积神经网络结构N运行推论引擎时,运算速度处理时间为170毫秒,检测准确率为70%;根据以第二策略调整的卷积神经网络结构N运行推论引擎时,处理时间为149毫秒,检测准确率为63%。由实验结果可见,以调整后的卷积神经网络结构N运行推论引擎,其运算速度显著提升,且检测准确率大致高于调整前的卷积神经网络结构N。
在一些实施例中,物件检测系统100的影像获取装置130可持续获取影像以产生一影像串流。当处理器120运行推论引擎时,影像串流的每一帧可连续地作为初始输入INP被输入卷积神经网络结构N,由阶层SC1~SC6中的运算层所接收,并由物件检测层SC7产生对应的物件检测结果。借此,物件检测系统100可实现于影像串流中“追踪”特定物件的功能。
应理解,在前述实施例中,本公开的物件检测系统100具有多个功能方块或模块。本领域中技术人员应当理解,在一些实施例中,优选地,该些功能方块或模块可通过特定电路(包含在一或多个处理器以及编码指令下操作的专用电路或通用电路)以实现。一般而言,特定电路可包含晶体管或其他电路元件,以前述实施例中的方式配置,使特定电路可根据本公开所述的功能以及操作运行。进一步地,特定电路当中的功能方块或模块间的协作程序可由特定编译器(compiler)所实现,例如,暂存器传送语言(Register TransferLanguage,RTL)编译器。然而,本公开并不以此为限。
由前述本公开实施方式可知,本公开实施例通过提供一种物件检测系统、方法以及非暂态电脑可读取媒体,可有效地运行于边缘装置上。通过调整后的卷积神经网络结构运行推论引擎,边缘装置可独立地对影像中的特定物件进行检测及追踪,并在增加运算速度的前提下维持检测准确率。
虽然本公开以实施例公开如上,然其并非用以限定本公开,任何本领域技术人员,在不脱离本公开的构思和范围内,当可作各种的变动与润饰,因此本公开的保护范围当视权利要求所界定者为准。
Claims (11)
1.一种物件检测系统,其特征在于,包含:
一影像获取装置,用以获取一影像;
一存储器,用以存储对应于一推论引擎的至少一指令,该推论引擎配适于具有多重阶层的一卷积神经网络结构,该卷积神经网络结构的该多重阶层包含接收一初始输入的一第一阶层、连接于该第一阶层的一第二阶层以及连接于该第二阶层的一物件检测层,其中该第一阶层的多个第一卷积层对应一第一网络宽度且该第二阶层的多个第二卷积层对应一第二网络宽度;以及
一处理器,耦接于该存储器以及该影像获取装置,该处理器用以自该存储器存取并执行该至少一指令以:
调整该卷积神经网络结构以降低所述多个第二卷积层的该第二网络宽度;
根据调整后的该卷积神经网络结构运行该推论引擎,使该第一阶层接收该初始输入,其中该初始输入为该影像的信息;
该第一阶层根据该初始输入产生一第一输出,并将该第一输出输入该第二阶层以及该物件检测层;
该第二阶层根据该第一输出产生一第二输出,并将该第二输出输入该物件检测层;以及
该物件检测层根据该第一输出以及该第二输出产生一最终输出以对该影像进行物件检测。
2.如权利要求1所述的物件检测系统,其特征在于,该卷积神经网络结构的该多重阶层还包含介于该第二阶层以及该物件检测层之间的一第三阶层,该第三阶层根据该第二阶层的该第二输出产生一第三输出,并将该第三输出输入该物件检测层,使该物件检测层根据该第一输出、该第二输出以及该第三输出产生该最终输出。
3.如权利要求1所述的物件检测系统,其特征在于,该处理器调整该卷积神经网络结构以降低所述多个第二卷积层的该第二网络宽度为减半该第二网络宽度。
4.如权利要求1所述的物件检测系统,其特征在于,该处理器更用以自该存储器存取并执行该至少一指令以:
调整该卷积神经网络结构以降低所述多个第一卷积层的该第一网络宽度;以及
由所述多个第一卷积层中的一最后卷积层产生该第一输出,其中该第一输出为所述多个第一卷积层中的至少二者的一串连输出,所述多个第一卷积层中的该至少二者依序连接于该最后卷积层之前。
5.如权利要求4所述的物件检测系统,其特征在于,该处理器调整该卷积神经网络结构以降低该第一网络宽度是指减半该第一网络宽度。
6.如权利要求4所述的物件检测系统,其特征在于,所述多个第一卷积层中的该至少二者的数量为四。
7.如权利要求1所述的物件检测系统,其特征在于,该第一输出的一第一分辨率大于该第二输出的一第二分辨率。
8.如权利要求1所述的物件检测系统,其特征在于,该卷积神经网络结构为一种单次多框检测器。
9.如权利要求1所述的物件检测系统,其特征在于,该影像的信息包含三原色值、深度信息以及非可见光值。
10.一种物件检测方法,由一处理器所执行,其特征在于,包含:
存取对应于一推论引擎的至少一指令,其中该推论引擎配适于具有多重阶层的一卷积神经网络结构,该卷积神经网络结构的该多重阶层包含接收一初始输入的一第一阶层、连接于该第一阶层的一第二阶层以及连接于该第二阶层的一物件检测层,其中该第一阶层的多个第一卷积层对应一第一网络宽度且该第二阶层的多个第二卷积层对应一第二网络宽度;
调整该卷积神经网络结构以降低所述多个第二卷积层的该第二网络宽度;
根据调整后的该卷积神经网络结构运行该推论引擎,使该第一阶层接收该初始输入,其中该初始输入为一影像的信息;
该第一阶层根据该初始输入产生一第一输出,并将该第一输出输入该第二阶层以及该物件检测层;
该第二阶层根据该第一输出产生一第二输出,并将该第二输出输入该物件检测层;以及
该物件检测层根据该第一输出以及该第二输出产生一最终输出以对该影像进行物件检测。
11.如权利要求10所述的物件检测方法,其特征在于,还包含:
调整该卷积神经网络结构以降低所述多个第一卷积层的该第一网络宽度;以及
由所述多个第一卷积层中的一最后卷积层产生该第一输出,其中该第一输出为所述多个第一卷积层中的至少二者的一串连输出,所述多个第一卷积层中的该至少二者依序连接于该最后卷积层之前。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108121565 | 2019-06-20 | ||
TW108121565A TWI738009B (zh) | 2019-06-20 | 2019-06-20 | 物件偵測系統及物件偵測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115760A true CN112115760A (zh) | 2020-12-22 |
CN112115760B CN112115760B (zh) | 2024-02-13 |
Family
ID=73799313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010353848.8A Active CN112115760B (zh) | 2019-06-20 | 2020-04-29 | 物件检测系统及物件检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11195083B2 (zh) |
CN (1) | CN112115760B (zh) |
TW (1) | TWI738009B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11694341B2 (en) * | 2019-12-23 | 2023-07-04 | Texas Instmments Incorporated | Cascaded architecture for disparity and motion prediction with block matching and convolutional neural network (CNN) |
US12079695B2 (en) * | 2020-10-01 | 2024-09-03 | Google Llc | Scale-permuted machine learning architecture |
CN114386578B (zh) * | 2022-01-12 | 2024-09-24 | 西安石油大学 | 一种海思无npu硬件上实现的卷积神经网络方法 |
CN117612231B (zh) * | 2023-11-22 | 2024-06-25 | 中化现代农业有限公司 | 人脸检测方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN107342810A (zh) * | 2017-07-03 | 2017-11-10 | 北京邮电大学 | 基于卷积神经网络的深度学习智能眼图分析方法 |
CN107370984A (zh) * | 2016-05-13 | 2017-11-21 | 和硕联合科技股份有限公司 | 接收影像的方法、提供影像的方法及电子装置 |
US9940534B1 (en) * | 2016-10-10 | 2018-04-10 | Gyrfalcon Technology, Inc. | Digital integrated circuit for extracting features out of an input image based on cellular neural networks |
US20180137406A1 (en) * | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
CN108307660A (zh) * | 2016-11-09 | 2018-07-20 | 松下知识产权经营株式会社 | 信息处理方法、信息处理装置以及程序 |
US20180268256A1 (en) * | 2017-03-16 | 2018-09-20 | Aquifi, Inc. | Systems and methods for keypoint detection with convolutional neural networks |
WO2018214195A1 (zh) * | 2017-05-25 | 2018-11-29 | 中国矿业大学 | 一种基于卷积神经网络的遥感图像桥梁检测方法 |
CN109214238A (zh) * | 2017-06-30 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 多目标跟踪方法、装置、设备及存储介质 |
US20190019020A1 (en) * | 2017-07-17 | 2019-01-17 | Open Text Corporation | Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques |
CN109300166A (zh) * | 2017-07-25 | 2019-02-01 | 同方威视技术股份有限公司 | 重建ct图像的方法和设备以及存储介质 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US20190073780A1 (en) * | 2017-09-07 | 2019-03-07 | Canon Kabushiki Kaisha | Image processing apparatus, alignment method and storage medium |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635949B2 (en) * | 2015-07-07 | 2020-04-28 | Xerox Corporation | Latent embeddings for word images and their semantics |
US10614354B2 (en) * | 2015-10-07 | 2020-04-07 | Altera Corporation | Method and apparatus for implementing layers on a convolutional neural network accelerator |
US20180007302A1 (en) * | 2016-07-01 | 2018-01-04 | Google Inc. | Block Operations For An Image Processor Having A Two-Dimensional Execution Lane Array and A Two-Dimensional Shift Register |
US10360470B2 (en) * | 2016-10-10 | 2019-07-23 | Gyrfalcon Technology Inc. | Implementation of MobileNet in a CNN based digital integrated circuit |
US10402688B2 (en) * | 2016-12-07 | 2019-09-03 | Kla-Tencor Corporation | Data augmentation for convolutional neural network-based defect inspection |
US10496781B2 (en) * | 2016-12-19 | 2019-12-03 | Kla Tencor Corporation | Metrology recipe generation using predicted metrology images |
CN107527031B (zh) * | 2017-08-22 | 2021-02-05 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
CN108537824B (zh) | 2018-03-15 | 2021-07-16 | 上海交通大学 | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 |
CN108520219B (zh) | 2018-03-30 | 2020-05-12 | 台州智必安科技有限责任公司 | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 |
-
2019
- 2019-06-20 TW TW108121565A patent/TWI738009B/zh active
-
2020
- 2020-04-29 CN CN202010353848.8A patent/CN112115760B/zh active Active
- 2020-06-11 US US16/898,552 patent/US11195083B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN107370984A (zh) * | 2016-05-13 | 2017-11-21 | 和硕联合科技股份有限公司 | 接收影像的方法、提供影像的方法及电子装置 |
US9940534B1 (en) * | 2016-10-10 | 2018-04-10 | Gyrfalcon Technology, Inc. | Digital integrated circuit for extracting features out of an input image based on cellular neural networks |
CN108307660A (zh) * | 2016-11-09 | 2018-07-20 | 松下知识产权经营株式会社 | 信息处理方法、信息处理装置以及程序 |
US20180137406A1 (en) * | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
US20180268256A1 (en) * | 2017-03-16 | 2018-09-20 | Aquifi, Inc. | Systems and methods for keypoint detection with convolutional neural networks |
WO2018214195A1 (zh) * | 2017-05-25 | 2018-11-29 | 中国矿业大学 | 一种基于卷积神经网络的遥感图像桥梁检测方法 |
CN109214238A (zh) * | 2017-06-30 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 多目标跟踪方法、装置、设备及存储介质 |
CN107342810A (zh) * | 2017-07-03 | 2017-11-10 | 北京邮电大学 | 基于卷积神经网络的深度学习智能眼图分析方法 |
US20190019020A1 (en) * | 2017-07-17 | 2019-01-17 | Open Text Corporation | Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques |
CN109300166A (zh) * | 2017-07-25 | 2019-02-01 | 同方威视技术股份有限公司 | 重建ct图像的方法和设备以及存储介质 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US20190073780A1 (en) * | 2017-09-07 | 2019-03-07 | Canon Kabushiki Kaisha | Image processing apparatus, alignment method and storage medium |
Also Published As
Publication number | Publication date |
---|---|
US11195083B2 (en) | 2021-12-07 |
TW202101370A (zh) | 2021-01-01 |
CN112115760B (zh) | 2024-02-13 |
US20200401871A1 (en) | 2020-12-24 |
TWI738009B (zh) | 2021-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115760B (zh) | 物件检测系统及物件检测方法 | |
US10803565B2 (en) | Low-light imaging using trained convolutional neural networks | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
KR102281017B1 (ko) | 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체 | |
CN110276767A (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
US11539896B2 (en) | Method and apparatus for dynamic image capturing based on motion information in image | |
CN112602088B (zh) | 提高弱光图像的质量的方法、系统和计算机可读介质 | |
CN109919992B (zh) | 估测图像中的深度的方法 | |
US11699064B2 (en) | Data processing using a neural network system | |
CN108053444B (zh) | 瞳孔定位方法及装置、设备和存储介质 | |
CN113658057A (zh) | 一种Swin Transformer微光图像增强方法 | |
WO2020210472A1 (en) | High-dynamic-range image generation with pre-combination denoising | |
CN106067955A (zh) | 用于图像传感器的读出电路 | |
CN104065937B (zh) | 用于cmos图像传感器的实时高速图像预处理方法 | |
US20230196721A1 (en) | Low-light video processing method, device and storage medium | |
CN118799468A (zh) | 图形渲染中的学习图像变换方法和系统 | |
EP3844945B1 (en) | Method and apparatus for dynamic image capturing based on motion information in image | |
US11525671B2 (en) | High contrast structured light patterns for QIS sensors | |
US10643312B2 (en) | Smoothed image generating device, abnormality determining device, and smoothed image generating method | |
CN104079799B (zh) | 影像移动检测方法、影像处理方法以及使用这些方法的装置 | |
WO2021094463A1 (en) | An imaging sensor, an image processing device and an image processing method | |
US20240311663A1 (en) | Inference device | |
JP2014123814A (ja) | 画像処理装置及び画像処理方法 | |
US20230370727A1 (en) | High dynamic range (hdr) image generation using a combined short exposure image | |
Dang et al. | Semantic segmentation of fashion photos using light-weight asymmetric U-Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |