CN109948637B - 对象检测装置、对象检测方法及计算机可读介质 - Google Patents
对象检测装置、对象检测方法及计算机可读介质 Download PDFInfo
- Publication number
- CN109948637B CN109948637B CN201711452081.9A CN201711452081A CN109948637B CN 109948637 B CN109948637 B CN 109948637B CN 201711452081 A CN201711452081 A CN 201711452081A CN 109948637 B CN109948637 B CN 109948637B
- Authority
- CN
- China
- Prior art keywords
- current
- confidence
- image
- classifier
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种对象检测装置、对象检测方法及计算机可读介质。对象检测方法包含:通过分类器产生当前彩色影像及当前灰阶影像;通过分类器将当前彩色影像代入类神经网络算法,以产生初始特征图;通过分类器依据当前灰阶影像的灰阶影像维度以调整初始特征图的当前维度,以产生调整特征图;通过分类器叠合调整特征图及当前灰阶影像,以计算类别信心度;通过分类器判断类别信心度是否大于信心阈值,若类别信心度大于信心阈值,则输出当前分类结果;以及通过储存装置储存当前分类结果。
Description
技术领域
本公开涉及一种对象检测装置、对象检测方法及计算机可读介质,尤其涉及一种应用类别信心度以检测对象的对象追踪装置、对象检测方法及计算机可读介质。
背景技术
目前应用于电子设备的对象追踪方法通常是利用预测下一个影像中目标对象的位置,并将目标对象用包围盒(bounding box)标记起来,其中包围盒是指将目标对象完全包容起来的一个封闭空间。举例而言,将影像中的目标对象进行分类,例如分类为车辆,以长方形作为包围盒框将影像中的车辆框起来。
目前,如何在保证检测辨识正确率的条件下,提供一种有效率的对象分类方法,已成为本领域待解决的问题之一。
发明内容
有鉴于此,本公开提供了一种对象检测装置、对象检测方法及计算机可读介质。
本公开的一个方面提供了一种对象检测装置。该对象检测装置包含分类器及储存装置。分类器用以产生当前彩色影像及当前灰阶影像,将当前彩色影像代入类神经网络算法,以产生初始特征图,依据当前灰阶影像的灰阶影像维度以调整初始特征图的当前维度,以产生调整特征图,叠合调整特征图及当前灰阶影像,以计算类别信心度,判断类别信心度是否大于信心阈值,若类别信心度大于该信心阈值,则输出当前分类结果。储存装置耦接于该分类器,用以储存当前分类结果。
本公开的另一个方面提供了一种对象检测方法。该对象检测方法包含以下步骤。通过分类器产生当前彩色影像及当前灰阶影像。通过分类器将当前彩色影像代入类神经网络算法,以产生初始特征图。通过分类器依据当前灰阶影像的灰阶影像维度以调整初始特征图的当前维度,以产生调整特征图。通过分类器叠合调整特征图及当前灰阶影像,以计算类别信心度。通过分类器判断类别信心度是否大于信心阈值,若类别信心度大于信心阈值,则输出当前分类结果。通过储存装置储存当前分类结果。
本公开的另一个方面提供了一种计算机可读介质。计算机可读介质具有多个程序指令以执行对象检测方法。该对象检测方法包括以下步骤。通过分类器产生当前彩色影像及当前灰阶影像。通过分类器将当前彩色影像代入类神经网络算法,以产生初始特征图。通过分类器依据当前灰阶影像的灰阶影像维度调整初始特征图的当前维度,以产生调整特征图。通过分类器叠合调整特征图及当前灰阶影像,以计算类别信心度。通过分类器判断类别信心度是否大于信心阈值,若类别信心度大于信心阈值,则输出当前分类结果。通过储存装置以储存当前分类结果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1A示意性示出了根据本公开实施例的一种对象检测装置的方块图;
图1B示意性示出了根据本公开实施例的一种对象检测方法的流程图;
图2示意性示出了根据本公开实施例的一种当前影像特征图的示意图;
图3示意性示出了根据本公开实施例的一种包围盒的示意图;
图4A示意性示出了根据本公开实施例的一种类别信心度的训练的流程图;
图4B示意性示出了根据本公开实施例的一种类别信心度的测试及验证的流程图;以及
图5A~5B示意性示出了根据本公开实施例的一种对象检测方法的实验数据图。
【附图标记说明】
100:对象检测方法; 10:对象检测装置;
20:分类器; 30:检测模块;
40:储存装置; 110~180、401~408、411~416:步骤;
IMG:当前彩色影像; P1、P2:特征点;
B1、B2:包围盒; PA、PB:测量点。
具体实施方式
下文举实施例配合附图对本公开作详细说明,但是应该理解,所提供的实施例并非用以限制本公开所涵盖的范围,而结构操作的描述并非用以限制其执行的顺序,任何由组件重新组合的结构,所产生具有均等功效的装置,均为本本公开所涵盖的范围。此外,附图仅以说明为目的,并未依照原尺寸作图。为便于理解,下述说明中相同组件将以相同的符号标示来说明。
请参阅图1A~1B,图1A示意性示出了根据本公开实施例的一种对象检测装置10的方块图。图1B示意性示出了根据本公开实施例的一种对象检测方法100的流程图。在本公开实施例中,对象检测方法100可由对象检测装置10实现,对象检测装置10包含分类器20、检测模块30及储存装置40,分类器20耦接于检测模块30,分类器20及检测模块30各自电性耦接于储存装置40,其中,分类器20及检测模块30可以分别或一并被实施为图形处理器(graphics processing unit,GPU)、微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specific integrated circuit,ASIC)或逻辑电路。储存装置40例如可包括只读存储器、闪存、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或本领域技术人员可轻易想到及具有相同功能的储存介质。在本公开实施例中,对象检测方法100可以由具有多个程序指令的计算机可读介质执行。
在本公开一实施例中,分类器20用以接收当前彩色影像及当前灰阶影像,将当前彩色影像代入类神经网络算法,以产生初始特征图,依据当前灰阶影像的灰阶影像维度以调整初始特征图的当前维度,以产生调整特征图,叠合调整特征图及当前灰阶影像,以计算类别信心度,判断类别信心度是否大于信心阈值,若类别信心度大于该信心阈值,则输出当前分类结果,储存装置40用以储存当前分类结果。
图2示意性示出了根据本公开实施例的一种当前影像特征图的示意图。举例而言,在图2中,当前彩色影像IMG中包括第一对象及第二对象,第一对象例如为车辆,第二对象例如为行人。请参阅图1B和图2。在进行对象检测方法100之前,分类器20先接收影片档,此影片档的内容例如为一辆正在行进中的车辆(第一对象)及一个正在行走的行人(第二对象)。分类器20依据影片档中的第一张影像中检测的对象(如汽车及行人)及其各自的位置产生前一彩色影像、前一灰阶影像,并依据前一彩色影像及前一灰阶影像产生前一叠合影像及前一分类结果。其中,前一彩色影像为红绿蓝(Red,Green,Blue,RGB)影像。以下详述对象检测方法100的各步骤。
在步骤110中,分类器20产生当前彩色影像及当前灰阶影像。
在本公开一实施例中,分类器20基于影片文件的第二张影像中的一辆汽车作为检测的对象,依据此汽车的位置产生当前彩色影像及当前灰阶影像。
依据影像产生彩色影像及灰阶影像的技术可以利用图像处理技术实现,例如影像转换算法或影像转换函数。
在本公开一实施例中,分类器20还用以接收第一张影像所产生的前一分类结果,依据前一分类结果(第一张影像所产生)、第二张影像和/或前一对象位置信心度,产生当前彩色影像及当前灰阶影像。在本公开一实施例中,前一分类结果包含第一张影像中的对象类别信心度、对象大小和/或对象位置。在步骤115中,分类器20将当前彩色影像代入类神经网络算法,以产生初始特征图。
类神经网络算法可应用已知的算法实现,故此处不再赘述。在本公开一实施例中,初始特征图可包括第一对象和/或第二对象的水平和/或垂直边界。
接下来,执行步骤120,在本公开一实施例中,步骤120为介接分支网络,步骤120例如包括步骤122~124。在步骤122中,分类器20依据当前灰阶影像的灰阶影像维度以调整初始特征图的当前维度,以产生调整特征图。
在本公开一实施例中,分类器20将初始特征图的当前维度(例如为8*8像素)调整为与灰阶影像维度相同(例如为16*16像素),以产生调整特征图(例如为16*16像素)。
在步骤123中,分类器20叠合调整特征图及当前灰阶影像,以计算类别信心度。
在本公开一实施例中,分类器20叠合调整特征图及当前灰阶影像,以产生叠合影像,并将叠合影像中所包含的多个像素值代入信心度函数,以产生类别信心度。信心度函数可以采用例如Softmax函数。
在步骤124中,分类器20判断类别信心度是否大于信心阈值。
其中,类别信心度例如是一个大于或等于0的数值,在本公开一实施例中,类别信心度是0~1的机率值,例如,类别信心度为0时,机率为0,类别信心度为1时,机率为100%,如果类别信心度大于信心阈值,则在步骤125中分类器20会输出类别信心度,成为对象类别信心度。
在本公开一实施例中,信心阈值可以由使用者预先设定,例如设为0.8或0.9。
在步骤125中,分类器20输出一当前分类结果。此时,分类器20将类别信心度指定为当前分类结果。在本公开一实施例中,当前分类结果包含当前彩色影像(例如为第二张影像的当前彩色影像)中的对象类别信心度、对象大小和/或对象位置。
在本公开一实施例中,若信心阈值为0.9,当类别信心度为0.95时,则分类器20会在步骤124中判断类别信心度大于信心阈值,此代表分类器20对于当前分类结果(例如当前分类结果是将包含特征点P1的一区块分类为车辆)的信心度很高,因此无须经过后续步骤,在步骤125中输出当前分类结果。
因此,通过提早输出当前分类结果,可更有效率地完成对于单一对象(例如为车辆)的分类及检测。
反之,若分类器20在步骤124中判断类别信心度不大于信心阈值,则进入步骤130。
在步骤130中,分类器20将初始特征图及当前灰阶影像代入类神经网络算法。
在本公开一实施例中,步骤130的输入为步骤115所输出的初始特征图及步骤110所输入的当前灰阶影像。步骤130将初始特征图及当前灰阶影像代入类神经网络算法后,输出另一初始特征图(用以代入步骤140)及当前灰阶影像。
在本公开一实施例中,分类器20会传送存取命令至储存装置40中,从而由储存装置40读取出当前彩色影像,并将初始特征图及当前灰阶影像代入类神经网络算法。
在步骤140中,分类器20执行介接分支网络。
在本公开一实施例中,步骤140所指的介接分支网络所执行的步骤与步骤120相同或相似,换言之,在步骤140中,分类器20再次执行步骤122~124,以多判断一些影像,尝试产生较高的类别信心度。当步骤140中判断类别信心度大于信心阈值时,进入步骤150。在本公开一实施例中,可以依实际情况补入多个介接分支网络,例如若是在步骤140中,类别信心度仍未大于信心阈值,则再次执行类似于步骤130的将初始特征图及当前灰阶影像代入类神经网络算法,并且执行类似于步骤140的介接分支网络。
在步骤150中,分类器20输出当前分类结果。
在步骤160中,检测模块30依据当前分类结果进行对象追踪计算,也即采用对象追踪算法进行计算,并产生预测对象位置信心度。
在本公开一实施例中,预测对象位置指的是中心位置,对象位置信心度代表对象中心位置的机率。若对象是平滑运动,根据对象动作路径分析的结果,预测出的权重值越高,表示为对象中心点出现在该点的机率越大,而对象边缘的机率就相对较低,通过将输入的特征图fm,其中,符号m为类别,经由映像函数P1的转换,以产生的位置检测信心图C1,且C1=P1*fm;其中P1如下式所示:
上述公式是通过检测分析当前影像中对象的动作路径,预测下一影像中的对象位置(x,y),以调整机率分布的平移参数μx、μy,并依据检测器分类的信心指数调整机率分布δ的比例因子。
在本公开一实施例中,由于在步骤150和/或步骤125中已得到当前分类结果,当前分类结果中包含对象类别信心度、对象位置和/或对象大小,因此在步骤160中,检测模块30可将对象类别信心度、对象位置和/或对象大小等信息代入对象追踪算法,以通过计算产生预测对象位置信心度。
在本公开一实施例中,步骤150输出的对象大小、对象位置、对象类别信心度可视为当前的检测结果。
此外,在本公开一实施例中,例如图2所示,在步骤160中,检测模块30将当前彩色影像IMG代入对象追踪算法后,输出特征点P1及特征点P2,其中特征点P1为第一对象(例如车辆)的中心点,特征点P2为第二对象(例如行人)的中心点。
在步骤170中,检测模块30依据预测对象位置信心度分析出预测对象的大小及预测对象的位置,并依据预测对象的大小及位置产生下一影像(第三张影像)的包围盒(bounding box)。
请参阅图1B、图2及图3,图3示意性示出了根据本公开实施例的一种包围盒的示意图。如图3所示,在当前彩色影像IMG中,检测模块30依据第一对象(例如车辆)的预测对象位置信心度分析出车辆的大小及位置,产生包围盒B1。在本公开一实施例中,检测模块30依据第二对象(例如行人)的预测对象位置信心度分析出行人的大小及位置,产生包围盒B2。
在步骤180中,检测模块30根据预测对象的大小、预测对象的位置与预测对象类别信心度产生预测对象类别信心图,并将预测对象类别信心度及当前分类结果代入步骤110。
在本公开一实施例中,可以通过包围盒(例如为包围盒B1)作为范围选取。例如,原始影像为1280x720,包围盒B1的中心位置的坐标为(400,600)、包围盒B1的大小(300,300),即可选取坐标范围为(400-300/2,600-300/2)~(400+300/2,600+300/2),也即范围为(250~550,450~750)内的彩色影像及灰阶影像代入下一影像(例如第三张影像)以执行步骤110。
在本公开一实施例中,预测对象类别信心图可以使用灰阶表示,例如若是预测对象类别信心度较高,则预测对象类别信心图较亮,若是预测对象类别信心度较低,则预测对象类别信心图较暗。
在本公开一实施例中,预测对象类别信心图是下一影像(例如第三张影像)的对象类别信心图(如同第三张影像大小的整张图),例如第三张影像的每一个像素各有一个机率值,在本公开一实施例中,可将这些机率值以图表示,成为预测对象类别信心图。在本公开一实施例中,预测的包围盒(例如为包围盒B1)是预测下一影像(例如第三张影像)中的包围盒(例如,只有包含第一对象的小张图),而执行完步骤180后,可回到步骤110,以根据预测对象类别信心图及预测的包围盒产生下一影像(例如第三张影像)的下一彩色影像及下一灰阶影像。
在本公开一实施例中,灰阶影像可以通过算法(例如为2D Hann窗型函数)将前一影像的对象类别信心度,映像至预测对象的包围盒范围内。
在本公开一实施例中,在步骤180中,检测模块30对下一影像中的每个点(每个像素)计算预测对象类别信心度,产生预测对象类别信心图。在本公开一实施例中,在分析下一张影像时,可以使用预测对象类别信心图产生下一张影像的下一灰阶影像;在本公开一实施例中,在分析下一张影像时,可以使用预测对象类别信心图作为下一张影像的下一灰阶影像。检测模块30将分类的当前对象类别信心度dm,m为类别,通过映像函数P2的转换产生对象分类的信心图C2=P2*dm,映像函数P2如下式所示,是通过计算出的包围盒(例如为包围盒B1)所预测出的对象大小w及h调整机率分布的比例,以及判断位置(x,y)是否在计算出的包围盒的范围内,如果不在范围内,则设置旗标Iobj为零,使类别机率归零,反之则直接输出类别机率。
其中,旗标Iobj为该对象的布尔值旗标,在本公开一实施例中,旗标Iobj的值可以是1或0,例如旗标Iobj为1时,表示预测的包围盒范围内存在对象,旗标Iobj为0时,表示预测的包围盒范围内不存在对象。
通过依据步骤150产生的当前对象类别信心度dm及预测的下一张包围盒以得知下一张彩色影像与灰阶影像中的对象区域及对象类别信心度。在本公开一实施例中,检测模块30依据预测对象的位置及大小,以针对下一影像(例如为第三张影像)的位置计算预测对象类别信心度。
在本公开一实施例中,检测模块30依据当前的预测对象(例如为第二张影像)的位置及大小,以产生此对象在下一影像(例如为第三张影像)中所出现的预测位置,以针对此下一影像(例如为第三张影像)的预测位置计算预测对象类别信心度。
在本公开一实施例中,步骤160~180所预测的是下一张影像中的对象大小、对象位置、包围盒、对象位置信心度及对象类别信心图。
在本公开一实施例中,检测模块30将预测对象类别信心度输出至储存装置40。
在本公开一实施例中,在分析下一张影像时,分类器20将当前分类结果(例如为第二张影像的当前分类结果)、下一彩色影像(例如从储存装置读取出的第三张彩色影像)及下一灰阶影像(例如为依据第二张影像所产生的第三张灰阶影像)代入类神经网络算法。
请参阅图4A,图4A示意性示出了根据本公开实施例的一种类别信心度的训练的流程图。
在步骤401中,分类器20定义或设计类神经网络的主网络训练。其中,图4A中所示的主网络训练例如是图1B的步骤115和/或步骤130。
在步骤402中,分类器20加载大量训练数据集对主网络进行预训练;在本公开一实施例中,此方式可使训练准确度提高。在本公开一实施例中,若在网络上直接加载预训练好的网络模型参数,可直接跳至步骤404。
在步骤403中,分类器20产生类神经网络主网络模型参数。在本公开一实施例中,分类器20应用已知的深度卷积神经网络(deep convolutional neural network,DCNN)以产生主网络模型参数。
在步骤404中,分类器20建立实际场景的少量训练数据集,并使用此数据集对主网络进行微调训练,在本公开一实施例中,此步骤可提高网络对实际场景的适应性及辨识率。
在步骤405中,分类器20更新主网络模型参数。
在步骤406中,分类器20通过前一影像返回的预测对象类别信心度作为特征及由实际场景建立的少量数据集,以训练一或多个介接分支网络,并判断是否所有介接分支网络均完成训练,若是,则进入步骤408,若否,则进入步骤407。在本公开一实施例中,介接分支网络可以利用图1B的步骤120实现。
在步骤407中,分类器20基于当前影像的影像尺寸及当前影像的对象分类信心指数,产生下一影像的预测对象类别信心度。
在步骤408中,分类器20更新一或多个介接分支网络的模型参数。
通过上述步骤,以完成建立类别信心度的模型的训练。
如图4B所示,图4B示意性示出了根据本公开实施例的一种类别信心度的测试及验证的流程图。测试及验证阶段的实施步骤如下。
在步骤411中,分类器20取得当前影像。
在步骤412中,分类器20基于当前影像中的对象大小及位置,产生对象的当前彩色影像及当前灰阶影像。
在步骤413中,分类器20加载训练阶段产生的网络模型,检测模块30对输入的对象的当前彩色影像及当前灰阶影像进行检测分类。在本公开一实施例中,步骤413可以使用图1B的步骤120、125、130、140、150实现。
在步骤414中,检测模块30基于当前分类结果,进行对象追踪产生下一影像的预测对象大小及位置。
在步骤415中,检测模块30基于预测的下一影像的对象大小及下一影像的位置产生预测的对象类别信心度,并返回预测的下一影像的对象大小、下一影像的位置及下一影像的预测对象类别信心度。
在步骤416中,检测模块30输出下一影像的检测结果,下一影像的检测结果包括下一影像的对象大小、位置及类别。
通过上述步骤,以完成类别信心度的测试及验证。
请参阅图5A~5B,图5A~5B示意性示出了根据本公开实施例的一种对象检测方法的实验数据图。
图5A所示的是采用本公开对象检测方法的实验数据图,图5B所示的是采用传统的管线卷积神经网络(Tube Convolutional Neural Network,T-CNN)的实验数据图。此实验的参数设定为:每次训练的影像张数为32张,主网络的训练次数为3000,介接网络的训练次数为2000,门坎值设定为0.5或1。由图5A中的测量点PA可看出,在运行时间(runtime)为11.34微秒时,其对象检测的准确度为98%。由图5B中的测量点PB可看出,在运行时间为20.49微秒时,其对象检测的准确率为66%。由此可知,本公开的对象检测方法能在较短时间内得到较准确的检测结果。
通过本公开所述的对象检测装置、对象检测方法及计算机可读介质,通过将影像拆解成彩色影像及灰阶影像,并应用此两者计算类别信心度,以该类别信心度判断对象的分类的正确程度,以高效率的输出正确性较高的分类结果,从而可大幅减短对象检测的时间,并提升对象检测的精准度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种对象检测装置,包含:
分类器,用以产生当前彩色影像及当前灰阶影像,将所述当前彩色影像代入类神经网络算法,以产生初始特征图,依据所述当前灰阶影像的灰阶影像维度调整所述初始特征图的当前维度,以产生调整特征图,叠合所述调整特征图及所述当前灰阶影像,以计算类别信心度,判断所述类别信心度是否大于信心阈值,若所述类别信心度大于该信心阈值,则输出当前分类结果;
储存装置,耦接于所述分类器,用以储存所述当前分类结果;以及
检测模块,根据预测对象的大小、所述预测对象的位置与预测对象类别信心度产生预测对象类别信心图。
2.根据权利要求1所述的对象检测装置,其中,所述分类器将所述初始特征图的所述当前维度调整为与所述灰阶影像维度相同,以产生所述调整特征图。
3.根据权利要求1所述的对象检测装置,其中,所述分类器叠合所述调整特征图及所述当前灰阶影像,以产生叠合影像,并将所述叠合影像中所包含的多个像素值代入信心度函数,以产生所述类别信心度。
4.根据权利要求1所述的对象检测装置,其中,若所述分类器判断所述类别信心度不大于所述信心阈值,则将所述初始特征图及所述当前灰阶影像代入所述类神经网络算法。
5.根据权利要求1所述的对象检测装置,其中,所述检测模块依据所述当前分类结果,采用对象追踪算法进行计算,并产生预测对象位置信心度。
6.根据权利要求5所述的对象检测装置,其中,所述检测模块依据所述预测对象位置信心度分析出所述预测对象的大小及所述预测对象的位置,并依据所述预测对象的该大小及所述预测对象的该位置产生包围盒。
7.根据权利要求6所述的对象检测装置,其中,所述检测模块根据所述预测对象类别信心图及所述包围盒产生下一影像的下一彩色影像及所述下一影像的下一灰阶影像。
8.根据权利要求1所述的对象检测装置,其中,所述当前分类结果为所述当前彩色影像中的对象类别信心度、对象大小或对象位置。
9.一种对象检测方法,包含:
通过分类器产生当前彩色影像及当前灰阶影像;
通过所述分类器将所述当前彩色影像代入类神经网络算法,以产生初始特征图;
通过所述分类器依据所述当前灰阶影像的灰阶影像维度以调整所述初始特征图的当前维度,以产生调整特征图;
通过所述分类器叠合所述调整特征图及所述当前灰阶影像,以计算类别信心度;
通过所述分类器判断所述类别信心度是否大于信心阈值,若所述类别信心度大于所述信心阈值,则所述分类器输出当前分类结果;
通过储存装置储存所述当前分类结果;以及
根据预测对象的大小、所述预测对象的位置与预测对象类别信心度产生预测对象类别信心图。
10.根据权利要求9所述的对象检测方法,其中,通过所述分类器依据所述当前灰阶影像的所述灰阶影像维度调整所述初始特征图的所述当前维度,产生所述调整特征图的步骤包含:
将所述初始特征图的所述当前维度调整为与所述灰阶影像维度相同,以产生所述调整特征图。
11.根据权利要求9所述的对象检测方法,其中,通过所述分类器叠合所述调整特征图及所述当前灰阶影像,以计算所述类别信心度的步骤包含:
叠合所述调整特征图及所述当前灰阶影像,以产生叠合影像,并将所述叠合影像中所包含的多个像素值代入信心度函数,以产生所述类别信心度。
12.根据权利要求9所述的对象检测方法,其中,若判断所述类别信心度不大于所述信心阈值,则将所述初始特征图及所述当前灰阶影像代入所述类神经网络算法。
13.根据权利要求9所述的对象检测方法,还包含:
依据所述当前分类结果,采用对象追踪算法进行计算,并产生预测对象位置信心度。
14.根据权利要求13所述的对象检测方法,还包含:
依据所述预测对象位置信心度分析出所述预测对象的大小及预测对象的位置,并依据所述预测对象的大小及所述预测对象的位置产生包围盒。
15.根据权利要求14所述的对象检测方法,还包含:
根据所述预测对象类别信心图及所述包围盒产生下一影像的下一彩色影像及所述下一影像的下一灰阶影像。
16.根据权利要求9所述的对象检测方法,其中,所述当前分类结果为所述当前彩色影像中的对象类别信心度、对象大小或对象位置。
17.一种计算机可读介质,具有多个程序指令以执行对象检测方法,所述对象检测方法包括:
通过分类器产生当前彩色影像及当前灰阶影像;
通过所述分类器将所述当前彩色影像代入类神经网络算法,以产生初始特征图;
通过所述分类器依据所述当前灰阶影像的灰阶影像维度调整所述初始特征图的当前维度,以产生调整特征图;
通过所述分类器叠合所述调整特征图及所述当前灰阶影像,以计算类别信心度;
通过所述分类器判断所述类别信心度是否大于信心阈值,若所述类别信心度大于所述信心阈值,则输出当前分类结果;
通过储存装置储存所述当前分类结果;以及
根据预测对象的大小、所述预测对象的位置与预测对象类别信心度产生预测对象类别信心图。
18.根据权利要求17所述的计算机可读介质,其中,通过所述分类器依据所述当前灰阶影像的所述灰阶影像维度调整所述初始特征图的所述当前维度,以产生所述调整特征图的步骤包含:
将所述初始特征图的所述当前维度调整为与所述灰阶影像维度相同,以产生所述调整特征图。
19.根据权利要求17所述的计算机可读介质,其中,通过所述分类器叠合所述调整特征图及所述当前灰阶影像,以计算所述类别信心度的步骤包含:
叠合所述调整特征图及所述当前灰阶影像,以产生叠合影像,并将所述叠合影像中所包含的多个像素值代入信心度函数,以产生所述类别信心度。
20.根据权利要求17所述的计算机可读介质,其中,若判断所述类别信心度不大于所述信心阈值,则将所述初始特征图及所述当前灰阶影像代入所述类神经网络算法。
21.根据权利要求17所述的计算机可读介质,其中,所述对象检测方法还包含:
依据所述当前分类结果,采用对象追踪算法进行计算,并产生预测对象位置信心度。
22.根据权利要求21所述的计算机可读介质,其中,所述对象检测方法还包含:
依据所述预测对象位置信心度分析出所述预测对象的大小及所述预测对象的位置,并依据所述预测对象的大小及所述预测对象的位置产生包围盒。
23.根据权利要求22所述的计算机可读介质,其中,所述对象检测方法还包含:
根据所述预测对象类别信心图及所述包围盒产生下一影像的下一彩色影像及所述下一影像的下一灰阶影像。
24.根据权利要求17所述的计算机可读介质,其中,所述当前分类结果为所述当前彩色影像中的对象类别信心度、对象大小或对象位置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106145074 | 2017-12-21 | ||
TW106145074A TWI649698B (zh) | 2017-12-21 | 2017-12-21 | 物件偵測裝置、物件偵測方法及電腦可讀取媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948637A CN109948637A (zh) | 2019-06-28 |
CN109948637B true CN109948637B (zh) | 2021-12-17 |
Family
ID=66213810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711452081.9A Active CN109948637B (zh) | 2017-12-21 | 2017-12-27 | 对象检测装置、对象检测方法及计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10600208B2 (zh) |
CN (1) | CN109948637B (zh) |
TW (1) | TWI649698B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776655B1 (en) * | 2019-04-09 | 2020-09-15 | Banjo, Inc. | Estimating color of vehicles on a roadway |
US10884710B1 (en) * | 2019-08-13 | 2021-01-05 | Accenture Global Solutions Limited | System and method for generating unified experiences on digital platforms |
US20210211568A1 (en) * | 2020-01-07 | 2021-07-08 | Motional Ad Llc | Systems and methods for traffic light detection |
TWI728655B (zh) * | 2020-01-16 | 2021-05-21 | 國立臺中科技大學 | 應用於動物的卷積神經網路偵測方法及系統 |
JP7115502B2 (ja) | 2020-03-23 | 2022-08-09 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
JP7388971B2 (ja) | 2020-04-06 | 2023-11-29 | トヨタ自動車株式会社 | 車両制御装置、車両制御方法及び車両制御用コンピュータプログラム |
JP7359735B2 (ja) * | 2020-04-06 | 2023-10-11 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
US12008740B2 (en) | 2020-08-12 | 2024-06-11 | Niantic, Inc. | Feature matching using features extracted from perspective corrected image |
CN113434675A (zh) * | 2021-06-25 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种标签修正的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201101814A (en) * | 2009-06-26 | 2011-01-01 | Nat Univ Chin Yi Technology | Method of compensating for backlight image and photograph apparatus with backlight image compensation system |
CN102508909A (zh) * | 2011-11-11 | 2012-06-20 | 苏州大学 | 一种基于多智能算法及图像融合技术的图像检索方法 |
CN102722714A (zh) * | 2012-05-18 | 2012-10-10 | 西安电子科技大学 | 基于目标跟踪的人工神经网络扩张式学习方法 |
CN102968637A (zh) * | 2012-12-20 | 2013-03-13 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN103679677A (zh) * | 2013-12-12 | 2014-03-26 | 杭州电子科技大学 | 一种基于模型互更新的双模图像决策级融合跟踪方法 |
CN104598885A (zh) * | 2015-01-23 | 2015-05-06 | 西安理工大学 | 街景图像中的文字标牌检测与定位方法 |
TWI572186B (zh) * | 2015-12-04 | 2017-02-21 | 國立雲林科技大學 | 內視鏡影像鏡面反射去除之自適應修補方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW408547B (en) | 1998-12-08 | 2000-10-11 | Jang Shuen Shiung | Hamming neural network having the accelerated convergence speed |
JP4085538B2 (ja) * | 1999-10-15 | 2008-05-14 | ソニー株式会社 | 検査装置 |
CN1317673C (zh) | 2004-03-18 | 2007-05-23 | 致伸科技股份有限公司 | 利用神经网络分辨影像中文字与图形的系统及其方法 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
CN103679164A (zh) | 2012-09-21 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种基于移动终端的标志识别处理方法和系统 |
ES2727862T3 (es) * | 2012-10-25 | 2019-10-21 | Mitsubishi Electric Corp | Dispositivo de procesamiento de imágenes y método de procesamiento de imágenes |
US20150331908A1 (en) | 2014-05-15 | 2015-11-19 | Genetic Finance (Barbados) Limited | Visual interactive search |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10835210B2 (en) * | 2015-03-30 | 2020-11-17 | Siemens Medical Solutions Usa, Inc. | Three-dimensional volume of interest in ultrasound imaging |
KR101645517B1 (ko) * | 2015-04-01 | 2016-08-05 | 주식회사 씨케이앤비 | 특징점 추출 장치 및 방법과 이를 이용한 콘텐츠의 온라인 유통 현황 분석을 위한 이미지 매칭 시스템 |
CN104866727A (zh) * | 2015-06-02 | 2015-08-26 | 陈宽 | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 |
US10242287B2 (en) * | 2015-06-11 | 2019-03-26 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and recording medium |
CN105184362B (zh) | 2015-08-21 | 2018-02-02 | 中国科学院自动化研究所 | 基于参数量化的深度卷积神经网络的加速与压缩方法 |
US10380479B2 (en) * | 2015-10-08 | 2019-08-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
US10019631B2 (en) * | 2015-11-05 | 2018-07-10 | Qualcomm Incorporated | Adapting to appearance variations when tracking a target object in video sequence |
CN105868691B (zh) | 2016-03-08 | 2019-05-21 | 青岛邃智信息科技有限公司 | 基于快速区域卷积神经网络的城市车辆追踪方法 |
CN105787458B (zh) | 2016-03-11 | 2019-01-04 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN106228575B (zh) | 2016-07-21 | 2019-05-10 | 广东工业大学 | 融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统 |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
-
2017
- 2017-12-21 TW TW106145074A patent/TWI649698B/zh active
- 2017-12-27 CN CN201711452081.9A patent/CN109948637B/zh active Active
-
2018
- 2018-06-13 US US16/007,859 patent/US10600208B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201101814A (en) * | 2009-06-26 | 2011-01-01 | Nat Univ Chin Yi Technology | Method of compensating for backlight image and photograph apparatus with backlight image compensation system |
CN102508909A (zh) * | 2011-11-11 | 2012-06-20 | 苏州大学 | 一种基于多智能算法及图像融合技术的图像检索方法 |
CN102722714A (zh) * | 2012-05-18 | 2012-10-10 | 西安电子科技大学 | 基于目标跟踪的人工神经网络扩张式学习方法 |
CN102968637A (zh) * | 2012-12-20 | 2013-03-13 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN103679677A (zh) * | 2013-12-12 | 2014-03-26 | 杭州电子科技大学 | 一种基于模型互更新的双模图像决策级融合跟踪方法 |
CN104598885A (zh) * | 2015-01-23 | 2015-05-06 | 西安理工大学 | 街景图像中的文字标牌检测与定位方法 |
TWI572186B (zh) * | 2015-12-04 | 2017-02-21 | 國立雲林科技大學 | 內視鏡影像鏡面反射去除之自適應修補方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201928788A (zh) | 2019-07-16 |
US10600208B2 (en) | 2020-03-24 |
TWI649698B (zh) | 2019-02-01 |
CN109948637A (zh) | 2019-06-28 |
US20190197729A1 (en) | 2019-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948637B (zh) | 对象检测装置、对象检测方法及计算机可读介质 | |
CN109635685B (zh) | 目标对象3d检测方法、装置、介质及设备 | |
JP6897335B2 (ja) | 学習プログラム、学習方法および物体検知装置 | |
US11527077B2 (en) | Advanced driver assist system, method of calibrating the same, and method of detecting object in the same | |
CN109300142B (zh) | 基于车辆的对象跟踪方法 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
KR101503788B1 (ko) | 적분영상을 기반으로 하는 특징 정보 예측을 통한 보행자 검출 방법, 이를 수행하기 위한 기록 매체 및 단말기 | |
US20150367781A1 (en) | Lane boundary estimation device and lane boundary estimation method | |
US20120206597A1 (en) | Moving object detection apparatus and moving object detection method | |
EP3032462B1 (en) | Method and apparatus for tracking object, and non-transitory computer-readable recording medium | |
US9904868B2 (en) | Visual attention detector and visual attention detection method | |
CN112733875A (zh) | 用于在生成网络中生成合成数据的设备和方法 | |
CN111274980A (zh) | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 | |
JP6110174B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
CN115620022A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
JP2011165170A (ja) | 対象物検出装置及びプログラム | |
CN111191482B (zh) | 一种刹车灯识别方法、装置及电子设备 | |
KR102010086B1 (ko) | 미세조직의 상 분할 방법 및 장치 | |
KR102285269B1 (ko) | 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법 | |
Moseva et al. | Development of a System for Fixing Road Markings in Real Time | |
KR20220073444A (ko) | 오브젝트 추적 방법, 장치 및 그 방법을 수행하는 단말기 | |
CN116994084A (zh) | 区域入侵检测模型训练方法及区域入侵检测方法 | |
CN114898306B (zh) | 一种检测目标朝向的方法、装置及电子设备 | |
CN113496501B (zh) | 基于视频预测的动态场景中的入侵物检测方法和系统 | |
EP4002270A1 (en) | Image recognition evaluation program, image recognition evaluation method, evaluation device, and evaluation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |