CN104680508A - 卷积神经网络和基于卷积神经网络的目标物体检测方法 - Google Patents
卷积神经网络和基于卷积神经网络的目标物体检测方法 Download PDFInfo
- Publication number
- CN104680508A CN104680508A CN201310633797.4A CN201310633797A CN104680508A CN 104680508 A CN104680508 A CN 104680508A CN 201310633797 A CN201310633797 A CN 201310633797A CN 104680508 A CN104680508 A CN 104680508A
- Authority
- CN
- China
- Prior art keywords
- surveyed area
- sublayer
- layer
- represent
- deformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种卷积神经网络和基于卷积神经网络的目标物体检测方法,所述卷积神经网络包括:特征提取层、部位检测层、形变处理层、遮挡处理层和分类器,本发明实施例提供的卷积神经网络,联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习,通过形变处理层使得卷积神经网络能够学习目标物体的形变,并且形变学习和遮挡处理进行交互,这种交互能提高分类器根据所学习到的特征分辨目标物体和非目标物体的能力。
Description
技术领域
本发明涉及数据通讯技术,尤其涉及一种卷积神经网络和基于卷积神经网络的目标物体检测方法。
背景技术
物体检测是机器视觉中的基本的问题之一,检测到物体后能方便对物体进行存储、分析、3D建模、识别、跟踪和搜索。常用的物体检测如行人检测,行人检测的目的是在图像中找出行人的位置和所占区域,行人检测的主要难点是行人在着装、光照、背景、身体形变和遮挡方面的变化。行人检测时,首先,需要提取出能够区别行人和非行人的特征,常用的方法有Haar-like特征和梯度直方图(Histogram of Oriented Gradient,简称HOG)。其次,由于行人身体(如头,身体,腿)的运动会产生行人视觉信息的形变,所以提出了可以形变的模型用于处理行人身体运动造成的形变。再次,为了解决由于遮挡造成的视觉信息丢失,很多处理遮挡的方法找出图片中行人被遮挡的部位以避免用这些被遮挡的图像信息来判断给定矩形框中是否存在行人。最后,分类器用于判断给定的矩形框中是否存在行人。
图1为现有技术一的行人检测方法示意图,如图1所示,现有技术一的行人检测方法主要包括以下步骤:1、在第一阶段对一幅输入图像进行卷积,对卷积后的结果进行下采样得到第一阶段的输出;2、根据第一阶段的输出继续进行卷积和下采样得到第二阶段中上面一行的输出;3、第一阶段的输出通过支线进行下采样得到第二阶段中下面一行的输出;4、根据第二阶段的输出进行分类。这种方法中,主要是学习特征提取,每一步在处理时对于处理结果并没有一个明确的目标,因此,输出结果是不可预见的,而且没有对行人的身体运动和遮挡进行建模。当行人图像存在形变和遮挡时,效果较差。图2为现有技术二的行人检测的方法示意图,该方法将行人分成由整个行人的模板构成的根节点和由行人身体部分(如头,腿上半部分,或者腿下半部分)构成的子节点。子节点与根节点具有形变约束,例如头不能离身体太远。如图2所示,该现有技术的行人检测方法包括以下步骤:1、对一幅输入图像进行特征提取,得到两种不同分辨率(resolution)的特征图(feature map);2、对低分辨率的特征图使用作为根节点的滤波模板进行匹配,得到匹配后的响应;3、对高分辨率的特征图使用作为子节点的滤波模板进行匹配,得到匹配后的响应。图2的模型中有5个子节点,所以有5个子节点的滤波模板,得到5个匹配后的响应;4、子节点的响应通过与根节点的形变约束进行修正,得到修正后的响应;5、根据子节点的响应和根节点的响应得到对于行人是否存在的总体响应。现有技术二能够对物体部分形变进行建模,对身体运动更加鲁棒,但是此技术在根据物体的特征图与模板进行匹配时,使用人为定义的特征,不能自动学习特征,并且不能处理遮挡的情况。
发明内容
本发明实施例提供一种卷积神经网络和基于卷积神经网络的目标物体检测方法,能够对目标物体的形变和遮挡进行处理。
本发明第一方面提供一种基于卷积神经网络的目标物体检测方法,所述卷积神经网络包括:特征提取层、部位检测层、形变处理层、遮挡处理层和分类器;
所述特征提取层根据提取图像中检测区域的像素值,对所述检测区域的像素值进行预处理,并对所述预处理后的图像进行特征提取,得到所述检测区域的特征图;
所述部位检测层通过M个过滤器分别检测所述检测区域的特征图,输出所述检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述N个部位的形变确定所述M个部位的得分图;
所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡;
所述分类器根据所述遮挡处理层的输出结果,确定所述检测区域内是否有目标物体。
在本发明第一方面的第一种可能的实现方式中,所述特征提取层提取图像中检测区域的像素值,对所述检测区域内的像素值进行预处理,包括:
所述特征提取层提取所述图像中检测区域的像素值,将所述检测区域的像素值转换为三个通道的数据,所述三个通道分别为第一通道、第二通道、第三通道;
其中,所述第一通道的输出数据对应所述检测区域内的YUV像素值的Y通道数据;
所述第二通道用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,取所述三个第一边缘图中各位置上的最大值,组成一个第二边缘图,所述三个第一边缘图以及第二边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据;
所述第三通道用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上的第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,所述第三边缘图各位置的数据为0,所述三个第一边缘图以及第三边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。
在本发明第一方面的第二种可能的实现方式中,所述部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,所述部位检测层的第一子层包括M1个过滤器,所述部位检测层的第二子层包括M2个过滤器,所述部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;
所述部位检测层的第一子层的M1个过滤器分别检测所述检测区域内的M1个部位,得到M1个响应图;
所述部位检测层的第二子层的M2个过滤器分别检测所述检测区域内的M2个部位,得到M2个响应图;
所述部位检测层的第三子层的M3个过滤器分别检测所述检测区域内的M3个部位,得到M3个响应图。
在本发明第一方面的第三种可能的实现方式中,所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述M个部位的形变确定所述M个部位的得分图,包括:
所述形变处理层根据所述M个部位对应的响应图,分别按照公式(1)得到所述第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示所述第p个部分对应的响应图,N表示所述第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
所述形变处理层根据所述形变得分图,按照公式(2)确定所述第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
在本发明第一方面的第四种可能的实现方式中,所述遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层,所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡,包括:
所述遮挡处理层确定所述M个部位在所述遮挡处理层的子层上的得分图和可视性;
所述遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算所述各个部位的可视性:
其中,表示第P个部位在所述遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在所述遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在所述遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示所述卷积神经网络的输出结果。
本发明第二方面提供一种卷积神经网络,包括:
特征提取层,用于根据提取图像中检测区域的像素值,对所述检测区域的像素值进行预处理,并对所述预处理后的图像进行特征提取,得到所述检测区域的特征图;
部位检测层,用于通过M个过滤器分别检测所述检测区域的特征图,输出所述检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
形变处理层,用于根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述N个部位的形变确定所述M个部位的得分图;
遮挡处理层,用于根据所述M个部位的得分图确定所述M个部位对应的遮挡;
分类器,用于根据所述遮挡处理层的输出结果,确定所述检测区域内是否有目标物体。
在本发明第二方面的第一种可能的实现方式中,所述特征提取层包括三个通道,分别为第一通道、第二通道、第三通道;
其中,所述第一通道的输出数据对应所述检测区域内的YUV像素值的Y通道数据;
所述第二通道,用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,取所述三个第一边缘图中各位置上的最大值,组成一个第二边缘图,所述三个第一边缘图以及第二边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据;
所述第三通道,用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上的第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,所述第三边缘图各位置的数据为0,所述三个第一边缘图以及第三边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。
在本发明第二方面的第二种可能的实现方式中,所述部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,所述部位检测层的第一子层包括M1个过滤器,所述部位检测层的第二子层包括M2个过滤器,所述部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;
所述部位检测层的第一子层,用于通过M1个过滤器分别检测所述检测区域内的M1个部位,得到M1个响应图;
所述部位检测层的第二子层,用于通过M2个过滤器分别检测所述检测区域内的M2个部位,得到M2个响应图;
所述部位检测层的第三子层,用于通过M3个过滤器分别检测所述检测区域内的M3个部位,得到M3个响应图。
在本发明第二方面的第三种可能的实现方式中,所述形变处理层具体用于:
所述形变处理层根据所述M个部位对应的响应图,分别按照公式(1)得到所述第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示所述第p个部分对应的响应图,N表示所述第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
所述形变处理层根据所述形变得分图,按照公式(2)确定所述第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
在本发明第二方面的第四种可能的实现方式中,所述遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层;
所述遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算所述各个部位的可视性:
其中,表示第P个部位在所述遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在所述遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在所述遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示所述卷积神经网络的输出结果。本发明实施例提供一种(方法主题),包括:
本发明实施例的卷积神经网络和基于卷积神经网络的目标物体检测方法,由联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习为一体的统一的卷积神经网络模型,通过形变处理层使得卷积神经网络能够学习目标物体的形变,并且形变学习和遮挡处理进行交互,这种交互能提高提高分类器根据所学习到的特征分辨目标物体和非目标物体的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术一的行人检测方法示意图;
图2为现有技术二的行人检测的方法示意图;
图3为本发明基于卷积神经网络的目标物体检测方法一个实施例的流程图;
图4为本发明检测身体各个部位的过滤器的示意图;
图5部位检测层检测得到的结果示意图;
图6为形变处理层的操作流程示意图;
图7为遮挡处理层的处理过程示意图;
图8为本发明目标物体检测结果示意图;
图9本发明总体模型示意图;
图10为本发明卷积神经网络一个实施例的结构示意图;
图11为本发明卷积神经网络又一个实施例的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图3为本发明基于卷积神经网络的目标物体检测方法一个实施例的流程图,本实施中,卷积神经网络包括:特征提取层、部位检测层、形变处理层、遮挡处理层和分类器,如图3所示,本实施例的方法可以包括:
步骤101、特征提取层根据提取图像中检测区域的像素值,对区域的像素值进行预处理,并对预处理后的图像进行特征提取,得到检测区域的特征图。
本实施例中,对目标物体进行检测只指检测在检测区域内是否有目标物体存在,检测区域可以是任意设置的一个区域,如一副图像中在划分为两个矩形框,每个矩形框就作为一个检测区域。目标物体可以是行人、汽车、动物等等。本实施例中,在对检测区域内的图像进行特征提取之间,先对图像进行预处理,消除图像的一些干扰因素,对图形预处理可以采用现有的任意一种方法,如灰度变换、直方图修正、图像平滑去噪等。
而本实施例中,特征提取层提取图像中检测区域的像素值,将检测区域的像素值转换为三个通道的数据,三个通道分别为第一通道、第二通道、第三通道,每个通道的数据独立获取,作为整个模型的输入部分。
具体地,第一通道的输出数据对应检测区域内的YUV像素值的Y通道的数据。
第二通道用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上第一边缘图,其中,Y、U、V通道分别对应一个第一边缘图,取三个第一边缘图中各位置上的最大值,组成一个第二边缘图,三个第一边缘图以及第二边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据。
第三通道用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上的第一边缘图,Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,第三边缘图各位置的数据为0,三个第一边缘图以及第三边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据;
将第一通道、第二通道、第三通道的输出数据作为预处理后的像素值,然后,对预处理后的图像进行特征提取,得到检测区域的特征图,特征提取层可通过方向梯度值方图HOG、SIFT、Gabor、LBP等方式提取提取简称区域的特征图。
步骤102、部位检测层通过M个过滤器分别检测检测区域的特征图,输出检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图。
部位检测层可看做时卷积神经网络系统的一个下采样层,通过M个过滤器分别检测检测区域的特征图,得到比特征图更多更明确的部位形体特征。本实施例中,部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,部位检测层的第一子层包括M1个过滤器,部位检测层的第二子层包括M2个过滤器,部位检测层的第三子层包括M3个过滤器,其中,M1、M2和M3都为大于1的正整数,其M1+M2+M3=M,通常,对于一个卷积层来说,对应的过滤器的大小是固定的,但对于行人检测而言,由于人体各个部位的大小不同,因此,本实施例中,各个过滤器的大小可以不同,本发明并不对此进行限制。
部位检测层的第一子层的M1个过滤器分别检测检测区域内的M1个部位,得到M1个响应图,部位检测层的第二子层的M2个过滤器分别检测检测区域内的M2个部位,得到M2个响应图;部位检测层的第三子层的M3个过滤器分别检测检测区域内的M3个部位,得到M3个响应图。
以下将通过一个具体例子来说明,假设M1为6,M2为7,M3为7,即第一子层有6个过滤器,第二子层有7个过滤器,第三子层有7个过滤器,共有20个过滤器,本实施例中,每个子层的过滤器之间时互相联系的,第一子层的过滤器较小,第二子层的过滤器的大于第一子层的过滤器,第三子层的过滤器大于第一子层的过滤器,第二子层的过滤器可由第一子层的过滤器按照一定的规则组合而成,第三子层的过滤器可以由第二子层的过滤器按照一定的规则组合而成,如图4所示,图4为本发明检测身体各个部位的过滤器的示意图,第一子层的第一个过滤器和第二个过滤器组合得到第二子层的第一个过滤器,第一子层的第一个过滤器和第三个过滤器组合得到第二子层的第二个过滤器,但有些过滤器是无法组合的,如第一子层的第一个过滤器和第五个过滤器是不能组合的。各个过滤器的参数都是在对卷积网络进行训练时得到的,本步骤中,只需要将各个过滤器与处理后的图像进行卷积运算,就可以得到20个响应图,每个过滤器输出一个响应图,每个响应图对应目标物体的一些部位,得到目标物体各个部位的位置。图5部位检测层检测得到的结果示意图。
步骤103、形变处理层根据M个部位对应的响应图分别确定M个部位的形变,并根据N个部位的形变确定M个部位的得分图。
通过部位检测层能够检测出检测区域内出现的目标物体的一些部位,而实际的图像中,目标物体的由于运动各部位是会发生形变的,如行人身体(如头,身体,腿)的运动会产生行人视觉信息的形变,形变处理层就是为了学习目标物体各个部位在行变之前的关联关系,形变处理层从M个部位检测响应图中提取最适合人体的M个部位位置及其得分,从而提取出各个部位之间的关联。
形变处理层根据M个部位对应的响应图分别确定M个部位的形变,并根据M个部位的形变确定M个部位的得分图,具体为:
首先,形变处理层根据M个部位对应的响应图,按照公式(1)得到M个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示第p个部分对应的响应图,N表示第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重,这里每个限制条件对应一个形变,以第P个部位为人的头部为例,头部的运动通常会有左转、右转、向下、向上四中变形,每个限制条件对应一个权重,权重用来表示头部每种形变的概率。
通过公式(1)计算得到每个部位的形变得分图,然后,形变处理层根据形变得分图,按照公式(2)确定第P个部位的得分图:
其中,表示(x,y)位置上Bp的值,上述公式的含义是取第P个部位形变得分图的最大值,该最大值对应的位置即为第P部分的位置,因此,第P部分的位置可以表示为
图6为形变处理层的操作流程示意图,图中Mp表示第p个部分对应的响应图,D1,p表示第P部分的第一个限制条件,D2,p表示第P部分的第二个限制条件,D3,p表示第P部分的第三个限制条件,D4,p表示第P部分的第四各限制条件,C1,p表示第一个限制条件对应的权重,C2,p表示第二个限制条件对应的权重,C3,p表示第三个限制条件对应的权重,C4,p表示第四个限制条件对应的权重,然后,将各个限制条件和第p个部分对应的响应图进行加权求和,得到第P个部位的形变得分图Bp,然后取形变得分图中最大值对应的坐标(x,y)位置作为第P部分的最佳位置。
步骤104、遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡。
形变处理层给出了各个部分的得分图s={s1,s2…sp},根据各个部位的得分图确定每个部位对应的遮挡。本实施例中,遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层,遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡,具体为:
遮挡处理层确定M个部位在遮挡处理层的子层上的得分图和可视性;遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算各个部位的可视性:
其中,表示第P个部位在遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在遮挡处理层的第1层上的可视性,σ(t)是S型函数,σ(t)=(1+exp(-t))-1,表示第P个部位在遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示对矩阵X的转置,表示所述卷积神经网络的输出结果。
本实施例中,只有相邻层的隐含变量相互连接,每个部位都可以有多个父节点和子节点,而每个部位的可视性与同层的其他部位的可视性相关联,表现为拥有相同的父节点,后面一层的部位的可视性是与前一层的若干个部位的可视性相关的。如图7中所示,图7为遮挡处理层的处理过程示意图,第一层的前两个部位的可视性与第二层的可视性是强相关的,这是因为在结构上,提及的两个部位能够经过组合得到第二层的部位,即前面一层的两个部位在图像中可视性比较高(部位匹配程度比较高)直接会导致后一层能够被它们组合出来的部位的可视性也比较高。除了前一层的部位之外,第二层部位的可视性也与自身的部位得分有关,其直观的理解是,当一个部位的匹配得分比较高,那么其可视性自然就比较高。遮挡处理层所有的参数均由后向传播算法学习得出。
步骤105、分类器根据遮挡处理层的输出结果,确定检测区域内是否有目标物体。
遮挡处理层根据各个部位的得分图确定各个部位的遮挡程度,遮挡程度是通过可视性来体现的,分类器根据遮挡处理层输出的结果,确定检测区域内是否有目标物体,并输出检测结果。如图8所示,图8为本发明目标物体检测结果示意图。
本实施例提供的方法,由联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习为一体的统一的卷积神经网络模型,通过形变处理层使得卷积神经网络能够学习目标物体的形变,并且形变学习和遮挡处理进行交互,这种交互能提高提高分类器根据所学习到的特征分辨行人和非行人的能力。
在采用实施例一提供的基于卷积神经网络的目标物体检测方法之前,首先需要对该卷积神经网络进行预训练,得到卷积神经网络各个层的参数。在本发明中,我们所有的参数,包括图像的特征,形变参数,可视性关系均可以通过统一的架构学出。在训练如此多级的网络过程中,采用了一种多级训练的策略。首先采用监督式学习的方法学习了一个只有一层的卷积网络,此过程中采用Gabor滤波器作为过滤器的初始值。当该一层的网络学好之后,再增添第二层,继而学习两层的网络,而之前所学出的只有一层的网络作为初始值对待。在整个学习的过程中,均采用后向传播的方法学习所有参数。
在通过一次预训练得到各个参数之后,还可以对学习得到的参数进行调整,以下以对遮挡估计层进行参数调整为例进行说明,预测误差通过后向传播方法更新所有参数,其中对于s的传播梯度的表达式如下表示:
其中,Θ表示Hadamard积,Hadamard积的运算为(UΘV)i,j=Ui,jVi,j,L表示损失函数。
损失函数可以有多中形式。例如,对于平方和误差损失函数,则其表达式为:
对于对数误差损失函数来说,则其表达式为:
其中,ygnd表示训练样本的真实结果,表示通过本发明的卷积神经网络得到的输出结果,如果损失函数的值不满足预设的条件,则继续对各个参数进行训练,直到损失函数满足预设条件。
在上述实施例一的基础上,本发明实施例二将通过一个具体的例子对实施例一所示的方法进行详细说明,如图9所示,图9本发明总体模型示意图。如图9所示,首先,输入一副84×72大小的图像,该图像由3层组成,对输入的图像进行第一层卷积,局部滑动窗的大小是9×9,得到过滤后的64层的76×24大小的图像,然后根据每个像素点相邻的周围四个像素点求取平均值,得到64层的19×15大小的图像,然后提取该19×15大小的图像的特征图,上述这些过程是由特征提取层完成的,然后由部位检测曾对提取后的特征图进行第二层卷积运算,具体的使用20个过滤器对图像进行过滤,得到20个部位响应图,然后,由形变处理层根据20个部位的响应图分别确定20个部位的得分图,最后遮挡处理层根据20个部位的得分图确定20个部位对应的遮挡,得到20个部位的可视性,根据20个部位的可视性确定,确定检测区域内是否有目标物体。
图10为本发明卷积神经网络一个实施例的结构示意图,如图10所示,本实施提供的卷积神经网络包括:特征提取层21、部位检测层22、形变处理层23、遮挡处理层24和分类器25。
特征提取层21,用于根据提取图像中检测区域的像素值,对检测区域的像素值进行预处理,并对预处理后的图像进行特征提取,得到检测区域的特征图;
部位检测层22,用于通过M个过滤器分别检测检测区域的特征图,输出检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
形变处理层23,用于根据M个部位对应的响应图分别确定M个部位的形变,并根据N个部位的形变确定M个部位的得分图;
遮挡处理层24,用于根据M个部位的得分图确定M个部位对应的遮挡;
分类器25,用于根据遮挡处理层的输出结果,确定检测区域内是否有目标物体。
本实施例中,特征提取层21可以包括三个通道,分别为第一通道、第二通道、第三通道;其中,第一通道的输出数据对应检测区域内的YUV像素值的Y通道数据;
第二通道,用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上第一边缘图,Y、U、V通道分别对应一个第一边缘图,取三个第一边缘图中各位置上的最大值,组成一个第二边缘图,三个第一边缘图以及第二边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据;
第三通道,用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上的第一边缘图,Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,第三边缘图各位置的数据为0,三个第一边缘图以及第三边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据。
部位检测层22包括三个子层,分别为第一子层、第二子层和第三子层,部位检测层的第一子层包括M1个过滤器,部位检测层的第二子层包括M2个过滤器,部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;部位检测层的第一子层,用于通过M1个过滤器分别检测检测区域内的M1个部位,得到M1个响应图;部位检测层的第二子层,用于通过M2个过滤器分别检测检测区域内的M2个部位,得到M2个响应图;部位检测层的第三子层,用于通过M3个过滤器分别检测检测区域内的M3个部位,得到M3个响应图。
形变处理层23具体用于:根据M个部位对应的响应图,分别按照公式(1)得到第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示第p个部分对应的响应图,N表示第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
并根据形变得分图,按照公式(2)确定第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
遮挡处理层24包括三个子层,分别为第一子层、第二子层、第三子层;遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算各个部位的可视性:
其中,表示第P个部位在遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示卷积神经网络的输出结果。
本实施例提供的卷积神经网络科用于执行图3所示方法实施例提供技术方案,具体实现方式和技术效果类似,这里不再赘述。
图11为本发明卷积神经网络又一个实施例的结构示意图,如图11所示,本实施例的卷积神经网络300包括:处理器31和存储器32,处理器31和存储器32通过总线连接,存储器32存储执行指令,当卷积神经网络系统300运行时,处理器31与存储器32之间通信,处理器31执行指令使得卷积神经网络300执行本发明提供的基于卷积神经网络系统的目标物体检测方法。本实施例中,卷积神经网络的特征提取层、部位检测层、形变处理层、遮挡处理层和分类器都可以通过处理器31来实现,由处理器31执行各层的功能。具体地:
处理器31控制特征提取层根据提取图像中检测区域的像素值,对检测区域的像素值进行预处理,并对预处理后的图像进行特征提取,得到检测区域的特征图;
处理器31控制部位检测层通过M个过滤器分别检测检测区域的特征图,输出检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
处理器31控制形变处理层根据M个部位对应的响应图分别确定M个部位的形变,并根据N个部位的形变确定M个部位的得分图;
处理器31控制遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡;
处理器31控制分类器根据遮挡处理层的输出结果,确定检测区域内是否有目标物体。
本实施例中,特征提取层包括三个通道,分别为第一通道、第二通道、第三通道。
其中,第一通道的输出数据对应检测区域内的YUV像素值的Y通道数据;
第二通道用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上第一边缘图,Y、U、V通道分别对应一个第一边缘图,取三个第一边缘图中各位置上的最大值,组成一个第二边缘图,三个第一边缘图以及第二边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据;
第三通道用于将检测区域的大小缩小为原大小的四分之一,并将缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤转换为YUV格式的检测区域,分别得到检测区域在Y、U、V三个通道上的第一边缘图,Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,第三边缘图各位置的数据为0,三个第一边缘图以及第三边缘图大小相同,都为检测区域的四分之一大小,将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据。
部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,部位检测层的第一子层包括M1个过滤器,部位检测层的第二子层包括M2个过滤器,部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;部位检测层的第一子层的M1个过滤器分别检测检测区域内的M1个部位,得到M1个响应图;部位检测层的第二子层的M2个过滤器分别检测检测区域内的M2个部位,得到M2个响应图;部位检测层的第三子层的M3个过滤器分别检测检测区域内的M3个部位,得到M3个响应图。
本实施例中,形变处理层根据M个部位对应的响应图分别确定M个部位的形变,并根据M个部位的形变确定M个部位的得分图,具体为:
形变处理层根据M个部位对应的响应图,分别按照公式(1)得到第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示第p个部分对应的响应图,N表示第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
形变处理层根据形变得分图,按照公式(2)确定第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
本实施例中,遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层,遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡,包括:
遮挡处理层确定M个部位在遮挡处理层的子层上的得分图和可视性;
遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算各个部位的可视性:
其中,表示第P个部位在遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示卷积神经网络的输出结果。
本实施例提供的卷积神经网络科用于执行图3所示方法实施例提供技术方案,具体实现方式和技术效果类似,这里不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.基于卷积神经网络的目标物体检测方法,其特征在于,所述卷积神经网络包括:特征提取层、部位检测层、形变处理层、遮挡处理层和分类器;
所述特征提取层根据提取图像中检测区域的像素值,对所述检测区域的像素值进行预处理,并对所述预处理后的图像进行特征提取,得到所述检测区域的特征图;
所述部位检测层通过M个过滤器分别检测所述检测区域的特征图,输出所述检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述N个部位的形变确定所述M个部位的得分图;
所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡;
所述分类器根据所述遮挡处理层的输出结果,确定所述检测区域内是否有目标物体。
2.根据权利要求1所述的方法,其特征在于,所述特征提取层提取图像中检测区域的像素值,对所述检测区域内的像素值进行预处理,包括:
所述特征提取层提取所述图像中检测区域的像素值,将所述检测区域的像素值转换为三个通道的数据,所述三个通道分别为第一通道、第二通道、第三通道;
其中,所述第一通道的输出数据对应所述检测区域内的YUV像素值的Y通道数据;
所述第二通道用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,取所述三个第一边缘图中各位置上的最大值,组成一个第二边缘图,所述三个第一边缘图以及第二边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据;
所述第三通道用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上的第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,所述第三边缘图各位置的数据为0,所述三个第一边缘图以及第三边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。
3.根据权利要求2所述的方法,其特征在于,所述部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,所述部位检测层的第一子层包括M1个过滤器,所述部位检测层的第二子层包括M2个过滤器,所述部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;
所述部位检测层的第一子层的M1个过滤器分别检测所述检测区域内的M1个部位,得到M1个响应图;
所述部位检测层的第二子层的M2个过滤器分别检测所述检测区域内的M2个部位,得到M2个响应图;
所述部位检测层的第三子层的M3个过滤器分别检测所述检测区域内的M3个部位,得到M3个响应图。
4.根据权利要求1所述的方法,其特征在于,所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述M个部位的形变确定所述M个部位的得分图,包括:
所述形变处理层根据所述M个部位对应的响应图,分别按照公式(1)得到所述第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示所述第p个部分对应的响应图,N表示所述第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
所述形变处理层根据所述形变得分图,按照公式(2)确定所述第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
5.根据权利要求1所述的方法,其特征在于,所述遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层,所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡,包括:
所述遮挡处理层确定所述M个部位在所述遮挡处理层的子层上的得分图和可视性;
所述遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算所述各个部位的可视性:
其中,表示第P个部位在所述遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在所述遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在所述遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示所述卷积神经网络的输出结果。
6.一种卷积神经网络,其特征在于,包括:
特征提取层,用于根据提取图像中检测区域的像素值,对所述检测区域的像素值进行预处理,并对所述预处理后的图像进行特征提取,得到所述检测区域的特征图;
部位检测层,用于通过M个过滤器分别检测所述检测区域的特征图,输出所述检测区域的M个部位对应的响应图,每个过滤器用于检测一个部位,每个部位对应一个响应图;
形变处理层,用于根据所述M个部位对应的响应图分别确定所述M个部位的形变,并根据所述N个部位的形变确定所述M个部位的得分图;
遮挡处理层,用于根据所述M个部位的得分图确定所述M个部位对应的遮挡;
分类器,用于根据所述遮挡处理层的输出结果,确定所述检测区域内是否有目标物体。
7.根据权利要求6所述的卷积神经网络,其特征在于,所述特征提取层包括三个通道,分别为第一通道、第二通道、第三通道;
其中,所述第一通道的输出数据对应所述检测区域内的YUV像素值的Y通道数据;
所述第二通道,用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,取所述三个第一边缘图中各位置上的最大值,组成一个第二边缘图,所述三个第一边缘图以及第二边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据;
所述第三通道,用于将所述检测区域的大小缩小为原大小的四分之一,并将所述缩小后的检测区域转换成YUV格式,通过Sobel边缘算子过滤所述转换为YUV格式的检测区域,分别得到所述检测区域在Y、U、V三个通道上的第一边缘图,所述Y、U、V通道分别对应一个第一边缘图,生成一个第三边缘图,所述第三边缘图各位置的数据为0,所述三个第一边缘图以及第三边缘图大小相同,都为所述检测区域的四分之一大小,将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。
8.根据权利要求7所述的卷积神经网络,其特征在于,所述部位检测层包括三个子层,分别为第一子层、第二子层和第三子层,所述部位检测层的第一子层包括M1个过滤器,所述部位检测层的第二子层包括M2个过滤器,所述部位检测层的第三子层包括M3个过滤器,其中,M1+M2+M3=M;
所述部位检测层的第一子层,用于通过M1个过滤器分别检测所述检测区域内的M1个部位,得到M1个响应图;
所述部位检测层的第二子层,用于通过M2个过滤器分别检测所述检测区域内的M2个部位,得到M2个响应图;
所述部位检测层的第三子层,用于通过M3个过滤器分别检测所述检测区域内的M3个部位,得到M3个响应图。
9.根据权利要求8所述卷积神经网络,其特征在于,所述形变处理层具体用于:
所述形变处理层根据所述M个部位对应的响应图,分别按照公式(1)得到所述第P个部位的形变得分图:
其中,Bp表示第p个部分的形变得分图,1≤p≤M,Mp表示所述第p个部分对应的响应图,N表示所述第p个部位的限制条件,Dn,p表示第n个限制条件对应的得分图,1≤n≤N,Cn,p表示第n个限制条件对应的权重;
所述形变处理层根据所述形变得分图,按照公式(2)确定所述第P部位的得分图:
其中,表示(x,y)位置上Bp的值。
10.根据权利要求8所述卷积神经网络,其特征在于,所述遮挡处理层包括三个子层,分别为第一子层、第二子层、第三子层;
所述遮挡处理层的第一子层、第二子层、第三子层分别按照公式(3)、(4)、(5)计算所述各个部位的可视性:
其中,表示第P个部位在所述遮挡处理层的第1层上的得分图,表示的权重矩阵,表示的偏置,表示第P个部位在所述遮挡处理层的第1层上的可视性,σ(t)=(1+exp(-t))-1,表示第P个部位在所述遮挡处理层的第l子层上可视性,用Wl表示hl和hl+1之间的传递矩阵,表示Wl的第j列,Wcls表示隐含变量的线性分类器的参数,(x)T表示矩阵X的转置,表示所述卷积神经网络的输出结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310633797.4A CN104680508B (zh) | 2013-11-29 | 2013-11-29 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
PCT/CN2014/081676 WO2015078185A1 (zh) | 2013-11-29 | 2014-07-04 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310633797.4A CN104680508B (zh) | 2013-11-29 | 2013-11-29 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104680508A true CN104680508A (zh) | 2015-06-03 |
CN104680508B CN104680508B (zh) | 2018-07-03 |
Family
ID=53198302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310633797.4A Active CN104680508B (zh) | 2013-11-29 | 2013-11-29 | 卷积神经网络和基于卷积神经网络的目标物体检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104680508B (zh) |
WO (1) | WO2015078185A1 (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573731A (zh) * | 2015-02-06 | 2015-04-29 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
CN105976400A (zh) * | 2016-05-10 | 2016-09-28 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
WO2017015947A1 (en) * | 2015-07-30 | 2017-02-02 | Xiaogang Wang | A system and a method for object tracking |
CN106529569A (zh) * | 2016-10-11 | 2017-03-22 | 北京航空航天大学 | 基于深度学习的三维模型三角面特征学习分类方法及装置 |
CN106548207A (zh) * | 2016-11-03 | 2017-03-29 | 北京图森互联科技有限责任公司 | 一种基于神经网络的图像处理方法及装置 |
CN106599832A (zh) * | 2016-12-09 | 2017-04-26 | 重庆邮电大学 | 一种基于卷积神经网络的多类障碍物检测与识别方法 |
CN106778773A (zh) * | 2016-11-23 | 2017-05-31 | 北京小米移动软件有限公司 | 图片中目标物的定位方法及装置 |
CN106803247A (zh) * | 2016-12-13 | 2017-06-06 | 上海交通大学 | 一种基于多级筛选卷积神经网络的微血管瘤自动检测方法 |
CN106845415A (zh) * | 2017-01-23 | 2017-06-13 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
CN106845338A (zh) * | 2016-12-13 | 2017-06-13 | 深圳市智美达科技股份有限公司 | 视频流中行人检测方法与系统 |
WO2017151926A1 (en) * | 2016-03-03 | 2017-09-08 | Google Inc. | Deep machine learning methods and apparatus for robotic grasping |
CN107609586A (zh) * | 2017-09-08 | 2018-01-19 | 深圳市唯特视科技有限公司 | 一种基于自我监督的视觉表征学习方法 |
CN108229509A (zh) * | 2016-12-16 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于识别物体类别的方法及装置、电子设备 |
US10157441B2 (en) | 2016-12-27 | 2018-12-18 | Automotive Research & Testing Center | Hierarchical system for detecting object with parallel architecture and hierarchical method thereof |
WO2018233708A1 (zh) * | 2017-06-23 | 2018-12-27 | 华为技术有限公司 | 图像显著性物体检测方法和装置 |
CN109101926A (zh) * | 2018-08-14 | 2018-12-28 | 河南工业大学 | 基于卷积神经网络的空中目标检测方法 |
CN109102543A (zh) * | 2018-08-17 | 2018-12-28 | 深圳蓝胖子机器人有限公司 | 基于图像分割的物体定位方法、设备和存储介质 |
CN109190455A (zh) * | 2018-07-18 | 2019-01-11 | 东南大学 | 基于高斯混合和自回归滑动平均模型的黑烟车识别方法 |
CN109284606A (zh) * | 2018-09-04 | 2019-01-29 | 中国人民解放军陆军工程大学 | 基于经验特征与卷积神经网络的数据流异常检测系统 |
CN109297975A (zh) * | 2018-08-16 | 2019-02-01 | 奇酷互联网络科技(深圳)有限公司 | 移动终端及检测方法、存储装置 |
US10207402B2 (en) | 2016-03-03 | 2019-02-19 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
CN110119682A (zh) * | 2019-04-04 | 2019-08-13 | 北京理工雷科电子信息技术有限公司 | 一种红外遥感图像火点识别方法 |
CN110610475A (zh) * | 2019-07-07 | 2019-12-24 | 河北工业大学 | 一种深度卷积神经网络的视觉缺陷检测方法 |
US10650211B2 (en) | 2018-03-28 | 2020-05-12 | Datalogic IP Tech, S.r.l. | Artificial intelligence-based machine readable symbol reader |
US10664728B2 (en) | 2017-12-30 | 2020-05-26 | Wipro Limited | Method and device for detecting objects from scene images by using dynamic knowledge base |
CN111931703A (zh) * | 2020-09-14 | 2020-11-13 | 中国科学院自动化研究所 | 基于人-物体交互弱监督标签的物体检测方法 |
CN112488074A (zh) * | 2020-12-21 | 2021-03-12 | 哈尔滨理工大学 | 一种基于卷积神经网络的引导区域密集人群计数方法 |
US11568251B1 (en) * | 2020-06-05 | 2023-01-31 | Ambarella International Lp | Dynamic quantization for models run on edge devices |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018527660A (ja) | 2015-07-29 | 2018-09-20 | ノキア テクノロジーズ オーユー | ニューラルネットワークによるオブジェクト検出 |
CN107423306B (zh) * | 2016-05-24 | 2021-01-29 | 华为技术有限公司 | 一种图像检索方法及装置 |
CN108629226B (zh) * | 2017-03-15 | 2021-10-22 | 纵目科技(上海)股份有限公司 | 一种基于图像分层技术的车辆检测方法及系统 |
CN107122798A (zh) * | 2017-04-17 | 2017-09-01 | 深圳市淘米科技有限公司 | 基于深度卷积网络的引体向上计数检测方法及装置 |
CN108320026B (zh) * | 2017-05-16 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法和装置 |
CN108121986B (zh) * | 2017-12-29 | 2019-12-17 | 深圳云天励飞技术有限公司 | 目标检测方法及装置、计算机装置和计算机可读存储介质 |
CN109754357B (zh) * | 2018-01-26 | 2021-09-21 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置以及处理设备 |
CN111950727B (zh) * | 2020-08-06 | 2022-10-04 | 中科智云科技有限公司 | 图像数据的神经网络训练和测试方法及设备 |
CN114224354B (zh) * | 2021-11-15 | 2024-01-30 | 吉林大学 | 心律失常分类方法、装置及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038337A (en) * | 1996-03-29 | 2000-03-14 | Nec Research Institute, Inc. | Method and apparatus for object recognition |
CN101957682A (zh) * | 2010-09-16 | 2011-01-26 | 南京航空航天大学 | 载荷识别交互式电子白板及实现方法 |
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN102169544A (zh) * | 2011-04-18 | 2011-08-31 | 苏州市慧视通讯科技有限公司 | 基于多特征融合的人脸遮挡检测方法 |
CN102663409A (zh) * | 2012-02-28 | 2012-09-12 | 西安电子科技大学 | 一种基于hog-lbp描述的行人跟踪方法 |
CN103279759A (zh) * | 2013-06-09 | 2013-09-04 | 大连理工大学 | 一种基于卷积神经网络的车辆前方可通行性分析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274714A (en) * | 1990-06-04 | 1993-12-28 | Neuristics, Inc. | Method and apparatus for determining and organizing feature vectors for neural network recognition |
JP5368687B2 (ja) * | 2007-09-26 | 2013-12-18 | キヤノン株式会社 | 演算処理装置および方法 |
CN101763641B (zh) * | 2009-12-29 | 2011-09-14 | 电子科技大学 | 一种模拟视觉机制的图像目标物体轮廓检测方法 |
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US8582807B2 (en) * | 2010-03-15 | 2013-11-12 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
-
2013
- 2013-11-29 CN CN201310633797.4A patent/CN104680508B/zh active Active
-
2014
- 2014-07-04 WO PCT/CN2014/081676 patent/WO2015078185A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038337A (en) * | 1996-03-29 | 2000-03-14 | Nec Research Institute, Inc. | Method and apparatus for object recognition |
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN101957682A (zh) * | 2010-09-16 | 2011-01-26 | 南京航空航天大学 | 载荷识别交互式电子白板及实现方法 |
CN102169544A (zh) * | 2011-04-18 | 2011-08-31 | 苏州市慧视通讯科技有限公司 | 基于多特征融合的人脸遮挡检测方法 |
CN102663409A (zh) * | 2012-02-28 | 2012-09-12 | 西安电子科技大学 | 一种基于hog-lbp描述的行人跟踪方法 |
CN103279759A (zh) * | 2013-06-09 | 2013-09-04 | 大连理工大学 | 一种基于卷积神经网络的车辆前方可通行性分析方法 |
Non-Patent Citations (6)
Title |
---|
《2009 IEEE 12TH INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
《2013 16TH INTERNATIONAL IEEE CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS》 * |
《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
《中国图象图形学报》 * |
《大连大学学报》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573731B (zh) * | 2015-02-06 | 2018-03-23 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
CN104573731A (zh) * | 2015-02-06 | 2015-04-29 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
US10558891B2 (en) | 2015-07-30 | 2020-02-11 | Beijing Sensetime Technology Development Co., Ltd. | Systems and methods for object tracking |
CN108027972A (zh) * | 2015-07-30 | 2018-05-11 | 北京市商汤科技开发有限公司 | 用于对象跟踪的系统和方法 |
CN108027972B (zh) * | 2015-07-30 | 2022-03-15 | 北京市商汤科技开发有限公司 | 用于对象跟踪的系统和方法 |
WO2017015947A1 (en) * | 2015-07-30 | 2017-02-02 | Xiaogang Wang | A system and a method for object tracking |
US9914213B2 (en) | 2016-03-03 | 2018-03-13 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
WO2017151926A1 (en) * | 2016-03-03 | 2017-09-08 | Google Inc. | Deep machine learning methods and apparatus for robotic grasping |
US11045949B2 (en) | 2016-03-03 | 2021-06-29 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
US10639792B2 (en) | 2016-03-03 | 2020-05-05 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
US11548145B2 (en) | 2016-03-03 | 2023-01-10 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
US10207402B2 (en) | 2016-03-03 | 2019-02-19 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
US10946515B2 (en) | 2016-03-03 | 2021-03-16 | Google Llc | Deep machine learning methods and apparatus for robotic grasping |
CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN105976400A (zh) * | 2016-05-10 | 2016-09-28 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106127204B (zh) * | 2016-06-30 | 2019-08-09 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
US10769493B2 (en) | 2016-07-27 | 2020-09-08 | Beijing Kuangshi Technology Co., Ltd. | Method and apparatus for neural network training and construction and method and apparatus for object detection |
CN106529569A (zh) * | 2016-10-11 | 2017-03-22 | 北京航空航天大学 | 基于深度学习的三维模型三角面特征学习分类方法及装置 |
CN106548207A (zh) * | 2016-11-03 | 2017-03-29 | 北京图森互联科技有限责任公司 | 一种基于神经网络的图像处理方法及装置 |
CN106778773A (zh) * | 2016-11-23 | 2017-05-31 | 北京小米移动软件有限公司 | 图片中目标物的定位方法及装置 |
CN106599832A (zh) * | 2016-12-09 | 2017-04-26 | 重庆邮电大学 | 一种基于卷积神经网络的多类障碍物检测与识别方法 |
CN106803247B (zh) * | 2016-12-13 | 2021-01-22 | 上海交通大学 | 一种基于多级筛选卷积神经网络的微血管瘤图像识别方法 |
CN106845338A (zh) * | 2016-12-13 | 2017-06-13 | 深圳市智美达科技股份有限公司 | 视频流中行人检测方法与系统 |
CN106803247A (zh) * | 2016-12-13 | 2017-06-06 | 上海交通大学 | 一种基于多级筛选卷积神经网络的微血管瘤自动检测方法 |
CN106845338B (zh) * | 2016-12-13 | 2019-12-20 | 深圳市智美达科技股份有限公司 | 视频流中行人检测方法与系统 |
CN108229509B (zh) * | 2016-12-16 | 2021-02-26 | 北京市商汤科技开发有限公司 | 用于识别物体类别的方法及装置、电子设备 |
US10977523B2 (en) | 2016-12-16 | 2021-04-13 | Beijing Sensetime Technology Development Co., Ltd | Methods and apparatuses for identifying object category, and electronic devices |
CN108229509A (zh) * | 2016-12-16 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于识别物体类别的方法及装置、电子设备 |
US10157441B2 (en) | 2016-12-27 | 2018-12-18 | Automotive Research & Testing Center | Hierarchical system for detecting object with parallel architecture and hierarchical method thereof |
CN106845415B (zh) * | 2017-01-23 | 2020-06-23 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
CN106845415A (zh) * | 2017-01-23 | 2017-06-13 | 中国石油大学(华东) | 一种基于深度学习的行人精细化识别方法及装置 |
WO2018233708A1 (zh) * | 2017-06-23 | 2018-12-27 | 华为技术有限公司 | 图像显著性物体检测方法和装置 |
US11430205B2 (en) | 2017-06-23 | 2022-08-30 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting salient object in image |
CN107609586A (zh) * | 2017-09-08 | 2018-01-19 | 深圳市唯特视科技有限公司 | 一种基于自我监督的视觉表征学习方法 |
US10664728B2 (en) | 2017-12-30 | 2020-05-26 | Wipro Limited | Method and device for detecting objects from scene images by using dynamic knowledge base |
US10650211B2 (en) | 2018-03-28 | 2020-05-12 | Datalogic IP Tech, S.r.l. | Artificial intelligence-based machine readable symbol reader |
CN109190455A (zh) * | 2018-07-18 | 2019-01-11 | 东南大学 | 基于高斯混合和自回归滑动平均模型的黑烟车识别方法 |
CN109190455B (zh) * | 2018-07-18 | 2021-08-13 | 东南大学 | 基于高斯混合和自回归滑动平均模型的黑烟车识别方法 |
CN109101926A (zh) * | 2018-08-14 | 2018-12-28 | 河南工业大学 | 基于卷积神经网络的空中目标检测方法 |
CN109297975A (zh) * | 2018-08-16 | 2019-02-01 | 奇酷互联网络科技(深圳)有限公司 | 移动终端及检测方法、存储装置 |
CN109102543A (zh) * | 2018-08-17 | 2018-12-28 | 深圳蓝胖子机器人有限公司 | 基于图像分割的物体定位方法、设备和存储介质 |
CN109284606A (zh) * | 2018-09-04 | 2019-01-29 | 中国人民解放军陆军工程大学 | 基于经验特征与卷积神经网络的数据流异常检测系统 |
CN109284606B (zh) * | 2018-09-04 | 2019-08-27 | 中国人民解放军陆军工程大学 | 基于经验特征与卷积神经网络的数据流异常检测系统 |
CN110119682A (zh) * | 2019-04-04 | 2019-08-13 | 北京理工雷科电子信息技术有限公司 | 一种红外遥感图像火点识别方法 |
CN110610475A (zh) * | 2019-07-07 | 2019-12-24 | 河北工业大学 | 一种深度卷积神经网络的视觉缺陷检测方法 |
CN110610475B (zh) * | 2019-07-07 | 2021-09-03 | 河北工业大学 | 一种深度卷积神经网络的视觉缺陷检测方法 |
US11568251B1 (en) * | 2020-06-05 | 2023-01-31 | Ambarella International Lp | Dynamic quantization for models run on edge devices |
CN111931703A (zh) * | 2020-09-14 | 2020-11-13 | 中国科学院自动化研究所 | 基于人-物体交互弱监督标签的物体检测方法 |
CN112488074A (zh) * | 2020-12-21 | 2021-03-12 | 哈尔滨理工大学 | 一种基于卷积神经网络的引导区域密集人群计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104680508B (zh) | 2018-07-03 |
WO2015078185A1 (zh) | 2015-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104680508A (zh) | 卷积神经网络和基于卷积神经网络的目标物体检测方法 | |
CN109886986B (zh) | 一种基于多分支卷积神经网络的皮肤镜图像分割方法 | |
CN103886589B (zh) | 面向目标的自动化高精度边缘提取方法 | |
CN110674874B (zh) | 基于目标精细组件检测的细粒度图像识别方法 | |
CN103996018B (zh) | 基于4dlbp的人脸识别方法 | |
WO2015010451A1 (zh) | 一种从单幅图像检测道路的方法 | |
EP3861482A1 (en) | Verification of classification decisions in convolutional neural networks | |
TW201706918A (zh) | 作爲供神經網路的訓練準則的濾波器特異性 | |
CN103870818B (zh) | 一种烟雾检测方法和装置 | |
CN107909081A (zh) | 一种深度学习中图像数据集的快速获取和快速标定方法 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
CN106651774A (zh) | 一种车牌超分辨率模型重建方法及装置 | |
CN103996185A (zh) | 一种基于注意力td-bu机制的图像分割方法 | |
CN104636732A (zh) | 一种基于序列深信度网络的行人识别方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN113269103B (zh) | 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备 | |
CN107944354A (zh) | 一种基于深度学习的车辆检测方法 | |
CN105354547A (zh) | 一种结合纹理和彩色特征的行人检测方法 | |
KR102120453B1 (ko) | 영상 특징의 미분 및 지도 학습을 이용하여 비디오의 장면 상황 정보를 생성하는 방법 및 장치 | |
Ibánez et al. | Genetic approaches for topological active nets optimization | |
Gao et al. | A real-time drivable road detection algorithm in urban traffic environment | |
CN112926500B (zh) | 一种结合头部和整体信息的行人检测方法 | |
Yang et al. | A novel vision-based framework for real-time lane detection and tracking | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
Dosaev et al. | A new real-time method for finding temporary and permanent road marking and its applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |