CN105512683A

CN105512683A - 基于卷积神经网络的目标定位方法及装置

Info

Publication number: CN105512683A
Application number: CN201510900538.2A
Authority: CN
Inventors: 王智玉
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-04-20
Anticipated expiration: 2035-12-08
Also published as: CN105512683B

Abstract

本发明提供基于卷积神经网络的目标定位方法及装置，该方法包括：提取训练样本的CNN特征；使用CNN特征对SVM分类器进行训练，得到第一级分类器；使用第一级分类器和训练样本在不同尺度下缩放的图像的CNN特征对SVM分类器进行训练，得到第二级分类器；提取测试样本的CNN特征，利用第一级分类器进行检测，得到多个测试目标框及对应的一级得分；利用第二级分类器对极大值抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；对每个剩余测试目标框的一级得分和二级得分进行加权处理，并每个剩余测试目标框进行排序。应用本发明进行目标定位时并不受限于场景，而且目标定位的准确性高。

Description

基于卷积神经网络的目标定位方法及装置

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种基于卷积神经网络的目标定位方法及装置。

背景技术

目标定位是机器视觉中的一个重要技术，定位到目标后，系统可方便地对目标进行存储、分析、3D建模、识别、跟踪和搜索等后续处理，因此目标定位的准确性直接影响到对目标的分析、识别、跟踪和搜索等的效果。

现有技术中，一般通过对图像进行预处理排除一些干扰因素，例如利用滤波对图像进行去噪处理，图像增强，量化；然后利用基于行人的HOG(HistogramofGradient，方向梯度直方图)特征，或者基于人脸的Gabor纹理特征，以及FAST匹配算法以及SIFT(Scale-invariantfeaturetransform，尺度不变特征变换)等方法对预处理后的图像进行特征提取得到一些基于区域的特征信息，比如纹理、直方图、边缘等；最后利用区域合并的方式得到目标框，可使用选择性搜索(SelectiveSearch)来得到目标框，即实现目标定位。现有技术中，预处理技术难以做到自适应处理，因此需要对不同场景设置不同的参数来确保预处理的效果，难以保证后续特征提取的准确性；而HOG特征或者Gabor特征只能描述目标的某一种显著性特征，受限于某些场景，缺乏普适性；而为了能够在不同场景中有效合并相似的小区域得到最终的目标框，使用选择性搜索(SelectiveSearch)得到的目标框数量比较多，在图像中出现多目标的情况下，得到的目标框可能就接近全图(即多个目标可能分不开)，可影响后续对目标的分析、识别、跟踪和搜索等的效果。

发明内容

本发明提供一种基于卷积神经网络的目标定位方法及装置，以解决现有技术中在目标定位时受限于某些场景，缺乏普适性，准确性低的问题。

根据本发明实施例的第一方面，提供一种基于卷积神经网络的目标定位方法，所述方法包括：

提取训练样本的CNN(ConvolutionalNeuralNetwork，卷积神经网络)特征；

使用所述CNN特征对SVM(SupportVectorMachines，支持向量机)分类器进行训练，得到级联SVM分类器的第一级分类器；使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器；

提取测试样本的CNN特征，并且利用所述第一级分类器进行检测，得到多个测试目标框及多个测试目标框的一级得分；使用非极大值抑制算法对所述多个测试目标框进行抑制，并利用所述第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；

对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数，并根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。

根据本发明实施例的第二方面，提供一种基于卷积神经网络的目标定位装置，所述装置包括：

提取单元，用于提取训练样本的卷积神经网络CNN特征；

训练单元，用于使用所述CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器；并使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器；

测试单元，用于提取测试样本的CNN特征，并且利用所述第一级分类器进行检测，得到多个测试目标框及多个测试目标框的一级得分；使用非极大值抑制算法对所述多个测试目标框进行抑制，并利用所述第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；

计算单元，用于对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数；

排序单元，用于根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。

应用本发明实施例，通过提取训练样本的CNN特征,使用提取的CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器；使用第一级分类器和训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到级联SVM分类器的第二级分类器；提取测试样本的CNN特征，并且利用第一级分类器进行检测，得到多个测试目标框及多个测试目标框的一级得分；使用非极大值抑制算法对多个测试目标框进行抑制，并利用第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数，并根据剩余测试目标框的分数对每个剩余测试目标框进行排序。根据测试目标框的得分排序可以定位目标，因此使用本发明的技术方案进行目标定位时并不受限于场景，具有普适性，而且通过级联SVM分类器的第一级分类器和第二级分类器进行目标检测提高了目标定位的准确性，由此本发明解决了现有技术中在目标定位时受限于某些场景，缺乏普适性，准确性低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明一种实施方式中基于卷积神经网络的目标定位方法流程图；

图2为本发明一种实施方式中基于卷积神经网络的目标定位装置所在设备的一种硬件结构图；

图3为本发明一种实施方式中基于卷积神经网络的目标定位装置框图。

具体实施方式

为便于对本发明的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明保护范围的限定。

本发明实施例提供的技术方案可应用于机器视觉技术领域，可应用于智能交通场景下的机动车、非机动车、行人等多目标或者单目标的定位，还可应用于公安图像侦查中目标物体，如帽子、雨伞等的定位，以及泛卡口智能分析技术中某些特定目标的定位。

本申请文件中提及的训练样本和测试样本为前景图片，该前景图片可能包含比较多的背景；而正样本为目标确切位置的图片，该图片基本不包含背景元素，负样本为目标位置不确切的图片，该图片也基本不包含背景元素。

参见图1，为本发明一种实施方式中基于卷积神经网络的目标定位方法流程图，本发明实施例的执行主体可为具有图形处理能力的任意设备，这里以图形处理设备为执行主体进行描述：

步骤101：生成标定好的训练样本数据集。

其中，标定好的训练样本集包括每个训练样本的目标图片以及每个目标的标定好的位置，每个目标标定好的位置可为一个区域，如可为一个100像素*200像素的区域。

生成标定好的训练样本数据集后，可将该训练样本数据集存储为XML格式，以供后续采样正样本和负样本。

步骤102：基于标定好的训练样本数据集，采样生成正样本和负样本。

图形处理设备可利用标定好的目标位置生成正样本，例如，如果需要定位的目标是行人，正样本集就是行人，如果样本集比较大，可直接利用标定好的行人样本集作为正样本；如果样本集比较小，可根据标定好的目标位置信息对原图像采样生成样本，以确保样本集比较小的情况下采样的准确性。

对于没有标定好目标位置的样本，可在原图像中进行随机采样生成目标图片，计算随机采样生成的目标图片的位置所覆盖区域与标定好的位置所覆盖区域的重合度，如果重合度小于预设阈值，则判定采样得到的图片为负样本，否则为正样本。

步骤103：分别提取正样本和负样本的CNN特征，并使用所述CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器。

其中，使用所述CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器，包括：分别将正样本和负样本的CNN特征输入所述SVM分类器进行训练，将得到的分类器进行归一化处理，得到所述级联SVM分类器的第一级分类器。

步骤104：使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器。

在一种可能的实现方式中，如果针对原图标定好的目标提取过CNN特征，则缩放的图像就不需要重新提取CNN特征，可利用之前对原图提取到的CNN特征进行下采样，例如对所有训练图像做36种尺度(如64像素*64像素、64像素*128像素、64像素*256像素、64像素*512像素等等)的缩放，并对该尺度图像计算CNN特征。

在另一种可能的实现方式中，还可对训练样本按照不同缩放尺度进行缩放处理，针对每个缩放尺度进行缩放处理后的图像，提取对应缩放尺度下的CNN特征。

得到每个缩放尺度下的CNN特征后，使用第一级分类器对每个尺度下的CNN特征进行检测得到多个候选目标框，第一级分类器还可根据学习得到的权重对检测得到的每个尺度下的多个训练目标框计算得分，得到每个训练目标框的一级得分，使用非极大值抑制分别从每种尺度下选择少量的窗口；可对每个尺度下的多个训练目标框使用非极大值抑制算法进行抑制，得到每个尺度下的剩余训练目标框；计算每个尺度下的剩余训练目标框的位置与标定好的位置的重合度，判断重合度是否大于预设阈值，如果是，则剩余训练目标框为训练正样本目标框，否则为训练负样本目标框；分别将每个尺度下的训练正样本目标框和训练负样本目标框的一级得分输入所述SVM分类器进行训练，得到每个尺度下的第二级分类器；将每个尺度下的第二级分类器连接在一起，就可以得到级联SVM分类器的第二级分类器。

步骤105：提取测试样本的CNN特征。

在一种可能的实现方式中，对于待测试的样本，可首先对样本图像进行多尺度缩放，对多尺度缩放后的图像提取CNN特征。

在另一种可能的实现方式中，对于待测试的样本，还可直接提取原CNN特征，然后根据不同的缩放尺度，对所述原CNN特征进行计算，得到对应缩放尺度下的CNN特征。

步骤106：利用级联SVM分类器的第一级分类器对提取的CNN特征进行分类，得到多个测试目标框及每个测试目标框的一级得分。

利用第一级分类器分类后，可得到两个分类，一类是要定位的目标的目标框，如行人，另一类是非目标，即非行人的目标框。

步骤107：使用非极大值抑制算法对所述多个测试目标框进行抑制，并利用所述第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分。

由于第一级分类器分类出来的目标框的大小不同，例如，对于高10个像素、宽200个像素的目标框，是目标(比如行人)的可能性明显较低，使用第二级分类器可对目标框进行二次评分。

步骤108：对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数，并根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。

其中，排序结果表明了各个目标框内具有目标的可能性的高低。

结合图1所示的实施例可知，通过提取训练样本的CNN特征,使用提取的CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器；使用第一级分类器和训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到级联SVM分类器的第二级分类器；提取测试样本的CNN特征，并且利用第一级分类器进行检测，得到多个测试目标框及多个测试目标框的一级得分；使用非极大值抑制算法对多个测试目标框进行抑制，并利用第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数，并根据剩余测试目标框的分数对每个剩余测试目标框进行排序。根据测试目标框的得分排序可以定位目标，因此使用本发明的技术方案进行目标定位时并不受限于场景，具有普适性，而且通过级联SVM分类器的第一级分类器和第二级分类器进行目标检测提高了目标定位的准确性，由此本发明解决了现有技术中在目标定位时受限于某些场景，缺乏普适性，准确性低的问题。

参见图2，为本发明一种实施方式中基于卷积神经网络的目标定位装置所在设备的一种硬件结构图：

本发明基于卷积神经网络的目标定位装置的实施例可以应用在硬件设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明一种实施方式中基于卷积神经网络的目标定位装置所在设备的一种硬件结构图，除了图2所示的CPU、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件。

参见图3，为本发明一种实施方式中基于卷积神经网络的目标定位装置框图。

所述装置包括：提取单元310，训练单元320，测试单元330，计算单元340，排序单元350。

提取单元310，用于提取训练样本的卷积神经网络CNN特征；

训练单元320，用于使用所述CNN特征对SVM分类器进行训练，得到级联SVM分类器的第一级分类器；并使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器；

测试单元330，用于提取测试样本的CNN特征，并且利用所述第一级分类器进行检测，得到多个测试目标框及多个测试目标框的一级得分；使用非极大值抑制算法对所述多个测试目标框进行抑制，并利用所述第二级分类器对抑制后的剩余测试目标框进行打分，得到每个剩余测试目标框的二级得分；

计算单元340，用于对每个剩余测试目标框的一级得分和二级得分进行加权处理，得到每个剩余测试目标框的分数；

排序单元350，用于根据所述剩余测试目标框的分数对每个剩余测试目标框进行排序。

其中，所述训练样本包括正样本和负样本。

优选的，训练单元320包括：第一训练子单元321(图3中未示出)，用于分别将正样本和负样本的CNN特征输入所述SVM分类器进行训练；第一合并子单元322(图3中未示出)，用于将得到的分类器进行归一化处理，得到所述级联SVM分类器的第一级分类器。

优选的，训练单元320包括：提取子单元323(图3中未示出)，用于提取所述训练样本按照不同缩放尺度下的图像的CNN特征；第一分类子单元324(图3中未示出)，用于使用所述第一级分类器对每个尺度下的CNN特征进行检测，得到每个尺度下的多个训练目标框及每个训练目标框的一级得分；抑制子单元325(图3中未示出)，用于对每个尺度下的多个训练目标框使用非极大值抑制算法进行抑制，得到每个尺度下的剩余训练目标框；第二分类子单元326(图3中未示出)，用于将每个尺度下的剩余训练目标框分为训练正样本目标框和训练负样本目标框；第二训练子单元327(图3中未示出)，用于分别将每个尺度下的训练正样本目标框和训练负样本目标框的一级得分输入所述SVM分类器进行训练，得到每个尺度下的第二级分类器；第二合并子单元328(图3中未示出)，用于将每个尺度下的第二级分类器连接在一起，得到级联SVM分类器的第二级分类器。

可选的，提取子单元323具体用于：对所述训练样本按照不同缩放尺度进行缩放处理，针对每个缩放尺度进行缩放处理后的图像，提取对应缩放尺度下的CNN特征；或者，对所述训练样本提取原CNN特征，根据不同的缩放尺度，对所述原CNN特征进行计算，得到对应缩放尺度下的CNN特征。

可选的，第二分类子单元327包括：计算模块，用于计算每个尺度下的剩余训练目标框的位置与标定好的位置的重合度；判断模块，用于判断所述重合度是否大于预设阈值，如果是，则所述剩余训练目标框为训练正样本目标框，否则为训练负样本目标框。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于卷积神经网络的目标定位方法，其特征在于，所述方法包括：

提取训练样本的卷积神经网络CNN特征；

使用所述CNN特征对支持向量机SVM分类器进行训练，得到级联SVM分类器的第一级分类器；使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器；

2.根据权利要求1所述的方法，其特征在于，所述训练样本包括正样本和负样本；

所述使用所述CNN特征对支持向量机SVM分类器进行训练，得到级联SVM分类器的第一级分类器，包括：

分别将所述正样本和所述负样本的CNN特征输入所述SVM分类器进行训练，将得到的分类器归一化处理，得到所述级联SVM分类器的第一级分类器。

3.根据权利要求1所述的方法，其特征在于，所述使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器，包括：

提取所述训练样本按照不同缩放尺度下的图像的CNN特征；

使用所述第一级分类器对每个尺度下的CNN特征进行检测，得到每个尺度下的多个训练目标框及每个训练目标框的一级得分；

对每个尺度下的多个训练目标框使用非极大值抑制算法进行抑制，得到每个尺度下的剩余训练目标框；

将每个尺度下的剩余训练目标框分为训练正样本目标框和训练负样本目标框；

分别将每个尺度下的训练正样本目标框和训练负样本目标框的一级得分输入所述SVM分类器进行训练，得到每个尺度下的第二级分类器；

将每个尺度下的第二级分类器连接在一起，得到级联SVM分类器的第二级分类器。

4.根据权利要求3所述的方法，其特征在于，所述将每个尺度下的剩余训练目标框分为训练正样本目标框和训练负样本目标框，包括：

计算每个尺度下的剩余训练目标框的位置与标定好的位置的重合度；

判断所述重合度是否大于预设阈值，如果是，则所述剩余训练目标框为训练正样本目标框，否则为训练负样本目标框。

5.根据权利要求3所述的方法，其特征在于，所述提取所述训练样本按照不同缩放尺度下的图像的CNN特征，包括：

对所述训练样本按照不同缩放尺度进行缩放处理，针对每个缩放尺度进行缩放处理后的图像，提取对应缩放尺度下的CNN特征；或者，

对所述训练样本提取原CNN特征，根据不同的缩放尺度，对所述原CNN特征进行计算，得到对应缩放尺度下的CNN特征。

6.一种基于卷积神经网络的目标定位装置，其特征在于，所述装置包括：

提取单元，用于提取训练样本的卷积神经网络CNN特征；

训练单元，用于使用所述CNN特征对支持向量机SVM分类器进行训练，得到级联SVM分类器的第一级分类器；并使用所述第一级分类器和所述训练样本在不同尺度下缩放的图像的CNN特征，对SVM分类器进行训练，得到所述级联SVM分类器的第二级分类器；

7.根据权利要求6所述的装置，其特征在于，所述训练样本包括正样本和负样本；

所述训练单元包括：

第一训练子单元，用于分别将所述正样本和所述负样本的CNN特征输入所述SVM分类器进行训练；

第一合并子单元，用于将得到的分类器进行归一化处理，得到所述级联SVM分类器的第一级分类器。

8.根据权利要求6所述的装置，其特征在于，所述训练单元包括：

提取子单元，用于提取所述训练样本按照不同缩放尺度下的图像的CNN特征；

第一分类子单元，用于使用所述第一级分类器对每个尺度下的CNN特征进行检测，得到每个尺度下的多个训练目标框及每个训练目标框的一级得分；

抑制子单元，用于对每个尺度下的多个训练目标框使用非极大值抑制算法进行抑制，得到每个尺度下的剩余训练目标框；

第二分类子单元，用于将每个尺度下的剩余训练目标框分为训练正样本目标框和训练负样本目标框；

第二训练子单元，用于分别将每个尺度下的训练正样本目标框和训练负样本目标框的一级得分输入所述SVM分类器进行训练，得到每个尺度下的第二级分类器；

第二合并子单元，用于将每个尺度下的第二级分类器连接在一起，得到级联SVM分类器的第二级分类器。

9.根据权利要求8所述的装置，其特征在于，所述第二分类子单元包括：

计算模块，用于计算每个尺度下的剩余训练目标框的位置与标定好的位置的重合度；

判断模块，用于判断所述重合度是否大于预设阈值，如果是，则所述剩余训练目标框为训练正样本目标框，否则为训练负样本目标框。

10.根据权利要求8所述的装置，其特征在于，所述提取子单元具体用于：对所述训练样本按照不同缩放尺度进行缩放处理，针对每个缩放尺度进行缩放处理后的图像，提取对应缩放尺度下的CNN特征；或者，对所述训练样本提取原CNN特征，根据不同的缩放尺度，对所述原CNN特征进行计算，得到对应缩放尺度下的CNN特征。