CN105740891B - 基于多层次特征提取和上下文模型的目标检测 - Google Patents

基于多层次特征提取和上下文模型的目标检测 Download PDF

Info

Publication number
CN105740891B
CN105740891B CN201610056601.3A CN201610056601A CN105740891B CN 105740891 B CN105740891 B CN 105740891B CN 201610056601 A CN201610056601 A CN 201610056601A CN 105740891 B CN105740891 B CN 105740891B
Authority
CN
China
Prior art keywords
window
picture
people
class
context model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610056601.3A
Other languages
English (en)
Other versions
CN105740891A (zh
Inventor
刘波
马增妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xiaofeng Technology Co.,Ltd.
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201610056601.3A priority Critical patent/CN105740891B/zh
Publication of CN105740891A publication Critical patent/CN105740891A/zh
Application granted granted Critical
Publication of CN105740891B publication Critical patent/CN105740891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

基于多层次特征提取和上下文模型的目标检测,本发明所构造的模型主要是统计了真实图片中图像之间的空间位置关系,从而可以提高目标检测的正确率。无论图像是同类别还是不同类,都会有一些特定的空间位置关系。首先对一副图片进行选择搜索,产生大量region proposals,然后对每一幅图片的所有region proposals进行特征提取,采用的是7层的卷积神经网络,最后用支持向量机进行分类。本发明给出一种新的找到最佳物体检测位置的方法。主要解决的技术问题是提供一种新的上下文模型,代替原有的非极大值抑制方法,用来获得更好的目标检测正确率。

Description

基于多层次特征提取和上下文模型的目标检测
技术领域
本发明属于计算机机器学习领域,具体是把机器学习算法应用到图像处理中的目标检测上,即定位图片中目标位置的一种算法。
背景技术
目标检测是定位图像中目标位置的一种算法,它将目标的分割和识别合二为一。总结2010—2012年间,在标准的视觉检测PASCAL VOC数据集上训练的各种算法的平均查准率后,不难发现,算法进步缓慢,几乎都是集成系统或者在已有算法上的一点点改进。直到2012年,Alex Krizhevsky应用卷积神经网络(Convolutional Neural Networks)在图像分类上并取得很大的进步,在Alex Krizhevsky的基础上,Ross Girshick提出了在PASCALVOC数据集上应用卷积神经网络(Convolutional Neural Networks)提取图像的特征,并用线性的支持向量机(Support Vector Machine)进行分类,从而判断图像的所属类别即实现目标检测。
Ross Girshick的具体内容是首先对一副图片进行选择搜索,产生大量regionproposals,然后对每一幅图片的所有region proposals进行特征提取,采用的是7层的卷积神经网络,最后用支持向量机进行分类。
传统的目标检测算法一般都采用滑动窗口的方法来解决定位题,但是由于RossGirshick采用的是7层卷积神经网络,在5层卷积后得到的图像大小已经很小了,不适合滑动窗口,而且滑动窗口耗时长。因此,Ross Girshick采用选择搜索的方法产生大量的region proposals。选择搜索通过分割方法将图分成多个regions,再用最小生成树算法合并像素点,构成一个个region proposals。第一步分割图片,把图像(Image)表示成图结构(Graph),Image中的每一个像素看成Graph中的每一个顶点,像素之间的关系构成Graph的边,边得权值是像素之间的灰度差值,用最小生成树算法合并像素点,构成一个个regions。第二部合并regions,首先计算所有regions之间两两的颜色相似度,纹理相似度,大小相似度,吻合相似度,再把这4种相似度组合起来,得到最终的相似度。根据相似度合并最像的2个regions,再重新计算新产生的region和其它剩下的regions的相似度。重复上述过程直到整张图片都聚合成了一个大的region,随机给每个region打分,并按分数进行排序,选出前K个子集。
以Alex Krizhevsky提出的7层卷积神经网络为框架,对每一幅图片的所有regionproposals进行特征提取。7层卷积神经网络中前5层是卷基层,后2层是全连接层。因为卷积神经网络的输入是固定格式的227*227,而经过选择搜索后得到的region proposals大小不定,所以,对每一个region proposal先进行长宽调整再输入网络。最后把从网络输出的结果用线性的支持向量机进行分类,从而进行目标检测。为了消除多余的框,找到最佳的物体检测的位置,一般采用非极大值抑制(non-maxima suppression)方法。
发明目的
本发明给出一种新的找到最佳物体检测位置的方法。主要解决的技术问题是提供一种新的上下文模型,代替原有的非极大值抑制(non-maxima suppression)方法,用来获得更好的目标检测正确率。
本发明所构造的模型主要是统计了真实图片中图像之间的空间位置关系,从而可以提高目标检测的正确率。无论图像是同类别还是不同类,都会有一些特定的空间位置关系。比如人和自行车这两类图像,它俩之间的空间位置关系就只可能是人在自行车上(above),或者人在自行车的旁边(next-to),很少会出现自行车在人上(above)这种空间位置关系,再比如人和人的空间位置关系一般都是人在人的旁边(next-to),很少有人在人上(above)的空间位置关系。发明的流程如图1,主要步骤如下:
S1构造上下文模型
首先构造一个上下文模型,用于捕获目标检测器之间的关系。用一系列有重合的窗口明确表示一副图片,第i个窗口的位置用其中心和长宽表示,写作Ii=(x,y,s),N表示一副图片有N个窗口,xi表示从第i个窗口提取的图片特征,整幅图片用X={xi:i=1,……N}表示,K代表图像类别个数(本方法所用的是PASCALL VOC数据集,所以K为20),yi∈{0,……,K}代表了第i个窗口的标签,0表示背景,Y={yi:i=1,……N}。定义X,Y之间的分数为:
其中wyi,yj表示yi类和yj类之间的权重,wyi表示类i的局部模板,dij表示窗口i和窗口j之间的空间位置关系,把位置关系分为,上面(above),下面(below),重叠(overlapping),旁边(next-to),近(near)和远(far),因此,dij是一个稀疏的一维向量,只有满足相互之间的空间位置关系的对应项会赋值为1。人与人之间的空间位置关系总是next-to,而不会是above,所以,above及其他位置的对应项赋值为0,而next-to赋值为1。
因为计算max S(X,Y)是非确定性多项式NP(non-deterministic polynomial)hard,所以本方法采用类似贪心算法(greedy algorithms)来解决NP hard问题。算法步骤如下:
(1)对每一个窗口的向量Y初始化为背景类;
(2)贪心的选择不是背景类的单一窗口,最大限度的增加S(X,Y)的值;
(3)当选择任意一个窗口,S(X,Y)的值不增加反而减少时,停止;
I代表一系列实例化的窗口-类(window-class)I={pairs(i,c)},记Y(I)代表相关的标签向量,当所有的pairs在集合I中时,yi=c,否则yi=0;通过加窗口-类(window-class)pair(i,c)到集合I里来改变S(X,Y)的值,具体如下表示:
(i,c)=S(X,Y(I{(i,C)}))-S(X,Y(I))
初始化I={},S=0,(i,c)=wT cxi,迭代
1)(i*,c*)=argmax(i,j)I(i,c)
2)I=I{(i*,c*)}
3)S=S+(i*,c*)
4)(i,c)=(i,c)+wT c*,cdi*,i+wT c,c*di,i*
结束条件是(i*,c*)0或者所有的窗口都实例化了。
S2用切平面最优化进行凸训练
为了描述本发明的学习算法,需要把公式(1)写成如下形式:
等价于S(X,Y)=WTΨ(X,Y)
其中,
即:
凸训练的目的是假设给定一系列训练图片Xi和标签Yi,希望得到一个W的最优模型,使得给定一副新的图片Xi,可以产生一个标签向量Y*=Yi。因此,凸训练的结果是得到W的最优模型,使得Y*和Yi的差值尽可能的小,凸训练得到W最优模型的这一过程既是求下列数学公式极值的过程,
s.t.,Hi wTΔΨ(Xi,Yi,Hi)≥l(Yi,Hi)-ξi
其中,ΔΨ(Xi,Yi,Hi)=Ψ(Xi,Yi)-Ψ(Yi,Hi),
Hi是自己算出的标签,
为了方便最优化,把公式(3)的约束问题等价于公式(4)的无约束问题:
其中
对上述公式(4)进行切平面最优化,即可得到W的最优模型。
S3整体实施流程
首先通过搜索算法得到图片的region proposals,其次采用Ross Girshick的已经训练好的7层卷积神经网络CNNS进行图像的特征提取,因为本发明的训练集和测试集都采用的PASCALL VOC数据集(有20个类别),所以把Ross Girshick的7层CNNS网络结构的最后输出改成21(20个VOC类和1个背景类),最后用线性的支持向量机SVM进行图片分类,分类的过程中为了找到最佳物体检测的位置,用已经训练好的上下文模型进行更准确的定位,最终得到更好的目标检测正确率。
附图说明
图1为本发明方法的流程图。
图2空间位置关系说明图。
具体实施方式
如图1-2所示,根据上面的方法进行了实验。实验对比是否采用上下文模型目标检测的结果,本实验采用的是PASCALL VOC数据集,有20个类。由于本方法只保存了类别之间(同类或者非同类)7种空间位置关系,所以如果满足7种位置关系中的一种,那么相应的类别的目标检测正确率应该比没有采用上下文模型训练过的方法的目标检测正确率高,反之,如果相互之间没有确定的空间位置关系,则可能学习的上下文模型起到反面的作用,并且由于没有进行非极大值抑制(non-maxima suppression),可能会扰乱检测结果,导致相应的目标检测正确率下降。
表1:实验结果对比
表1:实验结果对比Class 没有采用上下文模型(单位%) 采用了上下文模型(单位%)
aero 66.9 70.7
bike 23.7 21.2
bird 58.3 53.7
boat 37.4 39.8
bottle 55.4 50.1
bus 73.3 35.8
car 58.7 34.8
cat 56.5 59.5
chair 9.7 9.6
cow 45.5 53
table 29.5 15.9
dog 49.3 43.6
horse 40.1 34
mbike 57.8 52.8
person 53.9 57.4
plant 33.8 13.3
sheep 60.7 36.9
soft 22.7 23.2
train 47.1 55.9
tv 41.3 41.9

Claims (2)

1.基于多层次特征提取和上下文模型的目标检测方法,其特征在于:
本方法所构造的模型主要是统计了真实图片中图像之间的空间位置关系,从而可以提高目标检测的正确率;无论图像是同类别还是不同类,都会有一些特定的空间位置关系;人和自行车这两类图像,它俩之间的空间位置关系就只可能是人在自行车上(above),或者人在自行车的旁边(next-to),很少会出现自行车在人上(above)这种空间位置关系;人和人的空间位置关系一般都是人在人的旁边(next-to),很少有人在人上(above)的空间位置关系;该方法的主要步骤如下,
S1构造上下文模型
首先构造一个上下文模型,用于捕获目标检测器之间的关系;用一系列有重合的窗口明确表示一副图片,第i个窗口的位置用其中心和长宽表示,写作Ii=(x,y,s),N表示一副图片有N个窗口,xi表示从第i个窗口提取的图片特征,整幅图片用X={xi:i=1,……N}表示,K代表图像类别个数,本方法所用的是PASCALLVOC数据集,所以K为20,yi∈{0,……,K}代表了第i个窗口的标签,0表示背景,Y={yi:i=1,……N};定义X,Y之间的分数为:
其中wyi,yj表示yi类和yj类之间的权重,wyi表示类i的局部模板,dij表示窗口i和窗口j之间的空间位置关系,把位置关系分为,上面(above),下面(below),重叠(overlapping),旁边(next-to),近(near)和远(far),因此,dij是一个稀疏的一维向量,只有满足相互之间的空间位置关系的对应项会赋值为1;人与人之间的空间位置关系总是next-to,而不会是above,所以,above及其他位置的对应项赋值为0,而next-to赋值为1;
因为计算max S(X,Y)是非确定性多项式NP(non-deterministic polynomial)hard,所以本方法采用类似贪心算法(greedy algorithms)来解决NPhard问题;
I代表一系列实例化的窗口-类(window-class)I={pairs(i,c)},记Y(I)代表相关的标签向量,当所有的pairs在集合I中时,yi=c,否则yi=0;通过加窗口-类(window-class)pair(i,c)到集合I里来改变S(X,Y)的值,具体如下表示:
(i,c)=S(X,Y(I{(i,C)}))-S(X,Y(I))
初始化I={},S=0,(i,c)=wT cxi,迭代
1)(i*,c*)=argmax(i,j)I(i,c)
2)I=I{(i*,c*)}
3)S=S+(i*,c*)
4)
结束条件是(i*,c*)=0或者所有的窗口都实例化了;
S2用切平面最优化进行凸训练
为了描述本方法的学习算法,需要把公式(1)写成如下形式:
等价于S(X,Y)=WTΨ(X,Y)
其中,
即:
凸训练的目的是假设给定一系列训练图片Xi和标签Yi,希望得到一个W的最优模型,使得给定一副新的图片Xi,可以产生一个标签向量Y*=Yi;因此,凸训练的结果是得到W的最优模型,使得Y*和Yi的差值尽可能的小,凸训练得到W最优模型的这一过程既是求下列数学公式极值的过程,
其中,ΔΨ(Xi,Yi,Hi)=Ψ(Xi,Yi)-Ψ(Yi,Hi),
Hi是自己算出的标签,
为了方便最优化,把公式(3)的约束问题等价于公式(4)的无约束问题:
其中
对上述公式(4)进行切平面最优化,即可得到W的最优模型;S3整体实施流程
首先通过搜索算法得到图片的候选区域,其次采用Ross Girshick的已经训练好的7层卷积神经网络CNNS进行图像的特征提取,因为本方法的训练集和测试集都采用的PASCALLVOC数据集有20个类别,所以把Ross Girshick的7层CNNS网络结构的最后输出改成21即20个VOC类和1个背景类,最后用线性的支持向量机SVM进行图片分类,分类的过程中为了找到最佳物体检测的位置,用已经训练好的上下文模型进行更准确的定位,最终得到更好的目标检测正确率。
2.根据权利要求1所述的基于多层次特征提取和上下文模型的目标检测方法,其特征在于:
算法步骤如下,
(1)对每一个窗口的向量Y初始化为背景类;
(2)贪心的选择不是背景类的单一窗口,最大限度的增加S(X,Y)的值;
(3)当选择任意一个窗口,S(X,Y)的值不增加反而减少时,停止。
CN201610056601.3A 2016-01-27 2016-01-27 基于多层次特征提取和上下文模型的目标检测 Active CN105740891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610056601.3A CN105740891B (zh) 2016-01-27 2016-01-27 基于多层次特征提取和上下文模型的目标检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610056601.3A CN105740891B (zh) 2016-01-27 2016-01-27 基于多层次特征提取和上下文模型的目标检测

Publications (2)

Publication Number Publication Date
CN105740891A CN105740891A (zh) 2016-07-06
CN105740891B true CN105740891B (zh) 2019-10-08

Family

ID=56247276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610056601.3A Active CN105740891B (zh) 2016-01-27 2016-01-27 基于多层次特征提取和上下文模型的目标检测

Country Status (1)

Country Link
CN (1) CN105740891B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408618B (zh) * 2016-08-31 2019-05-07 上海交通大学 一种基于机器学习的图像解构方法
CN106446933B (zh) * 2016-08-31 2019-08-02 河南广播电视大学 基于上下文信息的多目标检测方法
CN106372597B (zh) * 2016-08-31 2019-09-13 郑州禅图智能科技有限公司 基于自适应上下文信息的cnn交通检测方法
US10963676B2 (en) 2016-12-23 2021-03-30 Samsung Electronics Co., Ltd. Image processing method and apparatus
CN108229519B (zh) * 2017-02-17 2020-09-04 北京市商汤科技开发有限公司 图像分类的方法、装置及系统
CN106991296B (zh) * 2017-04-01 2019-12-27 大连理工大学 基于随机化贪心特征选择的集成分类方法
CN107239827B (zh) * 2017-06-18 2020-06-09 北京理工大学 一种基于人工神经网络的空间信息学习方法
CN108830903B (zh) * 2018-04-28 2021-11-05 杨晓春 一种基于cnn的钢坯位置检测方法
CN108846047A (zh) * 2018-05-30 2018-11-20 百卓网络科技有限公司 一种基于卷积特征的图片检索方法及系统
CN110298402A (zh) * 2019-07-01 2019-10-01 国网内蒙古东部电力有限公司 一种小目标检测性能优化方法
CN111553228B (zh) * 2020-04-21 2021-10-01 佳都科技集团股份有限公司 一种人包关系检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110227A (zh) * 2010-11-24 2011-06-29 清华大学 基于上下文关系的多分辨率遥感图像复合分类方法
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN103514456A (zh) * 2013-06-30 2014-01-15 安科智慧城市技术(中国)有限公司 基于压缩感知多核学习的图像分类方法及其装置
CN104778466A (zh) * 2015-04-16 2015-07-15 北京航空航天大学 一种联合多种上下文线索的图像关注区域检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070297675A1 (en) * 2006-06-26 2007-12-27 Shih-Jong J. Lee Method of directed feature development for image pattern recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110227A (zh) * 2010-11-24 2011-06-29 清华大学 基于上下文关系的多分辨率遥感图像复合分类方法
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN103514456A (zh) * 2013-06-30 2014-01-15 安科智慧城市技术(中国)有限公司 基于压缩感知多核学习的图像分类方法及其装置
CN104778466A (zh) * 2015-04-16 2015-07-15 北京航空航天大学 一种联合多种上下文线索的图像关注区域检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高分辨率遥感影像目标分类与识别研究进展;刘扬 等;《地球信息科学学报》;20151231;全文 *

Also Published As

Publication number Publication date
CN105740891A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740891B (zh) 基于多层次特征提取和上下文模型的目标检测
CN111160440B (zh) 一种基于深度学习的安全帽佩戴检测方法及装置
Li et al. Localizing and quantifying damage in social media images
CN105740909B (zh) 一种基于空间变换的自然场景下文本识别方法
CN106446933B (zh) 基于上下文信息的多目标检测方法
CN106295507B (zh) 一种基于集成卷积神经网络的性别识别方法
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN103473545B (zh) 一种基于多特征的文本图像相似度度量方法
CN107506786A (zh) 一种基于深度学习的属性分类识别方法
CN113313232B (zh) 一种基于预训练和图神经网络的功能脑网络分类方法
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
Gao et al. YOLOv4 object detection algorithm with efficient channel attention mechanism
CN105469376A (zh) 确定图片相似度的方法和装置
CN112651316A (zh) 二维和三维多人姿态估计系统及方法
CN107657276B (zh) 一种基于寻找语义类簇的弱监督语义分割方法
CN106250918A (zh) 一种基于改进的推土距离的混合高斯模型匹配方法
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN108021898A (zh) 一种基于适配距离量度学习的人物再识别方法
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN110490053B (zh) 一种基于三目摄像头深度估计的人脸属性识别方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211122

Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee after: Shenzhen Xiaofeng Technology Co.,Ltd.

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology