CN112330718B - 一种基于cnn的三级信息融合视觉目标跟踪方法 - Google Patents

一种基于cnn的三级信息融合视觉目标跟踪方法 Download PDF

Info

Publication number
CN112330718B
CN112330718B CN202011259436.4A CN202011259436A CN112330718B CN 112330718 B CN112330718 B CN 112330718B CN 202011259436 A CN202011259436 A CN 202011259436A CN 112330718 B CN112330718 B CN 112330718B
Authority
CN
China
Prior art keywords
layers
image
network
layer
visual target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011259436.4A
Other languages
English (en)
Other versions
CN112330718A (zh
Inventor
罗元
蔡元霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011259436.4A priority Critical patent/CN112330718B/zh
Publication of CN112330718A publication Critical patent/CN112330718A/zh
Application granted granted Critical
Publication of CN112330718B publication Critical patent/CN112330718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于CNN的三级信息融合视觉目标跟踪方法。包括以下步骤S1:提取模板图像和检测序列图像,进行图像预处理;S2:模板图像和检测图像作为两个分支同时输入网络,网络框架采用Siamese孪生网络;S3:网络选取改进后的VGG‑11,通过三级网络融合策略,提取三个层次的卷积特征;S4:对三个层次的特征分别进行相关操作,构建三个层次的得分图;S5:对三个层次的得分图进行融合;S6:使用融合得分图输出结果。本发明有效提高了视觉目标跟踪的准确性和鲁棒性。

Description

一种基于CNN的三级信息融合视觉目标跟踪方法
技术领域
本发明属于图像处理与模式识别领域,特别是一种深度学习和孪生网络的视觉目标跟踪方法。
背景技术
视觉目标跟踪作为图像处理与模式识别的重要分支,是人工智能中具有重要研究意义的课题。其任务是指定当前图像序列中的一个特定目标,在随后图像序列播放过程中,使用矩形边界框将该特定目标锁定,实现跟踪效果。当前该方向已经发展到基于深度学习解决非约束环境下的跟踪问题。随着5G技术的普及与计算机算力的加强,视觉目标技术受到了更多的重视,其应用场景也更为广阔。智能服务机器人通过摄像头采集视频信号,然后确定跟踪目标,最后自动地对目标进行跟踪并提供相应的服务。在汽车行驶过程中,判断车辆和周围事物的运动状态,对汽车的速度和行进轨迹进行调整。当前的医疗影响涵盖丰富的人体信息,诗句目标跟踪可以找到对应的目标信息,在整个医疗影像中进行跟踪,从而实现更精准的临床诊断。除此之外,视觉目标跟踪技术在人机交互、视觉导航、农业自动化生产等领域有着至关重要的地位。
发明内容
针对现有技术的不足,本发明提出了一种具有更高准确率、鲁棒性的视觉目标跟踪方法。
为了实现上述目的,本发明采用的技术方案是,一种基于CNN的三级信息融合视觉目标跟踪方法,包括以下步骤:
S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理。
S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络。 VGG-11相比Siamese框架自带的AlexNet能够带来更好的特征提取能力,提升系统的性能。
S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,通过CNN分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图。
S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图。
S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图。
S6:使用最终得分图输出跟踪结果。
本发明通过三级融合策略,浅层的外观特征将和深层的语义特征相融合,共同构建当前目标的特征图,能够在准确分类的情况下实现更精准的定位。步骤S5通过三级融合策略获得的融合特征图,将在得分图这一维度进行进一步融合,以达到充分利用各级别特征信息的目的。
在测试数据集OTB2015中,本方法获得了0.886的准确率和0.655的成功率,相比同样的Siamese框架跟踪器分别提升9.52%和7.91%。;在测试数据集 VOT2016中,本方法获得了0.3896的准确率和15.7913的鲁棒性,相比同框架跟踪器分别提升14.22%和21.56%。所以本发明具有更高准确率、鲁棒性。
附图说明
图1为Siamese网络框图;
图2为VGG-11网络;
图3为浅层到深层特征尺寸变化图;
图4为三级信息融合流程图。
具体实施方式
参见图1,一种基于CNN的三级信息融合视觉目标跟踪方法,其包括以下步骤:
S1:对当前序列图像,选取第一帧为模板图像,后续帧为检测图像,进行图像预处理,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127×127,检测图像大小裁剪为255×255,裁剪时超出的范围使用图像的RGB均值进行填充。
S2:采用Siamese孪生网络作为整体框架,即模板图像和检测图像将分别输入两个相同的分支进行同步处理,分支网络采用改进后的VGG-11网络;网络的两个分支共享权重,分别将两个输入送入两个分支,输出他们的相似度。从而将目标跟踪转换成相似性学习问题,这很好的匹配了目标跟踪的本质,即求取模板图像和检测图像的相似度。
S3:对每个分支,采用三级信息融合策略,将整个VGG网络分为浅层、中层、深层三个部分,对每个部分的各层卷积特征进行融合。具体的,第三层卷积层conv3将通过3×1卷积和conv4构建浅层融合特征图,然后孪生网络的一对浅层融合特征图通过4×256卷积构建浅层得分图;同理,conv5、conv6、conv7 通过3×1卷积构建中层融合特征图,再通过2×256卷积构建中层得分图;conv8、conv9、conv11通过3×1卷积构建深层融合特征图,最后得到深层得分图。如图 3和图4所示。
如图2和下表所示,VGG-11将网络层数从16层减少到11层,在2层和3 层,4层和5层,7层和8层之间设置最大池化层。将11层网络分为浅层、中层、深层三个级别,其中3、4层为浅层,5、6、7层为中层,8、9、11层为深层。浅层特征包含更多的外观信息,具有更好的定位属性;深层特征包含更多的语义信息,具有更好的分类属性;中层特征居中。
Figure BDA0002774156240000031
S4:根据Siamese孪生框架,在三个层次,分别将对应的融合特征进行相关操作,构建出三个层次的得分图,公式为S(z,x)=f(φ(z),φ(x));其中z表示模板图像,x表示检测图像,φ(·)表示图像的特征表示,f(·)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性,网络的目标就是获取以上公式的最大值。
S5:对三个层次的得分图进行融合,构建出最终得分图,公式为 S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图。
S6:使用最终得分图输出跟踪结果。
S7:使用训练集对上述网络进行大数据训练,采用随机梯度下降法进行优化,公式为
Figure BDA0002774156240000032
其中L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围,本发明通过随机梯度下降(SGD)优化损失函数来获得网络的权重参数θ。其中,根据得分图上u据目标中心点的距离定义y[u](k表示网络步长,c为目标中心点, R表示事先设定的阈值半径)
Figure BDA0002774156240000041
S8:使用验证集对训练后的模型进行验证,调整模型的超参数,包括迭代批次、批次大小和学习率。验证指标包括准确性和鲁棒性;准确性公式为
Figure BDA0002774156240000042
其中a表示实际边界框,b表示检测边界框。
鲁棒性为
Figure BDA0002774156240000043
其中failure表示跟踪失败的帧数,sum表示视频总的帧数。
S9:利用最终模型,当输入图像序列后,模型将自动提取第一帧作为模板图像,其余帧图像作为检测图像。两类图像将分别输入Siamese孪生网络的两个分支,并进入VGG-11网络提取特征。在此过程中采用三级信息融合策略构建最终得分图,根据得分图中最高分值点的位置预测出视觉目标的位置。

Claims (5)

1.一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于,包括以下步骤:
S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理;
S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络;
S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图;所述改进后的VGG-11网络将网络层数从16层减少到11层,在2层与3层,4层与5层,7层与8层之间分别设置最大池化层,将11层网络分为浅层、中层、深层三个级别,其中3和4层为浅层,5、6和7层为中层,8、9和11层为深层;
S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图,公式表示为:
S(z,x)=f(φ(z),φ(x))
其中z表示模板图像,x表示检测图像,φ(·)表示图像的特征表示,f(·)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性;
S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图,公式为S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图;
S6:使用最终得分图输出跟踪结果。
2.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述提取模板图像和检测图像具体为,选取第一帧为模板图像,后续帧为检测图像。
3.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:还包括使用训练集对整体网络进行训练,使用验证集对训练后的网络模型进行验证,调整模型的超参数。
4.根据权利要求3所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述使用训练集对整体网络进行训练时,使用逻辑损失进行训练:
Figure FDA0003686863340000011
其中,L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围。
5.根据权利要求1或2或3或4所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:步骤S1所述图像预处理包括,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127×127,检测图像大小裁剪为255×255,裁剪时超出的范围使用图像的RGB均值进行填充。
CN202011259436.4A 2020-11-12 2020-11-12 一种基于cnn的三级信息融合视觉目标跟踪方法 Active CN112330718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011259436.4A CN112330718B (zh) 2020-11-12 2020-11-12 一种基于cnn的三级信息融合视觉目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011259436.4A CN112330718B (zh) 2020-11-12 2020-11-12 一种基于cnn的三级信息融合视觉目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112330718A CN112330718A (zh) 2021-02-05
CN112330718B true CN112330718B (zh) 2022-08-23

Family

ID=74318496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011259436.4A Active CN112330718B (zh) 2020-11-12 2020-11-12 一种基于cnn的三级信息融合视觉目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112330718B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052874B (zh) * 2021-03-18 2022-01-25 上海商汤智能科技有限公司 目标跟踪方法及装置、电子设备和存储介质
CN113379792A (zh) * 2021-05-11 2021-09-10 重庆邮电大学 基于浅-中-深三级特征融合与可变矩形窗滤波的Siamese网络跟踪方法
CN116468812A (zh) * 2023-05-16 2023-07-21 山东省计算中心(国家超级计算济南中心) 一种基于多分支和多尺度的图像压缩感知重构方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN109255799A (zh) * 2018-07-26 2019-01-22 华中科技大学 一种基于空间自适应相关滤波器的目标跟踪方法及系统
WO2019094094A1 (en) * 2017-11-13 2019-05-16 Siemens Aktiengesellschaft Part identification using a locally learned threedimensional (3d) landmark database
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN111260688A (zh) * 2020-01-13 2020-06-09 深圳大学 一种孪生双路目标跟踪方法
CN111311647A (zh) * 2020-01-17 2020-06-19 长沙理工大学 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
CN111882581A (zh) * 2020-07-21 2020-11-03 青岛科技大学 一种深度特征关联的多目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019094094A1 (en) * 2017-11-13 2019-05-16 Siemens Aktiengesellschaft Part identification using a locally learned threedimensional (3d) landmark database
CN109255799A (zh) * 2018-07-26 2019-01-22 华中科技大学 一种基于空间自适应相关滤波器的目标跟踪方法及系统
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN111260688A (zh) * 2020-01-13 2020-06-09 深圳大学 一种孪生双路目标跟踪方法
CN111311647A (zh) * 2020-01-17 2020-06-19 长沙理工大学 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
CN111882581A (zh) * 2020-07-21 2020-11-03 青岛科技大学 一种深度特征关联的多目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Domain Adaptation for Ear Recognition Using Deep Convolutional Neural Networks";Fevziye Irem Eyiokur;《IET Biometrics》;20180331;第7卷(第3期);第199-206页 *
"基于目标感知特征筛选的孪生网络跟踪算法";陈志旺;《光学学报》;20200510;第40卷(第09期);第110-126页 *

Also Published As

Publication number Publication date
CN112330718A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112330718B (zh) 一种基于cnn的三级信息融合视觉目标跟踪方法
CN109508654B (zh) 融合多任务和多尺度卷积神经网络的人脸分析方法及系统
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN111339903A (zh) 一种多人人体姿态估计方法
CN109815867A (zh) 一种人群密度估计和人流量统计方法
CN105787458A (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
CN108830170B (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN111709266A (zh) 基于时空融合网络的面部表情识别方法
CN114120389A (zh) 网络训练及视频帧处理的方法、装置、设备及存储介质
CN116129289A (zh) 一种注意力边缘交互的光学遥感图像显著性目标检测方法
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN115564801A (zh) 一种基于注意力的单目标跟踪方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Pang et al. Analysis of computer vision applied in martial arts
CN114170686A (zh) 一种基于人体关键点的屈肘行为检测方法
CN113470076A (zh) 一种平养鸡舍黄羽鸡多目标跟踪方法
CN115661858A (zh) 一种基于局部特征与全局表征耦合的2d人体姿态估计方法
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant