CN112330718A - 一种基于cnn的三级信息融合视觉目标跟踪方法 - Google Patents
一种基于cnn的三级信息融合视觉目标跟踪方法 Download PDFInfo
- Publication number
- CN112330718A CN112330718A CN202011259436.4A CN202011259436A CN112330718A CN 112330718 A CN112330718 A CN 112330718A CN 202011259436 A CN202011259436 A CN 202011259436A CN 112330718 A CN112330718 A CN 112330718A
- Authority
- CN
- China
- Prior art keywords
- layers
- image
- network
- visual target
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 206010010688 Conjoined twins Diseases 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种基于CNN的三级信息融合视觉目标跟踪方法。包括以下步骤S1:提取模板图像和检测序列图像,进行图像预处理;S2:模板图像和检测图像作为两个分支同时输入网络,网络框架采用Siamese孪生网络;S3:网络选取改进后的VGG‑11,通过三级网络融合策略,提取三个层次的卷积特征;S4:对三个层次的特征分别进行相关操作,构建三个层次的得分图;S5:对三个层次的得分图进行融合;S6:使用融合得分图输出结果。本发明有效提高了视觉目标跟踪的准确性和鲁棒性。
Description
技术领域
本发明属于图像处理与模式识别领域,特别是一种深度学习和孪生网络的视觉目标跟踪方法。
背景技术
视觉目标跟踪作为图像处理与模式识别的重要分支,是人工智能中具有重要研究意义的课题。其任务是指定当前图像序列中的一个特定目标,在随后图像序列播放过程中,使用矩形边界框将该特定目标锁定,实现跟踪效果。当前该方向已经发展到基于深度学习解决非约束环境下的跟踪问题。随着5G技术的普及与计算机算力的加强,视觉目标技术受到了更多的重视,其应用场景也更为广阔。智能服务机器人通过摄像头采集视频信号,然后确定跟踪目标,最后自动地对目标进行跟踪并提供相应的服务。在汽车行驶过程中,判断车辆和周围事物的运动状态,对汽车的速度和行进轨迹进行调整。当前的医疗影响涵盖丰富的人体信息,诗句目标跟踪可以找到对应的目标信息,在整个医疗影像中进行跟踪,从而实现更精准的临床诊断。除此之外,视觉目标跟踪技术在人机交互、视觉导航、农业自动化生产等领域有着至关重要的地位。
发明内容
针对现有技术的不足,本发明提出了一种具有更高准确率、鲁棒性的视觉目标跟踪方法。
为了实现上述目的,本发明采用的技术方案是,一种基于CNN的三级信息融合视觉目标跟踪方法,包括以下步骤:
S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理。
S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络。 VGG-11相比Siamese框架自带的AlexNet能够带来更好的特征提取能力,提升系统的性能。
S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,通过CNN分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图。
S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图。
S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图。
S6:使用最终得分图输出跟踪结果。
本发明通过三级融合策略,浅层的外观特征将和深层的语义特征相融合,共同构建当前目标的特征图,能够在准确分类的情况下实现更精准的定位。步骤S5通过三级融合策略获得的融合特征图,将在得分图这一维度进行进一步融合,以达到充分利用各级别特征信息的目的。
在测试数据集OTB2015中,本方法获得了0.886的准确率和0.655的成功率,相比同样的Siamese框架跟踪器分别提升9.52%和7.91%。;在测试数据集 VOT2016中,本方法获得了0.3896的准确率和15.7913的鲁棒性,相比同框架跟踪器分别提升14.22%和21.56%。所以本发明具有更高准确率、鲁棒性。
附图说明
图1为Siamese网络框图;
图2为VGG-11网络;
图3为浅层到深层特征尺寸变化图;
图4为三级信息融合流程图。
具体实施方式
参见图1,一种基于CNN的三级信息融合视觉目标跟踪方法,其包括以下步骤:
S1:对当前序列图像,选取第一帧为模板图像,后续帧为检测图像,进行图像预处理,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127×127,检测图像大小裁剪为255×255,裁剪时超出的范围使用图像的RGB均值进行填充。
S2:采用Siamese孪生网络作为整体框架,即模板图像和检测图像将分别输入两个相同的分支进行同步处理,分支网络采用改进后的VGG-11网络;网络的两个分支共享权重,分别将两个输入送入两个分支,输出他们的相似度。从而将目标跟踪转换成相似性学习问题,这很好的匹配了目标跟踪的本质,即求取模板图像和检测图像的相似度。
S3:对每个分支,采用三级信息融合策略,将整个VGG网络分为浅层、中层、深层三个部分,对每个部分的各层卷积特征进行融合。具体的,第三层卷积层conv3将通过3×1卷积和conv4构建浅层融合特征图,然后孪生网络的一对浅层融合特征图通过4×256卷积构建浅层得分图;同理,conv5、conv6、conv7 通过3×1卷积构建中层融合特征图,再通过2×256卷积构建中层得分图;conv8、conv9、conv11通过3×1卷积构建深层融合特征图,最后得到深层得分图。如图 3和图4所示。
如图2和下表所示,VGG-11将网络层数从16层减少到11层,在2层和3 层,4层和5层,7层和8层之间设置最大池化层。将11层网络分为浅层、中层、深层三个级别,其中3、4层为浅层,5、6、7层为中层,8、9、11层为深层。浅层特征包含更多的外观信息,具有更好的定位属性;深层特征包含更多的语义信息,具有更好的分类属性;中层特征居中。
S4:根据Siamese孪生框架,在三个层次,分别将对应的融合特征进行相关操作,构建出三个层次的得分图,公式为S(z,x)=f(φ(z),φ(x));其中z表示模板图像,x表示检测图像,φ(·)表示图像的特征表示,f(·)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性,网络的目标就是获取以上公式的最大值。
S5:对三个层次的得分图进行融合,构建出最终得分图,公式为 S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图。
S6:使用最终得分图输出跟踪结果。
S7:使用训练集对上述网络进行大数据训练,采用随机梯度下降法进行优化,公式为
其中L(y[u],v[u])表示损失函数,u是得分图上任一点,v[u]是该点模板-检测图像对的相似性得分,y[u]是该点的实际标签,D表示整张得分图范围,本发明通过随机梯度下降(SGD)优化损失函数来获得网络的权重参数θ。其中,根据得分图上u据目标中心点的距离定义y[u](k表示网络步长,c为目标中心点, R表示事先设定的阈值半径)
S8:使用验证集对训练后的模型进行验证,调整模型的超参数,包括迭代批次、批次大小和学习率。验证指标包括准确性和鲁棒性;准确性公式为
其中a表示实际边界框,b表示检测边界框。
鲁棒性为
其中failure表示跟踪失败的帧数,sum表示视频总的帧数。
S9:利用最终模型,当输入图像序列后,模型将自动提取第一帧作为模板图像,其余帧图像作为检测图像。两类图像将分别输入Siamese孪生网络的两个分支,并进入VGG-11网络提取特征。在此过程中采用三级信息融合策略构建最终得分图,根据得分图中最高分值点的位置预测出视觉目标的位置。
Claims (9)
1.一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于,包括以下步骤:
S1:对当前序列图像,提取模板图像和检测图像,进行图像预处理;
S2:采用Siamese孪生网络构建整体网络框架,将模板图像和检测图像分别输入两个相同的分支网络进行同步处理,分支网络采用改进后的VGG-11网络;
S3:改进后的VGG-11网络采用三级网络融合策略,将整个网络分为浅层、中层、深层三个部分,分别提取三个部分的各层卷积特征,对每个部分的各层卷积特征进行融合,得到特征图;
S4:对两个分支网络中三个部分的特征图,按照浅层、中层、深层三个层次分别进行相关操作,构建三个层次的得分图;
S5:对步骤S4中三个层次的得分图进行融合,构建出最终得分图;
S6:使用最终得分图输出跟踪结果。
2.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述提取模板图像和检测图像具体为,选取第一帧为模板图像,后续帧为检测图像。
3.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:还包括使用训练集对整体网络进行训练,使用验证集对训练后的网络模型进行验证,调整模型的超参数。
5.根据权利要求1或2或3或4所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:步骤S1所述图像预处理包括,以视觉目标为中心对图像进行裁剪,模板图像大小裁剪为127×127,检测图像大小裁剪为255×255,裁剪时超出的范围使用图像的RGB均值进行填充。
6.根据权利要求5所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述改进后的VGG-11网络将网络层数从16层减少到11层,在2层与3层,4层与5层,7层与8层之间分别设置最大池化层。
7.根据权利要求6所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述改进后的VGG-11网络将11层网络分为浅层、中层、深层三个级别,其中3和4层为浅层,5、6和7层为中层,8、9和11层为深层。
8.根据权利要求1或6或7所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:步骤S4所述构建三个层次的得分图,公式表示为:
S(z,x)=f(φ(z),φ(x))
其中z表示模板图像,x表示检测图像,φ(·)表示图像的特征表示,f(·)表示相关操作,S(z,x)表示模板图像和检测图像之间的相似性。
9.根据权利要求8所述一种基于CNN的三级信息融合视觉目标跟踪方法,其特征在于:所述构建出最终得分图的公式为S(z,x)=S1(z,x)+S2(z,x)+S3(z,x),其中S1(z,x),S2(z,x),S3(z,x)分别表示浅层、中层、深层的得分图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259436.4A CN112330718B (zh) | 2020-11-12 | 2020-11-12 | 一种基于cnn的三级信息融合视觉目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259436.4A CN112330718B (zh) | 2020-11-12 | 2020-11-12 | 一种基于cnn的三级信息融合视觉目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330718A true CN112330718A (zh) | 2021-02-05 |
CN112330718B CN112330718B (zh) | 2022-08-23 |
Family
ID=74318496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011259436.4A Active CN112330718B (zh) | 2020-11-12 | 2020-11-12 | 一种基于cnn的三级信息融合视觉目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330718B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052874A (zh) * | 2021-03-18 | 2021-06-29 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、电子设备和存储介质 |
CN113379792A (zh) * | 2021-05-11 | 2021-09-10 | 重庆邮电大学 | 基于浅-中-深三级特征融合与可变矩形窗滤波的Siamese网络跟踪方法 |
CN116468812A (zh) * | 2023-05-16 | 2023-07-21 | 山东省计算中心(国家超级计算济南中心) | 一种基于多分支和多尺度的图像压缩感知重构方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN109255799A (zh) * | 2018-07-26 | 2019-01-22 | 华中科技大学 | 一种基于空间自适应相关滤波器的目标跟踪方法及系统 |
WO2019094094A1 (en) * | 2017-11-13 | 2019-05-16 | Siemens Aktiengesellschaft | Part identification using a locally learned threedimensional (3d) landmark database |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN111260688A (zh) * | 2020-01-13 | 2020-06-09 | 深圳大学 | 一种孪生双路目标跟踪方法 |
CN111311647A (zh) * | 2020-01-17 | 2020-06-19 | 长沙理工大学 | 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置 |
CN111882581A (zh) * | 2020-07-21 | 2020-11-03 | 青岛科技大学 | 一种深度特征关联的多目标跟踪方法 |
-
2020
- 2020-11-12 CN CN202011259436.4A patent/CN112330718B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019094094A1 (en) * | 2017-11-13 | 2019-05-16 | Siemens Aktiengesellschaft | Part identification using a locally learned threedimensional (3d) landmark database |
CN109255799A (zh) * | 2018-07-26 | 2019-01-22 | 华中科技大学 | 一种基于空间自适应相关滤波器的目标跟踪方法及系统 |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
CN111260688A (zh) * | 2020-01-13 | 2020-06-09 | 深圳大学 | 一种孪生双路目标跟踪方法 |
CN111311647A (zh) * | 2020-01-17 | 2020-06-19 | 长沙理工大学 | 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置 |
CN111882581A (zh) * | 2020-07-21 | 2020-11-03 | 青岛科技大学 | 一种深度特征关联的多目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
FEVZIYE IREM EYIOKUR: ""Domain Adaptation for Ear Recognition Using Deep Convolutional Neural Networks"", 《IET BIOMETRICS》 * |
陈志旺: ""基于目标感知特征筛选的孪生网络跟踪算法"", 《光学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052874A (zh) * | 2021-03-18 | 2021-06-29 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、电子设备和存储介质 |
CN113052874B (zh) * | 2021-03-18 | 2022-01-25 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、电子设备和存储介质 |
WO2022193456A1 (zh) * | 2021-03-18 | 2022-09-22 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、电子设备和存储介质 |
CN113379792A (zh) * | 2021-05-11 | 2021-09-10 | 重庆邮电大学 | 基于浅-中-深三级特征融合与可变矩形窗滤波的Siamese网络跟踪方法 |
CN116468812A (zh) * | 2023-05-16 | 2023-07-21 | 山东省计算中心(国家超级计算济南中心) | 一种基于多分支和多尺度的图像压缩感知重构方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112330718B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508654B (zh) | 融合多任务和多尺度卷积神经网络的人脸分析方法及系统 | |
CN112330718B (zh) | 一种基于cnn的三级信息融合视觉目标跟踪方法 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
CN111339903A (zh) | 一种多人人体姿态估计方法 | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN108830170B (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN111723600B (zh) | 一种基于多任务学习的行人重识别特征描述子 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN112862860B (zh) | 一种用于多模态目标跟踪的对象感知图像融合方法 | |
CN114036969B (zh) | 一种多视角情况下的3d人体动作识别算法 | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN116030095B (zh) | 一种基于双分支孪生网络结构的视觉目标跟踪方法 | |
CN116246305A (zh) | 一种基于混合部件变换网络的行人检索方法 | |
CN114155273B (zh) | 一种结合历史轨迹信息的视频图像单目标跟踪方法 | |
CN113869151B (zh) | 一种基于特征融合的跨视角步态识别方法及系统 | |
CN115661858A (zh) | 一种基于局部特征与全局表征耦合的2d人体姿态估计方法 | |
CN115588217A (zh) | 一种基于深度自注意网络的人脸属性检测方法 | |
CN114882372A (zh) | 一种目标检测的方法及设备 | |
CN118429389B (zh) | 基于多尺度聚合注意力特征提取网络的目标跟踪方法与系统 | |
Ge et al. | ASP-CNN: aligning semantic parts for fine-grained image classification | |
Lu | Multi-modal Object Tracking: Comparison and Prospective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |