CN111192291B - 一种基于级联回归与孪生网络的目标跟踪方法 - Google Patents
一种基于级联回归与孪生网络的目标跟踪方法 Download PDFInfo
- Publication number
- CN111192291B CN111192291B CN201911242648.9A CN201911242648A CN111192291B CN 111192291 B CN111192291 B CN 111192291B CN 201911242648 A CN201911242648 A CN 201911242648A CN 111192291 B CN111192291 B CN 111192291B
- Authority
- CN
- China
- Prior art keywords
- network
- prediction
- frame
- anchor frame
- cascade
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于级联回归与孪生网络的目标跟踪方法,在第一帧,将指定的目标图像及以目标图像为中心构建的搜索区域分别输入以孪生网络构成的特征提取网络,分别得到目标图像与搜索区域的特征图。将得到的不同层次的特征图按设计的Attention机制融合,并一同输入到后续的级联区域推荐网络之中。经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息,并得到锚框的预测得分图。通过非极大值抑制以及添加余弦窗等操作筛选出得分最高的锚框,并根据回归的得到的位置信息得到最终的预测框。本发明与传统算法相比上述算法具有精度高,鲁棒性强以及运行效率高的优点。
Description
技术领域
本发明属于深度学习和计算机视觉领域,特别是指一种基于级联回归和孪生网络的图像跟踪方法。
背景技术
目标跟踪算法作为计算机视觉领域的重要研究方向之一,历年来都有许多学者对其展开了大量的工作,当前已经取得了一定的进展。但是,在复杂环境中涉及到目标外形剧烈变化、光照变化、快速运动、运动模糊、背景相似干扰、平面内外旋转、尺度变换、遮挡和超出视野等难题,这使得复杂环境稳定准确的目标跟踪仍是一个具有挑战性的任务。
传统的目标跟踪算法主要包括结合人工设计特征的生成类算法和相关滤波方法。这些方法取得了一定的效果,但依旧存在速度慢、鲁棒性差等缺点。近些年随着深度学习的快速发展,基于卷积神经网络的跟踪算法取得了相当优异的表现,弥补了之前算法的不足。尤其是其在速度与性能之间取得了较好的平衡,并且充分利用大量数据进行训练的特点为其带来了巨大的优势。其中孪生网络凭借其简洁的实现方式尤其适合部署在近期迅猛发展的硬件加速结构上。然而此类算法由于缺少在线跟新等原因,在面对物体形变、光照变化、长期跟踪的复杂情况时依旧存在相当的改进空间。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于级联回归与孪生网络的目标跟踪方法,用以解决当前算法难以应对跟踪期间遭遇的物体形变、光照变化、遮挡等复杂情况的问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于级联回归与孪生网络的目标跟踪方法,包括以下步骤:
步骤1:在第一帧,将指定的目标图像及以目标图像为中心构建的搜索区域输入孪生网络中,分别得到各自的特征图;
步骤2:将步骤1得到的特征图通过Attention机制进行通道间的融合,随后送入到级联区域推荐网络之中;
步骤3:经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息,并计算得到锚框的预测得分图;通过预测得分图及位置预测信息得到最终预测框;
在所述步骤3中的级联区域推荐网络包括以下步骤:
步骤31:首先根据孪生网络得到的特征图尺寸生成若干个对应的、不同大小及长宽比例的预设锚框;
步骤32:将目标图像和搜索区域的特征图分别做一次卷积操作并分别得到两组不同的特征图,将对应的特征图两两进行互相关计算,并分别通过一次卷积用以得到锚框的类别和形状的预测;以上为第一级区域推荐网络;
步骤33:将已经进行回归过的锚框作为预设锚框输入第二级区域推荐网络,重复步骤32的操作,得到最终预测框。
在所述步骤33中得到最终预测框的步骤包括:对预测特征图施加余弦窗,并根据锚框形变程度计算惩罚因子,并计算得到预测得分;最后通过非极大值抑制选出最终预测框;
得分计算公式为S=score_pred*Penalty*(1-k_cos)+cos_win*k_cos,其中score_pred为网络输出的类别预测结果,k_cos为余弦窗影响因子,cos_win为施加的余弦窗参数;
步骤4:在下一帧,以预测框为中心构建搜索区域,并通过步骤1-步骤3进行新一轮的预测,实现在连续图像序列的目标跟踪。
优选的:所述孪生网络由两个共享参数的全卷积网络构成。
优选的:步骤1中选取孪生网络中最后若干层的网络输出构成最终的特征信息。
优选的:所述步骤2中通过Attention机制进行通道间的融合方法:目标图像可由特征提取网络中不同的卷积层计算得到数组不同的特征图;每组特征图中包含若干通道,对于任意通道i,首先对该通道的特征图做最大池化操作,然后将池化后的参数输入到多层感知机中,最后经过Sigmoid函数得到该通道对应的权重参数ζi;将每通道的特征图与对应的权重参数相乘,随后对该组特征图做1*1卷积,保持通道数不变,完成通道间的融合。
本发明相比现有技术,具有以下有益效果:
本发明提供了一种基于孪生网络与级联回归的图像目标跟踪方法,该算法以孪生网络以及级联区域推荐算法为框架,利用大规模视频图像数据训练网络参数,并设计了Attention机制融合了不同卷积层的输出特征以充分利用目标图像的外观及语义信息,且无需在线更新算法模型。与传统算法相比上述算法具有精度高,鲁棒性强以及运行效率高的优点。
附图说明
图1是本发明所提出的目标跟踪方法网络结构示意图。
图2是本发明所提出的Attention机制原理示意图。
图3是本发明所提出的级联区域推荐网络结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示为本发明提出的一种基于孪生网络与级联回归的图像目标跟踪方法示意图。在该实例中模板图像大小为127*127,搜索区域大小为271*271,特征提取网络由五层卷积构成,并利用最后三层的特征信息进行后续推断,级联区域推荐网络层数为三层,所述目标跟踪方法包括:
S1:设计全卷积的孪生网络用于提取跟踪模板与搜索区域的特征,将给定的模板图像及以模板图像为中心构建的搜索区域输入到该网络中,可以分别提取对应的特征信息,用于后续的预测。
S2:将通过特征提取网络得到模板特征通过Attention机制进行通道间的融合。如图2所示,该机制的实现方式是通过对每一通道的特征图进行池化操作,得到固定数量的参数,之后将这些参数分别输入一个由全连接网络构成的多层感知机,从而得到对应通道的权重参数。
S3:将上述步骤得到的特征信息输入到第一级区域推荐网络中,进行互相关计算用以预测目标的形状及位置信息。其具体方法为:对得到的特征图分别进行一次卷积各自得到两个分支,对应分支的特征图通道数相同,将模板图像的特征图作为卷积核与搜索区域的特征图做逐通道卷积。再经过一次卷积计算分别的到各个锚框的形状及位置预测。
S4:如图3所示该级联区域推荐网络实施方法为,将修正过后的锚框作为预设锚框输入下一级区域推荐网络中,重复步骤三中的操作得到新的预测结果。该步骤中可以根据实际的性能需求设计级联的区域推荐网络层数,并得到最终的预测结果。
S5:根据步骤四中的预测结果筛选出最终的预测框。其中筛选的方法具体为:首先剔除搜索区域边缘的锚框,只选择搜索区域中心距离小于等于7的锚框作为待选锚框。然后通过余弦窗和计算惩罚因子得到锚框的最终得分,并通过非极大值抑制选取最终的锚框,作为最终的预测信息。
惩罚因子的计算公式为:Penalty=exp(k*max(r/r^',r^'/r)*max(s/s^',s^'/s)),其中k为超参数,r为初始锚框的长宽比,r^'为回归过后的锚框长宽比。(w+p)*(h+p)=s2,p=(w+h)/2,其中w与h分别代表锚框的宽与高。
得分计算公式为S=score_pred*Penalty*(1-k_cos)+cos_win*k_cos,其中score_pred为网络输出的类别预测结果,k_cos为余弦窗影响因子,cos_win为施加的余弦窗参数。
S6:在下一帧中将上一帧中得到的预测结果作为模板图像,重复上述的预测过程,实现在连续图像序列的目标跟踪。
其次,本方法采用大规模图像数据集对网络进行端到端的训练,其具体流程包括:
T1:使用图像分类数据集对特征提取网络进行预训练,训练完成后去除网络末端的全连接层,连接区域推荐网络。
T2:选取一段视频内包含同一物体的两张不同帧,通过剪裁与缩放建立模板图像—搜索区域的图像对。将其输入到网络中,通过构建的损失函数与反向传播算法对网络进行训练。
T3:本方法采用级联区域推荐网络,因此对各级区域推荐网络逐一训练。在训练过程中,通过判断与标定框的交并比选取正负样本,在第一级网络中交并比大于0.65的视为正例,在第二级网络中交并比大于0.7的视为正例,在第三级网络中交并比大于0.75的视为正例,交并比小于0.3的视为负例。
本发明在第一帧,将指定的目标图像及以目标图像为中心构建的搜索区域分别输入以孪生网络构成的特征提取网络,分别得到目标图像与搜索区域的特征图。将得到的不同层次的特征图按设计的Attention机制融合,并一同输入到后续的级联区域推荐网络之中。经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息,并得到锚框的预测得分图。通过非极大值抑制以及添加余弦窗等操作筛选出得分最高的锚框,并根据回归的得到的位置信息得到最终的预测框。在下一帧,以预测框为中心构建搜索区域,并通过上述方法进行新一轮的预测。该算法以孪生网络以及级联区域推荐算法为框架,利用大规模视频图像数据训练网络参数,并设计了Attention机制融合了不同卷积层的输出特征以充分利用目标图像的外观及语义信息,且无需在线更新算法模型。与传统算法相比上述算法具有精度高,鲁棒性强以及运行效率高的优点。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于级联回归与孪生网络的目标跟踪方法,其特征在于,包括以下步骤:
步骤1:在第一帧,将指定的目标图像及以目标图像为中心构建的搜索区域输入孪生网络中,分别得到各自的特征图;
步骤2:将步骤1得到的特征图通过Attention机制进行通道间的融合,随后送入到级联区域推荐网络之中;
步骤3:经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息,并计算得到锚框的预测得分图;通过预测得分图及位置预测信息得到最终预测框;
在所述步骤3中的级联区域推荐网络包括以下步骤:
步骤31:首先根据孪生网络得到的特征图尺寸生成若干个对应的、不同大小及长宽比例的预设锚框;
步骤32:将目标图像和搜索区域的特征图分别做一次卷积操作并分别得到两组不同的特征图,将对应的特征图两两进行互相关计算,并分别通过一次卷积用以得到锚框的类别和形状的预测;以上为第一级区域推荐网络;
步骤33:将已经进行回归过的锚框作为预设锚框输入第二级区域推荐网络,重复步骤32的操作,得到最终预测框。
在所述步骤33中得到最终预测框的步骤包括:对预测特征图施加余弦窗,并根据锚框形变程度计算惩罚因子,并计算得到预测得分;最后通过非极大值抑制选出最终预测框;
得分计算公式为S=score_pred*Penalty*(1-k_cos)+cos_win*k_cos,其中score_pred为网络输出的类别预测结果,k_cos为余弦窗影响因子,cos_win为施加的余弦窗参数;
步骤4:在下一帧,以预测框为中心构建搜索区域,并通过步骤1-步骤3进行新一轮的预测,实现在连续图像序列的目标跟踪。
2.根据权利要求1所述基于级联回归与孪生网络的目标跟踪方法,其特征在于:所述孪生网络由两个共享参数的全卷积网络构成。
3.根据权利要求2所述基于级联回归与孪生网络的目标跟踪方法,其特征在于:步骤1中选取孪生网络中最后若干层的网络输出构成最终的特征信息。
4.根据权利要求3所述基于级联回归与孪生网络的目标跟踪方法,其特征在于:所述步骤2中通过Attention机制进行通道间的融合方法:目标图像可由特征提取网络中不同的卷积层计算得到数组不同的特征图;每组特征图中包含若干通道,对于任意通道i,首先对该通道的特征图做最大池化操作,然后将池化后的参数输入到多层感知机中,最后经过Sigmoid函数得到该通道对应的权重参数ζi;将每通道的特征图与对应的权重参数相乘,随后对该组特征图做1*1卷积,保持通道数不变,完成通道间的融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242648.9A CN111192291B (zh) | 2019-12-06 | 2019-12-06 | 一种基于级联回归与孪生网络的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242648.9A CN111192291B (zh) | 2019-12-06 | 2019-12-06 | 一种基于级联回归与孪生网络的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192291A CN111192291A (zh) | 2020-05-22 |
CN111192291B true CN111192291B (zh) | 2022-11-11 |
Family
ID=70707605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911242648.9A Active CN111192291B (zh) | 2019-12-06 | 2019-12-06 | 一种基于级联回归与孪生网络的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192291B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640136B (zh) * | 2020-05-23 | 2022-02-25 | 西北工业大学 | 一种复杂环境中的深度目标跟踪方法 |
CN111860248B (zh) * | 2020-07-08 | 2021-06-25 | 上海蠡图信息科技有限公司 | 一种基于孪生渐进注意引导融合网络的视觉目标跟踪方法 |
CN111915644B (zh) * | 2020-07-09 | 2023-07-04 | 苏州科技大学 | 孪生导向锚框rpn网络的实时目标跟踪方法 |
CN111931685B (zh) * | 2020-08-26 | 2021-08-24 | 北京建筑大学 | 一种基于双向跟踪策略的视频卫星移动目标检测方法 |
CN112085164A (zh) * | 2020-09-01 | 2020-12-15 | 杭州电子科技大学 | 一种基于无锚框网络的区域推荐网络提取方法 |
CN112215079B (zh) * | 2020-09-16 | 2022-03-15 | 电子科技大学 | 一种全局多阶段目标跟踪方法 |
CN112489081B (zh) * | 2020-11-30 | 2022-11-08 | 北京航空航天大学 | 一种视觉目标跟踪方法及装置 |
CN113436227A (zh) * | 2021-06-07 | 2021-09-24 | 南京航空航天大学 | 一种基于倒残差的孪生网络目标跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210551A (zh) * | 2019-05-28 | 2019-09-06 | 北京工业大学 | 一种基于自适应主体敏感的视觉目标跟踪方法 |
CN110298404A (zh) * | 2019-07-02 | 2019-10-01 | 西南交通大学 | 一种基于三重孪生哈希网络学习的目标跟踪方法 |
-
2019
- 2019-12-06 CN CN201911242648.9A patent/CN111192291B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210551A (zh) * | 2019-05-28 | 2019-09-06 | 北京工业大学 | 一种基于自适应主体敏感的视觉目标跟踪方法 |
CN110298404A (zh) * | 2019-07-02 | 2019-10-01 | 西南交通大学 | 一种基于三重孪生哈希网络学习的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
基于双重注意力孪生网络的实时视觉跟踪;杨康等;《计算机应用》;20190115(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111192291A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192291B (zh) | 一种基于级联回归与孪生网络的目标跟踪方法 | |
CN111275007B (zh) | 基于多尺度信息融合的轴承故障诊断方法及系统 | |
CN111144329B (zh) | 一种基于多标签的轻量快速人群计数方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN108537824B (zh) | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 | |
CN110706242A (zh) | 一种基于深度残差网络的对象级边缘检测方法 | |
CN108230278A (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN111178316A (zh) | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 | |
CN108804453A (zh) | 一种视音频识别方法及装置 | |
CN110956222B (zh) | 用于水下目标检测的检测网络的方法 | |
CN111862140A (zh) | 一种基于协同模块级搜索的全景分割网络及方法 | |
CN113436227A (zh) | 一种基于倒残差的孪生网络目标跟踪方法 | |
CN109800795A (zh) | 一种果蔬识别方法及系统 | |
CN108596243A (zh) | 基于分级注视图和条件随机场的眼动注视图预测方法 | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
CN113780002A (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN115239564A (zh) | 一种结合语义信息的矿井图像超分辨率重建方法 | |
CN115471665A (zh) | 基于三分图视觉Transformer语义信息解码器的抠图方法与装置 | |
CN116109920A (zh) | 一种基于Transformer的遥感图像建筑物提取方法 | |
CN110633633B (zh) | 一种基于自适应阈值的遥感影像道路提取方法 | |
CN115512156A (zh) | 一种用于图像分类模型训练的自蒸馏训练方法 | |
CN109800809A (zh) | 一种基于维度分解的候选区域提取方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN116452904A (zh) | 图像美学质量确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |