CN115272405A - 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 - Google Patents
一种基于孪生网络的鲁棒在线学习船舶跟踪方法 Download PDFInfo
- Publication number
- CN115272405A CN115272405A CN202210691508.5A CN202210691508A CN115272405A CN 115272405 A CN115272405 A CN 115272405A CN 202210691508 A CN202210691508 A CN 202210691508A CN 115272405 A CN115272405 A CN 115272405A
- Authority
- CN
- China
- Prior art keywords
- template
- classification
- target
- tracking
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于孪生网络的鲁棒在线学习船舶跟踪方法,该方法首先利用基于锚框的方法提取一系列候选目标框,然后使用孪生网络分别提取模板和检测帧的特征,将区域选取网络用于分类和锚框回归,引入自适应在线更新网络UpdateNet,将SiamRPN分类得分与在线分类器得分进行融合,并依据分类融合得分建立遮挡判定机制,最后在内河船舶数据集上测试,并评估跟踪性能。本发明通过改进SiamRPN跟踪模型,使其适用于内河水域场景,从而改善内河船舶相互遮挡情况下的目标跟踪漂移问题。本发明将孪生方法应用于内河船舶跟踪中,性能优于现有方法,在遮挡场景下展现出较强的鲁棒性。
Description
技术领域
本发明涉及内河船舶目标跟踪技术领域,尤其涉及一种基于孪生网络的鲁棒在线学习船舶跟踪方法。
背景技术
目前,国内外应用于内河船舶监测的技术手段主要有智能识别系统(AutomaticIdentification System,AIS)、雷达跟踪等。然而,AIS 存在着功能发挥不到位、信息利用不充分等问题;雷达跟踪容易受到波浪、海岸景物等因素的干扰,存在着一定的盲区。因此,视频监控作为一种辅助技术手段,有助于提升内河监管的智能化水平,对内河航运安全运行具有积极作用。
近年来,许多研究者们利用计算机视觉技术分析视频中的目标信息,以实现船舶检测与跟踪。Xiao等人(Xiao L,Xu M,Hu Z.Real-time inland CCTV ship tracking[J].Mathematical Problems in Engineering,2018,2018:1-10.)在TLD框架下设计了一种基于随机投影的短期跟踪器,可以显着缓解船舶在遮挡时的跟踪漂移。Chen等人(Chen X,Wang S,Shi C,et al.Robust ship tracking via multi-view learning and sparserepresentation[J].The Journal of Navigation,2019, 72(1):176-192.)提出了一个集成多视图学习算法和稀疏表示方法的框架,从多个不同的船舶特征中提取高度耦合且鲁棒的船舶描述符。由于,目标船舶时常被海上障碍物部分或完全遮挡,Chen等人(Chen X,XuX,Yang Y,et al.Augmented ship tracking under occlusion conditions frommaritime surveillance videos[J].IEEE Access,2020,8:42884-42897.)通过KCF和曲线拟合算法提出了一个增强的船舶跟踪框架。然而,以上方法通常使用的是人工设计特征,对具有挑战性的应用场景缺乏泛化能力。最近,基于深度学习的方法在船舶跟踪中表现出了不错的性能。Shan等人(Shan Y,Zhou X,Liu S,et al.SiamFPN:A deep learning methodfor accurate and real-time maritime ship tracking[J].IEEE Transactions onCircuits and Systems for Video Technology,2020,31(1):315-325.)采用改进后的孪生网络与多个RPN相结合的方式来构建海上船舶跟踪框架。Yang等人(Yang X,Wang Y,WangN,et al.An Enhanced SiamMask Network for Coastal Ship Tracking[J].IEEETransactions on Geoscience and Remote Sensing,2021,60: 1-11.)针对孪生网络提取缺乏轮廓和边缘信息,提出了一种用于沿海船舶跟踪的增强型 SiamMask网络。虽然基于孪生网络的方法被广泛应用于地面船舶跟踪,但关于船舶跟踪的研究却很少,尤其是针对内河场景。
然而,将孪生网络直接应用于内河船舶跟踪明显存在着一些不足。首先,孪生网络在面临相似物干扰时,区分目标与背景的判别能力较差。其次,孪生网络不能很好地处理目标遮挡问题,可能会造成目标跟踪漂移甚至丢失。最后,孪生网络通常采用每帧更新模板的方法,但过于频繁的更新可能会使目标模型引入过多的背景信息,导致模板退化,从而增加跟踪漂移的概率。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于孪生网络的鲁棒在线学习船舶跟踪方法。
本发明的目的是通过以下技术方案来实现的:一种基于孪生网络的鲁棒在线学习船舶跟踪方法,包括以下步骤:
(1)固定设置k种不同的高宽比ratios以及1个固定的尺度scale,利用基于锚框anchor-based 的方法从初始帧中提取k×1个大小不同的候选目标框anchors;
(2)使用孪生网络分别提取模板z和检测帧x的特征,孪生网络架构采用了AlexNet的前5 个卷积层,丢弃了边缘填充padding和全连接层;在线训练分类器同样采用孪生网络架构,通过对初始帧进行数据增强,生成多个初始训练样本;
(3)将步骤(2)得到的模板z的特征和检测帧x的特征分别送入区域选取网络RPN的分类分支和回归分支,然后将模板z的特征当做卷积核对检测帧x的特征进行互相关操作,从而产生分类预测值fcls和位置回归值freg;对步骤(2)得到的训练样本分别进行压缩、双重注意力机制以及滤波器操作,从而生成分类置信度fC;
(4)引入自适应在线更新网络UpdateNet,用于改善跟踪过程中模板退化问题;在给定初始模板、积累模板和当前帧模板的情况下,采用离线训练好的UpdateNet模型在线估计下一帧的最优积累模板;其中,初始模板和当前帧模板均是在步骤(2)中从模板z和检测帧x提取得到的特征;
(5)将步骤(3)中得到的分类预测值fcls与在线分类器得分fC进行融合,结合步骤(1)中提取的anchors,找出当前帧预测出的目标位置loc,即为目标的左上角坐标、宽度以及高度;此外,依据分类融合得分建立遮挡判定机制;当判定目标处于遮挡状态时,不更新目标模板,即不执行步骤(4);与此同时,启动全局搜索机制重新定位目标,从而避免目标跟踪漂移;
(6)针对内河船舶数据集中的每一帧图像执行步骤(1)-(5),实现基于孪生网络的鲁棒在线学习船舶跟踪。
进一步地,所述步骤(1)中,k=5,ratios=[0.33,0.5,1,2,3],scale=[8];所述步骤(2) 中,将大小为127×127×3的模板和大小为271×271×3的检测帧输入到孪生网络中进行特征提取,即对两个输入z和x进行相同的变换分别生成了6×6×512和24×24×512的特征图和所述步骤(3)中,将特征图和分别送入分类分支和回归分支,通过 3×3卷积操作得到其中下标“cls”表示分类分支,“reg”表示回归分支。
进一步地,所述步骤(3)中包括如下子步骤:
进一步地,所述步骤(4)中,UpdateNet模型是通过采用一个学习函数Φ来更新模板,该函数实则为一个卷积神经网络,Φ函数公式如下:
进一步地,所述步骤(5)中包括如下子步骤:
(5.1)在线分类器主要包括压缩模块、注意力模块以及滤波器模块;首先,压缩模块是采用随机投影方法降维压缩;然后,双重注意力机制是由通道注意力机制和空间注意力机制组成;最后,滤波器模块则是用来产生分类置信度;因此,根据上述所说将在线分类器定义如下:
其中,w表示在线学习网络参数,C表示压缩模块,A表示注意力模块,F表示滤波模块; (5.2)将步骤(5.1)中在线学习的目标函数定义成与L2分类误差类似的形式:
每个训练样本xi受权重γi控制的影响;yi∈RW*H是标注的分类置信度,它以预测目标位置为中心的高斯函数进行标注;正则化对wk的惩罚由λk设置;
(5.3)采用线性加权融合方式,将步骤(3.1)中得到的离线Siamese网络分类得分和步骤(5.1) 中在线分类器生成的得分图二者融合,以一定权重融合得到自适应分类得分:
ffusion(x;w)=λfC(x;w)+(1-λ)fcls(z,x;w)
其中,λ是在线置信度得分的影响因子;
(5.4)依据步骤(5.3)中得到的自适应分类得分的变化程度,提出了相适应的遮挡判定机制;依据自适应分类得分评估当前跟踪状态,以决定是否应该更新模板以及是否扩大搜索区域;
(5.5)全局搜索策略采用传统的滑动窗口法,通过滑动对当前窗口执行模板匹配操作;如果当前窗口得到的相似得分高于阈值thl,则认为检测到目标位置loc。
进一步地,所述步骤(5.3)中,λ=0.9。
进一步地,所述步骤(5.4)中,th=0.93,tl=0.92,tol=0.02。
进一步地,所述步骤(5.5)中,thl=0.5。
本发明的有益效果是:本发明提出了一种基于孪生网络的鲁棒在线学习船舶跟踪方法,用于改善船舶相互遮挡情况下的目标跟踪漂移问题。该方法是在SiamRPN框架上,将离线孪生网络分类得分和在线分类器得分二者融合进行判别性学习,并依据分类融合得分建立遮挡判定机制。当判定目标处于遮挡状态时,不更新目标模板,同时启动全局搜索机制重新定位目标,从而避免目标跟踪漂移。此外,还引入一种高效的自适应在线更新策略UpdateNet,用于改善跟踪过程中模板退化问题。本发明在内河船舶遮挡场景下展现了较强的鲁棒性,在实际应用中有较好的价值和前景。
附图说明
图1是本发明方法的整体框架图;
图2是本发明方法的精确度曲线图;
图3是本发明方法的成功率曲线图。
具体实施方式
本发明的核心技术是对离线孪生网络分类得分和在线分类器得分进行线性加权融合,将其应用于内河船舶跟踪中,并依据分类融合得分建立遮挡判定机制,以实现高精度的内河船舶跟踪遮挡问题。
本发明提出了一种基于孪生网络的鲁棒在线学习船舶跟踪方法,包括以下步骤:
(1)运动模型:固定设置k种不同的高宽比ratios以及1个固定的尺度scale,利用基于锚框anchor-based的方法从初始帧中提取k×1个大小不同的候选目标框,依据初始帧目标的位置预测当前帧目标可能出现的区域,解决了尺度问题;具体包括以下子步骤:
(1.1)在初始帧中,利用Anchor生成器生成k个大小不同的候选目标框anchors,其中 k=5,ratios=[0.33,0.5,1,2,3],scale=[8]。
按如上方法,即得到了5个大小不同的anchors。
(2)特征提取:使用孪生网络分别提取模板z和检测帧x的特征,孪生网络架构采用了 AlexNet的前5个卷积层,丢弃了边缘填充padding和全连接层;具体包括以下子步骤:
(2.2)在线训练分类器同样采用孪生网络架构,通过对初始帧进行数据增强,生成30 个初始训练样本。
(3)观测模型:将步骤(2.1)得到的模板特征和检测帧特征分别送入区域选取网络RPN的分类分支和回归分支,然后将模板特征当做卷积核对检测帧特征进行互相关操作,从而产生分类预测值fcls和位置回归值freg,对步骤(2.2)得到的训练样本输入到在线分类器中,从而生成分类置信度fC;具体包括以下子步骤:
通过离线训练好的SiamRPN模型,即可以得到离线孪生分类得分图fcls(z,x)以及位置回归值freg(z,x)。
(3.4)在线分类器主要包括压缩模块、注意力模块以及滤波器模块。压缩模块是采用随机投影方法降维压缩,可以实现高效的实时计算。此外,为了解决前景和背景不平衡问题,利用注意力机制来丰富语义信息的捕获,引入双重注意机制来充分提取特定目标的特征。双重注意力机制是由全局平均池化之后的2个全连接层组成的空间注意力,以及由通道平均后的Softmax组成的通道注意力。最后,滤波器模块则是用来产生分类置信度fC。因此,根据上述所说可以将在线分类器定义如下:
其中,w表示在线学习网络参数,C表示压缩模块,A表示注意力模块,F表示滤波模块。
(3.5)将步骤(3.4)中在线学习的目标函数定义成与L2分类误差类似的形式:
每个训练样本xi受权重γi控制的影响。yi∈RW*H是标注的分类置信度,它以预测目标位置为中心的高斯函数进行标注。正则化对wk的惩罚由λk设置。在线分类器优化部分使用高斯 -牛顿下降法求解二次型问题。
(4)模型更新:引入一种高效的自适应在线更新网络UpdateNet,用于改善跟踪过程中模板退化问题;采用离线训练好的更新网络模型,在给定初始模板、积累模板和当前帧模板的情况下,在线估计下一帧的最优积累模板,其中初始模板和当前帧模板均是在步骤(2.1) 中从模板和检测帧提取得到的特征;具体包括以下子步骤:
(4.1)采用一个通用的学习函数Φ更新模板,该函数实则为一个两层的卷积神经网络,具有强大的特征表达能力和从大量数据中学习的能力。Φ函数公式如下:
通过给定初始帧ground-truth(GT)模板历史帧积累模板以及从当前帧中预测目标位置提取的模板Ti来计算更新后的模板本质上,该函数通过整合当前帧Ti的新信息来更新先前积累的模板因此,Φ可以根据当前模板和历史积累模板之间的差异来适应当前跟踪状态的具体更新要求。此外,由于初始帧具有高度可靠的目标信息,因此考虑了初始帧模板提高了对模型漂移的鲁棒性。
(4.2)从初始帧中的真实目标位置GT中提取为了获得当前帧的Ti,使用先前所有帧中的积累模板来预测目标在第i帧中的位置,并从该区域提取特征。将提取的特征当前帧特征Ti以及历史积累特征形成新的输入,然后通过一系列的卷积层进行处理,并输出预测的新积累模板对于第一帧,将Ti和均设置为这是因为没有先前帧。模型更新网络唯一使用的真实信息是给定目标在初始帧中的位置,所有其他输入均是基于预测。
通过离线训练好的更新网络UpdateNet模型,即可得到当前帧新的模板。
(5)方法集成:将步骤(3.2)中得到的分类预测值与步骤(3.4)中得到的在线分类器得分进行融合,结合步骤(1.1)中生成的anchors,找出当前帧预测出的目标位置loc,即为目标的左上角坐标、宽度以及高度;此外,依据分类融合得分建立遮挡判定机制。当判定目标处于遮挡状态时,不更新目标模板,即不执行步骤(4);与此同时,启动全局搜索机制重新定位目标,从而避免目标跟踪漂移;具体包括以下子步骤:
(5.1)采用线性加权融合方式,将步骤(3.2)中得到的离线孪生网络分类得分和步骤(3.4) 中在线分类器生成的得分图二者融合,以便更好地区分目标与背景。将在线分类器的得分图通过双立方插值转换成与孪生分类得分图相同的空间大小,然后以一定权重融合得到自适应分类得分:
ffusion(x;w)=λfC(x;w)+(1-λ)fcls(z,x;w)
其中,λ是在线置信度得分的影响因子。当λ=0.9,可以获得最优的跟踪性能。
(5.2)通过步骤(5.1)中得到的自适应分类得分的变化程度,提出了相适应的遮挡判定机制。然后,可以依据自适应分类得分来评估当前跟踪状态,以决定是否应该更新模板以及是否应该扩大搜索区域。
假设Zk表示第k帧中跟踪状态。这里,Zk=0表示稳定状态,代表跟踪性能稳定。Zk=1 表示遮挡状态,代表跟踪性能恶化,跟踪器试图恢复性能。此外,假设三个阈值(高阈值th、低阈值tl和容忍度tol)。对于第一帧,将Zk设置为零,Sk表示第k帧中分类最高得分,而ΔSk=Sk-Sk-1。对于第k帧,遮挡判定机制的状态转换如表1所示。
表1:遮挡判定机制的状态转换表
序号 | Z<sub>k+1</sub> | 第k帧条件 |
1 | 0 | S<sub>k</sub>>0,ΔS<sub>k</sub>>0,Z<sub>k</sub>=0 |
2 | 0 | S<sub>k</sub>>t<sub>h</sub>,ΔS<sub>k</sub>>0,Z<sub>k</sub>=1 |
3 | 0 | S<sub>k</sub>>0,ΔS<sub>k</sub><0,Z<sub>k</sub>=0,|ΔS<sub>k</sub>|<tol |
4 | 1 | S<sub>k</sub><t<sub>h</sub>,ΔS<sub>k</sub>>0,Z<sub>k</sub>=1 |
5 | 1 | ΔS<sub>k</sub><0,Z<sub>k</sub>=1 |
6 | 1 | ΔS<sub>k</sub><0,|ΔS<sub>k</sub>|>tol |
7 | 1 | S<sub>k</sub><t<sub>l</sub>,ΔS<sub>k</sub>>0,Z<sub>k</sub>=1 |
上表1中,当处于条件1-3时,跟踪器将在下一帧更新模型。这些条件的含义可以总结如下:如果当前跟踪器状态保持稳定,我们应该考虑当前分类得分Sk和分类得分差值ΔSk。如果它们都大于零,则认为跟踪器性能良好。即使ΔSk<0,如果分类得分变化程度小于tol,也不需要停止更新模型。如果当前帧处于遮挡状态,则直到分类得分足够大,模型采可以在下一帧中更新,否则模型仍然无法更新,如条件4所示。对于条件5-7,模型应在下一帧停止更新。这些条件的含义为:如果当前处于遮挡状态,但ΔSk<0时,则无法在下一帧更新模型;如果分类得分变化程度大于tol,也不能更新模型;如果分类得分显著下降,我们也应该阻止它在下一帧更新。当th=0.93,tl=0.92,tol=0.02时,遮挡判定机制性能最优。
(5.3)当目标被长时遮挡导致跟踪失败时,采用全局搜索策略可以再次检测到目标,使跟踪器从错误中恢复过来。这样即使在目标严重遮挡的情况下,也能够长时间持续地跟踪。全局搜索策略采用传统的滑动窗口法,每次滑动时对当前窗口执行模板匹配操作。如果当前窗口得到相似得分高于阈值thl,则认为检测到目标位置loc。对每个不同窗口大小的滑窗都进行检测后,会存在重复较高的部分,最后经过非极大值抑制筛选后获得检测到的目标。当thl =0.5,可以获得最优的相似性匹配性能。
按如上方法集成,即可在内河船舶遮挡场景下展现出较强的鲁棒性。
(6)针对内河船舶数据集中的每一帧图像执行步骤(1)-(5),即可输出精确的跟踪和评估结果;具体包括以下子步骤:
(6.1)步骤(2)-(4)中均采用离线训练好的模型在内河船舶数据集上进行测试,实现对内河船舶的目标跟踪任务。使用成功率(Success rate)、精确度(Precision)对跟踪性能进行评估。通过计算中心位置误差(Center Location Error,CLE),获得成功率曲线图,通过计算重叠率(Overlap Score,OS)获得精确度曲线图。
以像素为单位,令(xt,yt)表示预测的目标中心位置,(xg,yg)表示人工标注的目标中心位置,则中心位置误差计算公式如下:
给定跟踪算法预测的边界框bt和人工标注的GT边界框bg,那么重叠率可表示为:
通过对序列中各帧的平均中心位置误差和平均重叠率评估,可以对整个序列的跟踪总体性能进行评估。这两个指标值越大,跟踪性能越佳。
(1)本发明将离线孪生网络分类得分和在线分类器得分二者线性加权融合,以达到判别性学习的目的,从而能够有效地区分目标和背景。
(2)本发明依据分类融合得分建立遮挡判定机制,通过评估当前跟踪状态,以决定是否应该更新模型以及是否应该扩大搜索区域。当判定目标处于遮挡状态时,不更新目标模板,同时启动全局搜索机制重新定位目标,从而避免目标跟踪漂移。
(3)本发明引入一种高效的自适应在线更新策略UpdateNet,在给定初始模板、积累模板和当前帧模板的情况下,采用离线训练好的UpdateNet模型在线估计下一帧的最优模板,从而有效改善跟踪过程中模板退化问题。
实施例
下面以一个具体的例子证明本发明的方法的有益效果。
在一台配备Intel Core i5-9400 CPU处理器及48GB内存的机器上实现本发明的实施例。采用在具体实施方式中列出的参数值,本发明使用的实验数据是通过收集或现场采集的一些港口船舶视频,建立了内河船舶数据集。将视频序列划分为常见的8种属性,视频属性分别为:光照变化(Illumination Variation,IV)、平面外旋转(Out-of-PlaneRotation,OPR)、尺度变化(Scale Variation,SV)、遮挡(Occlusion,OCC)、平面内旋转(In-Plane Rotation, IPR)、出视野(Out-of-View,OV)、背景杂乱(Background Clutters,BC)、低分辨率(Low Resolution,LR)。数据集的具体信息如表2所示。
表2:内河船舶数据集的详细描述(Y:是,N:否)
基于该内河船舶数据集得到了附图中所示的整体框架图、Success rate/Precision曲线图以及部分视频序列跟踪截图。
如图1所示,本发明提出的一种基于孪生网络的鲁棒在线学习船舶跟踪方法的整体框架图。主要包括以下五个模块:
模块a:使用孪生子网络分别提取模板和检测帧的特征图。
模块b:RPN子网络由两个分支组成:一个是分类分支,用于目标-背景分类,另一个是回归分支,用于得到更精确的边界框预测结果。
模块c:在线分类器主要包括压缩模块、注意力机制模块以及滤波器模块。该分类器完全是在在线跟踪期间学习的,可以从当前帧提取的骨干特征(由孪生子网络提取)中预测目标的置信度,从而将目标与场景中的其他对象区分开。
模块d:直接利用离线训练好的UpdateNet模型,在给定初始模板、累积模板和当前帧的模板的情况下,在线估计下一帧的最优模板。
模块e:通过遮挡判定机制评估跟踪状态,不考虑遮挡过程中跟踪性能,在脱离遮挡后利用全局搜索策略重新定位目标。全局搜索策略采用传统的滑动窗口法,每次滑动时对当前窗口执行模板匹配操作。
本发明是在SiamRPN方法基础上开展的,因此直接使用已经训练好的孪生网络模型,整个跟踪框架不需要额外的离线训练。在线训练分类器同样采用孪生网络模型,通过对初始帧进行数据增强,生成30个初始训练样本。模型更新部分直接使用现有的更新网络模型,从第二帧开始进行在线更新模板。
在线分类器通过丢弃存在干扰物或目标缺失的帧来更新滤波器。分类器每10帧更新一次,学习率设置为0.01,当检测到干扰物时,学习率就会增加一倍。对于分类融合,当λ值为0.9时,跟踪效果最优。通过遮挡判定机制评估当前跟踪状态,以决定是否进行模板更新,超参数th、tl和tol分别设置为0.93、0.92和0.02,滑动窗口模板匹配阈值thl设置为0.5。
为了证明该发明具有很好的先进性和鲁棒性,因此采用Success rate和Precision这两个指标来评估跟踪性能。通过观察表3可以看出,针对内河船舶数据集,本发明方法达到了最优的精确度,在精确度上比次优的跟踪方法提升2%,同时具有竞争性的成功率。如图2和图3 所示为本发明方法对应的精确度图和成功率图,图中显示的是各个视频属性下的平均跟踪性能。由于本发明是在具有遮挡属性的船舶数据集上测试,可以看出该方法在遮挡条件下表现最佳。
表3:在内河船舶数据集上与最先进跟踪方法的比较
将本发明方法与最先进跟踪方法进行比较,在大面积遮挡情况下,只有本发明方法在遮挡脱离后仍能继续准确地跟踪目标,而其他跟踪方法都会跟踪丢失。在小面积遮挡情况下,只有本发明方法可以继续精准跟踪目标,而其他方法由于遮挡物的干扰导致目标跟踪“漂移”,一直持续跟踪遮挡物。本发明方法是通过遮挡判定机制评估跟踪状态,不考虑遮挡过程中跟踪性能,在脱离遮挡后利用全局搜索策略重新定位目标。因此,本发明方法在遮挡情况下表现出最佳性能。
Claims (8)
1.一种基于孪生网络的鲁棒在线学习船舶跟踪方法,其特征在于,包括以下步骤:
(1)固定设置k种不同的高宽比ratios以及1个固定的尺度scale,利用基于锚框anchor-based的方法从初始帧中提取k×1个大小不同的候选目标框anchors;
(2)使用孪生网络分别提取模板z和检测帧x的特征,孪生网络架构采用了AlexNet的前5个卷积层,丢弃了边缘填充padding和全连接层;在线训练分类器同样采用孪生网络架构,通过对初始帧进行数据增强,生成多个初始训练样本;
(3)将步骤(2)得到的模板z的特征和检测帧x的特征分别送入区域选取网络RPN的分类分支和回归分支,然后将模板z的特征当做卷积核对检测帧x的特征进行互相关操作,从而产生分类预测值fcls和位置回归值freg;对步骤(2)得到的训练样本分别进行压缩、双重注意力机制以及滤波器操作,从而生成分类置信度fC;
(4)引入自适应在线更新网络UpdateNet,用于改善跟踪过程中模板退化问题;在给定初始模板、积累模板和当前帧模板的情况下,采用离线训练好的UpdateNet模型在线估计下一帧的最优积累模板;其中,初始模板和当前帧模板均是在步骤(2)中从模板z和检测帧x提取得到的特征;
(5)将步骤(3)中得到的分类预测值fcls与在线分类器得分fC进行融合,结合步骤(1)中提取的anchors,找出当前帧预测出的目标位置loc,即为目标的左上角坐标、宽度以及高度;此外,依据分类融合得分建立遮挡判定机制;当判定目标处于遮挡状态时,不更新目标模板,即不执行步骤(4);与此同时,启动全局搜索机制重新定位目标,从而避免目标跟踪漂移;
(6)针对内河船舶数据集中的每一帧图像执行步骤(1)-(5),实现基于孪生网络的鲁棒在线学习船舶跟踪。
5.根据权利要求4所述的一种基于孪生网络的鲁棒在线学习船舶跟踪方法,其特征在于:所述步骤(5)中包括如下子步骤:
(5.1)在线分类器主要包括压缩模块、注意力模块以及滤波器模块;首先,压缩模块是采用随机投影方法降维压缩;然后,双重注意力机制是由通道注意力机制和空间注意力机制组成;最后,滤波器模块则是用来产生分类置信度;因此,根据上述所说将在线分类器定义如下:
其中,w表示在线学习网络参数,C表示压缩模块,A表示注意力模块,F表示滤波模块;
(5.2)将步骤(5.1)中在线学习的目标函数定义成与L2分类误差类似的形式:
每个训练样本xi受权重γi控制的影响;yi∈RW*H是标注的分类置信度,它以预测目标位置为中心的高斯函数进行标注;正则化对wk的惩罚由λk设置;
(5.3)采用线性加权融合方式,将步骤(3.1)中得到的离线Siamese网络分类得分和步骤(5.1)中在线分类器生成的得分图二者融合,以一定权重融合得到自适应分类得分:
ffusion(x;w)=λfC(x;w)+(1-λ)fcls(z,x;w)
其中,λ是在线置信度得分的影响因子;
(5.4)依据步骤(5.3)中得到的自适应分类得分的变化程度,提出了相适应的遮挡判定机制;依据自适应分类得分评估当前跟踪状态,以决定是否应该更新模板以及是否扩大搜索区域;
(5.5)全局搜索策略采用传统的滑动窗口法,通过滑动对当前窗口执行模板匹配操作;如果当前窗口得到的相似得分高于阈值thl,则认为检测到目标位置loc。
6.根据权利要求2所述的一种基于孪生网络的鲁棒在线学习船舶跟踪方法,其特征在于:所述步骤(5.3)中,λ=0.9。
7.根据权利要求2所述的一种基于孪生网络的鲁棒在线学习船舶跟踪方法,其特征在于:所述步骤(5.4)中,th=0.93,tl=0.92,tol=0.02。
8.根据权利要求2所述的一种基于孪生网络的鲁棒在线学习船舶跟踪方法,其特征在于:所述步骤(5.5)中,thl=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210691508.5A CN115272405A (zh) | 2022-06-17 | 2022-06-17 | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210691508.5A CN115272405A (zh) | 2022-06-17 | 2022-06-17 | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272405A true CN115272405A (zh) | 2022-11-01 |
Family
ID=83762012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210691508.5A Pending CN115272405A (zh) | 2022-06-17 | 2022-06-17 | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272405A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030095A (zh) * | 2023-02-01 | 2023-04-28 | 西南石油大学 | 一种基于双分支孪生网络结构的视觉目标跟踪方法 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
-
2022
- 2022-06-17 CN CN202210691508.5A patent/CN115272405A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030095A (zh) * | 2023-02-01 | 2023-04-28 | 西南石油大学 | 一种基于双分支孪生网络结构的视觉目标跟踪方法 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN116486203B (zh) * | 2023-04-24 | 2024-02-02 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563313B (zh) | 基于深度学习的多目标行人检测与跟踪方法 | |
CN108090919B (zh) | 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法 | |
CN115272405A (zh) | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN104200495A (zh) | 一种视频监控中的多目标跟踪方法 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN110531618B (zh) | 基于有效关键帧的闭环检测机器人自定位误差消除方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN116665095B (zh) | 一种运动舰船检测方法、系统、存储介质和电子设备 | |
CN110826575A (zh) | 一种基于机器学习的水下目标识别方法 | |
CN112287906A (zh) | 一种基于深度特征融合的模板匹配跟踪方法及系统 | |
CN112329764A (zh) | 一种基于tv-l1模型的红外弱小目标检测方法 | |
Ma et al. | MSMA-Net: An Infrared Small Target Detection Network by Multi-scale Super-resolution Enhancement and Multi-level Attention Fusion | |
CN116385915A (zh) | 一种基于时空信息融合的水面漂浮物目标检测与跟踪方法 | |
Zhao et al. | Dual stream conditional generative adversarial network fusion for video abnormal behavior detection | |
Zhou et al. | A Superpixel-based Water Scene Segmentation Method by Sea-sky-line and Shoreline Detection | |
CN117635637B (zh) | 一种自主构想的智能目标动态探测系统 | |
CN109523587A (zh) | 基于多特征和自适应字典学习的目标跟踪方法及系统 | |
Jiang et al. | Improved adaptive template updating strategy based on correlation filter in tracking | |
Zhang et al. | Research on single object tracking algorithm based on Siamese network and Kalman filter | |
Liu et al. | Lightweight Face Detection Algorithm under Occlusion Based on Improved CenterNet | |
Tian et al. | Detecting Video Image Changes Based on Improved Difference Map and Image Fusion | |
Xiong et al. | Online discrimination-correction subnet for background suppression and dynamic template updating in Siamese visual tracking | |
CN116580055A (zh) | 一种基于增量式背景建模与多目标跟踪的高空抛物检测方法 | |
CN115272401A (zh) | 一种基于辨别增强记忆与断续时空约束的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |