CN116543019A - 一种基于精确边界框预测的单目标跟踪方法 - Google Patents
一种基于精确边界框预测的单目标跟踪方法 Download PDFInfo
- Publication number
- CN116543019A CN116543019A CN202310515531.3A CN202310515531A CN116543019A CN 116543019 A CN116543019 A CN 116543019A CN 202310515531 A CN202310515531 A CN 202310515531A CN 116543019 A CN116543019 A CN 116543019A
- Authority
- CN
- China
- Prior art keywords
- target
- prediction
- correlation
- accurate
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000011068 loading method Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000007306 turnover Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于精确边界框预测的单目标跟踪方法。属于计算机视觉目标跟踪领域。它是一种采用像素点互相关、通道注意力机制和关键点式边界框预测网络相结合的单目标跟踪方法。首先构建基于精确边界框预测的网络模型,并对该模型进行离线训练,其次加载并初始化离线训练的精确边界框预测算法的网络模型,并通过像素互相关操作获得响应特征,最后将响应特征转换得到目标的预测边界框,并更新目标边界框的预测结果,完成对整个视频序列中目标的定位和跟踪。本发明提出一种更加灵活、精确、计算量小的边界框预测模块,有效地提取和维护特征中的空间信息,提高对目标发生尺度变化、旋转和快速运动时的鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,涉及单目标跟踪技术,具体为一种基于精确边界框预测的单目标跟踪方法。
背景技术
随着科学技术的不断发展,社会信息化,智能化程度日益提高,人类已经迈入大数据,信息化时代,这给人们的生活带来极大的便利,同时也使得计算机视觉研究更加活跃。
视觉目标跟踪是计算机视觉领域中一个十分重要且极具挑战性的分支,它是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的位置、运动轨迹、速度和加速度等运动参数,并对这些数据进行处理分析,实现对运动目标的行为理解,完成高级视频分析任务,广泛应用于现代化军事、视频监控、自动驾驶及医疗诊断等领域,有着重要的研究价值和实际意义。
尽管目标跟踪技术在多个领域都有所应用,但是在实际的跟踪过程中,由于不可控因素,仍面临着许多挑战,比如目标存在光照变化、运动模糊、旋转、相似物干扰、低分辨率、遮挡、形状变化、光照变化等。因此,为了解决目标跟踪过程中遇到的困难及挑战,并在多个领域能够更好地被应用,研究并设计出高精度且实时的目标跟踪算法具有重要的价值和深远的影响力。
近年来,随着深度学习技术的不断发展和应用,基于判别式模型的目标跟踪算法也在不断演进,从基于相关滤波的目标跟踪算法发展到基于深度学习的目标跟踪算法,不断提高跟踪算法的准确性、实时性和鲁棒性。基于孪生网络的跟踪器因其速度快、精度高,受到了研究者们的广泛关注。
发明内容
本发明的目的在于针对当前的孪生网络结构缺乏特定目标的背景特征,无法有效识别出目标相似物干扰,降低背景噪声的影响,提出一种基于精确边界框预测的单目标跟踪方法。该方法通过分数融合策略使用目标特定特征的判别学习,帮助孪生网络更好地处理干扰和噪声,并通过将像素互相关和通道注意力机制相融合的策略,有效地提取和维护特征中的空间信息;通过关键点式边界框预测网络,可以有效地保持特征图中的自然空间结构,并且避免将空间信息编码到通道中,提高目标发生尺度变化、旋转和快速运动时的鲁棒性。具体包括以下步骤:
(1)构建基于精确边界框预测的网络模型,并对该模型进行离线训练;
(1a)输入一段视频序列,选取两帧间隔小于50帧的随机模板帧Fref和测试帧Ftest;
(1b)通过将模板帧Fref裁剪为给定标注边界框两倍大小的图像作为模板分支的输入,将测试帧Ftest以标注边界框为中心进行裁剪后的图像进行平移、翻转、缩放、颜色变化和模糊处理后作为搜索分支的输入,通过下列公式进行计算
可以得到以[cx,cy]为中心,大小为[h,w]的区域,其中分别表示给定的标注边界框中心点的横坐标值和纵坐标值及标注边界框的长度和宽度,/>和/>是两个标量因子,分别表示尺度和中心,N和U分别表示二维标准正态分布随机变量和二维均匀随机变量;
(1c)将目标边界框的预测输出结果转换为最左、最上、最右、最下格式的坐标,并与给定的标注边界框的坐标值进行比较,得到总损失:
L=Lbox+λLmask
其中,Lbox表示均方误差,Lmask表示交叉熵损失,λ表示权重系数;
(2)加载初始跟踪算法的网络模型,初始化离线训练的基于精确边界框预测算法的网络模型;
(3)优化预测边界框的坐标,并对提取到的搜索图像和模板图像特征进行像素互相关操作,通过通道注意力机制对像素互相关后的特征进行挤压和激活操作得到响应特征,具体步骤为:
(3a)输入的模板图像特征和/>的搜索图像特征,其中,C表示特征通道数,H0、W0分别表示模板图像特征的长度和宽度,H、W分别表示搜索图像特征的长度和宽度,将模板图像特征K分解成H0×W0个较小的卷积核/>与搜索图像特征进行相关性计算得到像素相关图/>整个过程可以描述为
其中,*表示朴素互相关,下标j表示第j个通道;
(3b)通过全局平均池化操作生成基于通道的统计信息,并将全局空间信息压缩到通道描述符中,统计量z∈RC通过对特征图uc的空间维数H×W进行Fsq(.)收缩操作得到,则z的第c个元素计算为
其中,i表示特征图uc的第i行,j表示特征图uc的第j列;
(3c)通过参数w为每个特征通道生成权重s,整个过程可以描述为
s=Fex(z,w)=σ(w2δ(w1z))
δ(x)=max(0,x)
其中,Fex(.)表示提取操作,σ(x)表示Sigmoid激活函数,δ(x)表示ReLU激活函数,z表示收缩后的特征信息,分别表示全连接层的第一层和第二层,其中,L表示特征的通道数,r表示特征压缩比例因子;
(3d)通过将学习得到的每个通道注意力权重sc与主干的输入特征uc相乘得到输出特征为
其中,Fsc(uc,sc)表示注意力权重sc和特征图之间的通道乘法;
(4)计算得到响应特征中目标左上点和右下点的热力图信息,通过概率密度函数转换得到目标的预测边界框,并更新初始跟踪算法中目标边界框的预测结果,完成对整个视频序列中目标的定位和跟踪,具体计算方式为
其中,hn,m表示大小为Wh×Hh的归一化热力图中的第m列第n行对应的元素,m表示热力图的第m列,n表示热力图的第n行,p=(px,py)表示目标左上点或右下点的位置。
本发明的创新点是提出一种更加灵活、精确、计算量小的边界框预测模块;通过将像素互相关及通道注意力机制相融合的策略,有效地提取和维护特征中的空间信息;采用关键点式边界框预测网络,有效地抑制背景噪声,保持特征图中的自然空间结构,显著提高跟踪器的边界框预测质量。
本发明的有益效果:有效地解决了目标跟踪过程中目标出现外观变化、旋转和运动模糊时表现出的目标漂移问题;提高对目标发生尺度变化和旋转时的鲁棒性;在保证实时跟踪速度的前提下,大幅提升跟踪的精度。
本发明主要采用仿真实验的方法进行验证,所有步骤、结论都在基于pytracking的开源目标跟踪算法框架上验证正确。
附图说明
图1是本发明的流程框图;
图2是本发明的网络框架图;
图3是本发明的像素互相关示意图;
图4是本发明的关键点式边界框预测网络结构图;
图5是采用不同方法在OTB100数据集上部分序列的跟踪结果。
具体实施方式
参照图1,本发明是一种基于精确边界框预测的单目标跟踪方法,具体步骤如下:
(1)构建基于精确边界框预测的网络模型,并对该模型进行离线训练;
(1a)输入一段视频序列,选取两帧间隔小于50帧的随机模板帧Fref和测试帧Ftest;
(1b)通过将模板帧Fref裁剪为给定标注边界框两倍大小的图像作为模板分支的输入,将测试帧Ftest以标注边界框为中心进行裁剪后的图像进行平移、翻转、缩放、颜色变化和模糊处理后作为搜索分支的输入,通过下列公式进行计算
可以得到以[cx,cy]为中心,大小为[h,w]的区域,其中分别表示给定的标注边界框中心点的横坐标值和纵坐标值及标注边界框的长度和宽度,/>和/>是两个标量因子,分别表示尺度和中心,N和U分别表示二维标准正态分布随机变量和二维均匀随机变量;
(1c)将目标边界框的预测输出结果转换为最左、最上、最右、最下格式的坐标,并与给定的标注边界框的坐标值进行比较,得到总损失:
L=Lbox+λLmask
其中,Lbox表示均方误差,Lmask表示交叉熵损失,λ表示权重系数;
(2)加载初始跟踪算法的网络模型,初始化离线训练的基于精确边界框预测算法的网络模型;
(3)优化预测边界框的坐标,并对提取到的搜索图像和模板图像特征进行像素互相关操作,通过通道注意力机制对像素互相关后的特征进行挤压和激活操作得到响应特征,具体步骤为:
(3a)输入的模板图像特征和/>的搜索图像特征,其中,C表示特征通道数,H0、W0分别表示模板图像特征的长度和宽度,H、W分别表示搜索图像特征的长度和宽度,将模板图像特征K分解成H0×W0个较小的卷积核/>与搜索图像特征进行相关性计算得到像素相关图/>整个过程可以描述为
其中,*表示朴素互相关,下标j表示第j个通道;
(3b)通过全局平均池化操作生成基于通道的统计信息,并将全局空间信息压缩到通道描述符中,统计量z∈RC通过对特征图uc的空间维数H×W进行Fsq(.)收缩操作得到,则z的第c个元素计算为
其中,i表示特征图uc的第i行,j表示特征图uc的第j列;
(3c)通过参数w为每个特征通道生成权重s,整个过程可以描述为
s=Fex(z,w)=σ(w2δ(w1z))
δ(x)=max(0,x)
其中,Fex(.)表示提取操作,σ(x)表示Sigmoid激活函数,δ(x)表示ReLU激活函数,z表示收缩后的特征信息,分别表示全连接层的第一层和第二层,其中,L表示特征的通道数,r表示特征压缩比例因子;
(3d)通过将学习得到的每个通道注意力权重sc与主干的输入特征uc相乘得到输出特征为
其中,Fsc(uc,sc)表示标量sc和特征图之间的通道乘法;
(4)计算得到响应特征中目标左上点和右下点的热力图信息,通过概率密度函数转换得到目标的预测边界框,并更新初始跟踪算法中目标边界框的预测结果,完成对整个视频序列中目标的定位和跟踪,具体计算方式为
其中,hn,m表示大小为Wh×Hh的归一化热力图中的第m列第n行对应的元素,m表示热力图的第m列,n表示热力图的第n行,p=(px,py)表示目标左上点或右下点的位置。
本发明的效果可以通过以下仿真实验进一步说明:
一、实验条件和内容
实验条件:实验采用OTB100数据集中部分视频序列,如图5所示;实验结果评价指标采用成功率曲线图和精度曲线图来客观评价重构结果,成功率曲线图根据跟踪算法得到的边界框和人工标注的准确边界框的面积重叠比IoU(Intersection over Union)来进行绘制,其计算公式为:
其中BoxP为跟踪算法预测的目标边界框,BoxG为目标真实边界框。设定一个阈值T,当某一帧的成功率大于T时,才会认为此帧的跟踪是成功的。成功率曲线图反映边界框重叠率大于给定阈值的视频帧的百分比,更能描述跟踪算法预测的目标尺度与真实尺度的接近程度。精确度曲线图根据跟踪算法得到的目标边界框和人工标注的准确边界框的中心欧氏距离误差进行绘制,其计算公式为:
其中(xP,yP)为跟踪算法预测的目标边界框的中心位置,(xG,yG)为人工标注的准确边界框的中心位置。设定一个阈值,只有当d<T时,才会认定此帧的跟踪是成功的,常采用阈值为20个像素点所对应的数值作为精确度评价指标。
实验内容:在上述条件下,采用在单目标跟踪领域目前处于领先水平的SiamBAN方法、SiamBAN++方法与本发明方法进行对比,跟踪对比结果如图5所示。
从图5(a)可以看出,在Board序列中,目标进行快速运动和旋转,出现了运动模糊的情况,SiamBAN方法跟丢了目标,只有SiamBAN++方法和本发明方法做出了正确的预测,但是由于SiamBAN++方法采用的是RPN式边界框预测网络,未能充分利用特征图空间分布中包含的信息,造成边界框预测不准确,只有本发明方法最精确地预测出目标的位置。
从图5(b)可以看出,在Clifbar序列中,只有本发明方法预测的边界框与人工标注的正确边界框相重合,SiamBAN方法和SiamBAN++方法预测的边界框与人工标注的正确边界框差异较大。
从图5(c)可以看出,在Ironman序列中,目标周围出现强烈的光照变化,并伴随着相似物干扰和遮挡情况,SiamBAN方法和SiamBAN++方法均出现了目标漂移的现象,只有本发明方法做出精确预测并成功跟踪目标。
从图5(d)可以看出,在Walking2序列中,目标周围出现相似物干扰,SiamBAN方法和SiamBAN++方法均出现了跟丢目标的情况,只有本发明方法能够成功跟踪目标。
表1不同跟踪方法在OTB100数据集下部分视频序列的成功率指标
视频序列 | SiamBAN方法 | SiamBAN++方法 | 本发明方法 |
Board | 0.474 | 0.730 | 0.766 |
Clifbar | 0.473 | 0.509 | 0.722 |
Ironman | 0.565 | 0.520 | 0.645 |
Walking2 | 0.279 | 0.271 | 0.347 |
表1给出了各跟踪方法的成功率指标情况,其中成功率值越大表示跟踪效果越好;由表可见本发明方法相比其他方法跟踪成功率均有较大提高。
表2不同跟踪方法在OTB100数据集下部分视频序列的精确度指标
视频序列 | SiamBAN方法 | SiamBAN++方法 | 本发明方法 |
Board | 0.431 | 0.646 | 0.699 |
Clifbar | 0.790 | 0.835 | 0.908 |
Ironman | 0.802 | 0.668 | 0.818 |
Walking2 | 0.381 | 0.373 | 0.428 |
表2给出了各跟踪方法的精确度指标情况,其中精确度值越高表示预测边界框与人工标注边界框更接近;可见本发明方法对应的精确度值最高,预测边界框与人工标注边界框更相近,此结果与跟踪效果图相吻合。
上述实验表明,本发明提出的像素互相关和通道注意力机制模块可以解决目标背景噪声的影响。同时,提出的关键点式边界框预测网络可以有效地解决RPN网络头部中数据不一致问题,也解决了R-CNN网络空间信息崩溃的问题,并且能够保持特征图中的自然空间结构,实现对目标边界框的精确定位。
Claims (4)
1.一种基于精确边界框预测的单目标跟踪方法,包括以下步骤:
(1)构建基于精确边界框预测的网络模型,并对该模型进行离线训练;
(2)加载初始跟踪算法的网络模型,初始化离线训练的基于精确边界框预测算法的网络模型;
(3)优化预测边界框的坐标,并对提取到的搜索图像和模板图像特征进行像素互相关操作,通过通道注意力机制对像素互相关后的特征进行挤压和激活操作得到响应特征,具体步骤为:
(3a)输入的模板图像特征和/>的搜索图像特征,其中,C表示特征通道数,H0、W0分别表示模板图像特征的长度和宽度,H、W分别表示搜索图像特征的长度和宽度,将模板图像特征K分解成H0×W0个较小的卷积核/>与搜索图像特征进行相关性计算得到像素相关图/>整个过程可以描述为
其中,*表示朴素互相关,下标j表示第j个通道;
(3b)通过全局平均池化操作生成基于通道的统计信息,并将全局空间信息压缩到通道描述符中,统计量z∈RC通过对特征图uc的空间维数H×W进行Fsq(.)收缩操作得到,则z的第c个元素为
其中,i表示特征图uc的第i行,j表示特征图uc的第j列;
(3c)通过参数w为每个特征通道生成权重s,整个过程可以描述为
s=Fex(z,w)=σ(w2δ(w1z))
δ(x)=max(0,x)
其中,Fex(.)表示提取操作,σ(x)表示Sigmoid激活函数,δ(x)表示ReLU激活函数,z表示收缩后的特征信息,分别表示全连接层的第一层和第二层,其中,L表示特征的通道数,r表示特征压缩比例因子;
(3d)通过将学习得到的每个通道注意力权重sc与主干的输入特征uc相乘得到输出特征为
其中,Fsc(uc,sc)表示注意力权重sc和特征图之间的通道乘法;
(4)计算得到响应特征中目标左上点和右下点的热力图信息,通过概率密度函数转换得到目标的预测边界框,并更新初始跟踪算法中目标边界框的预测结果,完成对整个视频序列中目标的定位和跟踪,具体计算方式为
其中,hn,m表示大小为Wh×Hh的归一化热力图中的第m列第n行对应的元素,m表示热力图的第m列,n表示热力图的第n行,p=(px,py)表示目标左上点或右下点的位置。
2.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法,其步骤(1)的主要特征在于,模型进行离线训练的具体步骤为:
(1a)输入一段视频序列,选取两帧间隔小于50帧的随机模板帧Fref和测试帧Ftest;
(1b)通过将模板帧Fref裁剪为给定标注边界框两倍大小的图像作为模板分支的输入,将测试帧Ftest以标注边界框为中心进行裁剪后的图像进行平移、翻转、缩放、颜色变化和模糊处理后作为搜索分支的输入,通过下列公式进行计算
可以得到以[cx,cy]为中心,大小为[h,w]的区域,其中分别表示给定的标注边界框中心点的横坐标值和纵坐标值及标注边界框的长度和宽度,/>和/>是两个标量因子,分别表示尺度和中心,N和U分别表示二维标准正态分布随机变量和二维均匀随机变量;
(1c)将目标边界框的预测输出结果转换为最左、最上、最右、最下格式的坐标,并与给定的标注边界框的坐标值进行比较,得到总损失
L=Lbox+λLmask
其中,Lbox表示均方误差,Lmask表示交叉熵损失,λ表示权重系数。
3.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法,其步骤(3)的主要特征在于,采用像素点互相关的方式完成模板帧特征和搜索帧特征的融合,并且引入通道注意力机制可以确保每个相关图能够映射到目标某个局部区域的信息,避免较大相关窗口造成特征模糊的现象。
4.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法,其步骤(4)的主要特征在于,通过概率密度函数对热力图进行归一化处理,可以实现高效的像素定位,使离散的热力图能够更加精确地描述出目标左上点和右下点的位置信息,并从离散的热力图中预测连续值,有效地避免RPN网络头的数据不一致问题,解决了R-CNN网络空间信息崩溃的问题,并且能够保持特征图中的自然空间结构,避免将空间信息编码到通道中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310515531.3A CN116543019A (zh) | 2023-05-09 | 2023-05-09 | 一种基于精确边界框预测的单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310515531.3A CN116543019A (zh) | 2023-05-09 | 2023-05-09 | 一种基于精确边界框预测的单目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543019A true CN116543019A (zh) | 2023-08-04 |
Family
ID=87457324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310515531.3A Pending CN116543019A (zh) | 2023-05-09 | 2023-05-09 | 一种基于精确边界框预测的单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543019A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238039A (zh) * | 2023-11-16 | 2023-12-15 | 暗物智能科技(广州)有限公司 | 基于顶视视角的多任务人体行为分析方法及系统 |
-
2023
- 2023-05-09 CN CN202310515531.3A patent/CN116543019A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238039A (zh) * | 2023-11-16 | 2023-12-15 | 暗物智能科技(广州)有限公司 | 基于顶视视角的多任务人体行为分析方法及系统 |
CN117238039B (zh) * | 2023-11-16 | 2024-03-19 | 暗物智能科技(广州)有限公司 | 基于顶视视角的多任务人体行为分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070074B (zh) | 一种构建行人检测模型的方法 | |
CN105844669B (zh) | 一种基于局部哈希特征的视频目标实时跟踪方法 | |
CN110287826B (zh) | 一种基于注意力机制的视频目标检测方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN110473231B (zh) | 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
CN110675421B (zh) | 基于少量标注框的深度图像协同分割方法 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN112489081A (zh) | 一种视觉目标跟踪方法及装置 | |
CN113902991A (zh) | 一种基于级联特征融合的孪生网络目标跟踪方法 | |
CN113298036A (zh) | 一种无监督视频目标分割的方法 | |
CN113706581A (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN116543019A (zh) | 一种基于精确边界框预测的单目标跟踪方法 | |
CN112700476A (zh) | 一种基于卷积神经网络的红外船视频跟踪方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN111462132A (zh) | 一种基于深度学习的视频物体分割方法及系统 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN114882076B (zh) | 一种基于大数据记忆存储的轻量型视频对象分割方法 | |
CN111353509B (zh) | 一种视觉slam系统的关键点提取器生成方法 | |
CN112598056A (zh) | 一种基于屏幕监控的软件识别方法 | |
CN117274723B (zh) | 一种用于输电巡检的目标识别方法、系统、介质及设备 | |
CN115049705B (zh) | 多模板网络框架的目标跟踪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |