CN112508996A - 无锚点孪生网络角点生成的目标跟踪方法及装置 - Google Patents
无锚点孪生网络角点生成的目标跟踪方法及装置 Download PDFInfo
- Publication number
- CN112508996A CN112508996A CN202010924697.7A CN202010924697A CN112508996A CN 112508996 A CN112508996 A CN 112508996A CN 202010924697 A CN202010924697 A CN 202010924697A CN 112508996 A CN112508996 A CN 112508996A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- corner
- image
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种无锚点孪生网络角点生成的目标跟踪方法及装置,其中,目标跟踪方法,包括:获取待目标跟踪训练视频帧,构建用于对训练集组进行训练的孪生网络,孪生网络中包括:第一残差神经网络、第二残差神经网络、特征融合网络、角点位置估计网络及角点位置误差估计网络;以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练,根据训练好的孪生网络进行目标跟踪。其将孪生网络与角点生成结合在一起,避免了使用预置的锚点,减少了热图的输出数量,即降低了网络的参数数量,加快了跟踪算法的速度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种无锚点孪生网络角点生成的目标跟踪方法及装置。
背景技术
目标跟踪根据视频第一帧中需要跟踪的目标对象,一般来说通过跟踪方法的连续推理在后续视频帧中确定目标所在的区域。在《High Performance Visual Tracking withSiamese Region Proposal Network》论文中提出使用两个孪生卷积网络分别确定目标的中心位置和位移。该方法使用参数共享的卷积神经网络分别从首帧目标模板图像区域和后续视频帧中目标搜索区域图像区域中提取深度特征。其中,首帧目标模板图像区域深度特征通过两个卷积模块的卷积产生2k个通道的模板特征和4k个通道的模板特征(k表示特征图上每个位置的锚点数,一般取值为5);目标搜索区域图像区域通过两个卷积模块分别生成用于前背景分类和目标空间位置偏移量估计的深度特征。在特征提取完成后,将2k个通道的模板特征与目标搜索区域深度特征用于前背景分类的特征进行卷积,生成2k个通道的分类图;同时4k个通道模板深度特征与目标搜索区域深度特征卷积,生成用于估计目标空间位置偏移量4k个通道的偏移量图。该方法对于目标模板图像区域的预测采用了锚点框预测,在2k通道的分类图上选取值最大的锚点框中心位置作为目标候选区域,在此基础上进一步估计目标的高度和宽度。
在锚点框的设置上,每个坐标点上不同长宽比和尺度的锚点数量一共是k 个,以此作为目标区域可能长宽比和尺度的估计。反映在2k通道的分类图上,其中k个奇数通道反映了各坐标点不同锚点框为目标特征区域的似然度。从这k 个奇数通道的分类图上选取具有最高分类值作候选目标模板图像区域的坐标点,随后在4k个通道的偏移量图上找对应坐标点上的长宽和坐标偏移值,以此计算目标的位置和长宽。
虽然上述参数共享的卷积神经网络能够一定程度上实现目的,但是基于该孪生网络的目标跟踪方法受到以下三个方面问题的限制:
1)目标空间位置估计的准确性和速度很大程度上依赖于锚点的设置,该方法需要为每个坐标点预先定义了一组固定长宽比和尺度的锚点框,但是其作为目标可能长宽比和尺度的预测并不一定准确。
2)由于目标往往位于视频帧中一个面积有限的局部区域,而该方法在各坐标点都设置锚点,大量的锚点实际上与目标无关,并不能对目标模板图像区域的预测起到作用,密集的锚点会浪费大量的计算资源去对锚点进行分类和空间偏移量进行预测。
3)该类方法通常将跟踪问题拆分为目标与背景分类和偏移量估计两个子问题来解决。目标与背景分类是在分辨率较低的特征图上估计目标中心位置,偏移量估计给出的是高分辨率的偏移量,两者在分辨率上的差异很容易导致最终目标位置产生误差。
发明内容
针对上述问题,本发明提供了一种无锚点孪生网络角点生成的目标跟踪方法及装置,有效解决现有目标跟踪方法精确度不高的技术问题。
本发明提供的技术方案如下:
一种无锚点孪生网络角点生成的目标跟踪方法,包括:
获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,所述第二预设大小大于第一预设大小;
构建用于对训练集组进行训练的孪生网络,所述孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对所述第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对所述特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对所述特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;
以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;
获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
本发明还提供了一种无锚点孪生网络角点生成的目标跟踪装置,包括:
训练集组获取模块,用于获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,所述第二预设大小大于第一预设大小;
孪生网络构建模块,用于构建用于对训练集组获取模块或的训练集组进行训练的孪生网络,所述孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对所述第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对所述特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对所述特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;
网路训练模块,用于以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对孪生网络构建模块构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;
目标跟踪模块,用于获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
本发明提供的无锚点孪生网络角点生成的目标跟踪方法及装置,与已有技术相比,具有以下优点和特点:
(1)将孪生网络与角点生成结合在一起,避免了使用预置的锚点,减少了热图的输出数量,即降低了网络的参数数量,加快了跟踪算法的速度。
(2)对于目标角点位置的估计由两个网络完成,角点位置估计网络给出了较为粗略的目标位置,角点位置误差估计网络则在一定程度上弥补了角点位置估计网络精度,由此提升了整个目标跟踪的准确性。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中无锚点孪生网络角点生成的目标跟踪方法流程示意图;
图2为本发明中孪生网络结构示意图;
图3为本发明中目标跟踪流程示意图;
图4为本发明中无锚点孪生网络角点生成的目标跟踪装置结构示意图;
图5为本发明中终端设备结构示意图。
附图标记:
11-目标模板图像,12-目标搜索区域图像,13-第一残差神经网络,14-第二残差神经网络,15-特征融合网络,16-角点位置估计网络,17-角点位置误差估计网络,18-角点位置热图,19-角点位置误差热图;100-目标跟踪装置,110-训练集组获取模块,120-孪生网络构建模块,130-网路训练模块,140-目标跟踪模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
如图1所示,为本发明提供的无锚点孪生网络角点生成的目标跟踪方法流程示意图,从图中可以看出,在该目标跟踪方法中包括:
S10获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,第二预设大小大于第一预设大小;
S20构建用于对训练集组进行训练的孪生网络,孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;
S30以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;
S40获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
为了得到适用于目标跟踪的网络参数,需要利用训练数据来调整网络参数,使得该神经网络能够满足当前的目标跟踪任务要求,为此需要预先准备训练数据。具体来说,准备的训练数据中以训练集组为单位,每组训练集组中包括两张图片,其中一张为在第一帧图像中框选出包含跟踪目标的目标模板图像,另一张为以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像,以此根据孪生网络实现以目标模板图像为基准在目标搜索区域图像中找到待跟踪目标的目标框的目的。为了提高跟踪效率,可根据实际情况设定第一预设大小和第二预设大小的关系,理论上来说,只要满足第二预设大小大于第一预设大小即可。
在一实例中,训练数据选用已手工标注的目标检测图像数据集VID和 YouTube-BoundingBoxes数据集。从每段视频中任意选取帧数相差不大于20帧的两帧图像,以前一帧中待跟踪目标为中心的矩形框(宽度为w,高度为h)作为目标模板图像,并将其缩放至127×127大小,作为目标模板图像的原始图像输入。后一帧中围绕前一帧矩形框中心裁剪出宽度为2w、高度为2h的目标搜索区域图像,并将其缩放至255×255大小。每一对目标模板图像与目标搜索区域图像构成了1个训练数据(对应上述训练集组)。
之后,对孪生网络进行构建,如图2所示,构建的孪生网络由第一残差神经网络13、第二残差神经网络14、特征融合网络15、角点位置估计网络16及角点位置误差估计网络17构成,其中,第一残差神经网络13和第二残差神经网络 14的输出作为特征融合网络的输入,特征融合网络15的输出作为角点位置估计网络16及角点位置误差估计网络17的输入。
具体,作为主干网络的第一残差神经网络和第二残差神经网络均为残差神经网络ResNet-50,且为了缓解特征图分辨率随着网络深度增加而降低的问题,在 ResNet-50的最后2个卷积块(第4卷积块和第5卷积块)中舍去了下采样操作,并采用空洞卷积来扩大感受野,空洞率可根据应用需求进行调整,如将第4卷积块中的空洞率设置为2、将第5卷积块中的空洞率设置为4等。两支卷积神经网络的结构和参数保持一致,分别用于目标模板图像11和目标搜索区域图像12深度特征的提取。考虑到多层卷积神经网络所提取的特征存在较为明显的差异性,因此在使用了残差神经网络对输入的特征提取的特征之后将第3卷积块、第4 卷积块和第5卷积块输出的特征进行融合。在各卷积块中,通过1×1尺寸的卷积核进行卷积计算,将特征的通道数降为256,随后通过1层3×3尺寸卷积核的卷积得到变换后的特征图。
对于第3卷积块、第4卷积块和第5卷积块的输出,将目标模板图像的特征图视作为卷积核,与目标搜索区域图像的特征图作卷积计算,获得互相关图作为后续角点位置估计和误差估计的输入。另外,这一过程中会由第3卷积块、第4 卷积块和第5卷积块计算得到3个互相关图,是以在对应通道上取平均值作为最终的互相关图。
角点位置估计网络利用上述3个卷积块输出的深度特征来确定目标框的角点位置。其中,第1个输出分支为角点位置估计分支(对应上述角点位置估计网络)。对于每个互相关图,将其通过3层卷积层(每层卷积层使用了3×3尺寸的卷积核,填充参数设置为1,输出通道数为256),然后其输入1层1×1尺寸卷积核的卷积层,将输出通道数降低为2,最终得到2个角点位置估计热图(对应图2中的18),分别表示目标框左上角点的位置和右下角点的位置。第2个输出分支为角点位置误差估计分支(对应上述角点位置误差估计网络)。对于每个互相关图,将其通过3层卷积层(每层卷积层使用了3×3尺寸的卷积核,填充参数设置为1,输出通道数为256),将其输入1层1×1尺寸卷积核的卷积层,将输出通道数降低为2,最终得到2个角点误差估计热图(对应图2中的19),分别表示左上角点的位置误差量和右下角点的位置误差量。
关于角点位置的标签设定方面,分别在左上角位置估计热图和右下角位置估计热图上,按公式(1)为热图上的角点设置软标签。
其中,(i,j)表示当前点坐标距离真实目标框中心坐标的偏移量,σ表示预设距离阈值。从该式中可以看出,当热图上的点距离目标框中心距离越近,其为真实目标框角点的置信度越高。当热图上的点距离目标框中心超出3σ的时候,其置信度设置为0。
为了弥补卷积神经网络下采样操作造成的定位精度损失问题,设置位置误差估计网络为角点位置热图上的点位置估计与当前帧图像相应位置之间的误差o,如式(2):
其中,(x,y)表示当前帧图像上点的坐标,表示当前帧图像上的点映射到角点位置热图上的坐标,s表示当前帧图像分辨率与角点位置热图分辨率的比例。对于这里的当前帧图像,在孪生网络进行训练过程中,具体指代第二帧图像;在目标跟踪过程中,指代需要跟踪目标的当前帧图像,可以为视频中除首帧图像的其他任意一帧。由于在将视频输入进行自动跟踪过程中,输入的目标模板图像不变,改变的是输入的目标搜索区域图像,是以将当前包含目标搜索区域图像的该帧图像称为当前帧图像。
预先设定的对角点位置预测损失函数L如式(3):
L=Ldet+Loff (3)
Ldet表示角点位置热图上角点位置估计的损失如式(4):
其中,H、W表示角点位置热图的高度和宽度,pij表示神经网络在角点位置热图上点位置(i,j)上的预测值,yij为相应的软标签值,
Loff表示角点位置估计热图上角点位置误差估计的损失如式(5):
基于此,在对构建的孪生网络进行训练时,以训练集组中的目标模板图像和目标搜索区域图像作为输入,并利用式(3)的损失函数根据输入的训练数据进行反向传播,调整网络参数至该损失函数收敛完成对孪生网络的训练。
完成孪生网络的训练之后,以目标搜索区域图像区域大小为目标模板图像大小2倍为例,基于该孪生网络的目标跟踪过程如图3所示:
1.目标跟踪开始阶段,在首帧视频中指定目标跟踪框(包含跟踪目标),并将跟踪框内的图像作为目标模板图像;
2.在后续跟踪过程中,在当前帧(对应图中的下一帧)中围绕上一帧中的目标框的中心点坐标为基准裁剪出高和宽为上一帧目标框高和宽2倍的图像区域作为当前帧的目标搜索区域图像;
3.基于训练完毕的孪生网络,将步骤1中得到的目标模板图像和步骤2中得到的目标搜索区域图像分别输入孪生网络的目标模板分支(对应第一残差神经网络所在分支)和目标搜索分支(对应第二残差神经网络所在分支);
4.根据角点位置估计网络输出的2个角点位置热图结果,分别以每张热图上的最大值所在位置作为角点位置的初步估计值,将该位置根据分辨率比例s映射到当前帧图像得到角点位置估计值。假设角点位置热图上最大值所在位置坐标为 (i,j),则映射到当前帧图像的位置估计值为
5.角点位置误差补偿。在角点位置误差估计网络输出的2个角点位置误差热图上取角点位置上的误差值,并将误差值与位置估计值相加得到角点的精确位置,由此确定了当前帧中的目标框。假设于当前帧图像的位置估计值为那么位置补偿后的角点坐标就为其中为神经网络估计的角点位置误差。
6.重复步骤2到步骤4,直到完成所有视频帧上目标跟踪的任务。
在这一过程中,每次跟踪中根据前一帧中包含跟踪目标的目标框对后一帧图像中的目标搜索区域图像进行框选,以此循环直到所有视频帧完成目标跟踪。应当清楚,在使用该方法对视频进行目标跟踪时,于视频中的首帧图像中指定目标跟踪框后,整个视频的跟踪过程中均以该目标跟踪框为基准,但是对于当前帧目标搜索区域图像的框选需要根据前一帧得到的目标框进行选定。框选过程中,具体以前一帧目标框的中心点坐标为基准,在当前帧图像中框选第二预设大小的图像作为目标搜索区域图像。例如,当一视频中包含3帧图像,分别为第一帧图像、第二帧图像和第三帧图像,在开始跟踪时,在第一帧图像中指定目标跟踪框后,采用上述方法在第二帧图像中得到相应的目标框;之后,以第二帧图像中的目标框为基准,在第三帧图像中对目标搜索区域图像进行框定找到相应的目标框(此时目标模板图像仍然为第一帧图像中框选的目标跟踪框),以此类推。在步骤2 中,当进行第一次跟踪时,则上一帧指的就是首帧图像。
相对应地,本发明还提供了一种无锚点孪生网络角点生成的目标跟踪装置 100,包括:训练集组获取模块110,用于获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,第二预设大小大于第一预设大小;孪生网络构建模块120,用于构建用于对训练集组获取模块或的训练集组进行训练的孪生网络,孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;网路训练模块 130,用于以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对孪生网络构建模块构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;目标跟踪模块140,用于获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
为了得到适用于目标跟踪的网络参数,需要利用训练数据来调整网络参数,使得该神经网络能够满足当前的目标跟踪任务要求,为此需要预先准备训练数据。具体来说,准备的训练数据中以训练集组为单位,每组训练集组中包括两张图片,其中一张为在第一帧图像中框选出包含跟踪目标的目标模板图像,另一张为以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像,以此根据孪生网络实现以目标模板图像为基准在目标搜索区域图像中找到待跟踪目标的目标框的目的。为了提高跟踪效率,可根据实际情况设定第一预设大小和第二预设大小的关系,理论上来说,只要满足第二预设大小大于第一预设大小。
在一实例中,训练数据选用已手工标注的目标检测图像数据集VID和 YouTube-BoundingBoxes数据集。从每段视频中任意选取帧数相差不大于20帧的两帧图像,以前一帧中待跟踪目标为中心的矩形框(宽度为w,高度为h)作为目标模板图像,并将其缩放至127×127大小,作为目标模板图像的原始图像输入。后一帧中围绕前一帧矩形框中心裁剪出宽度为2w、高度为2h的目标搜索区域图像,并将其缩放至255×255大小。每一对目标模板图像与目标搜索区域图像构成了1个训练数据(对应上述训练集组)。
之后,对孪生网络进行构建,如图2所示,构建的孪生网络由第一残差神经网络、第二残差神经网络、特征融合网络、角点位置估计网络及角点位置误差估计网络构成,其中,第一残差神经网络和第二残差神经网络的输出作为特征融合网络的输入,特征融合网络的输出作为角点位置估计网络及角点位置误差估计网络的输入。
具体,作为主干网络的第一残差神经网络和第二残差神经网络均为残差神经网络ResNet-50,且为了缓解特征图分辨率随着网络深度增加而降低的问题,在 ResNet-50的最后2个卷积块(第4卷积块和第5卷积块)中舍去了下采样操作,并采用空洞卷积来扩大感受野,空洞率可根据应用需求进行调整,如将第4卷积块中的空洞率设置为2、将第5卷积块中的空洞率设置为4等。两支卷积神经网络的结构和参数保持一致,分别用于目标模板图像11和目标搜索区域图像12深度特征的提取。考虑到多层卷积神经网络所提取的特征存在较为明显的差异性,因此在使用了残差神经网络对输入的特征提取的特征之后将第3卷积块、第4 卷积块和第5卷积块输出的特征进行融合。在各卷积块中,通过1×1尺寸的卷积核进行卷积计算,将特征的通道数降为256,随后通过1层3×3尺寸卷积核的卷积得到变换后的特征图。
对于第3卷积块、第4卷积块和第5卷积块的输出,将目标模板图像的特征图视作为卷积核,与目标搜索区域图像的特征图作卷积计算,获得互相关图作为后续角点位置估计和误差估计的输入。另外,这一过程中会由第3卷积块、第4 卷积块和第5卷积块计算得到3个互相关图,是以在对应通道上取平均值作为最终的互相关图。
角点位置估计网络利用上述3个卷积块输出的深度特征来确定目标框的角点位置。其中,第1个输出分支为角点位置估计分支(对应上述角点位置估计网络)。对于每个互相关图,将其通过3层卷积层(每层卷积层使用了3×3尺寸的卷积核,填充参数设置为1,输出通道数为256),然后其输入1层1×1尺寸卷积核的卷积层,将输出通道数降低为2,最终得到2个角点位置估计热图(对应图2中的18),分别表示目标框左上角点的位置和右下角点的位置。第2个输出分支为角点位置误差估计分支(对应上述角点位置误差估计网络)。对于每个互相关图,将其通过3层卷积层(每层卷积层使用了3×3尺寸的卷积核,填充参数设置为1,输出通道数为256),将其输入1层1×1尺寸卷积核的卷积层,将输出通道数降低为2,最终得到2个角点误差估计热图(对应图2中的19),分别表示左上角点的位置误差量和右下角点的位置误差量。
关于角点位置的标签设定方面,分别在左上角位置估计热图和右下角位置估计热图上,按公式(1)为热图上的角点设置软标签。
为了弥补卷积神经网络下采样操作造成的定位精度损失问题,设置位置误差估计网络为角点位置热图上的点位置估计与当前帧图像相应位置之间的误差o,如式(2)。预先设定的对角点位置预测损失函数L如式(3),Ldet表示角点位置热图上角点位置估计的损失如式(4),表示角点位置估计热图上角点位置误差估计的损失如式(5)。基于此,在对构建的孪生网络进行训练时,以训练集组中的目标模板图像和目标搜索区域图像作为输入,并利用式(3)的损失函数根据输入的训练数据进行反向传播,调整网络参数至该损失函数收敛完成对孪生网络的训练。完成孪生网络的训练之后,基于该孪生网络的目标跟踪过程如图3所示。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图5是本发明一个实施例中提供的终端设备的结构示意图,如所示,该终端设备200包括:处理器220、存储器210以及存储在存储器210中并可在处理器 220上运行的计算机程序211,例如:无锚点孪生网络角点生成的目标跟踪程序。处理器220执行计算机程序211时实现上述各个无锚点孪生网络角点生成的目标跟踪方法实施例中的步骤,或者,处理器220执行计算机程序211时实现上述各无锚点孪生网络角点生成的目标跟踪装置实施例中各模块的功能。
终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括,但不仅限于处理器220、存储器210。本领域技术人员可以理解,图5仅仅是终端设备200的示例,并不构成对终端设备200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器210可以是终端设备200的内部存储单元,例如:终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备,例如:终端设备 200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露终端设备和方法,可以通过其他的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序211发送指令给相关的硬件完成,计算机程序211可存储于一计算机可读存储介质中,该计算机程序211在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序211包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种无锚点孪生网络角点生成的目标跟踪方法,其特征在于,包括:
获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,所述第二预设大小大于第一预设大小;
构建用于对训练集组进行训练的孪生网络,所述孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对所述第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对所述特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对所述特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;
以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;
获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
2.如权利要求1所述的目标跟踪方法,其特征在于,
在构建的所述孪生网络中:
第一残差神经网络和第二残差神经网络均为残差神经网络ResNet-50,且两个残差神经网络的第4卷积块和第5卷积块中均采用空洞卷积;
特征融合网络中以目标模板图像的特征图作为卷积核,与目标搜索区域图像的特征图作卷积计算,获得互相关图作为后续角点位置估计网络和角点位置误差估计网络的输入;所述特征图包括残差神经网络ResNet-50第3卷积块、第4卷积块和第5卷积块输出的特征图;
角点位置估计网络对特征融合网络输出的互相关图提取特征得到2个角点位置估计热图,作为目标框的左上角位置和右下角位置;
角点位置误差估计网络对特征融合网络输出的互相关图提取特征得到2个角点误差估计热图,作为目标框的左上角点的位置和右下角点的位置。
6.一种无锚点孪生网络角点生成的目标跟踪装置,其特征在于,包括:
训练集组获取模块,用于获取待目标跟踪训练视频帧,在包含同一待跟踪目标的两帧图像中,采用第一预设大小的目标框在第一帧图像中框选出包含跟踪目标的目标模板图像,在第二帧图像中,以第一帧图像中目标框的中心点坐标为基准框选出第二预设大小的目标搜索区域图像形成训练集组,所述第二预设大小大于第一预设大小;
孪生网络构建模块,用于构建用于对训练集组获取模块或的训练集组进行训练的孪生网络,所述孪生网络中包括:用于针对输入的目标模板图像进行特征提取的第一残差神经网络、用于针对输入的目标搜索区域图像进行特征提取的第二残差神经网络、用于对所述第一残差神经网络和第二残差神经网络输出的特征进行融合的特征融合网络、用于针对所述特征融合网络输出的互相关图估计得到角点位置热图的角点位置估计网络及用于针对所述特征融合网络输出的互相关图估计得到角点位置误差热图的角点位置误差估计网络;
网路训练模块,用于以训练集组中的目标模板图像和目标搜索区域图像作为输入、预先设定的对角点位置预测损失函数进行反向传播对孪生网络构建模块构建的孪生网络进行训练,调整网络参数至该损失函数收敛完成对孪生网络的训练;
目标跟踪模块,用于获取目标跟踪视频,并于所述目标跟踪视频的首帧图像中指定第一预设大小的目标跟踪框作为目标模板图像,于需要跟踪目标的当前帧图像中以上一帧图像的目标框中心点坐标为基准框选第二预设大小的目标搜索区域图像,并将目标模板图像和目标搜索区域图像分别输入训练好的孪生网络中,得到角点位置估计网络和角点位置误差估计网络输出的角点位置估计热图与角点误差估计热图,进而得到跟踪目标于当前帧图像中的目标框。
7.如权利要求6所述的目标跟踪装置,其特征在于,
在构建的所述孪生网络中:
第一残差神经网络和第二残差神经网络均为残差神经网络ResNet-50,且两个残差神经网络的第4卷积块和第5卷积块中均采用空洞卷积;
特征融合网络中以目标模板图像的特征图作为卷积核,与目标搜索区域图像的特征图作卷积计算,获得互相关图作为后续角点位置估计网络和角点位置误差估计网络的输入;
角点位置估计网络对特征融合网络输出的互相关图提取特征得到2个角点位置估计热图,作为目标框的左上角位置和右下角位置;
角点位置误差估计网络对特征融合网络输出的互相关图提取特征得到2个角点误差估计热图,作为目标框的左上角点的位置和右下角点的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010924697.7A CN112508996A (zh) | 2020-09-05 | 2020-09-05 | 无锚点孪生网络角点生成的目标跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010924697.7A CN112508996A (zh) | 2020-09-05 | 2020-09-05 | 无锚点孪生网络角点生成的目标跟踪方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508996A true CN112508996A (zh) | 2021-03-16 |
Family
ID=74953404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010924697.7A Withdrawn CN112508996A (zh) | 2020-09-05 | 2020-09-05 | 无锚点孪生网络角点生成的目标跟踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508996A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112523A (zh) * | 2021-03-26 | 2021-07-13 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
CN114429491A (zh) * | 2022-04-07 | 2022-05-03 | 之江实验室 | 一种基于事件相机的脉冲神经网络目标跟踪方法和系统 |
-
2020
- 2020-09-05 CN CN202010924697.7A patent/CN112508996A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112523A (zh) * | 2021-03-26 | 2021-07-13 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
CN113112523B (zh) * | 2021-03-26 | 2024-04-26 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
CN114429491A (zh) * | 2022-04-07 | 2022-05-03 | 之江实验室 | 一种基于事件相机的脉冲神经网络目标跟踪方法和系统 |
CN114429491B (zh) * | 2022-04-07 | 2022-07-08 | 之江实验室 | 一种基于事件相机的脉冲神经网络目标跟踪方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112365523A (zh) | 基于无锚点孪生网络关键点检测的目标跟踪方法及装置 | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
WO2019201042A1 (zh) | 图像对象识别方法和装置、存储介质及电子装置 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN110493512B (zh) | 摄影构图方法、装置、摄影设备、电子装置及存储介质 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN112508996A (zh) | 无锚点孪生网络角点生成的目标跟踪方法及装置 | |
Tomasi et al. | Real-time architecture for a robust multi-scale stereo engine on FPGA | |
CN110853068A (zh) | 图片处理方法、装置、电子设备及可读存储介质 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
CN116051736A (zh) | 一种三维重建方法、装置、边缘设备和存储介质 | |
CN115965961B (zh) | 局部到全局的多模态融合方法、系统、设备及存储介质 | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 | |
CN117333538A (zh) | 一种基于局部优化的多视角多人人体姿态估计方法 | |
CN116934591A (zh) | 多尺度特征提取的图像拼接方法、装置、设备及存储介质 | |
CN115937002B (zh) | 用于估算视频旋转的方法、装置、电子设备和存储介质 | |
CN116704200A (zh) | 图像特征提取、图像降噪方法及相关装置 | |
CN115546515A (zh) | 一种深度信息获取方法和装置 | |
CN113706543B (zh) | 一种三维位姿的构建方法、设备及存储介质 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN114445451A (zh) | 平面图像追踪方法、终端以及存储介质 | |
CN110969651B (zh) | 3d景深估计方法、装置及终端设备 | |
CN113112523A (zh) | 基于无锚点孪生网络的目标跟踪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210316 |