CN113888587A - 基于改进的暹罗网络的目标跟踪方法及系统 - Google Patents

基于改进的暹罗网络的目标跟踪方法及系统 Download PDF

Info

Publication number
CN113888587A
CN113888587A CN202111022608.0A CN202111022608A CN113888587A CN 113888587 A CN113888587 A CN 113888587A CN 202111022608 A CN202111022608 A CN 202111022608A CN 113888587 A CN113888587 A CN 113888587A
Authority
CN
China
Prior art keywords
image
template
tracked
layer
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111022608.0A
Other languages
English (en)
Other versions
CN113888587B (zh
Inventor
李天平
严业金
丁同贺
霍文晓
欧佳瑜
刘智凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202111022608.0A priority Critical patent/CN113888587B/zh
Publication of CN113888587A publication Critical patent/CN113888587A/zh
Application granted granted Critical
Publication of CN113888587B publication Critical patent/CN113888587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进的暹罗网络的目标跟踪方法及系统,获取模板图像和待跟踪图像;将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。实现了对目标更为精细的跟踪。

Description

基于改进的暹罗网络的目标跟踪方法及系统
技术领域
本发明涉及目标跟踪技术领域,特别是涉及基于改进的暹罗网络的目标跟踪方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
视觉目标跟踪方向是世界研究的热门领域,其中基于SiamFC改进的跟踪器因其在平衡速度与性能的巨大潜力受到了广泛的关注。SiamFC利用了卷积神经网络(CNN)对目标特征进行提取,在卷积神经网络提取的特征中,深层网络提取的特征具有更多的目标抽象信息,更加适合对目标的整体定位。SiamFC中存在的问题是仅仅利用了卷积神经网络的深层特征,这就导致了SiamFC虽然能够对目标进行大体的定位,却无法对目标进行更加精细的定位,尤其是无法对跟踪目标的回归框做精确的判断
发明内容
为了解决现有技术的不足,本发明提供了基于改进的暹罗网络的目标跟踪方法及系统;通过设计另外的浅层网络分支,利用浅层网络分支对目标位置进行二次定位,实现了对目标更为精细的跟踪;
第一方面,本发明提供了基于改进的暹罗网络的目标跟踪方法;
基于改进的暹罗网络的目标跟踪方法,包括:
获取模板图像和待跟踪图像;
将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
第二方面,本发明提供了基于改进的暹罗网络的目标跟踪系统;
基于改进的暹罗网络的目标跟踪系统,包括:
获取模块,其被配置为:获取模板图像和待跟踪图像;
追踪模块,其被配置为:将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
与现有技术相比,本发明的有益效果是:
SiamFC算法中利用卷积网络提取的深层特征进行目标定位,但是目标跟踪过程中仅仅利用深层网络特征无法对目标进行精细的定位。本设计通过设计另外的浅层网络分支,实现了对卷积神经网络所提取浅层特征的有效利用,实现了更好的跟踪效果。
本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的二次定位主要结构示意图;
图3(a)和图3(b)为第一个实施例的不同算法在OTB100整体数据集的实验结果图;
图4(a)为原图;
图4(b)为SiamFC目标跟踪结果示意图;
图4(c)为本发明的目标跟踪结果示意图;
图4(d)为原图;
图4(e)为SiamFC目标跟踪结果示意图;
图4(f)为本发明的目标跟踪结果示意图;
图5为本发明第一神经网络结构示意图;
图6为本发明第二神经网络结构示意图;
图7为本发明第三神经网络结构示意图;
图8为本发明裁剪示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于改进的暹罗网络的目标跟踪方法;
如图1所示,基于改进的暹罗网络的目标跟踪方法,包括:
S101:获取模板图像和待跟踪图像;
S102:将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
进一步地,所述改进的暹罗网络,其网络结构包括:第一神经网络和第二神经网络;
其中,所述第一神经网络的输入端用于输入模板图像,所述第一神经网络有两个输出端,其中一个输出端用于输出模板图像的深层特征,另外一个输出端用于输出模板图像的浅层特征;
模板图像的深层特征被送入第三神经网络的输入端,第三神经网络的输出端与第一互相关模块的输入端连接;
模板图像的浅层特征被送入裁剪模块的输入端,裁剪模块的输出端与第二互相关模块的输入端连接;
待跟踪图像的深层特征被直接送入第一互相关模块的输入端;
待跟踪图像的浅层特征被送入空间注意力机制层的输入端;空间注意力机制层的输出端与第二互相关模块的输入端连接;
第一互相关模块的输出端,输出第一次目标定位结果;并将第一次目标定位结果发送给第二互相关模块;
第二互相关模块输出第二次目标定位结果。
其中,深层特征是指改进的暹罗网络中第一神经网络和第二神经网络的最后一个卷积层提取到的特征;
浅层特征是改进的暹罗网络中第一神经网络和第二神经网络的第二卷积层提取到的特征得到的。
进一步地,所述第一神经网络与第二神经网络的网络结构是一致的。
进一步地,所述第一神经网络,为改进的Alexnet网络;所述第一神经网络,输入为127*127*3的图像,依次经过卷积层conv1,池化层pool1,卷积层conv2,卷积层conv3,池化层pool2,卷积层conv4,卷积层conv5,最终得到7*7*384的特征图像。
第一神经网络结构,如图5所示;第二神经网络结构如图6所示。K为卷积核尺寸,stride为步长。第二神经网络,与第一神经网络不同之处在于输入图像尺寸为255*255。
模板图像的深层特征,是第一神经网络的最后一个卷积层输出的。
模板图像的浅层特征,是第一神经网络经过conv2卷积层后得到的27*27*384尺寸的特征图。
进一步地,所述第三神经网络,实际为第一神经网络的部分结构,网络结构包括:输入59*59*256大小特征图后,分别经过池化层pool1,卷积层conv2,卷积层conv3,池化层pool2,卷积层conv5,最终输出7*7*384的特征图。具体结构如图7所示。
进一步地,所述第一互相关模块与第二互相关模块的内部结构是一致的。
进一步地,所述第一互相关模块,通过将7*7*384特征图作为卷积核,使用23*23*384特征图作为权重乘以卷积核,将得到的结果相加作为互相关值输出,互相关值最大时的搜索窗口位置决定了目标在待匹配图像中的位置。
进一步的,所述裁剪模块,是指将第一神经网络得到的27*27*384特征图进行裁剪,选取特征图的每个边的中心点,从每个边的中心点向特征图中心点方向移动设定距离,选择裁剪区域的中心点,根据裁剪区域中心点和设定的裁剪尺寸,对裁剪区域进行裁剪,最终得到四个裁剪区域。
沿边缘中心取出各个方向的特征块,裁剪方式如图8示意,裁剪示意图。如图8对27*27特征图进行上下左右四个方向进行裁剪,灰色框为裁剪部分,灰色点为裁剪中心;其中,灰色点的位置,是根据各方向边界中心点以及裁剪尺寸决定。
进一步地,所述空间注意力机制层,图像的不同区域对任务的贡献大小不同,为了关注于有用信息,空间注意力机制将原始图片中的空间信息变换到另一个空间中从而保留关键位置信息,进而以掩膜的形式对原始图像进行有效的区域特征值加成。
进一步地,所述训练后的改进的暹罗网络,训练步骤包括:
构建训练集;所述训练集包括一一对应的模板图像和已知检测框的跟踪图像;
将模板图像和已知检测框的跟踪图像,输入到改进的暹罗网络中;
改进的暹罗网络的第一神经网络对模板图像提取出模板深层特征和模板浅层特征;
改进的暹罗网络的第二神经网络对已知检测框的跟踪图像提取出已知检测框的跟踪深层特征和已知检测框的跟踪浅层特征;
第三神经网络对模板深层特征进行特征提取得到新的模板深层特征;
将已知检测框的跟踪深层特征与新的模板深层特征进行互相关处理,得到目标位置的第一跟踪结果,即尺寸为23*23*384跟踪深层特征的特征图与尺寸为7*7*384的新的模板深层特征进行互相关运算,从而得到17*17*1特征图,根据特征图数值最大位置决定跟踪目标的位置;
裁剪模块对模板浅层特征进行裁剪处理,得到裁剪后的四个子特征图;
空间注意力机制层对已知检测框的跟踪浅层特征进行处理,对浅层特征图的不同位置进行掩膜加成,得到新的跟踪浅层特征;
将四个子特征图分别与新的跟踪浅层特征进行互相关操作,得到目标边缘的定位结果。
四个子特征图分别代表模板图像上下左右四个部分的特征,而互相关操作用以判断两个目标之间相似程度,每个子特征图与新的跟踪浅层特征进行互相关操作,得分最高点的部分是跟踪图像中子特征图代表方向的边界部分,从而得到上下左右每个方向目标边界的位置情况。
就弥补了第一次互相关操作只能判断目标的大体位置的缺陷,因为第一次互相关操作是整个模板目标与搜索区域的互相关操作,这样互相关操作的最高点只能是目标的中心点,但是目标一旦发生形变,边界框便无法适应新的目标状态,从而无法得到精准的跟踪目标区域。而我们利用对边界位置特征的再次互相关操作,实现对边界位置的第二次判断。
本发明的算法可以看作两部分组成,第一部分相当于SiamFC[经典的跟踪算法,孪生网络目标跟踪算法的基石]中的主体部分,如图1的中间部分,即利用深层网络特征对目标进行大体定位,具体流程为,通过将模板图像和搜索图像分别输入卷积神经网络最终得到7*7*384和23*23*384的特征图,然后以模板图像特征图作为卷积核将两个特征图进行互相关操作,最终得到17*17*1的关于目标位置的得分图(得分图是互相关操作得到的17*17*1的特征图,根据互相关操作的特性,相同目标重叠率越高互相关操作得到的数值越高。也就是说目标在某位置的重合度越高,互相关得到数值越高),从而对目标的位置进行大致的判断。
另一部分为我们增加的浅层网络分支,如图1的最上和最下的两个外侧分支,通过提取模板图像与搜索图像的浅层特征,将模板图像部分的27*27*256浅层特征图沿四个方向的中心点分别进行裁剪操作,最终可以得到四个7*7*256的子特征图,将这四个子特征图分别与搜索图像的浅层特征图进行互相关操作从而实现对目标边缘位置的定位。
确定四个方向边缘的位置后对目标框的边界坐标进行再次更新,即根据边界坐标调整目标框的边框位置信息。
为了保证边缘位置判断的准确性,设置一个可信度阈值,可信度是根据目标边缘位置与第一次互相关操作得到的目标中心点坐标的距离来判断,如果可信度没有超过阈值,则说明目标边缘离中心点过远或者过近,此时判断为边缘位置判定失败,则取消二次定位的操作,如果超过可信度阈值,则说明目标的位移或者尺度变化在合理范围内,则对目标进行二次定位操作,更新目标的长宽以及中心点参数,浅层特征二次定位过程如图2所示。
整个网络结构为对称的暹罗网络结构,即搜索图像分支与模板图像分支具有对称的网络结构,并且共享同样的卷积核参数。这就使得在最终特征图进行互相关操作时具有高效性以及有效性。
本发明的第一神经网络和第二神经网络,均是在ALexnet网络模型的基础上做了改进,首先为了满足全卷积特性去掉了全连接层和第二,第四卷积层,并且将第三层卷积层拆分为两个小卷积层从而增加了网络的非线性表达能力。此外互相关操作公式如下:
Figure BDA0003242078910000101
其中z,x分别代表输入模板图像和搜索图像。
其中,
Figure BDA0003242078910000102
表示利用卷积神经网络对模板图像进特征提取,
Figure BDA0003242078910000103
表示利用卷积神经网络对搜索图像进行特征提取,f(z,x)表示对两部分特征进行互相关操作后得到的响应值。
本发明在公共基准数据集OTB2015进行了实验,在每一个跟踪视频序列中,选择间隔小于100帧的两张图片作为训练图像,在模板图像帧中,我们以目标框的中心为目标图像中心进行裁剪,得到127*127的图片,同样的,搜索图像帧也经过相同裁剪得到255*255*的图片,边界如果超出原图像范围,使用平均像素值进行填充。本算法使用python语言以及pytorch框架进行算法设计,实验是在Linux系统上运行的,配置为Inter core i7-10700kCPU@3.80GHz*16,和单个RTX2080ti GPU,设置momentum为0.9的随机梯度下降从零开始训练整个网络。设置权重衰减为0.0001总共进行了50个周期,学习率设置从10-2开始下降至10-5,Batchsize为64。
OTB2015数据集有两个评估指标:
一是准确率,即追踪算法估计的目标位置的中心点与人工标注的目标的中心点,这两者的距离小于给定阈值的视频帧的百分比。
二是成功率,即追踪算法得到的目标框与人工标注的目标框的重合率超过一定阈值所占的比率。实验所得出的与SiamFC各评估指标值对比如表1所示。
表1 与SiamFC的算法结果对比
算法 准确率 成功率
SiamFC 0.587 0.772
Ours 0.616 0.811
图3(a)和图3(b)为我们的算法与其他3种流行算法的结果对比图。如下可以看出,我们的算法无论是在准确率还是成功率方面都较原算法SiamFC有显著提升,并且我们的算法与其他几种流行算法比较也是有一定的优势,这也从另一方面说明了我们的算法有一定的在实际应用中的能力。
跟踪效果图如图4(a)~图4(f),图中我们可以看出我们的算法在进行目标框的预测时相较于SimaFC更加精准,尤其在目标发生外观变化时,能够更好的作出调整。
实施例二
本实施例提供了基于改进的暹罗网络的目标跟踪系统;
基于改进的暹罗网络的目标跟踪系统,包括:
获取模块,其被配置为:获取模板图像和待跟踪图像;
追踪模块,其被配置为:将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
此处需要说明的是,上述获取模块和追踪模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于改进的暹罗网络的目标跟踪方法,其特征是,包括:
获取模板图像和待跟踪图像;
将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
2.如权利要求1所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
所述改进的暹罗网络,其网络结构包括:第一神经网络和第二神经网络;
其中,所述第一神经网络的输入端用于输入模板图像,所述第一神经网络有两个输出端,其中一个输出端用于输出模板图像的深层特征,另外一个输出端用于输出模板图像的浅层特征;
模板图像的深层特征被送入第三神经网络的输入端,第三神经网络的输出端与第一互相关模块的输入端连接;
模板图像的浅层特征被送入裁剪模块的输入端,裁剪模块的输出端与第二互相关模块的输入端连接;
待跟踪图像的深层特征被直接送入第一互相关模块的输入端;
待跟踪图像的浅层特征被送入空间注意力机制层的输入端;空间注意力机制层的输出端与第二互相关模块的输入端连接;
第一互相关模块的输出端,输出第一次目标定位结果;并将第一次目标定位结果发送给第二互相关模块;
第二互相关模块输出第二次目标定位结果。
3.如权利要求2所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
深层特征是指改进的暹罗网络中第一神经网络和第二神经网络的最后一个卷积层提取到的特征;
浅层特征是改进的暹罗网络中第一神经网络和第二神经网络的第二卷积层提取到的特征得到的。
4.如权利要求2所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
所述第一神经网络,为改进的Alexnet网络;所述第一神经网络,输入为127*127*3的图像,依次经过卷积层conv1,池化层pool1,卷积层conv2,卷积层conv3,池化层pool2,卷积层conv4,卷积层conv5,最终得到7*7*384的特征图像;
所述第三神经网络,实际为第一神经网络的部分结构,网络结构包括:输入59*59*256大小特征图后,分别经过池化层pool1,卷积层conv2,卷积层conv3,池化层pool2,卷积层conv5,最终输出7*7*384的特征图。
5.如权利要求2所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
所述第一互相关模块,通过将7*7*384特征图作为卷积核,使用23*23*384特征图作为权重乘以卷积核,将得到的结果相加作为互相关值输出,互相关值最大时的搜索窗口位置决定了目标在待匹配图像中的位置。
6.如权利要求2所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
所述裁剪模块,是指将第一神经网络得到的27*27*384特征图进行裁剪,选取特征图的每个边的中心点,从每个边的中心点向特征图中心点方向移动设定距离,选择裁剪区域的中心点,根据裁剪区域中心点和设定的裁剪尺寸,对裁剪区域进行裁剪,最终得到四个裁剪区域。
7.如权利要求1所述的基于改进的暹罗网络的目标跟踪方法,其特征是,
所述训练后的改进的暹罗网络,训练步骤包括:
构建训练集;所述训练集包括一一对应的模板图像和已知检测框的跟踪图像;
将模板图像和已知检测框的跟踪图像,输入到改进的暹罗网络中;
改进的暹罗网络的第一神经网络对模板图像提取出模板深层特征和模板浅层特征;
改进的暹罗网络的第二神经网络对已知检测框的跟踪图像提取出已知检测框的跟踪深层特征和已知检测框的跟踪浅层特征;
第三神经网络对模板深层特征进行特征提取得到新的模板深层特征;
将已知检测框的跟踪深层特征与新的模板深层特征进行互相关处理,得到目标位置的第一跟踪结果,即尺寸为23*23*384跟踪深层特征的特征图与尺寸为7*7*384的新的模板深层特征进行互相关运算,从而得到17*17*1特征图,根据特征图数值最大位置决定跟踪目标的位置;
裁剪模块对模板浅层特征进行裁剪处理,得到裁剪后的四个子特征图;
空间注意力机制层对已知检测框的跟踪浅层特征进行处理,对浅层特征图的不同位置进行掩膜加成,得到新的跟踪浅层特征;
将四个子特征图分别与新的跟踪浅层特征进行互相关操作,得到目标边缘的定位结果;
四个子特征图分别代表模板图像上下左右四个部分的特征,而互相关操作用以判断两个目标之间相似程度,每个子特征图与新的跟踪浅层特征进行互相关操作,得分最高点的部分是跟踪图像中子特征图代表方向的边界部分,从而得到上下左右每个方向目标边界的位置情况。
8.基于改进的暹罗网络的目标跟踪系统,其特征是,包括:
获取模块,其被配置为:获取模板图像和待跟踪图像;
追踪模块,其被配置为:将模板图像和待跟踪图像,均输入到训练后的改进的暹罗网络中,输出待跟踪图像的目标跟踪结果;
其中,训练后的改进的暹罗网络,对模板图像提取出模板深层特征和模板浅层特征;训练后的改进的暹罗网络,对待跟踪图像提取出待跟踪深层特征和待跟踪浅层特征;
训练后的改进的暹罗网络,对模板深层特征和待跟踪深层特征进行处理得到目标框的第一次定位结果;
对模板浅层特征、待跟踪浅层特征和第一次定位结果进行处理,得到第二次定位结果,将第二次定位结果作为待跟踪图像的最终目标跟踪结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202111022608.0A 2021-09-01 2021-09-01 基于改进的暹罗网络的目标跟踪方法及系统 Active CN113888587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022608.0A CN113888587B (zh) 2021-09-01 2021-09-01 基于改进的暹罗网络的目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022608.0A CN113888587B (zh) 2021-09-01 2021-09-01 基于改进的暹罗网络的目标跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN113888587A true CN113888587A (zh) 2022-01-04
CN113888587B CN113888587B (zh) 2024-05-28

Family

ID=79012031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022608.0A Active CN113888587B (zh) 2021-09-01 2021-09-01 基于改进的暹罗网络的目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN113888587B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129906A1 (en) * 2016-11-07 2018-05-10 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US20200021873A1 (en) * 2018-07-11 2020-01-16 Adobe Inc. Utilizing artificial intelligence to generate enhanced digital content and improve digital content campaign design
CN111915650A (zh) * 2020-07-30 2020-11-10 齐鲁工业大学 基于改进孪生网络的目标跟踪方法及系统
CN112258557A (zh) * 2020-10-23 2021-01-22 福州大学 一种基于空间注意力特征聚合的视觉跟踪方法
WO2023207742A1 (zh) * 2022-04-28 2023-11-02 南京理工大学 一种交通异常行为检测方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129906A1 (en) * 2016-11-07 2018-05-10 Qualcomm Incorporated Deep cross-correlation learning for object tracking
US20200021873A1 (en) * 2018-07-11 2020-01-16 Adobe Inc. Utilizing artificial intelligence to generate enhanced digital content and improve digital content campaign design
CN111915650A (zh) * 2020-07-30 2020-11-10 齐鲁工业大学 基于改进孪生网络的目标跟踪方法及系统
CN112258557A (zh) * 2020-10-23 2021-01-22 福州大学 一种基于空间注意力特征聚合的视觉跟踪方法
WO2023207742A1 (zh) * 2022-04-28 2023-11-02 南京理工大学 一种交通异常行为检测方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周平平;万洪林;刘慧;李天平;: "基于颜色和边缘特征自适应融合的人脸跟踪算法", 中国科学技术大学学报, no. 10, 15 October 2017 (2017-10-15) *
陈志旺;张忠新;宋娟;罗红福;彭勇: "基于目标感知特征筛选的孪生网络跟踪算法", 光学学报, no. 009, 31 December 2020 (2020-12-31) *
陈志旺;张忠新;宋娟;罗红福;彭勇;: "基于目标感知特征筛选的孪生网络跟踪算法", 光学学报, no. 09, 10 May 2020 (2020-05-10) *

Also Published As

Publication number Publication date
CN113888587B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN109325418A (zh) 基于改进YOLOv3的道路交通环境下行人识别方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN110458165B (zh) 一种引入注意力机制的自然场景文本检测方法
CN113076871B (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
JP6846069B2 (ja) 遠距離検出または軍事目的のために、イメージコンカチネーションを利用したcnn基盤のハードウェア最適化が可能な物体検出器を学習する方法及び学習装置、それを利用したテスト方法及びテスト装置{learning method and learning device for object detector with hardware optimization based on cnn for detection at distance or military purpose using image concatenation, and testing method and testing device using the same}
CN106097353A (zh) 基于多层次局部区域融合的物体分割方法及装置、计算设备
CN112634209A (zh) 一种产品缺陷检测方法和装置
CN106295678A (zh) 神经网络训练与构建方法和装置以及目标检测方法和装置
CN111461106A (zh) 基于可重配置网络的对象检测方法及装置
KR20200091323A (ko) 핵심성과지표와 같은 사용자 요구 사항에 적합한 타겟 객체 예측 네트워크를 이용한, cnn 기반의 변동에 강인한 객체 검출기를 학습하는 방법 및 학습 장치, 및 이를 이용한 테스팅 방법 및 테스팅 장치
CN112712546A (zh) 一种基于孪生神经网络的目标跟踪方法
CN112287947A (zh) 一种区域建议框检测方法、终端及存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN113673530A (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN111914596B (zh) 车道线检测方法、装置、系统及存储介质
CN115272859A (zh) 一种多尺度sar图像目标检测方法、装置、设备和介质
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN110188682B (zh) 基于几何结构双路卷积网络的光学遥感图像目标检测方法
CN113888587A (zh) 基于改进的暹罗网络的目标跟踪方法及系统
KR20220090262A (ko) 상표 검색 모델 및 상표 검색 모델의 학습 방법
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
CN111815677A (zh) 目标追踪方法、装置、终端设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant