CN111915650A - 基于改进孪生网络的目标跟踪方法及系统 - Google Patents
基于改进孪生网络的目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN111915650A CN111915650A CN202010750575.0A CN202010750575A CN111915650A CN 111915650 A CN111915650 A CN 111915650A CN 202010750575 A CN202010750575 A CN 202010750575A CN 111915650 A CN111915650 A CN 111915650A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- layer
- twin
- tracked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005284 excitation Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了基于改进孪生网络的目标跟踪方法及系统,包括:获取待目标跟踪视频和已知的跟踪目标图像;将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet‑50网络结构的基础上添加了Squeeze‑and‑Excitation网络结构,且ResNet‑50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络Siamese RPN的输入端连接。
Description
技术领域
本申请涉及目标跟踪技术领域,特别是涉及基于改进孪生网络的目标跟踪方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
目标跟踪是计算机视觉研究领域的热点之一,并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到了目标跟踪技术。另外还有特定物体的跟踪,比如人体跟踪,交通监控系统中的车辆跟踪,人脸跟踪和智能交互系统中的手势跟踪等。简单来说,目标跟踪就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置,计算在下一帧图像中目标的确切位置。在运动的过程中,目标可能会呈现一些图像上的变化,比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。它仍然是一项非常具有挑战性的任务。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。
最近几年是深度学习技术的高速发展期,深度学习技术也被成功应用在计算机视觉的各个应用领域,跟踪也不例外。在大数据背景下,利用深度学习训练网络模型,得到的卷积特征输出表达能力更强。在目标跟踪上,初期的应用方式是把网络学习到的特征,直接应用到相关滤波或Struck的跟踪框架里面,从而得到更好的跟踪结果。
目标跟踪研究的难点在于如何保证算法的鲁棒性、实时性和准确性。现有的跟踪算法在处理简单背景情况下都具有较好的效果,但由于目标运动的复杂性及目标特征的时效性,当跟踪目标发生遮挡、旋转、尺度变化及背景干扰时,跟踪效果很差,难以获得较为鲁棒的跟踪效果。
发明内容
为了解决现有技术的不足,本申请提供了基于改进孪生网络的目标跟踪方法及系统;
第一方面,本申请提供了基于改进孪生网络的目标跟踪方法;
基于改进孪生网络的目标跟踪方法,包括:
获取待目标跟踪视频和已知的跟踪目标图像;
将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络Siamese RPN的输入端连接。
第二方面,本申请提供了基于改进孪生网络的目标跟踪系统;
基于改进孪生网络的目标跟踪系统,包括:
获取模块,其被配置为:获取待目标跟踪视频和已知的跟踪目标图像;
目标跟踪模块,其被配置为:将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络SiameseRPN的输入端连接。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
(1)当跟踪目标发生遮挡、旋转、尺度变化及背景干扰时,跟踪效果好,获得较为鲁棒的跟踪效果;
(2)本申请把提取目标信息特征作为切入点,利用通道之间的相互关系。使用全局信息来选择性地强调信息特征并抑制不太有用的特征。通过本申请对孪生网络的分析,目标可能出现在搜索区域的任何位置。所以本申请利用通道关系,使得全局感受野的信息能够被其较低层利用。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请的整体结构图;
图2为本申请所采用的SE块原理流程图;
图3(a)-图3(e)为本申请结果与其它跟踪器对比;
图4(a)和图4(b)为本申请成功率图和准确率图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于改进孪生网络的目标跟踪方法;
如图1所示,基于改进孪生网络的目标跟踪方法,包括:
S101:获取待目标跟踪视频和已知的跟踪目标图像;
S102:将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络Siamese RPN的输入端连接。
作为一个或多个实施例,所述改进的孪生网络,包括:并列的第一支路和第二支路;
所述第一支路,包括:第一SE-ResNet-50网络结构;所述第一支路的输入端用于输入已知跟踪目标的图像;
所述第二支路,包括:第二SE-ResNet-50网络结构;所述第二支路的输入端用于输入待目标跟踪的图像;
所述第一SE-ResNet-50网络结构与第二SE-ResNet-50网络结构是一样的;
所述第一SE-ResNet-50网络结构包括依次连接的第一卷积层、全局池化层Globalpooling、第一全连接层FC、卷积层2_1、卷积层2_2、Relu函数层、卷积层3_1、卷积层3_2、卷积层3_3、第二全连接层FC、卷积层4_1、卷积层4_2、卷积层4_3、卷积层4_4、卷积层5_1、卷积层5_2、卷积层5_3、卷积层5_4、卷积层5_5、sigmoid函数层和scale层;
所述第一SE-ResNet-50网络结构和第二SE-ResNet-50网络结构中,卷积层3_1、卷积层3_2和卷积层3_3的输出端均与第一孪生候选区域生成网络Siamese RPN的输入端连接;卷积层4_1、卷积层4_2、卷积层4_3和卷积层4_4的输出端均与第二孪生候选区域生成网络Siamese RPN的输入端连接;卷积层5_1、卷积层5_2、卷积层5_3、卷积层5_4和卷积层5_5的输出端均与第三孪生候选区域生成网络Siamese RPN的输入端连接;
所述第一孪生候选区域生成网络Siamese RPN的输出端与第二孪生候选区域生成网络Siamese RPN的输入端连接,所述第二孪生候选区域生成网络Siamese RPN的输出端与第三孪生候选区域生成网络Siamese RPN的输入端连接;所述第三孪生候选区域生成网络Siamese RPN的输出端,分别连接边框回归模块Bbox Regression和分类层CLS,所述边框回归模块Bbox Regression和分类层CLS的输出端均与加权互相关模块cross-correlation输入端连接,加权互相关模块cross-correlation的输出端与输出层连接,所述输出层,用于输出目标跟踪结果。
作为一个或多个实施例,所述改进的孪生网络,工作原理是:
改进的孪生网络有两个输入:已知跟踪目标的图像和待目标跟踪的图像,将两个输入进入各自对应的神经网络,各自对应的神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示;通过损失函数的计算,评价待目标跟踪的图像与已知跟踪目标的图像之间的相似度,输出相似度高于设定阈值的待目标跟踪图像作为目标跟踪的结果。
作为一个或多个实施例,所述预先训练好的改进的孪生网络;具体训练步骤包括:
将改进的孪生网络,通过模型无关元学习算法训练,得到初始权重已知的改进的孪生网络;
构建训练集;所述训练集为已知每一帧跟踪目标位置的视频;
将训练集输入到初始权重已知的改进的孪生网络中,得到训练好的改进的孪生网络。
进一步地,所述将改进的孪生网络,通过模型无关元学习算法训练,得到初始权重已知的改进的孪生网络;具体步骤包括:
采用了双层优化(Bilevel optimization)的策略:
在每一轮迭代中,将一组训练样本分为支撑集Support set以及目标集Targetset;
先在支撑集上,进行设定次数的梯度下降迭代(一般为5步),再将更新过后的模型参数应用在目标集上,计算目标集上的误差;在支撑集上,固定次数的梯度下降过程称为里层优化Inner-level optimization;由目标集上的误差去更新模型参数的过程,称为外层优化Outer-level optimization。
进一步地,所述第一孪生候选区域生成网络Siamese RPN、第二孪生候选区域生成网络Siamese RPN和第三孪生候选区域生成网络Siamese RPN的内部结构是一样的。
所述全局池化层Global pooling、第一全连接层FC、Relu函数层、第二全连接层FC、sigmoid函数层和scale层;作为一个整体被称之为SE块(Squeeze-and-Excitation块)。
进一步地,所述第一SE-ResNet-50网络结构中的SE表示Squeeze-and-Excitation块,用于执行特征校准;所述执行特征校准的具体步骤包括:
首先是Squeeze操作,Squeeze操作跨越空间维度W×H聚合特征映射来产生通道描述符。所述通道描述符嵌入了通道特征响应的全局分布,使来自残差网络全局感受野的信息能够被所有层利用;
之后是excitation操作,通过基于通道依赖性的机制为每个通道学习设定采样的激活,控制每个通道的激励;特征映射U被重新加权以生成输出,然后将输出值直接输入到随后的层中。
进一步地,所述第一SE-ResNet-50网络结构和第二SE-ResNet-50网络结构中,第四层卷积层和第五层卷积层的步幅均修改为8个像素。
本申请的主要目的是解决目标跟踪中出现遮挡和形变等问题目标出视野的问题。并提出了如何将更深层次的网络应用在目标跟踪中的方法。
本申请把提取目标信息特征作为切入点,利用通道之间的相互关系。使用全局信息来选择性地强调信息特征并抑制不太有用的特征。通过本申请对孪生网络的分析,目标可能出现在搜索区域的任何位置。所以本申请利用通道关系,使得全局感受野的信息能够被其较低层利用。
为此本申请在跟踪器中引入专注于架构单元的模块称之为Squeeze-and-Excitation(SE)块。在反复实验中本申请证明将SE块应用在目标跟踪当中是可行的,但是必须接受的模型复杂度和计算开销。
本申请在孪生网络跟踪任务中,采用这样一种简单策略,将SE块与孪生网络集成在一起(将SE块嵌入到Resnet中,把嵌入后的网络作为孪生网络的主干网络)进行目标跟踪。但是训练数据不足是本申请目标跟踪过程中面临的另外一个严峻问题,为此本申请引入了模型无关元学习算法-Model-agnostic meta-learning,(MAML)。它的核心思想是,通过学习一个较好的模型初始化权重,使得模型能够在极少量的数据上面根据新学习到的权重做微调收敛到一个很好的结果。
基于孪生网络的目标跟踪算法不管是在鲁棒性还是在准确性方面,都取得了很好的效果。但是将深度网络与孪生网络结合应用本申请还需要做大量的工作:解决缺失数据问题,预训练网络,嵌入SE块,把嵌入后的resnet,即本申请的SE-RESNET作为孪生网络的主干网络
本申请提出将SE-ResNet-50嵌入到成功训练的一个SiameseRPN跟踪器上面,以达到更好的跟踪效果。
本申请在提出的算法中构造一个SE块来执行特征校准,对此有如下描述:首先通过Squeeze操作,Squeeze操作跨越空间维度W×H聚合特征映射来产生通道描述符。这个描述符嵌入了通道特征响应的全局分布,使来自网络全局感受野的信息能够被其较低层利用。之后是一个excitation操作,其中通过基于通道依赖性的机制为每个通道学习特定采样的激活,控制每个通道的激励。特征映射U被重新加权以生成SE块的输出,然后可以将其直接输入到随后的层中。
本申请除了加入SE块以外还修改了conv4和conv5,将步幅修改为8像素,并扩大了卷积来增加感受野。在每个块输出端附加一个的1×1卷积层,这样通道减少到256。SE-Resnet的所有层的填充都保持不变,模板特征的空间大小增加到15,这给模块计算带来了沉重的负担。因此,裁剪中心7×7区域作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。
在训练中,本申请使用了均衡数据策略:通过SMOTE:Synthetic minority oversampling techniques算法生成合成的样本。它的基本方法是首先通过距离度量选择两个或多个比较相近的样本,然后通过在一个样本中添加随机扰动来生成新的样本。
为了提高训练效率,本申请采用了更大的batch-size和初始学习率。
利用SE-ResNet-50聚合不同的深度层。通过聚合浅层特征和深层特征提高目标的识别和定位,深层特征具有更加丰富的语义信息,在模糊运动,变形等场景中更加有利于定位目标。
采用conv-bn块来调整每个se-blocks的特征以适应跟踪任务。经过ReLu激活后再通过一个Fully Connected层升回到原来的维度。
这样做比直接用一个Fully Connected层的好处在于:
(1)具有更多的非线性,可以更好地拟合通道间复杂的相关性;
(2)极大地减少了参数量和计算量。然后通过一个Sigmoid的门获得归一化的权重,再通过一个Scale的操作来将归一化后的权重加权到每个通道的特征上。
在数据集上预训练网络权重的时候,本申请引入的元学习算法采用了双层优化(Bilevel optimization)的策略。在每一轮迭代中,本申请将一组训练样本分为支撑集(Support set)以及目标集(Target set)。先在支撑集上面去进行固定次数的梯度下降迭代(一般为5步),再将更新过后的模型参数应用在目标集上,计算目标集上的误差。在支撑集上,固定次数的梯度下降过程称为里层优化(Inner-level optimization);由目标集上的误差去更新模型参数的过程,称为外层优化(Outer-level optimization)。
与普通的SGD方法相比,元学习算法并不要求找到一组参数,直接使得目标集上误差最小;相反的,它希望找到一组参数,使其经过几步梯度下降迭代之后,在目标集上误差最小。这种双层优化的方式,能够通过在支撑集上的训练,泛化到目标集上。通过MAML算法训练出来的初始化参数具有收敛快、泛化性能好的优点。然后将具有相同数量的通道的两个特征图,按照通道进行上述提到的互相关操作。最后,附加用于分类或回归输出的最后一个卷积层。
预训练SE-ResNet-50网络,在ImageNet上进行预训练,目的是用于图像标记;在ImageNetDET,ImageNet VID数据集训练集上训练网络,学习如何测量视觉跟踪的一般对象之间相似性的一般概念。
在训练和测试中,本申请使用单比例图像。该算法在Tensorflow框架中实现,本申请的实验是在配备Xeon E52.4GHz CPU和GeForce GTX Titan X GPU的PC上进行的。
孪生跟踪网络用f(z,x)来比较一个样本图像模板x和搜索分支z之间的相似性。本申请用深度神经网络来模拟一个函数f。孪生网络对两个分支x和z进行相同的变换本申请得到一个相似性度量函数。相似度越高,得分越高。为了找到下一帧目标的位置,本申请将相似度最高的位置作为目标的预测位置:
为了克服孪生网络的局限性,在跟踪器中使用加权互相关模块cross-correlation来定义孪生网络,该模块是孪生网络中两个分支的核心操作。在SiameseRPN中,通过添加卷积层来扩展通道,交叉相关嵌入更高级别的信息。这使得模块严重影响参数分布的不平衡,使得SiameseRPN中的训练变得极为困难。在发明中,本申请使用加权互相关模块cross-correlation。
通过Squeeze操作,Squeeze操作跨越空间维度W×H聚合特征映射来产生通道描述符。这个描述符嵌入了通道特征响应的全局分布,使来自网络全局感受野的信息能够被其较低层利用。之后是一个excitation操作,其中通过基于通道依赖性的机制为每个通道学习特定采样的激活,控制每个通道的激励。特征映射被重新加权以生成SE块的输出,然后可以将其直接输入到随后的层中。如图2所示:
与ResNet-50不同。本申请除了加入SE块以外还修改了conv4和conv5,将步幅修改为8像素,并扩大了卷积来增加感受野。在每个块输出端附加一个的1×1卷积层,这样通道减少到256。所有层的填充都保持不变,模板特征的空间大小增加到15,这给模块计算带来了沉重的负担。因此,裁剪中心7×7区域作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。用anchors执行分类和边界框回归,响应权值最高的位置即为目标所在位置。
显示跟踪目标,得到本申请所跟踪的视频序列,如图4(a)和图4(b)所示。图3(a)-图3(e)为本申请结果与其它跟踪器对比.
本申请所研究的目标跟踪便可以应用到目标跟踪的各个领域,本申请提出的方法可以解决目标跟踪中常见的问题。如:形变,光照变换,遮挡等。
实施例二
本实施例提供了基于改进孪生网络的目标跟踪系统;
基于改进孪生网络的目标跟踪系统,包括:
获取模块,其被配置为:获取待目标跟踪视频和已知的跟踪目标图像;
目标跟踪模块,其被配置为:将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络SiameseRPN的输入端连接。
此处需要说明的是,上述获取模块和目标跟踪模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于改进孪生网络的目标跟踪方法,其特征是,包括:
获取待目标跟踪视频和已知的跟踪目标图像;
将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络Siamese RPN的输入端连接。
2.如权利要求1所述的方法,其特征是,所述改进的孪生网络,包括:并列的第一支路和第二支路;
所述第一支路,包括:第一SE-ResNet-50网络结构;所述第一支路的输入端用于输入已知跟踪目标的图像;
所述第二支路,包括:第二SE-ResNet-50网络结构;所述第二支路的输入端用于输入待目标跟踪的图像。
3.如权利要求2所述的方法,其特征是,
所述第一SE-ResNet-50网络结构与第二SE-ResNet-50网络结构是一样的;
所述第一SE-ResNet-50网络结构包括依次连接的第一卷积层、全局池化层Globalpooling、第一全连接层FC、卷积层2_1、卷积层2_2、Relu函数层、卷积层3_1、卷积层3_2、卷积层3_3、第二全连接层FC、卷积层4_1、卷积层4_2、卷积层4_3、卷积层4_4、卷积层5_1、卷积层5_2、卷积层5_3、卷积层5_4、卷积层5_5、sigmoid函数层和scale层。
4.如权利要求3所述的方法,其特征是,
所述第一SE-ResNet-50网络结构和第二SE-ResNet-50网络结构中,卷积层3_1、卷积层3_2和卷积层3_3的输出端均与第一孪生候选区域生成网络Siamese RPN的输入端连接;卷积层4_1、卷积层4_2、卷积层4_3和卷积层4_4的输出端均与第二孪生候选区域生成网络Siamese RPN的输入端连接;卷积层5_1、卷积层5_2、卷积层5_3、卷积层5_4和卷积层5_5的输出端均与第三孪生候选区域生成网络Siamese RPN的输入端连接。
5.如权利要求4所述的方法,其特征是,
所述第一孪生候选区域生成网络Siamese RPN的输出端与第二孪生候选区域生成网络Siamese RPN的输入端连接,所述第二孪生候选区域生成网络Siamese RPN的输出端与第三孪生候选区域生成网络Siamese RPN的输入端连接;所述第三孪生候选区域生成网络Siamese RPN的输出端,分别连接边框回归模块Bbox Regression和分类层CLS,所述边框回归模块Bbox Regression和分类层CLS的输出端均与加权互相关模块cross-correlation输入端连接,加权互相关模块cross-correlation的输出端与输出层连接,所述输出层,用于输出目标跟踪结果。
6.如权利要求4所述的方法,其特征是,所述改进的孪生网络,工作原理是:
改进的孪生网络有两个输入:已知跟踪目标的图像和待目标跟踪的图像,将两个输入进入各自对应的神经网络,各自对应的神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示;通过损失函数的计算,评价待目标跟踪的图像与已知跟踪目标的图像之间的相似度,输出相似度高于设定阈值的待目标跟踪图像作为目标跟踪的结果。
7.如权利要求4所述的方法,其特征是,所述预先训练好的改进的孪生网络;具体训练步骤包括:
将改进的孪生网络,通过模型无关元学习算法训练,得到初始权重已知的改进的孪生网络;
构建训练集;所述训练集为已知每一帧跟踪目标位置的视频;
将训练集输入到初始权重已知的改进的孪生网络中,得到训练好的改进的孪生网络。
8.基于改进孪生网络的目标跟踪系统,其特征是,包括:
获取模块,其被配置为:获取待目标跟踪视频和已知的跟踪目标图像;
目标跟踪模块,其被配置为:将待目标跟踪的视频和已知的跟踪目标图像,均输入到预先训练好的改进的孪生网络中,输出目标跟踪结果;所述改进的孪生网络是指在ResNet-50网络结构的基础上添加了Squeeze-and-Excitation网络结构,且ResNet-50网络结构的第三、第四和第五卷积层的输出端均与各自对应的孪生候选区域生成网络Siamese RPN的输入端连接。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750575.0A CN111915650B (zh) | 2020-07-30 | 2020-07-30 | 基于改进孪生网络的目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010750575.0A CN111915650B (zh) | 2020-07-30 | 2020-07-30 | 基于改进孪生网络的目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111915650A true CN111915650A (zh) | 2020-11-10 |
CN111915650B CN111915650B (zh) | 2023-08-11 |
Family
ID=73286800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010750575.0A Active CN111915650B (zh) | 2020-07-30 | 2020-07-30 | 基于改进孪生网络的目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111915650B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712546A (zh) * | 2020-12-21 | 2021-04-27 | 吉林大学 | 一种基于孪生神经网络的目标跟踪方法 |
CN113052227A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于SE-ResNet的肺结核识别方法 |
CN113240709A (zh) * | 2021-04-23 | 2021-08-10 | 中国人民解放军32802部队 | 基于对比学习的孪生网络目标跟踪方法 |
CN113379797A (zh) * | 2021-06-01 | 2021-09-10 | 大连海事大学 | 一种无人机观测目标的实时跟踪方法及系统 |
CN113888587A (zh) * | 2021-09-01 | 2022-01-04 | 山东师范大学 | 基于改进的暹罗网络的目标跟踪方法及系统 |
CN117406780A (zh) * | 2023-11-20 | 2024-01-16 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298404A (zh) * | 2019-07-02 | 2019-10-01 | 西南交通大学 | 一种基于三重孪生哈希网络学习的目标跟踪方法 |
US20190325584A1 (en) * | 2018-04-18 | 2019-10-24 | Tg-17, Llc | Systems and Methods for Real-Time Adjustment of Neural Networks for Autonomous Tracking and Localization of Moving Subject |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
-
2020
- 2020-07-30 CN CN202010750575.0A patent/CN111915650B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325584A1 (en) * | 2018-04-18 | 2019-10-24 | Tg-17, Llc | Systems and Methods for Real-Time Adjustment of Neural Networks for Autonomous Tracking and Localization of Moving Subject |
CN110298404A (zh) * | 2019-07-02 | 2019-10-01 | 西南交通大学 | 一种基于三重孪生哈希网络学习的目标跟踪方法 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
史璐璐;张索非;吴晓富;: "基于Tiny Darknet全卷积孪生网络的目标跟踪", 南京邮电大学学报(自然科学版), no. 04 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712546A (zh) * | 2020-12-21 | 2021-04-27 | 吉林大学 | 一种基于孪生神经网络的目标跟踪方法 |
CN113052227A (zh) * | 2021-03-22 | 2021-06-29 | 山西三友和智慧信息技术股份有限公司 | 一种基于SE-ResNet的肺结核识别方法 |
CN113240709A (zh) * | 2021-04-23 | 2021-08-10 | 中国人民解放军32802部队 | 基于对比学习的孪生网络目标跟踪方法 |
CN113240709B (zh) * | 2021-04-23 | 2022-05-20 | 中国人民解放军32802部队 | 基于对比学习的孪生网络目标跟踪方法 |
CN113379797A (zh) * | 2021-06-01 | 2021-09-10 | 大连海事大学 | 一种无人机观测目标的实时跟踪方法及系统 |
CN113888587A (zh) * | 2021-09-01 | 2022-01-04 | 山东师范大学 | 基于改进的暹罗网络的目标跟踪方法及系统 |
CN113888587B (zh) * | 2021-09-01 | 2024-05-28 | 山东师范大学 | 基于改进的暹罗网络的目标跟踪方法及系统 |
CN117406780A (zh) * | 2023-11-20 | 2024-01-16 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
CN117406780B (zh) * | 2023-11-20 | 2024-05-31 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111915650B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915650B (zh) | 基于改进孪生网络的目标跟踪方法及系统 | |
Zhong et al. | Hierarchical tracking by reinforcement learning-based searching and coarse-to-fine verifying | |
CN110084299B (zh) | 基于多头融合注意力的目标检测方法和装置 | |
Fang et al. | Survey on the application of deep reinforcement learning in image processing | |
Kim et al. | Towards sequence-level training for visual tracking | |
CN107424177A (zh) | 基于连续相关滤波器的定位修正长程跟踪算法 | |
CN113095254B (zh) | 一种人体部位关键点的定位方法及系统 | |
CN113628244B (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Zhu et al. | Tiny object tracking: A large-scale dataset and a baseline | |
CN113902991A (zh) | 一种基于级联特征融合的孪生网络目标跟踪方法 | |
Pavel et al. | Recurrent convolutional neural networks for object-class segmentation of RGB-D video | |
CN112037263A (zh) | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 | |
CN110245683A (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
Usmani et al. | A reinforced active learning algorithm for semantic segmentation in complex imaging | |
CN112836609A (zh) | 基于关系引导视频时空特征的人体行为识别方法及系统 | |
Kalash et al. | Relative saliency and ranking: Models, metrics, data and benchmarks | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
WO2022120996A1 (zh) | 视觉位置识别方法及装置、计算机设备及可读存储介质 | |
Yang et al. | A real-time object detection method for underwater complex environments based on FasterNet-YOLOv7 | |
CN115116128B (zh) | 一种自约束优化的人体姿态估计方法及系统 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
US20240005635A1 (en) | Object detection method and electronic apparatus | |
CN116758610A (zh) | 基于注意力机制和特征融合的轻量化人耳识别方法及系统 | |
Yang et al. | SA-MVSNet: Self-attention-based multi-view stereo network for 3D reconstruction of images with weak texture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |