CN109035297A

CN109035297A - 一种基于双重暹罗网络的实时追踪方法

Info

Publication number: CN109035297A
Application number: CN201810797669.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-18

Abstract

本发明中提出的一种基于双重暹罗网络的实时追踪方法，其主要内容包括：双重暹罗网络架构、语义分支的通道注意力模块和网络设计方案选择，其过程为，先将目标图像块和搜索区域图像块输入到网络中；然后，将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合，以得到语义分支和表观分支的响应图；最后，将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。本方法采用了双重网络设计并且引入了注意力机制，实现了异相追踪和目标自适应，相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。

Description

一种基于双重暹罗网络的实时追踪方法

技术领域

本发明涉及图像处理领域，尤其是涉及了一种基于双重暹罗网络的实时追踪方法。

背景技术

随着计算机技术和视觉图像处理技术的发展，目标追踪技术日渐成为国内外学者热衷研究的一门课题。目标追踪技术主要研究视频图像序列中运动目标的检测、提取、识别和追踪，涉及到机器视觉、图像处理和模式识别等专业领域，有着广阔的应用前景。在人机交互中，目标追踪技术可用于追踪人的姿态、动作、手势等以理解人的意图；在虚拟现实技术中，通过目标追踪技术可对人体动作进行追踪分析，以实现在虚拟环境中的3D交互和虚拟角色动作模拟；在医学诊断中，目标追踪技术可用于超声波和核磁序列图像变化的追踪，从而进行内部器官的病情分析；另外，目标追踪技术还广泛应用于无人飞行器、精确制导、空中预警、战场监视、移动机器人和智能视频监控等方面。然而，现有的追踪方法存在追踪的目标类别数量不多和追踪准确性不高等问题。

本发明中提出的一种基于双重暹罗网络的实时追踪方法，先将目标图像块和搜索区域图像块输入到网络中；然后，将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合，以得到语义分支和表观分支的响应图；最后，将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。本方法采用了双重网络设计并且引入了注意力机制，实现了异相追踪和目标自适应，相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。

发明内容

针对现有的追踪方法存在追踪的目标类别数量不多和追踪准确性不高等问题，本发明的目的在于提供一种基于双重暹罗网络的实时追踪方法，先将目标图像块和搜索区域图像块输入到网络中；然后，将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合，以得到语义分支和表观分支的响应图；最后，将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。

为解决上述问题，本发明提供一种基于双重暹罗网络的实时追踪方法，其主要内容包括：

(一)双重暹罗网络架构；

(二)语义分支的通道注意力模块；

(三)网络设计方案选择。

其中，所述的双重暹罗网络架构，该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块；用符号z,z^s和X分别表示目标、目标周围的环境和搜索区域；双重暹罗网络包括了表观分支和语义分支；每个分支的输出都是一个响应图，能够显示目标z和搜索区域X中的候选块x之间的相似性。

进一步地，所述的符号z,z^s和X，z^s和X的尺寸均为W_s×H_s×3；而目标z的尺寸为W_t×H_t×3(W_t＜W_s，H_t＜H_s)，位于z^s的中心；X可被视为搜索区域中的候选图像块x的集合，与z具有相同的尺寸。

进一步地，所述的表观分支，以(z，X)作为输入，卷积网络A-Net用于提取表观特征f_a(·)；表观分支的响应图可用下式表示：

h_a(z，X)＝corr(f_a(z)，f_a(X)) (1)

其中，corr(·)表示互相关运算，f_a(z)为目标的表观特征，f_a(X)为搜索区域的表观特征；在相似性学习问题中，A-Net中的所有参数都是从头开始训练的。

进一步地，所述的语义分支，以(z^s，X)作为输入，直接在图像分类任务中使用预训练的卷积网络作为S-Net，并在训练和测试期间修复其所有参数；令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征，因为这两个卷积层能够提供不同程度的抽象化结果；来自不同卷积层的特征具有不同的空间分辨率，用f_s(·)表示串联的多级特征；为了使语义特征能用于互相关运算，在特征提取之后嵌入一个1×1的ConvNet融合模块；融合在同一卷积层中进行，融合后搜索区域的特征向量X可表示为g(f_s(X))；语义分支的目标处理过程与表观分支略有不同：S-Net将z^s作为目标输入，z^s中心有目标z，包含目标的周围的环境信息；由于S-Net是全卷积，通过简单的裁剪过程可从f_s(z^s)获得f_s(z)；注意力模块令f_s(z^s)作为输入并输出通道权重ξ，并在融合之前，将特征与权重ξ相乘；这样，语义分支的响应图可表达为：

h_s(z^s，X)＝corr(ξ·g(f_s(z))，g(f_s(X))) (2)

其中，ξ与f_s(z)的通道数有相同的维度，f_s(z)为目标的语义特征，f_s(X)为搜索区域的语义特征。

进一步地，所述的通道注意力模块，增强语义分支的判别力，主要利用通道运行来实现，将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能；用卷积层5的特征映射作为例子，空间尺度为22×22，将特征映射分割为3×3网格，则中心的6×6网格即为追踪目标z；在每个网格内执行最大池化层，然后使用两层多层感知器(MLP)为该通道生成系数；最后，使用具有偏差的Sigmoid函数来生成最终输出权重ξ；MLP模块在从相同卷积层提取的通道之间共享权重；将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能。

其中，所述的网络设计方案选择，主要包括：分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。

进一步地，所述的分别训练两个分支，对于一些训练样本，使用语义线索进行追踪可能比使用表观线索更容易，如果两个分支是联合训练的，当语义分支具有判别热图并且表观分支具有非信息热图时，整体损失可能很小，这样这些训练样本就不能在优化表观分支中发挥作用，所以需要对两个分支进行分别训练。

进一步地，所述的不对S-Net进行微调，主要目的是为了使得两个分支保持相似性；因为对S-Net进行微调仅能提升语义分支的性能，但这样会造成两个分支的性能不平衡从而影响整体的性能。

进一步地，所述的对A-Net网络不作修改，其特征在于，与语义分支不同，对于表观分支，不使用多级特征和添加通道注意力，因为来自不同卷积层的表观特征在表现力方面没有显着差异；相同的注意力模块不能应用于表观分支，因为高级语义特征非常稀疏而表观特征非常密集；简单的最大池化层运行可以生成语义特征的描述性概要，但不能生成表观特征。

附图说明

图1是本发明一种基于双重暹罗网络的实时追踪方法的系统框架图。

图2是本发明一种基于双重暹罗网络的实时追踪方法的网络架构图。

图3是本发明一种基于双重暹罗网络的实时追踪方法的追踪结果对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于双重暹罗网络的实时追踪方法的系统框架图。主要包括双重暹罗网络架构、语义分支的通道注意力模块和网络设计方案选择。

通道注意力模块，增强语义分支的判别力，主要利用通道运行来实现，将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能；用卷积层5的特征映射作为例子，空间尺度为22×22，将特征映射分割为3×3网格，则中心的6×6网格即为追踪目标z；在每个网格内执行最大池化层，然后使用两层多层感知器(MLP)为该通道生成系数；最后，使用具有偏差的Sigmoid函数来生成最终输出权重ξ；MLP模块在从相同卷积层提取的通道之间共享权重；将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能。

网络设计方案选择，主要包括：分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。

其中，分别训练两个分支，对于一些训练样本，使用语义线索进行追踪可能比使用表观线索更容易，如果两个分支是联合训练的，当语义分支具有判别热图并且表观分支具有非信息热图时，整体损失可能很小，这样这些训练样本就不能在优化表观分支中发挥作用，所以需要对两个分支进行分别训练。

其中，不对S-Net进行微调，主要目的是为了使得两个分支保持相似性；因为对S-Net进行微调仅能提升语义分支的性能，但这样会造成两个分支的性能不平衡从而影响整体的性能中。

其中，对A-Net网络不作修改，与语义分支不同，对于表观分支，不使用多级特征和添加通道注意力，这是因为来自不同卷积层的表观特征在表现力方面没有显着差异；相同的注意力模块不能应用于表观分支，因为高级语义特征非常稀疏而表观特征非常密集；简单的最大池化层运行可以生成语义特征的描述性概要，但不能生成表观特征。

图2是本发明一种基于双重暹罗网络的实时追踪方法的网络架构图。该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块；用符号z,z^s和X分别表示目标、目标周围的环境和搜索区域；双重暹罗网络包括了表观分支和语义分支；每个分支的输出都是一个响应图，能够显示目标z和搜索区域X中的候选块x之间的相似性。

其中，符号z,z^s和X，z^s和X的尺寸均为W_s×H_s×3；而目标z的尺寸为W_t×H_t×3(W_t＜W_s，H_t＜H_s)，位于z^s的中心；X可被视为搜索区域中的候选图像块x的集合，与z具有相同的尺寸。

其中，表观分支，表观分支以(z，X)作为输入，卷积网络A-Net用于提取表观特征f_a(·)；表观分支的响应图可用下式表示：

h_a(z，X)＝corr(f_a(z)，f_a(X)) (1)

其中，语义分支，语义分支以(z^s，X)作为输入，直接在图像分类任务中使用预训练的卷积网络作为S-Net，并在训练和测试期间修复其所有参数；令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征，因为这两个卷积层能够提供不同程度的抽象化结果；来自不同卷积层的特征具有不同的空间分辨率，用f_s(·)表示串联的多级特征；为了使语义特征能用于互相关运算，在特征提取之后嵌入一个1×1的ConvNet融合模块；融合在同一卷积层中进行，融合后搜索区域的特征向量X可表示为g(f_s(X))；语义分支的目标处理过程与表观分支略有不同：S-Net将z^s作为目标输入，z^s中心有目标z，包含目标的周围的环境信息；由于S-Net是全卷积，通过简单的裁剪过程可从f_s(z^s)获得f_s(z)；注意力模块令f_s(z^s)作为输入并输出通道权重ξ，并在融合之前，将特征与权重ξ相乘；这样，语义分支的响应图可表达为：

h_s(z^s，X)＝corr(ξ·g(f_s(z))，g(f_s(X))) (2)

图3是本发明一种基于双重暹罗网络的实时追踪方法的追踪结果对比图。本方法采用了双重网络设计并且引入了注意力机制，实现了异相追踪和目标自适应，相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于双重暹罗网络的实时追踪方法，其特征在于，主要包括双重暹罗网络架构(一)；语义分支的通道注意力模块(二)；网络设计方案选择(三)。

2.基于权利要求书1所述的双重暹罗网络架构(一)，其特征在于，该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块；用符号z,z^s和X分别表示目标、目标周围的环境和搜索区域；双重暹罗网络包括了表观分支和语义分支；每个分支的输出都是一个响应图，能够显示目标z和搜索区域X中的候选块x之间的相似性。

3.基于权利要求书2所述的符号z,z^s和X，其特征在于，z^s和X的尺寸均为W_s×H_s×3；而目标z的尺寸为W_t×H_t×3(W_t＜W_s，H_t＜H_s)，位于z^s的中心；X可被视为搜索区域中的候选图像块x的集合，与z具有相同的尺寸。

4.基于权利要求书2所述的表观分支，其特征在于，表观分支以(z，X)作为输入，卷积网络A-Net用于提取表观特征f_a(·)；表观分支的响应图可用下式表示：

h_a(z，X)＝corr(f_a(z)，f_a(X)) (1)

5.基于权利要求书2所述的语义分支，其特征在于，语义分支以(z^s，X)作为输入，直接在图像分类任务中使用预训练的卷积网络作为S-Net，并在训练和测试期间修复其所有参数；令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征，因为这两个卷积层能够提供不同程度的抽象化结果；来自不同卷积层的特征具有不同的空间分辨率，用f_s(·)表示串联的多级特征；为了使语义特征能用于互相关运算，在特征提取之后嵌入一个1×1的ConvNet融合模块；融合在同一卷积层中进行，融合后搜索区域的特征向量X可表示为g(f_s(X))；语义分支的目标处理过程与表观分支略有不同：S-Net将z^s作为目标输入，z^s中心有目标z，包含目标的周围的环境信息；由于S-Net是全卷积，通过简单的裁剪过程可从f_s(z^s)获得f_s(z)；注意力模块令f_s(z^s)作为输入并输出通道权重ξ，并在融合之前，将特征与权重ξ相乘；这样，语义分支的响应图可表达为：

h_s(z^s，X)＝corr(ξ·g(f_s(z))，g(f_s(X))) (2)

6.基于权利要求书1所述的语义分支的通道注意力模块(二)，其特征在于，增强语义分支的判别力，主要利用通道运行来实现，将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能；用卷积层5的特征映射作为例子，空间尺度为22×22，将特征映射分割为3×3网格，则中心的6×6网格即为追踪目标z；在每个网格内执行最大池化层，然后使用两层多层感知器(MLP)为该通道生成系数；最后，使用具有偏差的Sigmoid函数来生成最终输出权重ξ；MLP模块在从相同卷积层提取的通道之间共享权重；将通道重要性适应于跟踪目标，以便实现目标自适应的最小功能。

7.基于权利要求书1所述的网络设计方案选择(三)，其特征在于，主要包括：分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。

8.基于权利要求书7所述的分别训练两个分支，其特征在于，对于一些训练样本，使用语义线索进行追踪可能比使用表观线索更容易，如果两个分支是联合训练的，当语义分支具有判别热图并且表观分支具有非信息热图时，整体损失可能很小，这样这些训练样本就不能在优化表观分支中发挥作用，所以需要对两个分支进行分别训练。

9.基于权利要求书7所述的不对S-Net进行微调，其特征在于，主要目的是为了使得两个分支保持相似性；因为对S-Net进行微调仅能提升语义分支的性能，但这样会造成两个分支的性能不平衡从而影响整体的性能。

10.基于权利要求书7所述的对A-Net网络不作修改，其特征在于，与语义分支不同，对于表观分支，不使用多级特征和添加通道注意力，这是因为来自不同卷积层的表观特征在表现力方面没有显着差异；相同的注意力模块不能应用于表观分支，因为高级语义特征非常稀疏而表观特征非常密集；简单的最大池化层运行可以生成语义特征的描述性概要，但不能生成表观特征。