CN113223055A

CN113223055A - 图像目标跟踪模型建立方法及图像目标跟踪方法

Info

Publication number: CN113223055A
Application number: CN202110601825.9A
Authority: CN
Inventors: 张旭明; 许思杰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113223055B

Abstract

本发明公开了一种图像目标跟踪模型建立方法及图像目标跟踪方法，属于图像目标跟踪领域，包括：建立深度学习模型，包括模板分支、搜索分支和先验分支，输入分别为目标位置已知的模板图像、搜索图像和由目标位置已知的图像与对应目标位置概率分布图堆叠而成的先验图像，三个分支用于对输入图像进行语义编码，分别得到模板特征图、搜索特征图和先验特征图；模型还包括位置估计模块，用于将搜索特征图与先验特征图逐像素点乘后与模板特征图做互相关计算，并将结果倍率恢复至与搜索图像相同，得到目标位置概率分布图；建立训练数据集并对模型进行训练，得到图像目标跟踪模型。本发明能够解决相似性结构、边缘、阴影等干扰问题，提高图像目标跟踪精度。

Description

图像目标跟踪模型建立方法及图像目标跟踪方法

技术领域

本发明属于图像目标跟踪领域，更具体地，涉及一种图像目标跟踪模型建立方法及图像目标跟踪方法。

背景技术

图像目标跟踪指的是一种利用计算机算法在给定初始图像目标坐标的情况下，预测此后所有序列图像的目标位置，以获取目标点运动路径的计算机视觉应用。相似性度量是图像目标跟踪领域的常用方法，如常用的模板匹配方法、孪生全卷积网络算法等。其中Bertinetto等人提出的孪生全卷积网络(Fully-Convolutional Siamese Networks，SiameseFC)使研究者们看到了深度学习应用于目标跟踪的突破口，其结构简单、实时性好、跟踪效果显著，受到研究者们的广泛青睐。

SiameseFC网络的结构如图1所示，它包含两个分支，其中第一个分支为模板分支，输入的模板图像为第一帧图像中包含目标位置的像素块；第二个分支为搜索分支，输入的搜索图像为目标位置未知的当前帧图像。模板图像与搜索图像分别经过第一分支与第二分支的全卷积网络，得到模板特征图与搜素特征图，二者计算互相关系数得到搜索图像中目标预测位置的概率分布图。其中两个分支的全卷积网络结构相同、参数共享。由于该网络采用了相似性匹配的思想以及共享网络参数的方法，模板图像与搜索图像会经过相同参数编码，保持特征含义的一致性，容易进行训练。但是，该方法仅在空间维度上搜索相似目标，而相似结构经过参数编码后具有与目标点相似的特征属性，在计算互相关时得到与真实目标点相似的输出响应，从而对跟踪产生干扰；边缘的高对比度使得本将超出边界的目标点变得更加不明显，在该网络的相似度匹配规则下目标点匹配转而变成更加明显的边缘的匹配，从而造成一条带状边缘响应，严重影响跟踪性能；而落入阴影的目标点，本身的结构特征被阴影隐匿，使得周围的无关特征匹配决定了匹配结果，输出的特征图往往是不规则的多响应输出，甚至是一大片的高亮响应。因此SiameseFC网络容易受环境中与目标相似结构、边缘、阴影干扰，造成多响应输出，一旦搜索范围内出现干扰，极易出现误跟踪情况，这样的失误在医学临床应用中后果不堪设想。例如无创消融肝脏病灶时，肝脏因呼吸运动而发生移动，为了精确消融病灶，需要对目标位置进行精确跟踪，一旦周围有相似结构，跟踪算法失效，很有可能造成医疗事故。

为了避免跟踪受到周围相似结构干扰，SiameseFC网络采用的是给输出的概率图乘上余弦窗，使远距离的位置出现目标点的概率降低；Alvaro Gomariz等人以及Fei Liu等人采用限制目标点运动范围的方法，避免不合理的偏移；但这些方法太过简单，难以适应复杂情况。Alvaro Gomariz等人还提出了一种给予传统方法的时序更新策略，Lijun Zhou等人在SiameseFC基础上加上Kalman滤波；这些策略对目标点位置的修正策略虽有一定帮助，但是基于传统方法的修正策略往往泛化能力有限；Rahul Rama Varior等人期望通过加入循环神经网络，为SiameseFC提供时序信息，但是整合循环神经网络使得网络结构庞大，实时性能降低。

总的来说，上述图像目标跟踪方法均不能有效解决相似结构干扰问题，图像目标跟踪精度有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种图像目标跟踪模型建立方法及图像目标跟踪方法，其目的在于，结合先验信息使网络区分出目标位置与周围相似性结构的差别，解决相似性结构干扰问题，提高图像目标跟踪精度。

为实现上述目的，按照本发明的一个方面，提供了一种图像目标跟踪模型建立方法，包括：

建立深度学习模型，其包括先验分支、位置估计模块以及参数共享的模板分支和搜索分支；模板分支、搜索分支和先验分支分别以模板图像、搜索图像和先验图像为输入，用于对输入图像进行语义编码，分别得到模板特征图、搜索特征图和先验特征图；模板图像中目标位置已知，先验图像由目标位置已知的图像与对应的目标位置概率分布图堆叠而成，且搜索特征图与先验特征图形状相同；位置估计模块，用于将搜索特征图与先验特征图逐像素点乘后与模板特征图做互相关计算，并将互相关计算结果的倍率恢复至与搜索图像相同，得到搜索图像中目标位置的概率分布图；

建立训练数据集，其中的每条训练样本包含目标位置已知的第一图像、目标位置概率分布图已知的第二图像和由目标位置已知的图像与对应的目标位置概率分布图堆叠而成的第三图像；

以训练样本中的第一图像、第二图像和第三图像为输入信息，以第二图像的目标位置概率分布图为标签信息，利用训练数据集对深度学习模型进行训练，从而在训练结束后，得到图像目标跟踪模型。

本发明所建立的图像目标跟踪模型包含先验分支，该先验分支以目标位置已知的图像与对应的目标位置概率分布图堆叠而成的先验数据为输入，可自主学习目标周围的环境信息，其对先验数据进行语义编码后得到的先验特征图中包含了特征的注意力权重信息；图像目标跟踪模型在将搜索特征图与模板特征图进行互相关计算之前，会先将先验特征图与搜索特征图进行逐像素点乘，由此能够对搜索特征图进行校准，有效抑制环境中相似结构、边界、阴影的干扰响应，实现了单响应输出。因此，本发明能够有效解决相似结构的干扰问题，提高图像目标跟踪精度。

进一步地，利用训练数据集对深度学习模型进行训练，包括如下步骤：

(S1)建立包含模板分支、搜索分支和一个互相关计算模块的孪生网络；互相关计算模块用于对模板分支提取的模板特征图和搜索分支提取的搜索分支图进行互相关运算，得到输入的搜索图像中目标位置的概率分布图；

(S2)利用训练数据集对孪生网络进行训练，从而在训练结束后，得到模板分支和搜索分支的参数；

(S3)利用步骤(S2)得到的参数设置深度学习模型中的模板分支和搜索分支；

(S4)利用训练数据集对已设置模板分支和搜索分支的深度学习模型进行训练，在训练过程中，仅更新先验分支的参数，而不更新模板分支和搜索分支的参数。

本发明采用分步训练的方式，先训练参数共享的模板分支和搜索分支，能够保证孪生网络的相似性识别功能得到最大发挥；在模板分支和搜索分支训练完成的基础上，固定这两个分支的参数，对图像目标跟踪模型中的其余模块进行训练，由此能够使先验分支准确学习到搜索特征图中特征的注意力权重信息，保证在目标跟踪过程中对搜索特征图进行准确校准。

进一步地，利用训练数据集对深度学习模型进行训练，在步骤(S4)之后，还包括：

(S5)利用训练数据集对经步骤(S1)～(S4)训练后的深度学习模型进行二次训练，在训练过程中，对模板分支、搜索分支、先验分支和位置估计模块的参数均进行更新。

本发明在分两步对图像目标跟踪模型进行训练之后，开放所有参数，对模型进行二次训练，由此能够对模型进行整体微调，进一步提高模型的跟踪精度。

进一步地，步骤(S2)、步骤(S4)和步骤(S5)中，训练学习率分别记为第一学习率、第二学习率和第三学习率，则第一学习率和第二学习率的数量级相同，且第三学习率相比于第二学习率低一个数量级。

本发明使整体微调阶段的学习率相比于分步训练阶段的学习率低一个数量级，能够保证在对模型进行微调的同时不影响已有的训练效果。

进一步地，建立训练数据集，包括如下步骤：

获得已标注目标位置的图像序列；

若图像序列的标注不连续，即图像序列中间隔若干帧进行一次标注，则每次从图像序列中随机选取3张图像，分别用于构建一条训练样本中的第一图像、第二图像和第三图像；若图像序列的标注连续，即每一帧都进行标注，则每次从图像序列中选取一张图像，并从其后的图像中随机选取两张连续的图像，按顺序分别用于构建一条训练样本中的第一图像、第三图像和第二图像；

构建一条训练样本的方式如下：

以目标位置标注点为中心、按照预设的第一尺寸对图像进行裁剪，将裁剪得到的像素块作为训练样本中的第一图像；

以目标位置标注点为中心、按照预设的第二尺寸对图像进行裁剪，对裁剪得到的像素块进行随机平移，将平移后的像素块作为训练样本中的第二图像，并根据平移后像素块中的目标位置生成与位置估计模块的输出图像大小相同的高斯概率分布图；

以目标位置标注点为中心、按照第二尺寸对图像进行裁剪，并根据裁剪得到的像素块中的目标位置生成与该像素块大小相同的高斯概率分布图，与该像素块堆叠作为训练样本中的第三图像。

基于上述训练数据集的构建方法，本发明既能利用标注离散的图像序列建立训练数据集，也能利用标注连续的图像序列建立训练数据集；此外，由于本发明在构建训练数据集时，会对搜索图像进行随机平移，能够模拟目标的移动，从而能够进一步提高模型的训练效果。

进一步地，本发明所提供的图像目标跟踪模型建立方法，还包括：

对图像目标跟踪模型进行测试和验证；

测试和验证时，模板图像、搜索图像和先验图像分别由序列图像中的第一帧图像、当前帧图像和当前帧图像的前一帧图像构造而成，其中，模板图像的裁剪中心为第一帧图像中的目标位置，搜索图像和先验图像的裁剪中心为前一帧图像中的目标预测位置。

本发明按照上述方法对训练后的图像目标跟踪模型进行测试和验证，能够保证模型的精度和可靠性。

进一步地，计算训练过程中的损失函数时，对于距离目标越远的响应，所给予的惩罚越大，由此能够使模型输出的响应中心更接近知识目标点位置。

进一步地，训练过程中的损失函数如下：

其中，

表示目标位置的概率分布图的预测结果，y表示标签信息中的目标位置概率分布图，MSE表示均方差，N＞0。

按照本发明的另一个方面，提供了一种图像目标跟踪方法，包括：

获得序列图像中第一帧图像，以其中的目标位置为中心对第一帧图像进行裁剪，将裁剪得到的像素块作为模板图像；获得序列图像中当前帧图像的前一帧图像，以前一帧图像中的目标位置为中心对当前帧图像进行裁剪，将裁剪得到的像素块作为搜索图像；以前一帧图像中的目标位置为中心对前一帧图像进行裁剪，并根据裁剪得到的像素块中的目标位置生成相同大小的目标位置概率分布图，与该像素块堆叠作为先验图像；

获得由本发明提供的图像目标跟踪模型建立方法所建立的图像目标跟踪模型，将模板图像、搜索图像和先验图像分别输入至图像目标跟踪模型的模板分支、搜索分支和先验分支，以由图像目标跟踪模型输出搜索图像中的目标位置概率分布图，将其中最大概率位置作为目标点预测位置，实现目标跟踪；

其中，对所述第一帧图像、所述当前帧图像和所述前一帧图像的裁剪尺寸分别与所述模板分支、所述搜索分支和所述先验分支的输入尺寸一致。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的图像目标跟踪模型建立方法，和/或本发明提供的图像目标跟踪方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过三分支网络结构将原本孪生网络的识别跟踪拓展为识别加校准的跟踪方式，利用第一、二个分支学习目标点自身的结构特点，再用第三个分支自主学习目标周围环境，对搜索特征图进行校准，从而避免受到相似结构、边界、阴影等干扰，实现单响应输出。因此，本发明能够有效解决相似结构的干扰问题，提高图像目标跟踪精度。

(2)本发明采用分步训练的方式，先训练对应的二分支参数作为模板分支与搜索分支的参数，保证孪生网络的相似性识别功能得到最大发挥；再固定第一、二分支参数训练第三分支的参数，由此能够使先验分支得到注意力权重，对已经训练好的搜索分支进行全局的注意力加权调整。

附图说明

图1为现有的SiameseFC的结构示意图；

图2为本发明实施例提供的图像目标跟踪模型的结构示意图；

图3为本发明实施例提供的分支结构示意图；

图4为本发明实施例提供的目标跟踪结果示意图；其中，(a-1)、(b-1)、(c-1)和(d-1)分别表示肝脏超声图像训练集CLUST2015中序列名分别为ETH-01-2_2、ICR-01_1、MED-01-1_3和ETH-02-1_1的实例，(a-2)、(b-2)、(c-2)和(d-2)分别表示对SiameseFC网络输出的目标位置概率分布图，(a-3)、(b-3)、(c-3)和(d-3)分别表示本发明实施例方法输出的概率图；实例中，圆点表示目标所在位置，十字点表示相似结构。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的采用孪生网络跟踪方案存在的易受相似结构、边缘、阴影干扰等问题，本发明提供了一种新型网络结构、训练方法及其应用，其思路在于：在孪生网络进行相似性识别的基础上添加第三个分支用于从先验数据中自主学习目标周围的环境信息，作为特征权重对搜索特征图进行调整，引入不对称因素，使得网络能够有效区分目标结构与相似结构，同时忽略边缘、阴影等非目标结构特征，得到单响应概率分布图，从而提升跟踪的精度和鲁棒性。

以下为实施例。

实施例1：

一种图像目标跟踪模型建立方法，包括：建立深度学习模型、建立训练数据集和利用训练数据集对深度学习模型进行训练，训练后的深度学习模型即为图像目标跟踪模型。

本实施例所建立的深度学习模型如图2所示，其包括先验分支、位置估计模块以及参数共享的模板分支和搜索分支；

模板分支、搜索分支和先验分支分别以模板图像、搜索图像和先验图像为输入，用于对输入图像进行语义编码，分别得到模板特征图、搜索特征图和先验特征图；模板图像中目标位置已知，先验图像由目标位置已知的图像与对应的目标位置概率分布图堆叠而成，且搜索特征图与先验特征图形状相同；可选地，如图2所示，本实施例中，模板图像的大小设置为79×79，搜索图像和先验图像大小设置为159×159，模板特征图的形状为36×36×64，搜索特征图和先验特征图的形状为116×116×64；

位置估计模块，用于将搜索特征图与先验特征图逐像素点乘后与模板特征图做互相关计算，并将互相关计算结果的倍率恢复至与搜索图像相同，得到搜索图像中目标位置的概率分布图；位置估计模块恢复倍率的相关参数与网络中降采样与上采样的倍率相适应；由于网络中降采样与上采样的倍率可能不一样，模板特征图与搜索特征图进行互相关计算后，得到的图像中，响应值相比与真实的目标位置会有尺寸上的偏差，例如，搜索图像目标点位置相对中心偏移了30，网络骨架降采样2倍，没有上采样，那么输出的概率分布图响应位置距离中心的偏移应该是15，此时需要把互相关计算得到的图像恢复到原来的倍率，也就是进行两倍插值，才能得到偏移30这个准确的预测结果；当网络中降采样与下采样倍率相同时，互相关计算后得到的图像倍率与搜索图像一致，此时直接输出该互相关计算结果作为模型输出即可。

本实施例中，各分支采用适当的网络骨架对输入图像进行语义编码。其中模板分支与搜索图像分支的骨架相同且参数共享，先验分支与另外两个分支骨架可以相同也可以不同，参数不共享。作为一种可选的实施方式，本实施例中，各分支的网络骨架均选用Unet，其结构如图3所示，输入图像经过三次卷积块、两次降采样得到编码后的特征图，用两次1×1卷积作为Bottle Neck，再经过三次卷积块和两次上采样恢复到相同倍率，相同层级的特征图进行跳转链接，具体操作是：将编码器的特征图先按特征图中心进行裁剪，裁至与解码器特征图形状相同，再与解码器特征图进行加和。结构中卷积块由Conv2D、BatchNorm、Relu组合，卷积步长为1，边缘填充均为valid模式；降采样使用最大池化，池化核为2，步长为2；上采样倍率为2，插值方式为双线性插值。

应当说明的是，图3所示仅为本实施可选的一种分支网络骨架，不应理解为对本发明的唯一限定，在本发明其他的一些实施例中，也可以使用包括但不仅限于AlexNet、VGG、ResNet、DenseNet等网络对输入图像进行语义编码的网络结构作为分支网络骨架。

本实施例所建立的训练数据集中，每条训练样本包含目标位置已知的第一图像、目标位置概率分布图已知的第二图像和由目标位置已知的图像与对应的目标位置概率分布图堆叠而成的第三图像；

可选地，本实施例在构建训练数据集时，所使用的原始数据集为肝脏超声图像训练集CLUST2015，该数据集的标注为离散标注，该数据集来源于国际医学图像计算与计算机辅助干预协会(MICCAI)于2015年举办的一项肝脏超声图像跟踪全球挑战赛，跟踪的目标由比赛举办方指定；本实施例基于肝脏超声图像训练集CLUST2015构建用于对深度学习模型进行训练的训练数据集的具体方式如下：

每次从该数据集的图像序列中随机选取3张图像，分别用于构建一条训练样本中的第一图像、第二图像和第三图像；

构建一条训练样本的方式如下：

以目标位置标注点为中心、按照预设的第一尺寸(即79×79)对图像进行裁剪，将裁剪得到的像素块作为训练样本中的第一图像；

以目标位置标注点为中心、按照预设的第二尺寸(即159×159)对图像进行裁剪，对裁剪得到的像素块进行随机平移，将平移后的像素块作为训练样本中的第二图像，并根据平移后像素块中的目标位置生成与位置估计模块的输出图像大小相同的高斯概率分布图；此处所生成的高斯概率分布图的高度H和宽度W为H＝W＝81；

以目标位置标注点为中心、按照第二尺寸(即159×159)对图像进行裁剪，并根据裁剪得到的像素块中的目标位置生成与该像素块大小相同的高斯概率分布图，与该像素块堆叠，得到双通道的图像，作为训练样本中的第三图像；此处所生成的高斯概率分布图的高度H和宽度W为H＝W＝159；

训练样本中的第二图像在模型训练过程中会作为搜索分支的输入，本实施例在构建训练样本中的第二图像时，通过对裁剪后的像素块进行随机平移，能够模拟目标的移动，从而能够进一步提高模型的训练效果；可选地，本实施例中，平移量满足正态分布，均值为0，方差为6，在特殊情况下，该平移量也可能为0。

根据像素块中的目标位置生成目标位置的高斯概率分布图，计算公式如下：

其中，x_i、y_i分别表示高斯概率分布图中任一像素横、纵坐标，x₀、y₀分别表示目标点的横、纵坐标，H和W分别表示高斯概率分布图的高度和宽度，σ表示高斯概率分布图的标准差；可选地，本实施例中标准差设置为0.1。

为了避免低灰度图像弱化目标特征，本实施例在对图像进行裁剪之前，还会对图像进行数据增强与灰度拉伸，具体公式如下：

其中I表示原图，

表示对数增强后的图像，

表示灰度拉伸后的图像。

应当说明的是，肝脏超声图像训练集CLUST2015仅为本发明可选的数据集，不应理解为对本发明的唯一限定，在本发明其他的一些实施例中，还可以使用其他离散标注的图像序列数据集；除了利用离散标注的图像序列构建训练数据集，本发明还可以使用连续标注的图像序列构建训练数据集，当所选用的数据集是连续标注的图像序列时，每次从图像序列中选取一张图像，并从其后的图像中随机选取两张连续的图像，按顺序分别用于构建一条训练样本中的第一图像、第三图像和第二图像，构建训练样本的方式相同。

在对图像目标跟踪模型进行测试和验证时，模板图像、搜索图像和先验图像分别由序列图像中的第一帧图像、当前帧图像和当前帧图像的前一帧图像构造而成，其中，模板图像的裁剪中心为第一帧图像中的目标位置，搜索图像和先验图像的裁剪中心为前一帧图像中的目标预测位置。

本实施例中，利用所构建的训练数据集对深度学习模型进行训练时，以训练样本中的第一图像、第二图像和第三图像为输入信息，以第二图像的目标位置概率分布图为标签信息，具体的训练过程包括如下步骤：

(S1)建立包含模板分支、搜索分支和一个互相关计算模块的孪生网络；互相关计算模块用于对模板分支提取的模板特征图和搜索分支提取的搜索分支图进行互相关运算，得到输入的搜索图像中目标位置的概率分布图；该孪生网络的结构与图1所示网络结构类似；

(S2)利用训练数据集对孪生网络进行训练，从而在训练结束后，得到模板分支和搜索分支的参数；训练迭代30次(30个epoch)，学习率设置为1e-6，Batch大小设置为32，梯度下架优化方法为Adam算法；

(S4)利用训练数据集对已设置模板分支和搜索分支的深度学习模型进行训练，在训练过程中，仅更新先验分支的参数，而不更新模板分支和搜索分支的参数；训练迭代30次(30个epoch)学习率设置为1e-6，Batch大小设置为32，梯度下架优化方法为Adam算法；

为了进一步优化模型的跟踪精度，本实施例在步骤(S1)～(S4)之后，还包括：

(S5)利用训练数据集对经步骤(S1)～(S4)训练后的深度学习模型进行二次训练，在训练过程中，对模板分支、搜索分支、先验分支和位置估计模块的参数均进行更新，由此能够起到对模型进行整体微调的效果；为了在对模型进行微调的同时不影响已有的训练效果，此训练过程中，将学习率降低一个数量级、Batch大小减半，具体地，学习率设置为1e-7，Batch大小设置为16，梯度下架优化方法为Adam算法。

为了使模型输出的响应中心更接近知识目标点位置，在以上模型训练过程中，计算损失函数时，对于距离目标越远的响应，所给予的惩罚越大，本实施例所采用的损失函数具体为：

其中，

表示目标位置的概率分布图的预测结果，y表示标签信息中的目标位置概率分布图，MSE表示均方差；本实施例基于以上表达式所计算的损失函数，是一种反距离衰减加权的均方差损失函数。

实施例2：

一种图像目标跟踪方法，包括：

获得由上述实施例1提供的图像目标跟踪模型建立方法所建立的图像目标跟踪模型，将模板图像、搜索图像和先验图像分别输入至图像目标跟踪模型的模板分支、搜索分支和先验分支，以由图像目标跟踪模型输出搜索图像中的目标位置概率分布图，将其中最大概率位置作为目标点预测位置，实现目标跟踪；

其中，对第一帧图像、当前帧图像和前一帧图像的裁剪尺寸分别与所述模板分支、所述搜索分支和所述先验分支的输入尺寸一致，分别为79×79、159×159和159×159。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的图像目标跟踪模型建立方法，和/或上述实施例2提供的图像目标跟踪方法。

以下结合对比实验结果对本发明的效果做进一步的解释说明，实验过程中采用SiameseFC网络(ECCV.2016,pp.850-865)作为对比例，以分析本发明对相似结构、边缘、阴影的抑制作用。其中对比例的学习率设置为1e-6，块大小设置为32，迭代次数设为60，其他参数设置包括数据样本的初始化、输入图像的大小等均与实施例相同。为便于描述，以下将上述实施例1所建立的图像目标检测模型简记为TripUNet网络。

图4中的(a-1)、(b-1)、(c-1)和(d-1)表示肝脏超声图像训练集CLUST 2015(https://clust.ethz.ch/data.html)中序列名分别为ETH-01-2_2、ICR-01_1、MED-01-1_3和ETH-02-1_1的实例；图4中的(a-2)、(b-2)、(c-2)和(d-2)分别表示以(a-1)、(b-1)、(c-1)和(d-1)为输入时，对比例针对输出的目标位置概率分布图；图4中的(a-3)、(b-3)、(c-3)和(d-3)分别表示以(a-1)、(b-1)、(c-1)和(d-1)为输入时，TripUNet网络输出的目标位置概率分布图；实例原图中的圆点表示目标所在位置，十字点表示相似结构。从图4中(a-1)、(b-1)所示的实例及对应的模型输出结果可以看出，对于相似结构，本发明的输出响应不受相似结构的干扰，仅在目标位置出现高概率响应；从图4中(c-1)所示实例及对应的模型输出结果可以看出，本发明可以很好屏蔽边缘等非目标结构特征；从图4中(d-1)所示的实例及模型输出结果可以看出，本发明可以不受低灰度阴影干扰。由此说明本发明提出的网络结构能够很好地避开环境干扰实现单响应输出。

进一步对SiameseFC网络和TripUNet网络的性能进行定量评估，用于评估的数据集为CLUST2015二维超声图像训练集包括CIL、ETH、ICR及MED四组序列集共24个序列、53个目标点；评估方法为5-折交叉验证；评估指标包括平均误差、方差以及95％误差，各项评估指标具体如表1所示，其中，“Total”表示四组序列集各指标的平均值。

从表1中可以看出，三个指标无论是哪一个，TripUNet都比SiameseFC网络效果更好，尤其是平均误差和方差，均只有SiameseFC网络的一半。由此可知，本发明所建立的图像目标跟踪模型，具有较高的图像目标跟踪精度。

表1.SiameseFC网络与TripUNet网络的定量评价结果

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明，例如在本实施例中使用的数据集为肝脏超声图像数据，但不应仅限于医学图像跟踪或者是二维图像、单通道图像的跟踪；又如本发明实施例中三个分支采用的骨架网络均为简化的UNet，但不代表骨架只能采用Unet，任何网络骨架，只要采用本发明的三分支网络框架，皆应落入本发明的保护范围。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像目标跟踪模型建立方法，其特征在于，包括：

建立深度学习模型，其包括先验分支、位置估计模块以及参数共享的模板分支和搜索分支；所述模板分支、所述搜索分支和所述先验分支分别以模板图像、搜索图像和先验图像为输入，用于对输入图像进行语义编码，分别得到模板特征图、搜索特征图和先验特征图；所述模板图像中目标位置已知，所述先验图像由目标位置已知的图像与对应的目标位置概率分布图堆叠而成，且所述搜索特征图与所述先验特征图形状相同；所述位置估计模块，用于将所述搜索特征图与所述先验特征图逐像素点乘后与所述模板特征图做互相关计算，并将互相关计算结果的倍率恢复至与所述搜索图像相同，得到所述搜索图像中目标位置的概率分布图；

以训练样本中的第一图像、第二图像和第三图像为输入信息，以第二图像的目标位置概率分布图为标签信息，利用所述训练数据集对所述深度学习模型进行训练，从而在训练结束后，得到所述图像目标跟踪模型。

2.如权利要求1所述的图像目标跟踪模型建立方法，其特征在于，利用所述训练数据集对所述深度学习模型进行训练，包括如下步骤：

(S1)建立包含所述模板分支、所述搜索分支和一个互相关计算模块的孪生网络；所述互相关计算模块用于对所述模板分支提取的模板特征图和所述搜索分支提取的搜索分支图进行互相关运算，得到输入的搜索图像中目标位置的概率分布图；

(S2)利用所述训练数据集对所述孪生网络进行训练，从而在训练结束后，得到所述模板分支和所述搜索分支的参数；

(S3)利用步骤(S2)得到的参数设置所述深度学习模型中的模板分支和搜索分支；

(S4)利用所述训练数据集对已设置模板分支和搜索分支的所述深度学习模型进行训练，在训练过程中，仅更新所述先验分支的参数，而不更新所述模板分支和所述搜索分支的参数。

3.如权利要求2所述的图像目标跟踪模型建立方法，其特征在于，利用所述训练数据集对所述深度学习模型进行训练，在步骤(S4)之后，还包括：

(S5)利用所述训练数据集对经步骤(S1)～(S4)训练后的所述深度学习模型进行二次训练，在训练过程中，对所述模板分支、所述搜索分支、所述先验分支和所述位置估计模块的参数均进行更新。

4.如权利要求3所述的图像目标跟踪模型建立方法，其特征在于，所述步骤(S2)、所述步骤(S4)和所述步骤(S5)中，训练学习率分别记为第一学习率、第二学习率和第三学习率，则所述第一学习率和所述第二学习率的数量级相同，且所述第三学习率相比于所述第二学习率低一个数量级。

5.如权利要求1-4任一项所述的图像目标跟踪模型建立方法，其特征在于，建立所述训练数据集，包括如下步骤：

获得已标注目标位置的图像序列；

若所述图像序列中的标注不连续，则每次从所述图像序列中随机选取3张图像，分别用于构建一条训练样本中的第一图像、第二图像和第三图像；若所述图像序列中的标注连续，则每次从所述图像序列中选取一张图像，并从其后的图像中随机选取两张连续的图像，按顺序分别用于构建一条训练样本中的第一图像、第三图像和第二图像；

构建一条训练样本的方式如下：

以目标位置标注点为中心、按照预设的第二尺寸对图像进行裁剪，对裁剪得到的像素块进行随机平移，将平移后的像素块作为训练样本中的第二图像，并根据平移后像素块中的目标位置生成与所述位置估计模块的输出图像大小相同的高斯概率分布图；

以目标位置标注点为中心、按照所述第二尺寸对图像进行裁剪，并根据裁剪得到的像素块中的目标位置生成与该像素块大小相同的高斯概率分布图，与该像素块堆叠作为训练样本中的第三图像。

6.如权利要求5所述的图像目标跟踪模型建立方法，其特征在于，还包括：

对所述图像目标跟踪模型进行测试和验证；

测试和验证时，模板图像、搜索图像和先验图像分别由序列图像中的第一帧图像、当前帧图像和当前帧图像的前一帧图像构造而成，其中，模板图像的裁剪中心为所述第一帧图像中的目标位置，搜索图像和先验图像的裁剪中心为所述前一帧图像中的目标预测位置。

7.如权利要求1-4任一项所述的图像目标跟踪模型建立方法，其特征在于，计算训练过程中的损失函数时，对于距离目标越远的响应，所给予的惩罚越大。

8.如权利要求7所述的图像目标跟踪模型建立方法，其特征在于，训练过程中的损失函数如下：

其中，

9.一种图像目标跟踪方法，其特征在于，包括：

获得序列图像中第一帧图像，以其中的目标位置为中心对所述第一帧图像进行裁剪，将裁剪得到的像素块作为模板图像；获得所述序列图像中当前帧图像的前一帧图像，以所述前一帧图像中的目标位置为中心对所述当前帧图像进行裁剪，将裁剪得到的像素块作为搜索图像；以所述前一帧图像中的目标位置为中心对所述前一帧图像进行裁剪，并根据裁剪得到的像素块中的目标位置生成相同大小的目标位置概率分布图，与该像素块堆叠作为先验图像；

获得由权利要求1-8任一项所述的图像目标跟踪模型建立方法所建立的图像目标跟踪模型，将所述模板图像、所述搜索图像和所述先验图像分别输入至所述图像目标跟踪模型的模板分支、搜索分支和先验分支，以由所述图像目标跟踪模型输出所述搜索图像中的目标位置概率分布图，将其中最大概率位置作为目标点预测位置，实现目标跟踪；

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1-8任一项所述的图像目标跟踪模型建立方法，和/或权利要求9所述的图像目标跟踪方法。