CN115661193A

CN115661193A - 基于时间上下文和信息瓶颈的超声运动跟踪方法及系统

Info

Publication number: CN115661193A
Application number: CN202211121302.5A
Authority: CN
Inventors: 孙梦雪; 黄文慧; 史云峰; 王嘉乐; 巩庆涛; 王海鹏
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-31

Abstract

本发明公开了基于时间上下文和信息瓶颈的超声运动跟踪方法及，涉及超声运动跟踪识别技术领域。通过在线时间自适应卷积神经网络获得模板图像特征与搜索图像特征，将模板图像特征与搜索图像特征进行深度相关运算，得到融合提取特征；基于信息瓶颈理论对融合提取特征进行信息提取，获得贡献分数图，对贡献分数图和输入进行计算之后得到潜在表示，对潜在表示进行卷积操作后得到与跟踪目标相关的特征图，将特征图输入时间自适应Transformer进行编码解码操作获得相似度图。将相似度图分类得到最后的跟踪结果。本发明将连续帧之间的时间上下文和信息瓶颈引入了目标跟踪，在较低的计算量下，可产生一致性的目标状态，提升了鲁棒性。

Description

基于时间上下文和信息瓶颈的超声运动跟踪方法及系统

技术领域

本发明涉及超声运动跟踪识别技术领域，尤其涉及一种基于时间上下文和信息瓶颈的超声运动跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在图像引导的肝脏肿瘤放射治疗过程中，患者的呼吸运动对治疗产生了负面影响。例如，肝区周围的呼吸运动可以达到几厘米。为了考虑到这些位置上的不确定性，往往需要在肿瘤目标周围留出过大的余量，以确保治疗效果。因此医生通常会扩大辐射边缘以确保治疗质量。然而，扩大辐射边缘会伤害周围健康组织。许多常见的治疗方案都试图通过要求病人屏住呼吸来绕过呼吸运动的影响；然而，这种策略可能会降低治疗效率，因为病人通常不能在整个治疗过程中屏住呼吸。

为了克服上述问题，超声(US)成像技术由于其高帧率、无创性、无辐射暴露和相对便宜的成本，已成为运动监测的最可接受的选择之一。这些特点使得使用超声导航成为可能，即操纵放射源跟踪肿瘤的运动，以实时预测肿瘤的位置。尽管最近利用超声图像进行呼吸运动追踪的方法发展迅速，但超声图像中的噪声和失真使其难以实现准确和强大的追踪。由于超声成像的信噪比低，要从背景中分辨出目标是很有难度的，这可能会降低追踪器的鲁棒性，导致它迅速漂移到新的地方。因此，用超声成像技术直接追踪肝脏肿瘤是非常具有挑战性的。所以我们会借助其他周围的解剖结构来进行跟踪，如动脉通常应用在肝脏运动模型中来估计肝脏肿瘤的位置。最近，在MICCAI肝脏超声追踪挑战赛(CLUST)下，基于美国成像的肝脏运动追踪算法被创建。

在过去，匹配或登记的算法经常被用来跟踪肝动脉。由于孪生网络在视觉物体跟踪中的优越性能，研究人员将孪生网络用于超声跟踪。为了提高网络的跟踪精度，Liu等人(2019)开发了一个两级级联的孪生网络，并提出了级联SiamFC方法，这帮助他们在2015年肝脏超声跟踪挑战赛(CLUST)比赛中排名第一。然而，在上述跟踪方法中，连续帧之间的时间背景被忽略，难以实时捕捉跟踪过程中的目标漂移，这导致了跟踪器的鲁棒性降低。

基于卷积神经网络(CNN)的方法是一种深度学习算法，最近在学习判别性局部特征方面取得了较好的结果，并且在性能方面优于手动创建的特征。该技术已被用于超声成像来进行物体检测和跟踪。然而发明人发现，当前大多数基于CNN的跟踪方法，常见的跟踪检测框架通常单独检测每一帧。后续帧之间的时间连接通常被忽略。众所周知，视频连续帧中包含的时间信息对于视觉跟踪至关重要。而现有技术在超声运动的跟踪过程中并未充分的利用相邻帧的时间上下文信息。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于时间上下文和信息瓶颈的超声运动跟踪方法及系统。将时间上下文引入了超声运动跟踪，通过信息瓶颈进行信息提取，提升了类孪生网络的鲁棒性，解决了现有技术中已训练的网络存在只利用一帧信息，没用充分利用相邻帧时间上下文的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于时间上下文和信息瓶颈的超声运动跟踪方法，包括以下步骤：

提取肝脏超声视频序列中的第一帧图像作为进行目标跟踪的第一帧图像，通过给出的肝脏肿瘤位置标注，得到模板图像；

将模板图像输入至训练好的在线时间自适应卷积神经网络，获得模板图像特征，即跟踪目标肝脏肿瘤的特征；

将当前肝脏超声视频帧作为搜索图像，输入至在线时间自适应卷积神经网络，获得搜索图像特征；

将模板图像特征与搜索图像特征进行深度相关运算，得到融合提取特征；

基于信息瓶颈理论对融合提取特征进行信息提取，获得贡献分数图，将贡献分数图进行计算操作之后得到潜在表示，对潜在表示进行卷积操作后得到只与肝脏肿瘤目标所在范围相关的特征图；

将特征图输入时间自适应Transformer，进行编码解码操作获得相似度图，将相似度图输入分类回归模块得到最后的跟踪结果。

进一步的，对第一帧图像进行处理，得到模板图像的具体步骤为：对第一帧图像中需要进行跟踪的肝脏肿瘤位置进行标定，并对目标外观模型参数进行初始化，得到模板图像。

进一步的，在线时间自适应卷积神经网络训练过程包括：将当前肝脏超声视频帧的特征输入全局平均池化层获得当前帧的描述符；

将当前帧的描述符和前几帧的描述符进行连接，获取了时间信息；

接下来进行两次卷积操作，获得时间校准因子，进行卷积计算，获得时间校准之后的特征。

更进一步的，训练在线时间自适应卷积神经网络，根据时间上下文准确判断目标位置。

进一步的，基于信息瓶颈理论对融合提取特征进行信息提取的具体步骤为：

将上一步输出的特征图，输入信息瓶颈，进行信息交互；

对输入进行采样计算得到贡献分数图，从该图中导出均值和方差；

贡献分数图限制了信息流，迫使模型对判别信息进行局部化；

通过一个正拉格朗日乘数，控制了标签和使用来自输入的少量信息之间的平衡；

计算互信息，最大化潜在表示和标签之间的互信息，并最小化输入和潜在表示之间的互信息。

对潜在表示进行卷积操作，得到输出特征图，使肿瘤所在位置特征贡献分数更高，突出肿瘤位置。

进一步的，将特征图输入时间自适应Transformer，进行编码解码操作获得相似度图的具体步骤为：编码器用于传递的时间先验知识；将上一帧的时间先验知识和当前帧的特征图输入编码器，输入多头注意力层和过滤层进行信息过滤之后，得到时间先验知识，最终时间先验知识是通过进一步将多头注意力层附加到过滤后的信息来获得的；

更进一步的，解码器用于优化相似度图；采用了两个在输出前具有编码器输出的多头注意力层，可以提取时间先验知识中的有效信息，对相似度图进行细化，得到最终输出结果。

本发明第二方面提供了一种基于时间上下文和信息瓶颈的超声运动跟踪系统，包括：

自适应卷积神经网络模块，被配置为提取肝脏超声视频序列中的第一帧图像作为进行肿瘤目标跟踪的第一帧图像，对第一帧图像进行处理，得到模板图像；

第一提取模块，被配置为将模板图像输入至训练好的在线时间自适应卷积神经网络，获得模板图像特征；

第二提取模块，被配置为将当前帧作为搜索图像，输入至在线时间自适应卷积神经网络，获得搜索图像特征；

融合模块，被配置为将模板图像特征与搜索图像特征进行深度相关运算，得到融合提取特征；

特征细化模块，被配置为基于信息瓶颈理论对融合提取特征进行信息提取，获得贡献分数图，将贡献分数图进行计算操作之后得到潜在表示，对潜在表示进行卷积操作后得到只与肝脏肿瘤目标所在范围相关的特征图；

相似度图细化模块，被配置为将特征图输入时间自适应Transformer，进行编码解码操作获得相似度图；

分类回归模块，被配置为对相似度图分类得到最后的跟踪结果。

本发明第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于时间上下文和信息瓶颈的超声运动跟踪方法中的步骤。

本发明第四方面提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于时间上下文和信息瓶颈的超声运动跟踪方法中的步骤。

上述本发明的实施例的有益效果如下：

本发明针对已训练的网络存在只利用一帧信息，没用充分利用相邻帧时间上下文的问题，提出了一种基于时间上下文和信息瓶颈的超声运动跟踪方法及系统，将信息瓶颈引入了目标跟踪，并提出了包含自适应时间卷积神经网络和自适应时间Transformer的目标跟踪网络模型。

本发明也是首次在超声跟踪任务的特征提取过程中集成时间上下文的，结合了肝脏超声视频网络模型，能较为准确的检测出肝脏肿瘤，大大提高了肿瘤的检出率。

另一方面，在整个跟踪过程中固定占用时间先验知识，与需要保存所有中间时间信息的方法相比，本发明的网络内存效率更高。由于不断更新每一帧的时间先验知识，本发明所提出的方法在当存在模糊性的帧需要多种合理的假设时，可以仅用较低的计算量产生多种一致性的目标状态。总的来说，由于这种策略以及时间滤波器和多头注意力，本发明的时间自适应Transformer以一种内存有效的方式自适应地编码时间先验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一基于时间上下文和信息瓶颈的超声运动跟踪方法的流程示意图。

图2为本发明实施例一在线自适应时间卷积网络示意图。

图3为本发明实施例一在线自适应时间Transformer示意图。

图4为本发明实施例一基于信息瓶颈理论进行信息提取的流程示意图。

图5为本发明实施例一CLUST 2015数据集示例图。

图6为本发明实施例一CLUST 2015数据集上的跟踪器的实验结果图。

具体实施方式：

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

现实世界的视频总是有一些包含嘈杂内容的帧，包括有一些模糊的对象。当用作模板或搜索框架时，这些有缺陷的框架将阻碍模型更新并给跟踪带来困难。所以跨帧传递丰富的时间信息以便它们可以相互加强是一个难题，现有技术不应孤立地查看单个帧，并且不考虑逐帧关系会严重限制性能。因此，通过合并例如来自前一帧的数据和历史训练集的一部分来考虑运动的连续性是很重要的。针对上述问题，需要在视觉跟踪任务中引入时间信息。为了使用视频帧之间的时间信息并将连续的视频帧链接在一起，为了实现这个功能，本发明采用了Transformer。

Transformer是一种在基于注意力机制的编码器和解码器的帮助下将一个序列转换为另一个序列的架构。自注意力机制查看输入序列，并在每个步骤中确定序列的哪些其他部分是重要的，因此有助于从输入序列中捕获全局信息。多头注意力层由多个自注意力模块组成，更综合的考虑了多个方面的特征。由于多头注意力机制和自注意力机制的使用，Transformer还展示了跨多个帧提供鲁棒全局推理的能力。因此，Transformer已成功用于一般对象跟踪。

本发明将信息瓶颈引入了目标跟踪，并提出了包含Transformer的目标跟踪网络模型，以产生准确的跟踪结果。其中，Template Image表示模板图像，Search Image表示搜索图像，TAdaCNN表示卷积层网络，Temp-Trans Encoder表示编码器，Temp-Trans Decoder表示解码器。

首先，提取视频序列中的某一帧图像作为进行目标跟踪的第一帧图像，视频序列可以为超声跟踪肝脏肿瘤等场景中拍摄的视频。之后，对图像中需要进行跟踪的目标物体进行标定。并对目标外观模型参数进行初始化，跟踪目标可以为图像中的单个肿瘤。之后进入下一帧，采用本公开提出的方法进行目标跟踪。下面对跟踪方法进行详细说明。

实施例一：

本发明实施例一提供了一种基于时间上下文和信息瓶颈的超声运动跟踪方法，如图1所示，包括以下步骤：

步骤1：提取视频序列中的第一帧图像作为进行目标跟踪的第一帧图像，对第一帧图像进行处理，得到模板图像。

步骤2：对第一帧图像中需要进行跟踪的目标物体进行标定，并对目标外观模型参数进行初始化，得到模板图像。

步骤3：将模板图像输入至训练好的在线时间自适应卷积神经网络，获得模板图像特征。

步骤4：将当前帧作为搜索图像，输入至在线时间自适应卷积神经网络，获得搜索图像特征。

步骤5：将模板图像特征与搜索图像特征进行深度相关运算，得到融合提取特征。

步骤6：基于信息瓶颈理论对融合提取特征进行信息提取，获得贡献分数图，将贡献分数图进行计算操作之后得到潜在表示，对潜在表示进行卷积操作后得到只与肝脏肿瘤目标所在范围相关的特征图。

步骤7：将特征图输入时间自适应Transformer模块，进行编码解码操作获得相似度图，将相似度图进输入分类回归模块，确定了肝脏肿瘤的具体位置，得到最后的跟踪结果。

优选的，以肝脏肿瘤的定位为例，视频序列可以为超声跟踪肝脏肿瘤等场景中拍摄的视频。

优选的，特征是通过前一帧动态校准的卷积权重提取的。由于在线自适应卷积神经网络中的校准是基于前一帧中特征的全局描述符，因此显着提高了跟踪性能。

优选的，将融合提取特征基于信息瓶颈理论进行信息提取，通过采样操作得到贡献分数图η，贡献分数图η限制了信息流，迫使模型对判别信息进行局部化，

其中，

表示逐元素相乘，X表示信息瓶颈的输入，Z表示潜在表示，ε表示与X具有相同的均值和方差的噪声，以保持下一层输入的幅度，它控制信号的阻尼和噪声的添加。

在进行目标位置预测，即进行目标跟踪之前，需要对整个神经网络进行训练。如图2所示，训练过程中，除获取模板图像特征、搜索图像特征之后，需要将模板图像特征与搜索图像特征进行深度相关运算，得到融合提取特征，R_k＝φ_tada(Z)*φ_tada(X_k)。其中R_k为第K帧的融合提取特征，Z为输入的模板，*为深度相关运算，X_k为第K帧搜索图像，φ_tada表示时间自适应卷积神经网络。

作为进一步的技术方案，在线时间自适应卷积神经网络训练过程包括：将当前帧的特征输入全局平均池化层获得当前帧的描述符；

作为进一步的技术方案，搜索图像相似度图的获得过程具体为：训练所提出的时间自适应Transformer的目标是根据上一帧的时间先验知识和当前帧的特征图，输入编码器的多头注意力层和过滤层，进行信息过滤之后经过信息过滤得到当前帧的时间先验知识，将得到的当前帧的时间先验知识和当前帧的特征图输入解码器，补充一些可能会丢失的重要信息，得到最终的图像相似度图，使之可以准确判断目标位置，训练过程遵循标准Transformer的训练过程，如图3所示。

与训练确定的孪生模型不同的是，本实施例中所提出的网络模型需要进一步建立一个有效获得目标信息的信息瓶颈模块。因此，本实施例采用了信息瓶颈以输入信息，输出贡献分数图和潜在表示，μ_x为均值，σ_x为方差，ε为添加的噪声与输入X相符，可进行逐元素相乘相加计算。此外，采用KL散度来计算概率之间的距离，得到最终的结果。

在时间自适应神经网络训练过程中，通过将在线自适应时间神经网络中

模板图像特征Z与搜索图像特征进行深度相关卷积运算，模板Z通过在线自适应时间神经网络产生特征

当前目标帧X_k通过在线自适应时间神经网络产生特征

因此，本实施例提出的网络模型能够产生一个融合全部时间上下文的网络，可以获得多种合理的跟踪结果。

作为进一步的技术方案，信息瓶颈理论对融合提取特征进行信息提取具体过程为：

将上一步输出的特征图，输入信息瓶颈，进行信息交互；

如图4所示，信息瓶颈引入了另一个随机变量Z，它是通过压缩输入X得到的。Z是通过优化条件概率分布p(Y|X)计算得到的，只包含与Y相关的输入信息。为了计算最优解，信息瓶颈最大化潜在表示Z和标签Y之间的互信息，并最小化张量X和Z之间的互信息。

minIB_βp(Z|X)＝I(Y；Z)-βI(X；Z)

β是一个正的拉格朗日乘数，它控制了很好地预测标签和使用关于X的少量信息之间的平衡。在本实施例的方法中，Z不是直接从X计算的，而是通过对输入X进行采样计算得到贡献分数图η，从该图中导出μ_X和σ_X。贡献分数图η限制了信息流，迫使模型对判别信息进行局部化，得到潜在表示Z，可以表示为：

其中采用了逐元素乘法，并且ε是具有与X相同的均值μ_X和标准偏差σ_X的噪声，控制信号的阻尼和噪声的添加，以保持下一层输入的幅度。对于每个维度i，η_i∈[0,1]，这表明当η_i＝1时，原始表示中没有注入噪声。为了简化训练过程，设置η_i＝σ(θ_i)，其中σ是sigmoid函数，θ表示可学习参数。在没有肿瘤的情况下，X中的所有信息都被噪声替换。

I(X,Z)＝E_X[D_KL(P(Z|X)||P(Z))]

为了获得最优的表示Z，需要最小化X和Z之间的互信息来限制信息的流动。其中采用了D_KL代表Kullback-Leibler散度，P(·)是概率分布。因为没有解析表达式，所以计算P(Z)很棘手。因此，采用变分逼近Q(Z)＝N(μ_X,σ_X)来逼近P(Z)。

I(X,Z)＝E_X[D_KL(P(Z|X)||Q(Z))]-D_KL(P(Z)||Q(Z))

作为进一步的技术方案，基于传统的Transformer结构，分为编码器和解码器两部分，其中编码器旨在整合时间知识，而解码器侧重于相似性细化。将特征图进行编码解码操作获得相似度图的具体步骤为：将上一帧的时间先验知识和当前帧的特征图输入编码器，输入多头注意力层和过滤层进行信息过滤之后，得到时间先验知识。

两个多头注意力层过程为下式所示

过滤层过程为下式所示

其中，MulitHead()表示多头注意力模块，FFN()表示前馈网络，

表示第k-1帧的时间先验知识，F_k为第k帧的特征图，Norm()为残差模块，GAP()表示全局平均池化。

将当前帧的时间先验知识和当前帧的特征图输入解码器，进入多头注意力层，最终得到当前帧的相似度图，如下式所示：

其中，MulitHead()表示多头注意力模块，FFN()表示前馈网络，

表示第k帧的相似度图，

表示第k帧的时间先验知识。

为了增强信息提取，在时间信息过滤器之前覆盖两个多头注意力层。然后将多头注意力层添加到处理后的知识中，以产生最终获得的时间先验知识，在传递时间信息时过滤了一些不需要的上下文。

本实施例中，编码器用于传递的时间先验知识，解码器用于优化相似度图；为了更彻底地检查当前空间特征和时间信息之间的相互作用，在输出之前，使用了两个多头注意力层。可以使用注意力图恢复来自时间知识的有效数据，然后可以改进相似度图以提供所需的结果。

本实施例1中使用CLUST 2015的数据集进行测试，如图5所示，并与这个数据集上的其他最新方法进行比较。

作为指标，采用跟踪误差的平均值(Mean)，标准偏差(Std)，第95个百分位数(TE95th)作为度量。该数据集包含63个2-D肝脏超声图像序列，这些图像序列是在自由呼吸下从健康志愿者那里获得的。五台超声图像扫描仪和六种类型的传感器被用来收集数据。每个图像序列的范围从4秒到大约10分钟。时间分辨率范围从6到31Hz。图像的空间分辨率范围从0.27mm×0.27mm到0.77mm×0.77mm。大约38％的图像序列带有多帧注释作为训练集，其余62％(39/63)的图像序列作为测试集发布，其中注释是仅适用于第一帧。每个图像序列最多注释四个目标。尽管为单个图像序列提供了多个目标，但挑战一次只需要单个对象跟踪，而不是多对象跟踪。训练集中一共标注了53个目标，共标注了85个目标测试集。此外，测试集中大约10％的图像由三位不同的观察者手动注释，并由另一位观察者进行评测。

所有实验均在配备i5四核2.59GHz CPU，8GB RAM和GTX 1070 GPU的PC上进行。本实施例3中提出的跟踪器的平均执行速度为每秒33帧(FPS)。

如图6所示，将CLUST 2015数据集上的跟踪器的实验结果在表1中表示，

本实施例的工作在CLUST 2D测试集上的总体准确度为1.35±3.24mm所提出的模型对所有超声组执行一致。在CLUST数据集中，序列持续时间最长的ETH组的平均跟踪误差较低。因此，被证明对长时间跟踪病例具有鲁棒性，这在影像引导放射治疗的临床实践中具有重要意义。

表1.在CLUST 2015数据集上的结果表

Data	Number	Mean(mm)	Std(mm)	TE95th(mm)
					CIL	06	1.10	0.85	2.75
ETH	30	1.62	3.48	2.58
					ICR	13	1.14	1.73	5.18
MED1	27	1.78	2.86	5.81
					MED2	09	1.45	1.84	6.33
Overall	85	1.35	3.24	4.11

表2.跟踪方法结果对比表

Methods	Mean(mm)	Std(mm)	TE95th(mm)
				No tracking	6.25	5.11	16.48
Liu.，et al.	0.69	0.67	1.57
				Shepard et al.	0.72	1.25	1.71
Williamson et al.	0.74	1.03	2.82
				Hallack et al.	1.21	3.17	1.85
Makhinya Goksel	1.44	2.80	3.62
				ours	1.35	3.24	4.11
Ihle et al.	2.48	5.09	15.13
				Kondo et al.	2.91	10.52	5.18
Nuori and Rothberg	3.35	5.21	14.19

表2展示了本实施例的方法与测试集上其他最先进的方法和人类观察者的比较。在给定的表中，No Tracking行表示没有使用跟踪方法，并且初始帧上可用的界标位置用于预测后续帧中的界标。这一行表明图像引导放射治疗的对象跟踪方法的必要性。II中的小组提出了基于CNN的方法和传统方法，例如块匹配、光流、基于相关滤波器的匹配和基于SIFT的特征匹配。基于CNN的方法的优势在于它们能够学习分层特征。此外，非线性允许学习复杂的特征，从而实现准确的匹配。本实施例的方法不只是基于传统的CNN和传统的Transformer，我们的优势在于在这两方面都融合了时间上下文，对上几帧的时间信息进行充分利用，在这个过程中因为能够更好的确定目标的位置，所以计算量会减少，使内存效率提高。并且本实施例的工作中加入了信息瓶颈，使无效信息量减少，突出了跟踪目标的有效信息，使跟踪方法更加有效。

实施例二：

本发明实施例二提供了一种基于时间上下文和信息瓶颈的超声运动跟踪系统，包括：

自适应卷积神经网络模块，被配置为提取视频序列中的第一帧图像作为进行目标跟踪的第一帧图像，对第一帧图像进行处理，得到模板图像；

实施例三：

本发明实施例三提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例一所述的基于时间上下文和信息瓶颈的超声运动跟踪方法中的步骤。

实施例四：

本发明实施例四提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例一所述的基于时间上下文和信息瓶颈的超声运动跟踪方法中的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，包括以下步骤：

提取视频序列中的第一帧图像作为进行目标跟踪的第一帧图像，对第一帧图像进行处理，得到模板图像；

将模板图像输入至训练好的在线时间自适应卷积神经网络，获得模板图像特征；

将当前帧作为搜索图像，输入至在线时间自适应卷积神经网络，获得搜索图像特征；

2.如权利要求1所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，对第一帧图像进行处理，得到模板图像的具体步骤为：对第一帧图像中需要进行跟踪的目标物体进行标定，并对目标外观模型参数进行初始化，得到模板图像。

3.如权利要求1所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，在线时间自适应卷积神经网络训练过程包括：将当前帧的特征输入全局平均池化层获得当前帧的描述符；

4.如权利要求3所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，训练所提出的网络的目标是根据时间上下文准确判断目标位置。

5.如权利要求1所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，基于信息瓶颈理论对融合提取特征进行信息提取的具体步骤为：

将上一步输出的特征图，输入信息瓶颈，进行信息交互；

6.如权利要求1所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，将特征图进行编码解码操作获得相似度图的具体步骤为：将当前帧的特征图输入编码器，进行信息过滤之后，得到时间先验知识；

将时间先验知识输入解码器，经过信息解压，获得相似度图。

7.如权利要求6所述的基于时间上下文和信息瓶颈的超声运动跟踪方法，其特征在于，编码器用于传递的时间先验知识，解码器用于优化相似度图；为了更彻底地检查当前空间特征和时间信息之间的相互作用，在输出之前，使用了两个多头注意力层；使用注意力图恢复来自时间知识的有效数据，改进相似度图以提供所需的结果。

8.一种基于时间上下文和信息瓶颈的超声运动跟踪系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的基于时间上下文和信息瓶颈的超声运动跟踪方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的基于时间上下文和信息瓶颈的超声运动跟踪方法。