CN117809025A

CN117809025A - 基于注意力网络的目标跟踪方法、装置、设备及存储介质

Info

Publication number: CN117809025A
Application number: CN202410232969.5A
Authority: CN
Inventors: 李佩霞; 陈宇; 张如高; 虞正华
Original assignee: Shenzhen Magic Vision Intelligent Technology Co ltd
Current assignee: Shenzhen Magic Vision Intelligent Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-02
Anticipated expiration: 2044-03-01
Also published as: CN117809025B

Abstract

本发明涉及数据处理技术领域，公开了一种基于注意力网络的目标跟踪方法、装置、设备及存储介质，包括：获取视频中的目标图像块以及对应的搜索区域图像块；对目标图像块进行特征提取，得到图像特征，图像特征包括图像块特征及对应的图像位置特征；对搜索区域图像块进行特征提取，得到区域图像特征，区域图像特征包括区域图像块特征及对应的区域图像位置特征；将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征；基于目标图像特征得到目标图像框，以进行目标的跟踪。该方法可以提高视觉目标跟踪的效率与可靠性。

Description

基于注意力网络的目标跟踪方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于注意力网络的目标跟踪方法、装置、设备及存储介质。

背景技术

视觉目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务。

在目标跟踪的过程中，需先利用孪生网络提取目标特征和搜索区域特征，再通过两特征交叉相关生成的响应图进行目标定位。由于孪生网络复杂的结构特性，因此在目标跟踪的过程中存在效率低下且跟踪成本较高的状况。

发明内容

有鉴于此，本发明提供了一种基于注意力网络的目标跟踪方法、装置、设备及存储介质，以解决相关技术中视觉目标跟踪效率低的问题。

第一方面，本发明提供了一种基于注意力网络的目标跟踪方法，该方法包括：

获取视频中的目标图像块以及对应的搜索区域图像块；

对所述目标图像块进行特征提取，得到图像特征，所述图像特征包括图像块特征及对应的图像位置特征；

对所述搜索区域图像块进行特征提取，得到区域图像特征，所述区域图像特征包括区域图像块特征及对应的区域图像位置特征；

将所述图像特征与所述区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征；

基于所述目标图像特征得到目标图像框，以进行目标的跟踪。

在一些可选的实施方式中，所述获取视频中的目标图像块以及对应的搜索区域图像块，包括：

获取视频流中任意一视频的目标图像帧；

识别所述目标图像帧中的目标；

基于所述目标确定所述目标图像块以及对应的所述搜索区域图像块。

在一些可选的实施方式中，所述对所述目标图像块进行特征提取，得到图像特征，包括：

将所述目标图像块划分为多个子图像块；

将多个所述子图像块级连后通过全连接层进行特征提取，得到图像块特征；

对多个所述子图像块进行位置编码得到图像位置特征；

将所述图像块特征与所述图像位置特征拼接，得到所述图像特征。

在一些可选的实施方式中，所述对所述搜索区域图像块进行特征提取，得到区域图像特征，包括：

将所述搜索区域图像块划分为多个子区域图像块；

将多个所述子区域图像块级连后通过全连接层进行特征提取，得到区域图像块特征；

对多个所述子区域图像块进行位置编码得到区域图像位置特征；

将所述区域图像块特征与所述区域图像位置特征拼接，得到所述区域图像特征。

在一些可选的实施方式中，对多个所述子图像块进行位置编码得到图像位置特征，包括：

获取每个所述子图像块的图像信息，所述图像信息包括所述子图像块的位置、信息量以及编码标志位，所述信息量用于表征所述子图像块与目标图像框相交区域，在所述目标图像框与所述子图像块相并区域上的占比；

将所述图像信息输入全连接层进行位置编码，得到所述图像位置特征。

在一些可选的实施方式中，对多个所述子区域图像块进行位置编码得到区域图像位置特征，包括：

对多个所述子区域图像块进行正余弦位置编码，得到位置特征；

获取与所述位置特征等大的全零向量；

将所述位置特征与所述全零向量进行级连后，输入全连接层，得到所述区域图像位置特征。

获取目标数据库中任意一视频的第一图像帧及第二图像帧；

识别所述第一图像帧中的目标，得到所述目标图像块；

识别所述第二图像帧的所述目标，得到所述搜索区域图像块。

第二方面，本发明提供了一种基于注意力网络的目标跟踪装置，所述装置包括：

图像块获取模块，用于获取视频中的目标图像块以及对应的搜索区域图像块；

第一特征提取模块，用于对所述目标图像块进行特征提取，得到图像特征，所述图像特征包括图像块特征及对应的图像位置特征；

第二特征提取模块，用于对所述搜索区域图像块进行特征提取，得到区域图像特征，所述区域图像特征包括区域图像块特征及对应的区域图像位置特征；

目标特征提取模块，用于将所述图像特征与所述区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征；

目标跟踪模块，用于基于所述目标图像特征得到目标图像框，以进行目标的跟踪。

第三方面，本发明提供了一种计算机设备，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行上述第一方面或其对应的任一实施方式的基于注意力网络的目标跟踪方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于注意力网络的目标跟踪方法。

本发明实施例提供的技术方案，通过获取视频中的目标图像块以及对应的搜索区域图像块；对目标图像块进行特征提取，得到图像特征，对搜索区域图像块进行特征提取，得到区域图像特征；将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征，以实现图形特征与区域图像特征之间的信息交互，进而提升特征提取的效率及可靠性；通过基于目标图像特征得到目标图像框，以进行目标的跟踪，提高了目标追踪的准确性和稳定性。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于注意力网络的目标跟踪方法的流程示意图；

图2是本发明实施例的基于注意力网络的目标跟踪方法的特征提取示意图；

图3是本发明实施例的基于注意力网络的目标跟踪方法的位置编码示意图；

图4是本发明实施例的基于注意力网络的目标跟踪方法的数据流图；

图5是本发明实施例的基于注意力网络的目标跟踪方法与相关技术的第一比对效果图；

图6是本发明实施例的基于注意力网络的目标跟踪方法的与相关技术的第二比对效果图；

图7是本发明实施例的基于注意力网络的目标跟踪方法的跟踪效果图；

图8是本发明实施例的基于注意力网络的目标跟踪装置的结构框图；

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在视觉目标跟踪的相关技术中，大部分深度单目标跟踪算法都基于孪生网络的结构，即先利用主干网络提取目标特征和搜索区域特征，再通过两特征交叉相关生成的响应图进行目标定位，或者将交叉相关后的特征送入RPN网络来提高定位和尺度估计的准确性，引入的注意力网络来替换交叉相关，加强了追踪框架中的信息交互能力。由于以上方法包含主干网络，交互模块和定位头的单目标跟踪框架，该框架较为繁琐，且需要单目标跟踪的专家知识来进行设计，因此在目标跟踪的过程中存在效率低下且跟踪成本较高的状况。

基于此，本发明实施例提供了一种基于注意力网络的目标跟踪方法、装置、设备及存储介质，通过获取视频中的目标图像块以及对应的搜索区域图像块；对目标图像块进行特征提取，得到图像特征，对搜索区域图像块进行特征提取，得到区域图像特征；将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征，以实现图形特征与区域图像特征之间的信息交互，进而提升特征提取的效率及可靠性；通过基于目标图像特征得到目标图像框，以进行目标的跟踪，提高了目标追踪的准确性和稳定性。

在本实施例中提供了一种基于注意力网络的目标跟踪方法，可用于上述的计算机设备中，图1是根据本发明实施例的基于注意力网络的目标跟踪方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取视频中的目标图像块以及对应的搜索区域图像块。

其中，目标图像块域是基于视频流中的目标图像帧确定，搜索区域图像块是基于目标图像块的轮廓确定。

在一些可选的实施方式中，获取视频中的目标图像块以及对应的搜索区域图像块时，可以先获取视频流中任意一视频的目标图像帧；识别目标图像帧中的目标；基于目标确定目标图像块以及对应的搜索区域图像块。

具体的，针对视频流中的任意一视频，可以在该视频的第一图像帧根据目标真值识别第一图像帧中的目标，然后以目标为中心确定目标图像块，然后在其他图像帧上抠取对应的搜索区域图像块。其中，目标真值是指严密包裹目标的矩形目标框（x,y,w,h)，(x,y)为左上角位置，(w,h)为宽度和高度。搜索区域图像块的面积为目标图像块的目标倍数，该目标倍数的范围为2~5倍。在其他实施例中，还可以将第一图像帧直接作为搜索区域图像块。

当然，上述的示例仅仅是一些可选的实施方式，并不限定本发明的保护范围，具体应用方式是根据实际场景设置的，在此对其并不做任何限定。

步骤S102，对目标图像块进行特征提取，得到图像特征。

其中，图像特征包括图像块特征及对应的图像位置特征，图像位置特征用于表征目标图像块中各子图形块的位置。

在一些可选的实施方式中，对目标图像块进行特征提取，得到图像特征时，可以将目标图像块划分为多个子图像块；将多个子图像块级连后通过全连接层进行特征提取，得到图像块特征；对多个子图像块进行位置编码得到图像位置特征；将图像块特征与图像位置特征拼接，得到图像特征。

具体的，请参阅图2，将目标图像块Z划分为多个，如9个k×k大小的子图像块，k越小，图像保留的细粒度特征越多，但计算量越大。然后，级连这些子图像块，并通过全联接层（Fully-connected layers）提取每个子图像块的特征，以得到每个子图像块的特征，基于每个子图像块的特征，得到目标图像块的图像块特征。其中全连接层的层数可以基于实际需求进行确定。同时，为了提升各个子图像块与搜索区域图像块进行信息交互的准确性，可以对多个子图像块进行位置编码得到图像位置特征。通过将图像块特征与图像位置特征拼接，得到图像特征，以进一步提升图像特征与区域图像特征之间特征交互的便捷性及可靠性。

在一些可选的实施方式中，对多个子图像块进行位置编码得到图像位置特征时，首先获取每个子图像块的图像信息，图像信息包括子图像块的位置、信息量以及编码标志位，信息量用于表征子图像块与目标图像框相交区域，在目标图像框与子图像块相并区域上的占比；将图像信息输入全连接层进行位置编码，得到图像位置特征。

具体的，请参阅图3，将每个图像块的图像信息包括子图像块的位置（x,y）、信息量IoU以及编码标志位1，即图像信息（x,y,IoU，1）包括图像块的空间位置信息（x,y），如图3中处于第三行第四列的图像块，则x=3,y=4；IoU值=子图像块与目标图像框（第三行及第四行实线框）相交的区域面积/子图像块与目标图像框相并的区域面积，如图3中的第四行第二列的图像块，它的IoU值为0.6。用同样的方法计算每一个子图像的（x,y,IoU，1），1用来标志目标图像块编码，并把它们送入全联接层进行位置编码，得到与图像特征等大的图像位置特征。

步骤S103，对搜索区域图像块进行特征提取，得到区域图像特征。

其中，区域图像特征包括区域图像块特征及对应的区域图像位置特征，区域图像位置特征用于表征区域图像块中各子区域图像块的位置。

在一些可选的实施方式中，对搜索区域图像块进行特征提取，得到区域图像特征时，可以将搜索区域图像块划分为多个子区域图像块；将多个子区域图像块级连后通过全连接层进行特征提取，得到区域图像块特征；对多个子区域图像块进行位置编码得到区域图像位置特征；将区域图像块特征与区域图像位置特征拼接，得到区域图像特征。

具体的，可以将搜索区域图像块X划分为多个，如12个k×k大小的子图像块，k越小，图像保留的细粒度特征越多，但计算量越大。然后，级连这些子区域图像块，并通过全联接层（Fully-connected layers）提取每个子区域图像块的特征，以得到每个子区域图像块的特征，基于每个子区域图像块的特征，得到搜索区域图像块的区域图像特征。其中全连接层的层数可以基于实际需求进行确定。同时，为了提升各个子区域图像块与目标图像块进行信息交互的准确性，可以对多个子区域图像块进行位置编码得到区域图像位置特征。通过将区域图像块特征与区域图像位置特征拼接，得到区域图像特征，以进一步提升图像特征与区域图像特征之间特征交互的便捷性及可靠性。

在一些可选的实施方式中，对多个子区域图像块进行位置编码得到区域图像位置特征时，可以对多个子区域图像块进行正余弦位置编码，得到位置特征；获取与位置特征等大的全零向量；将位置特征与全零向量进行级连后，输入全连接层，得到区域图像位置特征。

具体的，可以基于正余弦位置编码的方式对多个子区域图像块进行正余弦位置编码，得到位置特征，而后级连同位置特征等大的全0向量，将级连后的特征送入全联接层变回来，输出与区域图像特征等大的区域图像位置特征。

步骤S104，将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征。

具体的，将图像特征与区域图像特征级连后，输入注意力网络中的注意力模块进行特征提取和信息交互，进而得到目标图像特征。

示例性的，设图像特征Z的特征维度为(N1,D)，区域图像特征X的特征维度为（N2,D)，那么级连就是把区域图像特征X按照第一维度连在图像特征Z的后面，得到（N1+N2,D)的特征，进而一起送入注意力网络，注意网络则可以对这N1+N2个特征做信息交互。由于级连后的特征既包含了图像特征和区域图像特征，因此实现了图像特征和区域图像特征的信息交互。

步骤S105，基于目标图像特征得到目标图像框，以进行目标的跟踪。

具体的，将目标图像特征输入神经元网络，得到目标图像框，以进行目标的跟踪，从而提高了目标跟踪的准确性及效率。其中，该神经元网络包括多层卷积层。

本发明实施例提供的基于注意力网络的目标跟踪方法，通过获取视频中的目标图像块以及对应的搜索区域图像块；对目标图像块进行特征提取，得到图像特征，对搜索区域图像块进行特征提取，得到区域图像特征；将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征，以实现图形特征与区域图像特征之间的信息交互，进而提升特征提取的效率及可靠性；通过基于目标图像特征得到目标图像框，以进行目标的跟踪，提高了目标追踪的准确性和稳定性。

下面以一具体示例详细说明本申请实施例提供的基于注意力网络的目标跟踪方法的流程。

请参阅图4，在对某一视频进行在线目标跟踪时，针对该视频的第一帧进行首次跟踪时：首先，在视频的第一图像帧上基于跟踪的目标抠取目标图像块Z，然后在其他图像帧上抠取对应的搜索区域图像块X。

其次，通过注意力网络的全连接层对目标图像块的多个子图像块进行特征提取，得到图像块特征；通过注意力网络的编码器对目标图像块的多个子图像块进行位置编码得到图像位置特征，基于区域图像块特征及对应的区域图像位置特征得到目标图像块的区域图像特征。

具体的，请参阅图2，将目标图像块Z划分为多个，如9个k×k大小的子图像块，k越小，图像保留的细粒度特征越多，但计算量越大。然后，级连这些子图像块，并通过全联接层（Fully-connected layers）提取每个子图像块的特征，以得到每个子图像块的特征，基于每个子图像块的特征，得到目标图像块的图像块特征。

进一步地，请参阅图3，通过编码器将每个图像块的图像信息包括子图像块的位置（x,y）、信息量IoU以及编码标志位1，即图像信息（x,y,IoU，1）包括图像块的空间位置信息（x,y），如图3中处于第三行第四列的图像块，则x=3,y=4；IoU值=子图像块与目标图像框（第三行及第四行实线框）相交的区域面积/子图像块与目标图像框相并的区域面积，如图3中的第四行第二列的图像块，它的IoU值为0.6。用同样的方法计算每一个子图像的（x,y,IoU，1），1用来标志目标图像块编码，并把它们送入全联接层进行位置编码，得到与图像特征等大的图像位置特征。

接着，通过注意力网络的全连接层对搜索区域图像块的多个子区域图像块进行特征提取，得到区域图像块特征；通过注意力网络的编码器，对搜索区域图像块的多个子区域图像块进行位置编码，得到区域图像位置特征；基于区域图像块特征及对应的区域图像位置特征，得到搜索区域图像块的区域图像特征。

具体的，将搜索区域图像块X划分为多个，如12个k×k大小的子图像块，k越小，图像保留的细粒度特征越多，但计算量越大。然后，级连这些子区域图像块，并通过全联接层（Fully-connected layers）提取每个子区域图像块的特征，以得到每个子区域图像块的特征，基于每个子区域图像块的特征，得到搜索区域图像块的区域图像特征。

进一步地，通过该编码器使用正余弦位置编码的方式对多个子区域图像块进行正余弦位置编码，得到位置特征，而后级连同位置特征等大的全0向量，将级连后的特征送入全联接层变回来，输出与区域图像特征等大的区域图像位置特征。

最后，将图像特征与区域图像特征级连后，输入注意力网络中的注意力模块（包括自注意力模块self-attention和前向网络feed-forward network，其中前向传播网络主要由全联接层构成）进行特征提取，进而得到目标图像特征。再将目标图像特征输入神经元网络（包括多层卷积层，如可以为3层卷积层），得到目标图像框，以进行目标的跟踪，从而提高了目标跟踪的准确性及效率。其中，该神经元网络包括多层卷积层。

进一步地，请参阅图5，为本实施例（本专利方法）与相关技术（基准算法）在公开数据集LaSOT上的准确度比较，其中注意力网络结构，包括(ViT_B, k=32)、(ViT_B, k=16)和(ViT_L, k=14)，其中32，16，14为划分的子图像块的大小k。网络计算量从左到右逐渐增加。本实施例在各种注意力网络结构的情况下都能取得比相关技术高的准确度，且在不同网络结构下均具有良好的泛化性能。

进一步地，请参阅图6，为本实施例网络框架和区分性位置编码在公开数据集TNL2K上准确度比较，以上实验基于(ViT_B,k=32)注意力网络。黑色代表相关技术（基准），如果我们将相关技术中的网络结构换成本实施例的网络结构（专利框架），跟踪准确度有所提升。在此基础上，如果继续引入区分性的位置编码，即区分位置编码，跟踪准确度得到进一步提升。同时，本实施例框架算法的计算复杂度为23G，相比于相关技术的计算复杂度26G较小，因此本实施框架的计算可在性能更高的同时节省部分计算量。

进一步地，请参阅图7，本实施例中注意力网络不同位置处目标热力图可视化结果，可以看出，随着网络深度，注意力会逐渐聚集到搜索区域上的目标，因此本实施例表明了图像特征与区域图像特征进行深度交互的有效性。

本实施例提供一种基于注意力网络的目标跟踪装置，如图8所示，包括：

图像块获取模块801，用于获取视频中的目标图像块以及对应的搜索区域图像块。

第一特征提取模块802，用于对目标图像块进行特征提取，得到图像特征，图像特征包括图像块特征及对应的图像位置特征。

第二特征提取模块803，用于对搜索区域图像块进行特征提取，得到区域图像特征，区域图像特征包括区域图像块特征及对应的区域图像位置特征。

目标特征提取模块804，用于将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征。

目标跟踪模块805，用于基于目标图像特征得到目标图像框，以进行目标的跟踪。

在一些可选的实施方式中，图像块获取模块801包括：

第一图像获取单元，用于获取视频流中任意一视频的目标图像帧；

第一目标识别单元，用于识别目标图像帧中的目标；

图像块确定单元，用于基于目标确定目标图像块以及对应的搜索区域图像块。

在一些可选的实施方式中，第一特征提取模块802包括：

第一图像块划分单元，用于将目标图像块划分为多个子图像块；

第一特征提取单元，用于将多个子图像块级连后通过全连接层进行特征提取，得到图像块特征；

第一位置编码单元，用于对多个子图像块进行位置编码得到图像位置特征；

图像特征确定单元，用于将图像块特征与图像位置特征拼接，得到图像特征。

在一些可选的实施方式中，第一位置编码单元，包括：

图像信息获取子单元，用于获取每个子图像块的图像信息，图像信息包括子图像块的位置、信息量以及编码标志位，信息量用于表征子图像块与目标图像框相交区域，在目标图像框与子图像块相并区域上的占比；

第一位置编码子单元，用于将图像信息输入全连接层进行位置编码，得到图像位置特征。

在一些可选的实施方式中，第二特征提取模块803包括：

第二图像块划分单元，用于将搜索区域图像块划分为多个子区域图像块；

第二特征提取单元，用于将多个子区域图像块级连后通过全连接层进行特征提取，得到区域图像块特征；

第二位置编码单元，用于对多个子区域图像块进行位置编码得到区域图像位置特征；

区域特征确定单元，用于将区域图像块特征与区域图像位置特征拼接，得到区域图像特征。

在一些可选的实施方式中，第二位置编码单元，包括：

位置特征获取子单元，用于对多个子区域图像块进行正余弦位置编码，得到位置特征；

目标向量获取子单元，用于获取与位置特征等大的全零向量；

第二位置编码子单元，用于将位置特征与全零向量进行级连后，输入全连接层，得到区域图像位置特征。

在一些可选的实施方式中，图像块获取模块801包括：

第二图像获取单元，用于获取目标数据库中任意一视频的第一图像帧及第二图像帧；

第一图像块识别单元，用于识别第一图像帧中的目标，得到目标图像块；

第二图像块识别单元，用于识别第二图像帧的目标，得到搜索区域图像块。

本实施例提供的基于注意力网络的目标跟踪装置，通过获取视频中的目标图像块以及对应的搜索区域图像块；对目标图像块进行特征提取，得到图像特征，对搜索区域图像块进行特征提取，得到区域图像特征；将图像特征与区域图像特征级连后，通过注意力网络进行特征提取，得到目标图像特征，以实现图形特征与区域图像特征之间的信息交互，进而提升特征提取的效率及可靠性；通过基于目标图像特征得到目标图像框，以进行目标的跟踪，提高了目标追踪的准确性和稳定性。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的基于注意力网络的目标跟踪装置是以功能单元的形式来呈现，这里的单元是指ASIC（ApplicationSpecificIntegratedCircuit，专用集成电路）电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图8所示的电池健康状态预测装置。

请参阅图9，图9是本发明可选实施例提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于注意力网络的目标跟踪方法，其特征在于，所述方法包括：

获取视频中的目标图像块以及对应的搜索区域图像块；

2.根据权利要求1所述的方法，其特征在于，所述获取视频中的目标图像块以及对应的搜索区域图像块，包括：

获取视频流中任意一视频的目标图像帧；

识别所述目标图像帧中的目标；

3.根据权利要求1所述的方法，其特征在于，所述对所述目标图像块进行特征提取，得到图像特征，包括：

将所述目标图像块划分为多个子图像块；

对多个所述子图像块进行位置编码得到图像位置特征；

4.根据权利要求3所述的方法，其特征在于，所述对所述搜索区域图像块进行特征提取，得到区域图像特征，包括：

将所述搜索区域图像块划分为多个子区域图像块；

5.根据权利要求3所述的方法，其特征在于，对多个所述子图像块进行位置编码得到图像位置特征，包括：

6.根据权利要求4所述的方法，其特征在于，对多个所述子区域图像块进行位置编码得到区域图像位置特征，包括：

获取与所述位置特征等大的全零向量；

7.根据权利要求1所述的方法，其特征在于，所述获取视频中的目标图像块以及对应的搜索区域图像块，包括：

获取目标数据库中任意一视频的第一图像帧及第二图像帧；

识别所述第一图像帧中的目标，得到所述目标图像块；

8.一种基于注意力网络的目标跟踪装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的基于注意力网络的目标跟踪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至8中任一项所述的基于注意力网络的目标跟踪方法。