CN117409043B

CN117409043B - 一种亚像素级视频目标跟踪方法、装置、设备及存储介质

Info

Publication number: CN117409043B
Application number: CN202311720133.1A
Authority: CN
Inventors: 邓意麒; 龙啸海
Original assignee: Hunan Ke Ke Intelligent Technology Co ltd
Current assignee: Hunan Ke Ke Intelligent Technology Co ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-12
Anticipated expiration: 2043-12-14
Also published as: CN117409043A

Abstract

本申请涉及了一种亚像素级视频目标跟踪方法、装置、设备及存储介质，方法采用低计算复杂度的稀疏特征选取策略，通过帧间亚像素级偏移量实现目标跟踪，能够实现对高分辨率和高帧率视频的实时且稳定的目标跟踪；本方法通过帧间亚像素级偏移量实现目标跟踪，不依赖AI识别结果对目标跟踪位置进行修正，不仅能够在复杂环境下仍可保持稳定的目标框，而且无需重复对目标框进行AI检测，避免算力浪费和能耗浪费，提高跟框的效率。

Description

一种亚像素级视频目标跟踪方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种亚像素级视频目标跟踪方法、装置、设备及存储介质。

背景技术

传统的物体跟踪方法是利用AI算法给出参考帧目标在视频帧中的坐标和标注框，通过逐像素搜索的运动估计方法计算目标在固定时间间隔后的位置坐标，预测的目标坐标位置与参考帧目标坐标位置相减得到目标位移像素值，实现目标追踪。当视频的分辨率为12801024或1920/>1080时，逐像素搜索的方法无法满足实时处理要求，通常采用拉长时间间隔的方式换取处理时间，但在机场/轨道安检等高帧率（120Hz/60Hz）应用场景，若采用逐像素搜索的方法会导致实时显示的目标框发生框体跳跃和框体抖动。

基于神经网络的目标跟踪方法是完全依赖AI算法的结果，通过计算前后两次AI算法结果得到目标坐标位移像素值。但AI算法对同一目标不同位置的检测结果可能存在标注框大小不一致、目标漏检等问题，导致在实时跟踪过程中容易出现框体抖动、消失、跳变的情况，进而对复杂环境无法稳定跟踪目标。为了保证视频流畅，基于神经网络的目标跟踪需要逐帧检测，即每秒对同一目标重复进行数十次AI检测，这样的重复计算浪费算力和能耗，降低了跟踪的效率。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例的主要目的在于提出一种亚像素级视频目标跟踪方法、装置、设备及存储介质，能够对高分辨率和高帧率视频的进行实时且稳定目标跟踪，而且无需重复对目标框进行AI检测，避免算力浪费和能耗浪费，提高跟框的效率。

为实现上述目的，本发明实施例的第一方面提出了一种亚像素级视频目标跟踪方法，所述亚像素级视频目标跟踪方法包括：

确定视频的前一帧图像和当前帧图像；

将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，并从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵；

根据所述多个显著性特征矩阵和所述视频中的移动速度，从所述当前帧图像中选取出对应的多个特征矩阵；

计算所述多个显著性特征矩阵中的每一个所述显著性特征矩阵的亚像素级帧间偏移量，并根据每一个所述显著性特征矩阵的亚像素级帧间偏移量计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量；其中，所述多个显著性特征矩阵中的任意一个所述显著性特征矩阵的亚像素级帧间偏移量的计算过程包括：

将所述任意一个所述显著性特征矩阵作为目标显著性特征矩阵；分别计算所述多个特征矩阵中的每一个特征矩阵与所述目标显著性特征矩阵之间的相似度，选取出相似度最大的特征矩阵；在所述多个特征矩阵中找到与所述相似度最大的特征矩阵相邻的两个特征矩阵，并分别计算找到的所述两个特征矩阵与所述目标显著性特征矩阵之间的相似度，得到相似度相对较大的特征矩阵；根据所述相似度最大的特征矩阵和所述相似度相对较大的特征矩阵各自的坐标偏移量，计算所述目标显著性特征矩阵的亚像素级帧间偏移量；

根据所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，以及所述前一帧图像中的目标框的位置，计算所述目标框在所述当前帧图像中的位置。

在本申请的一些实施例中，将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，包括：

确定所述前一帧图像的分辨率；

根据所述分辨率，将所述前一帧图像进行网格化切分为/>个图像块并确定每一个所述图像块的中心点，其中每一个所述图像块的大小为：/>；

以每一个所述图像块的中心点为中心，为每一个所述图像块选取的像素矩阵作为显著性特征矩阵；其中/>取值小于/>和/>。

在本申请的一些实施例中，所述从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵，包括：

计算每一个所述图像块对应的显著性特征矩阵的颜色通道均方差的平均值；

按照所述平均值从大至小顺序，选取出用于表征所述前一帧图像的多个显著性特征矩阵。

在本申请的一些实施例中，所述根据所述相似度最大的特征矩阵和所述相似度相对较大的特征矩阵各自的坐标偏移量，计算所述目标显著性特征矩阵的亚像素级帧间偏移量，包括：

计算所述相似度最大的特征矩阵和所述相似度相对较大的特征矩阵对所述目标显著性特征矩阵的权重贡献度；

计算所述相似度最大的特征矩阵的第一坐标偏移量和计算所述相似度相对较大的特征矩阵的第二坐标偏移量；

根据权重贡献度、所述第一坐标偏移量和所述第二坐标偏移量计算所述目标显著性特征矩阵的亚像素级帧间偏移量；其中计算公式包括：

其中，表示目标显著性特征矩阵的亚像素级帧间偏移量，/>表示第一坐标偏移量，/>表示第二坐标偏移量，/>表示权重贡献度。

在本申请的一些实施例中，所述根据每一个所述显著性特征矩阵的亚像素级帧间偏移量计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，包括：

计算每一个所述显著性特征矩阵的亚像素级帧间偏移量的平均值；

将所述平均值作为所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量。

在本申请的一些实施例中，所述视频为安检机拍摄的安检视频；

所述根据所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，以及所述前一帧图像中的目标框的位置，计算所述目标框在所述当前帧图像中的位置，包括：

识别目标物品在所述安检视频中显示的目标框；

定位所述目标框在所述前一帧图像中的坐标；

根据所述目标物品在所述安检机中的移动方向，在所述目标框在所述前一帧图像中的坐标中增加所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，得到所述目标框在所述当前帧图像中的坐标。

在本申请的一些实施例中，所述亚像素级视频目标跟踪方法通过双线程执行；其中一个线程用于计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量；另外一个线程用于根据所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，以及所述前一帧图像中的目标框的位置，计算所述目标框在所述当前帧图像中的位置。

本发明实施例的第二方面提出了一种亚像素级视频目标跟踪装置，所述亚像素级视频目标跟踪装置包括：

图像帧获取单元，用于确定视频的前一帧图像和当前帧图像；

第一计算单元，用于将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，并从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵；

第二计算单元，用于根据所述多个显著性特征矩阵和所述视频中的移动速度，从所述当前帧图像中选取出对应的多个特征矩阵；

偏移量计算单元，用于计算所述多个显著性特征矩阵中的每一个所述显著性特征矩阵的亚像素级帧间偏移量，并根据每一个所述显著性特征矩阵的亚像素级帧间偏移量计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量；其中，所述多个显著性特征矩阵中的任意一个所述显著性特征矩阵的亚像素级帧间偏移量的计算过程包括：

将所述任意一个所述显著性特征矩阵作为目标显著性特征矩阵；分别计算所述多个特征矩阵中的每一个所述特征矩阵与所述目标显著性特征矩阵之间的相似度，选取出相似度最大的所述特征矩阵；在所述多个特征矩阵中找到与所述相似度最大的所述特征矩阵相邻的两个所述特征矩阵，并分别计算找到的所述两个所述特征矩阵与所述目标显著性特征矩阵之间的相似度，得到相似度相对较大的所述特征矩阵；根据所述相似度最大的所述特征矩阵和所述相似度相对较大的所述特征矩阵各自的坐标偏移量，计算所述目标显著性特征矩阵的亚像素级帧间偏移量；

位置更新单元，用于根据所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，以及所述前一帧图像中的目标框的位置，计算所述目标框在所述当前帧图像中的位置。

为实现上述目的，本发明实施例的第三方面提出了一种电子设备，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的一种亚像素级视频目标跟踪方法。

为实现上述目的，本发明实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的一种亚像素级视频目标跟踪方法。

本申请一个实施例提供了一种亚像素级视频目标跟踪方法，相较传统的视频目标跟踪方法，本实施例方法在选取前一帧图像中的显著性特征矩阵时，采用低计算复杂度的稀疏特征选取策略，从所有显著性特征矩阵中选取出能够表征前一帧图像的多个显著性特征矩阵参与后续计算，减少了计算复杂度，通过计算帧间亚像素级偏移量实现目标跟踪，能够实现对高分辨率和高帧率视频的实时且稳定目标跟踪，而且本实施例方法通过帧间亚像素级偏移量实现了目标跟踪，不依赖AI识别结果对目标跟踪位置进行修正，不仅能够在复杂环境下仍可保持稳定的目标框，而且无需重复对目标框进行AI检测，避免算力浪费和能耗浪费，提高跟框的效率。

可以理解的是，上述第二方面至第四方面和相关技术相比存在的有益效果和上述第一方面和相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的一种亚像素级视频目标跟踪方法的流程示意图；

图2是图1中步骤S120中选取多个显著性特征矩阵的流程示意图；

图3是图1中步骤S140中计算目标显著性特征矩阵的亚像素级帧间偏移量的流程示意图；

图4是本申请另外一个实施例提供的一种安检亚像素级视频目标跟踪方法的总体流程框图；

图5是本申请一个实施例提供的第一线程执行流程框图；

图6是本申请一个实施例提供的一种亚像素级视频目标跟踪装置的结构示意图；

图7是本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语和属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了解决现有技术的缺陷，参照图1，本申请的一个实施例，提供了一种亚像素级视频目标跟踪方法，本方法包括以下步骤：

步骤S110、确定视频的前一帧图像和当前帧图像。

步骤S120、将前一帧图像划分为多个图像块，计算每一个图像块对应的显著性特征矩阵，并从每一个图像块对应的显著性特征矩阵中，选取出用于表征前一帧图像且显著性靠前的多个显著性特征矩阵。

步骤S130、根据多个显著性特征矩阵和视频中的移动速度，从当前帧图像中选取出对应的多个特征矩阵。

步骤S140、计算多个显著性特征矩阵中的每一个显著性特征矩阵的亚像素级帧间偏移量，并根据每一个显著性特征矩阵的亚像素级帧间偏移量计算前一帧图像与当前帧图像之间的亚像素级帧间偏移量；其中，多个显著性特征矩阵中的任意一个显著性特征矩阵的亚像素级帧间偏移量的计算过程包括：

将任意一个显著性特征矩阵作为目标显著性特征矩阵；分别计算多个特征矩阵中的每一个特征矩阵与目标显著性特征矩阵之间的相似度，选取出相似度最大的特征矩阵；在多个特征矩阵中找到与相似度最大的特征矩阵相邻的两个特征矩阵，并分别计算找到的两个特征矩阵与目标显著性特征矩阵之间的相似度，得到相似度相对较大的特征矩阵；根据相似度最大的特征矩阵和相似度相对较大的特征矩阵各自的坐标偏移量，计算目标显著性特征矩阵的亚像素级帧间偏移量。

步骤S150、根据前一帧图像与当前帧图像之间的亚像素级帧间偏移量，以及前一帧图像中的目标框的位置，计算目标框在当前帧图像中的位置。

本实施例的视频是拍摄移动物品的视频，例如地铁、机场的X光安检视频。一个视频由多帧连续图像组成，在步骤S110中，以当前帧图像和前一帧图像为例，前一帧图像中出现有目标框（例如图像出现行李箱的目标框），本实施例的目的是高效且准确的定位目标框在当前帧图像中的位置。

在步骤S120中，将前一帧图像划分为多个图像块，例如：对前一帧图像进行网格化切分为个图像块，这里的/>的取值包括但不限于8/>3、12/>8、16/>9、23/>11等。假设图像的分辨率为1920/>1080，划分为16/>9个图像块，每一个图像块的大小是120/>120。本实施例在计算每一个图像块对应的显著性特征矩阵之后，从所有的显著性特征矩阵中，选取出显著性靠前的多个显著性特征矩阵，通过特征矩阵稀疏化选取多个显著性特征矩阵来表征前一帧图像，这样无需所有的显著性特征矩阵参与后续计算，而是只需要多个显著性特征矩阵参与后续计算，降低计算复杂度。

在一些实施例中，步骤S120中的将前一帧图像划分为多个图像块，计算每一个图像块对应的显著性特征矩阵，包括：

步骤S510、确定前一帧图像的分辨率。

步骤S520、根据分辨率，将前一帧图像进行网格化切分为/>个图像块并确定每一个图像块的中心点，其中每一个图像块的大小为：/>。

步骤S530、以每一个图像块的中心点为中心，为每一个图像块选取的像素矩阵作为显著性特征矩阵；其中/>取值小于/>和/>。

将前一帧图像进行网格化切分为个图像块，得到/>个图像块中心点，以图像块中心点为中心，选取像素为/>的特征矩阵作为显著性特征矩阵。图像块基于视频帧划分，通常视频帧分辨率为1920/>1080，以/>=16/>9为例，则可以分出来16/>9个图像块，大小为120/>120。假设一个图像块中心点坐标为（60,60），此时该图像块对应的显著性特征矩阵的中心点也是（60,60），设定大小为/>，这样无需对120/>120大小的图像块进行特征提取，只需要对/>大小的特征矩阵进行处理，对图像块的显著性特征矩阵进行稀疏化选取，降低了参与计算的显著性特征矩阵的大小，提高处理的效率。/>的取值包括但不限于3、5、7、9等。

参照图2，在一些实施例中，从每一个图像块对应的显著性特征矩阵中，选取出显著性靠前的多个显著性特征矩阵，包括以下步骤S210-S230：

步骤S210、计算每一个图像块对应的显著性特征矩阵的颜色通道均方差的平均值。

步骤S220、按照平均值从大至小顺序，选取出用于表征前一帧图像的多个显著性特征矩阵。

计算每一个图像块对应的显著性特征矩阵的颜色通道均方差的平均值的计算公式包括：

其中，显著性特征矩阵为的特征矩阵，/>为预设值，/>、/>、/>分别为显著性特征矩阵中的像素点/>的颜色分量的值，/>、/>、/>为显著性特征矩阵中每个像素点的一阶矩。

相较于传统显著性判定规则，本实施例引入颜色通道均方差平均值作为判定显著性特征矩阵的依据，颜色通道均方差的平均值越大，显著性越强，这样的处理方式能够使选取出的显著性特征矩阵更加准确，进而提升后续的计算准确度。

步骤S130中，假设步骤S120得到了个/>的特征矩阵作为显著性特征矩阵，此时根据/>个显著性特征矩阵和视频中的移动速度，得到/>个/>的特征矩阵。这里得到的/>个/>的特征矩阵通过后续实施例进行详细介绍，这里不进行细述。

在步骤S140中，需要计算前一帧图像与当前帧图像之间的亚像素级帧间偏移量。首先计算每一个显著性特征矩阵的亚像素级帧间偏移量，然后在综合每一个显著性特征矩阵的亚像素级帧间偏移量计算前一帧图像与当前帧图像之间的亚像素级帧间偏移量。以下详细介绍如何计算每一个显著性特征矩阵的亚像素级帧间偏移量：

这里先将当前计算亚像素级帧间偏移量的显著性特征矩阵看作目标显著性特征矩阵。将当前帧中每一个特征矩阵与目标显著性特征矩阵计算相似度，另外这里的相似度计算方式包括但不仅限于：余弦相似度、皮尔逊相关系数，这里可使用余弦相似度。在依次计算之后，得到每一个特征矩阵与目标显著性特征矩阵之间的相似度，选取数值最大的一个相似度，并找到数据最大的相似度相对的一个特征矩阵。然后于多个特征矩阵中找到与找到的该特征矩阵相邻的两个特征矩阵，然后再找到这两个特征矩阵与目标显著性特征矩阵之间相似度数值相对较大的一个相似度，找到相对较大的一个相似度对应特征矩阵。这样就从当前帧的多个特征矩阵中得到与目标显著性特征矩阵之间相似度最大的特征矩阵和相似度次大的特征矩阵，可以利用这两个矩阵计算目标显著性特征矩阵的亚像素级帧间偏移量。

需要注意的是，计算相似度需要先将特征矩阵和目标显著性特征矩阵转换成向量形式，采用向量形式来计算，将矩阵平铺就可以得到其向量。

参照图3，在一些实施例中，步骤S140中的根据相似度最大的特征矩阵和相似度相对较大的特征矩阵各自的坐标偏移量，计算目标显著性特征矩阵的亚像素级帧间偏移量，包括以下步骤S410-S430：

步骤S410、计算相似度最大的特征矩阵和相似度相对较大的特征矩阵对目标显著性特征矩阵的权重贡献度。权重贡献度的计算公式包括：

其中，表示上述计算的相似度最大值。/>表示上述计算的相似度次大值。

步骤S420、计算相似度最大的特征矩阵的第一坐标偏移量，以及计算相似度相对较大的特征矩阵的第二坐标偏移量。其中假设视频是安检视频，安检机中的安检带沿x轴方向移动，坐标偏移量计算如下：

其中，表示第一坐标偏移量，/>表示第二坐标偏移量，/>表示相似度最大值的一个特征矩阵的中心点的/>轴坐标，/>表示相似度次大值的一个特征矩阵的中心点的/>轴坐标，/>表示目标显著性特征矩阵的中心点的/>轴坐标。/>表示现有计算偏移量的函数，这里不再细述。

步骤S430、根据权重贡献度、第一坐标偏移量和第二坐标偏移量计算目标显著性特征矩阵的亚像素级帧间偏移量。其中计算公式包括：

其中，表示目标显著性特征矩阵的亚像素级帧间偏移量。

在一些实施例中，综合每一个显著性特征矩阵的亚像素级帧间偏移量计算前一帧图像的亚像素级帧间偏移量，包括：

步骤S460、计算每一个显著性特征矩阵的亚像素级帧间偏移量的平均值。具体计算公式包括：

其中，表示显著性特征矩阵的数量，/>为平均值。

步骤S470、将平均值作为前一帧图像与当前帧图像之间的亚像素级帧间偏移量。

最后在步骤S150中，根据前一帧图像与当前帧图像之间的亚像素级帧间偏移量，以及前一帧图像中的目标框的位置，计算目标框在当前帧图像中的位置。例如是安检视频，目标物品随着安检带一起运动，在前一帧图像中，识别目标框的中心坐标，然后根据安检带的移动方向，如轴，在目标框的中心坐标的/>轴坐标上加上亚像素级帧间偏移量，得到目标框在当前帧图像中的位置。

相较传统的视频目标跟踪方法，本实施例在选取前一帧图像中的显著性特征矩阵时，采用低计算复杂度的稀疏特征选取策略，从所有显著性特征矩阵中选取出能够表征前一帧图像的多个显著性特征矩阵参与后续计算，减少了计算复杂度，通过计算帧间亚像素级偏移量实现目标跟踪，能够在高分辨率和高帧率视频的实时且稳定目标跟踪。而且不依赖AI识别结果对目标跟踪位置进行修正，不仅能够在复杂环境下仍可保持稳定的目标框，而且无需重复对目标框进行AI检测，避免算力浪费和能耗浪费，提高跟框的效率。

在公共场所如机场、地铁等，通常需要利用X射线安检机对乘客行李或随身携带物品等目标进行识别在安检过程中，需要实时获取目标的位置信息，以便安检员根据目标的位置信息采取相应的措施。通常安检视频的分辨率为12801024或1920/>1080，逐像素搜索的方法无法满足实时处理要求，通常采用拉长时间间隔的方式换取处理时间，但在机场/轨道等高帧率（120Hz/60Hz）应用场景，若采用逐像素搜索的方法会导致实时显示的目标框发生框体跳跃和框体抖动，这种低时效性方法无法让安检人员长时间进行安检工作。基于神经网络的目标跟踪方法是完全依赖AI算法的结果，但AI算法对同一目标不同位置的检测结果可能存在标注框大小不一致、目标漏检等问题，导致在实时跟踪过程中容易出现框体抖动、消失、跳变的情况，进而对复杂的真实安检场景无法稳定跟踪目标，为了保证视频流畅，基于神经网络的目标跟踪需要逐帧检测，即每秒对同一目标重复进行数十次AI检测，这样的重复计算浪费算力和能耗，降低了跟踪的效率。

为了解决上述缺陷，参照图4和图5，本申请的一个实施例，提供了一种安检亚像素级视频目标跟踪方法，安检视频通过安检机拍摄，目标物品（如包裹）在安检机中的安检带上沿轴移动。本实施例方法采用双线程执行，以提高目标框跟踪方法的执行效率。两个线程的执行流程如下所示：

在第一线程中，主要执行如下流程：

步骤S610、逐帧获取安检视频的帧图像，假设当前帧图像为，上一帧图像为。

步骤S620、帧图像的预处理，对帧图像进行裁剪，采用的方法包括但不限于Range取值、Clip裁剪、切片等，保留感兴趣区域，得到帧图像为/>。

步骤S630、对进行步骤S620处理后的帧图像进入动态特征跟踪处理。若/>是安检视频中的第一帧图像，则执行步骤S640和步骤S650得到/>的/>个显著性特征向量，其中/>。

若不是第一帧，则直接从步骤S660开始执行。

步骤S640、对进行网格化切分为/>图像块，其中/>的取值包括但不限于8/>3、12/>8、16/>9、23/>11等，一共可得到/>个图像块中心点/>，/>，并以这些图像块中心点/>为中心，取像素为/>的显著性特征矩阵，其中/>的取值包括但不限于3、5、7、9等，并计算每个显著性特征矩阵的颜色通道均方差的平均值/>；

步骤S650、按照从大到小排序，取排名前/>个/>的特征矩阵作为显著性特征矩阵/>，其中/>，并得到显著性特征矩阵的中心点坐标/>，并将这/>个显著性特征矩阵进行平铺操作，得到/>个显著性特征向量/>。

步骤S660、通过步骤S610和S620对获取到的当前帧图像进行预处理，得到帧图像/>，根据帧图像/>得到的/>个显著性特征矩阵的中心点坐标/>和安检视频的移动速度，得到/>个特征矩阵/>和对应矩阵中心点坐标/>，/>，，/>为/>的横坐标，计算公式为/>，/>为常数，/>是指视频移动速度与中心点横坐标的映射关系，该公式说明/>个特征矩阵中心点的选取是与视频移动速度相关的函数。/>是经验值，通常取5，因为针对前一帧图像的每一个显著性特征矩阵，在当前帧都会有/>个特征矩阵，大小也为/>是为了后续与显著性特征矩阵保持一致性。进一步，以/>为例，将/>个/>矩阵/>转换为/>个特征向量/>，并与帧图像/>中的第/>个显著性特征向量/>两两进行余弦相似度的计算。取/>个/>矩阵中相似度最大的矩阵/>，最大相似度为/>，/>的坐标偏移量：/>。

步骤S670、取前后相邻的两个/>的特征矩阵，同时转换为两个特征向量，分别与前一帧/>的显著性特征向量/>进行相似度计算，取两者中的较大值作为相似度次大的矩阵/>，次大相似度为/>，坐标偏移量/>。

步骤S680、计算和/>对前一帧对应的显著性特征矩阵偏移量的贡献权重Weights，计算公式包括：

以第个显著性特征矩阵为例，这里得到第/>个显著性特征矩阵亚像素级的帧间偏移量/>，计算公式包括：

的数据类型为单精度浮点型float。

步骤S690、重复步骤S650至步骤S670，可分别计算出个显著性特征矩阵的亚像素级帧间偏移量，取平均值作为帧图像/>的亚像素级帧间偏移量/>，计算公式包括：

将当前帧置为，并重复步骤S640和S650动态获取当前帧图像/>的/>个显著性特征向量/>其中/>，为下一帧图像提供显著性特征。

在第二线程中，结合帧间偏移量，更新视频帧中原有目标框的坐标位置。

在第二线程中，主要执行如下流程：

步骤S710、从安检机获取最新的完整目标物品图像，并通过AI识别，得到基于目标物品图像的目标框坐标/>，其中/>为目标框的中心点坐标，/>为目标框的宽和高，进一步通过目标物品图像与帧图像中该目标物品的位置关系，可计算出目标框在帧图像/>中的坐标，/>为目标物品图像/>与帧图像/>在/>轴方向的缩放系数，/>为目标物品图/>与帧图像/>在/>轴方向的缩放系数，/>为包裹图/>与帧图像/>在/>轴方向的像素偏移量，为包裹图/>与帧图像/>在/>轴方向的像素偏移量。

步骤S720、从第一线程步骤S690获取亚像素级帧间偏移量，结合在帧图像/>中的坐标信息/>，得到新目标在帧图像/>的坐标信息。

步骤S730、将更新后的坐标信息通过第一线程完成后续绘制工作。例如：将所有目标框用不同颜色的旗标框绘制在视频帧中，并通过视频编码实现跟框。

本实施例相较传统的视频目标跟踪方法，采用低计算复杂度的稀疏特征选取策略，实现逐帧计算帧间亚像素级偏移量，解决了传统的视频目标跟踪在1080p分辨率、120Hz高帧率难以实时跟踪，且目标框体跳跃和抖动问题。

本实施例相较神经网络的目标跟踪方法，不依赖AI识别结果对目标跟踪位置进行修正，通过帧间亚像素级偏移量实现目标跟踪，解决了神经网络的目标跟踪方法对复杂的真实安检场景无法得到稳定的标注框，导致在实时跟踪过程中框体出现消失、抖动、跳变的情况，且不需要重复对目标进行AI检测，避免算力浪费和能耗浪费，提高跟框的效率。

参照图6，本申请的一个实施例，提供了一种亚像素级视频目标跟踪装置，所述亚像素级视频目标跟踪装置包括：图像帧获取单元1100、第一计算单元1200、第二计算单元1300、偏移量计算单元1400和位置更新单元1500，包括：

图像帧获取单元1100用于确定视频的前一帧图像和当前帧图像。

第一计算单元1200用于将前一帧图像划分为多个图像块，计算每一个图像块对应的显著性特征矩阵，并从每一个图像块对应的显著性特征矩阵中，选取出用于表征前一帧图像且显著性靠前的多个显著性特征矩阵。

第二计算单元1300用于根据多个显著性特征矩阵和视频中的移动速度，从当前帧图像中选取出对应的多个特征矩阵。

偏移量计算单元1400用于计算多个显著性特征矩阵中的每一个显著性特征矩阵的亚像素级帧间偏移量，并根据每一个显著性特征矩阵的亚像素级帧间偏移量计算前一帧图像与当前帧图像之间的亚像素级帧间偏移量；其中，多个显著性特征矩阵中的任意一个显著性特征矩阵的亚像素级帧间偏移量的计算过程包括：

位置更新单元1500用于根据前一帧图像与当前帧图像之间的亚像素级帧间偏移量，以及前一帧图像中的目标框的位置，计算目标框在当前帧图像中的位置。

需要注意的是，本实施例提供的亚像素级视频目标跟踪装置与上述亚像素级视频目标跟踪方法实施例是基于相同的发明构思，因此上述亚像素级视频目标跟踪方法实施例的相关内容同样适用于本亚像素级视频目标跟踪装置实施例，此处不再细述。

如图7，本申请实施例还提供了一种电子设备，本电子设备包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的亚像素级视频目标跟踪方法。

该电子设备可以为包括手机、平板电脑、个人数字助理（Personal DigitalAssistant，PDA）、车载电脑等任意智能终端。

下面对本申请实施例的电子设备进行详细介绍。

处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1700，可以采用只读存储器（Read Only Memory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本发明实施例的亚像素级视频目标跟踪方法。

输入/输出接口1800，用于实现信息输入及输出；

通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线2000，在设备的各个组件（例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900）之间传输信息；

其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述的亚像素级视频目标跟踪方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种亚像素级视频目标跟踪方法，其特征在于，所述亚像素级视频目标跟踪方法包括：

确定视频的前一帧图像和当前帧图像；

将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，并从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵；所述从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵，包括：

计算每一个所述图像块对应的显著性特征矩阵的颜色通道均方差的平均值；按照所述平均值从大至小顺序，选取出用于表征所述前一帧图像的多个显著性特征矩阵；

将任意一个所述显著性特征矩阵作为目标显著性特征矩阵；分别计算所述多个特征矩阵中的每一个特征矩阵与所述目标显著性特征矩阵之间的相似度，选取出相似度最大的特征矩阵；在所述多个特征矩阵中找到与所述相似度最大的特征矩阵相邻的两个特征矩阵，并分别计算找到的所述两个特征矩阵与所述目标显著性特征矩阵之间的相似度，得到相似度相对较大的特征矩阵；根据所述相似度最大的特征矩阵和所述相似度相对较大的特征矩阵各自的坐标偏移量，计算所述目标显著性特征矩阵的亚像素级帧间偏移量；

2.根据权利要求1所述的亚像素级视频目标跟踪方法，其特征在于，将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，包括：

确定所述前一帧图像的分辨率；

3.根据权利要求2所述的亚像素级视频目标跟踪方法，其特征在于，所述根据所述相似度最大的特征矩阵和所述相似度相对较大的特征矩阵各自的坐标偏移量，计算所述目标显著性特征矩阵的亚像素级帧间偏移量，包括：

；

4.根据权利要求3所述的亚像素级视频目标跟踪方法，其特征在于，所述根据每一个所述显著性特征矩阵的亚像素级帧间偏移量计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量，包括：

5.根据权利要求1所述的亚像素级视频目标跟踪方法，其特征在于，所述视频为安检机拍摄的安检视频；

识别目标物品在所述安检视频中显示的目标框；

定位所述目标框在所述前一帧图像中的坐标；

6.根据权利要求5所述的亚像素级视频目标跟踪方法，其特征在于，所述亚像素级视频目标跟踪方法通过双线程执行；其中一个线程用于计算所述前一帧图像与所述当前帧图像之间的亚像素级帧间偏移量；另外一个线程用于根据所述前一帧图像的亚像素级帧间偏移量和所述前一帧图像中的目标框的位置，计算所述目标框在所述当前帧图像中的位置。

7.一种亚像素级视频目标跟踪装置，其特征在于，所述亚像素级视频目标跟踪装置包括：

第一计算单元，用于将所述前一帧图像划分为多个图像块，计算每一个所述图像块对应的显著性特征矩阵，并从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵；所述从每一个所述图像块对应的显著性特征矩阵中，选取出用于表征所述前一帧图像且显著性靠前的多个显著性特征矩阵，包括：

8.一种电子设备，其特征在于，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行权利要求1至6任一项所述的亚像素级视频目标跟踪方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至6任一项所述的亚像素级视频目标跟踪方法。