CN117522925A

CN117522925A - 注意力机制下移动相机中判断物体运动状态方法及系统

Info

Publication number: CN117522925A
Application number: CN202410015759.0A
Authority: CN
Inventors: 叶洪麟; 李骥东; 鲜斌
Original assignee: Chengdu Heneng Chuangyue Software Co ltd
Current assignee: Chengdu Heneng Chuangyue Software Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-02-06
Anticipated expiration: 2044-01-05
Also published as: CN117522925B

Abstract

本发明公开了一种注意力机制下移动相机中判断物体运动状态方法及系统，基于deepstream框架的检测到对应目标后，将目标检测框像素分辨率扩大至M*N像素，然后使用针对分离的时空自注意力模块学习在一定连续时间t上检测扩大得到的M*N图像的时空连续性特征，最后接入一个MLP‑Head对学到的时空特征分类得到其运动状态。可以在移动相机情形下，结合深度学习自注意力机制在复杂场景下判断物体的运动与否。

Description

注意力机制下移动相机中判断物体运动状态方法及系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种注意力机制下移动相机中判断物体运动状态方法及系统。

背景技术

目前，对于相机安装在一些移动平台上，比如车载人工智能（ArtificialIntelligence，AI），机器智能设备，手持移动设备等，由于平台移动造成相机本身也存在运动，简单的基于静止相机的移动目标检测方法就不再适用。诞生的很多技术方法都是基于传统图像算法的判断检测方法，并且这些基于传统图像算法的方法只能检测出运动目标，并不能直接判断出检测目标的运动状态。

基于几何约束的方法通过某一约束关系构建出一个背景模型区分内外点来检测运动目标；基于运动补偿的方法通过对相机产生运动失量进行补偿，使其等效为静止背景的情况后来进行运动目标的检测；基于占用网格的方法利用占用网格的特性进行运动目标检测。在复杂的双向运动场景下，没有办法直接用到单一的目前在智能视觉领域中学习能力最强，泛化能力也最强的深度模型来直接实现目标的检测并进行运动状态的判断。并且这些基于传统图像算法的方案，每一个步骤所用的传统图像算法都会消耗大量的内存和硬件资源；同时因为传统算法的局限性，相比于经过大量数据训练得到的深度学习模型在检测准确度也相差比较大，同时在复杂场景下要么所需传统算法的步骤很复杂和麻烦，要么效果很差，最重要的是只能检测出运动的目标，无法对目标运动状态做精准的判断。现有的有将基于运动补偿的传统光流算法结合进卷积神经网络中的深度学习技术方法，但依然整体繁琐。

发明内容

本发明的目的在于提供了一种注意力机制下移动相机中判断物体运动状态方法及系统，用以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态方法，包括：

获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标；

基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标；

基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像；

将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征；

将所述目标时空特征输入分类器进行分类，判断待测目标是否运动。

可选的，所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征，包括：

基于跟踪目标图像，得到分块编号图像；多个跟踪目标图像对应获得多个分块编号图像；一个分块编号图像包括9个分块，每个分块对应一个编号；

基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征；一个编号对应一个目标时间特征；

根据所述目标时间特征，更新针对分离的时空自注意力模块的参数；

基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征；一个分块编号图像对应一个目标空间特征；

基于所述多个目标时间特征和多个目标空间特征，通过权重矩阵进行编码，得到时空特征。

可选的，所述基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征，包括：

将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块，得到目标时间特征；多个编号对应获得多个目标时间特征。

可选的，基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征，包括：

将分块编号图像中的9个分块输入更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到目标空间特征；

多个分块编号图像对应获得多个目标空间特征。

可选的，所述基于跟踪目标图像，得到分块编号图像，包括：

将所述跟踪目标图像竖直进行三等分，水平进行三等分，平均分为9个分块，得到分块图像；多个跟踪目标图像对应获得多个分块图像；

将分块图像中每个分块进行编号，得到分块编号图像；所述分块编号图像包含9个编号，多个分块图像中的相同位置的分块的编号相同。

可选的，所述基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像，包括：

将待测图像中目标跟踪框内的图像进行提取，得到第一图像；

将第一图像进行像素扩张，固定像素大小，得到跟踪目标图像。

可选的，训练过程中，采用训练集训练针对分离的时空自注意力模块和分类器，得到训练好的时空自注意力模块和训练好的分类器。

可选的，其特征在于，所述训练集包括多张训练图像和对应的多个标注数据；

所述训练图像表示对目标识别跟踪后，只包含目标所在位置的图像；

所述标注数据表示运动状态；所述运动状态为运动或静止。

可选的，其特征在于，所述多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。

第二方面，本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态系统，包括：

车载人工智能设备上部署deepstream框架；

所述车载人工智能设备用于执行下述方法：

相较于现有技术，本发明实施例达到了以下有益效果：

本发明实施例还提供了一种注意力机制下移动相机中判断物体运动状态方法及系统，所述方法包括：获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标；基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标；基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像；将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征；将所述目标时空特征输入分类器进行分类，判断待测目标是否运动。

采用本发明的方法，可以在移动相机情形下，结合深度学习自注意力机制（self-attention）在复杂场景下判断物体的运动与否。在车载边缘端设备的移动场景与低性能arm边缘计算平台下，基于deepstream框架的检测到对应目标后，将目标检测框像素分辨率扩大至M*N像素，然后使用针对分离的时空自注意力模块（divided space-timeattention）学习在一定连续时间t上检测扩大得到的M*N图像的时空连续性特征，最后接入一个MLP-Head对学到的时空特征分类得到其运动状态。本发明尝试在完全不涉及传统图像算法的情况下，对目标识别跟踪后的对象进行提取后，做像素扩张处理以囊括其周围空间信息，将目标跟踪后的目标对象完全结合进针对分离的时空自注意力模块（dividedspace-time attention）进行深度学习训练。自注意力机制（self-attention）改造后能学习连续时空特征的针对分离的时空自注意力模块（divided space-time attention）去学习被监测到的对象在连续时间内的时空特征再分类进而判断它是否在运动状态。

附图说明

图1是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法流程图。

图2是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法的算法执行过程示意图。

图3是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法中针对分离的时空自注意力模块的网络结构示意图。

具体实施方式

下面结合附图，对本发明作详细的说明。

实施例1

如图1、图2和图3所示，本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态方法，所述方法包括：

S101：获得多张待测图像；所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像；所述待测图像包含待测目标。

其中，所述待测目标为在移动的摄像设备判断是否移动的物体。

其中，所述摄像设备为相机，相机的高清摄像头的参数为200万像素（1920*1080）的高清摄像头，布防检测区域距离摄像头距离小于10米，大于1米，ipx6级防水。

其中，本实施例计算平台为Nvidia NX、TX边缘计算设备，内存和显存不少于4G，处理器主频不低于2.3GHz。

S102：基于多张待测图像，通过跟踪算法，跟踪待测目标，得到多个目标跟踪框；一个目标跟踪框对应一张待测图像对应一个待测目标。

其中，一个目标跟踪框中存在一个跟踪的目标；一张待测图像中可能存在多个不同的目标，从而跟踪过程可能存在不同目标对应的目标跟踪框。但本发明的目标跟踪框表示一个待测目标的用于判断是否运动的一个目标对应在不同待测图像中的目标框，一张待测目标含有一个目标跟踪框。

其中，本实施例中采用deepstream框架下的多目标跟踪（deep Simple OnlineAnd Realtime Tracking，deepsort）深度学习进行跟踪。

S103：基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像；多个目标跟踪框对应获得多个跟踪目标图像。

其中，将各个像素尺寸的目标跟踪框内的图像，扩大为一个M*N大小的目标像素图。M和N为人工固定设置的值。

S104：将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征；所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征。

其中，针对分离的时空自注意力模块（divided space-time attention），针对分离的时空自注意力模块的网络结构示意图如图3所示。

S105：将所述目标时空特征图输入分类器进行分类，判断待测目标是否运动。

其中，本实施例中的分类器为MLP，将时空连续特征Z接入MLP-Head分类头得到最终是否为运动状态结果y，具体公式如下：

其中，本发明分为模型跟踪监测和时空特征判断两个板块。模型跟踪监测板块通过在车载边缘计算AI设备上部署的deepstream框架下，采用deepsort深度学习来跟踪监测对象并做m*n像素扩展后rect出来得到如下所示对象如图2。其中rect对象为存储目标框的中心点坐标、宽度和高度。

基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征；一个编号对应一个目标时间特征。

其中，拿到跟踪监测对象一段连续时间t的图像后，用针对分离的时空自注意力模块（divided space-time attention）学习这段连续时间t图像的时空连续性特征。

根据所述目标时间特征，更新针对分离的时空自注意力模块的参数。

其中，在此时序特征基础上更新针对分离的时空自注意力模块的参数得到新的k/q/v，以此来学习连续时间t每一帧的空间特征。k/q/v这三个值是计算注意力值的抽象概念。

基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征；一个分块编号图像对应一个目标空间特征。

其中，所述权重矩阵中的值为多个目标时间特征和多个目标空间特征赋予不同的权重。将所述多个目标时间特征和多个目标空间特征与权重矩阵对应相乘，得到时空特征。

基于跟踪目标图像，得到分块编号图像；多个跟踪目标图像对应获得多个分块编号图像；一个分块编号图像包括9个分块；

其中，所述针对分离的时空自注意力模块的公式如下述所示：

。

其中，由于针对分离的时空自注意力模块是多头注意力机制。上述公式结果为连续时间t对象图像中学到的时序特征。/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的q值，/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的k值，F表示分块编号图像的个数，/>表示当前多头注意力机制的头的输出，所述/>表示对应编号的分块，/>表示每个attention的维度。/>和/>是点乘操作，需要对q进行转置，SM表示softmax公式计算方法。

可选的，所述基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征，包括：

多个分块编号图像对应获得多个目标空间特征。

其中，用上述学习时许特征后得到的新参数根据上述公式类比可学习得每一帧的空间特征

其中，所述针对分离的时空自注意力模块的公式如下述所示

其中，由于针对分离的时空自注意力模块是多头注意力机制。上述公式结果为连续时间t对象图像中学到的时序特征。/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的q值，/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的k值，N表示分块编号图像中分块的个数，所述/>表示对应编号的分块，/>表示当前多头注意力机制的头的输出。/>表示每个attention的维度。/>和/>是点乘操作，需要对q进行转置，SM表示softmax公式计算方法。

其中，每个分块的尺寸相同。

其中，如左上角的分块的编号为1，右上角的分块的编号为3，左上角和右上角中间的分块的编号为2，左下角的分块的编号为7，右下角的分块的编号为9，左下角和右下角的分块的编号为8，左上角和左下角的分块的编号为4，右上角和右下角的分块的编号为6，中心的分块的编码为5。

其中，连续时间t的每一帧图片分为9个patch，对这9个patch输入自注意力机制（self-attention）。

其中，将目标跟踪框内的图像进行像素扩张以囊括其周围空间信息。

其中，因为不同时间中待测目标在拍摄的图像中的大小不一定相同，所以目标跟踪框的大小也不一定相同，第一图像的大小也不一定相同。将不同大小的第一图像进行像素扩张，全部扩展为m*n大小。所述m和n人工设定的固定数字。

其中，上述所有方法都是采用训练好的时空自注意力模块和训练好的分类器进行测试或检测。

可选的，所述训练集包括多张训练图像和对应的多个标注数据；

所述标注数据表示运动状态；所述运动状态为运动或静止。

可选的，所述多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。

实施例2

基于上述的注意力机制下移动相机中判断物体运动状态方法，本发明实施例还提供了一种注意力机制下移动相机中判断物体运动状态系统，所述系统包括：

车载人工智能设备上部署deepstream框架；

所述车载人工智能设备用于执行下述方法：

可选的，添加跟踪插件；所述跟踪插件用于进行目标跟踪。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

Claims

1.一种注意力机制下移动相机中判断物体运动状态方法，其特征在于，包括：

2.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块，得到目标时空特征，包括：

3.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，所述基于所述多个分块编号图像，通过针对分离的时空自注意力模块，进行时间维度的自注意，得到多个目标时间特征，包括：

将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块，得到目标时间特征；

多个编号对应获得多个目标时间特征。

4.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，基于所述多个分块编号图像，通过更新的针对分离的时空自注意力模块，进行空间维度的自注意，得到多个目标空间特征，包括：

多个分块编号图像对应获得多个目标空间特征。

5.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，所述基于跟踪目标图像，得到分块编号图像，包括：

6.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，所述基于待测图像和目标跟踪框，扩大像素，得到跟踪目标图像，包括：

7.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，训练过程中，采用训练集训练针对分离的时空自注意力模块和分类器，得到训练好的时空自注意力模块和训练好的分类器。

8.根据权利要求7所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，所述训练集包括多张训练图像和对应的多个标注数据；

所述标注数据表示运动状态；所述运动状态为运动或静止。

9.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法，其特征在于，多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。

10.一种注意力机制下移动相机中判断物体运动状态系统，其特征在于，车载人工智能设备上部署deepstream框架；

所述车载人工智能设备用于执行下述方法：