CN117475135A

CN117475135A - 一种目标图像识别和稳定跟踪方法与系统

Info

Publication number: CN117475135A
Application number: CN202311420550.4A
Authority: CN
Inventors: 周浩; 李洋; 杨旭; 陈浩; 高鹏
Original assignee: Beijing Celinkout Information Technology Co ltd
Current assignee: Beijing Celinkout Information Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-30

Abstract

本发明提供了一种目标图像识别和稳定跟踪方法与系统，其中该方法包括：使用相机采集原始图像；将原始图像输入到SwinTrack网络中得到原始图像的特征信息；获取待匹配的目标图像，并将待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息；将原始图像的特征信息和目标图像的特征信息进行拼接得到拼接特征信息；根据拼接特征信息计算目标的类型和位置框；根据目标的类型和位置框估算目标状态；根据目标状态确定最佳的跟踪方案。本发明通过利用SwinTrack主干网络可以获取到目标图像的上下文特征信息，使得模型能够更好地理解图像的全局结构和语义信息，从而提高了图像识别和跟踪的准确性。

Description

一种目标图像识别和稳定跟踪方法与系统

技术领域

本发明属于目标跟踪技术领域，更具体地说，是涉及一种目标图像识别和稳定跟踪方法与系统。

背景技术

在现代社会中，随着无人机和其他低空飞行器的广泛应用，低空小目标的识别和跟踪成为了一个重要的研究方向。目前业内对于该问题多数采用的是基于yolo算法识别单帧图像，然后采用deepsort或者sort算法对目标进行跟踪。由于yolo算法在识别单帧图像时无法关联目标在多个帧之间的运动和行为关系，所以导致目标的识别不稳定，同时也无法对目标特征信息进行汇总，使跟踪器无法持续识别和跟踪目标，实际使用体验比较差。

发明内容

为解决上述问题，本发明的目的在于提供一种目标图像识别和稳定跟踪方法与系统。

一种目标图像识别和稳定跟踪方法，包括以下步骤：

步骤1：使用相机采集原始图像；

步骤2：将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息；

步骤3：获取待匹配的目标图像，并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息；

步骤4：将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息；

步骤5：根据所述拼接特征信息计算目标的类型和位置框；

步骤6：根据目标的类型和位置框估算目标状态；

步骤7：根据所述目标状态确定最佳的跟踪方案。

优选的，所述步骤5：根据所述拼接特征信息计算目标的类型和位置框，包括：

步骤5.1：将拼接特征信息输入到编码器中，并使用DeConcat拆分出拼接特征信息中的当前帧图像的特征信息；

步骤5.2：将当前帧图像的特征信息输入到解码器中得到融合后的目标特征信息；

步骤5.3：将所述融合后的目标特征信息输入到分类预测层和位置回归层进行训练并预测得到目标的类型和位置框。

优选的，在所述步骤5.3中，分类预测层的损失函数为：

其中，b为预测目标的边界框，为训练集标注目标的边界框，IoU为标注框和预测框的面积交集/标注框和预测框的面积并集，p为分类得分向量的标量元素的预测值，L_cls为分类预测层的损失函数，q为标注框和预测框的面积交集/标注框和预测框的面积并集，γ为可调节的比例因子，α为第二可调节的比例因子。

优选的，在所述步骤5.3中，位置回归层的损失函数为：

其中，b_j为第j个预测目标的边界框，为训练集标注目标的边界框，/>u代表并集，ac代表最小闭包区域，p₀为调节参数，q为标注框和预测框的面积交集/标注框和预测框的面积并集。

优选的，所述步骤6：根据目标的类型和位置框估算目标状态，包括：

采用卡尔曼滤波算法根据目标的类型和位置框估算目标状态。

优选的，所述步骤7：根据所述目标状态确定最佳的跟踪方案，包括：

步骤7.1：根据目标状态和每个跟踪器的中心点位置构建目标分配代价矩阵；

步骤7.2：使用匈牙利算法对目标分配代价矩阵进行分配计算，通过最小化总代价来确定最佳的跟踪器-目标分配方案。

本发明还提供了一种目标图像识别和稳定跟踪系统，包括：

原始图像获取模块，用于使用相机采集原始图像；

原始图像特征提取模块，用于将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息；

目标图像特征提取模块，用于获取待匹配的目标图像，并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息；

特征拼接模块，用于将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息；

特征信息分析模块，用于根据所述拼接特征信息计算目标的类型和位置框；

目标状态估算模块，用于根据目标的类型和位置框估算目标状态；

跟踪方案确定模块，用于根据所述目标状态确定最佳的跟踪方案。

本发明还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。

本发明提供的一种目标图像识别和稳定跟踪方法与系统的有益效果在于：与现有技术相比，本发明通过利用SwinTrack主干网络可以获取到目标图像的上下文特征信息，使得模型能够更好地理解图像的全局结构和语义信息，从而提高了图像识别和跟踪的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标图像识别和稳定跟踪方法流程图；

图2为本发明实施例提供的一种目标图像识别和稳定跟踪方法原理图；

图3为本发明实施例提供的SwinTrack网络在处理第1帧图像的流程图；

图4为本发明实施例提供的SwinTrack网络在处理第I帧图像的流程图；

图5为本发明实施例提供的编码器网络结构图；

图6为本发明实施例提供的解码器网络结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明采用的技术方案是：

请参阅图1-2，一种目标图像识别和稳定跟踪方法，包括以下步骤：

步骤1：使用相机采集原始图像；

步骤5：根据所述拼接特征信息计算目标的类型和位置框；

进一步的，所述步骤5包括：

具体的，在所述步骤5.3中，分类预测层的损失函数为：

位置回归层的损失函数为：

其中，b_j为第j个预测目标的边界框，为训练集标注目标的边界框，当两个anchor与gtbox都不相交的时候，IoU的loss是一样大的，我们理论认为anchor距离gt box越近，loss应该越小，不应该一样大。这样GIoU就提出来了。GIoU通过计算两个box的最小闭包区域ac来计算loss。底色为红色的范围是Anchor2与Gtbox的最小闭包区域，底色为黄色的范围是Anchor1与Gtbox的最小闭包区域。明显Anchor2的最小闭包区域小，u代表并集，ac代表最小闭包区域，ac越大，L_GIoU值越大。Anchor1的ac大，所以Anchor1的损失更高，公式为p₀为调节参数，q为标注框和预测框的面积交集/标注框和预测框的面积并集。

步骤6：根据目标的类型和位置框估算目标状态；在本发明中，可采用卡尔曼滤波算法根据目标的类型和位置框估算目标状态。

步骤7：根据所述目标状态确定最佳的跟踪方案。

进一步的，所述步骤7包括：

请参阅图3-4，下面结合具体的实施例对本发明上述的目标图像识别和稳定跟踪方法做进一步的说明：

本算法的主要实现功能为低空小目标的图像识别和稳定跟踪与确认，在识别和跟踪的过程中实时获取目标的飞行轨迹，能够引导两轴伺服转台稳定跟踪目标，同时将识别确认的目标信息反馈给用户。其具体的过程如下：

1、将相机对准目标方向，并调整好焦距，实现对目标的清晰成像。

2、目标识别算法通过推流程序获取当前相机的rgb格式的图像数据(640*512像素)，将图像输入到SwinTrack的主干网络中，提取出当前帧图像(第I帧，I大于1)的特征信息X^I。

3、将待匹配的目标图像Z1的像素信息输入到主干网络中，提取出目标的特征信息Z1，后续第I帧图像ZI为前一帧图像特征经过编码器后的输出结果。

4、使用concat将目标的特征信息Z1和当前帧图像的特征信息进行拼接，将拼接后的特征信息U^I矩阵输入到编码器模型中，以获取待匹配目标的特征信息。将拼接的特征信息使用DeConcat拆分为目标特征信息ZI+1和当前帧图像的信息XI。

5、将特征信息XI输入到解码器中获取到目标的融合后的特征信息X。

6、将融合后的特征信息X输入到分类预测层和位置回归层，得到计算目标的类型和位置框。

以上六步为本发明中基于SwinTrack部分的内容。其中，图3和图4中的X^I：表示第I帧(640*512像素)图像经过主干网络后得到的特征矩阵。Z^I：表示第I帧时，由前一帧编码器计算出来的目标特征矩阵拆分后的特征矩阵。Z¹：表示第1帧时，由待跟踪目标的图像经过主干网络后得到的特征矩阵。U^I：表示X^I矩阵和Z^I矩阵合并连接在一起后得到的特征矩阵。X^I：表示由U^I矩阵输入到编码器中获的待匹配目标的特征信息经过DeConcat拆分后包含当前帧图像中计算目标的类型和位置框信息的特征矩阵。X:表示经过解码器后得到的清晰的当前帧图像中计算目标的类型和位置框信息的特征矩阵。Concat：特征矩阵的拼接，即加在一起。DeConcat：特征矩阵的拆分。

编码器：用于搜索融合信息中待匹配目标信息Z^I的神经网络,该模块的网络结构为如图5所示，LN：层归一化操作，对单层神经元结果进行归一化。MSA：多头自注意力模型，FFN：前馈神经网络。

解码器：用于搜索融合信息中待匹配目标信息Z^I的神经网络。该模块的网络结构为如图6所示，其中，LN：层归一化操作，对单层神经元结果进行归一化。MCA：多头交叉注意力模型，FFN：前馈神经网络。

分类预测层：损失函数采用目标框与标注框的IoU来计算。其分类损失函数为：

对于边框回归预测，采用GIoU损失，取值范围[-1,1]。回归损失函数可以表示为：

其中，b_j为第j个预测目标的边界框，为训练集标注目标的边界框，p₀为调节参数，q为标注框和预测框的面积交集/标注框和预测框的面积并集。

7、目标状态估计：

目标状态估计采用卡尔曼滤波算法。卡尔曼滤波算法是一种用于状态估计的递归滤波算法，常用于目标跟踪和传感器融合等应用。

本发明采用目标的位置信息、目标的移动速度、目标的宽高、目标移动的加速度、目标的类型、目标编号做为目标状态向量输入。采用匀速模型卡尔曼滤波预测更新。

P_k＝Kalman([x₁,y₁,x₂,y₂,v,w,h,a,t,ID])

其中，x1、y1、x2、y₂表示目标在图像中的左上角点和右下角点的坐标位置，v是目标的移动速度，w是目标的宽度，h是目标的高度，a是目标移动的加速度，t是目标的类型，ID是目标的编号，P_k为目标状态的估计值，可以用来跟踪目标在图像中的位置、预测目标的未来位置和速度，以及提供关于目标属性和身份的信息。

8、计算分配代价矩阵：

通过检测算法记录并计算检测到的目标的中心点位置，然后通过待匹配目标、卡尔曼滤波预测模型的目标信息、当前跟踪的目标使用欧式距离进行计算其欧式距离分配代价矩阵，代价矩阵表示了每个跟踪器与待分配目标之间的距离或相似度，以帮助确定最佳分配。

C(i,j)＝||p(i)-q(j)||

其中，p(i)是第i个跟踪器的中心点位置，q(j)是第j个待分配目标的中心点位置，||.||表示欧式距离的计算。

9、使用匈牙利算法对目标分配代价矩阵进行分配计算，通过最小化总代价来确定最佳的跟踪器-目标分配方案，最终得到目标跟踪的分配结果，并为同一个目标分配相同的跟踪编号ID。

10、对于分配同一个跟踪编号ID的目标，如果其前后帧之间中心点欧式距离操作阈值d时，对后一帧目标分配新的跟踪编号ID。

根据本发明具体的实施例本发明公开了以下有益效果：

1、采用了分阶段的多尺度特征表示方法，通过分解图像空间和通道空间，有效地捕捉了不同尺度下的目标信息。这种分阶段的特征表示方式使得模型能够在保持高精度的同时具备较高的计算效率。

2、引入了局部感知窗口和全局感知窗口的概念，通过多层次的窗口交互，实现了全局感知能力的提升。这使得模型能够更好地理解图像的全局结构和语义信息，从而提高了图像识别和跟踪的准确性。

3、采用了局部注意力机制和全局注意力机制的组合，通过自注意力机制来捕捉图像中的长距离依赖关系。这种注意力机制的设计使得模型能够更好地聚焦于重要的目标信息，提高了图像识别和跟踪的精度。

4、具有较好的可扩展性和泛化能力。它可以适应不同尺度和分辨率的图像输入，并且在不同任务和数据集上都能取得优秀的性能。

5、跟踪算法采用了运动状态、像素距离的计算使得目标跟踪时其位置信息通过阈值可控，有效避免了同类型目标集群闯入的跟踪编号ID设置不可控状态。

本发明还提供了一种目标图像识别和稳定跟踪系统，包括：

原始图像获取模块，用于使用相机采集原始图像；

与现有技术相比，本发明提供的一种目标图像识别和稳定跟踪系统的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同，在此不做赘述。

与现有技术相比，本发明提供的电子设备的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同，在此不做赘述。

与现有技术相比，本发明提供的一种计算机可读存储介质的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同，在此不做赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标图像识别和稳定跟踪方法，其特征在于，包括以下步骤：

步骤1：使用相机采集原始图像；

步骤5：根据所述拼接特征信息计算目标的类型和位置框；

步骤6：根据目标的类型和位置框估算目标状态；

步骤7：根据所述目标状态确定最佳的跟踪方案。

2.如权利要求1所述的一种目标图像识别和稳定跟踪方法，其特征在于，所述步骤5：根据所述拼接特征信息计算目标的类型和位置框，包括：

3.如权利要求2所述的一种目标图像识别和稳定跟踪方法，其特征在于，在所述步骤5.3中，分类预测层的损失函数为：

4.如权利要求2中任意一项所述的一种目标图像识别和稳定跟踪方法，其特征在于，在所述步骤5.3中，位置回归层的损失函数为：

5.如权利要求1所述的一种目标图像识别和稳定跟踪方法，其特征在于，所述步骤6：根据目标的类型和位置框估算目标状态，包括：

6.如权利要求1所述的一种目标图像识别和稳定跟踪方法，其特征在于，所述步骤7：根据所述目标状态确定最佳的跟踪方案，包括：

7.一种目标图像识别和稳定跟踪系统，其特征在于，包括：

原始图像获取模块，用于使用相机采集原始图像；

8.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1-6中任一项所述的一种目标图像识别和稳定跟踪方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的一种目标图像识别和稳定跟踪方法中的步骤。