CN117197249B

CN117197249B - 目标位置确定方法、装置、电子设备及存储介质

Info

Publication number: CN117197249B
Application number: CN202311478160.2A
Authority: CN
Inventors: 谢永虎; 苏芝娟; 李梦薇; 吴日红
Original assignee: Beijing Guanwei Technology Co ltd
Current assignee: Beijing Guanwei Technology Co ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-30
Anticipated expiration: 2043-11-08
Also published as: CN117197249A

Abstract

本发明提供一种目标位置确定方法、装置、电子设备及存储介质，涉及计算机视觉技术领域，该方法包括：采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用骨干网络的搜索分支，提取当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据第一特征图和搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据多尺度信息引导图和搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据目标融合图，确定当前帧图像的相邻帧图像对应的目标位置信息。采用骨干网络的搜索分支和模板分支，增强了特征图的视觉特征，以有效区分前景和背景，使得最终能够确定准确性较高的目标位置信息。

Description

目标位置确定方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标位置确定方法、装置、电子设备及存储介质。

背景技术

视觉目标追踪是计算机视觉技术领域中的一项基本任务。该视觉目标追踪的目的是估计任意目标在视频序列中的位置信息，只给定该目标在初始帧图像中的位置信息。

近年来，目标追踪由于能够同时捕获高级语义知识和低级细节信息而取得了优异的性能，但会存在来自浅层的低级特征包含混乱信息的问题，整个过程很容易受到背景噪声的干扰，导致一些不显著的背景被误认为待追踪的目标，此外，由于目标体积占比小且卫星视频的分辨率不够，前景与背景相似，使得卫星视频中目标的视觉特征不明显，导致最终得到的目标位置信息不够准确。

发明内容

本发明提供一种目标位置确定方法、装置、电子设备及存储介质，用以解决现有技术中会将一些不显著的背景被误认为待追踪的目标，同时，由于卫星视频中目标的视觉特征不明显，导致最终得到的目标位置信息不够准确的缺陷，实现采用骨干网络的搜索分支和模板分支，增强了特征图的视觉特征，以有效区分前景和背景，使得最终能够确定准确性较高的目标位置信息。

本发明提供一种目标位置确定方法，包括：

S1、采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；

S2、根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；

S3、根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；

S4、根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。

根据本发明提供的一种目标位置确定方法，所述根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图，包括：根据所述多尺度信息引导图、所述搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图；根据所述融合图、所述搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定所述目标融合图。

根据本发明提供的一种目标位置确定方法，所述多尺度信息引导图包括第一尺度信息引导图和第二尺度信息引导图；所述根据所述多尺度信息引导图、所述搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图，包括：采用所述第一尺度信息引导图，对所述搜索图像在第三阶段对应的第二特征图进行特征细化，得到第一细化特征图；采用所述第二尺度信息引导图，对所述搜索图像在第四阶段对应的第二特征图进行特征细化，得到第二细化特征图；对所述第一细化特征图和所述第二细化特征图进行跨层特征融合，得到所述融合图。

根据本发明提供的一种目标位置确定方法，所述根据所述融合图、所述搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定所述目标融合图，包括：采用所述融合图，对所述搜索图像在第一阶段对应的第二特征图进行特征细化，得到第三细化特征图；采用所述融合图，对所述搜索图像在第二阶段对应的第二特征图进行特征细化，得到第四细化特征图；对所述第三细化特征图和所述第四细化特征图进行跨层特征融合，得到所述目标融合图。

根据本发明提供的一种目标位置确定方法，所述根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图，包括：将所述第一特征图与所述搜索图像在第五阶段对应的第二特征图进行特征交互，得到交互特征图；将所述交互特征图输入至上下文特征学习模型，得到所述上下文特征学习模型输出的所述多尺度信息引导图。

根据本发明提供的一种目标位置确定方法，所述根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息，包括：采用解码器，确定目标帧图像各自序列信息形成的轨迹映射，所述目标帧图像包括所述当前帧图像、第n帧图像，及所述当前帧图像与所述第n帧图像之间的帧图像；将所述目标融合图输入至所述解码器，对所述轨迹映射进行追踪，得到所述相邻帧图像对应的目标位置信息。

根据本发明提供的一种目标位置确定方法，所述方法还包括：将所述相邻帧图像确定为新的当前帧图像，并重复执行上述步骤S1-S4，直至确定目标帧图像各自对应的目标位置信息，所述目标帧图像包括所述当前帧图像、第n帧图像，及所述当前帧图像与所述第n帧图像之间的帧图像，n为正整数；根据所述目标帧图像各自对应的目标位置信息，确定目标检测结果。

本发明还提供一种目标位置确定装置，包括：

图像处理模块，采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；

位置信息确定模块，用于根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标位置确定方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标位置确定方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述目标位置确定方法。

本发明提供的目标位置确定方法、装置、电子设备及存储介质，通过采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。该方法采用骨干网络的搜索分支和模板分支，增强了特征图的视觉特征，以有效区分前景和背景，使得最终能够确定准确性较高的目标位置信息。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标位置确定方法的场景示意图；

图2是本发明提供的目标位置确定方法的流程示意图；

图3是本发明提供的目标位置确定装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为更好地理解本发明实施例，首先对现有技术进行详细阐述：

现有的目标追踪方法通常采用分而治之的策略，将追踪问题分解为多个子任务，如目标尺度估计和中心点定位。每个子任务由一个特定的头部网络组成，如Siamfc++和SiamRPN等采用分类头进行目标定位估计，回归头进行目标尺度估计。在这些经典算法的基础上，针对卫星视频的目标特点，引入了目标的运动信息，以提高追踪准确性，如空间规整网络（Spatial Regulation Network，SRN）算法或设计-分布式业务网络（In Design -Distributed Service Network，ID-DSN）算法。然而，在这种分而治之的基础上，会增加额外分支的方法，提高了目标追踪方法的复杂性。

此外，卫星视频中的光照条件可能会因为时间和天气等因素而发生变化，同时，遥感影像质量也可能会受到云层和大气层等因素的影响，使得前景和背景变得模糊。虽然转换器（Transformer），如视觉转换器（vision Transformer），已成功应用于视觉目标追踪任务的特征提取环节，可显著提高目标追踪性能。但由转换器Transformer构建得到的追踪器会产生一个新的问题：转换器Transformer的全局自注意视角会导致主要信息（如搜索区域内的目标）聚焦不足，而次要信息（如搜索区域内的背景）过度聚焦，使得前景和背景之间的边缘区域变得模糊，即使得卫星视频中目标的视觉特征不明显，不适合卫星视频中的目标特征提取，进而导致最终得到的目标位置信息不够准确。

为解决上述技术问题，本发明提供一种目标位置确定方法，如图1所示，是本发明提供的目标位置确定方法的场景示意图。从图1中可以看出，电子设备可采用骨干网络确定当前帧图像对应的目标融合图，并采用解码器对该目标融合图进行处理，得到所述相邻帧图像对应的目标位置信息，以备后续确定卫星视频中的目标检测结果，即目标运行轨迹。该方法采用骨干网络的搜索分支和模板分支，增强了特征图的视觉特征，以有效区分前景和背景，使得最终能够确定准确性较高的目标位置信息，进而得到准确性较高的目标检测结果。

需要说明的是，本发明实施例涉及的执行主体可以是目标位置确定装置，也可以是电子设备，可选的，该电子设备可以包括：计算机、移动终端及可穿戴设备等。

下面以电子设备为例对本发明实施例进行进一步地说明。

如图2所示，是本发明提供的目标位置确定方法的流程示意图，可以包括：

201、采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用骨干网络的搜索分支，提取当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图。

其中，骨干网络采用了类似ResNet-50结构的孪生网络，该孪生网络包括两个分支，分别为模板分支和搜索分支，这两个分支分别具有五个阶段，各阶段中最后一个残差块的输出结果即为图像在该阶段对应的特征图。

当前帧图像为电子设备获取的卫星视频中的某一帧图像，可选的，该当前帧图像可以为该视频中的首帧图像。

模板图像与搜索图像均与上述当前帧图像对应，该模板图像与该搜索图像的区别仅在于尺寸不同。

卫星在采集卫星视频之后，可将该卫星视频向电子设备发送；该电子设备在接收到卫星视频之后，可确定该卫星视频中的当前帧图像，并确定该当前帧图像对应的模板图像和搜索图像；该电子设备采用骨干网络的模板分支，对该模板图像进行特征提取，得到该模板图像在第五阶段对应的第一特征图，即该第一特征图的数量为一个；该电子设备再利用该骨干网络的搜索图像，对该搜索图像进行特征提取，得到该搜索图像在五个阶段各自对应的第二特征图，即该第二特征图的数量为五个。

示例性的，结合上述图1，电子设备在采用模板分支对模板图像进行特征提取的过程中，可先在第一阶段对该模板图像进行特征提取，得到特征图Fe11；再在第二阶段对该特征图Fe11进行特征提取，得到特征图Fe12；之后，在第三阶段对该特征图Fe12进行特征提取，得到特征图Fe13；进一步地，在第四阶段对该特征图Fe13进行特征提取，得到特征图Fe14；最后，在第五阶段对该特征图Fe14进行特征提取，得到特征图Fe15。这五个特征图的步长分别为{2,4,8,16,32}像素，由于卫星视频中的目标尺寸相对较小，因此，会将特征图Fe14的步长从16减少到8，并将特征图Fe15的步长从32减少到8，此时，这五个特征图的步长分别为{2,4,8,8,8}像素。同时，该电子设备再采用卷积来增加特征图Fe14和特征图Fe15的感受野，对应的扩张率分别为2和4。需要说明的是，虽然整个过程可以确定五个特征图，但在后续的数据处理过程只使用了特征图Fe15，该特征图Fe15即为第一特征图。

示例性的，结合上述图1，电子设备在采用搜索分支对搜索图像进行特征提取的过程中，可先在第一阶段对该搜索图像进行特征提取，得到第二特征图Fe21；再在第二阶段对该第二特征图Fe21进行特征提取，得到第二特征图Fe22；之后，在第三阶段对该第二特征图Fe22进行特征提取，得到第二特征图Fe23；进一步地，在第四阶段对该第二特征图Fe23进行特征提取，得到第二特征图Fe24；最后，在第五阶段对该第二特征图Fe24进行特征提取，得到第二特征图Fe25。这五个第二特征图的步长分别为{2,4,8,16,32}像素，由于卫星视频中的目标尺寸相对较小，因此，会将第二特征图Fe24的步长从16减少到8，并将第二特征图Fe25的步长从32减少到8，此时，这五个第二特征图的步长分别为{2,4,8,8,8}像素。同时，该电子设备再采用卷积来增加第二特征图Fe24和第二特征图Fe25的感受野，对应的扩张率分别为2和4。

可选的，针对搜索分支的各阶段，如第一阶段，电子设备在该第一阶段对该搜索图像进行特征提取，得到第二特征图Fe21的过程中，可先在该第一阶段对该搜索图像进行特征提取，得到初始第二特征图F1；为了降低计算成本和增强边缘输出特征的表示能力，该电子设备再对该初始第二特征图F1进行特征处理，即采用卷积层进行卷积操作，并将该初始第二特征图F1的通道数减少到预设数量，得到增强的边缘输出特征，即得到第二特征图Fe21。其中，上述卷积层的卷积核大小为3×3，预设数量为64。

可以理解的是，由于各个阶段的处理过程相同，所以，基于上述第一阶段的处理过程，即可明确其它阶段的处理过程，此处不作具体赘述。

需要说明的是，在搜索分支中，可将这五个阶段分为三个小分支，分别为浅层信息分支、深层信息分支和全局信息分支。其中，浅层信息分支包括第一阶段和第二阶段，深层信息分支包括第三阶段和第四阶段，全局信息分支包括第五阶段。

其中，浅层信息分支对应第二特征图{Fe21,Fe22}，深层信息分支对应第二特征图{Fe23,Fe24}；全局信息分支对应第二特征图{Fe25}。

此外，上述三个小分支从上到下分别生成初始的粗显著图、相对精细的显著图和精细显著图。其中，该初始的粗显著图携带有位置细节特征，该相对精细的显著图携带有语义知识，精细显著图携带有全局上下文信息。

202、根据第一特征图和搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图。

其中，多尺度信息引导图也可称为全局引导图，能够作为引导信息对其它特征图进行特征细化，即从其它特征图中提取更为准确的目标位置细节特征。

电子设备在获取模板图像在第五阶段对应的第一特征图，及全局信息分支对应的第二特征图之后，可对该第一特征图与该第二特征图进行处理，得到多尺度信息引导图，以备后续与浅层信息分支对应的第二特征图及深层信息分支对应的第二特征图进行结合，确定目标融合图。

在一些实施例中，电子设备根据第一特征图和搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图，可以包括：电子设备将第一特征图与搜索图像在第五阶段对应的第二特征图进行特征交互，得到交互特征图；该电子设备将交互特征图输入至上下文特征学习模型，得到上下文特征学习模型输出的多尺度信息引导图。

上下文特征学习模型用以捕获不同尺度的特征图所对应的丰富全局上下文信息。

电子设备在将第一特征图与搜索图像在第五阶段对应的第二特征图进行特征交互的过程中，可将参考图像的先验知识注入到搜索分支中，以得到新的搜索帧特征图像，即交互特征图nB5；该电子设备再将该交互特征图作为上下文特征学习模型的输入数据，采用该上下文特征学习模型对该交互特征图进行特征捕捉，得到特征信息较为丰富的多尺度信息引导图。

示例性的，上下文特征学习模型对交互特征图进行特征捕捉，以确定多尺度信息引导图的过程，可以包括以下几个步骤：

步骤1、受到金字塔池化模型（Pyramid Pool Model，PPM）的启发，该上下文特征学习模型首先采用级联的四个池化层分别对该交互特征图nB5进行池化操作，得到第一池化特征图nb5i，i∈{1,2,3,4}，即该第一池化特征图的数量为四个。其中，上述四个池化层对应的池化核大小分别为1×1、2×2、3×3和6×6。

步骤2、采用卷积层将该第一池化特征图nb5i的通道均减少到N/4，得到第二池化特征图nB5i，即该第二池化特征图的数量为四个，其中，N表示第一池化特征图nb5i的通道数量，卷积层的卷积核大小为1×1。

步骤3、由于不同池化层对应的第二池化特征图包含不同的目标感受野信息，为了探索在第二池化特征图nB5i的互补信息，可先将该第二池化特征图nB5i进行上采样，得到第三池化特征图nB5upi，即该第三池化特征图的数量为四个。

步骤4、将该第三池化特征图nB5upi进行逐步融合，得到池化融合图，进而与交互特征图nB5连接，得到特征连接图X。

步骤5、采用通道注意模块生成通道向量A，A∈R^1×1×2N，其中，通道向量A编码了多尺度特征通道的重要信息；为了细化第三池化特征图nB5upi，可将通道向量A分成通道向量{a1,a2,a3,a4,a5}，其中，a5∈R^1×1×N，其它aj∈R^1×1×N/4，j∈{1,2,3,4}。此外，通道向量{a1,a2,a3,a4,a5}隐式地反映了不同尺度下特征图的相对贡献。

步骤6、将通道向量{a1,a2,a3,a4}分别与对应的第三池化特征图nB5upi，i∈{1,2,3,4}进行融合，得到四个融合结果，并将通道向量a5与交互特征图nB5进行融合，得到第五个融合结果；再将这五个融合结果与上述特征连接图X进行融合，得到目标融合结果。

步骤7、对该目标融合结果进行卷积，得到全局显著性特征图M，。其中，该全局显著性特征图M可提供目标的粗略位置信息，/>表示实数；/>表示全局显著性特征图M对应的宽通道；/>表示全局显著性特征图M对应的高通道。可选的，该全局显著性特征图M可用公式M=σ(w₂*(σ(w₁*Z+b₁))+b₂)；σ表示预设参数；w₁表示3×3×N卷积层的权值；b₁表示3×3×N卷积层的偏置；w₂表示3×3×3卷积层的权值；b₂表示3×3×3卷积层的偏置。

步骤8、为了将更多的位置信息能够有效传递给深度信息分支对应的第二特征图以备后续进行特征细化，可将全局显著性特征图M沿着对应的通道维数拆分为多个尺度信息引导图m，并使该尺度信息引导图m与深度信息分支中对应的第二特征图具有相同的分辨率。这样一来，使用具有不同尺度细化功能的低分辨率引导图，可有效提高上下文特征学习模型的灵活性。

203、根据多尺度信息引导图和搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图。

电子设备在获取多尺度信息引导图、浅层信息分支对应的两个第二特征图和深层信息分支对应的两个第二特征图之后，根据该多尺度信息引导图和这四个第二特征图，得到准确性较高的目标融合图，以备后续能够准确确定当前帧图像的相邻帧图像对应的目标位置信息。

需要说明的是，步骤202和203可实现所有小分支在级联优化策略中聚合，以被后续产生最终的预测结果（即相邻帧图像对应的目标位置信息）较为准确，整个过程旨在指导目标的特征学习和抑制背景噪声。

在一些实施例中，电子设备根据多尺度信息引导图和搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图，可以包括：电子设备根据多尺度信息引导图、搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图；该电子设备根据融合图、搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定目标融合图。

电子设备在获取多尺度信息引导图、浅层信息分支对应的第二特征图和深层信息分支对应的第二特征图之后，可先根据该多尺度信息引导图和深层信息分支对应的第二特征图进行融合，即根据该多尺度信息引导图、搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，得到融合图；再根据该融合图和浅层信息分支对应的第二特征图进行融合，即根据该融合图搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，得到目标融合图，该目标融合图的准确性较高，以便后续能够准确确定当前帧图像的相邻帧图像对应的目标位置信息。

在一些实施例中，多尺度信息引导图m包括第一尺度信息引导图m1和第二尺度信息引导图m2；电子设备根据多尺度信息引导图、搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图，可以包括：电子设备采用第一尺度信息引导图，对搜索图像在第三阶段对应的第二特征图进行特征细化，得到第一细化特征图；该电子设备采用第二尺度信息引导图，对搜索图像在第四阶段对应的第二特征图进行特征细化，得到第二细化特征图；该电子设备对第一细化特征图和第二细化特征图进行跨层特征融合，得到融合图。

电子设备在根据多尺度信息引导图和深层信息分支对应的第二特征图，确定融合图的过程中，可采用空间逐元素乘法，以第一尺度信息引导图为第一引导信息，对搜索图像在第三阶段对应的第二特征图Fe23进行特征细化，得到第一细化特征图Fh3，同时，以第二尺度信息引导图为第二引导信息，对该搜索图像在第四阶段对应的第二特征图Fe24进行特征细化，得到第二细化特征图Fh4，该第一细化特征图Fh3和该第二细化特征图Fh4可以迅速聚焦在重要的区域学习语义；然后，该电子设备再对该第一细化特征图Fh3和该第二细化特征图Fh4进行跨层特征融合，得到准确性较高的融合图。

可选的，为了有效地融合同一分支内不同层次的相似特征，提出了一种跨层特征融合模块。电子设备在对第一细化特征图Fh3和第二细化特征图Fh4进行跨层特征融合，得到融合图的过程中，可将该第一细化特征图Fh3和该第二细化特征图Fh4输入至该跨层特征融合模块，该跨层特征融合模块再通过挖掘相似性和互补性来实现对这两个细化特征图进行跨层特征融合，得到准确性较高的融合图。

具体的，在跨层特征融合模块对这两个细化特征图进行跨层特征融合，得到融合图的过程中，可先对于分辨率较低的第二细化特征图Fh4进行双线性插值，使得处理后的第二细化特征图Fh4的分辨率与第一细化特征图Fh3的分辨率相同，此时，可将相同分辨率的这两个细化特征图进行融合，得到初始融合特征Fc1；接着，采用空间注意单元，生成细化特征图{Fh3,Fh4}对应的共享空间权重图并进行细化，从而充分利用其他层次的有益信息；接着，该电子设备利用上述共享空间权重图，得到细化特征图{Fh3,Fh4}对应的细化特征图{F’h3,Fh’4}并进行融合，得到准确性较高的融合图。

需要说明的是，电子设备确定第一细化特征图与该电子设备确定第二细化特征图的时序不限。

在一些实施例中，电子设备根据融合图、搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定目标融合图，可以包括：电子设备采用融合图，对搜索图像在第一阶段对应的第二特征图进行特征细化，得到第三细化特征图；该电子设备采用融合图，对搜索图像在第二阶段对应的第二特征图进行特征细化，得到第四细化特征图；该电子设备对第三细化特征图和第四细化特征图进行跨层特征融合，得到目标融合图。

电子设备在根据融合图和浅层信息分支对应的第二特征图进行融合，确定目标融合图的过程中，以融合图为引导信息，对搜索图像在第一阶段对应的第二特征图Fe21和该搜索图像在第二阶段对应的第二特征图Fe22进行加权处理，得到第三细化特征图Fh1和第四细化特征图Fh2；然后，该电子设备再对该第三细化特征图Fh1和该第四细化特征图Fh2进行跨层特征融合，可将来自深层信息分支的重要语义知识将传递到浅层信息分支，辅助第二特征图{Fe21,Fe22}能够选择性地关注突出对象（如图像中目标）的细节特征，忽略杂乱的背景，得到准确性较高的目标融合图。

可选的，电子设备根据公式，得到第三细化特征图Fh1和第四细化特征图Fh2。

其中，i∈{1,2}；S2表示深层信息分支产生的相对精细的显著性特征；表示同或运算；up×2^(4-i)(S2)表示上采样显著性特征S2的因子2^(4-i)。

可选的，为了有效地融合同一分支内不同层次的相似特征，提出了一种跨层特征融合模块。电子设备在对第三细化特征图Fh1和第四细化特征图Fh2进行跨层特征融合，得到目标融合图的过程中，可将该第三细化特征图Fh1和该第四细化特征图Fh2输入至该跨层特征融合模块，该跨层特征融合模块再通过挖掘相似性和互补性来实现对这两个细化特征图进行跨层特征融合，得到准确性较高的目标融合图。

具体的，在跨层特征融合模块对这两个细化特征图进行跨层特征融合，得到目标融合图的过程中，可先对于分辨率较低的第四细化特征图Fh2进行双线性插值，使得处理后的第四细化特征图Fh2的分辨率与第三细化特征图Fh1的分辨率相同，此时，可将相同分辨率的这两个细化特征图进行融合，得到初始融合特征Fc2；接着，采用空间注意单元，生成细化特征图{Fh1,Fh2}共享的空间权重图并进行细化，从而充分利用其他层次的有益信息；接着，该电子设备利用上述共享空间权重图，得到细化特征图{Fh1,Fh2}对应的细化特征图{F’h1,Fh’2}并进行连接，生成边界清晰的精细特征，即得到准确性较高的融合图。

需要说明的是，电子设备确定第三细化特征图与该电子设备确定第四细化特征图的时序不限。

204、根据目标融合图，确定当前帧图像的相邻帧图像对应的目标位置信息。

电子设备根据目标融合图，能够得到准确性较高的相邻帧图像所对应的目标位置信息。

在一些实施例中，电子设备根据目标融合图，确定当前帧图像的相邻帧图像对应的目标位置信息，可以包括：电子设备采用解码器，确定目标帧图像各自序列信息形成的轨迹映射，目标帧图像包括当前帧图像、第n帧图像，及当前帧图像与第n帧图像之间的帧图像；该电子设备将目标融合图输入至解码器，对轨迹映射进行追踪，得到相邻帧图像对应的目标位置信息。

其中，解码器是一个因果转换器（transformer）。在解码器中，每个块可以包括：一个掩码多头注意、一个多头注意和一个前馈网络（Feed Forward Network，FFN）组成。该解码器的循环次数与目标帧图像的数量相同。

目标帧图像为卫星视频中的连续帧图像。

可选的，上述第n帧图像可以为该视频中的最后一帧图像。

电子设备在根据目标融合图，确定当前帧图像的相邻帧图像对应的目标位置信息的过程中，可先采用解码器，确定目标帧图像各自序列信息形成的轨迹映射；再将该目标融合图输入至该解码器，对该解码器生成的轨迹映射进行位置追踪，以得到准确性较高的相邻帧图像所对应的目标位置信息。

具体的，电子设备采用解码器，确定当前帧图像的相邻帧图像对应的目标位置信息的过程，可以包括以下几个步骤：

步骤1、将目标融合图中的目标边界框转换为一个离散的坐标符号（token）。具体来说，根据卫星视频对应数据集的标注习惯和为了更符合先验知识（优先确定目标位置，再确定目标范围），该目标边界框由该目标边界框的中心点[x,y]和尺度[w,h]决定，有助于提高追踪的准确性。解码器会采用[x,y,w,h]的格式，该格式符合先验知识：首先定位目标边界框对应目标的位置[x,y]，然后再估计该目标的尺度[w,h]。该目标边界框对应的每个连续坐标被均匀离散成[1, nbins]之间的整数，并对所有坐标使用共享词汇V。由于[1,nbins]之间的每一个整数都可以看作共享词汇V中的一个单词，所以，该共享词汇V的大小是nbins。

大多数追踪器不是在全分辨率帧上追踪，而是裁剪搜索区域以减少计算成本，这意味着目标融合图中目标相对于搜索区域的坐标。为了获得统一的表示，需要将不同帧图像的方框映射到同一坐标系中。解码器会将前面目标帧图像各自的序列信息（如框坐标）缓存到全局坐标系中，并在搜索区域裁剪后，将所有框坐标映射到当前坐标系。

词汇表的表示范围可以根据搜索区域的大小来设置，但是由于目标的快速移动，前面的轨迹序列有时可能会超出搜索区域的边界。为了解决这个问题，可将表示范围扩展为搜索区域范围的倍数（例如，若搜索区域范围为[0.0,1.0]，表示范围扩展则为[-0.5,1.5]）。这使得词汇表能够包含位于搜索区域之外的坐标，这反过来又允许解码器能够捕获更多用于追踪的先前运动线索，并预测扩展到搜索区域之外的边界框。

增加命令tocken（C），可提供一个轨迹建议，以得到目标帧图像各自序列信息形成的轨迹映射。

步骤2、解码器包括自注意层和交叉注意层，在该自注意层和该交叉注意层并行处理的过程中，该自注意层在坐标符号之间进行自注意（带因果掩码），传递时空信息；交叉注意层结合动作线索和搜索帧视觉线索来做出最终的预测。为了提高追踪效率，该自注意层和该交叉注意层被解耦并单独堆叠。这样，可并行地进行视觉特征的交叉注意。

步骤3、不需要使用额外的坐标符号token来结束序列预测，因为序列长度是固定的。在得到离散的坐标符号token之后，可对该离散的坐标符号token进行去量化，得到相邻帧图像对应的目标位置信息。

需要说明的是，上述过程由于特征提取和目标检测结果的确定均在解码器中执行，所以，无需增加额外的分支，降低了算法的复杂性。

在一些实施例中，在步骤204之后，该方法还可以包括：电子设备将相邻帧图像确定为新的当前帧图像，并重复执行上述步骤S1-S4，直至确定目标帧图像各自对应的目标位置信息，目标帧图像包括当前帧图像、第n帧图像，及当前帧图像与第n帧图像之间的帧图像，n为正整数；该电子设备根据目标帧图像各自对应的目标位置信息，确定目标检测结果。

其中，目标检测结果为卫星视频中的目标运行轨迹。

电子设备在获取卫星视频之后，可确定该卫星视频对应的目标帧图像，该目标帧图像为连续帧图像；并遍历该连续帧图像，针对当前帧图像，先确定当前帧图像的相邻帧图像对应的目标位置信息，并将该相邻帧图像确定为新的当前帧图像，以得到目标帧图像各自对应的目标位置信息，进而根据所有目标位置信息，准确确定该卫星视频中的目标运行轨迹。

示例性的，电子设备采用解码器，确定目标检测结果的过程，可以包括以下几个步骤：步骤1、将目标帧图像中的目标边界框转换为一系列离散的坐标符号token，并确定该目标帧图像各自序列信息形成的轨迹映射。步骤2、解码器采用自注意层和交叉注意层对轨迹映射并行地进行视觉特征的交叉注意。步骤3、不需要使用额外的坐标符号token来结束序列预测，因为序列长度是固定的。在得到一系列离散的坐标符号token之后，可对该一系列离散的坐标符号token进行去量化，得到连续坐标，即得到卫星视频中的目标检测结果。

在本发明实施例中，采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用骨干网络的搜索分支，提取当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据第一特征图和搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据多尺度信息引导图和搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据目标融合图，确定当前帧图像的相邻帧图像对应的目标位置信息。该方法采用骨干网络的搜索分支和模板分支，增强了特征图的视觉特征，以有效区分前景和背景，使得最终能够确定准确性较高的目标位置信息。

下面对本发明提供的目标位置确定装置进行描述，下文描述的目标位置确定装置与上文描述的目标位置确定方法可相互对应参照。

如图3所示，是本发明提供的目标位置确定装置的结构示意图，可以包括：

图像处理模块301，用于S1、采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用该骨干网络的搜索分支，提取该当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；S2、根据该第一特征图和该搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；S3、根据该多尺度信息引导图和该搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；

位置信息确定模块302，用于S4、根据该目标融合图，确定该当前帧图像的相邻帧图像对应的目标位置信息。

可选的，图像处理模块301，具体用于根据该多尺度信息引导图、该搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图；根据该融合图、该搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定该目标融合图。

可选的，该多尺度信息引导图包括第一尺度信息引导图和第二尺度信息引导图；图像处理模块301，具体用于采用该第一尺度信息引导图，对该搜索图像在第三阶段对应的第二特征图进行特征细化，得到第一细化特征图；采用该第二尺度信息引导图，对该搜索图像在第四阶段对应的第二特征图进行特征细化，得到第二细化特征图；对该第一细化特征图和该第二细化特征图进行跨层特征融合，得到该融合图。

可选的，图像处理模块301，具体用于采用该融合图，对该搜索图像在第一阶段对应的第二特征图进行特征细化，得到第三细化特征图；采用该融合图，对该搜索图像在第二阶段对应的第二特征图进行特征细化，得到第四细化特征图；对该第三细化特征图和该第四细化特征图进行跨层特征融合，得到该目标融合图。

可选的，图像处理模块301，具体用于将该第一特征图与该搜索图像在第五阶段对应的第二特征图进行特征交互，得到交互特征图；将该交互特征图输入至上下文特征学习模型，得到该上下文特征学习模型输出的该多尺度信息引导图。

可选的，位置信息确定模块302，具体用于采用解码器，确定目标帧图像各自序列信息形成的轨迹映射，该目标帧图像包括该当前帧图像、第n帧图像，及该当前帧图像与该第n帧图像之间的帧图像；将该目标融合图输入至该解码器，对该轨迹映射进行追踪，得到该相邻帧图像对应的目标位置信息。

可选的，图像处理模块301，还用于将该相邻帧图像确定为新的当前帧图像，并重复执行上述步骤S1-S4，直至确定目标帧图像各自对应的目标位置信息，该目标帧图像包括该当前帧图像、第n帧图像，及该当前帧图像与该第n帧图像之间的帧图像，n为正整数；根据该目标帧图像各自对应的目标位置信息，确定目标检测结果。

如图4所示，是本发明提供的电子设备的结构示意图，该电子设备可以包括：处理器（processor）410、通信接口（Communications Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行目标位置确定方法，该方法包括：采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标位置确定方法，该方法包括：采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标位置确定方法，该方法包括：采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；根据所述第一特征图和所述搜索图像在第五阶段对应的第二特征图，确定多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；根据所述目标融合图，确定所述当前帧图像的相邻帧图像对应的目标位置信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标位置确定方法，其特征在于，包括：

S1、采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；其中，所述骨干网络为ResNet-50结构的孪生网络；

S2、将所述第一特征图与所述搜索图像在第五阶段对应的第二特征图进行特征交互，得到交互特征图；将所述交互特征图输入至上下文特征学习模型，得到所述上下文特征学习模型输出的多尺度信息引导图；

S4、采用解码器，确定目标帧图像各自序列信息形成的轨迹映射，所述目标帧图像包括所述当前帧图像、第n帧图像，及所述当前帧图像与所述第n帧图像之间的帧图像；将所述目标融合图输入至所述解码器，对所述轨迹映射进行追踪，得到相邻帧图像对应的目标位置信息；其中，所述解码器为因果转换器。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图，包括：

根据所述多尺度信息引导图、所述搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图；

根据所述融合图、所述搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定所述目标融合图。

3.根据权利要求2所述的方法，其特征在于，所述多尺度信息引导图包括第一尺度信息引导图和第二尺度信息引导图；所述根据所述多尺度信息引导图、所述搜索图像在第三阶段对应的第二特征图和在第四阶段对应的第二特征图，确定融合图，包括：

采用所述第一尺度信息引导图，对所述搜索图像在第三阶段对应的第二特征图进行特征细化，得到第一细化特征图；

采用所述第二尺度信息引导图，对所述搜索图像在第四阶段对应的第二特征图进行特征细化，得到第二细化特征图；

对所述第一细化特征图和所述第二细化特征图进行跨层特征融合，得到所述融合图。

4.根据权利要求2所述的方法，其特征在于，所述根据所述融合图、所述搜索图像在第一阶段对应的第二特征图和在第二阶段对应的第二特征图，确定所述目标融合图，包括：

采用所述融合图，对所述搜索图像在第一阶段对应的第二特征图进行特征细化，得到第三细化特征图；

采用所述融合图，对所述搜索图像在第二阶段对应的第二特征图进行特征细化，得到第四细化特征图；

对所述第三细化特征图和所述第四细化特征图进行跨层特征融合，得到所述目标融合图。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

将所述相邻帧图像确定为新的当前帧图像，并重复执行上述步骤S1-S4，直至确定目标帧图像各自对应的目标位置信息，所述目标帧图像包括所述当前帧图像、第n帧图像，及所述当前帧图像与所述第n帧图像之间的帧图像，n为正整数；

根据所述目标帧图像各自对应的目标位置信息，确定目标检测结果。

6.一种目标位置确定装置，其特征在于，包括：

图像处理模块，采用骨干网络的模板分支，提取当前帧图像对应的模板图像在第五阶段对应的第一特征图；并采用所述骨干网络的搜索分支，提取所述当前帧图像对应的搜索图像在五个阶段各自对应的第二特征图；其中，所述骨干网络为ResNet-50结构的孪生网络；将所述第一特征图与所述搜索图像在第五阶段对应的第二特征图进行特征交互，得到交互特征图；将所述交互特征图输入至上下文特征学习模型，得到所述上下文特征学习模型输出的多尺度信息引导图；根据所述多尺度信息引导图和所述搜索图像在前四个阶段各自对应的第二特征图，确定目标融合图；

位置信息确定模块，用于采用解码器，确定目标帧图像各自序列信息形成的轨迹映射，所述目标帧图像包括所述当前帧图像、第n帧图像，及所述当前帧图像与所述第n帧图像之间的帧图像；将所述目标融合图输入至所述解码器，对所述轨迹映射进行追踪，得到相邻帧图像对应的目标位置信息；其中，所述解码器为因果转换器。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述目标位置确定方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述目标位置确定方法。