CN115222768A

CN115222768A - 视频中跟踪对象的定位方法、装置、电子设备及存储介质

Info

Publication number: CN115222768A
Application number: CN202210673113.2A
Authority: CN
Inventors: 张宇佳; 李钱钟; 孙世颖; 赵晓光
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-10-21

Abstract

本发明提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质，方法包括：在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。该方法用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

Description

视频中跟踪对象的定位方法、装置、电子设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种视频中跟踪对象的定位方法、装置、电子设备及存储介质。

背景技术

随着科学技术的发展，图像识别技术变得越来越成熟。电子设备对图像中的跟踪对象进行定位时，通常利用指代表达理解，即根据自然语言描述语句对静态的跟踪对象进行定位，然而，该方法无法定位复杂且动态的跟踪对象进，也即，无法对视频中的跟踪对象进行定位。

现有的对视频中的跟踪对象进行定位的方法可包括：电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型对跟踪对象进行定位，或，该电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型对跟踪对象进行定位。然而，由于上述两种模型具有相应的局限性，导致该电子设备无法对视频中的跟踪对象进行准确定位。

发明内容

本发明提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质，用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

本发明提供一种视频中跟踪对象的定位方法，包括：

在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；

根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；

根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

根据本发明提供的一种视频中跟踪对象的定位方法，该获取该当前帧图像对应的当前图像特征，包括：获取该待处理视频中关键帧图像对应的第一图像特征，该关键帧图像为该待处理视频中每一帧图像中的任一帧图像；获取该关键帧图像的相邻帧图像对应的第二图像特征；根据该第一图像特征及该第二图像特征，基于预设的帧密集特征聚合网络，得到该当前帧图像对应的当前图像特征。

根据本发明提供的一种视频中跟踪对象的定位方法，该根据该第一图像特征及该第二图像特征，基于预设的帧密集特征聚合网络，得到该当前帧图像对应的当前图像特征，包括：基于预设的帧密集特征聚合网络，根据该第一图像特征及该第二图像特征，得到归一化权重矩阵；根据该第一图像特征和该归一化权重矩阵，确定该当前帧图像对应的当前图像特征。

根据本发明提供的一种视频中跟踪对象的定位方法，该根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征，包括：根据该当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征；根据该当前语言特征及该视觉向量特征，基于该预设的共享图像主干网络，得到第一相似度矩阵；根据该当前语言特征及该视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵；根据该当前语言特征和该第一相似度矩阵，确定该当前帧图像对应的融合图像特征；根据该视觉特征向量和该第二相似度矩阵，确定该当前帧图像对应的融合语言特征。

根据本发明提供的一种视频中跟踪对象的定位方法，在该根据该当前语言特征及该视觉向量特征，基于该预设的共享图像主干网络，得到第一相似度矩阵之后，该方法还包括：获取该跟踪对象在该当前图像特征中所对应的候选位置；根据该候选位置，向该第一相似度矩阵添加第一约束函数。

根据本发明提供的一种视频中跟踪对象的定位方法，该根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果，包括：根据该融合语言特征，确定语言表达句子特征；根据该语音表达句子特征，确定第一语言条件向量和第二语音条件向量；根据该融合图像特征、该第一语言条件向量和该第二语音条件向量，确定该跟踪对象的定位结果。

根据本发明提供的一种视频中跟踪对象的定位方法，该方法还包括：获取该第一相似度矩阵对应的第一约束函数及该第二相似度矩阵对应的第二约束函数；根据该第一约束函数和该第二约束函数，确定该预设的共享主干网络对应的定位回归损失函数；根据该定位回归损失函数，确定该预设的共享主干网络对应的总损失函数。

本发明还提供一种定位装置，包括：

获取模块，用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；

确定模块，用于根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频中跟踪对象的定位方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。

本发明提供的视频中跟踪对象的定位方法、装置、电子设备及存储介质，该方法可以包括：在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；然后，根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征；最后，根据该融合图像特征及该融合语言特征，准确确定该跟踪对象的定位结果，从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频中跟踪对象的定位方法的流程示意图之一；

图2是本发明提供的视频中跟踪对象的定位方法的流程示意图之二；

图3本发明提供的视频中跟踪对象的定位方法的流程示意图之三；

图4本发明提供的定位装置的结构示意图；

图5本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，在电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型对跟踪对象进行定位的情况下，由于跟踪框架的性能取决于电子设备选择的跟踪模板的质量，所以，该电子设备通常采用待处理视频中第一帧图像对应的跟踪目标区域对跟踪模板进行初始化。然而，在没有标注数据辅助电子设备选择跟踪模板时，如果该电子设备仅利用图像指代表达理解模型对第一帧图像中的跟踪对象进行定位，那么，会导致定位结果不准确，进而导致该电子设备选择的跟踪模板质量较差。也就是说，电子设备基于目标跟踪框架的视频-自然语言指代表达理解模型，无法对跟踪对象进行准确定位。

在电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型对跟踪对象进行定位的情况下，该电子设备仅采用了视频关键帧图像的相邻一帧图像进行图像特征协同学习。虽然电子设备对视频帧间的图像信息建立了联系，但由于相邻的两个视频帧图像的时序较近，两个视频帧图像分别对应的图像特征信息具有较强的相似性，导致该电子设备无法充分建立视频帧间的图像特征关系，从而无法准确获取动态的跟踪对象在视频帧中运动、外观等信息的变化。也即，电子设备基于一阶段物体检测的视频-自然语言指代表达理解模型，无法对跟踪对象进行准确定位。

需要说明的是，本发明实施例所涉及的电子设备指的是，可以包括但不限于以下至少一项：电脑终端、移动终端及可穿戴设备等。

本发明实施例的执行主体可以是定位装置，也可以是电子设备，下面以电子设备为例对本发明实施例进行进一步地说明。

如1所示，明提供的视频中跟踪对象的定位方法的流程示意图，可以包括：

101、在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取当前帧图像对应的当前图像特征及当前语言特征。

其中，待处理视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。也即，该待处理视频可包括多帧图像。

当前帧图像指的是待处理视频中当前时刻对应的帧图像。

跟踪对象指的是电子设备需要定位的动态的所指物，该所指物在待处理视频中存在运动和/或外观等变化信息。

当前图像特征指的是跟踪对象在当前帧图像中的像素特征。

当前语言特征指的是跟踪对象在当前帧图像中的语言表达特征。

在一些实施例中，电子设备可以先在待处理视频的多帧图像中获取关键帧图像及该关键帧图像对应的第一图像特征，该关键帧图像为该多帧图像中的任一帧图像；然后，该电子设备再获取该关键帧图像的相邻帧图像及该相邻帧图像对应的第二图像特征；接着，该电子设备就可以根据该第一图像特征及该第二图像特征，预设的帧密集特征聚合网络，得到当前帧图像对应的当前图像特征。

其中，预设的帧密集特征聚合网络用于根据第一图像特征及第二图像特征，自适应地生成这两个图像特征对应位置点的加权值；再基于该加权值，建立关键帧图像与相邻帧图像的图像特征联系；然后，对关键帧图像对应的邻近时序内的视频帧图像进行帧密集加权聚合，得到较为准确的当前帧图像对应的当前图像特征。

在一些实施例中，预设的帧密集特征聚合网络可有效避免现有技术的一阶段物体检测的视频-自然语言指代表达理解模型中前后帧图像所指物定位不准确的问题。

在一些实施例中，电子设备基于预设的共享语言主干网络，得到当前帧图像对应的当前语言特征。

其中，预设的共享语言主干网络用于提取当前帧图像中的语言表达特征，该语音表达特征可包括描述语句特征。

102、根据当前图像特征及当前语言特征，基于预设的共享主干网络，得到当前帧图像对应的融合图像特征及融合语言特征。

其中，预设的共享主干网络可包括：预设的共享图像主干网络及预设的共享语言主干网络。

预设的共享图像主干网络用于确定当前帧图像对应的融合图像特征；预设的共享语言主干网络还用于提取该当前帧图像对应的融合语言特征。

在一些实施例中，预设的共享主干网络是一种基于多阶段图像-自然语言交叉生成融合的视频指代表达理解网络，该预设的共享主干网络采用了一阶段的物体检测框架，可有效避免现有技术的基于目标跟踪框架的视频-自然语言指代表达理解模型中对于跟踪模板进行选择的问题。

电子设备在获取当前图像特征及当前语言特征之后，由于该当前图像特征及当前语言特征无法准确对跟踪对象进行定位，所以，该电子设备就需要对该当前图像特征及该当前语言特征，按照不同的特征方法进行融合，得到相应的融合图像特征及融合语言特征，该融合图像特征及该融合语言特征是较为准确的，以便电子设备后续准确定位跟踪对象。

在一些实施例中，电子设备基于预设的共享主干网络中的语言-图像生成分支，根据当前语言特征，得到当前帧图像对应的融合图像特征；该电子设备基于预设的共享主干网络中的图像-语言生成分支，根据当前图像特征，得到当前帧图像对应的融合语言特征。其中，该融合图像特征的生成时序与该融合语言特征的生成时序不限。

电子设备可以以跨模态生成的方式，实现对当前帧图像的图像信息进行补充和完善，同时，实现对该当前帧图像的语言信息进行补充和完善，从而得到较为准确的融合图像特征及融合语言特征。

103、根据融合图像特征及融合语言特征，确定跟踪对象的定位结果。

电子设备基于较为准确的融合图像特征及融合语言特征，对跟踪对象进行准确地指代表达理解，从而准确得到该跟踪对象的定位结果。

其中，该指代表达理解指的是根据自然语言描述语句，对待处理视频所有帧图像中的跟踪对象进行定位，利用视频帧间信息解决该跟踪对象动态变化的问题。

可选的，定位结果可包括定位框预测结果。

在一些实施例中，电子设备可以先根据融合语言特征，在不同的两个语言条件下，得到相应的两个语言条件向量；然后，该电子设备再根据融合图像特征及这两个语言条件向量，准确确定跟踪对象的定位框预测结果。

可选的，步骤103之后，该方法还可以包括：电子设备输出定位结果，以确保用户可直观得到该定位结果。

在本发明实施例中，在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；然后，根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征；最后，根据该融合图像特征及该融合语言特征，准确确定该跟踪对象的定位结果，从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

如图2所示，是本发明提供的视频中跟踪对象的定位方法的流程示意图，可以包括：

201、获取待处理视频中关键帧图像对应的第一图像特征。

其中，关键帧图像为待处理视频中每一帧图像中的任一帧图像。

关键帧图像指的是待处理视频中关键帧I_t对应的图像。

可选的，该关键帧图像可以为当前帧图像。

202、获取关键帧图像的相邻帧图像对应的第二图像特征。

其中，相邻帧图像指的是关键帧I_t在邻近时序(t-τ，t+τ)内的相邻帧[I_t-τ，…，I_t+τ]所对应的图像。

可选的，临近时序可以是电子设备出厂前设置的，也可以用户自定义的，此处不作具体限定。

可选的，相邻帧图像可以为当前帧在邻近时序内的相邻帧所对应的图像。

在一些实施例中，电子设备基于预设的共享图像主干网络，可以从关键帧图像和相邻帧图像中，提取具有预设数量个尺寸的图像特征。

可选的，该预设数量可以是电子设备出厂前设置的，也可以是用户根据大量实验数据自定义的，此处不作具体限定。

示例性的，假设该预设数量为3，那么，该电子设备从关键帧图像和相邻帧图像中提取具有3个尺度的图像特征，分别为待处理视频的图像尺寸的1/32、1/16及1/8。

在一些实施例中，第一图像特征及第二图像特征为电子设备进行上采样，得到的最大尺度。

203、根据第一图像特征及第二图像特征，基于预设的帧密集特征聚合网络，得到当前帧图像对应的当前图像特征，并获取当前帧图像对应的当前语言特征。

在一些实施例中，电子设备将第一图像特征及第二图像特征以拼接方式进行融合，得到待处理视频各帧对应的图像特征，并将每个图像特征作为预设的帧密集特征聚合网络的输入参数。

可选的，电子设备根据第一图像特征及第二图像特征，基于预设的帧密集特征聚合网络，得到当前帧图像对应的当前图像特征，可以包括：电子设备基于预设的帧密集特征聚合网络，根据第一图像特征及第二图像特征，得到归一化权重矩阵；该电子设备根据第一图像特征和归一化权重矩阵，确定当前帧图像对应的当前图像特征。

可选的，电子设备基于预设的帧密集特征聚合网络，根据第一图像特征及第二图像特征，得到归一化权重矩阵，可以包括：电子设备基于预设的帧密集特征聚合网络中的权重公式，得到第一权重矩阵；该电子设备基于归一化公式，得到归一化权重矩阵。

其中，权重公式为：W_x→t＝Ψ(Ω⁽³⁾([F_x；F_t]))；

W_x→t表示第一权重矩阵；F_x表示第一图像特征；F_t表示第二图像特征；[；]表示特征向量拼接；Ω⁽³⁾(·)表示三个带线性整流(Rectified Linear Unit，ReLU)激活函数的卷积层；Ψ(·)表示不带激活函数的卷积层。

其中，归一化公式为∑_{x∈[t-τ,t+τ]}w_x→t＝1,w_x→t∈W_x→t；

w_x→t为第一权重矩阵W_x→t中的任一矩阵。

电子设备基于预设的帧密集特征聚合网络，先将第一图像特征F_x及第二图像特征F_t进行拼接，再将拼接结果在三个带ReLU激活函数的卷积层及一个不带激活函数的卷积层进行相应处理，得到第一图像特征F_x及第二图像特征F_t间特征图空间上的第一权重矩阵W_x→t；然后，该电子设备将该第一权重矩阵W_x→t逐元素沿邻近时序(t-τ，t+τ)维度，利用柔性最大值传输(Softmax)函数进行归一化，得到归一化权重矩阵。

可选的，电子设备根据第一图像特征和归一化权重矩阵，确定当前帧图像对应的当前图像特征，可以包括：电子设备根据图像特征公式，得到当前帧图像对应的当前图像特征。

其中，图像特征公式为

表示当前图像特征；⊙表示逐元素相乘。

电子设备通过图像特征公式，即该电子设备通过以自适应生成加权矩阵的方式，在第一图像特征的空间位置上对第二图像特征进行加权聚合，可获得跟踪对象在邻近时序上每一帧图像中的运动和/或外观等变化信息，从而可辅助第一图像特征F_x在预设的帧密集特征聚合网络的特征学习。

204、根据当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征。

电子设备根据待处理视频，可以得到多个阶段的帧图像分别对应的当前图像特征；然后，该电子设备根据每个当前图像特征，基于预设的共享图像主干网络，得到每个当前图像特征分别对应的视觉向量特征。

可选的，电子设备根据当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征，可以包括：电子设备获取当前图像特征对应的位置坐标向量；该电子设备根据当前图像特征和位置坐标向量，基于预设的共享图像主干网络，得到视觉向量特征。

其中，位置坐标向量用

表示。i表示当前图像特征的横向像素位置；j表示该当前图像特征的纵向像素位置；w表示当前帧图像的宽度；h表示该当前帧图像的高度。

电子设备在获取当前图像特征之后，可以将该当前图像特征及位置坐标向量进行拼接；再将拼接结果在预设的共享图像主干网络中语言-图像生成分支的卷积层进行特征变换，得到该当前图像特征对应的视觉向量特征。

205、根据当前语言特征及视觉向量特征，基于预设的共享图像主干网络，得到第一相似度矩阵。

可选的，电子设备根据当前语言特征及视觉向量特征，基于预设的共享图像主干网络，得到第一相似度矩阵，可以包括：电子设备根据预设的共享图像主干网络中的第一相似度公式，得到第一相似度矩阵。

其中，第一相似度公式为

s_lv表示第一相似度矩阵，

表示第k个阶段的当前帧图像对应的视觉向量特征；

表示该第k个阶段的当前帧图像对应的当前语言特征；f_v表示该视觉特征向量

对应矩阵中的视觉特征元素；f_l表示该当前语言特征

对应矩阵中的语言特征元素；l表示该当前语言特征

的长度。

在一些实施例中，第一相似度矩阵指的是语言-图像相似度矩阵。

电子设备可将视觉特征元素及语言特征元素进行逐元素计算，得到第一相似度矩阵；之后，该电子设备可以将该第一相似度矩阵沿着列向量维度以Softmax函数激活。在激活后的第一相似度矩阵中，列元素代表当前帧图像的元素位置上，每个元素与语言表达各个单词之间的相似度，且相似度之和为1。也就是说，电子设备得到当前帧图像中每个元素位置对应的元素特征，需要描述语句的每个单词提供多少特征信息。

可选的，步骤205之后，该方法还可以包括：电子设备获取跟踪对象在当前图像特征中所对应的候选位置；该电子设备根据候选位置，向第一相似度矩阵添加第一约束函数。

其中，第一约束函数为

N表示阶段数；y^k(m)∈{0,1}表示定位真值模板矩阵的元素，其中，跟踪对象的定位真值所对应的候选位置处为1，非候选位置处为为0。

电子设备可以根据跟踪对象的定位真值在第k个阶段的当前帧图像中所对应的候选位置，在语言-图像生成分支中，对第一相似度矩阵

添加第一约束函数，以提高图像特征与语言特征相互生成的能力。由于最佳候选位置可以是跟踪对象的定位真值框所对应的几何中心，所以，后续电子设备利用该第一约束函数可有效约束当前语言特征生成融合图像特征，以提高跟踪对象的定位准确度。

206、根据当前语言特征及视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵。

可选的，电子设备根据当前语言特征及视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵，可以包括：电子设备根据预设的共享语言主干网络中的第二相似度公式，得到第二相似度矩阵。

其中，第二相似度公式为

s_vl表示第二相似度矩阵。

在一些实施例中，第二相似度矩阵指的是图像-语言相似度矩阵。

第二相似度矩阵与第一相似度矩阵并不是转置矩阵的关系。第二相似度矩阵中的每一列，表示每个语言表达单词与当前图像特征中元素间的相似度关系，且该相似度之和为1，也就是说，电子设备得到当前帧图像中描述语句的每个词特征，该当前帧图像中每个元素需要贡献多少特征信息。

可选的，步骤206之后，该方法还可以包括：电子设备获取跟踪对象在当前语言特征中所对应的候选位置；该电子设备根据候选位置，向第二相似度矩阵添加第二约束函数。

其中，第二约束函数为

表示语言特征的模板向量，有单词的位置为1，没有单词的位置为0。

电子设备可以根据描述语句特征，在图像-语言生成分支中，对第二相似度矩阵s_vl添加第二约束函数，以提高图像特征与语言特征相互生成的能力，从而可有效约束后续电子设备根据当前图像特征生成融合语言特征，以提高跟踪对象的定位准确度。

207、根据当前语言特征和第一相似度矩阵，确定当前帧图像对应的融合图像特征。

可选的，电子设备根据视觉特征向量和第一相似度矩阵，确定当前帧图像对应的融合图像特征，可以包括：电子设备根据第一公式，得到当前帧图像对应的目标图像特征；该电子设备根据该目标图像特征，确定融合图像特征。

其中，第一公式为

表示第k个阶段的当前帧图像对应的目标图像特征。

电子设备将语言-图像相似度矩阵与当前语言特征逐一建立联系，以跨模态生成的方式实现对当前帧图像的图像信息的进行补充。

在一些实施例中，电子设备在得到目标图像特征

之后，先将该目标图像特征

与视觉向量特征

进行拼接；然后，该电子设备将拼接结果在一个卷积层进行特征变换；接着，该电子设备将特征变换后的结果通过残差连接后再与该视觉向量特征

进行进行逐元素相加，得到融合图像特征

这样一来，可有效保证该融合图像特征

进行前向传递和梯度反向传播。

208、根据视觉特征向量和第二相似度矩阵，确定当前帧图像对应的融合语言特征。

可选的，电子设备根据视觉特征向量和第二相似度矩阵，确定当前帧图像对应的融合语言特征，可以包括：电子设备根据第二公式，得到当前帧图像对应的目标语言特征；该电子设备根据该目标语言特征，确定融合语言特征。

其中，第二公式为

表示第k个阶段的当前帧图像对应的目标语言特征。

电子设备将图像-语言相似度矩阵与当前图像特征逐一建立联系，以跨模态生成的方式实现对当前帧图像的语言信息进行补充。

在一些实施例中，电子设备在得到目标语言特征

之后，先将该目标语言特征

与当前语言特征

进行拼接；然后，该电子设备将拼接结果在ReLU激活函数的全连接层进行学习；接着，该电子设备将学习后的结果通过残差连接后再与该当前语言特征

进行进行逐元素相加，得到k阶段的下一阶段对应的融合语言特征

209、根据融合语言特征，确定语言表达句子特征。

可选的，电子设备根据融合语言特征，确定语言表达句子特征，可以包括：电子设备根据聚合公式，得到语言表达句子特征。

其中，聚合公式为：

u_j＝tanh(W_qq_j)；

F_w表示语言表达句子特征；α_j表示第一中间参数；u_j表示第二中间参数；W_q表示全连接层；q^j表示融合语言特征

中第j个单词所对应的特征向量。

电子设备先以全连接层和Softmax激活函数，对图像-语言生成分支获得的融合语言特征

以注意力加权的方式进行聚合，得到较为准确的语言表达句子特征F_w。

210、根据语音表达句子特征，确定第一语言条件向量和第二语音条件向量。

可选的，电子设备根据语音表达句子特征，确定第一语言条件向量和第二语音条件向量，可以包括：电子设备根据第一语言公式，得到第一语言条件向量；该电子设备根据第二语言公式，得到第二语言条件向量。

其中，第一语言公式为γ_k＝tanh(W_γF_w+b_γ)；

第二语言公式为β_k＝tanh(W_βF_w+b_β)；

γ_k表示第一语言条件向量；β_k表示第二语言条件向量；W_γ表示第一可学习参数矩阵；W_β表示第二可学习参数矩阵；b_γ表示第一可学习参数值；b_β表示第二可学习参数值。

在一些实施例中，γ_k指的是缩放尺度；β_k指的是平移大小。

可选的，第一可学习参数据帧W_γ、第二可学习参数矩阵W_β、第一可学习参数值b_γ及第二可学习参数值b_β是电子设备预先训练学好的。

可选的，步骤210之后，该方法还可以包括：电子设备将第一语言条件向量和第二语言条件向量进行复制、拼接、尺寸调整后，得到新的第一语言条件向量和新的第二语言条件向量。

尺寸调整指的是电子设备将第一语言条件向量的尺寸和第二语言条件向量的尺寸，调整到与当前帧图像的尺寸相同的尺寸。

211、根据融合图像特征、第一语言条件向量和第二语音条件向量，确定跟踪对象的定位结果。

可选的，电子设备根据融合图像特征、第一语言条件向量和第二语音条件向量，确定跟踪对象的定位结果，可以包括：电子设备根据目标公式，得到跟踪对象对应的目标特征；该电子设备根据该目标特征，确定该跟踪对象的定位结果。

其中，目标公式为

表示目标特征。

电子设备在得到目标特征

之后，在表达语句的引导下，利用缩放尺度γ_k和平移大小β_k对融合图像特征

进行精细化处理，最大程度地实现当前图像特征与当前语言特征之间的融合。

电子设备在得到目标特征

之后，可经过若干个卷积层学习，得到该待处理图像中跟踪对象对应的定位框预测结果。

在本发明实施例中，在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，可以根据获取的关键帧图像对应的第一图像特征及相邻帧图像对应的第二图像特征，准确确定当前帧图像对应的当前图像特征，并获取该当前帧图像对应的当前语言特征；然后，根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征；最后，根据该融合图像特征及该融合语言特征，准确确定该跟踪对象的定位结果，从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

如图3所示，本发明提供的视频中跟踪对象的定位方法的流程示意图，可以包括：

301、获取待处理视频中关键帧图像对应的第一图像特征。

302、获取关键帧图像的相邻帧图像对应的第二图像特征。

303、根据第一图像特征及第二图像特征，基于预设的帧密集特征聚合网络，得到当前帧图像对应的当前图像特征，并获取当前帧图像对应的当前语言特征。

304、根据当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征。

305、根据当前语言特征及视觉向量特征，基于预设的共享图像主干网络，得到第一相似度矩阵。

306、根据当前语言特征及视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵。

307、根据视觉特征向量和第一相似度矩阵，确定当前帧图像对应的融合图像特征。

308、根据当前语言特征和第二相似度矩阵，确定当前帧图像对应的融合语言特征。

309、根据融合语言特征，确定语言表达句子特征。

310、根据语音表达句子特征，确定第一语言条件向量和第二语音条件向量。

311、根据融合图像特征、第一语言条件向量和第二语音条件向量，确定跟踪对象的定位结果。

需要说明的是，步骤301与311与图2所示的步骤201-211类似，此处不作具体赘述。

312、获取第一相似度矩阵对应的第一约束函数及第二相似度矩阵对应的第二约束函数。

需要说明的是，步骤312在图2所示的步骤205-206中已详细叙述，此处不作具体赘述。

313、根据第一约束函数和第二约束函数，确定预设的共享主干网络对应的定位回归损失函数。

其中，定位回归损失函数为

b∈{b_x,b_y,b_w,b_h}表示定位框预测结果；p表示定位框预测结果b对应的置信度；b*表示定位框真值；p*表示定位框真值b*对应的置信度；N_b表示当前图像特征中每个网格的锚点(Anchor)的数量；L_box(·)表示均方误差损失函数，对定位框进行回归；L_conf(·)表示交叉熵损失函数，对定位框对应的置信度进行回归。

314、根据定位回归损失函数，确定预设的共享主干网络对应的总损失函数。

其中，总损失函数为L＝L_det+λ(L_lv+L_vl)；

λ表示超参数，用于调节定位框回归损失与图像-语言相似度矩阵约束损失。

电子设备得到总损失函数，为了进一步提高当前帧图像中当前语言特征及当前图像特征之间的相互生成能力，也就是说，可进一步提高跨模态特征的生成能力。

在本发明实施例中，在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，可以根据获取的关键帧图像对应的第一图像特征及相邻帧图像对应的第二图像特征，准确确定当前帧图像对应的当前图像特征，并获取该当前帧图像对应的当前语言特征；然后，根据该当前图像特征及该当前语言特征，利用多个约束函数对基于预设的共享主干网络中的多个公式进行约束，可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征；最后，根据该融合图像特征及该融合语言特征，准确确定该跟踪对象的定位结果，从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位模型具有相应的局限性，导致电子设备基于该现有定位模型，无法对视频中的跟踪对象进行准确定位的缺陷，实现电子设备基于预设的共享主干网络，结合视频帧图像的图像特征和语言特征，对待处理视频中的跟踪对象进行有效且准确定位。

下面对本发明提供的定位装置进行描述，下文描述的定位装置与上文描述的视频中跟踪对象的定位方法可相互对应参照。

如图4所示，本发明提供的定位装置的结构示意图，可以包括：

获取模块401，用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；

确定模块402，用于根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

可选的，获取模块401，具体用于获取该待处理视频中关键帧图像对应的第一图像特征，该关键帧图像为该待处理视频中每一帧图像中的任一帧图像；获取该关键帧图像的相邻帧图像对应的第二图像特征；根据该第一图像特征及该第二图像特征，基于预设的帧密集特征聚合网络，得到该当前帧图像对应的当前图像特征。

可选的，确定模块402，具体用于基于预设的帧密集特征聚合网络，根据该第一图像特征及该第二图像特征，得到归一化权重矩阵；根据该第一图像特征和该归一化权重矩阵，确定该当前帧图像对应的当前图像特征。

可选的，确定模块402，具体用于根据该当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征；根据该当前语言特征及该视觉向量特征，基于该预设的共享图像主干网络，得到第一相似度矩阵；根据该当前语言特征及该视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵；根据该当前语言特征和该第一相似度矩阵，确定该当前帧图像对应的融合图像特征；根据该视觉特征向量和该第二相似度矩阵，确定该当前帧图像对应的融合语言特征。

可选的，获取模块401，还用于获取该跟踪对象在该当前图像特征中所对应的候选位置；

确定模块402，还用于根据该候选位置，向该第一相似度矩阵添加第一约束函数。

可选的，确定模块402，具体用于根据该融合语言特征，确定语言表达句子特征；根据该语音表达句子特征，确定第一语言条件向量和第二语音条件向量；根据该融合图像特征、该第一语言条件向量和该第二语音条件向量，确定该跟踪对象的定位结果。

可选的，获取模块401，具体用于获取该第一相似度矩阵对应的第一约束函数及该第二相似度矩阵对应的第二约束函数；

确定模块402，具体用于根据该第一约束函数和该第二约束函数，确定该预设的共享主干网络对应的定位回归损失函数；根据该定位回归损失函数，确定该预设的共享主干网络对应的总损失函数。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行视频中跟踪对象的定位方法，该方法包括：在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频中跟踪对象的定位方法，该方法包括：在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频中跟踪对象的定位方法，该方法包括：在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取该当前帧图像对应的当前图像特征及当前语言特征；根据该当前图像特征及该当前语言特征，基于预设的共享主干网络，得到该当前帧图像对应的融合图像特征及融合语言特征；根据该融合图像特征及该融合语言特征，确定该跟踪对象的定位结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频中跟踪对象的定位方法，其特征在于，包括：

在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取所述当前帧图像对应的当前图像特征及当前语言特征；

根据所述当前图像特征及所述当前语言特征，基于预设的共享主干网络，得到所述当前帧图像对应的融合图像特征及融合语言特征；

根据所述融合图像特征及所述融合语言特征，确定所述跟踪对象的定位结果。

2.根据权利要求1所述的定位方法，其特征在于，所述获取所述当前帧图像对应的当前图像特征，包括：

获取所述待处理视频中关键帧图像对应的第一图像特征，所述关键帧图像为所述待处理视频中每一帧图像中的任一帧图像；

获取所述关键帧图像的相邻帧图像对应的第二图像特征；

根据所述第一图像特征及所述第二图像特征，基于预设的帧密集特征聚合网络，得到所述当前帧图像对应的当前图像特征。

3.根据权利要求2所述的定位方法，其特征在于，所述根据所述第一图像特征及所述第二图像特征，基于预设的帧密集特征聚合网络，得到所述当前帧图像对应的当前图像特征，包括：

基于预设的帧密集特征聚合网络，根据所述第一图像特征及所述第二图像特征，得到归一化权重矩阵；

根据所述第一图像特征和所述归一化权重矩阵，确定所述当前帧图像对应的当前图像特征。

4.根据权利要求1-3中任一项所述的定位方法，其特征在于，所述根据所述当前图像特征及所述当前语言特征，基于预设的共享主干网络，得到所述当前帧图像对应的融合图像特征及融合语言特征，包括：

根据所述当前图像特征，基于预设的共享图像主干网络，得到视觉向量特征；

根据所述当前语言特征及所述视觉向量特征，基于所述预设的共享图像主干网络，得到第一相似度矩阵；

根据所述当前语言特征及所述视觉向量特征，基于预设的共享语言主干网络，得到第二相似度矩阵；

根据所述当前语言特征和所述第一相似度矩阵，确定所述当前帧图像对应的融合图像特征；

根据所述视觉特征向量和所述第二相似度矩阵，确定所述当前帧图像对应的融合语言特征。

5.根据权利要求4所述的定位方法，其特征在于，在所述根据所述当前语言特征及所述视觉向量特征，基于所述预设的共享图像主干网络，得到第一相似度矩阵之后，所述方法还包括：

获取所述跟踪对象在所述当前图像特征中所对应的候选位置；

根据所述候选位置，向所述第一相似度矩阵添加第一约束函数。

6.根据权利要求1所述的定位方法，其特征在于，所述根据所述融合图像特征及所述融合语言特征，确定所述跟踪对象的定位结果，包括：

根据所述融合语言特征，确定语言表达句子特征；

根据所述语音表达句子特征，确定第一语言条件向量和第二语音条件向量；

根据所述融合图像特征、所述第一语言条件向量和所述第二语音条件向量，确定所述跟踪对象的定位结果。

7.根据权利要求5或6所述的定位方法，其特征在于，所述方法还包括：

获取所述第一相似度矩阵对应的第一约束函数及所述第二相似度矩阵对应的第二约束函数；

根据所述第一约束函数和所述第二约束函数，确定所述预设的共享主干网络对应的定位回归损失函数；

根据所述定位回归损失函数，确定所述预设的共享主干网络对应的总损失函数。

8.一种定位装置，其特征在于，包括：

获取模块，用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中，获取所述当前帧图像对应的当前图像特征及当前语言特征；

确定模块，用于根据所述当前图像特征及所述当前语言特征，基于预设的共享主干网络，得到所述当前帧图像对应的融合图像特征及融合语言特征；根据所述融合图像特征及所述融合语言特征，确定所述跟踪对象的定位结果。

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视频中跟踪对象的定位方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频中跟踪对象的定位方法。