CN117975314A - 一种无人机多模态跟踪方法 - Google Patents

一种无人机多模态跟踪方法 Download PDF

Info

Publication number
CN117975314A
CN117975314A CN202410369741.0A CN202410369741A CN117975314A CN 117975314 A CN117975314 A CN 117975314A CN 202410369741 A CN202410369741 A CN 202410369741A CN 117975314 A CN117975314 A CN 117975314A
Authority
CN
China
Prior art keywords
text
visual
representation element
search area
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410369741.0A
Other languages
English (en)
Other versions
CN117975314B (zh
Inventor
朱鹏飞
张敬林
王星
张问银
王九如
王兴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi University
Original Assignee
Linyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linyi University filed Critical Linyi University
Priority to CN202410369741.0A priority Critical patent/CN117975314B/zh
Priority claimed from CN202410369741.0A external-priority patent/CN117975314B/zh
Publication of CN117975314A publication Critical patent/CN117975314A/zh
Application granted granted Critical
Publication of CN117975314B publication Critical patent/CN117975314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请涉及一种无人机多模态跟踪方法,本方法通过模板图像、搜索区域图像和文本的组合特征,基于Transformer编码层进行特征提取和模态交互,通过截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于得到的分类响应图、偏移量和尺度大小计算追踪目标的最终边界框;本申请,解决了当前目标追踪技术无法适配无人机视角变化快、视野高的问题。本申请能够提升目标追踪的性能,优化追踪效果。

Description

一种无人机多模态跟踪方法
技术领域
本申请属于计算机视觉技术领域,具体涉及一种无人机多模态跟踪方法。
背景技术
视觉追踪是无人机领域的核心技术。
传统的无人机视觉跟踪方法以给定的单一输入图像作为目标,从其视野范围内寻找匹配的目标区域。上述跟踪方式及其优化方案对于低像素目标或相似目标的描述信息不足。近年来新兴的以自然语言描述目标信息的追踪方法能够精确地描述目标特征,并且可以通过描述目标的长期变化从而消除歧义。
当前,在视觉跟踪数据集中添加自然语言描述的先进跟踪方法大大推动了无人机跟踪领域的发展,但视觉-语言跟踪数据集多借由及地面摄像头获取,导致目标占据的视野范围过大而视角变化过小,加之语言描述的目标与环境之间没有交互信息,最终导致此类数据集的训练模型无法适配于无人机视角变化快、视野较高的应用场景。
发明内容
本发明提供了一种无人机多模态跟踪方法,解决了当前目标追踪技术无法适配无人机视角变化快、视野高的问题。
一种无人机多模态跟踪方法,包括以下步骤:
S1)对模板图像和搜索区域图像进行卷积操作,分别获取模板图像表示元和搜索区域图像表示元;使用BERT模型对文本进行分词和向量化,获取文本表示元;
S2)向各表示元添加一维可学习的位置编码;
S3)拼接各表示元,并将拼接后的表示元输入至共m层的Transformer编码器中进行特征提取和模态交互;
S4)过滤Transformer编码器提取的特征,截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。
进一步地,所述步骤S1)中,对模版图像表示元、搜索区域图像表示元以及文本表示元的获取具体包括以下步骤:
a)在对模板图像和搜索区域图像进行卷积中,使用P×P的卷积核以步长为P,编码维度为D的方式进行卷积操作,同步实现图像切块和线性映射,其中P为块的大小,D为线性映射维度;
b)在使用BERT模型对文本进行分词和向量化,获取文本表示元中,分别使用CLS和SEP指示文本序列的开始和边界。
进一步地,所述步骤S3)中,使用混合专家模式进行特征提取和模态交互,具体包括以下步骤:
c)拼接模板图像表示元与搜索区域图像表示元,以得到的二元组作为视觉部分输入,以文本表示元作为文本部分输入;
d)在前k层编码器设置视觉前馈网络V-FFN和文本前馈网络L-FFN,设层数为i层,归一化上层特征Ti并进行多头自注意力处理,截取视觉部分输入输入至视觉前馈神经网络得到视觉特征,截取文本部分输入输入至文本前馈神经网络得到文本特征;
e)在后(m-k)层通过添加多头自注意力机制融合视觉前馈网络V-FFN与文本前馈网络L-FFN,得到视觉-语言融合前馈神经网络VL-FFN。
进一步地,所述步骤S3)中,使用单流编码器交互模式进行特征提取和模态交互,具体包括以下步骤:
f)拼接模板图像表示元、搜索区域图像表示元以及文本表示元,以得到的三元组作为Transformer编码器输入;
g)采用多头自注意力机制进行各表示元融合,自注意力过程中的权重矩阵如下:
其中,σ代表每类表示元对自身的注意建模,τ代表用于搜索区域跟踪的表示元建模,ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。
进一步地,所述步骤S4)中的分类过程采用加权的focal损失作为分类损失;
所述步骤S4)中的回归过程采用l1损失和GIoU损失作为回归损失。
由于采用了上述技术方案,本申请的有益效果如下:
1.本申请可以在不同的模态特征实现交互融合,从而提成模型对目标的跟踪性能。通过多模态跟踪模型,有效规避了在不良成像条件下单一模态图像模型跟踪的劣势,多种模态图像模型相互弥补,发挥优势,能显著提升目标追踪的性能。
2.本申请为多模态特征的交互建立了新的交互机制,利用简约的模块设计和网络结构,通过优化网络结构参数,能给出更鲁棒和更灵活的特征提取方法,进而提升多模态目标跟踪效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请所提供的一种无人机多模态跟踪方法方法流程图;
图2为本申请中混合专家模式的流程图;
图3为本申请中单流编码器模式的流程图。
具体实施方式
基于背景技术所述,现有技术中的单模态追踪目标的方法难以应对追踪过程中视角变化、外观变化带来的目标丢失问题,因此,本申请提供了一种无人机多模态跟踪方法,如附图1所示,包括以下步骤:
S1)对模板图像和搜索区域图像进行卷积操作,分别获取模板图像表示元和搜索区域图像表示元;使用BERT模型对文本进行分词和向量化,获取文本表示元。
对于输入,设视觉模板为Z,搜索区域为X,自然语言标签L。
对于视觉输入,首先,使用P×P的卷积核,以步长为P,编码维度为D的方式对模板 图像和搜索区域分别进行卷积操作,以同步实现图像切块和线性映射,可以得到模板图像 块 和搜索区域块 ,其中P为块的大小,D为线性映射维度。
对于文本输入,使用BERT模型,进行分词和向量化。在具体实施时,为每段序列添 加两个特殊表示元“CLS”和“SEP”用来指示文本序列的开始和边界。因此,对于文本表示元 可以表示为 ,其中,Q为文本转换的序列长度。
S2)向各表示元添加一维可学习的位置编码;
向模板图像表示元、搜索区域表示元和文本表示元添加一维可学习的位置编码H。
S3)拼接各表示元,并将拼接后的表示元输入至共m层的Transformer编码器中进行特征提取和模态交互。
作为本申请的一个优选实施方式,如附图2所示,使用混合专家模式进行特征提取和模态交互,具体包括以下步骤:
c)拼接模板图像表示元与搜索区域图像表示元,以得到的二元组作为视觉部分输入,以文本表示元作为文本部分输入;
d)在前k层编码器设置视觉前馈网络V-FFN和文本前馈网络L-FFN,设层数为i层,归一化上层特征Ti并进行多头自注意力处理,截取视觉部分输入输入至视觉前馈神经网络得到视觉特征,截取文本部分输入输入至文本前馈神经网络得到文本特征;
e)在后(m-k)层通过添加多头自注意力机制融合视觉前馈网络V-FFN与文本前馈网络L-FFN,得到视觉-语言融合前馈神经网络VL-FFN。
前k层的视觉前馈网络V-FFN和文本前馈网络L-FFN是两个专家,V-FFN和L-FFN用于特征提取,对于视觉特征Ti V,其由上层特征Ti归一化后经过多头自注意力处理,再截取视觉前馈神经网络得到,多头自注意力处理与视觉前馈网络之间加入两次残差连接。提取后的特征需要进行重新拼接后,再输入到后m-k层进行下一步操作。对于前k层的第i层,前k层编码器输出的特征可表示为:
式中,Ti V表示视觉模态输出,Ti L表示文本模态输出。
在上述模式中,对视觉模态,需要将视觉模板和搜索区域进行拼接,共同作为视觉模态的输入输入至V-FFN中,将文本作为另一种模态输入输入至L-FFN中。对于文本特征Ti L的处理方式与视觉特征相同,但文本特征Ti L没有输入前与其他表示元拼接的操作。
前k层的主要目的是采用不同模态的专家更好地提取特定模态特征,在后m-k层,设置视觉-语言融合前馈神经网络实现多模态交互,输入m-k层中的特征是前k层输出特征拼接后的包含两种模态的特征,通过自注意力和VL-FFN的训练后,输出的特征即是融合后的特征。
作为本申请的一个优选实施方式,如附图3所示,使用单流编码器交互模式进行特征提取和模态交互,具体包括以下步骤:
f)拼接模板图像表示元、搜索区域图像表示元以及文本表示元,以得到的三元组作为Transformer编码器输入;
g)采用多头自注意力机制进行各表示元融合,自注意力过程中的权重矩阵如下:
其中σ代表每类表示元对自身的注意建模,τ代表用于搜索区域跟踪的表示元建模,ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。
单流编码器由m层的Transformer组成,采用一个多头自注意力机制进行特征融合。在输入单流编码器前,需要对三种表示元进行组合。仅利用自注意力的情况下仍可以得到完备的特征建模,最终截取搜索区域的表示元特征即可表示其与文本特征已充分融合。
S4)过滤Transformer编码器提取的特征,截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。
截取搜索区域部分的特征用于追踪目标,通过分类响应图、偏移量以及尺度大小即可计算出所追踪目标的最终边界框。
作为本申请的一个优选实施方式,在所述步骤S4)中的分类过程采用加权的focal损失作为分类损失,更好地处理样本分布不均衡的问题;采用l1损失和GIoU损失作为回归损失,能够衡量出不相交情况下的距离以及不同相交方式下的距离。
在本申请的一个具体实施例中,采用数据集LaSOT 数据集和MDOT-Language数据集验证方法的有效性。LaSOT提供了可视化边界框注释和丰富的自然语言规范,LaSOT基准数据采集涵盖了各种不同背景下的各种对象类别,包含70个对象类别,每一个分类都包含20个目标,反映了自然场景中的分类平衡和多样性。LaSOT的平均视频长度为2512帧(即30帧每秒84秒)。最短的视频包含1000帧(即33秒),最长的视频包含11397帧(即378秒)。MDOT-Language数据集基于无人机视角的单目标跟踪数据集,其中包含155组视频共9个类别的目标如人、汽车、自行车等,同时数据集还标注了白天、夜晚、抖动,遮挡等9类属性,图像像素统一为1280*720,该数据集非常符合通用高空无人机视觉跟踪的现实场景。该数据集详细描述了目标特征及其与环境的交互信息,相较于先前数据集信息量更高,更符合无人机视觉跟踪的需求。
本实施例中的Transformer编码层为12层,使用专家混合模式时,前10层为特征提取层,后2层为模态交互层。
本实施例的评估指标成功率和精确率指标,对于某一类别,将正确检测的目标数据记为TP(TruePosi-tive),将非目标错误识别为目标的数据记为FP(FalsePositive),将目标错误识别为非目标的数据记为FN(FalseNegatives),将正确检测的非目标的数据记为TN(TrueNegatives),从而得到的混淆矩阵如表1所示。
表1 混淆矩阵。
成功率和精确率的计算指标如下:
其中,Acc表示分类模型所有判断正确的结果占总观测值的比重,Pre在模型预测是P的所有结果中,模型预测对的比重。
本实施例在LaSOT和MDOT数据集上按照相同标准重新训练了近些年的优秀竞争方法以进行对比,结果分别如表2和表3所示。
表2跟踪算法在MDOT数据集上的性能对比。
在对比方法中,同样基于Transformer的对比方法Stark取得了最高的性能,其在Two-MDOT数据集上的成功率为44.5,精确率为61.7,在Three-MDOT数据集上的成功率为47.4,精确率为65.0。本发明提出的TransMOET在Two-MDOT数据集上成功率为32.4,精确率为46.2,在Three-MDOT数据集上成功率为31.5,精确率为44.5,跟踪速度为23.3fps,性能没有明显优越性。而本发明提出的TransVLT在Two-MDOT数据集上成功率为49.1,相较于最高基准提升了4.6。精确率为65.7,相较于最高基准提高了4.0。在Three-MDOT数据集上成功率为48.7,相较于最高基准提升了1.3。且由于应用了单流的编码器,相比于混合专家模型拥有更快的推理速度,达到了37.3fps处于较高的水平。
表3 视觉-语言多模态跟踪算法在LaSOT数据集上的性能对比。
如表3所示,为了横向对比本发明提出方法与先进的视觉-语言多模态跟踪方法,在公开数据集LaSOT上对TransMOET和TransVLT进行评估;对比方法中JointNLT为最新基于Transformer的端到端的视觉-语言多模态跟踪算法,其最佳性能成功率为60.4,精确率为63.6;由表3可见,本发明提出的TransMOET在成功率上达到了58.73,在精确率上达到了62.21;超越了除JointNLT外的所有方法,达到了先进水平;而提出的TransVLT在成功率上达到了64.61,超越了最佳方法4.21;在精确率上达到了71.82,超越了最佳方法8.22,大幅领先先前的优秀方法。
本申请中未述及的地方采用或借鉴已有技术即可实现。
以上所述仅为本申请的实施例而已,并不用于限制本申请;对于本领域技术人员来说,本申请可以有各种更改和变化;凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (5)

1.一种无人机多模态跟踪方法,其特征在于,包括以下步骤:
S1)对模板图像和搜索区域图像进行卷积操作,分别获取模板图像表示元和搜索区域图像表示元;使用BERT模型对文本进行分词和向量化,获取文本表示元;
S2)向各表示元添加一维可学习的位置编码;
S3)拼接各表示元,并将拼接后的表示元输入至共m层的Transformer编码器中进行特征提取和模态交互;
S4)过滤Transformer编码器提取的特征,截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。
2.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,
所述步骤S1)中,对模版图像表示元、搜索区域图像表示元以及文本表示元的获取具体包括以下步骤:
a)在对模板图像和搜索区域图像进行卷积中,使用P×P的卷积核以步长为P,编码维度为D的方式进行卷积操作,同步实现图像切块和线性映射,其中P为块的大小,D为线性映射维度;
b)在使用BERT模型对文本进行分词和向量化,获取文本表示元中,分别使用CLS和SEP指示文本序列的开始和边界。
3.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,
所述步骤S3)中,使用混合专家模式进行特征提取和模态交互,具体包括以下步骤:
c)拼接模板图像表示元与搜索区域图像表示元,以得到的二元组作为视觉部分输入,以文本表示元作为文本部分输入;
d)在前k层编码器设置视觉前馈网络V-FFN和文本前馈网络L-FFN,设层数为i层,归一化上层特征Ti并进行多头自注意力处理,截取视觉部分输入输入至视觉前馈神经网络得到视觉特征,截取文本部分输入输入至文本前馈神经网络得到文本特征;
e)在后(m-k)层通过添加多头自注意力机制融合视觉前馈网络V-FFN与文本前馈网络L-FFN,得到视觉-语言融合前馈神经网络VL-FFN。
4.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,
所述步骤S3)中,使用单流编码器交互模式进行特征提取和模态交互,具体包括以下步骤:
f)拼接模板图像表示元、搜索区域图像表示元以及文本表示元,以得到的三元组作为Transformer编码器输入;
g)采用多头自注意力机制进行各表示元融合,自注意力过程中的权重矩阵如下:
其中,σ代表每类表示元对自身的注意建模,τ代表用于搜索区域跟踪的表示元建模,ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。
5.根据权利要求3或4任一项所述的一种无人机多模态跟踪方法,其特征在于,
所述步骤S4)中的分类过程采用加权的focal损失作为分类损失;
所述步骤S4)中的回归过程采用l1损失和GIoU损失作为回归损失。
CN202410369741.0A 2024-03-29 一种无人机多模态跟踪方法 Active CN117975314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410369741.0A CN117975314B (zh) 2024-03-29 一种无人机多模态跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410369741.0A CN117975314B (zh) 2024-03-29 一种无人机多模态跟踪方法

Publications (2)

Publication Number Publication Date
CN117975314A true CN117975314A (zh) 2024-05-03
CN117975314B CN117975314B (zh) 2024-06-25

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法
CN114372173A (zh) * 2022-01-11 2022-04-19 中国人民公安大学 一种基于Transformer架构的自然语言目标跟踪方法
CN116091551A (zh) * 2023-03-14 2023-05-09 中南大学 一种基于多模态融合的目标检索跟踪方法及系统
CN116403006A (zh) * 2023-06-07 2023-07-07 南京军拓信息科技有限公司 实时视觉目标跟踪方法、装置、及存储介质
CN116862949A (zh) * 2023-06-21 2023-10-10 长沙理工大学 基于对称交叉注意力和位置信息增强的Transformer目标跟踪方法及跟踪器
CN117746024A (zh) * 2023-12-21 2024-03-22 中国人民解放军陆军炮兵防空兵学院 一种基于视觉语言大模型的短时自然语言目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法
CN114372173A (zh) * 2022-01-11 2022-04-19 中国人民公安大学 一种基于Transformer架构的自然语言目标跟踪方法
CN116091551A (zh) * 2023-03-14 2023-05-09 中南大学 一种基于多模态融合的目标检索跟踪方法及系统
CN116403006A (zh) * 2023-06-07 2023-07-07 南京军拓信息科技有限公司 实时视觉目标跟踪方法、装置、及存储介质
CN116862949A (zh) * 2023-06-21 2023-10-10 长沙理工大学 基于对称交叉注意力和位置信息增强的Transformer目标跟踪方法及跟踪器
CN117746024A (zh) * 2023-12-21 2024-03-22 中国人民解放军陆军炮兵防空兵学院 一种基于视觉语言大模型的短时自然语言目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUNHUI ZHANG ET AL.: "All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment", ARXIV, 7 July 2023 (2023-07-07), pages 1 - 11 *

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
US20210342643A1 (en) Method, apparatus, and electronic device for training place recognition model
CN112949415B (zh) 图像处理方法、装置、设备和介质
CN112380921A (zh) 一种基于车联网的道路检测方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
US11816149B2 (en) Electronic device and control method thereof
CN109902202B (zh) 一种视频分类方法及装置
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN113065402B (zh) 一种基于变形注意力机制的人脸检测方法
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN113627447A (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114840705A (zh) 一种基于多模态预训练模型的组合商品检索方法及系统
CN114792372A (zh) 一种基于多头两级注意力的三维点云语义分割方法及系统
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN113297955A (zh) 一种基于多模态分层级信息融合的手语词识别方法
CN113160283A (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN114048340A (zh) 一种层级融合的组合查询图像检索方法
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN113033507A (zh) 场景识别方法、装置、计算机设备和存储介质
CN115393606A (zh) 图像识别的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant