CN113705588A - 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 - Google Patents

基于卷积自注意力模块的孪生网络目标跟踪方法与系统 Download PDF

Info

Publication number
CN113705588A
CN113705588A CN202111261942.1A CN202111261942A CN113705588A CN 113705588 A CN113705588 A CN 113705588A CN 202111261942 A CN202111261942 A CN 202111261942A CN 113705588 A CN113705588 A CN 113705588A
Authority
CN
China
Prior art keywords
target image
branch
image features
network model
search area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111261942.1A
Other languages
English (en)
Other versions
CN113705588B (zh
Inventor
王军
孟晨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Weilin Qinli Machinery Co ltd
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202111261942.1A priority Critical patent/CN113705588B/zh
Publication of CN113705588A publication Critical patent/CN113705588A/zh
Application granted granted Critical
Publication of CN113705588B publication Critical patent/CN113705588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统,该方法包括:构建特征融合网络模型;通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习,以得到对应的局部语义信息,对局部语义信息进行聚合得到全局上下文相关信息;对特征融合网络模型进行预训练;利用预训练后的特征融合网络模型,在模板分支中提取目标图像特征以及搜索区域目标图像特征,并引入到带有锚点的区域建议网络的分类分支与回归分支中;并分别进行深度互相关卷积计算以得到相似度得分;对最大相似度得分的目标候选块进行目标跟踪。本发明可提高目标图像和搜索区域目标图像的全局匹配的准确性,实现更准确的跟踪。

Description

基于卷积自注意力模块的孪生网络目标跟踪方法与系统
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统。
背景技术
在计算机视觉与图像处理领域中,视觉跟踪在计算机视觉中有许多基础应用。例如,自动驾驶、视频监控、交通车辆监控以及人机交互等。因此,随着跟踪的实用性和实时性的提高,越来越多的跟踪相关应用在现实生活中变得越来越常见,这对于视频跟踪技术的研究也变得越来越有价值。
一般来说,由于外观变化、变形、快速运动以及遮挡等诸多原因,视觉跟踪仍然是一项具有挑战性的任务。近年来,基于卷积神经网络(CNN)的孪生网络跟踪器被广泛应用于视觉跟踪领域。具体的,将基于CNN模型的特征信息引入到模板和搜索分支中,通过互关操作得到的一个或多个响应图用于解码提取的特征信息。其中,典型的CNN模型包括AlexNet、VGG和ResNet等。目前,大多数CNN模型主要使用多个卷积算子(如3×3或5×5),可以有效地捕捉空间局部信息,从而建模图像内容的全局关系。
然而,该方法削弱了模型在处理复杂场景时获取重要全局上下文信息的能力,如目标外观变化和出视野等,导致目标漂移或跟踪失败。基于此,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来影响的问题。
本发明实施例提供了一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型,其中特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
Figure 484334DEST_PATH_IMAGE001
其中,
Figure 446605DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 857995DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 889405DEST_PATH_IMAGE004
表示值
Figure 44443DEST_PATH_IMAGE005
的偏差,
Figure 985854DEST_PATH_IMAGE006
表示实数集,
Figure 446441DEST_PATH_IMAGE007
Figure 840513DEST_PATH_IMAGE008
Figure 923876DEST_PATH_IMAGE009
以及
Figure 454214DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 472986DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,
Figure 229720DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 726561DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 767198DEST_PATH_IMAGE012
Figure 425712DEST_PATH_IMAGE013
分别表示通道数、高度和宽度,
Figure 59956DEST_PATH_IMAGE014
表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头注意力模块。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述多头自注意力模块的运算方法具体包括如下步骤:
在所述模板分支与所述搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 970274DEST_PATH_IMAGE015
进行变换,以分别生成查询
Figure 740784DEST_PATH_IMAGE016
,键
Figure 960413DEST_PATH_IMAGE017
和值
Figure 816374DEST_PATH_IMAGE018
;其中,
Figure 530383DEST_PATH_IMAGE019
的尺寸大小为
Figure 155399DEST_PATH_IMAGE020
Figure 421296DEST_PATH_IMAGE021
表示减少的信道数,
Figure 889186DEST_PATH_IMAGE022
分别为所输入的三个不同的嵌入矩阵;
通过查询
Figure 531520DEST_PATH_IMAGE023
与键
Figure 883479DEST_PATH_IMAGE024
构建得到局部关系矩阵
Figure 585856DEST_PATH_IMAGE025
,局部关系矩阵
Figure 150830DEST_PATH_IMAGE025
的计算公式为:
Figure 455909DEST_PATH_IMAGE026
其中,
Figure 55518DEST_PATH_IMAGE027
Figure 538583DEST_PATH_IMAGE028
表示多头自注意力模块的头数,
Figure 590852DEST_PATH_IMAGE029
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 574989DEST_PATH_IMAGE030
为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵
Figure 153738DEST_PATH_IMAGE025
进行增强以得到增强的局部关系矩阵
Figure 932338DEST_PATH_IMAGE031
,所述增强的局部关系矩阵
Figure 612849DEST_PATH_IMAGE031
的计算公式为:
Figure 135097DEST_PATH_IMAGE032
其中,
Figure 568353DEST_PATH_IMAGE033
为所述相对位置编码,相对位置编码
Figure 517854DEST_PATH_IMAGE033
的大小为
Figure 544716DEST_PATH_IMAGE034
Figure 746021DEST_PATH_IMAGE035
表示逐元素求和;
根据所述增强的局部关系矩阵
Figure 909149DEST_PATH_IMAGE031
,通过softmax运算以得到相似局部相对矩阵
Figure 419765DEST_PATH_IMAGE036
,并将所述相似局部相对矩阵
Figure 933923DEST_PATH_IMAGE036
以及多个值
Figure 63553DEST_PATH_IMAGE037
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 971202DEST_PATH_IMAGE038
,对应的计算公式为;
Figure 528086DEST_PATH_IMAGE039
根据所述聚合后的特征图
Figure 654173DEST_PATH_IMAGE038
计算得到所述多头注意力模块,其中所述多头注意力模块的运算方法表示为:
Figure 321915DEST_PATH_IMAGE040
其中,
Figure 69422DEST_PATH_IMAGE041
Figure 62786DEST_PATH_IMAGE042
Figure 285957DEST_PATH_IMAGE043
Figure 616444DEST_PATH_IMAGE044
均为参数矩阵,
Figure 874250DEST_PATH_IMAGE045
的默认参数为32,
Figure 648302DEST_PATH_IMAGE046
表示头数与通道数,
Figure 93190DEST_PATH_IMAGE047
表示所述多头注意力模块的输出结果,
Figure 368314DEST_PATH_IMAGE048
表示聚合
Figure 605260DEST_PATH_IMAGE049
个头所输出的特征图Y的结果,
Figure 674847DEST_PATH_IMAGE050
表示所有头串联聚合后的特征图,
Figure 747977DEST_PATH_IMAGE051
表示最终输出的所有头串联聚合后的特征图的结果。
本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
Figure 561212DEST_PATH_IMAGE001
其中,
Figure 528031DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 893153DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 578212DEST_PATH_IMAGE004
表示值
Figure 801996DEST_PATH_IMAGE005
的偏差,
Figure 888900DEST_PATH_IMAGE006
表示实数集,
Figure 300290DEST_PATH_IMAGE007
Figure 597279DEST_PATH_IMAGE008
Figure 486738DEST_PATH_IMAGE009
以及
Figure 303515DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 885806DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪系统,其中,
Figure 279879DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 363241DEST_PATH_IMAGE003
为一个4k通道向量,4k通道包括dx、dy、dw以及dh,在回归分支中,输出特征图有 4k 个通道,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪方法的流程图;
图2为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪框架的结构图;
图3为本发明第一实施例中多头自注意力模块的原理图;
图4为本发明第二实施例提出的基于卷积自注意力模块的孪生网络目标跟踪系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1至图3,本发明第一实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
S101,在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型。
在本步骤中,重新构建所得到的特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征。在此需要说明的是,如图2所示,特征融合网络模型(在图2中对应为卷积自注意力模块)的第一层(卷积层1,CONV1)与第二层(卷积层2,CONV2)采用的是卷积神经网络模型中的深度残差网络ResNet-22,特征融合网络模型的第三层(包括卷积层3_1、卷积层3_2以及卷积层3_3)采用的是多头自注意力模块。在此还需要指出的是,特征融合网络模型由带有多头自注意力模块的残差网络(ResNet)瓶颈块组成。在残差网络的最后一阶段瓶颈块中,通过利用多头自注意力模块的全局自注意力方式,以消除堆叠多层空间(3×3)卷积算子的局限性。作为补充的,重新构建之后所得到的特征融合网络模型,所包含的卷积神经网络模型以及多头自注意力模块,可统称为卷积自注意力模块。
S102,通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息。
在本步骤中,上述被重新构建得到的特征融合网络模型,利用多头自注意力模块的全局自注意力方式可处理并聚合卷积特征图(包括目标图像特征以及搜索区域目标图像特征)中所包含的信息。其中,特征融合网络模型先利用卷积神经网络模型,从给定的目标图像以及搜索区域目标图像中有效学习局部区域中对应的局部语义信息。然后,通过多头自注意力模块的全局自注意力方式对所捕获的特征图中包含的信息进行处理和聚合。
也即,特征融合网络模型直接在二维特征图上使用卷积神经网络模型以及多头自注意力模块,基于孤立的查询(queries)和每个空间位置上的键对(keys)得到注意矩阵。其中,该特征融合网络模型可增强给定的目标图像与搜索区域目标图像之间的全局上下文相关信息,从而提高给定的目标图像与搜索区域目标图像之间的全局匹配的准确性。
其中,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 159159DEST_PATH_IMAGE012
Figure 177930DEST_PATH_IMAGE013
分别表示通道数、高度和宽度,
Figure 934665DEST_PATH_IMAGE014
表示实数。
具体而言,如图3所示,从图3中可以看出本发明中多头自注意力模块的生成原理。在本实施例中,该多头自注意力模块的生成方法包括如下步骤:
S1021,在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值。
在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 165926DEST_PATH_IMAGE015
进行变换,以分别生成查询
Figure 206563DEST_PATH_IMAGE016
,键
Figure 130657DEST_PATH_IMAGE017
和值
Figure 764901DEST_PATH_IMAGE018
其中,
Figure 675219DEST_PATH_IMAGE019
的尺寸大小为
Figure 180150DEST_PATH_IMAGE020
Figure 665358DEST_PATH_IMAGE021
表示减少的信道数,
Figure 521318DEST_PATH_IMAGE022
分别为所输入的三个不同的嵌入矩阵。
S1022,通过所述查询以及所述键构建得到局部关系矩阵。
在本步骤中,通过查询
Figure 359961DEST_PATH_IMAGE023
与键
Figure 863274DEST_PATH_IMAGE024
构建得到局部关系矩阵
Figure 129170DEST_PATH_IMAGE025
,局部关系矩阵
Figure 597060DEST_PATH_IMAGE025
的计算公式为:
Figure 239394DEST_PATH_IMAGE026
其中,
Figure 984496DEST_PATH_IMAGE052
Figure 296660DEST_PATH_IMAGE028
表示多头自注意力模块的头数,
Figure 127213DEST_PATH_IMAGE029
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 166713DEST_PATH_IMAGE030
为局部矩阵乘法。
S1023,根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵。
具体的,根据引入的相对位置编码对所述局部关系矩阵
Figure 766322DEST_PATH_IMAGE025
进行增强以得到增强的局部关系矩阵
Figure 639600DEST_PATH_IMAGE031
,所述增强的局部关系矩阵
Figure 567236DEST_PATH_IMAGE031
的计算公式为:
Figure 551372DEST_PATH_IMAGE032
其中,
Figure 130121DEST_PATH_IMAGE033
为所述相对位置编码,相对位置编码
Figure 908721DEST_PATH_IMAGE033
的大小为
Figure 713866DEST_PATH_IMAGE034
Figure 111480DEST_PATH_IMAGE035
表示逐元素求和,
Figure 685681DEST_PATH_IMAGE053
Figure 759817DEST_PATH_IMAGE054
分别表示特征图上相对位置编码的宽和高。
S1024,根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图。
具体的,根据增强的局部关系矩阵
Figure 786678DEST_PATH_IMAGE031
,通过softmax运算以得到相似局部相对矩阵
Figure 112617DEST_PATH_IMAGE036
,并将所述相似局部相对矩阵
Figure 148182DEST_PATH_IMAGE036
以及多个值
Figure 534164DEST_PATH_IMAGE037
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 172956DEST_PATH_IMAGE038
在本步骤中,对应的计算公式为;
Figure 302586DEST_PATH_IMAGE055
S1025,根据所述聚合后的特征图计算得到所述多头注意力模块。
在本实施例中,根据聚合后的特征图
Figure 320220DEST_PATH_IMAGE038
计算得到多头注意力模块。其中,所述多头注意力模块的运算方法表示为:
Figure 18049DEST_PATH_IMAGE040
其中,
Figure 753924DEST_PATH_IMAGE041
Figure 280720DEST_PATH_IMAGE042
Figure 684020DEST_PATH_IMAGE043
Figure 411804DEST_PATH_IMAGE044
均为参数矩阵,
Figure 510341DEST_PATH_IMAGE045
的默认参数为32,
Figure 981774DEST_PATH_IMAGE046
表示头数与通道数,
Figure 98635DEST_PATH_IMAGE047
表示所述多头注意力模块的输出结果,
Figure 997321DEST_PATH_IMAGE048
表示聚合
Figure 707788DEST_PATH_IMAGE049
个头所输出的特征图Y的结果,
Figure 858277DEST_PATH_IMAGE050
表示所有头串联聚合后的特征图,
Figure 705011DEST_PATH_IMAGE051
表示最终输出的所有头串联聚合后的特征图的结果。
在此需要补充说明的是,在本实施例中,
Figure 40177DEST_PATH_IMAGE056
Figure 96995DEST_PATH_IMAGE057
S103,利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整。
S104,利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中。
S105,利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积。
在本步骤中,对提取后的目标图像特征以及搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分。其中,相似度得分的公式表述为:
Figure 175809DEST_PATH_IMAGE001
其中,
Figure 9205DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 984115DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 793808DEST_PATH_IMAGE004
表示值
Figure 410734DEST_PATH_IMAGE005
的偏差,
Figure 232059DEST_PATH_IMAGE006
表示实数集,
Figure 518815DEST_PATH_IMAGE007
Figure 425591DEST_PATH_IMAGE008
Figure 705263DEST_PATH_IMAGE009
以及
Figure 646674DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 228965DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
需要补充说明的是,在本实施例中,
Figure 763983DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,也即2k通道包括pos与neg。其中,pos与neg分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块。
与此同时,
Figure 457132DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh。也即dx、dy、dw以及dh分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
S106,利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
请参阅图4,本发明第二实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
2.根据权利要求1所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
Figure 397168DEST_PATH_IMAGE001
其中,
Figure 531346DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 643659DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 588612DEST_PATH_IMAGE004
表示值
Figure 786375DEST_PATH_IMAGE005
的偏差,
Figure 599611DEST_PATH_IMAGE006
表示实数集,
Figure 425484DEST_PATH_IMAGE007
Figure 931552DEST_PATH_IMAGE008
Figure 226398DEST_PATH_IMAGE009
以及
Figure 843324DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 664650DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
3.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,
Figure 466252DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 373029DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
4.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为
Figure 403433DEST_PATH_IMAGE012
Figure 344844DEST_PATH_IMAGE013
分别表示通道数、高度和宽度,
Figure 927135DEST_PATH_IMAGE014
表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头注意力模块。
5.根据权利要求4所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,所述多头自注意力模块的运算方法具体包括如下步骤:
在所述模板分支与所述搜索分支上分别应用具有1×1核卷积层的嵌入矩阵
Figure 711420DEST_PATH_IMAGE015
进行变换,以分别生成查询
Figure 404570DEST_PATH_IMAGE016
,键
Figure 466067DEST_PATH_IMAGE017
和值
Figure 826116DEST_PATH_IMAGE018
;其中,
Figure 707485DEST_PATH_IMAGE019
的尺寸大小为
Figure 594538DEST_PATH_IMAGE020
Figure 244962DEST_PATH_IMAGE021
表示减少的信道数,
Figure 434635DEST_PATH_IMAGE022
分别为所输入的三个不同的嵌入矩阵;
通过查询
Figure 413086DEST_PATH_IMAGE023
与键
Figure 448039DEST_PATH_IMAGE024
构建得到局部关系矩阵
Figure 608761DEST_PATH_IMAGE025
,局部关系矩阵
Figure 703756DEST_PATH_IMAGE025
的计算公式为:
Figure 169504DEST_PATH_IMAGE026
其中,
Figure 273726DEST_PATH_IMAGE027
Figure 898743DEST_PATH_IMAGE028
表示多头自注意力模块的头数,
Figure 554852DEST_PATH_IMAGE029
表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小,
Figure 632529DEST_PATH_IMAGE030
为局部矩阵乘法;
根据引入的相对位置编码对所述局部关系矩阵
Figure 274863DEST_PATH_IMAGE025
进行增强以得到增强的局部关系矩阵
Figure 629752DEST_PATH_IMAGE031
,所述增强的局部关系矩阵
Figure 66550DEST_PATH_IMAGE031
的计算公式为:
Figure 21736DEST_PATH_IMAGE032
其中,
Figure 202182DEST_PATH_IMAGE033
为所述相对位置编码,相对位置编码
Figure 801791DEST_PATH_IMAGE033
的大小为
Figure 287785DEST_PATH_IMAGE034
Figure 340055DEST_PATH_IMAGE035
表示逐元素求和;
根据所述增强的局部关系矩阵
Figure 714405DEST_PATH_IMAGE031
,通过softmax运算以得到相似局部相对矩阵
Figure 902940DEST_PATH_IMAGE036
,并将所述相似局部相对矩阵
Figure 947120DEST_PATH_IMAGE036
以及多个值
Figure 362052DEST_PATH_IMAGE037
聚合起来,通过局部矩阵乘法计算得到聚合后的特征图
Figure 149879DEST_PATH_IMAGE038
,对应的计算公式为;
Figure 583135DEST_PATH_IMAGE039
根据所述聚合后的特征图
Figure 532636DEST_PATH_IMAGE038
计算得到所述多头注意力模块,其中所述多头注意力模块的运算方法表示为:
Figure 825077DEST_PATH_IMAGE040
其中,
Figure 760803DEST_PATH_IMAGE041
Figure 923931DEST_PATH_IMAGE042
Figure 700126DEST_PATH_IMAGE043
Figure 948705DEST_PATH_IMAGE044
均为参数矩阵,
Figure 688122DEST_PATH_IMAGE045
的默认参数为32,
Figure 236915DEST_PATH_IMAGE046
表示头数与通道数,
Figure 528219DEST_PATH_IMAGE047
表示所述多头注意力模块的输出结果,
Figure 654307DEST_PATH_IMAGE048
表示聚合
Figure 322049DEST_PATH_IMAGE049
个头所输出的特征图Y的结果,
Figure 725348DEST_PATH_IMAGE050
表示所有头串联聚合后的特征图,
Figure 59990DEST_PATH_IMAGE051
表示最终输出的所有头串联聚合后的特征图的结果。
6.一种基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
7.根据权利要求6所述的基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
Figure 283161DEST_PATH_IMAGE001
其中,
Figure 879227DEST_PATH_IMAGE002
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;
Figure 871454DEST_PATH_IMAGE003
表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,
Figure 35719DEST_PATH_IMAGE004
表示值
Figure 621553DEST_PATH_IMAGE005
的偏差,
Figure 365518DEST_PATH_IMAGE006
表示实数集,
Figure 868043DEST_PATH_IMAGE007
Figure 672051DEST_PATH_IMAGE008
Figure 135393DEST_PATH_IMAGE009
以及
Figure 558416DEST_PATH_IMAGE010
表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,
Figure 525235DEST_PATH_IMAGE011
分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
8.根据权利要求7所述的基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,
Figure 155936DEST_PATH_IMAGE002
为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;
Figure 575416DEST_PATH_IMAGE003
为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
CN202111261942.1A 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 Active CN113705588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111261942.1A CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111261942.1A CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与系统

Publications (2)

Publication Number Publication Date
CN113705588A true CN113705588A (zh) 2021-11-26
CN113705588B CN113705588B (zh) 2022-01-25

Family

ID=78647398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111261942.1A Active CN113705588B (zh) 2021-10-28 2021-10-28 基于卷积自注意力模块的孪生网络目标跟踪方法与系统

Country Status (1)

Country Link
CN (1) CN113705588B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119669A (zh) * 2021-11-30 2022-03-01 南昌工程学院 一种基于Shuffle注意力的图匹配目标跟踪方法与系统
CN114359717A (zh) * 2021-12-17 2022-04-15 华南理工大学 基于多视角相关性深度学习的车辆损伤识别方法
CN114581796A (zh) * 2022-01-19 2022-06-03 上海土蜂科技有限公司 目标物跟踪系统、方法及其计算机装置
CN114821390A (zh) * 2022-03-17 2022-07-29 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115063445A (zh) * 2022-08-18 2022-09-16 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与系统
CN115169530A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN115272419A (zh) * 2022-09-27 2022-11-01 南昌工程学院 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统
CN115880337A (zh) * 2023-02-16 2023-03-31 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与系统
CN116030097A (zh) * 2023-02-28 2023-04-28 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统
CN116069973A (zh) * 2023-04-04 2023-05-05 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN116701695A (zh) * 2023-06-01 2023-09-05 中国石油大学(华东) 一种级联角点特征与孪生网络的图像检索方法及系统
CN117252904A (zh) * 2023-11-15 2023-12-19 南昌工程学院 基于长程空间感知与通道增强的目标跟踪方法与系统
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统
CN117333515A (zh) * 2023-12-01 2024-01-02 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200110966A1 (en) * 2018-10-09 2020-04-09 Naver Corporation Systems and methods for detecting a point of interest change using a convolutional neural network
CN111161311A (zh) * 2019-12-09 2020-05-15 中车工业研究院有限公司 一种基于深度学习的视觉多目标跟踪方法及装置
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
US20210295532A1 (en) * 2020-03-18 2021-09-23 Samsung Electronics Co., Ltd. Method and apparatus for tracking target

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200110966A1 (en) * 2018-10-09 2020-04-09 Naver Corporation Systems and methods for detecting a point of interest change using a convolutional neural network
CN111161311A (zh) * 2019-12-09 2020-05-15 中车工业研究院有限公司 一种基于深度学习的视觉多目标跟踪方法及装置
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
US20210295532A1 (en) * 2020-03-18 2021-09-23 Samsung Electronics Co., Ltd. Method and apparatus for tracking target
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANLING BIAN ET AL: "VTT: Long-term Visual Tracking with Transformers", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
张睿等: "基于无锚点机制与在线更新的目标跟踪算法", 《计算机工程与应用》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119669A (zh) * 2021-11-30 2022-03-01 南昌工程学院 一种基于Shuffle注意力的图匹配目标跟踪方法与系统
CN114359717B (zh) * 2021-12-17 2023-04-25 华南理工大学 基于多视角相关性深度学习的车辆损伤识别方法
CN114359717A (zh) * 2021-12-17 2022-04-15 华南理工大学 基于多视角相关性深度学习的车辆损伤识别方法
CN114581796A (zh) * 2022-01-19 2022-06-03 上海土蜂科技有限公司 目标物跟踪系统、方法及其计算机装置
CN114581796B (zh) * 2022-01-19 2024-04-02 上海土蜂科技有限公司 目标物跟踪系统、方法及其计算机装置
CN114821390A (zh) * 2022-03-17 2022-07-29 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN114821390B (zh) * 2022-03-17 2024-02-23 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115169530A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN115169530B (zh) * 2022-06-29 2023-09-26 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN115063445A (zh) * 2022-08-18 2022-09-16 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与系统
CN115272419A (zh) * 2022-09-27 2022-11-01 南昌工程学院 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统
CN115272419B (zh) * 2022-09-27 2022-12-09 南昌工程学院 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统
CN115880337A (zh) * 2023-02-16 2023-03-31 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与系统
CN116030097B (zh) * 2023-02-28 2023-05-30 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统
CN116030097A (zh) * 2023-02-28 2023-04-28 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统
CN116069973B (zh) * 2023-04-04 2023-06-06 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法
CN116069973A (zh) * 2023-04-04 2023-05-05 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法
CN116109678B (zh) * 2023-04-10 2023-06-13 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116701695B (zh) * 2023-06-01 2024-01-30 中国石油大学(华东) 一种级联角点特征与孪生网络的图像检索方法及系统
CN116664624B (zh) * 2023-06-01 2023-10-27 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN116701695A (zh) * 2023-06-01 2023-09-05 中国石油大学(华东) 一种级联角点特征与孪生网络的图像检索方法及系统
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN117252904A (zh) * 2023-11-15 2023-12-19 南昌工程学院 基于长程空间感知与通道增强的目标跟踪方法与系统
CN117252904B (zh) * 2023-11-15 2024-02-09 南昌工程学院 基于长程空间感知与通道增强的目标跟踪方法与系统
CN117274883A (zh) * 2023-11-20 2023-12-22 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统
CN117274883B (zh) * 2023-11-20 2024-01-26 南昌工程学院 基于多头注意力优化特征融合网络的目标跟踪方法与系统
CN117333515A (zh) * 2023-12-01 2024-01-02 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统
CN117333515B (zh) * 2023-12-01 2024-02-09 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统

Also Published As

Publication number Publication date
CN113705588B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN113705588B (zh) 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
Melekhov et al. Dgc-net: Dense geometric correspondence network
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN106845341B (zh) 一种基于虚拟号牌的无牌车辆识别方法
CN115063445B (zh) 基于多尺度层次化特征表示的目标跟踪方法与系统
CN112560966B (zh) 基于散射图卷积网络的极化sar图像分类方法、介质及设备
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN113516133B (zh) 一种多模态图像分类方法及系统
CN115880337B (zh) 基于重参数卷积和特征过滤器的目标跟踪方法与系统
WO2021062050A1 (en) Icospherical gauge convolutional neural network
CN116109678B (zh) 基于上下文自注意力学习深度网络的目标跟踪方法与系统
Ahmad et al. 3D capsule networks for object classification from 3D model data
CN115908908A (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
Sicre et al. Discriminative part model for visual recognition
Wang et al. GridNet: efficiently learning deep hierarchical representation for 3D point cloud understanding
CN117274883B (zh) 基于多头注意力优化特征融合网络的目标跟踪方法与系统
Yin et al. Automated classification of piping components from 3D LiDAR point clouds using SE-PseudoGrid
He et al. Classification of metro facilities with deep neural networks
CN109670506A (zh) 基于克罗内克卷积的场景分割方法和系统
Guo et al. Efficient convolutional networks learning through irregular convolutional kernels
CN115272696A (zh) 一种基于自适应卷积和局部几何信息的点云语义分割方法
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
Wang et al. Rethinking low-level features for interest point detection and description

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240108

Address after: No. 5, 1st Street, Niulanwei Road, Da Tian Tian Tian, Luocun Wuzhuang, Shishan Town, Nanhai District, Foshan City, Guangdong Province, 528200

Patentee after: Foshan Weilin Qinli Machinery Co.,Ltd.

Address before: 330099 No.289 Tianxiang Avenue, high tech Zone, Nanchang City, Jiangxi Province

Patentee before: NANCHANG INSTITUTE OF TECHNOLOGY