CN113705588B - 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 - Google Patents
基于卷积自注意力模块的孪生网络目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN113705588B CN113705588B CN202111261942.1A CN202111261942A CN113705588B CN 113705588 B CN113705588 B CN 113705588B CN 202111261942 A CN202111261942 A CN 202111261942A CN 113705588 B CN113705588 B CN 113705588B
- Authority
- CN
- China
- Prior art keywords
- target image
- branch
- image features
- network model
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 66
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000004931 aggregating effect Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 74
- 238000010586 diagram Methods 0.000 claims description 20
- 238000006116 polymerization reaction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统,该方法包括:构建特征融合网络模型;通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习,以得到对应的局部语义信息,对局部语义信息进行聚合得到全局上下文相关信息;对特征融合网络模型进行预训练;利用预训练后的特征融合网络模型,在模板分支中提取目标图像特征以及搜索区域目标图像特征,并引入到带有锚点的区域建议网络的分类分支与回归分支中;并分别进行深度互相关卷积计算以得到相似度得分;对最大相似度得分的目标候选块进行目标跟踪。本发明可提高目标图像和搜索区域目标图像的全局匹配的准确性,实现更准确的跟踪。
Description
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统。
背景技术
在计算机视觉与图像处理领域中,视觉跟踪在计算机视觉中有许多基础应用。例如,自动驾驶、视频监控、交通车辆监控以及人机交互等。因此,随着跟踪的实用性和实时性的提高,越来越多的跟踪相关应用在现实生活中变得越来越常见,这对于视频跟踪技术的研究也变得越来越有价值。
一般来说,由于外观变化、变形、快速运动以及遮挡等诸多原因,视觉跟踪仍然是一项具有挑战性的任务。近年来,基于卷积神经网络(CNN)的孪生网络跟踪器被广泛应用于视觉跟踪领域。具体的,将基于CNN模型的特征信息引入到模板和搜索分支中,通过互关操作得到的一个或多个响应图用于解码提取的特征信息。其中,典型的CNN模型包括AlexNet、VGG和ResNet等。目前,大多数CNN模型主要使用多个卷积算子(如3×3或5×5),可以有效地捕捉空间局部信息,从而建模图像内容的全局关系。
然而,该方法削弱了模型在处理复杂场景时获取重要全局上下文信息的能力,如目标外观变化和出视野等,导致目标漂移或跟踪失败。基于此,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中,部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息,导致丢失了大量的前景信息,且产生了冗余的背景信息,进而导致很难处理复杂外观变化所带来影响的问题。
本发明实施例提供了一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型,其中特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
其中,表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,表示值的偏差,表示实数集,、、以及表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头注意力模块。
所述基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述多头自注意力模块的运算方法具体包括如下步骤:
其中,,,,均为参数矩阵,的默认参数为32,表示头数与通道数,表示所述多头注意力模块的输出结果,表示聚合个头所输出的特征图Y的结果,表示所有头串联聚合后的特征图,表示最终输出的所有头串联聚合后的特征图的结果。
本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
所述基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
其中,表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,表示值的偏差,表示实数集,、、以及表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
所述基于卷积自注意力模块的孪生网络目标跟踪系统,其中,为一个2k通道向量,在分类分支中,输出特征图有2k个通道,2k通道包括pos与neg,pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块;为一个4k通道向量,4k通道包括dx、dy、dw以及dh,在回归分支中,输出特征图有 4k 个通道,dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪方法的流程图;
图2为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪框架的结构图;
图3为本发明第一实施例中多头自注意力模块的原理图;
图4为本发明第二实施例提出的基于卷积自注意力模块的孪生网络目标跟踪系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1至图3,本发明第一实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪方法,其中,所述方法包括如下步骤:
S101,在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型。
在本步骤中,重新构建所得到的特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征。在此需要说明的是,如图2所示,特征融合网络模型(在图2中对应为卷积自注意力模块)的第一层(卷积层1,CONV1)与第二层(卷积层2,CONV2)采用的是卷积神经网络模型中的深度残差网络ResNet-22,特征融合网络模型的第三层(包括卷积层3_1、卷积层3_2以及卷积层3_3)采用的是多头自注意力模块。在此还需要指出的是,特征融合网络模型由带有多头自注意力模块的残差网络(ResNet)瓶颈块组成。在残差网络的最后一阶段瓶颈块中,通过利用多头自注意力模块的全局自注意力方式,以消除堆叠多层空间(3×3)卷积算子的局限性。作为补充的,重新构建之后所得到的特征融合网络模型,所包含的卷积神经网络模型以及多头自注意力模块,可统称为卷积自注意力模块。
S102,通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息。
在本步骤中,上述被重新构建得到的特征融合网络模型,利用多头自注意力模块的全局自注意力方式可处理并聚合卷积特征图(包括目标图像特征以及搜索区域目标图像特征)中所包含的信息。其中,特征融合网络模型先利用卷积神经网络模型,从给定的目标图像以及搜索区域目标图像中有效学习局部区域中对应的局部语义信息。然后,通过多头自注意力模块的全局自注意力方式对所捕获的特征图中包含的信息进行处理和聚合。
也即,特征融合网络模型直接在二维特征图上使用卷积神经网络模型以及多头自注意力模块,基于孤立的查询(queries)和每个空间位置上的键对(keys)得到注意矩阵。其中,该特征融合网络模型可增强给定的目标图像与搜索区域目标图像之间的全局上下文相关信息,从而提高给定的目标图像与搜索区域目标图像之间的全局匹配的准确性。
具体而言,如图3所示,从图3中可以看出本发明中多头自注意力模块的生成原理。在本实施例中,该多头自注意力模块的生成方法包括如下步骤:
S1021,在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值。
S1022,通过所述查询以及所述键构建得到局部关系矩阵。
S1023,根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵。
S1024,根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图。
在本步骤中,对应的计算公式为;
S1025,根据所述聚合后的特征图计算得到所述多头注意力模块。
其中,,,,均为参数矩阵,的默认参数为32,表示头数与通道数,表示所述多头注意力模块的输出结果,表示聚合个头所输出的特征图Y的结果,表示所有头串联聚合后的特征图,表示最终输出的所有头串联聚合后的特征图的结果。
S103,利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整。
S104,利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中。
S105,利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积。
在本步骤中,对提取后的目标图像特征以及搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分。其中,相似度得分的公式表述为:
其中,表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值;表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值,k表示锚点数,2k与4k分别表示对应k个锚点的输出特征图的通道数,表示值的偏差,表示实数集,、、以及表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性,分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。
需要补充说明的是,在本实施例中,为一个2k通道向量,在分类分支中,输出特征图有2k个通道,也即2k通道包括pos与neg。其中,pos与neg分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块。
与此同时,为一个4k通道向量,在回归分支中,输出特征图有 4k 个通道,4k通道包括dx、dy、dw以及dh。也即dx、dy、dw以及dh分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。
S106,利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法,首先在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;然后,通过该多头自注意力模块通过全局自注意力的方式,对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合,最后进行深度互相关卷积计算并实现目标跟踪。在本发明中,通过重构所得到的卷积自注意力模块,可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息,从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性,最终实现更为准确地跟踪。
请参阅图4,本发明第二实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪系统,其中,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
步骤二:通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
步骤三:利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
步骤四:利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
步骤五:利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
步骤六:利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:
2.根据权利要求1所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,在所述步骤五中,对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分的步骤中,相似度得分的公式表述为:
4.根据权利要求2所述的基于卷积自注意力模块的孪生网络目标跟踪方法,其特征在于,模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为,分别表示通道数、高度和宽度,表示实数;
在所述步骤一中,所述多头自注意力模块的生成方法包括如下步骤:
在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换,以分别生成查询、键以及值;
通过所述查询以及所述键构建得到局部关系矩阵;
根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵;
根据所述增强的局部关系矩阵,通过softmax运算以得到相似局部相对矩阵,并将所述相似局部相对矩阵以及多个值聚合起来,通过局部矩阵乘法计算得到聚合后的特征图;
根据所述聚合后的特征图计算得到所述多头自注意力模块。
5.一种基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述系统包括:
构建模块,所述构建模块用于在孪生网络框架下,基于卷积神经网络模型以及多头自注意力模块,构建得到特征融合网络模型;其中,所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征,所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络,所述特征融合网络模型的第三层采用的是所述多头自注意力模块;
学习模块,用于通过所述特征融合网络模型中的所述卷积神经网络模型,对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习,以分别得到对应的局部语义信息,然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息;
预训练模块,用于利用大规模数据集,对所述特征融合网络模型进行预训练,并对所述特征融合网络模型中的参数进行调整;
提取模块,用于利用经预训练后的所述特征融合网络模型,在所述模板分支中提取所述目标图像特征,以及在所述搜索分支中提取所述搜索区域目标图像特征,并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中;
计算模块,用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算,以得到对应的相似度得分,其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积;
跟踪模块,用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪;
其中,所述多头自注意力模块的运算方法具体包括如下步骤:
6.根据权利要求5所述的基于卷积自注意力模块的孪生网络目标跟踪系统,其特征在于,所述计算模块用于:
对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分;
其中,所述相似度得分的公式表述为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111261942.1A CN113705588B (zh) | 2021-10-28 | 2021-10-28 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111261942.1A CN113705588B (zh) | 2021-10-28 | 2021-10-28 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705588A CN113705588A (zh) | 2021-11-26 |
CN113705588B true CN113705588B (zh) | 2022-01-25 |
Family
ID=78647398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111261942.1A Active CN113705588B (zh) | 2021-10-28 | 2021-10-28 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705588B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119669A (zh) * | 2021-11-30 | 2022-03-01 | 南昌工程学院 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
CN114359717B (zh) * | 2021-12-17 | 2023-04-25 | 华南理工大学 | 基于多视角相关性深度学习的车辆损伤识别方法 |
CN114581796B (zh) * | 2022-01-19 | 2024-04-02 | 上海土蜂科技有限公司 | 目标物跟踪系统、方法及其计算机装置 |
CN114821390B (zh) * | 2022-03-17 | 2024-02-23 | 齐鲁工业大学 | 基于注意力和关系检测的孪生网络目标跟踪方法及系统 |
CN114841310B (zh) * | 2022-03-28 | 2024-09-10 | 西北工业大学 | 视觉目标跟踪方法、装置 |
CN115169530B (zh) * | 2022-06-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN115063445B (zh) * | 2022-08-18 | 2022-11-08 | 南昌工程学院 | 基于多尺度层次化特征表示的目标跟踪方法与系统 |
CN115272419B (zh) * | 2022-09-27 | 2022-12-09 | 南昌工程学院 | 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统 |
CN115880337B (zh) * | 2023-02-16 | 2023-05-30 | 南昌工程学院 | 基于重参数卷积和特征过滤器的目标跟踪方法与系统 |
CN116030097B (zh) * | 2023-02-28 | 2023-05-30 | 南昌工程学院 | 基于双重注意力特征融合网络的目标跟踪方法与系统 |
CN116069973B (zh) * | 2023-04-04 | 2023-06-06 | 石家庄铁道大学 | 一种基于语义自挖掘的视频摘要生成方法 |
CN116109678B (zh) * | 2023-04-10 | 2023-06-13 | 南昌工程学院 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116701695B (zh) * | 2023-06-01 | 2024-01-30 | 中国石油大学(华东) | 一种级联角点特征与孪生网络的图像检索方法及系统 |
CN116664624B (zh) * | 2023-06-01 | 2023-10-27 | 中国石油大学(华东) | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
CN117056874B (zh) * | 2023-08-17 | 2024-08-13 | 国网四川省电力公司营销服务中心 | 一种基于深度孪生自回归网络的无监督窃电检测方法 |
CN117252904B (zh) * | 2023-11-15 | 2024-02-09 | 南昌工程学院 | 基于长程空间感知与通道增强的目标跟踪方法与系统 |
CN117274883B (zh) * | 2023-11-20 | 2024-01-26 | 南昌工程学院 | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 |
CN117333515B (zh) * | 2023-12-01 | 2024-02-09 | 南昌工程学院 | 基于区域感知注意力的目标跟踪方法与系统 |
CN118015048A (zh) * | 2024-04-09 | 2024-05-10 | 南昌工程学院 | 基于残差网络和群体混合注意力的目标跟踪方法与系统 |
CN118096836B (zh) * | 2024-04-26 | 2024-06-21 | 南昌工程学院 | 基于旋转等变网络与三重注意力机制目标跟踪方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3637303B1 (en) * | 2018-10-09 | 2024-02-14 | Naver Corporation | Methods for generating a base of training images, for training a cnn and for detecting a poi change in a pair of inputted poi images using said cnn |
CN111192292B (zh) * | 2019-12-27 | 2023-04-28 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
KR20210116966A (ko) * | 2020-03-18 | 2021-09-28 | 삼성전자주식회사 | 타겟 트래킹 방법 및 장치 |
CN113283407A (zh) * | 2021-07-22 | 2021-08-20 | 南昌工程学院 | 一种基于通道与空间注意力机制的孪生网络目标跟踪方法 |
-
2021
- 2021-10-28 CN CN202111261942.1A patent/CN113705588B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113705588A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705588B (zh) | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 | |
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN106845341B (zh) | 一种基于虚拟号牌的无牌车辆识别方法 | |
CN115063445B (zh) | 基于多尺度层次化特征表示的目标跟踪方法与系统 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
CN110097028A (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN115880337B (zh) | 基于重参数卷积和特征过滤器的目标跟踪方法与系统 | |
CN116109678B (zh) | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 | |
CN117274883B (zh) | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 | |
CN115631513B (zh) | 基于Transformer的多尺度行人重识别方法 | |
Sicre et al. | Discriminative part model for visual recognition | |
Ahmad et al. | 3D capsule networks for object classification from 3D model data | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
CN116612385B (zh) | 基于深度高分辨率关系图卷积的遥感影像多类信息提取方法与系统 | |
Guo et al. | Efficient convolutional networks learning through irregular convolutional kernels | |
Wang et al. | Rethinking low-level features for interest point detection and description | |
CN114429524A (zh) | 单目视觉下的三维目标检测模型的构建方法及检测方法 | |
CN108596034B (zh) | 一种基于目标中心编码外观模型的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240108 Address after: No. 5, 1st Street, Niulanwei Road, Da Tian Tian Tian, Luocun Wuzhuang, Shishan Town, Nanhai District, Foshan City, Guangdong Province, 528200 Patentee after: Foshan Weilin Qinli Machinery Co.,Ltd. Address before: 330099 No.289 Tianxiang Avenue, high tech Zone, Nanchang City, Jiangxi Province Patentee before: NANCHANG INSTITUTE OF TECHNOLOGY |
|
TR01 | Transfer of patent right |