CN116109678A - 基于上下文自注意力学习深度网络的目标跟踪方法与系统 - Google Patents
基于上下文自注意力学习深度网络的目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN116109678A CN116109678A CN202310372849.0A CN202310372849A CN116109678A CN 116109678 A CN116109678 A CN 116109678A CN 202310372849 A CN202310372849 A CN 202310372849A CN 116109678 A CN116109678 A CN 116109678A
- Authority
- CN
- China
- Prior art keywords
- target
- representing
- feature map
- attention
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000003068 static effect Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与系统,所述方法包括:基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。
Description
技术领域
本发明涉及计算机视觉与图像处理技术领域,特别涉及一种基于上下文自注意力学习深度网络的目标跟踪方法与系统。
背景技术
在计算机视觉领域中,目标跟踪通过在连续的视频图像序列中对目标的表观和运动信息进行建模以定位跟踪目标的位置。目前,目标跟踪在智能视频监控、无人驾驶、医疗诊断以及虚拟现实等视觉领域中有着广泛应用。
在实际跟踪过程中,跟踪算法面临着尺度变化、运动模糊、目标旋转、外部环境的光照变化以及相似背景干扰等因素的影响。随着目标跟踪技术的发展,基于深度学习的跟踪算法提高了跟踪性能,但是计算代价高。近年来,基于孪生神经网络的目标跟踪表现出良好的跟踪性能,尤其是在平衡跟踪速度和精确度方面,受到了国内外研究人员的广泛关注。
基于孪生网络的目标跟踪算法,虽然双分支孪生网络在目标跟踪方向得到了很好的应用,但是部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想。基于此,有必要提出一种基于上下文自注意力学习深度网络的目标跟踪方法与系统,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了解决现有技术中,部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想的问题。
本发明实施例提出一种基于上下文自注意力学习深度网络的目标跟踪方法,其中,所述方法包括如下步骤:
步骤一、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
步骤二、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
步骤三:利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
步骤四:利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
步骤五:利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
步骤六:根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与系统,首先在孪生网络框架下,基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;其中,上下文自注意力学习模块用于提取目标全局上下文信息以进一步得到更加精确的目标表观信息,特征提取网络模型用于分别提取目标模板图像特征和搜索区域图像特征;然后,利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。
本发明还提出一种基于上下文自注意力学习深度网络的目标跟踪系统,其中,应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述系统包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于上下文自注意力学习深度网络的目标跟踪方法的流程图;
图2为本发明的特征提取网络的结构图;
图3为本发明的原理框架图;
图4为本发明提出的基于上下文自注意力学习深度网络的目标跟踪系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1,本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法,其中,所述方法包括如下步骤:
S101、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征。
在本步骤中,重新构建所得到的特征提取网络模型用于分别提取模板分支上的目标模板图像特征和搜索分支上的搜索区域图像特征。在此需要说明的是,如图2所示,特征提取网络模型通过深度卷积神经网络和上下文自注意力学习模块构成。其中,深度卷积神经网络模型提取了模板分支与搜索分支的局部浅层信息。在上下文自注意力学习模块中,结合动态自注意力机制提取全局上下文信息,将全局上下文信息与自注意力学习集成在该上下文自注意力学习模块中,上下文自注意力学习模块具有有效的自注意力学习能力,同时增强了目标特征的聚合能力。
S102、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息。
其中,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力。
在本发明中,融合了浅层目标局部信息与目标全局上下文信息的上下文自注意力学习模块,充分利用相邻键之间的上下文信息,促进了自注意力学习。此外,模板分支与搜索分支上的特征图均称为目标特征图。具体的,目标特征图表示。
在本实施例中,上下文自注意力学习模块的生成方法包括如下步骤:
S103、利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整。
S104、利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中。
S105、利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图。
请参阅图3,将特征提取网络模块提取的第三个卷积块(卷积块_3)、第四个卷积块(卷积块_4)以及第五个卷积块(卷积块_5)的目标特征和搜索分支的特征分别输入区域建议网络的分类分支和回归分支。在分类分支和回归分支中对模板分支的分类特征和搜索分支的分类特征,以及模板分支的回归特征和搜索分支的回归特征分别进行深度卷积运算。
具体的,进行深度卷积计算的公式表示为:
在特征提取网络模型提取的第三个卷积块(卷积块_3)、第四个卷积块(卷积块_4)与第五个卷积块(卷积块_5)的目标模板图像特征和搜索区域图像特征中,浅层特征捕获了目标的表观特征,能够精准定位,深层特征能捕获目标语义信息,增强了目标外观变化的鲁棒性。将三个卷积的分类和回归特征图分别进行加权求和。
其中,将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果。
S106、根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。
本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与系统,首先在孪生网络框架下,基于卷积神经网络模型与上下文自注意力学习模块,构建得到特征提取网络模型;其中,上下文自注意力学习模块用于提取目标全局上下文信息以进一步得到更加精确的目标表观信息,特征提取网络模型用于分别提取目标模板图像特征和搜索区域图像特征;然后,利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算,得到对应的相似度得分图,最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中,通过重构所得到的特征提取网络,可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力,有利于区域建议网络的分类回归分支的相似度计算,最终实现更加精确的跟踪。
请参阅图4,本发明提出一种基于上下文自注意力学习深度网络的目标跟踪系统,其中,应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述系统包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
所述上下文自注意力学习模块还用于:
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
所述卷积计算模块用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图,对应的公式表示为:
所述目标跟踪系统还用于:
将分类特征图与回归特征图分别进行加权求和,对应的公式表示为:
其中,表示目标特征分类分数特征图,表示第个卷积块分类特征图的深度卷积结果的权重,表示第个卷积块分类特征图的深度卷积结果,表示目标特征回归分数特征图,表示第个卷积块回归特征图的深度卷积结果的权重,表示第个卷积块回归特征图的深度卷积的结果;
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于上下文自注意力学习深度网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一、在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
步骤二、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
步骤三:利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
步骤四:利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
步骤五:利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
步骤六:根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
所述上下文自注意力学习模块提取得到的目标特征图的方法包括如下步骤:
5.一种基于上下文自注意力学习深度网络的目标跟踪系统,其特征在于,应用如上述权利要求1至4任一项所述的基于上下文自注意力学习深度网络的目标跟踪方法,所述系统包括:
模型构建模块,用于:
在孪生网络框架下,基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型,所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成,并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征;
第一提取模块,用于:
通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息,通过所述上下文自注意力学习模块,结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息,将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息,所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中,利用输入键之间的上下文信息来指导动态注意力矩阵的学习,以增强目标特征表示能力;
预训练模块,用于:
利用大规模数据集,对所述特征提取网络模型进行预训练,并结合区域建议网络对所述特征提取网络模型的参数进行调整;
第二提取模块,用于:
利用预训练后的所述特征提取网络模型,在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征,并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中;
卷积计算模块,用于:
利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征,在分类分支和回归分支上分别进行特征融合深度卷积计算,以得到对应的相似度得分图;
目标跟踪模块,用于:
根据所述相似度得分图,将最大相似度得分值对应的相似度得分图确定为跟踪定位目标;
所述上下文自注意力学习模块还用于:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310372849.0A CN116109678B (zh) | 2023-04-10 | 2023-04-10 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310372849.0A CN116109678B (zh) | 2023-04-10 | 2023-04-10 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116109678A true CN116109678A (zh) | 2023-05-12 |
CN116109678B CN116109678B (zh) | 2023-06-13 |
Family
ID=86262394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310372849.0A Active CN116109678B (zh) | 2023-04-10 | 2023-04-10 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109678B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433727A (zh) * | 2023-06-13 | 2023-07-14 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN117649582A (zh) * | 2024-01-25 | 2024-03-05 | 南昌工程学院 | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 |
CN118096836A (zh) * | 2024-04-26 | 2024-05-28 | 南昌工程学院 | 基于旋转等变网络与三重注意力机制目标跟踪方法与系统 |
CN118691852A (zh) * | 2024-08-28 | 2024-09-24 | 南昌工程学院 | 基于双softmax注意力的单流单阶段目标跟踪方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
US20220180517A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and computer program product for deep lesion tracker for monitoring lesions in four-dimensional longitudinal imaging |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
CN115375737A (zh) * | 2022-10-25 | 2022-11-22 | 南昌工程学院 | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 |
CN115564801A (zh) * | 2022-10-14 | 2023-01-03 | 长春理工大学 | 一种基于注意力的单目标跟踪方法 |
CN115880337A (zh) * | 2023-02-16 | 2023-03-31 | 南昌工程学院 | 基于重参数卷积和特征过滤器的目标跟踪方法与系统 |
-
2023
- 2023-04-10 CN CN202310372849.0A patent/CN116109678B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220180517A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and computer program product for deep lesion tracker for monitoring lesions in four-dimensional longitudinal imaging |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
CN115564801A (zh) * | 2022-10-14 | 2023-01-03 | 长春理工大学 | 一种基于注意力的单目标跟踪方法 |
CN115375737A (zh) * | 2022-10-25 | 2022-11-22 | 南昌工程学院 | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 |
CN115880337A (zh) * | 2023-02-16 | 2023-03-31 | 南昌工程学院 | 基于重参数卷积和特征过滤器的目标跟踪方法与系统 |
Non-Patent Citations (4)
Title |
---|
MING GAO等: "Manifold Siamese Network: A Novel Visual Tracking ConvNet for Autonomous Vehicles", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 》, vol. 21, no. 4, pages 1612 - 1623, XP011780778, DOI: 10.1109/TITS.2019.2930337 * |
TIANLING BIAN等: "VTT: Long-term Visual Tracking with Transformers", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》, pages 9585 - 9592 * |
王军等: "基于孪生神经网络的目标跟踪算法综述", 《南昌工程学院学报》, vol. 40, no. 6, pages 90 - 99 * |
董吉富等: "基于注意力机制的在线自适应孪生网络跟踪算法", 《激光与光电子学进展》, vol. 57, no. 02, pages 021510 - 1 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433727A (zh) * | 2023-06-13 | 2023-07-14 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN116433727B (zh) * | 2023-06-13 | 2023-10-27 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN117649582A (zh) * | 2024-01-25 | 2024-03-05 | 南昌工程学院 | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 |
CN117649582B (zh) * | 2024-01-25 | 2024-04-19 | 南昌工程学院 | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 |
CN118096836A (zh) * | 2024-04-26 | 2024-05-28 | 南昌工程学院 | 基于旋转等变网络与三重注意力机制目标跟踪方法与系统 |
CN118096836B (zh) * | 2024-04-26 | 2024-06-21 | 南昌工程学院 | 基于旋转等变网络与三重注意力机制目标跟踪方法与系统 |
CN118691852A (zh) * | 2024-08-28 | 2024-09-24 | 南昌工程学院 | 基于双softmax注意力的单流单阶段目标跟踪方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116109678B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116109678B (zh) | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 | |
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN110674866B (zh) | 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法 | |
Zhou et al. | Centerformer: Center-based transformer for 3d object detection | |
Guo et al. | Deep learning for 3d point clouds: A survey | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN116030097B (zh) | 基于双重注意力特征融合网络的目标跟踪方法与系统 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
He et al. | Learning scene dynamics from point cloud sequences | |
Manssor et al. | Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network | |
Ward et al. | RGB-D image-based object detection: from traditional methods to deep learning techniques | |
CN115880337B (zh) | 基于重参数卷积和特征过滤器的目标跟踪方法与系统 | |
Zhu et al. | Supplement and suppression: Both boundary and nonboundary are helpful for salient object detection | |
Keceli | Viewpoint projection based deep feature learning for single and dyadic action recognition | |
Rao et al. | PointGLR: Unsupervised structural representation learning of 3D point clouds | |
Hou et al. | Fe-fusion-vpr: Attention-based multi-scale network architecture for visual place recognition by fusing frames and events | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN117593514A (zh) | 一种基于深层主成分分析辅助的图像目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |