CN117541625B - 一种基于域适应特征融合的视频多目标跟踪方法 - Google Patents
一种基于域适应特征融合的视频多目标跟踪方法 Download PDFInfo
- Publication number
- CN117541625B CN117541625B CN202410017672.7A CN202410017672A CN117541625B CN 117541625 B CN117541625 B CN 117541625B CN 202410017672 A CN202410017672 A CN 202410017672A CN 117541625 B CN117541625 B CN 117541625B
- Authority
- CN
- China
- Prior art keywords
- target
- domain
- target domain
- representing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000006978 adaptation Effects 0.000 title claims abstract description 33
- 238000013508 migration Methods 0.000 claims description 34
- 230000005012 migration Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 241001122767 Theaceae Species 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 101150064138 MAP1 gene Proteins 0.000 claims 1
- 101150077939 mapA gene Proteins 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于域适应特征融合的视频多目标跟踪方法,属于计算机视觉中的目标跟踪领域,要点是包括向基于域适应特征融合的视频多目标跟踪模型中输入待进行跟踪的红外视频;得到每个目标的位置信息和类别信息;得到每个目标的预测位置信息和预测类别信息;通过级联匹配方法进行匹配;更新匹配成功的目标在卡尔曼滤波器的状态,并增加匹配成功的目标的轨迹的长度;匹配失败的目标进行IOU匹配,判断匹配失败的目标是新出现的目标还是遗失的目标,为新出现的目标分配一个新轨迹,为遗失的目标增加遗失的目标丢失次数,丢失次数超过阈值后终止遗失的目标的轨迹;输出视频中所有目标的跟踪轨迹。本发明跟踪精度较高,且适用于多种目标跟踪的情况。
Description
技术领域
本发明属于计算机视觉中的目标跟踪领域,具体公开了一种基于域适应特征融合的视频多目标跟踪方法。
背景技术
随着经济和科技的飞速发展,红外热成像系统的体积和成本都有所下降,逐渐被民用化,无人汽车驾驶、无人飞机巡检和红外全景监测等多个民用领域也开始广泛采用红外目标检测与跟踪技术。无人驾驶的车辆在行车途中,除了捕捉静态信息之外,同时需要联合其他传感器,如红外传感器,根据目标的历史轨迹进行合理的轨迹预测,制定用于避障的策略。红外热成像仪搭载在多旋翼无人机上被用于跟踪输电线路,采用红外热成像仪对线路特征较清晰的红外图像进行分析处理后,调整控制信号,以保证持续跟踪输电线目标。油田监控预警也采用了全景红外成像来达到准确可靠、搜跟一体、全天候和全方位的安防要求。因此,红外目标智能检测跟踪技术的发展具有非常重要的理论意义和应用价值,有助于丰富军事侦察手段,提高军事侦察能力,具有较为广阔的应用前景。红外目标的检测跟踪技术中,已有传统算法很难适用于所有情况,且检测跟踪精度较低,因此应用深度学习理论优化红外地面目标智能检测跟踪技术是一个值得研究的方向,也是一项十分紧迫的任务。
发明内容
本发明为解决现有目标跟踪领域中传统算法很难适用于所有情况,且跟踪精度较低的问题提出了一种基于域适应特征融合的视频多目标跟踪方法。
本发明提供了一种基于域适应特征融合的视频多目标跟踪方法,包括如下步骤:
S1. 向基于域适应特征融合的视频多目标跟踪模型中输入待进行多目标跟踪的红外视频;
S2. 通过所述基于域适应特征融合的视频多目标跟踪模型对所述红外视频每帧中的每个目标分别进行检测,得到每帧中的每个目标的位置信息和类别信息;
S3. 对于每帧中的每个目标,使用卡尔曼滤波器预测每帧中的每个目标在下一帧的位置信息,得到每帧中的每个目标的预测位置信息和预测类别信息;
S4. 通过级联匹配方法将当前帧中的每个目标的位置信息和类别信息与下一帧中的每个目标的预测位置信息和预测类别信息进行匹配,得到匹配结果;
S5. 对于匹配成功的目标,更新匹配成功的目标在卡尔曼滤波器的状态,并增加匹配成功的目标的轨迹的长度;
S6. 对于匹配失败的目标,进行IOU匹配,判断匹配失败的目标是新出现的目标还是遗失的目标,如果是新出现的目标,则为新出现的目标分配一个新的轨迹,如果是遗失的目标,则增加遗失的目标的丢失次数,在所述丢失次数超过设定的阈值后终止遗失的目标的轨迹;
S7. 所述红外视频跟踪结束后,输出所述红外视频中所有目标的跟踪轨迹;
所述基于域适应特征融合的视频多目标跟踪模型包括输入模块、傅里叶风格迁移模块、学生网络模块、教师网络模块和输出模块;
所述输入模块用于进行视频流的输入,将所述视频流分割为由源域图像组成的源域图像数据集和由目标域图像组成的目标域图像数据集,并将所述源域图像数据集和目标域图像数据集传输给所述傅里叶风格迁移模块,将所述目标域图像数据集传输给所述学生网络模块;
所述傅里叶风格迁移模块用于将所述源域图像数据集和目标域图像数据集进行风格迁移,生成由类源域图像组成的类源域图像数据集和由类目标域图像组成的类目标域图像数据集,并将所述类源域图像数据集传输给所述教师网络模块,将所述类目标域图像数据集传输给所述学生网络模块;
所述学生网络模块用于根据输入的所述目标域图像数据集和类目标域图像数据集进行渐进式域对齐训练,生成学生原型,并将得到的所述指数移动平均权重和学生原型传输给所述教师网络模块;
所述教师网络模块通过所述指数移动平均权重进行参数更新,并根据输入的所述类源域图像数据集生成伪目标域标签和教师原型,将所述伪目标域标签传输给所述学生网络模块,通过所述伪目标域标签对所述学生网络模块进行监督,通过所述学生原型和教师原型对所述学生网络模块进行训练;
所述学生网络模块训练完成后,向所述基于域适应特征融合的视频多目标跟踪模型输入所述红外视频,所述输出模块输出所述红外视频中每个目标的位置信息和类别信息。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述傅里叶风格迁移模块中傅里叶变换如公式(1)所示:
(1)
其中,x为给定图像,所述给定图像来自所述源域图像数据集或目标域图像数据集,,/>表示图像的宽,/>表示图像的高,/>表示图像的通道数,(w,h)表示图像中的坐标位置,(i,j)表示傅里叶变换后的坐标位置,
所述傅里叶风格迁移模块通过傅里叶风格迁移,将全局源域风格信息替换目标域图像振幅的低频部分,并通过反傅里叶变换,生成所述类源域图像,如公式(2)所示:
(2)
其中,表示类源域图像,/>,/>表示目标域图像,/>表示目标域图像数据集,/>为反傅里叶变换,/>表示傅里叶变换F的振幅分量,/>表示傅里叶变换F的相位分量,∘表示元素相乘,/>表示全局源域风格信息,m表示时序,/>表示掩码,定义了交换区域的大小,其中/>,
所述全局源域风格信息如公式(3)所示:
(3)
其中,为超参数,/>,
所述掩码如公式(4)所示:
(4)
将所述目标域图像数据集中的目标域图像依次进行傅里叶风格迁移,得到类源域图像数据集;
所述傅里叶风格迁移模块通过傅里叶风格迁移,将全局目标域风格信息替换源域图像振幅的低频部分,生成所述类目标域图像,如公式(5)所示:
(5)
其中,表示类目标域图像,/>,/>表示源域图像,/>表示源域图像数据集,/>表示全局目标域风格信息,
所述全局目标域风格信息如公式(6)所示:
(6)
将所述源域图像数据集中的源域图像依次进行傅里叶风格迁移,得到类目标域图像数据集。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块;所述学生特征提取网络用于对输入的所述目标域图像数据集和类目标域图像数据集进行特征提取,得到目标域图像特征集和类目标域图像特征集,所述目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图,所述类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图;所述注意力特征融合模块用于对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合,得到目标域特征图,对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合,得到类目标域特征图;所述图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练;所述实例级原型对齐模块用于进行实例级原型对齐训练。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述注意力特征融合模块对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括:在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图,将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>,如公式(7)所示:
(7)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将所述初步合成目标域特征图和高阶语义目标域特征图P1连接得到特征图/>,通过压缩激励网络使所述特征图/>融合有用的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(8)所示:
(8)
其中,表示全连接层,/>表示全局平均池化,
将融合权重与所述特征图/>按元素相乘后输至1×1卷积,得到所述目标域特征图/>,如公式(9)所示:
(9)
其中,表示按元素相乘;
所述注意力特征融合模块对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括:在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图,将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图/>,如公式(10)所示:
(10)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将所述初步合成类目标域特征图和高阶语义类目标域特征图P3连接得到特征图/>,通过压缩激励网络使所述特征图/>融合有用的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(11)所示:
(11)
其中,表示全连接层,
将融合权重与所述特征图/>按元素相乘后输至1×1卷积,得到所述类目标域特征图/>,如公式(12)所示:
(12)
其中,表示按元素相乘。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述图像级对抗特征对齐模块包括梯度反转层和域分类网络,所述梯度反转层用于使所述学生特征提取网络与域分类网络之间形成对抗的关系;所述域分类网络用于利用卷积神经网络鉴别所述目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集;
所述图像级对抗特征对齐训练的对抗学习损失函数如公式(13)所示:
(13)
其中,为特征图,d为0或1,d=0表示特征图为类目标域特征图,d=1表示特征图为目标域特征图,/>表示位于特征图/>处的域分类网络的输出。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述实例级原型对齐模块包括学生检测网络和学生全连接网络;所述学生检测网络用于利用卷积神经网络对输入的所述目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类,输出实例特征、目标位置信息和目标类别信息;所述学生全连接网络用于将所述实例特征映射到另一个特征空间,得到目标域原型、类目标域原型和学生原型;
所述目标域原型如公式(14)所示:
(14)
其中,表示实例特征个数,/>表示目标域的分类概率分数,/>表示目标域中候选区域i的实例特征,
所述类目标域原型如公式(15)所示:
(15)
其中,表示类目标域的分类概率分数,/>表示类目标域中候选区域i的细化特征,
所述学生原型Pstu如公式(16)所示:
(16)
通过三元组损失来训练所述学生网络模块,将与锚定原型处于不同域但属于同一类别的原型选为正样本原型/>,将与锚定原型/>处于同一域且最接近锚定原型/>的原型选为负样本原型/>,所述实例级原型对齐训练的损失函数/>如公式(17)所示:
(17)
其中,表示目标类别数,/>,当i为目标域时,/>为类目标域,当i为类目标域时,/>为目标域,/>为边界值,/>,/>表示与锚定原型处于同一域且最接近锚定原型的原型类别号,/>。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络;所述教师网络模块用于对输入的所述类源域图像数据集进行特征提取,得到类源域图像特征集;所述教师检测网络用于对所述类源域图像特征集中包含的源域信息进行定位和分类,输出伪目标域标签和实例特征;所述教师全连接网络用于将所述实例特征映射到另一个特征空间,得到教师原型。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述教师网络模块通过所述指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数,
所述网络参数更新如公式(18)所示:
(18)
其中,表示教师网络模块更新后的网络参数,/>表示教师网络模块更新前的网络参数,/>表示学生网络模块的网络参数,/>为超参数,/>。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法 ,所述学生网络模块得到伪目标域标签后,所述学生网络模块通过检测一致性损失更新所述学生网络模块的参数,所述检测一致性损失的损失函数如公式(19)所示:
(19)
其中,表示伪目标域标签,/>表示学习区域执行边界框分类的损失函数,使用二元交叉熵损失,/>表示兴趣区域执行边界框回归的损失函数,/>使用二元交叉熵损失。
根据本申请一些实施例的一种基于域适应特征融合的视频多目标跟踪方法,所述通过所述学生原型和教师原型对所述学生网络模块进行训练的原型一致性损失函数如公式(20)所示:
(20)
其中,Pstu表示学生原型,Ptea表示教师原型,
所述教师原型Ptea如公式(21)所示:
(21)
其中,表示源域的分类概率分数,/>表示源域中候选区域i的细化特征。
本发明提出的一种基于域适应特征融合的视频多目标跟踪方法,通过基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标分别进行检测,基于域适应特征融合的视频多目标跟踪模型首先提出傅里叶风格迁移,通过全局目标域风格信息与全局源域风格信息对齐来减少域差距;其次提出渐进式域对齐算法,渐进式域对齐算法是一个从粗到细的域对齐算法,通过图像级对抗特征对齐模块和实例级原型对齐模块分别执行图像级对齐和实例级对齐,使目标跟踪结果更加准确;最后利用教师网络模型生成的伪目标域标签对学生网络模型进行有监督的训练,充分利用目标域数据,从而生成更精确的学生原型,基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标的检测精度较高,且可以对多个目标同时进行检测,所以本方法不仅跟踪精度较高,且可以适用于多种目标跟踪的情况。
附图说明
图1是本发明实施例一种基于域适应特征融合的视频多目标跟踪方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
本实施例提供了一种基于域适应特征融合的视频多目标跟踪方法,如图1所示,包括如下步骤:
S1. 向基于域适应特征融合的视频多目标跟踪模型中输入待进行多目标跟踪的红外视频;
S2. 通过基于域适应特征融合的视频多目标跟踪模型对红外视频每帧中的每个目标分别进行检测,得到每帧中的每个目标的位置信息和类别信息;
S3. 对于每帧中的每个目标,使用卡尔曼滤波器预测每帧中的每个目标在下一帧的位置信息,得到每帧中的每个目标的预测位置信息和预测类别信息;
S4. 通过级联匹配方法将当前帧中的每个目标的位置信息和类别信息与下一帧中的每个目标的预测位置信息和预测类别信息进行匹配,得到匹配结果;
S5. 对于匹配成功的目标,更新匹配成功的目标在卡尔曼滤波器的状态,并增加匹配成功的目标的轨迹的长度;
S6. 对于匹配失败的目标,进行IOU匹配,判断匹配失败的目标是新出现的目标还是遗失的目标,如果是新出现的目标,则为新出现的目标分配一个新的轨迹,如果是遗失的目标,则增加遗失的目标的丢失次数,在丢失次数超过设定的阈值后终止遗失的目标的轨迹;
S7. 红外视频跟踪结束后,输出红外视频中所有目标的跟踪轨迹;
基于域适应特征融合的视频多目标跟踪模型包括输入模块、傅里叶风格迁移模块、学生网络模块、教师网络模块和输出模块;
输入模块用于进行视频流的输入,将视频流分割为由源域图像组成的源域图像数据集和由目标域图像组成的目标域图像数据集,并将源域图像数据集和目标域图像数据集传输给傅里叶风格迁移模块,将目标域图像数据集传输给学生网络模块;优选的,本实施例中目标域图像为红外图像,源域图像为可见光图像;
傅里叶风格迁移模块用于将源域图像数据集和目标域图像数据集进行风格迁移,生成由类源域图像组成的类源域图像数据集和由类目标域图像组成的类目标域图像数据集,并将类源域图像数据集传输给教师网络模块,将类目标域图像数据集传输给学生网络模块;
傅里叶风格迁移模块中傅里叶变换如公式(1)所示:
(1)
其中,x为给定图像,给定图像来自源域图像数据集或目标域图像数据集,,/>表示图像的宽,/>表示图像的高,/>表示图像的通道数,(w,h)表示图像中的坐标位置,(i,j)表示傅里叶变换后的坐标位置,
傅里叶频谱的相位分量保留了原始信号的高层次语义,而傅里叶频谱的振幅分量则包含了低层次的统计数据。因此,本实施例交换目标域图像和源域图像的振幅分量,具体的为交换红外图像和可见光图像的振幅分量,然而,由于振幅分量还包含少量的高频信息,如图像边缘,直接交换两幅图像的全部振幅分量不可避免地会带来额外的伪影,从而降低图像质量,进而影响后续目标检测的训练。因此,本实施例仅交换部分振幅。
傅里叶风格迁移模块通过傅里叶风格迁移,将全局源域风格信息替换目标域图像振幅的低频部分,并通过反傅里叶变换,生成类源域图像,如公式(2)所示:
(2)
其中,表示类源域图像,/>,/>表示目标域图像,/>表示目标域图像数据集,/>为反傅里叶变换,/>表示傅里叶变换F的振幅分量,/>表示傅里叶变换F的相位分量,∘表示元素相乘,/>表示全局源域风格信息,m表示时序,/>表示掩码,定义了交换区域的大小,其中/>,优选的,/>为0.1,
全局源域风格信息如公式(3)所示:
(3)
其中,为超参数,/>,优选的,/>为0.05
掩码如公式(4)所示:
(4)
将目标域图像数据集中的目标域图像依次进行傅里叶风格迁移,得到类源域图像数据集;
傅里叶风格迁移模块通过傅里叶风格迁移,将全局目标域风格信息替换源域图像振幅的低频部分,生成类目标域图像,如公式(5)所示:
(5)
其中,表示类目标域图像,/>,/>表示源域图像,/>表示源域图像数据集,/>表示全局目标域风格信息,
全局目标域风格信息如公式(6)所示:
(6)
将源域图像数据集中的源域图像依次进行傅里叶风格迁移,得到类目标域图像数据集。
学生网络模块用于根据输入的目标域图像数据集和类目标域图像数据集进行渐进式域对齐训练,生成学生原型,并将得到的指数移动平均权重和学生原型传输给教师网络模块;
学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块;学生特征提取网络用于对输入的目标域图像数据集和类目标域图像数据集进行特征提取,得到目标域图像特征集和类目标域图像特征集,目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图,类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图;注意力特征融合模块用于对高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合,得到目标域特征图,对高阶语义类目标域特征图和低阶语义类目标域特征图进行融合,得到类目标域特征图,
注意力特征融合模块可以通过学习不同阶语义的特征图通道间的相关性来加强学生网络模块对关键信息的专注度,从而最大化融合不同级别特征的有用信息,提升基于域适应的红外视频多目标跟踪的目标识别能力;图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练;实例级原型对齐模块用于进行实例级原型对齐训练。
注意力特征融合模块对高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括:在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图,将特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>,如公式(7)所示:
(7)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将初步合成目标域特征图和高阶语义目标域特征图P1连接得到特征图/>,通过压缩激励网络使特征图/>融合有用的信息,压缩激励网络是通过全局平均池化技术来获得通道层次的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(8)所示:
(8)
其中,表示全连接层,/>表示全局平均池化,
将融合权重与特征图/>按元素相乘后输至1×1卷积,得到目标域特征图/>,如公式(9)所示:
(9)
其中,表示按元素相乘;
注意力特征融合模块对高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括:在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图,将特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图/>,如公式(10)所示:
(10)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将初步合成类目标域特征图和高阶语义类目标域特征图P3连接得到特征图/>,通过压缩激励网络使特征图/>融合有用的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(11)所示:
(11)
其中,表示全连接层,
将融合权重与特征图/>按元素相乘后输至1×1卷积,得到类目标域特征图/>,如公式(12)所示:
(12)
其中,表示按元素相乘。
图像级对抗特征对齐模块包括梯度反转层和域分类网络,梯度反转层用于使学生特征提取网络与域分类网络之间形成对抗的关系;域分类网络用于利用卷积神经网络鉴别目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集;
图像级对抗特征对齐训练的对抗学习损失函数如公式(13)所示:
(13)
其中,为特征图,d为0或1,d=0表示特征图为类目标域特征图,d=1表示特征图为目标域特征图,/>表示位于特征图/>处的域分类网络的输出。
实例级原型对齐模块包括学生检测网络和学生全连接网络;学生检测网络用于利用卷积神经网络对输入的目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类,输出实例特征、目标位置信息和目标类别信息;学生检测网络基于Faster R-CNN框架,学生全连接网络用于将实例特征映射到另一个特征空间,得到目标域原型、类目标域原型和学生原型;
目标域原型如公式(14)所示:
(14)
其中,表示实例特征个数,/>表示目标域的分类概率分数,/>表示目标域中候选区域i的实例特征,/>
类目标域原型如公式(15)所示:
(15)
其中,表示类目标域的分类概率分数,/>表示类目标域中候选区域i的细化特征,
学生原型Pstu如公式(16)所示:
(16)
通过三元组损失来训练学生网络模块,将与锚定原型处于不同域但属于同一类别的原型选为正样本原型/>,将与锚定原型/>处于同一域且最接近锚定原型/>的原型选为负样本原型/>,实例级原型对齐训练的损失函数/>如公式(17)所示:
(17)
其中,表示目标类别数,/>,当i为目标域时,/>为类目标域,当i为类目标域时,/>为目标域,/>为边界值,/>,优选的,γ为0.1,/>表示与锚定原型处于同一域且最接近锚定原型的原型类别号,/>。
教师网络模块通过指数移动平均权重进行参数更新,并根据输入的类源域图像数据集生成伪目标域标签和教师原型,与目标域图像相比,类源域图像引入了源域信息,这使得教师网络模块能够在不受特定域信息干扰的情况下生成更可靠的伪目标域标签,将伪目标域标签传输给学生网络模块,通过伪目标域标签对学生网络模块进行监督,通过学生原型和教师原型对学生网络模块进行训练;
学生网络模块训练完成后,向基于域适应特征融合的视频多目标跟踪模型输入红外视频,输出模块输出红外视频中每个目标的位置信息和类别信息。
教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络;教师网络模块用于对输入的类源域图像数据集进行特征提取,得到类源域图像特征集;教师检测网络用于对类源域图像特征集中包含的源域信息进行定位和分类,输出伪目标域标签和实例特征,教师检测网络同样基于Faster R-CNN 框架;教师全连接网络用于将实例特征映射到另一个特征空间,得到教师原型。
教师网络模块通过指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数,
网络参数更新如公式(18)所示:
(18)
其中,表示教师网络模块更新后的网络参数,/>表示教师网络模块更新前的网络参数,/>表示学生网络模块的网络参数,/>为超参数,/>,优选的,/>为0.999。
学生网络模块得到伪目标域标签后,学生网络模块通过检测一致性损失更新学生网络模块的参数,检测一致性损失的损失函数如公式(19)所示:
(19)
其中,表示伪目标域标签,/>表示学习区域执行边界框分类的损失函数,使用二元交叉熵损失,/>表示兴趣区域执行边界框回归的损失函数,/>使用二元交叉熵损失。
为了进一步提高教师模型和学生模型的特征对齐的效果,本实施例提出了原型一致性算法,通过将教师网络模块生成的教师原型与学生网络模块生成的教师原型对齐,本实施例允许教师网络模块监督学生网络模块生成学生原型,从而生成更准确的学生原型。这样做有两个好处:一是从实例层面加强教师网络模块-学生网络模块训练框架的有效性,能够训练出更好的学生网络。二是能够使学生网络模块更加适应多种跟踪情况。通过学生原型和教师原型对学生网络模块进行训练的原型一致性损失函数如公式(20)所示:
(20)
其中,Pstu表示学生原型,Ptea表示教师原型,
教师原型Ptea如公式(21)所示:
(21)
其中,表示源域的分类概率分数,/>表示源域中候选区域i的细化特征。
下面,将本实施的基于域适应特征融合的视频多目标跟踪方法与现有的方法进行对比,现有方法包括:强弱分布对齐方法SWDA(CVPR’ 19)、多层次的熵注意力对齐方法MEAA(ACM MM’ 20)、分类正则化方法CRDA(CVPR’ 20)、图引导的原型对齐方法GPA(CVPR’ 20)、针对域不变性的矢量分解纠缠方法VDD(ICCV’ 21)、基于不确定性感知的方法UaDAN(TMM’21)和针对特等任务的不一致性对齐方法TIA(CVPR’ 22),本实施例所使用的的数据集为FLIR数据集,FLIR数据集是一个具有目标检测数据集,由一天中不同时间拍摄的成对可见光图像和红外图像组成。FLIR数据集共包含5142对已正确配准的可见光图像和红外图像。其中4129对可见光图像和红外图像用于训练,1013对可见光图像和红外图像用于评估。本实施例应用了数据集中人和汽车的目标类别,实验结果如表所示:
表1 不同跟踪方法的实验结果对比
方法 | 人 | 汽车 | mAP |
SWDA(CVPR’ 19) | 35.7 | 53.3 | 44.50 |
MEAA(ACM MM’ 20) | 35.5 | 58.6 | 47.05 |
CRDA(CVPR’ 20) | 39.5 | 58.0 | 48.75 |
GPA(CVPR’ 20) | 49.5 | 65.8 | 57.65 |
VDD(ICCV’ 21) | 39.0 | 58.7 | 48.85 |
UaDAN(TMM’ 21) | 40.8 | 61.7 | 51.25 |
TIA(CVPR’ 22) | 39.8 | 63.1 | 51.45 |
本实施例方法 | 52.2 | 69.7 | 60.95 |
由表1可知,本实施例的基于域适应特征融合的视频多目标跟踪方法无论在人的目标跟踪还是在汽车的目标跟踪中,都取得了最佳性能,在人的目标跟踪中,准确率为52.2%,在车的目标跟踪中准确率为69.7%,在总体性能上,mAP为60.95%,超过了所有现有的方法,并且在mAP方面比目前mAP最高的现有方法TIA(CVPR’ 22)提高了3.3%。由上清楚地表明了本实施例的方法在处理跨领域跟踪任务时的有效性,尤其是在处理多个对象类别时的准确率仍然较高。值得注意的是,本实施例的方法在跟踪“人”和“车”两个类别时都取得了最高的性能,这表明本实施例的方法在跟踪这些具有挑战性的关键对象类别时是非常有效的。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (8)
1.一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,包括如下步骤:
S1. 向基于域适应特征融合的视频多目标跟踪模型中输入待进行多目标跟踪的红外视频;
S2. 通过所述基于域适应特征融合的视频多目标跟踪模型对所述红外视频每帧中的每个目标分别进行检测,得到每帧中的每个目标的位置信息和类别信息;
S3. 对于每帧中的每个目标,使用卡尔曼滤波器预测每帧中的每个目标在下一帧的位置信息,得到每帧中的每个目标的预测位置信息和预测类别信息;
S4. 通过级联匹配方法将当前帧中的每个目标的位置信息和类别信息与下一帧中的每个目标的预测位置信息和预测类别信息进行匹配,得到匹配结果;
S5. 对于匹配成功的目标,更新匹配成功的目标在卡尔曼滤波器的状态,并增加匹配成功的目标的轨迹的长度;
S6. 对于匹配失败的目标,进行IOU匹配,判断匹配失败的目标是新出现的目标还是遗失的目标,如果是新出现的目标,则为新出现的目标分配一个新的轨迹,如果是遗失的目标,则增加遗失的目标的丢失次数,在所述丢失次数超过设定的阈值后终止遗失的目标的轨迹;
S7. 所述红外视频跟踪结束后,输出所述红外视频中所有目标的跟踪轨迹;
所述基于域适应特征融合的视频多目标跟踪模型包括输入模块、傅里叶风格迁移模块、学生网络模块、教师网络模块和输出模块;
所述输入模块用于进行视频流的输入,将所述视频流分割为由源域图像组成的源域图像数据集和由目标域图像组成的目标域图像数据集,并将所述源域图像数据集和目标域图像数据集传输给所述傅里叶风格迁移模块,将所述目标域图像数据集传输给所述学生网络模块;
所述傅里叶风格迁移模块用于将所述源域图像数据集和目标域图像数据集进行风格迁移,生成由类源域图像组成的类源域图像数据集和由类目标域图像组成的类目标域图像数据集,并将所述类源域图像数据集传输给所述教师网络模块,将所述类目标域图像数据集传输给所述学生网络模块;
所述学生网络模块用于根据输入的所述目标域图像数据集和类目标域图像数据集进行渐进式域对齐训练,生成学生原型,并将得到的所述指数移动平均权重和学生原型传输给所述教师网络模块;
所述教师网络模块通过所述指数移动平均权重进行参数更新,并根据输入的所述类源域图像数据集生成伪目标域标签和教师原型,将所述伪目标域标签传输给所述学生网络模块,通过所述伪目标域标签对所述学生网络模块进行监督,通过所述学生原型和教师原型对所述学生网络模块进行训练;
所述学生网络模块训练完成后,向所述基于域适应特征融合的视频多目标跟踪模型输入所述红外视频,所述输出模块输出所述红外视频中每个目标的位置信息和类别信息;
所述傅里叶风格迁移模块中傅里叶变换如公式(1)所示:
(1)
其中,x为给定图像,所述给定图像来自所述源域图像数据集或目标域图像数据集,,/>表示图像的宽,/>表示图像的高,/>表示图像的通道数,(w,h)表示图像中的坐标位置,(i,j)表示傅里叶变换后的坐标位置,
所述傅里叶风格迁移模块通过傅里叶风格迁移,将全局源域风格信息替换目标域图像振幅的低频部分,并通过反傅里叶变换,生成所述类源域图像,如公式(2)所示:
(2)
其中,表示类源域图像,/>,/>表示目标域图像,/>表示目标域图像数据集,/>为反傅里叶变换,/>表示傅里叶变换F的振幅分量,/>表示傅里叶变换F的相位分量,∘表示元素相乘,/>表示全局源域风格信息,m表示时序,/>表示掩码,定义了交换区域的大小,其中/>,
所述全局源域风格信息如公式(3)所示:
(3)
其中,为超参数,/>,
所述掩码如公式(4)所示:
(4)
将所述目标域图像数据集中的目标域图像依次进行傅里叶风格迁移,得到类源域图像数据集;
所述傅里叶风格迁移模块通过傅里叶风格迁移,将全局目标域风格信息替换源域图像振幅的低频部分,生成所述类目标域图像,如公式(5)所示:
(5)
其中,表示类目标域图像,/>,/>表示源域图像,/>表示源域图像数据集,/>表示全局目标域风格信息,
所述全局目标域风格信息如公式(6)所示:
(6)
将所述源域图像数据集中的源域图像依次进行傅里叶风格迁移,得到类目标域图像数据集;
所述学生网络模块包括学生特征提取网络、注意力特征融合模块、图像级对抗特征对齐模块和实例级原型对齐模块;所述学生特征提取网络用于对输入的所述目标域图像数据集和类目标域图像数据集进行特征提取,得到目标域图像特征集和类目标域图像特征集,所述目标域图像特征集包括高阶语义目标域特征图和低阶语义目标域特征图,所述类目标域图像特征集包括高阶语义类目标域特征图和低阶语义类目标域特征图;所述注意力特征融合模块用于对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合,得到目标域特征图,对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合,得到类目标域特征图;所述图像级对抗特征对齐模块用于进行图像级对抗特征对齐训练;所述实例级原型对齐模块用于进行实例级原型对齐训练。
2.根据权利要求1所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述注意力特征融合模块对所述高阶语义目标域特征图和低阶语义目标域特征图的信息进行融合得到目标域特征图包括:在通道方向上将高阶语义目标域特征图P1和低阶语义目标域特征图P0连接得到特征图,将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成目标域特征图/>,如公式(7)所示:
(7)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将所述初步合成目标域特征图和高阶语义目标域特征图P1连接得到特征图/>,通过压缩激励网络使所述特征图/>融合有用的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(8)所示:
(8)
其中,表示全连接层,/>表示全局平均池化,
将融合权重与所述特征图/>按元素相乘后输至1×1卷积,得到所述目标域特征图/>,如公式(9)所示:
(9)
其中,表示按元素相乘;
所述注意力特征融合模块对所述高阶语义类目标域特征图和低阶语义类目标域特征图进行融合得到类目标域特征图包括:在通道方向上将高阶语义类目标域特征图P3和低阶语义类目标域特征图P2连接得到特征图,将所述特征图/>传入1×1卷积实施通道和3×3卷积实施通道并整合跨通道信息获得初步合成类目标域特征图,如公式(10)所示:
(10)
其中,表示1×1卷积运算,/>表示3×3卷积运算,/>表示沿通道维度拼接,/>表示按元素加合,
沿通道方向上将所述初步合成类目标域特征图和高阶语义类目标域特征图P3连接得到特征图/>,通过压缩激励网络使所述特征图/>融合有用的信息,通过全连接层进行通道的数据交互得到融合权重/>,如公式(11)所示:
(11)
其中,表示全连接层,
将融合权重与所述特征图/>按元素相乘后输至1×1卷积,得到所述类目标域特征图/>,如公式(12)所示:
(12)
其中,表示按元素相乘。
3.根据权利要求2所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述图像级对抗特征对齐模块包括梯度反转层和域分类网络,所述梯度反转层用于使所述学生特征提取网络与域分类网络之间形成对抗的关系;所述域分类网络用于利用卷积神经网络鉴别所述目标域图像特征集和类目标域图像特征集中的特征是来自源域图像数据集还是目标域图像数据集;
所述图像级对抗特征对齐训练的对抗学习损失函数如公式(13)所示:
(13)
其中,为特征图,d为0或1,d=0表示特征图为类目标域特征图,d=1表示特征图为目标域特征图,/>表示位于特征图/>处的域分类网络的输出。
4.根据权利要求3所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述实例级原型对齐模块包括学生检测网络和学生全连接网络;所述学生检测网络用于利用卷积神经网络对输入的所述目标域图像特征集和类目标域图像特征集中包含的目标进行定位和分类,输出实例特征、目标位置信息和目标类别信息;所述学生全连接网络用于将所述实例特征映射到另一个特征空间,得到目标域原型、类目标域原型和学生原型;
所述目标域原型如公式(14)所示:
(14)
其中,表示实例特征个数,/>表示目标域的分类概率分数,/>表示目标域中候选区域i的实例特征,
所述类目标域原型如公式(15)所示:
(15)
其中,表示类目标域的分类概率分数,/>表示类目标域中候选区域i的细化特征,
所述学生原型Pstu如公式(16)所示:
(16)
通过三元组损失来训练所述学生网络模块,将与锚定原型处于不同域但属于同一类别的原型选为正样本原型/>,将与锚定原型/>处于同一域且最接近锚定原型/>的原型选为负样本原型/>,所述实例级原型对齐训练的损失函数/>如公式(17)所示:
(17)
其中,表示目标类别数,/>,当i为目标域时,/>为类目标域,当i为类目标域时,/>为目标域,/>为边界值,/>,/>表示与锚定原型处于同一域且最接近锚定原型的原型类别号,/>。
5.根据权利要求4所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述教师网络模块包括教师特征提取网络、教师检测网络和教师全连接网络;所述教师网络模块用于对输入的所述类源域图像数据集进行特征提取,得到类源域图像特征集;所述教师检测网络用于对所述类源域图像特征集中包含的源域信息进行定位和分类,输出伪目标域标签和实例特征;所述教师全连接网络用于将所述实例特征映射到另一个特征空间,得到教师原型。
6.根据权利要求5所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述教师网络模块通过所述指数移动平均权重进行参数更新包括通过指数移动平均法在时间上通过学生网络模块的指数移动平均权重更新教师网络模块的网络参数,
所述网络参数更新如公式(18)所示:
(18)
其中,表示教师网络模块更新后的网络参数,/>表示教师网络模块更新前的网络参数,/>表示学生网络模块的网络参数,/>为超参数,/>。
7.根据权利要求1所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述学生网络模块得到伪目标域标签后,所述学生网络模块通过检测一致性损失更新所述学生网络模块的参数,所述检测一致性损失的损失函数如公式(19)所示:
(19)
其中,表示伪目标域标签,/>表示学习区域执行边界框分类的损失函数,/>使用二元交叉熵损失,/>表示兴趣区域执行边界框回归的损失函数,/>使用二元交叉熵损失。
8.根据权利要求7所述的一种基于域适应特征融合的视频多目标跟踪方法,其特征在于,所述通过所述学生原型和教师原型对所述学生网络模块进行训练的原型一致性损失函数如公式(20)所示:
(20)
其中,Pstu表示学生原型,Ptea表示教师原型,
所述教师原型Ptea如公式(21)所示:
(21)
其中,表示源域的分类概率分数,/>表示源域中候选区域i的细化特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410017672.7A CN117541625B (zh) | 2024-01-05 | 2024-01-05 | 一种基于域适应特征融合的视频多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410017672.7A CN117541625B (zh) | 2024-01-05 | 2024-01-05 | 一种基于域适应特征融合的视频多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117541625A CN117541625A (zh) | 2024-02-09 |
CN117541625B true CN117541625B (zh) | 2024-03-29 |
Family
ID=89792293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410017672.7A Active CN117541625B (zh) | 2024-01-05 | 2024-01-05 | 一种基于域适应特征融合的视频多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541625B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667399A (zh) * | 2020-05-14 | 2020-09-15 | 华为技术有限公司 | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 |
CN113409361A (zh) * | 2021-08-12 | 2021-09-17 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种多目标跟踪方法、装置、计算机及存储介质 |
CN114049382A (zh) * | 2022-01-12 | 2022-02-15 | 华砺智行(武汉)科技有限公司 | 一种智能网联环境下目标融合跟踪方法、系统和介质 |
WO2022111219A1 (zh) * | 2020-11-30 | 2022-06-02 | 华南理工大学 | 一种域自适应设备运检系统和方法 |
CN114627339A (zh) * | 2021-11-09 | 2022-06-14 | 昆明物理研究所 | 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质 |
CN114693979A (zh) * | 2022-04-08 | 2022-07-01 | 浙江大学 | 一种基于伪标签修正的多目标跟踪无监督域适应方法 |
CN114694173A (zh) * | 2022-03-01 | 2022-07-01 | 电子科技大学 | 一种基于细粒度特征融合的跨域无监督行人重识别方法 |
CN114972418A (zh) * | 2022-03-30 | 2022-08-30 | 北京航空航天大学 | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 |
CN115187706A (zh) * | 2022-06-28 | 2022-10-14 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN116245916A (zh) * | 2023-05-11 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种面向无人艇的红外舰船目标跟踪方法及装置 |
CN116433721A (zh) * | 2023-03-08 | 2023-07-14 | 北京工业大学 | 一种基于生成伪融合特征的室外rgb-t目标跟踪算法 |
CN116524326A (zh) * | 2023-05-10 | 2023-08-01 | 杭州电子科技大学 | 一种基于语义分割和自训练的夜间图片领域自适应方法 |
CN117237851A (zh) * | 2023-09-28 | 2023-12-15 | 西北工业大学 | 基于红外可见光联合探测的视频目标跟踪方法及系统 |
CN117292322A (zh) * | 2023-10-07 | 2023-12-26 | 江苏理工学院 | 基于深度学习的人员流量检测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205096B (zh) * | 2021-04-26 | 2022-04-15 | 武汉大学 | 一种基于注意力的联合图像与特征自适应的语义分割方法 |
US20230154167A1 (en) * | 2021-11-15 | 2023-05-18 | Nec Laboratories America, Inc. | Source-free cross domain detection method with strong data augmentation and self-trained mean teacher modeling |
-
2024
- 2024-01-05 CN CN202410017672.7A patent/CN117541625B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667399A (zh) * | 2020-05-14 | 2020-09-15 | 华为技术有限公司 | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 |
WO2022111219A1 (zh) * | 2020-11-30 | 2022-06-02 | 华南理工大学 | 一种域自适应设备运检系统和方法 |
CN113409361A (zh) * | 2021-08-12 | 2021-09-17 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种多目标跟踪方法、装置、计算机及存储介质 |
CN114627339A (zh) * | 2021-11-09 | 2022-06-14 | 昆明物理研究所 | 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质 |
CN114049382A (zh) * | 2022-01-12 | 2022-02-15 | 华砺智行(武汉)科技有限公司 | 一种智能网联环境下目标融合跟踪方法、系统和介质 |
CN114694173A (zh) * | 2022-03-01 | 2022-07-01 | 电子科技大学 | 一种基于细粒度特征融合的跨域无监督行人重识别方法 |
CN114972418A (zh) * | 2022-03-30 | 2022-08-30 | 北京航空航天大学 | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 |
CN114693979A (zh) * | 2022-04-08 | 2022-07-01 | 浙江大学 | 一种基于伪标签修正的多目标跟踪无监督域适应方法 |
CN115187706A (zh) * | 2022-06-28 | 2022-10-14 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN116433721A (zh) * | 2023-03-08 | 2023-07-14 | 北京工业大学 | 一种基于生成伪融合特征的室外rgb-t目标跟踪算法 |
CN116524326A (zh) * | 2023-05-10 | 2023-08-01 | 杭州电子科技大学 | 一种基于语义分割和自训练的夜间图片领域自适应方法 |
CN116245916A (zh) * | 2023-05-11 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种面向无人艇的红外舰船目标跟踪方法及装置 |
CN117237851A (zh) * | 2023-09-28 | 2023-12-15 | 西北工业大学 | 基于红外可见光联合探测的视频目标跟踪方法及系统 |
CN117292322A (zh) * | 2023-10-07 | 2023-12-26 | 江苏理工学院 | 基于深度学习的人员流量检测方法及系统 |
Non-Patent Citations (6)
Title |
---|
Cross Classroom Domain Adaptive Object Detector for Student’s Heads;Chunhui Li et al.;Artificial Neural Networks and Machine Learning – ICANN 2023;20230929;全文 * |
Teacher-Student Cross-Domain Object Detection Model Combining Style Transfer and Adversarial Learning;Lijun Wu et al.;Chinese Conference on Pattern Recognition and Computer Vision (PRCV);20231225;第14434卷;全文 * |
基于YOLOv3算法的教室学生检测与人数统计方法;沈守娟;郑广浩;彭译萱;王展青;;软件导刊;20200915(第09期);全文 * |
基于域内域间语义一致性约束的域自适应目标检测方法;钟安雨等;计算机学报;20230430;第46卷(第4期);全文 * |
基于域自适应的红外目标检测研究;徐天;中国优秀硕士学位论文全文数据库信息科技辑;20200315(第03期);全文 * |
弱监督场景下的行人重识别研究综述;祁磊;于沛泽;高阳;;软件学报;20200915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117541625A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Cross-domain object detection for autonomous driving: A stepwise domain adaptative YOLO approach | |
Chen et al. | GAPointNet: Graph attention based point neural network for exploiting local feature of point cloud | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
CN107767405B (zh) | 一种融合卷积神经网络的核相关滤波目标跟踪方法 | |
WO2021043112A1 (zh) | 图像分类方法以及装置 | |
Chen et al. | YOLOv5‐Based Vehicle Detection Method for High‐Resolution UAV Images | |
CN107977677A (zh) | 一种应用于大规模城区重建中的多标签像素分类方法 | |
Wiranata et al. | Investigation of padding schemes for faster R-CNN on vehicle detection | |
Wang et al. | Detection and recognition of stationary vehicles and seat belts in intelligent Internet of Things traffic management system | |
Lin et al. | Application research of neural network in vehicle target recognition and classification | |
CN117157679A (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
CN111144220B (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
CN117115555A (zh) | 一种基于噪声数据的半监督三维目标检测方法 | |
CN110619280A (zh) | 一种基于深度联合判别学习的车辆重识别方法及装置 | |
CN117541625B (zh) | 一种基于域适应特征融合的视频多目标跟踪方法 | |
CN115984646B (zh) | 面向遥感跨卫星观测的分布式目标检测方法、装置和卫星 | |
Yang et al. | High-performance UAVs visual tracking using deep convolutional feature | |
Cai et al. | EHDC: enhanced dilated convolution framework for underwater blurred target recognition | |
Wang et al. | YOLO-ERF: lightweight object detector for UAV aerial images | |
Agarwal et al. | Convolutional Neural Network for Traffic Sign Classification | |
Xu et al. | Object recognition system under hazy condition for automated driving systems | |
CN112487927A (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
Praveen et al. | Embedded Night-Vision System for Pedestrian Detection using Adaboosta Machine Learning Meta-Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |