CN114399661A - 一种实例感知主干网络训练方法 - Google Patents
一种实例感知主干网络训练方法 Download PDFInfo
- Publication number
- CN114399661A CN114399661A CN202111670920.0A CN202111670920A CN114399661A CN 114399661 A CN114399661 A CN 114399661A CN 202111670920 A CN202111670920 A CN 202111670920A CN 114399661 A CN114399661 A CN 114399661A
- Authority
- CN
- China
- Prior art keywords
- backbone network
- target
- class
- intra
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000008447 perception Effects 0.000 claims abstract description 13
- 239000006185 dispersion Substances 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 25
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种实例感知主干网络训练方法,应用于多目标视觉跟踪,包括网络模型预训练和模型微调再训练,其中网络模型预训练具体为:将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数;使用中间参数执行反向传播更新中间参数;执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距;迭代执行正向传播和反向传播得到最优目标分类主干网络。通过本发明提供的技术方案,能实现实例类间间距和类内间距同时增加,提高了多目标视觉跟踪的成功率和精度,同时不改变原始主干网络的网络结构、训练数据和超参数,使用极为便利。
Description
技术领域
本发明属于多目标跟踪技术领域,特别涉及一种实例感知主干网络训练方法。
背景技术
视觉跟踪是计算机视觉(CV)中的一项基本任务,具有视频监控、机器人技术和人机交互等应用,其目的是根据第一帧图像中指定的目标信息预测后续视频帧中目标的位置和形状。在过去十几年中,基于卷积神经网络(CNN)的视觉跟踪取得了显著的进展。然而,由于诸多因素,设计高精度视觉跟踪器仍然是一项具有挑战性的任务,其中最重要的因素之一是来自相似目标的干扰(IST)。在具有大量同类相似实例的场景中,IST经常导致跟踪器漂移,给视觉跟踪带来很大困难。
现代视觉跟踪器的主流结构可分为特征提取主干网络、特征融合模块和边界框预测模块。传统主干网络通常在图像分类框架下进行预训练,这种训练方法鼓励主干网络只提取不同类别实例的类间特征。然而,视觉跟踪不仅需要区分目标和属于其他类别的背景杂波,还需要区分属于同一类别目标的实例。这需要特征网络提取具有类间和类内实例区分性的特征。
发明内容
本发明的目的在于提供一种实例感知主干网络训练方法,采用主流的目标分类主干网络,在不改变原始主干网络的网络结构、训练数据、超参数的基础上,通过训练网络时增加实例感知分散约束,以解决现有主干网络不能提取同一类别实例的类内特征进行视觉跟踪的缺陷。
本发明解决其技术问题提供的技术方案如下:
本发明提供一种实例感知主干网络训练方法,应用于多目标跟踪,包括网络模型预训练,具体为:将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数;使用中间参数执行反向传播更新中间参数;执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距,提高了视觉跟踪的成功率和精度;迭代执行正向传播和反向传播得到最优目标分类主干网络。
本发明的有益效果为:本发明通过在原始主干网络具有类间区分约束的基础上增加实例感知分散约束,引导目标分类主干网络同时增加类间间距和类内间距,从而提高了视觉跟踪的成功率和精度;同时,所使用的主干网络不改变原始的网络结构、初始化方法、训练数据和超参数,未增加使用视觉跟踪的工作负载,使用方法极为便利。
附图说明
下面结合附图对本发明作进一步说明。
图1是网络模型预训练的方法流程图。
图2是AlexNet的conv5和fc8层从左到右的特征分布示意图。
图3是VGG19的conv4_4、conv5_4和fc8层从左到右的特征分布示意图。
图4是ResNet50的conv3_3、conv4_6、conv5_3和fc8层从左到右的特征分布示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现代跟踪器中使用的主干网络原本是用于图像分类任务的,而不是视觉跟踪。因此,使用该类主干网络提取的特征不完全适用于视觉跟踪。因此,现有技术提出了一些特征筛选、融合和调整方法来提取有利于视觉跟踪的特征。其中经过证明,较高的主干网络层编码更多的语义特征,而较低的主干网络层提取更多的鉴别信息,可以更好地将目标与具有类似外观的干扰物分开。因此,本发明在跟踪过程中同时使用了高层和低层网络的特征。其中,进一步发现,只有一部分主干网络神经元与目标跟踪任务是相关的。基于这一发现提出了特征图筛选方法,以去除噪声和不相关的特征图;这种方法可以减少计算冗余,提高跟踪精度。此外,基于转换器的方法通过使用注意机制进行特征融合,该机制基于自注意和互注意进行上下文特征增强。注意机制有助于融合主干网络特征,以获得用于视觉跟踪的有用语义信息。此外,使用跟踪数据精调主干网络可以部分地提高特征的类内区分能力。但因为跟踪数据量相对较少,这种提高是非常有限的,特别是对于需要在线训练的DCF等方法。上述方法主要着眼于修改分类主干网络提取的特征以利于视觉跟踪,尽管它们可以部分地补偿特征的不足;然而,这种补偿是非常有限的。例如,通过特征筛选、融合、调整和其他策略,很难增强原始特征所缺乏的、但对于跟踪任务非常重要的类内区分能力。本发明旨在构建一个具有实例感知功能的主干特征网络。
请参考图1,本发明提供一种实例感知主干网络训练方法,应用于多目标视频跟踪,包括网络模型预训练,具体为:将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数;使用中间参数执行反向传播更新中间参数;执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距;迭代执行正向传播和反向传播得到最优目标分类主干网络。
具体地,多目标跟踪数据集采用常用的用于目标跟踪的数据集,目标分类主干网络采用主流的原始主干网络。正向传播指对神经网络沿着输入层到输出层的顺序,依次计算并存储模型的中间变量参数。反向传播则沿着从输出层到输入层的顺序,依据链式法则,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。图像分类网络通常由一系列卷积层和几个全连接层(FC层)组成。这些卷积层通常被用作各类视觉任务的主干特征网络。主干网各的一般运作为:一张图像输入到主干网络,然后通过一系列卷积层。每个卷积层输出一组特征图,这些特征图也是下一个卷积层的输入。从主干网络的最后一个卷积层输出的特征被合并或展平为特征向量。特征向量通过最后几个FC层输出类别编码向量,我们期望分类网络输出一个正确的One-hot分类向量。即,与输入图像类别对应的元素为1,其他元素为0。这意味着我们要求所有属于同一类别的图像在通过分类网络后输出相同的分类向量。这一要求在网络训练过程中通过反向传播传递到主干网络的每个卷积层,以限制每个卷积层对于属于同一类别的图像输出在特征空间中尽可能接近的特征。在实际的视频跟踪中,每一网络层的特征都密集地分布在特征空间中。而且,离输出层越近,特征分布越集中。相同及似实例的特征距离过近,不利于视觉跟踪任务。这是因为与图像分类任务不同,图像分类任务只需要区分不同类别的目标,视觉跟踪任务不仅需要区分不同类别的目标,还需要区分相似的实例。这些实例的特征如果在特征空间中过于接近则会给实例区分带来困难。视觉跟踪要求主干网络能够提供易于区分属于同类和不同类目标的特征。我们希望在与原始主干网络相同的分类数据集(如ImageNet)上重新训练具有相同网络结构的主干网络。该主干网络提取的特征能够有效区分不同类目标和属于同一类的不同实例。为了实现这一目标,我们需要修改分类网络的训练过程。通过构造一个实例感知分散约束来引导分类网络同时输出具有类内和类间鉴别力的分类向量,并通过反向传播使得主干网络学习如何提取同时具有类间和类内鉴别力的特征。通过反向传播,引导主干网络也倾向于生成具有类似特点的特征,在实际跟踪中,随着训练的进行,相似目标的特征逐渐聚集,类别之间的界限逐渐形成。表明主干网络提取的特征具有较好的类间鉴别能力。
需要说明的是,在实际的网络训迭代过程中,可将迭代次数预设,预设值根据预测结果情况设置为20~200次,以期望得到满意的目标分类主干网络。
进一步地,实例感知分散约束为类内方差约束,类内方差约束用于引导目标分类主干网络对于同类目标输出具有较大方差的分类向量,以增加同类目标的类内间距。类内方差约束与类内距离和正则化项共同构建类内损失函数。
具体地,在网络训练中,使用类内和类间损失函数同时进行反向传播。其中,类内损失函数由类内方差、类间距离及正则化项组成。类内方差约束属于同一类别的特征相近但通过方差约束使类内间距增加从而利于正确的跟踪,正则化项用于约束特征中心接近于原点以确保可以被激活。
进一步地,请参考图2、图3、图4,所选用的多目标跟踪数据集可为OTB-2015、LaSOT或UAV123,所选用的原始目标分类主干网络为AlexNet、、VGG19或ResNet50及其优化网络。具体地,OTB2015分析是目前使用最广泛最权威的数据库,包含100个视频序列。LaSOT包含1400个视频,每个序列平均2512帧,每一帧都经过仔细检查和手动标记,并在需要时对结果进行目视检查和纠正。这样,可以生成大约352万个高质量的边界框标注。此外,LaSOT包含70个类别,每个类别包含20个序列。LaSOT是迄今为止最大的具有高质量手动密集注释的对象跟踪数据集,与之前的数据集不同,LaSOT提供了可视化边界框注释和丰富的自然语言规范,这些规范被证明对各种视觉任务都是有益的,包括视觉跟踪,通过鼓励和促进探索集成视觉和语言功能,以实现强大的跟踪性能。对于目标分类主干网络,UAV123主要由91个无人机视频组成,其中有数个视频序列较长,拆分成三四个较短的片段,使用多次,所以有123个groundtruth,其中包含20个长视频即UAV20L。AlexNet由5个卷积层(conv)和3个全联接层(fc)组成,激活函数使用ReLU,整个网络有6200万以上的可训练的参数。经典的AlexNet虽然它在识别效果方面非常令人惊艳,但是这些都是建立在对超参数进行大量的调整的基础上,它并没有提出一种明确的模型设计规则以便指导后续的新网络模型设计,这也限制了它的迁移能力。VGG作为卷积神经网络模型的基础模块,用于特征提取。VGG相对于AlexNet的优势之一:VGG提出用基础块代替网络层的思想,这使得它在构建深度网络模型时可以重复使用这些基础块。与AlexNet指代单一的模型不同,VGG包含多个不同的模型,主要包括VGG-11、VGG-13、VGG-16、VGG-19,后面的数字11、13、16、19是网络层数,VGG19包含了19个隐藏层(16个卷积层和3个全连接层),结构简洁,使用很小的卷积核(3×33×3)构建各种深度的卷积神经网络结构,能够取得较好的识别精度。相比于VGG19,ResNet50没有使用全连接层,而使用了全局平均池化层,可以减少大量参数。
进一步地,实例感知主干网络训练方法采用t-SNE算法降维。
具体地,t-SNE是用于降维的一种机器学习算法,是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。
进一步地,实例感知主干网络训练方法还包括模型微调再训练,具体为:对实际场景的目标跟踪视频进行目标标定后再对经过网络模型预训练的目标分类主干网络再次训练,从而对模型参数进行调优以使目标分类主干网络适应实际场景的目标跟踪。
具体地,使用常用数据集训练的模型不一定适用于实际运用场景,需要采用一些实际应用场景的视频跟踪数据对目标进行深度训练和参数微调,以提高网络模型的针对性和鲁棒性,通过模型微调再训练网络的流程为,首先将第一帧图像作为输入,并给出目标的初始坐标,然后对目标进行候选窗口的选择,卷积池化后将候选窗口的特征作为输入;当跟踪视频帧数没有达到预先设定的长时阈值且对当前目标的评估得分小于零时:对第一帧图像中的目标进行正负样本的采样,训练包含域模型,对全连接层和分类器进行参数训练;在下一帧图像中,提取目标的正样本候选窗口,计算得到候选正样本中的最高分,若最高得分大于设定的阈值,则将此样本添加到正样本库,并利用包含域模型确定最终的目标位置;若最高得分小于设定的阈值,则说明网络参数已不满足当前的跟踪,故利用正负样本库来再次训练更新全连接层和分类器参数;当跟踪视频帧数达到预先设定的长时阈值时,利用正负样本库数据对全连接层和分类器进行参数训练更新。
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书不应理解为对本发明的限制。
Claims (7)
1.一种实例感知主干网络训练方法,应用于多目标视频跟踪,其特征在于,包括网络模型预训练,具体为:
将多目标跟踪数据集输入目标分类主干网络执行正向传播生成网络模型中间参数;
使用中间参数执行反向传播更新中间参数;执行反向传播时通过增加实例感知分散约束并结合目标分类主干网络原有的类间方差约束引导目标分类主干网络同时增加类间间距和类内间距;
迭代执行正向传播和反向传播得到最优目标分类主干网络。
2.如权利要求1所述实例感知主干网络训练方法,其特征在于,所述实例感知分散约束为类内方差约束,所述类内方差约束用于引导目标分类主干网络对于同类目标输出具有较大方差的分类向量,以增加同类目标的类内间距。
3.如权利要求2所述实例感知主干网络训练方法,其特征在于,所述类内方差约束与类内距离和正则化项共同构建类内损失函数。
4.如权利要求1所述实例感知主干网络训练方法,其特征在于,所述多目标跟踪数据集为OTB-2015、LaSOT或UAV123。
5.如权利要求1所述实例感知主干网络训练方法,其特征在于,所述目标分类主干网络为AlexNet、VGG19或ResNet50。
6.如权利要求1所述实例感知主干网络训练方法,其特征在于,所述实例感知主干网络训练方法采用t-SNE算法降维。
7.如权利要求1所述实例感知主干网络训练方法,其特征在于,所述实例感知主干网络训练方法还包括模型微调再训练,具体为:对实际场景的目标跟踪视频进行目标标定后再对经过网络模型预训练的目标分类主干网络再次训练,从而对模型参数进行调优以使目标分类主干网络适应实际场景的目标跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111670920.0A CN114399661A (zh) | 2021-12-31 | 2021-12-31 | 一种实例感知主干网络训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111670920.0A CN114399661A (zh) | 2021-12-31 | 2021-12-31 | 一种实例感知主干网络训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399661A true CN114399661A (zh) | 2022-04-26 |
Family
ID=81229261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111670920.0A Pending CN114399661A (zh) | 2021-12-31 | 2021-12-31 | 一种实例感知主干网络训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399661A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842454A (zh) * | 2022-06-27 | 2022-08-02 | 小米汽车科技有限公司 | 障碍物检测方法、装置、设备、存储介质、芯片及车辆 |
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292915A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于卷积神经网络的目标跟踪方法 |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN109344695A (zh) * | 2018-08-14 | 2019-02-15 | 中山大学 | 一种基于特征选择卷积神经网络的目标重识别方法和装置 |
US20200065976A1 (en) * | 2018-08-23 | 2020-02-27 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
CN110858304A (zh) * | 2018-08-22 | 2020-03-03 | 上海汇付数据服务有限公司 | 一种身份证图像识别的方法及其设备 |
CN113449704A (zh) * | 2021-08-31 | 2021-09-28 | 北京的卢深视科技有限公司 | 人脸识别模型训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-31 CN CN202111670920.0A patent/CN114399661A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137358A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107292915A (zh) * | 2017-06-15 | 2017-10-24 | 国家新闻出版广电总局广播科学研究院 | 基于卷积神经网络的目标跟踪方法 |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
CN109344695A (zh) * | 2018-08-14 | 2019-02-15 | 中山大学 | 一种基于特征选择卷积神经网络的目标重识别方法和装置 |
CN110858304A (zh) * | 2018-08-22 | 2020-03-03 | 上海汇付数据服务有限公司 | 一种身份证图像识别的方法及其设备 |
US20200065976A1 (en) * | 2018-08-23 | 2020-02-27 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
CN113449704A (zh) * | 2021-08-31 | 2021-09-28 | 北京的卢深视科技有限公司 | 人脸识别模型训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
白洁;张金松;刘倩宇;: "基于卷积网络特征迁移的小样本物体图像识别", 计算机仿真, no. 05, 15 May 2020 (2020-05-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842454A (zh) * | 2022-06-27 | 2022-08-02 | 小米汽车科技有限公司 | 障碍物检测方法、装置、设备、存储介质、芯片及车辆 |
CN114842454B (zh) * | 2022-06-27 | 2022-09-13 | 小米汽车科技有限公司 | 障碍物检测方法、装置、设备、存储介质、芯片及车辆 |
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN115393396B (zh) * | 2022-08-18 | 2024-02-02 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN105205475B (zh) | 一种动态手势识别方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN102314614B (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
Zhang et al. | Quantifying the knowledge in a DNN to explain knowledge distillation for classification | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN116975776B (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN113887471B (zh) | 基于特征解耦和交叉对比的视频时序定位方法 | |
CN111414845A (zh) | 利用空间-时间图推理网络解决多形态语句视频定位任务的方法 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN112990222A (zh) | 一种基于图像边界知识迁移的引导语义分割方法 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与系统 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
Drass et al. | Semantic segmentation with deep learning: detection of cracks at the cut edge of glass | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
Cheng et al. | Multi-Trusted Cross-Modal Information Bottleneck for 3D self-supervised representation learning | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |