CN113297964A - 基于深度迁移学习的视频目标识别模型及方法 - Google Patents

基于深度迁移学习的视频目标识别模型及方法 Download PDF

Info

Publication number
CN113297964A
CN113297964A CN202110568237.XA CN202110568237A CN113297964A CN 113297964 A CN113297964 A CN 113297964A CN 202110568237 A CN202110568237 A CN 202110568237A CN 113297964 A CN113297964 A CN 113297964A
Authority
CN
China
Prior art keywords
attention
video
pooling
model
video target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110568237.XA
Other languages
English (en)
Other versions
CN113297964B (zh
Inventor
于来行
张冬艳
于馨悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhoukou Normal University
Original Assignee
Zhoukou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhoukou Normal University filed Critical Zhoukou Normal University
Priority to CN202110568237.XA priority Critical patent/CN113297964B/zh
Publication of CN113297964A publication Critical patent/CN113297964A/zh
Application granted granted Critical
Publication of CN113297964B publication Critical patent/CN113297964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度迁移学习的视频目标识别模型及方法。该模型采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数;所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型;所述注意力迁移模型包括通道注意力模块和空间注意力模块;所述通道注意力模块,用于将每个二维的特征通道变成一个实数,生成表示通道之间的依赖关系的中间映射图;所述空间注意力模块,用于在通道维度的张量空间内压缩生成特征矩阵,然后通过softmax激活函数得到二维空间注意力图。

Description

基于深度迁移学习的视频目标识别模型及方法
技术领域
本发明涉及视频目标识别技术领域,尤其涉及一种基于深度迁移学习的视频目标识别模型及方法。
背景技术
视频目标检测和识别的研究技术可以分为三个主要方向。第一是基于运动的视频目标检测和识别,该方法首先根据视频的历史信息区分图像的前景和背景,再通过形态学方法确定连通域得到目标位置,主要有背景差分法,帧间差分法和光流法等。第二是基于机器学习和传统图像处理的视频目标检测和识别,该方法主要步骤是图像预处理、特征提取、模式分类和目标检测;在提取特征的基础上利用支持向量机SVM分类器或者AdaBoost分类器等方法实现分类和识别。其中代表性的特征提取方法有Haar-like小波特征、尺度不变特征转换(Scale-invariant feature transform,SIFT)、HOG方向梯度直方图等。第三是基于深度学习的视频目标检测和识别,该方法可以从大量迭代学习中得到更高级的语义特征,具有更强的特征表达能力。
在实际应用中,基于深度学习的目标检测和识别方法主要有两类,一类是基于候选区域策略的Two-stage目标检测方法,该类方法利用深度卷积在候选区域提取特征的训练过程和测试过程都需要较多的时间,虽然提高了目标检测精度,但降低了速度。另一类方法是基于回归的目标检测,主要是把分类和检测放在One-stage的CNNs网络中加快了运算速度,该类方法没有设置候选区域的过程,提高了速度,但是忽略了许多小目标和密集目标,并且这类方法产生了大量的默认边界框,其中大部分边框内都不包含目标物体。
随着研究的不断深入,发现深度学习模型的训练和更新依赖大量的标注数据,需要耗费大量的人力和物力。另一个问题是深度卷积神经网络随着网络层次变得越来越深,其训练难度和能耗不断增加反而导致其性能下降;同时深度网络的参数众多,随着网络宽度不断增加,一定程度上又增加了参数,训练难度更大,降低了模型对其他数据集的泛化能力。为了减少深度网络的参数,引入注意力机制提取显著性信息,利用参数共享等方法将注意力信息迁移到新的卷积层或池化层中,不断优化深度网络模型的性能,ECCV2018上发表的CBAM模型(Convolutional Block Attention Module),AAAI2019上发表的TADA(Transferable Attention for Domain Adaptation)等方法将注意力迁移机制引入到深度网络模型中,减少了训练参数,提高了网络的性能。但是这些方法仅对特定图像数据集进行了训练,而在视频目标检测和追踪等领域中基于注意力迁移机制的深度卷积神经网络还较少,有待进一步深入研究。
发明内容
针对现有的基于深度学习的目标检测和识别方法所存在的权重参数较多、训练难度大或者不适用于视频目标检测和追踪的问题,本发明提供一种基于深度迁移学习的视频目标识别模型及方法。
一方面,本发明提供一种基于深度迁移学习的视频目标识别模型,采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数;
所述视频目标识别模型的网络结构为:将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入,根据初始权重参数对输入的视频图像逐层卷积,输出层为视频帧的特征表示层,将特征表示层输出的特征作为SVM分类器的输入特征,通过SVM分类器完成视频目标的分类识别任务;其中,所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型;所述注意力迁移模型包括通道注意力模块和空间注意力模块;
所述通道注意力模块,用于将每个二维的特征通道变成一个实数,生成表示通道之间的依赖关系的中间映射图;
所述空间注意力模块,用于在通道维度的张量空间内压缩生成特征矩阵,然后通过softmax激活函数得到二维空间注意力图。
进一步地,所述通道注意力模块采用的注意力函数为:
Figure BDA0003081613670000021
其中,Ci为i通道的上一卷积层输出结果,
Figure BDA0003081613670000031
为经过通道注意力模块转换后的卷积输出结果,σ表示在Ci上的标准差,μ表示在Ci上的均值,ζ表示利用高斯函数获取的注意力权重值。
进一步地,所述空间注意力模块,用于在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵,然后通过设定的融合规则生成统一的池化层,再通过softmax激活函数得到二维空间注意力图;其中,3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。
进一步地,所述迁移注意力值池化方式所对应的池化层函数为:
Figure BDA0003081613670000032
其中,Wi为上一层或者前几层显著性权重矩阵的叠加输出,σw表示在Wi上的标准差,μw表示在Wi上的均值,ζw表示利用高斯函数获取的池化权重值,Wi ζ表示迁移注意力和显著性后的池化层权重矩阵。
进一步地,所述设定的融合规则具体为:
P=λ1Pm2Pt3Pl
s.t.λ123=1
其中,Pm为最大值池化方式所对应的池化层函数,Pl为局部显著性值池化方式所对应的池化层函数,P为统一的池化层函数,λ1、λ2、λ3均表示特征加权融合归一化约束参数。
另一方面,本发明提供一种基于深度迁移学习的视频目标识别方法,采用权利要求上述的视频目标识别模型,所述方法包括:
步骤1:对交通视频源进行预处理,得到多个视频序列;
步骤2:将多个视频序列依次输入所述视频目标识别模型;步骤3:利用初始权重参数对输入的视频序列进行卷积操作,并加入注意力迁移模型生成新的卷积参数权重,通过注意力迁移模型将其应用在后续输入的视频序列卷积和池化层的运算过程,将前期的学习经验迁移到当前视频目标识别的过程,生成融合目标特征表示;
步骤4:将最后一层输出结果作为SVM分类器的输入特征,实现视频目标的分类识别任务。
本发明的有益效果:
(1)本发明可以自适应地冻结DCNN模型中的部分卷积层,将其应用到视频目标识别网络模型的训练过程中,简化了该视频目标识别网络模型的训练过程,减少了权重参数量和训练数据量。
(2)本发明在convLSTM网络中引入注意力迁移模型,将注意力作用于深度网络的特定卷积层,将有标注数据集上训练得到的注意力信息迁移到当前卷积网络,交叉选择较强表达能力的特征表示,从而解决了传统的深度学习模型的训练和更新必须依赖大量的标注数据的问题;在深度卷积层中不断执行剪枝操作,丢弃冗余通道,减少参数量,并且在强化有用信息的同时抑制了无用信息,从而减少了深度学习训练模型参数调整的规模,降低了训练难度,提高了算法的泛化能力。根据视频目标在连续帧之间具有位移和形变等特点,还加入了帧间注意力迁移模型,进一步减少视频目标网络模型对有标注训练数据集和网络权重参数的依赖,有利于提高视频目标识别的速度和精度。
附图说明
图1为本发明实施例提供的基于深度迁移学习的视频目标识别模型的原理框图之一;
图2为本发明实施例提供的本发明实施例提供的基于深度迁移学习的视频目标识别模型的原理框图之二;
图3为本发明实施例提供的通道注意力模块的原理框图;
图4为本发明实施例提供的空间注意力模块的原理框图;
图5为本发明实施例提供的基于深度迁移学习的视频目标识别方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于深度迁移学习的视频目标识别模型,采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数;
所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型;所述注意力迁移模型包括通道注意力模块和空间注意力模块;
所述通道注意力模块,用于将每个二维的特征通道变成一个实数,生成表示通道之间的依赖关系的中间映射图;
所述空间注意力模块,用于在通道维度的张量空间内压缩生成特征矩阵,然后通过softmax激活函数得到二维空间注意力图。
具体地,如图1所示,采用基于AlexNet网络的DCNN模型(Deep ConvolutionalNeural Networks),在ImageNet数据集上进行训练获得一组处理图像非常有效的权重参数,然后迁移学习的方法冻结该模型卷积层并将该组有效的权重参数应用在视频目标识别模型中,完成视频目标定位、特征表示和分类识别等任务。其中,所述视频目标识别模型的网络结构为:将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入,根据初始权重参数对输入的视频图像逐层卷积,输出层为视频帧的特征表示层,将特征表示层输出的特征作为SVM分类器的输入特征,通过SVM分类器完成视频目标的分类识别任务。
本发明实施例中,注意力迁移模型由通道注意力模块和空间注意力模块两部分组成。其中,通道注意力模块负责选择较为重要的通道信息,将每个二维的特征通道变成一个实数,生成中间映射图表示通道之间的依赖关系,某种程度上具有全局感受野,可以压缩输入空间的维度。
作为一种可实施方式,如图3所示,所述通道注意力模块采用的注意力函数为:
Figure BDA0003081613670000061
其中,Ci为i通道的上一卷积层输出结果,
Figure BDA0003081613670000062
为经过通道注意力模块转换后的卷积输出结果,σ表示在Ci上的标准差,μ表示在Ci上的均值,ζ表示利用高斯函数获取的注意力权重值。
空间注意力模块负责生成二维空间注意力图,具体为:在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵,然后通过设定的融合规则生成统一的池化层,再通过softmax激活函数得到二维空间注意力图。其中,3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。
作为一种可实施方式,所述迁移注意力值池化方式所对应的池化层函数为:
Figure BDA0003081613670000063
其中,Wi为上一层或者前几层显著性权重矩阵的叠加输出,σw表示在Wi上的标准差,μw表示在Wi上的均值,ζw表示利用高斯函数获取的池化权重值,Wi ζ表示迁移注意力和显著性后的池化层权重矩阵。
所述设定的融合规则具体为:
P=λ1Pm2Pt3Pl
s.t.λ123=1
其中,Pm为最大值池化方式所对应的池化层函数,Pl为局部显著性值池化方式所对应的池化层函数,P为统一的池化层函数,λ1、λ2、λ3均表示特征加权融合归一化约束参数。
具体地,如图4所示,最大值池化Pm运用常规最大值池化操作,保留上层输出的局部最大值,保留其最有影响的元素输出生成注意力图1;局部显著性池化Pl根据上层通道注意力模型生成的输出结果与本层权重矩阵进行卷积操作生成注意力图2;迁移注意力池化层Pt,其中Wi为上一层或者前几层显著性权重矩阵的叠加输出,通过注意力模型生成新的注意力映射矩阵,然后和上层输出结果进行卷积操作生成注意力图3。
最后将目标显著性分布特征转换为注意力矩阵,进行一定的仿射变换后与原有权重参数求内积,然后将结果嵌入到每个通道的卷积层中,完成通道维度上的重标定。
本发明实施例中,注意力迁移模型生成的注意力图在深度卷积网络中可以实现剪枝操作,丢弃冗余参数,也可以说是在强化有用信息的同时抑制了无用信息。通过注意力迁移机制可以把这种优势迁移到新的无标注数据集的训练之中,快速获取目标位置和特征表示。
本发明利用矩阵离散度模拟注意力机制,获取多卷积层的显著特征点。多维特征之间的离散度表示了它们的一种内在逻辑关系,用于约束每种目标函数的边界范围、增强显著信号强度并降低噪声的干扰,进而评价每个维度特征的重要性。
对应地,如图5所示,本发明实施例还提供一种基于深度迁移学习的视频目标识别方法,该方法包括以下步骤:
步骤1:对交通视频源进行预处理,得到多个视频序列;
步骤2:将多个视频序列依次输入所述视频目标识别模型;
步骤3:利用初始权重参数对输入的视频序列进行卷积操作,并加入注意力迁移模型生成新的卷积参数权重,通过注意力迁移模型将其应用在后续输入的视频序列卷积和池化层的运算过程,将前期的学习经验迁移到当前视频目标识别的过程,生成融合目标特征表示;
步骤4:将最后一层输出结果作为SVM分类器的输入特征,实现视频目标的分类识别任务。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.基于深度迁移学习的视频目标识别模型,其特征在于,
采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数;
所述视频目标识别模型的网络结构为:将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入,根据初始权重参数对输入的视频图像逐层卷积,输出层为视频帧的特征表示层,将特征表示层输出的特征作为SVM分类器的输入特征,通过SVM分类器完成视频目标的分类识别任务;其中,所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型;
所述注意力迁移模型包括通道注意力模块和空间注意力模块;
所述通道注意力模块,用于将每个二维的特征通道变成一个实数,生成表示通道之间的依赖关系的中间映射图;
所述空间注意力模块,用于在通道维度的张量空间内压缩生成特征矩阵,然后通过softmax激活函数得到二维空间注意力图。
2.根据权利要求1所述的视频目标识别模型,其特征在于,所述通道注意力模块采用的注意力函数为:
Figure FDA0003081613660000011
其中,Ci为i通道的上一卷积层输出结果,
Figure FDA0003081613660000012
为经过通道注意力模块转换后的卷积输出结果,σ表示在Ci上的标准差,μ表示在Ci上的均值,ζ表示利用高斯函数获取的注意力权重值。
3.根据权利要求1所述的视频目标识别模型,其特征在于,所述空间注意力模块,用于在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵,然后通过设定的融合规则生成统一的池化层,再通过softmax激活函数得到二维空间注意力图;其中,3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。
4.根据权利要求3所述的视频目标识别模型,其特征在于,所述迁移注意力值池化方式所对应的池化层函数为:
Figure FDA0003081613660000021
其中,Wi为上一层或者前几层显著性权重矩阵的叠加输出,σw表示在Wi上的标准差,μw表示在Wi上的均值,ζw表示利用高斯函数获取的池化权重值,Wi ζ表示迁移注意力和显著性后的池化层权重矩阵。
5.根据权利要求4所述的视频目标识别模型,其特征在于,所述设定的融合规则具体为:
P=λ1Pm2Pt3Pl
s.t.λ123=1
其中,Pm为最大值池化方式所对应的池化层函数,Pl为局部显著性值池化方式所对应的池化层函数,P为统一的池化层函数,λ1、λ2、λ3均表示特征加权融合归一化约束参数。
6.基于深度迁移学习的视频目标识别方法,其特征在于,采用权利要求1至5任一所述的视频目标识别模型,所述方法包括:
步骤1:对交通视频源进行预处理,得到多个视频序列;
步骤2:将多个视频序列依次输入所述视频目标识别模型;
步骤3:利用初始权重参数对输入的视频序列进行卷积操作,并加入注意力迁移模型生成新的卷积参数权重,通过注意力迁移模型将其应用在后续输入的视频序列卷积和池化层的运算过程,将前期的学习经验迁移到当前视频目标识别的过程,生成融合目标特征表示;
步骤4:将最后一层输出结果作为SVM分类器的输入特征,实现视频目标的分类识别任务。
CN202110568237.XA 2021-05-25 2021-05-25 基于深度迁移学习的视频目标识别模型及方法 Active CN113297964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568237.XA CN113297964B (zh) 2021-05-25 2021-05-25 基于深度迁移学习的视频目标识别模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568237.XA CN113297964B (zh) 2021-05-25 2021-05-25 基于深度迁移学习的视频目标识别模型及方法

Publications (2)

Publication Number Publication Date
CN113297964A true CN113297964A (zh) 2021-08-24
CN113297964B CN113297964B (zh) 2022-11-15

Family

ID=77324441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568237.XA Active CN113297964B (zh) 2021-05-25 2021-05-25 基于深度迁移学习的视频目标识别模型及方法

Country Status (1)

Country Link
CN (1) CN113297964B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570640A (zh) * 2021-09-26 2021-10-29 南京智谱科技有限公司 一种视频图像处理的方法及装置
CN113989940A (zh) * 2021-11-17 2022-01-28 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005136A1 (en) * 2016-07-01 2018-01-04 Yi Gai Machine learning in adversarial environments
CN107885787A (zh) * 2017-10-18 2018-04-06 大连理工大学 基于谱嵌入的多视角特征融合的图像检索方法
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法
CN109544603A (zh) * 2018-11-28 2019-03-29 上饶师范学院 基于深度迁移学习的目标跟踪方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005136A1 (en) * 2016-07-01 2018-01-04 Yi Gai Machine learning in adversarial environments
CN109416763A (zh) * 2016-07-01 2019-03-01 英特尔公司 对抗性环境中的机器学习
CN107885787A (zh) * 2017-10-18 2018-04-06 大连理工大学 基于谱嵌入的多视角特征融合的图像检索方法
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法
CN109544603A (zh) * 2018-11-28 2019-03-29 上饶师范学院 基于深度迁移学习的目标跟踪方法
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LAIHANG YU ET AL.: ""A multi-view fusion method via tensor learning and gradient descent for image features"", 《IEEE ACCESS》 *
LIN FENG ET AL.: ""Spectral embdding based multi-view features fusion for content-based image retrival"", 《ELECTRONIC IMAGING》 *
ZHU LAN ET AL.: ""Aerial Image Semantic Segmentation Using Spatial and Channel Attention"", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON IMAGE, VISION AND COMPUTING (ICIVC)》 *
于来行等: ""自适应融合目标和背景的图像特征提取方法"", 《计算机辅助设计与图形学学报》 *
揭志浩等: ""结合Attention-ConvLSTM 的双流卷积行为识别"", 《小型微型计算机系统》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570640A (zh) * 2021-09-26 2021-10-29 南京智谱科技有限公司 一种视频图像处理的方法及装置
CN113989940A (zh) * 2021-11-17 2022-01-28 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质
CN113989940B (zh) * 2021-11-17 2024-03-29 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质

Also Published As

Publication number Publication date
CN113297964B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Song et al. A survey of remote sensing image classification based on CNNs
Zeng et al. Traffic sign recognition using kernel extreme learning machines with deep perceptual features
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
Mohamed et al. Content-based image retrieval using convolutional neural networks
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN113297964B (zh) 基于深度迁移学习的视频目标识别模型及方法
Fan et al. Genetic programming for feature extraction and construction in image classification
Wu et al. Improving pedestrian detection with selective gradient self-similarity feature
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
Peng et al. Deep boosting: joint feature selection and analysis dictionary learning in hierarchy
Vaidya et al. Deep learning architectures for object detection and classification
An et al. Object recognition algorithm based on optimized nonlinear activation function-global convolutional neural network
Fu et al. Robust multi-kernelized correlators for UAV tracking with adaptive context analysis and dynamic weighted filters
Rimavicius et al. A comparison of the deep learning methods for solving seafloor image classification task
Li et al. FVGNN: A novel GNN to finger vein recognition from limited training data
Bi et al. Critical direction projection networks for few-shot learning
Zhong et al. Heterogeneous visual features integration for image recognition optimization in internet of things
Zhang et al. A mixed depthwise separation residual network for image feature extraction
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
Zhang et al. SE-DCGAN: a new method of semantic image restoration
Wang et al. Boosting-like deep learning for pedestrian detection
CN109934270B (zh) 一种基于局部流形判别分析投影网络的分类方法
Liu et al. An efficient and low power deep learning framework for image recognition on mobile devices
Zheng et al. Traffic Sign Recognition Based on Learning Vector Quantization and Convolution Neural Network
Metre et al. Research opportunities for the detection and classification of plant leaf diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant