CN111008570A - 一种基于压缩-激励伪三维网络的视频理解方法 - Google Patents

一种基于压缩-激励伪三维网络的视频理解方法 Download PDF

Info

Publication number
CN111008570A
CN111008570A CN201911095072.8A CN201911095072A CN111008570A CN 111008570 A CN111008570 A CN 111008570A CN 201911095072 A CN201911095072 A CN 201911095072A CN 111008570 A CN111008570 A CN 111008570A
Authority
CN
China
Prior art keywords
compression
dimensional
pseudo
excitation
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911095072.8A
Other languages
English (en)
Other versions
CN111008570B (zh
Inventor
高建彬
王嘉琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911095072.8A priority Critical patent/CN111008570B/zh
Publication of CN111008570A publication Critical patent/CN111008570A/zh
Application granted granted Critical
Publication of CN111008570B publication Critical patent/CN111008570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于压缩‑激励伪三维网络的视频理解方法,该方法包括:预处理训练数据和测试数据,构成训练集和测试集;采用训练集训练基于压缩‑激励机制的伪三维残差网络;采用测试集测试基于压缩‑激励机制的伪三维残差网络;并给出了所述基于压缩‑激励机制的伪三维残差网络的详细结构。本发明提出的一种基于压缩‑激励伪三维网络的视频理解方法,均匀的提取了输入视频片段的空间特征和时间特征,相较与三维卷积模型减少了参数量,加深了网络层数,提取了更深层次的特征;并且显式地建模特征通道之间的相互依赖关系,从而提高网络性能;对测试样本的预测结果取平均作为最后的预测结果,增加了结果的准确性和鲁棒性。

Description

一种基于压缩-激励伪三维网络的视频理解方法
技术领域
本发明属于计算机视觉技术领域,涉及视频理解分类领域,具体涉及一种基于压缩-激励伪三维网络的视频理解方法。
背景技术
每分钟都有大量的图像和视频数据正在被产生,这也促使了搜索、推荐等多媒体内容理解应用的发展,而如何很好地提取视频特征对于视频的内容分析及理解具有重要的意义。在图像领域,残差网络模型的集成已经可以在ImageNet数据集(一个用于视觉对象识别软件研究的大型可视化数据库)上达到3.57%的top-5的出错率(error),这已经优于出错率为5.1%的人类水平。相比于图像而言,视频除了作为图像帧的集合还蕴含了复杂的时序信息,这也使得学习一个强大而通用的视频空间时序特征变得很困难。
在现有的比较常见的解决上述问题的方法中,大致可归于以下三类。单帧识别,这是指从视频中提取单独一帧,使用卷积神经网络对图像进行分类;多帧融合,这是指提取视频中的多帧,分别利用卷积神经网络提取每帧图像的表观特征,而后利用循环神经网络对视频帧与帧之间的时序特征进行建模;三维卷积模型,这是指使用三维卷积结构对视频同时提取空间和时间特征。总体说来,视频理解分类还存在以下问题:
1)单帧识别只能提取到单帧图像的表观特征,并不能利用到视频帧与帧之间的时序信息。
2)多帧融合是提取出每帧图像的高层特征后再进行时序的建模,因此可以捕捉高层变化而不能捕捉低层运动,但往往很多关键信息都包含在低层运动中。
3)三维卷积模型相较于二维卷积网络参数量更大,因此训练十分困难,所以大都采用浅层结构,致使深层特征又难以提取。
另外,目前视频理解分类模型的基础卷积神经网络,其又存在一些问题:卷积核作为卷积神经网络的核心,通常都是在局部感受野上将空间信息和特征维度的信息进行聚合最后获取全局信息。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述,然而去学到一个性能非常强劲的网络是相当困难的。
发明内容
针对上述存在的问题,本发明提出一种基于压缩-激励伪三维网络的视频理解方法来提高视频理解分类的准确性。
本发明提出的一种基于压缩-激励伪三维网络的视频理解方法采用基于压缩-激励机制的伪三维残差网络实现,其具体包括如下步骤:
步骤1:将训练数据中的每个训练视频分割成若干个4秒长的片段,每个片段均匀采样16帧,从而构成训练集;同样将测试数据中的每个测试视频分割成20个4秒长的片段,每个片段均匀采样16帧,从而构成测试集。然后将训练集中的每一个片段作为所述训练集的一个训练样本,将测试集中的每一个片段作为所述测试集的一个测试样本;
步骤2:将训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中,对所述基于压缩-激励机制的伪三维残差网络进行训练,得到训练完成的基于压缩-激励机制的伪三维残差网络;
步骤3:在测试阶段,将测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中,对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试,得到每一个测试样本的预测结果分数,最后将20个测试样本的预测结果分数进行平均作为最后预测结果。
所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构,所述基于压缩-激励机制的伪三维残差网络是由若干个伪三维压缩-激励残差块结构堆叠而成,最后通过一个全连接层进行分类。其中每个伪三维压缩-激励残差块学习的是下式的残差函数,所述基于压缩-激励机制的伪三维残差网络通过学习残差函数而不是直接映射,使得学习更加容易。
F(xt)=H(xt)-xt+1
其中xt表示伪三维压缩-激励残差块的输入,xt+1表示伪三维压缩-激励残差块的输出,H(xt)=xt表示恒等映射关系,F是非线性残差函数,伪三维压缩-激励残差块将学习目标改变了,不再是学习直接从输入到输出的非线性函数,而是目标值与输入值之间的差值。这个式子也可以写成下式的形式:
(I+F)·xt=xt+F·xt:=xt+F(xt)=xt+1
基于伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的,然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积,我们使用S表示空间卷积操作,T表示时间卷积操作,先做空间的二维卷积然后再做时间一维卷积,残差学习如下式所示:
(I+T·S)·xt:=xt+T(S(xt))=xt+1
压缩-激励机制主要从考虑特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能,显式地建模特征通道之间的相互依赖关系。
本发明提出的一种基于压缩-激励伪三维网络的视频理解方法,由于均匀的提取了输入视频片段的空间特征和时间特征,并且相较与三维卷积模型减少了参数量,从而加深了网络层数,可以提取更深层次的特征;并且利用压缩-激励机制,显式地建模特征通道之间的相互依赖关系,从而提高网络性能;在测试阶段,对每个测试样本的预测结果取平均作为测试视频最后的预测结果,增加了结果的准确性和鲁棒性。
附图说明
图1是本发明的一个伪三维压缩-激励残差块结构示意图
图2是本发明的整体网络结构
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明提出的一种基于压缩-激励伪三维网络的视频理解方法采用基于压缩-激励机制的伪三维残差网络实现,包括步骤1-3:
步骤1,将原始视频经过处理后输入到该网络当中
(1.1)将训练数据中的每个训练视频分割成若干个4秒长的片段,每个片段均匀采样16帧,从而构成训练集,然后将训练集中的每一个片段作为所述训练集的一个训练样本;
其中,将每个视频截取为若干个长度为4秒的片段,并均匀采样16帧作为输入具体为假设原视频的大小为H×W×3,则输入尺寸为16×H×W×3。
步骤2,在网络中进行训练
如图1所示,将训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中,对所述基于压缩-激励机制的伪三维残差网络进行训练,得到训练完成的基于压缩-激励机制的伪三维残差网络,具体包括如下步骤:
(2.1)所述训练集中的训练样本经过每个伪三维压缩-激励残差块结构时,首先经过伪三维卷积模块。其中,首先经过1×1×1×c的卷积核,将特征图融合;之后经过1×3×3×1的空间卷积核;再经过3×1×1×1的时间卷积核;最后通过1×1×1×c的卷积核恢复为原尺寸。
(2.2)之后会经过压缩-激励模块。其中,首先经过全局池化将输入变为1×1×1×c的一维向量;之后通过两个全连接层将通道数降维到c/16再恢复为c。最后经过一个Sigmoid层将权重归一化后再进行通道赋权。
(2.3)在依次相连的残差块结构中重复上述操作直到训练完成。
步骤3,利用测试视频进行训练
(3.1)将每个测试视频截取为20个4秒的片段,每个片段均匀采样16帧作为一个片段,从而构成测试集,将测试集中的每一个片段作为所述测试集的一个测试样本。将每个片段分别输入到训练好的所述基于压缩-激励机制的伪三维残差网络中进行预测,最后将20个片段的结果进行平均作为结果。具体包括:
在测试阶段,将测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中,对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试,得到每一个测试样本的预测结果分数,最后将20个测试样本的预测结果分数进行平均作为最后预测结果,这种做法增加了结果的准确性和鲁棒性。
其中,所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构,其以残差网络为基础,对其当中的残差块结构进行了调整,在其中的每个残差块中分为两部分:第一部分是伪三维卷积模块,第二部分是压缩-激励模块,如图2所示,其结构是由若干个伪三维压缩-激励残差块结构堆叠而成,最后通过一个全连接层进行分类。其中每个伪三维压缩-激励残差块结构学习的是式(1)的残差函数,所述基于压缩-激励机制的伪三维残差网络通过学习残差函数而不是直接映射,使得学习更加容易。
F(xt)=H(xt)-xt+1 (1)
其中xt表示伪三维压缩-激励残差块的输入,xt+1表示伪三维压缩-激励残差块的输出,H(xt)=xt表示恒等映射关系,F是非线性残差函数,伪三维压缩-激励残差块将学习目标改变了,不再是学习直接从输入到输出的非线性函数,而是目标值与输入值之间的差值。这个式子也可以写成式(2)的形式:
(I+F)·xt=xt+F·xt:=xt+F(xt)=xt+1 (2)
基于伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的,然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积,我们使用S表示空间卷积操作,T表示时间卷积操作,先做空间的二维卷积然后再做时间一维卷积,残差学习如式(3)所示:
(I+T·S)·xt:=xt+T(S(xt))=xt+1 (3)
其中,伪三维卷积模块对输入数据在空间维度和时间维度进行均匀的卷积运算,提取其空间和时间特征。相较于传统的二维卷积,该模块可以在提取空间特征的基础上同时提取时间特征;相较于传统三维卷积,该方法可以大幅减小模型复杂度,降低计算开销。
压缩-激励模块可以自适应的校准特征通道间的特征响应,显式地建模通道之间的相互依赖关系,自动获取不同特征图的重要程度,然后依照这个重要程度去增强有用的特征并抑制对当前任务用处不大的特征。
压缩-激励机制主要从考虑特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能,显式地建模特征通道之间的相互依赖关系。本发明并不引入一个新的空间维度来进行特征通道间的融合,而是采用了一种全新的“特征重标定策略”。具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
具体操作主要分为压缩和激励部分。在伪三维压缩-激励残差块结构阶段,每个伪三维压缩-激励残差块结构会通过若干个卷积核的运算得到若干个特征图,之后首先在压缩部分对每个特征图使用全局平均池化操作,使每个特征图取为一个值,那么假设有c个特征图,经过压缩部分就会得到一个长度为c的一维向量,紧接着在激励部分通过两个全连接层去学习通道间的相关性,并输出和输入特征同样数目的权重。这两个全连接层是会先降维,再升维为原维度,然后通过一个Sigmoid的门获得0到1之间归一化的权重。最后通过一个通道赋权的操作来将归一化后的权重加权到每个通道的特征上。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (3)

1.一种基于压缩-激励伪三维网络的视频理解方法,其特征在于,该方法采用基于压缩-激励机制的伪三维残差网络实现,该方法具体包括如下步骤:
步骤1:将训练数据中的每个训练视频分割成若干个4秒长的片段,每个片段均匀采样16帧,从而构成训练集;同样将测试数据中的每个测试视频分割成20个4秒长的片段,每个片段均匀采样16帧,从而构成测试集,然后将所述训练集中的每一个片段作为所述训练集的一个训练样本,将所述测试集中的每一个片段作为所述测试集的一个测试样本;
步骤2:将所述训练集中的训练样本逐一输入所述基于压缩-激励机制的伪三维残差网络中,对所述基于压缩-激励机制的伪三维残差网络进行训练,得到训练完成的基于压缩-激励机制的伪三维残差网络;
步骤3:在测试阶段,将所述测试集中的测试样本逐一输入所述训练完成的基于压缩-激励机制的伪三维残差网络中,对所述训练完成的基于压缩-激励机制的伪三维残差网络进行测试,得到每一个测试样本的预测结果分数,最后将20个测试样本的预测结果分数进行平均作为最后预测结果;
其中,所述基于压缩-激励机制的伪三维残差网络是一种卷积神经网络结构,所述基于压缩-激励机制的伪三维残差网络是由若干个相同的伪三维压缩-激励残差块结构堆叠而成,最后通过一个全连接层进行分类,其中每个伪三维压缩-激励残差块结构分为两部分:第一部分是伪三维卷积模块,第二部分是压缩-激励模块,每个伪三维压缩-激励残差块结构学习的是下式的残差函数F(xt),所述基于压缩-激励机制的伪三维残差网络由于通过学习残差函数而不是直接映射,使得学习变得容易,
F(xt)=H(xt)-xt+1
其中xt表示所述伪三维压缩-激励残差块结构的输入,xt+1表示所述伪三维压缩-激励残差块结构的输出,H(xt)=xt表示恒等映射关系,F是非线性残差函数,所述伪三维压缩-激励残差块结构将学习目标改变了,不再是学习直接从输入到输出的非线性函数,而是目标值与输入值之间的差值,上式的残差函数F(xt)也可以写成下面的形式:
(I+F)·xt=xt+F·xt:=xt+F(xt)=xt+1
所述伪三维压缩-激励残差块结构是将原本二维的残差单元中的卷积核全部扩充成三维的,然后再将三维卷积核分解成一个二维空间卷积和一个一维时间卷积,采用S表示空间卷积操作,T表示时间卷积操作,先做空间的二维卷积然后再做时间一维卷积,残差学习如下式所示:
(I+T·S)·xt:=xt+T(S(xt))=xt+1
所述基于压缩-激励机制的伪三维残差网络中的压缩-激励机制通过特征通道之间的关系来提高所述基于压缩-激励机制的伪三维残差网络性能,显式地建模特征通道之间的相互依赖关系,通过学习的方式自动获取每个特征通道的重要程度,然后依照所述重要程度提升有用的特征通道并抑制对当前任务用处不大的特征通道,具体包括压缩和激励部分:在压缩部分前,每个伪三维压缩-激励残差块结构通过若干个卷积核的运算得到若干个特征图,之后首先在压缩部分对每个特征图使用全局平均池化操作,为每个特征图取一个值,假设有c个特征图,经过压缩部分就会得到一个长度为c的一维向量,紧接着在激励部分通过两个全连接层去学习特征通道间的相关性,并输出和输入特征同样数目的权重,这两个全连接层先进行降维,再升维为原维度,然后通过一个Sigmoid的门获得0到1之间归一化的权重,最后通过一个特征通道赋权的操作将所述归一化的权重加权到每个特征通道的特征上;
其中,使用两个全连接层而不是一个全连接层是为了具有更多的非线性,以便更好地拟合特征通道间复杂的相关性,减少参数量和计算量。
2.根据权利要求1所述的基于压缩-激励伪三维网络的视频理解方法,其特征在于,所述步骤1中将每个视频分割成若干个4秒长的片段,每个片段均匀采样16帧作为训练集输入所述基于压缩-激励机制的伪三维残差网络具体操作为:假设原视频的大小为H×W×3,则输入尺寸为16×H×W×3。
3.根据权利要求1所述的基于压缩-激励伪三维网络的视频理解方法,其特征在于,所述步骤2具体操作为:所述训练集中的训练样本经过每个伪三维压缩-激励残差块结构时,1)经过所述伪三维卷积模块,其中,首先经过1×1×1×c的卷积核,将特征图融合;之后经过1×3×3×1的空间卷积核;再经过3×1×1×1的时间卷积核;最后通过1×1×1×c的卷积核恢复为原尺寸;2)经过所述压缩-激励模块,其中,首先经过全局池化将所述压缩-激励模块的输入变为1×1×1×c的一维向量;之后通过两个1×1×1×c的全连接层将特征通道数降维到c/16再恢复为c,最后经过一个Sigmoid的门将获得的权重归一化后再进行特征通道赋权;3)在依次相连的所述伪三维压缩-激励残差块结构中重复上述操作1)和2)直到所述基于压缩-激励机制的伪三维残差网络训练完成。
CN201911095072.8A 2019-11-11 2019-11-11 一种基于压缩-激励伪三维网络的视频理解方法 Active CN111008570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911095072.8A CN111008570B (zh) 2019-11-11 2019-11-11 一种基于压缩-激励伪三维网络的视频理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911095072.8A CN111008570B (zh) 2019-11-11 2019-11-11 一种基于压缩-激励伪三维网络的视频理解方法

Publications (2)

Publication Number Publication Date
CN111008570A true CN111008570A (zh) 2020-04-14
CN111008570B CN111008570B (zh) 2022-05-03

Family

ID=70111976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911095072.8A Active CN111008570B (zh) 2019-11-11 2019-11-11 一种基于压缩-激励伪三维网络的视频理解方法

Country Status (1)

Country Link
CN (1) CN111008570B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931587A (zh) * 2020-07-15 2020-11-13 重庆邮电大学 基于可解释时空自编码器的视频异常检测方法
CN112633264A (zh) * 2021-03-11 2021-04-09 深圳市安软科技股份有限公司 一种车辆属性识别方法、装置、电子设备及存储介质
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195341A1 (en) * 2012-01-31 2013-08-01 Ge Medical Systems Global Technology Company Method for sorting ct image slices and method for constructing 3d ct image
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及系统
US20190005684A1 (en) * 2017-06-28 2019-01-03 Deepmind Technologies Limited Generalizable medical image analysis using segmentation and classification neural networks
CN110070041A (zh) * 2019-04-23 2019-07-30 江西理工大学 一种时空压缩激励残差乘法网络的视频动作识别方法
CN110084813A (zh) * 2019-05-13 2019-08-02 山东大学 一种基于三维深度学习网络的肺结节良恶性预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195341A1 (en) * 2012-01-31 2013-08-01 Ge Medical Systems Global Technology Company Method for sorting ct image slices and method for constructing 3d ct image
US20190005684A1 (en) * 2017-06-28 2019-01-03 Deepmind Technologies Limited Generalizable medical image analysis using segmentation and classification neural networks
CN107808139A (zh) * 2017-11-01 2018-03-16 电子科技大学 一种基于深度学习的实时监控威胁分析方法及系统
CN110070041A (zh) * 2019-04-23 2019-07-30 江西理工大学 一种时空压缩激励残差乘法网络的视频动作识别方法
CN110084813A (zh) * 2019-05-13 2019-08-02 山东大学 一种基于三维深度学习网络的肺结节良恶性预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DU TRAN等: "A Closer Look at Spatiotemporal Convolutions for Action Recognition", 《ARXIV》 *
熊文硕: "基于多分辨3D深度学习网络构建肺结节良恶性预测模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
王嘉琦: "基于时相超声造影图像的辅助诊断算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931587A (zh) * 2020-07-15 2020-11-13 重庆邮电大学 基于可解释时空自编码器的视频异常检测方法
CN112633264A (zh) * 2021-03-11 2021-04-09 深圳市安软科技股份有限公司 一种车辆属性识别方法、装置、电子设备及存储介质
CN112633264B (zh) * 2021-03-11 2021-06-15 深圳市安软科技股份有限公司 一种车辆属性识别方法、装置、电子设备及存储介质
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN111008570B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
Chen et al. Remote sensing image quality evaluation based on deep support value learning networks
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN113806564B (zh) 多模态信息性推文检测方法及系统
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
CN115797884B (zh) 一种基于类人视觉注意力加权的车辆重识别方法
CN117058079A (zh) 基于改进ResNet模型的甲状腺显像图像自动诊断方法
CN114821174B (zh) 一种基于内容感知的输电线路航拍图像数据清洗方法
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置
CN113743188B (zh) 一种基于特征融合的互联网视频低俗行为检测方法
CN115966006A (zh) 基于深度学习模型的跨年龄式人脸识别系统
CN112560712B (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质
CN117036843A (zh) 目标检测模型训练方法、目标检测方法和装置
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN114283301A (zh) 一种基于Transformer的自适应医学影像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant