CN110263638B - 一种基于显著信息的视频分类方法 - Google Patents

一种基于显著信息的视频分类方法 Download PDF

Info

Publication number
CN110263638B
CN110263638B CN201910407378.6A CN201910407378A CN110263638B CN 110263638 B CN110263638 B CN 110263638B CN 201910407378 A CN201910407378 A CN 201910407378A CN 110263638 B CN110263638 B CN 110263638B
Authority
CN
China
Prior art keywords
video
pooling
network
output
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910407378.6A
Other languages
English (en)
Other versions
CN110263638A (zh
Inventor
刘琚
刘晓玺
顾凌晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910407378.6A priority Critical patent/CN110263638B/zh
Publication of CN110263638A publication Critical patent/CN110263638A/zh
Application granted granted Critical
Publication of CN110263638B publication Critical patent/CN110263638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

为了解决3D视频分类网络的特征包含较多冗余信息的问题,本发明提出了一种基于显著信息的视频分类方法。主要思想在于组合不同大小卷积核,搭建多个显著信息提取模块,获得多尺度、具有代表性的显著信息;此外,为了解决网络中传统池化单元对视频信息造成的大量损失,设计了一种卷积池化相结合的双路池化单元对显著信息提取模块的输出进行针对性池化操作;最终,为了加快网络的收敛速度,优化网络收敛路径,实现端到端的训练,本发明设计了一种全新的损失函数,最终实现更精准的视频分类。该方法可以产生具有精确表征能力的视频特征,其在动作识别和场景识别场景中进行了实验,均达到优异的效果,充分证明方法具有较强的泛化能力。

Description

一种基于显著信息的视频分类方法
技术领域
本发明涉及一种视频分类技术,属于视频、多媒体信号处理技术领域。
技术背景
随着互联网技术和多媒体技术的发展,视频在人们生活中的应用场景越来越广泛,对视频的理解与分析成为一个亟待解决的重要问题。近年来在学术界,视频领域的任务也越来越丰富,如分类、识别、检测、检索等,其中视频分类作为视频任务中的重要组成部分,可以实现对视频内容的甄别,为后续的检测与检索奠定了一定的基础,因此,视频分类具有重要的社会意义和研究价值。
在生活中,视频分类可以实现多种功能,如为海量视频自动标注标签、监管肆意传播的不良视频、区分视频中的人物动作以及事件发生的场景等,极大地节省人力资源,且避免了人为造成的错误和疏忽。
短短十年间,由于基于深度神经网络的深度学习技术取得突破性进展,深度学习成为视频语义分析的主要手段。目前基于深度学习的视频分类网络大多采用两种思路:一是将视频中的空间信息和时间信息分开处理,提出了双流视频分类的网络,这种思路主要结合了帧特征和光流特征,随后又加入了LSTM(长短时记忆网络)提取帧间信息,该思路将视频看做帧的堆叠,采用分开处理帧信息与时间信息的模式;二是将视频的空间信息和时间信息融合处理,将原本应用在图像领域的2D卷积延伸至3D卷积,融合学习视频的空时特征,该思路中出现的网络被统称为3D视频分类网络,其中的经典网络有C3D、P3D等。然而在实验结果(准确率)中,目前3D视频分类网络的效果普遍不如双流法网络好,因此如何提升3D视频分类网络的能力是主要问题。
发明内容
为了利用显著信息提高视频分类的准确度,本发明在3D视频分类网络的经典网络P3D基础上,提出了一种基于显著信息的视频分类方法。具体技术方案如下:
一种基于显著信息的视频分类方法,该方法基于伪3D残差网络P3D,其特征在于该方法包括以下步骤:
步骤1:随机提取视频中的若干连续帧,送入伪3D残差网络P3D;
步骤2:所述连续帧依次经过P3D的前三个残差块,得到输出视频特征;
步骤3:所述前三个残差块的输出分别送入不同的三个显著信息提取模块;
步骤4:搭建卷积池化相结合的双路池化模块,对每个显著信息提取模块的输出进行针对性池化;
步骤5:对三个显著信息提取模块的输出进行多尺度融合,得到唯一的显著特征图;
步骤6:将所述唯一的显著特征图与P3D第四个残差块的输出按位相乘得到视频特征;
步骤7:将步骤6输出的视频特征送入全连接层;
步骤8:得到视频分类的预测结果,利用损失函数计算预测结果与标签的误差;
步骤9:基于损失函数进行网络优化,通过梯度下降与反向传播不断迭代以更新网络参数,使网络达到最优性能;
步骤8中的所述损失函数为:
Figure GDA0004056291650000031
其中,J1是多分类交叉熵损失函数,J2是显著性部分损失函数,J3是池化部分损失函数,J4是权重衰减部分,
Figure GDA0004056291650000032
代表M组样本数据,其中Xi为视频样本,li为视频样本标签,yi代表网络输出的预测值,t为所属类别,其取值范围为t∈[0,C-1],C为视频类别个数,Θ代表模型参数,Sfinal(·)为显著特征图经多尺度融合后的唯一显著特征图,双路池化模块第二支路的输出上采样后得到Pup(Xi;Θ),S(Xi;Θ)为显著特征提取模块的输出,p(t|Xi;Θ)为softmax函数,λ,μ,γ均为权衡因子。
特别地,步骤3中的显著信息提取模块为:搭建多个空时卷积层并结合批归一化和sigmoid函数,二值化所得特征,最终得到每个残差块的显著图。
特别地,步骤4中的双路池化模块为:利用卷积池化相结合的双路形式,第一支路为平均池化,另一支路为二维卷积与sigmoid函数结合以二值化纹理信息,最终将两支路的结果按位相乘以增强纹理信息,弱化低频信息,完成池化操作。
从上述技术方案可以看出,为了解决3D视频分类网络提取的特征中包含较多冗余信息的问题,本发明利用不同大小卷积核的卷积层进行多种组合,搭建多个显著信息提取模块,以P3D残差网络中前三个残差块的输出作为基础,提取多尺度、具有代表性的显著信息并与最后一个残差块的输出进行按位相乘,从而突出视频中的显著信息;为了解决网络中池化单元在池化过程中对视频信息造成的大量损失,本发明设计了一种卷积池化相结合的双路池化单元对显著信息提取模块的输出进行针对性池化:特征在池化过程中,分别通过池化纹理增强支路和平均池化支路,最终将二支路的输出进行按位相乘,增强传统池化支路输出特征的纹理信息,同时减弱视频特征中的低频信息,以优化池化单元,减少特征损失;为了加快网络的收敛速度,优化网络的收敛路径,本发明设计了一种新的损失函数,在多分类交叉熵函数的基础上,对显著信息提取模块采用l1范数进行约束,对双路池化模块采用l2范数进行约束,并引入权重衰减项,最终为l1、l2范数和权重衰减增加权衡因子,以更快收敛网络。
综上所述,该方法有效地解决了3D视频分类网络特征冗余较大的问题,增强了视频显著信息在特征中的比重,提高了视频分类的最终准确率。
附图说明
图1是本发明方法流程图;
图2是本发明的网络结构图;
图3是本发明双路池化模块结构图。
具体实施方式
本发明提出一种基于显著信息的视频分类方法。针对P3D视频分类网络的每个残差块设计显著信息提取模块,以获取每个残差块输出特征的显著视频特征,再设计增强信息的双路池化模块突出池化过程中的显著信息并采用多尺度的方式融合不同残差块的显著特征,从而得到视频的唯一显著特征图,再与最后一个P3D残差块的输出按位相乘进行分类,最后利用设计的损失函数优化网络收敛路径,进而达到减少P3D网络获得的特征中的冗余信息以及池化过程中特征的损失,以提高视频分类的准确率。
图1中明确表示了本发明所述方法的流程图,具体实施步骤如下:
(1)在视频中随机提取连续的16帧,将其分辨率统一为320*240,再随机裁剪至160*160,送入网络;
(2)送入网络的16帧依次经过P3D的4个残差块;
(3)搭建显著信息提取模块,将P3D前三个残差块的输出分别送入显著信息提取模块中,得到每个残差块的显著信息图,其具体过程如下:
如图2所示,由于res1输出底层特征的信息更为丰富,其时域信息更明显,故对res1采用空时显著性特征模块;而经过多个卷积池化后得到res2和res3的语义特征信息更为丰富,因而时域信息在其中的作用逐渐减弱,故提取空域的显著特征即可,同时该操作可减小模块的参数量。
A.空时显著性特征模块
对图2中的P3D res1的输出搭建空时显著信息提取模块,依次经过卷积核为3*3*1,1*3*3,relu,3*3*1,1*3*3,relu,1*1*1的卷积层,再经过批归一化处理层(BatchNormalization),最终通过sigmoid函数二值化卷积后的显著特征,得到res1的显著特征图。
B.空域显著性特征模块
对图2的P3D res2和res3的输出搭建空域显著性特征模块,依次经过卷积核为3*3*1,relu,3*3*1,relu,1*1*1的卷积层,再经过批归一化处理层(Batch Normalization),最终通过sigmoid函数二值化卷积后的显著特征,得到res2和res3的显著特征图。
(4)为了更大范围的保留特征信息,将图2中res1、res2获得的显著特征图进行双路池化,使用卷积池化相结合的双路形式,第一条支路采用平均池化的方式,在第二条支路上搭建了多个卷积层,以提取显著特征图的纹理信息,最终将两条支路的输出按位相乘,公式如下所示:
Figure GDA0004056291650000061
其中,
Figure GDA0004056291650000062
代表双路池化最终的输出特征图,Pavp代表第一条支路经过平均池化后得到的特征图,Ps代表经过第二条支路得到的显著信息特征图。
本发明设计的双路池化模块可以增强池化过程中的纹理信息,弱化低频特征,从而达到增强显著特征的目的。而由于res3的特征图尺寸仅为10*10,故采用普通的平均池化即可。
A.针对res1的显著性池化模块设计:
将res1输出的40*40显著特征图作为输入,第一条支路采用平均池化,第二条支路搭建1*9*9,1*7*7,1*3*3,1*1*1,1*5*5,1*1*1的卷积层,并在每个卷积层后跟随relu激活函数,最终采用sigmoid将卷积边缘特征二值化,增强显著特征。
B.针对res2的显著性池化模块设计:
将res2输出的20*20显著特征图作为输入,第一条支路采用平均池化,第二条支路搭建1*9*9,1*1*1,1*3*3的卷积层,并在每个卷积层后跟随relu激活函数,最终采用sigmoid将卷积边缘特征二值化,增强显著特征。
(5)对res1、res2、res3显著性特征图的池化结果进行多尺度融合。为了融合底层特征和高层特征,更好发挥卷积特征对视频内容的表达能力,采用多尺度融合的方式拼接res1、res2经过显著模块和池化模块的特征图与res3经过显著模块的显著特征图,并采用平均池化将拼接的特征图融合至唯一,最终得到的唯一显著特征图可以更好地联系视频内容特征和语义特征。
(6)使用(5)的输出,与res4残差块的输出按位相乘,以增强res4语义特征中显著信息,具体公式如公式2所示:
Figure GDA0004056291650000071
其中,
Figure GDA0004056291650000081
代表视频分类网络最终的输出特征图,Fres4代表P3D res4残差块最终输出的特征,Sfinal代表经过显著模块和池化模块后得到的最终的唯一显著特征图。
(7)将(6)中输出送入全连接层,得到视频分类的预测结果,利用全新的损失函数计算预测结果与标签的误差。采用的全新损失函数可以分为四部分,分别为多分类交叉熵损失函数、显著性部分损失函数、池化部分损失函数以及权重衰减部分,具体如下:
A.多分类交叉熵损失函数:
为了使输出数据与输入数据分布大致相同,目前在多分类任务的网络中大多采用交叉熵(cross-entropy)函数,它可以有效地优化梯度下降过程的路径,从而加快模型的收敛速度,本发明采用此函数作为损失函数的第一部分,多分类问题最终采用softmax函数,如对第t类的softmax公式3所示,
Figure GDA0004056291650000082
其中,
Figure GDA0004056291650000083
为第r类样本经过全连接层输出的特征。
因此,第一部分的公式如下所示:
Figure GDA0004056291650000084
其中,
Figure GDA0004056291650000085
代表M组视频数据,C为视频类别,Θ代表模型参数。
B.显著性部分损失函数:
为了有目的性地约束显著特征图,使其能更好地辅助P3D进行视频分类,我们设计了新的损失函数J2以优化显著图的优化路径,由于多尺度显著图参数量较大,采用l2范数会使得训练周期变长,故使用l1范数进行显著约束,具体如公式5所示:
Figure GDA0004056291650000091
其中,Sfinal(·)为显著特征图经多尺度融合后的唯一显著特征图。
C.池化部分损失函数:
为了优化池化部分卷积层,使其得到最佳权重,我们设计了针对池化部分的损失函数,以池化模块第二支路的输出(未通过sigmoid函数)经上采样后的特征图作为输出Pup(Xi;Θ),使用MSE损失函数衡量池化模块的输入S(Xi;Θ)和输出Pup(Xi;Θ):
Figure GDA0004056291650000092
D.权重衰减部分:
为了增强模型的泛化能力和拟合能力,避免过拟合现象,我们对网络参数进行正则化,它通过约束参数的范数来得到更小的权重,从一定意义上意味着网络的复杂度更低,对数据的拟合更好。其具体如公式7所示:
Figure GDA0004056291650000093
最终,采用权衡因子结合四部分的损失函数,最终损失函数为:
Figure GDA0004056291650000094
其中,λ,μ,γ均为权衡因子。
(8)通过全新的损失函数优化神经网络反向传播梯度下降的路径,从而更快、更有针对性地达到收敛。
本申请在动作分类和场景识别两个视频任务中进行试验,在动作分类方面,选用了公开数据集UCF101进行测试并与经典的九种视频分类方法进行比较;在场景识别方面,选用了公开数据集Dynamic Scene进行测试,并与经典的三种场景识别方法进行比较;方法的评价的标准是准确率(Accuracy),值越大表明网络的分类性能越好。动作分类的结果如表1所示,可以看出本申请相比另九种视频分类方法更好,能有效提升动作分类的准确率;场景识别的结果如表2所示,可以明显看出,其效果优于其他几种经典方法。
表1
视频分类网络方法 准确率
Two-Stream 88.0%
IDT 86.4%
Dynamic Image Networks+IDT 89.1%
TDD+IDT 91.5%
Two-Stream Fusion+IDT 93.5%
TSN 94.2%
C3D+IDT 90.1%
Two-Stream IDT 98.0%
P3D 88.6%
P3D+IDT 93.7%
本发明 98.8%
表2
视频分类网络方法 准确率
C3D 87.7%
Resnet-152 93.6%
P3D 94.6%
本发明 97.4%

Claims (3)

1.一种基于显著信息的视频分类方法,该方法基于伪3D残差网络P3D,其特征在于该方法包括以下步骤:
步骤1:随机提取视频中的若干连续帧,送入伪3D残差网络P3D;
步骤2:所述连续帧依次经过P3D的前三个残差块,得到输出视频特征;
步骤3:所述前三个残差块的输出分别送入不同的三个显著信息提取模块;
步骤4:搭建卷积池化相结合的双路池化模块,对每个显著信息提取模块的输出进行针对性池化;
步骤5:对三个显著信息提取模块的输出进行多尺度融合,得到唯一的显著特征图;
步骤6:将所述唯一的显著特征图与P3D第四个残差块的输出按位相乘得到视频特征;
步骤7:将步骤6输出的视频特征送入全连接层;
步骤8:得到视频分类的预测结果,利用损失函数计算预测结果与标签的误差;
步骤9:基于损失函数进行网络优化,通过梯度下降与反向传播不断迭代以更新网络参数,使网络达到最优性能;
步骤8中的所述损失函数为:
Figure FDA0004036981030000011
其中,J1是多分类交叉熵损失函数,J2是显著性部分损失函数,J3是池化部分损失函数,J4是权重衰减部分,
Figure FDA0004036981030000021
代表M组样本数据,其中Xi为视频样本,li为视频样本标签,yi代表网络输出的预测值,t为所属类别,其取值范围为t∈[0,C-1],C为视频类别个数,Θ代表模型参数,Sfinal(·)为显著特征图经多尺度融合后的唯一显著特征图,双路池化模块第二支路的输出上采样后得到pup(Xi;Θ),S(Xi;Θ)为显著特征提取模块的输出,p(t|Xi;Θ)为softmax函数,λ,μ,γ均为权衡因子。
2.如权利要求1所述的基于显著信息的视频分类方法,其特征在于,步骤3中的显著信息提取模块为:搭建多个空时卷积层并结合批归一化和sigmoid函数,二值化所得特征,最终得到每个残差块的显著图。
3.如权利要求1所述的基于显著信息的视频分类方法,其特征在于,步骤4中的双路池化模块为:利用卷积池化相结合的双路形式,第一支路为平均池化,另一支路为二维卷积与sigmoid函数结合以二值化纹理信息,最终将两支路的结果按位相乘以增强纹理信息,弱化低频信息,完成池化操作。
CN201910407378.6A 2019-05-16 2019-05-16 一种基于显著信息的视频分类方法 Active CN110263638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910407378.6A CN110263638B (zh) 2019-05-16 2019-05-16 一种基于显著信息的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910407378.6A CN110263638B (zh) 2019-05-16 2019-05-16 一种基于显著信息的视频分类方法

Publications (2)

Publication Number Publication Date
CN110263638A CN110263638A (zh) 2019-09-20
CN110263638B true CN110263638B (zh) 2023-04-18

Family

ID=67914739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910407378.6A Active CN110263638B (zh) 2019-05-16 2019-05-16 一种基于显著信息的视频分类方法

Country Status (1)

Country Link
CN (1) CN110263638B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046821B (zh) * 2019-12-19 2023-06-20 东北师范大学人文学院 一种视频行为识别方法、系统及电子设备
CN111428699B (zh) * 2020-06-10 2020-09-22 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
CN116540204B (zh) * 2023-07-05 2023-09-05 中南大学 一种行为识别方法、装置、终端设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
US10140544B1 (en) * 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007053577A (ja) * 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd 画像処理装置及び画像処理方法
JP5422129B2 (ja) * 2008-02-07 2014-02-19 株式会社キーエンス 欠陥検出装置、欠陥検出方法及びコンピュータプログラム
CN108615044A (zh) * 2016-12-12 2018-10-02 腾讯科技(深圳)有限公司 一种分类模型训练的方法、数据分类的方法及装置
US10832440B2 (en) * 2017-08-31 2020-11-10 Nec Corporation Temporal multi-scale clockwork memory networks for object detection in videos
CN108280481A (zh) * 2018-01-26 2018-07-13 深圳市唯特视科技有限公司 一种基于残差网络的联合目标分类和三维姿态估计方法
CN108520535B (zh) * 2018-03-26 2022-02-15 天津大学 基于深度恢复信息的物体分类方法
CN108805200B (zh) * 2018-06-08 2022-02-08 中国矿业大学 基于深度孪生残差网络的光学遥感场景分类方法及装置
CN109389593A (zh) * 2018-09-30 2019-02-26 内蒙古科技大学 一种红外图像小目标的检测方法、装置、介质及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
US10140544B1 (en) * 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白琮 ; 黄玲 ; 陈佳楠 ; 潘翔 ; 陈胜勇 ; .面向大规模图像分类的深度卷积神经网络优化.软件学报.2017,(04),全文. *

Also Published As

Publication number Publication date
CN110263638A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN108960119B (zh) 一种用于无人售货柜的多角度视频融合的商品识别算法
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN110263638B (zh) 一种基于显著信息的视频分类方法
JP2023003026A (ja) 深層学習に基づく農村地域分けゴミ識別方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
Singh et al. DeepFake video detection: a time-distributed approach
CN111079594B (zh) 一种基于双流协同网络的视频动作分类识别方法
CN110781928B (zh) 一种提取图像多分辨率特征的图像相似度学习方法
CN111222500A (zh) 一种标签提取方法及装置
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
CN113239869B (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及系统
CN110415260B (zh) 基于字典与bp神经网络的烟雾图像分割与识别方法
CN112381763A (zh) 一种表面缺陷检测方法
CN112150450A (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN112381179A (zh) 一种基于双层注意力机制的异质图分类方法
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN112288700A (zh) 一种铁轨缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant