CN110348381A - 一种基于深度学习的视频行为识别方法 - Google Patents

一种基于深度学习的视频行为识别方法 Download PDF

Info

Publication number
CN110348381A
CN110348381A CN201910624511.3A CN201910624511A CN110348381A CN 110348381 A CN110348381 A CN 110348381A CN 201910624511 A CN201910624511 A CN 201910624511A CN 110348381 A CN110348381 A CN 110348381A
Authority
CN
China
Prior art keywords
frame image
image data
frame
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910624511.3A
Other languages
English (en)
Inventor
屈鸿
侯帅
杨昀欣
贺强
李彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910624511.3A priority Critical patent/CN110348381A/zh
Publication of CN110348381A publication Critical patent/CN110348381A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的视频行为识别方法,包括以下步骤:S1.将人体行为视频数据随机均匀切帧处理,得到预设数量相等的帧图像数据;S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集;S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理,得到帧图像处理数据;S4.将帧图像处理数据输入特征提取网络ResNet‑50中提取出图片的特征;S5.将训练集对应的图片的特征输入循环神经网络进行训练,直到预测结果的正确率大于预设值时,得到预测循环神经网络模型;S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。本发明在时间和空间两个维度上应用注意力机制来简化运算、提高模型的识别率。

Description

一种基于深度学习的视频行为识别方法
技术领域
本发明涉及深度学习在计算机视觉、自然语言处理、自动驾驶技术领域,具体涉及一种基于深度学习的视频行为识别方法。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)也是一种前馈神经网络,不同于全连接网络的是它的神经元只会连接上一层部分范围,该范围称为局部感受野,这就大大减少了网络中的连接数量,由于CNN的这种结构,其在图像处理方面具有出色的表现。比如图片分类、目标识别以及实体分割等任务。
对于视频这种具有时序信息的数据,需要通过某种方法将卷积神经网络对每帧图片处理后得到的特征进行时序信息的建模,这就需要使用到循环神经网络。循环神经网络是一类具有短期记忆能力的神经网络,与前馈网络只接受不同层的神经元的输入相比,循环神经网络中神经元还可以接受自身的一些状态信息作为输入,形成了环路结构,这些状态就相当于网络的短期记忆。与前馈网络相比,循环神经网络进一步模拟了生物神经网络。因此,循环神经网络被广泛应用于时序数据的处理中,包括语音识别、自然语言处理以及本文将要研究的视频行为识别的问题中。
现有的视频中的人体行为识别这种比较复杂的实际问题,存在机制来运算复杂和模型的识别率不高的问题。
发明内容
针对现有技术中所存在的不足,本发明提供了一种基于深度学习的视频行为识别方法,解决了运算复杂和模型的识别率不高的问题。
为实现上述目的,本发明采用了如下的技术方案:一种基于深度学习的视频行为识别方法,包括以下步骤:
S1.将人体行为视频数据随机均匀切帧处理,得到预设数量相等的帧图像数据;
S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集;
S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理,得到帧图像处理数据;
S4.将帧图像处理数据输入特征提取网络ResNet-50中提取出图片的特征;
S5.将训练集对应的图片的特征输入循环神经网络进行训练,直到预测结果的正确率大于预设值时,得到预测循环神经网络模型;
S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。
进一步的,步骤S2之前需要每帧图像数据进黑边处理,具体步骤如下:
1).将帧图像数据通过borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线;
borderFinder函数的执行逻辑为:
a).分别对图片的像素点进行从上到下和从下到上的遍历,计算每个像素点三个通道的像素值的和,记为S,如果S<25,记录该像素点的坐标值,当遍历到的一行中的S都没有满足上述条件就终止遍历,记录得到图像的上下边界分别为up_idx,bottom_idx;同理计算出图像左右两边的边界left_idx,right_idx;
b).使用步骤a)得到的四个边界值对输入图像进行裁剪得到去除黑边后的输出图像;
2).去除帧图像数据的三通道像素值的和小于阈值的像素点,得到裁剪掉多余的黑边的帧剪裁图像数据。
进一步的,每通道像素均值消减法为:
1).计算训练集中的帧剪裁图像数据中每个通道像素值的平均值;
数字图像的每一个像素值都是由红(R)、绿(G)、蓝(B)三通道组成,记图像的大小为w×h,其中w和h分别为图像的宽和高,那么这幅图像总共有w×h个像素,则计算每个通道像素平均值的公式如下:
其中μR,μG,μB分别为每个通道的像素平均值,Ri,Gi,Bi分别为每个像素的红、绿、蓝像素值,这些像素值都是一个0到255的整数;
2).再将训练集中每张帧剪裁图像数据的每个通道的像素值减去对应通道的平均像素值,后除以对应通道像素值的方差,得到每个像素处理后对应的值。具体计算公式如下:
其中为每个像素处理后对应的值,为每个通道像素值的方差,方差的计算公式为:
进一步的,步骤S4中,通过特征提取网络ResNet-50后生成一个长度为2048的特征向量;对于从视频中提取的第t帧图像经过上述处理后,将其输入到特征提取网络,得到一个维度为D×K×K的三维张量Xt,ResNet-50特征提取网络的输出张量维度为2048×7×7;对于这个三维张量Xt,我们在其D个二维特征矩阵上使用一个维度为K×K的注意力矩阵pt,最后生成一个维度为D的特征向量;具体计算公式如下:
其中xt,i是第t帧特征向量的第i个值,Xt,i,j是特征提取网络得到的第i个特征矩阵的第j个值,pi,j是第i个特征矩阵的第j个注意力值。
进一步的,循环神经网络包括一个双向的LSTM网络,LSTM网络接收所述的特征向量,将每个时刻的特征向量输入网络后会输出该时刻的行为类别yi以及上述的空间注意力矩阵pi,然后通过一个在时间维度的注意力机制在综合每个时刻的输出的行为类别,得到预测结果;所述注意力机制为模型每个时刻的输出赋予一个权重,通将所有时刻输出进行加权求和得到模型的预测结果;具体的计算公式如下:
s(yi,q)=VTtanh(Wyi+Uq)
其中W,U,V,q是可学习参数,exp是自然常数e为底的指数函数,αi是通过计算得到的时间注意力向量的第i个值。最后的是模型最后的输出。
相比于现有技术,本发明具有如下有益效果:
1.本发明在时间和空间两个维度上应用注意力机制来简化运算、提高模型的识别率。
2.本发明这种端到端的视频中人体行为识别模型,只需要将输入数据进行简单的归一化处理即可送入网络中进行预测识别,没有复杂的多步骤处理流程,简化了在工程上应用的流程、降低了应用的难度。
附图说明
图1为本发明的帧处理示意图;
图2为黑边裁剪算法示意图;
图3为本发明的提取网络ResNet-50和循环神经网络模型示意图;
图4为本发明基于公开数据集的预测结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1-4,所示,一种基于深度学习的视频行为识别方法,包括以下步骤:
S1.将人体行为视频数据随机均匀切帧处理,得到预设数量相等的帧图像数据;
S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集;
S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理,得到帧图像处理数据;
S4.将帧图像处理数据输入特征提取网络ResNet-50中提取出图片的特征;
S5.将训练集对应的图片的特征输入循环神经网络进行训练,直到预测结果的正确率大于预设值时,得到预测循环神经网络模型;
S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。
进一步的,步骤S2之前需要每帧图像数据进黑边处理,具体步骤如下:
1).将帧图像数据通过borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线;
borderFinder函数的执行逻辑为:
a).分别对图片的像素点进行从上到下和从下到上的遍历,计算每个像素点三个通道的像素值的和,记为S,如果S<25,记录该像素点的坐标值,当遍历到的一行中的S都没有满足上述条件就终止遍历,记录得到图像的上下边界分别为up_idx,bottom_idx;同理计算出图像左右两边的边界left_idx,right_idx;
b).使用步骤a)得到的四个边界值对输入图像进行裁剪得到去除黑边后的输出图像;
2).去除帧图像数据的三通道像素值的和小于阈值的像素点,得到裁剪掉多余的黑边的帧剪裁图像数据。
进一步的,每通道像素均值消减法为:
1).计算训练集中的帧剪裁图像数据中每个通道像素值的平均值;
数字图像的每一个像素值都是由红(R)、绿(G)、蓝(B)三通道组成,记图像的大小为w×h,其中w和h分别为图像的宽和高,那么这幅图像总共有w×h个像素,则计算每个通道像素平均值的公式如下:
其中μR,μG,μB分别为每个通道的像素平均值,Ri,Gi,Bi分别为每个像素的红、绿、蓝像素值,这些像素值都是一个0到255的整数;
2).再将训练集中每张帧剪裁图像数据的每个通道的像素值减去对应通道的平均像素值,后除以对应通道像素值的方差,得到每个像素处理后对应的值。具体计算公式如下:
其中为每个像素处理后对应的值,为每个通道像素值的方差,方差的计算公式为:
进一步的,步骤S4中,通过特征提取网络(ResNet-50)后生成一个长度为2048的特征向量;对于从视频中提取的第t帧图像经过上述处理后,将其输入到特征提取网络,得到一个维度为D×K×K的三维张量Xt,ResNet-50特征提取网络的输出张量维度为2048×7×7。对于这个三维张量Xt,我们在其D个二维特征矩阵上使用一个维度为K×K的注意力矩阵pt,最后生成一个维度为D的特征向量。具体计算公式如下:
其中xt,i是第t帧特征向量的第i个值,Xt,i,j是特征提取网络得到的第i个特征矩阵的第j个值,pi,j是第i个特征矩阵的第j个注意力值。
进一步的,循环神经网络包括一个双向的LSTM网络,LSTM网络接收所述的特征向量,将每个时刻的特征向量输入网络后会输出该时刻的行为类别yi以及上述的空间注意力矩阵pi,然后通过一个在时间维度的注意力机制在综合每个时刻的输出的行为类别,得到预测结果;所述注意力机制为模型每个时刻的输出赋予一个权重,通将所有时刻输出进行加权求和得到模型的预测结果;具体的计算公式如下:
s(yi,q)=Vrtanh(Wyi+Uq)
其中W,U,V,q是可学习参数,exp是自然常数e为底的指数函数,αi是通过计算得到的时间注意力向量的第i个值。最后的是模型最后的输出。
实施列2
在实施列1的基础上,采用公开数据集进行训练,人体行为视频数据包括UCF101和HMDB51两个公开数据集。其中UCF101动作识别数据库是从YouTube视频网站收集的人类日常活动的视频,共有13320个视频,分为101个人体行为类别。HMDB51数据库是由布朗大学(Brown university)收集整理于2011年发布的一个人体行为视频库。该数据库包含6849段视频剪辑,51个人类行为类别,每类动作至少包含101段视频剪辑。
将样本数据进行预处理。
数据预处理阶段对原始视频数据进行切帧、黑边裁剪、帧特征提取操作。由于一段视频由一定数量的帧组成,本发明的模型只能接受固定数量的帧图片作为输入。通过实验尝试比较了不同的切帧方案,我们选定了如图1所示的随机均匀切帧的方案,该方案通过随机选取视频前30帧中的一帧作为起始帧,而后每隔5帧截取一帧,直至达到模型输入要求的数量。不同设备拍摄的视频存在差异,比如有些视频中上下或者左右有黑边,这些黑边对于模型的推理具有一定的影响。我们遍历截取出来的视频帧,对每一帧图片找到它的上下左右的边距,最后裁剪掉多余的黑边,具体见图2。其中borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线,通过图片三通道像素值的和与阈值进行比较来决定该点是否在裁剪的黑边中。然后将数据集按照“留出法”划分成训练集和测试集,比例常数具体是采用数据集的90%作为训练集,10%作为测试集。采用每通道像素均值消减法分别对训练集和测试集进行归一化处理,转化为[0,1]之间的值,该方法先计算出一个集合中所有图片每个通道像素值的平均值,再将该集合中每张图片的每个通道的像素值减去对应通道的平均像素值,最后除以对应通道像素值的方差。最后将每一帧经过处理后的数据输入到特征提取网络ResNet-50中提取出图片的特征。
在所述训练集的操作过程中,通过建立的模型,模型如图3所示。图3(a)部分展示的是步骤2中提取图片特征的过程,每帧图片通过特征提取网络(ResNet-50)后生成一个长度为2048的特征向量。图3(b)部分展示了本发明的识别模型,模型由一个双向的LSTM网络组成,该网络接收上述特征提取网络得到的特征向量,将每个时刻的特征向量输入网络后会输出该时刻的行为类别,然后通过一个在时间维度的注意力机制在综合每个时刻的输出类别,该机制为模型每个时刻的输出赋予一个权重,通将所有时刻输出进行加权求和得到模型的预测结果。最后计算训练集中识别正确的视频数量和训练集所有视频数量的比值作为行为的正确率,在该正确率达到95%以上后结束训练过程,在完成训练后再测试集上对样本进行预测。
使用测试集中的视频对模型的性能进行评估,得到的结果如图4所示。提高模型的识别率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于深度学习的视频行为识别方法,其特征在于,包括以下步骤:
S1.将人体行为视频数据随机均匀切帧处理,得到预设数量相等的帧图像数据;
S2.将每帧图像数据组成的数据集按照比例常数划分成训练集和测试集;
S3.采用进行每通道像素均值消减法分别对训练集和测试集中的帧图像数据进行归一化处理,得到帧图像处理数据;
S4.将帧图像处理数据输入特征提取网络ResNet-50中提取出图片的特征;
S5.将训练集对应的图片的特征输入循环神经网络进行训练,直到预测结果的正确率大于预设值时,得到预测循环神经网络模型;
S6.将测试集运用预测循环神经网络模型进行识别得到识别结果。
2.如权利要求1所述的一种基于深度学习的视频行为识别方法,其特征在于,步骤S2之前需要每帧图像数据进黑边处理,具体步骤如下:
1).将帧图像数据通过borderFinder函数在O(logn)时间复杂度内找到图片边缘所在的线;
2).去除帧图像数据的三通道像素值的和小于阈值的像素点,得到裁剪掉多余的黑边的帧剪裁图像数据。
3.如权利要求2所述的一种基于深度学习的视频行为识别方法,其特征在于,每通道像素均值消减法为:
1).计算训练集中的帧剪裁图像数据中每个通道像素值的平均值;
2).再将训练集中每张帧剪裁图像数据的每个通道的像素值减去对应通道的平均像素值,后除以对应通道像素值的方差得到每个像素处理后对应的值。
4.如权利要求1所述的一种基于深度学习的视频行为识别方法,其特征在于,步骤S4中,通过特征提取网络ResNet-50后生成一个长度为2048的特征向量。
5.如权利要求4所述的一种基于深度学习的视频行为识别方法,其特征在于,循环神经网络包括一个双向的LSTM网络,LSTM网络接收所述的特征向量,将每个时刻的特征向量输入网络后会输出该时刻的行为类别yi以及上述的空间注意力矩阵pi,然后通过一个在时间维度的注意力机制在综合每个时刻的输出的行为类别,得到预测结果;所述注意力机制为模型每个时刻的输出赋予一个权重,通将所有时刻输出进行加权求和得到模型的预测结果。
CN201910624511.3A 2019-07-11 2019-07-11 一种基于深度学习的视频行为识别方法 Pending CN110348381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910624511.3A CN110348381A (zh) 2019-07-11 2019-07-11 一种基于深度学习的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910624511.3A CN110348381A (zh) 2019-07-11 2019-07-11 一种基于深度学习的视频行为识别方法

Publications (1)

Publication Number Publication Date
CN110348381A true CN110348381A (zh) 2019-10-18

Family

ID=68175723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910624511.3A Pending CN110348381A (zh) 2019-07-11 2019-07-11 一种基于深度学习的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN110348381A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN110910411A (zh) * 2019-11-14 2020-03-24 中国科学院力学研究所 一种具有尺寸自适应的页岩裂缝自动提取方法
CN110956085A (zh) * 2019-10-22 2020-04-03 中山大学 一种基于深度学习的人体行为识别方法
CN111046740A (zh) * 2019-11-17 2020-04-21 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111444861A (zh) * 2020-03-30 2020-07-24 西安交通大学 一种基于监控视频的车辆偷盗行为识别方法
CN111860278A (zh) * 2020-07-14 2020-10-30 陕西理工大学 一种基于深度学习的人体行为识别算法
CN112383824A (zh) * 2020-10-10 2021-02-19 网宿科技股份有限公司 视频广告过滤方法、设备及存储介质
CN113269276A (zh) * 2021-06-28 2021-08-17 深圳市英威诺科技有限公司 图像识别方法、装置、设备及存储介质
CN113627368A (zh) * 2021-08-16 2021-11-09 苏州大学 基于深度学习的视频行为识别方法
CN113657152A (zh) * 2021-07-07 2021-11-16 国网江苏省电力有限公司电力科学研究院 一种课堂学生行为识别系统构建方法
CN114973362A (zh) * 2022-05-20 2022-08-30 厦门大学 一种应用于社交机器人的动态延长编码微表情识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060257048A1 (en) * 2005-05-12 2006-11-16 Xiaofan Lin System and method for producing a page using frames of a video stream
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108021926A (zh) * 2017-09-28 2018-05-11 东南大学 一种基于全景环视系统的车辆刮痕检测方法及系统
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
WO2019085757A1 (zh) * 2017-11-01 2019-05-09 腾讯科技(深圳)有限公司 图像分类方法、服务器以及计算机可读存储介质
CN109993122A (zh) * 2019-04-02 2019-07-09 中国石油大学(华东) 一种基于深度卷积神经网络的行人乘扶梯异常行为检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060257048A1 (en) * 2005-05-12 2006-11-16 Xiaofan Lin System and method for producing a page using frames of a video stream
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108021926A (zh) * 2017-09-28 2018-05-11 东南大学 一种基于全景环视系统的车辆刮痕检测方法及系统
WO2019085757A1 (zh) * 2017-11-01 2019-05-09 腾讯科技(深圳)有限公司 图像分类方法、服务器以及计算机可读存储介质
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109993122A (zh) * 2019-04-02 2019-07-09 中国石油大学(华东) 一种基于深度卷积神经网络的行人乘扶梯异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨林川: "《基于深度神经网络的司机行为识别技术研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956085A (zh) * 2019-10-22 2020-04-03 中山大学 一种基于深度学习的人体行为识别方法
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN110910411A (zh) * 2019-11-14 2020-03-24 中国科学院力学研究所 一种具有尺寸自适应的页岩裂缝自动提取方法
CN111046740B (zh) * 2019-11-17 2023-05-19 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111046740A (zh) * 2019-11-17 2020-04-21 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111444861A (zh) * 2020-03-30 2020-07-24 西安交通大学 一种基于监控视频的车辆偷盗行为识别方法
CN111860278A (zh) * 2020-07-14 2020-10-30 陕西理工大学 一种基于深度学习的人体行为识别算法
CN111860278B (zh) * 2020-07-14 2024-05-14 陕西理工大学 一种基于深度学习的人体行为识别算法
CN112383824A (zh) * 2020-10-10 2021-02-19 网宿科技股份有限公司 视频广告过滤方法、设备及存储介质
CN113269276A (zh) * 2021-06-28 2021-08-17 深圳市英威诺科技有限公司 图像识别方法、装置、设备及存储介质
CN113657152A (zh) * 2021-07-07 2021-11-16 国网江苏省电力有限公司电力科学研究院 一种课堂学生行为识别系统构建方法
CN113627368A (zh) * 2021-08-16 2021-11-09 苏州大学 基于深度学习的视频行为识别方法
CN114973362A (zh) * 2022-05-20 2022-08-30 厦门大学 一种应用于社交机器人的动态延长编码微表情识别方法

Similar Documents

Publication Publication Date Title
CN110348381A (zh) 一种基于深度学习的视频行为识别方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN111797683A (zh) 一种基于深度残差注意力网络的视频表情识别方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110110707A (zh) 人工智能cnn、lstm神经网络动态识别系统
CN110956111A (zh) 人工智能cnn、lstm神经网络步态识别系统
CN109784153A (zh) 情绪识别方法、装置、计算机设备及存储介质
CN112633061B (zh) 一种轻量级的fire-det火焰检测方法及系统
CN108416266A (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN110210482B (zh) 改进类别不平衡的目标检测方法
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN110046574A (zh) 基于深度学习的安全帽佩戴识别方法及设备
CN112381764A (zh) 一种农作物病虫害检测方法
CN113065431B (zh) 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法
CN113537277A (zh) 确定分类的解释
CN110147833A (zh) 人像处理方法、装置、系统和可读存储介质
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN116342931A (zh) 一种多尺度注意力的毛皮图像分类方法、系统和存储介质
Zhang et al. Research and application of facial expression recognition based on attention mechanism
Lee et al. Face and facial expressions recognition system for blind people using ResNet50 architecture and CNN
CN112862023B (zh) 对象密度确定方法、装置、计算机设备和存储介质
CN116168443B (zh) 一种基于信息差知识蒸馏的遮挡面部情绪识别方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018