CN106407889A - 基于光流图深度学习模型在视频中人体交互动作识别方法 - Google Patents

基于光流图深度学习模型在视频中人体交互动作识别方法 Download PDF

Info

Publication number
CN106407889A
CN106407889A CN201610737545.XA CN201610737545A CN106407889A CN 106407889 A CN106407889 A CN 106407889A CN 201610737545 A CN201610737545 A CN 201610737545A CN 106407889 A CN106407889 A CN 106407889A
Authority
CN
China
Prior art keywords
video
training
light stream
test
light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610737545.XA
Other languages
English (en)
Other versions
CN106407889B (zh
Inventor
蒋兴浩
孙锬锋
赵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610737545.XA priority Critical patent/CN106407889B/zh
Publication of CN106407889A publication Critical patent/CN106407889A/zh
Application granted granted Critical
Publication of CN106407889B publication Critical patent/CN106407889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for recognising patterns
    • G06K9/62Methods or arrangements for pattern recognition using electronic means
    • G06K9/6267Classification techniques

Abstract

本发明公开了一种基于光流图深度学习模型在视频中人体交互动作识别方法,其步骤主要包括:步骤一,对测试集视频和训练集视频进行解帧,利用相邻两帧计算光流序列图;步骤二,对光流序列图进行预处理,删去信息量较少的光流图;步骤三,利用步骤二中得到的训练集光流序列训练残差神经网络,用测试集和训练集光流图序列作为输入,得到其空域特征;步骤四,训练集特征训练长短时记忆模型,测试集特征输入得到每类概率输出;步骤五,采用投票模型统计得到分类结果。本发明填补了利用深度学习模型进行人体动作识别的相关的专利的空白,识别准确率高,且该方法适用于多种场景。

Description

基于光流图深度学习模型在视频中人体交互动作识别方法
技术领域
[0001] 本发明涉及一种视频中人体交互动作识别方法,特别是涉及一种基于光流图深度 学习模型在视频中人体交互动作识别方法。
背景技术
[0002] 随着技术的不断发展,视频内容的理解需求也不断提高。摄像头的广泛运用使得 视频信息越来越多。然而这些海量信息难以全部靠人工处理,所以需要相关方法来分析视 频中的内容。在智能监控领域中,对人体的交互动作识别尤为重要。突发性事件如打架斗 殴,异常行为的检测等等都依赖于人体交互动作的准确识别。所以,准确的人体交互动作识 别具有重要的社会意义。
[0003] 视频内容理解旨在让计算机像人类一样可以理解视频里面的内容。动作识别是视 频内容理解中的重要组成部分。相关研究包括:单人动作识别,人与物体的交互识别,人体 交互动作识别,群体行为理解。深度学习方法是近些年图像处理的比较有效的一类方法,许 多学者致力于将深度学习的方法拓展到视频领域,并在动作识别领域取得了较多有价值的 研究成果。由于动作识别的模式变化较多,又容易受到背景噪声的干扰,准确识别人体动作 的难度比较大,但是在近十年内也取得了进展。
[0004] 经过对现有人体动作/交互动作识别技术的检索发现,中国专利公开号为CN 102136066A的专利记载了"一种人体动作识别的方法",公开日为2011年7月27日。该技术采 用计算视频序列的差分边缘直方图作为特征,通过对目标区域的若干子区域分别求像素变 化直方图和边缘梯度直方图提高动作细节识别的准确率。该专利侧重于识别的实时性,对 识别的准确率要求不高。而且采用的是手工特征方法,适用场景受限。
[0005] 中国专利公开号为CN101964047B的专利记载了 "一种基于多跟踪点的人体动作识 别方法",公开日期为2012年10月10日。该技术在需要判断的动作上,要设置至少一个跟踪 点,根据跟踪点的相应动作数据来识别相应动作。该专利并非使用在视频领域,而且对数据 采集要求较高,需要硬件传感器的支持。
[0006] 本发明与上述技术方案的不同在于,本发明在视频领域可以对复杂的人体交互动 作进行准确识别,且采用深度学习模型可以方便适用于各种应用场景。上述技术方案仍然 采用了传统的手工特征方法,视频领域利用深度学习模型进行人体交互动作识别的相关专 利仍然是个空白。
发明内容
[0007] 本发明所要解决的技术问题是提供一种基于光流图深度学习模型在视频中人体 交互动作识别方法,其填补了利用深度学习模型进行人体动作识别的相关的专利的空白, 识别准确率高,且该方法适用于多种场景。
[0008] 本发明是通过下述技术方案来解决上述技术问题的:一种基于光流图深度学习模 型在视频中人体交互动作识别方法,其步骤主要包括:
[0009] 步骤一,对测试集视频和训练集视频进行解帧,利用相邻两帧计算光流序列图,得 到测试集视频和训练集视频的光流序列图;
[0010] 步骤二,对光流序列图进行预处理,删去信息量较少的光流图,保留信息量较多的 光流图,得到预处理后的测试集和训练集光流序列;
[0011] 步骤三,利用步骤二中得到的训练集光流序列训练残差神经网络,得到残差神经 网络模型;用测试集光流图序列和训练集光流图序列作为输入,得到测试集空域特征和训 练集空域特征;
[0012] 步骤四,利用步骤三得到的训练集空域特征,放到LSTM中进行训练,得到LSTM模 型,用测试集空域特征作为输入,对每个输入特征得到每类的分类概率;
[0013] 步骤五,根据步骤四对一段视频输出每类概率,统计其投票最多的类,作为其判别 类输出。
[0014] 优选地,所述步骤一包括如下步骤:
[0015] 步骤^^一,用ffmpeg工具将视频解成图片帧;
[0016] 步骤十二,用farneback算法计算两帧之间的位移来计算光流,组成光流图序列。
[0017] 优选地,所述步骤二包括如下步骤:
[0018] 步骤二^^一,对光流图按照光流运动量从高到底排列;
[0019] 步骤二十二,选取光流运动量最多的前45帧按照其在原来视频中的相对位置组成 新的光流序列。
[0020] 优选地,所述步骤三包括如下步骤:
[0021] 步骤三十一,用ResNet网络进行训练,训练数据是步骤二得到的预处理后的训练 集光流图序列;输出是ResNet模型;
[0022] 步骤三十二,用预处理后的训练集和测试集光流图序列作为输入,利用训练好的 ResNet模型,得到训练集和测试集的空域特征集。
[0023] 优选地,所述步骤四包括如下步骤:
[0024] 步骤四十一,用训练集空域特征作为输入,训练LSTM模型;
[0025] 步骤四十二,用测试集空域特征作为输入LSTM模型,每帧的空域特征输入,对应对 各类别的概率预测输出。
[0026] 优选地,所述步骤五包括如下步骤:
[0027] 步骤五十一,每类投票数初始为0,根据每帧概率输出结果预测概率最大的类别投 票数加一;
[0028] 步骤五十二,统计一段视频所有帧的投票结果;
[0029] 步骤五十三,得票数最多的那类作为分类结果输出。
[0030] 本发明的积极进步效果在于:本发明填补了利用深度学习模型进行人体动作识别 的相关的专利的空白,识别准确率高,且该方法适用于多种场景。
附图说明
[0031] 图1为本发明基于光流图深度学习模型在视频中人体交互动作识别方法的模型框 架图。
[0032] 图2为本发明的光流图序列预处理流程图。
[0033] 图3为本发明的ResNet空域向量提取流程图。
[0034] 图4为本发明的训练LSTM模型流程图。
[0035]图5为本发明的投票分类判决流程图。
[0036] 图6为ResNet网络结构图。
[0037] 图7为LSTM网络结构图。
具体实施方式
[0038] 下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
[0039]如图1所示,本发明公开了一种基于光流图深度学习模型在视频中人体交互动作 识别方法,其步骤主要包括:
[0040] 步骤一,对测试集视频和训练集视频进行解帧,利用相邻两帧计算光流序列图,得 到测试集视频和训练集视频的光流序列图;
[0041] 步骤二,对光流序列图进行预处理,删去信息量较少的光流图,保留信息量较多的 光流图,得到预处理后的测试集和训练集光流序列;
[0042] 步骤三,利用步骤二中得到的训练集光流序列训练残差神经网络ResNet,得到残 差神经网络模型;用测试集光流图序列和训练集光流图序列作为输入,得到测试集空域特 征和训练集空域特征;
[0043] 步骤四,利用步骤三得到的训练集空域特征,放到LSTM (Long Short Term Memory,长短时记忆)中进行训练,得到LSTM模型,用测试集空域特征作为输入,对每个输入 特征得到每类的分类概率;
[0044] 步骤五,根据步骤四对一段视频输出每类概率,统计其投票最多的类,作为其判别 类输出。
[0045] 所述步骤一包括如下步骤:
[0046] 步骤十一,用ffmpeg (开源计算机程序)工具将视频解成图片帧;
[0047] 步骤十二,用farneback算法计算两帧之间的位移来计算光流,组成光流图序列; 光流计算技术大致分为:基于梯度的方法,基于匹配的方法,基于能量的方法,基于相位的 方法;稠密光流需要使用差值方法在比较容易跟踪的像素之间进行插值以解决不明确的像 素,计算开销比较大;使用Gunnar Farneback (稀疏光流)的算法计算稠密光流,即图像上所 有像素点的光流都计算出来;Opencv (跨平台计算机视觉库)中有函数直接调用;或用CUDA (通用并行计算架构)编程利用GPU (图形处理器)加速光流计算,调用GPU版的Opencv函数即 可。
[0048] 如图2所示,所述步骤二包括如下步骤:
[0049] 步骤二十一,光流场是图片中每个像素都有的一个X方向和y方向的位移;对光流 图按照光流运动量从高到底排列;光流运动量定义如下式(1):
[0050]
Figure CN106407889AD00051
[0051] Μ表示光流运动量,i表示像素点的位置,P表示整个图像的光流点集合,f i表示在X 轴方向的位移,gl表示在y轴方向的位移;因为位移有正负,所以取其平方和表示位移量,对 整个图片求和就得到整张图的光流运动量;
[0052] 步骤二十二,选取光流运动量最多的前45帧按照其在原来视频中的相对位置组成 新的光流序列,即预处理后的光流图序列。
[0053] 如图3所示,所述步骤三包括如下步骤:
[0054] 步骤三十一,用ResNet (资源)网络进行训练,训练数据是步骤二得到的预处理后 的训练集光流图序列;输出是ResNet模型;
[0055] ResNet模型是由Building block (建立基本构件)组成的神经网络,每个building block表示为如下式(2):
[0056] Y = ReLU(F(X,ff)+P · X)……(2)
[0057] X为输入矩阵,Y为输出矩阵,W是building block的权重,F(X,W)是通过训练集学 习的映射函数,P是一个矩阵,保证P和X的乘积和F (X,W)相加;ReLU是一种激活函数,此函数 在输入变量小于〇是一直为〇,大于〇时斜率保持为1;采用的ResNet结构如图6所示;
[0058] 步骤三十二,用预处理后的训练集和测试集光流图序列作为输入,利用训练好的 ResNet模型,得到训练集和测试集的空域特征集;如图6所示,每个光流图作为矩阵输入后, 经过每个building block的训练好的权重计算,到达最底层的全连接层时候已经编程一维 向量,此向量就是空域特征;在深度学习框架torch7 (科学计算框架)中,已经有ResNet的实 现,需要定义的网络结构,和训练集数据自己训练模型,然后得到训练集和测试集的空域特 征。
[0059] 如图4所示,所述步骤四包括如下步骤:
[0060] 步骤四十一,用训练集空域特征作为输入,训练LSTM模型,如图7所示;LSTM是一种 特殊的RNN (循环神经网络),它模仿人类的思考模型,自动丢弃或保留数据,用以解决长距 离依赖问题;LSTM的结构见图7;用如下公式⑶至⑶表示:
[0061] it=〇 (wxiXt+whiht-i+bi)......(3)
[0062] ft = o (wxfXt+whfht-i+bf)......(4)
[0063] 〇t = o (wx〇xt+wh〇ht-i+b〇)......(5)
[0064] gt = tanh (WxCxt+whcht-i+bc)......(6)
[0065] Ct = ft ο ct-ι+it ㊀ gt......(7)
[0066] ht = 〇t Θ tanh (ct)......(8)
[0067] 各符号含义见下表1所示:
[0068] 表1符号含义表
[0069]
Figure CN106407889AD00061
[0070]
Figure CN106407889AD00071
[0071] 记忆单元Ct是由遗忘门ft,输入调制状态gt,输入门it和前一时刻的状态组成;因 为it和ft都是sigmoidal (反曲)形函数,其值被限制在0和1之间,LSTM通过0表示忘记,1表示 记忆保持,在0到1之间表示记忆的程度;输出门〇t学习有多少记忆单元转移到隐藏状态; [0072] 在深度学习框架torch7中也有相关的包;在程序中采用FastLSTM的结构;这种结 构简化了传统LSTM的结构,使其训练速度加快;定义LSTM的inputSize (输入大小值)和 hiddenSize (隐藏大小值)均设置成512,即512个LSTM单元,LSTM的输入和输出之间还有一 层0.5ratio (比例)的dropout (流失)层,减少模型过拟合的可能性,也增加了模型的泛化能 力;优化的标准采用负似然函数criterion (标准),在torch7的实现中同样用到了CUDA (通 用并行计算架构)加速;
[0073] LSTM训练与传统卷积神经网络以及ResNet相同,采用随机梯度下降法,训练数据 前向传输的结果,与分类结果的差异进行后向传输更新LSTM结构单元的权重;因为LSTM特 殊的结构设计,使其不会产生传统RNN梯度消失或者爆炸的情况;
[0074] 步骤四十二,用测试集空域特征作为输入LSTM模型,每帧的空域特征输入,对应对 各类别的概率预测输出;LSTM层之后再接上logSoftmax (对数软间隔最大)层用来做多分类 概率预测输出;logSoftmax对概率做了对数化处理,我们要稍微转换一下,softmax (最大 值)是对该帧属于某类的可能性给出概率上的预测。
[0075] 如图5所示,所述步骤五包括如下步骤:
[0076] 步骤五十一,每类投票数初始为0,根据每帧概率输出结果预测概率最大的类别投 票数加一;
[0077] 步骤五十二,统计一段视频所有帧的投票结果;
[0078] 步骤五十三,得票数最多的那类作为分类结果输出如下式(9):
[0079] class = argmax ({Ci ,C2, ··· ,Cn})......(9)
[0080] G表示i类别的得票数,class表示最终分类类别。
[0081] 本发明填补了用深度学习方法对人体交互动作识别相关领域的空白,提高了检测 准确性。
[0082] 以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制 本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。

Claims (6)

1. 一种基于光流图深度学习模型在视频中人体交互动作识别方法,其特征在于,其步 骤主要包括: 步骤一,对测试集视频和训练集视频进行解帧,利用相邻两帧计算光流序列图,得到测 试集视频和训练集视频的光流序列图; 步骤二,对光流序列图进行预处理,删去信息量较少的光流图,保留信息量较多的光流 图,得到预处理后的测试集和训练集光流序列; 步骤三,利用步骤二中得到的训练集光流序列训练残差神神经络,得到残差神经网络 模型;用测试集光流图序列和训练集光流图序列作为输入,得到测试集空域特征和训练集 空域特征; 步骤四,利用步骤三得到的训练集空域特征,放到LSTM中进行训练,得到LSTM模型,用 测试集空域特征作为输入,对每个输入特征得到每类的分类概率; 步骤五,根据步骤四对一段视频输出每类概率,统计其投票最多的类,作为其判别类输 出。
2. 如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法,其 特征在于,所述步骤一包括如下步骤: 步骤^^一,用ffmpeg工具将视频解成图片帧; 步骤十二,用farneback算法计算两帧之间的位移来计算光流,组成光流图序列。
3. 如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法,其 特征在于,所述步骤二包括如下步骤: 步骤二十一,对光流图按照光流运动量从高到底排列; 步骤二十二,选取光流运动量最多的前45帧按照其在原来视频中的相对位置组成新的 光流序列。
4. 如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法,其 特征在于,所述步骤三包括如下步骤: 步骤三十一,用ResNet网络进行训练,训练数据是步骤二得到的预处理后的训练集光 流图序列;输出是ResNet模型; 步骤三十二,用预处理后的训练集和测试集光流图序列作为输入,利用训练好的 ResNet模型,得到训练集和测试集的空域特征集。
5. 如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法,其 特征在于,所述步骤四包括如下步骤: 步骤四十一,用训练集空域特征作为输入,训练LSTM模型; 步骤四十二,用测试集空域特征作为输入LSTM模型,每帧的空域特征输入,对应对各类 别的概率预测输出。
6. 如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法,其 特征在于,所述步骤五包括如下步骤: 步骤五十一,每类投票数初始为0,根据每帧概率输出结果预测概率最大的类别投票数 加一; 步骤五十二,统计一段视频所有帧的投票结果; 步骤五十三,得票数最多的那类作为分类结果输出。
CN201610737545.XA 2016-08-26 2016-08-26 基于光流图深度学习模型在视频中人体交互动作识别方法 Active CN106407889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610737545.XA CN106407889B (zh) 2016-08-26 2016-08-26 基于光流图深度学习模型在视频中人体交互动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610737545.XA CN106407889B (zh) 2016-08-26 2016-08-26 基于光流图深度学习模型在视频中人体交互动作识别方法

Publications (2)

Publication Number Publication Date
CN106407889A true CN106407889A (zh) 2017-02-15
CN106407889B CN106407889B (zh) 2020-08-04

Family

ID=58004606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610737545.XA Active CN106407889B (zh) 2016-08-26 2016-08-26 基于光流图深度学习模型在视频中人体交互动作识别方法

Country Status (1)

Country Link
CN (1) CN106407889B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951923A (zh) * 2017-03-21 2017-07-14 西北工业大学 一种基于多视角信息融合的机器人三维形状识别方法
CN107180426A (zh) * 2017-06-06 2017-09-19 西北工业大学 基于可迁移的多模型集成的计算机辅助肺结节分类方法
CN107368798A (zh) * 2017-07-07 2017-11-21 四川大学 一种基于深度学习的人群情绪识别方法
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法
CN107992899A (zh) * 2017-12-15 2018-05-04 四川大学 一种机场场面运动目标检测识别方法
CN108122249A (zh) * 2017-12-20 2018-06-05 长沙全度影像科技有限公司 一种基于gan网络深度学习模型的光流估计方法
WO2018161775A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 一种用于图像处理的神经网络模型的训练方法、装置和存储介质
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质
CN109101858A (zh) * 2017-06-20 2018-12-28 北京大学 动作识别方法及装置
CN109446872A (zh) * 2018-08-24 2019-03-08 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109460812A (zh) * 2017-09-06 2019-03-12 富士通株式会社 神经网络的中间信息分析装置、优化装置、特征可视化装置
CN109738939A (zh) * 2019-03-21 2019-05-10 蔡寅 一种地震前兆数据异常检测方法
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109753984A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法、装置和计算机可读存储介质
CN109936774A (zh) * 2019-03-29 2019-06-25 广州虎牙信息科技有限公司 虚拟形象控制方法、装置及电子设备
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110348321A (zh) * 2019-06-18 2019-10-18 杭州电子科技大学 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN111091117A (zh) * 2019-12-31 2020-05-01 北京城市网邻信息技术有限公司 用于二维全景图像的目标检测方法、装置、设备、介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271527A (zh) * 2008-02-25 2008-09-24 北京理工大学 一种基于运动场局部统计特征分析的异常行为检测方法
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法
WO2013177586A1 (en) * 2012-05-25 2013-11-28 The Johns Hopkins University An integrated real-time tracking system for normal and anomaly tracking and the methods therefor
CN103500324A (zh) * 2013-09-29 2014-01-08 重庆科技学院 基于视频监控的暴力行为识别方法
CN103810717A (zh) * 2012-11-09 2014-05-21 浙江大华技术股份有限公司 一种人体行为检测方法及装置
CN103907146A (zh) * 2011-09-20 2014-07-02 丰田自动车株式会社 行人行动预测装置以及行人行动预测方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787458B (zh) * 2016-03-11 2019-01-04 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271527A (zh) * 2008-02-25 2008-09-24 北京理工大学 一种基于运动场局部统计特征分析的异常行为检测方法
CN103907146A (zh) * 2011-09-20 2014-07-02 丰田自动车株式会社 行人行动预测装置以及行人行动预测方法
WO2013177586A1 (en) * 2012-05-25 2013-11-28 The Johns Hopkins University An integrated real-time tracking system for normal and anomaly tracking and the methods therefor
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法
CN103810717A (zh) * 2012-11-09 2014-05-21 浙江大华技术股份有限公司 一种人体行为检测方法及装置
CN103500324A (zh) * 2013-09-29 2014-01-08 重庆科技学院 基于视频监控的暴力行为识别方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787458B (zh) * 2016-03-11 2019-01-04 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAIMING HE,XIANGYU ZHANG,SHAOQING REN,JIAN SUN: "《Deep Residual Learning for Image Recognition》", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
SRIVASTAVA N.,MANSIMOV E.,SALAKHUTDINOV R.: "《Unsupervised Learning of Video Representations Using LSTMs》", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON MACHINE LEARNING(ICML)》 *
余昊: "《基于底层特征的视频异常事件检测算法研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161775A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 一种用于图像处理的神经网络模型的训练方法、装置和存储介质
TWI672667B (zh) * 2017-03-08 2019-09-21 大陸商騰訊科技(深圳)有限公司 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體
US10970600B2 (en) 2017-03-08 2021-04-06 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training neural network model used for image processing, and storage medium
CN106951923B (zh) * 2017-03-21 2020-06-16 西北工业大学 一种基于多视角信息融合的机器人三维形状识别方法
CN106951923A (zh) * 2017-03-21 2017-07-14 西北工业大学 一种基于多视角信息融合的机器人三维形状识别方法
CN107180426B (zh) * 2017-06-06 2020-12-08 西北工业大学 基于可迁移的多模型集成的计算机辅助肺结节分类装置
CN107180426A (zh) * 2017-06-06 2017-09-19 西北工业大学 基于可迁移的多模型集成的计算机辅助肺结节分类方法
CN109101858A (zh) * 2017-06-20 2018-12-28 北京大学 动作识别方法及装置
CN109101858B (zh) * 2017-06-20 2022-02-18 北京大学 动作识别方法及装置
CN107368798A (zh) * 2017-07-07 2017-11-21 四川大学 一种基于深度学习的人群情绪识别方法
CN107368798B (zh) * 2017-07-07 2019-11-29 四川大学 一种基于深度学习的人群情绪识别方法
CN109460812A (zh) * 2017-09-06 2019-03-12 富士通株式会社 神经网络的中间信息分析装置、优化装置、特征可视化装置
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法
CN107679522B (zh) * 2017-10-31 2020-10-13 内江师范学院 基于多流lstm的动作识别方法
CN109753984A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法、装置和计算机可读存储介质
CN107992899A (zh) * 2017-12-15 2018-05-04 四川大学 一种机场场面运动目标检测识别方法
CN108122249A (zh) * 2017-12-20 2018-06-05 长沙全度影像科技有限公司 一种基于gan网络深度学习模型的光流估计方法
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质
US11055516B2 (en) 2018-01-04 2021-07-06 Beijing Kuangshi Technology Co., Ltd. Behavior prediction method, behavior prediction system, and non-transitory recording medium
US20190205629A1 (en) * 2018-01-04 2019-07-04 Beijing Kuangshi Technology Co., Ltd. Behavior predicton method, behavior predicton system, and non-transitory recording medium
CN109446872A (zh) * 2018-08-24 2019-03-08 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109446872B (zh) * 2018-08-24 2022-04-19 南京理工大学 一种基于递归神经网络的群体动作识别方法
CN109753897B (zh) * 2018-12-21 2022-05-27 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109738939A (zh) * 2019-03-21 2019-05-10 蔡寅 一种地震前兆数据异常检测方法
CN109936774A (zh) * 2019-03-29 2019-06-25 广州虎牙信息科技有限公司 虚拟形象控制方法、装置及电子设备
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110348321A (zh) * 2019-06-18 2019-10-18 杭州电子科技大学 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN111091117B (zh) * 2019-12-31 2021-01-29 北京城市网邻信息技术有限公司 用于二维全景图像的目标检测方法、装置、设备、介质
CN111091117A (zh) * 2019-12-31 2020-05-01 北京城市网邻信息技术有限公司 用于二维全景图像的目标检测方法、装置、设备、介质

Also Published As

Publication number Publication date
CN106407889B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN106407889A (zh) 基于光流图深度学习模型在视频中人体交互动作识别方法
Jalal et al. Students’ behavior mining in e-learning environment using cognitive processes with information technologies
CN107423707A (zh) 一种基于复杂环境下的人脸情绪识别方法
CN108388876A (zh) 一种图像识别方法、装置以及相关设备
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108229268A (zh) 表情识别及卷积神经网络模型训练方法、装置和电子设备
CN105550678A (zh) 基于全局显著边缘区域的人体动作特征提取方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN109919031A (zh) 一种基于深度神经网络的人体行为识别方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN106326857A (zh) 基于人脸图像的性别识别方法及装置
CN103473801A (zh) 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法
CN107204025B (zh) 基于视觉感知的自适应服装动画建模方法
Ghosh et al. Contextual rnn-gans for abstract reasoning diagram generation
Lim et al. A four dukkha state-space model for hand tracking
Cheng et al. Augmented reality dynamic image recognition technology based on deep learning algorithm
Liu Objects detection toward complicated high remote basketball sports by leveraging deep CNN architecture
CN110580456A (zh) 基于相干约束图长短时记忆网络的群体活动识别方法
CN105224952B (zh) 基于最大间隔马尔可夫网模型的双人交互行为识别方法
CN108073883A (zh) 大规模人群属性识别方法及装置
Zhao et al. Basketball shooting technology based on acceleration sensor fusion motion capture technology
CN112053386A (zh) 基于深度卷积特征自适应集成的目标跟踪方法
Hua et al. Collaborative Generative Adversarial Network with Visual perception and memory reasoning
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant