CN111783540B - 一种视频中人体行为识别方法和系统 - Google Patents

一种视频中人体行为识别方法和系统 Download PDF

Info

Publication number
CN111783540B
CN111783540B CN202010483894.XA CN202010483894A CN111783540B CN 111783540 B CN111783540 B CN 111783540B CN 202010483894 A CN202010483894 A CN 202010483894A CN 111783540 B CN111783540 B CN 111783540B
Authority
CN
China
Prior art keywords
network
video
behavior
optical flow
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010483894.XA
Other languages
English (en)
Other versions
CN111783540A (zh
Inventor
钱惠敏
刘志坚
周军
黄敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010483894.XA priority Critical patent/CN111783540B/zh
Publication of CN111783540A publication Critical patent/CN111783540A/zh
Application granted granted Critical
Publication of CN111783540B publication Critical patent/CN111783540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频中人体行为识别方法和系统,由光流帧生成网络和长时递归卷积神经网络级联构成时间流深度卷积神经网络,由长时递归卷积神经网络构成空间流深度卷积神经网络,采用多维度加权融合模型融合双流网络的预测结果,得到视频数据的人体行为类型预测。本发明检测准确率高,应用场合广泛,具有良好的泛化能力。

Description

一种视频中人体行为识别方法和系统
技术领域
本发明属于计算机视觉领域和机器学习领域,特别涉及了一种视频识别方法。
背景技术
视频数据中的人体行为识别在智能视频监控、智能家居、人机交互系统以及基于内容的视频检索等领域具有重要的理论研究价值和潜在的应用价值。以智能视频监控为例,虽然视频监控系统已经在交通、电力系统、楼宇等重要场合普及,但并未实现真正的智能,即由计算机自主地理解视频中的人体行为,并当出现异常行为时,给出及时准确的告警。
传统的人体行为识别算法是基于手工提取特征和浅层机器学习算法实现的,但是,这些算法通常只能在特定的应用场景下取得较好的识别结果,无法推广至其它应用场合,算法的泛化性能不足。
深度学习是近年来机器学习研究领域备受关注的学习算法之一,它具有从图像中自主学习并抽象高层语义表达的能力。在计算机视觉研究领域,如图像识别,目标检测,图像分割等,深度学习已取得了令人瞩目的研究成果。在视频数据中的人体行为识别研究中,深度学习也备受关注。
在基于深度学习的人体行为识别研究中,目前常用的深度神经网络构架有:三维时空网络构架、双流或多流构架,以及前两种构架的结合。基于双流架构的深度神经网络,分别在视频数据的时间域上采用深度神经网络学习行为的运动信息并预测行为类型,在空间域上采用深度神经网络学习行为的状态演变信息并预测行为类型,然后融合时、空域预测结果,实现视频数据中人体行为的识别。
现有算法中,时间域上运动信息的表达通常采用光流图及其变换。光流图通常是采用计算方法获得,计算方法有Horn-Schunck光流法、Lucas-Kanade光流法、TV-L1光流法、块匹配算法等。这些光流计算方法,不仅需要离线计算且计算复杂度高,而且在运动目标仅发生小位移的情况下,通常无法得到显著的光流信息,这不利于行为类型的识别。同时,离线计算的方式,无法实现与双流架构深度神经网络的联合优化,严重影响算法的识别速度和性能。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种视频中人体行为识别方法和系统。
为了实现上述技术目的,本发明的技术方案为:
一种视频中人体行为识别方法,包括以下步骤:
(1)从监控系统的成像设备或视频网站或人体行为公共数据库中,收集人体行为视频数据集;
(2)以人工观察方式确定每个视频段中的人体行为类型,给定视频段的行为标签,获得人体行为视频数据样本集,并确定预定义的行为类型的种类;
(3)从人体行为视频数据样本集中逐个提取视频中的RGB图像帧序列;
(4)构建视频数据的光流帧生成网络,并采用公共数据集训练该光流帧生成网络;
(5)采用步骤(3)得到的RGB图像帧序列,输入训练好的光流帧生成网络,生成表征视频数据中人体行为运动信息的光流帧序列;
(6)以步骤(5)得到的光流帧序列作为输入,构建长时递归卷积神经网络,并基于人体行为视频数据样本集训练该网络;级联光流帧生成网络和长时递归卷积神经网络,获得时间域行为类型预测模型;
(7)以步骤(3)得到的RGB图像帧序列作为输入,构建长时递归卷积神经网络,并基于人体行为视频数据样本集训练该网络,获得空间域行为类型预测模型;
(8)获取新的待识别行为视频,经步骤(3)处理后得到RGB图像帧序列,分别输入时间域行为类型预测模型和空间域行为类型预测模型,输出时间域预测概率结果和空间域预测概率结果;
(9)对每个视频段对应的时间域预测概率结果和空间域预测概率结果,采用多维度加权融合模型进行融合预测,实现视频段中人体行为类型的识别。
进一步地,所述光流帧生成网络包括:
上层网络,用于学习视频数据的大位移光流信息,由一个FlowNet相关网络和两个FlowNet简单网络构成;
下层网络,用于学习视频数据的小位移光流信息,由一个FlowNet小位移网络构成;
融合网络,用于融合所述上层网络和下层网络。
进一步地,在步骤(5)中,生成光流帧序列的过程如下:
(5.1)将RGB图像序列中的前后两帧:图像1和图像2,输入上层网络中的FlowNet相关网络中,生成光流子图1;
(5.2)将图像1、图像2、图像2的双线性插值图、光流子图1以及亮度误差图,一起输入上层网络中的FlowNet简单网络中,生成光流子图2;
(5.3)将图像1、图像2、图像2的双线性插值图、光流子图2以及亮度误差图,一起输入上层网络中的FlowNet简单网络中,生成光流子图3;
(5.4)将图像1和图像2输入下层网络中,生成光流子图4;
(5.5)将图像1、光流子图3、光流子图4以及亮度误差图,一起输入融合网络中,生成光流帧。
进一步地,在步骤(6)和步骤(7)中,构建长时递归卷积神经网络的过程如下:
(a)将光流帧序列或RGB图像帧序列的每一帧输入以残差网络为基础网络的卷积神经网络,提取特征向量,从而获得特征向量序列;
(b)将特征向量序列输入长短期记忆网络;
(c)将长短期记忆网络的输出作为后续全连接层的输入;
(d)基于全连接层输出,采用Softmax分类器预测每帧图像对应的人体行为的类型。
进一步地,在步骤(9)中,采用多维度加权融合模型进行融合预测的过程如下:
(9.1)视频段的每一帧图像都会获得对所有预定义行为类别的时间域预测概率矩阵和空间域预测概率矩阵;对时间域预测概率矩阵和空间域预测概率矩阵,采用加权最大值融合算法,得到预测概率向量I;
(9.2)对时间域预测概率矩阵和空间域预测概率矩阵,采用MAX-K加权融合算法,得到预测概率向量II;
(9.3)根据给定的权值融合预测向量I和预测向量II,并取融合结果中的最大值对应的预定义行为类型作为视频段的预测行为类型。
一种视频中人体行为识别系统,包括:
视频采集模块,用于从视频监控系统或视频网站或人体行为公共数据库中获得包含人体行为的视频;
视频帧提取模块,用于将视频采集模块获取的包含人体行为的视频转换为RGB图像帧序列;
时间域行为预测模块,该模块内部构建了级联的光流帧生成网络和长时递归卷积神经网络,将视频帧提取模块输出的RGB图像帧序列输入该级联网络,该级联网络输出时间域预测概率结果;
空间域行为预测模块,该模块内部构建了长时递归卷积神经网络,将视频帧提取模块输出的RGB图像帧序列输入该长时递归卷积神经网络,该长时递归卷积神经网络输出空间域预测概率结果;
融合输出模块,用于对每个视频段的时间域预测概率结果和空间域预测概率结果进行多维度加权融合,得到最终的人体行为预测结果。
采用上述技术方案带来的有益效果:
(1)本发明构建的基于光流帧生成网络和长时递归卷积神经网络的人体行为识别模型,是一个端到端模型,可实现从视频数据中直接学习人体行为模式并输出行为的类型预测结果;
(2)本发明提出的光流帧生成网络,能针对视频流批量生成光流帧,且不仅能检测出大位移光流,也能检测出小位移光流,更准确的光流帧有利于人体行为在时间域上的信息抽象和表达,从而能提高人体行为识别的准确率;
(3)本发明采用的长时递归卷积神经网络采用了ResNet网络,在训练和测试过程中,能有效避免网络在卷积过程中的信息丢失问题,提高人体行为识别的性能;
(4)本发明提出的多维度加权融合算法结合了加权最大值融合算法和加权MAX-K融合算法,可提高人体行为识别的性能。
附图说明
图1为基于FA-FlowNet网络生成预测光流帧的流程图;
图2为单帧网络模型的训练流程图;
图3为基于LRCN的人体行为识别模型的训练流程图;
图4为基于FA-FlowNet和LRCN的人体行为识别模型的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明设计了一种视频中人体行为识别系统,包括视频采集模块,视频帧提取模块,时间域行为预测模块(简称时间域模块),空间域行为预测模块(简称空间域模块),融合输出模块。
所述视频采集模块从视频监控系统或视频网站或人体行为公共数据集中获得包含人体行为的视频,并输入视频帧提取模块。
所述视频帧提取模块采用多媒体框架ffmepg实现,将视频数据转换为RGB图像帧序列,作为时间域模块和空间域模块的输入。
所述时间域模块,由光流帧生成模型和行为预测模型级联。光流帧生成模型是一个级联型深度神经网络FA-FlowNet,包含上层网络,下层网络,融合网络。上层网络FlowNet-CCS是在FlowNet相关网络(FN-C)的基础上,叠加两个FlowNet简单网络(FN-S),三个网络均用来生成大位移光流。下层网络采用FlowNet-SD,用来生成小位移光流。融合网络从上层网络生成的大位移光流、下层网络生成的小位移光流中生成最终的光流帧。所述行为预测模型,采用长时卷积递归网络(LRCN)从视频段的光流帧序列中学习行为在时间域的演变规律并预测行为类型;LRCN的基础网络是ResNet,分类器是Softmax。
待识别视频段VD=[I1,I2,……,IN],VD的每一帧In(1≤n≤N)经过时间域模型,得到所有预定义行为类型下的预测概率
Figure BDA0002518231130000061
(M是预定义行为类型的数量),由此可得到VD在时间域模型下的预测概率矩阵:
Figure BDA0002518231130000062
所述空间域模块,采用LRCN从RGB图像帧序列中学习行为在空间域的演变规律并预测行为类型,LRCN的基础网络也是ResNet,分类器也是Softmax。同理于时间域模块,待识别视频段VD经空间域模块后,得到空间域模型下的预测概率矩阵PSpat=[q(1),q(2),...,q(N)]T
所述融合模块,采用多维度加权融合算法,融合时间域模块和空间域模块的结果,输出最终的行为类型预测结果。所述多维度加权融合算法是加权最大值融合算法和加权MAX-K融合算法的结合与改进。
加权最大值融合算法的融合机制包括最大预测概率求解,时、空域预测融合。根据视频段VD在时间域模型下的预测概率矩阵PTemp,确定每种预定义行为类型下N个预测概率的最大值,例如,对第m种预定义的行为类型而言,其最大预测概率为
Figure BDA0002518231130000071
由此得到视频段VD在时间域模块下的预测概率向量
Figure BDA0002518231130000072
同理,得到视频段VD在空间域模块下的预测概率向量
Figure BDA0002518231130000073
最后,对预测概率向量pTemp和pSpat做加权融合,得到融合模型的预测概率向量p=λpTemp+(1-λ)pSpat,并取向量p的最大值对应的行为类型作为视频段的行为类型识别结果。加权最大值融合算法仅采用了具有最大预测概率值的预测结果,无法有效应对噪声信息。
加权MAX-K融合算法的融合机制包括MAX-K预测概率求解,时、空域预测融合。根据视频段VD在时间域模型下的预测概率矩阵PTemp=[p(1),p(2),...,p(N)]T,确定每种预定义行为类型下N个预测概率的前K个最大值,并求这K个最大值的平均值——MAX-K预测概率,记第m种预定义行为类型对应的MAX-K预测概率为
Figure BDA0002518231130000074
由此可得到视频段VD在时间域模块下的MAX-K预测概率向量
Figure BDA0002518231130000075
同理,得到视频段VD在空间域模块下的MAX-K预测概率向量
Figure BDA0002518231130000081
最后,对MAX-K预测概率向量pTempK和pSpatK做加权融合,得到融合模型的预测概率向量pK=λKpTempK+(1-λK)pSpatK,并取向量pK的最大值对应的行为类型作为视频段的行为类型识别结果。
多维度加权融合算法的融合机制是结合加权最大值融合算法和加权MAX-K融合算法。首先,分别采用时间域、空间域模块对视频段的每一帧在预定义的行为类型下获得预测概率矩阵,按加权MAX-K融合算法,在每种预定义行为类型下,取对应每一帧的预测概率的前K个最大值;接着,将这K个最大值分成两个部分:第一个最大值,和剩余K-1个值;然后,针对第一个最大值,按加权最大值融合算法得到时、空域融合的加权概率向量pmax;针对剩余K-1个值,按加权MAX-K融合算法得到时、空域融合的加权MAX-K概率向量pmaxK;最后,对加权概率向量pmax和加权MAX-K概率向量pmaxK进行再次融合,得到的融合向量中最大的预测概率对应的行为类型。
多维度加权融合算法在做概率预测过程中,既考虑了视频中每一帧在预定义行为类型下的最大预测概率,又能考虑相邻多帧在预定义行为类型下的预测概率,从而可避免噪声对识别结果的影响。
参照图1,基于光流帧生成网络FA-FlowNet的光流帧预测过程如下:
1)编写视频帧提取算法,获取视频中的RGB视频图像帧序列;
2)将生成的RGB视频图像帧序列作为FA-FlowNet的输入;
3)读取第一帧视频帧,并设当前读取帧数为n,初始值设为1;
4)判定当前帧编号n+30是否大于输入RGB视频图像帧的总帧数N;
5)若是,则结束光流帧预测;
6)若否,则继续读取第n+30帧视频帧;
7)将读取的n帧和n+30帧代入到FlowNet-CSS和FlowNet-SD,得到两个预测光流帧;然后采用图像融合方法实现,生成最终的预测光流帧;
8)执行n=n+1操作;
9)跳至4)继续判定。
参照图2,基于单帧网络模型的训练过程如下:
1)采用随机初始化的方法对ResNet网络的参数初始化(权值初始化为一个标准差为0.1的正态分布噪声,偏置值初始化为0);
2)读取ImageNet数据子集;
3)在子集上对基于ResNet的单帧网络进行预训练;
4)读取训练样本的图像帧,并设置迭代次数i=1,初始学习率α=0.001,学习率衰减次数k=1,N为模型训练总共迭代的次数,每经过n次迭代,学习率衰减一次;
5)判断当前迭代次数i是否小于等于总的迭代次数N,如果是,则转至6),否则结束当前训练;
6)判断当前迭代次数i是否等于n次迭代与学习率衰减次数k的乘积,如果是,则转至7),否则转至8);
7)迭代n次后,学习率α降至原学习率的10%,学习率衰减次数加1;
8)计算损失值,并更新权值和偏置;
9)迭代次数i加1,并转至5)。
参照图3,基于长时卷积递归网络LRCN的人体行为识别模型的训练过程如下:
1)利用单帧网络模型参数初始化长短时递归卷积神经网络模型对应的层;
2)对LSTM层随机初始化;
3)读取训练样本的图像帧,并设置迭代次数i=1,初始学习率α=0.001,学习率衰减次数k=1,N为模型训练总共迭代的次数,n表示每经过n次迭代学习率衰减一次;
4)判断当前迭代次数i是否小于等于总的迭代次数N,如果是,则转至5),否则结束当前训练;
5)判断当前迭代次数i是否等于n次迭代与学习率衰减次数k的乘积,如果是在,则转至6),否则转至7);
6)迭代n次后,学习率α降至原学习率的10%,学习率衰减次数加1;
7)计算损失值,并更新权值和偏置;
8)迭代次数i加1,并转至4)。
参照图4,基于FA-FlowNet和LRCN的人体行为识别模型的识别过程如下:
1)读取测试视频;
2)基于视频提取算法提取RGB视频帧;
3)RGB视频帧序列输入空间域行为预测模型,得到空间域预测结果;
4)RGB视频帧序列输入时间域行为预测模型,得到时间域预测结果;
5)基于融合模型,融合空间域、时间域预测结果,得到最终的行为预测结果。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (4)

1.一种视频中人体行为识别方法,其特征在于,包括以下步骤:
(1)从监控系统的成像设备或视频网站或人体行为公共数据库中,收集人体行为视频数据集;
(2)以人工观察方式确定每个视频段中的人体行为类型,给定视频段的行为标签,获得人体行为视频数据样本集,并确定预定义的行为类型的种类;
(3)从人体行为视频数据样本集中逐个提取视频中的RGB图像帧序列;
(4)构建视频数据的光流帧生成网络,并采用公共数据集训练该光流帧生成网络;
(5)采用步骤(3)得到的RGB图像帧序列,输入训练好的光流帧生成网络,生成表征视频数据中人体行为运动信息的光流帧序列;
(6)以步骤(5)得到的光流帧序列作为输入,构建长时递归卷积神经网络,并基于人体行为视频数据样本集训练该网络;级联光流帧生成网络和长时递归卷积神经网络,获得时间域行为类型预测模型;
(7)以步骤(3)得到的RGB图像帧序列作为输入,构建长时递归卷积神经网络,并基于人体行为视频数据样本集训练该网络,获得空间域行为类型预测模型;
(8)获取新的待识别行为视频,经步骤(3)处理后得到RGB图像帧序列,分别输入时间域行为类型预测模型和空间域行为类型预测模型,输出时间域预测概率结果和空间域预测概率结果;
(9)对每个视频段对应的时间域预测概率结果和空间域预测概率结果,采用多维度加权融合模型进行融合预测,实现视频段中人体行为类型的识别;
所述光流帧生成网络包括:
上层网络,用于学习视频数据的大位移光流信息,由一个FlowNet相关网络和两个FlowNet简单网络构成;
下层网络,用于学习视频数据的小位移光流信息,由一个FlowNet小位移网络构成;
融合网络,用于融合所述上层网络和下层网络;
所述步骤(5)中,生成光流帧序列的过程如下:
(5.1)将RGB图像序列中的前后两帧:图像1和图像2,输入上层网络中的FlowNet相关网络中,生成光流子图1;
(5.2)将图像1、图像2、图像2的双线性插值图、光流子图1以及亮度误差图,一起输入上层网络中的FlowNet简单网络中,生成光流子图2;
(5.3)将图像1、图像2、图像2的双线性插值图、光流子图2以及亮度误差图,一起输入上层网络中的FlowNet简单网络中,生成光流子图3;
(5.4)将图像1和图像2输入下层网络中,生成光流子图4;
(5.5)将图像1、光流子图3、光流子图4以及亮度误差图,一起输入融合网络中,生成光流帧。
2.根据权利要求1所述视频中人体行为识别方法,其特征在于,在步骤(6)和步骤(7)中,构建长时递归卷积神经网络的过程如下:
(a)将光流帧序列或RGB图像帧序列的每一帧输入以残差网络为基础网络的卷积神经网络,提取特征向量,从而获得特征向量序列;
(b)将特征向量序列输入长短期记忆网络;
(c)将长短期记忆网络的输出作为后续全连接层的输入;
(d)基于全连接层输出,采用Softmax分类器预测每帧图像对应的人体行为的类型。
3.根据权利要求1所述视频中人体行为识别方法,其特征在于,在步骤(9)中,采用多维度加权融合模型进行融合预测的过程如下:
(9.1)视频段的每一帧图像都会获得对所有预定义行为类别的时间域预测概率矩阵和空间域预测概率矩阵;对时间域预测概率矩阵和空间域预测概率矩阵,采用加权最大值融合算法,得到预测概率向量I;
(9.2)对时间域预测概率矩阵和空间域预测概率矩阵,采用MAX-K加权融合算法,得到预测概率向量II;
(9.3)根据给定的权值融合预测向量I和预测向量II,并取融合结果中的最大值对应的预定义行为类型作为视频段的预测行为类型。
4.如权利要求1~3任一项所述的视频中人体行为识别方法的识别系统,其特征在于,包括:
视频采集模块,用于从视频监控系统或视频网站或人体行为公共数据库中获得包含人体行为的视频;
视频帧提取模块,用于将视频采集模块获取的包含人体行为的视频转换为RGB图像帧序列;
时间域行为预测模块,该模块内部构建了级联的光流帧生成网络和长时递归卷积神经网络,将视频帧提取模块输出的RGB图像帧序列输入该级联网络,该级联网络输出时间域预测概率结果;
空间域行为预测模块,该模块内部构建了长时递归卷积神经网络,将视频帧提取模块输出的RGB图像帧序列输入该长时递归卷积神经网络,该长时递归卷积神经网络输出空间域预测概率结果;
融合输出模块,用于对每个视频段的时间域预测概率结果和空间域预测概率结果进行多维度加权融合,得到最终的人体行为预测结果。
CN202010483894.XA 2020-06-01 2020-06-01 一种视频中人体行为识别方法和系统 Active CN111783540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010483894.XA CN111783540B (zh) 2020-06-01 2020-06-01 一种视频中人体行为识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010483894.XA CN111783540B (zh) 2020-06-01 2020-06-01 一种视频中人体行为识别方法和系统

Publications (2)

Publication Number Publication Date
CN111783540A CN111783540A (zh) 2020-10-16
CN111783540B true CN111783540B (zh) 2022-08-05

Family

ID=72754079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010483894.XA Active CN111783540B (zh) 2020-06-01 2020-06-01 一种视频中人体行为识别方法和系统

Country Status (1)

Country Link
CN (1) CN111783540B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287820B (zh) * 2019-06-06 2021-07-23 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN112347963B (zh) * 2020-11-16 2023-07-11 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112380999B (zh) * 2020-11-16 2023-08-01 东北大学 一种针对直播过程中诱导性不良行为的检测系统及方法
CN112541403B (zh) * 2020-11-20 2023-09-22 中科芯集成电路有限公司 一种利用红外摄像头的室内人员跌倒检测方法
CN113221817A (zh) * 2021-05-27 2021-08-06 江苏奥易克斯汽车电子科技股份有限公司 异常行为检测方法、装置及设备
CN114640860B (zh) * 2022-05-07 2022-07-15 深圳市温暖生活科技有限公司 一种网络数据处理与传输方法及系统
CN116665089B (zh) * 2023-05-08 2024-03-22 广州大学 基于三维时空网络的深度伪造视频检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287820A (zh) * 2019-06-06 2019-09-27 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713491B2 (en) * 2018-07-27 2020-07-14 Google Llc Object detection using spatio-temporal feature maps

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287820A (zh) * 2019-06-06 2019-09-27 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111783540A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783540B (zh) 一种视频中人体行为识别方法和系统
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Li et al. Groupformer: Group activity recognition with clustered spatial-temporal transformer
Wang et al. Predrnn: A recurrent neural network for spatiotemporal predictive learning
Giraldo et al. Graph moving object segmentation
Wang et al. Neuron linear transformation: Modeling the domain shift for crowd counting
Vahdani et al. Deep learning-based action detection in untrimmed videos: A survey
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
Hu et al. Apanet: Auto-path aggregation for future instance segmentation prediction
CN111523378A (zh) 一种基于深度学习的人体行为预测方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
Tang et al. Re-thinking the relations in co-saliency detection
CN114419323A (zh) 基于跨模态学习与领域自适应rgbd图像语义分割方法
Xu et al. Prediction-cgan: Human action prediction with conditional generative adversarial networks
Wang et al. Ttpp: Temporal transformer with progressive prediction for efficient action anticipation
Zhu et al. Mlst-former: Multi-level spatial-temporal transformer for group activity recognition
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN112200103A (zh) 一种基于图注意力的视频分析系统和方法
Rezaei et al. G-lbm: Generative low-dimensional background model estimation from video sequences
Xu et al. Spatio-temporal deep Q-networks for human activity localization
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
Wang et al. Sture: Spatial–temporal mutual representation learning for robust data association in online multi-object tracking
Li Moving object detection for unseen videos via truncated weighted robust principal component analysis and salience convolution neural network
CN114937222A (zh) 一种基于双分支网络的视频异常检测方法及系统
Almoussawi et al. Fire Detection and Verification using Convolutional Neural Networks, Masked Autoencoder and Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant