CN112580589A - 基于双流法考虑非均衡数据的行为识别方法、介质及设备 - Google Patents

基于双流法考虑非均衡数据的行为识别方法、介质及设备 Download PDF

Info

Publication number
CN112580589A
CN112580589A CN202011589130.5A CN202011589130A CN112580589A CN 112580589 A CN112580589 A CN 112580589A CN 202011589130 A CN202011589130 A CN 202011589130A CN 112580589 A CN112580589 A CN 112580589A
Authority
CN
China
Prior art keywords
behavior
flow
network
probability
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011589130.5A
Other languages
English (en)
Inventor
袁志文
王红青
卢有龙
罗莎
许侃
张金丽
陈俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd, East China Power Test and Research Institute Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202011589130.5A priority Critical patent/CN112580589A/zh
Publication of CN112580589A publication Critical patent/CN112580589A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于双流法考虑非均衡数据的行为识别方法、介质及设备,所述方法包括以下步骤:获取待处理的原始视频数据,对该原始视频数据进行预处理,形成多个视频片段和对应的;构建改进双流模型,对所述图像集合提取空间特征和光流特征,使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率,对所述第一行为类别概率和第二行为类别概率进行融合处理,获得最终识别结果;所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络,该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。与现有技术相比,本发明能解决由数据分布不均衡导致的过拟合问题,有效提高行为识别的效果。

Description

基于双流法考虑非均衡数据的行为识别方法、介质及设备
技术领域
本发明属于计算机视觉领域,涉及一种人体行为识别方法,尤其是涉及一种基于双流法考虑非均衡数据的行为识别方法、介质及设备。
背景技术
由于监控摄像头数目的急剧增加,海量的监控数据需要处理,而人工处理的代价巨大,通过算法完成视频中行为的识别就显得极为重要,人体行为识别技术可以在一定程度上减少了传统行为识别与监控对人工介入的依赖,可广泛应用于智能视频监控、机器人视觉、人际交互等领域,具有重要的科学研究意义和广阔的市场应用前景。通过人体行为识别技术可以对视频中人的行为进行分类,从而检测出是否出现异常行为。
目前,人体行为识别方法一般分为两类:传统的行为识别方法和基于深度学习的行为识别方法。传统的行为识别方法主要依靠人工提取特征,然后根据这些特征训练模型,进而生成识别结果,但是传统的方法只适用于环境简单、行为类别较少的场景中,很难识别复杂场景中的、时间跨度大的行为。而深度学习作为一种深层次的网络,具有强大的非线性映射能力,能够有效地提取图像和视频中的深度特征,更好地表达图像和视频的内容,在识别一些复杂场景中的、时间跨度大的行为具有一定的优势。例如,3D-CNN可以从视频中提取时空运动信息实现快速识别,该方法通过三维卷积从空间和时间维度提取特征,它对多个相邻的帧中的运动信息进行编码,并生成代表真实环境中人类行为的最终特征。双流法CNN主要是通过空间和时序两个不同的网络结构分别学习人体行为的动作表现和运动特征,由空间CNN和时间CNN组成,空间CNN是对视频图像内容进行学习,时间CNN是对动作特征进行学习,然后将空间CNN与时间CNN的识别结果进行融合。现有的方法表明,在识别图像中的特定物体、确定其位置和行为识别方面,基于深度学习的行为识别方法是有效的。然而,在实际的场景中,不同的行为数据分布会出现不均衡的情况,异常行为的数据样本较少,由于数据分布不均衡可能会造成过拟合问题,导致模型的泛化性能下降,增加了异常行为识别的难度。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双流法考虑非均衡数据的行为识别方法、介质及设备,有效缓解由数据分布不均衡造成的影响,从而提高行为识别的效果。
本发明的目的可以通过以下技术方案来实现:
一种基于双流法考虑非均衡数据的行为识别方法,包括以下步骤:
获取待处理的原始视频数据,对该原始视频数据进行预处理,形成多个视频片段和对应的图像集合;
构建改进双流模型,对所述图像集合提取空间特征和光流特征,使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率,对所述第一行为类别概率和第二行为类别概率进行融合处理,获得最终识别结果;
所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络,该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。
进一步地,所述预处理包括:
分割所述原始视频数据,形成多个只包含一个原子行为类别的视频片段;
将每个视频片段的帧率和分辨率调整为固定值,并在每个视频片段中随机抽取一定数量的图像,构成所述多个图像集合。
进一步地,所述空间流网络的输入由多个原始空间特征组成,其中,以图像集合Pm中所有图像的R、G、B分量作为第m个原始空间特征,输出为各图像集合的行为识别结果,形成所述第一行为类别概率。
进一步地,所述时间流网络的输入由多个原始光流特征组成,其中,基于第m个视频片段中的L张连续图像计算相邻的两张图片中光流在水平方向和垂直方向的位置变化,从而得到第m个原始光流特征,输出为各图像集合的行为识别结果,形成所述第二行为类别概率。
进一步地,所述改进双流模型进行训练时,空间流网络和时间流网络的损失函数分别表示为:
Figure BDA0002866571040000031
Figure BDA0002866571040000032
其中,FLspatial为空间流网络的损失函数,FLtemporal为时间流网络的损失函数,αk为第k个行为类别所占的频率,γ为聚焦参数,
Figure BDA0002866571040000033
为图像集合Pm中第k个行为类别的概率,
Figure BDA0002866571040000034
为第m个视频片段中的L张连续图像中第k个行为类别的概率。
进一步地,所述DenseNet网络包括输入模块、特征提取模块和输出模块,所述特征提取模块包括多个特征提取块,各个特征提取块之间通过Transition层连接,每个所述特征提取块由多层Dense Layer组成。
进一步地,所述多层Dense Layer中,每层Dense Layer对之前所有层的输出进行拼接后再处理。
进一步地,所述融合处理采用的公式为:
Figure BDA0002866571040000035
其中,nspatial和ntemporal分别为空间流网络和时间流网络识别结果的权重,
Figure BDA0002866571040000036
为第一行为类别概率中图像集合Pm中第k个行为类别的概率,
Figure BDA0002866571040000037
为第二行为类别概率中第m个视频片段的L张连续图像中第k个行为类别的概率,
Figure BDA0002866571040000038
为第m个视频片段中第k个行为类别的最终概率。
本发明还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于双流法考虑非均衡数据的行为识别方法的指令。
本发明还提供一种电子设备,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于双流法考虑非均衡数据的行为识别方法指令。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过空间流网络模型和时间流网络模型提取图片和视频流中的空间特征和时间特征,从而实现了有效的视频中的行为识别,进而可获得较为准确的识别结果。
2、考虑到行为类别的样本数据分布不均衡的问题,本发明通过使用Focal Loss损失函数计算误差,训练空间流网络和时间流网络,以解决因为由数据分布不平衡可能造成的过拟合问题,提高了模型的泛化性能和识别率,提高异常行为识别精度,有助于将该技术应用在更复杂的场景中,代替人工监视、识别和分析,使得行为识别更加科学、高效。
3、本发明设计了改进的空间流网络和时间流网络结构,并对各网络获得的识别概率进行融合处理,能够准确识别视频片段的行为类别。
附图说明
图1为本发明的流程示意图;
图2为本发明所提方法的AUC实验结果图;
图3为本发明所提方法的准确度实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本发明提供一种基于双流法考虑非均衡数据的行为识别方法,包括:
步骤S101、获取待处理的原始视频数据,对该原始视频数据进行预处理,形成多个视频片段和对应的图像集合,所述原始视频数据为由RGB图像帧序列组成的、与人的行为相关的视频数据。
所述预处理具体为:
步骤1.1,分割所述原始视频数据,形成多个只包含一个原子行为类别的视频片段,记为V={(u1,v1),(u2,v2),...,(um,vm),...,(uM,vM)},um和vm分别表示第m个视频片段及其对应的原子行为类别,1≤m≤M,M表示视频片段的数量;
步骤1.2,将每个视频片段的帧率和分辨率调整为固定值,本实施例中,帧率调整为25fps,分辨率为480p(640×480),并在每个视频片段中随机抽取一定数量的图像,构成所述多个图像集合,记为Pm={pm1,pm2,...,pmn,...,pmN},pmn表示第m个视频片段中抽取的图像集合Pm中的第n张图像,1≤n≤N,N表示抽取的图片数量。
步骤S102、构建改进双流模型,对所述图像集合提取空间特征和光流特征,使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率。
所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络,该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。DenseNet网络包括输入模块、特征提取模块和输出模块,所述特征提取模块包括多个特征提取块,各个特征提取块之间通过Transition层连接,每个所述特征提取块由多层Dense Layer组成。
以下分别对本实施例采用的空间流网络和时间流网络进行介绍。
(1)空间流网络
本实施例的空间流网络包含空间输入模块、空间特征提取模块和空间输出模块。所述空间输入模块是将第m个图像集合Pm中所有图像的R、G、B分量作为第m个原始空间特征,记为
Figure BDA0002866571040000051
其中,R对应各个图像的红色通道,G对应各个图像的绿色通道,B对应各个图像的蓝色通道;所述特征提取模块包含S个空间特征提取块记为{Block1,Block2,...,Blocks,...,BlockS},其中,Blocks表示第s个空间特征提取块,各个空间提取块之间通过Transition层连接,每个空间特征提取块由T层Dense Layer组成,用于提取图像中的空间特征;所述空间输出模块是带有Softmax网络层的两层全连接层;s∈[1,S],在实验中,可将S=3,T=6。
空间流网络获得输出结果的过程具体为:
步骤2.1,初始化s=1;
步骤2.2,定义变量并初始化t=1;
步骤2.3,所述特征提取模块的第s个提取块Blocks中第t层Dense Layer对前第t-1层Dense Layer的第m个输出特征进行拼接,得到第t-1层的第m个拼接后的特征
Figure BDA0002866571040000052
再依次使用批量标准化、ReLU激活函数和卷积操作对所述第t-1层的第m个拼接后的特征
Figure BDA0002866571040000053
进行处理,得到第t层Dense Layer的第m个输出特征
Figure BDA0002866571040000054
ReLU激活函数如公式(1)所示;
Figure BDA0002866571040000055
步骤2.4,将t+1赋值给t后,判断t>T是否成立,若成立,则表示完成第s个空间提取块Blocks中T层Dense Layer的空间特征提取,并执行步骤2.5,否则,返回步骤2.3执行;
步骤2.5,将s+1赋值给s后,判断s>S是否成立,若成立,则表示完成S个空间提取块的空间特征提取,并执行步骤2.6;否则,Transition层对第s-1个提取块Blocks中第T层Dense Layer的第m个输出特征
Figure BDA0002866571040000061
依次使用批量标准化、ReLU激活函数、卷积操作和池化操作,得到的输出特征作为第s个提取块Blocks中第1层Dense Layer的输入,并返回步骤2.2;
步骤2.6,所述空间输出模块利用两层全连接层依次对所述特征提取模块中第S个提取块的第T层Dense Layer的第m个输出特征
Figure BDA0002866571040000062
进行处理,并输出第m个图像集合Pm提取的最终特征xm后再通过Softmax网络层进行分类,得到空间分类结果,并选择所述空间分类结果中概率最大的行为类别作为第m个图像集合Pm的行为识别结果,最终输出各图像集合的行为识别结果,形成所述第一行为类别概率。
(2)时间流网络
本实施例的时间流网络包含光流输入模块、光流特征提取模块和光流输出模块。所述光流输入模块以第m个视频片段中L张连续的图像作为光流输入模块的输入,并根据每张图片上光流的位置,计算相邻的两张图片中光流在水平方向和垂直方向的位置变化,从而得到第m个视频的光流特征
Figure BDA0002866571040000063
所述特征提取模块包含S个光流特征提取块,记为{Block′1,Block′2,...,Block′s,...,Block′S},各个光流特征提取块之间通过Transition层连接,每个光流特征提取块由T层Dense Layer组成,用于提取图像中的光流特征;所述光流输出模块是带有Softmax网络层的两层全连接层。
时间流网络获得输出结果的过程与空间流网络类似,将原始光流特征
Figure BDA0002866571040000064
作为光流特征提取模块的输入,按照步骤2.1-步骤2.5的处理过程,得到光流特征提取模块的中第S个光流提取块的第T层Dense Layer的第m个输出特征;所述光流输出模块利用两层全连接层依次对所述光流特征提取模块中第S个提取块的第T层Dense Layer的第m个输出特征进行处理,并输出第m个视频片段提取的最终特征后再通过Softmax网络层进行分类,得到光流分类结果,并选择所述光流分类结果中概率最大的行为类别作为第m个视频片段的行为识别结果,最终输出为各图像集合的行为识别结果,形成所述第一行为类别概率。
对改进双流模型进行训练时,将Focal Loss作为损失函数,通过反向传播实现训练,具体地:利用式(2)计算空间流网络识别结果与真实类别之间的误差,通过反向传播更新空间流网络中的参数;同理,利用式(3)计算时间流网络识别结果与真实类别之间的误差,通过反向传播更新时间流网络中的参数,直至得到最优的空间流网络和时间流网络。
Figure BDA0002866571040000071
式(2)中,
Figure BDA0002866571040000072
为第m个视频片段中抽取的图像集合Pm中第k个行为类别的概率;
Figure BDA0002866571040000073
式(3)中,αk为M个视频片段中第k个行为类别所占的频率,γ为聚焦参数,
Figure BDA0002866571040000074
第m个视频片段中L张连续的图像中第k个行为类别的概率。
步骤S103、对第一行为类别概率和第二行为类别概率进行融合处理,获得最终识别结果。
将步骤3得到的第m个视频片段中抽取的图像集合Pm中第k个行为类别的概率
Figure BDA0002866571040000075
和第m个视频片段的L张连续的图像中第k个行为类别的概率
Figure BDA0002866571040000076
进行加权求和,计算公式如式(4)所示,得到第m段视频片段中第k个行为类别的最终概率
Figure BDA0002866571040000077
从K个行为类别的最终概率中选择最大值作为第m段视频片段的最终识别结果。
Figure BDA0002866571040000078
其中,ntemporal和nspatial分别为空间流网络和时间流网络识别结果的权重,ntemporal:nspatial可取1:1、1:2、2:1、1:5和5:1。
可以通过确定不同的ntemporal和nspatial,使用AUC和准确度评价指标对训练好的模型进行评估,计算公式分别为(5)、(6)和(7),确定最优的n1和n2,得到最优的模型。
Figure BDA0002866571040000079
其中,P和Q分别样本中正常行为的样本个数与异常行为的样本个数,将正常样本与异常样本按照识别的概率从小到大进行排序,insj代表第j个视频片段的行为类别,
Figure BDA00028665710400000710
为第j个视频片段的序号;
Figure BDA00028665710400000711
Figure BDA00028665710400000712
其中,
Figure BDA00028665710400000713
代表第j段视频中真实的行为类别,
Figure BDA00028665710400000714
代表利用第j段视频以及从第j段视频中抽取的图片的行为识别结果。
AUC用来评估模型处理非均衡数据集的能力,AUC越接近于1,证明该模型的识别结果越好。准确度用来评估模型的识别正确率,准确度越接近于1,证明模型的分类准确率越高。
为了验证本发明方法的有效性,本实施例选用3D-卷积神经网络模型(3D-Convolutional Neural Networks,3D-CNN)、光流法模型(Optical Flow Method)、双流法模型(Traditional Two-stream Method,Two-stream)、时间段网络(Temporal SegmentNetworks,TSN)、双流法结合长短期记忆神经网络的方法(Traditional Two-stream andLong Short Term Memory,Two-stream+LSTM)与本发明方法(Proposed Method)进行比较。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,计算出相邻帧之间物体的运动信息,进而行为识别,但是该方法忽略了视频中的空间特征;3D-CNN、双流法可以从视频中提取空间特征和时间特征,TSN和Two-stream+LSTM方法是双流法的改进方法,用来解决长时间视频的行为判断问题,本发明方法设计了一种空间流网络和时间流网络用来提取视频中的空间特征和时间特征,并分别使用了Focal Loss,解决了样本数据分布不均衡的问题。
数据集本发明选用Atomic Visual Actions(AVA)数据集来验证基于双流法考虑非均衡数据的行为识别方法的有效性。选取10个行为类别,将其中8种行为定义为正常行为,余下2种行为定义为异常行为,正常行为类别的视频与异常行为类别的视频的比例可设为5:1、10:1,构建数据分布不平衡数据集。实验过程中,随机选择80%的实验数据集作为训练集,20%作为测试集。同时,为了保证实验结果的可靠性,每次实验进行10次,最终结果取十次实验的平均值。
在AVA数据集上进行实验,并将本发明所提方法与对比方法实验结果与测试集进行比较。实验结果如表1、图2和图3所示。
表1 AUC与Accuracy实验结果
Figure BDA0002866571040000081
Figure BDA0002866571040000091
由表1、图2和图3可以看出,本发明所提的方法在AUC和Accuracy(准确度)两个评价指标下,均优于另外五种方法,说明传统的深度学习方法在处理数据分布不均衡的样本时容易出现过拟合问题。从表1、图2和图3还可以看出,在Optical Flow Method、3D-CNN、TSN、Two-stream、TSN和Two-stream+LSTM方法的比较中,TSN和Two-stream+LSTM在两个评价指标下均取得了较优的结果。这一结果表明,利用视频中的空间特征和光流特征要优于只使用光流特征,证明视频中的空间特征对行为识别是有利的,本发明方法在处理数据分布不均衡方面具有优势,证明了本发明的方法是有效的。
实施例2
本实施例提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如实施例1所述基于双流法考虑非均衡数据的行为识别方法指令。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于双流法考虑非均衡数据的行为识别方法,其特征在于,包括以下步骤:
获取待处理的原始视频数据,对该原始视频数据进行预处理,形成多个视频片段和对应的图像集合;
构建改进双流模型,对所述图像集合提取空间特征和光流特征,使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率,对所述第一行为类别概率和第二行为类别概率进行融合处理,获得最终识别结果;
所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络,该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。
2.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述预处理包括:
分割所述原始视频数据,形成多个只包含一个原子行为类别的所述视频片段;
将每个视频片段的帧率和分辨率调整为固定值,并在每个视频片段中随机抽取一定数量的图像,构成所述多个图像集合。
3.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述空间流网络的输入由多个原始空间特征组成,其中,以图像集合Pm中所有图像的R、G、B分量作为第m个原始空间特征,输出为各图像集合的行为识别结果,形成所述第一行为类别概率。
4.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述时间流网络的输入由多个原始光流特征组成,其中,基于第m个视频片段中的L张连续图像计算相邻的两张图片中光流在水平方向和垂直方向的位置变化,从而得到第m个原始光流特征,输出为各图像集合的行为识别结果,形成所述第二行为类别概率。
5.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述改进双流模型进行训练时,空间流网络和时间流网络的损失函数分别表示为:
Figure FDA0002866571030000011
Figure FDA0002866571030000021
其中,FLspatial为空间流网络的损失函数,FLtemporal为时间流网络的损失函数,αk为第k个行为类别所占的频率,γ为聚焦参数,
Figure FDA0002866571030000022
为图像集合Pm中第k个行为类别的概率,
Figure FDA0002866571030000023
为第m个视频片段中的L张连续图像中第k个行为类别的概率。
6.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述DenseNet网络包括输入模块、特征提取模块和输出模块,所述特征提取模块包括多个特征提取块,各个特征提取块之间通过Transition层连接,每个所述特征提取块由多层DenseLayer组成。
7.根据权利要求6所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述多层Dense Layer中,每层Dense Layer对之前所有层的输出进行拼接后再处理。
8.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法,其特征在于,所述融合处理采用的公式为:
Figure FDA0002866571030000024
其中,nspatial和ntemporal分别为空间流网络和时间流网络识别结果的权重,
Figure FDA0002866571030000025
为第一行为类别概率中图像集合Pm中第k个行为类别的概率,
Figure FDA0002866571030000026
为第二行为类别概率中第m个视频片段中的L张连续图像中第k个行为类别的概率,
Figure FDA0002866571030000027
为第m个视频片段中第k个行为类别的最终概率。
9.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于双流法考虑非均衡数据的行为识别方法的指令。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;和
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于双流法考虑非均衡数据的行为识别方法指令。
CN202011589130.5A 2020-12-28 2020-12-28 基于双流法考虑非均衡数据的行为识别方法、介质及设备 Pending CN112580589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011589130.5A CN112580589A (zh) 2020-12-28 2020-12-28 基于双流法考虑非均衡数据的行为识别方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011589130.5A CN112580589A (zh) 2020-12-28 2020-12-28 基于双流法考虑非均衡数据的行为识别方法、介质及设备

Publications (1)

Publication Number Publication Date
CN112580589A true CN112580589A (zh) 2021-03-30

Family

ID=75144031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011589130.5A Pending CN112580589A (zh) 2020-12-28 2020-12-28 基于双流法考虑非均衡数据的行为识别方法、介质及设备

Country Status (1)

Country Link
CN (1) CN112580589A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110298332A (zh) * 2019-07-05 2019-10-01 海南大学 行为识别的方法、系统、计算机设备和存储介质
CN110378245A (zh) * 2019-06-26 2019-10-25 平安科技(深圳)有限公司 基于深度学习的足球比赛行为识别方法、装置及终端设备
CN110490242A (zh) * 2019-08-12 2019-11-22 腾讯医疗健康(深圳)有限公司 图像分类网络的训练方法、眼底图像分类方法及相关设备
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN111327949A (zh) * 2020-02-28 2020-06-23 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110378245A (zh) * 2019-06-26 2019-10-25 平安科技(深圳)有限公司 基于深度学习的足球比赛行为识别方法、装置及终端设备
CN110298332A (zh) * 2019-07-05 2019-10-01 海南大学 行为识别的方法、系统、计算机设备和存储介质
CN110490242A (zh) * 2019-08-12 2019-11-22 腾讯医疗健康(深圳)有限公司 图像分类网络的训练方法、眼底图像分类方法及相关设备
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN111327949A (zh) * 2020-02-28 2020-06-23 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368739A (zh) * 2020-03-05 2020-07-03 东北大学 一种基于双流卷积神经网络的暴力行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ACHUN_HAHA: "Focal Loss损失函数简述", pages 1 - 3, Retrieved from the Internet <URL:https//www.cnblogs.com/areaChun/p/11900799.html> *
杨锐;罗兵;郝叶林;常津津;: "一种基于深度学习的异常行为识别方法", 五邑大学学报(自然科学版), no. 02, 15 May 2018 (2018-05-15) *
武玉伟 等著: "《深度学习基础与应用》", vol. 2020, 30 November 2020, 北京理工大学出版社, pages: 319 - 320 *

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN112884064A (zh) 一种基于神经网络的目标检测与识别方法
US11640714B2 (en) Video panoptic segmentation
CN112489092B (zh) 细粒度工业运动模态分类方法、存储介质、设备和装置
CN110298297A (zh) 火焰识别方法和装置
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112418032B (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN111639564A (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110853074A (zh) 一种利用光流增强目标的视频目标检测网络系统
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN111753732A (zh) 一种基于目标中心点的车辆多目标跟踪方法
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN113936175A (zh) 一种识别视频中的事件的方法及系统
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN113936034B (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN111950452A (zh) 一种人脸识别方法
CN116524596A (zh) 一种基于动作粒度分组结构的体育视频动作识别方法
CN112906707B (zh) 一种表面缺陷图像的语义分割方法、装置及计算机设备
CN115457652A (zh) 一种基于半监督学习的行人重识别方法、装置及存储介质
CN112580589A (zh) 基于双流法考虑非均衡数据的行为识别方法、介质及设备
CN111681748B (zh) 基于智能视觉感知的医疗行为动作规范性评价方法
CN115588217A (zh) 一种基于深度自注意网络的人脸属性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination