CN111199238A - 一种基于双流卷积神经网络的行为识别方法及设备 - Google Patents

一种基于双流卷积神经网络的行为识别方法及设备 Download PDF

Info

Publication number
CN111199238A
CN111199238A CN201811366742.0A CN201811366742A CN111199238A CN 111199238 A CN111199238 A CN 111199238A CN 201811366742 A CN201811366742 A CN 201811366742A CN 111199238 A CN111199238 A CN 111199238A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
model
video
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811366742.0A
Other languages
English (en)
Inventor
虢齐
张玉双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201811366742.0A priority Critical patent/CN111199238A/zh
Publication of CN111199238A publication Critical patent/CN111199238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于计算机视觉领域,涉及一种基于双流卷积神经网络的特定行为的识别方法及设备,用于复杂背景下特定行为的识别,尤其在包括多种与特定行为的区别微小的应用场景下。该方法的关键之处在于模型训练阶段,其包括:构建双流卷积神经网络模型;以及训练模型,拟合训练数据,利用所述双流卷积神经网络分别获得的空间特征和时间特征,然后将这些特征融合并输入到最后的分类层。因此在识别阶段,将待识别视频输入所述训练后的模型,判断、识别并输出识别结果。该方法准确率高、泛化力强、可扩展性好。

Description

一种基于双流卷积神经网络的行为识别方法及设备
技术领域
本申请属于计算机视觉领域,涉及一种基于双流卷积神经网络的特定行为的识别方法及设备,用于复杂背景下特定行为的识别,尤其在包括多种与特定行为的区别微小的应用场景下。
背景技术
近年来,随着科技水平的逐步提高,人工智能的应用越来越广泛和具体,动作检测、行为识别领域的发展越来越受到关注。视频中的动作的检测和识别具有广泛的应用,例如监控、人机交互和基于特定条件的检索。在工业、医疗、军事和生活等领域均需要使用人体动作检测和识别方法及相应装置来进行模拟训练、监控行为及规范指导。在动作检测和识别领域中,帧级动作检测的质量直接影响视频中的动作检测的质量和识别判断的准确率。尤其是,在有些应用场景中,大量个体的行为相近似,区别之处非常细微,更需要精细地区分是否符合标准行为规范,并做后续的识别和监控。
例如,在物流领域,需要在库房等应用场景中准确快速筛选出是否存在暴利分拣行为,以做到更精确及时的提醒和指导。而现有的暴力分拣行为识别算法主要分为两类:一类是基础传统计算机视觉和机器学习的方法,如多尺度合成算法、支持向量机、K均值聚类算法、小波包分析方法等,这类算法均基于人工设计的特征进行学习,无法从复杂多变的原始监控视频提取到有效的特征,准确率低,泛化力弱,可扩展性差;另一类则基于卷积神经网络的方法,将视频视为连续的多帧图像,视频的特征视为图像特征的相加,虽然可以有效地学习到图像的空间信息,但是破坏了视频中的时序性,无法学习到时序特征,而时序特征对暴力分拣行为的识别至关重要。
因此,现有技术存在的问题在于,常用的机器学习算法均基于人工设计的特征进行学习,无法从复杂多变的原始监控视频提取到有效的特征,准确率低,泛化力弱,可扩展性差等;或者忽略了时序性特征,诸多不足之处,以待改进。
鉴于此,本申请的发明人提出一种基于双流卷积神经网络的行为识别方法、设备及存储介质,适用于复杂的应用场景,尤其适用于在包括多种与特定行为的区别较小的应用场景下某一特定行为的识别,以便于进一步智能指导、规范行为。
该方法,将监控视频转化为数帧有序的图像,然后计算出连续两帧图像之间的光流图;利用两组卷积神经网络,一组输入RGB图像,提取空间特征,而另一组输入光流图,提取时间特征;然后,将两组特征串联起来,进行识别。整个算法不需要对原始图像提前设计人工特征,基于一个端对端的深度神经网络模型可以自主学习,针对性地从原始视频图像和光流图像中提取特定行为(例如,暴力分拣行为)的时间和空间特征,以达到快速识别行为的目的。该方法大幅提高识别效率和准确率。
发明内容
基于上述目的,本发明创新性地提出一种从包括复杂场景的视频流中检测和识别特定行为的方法,该方法采用双流卷积神经网络训练模型,不需要对原始图像人工设计特征,就可以直接深度学习监控视频流,提高了行为或动作识别的效率和准确率,以便于进一步或同步地智能指导、规范行为。
第一方面,本发明提供了一种基于双流卷积神经网络的行为识别方法,所述方法包括:数据准备阶段、模型训练阶段和识别阶段,其中,
数据准备阶段,其包括:
数据收集,其收集原始监控视频;
构建训练集:数据标注,从包含多种特定行为的原始监控视频中提取多个包含一种特定行为的视频片段,并做标注;以及将所述经标注的视频片段转换为连续的图像帧,所述图像帧为RGB图像;并且从所述连续的两帧RGB图像计算光流图像;数据预处理,其包括数据归一化处理和增强处理;
模型训练阶段,其包括:
构建模型:搭建双流卷积神经网络模型;以及
训练模型:拟合训练数据,利用所述双流卷积神经网络对RGB图像和光流图像分别学习并获得空间特征和时间特征,然后将这些特征融合,并输入到最后的分类层;
识别阶段:将待识别的监控视频或视频片段输入所述训练后的双流卷积神经网络模型,经训练后的所述双流卷积神经网络自判断、识别行为,并输出识别结果。
基于本申请第一方面所述的技术方案,使用构建的所述双流卷积神经网络算法对历史监控视频进行学习,并拟合训练参数,作为训练后的双流卷积神经网络模型的输入参数,从而将所述训练后的用于判断在其他待识别视频中是否出现存在一个或多个包含特定行为的图像或视频片段,并自动输出视频中存在的行为类别结果。
具体地,本发明提供的一种基于双流卷积神经网络的行为识别方法,所述行为包括人的动作行为、自动驾驶车辆的行驶或机器人或机械臂的操作动作等。进一步地,所述特定行为可以包括人的动作幅度、速率、机械臂操作幅度、速率或自动驾驶车辆的行驶路径、速率等,例如,物流行业库房中大量分拣行为中是否存在暴力分拣行为,以识别、指导或规范行为。
所述数据收集还包括对原始视频图像的切割处理,以去除不包括所述特定行为的图像区域区域或视频图像。
在所述数据标注中,所述标注是对图像中行为进行真实类别的标注。具体地,人工地将所述样本用正负形式做真实类别的样本标注,0表示非暴力行为,1表示暴力行为。
所述归一化处理方法包括减均值或除方差处理;所述增强处理方法包括随机翻转、随机加入高斯白噪声、随机进行亮度、对比度或色度变化等。
所述双流卷积神经网络模型中的卷积神经网络是三维卷积神经网络。
在所述模型训练阶段中,使用所述双流卷积神经网络模型预测输入所述视频片段中图像的特定行为的类别,其中,三维卷积神经网络模型的计算遵循下述公式1:之后,遵循下述公式2计算一组ω′,使损失函数最小:
Figure BDA0001868767790000041
Figure BDA0001868767790000042
公式1中,设所述视频X,连续图像帧为I1,I2,...,IN,N为视频帧数,连续两帧计算的光流图为F1,F2,...,FN-1,真实类别为y,模型预测类别为
Figure BDA0001868767790000043
ω为模型参数,L为损失函数,||·,·||为相似性度量函数;
Figure BDA0001868767790000044
公式2中,M为训练集样本的总数目;ω′的求解使用小批量随机梯度下降法。
优选地,所述三维卷积神经网络还包括特征提取部分和行为类别输出部分。
所述三维卷积神经网络中第一个卷积核的输入是连续16或更多帧每秒。优选地,选用16帧每秒。
所述三维卷积神经网络的层数设置为34层,其中,分别为Resnet34-I和Resnet34-F。
所述双流卷积神经网络训练模型采用残差网络Resnet为基本骨架,以解决网络加深时梯度消失的问题。
所述残差网络Resnet进一步包括一个恒等映射(identity mapping),把当前输出直接传输给下一层网络,跳过本层运算。由此既不产生额外的参数,也不增加计算的复杂度,所述直接连接命名为“skip connection”;同时,在后向传播过程中,也是将下一层网络的梯度直接传递给上一层网络,由此解决了深层网络的梯度消失问题,可以搭建更深的卷积网络,最深已经突破1000层。
所述识别阶段,将待识别的监控视频或视频片段转换为多个连续的图像帧,然后,求出连续两帧图像之间的光流图;利用所述卷积神经网络模型(例如,Resnet34-I和Resnet34-F)分别对RGB图像和光流图像进行学习,以分别提取空间特征和时间特征,然后将这些特征数据融合,并输入到最后的分类层进行识别,输出判断结果。
具体地,所述融合包括将所述空间特征和时间特征合并或相加。
第二方面,本发明还提供了一种设备,包括一个或多个处理器和存储器,其中存储器包含可由所述一个或多个处理器执行的指令以使得所述一个或多个处理器执行根据本发明各种实施方式提供的识别方法。
第三方面,本发明还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行根据本发明各实施方式提供的方法。
有益效果
与现有技术相比较,本发明提供的技术方案具有如下几方面的有益效果:
1、与现有技术中暴力分拣行为识别方法相比较,例如基础传统计算机视觉和机器学习的方法,其克服了原来无法从复杂多变的原始监控视频提取到有效的特征,而且准确率高,泛化力强,可扩展性好;
2、现有技术中卷积神经网络CNN算法将视频视为连续的多帧图像,视频的特征视为图像特征的相加,虽然可以有效地学习到图像的空间信息,但是破坏了视频中的时序性,无法学习到时序特征的问题,而本申请搭建并训练的所述双流卷积神经网络模型学习并获得了到视频中的时序特征;
3、本申请的上述技术方案运用双流卷积神经网络,将监控视频转化为数帧有序的图像,然后求出连续两帧图像之间的光流图,搭建了两个卷积神经网络模型,一组输入RGB图像,提取空间特征,一组输入光流图,提取时间特征,然后将这些特征融合起来输入最后一层,以进行结果输出;
4、本申请的技术方案不需要提前设计人工特征,仅需要在训练阶段,对输入的视频图像进行标注,再通过训练后的双流卷积神经网络模型,针对性地从原始视频中提取的RGB图像和光流图像中提取特定行为的时间和空间特征,可大幅提高识别准确率;
5、所述检测方法无需额外硬件支持:仅需现场监控图像即可完成车厢识别任务,节约了成本。
附图说明
为了更清晰地了解本发明,请参照以下附图所作的对非限制性示例性说明,本文将对本申请的特征、目的和优点做全面的说明:
图1为本发明提供的一种基于双流卷积神经网络的行为识别方法中一种实施方式的流程图。
图2为本发明提供的一种基于双流卷积神经网络的行为识别方法中所述网络模型的一种实施方式的结构示意图,其中,所述特定行为是指暴力分拣行为。
图3为本申请提供的一种设备的一种实施方式,包括一个或多个处理器(CPU)和存储器。
其中,图1中,I1,I2,...,IN为连续图像帧,N为视频帧数,F1,F2,...,FN-1为连续两帧计算的光流图。
具体实施方式
下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明的技术方案、发明构思,而非对本发明所做的限制性说明。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。其它未明确示出或未明确说明的部分均应理解为现有技术常规手段或方案,其结合本发明示出的技术特征可以实现本发明的技术效果。
需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的具体的附加技术特征可以相互组合或替换。下面将参考附图并结合实施方式来详细说明本申请。
图1为图1为本发明提供的一种基于双流卷积神经网络的行为识别方法中一种实施方式的流程图。
图2为本发明提供的一种基于双流卷积神经网络的行为识别方法中所述网络模型的一种实施方式的结构示意图,其中,所述特定行为是指暴力分拣行为。
正如图1和图2所示,该方法包括:数据准备阶段、模型训练阶段和识别阶段,具体方式如下所述:
数据准备阶段,其包括:数据收集,其收集原始监控视频;数据标注,从包含多种行为的原始监控视频中裁剪成数个仅包含一种特定行为的视频片段或图像,并进行人工标注,其用正负表示的真实类别标注,例如,在一种实施方式中,0表示非暴力行为,1表示暴力行为;以及数据处理,其包括数据归一化处理和增强处理;以及将经人工标注的视频片段转换为连续的图像帧,该图像帧为RGB图像;并且从连续的两帧RGB图像计算光流图像;归一化处理方法包括减均值或除方差处理;所述增强处理方法包括随机翻转、随机加入高斯白噪声、随机进行亮度、对比度或色度变化等。
模型训练阶段,其包括:构建模型,搭建双流卷积神经网络模型,分别为卷积神经网络Resnet34-I和Resnet34-F;训练模型:拟合训练数据,将所述经人工标注的视频片段转换为连续的图像帧,所述图像帧为RGB图像;并且从所述连续的两帧RGB图像计算光流图像;然后,使用该双流卷积神经网络模型预测输入的视频片段中图像的特定行为的类别,其中,三维卷积神经网络模型的计算遵循下述公式1:之后,遵循下述公式2计算一组ω′,使损失函数最小,并以此优化后的参数作为所述训练后双流卷积神经网络模型的参数;拟合训练数据,利用训练后的两个卷积神经网络对RGB图像和光流图像分别学习空间特征和时间特征,然后将这些特征合并,并输入到最后的分类层;
Figure BDA0001868767790000071
Figure BDA0001868767790000072
公式1中,设视频X,连续图像帧为I1,I2,...,IN,N为视频帧数,连续两帧计算的光流图为F1,F2,...,FN-1,真实类别为y,模型预测类别为
Figure BDA0001868767790000073
ω为模型参数,L为损失函数,||·,·||为相似性度量函数;
Figure BDA0001868767790000074
公式2中,M为训练集样本的总数目;ω′的求解使用小批量随机梯度下降法。
识别阶段:将待识别监控视频或视频片段转换为连续的图像帧,然后,求出连续两帧图像之间的光流图;利用卷积神经网络模型(Resnet34-I和Resnet34-F)分别对RGB图像和光流图像提取空间特征和时间特征,然后将这些特征数据融合并输入到最后的分类层进行识别,输出判断结果。
该行为可以选择识别人的动作行为、自动驾驶车辆的行驶或机器人或机械臂的操作动作等的任一种。
进一步地,该特定行为可以包括人的动作幅度、速率、机械臂操作幅度、速率或自动驾驶车辆的行驶路径、速率等,例如,物流行业库房中大量分拣行为中是否存在暴力分拣行为,以识别、指导或规范行为。
具体地,数据收集还包括对原始视频图像的区域的切割处理,以去除显著不同于特定行为的特征区域或视频图像。
该三维卷积神经网络还包括特征提取部分和行为类别输出部分。
该三维卷积神经网络中第一个卷积核的输入是连续16或更多帧每秒。
该三维卷积神经网络的层数设置为34层,其中,分别为Resnet 34-I和Resnet34-F。
该双流卷积神经网络训练模型采用残差网络Resnet为基本骨架的三维卷积神经网络,以解决网络加深时梯度消失的问题。
该残差网络Resnet进一步包括一个恒等映射(identity mapping),把当前输出直接传输给下一层网络,跳过本层运算。
基于上述方法,使用双流卷积神经网络算法对历史监控视频进行学习,获得参数,并优化参数,用于判断在新的视频数据中是否出现存在某一个或多个特定行为。
残差网络Resnet进一步包括一个恒等映射(identity mapping),把当前输出直接传输给下一层网络,跳过了本层运算,既不产生额外的参数,也不增加计算的复杂度,直接连接命名为“skip connection”,同时,在后向传播过程中,也是将下一层网络的梯度直接传递给上一层网络,由此解决了深层网络的梯度消失问题,可以搭建更深的卷积网络,最深已经突破1000层,如图1所示的网络已达到1000层。
图3为本发明提供的一种设备的一种实施方式,即计算机系统,该计算机系统包括中央处理单元(CPU)1。其可以根据存储在只读存储器(ROM)2中的程序或者从存储部分加载到随机访问存储器(RAM)3中的程序而执行各种适当的动作和处理。在RAM 3中,还存储有系统操作所需的各种程序和数据。CPU1、ROM2以及RAM3通过总线4彼此相连。输入/输出(I/O)接口5也连接至总线4。
以下部件连接至I/O接口5:包括键盘、鼠标等的输入部分6;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分8;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分9。通信部分9经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口5。可拆卸介质11,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器10上,以便于从其上读出的计算机程序根据需要被安装入存储部分8。
特别地,根据本申请的实施方式,上述任一实施方式描述的过程可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地承载在计算机可读介质上的计算机程序,该计算机程序包含用于基于双流卷积神经网络模型的行为识别方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)1执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读存储介质可以是计算机可读信号介质或计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程示意图和框图,图示了按照本发明一些实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及结构示意图的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一生成模块、获取模块、查找模块、第二生成模块及合并模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于在该基础表中获取多个待探测实例的获取模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施方式中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施方式中所述的特定行为的识别方法。
例如,该电子设备可以实现图1中所示的步骤,即数据准备阶段中的构建训练集:数据标注,从包含多种特定行为的原始监控视频中提取多个包含特定行为的视频片段,并做标注;以及将所述经标注的视频片段转换为连续的图像帧,所述图像帧为RGB图像;并且从所述连续的两帧RGB图像计算光流图像;数据预处理:其包括数据归一化处理和增强处理;模型训练阶段,其包括:构建模型:搭建双流卷积神经网络模型;以及训练模型:拟合训练数据,利用所述双流卷积神经网络分别对RGB图像和光流图像进行学习以获得相应的空间特征和时间特征,然后将所述空间特征和时间特征融合并输入到最后的分类层;以用于识别阶段。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上描述仅为本申请的较佳实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于双流卷积神经网络的行为识别方法,其特征在于,所述方法包括:数据准备阶段、模型训练阶段和识别阶段,其中,
数据准备阶段,其包括:
数据收集,收集原始监控视频;
构建训练集:数据标注,从包含多种特定行为的原始监控视频中提取多个包含特定行为的视频片段,并做标注;以及将所述经标注的视频片段转换为连续的图像帧,所述图像帧为RGB图像;并且从所述连续的两帧RGB图像计算光流图像;
数据预处理:其包括数据归一化处理和增强处理;
模型训练阶段,其包括:
构建模型:搭建双流卷积神经网络模型;以及
训练模型:拟合训练数据,利用所述双流卷积神经网络分别对RGB图像和光流图像进行学习以获得相应的空间特征和时间特征,然后将所述空间特征和时间特征融合并输入到最后的分类层;
识别阶段:将待识别监控视频或视频片段输入所述训练后的双流卷积神经网络模型,所述训练后的双流卷积神经网络模型判断、识别行为并输出识别结果。
2.根据权利要求1所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述行为可包括人的动作行为、自动驾驶车辆的行驶或机器人或机械臂的操作动作。
3.根据权利要求1所述的基基于双流卷积神经网络的行为识别方法,其特征在于,所述数据收集还包括对原始视频图像的切割处理,以去除不包括所述特定行为的区域或视频图像。
4.根据权利要求1所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述双流卷积神经网络中的卷积神经网络为三维卷积神经网络。
5.根据权利要求1所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述双流卷积神经网络采用残差网络Resnet为基本骨架。
6.根据权利要求4所述的基于双流卷积神经网络的行为识别方法,其特征在于,在所述模型训练阶段中,按照下述公式1使用所述双流卷积神经网络模型预测输入所述视频片段中图像的特定行为的类别,其中,所述三维卷积神经网络模型的计算遵循下述公式1,之后,按照下述公式2计算ω′,使损失函数最小,获得优化的参数作为所述训练后的模型参数:
Figure FDA0001868767780000021
Figure FDA0001868767780000022
公式1中,设所述视频X,连续图像帧为I1,I2,...,IN,N为视频帧数,连续两帧计算的光流图为F1,F2,...,FN-1,真实类别为y,模型预测类别为
Figure FDA0001868767780000023
ω为模型参数,L为损失函数,||·,·||为相似性度量函数;
Figure FDA0001868767780000024
公式2中,M为训练集样本的总数目;ω′的求解使用小批量随机梯度下降法。
7.根据权利要求4所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述三维卷积神经网络模型包括特征提取部分和行为类别输出部分。
8.根据权利要求4所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述三维卷积神经网络中第一个卷积核的输入是连续大于或等于16帧/秒。
9.根据权利要求4所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述三维卷积神经网络的层数设置为34层,分别为Resnet 34-I和Resnet34-F。
10.根据权利要求5所述的基于双流卷积神经网络的行为识别方法,其特征在于,所述残差网络Resnet包括恒等映射,把当前输出直接传输给下一层网络,跳过本层运算。
CN201811366742.0A 2018-11-16 2018-11-16 一种基于双流卷积神经网络的行为识别方法及设备 Pending CN111199238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811366742.0A CN111199238A (zh) 2018-11-16 2018-11-16 一种基于双流卷积神经网络的行为识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811366742.0A CN111199238A (zh) 2018-11-16 2018-11-16 一种基于双流卷积神经网络的行为识别方法及设备

Publications (1)

Publication Number Publication Date
CN111199238A true CN111199238A (zh) 2020-05-26

Family

ID=70743586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811366742.0A Pending CN111199238A (zh) 2018-11-16 2018-11-16 一种基于双流卷积神经网络的行为识别方法及设备

Country Status (1)

Country Link
CN (1) CN111199238A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681676A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体识别构建音频方法、系统、装置及可读存储介质
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN113761993A (zh) * 2020-06-24 2021-12-07 北京沃东天骏信息技术有限公司 用于输出信息的方法和装置
WO2022073282A1 (zh) * 2020-10-10 2022-04-14 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN116645917A (zh) * 2023-06-09 2023-08-25 浙江技加智能科技有限公司 Led显示屏亮度调节系统及其方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108664922A (zh) * 2018-05-10 2018-10-16 东华大学 一种基于人身安全的红外视频人体行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108664922A (zh) * 2018-05-10 2018-10-16 东华大学 一种基于人身安全的红外视频人体行为识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681676A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频物体识别构建音频方法、系统、装置及可读存储介质
CN111681676B (zh) * 2020-06-09 2023-08-08 杭州星合尚世影视传媒有限公司 视频物体识别构建音频方法、系统、装置及可读存储介质
CN113761993A (zh) * 2020-06-24 2021-12-07 北京沃东天骏信息技术有限公司 用于输出信息的方法和装置
WO2022073282A1 (zh) * 2020-10-10 2022-04-14 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN112906516A (zh) * 2021-02-04 2021-06-04 四川望村网络科技有限公司 一种基于深度学习的暴力行为识别方法,存储装置及服务器
CN116645917A (zh) * 2023-06-09 2023-08-25 浙江技加智能科技有限公司 Led显示屏亮度调节系统及其方法

Similar Documents

Publication Publication Date Title
CN111860506B (zh) 识别文字的方法和装置
CN111199238A (zh) 一种基于双流卷积神经网络的行为识别方法及设备
CN111241989B (zh) 图像识别方法及装置、电子设备
US20180247126A1 (en) Method and system for detecting and segmenting primary video objects with neighborhood reversibility
CN113642431B (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN113313053B (zh) 图像处理方法、装置、设备、介质及程序产品
CN112560827B (zh) 模型训练方法、装置、预测方法、电子设备及介质
CN111723728A (zh) 基于双向交互网络的行人搜索方法、系统、装置
CN113283282B (zh) 一种基于时域语义特征的弱监督时序动作检测方法
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及系统
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
CN113361549A (zh) 一种模型更新方法以及相关装置
CN114708518A (zh) 基于半监督学习与先验知识嵌入策略的螺栓缺陷检测方法
CN116485817A (zh) 图像分割方法、装置、电子设备及存储介质
CN110472673B (zh) 参数调整方法、眼底图像处理方法、装置、介质及设备
CN111723617B (zh) 动作识别的方法、装置、设备及存储介质
CN117676099B (zh) 基于物联网的安全预警方法及系统
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN111126112B (zh) 候选区域确定方法和装置
CN116152576B (zh) 图像处理方法、装置、设备及存储介质
JP2024516642A (ja) 行動検出方法、電子機器およびコンピュータ読み取り可能な記憶媒体
CN114140879A (zh) 基于多头级联注意网络与时间卷积网络的行为识别方法及装置
CN114170625A (zh) 一种上下文感知、噪声鲁棒的行人搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination