CN111291707A - 异常行为的识别方法、装置、存储介质及服务器 - Google Patents

异常行为的识别方法、装置、存储介质及服务器 Download PDF

Info

Publication number
CN111291707A
CN111291707A CN202010113177.8A CN202010113177A CN111291707A CN 111291707 A CN111291707 A CN 111291707A CN 202010113177 A CN202010113177 A CN 202010113177A CN 111291707 A CN111291707 A CN 111291707A
Authority
CN
China
Prior art keywords
video
test
inspection model
characteristic information
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010113177.8A
Other languages
English (en)
Other versions
CN111291707B (zh
Inventor
杨帆
冯帅
刘利卉
胡建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology Jiangsu Co ltd
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN202010113177.8A priority Critical patent/CN111291707B/zh
Publication of CN111291707A publication Critical patent/CN111291707A/zh
Application granted granted Critical
Publication of CN111291707B publication Critical patent/CN111291707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种异常行为的识别方法、装置、存储介质及服务器,属于图像处理技术领域。所述方法包括:获取待识别的视频;通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,所述行检模型中的二维卷积神经网络用于提取所述视频中的对象的位置特征信息,所述行检模型中的三维卷积神经网络用于提取所述对象的运动特征信息,所述位置特征信息和所述运动特征信息用于生成所述识别结果;根据所述识别结果确定所述对象是否存在异常行为。本申请实施例可以根据视频识别异常行为,提高了异常行为的识别精度。

Description

异常行为的识别方法、装置、存储介质及服务器
技术领域
本申请实施例涉及图像处理技术领域,特别涉及一种异常行为的识别方法、装置、存储介质及服务器。
背景技术
目前,公共场所都设置有摄像设备,可以通过摄像设备拍摄监控区域的视频,再对该视频进行分析,从而识别监控区域内的用户是否出现异常行为。这里所说的异常行为可以是打架行为、偷盗行为等。
相关技术中,服务器可以获取到摄像设备拍摄的视频,从该视频中提取单个视频帧,再对该视频帧进行检测,得到视频中是否存在异常行为的识别结果。
由于异常行为是一个持续的行为,而服务器在根据单个视频帧识别是否存在异常行为时,只考虑到该视频帧中的空域信息,而忽略了时序信息,所以,异常行为的识别精度较低。
发明内容
本申请实施例提供了一种异常行为的识别方法、装置、存储介质及服务器,用于解决根据单个视频帧识别异常行为时,识别精度较低的问题。所述技术方案如下:
一方面,提供了一种异常行为的识别方法,所述方法包括:
获取待识别的视频;
通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,所述行检模型中的二维卷积神经网络用于提取所述视频中的对象的位置特征信息,所述行检模型中的三维卷积神经网络用于提取所述对象的运动特征信息,所述位置特征信息和所述运动特征信息用于生成所述识别结果;
根据所述识别结果确定所述对象是否存在异常行为。
一方面,提供了一种异常行为的识别装置,所述装置包括:
获取模块,用于获取待识别的视频;
识别模块,用于通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,所述行检模型中的二维卷积神经网络用于提取所述视频中的对象的位置特征信息,所述行检模型中的三维卷积神经网络用于提取所述对象的运动特征信息,所述位置特征信息和所述运动特征信息用于生成所述识别结果;
确定模块,用于根据所述识别结果确定所述对象是否存在异常行为。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的异常行为的识别方法。
一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的异常行为的识别方法。
本申请实施例提供的技术方案的有益效果至少包括:
由于训练好的行检模型包括二维卷积神经网络和三维卷积神经网络,且二维卷积神经网络可以提取视频中的对象的位置特征信息,三维卷积神经网络可以提取对象的运动特征信息,而位置特征信息和运动特征信息可以用于生成异常行为的识别结果,所以,本申请实施例可以根据视频识别异常行为,从而提高了识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的异常行为的识别方法的方法流程图;
图2是本申请一个实施例提供的行检模型的处理流程示意图;
图3是本申请另一实施例提供的异常行为的识别方法的方法流程图;
图4是本申请再一实施例提供的异常行为的识别装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的异常行为的识别方法的方法流程图,该异常行为的识别方法可以应用于服务器中。该异常行为的识别方法,可以包括:
步骤101,获取待识别的视频。
本实施例中,监控区域内安装的采集设备可以对监控区域进行拍摄,并将拍摄得到的视频发送给服务器,服务器可以接收采集设备发送的视频。其中,采集设备可以是配置有摄像头的设备。
步骤102,通过预先训练的行检模型对视频进行识别,得到异常行为的识别结果,该行检模型中的二维卷积神经网络用于提取视频中的对象的位置特征信息,该行检模型中的三维卷积神经网络用于提取对象的运动特征信息,该位置特征信息和该运动特征信息用于生成识别结果。
本实施例中,服务器可以先获取预先训练的行检模型,再将该视频输入该行检模型,通过该行检模型对该视频进行识别,服务器再获取该行检模型输出的识别结果。
识别结果可以是视频中的对象存在异常行为的概率。其中,视频中的对象可以是人,异常行为可以是打架行为、偷盗行为等,本实施例不作限定。
本实施例中的行检模型可以由服务器训练得到,也可以由服务器从其他设备得到,本实施例不限定行检模型的获取方式。
本实施例中的行检模型至少包括一个二维卷积神经网络(2D ConvolutionalNeural Networks,2D CNN)和一个三维卷积神经网络(3D Convolutional NeuralNetworks,3D CNN)。
二维卷积神经网络的作用是定位视频中的对象。在一种可能的实现方式中,二维卷积神经网络的主干网络为ResNet50,检测器为YOLO一阶段检测器,这样,可以由ResNet50提取出位置特征信息,由YOLO一阶段检测器对该位置特征信息进行位置回归,得到对象的位置信息。
三维卷积神经网络的作用是确定行为的类型。在一种可能的实现方式中,三维卷积神经网络的主干网络可以为SlowFast网络的快通道(Fastpath),分类器可以是任意类型的分类器,这样,可以由快通道提取出运动特征信息,由分类器对该运动特征信息进行行为分类,得到行为的类型。
需要说明的是,SlowFast网络包括慢通道(Slowpath)和快通道,其中,慢通道更加专注于提取低速运动信息,快通道更加专注于提取高速运动信息,而由于打架行为是快速运动,对打架行为的识别更加依赖于高速运动信息,所以,本实施例中选用SlowFast网络的快通道作为三维卷积神经网络的主干网络。
步骤103,根据识别结果确定对象是否存在异常行为。
服务器可以预先设置阈值,并将识别结果中的概率与该阈值进行比较,若该概率大于或等于该阈值,则确定视频中的对象存在异常行为,可以进行报警操作,比如,可以发出警示音,或者,可以生成报警信息,并将报警信息推动给管理者,该报警信息可以包括异常行为的发生位置、人数等等。若该概率小于该阈值,则确定视频中的对象不存在异常行为,可以结束异常行为的识别,或者,服务器可以继续获取视频,再次对获取到的视频进行异常行为的识别。
综上所述,本申请实施例提供的异常行为的识别方法,由于训练好的行检模型包括二维卷积神经网络和三维卷积神经网络,且二维卷积神经网络可以提取视频中的对象的位置特征信息,三维卷积神经网络可以提取对象的运动特征信息,而位置特征信息和运动特征信息可以用于生成异常行为的识别结果,所以,本申请实施例可以根据视频识别异常行为,从而提高了识别精度。
本实施例中,服务器还可以预先训练行检模型,下面对行检模型的训练流程进行介绍。
步骤1,获取测试样本集,该测试样本集中的每组测试样本包括N个测试视频帧和标注信息,该N个测试视频帧中的一个测试视频帧为测试关键帧,且该标注信息是对测试关键帧进行标注得到。
其中,测试样本集是用于训练行检模型的数据,下面对测试样本集的获取方式进行介绍。
在一种可能的实现方式中,获取测试样本集,可以包括以下几个子步骤:
步骤11,获取测试视频。
其中,测试视频可以包括具有异常行为的视频和不具有异常行为的视频。
步骤12,按照预定规则将测试视频划分成多个视频片段。
本实施例中,服务器可以通过预设的截取规则将测试视频划分成多个视频片段。其中,截取规则有很多种,比如,截取规则可以是截取第一时长的视频片段,此时相邻两个视频片段中不存在重复的内容,或者,截取规则可以是每间隔第一时长截取第二时长的视频片段,此时相邻两个视频片段中存在重复的内容。
假设截取规则为每间隔第一时长截取第二时长的视频片段,且第一时长为1秒,第二时长为3秒,视频的总时长为5秒,则服务器可以截取到第1-3秒的视频片段、第2-4秒的视频片段和第3-5秒的视频片段。
步骤13,对于每个视频片段,从视频片段中提取M个测试视频帧,M≥N。
在得到多个视频片段后,服务器可以对每个视频片段执行步骤13和14,得到与每个视频片段对应的一组测试样本。
对于其中的一个视频片段,服务器可以将该视频片段截取成视频帧。假设视频片段的帧率为SHz,第二时长为T秒,则服务器可以从一个视频片段中提取M=S×T个测试视频帧。
步骤14,将M个测试视频帧中的最后一个测试视频帧确定为测试关键帧,对测试关键帧进行标注得到标注信息,从剩余的M-1个测试视频帧中选择N-1个测试视频帧,得到一组测试样本,该标注信息包括测试关键帧中的对象的坐标信息和异常行为的类型信息。
在得到M个测试视频帧之后,服务器可以将其中的最后一个测试视频帧确定为测试关键帧,并对该测试关键帧中的对象进行标注,得到标注信息,该标注信息可以包括坐标信息和异常行为的类型信息。
在一个实施例中,可以在对象外设置矩形区域,并根据该矩形区域生成坐标信息。比如,可以将矩形区域的左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax)作为坐标信息,或者,可以将矩形区域的右上角坐标和左下角坐标作为坐标信息,或者,可以将矩形区域的左上角坐标、右上角坐标、左下角坐标和右下角坐标作为坐标信息。
异常行为的类型信息可以是打架、偷盗等。其中,类型信息的标注取决于测试关键帧之前的测试视频帧中对象产生的动作。
需要说明的是,本实施例中只需对一个视频片段中的一个测试关键帧进行标注,无需对每个测试视频帧进行标注,从而减少了标注的测试视频帧的数量,降低了标注成本,且提高了标注效率。
本实施例中,服务器还可以从剩余的M-1个测试视频帧中随机选择N-1个测试视频帧,将该N-1个测试视频帧和一个测试关键帧组成一组测试样本。
步骤2,创建行检模型,该行检模型包括二维卷积神经网络和三维卷积神经网络。
其中,二维卷积神经网络和三维卷积神经网络的内容详见步骤102中的描述,此处不作赘述。
步骤3,根据测试样本集对行检模型进行训练。
对于每组测试样本,行检模型可以将N个测试视频帧的尺寸缩放为预定尺寸,比如320*320,再对N个测试视频帧进行归一化,将归一化后的N个测试视频帧输入三维卷积神经网络,将测试关键帧输入二维卷积神经网络。
快通道对N个测试关键帧进行特征提取,得到的特征的维度为1×1024×10×10。为了使得快通道更专注于对运动区域的识别,本实施例中还可以通过行检模型中的一个模块对测试关键帧进行处理,得到1×10×10运动历史图(Motion History Image,MHI),该历史运动图中每个像素的灰度值表示一组视频帧中位于像素所在位置的像素的运动情况。然后,可以将运动历史图作为注意力映射层(attention map),使用逐通道注意力运算方式(channel wise attention)处理快通道得到的特征。其中,在使用逐通道注意力运算方式处理快通道得到的特征时,可以将1024个通道的特征与运动历史图进行点乘。然后,可以对得到的特征进行两层2D卷积Conv1和Conv2,再对卷积得到的特征进行5次最大池化(Maxpooling),最终得到运动特征信息,该运动特征信息的维度为1×30×10×10。
二维卷积神经网络对测试关键帧进行特征提取,得到位置特征信息,该位置特征信息的维度为1×30×10×10的。
在得到运动特征信息和位置特征信息后,还可以在融合部分对该运动特征信息和该位置特征信息进行位置回归和行为分类。比如,先通过YOLO一阶段检测器根据位置特征信息得到对象的位置,再通过分类器获取该位置的运动特征信息,对该运动特征信息进行分类,从而得到行为的类型信息,请参考图2。
在训练行检模型时,可以设置优化器为ADAM,针对三维卷积神经网络的参数量大,容易产生过拟合的问题,可以对二维卷积神经网络和三维卷积神经网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置。比如,二维卷积神经网络的基础学习率设置为0.0001,权重衰减参数设置为0.00005;三维卷积神经网络的基础学习率设置为0.00006,权重衰减参数设置为0.0001。然后,可以使用8块NVIDIA 2080TI GPU(Graphics Processing Unit,图形处理器)随机初始化训练,批大小(batch size)设置成64,一共迭代90轮,每30轮两个卷积神经网络的学习率同时降低一半。
本实施例中,服务器可以对步骤3训练的行检模型进行评估,再通过测试集对行检模型进行测试,选择在测试集中精度最好的行检模型。之后,服务器可以利用训练好的行检模型识别视频中的异常行为。
本实施例中,服务器可以训练得到端到端的行检模型。并且,通过将二维卷积神经网络、三维卷积神经网络和运动历史图的注意力机制相结合,使得行检模型可以提取到高质量的特征信息,从而可以提高行检模型的召回率和精度。另外,还可以将异常行为扩展为其他行为,使得行检模型可以识别出其他行为,便捷地扩展了行检模型的识别能力。
请参考图3,其示出了本申请另一实施例提供的异常行为的识别方法的方法流程图,该异常行为的识别方法可以应用于服务器中。该异常行为的识别方法,可以包括:
步骤301,获取待识别的视频。
本实施例中,监控区域内安装的采集设备可以对监控区域进行拍摄,并将拍摄得到的视频发送给服务器,服务器可以接收采集设备发送的视频。其中,采集设备可以是配置有摄像头的设备。
步骤302,通过行检模型对视频进行采样,得到N个视频帧,该N个视频帧中的一个视频帧为关键帧。
本实施例中,服务器可以采用上文中提到的截取方式,先将视频划分成视频片段,再对视频片段进行采样得到N个视频帧。然而,这种采样方式的实时性较差,所以,通过行检模型对视频进行采样,得到N个视频帧,可以包括以下几个子步骤:
步骤3021,通过行检模型按照预定采样策略从视频中提取第i个视频帧,i为正整数。
其中,预定采样策略可以是每帧都采样,或者,预定采样策略可以是间隔预定帧数采样等等。比如,当预定采样策略是检测预定帧数采样,且预定帧数为1时,则行检模型可以以每间隔一帧的频率采样。
步骤3022,通过行检模型将第i个视频帧添加到视频帧队列中。
步骤3023,若当前视频帧队列的实际队列长度等于N,则通过行检模型将视频帧队列中的所有视频帧确定为N个视频帧。
若添加了第i个视频帧后,视频帧队列的实际队列长度等于N,则得到N个视频帧。
需要说明的是,行检模型可以将N个视频帧中的最后一个视频帧确定为关键帧,即,最后添加到视频帧队列中的视频帧为关键帧。
步骤3024,若当前视频帧队列的实际队列长度小于N,则通过行检模型将i更新为i+1,继续执行通过行检模型按照预定采样策略从视频中提取第i个视频帧的步骤。
若添加了第i个视频帧后,视频帧队列的实际队列长度小于N,则继续采样视频帧,直至视频帧队列的实际队列长度等于N时停止采样。
步骤303,通过行检模型中的二维卷积神经网络对关键帧进行处理,得到位置特征信息。
其中,二维卷积神经网络得到位置特征信息的流程详见训练流程中的描述,此处不作赘述。
步骤304,通过行检模型中的三维卷积神经网络对N个视频帧进行处理,得到运动特征信息。
可选的,通过三维卷积神经网络对N个视频帧进行处理,得到运动特征信息,可以包括以下几个子步骤:
步骤3041,通过三维卷积神经网络中的快通道对N个视频帧进行处理,得到中间特征信息。
步骤3042,通过行检模型根据关键帧生成历史运动图,该历史运动图中每个像素的灰度值表示一组视频帧中位于像素所在位置的像素的运动情况。
步骤3043,根据历史运动图对中间特征信息进行逐通道注意力运算,得到运动特征信息。
其中,三维卷积神经网络得到运动特征信息的流程详见训练流程中的描述,此处不作赘述。
步骤305,通过行检模型对位置特征信息和运动特征信息进行处理,得到识别结果。
识别结果可以是视频中的对象存在异常行为的概率。其中,视频中的对象可以是人,异常行为可以是打架行为、偷盗行为等,本实施例不作限定。
其中,行检模型得到识别结果的流程详见训练流程中的描述,此处不作赘述。
步骤306,根据识别结果确定对象是否存在异常行为。
服务器可以预先设置阈值,并将识别结果中的概率与该阈值进行比较,若该概率大于或等于该阈值,则确定视频中的对象存在异常行为,可以进行报警操作,比如,可以发出警示音,或者,可以生成报警信息,并将报警信息推动给管理者,该报警信息可以包括异常行为的发生位置、人数等等。若该概率小于该阈值,则确定视频中的对象不存在异常行为,可以结束异常行为的识别,或者,服务器可以继续获取视频,再次对获取到的视频进行异常行为的识别。
本实施例中,在得到识别结果后,服务器还可以删除视频帧队列中最早添加的一个视频帧;将i更新为i+1,继续执行通过行检模型按照预定采样策略从视频中提取第i个视频帧的步骤。这样,服务器可以实时检测视频中是否存在异常行为。
综上所述,本申请实施例提供的异常行为的识别方法,由于训练好的行检模型包括二维卷积神经网络和三维卷积神经网络,且二维卷积神经网络可以提取视频中的对象的位置特征信息,三维卷积神经网络可以提取对象的运动特征信息,而位置特征信息和运动特征信息可以用于生成异常行为的识别结果,所以,本申请实施例可以根据视频识别异常行为,从而提高了识别精度。
通过将二维卷积神经网络、三维卷积神经网络和运动历史图的注意力机制相结合,使得行检模型可以提取到高质量的特征信息,从而可以提高行检模型的召回率和精度。
请参考图4,其示出了本申请一个实施例提供的异常行为的识别装置的结构框图,该异常行为的识别装置可以应用于服务器中。该异常行为的识别装置,可以包括:
获取模块410,用于获取待识别的视频;
识别模块420,用于通过预先训练的行检模型对视频进行识别,得到异常行为的识别结果,行检模型中的二维卷积神经网络用于提取视频中的对象的位置特征信息,行检模型中的三维卷积神经网络用于提取对象的运动特征信息,位置特征信息和运动特征信息用于生成识别结果;
确定模块430,用于根据识别结果确定对象是否存在异常行为。
在一个实施例中,该识别模块420,还用于:
通过行检模型对视频进行采样,得到N个视频帧,N个视频帧中的一个视频帧为关键帧;
通过二维卷积神经网络对关键帧进行处理,得到位置特征信息;
通过三维卷积神经网络对N个视频帧进行处理,得到运动特征信息;
通过行检模型对位置特征信息和运动特征信息进行处理,得到识别结果。
在一个实施例中,该识别模块420,还用于:
通过三维卷积神经网络中的快通道对N个视频帧进行处理,得到中间特征信息;
通过行检模型根据关键帧生成历史运动图,历史运动图中每个像素的灰度值表示一组视频帧中位于像素所在位置的像素的运动情况;
根据历史运动图对中间特征信息进行逐通道注意力运算,得到运动特征信息。
在一个实施例中,该识别模块420,还用于:
通过行检模型按照预定采样策略从视频中提取第i个视频帧,i为正整数;
通过行检模型将第i个视频帧添加到视频帧队列中;
若当前视频帧队列的实际队列长度等于N,则通过行检模型将视频帧队列中的所有视频帧确定为N个视频帧;
若当前视频帧队列的实际队列长度小于N,则通过行检模型将i更新为i+1,继续执行通过行检模型按照预定采样策略从视频中提取第i个视频帧的步骤。
在一个实施例中,该识别模块420,还用于:
在得到识别结果后,删除视频帧队列中最早添加的一个视频帧;
将i更新为i+1,继续执行通过行检模型按照预定采样策略从视频中提取第i个视频帧的步骤。
在一个实施例中,该获取模块410,还用于在通过预先训练的行检模型对视频进行识别,得到异常行为的识别结果之前,获取测试样本集,测试样本集中的每组测试样本包括N个测试视频帧和标注信息,N个测试视频帧中的一个测试视频帧为测试关键帧,且标注信息是对测试关键帧进行标注得到;
该装置还包括:
创建模块,用于创建行检模型,行检模型包括二维卷积神经网络和三维卷积神经网络;
训练模块,用于根据测试样本集对行检模型进行训练。
在一个实施例中,该获取模块410,还用于:
获取测试视频;
按照预定规则将测试视频划分成多个视频片段;
对于每个视频片段,从视频片段中提取M个测试视频帧,M≥N;
将M个测试视频帧中的最后一个测试视频帧确定为测试关键帧,对测试关键帧进行标注得到标注信息,从剩余的M-1个测试视频帧中选择N-1个测试视频帧,得到一组测试样本,标注信息包括测试关键帧中的对象的坐标信息和异常行为的类型信息。
综上所述,本申请实施例提供的异常行为的识别装置,由于训练好的行检模型包括二维卷积神经网络和三维卷积神经网络,且二维卷积神经网络可以提取视频中的对象的位置特征信息,三维卷积神经网络可以提取对象的运动特征信息,而位置特征信息和运动特征信息可以用于生成异常行为的识别结果,所以,本申请实施例可以根据视频识别异常行为,从而提高了识别精度。
通过将二维卷积神经网络、三维卷积神经网络和运动历史图的注意力机制相结合,使得行检模型可以提取到高质量的特征信息,从而可以提高行检模型的召回率和精度。
本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的异常行为的识别方法。
本申请一个实施例提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的异常行为的识别方法。
需要说明的是:上述实施例提供的异常行为的识别装置在进行异常行为的识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将异常行为的识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的异常行为的识别装置与异常行为的识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。

Claims (10)

1.一种异常行为的识别方法,其特征在于,所述方法包括:
获取待识别的视频;
通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,所述行检模型中的二维卷积神经网络用于提取所述视频中的对象的位置特征信息,所述行检模型中的三维卷积神经网络用于提取所述对象的运动特征信息,所述位置特征信息和所述运动特征信息用于生成所述识别结果;
根据所述识别结果确定所述对象是否存在异常行为。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,包括:
通过所述行检模型对所述视频进行采样,得到N个视频帧,所述N个视频帧中的一个视频帧为关键帧;
通过所述二维卷积神经网络对所述关键帧进行处理,得到所述位置特征信息;
通过所述三维卷积神经网络对所述N个视频帧进行处理,得到所述运动特征信息;
通过所述行检模型对所述位置特征信息和所述运动特征信息进行处理,得到所述识别结果。
3.根据权利要求2所述的方法,其特征在于,所述通过所述三维卷积神经网络对所述N个视频帧进行处理,得到所述运动特征信息,包括:
通过所述三维卷积神经网络中的快通道对所述N个视频帧进行处理,得到中间特征信息;
通过所述行检模型根据所述关键帧生成历史运动图,所述历史运动图中每个像素的灰度值表示一组视频帧中位于所述像素所在位置的像素的运动情况;
根据所述历史运动图对所述中间特征信息进行逐通道注意力运算,得到所述运动特征信息。
4.根据权利要求2所述的方法,其特征在于,所述通过所述行检模型对所述视频进行采样,得到N个视频帧,包括:
通过所述行检模型按照预定采样策略从所述视频中提取第i个视频帧,i为正整数;
通过所述行检模型将所述第i个视频帧添加到视频帧队列中;
若当前所述视频帧队列的实际队列长度等于N,则通过所述行检模型将所述视频帧队列中的所有视频帧确定为所述N个视频帧;
若当前所述视频帧队列的实际队列长度小于N,则通过所述行检模型将i更新为i+1,继续执行所述通过所述行检模型按照预定采样策略从所述视频中提取第i个视频帧的步骤。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在得到所述识别结果后,删除所述视频帧队列中最早添加的一个视频帧;
将i更新为i+1,继续执行所述通过所述行检模型按照预定采样策略从所述视频中提取第i个视频帧的步骤。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果之前,所述方法还包括:
获取测试样本集,所述测试样本集中的每组测试样本包括N个测试视频帧和标注信息,所述N个测试视频帧中的一个测试视频帧为测试关键帧,且所述标注信息是对所述测试关键帧进行标注得到;
创建所述行检模型,所述行检模型包括所述二维卷积神经网络和所述三维卷积神经网络;
根据所述测试样本集对所述行检模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述获取测试样本集,包括:
获取测试视频;
按照预定规则将所述测试视频划分成多个视频片段;
对于每个视频片段,从所述视频片段中提取M个测试视频帧,M≥N;
将所述M个测试视频帧中的最后一个测试视频帧确定为测试关键帧,对所述测试关键帧进行标注得到所述标注信息,从剩余的M-1个测试视频帧中选择N-1个测试视频帧,得到一组测试样本,所述标注信息包括所述测试关键帧中的对象的坐标信息和异常行为的类型信息。
8.一种异常行为的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的视频;
识别模块,用于通过预先训练的行检模型对所述视频进行识别,得到异常行为的识别结果,所述行检模型中的二维卷积神经网络用于提取所述视频中的对象的位置特征信息,所述行检模型中的三维卷积神经网络用于提取所述对象的运动特征信息,所述位置特征信息和所述运动特征信息用于生成所述识别结果;
确定模块,用于根据所述识别结果确定所述对象是否存在异常行为。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的异常行为的识别方法。
10.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的异常行为的识别方法。
CN202010113177.8A 2020-02-24 2020-02-24 异常行为的识别方法、装置、存储介质及服务器 Active CN111291707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010113177.8A CN111291707B (zh) 2020-02-24 2020-02-24 异常行为的识别方法、装置、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010113177.8A CN111291707B (zh) 2020-02-24 2020-02-24 异常行为的识别方法、装置、存储介质及服务器

Publications (2)

Publication Number Publication Date
CN111291707A true CN111291707A (zh) 2020-06-16
CN111291707B CN111291707B (zh) 2021-03-23

Family

ID=71024678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010113177.8A Active CN111291707B (zh) 2020-02-24 2020-02-24 异常行为的识别方法、装置、存储介质及服务器

Country Status (1)

Country Link
CN (1) CN111291707B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016701A (zh) * 2020-09-09 2020-12-01 四川大学 一种融合时序和属性行为的异常变化检测方法及系统
CN112597824A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 行为识别方法、装置、电子设备和存储介质
CN113642527A (zh) * 2021-09-08 2021-11-12 天津工业大学 基于YOLOv3和C3D神经网络的视频中异常人体行为检测
CN113807328A (zh) * 2021-11-18 2021-12-17 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN114359791A (zh) * 2021-12-16 2022-04-15 北京信智文科技有限公司 一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法
CN114821766A (zh) * 2022-03-10 2022-07-29 电子科技大学 一种基于时空卷积和时间序列特征融合的行为识别方法
CN116189063A (zh) * 2023-04-24 2023-05-30 青岛润邦泽业信息技术有限公司 一种用于智能视频监控的关键帧优化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308444A (zh) * 2018-07-16 2019-02-05 重庆大学 一种室内环境下的异常行为识别方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法
CN110363093A (zh) * 2019-06-19 2019-10-22 深圳大学 一种司机动作识别方法及装置
CN110942009A (zh) * 2019-11-22 2020-03-31 南京甄视智能科技有限公司 基于时空混合卷积网络的跌倒检测方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308444A (zh) * 2018-07-16 2019-02-05 重庆大学 一种室内环境下的异常行为识别方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法
CN110363093A (zh) * 2019-06-19 2019-10-22 深圳大学 一种司机动作识别方法及装置
CN110942009A (zh) * 2019-11-22 2020-03-31 南京甄视智能科技有限公司 基于时空混合卷积网络的跌倒检测方法与系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016701A (zh) * 2020-09-09 2020-12-01 四川大学 一种融合时序和属性行为的异常变化检测方法及系统
CN112016701B (zh) * 2020-09-09 2023-09-15 四川大学 一种融合时序和属性行为的异常变化检测方法及系统
CN112597824A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 行为识别方法、装置、电子设备和存储介质
CN113642527A (zh) * 2021-09-08 2021-11-12 天津工业大学 基于YOLOv3和C3D神经网络的视频中异常人体行为检测
CN113807328A (zh) * 2021-11-18 2021-12-17 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN113807328B (zh) * 2021-11-18 2022-03-18 济南和普威视光电技术有限公司 一种基于算法融合的目标检测方法、设备及介质
CN114359791A (zh) * 2021-12-16 2022-04-15 北京信智文科技有限公司 一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法
CN114359791B (zh) * 2021-12-16 2023-08-01 北京信智文科技有限公司 一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法
CN114821766A (zh) * 2022-03-10 2022-07-29 电子科技大学 一种基于时空卷积和时间序列特征融合的行为识别方法
CN116189063A (zh) * 2023-04-24 2023-05-30 青岛润邦泽业信息技术有限公司 一种用于智能视频监控的关键帧优化方法及装置
CN116189063B (zh) * 2023-04-24 2023-07-18 青岛润邦泽业信息技术有限公司 一种用于智能视频监控的关键帧优化方法及装置

Also Published As

Publication number Publication date
CN111291707B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN111291707B (zh) 异常行为的识别方法、装置、存储介质及服务器
CN108875676B (zh) 活体检测方法、装置及系统
US20190311223A1 (en) Image processing methods and apparatus, and electronic devices
CN111898581B (zh) 动物检测方法、装置、电子设备及可读存储介质
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN110781960B (zh) 视频分类模型的训练方法、分类方法、装置及设备
CN110399826B (zh) 一种端到端人脸检测和识别方法
CN113591674B (zh) 一种面向实时视频流的边缘环境行为识别系统
CN111027555A (zh) 一种车牌识别方法、装置及电子设备
CN115240203A (zh) 业务数据处理方法、装置、设备及存储介质
CN111967529B (zh) 识别方法、装置、设备及系统
CN114764895A (zh) 异常行为检测装置和方法
CN115346169B (zh) 一种睡岗行为检测方法及系统
CN110738129A (zh) 一种基于r-c3d网络的端到端视频时序行为检测方法
CN113689585B (zh) 一种无感考勤打卡方法、系统及相关设备
CN115424253A (zh) 车牌识别方法、装置、电子设备和存储介质
CN114613010A (zh) 检测模型的训练方法及装置、吸烟行为的检测方法及装置
CN115346143A (zh) 行为检测方法、电子设备、计算机可读介质
CN112668504A (zh) 动作识别方法、装置及电子设备
CN111860070A (zh) 识别发生改变的对象的方法和装置
CN111860261A (zh) 一种客流值的统计方法、装置、设备及介质
CN112347996A (zh) 一种场景状态判断方法、装置、设备及存储介质
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN111159511A (zh) 轨迹数据的处理方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd.

Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder