CN114419739A - 行为识别模型的训练方法、行为识别方法及设备 - Google Patents

行为识别模型的训练方法、行为识别方法及设备 Download PDF

Info

Publication number
CN114419739A
CN114419739A CN202210327664.3A CN202210327664A CN114419739A CN 114419739 A CN114419739 A CN 114419739A CN 202210327664 A CN202210327664 A CN 202210327664A CN 114419739 A CN114419739 A CN 114419739A
Authority
CN
China
Prior art keywords
image
video image
behavior
frame
behavior recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210327664.3A
Other languages
English (en)
Inventor
周波
梁书玉
苗瑞
邹小刚
田晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen HQVT Technology Co Ltd
Original Assignee
Shenzhen HQVT Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen HQVT Technology Co Ltd filed Critical Shenzhen HQVT Technology Co Ltd
Priority to CN202210327664.3A priority Critical patent/CN114419739A/zh
Publication of CN114419739A publication Critical patent/CN114419739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种行为识别模型的训练方法、行为识别方法及设备。该行为识别模型的训练方法包括:获取历史视频图像,所述历史视频图像包含不同环境下学生的预设行为视频图像;采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像;响应行为标识操作,对所述局部运动历史视频图像的每帧图像中的预设行为进行标识;利用标识后的所述局部运动历史视频图像对卷积神经网络模型进行训练,得到所述行为识别模型,所述行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。本申请的方法可以检测和识别出视频图像中的预设行为,以提升无人监控的效果。

Description

行为识别模型的训练方法、行为识别方法及设备
技术领域
本申请涉及行为识别技术,尤其涉及一种行为识别模型的训练方法、行为识别方法及设备。
背景技术
基于计算机视觉的人体行为识别技术在视频监控领域应用广泛,尤其是在监控场景中,基于计算机视觉的人体行为识别技术开发的无人监控技术更是经常被使用。无人监控技术多用于对学生进入考场之前进行身份验证,例如人脸识别、指纹验证等,还用于对学生是否携带作弊用品进行检查。
但是,无人监控技术还无法对学生进入考场后的不规范行为(预设行为)进行识别。为了提升无人监控的效果,开发一种对预设行为进行识别的方法,是至关重要的。
发明内容
本申请提供一种行为识别模型的训练方法、行为识别方法及设备,用以检测和识别出视频图像中的预设行为,以提升无人监控的效果。
一方面,本申请提供一种行为识别模型的训练方法,包括:
获取历史视频图像,所述历史视频图像包含不同环境下学生的预设行为视频图像;
采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像;
响应行为标识操作,对所述局部运动历史视频图像的每帧图像中的预设行为进行标识;
利用标识后的所述局部运动历史视频图像对卷积神经网络模型进行训练,得到所述行为识别模型,所述行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。
可选的,所述卷积神经网络模型为三维3D卷积网络与长短期记忆网络LSTM卷积层结合后得到的模型。
可选的,所述卷积神经网络模型基于卷积核接收视频图像和进行视频图像的特征提取;
提取视频图像的时空特征后,利用ReLU函数增加非线性;
由全连接层输出结果,其中,所述全连接层包含Softmax激活函数。
可选的,所述采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像包括:
通过帧差法、求差分图像法和二值化处理法,对所述历史视频图像进行处理,得到全局运动历史视频图像;
采用最小外接矩形原则对所述全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到所述局部运动历史视频图像。
可选的,所述通过帧差法、求差分图像法和二值化处理法,对所述历史视频图像进行处理,得到全局运动历史视频图像包括:
通过帧差法、求差分图像法和二值化处理法对所述历史视频图像进行处理,得到灰度化之后的视频帧图像和所述视频帧图像中的运动目标;
结合运动目标和视频帧图像的时间戳,得到所述全局运动历史视频图像,其中,视频帧图像的时间戳与当前时间的差值越小时,视频帧图像中的行为动作在所述全局运动历史视频图像中的灰度值越大;视频帧图像的时间戳与当前时间的差值越大时,视频帧图像中的行为动作在所述全局运动历史视频图像中的灰度值越小。
可选的,所述采用最小外接矩形原则对所述全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到所述局部运动历史视频图像包括:
采用最小外接矩形原则,对所述全局运动历史视频图像的每帧图像进行运动区域的分割,并通过矩形的大小和长宽筛选出目标区域;
对于目标区域中的像素,按照各向异性缩放方式进行尺度变换的方式进行归一化处理,以使进行了运动区域分割后的每帧图像的大小一致,得到所述局部运动历史视频图像。
另一方面,本申请提供一种行为识别方法,包括:
获取待识别的视频图像;
将所述待识别的视频图像输入至行为识别模型中,得到多张包含预设行为的图片,且每张图片具有预设行为的标识,所述行为识别模型为根据第一方面所述的行为识别模型的训练方法确定得到的。
另一方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的行为识别模型的训练方法。
另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如第一方面所述的行为识别模型的训练方法。
另一方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的行为识别模型的训练方法。
本申请提供的行为识别模型的训练方法,以历史视频图像来训练卷积神经网络模型,得到行为识别模型,该行为识别模型用于对视频图像中的预设行为进行识别。具体的,先获取历史视频图像,所述历史视频图像包含不同环境下学生的预设行为视频图像。再采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像。然后响应行为标识操作,对所述局部运动历史视频图像的每帧图像中的预设行为进行标识。利用标识后的所述局部运动历史视频图像对卷积神经网络模型进行训练,得到行为识别模型。由于基于该历史视频图像得到的局部运动历史视频图像具有预设行为的标识,以局部运动历史视频图像训练卷积神经网络后,使得训练后的卷积神经网络(即行为识别模型)可以对视频图像以基于局部运动视频图像的方式进行预设行为的识别。由此,本申请提供的方法可以检测和识别出视频图像中的预设行为,提升了无人监控的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请提供的行为识别模型的训练方法的一种应用场景示意图;
图2为本申请的一个实施例提供的行为识别模型的训练方法的流程示意图;
图3为本申请的一个实施例提供的具有预设行为标识后的图像示意图;
图4为本申请的一个实施例提供的卷积神经网络模型的示意图;
图5为本申请的一个实施例提供的行为识别方法的示意图;
图6为本申请的一个实施例提供的行为识别方法的另一个示意图;
图7为本申请的一个实施例提供的行为识别模型的训练装置的示意图;
图8为本申请的一个实施例提供的行为识别装置的示意图;
图9为本申请的一个实施例提供的电子设备的示意图;
图10为本申请的另一个实施例提供的电子设备的示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
无人监控技术多用于对学生进入考场之前进行身份验证,例如人脸识别、指纹验证等,还用于对学生是否携带作弊用品进行检查。但是,无人监控技术还无法对学生进入考场后的不规范行为(预设行为,例如举手、交头接耳、站立等)进行识别。
为了提升无人监控的效果,开发一种对预设行为进行识别的方法,是至关重要的。
基于此,本申请提供一种行为识别模型的训练方法、行为识别方法及设备。该行为识别模型的训练方法以历史视频图像来训练卷积神经网络模型,得到行为识别模型,该行为识别模型用于对视频图像中的预设行为进行识别。由于基于该历史视频图像得到的局部运动历史视频图像具有预设行为的标识,以局部运动历史视频图像训练卷积神经网络后,使得训练后的卷积神经网络(即行为识别模型)可以对视频图像以基于局部运动视频图像的方式进行预设行为的识别。由此,本申请提供的方法可以检测和识别出视频图像中的预设行为,提升了无人监控的效果。
本申请提供的行为识别模型的训练方法应用于电子设备,该电子设备例如计算机、实验室用的服务器等。图1为本申请提供的行为识别模型的训练方法的应用示意图,图中,该电子设备采用行为序列特征提取方法对历史视频图像进行处理,得到局部运动历史视频图像,再响应行为标识操作,对该局部运动历史视频图像的每帧图像中的预设行为进行标识。利用标识后的该局部运动历史视频图像对卷积神经网络模型进行训练,得到该行为识别模型。
请参见图2,本申请其中一个实施例提供一种行为识别模型的训练方法,包括:
S210,获取历史视频图像,该历史视频图像包含不同环境下学生的预设行为视频图像。
该历史视频图像是以往拍摄到的包含学生的预设行为的视频图像,该预设行为例如举手、交头接耳、站立等。
可选的,该历史视频图像是拍摄多个不同场景后得到的视频图像,每个场景中与多个学生,优选的,每个场景中至少有20个学生。一个场景中有至少一个学生有预设行为,因此该历史视频图像包含很多具有预设行为的图像。
可选的,该视频图像的分辨率至少为1280×720。
S220,采用行为序列特征提取方法对该历史视频图像进行处理,得到局部运动历史视频图像。
该历史视频图像可将人体行为从多帧描述方式转换为单帧描述方式,并能反映运动的先后顺序,保留了行为识别所必须的时空信息。
基于历史视频图像的行为特征提取主要包括全局运动历史图像的生成和局部运动历史图像分割和归一化两个步骤。
第一步骤:首先,通过帧差法、求差分图像法和二值化处理法,对该历史视频图像进行处理,得到全局运动历史视频图像。
在生成全局运动历史图像时,首先需要进行历史视频图像中运动前景的提取,再通过帧差法、求差分图像法和二值化处理法对该历史视频图像进行处理,得到灰度化之后的视频帧图像和该视频帧图像中的运动目标。结合运动目标和视频帧图像的时间戳,得到该全局运动历史谁呢图像。
具体的,在得到灰度化之后的视频帧图像后,对t时刻灰度化之后的视频帧图像I (x,y,t),通过求差分图像法求差分图像
Figure DEST_PATH_IMAGE001
,其中,
Figure 172294DEST_PATH_IMAGE001
=|I(x,y,t+1)-I(x,y,t) |。再对差分图像进行二值化处理,得到
Figure 686452DEST_PATH_IMAGE002
,其中,
Figure DEST_PATH_IMAGE003
为判断当前位 置是否存在行为动作的阈值。
基于时间戳的视频帧图像的灰度值更新方式
Figure 19345DEST_PATH_IMAGE004
,则,越近发生的行为动作的灰度值越大, 越远发生的行为动作灰度值随时间逐步衰减。即,视频帧图像的时间戳与当前时间的差值 越小时,视频帧图像中的行为动作在该全局运动历史视频图像中的灰度值越大;视频帧图 像的时间戳与当前时间的差值越大时,视频帧图像中的行为动作在该全局运动历史视频图 像中的灰度值越小。
第二步骤:采用最小外接矩形原则对该全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到该局部运动历史视频图像。
对该全局运动历史视频图像进行运动区域分割后,得到全局运动历史视频图像的运动背景部分和非运动背景部分,其中,运动背景部分不仅影响识别效果,还会增加如下描述的行为识别模型的计算量,应该予以删除。对每一时刻生成的全局运动历史视频图像,采用最小外接矩形原则进行运动区域的分割,分割之后的每个图像大小不是一致的,这对于后续模型训练的过程会产生影响。因此,需要通过矩形的大小和长宽筛选出目标区域,该目标区域指的是分割图像中需要按照各向异性缩放方式进行尺度变换的区域。
对于目标区域中的像素,按照各向异性缩放方式进行尺度变换的方式进行归一化 处理,以使进行了运动区域分割后的每帧图像的大小一致,得到该局部运动历史视频图像。 具体的,对于初始位置
Figure DEST_PATH_IMAGE005
的像素,按照各向异性缩放方式进行尺度变换之后的位置为
Figure 36979DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
,其中,
Figure 797125DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别为
Figure 202174DEST_PATH_IMAGE010
方向和
Figure DEST_PATH_IMAGE011
方向的缩放比例。
S230,响应行为标识操作,对该局部运动历史视频图像的每帧图像中的预设行为进行标识。
图3为人为对该预设行为标识后的示意图。可以通过图片标注软件LableImage对预设行为进行手动标识,标出预设行为的边框以及对应的行为名称,得到XML文件。该边框的形状、颜色等均可以根据实际需要设置,本申请不做限定。该对应的行为名称例如举手、交头接耳等。
S240,利用标识后的该局部运动历史视频图像对卷积神经网络模型进行训练,得到该行为识别模型,该行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。
可选的,请参见图4,该卷积神经网络模型为三维3D卷积网络与长短期记忆网络LSTM卷积层结合后得到的模型。该卷积神经网络模型基于卷积核接收视频图像和进行视频图像的特征提取。提取视频图像的时空特征后,利用ReLU函数增加非线性。最后由全连接层输出结果,其中,该全连接层包含Softmax激活函数。
卷积核的大小为160*120*3,使得该卷积神经网络模型可以实现以每秒30帧的速度对2秒的视频进行分类。
三维卷积层和LSTM卷积层用于提取视频图像中的时间特征和空间特征。三维卷积层(Conv 3D)和LSTM卷积层(Conv LSTM)各有48个卷积核。计算测试表明,48个卷积核在计算资源消耗和正确的特征提取之间提供了良好的比例,并且在组合这些类型的层时具有良好的性能。该特征提取层共同提取了长期和短期的时间特征,同时提取了空间特征。提取出时空特征后,利用ReLU激活函数将三维卷积层和LSTM卷积层分为两个完全连通的层,增加该卷积神经网络模型的非线性。
LSTM卷积层利用3D卷积层提供的信息(包含短期空间和时间的信息)来学习长期的特征。该局部运动历史视频图像通过一系列的卷积核进行卷积来提取图像特征,然后通过该全连接层,实现对图像的分类和预测。
以大量标识后的该局部运动历史视频图像对卷积神经网络模型进行训练后,得到的该行为识别模型可以对视频图像中的预设行为进行识别,并输出多张包含预设行为的图片,且每张图片具有预设行为的标识。该标识如上描述的边框以及对应的行为名称。
该行为识别模型对该视频图像中的预设行为进行识别时,还可以根据识别出的属于预设行为的概率,对视频图像中的行为进行等级划分。例如将属于预设行为的概率为百分之五十以下的行为划分为可能为预设行为等级,将属于预设行为的概率为百分之五十以上且百分之七十以下的行为划分为轻度预设行为等级,将属于预设行为的概率为百分之七十的行为划分为重度预设行为。
本实施例提供的行为识别模型的训练方法,以历史视频图像来训练卷积神经网络模型,得到行为识别模型,该行为识别模型用于对视频图像中的预设行为进行识别。具体的,先获取历史视频图像,该历史视频图像包含不同环境下学生的预设行为视频图像。再采用行为序列特征提取方法对该历史视频图像进行处理,得到局部运动历史视频图像。然后响应行为标识操作,对该局部运动历史视频图像的每帧图像中的预设行为进行标识。利用标识后的该局部运动历史视频图像对卷积神经网络模型进行训练,得到行为识别模型。由于基于该历史视频图像得到的局部运动历史视频图像具有预设行为的标识,以局部运动历史视频图像训练卷积神经网络后,使得训练后的卷积神经网络(即行为识别模型)可以对视频图像以基于局部运动视频图像的方式进行预设行为的识别。由此,本实施例提供的方法可以检测和识别出视频图像中的预设行为,提升了无人监控的效果。
请参见图5,本申请其中一个实施例提供一种行为识别方法,包括:
S510,获取待识别的视频图像。
该待识别的视频图像是由摄像机拍摄得到的。
在输入至该行为识别模型之前,可以先采用以上描述的该行为序列特征提取方法对该待识别的视频图像进行处理,得到该待识别的视频图像的局部运动历史视频图像。
S520,将该待识别的视频图像输入至行为识别模型中,得到多张包含预设行为的图片,且每张图片具有预设行为的标识,该行为识别模型为根据如上描述的行为识别模型的训练方法确定得到的。
请参考图6和如上描述,可以先采用该行为序列特征提取方法对该待识别的视频图像进行处理,得到该待识别的视频图像的局部运动历史视频图像,再将局部运动历史视频图像输入至该行为识别模型中。
该行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。该标识例如边框以及对应的行为名称。
本实施例提供的行为识别方法,利用以上实施例描述的该行为识别模型对视频图像以基于局部运动视频图像的方式进行预设行为的识别,可以识别得到具有预设行为的图片,还可以对图片上的预设行为进行标识。由此,本实施例提供的方法可以检测和识别出视频图像中的预设行为,提升了无人监控的效果。
请参见图7,本申请其中一个实施例还提供一种行为识别模型的训练装置10,包括:
获取模块11,用于获取历史视频图像,该历史视频图像包含不同环境下学生的预设行为视频图像。
图像处理模块12,用于采用行为序列特征提取方法对该历史视频图像进行处理,得到局部运动历史视频图像。
标识模块13,用于响应行为标识操作,对该局部运动历史视频图像的每帧图像中的预设行为进行标识。
模型训练模块14,用于利用标识后的该局部运动历史视频图像对卷积神经网络模型进行训练,得到该行为识别模型,该行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。
可选的,该卷积神经网络模型为三维3D卷积网络与长短期记忆网络LSTM卷积层结合后得到的模型。该卷积神经网络模型基于卷积核接收视频图像和进行视频图像的特征提取;提取视频图像的时空特征后,利用ReLU函数增加非线性;由全连接层输出结果,其中,该全连接层包含Softmax激活函数。
该图像处理模块12具体用于通过帧差法、求差分图像法和二值化处理法,对该历史视频图像进行处理,得到全局运动历史视频图像;采用最小外接矩形原则对该全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到该局部运动历史视频图像。
该图像处理模块12具体用于通过帧差法、求差分图像法和二值化处理法对该历史视频图像进行处理,得到灰度化之后的视频帧图像和该视频帧图像中的运动目标;结合运动目标和视频帧图像的时间戳,得到该全局运动历史视频图像,其中,视频帧图像的时间戳与当前时间的差值越小时,视频帧图像中的行为动作在该全局运动历史视频图像中的灰度值越大;视频帧图像的时间戳与当前时间的差值越大时,视频帧图像中的行为动作在该全局运动历史视频图像中的灰度值越小。
该图像处理模块12具体用于采用最小外接矩形原则,对该全局运动历史视频图像的每帧图像进行运动区域的分割,并通过矩形的大小和长宽筛选出目标区域;对于目标区域中的像素,按照各向异性缩放方式进行尺度变换的方式进行归一化处理,以使进行了运动区域分割后的每帧图像的大小一致,得到该局部运动历史视频图像。
请参见图8,本申请其中一个实施例还提供一种行为识别装置20,包括:
获取模块21,用于获取待识别的视频图像。
处理模块22,用于将该待识别的视频图像输入至行为识别模型中,得到多张包含预设行为的图片,且每张图片具有预设行为的标识,该行为识别模型为根据以上任一项实施例描述的行为识别模型的训练方法确定得到的。
请参见图9,本申请其中一个实施例还提供一种电子设备30,包括处理器31和存储器32,该处理器31与该存储器32通信连接。该存储器32存储计算机执行指令。该处理器31执行该存储器32存储的计算机执行指令,以实现如上任一项实施例描述的行为识别模型的训练方法。
请参见图10,本申请其中一个实施例还提供一种电子设备40,包括处理器41和存储器42,该处理器41与该存储器42通信连接。该存储器42存储计算机执行指令,该处理器41执行该存储器42存储的计算机执行指令,以实现如上任一项实施例描述的行为识别方法。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当该指令被执行时,使得计算机执行指令被处理器执行时用于实现如上任一项实施例提供的该行为识别模型的训练方法。
本申请还提供另一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当该指令被执行时,使得计算机执行如上任一项实施例提供的行为识别方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上任一项实施例提供的行为识别模型的训练方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上任一项实施例提供的行为识别方法。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器。也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所描述的方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种行为识别模型的训练方法,其特征在于,所述方法还包括:
获取历史视频图像,所述历史视频图像包含不同环境下学生的预设行为视频图像;
采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像;
响应行为标识操作,对所述局部运动历史视频图像的每帧图像中的预设行为进行标识;
利用标识后的所述局部运动历史视频图像对卷积神经网络模型进行训练,得到所述行为识别模型,所述行为识别模型用于对视频图像中的预设行为进行识别,输出多张包含预设行为的图片,且每张图片具有预设行为的标识。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型为三维3D卷积网络与长短期记忆网络LSTM卷积层结合后得到的模型。
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络模型基于卷积核接收视频图像和进行视频图像的特征提取;
提取视频图像的时空特征后,利用ReLU函数增加非线性;
由全连接层输出结果,其中,所述全连接层包含Softmax激活函数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述采用行为序列特征提取方法对所述历史视频图像进行处理,得到局部运动历史视频图像包括:
通过帧差法、求差分图像法和二值化处理法,对所述历史视频图像进行处理,得到全局运动历史视频图像;
采用最小外接矩形原则对所述全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到所述局部运动历史视频图像。
5.根据权利要求4所述的方法,其特征在于,所述通过帧差法、求差分图像法和二值化处理法,对所述历史视频图像进行处理,得到全局运动历史视频图像包括:
通过帧差法、求差分图像法和二值化处理法对所述历史视频图像进行处理,得到灰度化之后的视频帧图像和所述视频帧图像中的运动目标;
结合运动目标和视频帧图像的时间戳,得到所述全局运动历史视频图像,其中,视频帧图像的时间戳与当前时间的差值越小时,视频帧图像中的行为动作在所述全局运动历史视频图像中的灰度值越大;视频帧图像的时间戳与当前时间的差值越大时,视频帧图像中的行为动作在所述全局运动历史视频图像中的灰度值越小。
6.根据权利要求4所述的方法,其特征在于,所述采用最小外接矩形原则对所述全局运行历史视频图像的每帧图像进行运动区域的分割,并对进行了运动区域分割后的每帧图像进行归一化处理,得到所述局部运动历史视频图像包括:
采用最小外接矩形原则,对所述全局运动历史视频图像的每帧图像进行运动区域的分割,并通过矩形的大小和长宽筛选出目标区域;
对于目标区域中的像素,按照各向异性缩放方式进行尺度变换的方式进行归一化处理,以使进行了运动区域分割后的每帧图像的大小一致,得到所述局部运动历史视频图像。
7.一种行为识别方法,其特征在于,包括:
获取待识别的视频图像;
将所述待识别的视频图像输入至行为识别模型中,得到多张包含预设行为的图片,且每张图片具有预设行为的标识,所述行为识别模型为根据权利要求1-6任一项所述的方法确定得到的。
8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至6中任一项所述的行为识别模型的训练方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如权利要求1-6中任一项所述的行为识别模型的训练方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的行为识别模型的训练方法。
CN202210327664.3A 2022-03-31 2022-03-31 行为识别模型的训练方法、行为识别方法及设备 Pending CN114419739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210327664.3A CN114419739A (zh) 2022-03-31 2022-03-31 行为识别模型的训练方法、行为识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210327664.3A CN114419739A (zh) 2022-03-31 2022-03-31 行为识别模型的训练方法、行为识别方法及设备

Publications (1)

Publication Number Publication Date
CN114419739A true CN114419739A (zh) 2022-04-29

Family

ID=81264311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210327664.3A Pending CN114419739A (zh) 2022-03-31 2022-03-31 行为识别模型的训练方法、行为识别方法及设备

Country Status (1)

Country Link
CN (1) CN114419739A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100809A (zh) * 2022-06-17 2022-09-23 安徽三音电子科技有限公司 一种智能楼宇安防监控系统
CN116363761A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 基于图像的行为识别方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108133188A (zh) * 2017-12-22 2018-06-08 武汉理工大学 一种基于运动历史图像与卷积神经网络的行为识别方法
US20180225516A1 (en) * 2017-02-06 2018-08-09 Brown University Method and system for automated behavior classification of test subjects
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
CN109934158A (zh) * 2019-03-11 2019-06-25 合肥工业大学 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法
WO2020042984A1 (zh) * 2018-08-28 2020-03-05 杭州海康威视数字技术股份有限公司 一种车辆行为检测方法及装置
CN111507283A (zh) * 2020-04-21 2020-08-07 浙江蓝鸽科技有限公司 基于课堂场景的学生行为识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225516A1 (en) * 2017-02-06 2018-08-09 Brown University Method and system for automated behavior classification of test subjects
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108133188A (zh) * 2017-12-22 2018-06-08 武汉理工大学 一种基于运动历史图像与卷积神经网络的行为识别方法
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
WO2020042984A1 (zh) * 2018-08-28 2020-03-05 杭州海康威视数字技术股份有限公司 一种车辆行为检测方法及装置
CN109934158A (zh) * 2019-03-11 2019-06-25 合肥工业大学 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法
CN111507283A (zh) * 2020-04-21 2020-08-07 浙江蓝鸽科技有限公司 基于课堂场景的学生行为识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100809A (zh) * 2022-06-17 2022-09-23 安徽三音电子科技有限公司 一种智能楼宇安防监控系统
CN116363761A (zh) * 2023-06-01 2023-06-30 深圳海清智元科技股份有限公司 基于图像的行为识别方法、装置及电子设备
CN116363761B (zh) * 2023-06-01 2023-08-18 深圳海清智元科技股份有限公司 基于图像的行为识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110517246B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN108268867B (zh) 一种车牌定位方法及装置
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
CN114419739A (zh) 行为识别模型的训练方法、行为识别方法及设备
US20140140583A1 (en) Image recognition apparatus and image recognition method for identifying object
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN111368682A (zh) 一种基于faster RCNN台标检测与识别的方法及系统
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN116311214B (zh) 车牌识别方法和装置
Shah et al. Efficient portable camera based text to speech converter for blind person
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN115049675A (zh) 生成区域确定及光斑生成方法、设备、介质及程序产品
CN112836682B (zh) 视频中对象的识别方法、装置、计算机设备和存储介质
CN112241736A (zh) 一种文本检测的方法及装置
CN110969173A (zh) 目标分类方法及装置
CN116884003B (zh) 图片自动标注方法、装置、电子设备及存储介质
CN113486856A (zh) 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN110610177A (zh) 字符识别模型的训练方法、字符识别方法及装置
CN111402185A (zh) 一种图像检测方法及装置
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统
CN114387496A (zh) 一种目标检测方法和电子设备
CN112418244A (zh) 目标检测方法、装置和电子系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220429

RJ01 Rejection of invention patent application after publication