CN114241348A - 基于多模块卷积神经网络的异常行为识别方法及装置 - Google Patents
基于多模块卷积神经网络的异常行为识别方法及装置 Download PDFInfo
- Publication number
- CN114241348A CN114241348A CN202111285451.0A CN202111285451A CN114241348A CN 114241348 A CN114241348 A CN 114241348A CN 202111285451 A CN202111285451 A CN 202111285451A CN 114241348 A CN114241348 A CN 114241348A
- Authority
- CN
- China
- Prior art keywords
- abnormal behavior
- classification
- videos
- data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模块卷积神经网络的异常行为识别方法与装置,其方法包括:采集并获得多分类的异常行为视频;将所述多分类的异常行为视频进行数据增强;对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,建立对应的异常行为数据集;提取输入视频帧并进行角度自适应处理,得到校正后的视频帧;将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;生成异常行为报告。本发明实施例可以对实际场景下的异常行为进行监测,保证识别的准确性与实时性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种真实场景中基于多模块卷积神经网络的异常行为识别方法及装置。
背景技术
随着现代化理论与硬件的快速发展,计算机视觉领域的行为识别技术在各行各业被广泛应用,它在图像的基础上完成对视频中人物的行为理解更能满足日常人们生产生活需要。
然而,现有的方法在实际场景中通常表现不佳,主要是由于以下三个原因:第一:动作类别单一。由于在获取行为数据集的过程中,数据收集需要大量的人力、物力资源和时间成本,这严重限制了行为类别的多样性,导致早期的方法只检测到一到两种异常行为,很难应用于实际场景。
第二:角度畸变现象。由于相机视角固定,视频画面中的人物走动会导致人体姿势逐渐发生畸变,一种“身长腿短”的视觉现象,从而影响模型的判断,鲁棒性差。
第三:检测精度不高。以往的方法只采用3D卷积神经网络提取时空特征,对通道级特征缺乏关注,然而模型的输出对不同的特征具有不同的依赖性,盲目地将通道级特征分配统一的权重,将导致有价值的信息丢失,降低模型的识别精度。
所以现有的行为识别技术不能准确高效地识别出目标的行为,在应用在实际场景下,可能会发生相机角度畸变、动作识别单一和检测精度欠缺的现状。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种真实场景中基于多模块卷积神经网络的异常行为识别装置,可以对真实场景下的老人的异常行为进行精准识别,同时保证了检测的准确性与实时性。
为了解决上述问题,本发明提出了一种基于3D卷积神经网络的实际场景异常行为识别方法,所述方法包括:
从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;
对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;
将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
对所述异常行为分类结果进行统计,并生成异常行为报告。
所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:
基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理,获得多种异常行为视频;
对所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。
所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:
对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;
其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。
所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:
将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。
所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:
对所述输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);
将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。
所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:
将所述角度自适应模块的输出数据送入基于3DResnet构建的双流特征提取网络,分别对时间、空间维度进行特征提取;
将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合,获得融合后的时空特征;
其中,所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。
所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果,包括:
采用3D平均自适应池化操作对所述时空特征(N,T,C,H,W)从H与W两个维度进行特征压缩,压缩成(N,T,C,1,1),处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图;
利用两个3D卷积层对压缩后的数据从通道维度进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数;
将激活后的数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征;
将所述时空特征送入全连接网络进行异常行为分类,获得异常行为分类结果。
所述收敛的3D卷积神经网络模型的训练过程包括:
构建3D卷积神经网络模型,通过迁移学习的方式采用Kinetics-400数据集对所述3D卷积神经网络模型进行预训练;
基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练,迭代次数设置为80次,初始学习率为0.001,并选取SGD作为训练优化器,利用标注信息对模型参数进行优化;
利用测试集对训练好的模型进行测试,根据测试结果判断模型是否收敛。
所述对所述异常行为分类结果进行统计,并生成异常行为报告,包括:
异常行为监控平台基于实时监控画面对异常行为分类结果进行在线检测统计,并根据在线检测统计结果生成生成异常行为报告;
其中,所述异常行为监控平台采用Pyqt5构建。
相应的,本发明还提出了一种基于3D卷积神经网络的实际场景异常行为识别装置,其特征在于,所述装置包括:
数据采集模块:用于从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
数据增强模块:用于将所述多分类的异常行为视频进行数据增强获得数据增强后的多分类的异常行为视频;
数据集建立模块:用于对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
角度自适应模块:用于提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
特征提取融合模块:将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;
特征增强模块:用于将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
异常行为记录模块:用于对异常行为进行统计,并生成异常行为报告。
本发明实施例通过多个摄像头从多视角,多时间段,多种光照强度拍摄多种异常行为视频,并对采集到的异常行为视频进行人工分类标注,保证了初始数据来源的准确性与多样性。
同时对实际场景下的异常行为检测,保证识别的准确性与实时性;用角度自适应模块来处理相机角度的畸变问题,从而增强模型在实际场景下的鲁棒性;对特征提取网络进行特征增强,通过通道注意力模块强化模型输出对不同通道的依赖关系,提高检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的流程示意图;
图2是本发明实施例中的基于多模块卷积神经网络的异常行为识别装置的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的方法流程示意图,该方法包括以下步骤:
S101:从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
在本发明的具体实施例当中,所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:
采集异常行为视频,即通过多个摄像头从多时间段,多角度,多种光照强度拍摄多种异常行为视频;
对拍摄到的所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。
需要说明的是,采集真实场景下目标的行为视频数据,即针对每一类异常行为视频的采集,通过多个摄像头从多视角,多时间段,多种光照强度拍摄,多视角包括正视,左侧视,右侧视,俯视四个角度进行拍摄,多时间段包括的早上、晚上与中午,多种光照强度包括较低光照强度、中等光照强度与较强光照强度。从而一次性获得四个不同角度且多阶段的视频。根据异常行为的类别将同类视频放在同一文件夹下,完成真实场景下目标的行为视频数据的采集。最后进行人工分类标注,获得具有多种分类的异常行为视频。
S102:对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;
在本发明的具体实施例当中,所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:
对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;
其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。
需要说明的是,将分类后的视频分别采用多种数据增强方式进行1:1增强处理,数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度中的一种或者多种,获得增强后的异常行为视频。
S103:对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
在本发明的具体实施例当中,所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:
将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。
需要说明的是,建立对应的异常行为数据集,需要对多分类的异常行为视频与数据增强后的异常行为视频进行归纳整理,放入至对应的文件夹中并进行统一的格式命名,最后将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。其中百分之八十的数据集用于训练集,百分之二十的数据集用于测试集。
S104:提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
在本发明的具体实施例当中,所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:
对所述输入视频帧每隔一帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);
将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。
需要说明的是,要得到校正后的视频帧,需要获取步骤S103中所得到的异常行为数据集,提取异常行为数据集中的输入视频帧,即对该输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W)。
将维度变换后的输入视频帧(N*T*C,H,W)送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
经过3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W),得到校正后的视频帧。
S105:将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征;
在本发明的具体实施例当中,所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:
将所述角度自适应模块的输出数据送入基干3DResnet构建的双流特征提取网络,分别对时间、空间维度进行特征提取;
将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合,获得融合后的时空特征;
其中,所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。
需要说明的是,对步骤S104所得到的校正后的视频帧上传至3DResnet构建的双流特征提取网络,提取校正后的视频帧的时间特征、空间维度特征。接着将校正后的视频帧的时间特征与空间特征进行特征融合,即将校正后的视频帧的时间特征与空间特征每隔一个预设间隔阶段进行一次特征融合,在3DResnet中的多个阶段共计进行特征融合多次,获得融合后的时空特征。
S106:将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
在本发明的具体实施例当中,所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果,包括:
采用3D平均自适应池化操作对所述时空特征(N,T,C,H,W)从H与W两个维度进行特征压缩,压缩成(N,T,C,1,1),处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图;
利用两个3D卷积层对压缩后的数据从通道维度进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数;
将激活后的数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征;
将所述时空特征送入全连接网络进行异常行为分类;
在本发明的具体实施例当中,所述收敛的3D卷积神经网络模型的训练过程包括:
构建3D卷积神经网络模型,通过迁移学习的方式采用Kinetics-400数据集对所述3D卷积神经网络模型进行预训练;
基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练,迭代次数设置为80次,初始学习率为0.001,并选取SGD作为训练优化器,利用标注信息对模型参数进行优化;
利用测试集对训练好的模型进行测试,根据测试结果判断模型是否收敛。
需要说明的是,对步骤S105提取的空间特征进行特征增强,需要对步骤S105提取的空间特征进行空间特征压缩,特征压缩处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图。将时空特征(N,T,C,H,W)的H与W两个维度进行特征压缩,压缩成(N,T,C,1,1)。接着对特征压缩后的时空特征(N,T,C,1,1)进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数。并将激活后的时空特征数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征。
需要说明的是,选取有用的时空特征,需要将表现能力更强的时空特征送入全连接网络进行异常行为分类,将表现能力更强的时空特征送入全连接网络中进行异常行为的分类训练,采用Kinetics-400数据集,通过迁移学习的方式,对3D卷积神经网络模型进行预训练。
该预训练需要重复训练多次,每次训练结束后预训练的模型都会基于制作的数据集进行参数优化,预训练的模型的随着训练的次数的增加得到逐步的完善。
还需要判断训练好的模型是否可靠,即利用测试集对训练好的模型进行测试,若测试结果收敛,则证明该模型可靠。若测试结果发散,则证明该模型不可靠。
最后将表现力增强后的时空特征参数输入至训练好的模型中,进行异常行为分类,获得异常行为分类结果。
S107:对异常行为分类结果进行统计,并生成异常行为报告;
在本发明的具体实施例中,所述最后对异常行为分类结果进行统计,并生成异常行为报告,包括:
采用Pyqt5构建异常行为监控平台,所述异常行为监控平台根据实时监控画面对异常行为进行在线检测统计,并根据检测统计结果生成生成异常行为报告。
需要说明的是,根据步骤S106得到的异常行为分类结果,采用Pyqt5构建异常行为监控平台,该平台可以提供真实场景下的实时监控画面,并可以根据步骤S106得到的异常行为分类结果进行数据分析,得到异常行为在线检测结果,如果有必要的话,还可以打印出异常行为记录报告,及时向有关人员反映出相关人员的异常行为,并及时发现问题并解决问题。
图2是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的装置示意图,该装置包括:
数据采集模块S201:从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
在本发明的具体实施例当中,所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:
采集异常行为视频,即通过多个摄像头从多时间段,多角度,多种光照强度拍摄多种异常行为视频;
对拍摄到的所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。
需要说明的是,采集真实场景下目标的行为视频数据,即针对每一类异常行为视频的采集,通过多个摄像头从多视角,多时间段,多种光照强度拍摄,多视角包括正视,左侧视,右侧视,俯视四个角度进行拍摄,多时间段包括的早上、晚上与中午,多种光照强度包括较低光照强度、中等光照强度与较强光照强度。从而一次性获得四个不同角度且多阶段的视频。根据异常行为的类别将同类视频放在同一文件夹下,完成真实场景下目标的行为视频数据的采集。最后进行人工分类标注,获得具有多种分类的异常行为视频。
数据增强模块S202:对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;
在本发明的具体实施例当中,所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:
对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;
其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。
需要说明的是,将分类后的视频分别采用多种数据增强方式进行1:1增强处理,数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度中的一种或者多种,获得增强后的异常行为视频。
数据集建立模块S203:对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
在本发明的具体实施例当中,所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:
将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。
需要说明的是,建立对应的异常行为数据集,需要对多分类的异常行为视频与数据增强后的异常行为视频进行归纳整理,放入至对应的文件夹中并进行统一的格式命名,最后将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。其中百分之八十的数据集用于训练集,百分之二十的数据集用于测试集。
角度自适应模块S204:提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
在本发明的具体实施例当中,所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:
对所述输入视频帧每隔一帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);
将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。
需要说明的是,要得到校正后的视频帧,需要获取数据集建立模块S203中所得到的异常行为数据集,提取异常行为数据集中的输入视频帧,即对该输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W)。
将维度变换后的输入视频帧(N*T*C,H,W)送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
经过3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W),得到校正后的视频帧。
特征提取融合模块S205:将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征;
在本发明的具体实施例当中,所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:
将所述角度自适应模块的输出数据送入基于3DResnet构建的双流特征提取网络,分别对时间、空间维度进行特征提取;
将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合,获得融合后的时空特征;
其中,所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。
需要说明的是,对角度自适应模块S204所得到的校正后的视频帧上传至3DResnet构建的双流特征提取网络,提取校正后的视频帧的时间特征、空间维度特征。接着将校正后的视频帧的时间特征与空间特征进行特征融合,即将校正后的视频帧的时间特征与空间特征每隔一个预设间隔阶段进行一次特征融合,在3DResnet中的多个阶段共计进行特征融合多次,获得融合后的时空特征。
特征增强模块S206:将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
在本发明的具体实施例当中,所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果,包括:
采用3D平均自适应池化操作对所述时空特征(N,T,C,H,W)从H与W两个维度进行特征压缩,压缩成(N,T,C,1,1),处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图;
利用两个3D卷积层对压缩后的数据从通道维度进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数;
将激活后的数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征;
将所述时空特征送入全连接网络进行异常行为分类;
在本发明的具体实施例当中,所述收敛的3D卷积神经网络模型的训练过程包括:
构建3D卷积神经网络模型,通过迁移学习的方式采用Kinetics-400数据集对所述3D卷积神经网络模型进行预训练;
基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练,迭代次数设置为80次,初始学习率为0.001,并选取SGD作为训练优化器,利用标注信息对模型参数进行优化;
利用测试集对训练好的模型进行测试,根据测试结果判断模型是否收敛。
需要说明的是,对特征提取模块S205提取的空间特征进行特征增强,需要对特征提取模块S205提取的空间特征进行空间特征压缩,特征压缩处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图。将时空特征(N,T,C,H,W)的H与W两个维度进行特征压缩,压缩成(N,T,C,1,1)。接着对特征压缩后的时空特征(N,T,C,1,1)进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数。并将激活后的时空特征数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征。
需要说明的是,选取有用的时空特征,需要将表现能力更强的时空特征送入全连接网络进行异常行为分类,将表现能力更强的时空特征送入全连接网络中进行异常行为的分类训练,采用Kinetics-400数据集,通过迁移学习的方式,对3D卷积神经网络模型进行预训练。
该预训练需要重复训练多次,每次训练结束后预训练的模型都会基于制作的数据集进行参数优化,预训练的模型的随着训练的次数的增加得到逐步的完善。
还需要判断训练好的模型是否可靠,即利用测试集对训练好的模型进行测试,若测试结果收敛,则证明该模型可靠。若测试结果发散,则证明该模型不可靠。
最后将表现力增强后的时空特征参数输入至训练好的模型中,进行异常行为分类,获得异常行为分类结果。
异常行为记录模块S207:对异常行为分类结果进行统计,并生成异常行为报告;
在本发明的具体实施例中,所述最后对异常行为分类结果进行统计,并生成异常行为报告,包括:
采用Pyqt5构建异常行为监控平台,所述异常行为监控平台根据实时监控画面对异常行为进行在线检测统计,并根据检测统计结果生成生成异常行为报告。
综上所述,该种基于3D卷积神经网络的实际场景异常行为识别方法及装置,通过采集真实场景目标下的行为视频数据并进行人工分类与数据增强,获得数据增强后的多分类的异常行为视频。对数据增强后的多分类的异常行为视频进行归纳整理,建立对应的异常行为数据集。对异常行为数据集的输入视频帧进行角度校正,并提取校正后的视频帧的时空特征并进行时空特征融合。在通道维度对时空特征进行特征增强,对异常行为分类。最后对异常行为进行统计,生成异常行为报告。
本发明实施例通过多个摄像头从多视角,多时间段,多角度拍摄多种异常行为视频,并对采集到的异常行为视频进行人工分类标注,保证了初始数据来源的准确性与多样性。同时对实际场景下的异常行为检测,保证识别的准确性与实时性;用角度自适应模块来处理相机角度的畸变问题,从而增强模型在实际场景下的鲁棒性;对特征提取网络进行特征增强,通过通道注意力模块强化模型输出对不同通道的依赖关系,提高检测精度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于3D卷积神经网络的实际场景异常行为识别方法及装置进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于多模块卷积神经网络的异常行为识别方法,其特征在于,所述方法包括:
从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频;
对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;
将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
对所述异常行为分类结果进行统计,并生成异常行为报告。
2.根据权利要求1所述的异常行为识别方法,其特征在于,所述从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频,包括:
基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理,获得多种异常行为视频;
对所述多种异常行为视频进行人工分类标注,获得所述多分类的异常行为视频。
3.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频进行数据增强,并获得数据增强后的多分类的异常行为视频,包括:
对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理,获得数据增强后的多分类的异常行为视频;
其中,所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。
4.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集,包括:
将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名,将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。
5.根据权利要求1所述的异常行为识别方法,其特征在于,所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧,包括:
对所述输入视频帧每隔N帧进行采样,累计采样T帧后,将输入数据(N,T,C,H,W)维度变换成(N*T*C,H,W);
将变换后的数据送入角度自适应模块中,利用3D空间变形网络中的变换矩阵Aθ对H*W中每个像素点进行坐标校正,公式如下:
将3D空间变形网络处理后的数据(N*T*C,H,W)进行二次维度变换,使得角度自适应模块输出数据维度为(N,T,C,H,W)。
6.根据权利要求1所述的异常行为识别方法,其特征在于,所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得融合后的时空特征,包括:
将所述角度自适应模块的输出数据送入基于3DResnet构建的双流特征提取网络,分别对时间、空间维度进行特征提取;
将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合,获得融合后的时空特征;
其中,所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。
7.根据权利要求1所述的异常行为识别方法,其特征在于,所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果,包括:
采用3D平均自适应池化操作对所述时空特征(N,T,C,H,W)从H与W两个维度进行特征压缩,压缩成(N,T,C,1,1),处理公式如下:
上式中,Zc表示第C个压缩后的通道特征,uc表示每一个通道中H*W构成的特征图;
利用两个3D卷积层对压缩后的数据从通道维度进行特征激励,处理公式如下:
s=σ(W2δ(W1Z)
上式中,W1、W2表示卷积3D处理,δ、σ分别表示ReLU激活函数和Sigmoid激活函数;
将激活后的数据与3D通道注意力模块的输入数据进行点乘,获得表达能力更强的时空特征;
将所述时空特征送入全连接网络进行异常行为分类,获得异常行为分类结果。
8.根据权利要求1所述的异常行为识别方法,其特征在于,所述收敛的3D卷积神经网络模型的训练过程包括:
构建3D卷积神经网络模型,通过迁移学习的方式采用Kinetics-400数据集对所述3D卷积神经网络模型进行预训练;
基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练,迭代次数设置为80次,初始学习率为0.001,并选取SGD作为训练优化器,利用标注信息对模型参数进行优化;
利用测试集对训练好的模型进行测试,根据测试结果判断模型是否收敛。
9.根据权利要求1所述的异常行为识别方法,其特征在于,所述对所述异常行为分类结果进行统计,并生成异常行为报告,包括:
异常行为监控平台基于实时监控画面对异常行为分类结果进行在线检测统计,并根据在线检测统计结果生成生成异常行为报告;
其中,所述异常行为监控平台采用Pyqt5构建。
10.一种真实场景中基于多模块卷积神经网络的异常行为识别装置,其特征在于,所述装置包括:
数据采集模块:用于从多种条件下采集真实情况下每一类异常行为视频,获得多分类的异常行为视频;
数据增强模块:用于将所述多分类的异常行为视频进行数据增强获得数据增强后的多分类的异常行为视频;
数据集建立模块:用于对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理,生成标注文件,建立对应的异常行为数据集;
角度自适应模块:用于提取所述异常行为数据集中的输入视频帧并进行角度自适应处理,得到校正后的视频帧;
特征提取融合模块:将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合,获得特征融合后的时空特征;
特征增强模块:用于将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类,获得异常行为分类结果;
异常行为记录模块:用于对异常行为进行统计,并生成异常行为报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285451.0A CN114241348A (zh) | 2021-11-01 | 2021-11-01 | 基于多模块卷积神经网络的异常行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111285451.0A CN114241348A (zh) | 2021-11-01 | 2021-11-01 | 基于多模块卷积神经网络的异常行为识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241348A true CN114241348A (zh) | 2022-03-25 |
Family
ID=80743493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111285451.0A Pending CN114241348A (zh) | 2021-11-01 | 2021-11-01 | 基于多模块卷积神经网络的异常行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241348A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424162A (zh) * | 2022-08-02 | 2022-12-02 | 中国医学科学院北京协和医院 | 一种有创机械通气患者脱管预警系统 |
CN115424162B (zh) * | 2022-08-02 | 2024-06-21 | 中国医学科学院北京协和医院 | 一种有创机械通气患者脱管预警系统 |
-
2021
- 2021-11-01 CN CN202111285451.0A patent/CN114241348A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424162A (zh) * | 2022-08-02 | 2022-12-02 | 中国医学科学院北京协和医院 | 一种有创机械通气患者脱管预警系统 |
CN115424162B (zh) * | 2022-08-02 | 2024-06-21 | 中国医学科学院北京协和医院 | 一种有创机械通气患者脱管预警系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
CN109636754B (zh) | 基于生成对抗网络的极低照度图像增强方法 | |
WO2019233297A1 (zh) | 数据集的构建方法、移动终端、可读存储介质 | |
CN110580428A (zh) | 图像处理方法、装置、计算机可读存储介质和电子设备 | |
CN110210608B (zh) | 基于注意力机制和多层次特征融合的低照度图像增强方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
CN111368758A (zh) | 一种人脸模糊度检测方法、装置、计算机设备及存储介质 | |
KR101906796B1 (ko) | 딥러닝 기반 영상 분석 장치 및 영상 분석 방법 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN110942450A (zh) | 一种基于深度学习的多生产流水线实时缺陷检测方法 | |
CN108764347B (zh) | 基于卷积神经网络的地球仪国家图像识别方法 | |
CN111612759B (zh) | 一种基于深度卷积生成式对抗网络的印刷品缺陷识别方法 | |
CN111310516B (zh) | 一种行为识别方法和装置 | |
CN116758609A (zh) | 一种基于特征模型改进的轻量化人脸识别方法 | |
CN114359088A (zh) | 一种对视频特定目标人物进行打码处理的方法 | |
CN115239672A (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN113128522B (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN113076860B (zh) | 一种野外场景下的鸟类检测系统 | |
CN111967331B (zh) | 基于融合特征和字典学习的人脸表示攻击检测方法及系统 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN111079585B (zh) | 图像增强结合伪孪生卷积神经网络的行人再识别方法 | |
CN116958786A (zh) | 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 | |
CN109598227B (zh) | 一种基于深度学习的单幅图像手机源重辨识方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |