CN114241348A

CN114241348A - 基于多模块卷积神经网络的异常行为识别方法及装置

Info

Publication number: CN114241348A
Application number: CN202111285451.0A
Authority: CN
Inventors: 焦泽昱; 王楠; 黄凯; 雷欢; 胡战虎; 钟震宇
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-03-25

Abstract

本发明公开了一种基于多模块卷积神经网络的异常行为识别方法与装置，其方法包括：采集并获得多分类的异常行为视频；将所述多分类的异常行为视频进行数据增强；对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，建立对应的异常行为数据集；提取输入视频帧并进行角度自适应处理，得到校正后的视频帧；将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得特征融合后的时空特征；将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果；生成异常行为报告。本发明实施例可以对实际场景下的异常行为进行监测，保证识别的准确性与实时性。

Description

基于多模块卷积神经网络的异常行为识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种真实场景中基于多模块卷积神经网络的异常行为识别方法及装置。

背景技术

随着现代化理论与硬件的快速发展，计算机视觉领域的行为识别技术在各行各业被广泛应用，它在图像的基础上完成对视频中人物的行为理解更能满足日常人们生产生活需要。

然而，现有的方法在实际场景中通常表现不佳，主要是由于以下三个原因：第一：动作类别单一。由于在获取行为数据集的过程中，数据收集需要大量的人力、物力资源和时间成本，这严重限制了行为类别的多样性，导致早期的方法只检测到一到两种异常行为，很难应用于实际场景。

第二：角度畸变现象。由于相机视角固定，视频画面中的人物走动会导致人体姿势逐渐发生畸变，一种“身长腿短”的视觉现象，从而影响模型的判断，鲁棒性差。

第三：检测精度不高。以往的方法只采用3D卷积神经网络提取时空特征，对通道级特征缺乏关注，然而模型的输出对不同的特征具有不同的依赖性，盲目地将通道级特征分配统一的权重，将导致有价值的信息丢失，降低模型的识别精度。

所以现有的行为识别技术不能准确高效地识别出目标的行为，在应用在实际场景下，可能会发生相机角度畸变、动作识别单一和检测精度欠缺的现状。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种真实场景中基于多模块卷积神经网络的异常行为识别装置，可以对真实场景下的老人的异常行为进行精准识别，同时保证了检测的准确性与实时性。

为了解决上述问题，本发明提出了一种基于3D卷积神经网络的实际场景异常行为识别方法，所述方法包括：

从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频；

对所述多分类的异常行为视频进行数据增强，并获得数据增强后的多分类的异常行为视频；

对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集；

提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧；

对所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得特征融合后的时空特征；

将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果；

对所述异常行为分类结果进行统计，并生成异常行为报告。

所述从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频，包括：

基于多个摄像头从多时间段、多角度及多种光照强度下进行多种异常行为视频拍摄处理，获得多种异常行为视频；

对所述多种异常行为视频进行人工分类标注，获得所述多分类的异常行为视频。

所述对所述多分类的异常行为视频进行数据增强，并获得数据增强后的多分类的异常行为视频，包括：

对所述多分类的异常行为视频分别采用多种数据增强方式进行数据增强处理，获得数据增强后的多分类的异常行为视频；

其中，所述多种数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度组合中的一种或者多种。

所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集，包括：

将所述数据增强后的多分类的异常行为视频与多分类的异常行为视频放入对应的文件夹中并进行统一的格式命名，将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。

所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧，包括：

对所述输入视频帧每隔N帧进行采样，累计采样T帧后，将输入数据(N，T，C，H，W)维度变换成(N*T*C，H，W)；

将变换后的数据送入角度自适应模块中，利用3D空间变形网络中的变换矩阵A_θ对H*W中每个像素点进行坐标校正，公式如下：

其中

表示当前待处理的像素点坐标，

表示处理后的像素点坐标，参数θ_ii表示处理前后像素点之间坐标的映射关系；

将3D空间变形网络处理后的数据(N*T*C，H，W)进行二次维度变换，使得角度自适应模块输出数据维度为(N，T，C，H，W)。

所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得融合后的时空特征，包括：

将所述角度自适应模块的输出数据送入基于3DResnet构建的双流特征提取网络，分别对时间、空间维度进行特征提取；

将提取到的时间特征与空间特征按照预设间隔阶段进行特征融合，获得融合后的时空特征；

其中，所述特征融合为在3DResnet中的多个阶段共计进行的多次特征融合。

所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果，包括：

采用3D平均自适应池化操作对所述时空特征(N，T，C，H，W)从H与W两个维度进行特征压缩，压缩成(N，T，C，1，1)，处理公式如下：

上式中，Z_c表示第C个压缩后的通道特征，uc表示每一个通道中H*W构成的特征图；

利用两个3D卷积层对压缩后的数据从通道维度进行特征激励，处理公式如下：

s＝σ(W₂δ(W₁Z)

上式中，W₁、W₂表示卷积3D处理，δ、σ分别表示ReLU激活函数和Sigmoid激活函数；

将激活后的数据与3D通道注意力模块的输入数据进行点乘，获得表达能力更强的时空特征；

将所述时空特征送入全连接网络进行异常行为分类，获得异常行为分类结果。

所述收敛的3D卷积神经网络模型的训练过程包括：

构建3D卷积神经网络模型，通过迁移学习的方式采用Kinetics-400数据集对所述3D卷积神经网络模型进行预训练；

基于所述异常行为数据集对预训练后的3D卷积神经网络模型进行反复训练，迭代次数设置为80次，初始学习率为0.001，并选取SGD作为训练优化器，利用标注信息对模型参数进行优化；

利用测试集对训练好的模型进行测试，根据测试结果判断模型是否收敛。

所述对所述异常行为分类结果进行统计，并生成异常行为报告，包括：

异常行为监控平台基于实时监控画面对异常行为分类结果进行在线检测统计，并根据在线检测统计结果生成生成异常行为报告；

其中，所述异常行为监控平台采用Pyqt5构建。

相应的，本发明还提出了一种基于3D卷积神经网络的实际场景异常行为识别装置，其特征在于，所述装置包括：

数据采集模块：用于从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频；

数据增强模块：用于将所述多分类的异常行为视频进行数据增强获得数据增强后的多分类的异常行为视频；

数据集建立模块：用于对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集；

角度自适应模块：用于提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧；

特征提取融合模块：将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得特征融合后的时空特征；

特征增强模块：用于将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果；

异常行为记录模块：用于对异常行为进行统计，并生成异常行为报告。

本发明实施例通过多个摄像头从多视角，多时间段，多种光照强度拍摄多种异常行为视频，并对采集到的异常行为视频进行人工分类标注，保证了初始数据来源的准确性与多样性。

同时对实际场景下的异常行为检测，保证识别的准确性与实时性；用角度自适应模块来处理相机角度的畸变问题，从而增强模型在实际场景下的鲁棒性；对特征提取网络进行特征增强，通过通道注意力模块强化模型输出对不同通道的依赖关系，提高检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的流程示意图；

图2是本发明实施例中的基于多模块卷积神经网络的异常行为识别装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的方法流程示意图，该方法包括以下步骤：

S101：从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频；

在本发明的具体实施例当中，所述从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频，包括：

采集异常行为视频，即通过多个摄像头从多时间段，多角度，多种光照强度拍摄多种异常行为视频；

对拍摄到的所述多种异常行为视频进行人工分类标注，获得所述多分类的异常行为视频。

需要说明的是，采集真实场景下目标的行为视频数据，即针对每一类异常行为视频的采集，通过多个摄像头从多视角，多时间段，多种光照强度拍摄，多视角包括正视，左侧视，右侧视，俯视四个角度进行拍摄，多时间段包括的早上、晚上与中午，多种光照强度包括较低光照强度、中等光照强度与较强光照强度。从而一次性获得四个不同角度且多阶段的视频。根据异常行为的类别将同类视频放在同一文件夹下，完成真实场景下目标的行为视频数据的采集。最后进行人工分类标注，获得具有多种分类的异常行为视频。

S102：对所述多分类的异常行为视频进行数据增强，并获得数据增强后的多分类的异常行为视频；

在本发明的具体实施例当中，所述对所述多分类的异常行为视频进行数据增强，并获得数据增强后的多分类的异常行为视频，包括：

需要说明的是，将分类后的视频分别采用多种数据增强方式进行1:1增强处理，数据增强方式包括裁剪与尺寸调整组合、噪声与水平翻转组合、旋转与模糊组合、剪切与颜色抖动组合、平移与亮度中的一种或者多种，获得增强后的异常行为视频。

S103:对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集；

在本发明的具体实施例当中，所述对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集，包括：

需要说明的是，建立对应的异常行为数据集，需要对多分类的异常行为视频与数据增强后的异常行为视频进行归纳整理，放入至对应的文件夹中并进行统一的格式命名，最后将每个视频的文件名与异常行为类别存储至注释文件中用于建立数据集。其中百分之八十的数据集用于训练集，百分之二十的数据集用于测试集。

S104:提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧；

在本发明的具体实施例当中，所述提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧，包括：

对所述输入视频帧每隔一帧进行采样，累计采样T帧后，将输入数据(N，T，C，H，W)维度变换成(N*T*C，H，W)；

其中

表示当前待处理的像素点坐标，

需要说明的是，要得到校正后的视频帧，需要获取步骤S103中所得到的异常行为数据集，提取异常行为数据集中的输入视频帧，即对该输入视频帧每隔N帧进行采样，累计采样T帧后，将输入数据(N，T，C，H，W)维度变换成(N*T*C，H，W)。

将维度变换后的输入视频帧(N*T*C，H，W)送入角度自适应模块中，利用3D空间变形网络中的变换矩阵A_θ对H*W中每个像素点进行坐标校正，公式如下：

其中

表示当前待处理的像素点坐标，

表示处理后的像素点坐标，参数θ_ii表示处理前后像素点之间坐标的映射关系。

经过3D空间变形网络处理后的数据(N*T*C，H，W)进行二次维度变换，使得角度自适应模块输出数据维度为(N，T，C，H，W)，得到校正后的视频帧。

S105：将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得融合后的时空特征；

在本发明的具体实施例当中，所述将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得融合后的时空特征，包括：

将所述角度自适应模块的输出数据送入基干3DResnet构建的双流特征提取网络，分别对时间、空间维度进行特征提取；

需要说明的是，对步骤S104所得到的校正后的视频帧上传至3DResnet构建的双流特征提取网络，提取校正后的视频帧的时间特征、空间维度特征。接着将校正后的视频帧的时间特征与空间特征进行特征融合，即将校正后的视频帧的时间特征与空间特征每隔一个预设间隔阶段进行一次特征融合，在3DResnet中的多个阶段共计进行特征融合多次，获得融合后的时空特征。

S106：将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果；

在本发明的具体实施例当中，所述将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果，包括：

上式中，Z_c表示第C个压缩后的通道特征，u_c表示每一个通道中H*W构成的特征图；

s＝σ(W₂δ(W₁Z)

将所述时空特征送入全连接网络进行异常行为分类；

在本发明的具体实施例当中，所述收敛的3D卷积神经网络模型的训练过程包括：

需要说明的是，对步骤S105提取的空间特征进行特征增强，需要对步骤S105提取的空间特征进行空间特征压缩，特征压缩处理公式如下：

上式中，Z_c表示第C个压缩后的通道特征，u_c表示每一个通道中H*W构成的特征图。将时空特征(N，T，C，H，W)的H与W两个维度进行特征压缩，压缩成(N，T，C，1，1)。接着对特征压缩后的时空特征(N，T，C，1，1)进行特征激励，处理公式如下：

s＝σ(W₂δ(W₁Z)

上式中，W₁、W₂表示卷积3D处理，δ、σ分别表示ReLU激活函数和Sigmoid激活函数。并将激活后的时空特征数据与3D通道注意力模块的输入数据进行点乘，获得表达能力更强的时空特征。

需要说明的是，选取有用的时空特征，需要将表现能力更强的时空特征送入全连接网络进行异常行为分类，将表现能力更强的时空特征送入全连接网络中进行异常行为的分类训练，采用Kinetics-400数据集，通过迁移学习的方式，对3D卷积神经网络模型进行预训练。

该预训练需要重复训练多次，每次训练结束后预训练的模型都会基于制作的数据集进行参数优化，预训练的模型的随着训练的次数的增加得到逐步的完善。

还需要判断训练好的模型是否可靠，即利用测试集对训练好的模型进行测试，若测试结果收敛，则证明该模型可靠。若测试结果发散，则证明该模型不可靠。

最后将表现力增强后的时空特征参数输入至训练好的模型中，进行异常行为分类，获得异常行为分类结果。

S107:对异常行为分类结果进行统计，并生成异常行为报告；

在本发明的具体实施例中，所述最后对异常行为分类结果进行统计，并生成异常行为报告，包括:

采用Pyqt5构建异常行为监控平台,所述异常行为监控平台根据实时监控画面对异常行为进行在线检测统计，并根据检测统计结果生成生成异常行为报告。

需要说明的是，根据步骤S106得到的异常行为分类结果，采用Pyqt5构建异常行为监控平台，该平台可以提供真实场景下的实时监控画面，并可以根据步骤S106得到的异常行为分类结果进行数据分析，得到异常行为在线检测结果，如果有必要的话，还可以打印出异常行为记录报告，及时向有关人员反映出相关人员的异常行为，并及时发现问题并解决问题。

图2是本发明实施例中的基于多模块卷积神经网络的异常行为识别方法的装置示意图，该装置包括：

数据采集模块S201：从多种条件下采集真实情况下每一类异常行为视频，获得多分类的异常行为视频；

数据增强模块S202：对所述多分类的异常行为视频进行数据增强，并获得数据增强后的多分类的异常行为视频；

数据集建立模块S203:对所述多分类的异常行为视频与数据增强后的多分类的异常行为视频进行归纳整理，生成标注文件，建立对应的异常行为数据集；

角度自适应模块S204：提取所述异常行为数据集中的输入视频帧并进行角度自适应处理，得到校正后的视频帧；

其中

表示当前待处理的像素点坐标，

需要说明的是，要得到校正后的视频帧，需要获取数据集建立模块S203中所得到的异常行为数据集，提取异常行为数据集中的输入视频帧，即对该输入视频帧每隔N帧进行采样，累计采样T帧后，将输入数据(N，T，C，H，W)维度变换成(N*T*C，H，W)。

其中

表示当前待处理的像素点坐标，

特征提取融合模块S205：将所述校正后的视频帧进行多阶段的时空特征提取及时空特征融合，获得融合后的时空特征；

需要说明的是，对角度自适应模块S204所得到的校正后的视频帧上传至3DResnet构建的双流特征提取网络，提取校正后的视频帧的时间特征、空间维度特征。接着将校正后的视频帧的时间特征与空间特征进行特征融合，即将校正后的视频帧的时间特征与空间特征每隔一个预设间隔阶段进行一次特征融合，在3DResnet中的多个阶段共计进行特征融合多次，获得融合后的时空特征。

特征增强模块S206：将所述特征融合后的时空特征送收敛的3D卷积神经网络模型中进行异常行为的分类，获得异常行为分类结果；

s＝σ(W₂δ(W₁Z)

将所述时空特征送入全连接网络进行异常行为分类；

需要说明的是，对特征提取模块S205提取的空间特征进行特征增强，需要对特征提取模块S205提取的空间特征进行空间特征压缩，特征压缩处理公式如下：

s＝σ(W₂δ(W₁Z)

异常行为记录模块S207:对异常行为分类结果进行统计，并生成异常行为报告；

综上所述，该种基于3D卷积神经网络的实际场景异常行为识别方法及装置，通过采集真实场景目标下的行为视频数据并进行人工分类与数据增强，获得数据增强后的多分类的异常行为视频。对数据增强后的多分类的异常行为视频进行归纳整理，建立对应的异常行为数据集。对异常行为数据集的输入视频帧进行角度校正，并提取校正后的视频帧的时空特征并进行时空特征融合。在通道维度对时空特征进行特征增强，对异常行为分类。最后对异常行为进行统计，生成异常行为报告。

本发明实施例通过多个摄像头从多视角，多时间段，多角度拍摄多种异常行为视频，并对采集到的异常行为视频进行人工分类标注，保证了初始数据来源的准确性与多样性。同时对实际场景下的异常行为检测，保证识别的准确性与实时性；用角度自适应模块来处理相机角度的畸变问题，从而增强模型在实际场景下的鲁棒性；对特征提取网络进行特征增强，通过通道注意力模块强化模型输出对不同通道的依赖关系，提高检测精度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于3D卷积神经网络的实际场景异常行为识别方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。