CN114973097A

CN114973097A - 电力机房内异常行为识别方法、装置、设备及存储介质

Info

Publication number: CN114973097A
Application number: CN202210655600.6A
Authority: CN
Inventors: 张杰明; 陈显超; 刘洋; 梁妍陟; 陈展尘; 高宜凡; 李波; 陈金成; 陈忠颖; 陈益哲
Original assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-08-30

Abstract

本发明公开了电力机房内异常行为识别方法、装置、设备及存储介质，用于解决电力机房内异常行为检测准确性低的技术问题。本发明包括：采集电力机房内工作人员的异常动作视频；所述异常动作视频包括多帧视频帧图像；从所述视频帧图像中提取人体骨骼关键点坐标；对所述人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标；采用所述归一化关键点坐标建立3D姿态关键点；采用所述3D姿态关键点训练得到双输入异常行为分类卷积神经网络；获取待分析视频图像；从所述待分析视频图像中提取运动区域；从所述运动区域中提取骨骼特征；将所述骨骼特征输入所述双输入异常行为分类卷积神经网络，输出异常行为检测结果。

Description

电力机房内异常行为识别方法、装置、设备及存储介质

技术领域

本发明涉及异常识别技术领域，尤其涉及一种电力机房内异常行为识别方法、装置、设备及存储介质。

背景技术

异常行为可以定义为在当前场景下，人员做出的一切不适宜的行为和操作，在机房环境下，常见的异常行为有违规、偷窃、斗殴等。目前，对电力机房的监控往往依赖于视频监控技术。由于传统的视频监控技术只能对视频进行监控和存储，当电力机房出现不当行为或异常操作时，视频监控只能根据时间段进行检索和查询。在复杂场景中引入实时视频多人行为识别方法和装置，可以监控复杂场景中人员的行为并给出预警，使电力机房管理人员能够及时处理异常情况，从而保证电力机房的安全，具有深远的现实意义和应用价值。

目前对人员行为进行识别的方法可以分为三类：基于运动特征的方法，基于外观特征的方法和基于时空特征的方法。基于运动特征的方法主要通过光流场、运动历史图等方法进行运动的表征；基于外观特征的方法主要提取图像的运动轨迹，并与行为形状模型进行对比；基于时空特征的方法在时空域中提取行为相关特征。在行为识别当中，识别效果很大程度取决于对目标跟踪的准确性，当光线和背景变化较大时，这些基于图像的人体行为识别方法的准确率会大大降低。相比于图像特征，骨骼特征更为凝练，结构性更强，对人体运动的描述更为准确。

传统的基于二维人体骨骼特征进行人体异常行为检测的方法，易受到人体外形差异的影响，特别是在光线变化、出现阴影等情况下。基于三维骨骼信息的特征可提高智能视频监控系统的识别能力和检测精度，在背景复杂、噪声较多时同样具有较好的鲁棒性，可以有效解决遮挡带来的问题，但人员身体自遮挡和深度模糊问题会影响到检测的准确性。

发明内容

本发明提供了一种电力机房内异常行为识别方法、装置、设备及存储介质，用于解决电力机房内异常行为检测准确性低的技术问题。

本发明提供了1、一种电力机房内异常行为识别方法，其特征在于，包括：

采集电力机房内工作人员的异常动作视频；所述异常动作视频包括多帧视频帧图像；

从所述视频帧图像中提取人体骨骼关键点坐标；

对所述人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标；

采用所述归一化关键点坐标建立3D姿态关键点；

采用所述3D姿态关键点训练得到双输入异常行为分类卷积神经网络；

获取待分析视频图像；

从所述待分析视频图像中提取运动区域；

从所述运动区域中提取骨骼特征；

将所述骨骼特征输入所述双输入异常行为分类卷积神经网络，输出异常行为检测结果。

可选地，所述采用所述归一化关键点坐标建立3D姿态关键点的步骤，包括：

对所述归一化关键点坐标进行空间位置编码，得到编码特征；

将所述编码特征输入预设第一编码器，输出第一姿态假设，并对所述第一姿态假设进行时间位置编码，得到第一时间位置姿态假设；

将所述第一姿态假设输入预设第二编码器，输出第二姿态假设，并对所述第二姿态假设进行时间位置编码，得到第二时间位置姿态假设；

将所述第二姿态假设输入预设第三编码器，输出第三姿态假设，并对所述第三姿态假设进行时间位置编码，得到第三时间位置姿态假设；

采用所述第一时间位置姿态假设、所述第二时间位置姿态假设、所述第三时间位置姿态假设进行多姿态互优化，得到多姿态互优化结果；

对所述多姿态互优化结果进行自优化，得到多姿态自优化结果；

采用所述多姿态自优化结果生成所述3D姿态关键点。

可选地，所述采用所述3D姿态关键点训练得到双输入异常行为分类卷积神经网络的步骤，包括：

在多帧所述视频帧图像中选择若干帧样本帧；

采用所述样本帧的3D姿态关键点生成样本数据；

采用所述样本数据训练预设初始双输入异常行为分类卷积神经网络，得到已训练的双输入异常行为分类卷积神经网络。

可选地，所述从所述待分析视频图像中提取运动区域的步骤，包括：

对所述待分析视频图像进行灰度转换，得到灰度视频图像；

建立所述灰度视频图像的背景建模，得到背景图像；

对所述灰度视频图像和所述背景图像进行差分处理，得到差分结果；

对所述差分结果进行阈值化处理，得到阈值结果；

根据所述阈值结果，从所述待分析视频图像中提取运动区域。

可选地，所述将所述骨骼特征输入所述双输入异常行为分类卷积神经网络，输出异常行为检测结果的步骤之后，还包括：

当异常行为检测结果为存在异常行为时，发出报警信息并生成报警日志；所述报警日志包含异常行为发生时间、异常行为类型和人员截图。

本发明还提供了一种电力机房内异常行为识别装置，包括：

异常动作视频采集模块，用于采集电力机房内工作人员的异常动作视频；所述异常动作视频包括多帧视频帧图像；

人体骨骼关键点坐标提取模块，用于从所述视频帧图像中提取人体骨骼关键点坐标；

归一化模块，用于对所述人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标；

3D姿态关键点建立模块，用于采用所述归一化关键点坐标建立3D姿态关键点；

训练模块，用于采用所述3D姿态关键点训练得到双输入异常行为分类卷积神经网络；

待分析视频图像获取模块，用于获取待分析视频图像；

运动区域提取模块，用于从所述待分析视频图像中提取运动区域；

骨骼特征提取模块，用于从所述运动区域中提取骨骼特征；

检测模块，用于将所述骨骼特征输入所述双输入异常行为分类卷积神经网络，输出异常行为检测结果。

可选地，所述3D姿态关键点建立模块，包括：

空间位置编码子模块，用于对所述归一化关键点坐标进行空间位置编码，得到编码特征；

第一时间位置姿态假设生成子模块，用于将所述编码特征输入预设第一编码器，输出第一姿态假设，并对所述第一姿态假设进行时间位置编码，得到第一时间位置姿态假设；

第二时间位置姿态假设生成子模块，用于将所述第一姿态假设输入预设第二编码器，输出第二姿态假设，并对所述第二姿态假设进行时间位置编码，得到第二时间位置姿态假设；

第三时间位置姿态假设生成子模块，用于将所述第二姿态假设输入预设第三编码器，输出第三姿态假设，并对所述第三姿态假设进行时间位置编码，得到第三时间位置姿态假设；

多姿态互优化结果生成子模块，用于采用所述第一时间位置姿态假设、所述第二时间位置姿态假设、所述第三时间位置姿态假设进行多姿态互优化，得到多姿态互优化结果；

多姿态自优化结果生成子模块，用于对所述多姿态互优化结果进行自优化，得到多姿态自优化结果；

3D姿态关键点建立子模块，用于采用所述多姿态自优化结果生成所述3D姿态关键点。

可选地，所述训练模块，包括：

样本帧选择子模块，用于在多帧所述视频帧图像中选择若干帧样本帧；

样本数据生成子模块，用于采用所述样本帧的3D姿态关键点生成样本数据；

训练子模块，用于采用所述样本数据训练预设初始双输入异常行为分类卷积神经网络，得到已训练的双输入异常行为分类卷积神经网络。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的电力机房内异常行为识别方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的电力机房内异常行为识别方法。

从以上技术方案可以看出，本发明具有以下优点：本发明在单目视频条件下，可以生成三维骨骼信息，并进行实时异常行为识别。本发明估计3D姿态时，利用多假设和假设自优化和互优化技术，有效提高了算法的鲁棒性。相比于现有技术，本发明结合了时空信息，在捕获跨帧的全局文本信息方面的效率较高。模型考虑了2D到3D姿态是一个不适定问题，生成了多个姿态假设，防止了只生成一个假设可能造成的不满意的结果，生成了姿态假设并对假设进行了优化和综合，算法具有很好的表达能力和性能，最终的结果可以很好排除环境变化和遮挡的干扰。可提高智能视频监控系统的识别能力和检测精度，在背景复杂、噪声较多时同样具有较好的鲁棒性,可以有效解决遮挡带来的问题，并且可以有效解决自遮挡和深度模糊问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种电力机房内异常行为识别方法的步骤流程图；

图2为本发明实施例提供的一种3D姿态关键点估计模型；

图3为本发明实施例提供的一种双输入异常行为分类卷积神经网络的示意图；

图4为本发明实施例提供的一种电力机房内异常行为识别装置的结构框图。

具体实施方式

本发明实施例提供了一种电力机房内异常行为识别方法、装置、设备及存储介质，用于解决电力机房内异常行为检测准确性低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种电力机房内异常行为识别方法的步骤流程图。

本发明提供的一种电力机房内异常行为识别方法，具体可以包括以下步骤：

步骤101，采集电力机房内工作人员的异常动作视频；异常动作视频包括多帧视频帧图像；

在本发明实施例中，异常行为可以包括五类，分别为：未关机柜、摔倒、打砸、饮食、斗殴。工作人员的异常动作视频是指包含上述一种或多种异常行为的视频。在具体实现中，可以通过摄像头采集多位电力机房工作人员的异常行为视频。采集时摄像头需能够完整采集到工作人员的全身图像。

在通过摄像头进行工作人员的异常动作视频的采集时，工作人员需要依次做出上述五类异常行为动作，每个动作都是一个变化的过程，包括动作开始阶段人体的自然站立、动作中间阶段手臂和身体的运动及动作最终阶段手臂展现出动态的身体姿势，最后工作人员需要回归自然的站立状态，这个过程是一个完整的动作周期，每个异常动作视频需要包含一个完整的动作周期。每个异常动作视频中可以包括多帧视频帧图像。

步骤102，从视频帧图像中提取人体骨骼关键点坐标；

在获取到工作人员的异常动作视频后，可以分别从异常动作视频的每帧视频帧图像中人体骨骼关键点坐标。

在本发明实施例中，可以通过CPN(Cascaded Pyramid Network，级联金字塔网络)识别18个人体骨骼关键点坐标。包括鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、右眼、左眼、右耳、左耳。CPN可以从采集到的视频帧图像中检测出人体骨骼的上述18个关键点，并以字典的形式将这些关键点的像素坐标存储下来。

步骤103，对人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标；

在获取到人体骨骼关键点坐标后，可以对人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标。

在具体实现中，假设异常动作视频的帧率为30FPS，则每个工作人员在10秒内的帧数约为300帧。假设异常动作视频原始帧的大小为640*480，则300帧视频帧图像的数据处理量会较大，为了便于后续神经网络的训练，可以对人体骨骼关键点坐标进行归一化处理，即将每个像素坐标值变成(0，1)范围内的值，这便意味着每个像素坐标值从(x，y)转变成为(x/640，y/480)。则人体骨骼关键点坐标可以通过以下公式转化为对应的归一化关键点坐标：

其中，x_max为视频帧图像横坐标的最大值，x_min为视频帧图像横坐标的最小值，y_max为视频帧图像纵坐标的最大值，y_min为视频帧图像纵坐标的最小值，x_i为第i个人体骨骼关键点坐标，x′为第i个人体骨骼关键点坐标对应的归一化关键点坐标。

步骤104，采用归一化关键点坐标建立3D姿态关键点；

在本发明实施例中，在获取到归一化关键点坐标后，可以采用归一化关键点坐标建立3D姿态关键点。

在一个示例中，步骤104可以包括以下子步骤：

S41，对归一化关键点坐标进行空间位置编码，得到编码特征；

S42，将编码特征输入预设第一编码器，输出第一姿态假设，并对第一姿态假设进行时间位置编码，得到第一时间位置姿态假设；

S43，将第一姿态假设输入预设第二编码器，输出第二姿态假设，并对第二姿态假设进行时间位置编码，得到第二时间位置姿态假设；

S44，将第二姿态假设输入预设第三编码器，输出第三姿态假设，并对第三姿态假设进行时间位置编码，得到第三时间位置姿态假设；

S45，采用第一时间位置姿态假设、第二时间位置姿态假设、第三时间位置姿态假设进行多姿态互优化，得到多姿态互优化结果；

S46，对多姿态互优化结果进行自优化，得到多姿态自优化结果；

S47，采用多姿态自优化结果生成3D姿态关键点。

在具体实现中，可以通过3D姿态关键点估计模型来对归一化关键点坐标进行处理，生成3D姿态关键点。

请参阅图2，图2为本发明实施例提供的一种3D姿态关键点估计模型。如图2所示，首先，向3D姿态关键点估计模型输入N帧视频帧图像的归一化关键点坐标X＝(x_i，y_i)(i＝1，2，...，18)。输入X后对X的每个分量进行LN(layer normalization，层标准化)操作，LN操作公式为：

其中，x_i是X的第i个分量，m为所有分量的均值，σ为标准差。

接着，通过以下公式，对归一化关键点坐标进行空间位置编码，得到编码特征：

X_s＝LN(X)+E_S

其中，E_S为位置信息嵌入的可学习参数，X_s是空间位置编码后的结果，即编码特征。空间位置编码后，经过Transformer结构的编码器，编码器主要包含两个操作，即多头注意力(MSA)和多层感知机(MLP)，分别为：

MLP(x)＝σ(xW₁+b₁)W₂+b₂

其中，输入x∈R^n×d线性映射到查询

地址

值

其中n是序列长度，d是维数。

和

是两个线性层的权重值，

和

是偏差项。其中MLP的激活函数为GELU函数，即：

编码器的输出结果即为第一姿态假设，编码器输出第一姿态假设后和输入X进行残差连接，这就是单个姿态假设生成模块(SHG)。然后输出经过两个具有和上述相同操作级联的SHG模块，即有X^m＝Y^m-1,m＞1，

是第m个模块的输入，Y^m是第m个SHG模块输出的人体姿态，共输出3个人体姿态，每个人体姿态具有P＝18个关键点，即输出为Y＝[Y¹,Y²,Y³],

Y¹，Y²，Y³分别为第一姿态假设，第二姿态假设和第三姿态假设。接着分别对第一姿态假设、第二姿态假设和第三姿态假设进行时间位置编码，得到第一时间位置姿态假设、第二时间位置姿态假设和第三时间位置姿态假设。过程如下：

首先分别对第一姿态假设、第二姿态假设和第三姿态假设进行编码转换，转换后的特征大小为

其中C＝512为编码后的维度。然后进行时间位置编码，得到时间位置编码后的特征：

E_t为时间位置编码的可学习参数。多个姿态各自拥有不同的特性，为了综合不同姿态的信息，在不同假设输出后，先拼接所有的姿态得到

即：

Z_J＝concat(Z_T ¹,Z_T ²,Z_T ³)

然后将Z_J输入多层感知器，其中激活函数为GELU函数。多层感知器输入和输出的融合特征维度一致，然后和多层感知器输入进行残差连接。再将融合的特征均匀划分为三部分，得到多姿态互优化后结果

多姿态互优化结果再进行自优化，每个Z_I ^m首先经过LN操作，然后输入一个多头的自注意力模块，输出结果再和Z_I ^m进行残差连接，即：

Z_S ^m＝Z_I ^m+MSA(LN(Z_I ^m))

其中，MSA表示多头注意力操作，从而得到自优化的多姿态结果

为了得到最终的3D姿态结果，下一步将自优化的多姿态结果，合成为一个特征向量，即

模型的损失函数采用MPJPE(Mean Per Point Position Error，平均每关节位置误差)，定义为：

其中，P＝18表示关键点的个数，

为真实关键点坐标。最后经过LN和MLP层输出N帧3D姿态序列

再选取N帧中间一帧的姿态

作为最终估计的3D姿态关键点。

步骤105，采用3D姿态关键点训练得到双输入异常行为分类卷积神经网络；

在获得3D姿态关键点后，可以采用多个工作人员的3D姿态关键点来训练双输入异常行为分类卷积神经网络。

在一个示例中，步骤105可以包括以下子步骤：

S51，在多帧视频帧图像中选择若干帧样本帧；

S52，采用样本帧的3D姿态关键点生成样本数据；

S53，采用样本数据训练预设初始双输入异常行为分类卷积神经网络，得到已训练的双输入异常行为分类卷积神经网络。

在本发明实施例中，可以将一个异常行为动作分为三个阶段，即开始、过程和结束。开始阶段即手臂和身体开始动作，一些类别的姿态在此阶段单手开始摆动，而有些类别则双手同时开始摆动。动作的结束阶段，即手臂或者姿态处于动作的最大区分度阶段，这个阶段的单幅图像静态展现动作最具标志性，其对于异常行为识别的贡献比最大。在建立异常动作序列时，将整个过程视作一个动态的过程，将整个动作流程看作一个整体，消除某一帧关键点的歧义，同时考虑对人员异常动作预测的准确率。比如，用户需要作出打开机柜门的动作才能判断工作人员未关机柜门。

在每个阶段分别选择一帧视频帧图像作为样本帧，将三个样本帧的3D姿态关键点组合成一个样本。在数据收集过程中，由于个体的不同以及每个动作中单个动作周期的不一致，在动作开始、中间和结束三个阶段中代表性关键3D姿态的选择不能由程序来决定，只能由人的主体性来决定。手动确定关键3D姿态的方式也可以确保数据具有较高质量，且人工预处理的筛选，去除了许多自然站立以及动作的放下过程中产生的帧关键点。基于动作序列的三个阶段合成的样本包含三组3D姿态关键点数据。因此样本中的坐标数为18×3，即每个样本包含54个关键点坐标，每个坐标由(x,y,z)组成，因此每个样本数据由162个标量组成。

接着，采用样本数据训练预设初始双输入异常行为分类卷积神经网络，得到已训练的双输入异常行为分类卷积神经网络。

该双输入异常行为分类卷积神经网络的输入数据是样本数据中的54个3D姿态关键点的坐标。坐标数据包含三个值，因此输入数据的原始特征向量长度为54×3。数据集收集自多名受试者。其中75％的数据被随机选择作为训练数据，另外25％的数据作为测试数据。

双输入异常行为分类卷积神经网络包含两个支路，分别为上支路和下支路。

上支路输入数据的格式：动作序列由三个阶段各取一帧关键点数据组成，那么可将这三个关键点数据按照时间先后拼接起来，得到的一个样本的形状是n×18×3×3，表示一段包含n个动作的视频中，每一帧都有18个关键点，每个关键点都有3个坐标，输入数据的格式与普通RGB图像相同，都具有三个通道，但数据量相比要小得多。每个通道包含18×3＝54个数据点，因为数据长宽不一致，故将每个通道大小调整为8×8＝64，多余的数据点用0填充。调整后数据大小为n×8×8×3，作为卷积神经网络上支路的输入。

下支路输入数据的格式：由于人体距离摄像头的位置时不固定的，因此有可能人体会偏离图像中心较远，位置的变化对坐标数据非常敏感。不同的位置会产生不同的坐标，这会导致算法中出现一些错误。考虑增加额外的输入，额外的输入同样使用关键点归一化之后的坐标信息。以颈部的关键点坐标为参考点，再次对18个关键点进行归一化。经过这样的处理后，颈部的关键点总是(x₀,y₀,z₀)＝(0,0,0)，而其他关键点的坐标是减去颈部关键点坐标后的坐标值，公式为：

(x',y',z')＝(x-x₀,y-y₀,z-z₀)

为了适应这种额外的输入，需要添加一个并行网络结构来提取该输入的特征。上分支网络的输入为未经过归一化的数据，经过五层参数相似的卷积网络，得到长度为256的特征向量。而下分支网络的输入为经过归一化的数据，经过同样的卷积层得到长度为256的特征向量。然后将其进行特征融合，得到长为512的特征数据，再经过两层全连接网络输出分类结果R＝{v¹,v²,v³,v⁴,v⁵,v⁶}，其中vⁱ表示第i类异常行为是否发生。训练好的双输入异常行为分类卷积神经网络如图3所示。其中input1为上支路输入数据，input2为下支路输入数据。

因为需要给出异常行为识别的预测结果，需要对数据进行分类处理。对于分类模型而言，常用的损失函数是交叉熵损失函数(CrossEntropy Loss,CE)，函数如下：

式中，log代表以e为底的自然对数log_e；k代表类别，n为类别数目；t_k即第k类的真实类别标签，one-hot编码中，只能取0或者1。SoftMax可以将多个输出神经元的原始输出值更改为相应类别的概率值。事实上，由于实际标签是一个one-hot编码的标签，上述公式仅需计算SoftMax输出的与实际标签对应的概率值的自然对数。SoftMax的公式如下：

式中，y_k、y_i表示神经网络相应的神经元原始输出值，n为类别数目。

在测试阶段，所使用的指标还具有交叉损失熵CE，同时用于评估类别输出的Accuracy，可用于评估网络识别行为的准确性。Accuracy计算如下：

公式中的y_i、t_i代表神经网络相应神经元的原始输出值和实际标签，N代表参与测试的整个数据集的大小。训练迭代轮数(epoch)为100，batch-size设置为64，学习率为0.0003。

步骤106，获取待分析视频图像；

步骤107，从待分析视频图像中提取运动区域；

步骤108，从运动区域中提取骨骼特征；

步骤109，将骨骼特征输入双输入异常行为分类卷积神经网络，输出异常行为检测结果。

在完成对双输入异常行为卷积神经网络的训练之后，可以获取待分析视频图像，并从待分析视频图像中提取运动区域；再从运动区域中提取骨骼特征输入到双输入异常行为卷积神经网络中进行实时异常行为判别。

其中，从待分析视频图像中提取运动区域的步骤，可以包括以下子步骤：

S71，对待分析视频图像进行灰度转换，得到灰度视频图像；

S72，建立灰度视频图像的背景建模，得到背景图像；

S73，对灰度视频图像和背景图像进行差分处理，得到差分结果；

S74，对差分结果进行阈值化处理，得到阈值结果；

S75，根据阈值结果，从待分析视频图像中提取运动区域。

在实际场景中，待分析视频图像一般为RGB彩色图像，首先需要将其进行灰度转换，得到灰度视频图像，以减少数据量。颜色转换公式为：

Gray(x,y)＝R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114

其中R(x,y),G(x,y),B(x,y)是RBG图像的三个颜色分量。对于灰度视频的第n帧，利用高斯混合背景建模可以用公式表示为：

其中I_n为检测的当前图像；P(I_n)表示联合高斯概率密度函数；η表示高斯模型；N为高斯混合概率密度的混合系数，考虑到电力机房设备算力有限，在本发明中取3；w_i,n为第n帧的第i高斯分量的加权系数。σ² _i,n和μ_i,n分别是第n帧的第i高斯分量的方差和均值。对模型进行初始化时，有以下公式：

其中，std为示设定的初值，一般取20。在输入视频帧之后，按以下公式实时对背景的参数进行更新：

w_i,n＝(1-α)w_i,n-1+αD_i,n

μ_i,n＝(1-β)μ_i,n-1+βI_n

σ_i,n ²＝(1-β)σ_i,n-1 ²+β(I_n-μ_i,n)²

其中α为学习率，取0到1之间，应当适当选取：α取值越小,β值就会越大,最终结果的鲁棒性就会越好,但是噪声也就增多，反之则鲁棒性差但噪声小；当某点像素值与对应的高斯分布匹配时，D_i,n＝1，若不匹配则为0；经过上述操作后，将帧图像与背景图像进行差分后，进行阈值化处理：

其中，FD_n是阈值化后的二值图像，γ是设定的阈值，应结合实际环境进行选取。最后进行形态学操作即可去除噪声，得到变化的区域，然后计算出变化区域的大小。因为固定视角下拍摄到的人体图像面积位于一定范围之内，所以当变化区域面积在一定区间内时(面积的阈值结合实际环境选取)，即可认为该时刻及以后出现了一定的幅度运动，即电力车间人员进行了某种行为。

然后取出此时刻后的10秒钟的视频，并在1s、5s和9s的时间段内取出3段视频。然后利用预训练的CPN模型识别图像的骨骼关键点，应当注意的是，也可采用其他任意2D姿态检测模型，如SH(Stack Hourglass)、OpenPose、Detectron2等,对每个时间段识别到的关键点序列输入，若未包含完整18个的人体骨骼关键点，则在向后重新采样，直到采样到完整的人体骨骼关键点数据为止。然后将2D骨骼关键点转换为3D骨骼关键点，将关键点序列分批次输入基于Transformer的3D姿态估计模型中，计算出各个序列的3D骨骼关键点。采集到三组人体3D骨骼关键点数据后，将骨骼关键点坐标数据归一化，然后合并序列并对脖子关键点进行归一化，将三组人体3D骨骼关键点数据和归一化数据作为骨骼特征，输入训练好的异常行为分类卷积神经网络中，得到电力机房人员的异常行为检测结果。

在本发明实施例中，将骨骼特征输入双输入异常行为分类卷积神经网络，输出异常行为检测结果的步骤之后，还包括：

当异常行为检测结果为存在异常行为时，发出报警信息并生成报警日志；报警日志包含异常行为发生时间、异常行为类型和人员截图。

本发明在单目视频条件下，可以生成三维骨骼信息，并进行实时异常行为识别。本发明估计3D姿态时，利用多假设和假设自优化和互优化技术，有效提高了算法的鲁棒性。相比于现有技术，本发明结合了时空信息，在捕获跨帧的全局文本信息方面的效率较高。模型考虑了2D到3D姿态是一个不适定问题，生成了多个姿态假设，防止了只生成一个假设可能造成的不满意的结果，生成了姿态假设并对假设进行了优化和综合，算法具有很好的表达能力和性能，最终的结果可以很好排除环境变化和遮挡的干扰。可提高智能视频监控系统的识别能力和检测精度，在背景复杂、噪声较多时同样具有较好的鲁棒性,可以有效解决遮挡带来的问题，并且可以有效解决自遮挡和深度模糊问题。

请参阅图4，图4为本发明实施例提供的一种电力机房内异常行为识别装置的结构框图。

本发明实施例提供了一种电力机房内异常行为识别装置，包括：

异常动作视频采集模块401，用于采集电力机房内工作人员的异常动作视频；异常动作视频包括多帧视频帧图像；

人体骨骼关键点坐标提取模块402，用于从视频帧图像中提取人体骨骼关键点坐标；

归一化模块403，用于对人体骨骼关键点坐标进行归一化处理，得到归一化关键点坐标；

3D姿态关键点建立模块404，用于采用归一化关键点坐标建立3D姿态关键点；

训练模块405，用于采用3D姿态关键点训练得到双输入异常行为分类卷积神经网络；

待分析视频图像获取模块406，用于获取待分析视频图像；

运动区域提取模块407，用于从待分析视频图像中提取运动区域；

骨骼特征提取模块408，用于从运动区域中提取骨骼特征；

检测模块409，用于将骨骼特征输入双输入异常行为分类卷积神经网络，输出异常行为检测结果。

在本发明实施例中，3D姿态关键点建立模块404，包括：

空间位置编码子模块，用于对归一化关键点坐标进行空间位置编码，得到编码特征；

第一时间位置姿态假设生成子模块，用于将编码特征输入预设第一编码器，输出第一姿态假设，并对第一姿态假设进行时间位置编码，得到第一时间位置姿态假设；

第二时间位置姿态假设生成子模块，用于将第一姿态假设输入预设第二编码器，输出第二姿态假设，并对第二姿态假设进行时间位置编码，得到第二时间位置姿态假设；

第三时间位置姿态假设生成子模块，用于将第二姿态假设输入预设第三编码器，输出第三姿态假设，并对第三姿态假设进行时间位置编码，得到第三时间位置姿态假设；

多姿态互优化结果生成子模块，用于采用第一时间位置姿态假设、第二时间位置姿态假设、第三时间位置姿态假设进行多姿态互优化，得到多姿态互优化结果；

多姿态自优化结果生成子模块，用于对多姿态互优化结果进行自优化，得到多姿态自优化结果；

3D姿态关键点建立子模块，用于采用多姿态自优化结果生成3D姿态关键点。

在本发明实施例中，训练模块405，包括：

样本帧选择子模块，用于在多帧视频帧图像中选择若干帧样本帧；

样本数据生成子模块，用于采用样本帧的3D姿态关键点生成样本数据；

训练子模块，用于采用样本数据训练预设初始双输入异常行为分类卷积神经网络，得到已训练的双输入异常行为分类卷积神经网络。

在本发明实施例中，运动区域提取模块407，包括：

灰度转换子模块，用于对待分析视频图像进行灰度转换，得到灰度视频图像；

背景建模子模块，用于建立灰度视频图像的背景建模，得到背景图像；

差分处理子模块，用于对灰度视频图像和背景图像进行差分处理，得到差分结果；

阈值化处理子模块，用于对差分结果进行阈值化处理，得到阈值结果；

运动区域提取子模块，用于根据阈值结果，从待分析视频图像中提取运动区域。

在本发明实施例中，还包括：

报警模块，用于当异常行为检测结果为存在异常行为时，发出报警信息并生成报警日志；报警日志包含异常行为发生时间、异常行为类型和人员截图。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明实施例的电力机房内异常行为识别方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的电力机房内异常行为识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电力机房内异常行为识别方法，其特征在于，包括：

从所述视频帧图像中提取人体骨骼关键点坐标；

采用所述归一化关键点坐标建立3D姿态关键点；

获取待分析视频图像；

从所述待分析视频图像中提取运动区域；

从所述运动区域中提取骨骼特征；

2.根据权利要求1所述的方法，其特征在于，所述采用所述归一化关键点坐标建立3D姿态关键点的步骤，包括：

采用所述多姿态自优化结果生成所述3D姿态关键点。

3.根据权利要求2所述的方法，其特征在于，所述采用所述3D姿态关键点训练得到双输入异常行为分类卷积神经网络的步骤，包括：

在多帧所述视频帧图像中选择若干帧样本帧；

采用所述样本帧的3D姿态关键点生成样本数据；

4.根据权利要求1所述的方法，其特征在于，所述从所述待分析视频图像中提取运动区域的步骤，包括：

对所述待分析视频图像进行灰度转换，得到灰度视频图像；

建立所述灰度视频图像的背景建模，得到背景图像；

对所述差分结果进行阈值化处理，得到阈值结果；

5.根据权利要求1所述的方法，其特征在于，所述将所述骨骼特征输入所述双输入异常行为分类卷积神经网络，输出异常行为检测结果的步骤之后，还包括：

6.一种电力机房内异常行为识别装置，其特征在于，包括：

待分析视频图像获取模块，用于获取待分析视频图像；

骨骼特征提取模块，用于从所述运动区域中提取骨骼特征；

7.根据权利要求6所述的装置，其特征在于，所述3D姿态关键点建立模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块，包括：

9.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的电力机房内异常行为识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的电力机房内异常行为识别方法。