CN116469029A

CN116469029A - 一种基于多层感知机网络的油田现场违章行为识别方法

Info

Publication number: CN116469029A
Application number: CN202310323518.8A
Authority: CN
Inventors: 张千; 邵明文; 柏恩瑞; 梁鸿
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-21

Abstract

本发明公开了一种基于多层感知机网络的油田现场违章行为识别方法，属于计算机视觉领域，包括如下步骤：制作油田违章行为识别数据集；构建基于多层感知机网络的油田现场违章行为识别模型；对模型进行训练及优化；通过采油作业现场的摄像头获取当前时刻待检测的视频数据，将其输入至训练完成的油田现场违章行为识别模型，得到违章行为检测结果数据，并进行违章行为判断；将油田现场违章行为的实时分析结果进行存储并可视化，以供监管人员查看处理。本发明具有检测行为类别准确、可以智能化判断行为是否违章等优点，旨在解决油田作业现场不安全的违章行为的实时检测问题，为油田作业现场的生产管理提供智能化的解决方案。

Description

一种基于多层感知机网络的油田现场违章行为识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多层感知机网络的油田现场违章行为识别方法。

背景技术

安全是发展的基石，石油领域场景复杂，人员作业风险较高。通过监控进行全天候盯审的方式，人力物力成本高，效率低下。因此，使用一些自动化的智能技术对作业现场可能存在的安全隐患进行智能分析具有重要意义。

近年来，随着计算机硬件的发展，其处理数据的能力显著提升，机器学习、深度学习等人工智能技术变得越来越普及，同时神经网络发展等软设施的发展以及采油作业现场摄像头的全覆盖部署，使得利用计算机进行大规模自动化处理实时监控视频变得可行，作业现场的智能检测得以实现。深度神经网络是机器学习领域的前沿，能够自动地学习得到深层次的特征信息。因此，亟需一种利用深度学习模型对油田现场违章行为进行自动识别及预警的方法。

发明内容

为了解决上述问题，本发明提出了一种基于多层感知机网络的油田现场违章行为识别方法，通过使用行为识别模型对油田现场违章行为进行自动识别及预警，该方法对自动提取的特征进行分析并预警，可以减少人力物力成本。

本发明的技术方案如下：

一种基于多层感知机网络的油田现场违章行为识别方法，包括以下步骤：

步骤1、制作油田违章行为识别数据集；

步骤2、构建基于多层感知机网络的油田现场违章行为识别模型；

步骤3、对油田现场违章行为识别模型进行训练及优化，得到训练完成的油田现场违章行为识别模型；

步骤4、通过采油作业现场的摄像头获取当前时刻待检测的视频数据，将其输入至训练完成的油田现场违章行为识别模型，得到油田现场违章行为检测结果数据，并根据得到的检测结果数据进行违章行为判断；

步骤5、将油田现场违章行为的实时分析结果进行存储并可视化，以供监管人员查看处理。

进一步地，步骤1的具体过程为：

步骤1.1、采集油田现场视频数据，根据视频数据中各类违章行为的开始时间和结束时间进行分段处理，将整个视频数据处理成多个片段，从分段处理后的视频数据中随机挑选若干个片段组成原始数据集；

步骤1.2、对包含若干片段的原始数据集进行分类放置，将不同行为类别的片段放在不同的文件夹下，相同类别的视频片段放在相同的文件夹下；

步骤1.3、将分类放置后的数据集按比例随机划分为训练集和验证集。

进一步地，步骤2中，油田现场违章行为识别模型包括编码网络、特征提取网络、分类网络三部分；其中，编码网络，用于对视频数据片段进行分帧处理，并将每帧图像划分为由若干个大小相同的补丁组成的补丁块序列，然后按固定帧间隔将补丁块序列编码映射成令牌序列；特征提取网络，利用三种多层感知机网络实现对令牌序列之间的信息交互，进而提取整段视频数据的时空信息特征；分类网络，根据特征提取网络得到的时空信息特征对视频进行分类，分类网络在分类时同时输出类别和置信度信息。

进一步地，步骤2的具体过程为：

步骤2.1、输入的视频数据首先经过编码网络，编码网络在时间和空间两个维度上对输入的视频进行线性映射，映射为一个令牌序列；

假设原始输入视频序列有F帧，每帧的分辨率为H×W，并且每个图像块的分辨率为P₁×P₂，则图像块的数目其中，H、W分别表示帧分辨率的高度、宽度，P₁、P₂分别表示图像块分辨率的高度、宽度；使用编码网络结构先对所有的图像块做一次线性映射，将视频V∈R^F×W×H×C映射到标记序列G∈R^f×k×d，获得的标记序列G即为令牌序列；其中，C为通道数，f为编码网络结构中时间维度的大小，k为自己预先设定的隐藏维度，d＝S，为图像块的数目；

步骤2.2、令牌序列接着经过包含三种多层感知机的特征提取网络，提取视频中包含的时空信息特征；

特征提取网络由令牌信息混合层、通道信息混合层、帧间信息混合层三种多层感知机结构组成；其中，令牌信息混合层，作用于输入特征信息的令牌维度，用于混合不同令牌之间的信息；通道信息混合层，作用于属于特征信息的通道维度，用于混合不同通道之间的信息；帧间信息混合层，作用于输入特征信息的帧维度，用于混合不同帧之间的信息；在特征提取网络中，令牌序列首先经过令牌信息混合层，混合序列中不同令牌之间的信息，同时使用残差结构稳定信息提取的过程；完整经过一个令牌信息混合层后得到的特征为经过令牌信息混合层之间的特征和经过令牌信息混合层之后的特征的总和；之后这个特征经过通道信息混合层，同样使用一个残差结构；经过一个令牌信息混合层和通道信息混合层后就实现了对空间信息特征次提取；对令牌信息混合层和通道信息混合层这两种信息混合层叠加N₁次，之后将叠加N₁次提取到的空间信息送入叠加N₂次的帧间信息混合层，每叠加一次都使用一个残差结构，帧间信息混合层提取完成即相当于对整个视频的时空信息特征提取完成；

步骤2.3、提取到的时空信息特征经过分类网络计算行为的类别，同时得到检测置信度；具体为：

分类网络包括输入层和输出层，输入层为时空信息特征对应的U个输入节点；输出层为V个类别，时空信息特征经过分类网络后得到每个类别的置信度，计算公式如下：

Y_v＝x_lw_lv+x₂w_2v+…+x_uw_uv+…+x_Uw_Uv+b_v(1)；

其中，Y_v表示第v个类别的置信度，x_u表示第u个输入节点，w_uv表示第u个输入节点映射到第v个类别的权重，b_v表示第v个类别的偏置；

使用Softmax函数将置信度转换为正数且置信度总和为1的概率分布，Softmax函数的公式为：

其中，e为自然常数，m为类别的序号，表示共包含M个类别的置信度总和。

进一步地，步骤3的具体过程为：

分别采用步骤1数据集中的训练集和验证集进行模型训练及优化，通过训练集拟合模型，设置模型的参数，对模型进行训练；当训练出多个模型后，使用各个模型对验证集数据进行预测，记录模型准确率，选出准确率最高的模型所对应的参数，作为最终训练完成的油田现场违章行为识别模型的模型参数；

训练时设置的网络训练参数包括：网络最大迭代次数、学习率、动量、权重衰减、检测的分类数目。

进一步地，步骤4的具体过程为：

步骤4.1、预先设置检测判别阈值；

步骤4.2、检测结果数据中包含的检测置信度，当检测置信度大于或等于检测判别阈值时，判定当前油田现场存在违章行为，进行实时预警；否则，判定当前油田现场不存在违章行为。

进一步地，步骤5中，基于油田现场违章行为识别模型开发了违章行为识别软件系统，开发时，在深度学习PyTorch框架下构建油田现场违章行为识别模型，软件系统安装在监控室的计算机中，计算机连接服务器，服务器接收和存储来自油田现场摄像头的视频数据，服务器还存储检测到的油田违章行为识别数据，根据存储的检测数据生成判定信息；当存在违章行为时，通过监控室计算机中软件系统的报警栏进行实时提醒，以实现可视化展示。

本发明所带来的有益技术效果：

在时间效率上，本发明方法可以通过计算机以及采油作业现场的摄像头自动实时判断油田现场工人是否有违章行为，比人工查看摄像头确认再反馈的流程更加准确快速，降低大量的人力物力成本。

在生产效率上，本发明方法不仅降低了时间成本，而且监察人员可以在监控室方便地查看各个采油现场工人的安全情况。通过油田现场违规行为的报警栏可以非常方便的掌握作业现场的工人生产情况，并根据实际情况做出快速反应，提高生产作业的安全性。

在应用成本上，无需额外加装传感器等硬件设备，降低了硬件成本，本发明使用计算机视觉与深度学习技术，通过生产作业现场现有的摄像头，在服务端增加服务器并安装相应软件即可，方便采油作业现场快速实现智能化检测。

此外，使用本发明可以实现对油田现场工人违章行为的智能化检测，并将图像视频等多媒体形式进行记录，从而得到更加丰富且更具信赖的档案资料，有助于监察人员后续的查找和存档。本发明具有检测行为类别准确、可以智能化判断行为是否违章等优点，旨在解决油田作业现场不安全的违章行为的实时检测问题，为油田作业现场的生产管理提供智能化的解决方案。

附图说明

图1为本发明基于多层感知机网络的油田现场违章行为识别方法流程图。

图2为本发明基于多层感知机网络的油田现场违章行为识别模型的结构示意图。

图3为图2模型中特征提取网络的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种基于多层感知机网络的油田现场违章行为识别方法，包括以下步骤：

步骤1、制作油田违章行为识别数据集。具体过程为：

步骤1.1、采集油田现场视频数据，根据视频数据中各类违章行为的开始时间和结束时间进行分段处理，将整个视频数据处理成多个片段，从分段处理后的视频数据中随机挑选若干个片段组成原始数据集。

本实施例中，采集只包含违章行为的油田现场视频数据，将整个视频数据处理成1000个片段，然后从中随机挑选8000个片段作为原始数据集。

步骤1.2、对包含若干片段的原始数据集进行分类放置，将不同行为类别的片段放在不同的文件夹下，相同类别的视频片段放在相同的文件夹下。

本实施例中，油田现场的违章行为共包括8类，这8类行为分别为：生产区域吸烟、跨越护栏、上下楼梯不扶栏杆、脚蹬气瓶、脚蹬钳框、人员聚集、人在传送护罩上行走、生产区域使用手机。

本实施例中，按照8:2的比例随机划分训练集和验证集。

步骤2、构建基于多层感知机网络的油田现场违章行为识别模型。

图2为本发明所提供的基于多层感知机网络的油田现场违章行为识别方法中的模型结构示意图，该模型包括编码网络、特征提取网络、分类网络三部分；其中，编码网络，用于对视频数据片段进行分帧处理，并将每帧图像划分为由若干个大小相同的补丁组成的补丁块序列，然后按固定帧间隔将补丁块序列编码映射成令牌序列；特征提取网络，利用三种多层感知机网络实现对令牌序列之间的信息交互，进而提取整段视频数据的时空信息特征；分类网络，根据特征提取网络得到的时空信息特征对视频进行分类，分类网络在分类时同时输出类别和置信度信息。

基于多层感知机网络的油田现场违章行为识别模型的具体工作过程如下：

步骤2.1、输入的视频数据首先经过编码网络，编码网络在时间和空间两个维度上对输入的视频进行线性映射，映射为一个令牌序列。

假设原始输入视频序列有F帧，每帧的分辨率为H×W，并且每个图像块的分辨率为P₁×P₂，则图像块的数目其中，H、W分别表示帧分辨率的高度、宽度，P₁、P₂分别表示图像块分辨率的高度、宽度。直接将S个图像块输入到网络中直接进行特征提取会产生巨大的计算成本，因此使用编码网络结构先对所有的图像块做一次线性映射，将视频B∈R^F ^×W×H×C映射到标记序列G∈R^f×k×d；其中，C为通道数，f为编码网络结构中时间维度的大小，k为自己预先设定的隐藏维度，d＝S，为图像块的数目。通过这种编码方式获得的标记序列G即为令牌序列，既同时融合了时空信息，又减少了后续操作的计算量。

特征提取网络的结构如图3所示，主要由三种多层感知机结构组成：令牌信息混合层，作用于输入特征信息的令牌维度，用于混合不同令牌之间的信息；通道信息混合层，作用于属于特征信息的通道维度，用于混合不同通道之间的信息；帧间信息混合层，作用于输入特征信息的帧维度，用于混合不同帧之间的信息。在特征提取网络中，令牌序列首先经过令牌信息混合层，混合序列中不同令牌之间的信息，同时使用残差结构稳定信息提取的过程。因此，完整经过一个令牌信息混合层后得到的特征为经过令牌信息混合层之间的特征和经过令牌信息混合层之后的特征(不使用残差结构时)的总和。之后这个特征经过通道信息混合层，同样使用一个残差结构。经过一个令牌信息混合层和通道信息混合层后就实现了对空间信息的一次提取。为了充分提取空间信息，对令牌信息混合层和通道信息混合层这两种信息混合层叠加N₁次。之后将叠加N₁次提取到的空间信息送入叠加N₂次的帧间信息混合层，每叠加一次都使用一个残差结构。帧间信息混合层提取完成后就实现了对整个视频的时空信息特征的提取。图3中，“⊕”表示特征相加，在本实施例中代表在经过每个信息混合层之前的特征信息和经过信息混合层之后的特征信息相加，“N₁×”表示空间信息混合层(由一个令牌信息混合层和一个通道信息混合层组成)叠加N₁次，“N₂×”表示帧间信息混合层叠加N₂次。

步骤2.3、提取到的时空信息特征经过分类网络计算当前行为在各个类别的置信度。具体为：

分类网络包括输入层和输出层，输入层为时空信息特征对应的U个输入节点；输出层为V个类别，本发明中，共包含8类违章行为，因此V＝8，时空信息特征经过分类网络后得到每个类别的置信度，计算公式如下：

Y_v＝x_lw_lv+x₂w_2v+…+x_uw_uv+…+x_Uw_Uv+b_v(1)；

其中，Y_v表示第v个类别的置信度，x_u表示第u个输入节点，w_uv表示第u个输入节点映射到第v个类别的权重，b_v表示第v个类别的偏置。

置信度数值越大，对应的标记越可能是真实标签，使用Softmax函数将置信度转换为正数且置信度总和为1的概率分布，Softmax函数的公式为：

其中，Y_v表示第v个类别的置信度，e为自然常数，m为类别的序号，表示共包含M个类别的置信度总和。

通过Softmax函数就可以将各个类别的置信度转换为范围为[0,1]的正数且，各个类别的置信度总和为1的概率分布。假如有三个类别，通过Softmax函数后得到第一个类别的置信度为0.7，第二个类别的置信度为0.2，第三个类别的置信度为0.1，这三个类别的置信度均在[0,1]范围内，且0.7+0.2+0.1＝1，即三个类别的置信度总和为1。

步骤3、对油田现场违章行为识别模型进行训练及优化，得到训练完成的油田现场违章行为识别模型。具体过程为：

分别采用步骤1数据集中的训练集和验证集进行模型训练及优化，其中训练集用来拟合模型，通过设置模型的参数，对模型进行训练。当训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率，以调整模型参数。选出准确率最高的模型所对应的参数，作为最终的模型参数。

训练时设置的网络训练参数包括：网络最大迭代次数、学习率、动量、权重衰减、检测的分类数目；训练及优化结束后输出训练完成的油田现场违章行为识别模型。

本实施例中，设置的训练参数具体为：网络最大迭代次数设为200；学习率初始化设为0.01，设置迭代第10轮时学习率修改为0.001，设置迭代第100轮时学习率修改为0.0001；动量设置为0.9；权重衰减设为0.0001；预训练模型使用ImageNet-1K数据集进行预训练，ImageNet-1K为用于图像分类的公共数据集；将检测的分类数目修改为油田现场违章行为数目，设置种类数为8。

步骤4、通过采油作业现场的摄像头获取当前时刻待检测的视频数据，将其输入至训练完成的油田现场违章行为识别模型，得到油田现场违章行为检测结果数据，并根据得到的检测结果数据进行违章行为判断。具体过程为：

步骤4.1、预先设置检测判别阈值；

本发明实施例中，基于油田现场违章行为识别模型开发了违章行为识别软件系统，开发时，在深度学习PyTorch框架下构建油田现场违章行为识别模型，软件系统安装在监控室的计算机中，计算机连接服务器，服务器接收和存储来自油田现场摄像头的视频数据，服务器还存储检测到的油田违章行为识别数据(包括图像视频等多媒体形式)，根据存储的检测数据生成判定信息。当存在违章行为时，通过监控室计算机中软件系统的报警栏进行实时提醒，以实现可视化展示。本发明利用深度学习模型自动地实时处理采油作业现场监控视频并将可视化结果返回，可以提升采油现场管理效率并且极大减少人工物力，优化采油作业现场生产管理的成本和质量。

为了证明本发明的可行性与优越性，本发明在数据集ImageNet-1K上预训练模型，然后在公共数据集Kinetics-400上测试对比。将本发明模型与其他模型进行对比试验，采用的对比模型包括：R(2+1)D、SlowFast-R101、MViT-B、Video Swin-B、TimeSformer-L。R(2+1)D模型是2018年提出的一种模型，它明确地将3d卷积分解为单独的和连续的操作，即一个2d空间卷积和一个1d时间卷积，通过这样的操作有效使非线性数量加倍，从而使模型能够表示更复杂的函数。SlowFast-R101模型是2019年提出的一种模型，它使用慢路径和快路径两个通道提取特征，其中慢路径采用低采样、高通道数主要提取空时特征，快路径采用高时间采样、低通道数(主要为了降低计算量)来提取时域特征。MViT-B模型是2021年提出的一种模型，它在纯基于注意力的架构上应用了视觉先验知识中的多尺度分层建模方法，即随着模型变深，特征分辨率下降的同时增加通道数。Video Swin-B模型是2022年提出的模型，它使用自适应学习稀疏注意掩码来解决连续的视频帧中信息冗余的问题。TimeSformer-L模型是2021年提出的一种模型，它使用时空自注意力机制代替了传统的卷积网络，与传统的卷积网络相比，它的训练速度更快，拥有更高的测试效率，并且可以处理超过一分钟的视频片段。

对比实验结果数据的详细内容如下：

本发明模型的计算量为3660亿次浮点运算，参数量为186.4兆字节，预测概率排名第一的类别与实际结果相符的准确率为81.1％，预测概率排名前五的类别与实际结果相符的准确率为94.9％；

R(2+1)D模型的计算量为750亿次浮点运算，参数量为61.8兆字节，预测概率排名第一的类别与实际结果相符的准确率为72.0％，预测概率排名前五的类别与实际结果相符的准确率为90.0％；

SlowFast-R101模型的计算量为2340亿次浮点运算，参数量为59.9兆字节，预测概率排名第一的类别与实际结果相符的准确率为77.8％，预测概率排名前五的类别与实际结果相符的准确率为92.8％；

MViT-B模型的计算量为4550亿次浮点运算，参数量为36.6兆字节，预测概率排名第一的类别与实际结果相符的准确率为81.2％，预测概率排名前五的类别与实际结果相符的准确率为95.1％；

Video Swin-B模型的计算量为2420亿次浮点运算，参数量为88.1兆字节，预测概率排名第一的类别与实际结果相符的准确率为80.6％，预测概率排名前五的类别与实际结果相符的准确率为94.6％；

TimeSformer-L模型的计算量为23800亿次浮点运算，参数量为121.4兆字节，预测概率排名第一的类别与实际结果相符的准确率为80.7％，预测概率排名前五的类别与实际结果相符的准确率为94.7％。

从上述数据结果可以看出，在同样使用数据集ImageNet-1K进行预训练的情况下，本发明采用基于多层感知机网络的油田现场违章行为识别模型的方法在公共数据集Kinetics-400上达到了81.1％的准确率，比之前最好的Video Swin-B模型提升了0.5％。同时，本发明的计算量较TimeSformer-L模型、Video Swin-B模型有极大的提升，TimeSformer-L模型的计算量几乎是本发明提出的方法的7倍。

本发明还测量了Kinetics-400数据集在交叉验证方式为20K的验证视频上的实际推理运行时间(使用8块Tesla V100 GPU)。SlowFast-R101模型需要15小时完成推理，TimeSFormer-L模型需要2.6小时，而本发明方法只需要1.8小时。尽管本发明模型的计算量比SlowFast-R101模型的计算量要大，但本发明推理阶段的效率却是它的8倍，是TimeSFormer-L模型的1.4倍。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于多层感知机网络的油田现场违章行为识别方法，其特征在于，包括以下步骤：

步骤1、制作油田违章行为识别数据集；

2.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤2中，油田现场违章行为识别模型包括编码网络、特征提取网络、分类网络三部分；其中，编码网络，用于对视频数据片段进行分帧处理，并将每帧图像划分为由若干个大小相同的补丁组成的补丁块序列，然后按固定帧间隔将补丁块序列编码映射成令牌序列；特征提取网络，利用三种多层感知机网络实现对令牌序列之间的信息交互，进而提取整段视频数据的时空信息特征；分类网络，根据特征提取网络得到的时空信息特征对视频进行分类，分类网络在分类时同时输出类别和置信度信息。

4.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤2的具体过程为：

假设原始输入视频序列有F帧，每帧的分辨率为H×W，并且每个图像块的分辨率为P₁×P₂，则图像块的数目其中，H、W分别表示帧分辨率的高度、宽度，P₁、P₂分别表示图像块分辨率的高度、宽度；使用编码网络结构先对所有的图像块做一次线性映射，将视频V∈R^F×W×H×C映射到标记序列G∈Rf^×k×d，获得的标记序列G即为令牌序列；其中，C为通道数，f为编码网络结构中时间维度的大小，k为自己预先设定的隐藏维度，d＝S，为图像块的数目；

Y_v＝x_lw_lv+x₂w_2v+…+x_uw_uv+…+x_Uw_Uv+b_v (1)；

5.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤3的具体过程为：

6.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤4的具体过程为：

步骤4.1、预先设置检测判别阈值；

7.根据权利要求1所述基于多层感知机网络的油田现场违章行为识别方法，其特征在于，所述步骤5中，基于油田现场违章行为识别模型开发了违章行为识别软件系统，开发时，在深度学习PyTorch框架下构建油田现场违章行为识别模型，软件系统安装在监控室的计算机中，计算机连接服务器，服务器接收和存储来自油田现场摄像头的视频数据，服务器还存储检测到的油田违章行为识别数据，根据存储的检测数据生成判定信息；当存在违章行为时，通过监控室计算机中软件系统的报警栏进行实时提醒，以实现可视化展示。