CN116797969A

CN116797969A - 一种基于SENet与时空图卷积的服务流程监控的方法

Info

Publication number: CN116797969A
Application number: CN202310642391.6A
Authority: CN
Inventors: 陆彬; 孟思宏; 姜德田; 李琳; 范以云
Original assignee: Xingwei Technology Beijing Co ltd
Current assignee: Xingwei Technology Beijing Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-22

Abstract

本发明涉及信息处理领域，公开了一种基于SENet与时空图卷积的加油服务流程监控的方法，包括深度学习对视频数据进行分级识别，其中SENet模型的输入是RGB图像，模型提取到人物的纹理、颜色等特征，并基于时空图卷积的模型输入是行人的关键点对，学习到人物的动作的空间特征和时间维度的特征，优化配置轻量级网络Se‑Resnet18，提升了算法的推理速度，达到了实时的监测效果，提升识别的精度和速度。

Description

一种基于SENet与时空图卷积的服务流程监控的方法

技术领域

本发明涉及信息处理领域，具体涉及一种基于SENet与时空图卷积的加油服务流程监控的方法。

背景技术

服务的规范化是现实企业的需求，尤其是对于连锁行业，诸如加油站等，是提升竞争力和用户服务体验关键所在。加油站服务流程标准化，是指加油站对员工服饰、配饰、身体姿态、基本礼仪、加油操作、收银操作都做了标准的要求，通过标准化可以让顾客在每一次消费中获得服务品质体验的一致性和优质性，因此不断提高加油站服务流程标准化一直是加油站管理部门的重点。

由于加油站服务流程比较规范，过程可以被拆解成若干动作，而且每一步顺序都具有规定。包括但不限于加油操作标准的站立迎候、引导车辆、开启车门、微笑招呼、开启油箱、归零预置、提枪加油、收枪复位、简易擦车、提示付款、礼貌送行、盘整清洁，以及收银操作标准微笑迎接、查验凭证、收款找零、开具发票、推荐商品、礼貌送行等操作。可能由于现场匆忙或者员工偷懒这些客观或者主观的原因将某些操作步骤遗漏，导致客户对加油站的印象不好从而流失客户，因此，有必要对员工的服务流程进行视频监控。

目前视频智能化分析技术已经被广泛应用于各行各业，其中加油站也已经实现了很多应用，其应用原理是基于已有的摄像头进行图像、视频、音频等相关数据的分析，并得出客户需要的结果。一般情况下,智能安防技术主要包括视频监控、智能分析、平台预警三部分，这三部分通过网络传输联系起来,构成了完备的智能安防视频分析系统。

虽然视频智能化分析技术已经达到了一定应用的水平,但是在加油站服务流程监测中仍存在很多缺陷，主要表现为以下方面：

(1)目前市场上通过摄像头采集视频进行AI分析，大部分厂家支持的算法包括安全帽、烟火、工作服、打电话等识别，这些算法都是单场景对单一目标进行识别，无法构建成服务行为分析的软件。

(2)没有一个有效的自助完善能力，目前我们很多智能化工程中所说的智能，只是一种反应式的智能，没有真正的达到智能的地步，都需要根据输入的条件进行自动的判断，这种智能没有什么成长能力。真正意义上的人工智能应该是在时间的沉淀下，以及群体间的经验分享能力，这样才能在智能化工程中不断完善，使得智能能力更强，更高效。

(3)深度学习大模型消耗算力过大，导致处理延迟过长，这种情况一旦发生将会失去实时报警作用，而且将导致在突发事件发生之后不能提供有力证据。

(4)当前视频行为分类的模型较少，传统的基于图像帧的光流法分类模型参数太多，模型难以训练。

(5)加油站服务类行为的动作有站立、归零手势、擦车、送行，而同一动作在实际中也会有很多精细的差别，因此加油站服务动作的规范识别存在类间方差大，类内方差小。

发明内容

为解决上述技术问题至少之一，本发明提出了一种SENet与时空图卷积加油服务流程监控的方法，其特征在于，所述方法包括：

步骤1.获取加油现场的视频数据；

步骤2.监测并跟踪所述视频监控数据中的行人；

步骤3.对行人进行截取并送入SENet中进行动作识别；

步骤4.对行人进行人体关键点检测；

步骤5.如果行人被跟踪的时间超过指定时间，则将行人的关键点对送入ST-GCN模型中进行动作识别；

步骤6.将SENet和ST-GCN模型预测的结果按照一定比例进行联合判断，其中ST-GCN设置为70％的比例，SENet设置为30％的比例，将两者的输出结果按照比例进行融合后，输出行为动作判断的结果；

步骤7.对员工的加油服务流程进行判断和打分，并对加油人员做人脸识别，将获取的与加油服务相关信息发送到平台中进行后续操作。

进一步，所述步骤7中的所述加油服务相关信息至少包括：服务流程的完成度和得分、当前时间、当前地点、当前加油机号、截图、短视频、加油人员的人脸信息和车辆信息。

进一步，所述方法还包括：步骤8.加油站管理员在平台或者线上APP上收到加油服务规范的检测结果后，对SENet和ST-GCN模型识别错误的结果进行申诉和评价，为SENet和ST-GCN模型不断优化提供数据源。

进一步，步骤2中使用的检测模型是通过采集现场加油人员的视频数据，并对数据中的行人进行标注，最终使用yolov5模型进行训练，其中跟踪模型为deepsort，检测模型替换成了训练好的yolov5模型。

进一步，步骤8中还包括：经过管理员处理好的数据会被当作训练数据放到SENet和ST-GCN模型中进行迁移学习。

进一步，所述SENet模型的构建包括优化ResNet18卷积神经网络：将ResNet18卷积神经网络中的第一层conv1的卷积核层数由64改为32，conv2_x不进行改动，接着依次将conv3_x、conv4_x、conv5_x中的卷积核层数改为64，将输入为人形的裁剪框设置为高256宽192，使用全连接+Softmax的方式实现最终的分类。

进一步，SENet模型构建的参数设置还包括将SE模块和优化后的ResNet18卷积神经网络进行结合，构建新的轻量级卷积神经网络模型，即SE-ResNet18模型，所述SE-ResNet18模型由残差模块、批标准化(BN)、最大池化层、SE模块、平均池化层和全连接层堆叠而成。

进一步，使用训练集，训练所述步骤建立的SE-ResNet18模型，并保存训练好的SE-ResNet18模型。

进一步，训练集、测试集和验证集的比例为7:2:1。

进一步，将SE模块添加在残差模块中。

本发明提供一种基于SENet与时空图卷积的加油服务流程监控的方法，基于深度学习对视频数据进行分级识别，系统开发了模型自训练模式，从而在使用中不断降低漏判、误判，从而实现利用加油站现有摄像头设备对员工服务流程进行监测和打分的系统。其中为了提升识别的精度和速度分别设计了，基于SENet和基于时空图卷积网络的动作识别模型。其中SENet模型的输入是RGB图像，模型可以提取到人物的纹理、颜色等特征。另外一个基于时空图卷积的模型输入是行人的关键点对，模型可以学习到人物的动作的空间特征和时间维度的特征。

通过本发明去解决目前视频监测中的五大缺陷中的至少之一：首先系统方面不再是单场景对单一目标进行识别，可以通过组合算法构建成服务行为分析的软件。其次系统集成的模型自训练模式，使得模型可以在时间的沉淀下，不断积累经验和完善识别能力。然后模型设计方面采用了轻量级网络Se-Resnet18，并对resnet18结构进行了优化，使得算力消耗降低到原来的一半，大大提升了算法的推理速度，达到了实时的监测效果。行为识别方面创新地使用ST-GCN模型代替传统的基于图像帧的光流法，可以大幅提升模型的精确度，并且在损失函数模块加入标签平滑处理(label-smoothing),降低了模型训练的难度。另外根据加油站服务行为规范结合现场视频数据整理出一份加油站行为规范识别数据集。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例中加油服务流程监控的流程图；

图2是实施例中加油服务的行为识别算法的工作流程图；

图3是实施例中加油服务的行为识别算法的训练流程图；

图4是实施例中的行为识别算法中SENet的精确度测试图；

图5是实施例中的行为识别算法中ST-GCN模型结构示意图；

图6是实施例中的行为识别算法中ST-GCN的实现流程图；

图7是实施例中的行为识别算法中SE模块的结构示意图；

图8是实施例中的加油服务的行为识别中泵码归零动作的识别示意图；

图9是实施例中的加油服务的行为识别中双手接递动作的识别示意图；

图10是实施例中的行为识别算法中将SE添加在残差模块的结构示意图；

图11是实施例中的行为识别算法中骨架示例图；

图12是实施例中的行为识别算法中人形关键点中时间边的示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明公开一种基于SENet与时空图卷积的加油服务流程监控的方法和系统，所述方法包括，如图1所示，散装油事件行为识别方法包括：

步骤1.获取加油现场的视频数据；

步骤2.监测并跟踪所述视频监控数据中的行人；

步骤3.对行人进行截取并送入SENet中进行动作识别；

步骤4.对行人进行人体关键点检测。

步骤5.如果行人被跟踪的时间超过指定时间，则将该行人的关键点对送入ST-GCN模型中进行动作识别；

步骤6.将SENet和ST-GCN模型预测的结果按照一定比例进行联合判断，因为ST-GCN准确率更高，所以这里设置为70％的比例，SENet占据30％的比例，将两者的输出结果按照比例进行融合后，最终输出行为动作判断的结果；

步骤7.对员工的加油服务流程进行判断和打分，并对加油人员进行人脸识别，存在车辆则进行车牌识别，最终将服务流程的完成度和得分、当前时间、当前地点、当前加油机号、截图、短视频、加油人员的人脸信息、车辆信息发送到平台中进行后续操作；

步骤8.加油站管理员在平台或者线上APP上收到加油服务规范的检测结果后，可以对模型识别错误的结果进行申诉和评价，保证了加油员工的自身利益并为模型不断优化提供了数据源；如图2-3所示：

步骤1视频数据和分析设备的传送通过RTSP/RTMP视频流的方式通过网络进行传输。

步骤2中使用的检测模型是通过采集现场加油人员的视频数据，并对数据中的行人进行标注，最终使用yolov5模型进行训练得到的。

步骤2中使用的跟踪模型为deepsort，这里将检测模块替换成了训练好的yolov5模型，其他模块直接进行使用。

步骤4中使用tinypose模型使用coco人体关键点数据进行训练得到。

步骤7通过mqtt协议进行设备间的消息传输，完成报警信息的通讯。

步骤8经过管理员处理好的数据会被当作训练数据放到原始的SENet和ST-GCN模型中进行迁移学习。

优选的基于SENet在图像帧进行行为识别的模型。

优选的实施例方式中基于SENet在图像帧进行行为识别的模型，包含对SENET模型的构建，所述，优化版SENet模型构建过程包括：

步骤1.数据建立，采集加油站各种服务规范的样本图片，建立服务行为识别数据集；

步骤2.数据扩充，对数据集中样本图片旋转、平移、翻转，进行数据的扩充；

步骤3.数据标注，对所述步骤2中扩充后的服务行为识别数据集中的样本图进行分类；

步骤4.数据划分，将所述步骤3中标注后的服务行为识别数据集随机划分为训练集、测试集和验证集；

步骤5.模型构建，将ResNet18卷积神经网络中的第一层conv1的卷积核层数由64改为32，conv2_x不进行改动，接着依次将conv3_x、conv4_x、conv5_x中的卷积核层数改为64，模型的输入为人形的裁剪框，因此模型原来的高224、宽224的输入尺寸不再合适，这里改为高256宽192，通过模型进行5次下采样将输入数据由256x192x3变为8x6x64，最后使用全连接+Softmax的方式完成最终的分类。

步骤6.模型构建，将SE模块和优化后的ResNet18卷积神经网络进行结合，构建一个新的轻量级卷积神经网络模型，即SE-ResNet18模型，该模型由残差模块、批标准化(BN)、最大池化层、SE模块、平均池化层和全连接层堆叠而成,具体实现见如下表1基于resnet18改进后的模型参数表；

步骤7.模型训练，导入训练集，训练所述步骤建立的SE-ResNet18模型，并保存训练好的模型；

步骤8.使用测试集对所述步骤7训练好的SE-ResNet18模型和其他卷积神经网络进行测试对比测试，以此来验证神经网络之间的优劣，测试结果见图4SENet的精确度测试图；

步骤9.利用测试好的SE-ResNet18模型对加油员工的行为进行识别。

优选地，步骤2中扩充后的服务行为识别数据集划分为加油操作：站立迎候、引导车辆、归零预置、简易擦车、礼貌送行,收银操作：微笑迎接、双手接递、礼貌送行8类共18000张图片。

优选地，将步骤4中划分的训练集、测试集和验证集的比例为7:2:1。

优选地，步骤6建立的模型中将SE模块添加在残差模块的结构示意图见图10。

优选地，卷积模块包括卷积层和批归一化处理层，在卷积层后进行批归一化处理。

优选地，ResNet为ResNetV2，其由1×1、3×3、1×1三个卷积核构成。

优先的，其它实施例方式中，如图6-7所示，对用户的行为的识别中采用，基于时空图卷积的行为识别模型包括：

步骤1.数据建立，采集加油站各种服务规范视频，建立服务行为识别数据集；

步骤3.数据标注，对所述步骤2中扩充后的服务行为识别数据集中的样本使用2D姿态估计算法tinypose模型进行关键点检测，将关键点保存成关键点对，最终将一个行为数据转换为一个五维矩(N,C,T,V；M)其中N为视频数据量；C为关节特征向量，包括(x,y,acc)；T为视频中抽取的关键帧的数量；V表示关节的数量，如图11这里采用18个关节数量；M则是一个视频中的人数，详细介绍见如下表2ST-GCN输入数据解释表。

步骤4.数据划分，将所述步骤3中整理好的服务行为识别数据集随机划分为训练集、测试集和验证集；

步骤5.模型构建，首先对输入数据进行Batch Normalization批量归一化，接着，通过设计ST-GCN单元，引入ATT注意力模型并交替使用GCN图卷积网络和TCN时间卷积网络，对时间和空间维度进行变换，在这一过程中对关节的特征维度进行升维，对关键帧维度进行降维，最后，通过调用平均池化层、全连接层，并后接SoftMax层输出，对特征进行分类，结构如图5，ST-GCN模型结构示意图。

步骤6.模型构建，在分类损失的基础上融合label-smoothing，也就是对标签平滑处理，例如将标准样本的标签值设为0.95而不是为1，从而让模型对错误样本产生一定的“免疫力”；

步骤7.模型训练，导入训练集，训练所述步骤建立的ST-GCN模型，并保存训练好的模型；

步骤8.使用测试集对所述步骤7训练好的ST-GCN模型和其他神经网络进行测试对比测试，以此来验证神经网络之间的优劣，测试结果见如下表3基于改进后ST-GCN的精确度测试表；

步骤9.利用测试好的ST-GCN模型对加油员工的行为进行识别。

优选地，步骤1中源视频素材中视频的帧率统一标准化为每秒30帧，并且图像大小是1920*1080来保证数据集的相对一致性。

优选地，步骤3中使用2D姿态估计算法tinypose对视频进行逐帧骨骼点提取，最后以.npy格式保存数据集，这里我们对行为视频的数据进行可视化，如图8泵码归零动作的识别示意图、图9双手接递动作的识别示意图；

优选的其它实施例方式中，SENet在常规的卷积之后增加了一条专门计算channel-wise scale的branch，然后把得到的值乘到相应的channel上。ST-GCN：通过将图卷积网络(GCN)和时间卷积网络(TCN)结合起来，扩展到时空图模型，设计出了用于行为识别的骨骼点序列通用表示，该模型将人体骨骼表示为图，其中图的每个节点对应于人体的一个关节点。图中存在两种类型的边，即符合关节的自然连接的空间边(spatial edge)和在连续的时间步骤中连接相同关节的时间边temporal edge如图12所示。在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度进行整合。

label-smoothing：在训练样本中，我们并不能保证所有sample都标注正确，如果某个样本标注错误，就可能产生负面印象，如果我们有办法“告诉”模型，样本的标签不一定正确，那么训练出来的模型对于少量的样本错误就会有“免疫力”采用随机化的标签作为训练数据时，损失函数有1-ε的概率与上面的式子相同，比如说告诉模型只有0.95概率是那个标签。

为实现上述方法，本发明的公开实施的硬件平台为：CPU型号为AMD EPYCTM ROME(2.6Hz)90核，内存大小为226GB；GPU为2颗NVIDIATesla T4，显存大小为32GB。软件平台为：操作系统为Ubuntu18.04LTS、OpenCV版本为3.4.5、Pytorch的版本为1.8.0。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各视频播放方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意涉及的方法步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种SENet与时空图卷积加油服务流程监控的方法，其特征在于，所述方法包括：

步骤1.获取加油现场的视频数据；

步骤2.监测并跟踪所述视频监控数据中的行人；

步骤3.对行人进行截取并送入SENet中进行动作识别；

步骤4.对行人进行人体关键点检测；

步骤6.将SENet和ST-GCN模型预测的结果按照一定比例进行联合判断，其中 ST-GCN设置为70%的比例，SENet设置为30%的比例，将两者的输出结果按照比例进行融合后，输出行为动作判断的结果；

2.如权利要求1所述的方法，其特征还在于，所述步骤7中的所述加油服务相关信息至少包括：服务流程的完成度和得分、当前时间、当前地点、当前加油机号、截图、短视频、加油人员的人脸信息和车辆信息。

3.如权利要求2所述的方法，其特征还在于，所述方法还包括：步骤8.加油站管理员在平台或者线上APP上收到加油服务规范的检测结果后，对SENet和ST-GCN模型识别错误的结果进行申诉和评价，为SENet和ST-GCN模型不断优化提供数据源。

4.如权利要求3所述的方法，其特征还在于：步骤2中使用的检测模型是通过采集现场加油人员的视频数据，并对数据中的行人进行标注，最终使用yolov5模型进行训练，其中跟踪模型为deepsort，检测模型替换成了训练好的yolov5模型。

5.如权利要求4所述的的方法，其特征还在于：步骤8 中还包括：经过管理员处理好的数据会被当作训练数据放到SENet和ST-GCN模型中进行迁移学习。

6.如权利要求5所述的方法，其特征还在于：所述SENet模型的构建包括优化ResNet18卷积神经网络：将ResNet18卷积神经网络中的第一层conv1的卷积核层数由64改为32，conv2_x不进行改动，接着依次将conv3_x、conv4_x、conv5_x中的卷积核层数改为64，将输入为人形的裁剪框设置为高256宽192，使用全连接+Softmax的方式实现最终的分类。

7.如权利要求6所述的方法，其特征还在于：SENet模型构建的参数设置还包括将SE模块和优化后的ResNet18卷积神经网络进行结合，构建新的轻量级卷积神经网络模型，即SE-ResNet18模型，所述SE-ResNet18模型由残差模块、批标准化(BN)、最大池化层、SE模块、平均池化层和全连接层堆叠而成。

8.如权利要求7所述的方法，其特征还在于：使用训练集，训练所述步骤建立的SE-ResNet18模型，并保存训练好的SE-ResNet18模型。

9.如权利要求8所述的方法，其特征在于：训练集、测试集和验证集的比例为7:2:1。

10.如权利要求9所述的方法，其特征在于：将SE模块添加在残差模块中。