CN116597501A

CN116597501A - 视频分析算法及边缘设备

Info

Publication number: CN116597501A
Application number: CN202211520742.8A
Authority: CN
Inventors: 武恺莉; 李珣; 郭盛; 张乐; 徐渐威; 何嘉欣
Original assignee: Hangzhou Dinglan Technology Co ltd
Current assignee: Hangzhou Dinglan Technology Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-08-15

Abstract

本发明提供了一种视频分析算法，属于智能视频分析技术领域。它解决了现有对不同类型的任务需要建立不同的模型等问题。本视频分析算法包括以下步骤：步骤S1:构建人员识别模型；步骤S2：人员属性行为识别模型；步骤S3:串联人员识别模型和人员属性行为识别模型。本发明具有实时预测等优点。

Description

视频分析算法及边缘设备

技术领域

本发明属于智能视频分析技术领域，特别涉及一种视频分析算法及边缘设备。

背景技术

智能视频分析是建设智慧工厂的重要一环，对人员属性行为的识别能够以高效率的方式检测出人员的异常行为，发出预警并存储有用信息，从而协助安全人员更快处理危机，最大限度降低漏报和误报的情况。当智能分析系统识别到人员异常情况，即时将告警信息推送给视频监控管理中心，从而及时采取应对措施。

视频分析系统以现场安装的终端摄像头为基础，运用部署在边缘设备上的AI视觉算法对视频流内容进行实时检测与分析。通过视频分析算法对视频流中出现的人员行为进行检测，若检测到异常，自动生成预警信息，保存异常行为的图片或视频，返回检测结果。

在智慧工厂的视频分析系统中，人员属性行为复杂且多样，人员属性比如安全帽识别、工作服识别、反光衣识别等，人员行为比如工作时使用手机识别、离岗识别、抽烟识别等。在建模时，如果为每个任务单独训练模型，一方面模型数量较多部署困难，另一方面需要考虑模型调度问题。所以，为了提高模型推理和响应时间，需要将多个不同类型的任务整合在一个模型中。而简单的直接合并多个任务的数据集，会因为数据规模太小导致模型准确率较低。

在对监控视频数据进行识别分析时，需要考虑运行的时间效率。此外，直接对视频进行识别算法难度较大。因此，大多数算法通过从视频中抽取关键图像帧，将视频检测任务转换为图像检测任务，从而使得运行更快、性能更高。目前，图像目标检测方法大致分为两种。一种是以R-CNN为代表的Two-Stage目标检测方法，即首先生成一些候选框，然后对候选框的内容分类，并修正候选框的位置。一种是以YOLO为代表的One-Stage方法，即直接对图像进行候选框预测和分类，不需要预先生成候选框。Two-Stage算法精确度高，但实时性差，检测小目标不佳，更适合高精度目标检测。One-Stage算法实时性高，精度相对低，适合实时性要求高的场景。

边缘计算是指在网络的边缘节点上进行数据分析、模型预测等，从而加快了处理的速度，降低了延迟和带宽限制的影响。另外，使用部署在边缘设备上的算法可以进行实时预测，也提高了敏感隐私数据的安全性和业务数据的可靠性。

发明内容

本发明的目的是针对现有技术中存在的上述问题，提供了一种实时检测工厂作业人员的异常行为的视频分析算法及边缘设备。

本发明的第一个目的可通过下列技术方案来实现：一种视频分析算法，其特征在于，包括以下步骤：

步骤S1：构建人员识别模型：

步骤S1.a：在MS COCO数据集训练YOLOv5模型，记作M_g；

步骤S1.b：M_g模型推理，过滤人员类别以外的其他类别，只保留人员类别，获得人员识别模型，记作M_p；

步骤S2：人员属性行为识别模型：

步骤S2.a：对人员属性行为识别数据集中的原始图像V进行比例缩放预处理得到缩放图像V′，原始图像V的尺寸为原始尺寸并记为(w_v，h_v)，缩放图像V′的尺寸为缩放尺寸并记为(w_v′，h_v′)，使用所述的人员识别模型M_p检测图像中人员位置，得到中心点、宽、高和置信度信息并记为(x′，y′，w′，h′，c)，使用原始尺寸还原检测出的人员在原始图像V中的原始位置信息并记为(x_l，_yl，x_r，y_r，c_r)，如公式(1)、(2)、(3)：

(x_l，y_l，x_r，y_r)＝(x′_l，y_l，x′_r，y′)×(w_v，h_v，w_v，h_v) (2)；

c∈[0，1] (3)；

其中，(x_l，y_l)、(x_r，y_r)、c分别表示在原始图像V中检测到的人员的左上角位置坐标、右下角位置坐标和人员检测的置信度；

步骤S2.b：根据所述的原始位置信息(x_l，y_l，x_r，y_r，c)，设定人员检测置信度阈值为C，当大于人员检测置信度阈值C时，判定人员检测正确，根据原始位置信息裁剪出人员图像V^p，尺寸记为(w_p，h_p)；

步骤S2.c：人员属性行为识别数据集中标注的人员属性行为信息并记为并根据人员位置(x_ly_l，x_r，y_r)构建所述的人员图像V^p里的属性行为信息并记为/>l表示人员属性行为类别，需要判断人员候选框和行为候选框是否有交集，根据交并比大小判断是否需要进行标注，当需要标注时，根据公式(4)进行转换：

步骤S2.d：在标注有人员属性行为信息的属性行为识别数据集中使用YOLOv5训练人员属性行为识别模型模型输入为从原始图像V中裁剪出的人员图像V^p，输出为标注好的人员属性行为信息/>转换得到的(l，x^p，y^p，w^p，h^p)，转换过程如公式(5)、(6)：

(x^p，y^p，w^p，h^p)＝(x^p′，y^p′，w^p′，h^p′)÷(w_p，h_p，w_p，h_p) (6)；

步骤S3：串联人员识别模型和人员属性行为识别模型：

步骤S3.a：读取视频流，获取原始图像V；

步骤S3.b：使用步骤S1.b训练的人员识别模型检测原始图像V是否有人员出现；

步骤S3.c：当步骤S1.b中检测到人员目标，根据人员位置(x_l，y_l，x_r，y_r)裁剪出人员图像V^p；

步骤S3.d：使用步骤S.2.d中人员属性行为识别模型对人员图像V^p预测属性行为类别和位置/>

步骤S3.e：结合步骤S3.c和步骤S3.d模型检测的结果，得到原始图像V上的人员属性行为信息并截图保存，位置坐标转换如下公式(7)所示；

在上述的视频分析算法中，还包括以下步骤：

步骤S4：在边缘设备部署人员识别模型和人员属性行为识别模型，实时预测，自动警报：

步骤S4.a：将人员识别模型和人员属性行为识别模型进行格式转换；

步骤S4.b：在边缘设备上配置环境，部署人员识别模型和人员属性行为识别模型；

步骤S4.c：当边缘设备检测到人员异常行为，自动生成警报信息，截图并与警报信息一起传输至监控中心。

在上述的视频分析算法中，所述的步骤S3.a中，通过Opencv读取视频流。

在上述的视频分析算法中，所述的步骤S4.a中，将人员识别模型和人员属性行为识别模型生成的Pytorch格式的模型转换为ONNX格式。

一种边缘设备，其特征在于，包括边缘设备本体、输入端、输出端、一个或多个处理器、存储器，以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述的视频分析算法。

与现有技术相比，本发明具有实时预测的优点。

附图说明

图1是本发明一种视频分析算法的流程图。

图2是本发明一种视频分析算法的报警流程图。

图3是本发明一种视频分析算法及边缘设备的流程示意图。

图4是本发明一种视频分析算法的识别流程图。

图5是本发明一种视频分析算法的演示示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1-图4所示，本视频分析算法，包括以下步骤：

步骤S1：构建人员识别模型：

步骤S1.a：在MS COCO数据集训练YOLOv5模型，记作M_g；

步骤S2：人员属性行为识别模型：

步骤S2.a：对人员属性行为识别数据集中的原始图像V进行比例缩放预处理得到缩放图像V′，原始图像V′的尺寸为原始尺寸并记为(w_v，h_v)，缩放图像V′的尺寸为缩放尺寸并记为(w_v′，h_v′)，使用所述的人员识别模型M_p检测图像中人员位置，得到中心点、宽、高和置信度信息并记为(x′，y′，w′，h′，c)，使用原始尺寸还原检测出的人员在原始图像V中的原始位置信息并记为(x_l，y_l，x_r，y_r，_c)，如公式(1)、(2)、(3)：

(x_l，y_l，x_r，y_r)＝(x′_l，y′_l，x′_r，y′_r)×(w_v，h_v，w_v，h_v) (2)；

c∈[0，1] (3)；

设定人员检测置信度的阈值C为0.5，若大于该值，根据(x_l，y_l，x_r，y_r)在原始图片中裁剪出人员图像V^p。

步骤S2.c：人员属性行为识别数据集中标注的人员属性行为信息并记为并根据人员位置(x_l，y_l，x_r，y_r)构建所述的人员图像V^p里的属性行为信息并记为/>l表示人员属性行为类别，需要判断人员候选框和行为候选框是否有交集，根据交并比大小判断是否需要进行标注，当需要标注时，根据公式(4)进行转换：

定义人员属性行为类别列表，例如：[0：安全帽，1：口罩，2：反光衣，3：抽烟，4：使用手机]。结合原有位置标注，在裁剪出的人员图像V^p上标注人员属性行为的类别和位置。

步骤S3：串联人员识别模型和人员属性行为识别模型：

步骤S3.a：读取视频流，获取原始图像V；

进一步细说，还包括以下步骤：

使用YOLOv5提供的模型格式转换脚本将Pytorch格式保存的模型转换为ONNX格式模型，使得Opencv可读。

在边缘设备上安装Python和Pytorch环境，将两阶段人员属性识别模型部署在边缘设备上。

进一步细说，步骤S3.a中，通过Opencv读取视频流。

进一步细说，步骤S4.a中，将人员识别模型和人员属性行为识别模型生成的Pytorch格式的模型转换为ONNX格式。

本边缘设备，包括边缘设备本体、输入端、输出端、一个或多个处理器、存储器，以及一个或多个程序，其中一个或多个程序被存储在所述存储器中，并且被配置成由一个或多个处理器执行，所述程序包括用于执行上述的视频分析算法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了大量术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种视频分析算法，其特征在于，包括以下步骤：

步骤S1:构建人员识别模型：

步骤S1.a：在MS COCO数据集训练YOLOv5模型，记作M_g；

步骤S2：人员属性行为识别模型：

步骤S2.a：对人员属性行为识别数据集中的原始图像V进行比例缩放预处理得到缩放图像V′，原始图像V的尺寸为原始尺寸并记为(w_v，h_v)，缩放图像的尺寸为缩放尺寸并记为(w_v′，h_v′)，使用所述的人员识别模型M_p检测图像中人员位置,得到中心点、宽、高和置信度信息并记为(x′，y′，w′，h′，c)，使用原始尺寸还原检测出的人员在原始图像V中的原始位置信息并记为(x_l，y_l，x_r，y_r，c)，如公式(1)、(2)、(3)：

c∈[0，1] (3)；

步骤S2.c：人员属性行为识别数据集中标注的人员属性行为信息并记为并根据人员位置(x_l，y_l，x_r，y_r)构建所述的人员图像V^p里的属性行为信息并记为l表示人员属性行为类别，需要判断人员候选框和行为候选框是否有交集，根据交并比大小判断是否需要进行标注,当需要标注时，根据公式(4)进行转换：

步骤S3:串联人员识别模型和人员属性行为识别模型：

步骤S3.a:读取视频流，获取原始图像V；

步骤S3.b:使用步骤S1.b训练的人员识别模型检测原始图像V是否有人员出现；

步骤S3.c:当步骤S1.b中检测到人员目标，根据人员位置(x_l，y_l，x_r，y_r)裁剪出人员图像V^p；

步骤S3.d:使用步骤S.2.d中人员属性行为识别模型对人员图像V^p预测属性行为类别和位置/>

步骤S3.e:结合步骤S3.c和步骤S3.d模型检测的结果，得到原始图像V上的人员属性行为信息并截图保存，位置坐标转换如下公式(7)所示；

2.根据权利要求1所述的一种视频分析算法，其特征在于，还包括以下步骤：

步骤S4.a:将人员识别模型和人员属性行为识别模型进行格式转换；

步骤S4.b:在边缘设备上配置环境，部署人员识别模型和人员属性行为识别模型；

步骤S4.c:当边缘设备检测到人员异常行为，自动生成警报信息，截图并与警报信息一起传输至监控中心。

3.根据权利要求1所述的一种视频分析算法，其特征在于，通过Opencv读取视频流。

4.根据权利要求1所述的一种视频分析算法，其特征在于，将人员识别模型和人员属性行为识别模型生成的Pytorch格式的模型转换为ONNX格式。

5.一种边缘设备，包括边缘设备本体、输入端、输出端、一个或多个处理器、存储器，以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1-4任意一项所述的一种视频分析算法。