CN115761881A

CN115761881A - 一种基于改进yolov5-SFF的检测方法及系统

Info

Publication number: CN115761881A
Application number: CN202211392625.8A
Authority: CN
Inventors: 李丽娟; 张鹏; 焦文华; 杨世品
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-07

Abstract

本发明公开了视频识别领域的一种基于改进yolov5‑SFF的检测方法及系统，包括：将实时视频数据输入至预先训练的Yolov5‑SFF检测模型中获取对工人操作行为的检测结果；Yolov5‑SFF检测模型的训练过程包括：采集历史视频数据，构建训练数据集；利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选，对筛选出帧画面中的操作行为进行标注；添加通道过滤模块和空间注意力模块至骨干网路，将骨干网络、头部网络、时空特征融合模块和识别模块依次叠加构建为Yolov5‑SFF检测模型；利用训练数据集中添加操作行为标注的历史视频数据训练Yolov5‑SFF检测模型，重复训练直至Yolov5‑SFF检测模型的检测准确率趋于稳定；提高了检测和识别精度的同时也保证了算法实时检测的速度。

Description

一种基于改进yolov5-SFF的检测方法及系统

技术领域

本发明属于视频识别技术领域，具体涉及一种基于改进yolov5-SFF的检测方法及系统。

背景技术

工厂监控相机每天可以产生数T级有效的工厂视频数据，而这些视频中的绝大部分仅仅用于监控工人生产。实际上，这些工厂视频数据中包含大量的工人、机器的操作行为，以及蕴含在其中的生产操作模式等，可以进一步用于动作识别、异常事件监测等方面。识别和分析工人的生产操作行为可以帮助工人规范操作行为，及早发现异常操作，也可以避免操作失误带来的经济损失和危险事故。因此，实时检测和识别工人的生产操作行为对工业生产具有十分重大的意义。

工人操作行为的检测与识别主要分为4步：目标检测、目标跟踪、特征提取和行为识别；基于深度学习提出的Yolov5目标检测算法可以用来检测目标的位置和类别，但是在复杂工业背景中对工人操作行为的特征提取能力较差，并且忽略了帧画面之间的时序相关性，导致对工人操作行为检测与识别的效果较差。

发明内容

本发明的目的在于提供一种基于改进yolov5-SFF的检测方法及系统，同时进行目标检测和行为识别，提高了检测和识别精度的同时也保证了算法实时检测的速度。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种基于改进yolov5-SFF的检测方法，包括：

采集包含工人操作行为的实时视频数据，将实时视频数据输入至预先训练的Yolov5-SFF检测模型中获取对工人操作行为的检测结果；

Yolov5-SFF检测模型的训练过程包括：

采集包含工人操作行为的历史视频数据，构建训练数据集；利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选，对筛选出帧画面中的操作行为进行标注；

添加通道过滤模块和空间注意力模块至骨干网路，将骨干网络、头部网络、时空特征融合模块和识别模块依次叠加构建为Yolov5-SFF检测模型；

利用训练数据集中添加操作行为标注的历史视频数据训练Yolov5-SFF检测模型，重复训练直至Yolov5-SFF检测模型的检测准确率趋于稳定。

优选的，利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选的方法包括：

每组历史视频数据的帧画面缩放为设定尺寸；将缩放后的帧画面灰度化；

比较帧画面中每行左右两个像素，如果左边的像素值大于右边的像素值，则记录为1，否则为0，获得帧画面的指纹序列；

统计各帧画面的指纹序列之间存在差异数值的个数，将两帧画面之间差异数值的个数记为汉明距离；

根据各帧画面之间的汉明距离筛选每组历史视频数据的帧画。

优选的，所述骨干网络依次包括卷积层、卷积-C3-AS模块和特征金字塔池化模块；所述特征金字塔池化模块和卷积层之间设有多个卷积-C3-AS模块；

所述卷积-C3-AS模块依次包括卷积层和C3-AS模块；由Yolov5模型的C3模块添加有通道过滤模块和空间注意力模块形成所述C3-AS模块；所述C3-AS模块的输入特征依次经过卷积、n个残差模块、通道过滤模块和空间注意力模块形成特征C；所述C3-AS模块的输入特征经过卷积形成特征D；所述特征C和特征D依次经过拼接和卷积后形成所述C3-AS模块的输出特征。

优选的，所述通道过滤模块包括2D卷积、平均池化模块和激励层；所述通道过滤模块的输入特征经过2D卷积形成特征E；所述特征E经过平均池化模块形成特征F；所述特征F经过激励层形成特征G；所述激励层内依次设置全连接层、批量标准化模块、RELU激活层、全连接层和Sigmoid激活层；

所述特征G和所述特征F进行元素相乘后进行软阈值化处理形成特征H，所述特征H与特征E相乘后与所述通道过滤模块的输入特征进行元素相加形成通道过滤模块的输出特征。

优选的，所述特征G和所述特征F进行元素相乘后进行软阈值化处理形成特征H，表达公式为：

RELU(x₂)＝max(0,x₂)

公式中，X表示为输入特征E；AvgPool(·)表示为平均池化模块的计算函数；FC(·)表示为全连接层的计算函数；

表示对应元素相乘；ω表示为尺寸为1×1×C的正随机数矩阵；ω_c表示为特征H。

优选的，所述空间注意力模块包括最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层；所述空间注意力模块的输入特征依次经过最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层后，相乘空间注意力模块的输入特征形成所述空间注意力模块的输出特征；表达公式为：

M_s(K)＝Sigmoid(f^7×7([AvgPool(K)；MaxPool(K)]))

公式为：K表示为空间注意力模块的输入特征；M_s(K)表示为空间注意力模块的输出特征；MaxPool(·)表示为最大池化-平均池化模块的计算函数；AvgPool(·)表示为平均池化模块的计算函数；f^7×7表示尺寸为7×7的卷积核；Sigmoid(·)表示为Sigmoid激活层的计算函数。

优选的，时空特征融合模块包括维度调整模块、时域卷积模块和GELU模块；所述时空特征融合模块的输入特征经过维度调整模块处理后形成特征I；特征I经过卷积形成特征J；所述特征I依次经过时域卷积模块、GELU模块、时域卷积模块和GELU模块处理后，与特征J相加形成所述时空特征融合模块的输出特征。

优选的，时域卷积模块的输入特征的尺寸为16×H²×C，时域卷积模块内依次设置因果卷积、采样间隔为2的膨胀卷积、采样间隔为4的膨胀卷积、采样间隔为8的膨胀卷积和批量标准化模块，时间卷积模块的感受野最终可以完全覆盖16张图像的特征矩阵；因果卷积和膨胀卷积的卷积核尺寸均为2×3。

优选的，所述GELU模块的函数表达式：

公式中，x₃表示为GELU模块的输入特征。

本发明第二方面提供了一种基于改进yolov5-SFF的检测系统，包括：

识别检测单元，用于采集包含工人操作行为的实时视频数据，将实时视频数据输入至预先训练的Yolov5-SFF检测模型中获取对工人操作行为的检测结果；

训练数据集构建单元，用于采集包含工人操作行为的历史视频数据，构建训练数据集；利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选，对筛选出帧画面中的操作行为进行标注；

模型构建单元，用于添加通道过滤模块和空间注意力模块至骨干网路，将骨干网络、头部网络、时空特征融合模块和识别模块依次叠加构建为Yolov5-SFF检测模型；

训练单元，利用训练数据集中添加操作行为标注的历史视频数据训练Yolov5-SFF检测模型，重复训练直至Yolov5-SFF检测模型的检测准确率趋于稳定。

本发明第三方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述检测方法的步骤。

与现有技术相比，本发明的有益效果：

本发明采集包含工人操作行为的历史视频数据，构建训练数据集；利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选，对筛选出帧画面中的操作行为进行标注；由差异哈希算法筛选出的帧画面之间具有一定的差异性，减少了重复数据，训练过程更加稳定，收敛速度较快，训练得到的模型具有更好的鲁棒性，保证了算法实时检测的速度。

本发明添加通道过滤模块和空间注意力模块至骨干网路，将骨干网络、头部网络、时空特征融合模块和识别模块依次叠加构建为Yolov5-SFF检测模型；利用训练数据集中添加操作行为标注的历史视频数据训练Yolov5-SFF检测模型，重复训练直至Yolov5-SFF检测模型的检测准确率趋于稳定；利用了多个帧画面之间的相关性，通过过去时刻的画面中的信息准确判断出当前的工人行为，提高了检测和识别精度。

附图说明

图1是本发明提供的一种基于改进yolov5-SFF的检测方法的流程图；

图2是本发明提供的利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选的流程图；

图3是本发明提供的yolov5-SFF检测模型的结构图；

图4是本发明提供的C3-AS模块的结构图；

图5是本发明提供的时空特征融合模块的结构图；

图6是本发明提供的Yolov5-SFF检测模型的检测效果对比图；

图7是本发明提供的Yolov5-SFF与其他算法的结果对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

如图1至图5所示，一种基于改进yolov5-SFF的检测方法，包括：

Yolov5-SFF检测模型的训练过程包括：

采集包含工人操作行为的历史视频数据，按照2:8的比例将历史视频数据分为测试数据集和训练数据集；利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选的方法包括：

根据各帧画面之间的汉明距离筛选每组历史视频数据的帧画。对筛选出帧画面中的操作行为进行标注。

所述骨干网络依次包括卷积层、卷积-C3-AS模块和特征金字塔池化模块；所述特征金字塔池化模块和卷积层之间设有多个卷积-C3-AS模块；

所述通道过滤模块包括2D卷积、平均池化模块和激励层；所述通道过滤模块的输入特征经过2D卷积形成特征E；所述特征E经过平均池化模块形成特征F；所述特征F经过激励层形成特征G；所述激励层内依次设置全连接层、批量标准化模块、RELU激活层、全连接层和Sigmoid激活层；

所述特征G和所述特征F进行元素相乘后进行软阈值化处理形成特征H，表达公式为：

RELU(x₂)＝max(0,x₂)

表示对应元素相乘；ω表示为尺寸为1×1×C的正随机数矩阵；ω_c表示为特征H；

所述特征H与特征E相乘后与所述通道过滤模块的输入特征进行元素相加形成通道过滤模块的输出特征。

所述空间注意力模块包括最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层；所述空间注意力模块的输入特征依次经过最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层后，相乘空间注意力模块的输入特征形成所述空间注意力模块的输出特征；表达公式为：

M_s(K)＝Sigmoid(f^7×7([AvgPool(K)；MaxPool(K)]))

时空特征融合模块包括维度调整模块、时域卷积模块和GELU模块；所述时空特征融合模块的输入特征经过维度调整模块处理后形成特征I；特征I经过卷积形成特征J；所述特征I依次经过时域卷积模块、GELU模块、时域卷积模块和GELU模块处理后，与特征J相加形成所述时空特征融合模块的输出特征。

所述GELU模块的函数表达式：

公式中，x₃表示为GELU模块的输入特征。

时域卷积模块的输入特征的尺寸为16×H²×C，时域卷积模块内依次设置因果卷积、采样间隔为2的膨胀卷积、采样间隔为4的膨胀卷积、采样间隔为8的膨胀卷积和批量标准化模块，时间卷积模块的感受野最终可以完全覆盖16张图像的特征矩阵；因果卷积和膨胀卷积的卷积核尺寸均为2×3。

本实施的实验环境使用Windows10操作系统，选用pytorch框架，使用2060显卡进行运算。

在训练过程中，迭代次数为300次；通过测试数据集测试训练后的Yolov5-SFF检测模型的检测准确率；通过计算平均精度均值、召回率、准确率来评估改进后Yolov5模型的检测精度。

召回率计算公式为：

准确率为：

平均精确度为：

其中，TP表示被正确识别为真的样本数量；FP表示被错误识别为真的样本数量，FN表示被错误识别为假的样本数量，n为动作种类，p(r)为准确率与召回率的相关性。

如图6展示了改进后的Yolov5-SFF模型对工人操作行为的检测和识别效果；如图7展示了改进后的Yolov5-SFF算法与其他同类算法的结果对比；本实施例利用了多个帧画面之间的相关性，通过过去时刻的画面中的信息准确判断出当前的工人行为，提高了检测和识别精度。

实施例二

一种基于改进yolov5-SFF的检测系统，本实施例提供的系统可以应用于实施例一所述的方法，包括：

训练单元，利用训练数据集中添加操作行为标注的历史视频数据训练Yolov5-SFF检测模型，重复训练直至Yolov5-SFF检测模型的检测准确率趋于稳定

实施例三

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行实施例一所述检测方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于改进yolov5-SFF的检测方法，其特征在于，包括：

Yolov5-SFF检测模型的训练过程包括：

2.根据权利要求1所述的一种基于改进yolov5-SFF的检测方法，其特征在于，利用差异哈希采样算法对每组历史视频数据的帧画面进行采样筛选的方法包括：

3.根据权利要求1所述的一种基于改进yolov5-SFF的检测方法，其特征在于，所述骨干网络依次包括卷积层、卷积-C3-AS模块和特征金字塔池化模块；所述特征金字塔池化模块和卷积层之间设有多个卷积-C3-AS模块；

4.根据权利要求3所述的一种基于改进yolov5-SFF的检测方法，其特征在于，所述通道过滤模块包括2D卷积、平均池化模块和激励层；所述通道过滤模块的输入特征经过2D卷积形成特征E；所述特征E经过平均池化模块形成特征F；所述特征F经过激励层形成特征G；所述激励层内依次设置全连接层、批量标准化模块、RELU激活层、全连接层和Sigmoid激活层；

5.根据权利要求4所述的一种基于改进yolov5-SFF的检测方法，其特征在于，所述特征G和所述特征F进行元素相乘后进行软阈值化处理形成特征H，表达公式为：

RELU(x₂)＝max(0,x₂)

6.根据权利要求3所述的一种基于改进yolov5-SFF的检测方法，其特征在于，所述空间注意力模块包括最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层；所述空间注意力模块的输入特征依次经过最大池化-平均池化模块、拼接模块、2D卷积和Sigmoid激活层后，相乘空间注意力模块的输入特征形成所述空间注意力模块的输出特征；表达公式为：

M_s(K)＝Sigmoid(f^7×7([AvgPool(K)；MaxPool(K)]))

7.根据权利要求1所述的一种基于改进yolov5-SFF的检测方法，其特征在于，时空特征融合模块包括维度调整模块、时域卷积模块和GELU模块；所述时空特征融合模块的输入特征经过维度调整模块处理后形成特征I；特征I经过卷积形成特征J；所述特征I依次经过时域卷积模块、GELU模块、时域卷积模块和GELU模块处理后，与特征J相加形成所述时空特征融合模块的输出特征。

8.根据权利要求7所述的一种基于改进yolov5-SFF的检测方法，其特征在于，时域卷积模块的输入特征的尺寸为16×H²×C，时域卷积模块内依次设置因果卷积、采样间隔为2的膨胀卷积、采样间隔为4的膨胀卷积、采样间隔为8的膨胀卷积和批量标准化模块，时间卷积模块的感受野最终可以完全覆盖16张图像的特征矩阵；因果卷积和膨胀卷积的卷积核尺寸均为2×3。

9.一种基于改进yolov5-SFF的检测系统，其特征在于，包括：

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述检测方法的步骤。