CN117253119A

CN117253119A - 一种基于深度学习网络的智能识别方法

Info

Publication number: CN117253119A
Application number: CN202311208058.0A
Authority: CN
Inventors: 张鹏伟; 张�浩; 陆雯茜; 查进林; 张泽皓; 关灿星; 吴莅; 刘冰炙
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-19

Abstract

本发明提供了一种基于深度学习网络的智能识别方法，包括：将预训练好的YOLO V5模型与ResNet50模型进行串联，得到初始识别模型；通过特定场景数据集对所述初始识别模型进行训练，得到人物识别与职业分类模型；获取待测数据；将所述待测数据输入至所述初始识别模型中，得到识别结果；基于自动报警算法，根据所述识别结果进行自动报警。本发明能够解决在不改变现有视频监控硬件的条件下，通过嵌入智能识别算法来提高基于服务器云端推理的视屏监控报警系统的识别准确性与识别的智能化。

Description

一种基于深度学习网络的智能识别方法

技术领域

本发明涉及目标识别技术领域，特别是涉及一种基于深度学习网络的智能识别方法。

背景技术

目前深度学习网络模型在终端设备中的应用方式分为服务器云端推理和边缘嵌入式推理。服务器云端推理的主要流程是传统图像设备获取数据，通过数据传输协议将图像回传至服务器，服务器完成数据处理和模型推理后将智能算法的结果返回至终端设备。边缘嵌入式推理主要是指具备终端智能分析能力的安防摄像头，许多智能算法被落实到边缘监控设备的人脸识别、目标跟踪、人流统计、车牌识别、交通流量管理、出入口监测和异常行为分析等下游任务中，并且绝大多数基于视频图像的智能任务需要检出图像内的关注目标。

现有的边缘嵌入式推理主要是可定制性不强，出厂时的设置无法修改，不能根据运用场景的切换进行专有化的开发运用。

在视频监控系统刚刚起步时，出于工作职能需要，在一些特定场景布置了监控硬件，现在发现有更好的智能化设备了，但要全部更换，量大、资源耗费多、涉及单位众多，从而影响了视频监控系统的更新换代效果。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种基于深度学习网络的智能识别方法。

为实现上述目的，本发明提供了如下方案：

一种基于深度学习网络的智能识别方法，包括：

将预训练好的YOLO V5模型与ResNet50模型进行串联，得到初始识别模型；

通过特定场景数据集对所述初始识别模型进行训练，得到人物识别与职业分类模型；

获取待测数据；

将所述待测数据输入至所述初始识别模型中，得到识别结果；

基于自动报警算法，根据所述识别结果进行自动报警。

优选地，还包括：

将所述自动报警的结果发送至监控终端，以进行可视化显示。

优选地，所述YOLO V5模型包括依次连接的Input结构、Backbone结构、Neck结构和Predicition结构。

优选地，所述Backbone结构包括SPPF模块、多个CBS模块以及CSP1模块；所述CBS模块由卷积层、标准化层和激活函数层构成，所述CBS模块用于增加网络中的非线性信息提取能力；所述SPPF模块由CBS模块以及三个串行的Maxpool最大池化组成，所述所述SPPF模块用于在于通过多次池化，完成对高层次图像特征的提取与融合。

优选地，所述Neck结构包括相互连接的特征金字塔网络和通道聚合网络；所述特征金字塔网络用于处理来自所述Backbone结构中多个尺度的输出，以构建出高级图像特征信息；所述通道聚合网络用于基于传递的图像信息弥补并融合强定位信息。

优选地，所述Predicition结构包括三个并行的卷积层。

优选地，所述ResNet50模型与所述Predicition结构连接；所述ResNet50模型包括5个依次连接的stage。

优选地，所述识别结果包括：警察、医护人员、保障人员和监管对象。

优选地，所述自动报警算法用于对目标区域进行识别，得到监区警戒区和监门区域识别结果，并根据识别结果和自动报警判别程序进行匹配判断得到是否自动报警的结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于深度学习网络的智能识别方法，包括：将预训练好的YOLOV5模型与ResNet50模型进行串联，得到初始识别模型；通过特定场景数据集对所述初始识别模型进行训练，得到人物识别与职业分类模型；获取待测数据；将所述待测数据输入至所述初始识别模型中，得到识别结果；基于自动报警算法，根据所述识别结果进行自动报警。本发明能够解决在不改变现有视频监控硬件的条件下，通过嵌入智能识别算法来提高基于服务器云端推理的视屏监控报警系统的识别准确性与识别的智能化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的模型嵌入图；

图3为本发明实施例提供的YOLO v5网络模型结构图；

图4为本发明实施例提供的ResNet50网络模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于深度学习网络的智能识别方法

能够解决在不改变现有视频监控硬件的条件下，通过嵌入智能识别算法来提高基于服务器云端推理的视屏监控报警系统的识别准确性与识别的智能化。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的方法流程图，如图1所示，本发明提供了一种基于深度学习网络的智能识别方法，包括：

步骤100：将预训练好的YOLO V5模型与ResNet50模型进行串联，得到初始识别模型；

步骤200：通过特定场景数据集对所述初始识别模型进行训练，得到人物识别与职业分类模型；

步骤300：获取待测数据；

步骤400：将所述待测数据输入至所述初始识别模型中，得到识别结果；所述识别结果包括：警察、医护人员、保障人员和监管对象；

步骤500：基于自动报警算法，根据所述识别结果进行自动报警。

优选地，还包括：

本实施例在不改变现有硬件条件的基础上，通过嵌入到视频流中，来分析数据，以达到智能化的效果。本实施例的重点有两个方面：一是在不改变现有硬件的条件下来实现的；二是该算法的可定制化高，能通过加载特定场景数据集来使模型在各种专有化场景得到延伸运用。

本实施例中，将预训练好的YOLO V5模型与ResNet50模型串连起来，通过业务中获取的特定场景数据集(该数据集包括：警察、医护人员、保障人员、监管对象)进行再次训练，得到准确的人物识别与精确的职业分类模型，其次，结合业务场景设计了一个自动报警触发机制，最后，将设计好的模块融入到现在业务系统中，实现了数据流的自动处理，具体实现过程如图2所示。

优选地，所述Predicition结构包括三个并行的卷积层。

YOLO V5由Ultralytics LLC公司提出，是一个基于YOLO V4改进的轻量型版本，该网络相较于YOLO之前版本，检测性能有进一步的提升。对于目标检测，YOLO V5在检测精度及速度上都有一定的提升，并满足轻量型模型特点，其网络结构分为四部分：Input、Backbone、Neck和Predicition，模型网络结构如图3所示。

YOLO v5主要由三个大的结构组成，即骨干网络Backbone，Neck以及检测头Head部分。在Backbone中，主要是由CBS模块、CSP1模块以及SPPF模块组成。Backbone作为输入视频在检测网络中首先经过的阶段，其主要作用是提取视频帧中不同尺度下的特征，并作为输出提供给Neck部分。视频帧在预处理阶段被调整为像素大小为640×640的RGB三通道图像，在原YOLO v5网络中第一层为Focus层，即对输入为640×640×3的视频帧进行切片处理，输出为320×320×12的特征图，随后再进行后续模块的处理，其中，CBS模块作为网络模型结构的最基础单位，主要由卷积层(conv)、标准化层(BN)和激活函数层(SiLU)构成，主要作用是增加网络中的非线性信息提取能力，是YOLO v5模型中最基础的模块。同样CSP1模块的结构如图3左下角所示，其中包含了两个分支，即输入经过两个分支的处理后经Concat算子拼接后再经CBS模块处理。需要注意到，CSP1模块后缀的数值即表示在该模型的分支中出现残差块的数量；残差块的结构如图3左下角所示，由两个CBS模块以及一个带有Shortcut的add操作构成，此处的带有Shortcut的add操作也被称为Skip-Connection操作，即完成残差模块中两个分支的相加运算。Backbone中还有一个SPPF模块，由CBS模块以及三个串行的Maxpool最大池化组成，四路输出经Concat拼接，主要作用在于通过多次池化，完成对高层次图像特征的提取与融合。

观察图3中的Neck部分，可以显著地看到一个自上而下的通路与一个自下而上的通路，此即一个FPN+PAN的组合结构。其中FPN即特征金字塔网络(Feature PyramidNetwork)，用来处理来自Backbone中多个尺度的输出，进而构建出高级图像特征信息，而PAN即通道聚合网络(Path Aggregation Network)，在FPN中传递的图像信息已经较为模糊的情况下，通过PAN的自底向上的结构，弥补并融合强定位信息，最终将输出用于Head的检测中。此外，在Neck阶段，还进行了两次上采样操作，在YOLO v5中均通过最简单的最近邻插值法来完成上采样，即均通过复制左上角的像素值来填充一个2×2窗口中的另外三个值，最终得到高、宽均扩展一倍的特征图。不同于Backbone中的CSP1模块，Neck阶段采用的是CSP2模块，如图3左下角所示，CSP2中将原CSP1中的残差块替换为两个连续的CBS模块，即没有了Skip-Connection操作。

在检测头Head中，其网络结构较为简单，仅含有三个并行的卷积层，当输入视频帧的大小被调整为640×640×3(图像宽×图像高×图像通道)时，三个卷积层的输出分别为80×80×255、40×40×255以及20×20×255；其中80、40以及20均根据输入图片的像素大小而确定，分别下降8倍、16倍以及32倍；而其中的255则主要由四类信息决定，分别为锚框数量、数据集类目数目、置信度以及边界框位置信息(边界框的中心点坐标以及宽、高值)。需要注意到，三个卷积层输出的特征图需要划分为与该特征图等尺寸的网格，例如20×20的特征图即划分为20×20个网格，每个网格对应到原视频帧中一个32×32的像素块。

具体的，ResNet50是一种基于深度卷积神经网络(Convolutional NeuralNetwork，CNN)的图像分类算法。它是由微软研究院的Kaiming He等人于2015年提出的，是ResNet系列中的一个重要成员。ResNet50相比于传统的CNN模型具有更深的网络结构，通过引入残差连接(residual connection)解决了深层网络训练过程中的梯度消失问题，有效提升了模型的性能。具体实现过程如图4所示。

ResNet50分为5个stage(阶段)，其中Stage 0的结构比较简单，可以视其为对input(输入)的预处理，后4个Stage都由Bottleneck组成，结构较为相似。Stage 1包含3个Bottleneck，剩下的3个stage分别包括4、6、3个Bottleneck。现在对Stage 0和Stage 1进行详细描述，同理就可以理解后3个Stage。

在Stage 0中，(3,224,224)指输入的通道数(channel)、高(height)和宽(width)，即(C,H,W)。现假设输入的高度和宽度相等，所以用(C,W,W)表示。

该stage中第1层包括3个先后操作：①CONV是卷积(Convolution)的缩写，7×7指卷积核大小，64指卷积核的数量(即该卷积层输出的通道数)，/2指卷积核的步长为2。②BN是Batch Normalization的缩写，即常说的BN层。③RELU指ReLU激活函数。该stage中第2层为MaxPooling，即最大池化层，其kernel大小为3×3、步长为2。(64,56,56)是该stage输出的通道数(channel)、高(height)和宽(width)，其中64等于该stage第1层卷积层中卷积核的数量，56等于224/2/2(步长为2会使输入尺寸减半)。

综上，在Stage 0中，形状为(3,224,224)的输入先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到了形状为(64,56,56)的输出。

在理解了Stage 0以及熟悉图中各种符号的含义之后，可以很容易地理解Stage1。在Stage 1中引入Bottleneck的具体结构如图3右侧所示。

2种Bottleneck分别对应了2种情况：输入与输出通道数相同选用BTNK2方法(“BTNK”是BottleNeck的缩写)、输入与输出通道数不同选用BTNK1方法。

BTNK2有2个可变的参数C和W，即输入的形状(C,W,W)中的c和W。令形状为(C,W,W)的输入为X，令BTNK2左侧的3个卷积块(以及相关BN和ReLU)为函数F(X)，两者相加(F(X)+X)后再经过1个ReLU激活函数，就得到了BTNK2的输出，该输出的形状仍为(C,W,W)，即上文所说的BTNK2对应输入与输出通道数相同的情况。

BTNK1有4个可变的参数C、W、C1和S。与BTNK2相比，BTNK1多了1个右侧的卷积层，令其为函数G(X)。BTNK1对应了输入X与输出F(X)通道数不同的情况，也正是这个添加的卷积层将X变为G(X)，起到匹配输入与输出维度差异的作用(G(X)和F(X)通道数相同)，进而可以进行求和G(X)+F(X)。

在该算法中，区分监区警戒区识别与监门区域识别两种特殊场景。在监区警戒区识别算法中，算法将人为划定的警戒线区域视为敏感识别区，对球机视频监控数据中出现在该区域的人像进行自动报警。在监门区域识别算法中，将监管对象单独出现在画面中的情景判定为危险场景进行自动报警。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习网络的智能识别方法，其特征在于，包括：

获取待测数据；

基于自动报警算法，根据所述识别结果进行自动报警。

2.根据权利要求1所述的基于深度学习网络的智能识别方法，其特征在于，还包括：

3.根据权利要求1所述的基于深度学习网络的智能识别方法，其特征在于，所述YOLOV5模型包括依次连接的Input结构、Backbone结构、Neck结构和Predicition结构。

4.根据权利要求3所述的基于深度学习网络的智能识别方法，其特征在于，所述Backbone结构包括SPPF模块、多个CBS模块以及CSP1模块；所述CBS模块由卷积层、标准化层和激活函数层构成，所述CBS模块用于增加网络中的非线性信息提取能力；所述SPPF模块由CBS模块以及三个串行的Maxpool最大池化组成，所述SPPF模块用于在于通过多次池化，完成对高层次图像特征的提取与融合。

5.根据权利要求3所述的基于深度学习网络的智能识别方法，其特征在于，所述Neck结构包括相互连接的特征金字塔网络和通道聚合网络；所述特征金字塔网络用于处理来自所述Backbone结构中多个尺度的输出，以构建出高级图像特征信息；所述通道聚合网络用于基于传递的图像信息弥补并融合强定位信息。

6.根据权利要求3所述的基于深度学习网络的智能识别方法，其特征在于，所述Predicition结构包括三个并行的卷积层。

7.根据权利要求3所述的基于深度学习网络的智能识别方法，其特征在于，所述ResNet50模型与所述Predicition结构连接；所述ResNet50模型包括5个依次连接的stage。

8.根据权利要求1所述的基于深度学习网络的智能识别方法，其特征在于，所述识别结果包括：警察、医护人员、保障人员和监管对象。

9.根据权利要求8所述的基于深度学习网络的智能识别方法，其特征在于，所述自动报警算法用于对目标区域进行识别，得到监区警戒区和监门区域识别结果，并根据识别结果和自动报警判别程序进行匹配判断得到是否自动报警的结果。