CN117557933A

CN117557933A - 一种基于深度学习的电动车违章识别方法

Info

Publication number: CN117557933A
Application number: CN202210930887.9A
Authority: CN
Inventors: 刘泽蒙; 刘迎春; 刘浩楠
Original assignee: Jiangsu Xinshi Technology Co ltd; China University of Mining and Technology CUMT
Current assignee: Jiangsu Xinshi Technology Co ltd; China University of Mining and Technology CUMT
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-02-13

Abstract

本发明提供一种基于深度学习的电动车违章识别方法。所述基于深度学习的电动车违章识别方法包括以下步骤：S1：在不同类型的路口设计位置安装摄像头，通过摄像头采集图像并进行标注，因此还包括以下四个阶段：(1).预处理阶段：首先对图像进行去噪、对比度增强；(2).模型训练阶段：在计算机上采用某种模型训练；(3).识别阶段：训练好的模型进行识别并将识别结果发送至违章人员手机。本发明提供的基于深度学习的电动车违章识别方法可以解决交警注意力有限、参与交通人员存在侥幸心理而不遵守交规的优点。

Description

一种基于深度学习的电动车违章识别方法

技术领域

本发明属于深度学习的计算机视觉技术领域，尤其涉及一种基于深度学习的电动车违章识别方法。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

交警虽然可以在高峰时段进行人工检查电动车人员是否正确佩戴了头盔，但因为下班时人较多，交警只有有限的注意力，参与交通人员会避开交警的视线，交警并不能检查到各个方向行驶的电动车人员，而且天气在夏季炎热冬季寒冷，交警的工作环境很差。

因此，有必要提供一种新的基于深度学习的电动车违章识别方法解决上述技术问题。

发明内容

本发明解决的技术问题是提供一种可以解决交警注意力有限、参与交通人员存在侥幸心理而不遵守交规问题的基于深度学习的电动车违章识别方法。

为解决上述技术问题，本发明提供的基于深度学习的电动车违章识别方法包括以下步骤：

S1：收集主从两类摄像头收集不同类型路口的电动车人员图像并标注，所述相关的图像包括有电动车人员行驶视频，电动车人员整体图像，电动车人员人脸图像，电动车人员车牌图像，且在收集图像数据进行标注时，还需要识别特定信息，因此还包括以下四个阶段：

(1).预处理阶段：对图像信号进行去噪、翻转、对比度等数据增强操作，来提高图像质量；标注时严格按照不同模型的数据要求进行标注；

(2).模型训练阶段：在计算机上采用某种模型训练，之后保存训练后的权重参数，然后对模型进行验证迭代，最终部署在服务器当中进行推理识别；

(3).识别阶段：将采集到的图像经过预处理、特征提取后，根掘算法与训练出的模型库中各个模型进行推理，判断视频序列中是否出现电动车人员未佩戴头盔、电动车人员的人脸信息、电动车人员的车牌信息以及出现的位置；

S2：通过电动车人员跟踪模型及目标检测模型将未佩戴头盔的电动车人脸及车牌进行确定及截取；

S3：通过电动车人员人脸识别模型将未佩戴头盔的电动车人脸结合数据库中的人脸进行对比；

S4：通过电动车人员车牌识别模型将未佩戴头盔的电动车车牌识别出来；

作为本发明的进一步方案，所述S1还包括如下：

主从摄像头的安放位置需要根据各模型训练迭代的效果进行设计。

作为本发明的进一步方案，所述S2还包括如下：

通过预训练模型对模型进行微调，电动车人员跟踪模型及目标检测模型的训练图像数量在5000张以上。

作为本发明的进一步方案，所述S3还包括如下：

通过预训练模型对模型进行微调，电动车人员人脸识别模型的训练图像数量在2000张以上。

作为本发明的进一步方案，所述预处理阶段具体如下：

摄像头获得的路口视频为超高清画质，像素分辨率为1920×1080，但深度学习模型本身网络深度深、层数多，大尺寸的图像送入网络训练，会使网络训练缓慢，收敛较慢，故需对视频数据进行预处理。为保证画面清晰度与训练网络处理速度，利用opencv中resize函数功能，将原视频缩放至856×480尺寸后截取视频。

样本选择不同时间段路口所有人出现的视频场景。为保证样本丰富性同时考虑训练数据数量，在选取的变电所视频中每隔5帧截取一帧图像，按照训练集与测试集、验证集8:1:1的比例，图片随机选择，利用可视化的图像标定工具进行标定，标定框标记电动车人员为person类，生成的xml文件除了包含图片原有的尺寸之外，还有标记框的信息，包含要检测目标的类别，以及标定框左上角和右下角坐标相对于原图的偏移。数据标注完成后，python编写程序转换到Voc 格式下的训练集、验证集和测试集的txt文件。通过调整旋转角度、曝光量、以及转换到HSV空间改变色调分量来产生更多样本，来提高模型的鲁棒性，进行数据增强。训练集、验证集在训练过程中检验模型收敛情况，测试集用于检验最终模型训练的效果。

与相关技术相比较，本发明提供的基于深度学习的电动车违章识别方法具有如下有益效果：

1、本发明可以解决交警注意力有限的问题；

2、本发明可以解决参与交通人员存在侥幸心理而不遵守交规的问题；

3、本发明可以解决交警工作环境较差的问题。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明中整体方法结构的示意图；

图2为本发明中电动车人员跟踪模型网络结构的示意图；

图3为本发明中目标检测模型网络结构的示意图；

图4为本发明中人脸识别模型网络结构的示意图；

图5为本发明中车牌识别模型网络结构的示意图。

图6为本发明中违章人员收到信息的示意图

具体实施方式

请结合参阅图1、图2、图3、图4、图5、图6，其中，图1为本发明中整体方法结构的示意图；图2为本发明中电动车人员跟踪模型网络结构的示意图；图3为本发明中目标检测模型网络结构的示意图；图4为本发明中人脸识别模型网络结构的示意图；图5为本发明中车牌识别模型网络结构的示意图；图6为本发明中违章人员收到信息的示意图；基于深度学习的电动车违章识别方法包括以下步骤：

S1：收集各类型路口主从摄像头所拍摄的视频，所述相关的视频需要包含不同的角度、时间和天气，因此还包括以下三个阶段：

S2：通过电动车人员跟踪模型及目标检测模型将未佩戴头盔的电动车人脸及车牌位置进行确定；

S3：通过电动车人员人脸识别模型将未佩戴头盔的电动车人脸截取出来并结合数据库中的人脸进行对比；

所述S1还包括如下：

所述S2还包括如下：

所述S3还包括如下：

所述预处理具体如下：

样本选择不同时间段路口所有人出现的视频场景。为保证样本丰富性同时考虑训练数据数量，在选取的变电所视频中每隔5帧截取一帧图像，按照训练集与测试集、验证集8:1:1的比例，图片随机选择，利用可视化的图像标定工具进行标定，标定框标记电动车人员为 person类，生成的xml文件除了包含图片原有的尺寸之外，还有标记框的信息，包含要检测目标的类别，以及标定框左上角和右下角坐标相对于原图的偏移。数据标注完成后，python编写程序转换到Voc 格式下的训练集、验证集和测试集的txt文件。通过调整旋转角度、曝光量、以及转换到HSV空间改变色调分量来产生更多样本，来提高模型的鲁棒性，进行数据增强。训练集、验证集在训练过程中检验模型收敛情况，测试集用于检验最终模型训练的效果。

具体搭建过程如下：

1)构建多目标跟踪模型，目标是通过深度学习技术利用目标检测器对视频帧中的目标进行检测将检测到的目标的框中的特征提取出来，该特征包括表观特征，方便特征对比避免ID switch，和运动特征，运动特征即：运动特征方便卡尔曼滤波对其进行预测，计算前后两帧目标之前的匹配程度，利用匈牙利算法和级联匹配，为每个追踪到的目标分配ID，不断地向从属摄像器提供所检测目标的实时位置信息。

多目标跟踪模型标注规则如下：所有视频被按帧分为图像，图像统一采用jpeg格式，命名方式为6位数字如：000001.jpg，目标和轨迹信息标注文件为CSV格式，目标信息文件和轨迹信息文件每行都代表一个目标的相关信息，每行都包含9个数值。第一个值表示目标出现在第几帧，第二个值表示目标运动轨迹的ID号，在目标信息文件中都为-1，第三到第六个值为标注bounding box的坐标尺寸值，第七个值为目标检测表示的confidencescore，第八、九个值在目标信息文件中不作标注或可都设为-1。

模型搭建：多目标跟踪模型使用Faster-RCNN的输入部分给定一张任意大小P×Q的输入图像，首先缩放至固定大小M×N将其作为特征提取网络的输入。本文采取大规模图像识别的深度卷积网为骨干网络进行特征提取，即经过13个卷积层、13个以修正线性单元激活函数的激活层、4个池化层，最终输出特征图。此过程使输入图像的大小变为的1/16。

模型训练：加载预训练模型，之后通过各类型路口主从摄像头所拍摄视频预处理得到的小数据集进行微调，迭代调整参数。

模型评测：使用验证集的数据对训练的模型进行挑选。

模型部署：使用Python后端Flask框架进行API部署。

2).构建目标检测模型，目标是通过深度学习技术学习到对未佩戴头盔人员人脸及其车牌的辨认。

数据处理：

摄像头获得的路口视频为超高清画质，像素分辨率为1920x1080，但深度学习网络本身网络深度深、层数多，大尺寸的图像送入网络训练，会使网络训练缓慢，收敛较慢，故需对视频数据进行预处理。为保证画面清晰度与训练网络处理速度，本文利用opencv中resize 函数功能，将原视频缩放至856×480尺寸后截取视频。样本选择不同时间段变电所有人出现的视频场景。为保证样本丰富性，在选取的路口视频中每隔5帧截取一帧图像，截取至少5000张样本图片，按照训练集与测试集、验证集8:1:1的比例，图片随机选择，数量分别为4000、500、500，在4500张图片，利用可视化的图像标定工具进行标定，标定框标记未佩戴头盔人员的人脸为face类，车牌为 licenseplate类，生成的xm1文件除了包含图片原有的尺寸。

模型采用YoloV5网络，网络结构如下：

YOLOv5在图像输入时对图像进行了Mosaic数据增强操作并且在进行推理时采用自适应缩放操作，该方法可根据输入图像尺寸大小的不同进行自适应填充，可提升37％的推理速度。其次，位于网络最前端的Focus结构，该结构最主要的内容是对输入数据进行切片操作，可有效提升图片特征提取的质量。YOLOv5包含了两种CSP网络结构，并且将其用于Backbone层和Neck层。Neck层采用了 FPN+PAN(Perceptual Adversarial Network)结合的方式，这也增强了网络对特征的融合能力。在输出端，YOLOv5使用GIOU_Loss做为 Boundingbox的损失函数并且在进行非最大值抑制时使用加权非最大值抑制，这在不增加计算资源的情况下对检测图像中一些有重叠的目标检测效果较好。YOLOv5将模型的深度和广度使用depth_multiple和width_multiple两个参数来控制。表面上只有这两个参数不同，但其实后面各层之间的模块数量、卷积核大小和数量等也都产生了变化，YOLOv5l与YOLOv5s相比较起来训练参数的大小成倍数增长，其模型的深度和宽度也会大很多，这就使得 YOLOv5l的学习能力要比YOLOv5s好很多，因此在最终推理时的模型也会比YOLOv5s大、推理速度慢，但是检测精度高。

模型评测：使用验证集的数据对训练的模型进行挑选。

模型部署：使用Python后端Flask框架进行API部署。

3).构建人脸识别模型，目标是通过深度学习技术对检测出来的人脸进行特征提取，通过人脸对齐和基于ResNet网络的特征提取，提取出人脸的特征点，并且将人脸的特征向量输出到基于FaceNet网络的身份识别模块，与人脸数据库进行比对，得到目标人脸的相应信息。

特征提取与身份识别模型标注规则如下：

使用脚本align_dataset_mtcnn.py对齐人脸，脚本会对原始的人脸进行识别，裁剪为160*160大小的图片。

模型搭建：特征提取和身份识别模型网络使用ResNet和FaceNet 网络搭建，算法概述如下：

1.身份提取：在处理好人脸图像并进行对齐操作后，接下来就要将对齐后的人脸输到入到卷积神经网络来提取人脸的特征。这一部分工作和人脸对齐工作一样，结合Dlib深度学习库来实现，通过Dlib 库载入残差神经网络(ResNet)，将对齐后的人脸图片输入其中来提取特征，最终得到128维的特征向量。通过卷积神经网络提取到人脸的特征后，将获得的128维向量与其对应人脸的边界框编号(同一张图片可能存在多张人脸)，输出给身份识别模块。

2.身份识别：将之前提取到的人脸特征向量与本地库进行匹配，以确定人脸的身份标签，所以首先要载入存储在本地的身份标签和特征向量。模块将本地存储的人脸身份信息标签以json格式载入，特征向量文件则通过numpy库载入为矩阵格式。通过二范式运算，获取特征向量间的欧式距离，在本地特征向量库中选取距离要进行识别的人脸特征向量距离最小的一个，将最小距离与先前确定好的阀值大小进行比较，如果距离大于阀值，则认为没有与之成功匹配，不能认为这是同一个人的人脸，输出“other”，如果小于阀值，则确定这两个人脸特征向量对应的是同一张人脸，输出对应人脸的身份标签。

模型训练：使用开源数据集进行训练，之后通过标注交通视频的小数据集进行微调，迭代调整参数。

模型评测：使用验证集的数据对训练的模型进行挑选。

模型部署：使用Python后端Flask框架进行API部署。

4).构建车牌识别模型，目标是通过深度学习技术学习到对未佩戴头盔人员车牌的辨认。

数据处理：使用目标检测预测车牌的坐标并将图像截取出来，利用网站交互标注；之后按照训练集与测试集、验证集8:1:1的比例，图片随机选择，数量分别为4000、500、500，在4500张图片。

模型采用CRNN网络，CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。网络结构包含三部分，从下到上依次为：

(1)卷积层：作用是从输入图像中提取特征序列；这里的卷积层就是一个普通的CNN网络，用于提取输入图像的Convolutional feature maps，将大小为(256,256,3)的图像转换为(1,25,512)大小的卷积特征矩阵。

(2)循环层：作用是预测从卷积层获取的特征序列的标签(真实值) 分布；由于CNN输出的Feature map是(1,25,512)大小，所以对于RNN 最大时间长度T＝25(即有25个时间输入，每个输入t列向量有 D＝512)。

(3)转录层:作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。；将RNN输出做softmax后，为字符输出。

5).使用Python Flask软件后端框架来构建各模型的识别接口，整合上述模型的识别结果，通过PHP Swoft后端技术自动发送短信，完成对电动车不佩戴安全帽的违章识别。

Claims

1.一种基于深度学习的电动车违章识别方法，其特征在于，包括：

以下步骤；

S1：通过主从两类摄像头收集不同类型路口的电动车人员图像并标注，所述相关的图像包括有电动车人员行驶视频，电动车人员整体图像，电动车人员人脸图像，电动车人员车牌图像，且在收集图像数据进行标注时，还需要识别特定信息，因此还包括以下三个阶段：

(3).识别阶段：将采集到的图像经过预处理、特征提取后，根据算法与训练出的模型库中各个模型进行推理，判断视频序列中是否出现电动车人员未佩戴头盔、电动车人员的人脸信息、电动车人员的车牌信息以及出现的位置；

S5：整合各模型识别结果，将未佩戴头盔的处理结果以短信形式发送至该人员的手机中。

2.根据权利要求1所述的基于深度学习的电动车违章识别方法，其特征在于：所述S1还包括如下：

获取当中的人脸数据库信息，车牌登记信息。

3.根据权利要求1所述的基于深度学习的电动车违章识别方法，其特征在于：所述S2还包括如下：

电动车人员跟踪模型及目标检测模型的训练图像数量在5000张以上。

4.根据权利要求1所述的基于深度学习的电动车违章识别方法，其特征在于：所述S3还包括如下：

电动车人员人脸识别模型的训练图像数量在2000张以上。

5.根据权利要求1所述的基于深度学习的电动车违章识别方法，其特征在于：所述预处理阶段具体如下：

摄像头获得的路口视频为超高清画质，像素分辨率为1920×1080，但深度学习模型本身网络深度深、层数多，大尺寸的图像送入网络训练，会使网络训练缓慢，收敛较慢，故需对视频数据进行预处理。为保证画面清晰度与训练网络处理速度，利用opencv中resize函数功能，将原视频缩放至856×480尺寸后截取视频；

样本选择不同时间段路口所有人出现的视频场景，为保证样本丰富性同时考虑训练数据数量，在选取的变电所视频中每隔5帧截取一帧图像，按照训练集与测试集、验证集8:1:1的比例，图片随机选择，利用可视化的图像标定工具进行标定，标定框标记电动车人员为person类，生成的xml文件除了包含图片原有的尺寸之外，还有标记框的信息，包含要检测目标的类别，以及标定框左上角和右下角坐标相对于原图的偏移，数据标注完成后，python编写程序转换到Voc格式下的训练集、验证集和测试集的txt文件，通过调整旋转角度、曝光量、以及转换到HSV空间改变色调分量来产生更多样本，来提高模型的鲁棒性，进行数据增强，训练集、验证集在训练过程中检验模型收敛情况，测试集用于检验最终模型训练的效果。