CN115410047A - 基于改进YOLO v5s的红外图像电动自行车目标检测方法 - Google Patents
基于改进YOLO v5s的红外图像电动自行车目标检测方法 Download PDFInfo
- Publication number
- CN115410047A CN115410047A CN202211199990.7A CN202211199990A CN115410047A CN 115410047 A CN115410047 A CN 115410047A CN 202211199990 A CN202211199990 A CN 202211199990A CN 115410047 A CN115410047 A CN 115410047A
- Authority
- CN
- China
- Prior art keywords
- cbs
- input
- image
- output
- iii
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于改进YOLO v5s的红外图像电动自行车目标检测方法,其步骤包括:利用红外摄像仪获取夜间道路电动自行车的图像;将获取的图像划分训练集、验证集和测试集,使用标注工具对训练集和测试集中的图像进行标注签;根据标签类型对训练集中的数据进行统计、分类、筛选;使用自适应直方图均衡方法对筛选出的图像进行处理,得到增强后的训练集;搭建改进的YOLO v5s模型;将增强后的训练集、测试集和验证集分别输入改进的YOLO v5s模型中,得到电动自行车行为检测模型;将待检测的图像或视频输入电动自行车行为检测模型,输出相应的电动车行为检测结果。本发明可以有效的检测到电动自行车行为,为交通状况判断提供依据。
Description
技术领域
本发明涉及红外图像目标检测和智能交通技术领域,特别是指一种基于改进YOLOv5s的红外图像电动自行车目标检测方法。
背景技术
电动自行车由于其轻便、灵活的交通优势,在中国的城市道路中被广泛使用。近年来,我国对于交通的监管力度逐渐加大,由于电动自行车难以制定相关规范且出行方便,其数量在不断的上升,由于其不规范的驾驶行为导致的交通事故量也在不断上升。目前尚未有一种技术可以在道路情况下实现对电动自行车行为的检测,识别驾驶状态下的电动自行车,是单人驾驶电动自行车还是载人驾驶电动自行车。
目标检测技术作为计算式视觉领域的一项基础技术,近些年来发展迅速,被广泛的用于各个领域。随着深度学习技术的发展,基于深度学习的目标检测技术诞生了一系列的方法,代表性的包括基于单阶段的目标检测技术:YOLO、SSD、RetinaNet;基于双阶段的目标检测技术:RCNN、Fast RCNN、Faster RCNN、Cascade RCNN等。
在光照强度充足的情况下,普通相机成像状况良好,但是在雨雪天气、大雾天气、夜间环境下成像状况收到影响,红外相机由于其独特的成像方,在上述情况下可以很好的成像,但是也存在一定的限制,例如成像质量不高,目标模糊的问题。
发明内容
针对成像质量不高,目标模糊的问题,本发明提出了一种基于改进YOLO v5s的红外图像电动自行车目标检测方法,用于检测红外图像中电动自行车目标。
本发明的技术方案是这样实现的:
一种基于改进YOLO v5s的红外图像电动自行车目标检测方法,其步骤如下:
步骤一:数据采集:利用红外摄像仪获取夜间道路电动自行车的图像;
步骤二:数据集制作:将获取的图像划分训练集、验证集和测试集,使用标注工具对训练集和测试集中的图像进行标注签,得到两种电动自行车驾驶行为的标签,其中,标签包括dangerous标签和normal标签;
步骤三:训练集图像分类:根据标签类型对训练集中的数据进行统计,并筛选出normal标签对应的图像;
步骤四:训练集部分图像增强:使用自适应直方图均衡方法对筛选出的图像进行处理,得到增强后的训练集;
步骤五:YOLO v5s模型:搭建YOLO v5s模型,包括Input模块、Backbone模块、Neck模块和Prediction模块;
步骤六:YOLO v5s模型训练:将增强后的训练集、测试集和验证集分别输入改进的YOLO v5s模型中进行训练、测试和验证,得到电动自行车行为检测模型;
步骤七:检测结果输出:将待检测的图像或视频输入电动自行车行为检测模型,输出相应的电动车行为检测结果。
所述dangerous标签表示载人驾驶电动自行车行为;normal标签为单人驾驶电动自行车行为。
所述使用自适应直方图均衡方法对筛选出的图像进行处理的方法为:
S4.1:将输入的图像等分为图像块,图像块的大小为N×N;
S4.2:获取每一图像块内的图像的灰度级,并计算图像块内原始直方图的概率;
S4.3:计算图像块内直方图概率的累加值;
S4.4:根据下属方式求取像素映射关系:
假设r代表图像中像素灰度级,经过归一化处理后,0≤r≤1,每个像素值在[0,1]区间的灰度级数是随机的,图像灰度级的分布可以用概率密度函数Pr(r)来表示;在数字图像处理中,rk代表离散灰度级,概率密度函数Pr(rk)的表达式如下:
其中,0≤rk≤1,k=0,1,2,...,n-1为灰度级,n代表图像的像素总数,图像的直方图均衡化公式为:
其中,Si表示将灰度级为rk的像素变换成灰度级为Si的像素,T(ri)表示变换函数。
所述Input模块的结构为输入层—Focus单元;Backbone模块的结构为Conv_I—CSP1_3_I—Conv_II—CSP1_3_II—Conv_III—CSP1_3_III—Conv_IV—SPP—CSP1_3_IV—SENet—Conv_V;Neck模块的结构为上采样层I—Concat_I—CSP1_3_VI—Conv_VI—上采样层II—Concat_II—CSP1_3_VII—Conv_VII—Concat_III—CSP1_3_VIII—Conv_VIII—Concat_IV—CSP1_3_IX,且Conv_VI的输出与Concat_III的输入相连接;Prediction模块包括Prediction_I、Prediction_II和Prediction_III;
Focus单元的输出与Conv_I的输入相连接,CSP1_3_II的输出与Concat_II的输入相连接,CSP1_3_III的输出与Concat_I的输入相连接,SENet的输出与Concat_IV的输入相连接,Conv_V的输出与上采样层I的输入相连接,Conv_VII的输出与Prediction_I的输入相连接,Conv_VIII的输出与Prediction_II的输入相连接,CSP1_3_IX的输出与Prediction_III的输入相连接。
所述Focus单元包括slice_I、slice_II、slice_III、slice_IV、Concat_V和CBS_I,slice_I、slice_II、slice_III、slice_IV的输入均与输入层相连接,slice_I、slice_II、slice_III、slice_IV的输出均与Concat_V的输入相连接,Concat_V的输出与CBS_I的输入相连接,CBS_I的输出与Conv_I的输入相连接;其中,CBS_I的结构为卷积层-BN层-SiLU激活函数。
所述CSP1_3_I、CSP1_3_II、CSP1_3_III、CSP1_3_IV、CSP1_3_V、CSP1_3_VI、CSP1_3_VII、CSP1_3_VIII和CSP1_3_IX的结构均包括CBS_II、CBS_III、Resunit组件I、Resunit组件II、Resunit组件III、Concat_VI、CBS_IV;CBS_II的输出均与Resunit组件I、Resunit组件II、Resunit组件III的输入相连接,Resunit组件I、Resunit组件II、Resunit组件III的输出、CBS_III的输出均与Concat_VI的输入相连接,Concat_VI的输出与CBS_IV的输入相连接;其中,Resunit组件I、Resunit组件II、Resunit组件III均包括CBS_VII、CBS_VIII和add,CBS_VII的输出与CBS_VIII的输入相连接,CBS_VIII的输出和CBS_VII的输入均与add相连接;CBS_II、CBS_III、CBS_IV、CBS_VII、CBS_VIII的结构均为卷积层-BN层-SiLU激活函数。
所述SPP的结构包括CBS_V、MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII、CBS_VI;CBS_V的输出分别与MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII的输入相连接,MaxPool_I、MaxPool_II、MaxPool_III的输出均与Concat_VII的输入相连接,Concat_VII的输出与CBS_VI的输入相连接;其中,CBS_V、CBS_VI的结构均为卷积层-BN层-SiLU激活函数。
SENet的处理方法为:
特征图通过自适应全局平均池化、将特征层的长宽进行压缩,得到Fsq(·);Fsq(·)为压缩(Squeeze)操作机制;
将Fsq(·)连续使用两个全连接层对通道信息进行自注意,得到Fex(·,W);Fex(·,W)为激励操作机制;
将Fex(·,W)全连接输出通过一个sigmiod函数,得到0-1的通道权重,最后对原特征层进行加权,得到Fscale(·,·);Fex(·,W)为相乘特征融合机制。
SENet的参数量的计算公式为:
其中,S表示Stage的数量,Ns为第s个Stage的重复block量,r为全连接层降维系数,Cs为第s个Stage的通道数。
与现有技术相比,本发明产生的有益效果为:
本发明结合一种新的数据处理方式用于夜间道路下电动自行车目标的检测方法,包括数据的分类增强处理方法和基于跨域迁移学习、SENet注意力机制的yYOLO v5s算法,具体的步骤有:采集数据,获取图像;对获取到的图像数据进行处理,制作数据集;对数据集中的训练集的图像标签进行分类统计;按照统计结果对训练集中部分图像进行增强;在YOLO v5s模型的主干部分添加SENet模块,通过赋予权重的方式对通道中的特征图层进行增强或抑制;将制作好的数据集送入改进后的YOLO v5s模型使用跨域迁移学习的方式进行训练,得到稳定的检测模型;部署训练好的改进模型应用于电动自行车目标的检测任务。
本发明可以有效的检测到某一时间段固定地点的电动自行车行为,可为交通状况判断提供依据。该方法未来可服务于智能交通系统(ITS),可作为固定道路下的时间段范围内电动自行车数量多少的判断依据,提供交通阻塞引导。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明的数据集样式示例图。
图3为图像增强前后对比图;其中,(a)为原图,(b)为AHE增强图。
图4为原始的Yolo v5s的网络模型。
图5为本发明的Focus结构图。
图6为本发明的SENet模块图。
图7为本发明的SENet参数作用过程图。
图8为本发明改进后的YOLO v5s网络模型。
图9为本发明的CSP1_3的结构图。
图10为本发明的IOU示意图。
图11为本发明的检测结果输出图像。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于改进YOLO v5s的红外图像电动自行车目标检测方法,具体步骤如下:
步骤一:数据采集:利用红外摄像仪获取夜间道路电动自行车的图像;主要包括:使用红外摄像仪获取夜间道路上的红外图像。采集地点位于河南省郑州市二七区某交叉路口,采集时间序列为三天,采集时间为晚上的八点到十点,采集方式为手持式红外摄像仪,采集温度为10摄氏度到20摄氏度,采集装置为郑州光电有限公司生产的H640仪器。采集对象为城市道路上的行驶的电动自行车,主要关注点为电动自行车是否存在载人行为,采集到多段视频序列。
步骤二:数据集制作:将获取的图像按照一定比例划分训练集、验证集和测试集,使用标注工具对训练集和测试集中的图像进行标注签,得到两种电动自行车驾驶行为的标签,其中,标签包括dangerous标签和normal标签;
主要包括:将获取到的多段视频序列按照一定的时间间隔截取图像,经检查后筛除不含有被摄目标的图像,经过随机打乱的方式构成初始的图像数据。然后对初始图像使用labelImg标注软件进行标注,标注格式为yolo格式,对应标注文件为.txt文件;标注类型分为两类:载人驾驶电动自行车行为、单人驾驶电动自行车行为。存放标注的文件与存放图像的文件需一一对应,分别存储于data文件夹下的images文件夹和labels文件夹下。然后分别对这两个文件夹按照8:1:1的比例划分训练集(train)、测试集(test)和验证集(val),构成YOLO v5s训练所需的数据集。
1)对获取到的多段视频序列按照1帧/张的方式截取图像。
2)筛选图像:将图像中未含有电动自行车驾驶行为的图像筛除。
3)将筛选后的图像按照8:1:1的比例划分为训练集、验证集和测试集。
4)将验证集、训练集和测试集中的图像进行标注,对应的,得到数据集的标签文件。标注软件为labelImg,标注类型为两类:dangerous和normal,其中dangerous表示载人驾驶电动自行车行为标签,normal为单人驾驶电动自行车行为标签。
编写用于视频序列图像截取的代码:
选择视频截取的时间间隔为1帧/s;
图像截取大小为1420×1080;
对截取到的多幅红外图像进行筛选,删除不含有检测目标的图像。
使用软件打乱图像的排列顺序:
将打乱后的图像重新命名,命名规则为1.jpg、2.jag、3.jpg……;
按照8:1:1的比例对重新排序后的图像进行划分,如图2所示:
图像数量总数量的8/10存储于images文件夹下的训练集(train)文件夹中;
图像数量总数量的1/10存储于images文件夹下的测试集(test)文件夹中;
图像数量总数量的1/10存储于images文件夹下的验证集(Val)文件夹中;
对训练集、测试集、验证集中的图像进行标注;
标注软件为labeIImg;
标注格式为YOLO格式;
标注类别为:Normal E、Dangerous
其中Normal E代表单人驾驶电动自行车的标注,Dangerous代表载人驾驶电动自行车的标注。
标注类别存储在classes.txt文件中。
标注文件存储格式为.txt文件。
训练集中图像的标注文件存储在labels文件夹下的train文件夹中。
测试集中图像的标注文件存储在labels文件夹下的test文件夹中。
验证集中图像的标注文件存储在labels文件夹下的val文件夹中。
构成数据集data文件夹。
data文件夹包含上面两个步骤中的images文件夹和labels文件夹。
步骤三:训练集图像分类:根据标签类型对训练集中的数据进行统计,并筛选出normal标签对应的图像;
编写程序对训练集中标签类别进行统计,将训练集中的图像划分为两个部分,第一部分为只包含单人驾驶电动自行车类别的红外图像集,第二部分为只包含载人驾驶电动自行车类别和同时包含单人驾驶电动自行车类别和载人驾驶电动自行车类别的红外图像集;
1)训练集中标签类别统计:统计训练集中对图像标注后的标签类别,主要包括两种标签。分别统计含有dangerous标签的图像,含有normal标签的图像。
2)筛选图像:综合统计结果,将只含有normal标签的图像筛选出来。
编写统计类别的程序用于统计labels文件夹下的train文件夹中每一个.txt文件夹中含有的标签类别(Normal E和Dangerous)。
将训练集中的图像名字与统计所得的标签类别一一对应存储于excel文件;
统计每一图像所包含的标注类别:
统计含有Normal E标签类别的图像;
统计含有Dangerous标签类别的图像;
统计只含有Normal E标签类别的图像;
将只含有Normal E标签类别的图像复制到一个新的文件夹(代替图像文件夹)下。
步骤四:训练集部分图像增强:使用自适应直方图均衡(Adaptive histogramequalization/AHE)方法对筛选出的图像进行处理,得到增强后的训练集;
主要包括:将训练集中筛选出来的红外图像使用自适应直方图均衡(Adaptivehistogram equalization/AHE)方法进行图像增强处理,处理后的图像代替训练集中原有的红外图像。
1)图像增强:将筛选出来的图像使用自适应直方图均衡(Adaptive histogramequalization/AHE)的方法进行增强处理。
步骤为:
S4.1:将输入的图像等分为图像块,图像块的大小为N×N;
S4.2:获取每一图像块内的图像的灰度级,并计算图像块内原始直方图的概率;
S4.3:计算图像块内直方图概率的累加值;
S4.4:根据下式求取像素映射关系:
假设r代表图像中像素灰度级,经过归一化处理后,0≤r≤1,每个像素值在[0,1]区间的灰度级数是随机的,图像灰度级的分布可以用概率密度函数Pr(r)来表示;在数字图像处理中,rk代表离散灰度级,概率密度函数Pr(rk)的表达式如下:
其中,0≤rk≤1,k=0,1,2,...,n-1为灰度级,n代表图像的像素总数,图像的直方图均衡化公式为:
其中,Si表示将灰度级为rk的像素变换成灰度级为Si的像素,T(ri)表示变换函数。
2)使用增强后的图像替换训练集中的图像构成数据集。
编写图像增强算法(自适应直方图均衡化)用于对图像进行增强:
将得到的新的文件下(代替图像文件夹)输入图像增强算法;
得到一个经过自适应直方图均衡化后的图像文件夹(增强后图像文件夹);
将增强后的图像文件夹中的所有图像复制到images文件夹下的train文件夹中替换原来图像;
构成一个经过图像增强后的数据集。
图3给出了图像增强前后的对比效果。
步骤五:YOLO v5s模型:如图4和图5所示,搭建YOLO v5s模型(在原始YOLO v5s的Backbone部分(图4)插入基于通道的注意力机制SENet;),如图8所示,改进后的模型包括Input模块、Backbone模块、Neck模块和Prediction模块;
所述Input模块的结构为输入层—Focus单元;Backbone模块的结构为Conv_I—CSP1_3_I—Conv_II—CSP1_3_II—Conv_III—CSP1_3_III—Conv_IV—SPP—CSP1_3_IV—SENet—Conv_V;Neck模块的结构为上采样层I—Concat_I—CSP1_3_VI—Conv_VI—上采样层II—Concat_II—CSP1_3_VII—Conv_VII—Concat_III—CSP1_3_VIII—Conv_VIII—Concat_IV—CSP1_3_IX,且Conv_VI的输出与Concat_III的输入相连接;Prediction模块包括Prediction_I、Prediction_II和Prediction_III。
Focus单元的输出与Conv_I的输入相连接,CSP1_3_II的输出与Concat_II的输入相连接,CSP1_3_III的输出与Concat_I的输入相连接,SENet的输出与Concat_IV的输入相连接,Conv_V的输出与上采样层I的输入相连接,Conv_VII的输出与Prediction_I的输入相连接,Conv_VIII的输出与Prediction_II的输入相连接,CSP1_3_IX的输出与Prediction_III的输入相连接。
所述Focus单元包括slice_I、slice_II、slice_III、slice_IV、Concat_V和CBS_I,slice_I、slice_II、slice_III、slice_IV的输入均与输入层相连接,slice_I、slice_II、slice_III、slice_IV的输出均与Concat_V的输入相连接,Concat_V的输出与CBS_I的输入相连接,CBS_I的输出与Conv_I的输入相连接;其中,CBS_I的结构为卷积层-BN层-SiLU激活函数。
如图9所示,所述CSP1_3_I、CSP1_3_II、CSP1_3_III、CSP1_3_IV、CSP1_3_V、CSP1_3_VI、CSP1_3_VII、CSP1_3_VIII和CSP1_3_IX的结构均包括CBS_II、CBS_III、Resunit组件I、Resunit组件II、Resunit组件III、Concat_VI、CBS_IV;CBS_II的输出均与Resunit组件I、Resunit组件II、Resunit组件III的输入相连接,Resunit组件I、Resunit组件II、Resunit组件III的输出、CBS_III的输出均与Concat_VI的输入相连接,Concat_VI的输出与CBS_IV的输入相连接;其中,Resunit组件I、Resunit组件II、Resunit组件III均包括CBS_VII、CBS_VIII和add,CBS_VII的输出与CBS_VIII的输入相连接,CBS_VIII的输出和CBS_VII的输入均与add相连接;CBS_II、CBS_III、CBS_IV、CBS_VII、CBS_VIII的结构均为卷积层-BN层-SiLU激活函数。
所述SPP的结构包括CBS_V、MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII、CBS_VI;CBS_V的输出分别与MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII的输入相连接,MaxPool_I、MaxPool_II、MaxPool_III的输出均与Concat_VII的输入相连接,Concat_VII的输出与CBS_VI的输入相连接;其中,CBS_V、CBS_VI的结构均为卷积层-BN层-SiLU激活函数。
Backbone部分对输入的640×640的图像经过Focus结构,以步长为2进行切片(slice)操作,将图像变成320×320的特征图。
在网络的backbone部分插入基于注意力机制的SENet结构它采取重新标定的策略实现对通道信息的加权。
如图6所示,SENet的处理方法为:
特征图通过自适应全局平均池化、将特征层的长宽进行压缩,只留下通道维度的信息,得到Fsq(·);
Fsq(·)为压缩(Squeeze)操作机制,此操作的基本步骤包括:输入为W×H×C的特征图层,经过一个全局平均池化(Global polling)处理,输出1×1×C的特征图层。
将Fsq(·)连续使用两个全连接层(先缩小再还原至原通道数C)对通道信息进行自注意,得到Fex(·,W);
Fex(·,W)为激励操作机制,此操作的基本步骤包括:输入为Fsq(·)操作输出的1×1×C的特征图层,经过第一个有C×SERatio个神经元的全连接层FC,输出为1×1×C×SERatio;然后经过一个Sigmoid激活函数,输出为1×1×C×SERatio;然后经过第二个有C的神经元的全连接层,输出为1×1×C;再经过一个Sigmoid激活函数,最后输出激励后的1×1×C特征图层。
将Fex(·,W)全连接输出通过一个sigmiod函数,得到0-1的通道权重,最后对原特征层进行加权,得到Fscale(·,·);
Fex(·,W)为相乘特征融合机制,将SE模块计算出来的个通道权重值分别和原特征图对应通道的二维矩阵相乘。
图7中展示了SENet模块在YOLO v5s网络中的作用位置以及作用于主干网络的结果。SENet的参数量的计算公式为:
其中,S表示Stage的数量,Ns为第s个Stage的重复block量,r为全连接层降维系数,Cs为第s个Stage的通道数。
图8中展示了SENet模块在YOLO v5s网络中的作用位置以及作用于主干网络的结果。
Prediction中YOLO v5s锚框的训练参数值来源于k-mean聚类获取的数据集的锚框值。
步骤六:YOLO v5s模型训练:将增强后的训练集、测试集和验证集分别输入改进的YOLO v5s模型中进行训练、测试和验证,得到电动自行车行为检测模型;
主要包括:实验将epochs设置为300,batch-size设置为8,初始学习率、学习率动量、学习率周期权重衰减系数分别设置为:0.01、0.937、0.2、0.0005,图像输入大小为640×640,锚框的训练参数来源于k-means聚类获取的coco数据集的锚框值,将数据集输入待训练的YOLO v5s算法的网络模型中进行训练,获得稳定的网络模型。
YOLO v5s锚框的训练参数,参数值来源于k-mean聚类获取的数据集的锚框值。对box进行K-means的步骤为:
1)随机选取9个box作为初始anchor;
2)使用IOU度量,将每个box分配给与其距离最近的anchor;
3)计算每个簇中所有box宽和高的均值,更新anchor;
4)重复步骤2)、3),直到anchor不再变化,或者达到了最大迭代次数;
如图10所示,假设有anchor=(ha,hb),box=(wa,wb),则
在目标检测任务中,需要大量的图像数据对模型进行训练以达到更高的精度。受硬件设备的约束,用于训练模型的数据集较小,训练得到的模型精度低、泛化能力不强。针对这一问题,同时为了降低使用成本,提出了一种基于小样本的跨域迁移学习的策略。为了降低数据采集和制作数据集的人工成本,使用跨域迁移学习的策略在较小的数据集样本上完成对模型的训练,以实现电动自行车的检测任务。
训练方式采取跨域迁移学习策略,其目的在于改善由于硬件设备内存不足时引起的精度下降问题以及数据集较大时的人工标注成本高的问题。
迁移训练策略:
1)获取coco数据集;
2)使用coco数据集在Yolo v5的s版本的原始模型上进行训练
3)获得coco数据集在Yolo v5的s版本的原始模型上进行训练所得的权重文件yolov5s.pt
以上三个步骤在设备较好的计算机上进行、以下步骤在模型部署设备上进行,其中yolov5s.pt权重文件可移植到每一台用于检测任务的计算机上进行模型的参数矫正。
4)将权重文件输入改进后的Yolo v5的s版本模型进行训练。
将改进后的YOLO v5s算法部署在计算机上;
读取数据集;
读取yolov5s.pt权重文件;
参数设置:epochs设置为300,batch-size设置为8,初始学习率、学习率动量、学习率周期权重衰减系数分别设置为:0.01、0.937、0.2、0.0005,图像输入大小为640×640,以及输入锚框的训练参数;
对模型进行多次训练得到一个精度最好的模型;
在第一轮次的训练中:
读取数据集中的图像;
在Input中对图像进行自适应缩放,将1420×1080的图像大小自适应缩放为640×640的图像大小;
在Backbone中通过Focus结构以步长为2的方式对图像进行切片处理得到304×304×12的特征图;
对得到的特征图进行卷积操作,最终变成304×304×32的特征图;
在Backbone中的主干网络上不断地对特征图层进行上采样处理;
在Neck结构中采取FPN+PAN的结构在对特征图层进行下采样和上采样处理;
采取32倍、16倍以及8倍下采样处理后分别得到三个尺度的特征图层:19*19大小、38*38大小、76*76大小;
在Prediction部分对三种大小的特征图层融合后进行预测输出,输出该向量具有的目标对象的概率类别、对象的分和该对象边界框位置;
在下一轮次的训练中在经过SENet模块时,对每一特征图层根据上一轮次的结果进行加权,继而重新训练。
最终经过300次的训练,得到稳定的精度较好的训练模型。
步骤七:检测结果输出:将待检测的图像或视频输入电动自行车行为检测模型,输出相应的电动车行为检测结果。主要包括:将图像、视频、视频流输入到训练好的网络模型中进行检测,实现目标的检测结果输出。图11给出了采用本发明方法获得的检测结果图。
将训练好的模型进行部署;
将待检测的视频序列输入检测模型;
输出电动自行车目标的检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,其步骤如下:
步骤一:数据采集:利用红外摄像仪获取夜间道路电动自行车的图像;
步骤二:数据集制作:将获取的图像划分训练集、验证集和测试集,使用标注工具对训练集和测试集中的图像进行标注签,得到两种电动自行车驾驶行为的标签,其中,标签包括dangerous标签和normal标签;
步骤三:训练集图像分类:根据标签类型对训练集中的数据进行统计,并筛选出normal标签对应的图像;
步骤四:训练集部分图像增强:使用自适应直方图均衡方法对筛选出的图像进行处理,得到增强后的训练集;
步骤五:YOLO v5s模型:搭建YOLO v5s模型,包括Input模块、Backbone模块、Neck模块和Prediction模块;
步骤六:YOLO v5s模型训练:将增强后的训练集、测试集和验证集分别输入改进的YOLOv5s模型中进行训练、测试和验证,得到电动自行车行为检测模型;
步骤七:检测结果输出:将待检测的图像或视频输入电动自行车行为检测模型,输出相应的电动车行为检测结果。
2.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述dangerous标签表示载人驾驶电动自行车行为;normal标签为单人驾驶电动自行车行为。
3.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述使用自适应直方图均衡方法对筛选出的图像进行处理的方法为:
S4.1:将输入的图像等分为图像块,图像块的大小为N×N;
S4.2:获取每一图像块内的图像的灰度级,并计算图像块内原始直方图的概率;
S4.3:计算图像块内直方图概率的累加值;
S4.4:根据下属方式求取像素映射关系:
假设r代表图像中像素灰度级,经过归一化处理后,0≤r≤1,每个像素值在[0,1]区间的灰度级数是随机的,图像灰度级的分布可以用概率密度函数Pr(r)来表示;在数字图像处理中,rk代表离散灰度级,概率密度函数Pr(rk)的表达式如下:
其中,0≤rk≤1,k=0,1,2,...,n-1为灰度级,n代表图像的像素总数,图像的直方图均衡化公式为:
其中,Si表示将灰度级为rk的像素变换成灰度级为Si的像素,T(ri)表示变换函数。
4.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述Input模块的结构为输入层—Focus单元;Backbone模块的结构为Conv_I—CSP1_3_I—Conv_II—CSP1_3_II—Conv_III—CSP1_3_III—Conv_IV—SPP—CSP1_3_IV—SENet—Conv_V;Neck模块的结构为上采样层I—Concat_I—CSP1_3_VI—Conv_VI—上采样层II—Concat_II—CSP1_3_VII—Conv_VII—Concat_III—CSP1_3_VIII—Conv_VIII—Concat_IV—CSP1_3_IX,且Conv_VI的输出与Concat_III的输入相连接;Prediction模块包括Prediction_I、Prediction_II和Prediction_III;
Focus单元的输出与Conv_I的输入相连接,CSP1_3_II的输出与Concat_II的输入相连接,CSP1_3_III的输出与Concat_I的输入相连接,SENet的输出与Concat_IV的输入相连接,Conv_V的输出与上采样层I的输入相连接,Conv_VII的输出与Prediction_I的输入相连接,Conv_VIII的输出与Prediction_II的输入相连接,CSP1_3_IX的输出与Prediction_III的输入相连接。
5.根据权利要求4所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述Focus单元包括slice_I、slice_II、slice_III、slice_IV、Concat_V和CBS_I,slice_I、slice_II、slice_III、slice_IV的输入均与输入层相连接,slice_I、slice_II、slice_III、slice_IV的输出均与Concat_V的输入相连接,Concat_V的输出与CBS_I的输入相连接,CBS_I的输出与Conv_I的输入相连接;其中,CBS_I的结构为卷积层-BN层-SiLU激活函数。
6.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述CSP1_3_I、CSP1_3_II、CSP1_3_III、CSP1_3_IV、CSP1_3_V、CSP1_3_VI、CSP1_3_VII、CSP1_3_VIII和CSP1_3_IX的结构均包括CBS_II、CBS_III、Resunit组件I、Resunit组件II、Resunit组件III、Concat_VI、CBS_IV;CBS_II的输出均与Resunit组件I、Resunit组件II、Resunit组件III的输入相连接,Resunit组件I、Resunit组件II、Resunit组件III的输出、CBS_III的输出均与Concat_VI的输入相连接,Concat_VI的输出与CBS_IV的输入相连接;其中,Resunit组件I、Resunit组件II、Resunit组件III均包括CBS_VII、CBS_VIII和add,CBS_VII的输出与CBS_VIII的输入相连接,CBS_VIII的输出和CBS_VII的输入均与add相连接;CBS_II、CBS_III、CBS_IV、CBS_VII、CBS_VIII的结构均为卷积层-BN层-SiLU激活函数。
7.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,所述SPP的结构包括CBS_V、MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII、CBS_VI;CBS_V的输出分别与MaxPool_I、MaxPool_II、MaxPool_III、Concat_VII的输入相连接,MaxPool_I、MaxPool_II、MaxPool_III的输出均与Concat_VII的输入相连接,Concat_VII的输出与CBS_VI的输入相连接;其中,CBS_V、CBS_VI的结构均为卷积层-BN层-SiLU激活函数。
8.根据权利要求1所述的基于改进YOLO v5s的红外图像电动自行车目标检测方法,其特征在于,SENet的处理方法为:
特征图通过自适应全局平均池化、将特征层的长宽进行压缩,得到Fsq(·);Fsq(·)为压缩(Squeeze)操作机制;
将Fsq(·)连续使用两个全连接层对通道信息进行自注意,得到Fex(·,W);Fex(·,W)为激励操作机制;
将Fex(·,W)全连接输出通过一个sigmiod函数,得到0-1的通道权重,最后对原特征层进行加权,得到Fscale(·,·);Fex(·,W)为相乘特征融合机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199990.7A CN115410047A (zh) | 2022-09-29 | 2022-09-29 | 基于改进YOLO v5s的红外图像电动自行车目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211199990.7A CN115410047A (zh) | 2022-09-29 | 2022-09-29 | 基于改进YOLO v5s的红外图像电动自行车目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410047A true CN115410047A (zh) | 2022-11-29 |
Family
ID=84168971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211199990.7A Pending CN115410047A (zh) | 2022-09-29 | 2022-09-29 | 基于改进YOLO v5s的红外图像电动自行车目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410047A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350994A (zh) * | 2023-11-03 | 2024-01-05 | 山东宇影光学仪器有限公司 | 基于改进YOLO v5l的菲涅尔透镜缺陷检测方法 |
CN117409083A (zh) * | 2023-12-14 | 2024-01-16 | 珠海市金锐电力科技有限公司 | 一种基于红外图像和改进yolov5的电缆终端识别方法及装置 |
-
2022
- 2022-09-29 CN CN202211199990.7A patent/CN115410047A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350994A (zh) * | 2023-11-03 | 2024-01-05 | 山东宇影光学仪器有限公司 | 基于改进YOLO v5l的菲涅尔透镜缺陷检测方法 |
CN117409083A (zh) * | 2023-12-14 | 2024-01-16 | 珠海市金锐电力科技有限公司 | 一种基于红外图像和改进yolov5的电缆终端识别方法及装置 |
CN117409083B (zh) * | 2023-12-14 | 2024-03-22 | 珠海市金锐电力科技有限公司 | 一种基于红外图像和改进yolov5的电缆终端识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
CN111259905B (zh) | 一种基于下采样的特征融合遥感图像语义分割方法 | |
CN111914907B (zh) | 一种基于深度学习空谱联合网络的高光谱图像分类方法 | |
CN109800736B (zh) | 一种基于遥感影像和深度学习的道路提取方法 | |
CN113902915B (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
CN111797779A (zh) | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 | |
CN115410047A (zh) | 基于改进YOLO v5s的红外图像电动自行车目标检测方法 | |
CN113378906B (zh) | 一种特征自适应对齐的无监督域适应遥感图像语义分割方法 | |
CN113486897A (zh) | 一种卷积注意力机制上采样解码的语义分割方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN116052016A (zh) | 基于深度学习的遥感图像云和云影的精细分割检测方法 | |
CN111461129B (zh) | 一种基于上下文先验的场景分割方法和系统 | |
CN112989942A (zh) | 一种基于交通监控视频的目标实例分割方法 | |
CN114782821B (zh) | 一种联合多种迁移学习策略的滨海湿地植被遥感识别方法 | |
CN112819000A (zh) | 街景图像语义分割系统及分割方法、电子设备及计算机可读介质 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN114299286A (zh) | 一种异常天气下基于类别分组的道路场景语义分割方法 | |
CN114494699B (zh) | 基于语义传播与前背景感知的图像语义分割方法及系统 | |
CN116189191A (zh) | 一种基于yolov5的可变长车牌识别方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
CN113642614A (zh) | 基于深度网络的基本天气类型分类方法 | |
Wang et al. | Research on Semantic Segmentation Algorithm for Multiscale Feature Images Based on Improved DeepLab v3+ | |
CN112508091B (zh) | 基于卷积神经网络的低质量图像分类方法 | |
CN113297942B (zh) | 基于分层压缩激励网络的户外多种场景快速分类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |