CN111079540B - 一种基于目标特性的分层可重构车载视频目标检测方法 - Google Patents
一种基于目标特性的分层可重构车载视频目标检测方法 Download PDFInfo
- Publication number
- CN111079540B CN111079540B CN201911131918.9A CN201911131918A CN111079540B CN 111079540 B CN111079540 B CN 111079540B CN 201911131918 A CN201911131918 A CN 201911131918A CN 111079540 B CN111079540 B CN 111079540B
- Authority
- CN
- China
- Prior art keywords
- target
- network
- frame
- training
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 57
- 238000012360 testing method Methods 0.000 claims description 42
- 238000011176 pooling Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种车载视频目标快速检测方法,属于计算机视觉、深度学习技术领域,包括如下步骤:步骤一:制作样本集;步骤二:确定模型先验边界框的初始化参数;步骤三:构建改进的tiny‑yolo‑v2目标检测网络模型,将原始9层网络结构简化为7层结构的卷积神经网络模型,前6层均为网络结构块,最后1层为卷积层;步骤四:训练模型;步骤五:检测目标。通过上述方法,可以实现车载视频每帧图像中设定目标的快速检测,相比于原tiny‑yolo‑v2网络结构,减少了网络层数和全网络卷积核数,使得所构建网络在保证目标检测精度与tiny‑yolo‑v2一致的条件下,检测速度增加、占用存储空间与计算资源减少,可满足车载视频目标检测要求。
Description
技术领域
本发明涉及计算机视觉、深度学习技术等领域,具体涉及一种基于目标类数、目标边框特性的分层可重构的改进tiny-yolo-v2车载视频目标检测方法。
背景技术
深度神经网络在基于图像信息的目标检测方面正在获得越来越广泛的应用。与传统特征表达的方法相比,其特性的丰富性和健壮性表现突出,并且,可以在同一模型中通过学习,实现特征提取、选择和目标分类。
基于深度神经网络的目标检测算法主要分成两类:
(1)似物性采样目标检测网络,首先,利用特征相似性原理在图像中提取目标位置候选区域,然后,以候选区域为目标,学习分类网络模型;其代表网络包括:R-CNN,FastR-CNN,FasterR-CNN等。
(2)回归目标检测网络,构造目标分类与边框定位误差的联合损失函数,直接通过学习回归网络模型;其代表网络包括:YOLO系列和SSD等。
YOLO(YouOnlyLookOnce)是一种回归目标检测网络,其突出的特点在于速度快,但是,其检测精度稍低于似物性采样目标网络模型。YOLO系列包括:yolo-v1、yolo-v2、yolo-v3,其中,v2和v3版的精度相较于v1有较大提升。
深度神经网络的应用普遍面临网络规模大、运行速度慢,同时,无法针对具体应用修改网络结构以适应实际应用的问题。尤其是,车载目标检测任务,对于运行速度、资源占用更为敏感,因为车载设备均为嵌入式系统,其存储空间和计算资源均受到车载设备性能限制,而且,车辆驾驶的速度快慢限制了视频连续帧检测的时间间隔,通常视频帧频约25帧/秒,当车辆行驶速度达到120km/h时,其检测时间间隔可能要求更短。这样的要求,即使是轻量级tiny-yolo-v2的9层结构网络也难以实现。因此,如何根据实际应用修改网络,以根据使用要求设计合适的深度网络及其卷积核数量,是目前深度神经网络落地面临的严峻挑战。
中国专利文献CN107134144A公开了一种用于交通监控的车辆检测方法,其包括步骤:S1、首先将收集到的交通监控图片拆分成上下两部分,上半部分图片的车辆离监控摄像头较远,车辆呈现小而模糊的状态,裁剪出其中的车辆并标注车辆类别信息,组成第一训练样本集;下半部分图片的车辆离监控摄像头较近,车辆呈现大而清晰的状态,直接在下半部分图片中标注出车辆类别信息和位置信息,并组成第二训练样本集;S2、构建并训练卷积神经网络;S3、构建并训练YOLO神经网络;S4、结合卷积神经网络和YOLO神经网络输出结果,检测出整张交通监控图片中的车辆。该发明虽然解决了原YOLO神经网络召回率低等特点,但其使用的是10层的卷积神经网络和11层的YOLO神经网络,其运算速度仍然受到一定限制。因此在应用于车载视频监控时,仍然存在一定弊端,无法完全满足车载视频检测所需的快速、高精度要求。
发明内容
本发明旨在针对车载目标检测应用,通过改进tiny-yolo-v2的深度网络结构、学习损失函数调整,可以在检测精度与tiny-yolo-v2一致的条件下,增加目标检测速度,减少运算与存储资源占用,并可应用于行人街景检测系统、自动驾驶系统。
本发明针对车载目标检测问题,在tiny-yolo-v2的基础上,研究了分层数、卷积核数、损失函数结构、网络检测性能评估等方面的改进策略,在目标检测精度不变的条件下,改进后网络模型的运行时间和资源占用情况得到了明显提升。
一种车载视频目标快速检测方法,其特征在于,包括如下步骤:
步骤一:制作样本集
采集包含A种特定目标类型的车载视频作为训练和测试的样本集,将视频拆分为连续图像帧,标注每帧图像中出现的上述A种特定目标的类别和位置,随机选取部分有效样本作为训练样本集,剩余样本作为测试样本集,用于网络训练和测试网络模型性能;其中,A为1-10之间的整数;
步骤二:确定模型先验边框初始化参数
在网络模型中引入先验边框机制,使用K-means聚类算法,统计训练样本集中的所述A类特定目标的边框宽和高的均值和分布,用于初始化目标边框参数值w和h,w和h分别表示目标边界框的宽和高;计算训练样本集中每类目标的真实边框和先验边框的交并比IOU,其计算公式如下:
式中,Area ofoverlap是目标真实边框与先验边框的重叠部分面积;Areaofunion是目标真实边框与先验边框的总面积;
步骤三:构建改进的tiny-yolo-v2目标检测网络模型,所述网络模型包括如下内容:
(1)改进tiny-yolo-v2网络模型结构,构建含有7层结构的卷积神经网络,并对每一层结构的卷积核个数进行调整,前6层均为网络结构块,后1层为卷积层;
前6层网络结构块可以从训练数据中习得深层目标特征,第7层的卷积层为回归模型;
(2)构建损失函数;
步骤四:配置网络训练和测试所需环境,训练网络模型:
步骤五:输入测试集的视频连续帧图像序列,加载步骤四训练所得网络模型,使用该模型检测测测试样本集中的目标,利用非极大值抑制检测出测试样本中目标的位置和/或类别。
优选地,所述含有7层结构的tiny-yolo-v2卷积神经网络中,每个结构块中:
第一层为3×3卷积层,使用Batch Normalization归一化处理输入数据;
第二层为池化层,使用Leaky ReLU激活函数处理,如式(2)所示:
其中,x为池化层中间数据,a取(1,+∞)区间内的任意数值。
优选地,所述构建损失函数包括:
在原有损失函数的基础上增加两个学习目标权重系数,构造新的网络学习损失函数如式(3)所示
Loss=λcoordLosscoord+Lossobj+λnoobjLossnoobj (3)
式中,λcoord为位置误差调整权重系数,λnoobj为不含目标边框置信度权重系数,Losscoord为位置误差损失函数,Lossobj为目标分类误差函数,Lossnoobj为不含目标边框损失函数;各类误差函数定义如式(4)-(6)所示:
式中,x、y、w、h分别为预测边框的中心坐标及其宽和高,分别为真值边框的中心坐标及其宽和高;Ci为预测边框内包含目标i的置信度,/>为真值边框包含目标i的置信度;pi(c)为预测边框的分类概率,/>为真值边框的分类概率;/>在第i个网格中第j个目标预测边框时为1,否则为0,/>在目标中心位于第i个网格时为1,否则为0。
优选地,所述损失函数式(3)中引入了两个调整因子λcoord和λnoobj,其取值如式(7)、(8)所示:
λcoord=5.0 (7)
λnoobj=0.5 (8)
优选地,步骤四中所述训练网络模型包括:
按照步骤二聚类得出的先验边框,初始化网络边框参数;按照步骤三构建的网络模型及损失函数,初始化网络学习模型;不断向网络输入训练样本,计算损失函数值,根据损失函数值调整网络各层权重系数,如此循环,直至损失函数值达到设计要求。
优选地,步骤四中,所述训练网络模型的过程中,通过损失函数的下降学习网络权重,直到损失函数值下降到允许范围内,停止训练并保存训练得到的目标检测网络模型;
网络模型训练过程如下:
样本图像通过网络生成特征图,特征图上的每个网格中生成B个预测边框,每个预测边框由(A+C)个参数表示,前A个参数分别表示预测边框的中心坐标及其宽和高(x,y,w,h);C为目标分类参数,包括目标置信度Pc和目标类别Ci(i=1,2,3,4,5……A);
其中,目标置信度Pc表示网格内是否有目标与预测边框和真值边框IOU的乘积,如式(9)所示:
式中,Pr(Object)为预测边框内存在目标的概率,如果预测边框框住了整个目标,则Pr(Object)=1,如果预测边框内无目标,则Pr(Object)=0;为预测边框与真值边框的交并比,这个值越大,则预测边框与真值边框重合的置信度就越高,目标检测的定位误差就越小;
目标类别Ci(i=1,2,3,4,5……A)表示每个预测边框中包含目标类别不同,用目标类别的条件概率表示Pr(Classi|Object),如式(10)所示:
网络输出B×(S×S)预测边框数,每个边框由(A+C)个参数表示,因此,网络输出的总参数量为:B×(S×S)×(A+C)。
优选地,所述步骤四中,选择训练批处理数量为32,学习率设置1e-3,使用Adam优化器训练网络结构的权重参数,对整个训练集迭代200个epoch,损失函数值下降到4~5范围内,停止训练并保存训练得到的目标检测网络模型。
优选地,所述A种特定目标类型包括汽车类、行人类、自行车类、公交车类、摩托车类共五种类型。
优选地,所述步骤二中,使用K-means聚类算法时,该模型的距离函数采用IOU距离计算,公式如下:
D(box,centroid)=1-IOU(box,centroid) (11)
式中,box为边框边界,centroid为边框中心。
优选地,所述步骤五中使用步骤四训练得到的网络模型,批量检测测试样本集,批量输出目标检测结果,并统计该模型的平均检测精度mAP指标,如果mAP不满足预期设计要求,调整网络层数或卷积核数量,重新训练网络,直至达到与tiny-yolo-v2相同的指标。
本发明提供的技术方案可简述如下:
使用步骤一制作的车载视频训练样本集,训练本发明提供的改进后的tiny-yolo-v2网络,导出其训练模型,再使用测试样本集测试tiny-yolo-v2的mAPold值,并记录。
按照步骤三所公开的内容,改进tiny-yolo-v2网络并训练和测试的过程:
1)去掉原9层网络中的第7、8层,保留原网络的第1-6层;
2)在原损失函数的位置误差项和目标不存在项前加入调整系数5和0.5;
3)使用训练tiny-yolo-v2的样本集,训练改进的7层网络,导出其训练模型,再使用测试样本集测试改进网络模型的mAPnew值,并记录;
4)如果(mAPold-mAPnew)≥ε,则增加每层的卷积核数量,更新改进的网络结构;
5)返回3),直至(mAPold-mAPnew)≤ε,得到改进网络模型;
6)使用相同测试集分别测试新旧两个模型的单帧检测速度、总参数量。
7)对改进后的网络进行检测性能评估。
相对于现有技术,本发明提供的技术方案具有如下优点:
(1)基于目标特性的网络层数与每层卷积核数量调整,相比于原tiny-yolo-v2网络结构,减少了网络层数和全网络卷积核数,使得所构建网络在保证目标检测精度与tiny-yolo-v2一致的条件下,检测速度增加、占用存储空间与计算资源减少,可满足车载视频目标的检测要求,检测精度更高,检测速度更快。
(2)本发明中损失函数增加了两个系数,能够保证检测精度更高。且本发明中增加了批量指标检测结果mAP,能够有效验证网络模型泛化能力,可以通过mAP指标反应网络的综合目标检测能力,如果网络泛化能力不够,需要重新组织训练样本集合,继续训练网络,直到满足预期的泛化能力。
附图说明
图1展示了本发明提供的基于目标特性的可重构深度神经网络设计流程图。
图2展示了测试例1所示的两种网络结构检测精度对比。
图3a展示了测试例1所示原tiny-yolo-v2网络检测的检测结果。
图3b展示了测试例1所示本发明提供的改进后网络的检测结果。
具体实施方式
下面结合附图和具体实施方式,对本发明提供的基于目标特性的分层可重构车载视频目标检测方法做进一步说明。
本实施例提供的车载视频目标快速检测方法,包括如下步骤:
步骤一:制作样本集
采集包含包含汽车类、行人类、自行车类、公交车类、摩托车类五种类型的车载视频作为训练和测试的样本集,将视频拆分为连续图像帧,标注每帧图像中出现的上述五类特定目标的类别和位置,随机选取部分有效样本作为训练样本集,剩余样本作为测试样本集,用于网络训练和测试网络模型性能;
步骤二:确定模型先验边框初始化参数
在网络模型中引入先验边框机制,使用K-means聚类算法,统计训练样本集中的汽车类、行人类、自行车类、公交车类、摩托车类五类特定目标的边框宽和高的均值和分布,用于初始化目标边框参数值w和h,w和h分别表示目标边界框的宽和高;计算训练样本集中每类目标的真实边框和先验边框的交并比IOU,其计算公式如下:
式中,Area of overlap是目标真实边框与先验边框的重叠部分面积;Area ofunion是目标真实边框与先验边框的总面积;
由于传统的K-means聚类算法使用欧式距离函数,为了防止聚类结果偏离真实边框,本实施例中该模型的距离函数采用IOU距离计算公式如下:
D(box,centroid)=1-IOU(box,centroid) (11)
式中,box为边框边界,centroid为边框中心。
步骤三:构建改进的tiny-yolo-v2目标检测网络模型,对卷积层数与卷积核数进行调整,本实施例构建的改进后的新网络模型包括如下内容:
(1)对tiny-yolo-v2网络模型结构进行改进,构建含有7层结构的卷积神经网络,并对每一层结构的卷积核个数进行调整,前6层均为网络结构块,后1层为卷积层,前6层网络结构块可以从训练数据中习得深层目标特征,第7层的卷积层为回归模型。
每个结构块中,第一层为3×3卷积层,使用Batch Normalization归一化处理输入数据;第二层为池化层,使用Leaky ReLU激活函数,如式(2)所示:
其中,x为池化层中间数据,a取值范围为(1,+∞)区间内的任意数值。
相比于原9层卷积网络结构,改进之后的7层结构更精简,检测速度相比原网络提升;同时,通过合理调整每层结构的卷积核个数,保证了检测精度的稳定性。修改之后的卷积层结构见表1:
表1.改进后的网络结构
网络结构 | 卷积核个数 | 卷积核尺寸 | 步长 |
卷积层1(Conv1) | 32 | 3×3 | 1 |
池化层1(Max Pooling1) | — | 2×2 | 2 |
卷积层2(Conv2) | 64 | 3×3 | 1 |
池化层2(Max Pooling2) | — | 2×2 | 2 |
卷积层3(Conv3) | 128 | 3×3 | 1 |
池化层3(Max Pooling3) | — | 2×2 | 2 |
卷积层4(Conv4) | 256 | 3×3 | 1 |
池化层4(Max Pooling4) | — | 2×2 | 2 |
卷积层5(Conv5) | 512 | 3×3 | 1 |
卷积层6(Conv6) | 1024 | 3×3 | 1 |
卷积层7(Conv7) | 50 | 1×1 | 1 |
(2)构建损失函数:
针对原网络学习过程中,目标定位准确性较差的问题,在原有损失函数的基础上增加两个学习目标权重系数,本实施例构造了新的网络学习损失函数如式(3)所示:
Loss=λcoordLosscoord+Lossobj+λnoobjLossnoobj (3)
式中,λcoord为位置误差调整权重系数,λnoobj为不含目标边框置信度权重系数,Losscoord为位置误差损失函数,Lossobj为目标分类误差函数,Lossnoobj为不含目标边框损失函数;各类误差函数定义如式(4)-(6)所示:
式中,x、y、w、h为预测边框的中心坐标及其宽和高,为真值边框的中心坐标及其宽和高;Ci为预测边框内包含目标i的置信度,/>为真值边框包含目标i的置信度;pi(c)为预测边框的分类概率,/>为真值边框的分类概率;/>在第i个网格中第j个目标预测边框时为1,否则为0,/>在目标中心位于第i个网格时为1,否则为0。
由于损失函数式(3)中引入了两个调整因子和,本实施例中其取值如式(7)、(8)所示:
λcoord=5.0 (7)
λnoobj=0.5 (8)
步骤四:配置网络训练和测试所需TensorFlow环境,训练网络模型:按照步骤二聚类得出的先验边框,初始化网络边框参数;按照步骤三构建改进网络模型及损失函数,初始化网络学习模型;不断向网络输入训练样本,计算损失函数值,根据损失函数值调整网络各层权重系数,如此循环,直至损失函数值达到设计要求。
网络模型训练过程中,通过损失函数的下降学习网络权重,直到损失函数值下降到允许范围内,停止训练并保存训练得到的目标检测网络模型。网络模型具体训练过程如下:
样本图像通过网络生成特征图,特征图上的每个网格中生成B个预测边框,每个预测边框由(5+C)个参数表示,前5个参数分别表示预测边框的中心坐标及其宽和高(x,y,w,h);C为目标分类参数,包括:
目标置信度Pc:表示为网格内是否有目标与预测边框和真值边框IOU的乘积,如式(9)所示:
式中,Pr(Object)为预测边框内存在目标的概率,如果预测边框框住了整个目标,则Pr(Object)=1,如果预测边框内无目标,则Pr(Object)=0;为预测边框与真值边框的交并比,这个值越大,则预测边框与真值边框重合的置信度就越高,目标检测的定位误差就越小。
目标类别Ci(i=1,2,3,4,5):每个预测边框中包含目标类别不同,用目标类别的条件概率表示Pr(Classi|Object)如式(10)所示:
网络输出B×(S×S)预测边框数,每个边框由(5+C)个参数表示,因此,网络输出的总参数量为:B×(S×S)×(5+C)。
在本发明专利所使用的网络模型中S=13,B=5。
本实施例选择训练批处理数量32,学习率设置1e-3,使用Adam优化器训练网络结构的权重参数,对整个训练集迭代200个epoch,损失函数值下降到4~5范围内,停止训练并保存训练得到的目标检测网络模型。
步骤五:批量输入测试集的视频连续帧图像序列,加载步骤四训练所得网络模型,使用该模型检测测测试样本集中的目标,利用非极大值抑制检测出测试样本中目标的位置和/或类别,并统计该模型的平均检测精度mAP指标,如果mAP不满足预期设计要求,调整网络层数或卷积核数量,重新训练网络,直至达到与tiny-yolo-v2相同的指标。
下面对目标检测方法性能评估指标的物理意义及其计算说明:
一、若干概念
(1)二分类问题:问题可以表达为正例和反例两类集合,正例集合为P,反例集合为N。
(2)二分类检测集合:正例检测正确数量为TP,正例检测错误数量为FN,反例检测正确数量为TN,反例检测错误数量为FP。
二、检测与评价指标
(1)准确率Precision,如公式(12)所示:
Precision是指检测集合中所有正例中检测正确的比率。
(2)召回率,如公式(13)所示:
Recall是指检测为正例的样本中检测正确的比率。
(3)PR曲线:使用准确率和召回率绘制PR曲线。
以准确率Precision为纵轴P,以召回率Recall为横轴R,以目标的检测边框与真值边框的IOU为参变量,分别给定IOU=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],计算每个IOU线的值(pi,ri)i=1,2,……,10,得到O-PR坐标系下第一象限中的10个点,以R从小到大顺序连接10个点,得到PR曲线。
(4)mAP:每类目标Ci得到一条PR曲线PRi与坐标轴围成一个区域,该区域的面积为其APi值,如式(14)所示:
k=1,2,……,
所有五类目标的AP值求平均得到网络模型的综合检测性能mAP,如式(15)所示:
其离散近似值为:
计算所有目标类的AP平均值得到mAP,如式(17)所示
下面通过两个测试例展示本发明改进后的网络与传统tiny-yolo-v2相比,在检测精度和运行速度上的提升效果。
测试例1本发明提供的改进网络与tiny-yolo-v2的检测精度比较
图2为在相同测试集下,本实施例所提供改进后的网络与原tiny-yolo-v2的检测精度比较结果,图中横轴为检测目标类别,包括:car(汽车)、bus(公交车)、motorbike(摩托车)、person(人)、bicycle(自行车)五类;纵轴为检测精度(查全率),左侧柱为tiny-yolo-v2的统计平均检测精度,右侧柱为本发明专利改进网络的统计平均检测精度。
如图2所示,汽车、行人类目标检测精度两者相同,公交车类改进网络检测精度降低了8%,摩托车类改进网络检测精度提升了8%,自行车类改进网络检测精度提升了5%,tiny-yolo-v2五类目标的平均检测精度mAPold=59.23%,改进网络五类目标的平均精度值为60.32%,平均精度提升了1.1%。
图3a-图3b为在同一场景下,tiny-yolo-v2与改进后网络的检测效果比较,图3a为tiny-yolo-v2的检测效果,图3b为本发明改进网络的检测效果,图中白色边框为检测出的目标,显然,tiny-yolo-v2漏检了右边路上的1个摩托车,本发明提供的改进网络除了有一个较大的虚警边框外,车辆和行人、骑自行车的人都检测正确。
测试例2改进网络与tiny-yolo-v2的运行速度比较
表2为在相同测试集下,改进网络与tiny-yolo-v2的检测速度比较结果。
表2两种网络结构检测单帧图像检测时间
网络结构 | tiny-yolo-v2 | 本发明网络结构 |
单帧图像检测时间/ms | 4.1 | 3.3 |
由表2可知,tiny-yolo v2检测单帧图像时间为4.1ms,本发明改进网络检测单帧图像仅需要3.3ms,相比原tiny-yolo-v2检测时间缩短了20%。
本发明提供的改进网络与tiny-yolo-v2的资源占用比较:在相同测试集下,本实施例所提供的改进网络与tiny-yolo-v2的检测运算资源占用比较,改进网络的模型权重系数数量减少了50%。
本发明提供的改进网络与tiny-yolo-v2相比,检测精度提升了1.1%,检测速度提升了20%,权重模型参数减少了一半,满足车载目标的快速检测需求。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (5)
1.一种车载视频目标快速检测方法,其特征在于,包括如下步骤:
步骤一:制作样本集
采集包含5种特定目标类型的车载视频作为训练和测试的样本集,将视频拆分为连续图像帧,标注每帧图像中出现的上述5种特定目标的类别和位置,随机选取部分有效样本作为训练样本集,剩余样本作为测试样本集,用于网络训练和测试网络模型性能;
步骤二:确定模型先验边框初始化参数
在网络模型中引入先验边框机制,使用K-means聚类算法,统计训练样本集中的所述5种特定目标的边框宽和高的均值和分布,用于初始化目标边框参数值w和h,w和h分别表示目标边框的宽和高;计算训练样本集中每类目标的真实边框和先验边框的交并比IOU,其计算公式如下:
式中,Area of overlap是目标真实边框与先验边框的重叠部分面积;Area of union是目标真实边框与先验边框的总面积;
步骤三:构建改进的tiny-yolo-v2目标检测网络模型,所述网络模型包括如下内容:
(1)改进tiny-yolo-v2网络模型结构,去掉原9层网络中的第7、8层,构建含有7层结构的卷积神经网络,并对每一层结构的卷积核个数进行调整,前6层均为网络结构块,后1层为卷积层;前6层网络结构块可以从训练数据中习得深层目标特征,第7层的卷积层为回归模型;
所述含有7层结构的tiny-yolo-v2卷积神经网络中,每个结构块中:
第一层为3×3卷积层,使用Batch Normalization归一化处理输入数据;
第二层为池化层,使用Leaky ReLU激活函数处理,如式(2)所示:
其中,x为池化层输入数据,a取(1,+∞)区间内的任意数值;
(2)构建损失函数,包括:
在原有损失函数的基础上增加两个学习目标权重系数,构造新的网络学习损失函数如式(3)所示:
Loss=λcoordLosscoord+Lossobj+λnoobjLossnoobj (3)
式中,λcoord为位置误差调整权重系数,设定为5;λnoobj为不含目标边框置信度权重系数,设定为0.5;Losscoord为位置误差损失函数;Lossobj为目标分类误差函数;Lossnoobj为不含目标边框损失函数;各类误差函数定义如式(4)-(6)所示:
式中,x、y、w、h分别为预测边框的中心坐标及其宽和高,分别为真值边框的中心坐标及其宽和高;Ci为预测边框内包含目标i的置信度,/>为真值边框包含目标i的置信度;pi(c)为预测边框的分类概率,/>为真值边框的分类概率;/>在第i个网格中第j个目标预测边框时为1,否则为0,/>在目标中心位于第i个网格时为1,否则为0;
步骤四:配置网络训练和测试所需环境,训练网络模型;
步骤五:输入测试集的视频连续帧图像序列,加载步骤四训练所得网络模型,使用该模型检测测试样本集中的目标,利用非极大值抑制检测出测试样本中目标的位置和类别;
步骤四中所述训练网络模型包括:
按照步骤二聚类得出的先验边框,初始化网络边框参数;按照步骤三构建的网络模型及损失函数,初始化网络学习模型;不断向网络输入训练样本,计算损失函数值,根据损失函数值调整网络各层权重系数,如此循环,直至损失函数值达到设计要求;
所述步骤五中,使用步骤一中制作的车载视频训练样本集训练改进前的tiny-yolo-v2网络,导出其训练模型,再使用测试样本集测试改进前的tiny-yolo-v2网络模型的mAPold值,并记录;再使用步骤四训练得到的网络模型,批量检测测试样本集,批量输出目标检测结果,并统计该模型的平均检测精度mAPnew值;
如果(mAPold-mAPnew)≥ε,则增加每层的卷积核数量,更新改进的网络结构;再次用训练样本集训练更新的网络结构,导出新的网络模型,并用测试样本集测试该网络模型,直至(mAPold-mAPnew)<ε,得到最终改进的网络模型。
2.一种如权利要求1所述的车载视频目标快速检测方法,其特征在于,步骤四中,所述训练网络模型的过程中,通过损失函数的下降学习网络权重,直到损失函数值下降到允许范围内,停止训练并保存训练得到的目标检测网络模型;
网络模型训练过程如下:
样本图像通过网络生成特征图,特征图上的每个网格中生成B个预测边框,每个预测边框由(4+C)个参数表示,前4个参数分别表示预测边框的中心坐标及其宽和高(x,y,w,h);C为目标分类参数,包括目标置信度Pc和目标类别Ci(i=1,2,3,4);
其中,目标置信度Pc表示网格内是否有目标与预测边框和真值边框IOU的乘积,如式(9)所示:
式中,Pr(Object)为预测边框内存在目标的概率,如果预测边框框住了整个目标,则Pr(Object)=1,如果预测边框内无目标,则Pr(Object)=0;为预测边框与真值边框的交并比,这个值越大,则预测边框与真值边框重合的置信度就越高,目标检测的定位误差就越小;
目标类别Ci(i=1,2,3,4,5)表示每个预测边框中包含目标类别不同,用目标类别的条件概率表示Pr(Classi|Object),如式(10)所示:
网络输出B×(S×S)预测边框数,每个边框由(4+C)个参数表示,因此,网络输出的总参数量为:B×(S×S)×(4+C)。
3.一种如权利要求1所述的车载视频目标快速检测方法,其特征在于,所述步骤四中,选择训练批处理数量为32,学习率设置1e-3,使用Adam优化器训练网络结构的权重参数,对整个训练集迭代200个epoch,损失函数值下降到4~5范围内,停止训练并保存训练得到的目标检测网络模型。
4.一种如权利要求1所述的车载视频目标快速检测方法,其特征在于,所述5种特定目标类型包括汽车类、行人类、自行车类、公交车类、摩托车类。
5.一种如权利要求1所述的车载视频目标快速检测方法,其特征在于,所述步骤二中,使用K-means聚类算法时,该模型的距离函数采用IOU距离计算,公式如下:
D(box,centroid)=1-IOU(box,centroid) (11)
式中,box为边框边界,centroid为边框中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131918.9A CN111079540B (zh) | 2019-11-19 | 2019-11-19 | 一种基于目标特性的分层可重构车载视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131918.9A CN111079540B (zh) | 2019-11-19 | 2019-11-19 | 一种基于目标特性的分层可重构车载视频目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079540A CN111079540A (zh) | 2020-04-28 |
CN111079540B true CN111079540B (zh) | 2024-03-19 |
Family
ID=70311011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911131918.9A Active CN111079540B (zh) | 2019-11-19 | 2019-11-19 | 一种基于目标特性的分层可重构车载视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079540B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898418A (zh) * | 2020-06-17 | 2020-11-06 | 北京航空航天大学 | 一种基于t-tiny-yolo网络的人体异常行为检测方法 |
CN112733929B (zh) * | 2021-01-07 | 2024-07-19 | 南京工程学院 | 一种改进Yolo水下图像小目标和遮挡目标的检测方法 |
CN112750117B (zh) * | 2021-01-15 | 2024-01-26 | 河南中抗医学检验有限公司 | 一种基于卷积神经网络的血液细胞图像检测与计数方法 |
CN112884064B (zh) * | 2021-03-12 | 2022-07-29 | 迪比(重庆)智能科技研究院有限公司 | 一种基于神经网络的目标检测与识别方法 |
CN113160142A (zh) * | 2021-03-24 | 2021-07-23 | 浙江工业大学 | 一种融合先验边界的脑肿瘤分割方法 |
CN114494943A (zh) * | 2021-12-29 | 2022-05-13 | 以萨技术股份有限公司 | 新型视频目标检测评价方法、装置、产品及存储介质 |
CN114937195A (zh) * | 2022-03-29 | 2022-08-23 | 江苏海洋大学 | 基于无人机航拍和改进的YOLO v3的水面漂浮物目标检测系统 |
CN115396332B (zh) * | 2022-06-20 | 2024-03-15 | 内蒙古电力(集团)有限责任公司内蒙古超高压供电分公司 | 电力通信协议的模糊测试方法、终端设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897739A (zh) * | 2017-02-15 | 2017-06-27 | 国网江苏省电力公司电力科学研究院 | 一种基于卷积神经网络的电网设备分类方法 |
CN108052946A (zh) * | 2017-12-11 | 2018-05-18 | 国网上海市电力公司 | 一种基于卷积神经网络的高压机柜开关自动识别方法 |
CN108288055A (zh) * | 2018-03-14 | 2018-07-17 | 台州智必安科技有限责任公司 | 基于深度网络与分级测试的电力机车受电弓及电弧检测方法 |
CN108304787A (zh) * | 2018-01-17 | 2018-07-20 | 河南工业大学 | 基于卷积神经网络的道路目标检测方法 |
CN109241858A (zh) * | 2018-08-13 | 2019-01-18 | 湖南信达通信息技术有限公司 | 一种基于轨道交通列车的客流密度检测方法及装置 |
CN109344759A (zh) * | 2018-06-12 | 2019-02-15 | 北京理工大学 | 一种基于角度损失神经网络的亲属识别方法 |
CN110009628A (zh) * | 2019-04-12 | 2019-07-12 | 南京大学 | 一种针对连续二维图像中多形态目标的自动检测方法 |
CN110210452A (zh) * | 2019-06-14 | 2019-09-06 | 东北大学 | 一种基于改进tiny-yolov3的矿用卡车环境下目标检测方法 |
CN110443208A (zh) * | 2019-08-08 | 2019-11-12 | 南京工业大学 | 一种基于YOLOv2的车辆目标检测方法、系统及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784654B (zh) * | 2016-08-26 | 2020-09-25 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
CN107665603B (zh) * | 2017-09-06 | 2020-06-16 | 哈尔滨工程大学 | 一种判定车位占用的实时检测方法 |
US20190297326A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Video prediction using spatially displaced convolution |
CN109685152B (zh) * | 2018-12-29 | 2020-11-20 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
-
2019
- 2019-11-19 CN CN201911131918.9A patent/CN111079540B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897739A (zh) * | 2017-02-15 | 2017-06-27 | 国网江苏省电力公司电力科学研究院 | 一种基于卷积神经网络的电网设备分类方法 |
CN108052946A (zh) * | 2017-12-11 | 2018-05-18 | 国网上海市电力公司 | 一种基于卷积神经网络的高压机柜开关自动识别方法 |
CN108304787A (zh) * | 2018-01-17 | 2018-07-20 | 河南工业大学 | 基于卷积神经网络的道路目标检测方法 |
CN108288055A (zh) * | 2018-03-14 | 2018-07-17 | 台州智必安科技有限责任公司 | 基于深度网络与分级测试的电力机车受电弓及电弧检测方法 |
CN109344759A (zh) * | 2018-06-12 | 2019-02-15 | 北京理工大学 | 一种基于角度损失神经网络的亲属识别方法 |
CN109241858A (zh) * | 2018-08-13 | 2019-01-18 | 湖南信达通信息技术有限公司 | 一种基于轨道交通列车的客流密度检测方法及装置 |
CN110009628A (zh) * | 2019-04-12 | 2019-07-12 | 南京大学 | 一种针对连续二维图像中多形态目标的自动检测方法 |
CN110210452A (zh) * | 2019-06-14 | 2019-09-06 | 东北大学 | 一种基于改进tiny-yolov3的矿用卡车环境下目标检测方法 |
CN110443208A (zh) * | 2019-08-08 | 2019-11-12 | 南京工业大学 | 一种基于YOLOv2的车辆目标检测方法、系统及设备 |
Non-Patent Citations (3)
Title |
---|
一种车载视频目标快速检测方法;陈志韬;《中国优秀硕士学位论文全文数据库信息科技辑》;正文第20-57页 * |
基于动态精度的可扩展高能效CNN加速器设计;陈壮;《中国优秀硕士论文全文数据库信息科技辑》;20190515(第05期);第I138-1483页 * |
基于小型Zynq SoC硬件加速的改进TINY YOLO实时车辆检测算法实现;张雲轲;《计算机应用》;20190110;第39卷(第01期);第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111079540A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079540B (zh) | 一种基于目标特性的分层可重构车载视频目标检测方法 | |
CN110059554B (zh) | 一种基于交通场景的多支路目标检测方法 | |
CN108304798B (zh) | 基于深度学习及运动一致性的街面秩序事件视频检测方法 | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN108681693B (zh) | 基于可信区域的车牌识别方法 | |
CN111460926A (zh) | 一种融合多目标跟踪线索的视频行人检测方法 | |
CN112270252A (zh) | 一种改进YOLOv2模型的多车辆目标识别方法 | |
CN109447033A (zh) | 基于yolo的车辆前方障碍物检测方法 | |
CN111079602A (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN103530600B (zh) | 复杂光照下的车牌识别方法及系统 | |
CN108805016B (zh) | 一种头肩区域检测方法及装置 | |
CN111553201A (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN112651441B (zh) | 细粒度非机动车特征检测方法、存储介质及计算机设备 | |
US20220129685A1 (en) | System and Method for Determining Object Characteristics in Real-time | |
CN117949942B (zh) | 基于雷达数据和视频数据融合的目标跟踪方法及系统 | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN116310368A (zh) | 一种激光雷达3d目标检测方法 | |
CN117372969B (zh) | 一种面向监控场景的异常事件检测方法 | |
Rajalakshmi et al. | Traffic violation invigilation using transfer learning | |
CN114119749A (zh) | 一种基于密集关联的单目3d车辆检测方法 | |
Fan et al. | Covered vehicle detection in autonomous driving based on faster rcnn | |
CN117237911A (zh) | 一种基于图像的动态障碍物快速检测方法及系统 | |
Zhang et al. | An Efficient Face Mask Wearing Detection Algorithm Based on Improved YOLOv3. | |
CN114022705B (zh) | 一种基于场景复杂度预分类的自适应目标检测方法 | |
CN114140757B (zh) | 基于改进fcos的道路场景多类别检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |