CN112084890B - 基于gmm和cqfl的多尺度识别交通信号标志的方法 - Google Patents

基于gmm和cqfl的多尺度识别交通信号标志的方法 Download PDF

Info

Publication number
CN112084890B
CN112084890B CN202010847228.XA CN202010847228A CN112084890B CN 112084890 B CN112084890 B CN 112084890B CN 202010847228 A CN202010847228 A CN 202010847228A CN 112084890 B CN112084890 B CN 112084890B
Authority
CN
China
Prior art keywords
prediction
training
network
frames
gmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010847228.XA
Other languages
English (en)
Other versions
CN112084890A (zh
Inventor
高明煜
陈超
董哲康
杨宇翔
林辉品
何志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010847228.XA priority Critical patent/CN112084890B/zh
Publication of CN112084890A publication Critical patent/CN112084890A/zh
Application granted granted Critical
Publication of CN112084890B publication Critical patent/CN112084890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于GMM和CQFL的多尺度识别交通信号标志的方法。本发明通过GMM聚类得到先验框尺寸作为网络的参数参与训练;将待训练图像输入神经网络中,网络会提取出输入图像不同尺度的特征图,并为五个不同尺度的特征图分配相应个数的先验框。再通过上采样和特征融合,最后输出五个不同尺度的预测结果。通过CQFL计算损失函数值后再进行迭代训练可以更新模型参数,得到最终模型;识别时将待识别图像输入最终模型,得到图像相应位置上的识别结果。通过GMM聚类提高了网络的识别速度和识别精度;通过CQFL解决了数据样本少导致识别效果差的问题;通过多尺度预测和先验框分配策略,解决了交通信号标志太小,难以检测的问题。

Description

基于GMM和CQFL的多尺度识别交通信号标志的方法
技术领域
本发明涉及一种交通信号标志识别方法,尤其是涉及一种基于GMM和CQFL的多尺度识别交通信号标志的方法。
背景技术
交通信号灯和交通标志牌的实时识别是自动驾驶和辅助驾驶技术的重要组成部分。它能帮助车辆在行驶过程中对出现的道路交通标志信息进行采集和实时识别,及时向驾驶员做出指示或警告,或直接控制车辆进行操作,以预防交通事故的发生,有效提高了驾驶安全性和舒适性。所以,这也就对识别算法的识别速度和精度提出了更高的要求。
传统的识别方法需要有检测出感兴趣区域和识别分类两个阶段。先通过RGB颜色分割、HIS颜色分割、HSV多阈值分割等方式对图像进行分割,并对其二值图像进行连通域标记,再通过设定阈值对其进行分割得到感兴趣区域,然后通过模板匹配、SVM和Adaboost等方法对目标区域进行识别分类。传统识别算法的计算过程简单、易于实现,能满足一定的检测要求。但识别速度较慢,无法满足实时识别的要求,且分类器的分类能力欠佳。若受到光照变化的影响,还会导致分割的准确性变差,故算法的识别速度、识别准确率和鲁棒性还有待提高。
为了克服传统识别方法的缺点,目前性能最好且用的最多的就是基于深度学习的目标检测方法,它又可大体分为single-stage和two-stage两大类。但是基于two-stage的方法需要产生大量的候选区域,导致识别速度非常慢,无法满足实时检测。虽然现有的基于single-stage的方法拥有较快的识别速度,但其对小目标的识别效果大多都较差。小目标指的是在图像中占据较小像素的目标,一般其长宽不到图像尺寸的10%,只有几十个像素。而在交通信号标志图像中会以小目标居多。所以,现有的基于single-stage的目标检测方法对交通信号标志的识别效果欠佳。
除此以外,现有的基于single-stage的目标检测方法使用的先验框是通过K-means聚类得到的。但K-means的每个聚类在所有维度上的协方差都为零,使聚类结果局限于圆形。而由所有标定框的长宽大小构成的二维数据集是不规则形状的,如果使用圆形来聚类将会使聚类结果产生巨大误差,导致预测框的回归过程耗时严重,影响到了识别速度;并且,由于聚类结果的不准确也会直接造成神经网络识别准确度低下。
同时,有监督式的目标检测方法基本上都要求训练数据集样本充足且数量均匀,如果有几类的数据集样本太少,那么最终这几类的识别效果将会非常差,会出现误检和漏检的现象。
针对现有的基于single-stage的交通信号标志识别方法的这几大问题,寻找一种小目标识别效果好、识别速度快和识别准确度高的新方法,以代替现有的识别方法,便成为了目前亟需解决的问题。
发明内容
为解决上述问题,本发明提出一种基于GMM和CQFL的多尺度识别交通信号标志的方法,显著提高了识别速度、识别准确度特别是对小目标对象能实现高准确度识别。
本发明的技术方案采用如下步骤:
1)通过GMM聚类得到先验框尺寸作为网络的参数参与训练;
2)将待训练图像输入神经网络中,网络会提取出输入图像不同尺度的特征图,并为最后五个不同尺度的特征图分配相应个数的先验框。再通过上采样和特征融合,最后输出五个不同尺度的预测结果;
3)通过CQFL计算损失函数值后再进行迭代训练可以更新模型参数,得到最终模型;
4)识别时将待识别图像输入最终模型,可得到图像相应位置上的识别结果。
所述的步骤1)之前需要进行数据准备,步骤如下:通过对中国交通违章事件进行的统计,选择违章概率最高的30类交通标志作为数据集类别。一共收集到10000张包含有交通灯和交通标志牌的数据集,标定数据集并生成xml格式文件。随机选取2000张样本图片作为测试集,不参与神经网络的训练,只用来测试网络模型的性能。剩下的8000张样本图片被分为6000张训练样本和2000张验证样本后,需要参与神经网络模型的训练。计算并保存每个训练样本和验证样本中所有标定框的长宽大小。
所述的步骤1)中的GMM是以n个训练样本和验证样本中所有标定框的长宽大小作为二维数据点来构成。设有样本Xi,则GMM的表达式:
其中:N是GMM中单一高斯模型的个数;πm是每个单一高斯模型的占比;P(Xim,Varm)是样本Xi在第m个单一高斯模型中的概率密度函数。
由公式1可知:GMM可由单一高斯模型通过一定权重比叠加而成。因此,GMM可以用N个单一高斯模型无限逼近,就可认为所有标定框尺寸可被聚类为N个不同大小的先验框尺度。通过EM算法对GMM的参数进行迭代更新:首先,分别初始化每个单一高斯模型的均值μ、方差Var和每个单一高斯模型的占比π。通过以下公式2计算样本Xi属于第m个单一高斯模型的概率,可称为样本Xi对第m个单一高斯模型的贡献系数:
通过以下公式3计算似然函数初始值:
在得到Wi,m之后,可以通过公式4、公式5和公式6依次更新πm、μm和Varm
以上便完成了一次GMM参数的更新,而通过更新后的πm、μm和Varm可以进一步更新贡献系数和计算出此时的似然函数值,并往复迭代。随着参数的更新,似然函数值会不断变大,直到似然函数值的变化量小于预设阈值,此时GMM的参数达到收敛,聚类过程结束。
考虑到在多尺度识别网络中,最后需要输出五个尺度的预测结果,其中最小的两个尺度各需要六个不同大小的先验框,其他三个尺度各需要三个不同大小的先验框。因此,需要通过GMM聚类出21个不同大小的先验框,即取N=21。
所述的步骤2)中神经网络的构建步骤如下:
神经网络分为特征提取网络和多尺度预测网络。在特征提取网络(Darknet62)中,设计由卷积层、BN归一化层、Mish非线性激活函数串联构成CBM基本单元;将步长为1的1×1CBM卷积和步长为1的3×3CBM卷积进行残差连接,构成的res残差单元结构;设计由一个步长为2的3×3CBM卷积和N个res残差单元结构串联构成resN结构。
Darknet62会先调整输入图像的尺寸为512×512×3,再用1个输出通道为16的3×3CBM卷积对输入图像进行滤波。再依次使用res1、res2、res8、res8、res4、res4残差结构对特征图进行下采样操作,同时可以增加特征图的通道数。通过特征提取网络可以依次得到五个不同尺度的特征图:128×128×64、64×64×128、32×32×256、16×16×512、8×8×1024。它们将会被用于下一阶段的多尺度预测。
在多尺度预测网络中,设计由卷积层、BN归一化层和Leaky ReLU非线性激活函数串联构成CBL卷积。CBL卷积将作为预测网络的基本单元。设计了预测网络的SPP模块结构:由四个不同尺度(1,5,9,13)的最大池化层并联,并将最大池化层的输出结果进行合并连接。
多尺度预测网络会将Darknet62得到的尺度为8×8×1024的特征图依次通过V1(由三个CBL卷积、一个SPP模块和三个CBL卷积串联构成)和V2(由两个CBL卷积构成)后可以得到8×8×105的预测结果。同时,尺度为8×8×1024的特征图在依次通过V1、一个1×1CBL卷积和一次上采样后需要与尺度为16×16×512的特征图进行特征融合,得到新的特征图。新的特征图一方面需要在通过V4(由六个CBL卷积构成)和一次上采样后与尺度为32×32×256的特征图进行特征融合,另一方面它还需要通过V5(由七个CBL卷积构成)得到16×16×105的预测结果。依次对Darknet62得到的五个特征图进行上述变换,最后将得到128×128×210、64×64×210、32×32×105、16×16×105、8×8×105五个不同尺度的预测结果。
所述的步骤2)中的先验框分配策略是为特征提取网络得到的128×128×64和64×64×128特征图各分配了六个不同大小的先验框,而对于其他三个尺度的特征图只分配到三个不同大小的先验框。
由多尺度预测网络得到的最终预测结果会分别将输入图像分割成了128×128、64×64、32×32、16×16、8×8个网格。其中,在被分割为128×128和64×64个网格的图中,每个网格会产生六个预测框。预测框是由该网格对应的先验框通过回归过程得到的。每个预测框又由35个参数构成。参数分别为预测框中心的相对位置(x_offset,y_offset)、预测框的长宽(h,w)、预测置信度和30个类别的分类结果。同样的,在被分割为32×32、16×16和8×8个网格的图中,每个网格会产生三个预测框,且每个预测框也是由上述35个参数构成。
所述的步骤3)中的CQFL采用以下公式7进行计算:
CQFL(p)=-|y-p|γ((1-y)log(1-p)+ylog(p))βc (7)
其中:y∈[0,1]是标签值;p∈[0,1]是类别预测概率;|y-p|γ是用来控制难训练样本和易训练样本影响能力的因子,γ是用来调节曲线的陡峭程度,取值γ=2;CE(p)=-log(p)是交叉熵函数;βc因子是用来控制各类别对模型训练过程的影响力,它被定义为:
其中,NC是所有训练样本中类别为C的标签框个数,N是所有训练样本中所有标签框的个数。
将CQFL作为网络训练过程中的损失函数。通过CQFL计算得到的值是可以衡量预测结果和实际标签值之间的差距。
所述的步骤3)中的训练步骤如下:
1)将训练和验证集样本按照3:1的比例分离出训练集和验证集,两者都需参加训练。而验证集是通过训练网络的超参数来提高网络的识别准确度;
2)将训练集和验证集的xml格式的标定文件转换成训练所需的文件格式并保存;
3)输入预先搭建好的预训练模型,并解冻模型的所有层,设置为可训练;
4)采用CQFL损失函数计算位置预测信息损失值、置信度预测信息损失值和类别预测信息损失值之和,其值大小为预测结果和标定的真实结果之间的差距大小;
5)设置初始学习率和学习率衰减策略,训练中选择用Adam算法作为优化器来自动调整神经网络的权重参数,来使损失函数值不断减小;
6)将输入图像尺寸调整为512×512,并输入到神经网络中进行100轮的迭代训练。直到达到训练次数或损失函数的变化量小于阈值,则停止训练,得到并保存为最终模型。
所述的步骤4)中的识别具体步骤为:
将待识别的交通信号标志图像或视频输入到最终模型中,经过特征提取、上采样、特征融合等步骤,神经网络模型最终将会输出五个不同尺度的预测结果,从预测结果中可以得知每个预测框的位置、大小信息以及框内出现各类别的概率。将所有预测框聚集在一起,通过NMS算法去除冗余的预测框,最终可在图像或视频的相应位置上框出识别出的交通信号标志类别。
上述的NMS算法具体步骤如下:
1)设定预测结果中每个预测框的预测置信度与其预测出的每类分类结果的乘积最大值作为该预测框的得分,而该最大值对应的类别即是该预测框预测出的框内所属类别;
2)设定得分阈值,将得分低于得分阈值的所有预测框剔除,保留得分高于得分阈值的所有预测框;
3)设定交并比阈值,在剩下的预测框中选取得分最高的预测框为标准,剔除所有与该预测框交并比大于交并比阈值的预测框;
4)重复步骤3),直到完成对所有预测框的处理。
本发明具有的有益效果是:
本发明提出了基于特征金字塔的五尺度识别网络。网络提取到的128×128×64和64×64×128特征图具备非常小的感受野,对图像中的小目标能有很好的识别效果。此外,本发明提出了先验框分配策略。为128×128×64和64×64×128特征图各分配了六个不同大小的先验框。通过人工增加特征图中先验框的个数,提升了小目标对象被先验框覆盖的概率,能进一步提升识别网络的小目标识别性能。本发明方法解决了现有的基于single-stage的交通信号标志识别方法无法较好识别小目标的问题,达到了很好的小目标识别效果。
相比于现有识别方法存在先验框聚类误差大的问题,本发明方法通过GMM来进行先验框聚类,使聚类结果可以拥有任意椭圆的形状,更加符合实际情况。这样做提高了聚类的灵活性,明显降低了聚类误差,加快了识别过程中预测框的回归过程,从而提高了神经网络的识别准确度和识别速度。
相比于有监督式的识别方法对数据样本少的类别都会有识别效果差的问题,本发明方法提出了采用CQFL作为网络训练的损失函数,使神经网络在训练过程中把更多的注意力放在数据样本少的类别上,提高了网络对数据样本少的类别的识别准确度。最后能提高整体的识别准确度。
附图说明
图1为本发明的流程图
图2为本发明的高斯混合聚类流程图
图3为本发明的神经网络整体结构图
图4为实施例的测试样本图像
图5为实施例本方法得到的识别结果图
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,本发明包括以下步骤:
1)通过GMM聚类得到先验框尺寸作为网络的参数参与训练;
2)将待训练图像输入神经网络中,网络会提取出输入图像不同尺度的特征图,并为最后五个不同尺度的特征图分配相应个数的先验框。再通过上采样和特征融合,最后输出五个不同尺度的预测结果;
3)通过CQFL计算损失函数值后再进行迭代训练可以更新模型参数,得到最终模型;
4)识别时将待识别图像输入最终模型,可得到图像相应位置上的识别结果。
所述的步骤1)之前需要进行数据准备,步骤如下:通过对中国交通违章事件进行的统计,选择违章概率最高的30类交通标志作为数据集类别。一共收集到10000张包含有交通灯和交通标志牌的数据集,标定数据集并生成xml格式文件。随机选取2000张样本图片作为测试集,不参与神经网络的训练,只用来测试网络模型的性能。剩下的8000张样本图片被分为6000张训练样本和2000张验证样本后,需要参与神经网络模型的训练。计算并保存每个训练样本和验证样本中所有标定框的长宽大小。
所述的步骤1)中的GMM聚类方法流程如图2所示,GMM是以n个训练样本和验证样本中所有标定框的长宽大小作为二维数据点来构成。设有样本Xi,则GMM的表达式:
其中:N是GMM中单一高斯模型的个数;πm是每个单一高斯模型的占比;P(Xim,Varm)是样本Xi在第m个单一高斯模型中的概率密度函数。
由公式1可知:GMM可由单一高斯模型通过一定权重比叠加而成。因此,GMM可以用N个单一高斯模型无限逼近,就可认为所有标定框尺寸可被聚类为N个不同大小的先验框尺度。通过EM算法对GMM的参数进行迭代更新:首先,分别初始化每个单一高斯模型的均值μ、方差Var和每个单一高斯模型的占比π。通过以下公式2计算样本Xi属于第m个单一高斯模型的概率,可称为样本Xi对第m个单一高斯模型的贡献系数:
通过以下公式3计算似然函数初始值:
在得到Wi,m之后,可以通过公式4、公式5和公式6依次更新πm、μm和Varm
以上便完成了一次GMM参数的更新,而通过更新后的πm、μm和Varm可以进一步更新贡献系数和计算出此时的似然函数值,并往复迭代。随着参数的更新,似然函数值会不断变大,直到似然函数值的变化量小于预设阈值,此时GMM的参数达到收敛,聚类过程结束。
考虑到在多尺度识别网络中,最后需要输出五个尺度的预测结果,其中最小的两个尺度各需要六个不同大小的先验框,其他三个尺度各需要三个不同大小的先验框。因此,需要通过GMM聚类出21个不同大小的先验框,即取N=21。
所述的步骤2)中神经网络整体结构图如图3所示,具体构建步骤如下:
神经网络分为特征提取网络和多尺度预测网络。在特征提取网络(Darknet62)中,设计由卷积层、BN归一化层、Mish非线性激活函数串联构成CBM基本单元;将步长为1的1×1CBM卷积和步长为1的3×3CBM卷积进行残差连接,构成的res残差单元结构;设计由一个步长为2的3×3CBM卷积和N个res残差单元结构串联构成resN结构。
Darknet62会先调整输入图像的尺寸为512×512×3,再用1个输出通道为16的3×3CBM卷积对输入图像进行滤波。再依次使用res1、res2、res8、res8、res4、res4残差结构对特征图进行下采样操作,同时可以增加特征图的通道数。通过特征提取网络可以依次得到五个不同尺度的特征图:128×128×64、64×64×128、32×32×256、16×16×512、8×8×1024。它们将会被用于下一阶段的多尺度预测。
在多尺度预测网络中,设计由卷积层、BN归一化层和Leaky ReLU非线性激活函数串联构成CBL卷积。CBL卷积将作为预测网络的基本单元。设计了预测网络的SPP模块结构:由四个不同尺度(1,5,9,13)的最大池化层并联,并将最大池化层的输出结果进行合并连接。
多尺度预测网络会将Darknet62得到的尺度为8×8×1024的特征图依次通过V1(由三个CBL卷积、一个SPP模块和三个CBL卷积串联构成)和V2(由两个CBL卷积构成)后可以得到8×8×105的预测结果。同时,尺度为8×8×1024的特征图在依次通过V1、一个1×1CBL卷积和一次上采样后需要与尺度为16×16×512的特征图进行特征融合,得到新的特征图。新的特征图一方面需要在通过V4(由六个CBL卷积构成)和一次上采样后与尺度为32×32×256的特征图进行特征融合,另一方面它还需要通过V5(由七个CBL卷积构成)得到16×16×105的预测结果。依次对Darknet62得到的五个特征图进行上述变换,最后将得到128×128×210、64×64×210、32×32×105、16×16×105、8×8×105五个不同尺度的预测结果。
所述的步骤2)中的先验框分配策略是为特征提取网络得到的128×128×64和64×64×128特征图各分配了六个不同大小的先验框,而对于其他三个尺度的特征图只分配到三个不同大小的先验框。
由多尺度预测网络得到的最终预测结果会分别将输入图像分割成了128×128、64×64、32×32、16×16、8×8个网格。其中,在被分割为128×128和64×64个网格的图中,每个网格会产生六个预测框。预测框是由该网格对应的先验框通过回归过程得到的。每个预测框又由35个参数构成。参数分别为预测框中心的相对位置(x_offset,y_offset)、预测框的长宽(h,w)、预测置信度和30个类别的分类结果。同样的,在被分割为32×32、16×16和8×8个网格的图中,每个网格会产生三个预测框,且每个预测框也是由上述35个参数构成。
所述的步骤3)中的CQFL采用以下公式7进行计算:
CQFL(p)=-|y-p|γ((1-y)log(1-p)+ylog(p))βc (7)
其中:y∈[0,1]是标签值;p∈[0,1]是类别预测概率;|y-p|γ是用来控制难训练样本和易训练样本影响能力的因子,γ是用来调节曲线的陡峭程度,取值γ=2;CE(p)=-log(p)是交叉熵函数;βc因子是用来控制各类别对模型训练过程的影响力,它被定义为:
其中,NC是所有训练样本中类别为C的标签框个数,N是所有训练样本中所有标签框的个数。
将CQFL作为网络训练过程中的损失函数。通过CQFL计算得到的值是可以衡量预测结果和实际标签值之间的差距。
所述的步骤3)中的训练步骤如下:
1)将训练和验证集样本按照3:1的比例分离出训练集和验证集,两者都需参加训练。而验证集是通过训练网络的超参数来提高网络的识别准确度;
2)将训练集和验证集的xml格式的标定文件转换成训练所需的文件格式并保存;
3)输入预先搭建好的预训练模型,并解冻模型的所有层,设置为可训练;
4)采用CQFL损失函数计算位置预测信息损失值、置信度预测信息损失值和类别预测信息损失值之和,其值大小为预测结果和标定的真实结果之间的差距大小;
5)设置初始学习率和学习率衰减策略,训练中选择用Adam算法作为优化器来自动调整神经网络的权重参数,来使损失函数值不断减小;
6)将输入图像尺寸调整为512×512,并输入到神经网络中进行100轮的迭代训练。直到达到训练次数或损失函数的变化量小于阈值,则停止训练,得到并保存为最终模型。
所述的步骤4)中的识别具体步骤为:
将待识别的交通信号标志图像或视频输入到最终模型中,经过特征提取、上采样、特征融合等步骤,神经网络模型最终将会输出五个不同尺度的预测结果,从预测结果中可以得知每个预测框的位置、大小信息以及框内出现各类别的概率。将所有预测框聚集在一起,通过NMS算法去除冗余的预测框,最终可在图像或视频的相应位置上框出识别出的交通信号标志类别。
上述的NMS算法具体步骤如下:
1)设定预测结果中每个预测框的预测置信度与其预测出的每类分类结果的乘积最大值作为该预测框的得分,而该最大值对应的类别即是该预测框预测出的框内所属类别;
2)设定得分阈值,将得分低于得分阈值的所有预测框剔除,保留得分高于得分阈值的所有预测框;
3)设定交并比阈值,在剩下的预测框中选取得分最高的预测框为标准,剔除所有与该预测框交并比大于交并比阈值的预测框;
4)重复步骤3),直到完成对所有预测框的处理。
本发明的步骤1)通过GMM来进行先验框聚类,使聚类结果可以拥有任意椭圆的形状,更加符合实际情况。这样做提高了聚类的灵活性,明显降低了聚类误差,加快了识别过程中预测框的回归过程,从而提高了神经网络的识别准确度和识别速度。
本发明的步骤2)提出了基于特征金字塔的五尺度识别网络。网络提取到的128×128×64和64×64×128特征图具备非常小的感受野,对图像中的小目标能有很好的识别效果。此外,本发明提出了先验框分配策略。为128×128×64和64×64×128特征图各分配了六个不同大小的先验框。通过人工增加特征图中先验框的个数,提升了小目标对象被先验框覆盖的概率,能进一步提升识别网络的小目标识别性能。本发明方法解决了现有的基于single-stage的交通信号标志识别方法无法较好识别小目标的问题,达到了很好的小目标识别效果。
本发明的步骤3)提出了采用CQFL作为网络训练的损失函数,使神经网络在训练过程中把更多的注意力放在数据样本少的类别上,提高了网络对数据样本少的类别的识别准确度。最后能提高整体的识别准确度。
本发明的具体实施例:
实验图像共有10000张,所收集到的交通信号灯和交通标志牌类别包括:直行红灯、直行绿灯、左转红灯、左转绿灯、右转红灯、右转绿灯、直行车道、左转车道、右转车道、禁止停车、禁止驶入、禁止货车通行、禁止机动车通行、禁止掉头、禁止左右转、限重15吨、限重40吨、限重60吨、注意前方学校、注意人行横道、限速30、限速60、限速80、限速120、右侧通行、减速让行、停车让行、公交车专用道、单行道、机动车车道,各类别的数据样本数量不均匀。随机选取2000张样本图片作为测试集,不参与神经网络的训练,只用来测试神经网络的性能。剩下的8000张样本图片被分为6000张训练样本和2000张验证样本后,需要参与神经网络模型的训练。
本实施例典型的样本图像如图4,图4中的(a)、(b)、(c)分别为不同地点拍摄的交通信号灯和交通标志牌图像。
本发明的实验环境为:CPU为CoreTMi7-6700K@4.00GHz,GPU为GTX1080Ti,显存为11GB,Windows 10操作系统,深度学习框架为Tensorflow 1.6.0,利用Python 3.6、OpenCV 3.4.1以及Keras 2.1.5实现交通信号标志识别以及相应算法的性能对比。
使用测试集得到的不同识别算法的识别性能对比如表1所示:
表1不同识别算法性能的客观评价
其中,FPS是识别网络每秒能识别的图像数,其值越大则说明识别速度越快。AP是所有类别的均值平均精度,而AP50和AP75分别是IoU的阈值大于0.5和大于0.75时的均值平均精度,这三项都是评判识别准确度的重要指标,其值越大说明识别准确度越高。APS、APM和APL分别是识别网络在识别小目标、中目标和大目标时的均值平均精度。
从表1中的数据可知,相比于现有的single-stage识别方法和two-stage识别方法,本发明提出的方法在识别准确率和识别速度方面均具备较大优势。特别的,本发明提出的方法在识别小目标时具备较大的识别准确度。具体来说,通过使用GMM聚类,不仅在一定程度上提高识别准确度,还缩短了识别过程的耗时。通过采用CQFL作为损失函数,提高了网络对数据样本少的类别的识别准确度,因此进一步提高了网络的识别准确度。最后,通过使用五尺度识别网络和相应的先验框分配策略,显著提升了对小目标的识别准确度。
本发明方法的识别检测结果示意如图5所示,其中,图5中的(a)、(b)、(c)分别是对图4中(a)、(b)、(c)中交通信号灯和交通标志牌的识别结果图。
在图5中可以看到,在拍摄地点不同、交通信号灯和交通标志牌大小不一的情况下,本发明方法也能够准确快速地定位与识别出测试图像中相应位置上的交通信号灯和交通标志牌类别,这可以满足实时动态识别交通信号灯和交通标志牌的要求,也可以有效的应对一些复杂的环境状况。
由此可见,本发明能够实现交通信号标志的快速定位与正确识别,具有较高的识别准确度,并且具有网络识别速度快,小目标识别效果好等优点,能够应用于自动识别交通信号标志系统。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (7)

1.基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:包括以下步骤:
1)通过GMM聚类得到先验框尺寸作为网络的参数参与训练;
以n个训练样本和验证样本中所有标定框的长宽大小作为二维数据点来构成;设有样本Xi,则GMM的表达式:
其中:N是GMM中单一高斯模型的个数;πm是每个单一高斯模型的占比;P(Xim,Varm)是样本Xi在第m个单一高斯模型中的概率密度函数;μm、Varm依次表示第m个高斯模型的均值、方差;
通过EM算法对GMM的参数进行迭代更新:首先,分别初始化每个单一高斯模型的均值μ、方差Var和每个单一高斯模型的占比π;通过以下公式(2)计算样本Xi属于第m个单一高斯模型的概率,可称为样本Xi对第m个单一高斯模型的贡献系数:
通过以下公式(3)计算似然函数初始值:
在得到Wi,m之后,通过公式(4)、公式(5)和公式(6)依次更新πm、μm和Varm
以上便完成了一次GMM参数的更新,而通过更新后的πm、μm和Varm可以进一步更新贡献系数和计算出此时的似然函数值,并往复迭代;随着参数的更新,似然函数值会不断变大,直到似然函数值的变化量小于预设阈值,此时GMM的参数达到收敛,聚类过程结束;
考虑到在多尺度识别网络中,最后需要输出五个尺度的预测结果,其中最小的两个尺度各需要六个不同大小的先验框,其他三个尺度各需要三个不同大小的先验框;因此,需要通过GMM聚类出21个不同大小的先验框,即取N=21;
2)将待训练图像输入神经网络中,网络会提取出输入图像不同尺度的特征图,并为最后五个不同尺度的特征图分配相应个数的先验框;再通过上采样和特征融合,最后输出五个不同尺度的预测结果;
3)通过CQFL计算损失函数值后,再通过迭代训练来更新模型参数,得到最终模型;
其中CQFL采用以下公式进行计算:
CQFL(p)=-|y-p|γ((1-y)log(1-p)+ylog(p))βc
其中:y∈[0,1]是标签值;p∈[0,1]是类别预测概率;|y-p|γ是用来控制难训练样本和易训练样本影响能力的因子,γ是用来调节曲线的陡峭程度;-log(p)是交叉熵函数;βc因子是用来控制各类别对模型训练过程的影响力,它被定义为:
其中,NC是所有训练样本中类别为C的标签框个数,N是所有训练样本中所有标签框的个数;
4)识别时将待识别图像输入最终模型,得到图像相应位置上的识别结果。
2.根据权利要求1所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:所述的步骤1)之前需要进行数据准备,步骤如下:通过对中国交通违章事件进行的统计,选择违章概率最高的30类交通标志作为数据集类别;一共收集到10000张包含有交通灯和交通标志牌的数据集,标定数据集并生成xml格式文件;随机选取2000张样本图片作为测试集,不参与神经网络的训练,只用来测试网络模型的性能;剩下的8000张样本图片被分为6000张训练样本和2000张验证样本后,需要参与神经网络模型的训练;计算并保存每个训练样本和验证样本中所有标定框的长宽大小。
3.根据权利要求1所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:所述的步骤2)中神经网络的构建步骤如下:
神经网络分为特征提取网络和多尺度预测网络;在特征提取网络Darknet62中,设计由卷积层、BN归一化层、Mish非线性激活函数串联构成CBM基本单元;将步长为1的1×1CBM卷积和步长为1的3×3CBM卷积进行残差连接,构成的res残差单元结构;设计由一个步长为2的3×3CBM卷积和N个res残差单元结构串联构成resN结构;
Darknet62会先调整输入图像的尺寸为512×512×3,再用1个输出通道为16的3×3CBM卷积对输入图像进行滤波;再依次使用res1、res2、res8、res8、res4、res4残差结构对特征图进行下采样操作,同时增加特征图的通道数;通过特征提取网络依次得到五个不同尺度的特征图:128×128×64、64×64×128、32×32×256、16×16×512、8×8×1024;它们将会被用于下一阶段的多尺度预测;
在多尺度预测网络中,设计由卷积层、BN归一化层和Leaky ReLU非线性激活函数串联构成CBL卷积;CBL卷积将作为预测网络的基本单元;设计了预测网络的SPP模块结构:由四个不同尺度1,5,9,13的最大池化层并联,并将最大池化层的输出结果进行合并连接;
多尺度预测网络会将Darknet62得到的尺度为8×8×1024的特征图依次通过V1和V2后得到8×8×105的预测结果,其中V1由三个CBL卷积、一个SPP模块和三个CBL卷积串联构成,V2由两个CBL卷积构成;同时,尺度为8×8×1024的特征图在依次通过V1、一个1×1CBL卷积和一次上采样后需要与尺度为16×16×512的特征图进行特征融合,得到新的特征图;新的特征图一方面需要在通过V4和一次上采样后与尺度为32×32×256的特征图进行特征融合,另一方面它还需要通过V5得到16×16×105的预测结果,其中V4由六个CBL卷积构成,V5由七个CBL卷积构成;依次对Darknet62得到的五个特征图进行上述变换,最后将得到128×128×210、64×64×210、32×32×105、16×16×105、8×8×105五个不同尺度的预测结果。
4.根据权利要求3所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:
为特征提取网络得到的五个不同尺度特征图分配相应个数的先验框,分配策略为:为特征提取网络得到的128×128×64和64×64×128特征图各分配了六个不同大小的先验框,而对于其他三个尺度的特征图只分配到三个不同大小的先验框;
由多尺度预测网络得到的最终预测结果会分别将输入图像分割成了128×128、64×64、32×32、16×16、8×8个网格;其中,在被分割为128×128和64×64个网格的图中,每个网格会产生六个预测框;预测框是由该网格对应的先验框通过回归过程得到的;每个预测框又由35个参数构成;参数分别为预测框中心的相对位置(x_offset,y_offset)、预测框的长宽(h,w)、预测置信度和30个类别的分类结果;同样的,在被分割为32×32、16×16和8×8个网格的图中,每个网格会产生三个预测框,且每个预测框也是由上述35个参数构成。
5.根据权利要求1所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:所述的步骤3)中用来调节曲线的陡峭程度γ设为2。
6.根据权利要求1所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:所述的步骤3)中的训练步骤如下:
3.1)将训练和验证集样本按照3:1的比例分离出训练集和验证集,两者都需参加训练;而验证集是通过训练网络的超参数来提高网络的识别准确度;
3.2)将训练集和验证集的xml格式的标定文件转换成训练所需的文件格式并保存;
3.3)输入预先搭建好的预训练模型,并解冻模型的所有层,设置为可训练;
3.4)采用CQFL损失函数计算位置预测信息损失值、置信度预测信息损失值和类别预测信息损失值之和,其值大小为预测结果和标定的真实结果之间的差距大小;
3.5)设置初始学习率和学习率衰减策略,训练中选择用Adam算法作为优化器来自动调整神经网络的权重参数,来使损失函数值不断减小;
3.6)将输入图像尺寸调整为512×512,并输入到神经网络中进行100轮的迭代训练;直到达到训练次数或损失函数的变化量小于阈值,则停止训练,得到并保存为最终模型。
7.根据权利要求1所述的基于GMM和CQFL的多尺度识别交通信号标志的方法,其特征在于:所述的步骤4)中的识别具体步骤为:
将待识别的交通信号标志图像或视频输入到最终模型中,经过特征提取、上采样、特征融合步骤,神经网络模型最终将会输出五个不同尺度的预测结果,从预测结果中可以得知每个预测框的位置、大小信息以及框内出现各类别的概率;将所有预测框聚集在一起,通过NMS算法去除冗余的预测框,最终可在图像或视频的相应位置上用方框框出识别出的交通信号标志类别;
上述的NMS算法具体步骤如下:
4.1)设定预测结果中每个预测框的预测置信度与其预测出的每类分类结果的乘积最大值作为该预测框的得分,而该最大值对应的类别即是该预测框预测出的框内所属类别;
4.2)设定得分阈值,将得分低于得分阈值的所有预测框剔除,保留得分高于得分阈值的所有预测框;
4.3)设定交并比阈值,在剩下的预测框中选取得分最高的预测框为标准,剔除所有与该预测框交并比大于交并比阈值的预测框;
4.4)重复步骤3),直到完成对所有预测框的处理。
CN202010847228.XA 2020-08-21 2020-08-21 基于gmm和cqfl的多尺度识别交通信号标志的方法 Active CN112084890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010847228.XA CN112084890B (zh) 2020-08-21 2020-08-21 基于gmm和cqfl的多尺度识别交通信号标志的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010847228.XA CN112084890B (zh) 2020-08-21 2020-08-21 基于gmm和cqfl的多尺度识别交通信号标志的方法

Publications (2)

Publication Number Publication Date
CN112084890A CN112084890A (zh) 2020-12-15
CN112084890B true CN112084890B (zh) 2024-03-22

Family

ID=73729488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010847228.XA Active CN112084890B (zh) 2020-08-21 2020-08-21 基于gmm和cqfl的多尺度识别交通信号标志的方法

Country Status (1)

Country Link
CN (1) CN112084890B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800934B (zh) * 2021-01-25 2023-08-08 西北大学 一种多类别工程车的行为识别方法及装置
CN113298733B (zh) * 2021-06-09 2023-02-14 华南理工大学 一种基于隐式边缘先验的尺度渐进的图像补全方法
CN113269156B (zh) * 2021-07-02 2023-04-18 昆明理工大学 一种基于多尺度特征融合的信号灯检测识别方法及系统
CN114495061B (zh) * 2022-01-25 2024-04-05 青岛海信网络科技股份有限公司 一种道路交通标志牌识别方法及装置
CN115359412B (zh) * 2022-10-24 2023-03-03 成都西交智汇大数据科技有限公司 一种盐酸中和实验评分方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法
WO2020156028A1 (zh) * 2019-01-28 2020-08-06 南京航空航天大学 一种基于深度学习的室外非固定场景天气识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156028A1 (zh) * 2019-01-28 2020-08-06 南京航空航天大学 一种基于深度学习的室外非固定场景天气识别方法
CN111401148A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进的多级YOLOv3的道路多目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多尺度特征融合与极限学习机结合的交通标志识别;马永杰;程时升;马芸婷;陈敏;;液晶与显示;20200615(第06期);全文 *

Also Published As

Publication number Publication date
CN112084890A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084890B (zh) 基于gmm和cqfl的多尺度识别交通信号标志的方法
CN110796168B (zh) 一种基于改进YOLOv3的车辆检测方法
CN111368687B (zh) 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN111274976B (zh) 基于视觉与激光雷达多层次融合的车道检测方法及系统
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
WO2022083784A1 (zh) 一种基于车联网的道路检测方法
CN111401148A (zh) 一种基于改进的多级YOLOv3的道路多目标检测方法
CN110188807B (zh) 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法
CN110263706B (zh) 一种雾霾天气车载视频动态目标检测和识别的方法
CN108921083B (zh) 基于深度学习目标检测的非法流动摊贩识别方法
CN111950583B (zh) 一种基于gmm聚类的多尺度识别交通信号标志的方法
CN111814623A (zh) 一种基于深度神经网络的车辆车道偏离视觉检测方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
CN111325146B (zh) 一种货车车型和轴型识别方法和系统
CN112101221A (zh) 一种用于交通信号灯实时检测与识别的方法
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN111582339A (zh) 一种基于深度学习的车辆检测与识别的方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN116630932A (zh) 一种基于改进yolov5的道路遮挡目标检测方法
CN115376108A (zh) 一种复杂天气下障碍物检测方法及装置
CN107862341A (zh) 一种车辆检测方法
CN113269119A (zh) 一种夜间车辆检测方法及装置
CN113158954A (zh) 交通非现场的基于ai技术的斑马线区域自动检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant