CN115223112A - 一种基于语义分割的待行区检测方法 - Google Patents

一种基于语义分割的待行区检测方法 Download PDF

Info

Publication number
CN115223112A
CN115223112A CN202210921648.7A CN202210921648A CN115223112A CN 115223112 A CN115223112 A CN 115223112A CN 202210921648 A CN202210921648 A CN 202210921648A CN 115223112 A CN115223112 A CN 115223112A
Authority
CN
China
Prior art keywords
image
feature map
area
loss
pixel points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210921648.7A
Other languages
English (en)
Inventor
李万清
李枨
刘俊
林永杰
张俊峰
寿俐鑫
袁友伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210921648.7A priority Critical patent/CN115223112A/zh
Publication of CN115223112A publication Critical patent/CN115223112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义分割的待行区检测方法,涉及深度学习中的语义分割领域。本发明可用于对交通非现场执法影像中的左转待行区或右转待行区进行检测,该方法通过对图像进行像素级预测,得到代表待行区两侧曲线形式车道线的像素点,然后通过聚类及拟合算法得到曲线模型,最后连接曲线两端获得待行区区域。本发明对复杂环境下的待行区检测具有很好的效果,且对待行区检测的准确性较高。

Description

一种基于语义分割的待行区检测方法
技术领域
本发明属于深度学习中的语义分割领域,具体涉及到交通非现场执法场景下的待行区检测方法。
背景技术
在交通非现场执法场景下,需要通过安装于路口上方的摄像头拍摄车辆的违法影像。其中在判定车辆是否存在闯红灯违法行为时,往往需要检测道路上的待行区,而传统的待行区判定需要依赖于人工进行识别,其效率极低。目前随着人工智能辅助判定技术的发展,逐渐开始引入神经网络等人工智能算法从交通非现场执法影像中识别待行区,进而判定车辆是否在待行区中存在闯红灯等违法行为。大部分交通事故都是由闯红灯违法行为引发,针对该违法行为的执法摄像头极多,该违法行为判定是实现人工智能辅助判定的重要环节之一。具体而言,人工智能判定违法闯红灯,除了需要判断车辆是否在红灯时停留在停止线之前,还需要判断当前是否允许进入左转待行区或直转待行区,如果允许进入待行区,则不能因为车辆越过停止线而判定车辆为闯红灯行为。同时,也要判断车辆是否处于待行区规定区域内,如果车辆在红灯但允许进入待行区期间,越过待行区继续前进则可以判断车辆做出了闯红灯违法行为。因此需要精准而具体地检测出待行区所在区域。当前待行区检测主要由人工进行标注,标注难度极大,标注量大,且极易被遮挡,亟需待行区检测算法辅助人工标注以减轻工作量,提高效率。然而当前待行区检测技术极为缺乏,仅能通过基于深度学习的目标检测技术对待行区的大致区域做出检测,但是仍然难以检测到具体区域。因此交通非现场执法场景下的待行区检测研究十分有必要。
待行区是一个由两条弯曲的虚线和一条实线构成的一个区域,使用目标检测方法显然无法很好地将待行区检测出来。一方面,待行区特征不够明显,另一方面,即使能将待行区检测出来,但实现违法判定需要的是精确而具体的待行区区域,而目标检测获得的矩形框难以给定这样的一个区域,因此无法采用目标检测的方法对待行区进行检测。
当前一些用于检测曲线的语义分割方法,大多是自动驾驶场景下的,在实际路况中,很多复杂环境难以检测时,如阴影、车道线被遮挡时,模型无法将车道线检测出来,就需要通过车道线跟踪技术,如Kalman滤波等方法,根据历史状态和道路几何关系,补充检测丢失的车道线,并使车道线在空间位置上更稳定。因为自动驾驶场景是视频形式的,帧与帧之间有联系,因此可以采取这种方式,但本交通非现场执法场景没有这种联系,无法使用车道线跟踪技术。因此这些方法也无法在交通非现场执法场景中应用。
因此,交通非现场执法场景下的待行区检测存在以下难点:
(1)来往的车辆会将待行区大部分区域遮挡,难以检测该区域
(2)需要精确地获取待行区具体区域,而不是大致范围
(3)待行区特征不够明显,容易与其他目标,如车道线等混淆
(4)实际交通状况复杂,待行区标识磨损、黑夜都会对检测造成干扰
发明内容
本发明的目的在于解决现有技术中交通非现场执法场景下的待行区检测存在的问题,并提供一种基于语义分割的待行区检测方法。
本发明所采用的具体技术方案如下:
一种基于语义分割的待行区检测方法,用于对交通非现场执法影像中的左转待行区或右转待行区进行检测,其包括:
S1、获取经过标注的训练数据集,其中每一个图像样本中包含一张由执法摄像头俯拍的包含待行区的图像,图像中待行区两侧弯曲虚线形式的待行区车道线均带有标注点;训练数据集中的图像样本分属于不同的路口场景,且所有图像样本按照拍摄时间分为白天拍摄的白天图像子集和晚上拍摄的夜晚图像子集;
S2、针对训练数据集中的每个图像样本,综合车辆数量越少越优先和白天图像优先于夜晚图像两个保留原则,结合图像的灰度值和图像中车辆的数量对同一个路口场景下的所有图像样本进行筛选过滤,针对每个路口场景分别剔除超过阈值数量的图像样本;
S3、以最小化损失函数为目标,利用经过S2筛选过滤后的训练数据集训练待行区检测网络;
所述待行区检测网络由编码器、多重信息传递模块和解码器组成;
所述编码器中采用基于ResNet50主干网络的特征金字塔作为基础特征提取网络,从原始输入图像中提取得到4张不同尺寸的特征图;
所述多重信息传递模块中,需要分别对所述编码器输出的每一个特征图迭代进行多次信息传递操作,每一次信息传递操作均需要通过从上到下、从左到右、从右到左、从下到上4个方向上对特征图进行切片,切片之间的信息相互传递,且在迭代进行信息传递操作过程中控制信息传递的步长递增,保证每个切片都能接收到整个特征图的信息;
所述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从小到大的顺序依次对特征图进行上采样并与更大尺寸的特征图融合,直至4张特征图全部融合在一起后上采样恢复到原始输入图像大小;
所述损失函数为分割损失和分类损失的加权和;
S4、将包含待行区的待检测图像输入经过训练后的待行区检测网络中,得到待检测图像中所有被识别为待行区车道线的像素点,然后对这些像素点基于点间距进行聚类,属于同一条车道线的像素点被聚为一类;然后对每一类像素点分别进行曲线拟合,得到每一条待行区车道线的拟合曲线段,将同一个待行区两侧的车道线对应的拟合曲线段端点进行连接,得到待行区检测结果。
作为优选,所述训练数据集中,每一张图像样本中的待行区车道线均用标注工具进行打点标注,且每条待行区车道线上的标注点均需要还原车道线对应的曲线段。
作为优选,所述S2的具体方法如下:
S21、将训练数据集中的每个图像样本由RGB图像转换为灰度图像,然后计算每个图像样本中所有像素的灰度均值,再分别针对白天图像子集和夜晚图像子集计算每个子集中所有图像样本的灰度均值的平均值,作为对应子集的平均亮度;以两个子集的平均亮度的平均值作为区分白天和黑夜的亮度区分阈值;
S22、利用经过训练的目标检测模型对训练数据集中的每个图像样本进行车辆检测,得到每个图像样本中的车辆数量,然后计算训练数据集中所有图像样本中的平均车辆数量,最后计算每个图像样本的车辆权重为该图像样本中的车辆数量与所述平均车辆数量的比值乘上所述白天图像子集的平均亮度;
S23、根据亮度区分阈值以及车辆权重,计算训练数据集中每个图像样本的质量权重=255+λ*α*gray-β*carWeight,式中gray表示当前计算的图像样本中所有像素的灰度均值,carWeight表示当前计算的图像样本对应的车辆权重,α和β分别是两个权重,λ为与所述亮度区分阈值bound和gray决定的权值,若gray≥bound则λ=λ1,若gray<bound则λ=λ2,λ1+λ2=1且λ1>λ2;
S24、针对训练数据集中每一个路口场景下的所有图像样本,将其按照各自的质量权重进行排序,若一个路口场景下的图像样本数量超过阈值数量,则按照质量权重从大到小的顺序保留满足阈值数量的图像样本,若一个路口场景下的图像样本数量未超过阈值数量,则保留所有图像样本。
作为优选,所述权重α和β分别为1和2,所述权值λ1和λ2分别为0.6和0.4。
5.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述多重信息传递模块中,需对所述编码器输出的每一个特征图X迭代进行N次信息传递操作,且每一次信息传递操作中需分别进行从上到下、从左到右、从右到左、从下到上这4个方向来对特征图进行水平或垂直方向上的切片并在切片之间进行信息的相互传递;其中:
在从下到上方向上对输入特征图X进行水平切片且切片之间进行垂直信息传递,任意第n轮迭代过程中切片之间进行垂直信息传递时的计算公式如下:
Figure BDA0003777791530000041
Figure BDA0003777791530000042
Figure BDA0003777791530000043
在从右到左方向上对输入特征图X进行垂直切片且切片之间进行水平信息传递,任意第n轮迭代过程中切片之间进行水平信息传递时的计算公式如下:
Figure BDA0003777791530000044
Figure BDA0003777791530000045
Figure BDA0003777791530000046
式中:Fp,l,q表示一组卷积核,p、l、q分别代表输入通道数、输出通道数、内核宽度;符号“·”为卷积运算符;f是非线性激活函数ReLU;
Figure BDA0003777791530000051
表示特征图X在第n次迭代时的值,k、i、j分别代表通道、行(H方向)和列(W方向)的索引;
Figure BDA0003777791530000052
表示经过信息传递处理后的
Figure BDA0003777791530000053
n表示当前迭代次数,sn表示第n次迭代中信息传递的步长,
Figure BDA0003777791530000054
L在垂直信息传递和水平信息传递时分别为输入特征图X的宽度W和高度H;
在从上到下方向上对输入特征图X沿水平对称面进行垂直方向的镜像翻转后进行水平切片,且切片之间进行与从下到上方向相同的垂直信息传递;
在从左到右方向方向上对输入特征图X沿垂直对称面进行水平方向的镜像翻转后进行垂直切片,且切片之间进行与从右到左方向方向相同的水平信息传递。
作为优选,所述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从大到小的顺序依次为第一特征图、第二特征图、第三特征图和第四特征图,先使用双线性差值法对第四特征图进行上采样,使其大小与第三特征图一致,同时将通道数减少一半,然后与第三特征图进行特征融合,得到第一融合特征图;再使用双线性差值法对第一融合特征图进行上采样,使其大小与第二特征图一致,同时将通道数减少一半,然后与第二特征图进行特征融合,得到第二融合特征图;再使用双线性差值法对第二融合特征图进行上采样,使其大小与第一特征图一致,同时将通道数减少一半,然后与第一特征图进行特征融合,得到第三融合特征图;对第三融合特征图进行上采样,并恢复到原始输入图像大小,得到待分类图像,对待分类图像中的每个像素进行分类以实现语义分割,从而得到车道线识别结果。
作为优选,所述损失函数的计算式为:
Loss=LossCE+LossBCE (3.5)
Figure BDA0003777791530000055
LossBCE=-αyclog(pc)-(1-α)(1-yc)log(1-pc) (3.7)
其中,LossBCE和LossCE分别为分割损失和分类损失;M表示类别数,c表示类别,ωc表示损失所占权重;yc是一个向量,取值为0或1,分别表示像素类别预测是否正确,1表示正确,0表示错误;pc表示预测像素类别为c的概率;所述分割损失用于区分背景和标注,α表示背景分割损失占比,yc表示pc对应的真值。
作为优选,对所有像素点基于点间距进行聚类的具体方法为:
S41、将所有像素点放入初始化为空的第一集合B中;
S42、从当前的第一集合B中随机取出一个像素点加入初始化为空的第二集合A中;
S43、遍历第一集合B中所有的像素点,判断在第二集合A中是否存在与当前遍历像素点之间的距离小于可聚类最大距离的像素点,若存在则将当前遍历像素点加入第二集合A中;所述可聚类最大距离为图像中一条车道线上相邻像素点之间允许的最大距离值;
S44、不断重复S43,直至不再有新的像素点加入第二集合A中,将第二集合A中的所有像素点作为一个聚类类簇,该聚类类簇中的像素点属于同一条待行区车道线;
S45、不断重复S42~S44,直至第一集合B中所有的像素点都被划分至聚类类簇中,得到每一条待行区车道线所对应的像素点。
作为优选,所述曲线拟合采用三次曲线方程作为拟合方程。
作为优选,所述曲线拟合采用RANSAC算法实现。
本发明相对于现有技术而言,具有以下有益效果:
1.本发明对复杂环境下的待行区检测具有很好的效果。本发明在数据集构建时对同一场景下的图片进行权重计算,筛选出车辆少(车辆少对待行区位置的遮挡较少)、光线环境良好(白天比黑夜环境下更容易识别)的图片参与训练,可以很好的规避恶略环境对模型的影响。
2.本发明对待行区检测的准确性较高。由于待行区易被来往车辆遮挡,本发明利用对同一场景下的多张图片同时进行待行区检测,然后将各图片的检测结果进行聚类和拟合,极大地提高了该场景下待行区检测的准确性。
附图说明
图1为弯曲虚线标注结果;
图2为图1中的标注放大图;
图3为一组图像按质量权重排序后的效果;
图4为待行区检测网络架构图;
图5为编码器网络结构图;
图6为单次信息传递操作的示意图;
图7为两个方向信息传递操作的处理结构;
图8为多重信息传递模块中N个MP操作示意图;
图9为解码器上采样过程示意图;
图10为模型测试结果示例;
图11为聚类结果示例;
图12为RANSAC拟合结果图;
图13为检测得到的待行区区域图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
在本发明的一个较佳实施例中,提供了一种基于语义分割的待行区检测方法,用于对交通非现场执法影像中的左转待行区或右转待行区进行检测。本发明的主要构思是通过对图像进行像素级预测,得到代表待行区两侧曲线形式车道线的像素点,然后通过聚类及拟合算法得到曲线模型,最后连接曲线两端获得待行区区域。该基于语义分割的待行区检测方法具体包括S1~S4步骤,下面详述如下:
S1、获取经过标注的训练数据集,其中每一个图像样本中包含一张由执法摄像头俯拍的包含待行区的图像,图像中待行区两侧弯曲虚线形式的待行区车道线均带有标注点;训练数据集中的图像样本分属于不同的路口场景,且所有图像样本按照拍摄时间分为白天拍摄的白天图像子集和晚上拍摄的夜晚图像子集。
在本发明中,上述训练数据集中,每一张图像样本中的待行区车道线均用标注工具进行打点标注,且每条待行区车道线上的标注点均需要还原车道线对应的曲线段。
S2、针对训练数据集中的每个图像样本,综合车辆数量越少越优先和白天图像优先于夜晚图像两个保留原则,结合图像的灰度值和图像中车辆的数量对同一个路口场景下的所有图像样本进行筛选过滤,针对每个路口场景分别剔除超过阈值数量的图像样本。
在本发明中,上述S2的具体方法如下:
S21、将训练数据集中的每个图像样本由RGB图像转换为灰度图像,然后计算每个图像样本中所有像素的灰度均值,再分别针对白天图像子集和夜晚图像子集计算每个子集中所有图像样本的灰度均值的平均值,作为对应子集的平均亮度;以两个子集的平均亮度的平均值作为区分白天和黑夜的亮度区分阈值。
S22、利用经过训练的目标检测模型对训练数据集中的每个图像样本进行车辆检测,得到每个图像样本中的车辆数量,然后计算训练数据集中所有图像样本中的平均车辆数量,最后计算每个图像样本的车辆权重为该图像样本中的车辆数量与所述平均车辆数量的比值乘上所述白天图像子集的平均亮度。
S23、根据亮度区分阈值以及车辆权重,计算训练数据集中每个图像样本的质量权重=255+λ*α*gray-β*carWeight,式中gray表示当前计算的图像样本中所有像素的灰度均值,carWeight表示当前计算的图像样本对应的车辆权重,α和β分别是两个权重,λ为与所述亮度区分阈值bound和gray决定的权值,若gray≥bound则λ=λ1,若gray<bound则λ=λ2,λ1+λ2=1且λ1>λ2。
在本发明中,上述权重α和β分别优选为1和2,所述权值λ1和λ2分别优选为0.6和0.4。
S24、针对训练数据集中每一个路口场景下的所有图像样本,将其按照各自的质量权重进行排序,若一个路口场景下的图像样本数量超过阈值数量,则按照质量权重从大到小的顺序保留满足阈值数量的图像样本,若一个路口场景下的图像样本数量未超过阈值数量,则保留所有图像样本。
S3、以最小化损失函数为目标,利用经过S2筛选过滤后的训练数据集训练待行区检测网络。
上述待行区检测网络由编码器、多重信息传递模块和解码器组成,三者具体如下:
所述编码器中采用基于ResNet50主干网络的特征金字塔作为基础特征提取网络,从原始输入图像中提取得到4张不同尺寸的特征图;
所述多重信息传递模块中,需要分别对所述编码器输出的每一个特征图迭代进行多次信息传递操作,每一次信息传递操作均需要通过从上到下、从左到右、从右到左、从下到上4个方向上对特征图进行切片,切片之间的信息相互传递,且在迭代进行信息传递操作过程中控制信息传递的步长递增,保证每个切片都能接收到整个特征图的信息;
所述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从小到大的顺序依次对特征图进行上采样并与更大尺寸的特征图融合,直至4张特征图全部融合在一起后上采样恢复到原始输入图像大小;
在本发明中,上述多重信息传递模块中,需对所述编码器输出的每一个特征图X迭代进行N次信息传递操作,且每一次信息传递操作中需分别进行从上到下、从左到右、从右到左、从下到上这4个方向来对特征图进行水平或垂直方向上的切片并在切片之间进行信息的相互传递;其中:
在从下到上方向上对输入特征图X进行水平切片且切片之间进行垂直信息传递,任意第n轮迭代过程中切片之间进行垂直信息传递时的计算公式如下:
Figure BDA0003777791530000091
Figure BDA0003777791530000092
Figure BDA0003777791530000093
在从右到左方向上对输入特征图X进行垂直切片且切片之间进行水平信息传递,任意第n轮迭代过程中切片之间进行水平信息传递时的计算公式如下:
Figure BDA0003777791530000094
Figure BDA0003777791530000095
Figure BDA0003777791530000096
式中:Fp,l,q表示一组卷积核,p、l、q分别代表输入通道数、输出通道数、内核宽度;符号“·”为卷积运算符;f是非线性激活函数ReLU;
Figure BDA0003777791530000097
表示特征图X在第n次迭代时的值,k、i、j分别代表通道、行(H方向)和列(W方向)的索引;
Figure BDA0003777791530000101
表示经过信息传递处理后的
Figure BDA0003777791530000102
n表示当前迭代次数,sn表示第n次迭代中信息传递的步长,
Figure BDA0003777791530000103
L在垂直信息传递和水平信息传递时分别为输入特征图X的宽度W和高度H;
在从上到下方向上对输入特征图X沿水平对称面进行垂直方向的镜像翻转后进行水平切片,且切片之间进行与从下到上方向相同的垂直信息传递;
在从左到右方向方向上对输入特征图X沿垂直对称面进行水平方向的镜像翻转后进行垂直切片,且切片之间进行与从右到左方向方向相同的水平信息传递。
在本发明中,上述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从大到小的顺序依次为第一特征图、第二特征图、第三特征图和第四特征图,先使用双线性差值法对第四特征图进行上采样,使其大小与第三特征图一致,同时将通道数减少一半,然后与第三特征图进行特征融合,得到第一融合特征图;再使用双线性差值法对第一融合特征图进行上采样,使其大小与第二特征图一致,同时将通道数减少一半,然后与第二特征图进行特征融合,得到第二融合特征图;再使用双线性差值法对第二融合特征图进行上采样,使其大小与第一特征图一致,同时将通道数减少一半,然后与第一特征图进行特征融合,得到第三融合特征图;对第三融合特征图进行上采样,并恢复到原始输入图像大小,得到待分类图像,对待分类图像中的每个像素进行分类以实现语义分割,从而得到车道线识别结果。
在训练过程中,所采用的损失函数为分割损失和分类损失的加权和。
在本发明中,上述损失函数的计算式为:
Loss=LossCE+LossBCE (3.5)
Figure BDA0003777791530000104
LossBCE=-αyclog(pc)-(1-α)(1-yc)log(1-pc) (3.7)
其中,LossBCE和LossCE分别为分割损失和分类损失;M表示类别数,c表示类别,ωc表示损失所占权重;yc是一个向量,取值为0或1,分别表示像素类别预测是否正确,1表示正确,0表示错误;pc表示预测像素类别为c的概率;所述分割损失用于区分背景和标注,α表示背景分割损失占比,yc表示pc对应的真值。
S4、将包含待行区的待检测图像输入经过训练后的待行区检测网络中,得到待检测图像中所有被识别为待行区车道线的像素点,然后对这些像素点基于点间距进行聚类,属于同一条车道线的像素点被聚为一类;然后对每一类像素点分别进行曲线拟合,得到每一条待行区车道线的拟合曲线段,将同一个待行区两侧的车道线对应的拟合曲线段端点进行连接,得到待行区检测结果。
在本发明中,对所有像素点基于点间距进行聚类的具体方法为:
S41、将所有像素点放入初始化为空的第一集合B中;
S42、从当前的第一集合B中随机取出一个像素点加入初始化为空的第二集合A中;
S43、遍历第一集合B中所有的像素点,判断在第二集合A中是否存在与当前遍历像素点之间的距离小于可聚类最大距离的像素点,若存在则将当前遍历像素点加入第二集合A中;所述可聚类最大距离为图像中一条车道线上相邻像素点之间允许的最大距离值;
S44、不断重复S43,直至不再有新的像素点加入第二集合A中,将第二集合A中的所有像素点作为一个聚类类簇,该聚类类簇中的像素点属于同一条待行区车道线;
S45、不断重复S42~S44,直至第一集合B中所有的像素点都被划分至聚类类簇中,得到每一条待行区车道线所对应的像素点。
在本发明中,曲线拟合优选采用三次曲线方程作为拟合方程,曲线拟合方法优选采用RANSAC算法实现。
下面将上述S1~S4所示的基于语义分割的待行区检测方法,应用于具体的实例中,以展示其具体实现过程和所能取得的技术效果。
实施例
本实施例中,上述S1~S4所示的基于语义分割的待行区检测方法具体通过如下过程实现:
步骤1.制作数据集
本实施例使用的数据集为交通非现场执法场景下的真实数据,图像数据来自678个执法摄像头的违法抓拍,共包含3498张图像数据,包含黑夜、阴影及不均匀光照、路面雨水、污渍和反光、车辆遮挡等多种复杂环境。本数据集中所有数据均为包含待行区的图像数据。
由于需要采用对弯曲虚线检测的方式来对待行区进行检测,因此需要对待行区两边的虚线进行标注。标注工具使用的是Labelme,采用公共数据集TuSimple的标注方式来对本章自制数据集进行标注。
考虑到待行区区域位置不固定,有些执法摄像头下的待行区是偏下位置,有些则是偏上位置,因此不同于TuSimple数据集仅对图像下方的70%区域做标注,本发明数据集需要对整张图像区域做标注。使用LineStrip来对虚线进行标注,弯度较大的地方需要多打几个点,尽可能还原弯道。其中一张示例性图像样本的标注结果如图1和图2所示。
将上述标注结果通过代码转换为现有的TuSimple标注文件格式。其结果如图5所示。
步骤2.数据预处理
本实施例针对的场景是交通非现场场景,其中每张图像样本都是由一个路口上方的执法摄像头对路口进行俯拍得到的。因此在同一个执法摄像头下,图像数据的背景往往是相同的,只有人和车的位置不一致。而每一辆违法车辆都对应三张图片,也就是说,同一设备下,我们会获得大量处于同一背景的交通图像数据,只有人和车的位置不同。在这种背景下,同时考虑到车辆遮挡、黑夜、阴影及不均匀光照、路面雨水、污渍和反光、车辆遮挡等多种复杂环境易对待行区的检测造成很大程度上的影响,因此在数据集制作时需尽量选择车辆遮挡少、天气情况良好的相对理想环境下的图片数据,因此需要对数据集进行权重判断并做出筛选,提高待行区车道线的检测率。
为能更好地评判图像质量,本实施例结合图像的灰度值和图像中车辆的数量,采用了一个质量权重公式,通过质量权重公式来计算同一设备下所有交通图像的质量值,质量值越高,则图像质量越高,然后通过图像质量对图像进行排序,在图像数量足够多的前提下,优先使用高质量值图像进行车道线检测。通过该质量权重来筛选图片质量,可以提高待行区车道线的检测率。
步骤2.1计算白天、黑夜数据阈值
首先,将数据集中所有图像数据分为两批数据,一批为白天图像数据(称为白天图像子集),一批为夜晚图像数据(称为夜晚图像子集),分别计算这两批图像数据的平均亮度,然后通过计算白天图像数据和夜晚图像数据的算数平均值得到一个能够区分白天与黑夜的亮度区分阈值,计算公式如下:
Gray=R*0.299+G*0.587+B*0.114 (2.1)
Figure BDA0003777791530000131
Figure BDA0003777791530000132
Figure BDA0003777791530000133
其中,式(2.1)中的R、G、B表示图像三通道,单个像素通过这三个通道的值计算灰度值,Gray表示单个像素的灰度值。式(2.2)则是用于计算一张图像中所有像素的灰度均值,h和w分别为图像的高和宽。式(2.3)表示计算一批图像数据的平均亮度(即所有图像的灰度均值的平均),D表示一个子集数据(可以是一批白天数据或一批夜晚数据),n表示子集中图像样本的数量。式(2.4)中,brightday表示白天图像子集的平均亮度,brightnight表示夜晚图像子集的亮度,两者均可通过式(2.3)计算,bound表示区分白天和黑夜的亮度区分阈值。
步骤2.2根据车辆数量计算车辆权重阈值
使用yolov3预训练模型在本发明场景上进行迁移学习,得到在本发明场景适用的目标检测模型。并使用该模型对图像数据进行检测,得到图像数据中的车辆数量和车辆坐标,并将坐标保存到JSON文件中。JSON文件格式中,每个列表中的前两个值表示车辆左上坐标,后两个数值表示车辆右下坐标。
根据图像车辆数量来计算车辆权重,计算公式如下:
Figure BDA0003777791530000134
Figure BDA0003777791530000135
其中,式(2.5)计算的是所有图像数据中平均车辆数量avg,n表示数据集中图像数量,S表示数据集。式(2.6)计算该图像的车辆权重。carWeight表示当前图像车辆权重,carNum表示当前图像中车辆数量,brightday则表示白天图像子集的平均亮度,此处使用白天图像灰度均值brightday是为了提高车辆权重对图像质量的影响。
步骤2.3.最后,根据亮度区分阈值以及车辆权重计算训练数据集中每张图像样本的质量权重,计算公式如下式(2.7)所示:
weight=255+λ·α·gray-β·carWeight (2.7)
Figure BDA0003777791530000141
其中,α和β分别是亮度所占权重和车辆数量所占权重,本实施例将这两个值分别设为1和2,这是因为车辆数量对车道线的影响远大于白天黑夜的影响,因此提高了车辆权重占比。gray表示前述的图像平均灰度值,carWeight则表示式(2.6)计算得到的图像车辆权重,λ则是根据gray的值有所变化,当gray的值大于等于白天黑夜的边界值时,认为这张图像是白天,则λ的值为0.6;当gray的值小于边界值时,则认为该图像是黑夜,则λ的值为0.4,这种做法主要是为了提高白天图像所占权重,但由于白天黑夜的影响并没有太大,因此仅将白天权重提高到0.6,黑夜权重设为0.4。
本实施例通过上述质量权重来给同一路口场景即同一个执法摄像头下拍摄的图像数据进行排序,之所以是排序而不是直接通过设置质量权重阈值剔除质量差的图像,是因为有些时候只有黑夜的图像或只有车辆很多的图像,在这种情况下,一旦采用这种质量权重阈值剔除的做法,会将所有图像都剔除,就无法进行车道线检测了。因此本发明采用排序的方式,通过选择质量权重较高的图像,来获得高质量的图像,以提高车道线检测效果。
本实施例中,计算出该场景所有图像的质量权重后,根据质量权重大小对图像样本进行排序,然后按从小到大的权重顺序取前6张图像样本保留,其余图像样本则从数据集中删除。这个保留的图像样本的数量阈值取6,是通过多次实验得到的,可以保证车道线识别率最高,错误率最低。若图像数据不足6张,则无需进行质量公式排序,全部图像都进行保留。
图3展示一组图片来查看本步骤图像质量排序效果,(a)图像白天车少,(b)图像夜晚车少,(c)图像白天车多,(d)图像黑夜车多。由于同一设备下难以找到同时满足上述4个条件的图像,因此这4张图像来自4个不同的设备,根据权重公式对图像进行质量权重,可以看出本发明质量权重公式偏重于车辆更少的图像。
步骤3.基于语义分割的待行区检测算法SS-Net网络模型构建
网络架构如图4所示,模型采用经典的编码器-解码器结构,通过编码器对图像进行特征提取,并对特征图进行处理,得到语义丰富的特征图,再通过解码器将图像恢复到原始图像大小,并对每个像素进行分类,以实现语义分割效果。
步骤3.1构建编码器。
编码器结构如图5所示,采用基于ResNet50主干网络的特征金字塔作为基础特征提取网络。
基础特征提取网络可以从原始图像中初步提取特征,将原始图像缩放至ResNet50所需输入大小,即3×224×224,依据ResNet50及FPN特性,将输出4张尺寸大小不同(从小到大:2048×7×7、1024×14×14、512×28×28、256×56×56)的特征图,为了更好地捕获行列像素之间的空间关系,本实施例采用一个信息传递(Message Passing,MP)模块用来传递空间信息,使每个像素都可以获取到全局信息。
步骤3.2构建信息传递(MP)模块。
MP模块分4个方向,分别是从上到下,从左到右,从右到左,从下到上。通过这4个方向来对特征图进行水平和垂直方向上的切片,切片之间的信息相互传递,就可以提取到细微的曲线信息,从而提取到曲线高语义特征。
对一张特征图分别进行这四个方向(分别记为U、D、L、R)的信息传递,构成一个MP模块。MP模块结构图如图6所示。但这仅仅传递了相邻切片的信息,还需要对远距离的切片信息进行传递。因此给信息传递添加步长,相邻切片的信息传递步长为1,为保证最边缘的切片也可以接受到其他切片的信息,采用循环移位的方式,当从上到下传递信息时,最后一个切片的信息会传递给第一个切片,其他方向信息传递同理。隔一个切片的信息传递步长则为2,直至每一个切片都接收到其他切片的信息位置,即将MP模块进行N次信息迭代,每次迭代的步长都不同,从而保证每个切片都能接收到整个特征图的信息。
如图7所示,左图为从下到上方向进行信息传递的处理结构,右图为从右到左方向进行信息传递的处理结构。切片信息传递时的计算公式如下:
Figure BDA0003777791530000151
Figure BDA0003777791530000152
Figure BDA0003777791530000153
Figure BDA0003777791530000154
其中,式(3.1)为垂直信息传递公式,Fp,l,q表示一组卷积核,“·”为卷积运符;p,l,q分别代表输入通道数,输出通道数,内核宽度,在此处p与l均为1,。式(3.2)为水平信息传递公式,具体信息同式(3.1)。式(3.3)中,f是非线性激活函数ReLU,
Figure BDA0003777791530000161
表示特征图X在第n次迭代时的值,k,i,j分别代表通道,行(H方向)和列(W方向)的索引,
Figure BDA0003777791530000162
表示处理后的
Figure BDA0003777791530000163
式(3.4)中,n表示迭代次数,sn表示第n次迭代中信息传输的步长,
Figure BDA0003777791530000164
L在式(3.1)和式(3.2)中分别为输入特征图X的宽度W和高度H。
需要注意的是,从上到下和从下到上这两个方向上,都是对输入特征图X沿水平对称面进行垂直方向的镜像翻转后进行水平切片,且切片之间进行垂直信息传递,但是从下到上方向进行信息传递时直接对输入特征图X进行处理,而从上到下方向进行信息传递时则需要对输入特征图X沿水平对称面进行垂直方向的镜像翻转后进行水平切片,切片后的垂直信息传递则均按照式(3.1)。同理,从左到右和从右到左这两个方向上,都是对输入特征图X沿垂直对称面进行水平方向的镜像翻转后进行垂直切片,且切片之间进行水平信息传递,但是从右到左进行信息传递时直接对输入特征图X进行处理,而从左到右方向进行信息传递时则需要对输入特征图X沿垂直对称面进行水平方向的镜像翻转后进行垂直切片,切片后的水平信息传递则均按照式(3.2)
通过N次MP操作,每一个切片都已经获取到整个特征图上的信息,语义信息更加完善,然后用于后续解码器对特征图进行上采样,N次MP操作如图8所示。
步骤3.3上采样处理。
将编码器输出的4张特征图,都通过多次迭代MP操作丰富了空间语义信息,对这4张特征图从大到小命名为F1,F2,F3,F4。使用双线性差值法对特征图F4进行上采样,将特征图的大小变为当前的两倍,同时将通道数减少为一半,然后与特征图F3进行特征融合(通过Concat操作实现,下同),不断重复上述操作,直至4张特征图都融合到一起,且图像恢复到原始输入图像大小。解码器上采样过程见图9所示。解码器上采样后得到的原始输入图像大小的图像,可进一步对每个像素进行分类(例如可通过阈值0.5进行二值化),判定其属于背景还是车道线,以实现语义分割效果。
步骤3.4损失函数。
训练上述网络采用的损失函数公式如下:
Loss=LossCE+LossBCE (3.5)
Figure BDA0003777791530000165
LossBCE=-αyclog(pc)-(1-α)(1-yc)log(1-pc) (3.7)
其中,式(3.5)表示损失函数由两部分组成,分别是分割损失BCE和分类损失CE。式(3.6)表示分类损失,M表示类别数,c表示类别,ωc表示损失所占权重。在本实施例的场景中,背景和车道线两者样本数量差距悬殊,负样本远超正样本,为防止标签不平衡,导致训练效果差,需要降低背景类别损失所占权重。因此,本实施例中设置背景类别损失权重α为0.3,曲线标注损失权重ωc为1,yc是一个向量,取值为0或1,表示像素类别预测是否正确,1表示正确,0表示错误,pc表示预测像素类别为c的概率。式(3.7)表示用于区分背景和标注的分割损失,α表示背景分割损失占比,pc表示预测类别,yc表示对应的真实类别标签。
步骤3.5模型训练与预测
将数据集按照7:2:1划分为训练集、验证集和测试集,并基于训练集对本发明模型进行训练,根据训练集和验证集的损失变化来判断模型训练程度。当训练损失降到最低,验证集的损失开始上升时,说明模型已基本训练完成,继续训练可能会导致过拟合,则停止训练,保存模型。本发明实验中,训练损失降到0.17,验证损失在0.23的时候,模型达到最优状态。模型训练完毕,在测试集上对本发明模型进行测试,测试结果示例见图10。
步骤4.待行区车道线聚类拟合
考虑到待行区极易被车辆遮挡,因此通过检测多张图像来补全被遮挡的待行区部分。首先对同一设备下的所有图像进行上述预处理,然后调用模型对预处理后的多张图像进行曲线检测,将检测后的所有结果合并到同一集合中。对集合中的点进行聚类和拟合处理,得到曲线模型,最后获取精确而具体的待行区区域。
步骤4.1曲线点聚类
由于本发明场景下的曲线是待行区两边虚线,因此在远处不会相交,即使最近的两条曲线仍然保持一定的距离。使用基于点间距计算的聚类算法PDcluster来对模型检测结果进行聚类,可以将属于同一曲线的点聚为一类,不同曲线的点不会被聚为一类,使用该聚类方法可以很好地将不同曲线区分开来。
基于点间距进行聚类的PDcluster算法具体如下:
1)将所有像素点放入初始化为空的第一集合A中;
2)从当前的第一集合A中随机取出一个像素点加入初始化为空的第二集合B中;
3)遍历第一集合A中所有的像素点,判断在第二集合B中是否存在与当前遍历像素点之间的距离小于可聚类最大距离的像素点,若存在则将当前遍历像素点加入第二集合B中;所述可聚类最大距离为图像中一条车道线上相邻像素点之间允许的最大距离值;
4)不断重复3),直至不再有新的像素点加入第二集合B中,将第二集合B中的所有像素点作为一个聚类类簇,该聚类类簇中的像素点属于同一条待行区车道线;
5)不断重复2)~4),直至第一集合A中所有的像素点都被划分至聚类类簇中,得到每一条待行区车道线所对应的像素点。
本实施例中一个示例中的聚类结果如图11所示,聚类得到三条曲线对应的像素点,分别用不同标号1、2、3区分。
步骤4.2曲线拟合
得到聚类结果后,需要对每一类进行拟合,才能得到最终的曲线结果。由于语义分割存在一定的检测错误,可能会存在异常点,采用基于最小二乘法的多项式拟合可能会有偏差,少量异常点会影响拟合的曲线,导致拟合结果与真实曲线不贴合,降低算法效果。而RANSAC算法相比最小二乘法更具鲁棒性,RANSAC算法可以过滤掉样本中的异常点,不会受到异常点或离群点的影响,可以保证拟合结果与真实曲线极为贴合,因此本发明采用RANSAC算法来对聚类点进行拟合。
本发明使用三次曲线方程来拟合曲线,曲线方程公式如下:
y=w0+w1x+w2x2+w3x3 (3.8)
其中,wi表示第i个系数,x和y分别代表横坐标和纵坐标。RANSAC算法根据所述公式(3.8)进行拟合,拟合结果如图12所示。
(3)获取待行区区域
聚类拟合后,可以得到多个曲线方程,每一个曲线方程都代表一条曲线,根据聚类中的点可以截取一段与待行区虚线相贴合的曲线。为了判断各曲线的空间位置关系,在一个纵坐标处划一条横向,可对多条曲线取交点,每条曲线都可以得到一个交点,根据这几个交点的横坐标,可以将曲线从左到右排序。
由于待行区上下两边都是直线,因此不需要将多个区域分开连接,直接将最左边和最右边两条曲线的端点相连接,就可以得到精确而具体的待行区区域。待行区区域连接结果图如图13所示。
待行区区域主要由三条曲线构成,但由于曲线的修改难以对应到函数方程中,因此本发明将曲线以每10个像素分割,然后将曲线分割后的坐标保存到JSON文件中。可视化时,以B样条的形式对曲线进行修改,人工对曲线上的一些偏离的坐标进行修改,然后保存下修改后的各点坐标。
本发明对复杂环境下的待行区检测具有很好的效果,且对待行区检测的准确性较高。如表1、表2、表3所示,本实施例中在两个广泛应用与车道线评估的数据集TuSimple、CULane及mIoU评估指标中的检测准确率分别可以达到96.78%、96.89%及95.47%。
表1 TuSimple评估指标下的曲线检测模型性能比较表
Figure BDA0003777791530000191
表2 CULane评估指标下的曲线检测模型性能比较表
Figure BDA0003777791530000192
表3 mIoU评估指标下的曲线检测模型性能比较表
Figure BDA0003777791530000201
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于语义分割的待行区检测方法,用于对交通非现场执法影像中的左转待行区或右转待行区进行检测,其特征在于,包括:
S1、获取经过标注的训练数据集,其中每一个图像样本中包含一张由执法摄像头俯拍的包含待行区的图像,图像中待行区两侧弯曲虚线形式的待行区车道线均带有标注点;训练数据集中的图像样本分属于不同的路口场景,且所有图像样本按照拍摄时间分为白天拍摄的白天图像子集和晚上拍摄的夜晚图像子集;
S2、针对训练数据集中的每个图像样本,综合车辆数量越少越优先和白天图像优先于夜晚图像两个保留原则,结合图像的灰度值和图像中车辆的数量对同一个路口场景下的所有图像样本进行筛选过滤,针对每个路口场景分别剔除超过阈值数量的图像样本;
S3、以最小化损失函数为目标,利用经过S2筛选过滤后的训练数据集训练待行区检测网络;
所述待行区检测网络由编码器、多重信息传递模块和解码器组成;
所述编码器中采用基于ResNet50主干网络的特征金字塔作为基础特征提取网络,从原始输入图像中提取得到4张不同尺寸的特征图;
所述多重信息传递模块中,需要分别对所述编码器输出的每一个特征图迭代进行多次信息传递操作,每一次信息传递操作均需要通过从上到下、从左到右、从右到左、从下到上4个方向上对特征图进行切片,切片之间的信息相互传递,且在迭代进行信息传递操作过程中控制信息传递的步长递增,保证每个切片都能接收到整个特征图的信息;
所述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从小到大的顺序依次对特征图进行上采样并与更大尺寸的特征图融合,直至4张特征图全部融合在一起后上采样恢复到原始输入图像大小;
所述损失函数为分割损失和分类损失的加权和;
S4、将包含待行区的待检测图像输入经过训练后的待行区检测网络中,得到待检测图像中所有被识别为待行区车道线的像素点,然后对这些像素点基于点间距进行聚类,属于同一条车道线的像素点被聚为一类;然后对每一类像素点分别进行曲线拟合,得到每一条待行区车道线的拟合曲线段,将同一个待行区两侧的车道线对应的拟合曲线段端点进行连接,得到待行区检测结果。
2.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述训练数据集中,每一张图像样本中的待行区车道线均用标注工具进行打点标注,且每条待行区车道线上的标注点均需要还原车道线对应的曲线段。
3.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述S2的具体方法如下:
S21、将训练数据集中的每个图像样本由RGB图像转换为灰度图像,然后计算每个图像样本中所有像素的灰度均值,再分别针对白天图像子集和夜晚图像子集计算每个子集中所有图像样本的灰度均值的平均值,作为对应子集的平均亮度;以两个子集的平均亮度的平均值作为区分白天和黑夜的亮度区分阈值;
S22、利用经过训练的目标检测模型对训练数据集中的每个图像样本进行车辆检测,得到每个图像样本中的车辆数量,然后计算训练数据集中所有图像样本中的平均车辆数量,最后计算每个图像样本的车辆权重为该图像样本中的车辆数量与所述平均车辆数量的比值乘上所述白天图像子集的平均亮度;
S23、根据亮度区分阈值以及车辆权重,计算训练数据集中每个图像样本的质量权重=255+λ*α*gray-β*carWeight,式中gray表示当前计算的图像样本中所有像素的灰度均值,carWeight表示当前计算的图像样本对应的车辆权重,α和β分别是两个权重,λ为与所述亮度区分阈值bound和gray决定的权值,若gray≥bound则λ=λ1,若gray<bound则λ=λ2,λ1+λ2=1且λ1>λ2;
S24、针对训练数据集中每一个路口场景下的所有图像样本,将其按照各自的质量权重进行排序,若一个路口场景下的图像样本数量超过阈值数量,则按照质量权重从大到小的顺序保留满足阈值数量的图像样本,若一个路口场景下的图像样本数量未超过阈值数量,则保留所有图像样本。
4.如权利要求3所述的基于语义分割的待行区检测方法,其特征在于,所述权重α和β分别为1和2,所述权值λ1和λ2分别为0.6和0.4。
5.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述多重信息传递模块中,需对所述编码器输出的每一个特征图X迭代进行N次信息传递操作,且每一次信息传递操作中需分别进行从上到下、从左到右、从右到左、从下到上这4个方向来对特征图进行水平或垂直方向上的切片并在切片之间进行信息的相互传递;其中:
在从下到上方向上对输入特征图X进行水平切片且切片之间进行垂直信息传递,任意第n轮迭代过程中切片之间进行垂直信息传递时的计算公式如下:
Figure FDA0003777791520000031
Figure FDA0003777791520000032
Figure FDA0003777791520000033
在从右到左方向上对输入特征图X进行垂直切片且切片之间进行水平信息传递,任意第n轮迭代过程中切片之间进行水平信息传递时的计算公式如下:
Figure FDA0003777791520000034
Figure FDA0003777791520000035
Figure FDA0003777791520000036
式中:Fp,l,q表示一组卷积核,p、l、q分别代表输入通道数、输出通道数、内核宽度;符号“·”为卷积运算符;f是非线性激活函数ReLU;
Figure FDA0003777791520000037
表示特征图X在第n次迭代时的值,k、i、j分别代表通道、行(H方向)和列(W方向)的索引;
Figure FDA0003777791520000038
表示经过信息传递处理后的
Figure FDA0003777791520000039
n表示当前迭代次数,sn表示第n次迭代中信息传递的步长,
Figure FDA00037777915200000310
L在垂直信息传递和水平信息传递时分别为输入特征图X的宽度W和高度H;
在从上到下方向上对输入特征图X沿水平对称面进行垂直方向的镜像翻转后进行水平切片,且切片之间进行与从下到上方向相同的垂直信息传递;
在从左到右方向方向上对输入特征图X沿垂直对称面进行水平方向的镜像翻转后进行垂直切片,且切片之间进行与从右到左方向方向相同的水平信息传递。
6.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述解码器接收所述多重信息传递模块输出的4张不同尺寸的特征图,按照尺寸从大到小的顺序依次为第一特征图、第二特征图、第三特征图和第四特征图,先使用双线性差值法对第四特征图进行上采样,使其大小与第三特征图一致,同时将通道数减少一半,然后与第三特征图进行特征融合,得到第一融合特征图;再使用双线性差值法对第一融合特征图进行上采样,使其大小与第二特征图一致,同时将通道数减少一半,然后与第二特征图进行特征融合,得到第二融合特征图;再使用双线性差值法对第二融合特征图进行上采样,使其大小与第一特征图一致,同时将通道数减少一半,然后与第一特征图进行特征融合,得到第三融合特征图;对第三融合特征图进行上采样,并恢复到原始输入图像大小,得到待分类图像,对待分类图像中的每个像素进行分类以实现语义分割,从而得到车道线识别结果。
7.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述损失函数的计算式为:
Loss=LossCE+LossBCE (3.5)
Figure FDA0003777791520000041
LossBCE=-αyclog(pc)-(1-α)(1-yc)log(1-pc) (3.7)
其中,LossBCE和LossCE分别为分割损失和分类损失;M表示类别数,c表示类别,ωc表示损失所占权重;yc是一个向量,取值为0或1,分别表示像素类别预测是否正确,1表示正确,0表示错误;pc表示预测像素类别为c的概率;所述分割损失用于区分背景和标注,α表示背景分割损失占比,yc表示pc对应的真值。
8.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,对所有像素点基于点间距进行聚类的具体方法为:
S41、将所有像素点放入初始化为空的第一集合中;
S42、从当前的第一集合中随机取出一个像素点加入初始化为空的第二集合中;
S43、遍历第一集合中所有的像素点,判断在第二集合中是否存在与当前遍历像素点之间的距离小于可聚类最大距离的像素点,若存在则将当前遍历像素点加入第二集合中;所述可聚类最大距离为图像中一条车道线上相邻像素点之间允许的最大距离值;
S44、不断重复S43,直至不再有新的像素点加入第二集合中,将第二集合中的所有像素点作为一个聚类类簇,该聚类类簇中的像素点属于同一条待行区车道线;
S45、不断重复S42~S44,直至第一集合中所有的像素点都被划分至聚类类簇中,得到每一条待行区车道线所对应的像素点。
9.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述曲线拟合采用三次曲线方程作为拟合方程。
10.如权利要求1所述的基于语义分割的待行区检测方法,其特征在于,所述曲线拟合采用RANSAC算法实现。
CN202210921648.7A 2022-08-02 2022-08-02 一种基于语义分割的待行区检测方法 Pending CN115223112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210921648.7A CN115223112A (zh) 2022-08-02 2022-08-02 一种基于语义分割的待行区检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210921648.7A CN115223112A (zh) 2022-08-02 2022-08-02 一种基于语义分割的待行区检测方法

Publications (1)

Publication Number Publication Date
CN115223112A true CN115223112A (zh) 2022-10-21

Family

ID=83616136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210921648.7A Pending CN115223112A (zh) 2022-08-02 2022-08-02 一种基于语义分割的待行区检测方法

Country Status (1)

Country Link
CN (1) CN115223112A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564788A (zh) * 2022-11-18 2023-01-03 珠海横琴圣澳云智科技有限公司 基于先验信息的肺气管分割模型训练、分割方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564788A (zh) * 2022-11-18 2023-01-03 珠海横琴圣澳云智科技有限公司 基于先验信息的肺气管分割模型训练、分割方法和装置

Similar Documents

Publication Publication Date Title
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN109583425B (zh) 一种基于深度学习的遥感图像船只集成识别方法
CN112633149B (zh) 一种域自适应雾天图像目标检测方法和装置
CN106599792B (zh) 一种手部驾驶违规行为的检测方法
CN111325203A (zh) 一种基于图像校正的美式车牌识别方法及系统
CN101944174A (zh) 车牌字符的识别方法
CN114155527A (zh) 一种场景文本识别方法和装置
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN115223063B (zh) 基于深度学习的无人机遥感小麦新品种倒伏面积提取方法及系统
CN110991447B (zh) 基于深度学习的列车车号精确定位与识别方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN111414807A (zh) 一种基于yolo技术的潮水识别与危机预警方法
CN113706523A (zh) 基于人工智能技术的皮带跑偏及异常运行状态的监测方法
CN111242046A (zh) 一种基于图像检索的地面交通标志识别方法
CN113950611A (zh) 用于预测道路属性的方法和数据处理系统
CN112613392A (zh) 基于语义分割的车道线检测方法、装置、系统及存储介质
CN115223112A (zh) 一种基于语义分割的待行区检测方法
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法
CN113158954A (zh) 交通非现场的基于ai技术的斑马线区域自动检测方法
CN117542082A (zh) 一种基于YOLOv7的行人检测方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统
CN116863227A (zh) 一种基于改进YOLOv5的危化品车辆检测方法
CN115620259A (zh) 一种基于交通非现场执法场景下的车道线检测方法
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination