CN112149496A - 一种基于卷积神经网络的实时道路场景分割方法 - Google Patents
一种基于卷积神经网络的实时道路场景分割方法 Download PDFInfo
- Publication number
- CN112149496A CN112149496A CN202010793917.7A CN202010793917A CN112149496A CN 112149496 A CN112149496 A CN 112149496A CN 202010793917 A CN202010793917 A CN 202010793917A CN 112149496 A CN112149496 A CN 112149496A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- image
- height
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的实时道路场景分割方法,其构建卷积神经网络,包括彩色图像输入层、热力图像输入层、深层次特征提取模块、浅层次特征提取模块、第一上采样层、空间注意力机制模块、空间分辨率恢复模块、输出层;将原始的道路场景彩色图像的R、G和B通道分量及经纬度扩充后形成的三通道热力图像输入到卷积神经网络中进行训练,得到9幅语义分割预测图,通过计算真实语义分割图像处理成的9幅独热编码图像与对应的9幅语义分割预测图之间的损失函数值,得到卷积神经网络训练模型的最优权值矢量和最优偏置项;测试时利用卷积神经网络训练模型对待语义分割的道路场景彩色图像进行预测;优点是分割准确度高,且能达到实时性要求。
Description
技术领域
本发明涉及一种深度学习的道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的实时道路场景分割方法。
背景技术
随着自动驾驶技术、计算机视觉和自然语言处理技术的不断发展,无人驾驶汽车将会广泛地出现在人们的生活当中。无人驾驶汽车在行驶过程中需要实时精确地理解周围的场景并对突发事件快速地做出决策,避免交通事故。因此,高效精确的道路场景语义分割正成为计算机视觉领域研究的热点之一。
语义分割任务是图像理解的一个基础任务,也是计算机视觉领域中有待解决的一个重要任务。在过去的几年里,深度学习技术,尤其是卷积神经网络,在语义分割任务上显示出了巨大的潜力。对于夜间道路场景,不良的光照条件给夜间道路场景理解带来了巨大的挑战,热力图可以很好地进行信息的补充,作为输入信息。通常,语义分割任务使用的全卷积神经网络架构可以分为两类:编码器-解码器结构和膨胀卷积结构。编码器-解码器结构首先使用编码器提取图像特征,然后使用解码器对空间分辨率进行恢复;膨胀卷积结构为了减少编码部分空间信息的丢失,使用扩张卷积来增加全局的感受野,使得模型能够兼顾全局语义信息。
尽管膨胀卷积结构具有保持空间信息的优点,但是如果一直使用较高的空间分辨率不进行下采样,则会使得消耗内存较大,并且会对模型的推理速度有较大影响,无法达到实时性的要求。此外,由于卷积神经网络会随着层数的加深学到更丰富的特征,因此高内存消耗使得卷积神经网络难以有较深层次的结构。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的实时道路场景分割方法,其分割准确度高,且能够达到实时性的要求。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将处理成的9幅独热编码图像构成的集合记为其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示的宽度,H表示 的高度,与为从同一道路场景获取,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为高度为对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为高度为对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为高度为对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为高度为
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为高度为
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为高度为对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为高度为
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为高度为第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为高度为第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为高度为Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为高度为第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为高度为第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将对应的9幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用分类交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景彩色图像,令表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示的高度,表示中坐标位置为(i',j')的像素点的像素值,表示中坐标位置为(i',j')的像素点的像素值,与为从同一道路场景获取;
所述的步骤1_2中,深层次特征提取模块采用两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
所述的步骤1_2中,浅层次特征提取模块采用MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为高度为输入通道数为24,其输出端输出的特征图的宽度为高度为输出通道数为160,其下采样的倍数为1。
所述的步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为高度为第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为高度为
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景彩色图像和热力图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;再将待语义分割的道路场景彩色图像和热力图像输入到卷积神经网络训练模型中,得到对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时结合了浅层次和深层次的特征信息,因此能够比较准确地分割道路场景中各种不同大小的目标,从而有效地提高了道路场景图像的语义分割准确度。
2)本发明方法使用MobileNetV2轻量级网络结构的部分结构用于特征提取,使得训练好的卷积神经网络训练模型能够达到实时性要求。
3)本发明方法将热力图像信息作为彩色图像信息的补充,将热力图像特征与彩色图像特征进行融合,能够准确预测黑夜情况下的物体。
附图说明
图1为本发明方法中构建的卷积神经网络的组成结构示意图;
图2a为第1幅原始的道路场景彩色图像;
图2b为与图2a同一场景的原始的道路场景热力图像;
图2c为利用本发明方法对图2a和图2b进行处理,预测得到的预测语义分割图像;
图3a为第2幅原始的道路场景彩色图像;
图3b为与图3a同一场景的原始的道路场景热力图像;
图3c为利用本发明方法对图3a和图3b进行处理,预测得到的预测语义分割图像;
图4a为第3幅原始的道路场景彩色图像;
图4b为与图4a同一场景的原始的道路场景热力图像;
图4c为利用本发明方法对图4a和图4b进行处理,预测得到的预测语义分割图像;
图5a为第4幅原始的道路场景彩色图像;
图5b为与图5a同一场景的原始的道路场景热力图像;
图5c为利用本发明方法对图5a和图5b进行处理,预测得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的实时道路场景分割方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将处理成的9幅独热编码图像构成的集合记为其中,Q为正整数,Q≥500,在本实施例中取Q=785,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示的宽度,H表示的高度,在本实施例中取W=640、H=480,与为从同一道路场景获取,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
在此,原始的道路场景彩色图像和原始的道路场景热力图像直接从MFNet中报告的道路场景图像数据库中选取。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层使用MobileNetV2网络结构的部分结构,且由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成。
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H。
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H。
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为高度为对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为高度为对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为高度为对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为高度为
对于特征融合层,首先对接收的深层次的特征图进行四倍的上采样,使得与低层次的特征图具有相同的空间分辨率;然后对深层次的特征图与低层次的特征图进行拼接;接着使用空间注意力机制模块,学习空间位置权重并对拼接得到的特征图进行加权得到全局的特征图;再将全局的特征图输入到空间分辨率恢复模块。
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为高度为
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为高度为对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为高度为
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作(即:使空间位置加权图像中的每个像素点的像素值与C中的每幅特征图中对应的像素点的像素值相乘实现加权),共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层(即丢弃层)、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为高度为第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为高度为第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为高度为Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为高度为第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为高度为第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H。
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图。
在本实施例中,步骤1_2中,深层次特征提取模块采用现有的两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
表1给出了MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及与第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块的关系。
表1MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及划分
为了防止过多的下采样造成空间分辨率下降,本发明在第四彩色结构块中不进行下采样;为了提高模型的感受野,将第四彩色结构块中的第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
在本实施例中,步骤1_2中,浅层次特征提取模块采用现有的MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为高度为输入通道数为24,其输出端输出的特征图的宽度为高度为输出通道数为160,其下采样的倍数为1。
表2给出了作为浅层结构块的bottleneck层的参数配置。
表2作为浅层结构块的bottleneck层的参数配置
表1和表2中,t为bottleneck层的内部参数、c为输出通道大小、n为模块重复次数、s为下采样倍数。
在本实施例中,步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为高度为第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为高度为
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将对应的9幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景彩色图像,令表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示的高度,表示中坐标位置为(i',j')的像素点的像素值,表示中坐标位置为(i',j')的像素点的像素值,与为从同一道路场景获取。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库pytorch搭建卷积神经网络的架构。采用MFNet中报告的道路场景图像数据库的测试集来分析利用本发明方法预测得到的道路场景彩色图像(取MFNet中报告的道路场景图像数据库的测试集中的393幅道路场景图像)的语义分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即像素精确度(Pixel Acurracy,PA)、平均类别准确率(Class Acurracy,CA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,mIoU)来评价预测语义分割图像的分割性能。此外,用每秒预测图像的张数(FPS)来评价模型的速度。
利用本发明方法对测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的像素精确度PA、平均类别准确率CA、分割图像与标签图像交集与并集的比值mIoU、每秒预测图像的张数FPS如表3所列。从表3所列的数据可知,按本发明方法得到的道路场景图像的语义分割结果是较好的,并且预测速度较快,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
表3利用本发明方法在测试集上的评测结果
PA | 98.0% |
CA | 62.5% |
mIoU | 54.5% |
FPS | 113 |
图2a给出了第1幅原始的道路场景彩色图像,图2b给出了与图2a同一场景的原始的道路场景热力图像,图2c给出了利用本发明方法对图2a和图2b进行处理,预测得到的预测语义分割图像;图3a给出了第2幅原始的道路场景彩色图像,图3b给出了与图3a同一场景的原始的道路场景热力图像,图3c给出了利用本发明方法对图3a和图3b进行处理,预测得到的预测语义分割图像;图4a给出了第3幅原始的道路场景彩色图像,图4b给出了与图4a同一场景的原始的道路场景热力图像,图4c给出了利用本发明方法对图4a和图4b进行处理,预测得到的预测语义分割图像;图5a给出了第4幅原始的道路场景彩色图像,图5b给出了与图5a同一场景的原始的道路场景热力图像,图5c给出了利用本发明方法对图5a和图5b进行处理,预测得到的预测语义分割图像。从图2c、图3c、图4c和图5c中可以看出,利用本发明方法得到的预测语义分割图像的分割精度较高。
Claims (4)
1.一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将处理成的9幅独热编码图像构成的集合记为其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示的宽度,H表示 的高度,与为从同一道路场景获取,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为高度为对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为高度为对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为高度为对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为高度为
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为高度为
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为高度为对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为高度为
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为高度为第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为高度为第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为高度为Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为高度为第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为高度为第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将对应的9幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用分类交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景彩色图像,令表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示 的宽度,H'表示的高度,表示中坐标位置为(i',j')的像素点的像素值,表示中坐标位置为(i',j')的像素点的像素值,与为从同一道路场景获取;
2.根据权利要求1所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,深层次特征提取模块采用两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
3.根据权利要求1或2所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,浅层次特征提取模块采用MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为高度为输入通道数为24,其输出端输出的特征图的宽度为高度为输出通道数为160,其下采样的倍数为1。
4.根据权利要求3所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为高度为第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为高度为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010793917.7A CN112149496A (zh) | 2020-08-10 | 2020-08-10 | 一种基于卷积神经网络的实时道路场景分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010793917.7A CN112149496A (zh) | 2020-08-10 | 2020-08-10 | 一种基于卷积神经网络的实时道路场景分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149496A true CN112149496A (zh) | 2020-12-29 |
Family
ID=73887826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010793917.7A Withdrawn CN112149496A (zh) | 2020-08-10 | 2020-08-10 | 一种基于卷积神经网络的实时道路场景分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149496A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733934A (zh) * | 2021-01-08 | 2021-04-30 | 浙江科技学院 | 复杂环境下的多模态特征融合道路场景语义分割方法 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113470033A (zh) * | 2021-06-04 | 2021-10-01 | 浙江科技学院 | 一种基于双侧边动态交叉融合的道路场景图像处理方法 |
-
2020
- 2020-08-10 CN CN202010793917.7A patent/CN112149496A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733934A (zh) * | 2021-01-08 | 2021-04-30 | 浙江科技学院 | 复杂环境下的多模态特征融合道路场景语义分割方法 |
CN113269197A (zh) * | 2021-04-25 | 2021-08-17 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113269197B (zh) * | 2021-04-25 | 2024-03-08 | 南京三百云信息科技有限公司 | 基于语义分割的证件图像顶点坐标回归系统和识别方法 |
CN113470033A (zh) * | 2021-06-04 | 2021-10-01 | 浙江科技学院 | 一种基于双侧边动态交叉融合的道路场景图像处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634276A (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN113780211A (zh) | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN110490082A (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN113688836A (zh) | 一种基于深度学习的实时性道路图像语义分割方法及系统 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN112101117A (zh) | 一种高速公路拥堵识别模型构建方法和装置及识别方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN112699889A (zh) | 基于多任务监督的无人驾驶实时道路场景语义分割方法 | |
CN113436210B (zh) | 一种融合上下文逐级采样的道路图像分割方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
US12087046B2 (en) | Method for fine-grained detection of driver distraction based on unsupervised learning | |
CN111079543B (zh) | 一种基于深度学习的高效车辆颜色识别方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN117392381A (zh) | 基于多尺度多特征融合自注意力网络的道路场景语义分割方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201229 |
|
WW01 | Invention patent application withdrawn after publication |