CN109977793A

CN109977793A - 基于变尺度多特征融合卷积网络的路侧图像行人分割方法

Info

Publication number: CN109977793A
Application number: CN201910161808.0A
Authority: CN
Inventors: 李旭; 郑智勇; 韦坤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-07-05
Anticipated expiration: 2039-03-04
Also published as: WO2020177217A1; CN109977793B; US11783594B2; US20210303911A1

Abstract

本发明公开了基于变尺度多特征融合卷积网络的路侧图像行人分割方法，该方法针对智能路侧终端图像中行人尺度变化显著的情况，设计了并行的两个卷积神经网络来提取不同尺度行人的局部特征及全局特征，进而将第一个网络提取的局部特征及全局特征与第二个网络提取的局部特征及全局特征进行同级融合，接着对融合后的局部特征与全局特征进行二次融合，得到变尺度多特征融合卷积神经网络，而后对该网络进行训练并输入路侧行人图像实现行人分割。本发明有效地解决了当前大部分基于单一网络结构的行人分割方法容易出现分割边界模糊以及漏分割的问题，进一步提高了行人分割的准确性和鲁棒性。

Description

基于变尺度多特征融合卷积网络的路侧图像行人分割方法

技术领域

本发明属于计算机视觉及智能路侧感知技术领域，涉及智能路测终端图像行人分割方法，尤其涉及一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法。

背景技术

随着汽车保有量的持续快速增长，我国道路交通压力凸显，交通事故尤其是汽车与行人碰撞事故的发生对行人的生命安全造成了严重威胁。为了保护行人安全，在制定严格交通法规的同时，提高车辆的智能化水平实现对行人准确地感知，进而辅助驾驶员安全行驶，可有效防止碰撞事故的发生。然而，当前大部分智能车辆仅利用自车的传感器进行行人感知，其视野有限并且存在视距盲区，对行人易受到障碍物遮挡的情况适应性不足，存在极大的安全隐患。在这种背景下，智能路侧行人感知技术的发展为行人安全保护提供了新的解决思路，借助路侧感知设备作用范围广的优势，将感知到的行人信息以通信的手段广播给附近车辆，提醒驾驶员谨慎驾驶以避让行人。

考虑到成本、可行性等影响因素，目前大部分行人感知方法是基于计算机视觉的，其中，基于视觉的行人分割作为行人感知的重要手段之一得到了广泛研究。大部分传统基于手工设计特征的行人分割方法只考虑了单个行人的情况，利用行人个体与背景的差异来得到分割结果。然而，由于路侧成像设备视野广阔，再加上透视投影的影响，所获得的图像中行人尺度变化显著，即近距离的行人变“大”，而远距离的行人变得尤其“小”，此时传统的行人分割方法由于其有限的特征表达能力而难以获得满意的结果。

近年来，深度学习技术的不断发展为智能路侧终端图像行人分割任务提供了一种新的解决方案，与传统方法相比，深度学习的突出优势是具有强大的特征表达能力。基于深度神经网络的行人分割方法对复杂的交通场景有良好的适应性，能够获得更准确的分割性能。然而，目前利用深度神经网络进行行人分割的方法主要采用单一的网络结构，仅凭网络深度难以准确地提取智能路侧终端图像中大尺度行人的边界局部特征以及小尺度行人的全局特征，容易造成边界模糊甚至漏分割，限制了行人分割精度的进一步提升，无法取得令人满意的效果。

发明内容

为解决上述问题，本发明公开了一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法，有效地解决了当前大部分基于单一网络结构的行人分割方法难以适用于变尺度行人的问题，进一步提高了行人分割的准确性和鲁棒性。

为了达到上述目的，本发明提供如下技术方案：

基于变尺度多特征融合卷积网络的路侧图像行人分割方法，包括以下步骤：

(1)建立行人分割数据集；

(2)构建变尺度多特征融合卷积神经网络架构，首先设计并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征，第一个网络针对小尺度行人设计了精细的特征提取结构，第二个网络针对大尺度行人扩大了网络在浅层处的感受野；进而提出两级融合策略对所提取的特征进行融合，首先对不同尺度的同级特征进行融合，得到适用于变尺度行人的局部和全局特征，然后构建跳跃连接结构将融合后的局部特征与全局特征进行二次融合，获取完备的变尺度行人局部细节信息和全局信息，最终得到变尺度多特征融合卷积神经网络，包括以下子步骤：

子步骤1：设计第一个针对小尺度行人的卷积神经网络，具体包括：

①设计池化层，池化层数量为2，均采用最大池化操作，采样尺寸均为2×2，步长均为2；

②设计标准卷积层，标准卷积层数量为18，其中8层卷积核大小均为3×3，卷积核数量分别为64、64、128、128、256、256、256、2，步长均为1，剩下10层卷积核大小均为1×1，卷积核数量分别为32、32、64、64、128、128、128、128、128、128，步长均为1；

③设计反卷积层，反卷积层数量为2，卷积核大小均为3×3，步长均为2，卷积核数量分别为2、2；

④确定网络架构，根据步骤(2)的子步骤1中①～③涉及的网络层参数建立不同的网络模型，然后利用步骤(1)所建立的数据集对这些模型进行验证，从中筛选出兼顾准确性和实时性的网络结构，得到最优网络架构如下：

标准卷积层1_1:用64个3×3的卷积核与A×A像素的输入样本做卷积，步长为1，再经过ReLU激活，得到维度为A×A×64的特征图；

标准卷积层1_1_1:用32个1×1的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为A×A×32的特征图；

标准卷积层1_1_2:用32个1×1的卷积核与标准卷积层1_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为A×A×32的特征图；

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为A×A×64的特征图；

池化层1：用2×2的核对标准卷积层1_2输出的特征图做最大池化，步长为2，得到维度为的特征图；

标准卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层2_1_1:用64个1×1的卷积核与标准卷积层2_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层2_1_2:用64个1×1的卷积核与标准卷积层2_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层2_2：用128个3×3的卷积核与标准卷积层2_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

池化层2：用2×2的核对标准卷积层2_2输出的特征图做最大池化，步长为2，得到维度为的特征图；

标准卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_1_1:用128个1×1的卷积核与标准卷积层3_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_1_2:用128个1×1的卷积核与标准卷积层3_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_2：用256个3×3的卷积核与标准卷积层3_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_2_1:用128个1×1的卷积核与标准卷积层3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_2_2:用128个1×1的卷积核与标准卷积层3_2_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_3：用256个3×3的卷积核与标准卷积层3_2_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_3_1:用128个1×1的卷积核与标准卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_3_2:用128个1×1的卷积核与标准卷积层3_3_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_4：用2个3×3的卷积核与标准卷积层3_3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

反卷积层4：用2个3×3的卷积核与标准卷积层3_4输出的特征图做反卷积，步长为2，得到维度为的特征图；

反卷积层5：用2个3×3的卷积核与反卷积层4输出的特征图做反卷积，步长为2，得到维度为A×A×2的特征图；

子步骤2：设计第二个针对大尺度行人的卷积神经网络，具体包括：

②设计扩张卷积层，扩张卷积层数量为7，扩张率分别为2、4、8、2、4、2、4，卷积核大小均为3×3，步长均为1，卷积核数量分别为128、128、256、256、256、512、512；

③设计标准卷积层，标准卷积层数量为4，卷积核大小均为3×3，步长均为1，卷积核数量分别为64、64、512、2；

④设计反卷积层，反卷积层数量为2，卷积核大小均为3×3，步长均为2，卷积核数量分别为2、2；

⑤确定网络架构，根据步骤(2)的子步骤2中①～④涉及的网络层参数建立不同的网络模型，然后利用步骤(1)所建立的数据集对这些模型进行验证，从中筛选出兼顾准确性和实时性的网络结构，得到最优网络架构如下：

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为A×A×64的特征图；

扩张卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为的特征图；

扩张卷积层2_2：用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为的特征图；

池化层2：用2×2的核对扩张卷积层2_2输出的特征图做最大池化，步长为2，得到维度为的特征图；

扩张卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，扩张率为8，再经过ReLU激活，得到维度为的特征图；

扩张卷积层3_2：用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为的特征图；

扩张卷积层3_3：用256个3×3的卷积核与扩张卷积层3_2输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_4：用512个3×3的卷积核与扩张卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

扩张卷积层3_5：用512个3×3的卷积核与标准卷积层3_4输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为的特征图；

扩张卷积层3_6：用512个3×3的卷积核与扩张卷积层3_5输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为的特征图；

标准卷积层3_7：用2个3×3的卷积核与扩张卷积层3_6输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为的特征图；

反卷积层4：用2个3×3的卷积核与标准卷积层3_7输出的特征图做反卷积，步长为2，得到维度为的特征图；

子步骤3：提出两级融合策略对两路网络提取的特征进行融合，具体包括：

①确定第一个卷积神经网络的局部特征和全局特征所在位置，局部特征位于从左至右第9个卷积层，全局特征位于从左至右第18个卷积层；

②确定第二个卷积神经网络的局部特征和全局特征所在位置，局部特征位于从左至右第5个卷积层，全局特征位于从左至右第11个卷积层；

③融合两个网络的变尺度同级特征，将第一个网络第9个卷积层提取的局部特征与第二个网络第5个卷积层提取的局部特征融合，再将第一个网络第18个卷积层提取的全局特征与第二个网络第11个卷积层提取的全局特征融合；

融合第二个网络的局部特征与全局特征，使用1×1卷积对第二个网络浅层所包含的变尺度行人局部特征进行降维，使其具有与深层全局特征相同的维度，然后构建跳跃连接结构将局部特征与全局特征融合，得到变尺度多特征融合卷积神经网络架构；

(3)训练设计的变尺度多特征融合卷积神经网络，获得网络参数；

(4)使用变尺度多特征融合卷积神经网络进行行人分割。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明提出了一种适用于智能路侧终端图像的行人分割方法，借助路侧设备感知范围广的优势，实现行人的超视距全局感知，克服了当前大部分智能车辆主要依靠自车传感器进行行人感知从而容易出现视距盲点的不足，有效降低了行人漏检率；

(2)本发明设计了并行的两个针对不同尺度行人的卷积神经网络来提取智能路侧终端图像中的行人特征，进而提出两级融合策略对所提取的特征进行融合，首先通过同级特征融合获得变尺度行人的局部特征和全局特征，进而对融合后的局部特征与全局特征进行二次融合，得到变尺度多特征融合卷积神经网络。该网络不仅大大降低了行人尺度差异化对分割精度的影响，而且兼顾了不同尺度行人的局部细节信息和全局信息，与当前大部分基于单一网络结构的行人分割方法相比，有效地解决了分割边界模糊以及漏分割问题，提高了行人分割的准确性和鲁棒性。

附图说明

图1是本发明的变尺度多特征融合卷积神经网络设计流程图。

图2是本发明设计的变尺度多特征融合卷积神经网络结构示意图。

图3是本发明设计的变尺度多特征融合卷积神经网络训练流程图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明公开了一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法。该方法设计了并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征，进而提出两级融合策略对所提取的特征进行融合，首先对不同尺度的同级特征进行融合，得到适用于变尺度行人的局部和全局特征，然后再将上一步得到的局部特征与全局特征融合，获取完备的变尺度行人局部细节信息和全局信息，最终得到变尺度多特征融合卷积神经网络，有效地解决了当前大部分基于单一网络结构的行人分割方法难以适用于变尺度行人的问题，进一步提高了行人分割的准确性和鲁棒性。

具体的说，本发明提供的基于变尺度多特征融合卷积网络的路侧图像行人分割方法，包括如下步骤：

(1)建立行人分割数据集，对智能路侧终端获取的行人样本进行标注或者使用已有数据样本，然后将样本尺寸调整为227×227像素并记为D_k。

(2)设计变尺度多特征融合卷积神经网络架构，该架构由并行的两个卷积神经网络组成，第一个网络针对小尺度行人设计了精细的特征提取结构，第二个网络针对大尺度行人扩大了网络在浅层处的感受野，然后将第一个网络提取的局部特征以及全局特征与第二网络提取的局部特征以及全局特征进行同级融合，进而构建跳跃连接结构对融合后的局部特征与全局特征进行二次融合，设计流程如图1所示，包括以下子步骤：

①设计池化层，在面向语义分割的卷积神经网络中，池化层一方面能够缩小特征图的尺寸以减小计算量，另一方面能够扩大感受野以捕捉更完整的行人信息，然而频繁地池化操作容易造成行人空间位置信息的损失，阻碍了分割精度的提高。相反，虽然无池化操作保留了尽量多的空间位置信息，但加大了计算负担。因此，在设计时综合考虑这两方面的影响，设池化层数量为n_p1，取值范围为2～3，均采用最大池化操作，采样尺寸均为2×2，步长均为2；

②设计标准卷积层，为了准确地提取图像中小尺度行人的特征，设计了精细的特征提取结构，该结构由级联的卷积核大小均为1×1的两个标准卷积层组成，可用来提取小尺度行人的局部细节特征。此外，为了充分发挥卷积神经网络的局部感知优势，网络中也使用了3×3大小的卷积核。一般而言，网络的特征表达能力随着卷积层数量的增加而增强，但堆叠较多的卷积层加大了计算量，而卷积层数量少则难以提取到表达能力强的行人特征。鉴于此，设卷积核为1×1的标准卷积层数量为n_f，取值范围为2～12，卷积核数量为n_b(b＝1,2,...,n_f)，n_b一般取值为2的整数次幂，步长均为1；设卷积核为3×3的标准卷积层数量为n_s1，取值范围为5～10，卷积核数量为n_a1(a1＝1,2,...,n_s1)，n_a1一般取值为2的整数次幂，步长均为1；

③设计反卷积层，由于在步骤(2)子步骤1的中执行了n_p1次池化操作，使得特征图缩小了1/n_p1倍，为了使特征图恢复到原始图片大小，同时避免引入大量噪声，采用n_p1个参数可学习的反卷积层对特征图中包含的行人特征进行解耦，由于行人分割任务是对每个像素进行二分类，所以反卷积层的卷积核数量均为2，卷积核大小均为3×3，步长均为2。

④确定网络架构，根据步骤(2)子步骤1中各变量的取值范围，建立不同的网络模型，然后利用步骤(1)所建立的数据集对这些模型进行验证，从中筛选出兼顾准确性和实时性的最优网络架构。其中，池化层数量n_p1＝2；卷积核为1×1的标准卷积层数量n_f＝10，对应的卷积核数量n_b分别为32、32、64、64、128、128、128、128、128、128；卷积核为3×3的标准卷积层数量n_s1＝8，对应的卷积核数量n_a1分别为64、64、128、128、256、256、256、2。第一个卷积神经网络具体结构表述如下：

标准卷积层1_1:用64个3×3的卷积核与227×227像素的输入样本做卷积，步长为1，再经过ReLU激活，得到维度为227×227×64的特征图；

标准卷积层1_1_1:用32个1×1的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为227×227×32的特征图；

标准卷积层1_1_2:用32个1×1的卷积核与标准卷积层1_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为227×227×32的特征图；

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为227×227×64的特征图；

池化层1：用2×2的核对标准卷积层1_2输出的特征图做最大池化，步长为2，得到维度为113×113×64的特征图；

标准卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为113×113×128的特征图；

标准卷积层2_1_1:用64个1×1的卷积核与标准卷积层2_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为113×113×64的特征图；

标准卷积层2_1_2:用64个1×1的卷积核与标准卷积层2_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为113×113×64的特征图；

标准卷积层2_2：用128个3×3的卷积核与标准卷积层2_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为113×113×128的特征图；

池化层2：用2×2的核对标准卷积层2_2输出的特征图做最大池化，步长为2，得到维度为56×56×128的特征图；

标准卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×256的特征图；

标准卷积层3_1_1:用128个1×1的卷积核与标准卷积层3_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_1_2:用128个1×1的卷积核与标准卷积层3_1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_2：用256个3×3的卷积核与标准卷积层3_1_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×256的特征图；

标准卷积层3_2_1:用128个1×1的卷积核与标准卷积层3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_2_2:用128个1×1的卷积核与标准卷积层3_2_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_3：用256个3×3的卷积核与标准卷积层3_2_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×256的特征图；

标准卷积层3_3_1:用128个1×1的卷积核与标准卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_3_2:用128个1×1的卷积核与标准卷积层3_3_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×128的特征图；

标准卷积层3_4：用2个3×3的卷积核与标准卷积层3_3_2输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×2的特征图；

反卷积层4：用2个3×3的卷积核与标准卷积层3_4输出的特征图做反卷积，步长为2，得到维度为113×113×2的特征图；

反卷积层5：用2个3×3的卷积核与反卷积层4输出的特征图做反卷积，步长为2，得到维度为227×227×2的特征图。

①设计池化层，由步骤(2)子步骤1的①中所知，频繁地使用池化层造成了行人空间位置信息极大的损失，极易引起分割精度的下降，虽然无池化操作能够保留更多的空间位置信息，但却加大了计算资源消耗。因此，在设计时同时考虑这两方面的影响，设池化层数量为n_p2，取值范围为2～3，均采用最大池化操作，采样尺寸均为2×2，步长均为2；

②设计扩张卷积层，利用扩张卷积在不改变特征图尺寸的前提下能够扩大感受野的优点，分别在网络的浅层以及深层处使用扩张卷积代替标准卷积以完整地捕捉浅层处大尺度行人的边界特征和深层处的全局特征。虽然堆叠扩张卷积层以及使用大扩张率增大了局部感受野，但引入了噪声，而且感受野太大使得网络忽略了行人的局部细节信息，造成分割不连续甚至漏分割。与之相反，感受野过小则使得卷积层难以感知行人的全局信息。基于上述考虑，设扩张卷积层数量为n_d，取值范围为6～10，扩张率为d_r(r＝1,2,...,n_d)，d_r为偶数，取值范围为2～10，卷积核数量为n_e(e＝1,2,...,n_d)，n_e一般取值为2的整数次幂，卷积核大小均为3×3，步长均为1；

③设计标准卷积层，一般而言，网络的特征表达能力随着卷积层数量的增加而增强，但堆叠较多的卷积层加大了计算负担，而卷积层数量少则难以提取到表达能力强的行人特征。考虑到步骤(2)子步骤2的②中已经设计了扩张卷积层，设标准卷积层数量为n_s2，取值范围为2～7，卷积核数量为n_a2(a2＝1,2,...,n_s2)，n_a2一般取值为2的整数次幂，卷积核大小均为3×3，步长均为1；

④设计反卷积层，由于在步骤(2)子步骤2的①中执行了n_p2次池化操作，特征图缩小了1/n_p2倍，为了将其恢复到原始图片大小，同时避免引入大量噪声，采用n_p2个参数可学习的反卷积层对特征图中包含的行人特征进行解耦，反卷积层的卷积核数量均为2，卷积核大小均为3×3，步长均为2。

⑤确定网络架构，根据步骤(2)子步骤2中各变量的取值范围，建立不同的网络模型，然后利用步骤(1)所建立的数据集对这些模型进行验证，从中筛选出兼顾准确性和实时性的最优网络架构。其中，池化层数量n_p2＝2；扩张卷积层数量n_d＝7，扩张率d_r分别为2、4、8、2、4、2、4，对应的卷积核数量n_e分别为128、128、256、256、256、512、512；标准卷积层数量n_s2＝4，对应的卷积核数量n_a2分别为64、64、512、2。第二个卷积神经网络具体结构表述如下：

标准卷积层1_2：用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为227×227×64的特征图；

扩张卷积层2_1：用128个3×3的卷积核与池化层1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为113×113×128的特征图；

扩张卷积层2_2：用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为113×113×128的特征图；

池化层2：用2×2的核对扩张卷积层2_2输出的特征图做最大池化，步长为2，得到维度为56×56×128的特征图；

扩张卷积层3_1：用256个3×3的卷积核与池化层2输出的特征图做卷积，步长为1，扩张率为8，再经过ReLU激活，得到维度为56×56×256的特征图；

扩张卷积层3_2：用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为56×56×256的特征图；

扩张卷积层3_3：用256个3×3的卷积核与扩张卷积层3_2输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为56×56×256的特征图；

标准卷积层3_4：用512个3×3的卷积核与扩张卷积层3_3输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×512的特征图；

扩张卷积层3_5：用512个3×3的卷积核与标准卷积层3_4输出的特征图做卷积，步长为1，扩张率为2，再经过ReLU激活，得到维度为56×56×512的特征图；

扩张卷积层3_6：用512个3×3的卷积核与扩张卷积层3_5输出的特征图做卷积，步长为1，扩张率为4，再经过ReLU激活，得到维度为56×56×512的特征图；

标准卷积层3_7：用2个3×3的卷积核与扩张卷积层3_6输出的特征图做卷积，步长为1，再经过ReLU激活，得到维度为56×56×2的特征图；

反卷积层4：用2个3×3的卷积核与标准卷积层3_7输出的特征图做反卷积，步长为2，得到维度为113×113×2的特征图；

①确定第一个卷积神经网络的局部特征和全局特征所在位置，根据深度学习分层提取特征的特点，即局部特征一般位于网络浅层，全局特征一般位于深层，初步确定局部特征的位置即位于第几个卷积层，记为s_l1，取值范围为6～10，然后通过特征可视化的手段确定s_l1的具体数值。一般将最后一个标准卷积层所提取的特征作为全局特征以获取更加充分的行人全局信息，即全局特征位于从左至右第18个卷积层；

②确定第二个卷积神经网络的局部特征和全局特征所在位置，根据步骤(2)子步骤3的①中所述的方法来确定局部特征和全局特征所在位置，其中局部特征的位置记为s_l2，取值范围为3～6，全局特征位于从左至右第11个卷积层；

③融合两个网络的变尺度同级特征，在s_l1和s_l2的取值范围内，通过特征可视化方法得到s_l1取值为9、s_l2取值为5后，将第一个网络第9个卷积层提取的局部特征与第二个网络第5个卷积层提取的局部特征融合，再将第一个网络第18个卷积层提取的全局特征与第二个网络第11个卷积层提取的全局特征融合；

④融合第二个网络的局部特征与全局特征，为了减小特征融合时额外引入的网络参数数量，使用卷积核大小为1×1卷积对第二个网络的浅层所包含的变尺度行人局部特征进行降维，使其具有和深层全局特征相同的维度，然后构建跳跃连接结构将局部特征与全局特征融合，得到的变尺度多特征融合卷积神经网络架构，结构示意图如图2所示。

(3)训练设计的变尺度多特征融合卷积神经网络，通过随机梯度下降法迭代并优化网络参数。训练过程包括前向传播和反向传播两个阶段，在前向传播阶段，将样本集(x,y)输入网络，其中x为输入图像，y为对应的标签。通过网络逐层运算得到实际输出f(x)，使用带有L2正则化项的交叉熵代价函数来衡量理想输出y与实际输出f(x)之间的误差：

式(1)中，第一项为交叉熵代价函数，第二项为L2正则化项，用以防止过拟合，θ表示卷积神经网络模型要学习的参数，M表示训练样本数量，N表示每幅图像的像素个数，Q表示样本中语义类别的数量，对于道路分割而言，Q＝2，1{y＝q}是指示函数，当y＝q时取值为1，否则取值为0，λ是正则化系数，表示第i个样本中第j个像素的灰度值，表示对应的标签，表示属于第q个类别的概率，定义为：

式(2)中，表示最后一个反卷积层的第q个特征图在处的输出，定义为：

在反向传播阶段，通过随机梯度下降算法从后往前逐层更新网络参数以达到极小化实际输出与理想输出之间误差的目的，参数更新公式如下：

式(4)中，α为学习率，J₀(θ)为交叉熵代价函数，为计算的梯度。

当选定代价函数、正则化方法以及优化算法后，使用深度学习框架训练设计好的卷积神经网络。为了使训练结果更准确，正式训练前先进行预训练，然后再对预训练得到的参数进行微调，训练流程如图3所示，具体包括以下子步骤：

子步骤1：选择与自动驾驶相关的数据集，如ApolloScape、Cityscapes、CamVid，对其进行处理使其只包含行人类别，然后将样本尺寸调整为227×227像素并记为D_c，接着使用D_c对设计好的两个卷积神经网络进行预训练，分别设置预训练超参数，其中最大迭代次数分别为I_c1、I_c2，学习率分别为α_c1、α_c2，权重衰减分别为λ_c1、λ_c2，最终将预训练得到的网络参数保存下来；

子步骤2：使用步骤(1)中所建立的数据集D_k对步骤(3)的子步骤1中预训练得到的两个网络的参数进行微调，设置最大迭代次数分别为I_k1、I_k2，学习率分别为α_k1、α_k2，权重衰减分别为λ_k1、λ_k2，然后根据训练损失曲线和验证损失曲线的变化情况，得到网络参数最优时的两个卷积神经网络模型；

子步骤3：使用步骤(1)中所建立的数据集D_k对步骤(2)的子步骤3中得到的变尺度多特征融合卷积神经网络进行训练，重新设置最大迭代次数为I_k3，学习率分别为α_k3，权重衰减分别为λ_k3，然后根据训练损失曲线和验证损失曲线的变化情况即当训练损失曲线缓慢下降趋于收敛而验证损失曲线处于上升的临界点时，得到参数最优变尺度多特征融合卷积神经网络模型。

(4)使用变尺度多特征融合卷积神经网络进行行人分割，将智能路侧终端获取的行人样本尺寸调整为227×227像素并将其输入到已训练的变尺度多特征融合卷积神经网络中，得到行人分割结果。

Claims

1.基于变尺度多特征融合卷积网络的路侧图像行人分割方法，其特征在于，包括以下步骤：

(1)建立行人分割数据集；

(2)构建变尺度多特征融合卷积神经网络，首先设计并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征，第一个网络针对小尺度行人设计了精细的特征提取结构，第二个网络针对大尺度行人扩大了网络在浅层处的感受野；进而提出两级融合策略对所提取的特征进行融合，首先对不同尺度的同级特征进行融合，得到适用于变尺度行人的局部特征和全局特征，然后构建跳跃连接结构将融合后的局部特征与全局特征进行二次融合，获取完备的变尺度行人局部细节信息和全局信息，最终得到变尺度多特征融合卷积神经网络，包括以下子步骤：

④融合第二个网络的局部特征与全局特征，使用1×1卷积对第二个网络浅层所包含的变尺度行人局部特征进行降维，使其具有与深层全局特征相同的维度，然后构建跳跃连接结构将局部特征与全局特征融合，得到变尺度多特征融合卷积神经网络架构；

(4)使用变尺度多特征融合卷积神经网络进行行人分割。