CN109977793B - 基于变尺度多特征融合卷积网络的路侧图像行人分割方法 - Google Patents

基于变尺度多特征融合卷积网络的路侧图像行人分割方法 Download PDF

Info

Publication number
CN109977793B
CN109977793B CN201910161808.0A CN201910161808A CN109977793B CN 109977793 B CN109977793 B CN 109977793B CN 201910161808 A CN201910161808 A CN 201910161808A CN 109977793 B CN109977793 B CN 109977793B
Authority
CN
China
Prior art keywords
convolution
layer
characteristic diagram
standard
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910161808.0A
Other languages
English (en)
Other versions
CN109977793A (zh
Inventor
李旭
郑智勇
韦坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910161808.0A priority Critical patent/CN109977793B/zh
Priority to US17/267,493 priority patent/US11783594B2/en
Priority to PCT/CN2019/087164 priority patent/WO2020177217A1/zh
Publication of CN109977793A publication Critical patent/CN109977793A/zh
Application granted granted Critical
Publication of CN109977793B publication Critical patent/CN109977793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于变尺度多特征融合卷积网络的路侧图像行人分割方法,该方法针对智能路侧终端图像中行人尺度变化显著的情况,设计了并行的两个卷积神经网络来提取不同尺度行人的局部特征及全局特征,进而将第一个网络提取的局部特征及全局特征与第二个网络提取的局部特征及全局特征进行同级融合,接着对融合后的局部特征与全局特征进行二次融合,得到变尺度多特征融合卷积神经网络,而后对该网络进行训练并输入路侧行人图像实现行人分割。本发明有效地解决了当前大部分基于单一网络结构的行人分割方法容易出现分割边界模糊以及漏分割的问题,进一步提高了行人分割的准确性和鲁棒性。

Description

基于变尺度多特征融合卷积网络的路侧图像行人分割方法
技术领域
本发明属于计算机视觉及智能路侧感知技术领域,涉及智能路测终端图像行人分割方法,尤其涉及一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法。
背景技术
随着汽车保有量的持续快速增长,我国道路交通压力凸显,交通事故尤其是汽车与行人碰撞事故的发生对行人的生命安全造成了严重威胁。为了保护行人安全,在制定严格交通法规的同时,提高车辆的智能化水平实现对行人准确地感知,进而辅助驾驶员安全行驶,可有效防止碰撞事故的发生。然而,当前大部分智能车辆仅利用自车的传感器进行行人感知,其视野有限并且存在视距盲区,对行人易受到障碍物遮挡的情况适应性不足,存在极大的安全隐患。在这种背景下,智能路侧行人感知技术的发展为行人安全保护提供了新的解决思路,借助路侧感知设备作用范围广的优势,将感知到的行人信息以通信的手段广播给附近车辆,提醒驾驶员谨慎驾驶以避让行人。
考虑到成本、可行性等影响因素,目前大部分行人感知方法是基于计算机视觉的,其中,基于视觉的行人分割作为行人感知的重要手段之一得到了广泛研究。大部分传统基于手工设计特征的行人分割方法只考虑了单个行人的情况,利用行人个体与背景的差异来得到分割结果。然而,由于路侧成像设备视野广阔,再加上透视投影的影响,所获得的图像中行人尺度变化显著,即近距离的行人变“大”,而远距离的行人变得尤其“小”,此时传统的行人分割方法由于其有限的特征表达能力而难以获得满意的结果。
近年来,深度学习技术的不断发展为智能路侧终端图像行人分割任务提供了一种新的解决方案,与传统方法相比,深度学习的突出优势是具有强大的特征表达能力。基于深度神经网络的行人分割方法对复杂的交通场景有良好的适应性,能够获得更准确的分割性能。然而,目前利用深度神经网络进行行人分割的方法主要采用单一的网络结构,仅凭网络深度难以准确地提取智能路侧终端图像中大尺度行人的边界局部特征以及小尺度行人的全局特征,容易造成边界模糊甚至漏分割,限制了行人分割精度的进一步提升,无法取得令人满意的效果。
发明内容
为解决上述问题,本发明公开了一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法,有效地解决了当前大部分基于单一网络结构的行人分割方法难以适用于变尺度行人的问题,进一步提高了行人分割的准确性和鲁棒性。
为了达到上述目的,本发明提供如下技术方案:
基于变尺度多特征融合卷积网络的路侧图像行人分割方法,包括以下步骤:
(1)建立行人分割数据集;
(2)构建变尺度多特征融合卷积神经网络架构,首先设计并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征,第一个网络针对小尺度行人设计了精细的特征提取结构,第二个网络针对大尺度行人扩大了网络在浅层处的感受野;进而提出两级融合策略对所提取的特征进行融合,首先对不同尺度的同级特征进行融合,得到适用于变尺度行人的局部和全局特征,然后构建跳跃连接结构将融合后的局部特征与全局特征进行二次融合,获取完备的变尺度行人局部细节信息和全局信息,最终得到变尺度多特征融合卷积神经网络,包括以下子步骤:
子步骤1:设计第一个针对小尺度行人的卷积神经网络,具体包括:
①设计池化层,池化层数量为2,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计标准卷积层,标准卷积层数量为18,其中8层卷积核大小均为3×3,卷积核数量分别为64、64、128、128、256、256、256、2,步长均为1,剩下10层卷积核大小均为1×1,卷积核数量分别为32、32、64、64、128、128、128、128、128、128,步长均为1;
③设计反卷积层,反卷积层数量为2,卷积核大小均为3×3,步长均为2,卷积核数量分别为2、2;
④确定网络架构,根据步骤(2)的子步骤1中①~③涉及的网络层参数建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的网络结构,得到最优网络架构如下:
标准卷积层1_1:用64个3×3的卷积核与A×A像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
标准卷积层1_1_1:用32个1×1的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×32的特征图;
标准卷积层1_1_2:用32个1×1的卷积核与标准卷积层1_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×32的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为
Figure BDA0001984905020000031
的特征图;
标准卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000032
的特征图;
标准卷积层2_1_1:用64个1×1的卷积核与标准卷积层2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000033
的特征图;
标准卷积层2_1_2:用64个1×1的卷积核与标准卷积层2_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000034
的特征图;
标准卷积层2_2:用128个3×3的卷积核与标准卷积层2_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000035
的特征图;
池化层2:用2×2的核对标准卷积层2_2输出的特征图做最大池化,步长为2,得到维度为
Figure BDA0001984905020000036
的特征图;
标准卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000037
的特征图;
标准卷积层3_1_1:用128个1×1的卷积核与标准卷积层3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000038
的特征图;
标准卷积层3_1_2:用128个1×1的卷积核与标准卷积层3_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000039
的特征图;
标准卷积层3_2:用256个3×3的卷积核与标准卷积层3_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA00019849050200000310
的特征图;
标准卷积层3_2_1:用128个1×1的卷积核与标准卷积层3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA00019849050200000311
的特征图;
标准卷积层3_2_2:用128个1×1的卷积核与标准卷积层3_2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA00019849050200000312
的特征图;
标准卷积层3_3:用256个3×3的卷积核与标准卷积层3_2_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000041
的特征图;
标准卷积层3_3_1:用128个1×1的卷积核与标准卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000042
的特征图;
标准卷积层3_3_2:用128个1×1的卷积核与标准卷积层3_3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000043
的特征图;
标准卷积层3_4:用2个3×3的卷积核与标准卷积层3_3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000044
的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_4输出的特征图做反卷积,步长为2,得到维度为
Figure BDA0001984905020000045
的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为A×A×2的特征图;
子步骤2:设计第二个针对大尺度行人的卷积神经网络,具体包括:
①设计池化层,池化层数量为2,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计扩张卷积层,扩张卷积层数量为7,扩张率分别为2、4、8、2、4、2、4,卷积核大小均为3×3,步长均为1,卷积核数量分别为128、128、256、256、256、512、512;
③设计标准卷积层,标准卷积层数量为4,卷积核大小均为3×3,步长均为1,卷积核数量分别为64、64、512、2;
④设计反卷积层,反卷积层数量为2,卷积核大小均为3×3,步长均为2,卷积核数量分别为2、2;
⑤确定网络架构,根据步骤(2)的子步骤2中①~④涉及的网络层参数建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的网络结构,得到最优网络架构如下:
标准卷积层1_1:用64个3×3的卷积核与A×A像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为
Figure BDA0001984905020000051
的特征图;
扩张卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure BDA0001984905020000052
的特征图;
扩张卷积层2_2:用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure BDA0001984905020000053
的特征图;
池化层2:用2×2的核对扩张卷积层2_2输出的特征图做最大池化,步长为2,得到维度为
Figure BDA0001984905020000054
的特征图;
扩张卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,扩张率为8,再经过ReLU激活,得到维度为
Figure BDA0001984905020000055
的特征图;
扩张卷积层3_2:用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure BDA0001984905020000056
的特征图;
扩张卷积层3_3:用256个3×3的卷积核与扩张卷积层3_2输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure BDA0001984905020000057
的特征图;
标准卷积层3_4:用512个3×3的卷积核与扩张卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA0001984905020000058
的特征图;
扩张卷积层3_5:用512个3×3的卷积核与标准卷积层3_4输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure BDA0001984905020000059
的特征图;
扩张卷积层3_6:用512个3×3的卷积核与扩张卷积层3_5输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure BDA00019849050200000510
的特征图;
标准卷积层3_7:用2个3×3的卷积核与扩张卷积层3_6输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure BDA00019849050200000511
的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_7输出的特征图做反卷积,步长为2,得到维度为
Figure BDA0001984905020000061
的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为A×A×2的特征图;
子步骤3:提出两级融合策略对两路网络提取的特征进行融合,具体包括:
①确定第一个卷积神经网络的局部特征和全局特征所在位置,局部特征位于从左至右第9个卷积层,全局特征位于从左至右第18个卷积层;
②确定第二个卷积神经网络的局部特征和全局特征所在位置,局部特征位于从左至右第5个卷积层,全局特征位于从左至右第11个卷积层;
③融合两个网络的变尺度同级特征,将第一个网络第9个卷积层提取的局部特征与第二个网络第5个卷积层提取的局部特征融合,再将第一个网络第18个卷积层提取的全局特征与第二个网络第11个卷积层提取的全局特征融合;
融合第二个网络的局部特征与全局特征,使用1×1卷积对第二个网络浅层所包含的变尺度行人局部特征进行降维,使其具有与深层全局特征相同的维度,然后构建跳跃连接结构将局部特征与全局特征融合,得到变尺度多特征融合卷积神经网络架构;
(3)训练设计的变尺度多特征融合卷积神经网络,获得网络参数;
(4)使用变尺度多特征融合卷积神经网络进行行人分割。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明提出了一种适用于智能路侧终端图像的行人分割方法,借助路侧设备感知范围广的优势,实现行人的超视距全局感知,克服了当前大部分智能车辆主要依靠自车传感器进行行人感知从而容易出现视距盲点的不足,有效降低了行人漏检率;
(2)本发明设计了并行的两个针对不同尺度行人的卷积神经网络来提取智能路侧终端图像中的行人特征,进而提出两级融合策略对所提取的特征进行融合,首先通过同级特征融合获得变尺度行人的局部特征和全局特征,进而对融合后的局部特征与全局特征进行二次融合,得到变尺度多特征融合卷积神经网络。该网络不仅大大降低了行人尺度差异化对分割精度的影响,而且兼顾了不同尺度行人的局部细节信息和全局信息,与当前大部分基于单一网络结构的行人分割方法相比,有效地解决了分割边界模糊以及漏分割问题,提高了行人分割的准确性和鲁棒性。
附图说明
图1是本发明的变尺度多特征融合卷积神经网络设计流程图。
图2是本发明设计的变尺度多特征融合卷积神经网络结构示意图。
图3是本发明设计的变尺度多特征融合卷积神经网络训练流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明公开了一种基于变尺度多特征融合卷积网络的路侧图像行人分割方法。该方法设计了并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征,进而提出两级融合策略对所提取的特征进行融合,首先对不同尺度的同级特征进行融合,得到适用于变尺度行人的局部和全局特征,然后再将上一步得到的局部特征与全局特征融合,获取完备的变尺度行人局部细节信息和全局信息,最终得到变尺度多特征融合卷积神经网络,有效地解决了当前大部分基于单一网络结构的行人分割方法难以适用于变尺度行人的问题,进一步提高了行人分割的准确性和鲁棒性。
具体的说,本发明提供的基于变尺度多特征融合卷积网络的路侧图像行人分割方法,包括如下步骤:
(1)建立行人分割数据集,对智能路侧终端获取的行人样本进行标注或者使用已有数据样本,然后将样本尺寸调整为227×227像素并记为Dk
(2)设计变尺度多特征融合卷积神经网络架构,该架构由并行的两个卷积神经网络组成,第一个网络针对小尺度行人设计了精细的特征提取结构,第二个网络针对大尺度行人扩大了网络在浅层处的感受野,然后将第一个网络提取的局部特征以及全局特征与第二网络提取的局部特征以及全局特征进行同级融合,进而构建跳跃连接结构对融合后的局部特征与全局特征进行二次融合,设计流程如图1所示,包括以下子步骤:
子步骤1:设计第一个针对小尺度行人的卷积神经网络,具体包括:
①设计池化层,在面向语义分割的卷积神经网络中,池化层一方面能够缩小特征图的尺寸以减小计算量,另一方面能够扩大感受野以捕捉更完整的行人信息,然而频繁地池化操作容易造成行人空间位置信息的损失,阻碍了分割精度的提高。相反,虽然无池化操作保留了尽量多的空间位置信息,但加大了计算负担。因此,在设计时综合考虑这两方面的影响,设池化层数量为np1,取值范围为2~3,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计标准卷积层,为了准确地提取图像中小尺度行人的特征,设计了精细的特征提取结构,该结构由级联的卷积核大小均为1×1的两个标准卷积层组成,可用来提取小尺度行人的局部细节特征。此外,为了充分发挥卷积神经网络的局部感知优势,网络中也使用了3×3大小的卷积核。一般而言,网络的特征表达能力随着卷积层数量的增加而增强,但堆叠较多的卷积层加大了计算量,而卷积层数量少则难以提取到表达能力强的行人特征。鉴于此,设卷积核为1×1的标准卷积层数量为nf,取值范围为2~12,卷积核数量为nb(b=1,2,...,nf),nb一般取值为2的整数次幂,步长均为1;设卷积核为3×3的标准卷积层数量为ns1,取值范围为5~10,卷积核数量为na1(a1=1,2,...,ns1),na1一般取值为2的整数次幂,步长均为1;
③设计反卷积层,由于在步骤(2)子步骤1的中执行了np1次池化操作,使得特征图缩小了1/np1倍,为了使特征图恢复到原始图片大小,同时避免引入大量噪声,采用np1个参数可学习的反卷积层对特征图中包含的行人特征进行解耦,由于行人分割任务是对每个像素进行二分类,所以反卷积层的卷积核数量均为2,卷积核大小均为3×3,步长均为2。
④确定网络架构,根据步骤(2)子步骤1中各变量的取值范围,建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的最优网络架构。其中,池化层数量np1=2;卷积核为1×1的标准卷积层数量nf=10,对应的卷积核数量nb分别为32、32、64、64、128、128、128、128、128、128;卷积核为3×3的标准卷积层数量ns1=8,对应的卷积核数量na1分别为64、64、128、128、256、256、256、2。第一个卷积神经网络具体结构表述如下:
标准卷积层1_1:用64个3×3的卷积核与227×227像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为227×227×64的特征图;
标准卷积层1_1_1:用32个1×1的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为227×227×32的特征图;
标准卷积层1_1_2:用32个1×1的卷积核与标准卷积层1_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为227×227×32的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为227×227×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为113×113×64的特征图;
标准卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为113×113×128的特征图;
标准卷积层2_1_1:用64个1×1的卷积核与标准卷积层2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为113×113×64的特征图;
标准卷积层2_1_2:用64个1×1的卷积核与标准卷积层2_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为113×113×64的特征图;
标准卷积层2_2:用128个3×3的卷积核与标准卷积层2_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为113×113×128的特征图;
池化层2:用2×2的核对标准卷积层2_2输出的特征图做最大池化,步长为2,得到维度为56×56×128的特征图;
标准卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×256的特征图;
标准卷积层3_1_1:用128个1×1的卷积核与标准卷积层3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_1_2:用128个1×1的卷积核与标准卷积层3_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_2:用256个3×3的卷积核与标准卷积层3_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×256的特征图;
标准卷积层3_2_1:用128个1×1的卷积核与标准卷积层3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_2_2:用128个1×1的卷积核与标准卷积层3_2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_3:用256个3×3的卷积核与标准卷积层3_2_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×256的特征图;
标准卷积层3_3_1:用128个1×1的卷积核与标准卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_3_2:用128个1×1的卷积核与标准卷积层3_3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×128的特征图;
标准卷积层3_4:用2个3×3的卷积核与标准卷积层3_3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×2的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_4输出的特征图做反卷积,步长为2,得到维度为113×113×2的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为227×227×2的特征图。
子步骤2:设计第二个针对大尺度行人的卷积神经网络,具体包括:
①设计池化层,由步骤(2)子步骤1的①中所知,频繁地使用池化层造成了行人空间位置信息极大的损失,极易引起分割精度的下降,虽然无池化操作能够保留更多的空间位置信息,但却加大了计算资源消耗。因此,在设计时同时考虑这两方面的影响,设池化层数量为np2,取值范围为2~3,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计扩张卷积层,利用扩张卷积在不改变特征图尺寸的前提下能够扩大感受野的优点,分别在网络的浅层以及深层处使用扩张卷积代替标准卷积以完整地捕捉浅层处大尺度行人的边界特征和深层处的全局特征。虽然堆叠扩张卷积层以及使用大扩张率增大了局部感受野,但引入了噪声,而且感受野太大使得网络忽略了行人的局部细节信息,造成分割不连续甚至漏分割。与之相反,感受野过小则使得卷积层难以感知行人的全局信息。基于上述考虑,设扩张卷积层数量为nd,取值范围为6~10,扩张率为dr(r=1,2,...,nd),dr为偶数,取值范围为2~10,卷积核数量为ne(e=1,2,...,nd),ne一般取值为2的整数次幂,卷积核大小均为3×3,步长均为1;
③设计标准卷积层,一般而言,网络的特征表达能力随着卷积层数量的增加而增强,但堆叠较多的卷积层加大了计算负担,而卷积层数量少则难以提取到表达能力强的行人特征。考虑到步骤(2)子步骤2的②中已经设计了扩张卷积层,设标准卷积层数量为ns2,取值范围为2~7,卷积核数量为na2(a2=1,2,...,ns2),na2一般取值为2的整数次幂,卷积核大小均为3×3,步长均为1;
④设计反卷积层,由于在步骤(2)子步骤2的①中执行了np2次池化操作,特征图缩小了1/np2倍,为了将其恢复到原始图片大小,同时避免引入大量噪声,采用np2个参数可学习的反卷积层对特征图中包含的行人特征进行解耦,反卷积层的卷积核数量均为2,卷积核大小均为3×3,步长均为2。
⑤确定网络架构,根据步骤(2)子步骤2中各变量的取值范围,建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的最优网络架构。其中,池化层数量np2=2;扩张卷积层数量nd=7,扩张率dr分别为2、4、8、2、4、2、4,对应的卷积核数量ne分别为128、128、256、256、256、512、512;标准卷积层数量ns2=4,对应的卷积核数量na2分别为64、64、512、2。第二个卷积神经网络具体结构表述如下:
标准卷积层1_1:用64个3×3的卷积核与227×227像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为227×227×64的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为227×227×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为113×113×64的特征图;
扩张卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为113×113×128的特征图;
扩张卷积层2_2:用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为113×113×128的特征图;
池化层2:用2×2的核对扩张卷积层2_2输出的特征图做最大池化,步长为2,得到维度为56×56×128的特征图;
扩张卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,扩张率为8,再经过ReLU激活,得到维度为56×56×256的特征图;
扩张卷积层3_2:用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为56×56×256的特征图;
扩张卷积层3_3:用256个3×3的卷积核与扩张卷积层3_2输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为56×56×256的特征图;
标准卷积层3_4:用512个3×3的卷积核与扩张卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×512的特征图;
扩张卷积层3_5:用512个3×3的卷积核与标准卷积层3_4输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为56×56×512的特征图;
扩张卷积层3_6:用512个3×3的卷积核与扩张卷积层3_5输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为56×56×512的特征图;
标准卷积层3_7:用2个3×3的卷积核与扩张卷积层3_6输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为56×56×2的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_7输出的特征图做反卷积,步长为2,得到维度为113×113×2的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为227×227×2的特征图。
子步骤3:提出两级融合策略对两路网络提取的特征进行融合,具体包括:
①确定第一个卷积神经网络的局部特征和全局特征所在位置,根据深度学习分层提取特征的特点,即局部特征一般位于网络浅层,全局特征一般位于深层,初步确定局部特征的位置即位于第几个卷积层,记为sl1,取值范围为6~10,然后通过特征可视化的手段确定sl1的具体数值。一般将最后一个标准卷积层所提取的特征作为全局特征以获取更加充分的行人全局信息,即全局特征位于从左至右第18个卷积层;
②确定第二个卷积神经网络的局部特征和全局特征所在位置,根据步骤(2)子步骤3的①中所述的方法来确定局部特征和全局特征所在位置,其中局部特征的位置记为sl2,取值范围为3~6,全局特征位于从左至右第11个卷积层;
③融合两个网络的变尺度同级特征,在sl1和sl2的取值范围内,通过特征可视化方法得到sl1取值为9、sl2取值为5后,将第一个网络第9个卷积层提取的局部特征与第二个网络第5个卷积层提取的局部特征融合,再将第一个网络第18个卷积层提取的全局特征与第二个网络第11个卷积层提取的全局特征融合;
④融合第二个网络的局部特征与全局特征,为了减小特征融合时额外引入的网络参数数量,使用卷积核大小为1×1卷积对第二个网络的浅层所包含的变尺度行人局部特征进行降维,使其具有和深层全局特征相同的维度,然后构建跳跃连接结构将局部特征与全局特征融合,得到的变尺度多特征融合卷积神经网络架构,结构示意图如图2所示。
(3)训练设计的变尺度多特征融合卷积神经网络,通过随机梯度下降法迭代并优化网络参数。训练过程包括前向传播和反向传播两个阶段,在前向传播阶段,将样本集(x,y)输入网络,其中x为输入图像,y为对应的标签。通过网络逐层运算得到实际输出f(x),使用带有L2正则化项的交叉熵代价函数来衡量理想输出y与实际输出f(x)之间的误差:
Figure BDA0001984905020000121
式(1)中,第一项为交叉熵代价函数,第二项为L2正则化项,用以防止过拟合,θ表示卷积神经网络模型要学习的参数,M表示训练样本数量,N表示每幅图像的像素个数,Q表示样本中语义类别的数量,对于道路分割而言,Q=2,1{y=q}是指示函数,当y=q时取值为1,否则取值为0,λ是正则化系数,
Figure BDA0001984905020000122
表示第i个样本中第j个像素的灰度值,
Figure BDA0001984905020000123
表示
Figure BDA0001984905020000124
对应的标签,
Figure BDA0001984905020000125
表示
Figure BDA0001984905020000126
属于第q个类别的概率,定义为:
Figure BDA0001984905020000127
式(2)中,
Figure BDA0001984905020000128
表示最后一个反卷积层的第q个特征图在
Figure BDA0001984905020000129
处的输出,定义为:
Figure BDA00019849050200001210
在反向传播阶段,通过随机梯度下降算法从后往前逐层更新网络参数以达到极小化实际输出与理想输出之间误差的目的,参数更新公式如下:
Figure BDA0001984905020000131
式(4)中,α为学习率,J0(θ)为交叉熵代价函数,
Figure BDA0001984905020000132
为计算的梯度。
当选定代价函数、正则化方法以及优化算法后,使用深度学习框架训练设计好的卷积神经网络。为了使训练结果更准确,正式训练前先进行预训练,然后再对预训练得到的参数进行微调,训练流程如图3所示,具体包括以下子步骤:
子步骤1:选择与自动驾驶相关的数据集,如ApolloScape、Cityscapes、CamVid,对其进行处理使其只包含行人类别,然后将样本尺寸调整为227×227像素并记为Dc,接着使用Dc对设计好的两个卷积神经网络进行预训练,分别设置预训练超参数,其中最大迭代次数分别为Ic1、Ic2,学习率分别为αc1、αc2,权重衰减分别为λc1、λc2,最终将预训练得到的网络参数保存下来;
子步骤2:使用步骤(1)中所建立的数据集Dk对步骤(3)的子步骤1中预训练得到的两个网络的参数进行微调,设置最大迭代次数分别为Ik1、Ik2,学习率分别为αk1、αk2,权重衰减分别为λk1、λk2,然后根据训练损失曲线和验证损失曲线的变化情况,得到网络参数最优时的两个卷积神经网络模型;
子步骤3:使用步骤(1)中所建立的数据集Dk对步骤(2)的子步骤3中得到的变尺度多特征融合卷积神经网络进行训练,重新设置最大迭代次数为Ik3,学习率分别为αk3,权重衰减分别为λk3,然后根据训练损失曲线和验证损失曲线的变化情况即当训练损失曲线缓慢下降趋于收敛而验证损失曲线处于上升的临界点时,得到参数最优变尺度多特征融合卷积神经网络模型。
(4)使用变尺度多特征融合卷积神经网络进行行人分割,将智能路侧终端获取的行人样本尺寸调整为227×227像素并将其输入到已训练的变尺度多特征融合卷积神经网络中,得到行人分割结果。

Claims (1)

1.基于变尺度多特征融合卷积网络的路侧图像行人分割方法,其特征在于,包括以下步骤:
(1)建立行人分割数据集;
(2)构建变尺度多特征融合卷积神经网络,首先设计并行的两个卷积神经网络来提取图像中不同尺度行人的局部特征和全局特征,第一个网络针对小尺度行人设计了精细的特征提取结构,第二个网络针对大尺度行人扩大了网络在浅层处的感受野;进而提出两级融合策略对所提取的特征进行融合,首先对不同尺度的同级特征进行融合,得到适用于变尺度行人的局部特征和全局特征,然后构建跳跃连接结构将融合后的局部特征与全局特征进行二次融合,获取完备的变尺度行人局部细节信息和全局信息,最终得到变尺度多特征融合卷积神经网络,包括以下子步骤:
子步骤1:设计第一个针对小尺度行人的卷积神经网络,具体包括:
①设计池化层,池化层数量为2,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计标准卷积层,标准卷积层数量为18,其中8层卷积核大小均为3×3,卷积核数量分别为64、64、128、128、256、256、256、2,步长均为1,剩下10层卷积核大小均为1×1,卷积核数量分别为32、32、64、64、128、128、128、128、128、128,步长均为1;
③设计反卷积层,反卷积层数量为2,卷积核大小均为3×3,步长均为2,卷积核数量分别为2、2;
④确定网络架构,根据步骤(2)的子步骤1中①~③涉及的网络层参数建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的网络结构,得到最优网络架构如下:
标准卷积层1_1:用64个3×3的卷积核与A×A像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
标准卷积层1_1_1:用32个1×1的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×32的特征图;
标准卷积层1_1_2:用32个1×1的卷积核与标准卷积层1_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×32的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为
Figure FDA0001984905010000011
的特征图;
标准卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000021
的特征图;
标准卷积层2_1_1:用64个1×1的卷积核与标准卷积层2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000022
的特征图;
标准卷积层2_1_2:用64个1×1的卷积核与标准卷积层2_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000023
的特征图;
标准卷积层2_2:用128个3×3的卷积核与标准卷积层2_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000024
的特征图;
池化层2:用2×2的核对标准卷积层2_2输出的特征图做最大池化,步长为2,得到维度为
Figure FDA0001984905010000025
的特征图;
标准卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000026
的特征图;
标准卷积层3_1_1:用128个1×1的卷积核与标准卷积层3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000027
的特征图;
标准卷积层3_1_2:用128个1×1的卷积核与标准卷积层3_1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000028
的特征图;
标准卷积层3_2:用256个3×3的卷积核与标准卷积层3_1_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000029
的特征图;
标准卷积层3_2_1:用128个1×1的卷积核与标准卷积层3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA00019849050100000210
的特征图;
标准卷积层3_2_2:用128个1×1的卷积核与标准卷积层3_2_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA00019849050100000211
的特征图;
标准卷积层3_3:用256个3×3的卷积核与标准卷积层3_2_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000031
的特征图;
标准卷积层3_3_1:用128个1×1的卷积核与标准卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000032
的特征图;
标准卷积层3_3_2:用128个1×1的卷积核与标准卷积层3_3_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000033
的特征图;
标准卷积层3_4:用2个3×3的卷积核与标准卷积层3_3_2输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000034
的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_4输出的特征图做反卷积,步长为2,得到维度为
Figure FDA0001984905010000035
的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为A×A×2的特征图;
子步骤2:设计第二个针对大尺度行人的卷积神经网络,具体包括:
①设计池化层,池化层数量为2,均采用最大池化操作,采样尺寸均为2×2,步长均为2;
②设计扩张卷积层,扩张卷积层数量为7,扩张率分别为2、4、8、2、4、2、4,卷积核大小均为3×3,步长均为1,卷积核数量分别为128、128、256、256、256、512、512;
③设计标准卷积层,标准卷积层数量为4,卷积核大小均为3×3,步长均为1,卷积核数量分别为64、64、512、2;
④设计反卷积层,反卷积层数量为2,卷积核大小均为3×3,步长均为2,卷积核数量分别为2、2;
⑤确定网络架构,根据步骤(2)的子步骤2中①~④涉及的网络层参数建立不同的网络模型,然后利用步骤(1)所建立的数据集对这些模型进行验证,从中筛选出兼顾准确性和实时性的网络结构,得到最优网络架构如下:
标准卷积层1_1:用64个3×3的卷积核与A×A像素的输入样本做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
标准卷积层1_2:用64个3×3的卷积核与标准卷积层1_1输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为A×A×64的特征图;
池化层1:用2×2的核对标准卷积层1_2输出的特征图做最大池化,步长为2,得到维度为
Figure FDA0001984905010000041
的特征图;
扩张卷积层2_1:用128个3×3的卷积核与池化层1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure FDA0001984905010000042
的特征图;
扩张卷积层2_2:用128个3×3的卷积核与扩张卷积层2_1输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure FDA0001984905010000043
的特征图;
池化层2:用2×2的核对扩张卷积层2_2输出的特征图做最大池化,步长为2,得到维度为
Figure FDA0001984905010000044
的特征图;
扩张卷积层3_1:用256个3×3的卷积核与池化层2输出的特征图做卷积,步长为1,扩张率为8,再经过ReLU激活,得到维度为
Figure FDA0001984905010000045
的特征图;
扩张卷积层3_2:用256个3×3的卷积核与扩张卷积层3_1输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure FDA0001984905010000046
的特征图;
扩张卷积层3_3:用256个3×3的卷积核与扩张卷积层3_2输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure FDA0001984905010000047
的特征图;
标准卷积层3_4:用512个3×3的卷积核与扩张卷积层3_3输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA0001984905010000048
的特征图;
扩张卷积层3_5:用512个3×3的卷积核与标准卷积层3_4输出的特征图做卷积,步长为1,扩张率为2,再经过ReLU激活,得到维度为
Figure FDA0001984905010000049
的特征图;
扩张卷积层3_6:用512个3×3的卷积核与扩张卷积层3_5输出的特征图做卷积,步长为1,扩张率为4,再经过ReLU激活,得到维度为
Figure FDA00019849050100000410
的特征图;
标准卷积层3_7:用2个3×3的卷积核与扩张卷积层3_6输出的特征图做卷积,步长为1,再经过ReLU激活,得到维度为
Figure FDA00019849050100000411
的特征图;
反卷积层4:用2个3×3的卷积核与标准卷积层3_7输出的特征图做反卷积,步长为2,得到维度为
Figure FDA00019849050100000412
的特征图;
反卷积层5:用2个3×3的卷积核与反卷积层4输出的特征图做反卷积,步长为2,得到维度为A×A×2的特征图;
子步骤3:提出两级融合策略对两路网络提取的特征进行融合,具体包括:
①确定第一个卷积神经网络的局部特征和全局特征所在位置,局部特征位于从左至右第9个卷积层,全局特征位于从左至右第18个卷积层;
②确定第二个卷积神经网络的局部特征和全局特征所在位置,局部特征位于从左至右第5个卷积层,全局特征位于从左至右第11个卷积层;
③融合两个网络的变尺度同级特征,将第一个网络第9个卷积层提取的局部特征与第二个网络第5个卷积层提取的局部特征融合,再将第一个网络第18个卷积层提取的全局特征与第二个网络第11个卷积层提取的全局特征融合;
④融合第二个网络的局部特征与全局特征,使用1×1卷积对第二个网络浅层所包含的变尺度行人局部特征进行降维,使其具有与深层全局特征相同的维度,然后构建跳跃连接结构将局部特征与全局特征融合,得到变尺度多特征融合卷积神经网络架构;
(3)训练设计的变尺度多特征融合卷积神经网络,获得网络参数;
(4)使用变尺度多特征融合卷积神经网络进行行人分割。
CN201910161808.0A 2019-03-04 2019-03-04 基于变尺度多特征融合卷积网络的路侧图像行人分割方法 Active CN109977793B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910161808.0A CN109977793B (zh) 2019-03-04 2019-03-04 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
US17/267,493 US11783594B2 (en) 2019-03-04 2019-05-16 Method of segmenting pedestrians in roadside image by using convolutional network fusing features at different scales
PCT/CN2019/087164 WO2020177217A1 (zh) 2019-03-04 2019-05-16 基于变尺度多特征融合卷积网络的路侧图像行人分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910161808.0A CN109977793B (zh) 2019-03-04 2019-03-04 基于变尺度多特征融合卷积网络的路侧图像行人分割方法

Publications (2)

Publication Number Publication Date
CN109977793A CN109977793A (zh) 2019-07-05
CN109977793B true CN109977793B (zh) 2022-03-04

Family

ID=67077920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910161808.0A Active CN109977793B (zh) 2019-03-04 2019-03-04 基于变尺度多特征融合卷积网络的路侧图像行人分割方法

Country Status (3)

Country Link
US (1) US11783594B2 (zh)
CN (1) CN109977793B (zh)
WO (1) WO2020177217A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132569A (ko) * 2019-05-17 2020-11-25 삼성전자주식회사 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
CN110378305B (zh) * 2019-07-24 2021-10-12 中南民族大学 茶叶病害识别方法、设备、存储介质及装置
CN110674685B (zh) * 2019-08-19 2022-05-31 电子科技大学 一种基于边缘信息增强的人体解析分割模型及方法
CN111079761B (zh) * 2019-11-05 2023-07-18 北京航空航天大学青岛研究院 图像处理方法、装置及计算机存储介质
CN111222465B (zh) * 2019-11-07 2023-06-13 深圳云天励飞技术股份有限公司 基于卷积神经网络的图像分析方法及相关设备
CN110929622B (zh) * 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质
CN111126561B (zh) * 2019-11-20 2022-07-08 江苏艾佳家居用品有限公司 一种基于多路并行卷积神经网络的图像处理方法
CN111178211B (zh) * 2019-12-20 2024-01-12 天津极豪科技有限公司 图像分割方法、装置、电子设备及可读存储介质
CN111695447B (zh) * 2020-05-26 2022-08-12 东南大学 一种基于孪生特征增强网络的道路可行驶区域检测方法
CN112001301B (zh) * 2020-08-21 2021-07-20 江苏三意楼宇科技股份有限公司 基于全局交叉熵加权的楼宇监控方法、装置和电子设备
US11886983B2 (en) * 2020-08-25 2024-01-30 Microsoft Technology Licensing, Llc Reducing hardware resource utilization for residual neural networks
CN112256823B (zh) * 2020-10-29 2023-06-20 众阳健康科技集团有限公司 一种基于邻接密度的语料数据抽样方法及系统
CN112307982B (zh) * 2020-11-02 2023-07-28 西安电子科技大学 基于交错增强注意力网络的人体行为识别方法
CN112464743B (zh) * 2020-11-09 2023-06-02 西北工业大学 一种基于多尺度特征加权的小样本目标检测方法
CN112232300B (zh) * 2020-11-11 2024-01-19 汇纳科技股份有限公司 全局遮挡自适应的行人训练/识别方法、系统、设备及介质
CN112242193B (zh) * 2020-11-16 2023-03-31 同济大学 一种基于深度学习的自动血管穿刺方法
CN112434744B (zh) * 2020-11-27 2023-05-26 北京奇艺世纪科技有限公司 一种多模态特征融合模型的训练方法及装置
US20220207822A1 (en) * 2020-12-29 2022-06-30 Volvo Car Corporation Ensemble learning for cross-range 3d object detection in driver assist and autonomous driving systems
CN112509190B (zh) * 2021-02-08 2021-05-11 南京信息工程大学 基于屏蔽门客流计数的地铁车辆断面客流统计方法
KR20220114209A (ko) * 2021-02-08 2022-08-17 삼성전자주식회사 연사 영상 기반의 영상 복원 방법 및 장치
CN113378792B (zh) * 2021-07-09 2022-08-02 合肥工业大学 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN113674844A (zh) * 2021-08-19 2021-11-19 浙江远图互联科技股份有限公司 基于多头cnn网络的医院门诊人流量预测及分诊系统
CN113762483B (zh) * 2021-09-16 2024-02-09 华中科技大学 一种用于心电信号分割的1D U-net神经网络处理器
CN114049339B (zh) * 2021-11-22 2023-05-12 江苏科技大学 一种基于卷积神经网络的胎儿小脑超声图像分割方法
CN113902765B (zh) * 2021-12-10 2022-04-12 聚时科技(江苏)有限公司 基于全景分割的半导体自动分区方法
CN114652326A (zh) * 2022-01-30 2022-06-24 天津大学 基于深度学习的实时脑疲劳监测装置及数据处理方法
CN114612759B (zh) 2022-03-22 2023-04-07 北京百度网讯科技有限公司 视频处理方法、查询视频的方法和模型训练方法、装置
CN115187844A (zh) * 2022-06-30 2022-10-14 深圳云天励飞技术股份有限公司 基于神经网络模型的图像识别方法、装置及终端设备
US11676399B1 (en) * 2022-07-18 2023-06-13 Motional Ad Llc. Object tracking
CN115527168A (zh) * 2022-10-08 2022-12-27 通号通信信息集团有限公司 行人重识别方法、存储介质、数据库编辑方法、存储介质
CN115829101B (zh) * 2022-11-21 2023-06-06 国网甘肃省电力公司酒泉供电公司 一种基于多尺度时间卷积网络的用电成本预测及优化方法
CN115909171B (zh) * 2022-12-19 2023-12-15 浙江金汇华特种耐火材料有限公司 钢包透气砖生产方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631413A (zh) * 2015-12-23 2016-06-01 中通服公众信息产业股份有限公司 一种基于深度学习的跨场景行人搜索方法
CN106570564A (zh) * 2016-11-03 2017-04-19 天津大学 基于深度网络的多尺度行人检测方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
KR20180067909A (ko) * 2016-12-13 2018-06-21 한국전자통신연구원 영상 분할 장치 및 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068024B2 (en) * 2012-02-01 2018-09-04 Sri International Method and apparatus for correlating and viewing disparate data
JP5991332B2 (ja) * 2014-02-05 2016-09-14 トヨタ自動車株式会社 衝突回避制御装置
US10486707B2 (en) * 2016-01-06 2019-11-26 GM Global Technology Operations LLC Prediction of driver intent at intersection
CN107924465B (zh) * 2016-03-18 2021-09-10 Jvc 建伍株式会社 物体识别装置、物体识别方法以及存储介质
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
JP6514736B2 (ja) * 2017-05-17 2019-05-15 株式会社Subaru 車外環境認識装置
CN107688786A (zh) 2017-08-30 2018-02-13 南京理工大学 一种基于级联卷积神经网络的人脸检测方法
US11537868B2 (en) * 2017-11-13 2022-12-27 Lyft, Inc. Generation and update of HD maps using data from heterogeneous sources
US10586132B2 (en) * 2018-01-08 2020-03-10 Visteon Global Technologies, Inc. Map and environment based activation of neural networks for highly automated driving
CN108520219B (zh) * 2018-03-30 2020-05-12 台州智必安科技有限责任公司 一种卷积神经网络特征融合的多尺度快速人脸检测方法
US10468062B1 (en) * 2018-04-03 2019-11-05 Zoox, Inc. Detecting errors in sensor data
US10627823B1 (en) * 2019-01-30 2020-04-21 StradVision, Inc. Method and device for performing multiple agent sensor fusion in cooperative driving based on reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631413A (zh) * 2015-12-23 2016-06-01 中通服公众信息产业股份有限公司 一种基于深度学习的跨场景行人搜索方法
CN106570564A (zh) * 2016-11-03 2017-04-19 天津大学 基于深度网络的多尺度行人检测方法
KR20180067909A (ko) * 2016-12-13 2018-06-21 한국전자통신연구원 영상 분할 장치 및 방법
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征融合的行人检测研究;谭飞刚;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20131215;全文 *

Also Published As

Publication number Publication date
US11783594B2 (en) 2023-10-10
US20210303911A1 (en) 2021-09-30
CN109977793A (zh) 2019-07-05
WO2020177217A1 (zh) 2020-09-10

Similar Documents

Publication Publication Date Title
CN109977793B (zh) 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
CN110009648B (zh) 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法
CN110009095B (zh) 基于深度特征压缩卷积网络的道路行驶区域高效分割方法
CN111259905B (zh) 一种基于下采样的特征融合遥感图像语义分割方法
CN111178213B (zh) 一种基于深度学习的航拍车辆检测方法
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN110766098A (zh) 基于改进YOLOv3的交通场景小目标检测方法
CN109993082A (zh) 卷积神经网络道路场景分类与道路分割方法
CN114092917B (zh) 一种基于mr-ssd的被遮挡交通标志检测方法及系统
CN112101153B (zh) 基于感受野模块与多重特征金字塔的遥感目标检测方法
CN113658200B (zh) 基于自适应特征融合的边缘感知图像语义分割方法
CN106056102A (zh) 基于视频图像分析的道路车型分类方法
CN112598076B (zh) 一种机动车属性识别方法及系统
CN111695447B (zh) 一种基于孪生特征增强网络的道路可行驶区域检测方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN114120069B (zh) 基于方向自注意力的车道线检测系统、方法和存储介质
CN111340026A (zh) 车辆年款识别模型的训练方法以及车辆年款的识别方法
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN110599497A (zh) 一种基于深度神经网络的可行驶区域分割方法
CN115063786A (zh) 一种高位远景模糊车牌检测方法
CN112633149A (zh) 一种域自适应雾天图像目标检测方法和装置
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN114627106A (zh) 一种基于Cascade Mask R-CNN模型的焊缝缺陷检测方法
CN115359455A (zh) 一种基于深度学习的轻量级车辆检测方法
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant