CN112368711A - 用于计算机视觉的方法和装置 - Google Patents
用于计算机视觉的方法和装置 Download PDFInfo
- Publication number
- CN112368711A CN112368711A CN201880093704.4A CN201880093704A CN112368711A CN 112368711 A CN112368711 A CN 112368711A CN 201880093704 A CN201880093704 A CN 201880093704A CN 112368711 A CN112368711 A CN 112368711A
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- neural network
- output
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000004438 eyesight Effects 0.000 title abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000010339 dilation Effects 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 239000000654 additive Substances 0.000 claims description 10
- 230000000996 additive effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 10
- 230000004927 fusion Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000004297 night vision Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
公开了用于计算机视觉的方法和装置。该方法可以包括通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
Description
技术领域
本公开的实施例总体上涉及信息技术,并且更具体地涉及计算机视觉。
背景技术
计算机视觉是涉及如何使计算机能够从数字图像或视频获得高级理解的领域。计算机视觉在许多应用中起着重要作用。计算机视觉系统广泛用于各种视觉任务,例如场景重建、事件检测、视频跟踪、对象识别、语义分割、三维(3D)姿态估计、学习、索引、运动估计、和图像恢复。例如,图像识别系统可以用于视频监控、交通监控、驾驶员辅助系统、自动驾驶汽车、交通监测、人员识别、人机交互、公共安全、事件检测、跟踪、边防警卫和海关、场景分析和分类、图像索引和检索等。
语义分割被委以以下任务:在像素级别对给定图像进行分类以实现对象分割的效果。语义分割的过程是将输入图像分割为多个区域,这些区域被分类为预定义的类别之一。
语义分割技术在语义解析、场景理解、人机交互(HMI)、视觉监视、高级驾驶员辅助系统(ADAS)、无人机系统(UAS)等方面具有广泛的实际应用。将语义分割应用于所捕获的图像上,图像可以被分割成语义区域,其中该图像的类别标签(例如,行人、汽车、建筑物、桌子、花)是已知的。当给出适当的查询时,具有分割信息的感兴趣对象、感兴趣区域可以被有效地搜索。
在自动驾驶汽车的应用中,了解诸如道路场景之类的场景可能是需要的。给定捕获的图像,车辆被要求能够识别可用的道路、车道、灯、人、交通标志、建筑物等,然后车辆可以根据识别结果进行适当的驾驶操作。驾驶操作可能依赖于语义分割的高性能。如图1所示,位于汽车顶部的摄像头捕获图像。语义分割算法可以将捕获的图像中的场景分割为具有12个类别的区域:天空,建筑物、杆、道路标记、道路、人行道、树木、标志符号、栅栏、车辆、行人、和自行车。场景的内容可以为汽车准备下一个操作提供指导。
发明内容
以简化形式提供本发明内容以介绍选择的构思,在下面的详细描述中进一步描述它们。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
深度学习在增强语义分割方法的性能中起高效作用。例如,基于空间金字塔池(SPP)的深度卷积网络已经用在语义分割中。在语义分割中,SPP由若干并行的特征提取层和融合层组成。并行特征提取层用于捕获不同感受野(receptive field)的特征图,而融合层则用于探测不同感受野的信息。
基于SPP的传统语义分割网络通常以低分辨率执行SPP以进行特征提取,然后以较大的比率将结果直接上采样到原始输入分辨率以用于最终预测。但是,基于SPP的传统语义分割网络存在以下一些问题:
·传统的语义分割网络以较低的分辨率执行SPP,这导致较差的提取的特征。
·传统的语义分割网络以较大的比率对特征图进行上采样,这导致严重的网格效应和较差的视觉质量。
·传统的语义分割网络可能会导致过多的参数和信息冗余。
为了克服或减轻上述问题或其他问题中的至少一个问题,本公开的一些实施例提出了一种被称为鲁棒空间金字塔池(RSPP)神经网络的神经网络,其可以应用于各种视觉任务,例如图像分类、对象检测和语义分割。所提出的RSPP神经网络以适当的比率对空间金字塔池(SPP)中的并行卷积层的特征图进行上采样,与包含详细对象信息的低级特征图进行融合,然后再次执行卷积。RSPP神经网络通过将逐深度卷积(depth-wise convolution)与膨胀卷积(dilated convolution)混合(被称为逐深度膨胀卷积)来去除常规卷积。RSPP神经网络能够产生更好的性能。
根据本公开的一个方面,提出了一种方法。该方法可以包括通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
在一个实施例中,至少两个分支中的每个分支可以还包括第二膨胀卷积层,其被配置为处理第一输入特征图并将其输出的特征图发送给第一上采样块,所述第二膨胀卷积层具有一个卷积核,以及所述第二膨胀卷积层的输入通道单独执行膨胀卷积以作为第二膨胀卷积层的输出通道。
在一个实施例中,所述神经网络可以还包括第一卷积层,其被配置为减少第一输入特征图的数量。
在一个实施例中,所述神经网络还包括第二卷积层,其被配置为将由第一相加块输出的特征图调整为预定义类别的数量。
在一个实施例中,第一卷积层和/或第二卷积层具有1x1的卷积核。
在一个实施例中,神经网络可以还包括第二上采样块,其被配置为对第二卷积层输出的特征图进行上采样。
在一个实施例中,神经网络可以还包括softmax层,其被配置为从图像的输出特征图获得预测。
在一个实施例中,该方法可以还包括通过反向传播算法来训练所述神经网络。
在一个实施例中,该方法可以还包括对所述图像进行增强。
在一个实施例中,所述图像的第一输入特征图和第二输入特征图可以是从另一个神经网络获得的。
在一个实施例中,所述神经网络用于以下中的至少一个:图像分类、对象检测和语义分割。
根据本公开的另一个方面,提出了一种装置。该装置可以包括至少一个处理器;以及至少一个存储器,其包括计算机程序代码,所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起工作以使所述装置通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
根据本公开的又一个方面,提出了一种计算机程序产品,其被体现在能够由计算机读取的分发介质上并且包括程序指令,所述程序指令在被加载到计算机中时使处理器:通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
根据本公开的又一个方面,提出了一种非暂时性计算机可读介质,在其上编码有语句和指令以使处理器通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
根据本公开的又一个方面,提出了一种装置,其包括被配置为通过使用神经网络来处理图像的第一输入特征图以获得该图像的输出特征图的构件。所述神经网络可以包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
通过以下结合附图对示例性实施例的详细描述,本公开的这些和其他目的、特征和优点将变得显而易见。
附图说明
图1示意性地示出了在自动驾驶车辆上的场景分割的应用;
图2(a)示意性地示出了金字塔场景解析(PSP)网络;
图2(b)示意性地示出了空洞(Atrous)空间金字塔池(ASPP)网络;
图3a是示出其中可以实现本公开的各种实施例的装置的简化框图;
图3b是示出根据本公开的实施例的车辆的简化框图;
图3c是示出根据本公开的实施例的视频监控系统的简化框图;
图4示意性地示出了根据本公开实施例的RSPP网络的架构;
图5示意性地示出了根据本发明另一实施例的RSPP网络的架构;
图6示意性地示出了逐深度卷积的具体操作;
图7a示意性地示出了根据本公开实施例的神经网络的架构;
图7b示意性地示出了根据本公开的另一实施例的神经网络的架构;
图7c示意性地示出了根据本公开的另一实施例的神经网络的架构;
图8是描绘根据本公开的实施例的方法的流程图;
图9是描绘根据本公开的另一实施例的方法的流程图;
图10示出了根据本公开实施例的神经网络;
图11示出了在CamVid数据集上的分割结果的示例;和
图12示出了在Pascal VOC2012上的实验结果。
具体实施方式
出于说明的目的,在以下描述中阐述了细节,以便提供对所公开的实施例的透彻理解。然而,对于本领域技术人员而言显而易见的是,可以在没有这些具体细节的情况下或在具有等效布置的情况下实现实施例。本公开的各种实施例可以以许多不同的形式来体现,并且不应被解释为限于在此阐述的实施例;相反,提供这些实施例是为了使本公开满足适用的法律要求。贯穿全文,相似的参考标记表示相似的元素。如本文所使用的,术语“数据”、“内容”、“信息”和类似术语可以互换使用,以指代根据本公开的实施例能够被发送、接收和/或存储的数据。因此,任何这样的术语的使用不应被认为限制本公开的实施例的精神和范围。
另外,如本文中所使用的,术语‘电路’是指(a)纯硬件电路实施方式(例如,在模拟电路和/或数字电路中的实施方式);(b)电路和计算机程序产品(多个)的组合,其包括存储在一个或多个计算机可读存储器上的软件和/或固件指令,它们一起工作以使装置执行本文所述的一个或多个功能;(c)电路,例如微处理器(多个)或微处理器(多个)的一部分,即使软件或固件不是物理上存在的,其也需要软件或固件才能运行。‘电路’的定义应用于本文(包括任何权利要求)中此术语的所有使用。作为另一示例,如本文所使用的,术语‘电路’还包括:包括一个或多个处理器和/或其部分(多个)以及随附的软件和/或固件的实现。作为另一示例,如本文所使用的术语‘电路’还包括例如用于移动电话的基带集成电路或应用处理器集成电路或者用于服务器、蜂窝网络装置、其他网络装置和/或其他计算装置中类似的集成电路。
如本文所定义,“非暂时性计算机可读介质”(其指物理介质(例如,易失性或非易失性存储设备)可以与“暂时性计算机可读介质”(其指电磁信号)区分开来。
注意,尽管主要在语义分割的上下文中描述了实施例,但是实施例不限于此,而是可以应用于可受益于本文所述的实施例的各种视觉任务,例如图像分类、对象检测等。
图2(a)示出了金字塔场景解析(PSP)网络,其由H.Zhao,J.Shi,X.Qi,X.Wang andJ.Jia,"Pyramid Scene Parsing Network,"in Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,pp.6230-6239,2017提出,该文献的全部内容通过引用合并于此。PSP网络以不同的步长执行池化操作以获得不同的感受野的特征,然后通过1×1卷积层来调整它们的通道,最后将它们上采样到输入特征图分辨率,并与输入特征图连接。不同的感受野信息可以通过此PSP网络被探测。但是,除了上述问题之外,还有一个问题是PSP网络需要固定大小的输入,这可能使PSP网络的应用更加困难。
图2(b)示出了空洞空间金字塔合并(ASPP)网络,其由L.C.Chen,G.Papandreou,I.Kokkinos,K.Murphy and A.L.Yuille,“DeepLab:Semantic Image Segmentation withDeep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs,”IEEETransactions on Pattern Analysis and Machine Intelligence,2018提出,通过引用将该文献全部内容合并在此。ASPP网络并行使用膨胀卷积的四种不同比率(即6、12、18、24)。感受野可以通过设置膨胀卷积的比率被控制。因此,将四个膨胀卷积层的结果融合将获得更好的提取的特征,而无需像PSP网络那样额外的要求。尽管ASPP网络已经取得了巨大的成功,但它仍然存在上述问题,这限制了它的性能。
如图2(b)所示,首先将可以从诸如神经网络之类的基础网络获得的输入特征图馈入四个并行的膨胀卷积(也称为空洞卷积)层。参数H,W,C分别表示原始输入图像的高度、原始输入图像的宽度以及特征图的通道号。具有不同膨胀率的四个并行的膨胀卷积层可以在不同的感受野下提取的特征(使用不同的膨胀率来控制感受野可能比在原始SPP网络中使用不同的合并步长更好)。四个并行的膨胀卷积层的输出被馈入到逐元素相加层(element-wise adding layer),以聚合在不同的感受野下的信息。参数C2表示在输入图像中的场景/对象的类别的数量。为了完成像素级的语义分割,将聚合的特征图直接上采样8倍,现在,上采样的特征图的分辨率(H×W)等于原始输入图像的分辨率,上采样的特征图可以被馈入softmax层中以获得预测。
ASPP网络使用四个并行的卷积层和一组膨胀率(6、12、18、24)来提取更好的特征图。但是,ASPP网络可能有一些缺点:ASPP网络仅以低分辨率提取的特征图,并且直接上采样因子(即8)很大。因此,输出的特征图不是最优化的。在ASPP中有太多的参数,这可能容易导致过拟合(overfitting);ASPP没有充分利用对象的详细信息。
为了克服以上问题或其他问题中的至少一个问题,本公开的实施例提出了一种被称为RSPP网络的神经网络。RSPP可以从低分辨率渐进到高分辨率来提取的特征,然后以较小的因子(例如4)对它们进行上采样。
图3a是示出了可以在其中应用本公开的各种实施例的诸如电子装置30之类的装置的简化框图。然而,应理解,如所图示和下文中所描述的电子装置仅是说明可以从本公开的实施例中受益的装置,因此,不应被视为限制本公开的范围。尽管出于示例的目的,电子装置30被示出并且将在下文中对其进行描述,但是其他类型的装置可以容易地采用本公开的实施例。电子装置30可以是用户装置、移动计算机、台式计算机、膝上型计算机、移动电话、智能电话、平板电脑、服务器、云计算机、虚拟服务器、计算设备、分布式系统、视频监控装置(诸如监控摄像机),HMI装置、ADAS、UAS、相机、眼镜/护目镜、智能棒、智能手表、项链或其它可穿戴设备、智能交通系统(ITS)、警务信息系统、游戏设备、用于帮助有受损的视觉的人员的装置和/或任何其他类型的电子系统。电子装置30可以运行任何种类的操作系统,其包括但不限于Windows、Linux、UNIX、Android、iOS及其变体。而且,至少一个示例实施例的装置不必是整个电子装置,而是在其他示例实施例中可以是电子装置的组件或组件组。
在一个实施例中,电子装置30可以包括处理器31和存储器32。处理器31可以是任何类型的处理器、控制器、嵌入式控制器、处理器核心,图形处理单元(GPU)等。在至少一个示例实施例中,处理器31利用计算机程序代码来使装置执行一个或多个动作。存储器32可以包括易失性存储器(例如易失性随机存取存储器(RAM),其包括用于临时存储数据的高速缓存区)和/或其他存储器,例如非易失性存储器,其可以是嵌入式的和/或可以被移除的。非易失性存储器可以包括EEPROM、闪存和/或类似物。存储器32可以存储任何数量的信息和数据。信息和数据可以由电子装置30使用以实现电子装置30的一个或多个功能,例如本文所述的功能。在至少一个示例实施例中,存储器32包括计算机程序代码,使得存储器和计算机程序代码被配置为与处理器一起工作以使该装置执行本文所述的一个或多个动作。
电子装置30可以还包括通信设备35。在至少一个示例实施例中,通信设备35包括与发送器和/或接收器可操作地通信的天线(或多个天线)、有线连接器等。在至少一个示例实施例中,处理器31向发送器提供信号和/或从接收器接收信号。信号可以包括根据通信接口标准的信令信息、用户语音、接收到的数据、用户生成的数据等。通信设备35可以根据一种或多种空中接口标准、通信协议、调制类型和接入类型来操作。作为说明,电子通信设备35可以根据第二代(2G)无线通信协议IS-136(时分多址(TDMA)、全球移动通信系统(GSM)和IS-95(码分多址(CDMA)进行操作,根据第三代(3G)无线通信协议进行操作,例如通用移动电信系统(UMTS)、CDMA2000、宽带CDMA(WCDMA)和时分同步CDMA(TD-SCDMA),和/或根据第四代(4G)无线通信协议、无线联网协议(例如802.11)、短距离无线协议(例如,蓝牙)和/或类似协议进行操作。通信设备35可以根据诸如以太网、数字用户线(DSL)等有线协议来操作。
处理器31可以包括诸如电路的构件,其用于实现音频、视频、通信、导航、逻辑功能和/或等,以及用于实现本公开的实施例,其包括例如本文所述的一个或多个功能。例如,处理器31可以包括用于执行各种功能(例如本文所述的功能中的一个或多个的功能)的构件,例如数字信号处理器设备、微处理器设备、各种模数转换器、数模转换器、处理电路和其他支持电路。该装置可以根据它们各自的能力在这些设备之间执行电子装置30的控制和信号处理功能。因此,处理器31可以包括在调制和传输之前对消息和数据进行编码和交织的功能。处理器31可以另外包括内部语音编码器,并且可以包括内部数据调制解调器。此外,处理器31可以包括用于操作一个或多个软件程序的功能,软件程序可以存储在存储器中,并且除其他事项之外,软件程序可以使处理器31实现至少一个实施例,其包括例如本文描述的功能中的一个或多个功能。例如,处理器31可以操作连通性程序,例如常规的互联网浏览器。连通性程序可以允许电子装置30根据传输控制协议(TCP)、互联网协议(IP)、用户数据报协议(UDP)、互联网消息访问协议(IMAP)、邮局协议(POP)、简单邮件传输协议(SMTP)、无线应用协议(WAP)、超文本传输协议(HTTP)等来发送和接收互联网内容,例如基于位置的内容和/或其他网络内容。
电子装置30可以包括用于提供输出和/或接收输入的用户接口。电子装置30可以包括输出设备34。输出设备34可以包括音频输出设备,例如振铃器、耳机、扬声器和/或类似物。输出设备34可以包括触觉输出设备,例如振动传感器、可电变形的表面、可电变形的结构和/或类似物。输出设备34可以包括视觉输出设备,例如显示器、灯和/或类似物等。电子装置可以包括输入设备33。输入设备33可以包括光传感器、近距离传感器、麦克风、触摸传感器、力传感器、按钮、小键盘、运动传感器、磁场传感器、相机、可移动存储设备和/或类似物。触摸传感器和显示器可以被表征为触摸显示器。在包括触摸显示器的实施例中,触摸显示器可以被配置为接收来自单个接触点、多个接触点等等的输入。在这样的实施例中,触摸显示器和/或处理器可以至少部分地基于位置、运动、速度、接触面积等等来确定输入。
电子装置30可以包括多种触摸显示器中的任何一种,多种触摸显示器包括被配置为通过电阻、电容、红外、应变仪、表面波、光学成像、色散信号技术、声脉冲识别或其他技术中的任何一种来实现触摸识别,然后提供指示与触摸相关的位置和其他参数的信号的那些显示器。另外,触摸显示器可以被配置为以触摸事件的形式来接收输入的指示,该触摸事件可以被定义为选择对象(例如,手指、触笔、钢笔、铅笔或其他定点物)。设备)和触摸显示器之间的实际物理接触。替代地,触摸事件可以被定义为使选择对象接近触摸显示器,在显示的对象之上悬停或在预定距离内接近对象,即使没有与触摸显示器进行物理接触。这样,触摸输入可以包括由触摸显示器检测到的任何输入,其包括涉及实际物理接触的触摸事件和不涉及物理接触但是以其它方式由触摸显示器检测到的触摸事件,例如选择对象与触摸显示器的接近的结果。触摸显示器可能能够接收与触摸输入有关的施加到触摸屏的力相关的信息。例如,触摸屏可以区分重按触摸输入和轻按触摸输入。在至少一个示例实施例中,显示器可以显示二维信息,三维信息等。
输入设备33可以包括图像捕获元件。图像捕获元件可以是用于捕获图像以进行存储、显示或传输的任何构件。例如,在至少一个示例实施例中,图像捕获元件是成像传感器。这样,图像捕获元件可以包括捕获图像所需的硬件和/或软件。另外,输入设备33可以包括任何其他元件,例如相机模块。
在一个实施例中,电子装置30可以被包括在车辆中。图3b是示出根据本公开的实施例的车辆的简化框图。如图3b所示,车辆350可以包括一个或多个图像传感器380以捕获车辆350周围的一个或多个图像。例如,图像传感器380可以安装在车辆的任何合适的位置,例如前面、顶部、后面和/或侧面。图像传感器380可以具有夜视功能。车辆350可以还包括电子装置30,其可以接收由一个或多个图像传感器380捕获的图像。可替代地,电子装置30可以例如通过使用车辆联网技术(即,通信链路382)从另一车辆360接收图像。该图像可以通过使用本公开的实施例的方法来处理。
例如,电子装置30可以用作ADAS或ADAS的一部分以理解/识别一个或多个场景/对象,例如可用的道路、车道、灯、人员、交通标志、建筑物等。电子装置30可以根据本公开的实施例将图像中的场景/对象分割在具有类别的区域中,诸如天空、建筑物、杆、道路标记、道路、人行道、树木、标志符号、栅栏、车辆、行人和自行车。然后,ADAS可以根据识别结果采取适当的驾驶操作。
在另一示例中,电子装置30可以用作汽车安全系统以理解/识别诸如人员的对象。根据本公开的实施例,电子装置30可以将图像中的场景/对象分割成具有诸如人员的类别的区域。然后,汽车安全系统可以根据识别结果进行一项或多项适当的操作。例如,当所捕获的图像包括人员的对象时,汽车安全系统可以存储和/或发送所捕获的图像,和/或启动防盗系统和/或触发警报信号等。
在另一个实施例中,电子装置30可以被包括在视频监控系统中。图3c是示出根据本公开的实施例的视频监控系统的简化框图。如图3c所示,视频监控系统可以包括一个或多个图像传感器390,以在不同的位置捕获一个或多个图像。例如,图像传感器可以安装在任何合适的位置,例如交通干道、公共集会场所、旅馆、学校、医院等。图像传感器可以具有夜视功能。车辆可以还包括诸如服务器之类的电子装置30,其可以通过有线和/或无线网络395接收由一个或多个图像传感器390捕获的图像。该图像可以通过使用本公开的实施例的方法被处理。然后,视频监控系统可以利用处理后的图像来执行任何合适的视频监控任务。
图4示意性地示出了根据本公开实施例的RSPP网络的架构。如图4所示,将诸如的图像的特征图馈入RSPP网络。特征图可以通过使用各种方法(例如,另一个神经网络,诸如ResNet、DenseNet、Xception、VGG等)来获得。在RSPP part1中,特征提取是在低分辨率下执行的,即在本实施例中为然后,例如通过2倍或任何其他合适的值的双线性内插对特征图进行上采样,以获得高分辨率(例如)的特征图。上采样的特征图与该图像的对象详细信息(例如低级特征)进行逐元素相加,然后将输出馈入到RSPP part2中以高分辨率(即在这个实施例中为)执行特征提取。然后,以诸如4的适当倍数或任何其他合适的值对诸如的特征图进行上采样,以获得诸如(H×W)的特征图以用于预测。通过使用RSPP,可以以高分辨率和低分辨率来提取图像的特征,这可以获得更好的提取的特征。
尽管并行膨胀卷积可以有效地控制感受野,但是它也会增加过多的参数,从而导致降低神经网络的性能。因此,减少参数是有益的。可能有多种方法来减少RSPP中的参数,例如1x1卷积层,逐深度卷积等。
图5示意性地示出了根据本公开另一实施例的RSPP网络的架构。如图5所示,RSPP网络可以使用1x1卷积层来减少输入特征图的通道的数量。
1x1卷积层可用于处理图像的输入特征图,以减少输入特征图的通道的数量。输入特征图的通道的数量可以被减少到任何合适的数量。例如,减少的通道的数量可以被设置为输入特征图的通道的数量(C1)的四分之一。如图5所示,有四个分支,减少的通道分别被馈入四个分支中。
在每个分支中,参数可以通过使用修改的逐深度卷积被进一步减少。图6示出了逐深度卷积的具体操作。如图6所示,输入特征图的每个通道分别与一个内核进行卷积,然后通过1×1卷积层合并。与常规卷积相比,参数的数量通过使用逐深度卷积可以被大大减少。例如,假设输入通道为2048,输出通道为21,卷积核为3×3,则正常卷积的参数的数量为2048×21×3×3=368640,对于逐深度卷积,参数的数量为2048×3×3+2048×21×1×1=61440。因此,逐深度卷积可以大大减少参数。RSPP网络中的卷积层与逐深度卷积之间的差异在于以下事实:RSPP网络集成了逐深度卷积和膨胀卷积,在本文中其可以被称为逐深度膨胀卷积。在RSPP网络中,分别对每个输入通道执行膨胀卷积。此外,与逐深度卷积不同,在膨胀卷积之后,另一个1x1卷积层可以不用于执行特征融合。取而代之的是,膨胀卷积的输出可以被上采样并与低级特征图相加,然后被馈入另一个膨胀卷积层中。最后,在添加了多尺度感受野的特征之后,可以执行1x1卷积以实现特征融合。上述操作可以进一步减少参数。
池化和上采样操作可能会导致对象信息丢失。卷积的步长越大,对象信息的丢失就越严重。在RSPP中,特征图可以以低分辨率(例如)被提取,然后以整数倍(例如2)被上采样,以用于以高分辨率(例如)的特征提取,以获得更好的特征图。但是,直接上采样可能会导致对象信息的丢失。为了减少对象信息的丢失,上采样的特征图可以分别与低级特征图被逐元素相加,该低级特征图可以包含更多的对象详细信息(即,边缘,轮廓等)以补偿信息丢失并增加上下文信息。
转到图5,诸如之类的输入特征图被馈入到1×1卷积层中以减少输入特征图的通道的数量。所获得的特征(例如)被馈入四个具有不同膨胀率(例如6、12、18、24)的并行的逐深度膨胀卷积层中,这些层的输出(例如)被上采样以获得高分辨率特征图,例如然后,高分辨率特征图可以与该图像的低级特征(诸如)被逐元素相加,低级特征可以通过神经网络来获得。逐元素相加运算的输出(诸如)被馈入具有同膨胀率(例如6、12、18、24)的其他四个并行的逐深度膨胀卷积层。这样,特征可以以高分辨率被提取。然后后面的四个并行的膨胀卷积层的输出(例如)被逐元素相加,然后被馈入1x1卷积层以用于信息融合,同时信息融合后的通道的数量被调整为类别的数量。然后,特征图可以以较小的因子(例如4)被上采样以获得最终所需的特征图(H×W×C2)。这里低级特征图没有被相加,因为它是最终用于预测的特征图。注意,上采样因子、上采样的次数、并行卷积层的数量和膨胀率不是固定的,并且在其他实施例中可以是任何合适的值。
图7a示意性地示出了根据本公开的实施例的神经网络的架构。该神经网络可以类似于如上所述的RSPP。对于已经关于图1-2、3a、3b、3c、4-6描述的一些相同或相似的部分,为简洁起见,在此省略对这些部分的描述。
如图7a所示,神经网络可以包括至少两个分支和第一相加块。分支的数量可以是预定义的、取决于特定的视觉任务、或者通过机器学习来确定,等等。例如,分支的数量可以是2、3、4或任何其他合适的值。至少两个分支中的每一个分支可以包括至少一个第一膨胀卷积层,至少一个第一上采样块和至少一个第二相加块。在一个实施例中,第一分支可以包括第一膨胀卷积层706,第一上采样块704和第二相加块712。在另一个实施例中,第一分支可以包括第一膨胀卷积层706和710,第一上采样块704和708,以及第二相加块712和714。请注意,尽管只有一个第一膨胀卷积层710,一个第一上采样块708和一个第二相加块714在图7a中被示出,但可能有多个第一膨胀卷积层710,多个第一上采样块708和多个第二相加块714。
在分支中的第一膨胀卷积层的膨胀率可以与另一分支中的第一膨胀卷积层的膨胀率不同。例如,在第一分支中的第一膨胀卷积层706的膨胀率可以与在第N分支中的第一膨胀卷积层706'的膨胀率不同。在每个分支中的第一膨胀卷积层的膨胀率可以被预先定义,取决于特定的视觉任务,或者通过机器学习来确定,等等。通常,在每个分支中的第一膨胀卷积层的膨胀率可以相同。例如,第一分支中的第一膨胀卷积层706和710的膨胀率可以相同。第一膨胀卷积层可以具有一个卷积核,并且第一膨胀卷积层的输入通道可以分别进行膨胀卷积,作为第一膨胀卷积层的输出通道。
第一上采样块可以被配置为对第一输入特征图进行上采样。上采样的比率可以是预定义的,取决于特定的视觉任务,或者可以通过机器学习来确定,等等。例如,上采样的比率可以是2。可以使用各种方式来获得第一输入特征图,例如,另一个神经网络,诸如ResNet,DenseNet,Xception,VGG等。
第二相加块可以被配置为将被上采样的特征图与该图像的第二输入特征图分别相加。如上所述,为了减少对象信息的丢失,上采样的特征图可以与可能包含更多对象详细信息(即,边缘,轮廓等)的低级特征图(即图像的第二输入特征图)分别逐元素相加以补偿信息丢失并增加上下文信息。上采样特征图的分辨率可以与图像的第二输入特征图的分辨率相同。第二输入特征图可以通过各种方式获得,例如,另一个神经网络,诸如ResNet,DenseNet,Xception,VGG等。
第一相加块可以被配置为将至少两个分支中的每一个分支输出的特征图相加。每个分支可以输出相同分辨率的特征图,然后第一相加块可以将至少两个分支中的每个分支所输出的特征图相加。例如,第一相加块可以将由第一膨胀卷积层710和710'输出的特征图相加。
在一个实施例中,如图7b所示,至少两个分支中的每个分支可以还包括第二膨胀卷积层702。第二膨胀卷积层可以被配置为处理第一输入特征图并将其输出的特征图发送给第一上采样块。在该实施例中,第一上采样块可以被配置为对第二膨胀卷积层输出的第一输入特征图进行上采样。第二膨胀卷积层可以具有一个卷积核,并且第二膨胀卷积层的输入通道可以单独执行膨胀卷积以作为第二膨胀卷积层的输出通道。
在一个实施例中,如图7b和7c所示,神经网络可以还包括第一卷积层720。第一卷积层720可以被配置为减少第一输入特征图的数量。例如,第一卷积层720可以是1x1卷积或任何其他合适的卷积。
在一个实施例中,如图7c所示,神经网络可以还包括第二卷积层722。第二卷积层722可以被配置为将由第一相加块输出的特征图调整为预定类别的数量。第二卷积层722可以是1×1卷积或任何其他合适的卷积。例如,假设有12种类别,例如天空,建筑物,杆,道路标记,道路,人行道,树木,标志符号,栅栏,车辆,行人和自行车,则第二卷积层722可以将由第一相加块输出的特征图调整为12。
在一个实施例中,如图7c所示,神经网络可以还包括第二上采样块724。第二上采样块724可以被配置为将由第二卷积层722输出的特征图上采样到预定大小。例如,可以将神经网络的最后一层的输出特征图的大小调整为等于原始输入图像的大小,以便可以对逐像素(pixel-wise)的语义分割进行softmax操作。
在一个实施例中,如图7c所示,神经网络还包括softmax层726。softmax层726可以被配置为从第二上采样块724的输出特征图获得预测。
图8是描绘根据本公开的实施例的方法的流程图。方法800可以在诸如图3a的电子装置30之类的装置处执行。这样,该装置可以提供用于完成方法800的各个部分的构件以及用于结合其他部件来完成其他过程的构件。对于已经关于图1-2,3a,3b,3c,4-6,7a,7b和7c描述的一些相同或相似的部分,为简洁起见,在此省略对这些部分的描述。
如图8所示,方法800可以在框802处开始,在框802中,电子装置30可以通过使用神经网络来处理图像的第一输入特征图以获得图像的输出特征图。该神经网络可以是如参考图7a,7b和7c所描述的神经网络。如上所述,所述神经网络可以包括至少两个分支和第一相加块。所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的第一膨胀卷积层的膨胀率与另一分支中的第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
在一个实施例中,至少两个分支中的每个分支还包括第二膨胀卷积层,其被配置为处理第一输入特征图并将其输出的特征图发送给第一上采样块,所述第二膨胀卷积层具有一个卷积核,以及所述第二膨胀卷积层的输入通道单独执行膨胀卷积以作为第二膨胀卷积层的输出通道。
在一个实施例中,神经网络还包括第一卷积层,其被配置为减少第一输入特征图的数量。
在实施例中,神经网络还包括第二卷积层,其被配置为将由第一相加块输出的特征图调整为预定义类别的数量。
在一个实施例中,第一卷积层和/或第二卷积层具有1x1的卷积核。
在一个实施例中,神经网络还包括第二上采样块,该第二上采样块被配置为对第二卷积层输出的特征图进行上采样。
在实施例中,神经网络还包括softmax层,其被配置为从图像的输出特征图获得预测。
图9是描绘根据本公开的实施例的方法的流程图。方法900可以在诸如图3a的电子装置30之类的装置处执行。这样,该装置可以提供用于完成方法900的各个部分的构件以及用于与其他部件结合来完成其他过程的构件。对于已经关于图1-2,3a,3b,3c,4-6,7a,7b,7c和8描述的一些相同或相似的部分,为简洁起见,在此省略了对这些部分的描述。框906与图8的框802类似,因此,为简洁起见,在此省略对该步骤的描述。
如图9所示,方法900可以从框902开始,其中电子装置30可以通过反向传播算法来训练神经网络。训练阶段可以包括以下步骤:
(1)准备训练图像的集合及其相应的真实标注(ground truth)。图像的真实标注表示每个像素的类别标签。
(2)指定基础神经网络的层数和基础神经网络的输出步长,其中基础神经网络可以被配置为生成图像的特征图以作为所提出的神经网络的输入。指定所提出的神经网络(如RSPP)的膨胀率和上采样步长。
(3)利用训练图像及其真实标注,通过标准的反向传播算法来训练所提出的神经网络。当算法收敛时,所提出的神经网络的被训练的参数可以用于分割图像
在框904处,电子装置30可以对图像进行增强。例如,图像增强可以包括去除噪声、锐化、或增亮图像,使图像更易于识别关键特征,等。
在一个实施例中,所述图像的第一输入特征图和第二输入特征图可以是从另一个神经网络来获得的。
在一个实施例中,神经网络可以用于以下中的至少一个:图像分类,对象检测和语义分割图像分类,或可以从如本文所述的实施例中受益的任何其他合适的视觉任务。
图10示出了根据本公开的实施例的神经网络。该神经网络可以用于语义分割。如图10所示,基本网络包括resnet-101和resnet-50。低级特征图来自res block1,对于分辨率而言,此处的分辨率不会比原始图像小很多,因此信息损失是小的。输入图像被馈入基础网络。基本网络的输出被馈入到所提出的神经网络。
CamVid道路场景数据集(G.Brostow,J.Fauqueur,and R.Cipolla,“Semanticobject classes in video:A high-definition ground truth database,”PRL,vol.30(2),pp.88–97,2009)和Pascal VOC2012数据集(Pattern Analysis,StatisticalModeling and Computational Learning,http://host.robots.ox.ac.uk/pascal/VOC/)用于评估。本公开的实施例的方法与DeepLab-v2方法(L.C.Chen,G.Papandreou,I.Kokkinos,K.Murphy and A.L.Yuille,"DeepLab:Semantic Image Segmentation withDeep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs,"IEEETransactions on Pattern Analysis and Machine Intelligence,2018)进行比较。
图11示出了CamVid数据集上的分割结果的示例。图11(a)将被分割的输入图像。图11(b)和图11(c)分别是DeepLab-v2方法和所提出的方法的分割结果。可以看到,所提出的方法(图11(c))比DeepLab-v2方法(图11(b))更好。例如,图11(b)的左右两边(椭圆形)显示DeepLab-v2方法在对杆子进行分类时会产生较大的错误。对于驾驶,此错误可能会导致致命事故。图11(c)表明,所提出的方法可以显着减少错误。此外,在对人行道,道路等的边缘进行分类时,所提出的方法比DeepLab-v2更精确(请参见图11(c)和图11(b)的底部和左侧的矩形中的矩形)。
图12示出了Pascal VOC2012的实验结果。图12(a)是将被分割的输入图像。图12(b),图12(c)和图12(d)分别是真实标注,DeepLab-v2方法和所提出的方法的分割结果。将图12(c)与图12(d)进行比较,可以发现所提出的方法优于DeepLab-v2方法。图12(d)不仅比图12(c)更准确而且更连续。
表1示出了在Pascal VOC2012数据集和CamVid数据集上用于语义分割的评估的实验的mIoU(均值交并比(mean Intersection-over-union))标准。mIoU越高,性能越好。从表1可以看出,所提出的方法大大提高了场景分割的性能,因此对高性能的应用很有帮助。此外,所提出的方法仅使用简单的深度卷积网络就可以实现更好的性能。这可以在表1的区域中找到。该优点将使所提出的方法在实际应用中同时满足更高的性能和实时性要求。
表1
通过使用根据本公开的实施例的所提出的神经网络,可以减轻过多的参数和信息冗余,并且对于人工智能而言更实用。此外,所提出的方法使用简单的基础网络可以比基于具有深度网络的ASPP的方法获得更好的性能,更适用于现实。另外,所提出的方法具有较高的分割精度和鲁棒的视觉效果。
注意,上述装置的组件中的任何组件可以被实现为硬件或软件模块。在软件模块的情况下,它们可以体现在有形的计算机可读可记录存储介质上。例如,所有软件模块(或其任何子集)可以在同一介质上,或者每个软件模块可以在不同介质上。这些软件模块可以例如在硬件处理器上运行。然后可以使用在硬件处理器上运行的如上所述的不同软件模块来执行方法步骤。
另外,本公开的一个方面可以利用在通用计算机或工作站上运行的软件。这种实施方式可以采用例如处理器、存储器以及例如由显示器和键盘形成的输入/输出接口。如本文所使用的术语“处理器”旨在包括任何处理设备,例如包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外,术语“处理器”可以指不止一个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器,例如RAM(随机存取存储器)、ROM(只读存储器)、固定存储设备(例如硬盘驱动器)、可移动存储设备(例如软盘)、闪存等。处理器、存储器以及诸如显示器和键盘之类的输入/输出接口可以例如经由作为数据处理单元的一部分的总线互连。也可以将适当的互连(例如通过总线)提供给网络接口(例如网卡)和介质接口(例如软盘或CD-ROM驱动器),网络接口可以提供与计算机网络进行接口,介质接口可以提供与接口进行接口。
因此,如本文所述,包括用于执行本公开的方法的指令或代码的计算机软件可以存储在关联的存储设备(例如,ROM、固定或可移动存储器)中,并且在准备使用时被部分或全部加载(例如,加载到RAM中)并由CPU实现。这样的软件可以包括但不限于固件、常驻软件、微代码等。
如所指出的,本公开的方面可以采取体现在计算机可读介质中的计算机程序产品的形式,计算机可读介质在其上包含有计算机可读程序代码。而且,可以利用计算机可读介质的任何组合。所述计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电的、磁的、光学的、电磁的、红外或半导体系统,装置或设备,或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下内容:具有一根或多根电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述的任何适当组合。在本文的上下文中,计算机可读存储介质可以是任何有形介质,其可以包含或存储供指令执行系统、装置或设备使用或与其结合使用的程序。
用于执行本公开的各方面的操作的计算机程序代码可以以至少一种编程语言的任意组合来编写,所述编程语言包括诸如Java、Smalltalk、C++之类的面向对象的编程语言以及常规的过程编程语言,例如“C”编程语言或类似的编程语言。程序代码可以完全在用户计算机上运行,部分在用户计算机上运行,作为独立软件包,部分在用户计算机上运行,部分在远程计算机上运行,或完全在远程计算机或服务器上运行。
附图中的流程图和框图示出了根据本公开的各种实施例的装置、方法和计算机程序产品的可能的实现的架构、功能和操作。就这一点而言,流程图或框图中的每个框可以代表代码的模块、组件、段或部分,其包括用于实现指定的逻辑功能(多个)的至少一个可执行指令。还应注意,在一些替代实施方式中,框中所指出的功能可以不按图中所指出的顺序发生。例如,取决于所涉及的功能,实际上可以基本上同时执行连续示出的两个框,或者有时可以以相反的顺序执行这些框。还应注意,框图和/或流程图说明的每个框以及框图和/或流程图说明中的框的组合可以由执行指定功能或动作的基于专用硬件的系统来实现,或由专用硬件和计算机指令的组合来实现。
应当注意,术语“连接”,“耦合”或其任何变体是指两个或更多个元件之间的任何直接或间接的连接或耦合,并且可以涵盖“连接”或“耦合”在一起的两个元件之间存在一个或多个中间元件。元件之间的耦合或连接可以是物理的、逻辑的或其组合。如本文中所采用的,通过使用一根或多根电线、电缆和/或印刷的电连接,以及通过使用电磁能(例如电磁能),两个元件可以被认为是“连接”或“耦合”在一起的,作为几个非限制性和非穷举性示例,电磁能具有在射频区域、微波区域和光学区域(可见光和不可见光)中的波长。
在任何情况下,应理解,本公开中示出的组件可以以各种形式的硬件、软件或其组合来实现,例如,专用集成电路(多个)(ASIC)、功能电路、图形处理单元、具有相关存储器的适当编程的通用数字计算机等。给定本文提供的本公开的教导,相关领域的普通技术人员将能够想出本公开的组件的其他实现。
本文使用的术语仅出于描述特定实施例的目的,并且不旨在限制本公开。除非上下文另外明确指出,否则如本文所使用的单数形式“一”、“一个”和“该”也意图包括复数形式。还将理解的是,当在本说明书中使用术语“包括”和/或“包含”时,其指定了所述特征、整数、步骤、操作、元素和/或组件的存在,但并不排除存在或添加其他功能,整数,步骤,操作、元素,组件和/或其群组。
已经出于说明的目的给出了各种实施例的描述,但并不意图是穷举性或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变型对于本领域普通技术人员将是显而易见的。
Claims (15)
1.一种方法,包括:
通过使用神经网络来处理图像的第一输入特征图以获得所述图像的输出特征图;
其中所述神经网络包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的所述第一膨胀卷积层的膨胀率与另一分支中的所述第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
2.根据权利要求1所述的方法,其中,所述至少两个分支中的每个分支还包括:第二膨胀卷积层,其被配置为处理所述第一输入特征图并将其输出的特征图发送给所述第一上采样块,所述第二膨胀卷积层具有一个卷积核,以及所述第二膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第二膨胀卷积层的输出通道。
3.根据权利要求1或2所述的方法,其中,所述神经网络还包括:第一卷积层,其被配置为减少所述第一输入特征图的数量。
4.根据权利要求1-3中任一项所述的方法,其中,所述神经网络还包括:第二卷积层,其被配置为将由所述第一相加块输出的特征图调整为预定义类别的数量。
5.根据权利要求3或4所述的方法,其中,所述第一卷积层和/或所述第二卷积层具有1x1的卷积核。
6.根据权利要求1-5中任一项所述的方法,其中,所述神经网络还包括:第二上采样块,其被配置为对所述第二卷积层输出的特征图进行上采样。
7.根据权利要求1-6中任一项所述的方法,其中,所述神经网络还包括:softmax层,其被配置为从所述图像的所述输出特征图获得预测。
8.根据权利要求1-7中任一项所述的方法,还包括:
通过反向传播算法来训练所述神经网络。
9.根据权利要求1-8中任一项所述的方法,还包括:对所述图像进行增强。
10.根据权利要求1-9中任一项所述的方法,其中,所述图像的所述第一输入特征图和所述第二输入特征图是从另一个神经网络获得的。
11.根据权利要求1-10中任一项所述的方法,其中,所述神经网络用于以下中的至少一个:图像分类,对象检测,和语义分割。
12.一种装置,包括:
至少一个处理器;
至少一个存储器,其包括计算机程序代码,所述存储器和计算机程序代码被配置为与所述至少一个处理器一起工作以使所述装置:
通过使用神经网络来处理图像的第一输入特征图以获得所述图像的输出特征图;
其中所述神经网络包括至少两个分支和第一相加块,所述至少两个分支中的每个分支包括至少一个第一膨胀卷积层、至少一个第一上采样块和至少一个第二相加块,在分支中的所述第一膨胀卷积层的膨胀率与另一分支中的所述第一膨胀卷积层的膨胀率不同,所述至少一个第一上采样块被配置为对所述第一输入特征图或由所述至少一个第二相加块输出的特征图进行上采样,所述至少一个第二相加块被配置为将被上采样的特征图与所述图像的第二输入特征图分别相加,所述第一相加块被配置为将由所述至少两个分支中的每一个分支输出的特征图相加,所述第一膨胀卷积层具有一个卷积核,以及所述第一膨胀卷积层的输入通道单独执行膨胀卷积以作为所述第一膨胀卷积层的输出通道。
13.根据权利要求12所述的装置,其中,所述装置被使得执行权利要求2至11中任一项所述的方法。
14.一种计算机程序产品,其被体现在能够由计算机读取的分发介质上并且包括程序指令,所述程序指令在被加载到计算机中时执行根据权利要求1至11中任一项所述的方法。
15.一种非暂时性计算机可读介质,在其上编码有语句和指令以使处理器执行根据权利要求1至11中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/088125 WO2019222951A1 (en) | 2018-05-24 | 2018-05-24 | Method and apparatus for computer vision |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112368711A true CN112368711A (zh) | 2021-02-12 |
Family
ID=68616245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880093704.4A Pending CN112368711A (zh) | 2018-05-24 | 2018-05-24 | 用于计算机视觉的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210125338A1 (zh) |
EP (1) | EP3803693A4 (zh) |
CN (1) | CN112368711A (zh) |
WO (1) | WO2019222951A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853726B2 (en) * | 2018-05-29 | 2020-12-01 | Google Llc | Neural architecture search for dense image prediction tasks |
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
CN111507184B (zh) * | 2020-03-11 | 2021-02-02 | 杭州电子科技大学 | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 |
KR102144706B1 (ko) * | 2020-03-11 | 2020-08-14 | 아주대학교산학협력단 | 합성곱 신경망 기반의 도로 검출 장치 및 방법 |
CN111507182B (zh) * | 2020-03-11 | 2021-03-16 | 杭州电子科技大学 | 基于骨骼点融合循环空洞卷积的乱丢垃圾行为检测方法 |
US11380086B2 (en) * | 2020-03-25 | 2022-07-05 | Intel Corporation | Point cloud based 3D semantic segmentation |
CN111681177B (zh) * | 2020-05-18 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 视频处理方法及装置、计算机可读存储介质、电子设备 |
CN111696036B (zh) * | 2020-05-25 | 2023-03-28 | 电子科技大学 | 基于空洞卷积的残差神经网络及两阶段图像去马赛克方法 |
US20230222817A1 (en) * | 2020-07-03 | 2023-07-13 | Nokia Technologies Oy | Method and apparatus for 3d object detection and segmentation based on stereo vision |
CN111738432B (zh) * | 2020-08-10 | 2020-12-29 | 电子科技大学 | 一种支持自适应并行计算的神经网络处理电路 |
CN112699937B (zh) * | 2020-12-29 | 2022-06-21 | 江苏大学 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
CN113111711A (zh) * | 2021-03-11 | 2021-07-13 | 浙江理工大学 | 一种基于双线性和空间金字塔的池化方法 |
JP2022145001A (ja) * | 2021-03-19 | 2022-10-03 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
CN113240677B (zh) * | 2021-05-06 | 2022-08-02 | 浙江医院 | 一种基于深度学习的视网膜视盘分割方法 |
WO2022245046A1 (ko) * | 2021-05-21 | 2022-11-24 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
CN115496989B (zh) * | 2022-11-17 | 2023-04-07 | 南京硅基智能科技有限公司 | 一种生成器、生成器训练方法及避免图像坐标粘连方法 |
CN115546769B (zh) * | 2022-12-02 | 2023-03-24 | 广汽埃安新能源汽车股份有限公司 | 道路图像识别方法、装置、设备、计算机可读介质 |
CN116229336B (zh) * | 2023-05-10 | 2023-08-18 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2972183A1 (en) * | 2015-12-14 | 2017-06-22 | Motion Metrics International Corp. | Method and apparatus for identifying fragmented material portions within an image |
CN107564007A (zh) * | 2017-08-02 | 2018-01-09 | 中国科学院计算技术研究所 | 融合全局信息的场景分割修正方法与系统 |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
WO2018052586A1 (en) * | 2016-09-14 | 2018-03-22 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks |
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7302096B2 (en) * | 2002-10-17 | 2007-11-27 | Seiko Epson Corporation | Method and apparatus for low depth of field image segmentation |
EP3204888A4 (en) * | 2014-10-09 | 2017-10-04 | Microsoft Technology Licensing, LLC | Spatial pyramid pooling networks for image processing |
KR20180027887A (ko) * | 2016-09-07 | 2018-03-15 | 삼성전자주식회사 | 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
US10614574B2 (en) * | 2017-10-16 | 2020-04-07 | Adobe Inc. | Generating image segmentation data using a multi-branch neural network |
-
2018
- 2018-05-24 WO PCT/CN2018/088125 patent/WO2019222951A1/en unknown
- 2018-05-24 EP EP18919648.8A patent/EP3803693A4/en not_active Withdrawn
- 2018-05-24 US US17/057,187 patent/US20210125338A1/en not_active Abandoned
- 2018-05-24 CN CN201880093704.4A patent/CN112368711A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2972183A1 (en) * | 2015-12-14 | 2017-06-22 | Motion Metrics International Corp. | Method and apparatus for identifying fragmented material portions within an image |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
WO2018052586A1 (en) * | 2016-09-14 | 2018-03-22 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks |
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN107564007A (zh) * | 2017-08-02 | 2018-01-09 | 中国科学院计算技术研究所 | 融合全局信息的场景分割修正方法与系统 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
LIN, GS ; MILAN, A ; SHEN, CH ; REID, I, REFINENET: MULTI-PATH REFINEMENT NETWORKS FOR HIGH-RESOLUTION SEMANTIC SEGMENTATION, 1 January 2017 (2017-01-01), pages 5168 - 5177 * |
Also Published As
Publication number | Publication date |
---|---|
EP3803693A1 (en) | 2021-04-14 |
WO2019222951A1 (en) | 2019-11-28 |
US20210125338A1 (en) | 2021-04-29 |
EP3803693A4 (en) | 2022-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112368711A (zh) | 用于计算机视觉的方法和装置 | |
US10452946B2 (en) | Object detection using recurrent neural network and concatenated feature map | |
US11216972B2 (en) | Vehicle localization using cameras | |
WO2019136623A1 (en) | Apparatus and method for semantic segmentation with convolutional neural network | |
CN111178253A (zh) | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 | |
CN113936256A (zh) | 一种图像目标检测方法、装置、设备以及存储介质 | |
SE541962C2 (en) | Method and apparatus for detecting vehicle contour based on point cloud data | |
CN111832568A (zh) | 车牌识别方法、车牌识别模型的训练方法和装置 | |
WO2018132961A1 (en) | Apparatus, method and computer program product for object detection | |
CN111814637A (zh) | 一种危险驾驶行为识别方法、装置、电子设备及存储介质 | |
US11386287B2 (en) | Method and apparatus for computer vision | |
Liu et al. | Vision-based environmental perception for autonomous driving | |
CN112508839A (zh) | 对象检测系统及其对象检测方法 | |
CN115331048A (zh) | 图像分类方法、装置、设备以及存储介质 | |
Humaidi et al. | Performance comparison for lane detection and tracking with two different techniques | |
CN114549961B (zh) | 目标对象的检测方法、装置、设备以及存储介质 | |
Cho et al. | CNN-based recognition algorithm for four classes of roads | |
EP3871192B1 (en) | Orientation determination for mobile computing devices | |
Zakaria et al. | Fully convolutional neural network for Malaysian road lane detection | |
CN113705279B (zh) | 目标对象的位置识别的方法及装置 | |
CN115049895B (zh) | 一种图像属性识别方法、属性识别模型训练方法及装置 | |
Pagale et al. | Design and Implementation of Lane Detection Using Hough Transformation | |
CN113963300B (zh) | 目标检测方法、装置、电子设备和存储介质 | |
Kumaravel | Object Detection for Signboard | |
Mishra et al. | Identifying universal safety signs using computer vision for an assistive feedback mobile application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |