CN110390314B - 一种视觉感知方法及设备 - Google Patents

一种视觉感知方法及设备 Download PDF

Info

Publication number
CN110390314B
CN110390314B CN201910691496.4A CN201910691496A CN110390314B CN 110390314 B CN110390314 B CN 110390314B CN 201910691496 A CN201910691496 A CN 201910691496A CN 110390314 B CN110390314 B CN 110390314B
Authority
CN
China
Prior art keywords
target
feature
target image
semantic segmentation
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910691496.4A
Other languages
English (en)
Other versions
CN110390314A (zh
Inventor
陈海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenlan Robot Shanghai Co ltd
Original Assignee
Deep Blue Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Blue Technology Shanghai Co Ltd filed Critical Deep Blue Technology Shanghai Co Ltd
Priority to CN201910691496.4A priority Critical patent/CN110390314B/zh
Publication of CN110390314A publication Critical patent/CN110390314A/zh
Application granted granted Critical
Publication of CN110390314B publication Critical patent/CN110390314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视觉感知方法及设备,用于减少自动驾驶视觉感知系统的运行的时间、减少占用资源,提升系统性能。该方法包括:通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。

Description

一种视觉感知方法及设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种视觉感知方法及设备。
背景技术
自动驾驶视觉感知系统包括处理各类不同的任务,最主要的任务是理解车辆道路场景,诸如车辆、行人、障碍物、道路、车道线、绿化等,主要包括用于目标检测识别和图像语义分割两类任务,自动驾驶视觉感知系统可以同时运行目标检测识别和图像语义分割任务,得到多种类型的结构化数据。
现有技术分别利用不同的基于深度学习的神经网络模型进行目标检测识别及图像语义分割,通过使用单目或者双目摄像头获取目标图像,利用目标检测网络模型进行目标检测识别,利用分割网络模型进行图像语义分割,其中,目标检测网络模型用于确定获取的目标图像中是否存在预定义的目标,如果存在则计算出该目标在目标图像中的位置,即确定该目标图像的类别及位置,分割网络模型通过对每个像素点进行分类的方式,对多类物体包括行人、车辆、道路、绿化等进行分类。
但利用不同的神经网络模型分别进行目标检测识别任务和图像语义分割任务,这种实现方式对自动驾驶视觉感知系统的资源占用的要求较高,运行时间较长,同步性能较差。
发明内容
本发明提供一种视觉感知方法及设备,利用目标检测识别及图像语义分割这两个不同任务共享图像特征的方法,通过一个网络模型同时实现目标检测和路面分割任务,减少了自动驾驶视觉感知系统的运行的时间、减少了占用资源,提升了系统性能。
第一方面,本发明提供一种视觉感知方法,该方法包括:
通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
作为一种可选的实施方式,所述特征提取子网络的结构为深度可分离卷积网络结构。
作为一种可选的实施方式,通过目标检测识别结果确定目标图像中的目标位置及类别,包括:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
作为一种可选的实施方式,利用语义分割子网络对所述特征图进行图像语义分割,包括:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
作为一种可选的实施方式,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
作为一种可选的实施方式,所述目标图像为RGB三色通道图像,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
作为一种可选的实施方式,通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图,包括:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
第二方面,本发明提供一种视觉感知设备,该设备包括:处理器以及存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如下步骤:
通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
作为一种可选的实施方式,所述特征提取子网络的结构为深度可分离卷积网络结构。
作为一种可选的实施方式,所述处理器具体用于:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
作为一种可选的实施方式,所述处理器具体用于:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
作为一种可选的实施方式,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
作为一种可选的实施方式,所述目标图像为RGB三色通道图像,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
作为一种可选的实施方式,所述处理器具体用于:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
第三方面,本发明提供另一种视觉感知设备,该设备包括:特征提取单元、目标检测语义分割单元、确定目标及分割区域单元,其中:
特征提取单元,用于通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
目标检测语义分割单元,用于选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
确定目标及分割区域单元,用于通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
作为一种可选的实施方式,所述特征提取子网络的结构为深度可分离卷积网络结构。
作为一种可选的实施方式,所述确定目标及分割区域单元具体用于:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
作为一种可选的实施方式,所述目标检测语义分割单元具体用于:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
作为一种可选的实施方式,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
作为一种可选的实施方式,所述目标图像为RGB三色通道图像,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
作为一种可选的实施方式,所述特征提取单元具体用于:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
第四方面,本发明提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
本发明提供的一种视觉感知方法及设备,具有以下有益效果:
由于对获取的目标图像进行目标检测和路面分割存在需要利用相同图像特征的情况,基于此,本发明利用一个网络模型中的特征提取子网络,为目标检测识别及图像语义分割提供共享图像特征,同时实现目标检测和路面分割两个不同的任务,减少了网络模型运行的时间、减少了占用资源,提升了模型性能。
附图说明
图1为本发明实施例提供的一种视觉感知方法流程图;
图2为本发明实施例提供的一种视觉感知设备示意图;
图3为本发明实施例提供的另一种视觉感知设备示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种视觉感知方法,可以应用于自动驾驶视觉感知系统,主要的任务是理解车辆道路场景,采用的技术手段主要通过目标检测识别及图像语义分割。
本实施例提供的方法,利用一个神经网络模型同时进行目标检测识别任务和图像语义分割任务,本实施例中的神经网络模型为基于深度学习的神经网络模型,基本的组织架构由四种层构成,所述四种层分别为卷积层、激活层、池化层和全连接层,其中,卷积层主要用于对目标图像进行特征提取,激活层主要用于保证所述神经网络模型能够拟合非线性变换,池化层主要用于提高卷积核的感受野,使得高层卷积核能够覆盖到尽可能大的感受野,全链接层主要用于数据维度的变换。在神经网络模型中,上述四种层可以作为一个网络单元层,本实施例中的神经网络模型中包括多个所述网络单元层。
如图1所示,本实施例中的神经网络模型包括三个子网络,每个子网络中包括多个所述网络单元层,三个子网络分别是特征提取子网络、检测子网络以及语义分割子网络,其中,检测子网络和语义分割子网络共用同一个特征提取子网络,各个子网络的实施流程如下:
步骤100、通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图。
特征提取子网络主要通过卷积层来提取目标图像特征,卷积层主要用于提取目标图像特征信息,其中,越靠近特征提取子网络前端的卷积层(靠近原始目标图像数据输入端)提取的特征信息越为具象,越靠近特征提取子网络后端的卷积层(靠近特征提取子网络输出端)提取的特征信息越为抽象。
通过多个卷积层对目标图像数据进行多次卷积运算,提取目标图像特征,输出包含所述目标图像特征的多个特征图。
为了减少卷积层提取的特征参数的数量,从而减少上述神经网络模型中的参数更便于计算,本实施中的特征提取子网络的结构可以为深度可分离卷积网络结构。具体的,采用如下方式通过深度可分离卷积网络提取目标图像特征,并输出包含所述目标图像特征的特征图:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
本实施例中目标图像数据为RGB三色通道图像,通过深度可分离卷积网络的三个输入通道接收所述三色通道图像数据;利用一个尺寸3×3的预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图。
其中,本实施例中卷积层提取的特征参数的总数量计算公式如下:
参数的总数量=输入通道数×卷积核个数×卷积核尺寸;
即本实施例中参数的总数量=3×1×3×3+3×N×1×1。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
步骤101、选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割。
由于目标检测识别及图像语义分割都需要对目标图像本身的特征进行提取,因此,目标检测识别及图像语义分割都可以共用同一个提取特征子网络,通过特征提取子网络输出包含所述目标图像特征的多个特征图后,按预设规则从所述多个特征图中选取设定数量的多个特征图,其中,可以是按特征图从大到小的顺序依次选取设定数量的特征图,也可以是按特征图从大到小的顺序间隔选取设定数量的特征图,具体如何选取特征图,选取的特征图的具体尺寸本实施例不作过多限定。
本实施例中利用SSD网络模型中的检测子网络对所述选取的设定数量的特征图进行目标检测识别,利用该检测子网络能够识别出预设目标,其中,本实施例中的预设目标主要包括如下任一或任多种:
机动车、非机动车、生命体、交通相关的标志。
本实施例中利用语义分割子网络对所述选取的设定数量的特征图进行图像语义分割,其中,图像语义分割是对获取的目标图像上每个像素点进行分类,本实施例的目标图像主要包括车辆道路场景图,一张车辆道路场景图中可能包含多类不同的物体,如道路、绿化、行人、小型车、大型车、建筑物、指示牌、电线杆等。
对于自动驾驶视觉感知系统而言,决策层需要的信息为目标图像上不同位置分别是什么物体,可行驶的区域范围有哪些,因此,为了解决该问题,本实施例除了利用SSD网络模型中的检测子网络对目标图像进行目标检测识别外,还利用语义分割子网络根据特征提取子网络输出的包含所述目标图像特征的特征图,对目标图像的每个像素点进行分类,并通过标签的形式来说明每个像素点属于哪类物体,确定目标图像中分割的不同区域的类别,进而分割出可行驶区域以及车辆行人,从而使得决策层直接得到前方所有障碍物信息以及可行驶区域信息。
作为一种可选的实施方式,利用语义分割子网络对所述特征图进行图像语义分割的具体实施方式如下:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
其中,所述上采样包括以下任一种:最近邻插值、双线性插值、反卷积。
步骤102、通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
所述目标检测识别结果包括目标图像中目标的类别及位置,利用上述SSD中的检测子网络对所有选取的设定数量的特征图进行检测后,在所有选取的设定数量的特征图上通过检测框标注目标图像中的预设目标,最终识别并标注出目标图像中的预设目标,确定目标图像中的目标位置及类别。
具体的实施方式如下:
通过检测子网络中的检测框(Bounding Box)自动识别并标注每一个设定数量的特征图中目标的位置,然后将所有的设定数量的特征图中目标的位置及分类进行回归处理,最后利用回归后的检测框标注目标图像中的预设目标,确定输入本实施例中特征提取子网络的目标图像中的预设目标的位置及类别,形成相关数据文档用于自动驾驶视觉感知系统中的决策层进行相关处理。
本实施例中通过目标检测识别结果标注目标图像中预设目标的同时,还可以通过图像语义分割结果确定目标图像中分割的不同区域的类别,其中,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
实施例2
基于相同的发明构思,本发明实施例还提供了一种视觉感知设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图2所示,该设备包括:处理器200以及存储器201,其中,所述存储器201存储有程序代码,当所述程序代码被所述处理器200执行时,使得所述处理器200执行如下步骤:
通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
作为一种可选的实施方式,所述特征提取子网络的结构为深度可分离卷积网络结构。
作为一种可选的实施方式,所述处理器200具体用于:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
作为一种可选的实施方式,所述处理器200具体用于:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
作为一种可选的实施方式,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
作为一种可选的实施方式,所述目标图像为RGB三色通道图像,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
作为一种可选的实施方式,所述处理器200具体用于:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
实施例3
基于相同的发明构思,本发明实施例还提供了另一种视觉感知设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,该设备包括:特征提取单元300、目标检测语义分割单元301、确定目标及分割区域单元302,其中:
特征提取单元300,用于通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
目标检测语义分割单元301,用于选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
确定目标及分割区域单元302,用于通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
作为一种可选的实施方式,所述特征提取子网络的结构为深度可分离卷积网络结构。
作为一种可选的实施方式,所述确定目标及分割区域单元302具体用于:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
作为一种可选的实施方式,所述目标检测语义分割单元301具体用于:
对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;
将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;
根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割。
作为一种可选的实施方式,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
作为一种可选的实施方式,所述目标图像为RGB三色通道图像,所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。
作为一种可选的实施方式,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
作为一种可选的实施方式,所述特征提取单元300具体用于:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
实施例4
本发明提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;
通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种视觉感知方法,其特征在于,该方法包括:
通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图;
选取设定数量的特征图同时进行目标检测识别和图像语义分割,其中,利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别,利用语义分割子网络对所述特征图进行图像语义分割;其中,利用语义分割子网络对所述特征图进行图像语义分割,包括:对选取的设定数量的特征图,按特征提取子网络输出的特征图从后到前的顺序依次进行上采样,识别特征图中的像素点并标注每个像素点的分类标签;将识别后的设定数量的特征图进行加权叠加,通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸;根据每个像素点的分类标签确定属于不同区域的像素点集,对所述特征图进行图像语义分割;
通过目标检测识别结果确定目标图像中的目标位置及类别,通过图像语义分割结果确定目标图像中分割的不同区域的类别;所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别;所述目标主要包括如下任一或任多种:机动车、非机动车、生命体、交通相关的标志。
2.根据权利要求1所述的方法,其特征在于,所述特征提取子网络的结构为深度可分离卷积网络结构。
3.根据权利要求1所述的方法,其特征在于,通过目标检测识别结果确定目标图像中的目标位置及类别,包括:
通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标,确定目标图像中目标的类别及位置。
4.根据权利要求1所述的方法,其特征在于,所述上采样包括以下任一种:
最近邻插值、双线性插值、反卷积。
5.根据权利要求1所述的方法,其特征在于,所述目标图像为RGB三色通道图像。
6.根据权利要求2所述的方法,其特征在于,所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。
7.根据权利要求1所述的方法,其特征在于,通过一个特征提取子网络提取目标图像特征,输出包含所述目标图像特征的特征图,包括:
通过深度可分离卷积网络的多个输入通道接收目标图像数据;
利用预设深度卷积核遍历卷积每个输入通道的目标图像数据,得到对应多个输入通道的第一特征图;
利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图,输出每个第一特征图对应的多个第二特征图,所述N为正整数。
8.一种视觉感知设备,其特征在于,该设备包括:处理器以及存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7任一所述方法的步骤。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7任一所述方法的步骤。
CN201910691496.4A 2019-07-29 2019-07-29 一种视觉感知方法及设备 Active CN110390314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910691496.4A CN110390314B (zh) 2019-07-29 2019-07-29 一种视觉感知方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910691496.4A CN110390314B (zh) 2019-07-29 2019-07-29 一种视觉感知方法及设备

Publications (2)

Publication Number Publication Date
CN110390314A CN110390314A (zh) 2019-10-29
CN110390314B true CN110390314B (zh) 2022-02-15

Family

ID=68287777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910691496.4A Active CN110390314B (zh) 2019-07-29 2019-07-29 一种视觉感知方法及设备

Country Status (1)

Country Link
CN (1) CN110390314B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008606B (zh) * 2019-12-10 2024-04-16 上海商汤智能科技有限公司 图像预测方法及装置、电子设备和存储介质
CN113348463B (zh) * 2021-04-26 2022-05-10 华为技术有限公司 一种信息处理方法及装置
CN112990162B (zh) * 2021-05-18 2021-08-06 所托(杭州)汽车智能设备有限公司 目标检测方法、装置、终端设备及存储介质
CN113313162A (zh) * 2021-05-25 2021-08-27 国网河南省电力公司电力科学研究院 一种多尺度特征融合目标检测的方法及系统
CN113378787B (zh) * 2021-07-07 2022-05-24 山东建筑大学 一种基于多特征视觉的智能交通电子提示装置检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985269A (zh) * 2018-08-16 2018-12-11 东南大学 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704866B (zh) * 2017-06-15 2021-03-23 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
CN108550259B (zh) * 2018-04-19 2020-05-12 何澜 道路拥堵判断方法、终端设备及计算机可读存储介质
CN109253722B (zh) * 2018-08-22 2021-07-02 顺丰科技有限公司 融合语义分割的单目测距系统、方法、设备及存储介质
CN109711413B (zh) * 2018-12-30 2023-04-07 陕西师范大学 基于深度学习的图像语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN108985269A (zh) * 2018-08-16 2018-12-11 东南大学 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An End-to-End Network for Panoptic Segmentation;Huanyu Liu等;《arXiv:1903.05027v2》;20190313;第1-10页 *

Also Published As

Publication number Publication date
CN110390314A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390314B (zh) 一种视觉感知方法及设备
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN112417953B (zh) 道路状况检测和地图数据更新方法、装置、系统及设备
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和系统
US10019652B2 (en) Generating a virtual world to assess real-world video analysis performance
US20180307911A1 (en) Method for the semantic segmentation of an image
CN111767878B (zh) 嵌入式设备中基于深度学习的交通标志检测方法及系统
Zakaria et al. Lane detection in autonomous vehicles: A systematic review
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN111931683B (zh) 图像识别方法、装置及计算机可读存储介质
CN112750147A (zh) 一种行人多目标跟踪方法、装置、智能终端及存储介质
CN114495060B (zh) 一种道路交通标线识别方法及装置
CN112257668A (zh) 主辅路判断方法、装置、电子设备及存储介质
CN117218622A (zh) 路况检测方法、电子设备及存储介质
CN111178181B (zh) 交通场景分割方法及相关装置
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN116977484A (zh) 图像脱敏方法、装置、电子设备及存储介质
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
CN114581664A (zh) 一种道路场景分割方法、装置、电子设备及存储介质
CN114463460A (zh) 视觉交通场景的场景图生成方法及装置
Hasan Yusuf et al. Real-Time Car Parking Detection with Deep Learning in Different Lighting Scenarios
CN113869239A (zh) 一种交通信号灯倒计时识别系统及其构建方法、应用方法
CN113343817A (zh) 一种面向目标区域的无人车路径检测方法、装置及介质
CN113989753A (zh) 一种多目标检测处理方法及装置
CN114495061B (zh) 一种道路交通标志牌识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240513

Address after: Room 6227, No. 999, Changning District, Shanghai 200050

Patentee after: Shenlan robot (Shanghai) Co.,Ltd.

Country or region after: China

Address before: Unit 1001, 369 Weining Road, Changning District, Shanghai, 200336 (9th floor of actual floor)

Patentee before: DEEPBLUE TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China