CN115376093A - 智能驾驶中的对象预测方法、装置及电子设备 - Google Patents

智能驾驶中的对象预测方法、装置及电子设备 Download PDF

Info

Publication number
CN115376093A
CN115376093A CN202211306830.8A CN202211306830A CN115376093A CN 115376093 A CN115376093 A CN 115376093A CN 202211306830 A CN202211306830 A CN 202211306830A CN 115376093 A CN115376093 A CN 115376093A
Authority
CN
China
Prior art keywords
category
feature extraction
prediction
image
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211306830.8A
Other languages
English (en)
Inventor
程涵
戴令正
韩志华
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhitu Technology Co Ltd
Original Assignee
Suzhou Zhitu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhitu Technology Co Ltd filed Critical Suzhou Zhitu Technology Co Ltd
Priority to CN202211306830.8A priority Critical patent/CN115376093A/zh
Publication of CN115376093A publication Critical patent/CN115376093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种智能驾驶中的对象预测方法、装置及电子设备,首先获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;对待处理图像进行特征提取,得到特征提取结果;将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。该方式可以将对待处理图像进行特征提取后得到的特征提取结果分别输入至每种类别对应的检测分支,以对每种类别的对象中的每个对象分别进行检测,并且由于每种类别对应的检测分支的数量与类别相关联,从而可以提高对不同类别对象的预测精度和计算效率。

Description

智能驾驶中的对象预测方法、装置及电子设备
技术领域
本发明涉及智能驾驶技术领域,尤其是涉及一种智能驾驶中的对象预测方法、装置及电子设备。
背景技术
在智能驾驶感知系统中,视觉相机是智能驾驶车辆感知周围环境的重要输入,相当于车辆的“眼睛”。车辆在行驶过程中,需要对周围环境中的障碍物进行及时感知,从而才能做出正确决策。而在感知时,需要同时对周围环境车、人和其他目标做出正确预测,针对每个目标,通常需要提取该目标多元素信息,相关技术中,一般是单检测分支结构,由于其使用单一特征层进行预测,该方式在底层计算上就很容易对不同目标框发生混淆,降低了预测精度和计算效率。
发明内容
本发明的目的在于提供一种智能驾驶中的对象预测方法,以提升预测精度和计算效率。
本发明提供的一种智能驾驶中的对象预测方法,方法包括:获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;对待处理图像进行特征提取,得到特征提取结果;将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。
进一步的,针对每个对象的对象预测结果,该对象预测结果中包括:置信度、该对象预测结果匹配的目标预测框的位置信息,以及该对象所属的类别信息。
进一步的,多种类别中,指定类别的每个指定对象包括多个待检测部位;针对每个指定对象,该指定对象的对象预测结果根据该指定对象的每个待检测部位的部位预测结果确定;其中,针对每个待检测部位的部位预测结果,该部位预测结果中包括:置信度、该部位预测结果匹配的部位预测框的位置信息,以及该待检测部位所属的类别信息。
进一步的,该指定类别所对应的检测分支的数量预先根据多个待检测部位匹配的部位预测框之间的交叉关系确定。
进一步的,每个对象被配置一预选框;位置信息包括:目标预测框的中心点相对于预选框的中心点的中心位置偏移、目标预测框的宽度相对于预选框的宽度的宽度变化信息、目标预测框的高度相对于预选框的高度的高度变化信息。
进一步的,特征提取结果为特征图;位置信息包括:目标预测框的每个边相对于特征图中指定点的偏移距离。
进一步的,对待处理图像进行特征提取,得到特征提取结果的步骤包括:对待处理图像进行预处理,得到处理后的图像;其中,预处理的方式包括以下至少一种:尺寸缩放处理、颜色归一化处理和数据增强处理;通过神经网络模型对处理后的图像进行特征提取,得到特征提取结果。
进一步的,神经网络模型包括:初始特征提取网络和特征融合网络;通过神经网络模型对处理后的图像进行特征提取,得到特征提取结果的步骤包括:通过初始特征提取网络对处理后的图像进行特征提取,得到多个不同尺度的初始特征;通过特征融合网络对多个不同尺度的初始特征进行特征融合,得到特征提取结果。
本发明提供的一种智能驾驶中的对象预测装置,装置包括:获取模块,用于获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;提取模块,用于对待处理图像进行特征提取,得到特征提取结果;输入模块,用于将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。
本发明提供的一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述任一项方法。
本发明提供的一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述任一项的方法。
本发明提供的一种智能驾驶中的对象预测方法、装置及电子设备,首先获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;对待处理图像进行特征提取,得到特征提取结果;将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。该方式可以将对待处理图像进行特征提取后得到的特征提取结果分别输入至每种类别对应的检测分支,以对每种类别的对象中的每个对象分别进行检测,并且由于每种类别对应的检测分支的数量与类别相关联,从而可以提高对不同类别对象的预测精度和计算效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种智能驾驶中的对象预测方法的流程图;
图2为本发明实施例提供的另一种智能驾驶中的对象预测方法的流程图;
图3为本发明实施例提供的一种智能驾驶中的对象预测的示意图;
图4为本发明实施例提供的一种智能驾驶中的对象预测的示意图;
图5为本发明实施例提供的一种智能驾驶中的对象预测装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在智能驾驶感知系统中,视觉相机是智能驾驶车辆感知周围环境的重要输入,相当于车辆的“眼睛”。而识别视觉数据中的障碍物目标,是智能驾驶环境感知中必不可少的一环。
车辆在行驶过程中,需要对周围环境中的障碍物进行及时感知,从而才能做出正确决策。而在感知时,需要同时对周围环境车、人和其他目标做出正确预测,这对智能驾驶视觉感知系统提出了非常大的挑战。传统方法主要靠海量数据标注和增加模型计算能力,这类方法费时费力、增加计算机负担,从而降低了效率。
目前智能驾驶视觉感知任务面临两个问题:一是需要同时提取目标多元素信息,这对感知方法提出挑战,二是在现有方法下,仅通过海量数据标注不足以很好地解决目标多元素提取的误检和漏检问题。因此需要针对实际的感知任务,对现有技术路线做出改进。
相关技术中,智能驾驶视觉感知主要存在以下三点问题:
(1)需要同时感知非常丰富的目标,现有方法在处理时模型精度容易下降;(2)一般采用大算力、多阶段或者多模型的方法来提升精度,但是导致了计算效率不高;(3)海量数据的标注在费时费力的同时,依然无法解决关键场景下感知能力不足的问题。基于此,本发明实施例提供了一种智能驾驶中的对象预测方法、装置及电子设备,该技术可以应用于需要对智能驾驶车辆的周围环境进行视觉检测的场景中。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种智能驾驶中的对象预测方法进行介绍,如图1所示,该方法包括如下步骤:
步骤S102,获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象。
上述待处理图像可以是通过当前行驶车辆上设置的车载摄像头所采集的周围环境的图像,该待处理图像中通常包括多种类别的对象,比如,包括当前行驶车辆周围的车辆、行人或其他对象等;其中,其他对象可以是静态对象,如路灯、树木等;每种类别的对象的数量可能是一个或多个,如包括多辆车辆、多个行人等。
步骤S104,对待处理图像进行特征提取,得到特征提取结果。
在实际实现时,可以通过深度卷积神经网络等方式对待处理图像进行特征提取,得到特征提取结果;该特征提取结果可以是对不同尺度的特征图进行融合处理后的特征图等,该融合处理后的特征图可以表示出待处理图像中的对象的边缘、结构、纹理等特征。
步骤S106,将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。
上述每种类别所对应的检测分支的数量通常与该类别相关联,比如,如果类别为行人,通常可以只对应一个检测分支;如果类别为路灯、树木等静态物,通常也可以将这类静态物只对应一个检测分支;如果类别为车辆,由于对车辆通常需要检测车头部位、车尾部位和车辆全身才能进行准确预测,因此,通常需要多个检测分支,例如,车头部位和车尾部位可以对应一个检测分支,车辆全身对应另一个检测分支等。在实际实现时,可以将上述提取到的特征提取结果分别输入至每种类别对应的检测分支,比如,有行人类别对应的一个检测分支、有静态物类别对应的一个检测分支,有车辆类别对应的两个检测分支,则可以将特征提取结果分别输入至这四个检测分支,通过每个检测分支,得到每种类别的每个对象的对象预测结果;比如,对于车辆这一类别,对象预测结果可以是小汽车及小汽车的位置,大货车及大货车的位置等。
上述智能驾驶中的对象预测方法,首先获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;对待处理图像进行特征提取,得到特征提取结果;将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。该方式可以将对待处理图像进行特征提取后得到的特征提取结果分别输入至每种类别对应的检测分支,以对每种类别的对象中的每个对象分别进行检测,并且由于每种类别对应的检测分支的数量与类别相关联,从而可以提高对不同类别对象的预测精度和计算效率。
本发明实施例还提供了另一种智能驾驶中的对象预测方法,该方法在上述实施例方法的基础上实现,该方法包括如下步骤:
步骤一,获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象。
步骤二,对待处理图像进行预处理,得到处理后的图像;其中,预处理的方式包括以下至少一种:尺寸缩放处理、颜色归一化处理和数据增强处理。
在实际实现时,当接收到车载摄像头采集的待处理图像后,通常需要对该待处理图像做基本的预处理操作,具体可以包括尺寸缩放、颜色归一化以及数据增强处理中的任意一种或任意多种的组合;其中,尺寸缩放是将原始的待处理图像等宽高比缩放到固定尺寸,以便于后续提取特征;颜色归一化是将待处理图像的像素值减去均值后,再除去方差,这步的主要目的是为了减少图像像素值的偏差;数据增强主要为了增强数据的丰富性,从而增强模型的泛化能力,主要包括颜色抖动、图像翻转、随机遮黑、裁剪、拼接等处理,具体可以参考相关技术中的处理方式,在此不再赘述。
步骤三,通过神经网络模型对处理后的图像进行特征提取,得到特征提取结果。
神经网络模型包括:初始特征提取网络和特征融合网络;该步骤可以通过以下步骤A和步骤B实现:
步骤A,通过初始特征提取网络对处理后的图像进行特征提取,得到多个不同尺度的初始特征;
步骤B,通过特征融合网络对多个不同尺度的初始特征进行特征融合,得到特征提取结果。
上述神经网络模型可以是深度卷积神经网络,该神经网络模型主要由卷积层、激活层和池化层构成,卷积层进行卷积计算、具有局部连接和权值共享的特点;激活层主要进行非线性计算,从而增强神经网络的表达能力,池化层主要用于降低维度并同时提取有效特征。
具体实现时,该神经网络模型可以包括多层神经网络,其输入为上述处理后的图像,一层层提取特征,浅层主要提取边缘、纹理等初级信息,深层提取的是目标的抽象语义信息。参见图2所示的另一种智能驾驶中的对象预测方法的流程图,神经网络模型可以包括基础骨干网络、自底向上网络和自顶向下网络;其中,基础骨干网络对应上述初始特征提取网络,主要用于提取基础特征,这些基础特征可以理解为能表示物体的边缘、结构、纹理等的特征,具体可以提取出多个不同尺度的初始特征;自底向上网络和自顶向下网络对应上述特征融合网络,主要是对多个不同尺度的初始特征进行特征的进一步融合,得到融合后的特征,即为上述特征提取结果,通过融合处理,能更加准确表示出物体的边缘、结构、为例等特征;对原始图片(对应待处理图像)进行预处理后,通过基础骨干网络、自底向上网络、自顶向下网络进行特征提取和融合后,得到特征提取结果,将特征提取结果分别发送至多个检测分支,以通过多个检测分支分别执行相应的检测任务。
步骤四,将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。
针对每个对象的对象预测结果,该对象预测结果中包括:置信度、该对象预测结果匹配的目标预测框的位置信息,以及该对象所属的类别信息。
上述置信度区间通常为0-1,可以用于表示是否是感兴趣的目标类别,其中,1表示是感兴趣的类别,0表示不是感兴趣的类别,比如可以是背景等;通常不同的对象对应有不同的对象预测结果,不同的对象预测结果匹配不同的目标预测框,比如,行人匹配的目标预测框为指示行人位置的行人框,车辆匹配的目标预测框为指示车辆位置的车辆框等,每个对象预测结果中通常还包括所匹配的目标预测框的位置信息,根据该位置信息可以确认目标预测框的大小、位置等;上述类别信息可以是预测的各个对象的具体类别,比如,是行人、小汽车等。
每个对象被配置一预选框;位置信息包括:目标预测框的中心点相对于预选框的中心点的中心位置偏移、目标预测框的宽度相对于预选框的宽度的宽度变化信息、目标预测框的高度相对于预选框的高度的高度变化信息。
上述预选框可以是通过对待处理图像进行评估后自动生成的预选框,也可以是人工预先设定的预选框,预选框的大小可以根据实际需求进行设置;针对每个对象,如果对该对象预先配置有预选框,则上述对象预测结果匹配的目标预测框的位置信息可以基于该预选框确定,具体的,位置信息中可以包括目标预测框的中心点相对于预选框的中心点的中心位置偏移、目标预测框的宽度、高度分别相对于预选框的宽度、高度的变化信息。
特征提取结果为特征图;位置信息包括:目标预测框的每个边相对于特征图中指定点的偏移距离。其中,该指定点可以是特征图中的任一点;在实际实现时,也可以不基于预选框确定位置信息,可以从特征图中任选一指定点,基于该指定点的位置确定目标预测框的位置,比如,位置信息中可以包括目标预测框的每个边到该指定点的偏移距离,根据每个边对应的偏移距离,就可以确定位置信息。
多种类别中,指定类别的每个指定对象包括多个待检测部位;针对每个指定对象,该指定对象的对象预测结果根据该指定对象的每个待检测部位的部位预测结果确定;其中,针对每个待检测部位的部位预测结果,该部位预测结果中包括:置信度、该部位预测结果匹配的部位预测框的位置信息,以及该待检测部位所属的类别信息。
上述指定类别的指定对象通常需要同时被检测多个框才能对该对象进行准确预测,因此,通常会对这类目标对象预先设定多个待检测部位,以进行分别检测,比如,目标对象为车辆,则多个待检测部位可以是车头部位、车尾部位和车辆全身等,在实际实现时,每个检测分支的输入是共享的,都是上述特征提取结果,每个检测分支也可以采用神经网络模型实现,其中包括卷积层、池化层等,在对指定类别的指定对象进行细粒度检测,即需要检测该指定对象的多个部位时,可以基于多个检测分支分别检测。将特征提取结果分别输入至该指定类别对应的多个检测分支,以得到每个待检测部位的部位预测结果。在得到多个部位预测结果后,可以基于多个部位预测结果,确定该指定对象的对象预测结果,比如,指定对象为车辆,多个部位预测结果分别为车头预测结果、车尾预测结果和车辆全身预测结果,车头预测结果中预测是小汽车的车头、车尾预测结果中预测是小汽车的车尾,车辆全身预测结果中预测是小汽车,则可以确定指定对象的对象预测结果为小汽车,且可以准确判断出小汽车的位置。
上述置信度区间通常为0-1,可以用于表示是否是感兴趣的目标类别,其中,1表示是感兴趣的类别,0表示不是感兴趣的类别,比如可以是背景等;通常不同的待检测部位对应有不同的部位预测结果,不同的部位预测结果匹配不同的部位预测框,比如,车头部位匹配的部位预测框为指示车头位置的车头框,车尾部位匹配的部位预测框为指示车尾位置的车尾框等,每个部位预测结果中通常还包括所匹配的部位预测框的位置信息,根据该位置信息可以确认部位预测框的大小、位置等;上述类别信息可以是预测的各个待检测部位的具体类别,比如,是小汽车车头、小汽车车尾等。
该指定类别所对应的检测分支的数量预先根据多个待检测部位匹配的部位预测框之间的交叉关系确定。比如,需要对待处理图像进行多个车辆对象的同时检测,车辆对象的待检测部位分别为车头部位、车尾部位和车辆全身,对应车头框、车尾框和车辆全身框共三个框,因为车辆对象的车头框和车尾框没有交叉,因此可以通过同一个检测头检测,而车辆全身框和车头框或车尾框有交叉,因此通过另一个检测头检测,所以在该任务中,可以采用两个检测头分别预测车辆全身框和车头车尾框。
如图3所示的一种智能驾驶中的对象预测的示意图,该示意图为相关技术中采用的方式,采用单一检测头方式进行预测,图中虚线框表示了预测框及其中心点,粗实线框表示了车头框及其中心点和优化方向,细实线框表示了车身框及其中心点和优化方向,中心点1、2、3分别为预选框的中心点、车头框的中心点和车身框的中心点。预选框在同时匹配上不同部位预测框时,如图中所示的车头框和车身框,需要同时往两个不同方向进行优化,存在矛盾。
参见图4所示的一种智能驾驶中的对象预测的示意图,该示意图为本方案采用的方式,其中包括多个检测头(对应上述多个检测分支),通过设置多个检测头,将可能引起歧义的对象进行分解,在不同的检测头中分别进行预测,如图4中检测头1中的预选框只优化车身框,位置信息可以为车身框的中心点相对于预选框的中心点的位置偏移、车身框的宽高相对于预选框的变化量,检测头2中的预选框只优化车头框,位置信息可以为车头框的中心点相对于预选框的中心点的位置偏移、车头框的宽高相对于预选框的变化量,即采用多分支结构来处理不同的检测任务,多分支结构能将不同目标的检测任务解耦开,方便模型优化,另外,如果待处理图像中还包括其他简单对象,如路灯,路灯在靠近车头位置,则可以同时通过检测头2,即距离路灯最近的目标预测框学习即可。
由上述可知,当需要对同一对象的多个待检测部位预测多个部位预测框时,如车辆全身框和车头车尾框时,如图3所示,相关技术中的单一检测头结构由于其使用单一特征层进行预测,在底层计算上就很容易对不同框发生混淆,导致单个预选框需要同时往不同方向上优化,从而产生矛盾,而图4中,本方案的多头结构采用不同的检测头分别预测车身框和车头车尾框,避免了上述问题的产生,使得检测算法能够朝着正确的方向优化。能够一次模型计算实现多任务、多要素目标检测,有效提升了算法精度,实际效果好,同时所增加的额外计算开销少。
上述智能驾驶中的对象预测方法,可以将对待处理图像进行特征提取后得到的特征提取结果分别输入至多个检测分支,以对多个待检测部位分别进行检测,由于每个检测分支分别与每个待检测部位匹配的部位预测框相对应,从而实现了对不同部位预测框的解耦,避免出现采用单一检测分支导致的不同部位预测框混淆的问题,提高了预测精度和计算效率。
该方式采用多个检测分支对指定对象的不同待检测部位匹配的部位预测框进行有效解耦,能够一次计算即可输出不同目标的预测框和目标的不同部位框,并且保证了算法鲁棒性;计算量增加少,几乎不增加额外计算开销。
本发明实施例提供了一种智能驾驶中的对象预测装置,如图5所示,装置包括:获取模块50,用于获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;提取模块51,用于对待处理图像进行特征提取,得到特征提取结果;输入模块52,用于将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。
上述智能驾驶中的对象预测装置,首先获取车载摄像头采集的待处理图像;其中,待处理图像中包括多种类别的对象;对待处理图像进行特征提取,得到特征提取结果;将特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与类别相关联。该装置可以将对待处理图像进行特征提取后得到的特征提取结果分别输入至每种类别对应的检测分支,以对每种类别的对象中的每个对象分别进行检测,并且由于每种类别对应的检测分支的数量与类别相关联,从而可以提高对不同类别对象的预测精度和计算效率。
进一步的,针对每个对象的对象预测结果,该对象预测结果中包括:置信度、该对象预测结果匹配的目标预测框的位置信息,以及该对象所属的类别信息。
进一步的,多种类别中,指定类别的每个指定对象包括多个待检测部位;针对每个指定对象,该指定对象的对象预测结果根据该指定对象的每个待检测部位的部位预测结果确定;其中,针对每个待检测部位的部位预测结果,该部位预测结果中包括:置信度、该部位预测结果匹配的部位预测框的位置信息,以及该待检测部位所属的类别信息。
进一步的,该指定类别所对应的检测分支的数量预先根据多个待检测部位匹配的部位预测框之间的交叉关系确定。
进一步的,每个对象被配置一预选框;位置信息包括:目标预测框的中心点相对于预选框的中心点的中心位置偏移、目标预测框的宽度相对于预选框的宽度的宽度变化信息、目标预测框的高度相对于预选框的高度的高度变化信息。
进一步的,特征提取结果为特征图;位置信息包括:目标预测框的每个边相对于特征图中指定点的偏移距离。
进一步的,提取模块51还用于:对待处理图像进行预处理,得到处理后的图像;其中,预处理的方式包括以下至少一种:尺寸缩放处理、颜色归一化处理和数据增强处理;通过神经网络模型对处理后的图像进行特征提取,得到特征提取结果。
进一步的,神经网络模型包括:初始特征提取网络和特征融合网络;提取模块51还用于:通过初始特征提取网络对处理后的图像进行特征提取,得到多个不同尺度的初始特征;通过特征融合网络对多个不同尺度的初始特征进行特征融合,得到特征提取结果。
本发明实施例所提供的智能驾驶中的对象预测装置,其实现原理及产生的技术效果和前述智能驾驶中的对象预测方法实施例相同,为简要描述,智能驾驶中的对象预测装置实施例部分未提及之处,可参考前述智能驾驶中的对象预测方法实施例中相应内容。
本发明实施例还提供了一种电子设备,参见图6所示,该电子设备包括处理器130和存储器131,该存储器131存储有能够被处理器130执行的机器可执行指令,该处理器130执行机器可执行指令以实现上述智能驾驶中的对象预测方法。
进一步地,图6所示的电子设备还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
其中,存储器131可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述智能驾驶中的对象预测方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的智能驾驶中的对象预测方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种智能驾驶中的对象预测方法,其特征在于,所述方法包括:
获取车载摄像头采集的待处理图像;其中,所述待处理图像中包括多种类别的对象;
对所述待处理图像进行特征提取,得到特征提取结果;
将所述特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与所述类别相关联。
2.根据权利要求1所述的方法,其特征在于,针对每个对象的对象预测结果,该对象预测结果中包括:置信度、该对象预测结果匹配的目标预测框的位置信息,以及该对象所属的类别信息。
3.根据权利要求1所述的方法,其特征在于,多种类别中,指定类别的每个指定对象包括多个待检测部位;
针对每个指定对象,该指定对象的对象预测结果根据该指定对象的每个待检测部位的部位预测结果确定;其中,针对每个待检测部位的部位预测结果,该部位预测结果中包括:置信度、该部位预测结果匹配的部位预测框的位置信息,以及该待检测部位所属的类别信息。
4.根据权利要求3所述的方法,其特征在于,该指定类别所对应的检测分支的数量预先根据多个所述待检测部位匹配的部位预测框之间的交叉关系确定。
5.根据权利要求2所述的方法,其特征在于,每个对象被配置一预选框;所述位置信息包括:所述目标预测框的中心点相对于所述预选框的中心点的中心位置偏移、所述目标预测框的宽度相对于所述预选框的宽度的宽度变化信息、所述目标预测框的高度相对于所述预选框的高度的高度变化信息。
6.根据权利要求2所述的方法,其特征在于,所述特征提取结果为特征图;所述位置信息包括:所述目标预测框的每个边相对于所述特征图中指定点的偏移距离。
7.根据权利要求1所述的方法,其特征在于,对所述待处理图像进行特征提取,得到特征提取结果的步骤包括:
对所述待处理图像进行预处理,得到处理后的图像;其中,所述预处理的方式包括以下至少一种:尺寸缩放处理、颜色归一化处理和数据增强处理;
通过神经网络模型对所述处理后的图像进行特征提取,得到特征提取结果。
8.根据权利要求7所述的方法,其特征在于,所述神经网络模型包括:初始特征提取网络和特征融合网络;通过神经网络模型对所述处理后的图像进行特征提取,得到特征提取结果的步骤包括:
通过所述初始特征提取网络对所述处理后的图像进行特征提取,得到多个不同尺度的初始特征;
通过所述特征融合网络对多个不同尺度的初始特征进行特征融合,得到特征提取结果。
9.一种智能驾驶中的对象预测装置,其特征在于,所述装置包括:
获取模块,用于获取车载摄像头采集的待处理图像;其中,所述待处理图像中包括多种类别的对象;
提取模块,用于对所述待处理图像进行特征提取,得到特征提取结果;
输入模块,用于将所述特征提取结果分别输入至每种类别对应的检测分支,以得到每种类别的对象中,每个对象的对象预测结果;其中,每种类别所对应的检测分支的数量与所述类别相关联。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至8任一项所述的方法。
CN202211306830.8A 2022-10-25 2022-10-25 智能驾驶中的对象预测方法、装置及电子设备 Pending CN115376093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211306830.8A CN115376093A (zh) 2022-10-25 2022-10-25 智能驾驶中的对象预测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211306830.8A CN115376093A (zh) 2022-10-25 2022-10-25 智能驾驶中的对象预测方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115376093A true CN115376093A (zh) 2022-11-22

Family

ID=84072922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211306830.8A Pending CN115376093A (zh) 2022-10-25 2022-10-25 智能驾驶中的对象预测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115376093A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635656A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 基于神经网络的车辆属性识别方法、装置、设备及介质
CN113963238A (zh) * 2021-12-22 2022-01-21 深圳佑驾创新科技有限公司 多任务感知识别模型的构建方法以及多任务感知识别方法
CN114255452A (zh) * 2020-09-22 2022-03-29 上海商汤临港智能科技有限公司 目标测距方法及装置
WO2022170742A1 (zh) * 2021-02-10 2022-08-18 北京优幕科技有限责任公司 目标检测方法、装置、电子设备和存储介质
CN115223130A (zh) * 2022-09-20 2022-10-21 南京理工大学 基于改进YOLOv5的多任务全景驾驶感知方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635656A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 基于神经网络的车辆属性识别方法、装置、设备及介质
CN114255452A (zh) * 2020-09-22 2022-03-29 上海商汤临港智能科技有限公司 目标测距方法及装置
WO2022170742A1 (zh) * 2021-02-10 2022-08-18 北京优幕科技有限责任公司 目标检测方法、装置、电子设备和存储介质
CN113963238A (zh) * 2021-12-22 2022-01-21 深圳佑驾创新科技有限公司 多任务感知识别模型的构建方法以及多任务感知识别方法
CN115223130A (zh) * 2022-09-20 2022-10-21 南京理工大学 基于改进YOLOv5的多任务全景驾驶感知方法与系统

Similar Documents

Publication Publication Date Title
WO2022083402A1 (zh) 障碍物检测方法、装置、计算机设备和存储介质
CN111666921B (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
CN110069986B (zh) 一种基于混合模型的交通信号灯识别方法及系统
WO2022134996A1 (en) Lane line detection method based on deep learning, and apparatus
CN111178245A (zh) 车道线检测方法、装置、计算机设备和存储介质
CN114565895B (zh) 一种基于智慧社会的安防监控系统及方法
CN112001378B (zh) 基于特征空间的车道线处理方法、装置、车载终端和介质
CN111382625A (zh) 道路标识识别方法、装置及电子设备
CN113221750A (zh) 车辆追踪方法、装置、设备及存储介质
CN117576652B (zh) 道路对象的识别方法、装置和存储介质及电子设备
CN111753592A (zh) 交通标志识别方法、装置、计算机设备和存储介质
CN114639085A (zh) 交通信号灯识别方法、装置、计算机设备和存储介质
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和系统
CN112654998A (zh) 一种车道线检测方法和装置
CN115661522A (zh) 一种基于视觉语义矢量的车辆导引方法、系统、设备和介质
CN114926791A (zh) 一种路口车辆异常变道检测方法、装置、存储介质及电子设备
CN114898321A (zh) 道路可行驶区域检测方法、装置、设备、介质及系统
CN111191482A (zh) 一种刹车灯识别方法、装置及电子设备
CN114841910A (zh) 车载镜头遮挡识别方法及装置
CN113435232A (zh) 一种物体的检测方法、装置、设备及存储介质
CN115376093A (zh) 智能驾驶中的对象预测方法、装置及电子设备
CN114332814A (zh) 一种停车框识别方法、装置、电子设备及存储介质
CN112446299A (zh) 车流密度检测方法、系统及计算机可读存储介质
CN113628206B (zh) 一种车牌检测方法、装置、介质
US20240203107A1 (en) Obstacle identification method, vehicle-mounted device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221122

RJ01 Rejection of invention patent application after publication