CN117523541A - 一种基于深度卷积神经网络的目标物识别方法、装置及车辆 - Google Patents
一种基于深度卷积神经网络的目标物识别方法、装置及车辆 Download PDFInfo
- Publication number
- CN117523541A CN117523541A CN202311460747.0A CN202311460747A CN117523541A CN 117523541 A CN117523541 A CN 117523541A CN 202311460747 A CN202311460747 A CN 202311460747A CN 117523541 A CN117523541 A CN 117523541A
- Authority
- CN
- China
- Prior art keywords
- identified
- target object
- image information
- anchor frame
- data model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 44
- 238000013499 data model Methods 0.000 claims abstract description 172
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 239000003086 colorant Substances 0.000 claims abstract description 19
- 230000032823 cell division Effects 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000005764 inhibitory process Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 14
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000010267 cellular communication Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- ATUOYWHBWRKTHZ-UHFFFAOYSA-N Propane Chemical compound CCC ATUOYWHBWRKTHZ-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000001294 propane Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000979 retarding effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及辅助驾驶技术领域,尤其是涉及一种基于深度卷积神经网络的目标物识别方法、装置及车辆;方法包括获取目标物数据参数,根据目标物数据参数搭建目标物数据模型,持续性采集目标车辆前方图像信息,对图像信息进行预处理得到待识别图像信息,其中,预处理包括对图像分辨率及RGB颜色进行定义;根据待识别图像信息,调取预设的换算系数对待识别图像信息进行单元格划分得到输出单元格,输出单元格包括多个待识别数据模型;基于目标物数据模型,对多个待识别数据模型降序排列进行预筛选以及非最大值抑制交并比处理,识别得到最终目标物,本方法可以对视野范围更大图像进行识别,同时提高了目标物识别的效率以及保证识别的准确率。
Description
技术领域
本发明涉及辅助驾驶技术领域,尤其是涉及一种基于深度卷积神经网络的目标物识别方法、装置及车辆。
背景技术
随着汽车智能化的不断发展,以及市场需求的逐渐提升,辅助(自动)驾驶逐渐成为了国内外汽车领域研究的热点。车辆前方目标物检测是辅助(自动)驾驶系统中的一个重要环节,在真实的交通场景下,目标检测受到很多因素,例如:光照、遮挡等的影响。而为了对复杂交通场景下的车辆前方目标进行有效识别和定位,如今已不再是简单采用激光雷达、毫米波雷达及多传感器融合等几种方案可以达到,而是通过结合摄像以及利用卷积神经网络对视觉传感器信息进行图像提取、分类等工作,较好地提高了车辆前方目标的识别率。
相关技术中,基于卷积神经网络的目标识别方法中,通过收集大量图像(如车辆图像、行人图像及其他类别的交通相关图像),并对各图像进行标签分类以及训练,得到原始的卷积神经网络训练集,当车辆再次采集到前方目标物图像时,通过对采集的图像进行灰度化、以及多次特征图提取并对特征图进行降维再提取,最后再将处理后得到的信息进行分类并与预设的卷积神经网络训练集进行比对拟合以识别目标物,同时,在识别过程还包括对卷积神经网络训练集进行优化,但是,该现有技术方法在对采集的图像进行识别过程,由于每次采集的图像信息除了进行识别还需要进行判断是否为更优目标物信息,对于预设的训练集样本还需要进行权值更新,因此,在识别过程识别速度慢,为了保证识别的准确率,其每次检测的视野范围也相对较小。
发明内容
本申请旨在解决现有技术车辆基于卷积神经网络的目标识别方法中,对车道前方目标物的识别处理过程,识别速度慢以及每次检测的视野范围相对较小问题,基于此,本申请提出了一种基于深度卷积神经网络的目标物识别方法、装置及车辆。
第一方面,本申请实施例提供一种基于深度卷积神经网络的目标物识别方法,包括:
获取目标物数据参数,根据所述目标物数据参数搭建目标物数据模型,其中,所述目标物数据模型包括车辆数据模型、行人数据模型以及路牌数据模型;
持续性采集目标车辆前方图像信息,对所述图像信息进行预处理得到待识别图像信息,其中,所述预处理包括对图像分辨率及RGB颜色进行定义;
根据所述待识别图像信息,调取预设的换算系数对所述待识别图像信息进行单元格划分得到输出单元格,所述输出单元格包括多个待识别数据模型;
基于所述目标物数据模型,对多个所述待识别数据模型降序排列进行非最大值抑制以及交并比筛选删除处理,得到最终目标物种类,完成目标物识别。
根据本申请的一些实施例,所述获取目标物数据集,根据所述目标物数据集搭建目标物数据模型步骤中,包括:
确定待识别目标物种类,根据目标物种类获取每一目标物对应的历史图像信息;
根据所述历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;
根据所述目标物数据参数构建目标物数据集,其中所述目标物数据集定义为,式中,/>表示候选框内对象置信度,/>表示待检测目标在预设坐标系中的位置,/>表示待检测目标的高度及宽度,/>表示待检测目标的种类;
基于所述目标物数据集,搭建目标物数据模型,其中,搭建目标物数据模型过程包括特征提取部分、特征融合部分和预测部分,并对其特征提取部分和特征融合部分进行优化。
根据本申请的一些实施例,所述持续性采集目标车辆前方图像信息,对所述图像信息进行预处理得到待识别图像信息,其中,所述预处理包括对图像分辨率及RGB颜色进行定义步骤中,包括:
根据采集的前方图像信息,对所述图像信息中的图像进行切片得到分辨率为608*608的输入图像,定义输入图像使用RGB颜色的通道数量,基于预处理后的图像分辨率及RGB颜色得到待识别图像信息。
根据本申请的一些实施例,所述根据所述待识别图像信息,调取预设的换算系数对所述待识别图像信息进行单元格划分得到输出单元格,所述输出单元格包括多个待识别数据模型步骤中,包括:
根据所述待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格。
根据本申请的一些实施例,所述根据所述待识别图像信息,对调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格步骤中,包括:
根据得到的输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度;
根据本申请的一些实施例,所述基于所述目标物数据模型,对多个所述待识别数据模型降序排列进行预筛选以及非最大值抑制交并比处理,得到最终目标物种类,完成目标物识别的步骤中,包括:
根据所述目标物数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;
利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
根据所述目标输出锚框的坐标参数信息以及预设候选框的宽度和高度参数,对剩余的待识别数据模型进行迭代删除处理,得到最终的目标物种类。
根据本申请的一些实施例,所述根据所述目标输出锚框的坐标参数以及预设候选框的宽度和高度参数信息,对剩余待识别数据模型进行迭代删除处理,得到最终的目标物种类的步骤中,包括:
根据所述目标输出锚框坐标参数以及预设候选框的宽度和高度参数信息,得到所述目标输出锚框的面积S1;
根据剩余的待识别数据模型对应的锚框坐标参数以及预设候选框的宽度和高度参数信息,得到剩余待识别数据模型对应的锚框面积S2;
根据目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积。
根据本申请的一些实施例,所述根据所述目标输出锚框的坐标参数以及预设候选框的宽度和高度参数信息,对剩余待识别数据模型进行迭代删除处理,得到最终的目标物种类的步骤中,还包括:
调取预设的交并比阈值,根据计算目标输出锚框与剩余待识别数据模型对应的锚框交并比iou,判断所述锚框交并比iou是否大于所述交并比阈值;
若所述锚框交并比iou大于所述交并比阈值,则对该剩余待识别数据模型进行删除;
若所述锚框交并比iou小于所述交并比阈值,则对该剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框;
根据所述最终输出锚框以及搭建目标物数据模型,得到最终的目标物种类。
第二方面,本申请实施例提供一种基于深度卷积神经网络的目标物识别装置,所述装置包括:
模型搭建模块,被配置为根据目标物种类获取每一目标物对应的历史图像信息;根据所述历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;根据所述目标物数据参数构建目标物数据集,基于所述目标物数据集,搭建目标物数据模型;
获取模块,被配置为根据目标车辆设置的单目摄像头持续性采集目标车辆前方图像信息;
图像预处理模块,被配置为根据所述获取模块采集的图像信息,对所述图像信息中的图像进行切片得到分辨率为608*608的输入图像,定义输入图像使用RGB颜色的通道数量,基于预处理后的图像分辨率及RGB颜色得到待识别图像信息;
卷积处理模块,被配置为根据所述图像预处理模块得到的待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度;
第一数据处理模块,被配置为根据所述卷积处理模块得到的待识别数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
第二数据处理模块,被配置为根据所述卷积处理模块得到的待识别数据模型以及第一数据处理模块得到目标输出锚框,得到目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积;
判断模块,被配置为根据所述第二数据处理模块得到的交并比iou,调取预设的交并比阈值,根据交并比iou与调取预设的交并比阈值,判断所述锚框交并比iou是否大于所述交并比阈值;
确定模块,被配置为根据所述判断模块的判断结果,对剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框; 根据最终输出锚框以及搭建目标物数据模型,确定最终的目标物种类。
第三方面,本申请实施例提供一种车辆,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现如上述第一方面实施例任一项所述的一种基于深度卷积神经网络的目标物识别方法的步骤。
第四方面,本申请实施例提供还提供一种可读存储介质,所述可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面任一实施例所述的基于深度卷积神经网络的目标物识别方法的步骤。
与现有技术相比,本申请实施例提供的技术方案至少包括以下有益效果:
建立基于单目摄像头和深度卷积神经网络的汽车目标识别检测模型,持续性采集目标车辆前方图像信息,对图像信息进行图像分辨率及RGB颜色进行定义预处理得到待识别图像信息,预处理便于对图像进行统一网格化,以及对图像进行特征提取部分、特征融合部分,以便提高目标物识别效率,根据待识别图像信息,调取预设的换算系数对单元格划分进行单元格划分得到输出单元格,输出单元格包括多个待识别数据模型;通过对待识别图像信息进行单元格划分,实现对更大视野范围图像处理,同时每一个输出单元格包含的数据参数包括若干个存储数据量待识别数据模型,以便于提高后续的锚框进行降序排列以及非最大值抑制交并比处理效率,基于待识别数据模型的锚框进行降序排列进行预筛选以及非最大值抑制交并比处理,以识别得到最终目标物,通过降序排列进行预筛选以及非最大值抑制交并比处理,可以使待识别参数进行一次性单向处理,提高了识别的效率以及保证识别的准确率。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的基于深度卷积神经网络的目标物识别方法的流程图;
图2是根据本申请实施例的目标物数据集定义的示意图;
图3是根据本申请实施例的单元格划分数据处理示意图;
图4是根据本申请实施例的基于深度卷积神经网络的目标物识别方法的子流程图;
图5是根据本申请实施例的锚框处理过程的示意图;
图6是根据本申请实施例的基于深度卷积神经网络的目标物识别装置的框图;
图7是根据本申请实施例的车辆功能框图。
实施方式
下面详细描述本申请的实施例,参考附图描述的实施例是示例性的,应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如,单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如,通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
下面参照附图描述本公开实施例提出的一种基于深度卷积神经网络的目标物识别方法、装置及车辆。
请参阅图1至图3,本实施例提供一种基于深度卷积神经网络的目标物识别方法,方法包括以下步骤:
步骤S100:获取目标物数据参数,根据所述目标物数据参数搭建目标物数据模型,其中,所述目标物数据模型包括车辆数据模型、行人数据模型以及路牌数据模型;
在本步骤中,首先需要说明的是,本方法基于目标车辆装配有图像采集传感器以及深度卷积神经网络以及YOLO算法程序以对采集的图像按设定程序流程进行处理;同时,在对采集的图像进行目标物识别时,是对整张图片做卷积识别处理,检测目标视野范围更大,目标物数据参数是指目标车辆在行驶过程对采集的前方图像需要识别的目标物对应的参数信息,示例性的,目标物包括但不局限于汽车、行人、路牌、交通信号灯、天空及树木目标;
根据需要预设的目标物,对应的,可以通过从行车纪录仪中截取目标物对应的历史图像信息,或者预先将设定的目标物识别历史图像信息数据包进行存储,其对每一目标物对应图像可以采集多张,并对图像进行、图像标注以及数据集划分,以及对获得的图片进行标注物体边界框位置和类别,然后将数据集划分为训练集、验证集以及测试集,利用标注框标注训练集图像中每一个目标,得到训练集图像中每一个目标的位置信息与类别信息;其中位置信息为标注框中心点坐标和标注框宽、高,类别信息即为目标所属类别;
需要说明的是,对于每一目标物历史图像信息的处理也需要进行预处理以和网格化,同时需要在卷积神经网络训练部分数据集,以及根据历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;
进一步地,如图2所示,对于每一目标物在图像中需要对其进行边框定义,同时再根据目标物数据参数构建目标物数据集, 其中,目标物数据集定义为,式中,/>表示候选框内对象置信度,/>表示待检测目标在预设坐标系中的位置,/>表示待检测目标的高度及宽度,/>表示待检测目标的种类,需要说明的是,待检测目标的种类/>并不唯一,可以根据实际要求进行设定,候选框内对象置信度/>并不是固定不变,对于不同的待检测目标的种类/>其对应的置信度取值不同;
基于得到的目标物数据集,搭建目标物数据模型,其中,搭建目标物数据模型过程包括对目标物的特征提取部分、特征融合部分和预测部分,并对其特征提取部分和特征融合部分进行优化,特征提取部分以及特征融合部分可以提高目标物识别效率,预测部分用于便于对目标物进行识别处理。
步骤S200:持续性采集目标车辆前方图像信息,对所述图像信息进行预处理得到待识别图像信息,其中,所述预处理包括对图像分辨率及RGB颜色进行定义;
在本步骤中,装配于目标车辆靠近前挡风玻璃的单目摄像传感设备持续性采集目标车辆前方图像信息,持续性采集的频率由单目摄像传感设备出厂设定,在此不作限定,其采集的图像信息传输至预设的图像处理模块进行处理,由于车辆在行驶过程车辆处于晃动过程,其采集的图像并不能直接使用,需要进行筛选及预处理;
具体地,根据采集的前方图像信息,对图像信息中的图像进行切片以控制得到分辨率为608*608的输入图像,其切片过程可以通过预选设计的定位框,根据定位框对图像信息中的图像进行裁剪划分,同时将输入的预处理的图像分辨率为608*608置于80维的向量中,使每个边界框由85个数字组成。(608,608,3)代表输入图像使用了RGB颜色的3个通道,分别是红色、绿色及蓝色。
步骤S300:根据所述待识别图像信息,调取预设的换算系数对所述待识别图像信息进行单元格划分得到输出单元格,所述输出单元格包括多个待识别数据模型;
在本步骤中,经过预处理后图像信息得到的待识别图像信息,调取预设的换算系数对待识别图像信息进行单元格划分得到输出单元格,输出单元格包括多个待识别数据模型,具体地,根据待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格;
需要说明的是,根据得到的输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度;
为了描述本步骤数据处理过程,如图3所示,经过预处理后的图像输入(608,608,3)经过卷积神经网络处理后得到(19,19,5,105)。(19,19,5,85)代表使用了19*19个单元格,5个Anchor box(锚框),每个边界框由85个数字组成,DEEP CNN 是指深度卷积神经网络,608*608*3的原始卷积层经过换算系数32的运算(608/32=19)得到19*19的输出层,对于每个19*19的单元格,在5个锚框和不同的类之间取最大值(不同类即分别代表人、汽车、路牌、交通信号灯、天空、树等目标)。
步骤S400:基于所述目标物数据模型,对多个所述待识别数据模型降序排列进行非最大值抑制以及交并比筛选删除处理,得到最终目标物种类,完成目标物识别。
在本步骤中,对于得到的多个待识别数据模型,其每一个待识别数据模型都包括由进行定义的数据,通过计算提取置信度,根据置信度大小对待识别数据模型进行降序排列;再根据设定的程序对多个待识别数据模型进行非最大值抑制处理,需要说明的是,非最大值抑制具体数据处理过程为通过对降序排列后的待识别数据模型进行遍历,读取置信度最大的待识别数据模型,并调取存储至指定预设的数据栈中,在进行后续处理;
同时,还需要说明的是,对应每一待识别数据模型在数据处理过程都有对应锚框,对于置信度最大的待识别数据模型对应的锚框设定为目标输出锚框,结合目标输出锚框对应的坐标参数信息以及预设候选框的宽度和高度参数,对剩余的待识别数据模型进行迭代删除处理,得到最终的目标物种类。
请参阅图4至图5,在一个实施例中,为了进一步描述上述实施例步骤S400具体过程,上述实施例步骤S400还包括以下子步骤:
步骤S410:根据所述目标物数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;
在本步骤中,根据目标物数据模型的参数定义,对应地,得到置信度在每一待识别数据模型都有对应参数定义,置信度用于表示判断待识别数据模型的优先级概率,置信度越大,说明锚框内目标物识别越准确,同时,置信度的具体取值由深度卷积神经网络根据采集的图像信息以及结合搭建目标物数据模型计算获得,具体地,置信度通过锚框内是否包含目标物以及锚框与标注框的面积交并比计算得到,再通过预设的程序算法对所有目标物数据模型根据置信度大小进行降序排列;
步骤S420:利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
在本步骤中,通过对所有目标物数据模型根据置信度大小进行降序排列后,对所有目标物数据模型按预设程序算法进行遍历扫描,以选出置信度最大的对应目标物数据模型,根据该目标物数据模型对应的锚框作为目标输出锚框,同时,将该目标输出锚框加入输出列表中,以便后续对剩余的目标物数据模型对应的锚框进行筛选删除处理;
步骤S430:根据所述目标输出锚框的坐标参数信息以及预设候选框的宽度和高度参数,对剩余的待识别数据模型进行迭代删除处理,得到最终的目标物种类。
在本步骤中,对剩余的待识别数据模型进行迭代删除处理包括:根据所述目标输出锚框坐标参数以及预设候选框的宽度和高度参数信息,得到所述目标输出锚框的面积S1;
根据剩余的待识别数据模型对应的锚框坐标参数以及预设候选框的宽度和高度参数信息,得到剩余待识别数据模型对应的锚框面积S2;
根据目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积。
在一个实施例中,根据所述目标输出锚框的坐标参数以及预设候选框的宽度和高度参数信息,对剩余待识别数据模型进行迭代删除处理,得到最终的目标物种类的步骤中,还包括:
调取预设的交并比阈值,需要说明的是,交并比阈值可以根据实现要求进行预设,例如,交并比阈值取值为0.5或者0.7,当交并比阈值的取值越大,识别的准确率越高,但是识别的效率相对降低,因此,交并比阈值取值可以根据实际需求进行预设,在此不作赘述;
根据计算目标输出锚框与剩余待识别数据模型对应的锚框交并比iou,判断所述锚框交并比iou是否大于所述交并比阈值;
若所述锚框交并比iou大于所述交并比阈值,则对该剩余待识别数据模型进行删除,可以理解的是,对该剩余待识别数据模型进行删除包括对该剩余待识别数据模型对应的锚框进行删除,以逐步得到最后一个的剩余锚框,而该剩余锚框则为目标物识别对象;
若所述锚框交并比iou小于所述交并比阈值,则对该剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框,可以理解的是,当某一剩余待识别数据模型对应的锚框与目标输出锚框的交并比iou小于所述交并比阈值,则说明该锚框所表示的目标物可以与目标输出锚框表示同一个目标物,但是,由于每一个目标物只能有一个锚框,因此,需要通过锚框对应的剩余待识别数据模型中的置信度大小进行再次比较进行筛选,以得到最后的剩余锚框;
根据所述最终输出锚框以及搭建目标物数据模型,得到最终的目标物种类,需要说明的是,当对多个待识别数据模型进行锚框交并比并筛选删除后,此时,得到最后一个最终输出锚框,根据最终输出锚框的坐标参数信息以及预设候选框的宽度和高度参数,得到最终的目标物种类。
上述方法步骤中,通过建立基于单目摄像头和深度卷积神经网络的汽车目标识别检测模型,持续性采集目标车辆前方图像信息,对图像信息进行图像分辨率及RGB颜色进行定义预处理得到待识别图像信息,预处理便于对图像进行统一网格化,以及对图像进行特征提取部分、特征融合部分,以便提高目标物识别效率,根据待识别图像信息,调取预设的换算系数对单元格划分进行单元格划分得到输出单元格,输出单元格包括多个待识别数据模型;通过对待识别图像信息进行单元格划分,实现对更大视野范围图像处理,同时每一个输出单元格包含的数据参数包括若干个存储数据量待识别数据模型,以便于提高后续的锚框进行降序排列以及非最大值抑制交并比处理效率,基于待识别数据模型的锚框进行降序排列进行预筛选以及非最大值抑制交并比处理,以识别得到最终目标物,通过降序排列进行预筛选以及非最大值抑制交并比处理,可以使待识别参数进行一次性单向处理,提高了识别的效率以及保证识别的准确率。
在一些实施例中,请参阅图6,还提供一种基于深度卷积神经网络的目标物识别装置200,所述基于深度卷积神经网络的目标物识别装置200包括:
模型搭建模块210,被配置为根据目标物种类获取每一目标物对应的历史图像信息;根据所述历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;根据所述目标物数据参数构建目标物数据集,基于所述目标物数据集,搭建目标物数据模型;
获取模块220,被配置为根据目标车辆设置的单目摄像头持续性采集目标车辆前方图像信息;
图像预处理模块230,被配置为根据所述获取模块220采集的图像信息,对所述图像信息中的图像进行切片得到分辨率为608*608的输入图像,定义输入图像使用RGB颜色的通道数量,基于预处理后的图像分辨率及RGB颜色得到待识别图像信息;
卷积处理模块240,被配置为根据所述图像预处理模块230得到的待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度;
第一数据处理模块250,被配置为根据所述卷积处理模块得到的待识别数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
第二数据处理模块260,被配置为根据所述卷积处理模块240得到的待识别数据模型以及第一数据处理模块250得到目标输出锚框,得到目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积;
判断模块270,被配置为根据所述第二数据处理模块260得到的交并比iou,调取预设的交并比阈值,根据交并比iou与调取预设的交并比阈值,判断所述锚框交并比iou是否大于所述交并比阈值;
确定模块280,被配置为根据所述判断模块270的判断结果,对剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框,根据最终输出锚框以及所述模型搭建模块210搭建目标物数据模型,确定最终的目标物种类。
在一些实施例中,请参阅图7,本实施例提供一种车辆600,车辆600可包括各种子系统,例如,信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640以及计算平台650。可选的,车辆600可包括更多或更少的子系统,并且每个子系统都可包括多个部件。另外,车辆600的每个子系统和部件可以通过有线或者无线的方式实现互连。
在一些实施例中,信息娱乐系统610可以包括通信系统611,娱乐系统612以及导航系统613。
通信系统611可以包括无线通信系统,无线通信系统可以直接地或者经由通信网络来与一个或多个设备无线通信。例如,无线通信系统可使用3G蜂窝通信,例如CDMA、EVD0、GSM/GPRS,或者4G蜂窝通信,例如LTE。或者5G蜂窝通信。无线通信系统可利用WiFi与无线局域网(wireless local area network,WLAN)通信。在一些实施例中,无线通信系统可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议,例如各种车辆通信系统,例如,无线通信系统可包括一个或多个专用短程通信(dedicated short range communications,DSRC)设备,这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。
娱乐系统612可以包括显示设备,麦克风和音响,用户可以基于娱乐系统在车内收听广播,播放音乐;或者将手机和车辆联通,在显示设备上实现手机的投屏,显示设备可以为触控式,用户可以通过触摸屏幕进行操作。
在一些情况下,可以通过麦克风获取用户的语音信号,并依据对用户的语音信号的分析实现用户对车辆600的某些控制,例如调节车内温度等。在另一些情况下,可以通过音响向用户播放音乐。
导航系统613可以包括由地图供应商所提供的地图服务,从而为车辆600提供行驶路线的导航,导航系统613可以和车辆的全球定位系统621、惯性测量单元622配合使用。地图供应商所提供的地图服务可以为二维地图,也可以是高精地图。
感知系统620可包括感测关于车辆600周边的环境的信息的若干种传感器。例如,感知系统620可包括全球定位系统621(全球定位系统可以是GPS系统,也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit,IMU)622、激光雷达623、毫米波雷达624、超声雷达625以及摄像装置626。感知系统620还可包括被监视车辆600的内部系统的传感器(例如,车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是车辆600的安全操作的关键功能。
全球定位系统621用于估计车辆600的地理位置。
惯性测量单元622用于基于惯性加速度来感测车辆600的位姿变化。在一些实施例中,惯性测量单元622可以是加速度计和陀螺仪的组合。
激光雷达623利用激光来感测车辆600所位于的环境中的物体。在一些实施例中,激光雷达623可包括一个或多个激光源、激光扫描器以及一个或多个检测器,以及其他系统组件。
毫米波雷达624利用无线电信号来感测车辆600的周边环境内的物体。在一些实施例中,除了感测物体以外,毫米波雷达624还可用于感测物体的速度和/或前进方向。
超声雷达625可以利用超声波信号来感测车辆600周围的物体。
摄像装置626用于捕捉车辆600的周边环境的图像信息。摄像装置626可以包括单目相机、双目相机、结构光相机以及全景相机等,摄像装置626获取的图像信息可以包括静态图像,也可以包括视频流信息。
决策控制系统630包括基于感知系统620所获取的信息进行分析决策的计算系631,决策控制系统630还包括对车辆600的动力系统进行控制的整车控制器632,以及用于控制车辆600的转向系统633、油门634和制动系统635。
计算系统631可以操作来处理和分析由感知系统620所获取的各种信息以便识别车辆600周边环境中的目标、物体和/或特征。目标可以包括行人或者动物,物体和/或特征可包括交通信号、道路边界和障碍物。计算系统631可使用物体识别算法、运动中恢复结构(Structure from Motion,SFM)算法、视频跟踪等技术。在一些实施例中,计算系统631可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。计算系统631可以将所获取的各种信息进行分析并得出对车辆的控制策略。
整车控制器632可以用于对车辆的动力电池和引擎641进行协调控制,以提升车辆600的动力性能。
转向系统633可操作来调整车辆600的前进方向。例如在一个实施例中可以为方向盘系统。
油门634用于控制引擎641的操作速度并进而控制车辆600的速度。
制动系统635用于控制车辆600减速。制动系统635可使用摩擦力来减慢车轮644。在一些实施例中,制动系统635可将车轮644的动能转换为电流。制动系统635也可采取其他形式来减慢车轮644转速从而控制车辆600的速度。
驱动系统640可包括为车辆600提供动力运动的组件。在一个实施例中,驱动系统640可包括引擎641、能量源642、传动系统643和车轮644。引擎641可以是内燃机、电动机、空气压缩引擎或其他类型的引擎组合,例如汽油发动机和电动机组成的混动引擎,内燃引擎和空气压缩引擎组成的混动引擎。引擎641将能量源642转换成机械能量。
能量源642的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源642也可以为车辆600的其他系统提供能量。
传动系统643可以将来自引擎641的机械动力传送到车轮644。传动系统643可包括变速箱、差速器和驱动轴。在一个实施例中,传动系统643还可以包括其他器件,比如离合器。其中,驱动轴可包括可耦合到一个或多个车轮644的一个或多个轴。
车辆600的部分或所有功能受计算平台650控制。计算平台650可包括至少一个处理器651,处理器651可以执行存储在例如存储器652这样的非暂态计算机可读介质中的指令653。在一些实施例中,计算平台650还可以是采用分布式方式控制车辆600的个体组件或子系统的多个计算设备。
处理器651可以是任何常规的处理器,诸如商业可获得的CPU。可替换地,处理器651还可以包括诸如图像处理器(Graphic Process Unit,GPU),现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、片上系统(System on Chip,SOC)、专用集成芯片(Application Specific Integrated Circuit,ASIC)或它们的组合。尽管图7功能性地图示了处理器、存储器、和在相同块中的计算机的其它元件,但是本领域的普通技术人员应该理解该处理器、计算机、或储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如,存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此,对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤,诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器,处理器只执行与特定于组件的功能相关的计算。
在本公开实施方式中,处理器651可以执行上述的基于深度卷积神经网络的目标物识别方法。
在此处所描述的各个方面中,处理器651可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中,此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行,包括采取执行单一操纵的必要步骤。
在一些实施例中,第四存储器652可包含指令653(例如,程序逻辑),指令653可被第四处理器651执行来执行车辆600的各种功能。存储器652也可包含额外的指令,包括向信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。
除了指令653以外,存储器652还可存储数据,例如道路地图、路线信息,车辆的位置、方向、速度以及其它这样的车辆数据,以及其他信息。这种信息可在车辆600在自主、半自主和/或手动模式中操作期间被车辆600和计算平台650使用。
计算平台650可基于从各种子系统(例如,驱动系统640、感知系统620和决策控制系统630)接收的输入来控制车辆600的功能。例如,计算平台650可利用来自决策控制系统630的输入以便控制转向系统633来避免由感知系统620检测到的障碍物。在一些实施例中,计算平台650可操作来对车辆600及其子系统的许多方面提供控制。
可选地,上述这些组件中的一个或多个可与车辆600分开安装或关联。例如,存储器652可以部分或完全地与车辆600分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。
可选地,上述组件只是一个示例,实际应用中,上述各个模块中的组件有可能根据实际需要增添或者删除,图7不应理解为对本公开实施例的限制。
可选地,车辆600或者与车辆600相关联的感知和计算设备(例如计算系统631、计算平台650)可以基于所识别的物体的特性和周围环境的状态(例如,交通、雨、道路上的冰、等等)来预测识别的物体的行为。可选地,每一个所识别的物体都依赖于彼此的行为,因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆600能够基于预测的识别的物体的行为来调整它的速度。换句话说,自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到(例如,加速、减速、或者停止)何种稳定状态。在这个过程中,也可以考虑其它因素来确定车辆600的速度,诸如,车辆600在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。
除了提供调整自动驾驶汽车的速度的指令之外,计算设备还可以提供修改车辆600的转向角的指令,以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的物体(例如,道路上的相邻车道中的车辆)的安全横向和纵向距离。
相应的,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例所述的基于深度卷积神经网络的目标物识别方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的 包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包 括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要 素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的 过程、方法、商品或者设备中还存在另外的相同要素。
本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元,或者可选地,还包括没有列出的步骤或单元,或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如,单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如,通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于深度卷积神经网络的目标物识别方法,其特征在于,包括:
获取目标物数据参数,根据所述目标物数据参数搭建目标物数据模型,其中,所述目标物数据模型包括车辆数据模型、行人数据模型以及路牌数据模型;
持续性采集目标车辆前方图像信息,对所述图像信息进行预处理得到待识别图像信息,其中,所述预处理包括对图像分辨率及RGB颜色进行定义;
根据所述待识别图像信息,调取预设的换算系数对所述待识别图像信息进行单元格划分得到输出单元格,所述输出单元格包括多个待识别数据模型;
基于所述目标物数据模型,对多个所述待识别数据模型降序排列进行非最大值抑制以及交并比筛选删除处理,得到最终目标物种类,完成目标物识别。
2.根据权利要求1所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述获取目标物数据集,根据所述目标物数据集搭建目标物数据模型步骤中,包括:
确定待识别目标物种类,根据目标物种类获取每一目标物对应的历史图像信息;
根据所述历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;
根据所述目标物数据参数构建目标物数据集,其中所述目标物数据集定义为,式中,/>表示候选框内对象置信度,/>表示待检测目标在预设坐标系中的位置,/>表示待检测目标的高度及宽度,/>表示待检测目标的种类;
基于所述目标物数据集,搭建目标物数据模型,其中,搭建目标物数据模型过程包括特征提取部分、特征融合部分和预测部分,并对其特征提取部分和特征融合部分进行优化。
3.根据权利要求1所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述持续性采集目标车辆前方图像信息,对所述图像信息进行预处理得到待识别图像信息,其中,所述预处理包括对图像分辨率及RGB颜色进行定义步骤中,包括:
根据采集的前方图像信息,对所述图像信息中的图像进行切片得到分辨率为608*608的输入图像,定义输入图像使用RGB颜色的通道数量,基于预处理后的图像分辨率及RGB颜色得到待识别图像信息。
4.根据权利要求1所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述根据所述待识别图像信息,调取预设的换算系数对所述待识别图像信息进行单元格划分得到输出单元格,所述输出单元格包括多个待识别数据模型步骤中,包括:
根据所述待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格。
5.根据权利要求4所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述根据所述待识别图像信息,对调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格步骤中,包括:
根据得到的输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度。
6.根据权利要求1所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述基于所述目标物数据模型,对多个所述待识别数据模型降序排列进行预筛选以及非最大值抑制交并比处理,得到最终目标物种类,完成目标物识别的步骤中,包括:
根据所述目标物数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;
利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
根据所述目标输出锚框的坐标参数信息以及预设候选框的宽度和高度参数,对剩余的待识别数据模型进行迭代删除处理,得到最终的目标物种类。
7.根据权利要求6所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述根据所述目标输出锚框的坐标参数以及预设候选框的宽度和高度参数信息,对剩余待识别数据模型进行迭代删除处理,得到最终的目标物种类的步骤中,包括:
根据所述目标输出锚框坐标参数以及预设候选框的宽度和高度参数信息,得到所述目标输出锚框的面积S1;
根据剩余的待识别数据模型对应的锚框坐标参数以及预设候选框的宽度和高度参数信息,得到剩余待识别数据模型对应的锚框面积S2;
根据目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积。
8.根据权利要求6所述的一种基于深度卷积神经网络的目标物识别方法,其特征在于,所述根据所述目标输出锚框的坐标参数以及预设候选框的宽度和高度参数信息,对剩余待识别数据模型进行迭代删除处理,得到最终的目标物种类的步骤中,还包括:
调取预设的交并比阈值,根据计算目标输出锚框与剩余待识别数据模型对应的锚框交并比iou,判断所述锚框交并比iou是否大于所述交并比阈值;
若所述锚框交并比iou大于所述交并比阈值,则对该剩余待识别数据模型进行删除;
若所述锚框交并比iou小于所述交并比阈值,则对该剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框;
根据所述最终输出锚框以及搭建目标物数据模型,得到最终的目标物种类。
9.一种基于深度卷积神经网络的目标物识别装置,其特征在于,所述装置包括:
模型搭建模块,被配置为根据目标物种类获取每一目标物对应的历史图像信息;根据所述历史图像信息对图像中目标物进行边界框标定,根据标定的边界框位置及类别,得到目标物数据参数;根据所述目标物数据参数构建目标物数据集,基于所述目标物数据集,搭建目标物数据模型;
获取模块,被配置为根据目标车辆设置的单目摄像头持续性采集目标车辆前方图像信息;
图像预处理模块,被配置为根据所述获取模块采集的图像信息,对所述图像信息中的图像进行切片得到分辨率为608*608的输入图像,定义输入图像使用RGB颜色的通道数量,基于预处理后的图像分辨率及RGB颜色得到待识别图像信息;
卷积处理模块,被配置为根据所述图像预处理模块得到的待识别图像信息,调取预设的深度卷积神经网络对所述待识别图像信息进行卷积处理,其中,卷积处理包括:调取预设的换算系数,对所述待识别图像信息的原始卷积层经过换算系数的运算并得到输出单元格,每一输出单元格包括多个待识别数据模型,所述待识别数据模型包括预设的锚框信息,每一锚框信息包括含归一化后的目标坐标x、y、归一化后的候选框的宽w和高h以及网格检测此类别目标的置信度;
第一数据处理模块,被配置为根据所述卷积处理模块得到的待识别数据模型,对每一所述待识别数据模型计算提取置信度,根据所述置信度大小对所述待识别数据模型进行降序排列;利用非最大值抑制从降序排列的所述待识别数据模型中选择置信度最高的锚框,得到目标输出锚框;
第二数据处理模块,被配置为根据所述卷积处理模块得到的待识别数据模型以及第一数据处理模块得到目标输出锚框,得到目标输出锚框的面积S1以及剩余待识别数据模型对应的锚框面积S2,计算目标输出锚框与剩余待识别数据模型对应的锚框交并比,其中,交并比计算公式为:,式中,iou表示交并比,S1表示目标输出锚框的面积,S2表示剩余待识别数据模型对应的锚框面积;
判断模块,被配置为根据所述第二数据处理模块得到的交并比iou,调取预设的交并比阈值,根据交并比iou与调取预设的交并比阈值,判断所述锚框交并比iou是否大于所述交并比阈值;
确定模块,被配置为根据所述判断模块的判断结果,对剩余待识别数据模型进行重复迭代计算,直至得到最后一个待识别数据模型对应最终输出锚框; 根据最终输出锚框以及搭建目标物数据模型,确定最终的目标物种类。
10.一种车辆,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
实现如权利要求1-8中任一项所述的一种基于深度卷积神经网络的目标物识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311460747.0A CN117523541A (zh) | 2023-11-06 | 2023-11-06 | 一种基于深度卷积神经网络的目标物识别方法、装置及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311460747.0A CN117523541A (zh) | 2023-11-06 | 2023-11-06 | 一种基于深度卷积神经网络的目标物识别方法、装置及车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117523541A true CN117523541A (zh) | 2024-02-06 |
Family
ID=89755982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311460747.0A Pending CN117523541A (zh) | 2023-11-06 | 2023-11-06 | 一种基于深度卷积神经网络的目标物识别方法、装置及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523541A (zh) |
-
2023
- 2023-11-06 CN CN202311460747.0A patent/CN117523541A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543814A (zh) | 一种交通灯的识别方法及装置 | |
EP4307251A1 (en) | Mapping method, vehicle, computer readable storage medium, and chip | |
CN115042821B (zh) | 车辆控制方法、装置、车辆及存储介质 | |
CN114882464B (zh) | 多任务模型训练方法、多任务处理方法、装置及车辆 | |
CN114056347A (zh) | 车辆运动状态识别方法及装置 | |
CN115147796A (zh) | 评测目标识别算法的方法、装置、存储介质及车辆 | |
CN115035494A (zh) | 图像处理方法、装置、车辆、存储介质及芯片 | |
CN115222941A (zh) | 目标检测方法、装置、车辆、存储介质、芯片及电子设备 | |
CN115220449A (zh) | 路径规划的方法、装置、存储介质、芯片及车辆 | |
CN115123257A (zh) | 路面减速带位置识别方法、装置、车辆、存储介质及芯片 | |
CN115203457B (zh) | 图像检索方法、装置、车辆、存储介质及芯片 | |
CN115205311B (zh) | 图像处理方法、装置、车辆、介质及芯片 | |
CN115056784B (zh) | 车辆控制方法、装置、车辆、存储介质及芯片 | |
CN114842440B (zh) | 自动驾驶环境感知方法、装置、车辆及可读存储介质 | |
CN115100630B (zh) | 障碍物检测方法、装置、车辆、介质及芯片 | |
EP4293630A1 (en) | Method for generating lane line, vehicle, storage medium and chip | |
CN115221151B (zh) | 车辆数据的传输方法、装置、车辆、存储介质及芯片 | |
CN115205848A (zh) | 目标检测方法、装置、车辆、存储介质及芯片 | |
CN117523541A (zh) | 一种基于深度卷积神经网络的目标物识别方法、装置及车辆 | |
CN114842455A (zh) | 障碍物检测方法、装置、设备、介质、芯片及车辆 | |
CN115035357A (zh) | 目标检测模型构建方法、目标检测方法、装置和计算设备 | |
CN114972824B (zh) | 杆件检测方法、装置、车辆和存储介质 | |
CN115063639B (zh) | 生成模型的方法、图像语义分割方法、装置、车辆及介质 | |
CN115082886B (zh) | 目标检测的方法、装置、存储介质、芯片及车辆 | |
CN115407344B (zh) | 栅格地图创建方法、装置、车辆及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |