CN112686155A - 图像识别方法、装置、计算机可读存储介质及处理器 - Google Patents
图像识别方法、装置、计算机可读存储介质及处理器 Download PDFInfo
- Publication number
- CN112686155A CN112686155A CN202011608415.9A CN202011608415A CN112686155A CN 112686155 A CN112686155 A CN 112686155A CN 202011608415 A CN202011608415 A CN 202011608415A CN 112686155 A CN112686155 A CN 112686155A
- Authority
- CN
- China
- Prior art keywords
- yolo
- neural network
- image
- model
- final
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 210000002569 neuron Anatomy 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 59
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000012790 confirmation Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000009795 derivation Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 abstract description 27
- 230000000694 effects Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种图像识别方法、装置、计算机可读存储介质及处理器。其中,该方法包括:获取待识别图像;将待识别图像输入到训练好的yolo‑final模型,由yolo‑final模型识别出待识别图像的目标,其中,yolo‑final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。本发明解决了现有技术中的yolo系列目标检测神经网络模型对某些目标的漏检的技术问题。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种图像识别方法、装置、计算机可读存储介质及处理器。
背景技术
近年来,随着深度学习技术取得突破性进展,在摄像头图像的目标识别检测方面,性能得到了极大地提升。因此,近几年来,深度学习技术逐渐应用于自动驾驶摄像头感知系统的目标检测,其中,对于目标检测,比较经典的深度学习模型包括:Faster RCNN和YOLO系列,其中yolo系列因实时性较高,更广泛地应用到类似自动驾驶这样的实时检测系统,从yolo-v3开始到2020年发展出yolo-v4/yolo-v5等新版本。
通过对yolo系列深度学习神经网络模型在自动驾驶摄像头图像目标感知的方面的深入实践研究,发现了几个不足之处:
1、yolo系列模型的神经网络训练,大量的神经元及权重参数用于目标分类处理,从而弱化了目标有无的训练及检出。自动驾驶应用中,最重要的是目标的检出,而分类错误是可以接受的。
2、yolo系列模型的神经网络训练,为了精确检测到不同大小目标的准确边界框,采用了多尺度特征图上检测目标的方法,一般采用3种图像尺寸的特征图进行目标检出。因此,在训练中,大量的神经元、权重参数分布于不同尺寸的边界框训练,从而弱化了目标是否存在这些神经元的比重。而自动驾驶应用中,目标是否存在(即检出)的重要性,远远高于边界框尽量减少误差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像识别方法、装置、计算机可读存储介质及处理器,以至少解决现有技术中的yolo系列目标检测神经网络模型对某些目标的漏检的技术问题。
根据本发明实施例的一个方面,提供了一种图像识别方法,包括:获取待识别图像;将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标,其中,所述yolo-final模型至少包括原始yolo神经网络模型以及在所述原始yolo神经网络模型的末端增加的final层神经网络模块,所述final层神经网络模块用于指示识别目标的神经元个数和权重参数。
可选地,将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标包括:将所述待识别图像输入所述原始yolo神经网络模型,得到不同尺度的特征图;将所述不同尺度的特征图进行融合,得到融合特征图;将所述融合特征图输入到所述final层神经网络模块,得到标签特征图;确定所述标签特征图的多个候选点,其中,所述候选点为潜在目标的中心点所在位置;将所述多个候选点以及所述原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到所述原始yolo神经网络模型的后处理模块进行目标确认;将确认的所述目标输出。
可选地,在获取待识别图像之前,所述方法还包括:基于原始yolo神经网络模型构建yolo-final模型;训练所述yolo-final模型。
可选地,基于原始yolo神经网络模型构建yolo-final模型包括:确定所述原始yolo神经网络模型;在所述原始yolo神经网络模型的末端增加的final层神经网络模块,生成所述yolo-final模型,其中,所述final层神经网络模块的卷积神经网络层数包括以下至少之一:4层、7层。
可选地,训练所述yolo-final模型包括:依据训练图像所标注的已知目标边界框,确定所述已知目标边界框的中心坐标;依据所述中心坐标的预设特征图值和预设半径,得到标签特征图;将所述训练图像输入所述yolo-final模型,由所述yolo-final模型确定训练结果;依据所述标签特征图和所述训练结果,确定训练损失;利用深度学习常规的损失函数对所述训练损失进行反向求导,迭代优化网络,直至所述标签特征图和所述训练结果相吻合。
根据本发明实施例的另一方面,还提供了一种图像识别装置,包括:获取单元,用于获取待识别图像;识别单元,用于将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标,其中,所述yolo-final模型至少包括原始yolo神经网络模型以及在所述原始yolo神经网络模型的末端增加的final层神经网络模块,所述final层神经网络模块用于指示识别目标的神经元个数和权重参数。
可选地,所述识别单元包括:第一处理子单元,用于将所述待识别图像输入所述原始yolo神经网络模型,得到不同尺度的特征图;融合子单元,用于将所述不同尺度的特征图进行融合,得到融合特征图;第二处理子单元,用于将所述融合特征图输入到所述final层神经网络模块,得到标签特征图;第一确定子单元,用于确定所述标签特征图的多个候选点,其中,所述候选点为潜在目标的中心点所在位置;确认子单元,用于将所述多个候选点以及所述原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到所述原始yolo神经网络模型的后处理模块进行目标确认;输出子单元,用于将确认的所述目标输出。
可选地,所述装置还包括:构建单元,用于基于原始yolo神经网络模型构建yolo-final模型;训练单元,用于训练所述yolo-final模型。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的图像识别方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的图像识别方法。
在本发明实施例中,采用获取待识别图像;将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标,其中,所述yolo-final模型至少包括原始yolo神经网络模型以及在所述原始yolo神经网络模型的末端增加的final层神经网络模块,所述final层神经网络模块用于指示识别目标的神经元个数和权重参数,通过训练好的yolo-final模型识别出待识别图像的目标,达到了快速、准确识别出待识别图像的目标的目的,从而实现了提高目标检出率的技术效果,进而解决了现有技术中的yolo系列目标检测神经网络模型对某些目标的漏检的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的图像识别方法的流程图;
图2是根据本发明实施例的图像识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种图像识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的图像识别方法的流程图,如图1所示,该图像识别方法包括如下步骤:
步骤S102,获取待识别图像;
步骤S104,将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。
作为一种可选的实施例,通过在原始yolo神经网络模型的末端,增加final层神经网络模块,可提高自动驾驶中摄像头目标有无的检出的神经元及权重参数在整个模型中的比重,从而达到提高目标检出率的效果。
作为一种可选的实施例,增加的final层神经网络模块可以突出检测目标区域的中心位置,并由中心位置向外辐射逐渐降低权重,从而可以形成一种图像上目标中心区域取得极大值的特征图,从而可以更好地检出目标,减少原yolo网络对某些目标的漏检。
需要说明的是,上述神经元个数和权重参数可以根据应用场景需要而设置,由于增加了final层神经网络模块使得总体网络的拥有更多的神经元、权重参数,提高了目标检出在整个神经网络模型中的比重。
通过上述步骤,可以采用获取待识别图像,再将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数,通过训练好的yolo-final模型识别出待识别图像的目标,达到了快速、准确识别出待识别图像的目标的目的,从而实现了提高目标检出率的技术效果,进而解决了现有技术中的yolo系列目标检测神经网络模型对某些目标的漏检的技术问题。
可选地,将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标包括:将待识别图像输入原始yolo神经网络模型,得到不同尺度的特征图;将不同尺度的特征图进行融合,得到融合特征图;将融合特征图输入到final层神经网络模块,得到标签特征图;确定标签特征图的多个候选点,其中,候选点为潜在目标的中心点所在位置;将多个候选点以及原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到原始yolo神经网络模型的后处理模块进行目标确认;将确认的目标输出。
作为一种可选的实施例,首先,将待识别图像输入原始yolo神经网络模型经过多层计算,得到不同尺度的特征图;其次,将不同尺度的特征图进行融合输入到final层神经网络模块就会得到一张标签特征图;然后,从该标签特征图上取得多个局部最大值点,即为潜在目标的中心点所在位置;最后,将候选点和原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,一起送入原始yolo神经网络模型的后处理模块(原yolo框架常规算法模块)进行目标最终挑选与确认,进而将确认的目标输出。通过上述实施方式,可以有效提高目标识别或者检出的精确度。
可选地,在获取待识别图像之前,上述方法还包括:基于原始yolo神经网络模型构建yolo-final模型;训练yolo-final模型。
作为一种可选的实施例,yolo-final模型是在原始yolo神经网络模型的基础上构建的,并对构建好的yolo-final模型进行训练,以得到最优参数,从而提高yolo-final模型的识别准确度。
可选地,基于原始yolo神经网络模型构建yolo-final模型包括:确定原始yolo神经网络模型;在原始yolo神经网络模型的末端增加的final层神经网络模块,生成yolo-final模型,其中,final层神经网络模块的卷积神经网络层数包括以下至少之一:4层、7层。
作为一种可选的实施例,上述yolo-final模型是在原始yolo神经网络模型的末端增加的final层神经网络模块得到的。在具体实施过程中,上述final层神经网络模块的卷积神经网络层数包括但不限于4层、7层等,还可以是其他层数,在此不再一一赘述。
可选地,训练yolo-final模型包括:依据训练图像所标注的已知目标边界框,确定已知目标边界框的中心坐标;依据中心坐标的预设特征图值和预设半径,得到标签特征图;将训练图像输入yolo-final模型,由yolo-final模型确定训练结果;依据标签特征图和训练结果,确定训练损失;利用深度学习常规的损失函数对训练损失进行反向求导,迭代优化网络,直至标签特征图和训练结果相吻合。
作为一种可选的实施例,在训练yolo-final模型的过程中,需要依据训练图像所标注的已知目标边界框,确定已知目标边界框的中心坐标,其次依据中心坐标的预设特征图值和预设半径,得到标签特征图,再将训练图像输入yolo-final模型,由yolo-final模型确定训练结果,进一步依据标签特征图和训练结果,确定训练损失,最后利用深度学习常规的损失函数对训练损失进行反向求导,迭代优化网络,直至标签特征图和训练结果相吻合。通过上述实施方式可以得到最终可以准确识别图像目标的yolo-final模型,需要说明的是,上述训练过程使得yolo-final模型的相关参数最优化。
下面对本发明一种可选的实施方式进行详细说明。
在本发明的可选实施例中,基础神经网络模型仍然沿用yolo-v5的框架,在yolo-v5的框架基础上,增加一个final层神经网络模块,对图像中目标是否存在及其中心位置,进行权重训练。
其中,可选的训练流程如下:
首先,对用来训练的图像所标注的已知目标边界框,计算出其中心坐标;
其次,设定中心坐标特征图值为1,按照一定半径R向四周辐射,R=minimum(box_Width,box_Height)/2,也即是,R取值为目标边界框的宽和高的最小值,再除以2,并且使得其特征图值从圆心为1开始到距离圆心达R处衰减至0,从而形成一幅以目标中心取得极大值,中心区域形成一定高坡,命名此标签特征图为label-object-feature;
final层神经网络模块由多层卷积运算组合而成,例如,由7层卷积层组合而成,待检测图像经过原始的yolo网络提取到特征图后,再经过final层神经网络模块的多层卷积运算,最后与标签特征图label-object-feature计算损失(即误差);
然后,利用深度学习常规的损失函数进行反向求导,迭代优化网络,直至待检测图像经过整个神经网络,从final层输出后,与label-object-feature最为吻合时,即终止总体网络的训练。
可选的预测流程如下:
通过训练后,final层神经网络模块的各层神经元都已经取得最优参数,当待识别图像从yolo-final网络输入端输入后:
首先,经过final模块之前的原始yolo-v5模型各层计算,得到不同尺度的特征图;
其次,将不同尺度的特征图融合,输入到final层神经网络模块,进行神经网络的运算,输出一张label-object-feature;
然后从label-object-feature特征图上,取得多个局部最大值点,即为潜在目标的中心点所在位置;
最后,将候选点以及原yolo-v5框架的输出边界框/分类特征提取的候选区域,一起送入原yolo-v5框架的的后处理模块进行目标最终挑选与确认;
将确认的目标输出。
作为一种可选的实施例,为了取得较好的神经网络训练效果,final层神经网络模块采用了较多的卷积神经网络层数(7层);对于目标中心区域特征值,从中心点1,衰减至半径R处为0,R取了较大的值。但这样处理,会使得神经网络的层数、神经元个数、权重参数都增多,从而导致计算量增大,和对计算机储存空间要求增大。
作为另一种可选的实施例,采用降低复杂度的设计,使得计算量下降一半左右,但性能仅略微降低。具体实施办法,总体流程与第一实施例完全一样,区别在于如下两点:仅采用4层卷积神经网络层作为final层神经网络模块;计算目标中心区域的特征值时,减小衰减半径:R=minimum(box_Width,box_Height)/3,即:R取值为目标边界框的宽和高的最小值,再除以3或4等,使得R值变小,从而减少参与损失计算的面积。
本发明的上述实施方式中,通过改进所添加的final层神经网络模块,提高了目标检出在整个神经网络模型中的比重,从而使得总体网络的更多神经元、权重参数,可以贡献到目标检出方面,稍许弱化了目标分类、目标边界框的精度。从而以少量的牺牲分类精度、边界框精度,却能大幅提高目标是否存在及其中心位置的检出,是非常符合自动驾驶摄像头感知需求的。至于所牺牲的边界框精度,可以配合自动驾驶感知系统其它传感器,例如激光雷达所得到的3D点云,进行数据融合修正,从而可弥补摄像头图像检测中所牺牲的边界框精度。
需要说明的是,在具体实施中,采用了5100张摄像头实时采集的道路交通图像,包含真实街景、车辆、行人、以及自行车摩托车三轮车等。对于原始的yolo系统,我们采用2020年最新发布的yolo-v5神经网络模型,与本发明的yolo-final模型进行结果对比。
目标检出率=检出的目标总数/所有标注的目标总数;
yolo-v5模型的目标检出率达到86.6%;而本发明的yolo-final模型的目标检出率则达到95.3%。
因此,由于采用了本发明的final模块,将自动驾驶目标检出率从86.6%大幅提升到95.3%。需要说明的是,部分较小或者遮挡较多的目标,yolo-v5模型未检出,但本发明的yolo-final模型成功检出。
实施例2
根据本发明实施例的另一方面,还提供了一种图像识别装置,图2是根据本发明实施例的图像识别装置的示意图,如图2所示,该图像识别装置包括:获取单元22和识别单元24。下面对该图像识别装置进行详细说明。
获取单元22,用于获取待识别图像;识别单元24,连接至上述获取单元22,用于将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。
在本发明的上述实施例中,图像识别装置可以通过训练好的yolo-final模型识别出待识别图像的目标,达到了快速、准确识别出待识别图像的目标的目的,从而实现了提高目标检出率的技术效果,进而解决了现有技术中的yolo系列目标检测神经网络模型对某些目标的漏检的技术问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;和/或,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取单元22和识别单元24对应于实施例1中的步骤S102至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选地,上述识别单元包括:第一处理子单元,用于将待识别图像输入原始yolo神经网络模型,得到不同尺度的特征图;融合子单元,用于将不同尺度的特征图进行融合,得到融合特征图;第二处理子单元,用于将融合特征图输入到final层神经网络模块,得到标签特征图;第一确定子单元,用于确定标签特征图的多个候选点,其中,候选点为潜在目标的中心点所在位置;确认子单元,用于将多个候选点以及原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到原始yolo神经网络模型的后处理模块进行目标确认;输出子单元,用于将确认的目标输出。
可选地,上述装置还包括:构建单元,用于基于原始yolo神经网络模型构建yolo-final模型;训练单元,用于训练yolo-final模型。
可选地,上述构建单元包括:第二确定子单元,用于确定原始yolo神经网络模型;生成子单元,用于在原始yolo神经网络模型的末端增加的final层神经网络模块,生成yolo-final模型,其中,final层神经网络模块的卷积神经网络层数包括以下至少之一:4层、7层。
可选地,上述训练单元包括:第三确定子单元,用于依据训练图像所标注的已知目标边界框,确定已知目标边界框的中心坐标;第三处理子单元,用于依据中心坐标的预设特征图值和预设半径,得到标签特征图;第四确定子单元,用于将训练图像输入yolo-final模型,由yolo-final模型确定训练结果;第五确定子单元,用于依据标签特征图和训练结果,确定训练损失;第四处理子单元,用于利用深度学习常规的损失函数对训练损失进行反向求导,迭代优化网络,直至标签特征图和训练结果相吻合。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的图像识别方法。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,和/或位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:获取待识别图像;将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。
实施例4
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述中任意一项的图像识别方法。
本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取待识别图像;将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取待识别图像;将待识别图像输入到训练好的yolo-final模型,由yolo-final模型识别出待识别图像的目标,其中,yolo-final模型至少包括原始yolo神经网络模型以及在原始yolo神经网络模型的末端增加的final层神经网络模块,final层神经网络模块用于指示识别目标的神经元个数和权重参数。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标,其中,所述yolo-final模型至少包括原始yolo神经网络模型以及在所述原始yolo神经网络模型的末端增加的final层神经网络模块,所述final层神经网络模块用于指示识别目标的神经元个数和权重参数。
2.根据权利要求1所述的方法,其特征在于,将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标包括:
将所述待识别图像输入所述原始yolo神经网络模型,得到不同尺度的特征图;
将所述不同尺度的特征图进行融合,得到融合特征图;
将所述融合特征图输入到所述final层神经网络模块,得到标签特征图;
确定所述标签特征图的多个候选点,其中,所述候选点为潜在目标的中心点所在位置;
将所述多个候选点以及所述原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到所述原始yolo神经网络模型的后处理模块进行目标确认;
将确认的所述目标输出。
3.根据权利要求1所述的方法,其特征在于,在获取待识别图像之前,所述方法还包括:
基于原始yolo神经网络模型构建yolo-final模型;
训练所述yolo-final模型。
4.根据权利要求3所述的方法,其特征在于,基于原始yolo神经网络模型构建yolo-final模型包括:
确定所述原始yolo神经网络模型;
在所述原始yolo神经网络模型的末端增加的final层神经网络模块,生成所述yolo-final模型,其中,所述final层神经网络模块的卷积神经网络层数包括以下至少之一:4层、7层。
5.根据权利要求3所述的方法,其特征在于,训练所述yolo-final模型包括:
依据训练图像所标注的已知目标边界框,确定所述已知目标边界框的中心坐标;
依据所述中心坐标的预设特征图值和预设半径,得到标签特征图;
将所述训练图像输入所述yolo-final模型,由所述yolo-final模型确定训练结果;
依据所述标签特征图和所述训练结果,确定训练损失;
利用深度学习常规的损失函数对所述训练损失进行反向求导,迭代优化网络,直至所述标签特征图和所述训练结果相吻合。
6.一种图像识别装置,其特征在于,包括:
获取单元,用于获取待识别图像;
识别单元,用于将所述待识别图像输入到训练好的yolo-final模型,由所述yolo-final模型识别出所述待识别图像的目标,其中,所述yolo-final模型至少包括原始yolo神经网络模型以及在所述原始yolo神经网络模型的末端增加的final层神经网络模块,所述final层神经网络模块用于指示识别目标的神经元个数和权重参数。
7.根据权利要求6所述的装置,其特征在于,所述识别单元包括:
第一处理子单元,用于将所述待识别图像输入所述原始yolo神经网络模型,得到不同尺度的特征图;
融合子单元,用于将所述不同尺度的特征图进行融合,得到融合特征图;
第二处理子单元,用于将所述融合特征图输入到所述final层神经网络模块,得到标签特征图;
第一确定子单元,用于确定所述标签特征图的多个候选点,其中,所述候选点为潜在目标的中心点所在位置;
确认子单元,用于将所述多个候选点以及所述原始yolo神经网络模型的输出边界框/分类特征提取的候选区域,输入到所述原始yolo神经网络模型的后处理模块进行目标确认;
输出子单元,用于将确认的所述目标输出。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
构建单元,用于基于原始yolo神经网络模型构建yolo-final模型;
训练单元,用于训练所述yolo-final模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至5中任意一项所述的图像识别方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608415.9A CN112686155A (zh) | 2020-12-29 | 2020-12-29 | 图像识别方法、装置、计算机可读存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608415.9A CN112686155A (zh) | 2020-12-29 | 2020-12-29 | 图像识别方法、装置、计算机可读存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112686155A true CN112686155A (zh) | 2021-04-20 |
Family
ID=75454972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011608415.9A Pending CN112686155A (zh) | 2020-12-29 | 2020-12-29 | 图像识别方法、装置、计算机可读存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686155A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435343A (zh) * | 2021-06-29 | 2021-09-24 | 重庆紫光华山智安科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011608415.9A patent/CN112686155A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435343A (zh) * | 2021-06-29 | 2021-09-24 | 重庆紫光华山智安科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222395B (zh) | 目标检测方法、装置与电子设备 | |
KR101856401B1 (ko) | 차선 데이터의 처리 방법, 장치, 저장매체 및 기기 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
CN114519853B (zh) | 一种基于多模态融合的三维目标检测方法及系统 | |
JP7327077B2 (ja) | 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム | |
CN112528781B (zh) | 一种障碍物检测方法、装置、设备和计算机可读存储介质 | |
CN112597995A (zh) | 车牌检测模型训练方法、装置、设备及介质 | |
CN116993979A (zh) | 一种基于实例中心编码的点云全景分割系统及方法 | |
CN115527050A (zh) | 图像特征匹配方法、计算机设备和可读存储介质 | |
CN105303554A (zh) | 一种图像特征点的3d重建方法和装置 | |
CN109523570A (zh) | 运动参数计算方法及装置 | |
CN112686155A (zh) | 图像识别方法、装置、计算机可读存储介质及处理器 | |
CN116630367B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
CN115239776B (zh) | 点云的配准方法、装置、设备和介质 | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
Tamayo et al. | Improving object distance estimation in automated driving systems using camera images, LiDAR point clouds and hierarchical clustering | |
CN113569803A (zh) | 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及系统 | |
CN115063594B (zh) | 一种基于自动驾驶的特征提取方法及装置 | |
CN110634150A (zh) | 一种即时定位与地图构建的生成方法、系统及装置 | |
CN118135484B (zh) | 目标检测方法、装置及相关设备 | |
CN114049444B (zh) | 一种3d场景生成方法及装置 | |
CN112927291B (zh) | 三维物体的位姿确定方法、装置及电子设备和存储介质 | |
CN111815667B (zh) | 一种相机移动条件下高精度检测运动目标的方法 | |
CN110567728B (zh) | 用户拍摄意图的识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |