CN115116030A - 交通标识牌的识别方法和装置、存储介质及电子装置 - Google Patents
交通标识牌的识别方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN115116030A CN115116030A CN202210663444.8A CN202210663444A CN115116030A CN 115116030 A CN115116030 A CN 115116030A CN 202210663444 A CN202210663444 A CN 202210663444A CN 115116030 A CN115116030 A CN 115116030A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- feature maps
- group
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种交通标识牌的识别方法和装置、存储介质及电子装置,其中,上述方法包括:获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别。通过本申请,解决了相关技术中的交通标识牌的识别方法存在由于易受到天气影响导致识别的准确率低的问题。
Description
技术领域
本申请涉及自动驾驶领域,具体而言,涉及一种交通标识牌的识别方法和装置、存储介质及电子装置。
背景技术
在自动驾驶的过程中,为了提高自动驾驶的安全性以及稳定性,可以通过对交通标识牌进行识别,根据识别结果自动调节驾驶的车速、车道等参数。
目前,一般采用图像检测模型对获取到图像进行识别,确定出与交通标识牌对应的信息。然而,在使用图像检测模型对图像进行识别的过程中,可能会受到天气影响,在阴雨天进行交通标识牌识别的准确度低。
由此可知,相关技术中的交通标识牌的识别方法存在由于易受到天气影响导致识别的准确率低的问题。
发明内容
本申请实施例提供了一种交通标识牌的识别方法和装置、存储介质及电子装置,以至少解决相关技术中的交通标识牌的识别方法存在由于易受到天气影响导致识别的准确率低的问题。
根据本申请实施例的一个方面,提供了一种交通标识牌的识别方法,包括:获取待识别图像,其中,所述待识别图像为待识别包含的交通标识牌的类别的图像;根据预设形状对所述待识别图像执行预识别操作,得到目标图像,其中,所述预设形状为预设的与所述交通标识牌对应的形状;将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,其中,所述目标识别结果用于指示识别到的所述交通标识牌的类别。
根据本申请实施例的另一个方面,还提供了一种交通标识牌的识别装置,包括:获取单元,用于获取待识别图像,其中,所述待识别图像为待识别包含的交通标识牌的类别的图像;执行单元,用于根据预设形状对所述待识别图像执行预识别操作,得到目标图像,其中,所述预设形状为预设的与所述交通标识牌对应的形状;输入单元,用于将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,其中,所述目标识别结果用于指示识别到的所述交通标识牌的类别。
在一个示例性实施例中,所述执行单元包括:滑动模块,用于使用目标截取框在所述待识别图像中进行多次滑动,得到一组截取图像,其中,所述一组截取图像中的每张截取图像为在一次滑动之后,通过所述目标截取框从所述待识别图像中截取到的图像;筛选模块,用于从所述一组截取图像中筛选出包含所述预设形状的对象的截取图像,得到所述目标图像。
在一个示例性实施例中,所述输入单元包括:第一输入模块,用于将所述目标图像输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的多组特征图,其中,所述目标模型结构包含依次连接的多层卷积层,所述多层卷积层中的每层卷积层用于输出所述多组特征图中的一组特征图;执行模块,用于通过对所述多组特征图执行特征加强操作,得到加强后的所述多组特征图,其中,所述特征加强操作包括以下至少之一:特征图上采样,特征图下采样;第二输入模块,用于将加强后的多组特征图输入到所述目标识别模型的解耦头,得到与所述多组特征图对应的预测结果,其中,所述与所述多组特征图对应的预测结果用于指示与识别所述交通标识牌的类别对应的多个识别参数的预测结果;第一确定模块,用于根据与所述多组特征图对应的预测结果,确定出所述目标识别结果。
在一个示例性实施例中,所述装置还包括:拆分单元,用于在将所述目标图像输入到所述目标识别模型的目标模型结构之前,通过每隔一个像素点提取所述目标图像中的一个特征值对所述目标图像进行图像拆分,得到四组拆分图像,其中,输入到所述目标模型结构中的所述目标图像为拆分后的所述四组拆分图像。
在一个示例性实施例中,所述第一输入模块包括:拆分子模块,用于在所述每层卷积层进行特征图卷积的过程中,将输入到所述每层卷积层的残差块进行拆分,得到第一残差块和第二残差块;第一卷积子模块,用于通过所述每层卷积层对所述第一残差块进行卷积处理,得到所述每层卷积层输出的初始特征图;第一拼接子模块,用于将所述初始特征图与所述第二残差块进行拼接,得到所述每层卷积层输出的一组特征图。
在一个示例性实施例中,所述执行模块包括:第二卷积子模块,用于对所述多组特征图中的第一组特征图进行卷积处理,得到一组第一特征图;下采样子模块,用于对所述多组特征图中的第二组特征图进行下采样处理,得到一组第二特征图,其中,所述第二组特征图的特征图尺寸大于所述第一组特征图中的特征图尺寸;第二拼接子模块,用于将所述一组第一特征图与所述一组第二特征图进行特征图拼接,得到加强后的所述第一组特征图;上采样子模块,用于对所述一组第一特征图进行上采样处理,得到一组第三特征图;第三拼接子模块,用于将所述第二组特征图与所述一组第三特征图进行特征图拼接,得到加强后的所述第二组特征图。
在一个示例性实施例中,所述输入单元包括:第三输入模块,用于在所述目标图像的数量为多张的情况下,将每张所述目标图像分别输入到所述目标识别模型,得到所述目标识别模型输出的多个识别结果;第二确定模块,用于在所述多个识别结果中仅有一个识别结果用于指示识别到所述交通标识牌的类别的情况下,将所述一个识别结果,确定为所述目标识别结果;第三确定模块,用于在所述多个识别结果中有至少两个识别结果用于指示识别到所述交通标识牌的类别的情况下,将所述至少两个识别结果,确定为所述目标识别结果。
在本申请实施例中,采用对待识别图像进行预识别后再输入到识别模型方式,通过获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别,由于根据预设的形状对待识别的图像进行预识别,可以从待识别图像中筛选出包含交通标识牌类别的图像,从而可以实现降低天气因素对待识别图像质量的影响的目的,达到了提高交通标识牌识别准确率的技术效果,进而解决了相关技术中的交通标识牌的识别方法存在由于易受到天气影响导致识别的准确率低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的交通标识牌的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的交通标识牌的识别方法的流程示意图;
图3是根据本申请实施例的一种可选的交通标识牌的识别模型的示意图;
图4是根据本申请实施例的一种可选的交通标识牌的识别模型的训练流程的示意图;
图5是根据本申请实施例的另一种可选的交通标识牌的识别模型的训练流程的示意图;
图6是根据本申请实施例的另一种可选的交通标识牌的识别方法的流程示意图;
图7是根据本申请实施例的一种可选的交通标识牌的识别装置的结构框图;
图8是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种交通标识牌的识别方法。可选地,在本实施例中,上述交通标识牌的识别方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端设备或终端设备上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑等。
本申请实施例的交通标识牌的识别方法可以由服务器104来执行,也可以由终端设备102来执行,还可以是由服务器104和终端102共同执行。其中,终端设备102执行本申请实施例的交通标识牌的识别方法也可以是由安装在其上的客户端来执行。
以由服务器104来执行本实施例中的交通标识牌的识别方法为例,图2是根据本申请实施例的一种可选的交通标识牌的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像。
本实施例中的交通标识牌的识别方法可以应用到使用识别模型对交通标识牌的类别进行识别的场景中,上述识别模型可以是图像识别模型,例如,模板匹配模型,原型匹配模型等,还可以是其他用于执行图像识别任务的识别模型,本实施例中对此不作限定。
在本实施例中,进行交通标识牌识别的模型为目标识别模型,该识别模型可以是用于执行图像识别任务的模型,例如,神经网络模型等,该模型可以包括目标模型结构以及位于目标模型结构之后的解耦头,其中,目标模型结构用于对输入的待识别图像进行特征提取,而解耦头基于目标模型结构提取出的特征进行图像识别,并输出图像识别结果。
上述目标识别模型可以布设到服务器上,服务器可以接收目标设备发送的待识别图像,目标设备可以是机器人、移动汽车以及车载设备(例如,行车记录仪等)。目标设备上可以布设有图像采集部件,通过图像采集部件,目标设备可以采集到待识别图像,并将待识别图像发送给服务器。此外,服务器也可以从预设的数据库中读取待识别图像、或者从本地读取待识别图像或者其他方式获取待识别图像,本实施例中对于待识别图像的获取方式不做限定。
步骤S204,根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状。
相关技术中,在对交通标识牌进行识别的过程中,可以使用图像识别模型(可以是基于神经网络的深度学习模型)执行对应的图像识别任务。在进行图像识别时,可以直接将待识别的图像输入至图像识别模型中,得到图像识别模型输出的向量。
然而,上述的图像识别模型易受到天气因素的影响,在阴天或者下雨天气时,获取到的待识别图像的清晰度较低,在输入到图像识别模型后得到的输出结果不准确,导致识别的准确率低的问题。
为了至少部分解决上述问题,在获取到待识别图像后,服务器可以根据预设形状对待识别的图像执行预识别操作,得到目标图像。由于根据预设的形状对待识别的图像进行预识别,可以从待识别图像中筛选出包含交通标识牌类别的图像,可以实现在阴雨天气下对待识别图像进行识别的目的,提高了交通标识牌识别的准确率。
对于交通标识牌,其可以是具有特定形状特征的标识牌,例如,圆形标识牌,矩形标识牌等,因此,可以根据预设形状对待识别的图像执行预识别操作,从待识别图像中提取出具有预设形状的图像,即,目标图像。这里,预设形状可以是终端设备中保存的形状,可以是圆形,矩形等形状。
服务器根据预设形状对待识别图像执行预识别操作,得到目标图像的方法可以有一种或多种,可以是根据预设形状,从待识别图像中提取出包含预设形状的图像,得到目标图像,也可以是根据预设形状,从待识别图像中筛选掉不具有预设形状的图像,得到目标图像,还可以是通过其他方式根据预设形状对待识别图像执行预识别操作,得到目标图像,本实施例中对此不作限定。
可选地,对于交通标识牌,还可以是具有特定颜色特征的标识牌,例如,使用蓝色或者黄色进行提示的标识牌,服务器对待识别图像执行预识别操作,可以是根据预设颜色和预设形状同时对待识别图像执行预设别操作,得到包含有预设颜色和预设形状的目标图像。这里,预设颜色可以是服务器保存的颜色,例如,黄色,橙色,蓝色等,本实施例中对预设颜色不作限定。
步骤S206,将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别。
在得到目标图像之后,可以将目标图像输入到目标识别模型中,得到目标识别模型输出的目标识别结果。目标识别模型可以包括目标模型结构以及解耦头,通过目标模型结构对目标图像进行特征提取,然后通过解耦头基于目标模型结构提取出的特征进行图像识别,并输出目标识别结果,这里,目标识别结果可以是与目标识别模型的识别任务所对应的,例如,目标识别结果为交通标识牌的类别,交通标识牌所指示的意图等,本实施例中对此不作限定。
例如,交通标识牌的类别可以包括最高限速,最低限速以及取消限速三个大类,可以通过目标识别模型,输出与交通标识牌对应的目标识别结果,比如,“最高限速100公里每小时”,“最低限速60公里每小时”,“取消80公里每小时限速”等,此外,交通标识牌还可以包括车辆最大高度限制,车辆最大宽度限制等类别,本实施例中对此不作限定。
通过上述步骤S202至步骤S206,获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别,解决了相关技术中的交通标识牌的识别方法存在由于受到天气影响导致识别的准确率低的问题,提高了交通标识牌识别的准确率。
在一个示例性实施例中,根据预设形状对待识别图像执行预识别操作,得到目标图像,包括:
S11,使用目标截取框在待识别图像中进行多次滑动,得到一组截取图像,其中,一组截取图像中的每张截取图像为在一次滑动之后,通过目标截取框从待识别图像中截取到的图像;
S12,从一组截取图像中筛选出包含预设形状的对象的截取图像,得到目标图像。
在本实施例中,可以使用目标截取框对待识别图像进行截取。目标截取框可以是任意大小、任意形状的截取框,为了提高交通标识牌识别的准确率,服务器可以根据待识别图像的大小以及形状,使用与待识别图像匹配的截取框。可以使用目标截取框在待识别图像中进行多次滑动(例如,上下平移滑动,左右平移滑动等)来对待识别图像进行截取,得到一组与目标截取框的大小相同的图像,即,截取图像。
对于一组截取图像,可以从一组截取图像中筛选出包含预设形状的对象的截取图像,得到目标图像。由于采用滑动截取的方式得到的一组截取图像,筛选出的目标图像可能包括多张图像,因此,可以对目标图像执行查重操作,得到包含预设形状的目标图像。
通过本实施例,通过使用截取框从待识别图像中截取出包含预设形状的目标图像,可以提高交通标识牌识别的便捷性和准确性。
在一个示例性实施例中,将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,包括:
S21,将目标图像输入到目标识别模型的目标模型结构,得到目标模型结构输出的多组特征图,其中,目标模型结构包含依次连接的多层卷积层,多层卷积层中的每层卷积层用于输出多组特征图中的一组特征图;
S22,通过对多组特征图执行特征加强操作,得到加强后的多组特征图,其中,特征加强操作包括以下至少之一:特征图上采样,特征图下采样;
S23,将加强后的多组特征图输入到目标识别模型的解耦头,得到与多组特征图对应的预测结果,其中,与多组特征图对应的预测结果用于指示与识别交通标识牌的类别对应的多个识别参数的预测结果;
S24,根据与多组特征图对应的预测结果,确定出目标识别结果。
在本实施例中,目标模型结构可以对目标图像进行特征提取,得到目标模型结构输出的多组特征图。目标模型结构可以包含依次连接的多层卷积层,上述特征提取的过程可以是:将目标图像输入至多层卷积层的第一层卷积层中,得到第一层卷积层输出的一组特征图,继续把第一层卷积层输出的一组特征图输入到下一层卷积层,得到下一层卷积层输出的一组新的特征图,重复上述步骤,直到得到最后一层卷积层输出的一组特征图,将每层卷积层输出的特征图进行整理,得到目标模型结构输出的多组特征图。多层卷积层的层数可以至少为三层,对应的,输出的多组特征图可以至少为三组。
在获取到多组特征图之后,可以直接将多组特征图中的每组特征图分别输入到目标识别模型的解耦头,得到与多组特征图对应的预测结果。为了提高交通标识牌识别的准确性,可以对多组特征图执行加强操作,得到加强后的多组特征图。上述加强操作可以是对多组特征图中的其中一组特征图,从多组特征图中选取与该组特征图对应的卷积层相邻层卷积层输出的一组特征图的其中一组特征图进行上采样操作或者下采样操作,并将上采样或者下采样后的特征图与另一组特征图进行拼接,得到与上述的一组特征图对应的、加强后的一组特征图。通过上述的多组特征图的每组特征图分别进行加强操作,可以得到加强后的多组特征图。
可选地,对于解耦头,其可以包括两个分类分支,以及与两个分类分支相连的一个回归分支,可以将加强后的多组特征图输入至解耦头中,通过解耦头的两个分类分支对交通标识牌的类别对应的多个识别参数进行预测,得到多个预测结果。对于交通标识牌,可以通过多个识别参数对其进行预测,得到与交通标识牌的类别对应的多个预测结果。上述预测结果可以包括以下至少之一:待识别图像中包含交通标识牌的预测框的坐标,交通标识牌所述的种类以及置信度。上述预测框用于表示交通标识牌所在图像中的预测位置。上述置信度表示预测框中存在有交通标识牌的可信度。在得到多种预测结果后,可以将多种预测结果输入到回归分支中,将多种预测结果进行拼接,得到多组特征图对应的预测结果,其可以是一组预测结果。
可选地,服务器可以直接将预测结果确定为目标识别结果,或者,在获取到目标识别结果后,对使用目标置信度阈值对预测结果进行检验,当预测结果的置信度大于或者目标置信度阈值的情况下,将预测结果确定为目标识别结果,而在预测结果的置信度小于目标置信度阈值的情况下,可以将目标识别结果确定为未识别出交通标识牌。
通过本实施例,通过将目标图像输入到目标识别模型的目标模型结构的多层卷积层,得到多组特征图,然后对多组特征图进行加强操作,将加强后的特征图输入至解耦头中,进而确定出目标识别结果,可以提高模型识别的准确性和便捷性。
在一个示例性实施例中,在将目标图像输入到目标识别模型的目标模型结构之前,上述方法还包括:
S31,通过每隔一个像素点提取目标图像中的一个特征值对目标图像进行图像拆分,得到四组拆分图像,其中,输入到目标模型结构中的目标图像为拆分后的四组拆分图像。
服务器可以直接将目标图像输入至目标识别模型的目标模型结构。为了而提高交通标识牌识别的准确性,可以对目标图像进行拆分,例如,服务器可以通过每隔一个像素点提取目标图像的一个特征值的方式,对目标图像进行拆分,得到四组拆分后的图像。通过使用上述拆分方式,可以对目标图像的宽度特征和高度特征进行特征整合,从而提高交通标识牌识别的准确性。
可选地,上述的操作可以通过Focus结构(一种网络模型结构)来进行实现的。服务器可以将目标图像输入至Focus结构,通过Focus结构每隔一个像素点提取目标图像的一个特征值,从而提取到与目标图像对应的四个特征层,即,四组拆分后的图像。然后可以将四个独立的特征层进行堆叠,将目标图像的宽度特征以及高度特征集合到通道中,相比于目标图像而言,堆叠后的特征层的图像的高度和宽度被压缩了二分之一,而输入通道则扩充到原来的四倍。
通过本实施例,通过对目标图像进行拆分,可以提高交通标识牌识别的准确性和便捷性。
在一个示例性实施例中,将目标图像输入到目标识别模型的目标模型结构,得到目标模型结构输出的多组特征图,包括:
S41,在每层卷积层进行特征图卷积的过程中,将输入到每层卷积层的残差块进行拆分,得到第一残差块和第二残差块;
S42,通过每层卷积层对第一残差块进行卷积处理,得到每层卷积层输出的初始特征图;
S43,将初始特征图与第二残差块进行拼接,得到每层卷积层输出的一组特征图。
在通过目标模型结构进行卷积的过程中,为了保证模型梯度的稳定性,避免由于梯度消失或者梯度爆炸导致模型识别失败的问题,可以将输入到每层卷积层的残差块进行拆分,得到第一残差块和第二残差块。上述残差块可以是输入到每层卷积层的一组特征图。可以通过每层卷积层,对第一残差块进行卷积处理,得到每层卷积层输出的一组初始特征图,然后再将初始特征图与第二残差块进行拼接,得到每层卷积层输出的一组特征图。
可选地,目标模型的目标结构中的每层卷积层可以采用CSPDarnket结构(CrossStage Partial Darknet,跨阶段局部残差网络)依次进行连接,在通过目标模型结构进行卷积的过程中,在每个残差单元(resblock body)中,可以将输入到每层卷积层的残差块进行拆分,得到第一残差块和第二残差块,可以将第一残差块输入到卷积层进行卷积处理,得到一组初始特征图,然后将一组初始特征图和第二残差块进行拼接,得到每层卷积层输出的一组特征图。此外,在使用CSPDarknet结构时,还可以使用SiLU函数(Sigmoid WeightedLiner Unit,S形加权线性单元)作为目标模型结构的激活函数,可以提高目标识别模型的表达能力。
可选地,上述目标模型的目标结构中的每层卷积层还可以采用SPPBottleneck结构(空间金字塔池化瓶颈层)进行连接。SPPBottleneck结构提供了不同大小的池化核(例如,5层,9层,13层),可以使用这些池化核对输入到每层卷积层的残差块进行特征提取,得到每层卷积层输出的一组特征图。可以单独使用SPPBottleneck结构进行模型结构的构建,或者,可以将SPPBottleneck结构与上述的CSPDarnket结构进行结合,得到目标识别模型的目标识别结构。
例如,如图3所示,图3是根据本申请实施例的一种可选的交通标识牌的识别模型的示意图。采用CSPDarnket结构作为主干提取网络,使用SiLU函数对提取到的特征进行激活,在最后一层卷积层中使用了SPPBottleneck结构,可以提高主干提取网络的网络感受野,提高目标识别模型识别的准确性。
通过本实施例,通过将目标图像输入到目标识别模型的目标模型结构的目标模型结构以及解耦头,得到目标模型结构输出的多组特征图
在一个示例性实施例中,通过对多组特征图执行特征加强操作,得到加强后的多组特征图,包括:
S51,对多组特征图中的第一组特征图进行卷积处理,得到一组第一特征图;
S52,对多组特征图中的第二组特征图进行下采样处理,得到一组第二特征图,其中,第二组特征图的特征图尺寸大于第一组特征图中的特征图尺寸;
S53,将一组第一特征图与一组第二特征图进行特征图拼接,得到加强后的第一组特征图;
S54,对一组第一特征图进行上采样处理,得到一组第三特征图;
S55,将第二组特征图与一组第三特征图进行特征图拼接,得到加强后的第二组特征图。
在本实施例中,多组特征图可以包括第一组特征图以及第二组特征图,第二组特征图的特征图尺寸大于第一组特征图中的特征图尺寸。上述对多组特征图执行特征加强操作,得到加强后的多组特征图,可以是分别对第一组特征图和第二组特征图进行加强操作,得到加强后的第一组特征图和加强后的第二组特征图。
对第一组特征图进行加强操作,可以是先对第一组特征图进行卷积处理,得到一组第一特征图,然后对第二组特征图进行下采样处理,得到一组第二特征图,之后可以将一组第一特征图与一组第二特征图进行特征图拼接,得到加强后的第一组特征图。
对第二组特征图进行加强操作,可以是对一组第一特征图进行上采样处理,得到一组第三特征图,然后将第二组特征图与一组第三特征图进行特征图拼接,得到加强后的第二组特征图。
需要说明的是,为了保证加强后的第一组特征图和加强后的第二组特征图的尺寸与原来的特征图的尺寸一致,可以对加强后的第一组特征图和加强后的第二组特征图通过一层卷积核进行卷积,得到与原尺寸相同的、加强后的第一组特征图和加强后的第二组特征图。
可选地,上述对多组特征图执行特征加强操作,得到加强后的多组特征图,可以是采用FPN(Feature Pyramid Networks特征金字塔网络结构)进行处理的。FPN可以避免目标识别模型的计算量过高的问题,同时能较好的处理图像识别中的多尺度变化问题。
例如,在多组特征图包括第一组特征图和第二组特征图的情况下,可以将多组特征图中的第一组特征图以及第二组特征图同时输入至FPN结构中,通过FPN分别对第一组特征图以及第二组特征图进行卷积、上采样或者下采样操作,将得到的特征图与原来的第一组特征图和第二组特征图进行拼接,以此得到加强后的第一组特征图和加强后的第二组特征图。
通过本实施例,通过对多组特征图执行特征加强操作,得到加强后的多组特征图,可以提高交通标识牌识别的准确性和便捷性。
在一个示例性实施例中,将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,包括:
S61,在目标图像的数量为多张的情况下,将每张目标图像分别输入到目标识别模型,得到目标识别模型输出的多个识别结果;
S62,在多个识别结果中仅有一个识别结果用于指示识别到交通标识牌的类别的情况下,将一个识别结果,确定为目标识别结果;
S63,在多个识别结果中有至少两个识别结果用于指示识别到交通标识牌的类别的情况下,将至少两个识别结果,确定为目标识别结果。
在目标图像只包括一张图像的情况下,可以将该一张图像输入到目标识别模型中,得到目标识别模型输出的识别结果,得到的识别结果即为上述目标识别结果。
在目标图像包括多张图像的情况下,可以将每张目标图像分别输入到目标识别模型中,得到目标识别模型输出的、与多张目标图像中的每张目标图像对应的目标识别结果。上述目标识别结果可以包括多个识别结果,可以是用于指示识别到交通标识牌的识别结果,也可以是指示识别到与交通标识牌相似的、其他物品的识别结果(例如,交通路标,交通型号灯等)。
在多个识别结果中仅有一个识别结果用于指示识别到交通标识牌的类别的情况下,可以将一个识别结果,确定为目标识别结果,而在多个识别结果中有至少两个识别结果用于指示识别到交通标识牌的类别的情况下,考虑到交通标识牌存在多个标识牌设置在一起的情况,可以将至少两个识别结果,均确定为目标识别结果。可选地,为了避免识别错误,也可以向目标对象发送异常提示信息,来提示待识别图像识别异常。这里,目标对象可以是终端设备的使用对象,例如,当终端设备为机器人时,目标对象可以是机器人的研发人员,当终端设备为移动汽车或者车载设备时,目标对象可以是车辆的驾驶员或者后台维护人员。
此外,目标识别结果还可以包括未识别到交通标识牌。在目标识别结果为未识别到交通标识牌的情况下,服务器可以通过语音播报设备(例如,麦克风)向目标对象发送异常提示信息,以提示未识别到交通标识牌。这里的目标对象与前述类似,在此不做赘述。
通过本实施例,通过从目标识别结果中确定出与交通标识牌对应的识别结果,在未识别到交通标识牌,或者目标识别模型识别异常的情况下对使用对象发送提示信息,可以提高交通标识牌识别的准确性和便捷性。
下面结合可选示例对本申请实施例中的交通标识牌的识别方法进行解释说明。本可选示例提供了一种基于yoloX(一种基于yolo深度神经网络的对象识别和定位算法的改进版本算法;yolo指you only look once)的交通标识牌的目标检测方法,采用yoloX结构,可以减少设备的GPU算力要求,降低图像分类过程中的分类误差,提高图像分类预测准确度。yoloX作为yolo系列的改进版,综合了系列网络的优点,使用Focus和CSPnet网络结构进行特征提取,通过Mosaic进行数据增强。创新的应用了新的yolohead(解耦头),以及AnchorFree思想和SIMota动态正样本匹配方法大幅度提高模型效果。
对于yolohead,以前版本的Yolo所用的解耦头,分类和回归在一个1*1卷积里实现,给网络的识别带来不利影响,而在yoloX中,yolo Head被分为两部分,分类和回归分别实现,最后预测的时候才整合在一起,可以提高识别的准确性。
yoloX采用了Anchor Frees思想,与传统的yolo算法相比,yoloX不使用先验框,Anchor Based检测器需要对先验框进行聚类,增加了时间成本且不能适应所有情况,Anchor增加了yolohead的复杂度以及生成结果的数量。Anchor Free解读代码逻辑更简单,可读性更高。
对于yolo算法的v3和v4版本,对于每一个真实框会只有一个先验框进行匹配,对于这个网络来讲,正样本的数量是非常少的,而yoloX改进这个方法,可以为不同大小的目标动态匹配正样本,提高正样本的数量,根据每个真实框和当前各个特征点预测框的重合程度。计算每个真实框的正样本数量k,代表每个真实框k个特征点与之对应。根据真实框与各个特征点的预测准确度和包含情况计算代价矩阵。将Cost最低的k个特征点作为该真实框的正样本。
结合图4、图5和图6所示,本可选示例中的交通标识牌的识别方法的流程可以包括以下四个部分:
第一部分,数据预处理:
步骤1,图像数据预处理,随机裁剪,缩放,标准化,引入Tensor算子。
步骤2,选取yoloX模型框架,选取主干特征提取网络为CSPDarknet。
步骤3,下载yoloX.weights网络模型,设置device(设备)模式,并设置设备为GPU进行训练。
步骤4,打开voc_annotation.py(数据集脚本),修改参数,修改class_path(类路径),修改cls_classes.txt(类路径文本),修改类路径文本里面的类别。
步骤5,修改annotation_mode(用于指定文件运行的计算内容)为2,修改trainval_percent(交叉验证集占总图片的比例),train_percent(训练集占交叉验证集的比例),运行voc_annotation.py,生成2007_train.txt(数据集)、2007_val.txt(验证集)。
第二部分,设置训练模型:
步骤6,修改config.yaml(配置文件),修改标签类别。
步骤7,修改yoloX文件,修改SUB_NAME(子对象名),修改get_config(配对函数)。
步骤8,修改voc_classes.py(数据集类别),修改EXP类的__init__(初始化函数)方法,主要采用yaml解析获得class_num(最后一个全连接层所分出的类个数)。
步骤9,定义yolo_loss(损失函数),定义optimizer(优化器)和学习率,此步骤由GPU完成。
步骤10,修改数据加载过程,使用get_eval_loader(数据导入函数)加载网络结构初始化权重值。
步骤11,使用get_yolox_data(数据读取函数)读取训练图片(使用Mosaic对图片进行增强,增广等处理),设置lr(Learning rate,学习率)=1*10^(-3),模型冻结,加快训练速度。
步骤12,使用fit_one_epoch(循环训练算法),设置训练次数,模型解冻,设置学习率lr=1*10^(-4).
第三部分,算法开发,感知评测,前向传播,反向传播:
步骤13,前向传播,分离图片和标签,先将模型的所有参数的梯度归零,求出预测值,并计算损失;反向传播计算每个参数的梯度值,通过梯度下降执行所有参数更新,并获取损失值,进行下一步卷积计算。
步骤14,Yolohead首先利用卷积,标准化,激活函数,进行特征整合,预测结果分为两部分,第一部分是分为特征点所属于种类的置信度,第二部分是物体检测的参数,例如,cls用于判断交通标识牌所述的标识牌的类别,reg用于获得预测框的坐标,obj用于判断预测框中包含交通标识牌的置信度。
步骤15,运行darknet.py,调用Silu激活函数得出torch.sigmoid(x),通过forward(前向函数)每隔一个像素点取一个值,然后使用torch.cat()(拼接函数)对结果进行堆叠,然后构建BaseConv(nn.Module)(基础卷积函数),然后构建SPPBottleneck空间金字塔池化瓶颈层网络结构,利用1*1卷积进行通道数缩减,缩减率设置为50%,然后再利用3*3的卷积进行通道数的扩张,并且完成特征提取,构建出CSPlayer结构。在进行训练时,首先通过CSPlayer主干部分对输入图片进行特征提取以及堆叠操作,对应的darknet.py步骤可以为:输入图片:640*640*3,初始基本通道是64,先利用focus网络结构对输入图片进行初次卷积和堆叠,再通过多层卷积层对堆叠结果进行进行卷积处理,在最后一层卷积层使用Bottleneck残差结构进行处理,完成640*640*3—>320*320*12-->320*320*64的转换。
步骤16,完成卷积之后,利用CSPDarknet结构,进行80*80*256—>40*40*512的图像的特征提取,完成CSPlayer,之后再利用SPPbottleneck结构进行40*40*512—>20*20*1024的图像的特征提取,可以获得三个有效特征层,分别是80*80*256,40*40*512,20*20*1024的有效特征层,利用这三个有效特征层,进行加强提取网络构建,对深层的特征层进行上采样,对浅层的特征层进行下采样以及特征融合。
步骤17,最后完成Yolohead检测,利用三个特征提取网络可以获得三个加强特征后的有效特征层,分别是P3out,P4out,P5out,将这三个特征层传入YoloHead,获得yoloX网络的特征结果,首先对输入进来的特征层进行卷积,标准化,特征激活,预测过程分为两部分,分类部分和回归部分,预测部分首先利用两次卷积,标准化,激活函数,进行特征提取,最后利用一个卷积进行特征点的分类,用于判断这个特征点所属物体的种类。回归部分首先利用两个卷积,标准化加激活函数进行特征提取,最后利用两个卷积分别获得预测框的位置和这个特征点具有交通标识牌的置信度,inputs结果输入,得到三个有效特征层P3out,80*80*256,P4out,40*40*512,P5out,20*20*1024。然后利用1*1卷积进行通道整合,然后利用两个卷积标准化加激活函数进行特征提取,最终会将回归预测结果,该回归结果用于表示预测框的位置、特征点内部包含物体的置信度,以及特征点所属于种类,对上述回归结果进行堆叠操作,堆叠完成之后作为预测结果添加到输出。
步骤18,预测结果解码,特征点预测解码可视化,通过decode_for_vision(视觉解码函数),将输入进来的output,也就是yoloX网络预测结果,首先进行样本数设置,使用hw=np.shape(output)(查看输出维度),获得batch_size(模型的参数个数),其形式可以为20*20*(4+1+num_class(交通标识牌的类别)),然后进行特征层网格构建,通过grid_x,grid_y=np.meshgrid(根据特征层的宽高生成网格点),对grid_x,grid_y进行网格堆叠,最后取出box_xy(预测框的中心点x轴和y轴的坐标),box_wh(预测框的宽和高),从而得到预测框的中心和宽高。
第四部分,使用模型网络进行推理预测:
步骤19,YoloX的预测过程,包括预测前处理,预测后处理,运行predict.py,调用detect_image(图像预测函数),首先对待识别图像进行预处理,使用截取框截取到待识别图像中包含特定形状的图片,之后对图片进行高宽计算,保存在image_shape(图像形状)里,通过CVcolor(色彩空间转换)转换成RGB图片,然后将RGB图片进行不失真的resize(图片不失真缩放),通过letterbox(图像编辑函数)在图像周围添加灰条保证图像不失真,然后对图片进行preprocess_input(输入归一化处理),然后添加上batch_size,将图片通过torch.cat转换成Tensor(张量)的形式,在之后将Tensor传入网络中获得预测,并使用decode_outputs(解码函数)对网络的预测结果进行解码。
步骤20,接着通过torch.sigmoid(outputs)(输出激活函数)获得每一个特征点属于每一个种类的概率,然后根据特征层的高宽生成网格点,然后通过torch_stack(grid_y,grid_x)(拼接函数)函数对网格点进行堆叠,对特征点的宽高进行循环,根据每个特征层的宽高生成每个网格点的坐标,并进行堆叠。
步骤21,对网格点和预测结果进行解码,完成解码之后,会进行non_max_suppression(非极大抑制),对每一张图片,每一个图片特征点取最大值,之后torch.max函数会将每张图片的结果分为class_conf(种类置信度)和class_pred(特征点所属于的种类)两个部分,然后利用种类置信度进行第一轮筛选conf_mask(置信度分数),判断特征点的置信度是否大于门限值conf_thres,保留大于门限值的特征点,然后通过detection(检测函数)和torch.cat将x1,y1,x2,y2,obj_conf,class_conf,class_pred进行保留,最后进行非极大抑制,筛选出属于同一种类同一区域得分最大的框,用unique_label(唯一标签)判断预测结果里面都有哪些种类,通过detection_class(类别检测函数)获得某一类筛选后的全部预测结果,通过torch.sort(排序函数)对存在的物体进行置信度排序,然后取出这一类里面置信度最高的标签,作为模型识别的结果。
通过本可选示例,在将图片输入到目标识别模型前,对图片进行滑动窗口截取操作,截取出包含交通标识牌的图像,可以提高目标识别模型在阴雨天气下对交通标识牌进行识别的准确性,并且,在目标识别模型的主干部分中,通过采用使用Focus结构进行图片的特征提取,使用CSPDarknet和SPPBottleneck结构作为目标识别模型的主干特征网络,并且,使用SiLU作为特征的激活函数,可以进一步提高模型识别的准确率。
此外,对于传统的目标检测yolo算法,当一张图片被传入到传统的yolo网络中,首先会被调整成416*416的大小,为了防止失真,会在图像周围加灰条,之后传统的yolo网络会将这张图片分成13*13,26*26,52*52的网络,由于图像在多次卷积后小物体的特征容易消失,可以使用52*52的网格预测小物体,26*26的网络预测中等物体,13*13的网格预测大物体。传统的yolo系列所获得的特征层,相当于将输入进来的原图进行网格划分,每一个特征点都会对应若干个先验框,网络的预测结果相当于对先验框内部是否包含物体进行判断,并调整先验框获得预测框,导致时间复杂度太高,产生冗余窗口太多,需要有专业知识及复杂的调参过程,并且,对于不同的识别对象,需要为其配置不同的参数,导致yolo算法的泛化能力及鲁棒性较差。采用本可选示例的交通标识牌的识别方法,可以解决上述问题,提高目标检测模型的Map(Mean Average Precision平均精度均值)。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述交通标识牌的识别方法的交通标识牌的识别装置。图7是根据本申请实施例的一种可选的交通标识牌的识别装置的结构框图,如图7所示,该装置可以包括:
获取单元702,用于获取待识别图像,其中,所述待识别图像为待识别包含的交通标识牌的类别的图像;
执行单元704,与获取单元702相连,用于根据预设形状对所述待识别图像执行预识别操作,得到目标图像,其中,所述预设形状为预设的与所述交通标识牌对应的形状;
输入单元706,与执行单元704相连,用于将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,其中,所述目标识别结果用于指示识别到的所述交通标识牌的类别。
需要说明的是,该实施例中的获取单元702可以用于执行上述步骤S202,该实施例中的执行单元704可以用于执行上述步骤S204,该实施例中的输入单元706可以用于执行上述步骤S206。
通过上述模块,获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别,解决了相关技术中的交通标识牌的识别方法存在由于受到天气影响导致识别的准确率低的问题,提高了交通标识牌识别的准确率。
在一个示例性实施例中,执行单元包括:
滑动模块,用于使用目标截取框在待识别图像中进行多次滑动,得到一组截取图像,其中,一组截取图像中的每张截取图像为在一次滑动之后,通过目标截取框从待识别图像中截取到的图像;
筛选模块,用于从一组截取图像中筛选出包含预设形状的对象的截取图像,得到目标图像。
在一个示例性实施例中,输入单元包括:
第一输入模块,用于将目标图像输入到目标识别模型的目标模型结构,得到目标模型结构输出的多组特征图,其中,目标模型结构包含依次连接的多层卷积层,多层卷积层中的每层卷积层用于输出多组特征图中的一组特征图;
执行模块,用于通过对多组特征图执行特征加强操作,得到加强后的多组特征图,其中,特征加强操作包括以下至少之一:特征图上采样,特征图下采样;
第二输入模块,用于将加强后的多组特征图输入到目标识别模型的解耦头,得到与多组特征图对应的预测结果,其中,与多组特征图对应的预测结果用于指示与识别交通标识牌的类别对应的多个识别参数的预测结果;
第一确定模块,用于根据与多组特征图对应的预测结果,确定出目标识别结果。
在一个示例性实施例中,上述装置还包括:
拆分单元,用于在将目标图像输入到目标识别模型的目标模型结构之前,通过每隔一个像素点提取目标图像中的一个特征值对目标图像进行图像拆分,得到四组拆分图像,其中,输入到目标模型结构中的目标图像为拆分后的四组拆分图像。
在一个示例性实施例中,第一输入模块包括:
拆分子模块,用于在每层卷积层进行特征图卷积的过程中,将输入到每层卷积层的残差块进行拆分,得到第一残差块和第二残差块;
第一卷积子模块,用于通过每层卷积层对第一残差块进行卷积处理,得到每层卷积层输出的初始特征图;
第一拼接子模块,用于将初始特征图与第二残差块进行拼接,得到每层卷积层输出的一组特征图。
在一个示例性实施例中,执行模块包括:
第二卷积子模块,用于对多组特征图中的第一组特征图进行卷积处理,得到一组第一特征图;
下采样子模块,用于对多组特征图中的第二组特征图进行下采样处理,得到一组第二特征图,其中,第二组特征图的特征图尺寸大于第一组特征图中的特征图尺寸;
第二拼接子模块,用于将一组第一特征图与一组第二特征图进行特征图拼接,得到加强后的第一组特征图;
上采样子模块,用于对一组第一特征图进行上采样处理,得到一组第三特征图;
第三拼接子模块,用于将第二组特征图与一组第三特征图进行特征图拼接,得到加强后的第二组特征图。
在一个示例性实施例中,输入单元包括:
第三输入模块,用于在目标图像的数量为多张的情况下,将每张目标图像分别输入到目标识别模型,得到目标识别模型输出的多个识别结果;
第二确定模块,用于在多个识别结果中仅有一个识别结果用于指示识别到交通标识牌的类别的情况下,将一个识别结果,确定为目标识别结果;
第三确定模块,用于在多个识别结果中有至少两个识别结果用于指示识别到交通标识牌的类别的情况下,将至少两个识别结果,确定为目标识别结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项交通标识牌的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;
S2,根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;
S3,将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述交通标识牌的识别方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
图8是根据本申请实施例的一种可选的电子装置的结构框图,如图8所示,包括处理器802、通信接口804、存储器806和通信总线808,其中,处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信,其中,
存储器806,用于存储计算机程序;
处理器802,用于执行存储器806上所存放的计算机程序时,实现如下步骤:
S1,获取待识别图像,其中,待识别图像为待识别包含的交通标识牌的类别的图像;
S2,根据预设形状对待识别图像执行预识别操作,得到目标图像,其中,预设形状为预设的与交通标识牌对应的形状;
S3,将目标图像输入到目标识别模型,得到目标识别模型输出的目标识别结果,其中,目标识别结果用于指示识别到的交通标识牌的类别。
可选地,在本实施例中,通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器806中可以但不限于包括上述交通标识牌的识别装置中的获取单元702、执行单元704、以及输入单元706。此外,还可以包括但不限于上述交通标识牌的识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图8所示的结构仅为示意,实施上述交通标识牌的识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种交通标识牌的识别方法,其特征在于,包括:
获取待识别图像,其中,所述待识别图像为待识别包含的交通标识牌的类别的图像;
根据预设形状对所述待识别图像执行预识别操作,得到目标图像,其中,所述预设形状为预设的与所述交通标识牌对应的形状;
将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,其中,所述目标识别结果用于指示识别到的所述交通标识牌的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据预设形状对所述待识别图像执行预识别操作,得到目标图像,包括:
使用目标截取框在所述待识别图像中进行多次滑动,得到一组截取图像,其中,所述一组截取图像中的每张截取图像为在一次滑动之后,通过所述目标截取框从所述待识别图像中截取到的图像;
从所述一组截取图像中筛选出包含所述预设形状的对象的截取图像,得到所述目标图像。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,包括:
将所述目标图像输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的多组特征图,其中,所述目标模型结构包含依次连接的多层卷积层,所述多层卷积层中的每层卷积层用于输出所述多组特征图中的一组特征图;
通过对所述多组特征图执行特征加强操作,得到加强后的所述多组特征图,其中,所述特征加强操作包括以下至少之一:特征图上采样,特征图下采样;
将加强后的多组特征图输入到所述目标识别模型的解耦头,得到与所述多组特征图对应的预测结果,其中,所述与所述多组特征图对应的预测结果用于指示与识别所述交通标识牌的类别对应的多个识别参数的预测结果;
根据与所述多组特征图对应的预测结果,确定出所述目标识别结果。
4.根据权利要求3所述的方法,其特征在于,在将所述目标图像输入到所述目标识别模型的目标模型结构之前,所述方法还包括:
通过每隔一个像素点提取所述目标图像中的一个特征值对所述目标图像进行图像拆分,得到四组拆分图像,其中,输入到所述目标模型结构中的所述目标图像为拆分后的所述四组拆分图像。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标图像输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的多组特征图,包括:
在所述每层卷积层进行特征图卷积的过程中,将输入到所述每层卷积层的残差块进行拆分,得到第一残差块和第二残差块;
通过所述每层卷积层对所述第一残差块进行卷积处理,得到所述每层卷积层输出的初始特征图;
将所述初始特征图与所述第二残差块进行拼接,得到所述每层卷积层输出的一组特征图。
6.根据权利要求3所述的方法,其特征在于,所述通过对所述多组特征图执行特征加强操作,得到加强后的所述多组特征图,包括:
对所述多组特征图中的第一组特征图进行卷积处理,得到一组第一特征图;
对所述多组特征图中的第二组特征图进行下采样处理,得到一组第二特征图,其中,所述第二组特征图的特征图尺寸大于所述第一组特征图中的特征图尺寸;
将所述一组第一特征图与所述一组第二特征图进行特征图拼接,得到加强后的所述第一组特征图;
对所述一组第一特征图进行上采样处理,得到一组第三特征图;
将所述第二组特征图与所述一组第三特征图进行特征图拼接,得到加强后的所述第二组特征图。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,包括:
在所述目标图像的数量为多张的情况下,将每张所述目标图像分别输入到所述目标识别模型,得到所述目标识别模型输出的多个识别结果;
在所述多个识别结果中仅有一个识别结果用于指示识别到所述交通标识牌的类别的情况下,将所述一个识别结果,确定为所述目标识别结果;
在所述多个识别结果中有至少两个识别结果用于指示识别到所述交通标识牌的类别的情况下,将所述至少两个识别结果,确定为所述目标识别结果。
8.一种交通标识牌的识别装置,其特征在于,包括:
获取单元,用于获取待识别图像,其中,所述待识别图像为待识别包含的交通标识牌的类别的图像;
执行单元,用于根据预设形状对所述待识别图像执行预识别操作,得到目标图像,其中,所述预设形状为预设的与所述交通标识牌对应的形状;
输入单元,用于将所述目标图像输入到目标识别模型,得到所述目标识别模型输出的目标识别结果,其中,所述目标识别结果用于指示识别到的所述交通标识牌的类别。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663444.8A CN115116030A (zh) | 2022-06-13 | 2022-06-13 | 交通标识牌的识别方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210663444.8A CN115116030A (zh) | 2022-06-13 | 2022-06-13 | 交通标识牌的识别方法和装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116030A true CN115116030A (zh) | 2022-09-27 |
Family
ID=83327663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210663444.8A Pending CN115116030A (zh) | 2022-06-13 | 2022-06-13 | 交通标识牌的识别方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116030A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861971A (zh) * | 2022-12-19 | 2023-03-28 | 湖北汽车工业学院 | 基于改进YOLOv4-tiny的夜间车辆及行人检测方法 |
-
2022
- 2022-06-13 CN CN202210663444.8A patent/CN115116030A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861971A (zh) * | 2022-12-19 | 2023-03-28 | 湖北汽车工业学院 | 基于改进YOLOv4-tiny的夜间车辆及行人检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396115B (zh) | 基于注意力机制的目标检测方法、装置及计算机设备 | |
CN108229485B (zh) | 用于测试用户界面的方法和装置 | |
CN110264444B (zh) | 基于弱分割的损伤检测方法及装置 | |
CN113159147A (zh) | 基于神经网络的图像识别方法、装置、电子设备 | |
EP4432215A1 (en) | Image processing method and device | |
CN114049280A (zh) | 图像消除修复方法及其装置、设备、介质、产品 | |
CN112132216B (zh) | 车型识别方法、装置、电子设备及存储介质 | |
CN114495029A (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN112633159A (zh) | 人-物交互关系识别方法、模型训练方法及对应装置 | |
CN112465031B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
CN112149694A (zh) | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 | |
CN110427998A (zh) | 模型训练、目标检测方法及装置、电子设备、存储介质 | |
CN114332586A (zh) | 小目标检测方法及其装置、设备、介质、产品 | |
CN114283281A (zh) | 目标检测方法及其装置、设备、介质、产品 | |
CN111582459A (zh) | 执行操作的方法、电子设备、装置及存储介质 | |
CN115116030A (zh) | 交通标识牌的识别方法和装置、存储介质及电子装置 | |
CN112215188A (zh) | 交警姿态识别方法、装置、设备及存储介质 | |
CN112016617A (zh) | 细粒度分类方法、装置及计算机可读存储介质 | |
CN114529890A (zh) | 状态检测方法、装置、电子设备及存储介质 | |
CN113903041A (zh) | 文本识别方法、装置、车辆及存储介质 | |
CN117746015A (zh) | 小目标检测模型训练方法、小目标检测方法及相关设备 | |
CN113486856A (zh) | 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法 | |
CN116189286A (zh) | 一种视频图像暴力行为检测模型及检测方法 | |
CN115471703A (zh) | 二维码检测方法、模型训练方法、装置、设备及存储介质 | |
CN113822212A (zh) | 一种嵌入式物体识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |