CN114495058A - 交通标志检测方法和装置 - Google Patents

交通标志检测方法和装置 Download PDF

Info

Publication number
CN114495058A
CN114495058A CN202210077318.4A CN202210077318A CN114495058A CN 114495058 A CN114495058 A CN 114495058A CN 202210077318 A CN202210077318 A CN 202210077318A CN 114495058 A CN114495058 A CN 114495058A
Authority
CN
China
Prior art keywords
image
traffic sign
detected
layer
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210077318.4A
Other languages
English (en)
Inventor
徐鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Kunpeng Jiangsu Technology Co Ltd
Original Assignee
Jingdong Kunpeng Jiangsu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Kunpeng Jiangsu Technology Co Ltd filed Critical Jingdong Kunpeng Jiangsu Technology Co Ltd
Priority to CN202210077318.4A priority Critical patent/CN114495058A/zh
Publication of CN114495058A publication Critical patent/CN114495058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种交通标志检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将待检测图像输入交通标志检测模型,利用卷积层和池化层提取待检测图像的特征图特征;将特征图特征输入多尺度特征提取层,得到待检测图像的多尺度特征图;将多尺度特征图输入通道注意力响应层,获得待检测图像的通道注意力特征;将通道注意力特征输入候选区域判别层,得到待检测图像中的候选区域,基于候选区域和通道注意力特征确定待检测图像中交通标志的类别和定位框。该实施方式能够提供多尺度感受野并在特征图中体现不同通道的重要程度,从而提升交通标志检测效果。

Description

交通标志检测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种交通标志检测方法和装置。
背景技术
交通标志检测在自动驾驶等领域有着广泛而重要的应用前景,目前,存在基于图像颜色、基于深度学习等检测方法,其中,基于深度学习的交通标志检测方法发展最为迅速。
在实现本发明的过程中,发明人发现基于深度学习的现有检测技术中至少存在以下问题:首先,检测模型一般设置分类损失函数(分类用于确定交通标志类别)和回归损失函数(回归用于确定图像中交通标志的定位框)进行收敛,但是通常使用的交通标志类别之间的离散度较小,会使分类损失函数出现波动,由此对模型训练的权重产生破坏,影响分类和回归效果;其次,图像中交通标志的尺寸跨度较大,但目前方法只能提供固定的单一感受野,无法从多尺度提取图像特征,从而影响检测效果;再次,目前技术在提取图像特征时,未曾考虑特征图不同通道的重要程度,导致检测效果不佳。
发明内容
有鉴于此,本发明实施例提供一种交通标志检测方法和装置,能够提供多尺度感受野并在特征图中体现不同通道的重要程度,从而提升交通标志检测效果。
为实现上述目的,根据本发明的一个方面,提供了一种交通标志检测方法。
本发明实施例的交通标志检测方法包括:将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
可选地,所述将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图,包括:将所述特征图特征并行输入所述多尺度特征提取层的多条特征提取路径,获得每一特征提取路径输出的特征图;将每一特征提取路径输出的特征图按照该特征图的通道进行结合,得到所述待检测图像的多尺度特征图。
可选地,所述将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征,包括:在所述通道注意力响应层中,针对输入的所述多尺度特征图的每一通道,获取该通道的权重因子;将每一权重因子与对应通道的特征图数据相乘,并将相乘形成的数据结合为所述通道注意力特征。
可选地,所述待检测图像中交通标志的类别为预先确定的超类之一;以及,所述方法进一步包括:设置多种交通标志分类方式;其中,在任一交通标志分类方式中建立多个涵盖各交通标志的初选类别;计算每一交通标志分类方式的聚类误差,所述聚类误差为该交通标志分类方式中类内离散度与类间离散度之商;将所述聚类误差最小的交通标志分类方式中的初选类别确定为所述超类。
可选地,所述方法进一步包括:截取所述待检测图像的中心区域,并将所述中心区域放大预设的第一倍数,得到所述待检测图像的放大图像;将所述待检测图像缩小预设的第二倍数,得到所述待检测图像的缩小图像;将所述放大图像和所述缩小图像分别输入所述交通标志检测模型,得到所述放大图像和所述缩小图像的检测结果;融合所述待检测图像、所述放大图像和所述缩小图像的检测结果以确定所述待检测图像的最终检测结果;其中,所述检测结果包括交通标志的类别和定位框。
可选地,所述超类包括警告类、禁止类和指示类;在所述交通标志检测模型中,所述多尺度特征提取层、所述通道注意力响应层和所述候选区域判别层依次连接。
为实现上述目的,根据本发明的另一方面,提供了一种交通标志检测装置。
本发明实施例的交通标志检测装置可以包括:初步特征提取单元,用于:将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;多尺度特征提取单元,用于:将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;注意力单元,用于:将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;检测单元,用于:将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
可选地,所述多尺度特征提取单元进一步用于:将所述特征图特征并行输入所述多尺度特征提取层的多条特征提取路径,获得每一特征提取路径输出的特征图;将每一特征提取路径输出的特征图按照该特征图的通道进行结合,得到所述待检测图像的多尺度特征图;所述注意力单元进一步用于:在所述通道注意力响应层中,针对输入的所述多尺度特征图的每一通道,获取该通道的权重因子;将每一权重因子与对应通道的特征图数据相乘,并将相乘形成的数据结合为所述通道注意力特征。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的交通标志检测方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的交通标志检测方法。
根据本发明的技术方案,上述发明中的实施例具有如下优点或有益效果:
在利用卷积层和池化层提取到待检测图像的特征图特征之后,使用具有多条特征提取路径的多尺度特征提取层获取待检测图像的多尺度特征图,其中,每一特征提取路径具有不同的卷积核尺寸或池化尺寸,能够提供多种尺度的感受野,由此适应交通标志在图像中的多尺度特点,提升检测效果。此后,利用通道注意力响应层计算多尺度特征图中每一通道的权重因子,进而依据权重因子构建通道注意力特征用于后续的交通标志分类和定位框回归,由此在特征图中体现各通道的重要程度,有利于检测效果的进一步提高。此外,本发明实施例还通过计算聚类误差获取效果最佳的交通标志分类方式,解决了现有技术中因交通标志类别之间的离散度小导致分类损失函数易波动的问题;最后,本发明实施例在对待检测图像检测之余,还对其放大图像和缩小图像并行检测,最后融合三方面的检测结果,由此进一步适配交通标志在图像中的多尺度特点,进一步提高检测效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例中交通标志检测方法的主要步骤示意图;
图2是本发明实施例的交通标志示意图;
图3是本发明实施例中交通标志检测模型的结构示意图;
图4是本发明实施例中多尺度特征提取层和通道注意力响应层的结构示意图;
图5是本发明实施例中交通标志检测模型的训练步骤和使用步骤示意图;
图6是本发明实施例的自适应锚框生成示意图;
图7是本发明实施例中交通标志检测装置的组成部分示意图;
图8是根据本发明实施例可以应用于其中的示例性系统架构图;
图9是用来实现本发明实施例中交通标志检测方法的电子设备结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例中交通标志检测方法的主要步骤示意图。
如图1所示,本发明实施例的交通标志检测方法可具体按照如下步骤执行:
步骤S101:将待检测图像输入预先训练的交通标志检测模型,利用交通标志检测模型中的卷积层和池化层提取待检测图像的特征图特征。
在本发明实施例中,常见的交通标志可如图2所示,在图2中,第一栏为警告类交通标志,第二栏为禁止类交通标志,第三栏为指示类交通标志。可以理解,本发明能够识别的交通标志不限于图2所示。
本步骤中的交通标志检测模型结构可如图3所示,交通标志检测模型可以包括在前的、用于提取图像特征的至少一个卷积层和至少一个池化层,此后可以连接多尺度特征提取层和通道注意力响应层,这两层将在下文详细说明。多尺度特征提取层、通道注意力响应层通道注意力响应层以及在前的各卷积层、池化层组成交通标志检测模型的特征提取部分。通道注意力响应层可以连接候选区域判别层,候选区域判别层即RPN(Region ProposalNetwork),用于提取图像中的一系列候选区域(该候选区域可用于获取ROI,即region ofinterest,感兴趣区域),此后,可以根据该候选区域以及通道注意力响应层输出的特征图(即后续将要说明的通道注意力特征)实现图像中交通标志的分类以及交通标志定位框的回归,例如,在图3中,通道注意力特征经过卷积层之后与感兴趣区域共同用于实现图像中交通标志的分类,通道注意力特征经过卷积层之后与感兴趣区域共同用于实现图像中交通标志的定位框回归。
在本步骤中,待检测图像进入交通标志检测模型之后,首先经过在前的卷积层和池化层,被提取到特征图特征。
步骤S102:将提取到的特征图特征输入交通标志检测模型中的多尺度特征提取层,得到待检测图像的多尺度特征图。
在本步骤中,步骤S101中提取到的特征图特征进入交通标志检测模型中的多尺度特征提取层,从而得到待检测图像的多尺度特征图。特别地,多尺度特征提取层可以包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸。
图4是本发明实施例中多尺度特征提取层和通道注意力响应层的结构示意图,如图4所示,多尺度特征提取层具有多条特征提取路径,图4示例中的特征提取路径为四条,第一条只经过1*1卷积核进行卷积;第二条先经过1*1卷积核进行卷积,再经过3*3卷积核进行卷积;第三条先经过1*1卷积核进行卷积,再经过5*5卷积核进行卷积;第四条先经池化层进行池化(池化大小可以是3*3),再经过1*1卷积核进行卷积,每一特征路径都具有不同的卷积核尺寸或池化尺寸。可以理解,不具有池化层的特征提取路径可以认为经过了1*1的池化。经过以上设置,能够提供多种不同尺度的感受野,从而从多尺度提取图像特征,有助于提高交通标志检测精度。
作为一个可选的方案,在本步骤中,可以将步骤S101提取到的特征图特征并行输入多尺度特征提取层的多条特征提取路径,从而在执行卷积和/或池化之后获得每一特征提取路径输出的特征图。此后,可以将每一特征提取路径输出的特征图按照在通道维度进行结合,从而得到待检测图像的多尺度特征图。
步骤S103:将得到的多尺度特征图输入交通标志检测模型中的通道注意力响应层,获得待检测图像的通道注意力特征。
如图4所示,在本步骤中,首先将多尺度特征提取层输出的多尺度特征图输入通道注意力响应层。在通道注意力响应层,针对输入的多尺度特征图的每一通道,可以根据当前的全局信息来获取该通道的权重因子,并将每一权重因子与对应通道的特征图数据相乘,最后将相乘形成的数据结合为通道注意力特征。经过以上步骤,能够使通道注意力响应层输出的通道注意力特征中包含各通道对于当前任务的重要程度,从而增强重要性数据,抑制无关数据,有助于提高交通标志检测准确性。
步骤S104:将通道注意力特征输入交通标志检测模型中的候选区域判别层,得到待检测图像中的至少一个候选区域,基于候选区域和通道注意力特征确定待检测图像中交通标志的类别和定位框。
在本步骤中,在得到通道注意力响应层输出的通道注意力特征之后,可以一方面将通道注意力特征输入候选区域判别层,得到待检测图像到的一系列候选区域,另一方面将通道注意力特征输入卷积层,并分别根据通道注意力特征经卷积处理后的特征和以上候选区域获取待检测图像中交通标志的类别和定位框,从而实现待检测图像中交通标志的检测。
图5是本发明实施例中交通标志检测模型的训练步骤和使用步骤示意图,如图5所示,在训练过程中,获取作为训练样本的图像及其标签,标签包括每一图像中的交通标志类别和准确定位框,此后使用以上训练样本和标签即可训练交通标志检测模型。在使用过程中,将待检测图像输入训练完成的交通标志检测模型,执行步骤S101到步骤S104,即可得到其中的交通标志所属类别和定位框。
可选的,待检测图像中交通标志的以上类别为预先确定的超类之一,本发明可以通过以下方式获取更适合于以上深度学习模型的交通标志分类方法。首先,设置多种交通标志分类方式,在任一交通标志分类方式中建立多个涵盖各交通标志的初选类别;此后,计算每一交通标志分类方式的聚类误差,该聚类误差为该交通标志分类方式中类内离散度(例如同一交通标志分类方式中各初选类别的类内方差)与类间离散度(例如同一交通标志分类方式中各初选类别的类间方差)之商;最后,将聚类误差最小的交通标志分类方式中的初选类别确定为以上超类。这样,即可获取类间离散程度相对最大、同时类内离散程度相对最小的分类方式以及各超类,有助于解决现有技术中因交通标志类别之间的离散度小导致分类损失函数易波动的问题。
此外,在一个可选的技术方案中,还可以执行以下步骤来提升交通标志检测精度。首先,截取待检测图像的预设比例的中心区域(例如15%的中心区域,该中心区域的中心与待检测图像中心重合,该中心区域的长宽比可以预先设置,例如1:1),并将中心区域放大预设的第一倍数(例如1.5倍),得到待检测图像的放大图像;将待检测图像缩小预设的第二倍数(例如4倍),得到待检测图像的缩小图像;此后,将放大图像和缩小图像分别输入交通标志检测模型,得到放大图像和缩小图像的检测结果(检测结果包括交通标志的类别和定位框);最后,融合待检测图像、放大图像和缩小图像的检测结果从而确定待检测图像的最终检测结果。以上数据融合的方式可以是:对于待检测图像、放大图像和缩小图像中的同一交通标志,将最多检测结果支持的类别确定为最终类别。例如,待检测图像、放大图像和缩小图像中同一位置的交通标志的检测结果分别是禁止类、禁止类、指示类,则该交通标志最终的检测结果即为禁止类。这样,能够融合各尺度图像的检测结果,由此进一步适配交通标志在图像中的多尺度特点,进一步提高检测效果。
以下说明本发明的一个具体实施例。
交通标志识别有着广泛而重要的应用前景,许多研究人员投身到标志识别研究中来。交通标志有着规范的背景颜色和形状,所以研究者们设计方法来提取使用标志的颜色和形状特征,对标志进行检测。这些方法包括:使用基于颜色特征的标志检测方法来对交通标志进行检测。这些方法通常将图像原始的RGB颜色空间经过预先设计的映射函数转换成其它的颜色空间(例如HSV颜色空间、HIS颜色空间)),这样转换的目的是便于不同颜色之间的对比筛选,以避免图像亮度等条件的干扰。在颜色空间转换结束后,使用颜色阈值来筛选提取感兴趣的区域。
随着深度学习技术的快速发展,卷积神经网络已被广泛用于目标检测和分类。许多方法已经扩展到交通标志检测领域。随着German Traffic Sign Detection Benchmark(GTSDB)和German Traffic Sign Recognition Benchmark(GTSRB)的提出,基于深度学习的交通标志检测方法发展突飞猛进,国际神经网络联合会议举办的挑战赛中将交通标志的检测和分类任务包含其中,这样吸引了越来越多研究者参与进来,交通标志的检测和分类受到了非常大的推动发展。R-CNN及其改进版本Fast R-CNN、Faster R-CNN使用基于深度学习提取特征的方法来检测交通标志,它们需要标志的边界框和标注来进行网络训练,深度学习为交通标志检查注入了新的解决思路。随着标志检测技术的发展和实际应用需求的提高,GTSDB提供的场景数据较为简单,不能满足应用的需求和新方法的性能比较。
现有的深度卷积神经网络的分类与回归定位存在内在的冲突,分类任务的特点是神经网络提取的特征尽可能的对于物体的形变、位移等特征不作出响应,而回归定位任务的特点是神经网络提取到的特征尽量包含物体的边界信息、形变信息以及位置信息等。所以,对于一般通用类型的检测网络而言,找到分类与回归定位两者的最佳平衡点至关重要,即确定合适的检测类别数目。通常情况下,检测网络的loss中,分类loss占据主导地位,回归loss相对较小,然而当物体类别之间的方差较小时,分类的loss很容易出现波动,数值变化较大,会掩盖掉回归loss,对网络训练的权重破坏较大,这会造成既定位不准,又分类错误的影响。交通标志由于子类类别数目较多,类间方差非常小,分类loss容易出现波动。所以,面对复杂的检测识别任务,为了更加准确地对交通标志进行检测识别,需要设计一个超类分类器,将标志从复杂背景中分离出来。
自然场景中采集的图像样本中存在一定的人眼无法辨识具体类别的样本,因为模糊、遮挡、光线等问题,这类样本可能本身标注者也无法辨识准确的子类类别,所以子类类别在标注时本身就存有问题和错误风险,直接用来训练是不合理的。对众多子类进行超类的划分、用超类来训练检测器,这对于标注工作来说,可以降低很大的标注成本,同时将极大减小标注误差,增加网络训练的容错率。
以下介绍本实施例的基本构思:交通标志数据集通常包含大量的小尺寸交通标志,并且尺寸跨度范围比较大,对检测器提出了挑战。为了解决这些问题,本实施例设计了一个轻量级超类检测器,引入了多尺寸卷积核和通道注意力机制。多尺寸卷积核结构同时产生多个尺度感受野,能够提取不同感受野下的特征,有利于多尺寸交通标志的特征提取;通道注意力机制能够自适应调整不同通道特征的权重,使得网络提取的标志特征更具有代表性,能够更好地对标志特征进行表达。这些改进减轻了交通标志的尺度方差挑战和图像中背景信息的干扰。同时,针对尺寸方差挑战,我们采用了多尺寸测试的方法进一步提升检测性能。另外,考虑到实际应用,采用了融合BN层(即批标准化层)的方法提高处理效率,进一步提高检测性能。
首先介绍超类类别的划分。为了更加准确地对标志子类进行检测,超类类别的划分非常重要。我们对国标文件中主类交通标志进行了统计归纳,具体的外观如图2所示。图中字母后添加不同数字可以成为不同具体的标志子类,三个小矩形框内时不常见的三种标志,"ps"停车让行标志的形状是八边形,"pg"减速让行标志的形状是倒三角形,"ip"人行横道标志的形状是正方形。为了减少标志子类的类间特征方差,我们从标志背景颜色和形状出发将禁止标志划分为3个超类("ps"、"pg"和"pnum"),指示标志划分为2个超类("ip"和"i"),警告标志划分为一个超类("W")。至此,整个交通标志被划分为6个超类。
为了准确地进行超类划分,我们使用Kmeans聚类方法对图2中的标志子类进行聚类分析。考虑到“警告、禁止、指示”3个主类和3个不常见的标志形状,我们设置了最大值k=6到最小值k=3,为了准确的评估聚类性能,我们定义了类间离散度和类内离散度,为了选择更准确的超类数目便于超类检测,我们定义了聚类误差。合适的k值聚类性能应该是类内离散度要尽可能小,类间离散度要尽可能大,所以聚类误差J越小,聚类性能越好,定义的公式如下所示:
Figure BDA0003484578420000111
Figure BDA0003484578420000112
Figure BDA0003484578420000113
其中,SB为类间离散度,SW为类内离散度,
Figure BDA0003484578420000114
为常数,Mi、Mj为聚类类别(即前述初选类别)的均值特征向量,Xn为子类的特征向量,J为聚类误差,k为初选类别数量,i、j、n为序号,np为子类数量。
从我们的研究中发现当k=3时,聚类误差J取得最小值,这说明在超类划分中,没有必要将"ps"和"pg"类从禁止标志中拆分,也没有必要将"ip"类从指示标志中拆分,所以将标志按照警告、禁止、指示划分为"i"、"W","p”3个超类更利于超类检测器进行检测。
接着介绍标志特征提取的研究改进。为了检测算法的鲁棒性,我们采用了R-FCN作为我们检测器研究的基础方法。R-FCN包含特征提取主干网络ResNet-101、区域提议网络RPN(即前述候选区域判别层),紧随其后的是感兴趣区域RoI的分类和回归。R-FCN的处理过程是:图片输入到R-FCN,特征提取主干网络从输入图像中提取特征,然后经过RPN得到预选区域proposals,proposals经过分类和回归输出目标的类别和位置。由于交通标志在整个图像上的尺寸占比非常小(不到1%),并且标志的语义特征比较简单,所以特征提取主干网络不宜过深和复杂。在这种情况下,使用ResNet-101在提取特征时容易过拟合,所以结合交通标志的特征情况和实际应用,我们重新设计使用ResNet-18作为特征提取主干网络。在我们的研究中,观察到更深层次的网络在提取交通标志特征时容易出现过拟合现象,更深层次的特征提取网络通常提取的是高层语义信息,比较抽象,这将容易丢失重要的交通标志基本外观和形状信息,此外,深度网络参数较多,模型尺寸较大,处理图像的速度较慢,在交通标志检测的实际应用中需要对特征提取主干网络进行改进。为了增强基本的外观和形状特征表达,我们删除了ResNet-101顶层的卷积层和BN层,保存了底层的卷积层。与此同时,我们也注意到浅层网络通常无法完全提取标志的特征和增加特征的区分度,因此选择ResNet-18作为特征提取主干网络是一种比较好的平衡,我们将ResNet-18应用于R-FCN,生成一个新的baseline。
针对交通标志尺寸范围过大的挑战,我们发现ResNet-18在交通标志识别任务中的局限性,首先是每个卷积层的卷积滤波器的大小是固定的,由于缺乏多样的感受野,不利于提取多尺寸交通标志的特征,而用多尺寸滤波器在深度上增加卷积层非常耗时。其次是直接将不同通道的特征图连接起来,未考虑不同通道特征的重要程度。
卷积处理是通过所有通道的线性求和操作而产生的,因此通道间的相关关系被隐式地表达于卷积结果中,同时与卷积核学习获得的局部空间关系混合到了一起。然而,通道间的相关关系并不是线性的,对于特征提取主干网络来说,显式地提高其对不同通道和感受野信息特征的敏感性是非常重要的,并且对不同通道的特征关系进行研究有利于区分背景信息,显式地对通道间相关关系进行建模可以增强卷积提取特征的学习,有利于多尺寸交通标志的检测。
为了解决上面提及的问题,我们重新设计了特征提取主干网络,引入了多尺寸卷积核和通道注意力机制,以便对多尺寸标志进行超类检测。
首先介绍多尺寸卷积核的引入。交通标志的尺寸跨度范围非常大,在图像中单边像素宽度在[16,200]的范围,标志尺寸方差大会给检测器带来非常大的挑战。所以我们借鉴了Inception结构的思想,设计多尺寸卷积核来并行提取标志的特征,然后将不同通道的特征在通道维度连接到一起。多尺寸卷积核并行使用可以提供更多的感受野,充分提取不同尺寸交通标志的特征,增强标志的特征表达,有利于多尺寸交通标志的检测。
其次是通道注意力机制的引入。通道注意力机制的主要思想是通过网络训练学习的方式来自适应获得每个特征通道对应的重要程度,然后根据这个学习到的重要程度去提高有益的特征,增加响应强度,并抑制对实现当前任务作用不大的特征,这在交通标志特征提取中起着重要作用,通道注意力机制可以用来区分标志特征和图像中背景特征,增强标志的特征响应,抑制背景特征的响应。同时,可以对多尺寸卷积核生成的不同通道特征来学习对应的重要程度,从而增加多尺寸交通标志的特征表达。我们利用全局信息去进行学习,即可得到不同通道的标量权重因子,权重因子代表不同通道对应的重要程度,也就是说,它可以选择性地增强对任务有利的特征,抑制无用特征。
再次是检测器网络结构,通过多尺寸卷积核和通道注意力机制的引入,我们得到了新的block,在这里我们定义Inception-Attention block为IA block。其结构如图4所示。
与以往不同通道特征直接连接相比,不同尺寸感受野提取的特征通过通道注意力机制自适应权重连接到一起,作为后面网络层的输入。我们将IA block嵌入到卷积神经网络中得到新的特征提取主干网络,整个的超类检测器网络结构如图3所示。
此后是改进anchor(锚框)生成策略。首先介绍anchor的基本原理。Anchor的本质是参考框,在目标检测经典的主流检测框架中,anchor是重要的组成部分,其原理是首先在不同位置预先设置一组不同尺寸的固定参考框,在待检测图像上均匀密集覆盖,每个参考框要负责关注与其交并比(IoU)大于设定阈值的目标,换句话说,anchor策略把问题转化为“设定的固定参考框中有没有待检测的目标、目标框偏离预设参考框有多大距离”,不再像以往滑窗方法需要多尺寸遍历整个图像进行滑窗,提高了检测效果。anchor涉及到两个重要的预设参数:尺寸和比例,尺寸是指anchor所代表的矩形框面积,比例是指这个矩形框的长宽比。
根据在场景目标检测的实际情况,anchor调整应该有以下几点原则:1.一般情况下anchor尺寸和比例越接近实际物体尺寸越好,原因是会有较多anchor的回归目标是前景目标,与此同时,不同类别的样本不均衡问题稍微缓解,因为虽然某个类别样本较少,但在此样本附近有大量anchor回归的目标,这样的话此样本附近区域的特征映射图featuremap会被反复提取送到后端网络,在某种程度上有一定的特征增强效果,从而提升性能。2.调整中需要注意RPN除了提供RoI之外,还在分类前景和背景,仍然是一个分类器的角色,那么anchor就不仅仅需要去贴近前景目标的尺寸,同时需要考虑对背景的影响。以路标为例,实际路况中,我们把路标当作前景,但是在图像背景当中会有车、人、建筑、树木等物体,这些物体在Imagenet数据集预训练的时候是有分类类别的,也就是说,送入RPN的featuremap上是有这些物体的响应特征点的,所以是需要一部分anchor的目标是背景类,从而RPN才能很好的分类前景与背景。所以,anchor的调整需要具体情况具体分析。
下面介绍自适应anchor的生成。交通标志95%的标志位于图像的中上部,并且标志在右侧占比大。针对交通标志的分布情况和多尺寸跨度,我们发现以往的预设参数生成一系列均匀密集的anchor,在交通标志检测任务中比较低效,因为交通标志在图像中并不是随机分布的,而且交通标志尺寸跨度大,这意味着预设的anchor要增加,这些都会影响检测器的性能。面对这个问题,我们受引导性anchor启发,通过网络监督训练生成自适应anchor,即通过学习得到anchor的中心位置和形状,最终组合得到自适应anchor。
anchor是现代目标检测框架的基础,这些框架主要依赖于均匀而密集的anchor生成,即一组预定义尺寸和长宽比的anchor在feature map上部署生成,但是这种生成策略效率很低,因为许多anchor被放置在目标不存在的区域,此外,这种预定义anchor形式不理想地为目标假定了一组固定的尺寸和长宽比。针对这个问题,我们采用一种更有效的ahchor策略来生成具有可学习形状的anchor。具体的anchor生成策略如下:目标的位置和形状可以用形式为(x,y,w,h)来表示,(x,y)为目标的位置中心,w为宽度,h为高度,可以认为目标的位置和形状遵循以下条件分布。
p(x,y,w,h|I)=p(x,y|I)p(w,h|x,y,I)
从上述公式分解中可以捕获了两个重要部分,第一,目标存在于图像的某些区域,而非全部区域;第二,目标的形状与它所在位置有着较为密切的关系。我们用分解的条件分布表示联合anchor分布,交通标志在图像的分布非常符合上面提及的两部分,交通标志主要分布在图像的中上部,右侧占比比较大,而且图像中部的标志尺寸较小,图像上部的标志尺寸较大,自适应anchor生成过程如图6所示。
在图6中,输入一个图像,我们首先获得特征图F,然后位置预测分支输出位置概率图,表示预测目标所在的位置,形状预测分支预测相应位置anchor的形状。结合这两个分支,通过位置的预测,选择概率超过一定阈值的位置作为anchor中心,并选择对应位置最可能的形状生成一组anchor。在图6中,位置预测分支输出与特征图F大小一致的位置概率图p(x,y|F),p(x,y|F)的值表示标志的中心出现在这个位置概率。位置概率图是由Nl预测所得。Nl使用1*1的卷积作用于特征图F,得到一个分数值,然后分数值经过sigmoid函数变换为位置概率值,根据概率值我们确定标志在图像上存在的区域,通过选择高于预定概率值的对应位置,我们确定anchor的中心位置。获取anchor的中心位置后,我们需要确定在这些可能位置对应的anchor形状,这个任务由形状预测分支Ns来实现。获取特征图F后,形状预测分支预测最佳的anchor形状以达到每个位置与最近的标注真值框产生最大的IoU。
以下介绍基于anchor的特征转换。自适应anchor的形状多样并且其分布是稀疏的,因此我们使用特征转换模块对提取的原始特征图F进行转换以适合自适应anchor的生成。如图6所示,这个模块的作用是捕获不同范围的语义信息,并且将特征与生成的对应anchor对齐。理想情况下,较大尺寸anchor的特征区域应该编码比较大的内容区域,而较小尺寸anchor的特征区域编码比较小的内容区域,受引导性anchor启发,我们使用一个基于anchor的特征转换模块,它能根据anchor的形状对每个位置的特征进行转换,对于每个位置的转换,我们使用3*3的可变形卷积实现网络。在图6中,首先根据anchor的形状预测一个位置偏移量(offset field),然后将偏移量应用到原始特征图F并经过Nf得到F',在自适应anchor的作用下生成更加准确的proposal。
为了训练anchor位置预测分支,我们需要制作一个二值标签图。理论上,在图中数值1代表一个生成anchor的有效位置,0代表无效位置,因此,我们使用标注真值框指导二值标签图的制作。为了更好地优化anchor位置的预测,我们希望在标志中心的临近位置放置更多的anchor,远离标志中心的地方放置较少的anchor,受引导性anchor启发,我们在标志中心位置的临近区域设置1,其余位置设置为0,从而制作二值标签图来监督anchor位置训练。在二值标签图中,1表示正样本位置,0表示负样本位置。在这样的设计下,正样本位置的比例远远少于负样本位置,所以我们使用Focal loss来平衡正负样本,作为anchor位置训练的loss。为了训练anchor的形状预测分支,我们将anchor与位置最近的标注真值框通过IoU进行匹配,我们的目的是预测anchor的宽度和高度,使其能够最大可能覆盖对应的标注真值框。
以下介绍BN层融合操作。在卷积神经网络中,通常将批归一化BN层(BatchNormalization)放置在卷积层后面,以加快训练阶段的网络收敛速度。但是,在测试阶段,这些额外的BN层会消耗更多的内存并降低计算速度。因此,我们提出了BN层融合操作,在训练阶段,BN层不能合并到对应卷积层中,只有将BN层与卷积层解耦进行训练,BN层才能更好地对数据进行归一化,加速网络收敛,控制过拟合。同时,在推理阶段,我们将BN层的网络参数合并到卷积层中,以提高处理速度,而合并BN操作对于提高处理速度是非常有效的,检测器在保持相同性能的同时加快了处理速度。训练完检测器后,我们将卷积层与BN层融合在一起,成为一个单层。
最后介绍多尺寸测试设计。交通标志的尺寸跨度范围非常大,并且我们发现较大和较小尺寸的标志检测性能都有很大的提升空间,因此,我们在超类检测器中引入了多尺寸检测,即对于一幅测试图像,我们根据不同大小的交通标志的位置分布对其进行操作,首先,我们将图像中部15%区域截取出来并且放大1.5倍得到放大图像,这是特意为小尺寸标志检测准备的,其次,我们将原始图像缩小4倍得到缩小图像,这是特意为大尺寸标志检测准备的,此后,将原始图像、放大图像和缩小图像分别送入超类检测器进行检测。最后,我们将前面3次的检测结果进行融合,去除重复的检测结果,从而进一步提升检测性能。
以上对本实施例的超类检测器的设计原理和具体设计实现进行了详细的论述。在超类检测器的设计中,超类类别的划分是一个非常重要的环节,要尽可能做到类内方差小、类间方差大,最终验证划分为警告(w)、禁止(p)、指示(i)3个超类性能最好。针对标志的多尺寸跨度和复杂背景,我们改进了标志特征提取主干网络,我们引入多尺寸卷积核和通道注意力机制,能够提供多尺寸感受野,自适应确定各通道特征的重要性,从而缓解标志多尺寸跨度挑战,降低复杂背景的干扰。针对交通标志的分布规律和形状位置关系,标志主要集中在图像的中上部,而且图像中部的标志尺寸较小,上部的标志尺寸较大,基于这个发现,我们对检测器的anchor生成形式进行了参数验证比较,同时使用自适应anchor的学习生成策略来进行标识检测,为检测器提供了更加准确的proposals,有利于标识的检测。为了检测器能够更好地进行实际应用,我们采用融合BN和多尺寸测试的方法对超类检测器进行了优化。
需要说明的是,对于前述的各方法实施例,为了便于描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,某些步骤事实上可以采用其它顺序进行或者同时进行。此外,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是实现本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图7所示,本发明实施例提供的交通标志检测装置700可以包括:初步特征提取单元701、多尺度特征提取单元702、注意力单元703和检测单元704。
其中,初步特征提取单元701可用于将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;多尺度特征提取单元702可用于将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;注意力单元703可用于将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;检测单元704可用于将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
在本发明实施例中,所述多尺度特征提取单元702可进一步用于:将所述特征图特征并行输入所述多尺度特征提取层的多条特征提取路径,获得每一特征提取路径输出的特征图;将每一特征提取路径输出的特征图按照该特征图的通道进行结合,得到所述待检测图像的多尺度特征图;所述注意力单元703可进一步用于:在所述通道注意力响应层中,针对输入的所述多尺度特征图的每一通道,获取该通道的权重因子;将每一权重因子与对应通道的特征图数据相乘,并将相乘形成的数据结合为所述通道注意力特征。
作为一个可选的方案,所述待检测图像中交通标志的类别为预先确定的超类之一;所述装置700可进一步包括超类确定单元,用于设置多种交通标志分类方式;其中,在任一交通标志分类方式中建立多个涵盖各交通标志的初选类别;计算每一交通标志分类方式的聚类误差,所述聚类误差为该交通标志分类方式中类内离散度与类间离散度之商;将所述聚类误差最小的交通标志分类方式中的初选类别确定为所述超类。
可选的,所述装置700可进一步包括多尺度检测单元,用于截取所述待检测图像的中心区域,并将所述中心区域放大预设的第一倍数,得到所述待检测图像的放大图像;将所述待检测图像缩小预设的第二倍数,得到所述待检测图像的缩小图像;将所述放大图像和所述缩小图像分别输入所述交通标志检测模型,得到所述放大图像和所述缩小图像的检测结果;融合所述待检测图像、所述放大图像和所述缩小图像的检测结果以确定所述待检测图像的最终检测结果;其中,所述检测结果包括交通标志的类别和定位框。
此外,在本发明实施例中,所述超类包括警告类、禁止类和指示类;在所述交通标志检测模型中,所述多尺度特征提取层、所述通道注意力响应层和所述候选区域判别层依次连接。
根据本发明实施例的技术方案,在利用卷积层和池化层提取到待检测图像的特征图特征之后,使用具有多条特征提取路径的多尺度特征提取层获取待检测图像的多尺度特征图,其中,每一特征提取路径具有不同的卷积核尺寸或池化尺寸,能够提供多种尺度的感受野,由此适应交通标志在图像中的多尺度特点,提升检测效果。此后,利用通道注意力响应层计算多尺度特征图中每一通道的权重因子,进而依据权重因子构建通道注意力特征用于后续的交通标志分类和定位框回归,由此在特征图中体现各通道的重要程度,有利于检测效果的进一步提高。此外,本发明实施例还通过计算聚类误差获取效果最佳的交通标志分类方式,解决了现有技术中因交通标志类别之间的离散度小导致分类损失函数易波动的问题;最后,本发明实施例在对待检测图像检测之余,还对其放大图像和缩小图像并行检测,最后融合三方面的检测结果,由此进一步适配交通标志在图像中的多尺度特点,进一步提高检测效果。
图8示出了可以应用本发明实施例的交通标志检测方法或交通标志检测装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种客户端应用,例如交通标志检测应用(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所操作的交通标志检测应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的图像检测请求进行处理,并将处理结果(例如检测出的交通标志类别和交通标志定位框--仅为示例)反馈给终端设备801、802、803。
需要说明的是,本发明实施例所提供的交通标志检测方法一般由服务器805执行,相应地,交通标志检测装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的交通标志检测方法。
下面参考图9,其示出了适于用来实现本发明实施例的电子设备的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中,还存储有计算机系统900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括初步特征提取单元、多尺度特征提取单元、注意力单元和检测单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,初步特征提取单元还可以被描述为“向多尺度特征提取单元提供待检测图像的特征图特征的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
在本发明实施例的技术方案中,利用卷积层和池化层提取到待检测图像的特征图特征之后,使用具有多条特征提取路径的多尺度特征提取层获取待检测图像的多尺度特征图,其中,每一特征提取路径具有不同的卷积核尺寸或池化尺寸,能够提供多种尺度的感受野,由此适应交通标志在图像中的多尺度特点,提升检测效果。此后,利用通道注意力响应层计算多尺度特征图中每一通道的权重因子,进而依据权重因子构建通道注意力特征用于后续的交通标志分类和定位框回归,由此在特征图中体现各通道的重要程度,有利于检测效果的进一步提高。此外,本发明实施例还通过计算聚类误差获取效果最佳的交通标志分类方式,解决了现有技术中因交通标志类别之间的离散度小导致分类损失函数易波动的问题;最后,本发明实施例在对待检测图像检测之余,还对其放大图像和缩小图像并行检测,最后融合三方面的检测结果,由此进一步适配交通标志在图像中的多尺度特点,进一步提高检测效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种交通标志检测方法,其特征在于,包括:
将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;
将提取到的所述特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;
将得到的所述多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;
将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
2.根据权利要求1所述的方法,其特征在于,所述将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图,包括:
将所述特征图特征并行输入所述多尺度特征提取层的多条特征提取路径,获得每一特征提取路径输出的特征图;
将每一特征提取路径输出的特征图按照该特征图的通道进行结合,得到所述待检测图像的多尺度特征图。
3.根据权利要求2所述的方法,其特征在于,所述将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征,包括:
在所述通道注意力响应层中,针对输入的所述多尺度特征图的每一通道,获取该通道的权重因子;
将每一权重因子与对应通道的特征图数据相乘,并将相乘形成的数据结合为所述通道注意力特征。
4.根据权利要求3所述的方法,其特征在于,所述待检测图像中交通标志的类别为预先确定的超类之一;以及,所述方法进一步包括:
设置多种交通标志分类方式;其中,在任一交通标志分类方式中建立多个涵盖各交通标志的初选类别;
计算每一交通标志分类方式的聚类误差,所述聚类误差为该交通标志分类方式中类内离散度与类间离散度之商;
将所述聚类误差最小的交通标志分类方式中的初选类别确定为所述超类。
5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:
截取所述待检测图像的中心区域,并将所述中心区域放大预设的第一倍数,得到所述待检测图像的放大图像;将所述待检测图像缩小预设的第二倍数,得到所述待检测图像的缩小图像;
将所述放大图像和所述缩小图像分别输入所述交通标志检测模型,得到所述放大图像和所述缩小图像的检测结果;
融合所述待检测图像、所述放大图像和所述缩小图像的检测结果以确定所述待检测图像的最终检测结果;其中,所述检测结果包括交通标志的类别和定位框。
6.根据权利要求4或5所述的方法,其特征在于,所述超类包括警告类、禁止类和指示类;
在所述交通标志检测模型中,所述多尺度特征提取层、所述通道注意力响应层和所述候选区域判别层依次连接。
7.一种交通标志检测装置,其特征在于,包括:
初步特征提取单元,用于将待检测图像输入预先训练的交通标志检测模型,利用所述交通标志检测模型中的卷积层和池化层提取所述待检测图像的特征图特征;
多尺度特征提取单元,用于将提取到的特征图特征输入所述交通标志检测模型中的多尺度特征提取层,得到所述待检测图像的多尺度特征图;其中,所述多尺度特征提取层包括多条特征提取路径,不同的特征提取路径具有不同的卷积核尺寸或池化尺寸;
注意力单元,用于将得到的多尺度特征图输入所述交通标志检测模型中的通道注意力响应层,获得所述待检测图像的通道注意力特征;
检测单元,用于将所述通道注意力特征输入所述交通标志检测模型中的候选区域判别层,得到所述待检测图像中的至少一个候选区域,基于所述候选区域和所述通道注意力特征确定所述待检测图像中交通标志的类别和定位框。
8.根据权利要求7所述的装置,其特征在于,
所述多尺度特征提取单元进一步用于:将所述特征图特征并行输入所述多尺度特征提取层的多条特征提取路径,获得每一特征提取路径输出的特征图;将每一特征提取路径输出的特征图按照该特征图的通道进行结合,得到所述待检测图像的多尺度特征图;
所述注意力单元进一步用于:在所述通道注意力响应层中,针对输入的所述多尺度特征图的每一通道,获取该通道的权重因子;将每一权重因子与对应通道的特征图数据相乘,并将相乘形成的数据结合为所述通道注意力特征。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202210077318.4A 2022-01-24 2022-01-24 交通标志检测方法和装置 Pending CN114495058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210077318.4A CN114495058A (zh) 2022-01-24 2022-01-24 交通标志检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210077318.4A CN114495058A (zh) 2022-01-24 2022-01-24 交通标志检测方法和装置

Publications (1)

Publication Number Publication Date
CN114495058A true CN114495058A (zh) 2022-05-13

Family

ID=81473227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210077318.4A Pending CN114495058A (zh) 2022-01-24 2022-01-24 交通标志检测方法和装置

Country Status (1)

Country Link
CN (1) CN114495058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853490A (zh) * 2024-03-06 2024-04-09 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、图像处理模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853490A (zh) * 2024-03-06 2024-04-09 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、图像处理模型的训练方法
CN117853490B (zh) * 2024-03-06 2024-05-24 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、图像处理模型的训练方法

Similar Documents

Publication Publication Date Title
US10037604B2 (en) Multi-cue object detection and analysis
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
Chen et al. Efficient hierarchical method for background subtraction
US20210158699A1 (en) Method, device, readable medium and electronic device for identifying traffic light signal
CN110378297B (zh) 基于深度学习的遥感图像目标检测方法、装置、及存储介质
CN111191654B (zh) 道路数据生成方法、装置、电子设备及存储介质
US20210150182A1 (en) Cloud detection from satellite imagery
Xiang et al. Lightweight fully convolutional network for license plate detection
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN112215190A (zh) 基于yolov4模型的违章建筑检测方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111932577A (zh) 文本检测方法、电子设备及计算机可读介质
CN114495058A (zh) 交通标志检测方法和装置
CN114332993A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN112132867B (zh) 一种遥感影像变化检测方法及装置
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN111553361B (zh) 一种病理切片标签识别方法
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN111126187A (zh) 火情检测方法、系统、电子设备及存储介质
CN116977260A (zh) 目标物的缺陷检测方法、装置、电子设备及存储介质
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
Huu et al. Proposing WPOD-NET combining SVM system for detecting car number plate
CN112101139B (zh) 人形检测方法、装置、设备及存储介质
Kaur et al. Text Extraction from Natural Scene using PCA.
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination