CN115147814A

CN115147814A - 交通指示对象的识别方法和目标检测模型的训练方法

Info

Publication number: CN115147814A
Application number: CN202210913772.9A
Authority: CN
Inventors: 张为明; 孙昊; 谭啸
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-04

Abstract

本公开提供了一种交通指示对象的识别方法和目标检测模型的训练方法，涉及人工智能领域，具体涉及图像处理、计算机视觉和深度学习技术领域，尤其涉及目标检测、智能交通和智慧城市等场景。交通指示对象的识别方法的具体实现方案为：采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图；其中，道路图像是由终端采集得到的；采用目标检测模型包括的至少两个预测网络对至少两个特征图分别进行处理，得到至少两组检测结果；以及响应于根据至少两组检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的位置信息和交通指示对象的类别信息，其中，骨干网络是基于轻量级网络构建的。

Description

交通指示对象的识别方法和目标检测模型的训练方法

技术领域

本公开涉及人工智能领域，具体涉及图像处理、计算机视觉和深度学习技术领域，尤其涉及目标检测、智能交通和智慧城市等场景。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术对道路中的要素进行识别，以根据识别结果进行地图的更新。

发明内容

本公开旨在提供一种能够应用于终端的交通指示对象的识别方法，以及得到轻量级模型的目标检测模型的训练方法。

根据本公开的一个方面，提供了一种交通指示对象的识别方法，包括：采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图；采用目标检测模型包括的至少两个预测网络对至少两个特征图分别进行处理，得到至少两组检测结果；以及响应于根据至少两组检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的位置信息和交通指示对象的类别信息，其中，骨干网络是基于轻量级网络构建的。

根据本公开的一个方面，提供了一种目标检测模型的训练方法，包括：采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图；样本图像包括交通指示对象，且样本图像对应有交通指示对象的真值类别信息和真值位置信息；采用待训练模型包括的至少两个预测网络对至少两个第一特征图分别进行处理，得到至少两组第一检测结果；根据至少两组第一检测结果，确定交通指示对象在样本图像中的第一位置信息和交通指示对象的第一类别信息；以及根据第一位置信息与真值位置信息之间的差异以及第一类别信息与真值类别信息之间的差异，训练待训练模型，得到目标检测模型，其中，骨干网络是基于轻量级网络构建的。

根据本公开的一个方面，提供了一种交通指示对象的识别装置，包括：特征提取模块，用于采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图；结果预测模块，用于采用目标检测模型包括的至少两个预测网络对至少两个特征图分别进行处理，得到至少两组检测结果；以及信息确定模块，用于响应于根据至少两组检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的位置信息和交通指示对象的类别信息，其中，骨干网络是基于轻量级网络构建的。

根据本公开的一个方面，提供了一种目标检测模型的训练装置，包括：第一特征提取模块，用于采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图；样本图像包括交通指示对象，且样本图像对应有交通指示对象的真值类别信息和真值位置信息；第一结果预测模块，用于采用待训练模型包括的至少两个预测网络对至少两个第一特征图分别进行处理，得到至少两组第一检测结果；第一信息确定模块，用于根据至少两组第一检测结果，确定交通指示对象在样本图像中的第一位置信息和交通指示对象的第一类别信息；以及模型训练模块，用于根据第一位置信息与真值位置信息之间的差异以及第一类别信息与真值类别信息之间的差异，训练待训练模型，得到目标检测模型，其中，骨干网络是基于轻量级网络构建的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的交通指示对象的识别方法或目标检测模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的交通指示对象的识别方法或目标检测模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的交通指示对象的识别方法或目标检测模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的交通指示对象的识别方法和目标检测模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的交通指示对象的识别方法的流程示意图；

图3是根据本公开实施例的提取至少两个感受野下的特征图的原理示意图；

图4是根据本公开实施例的交通指示对象的识别方法的原理示意图；

图5是根据本公开实施例的目标检测模型的训练方法的流程示意图；

图6是根据本公开实施例的目标检测模型的训练方法的原理示意图；

图7是根据本公开实施例的交通指示对象的识别装置的结构框图；

图8是根据本公开实施例的目标检测模型的训练装置的结构框图；以及

图9是用来实施本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在地图维护场景中，通常将来源于数据渠道方提供的车端行车记录仪拍摄的图像数据回传给服务端，由服务端进行交通指示对象(例如交通标志牌等)的识别，并根据识别结果来进行地图的维护和更新。

通常，回传给服务端的图像数据大部分都是不包括交通指示对象的无效数据，这会增加从数据渠道方获取数据的成本。再者，服务端通常会在回传得到目标区域中所有子区域的图像数据后再对图像数据进行集中识别，随后再根据识别结果来对该目标区域的地图数据进行更新。这会导致地图数据的更新通常需要较长的周期。

本公开提供了一种交通指示对象的识别方法及目标检测模型的训练方法、装置，以仅在图像数据中包括交通指示对象时，将图像数据回传给服务端，以此降低服务端获取图像数据的成本。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的交通指示对象的识别方法和目标检测模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。在一实施例中，该电子设备110例如可以为智能车辆上的电子设备，例如可以为行车记录仪或车载终端等。在一实施例中，电子设备110可以为仅设置由CPU，但未设置GPU的电子设备，本公开对此不做限定。

在一实施例中，该电子设备110例如还可以具有图像采集功能，以采集电子设备的视线范围内的图像，得到图像120。

该电子设备110例如可以对采集得到的图像120进行目标检测，得到目标在图像120中的位置和目标的类别130。其中，目标例如可以为交通指示对象。具体地，电子设备110可以采用目标检测模型140来对图像120进行目标检测。目标检测模型140例如可以为一阶(one stage)模型或者二阶(two stage)模型中的任意模型，该目标检测模型140中的骨干(backbone)网络例如可以是基于轻量级网络构建的，以此使得该目标检测模型140可以适用于电子设备110中。

如图1所示，该应用场景100例如还可以包括服务器150，该服务器150可以为向电子设备110中客户端应用的运行提供支持的后台管理服务器，或者可以为云端服务器。电子设备110例如可以通过网络与服务器150通信连接。或者，服务器150可以为任意的服务器。该服务器150例如可以根据离线图像来对目标检测模型140进行训练，并为电子设备110提供训练得到的目标检测模型。

需要说明的是，本公开提供的交通指示对象的识别方法可以由电子设备110执行。相应地，本公开提供的交通指示对象的识别装置可以设置在电子设备110中。本公开提供的目标检测模型的训练方法可以由服务器150执行。相应地，本公开提供的目标检测模型的训练装置可以设置在服务器150中。

应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。

以下将结合图2～图4对本公开提供的交通指示对象的识别方法进行详细描述。

图2是根据本公开实施例的交通指示对象的识别方法的流程示意图。

如图2所示，该实施例的交通指示对象的识别方法200可以包括操作S210～操作S230。该识别方法200例如可以由终端执行，该终端可以为上文描述的电子设备。

在操作S210，采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图。

其中，道路图像例如可以为终端实时采集的图像。骨干网络例如可以是基于轻量级网络构建的，例如，该骨干网络可以为MobileNet系列网络、ShuffleNet系列网络、SqueezeNet系列网络等，本公开对此不做限定。

例如，骨干网络可以包括逐级连接的至少两级的采样子网络，该实施例可以将道路图像作为骨干网络的输入，该道路图像可以逐级地经由采样子网络处理，由至少两级的采样子网络依次输出至少两个特征图。例如，若骨干网络包括五级采样子网络，则可以由每级采样子网络输出一个特征图，且该五级采样子网络输出的五个特征图的感受野按采样子网络的连接顺序依次减小。例如，若不考虑通道维度，且道路图像的尺寸H×W，则排在第一级的采样子网络输出的特征图的尺寸可以为H/2×W/2，排在第二级的采样子网络输出的特征图的尺寸可以为H/4×W/4，以此类推，排在第五级的采样子网络输出的特征图的尺寸可以为H/32×W/32。

在一实施例中，可以取五级采样子网络中排在较后的预定数量级采样子网络所输出的特征图作为至少两个特征图。例如，可以取五级采样子网络中第二级采样子网络～第五级采样子网络输出的特征图，从而得到至少两个特征图。

在操作S220，采用目标检测模型包括的至少两个预测网络对至少两个特征图分别进行处理，得到至少两组检测结果。

根据本公开的实施例，每个预测网络可以包括分类分支和回归分支。其中，分类分支用于根据至少两个特征图确定检测得到的目标对象的类别，回归分支用于根据至少两个特征图确定检测得到的目标对象在道路图像中的位置。其中，目标对象即为交通指示对象，例如可以包括交通标志牌、事故指示牌和施工指示对象中的至少之一。其中，施工指示对象例如可以包括施工挡板、水马和三角锥桶中的至少之一。在交通指示对象具有多个预定类别时，分类分支可以用于执行多分类任务。

例如，可以将至少两个特征图一一对应的输入到至少两个预测网络中，由每个预测网络输出一组检测结果。每组检测结果包括道路图像中的目标对象属于多个预定类别的概率(即目标对象的类别信息)和目标对象在道路图像中的位置信息。其中，位置信息例如可以包括目标对象的包围框box在道路图像中左上角的坐标值、包围框box的宽度和高度。可以理解的是，在多目标检测任务中，每组检测结果可能包括多个位置信息和与该多个位置信息分别对应的类别信息。

可以理解的是，若道路图像中不包括交通指示对象，则至少两组检测结果可以为空。

可以理解的是，每个预测网络除了包括分类分支和回归分支外，例如还可以包括分类分支和回归分支共享的卷积层，与预测网络对应的特征图经卷积层处理后输入分类分支和回归分支，本公开对此不做限定。

在操作S230，响应于根据至少两组检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的位置信息和交通指示对象的类别信息。

该实施例中，例如可以先确定至少两组检测结果中是否均为空，若不是，则可以确定至少两组检测结果指示道路图像中包括交通指示对象。若均为空，则可以确定至少两组检测结果指示道路图像中不包括交通指示对象。在确定包括交通指示对象的情况下，该实施例可以采用非极大值抑制算法(Non Maximum Suppression，NMS)对至少两组检测结果进行后处理，以去除至少两组检测结果中冗余的候选框的位置信息，得到最佳检测框的位置信息。该实施例可以将最佳检测框的位置信息作为交通指示对象在道路图像中的位置信息，将与最佳检测框对应的类别信息作为交通指示对象的类别信息。

可以理解的是，本公开实施例的技术方案中，通过基于轻量级网络来设置骨干网络，使得目标检测模型可以配置于采集图像的终端中。如此，可以实现道路指示对象的线上实时检测。再者，通过采用至少两个预测网络来对至少两个感受野下的特征图分别进行处理，可以使得目标检测可以兼顾多种尺寸的目标对象，可以提高检测结果的精度。

以下将通过实施例对上文描述的操作S210的实现进行进一步地限定和扩展。

图3是根据本公开实施例的提取至少两个感受野下的特征图的原理示意图。

根据本公开的实施例，骨干网络可以由逐级连接的多级采样子网络构成。例如，设定骨干网络是基于ShuffleNet系列网络构建的，则骨干网络可以由逐级连接的五级采样子网络构成。该实施例可以将道路图像输入该骨干网络的第一级采样子网络，将第一级采样子网络输出的特征图输入第二级采样子网络，将第二级采样子网络输出的特征图输入第三级采样子网络，以此类推，可以由五级采样子网络得到五个特征图。该实施例可以将第二级采样子网络～第五级采样子网络输出的四个特征图作为四个感受野下的四个特征图。之所以第一级采样子网络输出的特征图不作为得到检测结果的依据，是因为通常第一级采样子网络提取的特征精度较低，参考价值较小。

例如，若采用ShufflerNetv2网络构建骨干网络，则骨干网络的结构可以如下表所示。其中，Layer(层)列中，Image表示输入骨干网络的图像，自卷积层Conv1开始，自上至下所列的各个层即为骨干网络依次连接的多个层。其中，卷积层Conv1可以理解为骨干网络的第一级采样子网络，最大池化层MaxPool可以理解为骨干网络的第二级采集子网络。Stage2～Stage4分别表示骨干网络的第三级～第五级采样子网络。输出尺寸(Output size)表示骨干网络中各层输出的特征图的宽度和高度的尺寸，其中，输入骨干网络的图像的尺寸例如可以为224×224。卷积核尺寸(KSize)表示各层中卷积层的尺寸，Stride表示下采样倍率，Repeat表示该层对特征图进行处理的循环次数。可以理解的是，下表中骨干网络的结构与通常采用的ShufflerNetv2网络的区别在于，该实施例的骨干网络中，在stage4层之后，没有设置卷积层、全局池化层和全连接层等，这是由于本公开无需对至少两个感受野下的至少两个特征图进行融合。

在一实施例中，还可以将多级采样子网络中除第一级采样子网络外的任一级采样子网络作为目标采集子网络，并将该目标采集子网络的下采样倍率设置为1，以使得该目标采样子网络输出的特征图与该目标采集子网络的前一级采集子网络所输出的特征图具有相同的感受野。通过该方式，可以提高最终得到的至少两个特征图中，目标采样子网络输出的特征图的感受野，以利于提高小目标的检测精度。

可以理解的是，根据实际需求，可以将多级采样子网络中依次连接的、任意的至少两级采样子网络输出的特征图作为上文描述的至少两个特征图，本公开对此不做限定。

在一实施例中，如图3所示，该实施例300中，骨干网络320可以由逐级连接的四级采样子网络构成，该四级采样子网络可以为轻量级网络所包括的多级采样子网络中前四级的采样子网络。如此，可以压缩骨干网络320的模型大小，利于在计算能力较小的终端(例如行车记录仪)中布置目标检测模型，提高本公开实施例的识别方法的应用范围。

在该实施例中，可以将终端采集的道路图像310输入骨干网络320中的第一级采样子网络321，经由第一级采样子网络321和第二级采样子网络322处理后，第二级采样子网络可以输出第一特征图331。第三级采样子网络323对该第一特征图331处理后，可以输出第二特征图332。第四级采样子网络324对该第二特征图332处理后，可以输出第三特征图333。该实施例可以将第一特征图331～第三特征图333作为上文描述的至少两个特征图。在该实施例中，第二级采样子网络322的下采样倍率例如可以为1。例如，该实施例的骨干网络与上表中网络结构的区别可以为：最大池化层MaxPool的stride的取值为1。

在一实施例中，还可以为骨干网络设置较小的宽度比例(scale)，该宽度比例是指骨干网络的宽度与构建骨干网络所依据的轻量级网络的宽度之间的比例。例如，该scale的取值为小于1的值，该scale的取值可以为0.5、0.25等。通过该小于1的宽度比例的设置，可以进一步压缩骨干网络的模型大小，利于在计算能力较小的终端(例如行车记录仪)中布置目标检测模型，提高本公开实施例的识别方法的应用范围。

以下将通过实施例对上文描述的应用于终端的交通指示对象的识别方法的实现进行进一步地限定和扩展。

图4是根据本公开实施例的交通指示对象的识别方法的原理示意图。

根据本公开的实施例，在确定道路图像中包括交通指示对象的情况下，该实施例还可以根据交通指示对象的类别信息确定交通指示对象的类别。例如，类别信息可以指示交通指示对象属于多个预定类别的概率。该实施例可以根据多个预定类别的概率来确定交通指示对象的类别。例如，可以将最大概率值所对应的预定类别作为交通指示对象的类别。其中，多个预定类别例如可以包括交通标志牌列别、事故指示牌类别或者施工指示对象类别等。在一实施例中，多个预定类别可以包括施工指示对象类别所包括的施工挡板类别、水马类别和三角锥桶类别等中的至少两种类别。

在一实施例中，在确定交通指示对象为交通指示牌类别时，例如还可以采用分类模型来对交通指示对象进行细分类。这是由于交通指示牌通常包括上百种类别，若仅采用目标检测模型来对交通指示牌进行分类，分类精度难以保证。该实施例通过采用分类模型，可以提高交通指示牌的分类精度。

例如，在实施例400中，在识别交通指示对象时，可以先将道路图像410输入目标检测模型420中，由目标检测模型420输出的至少两组检测结果可以确定道路图像410中是否包括交通指示对象。若包括，则可以进一步确定上文描述的类别信息和位置信息。若根据类别信息确定交通指示对象为交通指示牌类别，该实施例可以根据该交通指示对象在道路图像410中的位置信息来裁剪道路图像410，从而得到目标图像430。随后，采用分类模型440来对目标图像430进行分类处理，可以得到交通指示对象的子类别信息，该子类别信息可以包括交通指示对象为多个子类别的交通标志牌中每个子类别的概率值。该实施例可以将最大概率值所对应的子类别作为交通指示对象的细分类类别，即作为交通标志牌的类别450。

其中，交通标志牌类别可以包括多个子类别。分类模型440例如也可以采用轻量级网络构建得到，例如，该分类模型可以采用ShuffleNet系列网络、MobileNet系列网络等中的任一网络构建。例如，构建分类模型所依据的网络可以与构建骨干网络时所依据的网络为同一网络，例如，分类模型可以基于ShuffleNetv2网络构建得到。通过该方式，可以压缩识别交通指示对象时所采用模型的模型大小，便于在终端中执行识别方法。

在一实施例中，分类模型的宽度比例例如也可以为小于1的值，例如，分类模型的scale的取值可以为0.25等，以进一步压缩模型大小。

在一实施例中，终端例如还可以在确定道路图像中包括交通指示对象的情况下，向服务端发送道路图像、位置信息和类别信息。如此，服务端即可根据接收到的数据进行地图更新，无需待接收到某个区域中各处的道路图像后再进行目标检测。从而提高地图更新效率和地图更新的实时性，利于提高地图的精度，且由于仅需获取具有交通指示对象的图像，可以减小数据的获取成本。其中，服务端例如可以为维护地图的服务器等，本公开对此不做限定。

为了便于交通指示对象的识别方法的实施，本公开还提供了一种目标检测模型的训练方法，以下将结合图5～图6对该训练方法进行详细描述。

图5是根据本公开实施例的目标检测模型的训练方法的流程示意图。

如图5所示，该实施例的目标检测模型的训练方法可以包括操作S510～操作S540。该训练方法可以由上文描述的服务器150执行。

在操作S510，采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图。

其中，待训练模型例如可以为初始模型。样本图像例如可以由包括交通指示对象的道路图像生成，该样本图像对应有其包括的交通指示对象的真值类别信息和真值位置信息。例如，可以将该真值类别信息和真值位置信息作为样本图像的标签。该操作S510与上文描述的操作S210类似，区别仅在于，该实施例S510中对样本图像进行处理，且操作S210中采用的目标检测模型为对操作S510中的待训练模型训练后，得到的精度满足需求的模型。

在操作S520，采用待训练模型包括的至少两个预测网络对至少两个第一特征图分别进行处理，得到至少两组第一检测结果。该操作S520与上文描述的操作S220类似，在此不再赘述。

在操作S530，根据至少两组第一检测结果，确定交通指示对象在样本图像中的第一位置信息和交通指示对象的第一类别信息。

根据本公开的实施例，例如可以采用上文描述的NMS对至少两组第一检测结果进行后处理，从而得到第一位置信息和第一类别信息。

在操作S540，根据第一位置信息与真值位置信息之间的差异以及第一类别信息与真值类别信息之间的差异，训练待训练模型，得到目标检测模型。

根据本公开的实施例，可以根据位置信息之间的差异和类别信息之间的差异，来确定待训练模型的损失值，以最小化损失值为目标来训练待训练模型。其中，例如可以采用交叉熵损失函数来确定类别信息之间的差异，采用交并比损失函数来确定位置信息之间的差异，将该两个差异的加权和作为损失值。可以理解的是，上述采用的损失函数仅作为示例以利于理解本公开，本公开对此不做限定。

可以理解的是，待训练模型中的骨干网络与上文描述的目标检测模型的骨干网络类似，都是采用轻量级网络构建的。训练得到的目标检测模型可以应用于上文描述的应用于终端的交通指示对象的识别方法中。

在一实施例中，在待训练模型的训练过程中，还可以为不同预定类别分配不同的权重，例如可以为尾部类别分配较大的权重。在针对真值类别为预定类别的样本图像来确定待训练模型的损失值时，可以将该权重作为类别信息的差异与位置信息的差异的加权权重。如此，可以使得模型训练过程中侧重于尾部类别，平衡尾部类别的样本图像较少的情况。并因此可以提高训练得到的目标检测模型的精度。

其中，尾部类别是指图像数据稀少的类别。例如，在该实施例中，考虑到事故图像数据的收集较难，通常从公开数据集中获取的样本图像中包括尾部类别的交通指示类别的图像明显小于包括其他类别的交通指示类别的图像的数量，则可以将事故指示牌类别作为尾部类别。

例如，该实施例在确定待训练模型的损失值时，可以根据第一位置信息与真值位置信息之间的差异、第一类别信息与真值类别信息之间的差异，以及为多个预定类别分配的预定权重，来确定待训练模型的损失值。针对每个样本图像，可以先根据真值类别信息确定样本图像中交通指示对象的真值类别，将为真值类别分配的预定权重作为差异权重，采用上文描述的损失函数与该差异权重的乘积来计算损失值。最后，可以将针对多个样本图像计算得到的损失值相加，从而得到待训练模型的损失值。

图6是根据本公开实施例的目标检测模型的训练方法的原理示意图。

根据本公开的实施例，在目标检测模型的训练过程中，还可以将实时训练得到的模型作为初级模型，并采用该初级模型对大量的无标注图像进行交通指示对象的检测，并根据预测结果对检测到交通指示对象的无标注图像进行标注，以根据标注后的图像来扩充样本图像，来对初级模型进行进一步地训练。如此，可以解决样本数据难收集、标注数据少的问题，并因此可以提高模型的训练精度。具体地，可以采用如图6所示的回流机制来对目标检测模型进行训练。

如图6所示，在该实施例600中，可以在目标检测模型的初始阶段，根据预先设定的网络参数来确定目标检测模型的初始模型，并将该初始模型作为待训练模型620。随后，可以将预先标注得到的少量标注数据610作为样本图像，采用如上文描述的方法500来训练待训练模型620，得到初级模型。随后，可以采用该初级模型对无标注的道路图像630进行目标检测，根据检测结果从无标注的道路图像630中筛选出包括交通指示对象的图像，作为目标图像640。随后，该实施例可以并根据检测结果包括的类别信息和位置信息来对目标图像640添加标注信息650，并采用添加了标注信息650的目标图像640来扩充标注数据610。在扩充标注数据610后，可以将初级模型作为待训练模型620，继续采用如上文描述的方法500来训练待训练模型620。该实施例可以循环地执行上述操作，直至训练得到的模型的精度满足需求，或者训练得到的模型的损失值收敛。

其中，在采用该初级模型对无标注的道路图像630进行目标检测时，可以先采用骨干网络提取无标注的道路图像630在至少两个感受野下的特征图，得到至少两个第二特征图。随后采用初级模型中的至少两个预测网络来对至少两个第二特征图分别进行处理，从而得到至少两组第二检测结果。随后，响应于根据至少两组第二检测结果确定道路图像中包括交通指示对象，则可以确定交通指示对象在无标注的道路图像630中的第二位置信息和交通指示对象的第二类别信息。采用初级模型对无标注的道路图像630进行目标检测的原理与上文描述的应用于终端的交通指示对象的识别方法200的实现原理类似，在此不再赘述。在完成对无标注的道路图像630的检测后，该实施例可以根据第二类别信息、第二位置信息和道路图像，生成样本图像。具体地，可以根据第二类别信息确定无标注的道路图像630中包括的道路指示对象的类别，将该类别与第二位置信息作为无标注的道路图像630的标注信息，从而得到样本图像。

在一实施例中，在生成样本图像后，例如还可以对样本图像进行数据增强660，并使用数据增强后的图像来扩充标注数据610。例如，可以根据第二位置信息，确定样本图像中交通指示对象所在的区域，根据该位置从样本图像中裁剪出交通指示对象所在区域的图像，并将该裁剪出来的图像与预定背景图像融合，从而得到数据增强后的图像。或者，可以通过对样本图像进行几何操作、颜色变换等增强处理，得到数据增强后的数据。

在一实施例中，在筛选得到多个目标图像时，例如还可以从目标图像中筛选出第二类别信息能够准确反映交通指示对象的类别的图像，通过添加标注数据来得到正样本。类似地，还可以从目标图像中筛选出第二类别信息错误反映了交通指示对象的类别的图像，通过添加标注数据来得到负样本。通过筛选出正样本和负样本，并对标注数据进行扩充，可以提高训练得到的目标检测模型对具有相似特征的两个不同类别对象的识别精度。

在一实施例中，对于包括的交通指示对象为尾部类别的目标图像，例如可以采用多种增强处理来得到多个增强处理后图像，以增加标注数据中针对尾部类别的图像的数量比例，提高训练得到的目标检测模型对尾部类别的交通指示对象的识别精度。

基于本公开提供的应用于终端的交通指示对象的识别方法，本公开还提供了一种应用于终端的交通指示对象的识别装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的交通指示对象的识别装置的结构框图。

如图7所示，该实施例的装置700可以包括特征提取模块710、结果预测模块720和信息确定模块730。该装置700例如可以应用于终端，具体可以设置于终端(例如上文描述的电子设备)中。

特征提取模块710用于采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图。其中，道路图像是由终端采集得到的。其中，骨干网络是基于轻量级网络构建的在一实施例中，特征提取模块710可以用于执行上文描述的操作S210，在此不再赘述。

结果预测模块720用于采用目标检测模型包括的至少两个预测网络对至少两个特征图分别进行处理，得到至少两组检测结果。在一实施例中，结果预测模块720可以用于执行上文描述的操作S220，在此不再赘述。

信息确定模块730用于响应于根据至少两组检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的位置信息和交通指示对象的类别信息。在一实施例中，信息确定模块730可以用于执行上文描述的操作S230，在此不再赘述。

根据本公开的实施例，上述骨干网络包括逐级连接的多级采样子网络。上述特征提取模块710具体可以用于将道路图像输入骨干网络，由多级采样子网络中依次连接的至少两级采样子网络依次输出至少两个特征图。其中，多级采样子网络中，目标采样子网络及其前一级采样子网络输出的特征图为在相同感受野下的特征图。

根据本公开的实施例，骨干网络包括逐级连接的四级采样子网络，骨干网络的宽度比例为小于1的值。

根据本公开的实施例，类别信息指示交通指示对象属于多个预定类别中各类别的概率。多个预定类别包括交通标志牌类别。上述装置700还可以包括图像裁剪模块和图像分类模块。图像裁剪模块用于响应于根据类别信息确定交通指示对象为交通标志牌类别，根据位置信息裁剪道路图像，得到目标图像。图像分类模块用于采用分类模型对目标图像进行分类处理，得到交通指示对象的子类别信息。其中，交通标志牌类别包括多个子类别，子类别信息指示交通指示对象属于多个子类别中各类别的概率；分类模型是基于轻量级网络构建的。

根据本公开的实施例，上述装置700还可以包括信息发送模块，用于响应于根据确定道路图像中包括交通指示对象，向服务端发送道路图像、位置信息和类别信息。

根据本公开的实施例，交通指示对象包括以下至少两种类别的对象：交通标志牌、事故指示牌和至少一种施工指示对象，骨干网络基于ShuffleNet系列网络构建得到。

基于本公开提供的目标检测模型的训练方法，本公开还提供了一种目标检测模型的训练装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的目标检测模型的训练装置的结构框图。

如图8所示，该实施例的装置800可以包括第一特征提取模块810、第一结果预测模块820、第一信息确定模块830和模型训练模块840。

第一特征提取模块810用于采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图。其中，样本图像包括交通指示对象，且样本图像对应有交通指示对象的真值类别信息和真值位置信息。其中，骨干网络是基于轻量级网络构建的。在一实施例中，第一特征提取模块810可以用于执行上文描述的操作S510，在此不再赘述。

第一结果预测模块820用于采用待训练模型包括的至少两个预测网络对至少两个第一特征图分别进行处理，得到至少两组第一检测结果。在一实施例中，第一结果预测模块820可以用于执行上文描述的操作S520，在此不再赘述。

第一信息确定模块830用于根据至少两组第一检测结果，确定交通指示对象在样本图像中的第一位置信息和交通指示对象的第一类别信息。在一实施例中，第一信息确定模块830可以用于执行上文描述的操作S530，在此不再赘述。

模型训练模块840用于根据第一位置信息与真值位置信息之间的差异以及第一类别信息与真值类别信息之间的差异，训练待训练模型，得到目标检测模型。其中，目标检测模型应用于终端，以识别交通指示对象。在一实施例中，模型训练模块840可以用于执行上文描述的操作S540，在此不再赘述。

根据本公开的实施例，上述装置800还可以包括第二特征提取模块、第二结果预测模块、第二信息确定模块和样本生成模块。第二特征提取模块用于采用骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个第二特征图。第二结果预测模块用于采用至少两个预测网络对至少两个第二特征图分别进行处理，得到至少两组第二检测结果。第二信息确定模块用于响应于根据至少两组第二检测结果确定道路图像中包括交通指示对象，确定交通指示对象在道路图像中的第二位置信息和交通指示对象的第二类别信息。样本生成模块用于根据第二类别信息、第二位置信息和道路图像，生成样本图像。其中，第二类别信息指示交通指示对象属于多个预定类别中各类别的概率。

根据本公开的实施例，上述模型训练模块840可以包括损失确定子模块和训练子模块。损失确定子模块用于根据第一位置信息与真值位置信息之间的差异、第一类别信息与真值类别信息之间的差异，以及为多个预定类别分配的预定权重，确定待训练模型的损失值。训练子模块用于根据损失值，训练待训练模型。其中，为多个预定类别中尾部类别分配的预定权重大于为多个预定类别中其他类别分配的预定权重。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如交通指示对象的识别方法或目标检测模型的训练方法。例如，在一些实施例中，交通指示对象的识别方法或目标检测模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的交通指示对象的识别方法或目标检测模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行交通指示对象的识别方法或目标检测模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种交通指示对象的识别方法，包括：

采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图；

采用所述目标检测模型包括的至少两个预测网络对所述至少两个特征图分别进行处理，得到至少两组检测结果；以及

响应于根据所述至少两组检测结果确定所述道路图像中包括交通指示对象，确定所述交通指示对象在所述道路图像中的位置信息和所述交通指示对象的类别信息，

其中，所述骨干网络是基于轻量级网络构建的。

2.根据权利要求1所述的方法，其中，所述骨干网络包括逐级连接的多级采样子网络；所述采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图包括：

将所述道路图像输入所述骨干网络，由所述多级采样子网络中依次连接的至少两级采样子网络依次输出所述至少两个特征图，

其中，所述多级采样子网络中，目标采样子网络及其前一级采样子网络输出的特征图为在相同感受野下的特征图。

3.根据权利要求1或2所述的方法，其中：

所述骨干网络包括逐级连接的四级采样子网络；

所述骨干网络的宽度比例为小于1的值。

4.根据权利要求1所述的方法，其中，所述类别信息指示所述交通指示对象属于多个预定类别中各类别的概率；所述多个预定类别包括交通标志牌类别；所述方法还包括：

响应于根据所述类别信息确定所述交通指示对象为所述交通标志牌类别，根据所述位置信息裁剪所述道路图像，得到目标图像；以及

采用分类模型对所述目标图像进行分类处理，得到所述交通指示对象的子类别信息，

其中，所述交通标志牌类别包括多个子类别，所述子类别信息指示所述交通指示对象属于所述多个子类别中各类别的概率；所述分类模型是基于轻量级网络构建的。

5.根据权利要求1所述的方法，还包括：

响应于根据确定所述道路图像中包括交通指示对象，向服务端发送所述道路图像、所述位置信息和所述类别信息。

6.根据权利要求1所述的方法，其中：

所述交通指示对象包括以下至少两种类别的对象：交通标志牌、事故指示牌和至少一种施工指示对象；

所述骨干网络基于ShuffleNet系列网络构建得到。

7.一种目标检测模型的训练方法，包括：

采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图；所述样本图像包括交通指示对象，且所述样本图像对应有所述交通指示对象的真值类别信息和真值位置信息；

采用所述待训练模型包括的至少两个预测网络对所述至少两个第一特征图分别进行处理，得到至少两组第一检测结果；

根据所述至少两组第一检测结果，确定所述交通指示对象在所述样本图像中的第一位置信息和所述交通指示对象的第一类别信息；以及

根据所述第一位置信息与所述真值位置信息之间的差异以及所述第一类别信息与所述真值类别信息之间的差异，训练所述待训练模型，得到所述目标检测模型，

其中，所述骨干网络是基于轻量级网络构建的。

8.根据权利要求7所述的方法，还包括：

采用所述骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个第二特征图；

采用所述至少两个预测网络对所述至少两个第二特征图分别进行处理，得到至少两组第二检测结果；

响应于根据所述至少两组第二检测结果确定所述道路图像中包括交通指示对象，确定所述交通指示对象在所述道路图像中的第二位置信息和所述交通指示对象的第二类别信息；以及

根据所述第二类别信息、所述第二位置信息和所述道路图像，生成所述样本图像，

其中，所述第二类别信息指示所述交通指示对象属于多个预定类别中各类别的概率。

9.根据权利要求7所述的方法，其中，所述根据所述第一位置信息与所述真值位置信息之间的差异以及所述第一类别信息与所述真值类别信息之间的差异，训练所述待训练模型，得到所述目标检测模型包括：

根据所述第一位置信息与所述真值位置信息之间的差异、所述第一类别信息与所述真值类别信息之间的差异，以及为多个预定类别分配的预定权重，确定所述待训练模型的损失值；以及

根据所述损失值，训练所述待训练模型，

其中，为所述多个预定类别中尾部类别分配的预定权重大于为所述多个预定类别中其他类别分配的预定权重。

10.一种交通指示对象的识别装置，包括：

特征提取模块，用于采用目标检测模型包括的骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个特征图；

结果预测模块，用于采用所述目标检测模型包括的至少两个预测网络对所述至少两个特征图分别进行处理，得到至少两组检测结果；以及

信息确定模块，用于响应于根据所述至少两组检测结果确定所述道路图像中包括交通指示对象，确定所述交通指示对象在所述道路图像中的位置信息和所述交通指示对象的类别信息，

其中，所述骨干网络是基于轻量级网络构建的。

11.根据权利要求10所述的装置，其中，所述骨干网络包括逐级连接的多级采样子网络；所述特征提取模块用于：

12.根据权利要求10或11所述的装置，其中：

所述骨干网络包括逐级连接的四级采样子网络；

所述骨干网络的宽度比例为小于1的值。

13.根据权利要求10所述的装置，其中，所述类别信息指示所述交通指示对象属于多个预定类别中各类别的概率；所述多个预定类别包括交通标志牌类别；所述装置还包括：

图像裁剪模块，用于响应于根据所述类别信息确定所述交通指示对象为所述交通标志牌类别，根据所述位置信息裁剪所述道路图像，得到目标图像；以及

图像分类模块，用于采用分类模型对所述目标图像进行分类处理，得到所述交通指示对象的子类别信息，

14.根据权利要求10所述的装置，还包括：

信息发送模块，用于响应于根据确定所述道路图像中包括交通指示对象，向服务端发送所述道路图像、所述位置信息和所述类别信息。

15.根据权利要求10所述的装置，其中：

所述骨干网络基于ShuffleNet系列网络构建得到。

16.一种目标检测模型的训练装置，包括：

第一特征提取模块，用于采用待训练模型包括的骨干网络提取样本图像在至少两个感受野下的特征图，得到至少两个第一特征图；所述样本图像包括交通指示对象，且所述样本图像对应有所述交通指示对象的真值类别信息和真值位置信息；

第一结果预测模块，用于采用所述待训练模型包括的至少两个预测网络对所述至少两个第一特征图分别进行处理，得到至少两组第一检测结果；

第一信息确定模块，用于根据所述至少两组第一检测结果，确定所述交通指示对象在所述样本图像中的第一位置信息和所述交通指示对象的第一类别信息；以及

模型训练模块，用于根据所述第一位置信息与所述真值位置信息之间的差异以及所述第一类别信息与所述真值类别信息之间的差异，训练所述待训练模型，得到所述目标检测模型，

其中，所述骨干网络是基于轻量级网络构建的。

17.根据权利要求16所述的装置，还包括：

第二特征提取模块，用于采用所述骨干网络提取道路图像在至少两个感受野下的特征图，得到至少两个第二特征图；

第二结果预测模块，用于采用所述至少两个预测网络对所述至少两个第二特征图分别进行处理，得到至少两组第二检测结果；

第二信息确定模块，用于响应于根据所述至少两组第二检测结果确定所述道路图像中包括交通指示对象，确定所述交通指示对象在所述道路图像中的第二位置信息和所述交通指示对象的第二类别信息；以及

样本生成模块，用于根据所述第二类别信息、所述第二位置信息和所述道路图像，生成所述样本图像，

18.根据权利要求16所述的装置，其中，所述模型训练模块包括：

损失确定子模块，用于根据所述第一位置信息与所述真值位置信息之间的差异、所述第一类别信息与所述真值类别信息之间的差异，以及为多个预定类别分配的预定权重，确定所述待训练模型的损失值；以及

训练子模块，用于根据所述损失值，训练所述待训练模型，

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1～9中任一项所述方法的步骤。