CN113780480A

CN113780480A - 基于YOLOv5的多目标检测及类别识别模型的构建方法

Info

Publication number: CN113780480A
Application number: CN202111330206.7A
Authority: CN
Inventors: 朱晓东; 刘国清; 杨广; 王启程; 郑伟; 季思文
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2021-12-10
Anticipated expiration: 2041-11-11
Also published as: CN113780480B

Abstract

本发明提供了一种基于YOLOv5的多目标检测及类别识别模型的构建方法，该方法包括：将多张图像进行预处理得到多目标训练集和类别训练集；将多目标训练集和类别训练集喂入初始模型后，计算初始模型的总损失值，其中，初始模型包括主干网络和输出网络，总损失值是由四个损失函数计算的损失值进行加权后得到的；当总损失值达到预设标准时，得到目标模型，目标模型用于获取待识别图像并得到目标模型识别出的四个标签。本发明还提供了一种基于YOLOv5的多目标检测及类别识别方法、计算机可读存储介质、计算机设备以及自动驾驶车辆。上述基于YOLOv5的多目标检测及类别识别模型的构建方法将原本分两步处理的任务统一为一步处理，减少检测的处理步骤，提升检测速度。

Description

基于YOLOv5的多目标检测及类别识别模型的构建方法

技术领域

本发明涉及自动驾驶领域，尤其涉及一种基于YOLOv5的多目标检测及类别识别模型的构建方法、基于YOLOv5的多目标检测及类别识别方法、计算机可读存储介质、计算机设备以及自动驾驶车辆。

背景技术

随着汽车电动化智能化进程的不断深入，国民的期望值提升，软件改变了汽车属性，自动驾驶的不断进化逐步解放了驾驶员的注意力，直至完全摆脱人工干预，车辆也由单纯的出行工具变成了移动私人空间，而自动驾驶的实现主要依靠各种传感器对车辆周围环境进行感知，通过目标检测，识别与跟踪等处理技术来评估危险性。其中目标检测技术是自动驾驶技术的基础，通过摄像头实时获取前方道路的图像数据，对图像上各种形形色色的目标进行类别及位置的初步判定，为后续车辆进行更精准的识别及控制提供信息。

现阶段比较常用的道路目标检测及车辆的车型属性识别方式有如下两种。

一、直接将车辆不同车型当不同的目标与道路上其它目标，例如，自行车、行人、标识牌等组合起来，各个不同类别的样本送入检测框架中，获得类别及回归框的结果。这种方式比较简单，但直接将不同车型当互斥的样本学习很容易出现样本的极度不均衡，最终导致各种车型类别识别效果偏差较大，大型车辆由于样本较少导致识别正确率偏低。

二、把任务分成两个步骤，首先将车辆作为统一的类别与道路上其它目标一起送入检测框架中，获得类别及回归框的结果，再将判定为车辆类别的目标及其回归框一起，送入预先设计的较小的车型分类网络中进行类别的判定。这种方式将任务拆分为二，车型属性任务为单独的一个分类小网络，有效避免了样本不容易均衡的问题，保证了车型属性的性能，同时也降低了检测任务的难度。但是这种方式会对系统的后端处理造成困扰，必须串行的执行检测网络和多个分类网络，导致硬件资源不能一直保持满负荷运行，造成时间消耗的增加。

因此，如何通过一次检测获得目标及其类别是亟需解决的问题。

发明内容

本发明提供一种基于YOLOv5的多目标检测及类别识别模型的构建方法、基于YOLOv5的多目标检测及类别识别方法、计算机可读存储介质、计算机设备以及自动驾驶车辆，能够实现一次检测获得目标及其类别的效果。

第一方面，本发明实施例提供一种基于YOLOv5的多目标检测及类别识别模型的构建方法，该基于YOLOv5的多目标检测及类别识别模型的构建方法包括：

将多张图像进行预处理得到多目标训练集和类别训练集，多目标训练集包含多张第一图像，每张第一图像中包含多个第一标签，第一标签用于表示第一图像中的各个目标物体，目标物体可为不同的物体，类别训练集包含多张第二图像，每张第二图像中包含第二标签，第二标签与第一标签中的一种目标物体相对应，用于表示一种目标物体的具体类别；

将多目标训练集和类别训练集喂入初始模型后，计算多目标训练集和类别训练集在初始模型训练中的总损失值，其中，初始模型包括主干网络和输出网络，主干网络为YOLOv5检测框架的主干网络，输出网络包括第一级分支网络和第二级分支网络，第一级分支网络用于将主干网络输出的特征图的通道数进行统一，以及将输出的特征图分出两个第一分支，第二级分支网络从两个第一分支中再各自分出两个第二分支得到四个第二分支，第二分支用于输出标签，每一个第二分支与一个损失函数相对应，总损失值根据所有损失函数的损失值获得；

当总损失值达到预设标准时，得到目标模型，目标模型用于获取待识别图像并输出目标模型识别出的四个标签。

第二方面，本发明实施例提供一种基于YOLOv5的多目标检测及类别识别方法，该基于YOLOv5的多目标检测及类别识别方法包括：

将到待识别图片输入利用基于YOLOv5的多目标检测及类别识别模型的构建方法所得到的目标模型；

获取目标模型输出的四个标签。

第三方面，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有能够被处理器加载并执行基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令。

第四方面，本发明实施例提供一种计算机设备，该计算机设备包括：

存储器，用于存储程序指令；

处理器，用于执行程序指令以使计算机设备实现基于YOLOv5的多目标检测及类别识别模型的构建方法。

第五方面，本发明实施例提供一种自动驾驶车辆，该自动驾驶车辆包括车身以及计算机设备，其中，计算机设备包括：

存储器，用于存储程序指令；

处理器，用于执行所述程序指令以使所述计算机设备实现基于YOLOv5的多目标检测及类别识别模型的构建方法。

上述基于YOLOv5的多目标检测及类别识别模型的构建方法，基于YOLOv5的多目标检测及类别识别方法、计算机可读存储介质以及计算机设备为了克服背景技术中为了同时得到目标及其类别就必须串行的执行检测网络和多个分类网络，导致硬件资源不能一直保持满负荷运行，造成时间消耗的增加的问题，本发明为了保留目前方案的优势，通过将输出网络的输出模式改为多检测头的方式，同时进行多目标学习及类型类别的学习，最终实现一次检测网络获得目标的类别及其种类，例如，获得车辆类别的目标的同时，获得具体的车型信息，能够有效避免不同车型与其它道路目标的样本不均衡问题，节省后端处理的复杂度，同时利用检测网络的优势带来自动驾驶车辆识别的性能提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法的流程图。

图2为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法的子流程图。

图3为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别方法的流程图。

图4为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法的分支结构示意图。

图5为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别方法的分支结构示意图。

图6为本发明第一实施例提供的计算机设备的内部结构示意图。

图7为本发明第一实施例提供的自动驾驶车辆示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请结合参看图1，其为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法的流程图。其中，本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法具体包括下面步骤。

步骤S101，将多张图像进行预处理得到多目标训练集和类别训练集。具体地，目标训练集包含多张第一图像，每张第一图像中包含多个第一标签，第一标签用于表示第一图像中的各个目标物体，目标物体可为不同的物体，类别训练集包含多张第二图像，每张第二图像中包含第二标签，第二标签与第一标签中的一种目标物体相对应，用于表示一种目标物体的具体类别。将多张图像进行预处理得到多目标训练集和类别训练集具体请参照步骤S1011-步骤S1012。

YOLOv5是一种由深度神经网络（Deep Neural Networks，DNN）构成的具有学习能力的检测识别框架，具备至少一个隐藏的神经网络，与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。本实施例中的YOLOv5是深度神经网络中的一种检测识别模型，可以使用反向传播算法进行目标模型的训练。

步骤S102，将多目标训练集和类别训练集喂入初始模型后，计算多目标训练集和类别训练集在初始模型训练中的总损失值。具体地，请结合参看图4，初始模型300包括主干网络10和输出网络20，主干网络10为YOLOv5检测框架的主干网络，输出网络20包括第一级分支网络21和第二级分支网络22，第一级分支网络21用于将主干网络10输出的特征图的通道数进行统一，以及将输出的特征图分出两个第一分支211，第二级分支网络22从两个第一分支211中再各自分出两个第二分支221得到四个第二分支221，第二分支221用于输出标签，每一个第二分支221与一个损失函数相对应，总损失值根据所有损失函数的损失值获得。

进一步地，第一级分支网络21包括第一卷积层201和第一拆分模块202，第一卷积层201包括一个1*1的卷积核，1*1的卷积核将主干网络输出的特征图的通道数统一为256个，第一拆分模块202将输出的特征图分为两个第一分支。

第二级分支网络22包括第二卷积层203和第二拆分模块204，第二卷积层包括一个3*3的卷积核，3*3的卷积核用于特征提取，第二拆分模块203用于从每一个第一分支211中分出两个第二分支221。

其中，两个第一分支为回归分支和分类分支。进一步地，回归分支包括判定分支41和范围分支42，分类分支包括多目标分支43和类别分支44。

在一些可行的实施例中，判定分支41和范围分支42的损失值通过cross-entropy损失函数计算得到，目标分支43和类别分支44的损失值CIOU Loss损失函数计算得到。在本发明中，其他的损失函数也可以用于计算不同分支的损失值，本实施例用于计算损失值的公式仅做示例不做限定。

在本实施例中，主干网络是采用YOLOv5中端到端训练（end-to-end training）的区域卷积神经网络（Regions with CNN features，RCNN）框架，让训练好的卷积神经网络(Convolutional Neural Networks, CNN)模型判断候选框中是否真的有目标，以是目标的类别。

范围分支41用于输出目标物体的标注框，具体地，RCNN框架在图像中提取可能含有目标的标注框（region proposal），然后将这些标注框输入到训练好的目标模型。

判定分支42用于输出标注框中到物体是否为需要区分的目标物体。例如，目标模型要区分标注框中的物体是否为车辆、人或者交通灯，则判定分支用于输出 “是”标签，或者“否”标签。“是”标签表示标注框中的目标物体是车辆、人或者交通灯，“否”标签表示标注框中的目标物体不是车辆、人或者交通灯。

多目标分支43用于输出标注框中具体是什么，比如“车辆”。

类别分支44用于分别车辆的具体类型，比如“小轿车”。

上述实施例中，标注框包含了目标位置和大小，而类别的判定则是利用CNN网络来判定的。本实施例将原始图像输入到基于YOLOv5的多目标检测及类别识别模型的网络中，直接输出图像中所有目标的位置和目标的类别，省去了中间两步的过程，缩短的检测时间，提高了自动驾驶车辆的识别效率。

步骤S103，当总损失值达到预设标准时，得到目标模型。具体地，目标模型用于获取待识别图像并得到目标模型识别出的四个标签。

具体地，损失函数包括cross-entropy和CIOU Loss，其中，cross-entropy的公式具体为：

CIOU Loss的公式具体为：

α的定义如下：

IoU的定义如下：

v的定义如下：

其中，C为cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出。 L_CIoU为CIOU Loss公式计算出的损失值，IoU为预测框A和标注框B的交并集，b^gt为标注框中心点位置，b为预测框中心点位置，

为预测框A和标注框B中心点之间的欧几里得距离，c为预测框A和标注框B之间最小外接矩形测对角线的长度，α为权重，v为预测框A和标注框B之间长宽比的距离。A为预测框，B为标注框。w^gt为标注框的宽，h^gt为标注框的长，w为预测框的宽，h为预测框的长。

在一些可行的实施例中，为不同的分支添加不同的权重，计算四个分支加权后的总损失值。例如，判定分支41的权重为0.1，范围分支42的权重为0.1，目标分支43的权重为0.4，类别分支44的权重为0.4。将加权后的各分支的损失值进行求和得到总损失值。

在另一些可行的实施例中，总损失值由四个分支求和后再求平均得到。

请结合参看图2，其为本发明第一实施例提供的步骤S101的子步骤流程图。步骤S101，将多张图像进行预处理得到多目标训练集和类别训练集。具体包括下面步骤。

步骤S1011，给多张图像添加多目标标签得到目标训练集。具体地，多目标标签包括车辆、行人、两轮车、三角锥、标识牌和/或红绿灯。

步骤S1012，给多张图像添加类别标签得到类别训练集。具体地，类别标签包括小轿车、大巴车、厢式卡车、渣土车、水泥罐车和/或油罐车。

第二实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法与第一实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法的差异在于在得到多目标训练集和类别训练集之前，第二实施例提供的基于YOLOv5的多目标检测及类别识别模型的构建方法还包括对多张图像进行增广处理，增广处理包括图像裁剪，图像翻转，Mixup，Mosaic中任意一项或者多项组合的处理步骤。

上述实施例中，通过使用多种对图像的处理方法增加原始图像的多样性。实现增加训练样本的效果，用更多的训练样本，得到更加稳定的深度学习网络，从而使得深度学习网络能够快速地，准确地，识别出待识别图像中的目标以及目标类别。

请结合参看图3，其为本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别方法的流程图。其中，本发明第一实施例提供的基于YOLOv5的多目标检测及类别识别方法具体包括下面步骤。

步骤S301，将到待识别图片输入利用基于YOLOv5的多目标检测及类别识别模型的构建方法所得到的目标模型。请结合参考图5，将到待识别图片输入利用基于YOLOv5的多目标检测及类别识别模型的构建方法所得到的目标模型400。

步骤S302，获取目标模型输出的四个标签。具体地，获取目标模型400输出的判定标签41、范围标签42、多目标标签43和类别标签44。

上述基于YOLOv5的多目标检测及类别识别方法为了克服背景技术中为了同时得到目标及其类别就必须串行的执行检测网络和多个分类网络，导致硬件资源不能一直保持满负荷运行，造成时间消耗的增加的问题，本发明为了保留目前方案的优势，通过将输出网络的输出模式改为多检测头的方式，同时进行多目标学习及类型类别的学习，最终实现一次检测网络获得目标的类别及其种类，例如，获得车辆类别的目标的同时，获得具体的车型信息，能够有效避免不同车型与其它道路目标的样本不均衡问题，节省后端处理的复杂度，同时利用检测网络的优势带来自动驾驶车辆识别的性能提升。

本发明还提供了一种计算机可读存储介质。计算机可读存储介质上存储有能够被处理器加载并执行的上述的基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令。由于计算机可读存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再赘述。

本发明还提供一种计算机设备900，计算机设备900至少包括，存储器901和处理器902。存储器901用于存储基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令。处理器902，用于执行程序指令以使计算机设备实现上述的基于YOLOv5的多目标检测及类别识别模型的构建方法。请结合参看图6，其为本发明实施例提供的计算机设备900的内部结构示意图。

其中，存储器901至少包括一种类型的计算机可读存储介质，该计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器901在一些实施例中可以是计算机设备900的内部存储单元，例如计算机设备900的硬盘。存储器901在另一些实施例中也可以是计算机设备900的外部存储设备，例如计算机设备900上配备的插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字卡（Secure Digital， SD），闪存卡（Flash Card）等。进一步地，存储器901还可以既包括计算机设备900的内部存储单元也包括外部存储设备。存储器901不仅可以用于存储安装于计算机设备900的应用软件及各类数据，例如基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令等，还可以用于暂时地存储已经输出或者将要输出的数据，例如基于YOLOv5的多目标检测及类别识别模型的构建方法执行产生的数据等。

处理器902在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器901中存储的程序指令或处理数据。具体地，处理器902执行基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令以控制计算机设备900实现基于YOLOv5的多目标检测及类别识别模型的构建方法。

进一步地，计算机设备900还可以包括总线903可以是外设部件互连标准总线(peripheral component interconnect，简称PCI)或扩展工业标准结构总线(extendedindustry standard architecture，简称EISA)等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，计算机设备900还可以包括显示组件904。显示组件904可以是LED（Light Emitting Diode，发光二极管）显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示组件904也可以适当的称为显示装置或显示单元，用于显示在计算机设备900中处理的信息以及用于显示可视化的用户界面。

进一步地，计算机设备900还可以包括通信组件905，通信组件905可选的可以包括有线通信组件和/或无线通信组件（如WI-FI通信组件、蓝牙通信组件等），通常用于在计算机设备900与其他计算机设备之间建立通信连接。

图6仅示出了具有组件901-905以及实现基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令的计算机设备900，本领域技术人员可以理解的是，图6示出的结构并不构成对计算机设备900的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。由于计算机设备900采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

该基于YOLOv5的多目标检测及类别识别模型的构建方法包括一个或多个程序指令。在设备上加载和执行该程序指令时，全部或部分地产生按照本发明实施例的流程或功能。该设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该程序指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，该程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本发明还提供了一种自动驾驶车辆100，该自动驾驶车辆包括车身800及上述的计算机设备900。具体请参照图7，由于自动驾驶车辆100采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的基于YOLOv5的多目标检测及类别识别模型的构建方法实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、流动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所列举的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属于本发明所涵盖的范围。

Claims

1.一种基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，所述基于YOLOv5的多目标检测及类别识别模型的构建方法包括：

将多张图像进行预处理得到多目标训练集和类别训练集，其中，所述多目标训练集包含多张第一图像，每张第一图像中包含多个第一标签，所述第一标签用于表示所述第一图像中的各个目标物体，所述目标物体可为不同的物体，所述类别训练集包含多张第二图像，每张第二图像中包含第二标签，所述第二标签与所述第一标签中的一种目标物体相对应，用于表示所述一种目标物体的具体类别；

将所述多目标训练集和所述类别训练集喂入初始模型后，计算所述多目标训练集和所述类别训练集在所述初始模型训练中的总损失值，其中，所述初始模型包括主干网络和输出网络，所述主干网络为YOLOv5检测框架的主干网络，所述输出网络包括第一级分支网络和第二级分支网络，所述第一级分支网络用于将所述主干网络输出的特征图的通道数进行统一，以及将所述输出的特征图分出两个第一分支，所述第二级分支网络从所述两个第一分支中再各自分出两个第二分支得到四个第二分支，所述第二分支用于输出标签，每一个第二分支与一个损失函数相对应，所述总损失值根据所有损失函数的损失值获得；

当总损失值达到预设标准时，得到目标模型，所述目标模型用于获取待识别图像并输出所述目标模型识别出的四个标签。

2.如权利要求1所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于：

所述第一级分支网络包括第一卷积层和第一拆分模块，所述第一卷积层包括一个1*1的卷积核，所述1*1的卷积核将所述主干网络输出的特征图的通道数统一为256个，所述第一拆分模块将统一通道数后的输出的特征图分为所述两个第一分支；

所述第二级分支网络包括第二卷积层和第二拆分模块，所述第二卷积层包括一个3*3的卷积核，所述3*3的卷积核用于特征提取，所述第二拆分模块用于从每一个第一分支中分出所述两个第二分支。

3.如权利要求2所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，所述两个第一分支包括回归分支和分类分支。

4.如权利要求3所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，所述回归分支包括判定分支和范围分支，所述分类分支包括多目标分支和类别分支。

5.如权利要求1所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，在得到所述多目标训练集和所述类别训练集之前，所述的基于YOLOv5的多目标检测及类别识别模型的构建方法还包括对所述多张图像进行增广处理，所述增广处理包括图像裁剪，图像翻转，Mixup，Mosaic中任意一项或者多项组合的处理步骤。

6.如权利要求1所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，将多张图像进行预处理得到多目标训练集和类别训练集，具体包括：

给所述多张图像添加多目标标签得到所述目标训练集，所述多目标标签包括车辆、行人、两轮车、三角锥、标识牌和/或红绿灯；

给所述多张图像添加类别标签得到所述类别训练集，所述类别标签包括小轿车、大巴车、厢式卡车、渣土车、水泥罐车和/或油罐车。

7.如权利要求1所述的基于YOLOv5的多目标检测及类别识别模型的构建方法，其特征在于，所述损失函数包括cross-entropy和CIOU Loss，其中，所述cross-entropy的公式具体为：

所述CIOU Loss的公式具体为：

α的定义如下：

IoU的定义如下：

v的定义如下：

其中，C为cross-entropy公式计算出的损失值，n为样本总数，a为预测输出，y为真实输出； L_CIoU为CIOU Loss公式计算出的损失值，IoU为预测框A和标注框B的交并集，b^gt为标注框中心点位置，b为预测框中心点位置，

为预测框A和标注框B中心点之间的欧几里得距离，c为预测框A和标注框B之间最小外接矩形测对角线的长度，α为权重，v为预测框A和标注框B之间长宽比的距离；A为预测框，B为标注框；w^gt为标注框的宽，h^gt为标注框的长，w为预测框的宽，h为预测框的长。

8.一种基于YOLOv5的多目标检测及类别识别方法，其特征在于，所述基于YOLOv5的多目标检测及类别识别方法包括：

将待识别图片输入利用如权利要求1-7任一项所述的基于YOLOv5的多目标检测及类别识别模型的构建方法所得到的目标模型；

获取所述目标模型输出的四个标签。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有能够被处理器加载并执行的如权利要求1-7任一项所述的基于YOLOv5的多目标检测及类别识别模型的构建方法的程序指令。

10.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储程序指令；以及

处理器，用于执行所述程序指令以使所述计算机设备实现如权利要求1-7任一项所述的基于YOLOv5的多目标检测及类别识别模型的构建方法。

11.一种自动驾驶车辆，所述自动驾驶车辆包括车身以及计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储程序指令；以及