CN111950329A

CN111950329A - 目标检测及模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111950329A
Application number: CN201910406367.6A
Authority: CN
Inventors: 黄倩倩; 胡荣东; 谢伟; 张书豪
Original assignee: Changsha Intelligent Driving Research Institute Co Ltd
Current assignee: Changsha Intelligent Driving Research Institute Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-17

Abstract

本申请涉及一种目标检测及模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数；根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失、交叠损失和定位损失；根据分类损失、交叠损失和定位损失得到损失函数值；根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。采用本方法能够提高目标检测的准确性。

Description

目标检测及模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标检测模型训练及目标检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，计算机视觉的研究得到了越来越多的关注，具体包括图像分类、目标检测、目标追踪和语义分割等。其中，目标检测可以将图像或者视频中的目标与不感兴趣的部分区分开，以对目标进行针对性处理，如人脸或指纹识别、飞行物识别、心电图识别等，在安全领域、军事领域、交通领域和医疗领域有广泛的应用前景。

然而，目前基于区域提名的目标检测算法和基于端到端学习的目标检测算法，在目标检测中的效果有限，如何提高目标检测的准确度是当前目标检测的研究焦点。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标检测准确性的目标检测模型训练及目标检测方法、装置、计算机设备和存储介质。

一种目标检测模型训练方法，所述方法包括：

获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；

将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数；

根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失、交叠损失和定位损失；

根据分类损失、交叠损失和定位损失得到损失函数值；

根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

在其中一个实施例中，预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失包括：

根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；

根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

在其中一个实施例中，预测框参数还包括表征预测框和标注框重叠程度的定位置信度；根据与标注框对应预设的边界框、标注框参数和预测框参数确定交叠损失包括：

根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；

根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

在其中一个实施例中，根据与标注框对应预设的边界框、标注框参数和预测框参数确定定位损失包括：

根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；

根据位置参数定位损失求和得到定位损失。

在其中一个实施例中，根据分类损失、交叠损失和定位损失得到损失函数值包括：

按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；

根据损失和与边界框的边界框数量的比值，得到损失函数值。

在其中一个实施例中，训练图像集中各训练图像包括预设数量比例的正样本训练图像和负样本训练图像，负样本图像通过困难样本挖掘处理得到。

一种目标检测模型训练装置，所述装置包括：

训练样本获取模块，用于获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；

模型训练输出获取模块，用于将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数；

损失元素确定模块，用于根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失、交叠损失和定位损失；

损失函数确定模块，用于根据分类损失、交叠损失和定位损失得到损失函数值；

模型训练调整模块，用于根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

根据分类损失、交叠损失和定位损失得到损失函数值；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据分类损失、交叠损失和定位损失得到损失函数值；

一种目标检测方法，所述方法包括：

获取待检测图像；

采用如上所述的目标检测模型训练方法得到的目标检测模型对待检测图像进行目标检测，得到目标检测模型输出的预测框对应的预测框参数；

根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框。

一种目标检测装置，装置包括：

检测图像获取模块，用于获取待检测图像；

模型预测模块，用于采用如上所述的目标检测模型训练方法得到的目标检测模型对待检测图像进行目标检测，得到目标检测模型输出的预测框对应的预测框参数；

检测结果获取模块，用于根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

上述目标检测模型训练及目标检测方法、装置、计算机设备和存储介质，根据各训练图像中的检测目标对应标注框的标注框参数、与标注框对应预设的边界框，和目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数分别确定分类损失、交叠损失和定位损失，并根据分类损失、交叠损失和定位损失得到损失函数值，通过损失函数值调整模型训练，得到训练完成的目标检测模型。通过综合分类损失、交叠损失和定位损失得到的损失函数值对模型进行训练，提高了训练得到的目标检测模型的检测准确性。

附图说明

图1为一个实施例中目标检测模型训练方法的应用环境图；

图2为一个实施例中目标检测模型训练方法的流程示意图；

图3为一个实施例中目标检测方法的流程示意图；

图4为另一个实施例中目标检测方法的流程示意图；

图5为一个实施例中目标检测模型训练装置的结构框图；

图6为一个实施例中目标检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的目标检测模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102将训练图像集发送至服务器104，服务器104根据各训练图像中的检测目标对应标注框的标注框参数、与标注框对应预设的边界框，和目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数分别确定分类损失、交叠损失和定位损失，并根据分类损失、交叠损失和定位损失得到损失函数值，通过损失函数值调整模型训练，得到训练完成的目标检测模型。在其他一些实施例中，直接由服务器104从数据库中获取训练图像集进行模型训练，或由终端102直接根据训练图像集进行模型训练。

在另一个实施例中，本申请提供的目标检测方法也可以直接应用于如图1所示的应用环境中。终端102或服务器104中存储有如上所述的目标检测模型训练方法得到的目标检测模型，该目标检测模型可以由终端102或服务器104自身训练获得，也可以是由其他设备获得。终端102或服务器104采用该目标检测模型对待检测图像进行目标检测，得到目标检测模型输出的预测框对应的预测框参数，再根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框，从而实现目标检测。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种目标检测模型训练方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤S201：获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数。

训练图像集为进行模型训练时用到的各训练图像的集合，训练图像集中各训练图像可以为预设数量比例的正样本训练图像和负样本训练图像。训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数，其中，检测目标为需要检测的对象，通过标注框对检测目标进行标注，标注框参数用于描述该标注框。具体地，标注框参数可以包括标注框中检测目标的类别和标注框的位置。

步骤S203：将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数。

其中，预测框为目标检测模型针对训练图像中的检测目标的检测结果，预测框参数用于描述预测框，具体可以包括类别预测概率、预测框位置参数和表征预测框和标注框重叠程度的定位置信度。在将训练图像集中的训练图像输入目标检测模型后，由目标检测模型进行目标检测，输出针对训练图像中的检测目标的检测结果，即预测框的预测框参数。

具体地，可以按照预设的超参数对目标检测模型进行模型训练，超参数包括初始学习率、优化参数冲量和权重衰减比例等。

步骤S205：根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失、交叠损失和定位损失。

其中，边界框根据目标检测模型的网络结构输出对应预先设置。例如，对于基于YOLO(You Only Look Once)算法构建的目标检测模型，可以利用训练图像的标注框，在目标检测模型的各输出尺度上聚类出3个尺寸的锚，具体可以通过Kmeans聚类算法进行锚聚类，并根据锚产生对应的边界框。具体地，目标检测模型可以设置有4个输出尺度，在每个尺度上聚类3个不同尺寸的锚，得到12个锚，并产生与锚对应的边界框，不同的锚可以产生不同的边界框，以实现多尺度检测，从而提高各尺度对象的检测准确度。

分类损失、交叠损失和定位损失均通过边界框、标注框参数和预测框参数确定。其中，分类损失反映了目标检测模型对检测目标所属类别的分类性能，分类损失越小，表征目标检测模型的分类性能越好；交叠损失和定位损失反映了预测框对检测目标的定位准确度，交叠损失和定位损失越小，表征目标检测模型的目标定位性能越好。

步骤S207：根据分类损失、交叠损失和定位损失得到损失函数值。

综合分类损失、交叠损失和定位损失得到损失函数值，损失函数值反映了目标检测模型的整体检测性能，损失函数值越小，表征目标检测模型的检测准确度越高，检测性能越好。具体地，分类损失可以基于柔性最大值损失函数或交叉熵损失函数确定；交叠损失和定位损失可以基于平滑损失函数或平方损失函数得到。

步骤S209：根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

得到损失函数值后，根据该损失函数值对目标检测模型中的模型参数进行调整，再对参数调整后的目标检测模型重复上述步骤继续训练，直至满足训练停止条件，如损失函数值越来越小，在满足收敛条件时，终止训练，得到训练完成的目标检测模型，训练完成的目标检测模型可以对输入的待检测图像进行目标检测。

上述目标检测模型训练方法中，根据各训练图像中的检测目标对应标注框的标注框参数、与标注框对应预设的边界框，和目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数分别确定分类损失、交叠损失和定位损失，并根据分类损失、交叠损失和定位损失得到损失函数值，通过损失函数值调整模型训练，得到训练完成的目标检测模型。通过综合分类损失、交叠损失和定位损失得到的损失函数值对模型进行训练，提高了训练得到的目标检测模型的检测准确性。

在其中一个实施例中，预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失包括：根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

本实施例中，类别预测概率为目标检测模型针对训练图像中的检测目标所属各类别的预测概率；预测框位置参数用于描述目标检测模型针对训练图像中的检测目标的预测位置。预测框位置参数可以包括预测框的预测中心点位置和预测框的宽度和高度，其中，预测中心点位置和预测框的宽度和高度均可以通过归一化的坐标量表示。标注框位置参数用于描述训练图像中的检测目标对应标注框的位置。

确定分类损失时，根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值，再根据柔性最大值损失函数，即Softmax Loss、各匹配值和各类别预测概率得到分类损失，分类损失越小，表征目标检测模型的分类性能越好。分类损失反映了目标检测模型对检测目标所属类别的分类性能。具体地，分类损失可以通过下式(1)确定。

其中，L_{class_conf}(x,c)为分类损失；x代表匹配值，取值为1或0，匹配规则为边界框与标注框的交并比大于某一阈值时取1，否则取0；c为类别预测概率；N为与标注框匹配上的边界框的个数，即正样本训练图像的数量；M为标注框的个数；P为检测目标所属类别的目标类别数；Pos为正样本训练图像集，即P类，Neg为负样本训练图像集，即第0类；i从Pos中从1开始取值，j从0开始取值，k从1开始取值；

表征了第i个边界框和类别为k的第j个标注框是否匹配。

在其中一个实施例中，预测框参数还包括表征预测框和标注框重叠程度的定位置信度；根据与标注框对应预设的边界框、标注框参数和预测框参数确定交叠损失包括：根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

本实施例中，预测框参数还包括定位置信度，用于表征预测框和标注框重叠程度。确定交叠损失时，根据与标注框对应预设的边界框、标注框参数和预测框参数确定交叠损失包括，再根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比，最后根据平滑损失函数，即smoothL1 Loss、各匹配值、定位置信度和交并比得到交叠损失。交叠损失反映了负样本的影响，交叠损失越小，表征负样本影响越小，目标检测模型的目标定位性能越好。具体地，交叠损失可以通过下式(2)得到。

其中，

其中，L_{loc_conf}(x,l,g)为交叠损失；l为预测框；g为标注框；Conf_loc为定位置信度，

为第i个预测框与第j个标注框之间的交并比。交叠损失包括3部分，第一部分为预测正样本的定位置信度，第二部分和第三部分分别为正负样本与标注框的交叠程度。为使交叠损失越小，应当第二部分中正样本与真实框的交并比尽可能大，第三部分中负样本与真实框的交并比尽可能小。

在其中一个实施例中，根据与标注框对应预设的边界框、标注框参数和预测框参数确定定位损失包括：根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；根据位置参数定位损失求和得到定位损失。

定位损失与交叠损失一样，通过平滑损失函数，即smoothL1 Loss得到。具体地，根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失，再根据位置参数定位损失求和得到定位损失，定位损失反映了预测框对检测目标的定位准确度。具体地，定位损失可以通过下式(3)得到。

其中，L_loc(x,l,g)为定位损失；

为第i个预测框的预测框位置参数，其表征预测框的属性，具体可以包括预测框中心点位置、宽和高；

为与该第i个预测框匹配的第j个标注框对应的标注框位置参数，其表征标注框的属性，具体可以包括标注框中心点位置、宽和高；(cx，cy)为预测框或标注框的中心点位置，w和h分别为预测框或标注框的宽和高。

在其中一个实施例中，根据分类损失、交叠损失和定位损失得到损失函数值包括：按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；根据损失和与边界框的边界框数量的比值，得到损失函数值。

综合分类损失、交叠损失和定位损失得到损失函数值，损失函数值反映了目标检测模型的整体检测性能。本实施例中，按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和，再根据损失和与边界框的边界框数量的比值，得到损失函数值。具体地，损失函数值可以通过下式(4)得到。

其中，L(x,c,l,g)为损失函数值；α为预设的调节系数，可以取经验值。

本实施例中，训练图像集中各训练图像包括预设数量比例的正样本训练图像和负样本训练图像。具体的，负样本训练图像可以比正样本训练图像多，如正样本训练图像和负样本训练图像的数量比例为1:3。负样本训练图像可以通过困难样本挖掘处理得到，困难样本挖掘是指在每次训练迭代中，根据分类分支的结果选择分类概率较高的负样本，并保持正负样本比例不变。通过在模型训练中引入负样本，可以提高模型对于正负样本的分辨能力，降低误检率，从而提高训练完成的目标检测模型的检测准确度。

在其中一个实施例中，如图3所示，提供了一种目标检测方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤S301：获取待检测图像。

待检测图像为需要通过目标检测模型进行目标检测的图像。

步骤S303：采用如上所述的目标检测模型训练方法得到的目标检测模型对待检测图像进行目标检测，得到目标检测模型输出的预测框对应的预测框参数。

获取通过上述的目标检测模型训练方法得到的目标检测模型，将待检测图像输入该目标检测模型中，得到目标检测模型输出的预测框对应的预测框参数。预测框参数用于描述目标检测模型的检测结果，即预测框。

步骤S305：根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框。

预测框参数包括定位置信度，定位置信度表征了预测框和标注框重叠程度。通过非极大值抑制(NonMaximum Suppression，NMS)处理，可以根据定位置信度从预测框中准确地确定目标框，目标检测结果包括该目标框。

具体地，针对待检测图像中的同一检测目标，目标检测模型输出的预测框参数可能描述了多个对应的预测框，需要去除冗余的预测框。可以按照各预测框对应的定位置信度将预测框进行排序，从中选取定位置信度最大的预测框，再通过预设的交并比阈值来筛选其他预测框，从而剔除与所选预测框的交并比大于交并比阈值的其他预测框，从而得到目标框，实现了对目标的准确检测。

上述目标检测方法，根据各训练图像中的检测目标对应标注框的标注框参数、与标注框对应预设的边界框，和目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数分别确定分类损失、交叠损失和定位损失，并根据分类损失、交叠损失和定位损失得到损失函数值，通过损失函数值调整模型训练，得到训练完成的目标检测模型，再将待检测图像输入该目标检测模型中进行检测。通过综合分类损失、交叠损失和定位损失得到的损失函数值对模型进行训练，提高了训练得到的目标检测模型的检测准确性。

在其中一个实施例中，如图4所示，提供了一种目标检测方法，包括：

步骤S401：获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数。

步骤S402：将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数。

本实施例中的目标检测模型基于YOLO算法构建，具体地，在原YOLO v3的网络结构的基础上，通过在网络的最后几层加入连续的卷积层、上采样层等，来实现第4个输出尺度，即利用上采样层放大特征图的分辨率，然后用连接层把高低两种分辨率的特征图连接到一起。同时改变了特征图输出的最后一层的输出通道数，最后一层为1x1的卷积层，其输出通道数由(Num_anchors)x(Num_classes+5)变为了(Num_anchors)x(Num_classes+1+5)。通过引入第4个输出尺度，在利用训练图像集的标注框，在4个输出尺度上分别利用K均值(Kmeans)聚类可以得到3种尺寸的锚，所以一共得到12个锚，锚的长、宽以标注框的长、宽为基础，经过Kmeans聚类而来。相比于YOLO v3，由于聚类的范围没有发生变化，聚类中心由9个变成了12个，使得聚类产生的锚的尺寸更多，使得聚类的结果分布更加稠密，即聚类出来的锚更加细化，区分目标的粒度也更细，对检测目标尺寸更鲁棒，有利于检测不同尺度的物体，适用于目标尺度差异较大的场景。

在进行模型训练时，将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数。

步骤S403：预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

本实施例中，基于柔性最大值损失函数，即Softmax Loss确定分类损失，具体通过式(1)得到分类损失L_{class_conf}(x,c)。

步骤S404：预测框参数还包括表征预测框和标注框重叠程度的定位置信度；根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

本实施例中，基于平滑损失函数，即smoothL1 Loss得到交叠损失，具体通过式(2)得到交叠损失L_{loc_conf}(x,l,g)。

步骤S405：根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；根据位置参数定位损失求和得到定位损失。

本实施例中，基于平滑损失函数，即smoothL1 Loss得到定位损失，具体通过式(3)得到定位损失L_loc(x,l,g)。

步骤S406：按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；根据损失和与边界框的边界框数量的比值，得到损失函数值。

得到分类损失、交叠损失和定位损失后，通过式(4)得到损失函数值L(x,c,l,g)。

步骤S407：根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

本实施例中，训练图像集中各训练图像包括数量比例为1:3的正样本训练图像和负样本训练图像，负样本图像通过困难样本挖掘处理得到。通过在模型训练中引入负样本，可以提高模型对于正负样本的分辨能力，降低误检率，从而提高训练完成的目标检测模型的检测准确度。

本实施例中，模型训练的超参数包括初始学习率、优化参数冲量和权重衰减比例。其中，初始学习率为5x10^-4，先迭代2万次；再降至5x10^-5的学习率并以这个学习率迭代8千次；然后降至5x10^-6的学习率迭代2千次得到最终训练完成的目标检测模型，并保存该目标检测模型；优化参数冲量为0.9；权重衰减比例为0.001。

步骤S408：获取待检测图像；

步骤S409：通过训练完成的目标检测模型对待检测图像进行目标检测，得到目标检测模型输出预测框对应的预测框参数；

步骤S410：根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框。

得到训练完成的目标检测模型后，将待检测图像输入该目标检测模型中，得到预测框参数，预测框参数描述了多个对应的预测框。为去除冗余的预测框，各预测框对应的定位置信度将预测框进行排序，从中选取定位置信度最大的预测框，再通过预设的交并比阈值，本实施例中交并比阈值为0.5，一般取值范围为0.5～0.6，通过交并比阈值来筛选其他预测框，从而剔除与所选预测框的交并比大于交并比阈值的其他预测框，从而得到目标框，目标框即为目标检测结果，从而实现了对目标的准确检测。

应该理解的是，虽然2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种目标检测模型训练装置，包括：训练样本获取模块501、模型训练输出获取模块503、损失元素确定模块505、损失函数确定模块507和模型训练调整模块509，其中：

训练样本获取模块501，用于获取训练图像集，训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；

模型训练输出获取模块503，用于将训练图像集中的训练图像作为目标检测模型的输入，获取目标检测模型输出的训练图像中的检测目标对应预测框的预测框参数；

损失元素确定模块505，用于根据与标注框对应预设的边界框、标注框参数和预测框参数确定分类损失、交叠损失和定位损失；

损失函数确定模块507，用于根据分类损失、交叠损失和定位损失得到损失函数值；

模型训练调整模块509，用于根据损失函数值对目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

在其中一个实施例中，预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；损失元素确定模块505包括匹配值确定单元和分类损失确定单元，其中：匹配值确定单元，用于根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；分类损失确定单元，根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

在其中一个实施例中，预测框参数还包括表征预测框和标注框重叠程度的定位置信度；损失元素确定模块505包括交并比确定单元和交叠损失确定单元，其中：交并比确定单元，用于根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；交叠损失确定单元，用于根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

在其中一个实施例中，损失元素确定模块505包括位置参数损失单元和定位损失确定单元，其中：位置参数损失单元，用于根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；定位损失确定单元，用于根据位置参数定位损失求和得到定位损失。

在其中一个实施例中，损失函数确定模块507包括损失和确定单元和损失函数值确定单元，其中：损失和确定单元，用于按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；损失函数值确定单元，用于根据损失和与边界框的边界框数量的比值，得到损失函数值。

在一个实施例中，如图6所示，提供了一种目标检测装置，包括检测图像获取模块601、模型预测模块603和检测结果获取模块605，其中：

检测图像获取模块601，用于获取待检测图像；

模型预测模块603，用于采用如上所述的目标检测模型训练方法得到的目标检测模型对待检测图像进行目标检测，得到目标检测模型输出的预测框对应的预测框参数；

检测结果获取模块605，用于根据预测框参数中的定位置信度，通过非极大值抑制处理，从预测框中确定目标框，目标检测结果包括目标框。

关于目标检测模型训练装置的具体限定可以参见上文中对于目标检测模型训练方法的限定，关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定，在此不再赘述。上述目标检测模型训练装置和目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标检测模型训练方法或目标检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

根据分类损失、交叠损失和定位损失得到损失函数值；

在一个实施例中，预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；处理器执行计算机程序时还实现以下步骤：根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

在一个实施例中，预测框参数还包括表征预测框和标注框重叠程度的定位置信度；处理器执行计算机程序时还实现以下步骤：根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；根据位置参数定位损失求和得到定位损失。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；根据损失和与边界框的边界框数量的比值，得到损失函数值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据分类损失、交叠损失和定位损失得到损失函数值；

在一个实施例中，预测框参数包括类别预测概率和预测框位置参数；标注框参数包括标注框位置参数；计算机程序被处理器执行时还实现以下步骤：根据标注框位置参数和边界框的位置参数确定各边界框分别与各标注框的匹配值；根据柔性最大值损失函数、各匹配值和各类别预测概率得到分类损失。

在一个实施例中，预测框参数还包括表征预测框和标注框重叠程度的定位置信度；计算机程序被处理器执行时还实现以下步骤：根据预测框位置参数和标注框位置参数得到预测框和标注框的交并比；根据平滑损失函数、各匹配值、定位置信度和交并比得到交叠损失。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据平滑损失函数、各匹配值、预测框位置参数和标注框位置参数，得到位置参数定位损失；根据位置参数定位损失求和得到定位损失。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照预设的调节系数对定位损失进行调整，并根据调整后的定位损失、分类损失和交叠损失求和得到损失和；根据损失和与边界框的边界框数量的比值，得到损失函数值。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测图像；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标检测模型训练方法，所述方法包括：

获取训练图像集，所述训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；

将所述训练图像集中的所述训练图像作为目标检测模型的输入，获取所述目标检测模型输出的所述训练图像中的所述检测目标对应预测框的预测框参数；

根据与所述标注框对应预设的边界框、所述标注框参数和所述预测框参数确定分类损失、交叠损失和定位损失；

根据所述分类损失、所述交叠损失和所述定位损失得到损失函数值；

根据所述损失函数值对所述目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

2.根据权利要求1所述的方法，其特征在于，所述预测框参数包括类别预测概率和预测框位置参数；所述标注框参数包括标注框位置参数；所述根据与所述标注框对应预设的边界框、所述标注框参数和所述预测框参数确定分类损失包括：

根据所述标注框位置参数和所述边界框的位置参数确定各所述边界框分别与各所述标注框的匹配值；

根据柔性最大值损失函数、各所述匹配值和各所述类别预测概率得到分类损失。

3.根据权利要求2所述的方法，其特征在于，所述预测框参数还包括表征所述预测框和所述标注框重叠程度的定位置信度；所述根据与所述标注框对应预设的边界框、所述标注框参数和所述预测框参数确定交叠损失包括：

根据所述预测框位置参数和所述标注框位置参数得到所述预测框和所述标注框的交并比；

根据平滑损失函数、各所述匹配值、所述定位置信度和所述交并比得到交叠损失。

4.根据权利要求3所述的方法，其特征在于，所述根据与所述标注框对应预设的边界框、所述标注框参数和所述预测框参数确定定位损失包括：

根据所述平滑损失函数、各所述匹配值、所述预测框位置参数和所述标注框位置参数，得到位置参数定位损失；

根据所述位置参数定位损失求和得到定位损失。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述分类损失、所述交叠损失和所述定位损失得到损失函数值包括：

按照预设的调节系数对所述定位损失进行调整，并根据调整后的定位损失、所述分类损失和所述交叠损失求和得到损失和；

根据所述损失和与所述边界框的边界框数量的比值，得到损失函数值。

6.根据权利要求1所述的方法，其特征在于，所述训练图像集中各训练图像包括预设数量比例的正样本训练图像和负样本训练图像，所述负样本图像通过困难样本挖掘处理得到。

7.一种目标检测方法，所述方法包括：

获取待检测图像；

采用如权利要求1至6任意一项所述的目标检测模型训练方法得到的目标检测模型对所述待检测图像进行目标检测，得到所述目标检测模型输出的预测框对应的预测框参数；

根据所述预测框参数中的定位置信度，通过非极大值抑制处理，从所述预测框中确定目标框，目标检测结果包括所述目标框。

8.一种目标检测模型训练装置，其特征在于，所述装置包括：

训练样本获取模块，用于获取训练图像集，所述训练图像集中各训练图像中的检测目标存在对应标注框的标注框参数；

模型训练输出获取模块，用于将所述训练图像集中的所述训练图像作为目标检测模型的输入，获取所述目标检测模型输出的所述训练图像中的所述检测目标对应预测框的预测框参数；

损失元素确定模块，用于根据与所述标注框对应预设的边界框、所述标注框参数和所述预测框参数确定分类损失、交叠损失和定位损失；

损失函数确定模块，用于根据所述分类损失、所述交叠损失和所述定位损失得到损失函数值；

模型训练调整模块，用于根据所述损失函数值对所述目标检测模型中的模型参数进行调整并继续训练，直至满足训练停止条件时结束训练，得到训练完成的目标检测模型。

9.一种目标检测装置，所述装置包括：

检测图像获取模块，用于获取待检测图像；

模型预测模块，用于采用如权利要求1至6任意一项所述的目标检测模型训练方法得到的目标检测模型对所述待检测图像进行目标检测，得到所述目标检测模型输出的预测框对应的预测框参数；

检测结果获取模块，用于根据所述预测框参数中的定位置信度，通过非极大值抑制处理，从所述预测框中确定目标框，目标检测结果包括所述目标框。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。