CN109784293A

CN109784293A - 多类目标对象检测方法、装置、电子设备、存储介质

Info

Publication number: CN109784293A
Application number: CN201910070496.2A
Authority: CN
Inventors: 肖潇; 晋兆龙; 张震国
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-05-21
Anticipated expiration: 2039-01-24
Also published as: CN109784293B

Abstract

本发明提供一种多类目标对象检测方法、装置、电子设备、存储介质，多类目标对象检测方法，包括：训练第一神经网络模型以使第一神经网络模型输出准第一目标框和准第二目标框，准第一目标框指示第一类目标对象，准第二目标框指示第二类目标对象；训练第二神经网络模型，以使第二神经网络模型输出准第一目标框和准第二目标框的二级置信度及属性信息；将经训练的第一神经网络模型及经训练的、第二神经网络模型作为多类目标对象检测模型；将待检测图片输入多类目标对象检测模型，根据多类目标对象检测模型输出的准第一目标框和准第二目标框的二级置信度及属性信息确定优异度。本发明提供的方法及设备实现多类对象的同时检测。

Description

多类目标对象检测方法、装置、电子设备、存储介质

技术领域

本发明涉及计算机应用领域，尤其涉及一种多类目标对象检测方法、装置、电子设备、存储介质。

背景技术

随着平安城市的普及和社会面监控的数量迅速增长，基于深度学习、AI(Artificial Intelligence)智能的发展，以及对各种监控图片、监控视频进行分析的各种技术需求，能够准确快速的从图片、视频中检测出具体的目标，尤其是人脸和行人，成为极其重要的关键部分，既要保证检测的精确度高，又不能遗漏任何目标，为后续分析提高了坚实基础。

基于传统算法的行人和人脸检测是分别独立的模块，且需要单独设计特征和单独训练分类器，能保证某些特定场景中的人脸和行人检测率，但是，想在光照、视角、色差等复杂多样的各种场景的图片和视频中准确快速的检测，难度比较大，无法得到合格的检测效果。

发明内容

本发明为了克服上述现有技术存在的缺陷，提供一种多类目标对象检测方法、装置、电子设备、存储介质，实现多类对象的同时检测。

根据本发明的一个方面，提供一种多类目标对象检测方法，包括：

训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框，所述准第一目标框指示第一类目标对象，所述准第二目标框指示第二类目标对象；

训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息；

将经训练的所述第一神经网络模型及经训练的、级联所述第一神经网络模型级联的第二神经网络模型作为多类目标对象检测模型；

将待检测图片输入所述多类目标对象检测模型，根据所述多类目标对象检测模型输出的准第一目标框和准第二目标框的二级置信度及属性信息确定各准第一目标框及各准第二目标框的优异度。

可选地，所述训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框还包括：

将测试图片数据输入第一神经网络模型，所述测试图片数据标定有第一目标框和第二目标框，所述第一目标框指示所述第一类目标对象，所述第二目标框指示所述第二类目标对象；

根据将所述第一神经网络模型输出的准第一目标框和准第二目标框分别与所述第一目标框和第二目标框进行匹配，并根据匹配结果调整所述第一神经网络模型中的参数以训练所述第一神经网络模型。

可选地，所述根据将所述第一神经网络模型输出的准第一目标框和准第二目标框分别与所述第一目标框和第二目标框进行匹配，并根据匹配结果调整所述第一神经网络模型中的参数以训练所述第一神经网络模型包括：

分别计算所述第一神经网络模型输出的准第一目标框和准第二目标框与所述第一目标框和第二目标框之间的重叠度；

根据所述重叠度将所述准第一目标框分配为第一类目标对象或其它，根据所述重叠度将所述准第二目标框分配为第二类目标对象或其它；

选取至少部分所分配的准第一目标框和准第二目标框，分别与所标定的第一目标框和第二目标框根据第一损失函数计算各准第一目标框和各准第二目标框的损失度，并根据所述损失度调整所述第一神经网络模型中的参数以训练所述第一神经网络模型。

可选地，所述第一损失函数为欧氏距离损失函数和softmax损失函数的加权和。

可选地，所述训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息包括：

自所述第一神经网络模型训练时，所述第一神经网络模型输出的准第一目标框和准第二目标框中筛选部分准第一目标框和准第二目标框；

对所筛选的准第一目标框和准第二目标框分配标签；

获取所述第一神经网络模型中对应所筛选的准第一目标框和准第二目标框的特征图像；

利用所筛选的准第一目标框和准第二目标框、所对应的特征图像及所分配的标签，根据第二损失函数训练所述第二神经网络模型。

可选地，所述自所述第一神经网络模型训练时，所述第一神经网络模型输出的准第一目标框和准第二目标框中筛选部分准第一目标框和准第二目标框包括：

获取所述第一神经网络模型输出的准第一目标框和准第二目标框的一级置信度；

筛选获得所述一级置信度最高的N个准第一目标框和M个准第二目标框，其中，N，M皆为大于等于1的整数。

可选地，所述第二损失函数为Smooth L1损失函数和softmax损失函数的加权和。

根据本发明的又一方面，还提供一种多类目标对象检测装置，包括：

第一训练模块，用于训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框，所述准第一目标框指示第一类目标对象，所述准第二目标框指示第二类目标对象；

第二训练模块，用于训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息；

模型生成模块，用于将经训练的所述第一神经网络模型及经训练的、级联所述第一神经网络模型级联的第二神经网络模型作为多类目标对象检测模型；

检测模块，用于将待检测图片输入所述多类目标对象检测模型，根据所述多类目标对象检测模型输出的准第一目标框和准第二目标框的二级置信度及属性信息确定各准第一目标框及各准第二目标框的优异度。

根据本发明的又一方面，还提供一种电子设备，所述电子设备包括：处理器；存储介质，其上存储有计算机程序，所述计算机程序被所述处理器运行时执行如上所述的步骤。

根据本发明的又一方面，还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上所述的步骤。

由此可见，本发明提供的方案，与现有技术相比，具有如下优势：

本发明利用基于深度学习技术的神经网络模型，在复杂多变的各种监控图片和视频中，能够快速准确的检测出多类目标(如人脸和行人)的目标框，并可对每个目标框分析属性信息。进一步地，本发明还可以通过对深度卷积网络结构的合理搭建，损失函数的修改等技术手段，保证了多类目标较高的检测率和分析准确率。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1示出了根据本发明实施例的多类目标对象检测方法的流程图。

图2示出了根据本发明具体实施例的训练第一神经网络模型的流程图。

图3示出了根据本发明具体实施例的训练与所述第一神经网络模型级联的第二神经网络模型的流程图。

图4示出了根据本发明实施例的多类目标对象检测装置的模块图。

图5示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

图6示意性示出本公开示例性实施例中一种电子设备示意图。

具体实施方式

现在将附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

为了克服上述现有技术存在的缺陷，本发明提供一种多类目标对象检测方法、装置、电子设备、存储介质，实现多类对象的同时检测。

首先参见图1，图1示出了根据本发明实施例的多类目标对象检测方法的流程图。图1共示出了4个步骤：

步骤S110：训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框，所述准第一目标框指示第一类目标对象，所述准第二目标框指示第二类目标对象。

具体而言，所述第一神经网络模型为深度卷积神经网络模型。深度卷积神经网络模型由数据层、卷积层、池化层、激活函数层、批归一化层等按照一定顺序组成，本发明并非以此为限。在一些具体实施例中，在深度卷积神经网络模型中，包括对数据层的所有数据进行归一化的步骤(在卷积、池化前的归一化处理)，以归一成零均值单位方差的数据分布，其归一化计算公式如下：

其中，x_i为待归一化数据(例如可以是输入图像的各像素点的像素值)，为均值，v为方差，x′_i为归一化后的数据，其计算公式如下：

其中，为均值，n为待归一化数据的总数(例如输入图像的像素点总数)。

具体而言，所述准第一目标框和准第二目标框可由所述第一神经网络模型的一预设框层输出，所述预设框层用于使所述第一神经网络模型的输出符合预设条件。在一些实施例中，预设框层的预设条件对尺度、比例和覆盖密度都有一定要求。例如，当第一类目标对象为人脸，第二类目标对象为行人时，预设框层的预设条件可以设置6个尺度：16、32、64、128、256、512；预设框层的预设条件可以设置目标框的4个长宽比例：1:1，2:1，1:2，1:3，其中1:1的比例主要用来匹配人脸的目标框，2:1的比例主要是用来匹配低头或者抬头的人脸目标框，1:2的比例主要是用来匹配侧脸目标框及不完整的行人目标框，1:3的比例主要是用来匹配行人的目标框。各个尺度的目标框之间的稠密度的比例保持为1:1:1:1:1:1，由此可保持目标框各尺度的平衡。可以理解，此处所述的尺度用于描述目标框的大小，例如尺度为16的，长宽比为1:1的目标框，其实际大小为16*16(例如以像素点为单位)；尺度为16的，长宽比为2:1的目标框，其实际大小约为尺度为16的，长宽比为1:2的目标框，其实际大小约为尺度为16的，长宽比为3:1的目标框，其实际大小约为以此类推。

以上仅仅是示意性地描述本发明的具体实施例，本发明并非以此为限，其它尺度、尺度的数量、目标框的长宽比例、目标框的长宽比例数量、各个尺度的目标框之间的稠密度的比例都在本发明的保护范围之内。

具体而言，上述步骤S110的具体实现可以参见图2，图2示出了根据本发明具体实施例的训练第一神经网络模型的流程图。图2共示出如下步骤：

步骤S210：将测试图片数据输入第一神经网络模型，所述测试图片数据标定有第一目标框和第二目标框，所述第一目标框指示所述第一类目标对象，所述第二目标框指示所述第二类目标对象。

在一些具体实施例中，测试图片数据的标定可以由人工完成，本发明并非以此为限。

在本发明的各个实施例中，前述的准第一目标框和准第二目标框经由模型推测来指示第一类目标对象和第二类目标对象，而此处所述的第一目标框和第二目标框直接指示第一类目标对象和第二类目标对象。

具体而言，在一些实施例中，步骤S210还包括对测试图片数据的增广步骤，由此丰富化训练数据，增加网络的鲁棒性。考虑到测试图片数据的数量和涉及的场景有限，为了增加数据的丰富性，可以对测试图片数据进行适当的增广。其中，包括对图像进行随机的位置裁剪，对图像色度、亮度通道的随机拉伸，对图像的随机水平翻转，对图像中模糊目标、困难目标的屏蔽。这几种增广是以独立的概率发生，且进行级联，会极大的丰富了训练数据的多样性，增加了模型的鲁棒性，防止出现过拟合的现象。

步骤S220：根据将所述第一神经网络模型输出的准第一目标框和准第二目标框分别与所述第一目标框和第二目标框进行匹配，并根据匹配结果调整所述第一神经网络模型中的参数以训练所述第一神经网络模型。第一神经网络模型的参数可以包括第一神经网络模型中的各层之间的权重矩阵及各节点的偏置量等，再次不予赘述。

具体而言，上述步骤S220可以包括如下步骤：分别计算所述第一神经网络模型输出的准第一目标框和准第二目标框与所述第一目标框和第二目标框之间的重叠度；根据所述重叠度将所述准第一目标框分配为第一类目标对象或其它(此处所述的其它即指准第一目标框中除了分配为第一类目标对象的其它准第一目标框，在具体分配时，例如可以将分配第一类目标对象的准第一目标框中的标记为1，将其它准第一目标框标记为0以实现第一类目标对象或其它的分配)，根据所述重叠度将所述准第二目标框分配为第二类目标对象或其它(准第二目标框的分配与准第一目标框的分配方式相同，在此不予赘述)；选取至少部分所分配的准第一目标框和准第二目标框，分别与所标定的第一目标框和第二目标框根据第一损失函数计算各准第一目标框和各准第二目标框的损失度，并根据所述损失度调整所述第一神经网络模型中的参数以训练所述第一神经网络模型。

具体而言，在一些实施例中，可以将前述的预设框层输出的等密度的各个尺度和比例的准第一目标框和准第二目标框与测试图片数据标定的第一目标框和第二目标框计算重叠度，可以根据预设的阈值筛选准第一目标框和准第二目标框，并按所计算的重叠度进行排名，以进一步挑选出符合要求的准第一目标框和准第二目标框。挑选出符合要求的准第一目标框和准第二目标框后，给每个准第一目标框和准第二目标框分配标签，其中，正标签包括第一类目标对象和第二类目标对象，负标签为其他。在挑选符合要求的准第一目标框和准第二目标框时，需要保持合理的正负样本比例。将分配好标签的准第一目标框和准第二目标框与标定的第一目标框和第二目标框，按预设的第一损失函数计算损失率，并进行迭代最小化此损失率，达到训练的目的。第一损失函数可以欧氏距离损失函数和softmax损失函数的加权和。本发明并非以此为限。

在一些具体实施例中，第一神经网络模型可以采用随机梯度下降(StochasticGradient Descent,SGD)法进行迭代训练，使用了线性下降的学习率变化模式。本发明并非以此为限。

步骤S120：训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息。

具体而言，第二神经网络模型可以是卷积神经网络模型。在一些具体实施例中，第一神经网络模型的输出经由池化压缩(及后续筛选)后输入第二神经网络模型，以减少第二神经网络模型的计算量。进一步地，考虑到第二神经网络模型无需大量计算，因此，相较于第一神经网络模型，第二神经网络模型的层数可以少于第一神经网络模型。

具体而言，步骤S120可以通过图3所示的步骤来实现，图3示出了根据本发明具体实施例的训练与所述第一神经网络模型级联的第二神经网络模型的流程图。图3示出如下步骤：

步骤S310：自所述第一神经网络模型训练时，所述第一神经网络模型输出的准第一目标框和准第二目标框中筛选部分准第一目标框和准第二目标框。

具体而言，步骤S310可以通过如下步骤筛选准第一目标框和准第二目标框：获取所述第一神经网络模型输出的准第一目标框和准第二目标框的一级置信度；筛选获得所述一级置信度最高的N个准第一目标框和M个准第二目标框，其中，N，M皆为大于等于1的整数。在该实施例中，所述一级置信度即所述第一神经网络模型输出的准第一目标框和准第二目标框与第一目标框和第二目标框的重叠度和/或损失度来确定，具体而言，损失度越低、重叠度越高，所述一级执行度越高。通过筛选的步骤，可以减少第二神经网络模型所需要处理的数据量。

步骤S320：对所筛选的准第一目标框和准第二目标框分配标签。

具体而言，在本步骤中，还可以包括对所筛选的准第一目标框和准第二目标框对应的特征图像进行数据增广，例如，对特征图像进行随机的平移、旋转、尺度拉伸、水平翻转等数据增广，这些方式均为按概率随机后级联方式，这种方式增加了第二神经网络模型的输入数据量。

在本发明的一些具体实施例中，第一类目标对象为人脸，第二类目标对象为行人，在步骤S320中分配标签包括人脸和行人的属性信息，人脸属性信息可以包括：人脸关键点、姿态、表情、模糊度等；行人属性信息包括：行人完整度、行人状态等。以上仅仅是示意性地描述了本发明的具体实施例，本发明并非以此为限。

步骤S330：获取所述第一神经网络模型中对应所筛选的准第一目标框和准第二目标框的特征图像。

步骤S340：利用所筛选的准第一目标框和准第二目标框、所对应的特征图像及所分配的标签，根据第二损失函数训练所述第二神经网络模型。

具体而言，所述第二损失函数为Smooth L1损失函数和softmax损失函数的加权和。考虑到smooth L1损失函数会比欧氏的对于离散点更鲁棒一些。第二神经网络模型用于获得属性，更容易出现一些离散的差距较大的值，因此，选择了smooth L1损失函数和softmax损失函数的加权和。

在一些具体实施例中，第二神经网络模型也可以采用随机梯度下降(StochasticGradient Descent,SGD)法进行迭代训练，使用了线性下降的学习率变化模式。本发明并非以此为限。

步骤S130：将经训练的所述第一神经网络模型及经训练的、级联所述第一神经网络模型级联的第二神经网络模型作为多类目标对象检测模型。

步骤S140：将待检测图片输入所述多类目标对象检测模型，根据所述多类目标对象检测模型输出的准第一目标框和准第二目标框的二级置信度及属性信息确定各准第一目标框及各准第二目标框的优异度。

具体而言，在步骤S140中，当第一神经网络模型输出多个的准第一目标框和准第二目标框时，先分类别(第一类目标对象和第二类目标对象)按照每个类别的目标框互相之间的重叠度(例如，准第一目标框和准第一目标框之间的重叠度，准第二目标框和准第二目标框之间的重叠度)和每个目标框的一级置信度进行非极大值抑制得到少数比较准确的目标框，既减小了第二神经网络模型的计算量，又增加了精度。

具体而言，在步骤S140中，第二神经网络模型输出每个目标框(准第一目标框和准第二目标框)的更精确的二级置信度(例如为目标框的损失值)及此目标框的属性信息，并通过二级置信度和属性信息的准确度进行加权得到目标优异度。目标优异度越高，表示目标对象的置信度越高，且目标的属性信息的数据越准确，所获得目标优异度可以用于后续进一步的图像处理及分析，本发明并非以为限制。例如，在一些实施例中，可以保留目标优异度大于预定阈值的目标框以进行显示或进行后续的生物识别(例如人脸识别、体型识别等)，这是考虑到优异度较低的目标框的置信度低或者包含的信息量过少从而无法进行后续识别且增加后续识别的计算量。以上仅仅是示意性地描述本发明所确定的目标优异度的一种使用方式，本发明并非以此为限。

具体而言，在步骤S140中，经过级联了的两个网络一次性获得检测结果，无需多次输入多个模型以获得分开的结果。

在本发明的一个具体实施例中，可以首先准备各种场景、各种环境的训练图片约10万张，由widerface、crowdhuman及专有的监控环境的图片组成，主要不是数量的无节制增加，而在于样本的多样性和丰富性。然后，搭建深度卷积网络的训练平台，这里选用caffe(Convolutional Architecture for Fast Feature Embedding)或者tensorflow，将前述的有针对性的数据增广、预设框层、特殊的损失函数加入到通用平台中，并且编译调试通过，准备训练。然后，设置好训练的参数，将总迭代次数设为15万次，初始学习率为0.01、学习率变化的方式为8万、12万分别调节学习率为0.001、0.0001，开始训练。训练完成后，保存训练收敛后的模型，将需要检测的图片送入推理框架，利用保存的模型进行推理，得到图片中的人脸和行人目标框，并同时输出每个目标框的属性结果，以及目标的优异度。以上仅仅是示意性描述本发明的一个具体实施例，本发明并非以此为限。

下面结合图4描述本发明提供的多类目标对象检测装置。多类目标对象检测装置400包括第一训练模块401、第二训练模块402、模型生成模块403及检测模块404。

第一训练模块401用于训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框，所述准第一目标框指示第一类目标对象，所述准第二目标框指示第二类目标对象。

第二训练模块402用于训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息。

模型生成模块403用于将经训练的所述第一神经网络模型及经训练的、级联所述第一神经网络模型级联的第二神经网络模型作为多类目标对象检测模型。

检测模块404用于将待检测图片输入所述多类目标对象检测模型，根据所述多类目标对象检测模型输出的准第一目标框和准第二目标框的二级置信度及属性信息确定各准第一目标框及各准第二目标框的优异度。

本发明可以通过软件、硬件、固件及其任意结合的方式实现多类目标对象检测装置。图4仅仅是示意性的示出本发明提供的多类目标对象检测装置，在不违背本发明构思的前提下，模块的拆分、合并、增加都在本发明的保护范围之内。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被例如处理器执行时可以实现上述任意一个实施例中所述多类目标对象检测方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，若所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述多类目标对象检测方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适若的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到租户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述多类目标对象检测方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述多类目标对象检测方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得租户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应若明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述多类目标对象检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种多类目标对象检测方法，其特征在于，包括：

2.如权利要求1所述的多类目标对象检测方法，其特征在于，所述训练第一神经网络模型以使所述第一神经网络模型输出准第一目标框和准第二目标框还包括：

3.如权利要求2所述的多类目标对象检测方法，其特征在于，所述根据将所述第一神经网络模型输出的准第一目标框和准第二目标框分别与所述第一目标框和第二目标框进行匹配，并根据匹配结果调整所述第一神经网络模型中的参数以训练所述第一神经网络模型包括：

4.如权利要求3所述的多类目标对象检测方法，其特征在于，所述第一损失函数为欧氏距离损失函数和softmax损失函数的加权和。

5.如权利要求1所述的多类目标对象检测方法，其特征在于，所述训练与所述第一神经网络模型级联的第二神经网络模型，以使所述第二神经网络模型输出所述准第一目标框和准第二目标框的二级置信度及属性信息包括：

对所筛选的准第一目标框和准第二目标框分配标签；

6.如权利要求5所述的多类目标对象检测方法，其特征在于，所述自所述第一神经网络模型训练时，所述第一神经网络模型输出的准第一目标框和准第二目标框中筛选部分准第一目标框和准第二目标框包括：

7.如权利要求5所述的多类目标对象检测方法，其特征在于，所述第二损失函数为Smooth L1损失函数和softmax损失函数的加权和。

8.一种多类目标对象检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储介质，其上存储有计算机程序，所述计算机程序被所述处理器运行时执行如权利要求1至7任一项所述的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的步骤。