CN111046944A

CN111046944A - 一种确定对象类别的方法、装置、电子设备及存储介质

Info

Publication number: CN111046944A
Application number: CN201911258081.4A
Authority: CN
Inventors: 张桥松; 林佳月; 文为
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-21

Abstract

本发明实施例提供了一种确定对象类别的方法、装置、电子设备及存储介质，可以获取待识别图像，基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别，作为第一类别，针对每一对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别。基于上述处理，针对待识别图像中显示的每一对象，在确定该对象的类别之后，可以基于与该对象的类别对应的子类别预测网络模型，确定该对象的子类别，进而，能够确定同一类别的对象的子类别，可以提高确定对象类别的方法的适用范围。

Description

一种确定对象类别的方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种确定对象类别的方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，用于多目标识别的APP(Application，应用程序)逐渐增多。用于多目标识别的APP，可以基于图像识别，确定一张图像中显示的多个对象各自的类别。

现有技术中，确定一张图像中显示的多个对象各自的类别的方法，包括以下步骤：将待识别图像输入至预先训练的类别预测网络模型中，然后，类别预测网络模型可以输出该图像中显示的多个对象各自的类别，并对多个对象进行类别标记。例如，将一张显示有车、狗和椅子的图像输入类别预测网络模型，类别预测网络模型可以确定该图像中显示的对象的类别包括：车、狗、椅子。

然而，实际应用中，可能需要对一张图像中显示的属于同一类别的对象的子类别进行区分，例如，确定一张图像中显示的鸟群中的每一只鸟的子类别。现有技术中，并未提供相应的方法，能够确定同一类别的对象的子类别，导致现有技术中确定对象类别的方法的适用范围较窄。

发明内容

本发明实施例的目的在于提供一种确定对象类别的方法、装置、电子设备及存储介质，能够确定同一类别的对象的子类别，可以提高确定对象类别的方法的适用范围。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种确定对象类别的方法，所述方法包括：

获取待识别图像；

基于预先训练的类别预测网络模型，确定所述待识别图像中显示的对象的类别，作为第一类别，其中，所述类别预测网络模型为基于第一训练样本得到的，所述第一训练样本包括第一样本图像和所述第一样本图像中显示的对象的位置和类别；

针对每一所述对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别，其中，所述第一子类别属于所述第一类别，所述子类别预测网络模型为基于第二训练样本得到的，所述第二训练样本包括第二样本图像和所述第二样本图像中显示的对象的子类别，所述第二样本图像中仅显示有一个对象，所述第二样本图像中显示的对象的子类别属于所述第一类别。

可选的，所述基于预先训练的类别预测网络模型，确定所述待识别图像中显示的对象的类别，包括：

如果所述待识别图像的亮度小于第一亮度阈值，将所述待识别图像的亮度提高至目标亮度范围，得到第一图像，其中，所述目标亮度范围的下限值不小于所述第一亮度阈值，所述目标亮度范围的上限值为预设亮度阈值，所述预设亮度阈值大于所述第一亮度阈值；

基于预先训练的类别预测网络模型，确定所述第一图像中显示的对象的类别，作为所述待识别图像中显示的对象的类别。

可选的，在所述基于预先训练的该对象的第一类别对应的子类别预测网络模型，确定该对象的子类别之前，所述方法还包括：

针对每一所述对象，从所述待识别图像中提取该对象所占区域的最小外接矩形对应的图像，作为目标图像；

所述基于预先训练的该对象的第一类别对应的子类别预测网络模型，确定该对象的子类别，包括：

将所述目标图像输入至所述子类别预测网络模型，得到所述子类别预测网络模型输出的子类别编号对应的概率，其中，所述子类别编号与该对象的第一类别所包含的子类别一一对应，所述子类别编号对应的概率表示该对象属于所述子类别编号对应的子类别的概率；

确定对应的概率最大的子类别编号，作为目标子类别编号；

基于预设的子类别编号与子类别的对应关系，确定与所述目标子类别编号对应的子类别，作为该对象的子类别。

可选的，在所述基于预先训练的该对象的第一类别对应的子类别预测网络模型，确定该对象的子类别之后，所述方法还包括：

按照该对象的子类别，在所述待识别图像中对该对象进行标记。

在本发明实施的第二方面，还提供了一种确定对象类别的装置，所述装置包括：

获取模块，用于获取待识别图像；

第一确定模块，用于基于预先训练的类别预测网络模型，确定所述待识别图像中显示的对象的类别，作为第一类别，其中，所述类别预测网络模型为基于第一训练样本得到的，所述第一训练样本包括第一样本图像和所述第一样本图像中显示的对象的位置和类别；

第二确定模块，用于针对每一所述对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别，其中，所述第一子类别属于所述第一类别，所述子类别预测网络模型为基于第二训练样本得到的，所述第二训练样本包括第二样本图像和所述第二样本图像中显示的对象的子类别，所述第二样本图像中仅显示有一个对象，所述第二样本图像中显示的对象的子类别属于所述第一类别。

可选的，所述第一确定模块，具体用于如果所述待识别图像的亮度小于第一亮度阈值，将所述待识别图像的亮度提高至目标亮度范围，得到第一图像，其中，所述目标亮度范围的下限值不小于所述第一亮度阈值，所述目标亮度范围的上限值为预设亮度阈值，所述预设亮度阈值大于所述第一亮度阈值；

可选的，所述装置还包括：

第一处理模块，用于针对每一所述对象，从所述待识别图像中提取该对象所占区域的最小外接矩形对应的图像，作为目标图像；

所述第二确定模块，具体用于将所述目标图像输入至所述子类别预测网络模型，得到所述子类别预测网络模型输出的子类别编号对应的概率，其中，所述子类别编号与该对象的第一类别所包含的子类别一一对应，所述子类别编号对应的概率表示该对象属于所述子类别编号对应的子类别的概率；

确定对应的概率最大的子类别编号，作为目标子类别编号；

可选的，所述装置还包括：

第二处理模块，用于按照该对象的子类别，在所述待识别图像中对该对象进行标记。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的确定对象类别的方法的步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的确定对象类别的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的确定对象类别的方法。

本发明实施例提供的一种确定对象类别的方法，可以获取待识别图像，基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别，作为第一类别，针对每一对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别。

基于上述处理，针对待识别图像中显示的每一对象，在确定该对象的类别之后，可以基于与该对象的类别对应的子类别预测网络模型，确定该对象的子类别，进而，能够确定同一类别的对象的子类别，可以提高确定对象类别的方法的适用范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种确定对象类别的方法的流程图；

图2为本发明实施例中提供的一种确定对象类别的方法的流程图；

图3为本发明实施例中提供的一种确定对象类别的方法的流程图；

图4为本发明实施例中提供的一种确定对象类别的方法示例的流程图；

图5为本发明实施例中提供的一种确定对象类别的方法的系统框图；

图6为本发明实施例中提供的一种确定对象类别的装置的结构图；

图7为本发明实施例中提供的一种确定对象类别的装置的结构图；

图8为本发明实施例中提供的一种确定对象类别的装置的结构图；

图9为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

在确定一张图像中显示的对象的类别时，可能需要确定该图像中显示的属于同一类别的对象的子类别。现有技术中，并未提供相应的方法，能够确定同一类别的对象的子类别，导致现有技术中确定对象类别的方法的适用范围较窄。

为了解决上述问题，本发明实施例提供的一种确定对象类别的方法，该方法可以应用于电子设备，该电子设备可以为服务器，也可以为终端，该电子设备用于确定对象类别。

电子设备可以获取待识别图像，然后，基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别(即第一类别)。针对每一对象，电子设备还可以基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别(即第一子类别)。

可见，针对待识别图像中显示的每一对象，在确定该对象的类别之后，可以基于与该对象的类别对应的子类别预测网络模型，确定该对象的子类别，进而，能够确定同一类别的对象的子类别，可以提高确定对象类别的方法的适用范围。

参见图1，图1为本发明实施例中提供的一种确定对象类别的方法的流程图，该方法包括以下步骤：

S101：获取待识别图像。

可以理解的是，待识别图像中可以显示有一个对象，也可以显示有多个对象。

待识别图像中显示的对象可以为待识别图像中显示的视觉元素，例如，一张显示有狗和猫的图像，该图像中显示的对象包括：狗、猫。

在发明实施例中，在确定待识别图像中显示的对象的类别时，可能需要确定待识别图像中显示的对象的子类别，例如，确定一张图像中显示的猫是布偶猫，还是折耳猫。本发明实施例提供的方法，可以确定待识别图像中显示的对象的子类别。

S102：基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别，作为第一类别。

其中，类别预测网络模型为基于第一训练样本得到的，第一训练样本包括第一样本图像和第一样本图像中显示的对象的位置和类别。

一种实现方式中，第一样本图像中可以显示有多个对象。一个对象的位置可以用该对象在第一样本图像中所占区域的最小外接矩形表示。

在基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别之前，电子设备还可以基于第一训练样本对类别预测网络模型进行训练。

一种实现方式中，电子设备可以将第一样本图像，作为类别预测网络模型的输入参数，将第一样本图像中显示的对象的位置和类别作为对应的输出参数，对类别预测网络模型进行训练，直至类别预测网络模型达到收敛条件，得到训练好的类别预测网络模型。

一种实现方式中，类别预测网络模型可以包括：卷积网络和预测网络。其中，卷积网络和预测网络均可以由多个卷积层构成，构成卷积网络的卷积层和构成预测网络的卷积层的数量和参数不同。

卷积网络可以对待识别图像进行特征提取，得到待识别图像的多个特征向量，并将得到的多个特征向量输入至预测网络。

预测网络可以通过tf.nn.conv2d(二维卷积)函数对得到的多个特征向量进行处理，确定待识别图像中显示的对象的在待识别图像中的位置和类别。

然后，电子设备可以在待识别图像中标记显示的对象的位置和类别，进而，可以得到已标记对象的位置和类别的待识别图像。

示例性的，类别预测网络模型可以确定待识别图像中显示的一个对象所占区域的最小外接矩形，以及该对象的类别为“猫”类别，然后，电子设备可以在待识别图像中标记该对象所占区域的最小外接矩形，并在该最小外接矩形的左上角标记“猫”。

一种实现方式中，为了提高确定出的待识别图像中显示的对象的类别的准确率，类别预测网络模型可以为YOLOv3(You only look once-v3，基于深度学习的端到端的目标检测算法)网络模型。

S103：针对每一对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别。

其中，第一子类别属于第一类别，子类别预测网络模型为基于第二训练样本得到的，第二训练样本包括第二样本图像和第二样本图像中显示的对象的子类别，第二样本图像中仅显示有一个对象，第二样本图像中显示的对象的子类别属于第一类别。

子类别预测网络模型可以为用于进行细粒度分类的网络模型，例如，子类别预测网络模型可以为BCNN(Bilinear Convolutional Neural Networks，双线性卷积神经网络)模型，或者，子类别预测网络模型也可以为SENet(Squeeze-and-Excitation Networks，挤压和激励网络)模型，但并不限于此。

在基于类别预测网络模型确定待识别图像中显示的对象的类别(即第一类别)之后，针对待识别图像中显示的每一对象，电子设备还可以确定与该对象的类别相对应的子类别预测网络模型。

示例性的，如果电子设备确定的待识别图像中显示的对象的类别包括：猫和狗，则电子设备可以确定用于区分“猫”类别所包含的子类别的子类别预测网络模型，即，与“猫”类别相对应的子类别预测网络模型，电子设备还可以确定用于区分“狗”类别所包含的子类别的子类别预测网络模型，即，与“狗”类别相对应的子类别预测网络模型。

在基于与该对象的类别相对应的子类别预测网络模型，确定该对象的子类别之前，电子设备还以基于第二训练样本，对子类别预测网络模型进行训练。

一种实现方式中，电子设备可以将第二样本图像作为子类别预测网络模型的输入参数，将第二样本图像中显示的对象的子类别作为对应的输出参数，对子类别预测网络模型进行训练，直至子类别预测网络模型达到收敛条件，得到训练好的子类别预测网络模型。

示例性的，在对用于区分“猫”类别所包含的子类别的子类别预测网络模型进行训练时，电子设备可以将显示有布偶猫的图像作为子类别预测网络模型的输入参数，将“布偶猫”子类别作为对应的输出参数；将显示有折耳猫的图像作为子类别预测网络模型的输入参数，将“折耳猫”子类别作为对应的输出参数，对子类别预测网络模型进行训练，直至子类别预测网络模型达到收敛条件，得到训练好的子类别预测网络模型。

在训练用于区分“狗”类别所包含的子类别的子类别预测网络模型时，电子设备可以将显示有柯基的图像作为子类别预测网络模型的输入参数，将“柯基”子类别作为对应的输出参数；将显示有吉娃娃的图像作为子类别预测网络模型的输入参数，将“吉娃娃”子类别作为对应的输出参数，对子类别预测网络模型进行训练，直至子类别预测网络模型达到收敛条件，得到训练好的子类别预测网络模型。

然后，电子设备可以根据训练好的子类别预测网络模型，对待识别图像进行处理，得到待识别图像中显示的对象的子类别。

另外，在确定待识别图像中显示的对象的类别之前，电子设备还可以对待识别图像进行预处理。参见图2，图2为本发明实施例中提供的一种确定对象类别的方法的流程图，该方法可以包括以下步骤：

S201：获取待识别图像。

步骤S201与前述步骤S101一致，此处不再赘述。

S202：如果待识别图像的亮度小于第一亮度阈值，将待识别图像的亮度提高至目标亮度范围，得到第一图像。

其中，目标亮度范围的下限值不小于第一亮度阈值，目标亮度范围的上限值为预设亮度阈值，预设亮度阈值大于第一亮度阈值。第一亮度阈值可以由技术人员根据经验设置，例如，第一亮度阈值可以为40，第一亮度阈值也可以为45，但并不限于此。

一种实现方式中，在获取待识别图像之后，电子设备可以将待识别图像转换为灰度图，并计算灰度图的平均亮度，然后，判断计算得到的平均亮度是否小于第一亮度阈值，如果电子设备判定待识别图像对应的灰度图的平均亮度小于第一亮度阈值，电子设备可以基于伽马校正算法，通过伽马函数增加待识别图像的像素值，进而，可以提升待识别图像的亮度，得到亮度提升后的待识别图像(即第一图像)。

可以理解的是，一个图像的亮度可以根据该图像的像素值确定，且一个图像的像素值越大，该图像的亮度越大。

由于伽马函数的函数特性，伽马函数的函数值最大为1，则通过伽马函数增加后的像素值最大为1，像素值1对应的亮度为255，预设亮度阈值即为255。

另外，在提升待识别图像的亮度，得到第一图像之后，电子设备还可以判断第一图像对应的灰度图的平均亮度，是否小于第一亮度阈值，如果小于，电子设备可以对第一图像进行亮度提升处理，直至得到的图像对应的灰度图的平均亮度不小于第一亮度阈值。

当待识别图像的亮度小于第一亮度阈值时，类别预测网络模型在确定待识别图像中显示的对象的类别时，能够提取到的图像特征较少，导致确定出的待识别图像中显示的对象的类别的准确率较低。本发明提供的方法，可以在待识别图像的亮度小于第一亮度阈值时，提升待识别图像的亮度，进而，可以进一步的提高确定出的待识别图像中显示的对象的类别的准确率。

S203：基于预先训练的类别预测网络模型，确定第一图像中显示的对象的类别，作为待识别图像中显示的对象的类别。

在对待识别图像进行亮度提升，得到第一图像之后，电子设备可以基于预先训练的类别预测网络模型，确定第一图像中显示的对象的类别，确定出的类别即为待识别图像中显示的对象的类别。

S204：针对每一对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别。

步骤S204与前述步骤S103一致，此处不再赘述。

另外，在步骤S103之前，针对待识别图像中显示的每一对象，电子设备还可以从待识别图像中提取该对象所占区域的图像。参见图3，图3为本发明实施例中提供的一种确定对象类别的方法的流程图，该方法可以包括以下步骤：

S301：获取待识别图像。

步骤S301与前述步骤S101一致，此处不再赘述。

S302：基于预先训练的类别预测网络模型，确定待识别图像中显示的对象的类别，作为第一类别。

步骤S302与前述步骤S102一致，此处不再赘述。

S303：针对每一对象，从待识别图像中提取该对象所占区域的最小外接矩形对应的图像，作为目标图像。

电子设备在基于类别预测网络模型，确定出待识别图像中显示的对象的位置和类别之后，针对待识别图像中显示的每一对象，电子设备可以按照该对象所占区域的最小外接矩形对待识别图像进行剪切，得到该对象所占区域的最小外接矩形对应的图像(即目标图像)。

另外，电子设备在从待识别图像中提取目标图像之前，针对待识别图像中显示的每一对象，电子设备可以计算该对象所占区域的最小外接矩形的面积，与待识别图像的面积的比值(可以称为面积比值)。然后，电子设备可以判断计算得到的面积比值是否小于预设比值，如果小于，表明该对象在待识别图像中所占的区域较小，该对象在待识别图像中的重要性较低，并不是人眼着重关注的对象，则电子设备可以不提取该对象所占区域的最小外接矩形的图像，进而，可以提高电子设备确定对象类别的效率。

其中，预设比值可以由技术人员根据经验设置，例如，预设比值可以为0.03，预设比值也可以为0.02，但并不限于此。

S304：将目标图像输入至子类别预测网络模型，得到子类别预测网络模型输出的子类别编号对应的概率。

其中，子类别编号与该对象的第一类别所包含的子类别一一对应，子类别编号对应的概率表示该对象属于子类别编号对应的子类别的概率。

一种实现方式中，用于区分不同类别的子类别预测网络模型，可以为相同结构的子类别预测网络模型，也可以为不同结构的子类别预测网络模型。

示例性的，电子设备可以用BCNN模型，区分“猫”类别所包含的子类别，也可以用相同结构的BCNN模型，区分“狗”类别所包含的子类别。

另外，为了提高确定出的待识别图像中显示的对象的子类别的准确率，电子设备可以用BCNN模型区分“猫”类别所包含的子类别，用SENet模型区分“狗”类别所包含的子类别。

在将目标图像输入至子类别预测网络模型，得到子类别预测网络模型输出的子类别编号对应的概率之前，电子设备可以基于第二样本图像，和第二样本图像显示的对象的子类别编号，对子类别预测网络模型进行训练。

一种实现方式中，电子设备可以将第二样本图像作为子类别预测网络模型的输入参数，将第二样本图像中显示的对象的子类别编号作为对应的输出参数，对子类别预测网络模型进行训练，直至子类别预测网络模型达到收敛条件，得到训练好的子类别预测网络模型。

进而，针对待识别图像中显示的每一对象，电子设备可以将该对象对应的目标图像，输入至训练好的与该对象的类别相对应的子类别预测网络模型，得到该子类别预测网络模型输出的子类别编号对应的概率。

一种实现方式中，该子类别预测网络模型可以为BCNN模型，BCNN模型包括：第一卷积网络、第二卷积网络、全连接层和输出层。

其中，第一卷积网络和第二卷积网络可以由相同数量的多个参数相同的卷积层构成，或者，第一卷积网络和第二卷积网络也可以由不同数量的多个参数不同的卷积层构成。当第一卷积网络和第二卷积网络由不同数量的多个参数不同的卷积层构成时，第一卷积网络和第二卷积网络用于提取待识别图像不同的图像特征。

第一卷积网络可以提取该目标图像的图像特征，得到第一特征向量，第二卷积网络可以提取该目标图像的图像特征，得到第二特征向量。

然后，BCNN模型可以计算第一特征向量和第二特征向量的外积，得到目标特征向量，并将目标特征向量输入至全连接层。

全连接层可以对目标特征向量进行映射处理，得到预设长度的目标特征向量，并将预设长度的目标特征向量输入至输出层。

其中，预设长度的目标特征向量中的元素的数目与子类别编号的数目相同。

输出层可以通过softmax(归一化)函数对预设长度的目标特征向量进行回归处理，可以得到子类别编号对应的概率。

示例性的，如果该BCNN模型用于对“猫”类别所包含的子类别进行区分，“猫”类别所包含的子类别可以包括：布偶猫、折耳猫、暹罗猫。“布偶猫”子类别对应的子类别编号为1，“折耳猫”子类别对应的子类别编号为2，“暹罗猫”子类别对应的子类别编号为3，将一个目标图像输入至BCNN模型，BCNN模型可以输出子类别编号1对应的概率为0.5，子类别编号2对应的概率为0.8，子类别编号3对应的概率为0.3。

另一种实现方式中，该子类别预测网络模型可以为SENet模型，SENet模型包括：ResNet(特征提取)网络、SE模块、全连接层和输出层。

ResNet网络可以对目标图像进行特征提取，得到目标图像的多个特征向量(可以称为第三特征向量)，并将第三特征向量输入至SE模块。

SE模块可以确定第三特征向量各自对应的权重，并对第三特征向量进行权重标记，可以得到标记权重后的第三特征向量，并将标记权重后的第三特征向量输入至全连接层。

全连接层可以根据标记权重后的第三特征向量各自的权重，对标记权重后的第三特征向量进行特征融合，得到第四特征向量，并将第四特征向量输入至输出层。

输出层可以通过softmax函数对第四特征向量进行回归处理，可以得到子类别编号对应的概率。

S305：确定对应的概率最大的子类别编号，作为目标子类别编号。

在得到子类别预测网络模型输出的子类别编号对应的概率后，电子设备可以确定概率最大的子类别编号，为该目标图像中显示的对象的子类别编号(即目标子类别编号)。

S306：基于预设的子类别编号与子类别的对应关系，确定与目标子类别编号对应的子类别，作为该对象的子类别。

一种实现方式中，电子设备可以查找用于记录子类别编号与子类别的对应关系的表格(可以称为子类别对照表)，并将与目标子类别编号对应的子类别，作为该对象的子类别。

参见表1，表1为本发明实施例中提供的一种子类别对照表。子类别对照表中记录有子类别编号与子类别的对应关系，子类别编号1对应的子类别为吉娃娃，子类别编号2对应的子类别为拉布拉多，同理，子类别对照表中的子类别编号与子类别一一对应。

表1

子类别编号	子类别
		1	吉娃娃
2	拉布拉多
		3	金毛
4	柯基
		5	博美
6	萨摩耶
		7	哈士奇
8	比熊犬

示例性，如果子类别预测网络模型输出的子类别编号1-8对应的概率分别为：0.5，0.7，0.3，0.9，0.5，0.4，0.8，0.6，则电子设备可以确定子类别编号4为目标子类别编号，子类别编号4对应的“柯基”子类别，即为该对象的子类别。

另外，针对待识别图像中显示的每一对象，在确定出该对象的子类别之后，电子设备还可以按照该对象的子类别，在待识别图像中对该对象进行标记。

可以理解的是，电子设备可以为用户终端，当电子设备为用户终端时，用户终端在确定出某一对象的子类别之后，可以在用户界面中显示确定出的子类别。另外，用户终端还可以显示确定出的子类别的准确率(即子类别预测网络模型输出的该对象的子类别对应子类别编号对应的概率)，供用户参考，进而，可以提高用户体验。

参见图4，图4为本发明实施例中提供的一种确定对象类别的方法示例的流程图，可以包括以下步骤：

S401：获取待识别图像。

S402：如果待识别图像的亮度小于第一亮度阈值，将待识别图像的亮度提高至目标亮度范围，得到第一图像。

其中，目标亮度范围的下限值不小于第一亮度阈值，目标亮度范围的上限值为预设亮度阈值，预设亮度阈值大于第一亮度阈值。

S403：基于预先训练的类别预测网络模型，确定第一图像中显示的对象的类别，作为待识别图像中显示的对象的类别。

S404：针对每一对象，从第一图像中提取该对象所占区域的最小外接矩形对应的图像，作为目标图像。

S405：将目标图像输入至预先训练的与该对象的第一类别相对应的子类别预测网络模型，得到子类别预测网络模型输出的子类别编号对应的概率。

其中，子类别预测网络模型为基于第二训练样本得到的，第二训练样本包括第二样本图像和第二样本图像中显示的对象的子类别，第二样本图像中仅显示有一个对象，第二样本图像中显示的对象的子类别属于第一类别。

子类别编号与该对象的第一类别所包含的子类别一一对应，子类别编号对应的概率表示该对象属于子类别编号对应的子类别的概率。

S406：确定对应的概率最大的子类别编号，作为目标子类别编号。

S407：基于预设的子类别编号与子类别的对应关系，确定与目标子类别编号对应的子类别，作为该对象的子类别。

S408：按照该对象的子类别，在待识别图像中对该对象进行标记。

一种实现方式中，针对待识别图像中显示的每一对象，确定该对象的子类别之后，电子设备还可以在待识别图像中的预设位置标记该对象的子类别名称。

其中，预设位置可以由技术人员根据经验设置。

示例性的，如果子类别预测网络模型确定待识别图像中显示的一个对象的子类别为“折耳猫”，电子设备可以在该对象在待识别图像中所占区域的右上角标记“折耳猫”。

参见图5，图5为本发明实施例中提供的一种确定对象类别的方法的系统框图。该系统可以用于对“猫”类别所包含的子类别，以及“狗”类别包含的子类别进行分类，待识别图像中可以显示有多个猫和狗。

电子设备获取待识别图像后，可以判断待识别图像的亮度，是否小于第一亮度阈值，如果不小于，电子设备可以将待识别图像输入至类别预测网络模型，否则，电子设备可以对待识别图像进行伽马校正，提高待识别图像的亮度，并将亮度提升后的待识别图像输入至类别预测网络模型。

类别预测模块可以确定待识别图像中显示的对象的位置和类别。

过滤模块可以计算待识别图像中显示的对象对应的面积比值(即该对象在待识别图像中所占区域的最小外接矩形的面积，与待识别图像的面积的比值)，并从待识别图像中，提取面积比值不小于预设比值的最小外接矩形的图像(即目标图像)，并将目标图像输入至对应的分类模块，例如，将显示猫的目标图像输入至猫分类模块，将显示狗的目标图像输入至狗分类模块。

猫分类模块可以通过用于区分“猫”类别所包含的子类别的子类别预测网络模型，确定输入的目标图像中显示的猫的子类别编号，狗分类模块可以通过用于区分“狗”类别所包含的子类别的子类别预测网络模型，确定输入的目标图像中显示的狗的子类别编号。

然后，电子设备可以基于预设的子类别编号与子类别的对应关系，确定子类别预测模块输出的子类别编号对应的子类别，为目标图像中显示的对象的子类别，即确定待识别图像中显示的对象的子类别。

基于同一发明构思，参见图6，图6为本发明实施例中提供的一种确定对象类别的装置的结构图，所述装置包括：

获取模块601，用于获取待识别图像；

第一确定模块602，用于基于预先训练的类别预测网络模型，确定所述待识别图像中显示的对象的类别，作为第一类别，其中，所述类别预测网络模型为基于第一训练样本得到的，所述第一训练样本包括第一样本图像和所述第一样本图像中显示的对象的位置和类别；

第二确定模块603，用于针对每一所述对象，基于预先训练的与该对象的第一类别相对应的子类别预测网络模型，确定该对象的子类别，作为第一子类别，其中，所述第一子类别属于所述第一类别，所述子类别预测网络模型为基于第二训练样本得到的，所述第二训练样本包括第二样本图像和所述第二样本图像中显示的对象的子类别，所述第二样本图像中仅显示有一个对象，所述第二样本图像中显示的对象的子类别属于所述第一类别。

可选的，所述第一确定模块602，具体用于如果所述待识别图像的亮度小于第一亮度阈值，将所述待识别图像的亮度提高至目标亮度范围，得到第一图像，其中，所述目标亮度范围的下限值不小于所述第一亮度阈值，所述目标亮度范围的上限值为预设亮度阈值，所述预设亮度阈值大于所述第一亮度阈值；

参见图7，图7为本发明实施例提供的一种确定对象类别的装置结构图，可选的，所述装置还包括：

第一处理模块604，用于针对每一所述对象，从所述待识别图像中提取该对象所占区域的最小外接矩形对应的图像，作为目标图像；

所述第二确定模块603，具体用于将所述目标图像输入至所述子类别预测网络模型，得到所述子类别预测网络模型输出的子类别编号对应的概率，其中，所述子类别编号与该对象的第一类别所包含的子类别一一对应，所述子类别编号对应的概率表示该对象属于所述子类别编号对应的子类别的概率；

确定对应的概率最大的子类别编号，作为目标子类别编号；

参见图8，图8为本发明实施例提供的一种确定对象类别的装置结构图，可选的，所述装置还包括：

第二处理模块605，用于按照该对象的子类别，在所述待识别图像中对该对象进行标记。

基于上述处理，针对待识别图像中显示的每一对象，在确定该对象的类别之后，可以基于与该对象的类别对应的子类别预测网络模型，确定该对象的子类别，进而，能够确定对同一类别的对象的子类别，可以提高确定对象类别的方法的适用范围。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

获取待识别图像；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的确定对象类别的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的确定对象类别的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或基于操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种确定对象类别的方法，其特征在于，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练的类别预测网络模型，确定所述待识别图像中显示的对象的类别，包括：

3.根据权利要求1所述的方法，其特征在于，在所述基于预先训练的该对象的第一类别对应的子类别预测网络模型，确定该对象的子类别之前，所述方法还包括：

确定对应的概率最大的子类别编号，作为目标子类别编号；

4.根据权利要求1所述的方法，其特征在于，在所述基于预先训练的该对象的第一类别对应的子类别预测网络模型，确定该对象的子类别之后，所述方法还包括：

5.一种确定对象类别的装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像；

6.根据权利要求5所述的装置，其特征在于，所述第一确定模块，具体用于如果所述待识别图像的亮度小于第一亮度阈值，将所述待识别图像的亮度提高至目标亮度范围，得到第一图像，其中，所述目标亮度范围的下限值不小于所述第一亮度阈值，所述目标亮度范围的上限值为预设亮度阈值，所述预设亮度阈值大于所述第一亮度阈值；

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

确定对应的概率最大的子类别编号，作为目标子类别编号；

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。