CN111178364A

CN111178364A - 一种图像识别方法和装置

Info

Publication number: CN111178364A
Application number: CN201911414589.9A
Authority: CN
Inventors: 郭晓锋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本发明实施例提供了一种图像识别方法和装置，方法包括：对待识别图像进行特征提取，得到待识别图像特征；基于预先训练的图像识别模型中的分类子模型，对待识别图像特征进行分类处理，其中，图像识别模型还包括图像分割子模型，图像分割子模型用于对图像进行图像分割，图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的；基于分类子模型的输出结果，确定待识别图像中待识别对象的类别。基于上述处理，能够提高图像识别的效率和精度。

Description

一种图像识别方法和装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像识别方法和装置。

背景技术

随着计算机技术的快速发展，图像识别的应用也越来越广泛。基于图像识别技术，可以对待识别的图像进行特征提取，进而，根据提取到的图像特征，确定该图像中显示的对象的类别。

例如，对显示有狗的图像进行识别，能够确定出该图像中显示的对象的类别为“狗”。另外，可能需要进一步确定出图像中显示的对象的子类别，针对上述示例，还需要进一步确定出上述图像中显示的狗的具体品种，例如，可以确定该图像中显示的是哈士奇，还是萨摩耶，还是阿拉斯加等。相关技术中，可以首先基于目标检测算法，确定出图像中显示的目标对象(即，狗)所占的图像区域，进而，可以根据确定出的图像区域的图像特征，进一步，确定显示的狗的子类别。

可见，相关技术中，在识别图像中显示的对象之前，需要先基于目标检测算法，确定对象所占的图像区域，会降低图像识别的效率，另外，目标检测算法的精度较低，也会降低图像识别的精度。

发明内容

本发明实施例的目的在于提供一种图像识别方法和装置，以提高图像识别的效率和精度。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图像识别方法，所述方法包括：

对待识别图像进行特征提取，得到待识别图像特征；

基于预先训练的图像识别模型中的分类子模型，对所述待识别图像特征进行分类处理，其中，所述图像识别模型还包括图像分割子模型，所述图像分割子模型用于对图像进行图像分割，所述图像识别模型的损失函数为基于所述分类子模型的损失函数和所述图像分割子模型的损失函数确定的；

基于所述分类子模型的输出结果，确定所述待识别图像中待识别对象的类别。

可选的，所述分类子模型的输出结果包括所述待识别图像中待识别对象属于预设各类别的概率；

所述基于所述分类子模型的输出结果，确定所述待识别图像中待识别对象的类别，包括：

将所述预设各类别中概率最大对应的类别，确定为所述待识别图像中待识别对象的类别。

可选的，所述图像识别模型还包括特征提取子模型；

所述图像识别模型的训练过程包括：

基于所述特征提取子模型对样本图像进行特征提取，得到样本图像特征；

将所述样本图像特征输入至所述分类子模型，得到所述分类子模型的第一损失函数；

将所述样本图像特征输入至所述图像分割子模型，得到所述图像分割子模型的第二损失函数；

基于预设权重，对所述第一损失函数和所述第二损失函数进行加权求和；

基于加权求和的结果，对所述图像识别模型的模型参数进行调整，直至所述图像识别模型达到预设收敛条件。

可选的，所述将所述样本图像特征输入至所述图像分割子模型，得到所述图像分割子模型的第二损失函数，包括：

将所述样本图像特征输入至所述图像分割子模型；

基于所述图像分割子模型的输出结果，以及标记的所述样本图像中的像素点属于所述样本图像显示的对象的概率，生成所述图像分割子模型的损失函数，作为第二损失函数。

在本发明实施的第二方面，还提供了一种图像识别装置，所述装置包括：

特征提取模块，用于对待识别图像进行特征提取，得到待识别图像特征；

处理模块，用于基于预先训练的图像识别模型中的分类子模型，对所述待识别图像特征进行分类处理，其中，所述图像识别模型还包括图像分割子模型，所述图像分割子模型用于对图像进行图像分割，所述图像识别模型的损失函数为基于所述分类子模型的损失函数和所述图像分割子模型的损失函数确定的；

确定模块，用于基于所述分类子模型的输出结果，确定所述待识别图像中待识别对象的类别。

所述确定模块，具体用于将所述预设各类别中概率最大对应的类别，确定为所述待识别图像中待识别对象的类别。

可选的，所述图像识别模型还包括特征提取子模型；

所述装置还包括：

训练模块，用于基于所述特征提取子模型对样本图像进行特征提取，得到样本图像特征；

可选的，所述训练模块，具体用于将所述样本图像特征输入至所述图像分割子模型；

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像识别方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的图像识别方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像识别方法。

本发明实施例提供的一种图像识别方法，对待识别图像进行特征提取，得到待识别图像特征；基于预先训练的图像识别模型中的分类子模型，对待识别图像特征进行分类处理，其中，图像识别模型还包括图像分割子模型，图像分割子模型用于对图像进行图像分割，图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的；基于分类子模型的输出结果，确定待识别图像中待识别对象的类别。

基于上述处理，由于图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的，而图像分割子模型能够基于图像分割，确定图像中的像素点属于显示的对象的概率，进而，确定出图像中显示的对象所占的图像区域，相应的，基于训练好的图像识别模型，能够实现基于图像中显示的对象所占的图像区域，确定对象的类别，且基于本发明实施例提供的方法，在对图像进行识别时，并不需要先基于目标检测算法，确定图像中显示的对象所占的图像区域，直接基于图像识别模型中的分类子模型进行处理，就能够确定对象的类别，进而，能够提高图像识别的效率和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种图像识别方法的流程图；

图2为本发明实施例中提供的一种待识别图像与图像分割结果的对照示意图；

图3为本发明实施例中提供的一种图像识别模型的结构图；

图4为本发明实施例中提供的一种图像识别模型训练方法的流程图；

图5为本发明实施例中提供的一种图像识别装置的结构图；

图6为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

相关技术中，在识别图像中显示的对象之前，需要先基于目标检测算法，确定对象所占的图像区域，会降低图像识别的效率。

为了解决上述问题，本发明实施例提供了一种图像识别方法，该方法可以包括以下步骤：

S101：对待识别图像进行特征提取，得到待识别图像特征。

S102：基于预先训练的图像识别模型中的分类子模型，对待识别图像特征进行分类处理。

其中，图像识别模型还包括图像分割子模型，图像分割子模型用于对图像进行图像分割，图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的。

S103：基于分类子模型的输出结果，确定待识别图像中待识别对象的类别。

基于本发明实施例提供的图像识别方法，由于图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的，而图像分割子模型能够基于图像分割，确定图像中的像素点属于显示的对象的概率，进而，确定出图像中显示的对象所占的图像区域，相应的，基于训练好的图像识别模型，能够实现基于图像中显示的对象所占的图像区域，确定对象的类别，且基于本发明实施例提供的方法，在对图像进行识别时，并不需要先基于目标检测算法，确定图像中显示的对象所占的图像区域，直接基于图像识别模型中的分类子模型进行处理，就能够确定对象的类别，进而，能够提高图像识别的效率。

另外，相关技术中，目标检测算法的精确度较低可能会降低图像识别的准确度，基于本发明实施例提供的图像识别方法，由于不需要采用目标检测算法进行检测，进而，能够提高图像识别的准确度。

在步骤S101中，可以基于神经网络模型对待识别图像进行特征提取。

一种实现方式中，可以基于卷积神经网络(CNN，Convolutional NeuralNetworks)，对待识别图像进行特征提取，得到待识别图像的图像特征(即待识别图像特征)。

例如，可以采用ResNet(Residual Network，残差网络)对待识别图像进行特征提取，得到大小为W×H×C的特征图像，其中，W表示特征图像的宽度，H表示特征图像的高度，C表示ResNet的通道的个数。

在步骤S102中，图像识别模型可以包括分类子模型和图像分割子模型。

分类子模型可以根据接收到的图像特征，确定图像中显示的对象属于预设各类别的概率。

一种实现方式中，分类子模型可以包含多个卷积层、多个池化层以及归一化层，归一化层可以为softmax层。基于卷积层对待识别图像特征进行卷积处理，并将卷积处理的结果输入至池化层，然后，基于归一化层对池化层的输出结果进行处理，得到预设各类别的置信度，即，待识别图像中显示的对象属于预设各类别的概率。

分类子模型的损失函数(即第一损失函数)可以采用交叉熵函数，例如，第一损失函数可以采用公式(1)。

Loss_cls表示第一损失函数，y_j表示对分类子模型进行训练时采用的样本图像的标签，样本图像的标签能够表示样本图像是否属于预设各类别，T表示预设各类别的数目，s_j表示分类子模型对样本图像的图像特征进行处理得到的结果。

图像分割子模型可以根据接收到的图像特征，确定图像中每一像素点属于该图像中显示的对象的概率。例如，一图像中显示的对象为鸟，基于图像分割子模型，能够确定出该图像中每一像素点属于鸟所占的图像区域的概率。即，能够确定出图像中显示的对象所占的图像区域。例如，图像分割子模型可以基于FCN(Fully Convolutional Networks，全卷积网络)进行图像分割处理。

参见图2，图2中左侧为待识别图像，待识别图像中显示有鸟，图像分割子模型可以根据待识别图像的图像特征，得到右侧所示的图像分割结果，根据右侧的图像分割结果，能够确定待识别图像中待识别对象所占的图像区域。

一种实现方式中，图像分割子模型可以包含多个卷积层、多个池化层。

基于卷积层对待识别图像特征进行卷积处理，并将卷积处理的结果输入至池化层，然后，基于池化层的输出结果，得到待识别图像对应的图像分割结果，该图像分割结果能够体现待识别图像中待识别对象所占的图像区域。

图像分割子模型的损失函数(即第二损失函数)也可以采用交叉熵函数，与上述第一损失函数类似，此处不再赘述。

可选的，分类子模型的输出结果包括待识别图像中待识别对象属于预设各类别的概率。

相应的，S103可以包括以下步骤：将预设各类别中概率最大对应的类别，确定为待识别图像中待识别对象的类别。

例如，待识别图像中待识别对象为狗，预设各类别包括哈士奇、萨摩耶、阿拉斯基、哈巴狗、牧羊犬。

分类子模型输出的结果可以为(0.3,0.9,0.5,0.2,0.3)，由于“萨摩耶”类别对应的0.9为最大值，因此，可以确定待识别图像中显示的狗的类别为萨摩耶。

可选的，为了提高图像识别的效率，可以采用端到端的方式对图像识别模型进行训练。图像识别模型还可以包括特征提取子模型，参见图3，图3为本发明实施例提供的一种图像识别模型的结构图。

特征提取子模型可以对输入的图像进行特征提取，得到对应的图像特征。

分类子模型可以获取特征提取子模型输出的图像特征，并根据图像特征，确定图像中显示的对象的类别。

图像分割子模型可以获取特征提取子模型输出的图像特征，并根据图像特征，确定图像中显示的对象所占的图像区域。

整个图像识别模型的损失函数，可以为分类子模型的第一损失函数与图像分割子模型的第二损失函数的加权和。

相应的，针对图3所示的图像识别模型，参见图4，该图像识别模型的训练方法可以包括以下步骤：

S401：基于特征提取子模型对样本图像进行特征提取，得到样本图像特征。

S402：将样本图像特征输入至分类子模型，得到分类子模型的第一损失函数。

S403：将样本图像特征输入至图像分割子模型，得到图像分割子模型的第二损失函数。

S404：基于预设权重，对第一损失函数和第二损失函数进行加权求和。

S405：基于加权求和的结果，对图像识别模型的模型参数进行调整，直至图像识别模型达到预设收敛条件，得到训练好的图像识别模型。

其中，样本图像具有相应的标签，样本图像的标签能够表示样本图像是否属于预设各类别。

例如，预设各类别包括哈士奇、萨摩耶、阿拉斯基、哈巴狗、牧羊犬。如果样本图像中显示的为哈士奇，则该样本图像的标签可以为(1,0,0,0,0)，如果该样本图像中显示的为牧羊犬，则该样本图像的标签可以为(0,0,0,0,1)。

一种实现方式中，在根据特征提取子模型得到样本图像的图像特征(即样本图像特征)后，可以分别将样本图像特征输入至分类子模型和图像分割子模型，得到各自的损失函数(即第一损失函数和第二损失函数)。

可选的，步骤S403可以包括以下步骤：将样本图像特征输入至图像分割子模型；基于图像分割子模型的输出结果，以及标记的样本图像中的像素点属于样本图像显示的对象的概率，生成图像分割子模型的损失函数，作为第二损失函数。

一种实现方式中，图像分割子模型的输出结果可以包括，样本图像中的像素点属于显示的对象的概率。另外，针对样本图像中属于显示的对象的像素点，可以预先标记该像素点属于样本图像显示的对象的概率为1；针对样本图像中不属于显示的对象的像素点，可以预先标记该像素点属于样本图像显示的对象的概率为0。

进而，可以基于图像分割子模型的输出结果和标记的概率，得到图像分割子模型的损失函数(即第二损失函数)。

然后，基于第一损失函数和第二损失函数，得到图像识别模型的损失函数，进而，可以根据图像识别模型的损失函数，对图像识别模型的模型参数进行调整。也即，对特征提取子模型、分类子模型和图像分割子模型的模型参数进行调整。

基于图像识别模型的损失函数，可以采用随机梯度下降算法，对图像识别模型的模型参数进行调整，直至达到预设收敛条件，例如，损失函数的值小于预设阈值，或者，训练的次数达到预设次数，进而，得到训练好的图像识别模型。

基于上述处理，可以采用端到端的方式对图像识别模型进行训练，能够提高模型部署的效率，进而，能够提高图像识别的效率。

相应的，可以将待识别图像输入至训练好的图像识别模型中的特征提取子模型，并基于分类子模型对特征提取子模型的输出的待识别图像特征进行分类处理，得到待识别图像中显示的对象属于预设各类别的概率，进而，能够确定出待识别图像中显示的对象的类别，而不需要基于图像分割子模型对待识别图像特征进行处理，进而，能够提高图像识别的效率。

一种实现方式中，可以根据预设公式，对第一损失函数和第二损失函数进行加权求和。

其中，预设公式可以为：

Loss＝Loss_cls+αLoss_seg

Loss表示对第一损失函数和第二损失函数进行加权求和的结果，即，图像识别模型的损失函数，Loss_cls表示分类子模型的第一损失函数，Loss_seg表示图像分割子模型的第二损失函数，α表示预设超参数，α的值可以由技术人员根据经验进行设置，例如，α可以为小于等于1的正数。

基于上述预设公式，能够根据待识别图像，有效地调整第一损失函数和第二损失函数在图像识别模型的损失函数中所占的比重，进而，使得本发明实施例提供的图像识别模型，能够适用于不同类型的待识别图像，提高图像识别模型的识别准确度。

基于相同的发明构思，参见图5，本发明实施例还提供了一种图像识别装置，所述装置包括：

特征提取模块501，用于对待识别图像进行特征提取，得到待识别图像特征；

处理模块502，用于基于预先训练的图像识别模型中的分类子模型，对所述待识别图像特征进行分类处理，其中，所述图像识别模型还包括图像分割子模型，所述图像分割子模型用于对图像进行图像分割，所述图像识别模型的损失函数为基于所述分类子模型的损失函数和所述图像分割子模型的损失函数确定的；

确定模块503，用于基于所述分类子模型的输出结果，确定所述待识别图像中待识别对象的类别。

所述确定模块503，具体用于将所述预设各类别中概率最大对应的类别，确定为所述待识别图像中待识别对象的类别。

可选的，所述图像识别模型还包括特征提取子模型；

所述装置还包括：

基于本发明实施例提供的图像识别装置，由于图像识别模型的损失函数为基于分类子模型的损失函数和图像分割子模型的损失函数确定的，而图像分割子模型能够基于图像分割，确定图像中的像素点属于显示的对象的概率，进而，确定出图像中显示的对象所占的图像区域，相应的，基于训练好的图像识别模型，能够实现基于图像中显示的对象所占的图像区域，确定对象的类别，且基于本发明实施例提供的装置，在对图像进行识别时，并不需要先基于目标检测算法，确定图像中显示的对象所占的图像区域，直接基于图像识别模型中的分类子模型进行处理，就能够确定对象的类别，进而，能够提高图像识别的效率和精度。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

对待识别图像进行特征提取，得到待识别图像特征；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图像识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

对待识别图像进行特征提取，得到待识别图像特征；

2.根据权利要求1所述的方法，其特征在于，所述分类子模型的输出结果包括所述待识别图像中待识别对象属于预设各类别的概率；

3.根据权利要求1所述的方法，其特征在于，所述图像识别模型还包括特征提取子模型；

所述图像识别模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述样本图像特征输入至所述图像分割子模型，得到所述图像分割子模型的第二损失函数，包括：

将所述样本图像特征输入至所述图像分割子模型；

5.一种图像识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述分类子模型的输出结果包括所述待识别图像中待识别对象属于预设各类别的概率；

7.根据权利要求5所述的装置，其特征在于，所述图像识别模型还包括特征提取子模型；

所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块，具体用于将所述样本图像特征输入至所述图像分割子模型；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。