CN110991533B

CN110991533B - 图像识别方法、识别装置、终端设备及可读存储介质

Info

Publication number: CN110991533B
Application number: CN201911219591.0A
Authority: CN
Inventors: 贾玉虎
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-08-04
Anticipated expiration: 2039-12-03
Also published as: CN110991533A

Abstract

本申请提供了一种图像识别方法、识别装置、终端设备及可读存储介质。该方法包括：获取待识别图像，并确定所述待识别图像的全局深度特征；基于所述待识别图像，确定位置指示信息，所述位置指示信息用于指示：若所述待识别图像中包含目标对象，则所述目标对象在所述待识别图像中的位置；确定所述待识别图像中，所述位置指示信息所指示的图像区域的深度特征，得到所述待识别图像的局部深度特征；基于所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别。本申请可以避免采用大量的训练数据以及较长的训练时长来训练深度学习模型，在一定程度上加快终端设备的开发周期。

Description

图像识别方法、识别装置、终端设备及可读存储介质

技术领域

本申请属于图像识别技术领域，尤其涉及一种图像识别方法、识别装置、终端设备及可读存储介质。

背景技术

目前，在对图像的类别进行识别时，往往是在终端设备中布局深度学习模型(比如，AlexNet、VGGNet或者ResNet等)，采用该深度学习模型提取待识别图像的全局深度特征，然后基于该全局深度特征确定图像的类别。

当待识别的各个图像较为相似时，为了能够区分出各个图像的类别，需要深度学习模型提取出能够体现图像细节的深度特征。为了保证深度学习模型能够提取出更多地体现图像细节的深度特征，需要大量的训练数据以及较长的训练时长来训练该深度学习模型，这无疑延长了终端设备的开发周期。

发明内容

有鉴于此，本申请实施例提供了一种图像识别方法、识别装置、终端设备及可读存储介质，在不需要采用大量的训练数据以及较长的训练时长来训练深度学习模型的情况下，就能够识别出较为相似的图像类别，可以在一定程度上加快终端设备的开发周期。

本申请实施例的第一方面提供了一种图像识别方法，包括：

获取待识别图像，并基于第一深度学习模型确定该待识别图像的全局深度特征；

基于上述待识别图像，确定位置指示信息，该位置指示信息用于指示：若上述待识别图像中包含目标对象，则该目标对象在所述待识别图像中的位置；

基于第二深度学习模型确定上述待识别图像中，上述位置指示信息所指示的图像区域的深度特征，以得到上述待识别图像的局部深度特征；

基于上述全局深度特征以及上述局部深度特征，确定上述待识别图像的类别是否为目标类别，该目标类别为包含上述目标对象，且场景为预设场景下的图像的类别。

本申请实施例的第二方面提供了一种图像识别装置，包括：

全局特征模块，用于获取待识别图像，并基于第一深度学习模型确定该待识别图像的全局深度特征；

位置确定模块，用于基于上述待识别图像，确定位置指示信息，该位置指示信息用于指示：若上述待识别图像中包含目标对象，则该目标对象在所述待识别图像中的位置；

局部特征模块，用于基于第二深度学习模型确定上述待识别图像中，上述位置指示信息所指示的图像区域的深度特征，以得到上述待识别图像的局部深度特征；

识别模块，用于基于上述全局深度特征以及上述局部深度特征，确定上述待识别图像的类别是否为目标类别，该目标类别为包含上述目标对象，且场景为预设场景下的图像的类别。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面上述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面上述方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面上述方法的步骤。

由上可见，本申请提供了一种图像识别方法。首先，基于第一深度学习模型确定待识别图像的全局深度特征；其次，确定位置指示信息，该位置指示信息用于指示：若上述待识别图像包含目标对象，则该目标对象可能所在的位置区域；再次，基于第二深度学习模型(该第二深度学习模型可以与上述第一深度学习模型为同一模型)确定上述位置指示信息所指示的图像区域的深度特征，作为上述待识别图像的局部深度特征；最后，基于上述全局深度特征和局部深度特征确定上述待识别图像的类别是否为目标类别，所述目标类别为包含所述目标对象，且场景为预设场景下的图像的类别。

由此可见，本申请所提供的图像识别方法，是基于全局深度特征和目标对象可能所在区域的深度特征来确定待识别图像的类别是否为目标类别，而不单单依赖于全局深度特征。此外，即便各个图像在视觉上较为相似时，但是当为目标类别或者不为目标类别时，上述位置指示信息所指示的图像区域的差距往往比较明显，因此，在这种情况下，不需要全局深度特征体现出待识别图像的细节信息，也不需要上述位置指示信息所指示的图像区域的深度特征体现更多的细节，所以，无需大量的训练数据以及较长的训练时长来训练上述第一以及第二深度学习模型，因此，本申请所提供的上述图像识别方法在不需要采用大量的训练数据以及较长的训练时长来训练深度学习模型的情况下，就能够识别出较为相似的图像类别，可以在一定程度上加快终端设备的开发周期。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1是本申请实施例一提供的一种图像识别方法的流程示意图；

图2是用于执行步骤S102的神经网络模型的训练过程示意图；

图3是本申请实施例一提供的获取用于指示位置指示信息的候选窗的过程示意图；

图4是本申请实施例一提供的P-Net网络的结构示意图；

图5是本申请实施例一提供的R-Net网络的结构示意图；

图6是本申请实施例二提供的另一种图像识别方法的流程示意图；

图7是本申请实施例三提供的一种图像识别装置的结构示意图；

图8是本申请实施例四提供的一种终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

本申请实施例提供的方法可以适用于终端设备，示例性地，该终端设备包括但不限于：智能手机、平板电脑、笔记本、桌上型计算机、云端服务器等。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例一提供的图像识别方法进行描述，请参阅附图1，该确定方法包括：

在步骤S101中，获取待识别图像，并基于第一深度学习模型确定该待识别图像的全局深度特征；

目前，通常采用卷积神经网络(Convolutional Neural Networks，CNN)模型来学习图像的特征，即将整幅图像输入至CNN模型中，得到该CNN模型输出的该图像的全局深度特征。常用的CNN模型有AlexNet模型、VGGNet模型、Google Inception Net模型以及ResNet模型。具体模型架构为现有技术，此处不再赘述。

在该步骤S101中，即可采用现有技术中常用的AlexNet模型、VGGNet模型、GoogleInception Net模型或者ResNet模型等来得到上述待识别图像的全局深度特征。

此外，通过实验证实，对上述待识别图像进行下采样后得到的全局深度特征，与不对上述待识别图像进行下采样，直接将上述待识别图像输入至上述第一深度学习模型所得到的全局深度特征相比，二者较为接近，因此，为了减少运算量，可以先对待识别图像进行下采样，然后再输入至上述第一深度学学习模型中。也即是该步骤S101可以包括：对上述待识别图像进行下采样，将下采样后的图像输入至上述第一深度学习模型，得到该第一深度学习模型输出的上述待识别图像的全局深度特征。

在步骤S102中，基于上述待识别图像，确定位置指示信息，该位置指示信息用于指示：若上述待识别图像中包含目标对象，则该目标对象在上述待识别图像中的位置；

该步骤S102需要估计出若上述待识别图像中包含目标对象，则该目标对象可能存在的位置。本领域技术人员应该能够理解，不管上述待识别图像中是否真的包含目标对象，该步骤S102均需要给出位置指示信息。

根据用户使用终端设备获取待识别图像的习惯，所关注的目标对象通常位于待识别图像的中间区域，因此，待识别图像中间区域的位置信息可以作为上述位置指示信息。

此外，在本申请实施例中，上述位置指示信息可以通过事先训练神经网络模型获得(即：该神经网络模型用于估计输入至该神经网络模型的图像中，目标对象可能存在的位置)，下面参照附图2，论述一种训练神经网络模型的大致过程。

附图2给出了神经网络模型X的训练过程示意图，通过附图2所示的训练过程，可以使得该神经网络模型X能够用于确定植物场景的图像中，花朵可能存在的位置。

如图2所示，可以事先获取N个包含有花朵，且场景为植物场景的样本图像，其中，每个样本图像均对应有标签，将各个样本图像输入至神经网络模型X中，根据该神经网络模型X的输出结果与各个样本图像分别对应的标签，不断调整该神经网络模型X的参数，直至该神经网络模型X能够较为准确地识别出各个样本图像中花朵所在的位置。

通过附图2所示的训练过程，可以使得训练后的神经网络模型X能够识别出植物场景的图像中花朵可能存在的位置。但是，本领域技术人员应该能够理解，当输入至训练后的神经网络模型X中的图像是一张没有花朵的植物场景图像时，或者输入的并非植物场景图像时，该神经网络模型X依然能够给出位置指示信息。

此外，还可以基于建议网络(Proposal Network，P-Net)与改善网络(RefineNetwork，R-Net)级联的方式来确定待识别图像中目标对象可能存在的位置(比如，可以通过训练后的P-Net和R-Net级联的方式来确定输入图像中花朵可能存在的位置)。具体地，可以通过附图3所示的方法来确定位置指示信息。即该步骤S102可以包括以下步骤：

步骤S1021、将上述待识别图像输入至训练后的建议网络P-Net中，该P-Net输出用于指示上述位置指示信息的候选窗；

步骤S1022、基于边界窗回归算法Bounding box regression和非极大值抑制算法NMS对上述P-Net输出的候选窗进行矫正；

步骤S1023、将上述待识别图像以及经过上述Bounding box regression和NMS算法矫正的上述候选窗输入至训练后的改善网络R-Net中，得到上述R-Net输出的再次矫正的侯选窗；

步骤S1024、基于上述Bounding box regression和NMS算法对上述R-Net输出的候选窗进行再次矫正，得到最终的用于指示上述位置指示信息的侯选窗。

本申请实施例的附图4以及附图5论述了一种具体的P-Net以及R-Net网络架构。

如图4所示，为一种具体的P-Net网络架构。输入是3通道的12×12大小的图像。首先，通过10个3×3×3的卷积核，2×2的Max Pooling(stride＝2)，生成10个5×5的特征图；其次，通过16个3×3×10的卷积核，生成16个3×3的特征图；再次，通过32个3×3×16的卷积核，生成32个1×1的特征图；然后，针对32个1×1的特征图，可以通过2个1×1×32的卷积核，生成2个1×1的特征图用于分类；通过7个1×1×32的卷积核，生成9个1×1的特征图用于回归框判断。

如图5所示，为一种具体的R-Net网络架构。输入是3通道的24×24大小的图像。首先，通过28个3×3×3的卷积核和3×3的Max Pooling(stride＝2)后生成28个11×11的特征图；其次，通过48个3×3×28的卷积核和3×3的Max Pooling(stride＝2)后生成48个4×4的特征图；再次，通过64个2×2×48的卷积核后，生成64个3×3的特征图；然后，把3×3×64的特征图转换为128大小的全连接层，接着转换对回归框分类问题转的全连接层，对bounding box的位置回归问题的全连接层。

在步骤S103中，基于第二深度学习模型确定上述待识别图像中，上述位置指示信息所指示的图像区域的深度特征，以得到上述待识别图像的局部深度特征；

该步骤S103的具体执行过程与上述步骤S101大致相同，不同的是，上述步骤S101所依据的图像是整幅待识别图像，该步骤S103所依据的图像是待识别图像中的部分图像区域，即可以将上述位置指示信息所指示的图像区域输入至上述第二深度学习模型，得到该第二深度学习模型输出的深度特征。

与步骤S101相同，为了减少数据运算量，可以对上述位置指示信息所指示的图像区域进行下采样，然后得到下采样后的图像区域的深度特征，作为上述待识别图像的深度特征。

另外，为了减少对终端设备存储空间的占据量，上述第二深度学习模型可以为上述第一深度学习模型，本领域技术人员容易理解，在上述第二深度学习模型与上述第一深度学习模型相同时，能够进一步加快对终端设备的开发周期。

在步骤S104中，基于上述全局深度特征以及上述局部深度特征，确定上述待识别图像的类别是否为目标类别，该目标类别为包含上述目标对象，且场景为预设场景下的图像的类别；

在本申请实施例中，可以采用识别模型(比如，支持向量机SVM分类器)来执行该步骤S104，即将上述全局深度特征以及上述局部深度特征输入至分类器中，基于该分类器来确定待识别图像的类别(比如，分类器可以输出待识别图像的类别是预设类别中的哪一种)，以此来确定该待识别图像是否为目标类别。

本申请实施例一所述的方法，能够较为准确的识别出图像较为相似的各个图像的不同类别，比如，待识别图像为各个盆栽场景下的图像，有的包含有花朵，有的不包含花朵，则，采用本申请实施例一的方案，能够准确识别出各个待识别图像哪个为包含花朵的盆栽场景下的图像，哪个是未包含花朵的盆栽场景下的图像。

需要说明地，在本申请实施例一中列举了盆栽场景，但本领域技术人员可以理解，本申请实施例的图像识别方法的应用场景并不限于盆栽场景识别，本申请实施例的图像识别方法可以应用于待识别的各个图像较为相似的场景中，具体地，本申请实施例一所提供的图像识别方法，是基于全局深度特征和目标对象可能所在区域的深度特征来确定待识别图像的类别是否为目标类别，而不单单依赖全局深度特征。因此，在这种情况下，不需要全局深度特征体现出待识别图像的细节信息，并且，当图像为目标类别或者不为目标类别时，上述位置指示信息所指示的图像区域的差距往往比较明显，因此，上述位置指示信息所指示的图像区域的深度特征也不需要体现更多的细节，所以，也不需要大量的训练数据以及较长的训练时长来训练上述第一以及第二深度学习模型，因此，本申请所提供的上述图像识别方法可以在一定程度上加快终端设备的开发周期。

实施例二

下面对本申请实施例二提供的另一种图像识别方法进行描述，请参阅附图6，该方法包括：

在步骤S201中，获取待识别图像，并基于第一深度学习模型确定该待识别图像的全局深度特征；

在步骤S202中，基于上述待识别图像，确定位置指示信息，该位置指示信息用于指示：若上述待识别图像中包含目标对象，则该目标对象在上述待识别图像中的位置；

在步骤S203中，基于第二深度学习模型确定上述待识别图像中，上述位置指示信息所指示的图像区域的深度特征，以得到上述待识别图像的局部深度特征；

上述步骤S201-S203的具体执行方式与实施例一中的步骤S101-S103完全相同，具体可参加实施例一的描述，此处不再赘述。

在步骤S204中，确定上述待识别图像的人工特征，并基于该人工特征、上述全局深度特征以及上述局部深度特征，确定上述待识别图像的类别是否为目标类别，该目标类别为包含上述目标对象，且场景为预设场景下的图像的类别；

与实施例一不同的是，该实施例二进一步还依赖待识别图像的人工特征来确定待识别图像的类别。该人工特征可以为颜色直方图特征、纹理描述符特征、空间包络特征、尺度不变特征变换和/或定向梯度直方图特征等等。

下面详细描述本方案中几种人工特征：

1)、颜色直方图特征：颜色直方图特征可以应用于图像检索和场景分类中,其具备简单有效、易于计算特点，颜色直方图特征的主要优点是它们对于围绕视轴的平移和旋转是不变的。颜色直方图特征对小的照明变化和量化误差也很敏感。

2)、纹理描述符特征：常见的纹理描述符特征有灰度共生矩阵、Gabor特征以及局部二值模式特征等，纹理描述符特征对于识别纹理场景图像识别非常有效，尤其是具备重复排列特性的纹理图像场景。

3)、空间包络特征：空间包络特征提供了用于表示场景的主要尺度和方向的空间结构的全局描述，具体而言，在标准空间包络特征中，首先使用多个可操纵的金字塔滤波器对图像进行卷积，然后，将图像分成4×4网格，为其提取方位直方图。由于其简单和高效，空间包络特征广泛用于场景表示。

4)、尺度不变特征变换：尺度不变特征变换通过围绕识别的关键点的梯度信息描述子区域。标准尺度不变特征变换，也称为稀疏尺度不变特征变换，是关键点检测和基于直方图的梯度表示的组合。它通常有四个步骤，即尺度空间极值搜索，子像素关键点细化，主导方向分配和特征描述。除了稀疏尺度不变特征变换之外，还存在密集尺度不变特征变换，例如加速鲁棒特征(Speed Up Robust Features，SURF)。尺度不变特征变换具有高度的独特性，并且对于比例、旋转和照明的变化不变。

5)、定向梯度直方图特征：定向梯度直方图特征通过计算空间分布子区域中梯度强度和方向的分布来表示对象，这已被公认为捕获对象的边缘或局部形状信息的最佳特征之一。

具体地人工特征的选取可以根据图像识别的应用场景来确定。以上所述的人工特征，每个人工特征在特定的情景下使用都有助于提升识别率。通常来说，利用深度学习模型得到的深度特征能够在一定程度上反映出图像的纹理，因此，为了更好的对图像类别进行识别，该步骤S204所述的人工特征可以选取为纹理描述符特征之外的一特征，比如颜色直方图特征。

本领域技术人员应该理解，虽然在本申请实施例二中，获取人工特征的步骤是在步骤S204，但是，本申请并不对“获取人工特征”的具体执行顺序进行限定。

在本申请实施例二中，上述“基于该人工特征、上述全局深度特征以及上述局部深度特征，确定上述待识别图像的类别是否为目标类别”可以包括：

将上述人工特征、全局深度特征和所述局部深度特征进行拼接，得到特征向量；

将上述特征向量输入至训练后的识别模型，得到该识别模型输出的用于指示上述待识别图像类别的识别结果。

本申请实施例二相比于实施例一，还进一步依赖了待识别图像的人工特征，因此，相比于实施例一可以在一定程度上更加准确地识别待识别图像的类别。

实施例三

本申请实施例三提供了一种图像识别装置。为了便于说明，仅示出与本申请相关的部分，如图7所示，该图像识别装置300包括：

全局特征模块301，用于获取待识别图像，并基于第一深度学习模型确定所述待识别图像的全局深度特征；

位置确定模块302，用于基于所述待识别图像，确定位置指示信息，所述位置指示信息用于指示：若所述待识别图像中包含目标对象，则所述目标对象在所述待识别图像中的位置；

局部特征模块303，用于基于第二深度学习模型确定所述待识别图像中，所述位置指示信息所指示的图像区域的深度特征，以得到所述待识别图像的局部深度特征；

识别模块304，用于基于所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别，所述目标类别为包含所述目标对象，且场景为预设场景下的图像的类别。

可选地，上述位置确定模块302，包括：

P-Net单元，用于将所述待识别图像输入至训练后的建议网络P-Net中，所述P-Net输出用于指示所述位置指示信息的候选窗；

矫正单元，用于基于边界窗回归算法Bounding box regression和非极大值抑制算法NMS对所述P-Net输出的候选窗进行矫正；

R-Net单元，用于将所述待识别图像以及经过所述Bounding box regression和NMS算法矫正的所述候选窗输入至训练后的改善网络R-Net中，得到所述R-Net输出的再次矫正的侯选窗；

再次矫正单元，用于基于所述Bounding box regression和NMS算法对所述R-Net输出的候选窗进行再次矫正，得到最终的用于指示所述位置指示信息的侯选窗。

可选地，上述全局特征模块301具体用于：

对所述待识别图像进行下采样，将下采样后的图像输入至所述第一深度学习模型，得到所述第一深度学习模型输出的所述待识别图像的全局深度特征。

可选地，上述图像识别装置300还包括：

人工特征模块，用于确定所述待识别图像的人工特征；

相应地，上述识别模块304具体用于：

基于所述人工特征、所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别。

可选地，上述识别模块304包括：

拼接单元，用于将所述人工特征、全局深度特征和所述局部深度特征进行拼接，得到特征向量；

识别单元，用于将所述特征向量输入至训练后的识别模型，得到所述识别模型输出的用于指示所述待识别图像类别的识别结果。

可选地，上述人工特征模块具体用于：

确定所述待识别图像的的颜色直方图特征。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例一以及方法实施例二基于同一构思，其具体功能及带来的技术效果，具体可参见相应方法实施例部分，此处不再赘述。

实施例四

图8是本申请实施例四提供的终端设备的示意图。如图8所示，该实施例的终端设备400包括：处理器401、存储器402以及存储在上述存储器402中并可在上述处理器401上运行的计算机程序403。上述处理器401执行上述计算机程序403时实现上述各个方法实施例中的步骤。或者，上述处理器401执行上述计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性的，上述计算机程序403可以被分割成一个或多个模块/单元，上述一个或者多个模块/单元被存储在上述存储器402中，并由上述处理器401执行，以完成本申请。上述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序403在上述终端设备400中的执行过程。例如，上述计算机程序403可以被分割成全局特征模块、位置确定模块、局部特征模块以及识别模块，各模块具体功能如下：

上述终端设备可包括，但不仅限于，处理器401、存储器402。本领域技术人员可以理解，图8仅仅是终端设备400的示例，并不构成对终端设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如上述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器402可以是上述终端设备400的内部存储单元，例如终端设备400的硬盘或内存。上述存储器402也可以是上述终端设备400的外部存储设备，例如上述终端设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器402还可以既包括上述终端设备400的内部存储单元也包括外部存储设备。上述存储器402用于存储上述计算机程序以及上述终端设备所需的其它程序和数据。上述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述各个方法实施例中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别图像，并基于第一深度学习模型确定所述待识别图像的全局深度特征；

基于所述待识别图像，确定位置指示信息，所述位置指示信息用于指示：若所述待识别图像中包含目标对象，则所述目标对象在所述待识别图像中的位置；

基于第二深度学习模型确定所述待识别图像中，所述位置指示信息所指示的图像区域的深度特征，以得到所述待识别图像的局部深度特征；

基于所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别，所述目标类别为包含所述目标对象，且场景为预设场景下的图像的类别；

所述基于所述待识别图像，确定位置指示信息，包括：

将所述待识别图像输入至训练后的建议网络P-Net中，所述P-Net输出用于指示所述位置指示信息的候选窗；

基于边界窗回归算法Bounding box regression和非极大值抑制算法NMS对所述P-Net输出的候选窗进行矫正；

将所述待识别图像以及经过所述基于边界窗回归算法Bounding box regression和非极大值抑制算法NMS算法矫正的所述候选窗输入至训练后的改善网络R-Net中，得到所述R-Net输出的再次矫正的侯选窗；

基于所述基于边界窗回归算法Bounding box regression和非极大值抑制算法NMS算法对所述R-Net输出的候选窗进行再次矫正，得到最终的用于指示所述位置指示信息的侯选窗。

2.如权利要求1所述的图像识别方法，其特征在于，所述基于第一深度学习模型确定所述待识别图像的全局深度特征，包括：

3.如权利要求1至2中任一项所述的图像识别方法，其特征在于，所述图像识别方法还包括：

确定所述待识别图像的人工特征；

相应地，所述基于所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别，包括：

4.如权利要求3所述的图像识别方法，其特征在于，所述基于所述人工特征、所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别，包括：

将所述人工特征、全局深度特征和所述局部深度特征进行拼接，得到特征向量；

将所述特征向量输入至训练后的识别模型，得到所述识别模型输出的用于指示所述待识别图像类别的识别结果。

5.如权利要求3所述的图像识别方法，其特征在于，所述确定所述待识别图像的人工特征包括：

确定所述待识别图像的颜色直方图特征。

6.一种图像识别装置，其特征在于，包括：

全局特征模块，用于获取待识别图像，并基于第一深度学习模型确定所述待识别图像的全局深度特征；

位置确定模块，用于基于所述待识别图像，确定位置指示信息，所述位置指示信息用于指示：若所述待识别图像中包含目标对象，则所述目标对象在所述待识别图像中的位置；

局部特征模块，用于基于第二深度学习模型确定所述待识别图像中，所述位置指示信息所指示的图像区域的深度特征，以得到所述待识别图像的局部深度特征；

识别模块，用于基于所述全局深度特征以及所述局部深度特征，确定所述待识别图像的类别是否为目标类别，所述目标类别为包含所述目标对象，且场景为预设场景下的图像的类别；

所述位置确定模块，包括：

R-Net单元，用于将所述待识别图像以及经过所述边界窗回归算法Bounding boxregression和非极大值抑制算法NMS算法矫正的所述候选窗输入至训练后的改善网络R-Net中，得到所述R-Net输出的再次矫正的侯选窗；

再次矫正单元，用于基于所述边界窗回归算法Bounding box regression和非极大值抑制算法NMS算法对所述R-Net输出的候选窗进行再次矫正，得到最终的用于指示所述位置指示信息的侯选窗。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述图像识别方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述图像识别方法的步骤。