CN109829456A

CN109829456A - 图像识别方法、装置及终端

Info

Publication number: CN109829456A
Application number: CN201711180320.XA
Authority: CN
Inventors: 李峰; 左小祥; 陈家君; 李昊沅; 曾维亿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2019-05-31
Anticipated expiration: 2037-11-23
Also published as: CN109829456B; WO2019101021A1

Abstract

本发明实施例公开了一种图像识别方法、装置及终端。该方法包括：采用图像检测模型检测目标图像中的目标候选区域，目标候选区域为包含目标的图像块；当从目标图像中检测出目标候选区域时，提取目标候选区域；采用图像识别模型基于目标候选区域进行图像识别，得到目标图像的识别结果。在本发明实施例中，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

Description

图像识别方法、装置及终端

技术领域

本发明实施例涉及机器学习技术领域，特别涉及一种图像识别方法、装置及终端。

背景技术

图像识别技术是指识别出图像所包括的物体的技术，是一种常见的图像处理的方式。

相关技术中，终端先采用样本集对卷积神经网络(Convolutional NeuralNetwork，CNN)进行训练，得到图像识别模型，之后将待识别的图像输入上述训练好的图像识别模型，由图像识别模型对图像进行识别，并输出识别结果。

相关技术中仅采用一个图像识别模型对图像进行识别，当待识别的物体在图像中所占的比例较小时，会出现识别错误或者无法识别的情况。

发明内容

本发明实施例提供了一种图像识别方法、装置及终端，用以解决相关技术中所存在的当待识别的物体在图像中所占的比例较小时，会出现识别错误或者无法识别的情况的问题。所述技术方案如下：

第一方面，提供了一种图像识别方法，所述方法包括：

采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标的图像块；

当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

第二方面，提供了一种图像识别装置，所述装置包括：

图像检测模块，用于采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标的图像块；

区域提取模块，用于当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

图像识别模块，用于采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

可选地，所述图像检测模块，包括：

概率获取单元，用于采用所述图像检测模型获取所述目标图像中的每一个像素为目标的概率；

区域确定单元，用于根据各个像素对应的概率确定所述目标候选区域，所述目标候选区域包括概率大于预设阈值的像素。

可选地，所述区域确定单元，用于：

根据各个像素对应的概率获取符合第一预设条件的图像块，将所述符合第一预设条件的图像块确定为目标图像块，其中，所述第一预设条件是指包含连续的预设数量的目标像素，所述目标像素是指概率大于预设阈值的像素；

将包含所述目标图像块且符合第二预设条件的矩形区域确定为所述目标候选区域，所述第二预设条件为所述目标图像块在矩形区域内的占比大于预设比例。

可选地，所述图像识别模块，用于：

采用所述图像识别模型对所述目标候选区域进行特征提取，得到所述目标候选区域的图像特征；

采用所述图像识别模型获取所述目标候选区域的图像特征与各个预设的识别结果的图像特征之间的匹配程度；

将匹配程度符合第三预设条件的识别结果确定为所述目标图像的识别结果。

可选地，所述图像识别模块，用于：

对所述目标候选区域进行预处理，得到处理后的目标候选区域，所述处理后的目标候选区域的分辨率达到预设分辨率；

采用所述图像识别模型对所述处理后的目标候选区域进行特征提取，得到所述处理后的目标候选区域的图像特征；

采用所述图像识别模型获取所述处理后的目标候选区域的图像特征与各个预设的识别结果的图像特征之间的匹配程度；

可选地，所述图像检测模型包括卷积层、激活层、池化层、上卷积层和拼接层；所述卷积层用于对所述目标图像、所述激活层的输出、所述池化层的输出、所述拼接层的输出执行卷积操作；所述激活层用于对所述卷积层的输出执行激活操作，并输出被标记出所述目标候选区域的所述目标图像；所述池化层用于对所述激活层的输出执行最大值池化操作；所述上卷积层用于对所述激活层的输出执行上卷积操作；所述拼接层用于对所述激活层的输出和所述上卷积层的输出执行拼接操作。

可选地，所述图像识别模型包括卷积层、激活层和池化层；所述卷积层用于对所述目标候选区域、所述激活层的输出和所述池化层的输出执行卷积操作；所述激活层用于对所述卷积层的输出执行激活操作，并输出所述目标图像的识别结果；所述池化层用于对所述激活层的输出执行最大值池化操作。

可选地，所述装置还包括：

比例获取模块，用于获取所述目标候选区域占所述目标图像的比例；

所述图像识别模块，还用于若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。

可选地，所述装置还包括：

第一获取模块，用于获取第一训练样本集，所述第一训练样本集包含多张第一训练样本，每张所述第一训练样本被标记出包括所述目标的区域和/或不包括所述目标的区域；

第一训练模块，用于采用所述第一训练样本集对卷积神经网络CNN进行训练，得到所述图像检测模型。

可选地，所述装置还包括：

第二获取模块，用于获取第二训练样本集，所述第二训练样本集包含多张第二训练样本，每张所述第二训练样本对应有识别结果；

第二训练模块，用于采用所述第二训练样本集对卷积神经网络CNN进行训练，得到所述图像识别模型。

第三方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的图像识别方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的图像识别方法。

第五方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述第一方面所述的图像识别方法。

本发明实施例提供的技术方案可以带来如下有益效果：

先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明一个示例性实施例示出的图像识别方法的流程图；

图1B是图1A所示实施例涉及的示意图；

图2A是本发明一个示例性实施例示出的第一训练样本的示意图；

图2B是本发明一个示例性实施例示出的检测过程的示意图；

图3A是本发明一个示例性实施例示出的第二训练样本集的示意图；

图3B是本发明一个示例性实施例示出的识别过程的示意图；

图4是本发明另一个示例性实施例示出的图像识别方法的流程图；

图5是本发明一个示例性实施例示出的图像识别装置的结构方框图；

图6是本发明一个示例性实施例示出的终端的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本发明实施例中，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标。

本发明实施例提供的方法，各步骤的执行主体可以是具有图像处理能力的终端。终端可以是手机、车载终端、平板电脑、可穿戴设备、膝上型便携计算机等电子设备。

请参考图1A，其示出了本发明一个实施例示出的图像识别方法的流程图。该方法可以包括如下步骤：

步骤101，采用图像检测模型检测目标图像中的目标候选区域。

目标候选区域为包含目标的图像块。目标图像是待检测的图像，其可以是图片，也可以是视频中的某一帧图像。

图像检测模型用于检测目标图像中是否包括目标，以及目标在目标图像中的大致区域。目标可以是各种手势、人脸、物体等等，本发明实施例对此不作限定。可选地，图像检测模型是对CNN进行训练得到的模型。对于图像检测模型的训练过程以及网络架构，将在下文实施例进行介绍。

可选地，步骤101可以包括如下几个子步骤：

步骤101a，采用图像检测模型获取目标图像中的每一个像素为目标的概率；

图像检测模型能够对目标图像中的每一个像素进行特征提取，并将各个像素对应的特征提取结果与预设的图像特征进行匹配，上述特征提取结果与预设的图像特征之间的匹配程度可以用来衡量特征提取结果对应的像素为目标的概率。特征提取结果与预设的图像特征之间的匹配程度越大，则该特征提取结果对应的像素为目标的概率越大；特征提取结果与预设的图像特征之间的匹配程度越小，则该特征提取结果对应的像素为目标的概率越小。其中，预设的图像特征可以是组成目标的像素对应的图像特征，其可以在训练出图像检测模型之后得到。

另外，获取目标图像的各个像素为目标的概率之后，可以采用概率矩阵来表示上述概率。其中，概率矩阵所包括的概率与目标图像所包括的像素点一一对应。例如，概率矩阵第4行第3列的数值用于指示目标图像第4行第3列的像素点对应的概率。

步骤101b，根据各个像素对应的概率确定目标候选区域。

目标候选区域包括概率大于预设阈值的像素。预设阈值可以根据图像识别模型对目标占目标图像的比例要求实际确定。例如，图像识别模型要求目标占目标图像的比例较大时，则预设阈值也越大。示例性地，预设阈值为0.7。可选地，终端对概率矩阵进行二值化处理，将大于或等于预设阈值的概率设置为1，将不大于预设阈值的设置为0。通过上述方式，将大于或等于预设阈值的概率，以及小于预设阈值的概率进行区分。

可选地，确定目标候选区域可以采用如下方式：根据各个像素对应的概率获取符合第一预设条件的图像块，将符合第一预设条件的图像块确定为目标图像块，其中，第一预设条件是指包含连续的预设数量的目标像素，目标像素是指概率大于预设阈值的像素；将包含目标图像块且符合第二预设条件的矩形区域确定为目标候选区域，第二预设条件为目标图像块在矩形区域内的占比大于预设比例。预设数量、预设阈值和预设比例均可以根据实际需求设定，本发明实施例对此不作限定。

进一步地，第二预设条件还可以是目标图像块的占比达到最大，也即，矩形区域是包含目标图像块的最小矩形区域。通过上述方式，目标在目标候选区域的占比尽可能地大，后续采用图像识别模型识别时，能使识别效率得到提高，并且能提高识别的准确度。

结合参考图1B，其示出了图1A所示实施例涉及的示意图。图像检测模型11对输入的目标图像10进行检测之后，输出被标记有目标候选区域12的目标图像10。

步骤102，当从目标图像中检测出目标候选区域时，提取目标候选区域。

从目标图像中提取目标候选区域，也即从目标图像中截取目标候选区域。结合参考图1B，终端从目标图像10中提取目标候选区域12。

当从目标图像中未检测到目标候选区域时，说明该目标图像中不包括目标，即可结束流程。

另外，当目标在目标图像中所占的比例较大时，终端可以直接对目标图像进行识别，而无需预先从目标图像中确定出目标候选区域，因此在步骤102之前，终端可以获取目标候选区域占目标图像的比例，若比例大于预设门限，则直接执行步骤103，若比例小于或等于预设门限，则执行步骤102。其中，预设门限可以根据图像识别模型的识别精度实际确定。示例性地，预设门限为30％。通过上述方式，可以节省提取目标候选区域所需的时间，提升图像识别的效率。

步骤103，采用图像识别模型基于目标候选区域进行图像识别，得到目标图像的识别结果。

图像识别模型用于识别目标并对目标进行分类。可选地，图像识别模型也是对CNN进行训练得到的模型。对于图像识别模型的训练过程以及网络架构，将在下文实施例进行解释说明。

另外，终端获取目标候选区域之后，可以直接对目标候选区域进行识别，也可以在对目标候选区域进行预处理之后，再对处理后的目标候选区域进行识别。下面将分别对上述两种方式进行讲解。

在第一种可能的实施方式中，终端直接对目标候选区域进行识别，步骤103可以包括如下子步骤：

步骤103a，采用图像识别模型对目标候选区域进行特征提取，得到目标候选区域的图像特征；

步骤103b，采用图像识别模型获取目标候选区域的图像特征与各个预设的识别结果的图像特征之间的匹配程度；

步骤103c，将匹配程度符合第三预设条件的识别结果确定为目标图像的识别结果。

各个预设的识别结果的图像特征可以在训练出图像识别模型之后得到。预设的识别结果的数量可以根据训练图像识别模型时所采用的样本的类型确定。样本的类型可以根据样本图像所包括的目标的种类实际确定。样本的类型可以包括人脸，手势等等，本发明实施例对此不作限定。

另外，目标候选区域的图像特征与识别结果的图像特征之间的匹配程度可以采用相似度来衡量。目标候选区域的图像特征与识别结果的图像特征之间的相似度越大，则目标候选区域的图像特征与识别结果的图像特征之间的匹配程度越高；目标候选区域的图像特征与识别结果的图像特征之间的相似度越小，则目标候选区域的图像特征与识别结果的图像特征之间的匹配程度越低。

第三预设条件是目标候选区域的图像特征与该识别结果对应的图像特征之间的匹配程度最大，并且上述匹配程度超过预设程度。预设程度可以根据图像识别模型的识别精度实际确定，本发明实施例对此不作限定。示例性地，预设程度为95％。

在第二种可能的实施方式中，终端在对目标候选区域进行预处理之后，再对处理后的目标候选区域进行识别，此时步骤103可以包括如下子步骤：

步骤103d，对目标候选区域进行预处理，得到处理后的目标候选区域，处理后的目标候选区域的分辨率达到预设分辨率；

预设分辨率是图像识别模型对待识别图像的分辨率的要求。待识别的图像的分辨率达到预设分辨率时，后续图像识别模型进行识别时可以大幅度降低计算量，提升图像识别的效率。示例性地，预设分辨率为440*360。

终端先获取目标候选区域的分辨率，之后对目标候选区域的分辨率进行分辨率提升处理，并使处理后的目标候选区域的分辨率达到预设分辨率。其中，分辨率提升处理所采用的算法可以是最近邻插值法算法、双线性插值算法、立方卷积插值算法等等，本发明实施例对此不作限定。

步骤103e，采用图像识别模型对处理后的目标候选区域进行特征提取，得到处理后的目标候选区域的图像特征；

步骤103f，采用图像识别模型获取处理后的目标候选区域的图像特征与各个预设的识别结果的图像特征之间的匹配程度；

步骤103g，将匹配程度符合第三预设条件的识别结果确定为目标图像的识别结果。

步骤103e至步骤103f与步骤103a至103b相同，此处不再赘述。

结合参考图1B，图像识别模型13对目标候选区域12进行识别，输出目标图像10的识别结果14“目标为GOOD”。

综上所述，本发明实施例提供的方法，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

另外，在本发明实施例中，图像检测模型和图像识别模型相互独立，并且互相解耦，因此后续可以对图像检测模型和图像识别模型单独进行复用、替换、优化等处理，灵活性较高。

下面将对图像检测模型的训练过程以及网络架构进行讲解。

图像检测模型的训练过程如下：获取第一训练样本集，采用第一训练样本集对CNN进行训练，得到图像检测模型。

第一训练样本集包含多张第一训练样本。第一训练样本集所包括的第一训练样本的数量可以根据实际需求确定。第一训练样本越多时，图像检测模型的检测的精度越高；第一训练样本越低时，图像检测模型的精度越低。

每张第一训练样本被标记出包括目标的区域和/或不包括目标的区域。其中，对第一训练样本进行标记的过程可以人工完成。结合参考图2A，其示出了本发明一个示例性实施例示出的第一训练样本20的示意图。其中，第一训练样本20中包括由黑线组成的轮廓21，轮廓21的内部是包括目标的区域，轮廓21的外部是不包括目标的区域。

需要说明的是，在不同的第一训练样本中，目标占第一训练样本的比例可以相同，也可以不同。示例性地，目标占第一训练样本A的比例为0.3，目标占第一训练样本B的比例为0.6。另外，第一训练样本所包括的目标的类型可以相同，也可以不同。示例性地，第一训练样本A所包括的目标为手势“Good”，第一训练样本B所包括的目标为手势“Yeah”。

另外，CNN可以是alexNet网络、VGG-16网络等等。另外。对CNN进行训练并得到图像检测模型所采用的算法可以是采用faster RCNN(Regions with Convolutional NeuralNetwork，区域卷积神经网络)算法、RCNN算法等等。本发明实施例对CNN，以及训练CNN的算法不作具体限定。

另外，在训练出图像检测模型之后，还可以采用第一测试样本集对图像检测模型进行测试。第一测试样本集包括多张第一测试样本，每张测试样本对应有测试结果。终端将第一测试样本输入图像检测模型后，检测图像检测模型输出的检测结果与该测试样本对应的测试结果是否相同，以实现检测图像检测模型是否训练至设定的精度。

图像检测模型的网络架构参见下文介绍。

图像检测模型包括卷积层、激活层、池化层、上卷积层和拼接层。本发明实施例对图像检测模型所包括的各层的数量不作限定，一般来说，图像检测模型的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对检测精度和效率的要求，设计适当层数的图像检测模型。

卷积层用于对目标图像、激活层的输出、池化层的输出、拼接层的输出执行卷积操作。卷积操作的作用是提取图像特征，并将输入数据映射到特征空间。每个卷积层用于执行一次或多次卷积操作。另外，各个卷积层的输入数据可以根据卷积层在图像检测模型中的位置确定，当卷积层位于图像检测模型中的第一层时，该卷积层的输入数据为目标图像；当卷积层位于激活层之后的一层时，该卷积层的输入数据为激活层的输出数据；当卷积层位于池化层之后的一层时，该卷积层的输入数据为池化层的输出数据；当卷积层位于拼接层之后的一层时，该卷积层的输入数据为拼接层的输出数据。

激活层用于对卷积层的输出执行激活操作，并输出被标记出目标候选区域的目标图像。由于卷积操作所得到的特征空间有限，因此可以通过激活操作对特征空间进行处理，以使得特征空间能表示的特征更多。激活层的输入数据通常都是卷积层的输出数据。激活层的输出数据可以根据激活层在图像检测模型中的位置确定，当激活层位于图像检测模型中的最后一层时，该激活层的输出数据为被标记出目标候选区域的目标图像。

池化层用于对激活层的输出执行最大值池化操作。最大值池化操作的作用是降低特征图的尺寸，增大下一层的感受野。感受野是图像检测模型每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。池化层的输入数据通常为激活层的输出数据，池化层的输出数据通常为卷积层的输入数据。

上卷积层用于对激活层的输出执行上卷积操作。上卷积操作的作用是增大特征图的尺寸，将学习到的特征映射到更大的尺寸上。上卷积层的输入数据通常为激活层的输出数据，上卷积层的输出数据通常为拼接层的输入数据。

拼接层用于对激活层的输出和上卷积层的输出执行拼接操作。拼接操作的作用是将不同的特征图拼接起来，方便融合不同特征维度的信息，从而学习到更鲁棒的特征。拼接层的输入数据通常为激活层的输出数据和上卷积层的输出数据，拼接层的输出数据通常为卷积层的输入数据。

下面将结合图像检测模型的网络架构，对图像检测模型的检测过程进行讲解。结合参考图2B，其示出了本发明一个示例性实施例示出的检测过程的示意图。其中，①代表卷积操作，②代表激活操作，③代表最大值池化操作，④代表上卷卷积操作，⑤代表拼接操作；最左边的矩形框表示目标图像，最右边的矩形框表示被标记出目标候选区域的目标图像，其它的矩形框表示多通道特征图，矩形框的高度表示特征图的尺寸，特征图的尺寸越大，矩形框的高度就越高；矩形框的厚度表示特征图的通道数量，特征图的通道数量越多，矩形框的厚度就越厚。黑色的矩形框表示对激活层的输出数据的复制结果，与黑色的矩形框拼接的矩形框表示上卷积层的输出数据。

在本发明实施例中，以图像检测模型中的每层仅执行一次操作来进行解释说明。在图2B中，图像识别模型共执行了15次卷积操作、15次激活操作、3次最大值池化操作、3次上卷积操作和3个拼接操作，也即，图像识别模型包括9个卷积层、9个激活层、3个池化层、3个上卷积层和3个拼接层。图像检测模型中的各个层按照图2B中各个操作的执行顺序由左及右顺次连接，其中，拼接层的输入端与上卷积层和激活层均连接。第一个卷积层的输入数据是目标候选区域，之后每一层的输入数据是上一层的输出数据，拼接层的输入数据是激活层的输出数据和上卷积层的输出数据，最后一个激活层的输出数据是标记有目标候选区域的目标图像。

下面将对图像识别模型的训练过程进行讲解。图像识别模型的训练过程如下：获取第二训练样本集，采用第二训练样本集对卷积神经网络CNN进行训练，得到图像识别模型。

第二训练样本集包含多张第二训练样本。第一训练样本集所包括的第一训练样本的数量可以根据实际需求确定。第一训练样本越多时，图像检测模型的检测的精度越高；第一训练样本越低时，图像检测模型的精度越低。

每张第二训练样本对应有识别结果。第二训练样本对应的识别结果可以根据第二训练样本包括的目标的类型实际确定。另外，终端还可以根据各张训练样本的识别结果进行分类。结合参考图3A，其示出了本发明一个实施例示出的第二训练样本集的示意图。第二训练样本集包括识别结果“Good”31和识别结果”Yeah”32，识别结果“Good”31对应有多张包含“Good”的第二训练样本311，识别结果”Yeah”32对应有多张包含“Yeah”的第二训练样本321。

另外，CNN可以是alexNet网络、VGG-16网络等等。另外。对CNN进行训练并得到图像识别模型所采用的算法可以是采用faster RCNN算法、RCNN算法等等。本发明实施例对CNN，以及训练CNN的算法不作具体限定。

另外，在训练出图像识别模型之后，还可以采用第二测试样本集对图像识别模型进行测试。第二测试样本集包括多张第二测试样本，每张测试样本对应有识别结果。终端将第二测试样本输入图像识别模型后，检测图像是被模型输出的识别结果与该测试样本对应的是被结果是否相同，以实现检测图像识别模型是否训练至设定的精度。

图像识别模型的网络架构参见下文介绍。

可选地，图像识别模型包括卷积层、激活层和池化层，本发明实施例对图像识别模型所包括的各层的数量不作限定，一般来说，图像识别模型的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对检测精度和效率的要求，设计适当层数的图像识别模型。

卷积层用于对目标候选区域、激活层的输出和池化层的输出执行卷积操作。卷积操作的作用是提取图像特征，并将输入数据映射到特征空间。每个卷积层用于执行一次或多次卷积操作。另外，各个卷积层的输入数据可以根据卷积层在图像识别模型中的位置确定，当卷积层位于图像识别模型中的第一层时，该卷积层的输入数据为目标候选区域或处理后的目标候选区域；当卷积层位于激活层之后的一层时，该卷积层的输入数据为激活层的输出数据；当卷积层位于池化层之后的一层时，该卷积层的输入数据为池化层的输出数据。

激活层用于对卷积层的输出执行激活操作，并输出目标图像的识别结果。由于卷积操作所得到的特征空间有限，因此可以通过激活操作对特征空间进行处理，以使得特征空间能表示的特征更多。激活层的输入数据通常都是卷积层的输出数据。激活层的输出数据可以根据激活层在图像识别模型中的位置确定，当激活层位于图像识别模型中的最后一层时，该激活层的输出数据为目标图像的识别结果。

池化层用于对激活层的输出执行最大值池化操作。最大值池化操作的作用是降低特征图的尺寸，增大下一层的感受野。感受野是图像识别模型每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。池化层的输入数据通常为激活层的输出数据，池化层的输出数据通常为卷积层的输入数据。

下面将结合图像识别模型的网络架构，对图像识别模型的检测过程进行讲解。结合参考图3B，其示出了本发明一个示例性实施例示出的检测过程的示意图。其中，①代表卷积操作，②代表激活操作，③代表最大值池化操作；最左边的矩形框表示目标候选区域或者处理后的目标候选区域，最右边的矩形框表示被标记出目标图像的识别结果，其它的矩形框表示多通道特征图，矩形框的高度表示特征图的尺寸，特征图的尺寸越大，矩形框的高度就越高；矩形框的厚度表示特征图的通道数量，特征图的通道数量越多，矩形框的厚度就越厚。

在本发明实施例中，以图像识别模型中的每层仅执行一次操作来进行解释说明。在图3B中，图像识别模型共执行了9次卷积操作、9次激活操作和3次最大值池化操作，也即，图像识别模型包括9个卷积层、9个激活层和3个池化层。图像识别模型中的各个层按照图3B中各个操作的执行顺序由左及右顺次连接。第一个卷积层的输入数据是目标候选区域，之后每一层的输入数据是上一层的输出数据，最后一个激活层的输出数据是目标图像的识别结果。

请参考图4，其示出了本发明另一个实施例示出的图像识别方法的流程图。该方法可以包括如下步骤：

步骤401，获取第一训练样本集。

第一训练样本集包含多张第一训练样本，每张第一训练样本被标记出包括目标的区域和/或不包括目标的区域。

步骤402，采用第一训练样本集对CNN进行训练，得到图像检测模型。

步骤403，获取第二训练样本集。

第二训练样本集包含多张第二训练样本，每张第二训练样本对应有识别结果。

步骤404，采用第二训练样本集对CNN进行训练，得到图像识别模型。

本发明实施例对图像检测模型的训练过程，以及对图像识别过程的训练过程的先后顺序不作限定。也即，终端可以先执行步骤401和402，再执行步骤403和404；终端还可以先执行步骤403和404，再执行步骤401和402。

步骤405，采用图像检测模型检测目标图像中的目标候选区域。

目标候选区域为包含目标的图像块。

步骤406，获取目标候选区域占目标图像的比例。

若比例小于或等于预设门限，则执行步骤407；若比例大于预设门限，则执行步骤408。

步骤407，当从目标图像中检测出目标候选区域时，提取目标候选区域。

步骤408，采用图像识别模型对目标候选区域进行识别，得到目标图像的识别结果的步骤。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图5，其示出了本发明一个实施例提供的图像识别装置的框图。该装置具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：图像检测模块501、区域提取模块502和图像识别模块503。

图像检测模块501，用于采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标的图像块。

区域提取模块502，用于当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域。

图像识别模块503，用于采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

在基于图5所示实施例提供的一个可选实施例中，所述图像检测模块501，包括：概率获取单元和区域确定单元(图中未示出)。

概率获取单元，用于采用所述图像检测模型获取所述目标图像中的每一个像素为目标的概率。

在基于图5所示实施例提供的另一个可选实施例中，所述区域确定单元，用于：

在基于图5所示实施例提供的另一个可选实施例中，所述图像识别模块503，用于：

在基于图5所示实施例提供的另一个可选实施例中，所述图像检测模型包括卷积层、激活层、池化层、上卷积层和拼接层；所述卷积层用于对所述目标图像、所述激活层的输出、所述池化层的输出、所述拼接层的输出执行卷积操作；所述激活层用于对所述卷积层的输出执行激活操作，并输出被标记出所述目标候选区域的所述目标图像；所述池化层用于对所述激活层的输出执行最大值池化操作；所述上卷积层用于对所述激活层的输出执行上卷积操作；所述拼接层用于对所述激活层的输出和所述上卷积层的输出执行拼接操作。

在基于图5所示实施例提供的另一个可选实施例中，所述图像识别模型包括卷积层、激活层和池化层；所述卷积层用于对所述目标候选区域、所述激活层的输出和所述池化层的输出执行卷积操作；所述激活层用于对所述卷积层的输出执行激活操作，并输出所述目标图像的识别结果；所述池化层用于对所述激活层的输出执行最大值池化操作。

在基于图5所示实施例提供的另一个可选实施例中，所述装置还包括：比例获取模块(图中未示出)。

比例获取模块，用于获取所述目标候选区域占所述目标图像的比例。

所述图像识别模块503，还用于若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。

在基于图5所示实施例提供的另一个可选实施例中，所述装置还包括：第一获取模块和第一训练模块(图中未示出)。

第一获取模块，用于获取第一训练样本集，所述第一训练样本集包含多张第一训练样本，每张所述第一训练样本被标记出包括所述目标的区域和/或不包括所述目标的区域。

在基于图5所示实施例提供的另一个可选实施例中，所述装置还包括：第二获取模块和第二训练模块(图中未示出)。

第二获取模块，用于获取第二训练样本集，所述第二训练样本集包含多张第二训练样本，每张所述第二训练样本对应有识别结果。

综上所述，本发明实施例提供的装置，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的图像识别方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由终端的处理器加载并执行以实现上述方法实施例中的图像识别方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的示例性实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用图像检测模型检测目标图像中的目标候选区域，包括：

采用所述图像检测模型获取所述目标图像中的每一个像素为目标的概率；

根据各个像素对应的概率确定所述目标候选区域，所述目标候选区域包括概率大于预设阈值的像素。

3.根据权利要求2所述的方法，其特征在于，所述根据各个像素对应的概率确定所述目标候选区域，包括：

4.根据权利要求1所述的方法，其特征在于，所述采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述图像检测模型包括卷积层、激活层、池化层、上卷积层和拼接层；

所述卷积层用于对所述目标图像、所述激活层的输出、所述池化层的输出、所述拼接层的输出执行卷积操作；

所述激活层用于对所述卷积层的输出执行激活操作，并输出被标记出所述目标候选区域的所述目标图像；

所述池化层用于对所述激活层的输出执行最大值池化操作；

所述上卷积层用于对所述激活层的输出执行上卷积操作；

所述拼接层用于对所述激活层的输出和所述上卷积层的输出执行拼接操作。

7.根据权利要求1所述的方法，其特征在于，所述图像识别模型包括卷积层、激活层和池化层；

所述卷积层用于对所述目标候选区域、所述激活层的输出和所述池化层的输出执行卷积操作；

所述激活层用于对所述卷积层的输出执行激活操作，并输出所述目标图像的识别结果；

所述池化层用于对所述激活层的输出执行最大值池化操作。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域之前，还包括：

获取所述目标候选区域占所述目标图像的比例；

若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述采用图像检测模型检测目标图像中的目标候选区域之前，还包括：

获取第一训练样本集，所述第一训练样本集包含多张第一训练样本，每张所述第一训练样本被标记出包括所述目标的区域和/或不包括所述目标的区域；

采用所述第一训练样本集对卷积神经网络CNN进行训练，得到所述图像检测模型。

10.根据权利要求1至7任一项所述的方法，其特征在于，所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果之前，还包括：

获取第二训练样本集，所述第二训练样本集包含多张第二训练样本，每张所述第二训练样本对应有识别结果；

采用所述第二训练样本集对卷积神经网络CNN进行训练，得到所述图像识别模型。

11.一种图像识别装置，其特征在于，所述装置包括：

12.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一项所述的图像识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一项所述的图像识别方法。