CN106408037B

CN106408037B - 图像识别方法及装置

Info

Publication number: CN106408037B
Application number: CN201510457979.XA
Authority: CN
Inventors: 童志军; 刘彬; 张洪明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2020-02-18
Anticipated expiration: 2035-07-30
Also published as: CN106408037A

Abstract

本申请提出一种图像识别方法及装置，其中，该图像识别方法包括以下步骤：提取图像的多维度局部特征，并提取图像的深度学习特征；将多维度局部特征和深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征；根据度量学习特征对图像进行识别。本申请实施例的图像识别方法，能够大大提高图像识别的精度。

Description

图像识别方法及装置

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像识别方法及装置。

背景技术

目前，图像识别主要通过两种方法来实现。第一是采用提取图像的多维局部特征的方法，具体是通过提取图像中的多个关键点，并分别提取每个关键点的局部特征进行拼接得到多维局部特征，然后将其降低维度，得到用于识别图像的低维、有效的特征；第二是采用提取图像的深度学习特征的方法，具体是通过深度学习模型提取用于识别图像的深度学习特征。

然而，图像的多维局部特征只能描述图像中的局部纹理或形状，在图像被局部遮挡或强光照射等情况下，多维局部特征描述图像的能力将大大下降甚至丧失；图像的深度学习特征可描述图像中的整体纹理和形状，但缺乏对图像中的细节描述，另外通过图像的深度学习特征来识别图像，可增加不同类别图像的类间距离，却不能减少同一类图像的类内距离。因此，通过上述传统的方法进行图像识别，识别精度较差。

尤其是在人脸识别上，图像中的人脸姿态各异、表情不一而且图像背景复杂多样，通过目前的图像识别方法难以对大量商品图像中的人脸进行精确的识别。

发明内容

本申请旨在至少在一定程度上解决上述技术问题。

为此，本申请的第一个目的在于提出一种图像识别方法，能够大大提高图像识别的精度。

本申请的第二个目的在于提出一种图像识别装置。

为达上述目的，根据本申请第一方面实施例提出的一种图像识别方法，包括以下步骤：提取所述图像的多维度局部特征，并提取所述图像的深度学习特征；将所述多维度局部特征和所述深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征；根据所述度量学习特征对所述图像进行识别。

根据本申请实施例的图像识别方法，通过将多维度局部特征和深度学习特征进行拼接，并对拼接后的特征进行学习以得到度量学习特征，然后根据度量学习特征对所述图像进行识别。由此，通过将图像的多维局部特征和深度学习特征结合起来，由多维局部特征描述图像中的细节，由深度学习特征描述图像中的整体纹理和形状，同时通过度量学习增加不同类别图像的类间距离，减少同一类别图像的类内距离，从而提高了不同类别图像的区分度，减小了同一类别图像的差别，极大地提高了图像识别的精度。

根据本申请第二方面实施例提出的一种图像识别装置，包括：提取模块，用于提取所述图像的多维度局部特征，并提取所述图像的深度学习特征；学习模块，用于将所述多维度局部特征和所述深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征；识别模块，用于根据所述度量学习特征对所述图像进行识别。

根据本申请实施例的图像识别装置，通过将多维度局部特征和深度学习特征进行拼接，并对拼接后的特征进行学习以得到度量学习特征，然后根据度量学习特征对所述图像进行识别。由此，通过将图像的多维局部特征和深度学习特征结合起来，由多维局部特征描述图像中的细节，由深度学习特征描述图像中的整体纹理和形状，同时通过度量学习增加不同类别图像的类间距离，减少同一类别图像的类内距离，从而提高了不同类别图像的区分度，减小了同一类别图像的差别，极大地提高了图像识别的精度。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例的图像识别方法的流程图；

图2为根据本申请一个实施例的图像识别方法中提取图像的多维度局部特征的示意图；

图3为根据本申请一个实施例的深度卷积神经网络的结构示意图；

图4为根据本申请另一个实施例的图像识别方法的流程图；

图5为根据本申请一个实施例的图像识别装置的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述根据本申请实施例的图像识别方法及装置。

图1为根据本申请一个实施例的图像识别方法的流程图。如图1所示，根据本申请实施例的图像识别方法，包括以下步骤：

S101，提取图像的多维度局部特征，并提取图像的深度学习特征。

在本申请的实施例中，该图像为待识别图像，本申请对待识别图像的格式、大小和来源不做限定，其中，格式可以为但不限于JPG、PNG、TIF、BMP等。应当理解，对于图像分辨率越大的待识别图像，识别效果越好。对于图像的来源，可以是SD(Secure Digital MemoryCard，安全数码卡)卡中所存储的图像；可以是通过摄像机拍摄、图片抓取软件抓取等方式获取的图像；还可以是通过网络从云端服务器下载的图像等。

在本申请的一个实施例中，图像的多维度局部特征的提取过程可具体包括：对图像进行尺度转化，以生成与图像内容相同、尺寸不同的多个转化图像；分别确定每个转化图像中的多个关键点位置；分别提取每个转化图像中多个关键点位置的局部高维特征；将提取到的局部高维特征进行拼接，以得到图像的多维度局部特征。其中，图像中的关键点指图像中的主要特征点。以人脸图像为例，关键点可以是双眼、鼻子和嘴角等。在本申请的一个实施例中，可通过对图像进行角点检测以确定图像中关键点的位置。举例来说，常见的角点检测方法可包括harris角点检测(一种基于模板的角点检测)，Shi-Tomasi角点检测(harris角点检测的改进，于1994年在文章Good Features to Track中提出)，FAST(Features from Accelerated Segment Test，加速分割实验特征)角点检测，尺度不变surf(Speeded Up Robust Features，加速鲁棒特征)检测，尺度不变sift(Scaleinvariant feature Transform，尺度不变特征变换)检测等。

举例而言，一幅图像进行尺度转化后可生成如图2所示的与图像内容相同、尺寸分别为300*300、212*212、150*150、106*106和75*75的5个转化图像。图2所示的示例中的图像为一张人脸图像，因此，可将5个转化图像中的双眼、鼻子和两个嘴角作为关键点，即每张转化图像具有5个关键点。将每个转化图像中的各个关键点所在区域划分为4*4的方格，其中每个小方格的像素值为10*10。然后在每个小方格内提取59维规格相同的LBP(LocalBinary Patterns，局部二值模式，一种有效的纹理描述算子)特征，并将所有特征拼接起来，得到长度为5*5*4*4*59的特征向量，即23600维局部特征向量。其中，在每个小方格内除可提取LBP特征外，还可提取SIFT(Scale-invariant feature transform，尺度不变特征转换)、HOG(Histogram of Oriented Gradient，梯度方向直方图)和Gabor等特征，或提取以上两个或多个特征的组合，本申请对特征提取过程中所提取的特征类型不做限定，可以是上述或者其他特征中的任意一种。

在本申请的一个实施例中，提取图像的深度学习特征具体包括：根据深度学习模型对图像进行深度特征学习，以提取深度学习特征。其中，深度特征学习模型为预先根据大量训练图像进行训练得到的。

本申请实施例的深度学习模型，可选地，除DCNN(Deep Convolutional NeuralNetworks，深度卷积神经网络)外，还可使用Auto Encoder(自动编码器)和DBM(DeepBoltzmann Machine，深度玻尔兹曼机)等。在深度学习过程中，初始的训练参数可选用已公开的初始参数，优选地，为提高学习的速度和精确度，还可采用分层的预训练的方式获得初始的训练参数。本申请对深度学习模型和初始训练参数的选择不作具体限定。

以DCNN为例，对模型训练的过程进行说明。具体地，以对人脸图像进行训练为例，首先，可从网络下载或者从公开数据库如WebFace等获取训练图像，例如可获取10000个人的人脸图像作为训练图像，首先使用人脸检测和人脸关键点定位过滤训练图像，以去除没有人脸或者有多张人脸的图像。然后对过滤后的训练图像进行几何归一化，并将每个人脸图像的大小调整为250*250，并将图像按人进行分类。例如样本中有10000个人，每个人都有多张人脸图像，在每个人对应的多张人脸图像中随机选择100张作为训练数据，构成10000个训练数据集。若某个样本的人脸图像不足100张的，可随机重复其已有的人脸图像，凑齐100张。另外，也可先选定样本，即选定10000个人，再依次选择每个人的100张人脸图像，生成10000个训练数据集。

然后将训练数据集输入DCNN。图3为DCNN的结构示意图。如图3所示，DCNN由2个Convolution(卷积)层、5个Pooling(池化)层、9个Inception层(一种多尺度的网络结构，包含Convolution和Pooling层)、3个Full-Connection(全连接)层、1个Dropout(部分连接)层和3个Softmax(分类器)构成。图像在DCNN中的训练过程可包括前向预测和反向传播。其中，前向预测是指将图像输入DCNN后，自图3中的Convolution1开始，根据网络连接上的权重逐层计算训练图像，直到最后预测分类结果。反向传播是指自图3中Softmax3开始反向逐层更新网络连接上的权重。可交替进行前向预测和反向传播的过程，直至图像特征的精度达到要求(收敛于预设的值)，得到深度学习模型。其中，Softmax1和Softmax2可防止因反向传播而导致的训练梯度衰减，并且可以得到图像的中层特征描述。

在本申请的实施例中，可随机选择初始的训练参数，并设定初始的训练速率为0.01，依上述训练过程对人脸图像进行训练，然后在训练过程中多次调小训练速率，直到人脸图像特征的精度收敛于预设的值，得到的DCNN的权重系数即为深度学习模型。继而可根据该深度学习模型提取图像的深度学习特征向量。

S102，将多维度局部特征和深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征。

在本申请的一个实施例中，可将步骤S101中所提取的待识别图像的多维度局部特征向量和深度学习特征向量拼接在一起，形成该图像对应的一个多维向量。然后分别使用预先训练的度量学习降维矩阵对拼接后的多维向量进行降维处理以得到度量学习特征。

在本申请的另一个实施例中，还可包括训练度量学习降维矩阵的过程。因此，根据本申请实施例的图像识别方法，所述训练度量学习降维矩阵的过程还可包括：获取图像训练数据，并构建度量学习的优化代价函数，其中，图像训练数据包括多个样本对；以及根据图像训练数据对优化代价函数训练度量学习降维矩阵。其中，度量学习矩阵包括第一度量学习矩阵和第二度量学习矩阵。

在本申请的一个实施例中，图像训练数据可由多个不同对象的在不同场景下的图像所组成的多个样本对组成。具体地，可从中随机挑选任意两个对象的图像的向量组成样本对，其中，可将同一对象在不同场景下的两个图像的向量组成正样本对，并将不同对象的两个图像的向量组成负样本对。例如，显示在不同场景下同一个人的面部的两张图像和显示不同人的面部的两张图像，对应的两对向量可分别作为正样本对和负样本对。

公式(1)即为所构建的优化代价函数。

其中，W为第一度量学习降维矩阵，V为第二度量学习降维矩阵，y_ij为样本对标签，b为分类阈值，φ_i和φ_j为训练样本对的特征向量，φ_i和φ_j降维后的距离

Wφ_i和Wφ_j分别为φ_i和φ_j根据第一度量学习降维矩阵进行降维后的向量，

为Wφ_i和Wφ_j的欧式距离，Vφ_i和Vφ_j分别为φ_i和φ_j根据第二度量学习降维矩阵进行降维后的向量，<Vφ_i,Vφ_j>为Vφ_i和Vφ_j的余弦距离。

在本申请的实施例中，根据图像训练数据对优化代价函数训练度量学习降维矩阵可具体包括：提取图像训练数据中的每个图像的多维度局部特征和深度学习特征，并对每个图像的多维度局部特征和深度学习特征进行拼接，继而根据图像训练数据中的每个样本对所对应的拼接后的特征对优化代价函数进行迭代以获得度量学习降维矩阵。

具体地，对于图像训练数据中的每个图像的多维度局部特征和深度学习特征的提取过程，可参照上述本申请实施例的待识别图像的多维度局部特征和深度学习特征的提取过程，在此不再赘述。

假设将每个图像的多维度局部特征和深度学习特征进行拼接后，形成一个与该图像对应的m维向量，且多个样本对由n个样本图像组成，则可通过2阶范数归一化，使n个样本图像的m维向量生成一个m×n的矩阵A，再对矩阵A使用PCA(Principal ComponentAnalysis，主成分分析)的方法得到l×m的降维矩阵B。其中，l可根据对图像识别的精度要求来设定，可以理解，一般地，l越大，图像识别精度越高，而在本申请的实施例中，通过实验测得：当l大于128时，随着l的增大，对图像识别精度的提升不再明显。因此，在本实施例中，可令l＝128。

在本申请的一个实施例中，可将式(1)中的W和V使用矩阵B初始化，并交替使用正样本对和负样本对进行迭代，最终得到第一度量学习降维矩阵W和第二度量学习降维矩阵V。具体的迭代过程如下：在公式(1)中，随机选择一个正样本对开始第一次迭代，得到迭代结果W₁和V₁，若W₁与W的差小于第一预设阈值且V₁与V的差小于第二预设阈值，则得到最终的结果为W＝W₁、V＝V₁，并结束迭代过程，否则令W＝W₁+△W、V＝V₁+△V，并随机选择一个负样本对代入公式(1)计算W₂和V₂，若W₂与W的差小于第一预设阈值且V₂与V的差小于第二预设阈值，则得到最终的结果为W＝W₂、V＝V₂，并结束迭代过程，否则令W＝W₂+△W、V＝V₂+△V；继续交替选择未使用的正样本对和负样本对重复上述过程进行迭代，直至W_k与W的差小于第一预设阈值且V_k与V的差小于第二预设阈值，并将W_k＝W和V_k＝V作为最终结果，即得到第一度量学习降维矩阵W和第二度量学习降维矩阵V。其中，第一预设阈值和第二预设阈值可根据实际需要来设定，可以理解的是，第一预设阈值和第二预设阈值足够小，从而能够保证迭代所得到的结果近似等于W和V。

其中，△W和△V在每次迭代过程中根据所选择的样本对的不同而变化。具体地，△ W为式中关于矩阵W的偏导数的值，△V为式

中关于矩阵V的偏导数的值。

此外，根据本申请实施例的图像识别方法，可选地，在用于获取度量学习降维矩阵的优化代价函数中，可仅使用欧式距离或余弦距离作为训练样本对的特征向量降维后的距离。在对优化代价函数进行迭代的过程中，可仅使用正样本对或负样本对，并且，除了使用PCA的方法得到的降维矩阵外，还可使用随机的矩阵对度量学习降维矩阵进行初始化。

从而，可分别通过第一度量学习降维矩阵W和第二度量学习降维矩阵V对拼接后的特征进行降维得到第一降维特征和第二降维特征，并将第一降维特征和第二降维特征进行拼接得到度量学习特征。具体地，对于由待识别图像的多维度局部特征和深度学习特征进行拼接的特征向量

可分别由W和V计算得到第一降维特征向量

和第二降维特征向量

然后，将第一降维特征向量和第二降维特征向量进行拼接得到度量学习特征向量

其维数为2l。

S103，根据度量学习特征对图像进行识别。

具体地，可参照相关技术中根据图像的特征对图像进行识别的方法。举例来说，可使用相应的分类器根据度量学习特征对图像进行识别。

根据本申请实施例的图像识别方法，图像可为包含有人脸的商品展示图像，例如购物网站上的通过模特着装展示的服饰类商品、画报封面图和广告图等。根据度量学习特征对图像进行识别可具体包括：根据度量学习特征对图像进行人脸识别。为防止部分商家在购物网站的商品展示图像中，在未经授权时，以盈利为目的非法使用明星或其他人的肖像，本申请据此提出了对图像进行人脸识别的方法。如图4所示，为进行人脸识别，本申请实施例的图像识别方法，可包括以下步骤：

S401，提取人脸图像的多维度局部特征，并提取人脸图像的深度学习特征。

其中，在本申请的实施例中，对于像素值大于100*100的人脸图像有更好的识别效果

S402，将多维度局部特征和深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征。

S403，根据度量学习特征对图像进行人脸识别。

根据本申请实施例的图像识别方法，能够精确地识别出同一个人在不同姿态、表情和各种复杂背景下的人脸图像，同时能够精确地区分不同人的人脸图像，由此可以对大量图像中的人脸进行精确的识别，从而可以实现对商品图像中明星肖像使用资质的审查。

为实现上述实施例的图像识别方法，本申请还提出一种图像识别装置。

图5为根据本申请一个实施例的图像识别装置的结构框图。

如图5所示，本申请实施例的图像识别装置，包括：提取模块10、学习模块20和识别模块30。

其中，提取模块10用于提取图像的多维度局部特征，并提取图像的深度学习特征。

在本申请的实施例中，该图像为待识别图像，本申请对待识别图像的格式、大小和来源不做限定，其中，格式可以为但不限于JPG、PNG、TIF、BMP等。应当理解，对于图像分辨率越大的待识别图像，识别效果越好。对于图像的来源，可以是SD卡中所存储的图像；可以是通过摄像机拍摄、图片抓取软件抓取等方式获取的图像；还可以是通过网络从云端服务器下载的图像等。

举例而言，一幅图像进行尺度转化后可生成如图2所示的与图像内容相同、尺寸分别为300*300、212*212、150*150、106*106和75*75的5个转化图像。图2所示的示例中的图像为一张人脸图像，因此，可将5个转化图像中的双眼、鼻子和两个嘴角作为关键点，即每张转化图像具有5个关键点。将每个转化图像中的各个关键点所在区域划分为4*4的方格，其中每个小方格的像素值为10*10。然后在每个小方格内提取59维规格相同的LBP特征，并将所有特征拼接起来，得到长度为5*5*4*4*59的特征向量，即23600维局部特征向量。其中，在每个小方格内除可提取LBP特征外，还可提取SIFT、HOG和Gabor等特征，或提取以上两个或多个特征的组合，本申请对特征提取过程中所提取的特征类型不做限定，可以是上述或者其他特征中的任意一种。

本申请实施例的深度学习模型，可选地，除DCNN外，还可使用Auto Encoder和DBM等。在深度学习过程中，初始的训练参数可选用已公开的初始参数，优选地，为提高学习的速度和精确度，还可采用分层的预训练的方式获得初始的训练参数。本申请对深度学习模型和初始训练参数的选择不作具体限定。

然后将训练数据集输入DCNN。如图3所示，DCNN由2个Convolution(卷积)层、5个Pooling(池化)层、9个Inception层(一种多尺度的网络结构，包含Convolution和Pooling层)、3个Full-Connection(全连接层)、1个Dropout(部分连接)层和3个Softmax(分类器)构成。图像在DCNN中的训练过程可包括前向预测和反向传播。其中，前向预测是指将图像输入DCNN后，自图3中的Convolution1开始，根据网络连接上的权重逐层计算训练图像，直到最后预测分类结果。反向传播是指自图3中Softmax3开始反向逐层更新网络连接上的权重。可交替进行前向预测和反向传播的过程，直至图像特征的精度达到要求(收敛于预设的值)，得到深度学习模型。其中，Softmax1和Softmax2可防止因反向传播而导致的训练梯度衰减，并且可以得到图像的中层特征描述。

学习模块20用于将多维度局部特征和深度学习特征进行拼接，并通过度量学习对拼接后的特征进行学习以得到度量学习特征。

在本申请的一个实施例中，可将提取模块10所提取的待识别图像的多维度局部特征向量和深度学习特征向量拼接在一起，形成该图像对应的一个多维向量。然后分别使用预先训练的度量学习降维矩阵对拼接后的多维向量进行降维处理以得到度量学习特征。

在本申请的另一个实施例中，还可包括训练度量学习降维矩阵的过程。因此，根据本申请实施例的图像识别装置，通过度量学习对拼接后的特征进行学习以得到度量学习特征具体还可包括：获取图像训练数据，并构建度量学习的优化代价函数，其中，图像训练数据包括多个样本对；以及根据图像训练数据对优化代价函数训练度量学习降维矩阵。其中，度量学习矩阵包括第一度量学习矩阵和第二度量学习矩阵。

公式(1)即为所构建的优化代价函数。

假设将每个图像的多维度局部特征和深度学习特征进行拼接后，形成一个与该图像对应的m维向量，且多个样本对由n个样本图像组成，则可通过2阶范数归一化，使n个样本图像的m维向量生成一个m×n的矩阵A，再对矩阵A使用PCA的方法得到l×m的降维矩阵B。其中，l可根据对图像识别的精度要求来设定，可以理解，一般地，l越大，图像识别精度越高，而在本申请的实施例中，通过实验测得：当l大于128时，随着l的增大，对图像识别精度的提升不再明显。因此，在本实施例中，可令l＝128。

中关于矩阵V的偏导数的值。

此外，根据本申请实施例的图像识别装置，可选地，在用于获取度量学习降维矩阵的优化代价函数中，可仅使用欧式距离或余弦距离作为训练样本对的特征向量降维后的距离。在对优化代价函数进行迭代的过程中，可仅使用正样本对或负样本对，并且，除了使用PCA的方法得到的降维矩阵外，还可使用随机的矩阵对度量学习降维矩阵进行初始化。

可分别由W和V计算得到第一降维特征向量

和第二降维特征向量

其维数为2l。

识别模块30用于根据度量学习特征对图像进行识别。

具体地，可参照相关技术中根据图像的特征对图像进行识别的方法。举例来说，识别模块30可通过相应的分类器根据度量学习特征对图像进行识别。

根据本申请实施例的图像识别装置，图像可为包含有人脸的商品展示图像，例如购物网站上的通过模特着装展示的服饰类商品、画报封面图和广告图等。为防止部分商家在购物网站的商品展示图像中，在未经授权时，以盈利为目的非法使用明星或其他人的肖像，本申请实施例的识别模块30可具体用于：根据度量学习特征对图像进行人脸识别。

根据本申请实施例的图像识别装置，能够精确地识别出同一个人在不同姿态、表情和各种复杂背景下的人脸图像，同时能够精确地区分不同人的人脸图像，由此可以对大量图像中的人脸进行精确的识别，从而可以实现对商品图像中明星肖像使用资质的审查。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同限定。

Claims

1.一种图像识别方法，其特征在于，包括以下步骤：

提取所述图像的多维度局部特征，并提取所述图像的深度学习特征；

将所述多维度局部特征和所述深度学习特征进行拼接以形成所述图像的多维向量，并通过度量学习降维矩阵对拼接后的所述多维向量进行降维处理以得到度量学习特征，其中，所述度量学习降维矩阵包括第一度量学习降维矩阵和第二度量学习降维矩阵；

根据所述度量学习特征对所述图像进行识别；

所述方法还包括：

获取图像训练数据，并构建度量学习的优化代价函数，所述图像训练数据包括多个样本对，其中，所述优化代价函数为所述第一度量学习降维矩阵、所述第二度量学习降维矩阵、样本对标签、分类阈值、所述样本对的特征向量、所述样本对的特征向量根据所述第一度量学习降维矩阵进行降维后的向量、所述样本对的特征向量根据所述第二度量学习降维矩阵进行降维后的向量的函数；

根据所述图像训练数据对所述优化代价函数训练所述度量学习降维矩阵。

2.如权利要求1所述的图像识别方法，其特征在于，所述根据所述图像训练数据对所述优化代价函数训练所述度量学习降维矩阵具体包括：

提取所述图像训练数据中的每个图像的多维度局部特征和深度学习特征；

对每个图像的多维度局部特征和深度学习特征进行拼接；

根据所述图像训练数据中的每个样本对所对应的拼接后的特征对优化代价函数进行迭代以获得所述度量学习降维矩阵。

3.如权利要求1所述的图像识别方法，其特征在于，所述通过度量学习降维矩阵对拼接后的所述多维向量进行降维处理以得到度量学习特征具体包括：

分别通过所述第一度量学习降维矩阵和所述第二度量学习降维矩阵对所述拼接后的特征进行降维得到第一降维特征和第二降维特征；

将所述第一降维特征和第二降维特征进行拼接得到所述度量学习特征。

4.如权利要求1所述的图像识别方法，其特征在于，其中，所述优化代价函数为：

其中，W为所述第一度量学习降维矩阵，V为所述第二度量学习降维矩阵，y_ij为样本对标签，b为分类阈值，φ_i和φ_j为所述样本对的特征向量，φ_i和φ_j降维后的距离

Wφ_i和Wφ_j分别为φ_i和φ_j根据所述第一度量学习降维矩阵进行降维后的向量，

为Wφ_i和Wφ_j的欧式距离，Vφ_i和Vφ_j分别为φ_i和φ_j根据所述第二度量学习降维矩阵进行降维后的向量，<Vφ_i,Vφ_j>为Vφ_i和Vφ_j的余弦距离。

5.如权利要求1所述的图像识别方法，其特征在于，所述提取所述图像的多维度局部特征具体包括：

对所述图像进行尺度转化，以生成所述与所述图像内容相同、尺寸不同的多个转化图像；

分别确定每个转化图像中的多个关键点位置；

分别提取每个转化图像中多个关键点位置的局部高维特征；

将提取到的局部高维特征进行拼接，以得到所述图像的多维度局部特征。

6.如权利要求1所述的图像识别方法，其特征在于，提取所述图像的深度学习特征具体包括：

根据深度学习模型对所述图像进行深度特征学习，以提取所述深度学习特征。

7.如权利要求1-6任一项所述的图像识别方法，其特征在于，所述图像为商品展示图像，所述根据所述度量学习特征对所述图像进行识别具体包括：

根据所述度量学习特征对所述图像进行人脸识别。

8.一种图像识别装置，其特征在于，包括：

提取模块，用于提取所述图像的多维度局部特征，并提取所述图像的深度学习特征；

学习模块，用于将所述多维度局部特征和所述深度学习特征进行拼接以形成所述图像的多维向量，并通过度量学习降维矩阵对拼接后的所述多维向量进行降维处理以得到度量学习特征，其中，所述度量学习降维矩阵包括第一度量学习降维矩阵和第二度量学习降维矩阵；

识别模块，用于根据所述度量学习特征对所述图像进行识别；

所述通过度量学习降维矩阵对拼接后的所述多维向量特征进行降维处理以学习以得到度量学习特征具体还包括：

9.如权利要求8所述的图像识别装置，其特征在于，所述根据所述图像训练数据对所述优化代价函数训练所述度量学习降维矩阵具体包括：

对每个图像的多维度局部特征和深度学习特征进行拼接；

10.如权利要求8所述的图像识别装置，其特征在于，所述通过度量学习降维矩阵对拼接后的所述多维向量进行降维处理以得到度量学习特征具体包括：

11.如权利要求8所述的图像识别装置，其特征在于，其中，所述优化代价函数为：

12.如权利要求8所述的图像识别装置，其特征在于，所述提取所述图像的多维度局部特征具体包括：

分别确定每个转化图像中的多个关键点位置；

分别提取每个转化图像中多个关键点位置的局部高维特征；

13.如权利要求8所述的图像识别装置，其特征在于，提取所述图像的深度学习特征具体包括：

14.如权利要求8-13任一项所述的图像识别装置，其特征在于，所述图像为商品展示图像，所述识别模块具体用于：

根据所述度量学习特征对所述图像进行人脸识别。