CN107220614B

CN107220614B - 图像识别方法、装置及计算机可读存储介质

Info

Publication number: CN107220614B
Application number: CN201710374214.9A
Authority: CN
Inventors: 万韶华
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-08-10
Anticipated expiration: 2037-05-24
Also published as: CN107220614A

Abstract

本公开是关于一种图像识别方法、装置及计算机可读存储介质，属于图像处理技术领域。该方法包括：通过LSH方法对目标图像的特征向量进行编码，得到目标图像的特征向量的哈希序列，并根据目标图像的特征向量的哈希序列和预先设置的多个标定图像，确定目标图像的类别，以实现对目标图像的识别。由于哈希序列为通过LSH方法对目标图像的特征向量进行编码得到的序列，因此，通过目标图像的特征向量的哈希序列来确定目标图像的类别，可以避免直接通过确定目标图像的特征向量和每个标定图像的特征向量之间的距离来确定目标图像的类别，便于对该目标图像快速进行识别。

Description

图像识别方法、装置及计算机可读存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像识别方法、装置及计算机可读存储介质。

背景技术

随着智能人机交互技术的发展，计算机通常需要对采集到的图像进行识别，以便于计算机根据该图像确定用户的当前动作。如计算机对采集到的人脸图像进行识别，以确定用户的当前表情。

相关技术中，在计算机中预先设置有多个标定图像，每个标定图像对应一个类别。当计算机接收到需要进行识别的目标图像时，提取目标图像的特征向量，通过度量学习方法确定目标图像的特征向量和多个标定图像中每个标定图像的特征向量之间的距离，得到多个距离，并将距离小于预设距离的标定图像的类别确定为目标图像的类别，以实现对目标图像的识别。

发明内容

为克服相关技术中存在的问题，本公开提供一种图像识别方法、装置及计算机可读存储介质，所述技术方案如下：

根据本公开实施例的第一方面，提供一种图像识别方法，所述方法包括：

确定待识别的目标图像的特征向量；

通过LSH(Locality-Sensitive Hashing，局部敏感哈希编码)方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列；

根据所述目标图像的特征向量的哈希序列和预先设置的多个标定图像，从所述多个标定图像对应的类别中确定所述目标图像的类别。

可选地，所述根据所述目标图像的特征向量的哈希序列和预先设置的多个标定图像，从所述多个标定图像对应的类别中确定所述目标图像的类别，包括：

通过所述LSH方法确定所述多个标定图像中每个标定图像的特征向量的哈希序列；

确定所述目标图像的特征向量的哈希序列和每个标定图像的特征向量的哈希序列之间的汉明距离；

将汉明距离小于预设距离的标定图像对应的类别确定为所述目标图像的类别。

可选地，所述通过LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列，包括：

随机产生n个服从正态分布的向量，得到n个随机向量；

对于所述n个随机向量中的每个随机向量，根据所述随机向量，按照如下公式确定所述目标图像的特征向量的哈希序列中的一个元素；

其中，h_r(x)为所述目标图像的特征向量的哈希序列中的一个元素，r为所述随机向量，x为所述目标图像的特征向量，L为指定度量矩阵的柯列斯基分解矩阵。

可选地，所述通过LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列之前，还包括：

确定训练样本集，所述训练样本集包括多个样本图像；

根据所述训练样本集中的多个样本图像，确定所述指定度量矩阵；

对所述指定度量矩阵进行分解，得到所述指定度量矩阵的柯列斯基分解矩阵。

可选地，所述确定待识别的目标图像的特征向量，包括：

确定所述目标图像中目标对象的位置，并通过预设算法根据所述目标对象的位置获取所述目标对象包括的多个预设特征点的位置，所述目标对象包括人脸；

根据所述多个预设特征点的位置，确定所述目标图像的形状特征向量；

确定所述多个预设特征点中每个预设特征点的Gabor特征，基于确定得到的Gabor特征生成所述目标图像的纹理特征向量；

将所述形状特征向量和所述纹理特征向量合并，得到所述目标图像的特征向量。

根据本公开实施例的第二方面，提供一种图像识别装置，所述装置包括：

第一确定模块，用于确定待识别的目标图像的特征向量；

编码模块，用于通过LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列；

第二确定模块，用于根据所述目标图像的特征向量的哈希序列和预先设置的多个标定图像，从所述多个标定图像对应的类别中确定所述目标图像的类别。

可选地，所述第二确定模块包括：

第一确定子模块，用于通过所述LSH方法确定所述多个标定图像中每个标定图像的特征向量的哈希序列；

第二确定子模块，用于确定所述目标图像的特征向量的哈希序列和每个标定图像的特征向量的哈希序列之间的汉明距离；

第三确定子模块，用于将汉明距离小于预设距离的标定图像对应的类别确定为所述目标图像的类别。

可选地，所述编码模块，具体用于：

随机产生n个服从正态分布的向量，得到n个随机向量；

可选地，所述装置还包括：

第三确定模块，用于确定训练样本集，所述训练样本集包括多个样本图像；

第四确定模块，用于根据所述训练样本集中的多个样本图像，确定所述指定度量矩阵；

分解模块，用于对所述指定度量矩阵进行分解，得到所述指定度量矩阵的柯列斯基分解矩阵。

可选地，所述第一确定模块，包括：

第四确定子模块，用于确定所述目标图像中目标对象的位置，并通过预设算法根据所述目标对象的位置获取所述目标对象包括的多个预设特征点的位置，所述目标对象包括人脸；

第五确定子模块，用于根据所述多个预设特征点的位置，确定所述目标图像的形状特征向量；

第六确定子模块，用于确定所述多个预设特征点中每个预设特征点的Gabor特征，基于确定得到的Gabor特征生成所述目标图像的纹理特征向量；

合并子模块，用于将所述形状特征向量和所述纹理特征向量合并，得到所述目标图像的特征向量。

根据本公开实施例的第三方面，提供另一种图像识别装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述的图像识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述的图像识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开实施例中，根据目标图像的特征向量的哈希序列和预先设置的多个标定图像，确定目标图像的类别，也即确定目标图像和该多个标定图像中的哪个标定图像最相似，以实现对目标图像的识别。由于哈希序列为通过LSH方法对目标图像的特征向量进行编码得到的序列，因此，通过目标图像的特征向量的哈希序列来确定目标图像的类别，可以避免直接通过确定目标图像的特征向量和每个标定图像的特征向量之间的距离来确定目标图像的类别，便于对该目标图像快速进行识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开实施例提供的一种图像识别方法流程图。

图2是本公开实施例提供的另一种图像识别方法流程图。

图3A是本公开实施例提供的一种图像识别装置框图。

图3B是本公开实施例提供的另一种图像识别装置框图。

图4是本公开实施例提供的另一种图像识别装置框图。

图5是本公开实施例提供的另一种图像识别装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在对本公开实施例进行详细解释说明之前，先对本公开实施例涉及的名词进行解释说明。

特征向量：是指用于描述图像中包括的对象的具体特征的一组向量，如对于一张包括人脸的图像，该图像的特征向量是指用于描述人脸的形状以及人脸包括的像素点的像素值分布情况的一组向量。

LSH方法：是一种用于从海量的高维数据集合中查找与某个数据最相似的一组数据的算法。

哈希序列：将一组数据中的每个数据分别通过预设哈希函数得到一个哈希值，得到的一组哈希值称为该一组数据的哈希序列。

汉明距离：是指两个长度相同的字符串对应位置上的不同字符的个数，如字符串1011101与字符串1001001之间的汉明距离是2，字符串toned与字符串roses之间的汉明距离是3。

度量学习：也即相似度学习，用于度量不同图像之间的相似度，以使不同类别的图像之间的相似度更小，相同类别的图像之间的相似度更大。

度量矩阵：为度量学习中用于确定度量函数的一个矩阵，其中度量函数用于确定两个不同图像之间的距离，也即两个不同图像之间的相似度。

柯列斯基(cholesky)分解：是指将一个正定矩阵分解为一个上三角矩阵和一个下三个矩阵的方法，或将一个正定矩阵分解为一个三角矩阵和一个该三角矩阵的转置矩阵的方法，其中，将柯列斯基分解得到的矩阵称为柯列斯基分解矩阵。

Gabor特征：是指用于描述一张图像不同尺度不同方向的局部范围内的像素灰度值的变化情况的数据。

接下来对本公开实施例的应用场景进行介绍。在智能人机交互技术中，计算机通常需要对采集到的图像进行识别，以便于计算机根据该图像确定用户的当前动作或对用户的身份信息进行认证。如计算机可以根据采集的人脸图像，确定用户当前处于喜悦状态、愤怒状态还是害怕状态等。又例如，计算机还可以根据采集的人脸图像，对该人脸图像进行识别，以确定该用户的身份信息，如人脸打卡技术。而本公开实施例提供的图像识别方法就应用于计算机对采集到的人脸图像进行识别的场景中。为了后续便于说明，将待进行识别的图像称为目标图像。

相关技术中，计算机直接通过确定目标图像的特征向量和多个标定图像中每个标定图像的特征向量之间的距离来对目标图像进行识别，由于图像的特征向量的维数通常较大，且通过度量学习的方法确定两个图像的特征向量之间的距离通常涉及到矩阵的相关运算，导致直接确定两个图像的特征向量之间的距离的过程比较复杂，不利于计算机对目标图像快速进行识别。

因此，在本公开实施例中，通过LSH方法对目标图像的特征向量进行编码，得到目标图像的特征向量的哈希序列，并根据目标图像的特征向量的哈希序列和预先设置的多个标定图像，确定目标图像的类别，也即确定目标图像和该多个标定图像中的哪个标定图像最相似，以实现对目标图像的识别。由于哈希序列为通过LSH方法对目标图像的特征向量进行编码得到的序列，因此，通过目标图像的特征向量的哈希序列来确定目标图像的类别，可以避免直接通过确定目标图像的特征向量和每个标定图像的特征向量之间的距离来确定目标图像的类别，便于对该目标图像快速进行识别。

下面将结合附图为本公开实施例提供的图像识别方法进行详细说明。

图1为本公开实施例提供的一种图像识别方法流程图，该方法应用于任何需要对图像进行分类的设备中，该设备可以为终端或服务器。如图1所示，该方法包括以下步骤。

在步骤101中，确定待识别的目标图像的特征向量。

在步骤102中，通过LSH方法对该目标图像的特征向量进行编码，得到该目标图像的特征向量的哈希序列。

在步骤103中，根据该目标图像的特征向量的哈希序列和预先设置的多个标定图像，从该多个标定图像对应的类别中确定该目标图像的类别。

可选地，根据该目标图像的特征向量的哈希序列和预先设置的多个标定图像，从该多个标定图像对应的类别中确定该目标图像的类别，包括：

通过该LSH方法确定该多个标定图像中每个标定图像的特征向量的哈希序列；

确定该目标图像的特征向量的哈希序列和每个标定图像的特征向量的哈希序列之间的汉明距离；

将汉明距离小于预设距离的标定图像对应的类别确定为该目标图像的类别。

可选地，通过LSH方法对该目标图像的特征向量进行编码，得到该目标图像的特征向量的哈希序列，包括：

随机产生n个服从正态分布的向量，得到n个随机向量；

对于该n个随机向量中的每个随机向量，根据该随机向量，按照如下公式确定该目标图像的特征向量的哈希序列中的一个元素；

其中，h_r(x)为该目标图像的特征向量的哈希序列中的一个元素，r为该随机向量，x为该目标图像的特征向量，L为指定度量矩阵的柯列斯基分解矩阵。

可选地，通过LSH方法对该目标图像的特征向量进行编码，得到该目标图像的特征向量的哈希序列之前，还包括：

确定训练样本集，该训练样本集包括多个样本图像；

根据该训练样本集中的多个样本图像和该多个标定图像，确定该指定度量矩阵；

对该指定度量矩阵进行分解，得到该指定度量矩阵的柯列斯基分解矩阵。

可选地，该确定待识别的目标图像的特征向量，包括：

确定该目标图像中目标对象的位置，并通过预设算法根据该目标对象的位置获取该目标对象包括的多个预设特征点的位置，该目标对象包括人脸；

根据该多个预设特征点的位置，确定该目标图像的形状特征向量；

确定该多个预设特征点中每个预设特征点的Gabor特征，基于确定得到的Gabor特征生成该目标图像的纹理特征向量；

将该形状特征向量和该纹理特征向量合并，得到该目标图像的特征向量。

上述所有可选技术方案，均可按照任意结合形成本公开的可选实施例，本公开实施例对此不再一一赘述。

图2为本公开实施例提供的另一种图像识别方法流程图，该方法应用于任何需要对图像进行分类的设备中，该设备可以为终端或服务器。如图2所示，该方法包括以下步骤。

在本公开实施例中，为了对目标图像进行识别，需先提取该目标图像中用于描述该目标图像具体特征的数据，也即确定该待识别的目标图像的特征向量。其中，确定该目标图像的特征向量可以通过下述步骤201至步骤204来实现。

在步骤201中，确定该目标图像中目标对象的位置，并通过预设算法根据该目标对象的位置获取该目标对象包括的多个预设特征点的位置，该目标对象包括人脸。

由于不同的目标图像中目标对象所处的位置可能不同，如对于不同的目标图像，每个目标图像中人脸的位置和另一个目标图像中人脸的位置可能不相同，因此，在得到待识别的目标图像时，需先确定目标图像中目标对象的位置，也即对目标对象进行定位。

当目标对象为人脸时，确定该目标图像中目标对象的位置的实现过程可以为：通过ASEF(Average of Synthetic Exact Filters，平均合成精确滤波器)方法对目标图像进行滤波，得到滤波后的图像；根据滤波后的图像，确定该图像中用于表征人脸特征的某个器官的位置，如眼睛或鼻子的位置，以实现对目标对象人脸的定位，此时人脸的位置也即用于表征人脸特征的某个器官的位置。为了后续便于说明，将该用于表征人脸特征的某个器官的位置称为标定点的位置。

当确定出人脸位置也即标定点的位置时，通过预设算法根据该人脸的位置获取该人脸包括的多个预设特征点的位置，也即，根据标定点的位置，确定人脸中各器官的分布区域，并根据人脸中各器官的分布区域的投影图确定该人脸包括的多个预设特征点的坐标，也即确定该多个预设特征点的位置。

其中，标定点的位置为该标定点在该目标图像中的坐标，该多个预设特征点的位置为该多个预设特征点在该目标图像中的坐标。

需要说明的是，当目标对象为人脸时，除了可以通过ASEF方法确定该目标图像中目标对象的位置之外，还可以通过其他方法确定目标对象的位置，如通过SDF(SyntheticDiscriminant Function，综合鉴别函数)滤波方法或MACE(minimum average correlationenergy，最小平均相关能量)滤波方法来确定目标对象的位置，本公开实施例在此不做具体限定。

在步骤202中，根据该多个预设特征点的位置，确定该目标图像的形状特征向量。

由于不同目标图像中的标定点的位置可能并不相同，为了后续便于对该多个预设特征点的位置进行处理，当确定出标定点的位置和该多个预设特征点的位置时，也即确定出该标定点的坐标和该多个预设特征点的坐标，此时将该标定点设置为坐标原点，对该多个预设特征点的坐标进行转换，得到转换后的该多个预设特征点的坐标。

之后，根据转换后的该多个预设特征点的坐标，确定该目标对象的形状特征向量。也即，根据转换后的该多个预设特征点的坐标，确定该多个预设特征点中任意两个特征点之间的距离，以及该任意两个预设特征点之间的夹角。并将该任意两个预设特征点之间的距离，以及该任意两个预设特征点之间的夹角构成的一组数据确定为该目标图像的形状特征向量。

例如，该多个预设特征点为68个预设特征点，此时在得到该68个预设特征点转换后的坐标之后，确定该68个预设特征点中任意两个预设特征点之间的距离和该任意两个预设特征点之间的夹角，得到

个数据，并将该4556个数据确定为该目标图像的形状特征向量。

可选地，在确定该多个预设特征点中任意两个预设特征点之间的距离以及该任意两个预设特征点之间的夹角之后，还可以通过其他方式确定该目标图像的形状特征向量。例如，可以从该任意两个预设特征点之间的距离以及该任意两个预设特征点之间的夹角中选取指定数量的数据，并将选取的数据确定为该目标图像的形状特征向量。

在步骤203中，确定该多个预设特征点中每个预设特征点的Gabor特征，基于确定得到的Gabor特征生成该目标图像的纹理特征向量。

由于目标图像包括各种各样的纹理，也即目标图像在不同方向和不同尺度上的局部范围内的像素点的灰度值的变化情况并不相同，因此可以通过目标图像的纹理来表征目标图像的特征。

其中，获取目标图像在不同方向和不同尺度上的局部范围内的像素点的灰度值的变化情况可以通过二维Gabor滤波器来实现。也即，对于该多个预设特征点中的每个预设特征点，以该预设特征点为中心，确定一个大小为预设大小的区域，通过二维Gabor滤波器确定该区域的Gabor特征，并将该区域的Gabor特征确定为该预设特征点的Gabor特征。

在得到每个预设特征点的Gabor特征之后，将该多个预设特征点中每个预设特征点的Gabor特征组合，得到一组数据，并将该一组数据确定为该目标图像的纹理特征向量。例如，对于目标图像中的人脸有68个预设特征点，将该68个预设特征点的Gabor特征组合为一组数据，得到该人脸图像的纹理特征向量。

需要说明的是，由于二维Gabor滤波器确定的是局部区域在不同方向和不同尺度上的像素点的灰度值的变化情况，因此，对于某个局部区域，二维Gabor滤波器获取的该局部区域的Gabor特征包括多个数据。例如，当二维Gabor滤波器用于获取5个尺度8个方向上的Gabor特征时，对于某个局部区域，该二维Gabor滤波器获取的该局部区域的Gabor特征包括40个数据，该40个数据中的任一个数据用于指示该局部区域在上述5个尺度8个方向中的一个尺度一个方向上的像素点的灰度值的变化情况。

在步骤204中，将该形状特征向量和该纹理特征向量合并，得到该目标图像的特征向量。

由步骤202和步骤203可知，目标图像的形状特征向量和目标图像的纹理特征向量分别为一组数据，因此可以直接将该两组数据合并，并将合并后的一组数据确定为该目标图像的特征向量。

例如，目标图像的形状特征向量为(x₁、x₂、…、x_n)，目标图像的纹理特征向量为(y₁、y₂、…、y_m)，此时，目标图像的特征向量可以表示为(x₁、x₂、…、x_n、y₁、y₂、…、y_m)。

在本公开实施例中，为了提高识别目标图像的速度，在得到目标图像的特征向量之后，并没有直接根据目标图像的特征向量，确定目标图像的特征向量和预先设置的多个标定图像中的每个标定图像的特征向量之间的距离，而是对目标图像的特征向量进行编码，并根据目标图像的特征向量的编码值来对目标图像进行识别。其中，对目标图像的特征向量进行编码可以通过下述步骤205和步骤206来实现。

在步骤205中，确定LSH方法中指定度量矩阵的柯列斯基分解矩阵。

由于本公开实施例是通过LSH方法对目标图像的特征向量进行编码，而本公开实施例提供的LSH方法涉及到度量矩阵的柯列斯基分解矩阵，因此，在对目标图像的特征向量进行编码之前，需要先确定指定度量矩阵的柯列斯基分解矩阵。

在一种可能的实现方式中，步骤205的实现过程可以为：确定训练样本集，该训练样本集包括多个样本图像；根据该训练样本集中的多个样本图像，确定该指定度量矩阵；对该指定度量矩阵进行分解，得到该指定度量矩阵的柯列斯基分解矩阵。

其中，根据该训练样本集中的多个样本图像，确定该指定度量矩阵的实现过程可以为：对于该训练样本集中包括的多个样本图像，确定相似集合和非相似集合，其中，相似集合为该多个样本图像中类别相同的图像构成的集合，非相似集合为该多个样本图像中类别不相同的图像构成的集合。对于相似集合，假设相似集合中任意两个图像之间的马氏距离小于等于第一阈值；对于非相似集合，假设非相似集合中任意两个图像之间的马氏距离大于等于第二阈值，其中，第二阈值大于等于第一阈值。此时，可以根据下述公式确定该指定度量矩阵：

minD_ld(A,A₀)

其中，A为该指定度量矩阵，A₀为单位矩阵，D_ld(A,A₀)为布雷格曼散度，S为上述相似集合，D为上述非相似集合，l为第一阈值，μ为第二阈值，x_i,x_j为上述训练样本集中任意两个样本图像的特征向量。

也即，对于该训练样本集中任意两个样本图像，当该两个样本图像为相似集合中的图像时，满足该两个样本图像的特征向量之间的马氏距离小于等于第一阈值，当该两个样本图像为非相似集合中的图像时，满足该两个样本图像的特征向量之间的马氏距离小于等于第二阈值。在该条件下，假设该指定度量矩阵为已知矩阵，确定该指定度量矩阵和单位矩阵A₀之间的布雷格曼散度D_ld(A,A₀)，此时，在该雷格曼散度D_ld(A,A₀)最小时对应的矩阵即为该指定度量矩阵。

另外，两个样本图像的特征向量之间的马氏距离可以通过下述公式确定：

当确定出该LSH方法中的指定度量矩阵A时，通过下述公式确定该指定度量矩阵A的柯列斯基分解矩阵：

A＝LL^T

其中，L即为指定度量矩阵A的柯列斯基分解矩阵。

当确定出该指定度量矩阵A的柯列斯基分解矩阵，可以通过下述步骤206对目标图像的特征向量进行编码。

需要说明的是，上述确定该指定度量矩阵是通过基于信息论的距离度量学习方法实现的，当然在本公开实施例中，还可以通过其他方法确定该指定度量矩阵。例如，可以通过基于成对约束的距离度量学习方法或通过基于样本对距离和的距离度量学习方法来确定该指定度量矩阵，本公开实施例在此不做具体限定。

另外需要说明的是，步骤205可以在步骤204之后，也可以在步骤201之前，本公开实施例对此不做具体限定。实际应用中，只需保证步骤205在步骤206之前即可。

值得注意的是，在本公开实施例中，可以通过上述步骤205来确定LSH方法中的指定度量矩阵，当然，也可以预先设置该指定度量矩阵，也即，在对目标图像进行识别之前，预先为该LSH方法设置一个矩阵，将设置的矩阵确定为该指定度量矩阵，并确定该指定度量矩阵的柯列斯基分解矩阵。

在步骤206中，通过LSH方法对该目标图像的特征向量进行编码，得到该目标图像的特征向量的哈希序列。

其中，步骤206的实现过程可以为：随机产生n个服从正态分布的向量，得到n个随机向量；对于该n个随机向量中的每个随机向量，根据该随机向量，按照如下公式确定该目标图像的特征向量的哈希序列中的一个元素；

为了便于说明，将该n个随机向量标记为(r₁、r₂、…、r_n)，对于该n个随机向量中任一个随机向量r_i，根据上述公式确定一个编码值，并将该编码值确定该目标图像的特征向量的哈希序列中的一个元素，标记为h_i。当对该n个随机向量均执行该操作时，得到n个编码值(h₁、h₂、…、h_n)，该n个编码值(h₁、h₂、…、h_n)即为该目标图像的特征向量的哈希序列，也即该目标图像的特征向量的哈希序列的长度为n。

其中，n为预设个数，n可以为5、10或15等。另外，该n个随机向量中每个随机向量的长度相同，且每个随机向量r_i的长度和该目标图像的特征向量的长度相同，如该目标图像的特征向量的长度为1000，则每个随机向量r_i的长度也为1000，也即每个随机向量r_i中均包括1000个随机数据。

在步骤207中，根据该目标图像的特征向量的哈希序列和预先设置的多个标定图像，从该多个标定图像对应的类别中确定该目标图像的类别。

步骤207的实现过程可以为：通过该LSH方法确定该多个标定图像中每个标定图像的特征向量的哈希序列；确定该目标图像的特征向量的哈希序列和每个标定图像的特征向量的哈希序列之间的汉明距离；将汉明距离小于预设距离的标定图像对应的类别确定为该目标图像的类别。

其中，通过该LSH方法确定该多个标定图像中每个标定图像的特征向量的哈希序列，可以参考步骤206中通过该LSH方法确定该目标图像的特征向量的哈希序列的实现过程，本公开实施例在此不做详细阐述。

当确定出每个标定图像的特征向量的哈希序列之后，对于每个标定图像的特征向量的哈希序列，确定该目标图像的特征向量的哈希序列和该标定图像的特征向量的哈希序列对应位置上字符不同的个数，并将该字符不同的个数确定为该目标对象的特征向量的哈希序列和该标定图像的特征向量的哈希序列之间的汉明距离。然后通过得到的多个汉明距离确定该目标图像的类别。

其中，预设距离为预先设置的数值，该预设距离可以为2、5或10等。

例如，预设距离为2，该多个标定图像分别为图像1、图像2、图像3、图像4、图像5、图像6和图像7。该7个标定图像分别用于指示不同的表情，也即图像1的类别为“中性”、图像2的类别为“愤怒”、图像3的类别为“厌恶”、图像4的类别为“害怕”、图像5的类别为“喜悦”、图像6的类别为“悲伤”以及图像7的类别为“惊讶”。

通过上述方法确定目标图像的特征向量的哈希序列和上述每个标定图像的特征向量的哈希序列之间的汉明距离依次为：3、10、15、1、8、6和4。此时，只有图像4的特征向量的哈希序列和该目标图像的特征向量的哈希序列之间的汉明距离小于该预设距离2，因此可以将图像4的类别确定为该目标图像的类别，也即目标图像的类别为“害怕”，从而实现对目标图像的识别。

需要说明的是，步骤207中的LSH方法中使用的n个随机向量需和步骤206中的LSH方法中使用的n个随机向量相同，且n个随机向量的排序也需相同。也即，当在步骤206中使用n个随机向量(r₁、r₂、…、r_n)依次确定该目标图像的特征向量的哈希序列中的元素时，在步骤207中，也需使用该n个随机向量(r₁、r₂、…、r_n)依次确定该每个标定图像的特征向量的哈希序列中的元素。

另外，确定每个标定图像的特征向量和步骤201至步骤204中确定该目标图像的特征向量的过程基本相同，本公开实施例在此不做详细阐述。

本公开实施例除了提供上述图像识别方法，还提供了一种图像识别装置。下述实施例将对该图像识别装置进行详细说明。

图3A是本公开实施例提供的一种图像识别装置300框图。参照图3A，该装置包括第一确定模块301、编码模块302和第二确定模块303。

第一确定模块301，用于确定待识别的目标图像的特征向量；

编码模块302，用于通过LSH方法对该目标图像的特征向量进行编码，得到该目标图像的特征向量的哈希序列；

第二确定模块303，用于根据该目标图像的特征向量的哈希序列和预先设置的多个标定图像，从该多个标定图像对应的类别中确定该目标图像的类别。

可选地，该第二确定模块303包括：

第一确定子模块，用于通过该LSH方法确定该多个标定图像中每个标定图像的特征向量的哈希序列；

第二确定子模块，用于确定该目标图像的特征向量的哈希序列和每个标定图像的特征向量的哈希序列之间的汉明距离；

第三确定子模块，用于将汉明距离小于预设距离的标定图像对应的类别确定为该目标图像的类别。

可选地，该编码模块302，具体用于：

随机产生n个服从正态分布的向量，得到n个随机向量；

可选地，参见图3B，该装置300还包括第三确定模块304、第四确定模块305和分解模块306：

第三确定模块304，用于确定训练样本集，该训练样本集包括多个样本图像；

第四确定模块305，用于根据该训练样本集中的多个样本图像，确定该指定度量矩阵；

分解模块306，用于对该指定度量矩阵进行分解，得到该指定度量矩阵的柯列斯基分解矩阵。

可选地，该第一确定模块301，包括：

第四确定子模块，用于确定该目标图像中目标对象的位置，并通过预设算法根据该目标对象的位置获取该目标对象包括的多个预设特征点的位置，该目标对象包括人脸；

第五确定子模块，用于根据该多个预设特征点的位置，确定该目标图像的形状特征向量；

第六确定子模块，用于确定该多个预设特征点中每个预设特征点的Gabor特征，基于确定得到的Gabor特征生成该目标图像的纹理特征向量；

合并子模块，用于将该形状特征向量和该纹理特征向量合并，得到该目标图像的特征向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是本公开实施例提供的另一种图像识别装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1和图2所示实施例提供的图像识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行上述图1和图2所示的实施例提供的图像识别方法。

图5是本公开实施例提供的另一种图像识别装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理器522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理器522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器522被配置为执行指令，以执行上述图1和图2所示实施例提供的图像识别方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器532，上述指令可由装置500的处理器522执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行1和图2所示实施例提供的图像识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

在待识别的目标图像中，确定所述目标图像中用于表征人脸特征的器官的位置，作为标定点的位置；根据所述标定点的位置，确定人脸中各器官的分布区域，并根据所述人脸中各器官的分布区域的投影图确定所述人脸包括的多个预设特征点的坐标，进而得到人脸包括的多个预设特征点的位置；根据多个预设特征点的位置，确定多个预设特征点中任意两个特征点之间的距离，以及任意两个预设特征点之间的夹角；基于任意两个预设特征点之间的距离，以及任意两个预设特征点之间的夹角，确定所述目标图像的形状特征向量；

对于多个预设特征点中的每个预设特征点，以所述预设特征点为中心，确定一个预设大小的区域，进而确定出所述区域内在不同方向和不同尺度上的Gabor特征，并将所述区域的Gabor特征确定为所述预设特征点的Gabor特征；

基于每个预设特征点的Gabor特征，确定所述目标图像的纹理特征向量；

将所述目标图像的纹理特征向量和形状特征向量合并，确定所述目标图像的特征向量；

通过局部敏感哈希编码LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列；

其中，所述通过局部敏感哈希编码LSH方法对所述目标图像的特征向量进行编码包括：

随机产生n个服从正态分布的向量，得到n个随机向量，所述n个随机向量中每个随机向量的长度相同；

其中，h_r(x)为所述目标图像的特征向量的哈希序列中的一个元素，r为所述随机向量，x为所述目标图像的特征向量，L为指定度量矩阵的柯列斯基分解矩阵，每个随机向量的长度和所述目标图像的特征向量的长度相同；

根据所述目标图像的特征向量的哈希序列和预先设置的多个标定图像，从所述多个标定图像对应的类别中确定所述目标图像的类别；

所述通过LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列之前，还包括：

对于训练样本集包括的多个样本图像，确定相似集合和非相似集合，其中，所述相似集合中任意两个样本图像之间的马氏距离小于等于第一阈值；所述非相似集合中任意两个样本图像之间的马氏距离大于等于第二阈值，所述第二阈值大于所述第一阈值；

根据下述公式确定指定度量矩阵：

minD_ld(A,A₀)

s.t.

其中，A为所述指定度量矩阵，A₀为单位矩阵，D_ld(A,A₀)为布雷格曼散度，S为所述相似集合，D为所述非相似集合，l为所述第一阈值，μ为所述第二阈值，x_i,x_j为所述训练样本集中任意两个样本图像的特征向量；

通过下述公式确定所述指定度量矩阵A的柯列斯基分解矩阵：

A＝LL^T

其中，L为指定度量矩阵A的柯列斯基分解矩阵。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的特征向量的哈希序列和预先设置的多个标定图像，从所述多个标定图像对应的类别中确定所述目标图像的类别，包括：

3.根据权利要求1至2任一所述的方法，其特征在于，所述确定待识别的目标图像的特征向量，包括：

4.一种图像识别装置，其特征在于，所述装置包括：

第一确定模块，用于在待识别的目标图像中，确定所述目标图像中用于表征人脸特征的器官的位置，作为标定点的位置；根据所述标定点的位置，确定人脸中各器官的分布区域，并根据所述人脸中各器官的分布区域的投影图确定所述人脸包括的多个预设特征点的坐标，进而得到人脸包括的多个预设特征点的位置；根据多个预设特征点的位置，确定多个预设特征点中任意两个特征点之间的距离，以及任意两个预设特征点之间的夹角；基于任意两个预设特征点之间的距离，以及任意两个预设特征点之间的夹角，确定所述目标图像的形状特征向量；对于多个预设特征点中的每个预设特征点，以所述预设特征点为中心，确定一个预设大小的区域，进而确定出所述区域内在不同方向和不同尺度上的Gabor特征，并将所述区域的Gabor特征确定为预设特征点的Gabor特征；基于每个预设特征点的Gabor特征，确定所述目标图像的纹理特征向量；将所述目标图像的纹理特征向量和形状特征向量合并，确定目标图像的特征向量；

第五确定模块，用于对于训练样本集包括的多个样本图像，确定相似集合和非相似集合，其中，所述相似集合中任意两个样本图像之间的马氏距离小于等于第一阈值；所述非相似集合中任意两个样本图像之间的马氏距离大于等于第二阈值，所述第二阈值大于所述第一阈值；

根据下述公式确定指定度量矩阵：

minD_ld(A,A₀)

s.t.

通过下述公式确定所述指定度量矩阵A的柯列斯基分解矩阵：

A＝LL^T

其中，L即为指定度量矩阵A的柯列斯基分解矩阵；

编码模块，用于通过局部敏感哈希编码LSH方法对所述目标图像的特征向量进行编码，得到所述目标图像的特征向量的哈希序列；

其中，所述编码模块用于：

5.根据权利要求4所述的装置，其特征在于，所述第二确定模块包括：

6.根据权利要求4至5任一所述的装置，其特征在于，所述第一确定模块，包括：

7.一种图像识别装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-3所述的任一项方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-3所述的任一项方法的步骤。