CN110807472B

CN110807472B - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN110807472B
Application number: CN201910969371.3A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2022-08-12
Anticipated expiration: 2039-10-12
Also published as: CN110807472A

Abstract

本公开提供一种图像识别方法、装置、电子设备及计算机可读存储介质，所述方法包括：获取待识别图像的词向量以及属性向量；所述属性向量用于描述类别的特征；从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量；根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别。本公开能够有效提升零样本的识别精度。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种图像识别方法、装置、电子设备及计算机可读存储介质。

背景技术

零样本学习是AI识别方法之一，简单来说就是识别从未见过的数据类别，即训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分，其中，零样本包括广义设定零样本和狭义零样本(传统设定零样本)两种类型：广义设定零样本指待识别的数据(比如图像)中不仅包含未知类别的样本(目标类样本)，也包含已知训练类别的样本(源类样本)；狭义零样本(传统设定零样本)指待识别的数据(比如图像)中只包含未知类别的样本(目标类样本)。

在一个例子中，假设有一个训练用的数据集，里面有A、B、C三个类别的训练样本，在测试集中却有A、B、C、D四类的测试样本，即测试集合即包括已训练类别ABC的样本，又包括未出现在训练集合中的类别D的样本，这类被称之为广义零样本，如果测试集合只包括未知类别D的样本，则称之为狭义零样本(传统设定零样本)。

在实现本公开的过程中，发明人发现：相关技术中基于训练样本对狭义零样本(比如图像)的类别进行推断的过程，每一目标类样本的相关信息需要与样本的所有类别对应的相关信息进行比对以确定狭义零样本的类别，这需要耗费较长的比对时间，造成狭义零样本(比如图像)的识别精度不高。

发明内容

有鉴于此，本公开实施例提供一种图像识别方法、装置、电子设备及计算机可读存储介质，以解决相关技术中图像的识别精度不高的问题。本公开的技术方案如下：

本公开的第一方面提供了一种图像识别方法，所述方法具体包括：

获取待识别图像的词向量以及属性向量；所述属性向量用于描述类别的特征；

从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量；

根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别。

可选地，所述获取待识别图像的词向量，包括：

获取待识别图像的特征向量；

基于预先确定的映射关系将所述待识别图像的特征向量从特征空间映射到词向量空间，获取所述待识别图像的词向量；所述映射关系表示特征空间到词向量空间的映射关系。

可选地，所述获取待识别图像的特征向量，包括：

通过预先建立的深度学习模型对所述待识别图像进行特征提取，并将该模型的最后一层全连接层提取的特征向量作为所述待识别图像的特征向量。

可选地，所述映射关系基于以下方式确定：

基于所述深度学习模型获取训练样本的特征向量；所述训练样本为确定类别的图像；

基于预设词向量生成模型获取所述训练样本对应的类别的词向量；所述词向量生成模型用于根据输入的任意一类别生成词向量；

基于所述训练样本的特征向量以及其对应的类别的词向量之间的关系，确定特征空间到词向量空间的映射关系。

可选地，所述获取待识别图像的属性向量，包括：

基于预先建立的属性分类模型对所述待识别图像进行属性识别，获取待识别图像的属性向量；所述属性分类模型用于根据输入的任意一图像生成属性向量。

可选地，所述属性分类模型通过以下方式进行训练：

基于训练样本集合对应的训练类别集合，确定与每一类别对应的一个或多个属性向量；所述训练样本集合包括若干图像；所述训练类别集合包括与若干图像分别对应的若干类别；

将训练样本集合按照所述属性向量划分成若干子集；

基于所述若干子集以及与所述子集对应的属性向量进行模型训练。

可选地，所述获取确定的多种类别的词向量，包括：

对于每一种类别，将所述类别的名称输入至预设词向量生成模型中，获取该模型输出的所述类别对应的词向量。

可选地，所述待识别图像的预测类别基于所述待识别图像的词向量与所述类别的词向量之间的余弦距离所确定。

可选地，所述待识别图像的预测类别为最小的余弦距离对应的类别。

根据本公开实施例的第二方面，提供一种图像识别装置，所述装置包括：

待识别图像向量获取模块，用于获取待识别图像的词向量以及属性向量；所述属性向量用于描述类别的特征；

类别向量获取模块，用于从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量；

类别确定模块，用于根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行第一方面中任一所述的方法。

根据本公开实施例的第四方面，还提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行时实现第一方面中任一所述方法的步骤。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括第一方面中任一所述方法的步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例中获取待识别图像的词向量以及属性向量，然后从类别集合中确定与所述待识别图像的属性向量相应的一种或多种类别，并获取确定的一种或多种类别的词向量，最后根据所述待识别图像的词向量与所述一种或多种类别的词向量的比较，确定所述待识别图像的预测类别，利用属性向量减少了目标类别的搜索空间，有效提升了图像的识别精度，同时也提高了图像的识别效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1为本公开根据一示例性实施例示出的有监督的自编码器的网络架构图；

图2为本公开根据一示例性实施例示出的一种图像识别方法流程图；

图3为本公开根据一示例性实施例示出的另一种图像识别方法流程图；

图4为本公开实施例提供的图像识别装置的一个结构框图；

图5为本公开根据一示例性实施例提供一种电子设备的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对相关技术中狭义零样本(例如未知类别的图像)的识别精度不高的问题，本公开实施例提供了一种图像识别方法，其可由电子设备来执行，所述电子设备可以是电脑、智能手机、平板、个人数字助理或者服务器等计算设备，在所述方法中，首先获取待识别图像的词向量以及属性向量，然后从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量，最后根据所述待识别图像的词向量与所述多种类别的词向量的比较，确定所述待识别图像的预测类别，利用属性向量减少了目标类别的搜索空间，有效提升了图像识别精度，同时也提高了图像的识别效率。

其中，在对待识别图像进行识别之前，需要进行前期的准备工作，所述准备工作包括：用于提取待识别图像的特征向量的深度学习模型的训练、用于提取待识别图像的属性向量的属性分类模型的训练以及所述映射关系的建立。

以下对所述准备工作进行一一说明：

1、用于提取待识别图像的特征向量的深度学习模型的训练

所述电子设备获取预设的训练样本集合以及对应的训练类别集合，所述训练样本集合包括若干图像，所述训练类别集合包括与若干图像分别对应的若干类别，可以理解的是，本公开实施例对于所述训练样本集合以及对应的训练类别集合的获取方式不做任何限制，可依据实际情况进行具体设置，例如可以是所述电子设备从预设的服务器中获取，或者由人工输入等。

在一个例子中，所述训练样本集合中包括图片A、图片B以及图片C，对应的所述训练类别集合中包括马、牛以及羊，其中，所述训练样本集合和所述训练类别集合存在对应关系，即图片

图片

图片

所述电子设备基于所述训练样本集合和所述训练类别集合对深度学习网络进行模型训练，直到模型收敛(损失函数的值在预设范围内)，获取训练好的深度学习模型，可以理解的是，本公开实施例对于采用的深度学习网络算法不做任何限制，可依据实际情况进行具体选择，比如可以选择VGG算法或者Inception-v3算法进行模型训练。

在实际使用过程中，本公开实施例利用所述深度学习模型进行特征提取，所述电子设备将待识别图像作为所述深度学习模型的输入，通过所述深度学习模型对所述待识别对象进行特征提取，并将该模型的最后一层全连接层提取的特征向量作为所述待识别图像的特征向量。

本实施例中，通过构建深度学习模型，实现对图像进行提取的过程，并且基于训练样本集合和所述训练类别集合对深度学习网络进行有监督的训练，使得训练好的深度学习模型能够提取最能反映类别的特征，从而有利于保证训练好的所述深度学习模型提取的特征的准确性。

2、用于提取待识别图像的属性向量的属性分类模型的训练

所述电子设备获取所述训练样本集合以及对应的训练类别集合，然后基于训练样本集合对应的训练类别集合，确定与每一类别对应的一个或多个属性向量，再将所述训练样本集合按照所述属性向量划分成若干子集，每一子集对应一属性向量，所述属性向量用于描述所述类别的特征；其中，所述训练样本集合包括若干图像，所述训练类别集合包括与若干图像分别对应的若干类别，可以理解的是，本公开实施例对于所述属性向量的确定方式不做任何限制，可依据实际情况进行具体设置。

其中，本公开实施例对于由类别集合确定与训练类别对应的属性向量的具体实现过程不做任何限制，可依据实际情况进行具体设置，例如可由人工进行属性向量确定，或者基于预先设定的语义识别规则进行属性向量的确定，作为例子，所述语音识别规则可以用于识别类别的特征，比如类别的名称为“老虎”，则可以基于预先设定的语义识别规则确定属性向量为“动物”。

在一个例子中，比如属性向量有5个，分别表示“家居”、“植物”、“衣物”、“动物”、“其他”，则所述电子设备将所述训练样本集合中的若干图像按照5个属性向量分成5个子集，每个子集包括一个或多个训练样本，每个子集分别与其属性向量对应，需要说明的是，以上属性划分仅为举例说明，在一些实际情况中，由于属性划分的设置，子集与子集之间可能包括相同的训练样本。

然后，所述电子设备基于所述若干子集以及与所述子集对应的属性向量对深度学习网络进行模型训练，直到模型收敛(损失函数的值在预设范围内)，获取训练好的属性分类模型，可以理解的是，本公开实施例对于采用的深度学习网络算法不做任何限制，可依据实际情况进行具体选择，比如可以选择VGG算法或者Inception-v3算法进行模型训练。

在实际使用过程中，本公开实施例利用所述属性分类模型进行属性识别，所述电子设备将待识别图像作为所述属性分类模型的输入，通过所述属性分类模型对所述待识别图像进行属性识别，从而获取所述待识别图像的属性向量。

本实施例中，通过构建的属性分类模型实现对待识别图像的属性识别，所述电子设备可以基于所述属性分类模型获取的属性向量对类别集合中所包括的若干类别进行筛选，获取与所述属性向量有关的类别，减少了需要搜索的类别数量，有效提升了图像识别精度。

3、所述映射关系的建立

在本实施例中，所述电子设备基于所述深度学习模型获取训练样本集合中的图像的特征向量，以及基于预设词向量生成模型获取对应的训练类别集合中的类别的词向量，然后基于所述训练样本集合中的图像的特征向量以及其对应的训练类别集合中的类别的词向量之间的关系，确定特征空间到词向量空间的映射关系；所述词向量生成模型用于根据输入的任意一类别生成词向量，例如所述词向量生成模型可以为Word2vec模型、glove模型或者ELMo模型等。

在一种可能的实现方式中，所述电子设备提取基于所述训练样本集合以及对应的训练类别集合训练好的深度学习模型中的最后一层全连接层的特征向量，即训练样本的特征向量；并且，所述电子设备将所述训练类别集合中的类别的名称分别输入到预设词向量生成模型中，以从所述词向量生成模型获取对应的词向量，其中，所述词向量生成模型用于根据输入的任意一类别生成词向量，例如所述词向量生成模型可以为Word2vec模型、等glove模型或者ELMo模型，所述Word2vec模型、glove模型或者ELMo模型表示用来产生词向量的相关模型，对于Word2vec模型、glove模型或者ELMo模型的建立过程可参见相关技术中的具体实现方式，此处不做赘述。

在获取所述训练样本集合中的图像的特征向量以及对应的训练类别集合中的类别的词向量之后，所述电子设备可以基于所述图像的特征向量以及其对应的类别的词向量进行映射模型训练，从而获取特征空间到词向量空间的映射关系；可以理解的是，本公开实施例对于所述映射模型所选择的算法不做任何限制，可依据实际情况进行具体设置。

在一个例子中，可选择有监督的自编码器(SAE，Semantic Autoencoder)进行模型训练，请参照图1，为有监督的自编码器的网络架构图，其中，X层为输入层，表征特征空间；S层为自编码器的隐层，表征词向量空间；

层为输出层，表征特征空间；训练的目的即要使输入层的输入与输出层的输出相同，设输入层到隐层的映射为W，隐层到输出层的映射为W^*，则W和W^*是对称的，即有W^*等于W的转置，即W^*＝W^T，所述训练样本集合中的图像的特征向量作为X层和

层的数据，对应的所述训练类别集合中的类别的词向量作为S层的数据，则电子设备可以基于所述图像的特征向量以及所述类别的词向量对有监督的自编码器进行训练，学习到特征空间到词向量空间的映射关系W。

本实施例中，通过学习特征空间到词向量空间的映射关系，所述电子设备可以基于所述映射关系将待识别图像的特征向量从特征空间到词映射到词向量空间，从而获取所述待识别图像对应的词向量，通过所述图像对应的词向量确定所述图像的类别，有利于提高图像识别的准确性。

在相关的前期准备工作完成之后，则可以进行图像的识别，请参阅图2，为本公开根据一示例性实施例示出的一种图像识别方法流程图，所述方法包括：

在步骤S201中，获取待识别图像的词向量以及属性向量；所述属性向量用于描述类别的特征。

在步骤S202中，从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量。

在步骤S203中，根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别。

在一实施例中，所述电子设备在获取到待识别图像之后，通过预先建立的深度学习模型对所述待识别图像进行特征提取，并将该模型的最后一层全连接层提取的特征向量作为所述待识别图像的特征向量，由于所述深度学习模型采取有监督的训练方法，使得训练好的深度学习模型能够提取最能反映类别的特征，从而有利于保证训练好的所述深度学习模型提取的所述待识别图像的特征的准确性。

在一实施例中，所述电子设备在获取待识别图像的特征向量之后，基于预先确定的映射关系将所述待识别图像的特征向量从特征空间映射到词向量空间，获取所述待识别图像的词向量；其中，所述映射关系表示特征空间到词向量空间的映射关系；可以理解的是，对于所述待识别图像的获取方式，本公开实施例对此不做任何限制，可依据实际情况进行设置，例如可以由用户进行输入、或者接收外部设备传输的待识别图像。

在一实施例中，所述电子设备可以基于预先建立的属性分类模型对所述待识别图像进行属性识别，获取待识别图像的属性向量；其中，所述属性分类模型用于根据输入的任意一图像生成属性向量，所述属性向量用于描述类别的特征；所述待识别图像的属性向量可以是一个或多个，本公开实施例对此不做任何限制；本实施例通过构建的属性分类模型实现对待识别图像的属性识别，所述电子设备可以基于所述属性分类模型获取的属性向量对类别集合中所包括的若干类别进行筛选，获取与所述属性向量有关的类别，减少了需要搜索的类别数量，有效提升了图像识别精度。

需要说明的是，所述电子设备获取词向量的过程和获取属性向量的过程没有绝对的先后顺序之分，若所述电子设备有足够的运行资源，可以并行执行获取词向量的过程和获取属性向量的过程，若所述电子设备的运行资源不足，可以选择先执行获取词向量的过程，再执行获取属性向量的过程；也可以选择先执行获取属性向量的过程，再执行获取词向量的过程。

接着，所述电子设备在获取待识别图像的特征向量以及属性向量之后，从类别集合中确定与所述待识别图像的属性向量相应的多种类别，所述类别集合包括若干种类别，所述类别集合中的类别已预先确定了其属性向量，每一类别包括一个或多个属性向量；需要说明的是，所述类别集合与所述训练类别集合为不同的集合，所述类别集合为与待识别图像相关的类别的集合；本实施例中所述电子设备可以将所述待识别图像的属性向量与所述类别集合中的类别的属性向量一一进行比对，获取属性向量相同的多个类别，通过所述待识别图像的属性向量实现对类别的筛选，从而有效减少了后续过程对类别的搜索量，有利于提高零样本识别精度。

在一实施例中，在确定了与所述待识别图像相应的多个类别之后，所述电子设备可以获取所述类别在词向量空间的词向量；在一种可能的实现方式中，对于每一种类别，所述电子设备可以将所述类别的名称输入至预设词向量生成模型中，获取该模型输出的所述类别对应的词向量；所述词向量生成模型用于根据输入的任意一类别生成词向量，例如所述词向量生成模型可以为Word2vec模型、等glove模型或者ELMo模型，所述Word2vec模型、glove模型或者ELMo模型表示用来产生词向量的相关模型，对于Word2vec模型、glove模型或者ELMo模型的建立过程可参见相关技术中的具体实现方式，此处不做赘述。

最后，所述电子设备根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别；本实施例中只需根据待识别图像的词向量与由属性向量确定的类别的词向量的关系来确定所述待识别图像的预测类别，无需搜索类别集合中的所有类别，减少了目标类类别的搜索空间，有效提升零样本的识别精度。

在一种可能的实现方式中，所述电子设备可以计算所述待识别图像的词向量分别与每一种类别的词向量之间的余弦距离，然后基于计算的所有余弦距离确定所述待识别图像的预测类别，比如可以将最小余弦距离对应的类别作为所述待识别图像的预测类别；本实施例中只需计算所述待识别图像的词向量与所述属性向量相应的类别的词向量的余弦距离，无需计算类别集合中的所有类别，显著减少了计算量，提高了待识别图像的识别精度。

在另一种可能的实现方式中，所述电子设备计算所述待识别图像的词向量分别与每一种类别的词向量之间的余弦相似度，然后基于计算的所有余弦相似度确定所述待识别图像的预测类别，比如可以将最大余弦相似度对应的类别作为所述待识别图像的预测类别；本实施例中只需计算所述待识别图像的词向量与所述属性向量相应的类别的词向量的余弦距离，无需计算类别集合中的所有类别，显著减少了计算量，提高了待识别图像的识别精度。

请参阅图3，为本公开根据一示例性实施例示出的另一种图像识别方法流程图，其可由电子设备来执行，所述电子设备可以是电脑、智能手机、平板、个人数字助理或者服务器等计算设备，所述方法包括：

在步骤S301中，通过预先建立的深度学习模型对所述待识别图像进行特征提取，并将该模型的最后一层全连接层提取的特征向量作为所述待识别图像的特征向量。

在步骤S302中，基于预先确定的映射关系将所述待识别图像的特征向量从特征空间映射到词向量空间，获取所述待识别图像的词向量。

在步骤S303中，基于预先建立的属性分类模型对所述待识别图像进行属性识别，获取待识别图像的属性向量；所述属性分类模型用于根据输入的任意一图像生成属性向量。

在步骤S304中，从类别集合中确定与所述待识别对象图像的属性向量相应的一种或多种类别；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量。

在步骤S305中，对于每一种类别，将所述类别的名称输入至预设词向量生成模型中，获取该模型输出的所述类别对应的词向量。

在步骤S306中，基于所述待识别图像的词向量与所述类别的词向量之间的余弦距离，确定所述待识别图像的预测类别。

其中，所述步骤S301以及步骤S302为图2中的步骤S201的一种实现方式，所述步骤S303、步骤S304以及步骤S305为图2中的步骤S202的一种实现方式，步骤S306为图2中的步骤S203的一种实现方式。

在一实施例中，所述深度学习模型用于提取任意输入图像的特征，所述深度学习模型基于训练样本集合和训练类别集合对深度学习网络进行有监督的训练得到，所述训练样本集合包括若干图像，所述训练类别集合包括与若干图像分别对应的若干类别，其中，有监督的训练方式使得训练好的深度学习模型能够提取最能反映类别的特征，从而有利于保证所述深度学习模型提取的待识别图像的特征的准确性。

在一实施例中，所述映射关系基于训练样本集合中的图像的特征向量以及对应的训练类别集合中的类别的词向量之间的关系确定，其中，所述训练类别集合中的类别的词向量可以基于预设词向量生成模型获取。

作为一种实现方式，可以基于训练样本集合中的图像的特征向量以及对应的训练类别集合中的类别的词向量，通过拉格朗日松弛算法求解所述映射关系。

在一实施例中，所述属性分类模型可以基于以下方式获得：基于训练样本集合对应的训练类别集合，确定与每一类别对应的一个或多个属性向量；所述训练样本集合包括若干图像；所述训练类别集合包括与若干图像分别对应的若干类别，将训练样本集合中的若干图像按照所述属性向量划分成若干子集，最后基于所述若干子集以及与所述子集对应的属性向量对深度学习网络进行训练，获得属性分类模型。

通过构建的属性分类模型实现对待识别图像的属性识别，所述电子设备可以基于所述属性分类模型获取的属性向量对类别集合中所包括的若干类别进行筛选，获取与所述属性向量有关的类别，减少了需要搜索的类别数量，有效提升了图像识别精度。

对于步骤S304，所述电子设备可以将所述待识别图像的属性向量与所述类别集合中的类别的属性向量一一进行比对，获取属性向量相同的多个类别，实现通过所述待识别图像的属性向量实现对类别的筛选，从而有效减少了后续过程对类别的搜索量，有利于提高零样本识别精度。

在步骤S306中，所述电子设备可以将余弦距离最小对应的类别作为所述待识别图像的预测类别。

与本公开的图像识别方法的实施例相对应，本公开还提供了图像识别装置、电子设备以及计算机可读存储介质的实施例。

请参阅图4，为本公开实施例提供的狭义零样本的识别装置的一个实施例框图，该装置包括：

待识别图像向量获取模块401，用于获取待识别图像的词向量以及属性向量；所述属性向量用于描述类别的特征。

类别向量获取模块402，用于从类别集合中确定与所述待识别图像的属性向量相应的多种类别，并获取确定的多种类别的词向量；所述类别集合包括若干种类别，每一类别包括一个或多个属性向量。

类别确定模块403，用于根据所述待识别图像的词向量与所述多种类别的词向量的关系，确定所述待识别图像的预测类别。

可选地，所述待识别图像向量获取模块401包括：

特征向量获取单元，用于获取待识别图像的特征向量；

词向量获取单元，用于基于预先确定的映射关系将所述待识别图像的特征向量从特征空间映射到词向量空间，获取所述待识别图像的词向量；所述映射关系表示特征空间到词向量空间的映射关系。

可选地，所述特征向量获取单元包括：

可选地，所述映射关系基于以下方式确定：

特征获取模块，用于基于所述深度学习模型获取训练样本的特征向量；所述训练样本为确定类别的图像；

词向量获取模块，用于基于预设词向量生成模型获取所述训练样本对应的类别的词向量；所述词向量生成模型用于根据输入的任意一类别生成词向量；

映射关系确定模块，用于基于所述训练样本的特征向量以及其对应的类别的词向量之间的关系，确定特征空间到词向量空间的映射关系。

可选地，所述待识别图像向量获取模块401还包括：

可选地，所述属性分类模型通过以下方式进行训练：

属性向量确定模块，用于基于训练样本集合对应的训练类别集合，确定与每一类别对应的一个或多个属性向量；所述训练样本集合包括若干图像；所述训练类别集合包括与若干图像分别对应的若干类别；

划分模块，用于将训练样本集合按照所述属性向量划分成若干子集；

训练模块，用于基于所述若干子集以及与所述子集对应的属性向量进行模型训练。

可选地，所述类别向量获取模块402包括：

类别确定模块，用于从类别集合中确定与所述待识别图像的属性向量相应的多种类别；

类别词向量获取模块，用于对于每一种类别，将所述类别的名称输入至预设词向量生成模型中，获取该模型输出的所述类别对应的词向量。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

图5是根据一示例性实施例示出的一种用于执行上述方法的电子设备50的框图，所述电子设备50包括有处理器51；用于存储可执行指令的存储器52，所述存储器52包括计算机程序53；其中，处理器51被配置为执行上述方法中的步骤。

所述处理器51执行所述存储器52中包括的计算机程序53，所述处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器52存储所述方法的计算机程序，所述存储器52可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，设备可以与通过网络连接执行存储器的存储功能的网络存储装置协作。存储器52可以是设备50的内部存储单元，例如设备50的硬盘或内存。存储器52也可以是设备50的外部存储设备，例如设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序53以及设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

这里描述的各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

电子设备50包括但不限于以下存在形式：(1)移动终端：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等；(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad；(3)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于只要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高；(5)其他具有计算功能的电子设备。设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图5仅仅是电子设备50的示例，并不构成对电子设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如设备还可以包括输入输出设备、网络接入设备、总线、摄像设备等。

上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器52，上述指令可由电子设备50的处理器51执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述图像识别方法。

在示例性实施例中，还提供了一种计算机程序产品，包括可执行程序代码，其中，所述程序代码在通过上述装置执行时实施上述任意一项的方法实施例。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像的词向量，包括：

获取待识别图像的特征向量；

3.根据权利要求2所述的方法，其特征在于，所述获取待识别图像的特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述映射关系基于以下方式确定：

5.根据权利要求1所述的方法，其特征在于，所述获取待识别图像的属性向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述属性分类模型通过以下方式进行训练：

将训练样本集合按照所述属性向量划分成若干子集；

7.根据权利要求1所述的方法，其特征在于，所述待识别图像的预测类别基于所述待识别图像的词向量与所述类别的词向量之间的余弦距离所确定。

8.根据权利要求1所述的方法，其特征在于，所述获取确定的多种类别的词向量，包括：

9.根据权利要求7所述的方法，其特征在于，所述待识别图像的预测类别为最小的余弦距离对应的类别。

10.一种图像识别装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述待识别图像向量获取模块包括：

特征向量获取单元，用于获取待识别图像的特征向量；

12.根据权利要求11所述的装置，其特征在于，所述特征向量获取单元包括：

13.根据权利要求12所述的装置，其特征在于，所述映射关系通过以下模块确定：

14.根据权利要求10所述的装置，其特征在于，所述待识别图像向量获取模块还包括：

15.根据权利要求14所述的装置，其特征在于，所述属性分类模型通过以下模块训练得到：

16.根据权利要求10所述的装置，其特征在于，所述类别向量获取模块包括：

17.根据权利要求10所述的装置，其特征在于，所述待识别图像的预测类别基于所述待识别图像的词向量与所述类别的词向量之间的余弦距离所确定。

18.根据权利要求17所述的装置，其特征在于，所述待识别图像的预测类别为最小的余弦距离对应的类别。

19.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至9任意一项所述的方法。

20.一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至9中任一项所述的方法。