CN112163603A

CN112163603A - 零样本图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN112163603A
Application number: CN202010965617.2A
Authority: CN
Inventors: 徐明亮; 郭毅博; 范一鸣; 张晨民; 闫杰; 李丙涛; 谈浩
Original assignee: ZHENGZHOU JINHUI COMPUTER SYSTEM ENGINEERING CO LTD
Current assignee: ZHENGZHOU JINHUI COMPUTER SYSTEM ENGINEERING CO LTD
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-01

Abstract

本发明涉及图像识别领域技术领域，具体涉及一种零样本图像识别方法、装置、电子设备及存储介质。该识别方法包括以下步骤：获得语义映射关系矩阵与视觉特征分布矩阵的联合分布；根据所述联合分布，获得不可见类样本的虚拟特征均值矩阵和虚拟特征标准差矩阵；由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征；根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。本发明实施例综合考虑视觉特征和语义特征两方面的分布情况合成目标样本虚拟特征更趋近于不可见类样本的虚拟特征，能有效地缓解域偏移。

Description

零样本图像识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像识别领域技术领域，具体涉及一种零样本图像识别方法、装置、电子设备及存储介质。

背景技术

如今深度学习非常火热，使得强监督分类方法在很多领域都达到了让人惊叹的结果，但其限制是：往往需要相当数量的带标签样本才能训练出足够好的分类器模型，并且利用已知样本训练出来的分类器，只能对已知的对象类分类，缺乏对训练集中不含有的类别样本识别的能力。在现实生活中，未来需要进行识别的对象类不断增加，增加不同类别的数据就重新训练模型的代价比较大，图像识别领域也不应该完全依靠这种需要大量样本的方法，于是诞生了在“零样本”下进行图像识别的方法，它可以在目标类别的视觉标注数据完全缺失的情况下，仍然能够识别这些数据的类别。

零样本学习在09年时才被Christoph H.Lamper正式下了定义，他提出通过结合语义属性的方法解决如何在“零样本”下进行图像识别的问题，“属性”即为图像的语义描述信息。他提出了两种属性预测的结构——直接属性预测和间接属性预测，并提出了Animalwith attributes数据集，数据集中每类动物类别都被标注了属性，属性包括‘红色’、‘长肢体’、‘可飞行’等。直接属性预测是指这一方法先将数据从特征空间映射到中间层的属性向量层，得到图像的预测属性后在映射到图像类别标签来实现对于不可见类别的预测；而间接属性预测是利用预测输入图像的类标签以及对应的属性向量，间接得到输入图像的属性估计。后来又诞生了许多其它方法，如考虑如何建立属性间的层级关系；特征方面如何更全面保留样本的信息；视觉空间和语义空间如何探索其中之间的隐藏关系等方法。

零样本图像识别中的关键问题——域偏移问题，域偏移是因为训练样本的类别和测试样本的类别之间不存在交集，所以同一个属性对应的视觉特征表现得差别可能非常大，导致域偏移的问题。

发明人在实践中，发现上述现有技术存在以下缺陷：

现有技术只考虑视觉特征到语义的映射，但由于图像的视觉特征维度往往比语义的维度大，所以建立从视觉特征到语义之间的映射会丢失很多信息，并且同一个语义属性对应的视觉特征表现得差别可能非常大，从而导致域偏移问题。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种零样本图像识别方法、装置、电子设备及存储介质，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种零样本图像识别方法，该识别方法包括以下步骤：

获得语义映射关系矩阵Z^a与视觉特征分布矩阵W^f的联合分布Z：

Z＝W^f⊙Z^a；

其中，W^f为不可见类样本在可见类样本中的视觉特征分布矩阵，Z^a先验语义库中不可见类样本和可见类样本之间的语义映射关系矩阵；

根据所述联合分布Z，获得不可见类样本的虚拟特征均值矩阵M_U和虚拟特征标准差矩阵S_U：

M_U＝ZM,S_U＝ZS

其中，M为以可见类为行、特征均值为列的均值矩阵，S为以可见类为行、特征标准差为列的标准差矩阵；

由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征；

根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。

第二方面，本发明另一实施例提供了一种零样本图像识别装置，该装置包括：

联合分布获取单元，用于获得语义映射关系矩阵Z^a与视觉特征分布矩阵W^f的联合分布Z：

Z＝W^f⊙Z^a；

虚拟特征获取单元，用于根据所述联合分布Z，获得不可见类样本的虚拟特征均值矩阵M_U和虚拟特征标准差矩阵S_U：

M_U＝ZM,S_U＝ZS

虚拟特征合成单元，用于由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征；以及

训练预测模块，用于根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。

第三方面，本发明另一实施例提供了一种电子设备，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述任意一种方法。

第四方面，本发明另一实施例提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，其特征在于，所述程序指令被处理器执行时实现上述任意一种方法。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实施例利用不可见类与可见类样本之间的视觉特征分布和语义映射关系，结合视觉和语义上的特性合成更具有判别力的不可见类虚拟特征，从而将零样本图像识别问题转化为普通的监督学习问题。由于合成的不可见类的虚拟特征是结合与之最相关的可见类的信息，可以有效缓解域偏移情况，并且在进行图像识别时也更具有判别性，从而提升零样本图像识别的精确度，有利于推动零样本学习向其它领域的发展。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种零样本图像识别方法的流程图；

图2为本发明另一个实施例所提供的一种零样本图像识别方法的流程图；

图3为本发明另一个实施例所提供的一种零样本图像识别方法的流程框图；

图4为本发明一个实施例所提供的一种零样本图像识别装置的结构框图；

图5为本发明另一个实施例所提供的一种零样本图像识别装置的结构框图；

图6是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的零样本图像识别方法、装置、电子设备及存储介质，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种零样本图像识别方法、装置、电子设备及存储介质的具体方案。

请参阅图1，其示出了本发明一个实施例提供的零样本图像识别方法的流程图，该识别方法包括以下步骤：

步骤S001，获得语义映射关系矩阵Z^a与视觉特征分布矩阵W^f的联合分布Z：

Z＝W^f⊙Z^a；

其中，W^f为不可见类样本在可见类样本中的视觉特征分布矩阵，Z^a先验语义库中不可见类样本和可见类样本之间的语义映射关系矩阵。

步骤S002，根据所述联合分布Z，获得不可见类样本的虚拟特征均值矩阵M_U和虚拟特征标准差矩阵S_U：

M_U＝ZM,S_U＝ZS

其中，M为以可见类为行、特征均值为列的均值矩阵，S为以可见类为行、特征标准差为列的标准差矩阵。

步骤S003，由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征。

步骤S004，根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。

综上所述，本发明实施例提供了一种零样本图像识别方法，该方法通过获得语义映射关系矩阵Z^a与视觉特征分布矩阵W^f的联合分布Z，并根据该联合分布Z获得不可见类样本的虚拟特征均值矩阵M_U和虚拟特征标准差矩阵S_U，由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征，根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。

请参阅图2和图3，下面以Animals with Attributes数据集为例对本发明实施例做进一步的说明。

步骤101，对不可见类样本和可见类样本进行提取特征。

对数据集中50个类别按一定比例划分为训练集和测试集，将测试集的样本类数据集命名为不可见类样本，将训练集的样本类数据集命名为可见类样本。

使用深度学习中常用的预训练模型分别对不可见类样本和可见类样本提取特征，例如ResNet、GoogLeNet或者VGG等预训练网络模型进行特征提取。

提取的不可见类样本特征记为x_te，其类别标签标记为y_te。

具体的：

其中，

表示第一个不可见类样本的特征，

表示第一个不可见类样本的类别标签。

提取的可见类样本特征记为x_tr，其类别标签记为y_tr。

具体的：

其中，

表示第一个可见类样本的特征，

表示第一个可见类样本的类别标签。

且

步骤102，训练可见类样本的图像分类模型。

如图2所示，图像分类网络使用全连接网络构建。该图像分类网络具有3层全连接层，具体网络结构为：x→Linear()-relu()-dropout()-Linear()-dropout()-Linear()-softmax()→output，分类损失函数计算公式如下：

其中n为可见类的类别数量。y为类别标签，当类别为i时，y_i为1，否则为0。p_i为图像分类网络输出类别是i的概率。

将可见类样本特征x_tr及其类别标签y_tr输入到图像分类网络中，优化器使用adam优化算法，经过训练得到训练好的可见类样本的图像分类模型。

步骤103，将提取的不可见类样本特征x_te输入到可见类样本的图像分类模型中，得到每一类不可见类样本在可见类样本中的视觉特征分布。

计算公式如下：

其中，

是不可见类样本第j类在可见类中第i类的视觉特征分布比重，

是图像分类模型将不可见类样本第j类预测为可见类样本第i类的数量，

为不可见类样本中第j类的样本数量。

以Animals with Attributes数据集为例，假如在不可见类别样本中，其中一类为chimpanzee，共728个样本。将该728个样本输入到可见类样本的图像分类模型中，显示有400个样本预测结果为gorilla，则不可见类样本chimpanzee与可见类样本gorilla的视觉特征分布情况为p_{gorilla，chimpanzee}＝50/91。

因为当一组样本涉及到“平均”和“偏差”时，它们出现的频率往往会被描绘成高斯分布曲线，而不可见类与可见类视觉特征中有很多相似之处，图像的特征数据也符合这种分布情况，构建一个对不同特征区分度比较高的分类模型，得到不可见类与可见类样本特征之间的视觉特征分布情况，使合成的目标特征更具有判别力。

计算所有不可见类样本在可见类样本中的视觉特征分布，以可见类为列，不可见类为行，构建视觉特征分布矩阵W^f。

步骤104，计算不可见类的先验语义库a_te和可见类的先验语义库a_tr之间的语义映射关系矩阵。

Animals with Attributes数据集中包含不可见类的先验语义库a_te和可见类的先验语义库a_tr。

具体的：

其中，m和n分别表示不可见类和可见类的类别个数，

表示不可见类中第m个类别对应的语义标签，

表示可见类中第n个类别对应的语义标签。

则语义映射关系矩阵W^a：

对语义映射关系矩阵W^a进行归一化：

其中，w_i·min为第i类不可见类样本与可见类样本的映射参数中最小的参数，w_i·max为第i类不可见类样本与可见类样本的映射参数中最大的参数，w为输入的映射参数。

用Z^a表示将W^a中所有的参数进行归一化后得到的新的语义映射关系矩阵。

需要说明的是，步骤104与步骤101、步骤102和步骤103之间并没有严格的先后顺序，但是需要在计算联合分布的步骤之前，获得语义映射关系矩阵。例如，可以是先执行步骤104，再执行步骤103；又如，可以是先执行步骤101或者步骤102，再执行步骤103；再如，可以是先执行步骤103，再执行在步骤101。

步骤105，获得语义映射关系矩阵与视觉特征分布矩阵的联合分布。

具体的，语义映射关系矩阵与视觉特征分布矩阵数据都是不可见类与可见类之间的映射参数，格式相同，联合分布Z：

Z＝W^f⊙Z^a；

其中，⊙为矩阵点乘符号。

步骤106，根据联合分布合成不可见类的虚拟特征均值和虚拟特征标准差。

不可见类的虚拟特征均值M_U：

M_U＝ZM

其中，M为可见类的均值矩阵。

均值矩阵M为对可见类中每一类的样本特征求均值，制成以可见类为行，特征均值为列的矩阵。

不可见类的虚拟特征标准差：

S_U＝ZS

其中，S为可见类的标准差矩阵。

标准差矩阵S为对可见类中每一类的样本特征求标准差，制成以可见类为行，特征标准差为列的矩阵。

步骤107，根据每一个不可见类的虚拟特征均值和虚拟特征标准差通过随机采样合成一定数量符合高斯分布的不可见类样本的虚拟特征。

步骤108，利用不可见类样本的虚拟特征及其语义标签训练语义分类器。

使用线性回归算法构建语义分类器。

将不可见类样本的虚拟特征及不可见类样本的语义标签输入所构建的语义分类器，利用语义分类器分别对语义库中的每个语义进行训练，得到训练后的语义分类器。

步骤109，利用语义分类器预测待测样本的语义分类结果。

在测试阶段，将待测样本送入语义分类器中，得到预测的语义分类结果。将待测样本的语义库中每一类不可见类样本的语义与预测语义对比，真实语义与预测语义差值之和最小的类别作为预测类别，即语义分类结果。

综上所述，本发明通过构建图像分类模型获得不可见类样本在可见类样本中的视觉特征分布，结合可见类与不可见类之间的语义映射关系获得每个目标类别的联合分布情况，进而通过可见类的特征均值和特征标准差合成一定数量符合高斯分布的不可见类虚拟特征，由于合成的不可见类的虚拟特征是结合与之最相关的可见类的信息，可以有效缓解域偏移情况。合成的虚拟特征在进行图像识别时不仅更具有判别力，而且可以使用一般的监督学习算法进行零样本图像的识别。由此，本发明能够合成更趋近于不可见类样本的虚拟特征，考虑到零样本学习包含图像特征和语义描述的特性，综合考虑视觉特征和语义特征两方面的分布情况合成目标样本虚拟特征，能有效地缓解域偏移情况，在进行图像识别时也更具有判别性，从而提升零样本图像识别的精确度，有利于推动零样本学习向其它领域的发展。

基于与上述任意一种方法实施例相同的方构思，本发明另一实施例还提供了一种零样本图像识别装置。

请参阅图4，图4示出了一种零样本图像识别装置的结构框图，该装置包括联合分布获取单元、虚拟特征获取单元、虚拟特征合成单元和训练预测模块。

具体的，联合分布获取单元用于获得语义映射关系矩阵Z^a与视觉特征分布矩阵W^f的联合分布Z：

Z＝W^f⊙Z^a；

虚拟特征获取单元用于根据所述联合分布Z，获得不可见类样本的虚拟特征均值矩阵M_U和虚拟特征标准差矩阵S_U：

M_U＝ZM,S_U＝ZS

虚拟特征合成单元用于由所述虚拟特征均值矩阵和所述虚拟特征标准差矩阵合成所述不可见类样本的虚拟特征；

训练预测模块用于根据所述虚拟特征训练语义分类器，并采用训练后的所述语义分类器预测不可见类样本的类别。

优选的，请参阅图5，所述联合分布获取单元包括视觉特征获取单元，其中，视觉特征获取单元用于将不可见类样本输入到可见类样本的图像分类模型中，得到不可见类样本在可见类样本中的视觉特征分布；

其中，不可见类样本的第j类在可见类样本中第i类的视觉特征分布比重

其中

是所述图像分类模型将不可见类样本第j类预测为可见类样本第i类的数量，

为不可见类样本中第j类的样本数量。

优选的，请再次参阅图5，所述联合分布获取单元包括语义映射获取单元，语义映射获取单元用于获得先验语义库中不可见类样本和可见类样本之间的语义映射关系矩阵W^a：

对语义映射关系矩阵W^a进行归一化：

其中，w_i·min为第i类不可见类样本与可见类样本的映射参数中最小的参数，w_i·max为第i类不可见类样本与可见类样本的映射参数中最大的参数，w为输入的映射参数；

优选的，请再次参阅图5，所述视觉特征获取单元包括特征提取单元和分类模型训练单元。特征提取单元用于对可见类样本进行提取特征。分类模型训练单元用于利用所提取的可见类样本特征及其类别标签训练可见类样本的图像分类模型。

综上所述，本发明实施例提供了一种零样本图像识别装置，该装置包括联合分布获取单元、虚拟特征获取单元、虚拟特征合成单元和训练预测模块。通过联合分布获取单元获取获得可见类与不可见类之间的语义映射关系矩阵以及视觉特征分布矩阵的联合分布，其中，视觉特征分布矩阵是指不可见类在可见类的图像分类模型中的视觉特征分布；虚拟特征获取单元根据该联合分布获得不可见类样本的虚拟特征均值矩阵和虚拟特征标准差矩阵，虚拟特征合成单元合成多个不可见类样本的虚拟特征，训练预测模块根据虚拟特征训练语义分类器，并采用训练后的语义分类器预测不可见类样本的类别。本发明实施例综合考虑视觉特征和语义特征两方面的分布情况合成目标样本虚拟特征，能有效地缓解域偏移情况，在进行图像识别时也更具有判别性，从而提升零样本图像识别的精确度。

请参阅图6，图6示出了上述实施例中所涉及的电子设备的一种可能的结构示意图。该电子设备可以包括处理单元601、存储单元602和通信单元603。处理单元601可以设置为与存储单元602通信。存储单元602用于保存处理单元601可执行程序代码和数据等，其中，处理单元执行程序时实现上述任意一个方法实施例所提供的一种零样本图像识别方法。该通信单元603用于支持该电子设备与其他网络实体的通信，以实现数据交互等功能，如该通信模块603支持电子设备与其他智能终端的通信，以实现数据交互功能。

其中，处理单元601可以是处理器或控制器。通信模块603可以是收发器、RF电路或通信接口等。存储模块602可以是存储器。

图6仅仅是本申请实施例的一种可能的实现方式，在实际应用中，该电子设备还可以包括更多或更少的部件，这里不作限制。

需要说明的是，该电子设备可以是服务器，也可以是智能终端，该智能终端可以是计算机、平板电脑或者智能手机等。

本发明实施例还提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，所述程序指令被处理单元执行时实现上述任意一个实施例中所提供的一种零样本图像识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。