CN111461323B

CN111461323B - 一种图像识别方法及装置

Info

Publication number: CN111461323B
Application number: CN202010174891.8A
Authority: CN
Inventors: 张勇东; 闵少波; 谢洪涛
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2022-07-29
Anticipated expiration: 2040-03-13
Also published as: CN111461323A

Abstract

本发明提供了一种图像识别方法，包括：S1，获取训练图像集，将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达；S2，将训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达；S3，同时对无语义视觉表达及语义对齐的视觉表达进行识别分析，得到视觉偏见消除模型；S4，将待识别图像输入视觉偏见消除模型，进行识别。本发明提供的图像识别方法通过建立视觉偏见消除模型，可以提升对已知域和未知域样本的感知效果，进而实现无偏差零样本的准确识别。

Description

一种图像识别方法及装置

技术领域

本发明涉及一种基于域感知的偏见消除技术实现无偏差零样本图像的识别的应用，具体涉及一种图像识别方法及装置。

背景技术

零样本学习旨在同时识别已知类别(已知域)或未知类别(未知域)的图像样本。最近的方法侧重于学习一种语义对齐的视觉表达来将已知域的知识迁移到未知域。然而由于语义知识的弱区分性，这种语义对齐的视觉表达很难将两个域分开，因此，会导致未知域的图像更倾向于被识别成已知域类别。

发明内容

(一)要解决的技术问题

本发明提供的一种图像识别方法及装置，用于至少解决上述问技术题。

(二)技术方案

本发明一方面提供一种图像识别方法，包括：S1，获取训练图像集，将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达；S2，将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达；S3，同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析，得到视觉偏见消除模型；S4，将待识别图像输入所述视觉偏见消除模型，进行识别。

可选地，步骤S1中，所述学习提取无语义视觉表达，包括：提取所述训练图像集中的各训练图像的视觉信息的二阶统计量，增强所述训练图像集中各训练图像之间的类间可区分性。

可选地，步骤S1中，所述增强所述训练图像集中各图像之间的类间可区分性，包括：设置一损失函数，所述损失函数包含一预设范围大小的边缘系数，所述边缘系数的大小取决于所述训练图像的类间决策边界距离；使所述边缘系数可自适应学习，进而增强所述训练图像集中各图像之间的类间可区分性。

可选地，步骤S2中，所述将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，包括：通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达，使所述语义对齐视觉表达与所述语义标签对齐。

可选地，通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达，包括：通过有向无环图训练所述训练图像，所述有向无环图中包括至少两个节点；自动搜索所述至少两个节点之间的操作，得到所述训练图像的语义对齐视觉表达。

可选地，自动搜索所述至少两个节点之间的操作，得到所述训练图像的语义对齐视觉表达，包括：自动搜索所述至少两个节点之间的全连接、图卷积、直接映射以及无操作中的任一种操作，得到所述训练图像的语义对齐视觉表达。

可选地，步骤S4中，所述将待识别图像输入所述视觉偏见消除模型，进行识别，包括：将待识别图像输入所述视觉偏见消除模型，通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域，根据判断结果使用特定域进行识别。

可选地，通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域，包括：通过所述视觉偏见消除模型计算图像无语义视觉特征的分类分数的熵；判断所述熵是否大于一预设值，若是，则所述图像来自于未知域，若否，则判定所述训练图像来自于已知域。

可选地，根据判断结果使用特定域进行识别，包括：若所述待识别图像来自于已知域，则使用无语义视觉特征对所述待识别图像进行识别；若所述待识别图像来自于未知域，则使用语义对齐的视觉特征对所述待识别图像进行识别。

本发明另一方面还提供了一种图像识别装置，包括：自适应二阶嵌入模块，用于获取训练图像集，将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达；自动语义嵌入模块，用于将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达；分析模块，用于同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析，得到视觉偏见消除模型；识别模块，用于将待识别图像输入所述视觉偏见消除模型，进行识别。

(三)有益效果

1、本发明通过构造两个互补的视觉表达形式，即无语义视觉表达和语义对齐视觉表达来分别处理已知域和未知域样本，进而实现无偏差的零样本识别应用；

2、本发明通过设计二阶嵌入模块以生成高度可区分的无语义视觉表达，从而提升通过无语义视觉表达对已知域样本的识别能力和未知域样本的感知效果；

3、本发明通过设计一种自动搜索的语义-视觉嵌入模块，能够自动搜索最优的网络架构来生成鲁棒的语义对齐视觉表达。

附图说明

图1示意性示出了本发明实施例中提供的一种图像识别方法流程图；

图2示意性示出了本发明实施例中基于域感知的偏见消除模型训练结构图；

图3示意性示出了本发明实施例中基于域感知的偏见消除模型推理框图；

图4示意性示出了本发明实施例中图像识别装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明实施例提出了一种新的基于域感知的偏见消除技术来实现无偏差的零样本图像识别应用。其核心思想为构建两个互补的视觉表达，也即，无语义的视觉表达和有语义的视觉表达来分别处理已知域和未知域样本。对于无语义视觉表达，可设计一种自适应二阶嵌入模块来提取视觉信息中的二阶统计量，并通过自适应的边缘Softmax来最大化其类间差异。这使得无语义视觉表达具有足够的可区别性，能同时进行已知域样本的类别预测和未知域样本的准确感知。对于感知到的未知域样本，本发明实施例提出了一个自动语义嵌入模块来生成鲁棒的语义对齐视觉表达，从而进行具体的未知域类别预测。通过准确地感知未知域样本，可有效地防止未知域样本被识别成已知域类别。该方法在五个包括分类和分割的基准数据集上都取得了目前最好的效果。下面进行详细介绍。

参阅图1，图1示意性示出了本发明实施例中提供的一种图像识别方法流程图，包括：

S1，获取训练图像集，将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达。

本发明实施例中的训练图像集来自零样本数据集，该零样本数据集例如可以包括：数据集Caltech-UCSD birds(CUB-200)，该CUB-200数据集包含200种鸟的类别，共11788张图片。其中150类鸟作为可见类别进行训练，剩下的50类作为未知类别进行验证，语义知识采用312维的属性向量作为类别描述。

数据集Animals with Attributes2(AWA2)，该AWA2数据集包括50种动物类别的37322张图片，其中40类动物作为已知类别进行训练，剩下的10类作为未知类别进行验证。语义知识采用85维类别属性作为描述。

数据集Attribute Pascal and Yahoo(aPY)，该aPY数据集包括32类带有属性标注的15339张图片。其中，20类作为可见类别，12类作为未知类别，类别属性标注为64维。

数据集SUN，该SUN数据集包括20类动物的图像分割数据集，其中的14类作为可见类别，剩下的6类作为未知类别，采用300维的类别属性作为描述。

数据集Pascal VOC，该Pascal VOC数据集包括20类物体的图像分割数据集。其中的14种类别作为可见类别进行训练，剩下的6类作为未知类别进行测试。其类别描述通过“word2vec”方法得到，维度为300。在训练过程中，任何带有未知类别像素的样本都会被移除

在通用的零样本学习框架下，都侧重于通过优化以下损失函数来学习一个视觉嵌入函数f_y(x)和语义嵌入函数g(·)：

其中，y是训练图像x_s的类别；a_y是语义嵌入函数g(·)对应的语义标签(类别描述)，通过语义嵌入函数g(·)得到语义对齐视觉表达。d(·，·)是距离度量函数，采用负的余弦相似度作为距离度量。通过优化损失函数

而学习到的f_v(x)即为语义对齐的视觉表达。由于已知域和未知域的语义描述同属于一个语义空间，因此在测试阶段，其推断过程为：

其中，x可以来自于已知域或者未知域。

不同于上述通用的零样本学习框架，本发明实施例中构建了一个语义无关的视觉表达f_d(x)，当f_d(x)未与语义标签a_y对齐时，f_d(x)只能用于识别训练图像x_s。本发明实施例中将获得的训练图像集中的各训练图像与该训练图像对应的类别索引进行交叉熵损失训练训练图像集，学习提取无语义视觉表达。

首先，训练f_d(x)中的参数，本发明实施例提出了一个自适应边缘Softmax作为损失函数：

其中，W_y为分类器的权重；y是训练图像的类别；λ∈(0，1]为边缘函数；当λ＝1时，

等同于标准的Softmax损失函数。当λ＜1时，x和对应类别y的分类响应W_yx会被抑制，因此要求x被预测成y的决策边界更加清晰。相比于传统的Softmax损失函数，

要求网络学习到更大的类间决策边界距离，来满足λ＜1。并且，λ是自适应变化的，其数值取决于样本的难易程度，λ的表达式如下：

其中，p_y(x)为x被预测成y的概率，当样本越难得时，则λ的数值越小。本发明实施例中λ的数值小于1，使得

变得越严苛。本发明实施例中，若图像零样本越易获得，则类间决策边界距离减小，边缘系数增大；若图像零样本越难获得，则类间决策边界距离增大，边缘系数减小。

参阅图2，图2示意性示出了本发明实施例中基于域感知的偏见消除模型训练结构图。

本发明实施例中学习提取无语义视觉表达，包括：对训练图像集中的各训练图像的视觉信息的二阶统计量进行提取，增强训练图像集中各训练图像之间的类间可区分性。其中，增强训练图像集中各图像之间的类间可区分性包括：设置一损失函数，该损失函数包含一预设范围大小的边缘系数，该边缘系数的大小取决于训练图像的类间决策边界距离；使该边缘系数自适应学习，以小于一预设值，进而增强训练图像集中各图像之间的类间可区分性。

具体的，提取训练图像视觉信息的二阶统计量的过程如图2所示：

如图2所示，

和

表示两个不同的压缩函数；将x映射到两个不同的低维空间，

和

分别表示空间注意力函数和通道注意力函数，⊙为对应元素乘法操作，

为矩阵外积操作，通过空间注意力函数

和通道注意力函数

得到语义无关视觉表达。需要注意的是，

和

在本发明实施例中被设计成抑制训练图像噪声信息的交叉注意力形式以构建视觉偏见消除模型，设计成交叉注意力形式的优点为：可以通过两种互补的注意力机制更有效的抑制噪声信息；并且提升二阶映射输入的互补性。

S2，将训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达。

对于训练图像的语义对齐视觉表达f_v(x)，传统的将语义对齐视觉表达与语义标签对齐是通过简单的两层全连接实现。然而，由于语义特征和视觉特征往往存在很大的信息差异，因此，普通的视觉操作模块很难编码合适的语义信息。

在上述基础上，本发明实施例通过自动搜索网络架构使训练图像与语义标签对齐，包括：通过自动搜索最优的网络框架生成训练图像的语义对齐视觉表达，语义对齐视觉表达用于对训练图像的未知域进行预测，使语义对齐视觉表达与语义标签对齐。更具体地，本发明实施例中，通过有向无环图用于训练上述训练图像，该有向无环图中包括至少两个节点；自动搜索至少两个节点之间的操作，得到训练图像的语义对齐视觉表达。

本发明实施例中设置训练图像的有向无环图，该有向无环图的每一层包括至少两个节点，每个节点表示中间层特征，节点与节点之间的边表示待定的操作。这里节点之间的操作例如可以包括全连接、图卷积、直接映射、无操作中的一个，得到训练图像的语义对齐视觉表达。这四种操作被定义为操作集O。为了自动搜索节点之间最优的操作，本发明实施例将搜索过程转化为一种Softmax优化问题：

其中，

表示节点i，j之间的操作为第c个操作的打分，O_i，j为最终选择的是i，j之间的操作。

S3，同时对无语义视觉表达及语义对齐的视觉表达进行识别分析，得到视觉偏见消除模型。

在以上通用的零样本学习框架基础上，本发明实施例中将类间可区分性增强的训练图像的语义无关的视觉表达以及与语义标签对齐的训练图像的视觉表达设计为交叉注意力形式，以构建视觉偏见消除模型，其过程例如可以表示为：

其中，C是一个源域类别分类器，C(f_d(x))的输出为各源域类别的概率，并且C_y为对应y的分类概率；H(·)为输入概率的熵。

S4，将待识别图像输入视觉偏见消除模型，进行识别。

本发明实施例中将待识别图像输入至视觉偏见消除模型，通过视觉偏见消除模型置信度对待识别图像进行识别。其中，具体识别过程为：计算视觉偏见消除模型的熵，上述熵具体表示为视觉偏见消除模型的输入概率的熵H(·)；将输入概率的熵H(·)作为依据用来判断训练图像属于未知域或已知域。更具体为：设置一预设值，若输入概率的熵H(·)大于预设值，则表明视觉偏见消除模型的置信度为低，该训练图像来自于未知域。若输入概率的熵小于预设值，则表明视觉偏见消除模型的置信度为高，该训练图像来自于已知域。

参阅图3，图3示意性示出了本发明实施例中基于域感知的偏见消除网络推理框图。零样本学习的一种通用框架是将视觉图像和对应类别的语义标签或类别描述映射到联合潜空间进行对齐，从而将识别任务转换为一个最近邻搜索问题。在潜空间里，将训练图像作为查询，将包括已知域和未知域的所有类别的语义标签作为类别描点，将距离查询图像最近的语义标签作为预测类别。在上述的通用框架中存在的问题是：提供的语义标签往往具有很弱的可区分性。例如，在图3中的AWA2数据集中，已知类别“老虎”和未知类别“豹子”的语义标签具有高达0.75的余弦相似度，因此用这些语义标签对齐的图像视觉表达具有很弱的类间可区分性，从而使两个域的训练图像很难被区分开。同时，尽管无语义的视觉表达不能识别未知域样本的类别，但可以通过其预测的已知域类别概率的熵来感知哪些样本属于未知域，一旦这种域感知效果准确的话，就能防止目标域图像被识别成源域类别。对于被感知到的未知域样本，本发明实施例中通过再次学习一个语义对齐的视觉表达去专门预测未知域类别，基于以上存在的问题，图3中首先通过构建训练图像语义无关的视觉表达和语义对齐的视觉表达来分别处理已知域和未知域样本。然后设计了一种自适应的二阶嵌入模块来生成高度可区分的语义无关视觉表达，从而提供已知域样本的识别能力和未知域样本的感知效果；最后设计了一种自动搜索的语义-视觉嵌入模块，通过自动搜索最优的网络架构来生成鲁棒的语义对齐的视觉表达。

综上所述，本发明实施例提供一种基于域感知的偏见消除技术实现无偏差零样本的图像识别方法，该方法通过学习提取无语义视觉表达语义对齐的视觉表达来分别处理已知域和未知域样本，进而实现无偏差的零样本识别应用。

本发明实施例中还提供一种图像识别装置，参阅图4，图4示意性示出了本发明实施例中图像识别装置的结构图，如图4所示，上述图像识别装置400包括自适应二阶嵌入模块410、自动语义嵌入模块420、分析模块430以及识别模块440。

自适应二阶嵌入模块410，用于获取训练图像集，将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达。

自动语义嵌入模块420，用于将训练图像集中各训练图像与该训练图像所对应的类别描述对齐，学习提取语义对齐的视觉表达。

分析模块430，用于同时对无语义视觉表达及语义对齐的视觉表达进行识别分析，得到视觉偏见消除模型。

识别模块440，用于将待识别图像输入视觉偏见消除模型，进行识别。

装置实施例部分未尽细节之处请参见上述方法实施例部分，此处不再赘述，其带来的优势与方法实施例部分相同。

根据本发明实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块中的任意个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本发明实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，自适应二阶嵌入模块410、自动语义嵌入模块420、分析模块430和识别模块440中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，自适应二阶嵌入模块410、自动语义嵌入模块420、分析模块430和识别模块440中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，自适应二阶嵌入模块410、自动语义嵌入模块420、分析模块430和识别模块440中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，包括：

S1，获取训练图像集，将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达，其中，所述学习提取无语义视觉表达包括：提取所述训练图像集中的各训练图像的视觉信息的二阶统计量，增强所述训练图像集中各训练图像之间的类间可区分性；所述增强所述训练图像集中各图像之间的类间可区分性，包括：设置一损失函数，所述损失函数包含一预设范围大小的边缘系数，所述边缘系数的大小取决于所述训练图像的类间决策边界距离；使所述边缘系数可自适应学习，以增强所述训练图像集中各图像之间的类间可区分性；

S2，将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达；

S3，将类间可区分性增强的训练图像的语义无关的视觉表达以及与语义标签对齐的训练图像的视觉表达设计为交叉注意力形式，以构建视觉偏见消除模型；

S4，将待识别图像输入所述视觉偏见消除模型，进行识别。

2.根据权利要求1所述的方法，其中，步骤S2中，将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，包括：

通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达，使所述语义对齐视觉表达与该训练图像语义标签对齐。

3.根据权利要求2所述的方法，其中，所述通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达，包括：

通过有向无环图训练所述训练图像，所述有向无环图中包括至少两个节点；

自动搜索所述至少两个节点之间的操作，得到所述训练图像的语义对齐视觉表达。

4.根据权利要求3所述的方法，其中，所述自动搜索所述至少两个节点之间的操作，得到所述训练图像的语义对齐视觉表达，包括：

自动搜索所述至少两个节点之间的全连接、图卷积、直接映射以及无操作中的任一种操作，得到所述训练图像的语义对齐视觉表达。

5.根据权利要求1所述的方法，其中，步骤S4中，所述将待识别图像输入所述视觉偏见消除模型，进行识别，包括：

将待识别图像输入所述视觉偏见消除模型，通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域，根据判断结果使用特定域进行识别。

6.根据权利要求5所述的方法，其中，通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域，包括：

通过所述视觉偏见消除模型计算图像无语义视觉特征的分类分数的熵；

判断所述熵是否大于一预设值，若是，则所述待识别图像来自于未知域，若否，则判定所述待识别图像来自于已知域。

7.根据权利要求6所述的方法，其中，所述根据判断结果使用特定域进行识别，包括：

若所述待识别图像来自于已知域，则使用无语义视觉特征对所述待识别图像进行识别；

若所述待识别图像来自于未知域，则使用语义对齐的视觉特征对所述待识别图像进行识别。

8.一种图像识别装置，包括：

自适应二阶嵌入模块，用于获取训练图像集，将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练，学习提取无语义视觉表达，其中，所述学习提取无语义视觉表达包括：提取所述训练图像集中的各训练图像的视觉信息的二阶统计量，增强所述训练图像集中各训练图像之间的类间可区分性；所述增强所述训练图像集中各图像之间的类间可区分性，包括：设置一损失函数，所述损失函数包含一预设范围大小的边缘系数，所述边缘系数的大小取决于所述训练图像的类间决策边界距离；使所述边缘系数可自适应学习，以增强所述训练图像集中各图像之间的类间可区分性；

自动语义嵌入模块，用于将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐，学习提取语义对齐的视觉表达；

分析模块，用于将类间可区分性增强的训练图像的语义无关的视觉表达以及与语义标签对齐的训练图像的视觉表达设计为交叉注意力形式，以构建视觉偏见消除模型；

识别模块，用于将待识别图像输入所述视觉偏见消除模型，进行识别。