CN112329884B

CN112329884B - 基于判别性视觉属性的零样本识别方法及系统

Info

Publication number: CN112329884B
Application number: CN202011337219.2A
Authority: CN
Inventors: 谢昱锐; 蒋涛; 袁建英; 许林
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-06-07
Anticipated expiration: 2040-11-25
Also published as: CN112329884A

Abstract

本发明提供一种基于判别性视觉属性的零样本识别方法及系统，方法包括以下步骤：S1：构建稀疏编码模型，基于原特征域样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系；S2：引入分类错误代价项构建监督字典学习目标模型，提取原特征域判别性视觉属性集合；S3：基于原特征域变换关系及原特征域判别性视觉属性集合，构建目标特征域学习模型，挖掘目标特征域判别性视觉属性；S4：输入包含语义对象的待测图像，通过深度残差网络提取待测图像的深度视觉特征，并优化稀疏编码目标函数，得到待测图像视觉特征的语义属性表示。本发明能解决人工定义属性在识别时导致特征表示语义信息的匮乏问题，增强视觉特征表示的判别能力。

Description

基于判别性视觉属性的零样本识别方法及系统

技术领域

本发明属于计算机视觉识别技术领域，具体涉及一种基于判别性视觉属性的零样本识别方法及系统。

背景技术

当今，图像及视频数据呈爆炸式增长，面对纷繁复杂的多媒体数据，如何有效的分析并理解其语义内容变得日趋重要。为了解决以上问题，计算机视觉识别技术便孕育而生。目前，在该领域内随着大规模视觉数据库的建立以及深度神经网络的广泛应用，视觉识别方法得到了迅速的发展，特别在视觉特征提取、强监督模型构建、数据驱动神经网络学习方面取得了较大的进步。然而，由于底层视觉数据与中高层语义信息间固有的语义鸿沟，当前对象识别算法在判别性特征提取、少量及零样本识别、跨特征域适应性等关键问题上仍进展缓慢。

针对当前计算机视觉识别技术的以上问题，近些年提出了基于零样本学习的视觉识别算法。区别于传统计算机识别技术，基于零样本的学习算法致力于识别训练过程中没有出现的新对象类别，该特性有效提升了视觉识别系统的可扩展性，其显著的优越性在于无需收集大量新出现对象类别的训练样本，较好解决了稀有对象类别训练数据的获取，以及实际应用中人工标注成本过高的问题。其次，基于零样本的机器学习机制，受启发于人脑的认知模式，通过已构建知识的迁移，实现具有差异性对象类别的识别。比如，小孩从未看见过斑马，但通过预先建立的一般马匹与斑马在皮肤纹理上的区别，便能很容易识别这种动物。由于以上零样本学习方法的优点，近年在计算机识别领域得到了广泛的关注及应用。

然而，当前基于零样本视觉识别方法的研究仍存在以下亟待解决的问题：首先，现有零样本学习方法往往仅借助人工定义的对象属性，忽视了判别性视觉特征的构建，以及知识迁移的域适应性，该人工定义属性虽具有语义描述性，但其在视觉空间中的判别性、以及描述语义对象类别的完备性难以保证，导致了特征表示语义信息的匮乏、视觉特征语义表示判别能力的降低。另外，由于新出现对象类别与原对象类别属于不同特征域，在当前零样本识别算法中缺乏跨特征域模型的研究，进而造成知识的无效迁移，最终不能有效识别新对象类别。

发明内容

有鉴于此，本发明的目的之一在于提供一种基于判别性视觉属性的零样本识别方法，该方法能解决人工定义属性在识别时导致特征表示语义信息的匮乏问题，实现视觉特征空间与语义嵌入空间的联合，增强视觉特征表示的判别能力。

为实现上述目的，本发明的技术方案为：一种基于判别性视觉属性的零样本识别方法，包括以下步骤：

S1：构建稀疏编码模型，基于原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系；

S2：引入分类错误代价项构建监督字典学习目标模型，提取原特征域判别性视觉属性集合；所述监督字典学习目标模型为：

其中，

表示原特征域判别性视觉属性集合，

为视觉特征F_s在

上的语义属性表示，

为

中的一个子集，

为分类错误代价项，即对应于第i个对象类别的语义属性表示，C_s为原特征域对象类别的总数，w_i、b_i为分类错误代价项的参数，λ₁、λ₂为权重系数，区别于标准稀疏字典学习模型，发明方法目标函数中引入了分类错误代价项

借助图像数据的监督信息，有效挖掘数据集内具有判别性的视觉属性；

S3：基于所述原特征域变换关系以及所述原特征域判别性视觉属性集合，构建目标特征域学习模型，挖掘目标特征域判别性视觉属性；所述目标特征域学习模型为：

其中，F_u为目标特征域样本数据的视觉特征，D_u表示目标特征域中视觉特征空间与语义嵌入空间的变换关系，A_u为视觉特征F_u在D_u上的语义属性表示；

表示从目标特征域获取的判别性视觉属性集合，

则表示视觉特征在视觉属性集合

上的表示系数；

S4：输入包含语义对象的待测图像，通过深度残差网络Resnet-101提取所述待测图像的深度视觉特征，并优化稀疏编码目标函数，得到所述待测图像视觉特征的语义属性表示。

进一步地，所述步骤S1中的稀疏编码模型为：

其中，F_s表示原特征域图像样本的视觉特征集合，A_s表示基于人工定义的属性，D_s表示原特征域变换关系，d_i为对应于D_s中的第i个列向量。

进一步地，所述步骤S2中分类错误代价项采用支持向量机SVM hinge loss损失函数，所述类错误代价项为：

w_i、b_i为分类器参数，γ为权重系数，y_i表示对应于第i个对象类别的标签向量。

进一步地，所述步骤S4中的稀疏编码目标函数为：

其中，f表示所述待测图图像的深度视觉特征，D_u为目标特征域中视觉特征与语义属性表示间的变换关系，y为视觉特征f基于变换矩阵D_u的语义属性表示，参数μ为控制特征向量y稀疏性的权重系数。

进一步地，还包括步骤：

S5：根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测，完成所述待测图像的零样本的语义对象识别。

本发明的目的之二在于提供一种基于判别性视觉属性的零样本识别系统，该系统从原特征域及目标特征域进行学习，保证了知识迁移过程中的特征域适应性，提高跨特征域情况下对象识别的性能。

为实现上述目的，本发明的技术方案为：一种基于判别性视觉属性的零样本识别系统，包括：原特征域学习模块、目标特征域学习模块、零样本识别模块；其中，

所述原特征域学习模块包括人工定义属性单元、判别性视觉属性单元，所述人工定义属性单元用于构建稀疏编码模型，并接受原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系；

所述判别性视觉属性单元用于构建监督字典学习目标模型并接收所述原特征域样本数据优化所述监督字典学习目标模型得到原特征域判别性视觉属性集合；所述监督字典学习目标模型为：

其中，

表示原特征域判别性视觉属性集合，

为视觉特征F_s在

上的语义属性表示，

为

中的一个子集，

为分类错误代价项，C_s为原特征域对象类别的总数，w_i、b_i为分类错误代价项的参数，λ₁、λ₂为权重系数；

所述目标特征域学习模块与所述人工定义属性单元、所述判别性视觉属性单元均相连，用于接收所述原特征域变换关系以及所述原特征域判别性视觉属性集合，构建目标特征域学习模型，挖掘目标特征域判别性视觉属性；所述目标特征域学习模型为：

表示从目标特征域获取的判别性视觉属性集合，

则表示视觉特征在视觉属性集合

上的表示系数；

所述零样本识别模块与所述目标特征域学习模块相连，用于接收包含语义对象的待测图像，并通过深度残差网络Resnet-101提取所述待测图像的深度视觉特征，还用于根据所述深度视觉特征构建稀疏编码目标函数，得到所述待测图像视觉特征的语义属性表示。

进一步地，所述人工定义属性单元的稀疏编码模型为：

进一步地，所述监督字典学习目标模型包括采用支持向量机SVM hinge loss损失函数的分类错误代价项，所述类错误代价项为：

进一步地，所述零样本识别模块的稀疏编码目标函数为：

进一步地，零样本识别模块还用于根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测，完成所述待测图像的零样本的语义对象识别。

与现有技术相比，本发明具有如下优点：

本发明提供一种基于判别性视觉属性的零样本识别方法及系统，该方法有益效果如下：

(1)、本发明挖掘不同对象类别的判别性视觉属性，并引入于语义嵌入空间，通过优化字典学习模型目标函数，实现视觉特征空间与语义嵌入空间的联合，最终有效增强了视觉特征表示的判别能力；

(2)、本发明将基于零样本的视觉识别问题分解为原特征域学习及目标特征域学习两个部分，并通过正则化约束建立了相互的关联，保证了知识迁移过程中的特征域适应性，有效提高了跨特征域情况下对象识别的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一种基于判别性视觉属性的零样本识别系统的一实施例结构示意图；

图2为本发明一种基于判别性视觉属性的零样本识别方法的一实施例流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

实施例1

参考图1，为本发明一种基于判别性视觉属性的零样本识别系统的一实施例结构示意图；具体地，该系统包括：原特征域学习模块1、目标特征域学习模块2、零样本识别模块3；

视觉特征空间与语义嵌入空间之间的关联在零样本视觉识别中具有重要作用，本发明将以上特征空间关联信息的学习分解为两个部分：原特征域学习(已知对象类别)与目标特征域学习(未知对象类别)，零样本识别问题中原特征域与目标特征域间对象类别不相交。

具体地，原特征域学习模块1包括人工定义属性单元11、判别性视觉属性单元12；

人工定义属性单元11用于构建稀疏编码模型，并接受原特征域(已知对象类别)样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系；

本实施例中，人工定义属性单元11实现视觉空间与语义嵌入空间的联合，人工定义属性单元11的稀疏编码模型为：

其中，F_s表示原特征域图像样本的视觉特征集合，本实施例中图像视觉特征采用深度残差网络Resnet-101提取的2048维度视觉特征，A_s表示基于人工定义的属性，其对应于每一个视觉特征的语义属性表示集合，D_s表示原特征域变换关系，d_i为对应于D_s中的第i个列向量；

优选地，可通过以下闭式解的形式计算映射关系D_s：

判别性视觉属性单元12用于构建监督字典学习目标模型并接收原特征域样本数据优化监督字典学习目标模型得到原特征域判别性视觉属性集合；监督字典学习目标模型为：

其中，

表示原特征域判别性视觉属性集合，

为视觉特征F_s在

上的语义属性表示，

为

中的一个子集，

进一步地，监督字典学习目标模型引用了分类错误代价项

借助图像数据的监督信息，有效挖掘数据集内具有判别性的视觉属性，本实施例中分类错误代价项具体采用支持向量机SVM hinge loss损失函数的形式，即分类错误代价项为：

为了保证监督字典学习目标模型在优化过程中的可微分性，判别性视觉属性单元12令

表示第i个对象类别中对应第k个样本数据的语义属性表示；

目标特征域学习模块2与人工定义属性单元11、判别性视觉属性单元12均相连，用于接收原特征域变换关系以及原特征域判别性视觉属性集合，构建目标特征域学习模型，挖掘目标特征域判别性视觉属性；目标特征域学习模型为：

表示从目标特征域获取的判别性视觉属性集合，

则表示视觉特征在视觉属性集合

上的表示系数，α,β,η为权重参数；

零样本识别模块3与目标特征域学习模块2相连，用于接收包含语义对象的待测图像，并通过深度残差网络Resnet-101提取待测图像的深度视觉特征，还用于根据深度视觉特征构建稀疏编码目标函数，得到待测图像视觉特征的语义属性表示。

进一步地，零样本识别模块3的稀疏编码目标函数为：

其中，f表示待测图图像的深度视觉特征，D_u为目标特征域中视觉特征与语义属性表示间的变换关系，y为视觉特征f基于变换矩阵D_u的语义属性表示，参数μ为控制特征向量y稀疏性的权重系数。

进一步地，零样本识别模块还用于根据待测图像视觉特征的语义属性表示利用最近领域搜索算法实现待测图像语义标签的预测，完成待测图像的零样本的语义对象识别。

实施例2

基于实施例1中的系统，本发明还提供了一种基于判别性视觉属性的零样本识别方法，流程图可参考图2，具体地，一种基于判别性视觉属性的零样本识别方法，包括以下步骤：

S1：构建稀疏编码模型，基于原特征域样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系；

本步骤中，利用原特征域样本数据，通过优化以下稀疏编码模型，获取视觉特征到人工定义属性表示的变换关系，进一步地，步骤S1中的稀疏编码模型为：

优选地，本步骤中不同于常用标准稀疏编码模型已知F_s与D_s求A_s，可通过以下闭式解的形式计算映射关系D_s：

S2：引入分类错误代价项构建监督字典学习目标模型，提取原特征域判别性视觉属性集合；

在步骤S1提供了不同对象的语义性描述后，识别仍存在以下固有缺陷：人工定义属性的构建往往基于不同对象类别具有分享性的视觉特性，因此造成生成的语义属性表示判别性匮乏；且人工定义属性缺乏完备性，不利于特征表示的多样性及最终的识别任务；针对人工定义属性的以上问题，本步骤S2中致力于从图像数据中挖掘具有判别性的视觉属性，以提高语义嵌入空间的特征表示能力；通过构建以下监督字典学习目标模型，提取原特征域具有判别性的视觉属性集合：

其中，

表示原特征域判别性视觉属性集合，

为视觉特征F_s在

上的语义属性表示，

为

中的一个子集，

为分类错误代价项，即对应于第i个对象类别的语义属性表示；C_s为原特征域对象类别的总数；w_i、b_i为分类错误代价项的参数，λ₁、λ₂为权重系数，区别于标准稀疏字典学习模型，发明方法目标函数中引入了分类错误代价项

优选地，本步骤中的分类错误代价项，借助图像数据的监督信息，有效挖掘数据集内具有判别性的视觉属性，本实施例中分类错误代价项具体采用支持向量机SVM hingeloss损失函数的形式，即分类错误代价项为：

w_i、b_i为分类器参数，γ为权重系数，y_i表示对应于第i个对象类别的标签向量；

且为了进一步保证监督字典学习目标模型在优化过程中的可微分性，判别性视觉属性单元12中令

表示第i个对象类别中对应第k个样本数据的语义属性表示；

本步骤中的监督字典学习目标模型为多变量优化问题，具体求解过程中，当优化某一变量时其余变量均固定，于是可将原优化问题转换为多个凸优化子问题进行求解。

S3：基于原特征域变换关系以及原特征域判别性视觉属性集合，构建目标特征域学习模型，挖掘目标特征域判别性视觉属性；

本步骤中，在S1-S2的基础上，需实现目标特征域中联合挖掘判别性视觉属性，以及实现视觉特征空间与语义嵌入空间的关联；为了解决原特征域与目标特征域彼此分离造成的域适应性问题，将原特征域变换关系D_s及原特征域判别性视觉属性集合

作为正则化约束引入于目标特征域学习过程，以改善不同特征域的适应性问题，目标特征域学习模型为：

其中，F_u为目标特征域样本数据的视觉特征，D_u表示目标特征域中视觉特征空间与语义嵌入空间的变换关系，A_u为视觉特征F_u在D_u上的语义属性表示；D_u ^v表示从目标特征域获取的判别性视觉属性集合，

则表示视觉特征在视觉属性集合

上的表示系数，α,β,η为权重参数；

本实施例中，目标特征域学习模型中第一项

为数据重构项，最小化该代价项可实现视觉特征与语义属性表示的联合；为了从目标特征域挖掘判别性视觉属性，并解决不同特征域造成的域适应性问题，目标特征域学习模型引入视觉特征重构残差项

以及不同特征域间变换矩阵和判别性视觉属性的邻近性约束项||D_u-D_s||、

以上三个代价项在目标特征域学习模型中进行优化，保证了挖掘目标特征域判别性视觉属性的同时，改善跨特征域情况下特征表示的适应性问题；目标特征域学习模型中

为视觉特征在人工定义属性集合及判别性视觉属性集合上语义表示的相似性约束，通过最小化该代价项，将判别性视觉属性有效引入于视觉特征的语义属性表示，最终提高了特征表示的判别能力；其中α,β,η为目标特征域学习模型中用于平衡不同代价项的权重参数，对于目标特征域学习模型的求解仍为多变量优化问题，发明方法中采用一种交替优化的策略，即当优化某一变量时，其余变量固定，最终通过迭代的方式实现各变量的交替优化求解。

S4：输入包含语义对象的待测图像，通过深度残差网络Resnet-101提取待测图像的深度视觉特征，并优化稀疏编码目标函数，得到待测图像视觉特征的语义属性表示。

本步骤中，测试图像的识别能力，输入一幅包含语义对象的图像，首先通过深度残差网络Resnet-101提取图像的深度视觉特征，并通过优化以下稀疏编码目标函数，计算图像视觉特征的语义属性表示，稀疏编码目标函数为：

其中，f表示待测图图像的深度视觉特征，D_u为目标特征域中视觉特征与语义属性表示间的变换关系，y为视觉特征f基于变换矩阵D_u的语义属性表示，参数μ为控制特征向量y稀疏性的权重系数；

本实施例中采用特征指派搜索(Feature-sign search)算法，实现以稀疏编码目标函数的求解；

S5：根据待测图像视觉特征的语义属性表示利用最近领域搜索算法实现待测图像语义标签的预测，完成待测图像的零样本的语义对象识别。

在步骤S4获得图像视觉特征f对应的语义属性表示y，然后利用最近领域搜索算法(Nearest neighbor,NN)获得输入图像语义对象的标签信息，以解决基于零样本学习的对象识别问题。

实施例3

本实施例中还提供对实施例1中的系统及实施例2的方法的检验数据，具体地，选用aPY、AwA2基准数据库，其中，aPY、AwA2数据库中的零样本识别数据库的数据统计如下表1：

表格1当前基准aPY及AwA2零样本识别数据库的数据统计

然后，选用现有的几种零样本方法与本发明中的方法在基准零样本识别数据库上的准确性比较，选用的现有零样本方法有：M.Norouzi等人在2014年提出的零样本方法CONSE；Y.Xian等人在2016年提出的零样本方法LATEM，Bin Tong等人在2019年提出的零样本方法零样本方法DLFZRL，最后得到的准确性如下表2所示：

表格2不同零件识别方法在基准零样本识别数据库上的准确性

方法	CONSE	LATEM	DLFZRL	本发明方法
					aPY(％)	26.9	35.2	38.5	42.8
AwA2(％)	44.5	55.8	60.9	62.7

根据上表可知，使用AwA2数据库的零样本识别方法的准确率均大于使用aPY数据库，而本发明中提出的零样本识别方法的准确率要大于其他零样本识别方法，证明本发明提出的一种基于判别性视觉属性学习的零样本识别方法能提高识别的性能。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。