CN112329884B - 基于判别性视觉属性的零样本识别方法及系统 - Google Patents

基于判别性视觉属性的零样本识别方法及系统 Download PDF

Info

Publication number
CN112329884B
CN112329884B CN202011337219.2A CN202011337219A CN112329884B CN 112329884 B CN112329884 B CN 112329884B CN 202011337219 A CN202011337219 A CN 202011337219A CN 112329884 B CN112329884 B CN 112329884B
Authority
CN
China
Prior art keywords
visual
feature
domain
semantic
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011337219.2A
Other languages
English (en)
Other versions
CN112329884A (zh
Inventor
谢昱锐
蒋涛
袁建英
许林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202011337219.2A priority Critical patent/CN112329884B/zh
Publication of CN112329884A publication Critical patent/CN112329884A/zh
Application granted granted Critical
Publication of CN112329884B publication Critical patent/CN112329884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于判别性视觉属性的零样本识别方法及系统,方法包括以下步骤:S1:构建稀疏编码模型,基于原特征域样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;S2:引入分类错误代价项构建监督字典学习目标模型,提取原特征域判别性视觉属性集合;S3:基于原特征域变换关系及原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;S4:输入包含语义对象的待测图像,通过深度残差网络提取待测图像的深度视觉特征,并优化稀疏编码目标函数,得到待测图像视觉特征的语义属性表示。本发明能解决人工定义属性在识别时导致特征表示语义信息的匮乏问题,增强视觉特征表示的判别能力。

Description

基于判别性视觉属性的零样本识别方法及系统
技术领域
本发明属于计算机视觉识别技术领域,具体涉及一种基于判别性视觉属性的零样本识别方法及系统。
背景技术
当今,图像及视频数据呈爆炸式增长,面对纷繁复杂的多媒体数据,如何有效的分析并理解其语义内容变得日趋重要。为了解决以上问题,计算机视觉识别技术便孕育而生。目前,在该领域内随着大规模视觉数据库的建立以及深度神经网络的广泛应用,视觉识别方法得到了迅速的发展,特别在视觉特征提取、强监督模型构建、数据驱动神经网络学习方面取得了较大的进步。然而,由于底层视觉数据与中高层语义信息间固有的语义鸿沟,当前对象识别算法在判别性特征提取、少量及零样本识别、跨特征域适应性等关键问题上仍进展缓慢。
针对当前计算机视觉识别技术的以上问题,近些年提出了基于零样本学习的视觉识别算法。区别于传统计算机识别技术,基于零样本的学习算法致力于识别训练过程中没有出现的新对象类别,该特性有效提升了视觉识别系统的可扩展性,其显著的优越性在于无需收集大量新出现对象类别的训练样本,较好解决了稀有对象类别训练数据的获取,以及实际应用中人工标注成本过高的问题。其次,基于零样本的机器学习机制,受启发于人脑的认知模式,通过已构建知识的迁移,实现具有差异性对象类别的识别。比如,小孩从未看见过斑马,但通过预先建立的一般马匹与斑马在皮肤纹理上的区别,便能很容易识别这种动物。由于以上零样本学习方法的优点,近年在计算机识别领域得到了广泛的关注及应用。
然而,当前基于零样本视觉识别方法的研究仍存在以下亟待解决的问题:首先,现有零样本学习方法往往仅借助人工定义的对象属性,忽视了判别性视觉特征的构建,以及知识迁移的域适应性,该人工定义属性虽具有语义描述性,但其在视觉空间中的判别性、以及描述语义对象类别的完备性难以保证,导致了特征表示语义信息的匮乏、视觉特征语义表示判别能力的降低。另外,由于新出现对象类别与原对象类别属于不同特征域,在当前零样本识别算法中缺乏跨特征域模型的研究,进而造成知识的无效迁移,最终不能有效识别新对象类别。
发明内容
有鉴于此,本发明的目的之一在于提供一种基于判别性视觉属性的零样本识别方法,该方法能解决人工定义属性在识别时导致特征表示语义信息的匮乏问题,实现视觉特征空间与语义嵌入空间的联合,增强视觉特征表示的判别能力。
为实现上述目的,本发明的技术方案为:一种基于判别性视觉属性的零样本识别方法,包括以下步骤:
S1:构建稀疏编码模型,基于原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
S2:引入分类错误代价项构建监督字典学习目标模型,提取原特征域判别性视觉属性集合;所述监督字典学习目标模型为:
Figure BDA0002797518070000031
其中,
Figure BDA0002797518070000032
表示原特征域判别性视觉属性集合,
Figure BDA0002797518070000033
为视觉特征Fs
Figure BDA0002797518070000034
上的语义属性表示,
Figure BDA0002797518070000035
Figure BDA0002797518070000036
中的一个子集,
Figure BDA0002797518070000037
为分类错误代价项,即对应于第i个对象类别的语义属性表示,Cs为原特征域对象类别的总数,wi、bi为分类错误代价项的参数,λ1、λ2为权重系数,区别于标准稀疏字典学习模型,发明方法目标函数中引入了分类错误代价项
Figure BDA0002797518070000038
借助图像数据的监督信息,有效挖掘数据集内具有判别性的视觉属性;
S3:基于所述原特征域变换关系以及所述原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;所述目标特征域学习模型为:
Figure BDA0002797518070000039
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;
Figure BDA00027975180700000310
表示从目标特征域获取的判别性视觉属性集合,
Figure BDA00027975180700000311
则表示视觉特征在视觉属性集合
Figure BDA00027975180700000312
上的表示系数;
S4:输入包含语义对象的待测图像,通过深度残差网络Resnet-101提取所述待测图像的深度视觉特征,并优化稀疏编码目标函数,得到所述待测图像视觉特征的语义属性表示。
进一步地,所述步骤S1中的稀疏编码模型为:
Figure BDA0002797518070000041
其中,Fs表示原特征域图像样本的视觉特征集合,As表示基于人工定义的属性,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量。
进一步地,所述步骤S2中分类错误代价项采用支持向量机SVM hinge loss损失函数,所述类错误代价项为:
Figure BDA0002797518070000042
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量。
进一步地,所述步骤S4中的稀疏编码目标函数为:
Figure BDA0002797518070000043
其中,f表示所述待测图图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数。
进一步地,还包括步骤:
S5:根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测,完成所述待测图像的零样本的语义对象识别。
本发明的目的之二在于提供一种基于判别性视觉属性的零样本识别系统,该系统从原特征域及目标特征域进行学习,保证了知识迁移过程中的特征域适应性,提高跨特征域情况下对象识别的性能。
为实现上述目的,本发明的技术方案为:一种基于判别性视觉属性的零样本识别系统,包括:原特征域学习模块、目标特征域学习模块、零样本识别模块;其中,
所述原特征域学习模块包括人工定义属性单元、判别性视觉属性单元,所述人工定义属性单元用于构建稀疏编码模型,并接受原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
所述判别性视觉属性单元用于构建监督字典学习目标模型并接收所述原特征域样本数据优化所述监督字典学习目标模型得到原特征域判别性视觉属性集合;所述监督字典学习目标模型为:
Figure BDA0002797518070000051
其中,
Figure BDA0002797518070000052
表示原特征域判别性视觉属性集合,
Figure BDA0002797518070000053
为视觉特征Fs
Figure BDA0002797518070000054
上的语义属性表示,
Figure BDA0002797518070000055
Figure BDA0002797518070000056
中的一个子集,
Figure BDA0002797518070000057
为分类错误代价项,Cs为原特征域对象类别的总数,wi、bi为分类错误代价项的参数,λ1、λ2为权重系数;
所述目标特征域学习模块与所述人工定义属性单元、所述判别性视觉属性单元均相连,用于接收所述原特征域变换关系以及所述原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;所述目标特征域学习模型为:
Figure BDA0002797518070000061
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;
Figure BDA0002797518070000062
表示从目标特征域获取的判别性视觉属性集合,
Figure BDA0002797518070000063
则表示视觉特征在视觉属性集合
Figure BDA0002797518070000064
上的表示系数;
所述零样本识别模块与所述目标特征域学习模块相连,用于接收包含语义对象的待测图像,并通过深度残差网络Resnet-101提取所述待测图像的深度视觉特征,还用于根据所述深度视觉特征构建稀疏编码目标函数,得到所述待测图像视觉特征的语义属性表示。
进一步地,所述人工定义属性单元的稀疏编码模型为:
Figure BDA0002797518070000065
其中,Fs表示原特征域图像样本的视觉特征集合,As表示基于人工定义的属性,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量。
进一步地,所述监督字典学习目标模型包括采用支持向量机SVM hinge loss损失函数的分类错误代价项,所述类错误代价项为:
Figure BDA0002797518070000066
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量。
进一步地,所述零样本识别模块的稀疏编码目标函数为:
Figure BDA0002797518070000071
其中,f表示所述待测图图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数。
进一步地,零样本识别模块还用于根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测,完成所述待测图像的零样本的语义对象识别。
与现有技术相比,本发明具有如下优点:
本发明提供一种基于判别性视觉属性的零样本识别方法及系统,该方法有益效果如下:
(1)、本发明挖掘不同对象类别的判别性视觉属性,并引入于语义嵌入空间,通过优化字典学习模型目标函数,实现视觉特征空间与语义嵌入空间的联合,最终有效增强了视觉特征表示的判别能力;
(2)、本发明将基于零样本的视觉识别问题分解为原特征域学习及目标特征域学习两个部分,并通过正则化约束建立了相互的关联,保证了知识迁移过程中的特征域适应性,有效提高了跨特征域情况下对象识别的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种基于判别性视觉属性的零样本识别系统的一实施例结构示意图;
图2为本发明一种基于判别性视觉属性的零样本识别方法的一实施例流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
参考图1,为本发明一种基于判别性视觉属性的零样本识别系统的一实施例结构示意图;具体地,该系统包括:原特征域学习模块1、目标特征域学习模块2、零样本识别模块3;
视觉特征空间与语义嵌入空间之间的关联在零样本视觉识别中具有重要作用,本发明将以上特征空间关联信息的学习分解为两个部分:原特征域学习(已知对象类别)与目标特征域学习(未知对象类别),零样本识别问题中原特征域与目标特征域间对象类别不相交。
具体地,原特征域学习模块1包括人工定义属性单元11、判别性视觉属性单元12;
人工定义属性单元11用于构建稀疏编码模型,并接受原特征域(已知对象类别)样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
本实施例中,人工定义属性单元11实现视觉空间与语义嵌入空间的联合,人工定义属性单元11的稀疏编码模型为:
Figure BDA0002797518070000091
其中,Fs表示原特征域图像样本的视觉特征集合,本实施例中图像视觉特征采用深度残差网络Resnet-101提取的2048维度视觉特征,As表示基于人工定义的属性,其对应于每一个视觉特征的语义属性表示集合,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量;
优选地,可通过以下闭式解的形式计算映射关系Ds
Figure BDA0002797518070000092
判别性视觉属性单元12用于构建监督字典学习目标模型并接收原特征域样本数据优化监督字典学习目标模型得到原特征域判别性视觉属性集合;监督字典学习目标模型为:
Figure BDA0002797518070000101
其中,
Figure BDA0002797518070000102
表示原特征域判别性视觉属性集合,
Figure BDA0002797518070000103
为视觉特征Fs
Figure BDA0002797518070000104
上的语义属性表示,
Figure BDA0002797518070000105
Figure BDA0002797518070000106
中的一个子集,
Figure BDA0002797518070000107
为分类错误代价项,Cs为原特征域对象类别的总数,wi、bi为分类错误代价项的参数,λ1、λ2为权重系数;
进一步地,监督字典学习目标模型引用了分类错误代价项
Figure BDA0002797518070000108
借助图像数据的监督信息,有效挖掘数据集内具有判别性的视觉属性,本实施例中分类错误代价项具体采用支持向量机SVM hinge loss损失函数的形式,即分类错误代价项为:
Figure BDA0002797518070000109
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量。
为了保证监督字典学习目标模型在优化过程中的可微分性,判别性视觉属性单元12令
Figure BDA00027975180700001010
Figure BDA00027975180700001011
表示第i个对象类别中对应第k个样本数据的语义属性表示;
目标特征域学习模块2与人工定义属性单元11、判别性视觉属性单元12均相连,用于接收原特征域变换关系以及原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;目标特征域学习模型为:
Figure BDA0002797518070000111
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;
Figure BDA0002797518070000112
表示从目标特征域获取的判别性视觉属性集合,
Figure BDA0002797518070000113
则表示视觉特征在视觉属性集合
Figure BDA0002797518070000114
上的表示系数,α,β,η为权重参数;
零样本识别模块3与目标特征域学习模块2相连,用于接收包含语义对象的待测图像,并通过深度残差网络Resnet-101提取待测图像的深度视觉特征,还用于根据深度视觉特征构建稀疏编码目标函数,得到待测图像视觉特征的语义属性表示。
进一步地,零样本识别模块3的稀疏编码目标函数为:
Figure BDA0002797518070000115
其中,f表示待测图图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数。
进一步地,零样本识别模块还用于根据待测图像视觉特征的语义属性表示利用最近领域搜索算法实现待测图像语义标签的预测,完成待测图像的零样本的语义对象识别。
实施例2
基于实施例1中的系统,本发明还提供了一种基于判别性视觉属性的零样本识别方法,流程图可参考图2,具体地,一种基于判别性视觉属性的零样本识别方法,包括以下步骤:
S1:构建稀疏编码模型,基于原特征域样本数据优化稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
本步骤中,利用原特征域样本数据,通过优化以下稀疏编码模型,获取视觉特征到人工定义属性表示的变换关系,进一步地,步骤S1中的稀疏编码模型为:
Figure BDA0002797518070000121
其中,Fs表示原特征域图像样本的视觉特征集合,本实施例中图像视觉特征采用深度残差网络Resnet-101提取的2048维度视觉特征,As表示基于人工定义的属性,其对应于每一个视觉特征的语义属性表示集合,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量;
优选地,本步骤中不同于常用标准稀疏编码模型已知Fs与Ds求As,可通过以下闭式解的形式计算映射关系Ds
Figure BDA0002797518070000122
S2:引入分类错误代价项构建监督字典学习目标模型,提取原特征域判别性视觉属性集合;
在步骤S1提供了不同对象的语义性描述后,识别仍存在以下固有缺陷:人工定义属性的构建往往基于不同对象类别具有分享性的视觉特性,因此造成生成的语义属性表示判别性匮乏;且人工定义属性缺乏完备性,不利于特征表示的多样性及最终的识别任务;针对人工定义属性的以上问题,本步骤S2中致力于从图像数据中挖掘具有判别性的视觉属性,以提高语义嵌入空间的特征表示能力;通过构建以下监督字典学习目标模型,提取原特征域具有判别性的视觉属性集合:
Figure BDA0002797518070000131
其中,
Figure BDA0002797518070000132
表示原特征域判别性视觉属性集合,
Figure BDA0002797518070000133
为视觉特征Fs
Figure BDA0002797518070000134
上的语义属性表示,
Figure BDA0002797518070000135
Figure BDA0002797518070000136
中的一个子集,
Figure BDA0002797518070000137
为分类错误代价项,即对应于第i个对象类别的语义属性表示;Cs为原特征域对象类别的总数;wi、bi为分类错误代价项的参数,λ1、λ2为权重系数,区别于标准稀疏字典学习模型,发明方法目标函数中引入了分类错误代价项
Figure BDA0002797518070000138
借助图像数据的监督信息,有效挖掘数据集内具有判别性的视觉属性;
优选地,本步骤中的分类错误代价项,借助图像数据的监督信息,有效挖掘数据集内具有判别性的视觉属性,本实施例中分类错误代价项具体采用支持向量机SVM hingeloss损失函数的形式,即分类错误代价项为:
Figure BDA0002797518070000139
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量;
且为了进一步保证监督字典学习目标模型在优化过程中的可微分性,判别性视觉属性单元12中令
Figure BDA0002797518070000141
Figure BDA0002797518070000142
表示第i个对象类别中对应第k个样本数据的语义属性表示;
本步骤中的监督字典学习目标模型为多变量优化问题,具体求解过程中,当优化某一变量时其余变量均固定,于是可将原优化问题转换为多个凸优化子问题进行求解。
S3:基于原特征域变换关系以及原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;
本步骤中,在S1-S2的基础上,需实现目标特征域中联合挖掘判别性视觉属性,以及实现视觉特征空间与语义嵌入空间的关联;为了解决原特征域与目标特征域彼此分离造成的域适应性问题,将原特征域变换关系Ds及原特征域判别性视觉属性集合
Figure BDA0002797518070000143
作为正则化约束引入于目标特征域学习过程,以改善不同特征域的适应性问题,目标特征域学习模型为:
Figure BDA0002797518070000144
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;Du v表示从目标特征域获取的判别性视觉属性集合,
Figure BDA0002797518070000145
则表示视觉特征在视觉属性集合
Figure BDA0002797518070000146
上的表示系数,α,β,η为权重参数;
本实施例中,目标特征域学习模型中第一项
Figure BDA0002797518070000151
为数据重构项,最小化该代价项可实现视觉特征与语义属性表示的联合;为了从目标特征域挖掘判别性视觉属性,并解决不同特征域造成的域适应性问题,目标特征域学习模型引入视觉特征重构残差项
Figure BDA0002797518070000152
以及不同特征域间变换矩阵和判别性视觉属性的邻近性约束项||Du-Ds||、
Figure BDA0002797518070000153
以上三个代价项在目标特征域学习模型中进行优化,保证了挖掘目标特征域判别性视觉属性的同时,改善跨特征域情况下特征表示的适应性问题;目标特征域学习模型中
Figure BDA0002797518070000154
为视觉特征在人工定义属性集合及判别性视觉属性集合上语义表示的相似性约束,通过最小化该代价项,将判别性视觉属性有效引入于视觉特征的语义属性表示,最终提高了特征表示的判别能力;其中α,β,η为目标特征域学习模型中用于平衡不同代价项的权重参数,对于目标特征域学习模型的求解仍为多变量优化问题,发明方法中采用一种交替优化的策略,即当优化某一变量时,其余变量固定,最终通过迭代的方式实现各变量的交替优化求解。
S4:输入包含语义对象的待测图像,通过深度残差网络Resnet-101提取待测图像的深度视觉特征,并优化稀疏编码目标函数,得到待测图像视觉特征的语义属性表示。
本步骤中,测试图像的识别能力,输入一幅包含语义对象的图像,首先通过深度残差网络Resnet-101提取图像的深度视觉特征,并通过优化以下稀疏编码目标函数,计算图像视觉特征的语义属性表示,稀疏编码目标函数为:
Figure BDA0002797518070000161
其中,f表示待测图图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数;
本实施例中采用特征指派搜索(Feature-sign search)算法,实现以稀疏编码目标函数的求解;
S5:根据待测图像视觉特征的语义属性表示利用最近领域搜索算法实现待测图像语义标签的预测,完成待测图像的零样本的语义对象识别。
在步骤S4获得图像视觉特征f对应的语义属性表示y,然后利用最近领域搜索算法(Nearest neighbor,NN)获得输入图像语义对象的标签信息,以解决基于零样本学习的对象识别问题。
实施例3
本实施例中还提供对实施例1中的系统及实施例2的方法的检验数据,具体地,选用aPY、AwA2基准数据库,其中,aPY、AwA2数据库中的零样本识别数据库的数据统计如下表1:
表格1当前基准aPY及AwA2零样本识别数据库的数据统计
Figure BDA0002797518070000162
然后,选用现有的几种零样本方法与本发明中的方法在基准零样本识别数据库上的准确性比较,选用的现有零样本方法有:M.Norouzi等人在2014年提出的零样本方法CONSE;Y.Xian等人在2016年提出的零样本方法LATEM,Bin Tong等人在2019年提出的零样本方法零样本方法DLFZRL,最后得到的准确性如下表2所示:
表格2不同零件识别方法在基准零样本识别数据库上的准确性
方法 CONSE LATEM DLFZRL 本发明方法
aPY(%) 26.9 35.2 38.5 42.8
AwA2(%) 44.5 55.8 60.9 62.7
根据上表可知,使用AwA2数据库的零样本识别方法的准确率均大于使用aPY数据库,而本发明中提出的零样本识别方法的准确率要大于其他零样本识别方法,证明本发明提出的一种基于判别性视觉属性学习的零样本识别方法能提高识别的性能。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种基于判别性视觉属性的零样本识别方法,其特征在于,包括以下步骤:
S1:构建稀疏编码模型,基于原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
S2:引入分类错误代价项构建监督字典学习目标模型,提取原特征域判别性视觉属性集合;所述监督字典学习目标模型为:
Figure FDA0003598096440000011
其中,
Figure FDA0003598096440000012
表示原特征域判别性视觉属性集合,
Figure FDA0003598096440000013
为视觉特征Fs
Figure FDA0003598096440000014
上的语义属性表示,
Figure FDA0003598096440000015
Figure FDA00035980964400000110
中的一个子集,
Figure FDA0003598096440000016
为分类错误代价项,Cs为原特征域对象类别的总数,wi、bi为分类错误代价项的参数,λ1、λ2为权重系数;
所述分类错误代价项采用支持向量机SVM hinge loss损失函数,所述分类错误代价项为:
Figure FDA0003598096440000017
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量;
判别性视觉属性单元中令
Figure FDA0003598096440000018
Figure FDA0003598096440000019
表示第i个对象类别中对应第k个样本数据的语义属性表示;
S3:基于所述原特征域变换关系以及所述原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;所述目标特征域学习模型为:
Figure FDA0003598096440000021
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;
Figure FDA0003598096440000022
表示从目标特征域获取的判别性视觉属性集合,
Figure FDA0003598096440000023
则表示视觉特征在视觉属性集合
Figure FDA0003598096440000024
上的表示系数,α,β,η为权重参数;
S4:输入包含语义对象的待测图像,通过深度残差网络提取所述待测图像的深度视觉特征,并优化稀疏编码目标函数,得到所述待测图像视觉特征的语义属性表示。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中的稀疏编码模型为:
Figure FDA0003598096440000025
其中,Fs表示原特征域图像样本的视觉特征集合,As表示基于人工定义的属性,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量。
3.根据权利要求1所述的方法,其特征在于,所述步骤S4中的稀疏编码目标函数为:
Figure FDA0003598096440000031
其中,f表示所述待测图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括步骤:
S5:根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测,完成所述待测图像的零样本的语义对象识别。
5.一种基于判别性视觉属性的零样本识别系统,其特征在于,包括:原特征域学习模块、目标特征域学习模块、零样本识别模块;其中,
所述原特征域学习模块包括人工定义属性单元、判别性视觉属性单元,所述人工定义属性单元用于构建稀疏编码模型,并接受原特征域样本数据优化所述稀疏编码模型得到视觉特征到人工定义属性表示的原特征域变换关系;
所述判别性视觉属性单元用于构建监督字典学习目标模型并接收所述原特征域样本数据优化所述监督字典学习目标模型得到原特征域判别性视觉属性集合;所述监督字典学习目标模型为:
Figure FDA0003598096440000032
其中,
Figure FDA0003598096440000041
表示原特征域判别性视觉属性集合,
Figure FDA0003598096440000042
为视觉特征Fs
Figure FDA0003598096440000043
上的语义属性表示,
Figure FDA0003598096440000044
Figure FDA0003598096440000045
中的一个子集,
Figure FDA0003598096440000046
为分类错误代价项,Cs为原特征域对象类别的总数,wi、bi为分类错误代价项的参数,λ1、λ2为权重系数;所述监督字典学习目标模型包括采用支持向量机SVM hinge loss损失函数的分类错误代价项,所述分类错误代价项为:
Figure FDA0003598096440000047
wi、bi为分类器参数,γ为权重系数,yi表示对应于第i个对象类别的标签向量;
判别性视觉属性单元中令
Figure FDA0003598096440000048
Figure FDA0003598096440000049
表示第i个对象类别中对应第k个样本数据的语义属性表示;
所述目标特征域学习模块与所述人工定义属性单元、所述判别性视觉属性单元均相连,用于接收所述原特征域变换关系以及所述原特征域判别性视觉属性集合,构建目标特征域学习模型,挖掘目标特征域判别性视觉属性;所述目标特征域学习模型为:
Figure FDA00035980964400000410
其中,Fu为目标特征域样本数据的视觉特征,Du表示目标特征域中视觉特征空间与语义嵌入空间的变换关系,Au为视觉特征Fu在Du上的语义属性表示;
Figure FDA0003598096440000051
表示从目标特征域获取的判别性视觉属性集合,
Figure FDA0003598096440000052
则表示视觉特征在视觉属性集合
Figure FDA0003598096440000053
上的表示系数,α,β,η为权重参数;
所述零样本识别模块与所述目标特征域学习模块相连,用于接收包含语义对象的待测图像,并通过深度残差网络Resnet-101提取所述待测图像的深度视觉特征,还用于根据所述深度视觉特征构建稀疏编码目标函数,得到所述待测图像视觉特征的语义属性表示。
6.根据权利要求5所述的系统,其特征在于,所述人工定义属性单元的稀疏编码模型为:
Figure FDA0003598096440000054
其中,Fs表示原特征域图像样本的视觉特征集合,As表示基于人工定义的属性,Ds表示原特征域变换关系,di为对应于Ds中的第i个列向量。
7.根据权利要求5所述的系统,其特征在于,所述零样本识别模块的稀疏编码目标函数为:
Figure FDA0003598096440000055
其中,f为所述待测图像的深度视觉特征,Du为目标特征域中视觉特征与语义属性表示间的变换关系,y为视觉特征f基于变换矩阵Du的语义属性表示,参数μ为控制特征向量y稀疏性的权重系数。
8.根据权利要求5-7任一项所述的系统,其特征在于,零样本识别模块还用于根据所述待测图像视觉特征的语义属性表示利用最近领域搜索算法实现所述待测图像语义标签的预测,完成所述待测图像的零样本的语义对象识别。
CN202011337219.2A 2020-11-25 2020-11-25 基于判别性视觉属性的零样本识别方法及系统 Active CN112329884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011337219.2A CN112329884B (zh) 2020-11-25 2020-11-25 基于判别性视觉属性的零样本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011337219.2A CN112329884B (zh) 2020-11-25 2020-11-25 基于判别性视觉属性的零样本识别方法及系统

Publications (2)

Publication Number Publication Date
CN112329884A CN112329884A (zh) 2021-02-05
CN112329884B true CN112329884B (zh) 2022-06-07

Family

ID=74309557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011337219.2A Active CN112329884B (zh) 2020-11-25 2020-11-25 基于判别性视觉属性的零样本识别方法及系统

Country Status (1)

Country Link
CN (1) CN112329884B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990310B (zh) * 2021-03-12 2023-09-05 国网智能科技股份有限公司 服务于电力机器人的人工智能系统及方法
CN113762967A (zh) * 2021-03-31 2021-12-07 北京沃东天骏信息技术有限公司 风险信息确定方法、模型训练方法、设备、程序产品
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766873A (zh) * 2017-09-06 2018-03-06 天津大学 基于排序学习的多标签零样本分类方法
CN110598776A (zh) * 2019-09-03 2019-12-20 成都信息工程大学 一种基于类内视觉模式分享的图像分类方法
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10908616B2 (en) * 2017-05-05 2021-02-02 Hrl Laboratories, Llc Attribute aware zero shot machine vision system via joint sparse representations
CN107491788A (zh) * 2017-08-21 2017-12-19 天津大学 一种基于字典学习的零样本分类方法
CN109034182A (zh) * 2018-06-04 2018-12-18 南京邮电大学 一种基于属性约束的零样本图像识别新方法
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN111738313B (zh) * 2020-06-08 2022-11-11 大连理工大学 一种基于多重网络合作的零样本学习算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766873A (zh) * 2017-09-06 2018-03-06 天津大学 基于排序学习的多标签零样本分类方法
CN110598776A (zh) * 2019-09-03 2019-12-20 成都信息工程大学 一种基于类内视觉模式分享的图像分类方法
CN111274424A (zh) * 2020-01-08 2020-06-12 大连理工大学 一种零样本图像检索的语义增强哈希方法

Also Published As

Publication number Publication date
CN112329884A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329884B (zh) 基于判别性视觉属性的零样本识别方法及系统
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN112069940B (zh) 一种基于分阶段特征学习的跨域行人重识别方法
CN110309306A (zh) 一种基于wsd层级记忆网络的文档建模分类方法
CN110188653A (zh) 基于局部特征聚合编码和长短期记忆网络的行为识别方法
CN112732921B (zh) 一种虚假用户评论检测方法及系统
Saravanan et al. Video image retrieval using data mining techniques
CN112836809A (zh) 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN110196918A (zh) 一种基于目标检测的无监督深度哈希方法
CN114547307A (zh) 文本向量模型训练方法、文本匹配方法、装置及设备
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及系统
CN110738245A (zh) 一种面向科学数据分析的自动聚类算法选择系统及方法
CN109597901B (zh) 一种基于生物数据的数据分析方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
Ye et al. TS2V: A transformer-based Siamese network for representation learning of univariate time-series data
CN112418257A (zh) 一种有效的基于潜在视觉属性挖掘的零样本学习方法
CN112699271B (zh) 一种提升用户视频网站留存时间的推荐方法
CN113158878B (zh) 一种基于子空间的异构迁移故障诊断方法、系统和模型
CN112765314B (zh) 一种基于电力本体知识库的电力信息检索方法
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN113988161A (zh) 一种用户用电行为模式识别方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant