CN111680757A - 一种基于自编码器的零样本图像识别算法及系统 - Google Patents
一种基于自编码器的零样本图像识别算法及系统 Download PDFInfo
- Publication number
- CN111680757A CN111680757A CN202010534066.4A CN202010534066A CN111680757A CN 111680757 A CN111680757 A CN 111680757A CN 202010534066 A CN202010534066 A CN 202010534066A CN 111680757 A CN111680757 A CN 111680757A
- Authority
- CN
- China
- Prior art keywords
- sample
- matrix
- feature
- unknown
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像识别的技术领域,揭露了一种基于自编码器的零样本图像识别算法及系统,算法包括:使用预训练的Arc‑SENet网络提取源域中已知类样本的特征向量;利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵;在目标域使用预设的自编码器将未知样本的属性投影到特征空间;将源域的自编码器和目标域的编码器关联起来,通过迭代计算得到目标域中未知类样本的属性矩阵和特征矩阵;分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,若两种方式得到标签结果相同,则所得标签即为图像样本识别结果。本发明还提出一种基于自编码器的零样本图像识别算法的系统。本发明实现了对图像的识别。
Description
技术领域
本发明涉及图像识别的技术领域,尤其涉及一种基于自编码器的零样本图像识别算法及系统。
背景技术
图像识别作为人工智能主要的研究方向之一,随着人工智能的蓬勃发展,图像识别已经广泛应用于缺陷检测、无人驾驶、医学诊断等人工智能领域。当前图像识别的研究主要针对图像的分类问题,但随着社交网络和社会标签系统的飞速发展,新的标签和概念不断涌现,随之而来的是人们使用这些新标签对图像进行标记的需求。而已有的监督学习方法需要大量标记信息才能进行有效分类,因此不能适用于这种没有标记信息的情况,而无监督的方法虽然可行,但却不能充分利用已有的相关领域中的信息来提高目标领域中的分类性能,针对上述情况,相关研究者提出了零样本学习。
在零样本学习中,源领域和目标领域含有不同的标签集,并且对于目标领域含有不同的标签集,没有存在标签的训练样本可用。因此,零样本学习的目标主要是将从有充足训练样本的源领域中的已知类中学到的知识有效地迁移到目标领域中,以此来为在训练过程中没有出现过的新类构建有效的分类模型。零样本学习的过程可以看做是图像与视觉属性之间的映射,利用既有的特征提取模型来提取图像的特征,提取出的特征又被称为特征空间,而人工标定的属性被称为属性空间,因此零样本学习的过程又可以看做是特征空间与属性空间之间的映射。
现有零样本学习技术一般采用基于投影的方法,这类方法首先在标签已知的源域中训练出从样本特征到语义属性空间的投影矩阵,然后将训练得到的投影矩阵应用到目标域中得出未知类样本的属性,最后通过近邻准则等方法得到目标域样本的标签,然而源域中样本的类别和目标域中样本的类别不相交,这些类的潜在数据分布可能也不同的。因此,如果将源域中学习得到的投影矩阵直接应用到目标域,则可能会导致未知类样本的属性预测不准确的问题。
鉴于此,在从源域中训练出有效样本特征的同时,如何利用源域样本特征准确预测未知类样本的属性,从而根据预测出的样本属性进行图像识别,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于自编码器的零样本图像识别算法及系统,在从源域中训练出有效样本特征的同时,如何利用源域样本特征准确预测未知类样本的属性,从而根据预测出的样本属性进行图像识别。
为实现上述目的,本发明提供的一种基于自编码器的零样本图像识别算法,包括:
使用预训练的Arc-SENet网络提取源域中已知类样本的特征向量;
将所述多个已知类样本的特征向量拼接为已知类样本的特征矩阵,利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵;
在目标域通过最小化自编码器的目标函数,将未知样本的属性投影到特征空间;
将源域的自编码器和目标域的编码器关联起来,得到结合源域和目标域的自编码器目标函数;
通过对目标函数进行迭代计算,得到目标域中未知类样本的属性矩阵和特征矩阵;
根据所述目标域中未知类样本的属性矩阵和特征矩阵,分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,若两种方式得到标签结果相同,则所得标签即为图像样本识别结果,否则则将未知类样本重新输入自编码进行样本空间投影计算。
可选地,所述Arc-SENet网络的训练过程为:
所述Arc-SENet网络由若干SE模块组成,每个SE模块由卷积层、Squeeze层组成,并使用本发明所提出的ArcLoss损失函数进行训练;
1)SE模块接收图像样本矩阵X,其中X=[x1,...,xc],并在卷积层进行卷积转换操作,令V=[v1,...vc]表示网络学习到卷积核的集合,因此卷积层的输出为U=[u1,...uc],所述第i个卷积核进行卷积操作的公式为:
其中:
*表示卷积操作;
X为SE模块的输入值;
2)通过H×W的空间维度对卷积的输出U进行压缩,将维度为H×W×C的卷积输出U转换为1×1×C的输出,以将多个空间维度的特征图进行聚合,从而产生一个通道描述器z,并将所述通道描述器z作为提取的图像样本特征向量,并输出到下一个SE模块中。其中,图像样本特征向量z中每一个元素c的计算公式如下:
其中:
uc为第c个卷积核进行卷积操作的输出值;
H、W为卷积输出U的维度;
3)计算各特征向量之间归一化的互信息,本发明所提出的归一化互信息的计算公式为:
其中:
p(cg,fei)为特征向量fei出现的频次与类别cg中包含所有特征向量出现总频次的比值;
p(fei)为特征向量fei出现的频率;
p(cg)为类别cg所包含特征的数量与总特征数量的比值;
其中:
t(fei,cg)为类别cg中特征fei出现的频次;
5)利用基于归一化互信息的特征选择目标函数,对上述所提取出的特征向量进行计算,选取目标函数值最大的k个特征向量fei作为本发明所选择的特征向量,所述基于归一化互信息的特征选择目标函数为:
其中:
N为样本数量;
C为样本类别集合;
S为特征向量集合;
6)利用本发明所提出的Arc损失函数进行模型训练,所述Arc损失函数的计算公式为:
约束条件为:
其中:
m为训练图像样本的个数;
xi为第i个图像中所提取的特征向量;
yi为第i个图像的已知类别;
Wj为第j类别的权重;
θj为权重Wj和特征向量xi之间的夹角;
s为特征归一化时的缩放参数。
可选地,利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵,包括:
其中:
λ1为超调参数,用来控制正则化项的权重;
||·||F为Frobenius范式;
Xs为已知类样本特征矩阵;
Ws为源域的投影矩阵;
As为已知类样本属性矩阵。
可选地,所述目标域中自编码器的目标函数为:
其中:
Wt为目标域矩阵;
Xt为未知类样本特征矩阵;
λ2为超调参数,用来控制正则化项的权重;
At为未知类样本属性矩阵;
可选地,所述结合源域和目标域的自编码器目标函数为:
其中:
λ*,λ1,λ2,λ3为超调参数;
当目标函数的结果达到最小,即说明原特征与投影矩阵之间的重构误差达到最小,目标域的投影矩阵表征能力更强,从而达到提升零样本识别能力的效果。
可选地,所述得到目标域中未知类样本的属性矩阵和特征矩阵,包括:
1)固定未知类样本的特征矩阵Wt,优化未知类样本的属性矩阵At,对目标函数求导得到:
其中:
I为单位矩阵;
Xt为未知类样本特征矩阵;
2)固定未知类样本的属性矩阵At,优化固定未知类样本的特征矩阵Wt,对目标函数求导得到:
3)考虑到已知类样本的特征矩阵Ws和未知类样本的特征矩阵Wt近似,令Ws和Wt初值相同,最终可得到:
可选地,所述分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,包括:
所述正向标签预测是指是在属性空间,利用余弦相似性将所述未知类样本的预测属性与未知类样本类别属性进行对比,从而预测得到未知类样本的标签;所述正向标签预测的预测公式为:
其中:
d(·)是余弦距离方程;
f(·)是正向标签预测得到的样本标签;
其中:
d(·)是余弦距离方程;
f(·)是反向标签预测得到的样本标签。
此外,本发明还提供一种基于自编码器的零样本图像识别算法的系统,所述系统包括:
所述未知类图像获取模块,用于获取未知类别的图像,并对未知类图像进行预处理,同时将经预处理的未知类图像作为目标域;
所述特征提取模块,用于利用Arc-SENet网络提取源域中已知类样本的特征向量;
所述自编码器投影模块,用于利用预设的自编码器分别在源域和目标域进行特征矩阵投影,得到特征矩阵和属性矩阵;
所述标签预测模块,用于对未知类图像分别采用正向预测和反向预测,得到未知类图像的预测标签。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取程序指令可被一个或者多个处理器执行,以实现如上所述的一种基于自编码器的零样本图像识别算法的步骤。
相对于现有技术,本发明提出一种基于自编码器的零样本图像识别算法及系统,该技术具有以下优势:
现有技术大多采用对图像多层卷积的方式来提取图像中的特征,但是由于卷积层输出是图像中所有通道信息的叠加,并且通道信息之间的相互关系被隐式地内嵌到卷积层中,使得图像中各通道的相互关系与卷积核捕捉到的空间相关性卷入到一起,这样导致所提取出的特征向量有过多无关特征向量,相较于现有技术,本发明提出一种基于归一化互信息的特征选择方法,通过对所有提取出的特征向量进行归一化互信息的计算, 其中p(cg,fei)为特征向量fei出现的频次与类别cg中包含所有特征向量出现总频次的比值,p(fei)为特征向量fei出现的频率,p(cg(为类别cg所包含特征的数量与总特征数量的比值,当特征与类别之间的互信息越大,说明两者之间的相关性越强,同时为进一步增加每一类别中高频次特征对于分类的贡献,降低低频次特征的干扰,本发明还提出一种特征贡献因子其中,t(fei,cg)为类别cg中特征fei出现的频次,对于高频次特征而言,其特征贡献因子较大,因此本发明综合了归一化互信息以及特征贡献因子,得到了一种基于归一化信息的特征选择目标函数: 通过计算每一个特征向量的特征贡献因子与交互信息的乘积,来判定所提取特征向量的重要性,同时为避免特征向量之间的相关性带来的影响,所述目标函数减去各特征向量之间的互信息,因此目标函数值较高的特征向量即为所筛选出的特征向量结果,相较于现有技术,本发明所述算法能极大过滤低频无关特征向量,增量高频相关特征向量,实现了对所提取特征向量的筛选。
在现有图像识别任务中,模型主要采用softmax损失函数进行训练,通过对真实标签值的最大化后验概率来区分不同类别的特征,但由于softmax损失函数将每个输出x非线性放大到exp(x),使得真实目标类别的特征要比其他类别特征要大,但却并未对真实目标类别的特征与其他类别特征之间的特征距离进行限定,因此利用现有技术训练得到的模型所输出的图像特征无法满足同一类别样本的特征距离尽可能近,不同类别样本的特征尽可能远,不利于后续零样本的图像识别,因此本发明提出一种Arc损失函数 相较于传统的softmax损失函数,本发明将softmax损失函数中类别的权重W进行L2正则化,即||W||=1,使得网络不再严重依赖权重值较高的特征进行训练,而是更倾向于使用所有输入特征进行训练,极大缩减了所提取出的特征向量对损失函数的影响,由于现有技术的训练极大依赖于已提取出的特征向量,会根据已提取出特征向量的方向,在相同方向上进行特征提取,本发明通过所有提取出的特征向量进行归一化为s,移除了特征角度空间中各特征向量的方向向量,使得网络能够在特征角度空间中学习到不同方向的可分离特征。
现有损失函数中全连接层内积的余弦函数值为cosθ,所提取出的图像特征的可区分度并不是很强,为了使网络的分类效果更强,本发明在分类的余弦函数平面内引入角度余量值,即为cos(θ+m),使得网络对不同类别图像特征具有更强的约束性,以二分情况为例,假设θi表示物体所在类别Ci(i=1,2)中特征向量以及权重向量之间的角度值,在现有损失函数中,对于第一个类别C1,要求cos(θ1)>cos(θ2),对于第二个类别C2,则要求cos(θ2)>cos(θ1),使得网络学习到的不同类别的特征可以被正确区分开;而在本发明所述Arc损失函数中,对于第一个类别C1,要求cos(θ1+m)>cos(θ2),对于第二个类别C2,则要求cos(θ2+m)>cos(θ1),其中m≥0,并作为一个固定的参数来控制角度余量值的大小,当θ∈[0,π-m]并且cos(θ+m)的值小于cos(θ),相较于现有技术,本发明所述全连接层对于分类器的约束更加严格,因此能更有效地将所提取到的不同特征进行区分。
现有技术只考虑在源域中使用自编码器,学习已知类的样本特征到属性空间的投影矩阵,然后直接将训练得到的投影矩阵应用于目标域,虽然缓解了在零样本学习中存在的投影域迁移的问题,但由于源域中样本的类别和目标域中样本的类别不相交,这些类的潜在数据分布可能也不同的,如果将源域中学习得到的投影矩阵直接应用到目标域,则可能会导致未知类样本的属性预测不准确的问题;因此本发明在目标域中同样采用自编码器进行学习,得到未知类样本特征到属性空间的投影矩阵,并在模型中添加约束项,将源域以及目标域的投影矩阵关联起来,以此得到结合源域和目标域的自编码器目标函数 其中,Wt为目标域矩阵,Xt为未知类样本特征矩阵,目标域解码投影矩阵,At为未知类样本属性矩阵, 项为未知类样本的属性约束项,λ*,λ1,λ2,λ3为超调参数,Xs为已知类样本特征矩阵,Ws为源域的投影矩阵,当目标函数的结果达到最小时,即说明原特征矩阵与投影矩阵之间的重构误差以及未知类样本的重构误差达到最小,由于表示将源域的投影矩阵投影到源域的属性空间,进而得到的重构特征矩阵,若重构特征矩阵和原特征矩阵Xs之间的误差达到最小,即说明源域和目标域的投影矩阵能较好地对原特征矩阵进行表征,从而利用当前最小的目标函数进行迭代计算,分别求导,得到更为准确的未知类样本的属性矩阵和特征矩阵,因此本发明所述算法相较于现有技术能更为精准地对未知类样本进行识别。
附图说明
图1为本发明一实施例提供的一种基于自编码器的零样本图像识别算法的流程示意图;
图2为本发明一实施例提供的一种基于自编码器的零样本图像识别算法的系统的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在从源域中训练出有效样本特征的同时,如何利用源域样本特征准确预测未知类样本的属性,从而根据预测出的样本属性进行图像识别,本发明提供一种基于自编码器的零样本图像识别算法及系统。参照图1所示,为本发明一实施例提供的基于自编码器的零样本图像识别算法的流程示意图。
在本实施例中,基于自编码器的零样本图像识别算法包括:
S1、使用预训练的Arc-SENet网络提取源域中已知类样本的特征向量。
首先,本发明选取已知类别的图像样本构成源域,并针对源域中图像样本的每个像素,通过减去像素平均值,然后将结果除以像素标准偏差来实现图像样本的标准化处理。在本发明一个实施例中,本发明选择在范围[0,1]或[0,255]内缩放规格化图像样本,使得图像样本符合高斯分布,并使用matlab将源域中的图像样本转换为图像样本矩阵。
进一步地,本发明将所述图像样本矩阵输入预训练的Arc-SENet网络中,并输出源域中已知类样本的特征向量,所述Arc-SENet网络由若干SE模块组成,每个SE模块由卷积层、Squeeze层组成,并使用本发明所提出的ArcLoss损失函数进行训练,所述Arc-SENet网络的训练过程为:
1)SE模块接收图像样本矩阵X,其中X=[x1,...,xc],并在卷积层进行卷积转换操作,令V=[v1,...vc]表示网络学习到卷积核的集合,因此卷积层的输出为U=[u1,...uc],所述第i个卷积核进行卷积操作的公式为:
其中:
*表示卷积操作;
X为SE模块的输入值。
由于卷积层输出是所有通道信息的叠加,并且通道信息之间的相互关系被隐式地内嵌到vc中,但是通道的相互关系与卷积核捕捉到的空间相关性卷入到一起,使得网络对通道的信息不敏感,同时卷积操作是在局部感受野的基础上进行的,因此经过卷积操作的每个单元无法获得感受野之外的上下文信息,并且由于卷积层在网络的底层,感受野的尺寸变得更小,使得每个单元能够利用的上下文信息更少,不利于网络特征的提取。
2)通过H×W的空间维度对卷积的输出U进行压缩,将维度为H×W×C的卷积输出U转换为1×1×C的输出,以将多个空间维度的特征图进行聚合,从而产生一个通道描述器z,并将所述通道描述器z作为提取的图像样本特征向量,并输出到下一个SE模块中。其中,图像样本特征向量z中每一个元素c的计算公式如下:
其中:
uc为第c个卷积核进行卷积操作的输出值;
H、W为卷积输出U的维度。
3)计算各特征向量之间归一化的互信息,本发明所提出的归一化互信息的计算公式为:
其中:
p(cg,fei)为特征向量fei出现的频次与类别cg中包含所有特征向量出现总频次的比值;
p(fei)为特征向量fei出现的频率;
p(cg)为类别cg所包含特征的数量与总特征数量的比值。
其中:
t(fei,cg)为类别cg中特征fei出现的频次。
5)利用基于归一化互信息的特征选择目标函数,对上述所提取出的特征向量进行计算,选取目标函数值最大的k个特征向量fei作为本发明所选择的特征向量,所述基于归一化互信息的特征选择目标函数为:
其中:
N为样本数量;
C为样本类别集合;
S为特征向量集合。
6)利用本发明所提出的Arc损失函数进行模型训练,所述Arc损失函数的计算公式为:
约束条件为:
其中:
m为训练图像样本的个数;
xi为第i个图像中所提取的特征向量;
yi为第i个图像的已知类别;
Wj为第j类别的权重;
θj为权重Wj和特征向量xi之间的夹角;
s为特征归一化时的缩放参数。
S2、将所述多个已知类样本的特征向量拼接为已知类样本的特征矩阵,利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵。
进一步地,本发明将源域中所述多个已知类样本的特征向量拼接为已知类样本特征矩阵Xs,同时利用预设的自编码器将已知类样本特征矩阵Xs投影到属性空间,从而得到源域的投影矩阵Ws,并将已知类样本的属性投影到特征空间,得到源域的解码投影矩阵所述属性空间为人工标定的属性,所述特征空间为上述所提取出的特征向量。
本发明所述自编码器只有一个隐藏层,且在编码和解码阶段均为线性映射;将输入特征矩阵记为其中d为样本的特征维度,Ns为源域样本数量,隐藏层的信息记作k表示样本的属性维度,使用投影矩阵将Xs投影到隐藏层,并用将隐藏层信息S投影到特征矩阵中,得到重构特征所述自编码器为使重构特征误差达到最小,在源域中设置自编码器的目标函数,当目标函数达到最小,即自编码器中的重构特征误差达到最小,此时的投影矩阵Ws和解码投影矩阵即为所求,所述自编码矩阵的目标函数为:
其中:
λ1为超调参数,用来控制正则化项的权重;
||·||F为Frobenius范式;
Xs为已知类样本特征矩阵;
Ws为源域的投影矩阵;
As为已知类样本属性矩阵。
S3、在目标域使用预设的自编码器将未知样本的属性投影到特征空间,同时将源域的自编码器和目标域的编码器关联起来,通过迭代计算得到目标域中未知类样本的属性矩阵和特征矩阵。
其中:
Wt为目标域矩阵;
Xt为未知类样本特征矩阵;
λ2为超调参数,用来控制正则化项的权重;
At为未知类样本属性矩阵;
目标域的投影矩阵Wt与源域Ws的投影矩阵相似但并不相同,当同时考虑源域和目标域时,可以将源域的自编码器和目标域的自编码器关联起来,通过对目标函数进行迭代优化,得到未知类样本的属性矩阵At和特征矩阵Xt,本发明算法最终目标函数如下所示:
其中:
λ*,λ1,λ2,λ3为超调参数。
在上述目标函数中,只需使目标函数的结果慢慢变小,当目标函数的结果达到最小,即说明原特征与投影矩阵之间的重构误差达到最小,目标域的投影矩阵表征能力更强,从而达到提升零样本识别能力的效果;
由于目标函数中存在Wt和At需要求解,本发明采用迭代优化的方式,固定其中一个未知量求另一个未知量,所述迭代优化过程为:
1)固定Wt,优化At,对目标函数求导得到:
其中:
I为单位矩阵。
2)固定At,优化Wt,对目标函数求导得到:
3)考虑到Ws和Wt近似,令Ws和Wt初值相同,最终可得到:
S4、根据所述目标域中未知类样本的属性矩阵和特征矩阵,分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,若两种方式得到标签结果相同,则所得标签即为图像样本识别结果,否则则将未知类样本重新输入自编码进行样本空间投影计算。
所述正向标签预测是指是在属性空间,利用余弦相似性将所述未知类样本的预测属性与未知类样本类别属性进行对比,从而预测得到未知类样本的标签;所述正向标签预测的预测公式为:
其中:
d(·)是余弦距离方程;
f(·)是正向标签预测得到的样本标签。
其中:
d(·)是余弦距离方程;
f(·)是反向标签预测得到的样本标签。
若两种方式得到标签结果相同,则所得标签即为图像样本识别结果,否则则将未知类样本重新输入自编码进行样本空间投影计算。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的算法进行测试。本发明算法将在零样本图像识别的基准数据库上验证,并于对比算法进行对比分析,本发明所选择的基准数据库为aPascal&aYahoo数据库,同时所有的图像特征均由本发明所提出的Arc-SENet网络进行特征提取,特征维度为1024维。本发明所有算法均使用MATLABR2014a实现,实验环境为Intel Core i3-23002.10GHz GPU,内存为6GB,且本发明所选取的对比算法分别为DAP、ESZSL、SJE、MLZSC和SAE算法。
根据实验结果,在aPascal&aYahoo数据库中,DPA算法的识别率为60.1%,ESZSL算法的识别率为75.3%,SJE算法的识别率为73.9%,MLZSC算法的识别率为77.3%,SAE算法的识别率为84.7%,本发明所述算法的识别率为88.9%,相较于对比算法,具有较高的算法识别率。
发明还提供一种基于自编码器的零样本图像识别算法的系统。参照图2所示,为本发明一实施例提供的基于自编码器的零样本图像识别算法的系统的内部结构示意图。
在本实施例中,所述基于自编码器的零样本图像识别算法的系统1至少包括未知类图像获取模块11、特征提取模块12、自编码器投影模块13、标签预测模块14,以及通信总线15。
其中,未知类图像获取模块11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
特征提取模块12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型模型训练模块(例如,SD或DX模型训练模块等)、磁性模型训练模块、磁盘、光盘等。特征提取模块12在一些实施例中可以是基于自编码器的零样本图像识别算法的系统1的内部存储单元,例如该基于自编码器的零样本图像识别算法的系统1的硬盘。特征提取模块12在另一些实施例中也可以是基于自编码器的零样本图像识别算法的系统1的外部存储设备,例如基于自编码器的零样本图像识别算法的系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,特征提取模块12还可以既包括基于自编码器的零样本图像识别算法的系统1的内部存储单元也包括外部存储设备。特征提取模块12不仅可以用于存储安装于基于自编码器的零样本图像识别算法的系统1的应用软件及各类数据,例如特征提取程序指令等,还可以用于暂时地存储已经输出或者将要输出的数据。
自编码器投影模块13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于利用预设的自编码器分别在源域和目标域进行特征矩阵投影,得到特征矩阵和属性矩阵。
标签预测模块14在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于对未知类图像分别采用正向预测和反向预测,得到未知类图像的预测标签。
通信总线15用于实现这些组件之间的连接通信。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于自编码器的零样本图像识别算法的系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及基于自编码器的零样本图像识别算法的系统1,本领域技术人员可以理解的是,图2示出的结构并不构成对基于自编码器的零样本图像识别算法的系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的系统1实施例中,特征提取模块12中存储有特征提取程序指令;执行所述基于自编码器的零样本图像识别算法的系统的过程,与基于自编码器的零样本图像识别算法的执行过程相同,在此不作累述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储特征提取程序指令,所述特征提取程序指令可被一个或多个处理器执行,以实现如下操作:
获取未知类别的图像,并对未知类图像进行预处理,同时将经预处理的未知类图像作为目标域;
利用Arc-SENet网络提取源域中已知类样本的特征向量;
利用预设的自编码器分别在源域和目标域进行特征矩阵投影,得到特征矩阵和属性矩阵;
根据所述目标域中未知类样本的属性矩阵和特征矩阵,分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,若两种方式得到标签结果相同,则所得标签即为图像样本识别结果,否则则将未知类样本重新输入自编码器投影模块进行样本空间投影计算。
本发明计算机可读存储介质具体实施方式与上述基于自编码器的零样本图像识别算法中各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于自编码器的零样本图像识别算法,其特征在于,所述方法包括:
使用预训练的Arc-SENet网络提取源域中已知类样本的特征向量;
将所述多个已知类样本的特征向量拼接为已知类样本的特征矩阵,利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵;
在目标域通过最小化自编码器的目标函数,将未知样本的属性投影到特征空间;
将源域的自编码器和目标域的编码器关联起来,得到结合源域和目标域的自编码器目标函数;
通过对目标函数进行迭代计算,得到目标域中未知类样本的属性矩阵和特征矩阵;
根据所述目标域中未知类样本的属性矩阵和特征矩阵,分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,若两种方式得到标签结果相同,则所得标签即为图像样本识别结果,否则则将未知类样本重新输入自编码进行样本空间投影计算。
2.如权利要求1所述的基于自编码器的零样本图像识别算法,其特征在于,所述Arc-SENet网络的训练过程为:
所述Arc-SENet网络由多个SE模块构成,网络的第一个SE模块接收源域中已知样本类别的图像,并对其进行卷积和Squeeze操作,以完成第一个SE模块对图像特征的提取,并将提取内容输入至下一个模块,最后一个模块的输出值即为源域中已知样本类别图像的特征向量,并使用本发明所提出的ArcLoss损失函数进行训练;
1)SE模块接收图像样本矩阵X,其中X=[x1,...,xc],并在卷积层进行卷积转换操作,令V=[v1,...vc]表示网络学习到卷积核的集合,因此卷积层的输出为U=[u1,...uc],所述第i个卷积核进行卷积操作的公式为:
其中:
*表示卷积操作;
X为SE模块的输入值;
2)通过H×W的空间维度对卷积的输出U进行压缩,将维度为H×W×C的卷积输出U转换为1×1×C的输出,以将多个空间维度的特征图进行聚合,从而产生一个通道描述器z,并将所述通道描述器z作为提取的图像样本特征向量,并输出到下一个SE模块中。其中,图像样本特征向量z中每一个元素c的计算公式如下:
其中:
uc为第c个卷积核进行卷积操作的输出值;
H、W为卷积输出U的维度;
3)计算各特征向量之间归一化的互信息,本发明所提出的归一化互信息的计算公式为:
其中:
p(cg,fei)为特征向量fei出现的频次与类别cg中包含所有特征向量出现总频次的比值;
p(fei)为特征向量fei出现的频率;
p(cg)为类别cg所包含特征的数量与总特征数量的比值;
其中:
t(fei,cg)为类别cg中特征fei出现的频次;
5)利用基于归一化互信息的特征选择目标函数,对上述所提取出的特征向量进行计算,选取目标函数值最大的k个特征向量fei作为本发明所选择的特征向量,所述基于归一化互信息的特征选择目标函数为:
其中:
N为样本数量;
C为样本类别集合;
S为特征向量集合;
6)利用本发明所提出的Arc损失函数进行模型训练,所述Arc损失函数的计算公式为:
约束条件为:
其中:
m为训练图像样本的个数;
xi为第i个图像中所提取的特征向量;
yi为第i个图像的已知类别;
Wj为第j类别的权重;
θj为权重Wj和特征向量xi之间的夹角;
s为特征归一化时的缩放参数。
3.如权利要求2所述的基于自编码器的零样本图像识别算法,其特征在于,利用预设的自编码器在源域中学习出源域的投影矩阵和解码投影矩阵,包括:
为使重构特征和输入特征之间的误差达到最小,在源域中设置自编码器的目标函数,当目标函数达到最小,即的值达到最小,自编码器中的重构特征误差达到最小,此时目标函数中的投影矩阵Ws和解码投影矩阵即为所求,所述自编码矩阵的目标函数为:
其中:
λ1为超调参数,用来控制正则化项的权重;
||·||F为Frobenius范式;
Xs为已知类样本特征矩阵;
Ws为源域的投影矩阵;
As为已知类样本属性矩阵。
7.如权利要求6所述的基于自编码器的零样本图像识别算法,其特征在于,所述分别利用正向标签预测和反向标签预测两种方式对未知样本进行标签预测,包括:
所述正向标签预测是指是在属性空间,利用余弦相似性将所述未知类样本的预测属性与未知类样本类别属性进行对比,从而预测得到未知类样本的标签;所述正向标签预测的预测公式为:
其中:
d(·)是余弦距离方程;
f(·)是正向标签预测得到的样本标签;
其中:
d(·)是余弦距离方程;
f(·)是反向标签预测得到的样本标签。
8.一种基于自编码器的零样本图像识别算法的系统,其特征在于,所述装置包括:未知类图像获取模块、特征提取模块、自编码器投影模块、标签预测模块,其中:
所述未知类图像获取模块,用于获取未知类别的图像,并对未知类图像进行预处理,同时将经预处理的未知类图像作为目标域;
所述特征提取模块,用于利用Arc-SENet网络提取源域中已知类样本的特征向量;
所述自编码器投影模块,用于利用预设的自编码器分别在源域和目标域进行特征矩阵投影,得到特征矩阵和属性矩阵;
所述标签预测模块,用于对未知类图像分别采用正向预测和反向预测,得到未知类图像的预测标签。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取程序指令可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的一种基于自编码器的零样本图像识别算法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010534066.4A CN111680757A (zh) | 2020-06-12 | 2020-06-12 | 一种基于自编码器的零样本图像识别算法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010534066.4A CN111680757A (zh) | 2020-06-12 | 2020-06-12 | 一种基于自编码器的零样本图像识别算法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111680757A true CN111680757A (zh) | 2020-09-18 |
Family
ID=72454723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010534066.4A Withdrawn CN111680757A (zh) | 2020-06-12 | 2020-06-12 | 一种基于自编码器的零样本图像识别算法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680757A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749738A (zh) * | 2020-12-30 | 2021-05-04 | 之江实验室 | 一种融合上下文进行超类推理的零样本对象检测方法 |
CN112767331A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 基于零样本学习的图像异常检测方法 |
CN113177587A (zh) * | 2021-04-27 | 2021-07-27 | 西安电子科技大学 | 基于主动学习和变分自编码器的广义零样本目标分类方法 |
CN113343941A (zh) * | 2021-07-20 | 2021-09-03 | 中国人民大学 | 一种基于互信息相似度的零样本动作识别方法及系统 |
CN116611717A (zh) * | 2023-04-11 | 2023-08-18 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
-
2020
- 2020-06-12 CN CN202010534066.4A patent/CN111680757A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749738A (zh) * | 2020-12-30 | 2021-05-04 | 之江实验室 | 一种融合上下文进行超类推理的零样本对象检测方法 |
CN112767331A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 基于零样本学习的图像异常检测方法 |
CN113177587A (zh) * | 2021-04-27 | 2021-07-27 | 西安电子科技大学 | 基于主动学习和变分自编码器的广义零样本目标分类方法 |
CN113177587B (zh) * | 2021-04-27 | 2023-04-07 | 西安电子科技大学 | 基于主动学习和变分自编码器的广义零样本目标分类方法 |
CN113343941A (zh) * | 2021-07-20 | 2021-09-03 | 中国人民大学 | 一种基于互信息相似度的零样本动作识别方法及系统 |
CN113343941B (zh) * | 2021-07-20 | 2023-07-25 | 中国人民大学 | 一种基于互信息相似度的零样本动作识别方法及系统 |
CN116611717A (zh) * | 2023-04-11 | 2023-08-18 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
CN116611717B (zh) * | 2023-04-11 | 2024-03-19 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754015B (zh) | 用于画作多标签识别的神经网络及相关方法、介质和设备 | |
CN111680757A (zh) | 一种基于自编码器的零样本图像识别算法及系统 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN110163286B (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN111178251A (zh) | 一种行人属性识别方法及系统、存储介质及终端 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
Hu et al. | Model-based segmentation of image data using spatially constrained mixture models | |
CN115909336A (zh) | 文本识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 | |
CN117437426A (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
Sumalakshmi et al. | Fused deep learning based Facial Expression Recognition of students in online learning mode | |
Gori et al. | Semantic video labeling by developmental visual agents | |
CN117173147A (zh) | 钢带加工用表面处理设备及其方法 | |
CN115035455A (zh) | 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质 | |
Pei et al. | FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction | |
Zhang et al. | Se-dcgan: a new method of semantic image restoration | |
Akilan | Video foreground localization from traditional methods to deep learning | |
CN114118207A (zh) | 基于网络扩张与记忆召回机制的增量学习的图像识别方法 | |
Mo et al. | Realtime global attention network for semantic segmentation | |
Jun et al. | Two-view correspondence learning via complex information extraction | |
Shojaei et al. | Semi-supervised domain adaptation for pedestrian detection in video surveillance based on maximum independence assumption | |
Benavides-Arce et al. | Foreground detection using an attention module and a video encoding | |
CN116912921B (zh) | 表情识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200918 |
|
WW01 | Invention patent application withdrawn after publication |