CN110826638A - 基于重复注意力网络的零样本图像分类模型及其方法 - Google Patents

基于重复注意力网络的零样本图像分类模型及其方法 Download PDF

Info

Publication number
CN110826638A
CN110826638A CN201911099492.3A CN201911099492A CN110826638A CN 110826638 A CN110826638 A CN 110826638A CN 201911099492 A CN201911099492 A CN 201911099492A CN 110826638 A CN110826638 A CN 110826638A
Authority
CN
China
Prior art keywords
network
visual
data
image
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911099492.3A
Other languages
English (en)
Other versions
CN110826638B (zh
Inventor
廖祥文
肖永强
叶锴
徐戈
陈开志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911099492.3A priority Critical patent/CN110826638B/zh
Publication of CN110826638A publication Critical patent/CN110826638A/zh
Application granted granted Critical
Publication of CN110826638B publication Critical patent/CN110826638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于重复注意力网络的零样本图像分类模型,包括重复注意力网络模块,用于训练并获取图像区域序列信息;生成对抗网络模块,用于获取视觉误差信息;视觉特征提取网络处理模块,用于得到图像一维视觉特征向量;属性语义转换网络模块,用两层的线性激活层将低维的属性语义向量映射到与视觉特征向量维度相同的高维特征向量;视觉‑属性语义衔接网络,实现视觉特征向量与属性语义特征向量的融合;得分分类结果和奖励输出模块,采用交叉熵损失对已见过带标签的类别进行分类,而奖励输出是对未见过的无标签数据进行惩罚,以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。本发明能够有效的解决图像类别标签缺失问题。

Description

基于重复注意力网络的零样本图像分类模型及其方法
技术领域
本发明涉及零样本图像分类模型,具体涉及一种基于重复注意力 网络的零样本图像分类模型及其方法。
背景技术
当前,在进行图像分类的过程中,如若想准确对图像进行分类则 需要告知模型每个类别的图像标签。然而,图像类别数往往非常大, 而且有可能不定时增加新的类别,如果每次都采用人工去标注每个类 别标签,那么工作量将会极其巨大。在这过程中,有些类别也只有少 量或者没有训练样本标签,而整个类别没有训练标签的属于零样本, 这样的零样本采用传统的机器学习方法构造分类器是无法奏效的。零 样本学习图像分类目的是为了解决整个类别标签缺失问题,对训练图 像数据没有见过的类别进行分类。
当前,零样本图像分类思想和迁移学习是一样的,通过训练已有 的视觉类别信息迁移到新图像类别,并实现对其分类。人类能够通过 学习已见过的视觉信息与语义信息,让这些建立联系,通过这样的联 系去判别新图像类别,使得具备识别未见过图像类别的能力。假设要 教会一名儿童可以识别出一匹斑马但从来没有认识过斑马,而当他被 告诉说马与斑马外形非常相似,颜色有点像企鹅一样黑白色,外表条 纹有点像老虎一样黑白相间的才是斑马。鉴于这名儿童已经学习过马 的视觉信息,于是,在这名儿童再看马和斑马的时候,就可能准确辨 认出哪些是斑马哪些是马。在零样本学习图像分类中,未知的图像类别并没有已知的原图像训练样本,但可以通过对已知图像类别相关知 识的学习,然后迁移到未知的图像类别当中,从而对未知的图像类别 样本进行结果预测。
当前,零样本图像分类越来越受到研究者的关注,通过研究图像分类 的相关工作可以发现,在随着互联网的快速发展,图片数据大量增加 与传播下,借助计算机快速给定分类标签的需求也随之增加,一个重 要的问题的就是如何有效的解决图像类别标签缺失问题。目前较为前 沿的方法大都对见过的源数据进行训练,然后将训练结果泛化到未见过的类别。区分目标数据中见过的类别和未见过的类别仅仅利用的是 属性语义的指导,并没有用到视觉信息来辨别。
发明内容
有鉴于此,本发明的目的在于提供一种基于重复注意力网络的零 样本图像分类模型及其方法,能够有效的解决图像类别标签缺失问题。
为实现上述目的,本发明采用如下技术方案:
一种基于重复注意力网络的零样本图像分类模型,包括
重复注意力网络模块,用于训练并获取图像区域序列信息;
生成对抗网络模块,用于获取视觉误差信息;
视觉特征提取网络处理模块,用于得到图像一维视觉特征向量;
属性语义转换网络模块,用两层的线性激活层将低维的属性语义 向量映射到与视觉特征向量维度相同的高维特征向量;
视觉-属性语义衔接网络,实现视觉特征向量与属性语义特征向 量的融合;
得分分类结果和奖励输出模块,采用交叉熵损失对已见过带标签 的类别进行分类,而奖励输出是对未见过的无标签数据进行惩罚,以 及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测 结果。
进一步的,所述所述视觉特征网络采用ResNet101。
进一步的,所述属性语义转换网络用于产生所有类别的属性特征 表征。
进一步的,所述视觉-属性语义衔接网络采用完全拼接方式,将 有标签数据中每一种图像类别视觉特征与所有有标签数据类别的属 性语义特征拼接,将无标签数据中每一种图像类别视觉特征与所有无 标签数据类别的属性语义特征拼接。
一种基于重复注意力网络的零样本图像分类方法,包括以下步骤:
步骤S1:将全量数据分为源数据和目标数据;
步骤S2:利用复注意力网络分别提取源数据与目标数据的细粒度 图像区域序列信息,并将该信息分别作为生成对抗网络和视觉特征网 络的输入信息;
骤S3:目标数据的细粒度图像区域序列信息输入视觉特征网络, 将源数据细粒度图像区域序列信息映射到视觉特征空间,得到图像视 觉特征向量;
步骤S4:根据得到的源数据细粒度图像区域序列信息,利用生成 对抗网络获取视觉误差信息;
步骤S4:将原始图像的低维属性语义通过语义转换网络映射到高 维,得到语义特征向量;
步骤S5:根据得到的图像视觉特征向量和语义特征向量,利用视 觉-属性语义衔接网络完成融合,得到拼接结果;
步骤S6:根据拼接结果和视觉误差信息,通过得分分类结果和奖 励输出模块,采用交叉熵损失对已见过带标签的类别进行分类,而奖 励输出是对未见过的无标签数据进行惩罚,以及惩罚无标签数据中见 过的类别和未见过的类别最有可能性的预测结果。
进一步的,所述注意力网络包括定位网络、预训练网络、记忆网 络和分类网络。
进一步的,所述生成对抗网络包括视觉特征网络,生成网络GE(x) 和GD(z),判别网络
Figure BDA0002269387620000041
和重构编码网络
Figure BDA0002269387620000042
(1)视觉特征网络,采用深度残差网络,去掉最后的分类层和 池化层,提取到深度特征图;
(2)生成网络由编码器GE(x)和解码器GD(z)构成,对于送入深度 特征图数据x经过编码器GE(x)得到深度视觉向量z,z经过解码器 GD(z)得到x的重构数据
(3)判别网络
Figure BDA0002269387620000044
网络与编码器GE(x)相同,对原始图像x判 为真,重构图像判为假,不断优化重构数据
Figure BDA0002269387620000046
与原数据x的差距, 直至满足预设要求;
(4)重构编码网络
Figure BDA0002269387620000047
对重构图像再编码,由编码器
Figure BDA0002269387620000049
得 到重构图像编码的深度视觉向量
Figure BDA00022693876200000410
使用Lb可以不断缩小深度视觉向 量z与
Figure BDA00022693876200000411
的差距,直至满足预设要求。
本发明与现有技术相比具有以下有益效果:
1、本发明使用重复注意关注细粒度的对象目标,使提取的图像 表征信息更加准确,有助于零样本图像分类效果的提升。
2、本发明生成器网络使得模型能够将输入图像映射到较低维度 的矢量,该较低维度矢量用于重建所生成的输出图像;然后,在训练 期间最小化这些图像与深度视觉向量之间的距离有助于学习正常样 本的数据分布。
3、本发明利用了有标签无数也利用了无标签数据,能够有效缓 解强偏问题,同时也能够提升模型区分目标数据中已见过的类别和未 见过的类别。
附图说明
图1是本发明一实施例中分类模型原理图;
图2是本发明一实施例中视觉-属性语义嵌入网络;
图3是本发明一实施例中生成对抗网络架构;
图4是本发明一实施例中重复注意力(RA)网络。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于重复注意力网络的零样本 图像分类模型,包括
重复注意力网络模块,用于训练并获取图像区域序列信息;
生成对抗网络模块,用于获取视觉误差信息;
视觉特征提取网络处理模块,用于得到图像一维视觉特征向量;
属性语义转换网络模块,用两层的线性激活层将低维的属性语义 向量映射到与视觉特征向量维度相同的高维特征向量;
视觉-属性语义衔接网络,实现视觉特征向量与属性语义特征向 量的融合;
得分分类结果和奖励输出模块,采用交叉熵损失对已见过带标签 的类别进行分类,而奖励输出是对未见过的无标签数据进行惩罚,以 及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测 结果。
在本实施例中重复注意力网络,如图4所示,重复注意力网络的 任务是尽可能定位到具有鉴别区域,由LSTM记忆不同尺度的序列 信息,最后对该信息送入分类网络作分类。网络可分为四块:定位网 络、预训练网络、记忆网络和分类网络。
(1)定位网络
定位网络第一个时间步使用了一层的卷积来预测上下文可能的4 个区域,使用policy gradient进行训练,直接根据输入状态预测输出 (利用该输出直接进行下一步的操作),而输入状态是先对VGG16 最后一层卷积的结果(512×7×7)使用平均池化(3×3)就得到了 512×2×2维度(记为V),再使用一层卷积使512通道映射到1,最后 就得到了4个值。该思想所获得的奖励在这边是利用最后的分类标签 反向传播来更新这一层卷积层权重矩阵。
定位网络第二以后的时间步会基于ht的状态使用softmax注意力 计算可能的4个值得分,如公式(1)和(2)。
Zt=Whtanh(WvV+Wght)公式(1)
At=softmax(Zt)公式(2)
(2)预训练网络
预训练网络会提前训练好,在这里用于对定位网络得到的多个尺 度区域联合表征,将表征信息送入记忆网络,其反向梯度在训练重复 注意的过程中不做计算,即该部分网络的相关权重矩阵不发生改变。
(3)记忆网络
记忆网路使用LSTM,用于记忆重复注意力变化过程。根据每一 次更新的状态信息计算并改变注意力区域,对新得到的注意力区域再 通过预训练网络得到表征,近而输入此记忆网络,如此反复。该记忆 网络输出的最后表征信息输出到分类网络,作最后的分类。
(4)classificationNetwork
分类网络使用一层线性分类层完成分类预测(记为pre),使用交 叉熵损失函数进行反向传播逼近真实标签。对最后的ht使用了一层线 性激活层(计算结果记为bl),然后再使用均方误差损失函数进行反 向传播逼近真实标签。为了更新policy gradient的奖惩(对预测正确 类别奖励,预测错误类别惩罚),用预测正确的结果与bl的差调整奖 惩。
在本实施例中,视觉特征子网络采用ResNet101。随着网络深度 增加,网络的准确度应该同步增加,当然要注意过拟合问题。但是网 络深度增加的一个问题在于这些增加的层是参数更新的信号,因为梯 度是从后向前传播的,增加网络深度后,比较靠前的层梯度会很小。 这意味着这些层基本上学习停滞了,这就是梯度消失问题。深度网络 的第二个问题在于训练,当网络更深时意味着参数空间更大,优化问 题变得更难,因此简单地去增加网络深度反而出现更高的训练误差。 针对以上的问题,ResNet采用残差区块的。优势在于反向传播操作 时,梯度信息流由于这些附加的计算,从而更加容易传播。
如图3所示,在本实施例中,生成对抗网络整个框架由四部分组 成:(1)视觉特征网络,(2)生成网络GE(x)和GD(z),(3)判别网络
Figure BDA0002269387620000071
(4)重构编码网络
Figure BDA0002269387620000072
(1)第一部分是视觉特征网络,采用深度残差网络,去掉最后 的分类层和池化层,最后提取到深度特征图像(feature map)。
(2)第二部分生成网络由编码器GE(x)和解码器GD(z)构成,对于 送入深度特征图数据x经过编码器GE(x)得到深度视觉向量z,z经过 解码器GD(z)得到x的重构数据
Figure BDA0002269387620000073
(3)第三部分是判别网络网络与编码器GE(x)相同,对 原始图像x判为真,重构图像
Figure BDA0002269387620000075
判为假,不断优化重构数据
Figure BDA0002269387620000076
与原数 据x的差距,理想情况下重构数据与原数据是完全一样的。
(4)第四部分是重构编码网络
Figure BDA0002269387620000077
对重构图像
Figure BDA0002269387620000078
再编码,由 编码器得到重构图像编码的深度视觉向量使用Lb可以不断缩 小深度视觉向量z与
Figure BDA00022693876200000711
的差距,理想情况下它们是完全一样的。
在训练阶段,整个模型均是通过已见过类别的正常样本做训练。 也就是编码器GE(x)、解码器GD(z)和重构编码器
Figure BDA00022693876200000712
都适用于正常样 本。测试阶段,当模型在测试阶段接受到一个异常样本,此时模型的 编码器,解码器将不适用于异常样本,此时得到的编码后深度视觉向 量z和重构编码器得到的深度视觉向量
Figure BDA00022693876200000713
的差距是大的。这时候规定 这个差距是一个分值,通过设定阈值
Figure BDA0002269387620000081
一旦深度视觉向量之间的均 方误差大于设定阈值
Figure BDA0002269387620000082
模型就认定送入的样本x为未见过类别的异 常样本。对于目标测试数据,经过源数据训练,根据阈值目标数 据可以正确被区分已见过的类别和未见过的类别。
在本实施例中,如图2所示,视觉-属性嵌入网络由属性语义转 换网络和视觉-属性语义衔接子网络构成,视觉-属性语义衔接子网络 将高维属性语义特征嵌入到视觉特征,做一个完全拼接。由于不同的 数据集的属性语义特征维度不同且较低,所以需要引入属性语义转换 转换网络,实现特征从低维空间映射到高维空间,平衡属性语义特征 影响程度与视觉特征的影响程度,该子网络采用了双层的线性激活层。 图2展示了属性语义转换子网络与视觉-属性语义衔接子网络。
属性语义转换网络用于产生所有类别的属性特征表征。在训练阶 段,一路是对源数据见过的类别数Ns的属性语义特征映射到高维, 另外一路是对目标数据已见过的和未见过的总类别数Ns+t的属性语 义特征映射到高维,规定与DNN视觉特征的维度数相同。当确定要 输入训练的类别属性特征N×f2(f1和f2表示特征维度)后将其送入 属性语义转换网络,特征映射到N×f2',再使用Repeat产生和图像表 征一样的批大小b,即张量维度变为b×N×f2',通过Feature concate 操作完全拼接视觉-属性语义特征输出张量维度b×N×2f,最后送入视 觉-属性语义衔接网络,视觉-属性语义衔接网络也同样使用了两层的 线性激活层。对于送入的源数据,最后计算的是分类得分,而送入的 目标数据最后计算的是奖励。
在本实施例中,得分分类结果和奖励输出模块利用全量数据训练 零样本图像分类方法采用了类似于由源数据和目标数据输入的两路 Softmax分类器的联合强监督与弱监督模型,用来分类源数据类和目 标数据类。但是,只有源类数据是有标签的,目标类数据没有标签, 所以定义如下损失函数来训练模型:
Figure BDA0002269387620000084
一般地,传统的强监督分类器的损失函数包括分类损失La和正则化 项损失||W||2,La采用了交叉熵,正则化用L2范数来约束训练,该正则 是为了缓解神经网络在训练学习过程中某些神经元不被激活停滞问 题。λ1、λ2和λ3用于平衡不同损失之间的权重,通过多次修改训练验 证来确定。在训练阶段,所有标注的数据和未标注的数据混合在一起 作为训练数据。模型使用Adam进行优化。每一个批训练图像按比例 分别从源数据集和目标数据集中随机抽取。为了缓解训练过程中预测 目标数据强偏问题,这里增加了损失项Lb,具体公式如下:
Figure BDA0002269387620000091
其中,pi表示预测为类i的概率,给定一个来自目标类的实例,该损 失鼓励模型增加预测所有目标类中未见过的概率和,这样可以防止目 标类未见过的类别预测到已见过的类别中。为了提高区分目标数据中 已见过的类别和未见过的类别,这里增加了损失项Lc,具体公式如下:
Figure BDA0002269387620000092
类似的,pi表示预测为类i的概率,给定一个目标类的实例,该两项 损失分别鼓励模型预测已见过的类别和未见过的类别。
在本实施例中,融合视觉误差信息的方式在这里直接用目标数据 中每一个实例样本的均方误差值。首先训练好生成对抗网络,并获取 一个好的阈值φ,使尽可能得到较强区分目标数据中已见过类别和未 见过类别的能力;然后训练零样本图像分类网络,如果不使用增加的 两项损失进行激励,则输入的数据就不使用无标签的目标数据,反之 是训练全量数据下的零样本图像分类;当分别训练好生成对抗网络与 零样本图像分类网络后进行测试,测试阶段在视觉-语义嵌入网络融 入视觉误差信息,利用视觉误差信息确定目标数据中已见过类别和未 见过类别,根据阈值φ来决定视觉-语义嵌入网络在已见过类别空间和 未见过类别空间搜索。
在融入视觉误差信息时候,差分阈值φ可以根据实际情况来调整。 另外差分阈值的选定可以不止一个,比如可以两个,将误差区域分成 三段,第一段是可以很大程度划分出已见过类别的数据,第二段是可 以很大程度划分出未见过类别的数据,第三段是介于第一段与第二段 之间。第一段在已见过的语义空间预测,第二段在未见过的语义空间 预测,第三段是在全集语义空间预测。这样可调节分段阈值的好处就 在与进一步提高目标数据的预测,同时也有助于实际应用的需要。
本实施例中,全量数据所属领域分别是鸟类与动物类的,每一类 的图像数据相对均衡,数据划分比例也基本均衡,具体见表1和表2。
Caltech-UCSD-Birds-200-2011(CUB)数据集
全部为鸟类的图像,总共200个类,其中150类为源数据(训练 集),50类为目标数据(测试集),每一个类别的属性语义特征维度 为312,共有11788张图片,划分情况见表1所示。
表1CUB数据集划分情况
Figure BDA0002269387620000101
(2)Animal with Attributes(AwA)数据集
给出了50个类别动物的图片,其中的40个类别数据作为训练集, 而另外10个类别数据作为测试集。每一个类别的属性语义特征维度 为85,总共有30475张图片。前者数据集为AwA1,AwA1存在图像 版权问题,现在不能够获取这个原图像数据集,作者便收集给出了AwA2,数据类别和属性语义与AwA1相类似,总共37322张图片, 本实施例中使用AwA2数据集,划分情况见表2所示。
表2AwA2数据集划分情况
Figure BDA0002269387620000102
本实施例中,评价指标具体包括:
ZSL:只评估在未见过的类别下的正确率T1
GZSL(ACCSeen,ACCUnseen):分别评估在全集类别下预测见过 与未见过类别的正确率。
调和指标H值:
H=(2×ACCseen×ACCunseen)×100%/(ACCseen+ACCunseen)
本实施例中,利用重复注意力提升零样本图像分类方法将重复注 意力网络实现提取更具有鉴别区域结果的区域序列信息融入到零样 本图像分类当中,实验分别进行了在AwA2数据集和CUB数据集上对 比于基准实验效果。
表3与基准实验对比效果
Figure BDA0002269387620000111
如表3所示,在AwA2数据集上,传统设定的零样本图像分类指 标T1提升0.7%,ACCseen提升0.2%,ACCunseen提升1.5%,调和指标H提 升2.0%;在CUB数据集上,传统设定的零样本图像分类指标T1提升 1.6%,ACCseen提升0.7%,ACCunseen提升0.8%,调和指标H提升0.7%。
综上所述,使用重复注意关注细粒度的对象目标,使提取的图像 表征信息更加准确,有助于零样本图像分类效果的提升。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所 做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于重复注意力网络的零样本图像分类模型,其特征在于,包括
重复注意力网络模块,用于训练并获取图像区域序列信息;
生成对抗网络模块,用于获取视觉误差信息;
视觉特征提取网络处理模块,用于得到图像一维视觉特征向量;
属性语义转换网络模块,用两层的线性激活层将低维的属性语义向量映射到与视觉特征向量维度相同的高维特征向量;
视觉-属性语义衔接网络,实现视觉特征向量与属性语义特征向量的融合;
得分分类结果和奖励输出模块,采用交叉熵损失对已见过带标签的类别进行分类,而奖励输出是对未见过的无标签数据进行惩罚,以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。
2.根据权利要求1所述的基于重复注意力网络的零样本图像分类模型,其特征在于:所述所述视觉特征网络采用ResNet101。
3.根据权利要求1所述的基于重复注意力网络的零样本图像分类模型,其特征在于:所述属性语义转换网络用于产生所有类别的属性特征表征。
4.根据权利要求1所述的基于重复注意力网络的零样本图像分类模型,其特征在于:所述视觉-属性语义衔接网络采用完全拼接方式,将有标签数据中每一种图像类别视觉特征与所有有标签数据类别的属性语义特征拼接,将无标签数据中每一种图像类别视觉特征与所有无标签数据类别的属性语义特征拼接。
5.一种基于重复注意力网络的零样本图像分类方法,其特征在于,包括以下步骤:
步骤S1:将全量数据分为源数据和目标数据;
步骤S2:利用复注意力网络分别提取源数据与目标数据的细粒度图像区域序列信息,并将该信息分别作为生成对抗网络和视觉特征网络的输入信息;
骤S3:目标数据的细粒度图像区域序列信息输入视觉特征网络,将源数据细粒度图像区域序列信息映射到视觉特征空间,得到图像视觉特征向量;
步骤S4:根据得到的源数据细粒度图像区域序列信息,利用生成对抗网络获取视觉误差信息;
步骤S4:将原始图像的低维属性语义通过语义转换网络映射到高维,得到语义特征向量;
步骤S5:根据得到的图像视觉特征向量和语义特征向量,利用视觉-属性语义衔接网络完成融合,得到拼接结果;
步骤S6:根据拼接结果和视觉误差信息,通过得分分类结果和奖励输出模块,采用交叉熵损失对已见过带标签的类别进行分类,而奖励输出是对未见过的无标签数据进行惩罚,以及惩罚无标签数据中见过的类别和未见过的类别最有可能性的预测结果。
6.根据权利要求6所述的基于重复注意力网络的零样本图像分类方法,其特征在于:所述注意力网络包括定位网络、预训练网络、记忆网络和分类网络。
7.根据权利要求6所述的基于重复注意力网络的零样本图像分类方法,其特征在于:所述生成对抗网络包括视觉特征网络,生成网络GE(x)和GD(z),判别网络
Figure FDA0002269387610000021
和重构编码网络
Figure FDA0002269387610000022
(1)视觉特征网络,采用深度残差网络,去掉最后的分类层和池化层,提取到深度特征图;
(2)生成网络由编码器GE(x)和解码器GD(z)构成,对于送入深度特征图数据x经过编码器GE(x)得到深度视觉向量z,z经过解码器GD(z)得到x的重构数据
(3)判别网络
Figure FDA0002269387610000032
网络与编码器GE(x)相同,对原始图像x判为真,重构图像判为假,不断优化重构数据
Figure FDA0002269387610000034
与原数据x的差距,直至满足预设要求;
重构编码网络
Figure FDA0002269387610000035
对重构图像
Figure FDA0002269387610000036
再编码,由编码器得到重构图像编码的深度视觉向量
Figure FDA0002269387610000038
使用Lb可以不断缩小深度视觉向量z与
Figure FDA0002269387610000039
的差距,直至满足预设要求。
CN201911099492.3A 2019-11-12 2019-11-12 基于重复注意力网络的零样本图像分类模型及其方法 Active CN110826638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099492.3A CN110826638B (zh) 2019-11-12 2019-11-12 基于重复注意力网络的零样本图像分类模型及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099492.3A CN110826638B (zh) 2019-11-12 2019-11-12 基于重复注意力网络的零样本图像分类模型及其方法

Publications (2)

Publication Number Publication Date
CN110826638A true CN110826638A (zh) 2020-02-21
CN110826638B CN110826638B (zh) 2023-04-18

Family

ID=69554215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099492.3A Active CN110826638B (zh) 2019-11-12 2019-11-12 基于重复注意力网络的零样本图像分类模型及其方法

Country Status (1)

Country Link
CN (1) CN110826638B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111967513A (zh) * 2020-08-12 2020-11-20 北京工业大学 一种基于注意力的零样本图像分类方法
CN112101470A (zh) * 2020-09-18 2020-12-18 上海电力大学 一种基于多通道高斯gan的引导零样本识别方法
CN112257808A (zh) * 2020-11-02 2021-01-22 郑州大学 用于零样本分类的集成协同训练方法、装置及终端设备
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112528058A (zh) * 2020-11-23 2021-03-19 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112749738A (zh) * 2020-12-30 2021-05-04 之江实验室 一种融合上下文进行超类推理的零样本对象检测方法
CN112992308A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN112991281A (zh) * 2021-03-03 2021-06-18 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN113642621A (zh) * 2021-08-03 2021-11-12 南京邮电大学 基于生成对抗网络的零样本图像分类方法
CN114815904A (zh) * 2022-06-29 2022-07-29 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109472284A (zh) * 2018-09-18 2019-03-15 浙江大学 一种基于无偏嵌入零样本学习的电芯缺陷分类方法
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
CN109597998A (zh) * 2018-12-20 2019-04-09 电子科技大学 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN109643384A (zh) * 2016-08-16 2019-04-16 诺基亚技术有限公司 用于零样本学习的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109643384A (zh) * 2016-08-16 2019-04-16 诺基亚技术有限公司 用于零样本学习的方法和装置
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109472284A (zh) * 2018-09-18 2019-03-15 浙江大学 一种基于无偏嵌入零样本学习的电芯缺陷分类方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
CN109597998A (zh) * 2018-12-20 2019-04-09 电子科技大学 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林克正等: "语义自编码结合关系网络的零样本图像识别算法", 《模式识别与人工智能》, no. 03, 15 March 2019 (2019-03-15) *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582409B (zh) * 2020-06-29 2023-12-26 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111967513A (zh) * 2020-08-12 2020-11-20 北京工业大学 一种基于注意力的零样本图像分类方法
CN111967513B (zh) * 2020-08-12 2024-05-31 北京工业大学 一种基于注意力的零样本图像分类方法
CN112101470B (zh) * 2020-09-18 2023-04-11 上海电力大学 一种基于多通道高斯gan的引导零样本识别方法
CN112101470A (zh) * 2020-09-18 2020-12-18 上海电力大学 一种基于多通道高斯gan的引导零样本识别方法
CN112380374A (zh) * 2020-10-23 2021-02-19 华南理工大学 一种基于语义扩充的零样本图像分类方法
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法
CN112257808B (zh) * 2020-11-02 2022-11-11 郑州大学 用于零样本分类的集成协同训练方法、装置及终端设备
CN112257808A (zh) * 2020-11-02 2021-01-22 郑州大学 用于零样本分类的集成协同训练方法、装置及终端设备
CN112528058B (zh) * 2020-11-23 2022-09-02 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112528058A (zh) * 2020-11-23 2021-03-19 西北工业大学 基于图像属性主动学习的细粒度图像分类方法
CN112749738A (zh) * 2020-12-30 2021-05-04 之江实验室 一种融合上下文进行超类推理的零样本对象检测方法
CN112991281B (zh) * 2021-03-03 2023-12-12 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN112991281A (zh) * 2021-03-03 2021-06-18 望知科技(深圳)有限公司 视觉检测方法、系统、电子设备及介质
CN112992308A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN112992308B (zh) * 2021-03-25 2023-05-16 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN113642621A (zh) * 2021-08-03 2021-11-12 南京邮电大学 基于生成对抗网络的零样本图像分类方法
CN114815904A (zh) * 2022-06-29 2022-07-29 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备
CN115082747A (zh) * 2022-08-23 2022-09-20 紫东信息科技(苏州)有限公司 基于组块对抗的零样本胃溃疡分类系统
CN116109877B (zh) * 2023-04-07 2023-06-20 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN110826638B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN110689081B (zh) 一种基于分歧学习的弱监督目标分类和定位方法
CN110347839A (zh) 一种基于生成式多任务学习模型的文本分类方法
CN110795585B (zh) 基于生成对抗网络的零样本图像分类系统及其方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN114283285A (zh) 交叉一致性自训练遥感图像语义分割网络训练方法及装置
CN114913434B (zh) 一种基于全局关系推理的高分辨率遥感影像变化检测方法
CN115131313A (zh) 基于Transformer的高光谱图像变化检测方法及装置
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
Lonij et al. Open-world visual recognition using knowledge graphs
Yu et al. Abstract reasoning via logic-guided generation
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
Gong et al. KDCTime: Knowledge distillation with calibration on InceptionTime for time-series classification
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
Hartung et al. Support for the use of hierarchical temporal memory systems in automated design evaluation: A first experiment
CN114821299A (zh) 一种遥感图像变化检测方法
Termritthikun et al. Neural architecture search and multi-objective evolutionary algorithms for anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant