CN116051909B - 一种直推式零次学习的未见类图片分类方法、设备及介质 - Google Patents
一种直推式零次学习的未见类图片分类方法、设备及介质 Download PDFInfo
- Publication number
- CN116051909B CN116051909B CN202310205176.XA CN202310205176A CN116051909B CN 116051909 B CN116051909 B CN 116051909B CN 202310205176 A CN202310205176 A CN 202310205176A CN 116051909 B CN116051909 B CN 116051909B
- Authority
- CN
- China
- Prior art keywords
- visual
- unseen
- class
- semantic
- visible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种直推式零次学习的未见类图片分类方法、设备及介质,该方法是使用双向跨模态生成算法,包括视觉‑语义对齐模型和视觉‑视觉对齐模型,其中,视觉‑语义对齐模型通过监督学习和非条件式对抗式训练方法实现从视觉特征解析语义信息的功能;语义‑视觉对齐模型通过条件式非条件式对抗式训练方法实现从语义信息生成视觉特征的功能。本发明具有对训练过程中未见种类数据的分类功能,同时具有通过语义描述生成准备的视觉特征,可以解决现实生活中对标注数据稀缺的问题,满足视觉场景下对数据增广的需求。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及零样本学习中的对未见过数据的准确分类。
背景技术
零样本学习 (Zero-Shot Learning,ZSL) 最初被提出为计算机视觉中的零数据学习,旨在解决现实中有标签数据难以获取的情况下,模型能够通过对有限的已标注数据学习实现对其从没见过的未见类(unseen classes)的分类。例如,在传统的 ZSL 中,没有为未见类提供训练示例, 但同时提供了大量的训练样例与他们的类别标签配对的数据,这些已匹配的数据类别称为已见类(seen classes)。为了实现对已见类数据学习的知识可以迁移到未见类别上,通常会使用辅助信息作为桥梁来进行知识迁移。这样的辅助信息,例如类别属性(attribute),使用者可以知道特定某个已见类的属性分布,比如对于‘猫’这个类别,‘它有毛’的属性值为‘1’,‘它有鱼鳍’的属性值为‘0’,‘它有尾巴’的属性值为‘1’等等;对于未见类‘海豚’,‘它有毛’的属性值为‘0’,‘它有鱼鳍’的属性值为‘1’,‘它有尾巴’的属性值为‘0’。该方法通过在已见类数据上对属性知识的学习,来实现利用未见类属性来对这些未见数据的分类,即让模型获得了推理的能力。
但是完全无训练示例的零样本学习很容易导致领域漂移的问题(domain shift),即模型建模的分布与实际分布存在偏差。因此该发明建立在未见类的训练示例可以在模型训练的时候使用,但是其与未见类标签是未匹配的情况下,这也被称为直推式(transductive)零样本学习(TZSL)。注意这样的假设是合理,因为在现实场景下获取大量未标注数据的难度要低很多。
针对现有的零样本学习,其存在的问题可以总结如下:
1、传统的零样本学习有显著的领域漂移问题,由于其无法利用未匹配标签的未见类训练示例来监督模型建模的未见类数据分布,如图1所示。
2、目前已经有的直推式零样本学习方案十分依赖辅助信息的质量,当辅助信息质量较低时,知识迁移效果不佳,对未见类的分类准确率较低。
3、基于生成式的直推式零样本学习方案十分依赖未见类别的频率分布先验知识,即给定特定未见类别,需要同时给定它在测试数据中的分布占比,从而才能实现良好的知识迁移结果。对于未见类分布先验未知的情况下,模型的知识迁移能力会极大的坍塌。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种直推式零次学习的未见类图片分类方法、设备及介质,以期能将已见类知识的学习准确鲁棒的迁移到未见类的分类当中去,从而能解决现实情况中已标注数据稀少的情形,以满足视觉场景下对数据增广的需求。
本发明的目的是通过以下技术方案实现的:
本发明一种直推式零次学习的未见类图片分类方法的特点在于,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示所述已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du;
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测;
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;
本发明所述的直推式零次学习的未见类图片分类方法的特点也在于,所述步骤2.1包括:
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数:
式(1)中,E表示期望;
步骤2.1.2、基于采样分布从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>;y表示标签自变量;对au和/>进行球面插值计算,得到插值后的插值未见类语义向量/>,且,其中,/>表示插值分布;
将au,和/>输入所述非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>和插值未见类语义判别分数表示/>,从而利用式(2)构建语义非条件式对抗式训练损失函数/>:
步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss1:
所述步骤2.2包括:
将vs和as拼接,将和as拼接,将/>和as拼接后分别输入所述条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分/>和插值已见类判别分数/>,从而利用式(4)构建视觉条件式对抗式训练损失函数:
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入所述视觉生成网络G中进行处理,并得到伪未见类视觉特征;再对vu和进行球面插值计算,得到插值未见类视觉特征/>;
步骤2.2.3、将z和au拼接后输入所述视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)所述回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数:
步骤2.2.4、将vs,as拼接后输入所述视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建所述语义-视觉对齐模型的总体训练损失函数Loss2:
本发明一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行任一所述直推式零次学习的未见类图片分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行任一所述直推式零次学习的未见类图片分类方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、对于直推式零样本学习,本发明利用生成式的方法建模属性数据到图片的生成路径,利用数据增广的方式来模拟未见类的图片分布,同时创造性的提出了直推式回归器(transductive regressor,TR),将生成的增广数据映射回到属性数据上,从而提高了对未见类图片的识别准确率,可以缓解现实场景下对标注数据稀缺的矛盾现状。
2、对于生成式的学习方式,本发明提出使用L2归一化方式进行数据的预处理,相较于以往利用Min-Max归一化的方式,前者更利于模型建模真实数据的值分布,从而提高了模型的图像生成准确性,有利于满足现实场景下数据增广的需求。
附图说明
图1为本发明中双向对齐的零次学习技术的流程图;
图2为本发明中双向对齐的零次学习技术的框架图;
图3为本发明实施例提供的回归器模型的训练策略图;
图4为本发明实施例提供的视觉生成网络模型的训练策略图;
图5为本发明实施例提供的CPE算法的伪代码图。
实施方式
本实施例中,一种直推式零次学习的未见类图片分类方法,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du;
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测,模型流程图如图3所示;
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数:
式(1)中,E表示期望;
步骤2.1.2、基于采样分布从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>;y表示标签自变量;对au和/>进行球面插值计算,得到插值后的插值未见类语义向量/>,且,其中,/>表示插值分布;
将au,和/>输入非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>和插值未见类语义判别分数表示,从而利用式(2)构建语义非条件式对抗式训练损失函数/>:
对于来自未已见类的示例,它通过最大化对手目标来学习区分它们的真实属性和根据视觉特征计算的伪属性,式(2)中的第三项代表梯度惩罚项,这是沃森斯坦-对抗生成网络WGAN中为了稳定对抗生成网络GAN的训练而引入的;
步骤2.1.3、利用式(3)构建视觉-语义对齐模型的总体训练损失函数Loss1:
因此回归器R旨在以有监督的方式学习已见类从视觉到属性特征的映射,同时以无监督的方式学习不已见类的整体特征域的分布。
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成。该步视觉生成网络G也采用了直推式和对抗式的训练方式。它旨在对齐合成视觉特征和真实特征,在视觉空间中使用视觉判别器D和Du,同时在属性空间中使用冻结回归器R,模型流程图如图4所示。
将vs和as拼接,将和as拼接,将/>和as拼接后分别输入条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分数/>和插值已见类判别分数/>,从而利用式(4)构建视觉条件式对抗式训练损失函数/>:
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入视觉生成网络G中进行处理,并得到伪未见类视觉特征;再对vu和/>进行球面插值计算,得到插值未见类视觉特征/>;
步骤2.2.3、式(4)和式(5)弱对齐未见类在视觉空间上的条件分布,但这样的过程缺乏任何监督约束,这也使得从已见类知识迁移到未见类的过程极度依赖属性知识的质量。因此缓解这种弱约束对齐的情况,即为了进一步加强条件对齐,该步骤使用回归器R来执行监督约束。
将z和au拼接后输入视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数:
步骤2.2.4、将vs,as拼接后输入视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建语义-视觉对齐模型的总体训练损失函数Loss2:
通过传递已见类的成对视觉特征和属性以及未见类的类别先验分布的知识,并且通过属性回归器 R 得到增强,以进一步约束未见类的视觉特征生成。
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对双向式分布对齐方式模型进行训练,并计算Loss1和Loss2更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型。
步骤4、当模型收敛的时候,本发明方法利用视觉生成网络生成增广的未见类数据,因为是基于条件生成,所以增广的数据具有标签属性。利用带标签的合成数据,本发明训练一个简单的线性分类器,并利用训练好的分类器在真实的未见类数据上进行推理预测,最终的评价指标由分类准确率(ACC)给出。
步骤6、未见类的分布先验估计。
当对式(3)和式(8)中的目标函数进行训练时,未见类的属性是从类之前采样的:au~。由于没有为看不见的类提供标签信息,因此不可能从真实的类先验分布pu(y)中采样,这就需要一种估计/>的方法。利用未见类的示例在视觉特征空间中具有较好的聚类结构的特点,该发明使用这种聚类结构来估计未见类先验,即聚类先验估计策略(CPE)。采用 K 均值聚类算法进行分布的估计,并仔细设计其聚类中心的初始化方式,算法伪代码在图5中给出。具体来说,先验估计会在每个训练周期结束迭代更新,并且在每个时期中,簇中心由伪类中心初始化。这个伪类中心利用一个额外的分类器在Vu上推理得到的伪标签给定。同时对于/>的第一次先验估计,该发明没有使用朴素但有时有害的均匀分布假设,而是使用在非直推式ZSL上训练的视觉生成网络来传输已见类的配对知识以获得温和的估计。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该直推式零次学习的未见类图片分类方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该直推式零次学习的未见类图片分类方法的步骤。
实施例:
本发明方法可以用于标注数据稀缺场景下,对未标注的未见类别数据仍旧可以进行准确的分类,这个技术也让模型学得有限数据的知识高效的迁移到新的数据当中,使得模型获得了更强的推理能力。
为了说明本发明的有效性,通过进行了如下实验进行了验证。
在这里使用四个数据集AWA1,AWA2,CUB,SUN上的进行直推式零次学习(TZSL)实验,并展现了未见类的分类准确率(ACC)作为评价指标。实验分为如下两个部分:
未见类分布先验已知的情形:
如表1所示, 是在四个数据集上的TZSL分类准确率比较结果。其中,“*”代表使用了已知的未见类分布先验的生成式方法。
表1
该发明与其他非直推式和直推式的TZSL 方法进行比较结果展示。以往的大部分生成式方法使用了已知的未见类分布先验假设,因此,对双向生成模型Bi-VAEGAN 应用相同的设置以获得公平的比较。表 1可以看出,一般来说,使用了无标签测试数据的直推式方法要远优于非直推式方法。同时Bi-VAEGAN 在所有数据集上都优于其他的方法,其中包括了和Bi-VAEGAN一样采用了变分自编码器VAE和GAN作为基础框架的视觉特征生成模型F-VAEGAN和视觉特征反馈生成模型TF-VAEGAN。该发明实现的新的最好的 TZSL结果为93.9\%(AWA1)、95.8\% (AWA2)、78.0\% (CUB) 和 74.2\% (SUN)。值得一提的是,对于类内样本稀缺的 SUN 数据集,Bi-VAEGAN 取得了令人满意的性能提升。这是因为每个类别的样本数量少,本质上使条件生成的判别力降低,从而使 SUN 数据集更具有挑战性。而 Bi-VAEGAN 受益于其双向对齐生成,提供了更具辨别力的特征进而获得了显著的性能提升。
2、未见类分布先验未知的情形:
如表2所示,是在未见类分布先验未知的假设下的实验结果;
表2
在这个实验中,该发明展示未知的未见类分布先验的假设下的实验结果,即表2所示。其中,对于生成式方法需要从未见类分布先验采样,该发明使用了“均匀分布先验”和“CPE”两种方式。通过比较表2和图4可以看出,当使用的未见类分布先验与根据实际类别大小计算的先验类别有显着差异时,有显着的性能下降,例如,对于极度不平衡的 AWA2 数据集上存在超过 30%的性能下降。CPE 在这类困难的未知先验的数据集表现出优异的性能。
Claims (5)
1.一种直推式零次学习的未见类图片分类方法,其特征在于,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示所述已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du;
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测;
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;
2.根据权利要求1所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.1包括:
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数:
式(1)中,E表示期望;
步骤2.1.2、基于采样分布从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量/>;y表示标签自变量;对au和/>进行球面插值计算,得到插值后的插值未见类语义向量/>,且,其中,/>表示插值分布;
将au,和/>输入所述非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示/>和插值未见类语义判别分数表示,从而利用式(2)构建语义非条件式对抗式训练损失函数/>:
步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss1:
3.根据权利要求2所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.2包括:
将vs和as拼接,将和as拼接,将/>和as拼接后分别输入所述条件式视觉判别器D中进行处理,得到真实已见类判别分数输出D(vs,as),伪已见类判别分/>和插值已见类判别分数/>,从而利用式(4)构建视觉条件式对抗式训练损失函数:
步骤2.2.2、从未见类视觉特征集合Vu中随机采样得到一个未见类图像特征vu,将z和au拼接后输入所述视觉生成网络G中进行处理,并得到伪未见类视觉特征;再对vu和/>进行球面插值计算,得到插值未见类视觉特征/>;
步骤2.2.3、将z和au拼接后输入所述视觉生成网络G中进行处理,并得到未见类生成特征表示G(au,z);将G(au,z)所述回归器R中进行处理,并得到重预测未见类语义信息表示R(G(au,z)),将au作为监督信号,从而利用式(6)构建未见类监督损失函数:
步骤2.2.4、将vs,as拼接后输入所述视觉编码网络E中进行处理,并得到高斯分布输出E(vs,as);
式(7)中,KL表示Kullback-Leibler 散度约束;
步骤2.2.5、利用式(8)构建所述语义-视觉对齐模型的总体训练损失函数Loss2:
4.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-3中任一所述直推式零次学习的未见类图片分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
5.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-3中任一所述直推式零次学习的未见类图片分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205176.XA CN116051909B (zh) | 2023-03-06 | 2023-03-06 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205176.XA CN116051909B (zh) | 2023-03-06 | 2023-03-06 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116051909A CN116051909A (zh) | 2023-05-02 |
CN116051909B true CN116051909B (zh) | 2023-06-16 |
Family
ID=86113541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310205176.XA Active CN116051909B (zh) | 2023-03-06 | 2023-03-06 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051909B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3500978A4 (en) * | 2016-08-16 | 2020-01-22 | Nokia Technologies Oy | METHOD AND DEVICE FOR ZERO SHOT LEARNING |
EP3593284A4 (en) * | 2017-03-06 | 2021-03-10 | Nokia Technologies Oy | ZERO SHOT LEARNING PROCEDURE AND SYSTEM WITH TRANSDUCTIVE AND / OR ADAPTIVE MAX MARGIN |
CN111581396B (zh) * | 2020-05-06 | 2023-03-31 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN111563165B (zh) * | 2020-05-11 | 2020-12-18 | 北京中科凡语科技有限公司 | 一种基于锚点词定位和训练语句增广的语句分类方法 |
CN111914929B (zh) * | 2020-07-30 | 2022-08-23 | 南京邮电大学 | 零样本学习方法 |
CN114357193B (zh) * | 2022-01-10 | 2024-04-02 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114386534A (zh) * | 2022-01-29 | 2022-04-22 | 安徽农业大学 | 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法 |
CN114821196A (zh) * | 2022-06-08 | 2022-07-29 | 安徽大学 | 零样本图像识别方法及其识别装置、介质与计算机终端 |
CN115147607A (zh) * | 2022-09-05 | 2022-10-04 | 南京信息工程大学 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
-
2023
- 2023-03-06 CN CN202310205176.XA patent/CN116051909B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116051909A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Multimodal unsupervised image-to-image translation | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
Royer et al. | Xgan: Unsupervised image-to-image translation for many-to-many mappings | |
Jha et al. | Disentangling factors of variation with cycle-consistent variational auto-encoders | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
Wang et al. | Probabilistic diffusion for interactive image segmentation | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN111724400A (zh) | 视频自动抠像方法及系统 | |
Boltz et al. | High-dimensional statistical measure for region-of-interest tracking | |
CN112861805B (zh) | 一种基于内容特征和风格特征的人脸图像生成方法 | |
CN109800768A (zh) | 半监督gan的散列特征表示学习方法 | |
CN113822953A (zh) | 图像生成器的处理方法、图像生成方法及装置 | |
WO2022166840A1 (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
Vašata et al. | Image inpainting using Wasserstein generative adversarial imputation network | |
Zong et al. | Transductive transfer lda with riesz-based volume lbp for emotion recognition in the wild | |
Du et al. | Boosting dermatoscopic lesion segmentation via diffusion models with visual and textual prompts | |
Xiong et al. | Joint intensity–gradient guided generative modeling for colorization | |
CN116051909B (zh) | 一种直推式零次学习的未见类图片分类方法、设备及介质 | |
Isobe et al. | Inference with model uncertainty on indoor scene for semantic segmentation | |
Padala et al. | Effect of input noise dimension in GANs | |
Póka et al. | Data augmentation powered by generative adversarial networks | |
CN111539263B (zh) | 一种基于聚合对抗网络的视频人脸识别方法 | |
Manisha et al. | Effect of input noise dimension in gans | |
CN111401519A (zh) | 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法 | |
Molnár et al. | Variational autoencoders for 3D data processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |