CN115424096B - 一种多视角零样本图像识别方法 - Google Patents
一种多视角零样本图像识别方法 Download PDFInfo
- Publication number
- CN115424096B CN115424096B CN202211390481.2A CN202211390481A CN115424096B CN 115424096 B CN115424096 B CN 115424096B CN 202211390481 A CN202211390481 A CN 202211390481A CN 115424096 B CN115424096 B CN 115424096B
- Authority
- CN
- China
- Prior art keywords
- visual
- view
- picture
- matrix
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多视角零样本图像识别方法,包括:构建多视角视觉‑语义映射模型表达式;通过提取并融合已见类训练集中图片样本的多视角视觉特征,建立多视角视觉‑语义映射模型;提取待识别图片的多视角视觉特征;将待识别图片的多视角视觉特征输入训练获得的多视角视觉‑语义映射模型,输出待识别图片的预测类别语义属性,实现多视角零样本图像识别。本发明针对零样本识别中的多视角数据融合问题提出一种有效的解决途径,通过兼顾不同视角之间的一致性原则和互补性原则,并给出与之匹配的交替方向乘子法,有效提升零样本识别的精度。
Description
技术领域
本发明属于图像识别技术领域,具体涉及一种多视角零样本图像识别方法。
背景技术
模式识别技术在近十几年取得了长足的进展。传统的模式识别方法需要使用大量的标记数据来进行训练以保证模型的泛化性能。然而在许多现实场景中,对细粒度样本进行标记往往需要专门的领域知识,因此,为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题,零样本分类得到越来越多的关注。
零样本分类试图通过从已见类(有现成样本的类别)的标记样本中获取迁移知识,从而构建能够识别未见类(没有现成样本的类别,即零样本类)样本的模型。零样本分类方法通过构建一个语义嵌入空间来建立已见类和未见类之间的内在联系,并在这个空间中嵌入已见类和未见类的语义标签(视为先验信息,可以是类别属性特征,也可根据类别的相关知识或文本描述采用词嵌入等方法获取)。这样,每个类别在语义空间中都与一个类语义标签向量相关联,进而可以通过建立样本特征与类别语义标签向量之间的映射关系来获取迁移知识,从而实现对未见类样本的判别。
公开号为CN115147607A的发明申请是在视觉-语义映射模型下,通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法,降低已见类图片样本的标记噪声样本带来的负面影响。
但迄今为止,大部分零样本分类的研究仅针对单视角数据。随着计算机技术的发展,在许多现实场景中,多视角数据(多源异构数据)己经变得非常普遍,譬如,医生通常需要综合病人的多视角生理数据做出诊断,包括结构化数据以及诸如文本、磁共振成像MRI、CT等的非结构化数据。因此,如何通过提取和利用已见类别多视角数据中的信息来提升零样本分类的学习效果,是亟待解决的问题。
发明内容
发明目的:本发明的目的在于克服现有方法的不足,提供一种多视角零样本图像识别方法。
技术方案:本发明提供多视角零样本图像识别方法,包括以下步骤:
S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;
S2将所述多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,最终得到待识别图片的预测类别语义属性;
S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性。
进一步的,包括:
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型包括训练阶段,所述训练阶段包括以下步骤:
S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
S22构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型。
进一步的,包括:
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:
S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格,否则,返回到训练阶段。
进一步的,包括:
步骤S22中,构建多视角视觉-语义映射模型,实现方法为:
多视角视觉-语义映射模型的表达式为:
其中,分别为图片样本在两个不同视角上的视觉特征,分别为两个视角的视觉特征的维度,和为图片样本的类别语义属性,和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,和分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置。
进一步的,包括:
步骤S22中,基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:
S222优化问题表示为:
其中,tr(*)为矩阵的迹运算;为矩阵的F-范数;分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,的列数为已见类训练集中的图片样本数量;P 1和P 2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;为损失函数中设定的阈值;和分别为两个视角上的松弛变量;β 1,β 2,C和为权系数。
进一步的,包括:
建立所述优化问题,具体原则包括:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
进一步的,包括:
所述步骤S23具体包括以下步骤:
S232公式(2)的增广拉格朗日函数为:
S233更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
S234更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
S235更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
S236更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
S237更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
S238更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
S239更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(14),获得矩阵W 1的表达式:
S2310更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(16),获得矩阵W 2的表达式:
S2318若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1,W 2和Q 1,Q 2,获得最终的多视角视觉-语义映射模型,进入步骤S233。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的方法。
最后,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
有益效果:本发明提出一种多视角零样本图像识别方法,针对零样本识别中的多视角数据融合问题提出一种有效的解决途径,通过兼顾不同视角之间的一致性原则和互补性原则,并给出与之相匹配的交替方向乘子法,有效提升零样本识别的精度。
附图说明
图1为本发明所述的多视角零样本图像识别方法流程图。
具体实施方案
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供一种多视角零样本图像识别方法,包括:
获取待识别图片;
提取待识别图片的多视角视觉特征;多视角类似多模态,比如同一个事物可以用文本和图像来描述,再比如,不同角度(正面,侧面)的图像也是不同视角。将待识别图片的多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,输出待识别图片的预测类别语义属性;
利用图模型降噪算法,将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,获得待识别图片最终的类别语义属性。
进一步地,本实施例中预先训练获得多视角视觉-语义映射模型,如图1所示,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
步骤(2),构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;
基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
步骤(3),使用交替方向乘子法对优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型。
进一步地,本实施例中步骤(4),获取未见类测试集;
将未见类测试集输入最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
进一步地,本实施例中步骤(2),构建多视角视觉-语义映射模型,通过以下步骤实现:
多视角视觉-语义映射模型的表达式为:
其中分别为图片样本在两个不同视角上的视觉特征,分别为两个视角的视觉特征的维度,为图片样本的类别语义属性,分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置;
步骤(2),基于不同视角之间的一致性和互补性原则,建立优化问题,通过以下步骤实现:
建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值,则损失值为零。建立优化问题,具体细节如下:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本单个视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
优化问题:
其中,tr(*)为矩阵的迹运算;为矩阵的F-范数;分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,的列数为已见类训练集中的图片样本数量;P 1和P 2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;为损失函数中设定的阈值;分别为两个视角上的松弛变量;和为权系数。
进一步地,本实施例中步骤(3),使用交替方向乘子法对优化问题的变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型,通过以下步骤实现:
步骤(3-2),公式(2)的增广拉格朗日函数为:
步骤(3-3),更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
步骤(3-4),更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
步骤(3-5),更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
步骤(3-6),更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
步骤(3-7),更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
步骤(3-8),更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
步骤(3-9),更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(14),获得矩阵W 1的表达式:
步骤(3-10),更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(16),获得矩阵W 2的表达式:
步骤(3-17),固定所有变量,更新各个拉格朗日乘子如下:的数值增加,的数值增加,的数值增加,的数值增加,的数值增加,的数值增加 ,的数值增加,的数值增加;罚参数更新为,ρ和μ max 为设定的参数。
步骤(3-18),若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1,W 2和Q 1,Q 2,获得最终的多视角视觉-语义映射模型,进入步骤(3-3)。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
最后,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述所述方法的步骤。
实验数据及结果分析
本实施例采用的AWA数据集包含50个类别,共30485张图片样本,其中每个类别至少92张图片样本,每个类别都对应一个85维的类别语义属性向量。本发明将50个类别中的40个作为已见类,10个作为未见类。在已见类的图片样本中随机取15161个图片样本组成已见类训练集,在未见类的图片样本中随机取6985个图片样本组成未见类测试集。
本实施例采用的CUB数据集包含200个类别,共11788张图片样本,其中每个类别至少45张图片样本,每个类别都对应一个312维的类别语义属性向量。本发明将200个类别中的150个作为已见类,50个作为未见类。在已见类的图片样本中随机取6596个图片样本组成已见类训练集,在未见类的图片样本中随机取2973个图片样本组成未见类测试集。
本发明获取已见类训练集和未见类测试集中图片样本的多视角视觉特征,通过以下步骤实现:
在AWA和CUB数据集上进行测试,采用Pytorch模块中GoogleNet预训练网络模型提取图片样本的视觉特征,并将第18层作为输出层,提取后视觉特征的维度为1024。
AWA的1视角与2视角分别为图片样本中比例0.1*0.1大小的随机位置局部区域和完整的图片样本。
CUB的1视角与2视角分别为图片样本中比例0.7*0.7大小的随机位置局部区域和完整的图片样本。
将本方法与Zero-Shot Learning via Robust Latent Representation andManifold Regularization中的算法进行对比测试,得到结果如下表。
实验结果可以看出,本发明所提出的多视角零样本图像识别方法显著提高了未见类测试集的识别精度。从表1中可以发现,相比单视角方法,本方法的精度提升在AWA数据集上达15.34%,在CUB数据集上达15.57%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种多视角零样本图像识别方法,其特征在于,包括以下步骤:
S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;
S2将所述多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,最终得到待识别图片的预测类别语义属性;
S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性;
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型包括训练阶段,所述训练阶段包括以下步骤:
S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
S22构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型;
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:
S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格,否则,返回到训练阶段;
步骤S22中,构建多视角视觉-语义映射模型,实现方法为:
多视角视觉-语义映射模型的表达式为:
其中,分别为图片样本在两个不同视角上的视觉特征,分别为两个视角的视觉特征的维度,和为图片样本的类别语义属性,和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,和分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置;
基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:
S222优化问题表示为:
2.根据权利要求1所述的多视角零样本图像识别方法,其特征在于,建立所述优化问题,具体原则包括:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
3.根据权利要求1所述的多视角零样本图像识别方法,其特征在于,所述步骤S23具体包括以下步骤:
S232公式(2)的增广拉格朗日函数为:
S233更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
S234更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
S235更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
S236更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
S237更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
S238更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
S239更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(14),获得矩阵W 1的表达式:
S2310更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
最小化公式(16),获得矩阵W 2的表达式:
S2318若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1,W 2和Q 1,Q 2,获得最终的多视角视觉-语义映射模型,进入步骤S233。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-3任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390481.2A CN115424096B (zh) | 2022-11-08 | 2022-11-08 | 一种多视角零样本图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390481.2A CN115424096B (zh) | 2022-11-08 | 2022-11-08 | 一种多视角零样本图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115424096A CN115424096A (zh) | 2022-12-02 |
CN115424096B true CN115424096B (zh) | 2023-01-31 |
Family
ID=84207416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211390481.2A Active CN115424096B (zh) | 2022-11-08 | 2022-11-08 | 一种多视角零样本图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424096B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237748B (zh) * | 2023-11-14 | 2024-02-23 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
CN117541882B (zh) * | 2024-01-05 | 2024-04-19 | 南京信息工程大学 | 一种基于实例的多视角视觉融合转导式零样本分类方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485272A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 基于流形约束的跨模态嵌入的零样本分类方法 |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
WO2019055114A1 (en) * | 2017-09-12 | 2019-03-21 | Hrl Laboratories, Llc | VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS |
CN110097095A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种基于多视图生成对抗网络的零样本分类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN113361646A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于语义信息保留的广义零样本图像识别方法及模型 |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
CN114399649A (zh) * | 2021-11-30 | 2022-04-26 | 西安交通大学 | 一种基于学习图的快速多视图半监督学习方法及系统 |
CN115131781A (zh) * | 2022-06-23 | 2022-09-30 | 北方民族大学 | 基于判别性特征引导的零样本三维模型分类方法 |
CN115147607A (zh) * | 2022-09-05 | 2022-10-04 | 南京信息工程大学 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930841B (zh) * | 2016-05-13 | 2018-01-26 | 百度在线网络技术(北京)有限公司 | 对图像进行自动语义标注的方法、装置与计算机设备 |
CN106203483B (zh) * | 2016-06-29 | 2019-06-11 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
CN111461323B (zh) * | 2020-03-13 | 2022-07-29 | 中国科学技术大学 | 一种图像识别方法及装置 |
CN113111917B (zh) * | 2021-03-16 | 2022-07-01 | 重庆邮电大学 | 一种基于双重自编码器的零样本图像分类方法及装置 |
CN113139591B (zh) * | 2021-04-14 | 2023-02-24 | 广州大学 | 一种基于增强多模态对齐的广义零样本图像分类方法 |
-
2022
- 2022-11-08 CN CN202211390481.2A patent/CN115424096B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485272A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 基于流形约束的跨模态嵌入的零样本分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN110431565A (zh) * | 2017-03-06 | 2019-11-08 | 诺基亚技术有限公司 | 直推式和/或自适应最大边界零样本学习方法和系统 |
WO2019055114A1 (en) * | 2017-09-12 | 2019-03-21 | Hrl Laboratories, Llc | VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN110097095A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种基于多视图生成对抗网络的零样本分类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
CN113361646A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于语义信息保留的广义零样本图像识别方法及模型 |
CN114399649A (zh) * | 2021-11-30 | 2022-04-26 | 西安交通大学 | 一种基于学习图的快速多视图半监督学习方法及系统 |
CN115131781A (zh) * | 2022-06-23 | 2022-09-30 | 北方民族大学 | 基于判别性特征引导的零样本三维模型分类方法 |
CN115147607A (zh) * | 2022-09-05 | 2022-10-04 | 南京信息工程大学 | 一种基于凸优化理论的抗噪声零样本图像分类方法 |
Non-Patent Citations (5)
Title |
---|
Transductive Multi-view Zero-Shot Learning;Yanwei Fu等;《arXiv:1501.04560v2》;20150303;第1-17页 * |
Zero-Shot Learning via Robust Latent Representation and Manifold Regularization;Min Meng等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20190430;第28卷(第4期);第1824-1836页 * |
基于深度生成模型的零样本学习;周翔;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第(2020)01期);I138-1777 * |
基于类别原型及深度学习的零样本学习研究与应用;欧光金;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220115(第(2022)01期);I138-2806 * |
零样本学习综述;王泽深等;《计算机工程与应用》;20211231;第57卷(第19期);第1-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115424096A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Frolov et al. | Adversarial text-to-image synthesis: A review | |
CN115424096B (zh) | 一种多视角零样本图像识别方法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
Zhao et al. | Deep non-negative matrix factorization architecture based on underlying basis images learning | |
CN114911914A (zh) | 一种跨模态图文检索方法 | |
CN113627482B (zh) | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 | |
Sui et al. | Research on application of multimedia image processing technology based on wavelet transform | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
Shi et al. | CAN-GAN: Conditioned-attention normalized GAN for face age synthesis | |
CN111985532B (zh) | 一种场景级上下文感知的情感识别深度网络方法 | |
CN112818889A (zh) | 基于动态注意力的超网络融合视觉问答答案准确性的方法 | |
Yuan et al. | Compositional scene representation learning via reconstruction: A survey | |
CN107506419B (zh) | 一种基于异质上下文感知的推荐方法 | |
CN113436754A (zh) | 一种智能终端问诊的医疗软件及其方法 | |
CN113822232B (zh) | 一种基于金字塔注意力的场景识别方法、训练方法及装置 | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN117635275A (zh) | 基于大数据的智能电商运营商品管理平台及方法 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN115982384A (zh) | 一种工业设计领域产品知识图谱构建方法及系统 | |
CN115640418A (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN112560712A (zh) | 基于时间增强图卷积网络的行为识别方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |