CN115424096B - 一种多视角零样本图像识别方法 - Google Patents

一种多视角零样本图像识别方法 Download PDF

Info

Publication number
CN115424096B
CN115424096B CN202211390481.2A CN202211390481A CN115424096B CN 115424096 B CN115424096 B CN 115424096B CN 202211390481 A CN202211390481 A CN 202211390481A CN 115424096 B CN115424096 B CN 115424096B
Authority
CN
China
Prior art keywords
visual
view
picture
matrix
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211390481.2A
Other languages
English (en)
Other versions
CN115424096A (zh
Inventor
汤龙
唐昕航
潘志庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211390481.2A priority Critical patent/CN115424096B/zh
Publication of CN115424096A publication Critical patent/CN115424096A/zh
Application granted granted Critical
Publication of CN115424096B publication Critical patent/CN115424096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多视角零样本图像识别方法,包括:构建多视角视觉‑语义映射模型表达式;通过提取并融合已见类训练集中图片样本的多视角视觉特征,建立多视角视觉‑语义映射模型;提取待识别图片的多视角视觉特征;将待识别图片的多视角视觉特征输入训练获得的多视角视觉‑语义映射模型,输出待识别图片的预测类别语义属性,实现多视角零样本图像识别。本发明针对零样本识别中的多视角数据融合问题提出一种有效的解决途径,通过兼顾不同视角之间的一致性原则和互补性原则,并给出与之匹配的交替方向乘子法,有效提升零样本识别的精度。

Description

一种多视角零样本图像识别方法
技术领域
本发明属于图像识别技术领域,具体涉及一种多视角零样本图像识别方法。
背景技术
模式识别技术在近十几年取得了长足的进展。传统的模式识别方法需要使用大量的标记数据来进行训练以保证模型的泛化性能。然而在许多现实场景中,对细粒度样本进行标记往往需要专门的领域知识,因此,为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题,零样本分类得到越来越多的关注。
零样本分类试图通过从已见类(有现成样本的类别)的标记样本中获取迁移知识,从而构建能够识别未见类(没有现成样本的类别,即零样本类)样本的模型。零样本分类方法通过构建一个语义嵌入空间来建立已见类和未见类之间的内在联系,并在这个空间中嵌入已见类和未见类的语义标签(视为先验信息,可以是类别属性特征,也可根据类别的相关知识或文本描述采用词嵌入等方法获取)。这样,每个类别在语义空间中都与一个类语义标签向量相关联,进而可以通过建立样本特征与类别语义标签向量之间的映射关系来获取迁移知识,从而实现对未见类样本的判别。
公开号为CN115147607A的发明申请是在视觉-语义映射模型下,通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法,降低已见类图片样本的标记噪声样本带来的负面影响。
但迄今为止,大部分零样本分类的研究仅针对单视角数据。随着计算机技术的发展,在许多现实场景中,多视角数据(多源异构数据)己经变得非常普遍,譬如,医生通常需要综合病人的多视角生理数据做出诊断,包括结构化数据以及诸如文本、磁共振成像MRI、CT等的非结构化数据。因此,如何通过提取和利用已见类别多视角数据中的信息来提升零样本分类的学习效果,是亟待解决的问题。
发明内容
发明目的:本发明的目的在于克服现有方法的不足,提供一种多视角零样本图像识别方法。
技术方案:本发明提供多视角零样本图像识别方法,包括以下步骤:
S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;
S2将所述多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,最终得到待识别图片的预测类别语义属性;
S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性。
进一步的,包括:
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型包括训练阶段,所述训练阶段包括以下步骤:
S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
S22构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型。
进一步的,包括:
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:
S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格,否则,返回到训练阶段。
进一步的,包括:
步骤S22中,构建多视角视觉-语义映射模型,实现方法为:
多视角视觉-语义映射模型的表达式为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
分别为图片样本在两个不同视角上的视觉特征,
Figure 100002_DEST_PATH_IMAGE003
分别为两个视角的视觉特征的维度,
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
为图片样本的类别语义属性,
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置。
进一步的,包括:
步骤S22中,基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:
S221建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值
Figure 100002_DEST_PATH_IMAGE010
,则损失值为零;
S222优化问题表示为:
Figure 100002_DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE013
其中,tr(*)为矩阵的迹运算;
Figure 100002_DEST_PATH_IMAGE014
为矩阵的F-范数;
Figure 100002_DEST_PATH_IMAGE015
分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,
Figure 100002_DEST_PATH_IMAGE016
为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,
Figure 100002_DEST_PATH_IMAGE017
的每一列均为所有已见类的类别语义属性的平均值,
Figure 842197DEST_PATH_IMAGE017
的列数为已见类训练集中的图片样本数量;P 1P 2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;
Figure 100002_DEST_PATH_IMAGE018
为损失函数中设定的阈值;
Figure 100002_DEST_PATH_IMAGE019
Figure 100002_DEST_PATH_IMAGE020
分别为两个视角上的松弛变量;β 1β 2C
Figure 100002_DEST_PATH_IMAGE021
为权系数。
进一步的,包括:
建立所述优化问题,具体原则包括:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
进一步的,包括:
所述步骤S23具体包括以下步骤:
S231通过引入松弛变量
Figure 100002_DEST_PATH_IMAGE022
,将公式(1)中的不等式约束改写成等价的等式约束:
Figure 100002_DEST_PATH_IMAGE024
Figure 100002_DEST_PATH_IMAGE025
S232公式(2)的增广拉格朗日函数为:
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE027
其中,
Figure 100002_DEST_PATH_IMAGE028
为罚参数;
Figure 100002_DEST_PATH_IMAGE029
是拉格朗日乘子;
S233更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE031
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
Figure 100002_DEST_PATH_IMAGE032
S234更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE034
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
Figure 100002_DEST_PATH_IMAGE035
S235更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE036
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
Figure 100002_DEST_PATH_IMAGE038
S236更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE039
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
Figure 100002_DEST_PATH_IMAGE041
S237更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE042
Figure 100002_DEST_PATH_IMAGE043
,通过奇异值分解计算H 1 X 1 T Q 1=U 1 S 1 V 1 T U 1S 1V 1分别为奇异值分解的矩阵,得到P 1=U 1 V 1 T
S238更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE044
Figure 100002_DEST_PATH_IMAGE045
,通过奇异值分解计算H 2 X 2 T Q 2=U 2 S 2 V 2 T U 2S 2V 2分别为奇异值分解的矩阵,得到P 2=U 2 V 2 T
S239更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE046
最小化公式(14),获得矩阵W 1的表达式:
Figure 100002_DEST_PATH_IMAGE047
S2310更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE048
最小化公式(16),获得矩阵W 2的表达式:
Figure 100002_DEST_PATH_IMAGE049
S2311更新
Figure 100002_DEST_PATH_IMAGE050
,同时固定其余变量和拉格朗日乘子,求解如下优化问题:
Figure 100002_DEST_PATH_IMAGE051
最小化公式(18),并考虑到
Figure 678345DEST_PATH_IMAGE050
的非负性,获得
Figure 608255DEST_PATH_IMAGE050
的更新格式:
Figure 100002_DEST_PATH_IMAGE052
S2312更新
Figure 100002_DEST_PATH_IMAGE054
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE055
(20)
最小化公式(20),并考虑到
Figure 100002_DEST_PATH_IMAGE056
的非负性,获得
Figure 506941DEST_PATH_IMAGE056
的更新格式:
Figure 100002_DEST_PATH_IMAGE057
S2313更新
Figure 100002_DEST_PATH_IMAGE059
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE060
最小化公式(22),并考虑到
Figure 686250DEST_PATH_IMAGE059
的非负性,获得
Figure 226953DEST_PATH_IMAGE059
的更新格式:
Figure 100002_DEST_PATH_IMAGE061
S2314更新
Figure 100002_DEST_PATH_IMAGE063
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE064
最小化公式(24),并考虑到
Figure 100002_DEST_PATH_IMAGE065
的非负性,获得
Figure 579744DEST_PATH_IMAGE065
的更新格式:
Figure 100002_DEST_PATH_IMAGE066
S2315更新
Figure 100002_DEST_PATH_IMAGE068
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE069
最小化公式(26),并考虑到
Figure 100002_DEST_PATH_IMAGE071
的非负性,获得
Figure 100002_DEST_PATH_IMAGE072
的更新格式:
Figure 100002_DEST_PATH_IMAGE073
S2316更新
Figure 100002_DEST_PATH_IMAGE075
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 100002_DEST_PATH_IMAGE076
最小化公式(28),并考虑到
Figure 100002_DEST_PATH_IMAGE077
的非负性,获得
Figure 665642DEST_PATH_IMAGE077
的更新格式:
Figure 100002_DEST_PATH_IMAGE078
S2317固定所有变量,更新各个拉格朗日乘子如下:
Figure 100002_DEST_PATH_IMAGE080
的数值增加
Figure 100002_DEST_PATH_IMAGE081
Figure 100002_DEST_PATH_IMAGE083
的数值增加
Figure 100002_DEST_PATH_IMAGE084
Figure 100002_DEST_PATH_IMAGE086
的数值增加
Figure 100002_DEST_PATH_IMAGE087
Figure 100002_DEST_PATH_IMAGE088
的数值增加
Figure 100002_DEST_PATH_IMAGE089
Figure 100002_DEST_PATH_IMAGE091
的数值增加
Figure 100002_DEST_PATH_IMAGE092
Figure 100002_DEST_PATH_IMAGE094
的数值增加
Figure 100002_DEST_PATH_IMAGE095
Figure 100002_DEST_PATH_IMAGE097
的数值增加
Figure 100002_DEST_PATH_IMAGE098
Figure 100002_DEST_PATH_IMAGE100
的数值增加
Figure 100002_DEST_PATH_IMAGE101
;罚参数
Figure 817400DEST_PATH_IMAGE028
更新为
Figure 100002_DEST_PATH_IMAGE103
ρμ max 为设定的参数;
S2318若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1W 2Q 1Q 2,获得最终的多视角视觉-语义映射模型,进入步骤S233。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的方法。
最后,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
有益效果:本发明提出一种多视角零样本图像识别方法,针对零样本识别中的多视角数据融合问题提出一种有效的解决途径,通过兼顾不同视角之间的一致性原则和互补性原则,并给出与之相匹配的交替方向乘子法,有效提升零样本识别的精度。
附图说明
图1为本发明所述的多视角零样本图像识别方法流程图。
具体实施方案
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供一种多视角零样本图像识别方法,包括:
获取待识别图片;
提取待识别图片的多视角视觉特征;多视角类似多模态,比如同一个事物可以用文本和图像来描述,再比如,不同角度(正面,侧面)的图像也是不同视角。将待识别图片的多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,输出待识别图片的预测类别语义属性;
利用图模型降噪算法,将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,获得待识别图片最终的类别语义属性。
进一步地,本实施例中预先训练获得多视角视觉-语义映射模型,如图1所示,通过以下步骤实现:
步骤(1),获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
步骤(2),构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;
基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
步骤(3),使用交替方向乘子法对优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型。
进一步地,本实施例中步骤(4),获取未见类测试集;
将未见类测试集输入最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
基于未见类测试集最终的类别语义属性和各个未见类的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格。
进一步地,本实施例中步骤(2),构建多视角视觉-语义映射模型,通过以下步骤实现:
多视角视觉-语义映射模型的表达式为:
Figure 427373DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE104
分别为图片样本在两个不同视角上的视觉特征,
Figure DEST_PATH_IMAGE105
分别为两个视角的视觉特征的维度,
Figure DEST_PATH_IMAGE106
为图片样本的类别语义属性,
Figure DEST_PATH_IMAGE107
分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,
Figure DEST_PATH_IMAGE108
分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置;
步骤(2),基于不同视角之间的一致性和互补性原则,建立优化问题,通过以下步骤实现:
建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值,则损失值为零。建立优化问题,具体细节如下:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本单个视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
优化问题:
Figure 535138DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE109
其中,tr(*)为矩阵的迹运算;
Figure DEST_PATH_IMAGE111
为矩阵的F-范数;
Figure DEST_PATH_IMAGE113
分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,
Figure DEST_PATH_IMAGE115
为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,
Figure DEST_PATH_IMAGE117
的每一列均为所有已见类的类别语义属性的平均值,
Figure 447730DEST_PATH_IMAGE117
的列数为已见类训练集中的图片样本数量;P 1P 2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;
Figure DEST_PATH_IMAGE118
为损失函数中设定的阈值;
Figure DEST_PATH_IMAGE119
分别为两个视角上的松弛变量;
Figure DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE122
为权系数。
进一步地,本实施例中步骤(3),使用交替方向乘子法对优化问题的变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型,通过以下步骤实现:
步骤(3-1),通过引入松弛变量
Figure 601631DEST_PATH_IMAGE022
,将公式(1)中的不等式约束改写成等价的等式约束:
Figure DEST_PATH_IMAGE123
Figure 890661DEST_PATH_IMAGE025
步骤(3-2),公式(2)的增广拉格朗日函数为:
Figure DEST_PATH_IMAGE124
Figure DEST_PATH_IMAGE125
其中,
Figure 915249DEST_PATH_IMAGE028
为罚参数;
Figure 123376DEST_PATH_IMAGE029
是拉格朗日乘子。
步骤(3-3),更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 826890DEST_PATH_IMAGE031
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
Figure 513086DEST_PATH_IMAGE032
步骤(3-4),更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 126601DEST_PATH_IMAGE034
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
Figure 505630DEST_PATH_IMAGE035
步骤(3-5),更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 696440DEST_PATH_IMAGE036
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
Figure 186327DEST_PATH_IMAGE038
步骤(3-6),更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 388769DEST_PATH_IMAGE039
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
Figure 938699DEST_PATH_IMAGE041
步骤(3-7),更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 616805DEST_PATH_IMAGE042
Figure 910383DEST_PATH_IMAGE043
通过奇异值分解计算H 1 X 1 T Q 1=U 1 S 1 V 1 T U 1S 1V 1分别为奇异值分解的矩阵,得到P 1=U 1 V 1 T
步骤(3-8),更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 498491DEST_PATH_IMAGE044
Figure 953743DEST_PATH_IMAGE045
,通过奇异值分解计算H 2 X 2 T Q 2=U 2 S 2 V 2 T U 2S 2V 2分别为奇异值分解的矩阵,得到P 2=U 2 V 2 T
步骤(3-9),更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 119145DEST_PATH_IMAGE046
最小化公式(14),获得矩阵W 1的表达式:
Figure 826201DEST_PATH_IMAGE047
步骤(3-10),更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 659028DEST_PATH_IMAGE048
最小化公式(16),获得矩阵W 2的表达式:
Figure 703425DEST_PATH_IMAGE049
步骤(3-11),更新
Figure 621702DEST_PATH_IMAGE050
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 132449DEST_PATH_IMAGE051
最小化公式(18),并考虑到
Figure 288624DEST_PATH_IMAGE050
的非负性,获得
Figure 351258DEST_PATH_IMAGE050
的更新格式:
Figure 225673DEST_PATH_IMAGE052
步骤(3-12),更新
Figure DEST_PATH_IMAGE126
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 805690DEST_PATH_IMAGE055
(20)
最小化公式(20),并考虑到
Figure 347530DEST_PATH_IMAGE126
的非负性,获得
Figure 456431DEST_PATH_IMAGE126
的更新格式:
Figure 818142DEST_PATH_IMAGE057
步骤(3-13),更新
Figure DEST_PATH_IMAGE127
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 60905DEST_PATH_IMAGE060
最小化公式(22),并考虑到
Figure 67038DEST_PATH_IMAGE127
的非负性,获得
Figure 471475DEST_PATH_IMAGE127
的更新格式:
Figure 320482DEST_PATH_IMAGE061
步骤(3-14),更新
Figure DEST_PATH_IMAGE128
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 976722DEST_PATH_IMAGE064
最小化公式(24),并考虑到
Figure 493154DEST_PATH_IMAGE128
的非负性,获得
Figure 68492DEST_PATH_IMAGE128
的更新格式:
Figure 280162DEST_PATH_IMAGE066
步骤(3-15),更新
Figure DEST_PATH_IMAGE129
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 864727DEST_PATH_IMAGE069
最小化公式(26),并考虑到
Figure 970086DEST_PATH_IMAGE129
的非负性,获得
Figure 450746DEST_PATH_IMAGE129
的更新格式:
Figure 149712DEST_PATH_IMAGE073
步骤(3-16),更新
Figure DEST_PATH_IMAGE130
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure 537968DEST_PATH_IMAGE076
最小化公式(28),并考虑到
Figure 373200DEST_PATH_IMAGE130
的非负性,获得
Figure 290340DEST_PATH_IMAGE130
的更新格式:
Figure 601236DEST_PATH_IMAGE078
步骤(3-17),固定所有变量,更新各个拉格朗日乘子如下:
Figure 262024DEST_PATH_IMAGE080
的数值增加
Figure 951763DEST_PATH_IMAGE081
Figure DEST_PATH_IMAGE131
的数值增加
Figure 570963DEST_PATH_IMAGE084
Figure 103575DEST_PATH_IMAGE086
的数值增加
Figure 443421DEST_PATH_IMAGE087
Figure 112300DEST_PATH_IMAGE088
的数值增加
Figure 636822DEST_PATH_IMAGE089
Figure 797676DEST_PATH_IMAGE091
的数值增加
Figure 800267DEST_PATH_IMAGE092
Figure 589231DEST_PATH_IMAGE094
的数值增加
Figure 284655DEST_PATH_IMAGE095
Figure 401647DEST_PATH_IMAGE097
的数值增加
Figure 207929DEST_PATH_IMAGE098
Figure 116979DEST_PATH_IMAGE100
的数值增加
Figure 717724DEST_PATH_IMAGE101
;罚参数
Figure 446646DEST_PATH_IMAGE028
更新为
Figure 931985DEST_PATH_IMAGE103
ρμ max 为设定的参数。
步骤(3-18),若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1W 2Q 1Q 2,获得最终的多视角视觉-语义映射模型,进入步骤(3-3)。
另一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
最后,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述所述方法的步骤。
实验数据及结果分析
本实施例采用的AWA数据集包含50个类别,共30485张图片样本,其中每个类别至少92张图片样本,每个类别都对应一个85维的类别语义属性向量。本发明将50个类别中的40个作为已见类,10个作为未见类。在已见类的图片样本中随机取15161个图片样本组成已见类训练集,在未见类的图片样本中随机取6985个图片样本组成未见类测试集。
本实施例采用的CUB数据集包含200个类别,共11788张图片样本,其中每个类别至少45张图片样本,每个类别都对应一个312维的类别语义属性向量。本发明将200个类别中的150个作为已见类,50个作为未见类。在已见类的图片样本中随机取6596个图片样本组成已见类训练集,在未见类的图片样本中随机取2973个图片样本组成未见类测试集。
本发明获取已见类训练集和未见类测试集中图片样本的多视角视觉特征,通过以下步骤实现:
在AWA和CUB数据集上进行测试,采用Pytorch模块中GoogleNet预训练网络模型提取图片样本的视觉特征,并将第18层作为输出层,提取后视觉特征的维度为1024。
AWA的1视角与2视角分别为图片样本中比例0.1*0.1大小的随机位置局部区域和完整的图片样本。
CUB的1视角与2视角分别为图片样本中比例0.7*0.7大小的随机位置局部区域和完整的图片样本。
将本方法与Zero-Shot Learning via Robust Latent Representation andManifold Regularization中的算法进行对比测试,得到结果如下表。
Figure DEST_PATH_IMAGE133
实验结果可以看出,本发明所提出的多视角零样本图像识别方法显著提高了未见类测试集的识别精度。从表1中可以发现,相比单视角方法,本方法的精度提升在AWA数据集上达15.34%,在CUB数据集上达15.57%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种多视角零样本图像识别方法,其特征在于,包括以下步骤:
S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;
S2将所述多视角视觉特征输入预先训练获得的多视角视觉-语义映射模型,最终得到待识别图片的预测类别语义属性;
S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性;
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型包括训练阶段,所述训练阶段包括以下步骤:
S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;
S22构建多视角视觉-语义映射模型,将图片样本的多视角视觉特征作为多视角视觉-语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉-语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;
S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉-语义映射模型中的相关参量,从而获得最终的多视角视觉-语义映射模型;
所述步骤S2中,预先训练获得的多视角视觉-语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:
S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉-语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;
S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;
S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;
S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;
S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉-语义映射模型合格,否则,返回到训练阶段;
步骤S22中,构建多视角视觉-语义映射模型,实现方法为:
多视角视觉-语义映射模型的表达式为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
分别为图片样本在两个不同视角上的视觉特征,
Figure DEST_PATH_IMAGE003
分别为两个视角的视觉特征的维度,
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
为图片样本的类别语义属性,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置;
基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:
S221建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值
Figure DEST_PATH_IMAGE010
,则损失值为零;
S222优化问题表示为:
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,tr(*)为矩阵的迹运算;
Figure DEST_PATH_IMAGE014
为矩阵的F-范数;
Figure DEST_PATH_IMAGE015
分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,
Figure DEST_PATH_IMAGE016
为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,
Figure DEST_PATH_IMAGE017
的每一列均为所有已见类的类别语义属性的平均值,
Figure 194343DEST_PATH_IMAGE017
的列数为已见类训练集中的图片样本数量;P 1P 2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;
Figure DEST_PATH_IMAGE018
为损失函数中设定的阈值;
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
分别为两个视角上的松弛变量;β 1β 2C
Figure DEST_PATH_IMAGE021
为权系数。
2.根据权利要求1所述的多视角零样本图像识别方法,其特征在于,建立所述优化问题,具体原则包括:
a)最小化图片样本的损失值;
b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;
c)根据多视角视觉-语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;
d)在多视角视觉-语义映射模型中为每一个视角添加一个潜在子空间。
3.根据权利要求1所述的多视角零样本图像识别方法,其特征在于,所述步骤S23具体包括以下步骤:
S231通过引入松弛变量
Figure DEST_PATH_IMAGE022
,将公式(1)中的不等式约束改写成等价的等式约束:
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
S232公式(2)的增广拉格朗日函数为:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
其中,
Figure DEST_PATH_IMAGE028
为罚参数;
Figure DEST_PATH_IMAGE029
是拉格朗日乘子;
S233更新矩阵B 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE031
采用拉格朗日乘子法求解公式(4),获得关于矩阵B 1的西尔维斯特方程:
Figure DEST_PATH_IMAGE032
S234更新矩阵B 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE034
采用拉格朗日乘子法求解公式(6),获得关于矩阵B 2的西尔维斯特方程:
Figure DEST_PATH_IMAGE035
S235更新矩阵Q 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE036
最小化公式(8),获得关于矩阵Q 1的西尔维斯特方程:
Figure DEST_PATH_IMAGE038
S236更新矩阵Q 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE039
最小化公式(10),获得关于矩阵Q 2的西尔维斯特方程:
Figure DEST_PATH_IMAGE041
S237更新矩阵P 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
,通过奇异值分解计算H 1 X 1 T Q 1=U 1 S 1 V 1 T U 1S 1V 1分别为奇异值分解的矩阵,得到P 1=U 1 V 1 T
S238更新矩阵P 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
,通过奇异值分解计算H 2 X 2 T Q 2=U 2 S 2 V 2 T U 2S 2V 2分别为奇异值分解的矩阵,得到P 2=U 2 V 2 T
S239更新矩阵W 1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE046
最小化公式(14),获得矩阵W 1的表达式:
Figure DEST_PATH_IMAGE047
S2310更新矩阵W 2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE048
最小化公式(16),获得矩阵W 2的表达式:
Figure DEST_PATH_IMAGE049
S2311更新
Figure DEST_PATH_IMAGE050
,同时固定其余变量和拉格朗日乘子,求解如下优化问题:
Figure DEST_PATH_IMAGE051
最小化公式(18),并考虑到
Figure 637395DEST_PATH_IMAGE050
的非负性,获得
Figure 173550DEST_PATH_IMAGE050
的更新格式:
Figure DEST_PATH_IMAGE052
S2312更新
Figure DEST_PATH_IMAGE054
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE055
(20)
最小化公式(20),并考虑到
Figure DEST_PATH_IMAGE056
的非负性,获得
Figure 456764DEST_PATH_IMAGE056
的更新格式:
Figure DEST_PATH_IMAGE057
S2313更新
Figure DEST_PATH_IMAGE059
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE060
最小化公式(22),并考虑到
Figure 702062DEST_PATH_IMAGE059
的非负性,获得
Figure 234675DEST_PATH_IMAGE059
的更新格式:
Figure DEST_PATH_IMAGE061
S2314更新
Figure DEST_PATH_IMAGE063
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE064
最小化公式(24),并考虑到
Figure DEST_PATH_IMAGE065
的非负性,获得
Figure 777783DEST_PATH_IMAGE065
的更新格式:
Figure DEST_PATH_IMAGE066
S2315更新
Figure DEST_PATH_IMAGE068
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE069
最小化公式(26),并考虑到
Figure DEST_PATH_IMAGE071
的非负性,获得
Figure DEST_PATH_IMAGE072
的更新格式:
Figure DEST_PATH_IMAGE073
S2316更新
Figure DEST_PATH_IMAGE075
,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
Figure DEST_PATH_IMAGE076
最小化公式(28),并考虑到
Figure DEST_PATH_IMAGE077
的非负性,获得
Figure 135077DEST_PATH_IMAGE077
的更新格式:
Figure DEST_PATH_IMAGE078
S2317固定所有变量,更新各个拉格朗日乘子如下:
Figure DEST_PATH_IMAGE080
的数值增加
Figure DEST_PATH_IMAGE081
Figure DEST_PATH_IMAGE083
的数值增加
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
的数值增加
Figure DEST_PATH_IMAGE087
Figure DEST_PATH_IMAGE088
的数值增加
Figure DEST_PATH_IMAGE089
Figure DEST_PATH_IMAGE091
的数值增加
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE094
的数值增加
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE097
的数值增加
Figure DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE100
的数值增加
Figure DEST_PATH_IMAGE101
;罚参数
Figure 675911DEST_PATH_IMAGE028
更新为
Figure DEST_PATH_IMAGE103
ρμ max 为设定的参数;
S2318若各个变量在两次连续迭代中的变化量均分别小于定值,则结束运行,确定多视角视觉-语义映射模型中的W 1W 2Q 1Q 2,获得最终的多视角视觉-语义映射模型,进入步骤S233。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-3任一项所述的方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述权利要求1-3任一项所述的方法。
CN202211390481.2A 2022-11-08 2022-11-08 一种多视角零样本图像识别方法 Active CN115424096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211390481.2A CN115424096B (zh) 2022-11-08 2022-11-08 一种多视角零样本图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211390481.2A CN115424096B (zh) 2022-11-08 2022-11-08 一种多视角零样本图像识别方法

Publications (2)

Publication Number Publication Date
CN115424096A CN115424096A (zh) 2022-12-02
CN115424096B true CN115424096B (zh) 2023-01-31

Family

ID=84207416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211390481.2A Active CN115424096B (zh) 2022-11-08 2022-11-08 一种多视角零样本图像识别方法

Country Status (1)

Country Link
CN (1) CN115424096B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117541882B (zh) * 2024-01-05 2024-04-19 南京信息工程大学 一种基于实例的多视角视觉融合转导式零样本分类方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485272A (zh) * 2016-09-30 2017-03-08 天津大学 基于流形约束的跨模态嵌入的零样本分类方法
CN108376267A (zh) * 2018-03-26 2018-08-07 天津大学 一种基于类别转移的零样本分类方法
WO2018161217A1 (en) * 2017-03-06 2018-09-13 Nokia Technologies Oy A transductive and/or adaptive max margin zero-shot learning method and system
WO2019055114A1 (en) * 2017-09-12 2019-03-21 Hrl Laboratories, Llc VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS
CN110097095A (zh) * 2019-04-15 2019-08-06 天津大学 一种基于多视图生成对抗网络的零样本分类方法
CN111460222A (zh) * 2020-02-17 2020-07-28 天津大学 一种基于多视角低秩分解的短视频多标签分类方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113361646A (zh) * 2021-07-01 2021-09-07 中国科学技术大学 基于语义信息保留的广义零样本图像识别方法及模型
CN113806527A (zh) * 2020-06-16 2021-12-17 百度(美国)有限责任公司 具有多视图迁移学习的跨语言无监督分类
CN114399649A (zh) * 2021-11-30 2022-04-26 西安交通大学 一种基于学习图的快速多视图半监督学习方法及系统
CN115131781A (zh) * 2022-06-23 2022-09-30 北方民族大学 基于判别性特征引导的零样本三维模型分类方法
CN115147607A (zh) * 2022-09-05 2022-10-04 南京信息工程大学 一种基于凸优化理论的抗噪声零样本图像分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930841B (zh) * 2016-05-13 2018-01-26 百度在线网络技术(北京)有限公司 对图像进行自动语义标注的方法、装置与计算机设备
CN106203483B (zh) * 2016-06-29 2019-06-11 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN111461323B (zh) * 2020-03-13 2022-07-29 中国科学技术大学 一种图像识别方法及装置
CN113111917B (zh) * 2021-03-16 2022-07-01 重庆邮电大学 一种基于双重自编码器的零样本图像分类方法及装置
CN113139591B (zh) * 2021-04-14 2023-02-24 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485272A (zh) * 2016-09-30 2017-03-08 天津大学 基于流形约束的跨模态嵌入的零样本分类方法
WO2018161217A1 (en) * 2017-03-06 2018-09-13 Nokia Technologies Oy A transductive and/or adaptive max margin zero-shot learning method and system
CN110431565A (zh) * 2017-03-06 2019-11-08 诺基亚技术有限公司 直推式和/或自适应最大边界零样本学习方法和系统
WO2019055114A1 (en) * 2017-09-12 2019-03-21 Hrl Laboratories, Llc VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS
CN108376267A (zh) * 2018-03-26 2018-08-07 天津大学 一种基于类别转移的零样本分类方法
CN110097095A (zh) * 2019-04-15 2019-08-06 天津大学 一种基于多视图生成对抗网络的零样本分类方法
CN111460222A (zh) * 2020-02-17 2020-07-28 天津大学 一种基于多视角低秩分解的短视频多标签分类方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113806527A (zh) * 2020-06-16 2021-12-17 百度(美国)有限责任公司 具有多视图迁移学习的跨语言无监督分类
CN113361646A (zh) * 2021-07-01 2021-09-07 中国科学技术大学 基于语义信息保留的广义零样本图像识别方法及模型
CN114399649A (zh) * 2021-11-30 2022-04-26 西安交通大学 一种基于学习图的快速多视图半监督学习方法及系统
CN115131781A (zh) * 2022-06-23 2022-09-30 北方民族大学 基于判别性特征引导的零样本三维模型分类方法
CN115147607A (zh) * 2022-09-05 2022-10-04 南京信息工程大学 一种基于凸优化理论的抗噪声零样本图像分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Transductive Multi-view Zero-Shot Learning;Yanwei Fu等;《arXiv:1501.04560v2》;20150303;第1-17页 *
Zero-Shot Learning via Robust Latent Representation and Manifold Regularization;Min Meng等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20190430;第28卷(第4期);第1824-1836页 *
基于深度生成模型的零样本学习;周翔;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第(2020)01期);I138-1777 *
基于类别原型及深度学习的零样本学习研究与应用;欧光金;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220115(第(2022)01期);I138-2806 *
零样本学习综述;王泽深等;《计算机工程与应用》;20211231;第57卷(第19期);第1-17页 *

Also Published As

Publication number Publication date
CN115424096A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
Frolov et al. Adversarial text-to-image synthesis: A review
CN115424096B (zh) 一种多视角零样本图像识别方法
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
Zhao et al. Deep non-negative matrix factorization architecture based on underlying basis images learning
CN114911914A (zh) 一种跨模态图文检索方法
CN113627482B (zh) 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
Sui et al. Research on application of multimedia image processing technology based on wavelet transform
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
Shi et al. CAN-GAN: Conditioned-attention normalized GAN for face age synthesis
CN111985532B (zh) 一种场景级上下文感知的情感识别深度网络方法
CN112818889A (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
Yuan et al. Compositional scene representation learning via reconstruction: A survey
CN107506419B (zh) 一种基于异质上下文感知的推荐方法
CN113436754A (zh) 一种智能终端问诊的医疗软件及其方法
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN117094395B (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN114048314A (zh) 一种自然语言隐写分析方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN117635275A (zh) 基于大数据的智能电商运营商品管理平台及方法
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN115222998B (zh) 一种图像分类方法
CN115982384A (zh) 一种工业设计领域产品知识图谱构建方法及系统
CN115640418A (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN112560712A (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant