CN115131781A - 基于判别性特征引导的零样本三维模型分类方法 - Google Patents
基于判别性特征引导的零样本三维模型分类方法 Download PDFInfo
- Publication number
- CN115131781A CN115131781A CN202210716713.2A CN202210716713A CN115131781A CN 115131781 A CN115131781 A CN 115131781A CN 202210716713 A CN202210716713 A CN 202210716713A CN 115131781 A CN115131781 A CN 115131781A
- Authority
- CN
- China
- Prior art keywords
- dimensional model
- visual
- feature
- discriminant
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于判别性特征引导的零样本三维模型分类方法,包括:1)数据输入及初始特征提取,一部分以三维模型数据集的多视图表征为输入,再经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征;3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;4)将判别性视觉特征和伪视觉特征经联合损失模块对两者联合约束,实现语义‑视觉特征的良好对齐,进而缩小语义‑视觉域间差异性。本发明针对零样本三维模型分类任务,分析并论证了局部判别性特征对其的重要作用,实现了更好的性能。
Description
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于判别性特征引导的零样本三维模型分类方法。
背景技术
相比于二维图像,三维模型具有更丰富的几何信息和空间结构特征,更贴近与人类生活的显示场景,在医疗建模、电影娱乐、智能导航等领域都有广泛的应用。得益于人工智能技术的快速发展,基于深度学习的三维模型分类方法已经取得了显著的成果。以视图和点云为输入的三维模型分类算法在数据集ModelNet10/ModelNet40上取得了超越90%的分类准确率。然而这些方法都基于监督学习,要求训练集是包含所有待识别类的大规模、详细标注的数据集。事实上,随着三维模型种类的不断增长,用于训练的三维模型不可能包含所有的类别;且训练标注需要极大的人力和物力成本。因此,如何在样本标签数据不足甚至完全缺失的情况下利用已有知识对未知类别进行识别,已成为当前研究中亟需解决的问题。为此,学者们提出了零样本学习,以模仿人类仅根据概念描述完成对未曾见过对象的准确识别。基于零样本学习的三维模型分类是3D视觉领域的一个新兴话题,旨在对未经训练的三维模型进行正确分类。对于输入三维模型及其类标签,现有方法主要是通过视觉提取网络提取三维模型的全局特征描述符,通过语义特征学习网络提取类标签的语义特征向量,然后基于一致性约束将两者映射到同一特征空间以捕捉语义-视觉跨域联系,进而完成对未知类的识别。这类方法取得了一定的成效,但是存在重视全局而忽略局部,强制约束而无视语义-视觉跨域差异性的问题,导致整体性能较低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于判别性特征引导的零样本三维模型分类方法,针对于零样本三维模型分类任务,分析并论证了局部判别性特征对其的重要作用,实现了更好的性能,完成零样本三维模型的准确分类。
为实现上述目的,本发明所提供的技术方案为:基于判别性特征引导的零样本三维模型分类方法,包括以下步骤:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
进一步,在步骤1)中,三维模型数据集其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量;
输入训练集中三维模型以及类标签,表示 为训练集中第i个三维模型,为三维模型对应的类标签;首先将三维模型输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图 为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
进一步,在步骤2)中,所述判别性视觉特征提取模块的具体情况如下:
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图和三维模型的判别性注意力图进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域其过程如下公式(3):
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征其过程如下公式(4):
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
进一步,在步骤3)中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
进一步,在步骤4)中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征和真实视觉特征Fi输入判别器进行0/1判别,使得不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
本发明与现有技术相比,具有如下优点与有益效果:
1、零样本学习是通过已知类泛化到未知类的过程,要求已知类和未知类具有一定的相关性,且这种相关性更多的体现在于局部细粒度上。现有方法往往利用各种特征提取网络捕获三维模型的全局描述符,难以刻画其局部判别性属性特征,存在视觉特征提取不充分的问题。针对此问题,本发明提出了判别性视觉特征提取模块,首先学习并生成跨视图的注意力图,然后利用双线性池化同步到每个视图,最后将多个视图的判别性特征进行融合,以此增强对三维模型的局部判别性视觉特征的获取,生成三维模型的真实视觉特征。
2、在视觉-语义特征映射方面,现有方法简单地利用一致性损失实现语义特征与视觉特征的强制对齐,忽略了语义特征-视觉特征间的巨大的域间差异性(信息冗余和特征对齐),导致映射效果不佳,识别性能较差的问题。针对此问题,本发明设计了伪视觉生成模块,类比人类认知原理,建立语义描述筛选子模块,自动捕捉对象间的关联语义特征;建立语义特征-视觉图像的伪视觉生成器,根据关联语义特征生成描述对象的伪视觉特征,支持语义-视觉特征的平滑映射。
3、本发明构建了语义-内容双层感知的联合损失模块,包含语义判别损失和内容感知损失;其中,语义判别损失确保了伪视觉特征和真实视觉特征在全局认识上的一致性;内容感知损失则进一步实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐;两者共同作用,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
附图说明
图1为本发明方法(称为DFG-ZS3D)的架构图。
图2为判别性视觉特征提取模块示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1和图2所示,本实施例提供了基于判别性特征引导的零样本三维模型分类方法,其具体情况如下:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;具体如下:
三维模型数据集其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量,一般都是选择12张视图代表一个三维模型;
输入训练集中三维模型以及类标签,表示 为训练集中第i个三维模型,为三维模型对应的类标签;首先将三维模型输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图 为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;其中,所述判别性视觉特征提取模块的具体情况如下:
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图和三维模型的判别性注意力图进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域其过程如下公式(3):
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征其过程如下公式(4):
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;其中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:经初始语义特征提取网络构建的词向量Wi包含一些非判别性特征,存在信息冗余,直接以此为输入会给模型学习引入过多的噪声;为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性;其中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征和真实视觉特征Fi输入判别器(discriminator)进行0/1判别,使得不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
实验配置:本文实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM,软件环境为Windows10 x64+CUDA 10.0+CuDNN 7.1+Pytorch 1.4.0+python 3.6+Matlab。
数据集:
三维数据集,当前公开的零样本三维模型数据集有ZS3D和Ali。为充分测试算法的有效性和普适性,实验中同时选取以上数据集。
ZS3D数据集,ZS3D是一个以Shrec2014和Shrec2015为数据源构建的零样本三维模型数据集,共包含来自41个类的1677个分刚性三维模型,其中隶属与33个类的1493个模型用作训练,隶属于另外8个类的184个模型用作测试。
Ali数据集,Ali包含了三个子数据集,均利用ModelNet40中的30个类5976个三维模型作为训练集,分别以ModelNet10中的10个类908个三维模型,McGill中的14个类301个三维模型以及Shrec2015中的30个类720个三维模型作为测试集。
语义数据集,GooleNews语料库覆盖了大约300万的词汇和短语,为零样本学习提供了充足的语义数据源。实验中,首先将GoogleNews语料库作为基准训练得到Word2Vec模型,然后将对应三维模型数据集中所有类的表爱你输入Word2vec模型得到类的词向量表示,捕捉词向量之间的而予以相关性,建立已知类和未知类的语义关联。
通过在ZS3D和Ali数据集上进行对比实验充分证明了该方法的有效性和普适性,实验结果如表1、表2所示。
表1在ZS3D数据集上对比实验
表2在Ali数据集上对比实验(以ModelNet40为训练集)
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.基于判别性特征引导的零样本三维模型分类方法,其特征在于,包括以下步骤:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
2.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤1)中,三维模型数据集其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量;
输入训练集中三维模型以及类标签,表示 为训练集中第i个三维模型,为三维模型对应的类标签;首先将三维模型输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图 为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
3.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤2)中,所述判别性视觉特征提取模块的具体情况如下:
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图和三维模型的判别性注意力图进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域其过程如下公式(3):
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征其过程如下公式(4):
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
4.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤3)中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
5.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤4)中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征和真实视觉特征Fi输入判别器进行0/1判别,使得不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210716713.2A CN115131781A (zh) | 2022-06-23 | 2022-06-23 | 基于判别性特征引导的零样本三维模型分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210716713.2A CN115131781A (zh) | 2022-06-23 | 2022-06-23 | 基于判别性特征引导的零样本三维模型分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115131781A true CN115131781A (zh) | 2022-09-30 |
Family
ID=83380551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210716713.2A Pending CN115131781A (zh) | 2022-06-23 | 2022-06-23 | 基于判别性特征引导的零样本三维模型分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
-
2022
- 2022-06-23 CN CN202210716713.2A patent/CN115131781A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424096A (zh) * | 2022-11-08 | 2022-12-02 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
CN115424096B (zh) * | 2022-11-08 | 2023-01-31 | 南京信息工程大学 | 一种多视角零样本图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN112200317B (zh) | 多模态知识图谱构建方法 | |
Senocak et al. | Learning to localize sound source in visual scenes | |
Sah et al. | Semantic text summarization of long videos | |
Peng et al. | Learning multi-region features for vehicle re-identification with context-based ranking method | |
CN112085120B (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN111428650B (zh) | 一种基于sp-pggan风格迁移的行人重识别方法 | |
Fu et al. | Learning semantic-aware spatial-temporal attention for interpretable action recognition | |
CN115131781A (zh) | 基于判别性特征引导的零样本三维模型分类方法 | |
Chen et al. | Unsupervised learning of probabilistic object models (POMs) for object classification, segmentation, and recognition using knowledge propagation | |
CN117392289A (zh) | 基于ai语音自动生成案发现场视频的方法和系统 | |
Li et al. | Caption generation from road images for traffic scene modeling | |
Shi et al. | Unsupervised sounding object localization with bottom-up and top-down attention | |
CN118051630A (zh) | 一种基于多模态共识感知和动量对比的图文检索系统及其方法 | |
Qian et al. | URRNet: A Unified Relational Reasoning Network for Vehicle Re-Identification | |
Khorrami et al. | Evaluation of audio-visual alignments in visually grounded speech models | |
CN111523430B (zh) | 基于ucl的可定制交互式视频制作方法与装置 | |
Li et al. | Viewpoint recommendation based on object-oriented 3D scene reconstruction | |
Tilak et al. | Visual entity linking | |
Wang et al. | Listen, look, and find the one: Robust person search with multimodality index | |
Chum et al. | Web scale image clustering | |
Wu et al. | DOrA: 3D Visual Grounding with Order-Aware Referring | |
Hou et al. | Unlocking a multimodal archive of Southern Chinese martial arts through embodied cues | |
Raboh et al. | Learning latent scene-graph representations for referring relationships | |
Zhuang et al. | A Survey of Point Cloud Completion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |