CN112347932A - 一种点云-多视图融合的三维模型识别方法 - Google Patents

一种点云-多视图融合的三维模型识别方法 Download PDF

Info

Publication number
CN112347932A
CN112347932A CN202011233224.9A CN202011233224A CN112347932A CN 112347932 A CN112347932 A CN 112347932A CN 202011233224 A CN202011233224 A CN 202011233224A CN 112347932 A CN112347932 A CN 112347932A
Authority
CN
China
Prior art keywords
view
point cloud
dimensional model
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011233224.9A
Other languages
English (en)
Other versions
CN112347932B (zh
Inventor
彭勃
宋嘉慧
雷建军
于增瑞
秦天一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011233224.9A priority Critical patent/CN112347932B/zh
Publication of CN112347932A publication Critical patent/CN112347932A/zh
Application granted granted Critical
Publication of CN112347932B publication Critical patent/CN112347932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种点云‑多视图融合的三维模型识别方法,包括:通过模态间交互的注意力模块,实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中;构建模态间注意力增强模块,用于通过一个残差结构来获得增强的多视图特征和点云特征;构建基于视图上下文的注意力增强模块,用于在多视图序列中挖掘上下文信息,获取三维模型的空间结构信息;构建点云特征和多视图特征融合模块,用于融合增强的点云特征以及进一步增强的多视图特征,得到三维模型特征表示;训练点云‑多视图融合的三维模型识别网络,采用三维模型分类任务评估三维模型的识别性能。本发明联合优化点云特征和多视图特征学习、融合以及增强过程,提升三维模型识别性能。

Description

一种点云-多视图融合的三维模型识别方法
技术领域
本发明涉及三维模型识别、计算机视觉领域,尤其涉及一种点云-多视图融合的三维模型识别方法。
背景技术
随着多媒体技术的发展,三维模型的数据量急剧增长。作为计算机视觉领域的基础问题之一,三维模型识别的目标旨在通过学习三维模型数据的特征表示,以理解三维模型的内容。目前,三维模型识别技术已被广泛应用于三维模型生成、自动驾驶以及虚拟现实等领域。不同于二维图像,三维模型可由体素、多视图和点云等不同模态数据表示,不同模态的数据能够从不同的角度描述三维模型的特点。因此,有效地利用多模态数据特性以获得更具辨析力的特征表示,从而获得较好的三维模型识别性能已成为计算机视觉领域的热门研究方向。
近年来,研究人员提出了许多基于单模态数据的三维模型识别方法。在这些方法中,基于体素数据的方法通常需要很高的存储成本和计算成本。而基于点云数据的方法虽然能够准确地表征三维模型的空间结构信息,但其缺乏三维模型的颜色信息和纹理信息。相反地,基于多视图数据的方法能够很好地表示三维模型的颜色信息及纹理信息,但其对于三维模型的空间结构信息表征能力不足。上述基于单模态数据的三维模型识别方法通常仅关注于提取某一模态数据的特征表示,忽略了多模态数据的综合表示能力。因此,如何有效地利用多模态数据特性学习一个更全面的三维模型特征是提高三维模型识别性能的有效手段。
目前,已有工作关注于综合利用三维模型的多模态数据表示,以提高三维模型数据的表示能力。例如,Hegde等人提出了FusionNet网络来联合学习体素数据和多视图数据的统一特征表示。You等人提出了一种用于三维模型识别的点云和多视图联合卷积网络PVNet,该网络利用全局视图特征来指导点云的局部特征提取。然而,上述方法没有考虑到多视图序列中所包含的三维模型空间信息。
因此,如何有效地挖掘不同模态数据之间的相关性,根据相关性及各模态自身特点进一步强化不同模态的特征,并将多模态数据特征聚合成更具鉴别性的特征表示,将有助于表征三维模型的空间结构信息和表面细节信息,从而提高三维模型识别任务的性能。
发明内容
为了挖掘点云数据和多视图数据间的相关性,并有效地将点云数据特征和多视图数据特征聚合成更有鉴别性的特征表示,本发明提出了一种点云-多视图融合的三维模型识别方法,以联合优化点云特征和多视图特征的学习、融合以及增强过程,从而提升三维模型识别性能,详见下文描述:
一种点云-多视图融合的三维模型识别方法,所述方法包括:
构建点云特征学习网络和多视图特征学习网络,以分别学习点云特征和多视图特征;
通过模态间交互的注意力模块,实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中;
构建模态间注意力增强模块,用于通过一个残差结构来获得增强的多视图特征和点云特征;
构建基于视图上下文的注意力增强模块,用于在多视图序列中挖掘上下文信息,获取三维模型的空间结构信息;
构建点云特征和多视图特征融合模块,用于融合增强的点云特征以及进一步增强的多视图特征,得到三维模型特征表示;
训练点云-多视图融合的三维模型识别网络,采用三维模型分类任务评估三维模型的识别性能。
其中,所述通过模态间交互的注意力模块,实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中具体为:
将点云特征P∈Rc复制n次得到与多视图特征V∈Rn×c同尺寸的点云特征Pn∈Rn×c,并与多视图特征V沿通道维度进行级联;
基于级联后的特征,利用多层感知器将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示;
采用sigmoid函数计算模态间交互的注意力掩膜:
ATTinter-modality=sigmoid(MLP1(C(Pn,V)))
其中,C表示级联操作,MLP1表示多层感知器,ATTinter-modality∈Rn×c表示模态间交互的注意力掩膜。
进一步地,所述模态间注意力增强模块具体为:
将注意力掩膜与不同模态特征进行元素级相乘,并将相乘后的结果与对应模态特征进行元素级相加以获得增强的各模态特征,计算公式为:
Figure BDA0002765892960000021
Figure BDA0002765892960000031
其中,
Figure BDA0002765892960000032
表示元素级相乘操作,
Figure BDA0002765892960000033
表示元素级相加操作,Ev和Ep表示两种模态增强的特征表示。
其中,所述基于视图上下文的注意力增强模块具体为:
基于增强的多视图特征Ev,利用长短时序列网络进一步提取多视图图像的上下文特征表示,并利用softmax函数计算包含多视图上下文信息的注意力得分ATTview-context
ATTview-context=softmax(fFC(LSTM(Ev)))
其中,LSTM表示长短时序列网络,fFC(·)表示全连接层,softmax函数用于对fFC(·)的输出进行归一化处理;
Figure BDA0002765892960000034
其中,Ev'表示进一步增强的多视图特征。
进一步地,所述点云特征和多视图特征融合模块具体为:
F3D=MLP2(C(Ep,Ev'))
其中,F3D代表三维模型的特征表示,MLP2表示多层感知器。
本发明提供的技术方案的有益效果是:
1、考虑到不同模态数据之间的相关性,本发明设计了点云-多视图融合的三维模型识别网络,通过渐进地融合并优化两个模态数据的特征,最终得到更有鉴别力的三维模型特征表达,实现了点云-多视图融合的三维模型识别;
2、为了增强点云特征和多视图特征,本发明提出了模态间注意力增强模块,以将两种模态数据间的相关信息有效融合到模态间交互的注意力掩膜中;
3、为了获得更具鉴别力的三维模型特征表达,本发明设计了基于视图上下文的注意力增强模块,以获取三维模型更全面的空间信息。
附图说明
图1为一种点云-多视图融合的三维模型识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种点云-多视图融合的三维模型识别方法,参见图1,该方法包括以下步骤:
101:构建不同模态的特征学习网络;
首先,构建不同模态的特征学习网络,包括:点云特征学习网络和多视图特征学习网络,以分别学习点云特征和多视图特征。多视图特征学习网络为一种基于深度学习的二维图像特征提取网络,本发明实施例采用MVCNN(多视图卷积神经网络)网络学习多视图数据中不同视图的特征表示,然后将学习到的多视图特征进行级联得到三维模型的多视图特征V∈Rn×c,其中,V为三维模型的多视图特征,R为全体实数定义域,n为多视图数据视图的个数,c为每个视图特征的维度。点云特征学习网络为一种基于深度学习的点云特征提取网络,本发明实施例采用DGCNN(动态图卷积神经网络)网络用于学习点云数据的全局特征信息P∈Rc,其中,P为点云数据的全局特征信息。
102:设计模态间交互的注意力模块;
本发明实施例通过特征学习网络获取了点云特征P∈Rc和多视图特征V∈Rn×c之后,为了有效地探索多视图数据与点云数据之间的相关性,首先将点云特征P∈Rc复制n次得到与多视图特征V∈Rn×c同尺寸的点云特征Pn∈Rn×c,并与多视图特征V沿通道维度进行级联。
基于级联后的特征,利用多层感知器将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示。然后,采用sigmoid函数计算模态间交互的注意力掩膜,公式表示为:
ATTinter-modality=sigmoid(MLP1(C(Pn,V))) (1)
其中,C表示级联操作,旨在将多视图特征V∈Rn×c和重复点云特征Pn∈Rn×c沿通道维进行融合。MLP1表示多层感知器,用于自适应地将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示。ATTinter-modality∈Rn×c表示模态间交互的注意力掩膜。
通过模态间交互的注意力模块,实现了将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中。接下来,通过对多模态数据特征分配注意力分数,该注意力掩膜将用于进一步细化多视图特征和点云特征。
103:设计模态间注意力增强模块;
本发明实施例在模态间交互的注意力模块的基础上,引入了模态间注意力增强模块,以获得两种模态数据增强后的特征表示。
具体来说,在获得模态间交互的注意力掩膜ATTinter-modality∈Rn×c的基础上,模态间注意力增强模块通过一个残差结构来获得增强的多视图特征Ev∈Rn×c和点云特征Ep∈Rn ×c
具体实现过程为:将注意力掩膜与不同模态特征进行元素级相乘,并将相乘后的结果与对应模态特征进行元素级相加以获得增强的各模态特征,计算公式为:
Figure BDA0002765892960000051
其中,
Figure BDA0002765892960000052
表示元素级相乘操作,
Figure BDA0002765892960000053
表示元素级相加操作。通过模态间注意力增强模块,最终实现了将点云数据和多视点数据之间的相关信息集成到两种模态增强的特征表示Ev和Ep中。
104:设计基于视图上下文的注意力增强模块;
为了进一步利用三维模型的空间信息,提出了基于视图上下文的注意力增强模块,以提高最终三维模型特征表示的表征能力。不同于点云数据,多视图模态数据采用具有空间顺序的多个视图的图像来描述三维模型的空间结构。因此,在多视图序列中挖掘上下文信息,有利于获取三维模型更全面的空间结构信息。
在基于视图上下文的注意力增强模块中,首先,基于增强的多视图特征Ev,利用长短时序列网络进一步提取多视图图像的上下文特征表示,并利用softmax函数计算包含多视图上下文信息的注意力得分ATTview-context,公式计算如下:
ATTview-context=softmax(fFC(LSTM(Ev))) (4)
其中,LSTM表示长短时序列网络,fFC(·)表示全连接层,softmax函数用于对fFC(·)的输出进行归一化处理,以获取视图上下文的注意得分ATTview-context
Figure BDA0002765892960000054
其中,Ev'表示进一步增强的多视图特征。
105:设计点云特征和多视图特征的融合模块;
为了有效挖掘三维模型更全面的空间信息,设计点云特征和多视图特征融合模块以融合增强的点云特征以及进一步增强的多视图特征,从而得到最终更具鉴别力的三维模型特征表示,具体公式表示为:
F3D=MLP2(C(Ep,Ev')) (6)
其中,F3D代表三维模型的特征表示。MLP2表示多层感知器。
106:训练点云-多视图融合的三维模型识别网络;
本发明实施例提出的点云-多视图融合的三维模型识别网络包括不同模态的特征学习网络、模态间交互的注意力模块、模态间注意力增强模块、基于视图上下文的注意力增强模块以及点云特征和多视图特征融合模块。
在本发明实施例所提出的方法中,网络的输入为12张多视图数据和包含1024个点的点云数据。在网络训练阶段,本发明实施例采用在MdoelNet40数据集上预训练的DGCNN和MVCNN模型参数来分别初始化点云和多视图模态的特征提取网络。在三维模型特征表示F3D之后应用softmax分类器训练整体网络,以获得能够提取有效三维模型特征表示的点云-多视图融合网络。
107:采用三维模型分类任务评估三维模型的识别性能。
在网络训练结束后,本发明实施例采用三维模型分类任务来评估三维模型的识别性能。将测试集中的三维模型输入训练后的点云-多视图融合的三维模型识别网络中,网络输出各个三维模型的类别标签,并与三维模型的真实类别标签进行比较以判断是否分类正确。最后,统计分类准确率用于评估点云-多视图融合的三维模型识别网络的性能。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种点云-多视图融合的三维模型识别方法,其特征在于,所述方法包括:
构建点云特征学习网络和多视图特征学习网络,以分别学习点云特征和多视图特征;
通过模态间交互的注意力模块,实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中;
构建模态间注意力增强模块,用于通过一个残差结构来获得增强的多视图特征和点云特征;
构建基于视图上下文的注意力增强模块,用于在多视图序列中挖掘上下文信息,获取三维模型的空间结构信息;
构建点云特征和多视图特征融合模块,用于融合增强的点云特征以及进一步增强的多视图特征,得到三维模型特征表示;
训练点云-多视图融合的三维模型识别网络,采用三维模型分类任务评估三维模型的识别性能。
2.根据权利要求1所述的一种点云-多视图融合的三维模型识别方法,其特征在于,所述通过模态间交互的注意力模块,实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中具体为:
将点云特征P∈Rc复制n次得到与多视图特征V∈Rn×c同尺寸的点云特征Pn∈Rn×c,并与多视图特征V沿通道维度进行级联;
基于级联后的特征,利用多层感知器将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示;
采用sigmoid函数计算模态间交互的注意力掩膜:
ATTinter-modality=sigmoid(MLP1(C(Pn,V)))
其中,C表示级联操作,MLP1表示多层感知器,ATTinter-modality∈Rn×c表示模态间交互的注意力掩膜。
3.根据权利要求1所述的一种点云-多视图融合的三维模型识别方法,其特征在于,所述模态间注意力增强模块具体为:
将注意力掩膜与不同模态特征进行元素级相乘,并将相乘后的结果与对应模态特征进行元素级相加以获得增强的各模态特征,计算公式为:
Figure FDA0002765892950000011
其中,
Figure FDA0002765892950000012
表示元素级相乘操作,
Figure FDA0002765892950000013
表示元素级相加操作,Ev和Ep表示两种模态增强的特征表示。
4.根据权利要求1所述的一种点云-多视图融合的三维模型识别方法,其特征在于,所述基于视图上下文的注意力增强模块具体为:
基于增强的多视图特征Ev,利用长短时序列网络进一步提取多视图图像的上下文特征表示,并利用softmax函数计算包含多视图上下文信息的注意力得分ATTview-context
ATTview-context=softmax(fFC(LSTM(Ev)))
其中,LSTM表示长短时序列网络,fFC(·)表示全连接层,softmax函数用于对fFC(·)的输出进行归一化处理;
Figure FDA0002765892950000021
其中,E′v表示进一步增强的多视图特征。
5.根据权利要求1所述的一种点云-多视图融合的三维模型识别方法,其特征在于,所述点云特征和多视图特征融合模块具体为:
F3D=MLP2(C(Ep,E′v))
其中,F3D代表三维模型的特征表示,MLP2表示多层感知器。
CN202011233224.9A 2020-11-06 2020-11-06 一种点云-多视图融合的三维模型识别方法 Active CN112347932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011233224.9A CN112347932B (zh) 2020-11-06 2020-11-06 一种点云-多视图融合的三维模型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011233224.9A CN112347932B (zh) 2020-11-06 2020-11-06 一种点云-多视图融合的三维模型识别方法

Publications (2)

Publication Number Publication Date
CN112347932A true CN112347932A (zh) 2021-02-09
CN112347932B CN112347932B (zh) 2023-01-17

Family

ID=74428722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011233224.9A Active CN112347932B (zh) 2020-11-06 2020-11-06 一种点云-多视图融合的三维模型识别方法

Country Status (1)

Country Link
CN (1) CN112347932B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096239A (zh) * 2021-04-07 2021-07-09 天津大学 一种基于深度学习的三维点云重建方法
CN113657522A (zh) * 2021-08-23 2021-11-16 天津大学 一种多视图三维模型聚类方法
CN113838113A (zh) * 2021-09-22 2021-12-24 京东鲲鹏(江苏)科技有限公司 三维物体识别方法和装置
CN116204850A (zh) * 2023-03-14 2023-06-02 匀熵智能科技(无锡)有限公司 基于动态梯度和多视图协同注意力的多模态情感分析方法
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570522A (zh) * 2019-08-22 2019-12-13 天津大学 一种多视图三维重建方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN111191729A (zh) * 2019-12-31 2020-05-22 杭州电子科技大学 一种基于多模态特征融合的三维对象融合特征表示方法
CN111460193A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于多模态信息融合的三维模型分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570522A (zh) * 2019-08-22 2019-12-13 天津大学 一种多视图三维重建方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN111191729A (zh) * 2019-12-31 2020-05-22 杭州电子科技大学 一种基于多模态特征融合的三维对象融合特征表示方法
CN111460193A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于多模态信息融合的三维模型分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. CONCHA 等: "Single-View and Multi-View Depth Fusion", 《IEEE ROBOTICS AND AUTOMATION LETTERS》 *
GUOJUN WANG 等: "Multi-View Adaptive Fusion Network for 3D Object Detection", 《ARXIV》 *
HAOXUAN YOU 等: "PVNet: A Joint Convolutional Network of Point Cloud and Multi-View for 3D Shape Recognition", 《ARXIV》 *
YAXIN ZHAO DENG 等: "MANet: Multimodal Attention Network based Point-View fusion for 3D Shape Recognition", 《ARXIV》 *
杨军 等: "多特征融合的三维模型识别与分割", 《西安电子科技大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096239A (zh) * 2021-04-07 2021-07-09 天津大学 一种基于深度学习的三维点云重建方法
CN113657522A (zh) * 2021-08-23 2021-11-16 天津大学 一种多视图三维模型聚类方法
CN113657522B (zh) * 2021-08-23 2023-11-24 天津大学 一种多视图三维模型聚类方法
CN113838113A (zh) * 2021-09-22 2021-12-24 京东鲲鹏(江苏)科技有限公司 三维物体识别方法和装置
CN113838113B (zh) * 2021-09-22 2024-02-13 京东鲲鹏(江苏)科技有限公司 三维物体识别方法和装置
CN116204850A (zh) * 2023-03-14 2023-06-02 匀熵智能科技(无锡)有限公司 基于动态梯度和多视图协同注意力的多模态情感分析方法
CN116204850B (zh) * 2023-03-14 2023-11-03 匀熵智能科技(无锡)有限公司 基于动态梯度和多视图协同注意力的多模态情感分析方法
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Also Published As

Publication number Publication date
CN112347932B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN112347932B (zh) 一种点云-多视图融合的三维模型识别方法
Huang et al. Autonomous driving with deep learning: A survey of state-of-art technologies
US20230229919A1 (en) Learning to generate synthetic datasets for training neural networks
Arevalo et al. Gated multimodal networks
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN113628294A (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN114092707A (zh) 一种图像文本视觉问答方法、系统及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
Song et al. Learning hybrid semantic affinity for point cloud segmentation
US20240185602A1 (en) Cross-Modal Processing For Vision And Language
Le et al. An overview of deep learning in industry
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN115223020A (zh) 图像处理方法、装置、电子设备以及可读存储介质
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Jedoui et al. Deep Bayesian active learning for multiple correct outputs
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Liu et al. Road segmentation with image-LiDAR data fusion in deep neural network
Yang et al. FADE: Feature aggregation for depth estimation with multi-view stereo
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
Huang et al. Applications of large scale foundation models for autonomous driving
CN117636326A (zh) 车牌检测方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant