CN115909317A - 一种三维模型-文本联合表达的学习方法及系统 - Google Patents

一种三维模型-文本联合表达的学习方法及系统 Download PDF

Info

Publication number
CN115909317A
CN115909317A CN202210833843.4A CN202210833843A CN115909317A CN 115909317 A CN115909317 A CN 115909317A CN 202210833843 A CN202210833843 A CN 202210833843A CN 115909317 A CN115909317 A CN 115909317A
Authority
CN
China
Prior art keywords
dimensional model
text
modal
cross
primary projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210833843.4A
Other languages
English (en)
Inventor
杨志景
陈锐涵
谭俊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210833843.4A priority Critical patent/CN115909317A/zh
Publication of CN115909317A publication Critical patent/CN115909317A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种三维模型‑文本联合表达的学习方法及系统,包括以下步骤:S1.获取三维模型‑文本信息;S2.对三维模型‑文本信息中的文本信息进行层次化语义分析,得到文本特征;S3.得到三维模型的若干个三维模型特征;S4.将文本特征和三维模型特征投影到一个公共子空间;S5.构建跨模态不变损失函数;S6.计算跨模态互信息损失函数;S7.计算跨模态对比损失函数;S8.构建跨模态对比学习的整体损失函数;对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型‑文本的联合表达。本发明解决了现有技术对三维模型‑文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。

Description

一种三维模型-文本联合表达的学习方法及系统
技术领域
本发明涉及计算机视觉技术领域,更具体的,涉及一种三维模型-文本联合表达的学习方法及系统。
背景技术
外观设计专利主要以图片形式表示,文字描述辅助;面对海量的专利数据,高效的检索技术对于外观设计专利管理与应用十分重要。传统的图像检索方法基于文本检索,其相关研究最早起于20世纪70年代末;传统的图像检索方法在图像的文本标注基础上,对图像进行关键字的检索。但是,图像是外观设计专利的主要信息载体,到了90年代以后,出现了对图像的内容语义(如图像的颜色、纹理、布局等)进行分析和检索的技术,即基于内容特征的图像检索(CBIR)。
图像特征提取的好坏,直接影响着图像检索系统的性能。特征提取是基于内容图像检索的基础。2013年华中科技大学的金海团队提出一种基于形状语义的外观设计专利检索方法,具有较高查全率和较高的查准率,但缺少适用于形状语义特征的索引机制。2016年李晴晴等提出一种融合文本特征与底层三维模型特征的多模态图像检索算法,检索效果优于已有的单模态检索方法,但精度还待提升。2018年Bhatti等使用局部特征,如尺度不变特征变换(SIFT)来表示专利图像,但检索仅利用了查询图像的几何信息,忽略了图像上下文信息和高级语义特征。2020年Jiang等提出一种基于卷积神经网络的专利图像检索方法,与传统的方法相比,该方法发现了更多对工程设计有用的视觉信息。然而该网络容易过拟合,低效且精度不高。
图文联合表达学习是计算机视觉领域中一项重要且极具挑战性的任务。目前,跨模态任务获得了众多研究者的关注,如图文匹配、视觉问答、图像字幕和跨模态检索等。在跨模态检索领域,图文联合表达学习因其可以提高跨模态检索性能的优异特性,受到广泛的关注。对于三维模型和文本的图文联合表达,Chen等人提出了一个联合理解三维模型和文本的模型,该模型分别采用CNN+RNN和3D-CNN来提取文本和三维模型的单模态特征,其中3D-CNN从三维体素中学习。然后,通过度量学习方法学习每个模态和跨模态之间的相似性。然而,该模型仅限于从低分辨率的体素中学习,并且缺乏详细的几何信息,影响了学习到的联合表达的可辨别性。
现有技术有一种基于attention特征融合的多模态情感识别方法,利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。
然而现有技术存在对三维模型-文本联合表达的学习中特征判别能力不强的问题,因此如何发明一种能够准确判别三维模型-文本联合表达的特征的三维模型-文本联合表达的学习方法,是本技术领域亟需解决的问题。
发明内容
本发明为了解决现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,提供了一种三维模型-文本联合表达的学习方法,其具有效率高的特点。
为实现上述本发明目的,采用的技术方案如下:
一种三维模型-文本联合表达的学习方法,包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
优选的,所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,...,Tl],其中l为与语义树结构的节点数量,i=1,2,...,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi
S203.将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征
Figure BDA0003749370390000041
并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
Figure BDA0003749370390000042
进一步的,所述的步骤S3中,将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域的过程可表示为:
将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域:
Figure BDA0003749370390000043
其中,atti表示节点i的关注的视觉区域,I表示三维模型-文本信息中的三维模型信息。
更进一步的,所述的步骤S3中,将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征的过程可表示为:
将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征:
Figure BDA0003749370390000044
其中,
Figure BDA0003749370390000045
表示节点i的三维模型的三维模型特征;
Figure BDA0003749370390000046
Figure BDA0003749370390000047
互相对应。
在一个具体实施例中,所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt
在一个具体实施例中,所述的步骤S5中,跨模态不变损失函数具体为:
Figure BDA0003749370390000048
在一个具体实施例中,所述的步骤S6中,模态互信息损失函数具体为:
Figure BDA0003749370390000051
Figure BDA0003749370390000052
其中,v表示三维模型特征,t表示文本特征,PV为三维模型特征的边缘分布,
Figure BDA0003749370390000053
为三维模型投影器的初级投影表示的边缘分布,PT为文本特征的边缘分布,
Figure BDA0003749370390000054
为文本投影器的初级投影表示的边缘分布,
Figure BDA0003749370390000055
为三维模型特征和文本特征的初级投影表示之间的联合分布,
Figure BDA0003749370390000056
为文本特征和三维模型特征的初级投影表示之间的联合分布。
在一个具体实施例中,所述的步骤S7中,对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,构建跨模态对比损失函数的具体过程为;
S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点;若锚点为文本,则将正样本定义为与该锚点对应的三维模型;若锚点为三维模型,则将正样本定义为与该锚点对应的文本;
S702.将其他2(n-1)个样本均视为负样本;
S703.构建对比损失函数:
Figure BDA0003749370390000057
其中,za表示锚点样本,zp代表正样本,zn代表负样本,
Figure BDA0003749370390000058
为调节参数,余弦函数用于计算相似性分数。
在一个具体实施例中,所述的步骤S8中,跨模态对比学习的整体损失函数为:
Figure BDA0003749370390000059
一种三维模型-文本联合表达学习系统,包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
本发明的有益效果如下:
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
附图说明
图1是本三维模型-文本联合表达的学习方法的流程示意图。
图2是本三维模型-文本联合表达的文本特征提取框架图。
图3是本三维模型-文本联合表达的学习方法中通过文本特征提取三维模型特征的流程示意图。
图4是本三维模型-文本联合表达的学习方法提取三维模型特征的框架图。
图5是本三维模型-文本联合表达的学习方法构建跨模态对比学习的整体损失函数的流程框架图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种三维模型-文本联合表达的学习方法,包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
实施例2
更具体的,在一个具体实施例中,所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,...,Tl],其中l为与语义树结构的节点数量,i=1,2,...,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi
S203.如图2所示,将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征
Figure BDA0003749370390000081
并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
Figure BDA0003749370390000091
在一个具体实施例中,所述的步骤S3中,将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域的过程可表示为:
将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域:
Figure BDA0003749370390000092
其中,atti表示节点i的关注的视觉区域,I表示三维模型-文本信息中的三维模型信息。
在一个具体实施例中,所述的步骤S3中,将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征的过程可表示为:
将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征:
Figure BDA0003749370390000093
其中,
Figure BDA0003749370390000094
表示节点i的三维模型的三维模型特征;
Figure BDA0003749370390000095
Figure BDA0003749370390000096
互相对应。
本实施例中,如图3所示,对于一个文字特征
Figure BDA0003749370390000097
{“葫芦”}输入VisAtt中,结合三维模型信息I,即“葫芦”的图片,得到atti,即部分的葫芦特征;通过VisFus将atti与fI i结合,得到
Figure BDA0003749370390000098
本实施例中,如图4所示,所述的步骤S1和S2中,对于文本{“青瓷葫芦插花器”},对文本进行层次化语义分析,将文本特征拆分成{“插花器”}、{“葫芦”}、{“青瓷”}的语义树结构,并通过LSTM网络将语义树机构中的文本转化为{“插花器”}、{“葫芦”}、{“青瓷”}文本特征;根据文本特征,通过VisAtt对三维模型信息进行语义约束,得到与文本特征对应的3个关注的视觉区域,并将3个关注的视觉区域输入VisFus,得到三维模型的3个三维模型特征。
在一个具体实施例中,所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt
在一个具体实施例中,所述的步骤S5中,跨模态不变损失函数具体为:
Figure BDA0003749370390000101
在一个具体实施例中,所述的步骤S6中,模态互信息损失函数具体为:
Figure BDA0003749370390000102
Figure BDA0003749370390000103
其中,v表示三维模型特征,t表示文本特征,PV为三维模型特征的边缘分布,
Figure BDA0003749370390000104
为三维模型投影器的初级投影表示的边缘分布,PT为文本特征的边缘分布,
Figure BDA0003749370390000105
为文本投影器的初级投影表示的边缘分布,
Figure BDA0003749370390000106
为三维模型特征和文本特征的初级投影表示之间的联合分布,
Figure BDA0003749370390000107
为文本特征和三维模型特征的初级投影表示之间的联合分布。
本实施例中,所述的步骤S6中,在构建跨模态互信息损失函数时分别训练了两个鉴别器Tω
Figure BDA0003749370390000108
其中,θω
Figure BDA0003749370390000109
分别是这两个鉴别器的参数;该鉴别器用于区分从联合分布中提取的样本和从边缘分布乘积中提取的样本。例如,将小批量样本中的文本特征和三维模型特征的投影表示输入鉴别器
Figure BDA00037493703900001010
中;若输入样本来自同一实例,则鉴别器
Figure BDA00037493703900001011
将其归类为正对,否则为负对;所述的正对和负对用于对两个鉴别器评分,进而不断地更新两个鉴别器的参数和模型,最终达到最大化跨模态互信息的作用。
在一个具体实施例中,所述的步骤S7中,对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,构建跨模态对比损失函数的具体过程为;
S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点;若锚点为文本,则将正样本定义为与该锚点对应的三维模型;若锚点为三维模型,则将正样本定义为与该锚点对应的文本;
S702.将其他2(n-1)个样本均视为负样本;
S703.构建对比损失函数:
Figure BDA00037493703900001012
其中,za表示锚点样本,zp代表正样本,zn代表负样本,
Figure BDA00037493703900001013
为调节参数,余弦函数用于计算相似性分数。
如图5所示,在所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作时,还进行了参数共享;在所述的步骤S6中,两个鉴别器Tω
Figure BDA0003749370390000112
通过判别正对和负对,不断地更新两个鉴别器的参数和模型,最大化跨模态互信息的作用,并得到跨模态互信息损失函数;在所述的步骤S7中,通过判断不同模态的初级投影表示是否成对来进行跨模态对比学习,并结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数。
在一个具体实施例中,所述的步骤S8中,跨模态对比学习的整体损失函数为:
Figure BDA0003749370390000111
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
实施例3
一种三维模型-文本联合表达学习系统,包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种三维模型-文本联合表达的学习方法,其特征在于:包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
2.根据权利要求1所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,…,Tl],其中l为与语义树结构的节点数量,i=1,2,…,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi
S203.将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征
Figure FDA0003749370380000021
并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
Figure FDA0003749370380000022
3.根据权利要求2所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S3中,将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域的过程可表示为:
将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域:
Figure FDA0003749370380000023
其中,atti表示节点i的关注的视觉区域,I表示三维模型-文本信息中的三维模型信息。
4.根据权利要求3所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S3中,将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征的过程可表示为:
将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征:
Figure FDA0003749370380000024
其中,
Figure FDA0003749370380000025
表示节点i的三维模型的三维模型特征;
Figure FDA0003749370380000026
Figure FDA0003749370380000027
互相对应。
5.根据权利要求1所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt
6.根据权利要求5所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S5中,跨模态不变损失函数具体为:
Figure FDA0003749370380000031
7.根据权利要求6所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S6中,模态互信息损失函数具体为:
Figure FDA0003749370380000032
Figure FDA0003749370380000033
其中,v表示三维模型特征,t表示文本特征,PV为三维模型特征的边缘分布,
Figure FDA0003749370380000034
为三维模型投影器的初级投影表示的边缘分布,PT为文本特征的边缘分布,
Figure FDA0003749370380000035
为文本投影器的初级投影表示的边缘分布,
Figure FDA0003749370380000036
为三维模型特征和文本特征的初级投影表示之间的联合分布,
Figure FDA0003749370380000037
为文本特征和三维模型特征的初级投影表示之间的联合分布。
8.根据权利要求7所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S7中,对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,构建跨模态对比损失函数的具体过程为;
S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点;若锚点为文本,则将正样本定义为与该锚点对应的三维模型;若锚点为三维模型,则将正样本定义为与该锚点对应的文本;
S702.将其他2(n-1)个样本均视为负样本;
S703.构建对比损失函数:
Figure FDA0003749370380000038
其中,za表示锚点样本,zp代表正样本,zn代表负样本,
Figure FDA0003749370380000039
为调节参数,余弦函数用于计算相似性分数。
9.根据权利要求8所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S8中,跨模态对比学习的整体损失函数为:
Figure FDA00037493703800000310
10.一种三维模型-文本联合表达学习系统,其特征在于:包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
CN202210833843.4A 2022-07-15 2022-07-15 一种三维模型-文本联合表达的学习方法及系统 Pending CN115909317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210833843.4A CN115909317A (zh) 2022-07-15 2022-07-15 一种三维模型-文本联合表达的学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210833843.4A CN115909317A (zh) 2022-07-15 2022-07-15 一种三维模型-文本联合表达的学习方法及系统

Publications (1)

Publication Number Publication Date
CN115909317A true CN115909317A (zh) 2023-04-04

Family

ID=86481306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210833843.4A Pending CN115909317A (zh) 2022-07-15 2022-07-15 一种三维模型-文本联合表达的学习方法及系统

Country Status (1)

Country Link
CN (1) CN115909317A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN111597371A (zh) * 2020-04-14 2020-08-28 广东工业大学 外观专利的多模态图像检索方法及系统
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
US20210240761A1 (en) * 2019-01-31 2021-08-05 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
US20210271707A1 (en) * 2020-02-27 2021-09-02 Adobe Inc. Joint Visual-Semantic Embedding and Grounding via Multi-Task Training for Image Searching
US20210295115A1 (en) * 2019-01-31 2021-09-23 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN114048295A (zh) * 2021-09-26 2022-02-15 南京航空航天大学 一种用于数据处理的跨模态检索方法及系统
CN114092707A (zh) * 2021-11-18 2022-02-25 华中师范大学 一种图像文本视觉问答方法、系统及存储介质
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法
WO2022142014A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US20210295115A1 (en) * 2019-01-31 2021-09-23 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
US20210240761A1 (en) * 2019-01-31 2021-08-05 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
US20210271707A1 (en) * 2020-02-27 2021-09-02 Adobe Inc. Joint Visual-Semantic Embedding and Grounding via Multi-Task Training for Image Searching
CN111597371A (zh) * 2020-04-14 2020-08-28 广东工业大学 外观专利的多模态图像检索方法及系统
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
WO2022142014A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN114048295A (zh) * 2021-09-26 2022-02-15 南京航空航天大学 一种用于数据处理的跨模态检索方法及系统
CN114092707A (zh) * 2021-11-18 2022-02-25 华中师范大学 一种图像文本视觉问答方法、系统及存储介质
CN114201621A (zh) * 2021-11-24 2022-03-18 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN114461836A (zh) * 2022-02-10 2022-05-10 中南大学 一种用于图像-文本的跨模态检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIANGLI ZHEN等: "Deep Supervised Cross-modal Retrieval", 《IEEE》 *
YAXIN LIU等: "Self-Supervised Correlation Learning for Cross-Modal Retrieval", 《IEEE》, pages 2851 - 2863 *
谭俊鹏: "面向视图结构信息探索和多样性互补融合的多视图聚类", 《信息科技》 *
邓一姣等: "面向跨模态检索的协同注意力网络模型", 《信息科技》, pages 55 - 59 *

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN113239954B (zh) 基于注意力机制的图像语义分割特征融合方法
CN107766933A (zh) 一种解释卷积神经网络的可视化方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
WO2024087639A1 (zh) 基于内容理解的遥感影像推荐方法
CN114461839B (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113157886A (zh) 一种自动问答生成方法、系统、终端及可读存储介质
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN113361496B (zh) 一种基于U-Net的城市建成区统计方法
CN114743201A (zh) 一种基于旋转目标检测的万用表读数识别方法及系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN107491814B (zh) 一种用于知识推送的过程案例分层知识模型构建方法
CN113903043B (zh) 一种基于孪生度量模型的印刷汉字字体识别方法
CN115909317A (zh) 一种三维模型-文本联合表达的学习方法及系统
Li et al. Few-shot meta-learning on point cloud for semantic segmentation
CN114937153A (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN114332715A (zh) 气象自动观测积雪识别方法、装置、设备及存储介质
CN112199531A (zh) 一种基于哈希算法和邻域图的跨模态检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination