CN115909317A - 一种三维模型-文本联合表达的学习方法及系统 - Google Patents
一种三维模型-文本联合表达的学习方法及系统 Download PDFInfo
- Publication number
- CN115909317A CN115909317A CN202210833843.4A CN202210833843A CN115909317A CN 115909317 A CN115909317 A CN 115909317A CN 202210833843 A CN202210833843 A CN 202210833843A CN 115909317 A CN115909317 A CN 115909317A
- Authority
- CN
- China
- Prior art keywords
- dimensional model
- text
- modal
- cross
- primary projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006870 function Effects 0.000 claims abstract description 90
- 230000000007 visual effect Effects 0.000 claims description 55
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 241000219122 Cucurbita Species 0.000 description 4
- 235000009852 Cucurbita pepo Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 240000009087 Crescentia cujete Species 0.000 description 2
- 235000005983 Crescentia cujete Nutrition 0.000 description 2
- 235000009797 Lagenaria vulgaris Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,公开了一种三维模型‑文本联合表达的学习方法及系统,包括以下步骤:S1.获取三维模型‑文本信息;S2.对三维模型‑文本信息中的文本信息进行层次化语义分析,得到文本特征;S3.得到三维模型的若干个三维模型特征;S4.将文本特征和三维模型特征投影到一个公共子空间;S5.构建跨模态不变损失函数;S6.计算跨模态互信息损失函数;S7.计算跨模态对比损失函数;S8.构建跨模态对比学习的整体损失函数;对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型‑文本的联合表达。本发明解决了现有技术对三维模型‑文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体的,涉及一种三维模型-文本联合表达的学习方法及系统。
背景技术
外观设计专利主要以图片形式表示,文字描述辅助;面对海量的专利数据,高效的检索技术对于外观设计专利管理与应用十分重要。传统的图像检索方法基于文本检索,其相关研究最早起于20世纪70年代末;传统的图像检索方法在图像的文本标注基础上,对图像进行关键字的检索。但是,图像是外观设计专利的主要信息载体,到了90年代以后,出现了对图像的内容语义(如图像的颜色、纹理、布局等)进行分析和检索的技术,即基于内容特征的图像检索(CBIR)。
图像特征提取的好坏,直接影响着图像检索系统的性能。特征提取是基于内容图像检索的基础。2013年华中科技大学的金海团队提出一种基于形状语义的外观设计专利检索方法,具有较高查全率和较高的查准率,但缺少适用于形状语义特征的索引机制。2016年李晴晴等提出一种融合文本特征与底层三维模型特征的多模态图像检索算法,检索效果优于已有的单模态检索方法,但精度还待提升。2018年Bhatti等使用局部特征,如尺度不变特征变换(SIFT)来表示专利图像,但检索仅利用了查询图像的几何信息,忽略了图像上下文信息和高级语义特征。2020年Jiang等提出一种基于卷积神经网络的专利图像检索方法,与传统的方法相比,该方法发现了更多对工程设计有用的视觉信息。然而该网络容易过拟合,低效且精度不高。
图文联合表达学习是计算机视觉领域中一项重要且极具挑战性的任务。目前,跨模态任务获得了众多研究者的关注,如图文匹配、视觉问答、图像字幕和跨模态检索等。在跨模态检索领域,图文联合表达学习因其可以提高跨模态检索性能的优异特性,受到广泛的关注。对于三维模型和文本的图文联合表达,Chen等人提出了一个联合理解三维模型和文本的模型,该模型分别采用CNN+RNN和3D-CNN来提取文本和三维模型的单模态特征,其中3D-CNN从三维体素中学习。然后,通过度量学习方法学习每个模态和跨模态之间的相似性。然而,该模型仅限于从低分辨率的体素中学习,并且缺乏详细的几何信息,影响了学习到的联合表达的可辨别性。
现有技术有一种基于attention特征融合的多模态情感识别方法,利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。
然而现有技术存在对三维模型-文本联合表达的学习中特征判别能力不强的问题,因此如何发明一种能够准确判别三维模型-文本联合表达的特征的三维模型-文本联合表达的学习方法,是本技术领域亟需解决的问题。
发明内容
本发明为了解决现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,提供了一种三维模型-文本联合表达的学习方法,其具有效率高的特点。
为实现上述本发明目的,采用的技术方案如下:
一种三维模型-文本联合表达的学习方法,包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
优选的,所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,...,Tl],其中l为与语义树结构的节点数量,i=1,2,...,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi;
S203.将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
进一步的,所述的步骤S3中,将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域的过程可表示为:
将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域:
其中,atti表示节点i的关注的视觉区域,I表示三维模型-文本信息中的三维模型信息。
更进一步的,所述的步骤S3中,将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征的过程可表示为:
将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征:
在一个具体实施例中,所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt。
在一个具体实施例中,所述的步骤S5中,跨模态不变损失函数具体为:
在一个具体实施例中,所述的步骤S6中,模态互信息损失函数具体为:
其中,v表示三维模型特征,t表示文本特征,PV为三维模型特征的边缘分布,为三维模型投影器的初级投影表示的边缘分布,PT为文本特征的边缘分布,为文本投影器的初级投影表示的边缘分布,为三维模型特征和文本特征的初级投影表示之间的联合分布,为文本特征和三维模型特征的初级投影表示之间的联合分布。
在一个具体实施例中,所述的步骤S7中,对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,构建跨模态对比损失函数的具体过程为;
S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点;若锚点为文本,则将正样本定义为与该锚点对应的三维模型;若锚点为三维模型,则将正样本定义为与该锚点对应的文本;
S702.将其他2(n-1)个样本均视为负样本;
S703.构建对比损失函数:
在一个具体实施例中,所述的步骤S8中,跨模态对比学习的整体损失函数为:
一种三维模型-文本联合表达学习系统,包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
本发明的有益效果如下:
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
附图说明
图1是本三维模型-文本联合表达的学习方法的流程示意图。
图2是本三维模型-文本联合表达的文本特征提取框架图。
图3是本三维模型-文本联合表达的学习方法中通过文本特征提取三维模型特征的流程示意图。
图4是本三维模型-文本联合表达的学习方法提取三维模型特征的框架图。
图5是本三维模型-文本联合表达的学习方法构建跨模态对比学习的整体损失函数的流程框架图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种三维模型-文本联合表达的学习方法,包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
实施例2
更具体的,在一个具体实施例中,所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,...,Tl],其中l为与语义树结构的节点数量,i=1,2,...,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi;
S203.如图2所示,将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
在一个具体实施例中,所述的步骤S3中,将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域的过程可表示为:
将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域:
其中,atti表示节点i的关注的视觉区域,I表示三维模型-文本信息中的三维模型信息。
在一个具体实施例中,所述的步骤S3中,将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征的过程可表示为:
将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征:
本实施例中,如图4所示,所述的步骤S1和S2中,对于文本{“青瓷葫芦插花器”},对文本进行层次化语义分析,将文本特征拆分成{“插花器”}、{“葫芦”}、{“青瓷”}的语义树结构,并通过LSTM网络将语义树机构中的文本转化为{“插花器”}、{“葫芦”}、{“青瓷”}文本特征;根据文本特征,通过VisAtt对三维模型信息进行语义约束,得到与文本特征对应的3个关注的视觉区域,并将3个关注的视觉区域输入VisFus,得到三维模型的3个三维模型特征。
在一个具体实施例中,所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt。
在一个具体实施例中,所述的步骤S5中,跨模态不变损失函数具体为:
在一个具体实施例中,所述的步骤S6中,模态互信息损失函数具体为:
其中,v表示三维模型特征,t表示文本特征,PV为三维模型特征的边缘分布,为三维模型投影器的初级投影表示的边缘分布,PT为文本特征的边缘分布,为文本投影器的初级投影表示的边缘分布,为三维模型特征和文本特征的初级投影表示之间的联合分布,为文本特征和三维模型特征的初级投影表示之间的联合分布。
本实施例中,所述的步骤S6中,在构建跨模态互信息损失函数时分别训练了两个鉴别器Tω和其中,θω和分别是这两个鉴别器的参数;该鉴别器用于区分从联合分布中提取的样本和从边缘分布乘积中提取的样本。例如,将小批量样本中的文本特征和三维模型特征的投影表示输入鉴别器中;若输入样本来自同一实例,则鉴别器将其归类为正对,否则为负对;所述的正对和负对用于对两个鉴别器评分,进而不断地更新两个鉴别器的参数和模型,最终达到最大化跨模态互信息的作用。
在一个具体实施例中,所述的步骤S7中,对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,构建跨模态对比损失函数的具体过程为;
S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点;若锚点为文本,则将正样本定义为与该锚点对应的三维模型;若锚点为三维模型,则将正样本定义为与该锚点对应的文本;
S702.将其他2(n-1)个样本均视为负样本;
S703.构建对比损失函数:
如图5所示,在所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作时,还进行了参数共享;在所述的步骤S6中,两个鉴别器Tω和通过判别正对和负对,不断地更新两个鉴别器的参数和模型,最大化跨模态互信息的作用,并得到跨模态互信息损失函数;在所述的步骤S7中,通过判断不同模态的初级投影表示是否成对来进行跨模态对比学习,并结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数。
在一个具体实施例中,所述的步骤S8中,跨模态对比学习的整体损失函数为:
本发明通对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征,由此高效地得到了三维模型-文本中的文本特征和三维模型特征;本发明还分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息,并在初级投影表示的基础上,通过采集小批量样本进行计算,得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数;由此构建了跨模态对比学习的整体损失函数,并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习;由此本发明充分考虑了不同模态特征之间的相关性,能够对不同模态特征进行充分判别,解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题,且具有效率高的特点。
实施例3
一种三维模型-文本联合表达学习系统,包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种三维模型-文本联合表达的学习方法,其特征在于:包括以下步骤:
S1.获取待学习的三维模型-文本信息;
S2.对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
S4.分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
2.根据权利要求1所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S2中,构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为:
S201.将语义树结构中的各个节点进行编码处理,得到编码后的节点i的表示Ti,将Ti依次组成分块序列[T1,T2,…,Tl],其中l为与语义树结构的节点数量,i=1,2,…,l;
S202.构建一个基于LSTM的网络,所述的LSTM网络包括与Ti对应的l个LSTM单元、记忆因子ci、状态因子hi;
S203.将Ti输入其对应的LSTM单元中,结合Ti-1的记忆因子ci-1和状态因子hi-1,得到对应的文本特征并输出记忆因子ci和状态因子hi到Ti+1对应的LSTM单元中,以此类推,得到所有文本特征:
5.根据权利要求1所述的三维模型-文本联合表达的学习方法,其特征在于:所述的步骤S4中,分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为:
构建三维模型投影器和文本投影器;通过三维模型投影器对三维模型特征进行非线性变换进行特征映射,并通过文本投影器对文本特征进行非线性变换进行特征映射,投影到一个公共的子空间,得到若干个三维模型特征的初级投影表示Zv和与其对应的若干个文本特征的初级投影表示Zt。
10.一种三维模型-文本联合表达学习系统,其特征在于:包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块;
所述的信息获取模块用于获取待学习的三维模型-文本信息;
所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析,构建语义树结构;构建LSTM网络,通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征;
所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络;将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt,将三维模型特征融合网络称为VisFus;将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt,得到关注的视觉区域;将关注的视觉区域输入VisFus中,得到三维模型的若干个三维模型特征;
所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作,将文本特征和三维模型特征投影到一个公共子空间,得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息;
所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示,组成小批量样本,构建跨模态不变损失函数;
所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息,并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息,计算跨模态互信息损失函数;
所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,计算跨模态对比损失函数;
所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数,构建跨模态对比学习的整体损失函数;通过跨模态对比学习的整体损失函数,对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习,得到三维模型-文本的联合表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833843.4A CN115909317A (zh) | 2022-07-15 | 2022-07-15 | 一种三维模型-文本联合表达的学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833843.4A CN115909317A (zh) | 2022-07-15 | 2022-07-15 | 一种三维模型-文本联合表达的学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115909317A true CN115909317A (zh) | 2023-04-04 |
Family
ID=86481306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210833843.4A Pending CN115909317A (zh) | 2022-07-15 | 2022-07-15 | 一种三维模型-文本联合表达的学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115909317A (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241379A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种跨模态检测网络水军的方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN111597371A (zh) * | 2020-04-14 | 2020-08-28 | 广东工业大学 | 外观专利的多模态图像检索方法及系统 |
US20210012150A1 (en) * | 2019-07-11 | 2021-01-14 | Xidian University | Bidirectional attention-based image-text cross-modal retrieval method |
US20210240761A1 (en) * | 2019-01-31 | 2021-08-05 | Shenzhen Sensetime Technology Co., Ltd. | Method and device for cross-modal information retrieval, and storage medium |
US20210271707A1 (en) * | 2020-02-27 | 2021-09-02 | Adobe Inc. | Joint Visual-Semantic Embedding and Grounding via Multi-Task Training for Image Searching |
US20210295115A1 (en) * | 2019-01-31 | 2021-09-23 | Shenzhen Sensetime Technology Co., Ltd. | Method and device for cross-modal information retrieval, and storage medium |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114048295A (zh) * | 2021-09-26 | 2022-02-15 | 南京航空航天大学 | 一种用于数据处理的跨模态检索方法及系统 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN114461836A (zh) * | 2022-02-10 | 2022-05-10 | 中南大学 | 一种用于图像-文本的跨模态检索方法 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
-
2022
- 2022-07-15 CN CN202210833843.4A patent/CN115909317A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241379A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种跨模态检测网络水军的方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20210295115A1 (en) * | 2019-01-31 | 2021-09-23 | Shenzhen Sensetime Technology Co., Ltd. | Method and device for cross-modal information retrieval, and storage medium |
US20210240761A1 (en) * | 2019-01-31 | 2021-08-05 | Shenzhen Sensetime Technology Co., Ltd. | Method and device for cross-modal information retrieval, and storage medium |
US20210012150A1 (en) * | 2019-07-11 | 2021-01-14 | Xidian University | Bidirectional attention-based image-text cross-modal retrieval method |
US20210271707A1 (en) * | 2020-02-27 | 2021-09-02 | Adobe Inc. | Joint Visual-Semantic Embedding and Grounding via Multi-Task Training for Image Searching |
CN111597371A (zh) * | 2020-04-14 | 2020-08-28 | 广东工业大学 | 外观专利的多模态图像检索方法及系统 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
WO2022142014A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114048295A (zh) * | 2021-09-26 | 2022-02-15 | 南京航空航天大学 | 一种用于数据处理的跨模态检索方法及系统 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
CN114201621A (zh) * | 2021-11-24 | 2022-03-18 | 人民网股份有限公司 | 基于图文协同注意力的跨模态检索模型构建及检索方法 |
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN114461836A (zh) * | 2022-02-10 | 2022-05-10 | 中南大学 | 一种用于图像-文本的跨模态检索方法 |
Non-Patent Citations (4)
Title |
---|
LIANGLI ZHEN等: "Deep Supervised Cross-modal Retrieval", 《IEEE》 * |
YAXIN LIU等: "Self-Supervised Correlation Learning for Cross-Modal Retrieval", 《IEEE》, pages 2851 - 2863 * |
谭俊鹏: "面向视图结构信息探索和多样性互补融合的多视图聚类", 《信息科技》 * |
邓一姣等: "面向跨模态检索的协同注意力网络模型", 《信息科技》, pages 55 - 59 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN113239954B (zh) | 基于注意力机制的图像语义分割特征融合方法 | |
CN107766933A (zh) | 一种解释卷积神经网络的可视化方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
WO2024087639A1 (zh) | 基于内容理解的遥感影像推荐方法 | |
CN114461839B (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
CN116204706A (zh) | 一种文本内容结合图像分析的多模态内容检索方法与系统 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN113157886A (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN113361496B (zh) | 一种基于U-Net的城市建成区统计方法 | |
CN114743201A (zh) | 一种基于旋转目标检测的万用表读数识别方法及系统 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN113723558A (zh) | 基于注意力机制的遥感图像小样本舰船检测方法 | |
CN107491814B (zh) | 一种用于知识推送的过程案例分层知识模型构建方法 | |
CN113903043B (zh) | 一种基于孪生度量模型的印刷汉字字体识别方法 | |
CN115909317A (zh) | 一种三维模型-文本联合表达的学习方法及系统 | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
CN114937153A (zh) | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 | |
CN114332715A (zh) | 气象自动观测积雪识别方法、装置、设备及存储介质 | |
CN112199531A (zh) | 一种基于哈希算法和邻域图的跨模态检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |