CN115909317A

CN115909317A - 一种三维模型-文本联合表达的学习方法及系统

Info

Publication number: CN115909317A
Application number: CN202210833843.4A
Authority: CN
Inventors: 杨志景; 陈锐涵; 谭俊鹏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-04-04

Abstract

本发明涉及计算机视觉技术领域，公开了一种三维模型‑文本联合表达的学习方法及系统，包括以下步骤：S1.获取三维模型‑文本信息；S2.对三维模型‑文本信息中的文本信息进行层次化语义分析，得到文本特征；S3.得到三维模型的若干个三维模型特征；S4.将文本特征和三维模型特征投影到一个公共子空间；S5.构建跨模态不变损失函数；S6.计算跨模态互信息损失函数；S7.计算跨模态对比损失函数；S8.构建跨模态对比学习的整体损失函数；对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，得到三维模型‑文本的联合表达。本发明解决了现有技术对三维模型‑文本联合表达的学习中特征判别能力不强的问题，且具有效率高的特点。

Description

一种三维模型-文本联合表达的学习方法及系统

技术领域

本发明涉及计算机视觉技术领域，更具体的，涉及一种三维模型-文本联合表达的学习方法及系统。

背景技术

外观设计专利主要以图片形式表示，文字描述辅助；面对海量的专利数据，高效的检索技术对于外观设计专利管理与应用十分重要。传统的图像检索方法基于文本检索，其相关研究最早起于20世纪70年代末；传统的图像检索方法在图像的文本标注基础上，对图像进行关键字的检索。但是，图像是外观设计专利的主要信息载体，到了90年代以后，出现了对图像的内容语义(如图像的颜色、纹理、布局等)进行分析和检索的技术，即基于内容特征的图像检索(CBIR)。

图像特征提取的好坏，直接影响着图像检索系统的性能。特征提取是基于内容图像检索的基础。2013年华中科技大学的金海团队提出一种基于形状语义的外观设计专利检索方法，具有较高查全率和较高的查准率，但缺少适用于形状语义特征的索引机制。2016年李晴晴等提出一种融合文本特征与底层三维模型特征的多模态图像检索算法，检索效果优于已有的单模态检索方法，但精度还待提升。2018年Bhatti等使用局部特征，如尺度不变特征变换(SIFT)来表示专利图像，但检索仅利用了查询图像的几何信息，忽略了图像上下文信息和高级语义特征。2020年Jiang等提出一种基于卷积神经网络的专利图像检索方法，与传统的方法相比，该方法发现了更多对工程设计有用的视觉信息。然而该网络容易过拟合，低效且精度不高。

图文联合表达学习是计算机视觉领域中一项重要且极具挑战性的任务。目前，跨模态任务获得了众多研究者的关注，如图文匹配、视觉问答、图像字幕和跨模态检索等。在跨模态检索领域，图文联合表达学习因其可以提高跨模态检索性能的优异特性，受到广泛的关注。对于三维模型和文本的图文联合表达，Chen等人提出了一个联合理解三维模型和文本的模型，该模型分别采用CNN+RNN和3D-CNN来提取文本和三维模型的单模态特征，其中3D-CNN从三维体素中学习。然后，通过度量学习方法学习每个模态和跨模态之间的相似性。然而，该模型仅限于从低分辨率的体素中学习，并且缺乏详细的几何信息，影响了学习到的联合表达的可辨别性。

现有技术有一种基于attention特征融合的多模态情感识别方法，利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取，语音模态采用卷积神经网络进行特征提取，而视频模态采用了三维卷积神经网络模型进行视频特征的提取。

然而现有技术存在对三维模型-文本联合表达的学习中特征判别能力不强的问题，因此如何发明一种能够准确判别三维模型-文本联合表达的特征的三维模型-文本联合表达的学习方法，是本技术领域亟需解决的问题。

发明内容

本发明为了解决现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题，提供了一种三维模型-文本联合表达的学习方法，其具有效率高的特点。

为实现上述本发明目的，采用的技术方案如下：

一种三维模型-文本联合表达的学习方法，包括以下步骤：

S1.获取待学习的三维模型-文本信息；

S2.对三维模型-文本信息中的文本信息进行层次化语义分析，构建语义树结构；构建LSTM网络，通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征；

S3.构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络；将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt，将三维模型特征融合网络称为VisFus；将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域；将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征；

S4.分别对三维模型特征和文本特征进行投影操作，将文本特征和三维模型特征投影到一个公共子空间，得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息；

S5.分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示，组成小批量样本，构建跨模态不变损失函数；

S6.最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息，并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息，计算跨模态互信息损失函数；

S7.对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，计算跨模态对比损失函数；

S8.结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数，构建跨模态对比学习的整体损失函数；通过跨模态对比学习的整体损失函数，对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，得到三维模型-文本的联合表达。

本发明通对三维模型-文本信息中的文本信息进行层次化语义分析，构建语义树结构；构建LSTM网络，通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征。还构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络；将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt，将三维模型特征融合网络称为VisFus；将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域；将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征，由此高效地得到了三维模型-文本中的文本特征和三维模型特征；本发明还分别对三维模型特征和文本特征进行投影操作，将文本特征和三维模型特征投影到一个公共子空间，得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息，并在初级投影表示的基础上，通过采集小批量样本进行计算，得到跨模态不变损失函数、跨模态互信息损失函数、对比损失函数；由此构建了跨模态对比学习的整体损失函数，并对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习；由此本发明充分考虑了不同模态特征之间的相关性，能够对不同模态特征进行充分判别，解决了现有技术对三维模型-文本联合表达的学习中特征判别能力不强的问题，且具有效率高的特点。

优选的，所述的步骤S2中，构建LSTM网络，通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为：

S201.将语义树结构中的各个节点进行编码处理，得到编码后的节点i的表示Tⁱ，将Tⁱ依次组成分块序列[T¹，T²，...，T^l]，其中l为与语义树结构的节点数量，i＝1，2，...，l；

S202.构建一个基于LSTM的网络，所述的LSTM网络包括与Tⁱ对应的l个LSTM单元、记忆因子cⁱ、状态因子hⁱ；

S203.将Tⁱ输入其对应的LSTM单元中，结合T^i-1的记忆因子c^i-1和状态因子h^i-1，得到对应的文本特征

并输出记忆因子cⁱ和状态因子hⁱ到Tⁱ⁺¹对应的LSTM单元中，以此类推，得到所有文本特征：

进一步的，所述的步骤S3中，将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域的过程可表示为：

将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域：

其中，attⁱ表示节点i的关注的视觉区域，I表示三维模型-文本信息中的三维模型信息。

更进一步的，所述的步骤S3中，将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征的过程可表示为：

将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征：

其中，

表示节点i的三维模型的三维模型特征；

和

互相对应。

在一个具体实施例中，所述的步骤S4中，分别对三维模型特征和文本特征进行投影操作，将文本特征和三维模型特征投影到一个公共子空间，得到三维模型特征的初级投影表示、文本特征的初级投影表示的具体过程为：

构建三维模型投影器和文本投影器；通过三维模型投影器对三维模型特征进行非线性变换进行特征映射，并通过文本投影器对文本特征进行非线性变换进行特征映射，投影到一个公共的子空间，得到若干个三维模型特征的初级投影表示Z_v和与其对应的若干个文本特征的初级投影表示Z_t。

在一个具体实施例中，所述的步骤S5中，跨模态不变损失函数具体为：

在一个具体实施例中，所述的步骤S6中，模态互信息损失函数具体为：

其中，v表示三维模型特征，t表示文本特征，P_V为三维模型特征的边缘分布，

为三维模型投影器的初级投影表示的边缘分布，P_T为文本特征的边缘分布，

为文本投影器的初级投影表示的边缘分布，

为三维模型特征和文本特征的初级投影表示之间的联合分布，

为文本特征和三维模型特征的初级投影表示之间的联合分布。

在一个具体实施例中，所述的步骤S7中，对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，构建跨模态对比损失函数的具体过程为；

S701.在小批量样本中的三维模型特征的初级投影表示和文本特征的初级投影表示中随机选取一个锚点；若锚点为文本，则将正样本定义为与该锚点对应的三维模型；若锚点为三维模型，则将正样本定义为与该锚点对应的文本；

S702.将其他2(n-1)个样本均视为负样本；

S703.构建对比损失函数：

其中，z_a表示锚点样本，z_p代表正样本，z_n代表负样本，

为调节参数，余弦函数用于计算相似性分数。

在一个具体实施例中，所述的步骤S8中，跨模态对比学习的整体损失函数为：

一种三维模型-文本联合表达学习系统，包括信息获取模块、层次化文本特征提取模块、层次化三维模型特征提取模块、初级投影模块、小批量样本跨模态不变模块、小批量样本跨模态互信息模块、小批量样本跨模态对比模块、跨模态对比学习模块；

所述的信息获取模块用于获取待学习的三维模型-文本信息；

所述的层次化文本特征提取模块用于对三维模型-文本信息中的文本信息进行层次化语义分析，构建语义树结构；构建LSTM网络，通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征；

所述的层次化三维模型特征提取模块用于构建一个基于注意力机制的文本驱动视觉区域标定网络和一个三维模型特征融合网络；将基于注意力机制的文本驱动视觉区域标定网络称为VisAtt，将三维模型特征融合网络称为VisFus；将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域；将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征；

所述的初级投影模块用于分别对三维模型特征和文本特征进行投影操作，将文本特征和三维模型特征投影到一个公共子空间，得到三维模型特征的初级投影表示、文本特征的初级投影表示、文本特征和三维模型特征的初级投影表示之间的跨模态互信息、三维模型特征和文本特征的初级投影表示之间的跨模态互信息；

所述的小批量样本跨模态不变模块用于分别选择n个三维模型特征及其初级投影表示和n个对应的文本特征及其初级投影表示，组成小批量样本，构建跨模态不变损失函数；

所述的小批量样本跨模态互信息模块用于最大化小批量样本中文本特征和三维模型特征的初级投影表示之间的跨模态互信息，并最大化小批量样本中三维模型特征和文本特征的初级投影表示之间的跨模态互信息，计算跨模态互信息损失函数；

所述的小批量样本跨模态对比模块对小批量样本中三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，计算跨模态对比损失函数；

所述跨模态对比学习模块用于结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数，构建跨模态对比学习的整体损失函数；通过跨模态对比学习的整体损失函数，对三维模型特征的初级投影表示和文本特征的初级投影表示进行跨模态对比学习，得到三维模型-文本的联合表达。

本发明的有益效果如下：

附图说明

图1是本三维模型-文本联合表达的学习方法的流程示意图。

图2是本三维模型-文本联合表达的文本特征提取框架图。

图3是本三维模型-文本联合表达的学习方法中通过文本特征提取三维模型特征的流程示意图。

图4是本三维模型-文本联合表达的学习方法提取三维模型特征的框架图。

图5是本三维模型-文本联合表达的学习方法构建跨模态对比学习的整体损失函数的流程框架图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种三维模型-文本联合表达的学习方法，包括以下步骤：

S1.获取待学习的三维模型-文本信息；

实施例2

更具体的，在一个具体实施例中，所述的步骤S2中，构建LSTM网络，通过LSTM网络得到语义树结构中若干层语义节点对应的若干个文本特征的过程具体为：

S203.如图2所示，将Tⁱ输入其对应的LSTM单元中，结合T^i-1的记忆因子c^i-1和状态因子h^i-1，得到对应的文本特征

在一个具体实施例中，所述的步骤S3中，将文本特征和三维模型-文本信息中的三维模型信息输入VisAtt，得到关注的视觉区域的过程可表示为：

在一个具体实施例中，所述的步骤S3中，将关注的视觉区域输入VisFus中，得到三维模型的若干个三维模型特征的过程可表示为：

其中，

表示节点i的三维模型的三维模型特征；

和

互相对应。

本实施例中，如图3所示，对于一个文字特征

{“葫芦”}输入VisAtt中，结合三维模型信息I，即“葫芦”的图片，得到attⁱ，即部分的葫芦特征；通过VisFus将attⁱ与f_I ⁱ结合，得到

本实施例中，如图4所示，所述的步骤S1和S2中，对于文本{“青瓷葫芦插花器”}，对文本进行层次化语义分析，将文本特征拆分成{“插花器”}、{“葫芦”}、{“青瓷”}的语义树结构，并通过LSTM网络将语义树机构中的文本转化为{“插花器”}、{“葫芦”}、{“青瓷”}文本特征；根据文本特征，通过VisAtt对三维模型信息进行语义约束，得到与文本特征对应的3个关注的视觉区域，并将3个关注的视觉区域输入VisFus，得到三维模型的3个三维模型特征。

为文本投影器的初级投影表示的边缘分布，

本实施例中，所述的步骤S6中，在构建跨模态互信息损失函数时分别训练了两个鉴别器T_ω和

其中，θ_ω和

分别是这两个鉴别器的参数；该鉴别器用于区分从联合分布中提取的样本和从边缘分布乘积中提取的样本。例如，将小批量样本中的文本特征和三维模型特征的投影表示输入鉴别器

中；若输入样本来自同一实例，则鉴别器

将其归类为正对，否则为负对；所述的正对和负对用于对两个鉴别器评分，进而不断地更新两个鉴别器的参数和模型，最终达到最大化跨模态互信息的作用。

S702.将其他2(n-1)个样本均视为负样本；

S703.构建对比损失函数：

其中，z_a表示锚点样本，z_p代表正样本，z_n代表负样本，

为调节参数，余弦函数用于计算相似性分数。

如图5所示，在所述的步骤S4中，分别对三维模型特征和文本特征进行投影操作时，还进行了参数共享；在所述的步骤S6中，两个鉴别器T_ω和

通过判别正对和负对，不断地更新两个鉴别器的参数和模型，最大化跨模态互信息的作用，并得到跨模态互信息损失函数；在所述的步骤S7中，通过判断不同模态的初级投影表示是否成对来进行跨模态对比学习，并结合跨模态不变损失函数、跨模态互信息损失函数、对比损失函数，构建跨模态对比学习的整体损失函数。

实施例3

所述的信息获取模块用于获取待学习的三维模型-文本信息；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。