CN115757857A

CN115757857A - 一种水下三维跨模态联合检索方法、存储介质和电子设备

Info

Publication number: CN115757857A
Application number: CN202310024866.5A
Authority: CN
Inventors: 姜宇; 于慧勇; 宋建军; 齐红; 赵明浩; 王跃航
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-03-07
Anticipated expiration: 2043-01-09
Also published as: CN115757857B

Abstract

一种水下三维跨模态联合检索方法、存储介质和电子设备，涉及水下三维视觉技术领域，实现了水下目标生物的精准检索。S1、利用全局特征提取器和局部特征提取器分别对多模态水下目标数据进行特征提取，得到对应不同源域空间的全局特征描述子和局部特征描述子集合，并分别映射到高维语义空间；S2、针对映射到高维语义空间的局部特征描述子集合，使用双线性池化方法将局部特征描述子集合映射为局部特征集合紧致描述子；S3、隐式建模全局特征描述子与局部特征集合紧致描述子，生成统一的域间差异层次特征表达；S4、使用跨模态中心损失函数和平方差损失函数联合优化跨模态检索网络，最终获得在多个目标模态之间精确的检索结果。

Description

一种水下三维跨模态联合检索方法、存储介质和电子设备

技术领域

本发明涉及水下三维视觉技术领域，具体涉及一种水下三维跨模态联合检索方法、存储介质和电子设备。

背景技术

海洋是所有人类的共同家园，向人类提供了氧气、食品、药品等能源。因此，开发海洋、保护海洋都离不开科学技术的支撑，对海洋生物的探索也逐渐深入。然而，不同于陆地环境，水下环境的数据采集较为困难，三维数据模态随不同环境、不同设备的改变而有所变化，常规方法针对水下目标检索往往使用单一模态的数据作为输入源，这导致其检索精度不高，鲁棒性也较差，很难具有大规模水下目标检索的潜力。同时，这也较为明显地制约了对水下生物的探索与研究。

三维多模态数据之间聚合了多源数据的大量信息，这些信息可以互相补充，弥补单一数据模态间的信息不足，使得相关检索模型算法的表征更加完备。例如，在视频检索过程中，同时结合字幕和标题等文字信息、音频信息以及画面动作等视觉信息作为多模态数据作为输入源，得到的检索结果显著高于任意单一模态的数据作为输入源。进一步地，三维跨模态检索的核心问题是如何获得模态不变的和具有区分性的特征描述子。

近年来，深度学习在图像-文本跨模态检索任务中实现了良好的表现，但在三维数据的跨模态检索任务中探索不多。现有的三维数据跨模态检索方法大部分是直接使用全局特征提取器去获得模态间的全局特征描述子，并在高维语义特征空间中减少跨模态数据特征间的差异性。然而，这些方法仅仅关注模态间的全局特征，而没有关注局部的细节信息，相反这些局部细节往往带有丰富的语义信息。特别地，在水下的复杂场景中，局部特征间相似性度量在减少多模态实例间距离差异时，往往扮演着比全局特征更为积极和重要的角色。因此，针对水下目标的检索任务，探究如何恰当使用三维跨模态数据间的互补信息，实现水下目标生物的精准检索，已经成为本领域需要深入研究的问题。

发明内容

为了实现水下目标生物的精准检索，本发明提出了一种水下三维跨模态联合检索方法、存储介质和电子设备。

本发明的技术方案如下：

一种水下三维跨模态联合检索方法，包括如下步骤：

S1、利用全局特征提取器和局部特征提取器分别对多模态水下目标数据进行特征提取，得到对应不同源域空间的全局特征描述子和局部特征描述子集合，并分别映射到高维语义空间；

S2、针对映射到高维语义空间的局部特征描述子集合，使用双线性池化方法将局部特征描述子集合映射为局部特征集合紧致描述子；

S3、隐式建模全局特征描述子与局部特征集合紧致描述子，生成统一的域间差异层次特征表达；

S4、使用跨模态中心损失函数和平方差损失函数对以上步骤中的进程进行联合优化训练，最终获得在多个目标模态之间精确的检索结果。

优选地，所述多模态水下目标数据包括网格数据、点云数据以及多视角图像数据。

优选地，所述步骤S1具体包括：

S1.1、使用全局特征提取器来提取每种模态的全局特征描述子；

S1.2、采用一个基于全局特征的映射函数将S1.1中的多种模态的全局特征描述子分别映射到一个高维统一的全局语义特征空间，映射后的局部特征描述子集合表示如下：

，

，

式中，K表示局部特征数，

代表第i个物体的第

种模态的局部特征集合，

代表第j个物体的第

种模态的局部特征集合，

代表不同于m的任何一种模态；

S1.3、使用局部特征提取器来提取每种模态的局部特征描述子集合；

S1.4、采用一个基于局部特征的映射函数将S1.3中的多种模态局部特征描述子集合分别映射到多个高维统一的局部特征语义空间。

优选地，所述步骤S2通过以下方式实现：

将局部特征集合之间的相似性度量等价转化为局部特征集合紧致描述子之间的相似性度量，具体计算过程如下：

，

，

，

其中，u和v均为介于1~K的整数，

代表对两个局部特征的相似性度量，vec（.）代表矩阵向量化操作，

和

代表对

和

双线性池化的结果，进而将局部特征描述子集合

和

映射为局部特征集合紧致描述子

和

。

优选地，所述步骤S3通过以下方式实现：

将全局特征描述子和局部特征集合紧致描述子隐式表达为统一的层次特征描述子，映射过程如下：

，

，

其中，

代表连结操作，

代表第i个物体的第m种模态的全局特征描述子，

代表第j个物体的第

种模态的全局特征描述子，

代表不同于m的任何一种模态，

和

为得到的层次特征描述子。

优选地，步骤S3中所述跨模态中心损失函数如下：

，

，

其中，N代表目标物体个数，M代表同一目标间的模态个数，

代表第i个目标的类别，

和

分别代表在y_i类别下全局特征空间的中心点和局部特征空间的中心点。

优选地，步骤S3中所述平方差损失函数如下：

，

，

其中，M代表同一目标间的模态个数。

一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序执行如上所述的水下三维跨模态联合检索方法。

一种电子设备，包括处理器和存储器，其中处理器、存储器通过通信总线完成相互间的通信；存储器，用于存储计算机程序；处理器，用于执行存储器上所存放的计算机程序时，实现如上所述的水下三维跨模态联合检索方法。

与现有技术相比，本发明的具体有益效果为：

本发明通过三维水下目标数据多种模态的联合建模，构建了基于不同目标多种模态下计算高效、细节丰富的层次特征描述子，通过计算层次特征描述子间的相似性，来衡量目标物体间的相似度，联合优化三维目标检索的训练进程，进而能够实现三维水下目标跨模态间的精准检索。

附图说明

图1为本发明提供的水下三维跨模态联合检索方法流程示意图；

图2为所示局部特征描述子集合提取流程示意图。

具体实施方式

为使本发明的技术方案更加清楚，下面将结合本发明的说明书附图，对本发明实施例中的技术方案进行清楚、完整地描述，需要说明的是，以下实施例仅用于更好地理解本发明的技术方案，而不应理解为对本发明的限制。

实施例1.

本实施例提供了一种水下三维跨模态联合检索方法，如图1所示，包括如下步骤：

S2、针对映射到高维语义空间的局部特征描述子集合，使用双线性池化方法将局部特征描述子集合映射为局部特征集合紧致描述子，所使用的映射能够保持原有的局部特征集合之间的距离相似不变性；

S3、隐式建模全局特征描述子与局部特征集合紧致描述子，生成统一的低级别域间差异层次特征表达，同时，在层次特征集合上执行的相似性度量运算即代表目标特征之间的相似性度量；

S4、使用跨模态中心损失函数和平方差损失函数联合优化跨模态检索网络，最终获得在多个目标模态之间精确的检索结果。

本实施例将水下目标的多模态数据作为输入源，目标数据可以为不同类型的环境或者不同种类的生物，如：岩石、珊瑚、鱼群和潜水员等，采集设备可以用不同类型的传感器元件，如Kinect深度传感相机、Davis 346事件相机、激光雷达和全景相机等，提取其丰富的全局特征描述子和局部特征描述子集合，并通过衡量高维语义空间层次特征描述子间的相似性，实现水下三维目标的联合检索。

实施例2.

本实施例为对实施例1的进一步举例说明，所述多模态水下目标数据包括网格数据、点云数据以及多视角图像数据。

实施例3.

本实施例为对实施例1的进一步举例说明，所述S1具体包括：

S1.1、使用全局特征提取器来提取每种模态的全局特征描述子；考虑每种模态数据的域间差异，可以使用不同种类的三维特征提取器提取不同三维模态数据的全局特征描述子，例如，可以使用MeshNet网络提取三角网格数据的全局特征描述子、可以使用DGCNN网络提取点云数据的全局特征描述子以及可以使用MVCNN网络提取多视角图像的全局特征描述子；

，

，

式中，K表示局部特征数，

代表第i个物体的第

种模态的局部特征集合，

代表第j个物体的第

种模态的局部特征集合，

代表不同于m的任何一种模态，可以消除各个模态之间的域间差异性，进而，可使用余弦相似性度量全局特征描述子之间的距离；为了便于理解和计算，后面计算过程中的全局特征描述子和局部特征描述子集合均为映射到高维统一的局部特征语义空间后的描述子集合；

具体的，基于全局特征的映射函数可以为不同种类的非线性映射函数或神经网络，例如：MLP或CNN等，其映射过程如下：

，

式中，

和

分别代表映射到高维语义特征空间之前和之后的第

个水下目标数据的第

种模态的全局特征描述子，

为映射关系。进而，可以使用全局特征描述子

代表目标模态进行后续的余弦相似性度量；

S1.3、如图2所示，使用局部特征提取器来提取每种模态的局部特征描述子集合；与步骤S1.1保持一致，考虑每种模态数据的域间差异，可以使用不同种类的三维特征提取器提取不同三维模态数据的局部特征描述子集合；例如，可以使用MeshNet网络提取三角网格数据的局部特征描述子集合、可以使用DGCNN网络提取点云数据的局部特征描述子集合以及可以使用MVCNN网络提取多视角图像的局部特征描述子集合；

S1.4、采用一个基于局部特征的映射函数将S1.3中的多种模态局部特征描述子集合分别映射到多个高维统一的局部特征语义空间，消除了各个模态局部特征描述子集合的域间差异性；

具体的，基于局部特征的映射函数可以为不同种类的非线性映射函数或神经网络，如：MLP或CNN等，其映射过程如下：

.

式中，

和

分别代表映射到高维语义特征空间之前和之后的第

个水下目标数据的第

种模态的局部特征描述子集合，

为映射关系。为了便于理解和计算，后面计算过程中局部特征描述子集合均为映射到高维统一的局部特征语义空间后的局部特征描述子集合。

实施例4.

本实施例为对实施例3的进一步举例说明，所述S2通过以下方式实现：

将局部特征集合之间的相似性度量等价转化为向量（局部特征集合紧致描述子）之间的相似性度量，具体计算过程如下：

，

，

，

其中，u和v均为介于1~K的整数，

和

代表对

和

双线性池化的结果，进而将局部特征描述子集合

和

映射为局部特征集合紧致描述子

和

。

本实施例通过双线性池化方法得到局部特征集合紧致描述子，进而可以使用局部特征集合紧致描述子之间的相似性度量表示局部特征集合之间的相似性。

实施例5.

本实施例为对实施例4的进一步举例说明，所述S3通过以下方式实现：

，

，

其中，

代表连结操作，

代表第i个物体的第m种模态的全局特征描述子，

代表第j个物体的第

种模态的全局特征描述子，

代表不同于m的任何一种模态，

和

为得到的层次特征描述子。

由于建立一个衡量两个目标模态间相似度的方法，那么既要考虑全局特征描述子之间的相似度，也要考虑局部特征集合紧致描述子之间的相似度。因此，本实施例将全局特征描述子和局部特征集合紧致描述子隐式表达为统一的层次特征描述子。

将两种特征描述子相似性度量转化为一个层次特征描述子的相似性度量，进而通过衡量层次特征描述子之间的相似度确定两个目标模态之间的相似性，，结合层次特征描述子的表达，其整体显式计算过程如下：

，

，

，

其中，

使用余弦距离度量两个特征描述子间的相似性，

和

作为权重系数用来平衡全局特征相似度和局部特征相似度，其计算公式如下：

，

，

。

实施例6.

本实施例为对实施例5的进一步举例说明，步骤S3中所述跨模态中心损失函数如下：

，

，

其中，N代表目标物体个数，M代表同一目标间的模态个数，y_i代表第i个目标的类别，

和

本实施例在全局特征空间和局部特征空间中找寻两个中心点，使属于此类的所有目标均聚焦在同一点，进而消除了模态间的差异干扰。

实施例7.

本实施例为对实施例5的进一步举例说明，步骤S3中所述平方差损失函数如下：

，

，

其中，M代表同一目标间的模态个数。

本实施例通过拉近同一目标间不同模态特征，进而继续消除模态间的差异。

进一步地，由跨模态中心损失函数和平方差损失函数构成总体的损失函数，实现对多模态目标数据的检索过程的优化，其总体损失函数为：

，

其中，每个损失函数前面的系数λ₁、λ₂、μ₁和μ₂作为权重参数，用于平衡整体损失函数，可依据不同场景的优化任务而动态调整。

实施例8.

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序执行如实施例1-7中任意一项所述的水下三维跨模态联合检索方法。

实施例9.

本实施例提供了一种电子设备，包括处理器和存储器，其中处理器、存储器通过通信总线完成相互间的通信；存储器，用于存储计算机程序；处理器，用于执行存储器上所存放的计算机程序时，实现如实施例1-7中任意一项所述的水下三维跨模态联合检索方法。

以上实施例仅为本发明的较佳实施例及所运用技术原理，本领域技术人员应当理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。