CN117593527A

CN117593527A - 一种基于链式感知的指向性3d实例分割方法

Info

Publication number: CN117593527A
Application number: CN202410073323.7A
Authority: CN
Inventors: 纪荣嵘; 孙晓帅; 马祎炜; 纪家沂; 钱志鹏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593527B

Abstract

本发明提供了3D实例分割技术领域的一种基于链式感知的指向性3D实例分割方法，包括：步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型；步骤S2、获取待分割的3D实例的文本表述，通过物体感知模块识别文本表述中提到的物体；步骤S3、通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词，并对空间信息和关系词进行关系推理，得到各物体之间的第一关联关系；步骤S4、通过跨模态交互模块从3D实例提取实例特征，并挖掘实例特征与文本表述之间的第二关联关系；步骤S5、基于第一关联关系以及第二关联关系，对文本表述指向的3D实例进行分割。本发明的优点在于：极大的提升了3D实例分割精度。

Description

一种基于链式感知的指向性3D实例分割方法

技术领域

本发明涉及3D实例分割技术领域，特别指一种基于链式感知的指向性3D实例分割方法。

背景技术

随着计算机视觉(CV)和自然语言处理(NLP)的发展，将计算机视觉和自然语言处理联系起来的跨模态任务越来越受到关注。指向性3D实例分割(3DRIS)与传统的3D语义分割范式不同，其在点云场景中分割物体，并通过复杂的自然语言表述来识别，这就要求模型不仅要在解析复杂的引用表达式方面表现出色，而且要在这些点云场景中熟练地定位相应的3D实例。与指向性图像分割(reference image segmentation, RIS)相比，指向性3D实例分割由于点云的稀疏性和不完全性、三维多视图生成的语言描述的多样性，带来了更大的挑战。

Huang等人提供了一个基于分段-匹配范式的方法TGNN。具体来说，首先使用现成的3D语义分割模型获得几个分割建议，然后考虑每个分割建议与文本表述的相似度得分来定位目标实例。虽然该方法取得了良好的性能，但由于缺乏对复杂表达式中的信息词的分析和对象关系的推理，限制了模型对细粒度跨模态特征对齐的能力，进而影响3D实例分割精度。

因此，如何提供一种基于链式感知的指向性3D实例分割方法，实现提升3D实例分割精度，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于链式感知的指向性3D实例分割方法，实现提升3D实例分割精度。

本发明是这样实现的：一种基于链式感知的指向性3D实例分割方法，包括如下步骤：

步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型；

步骤S2、获取待分割的3D实例的文本表述，通过所述物体感知模块识别文本表述中提到的物体；

步骤S3、通过所述关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词，并对所述空间信息和关系词进行关系推理，得到各所述物体之间的第一关联关系；

步骤S4、通过所述跨模态交互模块从3D实例提取实例特征，并挖掘所述实例特征与文本表述之间的第二关联关系；

步骤S5、基于所述第一关联关系以及第二关联关系，对所述文本表述指向的3D实例进行分割。

进一步的，所述步骤S1中，所述物体感知模块用于提取文本表述中各单词的文本特征，通过词性分类器预测各单词的词性的类别概率，通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征，通过感知线性层对所述全局文本特征进行线性变换；

通过通道智能计算感知模块选择性激活所述文本表述中与物体相关的特征通道，通过实例对象感知模块结合线性变换后的所述全局文本特征识别文本表述中提到的物体。

进一步的，所述步骤S1中，所述关系推理模块包括一位置指导关系推理子模块以及一语言指导关系推理子模块；

所述位置指导关系推理子模块用于从3D实例中提取空间信息进行关系推理，得到各所述物体之间的关于空间信息的第一关联关系；

所述语言指导关系推理子模块用于从文本表述中提取关系词进行关系推理，得到各所述物体之间的关于关系词的第一关联关系。

进一步的，所述步骤S1中，所述跨模态交互模块包括一语言到实例交互子模块以及一实例到语言交互子模块；

所述语言到实例交互子模块用于挖掘文本表述与实例特征之间的第二关联关系；

所述实例到语言交互子模块用于挖掘实例特征与文本表述之间的第二关联关系。

进一步的，所述步骤S5具体为：

通过单向匹配损失以及双向匹配损失构建的损失函数，计算所述第一关联关系和第二关联关系与文本表述的相似度得分，基于所述相似度得分对文本表述指向的3D实例进行分割。

本发明的优点在于：

通过基于物体感知模块、关系推理模块以及跨模态交互模块构建链式感知模型，接着获取待分割的3D实例的文本表述，通过物体感知模块识别文本表述中提到的物体，通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词，并对空间信息和关系词进行关系推理，得到各物体之间的第一关联关系，接着通过跨模态交互模块从3D实例提取实例特征，并挖掘实例特征与文本表述之间的第二关联关系，最后基于第一关联关系以及第二关联关系，对文本表述指向的3D实例进行分割；由于对3D实例进行分割前，对文本表述中单词的词性和文本特征进行相应分析，对空间信息和关系词进行关系推理，通过跨模态交互模块促进实例特征与文本表述之间的交互，极大的提升了链式感知模型对细粒度跨模态特征对齐的能力，进而极大的提升了3D实例分割精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于链式感知的指向性3D实例分割方法的流程图。

图2是本发明链式感知模型（CoP）的感知过程示意图。

图3是本发明无指向名称的指向性3D实例分割与有指向名称的指向性3D实例分割的对比示意图。

图4是本发明链式感知模型（CoP）的流程示意图。

图5是本发明物体感知模块（OPM）的结构示意图。

图6是本发明关系推理模块（RRM）的结构示意图。

图7是本发明单向匹配损失和双向匹配损失的对比示意图。

图8是本发明链式感知模型（CoP）针对不同K近邻的效果对比图。

图9是本发明链式感知模型（CoP）与TGNN模型的效果对比图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：对3D实例进行分割前，对文本表述中单词的词性和文本特征进行相应分析，对空间信息和关系词进行关系推理，通过跨模态交互模块促进实例特征与文本表述之间的交互，以提升链式感知模型对细粒度跨模态特征对齐的能力，进而提升3D实例分割精度。

请参照图1至图9所示，本发明一种基于链式感知的指向性3D实例分割方法的较佳实施例，包括如下步骤：

步骤S1、基于物体感知模块（Object Perception Module ，OPM）、关系推理模块（Relation Reasoning Module ，RRM）以及跨模态交互模块（Cross-modal InteractionModule ，CIM）构建一链式感知模型（CoP）；

OPM、RRM和CPM被引入来发挥物体感知、关系推理和多模态信息的交互作用；

步骤S5、基于所述第一关联关系以及第二关联关系，对所述文本表述指向的3D实例进行分割。即在没有具体的目标名称的情况下对文本表述指向的3D实例进行分割。对当前3DRIS数据集的分析表明，文本表述所指向的目标名称可以显著过滤潜在候选对象的数量，甚至可以根据目标名称直接定位参考对象，从而为识别目标提供捷径，为了解决这个问题本发明在没有具体的目标名称的情况下对文本表述指向的3D实例进行分割。

所述步骤S1中，所述物体感知模块用于提取文本表述中各单词的文本特征，通过词性分类器预测各单词的各词性的类别概率，通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征，通过感知线性层对所述全局文本特征进行线性变换；

单词的类别概率预测：

首先使用预训练的SCN主干网络提取3D实例的点云特征，通过点云特征生成每个3D实例的预测mask，使用GRU模型或者BERT模型提取文本表述的文本特征，再将文本特征输入词性分类器来预测每个单词的各词性（实体词、关系词和其他类别词）的类别概率：

；

其中，，均表示可学习参数；/>表示ReLU激活函数；/>，表示第i个单词属于实体词、关系词、其他类别词的权重概率；表示归一化指数函数；/>表示第i个单词的文本特征；/>表示第i个单词属于实体词的概率；/>表示第i个单词属于关系词的概率；/>表示第i个单词属于其他类别词的概率；/>表示文本特征的维度；/>表示中间特征的维度；

全局文本特征通过对所有单词加权求和得到：

；

其中，表示全局文本特征；/>表示文本表述中单词的个数。

感知线性层（Q-LL）：

现有的线性层(LL)是一个线性变换，可以表示为矩阵的乘法和加法：

；

本发明通过感知线性层来更新实例特征，与线性层最大的区别就是感知线性层中的可训练参数矩阵M式依赖于全局文本特征，具体构造如下所示：

；

其中，、/>均表示可训练参数；/>用于将参数矩阵由/>变为/>，可训练参数变为/>；/>表示输入特征维度；/>表示输出特征维度。

然而，上述操作有训练时计算量过大的风险，因为本发明采用矩阵分解技术来减少参数量，Q-LL最终表示为：

；

其中，、/>、/>均表示可训练参数；用于将输入参数由/>转为/>；/>表示超参数；U表示进行矩阵分解后的左矩阵。改进前后参数量对比如下：

；

其中，分别表示Q-LL改进前后的参数量，该改进能有效的减少参数量。

通道智能计算感知模块（Channel-wise Object Perception，COP）：

通道智能计算感知模块用来有选择性地激活文本表述中提及的物体相关的特征通道；具体而言，通过感知图的元素范围为0到1，由下述操作得：

；

其中，表示sigmoid激活函数；/>表示通道智能感知图；MLP(.)表示多层感知机；/>表示实例特征；/>表示实例特征数量；/>表示取下标操作。

通过将原有实例特征与通道智能感知图相乘，得到通道智能感知的实例特征：

；

其中，表示逐元素点乘；/>表示新的实例特征。

实例对象感知模块（Instance-wise Object Perception，IOP）：

实例对象感知模块用于自适应感知文本表述所指向的物体，具体操作类似于通道智能计算感知模块，首先使用由两个Q-LL组成的Q-MLP来更新实例特征，然后使用平均池化聚合更新特征映射的通道维度，并使用Sigmoid激活函数规范化结果值:

；

其中，表示实例感知图。然后使用实例感知图再次更新实例特征：

；

其中，表示更新后的实例特征。

所述步骤S1中，所述关系推理模块包括一位置指导关系推理子模块（Position-guided Relation Reasoning，PRR）以及一语言指导关系推理子模块（Language-guidedRelation Reasoning，LRR）；

位置指导关系推理子模块：

为建模实例之间的关系，建立了,其中/>代表顶点，与对应的实例特征/>一一对应，/>表示边，/>表示邻接矩阵。为得到邻接矩阵/>，首先计算位移矩阵/>，表示第i个实例与第j个实例之间的位移向量，R表示特征维度信息，具体计算如下所示：

；

其中，表示第i个实例与第j个实例的坐标。

邻接矩阵计算如下：

；

其中，、/>均表示可训练参数矩阵；d表示中间层向量维度；/>表示ReLU激活函数。图/>使用图卷积神经网络进行建模：

；

其中，表示可训练的权重矩阵。

语言指导关系推理子模块：

文本表述中也包含相对位置信息，构建了语言指导的关系图，其中/>代表顶点，与对应的实例特征/>一一对应，/>表示边，/>表示邻接矩阵。为了根据表达式中的关系词构造边关系，关键的第一步是生成关系增强的语言特征，具体操作如下所示：

；

其中，；/>表示第i个语言特征；/>表示语言特征的个数。

邻接矩阵使用两个矩阵乘法构建，以关系增强的语言特征/>作为中介：

；

其中，均表示可训练参数矩阵；T表示转置。

在构建好图后，使用GNN来构建关系：

；

其中，表示训练参数矩阵；/>表示更新后的语言特征。

所述步骤S1中，所述跨模态交互模块包括一语言到实例交互子模块（LII）以及一实例到语言交互子模块（ILI）；

虽然OPM和RRM都基于表达式中的对象词和关系词更新实例特征，但它们忽略了更新语言特征，这导致模式之间的片面互动，而不是平衡的双向交流；为了解决这个问题，本发明提出包括语言到实例交互子模块以及实例到语言交互子模块的跨模态交互模块。

语言到实例交互子模块：

模型通过K近邻算法来进行信息交互，第i个实例和它的第k个近邻的相对位置向量计算如下：

；

其中，，表示第i个实例与它的第k个近邻；/>表示concatenate操作；/>表示可训练的参数矩阵；/>表示中间隐藏层维度；/>表示第i个实例的第k个近邻的空间坐标；/>表示第i个实例到它的第k个近邻的x轴距离；表示第i个实例到它的第k个近邻的y轴距离；/>表示第i个实例到它的第k个近邻的z轴距离；/>表示第i个实例到它的第k个近邻的距离；/>表示/>的平方；/>表示/>的平方；/>表示/>的平方。

模型继续计算表达式的第j个单词与第i个实例的第k个近邻之间的注意权重：

；

其中，均表示可训练参数矩阵；/>表示第i个实例的第k个近邻的特征；/>表示第j个单词的文本特征；/>表示文本特征。

接下来，通过对表达式中每个单词特征的加权求和，得到与实例相关的句子特征：

；

最后结合k近邻特征、各自的相对坐标特征和实例依赖的句子特征，得到交互后的实例特征：

；

其中，，/>，/>表示经过文本-实例交互后的特征。

实例到语言交互子模块：

在得到实例特征和语言特征/>后，计算它们之间的注意力矩阵：

；

最后，在经过实例—语言交互后，模型得到了新的语言特征：

；

其中，表示新生成的语言特征。

所述步骤S5具体为：

通过单向匹配损失以及双向匹配损失构建的损失函数，计算所述第一关联关系和第二关联关系与文本表述的相似度得分，基于所述相似度得分对文本表述指向的3D实例进行分割。即通过计算3D实例与文本表述（语言特征）之间的相似度得分，将相似度得分最高的3D实例列为文本表述指向的目标对象。

为获得文本表述与单个实例之间的相似性得分，首先推导文本表述本身的全局表示。具体来说，根据文本表述中每个对象和关系词的关联概率重新加权：

；

其中，表示文本表述的全局表征。文本表述与实例的相似度由点积计算：

；

其中，分别表示文本表述特征与实例特征，然后softmax-normalized相似度得分计算如下：

；

其中，τ= 1，表示softmax函数的温度参数；分别表示场景中实例和文本表述中单词的数量。

单向匹配损失：

传统方法通过交叉熵损失得到匹配实例与文本表述之间的相似度：

；

其中，表示GT相似度得分向量，其中负对和正对的相似度得分分别为0和1。

双向匹配损失：

由于一个实例可以被多个文本表述引用，因此可能存在多个正对。因此采用Kullback-Leibler (KL)散度作为对比损失，考虑实例与文本表述之间的匹配关系：

；

其中，表示KL散度；/>表示GT相似度得分向量，其中负对和正对的相似度得分分别为0和1。最终的损失函数如下所示：

；

其中，α和β分别表示文本到实例损失和实例到文本损失的加权参数。

实验验证：

为评估链式感知模型的有效性，在ScanRefer数据集上就本发明与传统的3DRIS进行实验，本发明的模型性能有着显著的性能提升。就3DRIS任务而言，GRU和BERT分别实现了3.3%和2.1% 的mIOU的增长，就X-3DRIS（本发明）任务而言，GRU和BERT分别实现了2.3%和2.2% 的mIOU的提升。

就模型从3DRIS任务到X-3DRIS任务的迁移性能而言，本发明相比于传统在GRU和BERT两种文本提取器的条件下分别实现了0.5%和0.8% 的mIOU的提升；从X-3DRIS任务到3DRIS任务的迁移性能而言，本发明相比传统也在GRU和BERT两种文本提取器的条件下分别实现了1.7%和1.6% 的mIOU的提升。

表1为本发明与SOTA方法在ScanRefer数据集上的比较：

表2为迁移学习性能比较：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于链式感知的指向性3D实例分割方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法，其特征在于：所述步骤S1中，所述物体感知模块用于提取文本表述中各单词的文本特征，通过词性分类器预测各单词的词性的类别概率，通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征，通过感知线性层对所述全局文本特征进行线性变换；

3.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法，其特征在于：所述步骤S1中，所述关系推理模块包括一位置指导关系推理子模块以及一语言指导关系推理子模块；

4.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法，其特征在于：所述步骤S1中，所述跨模态交互模块包括一语言到实例交互子模块以及一实例到语言交互子模块；

5.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法，其特征在于：所述步骤S5具体为：