CN117593527A - 一种基于链式感知的指向性3d实例分割方法 - Google Patents
一种基于链式感知的指向性3d实例分割方法 Download PDFInfo
- Publication number
- CN117593527A CN117593527A CN202410073323.7A CN202410073323A CN117593527A CN 117593527 A CN117593527 A CN 117593527A CN 202410073323 A CN202410073323 A CN 202410073323A CN 117593527 A CN117593527 A CN 117593527A
- Authority
- CN
- China
- Prior art keywords
- instance
- module
- text
- relation
- reasoning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008447 perception Effects 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000014509 gene expression Effects 0.000 claims abstract description 82
- 230000003993 interaction Effects 0.000 claims abstract description 44
- 238000005065 mining Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了3D实例分割技术领域的一种基于链式感知的指向性3D实例分割方法,包括:步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;步骤S2、获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体;步骤S3、通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系;步骤S4、通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系;步骤S5、基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割。本发明的优点在于:极大的提升了3D实例分割精度。
Description
技术领域
本发明涉及3D实例分割技术领域,特别指一种基于链式感知的指向性3D实例分割方法。
背景技术
随着计算机视觉(CV)和自然语言处理(NLP)的发展,将计算机视觉和自然语言处理联系起来的跨模态任务越来越受到关注。指向性3D实例分割(3DRIS)与传统的3D语义分割范式不同,其在点云场景中分割物体,并通过复杂的自然语言表述来识别,这就要求模型不仅要在解析复杂的引用表达式方面表现出色,而且要在这些点云场景中熟练地定位相应的3D实例。与指向性图像分割(reference image segmentation, RIS)相比,指向性3D实例分割由于点云的稀疏性和不完全性、三维多视图生成的语言描述的多样性,带来了更大的挑战。
Huang等人提供了一个基于分段-匹配范式的方法TGNN。具体来说,首先使用现成的3D语义分割模型获得几个分割建议,然后考虑每个分割建议与文本表述的相似度得分来定位目标实例。虽然该方法取得了良好的性能,但由于缺乏对复杂表达式中的信息词的分析和对象关系的推理,限制了模型对细粒度跨模态特征对齐的能力,进而影响3D实例分割精度。
因此,如何提供一种基于链式感知的指向性3D实例分割方法,实现提升3D实例分割精度,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于链式感知的指向性3D实例分割方法,实现提升3D实例分割精度。
本发明是这样实现的:一种基于链式感知的指向性3D实例分割方法,包括如下步骤:
步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;
步骤S2、获取待分割的3D实例的文本表述,通过所述物体感知模块识别文本表述中提到的物体;
步骤S3、通过所述关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对所述空间信息和关系词进行关系推理,得到各所述物体之间的第一关联关系;
步骤S4、通过所述跨模态交互模块从3D实例提取实例特征,并挖掘所述实例特征与文本表述之间的第二关联关系;
步骤S5、基于所述第一关联关系以及第二关联关系,对所述文本表述指向的3D实例进行分割。
进一步的,所述步骤S1中,所述物体感知模块用于提取文本表述中各单词的文本特征,通过词性分类器预测各单词的词性的类别概率,通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征,通过感知线性层对所述全局文本特征进行线性变换;
通过通道智能计算感知模块选择性激活所述文本表述中与物体相关的特征通道,通过实例对象感知模块结合线性变换后的所述全局文本特征识别文本表述中提到的物体。
进一步的,所述步骤S1中,所述关系推理模块包括一位置指导关系推理子模块以及一语言指导关系推理子模块;
所述位置指导关系推理子模块用于从3D实例中提取空间信息进行关系推理,得到各所述物体之间的关于空间信息的第一关联关系;
所述语言指导关系推理子模块用于从文本表述中提取关系词进行关系推理,得到各所述物体之间的关于关系词的第一关联关系。
进一步的,所述步骤S1中,所述跨模态交互模块包括一语言到实例交互子模块以及一实例到语言交互子模块;
所述语言到实例交互子模块用于挖掘文本表述与实例特征之间的第二关联关系;
所述实例到语言交互子模块用于挖掘实例特征与文本表述之间的第二关联关系。
进一步的,所述步骤S5具体为:
通过单向匹配损失以及双向匹配损失构建的损失函数,计算所述第一关联关系和第二关联关系与文本表述的相似度得分,基于所述相似度得分对文本表述指向的3D实例进行分割。
本发明的优点在于:
通过基于物体感知模块、关系推理模块以及跨模态交互模块构建链式感知模型,接着获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体,通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系,接着通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系,最后基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割;由于对3D实例进行分割前,对文本表述中单词的词性和文本特征进行相应分析,对空间信息和关系词进行关系推理,通过跨模态交互模块促进实例特征与文本表述之间的交互,极大的提升了链式感知模型对细粒度跨模态特征对齐的能力,进而极大的提升了3D实例分割精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于链式感知的指向性3D实例分割方法的流程图。
图2是本发明链式感知模型(CoP)的感知过程示意图。
图3是本发明无指向名称的指向性3D实例分割与有指向名称的指向性3D实例分割的对比示意图。
图4是本发明链式感知模型(CoP)的流程示意图。
图5是本发明物体感知模块(OPM)的结构示意图。
图6是本发明关系推理模块(RRM)的结构示意图。
图7是本发明单向匹配损失和双向匹配损失的对比示意图。
图8是本发明链式感知模型(CoP)针对不同K近邻的效果对比图。
图9是本发明链式感知模型(CoP)与TGNN模型的效果对比图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:对3D实例进行分割前,对文本表述中单词的词性和文本特征进行相应分析,对空间信息和关系词进行关系推理,通过跨模态交互模块促进实例特征与文本表述之间的交互,以提升链式感知模型对细粒度跨模态特征对齐的能力,进而提升3D实例分割精度。
请参照图1至图9所示,本发明一种基于链式感知的指向性3D实例分割方法的较佳实施例,包括如下步骤:
步骤S1、基于物体感知模块(Object Perception Module ,OPM)、关系推理模块(Relation Reasoning Module ,RRM)以及跨模态交互模块(Cross-modal InteractionModule ,CIM)构建一链式感知模型(CoP);
OPM、RRM和CPM被引入来发挥物体感知、关系推理和多模态信息的交互作用;
步骤S2、获取待分割的3D实例的文本表述,通过所述物体感知模块识别文本表述中提到的物体;
步骤S3、通过所述关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对所述空间信息和关系词进行关系推理,得到各所述物体之间的第一关联关系;
步骤S4、通过所述跨模态交互模块从3D实例提取实例特征,并挖掘所述实例特征与文本表述之间的第二关联关系;
步骤S5、基于所述第一关联关系以及第二关联关系,对所述文本表述指向的3D实例进行分割。即在没有具体的目标名称的情况下对文本表述指向的3D实例进行分割。对当前3DRIS数据集的分析表明,文本表述所指向的目标名称可以显著过滤潜在候选对象的数量,甚至可以根据目标名称直接定位参考对象,从而为识别目标提供捷径,为了解决这个问题本发明在没有具体的目标名称的情况下对文本表述指向的3D实例进行分割。
所述步骤S1中,所述物体感知模块用于提取文本表述中各单词的文本特征,通过词性分类器预测各单词的各词性的类别概率,通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征,通过感知线性层对所述全局文本特征进行线性变换;
通过通道智能计算感知模块选择性激活所述文本表述中与物体相关的特征通道,通过实例对象感知模块结合线性变换后的所述全局文本特征识别文本表述中提到的物体。
单词的类别概率预测:
首先使用预训练的SCN主干网络提取3D实例的点云特征,通过点云特征生成每个3D实例的预测mask,使用GRU模型或者BERT模型提取文本表述的文本特征,再将文本特征输入词性分类器来预测每个单词的各词性(实体词、关系词和其他类别词)的类别概率:
;
其中,,均表示可学习参数;/>表示ReLU激活函数;/>,表示第i个单词属于实体词、关系词、其他类别词的权重概率;表示归一化指数函数;/>表示第i个单词的文本特征;/>表示第i个单词属于实体词的概率;/>表示第i个单词属于关系词的概率;/>表示第i个单词属于其他类别词的概率;/>表示文本特征的维度;/>表示中间特征的维度;
全局文本特征通过对所有单词加权求和得到:
;
其中,表示全局文本特征;/>表示文本表述中单词的个数。
感知线性层(Q-LL):
现有的线性层(LL)是一个线性变换,可以表示为矩阵的乘法和加法:
;
本发明通过感知线性层来更新实例特征,与线性层最大的区别就是感知线性层中的可训练参数矩阵M式依赖于全局文本特征,具体构造如下所示:
;
其中,、/>均表示可训练参数;/>用于将参数矩阵由/>变为/>,可训练参数变为/>;/>表示输入特征维度;/>表示输出特征维度。
然而,上述操作有训练时计算量过大的风险,因为本发明采用矩阵分解技术来减少参数量,Q-LL最终表示为:
;
其中,、/>、/>均表示可训练参数;用于将输入参数由/>转为/>;/>表示超参数;U表示进行矩阵分解后的左矩阵。改进前后参数量对比如下:
;
其中,分别表示Q-LL改进前后的参数量,该改进能有效的减少参数量。
通道智能计算感知模块(Channel-wise Object Perception,COP):
通道智能计算感知模块用来有选择性地激活文本表述中提及的物体相关的特征通道;具体而言,通过感知图的元素范围为0到1,由下述操作得:
;
其中,表示sigmoid激活函数;/>表示通道智能感知图;MLP(.)表示多层感知机;/>表示实例特征;/>表示实例特征数量;/>表示取下标操作。
通过将原有实例特征与通道智能感知图相乘,得到通道智能感知的实例特征:
;
其中,表示逐元素点乘;/>表示新的实例特征。
实例对象感知模块(Instance-wise Object Perception,IOP):
实例对象感知模块用于自适应感知文本表述所指向的物体,具体操作类似于通道智能计算感知模块,首先使用由两个Q-LL组成的Q-MLP来更新实例特征,然后使用平均池化聚合更新特征映射的通道维度,并使用Sigmoid激活函数规范化结果值:
;
其中,表示实例感知图。然后使用实例感知图再次更新实例特征:
;
其中,表示更新后的实例特征。
所述步骤S1中,所述关系推理模块包括一位置指导关系推理子模块(Position-guided Relation Reasoning,PRR)以及一语言指导关系推理子模块(Language-guidedRelation Reasoning,LRR);
所述位置指导关系推理子模块用于从3D实例中提取空间信息进行关系推理,得到各所述物体之间的关于空间信息的第一关联关系;
所述语言指导关系推理子模块用于从文本表述中提取关系词进行关系推理,得到各所述物体之间的关于关系词的第一关联关系。
位置指导关系推理子模块:
为建模实例之间的关系,建立了,其中/>代表顶点,与对应的实例特征/>一一对应,/>表示边,/>表示邻接矩阵。为得到邻接矩阵/>,首先计算位移矩阵/>,表示第i个实例与第j个实例之间的位移向量,R表示特征维度信息,具体计算如下所示:
;
其中,表示第i个实例与第j个实例的坐标。
邻接矩阵计算如下:
;
其中,、/>均表示可训练参数矩阵;d表示中间层向量维度;/>表示ReLU激活函数。图/>使用图卷积神经网络进行建模:
;
其中,表示可训练的权重矩阵。
语言指导关系推理子模块:
文本表述中也包含相对位置信息,构建了语言指导的关系图,其中/>代表顶点,与对应的实例特征/>一一对应,/>表示边,/>表示邻接矩阵。为了根据表达式中的关系词构造边关系,关键的第一步是生成关系增强的语言特征,具体操作如下所示:
;
其中,;/>表示第i个语言特征;/>表示语言特征的个数。
邻接矩阵使用两个矩阵乘法构建,以关系增强的语言特征/>作为中介:
;
其中,均表示可训练参数矩阵;T表示转置。
在构建好图后,使用GNN来构建关系:
;
其中,表示训练参数矩阵;/>表示更新后的语言特征。
所述步骤S1中,所述跨模态交互模块包括一语言到实例交互子模块(LII)以及一实例到语言交互子模块(ILI);
所述语言到实例交互子模块用于挖掘文本表述与实例特征之间的第二关联关系;
所述实例到语言交互子模块用于挖掘实例特征与文本表述之间的第二关联关系。
虽然OPM和RRM都基于表达式中的对象词和关系词更新实例特征,但它们忽略了更新语言特征,这导致模式之间的片面互动,而不是平衡的双向交流;为了解决这个问题,本发明提出包括语言到实例交互子模块以及实例到语言交互子模块的跨模态交互模块。
语言到实例交互子模块:
模型通过K近邻算法来进行信息交互,第i个实例和它的第k个近邻的相对位置向量计算如下:
;
其中,,表示第i个实例与它的第k个近邻;/>表示concatenate操作;/>表示可训练的参数矩阵;/>表示中间隐藏层维度;/>表示第i个实例的第k个近邻的空间坐标;/>表示第i个实例到它的第k个近邻的x轴距离;表示第i个实例到它的第k个近邻的y轴距离;/>表示第i个实例到它的第k个近邻的z轴距离;/>表示第i个实例到它的第k个近邻的距离;/>表示/>的平方;/>表示/>的平方;/>表示/>的平方。
模型继续计算表达式的第j个单词与第i个实例的第k个近邻之间的注意权重:
;
其中,均表示可训练参数矩阵;/>表示第i个实例的第k个近邻的特征;/>表示第j个单词的文本特征;/>表示文本特征。
接下来,通过对表达式中每个单词特征的加权求和,得到与实例相关的句子特征:
;
最后结合k近邻特征、各自的相对坐标特征和实例依赖的句子特征,得到交互后的实例特征:
;
其中,,/>,/>表示经过文本-实例交互后的特征。
实例到语言交互子模块:
在得到实例特征和语言特征/>后,计算它们之间的注意力矩阵:
;
最后 ,在经过实例—语言交互后,模型得到了新的语言特征:
;
其中,表示新生成的语言特征。
所述步骤S5具体为:
通过单向匹配损失以及双向匹配损失构建的损失函数,计算所述第一关联关系和第二关联关系与文本表述的相似度得分,基于所述相似度得分对文本表述指向的3D实例进行分割。即通过计算3D实例与文本表述(语言特征)之间的相似度得分,将相似度得分最高的3D实例列为文本表述指向的目标对象。
为获得文本表述与单个实例之间的相似性得分,首先推导文本表述本身的全局表示。具体来说,根据文本表述中每个对象和关系词的关联概率重新加权:
;
其中,表示文本表述的全局表征。文本表述与实例的相似度由点积计算:
;
其中,分别表示文本表述特征与实例特征,然后softmax-normalized相似度得分计算如下:
;
其中,τ= 1,表示softmax函数的温度参数;分别表示场景中实例和文本表述中单词的数量。
单向匹配损失:
传统方法通过交叉熵损失得到匹配实例与文本表述之间的相似度:
;
其中,表示GT相似度得分向量,其中负对和正对的相似度得分分别为0和1。
双向匹配损失:
由于一个实例可以被多个文本表述引用,因此可能存在多个正对。因此采用Kullback-Leibler (KL)散度作为对比损失,考虑实例与文本表述之间的匹配关系:
;
其中,表示KL散度;/>表示GT相似度得分向量,其中负对和正对的相似度得分分别为0和1。最终的损失函数如下所示:
;
其中,α和β分别表示文本到实例损失和实例到文本损失的加权参数。
实验验证:
为评估链式感知模型的有效性,在ScanRefer数据集上就本发明与传统的3DRIS进行实验,本发明的模型性能有着显著的性能提升。就3DRIS任务而言,GRU和BERT分别实现了3.3%和2.1% 的mIOU的增长,就X-3DRIS(本发明)任务而言,GRU和BERT分别实现了2.3%和2.2% 的mIOU的提升。
就模型从3DRIS任务到X-3DRIS任务的迁移性能而言,本发明相比于传统在GRU和BERT两种文本提取器的条件下分别实现了0.5%和0.8% 的mIOU的提升;从X-3DRIS任务到3DRIS任务的迁移性能而言,本发明相比传统也在GRU和BERT两种文本提取器的条件下分别实现了1.7%和1.6% 的mIOU的提升。
表1为本发明与SOTA方法在ScanRefer数据集上的比较:
表2为迁移学习性能比较:
综上所述,本发明的优点在于:
通过基于物体感知模块、关系推理模块以及跨模态交互模块构建链式感知模型,接着获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体,通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系,接着通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系,最后基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割;由于对3D实例进行分割前,对文本表述中单词的词性和文本特征进行相应分析,对空间信息和关系词进行关系推理,通过跨模态交互模块促进实例特征与文本表述之间的交互,极大的提升了链式感知模型对细粒度跨模态特征对齐的能力,进而极大的提升了3D实例分割精度。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (5)
1.一种基于链式感知的指向性3D实例分割方法,其特征在于:包括如下步骤:
步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;
步骤S2、获取待分割的3D实例的文本表述,通过所述物体感知模块识别文本表述中提到的物体;
步骤S3、通过所述关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对所述空间信息和关系词进行关系推理,得到各所述物体之间的第一关联关系;
步骤S4、通过所述跨模态交互模块从3D实例提取实例特征,并挖掘所述实例特征与文本表述之间的第二关联关系;
步骤S5、基于所述第一关联关系以及第二关联关系,对所述文本表述指向的3D实例进行分割。
2.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法,其特征在于:所述步骤S1中,所述物体感知模块用于提取文本表述中各单词的文本特征,通过词性分类器预测各单词的词性的类别概率,通过所述类别概率对各单词的文本特征进行加权求和得到全局文本特征,通过感知线性层对所述全局文本特征进行线性变换;
通过通道智能计算感知模块选择性激活所述文本表述中与物体相关的特征通道,通过实例对象感知模块结合线性变换后的所述全局文本特征识别文本表述中提到的物体。
3.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法,其特征在于:所述步骤S1中,所述关系推理模块包括一位置指导关系推理子模块以及一语言指导关系推理子模块;
所述位置指导关系推理子模块用于从3D实例中提取空间信息进行关系推理,得到各所述物体之间的关于空间信息的第一关联关系;
所述语言指导关系推理子模块用于从文本表述中提取关系词进行关系推理,得到各所述物体之间的关于关系词的第一关联关系。
4.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法,其特征在于:所述步骤S1中,所述跨模态交互模块包括一语言到实例交互子模块以及一实例到语言交互子模块;
所述语言到实例交互子模块用于挖掘文本表述与实例特征之间的第二关联关系;
所述实例到语言交互子模块用于挖掘实例特征与文本表述之间的第二关联关系。
5.如权利要求1所述的一种基于链式感知的指向性3D实例分割方法,其特征在于:所述步骤S5具体为:
通过单向匹配损失以及双向匹配损失构建的损失函数,计算所述第一关联关系和第二关联关系与文本表述的相似度得分,基于所述相似度得分对文本表述指向的3D实例进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410073323.7A CN117593527B (zh) | 2024-01-18 | 2024-01-18 | 一种基于链式感知的指向性3d实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410073323.7A CN117593527B (zh) | 2024-01-18 | 2024-01-18 | 一种基于链式感知的指向性3d实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593527A true CN117593527A (zh) | 2024-02-23 |
CN117593527B CN117593527B (zh) | 2024-05-24 |
Family
ID=89911931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410073323.7A Active CN117593527B (zh) | 2024-01-18 | 2024-01-18 | 一种基于链式感知的指向性3d实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593527B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533048A (zh) * | 2018-05-23 | 2019-12-03 | 上海交通大学 | 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 |
CN111275711A (zh) * | 2020-01-08 | 2020-06-12 | 西安电子科技大学 | 基于轻量级卷积神经网络模型的实时图像语义分割方法 |
US10803328B1 (en) * | 2017-11-15 | 2020-10-13 | Uatc, Llc | Semantic and instance segmentation |
CN112016546A (zh) * | 2020-08-14 | 2020-12-01 | 中国银联股份有限公司 | 一种文本区域的定位方法及装置 |
CN112734881A (zh) * | 2020-12-01 | 2021-04-30 | 北京交通大学 | 基于显著性场景图分析的文本合成图像方法及系统 |
CN113537000A (zh) * | 2021-07-01 | 2021-10-22 | 大连民族大学 | 单目视觉实例分割深度链式特征提取网络、方法和系统 |
CN114119975A (zh) * | 2021-11-25 | 2022-03-01 | 中国人民公安大学 | 一种语言引导的跨模态实例分割方法 |
CN117079177A (zh) * | 2023-07-04 | 2023-11-17 | 北京工业大学 | 一种基于指称解析与感知增强的文本指代视频对象分割方法 |
CN117373111A (zh) * | 2023-09-13 | 2024-01-09 | 华南理工大学 | 一种基于AutoHOINet的人-物交互检测方法 |
-
2024
- 2024-01-18 CN CN202410073323.7A patent/CN117593527B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803328B1 (en) * | 2017-11-15 | 2020-10-13 | Uatc, Llc | Semantic and instance segmentation |
CN110533048A (zh) * | 2018-05-23 | 2019-12-03 | 上海交通大学 | 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 |
CN111275711A (zh) * | 2020-01-08 | 2020-06-12 | 西安电子科技大学 | 基于轻量级卷积神经网络模型的实时图像语义分割方法 |
CN112016546A (zh) * | 2020-08-14 | 2020-12-01 | 中国银联股份有限公司 | 一种文本区域的定位方法及装置 |
CN112734881A (zh) * | 2020-12-01 | 2021-04-30 | 北京交通大学 | 基于显著性场景图分析的文本合成图像方法及系统 |
CN113537000A (zh) * | 2021-07-01 | 2021-10-22 | 大连民族大学 | 单目视觉实例分割深度链式特征提取网络、方法和系统 |
CN114119975A (zh) * | 2021-11-25 | 2022-03-01 | 中国人民公安大学 | 一种语言引导的跨模态实例分割方法 |
CN117079177A (zh) * | 2023-07-04 | 2023-11-17 | 北京工业大学 | 一种基于指称解析与感知增强的文本指代视频对象分割方法 |
CN117373111A (zh) * | 2023-09-13 | 2024-01-09 | 华南理工大学 | 一种基于AutoHOINet的人-物交互检测方法 |
Non-Patent Citations (1)
Title |
---|
CHANGLI WU, YIWEI MA ET AL.: "3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation", Retrieved from the Internet <URL:https://doi.org/10.48550/arXiv.2308.16632> * |
Also Published As
Publication number | Publication date |
---|---|
CN117593527B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
CN111488474B (zh) | 基于增强注意力的细粒度手绘草图图像检索方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN113610126A (zh) | 基于多目标检测模型无标签的知识蒸馏方法及存储介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111611367B (zh) | 一种引入外部知识的视觉问答方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN112347932A (zh) | 一种点云-多视图融合的三维模型识别方法 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115965789A (zh) | 一种基于场景感知类注意力的遥感图像语义分割方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113868451A (zh) | 基于上下文级联感知的社交网络跨模态对话方法及装置 | |
KR102156249B1 (ko) | 변분 순환 오토인코딩 방식의 자동 색인 시스템 및 방법 | |
CN117593527B (zh) | 一种基于链式感知的指向性3d实例分割方法 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
CN115098646A (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
CN113343100B (zh) | 一种基于知识图谱的智慧城市资源推荐方法和系统 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |