CN113034592B - 基于自然语言描述的三维场景目标检测建模及检测方法 - Google Patents
基于自然语言描述的三维场景目标检测建模及检测方法 Download PDFInfo
- Publication number
- CN113034592B CN113034592B CN202110251422.6A CN202110251422A CN113034592B CN 113034592 B CN113034592 B CN 113034592B CN 202110251422 A CN202110251422 A CN 202110251422A CN 113034592 B CN113034592 B CN 113034592B
- Authority
- CN
- China
- Prior art keywords
- target
- graph
- dimensional
- candidate frame
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自然语言描述的三维场景目标检测的建模及检测方法。方法包括:①设计语言先验图网络,用于将生成的名词短语及关系短语进行图表示;②构建点云场景中三维目标化外接候选框初始化预测网络;③基于语言先验图更新后的名词短语特征进行引导,对三维目标初始化候选框进行冗余裁剪及更新;④构建三维目标候选框视觉关系图网络;⑤基于更新后的名词短语特征和关系短语特征,分别与视觉关系图的节点和边进行相似性得分匹配,定位最终的三维目标。本发明通过构建语言先验图和视觉关系图,高效地捕获全局上下文依赖关系,同时还开发了交叉跨模态的图匹配策略,避免增加计算量的同时有效地提升大规模三维点云场景的目标定位精度。
Description
技术领域
本发明属于人工智能与计算机视觉领域,具体涉及一种基于自然语言描述的三维场景目标检测建模及检测方法。
背景技术
近年来,随着激光雷达和深度相机等的广泛应用,移动机器人可以更好地获得工作场景的三维信息,基于深度学习的三维点云场景理解引起了很多关注。人类通过自然语言的方式对移动机器人发出指令,移动机器人根据自然语言描述信息在所处的三维场景中定位出目标物体,将大幅度提升移动机器人的智能化水平。依据自然语言描述进行三维点云目标定位存在如何抽象出自由式语言描述关系特征、如何跨模态地对自然语言和三维点云信息进行融合处理等问题。
目前基于文本语言描述引导的三维点云目标检测方法只提取语言描述的全局特征,忽略了自由式语言描述中长距离名词的上下文关系,且没有深度融合跨语言和三维点云模态之间的抽象信息,限制了三维目标定位精度,制约了移动机器人以更智能的方式理解人类自然语言并执行相应的后续任务。
发明内容
本发明的目的在于提供一种基于自然语言描述的三维场景目标检测建模及检测方法,用以解决现有技术中的三维目标定位精度不足的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于自然语言描述的三维场景目标检测建模方法,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
所述的图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
进一步的,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
更进一步的,所述的损失函数为:
其中为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,为目标候选框更新中候选框偏移量计算的损失,为图匹配最终目标定位中边的相似性得分计算的损失,为图匹配的相似性得分计算的损失,Ldet为三维目标候选框初始化的损失,τ1,τ2,τ3,τ4为加权系数且取值范围均为0-1。
一种基于自然语言描述的三维场景目标检测方法,包括如下步骤:
步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入任一种基于自然语言描述的三维场景目标检测建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
本发明与现有技术相比具有以下技术特点:
(1)本发明通过对自由式自然语言描述进行针对性的解析,利用解析得到的名词短语和关系短语构建自然语言先验图网络,通过基于注意力机制的特征更新策略,有效地提取自然语言描述中的目标信息及关系信息,克服了现有技术中对复杂语言描述无法提取长距离上下文信息的问题,使得本发明具有能够更好地理解自然语言描述,进而为目标的定位提供准确的引导先验信息的优点。
(2)本发明通过自然语言描述引导从复杂三维点云场景中定位出目标物体,利用自然语言先验图的节点特征作为先验进行目标候选框的冗余裁剪及更新,有效提升了初始化目标候选框的精度,客服了现有技术中视觉场景图构建中由于冗余造成的运算量大且候选框精度低的问题,使得本发明具有能够建立具有更强特征表示能力的三维目标视觉场景图的优点。
(3)本发明基于自然语言先验图的节点和边特征与三维目标视觉场景图进行相似性匹配,有效突破了自然语言和三维点云的跨模态特征域差异的瓶颈,克服了现有技术中无法深度融合自然语言和三维点云的多模态特征问题,使得本发明具有能够基于对自然语言的理解在三维点云场景中精准地定位到目标物体的优点。
附图说明
图1是基于自然语言描述引导的三维场景目标定位方法的整体框架;
图2是自然语言先验图的更新示意图;
图3是三维目标视觉场景图的更新示意图;
图4是三维场景目标定位结果示意图。
具体实施方式
首先对本发明中出现的技术词语进行解释:
临近节点:邻近节点是指与某一节点存在边的所有节点。
PointNet++:主干点云特征提取网络,在不同尺度提取点云局部特征,通过包含下采样和上采样的多层网络结构得到点云深层特征。该网络的出处为:Qi C R,Yi L,Su H,etal.PointNet++deep hierarchical feature learning on point sets in a metricspace[C]//Proceedings of the 31st International Conference on NeuralInformation Processing Systems.2017:5105-5114.
VoteNet:投票策略,该策略通过主干点云网络PointNet++传递输入点云之后,对一组种子点进行采样,并根据它们的特征生成投票,投票的目标是到达目标中心,投票集群出现在目标中心附近,然后可以通过一个学习模块进行聚合,生成初始化候选框集合。该策略的出处为:Qi C R,Litany O,He K,et al.Deep hough voting for 3d objectdetection in point clouds[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2019:9277-9286.
相似性匹配:比较两个特征的相似性,将两个特征输入到卷积网络中运算,得到一个概率值,根据概率值的大小设定阈值判断二者相似性。
注意力机制:计算某一指定特征与其它所有特征的关系,这个关系是用归一化的权重值表示,然后将其它所有特征与它们对应权重值相乘后再相加,用来更新某一指定特征。注意力机制的出处为:Vaswani A,Shazeer N,Parmar N,et al.Attention is all youneed[C]//Proceedings of the 31st International Conference on NeuralInformation Processing Systems.2017:6000-6010.
最小联合区域:能够同时包含两个候选框最小外接框区域。
偏移量:候选框表示为中心坐标、长宽高和位姿角度,偏移量是指在中心坐标、长宽高和位姿角度上的偏移值,然后与原始值相加,得到更新后的候选框。
多层感知机:用[1,1]大小的卷积核去做多层卷积操作,用来做特征提取。
在本实施例中公开了一种图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
三维场景点云与步骤1的自然语言描述相关是指:一条自然语言描述所描述的对象在空间上处于一个三维场景中,称该条自然语言描述和该三维场景所对应的三维场景点云相关。
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
在本实施例中还公开了一种基于自然语言描述的三维场景目标检测建模方法,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为三维场景目标检测模型。
具体的,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
具体的,步骤三训练时网络的损失函数为:
其中为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,为目标候选框更新中候选框偏移量计算的损失,为图匹配最终目标定位中边的相似性得分计算损失,为图匹配最终目标定位中节点的相似性得分计算损失,Ldet为三维目标候选框初始化网络的损失,τ1,τ2,τ3,τ4为平衡损失项的加权系数且取值范围为0-1。
在本实施例中还公开了一种基于自然语言描述的三维场景目标检测方法,包括如下步骤:
步骤a:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤b:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入三维场景目标检测模型中得到目标候选框。
实施例1
在本实施例中公开了一种图网络构建方法,在上述实施例的基础上,还公开了如下技术特征,该方法包括如下子步骤:
步骤c:通过注意力机制聚合所有与指定名词短语节点存在边的邻近节点和边的特征来更新每个名词短语节点pi,得到具有全局上下文感知能力的节点名词短语特征基于更新后的每一对存在边的名词短语节点<pi,pj>,通过名词对短语特征与原来边特征相加,得到更新后的边特征
步骤e:采用PointNet++作为主干点云特征提取网络,并用VoteNet的投票策略生成初始化候选框集合om表示为{cx,cy,cz,lx,ly,lz},其中(cx,cy,cz)为外接框中心坐标,(lx,ly,lz)为外接框在三个坐标轴方向的长度,m、M为正整数,M为初始化候选框的总数;
在本实施例中设置VoteNet的投票策略中的参数为256,则得到包含256个候选框的初始化候选框集合,候选框就类似一个只有骨架的长方体,它用来表示三维点云场景中物体的最小外接空间。候选框本身一般用中心点的坐标和长宽高来表示,而候选框内会包含有它所含空间内目标的三维点,这些所包含目标的三维点特征通常默认用来表示候选框的特征向量,同时用来表示候选框的坐标和长宽高可以提取得到候选框的空间特征向量。
具体的,所述的相似性匹配得分采用如下方法计算:
步骤l:如果一组候选框<oi,k,oj,l>存在关系短语rij,则定义存在边ui,j,k,l,其中,oj,l表示第j个名词短语pj的第l个目标候选框,oi,k表示第i个名词短语pi的第k个目标候选框,所有边的集合使用平均池化法提取视觉特征对<oi,k,oj,l>取最小联合区域,编码最小联合区域的的几何特征级联和表示边特征
在本实施例中还公开了一种三维场景目标检测模型建立方法,在上述实施例的基础上还公开了如下特征:
步骤三进行训练时,每次迭代训练的过程中还包括如下操作:
分别计算的这两组图匹配得分,取边图匹配得分中值最高所对应的目标候选框关系边,该关系边连接有两个目标候选框节点,依据节点图匹配得分,选取这两个节点中值最高即目标候选框。根据目标候选框与真实目标候选框计算损失,更新模型参数;
具体的,图匹配得分采用如下式结构化预测方法计算得到:
其中β为平衡名词短语和关系得分的权重系数,优选的,在本实施例中β=0.7。
具体的,在本实施例中τ1=0.1,τ2=1,τ3=1,τ4=0.1。
实施例2
如图3所示,为语言先验图2中的每个名词节点对应选取得分排名前25的候选框,作为三维目标候选框视觉关系图的节点,分别为oi,k,其中i=1,2,3,k=1,…,25。依据语言先验图中边的存在规律,为存在关系的每对三维目标候选框节点构建边ui,j,k,l,其中i=1,2,3,j=1,2,3,k=1,…,25,l=1,…,25。构建得到三维目标候选框视觉关系图,通过注意力机制聚合所有存在边的邻近节点和边的特征来更新每个节点,基于更新后的每一对存在边的节点,通过节点特征与原来边特征相加,得到更新后的边特征。
Claims (4)
1.基于自然语言描述的三维场景目标检测建模方法,其特征在于,包括如下步骤:
步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
所述的图网络构建方法,包括如下步骤:
步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
2.如权利要求1所述的基于自然语言描述的三维场景目标检测建模方法,其特征在于,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
4.基于自然语言描述的三维场景目标检测方法,其特征在于,包括如下步骤:
步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入权利要求1-3中任一种基于自然语言描述的三维场景目标检测的建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251422.6A CN113034592B (zh) | 2021-03-08 | 2021-03-08 | 基于自然语言描述的三维场景目标检测建模及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251422.6A CN113034592B (zh) | 2021-03-08 | 2021-03-08 | 基于自然语言描述的三维场景目标检测建模及检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113034592A CN113034592A (zh) | 2021-06-25 |
CN113034592B true CN113034592B (zh) | 2021-08-31 |
Family
ID=76467037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251422.6A Active CN113034592B (zh) | 2021-03-08 | 2021-03-08 | 基于自然语言描述的三维场景目标检测建模及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113034592B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657478B (zh) * | 2021-08-10 | 2023-09-22 | 北京航空航天大学 | 一种基于关系建模的三维点云视觉定位方法 |
CN114399515A (zh) * | 2021-12-24 | 2022-04-26 | 复旦大学 | 基于语言描述的类级别目标物6d位姿获取方法及存储介质 |
CN114842313B (zh) * | 2022-05-10 | 2024-05-31 | 北京易航远智科技有限公司 | 基于伪点云的目标检测方法、装置、电子设备和存储介质 |
CN117475089B (zh) * | 2023-12-27 | 2024-03-29 | 浪潮电子信息产业股份有限公司 | 基于预训练语言模型的三维场景生成方法及相关组件 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN110020681A (zh) * | 2019-03-27 | 2019-07-16 | 南开大学 | 基于空间注意力机制的点云特征提取方法 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111192270A (zh) * | 2020-01-03 | 2020-05-22 | 中山大学 | 一种基于点全局上下文关系推理的点云语义分割方法 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111814658A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN112395954A (zh) * | 2020-10-23 | 2021-02-23 | 长沙理工大学 | 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别系统 |
CN112446259A (zh) * | 2019-09-02 | 2021-03-05 | 深圳中兴网信科技有限公司 | 图像处理方法、装置、终端和计算机可读存储介质 |
-
2021
- 2021-03-08 CN CN202110251422.6A patent/CN113034592B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN110020681A (zh) * | 2019-03-27 | 2019-07-16 | 南开大学 | 基于空间注意力机制的点云特征提取方法 |
CN112446259A (zh) * | 2019-09-02 | 2021-03-05 | 深圳中兴网信科技有限公司 | 图像处理方法、装置、终端和计算机可读存储介质 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111192270A (zh) * | 2020-01-03 | 2020-05-22 | 中山大学 | 一种基于点全局上下文关系推理的点云语义分割方法 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111814658A (zh) * | 2020-07-07 | 2020-10-23 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN112395954A (zh) * | 2020-10-23 | 2021-02-23 | 长沙理工大学 | 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113034592A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113034592B (zh) | 基于自然语言描述的三维场景目标检测建模及检测方法 | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
US10019629B2 (en) | Skeleton-based action detection using recurrent neural network | |
US20220414911A1 (en) | Three-dimensional reconstruction method and three-dimensional reconstruction apparatus | |
CN109325547A (zh) | 非机动车图像多标签分类方法、系统、设备及存储介质 | |
CN105701502B (zh) | 一种基于蒙特卡罗数据均衡的图像自动标注方法 | |
CN113033520B (zh) | 一种基于深度学习的树木线虫病害木识别方法及系统 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN111091105A (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN110532859A (zh) | 基于深度进化剪枝卷积网的遥感图像目标检测方法 | |
CN106909877A (zh) | 一种基于点线综合特征的视觉同时建图与定位方法 | |
CN112766229B (zh) | 基于注意力机制的人脸点云图像智能识别系统及方法 | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
EP4227858A1 (en) | Method for determining neural network structure and apparatus thereof | |
WO2021190433A1 (zh) | 更新物体识别模型的方法和装置 | |
CN115018999A (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
CN113011568A (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN111414875A (zh) | 基于深度回归森林的三维点云头部姿态估计系统 | |
CN114140841A (zh) | 点云数据的处理方法、神经网络的训练方法以及相关设备 | |
Paul et al. | Grounding Abstract Spatial Concepts for Language Interaction with Robots. | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN110348311B (zh) | 一种基于深度学习的道路交叉口识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |