CN112837367B - 语义分解式物体位姿估计方法及系统 - Google Patents

语义分解式物体位姿估计方法及系统 Download PDF

Info

Publication number
CN112837367B
CN112837367B CN202110113620.6A CN202110113620A CN112837367B CN 112837367 B CN112837367 B CN 112837367B CN 202110113620 A CN202110113620 A CN 202110113620A CN 112837367 B CN112837367 B CN 112837367B
Authority
CN
China
Prior art keywords
network module
target object
coordinate
predicted value
semantic decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110113620.6A
Other languages
English (en)
Other versions
CN112837367A (zh
Inventor
季向阳
李志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110113620.6A priority Critical patent/CN112837367B/zh
Publication of CN112837367A publication Critical patent/CN112837367A/zh
Application granted granted Critical
Publication of CN112837367B publication Critical patent/CN112837367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语义分解式物体位姿估计方法及系统,所述方法包括以下步骤:S1,在二维图像中检测和提取目标物体;S2,对目标物体进行多层次的语义分解;S3,通过网络模块对语义分解后的目标物体进行训练,得到位姿结果。根据本发明的语义分解式物体位姿估计方法,首先通过对目标物体进行多层次的语义分解,然后再对物体位姿进行估计,从而达到更好的位姿估计效果。

Description

语义分解式物体位姿估计方法及系统
技术领域
本发明涉及物体位姿估计技术领域,尤其是涉及一种语义分解式物体位姿估计方法及系统。
背景技术
目前,在物体位姿估计领域,对于利用RGB图片来估计物体的位姿这一问题,通常直接在RGB图像上训练模型,来提取RGB图像中的物体的特征,并根据提取的特征来识别物体的位姿。
现有方法直接利用原始的RGB图像来估计物体的位姿,然而RGB图片容易受到噪声、模糊、遮挡、光照变化等外界环境因素的影响,这对位姿估计模型的效果造成很大影响。另外,当没有真实的训练数据,只依赖于人工合成图像对模型进行训练时,人工合成图像和真实图像在RGB的表示方式上存在较大差异,这使得在人工合成图像上训练的模型往往在真实场景使用时效果很差。因此,上述技术存在改进空间。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种语义分解式物体位姿估计方法,所述语义分解式物体位姿估计方法,首先通过对目标物体进行多层次的语义分解,然后再对物体位姿进行估计,从而达到更好的位姿估计效果。
本发明还提出了一种采用了上述语义分解式物体位姿估计方法的系统。
根据本发明实施例的语义分解式物体位姿估计方法,包括以下步骤:
S1,在二维图像中检测和提取目标物体;
S2,对目标物体进行多层次的语义分解;
S3,通过网络模块对语义分解后的目标物体进行训练,得到位姿结果。
根据本发明的语义分解式物体位姿估计方法,首先通过对目标物体进行多层次的语义分解,然后再对物体位姿进行估计,从而达到更好的位姿估计效果。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S1中,检测和提取目标物体包括:检测目标物体的中心点的像素坐标(cx,cy)和目标物体在二维图像中的尺寸(h,w)。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S3中,网络模块包括:跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块。
根据本发明一个实施例的语义分解式物体位姿估计方法,跨语义表示的物体坐标预测网络模块包括:特征网络模块和坐标预测网络模块,特征网络模块用于对多层次的语义分解表示图进行特征参数提取,坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测,得到第一预测值。
根据本发明一个实施例的语义分解式物体位姿估计方法,将特征参数输入至上下文感知特征融合网络模块,得到融合参数;将融合参数输入至坐标预测网络模块,坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测,得到第二预测值。
根据本发明一个实施例的语义分解式物体位姿估计方法,将第一预测值和第二预测值输入至物体坐标集成网络模块,物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测,得到第三预测值。
根据本发明一个实施例的语义分解式物体位姿估计方法,根据第三预测值,建立目标物体的二维图像到三维坐标之间的对应关系,利用随机抽样一致性算法对目标物体的六自由度位姿进行求解,得到位姿结果。
根据本发明的第二方面的语义分解式物体位姿估计系统,采用了有如第一方面任一种所述的语义分解式物体位姿估计方法。所述系统与上述的语义分解式物体位姿估计方法相对于现有技术所具有的优势相同,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的语义分解式物体位姿估计方法的流程图;
图2是根据本发明实施例的表示图的转化示意图;
图3是根据本发明实施例的多层次多语义的表示图;
图4是根据本发明实施例的跨语义表示的物体坐标预测网络模块的工作流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
下面参考图1-4描述根据本发明实施例的语义分解式物体位姿估计方法。如图1所示,根据本发明实施例的语义分解式物体位姿估计方法,包括以下步骤:
S1,在二维图像中检测和提取目标物体;
S2,对目标物体进行多层次的语义分解;
S3,通过网络模块对语义分解后的目标物体进行训练,得到位姿结果。需要说明的是,网络模块可以设置一个,也可以设置多个。
根据本发明的语义分解式物体位姿估计方法,首先通过对目标物体进行多层次的语义分解,然后再对物体位姿进行估计,从而达到更好的位姿估计效果。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S1中,检测和提取目标物体包括:检测目标物体的中心点的像素坐标(cx,cy)和目标物体在二维图像中的尺寸(h,w)。具体地,在训练阶段,目标物体的中心点的像素坐标和尺寸可由标签获得。进一步地,在提取目标物体时,可对(cx,cy)和(h,w)添加噪声,这样有利于提高目标物体检测误差的鲁棒性。进一步地,在一个具体的实施例中,可对(cx,cy)和(h,w)添加高斯分布或均匀分布的噪声。进一步地,在测试阶段,(cx,cy)和(h,w)可由实现训练好的检测器(图中未示出)在图像中对目标物体进行检测得到。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S2中,可以对目标物体缩放到预设的分辨率;具体地,对目标物体的局部图像区域在保持长宽比例不变的情况下,缩放到统一的分辨率,例如,在一个具体的实施例中,预设的分辨率可以为256x256;进一步地,在对目标物体缩放的过程中,可以按照需要对局部图像的周边进行补零操作,进而可以使缩放的目标物体更好地满足分辨率的要求。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S2中,多层次的语义分解式表示图可以包括:RGB图、灰度图、素描图和边缘图。进一步地,灰度图可以通过RGB图中像素值和灰度像素值的转换关系得到,例如,在一个具体的实施例中,RGB像素值在R、G、B通道上的值分别为R、G、B,则其相应的灰度像素值为0.299*R+0.587*G+0.114*B。进一步地,素描图可以通过OpenCV提供的铅笔滤波器得到。进一步地,边缘图可以通过OpenCV提供的拉普拉斯滤波器得到。需要说明的是,Gray表示灰度图,Sketch表示素描图,Edge表示边缘图。
需要说明的是,多层次的语义分解式表示图不限于上述四种图形模式。
根据本发明一个实施例的语义分解式物体位姿估计方法,在步骤S3中,网络模块可以包括:跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块。
根据本发明一个实施例的语义分解式物体位姿估计方法,跨语义表示的物体坐标预测网络模块可以包括:特征网络模块(Feature Net,简称FNet)和坐标预测网络模块(Coordinates Net,简称CNet),进一步地,特征网络模块可对多层次的语义分解表示图进行特征参数提取,例如可以对RGB图、灰度图、素描图、边缘图进行特征参数提取,坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测,得到第一预测值。
需要说明的是,通过跨语义表示的物体坐标预测网络模块处理多层次的语义分解式表示图时,需要将表示图整理为同样的格式,例如,在一个具体的实施例中,可以将表示图的大小设置为256x256x3,这样对于灰度图和素描图,可以将单通道的表示图重复三遍来得到三通道的表示图。
进一步地,特征网络模块可以用34层的残差卷积网络进行实现,例如,在一个具体的实施例中,特征网络模块的输入为256x256x3大小的表示图,输出为512x8x8大小的特征图;坐标预测网络模块由三个放大网络模块和一个输出层实现。进一步地,三个放大网络模型的结构分别为{deconv1-conv2-conv3g},{up1-conv2-conv3g},{up1-conv2-conv3},其中deconv表示反卷积层,conv表示卷积层,up表示上采样层。
进一步地,坐标预测网络模块采用分类的方式对目标物体的三维坐标图和目标物体分割图进行预测,例如,输入为512x8x8大小的特征图,输出为64×64×64×3大小的坐标图和64×64×2大小的分割图。其中,特征图可分为三个大小为64×64×64的坐标子图,每个坐标子图对应三维空间的一个坐标轴(x轴、y轴或者z轴)。进一步地,每一个坐标子图的64×64的每个位置上都有一个长度为64的坐标向量,用来指示这个位置对应的目标物体三维坐标在相应坐标轴上的坐标值。进一步地,对于64×64×2大小的分割图,在64×64的每个位置上都包含了长度为2的向量,其中向量的每个位置的值分别代表该64×64分辨率中的该位置属于目标物体的概率和不输入目标物体的概率。进一步地,通过比较每个长度为2的向量中属于目标物体的概率和不属于目标物体的概率,最终可以得到64×64的目标物体分割图。
进一步地,跨语义表示的物体坐标预测网络模块的训练采用交叉熵损失函数,对于每种表示图,其损失函数如下所示:
Figure BDA0002919959370000051
其中
Figure BDA0002919959370000052
Figure BDA0002919959370000053
分别表示单个表示图对应的物体分割图及物体坐标图,nc表示坐标轴的数量,例如nc=3表示坐标轴的数量为3,°为哈达玛德积,
Figure BDA0002919959370000054
为交叉熵损失,需要说明的是,公式中符号上带波浪线表示真值,不带波浪线表示预测值。
根据本发明一个实施例的语义分解式物体位姿估计方法,将特征参数输入至上下文感知特征融合网络模块,得到融合参数;进一步地,将融合参数输入至坐标预测网络模块,坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测,得到第二预测值。
进一步地,融合参数公式如下:
Figure BDA0002919959370000055
其中Si为每个表示图预测的分数。
进一步地,上下文感知特征融合网络模块包含三个卷积层和三个全连接层。输入为大小为2048x8x8的特征参数(例如将4个512x8x8的特征参数合并而成),输入为4个分数,分别对应每一种表示图(例如RGB图、灰度图、素描图和边缘图)。
需要说明的是,在训练过程中,上下文感知特征融合网络模块的更新参数的梯度来自于根据融合的特征预测的坐标图和分割图的误差损失函数。
根据本发明一个实施例的语义分解式物体位姿估计方法,将第一预测值和第二预测值输入至物体坐标集成网络模块,进一步地,物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测,得到第三预测值。
需要说明的是,物体坐标集成网络模块由8个卷积层堆叠而成,物体坐标集成网络模块的训练损失函数的表示方式和跨语义表示的物体坐标预测网络模块的相同。
根据本发明一个实施例的语义分解式物体位姿估计方法,根据第三预测值,建立目标物体的二维图像到三维坐标之间的对应关系,利用随机抽样一致性算法对目标物体的六自由度位姿进行求解,得到位姿结果。
进一步地,根据本发明一个实施例的语义分解式物体位姿估计方法,在对跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块的训练过程采用所有网络的端到端的训练方式,即对三个网络同时训练。进一步地,对于跨语义表示的物体坐标预测网络模块在每种表示图以及在融合特征上的输出,均有相应的损失函数,类似地,对于物体坐标集成网络模块的输出也有相应的损失函数。进一步地,模型的训练损失函数公式如下:
Figure BDA0002919959370000061
Figure BDA0002919959370000062
Figure BDA0002919959370000063
其中
Figure BDA0002919959370000064
为跨语义表示的物体坐标预测网络模块在融合特征上的输出和在每种表示图的输出上的损失函数,
Figure BDA0002919959370000065
是物体坐标集成网络模块的输出上的损失函数,
Figure BDA0002919959370000066
是总的损失函数,α,β,γ是相应的权重。
综上所述,根据本发明的语义分解式物体位姿估计方法,首先通过对目标物体进行多层次的语义分解进而得到不同层次的表示图,包括RGB图、灰度图、素描图和边缘图,然后通过这些表示图对物体位姿进行估计,从而达到更好的位姿估计效果。
本发明还提供了一种语义分解式物体位姿估计系统,该系统包括上述的语义分解式物体位姿估计方法,从而具有位姿估计效果更佳等优点。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (3)

1.一种语义分解式物体位姿估计方法,其特征在于,包括以下步骤:
S1,在二维图像中检测和提取目标物体;
S2,对目标物体进行多层次的语义分解,得到多层次的语义分解式表示图,多层次的语义分解式表示图包括:RGB图、灰度图、素描图和边缘图;
S3,通过网络模块对语义分解后的目标物体进行训练,得到位姿结果;
在步骤S3中,网络模块包括:跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块;
跨语义表示的物体坐标预测网络模块包括:特征网络模块和坐标预测网络模块,特征网络模块用于对多层次的语义分解表示图进行特征参数提取,坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测,得到第一预测值;
将特征参数输入至上下文感知特征融合网络模块,得到融合参数;将融合参数输入至坐标预测网络模块,坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测,得到第二预测值;
将第一预测值和第二预测值输入至物体坐标集成网络模块,物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测,得到第三预测值。
2.根据权利要求1所述的语义分解式物体位姿估计方法,其特征在于,在步骤S1中,检测和提取目标物体包括:检测目标物体的中心点的像素坐标(cx,cy)和目标物体在二维图像中的尺寸(h,w)。
3.根据权利要求1所述的语义分解式物体位姿估计方法,其特征在于,根据第三预测值,建立目标物体的二维图像到三维坐标之间的对应关系,利用随机抽样一致性算法对目标物体的六自由度位姿进行求解,得到位姿结果。
CN202110113620.6A 2021-01-27 2021-01-27 语义分解式物体位姿估计方法及系统 Active CN112837367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110113620.6A CN112837367B (zh) 2021-01-27 2021-01-27 语义分解式物体位姿估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110113620.6A CN112837367B (zh) 2021-01-27 2021-01-27 语义分解式物体位姿估计方法及系统

Publications (2)

Publication Number Publication Date
CN112837367A CN112837367A (zh) 2021-05-25
CN112837367B true CN112837367B (zh) 2022-11-25

Family

ID=75932088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110113620.6A Active CN112837367B (zh) 2021-01-27 2021-01-27 语义分解式物体位姿估计方法及系统

Country Status (1)

Country Link
CN (1) CN112837367B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091377A (ja) * 2015-11-13 2017-05-25 日本電信電話株式会社 姿勢推定装置、姿勢推定方法、及び姿勢推定プログラム
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110363817A (zh) * 2019-07-10 2019-10-22 北京悉见科技有限公司 目标位姿估计方法、电子设备和介质
CN110909642A (zh) * 2019-11-13 2020-03-24 南京理工大学 一种基于多尺度语义特征融合的遥感图像目标检测方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
CN112102411A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 一种基于语义误差图像的视觉定位方法及装置
CN112131959A (zh) * 2020-08-28 2020-12-25 浙江工业大学 一种基于多尺度特征强化的2d人体姿态估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546387B2 (en) * 2017-09-08 2020-01-28 Qualcomm Incorporated Pose determination with semantic segmentation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091377A (ja) * 2015-11-13 2017-05-25 日本電信電話株式会社 姿勢推定装置、姿勢推定方法、及び姿勢推定プログラム
CN110188598A (zh) * 2019-04-13 2019-08-30 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110363817A (zh) * 2019-07-10 2019-10-22 北京悉见科技有限公司 目标位姿估计方法、电子设备和介质
CN110909642A (zh) * 2019-11-13 2020-03-24 南京理工大学 一种基于多尺度语义特征融合的遥感图像目标检测方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
CN112131959A (zh) * 2020-08-28 2020-12-25 浙江工业大学 一种基于多尺度特征强化的2d人体姿态估计方法
CN112102411A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 一种基于语义误差图像的视觉定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adversarial Semantic Data Augmentation for Human Pose Estimation;Yanrui Bin等;《arXiv》;20200803;全文 *
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes;Yu Xiang等;《arXiv》;20180526;全文 *
基于图像语义分割的物体位姿估计;王宪伦等;《机械制造与自动化》;20200420(第02期);全文 *

Also Published As

Publication number Publication date
CN112837367A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110532859B (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN112052783B (zh) 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN111461213B (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111460894B (zh) 一种基于卷积神经网络的车标智能检测方法
CN111861880A (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
CN108875903B (zh) 图像检测的方法、装置、系统及计算机存储介质
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
CN112883934A (zh) 一种基于注意力机制的sar图像道路分割方法
CN114897728A (zh) 图像增强方法、装置、终端设备以及存储介质
CN115620141A (zh) 一种基于加权可变形卷积目标检测方法和装置
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN112837367B (zh) 语义分解式物体位姿估计方法及系统
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
CN115688234A (zh) 一种基于条件卷积的建筑布局生成方法、装置及介质
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统
CN113657225A (zh) 一种目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210525

Assignee: Beijing Xinqing Tech Co.,Ltd.

Assignor: TSINGHUA University

Contract record no.: X2022110000077

Denomination of invention: A Method and System of Object Position and Attitude Estimation Based on Semantic Decomposition

License type: Common License

Record date: 20221108

EE01 Entry into force of recordation of patent licensing contract
GR01 Patent grant
GR01 Patent grant