CN111862119A - 基于Mask-RCNN的语义信息提取方法 - Google Patents

基于Mask-RCNN的语义信息提取方法 Download PDF

Info

Publication number
CN111862119A
CN111862119A CN202010704516.XA CN202010704516A CN111862119A CN 111862119 A CN111862119 A CN 111862119A CN 202010704516 A CN202010704516 A CN 202010704516A CN 111862119 A CN111862119 A CN 111862119A
Authority
CN
China
Prior art keywords
mask
segmentation
rcnn
semantic information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010704516.XA
Other languages
English (en)
Inventor
吴怀宇
李琳
陈洋
郑秀娟
张天宇
吴帆
李想成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Wuhan University of Science and Technology WHUST
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN202010704516.XA priority Critical patent/CN111862119A/zh
Publication of CN111862119A publication Critical patent/CN111862119A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Mask‑RCNN的语义信息提取方法,应用于语义地图构建环节,其特征在于结合深度学习实例分割算法Mask‑RCNN对室内物品进行不同个体的区分,对于语义地图中含有语义信息的图像精确标注并进行实例分割。对分割后的结果进行优化处理,使用DenseCRF算法对Mask‑RCNN分割后的图像边缘进行处理,使分割后的结果更加精确和平滑,提取到更加精确的环境信息,为后续语义地图构建奠定良好的基础,从而使移动机器人实现更好的人机交互。

Description

基于Mask-RCNN的语义信息提取方法
技术领域
本发明涉及本发明涉及图像处理技术领域,尤其涉及一种基于Mask-RCNN实例分割模型的语义地图构建环节中语义信息提取方法。
背景技术
随着机器人技术的不断进步与发展,移动机器人越来越多地进入到人们的日常生活中,传统几何地图已无法满足机器人与复杂环境进行交互的信息需求,因此构建带有物体信息的语义地图成为研究的热点。移动机器人通过语义地图能够和用户进行自然的交流,从而完成自动驾驶、家庭服务等人机交互任务。
语义地图生成的关键是完成对环境语义信息的提取,即实现对室内物体的准确分割。然而室内物品繁多,且对移动机器人来讲每个物体应属于单独的个体,如果只对几种类别进行语义划分,没有区分物体的个体,机器人将无法实现操作对象个体一类的服务任务。传统的分割算法对物体的特征提取不足,特征的区分较弱,在复杂环境下的分割效果不好、分割速度慢、鲁棒性不高,并且无法区分同种类的不同个体。
随着深度学习技术在图像感知领域的快速发展,尤其是卷积神经网络(Convolutional Neural Network,CNN)在图像分类方面的成就,大批学者开始将深度学习应用于图像语义分割,进而为语义地图提供准确的像素级语义标注。但一般语义分割算法只能进行语义分割而不能进行实例分割,例如,待处理的图片中含有两个水杯,像素级类别不会区分其是第一个水杯还是第二个水杯,只会表示该像素对应的是水杯,而不能区分具体实例,因此需要一种实例分割能将同一类别的不同物体区分开。在训练数据集数量不足和数据集类别数较多的情况下,部分分割的结果可能与实际物体的位置存在差异,这主要是由于在训练过程中单个深度学习模型泛化能力不足,也有可能是在训练过程中出现欠拟合或者过拟合,而且分割的物体要经过手动标注,有的物体构造复杂,标注效果不是那么好,也可能使物体分割的边缘存在差异,提供了不准确的语义信息,将影响后续的语义地图构建。因此需要对分割后的图像位置进行修正是构建语义地图的核心之一,物体分割精度高低将影响语义地图的精度,乃至会影响移动机器人对环境感知的准确性。
发明内容
本发明要解决的技术问题是:针对语义地图构建环节中语义信息提取时要实现对物体的个体区分的缺陷,提供语义地图构建环节中一种基于Mask-RCNN实例分割模型的语义信息提取方法,克服传统语义分割算法提取物体语义信息时边缘细节处理的效果不好比较粗糙的问题。
本发明为解决上述技术问题,采用如下技术方案:
一种基于Mask-RCNN的语义信息提取方法,其特征在于应用于语义地图构建环节的语义信息提取,包括如下步骤:
首先利用移动机器人自身携带的Kinect深度相机获取不同环境下的室内彩色图像序列,之后对图像中的物体进行实例级分割,所述的实例级分割过程为:使用一种深度学习分割算法模型进行训练,接着将采集的室内彩色图像传入到训练好的神经网络中经过不断的池化、卷积、提取物体的特征并进行分析,输入分割后的结果实现物体个体的区分,在像素层面识别目标轮廓,在图像中将目标检测出来,然后对每个像素打上标签,区分同类的不同实例;对于实例级分割后的结果,如在边缘细节方面处理不理想则对分割后的边缘进行优化,补充完善边缘细节的分割结果,提高分割准确率,实现对环境语义信息的精确提取。
上述技术方案中,所述的实例级分割过程包括如下步骤:
首先对数据集标注:对获取的室内彩色图像序列的图片按照训练集:测试集:验证集进行划分,然后对训练集的图片进行标注;利用标注好的数据集,放入Mask-RCNN实例分割模型中进行训练;
其次,根据已经训练好的Mask-RCNN实例分割模型对室内图片进行实例分割,将待分割的图片输入到训练好的Mask R-CNN实例分割模型中,识别出可能是物体的候选框,然后将候选框输入到网络模型中进行实例分割,得到目标分类框或、及实例分割的结果,输出物体的目标框或类别、置信度及对应的掩码Mask;
最后,将分割后的结果输入到DenseCRF算法中,对分割后的结果进行优化,使物体的边缘信息更加精确,实现对环境中物体语义信息的提取。
上述技术方案中,Mask R-CNN实例分割模型是在Faster R-CNN特征网络的基础上添加一个预测分割掩码Mask的分支,并且将Faster R-CNN的ROI Pooling网络替换成ROIAlign网络,添加并列的FCN层或Mask层;在实现目标检测的同时,把目标中感兴趣的区域像素分割出来,训练完成后将得到包括类别Category、坐标Coordinates、掩码Mask输出的三分支网络模型和权重;其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。
上述技术方案中,Mask-RCNN实例分割模型的训练方法如下:
首先,输入一张Kinect相机获取到的彩色图像,然后进行预处理操作;
其次,将标注后的相关文件输入到Mask R-CNN实例分割模型中进行训练,该实例分割模型先利用共享卷积网络CNN进行训练,然后使用共享的卷积层ResNeXt-101+FPN为全图提取特征,生成不同尺寸的特征图feature maps;
在训练Mask-RCNN模型时,采用如下的损失函数:
L=Lcls+Lbox+LMask (1)
其中,L表示总的误差,Lcls代表分类误差,Lbox表示回归误差,LMask表示分割误差;
再次,将上一步提取的不同尺寸的特征图通过RPN网络生成待检测框,由待检测框推测其中的物体可能出现的位置生成感兴趣区域ROI并进行筛选保留含有某些物体的检测框去除冗余框以获得最佳的ROI;
再次,采用ROI Align网络对经过筛选的感兴趣区域ROI进行双线性差值操作,将ROI映射到feature maps对应的位置;通过此操作使每个ROI生成固定尺寸的featuremaps;
最后,将上一步得到的feature maps输入到三分支网络得到三个预测结果:物体所对应的检测框坐标、物体的类别、及物体所对应像素上覆盖的分割掩码Mask,经过此操作可以得到分割后的物体信息。
上述技术方案中,RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的anchor;这9种初始anchor包含三种面积:128×128,256×256,512×512,每种面积又包含三种长宽比1:1,1:2,2:1;
利用交并比IOU计算出感兴趣区域ROI,以减少计算时间,只有当交并比大于等于0.5时,这一区域方为感兴趣区域ROI,否则弃之不用。
上述技术方案中,ROI Align网络是一种区域特征聚集方式,当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征,减少量化操作带来的特征损失。
上述技术方案中,利用DenseCRF算法对分割结果进行优化的过程如下:通过将原始图像中的所有像素与Mask-RCNN实例分割模型的分割结果中的每个像素进行匹配,寻找具有相同属性的像素,对输入进行补充平滑,改善分割结果的细节信息,使图片尽量在边界处分割。
上述技术方案中,利用DenseCRF算法对分割结果进行优化时,通过最小化能量公式实现像素匹配,能量公式如下所示:
Figure BDA0002594176590000041
其中
Figure BDA0002594176590000042
是一元势函数,其接受来自Mask-RCNN实例分割模型的softmax端的输出,
Figure BDA0002594176590000043
是二元势函数,描述的是像素点与像素点之间的关系,相似像素分配相同的标签,而相差较大的像素分配不同标签;
将原图像作为DenseCRF算法中二元势函数
Figure BDA0002594176590000044
的输入,其中二元势函数将由以下公式得到:
ψp(zi,zj)=μ(zi,zj)∑w(m)k(m)(xi,xj) (3)
μ(zi,zj)为标签一致性因子,其中:w(m)是权值参数,m表示其取值范围;k(m)(xi,xj)是特征函数,以特征的形式表示了不同像素之前的“亲密度”,xi,xj是像素i和j的特征向量;
Figure BDA0002594176590000045
上式(4)中,第一项为表面核,第二项为平滑核,其中pi,pj分别为像素i和j的位置,Ii,Ij分别为像素i和j的像素颜色值,w(1),w(2)αβγ均为超参数。
上述技术方案中,采用labelme工具对图片中出现的每个物体进行标注,所述labelme工具标注的类别如desk1,desk2,laptop,book等。
上述技术方案中,室内彩色图像序列应该包含不同背景、光照条件、不同尺度下的图片,保持训练样本的多样性,防止过拟合。
相对于现有技术,本发明有益效果如下:
采用一种深度学习分割算法Mask-RCNN,通过对其模型进行训练然后通过移动机器人搭载的Kinect获取彩色图像序列,对图片中的物体进行实例级分割,模型中的ROIAlign网络使用双线性插值操作很好地解决了ROI Pooling网络中两次量化造成的区域不匹配的问题,能够精确的把物体的位置映射到特征图的位置上,实现对室内物品进行不同个体的区分,对于语义地图中含有语义信息的图像精确标注,位置精确。让机器人在执行某种特定的任务时不会接受到错误的语义信息。
针对分割后的结果在边缘细节方面处理不理想的问题使用DenseCRF算法进行优化,处理物体的边缘,使边缘信息更加准确和平滑,提取到更加精确的环境信息,为后续语义地图构建奠定良好的基础,从而使移动机器人实现更好的人机交互。
附图说明
图1是本发明提供的基于Mask-RCNN的语义信息提取方法的流程图;
图2是未经过处理的原始图;
图3是本发明的Mask-RCNN网络的结构图;
图4中,(a)是本发明使用Mask-RCNN进行实例分割后的结果图;(b)是本发明使用DenseCRF(全连接条件随机场)对Mask-RCNN分割后的图像进行优化的结果图;(c)是优化前和优化后的边缘局部放大结果图。
具体实施方式
为了进一步说明本发明的技术方案,下面将结合附图1-4对本方案进行详细的说明。
如图1所示,根据本发明基于Mask-RCNN的语义信息提取方法,基于搭载着Kinect相机的移动机器人进行;包括如下流程:
步骤S1:彩色图像序列的采集;启动移动机器人,让机器人自由的在室内不同环境下移动,并通过自身携带的Kinect相机采集彩色图像序列,如图2所示为Kinect相机获取的原始图片。图像序列应该包含不同背景、光照条件、不同尺度下的图片,并将采集到的图像输入到PC端进行处理并保存。
在PC端对图像进行处理包括图像增强,像素归一化等,去除噪声的影响,便于网络模型的训练。
步骤S2:数据集标注,对图片进行标注,对获取的图片按照训练集:测试集:验证集=7:1:2的比例划分,然后对训练集的图片使用labelme进行标注生成.json文件。
步骤S3:训练Mask-RCNN模型,Mask-RCNN网络结构如图3所示,其包含4个部分:backbone(共享卷积层)、RPN网络、ROI Align网络、three branches(三分支网络)。Mask R-CNN训练主要分为两个阶段:第一阶段训练RPN网络:首先输入图像数据集(Input),共享的卷积层ResNeXt-101+FPN对数据集图像特征提取,生成不同尺寸的feature maps(特征图);第二阶段使用ROI Align网络将RPN网络生成的ROI映射到feature map对应位置,将映射后的区域生成固定大小的特征图,然后将其输入到三分支网络得到分割结果。在训练Mask-RCNN模型时,采用如下的损失函数:
L=Lcls+Lbox+LMask (1)
其中,L表示总的误差,Lcls代表分类误差,Lbox表示回归误差,LMask表示分割误差;在上式中,Lcls和LMask都是对positive ROI(正样本)才会起作用,在Mask R-CNN中,positive ROI被定义成了与Ground truth的IOU大于0.5的预测框。在网络训练过程中损失函数是不断收敛的,当损失函数的值较低且损失函数曲线不断降低并处于水平时则该模型训练的就比较好。
步骤S31:输入一张Kinect相机获取到的彩色图像,然后进行预处理操作;
步骤S32:将步骤S2中标注后的相关文件输入到Mask R-CNN模型中进行训练(如图3所示),该模型先利用共享卷积网络CNN进行训练,然后使用共享的卷积层ResNeXt-101+FPN为全图提取特征。
步骤S33:将提取的feature maps应用于RPN网络,RPN网络将生成待检测框,由待检测框推测其中的物体可能出现的位置生成ROI(感兴趣区域)并进行筛选保留含有某些物体的检测框去除冗余框以获得最佳的ROI。
步骤S331:RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的anchor。这9种初始anchor包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1)。
步骤S332:利用交并比(IOU)计算出感兴趣区域ROI,以减少计算时间,只有当交并比大于等于0.5时,这一区域方为感兴趣区域ROI,否则弃之不用。
步骤S34:采用ROI Align网络对经过筛选的ROI进行双线性差值操作,将ROI映射到feature maps对应的位置;通过此操作使每个ROI生成固定尺寸的feature maps。
步骤S341:ROI Align网络是一种区域特征聚集方式,解决了ROI Pooling网络中两次量化造成的区域不匹配(mis-alignment)的问题,当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征,减少量化操作带来的特征损失,提升了检测模型的准确性。
步骤S35:将上一步得到的feature maps输入到三分支网络得到三个预测结果:物体所对应的检测框坐标、物体的类别及物体所对应像素上覆盖的分割掩码(mask),经过此操作可以得到分割后的物体信息。
步骤S351:三分支网络包括Category(类别)、Coordinates(坐标)、Mask(掩码)。其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。
步骤S4:使用Mask-RCNN进行图像实例分割。
步骤S41:将待分割的图片输入到训练好的Mask R-CNN模型中,识别出可能是物体的候选框。
步骤S42:将候选窗口输入到网络模型中进行实例分割,得到目标分类框、及实例分割的结果,输出物体的目标框、置信度及对应的掩码Mask,分割结果如图4(a)所示。从图4(a)可以看出Mask-RCNN对边缘细节部分处理不是很好,把背景当做电脑进行分割,掩码超出电脑边界,导致分割后的边缘不是电脑真正的边缘。
步骤S5:对Mask-RCNN分割后的结果进行DenseCRF后处理操作,DenseCRF优化的原理是将原始图像中的所有像素与Mask-RCNN算法的分割结果中的每个像素进行匹配,寻找具有相同属性的像素,对输入进行补充平滑,改善分割结果的细节信息。
步骤S51:进一步的,上述优化分割是通过最小化能量公式实现的,能量公式为:
Figure BDA0002594176590000081
其中第一项为与像素自身类别相关的一元势函数,后一项为二元势函数,其中u,p表示像素集,zi,zj表示像素标签,取值0表示背景,1表示前景,
其中每一个像素的类别信息都与其它像素的类别信息、所有像素的信息相关。二元势函数展开为:
ψp(zi,zj)=μ(zi,zj)∑w(m)k(m)(xi,xj) (3)
μ(zi,zj)为标签一致性因子,它约束了像素间传导的条件,只有相同标签条件下,能量才可以相互传导,w(m)是权值参数,m表示其取值范围。k(m)(xi,xj)是特征函数,以特征的形式表示了不同像素之前的“亲密度”,xi,xj是像素i和j的特征向量,其中:
Figure BDA0002594176590000082
上式中,第一项为表面核,第二项为平滑核,其中pi,pj分别为像素i和j的位置,Ii,Ij分别为像素i和j的像素颜色值,w(1),w(2)αβγ均为超参数。
步骤S52:进一步的进行DenseCRF处理的具体内容是将Mask-RCNN的softmax层的输出作为DenseCRF一元势函数
Figure BDA0002594176590000083
的输入、原图像作为DenseCRF二元数函数
Figure BDA0002594176590000084
的输入;
步骤S53:打开Anaconda3,导入所需模块,设置unary potential,pairwisepotential,然后将Mask-RCNN分割后的图像、原图像路径输入,在命令窗口输入指令,将得到经DenseCRF优化处理后的图片,完成语义信息的提取,优化后的结果如图4(b)所示,将优化前后的图片进行局部放大处理,如图4(c)所示,可以看出经DenseCRF优化可以改善分割细节,超出电脑边缘的掩码已经被修正。
上述技术方案中,上述基于Mask-RCNN的语义地图构建环节中语义信息提取方法,是基于Windows10 32位操作系统下的Anaconda3,Python3 TensorFlow 1.8-gpu,Keras2.1.6实现的,对图片的标注是通过labelme进行处理。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述特定实施方式,本领域技术人员可以在权利要求的范围内进行修改或者同等变换,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于Mask-RCNN的语义信息提取方法,其特征在于应用于语义地图构建环节的语义信息提取,包括如下步骤:
首先利用移动机器人自身携带的Kinect深度相机获取不同环境下的室内彩色图像序列,之后对图像中的物体进行实例级分割,所述的实例级分割过程为:使用一种深度学习分割算法模型进行训练,接着将采集的室内彩色图像传入到训练好的神经网络中经过不断的池化、卷积、提取物体的特征并进行分析,输入分割后的结果实现物体个体的区分,在像素层面识别目标轮廓,在图像中将目标检测出来,然后对每个像素打上标签,区分同类的不同实例;对于实例级分割后的结果,如在边缘细节方面处理不理想则对分割后的边缘进行优化,补充完善边缘细节的分割结果,提高分割准确率,实现对环境语义信息的精确提取。
2.根据权利要求1所述的基于Mask-RCNN的语义信息提取方法,其特征在于所述的实例级分割过程包括如下步骤:
首先对数据集标注:对获取的室内彩色图像序列的图片按照训练集:测试集:验证集进行划分,然后对训练集的图片进行标注;利用标注好的数据集,放入Mask-RCNN实例分割模型中进行训练;
其次,根据已经训练好的Mask-RCNN实例分割模型对室内图片进行实例分割,将待分割的图片输入到训练好的Mask R-CNN实例分割模型中,识别出可能是物体的候选框,然后将候选框输入到网络模型中进行实例分割,得到目标分类框或、及实例分割的结果,输出物体的目标框或类别、置信度及对应的掩码Mask;
最后,将分割后的结果输入到DenseCRF算法中,对分割后的结果进行优化,使物体的边缘信息更加精确,实现对环境中物体语义信息的提取。
3.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法,其特征在于Mask R-CNN实例分割模型是在Faster R-CNN特征网络的基础上添加一个预测分割掩码Mask的分支,并且将Faster R-CNN的ROI Pooling网络替换成ROIAlign网络,添加并列的FCN层或Mask层;在实现目标检测的同时,把目标中感兴趣的区域像素分割出来,训练完成后将得到包括类别Category、坐标Coordinates、掩码Mask输出的三分支网络模型和权重;其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。
4.根据权利要求2或3所述的基于Mask-RCNN的语义信息提取方法,其特征在于Mask-RCNN实例分割模型的训练方法如下:
首先,输入一张Kinect相机获取到的彩色图像,然后进行预处理操作;
其次,将标注后的相关文件输入到Mask R-CNN实例分割模型中进行训练,该实例分割模型先利用共享卷积网络CNN进行训练,然后使用共享的卷积层ResNeXt-101+FPN为全图提取特征,生成不同尺寸的特征图feature maps;
在训练Mask-RCNN模型时,采用如下的损失函数:
L=Lcls+Lbox+LMask (1)
其中,L表示总的误差,Lcls代表分类误差,Lbox表示回归误差,LMask表示分割误差;
再次,将上一步提取的不同尺寸的特征图通过RPN网络生成待检测框,由待检测框推测其中的物体可能出现的位置生成感兴趣区域ROI并进行筛选保留含有某些物体的检测框去除冗余框以获得最佳的ROI;
再次,采用ROIAlign网络对经过筛选的感兴趣区域ROI进行双线性差值操作,将ROI映射到feature maps对应的位置;通过此操作使每个ROI生成固定尺寸的feature maps;
最后,将上一步得到的feature maps输入到三分支网络得到三个预测结果:物体所对应的检测框坐标、物体的类别、及物体所对应像素上覆盖的分割掩码Mask,经过此操作可以得到分割后的物体信息。
5.根据权利要求4所述的基于Mask-RCNN的语义信息提取方法,其特征在于RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的anchor;这9种初始anchor包含三种面积:128×128,256×256,512×512,每种面积又包含三种长宽比1:1,1:2,2:1;
利用交并比IOU计算出感兴趣区域ROI,以减少计算时间,只有当交并比大于等于0.5时,这一区域方为感兴趣区域ROI,否则弃之不用。
6.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法,其特征在于ROI Align网络是一种区域特征聚集方式,当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征,减少量化操作带来的特征损失。
7.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法,其特征在于利用DenseCRF算法对分割结果进行优化的过程如下:通过将原始图像中的所有像素与Mask-RCNN实例分割模型的分割结果中的每个像素进行匹配,寻找具有相同属性的像素,对输入进行补充平滑,改善分割结果的细节信息,使图片尽量在边界处分割。
8.根据权利要求2或7所述的基于Mask-RCNN的语义信息提取方法,其特征在于利用DenseCRF算法对分割结果进行优化时,通过最小化能量公式实现像素匹配,能量公式如下所示:
Figure FDA0002594176580000031
其中
Figure FDA0002594176580000032
是一元势函数,其接受来自Mask-RCNN实例分割模型的softmax端的输出,
Figure FDA0002594176580000033
是二元势函数,描述的是像素点与像素点之间的关系,相似像素分配相同的标签,而相差较大的像素分配不同标签;
将原图像作为DenseCRF算法中二元势函数
Figure FDA0002594176580000034
的输入,其中二元势函数将由以下公式得到:
ψp(zi,zj)=μ(zi,zj)Σw(m)k(m)(xi,xj) (3)
μ(zi,zj)为标签一致性因子,其中:w(m)是权值参数,m表示其取值范围;k(m)(xi,xj)是特征函数,以特征的形式表示了不同像素之前的“亲密度”,xi,xj是像素i和j的特征向量;
Figure FDA0002594176580000035
上式(4)中,第一项为表面核,第二项为平滑核,其中pi,pj分别为像素i和j的位置,Ii,Ij分别为像素i和j的像素颜色值,w(1),w(2)αβγ均为超参数。
9.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法,其特征在于采用labelme工具对图片中出现的每个物体进行标注,所述labelme工具标注的类别如desk1,desk2,laptop,book等。
10.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法,其特征在于室内彩色图像序列应该包含不同背景、光照条件、不同尺度下的图片,保持训练样本的多样性,防止过拟合。
CN202010704516.XA 2020-07-21 2020-07-21 基于Mask-RCNN的语义信息提取方法 Pending CN111862119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704516.XA CN111862119A (zh) 2020-07-21 2020-07-21 基于Mask-RCNN的语义信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704516.XA CN111862119A (zh) 2020-07-21 2020-07-21 基于Mask-RCNN的语义信息提取方法

Publications (1)

Publication Number Publication Date
CN111862119A true CN111862119A (zh) 2020-10-30

Family

ID=73001826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704516.XA Pending CN111862119A (zh) 2020-07-21 2020-07-21 基于Mask-RCNN的语义信息提取方法

Country Status (1)

Country Link
CN (1) CN111862119A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258504A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112396620A (zh) * 2020-11-17 2021-02-23 齐鲁工业大学 一种基于多阈值的图像语义分割方法及系统
CN112508128A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 训练样本的构建方法、计数方法、装置、电子设备及介质
CN112651404A (zh) * 2020-12-22 2021-04-13 山东师范大学 一种基于无锚框检测器的绿色果实高效分割方法及系统
CN112651989A (zh) * 2021-01-19 2021-04-13 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和系统
CN112686157A (zh) * 2020-12-30 2021-04-20 上海书山智能科技有限公司 一种基于深度学习的图书定位和识别方法
CN112819840A (zh) * 2021-02-24 2021-05-18 北京航空航天大学 一种融合深度学习与传统处理的高精度图像实例分割方法
CN113111722A (zh) * 2021-03-17 2021-07-13 天津理工大学 基于改进Mask R-CNN的自动驾驶目标识别方法
CN113326850A (zh) * 2021-08-03 2021-08-31 中国科学院烟台海岸带研究所 一种基于实例分割的日本蟳群体行为视频分析方法
CN115184744A (zh) * 2022-06-27 2022-10-14 上海格鲁布科技有限公司 一种基于Faster-RCNN的GIS特高频放电信号检测装置及方法
WO2022241807A1 (zh) * 2021-05-20 2022-11-24 广州广电运通金融电子股份有限公司 一种车辆车身颜色识别方法、存储介质和终端
CN116152758A (zh) * 2023-04-25 2023-05-23 松立控股集团股份有限公司 一种智能实时事故检测及车辆跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765371A (zh) * 2018-04-25 2018-11-06 浙江大学 一种病理切片中非常规细胞的分割方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
US20200175352A1 (en) * 2017-03-14 2020-06-04 University Of Manitoba Structure defect detection using machine learning algorithms
CN111360780A (zh) * 2020-03-20 2020-07-03 北京工业大学 一种基于视觉语义slam的垃圾捡拾机器人

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175352A1 (en) * 2017-03-14 2020-06-04 University Of Manitoba Structure defect detection using machine learning algorithms
CN108765371A (zh) * 2018-04-25 2018-11-06 浙江大学 一种病理切片中非常规细胞的分割方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN111210443A (zh) * 2020-01-03 2020-05-29 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111360780A (zh) * 2020-03-20 2020-07-03 北京工业大学 一种基于视觉语义slam的垃圾捡拾机器人

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张文利等: "面向室内环境控制的人员信息检测系统的设计与实现", 北京工业大学学报, vol. 46, no. 5, 10 May 2020 (2020-05-10), pages 457 - 464 *
杨秋菊等: "基于机器学习的极光图像自动分割方法", 地球物理学报, vol. 63, no. 1, 15 January 2020 (2020-01-15), pages 64 - 71 *
王建新;王子亚;田萱;: "基于深度学习的自然场景文本检测与识别综述", 软件学报, no. 05, 15 May 2020 (2020-05-15) *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258504A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112258504B (zh) * 2020-11-13 2023-12-08 腾讯科技(深圳)有限公司 一种图像检测方法、设备及计算机可读存储介质
CN112396620A (zh) * 2020-11-17 2021-02-23 齐鲁工业大学 一种基于多阈值的图像语义分割方法及系统
CN112508128B (zh) * 2020-12-22 2023-07-25 北京百度网讯科技有限公司 训练样本的构建方法、计数方法、装置、电子设备及介质
CN112508128A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 训练样本的构建方法、计数方法、装置、电子设备及介质
CN112651404A (zh) * 2020-12-22 2021-04-13 山东师范大学 一种基于无锚框检测器的绿色果实高效分割方法及系统
CN112686157A (zh) * 2020-12-30 2021-04-20 上海书山智能科技有限公司 一种基于深度学习的图书定位和识别方法
CN112651989A (zh) * 2021-01-19 2021-04-13 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和系统
CN112651989B (zh) * 2021-01-19 2024-01-19 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和系统
CN112819840A (zh) * 2021-02-24 2021-05-18 北京航空航天大学 一种融合深度学习与传统处理的高精度图像实例分割方法
CN113111722A (zh) * 2021-03-17 2021-07-13 天津理工大学 基于改进Mask R-CNN的自动驾驶目标识别方法
WO2022241807A1 (zh) * 2021-05-20 2022-11-24 广州广电运通金融电子股份有限公司 一种车辆车身颜色识别方法、存储介质和终端
CN113326850A (zh) * 2021-08-03 2021-08-31 中国科学院烟台海岸带研究所 一种基于实例分割的日本蟳群体行为视频分析方法
CN113326850B (zh) * 2021-08-03 2021-10-26 中国科学院烟台海岸带研究所 一种基于实例分割的日本蟳群体行为视频分析方法
CN115184744B (zh) * 2022-06-27 2023-09-05 上海格鲁布科技有限公司 一种基于Faster-RCNN的GIS特高频放电信号检测装置及方法
CN115184744A (zh) * 2022-06-27 2022-10-14 上海格鲁布科技有限公司 一种基于Faster-RCNN的GIS特高频放电信号检测装置及方法
CN116152758A (zh) * 2023-04-25 2023-05-23 松立控股集团股份有限公司 一种智能实时事故检测及车辆跟踪方法

Similar Documents

Publication Publication Date Title
CN111862119A (zh) 基于Mask-RCNN的语义信息提取方法
CN113160192B (zh) 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置
CN106875381B (zh) 一种基于深度学习的手机外壳缺陷检测方法
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN108898137B (zh) 一种基于深度神经网络的自然图像字符识别方法及系统
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN110033473B (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN111563442A (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
Khan et al. An efficient contour based fine-grained algorithm for multi category object detection
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN111275082A (zh) 一种基于改进端到端神经网络的室内物体目标检测方法
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN109685765B (zh) 一种基于卷积神经网络的x光片肺炎结果预测装置
CN111611643A (zh) 户型矢量化数据获得方法、装置、电子设备及存储介质
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110443257B (zh) 一种基于主动学习的显著性检测方法
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN112733711B (zh) 基于多尺度场景变化检测的遥感影像损毁建筑物提取方法
CN109815923B (zh) 基于lbp特征与深度学习的金针菇菇头分选识别方法
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN112861917A (zh) 基于图像属性学习的弱监督目标检测方法
CN115439458A (zh) 基于深度图注意力的工业图像缺陷目标检测算法
CN115019133A (zh) 基于自训练和标签抗噪的图像中弱目标的检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination