CN111523610B - 一种样本高效标注的物品识别方法 - Google Patents
一种样本高效标注的物品识别方法 Download PDFInfo
- Publication number
- CN111523610B CN111523610B CN202010371785.9A CN202010371785A CN111523610B CN 111523610 B CN111523610 B CN 111523610B CN 202010371785 A CN202010371785 A CN 202010371785A CN 111523610 B CN111523610 B CN 111523610B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- target
- convolution
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000001514 detection method Methods 0.000 claims abstract description 95
- 230000003068 static effect Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000011521 glass Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 18
- 239000010410 layer Substances 0.000 description 30
- 239000013598 vector Substances 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 230000004888 barrier function Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于物品智能识别领域,涉及一种样本高效标注的物品识别方法;工艺步骤包括:S11、根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;S12、进行图像标注,将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;S13、采用resnet‑101骨干网络进行模型的训练;通过修改训练参数在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;S14、采用mask rcnn算法进行目标检测,得到预测类别、分割的目标区域的轮廓信息和边界框;所述方法减少了背景的干扰,有效提高了目标匹配的准确度,减少了计算量,提高了目标匹配速度;同时本发明的样本标注方式可大量减少样本标注时间,节省人力和时间。
Description
技术领域:
本发明属于物品智能识别的技术领域,涉及一种目标检测样本快速标注、检测目标轮廓背景小的物品识别方法,特别是一种样本高效标注的物品识别方法。
背景技术:
在日常生活中,人们通常将各种生活用品随意摆放,需要使用某一物品时,往往因为各种物品放置杂乱,难以及时发现,使用者翻箱倒柜以找到需要的生活用品,给使用者造成极大的不便和烦恼,浪费使用者的精力和时间;而智能化物品的识别样本数据繁多,样本模型训练慢,同时物品识别过程中,目标区域中背景区域占比大,大大增大了图形处理的难度和效率。
在现有技术中,公开号为CN109241854A的中国专利,公开了一种基于机器人的物品查找方法和装置,所述方法包括:确定遗失的物品信息和遗失区域;对遗失区域进行扫描,构建电子地图;在电子地图中规划机器人的巡检路线;通过机器人沿着所述规划的巡检路线依次采集所述遗失区域的图像;将采集的遗失区域的图像和遗失物品信息进行匹配处理;显示匹配处理的结果。公开号为CN110378259A的中国专利,公开了一种面向监控视频的多目标行为识别方法,包括:分别训练目标检测模型和行为识别模型;预测视频当前帧中行人的位置信息,并将位置信息作为当前帧的目标检测框;根据当前帧目标检测框,通过上一帧信息预测到当前帧的目标跟踪框,计算两者之间的目标框匹配度;将当前帧的目标检测框与当前帧的目标跟踪框进行匹配,得到匹配信息;估计当前帧的行人目标框坐标,并预测行人目标在下一帧的目标跟踪框坐标;裁剪出行人图片并保存行人编号;根据行人编号,将连续多帧中编号相同的行人图片进行匹配,组合成列表并保存行人编号;若列表长度达到指定帧数阈值,则将列表中保存的行人图片输入到所述行为识别模型,计算该列表的行为类别概率。
总而言之,现有智能化物品的识别或者鉴别方法中构建的训练模型需要大量的样本数据,样本繁多模型训练慢,同时物品识别过程中,目标区域中背景区域占比大,增大了图形处理的难度,降低了物品识别的效率。
发明内容:
本发明的目的在于克服现有物品识别过程存在的缺点,针对当前物品识别方法样本繁多模型训练慢、目标区域中背景区域占比大、图形处理识别的效率低的缺陷设计提供一种样本高效标注的物品识别方法。
为实现上述目的,本发明涉及的一种样本高效标注的物品识别方法,其具体工艺步骤如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;
2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到的预测类别、分割的目标区域的轮廓信息和边界框,作为最后的检测结果。
本发明所述步骤S14的目标检测具体工艺流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI;
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果。
本发明所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据。
本发明与现有技术相比,所设计的样本高效标注的物品识别方法采用的目标检测算法对小目标具有较好的鲁棒性,且检测精度较高;通过对目标区域检测算法部分的改进,有效减少了背景的干扰,并能够有效提高目标匹配的准确度,同时可有效减少计算量,提高目标匹配速度;本发明的样本标注方式可大量减少样本标注时间,节省人力和时间;本发明的物品识别方式更人性化,可满足多种物品识别检测领域的应用需求。
附图说明:
图1为本发明涉及的样本高效标注的物品识别方法的工艺流程示意框图。
图2为本发明涉及的目标检测的工艺流程示意框图。
图3为本发明涉及的resnet-101骨干网络的架构结构原理示意图。
图4为本发明涉及的resnet-101骨干网络中卷积块1的架构结构原理示意图。
图5为本发明涉及的resnet-101骨干网络中卷积块2的架构结构原理示意图。
图6为本发明涉及的RPN网络的架构结构原理示意图。
图7为本发明涉及的mask rcnn算法检测结果的目标图像边界框的示意图。
图8为本发明涉及的mask rcnn算法检测结果的目标截图的放大示意图。
图9为本发明涉及的改进后mask rcnn算法检测结果的目标图像边界框的示意图的示意图。
图10为本发明涉及的改进后mask rcnn算法检测结果的目标截图的放大示意图。
图11为本发明涉及的添加子类样本的工艺流程示意框图。
图12为栅格地图简易示意图。
图13为图12中栅格A放大后的示意图。
图14为伪障碍栅格示意图一。
图15为伪障碍栅格示意图二。
图16为伪障碍栅格示意图三。
图17为A*算法流程示意图。
具体实施方式:
下面通过实施例并结合附图对本发明作进一步说明。
实施例1:
本实施例涉及的一种样本高效标注的物品识别方法,其具体工艺步骤如下:
S1、物品主体检测及类别预测
采用物品检测算法训练物品检测模型,然后定位出视频图像中用户感兴趣的区域,并根据物品检测模型预测出对应的类别;物品检测算法采用改进的mask rcnn算法,具体过程如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,本发明采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;
所述微调是指修改目标的轮廓或标签;由于检测模型检测出的目标轮廓可能不完整,也可能出现预测类别的标签错误的情况,因此此处主要微调轮廓或标签;保证训练样本正确标注,训练出的模型才能更好;
2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到输出的目标预测类别、分割的目标区域的轮廓信息和边界框,作为最后的检测结果;如图2所示,具体的目标检测流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI;
如图3所示,所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据;
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
如图6所示,所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
对mask rcnn算法输出的目标边界框进行改进;由于mask rcnn算法得到的目标边界框不是最小外接矩形,会包含较多的背景信息,这不仅增加计算量也不利于后续的目标匹配;为了减少背景信息,根据步骤(6)得到的轮廓信息,通过获取目标轮廓的最小外接矩形作为最后的目标框;改进的具体实现流程如下:
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果;
如图2-5所示,图7是现有mask rcnn算法检测结果的目标图像边界框的示意图,图8是现有mask rcnn算法检测结果的目标截图的放大示意图,图9是改进后mask rcnn算法检测结果的目标图像边界框的示意图的示意图,图10是改进后mask rcnn算法检测结果的目标截图的放大示意图;图7和图9是同一幅图片的不同检测结果,由图8和图10可以明显看出改进后的目标框截图包含的背景信息明显减少,这样在后续目标匹配的时候可有效减少背景信息对目标匹配的影响,可有效提高目标匹配的精度并减少计算量和目标匹配的时间。
实施例2:
实施例1涉及的样本高效标注的物品识别方法能够用于物品查找,物品查找时,按照规划的路径对沿线目标进行图像采集,通过样本高效标注的物品识别方法对获取视频帧图像处理预测出目标的类别,基于深度图获取算法目标距离相机的真实距离,核验检测到的目标类别与需要寻找的目标类别是否一致,核实无误后以语音播报的方式告诉用户目标的具体位置;物品查找分两种情况:大类物品查找与子类物品检索;本步骤以机器人为应用实例,对物品查找流程进行说明;
S21、大类物品查找
大类物品查找即查找训练类别中的某一类物品,如遥控器、杯子等物品;若用户想查找某类物品只需告诉机器人,机器人接到指令后进行解析并返回检测结果;本步骤以查找遥控器为例对物品查找流程进行说明,具体实现流程如下:
(c1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找遥控器”;
(c2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法,其中路径规划算法引用专利号202010137848.4中的方法;
(c3)机器人按照规划的路径进行缓慢移动,物品检测算法读取双目相机中左摄像头获取视频帧,然后对视频帧进行目标检测;同时深度图获取算法读取左右摄像头获取的视频帧,然后生成左右摄像头对应视频帧的深度图;
(c4)若在当前帧中未检测到目标,则返回(c3)步继续读取下一帧并检测;检测到目标后进入下一步;
(c5)对检测到的目标类别进行判断,即判断检测到的目标类别是否为语音指令中“遥控器”的类别,若连续在3帧图像中均检测到遥控器,则认为找到了目标,然后获取该目标在深度图中的深度信息,以语音播报的方式告诉用户目标的位置,最后结束此次查找任务;若机器人走到规划路径的最后仍未检测到目标遥控器,则结束此次查找任务并以语音播报的方式告诉用户未找到其想找的物品;
S22、子类物品检索
物品子类检索能够帮用户找到更具体的物品;
用户能够在物品检测模型检测的类别中添加具体的子类物品,例如:物品检测模型能够检测到遥控器这一大类,则用户能够在遥控器这一大类下添加子类,如空调遥控器、电视遥控器等;通过上传对应的子类图片和类别标签来保存子类信息,之后用户就能够查找添加的子类物品,具体工艺流程如下:
S221、添加子类样本
如图11所示,添加子类样本具体实现流程如下:
(d1)在某个大类下,用户手动或通过人机交互的方式添加子类样本,输入对应的标签;
(d2)在步骤(d1)中的输入对应的标签保存前,判断用户添加的样本是否合规;即通过物品检测算法对图片进行检测,若检测到标签目标且预测类别属于该大类,则进行下一步,若未检测到标签目标则丢弃该图片并提示用户重新上传图片;若检测到标签目标但预测类别与大类不符则提示用户确认上传的图片与填写的标签是否正确,若用户确认则进行下一步,否则丢弃该样本并提示用户重新上传图片;
(d3)判断添加的子类样本合规后,再通过dHash(差异哈希)算法进行图片去重操作;即判断该添加的子类样本是否和检索库中已有的样本高度相似,若高度相似则舍弃该添加的子类样本;若不相似则对该样本进行特征提取操作并保存提取的特征,用于后续图片匹配,同时将该子类样本添加到检索库并保存标签信息;其中dHash算法进行图片去重的流程如下:
(e1)输入图像灰度化;
(e2)将输入图像缩小,使用的输入图像缩小后的尺寸是9*8;
(e3)比较邻域像素值,得到每行的布尔值;
(e4)将布尔值转换为16进制字符串;
(e5)计算两幅图像哈希编码的汉明距离;设置汉明距离的阈值是6,若距离大于阈值则认为两幅图像不同,否则认为两者相同。
S222、子类物品查找流程
在完成物品检测模型的训练和子类样本添加后,即可进行物品查找;以查找电视遥控器为例对子类物品查找流程进行说明;具体实现流程如下:
(f1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找电视遥控器”;
(f2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法;
(f3)按照规划的路径进行缓慢移动,物品检测算法读取左摄像头获取视频帧,然后对视频帧进行检测;深度图获取算法读取左右摄像头获取视频帧,然后生成左摄像头对应视频帧的深度图;
(f4)若检测到大类别的目标遥控器则进入下一步;若未检测到目标遥控器则重复(f3)步骤;若机器人走到规划路径的最后还未找到目标遥控器,则结束查找任务并以语音播报的方式告诉用户未查找到其想找的物品;
(f5)对检测到的大类别的目标遥控器区域进行特征提取,并与检索库中添加到遥控器大类下的子类别样本进行匹配(即计算与检索库中各样本的相似度),若与“电视遥控器”子类别样本的相似度大于设定的阈值,则认为找到目标电视遥控器,同时在深度图的对应区域获取该目标距离机器人的距离,并以语音播报的方式告诉用户,此次查找任务结束;若与“电视遥控器”子类别样本的相似度小于阈值,则认为未找到目标,回到第(f3)步继续查找;若机器人走到规划路径的最后还未找到目标,则结束此次查找任务并以语音播报的方式告诉用户未查找到其想找的物品。
本实施例涉及的深度图获取算法是指:使用机器人身上装配的双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,进而确定目标距相机的真实距离;基于双目相机的深度图获取算法的具体流程如下:
(b1)对双目相机进行标定,得到两个相机的内外参数、单应矩阵;
(b2)根据标定结果对双目相机采集的两张原始图像进行校正,使得校正后的两张图像位于同一平面且互相平行。
(b3)对校正后的两张图像进行像素点匹配;
(b4)根据匹配结果计算每个像素的深度,从而获得深度图;各个像素点的深度信息由下式求出:
其中,z即为待求的距离,f表示相机的焦距,b表示双目相机的基线,d表示视差,uL表示左侧相机成像平面的坐标,uR表示右侧相机成像平面的坐标;
(b5)对每张检测图像生成其对应的深度图,深度图记录了检测图像中每个像素点距离相机的距离,根据检测到的目标边框信息对应到深度图中的相应位置,确定该目标距相机的真实距离,进而告知用户检测到的目标与用户的实际距离长度,方便用户观察和找到目标;
实施例3:
实施例2涉及的机器人其主体结构包括双目相机、控制器、语音交互模块、驱动部和电源;机器人头部安装有双目相机,双目相机用于视频图像采集;双目相机与机器人躯体内的控制器电信息连接,控制器与电源电连接;语音交互模块设置在机器人躯体表层,语音交互模块与控制器电信息连接,语音交互模块用于用户与机器人进行语音交互、添加子类样本;机器人的下部设置有驱动部,驱动部采用现有履带式或者轮式驱动结构,驱动部与控制器电信息连接。
本实施例涉及的控制器设置有物品检测模块、深度图获取模块、路径规划模块和类别判断模块;其中物品检测模块用于:进行样本标注及模型训练,根据语音交互信息利用训练好的模型进行目标检测并输出的检测目标区域及边界框,根据语音交互信息添加子类样本并判断是否合规,将合规子类样本添加到模型的检索库并保存类别标签信息;深度图获取模块用于:通过双目相机获取视频中目标的深度信息,进而确定目标距相机的真实距离;路径规划模块用于:规划机器人物品寻找的路径;类别判断模块用于:判断物品查找模块检测到的目标是否为语音交互信息中要找的物品。
实施例4:
实施例2所述路径规划算法引用专利号202010137848.4中的方法,具体为:一种静态场景的机器人路径规划方法,包括如下步骤:
步骤一:机器人上搭载的激光雷达传感器获取周围静态场景信息,生成全局的2D栅格地图。
步骤二,对栅格地图上的栅格进行标记,包括障碍、无障碍、起点S和终点E,如图12所示的栅格地图,栅格地图的基本栅格单元为正方形,正方形栅格为可使机器人自转一圈的最小正方形;对于每个栅格定义三种坐标,分别为:
描述机器人在栅格地图中位置的主坐标:(x,y);
描述机器人中心在栅格内部位置的副坐标:(i,j);
描述机器人中心在栅格地图中的实际位置的中心坐标:(3×x+i,3×y+j)。
对标记为障碍的栅格作九宫格划分,如图13所示,若划分后的九宫格中仅单行或单列存在障碍,则将该栅格标记为伪障碍(如图14、15、16所示),反之标记为真障碍。
步骤三,在标记好的栅格地图上执行改进后的A*算法,在A*算法中,需要不断的更新和维护两个列表,open表和close表。close表存储处理过后的栅格,open表存储需遍历的栅格。如图17所示,具体如下:
(1)将起点添加到open表中,执行以下循环;
(2)遍历open表,查找损失f最小的栅格,将其设为当前要处理的栅格p;
(3)将栅格p从open表转移到close表中;
栅格p包含以下信息:
描述栅格p在栅格地图中位置的主坐标(xp,yp);
描述机器人中心在栅格p中位置的副坐标(ip,jp);
描述栅格p的父栅格o在栅格地图中位置的主坐标(xo,yo);
所在栅格p的栅格属性,具体为无障碍栅格或伪障碍栅格;
所在栅格p的附属栅格q,若p为无障碍栅格则为空,若p为伪障碍栅格则为与伪障碍栅格构成通路的栅格主坐标;
其中,xp,xo分别为栅格p和栅格p的父栅格o在栅格地图中主坐标的横坐标,yp,yo分别为栅格p和父栅格o在栅格地图中主坐标的纵坐标,ip,io分别为机器人中心在栅格p和父栅格o中副坐标的横坐标,jp,jo分别为机器人中心在栅格p和父栅格o中副坐标的纵坐标。
(4)遍历栅格p的相邻栅格,将可允许机器人通过的相邻栅格放入open表中,并计算相邻栅格的损失f和其父栅格,具体包括:
(a)若相邻栅格k已在close表或相邻栅格k为真障碍栅格则不处理;
(b)若相邻栅格k不在open表中且该栅格为无障碍栅格,则将该栅格添加到open表,并将栅格p设为k的父栅格,设置(1,1)为栅格k的副坐标,并计算栅格k的实际损失g(k),估计损失h(k)和总损失f(k)值;
(c)若相邻栅格k不在open表中且该栅格为伪障碍栅格,则需判断该栅格与p相邻的其他栅格能否构成通路,若能构成通路,则设置机器人中心点在栅格k九宫坐标中的坐标为栅格k的副坐标,将栅格p设为k的父栅格,并将该栅格k添加到open表,并计算该栅格的实际损失g(k),估计损失h(k)和总损失f(k)值;通路定义为允许机器人通过的连续3*3九宫小方格;
(d)若相邻栅格k在open表中,则比较原始路径和经由当前栅格p的路径的g(k)值,若新路径的g(k)值更小,则将栅格p设为栅格k的父栅格,计算栅格k的实际损失g(k),估计损失h(k)和总损失f(k)值;因栅格k可能为伪障碍栅格,则在比较过程中需先判断当前栅格p能否与栅格k构成通路,如果构成通路,则计算栅格k的实际损失g(k),若新路径的g(k)值更小,则将栅格p设为栅格k的父栅格,反之不改变;若不构成通路,则不参与比较。
栅格k的损失计算公式如下:
f(k)=g(k)+h(k)
其中,为栅格k的父栅格p的方向向量,为栅格k的方向向量,d为机器人移动的距离,大小等于栅格单元的边长,为栅格k与起点S构成的向量,为终点E与起点S构成的向量,xS,xk,xE分别为起点、栅格k、终点在栅格地图中的横坐标,yS,yk,yE分别为起点、栅格k、终点在栅格地图中的纵坐标。
(5)遍历完毕,判断open表是否为空,当open表为空,且未遍历到终点,则表示无路径,终点为死点,结束;当open表不为空,判断终点是否添加到open表中,当终点添加到了open表中,表示路径已找到,跳出循环;若终点不在open表中,返回步骤(2),重新遍历open表。
步骤四,从终点开始读取栅格的父栅格,直至读取到起点,记录读取过程中经过的栅格,这些连接起点和终点的栅格即为机器人的路径,通过计算路径相邻栅格的方向向量夹角来计算机器人在运动过程中的偏移角度。
机器人在前进过程中后一个位置相对于前一个位置的偏转角度θ计算公式如下:
Claims (2)
1.一种样本高效标注的物品识别方法,其特征在于:具体工艺步骤如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比为1/4的从网上下载的训练样本,及第三部分为样本量占比为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
S1211、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,节省大量的样本标注时间;
S1212、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到的预测类别、分割的目标区域的轮廓信息和边界框,作为最后的检测结果;所述进行目标检测具体工艺步骤如下:
所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高及旋转角度;
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像进行旋转,得到旋转后的图像,然后再根据步骤(8)中的4个顶点坐标在图像中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果。
2.根据权利要求1所述的样本高效标注的物品识别方法,其特征在于:所述resnet-101骨干网络由输入图像、零填充操作、卷积层、批归一化操作、激活层、最大池化操作、多个卷积块1、多个卷积块2和输出依次连接构成;其中卷积块1由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;卷积块2由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371785.9A CN111523610B (zh) | 2020-05-06 | 2020-05-06 | 一种样本高效标注的物品识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371785.9A CN111523610B (zh) | 2020-05-06 | 2020-05-06 | 一种样本高效标注的物品识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523610A CN111523610A (zh) | 2020-08-11 |
CN111523610B true CN111523610B (zh) | 2023-04-21 |
Family
ID=71908528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010371785.9A Active CN111523610B (zh) | 2020-05-06 | 2020-05-06 | 一种样本高效标注的物品识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523610B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101156B (zh) * | 2020-09-02 | 2024-08-27 | 杭州海康威视数字技术股份有限公司 | 一种目标识别的方法、装置和电子设备 |
CN112100430B (zh) * | 2020-11-06 | 2021-03-30 | 北京沃东天骏信息技术有限公司 | 一种物品溯源方法和装置 |
CN112258504B (zh) * | 2020-11-13 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、设备及计算机可读存储介质 |
CN113076972A (zh) * | 2021-03-04 | 2021-07-06 | 山东师范大学 | 一种基于深度学习的两阶段Logo图像检测方法及系统 |
CN113627568B (zh) * | 2021-08-27 | 2024-07-02 | 广州文远知行科技有限公司 | 一种补标方法、装置、设备及可读存储介质 |
CN113673488B (zh) * | 2021-10-21 | 2022-02-08 | 季华实验室 | 基于少样本的目标检测方法、装置及物件分拣智能系统 |
CN113744288B (zh) * | 2021-11-04 | 2022-01-25 | 北京欧应信息技术有限公司 | 用于生成经标注的样本图像的方法、设备和介质 |
CN114528865B (zh) * | 2022-02-22 | 2024-02-20 | 广东奥普特科技股份有限公司 | 条形码检测模型的训练方法、装置及条形码检测方法、装置 |
CN118015555A (zh) * | 2024-04-10 | 2024-05-10 | 南京国电南自轨道交通工程有限公司 | 一种基于视觉检测与掩码图方向向量的刀闸状态识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564077A (zh) * | 2018-04-03 | 2018-09-21 | 哈尔滨哈船智控科技有限责任公司 | 一种基于深度学习对视频或图片中数字的检测和识别方法 |
CN109272060A (zh) * | 2018-09-06 | 2019-01-25 | 湖北工业大学 | 一种基于改进的darknet神经网络进行目标检测的方法和系统 |
CN109344878A (zh) * | 2018-09-06 | 2019-02-15 | 北京航空航天大学 | 一种基于ResNet的仿鹰脑特征整合小目标识别方法 |
CN109376788A (zh) * | 2018-10-31 | 2019-02-22 | 重庆爱思网安信息技术有限公司 | 一种基于深度学习高识别率的图像分析方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110390691A (zh) * | 2019-06-12 | 2019-10-29 | 合肥合工安驰智能科技有限公司 | 一种基于深度学习的矿石尺度测量方法及应用系统 |
CN110502654A (zh) * | 2019-08-26 | 2019-11-26 | 长光卫星技术有限公司 | 一种适用于多源异构遥感数据的目标库生成系统 |
CN110765844A (zh) * | 2019-09-03 | 2020-02-07 | 华南理工大学 | 一种基于对抗学习的非感应式餐盘图像数据自动标注方法 |
CN111079640A (zh) * | 2019-12-09 | 2020-04-28 | 合肥工业大学 | 一种基于自动扩增样本的车型识别方法及系统 |
-
2020
- 2020-05-06 CN CN202010371785.9A patent/CN111523610B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108564077A (zh) * | 2018-04-03 | 2018-09-21 | 哈尔滨哈船智控科技有限责任公司 | 一种基于深度学习对视频或图片中数字的检测和识别方法 |
CN109272060A (zh) * | 2018-09-06 | 2019-01-25 | 湖北工业大学 | 一种基于改进的darknet神经网络进行目标检测的方法和系统 |
CN109344878A (zh) * | 2018-09-06 | 2019-02-15 | 北京航空航天大学 | 一种基于ResNet的仿鹰脑特征整合小目标识别方法 |
CN109376788A (zh) * | 2018-10-31 | 2019-02-22 | 重庆爱思网安信息技术有限公司 | 一种基于深度学习高识别率的图像分析方法 |
CN110390691A (zh) * | 2019-06-12 | 2019-10-29 | 合肥合工安驰智能科技有限公司 | 一种基于深度学习的矿石尺度测量方法及应用系统 |
CN110502654A (zh) * | 2019-08-26 | 2019-11-26 | 长光卫星技术有限公司 | 一种适用于多源异构遥感数据的目标库生成系统 |
CN110765844A (zh) * | 2019-09-03 | 2020-02-07 | 华南理工大学 | 一种基于对抗学习的非感应式餐盘图像数据自动标注方法 |
CN111079640A (zh) * | 2019-12-09 | 2020-04-28 | 合肥工业大学 | 一种基于自动扩增样本的车型识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
谢禹 ; 李玉俊 ; 董文生 ; .基于SSD神经网络的图像自动标注及应用研究.信息技术与标准化.2020,(第04期),全文. * |
郭乔进 ; 周鹏飞 ; 胡杰 ; 梁中岩 ; .基于目标跟踪的半自动图像标注样本生成方法.信息化研究.2015,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111523610A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523610B (zh) | 一种样本高效标注的物品识别方法 | |
CN111523545B (zh) | 一种结合深度信息的物品查找方法 | |
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN113409410B (zh) | 一种基于3d激光雷达的多特征融合igv定位与建图方法 | |
US8467628B2 (en) | Method and system for fast dense stereoscopic ranging | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
Wu et al. | Active recognition and pose estimation of household objects in clutter | |
Eade et al. | Monocular graph SLAM with complexity reduction | |
Huang et al. | A fast point cloud ground segmentation approach based on coarse-to-fine Markov random field | |
CN113537208A (zh) | 一种基于语义orb-slam技术的视觉定位方法及系统 | |
CN109934847B (zh) | 弱纹理三维物体姿态估计的方法和装置 | |
Ding et al. | Vehicle pose and shape estimation through multiple monocular vision | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN112070770A (zh) | 一种高精度三维地图与二维栅格地图同步构建方法 | |
Streiff et al. | 3D3L: Deep learned 3D keypoint detection and description for LiDARs | |
Ma et al. | Visual homing via guided locality preserving matching | |
Gao et al. | Complete and accurate indoor scene capturing and reconstruction using a drone and a robot | |
Bodensteiner et al. | Monocular camera trajectory optimization using LiDAR data | |
CN114742864A (zh) | 皮带跑偏检测方法及装置 | |
Khalifa et al. | Visual path odometry for smart autonomous e-bikes | |
Adkins et al. | ObVi-SLAM: Long-Term Object-Visual SLAM | |
Adachi et al. | Accuracy improvement of semantic segmentation trained with data generated from a 3d model by histogram matching using suitable references | |
Liao | SLAMORE: SLAM with object recognition for 3D radio environment reconstruction | |
CN114413882B (zh) | 一种基于多假设跟踪的全局初定位方法和装置 | |
Zhao et al. | Computing object-based saliency in urban scenes using laser sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |