CN111523545A - 一种结合深度信息的物品查找方法 - Google Patents

一种结合深度信息的物品查找方法 Download PDF

Info

Publication number
CN111523545A
CN111523545A CN202010371559.0A CN202010371559A CN111523545A CN 111523545 A CN111523545 A CN 111523545A CN 202010371559 A CN202010371559 A CN 202010371559A CN 111523545 A CN111523545 A CN 111523545A
Authority
CN
China
Prior art keywords
target
training
sample
user
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010371559.0A
Other languages
English (en)
Other versions
CN111523545B (zh
Inventor
纪刚
商胜楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lianhe Chuangzhi Technology Co ltd
Original Assignee
Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Lianhe Chuangzhi Technology Co ltd filed Critical Qingdao Lianhe Chuangzhi Technology Co ltd
Priority to CN202010371559.0A priority Critical patent/CN111523545B/zh
Publication of CN111523545A publication Critical patent/CN111523545A/zh
Application granted granted Critical
Publication of CN111523545B publication Critical patent/CN111523545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于物品智能查找和定位技术领域,涉及一种结合深度信息的物品查找方法;工艺步骤包括:S1、采用物品检测算法训练物品检测模型,然后定位出视频图像中目标区域,并预测出对应的类别;S2、使用双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,确定目标距相机的真实距离;S3、物品查找时按照规划的路径进行图像采集,对获取图像处理预测出目标的类别,计算目标距离相机的真实距离,核验目标类别一致后以语音播报的方式告诉用户目标的具体位置;所述方法减少了背景的干扰,有效提高了目标匹配的准确度,添加检索库样本去重操作,减少了计算量及目标匹配时间;并结合图像的深度图信息,帮助用户快速找到想找的物品。

Description

一种结合深度信息的物品查找方法
技术领域:
本发明属于物品智能查找和定位的技术领域,涉及一种目标检测结合深度图分析的物品查找的方法,特别是一种结合深度信息的物品查找方法。
背景技术:
在日常生活中,人们通常将各种生活用品随意摆放,需要使用某一物品时,往往因为各种物品放置杂乱,难以及时发现,使用者翻箱倒柜以找到需要的生活用品,给使用者造成极大的不便和烦恼,浪费使用者的精力和时间。
在现有技术中,公开号为CN109241854A的中国专利,公开了一种基于机器人的物品查找方法和装置,所述方法包括:确定遗失的物品信息和遗失区域;对遗失区域进行扫描,构建电子地图;在电子地图中规划机器人的巡检路线;通过机器人沿着所述规划的巡检路线依次采集所述遗失区域的图像;将采集的遗失区域的图像和遗失物品信息进行匹配处理;显示匹配处理的结果;该发明通过无人机采集遗失区域的图像,不适于室内作业。公开号为CN110378259A的中国专利,公开了一种面向监控视频的多目标行为识别方法,包括:分别训练目标检测模型和行为识别模型;预测视频当前帧中行人的位置信息,并将位置信息作为当前帧的目标检测框;根据当前帧目标检测框,通过上一帧信息预测到当前帧的目标跟踪框,计算两者之间的目标框匹配度;将当前帧的目标检测框与当前帧的目标跟踪框进行匹配,得到匹配信息;估计当前帧的行人目标框坐标,并预测行人目标在下一帧的目标跟踪框坐标;裁剪出行人图片并保存行人编号;根据行人编号,将连续多帧中编号相同的行人图片进行匹配,组合成列表并保存行人编号;若列表长度达到指定帧数阈值,则将列表中保存的行人图片输入到所述行为识别模型,计算该列表的行为类别概率;该方法用于监控行人,不能够用于室内物品的主动查找。
总而言之,现有技术中尚不存在在室内辅助使用者查找物品的方法和设备,现有追踪设备一般属于定点监控或者空中监控,不易于室内主动查找生活或者办公小型器具,因此目前亟需一种物品主动查找的方法,以解决人们经常性翻找物品的苦恼。
发明内容:
本发明的目的在于克服现有物品查找存在的缺点,针对当前人工翻找物品费时费力的缺陷、以及现有智能设备不能够进行主动巡视、查找物品的不足,设计提供一种结合深度信息的物品查找方法。
为实现上述目的,本发明涉及的一种结合深度信息的物品查找方法,包括物品主体检测及类别预测、深度图获取、物品查找;其具体工艺步骤如下:
S1、物品主体检测及类别预测:
采用物品检测算法训练物品检测模型,然后定位出视频图像中用户感兴趣的区域,并根据物品检测模型预测出对应的类别;物品检测算法采用改进的mask rcnn算法;
S2、深度图获取:
使用机器人身上装配的双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,进而确定目标距相机的真实距离;
S3、物品查找
物品查找时,按照规划的路径对沿线目标进行图像采集,通过物品检测算法对获取视频帧图像处理预测出目标的类别,基于深度图获取算法计算目标距离相机的真实距离,核验检测到的目标类别与需要寻找的目标类别是否一致,核实一致后以语音播报的方式告诉用户目标的具体位置;物品查找分两种情况:大类物品查找与子类物品检索。
本发明所述步骤S1的具体过程如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,本发明采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;
2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型。
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到输出的预测类别、目标区域的轮廓信息和边界框,作为最后的检测结果。
本发明所述步骤S14的目标检测具体工艺流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果。
本发明所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据;
本发明所述步骤S2的具体流程如下:
(b1)对双目相机进行标定,得到两个相机的内外参数、单应矩阵;
(b2)根据标定结果对双目相机采集的两张原始图像进行校正,使得校正后的两张图像位于同一平面且互相平行。
(b3)对校正后的两张图像进行像素点匹配;
(b4)根据匹配结果计算每个像素的深度,从而获得深度图;各个像素点的深度信息由下式求出:
Figure BDA0002478479330000051
其中,z即为待求的距离,f表示相机的焦距,b表示双目相机的基线,d表示视差,uL表示左侧相机成像平面的坐标,uR表示右侧相机成像平面的坐标;
(b5)对每张检测图像生成其对应的深度图,深度图记录了检测图像中每个像素点距离相机的距离,根据检测到的目标边框信息对应到深度图中的相应位置,确定该目标距相机的真实距离,进而告知用户检测到的目标与用户的实际距离长度,方便用户观察和找到目标;
本发明所述步骤S3中大类物品查找过程为:大类物品查找即查找训练类别中的某一类物品,若用户想查找某类物品只需告诉机器人,机器人接到指令后进行解析并返回检测结果;本步骤以查找遥控器为例对物品查找流程进行说明,具体实现流程如下:
(c1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找遥控器”;
(c2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法,其中路径规划算法引用专利号202010137848.4中的方法;
(c3)机器人按照规划的路径进行缓慢移动,物品检测算法读取双目相机中左摄像头获取视频帧,然后对视频帧进行目标检测;同时深度图获取算法读取左右摄像头获取的视频帧,然后生成左右摄像头对应视频帧的深度图;
(c4)若在当前帧中未检测到目标,则返回(c3)步继续读取下一帧并检测;检测到目标后进入下一步;
(c5)对检测到的目标类别进行判断,即判断检测到的目标类别是否为语音指令中“遥控器”的类别,若连续在3帧图像中均检测到遥控器,则认为找到了目标,然后获取该目标在深度图中的深度信息,以语音播报的方式告诉用户目标的位置,最后结束此次查找任务;若机器人走到规划路径的最后仍未检测到目标遥控器,则结束此次查找任务并以语音播报的方式告诉用户未找到其想找的物品。
本发明所述步骤S3中子类物品检索是指能够帮用户找到更具体的物品,用户能够在物品检测模型检测的类别中添加具体的子类物品,通过上传对应的子类图片和类别标签来保存子类信息,之后用户就能够查找添加的子类物品,具体工艺流程如下:
S321、添加子类样本
添加子类样本具体实现流程如下:
(d1)在某个大类下,用户手动或通过人机交互的方式添加子类样本,输入对应的标签;
(d2)在步骤(d1)中的输入对应的标签保存前,判断用户添加的样本是否合规;即通过物品检测算法对图片进行检测,若检测到标签目标且预测类别属于该大类,则进行下一步,若未检测到标签目标则丢弃该图片并提示用户重新上传图片;若检测到标签目标但预测类别与大类不符则提示用户确认上传的图片与填写的标签是否正确,若用户确认则进行下一步,否则丢弃该样本并提示用户重新上传图片;
(d3)判断添加的子类样本合规后,再通过dHash(差异哈希)算法进行图片去重操作;即判断该添加的子类样本是否和检索库中已有的样本高度相似,若高度相似则舍弃该添加的子类样本;若不相似则对该样本进行特征提取操作并保存提取的特征,用于后续图片匹配,同时将该子类样本添加到检索库并保存标签信息;其中dHash算法进行图片去重的流程如下:
(e1)输入图像灰度化;
(e2)将输入图像缩小,使用的输入图像缩小后的尺寸是9*8;
(e3)比较邻域像素值,得到每行的布尔值;
(e4)将布尔值转换为16进制字符串;
(e5)计算两幅图像哈希编码的汉明距离;设置汉明距离的阈值是6,若距离大于阈值则认为两幅图像不同,否则认为两者相同。
S322、子类物品查找流程
在完成物品检测模型的训练和子类样本添加后,即可进行物品查找;以查找电视遥控器为例对子类物品查找流程进行说明;具体实现流程如下:
(f1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找电视遥控器”;
(f2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法;
(f3)按照规划的路径进行缓慢移动,物品检测算法读取左摄像头获取视频帧,然后对视频帧进行检测;深度图获取算法读取左右摄像头获取视频帧,然后生成左摄像头对应视频帧的深度图;
(f4)若检测到大类别的目标遥控器则进入下一步;若未检测到目标遥控器则重复(f3)步骤;若机器人走到规划路径的最后还未找到目标遥控器,则结束查找任务并以语音播报的方式告诉用户未查找到其想找的物品;
(f5)对检测到的大类别的目标遥控器区域进行特征提取,并与检索库中添加到遥控器大类下的子类别样本进行匹配(即计算与检索库中各样本的相似度),若与“电视遥控器”子类别样本的相似度大于设定的阈值,则认为找到目标电视遥控器,同时在深度图的对应区域获取该目标距离机器人的距离,并以语音播报的方式告诉用户,此次查找任务结束;若与“电视遥控器”子类别样本的相似度小于阈值,则认为未找到目标,回到第(f3)步继续查找;若机器人走到规划路径的最后还未找到目标,则结束此次查找任务并以语音播报的方式告诉用户未查找到其想找的物品。
本发明与现有技术相比,所设计的结合深度信息的物品查找方法采用的目标检测算法对小目标具有较好的鲁棒性,且检测精度较高;本发明对目标区域检测算法部分的改进,有效减少了背景的干扰,并能够有效提高目标匹配的准确度,同时可有效减少计算量,提高目标匹配速度;添加检索库样本去重操作,可减少检索库中同类样本的冗余,减少计算量及目标匹配时间;结合图像的深度图信息,可更准确的告诉用户待查找目标的位置信息,帮助用户快速找到想找的物品;本发明的样本标注方式可大量减少样本标注时间,节省人力和时间;本发明的物品查找方式更人性化,可满足用户的多种需求。
附图说明:
图1为本发明涉及的物品主体检测及类别预测的工艺流程示意框图。
图2为本发明涉及的目标检测的工艺流程示意框图。
图3为本发明涉及的resnet-101骨干网络的架构结构原理示意图。
图4为本发明涉及的resnet-101骨干网络中卷积块1的架构结构原理示意图。
图5为本发明涉及的resnet-101骨干网络中卷积块2的架构结构原理示意图。
图6为本发明涉及的RPN网络的架构结构原理示意图。
图7为本发明涉及的mask rcnn算法检测结果的目标图像边界框的示意图。
图8为本发明涉及的mask rcnn算法检测结果的目标截图的放大示意图。
图9为本发明涉及的改进后mask rcnn算法检测结果的目标图像边界框的示意图的示意图。
图10为本发明涉及的改进后mask rcnn算法检测结果的目标截图的放大示意图。
图11为本发明涉及的添加子类样本的工艺流程示意框图。
图12为栅格地图简易示意图。
图13为图12中栅格A放大后的示意图。
图14为伪障碍栅格示意图一。
图15为伪障碍栅格示意图二。
图16为伪障碍栅格示意图三。
图17为A*算法流程示意图。
具体实施方式:
下面通过实施例并结合附图对本发明作进一步说明。
实施例1:
本实施例涉及的一种结合深度信息的物品查找方法,包括物品主体检测及类别预测、深度图获取、物品查找;其具体工艺步骤如下:
S1、物品主体检测及类别预测
采用物品检测算法训练物品检测模型,然后定位出视频图像中用户感兴趣的区域,并根据物品检测模型预测出对应的类别;物品检测算法采用改进的mask rcnn算法,具体过程如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,本发明采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;
所述微调是指修改目标的轮廓或标签;由于检测模型检测出的目标轮廓可能不完整,也可能出现预测类别的标签错误的情况,因此此处主要微调轮廓或标签;保证训练样本正确标注,训练出的模型才能更好;
2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型。
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到输出的目标边界框;如图2所示,具体的目标检测流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI
如图3所示,所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据;
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
如图6所示,所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
对mask rcnn算法输出的目标边界框进行改进;由于mask rcnn算法得到的目标边界框不是最小外接矩形,会包含较多的背景信息,这不仅增加计算量也不利于后续的目标匹配;为了减少背景信息,根据步骤(6)得到的轮廓信息,通过获取目标轮廓的最小外接矩形作为最后的目标框;改进的具体实现流程如下:
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果;
如图2-5所示,图7是现有mask rcnn算法检测结果的目标图像边界框的示意图,图8是现有mask rcnn算法检测结果的目标截图的放大示意图,图9是改进后mask rcnn算法检测结果的目标图像边界框的示意图的示意图,图10是改进后mask rcnn算法检测结果的目标截图的放大示意图;图7和图9是同一幅图片的不同检测结果,由图8和图10可以明显看出改进后的目标框截图包含的背景信息明显减少,这样在后续目标匹配的时候可有效减少背景信息对目标匹配的影响,可有效提高目标匹配的精度并减少计算量和目标匹配的时间。
S2、深度图获取
使用机器人身上装配的双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,进而确定目标距相机的真实距离;基于双目相机的深度图获取算法的具体流程如下:
(b1)对双目相机进行标定,得到两个相机的内外参数、单应矩阵;
(b2)根据标定结果对双目相机采集的两张原始图像进行校正,使得校正后的两张图像位于同一平面且互相平行。
(b3)对校正后的两张图像进行像素点匹配;
(b4)根据匹配结果计算每个像素的深度,从而获得深度图;各个像素点的深度信息由下式求出:
Figure BDA0002478479330000121
其中,z即为待求的距离,f表示相机的焦距,b表示双目相机的基线,d表示视差,uL表示左侧相机成像平面的坐标,uR表示右侧相机成像平面的坐标;
(b5)对每张检测图像生成其对应的深度图,深度图记录了检测图像中每个像素点距离相机的距离,根据检测到的目标边框信息对应到深度图中的相应位置,确定该目标距相机的真实距离,进而告知用户检测到的目标与用户的实际距离长度,方便用户观察和找到目标;
S3、物品查找
物品查找时,按照规划的路径对沿线目标进行图像采集,通过物品检测算法对获取视频帧图像处理预测出目标的类别,基于深度图获取算法计算目标距离相机的真实距离,核验检测到的目标类别与需要寻找的目标类别是否一致,核实无误后以语音播报的方式告诉用户目标的具体位置;物品查找分两种情况:大类物品查找与子类物品检索;本步骤以机器人为应用实例,对物品查找流程进行说明;
S31、大类物品查找
大类物品查找即查找训练类别中的某一类物品,如遥控器、杯子等物品;若用户想查找某类物品只需告诉机器人,机器人接到指令后进行解析并返回检测结果;本步骤以查找遥控器为例对物品查找流程进行说明,具体实现流程如下:
(c1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找遥控器”;
(c2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法,其中路径规划算法引用专利号202010137848.4中的方法;
(c3)机器人按照规划的路径进行缓慢移动,物品检测算法读取双目相机中左摄像头获取视频帧,然后对视频帧进行目标检测;同时深度图获取算法读取左右摄像头获取的视频帧,然后生成左右摄像头对应视频帧的深度图;
(c4)若在当前帧中未检测到目标,则返回(c3)步继续读取下一帧并检测;检测到目标后进入下一步;
(c5)对检测到的目标类别进行判断,即判断检测到的目标类别是否为语音指令中“遥控器”的类别,若连续在3帧图像中均检测到遥控器,则认为找到了目标,然后获取该目标在深度图中的深度信息,以语音播报的方式告诉用户目标的位置,最后结束此次查找任务;若机器人走到规划路径的最后仍未检测到目标遥控器,则结束此次查找任务并以语音播报的方式告诉用户未找到其想找的物品;
S32、子类物品检索
物品子类检索能够帮用户找到更具体的物品;
用户能够在物品检测模型检测的类别中添加具体的子类物品,例如:物品检测模型能够检测到遥控器这一大类,则用户能够在遥控器这一大类下添加子类,如空调遥控器、电视遥控器等;通过上传对应的子类图片和类别标签来保存子类信息,之后用户就能够查找添加的子类物品,具体工艺流程如下:
S321、添加子类样本
如图11所示,添加子类样本具体实现流程如下:
(d1)在某个大类下,用户手动或通过人机交互的方式添加子类样本,输入对应的标签;
(d2)在步骤(d1)中的输入对应的标签保存前,判断用户添加的样本是否合规;即通过物品检测算法对图片进行检测,若检测到标签目标且预测类别属于该大类,则进行下一步,若未检测到标签目标则丢弃该图片并提示用户重新上传图片;若检测到标签目标但预测类别与大类不符则提示用户确认上传的图片与填写的标签是否正确,若用户确认则进行下一步,否则丢弃该样本并提示用户重新上传图片;
(d3)判断添加的子类样本合规后,再通过dHash(差异哈希)算法进行图片去重操作;即判断该添加的子类样本是否和检索库中已有的样本高度相似,若高度相似则舍弃该添加的子类样本;若不相似则对该样本进行特征提取操作并保存提取的特征,用于后续图片匹配,同时将该子类样本添加到检索库并保存标签信息;其中dHash算法进行图片去重的流程如下:
(e1)输入图像灰度化;
(e2)将输入图像缩小,使用的输入图像缩小后的尺寸是9*8;
(e3)比较邻域像素值,得到每行的布尔值;
(e4)将布尔值转换为16进制字符串;
(e5)计算两幅图像哈希编码的汉明距离;设置汉明距离的阈值是6,若距离大于阈值则认为两幅图像不同,否则认为两者相同。
S322、子类物品查找流程
在完成物品检测模型的训练和子类样本添加后,即可进行物品查找;以查找电视遥控器为例对子类物品查找流程进行说明;具体实现流程如下:
(f1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找电视遥控器”;
(f2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法;
(f3)按照规划的路径进行缓慢移动,物品检测算法读取左摄像头获取视频帧,然后对视频帧进行检测;深度图获取算法读取左右摄像头获取视频帧,然后生成左摄像头对应视频帧的深度图;
(f4)若检测到大类别的目标遥控器则进入下一步;若未检测到目标遥控器则重复(f3)步骤;若机器人走到规划路径的最后还未找到目标遥控器,则结束查找任务并以语音播报的方式告诉用户未查找到其想找的物品;
(f5)对检测到的大类别的目标遥控器区域进行特征提取,并与检索库中添加到遥控器大类下的子类别样本进行匹配(即计算与检索库中各样本的相似度),若与“电视遥控器”子类别样本的相似度大于设定的阈值,则认为找到目标电视遥控器,同时在深度图的对应区域获取该目标距离机器人的距离,并以语音播报的方式告诉用户,此次查找任务结束;若与“电视遥控器”子类别样本的相似度小于阈值,则认为未找到目标,回到第(f3)步继续查找;若机器人走到规划路径的最后还未找到目标,则结束此次查找任务并以语音播报的方式告诉用户未查找到其想找的物品。
实施例2:
:实施例1涉及的机器人其主体结构包括双目相机、控制器、语音交互模块、驱动部和电源;机器人头部安装有双目相机,双目相机用于视频图像采集;双目相机与机器人躯体内的控制器电信息连接,控制器与电源电连接;语音交互模块设置在机器人躯体表层,语音交互模块与控制器电信息连接,语音交互模块用于用户与机器人进行语音交互、添加子类样本;机器人的下部设置有驱动部,驱动部采用现有履带式或者轮式驱动结构,驱动部与控制器电信息连接。
本实施例涉及的控制器设置有物品检测模块、深度图获取模块、路径规划模块和类别判断模块;其中物品检测模块用于:进行样本标注及模型训练,根据语音交互信息利用训练好的模型进行目标检测并输出的检测目标区域及边界框,根据语音交互信息添加子类样本并判断是否合规,将合规子类样本添加到模型的检索库并保存类别标签信息;深度图获取模块用于:通过双目相机获取视频中目标的深度信息,进而确定目标距相机的真实距离;路径规划模块用于:规划机器人物品寻找的路径;类别判断模块用于:判断物品查找模块检测到的目标是否为语音交互信息中要找的物品。
实施例3:
实施例1所述路径规划算法引用专利号202010137848.4中的方法,具体为:一种静态场景的机器人路径规划方法,包括如下步骤:
步骤一:机器人上搭载的激光雷达传感器获取周围静态场景信息,生成全局的2D栅格地图。
步骤二,对栅格地图上的栅格进行标记,包括障碍、无障碍、起点S和终点E,如图12所示的栅格地图,栅格地图的基本栅格单元为正方形,正方形栅格为可使机器人自转一圈的最小正方形;对于每个栅格定义三种坐标,分别为:
描述机器人在栅格地图中位置的主坐标:(x,y);
描述机器人中心在栅格内部位置的副坐标:(i,j);
描述机器人中心在栅格地图中的实际位置的中心坐标:(3×x+i,3×y+j)。
对标记为障碍的栅格作九宫格划分,如图13所示,若划分后的九宫格中仅单行或单列存在障碍,则将该栅格标记为伪障碍(如图14、15、16所示),反之标记为真障碍。
步骤三,在标记好的栅格地图上执行改进后的A*算法,在A*算法中,需要不断的更新和维护两个列表,open表和close表。close表存储处理过后的栅格,open表存储需遍历的栅格。如图17所示,具体如下:
(1)将起点添加到open表中,执行以下循环;
(2)遍历open表,查找损失f最小的栅格,将其设为当前要处理的栅格p;
(3)将栅格p从open表转移到close表中;
栅格p包含以下信息:
描述栅格p在栅格地图中位置的主坐标(xp,yp);
描述机器人中心在栅格p中位置的副坐标(ip,jp);
描述栅格p的父栅格o在栅格地图中位置的主坐标(xo,yo);
描述机器人在栅格p中的朝向的方向向量,即栅格p的方向向量
Figure BDA0002478479330000161
所在栅格p的栅格属性,具体为无障碍栅格或伪障碍栅格;
所在栅格p的附属栅格q,若p为无障碍栅格则为空,若p为伪障碍栅格则为与伪障碍栅格构成通路的栅格主坐标;
其中,某一栅格的方向向量
Figure BDA0002478479330000162
定义为该栅格中心坐标减去该栅格的父栅格的中心坐标,因此,栅格p的方向向量
Figure BDA0002478479330000163
的计算公式如下:
Figure BDA0002478479330000164
其中,xp,xo分别为栅格p和栅格p的父栅格o在栅格地图中主坐标的横坐标,yp,yo分别为栅格p和父栅格o在栅格地图中主坐标的纵坐标,ip,io分别为机器人中心在栅格p和父栅格o中副坐标的横坐标,jp,jo分别为机器人中心在栅格p和父栅格o中副坐标的纵坐标。
(4)遍历栅格p的相邻栅格,将可允许机器人通过的相邻栅格放入open表中,并计算相邻栅格的损失f和其父栅格,具体包括:
(a)若相邻栅格k已在close表或相邻栅格k为真障碍栅格则不处理;
(b)若相邻栅格k不在open表中且该栅格为无障碍栅格,则将该栅格添加到open表,并将栅格p设为k的父栅格,设置(1,1)为栅格k的副坐标,并计算栅格k的实际损失g(k),估计损失h(k)和总损失f(k)值;
(c)若相邻栅格k不在open表中且该栅格为伪障碍栅格,则需判断该栅格与p相邻的其他栅格能否构成通路,若能构成通路,则设置机器人中心点在栅格k九宫坐标中的坐标为栅格k的副坐标,将栅格p设为k的父栅格,并将该栅格k添加到open表,并计算该栅格的实际损失g(k),估计损失h(k)和总损失f(k)值;通路定义为允许机器人通过的连续3*3九宫小方格;
(d)若相邻栅格k在open表中,则比较原始路径和经由当前栅格p的路径的g(k)值,若新路径的g(k)值更小,则将栅格p设为栅格k的父栅格,计算栅格k的实际损失g(k),估计损失h(k)和总损失f(k)值;因栅格k可能为伪障碍栅格,则在比较过程中需先判断当前栅格p能否与栅格k构成通路,如果构成通路,则计算栅格k的实际损失g(k),若新路径的g(k)值更小,则将栅格p设为栅格k的父栅格,反之不改变;若不构成通路,则不参与比较。
栅格k的损失计算公式如下:
f(k)=g(k)+h(k)
Figure BDA0002478479330000171
Figure BDA0002478479330000172
Figure BDA0002478479330000173
其中,
Figure BDA0002478479330000174
为栅格k的父栅格p的方向向量,
Figure BDA0002478479330000175
为栅格k的方向向量,d为机器人移动的距离,大小等于栅格单元的边长,
Figure BDA0002478479330000176
为栅格k与起点S构成的向量,
Figure BDA0002478479330000177
为终点E与起点S构成的向量,xS,xk,xE分别为起点、栅格k、终点在栅格地图中的横坐标,yS,yk,yE分别为起点、栅格k、终点在栅格地图中的纵坐标。
(5)遍历完毕,判断open表是否为空,当open表为空,且未遍历到终点,则表示无路径,终点为死点,结束;当open表不为空,判断终点是否添加到open表中,当终点添加到了open表中,表示路径已找到,跳出循环;若终点不在open表中,返回步骤(2),重新遍历open表。
步骤四,从终点开始读取栅格的父栅格,直至读取到起点,记录读取过程中经过的栅格,这些连接起点和终点的栅格即为机器人的路径,通过计算路径相邻栅格的方向向量夹角来计算机器人在运动过程中的偏移角度。
机器人在前进过程中后一个位置相对于前一个位置的偏转角度θ计算公式如下:
Figure BDA0002478479330000181
其中,
Figure BDA0002478479330000182
分别为路径前进路线中前一个栅格和后一个栅格的方向向量。

Claims (9)

1.一种结合深度信息的物品查找方法,其特征在于:包括物品主体检测及类别预测、深度图获取、物品查找;其具体工艺步骤如下:
S1、物品主体检测及类别预测:
采用物品检测算法训练物品检测模型,然后定位出视频图像中用户感兴趣的区域,并根据物品检测模型预测出对应的类别;物品检测算法采用改进的mask rcnn算法;
S2、深度图获取:
使用机器人身上装配的双目相机进行视频图像采集;通过双目相机获取视频中目标的深度图信息,进而确定目标距相机的真实距离;
S3、物品查找
物品查找时,按照规划的路径对沿线目标进行图像采集,通过物品检测算法对获取视频帧图像处理预测出目标的类别,基于深度图获取算法计算目标距离相机的真实距离,核验检测到的目标类别与需要寻找的目标类别是否一致,核实一致后以语音播报的方式告诉用户目标的具体位置;物品查找分两种情况:大类物品查找与子类物品检索。
2.根据权利要求1所述的结合深度信息的物品查找方法,其特征在于:所述步骤S1的具体过程如下:
S11、训练样本库
根据需求准备相应类别的静态图片作为训练样本进行训练,形成训练数据集;训练数据集中包括训练16类物品,分别为:小刀、杯子、遥控器、单肩包、手机、剪刀、笔记本电脑、鼠标、双肩包、钥匙、钱包、眼镜、雨伞、扇子、小狗、小猫;训练数据集主要包括3部分,分别为:第一部分为样本量占比约为1/2的从coco数据集中挑选的训练样本,第二部分为样本量占比约为1/4的从网上下载的训练样本,及第三部分为样本量占比约为1/4的用户拍摄的具体场景下的训练样本;
S12、样本标注
使用labelme工具进行图像标注工作,对训练样本进行轮廓标注,最终生成样本标注文件;将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;由于轮廓标注的点较多,标注样本比较费时,为了节省样本标注时间,本发明采用如下标注方式:
S121、由于mask rcnn算法有基于coco数据集的开源的检测模型,其中coco数据集共有80类,因此对训练样本进行分类别训练标注,得到json文件或者样本标注文件,
1、对于coco数据集中存在的物品类别,首先用开源的检测模型检测一遍训练样本并将检测的轮廓及预测类别信息进行保存,然后生成相应的json格式文件,根据生成的json文件通过labelme工具对训练样本的对应目标进行人工微调,得到最终的json文件,这样可以节省大量的样本标注时间;
2、对于coco数据集中不存在的物品类别,(a1)先进行人工标注训练数据集中训练样本的少量样本,(a2)然后利用人工标注的少量样本训练检测模型,(a3)再用训练得到的检测模型检测训练样本并保存检测结果,(a4)再后根据检测结果通过labelme工具对样本标注信息进行人工微调,(a5)用增加的标注样本重新更新检测模型,最终得到所有训练样本的标注文件,从而节省标注样本的时间;
S122、最终将所有的样本标注文件结合得到最后的训练样本数据,用于训练物品检测模型;
S13、训练物品检测模型
采用mask rcnn算法进行物品检测、类别预测及实例分割;采用resnet-101骨干网络进行模型的训练;通过修改包括训练类别数、学习率、最大迭代次数、GPU参数、训练数据路径、模型保存路径在内的训练参数,对训练样本数据进行训练;通过多次修改学习率和最大迭代次数,在已有模型的基础上进行多次模型训练操作,直到得到一个满足自己需求的模型;
S14、目标检测
得到训练好的模型后,采用mask rcnn算法进行目标检测,得到输出的预测类别、目标区域的轮廓信息和边界框,作为最后的检测结果。
3.根据权利要求2所述的结合深度信息的物品查找方法,其特征在于:所述步骤S14的目标检测具体工艺流程如下:
(1)读取摄像头的视频帧获得视频图像并输入,对图像进行尺度变化的预处理,将预处理后的图像表示为I;由于有的摄像头分辨率很高,通过预处理操作能够将原图进行适当的缩小,从而提高检测速度;
(2)将I输入resnet-101骨干网络进行特征提取,得到特征图FI
(3)将特征图FI输入RPN网络,生成多个候选目标区域Pi,i=1,2,...,N,N表示候选目标区域的数量;
所述RPN网络的架构由输入特征图、3*3conv、两个并联的1*1conv、输出候选区域依次组合构成;
(4)将Pi依次输入ROIAlign层,得到固定尺寸的特征图fi;采用双线性插值的方式,减少映射误差;
(5)将步骤(4)得到的特征图fi输入分类分支,经过全连接层,得到该图像中所有候选区域内目标的边界框bboxs及对应的预测类别信息classes;
(6)根据(5)步骤得到的目标边界框bboxs对特征图fi进行剪裁得到特征图fib,将特征图fib输入分割分支,经过全卷积网络得到该图像中所有候选区域内目标的轮廓信息maskes;
(7)通过opencv函数minAreaRect()获取步骤(6)得到的轮廓信息mask的最小外接矩形rect,包括中心点坐标(x,y)、宽高(w,h)及旋转角度(θ);
(8)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数boxPoints()获得最小外接矩形的4个顶点坐标;
(9)将步骤(7)获取的轮廓信息mask的最小外接矩形rect的信息,通过opencv函数warpAffine()将输入图像I进行旋转,得到旋转后的图像Irotate,然后再根据步骤(8)中的4个顶点坐标在图像Irotate中截取对应的矩形区域作为最后的目标区域的边界框;
(10)最终将步骤(5)得到的预测类别、步骤(6)分割的目标区域的轮廓信息和步骤(9)得到的边界框输出作为最后的检测结果。
4.根据权利要求3所述的结合深度信息的物品查找方法,其特征在于:所述resnet-101骨干网络由输入图像、零填充操作(ZeroPadding)、卷积层(Conv2D)、批归一化操作(BatchNorm)、激活层(ReLu)、最大池化操作(MaxPooling)、多个卷积块1、多个卷积块2和输出依次连接构成;如图4所示,其中卷积块1(block1或Block1)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块1第一个支路,卷积块1第一个支路的输出、输入端的输入相加后再输入激活层得到输出数据;如图5所示,卷积块2(block2)由输入端、两个并联支路、激活层、输出端依次连接构成,输入数据经过两个由卷积层、批归一化操作、激活层依次组合构成的区块和一个由卷积层、批归一化操作依次组合构成的区块连接形成的卷积块2第一个支路,一个由卷积层、批归一化操作依次组合构成的区块构成卷积块2第二个支路,卷积块2第一个支路的输出和卷积块2第二个支路的输出相加后再输入激活层得到输出数据。
5.根据权利要求4所述的结合深度信息的物品查找方法,其特征在于:所述步骤S2的具体流程如下:
(b1)对双目相机进行标定,得到两个相机的内外参数、单应矩阵;
(b2)根据标定结果对双目相机采集的两张原始图像进行校正,使得校正后的两张图像位于同一平面且互相平行。
(b3)对校正后的两张图像进行像素点匹配;
(b4)根据匹配结果计算每个像素的深度,从而获得深度图;各个像素点的深度信息由下式求出:
Figure FDA0002478479320000041
其中,z即为待求的距离,f表示相机的焦距,b表示双目相机的基线,d表示视差,uL表示左侧相机成像平面的坐标,uR表示右侧相机成像平面的坐标;
(b5)对每张检测图像生成其对应的深度图,深度图记录了检测图像中每个像素点距离相机的距离,根据检测到的目标边框信息对应到深度图中的相应位置,确定该目标距相机的真实距离,进而告知用户检测到的目标与用户的实际距离长度,方便用户观察和找到目标。
6.根据权利要求5所述的结合深度信息的物品查找方法,其特征在于:所述步骤S3中大类物品查找过程为:大类物品查找即查找训练类别中的某一类物品,若用户想查找某类物品只需告诉机器人,机器人接到指令后进行解析并返回检测结果;本步骤以查找遥控器为例对物品查找流程进行说明,具体实现流程如下:
(c1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找遥控器”;
(c2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法,其中路径规划算法引用专利号202010137848.4中的方法;
(c3)机器人按照规划的路径进行缓慢移动,物品检测算法读取双目相机中左摄像头获取视频帧,然后对视频帧进行目标检测;同时深度图获取算法读取左右摄像头获取的视频帧,然后生成左右摄像头对应视频帧的深度图;
(c4)若在当前帧中未检测到目标,则返回(c3)步继续读取下一帧并检测;检测到目标后进入下一步;
(c5)对检测到的目标类别进行判断,即判断检测到的目标类别是否为语音指令中“遥控器”的类别,若连续在3帧图像中均检测到遥控器,则认为找到了目标,然后获取该目标在深度图中的深度信息,以语音播报的方式告诉用户目标的位置,最后结束此次查找任务;若机器人走到规划路径的最后仍未检测到目标遥控器,则结束此次查找任务并以语音播报的方式告诉用户未找到其想找的物品。
7.根据权利要求6所述的结合深度信息的物品查找方法,其特征在于:所述步骤S3中子类物品检索是指能够帮用户找到更具体的物品,用户能够在物品检测模型检测的类别中添加具体的子类物品,通过上传对应的子类图片和类别标签来保存子类信息,之后用户就能够查找添加的子类物品,具体工艺流程如下:
S321、添加子类样本
添加子类样本具体实现流程如下:
(d1)在某个大类下,用户手动或通过人机交互的方式添加子类样本,输入对应的标签;
(d2)在步骤(d1)中的输入对应的标签保存前,判断用户添加的样本是否合规;即通过物品检测算法对图片进行检测,若检测到标签目标且预测类别属于该大类,则进行下一步,若未检测到标签目标则丢弃该图片并提示用户重新上传图片;若检测到标签目标但预测类别与大类不符则提示用户确认上传的图片与填写的标签是否正确,若用户确认则进行下一步,否则丢弃该样本并提示用户重新上传图片;
(d3)判断添加的子类样本合规后,再通过dHash(差异哈希)算法进行图片去重操作;即判断该添加的子类样本是否和检索库中已有的样本高度相似,若高度相似则舍弃该添加的子类样本;若不相似则对该样本进行特征提取操作并保存提取的特征,用于后续图片匹配,同时将该子类样本添加到检索库并保存标签信息;其中dHash算法进行图片去重的流程如下:
(e1)输入图像灰度化;
(e2)将输入图像缩小,使用的输入图像缩小后的尺寸是9*8;
(e3)比较邻域像素值,得到每行的布尔值;
(e4)将布尔值转换为16进制字符串;
(e5)计算两幅图像哈希编码的汉明距离;设置汉明距离的阈值是6,若距离大于阈值则认为两幅图像不同,否则认为两者相同。
S322、子类物品查找流程
在完成物品检测模型的训练和子类样本添加后,即可进行物品查找;以查找电视遥控器为例对子类物品查找流程进行说明;具体实现流程如下:
(f1)用户通过语音交互的方式告诉机器人要查找的物品;例如:用户发出语音指令:“查找电视遥控器”;
(f2)机器人接收到语音指令后进行解析,并调用物品检测算法、路径规划算法及深度图获取算法;
(f3)按照规划的路径进行缓慢移动,物品检测算法读取左摄像头获取视频帧,然后对视频帧进行检测;深度图获取算法读取左右摄像头获取视频帧,然后生成左摄像头对应视频帧的深度图;
(f4)若检测到大类别的目标遥控器则进入下一步;若未检测到目标遥控器则重复(f3)步骤;若机器人走到规划路径的最后还未找到目标遥控器,则结束查找任务并以语音播报的方式告诉用户未查找到其想找的物品;
(f5)对检测到的大类别的目标遥控器区域进行特征提取,并与检索库中添加到遥控器大类下的子类别样本进行匹配(即计算与检索库中各样本的相似度),若与“电视遥控器”子类别样本的相似度大于设定的阈值,则认为找到目标电视遥控器,同时在深度图的对应区域获取该目标距离机器人的距离,并以语音播报的方式告诉用户,此次查找任务结束;若与“电视遥控器”子类别样本的相似度小于阈值,则认为未找到目标,回到第(f3)步继续查找;若机器人走到规划路径的最后还未找到目标,则结束此次查找任务并以语音播报的方式告诉用户未查找到其想找的物品。
8.根据权利要求7所述的结合深度信息的物品查找方法,其特征在于:所述机器人主体结构包括双目相机、控制器、语音交互模块、驱动部和电源;机器人头部安装有双目相机,双目相机用于视频图像采集;双目相机与机器人躯体内的控制器电信息连接,控制器与电源电连接;语音交互模块设置在机器人躯体表层,语音交互模块与控制器电信息连接,语音交互模块用于用户与机器人进行语音交互、添加子类样本;机器人的下部设置有驱动部,驱动部采用现有履带式或者轮式驱动结构,驱动部与控制器电信息连接。
9.根据权利要求8所述的结合深度信息的物品查找方法,其特征在于:所述控制器设置有物品检测模块、深度图获取模块、路径规划模块和类别判断模块;其中物品检测模块用于:进行样本标注及模型训练,根据语音交互信息利用训练好的模型进行目标检测并输出的检测目标区域及边界框,根据语音交互信息添加子类样本并判断是否合规,将合规子类样本添加到模型的检索库并保存类别标签信息;深度图获取模块用于:通过双目相机获取视频中目标的深度信息,进而确定目标距相机的真实距离;路径规划模块用于:规划机器人物品寻找的路径;类别判断模块用于:判断物品查找模块检测到的目标是否为语音交互信息中要找的物品。
CN202010371559.0A 2020-05-06 2020-05-06 一种结合深度信息的物品查找方法 Active CN111523545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371559.0A CN111523545B (zh) 2020-05-06 2020-05-06 一种结合深度信息的物品查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371559.0A CN111523545B (zh) 2020-05-06 2020-05-06 一种结合深度信息的物品查找方法

Publications (2)

Publication Number Publication Date
CN111523545A true CN111523545A (zh) 2020-08-11
CN111523545B CN111523545B (zh) 2023-06-30

Family

ID=71907075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371559.0A Active CN111523545B (zh) 2020-05-06 2020-05-06 一种结合深度信息的物品查找方法

Country Status (1)

Country Link
CN (1) CN111523545B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327659A (zh) * 2020-11-26 2021-02-05 深圳市友进科技有限公司 一种基于5g的智能家居控制方法、装置以及系统
CN112612435A (zh) * 2020-12-16 2021-04-06 北京字节跳动网络技术有限公司 信息处理方法、装置、设备及存储介质
CN112766259A (zh) * 2021-01-08 2021-05-07 合肥工业大学 一种面向视障人士的物品智能搜索方法
CN113076972A (zh) * 2021-03-04 2021-07-06 山东师范大学 一种基于深度学习的两阶段Logo图像检测方法及系统
CN113095230A (zh) * 2021-04-14 2021-07-09 北京深睿博联科技有限责任公司 一种帮助盲人查找物品的方法和装置
CN115482807A (zh) * 2022-08-11 2022-12-16 天津大学 一种用于智能终端语音交互的检测方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158501A1 (en) * 2008-05-30 2011-06-30 Novacyt Method for sample cell analysis using a virtual analysis plate
US20140334669A1 (en) * 2013-05-10 2014-11-13 Microsoft Corporation Location information determined from depth camera data
US20140363043A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Automated vision-based clutter detector and notifier
US9299013B1 (en) * 2014-03-27 2016-03-29 Amazon Technologies, Inc. Visual task feedback for workstations in materials handling facilities
US20160307327A1 (en) * 2014-10-11 2016-10-20 Boe Technology Group Co., Ltd. Depth determination method, depth determination device and electronic device
US20170310946A1 (en) * 2016-04-21 2017-10-26 Chenyang Ge Three-dimensional depth perception apparatus and method
WO2018142494A1 (ja) * 2017-01-31 2018-08-09 株式会社 ニコン 表示制御システム、及び、表示制御方法
CN108466268A (zh) * 2018-03-27 2018-08-31 苏州大学 一种货物分类搬运方法、系统及移动机器人和存储介质
CN108491825A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN109522969A (zh) * 2018-11-29 2019-03-26 南京云思创智信息科技有限公司 基于深度学习的特定物品发现方法
CN109740676A (zh) * 2019-01-07 2019-05-10 电子科技大学 基于相似目标的物体检测迁移方法
CN109857878A (zh) * 2018-12-27 2019-06-07 深兰科技(上海)有限公司 物品标注方法及装置、电子设备及存储介质
CN109977780A (zh) * 2019-02-26 2019-07-05 广东工业大学 一种基于深度学习算法的硅藻的检测与识别方法
CN110837856A (zh) * 2019-10-31 2020-02-25 深圳市商汤科技有限公司 神经网络训练及目标检测方法、装置、设备和存储介质
CN110889421A (zh) * 2018-09-07 2020-03-17 杭州海康威视数字技术股份有限公司 目标物检测方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158501A1 (en) * 2008-05-30 2011-06-30 Novacyt Method for sample cell analysis using a virtual analysis plate
US20140334669A1 (en) * 2013-05-10 2014-11-13 Microsoft Corporation Location information determined from depth camera data
US20140363043A1 (en) * 2013-06-06 2014-12-11 Xerox Corporation Automated vision-based clutter detector and notifier
US9299013B1 (en) * 2014-03-27 2016-03-29 Amazon Technologies, Inc. Visual task feedback for workstations in materials handling facilities
US20160307327A1 (en) * 2014-10-11 2016-10-20 Boe Technology Group Co., Ltd. Depth determination method, depth determination device and electronic device
US20170310946A1 (en) * 2016-04-21 2017-10-26 Chenyang Ge Three-dimensional depth perception apparatus and method
CN110249631A (zh) * 2017-01-31 2019-09-17 株式会社尼康 显示控制系统及显示控制方法
WO2018142494A1 (ja) * 2017-01-31 2018-08-09 株式会社 ニコン 表示制御システム、及び、表示制御方法
CN108466268A (zh) * 2018-03-27 2018-08-31 苏州大学 一种货物分类搬运方法、系统及移动机器人和存储介质
CN108491825A (zh) * 2018-03-30 2018-09-04 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN110889421A (zh) * 2018-09-07 2020-03-17 杭州海康威视数字技术股份有限公司 目标物检测方法及装置
CN109522969A (zh) * 2018-11-29 2019-03-26 南京云思创智信息科技有限公司 基于深度学习的特定物品发现方法
CN109857878A (zh) * 2018-12-27 2019-06-07 深兰科技(上海)有限公司 物品标注方法及装置、电子设备及存储介质
CN109740676A (zh) * 2019-01-07 2019-05-10 电子科技大学 基于相似目标的物体检测迁移方法
CN109977780A (zh) * 2019-02-26 2019-07-05 广东工业大学 一种基于深度学习算法的硅藻的检测与识别方法
CN110837856A (zh) * 2019-10-31 2020-02-25 深圳市商汤科技有限公司 神经网络训练及目标检测方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石杰,周亚丽,张奇志: "《基于改进Mask RCNN 和Kinect 的服务机器人物品识别系统》", vol. 40, no. 40, pages 216 - 228 *
蒋强卫;甘兴利;李雅宁;: "基于CNN双目特征点匹配目标识别与定位研究", 无线电工程, no. 08 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327659A (zh) * 2020-11-26 2021-02-05 深圳市友进科技有限公司 一种基于5g的智能家居控制方法、装置以及系统
CN112612435A (zh) * 2020-12-16 2021-04-06 北京字节跳动网络技术有限公司 信息处理方法、装置、设备及存储介质
CN112766259A (zh) * 2021-01-08 2021-05-07 合肥工业大学 一种面向视障人士的物品智能搜索方法
CN113076972A (zh) * 2021-03-04 2021-07-06 山东师范大学 一种基于深度学习的两阶段Logo图像检测方法及系统
CN113095230A (zh) * 2021-04-14 2021-07-09 北京深睿博联科技有限责任公司 一种帮助盲人查找物品的方法和装置
CN115482807A (zh) * 2022-08-11 2022-12-16 天津大学 一种用于智能终端语音交互的检测方法及系统

Also Published As

Publication number Publication date
CN111523545B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111523545B (zh) 一种结合深度信息的物品查找方法
CN111523610A (zh) 一种样本高效标注的物品识别方法
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN109635666B (zh) 一种基于深度学习的图像目标快速检测方法
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
EP3644015A1 (en) Position estimation system and position estimation method
US20220366576A1 (en) Method for target tracking, electronic device, and storage medium
CN111693972A (zh) 一种基于双目序列图像的车辆位置与速度估计方法
Berrio et al. Camera-LIDAR integration: Probabilistic sensor fusion for semantic mapping
CN110866079A (zh) 一种智慧景区实景语义地图的生成与辅助定位方法
CN113409410A (zh) 一种基于3d激光雷达的多特征融合igv定位与建图方法
CN105792353A (zh) 群智感知式WiFi信号指纹辅助的图像匹配室内定位方法
CN102426019A (zh) 一种无人机景象匹配辅助导航方法及系统
CN113936198A (zh) 低线束激光雷达与相机融合方法、存储介质及装置
CN113298035A (zh) 基于图像识别的无人机电力杆塔检测及自主巡航方法
CN112927264B (zh) 一种无人机跟踪拍摄系统及其rgbd跟踪方法
CN113516664A (zh) 一种基于语义分割动态点的视觉slam方法
US20220164595A1 (en) Method, electronic device and storage medium for vehicle localization
CN116958927A (zh) 一种基于bev图识别矮小柱状体的方法及装置
CN116160458A (zh) 一种移动机器人多传感器融合快速定位方法、设备及系统
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其系统
CN113932712A (zh) 一种基于深度相机和关键点的瓜果类蔬菜尺寸测量方法
Liao et al. TSM: Topological scene map for representation in indoor environment understanding
KR101997799B1 (ko) 관심영역 연관 영상 제공시스템
JP5626011B2 (ja) プログラム及び画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant