CN116079749B - 基于聚类分离条件随机场的机器人视觉避障方法及机器人 - Google Patents

基于聚类分离条件随机场的机器人视觉避障方法及机器人 Download PDF

Info

Publication number
CN116079749B
CN116079749B CN202310369994.3A CN202310369994A CN116079749B CN 116079749 B CN116079749 B CN 116079749B CN 202310369994 A CN202310369994 A CN 202310369994A CN 116079749 B CN116079749 B CN 116079749B
Authority
CN
China
Prior art keywords
feature
feature map
candidate
candidate frames
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310369994.3A
Other languages
English (en)
Other versions
CN116079749A (zh
Inventor
唐俊秋
谢非
戴亮
杨继全
黄懿涵
高知临
郑鹏飞
单飞宇
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202310369994.3A priority Critical patent/CN116079749B/zh
Publication of CN116079749A publication Critical patent/CN116079749A/zh
Application granted granted Critical
Publication of CN116079749B publication Critical patent/CN116079749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于聚类分离条件随机场的机器人视觉避障方法及机器人,所述方法包括:利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,提取特征图;基于特征图生成所有候选框,并进行提取和过滤;在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;基于识别出的目标,利用融合聚类分离的条件随机场进行边缘分割;基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。本发明能够有效提高障碍物检测识别和边缘分割的精度和效率,改善机器人避障的效果。

Description

基于聚类分离条件随机场的机器人视觉避障方法及机器人
技术领域
本发明属于视觉避障领域,涉及图像目标检测识别、边缘分割和避障的技术,具体涉及一种基于聚类分离条件随机场的机器人视觉避障方法及机器人。
背景技术
视觉避障主要是利用视觉信息对各种场景进行识别,从而确定移动实体(例如,移动机器人)的可行区域,关键技术是障碍物的检测与识别。近年来,视觉传感器在移动机器人导航、障碍物识别中的应用越来越受到人们重视,一方面由于计算机图像处理能力和技术的发展,加之视觉系统具有信号探测范围宽、目标信息完整等优势,另一方面由于激光雷达和超声都是通过主动发射脉冲和接受反射脉冲来测距的,多个机器人一起工作时相互之间可能产生干扰,同时它们对一些吸收性、透明性强的障碍物无法识别。因此,视觉避障技术逐渐成为移动机器人的关键技术之一。
但是当前技术中,对障碍物的检测和识别精度不够高,有时无法识别出障碍物,或误识别障碍物;并且对于障碍物的边缘分割太过粗糙,障碍物边缘无法被完全覆盖,从而会将障碍物的一部分当作背景,导致无法完全避开障碍物。
发明内容
发明目的:本发明提出一种基于聚类分离条件随机场的机器人视觉避障方法及机器人,至少部分地解决现有技术的问题。
技术方案:根据本发明的第一方面,提供一种基于聚类分离条件随机场的机器人视觉避障方法,包括以下步骤:
利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,对采集的图像进行预处理后,输入主干特征提取网络,得到对应的初级特征图C1~C5,将输出的初级特征图输入特征金字塔网络,得到融合特征后的高级特征图F1~F5
基于不同尺寸的融合特征后的高级特征图生成所有候选框,其中高级特征图所有层的每一个特征点都会生成3个候选框,将得到的所有候选框输入区域生成网络,进行二分类和定位回归,获得各高级特征图上候选框的前景背景概率值和参数回归值,并将区域生成网络输出的所有候选框输入建议层网络对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后再进行一次筛选过滤;
在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;
基于识别出的目标,将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,利用融合聚类分离的条件随机场能量函数,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图;
基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
进一步地,主干特征提取网络提取初级特征图包括:
(1)将彩色图像输入到主干特征提取网络的第一个卷积层,得到特征图C1
(2)将C1输入最大池化层,得到池化后图像,将该池化后图像输入主干特征提取网络的第二个卷积层,得到特征图C2
(3)将C2输入主干特征提取网络的第三个卷积层,输出一特征图,将此特征图输入主干特征提取网络的第四个卷积层,输出特征图C3
(4)将C3输入主干特征提取网络的第五个卷积层,输出特征图C4
(5)将C4输入主干特征提取网络的第六个卷积层,输出一特征图,将此特征图输入主干特征提取网络的第七个卷积层,输出特征图C5
进一步地,特征金字塔网络对特征融合处理包括:
(a)将C5输入特征金字塔网络的第一个卷积层,输出特征图P5;将P5通过特征金字塔网络的第二个卷积层,输出特征图Q5;将P5通过特征金字塔网络的最大池化层,输出特征图F1
(b)将C4通过特征金字塔网络的第三个卷积层,输出一特征图,将此特征图与Q5直接相加,得到特征图P4,将P4通过特征金字塔网络的第四个卷积层,输出特征图Q4
(c)将C3通过特征金字塔网络的第五个卷积层,输出一特征图,将此特征图与Q4直接相加得到特征图P3,将P3通过特征金字塔网络的第六个卷积层,输出特征图Q3
(d)将C2通过特征金字塔网络的第七个卷积层,输出一特征图,此特征图与Q3直接相加得到特征图P2
(e)将P2~P5输入特征金字塔网络的第八个卷积层,各输出特征图尺寸不变,对应于输入特征图P2~P5,输出特征图为F2~F5
进一步地,区域生成网络的处理过程包括:
对于高级特征图F1~F5中的每一个特征图Fb,将Fb输入区域生成网络的第一卷积层J1,J1卷积核大小为3x3,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图Nb,将Nb通过区域生成网络的第二卷积层J2,J2卷积核大小为1x1,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLSb,CLSb每两层代表了Fb上候选框的前景背景概率值;将Nb通过区域生成网络的第三卷积层J3,J3卷积核大小为1x1,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REGb,REGb每四层代表了Fb上候选框横坐标、纵坐标、宽度和高度的回归值,其中stride为步长,即卷积核在图片水平方向和垂直方向每次的步进长度,padding为填充,即向输入图片边界填入固定像素值。
进一步地,建议层网络对候选框进行过滤包括:
根据各高级特征图Fb的候选框前景概率值,对所有候选框进行排序,取前M个得分高的候选框,将其余候选框过滤掉;
设每个候选框的参数为(x,y,w,h),根据各高级特征图Fb的候选框各参数回归值,将候选框参数调整为
Figure SMS_1
,其中,(x,y,w,h)分别为候选框中心特征点的横坐标、纵坐标和候选框的宽度、高度,/>
Figure SMS_2
为候选框横坐标回归值,/>
Figure SMS_3
为候选框纵坐标回归值,/>
Figure SMS_4
为候选框宽度回归值,/>
Figure SMS_5
为候选框高度回归值;
基于调整后的M个候选框,对于目标物A,设有m个候选框与A有交集,m个候选框分别为a1, a2,..., am,前景概率值最大的候选框为ak,前景概率值最小的候选框为an,ak的参数为(xk,yk,wk,hk),an的参数为(xn,yn,wn,hn),得到一个新候选框as为(xk,yk,wk+ wn,hk+hn),保留新候选框as,过滤原候选框a1, a2,..., am,对于图像中所有目标物进行上述处理,得到一系列新候选框。
进一步地,在过滤后的候选框中选择正负样本,计算目标物的真实权重包括:
设原图像中有q个目标物,过滤后的候选框有j个,从j个候选框中任意取N个,每个目标物的真实边界框为Ag,对于任意选取的一个候选框ap,若存在
Figure SMS_6
,则ap为正样本,否则ap为负样本,其中,g=1,2,···,q;p=1,2,···,N;q,j均为正整数;
对每一个正样本赋予标签,若某个正样本与某个目标物真实边界框的重叠部分最大,则该正样本被赋予该目标物的类别,将该正样本内部的所有像素值进行加权求和,得到该目标物的真实权重。
进一步地,基于识别出的目标进行边缘分割时,设每个特征点所属的边缘类别标签为E,与该特征点匹配的预测值为l,融合聚类分离的条件随机场能量函数为:
Figure SMS_7
E(l)的值越小,表示该特征点匹配边缘类别标签E的概率越大,取所有边缘类别标签中匹配概率最大的作为该特征点的边缘类别标签,其中,
Figure SMS_9
表示特征点i是否拥有边缘类别标签/>
Figure SMS_13
,/>
Figure SMS_17
表示i拥有边缘类别标签/>
Figure SMS_11
,设/>
Figure SMS_14
表示的是一组边缘类别标签z的集合,/>
Figure SMS_18
是无向图中顶点连线的集合,i,t均为特征点,无向图中有n个顶点,/>
Figure SMS_20
是一元势函数,用来衡量将边缘类别标签/>
Figure SMS_8
赋予特征点i的代价,i属于边缘类别标签/>
Figure SMS_15
的概率越大,/>
Figure SMS_19
就越小,/>
Figure SMS_21
是二元势函数,用来衡量将边缘类别标签/>
Figure SMS_10
Figure SMS_12
赋予特征点i,t的惩罚,/>
Figure SMS_16
为正整数。
进一步地,所述一元势函数定义为:
Figure SMS_22
其中,
Figure SMS_23
表示特征点i属于边缘类别标签/>
Figure SMS_24
的概率;
所述二元势函数定义为:
Figure SMS_25
其中,
Figure SMS_26
表示任意一对边缘类别标签在全局同时出现时的惩罚,/>
Figure SMS_27
为分类系数,(Xi,Yi)是特征点i的坐标值,(Xt,Yt)是特征点t的坐标值;
分类系数
Figure SMS_28
根据以下方法确定:在无向图中选择K个分类特征点,计算其他特征点到这K个特征点的距离,未知的点选择最近的一个分类特征点作为标记类别,接着,计算出K类特征点的中心点作为新的分类特征点,其中K为正整数,K的数值等于图像中目标物的类别数,重复上述步骤,直到分类特征点的位置不再变化,此时,对于任意两个特征点i,t,若i,t属于同一类,则令/>
Figure SMS_29
,若i,t不属于同一类,则令/>
Figure SMS_30
,分类系数/>
Figure SMS_31
为:
Figure SMS_32
根据本发明的第二方面,提供一种基于聚类分离条件随机场的机器人视觉避障装置,包括:
特征提取模块,被配置为利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,对采集的图像进行预处理后,输入主干特征提取网络,得到对应的初级特征图C1~C5,将输出的初级特征图输入特征金字塔网络,得到融合特征后的高级特征图F1~F5
候选框提取模块,被配置为基于不同尺寸的融合特征后的高级特征图生成所有候选框,其中高级特征图所有层的每一个特征点都会生成3个候选框,将得到的所有候选框输入区域生成网络,进行二分类和定位回归,获得各高级特征图上候选框的前景背景概率值和参数回归值,并将区域生成网络输出的所有候选框输入建议层网络对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后再进行一次筛选过滤;
目标识别模块,被配置为在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;
边缘分割模块,被配置为基于识别出的目标,将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,利用融合聚类分离的条件随机场能量函数,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图;
避障模块,被配置为基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
根据本发明的第三方面,提供一种机器人,包括处理器,所述处理器被配置为执行如本发明第一方面所述的基于聚类分离条件随机场的机器人视觉避障方法,或者所述机器人包括如本发明第二方面所述的基于聚类分离条件随机场的机器人视觉避障装置。
有益效果:本发明有效解决了视觉避障过程中候选框框定不够精确和像素错误分类导致障碍物无法被精准检测分割,从而引起机器人无法有效避开障碍物的问题。针对候选框框定不精确问题,本发明提出了一种新的候选框提取方式,使得候选框精确框出目标物;针对图像边缘分割过于粗糙,边缘约束不够强的缺点,本发明提出了融合聚类分离的条件随机场边缘细分割方法,解决了像素分类错误的问题,使得目标物与背景完全分割。实验表明本发明能够有效提高障碍物检测识别和边缘分割的精度和效率,改善机器人避障的效果。
附图说明
图1是本发明方法的工作流程示意图;
图2是本发明实施例提供的主干特征提取网络AtuNet网络结构图;
图3是本发明实施例提供的AtuPN网络结构图;
图4是本发明实施例提供的未优化时的障碍物检测分割图;
图5是本发明实施例提供的优化后的障碍物检测分割图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
参照图1,本发明提供一种基于聚类分离条件随机场的机器人视觉避障方法,包括如下步骤:
步骤S1、利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,提取特征。
根据本发明的实施方式,机器人通过英特尔D435i采集图像,对采集的彩色图像进行预处理,包括:对彩色图像进行缩放,缩放到主干特征提取网络可接受的图像大小。
将预处理后的图像输入主干特征提取网络AtuNet,得到对应的初级特征图C1~C5。图2示出了本发明中AtuNet网络结构图,其处理过程具体包括:
S11:输入彩色图像的尺寸为
Figure SMS_33
,将彩色图像输入到第一个卷积层,卷积核大小为/>
Figure SMS_34
,卷积核个数为64,stride为2,padding为3,激活函数为ReLu,输出特征图C1的尺寸为:
Figure SMS_35
向下取整为
Figure SMS_36
其中,stride为步长,即卷积核在图片水平方向和垂直方向每次的步进长度,padding为填充,即向输入图片边界填入固定像素值,OC为输出卷积层的特征图大小,IC为输入卷积层的图像大小,sC为卷积核的步长,kC为卷积核的尺寸大小,pC为填充的像素值;
将C1输入一个最大池化层,池化层的卷积核大小为
Figure SMS_37
,stride为2,padding为1,输出的特征图尺寸为:
Figure SMS_38
向上取整为
Figure SMS_39
其中,Op为输出池化层的图像大小,Ip为输入池化层的图像大小,sp为卷积核的步长,kp为卷积核的尺寸大小。
S12:将最大池化层输出的图像输入第二个卷积层,第二个卷积层的卷积核大小为
Figure SMS_40
,卷积核个数为256,stride为1,padding为0,激活函数为ReLu,
输出特征图C2的尺寸为:
Figure SMS_41
则C2尺寸为
Figure SMS_42
S13:将C2输入第三个卷积层,第三个卷积层的卷积核大小为
Figure SMS_43
,卷积核个数为128,stride为2,padding为1,激活函数为ReLu,输出特征图的尺寸为:
Figure SMS_44
向下取整为
Figure SMS_45
。将此特征图输入第四个卷积层,第四个卷积层的卷积核大小为/>
Figure SMS_46
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图C3的尺寸为:
Figure SMS_47
则C3的尺寸为
Figure SMS_48
S14:将C3输入第五个卷积层,第五个卷积层的卷积核大小为
Figure SMS_49
,卷积核个数为1024,stride为2,padding为0,激活函数为ReLu,输出特征图C4的尺寸为:
Figure SMS_50
向下取整为
Figure SMS_51
S15:将C4输入第六个卷积层,第六个卷积层的卷积核大小为
Figure SMS_52
,卷积核个数为512,stride为2,padding为1,激活函数为ReLu,输出特征图的尺寸为:
Figure SMS_53
向下取整为
Figure SMS_54
。将此特征图输入第七个卷积层,卷积层的卷积核大小为
Figure SMS_55
,卷积核个数为2048,stride为1,padding为0,激活函数为ReLu,输出特征图C5的尺寸为:
Figure SMS_56
则C5的尺寸为
Figure SMS_57
激活函数ReLu为图像各特征点的像素值增加非线性,计算公式为:
Figure SMS_58
其中,x为激活函数的输入,f(x)为激活函数的输出,
Figure SMS_59
、/>
Figure SMS_60
为艾弗森括号,/>
Figure SMS_61
为正整数,在本发明实施例中,/>
Figure SMS_62
取2。
将AtuNet输出的初级特征图输入特征金字塔网络AtuPN,得到融合特征后的高级特征图F1~F5。图3示出了本发明的AtuPN网络结构图,其具体处理过程包括以下步骤:
S1a:将C5通过第一个卷积层,卷积核大小为
Figure SMS_63
,卷积核个数为256,stride为1,padding为0,激活函数为ReLu,输出特征图P5的尺寸为:
Figure SMS_64
则特征图P5尺寸为
Figure SMS_65
。将P5通过第二个卷积层,卷积核大小为/>
Figure SMS_66
,卷积核个数为256,stride为1,padding为4,激活函数为ReLu,输出特征图Q5的尺寸为:
Figure SMS_67
则Q5的尺寸为
Figure SMS_68
。将P5通过最大池化层,池化层的卷积核大小为/>
Figure SMS_69
,stride为2,输出的特征图F1尺寸为:
Figure SMS_70
则F1的尺寸为
Figure SMS_71
S1b:将C4通过第三个卷积层,卷积核大小为
Figure SMS_72
,卷积核个数为256,stride为1,padding为0,激活函数为ReLu,输出特征图的尺寸为:
Figure SMS_73
则输出特征图的尺寸为
Figure SMS_74
。将此特征图与Q5直接相加,得到特征图P4,相加可以融合不同尺寸特征图上的特征,使得最后输出的特征图可靠性更高。P4尺寸为
Figure SMS_75
。将P4通过第四个卷积层,卷积核大小为/>
Figure SMS_76
,卷积核个数为256,stride为1,padding为7,激活函数为ReLu,输出特征图Q4的尺寸为:
Figure SMS_77
则Q4的尺寸为
Figure SMS_78
S1c:将C3通过第五个卷积层,卷积核大小为
Figure SMS_79
,卷积核个数为256,stride为1,padding为0,激活函数为ReLu,输出特征图的尺寸为:
Figure SMS_80
则输出特征图的尺寸为
Figure SMS_81
。将此特征图与Q4直接相加得到特征图P3,P3尺寸为/>
Figure SMS_82
。将P3通过第六个卷积层,卷积核大小为/>
Figure SMS_83
,卷积核个数为256,stride为1,padding为14,激活函数为ReLu,输出特征图Q3的尺寸为:
Figure SMS_84
则Q3的尺寸为
Figure SMS_85
S1d:将C2通过第七个卷积层,卷积核大小为
Figure SMS_86
,卷积核个数为256,stride为1,padding为0,激活函数为ReLu,输出特征图的尺寸为:
Figure SMS_87
则输出特征图的尺寸为
Figure SMS_88
。将此特征图与Q3直接相加得到特征图P2,P2尺寸为/>
Figure SMS_89
S1e:将P2~ P5输入第八个卷积层,卷积核大小为
Figure SMS_90
,卷积核个数为256,stride为1,padding为1,激活函数为ReLu,各输出特征图尺寸不变,对应于输入特征图P2~ P5,输出特征图为F2~F5
步骤S2、基于不同尺寸的融合特征后的特征图生成所有候选框,并进行候选框的分类和过滤。
根据本发明的实施方式,基于不同尺寸的融合特征后的特征图生成所有候选框,所有层的每一个特征点都会生成3个候选框,设F2的候选框大小为56,F3的候选框大小为28,F4的候选框大小为14,F5的候选框大小为7,F1的候选框大小为7,F1~F5的候选框宽高比均为(0.5,1,2)。
将得到的所有候选框输入区域生成网络RPN,进行二分类和定位回归。本发明中区域生成网络RPN包括三个卷积层J1、J2和J3,其处理过程包括以下步骤:
S21:将F2输入卷积层J1,J1卷积核大小为
Figure SMS_91
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图N2的尺寸为:
Figure SMS_92
则N2的尺寸为
Figure SMS_93
。将N2通过卷积层J2,J2卷积核大小为/>
Figure SMS_94
,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLS2的尺寸为:
Figure SMS_95
则CLS2的尺寸为
Figure SMS_96
,CLS2一共有6层,每两层某个特征点的像素值分别对应F2中这个特征点生成的候选框属于前景(即目标物)的概率值和属于背景的概率值,因此可以说CLS2每两层代表了F2上候选框的前景背景概率值。将N2通过卷积层J3,J3卷积核大小为/>
Figure SMS_97
,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REG2的尺寸为:
Figure SMS_98
则REG2的尺寸为
Figure SMS_99
,/>
Figure SMS_100
一共有12层,每4层某个特征点的像素值分别对应F2中这个特征点生成的候选框横坐标、纵坐标、宽度和高度的回归值,因此可以说REG2每四层代表了F2上候选框横坐标、纵坐标、宽度和高度的回归值。
S22:将F3输入卷积层J1,J1卷积核大小为
Figure SMS_101
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图N3的尺寸为:
Figure SMS_102
则N3的尺寸为
Figure SMS_103
。将N3通过卷积层J2,J2卷积核大小为/>
Figure SMS_104
,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLS3的尺寸为:
Figure SMS_105
,CLS3每两层代表了F3上候选框的前景背景概率值。将N3通过卷积层J3,J3卷积核大小为/>
Figure SMS_106
,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REG3的尺寸为:
Figure SMS_107
则REG3的尺寸为
Figure SMS_108
,REG3每四层代表了F3上候选框横坐标、纵坐标、宽度和高度的回归值。
S23:将F4输入卷积层J1,J1卷积核大小为
Figure SMS_109
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图N4的尺寸为:
Figure SMS_110
则N4的尺寸为
Figure SMS_111
。将N4通过卷积层J2,J2卷积核大小为/>
Figure SMS_112
,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLS4的尺寸为:
Figure SMS_113
则CLS4的尺寸为
Figure SMS_114
,CLS4两层代表了F4上候选框的前景背景概率值。将N4通过卷积层J3,J3卷积核大小为/>
Figure SMS_115
,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REG4的尺寸为:
Figure SMS_116
则REG4的尺寸为
Figure SMS_117
,REG4每四层代表了F4上候选框横坐标、纵坐标、宽度和高度的回归值。
S24:将F5输入卷积层J1,J1卷积核大小为
Figure SMS_118
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图N5的尺寸为:
Figure SMS_119
则N5的尺寸为
Figure SMS_120
。将N5通过卷积层J2,J2卷积核大小为/>
Figure SMS_121
,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLS5的尺寸为:
Figure SMS_122
则CLS5的尺寸为
Figure SMS_123
,CLS5每两层代表了F5上候选框的前景背景概率值。将N5通过卷积层J3,J3卷积核大小为/>
Figure SMS_124
,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REG5的尺寸为:
Figure SMS_125
则REG5的尺寸为
Figure SMS_126
,REG5每四层代表了F5上候选框横坐标、纵坐标、宽度和高度的回归值。
S25:将F1输入卷积层J1,J1卷积核大小为
Figure SMS_127
,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图N1的尺寸为:
Figure SMS_128
则N1的尺寸为
Figure SMS_129
。将N1通过卷积层J2,J2卷积核大小为/>
Figure SMS_130
,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLS1的尺寸为:
Figure SMS_131
则CLS1的尺寸为
Figure SMS_132
,CLS1每两层代表了F1上候选框的前景背景概率值。将N1通过卷积层J3,J3卷积核大小为/>
Figure SMS_133
,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REG1的尺寸为:
Figure SMS_134
则REG1的尺寸为
Figure SMS_135
,REG1每四层代表了F1上候选框横坐标、纵坐标、宽度和高度的回归值。
将区域生成网络RPN输出的所有候选框输入建议层网络Proposal对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后基于一种筛选方法对候选框进一步过滤,具体包括如下步骤:
S2a:根据区域生成网络中得到的候选框前景概率值,对所有候选框进行排序,取M个(M为正整数,例如,M=5000)得分高的候选框,将其余候选框过滤掉。
S2b:设每个候选框的参数为(x,y,w,h),根据区域生成网络中得到的候选框各参数回归值,对候选框参数调整为
Figure SMS_136
其中,(x,y,w,h)分别为候选框中心特征点的横坐标、纵坐标和候选框的宽度、高度,
Figure SMS_137
为候选框横坐标回归值,/>
Figure SMS_138
为候选框纵坐标回归值,/>
Figure SMS_139
为候选框宽度回归值,/>
Figure SMS_140
为候选框高度回归值。
S2c:对得到的M个候选框进行再过滤,具体地,对于目标物A,设有m个候选框与A有交集,设m个候选框分别为a1,a2, ...,am。设前景概率值最大的候选框为ak,前景概率值最小的候选框为an,ak的参数为
Figure SMS_141
,an的参数为/>
Figure SMS_142
,得到一个新候选框as为/>
Figure SMS_143
,最后,保留新候选框as,过滤原候选框a1,a2,...,am;对于图像中所有目标物,进行上述操作,得到一系列新候选框。
步骤S3、在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别。
根据本发明的实施方式,正负样本的定义如下:设原图像中有q个目标物,步骤S2中过滤后得到的候选框有j个,从j个候选框中任意取N(N为正整数,例如,N=100)个,每个目标物的真实边界框为Ag,任意取的某个候选框为ap,若存在
Figure SMS_144
,表示某个候选框与目标物真实边界框的重叠部分已经超过了真实边界框的一半,则ap为正样本,否则ap为负样本;其中,g=1,2,···,q;p=1,2,···,N,q,j均为正整数。
对每一个正样本赋予标签,若某个正样本与某个目标物真实边界框的重叠部分最大,则该正样本被赋予该目标物的类别。将该正样本内部的所有像素值进行加权求和,得到该目标物的真实权重。
将过滤后的候选框映射到同一个尺寸固定的特征图上,具体包括如下步骤:
S31:选取固定特征图P尺寸为
Figure SMS_145
,因为输入图像尺寸为/>
Figure SMS_146
所以映射比例为:/>
Figure SMS_147
,设步骤S2得到的某个候选框尺寸为/>
Figure SMS_148
,则映射到
Figure SMS_149
特征图上的尺寸为/>
Figure SMS_150
;其中,T和S均为正数,/>
Figure SMS_151
均保留2位浮点数。
S32:将映射后的候选框分成49个相同大小的块区域,每块的大小为
Figure SMS_152
;其中,/>
Figure SMS_153
均保留2位浮点数。
S33:将每个块区域平均分成4份小区域,每一份取中心点位置,设中心点像素值为距离其最近的特征点的像素值,将4个中心点像素值最大的作为此块区域的像素值。
映射后的特征图输入全连接层进行目标检测识别包括:
将特征图P输入到全连接层中,激活函数为ReLu,输出特征图的尺寸为
Figure SMS_154
,对所有候选框进行权重计算,对于一个候选框,有d个目标物与它有重叠部分,某个目标物与它重叠部分最大,则将该候选框内部的所有像素值进行加权求和,得到候选框关于该目标物的权重,若某个候选框关于目标物的权重最接近目标物真实权重,则该候选框的类别为该目标物。其中,d为正整数。
步骤S4、基于识别出的目标,利用聚类分离条件随机场进行边缘分割。
根据本发明的实施方式,首先将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,将条件随机场CRF(Conditional Random Field)的能量函数融合聚类分离的思想,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图。本发明中,聚类分离条件随机场是指条件随机场的能量函数中融合了聚类分离的思想。
具体地,包括以下步骤:
S41:将特征图P输入第一个卷积层,卷积核大小为
Figure SMS_155
,卷积核个数为256,stride为2,padding为1,激活函数为ReLu,输出热图P1的尺寸为:
Figure SMS_156
则P1的尺寸为
Figure SMS_157
。将F3输入第一个最大池化层,池化层的卷积核大小为/>
Figure SMS_158
,stride为2,padding为1,输出的特征图P0尺寸为:
Figure SMS_159
则P0的尺寸为
Figure SMS_160
。将特征图P0与热图P1直接相加,得到热图P7尺寸为
Figure SMS_161
,将热图P7输入第二个卷积层,卷积核大小为/>
Figure SMS_162
,卷积核个数为q,stride为16,padding为0,激活函数为ReLu,输出热图P8的尺寸为:
Figure SMS_163
则P8的尺寸为
Figure SMS_164
。对P8上的每一个特征点做softmax得到边缘粗分割图。/>
S42:将P8用无向图表示,每个特征点对应无向图中的顶点,特征点之间的联系为无向图中顶点的连线,为每个特征点分配不同的边缘类别标签,具有相似位置和颜色特征的两个特征点被分配相同边缘类别标签的概率更大,被分割的可能性更小。
S43:设每个特征点所属的边缘类别标签为E,与该特征点匹配的预测值为l,聚类分离CRF的能量函数为:
Figure SMS_165
Figure SMS_166
的值越小,表示该特征点匹配边缘类别标签E的概率越大,取所有边缘类别标签中匹配概率最大的作为该特征点的边缘类别标签,由此,得到原图像的边缘细分割图。
其中,
Figure SMS_177
表示特征点i是否拥有边缘类别标签/>
Figure SMS_168
,/>
Figure SMS_173
表示i拥有边缘类别标签/>
Figure SMS_172
,设/>
Figure SMS_175
表示的是一组边缘类别标签z的集合,/>
Figure SMS_178
是无向图中顶点连线的集合,i,t均为特征点,/>
Figure SMS_182
表示特征点i,t之间的连线属于连线集合/>
Figure SMS_176
。无向图中有n个顶点,无向图中有/>
Figure SMS_179
条连线。/>
Figure SMS_167
是一元势函数,用来衡量将边缘类别标签/>
Figure SMS_171
赋予特征点i的代价,i属于边缘类别标签/>
Figure SMS_180
的概率越大,/>
Figure SMS_183
就越小。/>
Figure SMS_181
是二元势函数,用来衡量将边缘类别标签/>
Figure SMS_184
,/>
Figure SMS_170
赋予特征点i,t的惩罚,/>
Figure SMS_174
为正整数,在本发明实施例中,/>
Figure SMS_169
取3。
一元势函数代表的是每个特征点的分类,一元势函数定义为:
Figure SMS_185
其中,
Figure SMS_186
表示特征点i属于边缘类别标签/>
Figure SMS_187
的概率。
二元势函数代表的是一组平滑约束项,二元势函数定义为:
Figure SMS_188
其中,
Figure SMS_189
表示任意一对边缘类别标签在全局同时出现时的惩罚,根据本发明的实施方式,当/>
Figure SMS_190
没有同时存在时,/>
Figure SMS_191
的值取0.8,当/>
Figure SMS_192
同时存在时,/>
Figure SMS_193
的值取0.2。/>
Figure SMS_194
为分类系数,(Xi,Yi)是特征点i的坐标值,(Xt,Yt)是特征点t的坐标值。
本发明中分类系数
Figure SMS_195
具体根据以下方法确定:在无向图中选择K个分类特征点,其中,K为正整数,K的数值等于图像中目标物的类别数,计算其他特征点到这K个特征点的距离,未知的点选择最近的一个分类特征点作为标记类别,接着,计算出K类特征点的中心点作为新的分类特征点,重复上述步骤,直到分类特征点的位置不再变化,此时,对于任意两个特征点i,t,若i,t属于同一类,则/>
Figure SMS_196
,若/>
Figure SMS_197
不属于同一类,则/>
Figure SMS_198
,分类系数
Figure SMS_199
为:/>
Figure SMS_200
步骤S5、基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
具体包括以下步骤:
S51、根据步骤S4得到的边缘分割图,确定障碍物最左侧边缘特征点的坐标为(xL,yL),最右侧边缘特征点的坐标为(xR,yR),通过深度双目相机得到障碍物最左侧边缘特征点和最右侧边缘特征点的深度信息即两个特征点到机器人的距离zL和zH,(xL,yL)和(xR,yR)均以左摄像头的相机坐标为世界坐标系。
S52、对机器人基于深度双目相机位置建立机器人坐标系,即以深度双目相机的基线中点为坐标原点,水平向右为X轴,竖直向上为Y轴,水平向前为Z轴,建立三维空间坐标系,将xL和xR减去深度双目相机基线距离的一半得到新的x'L和x'R,则障碍物最左侧最右侧边缘特征点在机器人坐标系下的坐标为(x'L, yL)和(x'R, yR)。
S53:设机器人左右边缘的横坐标为xLc和xRc,障碍物中心横坐标为
Figure SMS_212
,当
Figure SMS_203
或/>
Figure SMS_208
时,,若障碍物在机器人右侧,则/>
Figure SMS_204
,机器人在zL为1.5米时停止前进,向左转/>
Figure SMS_207
度,沿此角度向前运动/>
Figure SMS_211
米,再右转/>
Figure SMS_215
度,沿此角度向前运动2.5米,向右转/>
Figure SMS_210
度,沿此角度向前运动/>
Figure SMS_214
米,最后左转/>
Figure SMS_201
度,至此完成避障,机器人按原定路径运动;若障碍物在机器人左侧,则/>
Figure SMS_206
,机器人在zL为1.5米时停止前进,向右转
Figure SMS_217
度,沿此角度向前运动/>
Figure SMS_220
米,再左转/>
Figure SMS_218
度,沿此角度向前运动2.5米,向左转/>
Figure SMS_221
度,沿此角度向前运动/>
Figure SMS_209
米,最后右转/>
Figure SMS_213
度,至此完成避障,机器人按原定路径运动。其中,/>
Figure SMS_216
和/>
Figure SMS_219
为正数,在本发明实施例中,/>
Figure SMS_202
取65,/>
Figure SMS_205
取1.1。
在前面的详细描述中,已经阐述了许多具体细节以提供对要求保护的主题的透彻理解。然而,本领域技术人员将理解,要求保护的主题可以在没有这些具体细节的情况下实施。描述中对具体数值的引用仅是示例的作用,而不是对本发明的限制,在不脱离要求保护的主题的情况下,可以进行各种其他修改,并且可以替换等效物。例如,在其他实施例中,可以设置不同的数值。
基于上述方案,为了验证本发明方法的效果,将本发明的优化方法和现有未经优化的视觉避障方法同时进行应用,具体如下:
图4为未经优化的现有障碍物检测分割算法得到的识别结果,可以发现障碍物“人”被检测为“自行车”,识别出现错误,目标物边缘约束太弱,边缘与背景分割不够明显,障碍物没有被标签边缘完全覆盖,导致机器人撞上障碍物,无法避开障碍物。
图5为采用本发明方法优化后的识别结果,可以看出优化后的识别结果明显优于现有算法,检测精度更高,识别结果正确,障碍物被标签完全覆盖,边缘与背景被完全分割,机器人能够有效避开障碍物。
经过对比可以看出,本发明方法有效解决了现有视觉避障方法中检测识别精度不够高,边缘与背景分割过于粗糙,导致机器人无法避开障碍物的缺点。
基于方法实施例相同的技术构思,本发明还提供一种基于聚类分离条件随机场的机器人视觉避障装置,包括:
特征提取模块,被配置为利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,对采集的图像进行预处理后,输入主干特征提取网络,得到对应的初级特征图C1~C5,将输出的初级特征图输入特征金字塔网络,得到融合特征后的高级特征图F1~F5
候选框提取模块,被配置为基于不同尺寸的融合特征后的高级特征图生成所有候选框,其中高级特征图所有层的每一个特征点都会生成3个候选框,将得到的所有候选框输入区域生成网络,进行二分类和定位回归,获得各高级特征图上候选框的前景背景概率值和参数回归值,并将区域生成网络输出的所有候选框输入建议层网络对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后再进行一次筛选过滤;
目标识别模块,被配置为在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;
边缘分割模块,被配置为基于识别出的目标,将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,利用融合聚类分离的条件随机场能量函数,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图;
避障模块,被配置为基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
应理解,本发明实施例中的机器人视觉避障装置可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本发明提供一种机器人,包括处理器,所述处理器被配置为执行本发明所述的基于聚类分离条件随机场的机器人视觉避障方法,或者所述机器人包括如上所述的基于聚类分离条件随机场的机器人视觉避障装置。
具体实现中,本发明还提供一种计算机可读存储介质,该计算机可读存储介质可存储有程序,该程序被处理器执行时可实现本发明提供的一种基于聚类分离条件随机场的机器人视觉避障方法的部分或全部步骤。所述的计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等形式。
本领域的技术人员可以清楚地了解到本发明实施例中的技术需借助软件加必需的通用硬件平台的方式来实现。因此,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,包括若干指令用以执行本发明各个实施例或者实施例的某些部分所述的方法。

Claims (10)

1.一种基于聚类分离条件随机场的机器人视觉避障方法,其特征在于,包括如下步骤:
利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,对采集的图像进行预处理后,输入主干特征提取网络,得到对应的初级特征图C1~C5,将输出的初级特征图输入特征金字塔网络,得到融合特征后的高级特征图F1~F5
基于不同尺寸的融合特征后的高级特征图生成所有候选框,其中高级特征图所有层的每一个特征点都会生成3个候选框,将得到的所有候选框输入区域生成网络,进行二分类和定位回归,获得各高级特征图上候选框的前景概率值、背景概率值和参数回归值,并将区域生成网络输出的所有候选框输入建议层网络对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后再进行一次筛选过滤;
在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;
基于识别出的目标,将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,利用融合聚类分离的条件随机场能量函数,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图;
基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
2.根据权利要求1所述的方法,其特征在于,主干特征提取网络提取初级特征图包括:
(1)将彩色图像输入到主干特征提取网络的第一个卷积层,得到特征图C1
(2)将C1输入最大池化层,得到池化后图像,将该池化后图像输入主干特征提取网络的第二个卷积层,得到特征图C2
(3)将C2输入主干特征提取网络的第三个卷积层,输出一特征图,将此特征图输入主干特征提取网络的第四个卷积层,输出特征图C3
(4)将C3输入主干特征提取网络的第五个卷积层,输出特征图C4
(5)将C4输入主干特征提取网络的第六个卷积层,输出一特征图,将此特征图输入主干特征提取网络的第七个卷积层,输出特征图C5
3.根据权利要求1所述的方法,其特征在于,特征金字塔网络对特征融合处理包括:
(a)将C5输入特征金字塔网络的第一个卷积层,输出特征图P5;将P5通过特征金字塔网络的第二个卷积层,输出特征图Q5;将P5通过特征金字塔网络的最大池化层,输出特征图F1
(b)将C4通过特征金字塔网络的第三个卷积层,输出一特征图,将此特征图与Q5直接相加,得到特征图P4,将P4通过特征金字塔网络的第四个卷积层,输出特征图Q4
(c)将C3通过特征金字塔网络的第五个卷积层,输出一特征图,将此特征图与Q4直接相加得到特征图P3,将P3通过特征金字塔网络的第六个卷积层,输出特征图Q3
(d)将C2通过特征金字塔网络的第七个卷积层,输出一特征图,此特征图与Q3直接相加得到特征图P2
(e)将P2~P5输入特征金字塔网络的第八个卷积层,各输出特征图尺寸不变,对应于输入特征图P2~P5,输出特征图为F2~F5
4.根据权利要求1所述的方法,其特征在于,区域生成网络的处理过程包括:
对于高级特征图F1~F5中的每一个特征图Fb,将Fb输入区域生成网络的第一卷积层J1,J1卷积核大小为3x3,卷积核个数为512,stride为1,padding为1,激活函数为ReLu,输出特征图Nb,将Nb通过区域生成网络的第二卷积层J2,J2卷积核大小为1x1,卷积核个数为6,stride为1,padding为0,激活函数为ReLu,输出特征图CLSb,CLSb每两层代表了Fb上候选框的前景概率值和背景概率值;将Nb通过区域生成网络的第三卷积层J3,J3卷积核大小为1x1,卷积核个数为12,stride为1,padding为0,激活函数为ReLu,输出特征图REGb,REGb每四层代表了Fb上候选框横坐标、纵坐标、宽度和高度的回归值,其中stride为步长,即卷积核在图片水平方向和垂直方向每次的步进长度,padding为填充,即向输入图片边界填入固定像素值。
5.根据权利要求4所述的方法,其特征在于,建议层网络对候选框进行过滤包括:
根据各高级特征图Fb的候选框前景概率值,对所有候选框进行排序,取前M个得分高的候选框,将其余候选框过滤掉;
设每个候选框的参数为(x,y,w,h),根据各高级特征图Fb的候选框各参数回归值,将候选框参数调整为
Figure QLYQS_1
,其中,(x,y,w,h)分别为候选框中心特征点的横坐标、纵坐标和候选框的宽度、高度,/>
Figure QLYQS_2
为候选框横坐标回归值,/>
Figure QLYQS_3
为候选框纵坐标回归值,/>
Figure QLYQS_4
为候选框宽度回归值,/>
Figure QLYQS_5
为候选框高度回归值;
基于调整后的M个候选框,对于目标物A,设有m个候选框与A有交集,m个候选框分别为a1, a2,..., am,前景概率值最大的候选框为ak,前景概率值最小的候选框为an,ak的参数为(xk,yk,wk,hk),an的参数为(xn,yn,wn,hn),得到一个新候选框as为(xk,yk,wk+ wn,hk+ hn),保留新候选框as,过滤原候选框a1, a2,..., am,对于图像中所有目标物进行上述处理,得到一系列新候选框。
6.根据权利要求1所述的方法,其特征在于,在过滤后的候选框中选择正负样本,计算目标物的真实权重包括:
设原图像中有q个目标物,过滤后的候选框有j个,从j个候选框中任意取N个,每个目标物的真实边界框为Ag,对于任意选取的一个候选框ap,若存在
Figure QLYQS_6
,则ap为正样本,否则ap为负样本,其中,g=1,2,···,q;p=1,2,···,N;q,j均为正整数;
对每一个正样本赋予标签,若某个正样本与某个目标物真实边界框的重叠部分最大,则该正样本被赋予该目标物的类别,将该正样本内部的所有像素值进行加权求和,得到该目标物的真实权重。
7.根据权利要求1所述的方法,其特征在于,基于识别出的目标进行边缘分割时,设每个特征点所属的边缘类别标签为E,与该特征点匹配的预测值为l,融合聚类分离的条件随机场能量函数为:
Figure QLYQS_7
E(l)的值越小,表示该特征点匹配边缘类别标签E的概率越大,取所有边缘类别标签中匹配概率最大的作为该特征点的边缘类别标签,其中,
Figure QLYQS_9
表示特征点i是否拥有边缘类别标签/>
Figure QLYQS_12
,/>
Figure QLYQS_16
表示i拥有边缘类别标签/>
Figure QLYQS_11
,设/>
Figure QLYQS_13
表示的是一组边缘类别标签z的集合,/>
Figure QLYQS_17
是无向图中顶点连线的集合,i,t均为特征点,无向图中有n个顶点,/>
Figure QLYQS_20
是一元势函数,用来衡量将边缘类别标签/>
Figure QLYQS_8
赋予特征点i的代价,i属于边缘类别标签/>
Figure QLYQS_15
的概率越大,/>
Figure QLYQS_19
就越小,/>
Figure QLYQS_21
是二元势函数,用来衡量将边缘类别标签/>
Figure QLYQS_10
,/>
Figure QLYQS_14
赋予特征点i,t的惩罚,/>
Figure QLYQS_18
为正整数。
8.根据权利要求7所述的方法,其特征在于,所述一元势函数定义为:
Figure QLYQS_22
其中,
Figure QLYQS_23
表示特征点i属于边缘类别标签/>
Figure QLYQS_24
的概率;
所述二元势函数定义为:
Figure QLYQS_25
其中,
Figure QLYQS_26
表示任意一对边缘类别标签在全局同时出现时的惩罚,/>
Figure QLYQS_27
为分类系数,(Xi,Yi)是特征点i的坐标值,(Xt,Yt)是特征点t的坐标值;
分类系数
Figure QLYQS_28
根据以下方法确定:在无向图中选择K个分类特征点,计算其他特征点到这K个特征点的距离,未知的点选择最近的一个分类特征点作为标记类别,接着,计算出K类特征点的中心点作为新的分类特征点,其中K为正整数,K的数值等于图像中目标物的类别数,重复上述步骤,直到分类特征点的位置不再变化,此时,对于任意两个特征点i,t,若i,t属于同一类,则令/>
Figure QLYQS_29
,若i,t不属于同一类,则令/>
Figure QLYQS_30
,分类系数/>
Figure QLYQS_31
为:/>
Figure QLYQS_32
9.一种基于聚类分离条件随机场的机器人视觉避障装置,其特征在于,包括:
特征提取模块,被配置为利用深度双目相机采集机器人行驶过程中遇到的障碍物图像,对采集的图像进行预处理后,输入主干特征提取网络,得到对应的初级特征图C1~C5,将输出的初级特征图输入特征金字塔网络,得到融合特征后的高级特征图F1~F5
候选框提取模块,被配置为基于不同尺寸的融合特征后的高级特征图生成所有候选框,其中高级特征图所有层的每一个特征点都会生成3个候选框,将得到的所有候选框输入区域生成网络,进行二分类和定位回归,获得各高级特征图上候选框的前景概率值、背景概率值和参数回归值,并将区域生成网络输出的所有候选框输入建议层网络对候选框进行过滤,首先根据前景概率值对候选框进行初步过滤,接着根据候选框参数回归值对候选框位置进行调整,最后再进行一次筛选过滤;
目标识别模块,被配置为在过滤后的候选框中选择正负样本,计算目标物的真实权重,将过滤后的候选框映射到同一个尺寸固定的特征图上,将映射后的特征图输入全连接层,对图像进行目标检测识别;
边缘分割模块,被配置为基于识别出的目标,将尺寸统一的特征图转化为热图,对热图进行边缘粗分割,再将热图用无向图表示,利用融合聚类分离的条件随机场能量函数,形成新的边缘类别标签分配方式,得到原图像的边缘细分割图;
避障模块,被配置为基于边缘分割结果确定障碍物的位置,根据得到的障碍物位置和深度双目相机测得的深度信息进行避障。
10.一种机器人,包括处理器,其特征在于,所述处理器被配置为执行如权利要求1-8中任一项所述的基于聚类分离条件随机场的机器人视觉避障方法,或者所述机器人包括如权利要求9所述的基于聚类分离条件随机场的机器人视觉避障装置。
CN202310369994.3A 2023-04-10 2023-04-10 基于聚类分离条件随机场的机器人视觉避障方法及机器人 Active CN116079749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310369994.3A CN116079749B (zh) 2023-04-10 2023-04-10 基于聚类分离条件随机场的机器人视觉避障方法及机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310369994.3A CN116079749B (zh) 2023-04-10 2023-04-10 基于聚类分离条件随机场的机器人视觉避障方法及机器人

Publications (2)

Publication Number Publication Date
CN116079749A CN116079749A (zh) 2023-05-09
CN116079749B true CN116079749B (zh) 2023-06-20

Family

ID=86187286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310369994.3A Active CN116079749B (zh) 2023-04-10 2023-04-10 基于聚类分离条件随机场的机器人视觉避障方法及机器人

Country Status (1)

Country Link
CN (1) CN116079749B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680090A (zh) * 2017-10-11 2018-02-09 电子科技大学 基于改进全卷积神经网络的输电线路绝缘子状态识别方法
CN107886074B (zh) * 2017-11-13 2020-05-19 苏州科达科技股份有限公司 一种人脸检测方法以及人脸检测系统
CN108062756B (zh) * 2018-01-29 2020-04-14 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108764244B (zh) * 2018-04-02 2021-09-21 华南理工大学 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN109285162A (zh) * 2018-08-30 2019-01-29 杭州电子科技大学 一种基于局部区域条件随机场模型的图像语义分割方法
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN110633661A (zh) * 2019-08-31 2019-12-31 南京理工大学 一种融合语义分割的遥感图像目标检测方法
CN111210443B (zh) * 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111339891A (zh) * 2020-02-20 2020-06-26 苏州浪潮智能科技有限公司 一种图像数据的目标检测方法及相关装置

Also Published As

Publication number Publication date
CN116079749A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111798475B (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
CN110781827B (zh) 一种基于激光雷达与扇状空间分割的路沿检测系统及其方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
US9846946B2 (en) Objection recognition in a 3D scene
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN114565900A (zh) 基于改进YOLOv5和双目立体视觉的目标检测方法
CN107392929B (zh) 一种基于人眼视觉模型的智能化目标检测及尺寸测量方法
CN113378686B (zh) 一种基于目标中心点估计的两阶段遥感目标检测方法
CN113269040A (zh) 结合图象识别与激光雷达点云分割的驾驶环境感知方法
Li et al. Road markings extraction based on threshold segmentation
CN115272652A (zh) 基于多元回归和自适应焦点损失的密集物体图像检测方法
CN112200163B (zh) 水下底栖生物检测方法及系统
CN112270694B (zh) 基于激光雷达扫描图进行城市环境动态目标检测的方法
Bogoslavskyi et al. Analyzing the quality of matched 3D point clouds of objects
CN116486287A (zh) 基于环境自适应机器人视觉系统的目标检测方法及系统
CN112257721A (zh) 一种基于Fast ICP的图像目标区域匹配方法
CN115100741A (zh) 一种点云行人距离风险检测方法、系统、设备和介质
CN116703895B (zh) 基于生成对抗网络的小样本3d视觉检测方法及其系统
CN113536959A (zh) 一种基于立体视觉的动态障碍物检测方法
CN117292076A (zh) 工程机械局部作业场景动态三维重构方法及系统
CN116079749B (zh) 基于聚类分离条件随机场的机器人视觉避障方法及机器人
CN112001448A (zh) 一种形状规则小物体检测方法
CN110889418A (zh) 一种气体轮廓识别方法
CN116309817A (zh) 一种基于rgb-d相机的托盘检测与定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant