CN104077611B - 类地重力场环境下室内场景单目视觉空间识别方法 - Google Patents

类地重力场环境下室内场景单目视觉空间识别方法 Download PDF

Info

Publication number
CN104077611B
CN104077611B CN201410335080.6A CN201410335080A CN104077611B CN 104077611 B CN104077611 B CN 104077611B CN 201410335080 A CN201410335080 A CN 201410335080A CN 104077611 B CN104077611 B CN 104077611B
Authority
CN
China
Prior art keywords
segment
pixel
image
ground
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410335080.6A
Other languages
English (en)
Other versions
CN104077611A (zh
Inventor
郑李明
崔兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yuanjue Information And Technology Co
Original Assignee
Nanjing Original Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Original Mdt Infotech Ltd filed Critical Nanjing Original Mdt Infotech Ltd
Priority to CN201410335080.6A priority Critical patent/CN104077611B/zh
Publication of CN104077611A publication Critical patent/CN104077611A/zh
Priority to US14/684,431 priority patent/US9390348B2/en
Priority to US14/684,428 priority patent/US9471853B2/en
Priority to US14/684,434 priority patent/US9626598B2/en
Priority to US14/684,433 priority patent/US9805293B2/en
Application granted granted Critical
Publication of CN104077611B publication Critical patent/CN104077611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤:首先,对图像进行基于像素色彩及空间位置的超像素图像分割;其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类;对色彩分类图块进行基于轮廓形态谱聚类;采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类;利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;基于室内场景透视原理对天花板与立面、地面与立面边界进行搜索;采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;基于地面与天花板透视原理标注室内空间生成深度图。本发明实用性、棒性强。

Description

类地重力场环境下室内场景单目视觉空间识别方法
技术领域
本发明涉及一种可以广泛应用于如机器视觉室内空间导航、目标测量、目标追踪与定位等领域的室内场景图像单目视觉空间识别方法,尤其是一种将重力场、透视投影原理及视觉空间尺度作为机器视觉空间识别的重要线索,实现对室内场景图像的视觉空间识别的方法,具体地说是一种类地重力场环境下室内场景单目视觉空间识别方法。
背景技术
本发明仅涉及类地重力场环境下的场景,因此需要对类地重力场环境给予必要的定义,本方法中所谓的类地重力场是指以硅酸盐岩石为主要成分的星体表面所构成的重力场环境,如:地球、火星、月球等重力场环境。图1给出了在万有引力场中场景图像的分类。而在类地重力场环境下的场景图像又可以分为两类,分别是通常所说的室外和室内场景图像,本发明的应用对象为室内场景。
目前对室内场景图像进行空间识别的方法主要有:动态贝叶斯网络模型法(DBN)、基于”盒子模型”的结构化学习法(SL)以及几何推理法(GR)等。这些方法能够对一些类型的室内场景图像产生一定的三维空间识别。
1.动态贝叶斯网络模型法(DBN)
Erick等人采用动态贝叶斯网络模型,以斯坦福大学校园的建筑物室内场景为训练集,通过反复机器学习获得了对建筑物室内空间识别的模型,并对由因特网上的谷歌图片(http://images.google.com)收索到44张分辨率相似的室内场景图片进行测试,该方法模型对地板边界的平均识别率为80%,对图像3D重构的平均准确率为66%。Erick等人在其文章中对其提出的方法产生的错误进行了分析,其主要原因在于该方法依赖图像中对灭点检测的准确性,当室内空间存在较多不规则物体时将影响其方法对空间中平行线灭点的检测,从而带来空间识别的错误。此外,当场景中出现弧形墙面时则该方法的错误率将会更大。
2.基于“盒子模型”的结构化学习法(SL)
Varsha等人基于Derek等人提出的“盒子模型”假设,引入了一种结构化的机器学习方法,通过对308张由网上获得的室内场景图像进行训练学习,其中随机抽取了204张图像用于训练,104张图像用于测试。该方法数据集图像空间识别情况是,其对室内空间平面的像素识别错误率在26.5%~21.2%之间;对室内空间中墙角识别的错误率为7.4%~6.3%。Varsha等人对其方法所产生的错误进行了分析,其主要原因也在于该方法依赖灭点检测的准确性。
3.几何推理法(GR)
David C.等人提出采用几何推理法来对室内场景图像进行空间识别,即通过提取室内场景图像中的线段集合,并通过对线段进行相对合理的推理解释,来重构建筑物的室内3D空间,该方法忽略了室内场景中障碍物的存在,比如:室内场景中的人体、家具等。从其推理模型中可以看出(如图2所示),该方法仅适合摄像机在平视或接近平视条件下的墙面与天花板及地面间有明确直线交界线其障碍物较少的室内场景空间。
本发明在继承“盒内假想方法”(Thinking Inside the Box)的基础上,提出将室内空间定义为“任意形状盒子模型”,并将重力场、透视投影原理及视觉空间尺度作为机器视觉空间识别的重要线索,实现室内场景图像的空间识别,该方法不需要进行机器学习。
发明内容
本发明的目的是针对现有的各类室内场景图像空间识别方法存在的精度低、误差率大的问题,发明一种类地重力场环境下室内场景单目视觉空间识别方法,这种方法在继承“盒内假想方法”(Thinking Inside the Box)的基础上,通过分析重力场中室内环境空间特点,采用构造模糊函数的方法来构建重力场室内场景视觉空间识别模型,该模型不依赖于室内场景图像中的灭点信息。其基本思想是,在室内空间中,主导性结构物体为地面、墙面和天花板,而且它们相互之间的关系往往是正交的,因此采用“盒子模型”是可行的,但是本发明所采用的盒子模型并不是立方体,而是由底面即地面和有顶盖即天花板的“任意形状的盒子”。本发明抛弃了以往研究中提出的寻找平行线灭点方法来认知室内3D空间的方法,而是将重力场因素加入到“任意形状盒子模型”中作为约束条件,即在重力场的作用下,除了气体以外几乎所有的物体(除利用空气动力学原理的飞行器)都需要地面的支撑,如天花板需要墙体的支撑,墙体需要地面的支持,室内家具等物体必须处于地面的支持状态下才是稳定的。因此本发明中的室内场景3D空间识别方法从立面物体识别着手,以立面物体为线索推导出室内空间中的天花板和地面,进而实现对室内场景的空间认知与识别。
本发明的技术方案是:
一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤,如图3所示:
首先,对图像进行基于像素色彩及空间位置的超像素图像分割,形成具有一定密度的超像素图像;
其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类,生成接近人类视觉色彩分类感知的图块图像,以降维超像素图像;
第三,对色彩分类图块进行基于轮廓形态谱聚类,将立面物体的图像聚类成大立面图块;
第四,采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类,初步找出可能的天花板、立面及地面的空间区域;
第五,并利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;
第六,基于室内场景透视原理的天花板与立面、地面与立面边界进行搜索;
第七,采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;
第八,基于地面与天花板透视原理标注室内空间生成深度图。
所述的多尺度感知特性的色彩空间谱聚类方法是先采用简单线性迭代聚类方法即SLIC(Simple Linear Iterative Clustering)进行超像素聚类,它以像素的CIELAB色彩空间的L、a、b值及像素的x,y轴坐标构建5维空间,并定义了规范化的距离测量方法Ds,具体定义如下:
其中:Ck=[lk,ak,bk,xk,yk]T为聚类的中心;[li,ai,bi,xi,yi]T为图像像素点的5维空间坐标;N为图像的像素数;K为期望获得的超像素的数目;S为超像素中心栅格间距;Ds为色彩lab距离dlab和dxy基于S的规范化距离;m为可控的超像素密度因子;其次采用以下方法进行多尺度特性色彩空间谱聚类:
(1)将SLIC方法所产生的n个超像素作为无向权值图G的顶点V={v1,v2,...,vn};
(2)构建邻接矩阵,i=1,2...n;j=1,2...n,其中,n为超像素的个数;
(3)构建权值邻接矩阵,i=1,2...n;j=1,2...n;
其中权值W(i,j)为相邻两个超像素之间的规范化CIELAB颜色直方图Bhattacharyya系数进行度量计算,具体构建方法是将图像的色彩空间转换到CIELab空间,并将L通道的取值范围划分为8级等分,a通道的取值范围划分为16等分,将b通道的取值范围划分成16个等级,其中将L通道取值范围划分为8级的目的是降低色彩亮度变化对权值的扰动,每个超像素在8×16×16=2048维度的空间计算值直方图为:
其中l=2048,则当Ei,j=1时
对于权值W(i,j)的取值通过增加一个基于Bhattacharyya系数的色彩距离的约束条件进行选取,选取条件为:
当W(i,j)≤0.71≈cos 45°时,则令W(i,j)=0;
增加此约束条件的目的是提高相邻超像素间色彩的相似性阈值以提高方法的干扰能力和鲁棒性;
(4)构建度矩阵,i=1,2...n;j=1,2...n;
(5)构建规范化Laplacian矩阵,采用Normalized-cut准则来计算规范化的Laplacian矩阵:
(6)计算Lsym进行特征值分解,并取前K个最小特征值所对应的特征向量,V1,V2,...,Vk;,其中K=[0.1×n],即取n的10%作为图像聚类特征向量的维度,从而实现将超像素图像降维到接近10%以下的目的;
(7)将V1,V2,...,Vk排列组成Rn×k矩阵并将矩阵中的每个元素取绝对值得矩阵U;
(8)对于i=1,2...n,令yi∈Rk为矩阵U的第i行向量;
(9)对非零的yi∈Rk向量进行归一化,并用Bhattacharyya系数法进行聚类,其中Bhattacharyya距离的BU阈值为cos 20°≈0.95,即当BU≥0.95时,超像素间进行聚类;
(10)采用以下方法对每个谱聚类图块进行聚类,生成接近人类视觉色彩分类感知的图块图像:
①构建颜色多尺度空间模型:
采用一个以a=0,b=0为圆心,Rm为半径的圆柱体将CIELAB色彩空间分割成两个部分,如:
对于在ab平面上投影的模长大于Rm的颜色向量,采用两个颜色向量在ab平面投影向量间的夹角和颜色向量在ab平面上投影的模长之差的绝对值作为颜色聚类的近似性测度,具体的数学表达如下:
其中:为两个颜色向量在ab平面投影向量,θT和ΔmT分别为两向量聚类夹角的阈值和模长之差的阈值,θT的取值范围为θT=5~20°,ΔmT的取值范围为ΔmT=15~40;
对于在ab平面上投影的模长小于Rm的颜色向量,则采用两个颜色向量在ab平面投影向量间的夹角,其表达式同(10)式,以及向量在L上的亮度差作为其颜色聚类的近似性测度,具体的数学表达如下:
ΔL=|La-Lb|≤ΔLT (12)
其中:ΔLT的取值范围为ΔLT=5~20。
②应用颜色多尺度空间模型进行图像聚类:
a.计算每个聚类图块平均色彩向量值,并将向量投影到ab平面上;
b.计算每个聚类图块平均色彩向量值投影在ab平面上向量的模长,并根据向量在ab平面上的模长将其归于不同的测度空间;
c.对相邻图块类采用式(10)进行向量间的夹角的计算;
d.以公式(10)(11)(12)为判据,将符合条件的图块进行聚类;
e.重复a~d步,直到收敛。
为了提高重力场视觉模糊分布密度函数对天花板、地面和立面物体判断的准确度,需要对图块进行基于几何包含关系的聚类,以消除孤岛图块,所谓孤岛图块是指一个或多个图块被一个大图块完全包围的图块,几何包含关系的聚类方法能将孤岛图块聚类成完全包围该孤岛的大图块;图像中非镂空图块是指:其轮廓边界的线积分值等于其外轮廓线积分值的图形区域,即图块的轮廓线就是其唯一的轮廓线,其判据的数学表达式为:
图像中镂空图块是指:其外轮廓线积分值小于其轮廓边界线积分值的图形区域,其判据的数学表达式为:
几何包含关系的聚类方法为:
(1)寻找镂空图块,其判据为当Nb-nb>0时则图块为镂空图块,其中Nb为图块所有边界的像素值,nb为图块外边界的像素值,如果Nb-nb>0则进入下一步,否则图块不为镂空图块则退出进程,并遍历其它图块以寻找镂空图块;直到遍历所有图块且没有镂空图块时退出;
(2)以外边界为边界以原图块的标记值来填充图块;
(3)以填充图块代替原镂空图块。
(4)返回第一步。
所述的基于图块轮廓形态的谱聚类方法为:
(1)对聚类图像中的所有图块边缘轮廓进行Hough直线提取;
(2)在[0,180]角度区间范围,以4°为一区间,将[0,180]区间分为45个小区间,并统计场景图像中各角度区间中的直线段总长,并归一化后形成统计直方图;
(3)构造一个窗口函数wR(x),即在[0,4]、[84,96]以及[176,180]区间内设置采样窗口;
(4)将统计直方图与窗口函数wR(x)相乘,并将其结果进行求和得到直方图在[0,4]、[84,96]以及[176,180]区间内的能量E′H
(5)将整个统计直方图进行求和运算得EH
(6)根据公式将E'H除以EH,得曼哈顿方向强度SM
(7)当两相邻图块的曼哈顿方向强度SM≥0.75时,构建向量e(i)=(e1,e2,e3),其中,e1,e2,e3分别是,图块轮廓直线方向直方图在[0,4]、[84,96]以及[176,180]区间内的数值;
(8)求取其相邻超像素之间的Bhattacharyya系数值BR(i,j)为:
其中,
(9)当BR(i,j)≥0.9时图块聚类。
室外重力场视觉模糊分布密度函数分类方法为:
(1)设定图像的视平线的位置;视平线为过摄像机的光心并与地平面或水平面平行的直线,而图像中的水平线为过视平线与摄像机成像靶面的交点与地平面或水平面平行的直线,直线为成像靶面视平线所在的位置,需要指出的是由于摄像机视角的变化,其视平线的位置将会在图像成像靶面中上下移动,即视平线不一定在图像的中间位置;
(2)构造地面重力场视觉模糊分布密度函数G:
当HG≥HS时:令则得
当HG<HS时:G(x)=-S(x)
其中:n=1,2,3......N,N∈正整数,通常取n=1即可。
(3)构造天空重力场视觉模糊分布密度函数S:
当HG<HS时:令则得
当HG≥HS时:S(x)=-G(x)
其中:n=1,2,3......N,N∈正整数,通常取n=1即可。
(4)构造立面物体重力场视觉模糊分布密度函数V:
其中
(5)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天空模糊分布密度函数S以及立面物体模糊分布密度函数V,在(-HG,Hs)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:S代表天空、V代表立面、G代表地面。
室内重力场视觉模糊分布密度函数方法为:
(1)构造地面重力场视觉模糊分布密度函数G:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1;
(2)构造天花板重力场视觉模糊分布密度函数C:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1;
(3)构造立面物体重力场视觉模糊分布密度函数V:
(4)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天花板模糊分布密度函数C以及立面物体模糊分布密度函数V,在(-HG,Hs)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:C代表天花板、V代表立面、G代表地面。
室内空间中天花板、地面与立面的边界线预测估计方法:
(1)对室内初步分类图像中每行像素中的天花板像素的个数进行累加统计,得n个其中: 下标i代表像素的行号,上标c代表天花板像素;
(2)对室内初步分类图像中每行像素中地面像素的个数进行累加统计,得m个其中: 下标j代表像素的行号,上标g代表地面像素;
(3)令
(4)分别以μc和μg为均值计算标准差Sc和Sg,公式如下:
(5)直线cc’位置的确定,首先取中所有大于μc-1.96Sc组成新的集合并在此集合中寻找与视平线oo’距离dc最小的水平线作为天花板与立面边界的预测估计线cc’;
(6)直线cc’位置的确定,首先取中所有大于μg-1.96Sg组成新的集合并在此集合中寻找与视平线oo’距离dg最小的水平线作为天花板与立面边界的预测估计线gg’。
基于地面与天花板透视原理标注室内空间深度图生成方法包括:
(1)构建基于地面的深度模型;
该模型首先假设地面是水平连续延展且较为平整,视觉成像系统有明确的方向性,即图像上缘为3D空间的正上方,下缘为3D空间的正下方;
地面深度信息与图像中地面像素位置的透视投影关系如下:
其中:H为摄像机距地面的高度,β为摄像机光轴与视平线的夹角,深度投影角α为视平线oo’与直线op的夹角,其取值范围为p’为地面上的p点在成像靶面上的投影,f为镜头焦距,h为成像靶面上的视平线到p’点的距离,则摄像机可感知的地面距离d取值范围为(H cot+∞)。
(2)构建基于地面的图像深度图;
由地面深度与摄像机距地面的高度H和深度投影角α的关系式(34)知,当H为常数时,可以用α的值来表示地面在摄像机投影的各像素点深度,将α∈的取值映射到CIELAB色彩空间的的色环上,并将天空的颜色定义为色环处的颜色;
(3)生成基于天花板的图像深度图,先假设天花板是一个与地面平行的水平面,并在此基础上将天花板的深度图标注方法采用上述相同基于地面的图像深度图的标注方法,对天花板的深度进行标注。
附图说明
图1是万有引力场场景图像示意图。
图2是David C.等人提出的典型室内空间推理模型。
图3是基于重力场模型的室内场景识别方法流程示意图。
图4是色彩多尺度图感知模型示意图。
图5是基于几何包含关系聚类方法消除了图块中的孤岛示意图,图中(a)为存在孤岛图块的天花板图像;(b)为经过何包含关系的聚类方法处理后的天花板图像。
图6是非镂空图块和镂空图块的区别,其中(a)为非镂空图块,(b)为镂空图块。
图7是基于透视原理矩形物体在立面和水平位置上呈现出不同的形态,其中(a)为立面位置的矩形图像,(b)为水平位置的矩形图像。
图8是窗口函数示意图。
图9是视平线位置的确定示意图。
图10是图像视平线位置的确定示意图,图中HI为图像的高度,HI=Hs+HG
图11是重力场中室内场景视觉认知模型示意图。
图12是图像中视平线以及天花板和地面可能出现的区域示意图。
图13是由人工标定的室内空间场景图像的天花板、地面和立面示意图。
图14中天花板、地面与立面的边界线预测估计示意图。
图15中视觉成像系统物理模型示意图。
图16是深度投影角在Lab空间中的映射示意图。
图17是室内场景空间的深度示意图,其中(a)为原图像;(b)为天花板、立面和地面识别图像;(c)为室内深度图。
图18是不同视角情况下室内场景图像空间的识别示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
一种类地重力场环境下室内场景单目视觉空间识别方法,它包括以下步骤:
首先,对图像进行基于像素色彩及空间位置的超像素图像分割,形成具有一定密度的超像素图像;
其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类,生成接近人类视觉色彩分类感知的图块图像,以降维超像素图像;
第三,对色彩分类图块进行基于轮廓形态谱聚类,将立面物体的图像聚类成大立面图块;
第四,采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类,初步找出可能的天花板、立面及地面的空间区域;
第五,利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;
第六,基于室内场景透视原理对天花板与立面、地面与立面边界进行搜索;
第七,采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;
第八,基于地面与天花板透视原理标注室内空间生成深度图。
其中:
1.超像素聚类方法
可采用Achanta R提出的简单线性迭代聚类方法即SLIC(Simple LinearIterative Clustering),该方法以像素的CIELAB色彩空间的L、a、b值及像素的x,y轴坐标构建5维空间,并定义了规范化的距离测量方法Ds,具体定义如下:
其中:Ck=[lk,ak,bk,xk,yk]T为聚类的中心;[li,ai,bi,xi,yi]T为图像像素,点的5维空间坐标;N为图像的像素数;K为期望获得的超像素的数目;S为超像素中心栅格间距;Ds为色彩lab距离dlab和dxy基于S的规范化距离;m为可控的超像素密度因子。
2.多尺度特性色彩空间谱聚类方法
具体方法如下:
(1)将SLIC方法所产生的n个超像素作为无向权值图G的顶点V={v1,v2,...,vn);
(2)邻接矩阵构建,i=1,2...n;j=1,2...n,其中,n为超像素的个数;
(3)权值邻接矩阵的构建,i=1,2...n;j=1,2...n;
其中权值W(i,j)为相邻两个超像素之间的规范化CIELAB颜色直方图Bhattacharyya系数进行度量计算,具体构建方法是将图像的色彩空间转换到CIELab空间,并将L通道的取值范围划分为8级等分,a通道的取值范围划分为16等分,将b通道的取值范围划分成16个等级,其中将L通道取值范围划分为8级的目的是降低色彩亮度变化对权值的扰动,每个超像素在8×16×16=2048维度的空间计算值直方图为:
其中l=2048,则当Ei,j=1时
对于权值W(i,j)的取值通过增加一个基于Bhattacharyya系数的色彩距离作为约束条件,具体条件如下:
当W(i,j)≤0.71≈cos 45°时,则令W(i,j)=0;
增加此约束条件的目的是提高相邻超像素间色彩的相似性阈值以提高方法的干扰能力和鲁棒性。
(4)构建度矩阵,i=1,2...n;j=1,2...n;
(5)构建规范化Laplacian矩阵,采用Normalized-cut准则来计算规范化的Laplacian矩阵:
(6)计算Lsym进行特征值分解,并取前K个最小特征值所对应的特征向量,V1,V2,...,Vk;,其中K=[0.1×n],即取n的10%作为图像聚类特征向量的维度,从而实现将超像素图像降维到接近10%以下的目的;
(7)将V1,V2,...,Vk排列组成Rn×k矩阵并将矩阵中的每个元素取绝对值得矩阵U;
(8)对于i=1,2...n,令yi∈Rk为矩阵U的第i行向量;
(9)对非零的yi∈Rk向量进行归一化,并用Bhattacharyya系数法进行聚类,其中Bhattacharyya距离的BU阈值为cos 20°≈0.95,即当BU≥0.95时,超像素间进行聚类;
(10)对每个谱聚类图块采用基于人类视觉多尺度感知特性的彩色图像聚类。具体的方法如下:
①新型的颜色多尺度空间模型的构建
采用一个以a=0,b=0为圆心,Rm为半径的圆柱体将CIELAB色彩空间分割成两个部分,如图4所示。
对于在ab平面上投影的模长大于Rm的颜色向量,采用两个颜色向量在ab平面投影向量间的夹角和颜色向量在ab平面上投影的模长之差的绝对值作为颜色聚类的近似性测度,具体的数学表达如下:
其中:为两个颜色向量在ab平面投影向量,θT和ΔmT分别为两向量聚类夹角的阈值和模长之差的阈值,θT的取值范围为θT=5~20°,ΔmT的取值范围为ΔmT=15~40。
对于在ab平面上投影的模长小于Rm的颜色向量,则采用两个颜色向量在ab平面投影向量间的夹角,其表达式同(10)式,以及向量在L上的亮度差作为其颜色聚类的近似性测度,具体的数学表达如下:
ΔL=|La-Lb|≤ΔLT (12)
其中:ΔLT的取值范围为ΔLT=5~20。
②颜色多尺度空间模型的在图像聚类分割中的应用的具体实施方法
a.计算每个聚类图块平均色彩向量值,并将向量投影到ab平面上;
b.计算每个聚类图块平均色彩向量值投影在ab平面上向量的模长,并根据向量在
ab平面上的模长将其归于不同的测度空间,如图所示;
c.对相邻图块类采用式(10)进行向量间的夹角的计算;
d.以公式(10)(11)(12)为判据,将符合条件的图块进行聚类;
e.重复a~d步,直到收敛。
3.几何包含关系聚类方法。
为了提高后续的重力场视觉模糊分布密度函数对天花板、地面和立面物体判断的准确度,需要对图块进行基于几何包含关系的聚类,以消除孤岛图块,所谓孤岛图块是指一个或多个图块被一个大图块完全包围的图块(如图5所示),几何包含关系的聚类方法可以将孤岛图块聚类成完全包围该孤岛的大图块,从而避免了后续方法对孤岛图块空间分类所产生的奇异。
在进行方法描述之前,如图6所示,首先对图像中非镂空图块与镂空图块做如下定义,所谓非镂空图块是指:其轮廓边界的线积分值等于其外轮廓线积分值的图形区域,即图块的轮廓线就是其唯一的轮廓线,其判据的数学表达式为:
所谓的镂空图块是指:其外轮廓线积分值小于其轮廓边界线积分值的图形区域,其判据的数学表达式为:
具体方法如下:
(1)寻找镂空图块,其判据为当Nb-nb>0时则图块为镂空图块,其中Nb为图块所有边界的像素值,nb为图块外边界的像素值,如果Nb-nb>0则进入下一步,否则图块不为镂空图块则退出进程,并遍历其它图块以寻找镂空图块。直到遍历所有图块且没有镂空图块时退出;
(2)以外边界为边界以原图块的标记值来填充图块;
(3)以填充图块代替原镂空图块。
(4)返回第一步。
4.基于图块轮廓形态的谱聚类方法
通过对室内场景的分析,可以发现室内场景中许多人造物体的轮廓在立面上呈现矩形形状,同时人造物体的颜色随意性较大,因此仅以颜色特征对图块进行聚类是无法实现的,但是基于重力场环境下,立面物体通常需要其他物体的支撑,因此立面上相邻的人造物体在图像上往往呈现相同的矩形轮廓形态,如书架上摆放的图书、立面上砖墙等。同时根据透视原理矩形的图像通常出现在立面方向上,而很少能出现在水平方向上出现,如图7所示。
基于以上的分析,本发明提出基于轮廓形态的谱聚类方法,将立面上具有矩形特征的相邻图块进行聚类,进一步降低室内场景图像分析的维度。
具体方法如下:
(1)对聚类图像中的所有图块边缘轮廓进行Hough直线提取;
(2)在[0,180]角度区间范围,以4°为一区间,将[0,180]区间分为45个小区间,并统计场景图像中各角度区间中的直线段总长,并归一化后形成统计直方图;
(3)构造一个窗口函数wR(x),即在[0,4]、[84,96]以及[176,180]区间内设置采样窗口,如图8所示;
(4)将统计直方图与窗口函数wR(x)相乘,并将其结果进行求和得到直方图在[0,4]、[84,96]以及[176,180]区间内的能量E′H
(5)将整个统计直方图进行求和运算得EH
(6)根据公式将E'H除以EH,得曼哈顿方向强度SM
(7)当两相邻图块的曼哈顿方向强度SM≥0.75时,构建向量e(i)=(e1,e2,e3),其中,e1,e2,e3分别是,图块轮廓直线方向直方图在[0,4]、[84,96]以及[176,180]区间内的数值;
(8)求取其相邻超像素之间的Bhattacharyya系数值BR(i,j)为:
其中,
(9)当BR(i,j)≥0.9时图块聚类。
5.室外重力场视觉模糊分布密度函数分类方法
所谓室外重力场分布密度函数模型,主要是假设天空和地面图块将一直延伸至无穷远处,即接近图像视平线位置的函数模型。通过构建如下的重力场室外场景图像模糊分布密度函数,并以此分布密度函数初步分类室内场景谱聚类图块为天空、立面及地面。(注:对于室内空间来说天空的类别即对应于室内空间的天花板)
具体方法如下:
(1)设定图像的视平线的位置,如图9所示:
其中,视平线为过摄像机的光心并与地平面或水平面平行的直线,而图像中的水平线为过视平线与摄像机成像靶面的交点与地平面或水平面平行的直线如图10所示,其中直线OO’为成像靶面视平线所在的位置,需要指出的是由于摄像机视角的变化,其视平线的位置将会在图像成像靶面中上下移动,即视平线不一定在图像的中间位置。
(2)构造地面重力场视觉模糊分布密度函数G:
当HG≥HS时:令则得
当HG<HS时:G(x)=-S(x)
其中:n=1,2,3……N,N∈正整数,通常取n=1即可。
(3)构造天空重力场视觉模糊分布密度函数S:
当HG<HS时:令则得
当HG≥HS时:S(x)=-G(x)
其中:n=1,2,3……N,N∈正整数,通常取n=1即可。
(4)构造立面物体重力场视觉模糊分布密度函数V:
其中
(5)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天空模糊分布密度函数S以及立面物体模糊分布密度函数V,在(-HG,Hs)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:S代表天空、V代表立面、G代表地面。
(注:对于室内空间来说S天空的类别即对应于室内空间的天花板)
6.室内重力场视觉模糊分布密度函数方法
下面构建符合人类直观感受的重力场室内场景视觉认知模型,如图11所示,与室外的空间模型不同,人类在室内空间中的视线范围受到室内墙面的限制,因此天花板和地面图像不可能延伸到趋向无穷远的距离,即在成像靶面上它们图像几乎不可能出现在视平线的位置上或穿越视平线,其可能出现的极限位置通常与视平线之间有一定的间隔距离。因此对天花板进行推理的概率分布函数分布密度值从人类视场角最上延的最大值逐渐降低到人类视场角最下延,其在c点处的概率密度值为零;对地面推理的概率分布函数分布密度值从人类视场角最下延的最大值逐渐降低到人类视场角最上延,其在g点上的概率密度值为零;对立面物体推理的概率分布密度值从视平线上的最大值向上、下两个方向逐渐降低,直至人类视场角的最上与最下延,其分布密度值接近于零。需要指出的是本发明所构建的天花板和地面密度函数的概率密度可以小于零,其目的是用以实现对天花板、地面判断的否定。
如图12所示,图像的上延到直线cc’之间为天花板可能出现的区域,图像的下延到直线gg’为地面可能出现的区域,直线oo’为图像中视平线的位置。需要指出的是由于摄像机的视角的变化,其视平线的位置将会在图像的成像靶面中上下移动,也就是说,视平线不一定在图像的中间位置,同样直线cc’和直线gg’的位置也会因为摄像机的视角的变化而产生相应的变化。
(1)构造地面重力场视觉模糊分布密度函数G:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1。
(2)构造天花板重力场视觉模糊分布密度函数C:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1。
(3)构造立面物体重力场视觉模糊分布密度函数V:
(4)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天花板模糊分布密度函数C以及立面物体模糊分布密度函数V,在(-HG,Hs)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:C代表天花板、V代表立面、G代表地面。
7.室内空间中天花板、地面与立面的边界线预测估计
本发明继承了Hedau和Hoiem等人提出的“盒内假想方法”(Thinking Inside theBox)的思想。但与他们思想的最大不同是,在本发明的模型中并不试图将盒子简单的构建成立方体模型,因为事实上许多建筑物立面结构所支撑的空间并不都是立方体形状的,而室内空间与室外空间的最大不同是室内空间有人工的顶盖即天花板,相对与室外空间室内的地面也相对较为平整。因此,本发明构建的室内空间模型是有顶盖和底面的盒子。基于这样的模型室内场景图像中留下了更具普遍意义的透视投影信息,即根据透视投影原理,近距离的天花板和地面在摄像机成像靶面上留下较大的图像区域,而较远的天花板和地面则呈现较小的图像区域。并且地面和天花板的图像区域,分别从场景图像的上缘和下缘延伸到接近图像的视平线位置(如图11所示)。
基于以上的分析,本发明提出了一种寻找重力场室内场景视觉认知模型中室内空间中天花板、地面与立面的预测估计边界线,即直线cc’和直线gg’位置的方法。
具体方法如下:
(1)对室内初步分类图像中每行像素中的天花板像素的个数进行累加统计,得n个其中: 下标i代表像素的行号,上标c代表天花板像素;
(2)对室内初步分类图像中每行像素中地面像素的个数进行累加统计,得m个其中: 下标j代表像素的行号,上标g代表地面像素;
(3)令
(4)分别以μc和μg为均值计算标准差Sc和Sg,公式如下:
(5)直线cc’位置的确定,首先取中所有大于μc-1.96Sc组成新的集合并在此集合中寻找与视平线oo’距离dc最小的水平线作为天花板与立面边界的预测估计线cc’,如图14所示;
(6)直线cc’位置的确定,首先取中所有大于μg-1.96Sg组成新的集合并在此集合中寻找与视平线oo’距离dg最小的水平线作为天花板与立面边界的预测估计线gg’,如图14所示。
8.基于地面与天花板透视原理标注室内空间深度图生成方法
(1)基于地面的深度模型
该模型首先假设地面是水平连续延展且较为平整,视觉成像系统有明确的方向性,即图像上缘为3D空间的正上方,下缘为3D空间的正下方,基于小孔成像原理的视觉系统物理模型如图15所示。
地面深度信息与图像中地面像素位置的透视投影关系如下:
其中:H为摄像机距地面的高度,β为摄像机光轴与视平线的夹角,深度投影角α为视平线oo’与直线op的夹角,其取值范围为p’为地面上的p点在成像靶面上的投影,f为镜头焦距,h为成像靶面上的视平线到p’点的距离,则摄像机可感知的地面距离d取值范围为(H cot+∞)。
(2)基于地面的图像深度图
由地面深度与摄像机距地面的高度H和深度投影角α的关系式(34)知,当H为常数时,可以用α的值来表示地面在摄像机投影的各像素点深度,本发明将的取值映射到CIELAB色彩空间的的色环上,并将天空的颜色定义为色环处的颜色,如图16所示。
(3)基于天花板的图像深度图
对于室内空间的深度感知图的生成方法,首先本发明人提出天花板是一个与地面平行的水平面假设,并在此基础上将天花板的深度图标注方法采用上述相同基于地面的图像深度图的标注方法,对天花板的深度进行标注。室内场景中基于天花板和地面透视原理的室内空间深度图,如图17所示。
本发明与其它方法的比较
目前对室内场景图像进行空间识别的方法主要有:动态贝叶斯网络模型法(DBN)、基于”盒子模型”的结构化学习法(SL)以及几何推理法(GR)等。这些方法能够对一些类型的室内场景图像产生一定的三维空间识别率。
1.动态贝叶斯网络模型法(DBN)
Erick等人采用动态贝叶斯网络模型,以斯坦福大学校园的建筑物室内场景为训练集,通过反复机器学习获得了对建筑物室内空间识别的模型,并对由因特网上的谷歌图片(http://images.google.com)收索到44张分辨率相似的室内场景图片进行测试,该方法模型对地板边界的平均识别率为80%,对图像3D重构的平均准确率为66%。Erick等人在其文章中对其提出的方法产生的错误进行了分析,其主要原因在于该方法依赖图像中对灭点检测的准确性,当室内空间存在较多不规则物体时将影响其方法对空间中平行线灭点的检测,从而带来空间识别的错误。此外,当场景中出现弧形墙面时则该方法的错误率将会更大。
2.基于“盒子模型”的结构化学习法(SL)
Varsha等人基于Derek等人提出的“盒子模型”假设,引入了一种结构化的机器学习方法,通过对308张由网上获得的室内场景图像进行训练学习,其中随机抽取了204张图像用于训练,104张图像用于测试。该方法数据集图像空间识别情况是,其对室内空间平面的像素识别错误率在26.5%~21.2%之间;对室内空间中墙角识别的错误率为7.4%~6.3%。Varsha等人对其方法所产生的错误进行了分析,其主要原因也在于该方法依赖灭点检测的准确性。
3.几何推理法(GR)
David C.等人提出采用几何推理法来对室内场景图像进行空间识别,即通过提取室内场景图像中的线段集合,并通过对线段进行相对合理的推理解释,来重构建筑物的室内3D空间(如图2所示),该方法忽略了室内场景中障碍物的存在,比如:室内场景中的人体、家具等。从其推理模型中可以看出,该方法仅适合摄像机在平视或接近平视条件下的墙面与天花板及地面间有明确直线交界线且障碍物较少的室内场景空间。
David C.等人在实验中收集了54张室内场景图像,其实验中对室内空间的人工标定中忽略了场景中的障碍物,在此情况下其像素分类的平均正确率为81%,对图像3D重构的正确率约有70%。David C.等人在对实验中产出的错误进行了分析,当场景图像中的边界直线、拐角点等无法提取时将产生明显的错误。
采用本发明方法对在金陵科技学院采集的120张室内场景图像进行空间识别的实验结果如表1所示:
表1 基于重力场室内场景视觉认知模型的天花板、立面和地面的识别率
由于Erick、Varsha、David C.等人以及本发明实验中采用了不同的数据集,并且不同的方法对室内场景空间识别率的评价标准也不尽相同。因此,无法仅从实验数据上比较方法的优劣,所以本发明将从方法是否要监督学习、是否依赖灭点检测、对直线边界线检测的依赖程度、对空间拐角点检测依赖程度,以及能否适应摄像机视角的变化等方面进行定性的比较分析。
如表2所示本发明具有如下优势:
①从是否需要进行监督学习方面来看,本发明与几何推理法(GR)一样无需监督学习,而其它方法大多需要通过监督学习的方法来实现空间识别,因此实用性强;
②DBN、SL以及GR方法都对场景图像中的灭点检测、直线边界线检测以及空间拐角点检测有较强的依赖。因此,这些方法对于无法准确提取出灭点和直线边界线及拐角点的室内场景图像来说将产生较多错误。而本发明中没有涉及对室内场景图像的灭点检测、直线检测和空间拐角点的检测,因此本发明不依赖于图像中的灭点、直线及拐角点的检测,对于线性结构场景与非线性结构场景的空间识别率没有明显的不同,因此本发明的鲁棒性强;
③对于能否适应摄像机视角的变化这方面的评价,DBN和SL方法主要取决于其训练集中是否有足够多的不同视觉角度的图像,以及其监督学习的效果,因此不能确定其在不同视角情况下对空间识别的准确率。而对于GR方法来说,其构建的模型中仅考虑了平视或接近平视的视觉模型。因此,无法适应摄像机视角变化的情况。本发明从原理上就考虑到了摄像机视角的变化因素,因此可以通过相应的视平线移动变化以适应摄像机视觉角度的变化,从而产生较为稳定的空间识别效果,如图18所示。
基于上述优点本发明可以广泛应用于如机器人视觉室内空间导航、目标测量、目标追踪与定位等领域。
表2 本发明与其它方法的比较
本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

Claims (7)

1.一种类地重力场环境下室内场景单目视觉空间识别方法,其特征是它包括以下步骤:
首先,对图像进行基于像素色彩及空间位置的超像素图像分割,形成具有一定密度的超像素图像;
其次,基于人类视觉多尺度感知特性的色彩空间谱聚类方法将超像素图像进一步聚类,生成接近人类视觉色彩分类感知的图块图像,以降维超像素图像;
第三,对色彩分类图块进行基于轮廓形态谱聚类,将立面物体的图像聚类成大立面图块;
第四,采用室外重力场视觉模糊分布密度函数进行室内场景的初步空间分类,初步找出可能的天花板、立面及地面的空间区域;
第五,利用曼哈顿强度特性将具有强立面轮廓特征的图块归类成立面;
第六,基于室内场景透视原理对天花板与立面、地面与立面边界进行搜索;
第七,采用室内重力场视觉模糊分布密度函数进行室内场景图像空间识别;
第八,基于地面与天花板透视原理标注室内空间生成深度图;
所述的多尺度感知特性的色彩空间谱聚类方法是先采用简单线性迭代聚类方法即SLIC(Simple Linear Iterative Clustering)进行超像素聚类,它以像素的CIELAB色彩空间的L、a、b值及像素的x,y轴坐标构建5维空间,并定义了规范化的距离Ds,具体定义如下:
其中:Ck=[lk,ak,bk,xk,yk]T为聚类的中心;[li,ai,bi,xi,yi]T为图像像素点的5维空间坐标;N为图像的像素数;K为期望获得的超像素的数目;s为超像素中心栅格间距;Ds为色彩lab距离dlab和dxy基于s的规范化距离;m为可控的超像素密度因子;其次采用以下方法进行多尺度特性色彩空间谱聚类:
(1)将SLIC方法所产生的n个超像素作为无向权值图G的顶点V={v1,v2,…,vn};
(2)构建邻接矩阵,i=1,2…n;j=1,2…n,其中,n为超像素的个数;
(3)构建权值邻接矩阵,i=1,2…n;j=1,2…n;
其中权值W(i,j)为相邻两个超像素之间的规范化CIELAB颜色直方图Bhattacharyya系数进行度量计算,具体构建方法是将图像的色彩空间转换到CIELAB空间,并将L通道的取值范围划分为8级等分,a通道的取值范围划分为16等分,将b通道的取值范围划分成16个等级,其中将L通道取值范围划分为8级的目的是降低色彩亮度变化对权值的扰动,每个超像素在8×16×16=2048维度的空间计算值直方图为:
其中l=2048,则当Ei,j=1时
式中:h1(i)、h2(i)、hl(i)、hu(i)、hu(j)是超像素中像素点在CIELAB标准色彩空间中a通道、b通道、L通道中相应等级中的像素点个数所组成2048维的直方图向量;其中a通道的取值范围划分为16等分,将b通道的取值范围划分成16个等级,其中将L通道取值范围划分为8级;其下标为等级数,i,j为超像素图块的标号;
“W”表述为权值矩阵,其中权值W(i,j)为相邻两个超像素之间的规范化CIELAB颜色直方图Bhattacharyya系数进行度量计算得出;
“Rk”是矩阵论中的规范表达,表述k维实向量;
对于权值W(i,j)的取值通过增加一个基于Bhattacharyya系数的色彩距离的约束条件进行选取,选取条件为:
当W(i,j)≤0.71≈cos 45°时,则令W(i,j)=0;
增加此约束条件的目的是提高相邻超像素间色彩的相似性阈值以提高方法的干扰能力和鲁棒性;
(4)构建度矩阵,i=1,2…n;j=1,2…n;
(5)构建规范化Laplacian矩阵,采用Normalized-cut准则来计算规范化的Laplacian矩阵:Lsym=I-D-1/2WD-1/2 (9)
(6)计算Lsym进行特征值分解,并取前K个最小特征值所对应的特征向量,V1,V2,…,Vk;其中K=[0.1×n],即取n的10%作为图像聚类特征向量的维度,从而实现将超像素图像降维到接近10%以下的目的;
(7)将V1,V2,…,Vk排列组成Rn×k矩阵并将矩阵中的每个元素取绝对值得矩阵U;
(8)对于i=1,2…n,令yi∈Rk为矩阵U的第i行向量;
(9)对非零的yi∈Rk向量进行归一化,并用Bhattacharyya系数法进行聚类,其中Bhattacharyya距离的BU阈值为cos20°≈0.95,即当BU≥0.95时,超像素间进行聚类;
(10)采用以下方法对每个谱聚类图块进行聚类,生成接近人类视觉色彩分类感知的图块图像:
①构建颜色多尺度空间模型:
采用一个以a=0,b=0为圆心,Rm为半径的圆柱体将CIELAB色彩空间分割成两个部分:
对于在ab平面上投影的模长大于Rm的颜色向量,采用两个颜色向量在ab平面投影向量间的夹角和颜色向量在ab平面上投影的模长之差的绝对值作为颜色聚类的近似性测度,具体的数学表达如下:
其中:为两个颜色向量在ab平面投影向量,θT和ΔmT分别为两向量聚类夹角的阈值和模长之差的阈值,θT的取值范围为θT=5~20°,ΔmT的取值范围为ΔmT=15~40;
对于在ab平面上投影的模长小于Rm的颜色向量,则采用两个颜色向量在ab平面投影向量间的夹角,其表达式同(10)式,以及向量在L上的亮度差作为其颜色聚类的近似性测度,具体的数学表达如下:
ΔL=|La-Lb|≤ΔLT (12)
其中:ΔLT的取值范围为ΔLT=5~20;
②应用颜色多尺度空间模型进行图像聚类:
a.计算每个聚类图块平均色彩向量值,并将向量投影到ab平面上;
b.计算每个聚类图块平均色彩向量值投影在ab平面上向量的模长,并根据向量在ab平面上的模长将其归于不同的测度空间;
c.对相邻图块类采用式(10)进行向量间的夹角的计算;
d.以公式(10)(11)(12)为判据,将符合条件的图块进行聚类;
e.重复a~d步,直到收敛。
2.根据权利要求1所述的方法,其特征是为了提高重力场视觉模糊分布密度函数对天花板、地面和立面物体判断的准确度,需要对图块进行基于几何包含关系的聚类,以消除孤岛图块,所谓孤岛图块是指一个或多个图块被一个大图块完全包围的图块,几何包含关系的聚类方法能将孤岛图块聚类成完全包围该孤岛的大图块;图像中非镂空图块是指:其轮廓边界的线积分值等于其外轮廓线积分值的图形区域,即图块的轮廓线就是其唯一的轮廓线,其判据的数学表达式为:
积分符号下标“c”代表图块的外轮廓线积分,积分符号下标“ci”代表图块的所有轮廓的积分;
图像中镂空图块是指:其外轮廓线积分值小于其轮廓边界线积分值的图形区域,其判据的数学表达式为:
几何包含关系的聚类方法为:
(1)寻找镂空图块,其判据为当Nb-nb>0时则图块为镂空图块,其中Nb为图块所有边界的像素值,nb为图块外边界的像素值,如果Nb-nb>0则进入下一步,否则图块不为镂空图块则退出进程,并遍历其它图块以寻找镂空图块;直到遍历所有图块且没有镂空图块时退出;
(2)以外边界为边界以原图块的标记值来填充图块;
(3)以填充图块代替原镂空图块;
(4)返回第一步。
3.根据权利要求1所述的方法,其特征是所述的基于图块轮廓形态的谱聚类方法为:
(1)对聚类图像中的所有图块边缘轮廓进行Hough直线提取;
(2)在[0,180]角度区间范围,以4°为一区间,将[0,180]区间分为45个小区间,并统 计场景图像中各角度区间中的直线段总长,并归一化后形成统计直方图;
(3)构造一个窗口函数wR(x),即在[0,4]、[84,96]以及[176,180]区间内设置采样窗口;
(4)将统计直方图与窗口函数wR(x)相乘,并将其结果进行求和得到直方图在[0,4]、[84,96]以及[176,180]区间内的能量E′H
(5)将整个统计直方图进行求和运算得EH
(6)根据公式将E'H除以EH,得曼哈顿方向强度SM
(7)当两相邻图块的曼哈顿方向强度SM≥0.75时,构建向量e(i)=(e1,e2,e3),其中,e1,e2,e3分别是,图块轮廓直线方向直方图在[0,4]、[84,96]以及[176,180]区间内的数值;
(8)求取其相邻超像素之间的Bhattacharyya系数值BR(i,j)为:
其中,
e(j)是与e(i)有相同的定义,向量e(i)=(e1,e2,e3),其中,e1,e2,e3分别是,图块轮廓直线方向直方图在[0,4]、[84,96]以及[176,180]区间内的数值;
e(j)中的“j”的含义与e(i)中的“i”的含义是一样的,代表是图块的编号;
(9)当BR(i,j)≥0.9时图块聚类。
4.根据权利要求1所述的方法,其特征是室外重力场视觉模糊分布密度函数分类方法为:
(1)设定图像的视平线的位置;视平线为过摄像机的光心并与地平面或水平面平行的直 线,而图像中的水平线为过视平线与摄像机成像靶面的交点与地平面或水平面平行的直线,直线为成像靶面视平线所在的位置,需要指出的是由于摄像机视角的变化,其视平线的位置将会在图像成像靶面中上下移动,即视平线不一定在图像的中间位置;
(2)构造地面重力场视觉模糊分布密度函数G:
当HG≥HS时:令则得
当HG<HS时:G(x)=-S(x)
其中:n=1,2,3……N,N∈正整数,通常取n=1即可;
HG是图像的上端到图像视平线的距离,Hs是图像的下端到图像视平线的距离;
(3)构造天空重力场视觉模糊分布密度函数S:
当HG<HS时:令则得
当HG≥HS时:S(x)=-G(x)
其中:n=1,2,3……N,N∈正整数,通常取n=1即可;
(4)计算立面物体重力场视觉模糊分布密度函数V:
其中
(5)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天空模糊分布密度函数S以及立面物体模糊分布密度函数V,在(-HG,HS)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:S代表天空、V代表立面、G代表地面。
5.根据权利要求1所述的方法,其特征是室内重力场视觉模糊分布密度函数方法为:
(1)构造地面重力场视觉模糊分布密度函数G:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1;
hG为图像的下端到地面与立面的预测估计边界线gg’的距离;
(2)构造天花板重力场视觉模糊分布密度函数C:
则得
其中:n=1,2,3……N,N∈正整数,本发明中的实验取n=1;hc为图像的上端到天花板与立面预测估计边界线cc’;
(3)构造立面物体重力场视觉模糊分布密度函数V:
(4)对聚类图块中各像素在图像垂直方向上与地面模糊分布密度函数G、天花板模糊分布密度函数C以及立面物体模糊分布密度函数V,在(-HG,HS)范围内相乘并求其期望值,公式如下:
其中:ni为聚类图块在第i行的像素个数,rb为聚类图块的最下延,rt为图块的最上延,则图块的分类为:
其中:C代表天花板、V代表立面、G代表地面。
6.根据权利要求1所述的方法,其特征是室内空间中天花板、地面与立面的边界线预测估计方法:
(1)对室内初步分类图像中每行像素中的天花板像素的个数进行累加统计,得n个其中: 下标i代表像素的行号,上标c代表天花板像素;为图像中第i行中天花板像素的个数的累加统计量;
(2)对室内初步分类图像中每行像素中地面像素的个数进行累加统计,得m个其中: 下标j代表像素的行号,上标g代表地面像素;为图像中第j行中地面像素像素的个数的累加统计量;
(3)令
(4)分别以μc和μg为均值计算标准差Sc和Sg,公式如下:
(5)直线cc’位置的确定,首先取中所有大于μc-1.96Sc组成新的集合并在此集合中寻找与视平线oo’距离dc最小的水平线作为天花板与立面边界的预测估计线cc’;
(6)直线gg’位置的确定,首先取中所有大于μg-1.96Sg组成新的集合并在此集合中寻找与视平线oo’距离dg最小的水平线作为天花板与立面边界的预测估计线gg’。
7.根据权利要求1所述的方法,其特征是基于地面与天花板透视原理标注室内空间深度图生成方法包括
(1)构建基于地面的深度模型;
该模型首先假设地面是水平连续延展且较为平整,视觉成像系统有明确的方向性,即图像上缘为3D空间的正上方,下缘为3D空间的正下方;
地面深度信息与图像中地面像素位置的透视投影关系如下:
其中:H为摄像机距地面的高度,β为摄像机光轴与视平线的夹角,深度投影角α为视平线oo’与直线op的夹角,其取值范围为p’为地面上的p点在成像靶面上的投影,f为镜头焦距,h为成像靶面上的视平线到p’点的距离,则摄像机可感知的地面距离d取值范围为
(2)构建基于地面的图像深度图;
由地面深度与摄像机距地面的高度H和深度投影角α的关系式(34)知,当H为常数时,可以用α的值来表示地面在摄像机投影的各像素点深度,将的取值映射到CIELAB色彩空间的的色环上,并将天空的颜色定义为色环处的颜色;
(3)生成基于天花板的图像深度图,先假设天花板是一个与地面平行的水平面,并在此基础上将天花板的深度图标注方法采用上述相同基于地面的图像深度图的标注方法,对天花板的深度进行标注。
CN201410335080.6A 2014-05-19 2014-07-14 类地重力场环境下室内场景单目视觉空间识别方法 Active CN104077611B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410335080.6A CN104077611B (zh) 2014-07-14 2014-07-14 类地重力场环境下室内场景单目视觉空间识别方法
US14/684,431 US9390348B2 (en) 2014-05-19 2015-04-12 Method for categorizing objects in image
US14/684,428 US9471853B2 (en) 2014-05-19 2015-04-12 Method and apparatus for image processing
US14/684,434 US9626598B2 (en) 2014-05-19 2015-04-13 Method and apparatus for image processing
US14/684,433 US9805293B2 (en) 2014-05-19 2015-04-13 Method and apparatus for object recognition in image processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410335080.6A CN104077611B (zh) 2014-07-14 2014-07-14 类地重力场环境下室内场景单目视觉空间识别方法

Publications (2)

Publication Number Publication Date
CN104077611A CN104077611A (zh) 2014-10-01
CN104077611B true CN104077611B (zh) 2017-06-09

Family

ID=51598857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410335080.6A Active CN104077611B (zh) 2014-05-19 2014-07-14 类地重力场环境下室内场景单目视觉空间识别方法

Country Status (1)

Country Link
CN (1) CN104077611B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292234B (zh) * 2017-05-17 2020-06-30 南京邮电大学 一种基于信息边缘和多模态特征的室内场景布局估计方法
CN109767470B (zh) * 2019-01-07 2021-03-02 浙江商汤科技开发有限公司 一种跟踪系统初始化方法及终端设备
CN111339914B (zh) * 2020-02-24 2022-08-19 桂林理工大学 一种基于单张图片的室内天花板地面识别方法
CN113989376B (zh) * 2021-12-23 2022-04-26 贝壳技术有限公司 室内深度信息的获取方法、装置和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877143A (zh) * 2009-12-09 2010-11-03 中国科学院自动化研究所 一种二维图像组的三维场景重建方法
WO2012007382A1 (fr) * 2010-07-13 2012-01-19 Commissariat A L'energie Atomique Et Aux Energies Alternatives Procédé de détection d'une cible dans des images stéréoscopiques par apprentissage et classification statistique à partir d'une loi de probabilité
US8472699B2 (en) * 2006-11-22 2013-06-25 Board Of Trustees Of The Leland Stanford Junior University Arrangement and method for three-dimensional depth image construction
CN103247059A (zh) * 2013-05-27 2013-08-14 北京师范大学 一种基于整数小波与视觉特征的遥感图像感兴趣区检测方法
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法
CN103632167A (zh) * 2013-11-29 2014-03-12 金陵科技学院 类地重力场环境下单目视觉空间识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756325B2 (en) * 2005-06-20 2010-07-13 University Of Basel Estimating 3D shape and texture of a 3D object based on a 2D image of the 3D object

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8472699B2 (en) * 2006-11-22 2013-06-25 Board Of Trustees Of The Leland Stanford Junior University Arrangement and method for three-dimensional depth image construction
CN101877143A (zh) * 2009-12-09 2010-11-03 中国科学院自动化研究所 一种二维图像组的三维场景重建方法
WO2012007382A1 (fr) * 2010-07-13 2012-01-19 Commissariat A L'energie Atomique Et Aux Energies Alternatives Procédé de détection d'une cible dans des images stéréoscopiques par apprentissage et classification statistique à partir d'une loi de probabilité
CN103247059A (zh) * 2013-05-27 2013-08-14 北京师范大学 一种基于整数小波与视觉特征的遥感图像感兴趣区检测方法
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法
CN103632167A (zh) * 2013-11-29 2014-03-12 金陵科技学院 类地重力场环境下单目视觉空间识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张维泽.基于简单局部特征学习的物体检测方法.《计算机科学与技术》.2011, *

Also Published As

Publication number Publication date
CN104077611A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104715493B (zh) 一种运动人体姿态估计的方法
CN108805906A (zh) 一种基于深度图的运动障碍物检测及定位方法
CN104751146B (zh) 一种基于3d点云图像的室内人体检测方法
CN104063702B (zh) 一种基于遮挡修复和局部相似性匹配的三维步态识别方法
CN103632167B (zh) 类地重力场环境下单目视觉空间识别方法
CN105023014B (zh) 一种无人机巡检输电线路图像内的杆塔目标提取方法
Straub et al. A mixture of manhattan frames: Beyond the manhattan world
CN103198302B (zh) 一种基于双模态数据融合的道路检测方法
CN109949340A (zh) 基于OpenCV的目标尺度自适应跟踪方法
CN102708569B (zh) 基于svm模型的单目红外图像深度估计方法
CN104077611B (zh) 类地重力场环境下室内场景单目视觉空间识别方法
CN107392929B (zh) 一种基于人眼视觉模型的智能化目标检测及尺寸测量方法
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
CN103735269B (zh) 一种基于视频多目标跟踪的高度测量方法
CN106846411A (zh) 基于混合畸变模型的高精度摄像机标定装置
CN105574527A (zh) 一种基于局部特征学习的快速物体检测方法
CN106780560B (zh) 一种基于特征融合粒子滤波的仿生机器鱼视觉跟踪方法
CN105631852B (zh) 基于深度图像等高线的室内人体检测方法
CN106874884A (zh) 基于部位分割的人体再识别方法
CN106503170B (zh) 一种基于遮挡维度的图像库构建方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN110096961A (zh) 一种超像素级别的室内场景语义标注方法
CN109829476A (zh) 基于yolo的端到端三维物体检测方法
CN108088444A (zh) 基于三维激光的室内点云地图生成系统及方法
CN104077603B (zh) 类地重力场环境下室外场景单目视觉空间识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170310

Address after: 211100 Jiangsu province Nanjing city Jiangning high tech park, Tianyuan Road No. 1009

Applicant after: NANJING YUANJUE INFORMATION AND TECHNOLOGY Co.

Address before: No. 99 Jiangning Road, Nanjing District hirokage 211169 cities in Jiangsu Province

Applicant before: Jinling Institute of Technology

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221230

Address after: 271100 No. 001, Huiyuan Street, Laiwu District, Jinan, Shandong

Patentee after: SHANDONG TAIJIN PRECISION FORGING CO.,LTD.

Address before: 211100 Tianyuan East Road 1009, Jiangning High-tech Park, Nanjing, Jiangsu Province

Patentee before: NANJING YUANJUE INFORMATION AND TECHNOLOGY Co.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230406

Address after: Room 907-910, Building 8, Phase II, Fortune Plaza, 228 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu Province, 211100

Patentee after: NANJING YUANJUE INFORMATION AND TECHNOLOGY Co.

Address before: 271100 No. 001, Huiyuan Street, Laiwu District, Jinan, Shandong

Patentee before: SHANDONG TAIJIN PRECISION FORGING CO.,LTD.