一种基于RGB-D相机和立体声的视障人士障碍物预警眼镜
技术领域
本发明属于视障人士辅助技术、双目视觉技术、三维环境感知技术、立体声交互技术领域。本发明包含一种基于RGB-D相机和立体声的视障人士障碍物预警眼镜,涉及一种利用利用红外投射器投射不可见的近红外静态散斑,利用两个红外相机和一个RGB相机采集图像,小型处理器对采集的图像进行处理,获取深度图像,并对深度图像进行分块,最后将分块的深度信息,转化为立体声信号,最后利用骨传导耳机传递给视障人士进行辅助的障碍物预警眼镜。
背景技术
根据世界健康组织统计,全世界有2.85亿视觉障碍人士。视障人士损失了正常的视觉,对颜色、形状、距离、运动的理解都很困难,他们的生活在起居、出行等方面都受到了巨大的影响。
传统的视障人士辅助工具比如盲人手杖,视障人士需要反复移动手杖,才能获知面前的情况,既费时也费力。盲人手杖的探测距离有限,只能检测脚边的障碍物,也无法反映远处和空中的状况。导盲犬可以为视障人士提供帮助,但是导盲犬的训练和养护费用是高昂的,普通家庭难以承担。有些场合,导盲犬不能陪同盲人进入,比如公交车和火车站,因此导盲犬的辅助是有局限性的。仿生眼可以帮助视障人士恢复部分视觉,但仿生眼的植入需要手术,费用高昂。仿生眼只适用于视网膜色素变性或老年性黄斑变性导致失明的盲人。视觉神经损坏的视障人士无法通过植入仿生眼来恢复部分视觉。
电子式的视障辅助工具主要运用超声波技术、激光测距技术、双目视觉技术、激光散斑编码技术、激光雷达技术、毫米波雷达技术、热成像技术、全球定位系统(GPS)。基于超声波技术和激光测距技术的测距范围有限,只能实现单点测距,获取的信息量太少,且耗电多,设备笨重,只能实现报警功能,容易受环境干扰。基于双目视觉技术的辅助依赖于环境中特征点和纹理的丰富程度,对于一些纹理单一的场景失效,如室内的白墙,光滑地面等。双目视觉技术会受镜面反射等特殊情形的欺骗,从而造成漏判或者误判。基于激光散斑编码技术的辅助在室外失效,因为主动投射的结构光被阳光淹没,从而无法识别编码的散斑。激光散斑编码技术由于受到功率限制,存在最远距离,超过最远距离的物体无法对其测距。基于激光雷达技术的辅助成本高,通常采样率低,对灰尘、雾霾、雨水敏感,而且无法获取颜色和纹理信息。基于毫米波雷达的辅助分辨率低,信号处理过程难。基于热成像技术的辅助分辨率低,标定过程复杂,且只能检测人和动物等发热物体。基于GPS的辅助精度低,会有信号损失,不能在室内使用,而且无法获取局部动态的障碍物信息。
传统视障人士辅助的交互方式主要有语音提示、触觉震动。语义提示通常播报障碍物的距离和方向,需要一定的时间播放,造成延迟和事故风险,而且可传递的信息量少。触觉震动通过震动腰带或者震动背心为硬件,以震动来提示障碍物的方位,震动装置可以解决延迟的问题,但给视障人士带来负担,不同人的穿戴感受不同。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于RGB-D相机和立体声的视障人士障碍物预警眼镜。
本发明的目的是通过以下技术方案实现的:一种基于RGB-D相机和立体声的视障人士障碍物预警眼镜,所述眼镜包含眼镜本体、一个红外投射器,两个相同的红外相机,一个彩色相机,一个USB集线器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动模块,一个电池模块。所述一个红外投射器,两个相同的红外相机,一个彩色相机,一个USB集线器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动模块,一个电池模块均固定在镜架上,其中,两个相同的红外相机,一个彩色相机的光轴彼此平行,两个相同的红外相机分别固定在两个镜片的正上方,彩色相机和红外投射器均安装在两个红外相机之间;两个骨传导震动模位于两个镜脚中间偏后处,贴合盲人耳朵前方颅骨处;USB集线器和小型处理器嵌于一个镜脚内;骨传导耳机模块和电池模块嵌于另一个镜脚内;红外投射器、两个红外相机、彩色相机通过USB集线器与小型处理器相连,电池模块与小型处理器相连;两个骨传导震动模块均通过骨传导耳机模块与小型处理器相连。彩色相机和红外投射器位于两个红外相机之间。两个红外相机、彩色相机的光轴彼此平行。小型处理器控制红外投射器向前方三维场景投射不可见的静态近红外散斑,两个红外相机实时地采集经投射后的三维场景的两幅红外图像,彩色相机实时地采集三维场景的彩色图像。USB集线器将两幅红外图像和一幅彩色图像传给小型处理器。小型处理器对获取的两幅红外图像、一幅彩色图像进行处理,获取三维场景的深度图像。小型处理器对深度图像进行分块,并将分块后的深度信息转化为立体声信号,并传给骨传导耳机模块。骨传导耳机模块将立体声信号转为骨传导震动信号,传给两个骨传导震动模块。两个骨传导震动模块,传递骨传导震动信号给视障用户,实现障碍物预警。
进一步地,上述眼镜通过以下方法实现障碍物预警:
(1)对两个红外相机进行一次双目相机标定,获取两个红外相机的焦距fIR,左红外相机的主点位置(cIR-x,cIR-y),两个红外相机的基线距离BIR-IR。
(2)对彩色相机进行一次相机标定,获取彩色相机的焦距fcolor,主点位置(cCOLOR-x,cCOLOR-y)。
(3)对彩色相机和左侧的红外相机进行一次双目相机标定,获取左红外相机与彩色相机的基线距离BIR-COLOR。
(4)红外投射器实时地投射不可见的静态近红外散斑到三维场景中。
(5)两个红外相机采集三维场景的两张红外图像IRleft和IRright。
(6)彩色相机三维场景的彩色图像Color。
(7)USB集线器将两幅红外图像IRleft和IRright,一幅彩色图像Color传给小型处理器。
(8)小型处理器对两张红外图像IRleft和IRright提取Sobel边缘,获取两张Sobel边缘图像Sobelleft和Sobelright。
(9)以左Sobel边缘图像Sobelleft为基准,对两张Sobel边缘图像Sobelleft和Sobelright进行基于图像块的图像匹配,获取一系列匹配好的有效点E={e1,e2,e3,...,eM}。在左Sobel边缘图像Sobelleft中,每一个有效点为e=(u,v,d)T,u为横坐标像素值,v为纵坐标像素值,d为视差值。
(10)以匹配好的有效点E为基准,每三个有效点可构成一个视差平面,第i个视差平面的方程为d=aiu+biv+ci,其中ai,bi,ci为第i个视差平面的系数。
(11)在这些视差平面的基础上,将未匹配的像素点(u',v',d')T转换为匹配的有效点(u,v,d)T;具体为:该像素点(u',v',d')T到第i视差平面的距离为设能量函数为其中ε,σ为常数。对该像素点,遍历视差搜索范围所有的视差值d'={d'min,...,d'max},求出使得能量函数Energy(d')最小的视差值,当成该像素点的视差值d。另外,u=u',v=v'。
(12)遍历所有未匹配的像素点,获取每个未匹配的像素点的视差值,得到以左红外相机为基准的视差图像Disparityleft。
(13)根据两个红外相机的焦距fIR和基线距离BIR-IR,遍历视差图像中的每一点(u,v,d),其深度值为因此深度图像Depthleft中每一点对应为(u,v,depth),从而获得左红外相机为基准的深度图像Depthleft。
(14)利用深度图像Depthleft和彩色图像Color,两个红外相机的焦距fIR,左红外相机的主点位置(cIR-x,cIR-y),彩色相机的焦距fcolor,主点位置(cCOLOR-x,cCOLOR-y),以及左红外相机和彩色相机的基线距离BIR-COLOR,可对深度图像和彩色图像进行对齐,获取彩色相机视场的深度图像Depthcolor。
(15)将彩色相机视场的深度图像Depthcolor从左到右分成K块,计算每一块深度图像DepthK的平均深度depthK。(K的取值一般在2至10之间)
(16)用不同音色的乐器的合奏来表示K块深度图像DepthK:不同块的深度图像DepthK用不同音色的乐器发声。乐器声音的响度Volume与每一块图像的平均深度depthK成反比,即:障碍物越近,平均深度depthK越小,响度Volume越大;障碍物越远,平均深度depthK越大,响度Volume越小。每个方向的乐器声都为立体声。乐器可选钢琴、小提琴、锣、小号、木琴等有特别音色并悦耳的。
(17)小型处理器将立体声信号传给骨传导耳机模块。
(18)骨传导耳机模块将立体声信号转为骨传导震动信号。
(19)骨传导震动模块将骨传导震动信号传递给视障用户。
本方法相比以往的视障人士辅助方法的优势主要在于:
1、环境适用性。由于使用红外投射器和两个红外相机,该方法在室内、室外环境都可以兼容使用。在室内时,红外投射器投射的静态近红外光斑给三维场景增加了纹理,有利于获取稠密的深度图像。在室外时,阳光的近红外部分和三维场景结合,有利于获取稠密的深度图像。稠密的深度图像可以保证分块深度的准确性和辅助交互的体验效果。
2、白天黑夜适用性。由于使用红外投射器和两个红外相机,该方法在白天、黑夜都可以兼容使用。在白天时,红外投射器投射的静态近红外光斑和日光中的近红外成分都可以给三维场景增加纹理,有利于稠密的深度图像。在黑夜时,红外投射器投射的静态近红外光斑给近处三维场景增加纹理,也可以获取近处三维场景的深度图像。该方法在白天黑夜都可以获取可靠的深度图像,从而保证分块深度的准确性和辅助交互的体验效果。
3、可检测空中的障碍物。传统的盲人手杖只能探测脚边的路况,不能照顾前方空中的情况,该方法可以预警空中的障碍物,从而防止视障用户碰撞空中的树枝或门梁等物体。
4、不占用双耳。本方法采用骨传导耳机传递信号给视障用户,不妨碍用户听取外界的声音。视障人士大多都依赖外界的声音来进行一些判读,如根据车流声音判断马路的朝向等。
5、不占用双手。本方法的辅助装置可穿戴,小型处理器便携,可以放在口袋或者小包里,既不会给视障带来很大的负担,也无需视障人士用手拿辅助工具。
6、不会烦扰用户。本方法的立体声交互方式,使用悦耳的乐器发声,不会给视障用户造成烦扰,让视障用户在使用时听着悦耳的音乐就能避障通行。
7、反馈充分的信息量。相比语义式的语音播报,立体声的交互反馈利用不同响度,不同音色的乐器表示障碍物的远近,可以同时地、充分地传递前方不同方向的路况,预警障碍物的存在。
8、易学性和易理解性。相比复杂形式的声音编码,本发明中立体声的交互基于深度图的分块,分块处理后的深度信息不会非常冗杂,视障用户可以迅速学习并理解立体声信号的含义,并根据立体声信号避开障碍物。
9、及时的反馈。相比语义式的语音播报,立体声的交互反馈是及时的,没有延迟。从而视障人士可以及时的避开障碍物,保证了该方法的安全性。
10、对近处的障碍物有很好的预警作用。当靠近障碍物时,对应方向的平均深度小,因此对应乐器的响度大,可以帮助视障用户很好的预知障碍物的迫近,从而避开紧急的障碍物。
11、可检测到细小的障碍物。当出现细小障碍物时,对应方向的平均深度有变化,因此对应乐器的响度大,可以帮助视障用户很好的预知细小障碍物的存在,从而避免细小的障碍物。
附图说明
图1为视障人士障碍物预警系统的模块连接示意图;
图2为视障人士障碍物预警系统的结构示意图;
图3为彩色图像Color与彩色相机视场的深度图像Depthcolor,深度图像用伪彩色表示,颜色越蓝,深度越大,颜色越红,深度越小。
图4为K块深度图像DepthK,每一块的颜色表示每一块深度图像DepthK的平均深度depthK,平均深度越大,颜色越蓝,平均深度越近,颜色越红。
图5为乐器立体声合奏表示障碍物的示意图。
具体实施方式
如同2所示,一种基于RGB-D相机和立体声的视障人士障碍物预警眼镜,所述眼镜包含眼镜本体、一个红外投射器,两个相同的红外相机,一个彩色相机,一个USB集线器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动模块,一个电池模块。所述一个红外投射器,两个相同的红外相机,一个彩色相机,一个USB集线器,一个小型处理器,一个骨传导耳机模块,两个骨传导震动模块,一个电池模块均固定在镜架上,其中,两个相同的红外相机,一个彩色相机的光轴彼此平行,两个相同的红外相机分别固定在两个镜片的正上方,彩色相机和红外投射器均安装在两个红外相机之间;两个骨传导震动模位于两个镜脚中间偏后处,贴合盲人耳朵前方颅骨处;USB集线器和小型处理器嵌于一个镜脚内;骨传导耳机模块和电池模块嵌于另一个镜脚内;
如图1所示,红外投射器、两个红外相机、彩色相机通过USB集线器与小型处理器相连,电池模块与小型处理器相连;两个骨传导震动模块均通过骨传导耳机模块与小型处理器相连。彩色相机和红外投射器位于两个红外相机之间。小型处理器控制红外投射器向前方三维场景投射不可见的静态近红外散斑,两个红外相机实时地采集经投射后的三维场景的两幅红外图像,彩色相机实时地采集三维场景的彩色图像。USB集线器将两幅红外图像和一幅彩色图像传给小型处理器。小型处理器对获取的两幅红外图像、一幅彩色图像进行处理,获取三维场景的深度图像。小型处理器对深度图像进行分块,并将分块后的深度信息转化为立体声信号,并传给骨传导耳机模块。骨传导耳机模块将立体声信号转为骨传导震动信号,传给两个骨传导震动模块。两个骨传导震动模块,传递骨传导震动信号给视障用户,实现障碍物预警。
上述系统的预警方法包括以下步骤:
(1)对两个红外相机进行一次双目相机标定,获取两个红外相机的焦距fIR,左红外相机的主点位置(cIR-x,cIR-y),两个红外相机的基线距离BIR-IR。
(2)对彩色相机进行一次相机标定,获取彩色相机的焦距fcolor,主点位置(cCOLOR-x,cCOLOR-y)。
(3)对彩色相机和左侧的红外相机进行一次双目相机标定,获取左红外相机与彩色相机的基线距离BIR-COLOR。
(4)红外投射器实时地投射不可见的静态近红外散斑到三维场景中。
(5)两个红外相机采集三维场景的两张红外图像IRleft和IRright。
(6)彩色相机三维场景的彩色图像Color。
(7)USB集线器将两幅红外图像IRleft和IRright,一幅彩色图像Color传给小型处理器。
(8)小型处理器对两张红外图像IRleft和IRright提取Sobel边缘,获取两张Sobel边缘图像Sobelleft和Sobelright。
(9)以左Sobel边缘图像Sobelleft为基准,对两张Sobel边缘图像Sobelleft和Sobelright进行基于图像块的图像匹配,获取一系列匹配好的有效点E={e1,e2,e3,...,eM}。在左Sobel边缘图像Sobelleft中,每一个有效点为e=(u,v,d)T,u为横坐标像素值,v为纵坐标像素值,d为视差值。
(10)以匹配好的有效点E为基准,每三个有效点可构成一个视差平面,第i个视差平面的方程为d=aiu+biv+ci,其中ai,bi,ci为第i个视差平面的系数。
(11)在这些视差平面的基础上,将未匹配的像素点(u',v',d')T转换为匹配的有效点(u,v,d)T;具体为:该像素点(u',v',d')T到第i视差平面的距离为设能量函数为其中ε,σ为常数。对该像素点,遍历视差搜索范围所有的视差值d'={d'min,...,d'max},求出使得能量函数Energy(d')最小的视差值,当成该像素点的视差值d。另外,u=u',v=v'。
(12)遍历所有未匹配的像素点,获取每个未匹配的像素点的视差值,得到以左红外相机为基准的视差图像Disparityleft。
(13)根据两个红外相机的焦距fIR和基线距离BIR-IR,遍历视差图像中的每一点(u,v,d),其深度值为因此深度图像Depthleft中每一点对应为(u,v,depth),从而获得左红外相机为基准的深度图像Depthleft。
(14)利用深度图像Depthleft和彩色图像Color,两个红外相机的焦距fIR,左红外相机的主点位置(cIR-x,cIR-y),彩色相机的焦距fcolor,主点位置(cCOLOR-x,cCOLOR-y),以及左红外相机和彩色相机的基线距离BIR-COLOR,可对深度图像和彩色图像进行对齐,获取彩色相机视场的深度图像Depthcolor。
(15)将彩色相机视场的深度图像Depthcolor从左到右分成K块,计算每一块深度图像DepthK的平均深度depthK。(K的取值一般在2至10之间)
(16)用不同音色的乐器的合奏来表示K块深度图像DepthK:不同块的深度图像DepthK用不同音色的乐器发声。乐器声音的响度Volume与每一块图像的平均深度depthK成反比,即:障碍物越近,平均深度depthK越小,响度Volume越大;障碍物越远,平均深度depthK越大,响度Volume越小。每个方向的乐器声都为立体声。乐器可选钢琴、小提琴、锣、小号、木琴等有特别音色并悦耳的。
(17)小型处理器将立体声信号传给骨传导耳机模块。
(18)骨传导耳机模块将立体声信号转为骨传导震动信号。
(19)骨传导震动模块将骨传导震动信号传递给视障用户。