CN105686936A - 一种基于rgb-ir相机的声音编码交互系统 - Google Patents

一种基于rgb-ir相机的声音编码交互系统 Download PDF

Info

Publication number
CN105686936A
CN105686936A CN201610018944.0A CN201610018944A CN105686936A CN 105686936 A CN105686936 A CN 105686936A CN 201610018944 A CN201610018944 A CN 201610018944A CN 105686936 A CN105686936 A CN 105686936A
Authority
CN
China
Prior art keywords
depth
rgb
width
camera
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610018944.0A
Other languages
English (en)
Other versions
CN105686936B (zh
Inventor
杨恺伦
汪凯巍
程瑞琦
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610018944.0A priority Critical patent/CN105686936B/zh
Publication of CN105686936A publication Critical patent/CN105686936A/zh
Application granted granted Critical
Publication of CN105686936B publication Critical patent/CN105686936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F9/00Methods or devices for treatment of the eyes; Devices for putting-in contact lenses; Devices to correct squinting; Apparatus to guide the blind; Protective devices for the eyes, carried on the body or in the hand
    • A61F9/08Devices or methods enabling eye-patients to replace direct visual perception by another kind of perception
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • A61H2003/063Walking aids for blind persons with electronic detecting or guiding means with tactile perception

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Vascular Medicine (AREA)
  • Biomedical Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Ophthalmology & Optometry (AREA)
  • Epidemiology (AREA)
  • Pain & Pain Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本发明以辅助视觉障碍人士对外界场景的理解为目的,提供一种基于RGB‐IR相机的声音编码交互系统,该系统通过实时获取两台RGB‐IR相机的RGB彩色图像和IR红外图像,在传统双目视觉的基础上结合红外激光笔,实时获得三维深度信息,再将三维图像转化为声音编码,通过耳机传输给使用者,使视觉障碍人士可以通过听觉感受到场景中的物体分布和方位。

Description

一种基于RGB-IR相机的声音编码交互系统
技术领域
本发明属于三维场景检测、双目视觉、视觉障碍人群辅助技术、声音编码技术、人机交互领域。本发明涉及一种利用RGB‐IR相机采集视频图像,转化为声音编码的交互系统。
背景技术
视觉是人类最重要的感觉,人类有60%‐80%的信息来自视觉。视觉在人类的所有感觉中占据支配地位,是思维的一种最基本的工具。损失正常视觉的视觉障碍人士,对于形状、色彩、运动的理解都很困难,因此他们的生活在起居、出行等方面都受到巨大的影响。
对于缺损视觉感知的视觉障碍人群,简单的盲杖只能提供单一的辅助功能,探测距离有限,无法提供充分的辅助。导盲犬和仿生眼可为视觉缺损的人群提供帮助,但导盲犬的训练和养护费用普通家庭难以承担;仿生眼的植入需要进行手术,造价昂贵,且只能针对视网膜色素变性或老年性黄斑变性导致失明的人群。
传统电子式的视障辅助工具主要包括超声波辅助技术、激光测距辅助、双目视觉辅助技术、主动光深度相机辅助技术。
基于超声波和激光测距的辅助技术的测距范围有限,只能实现单点测距,探测的三维信息有限,只具有报警功能,并且容易误判、漏判。
基于传统双目视觉的辅助技术可以提供范围更大的三维信息,但也存在一些不足。传统双目视觉的三维信息获取的核心技术在于对两幅RGB图像进行图像匹配,局部匹配的方法只能获得纹理显著、特征明显处的深度,因此只能获取稀疏的三维信息,不充分的深度信息容易造成三维探测时的误检测和漏检测,使得后续辅助算法并不鲁棒和可靠;全局匹配的方法可以获得深度稠密但并不完全精确的三维图像,匹配算法复杂,计算量大,算法难以实时化,容易造成辅助时的延时。
基于主动光深度相机的辅助技术可以实时的获取稠密、精确的深度图像,但在室外受日光影响不能正常工作,使得辅助技术只能局限于室内。并且主动光的深度相机存在最远距离,超过最远距离的路况无法探测。
传统视觉障碍人士辅助技术的人机交互方式主要有语音提示、触觉震动的方法。语音提示通常播报障碍物的距离和方向,由于语音提示需要时间,会产生延时,造成事故。触觉震动通常以震动腰带或者震动背心为实现硬件,以震动来提示障碍物的方位,震动装置虽然可以免除延时的问题,但给视觉障碍人士带来负担,不同人的穿戴感受有差别。
最近RGB‐IR的CCD/CMOS芯片和声音编码技术的发展,为视觉障碍人群的辅助技术提供了新思路。RGB‐IR相机可同时获得一副RGB彩色图像和IR红外图像。采用两个RGB‐IR相机,和一支红外激光笔,在双目立体视觉的基础上,可获取实时、可靠、全面的深度图像。结合RGB彩色信息、IR红外信息和深度三维信息,可以对整个视场的场景进行充分的识别和解析。视觉障碍人士可以利用红外激光笔,对感兴趣区域的深度加以确认,增加了视觉障碍人士和视觉辅助装置的交互,提高了使用体验。利用声音编码技术的交互方式可为视觉障碍人士提供及时、快速、完整的场景信息,能够将充足的深度信息转化为声音编码传递给使用者,信息损失少,可以很好满足视觉障碍人士对辅助工具的要求。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于RGB‐IR相机的声音编码交互系统。
本发明的目的是通过以下技术方案实现的:一种基于RGB‐IR相机的声音编码交互系统,所述系统包括两个RGB‐IR相机、深度获取模块、声音编码模块、声音输出模块;两个RGB‐IR相机分别与深度获取模块相连,深度获取模块通过声音编码模块与声音输出模块相连;所述两个RGB‐IR相机光轴方向平行,竖直高度一致,水平间距为B(如图1所示);
两个RGB‐IR相机均用于采集RGB彩色视频流和IR红外视频流,获得两幅RGB彩色视频流和两幅IR红外视频流;
所述深度获取模块用于获取两幅RGB彩色视频流和两幅IR红外视频流,对两幅RGB彩色视频流进行双目立体匹配,获取初始的稀疏深度图。对两幅IR红外视频流进行特征点匹配(特征点匹配为本领域公知常识),获取这些区域特征点的置信度高的精确深度图,。并利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图中进行扩展,从而获取更为稠密、精确的深度图像。
此外,深度获取模块还用于根据RGB‐IR相机的内参数,将更为稠密、精确的深度图像进行三维转换,使之与RGB‐IR相机的三维坐标一致,获得三维点云;并对三维点云的立方区域进行分块,获得N个长方体区块,使得与RGB‐IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。
所述声音编码模块用于对点云分块结果的每层中的各个长方体区块进行扫描,计算每个长方体区块的平均坐标根据这一层中各个长方体区块的平均坐标同时输出各个立体声模拟信号,其中,立体声模拟信号的声场水平距离通过表示;立体声模拟信号的频率与成线性关系;各层立体声模拟信号按照从上往下的顺序依次输出。
声音输出模块用于根据立体声模拟信号,依次输出每一层声音信号。
进一步地,所述深度获取模块对两幅RGB彩色视频流进行双目立体匹配,获取初始的稀疏深度图的方法如下:
a、构造一个窗口,类似于卷积核;
b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I,获得窗口覆盖区域内的所有像素点(u,v);
c、用窗口覆盖另一幅RGB彩色视频流中的一个区域II,筛选出窗口覆盖区域的像素点(u',v'),使得该区域的SAD值最小;所述SAD值通过以下方式计算:
SAD(u,v)=Sum{|I(u,v)-II(u',v')|},Sum表示该窗口块中的所有灰度绝对值差的累积。
d、计算各个对应点的视差d=|u'-u|,由深度计算公式,可得该点的深度为z=f×B/d,即该点到相机主平面的距离,其中f为焦距,B为两相机的水平间距。
e、对整幅图像进行一次循环遍历,计算每一像素点的视差值d和深度z,即可获知当前的初始深度图。
进一步地,所述深度获取模块利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图中进行扩展,可获取更为稠密、精确的深度图像。具体为:
a、以最小的圆形框,框住两幅IR红外视频流的特征点区域;
b、对圆形框的区域进行遍历,计算一个非特征点上下左右四个方向到最近的三个的特征点的距离,以这三个特征点的深度对该非特征点的深度进行加权插值。插值的权值与它们之间的颜色与距离差别有关系。插值的权值为
e = exp ( - ( x - x 0 ) 2 + ( y - y 0 ) 2 2 * σ d ) * exp ( - ( r - r 0 ) 2 + ( g - g 0 ) 2 + ( b - b 0 ) 2 2 * σ c ) , 其中(x-x0)2+(y-y0)2为该非特征点到一个特征点的距离平方,对应的(r-r0)2+(g-g0)2+(b-b0)2为该非特征点与一个特征点的颜色分量的差别的平方,σd与σc分别为距离项和颜色项的权值;
c、对超过搜索距离h的点,则跳出,不对该点进行深度修正;
d、对圆形框的区域遍历执行b、c两步后,对深度图像进行一次斑点滤波,完成当前场景区域的深度扩展,即获得更为稠密、精确的深度图像。
进一步地,所述深度获取模块通过以下方法得到三维点云:
首先对两个RGB‐IR相机进行相机标定,获得相机的内参数,包括在x,y两个轴上的焦距fx,fy和相机的光圈中心cx,cy
像素点(u,v)在其中一个相机获得的深度图像中的深度为z,则可由
x=(u-cx)×z/fx
y=(v-cy)×z/fy
求得该像素点在该相机坐标系下的三维坐标(x,y,z)。结合该相机采集的彩色图像,可得该像素的点云坐标(x,y,z,r,g,b)。
然后对整幅深度图像进行一次循环遍历,便可得到当前场景的三维点云。
进一步地,所述深度获取模块对两幅IR红外视频流的特征点匹配方法如下:
a.对两幅IR红外视频流分别提取图像特征关键点(如尺度不变特征点),提取训练图像描述符;
b.创建快速最近邻逼近搜索的描述符匹配对象;
c.通过快速最近邻逼近搜索,对两幅IR红外视频流中的特征关键点进行匹配;
d.计算两幅IR红外视频流中的每一对特征关键点的匹配距离L;
e.在匹配好的特征关键点中,剔除匹配距离L超出阈值L0的错误匹配点;
f.完成两幅红外图像的特征点匹配。
本发明的有益效果在于:
a、速度快:由于不需要采用全局匹配算法获取稠密的深度信息,只需要进行一次简单的局部块匹配先获取一张稀疏的初始深度图,再在红外激光笔的帮助下,将深度信息延拓,获取更稠密、准确的深度图。
b、深度准确:采用红外激光笔,使用者用红外激光笔在场景中进行涂画,可RGB‐IR相机的中的IR红外分量部分捕捉到使用者感兴趣的区域,通过特征点匹配即可计算出感兴趣区域的精确深度。利用彩色图像,将感兴趣区域的精确深度进行延展,可获得相比传统双目视觉更精确的深度图像。
c、算法容易实现:由于不需要根据深度图进行障碍物和地面检测,而是直接将深度图转化为三维点云,进而通过声音编码传递给使用者。因此无需进行复杂、稳健的障碍物、地面检测算法的设计,相当于直接让使用者听到丰富的场景信息。
整个方法中只有一个简单的块匹配算法,一个深度扩展算法和一个声音编码方法,易于实现。
d、使用者可以和设备进行交互:使用者可以利用红外激光笔,对自己感兴趣区域进行选择,从而增加该区域深度信息的置信度。而传统的辅助设备,使用者得到的是整个视场的处理结果,没有自己选择特定区域的可能。
e、信息损失少:本方法直接将获取的深度信息转化为声音编码传送给使用者,让使用者自己通过声音来理解场景和判别路况,信息损失少。而传统辅助方法先通过障碍物或地面的检测算法,再将识别结果通过声音提示或震动传递给使用者,往往浪费了很多信息。
f、成本低:本方法只需两个常规的RGB‐IR相机和一只没有安全隐患的常规红外激光笔,和一台便携的支持RGB‐IR相机的处理器即可。硬件系统的各个部分可以实现通用化和自主组合,因此成本低廉。
g、使用感受逐渐提升:使用者在使用本方法所述的交互方式一段时间后,对不同场景对应的声音会逐渐形成记忆,听到一种声音就要能对应到一种特殊场景。这些储存的知识帮助使用者在此后交互的时候形成条件反射的效果,因此使用者对音频的反应加快,从而可以提高音频的播放速度,进而在交互的相同的时间内可以获取更多的信息,提升使用感受。
附图说明
图1两个RGB‐IR相机及其位置关系示意图;
图2流程图;
图3模块连接示意图;
图4点云分块图。
具体实现方式
如图1和3所示,本发明一种基于RGB‐IR相机的声音编码交互系统,包括两个RGB‐IR相机、深度获取模块、声音编码模块、声音输出模块;两个RGB‐IR相机分别与深度获取模块相连,深度获取模块通过声音编码模块与声音输出模块相连;所述两个RGB‐IR相机光轴方向平行,竖直高度一致,水平间距为B,本系统以辅助视觉障碍人士对外界场景的理解为目的,通过实时获取两台RGB‐IR相机的RGB彩色图像和IR红外图像,在传统双目视觉的基础上结合红外激光笔,实时获得三维深度信息,再将三维图像转化为声音编码,通过耳机传输给使用者,使视觉障碍人士可以通过听觉感受到场景中的物体分布和方位。具体包括以下步骤:
1.视觉障碍人士使用一支红外激光笔,对环境中的感兴趣区域进行涂画,给三维环境中增加红外特征点(如图3所示)。
2.两个RGB‐IR相机均采集RGB彩色视频流和IR红外视频流,获得两幅RGB彩色视频流和两幅IR红外视频流。
3.深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流,对两幅RGB彩色视频流进行双目立体匹配,即可获取初始的稀疏深度图。具体为:
a、构造一个窗口,类似于卷积核;
b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I,获得窗口覆盖区域内的所有像素点(u,v);
c、用窗口覆盖另一幅RGB彩色视频流中的一个区域II,筛选出窗口覆盖区域的像素点(u',v'),使得该区域的SAD值最小;所述SAD值通过以下方式计算:SAD(u,v)=Sum{|I(u,v)-II(u',v')|},Sum表示该窗口块中的所有灰度绝对值差的累积。
d、计算各个对应点的视差d=|u'-u|,由深度计算公式,可得该点的深度为z=f×B/d,即该点到相机主平面的距离,其中f为焦距,B为两相机的水平间距。
e、对整幅图像进行一次循环遍历,计算每一像素点的视差值d和深度z,即可获知当前的初始深度图。
4.深度获取模块对两幅IR红外视频流进行特征点匹配,即可获取这些区域特征点的置信度高的精确深度图,(特征点匹配为本领域公知常识,可参见快速最近邻逼近搜索函数库,http://www.cs.ubc.ca/research/flann/,SIFT特征”Objectrecognitionfromlocalscale‐invariantfeatures”。),具体如下:
对两幅IR红外视频流进行特征点匹配的方法如下:
a.对两幅IR红外视频流分别提取图像特征关键点(如尺度不变特征点),提取训练图像描述符;
b.创建快速最近邻逼近搜索的描述符匹配对象;
c.通过快速最近邻逼近搜索,对两幅IR红外视频流中的特征关键点进行匹配;
d.计算两幅IR红外视频流中的每一对特征关键点的匹配距离L;
e.在匹配好的特征关键点中,剔除匹配距离L超出阈值L0的错误匹配点;其中,L0一般是最小匹配距离Lmin的5‐10倍
f.完成两幅红外图像的特征点匹配。
5.深度获取模块利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图中进行扩展,可获取更为稠密、精确的深度图像。具体为:
a、以最小的圆形框,框住两幅IR红外视频流的特征点区域;
b、对圆形框的区域进行遍历,计算一个非特征点上下左右四个方向到最近的三个的特征点的距离,以这三个特征点的深度对该非特征点的深度进行加权插值。插值的权值与它们之间的颜色与距离差别有关系。插值的权值为 e = exp ( - ( x - x 0 ) 2 + ( y - y 0 ) 2 2 * σ d ) * exp ( - ( r - r 0 ) 2 + ( g - g 0 ) 2 + ( b - b 0 ) 2 2 * σ c ) ,
其中(x-x0)2+(y-y0)2为该非特征点到一个特征点的距离平方,对应的(r-r0)2+(g-g0)2+(b-b0)2为该非特征点与一个特征点的颜色分量的差别的平方,σd与σc分别为距离项和颜色项的权值;
c、对超过搜索距离h(一般为5‐20像素)的点,则跳出,不对该点进行深度修正;
d、对圆形框的区域遍历执行b、c两步后,对深度图像进行一次斑点滤波,完成当前场景区域的深度扩展,即获得更为稠密、精确的深度图像。
6.根据RGB‐IR相机的内参数,将步骤5获得的深度图像进行三维转换,使之与
RGB‐IR相机的三维坐标一致,获得三维点云,具体为:
首先对两个RGB‐IR相机进行相机标定,获得相机的内参数,包括在x,y两个轴上的焦距fx,fy和相机的光圈中心cx,cy
像素点(u,v)在其中一个相机获得的深度图像中的深度为z,则可由
x=(u-cx)×z/fx
y=(v-cy)×z/fy
求得该像素点在该相机坐标系下的三维坐标(x,y,z)。结合该相机采集的彩色图像,可得该像素的点云坐标(x,y,z,r,g,b)。
对整幅深度图像进行一次循环遍历,便可得到当前场景的三维点云。
7.将步骤6获得的三维点云的立方区域进行分块,获得N个长方体区块,使得与RGB‐IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。
8.从点云分块结果最上一层开始,对每层中的各个长方体区块进行扫描。计算每个长方体区块的平均坐标根据这一层中各个长方体区块的平均坐标同时输出各个立体声模拟信号,其中,立体声模拟信号的声场水平距离通过表示;立体声模拟信号的频率与成线性关系;
9.声音输出模块根据立体声模拟信号,依次输出每一层声音信号。
10.耳机将声音信号传输给视觉障碍人士,视觉障碍人士根据声音信号认知三维环境,完成一次交互。

Claims (5)

1.一种基于RGB‐IR相机的声音编码交互系统,其特征在于,所述系统包括两个RGB‐IR相机、深度获取模块、声音编码模块、声音输出模块;两个RGB‐IR相机分别与深度获取模块相连,深度获取模块通过声音编码模块与声音输出模块相连;所述两个RGB‐IR相机光轴方向平行,竖直高度一致,水平间距为B(如图1所示);
两个RGB‐IR相机均用于采集RGB彩色视频流和IR红外视频流,获得两幅RGB彩色视频流和两幅IR红外视频流;
所述深度获取模块用于获取两幅RGB彩色视频流和两幅IR红外视频流,对两幅RGB彩色视频流进行双目立体匹配,获取初始的稀疏深度图。对两幅IR红外视频流进行特征点匹配,获取这些区域特征点的置信度高的精确深度图,。并利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图中进行扩展,从而获取更为稠密、精确的深度图像。
此外,深度获取模块还用于根据RGB‐IR相机的内参数,将更为稠密、精确的深度图像进行三维转换,使之与RGB‐IR相机的三维坐标一致,获得三维点云;并对三维点云的立方区域进行分块,获得N个长方体区块,使得与RGB‐IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。
所述声音编码模块用于对点云分块结果的每层中的各个长方体区块进行扫描,计算每个长方体区块的平均坐标。根据这一层中各个长方体区块的平均坐标,同时输出各个立体声模拟信号,其中,立体声模拟信号的声场水平距离通过表示;立体声模拟信号的频率与成线性关系;各层立体声模拟信号按照从上往下的顺序依次输出。
声音输出模块用于根据立体声模拟信号,依次输出每一层声音信号。
2.根据权利要求1所述的系统,其特征在于,所述深度获取模块对两幅RGB彩色视频流进行双目立体匹配,获取初始的稀疏深度图的方法如下:
a、构造一个窗口,类似于卷积核;
b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I,获得窗口覆盖区域内的所有像素点(u,v);
c、用窗口覆盖另一幅RGB彩色视频流中的一个区域II,筛选出窗口覆盖区域的像素点(u',v'),使得该区域的SAD值最小;所述SAD值通过以下方式计算:
SAD(u,v)=Sum{|I(u,v)-II(u',v')|},Sum表示该窗口块中的所有灰度绝对值差的累积。
d、计算各个对应点的视差d=|u'-u|,由深度计算公式,可得该点的深度为z=f×B/d,即该点到相机主平面的距离,其中f为焦距,B为两相机的水平间距。
e、对整幅图像进行一次循环遍历,计算每一像素点的视差值d和深度z,即可获知当前的初始深度图。
3.根据权利要求1所述的系统,其特征在于,所述深度获取模块利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图中进行扩展,可获取更为稠密、精确的深度图像。具体为:
a、以最小的圆形框,框住两幅IR红外视频流的特征点区域;
b、对圆形框的区域进行遍历,计算一个非特征点上下左右四个方向到最近的三个的特征点的距离,以这三个特征点的深度对该非特征点的深度进行加权插值。插值的权值与它们之间的颜色与距离差别有关系。插值的权值为
e = exp ( - ( x - x 0 ) 2 + ( y - y 0 ) 2 2 * σ d ) * exp ( - ( r - r 0 ) 2 + ( g - g 0 ) 2 + ( b - b 0 ) 2 2 * σ c ) ,
其中(x-x0)2+(y-y0)2为该非特征点到一个特征点的距离平方,对应的
(r-r0)2+(g-g0)2+(b-b0)2为该非特征点与一个特征点的颜色分量的差别的平方,σd与σc分别为距离项和颜色项的权值;
c、对超过搜索距离h的点,则跳出,不对该点进行深度修正;
d、对圆形框的区域遍历执行b、c两步后,对深度图像进行一次斑点滤波,完成当前场景区域的深度扩展,即获得更为稠密、精确的深度图像。
4.根据权利要求1所述的系统,其特征在于,所述深度获取模块通过以下方法得到三维点云:
首先对两个RGB‐IR相机进行相机标定,获得相机的内参数,包括在x,y两个轴上的焦距fx,fy和相机的光圈中心cx,cy
像素点(u,v)在其中一个相机获得的深度图像中的深度为z,则可由
x=(u-cx)×z/fx
y=(v-cy)×z/fy
求得该像素点在该相机坐标系下的三维坐标(x,y,z)。结合该相机采集的彩色图像,可得该像素的点云坐标(x,y,z,r,g,b)。
然后对整幅深度图像进行一次循环遍历,便可得到当前场景的三维点云。
5.根据权利要求1所述的系统,其特征在于,所述深度获取模块对两幅IR红外视频流的特征点匹配方法如下:
a.对两幅IR红外视频流分别提取图像特征关键点(如尺度不变特征点),提取训练图像描述符;
b.创建快速最近邻逼近搜索的描述符匹配对象;
c.通过快速最近邻逼近搜索,对两幅IR红外视频流中的特征关键点进行匹配;
d.计算两幅IR红外视频流中的每一对特征关键点的匹配距离L;
e.在匹配好的特征关键点中,剔除匹配距离L超出阈值L0的错误匹配点;
f.完成两幅红外图像的特征点匹配。
CN201610018944.0A 2016-01-12 2016-01-12 一种基于rgb‐ir相机的声音编码交互系统 Active CN105686936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610018944.0A CN105686936B (zh) 2016-01-12 2016-01-12 一种基于rgb‐ir相机的声音编码交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610018944.0A CN105686936B (zh) 2016-01-12 2016-01-12 一种基于rgb‐ir相机的声音编码交互系统

Publications (2)

Publication Number Publication Date
CN105686936A true CN105686936A (zh) 2016-06-22
CN105686936B CN105686936B (zh) 2017-12-29

Family

ID=56226406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610018944.0A Active CN105686936B (zh) 2016-01-12 2016-01-12 一种基于rgb‐ir相机的声音编码交互系统

Country Status (1)

Country Link
CN (1) CN105686936B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106214437A (zh) * 2016-07-22 2016-12-14 杭州视氪科技有限公司 一种智能盲人辅助眼镜
CN106597690A (zh) * 2016-11-23 2017-04-26 杭州视氪科技有限公司 一种基于rgb‑d相机和立体声的视障人士通路预知眼镜
CN107223046A (zh) * 2016-12-07 2017-09-29 深圳前海达闼云端智能科技有限公司 智能导盲方法和装置
CN107917701A (zh) * 2017-12-28 2018-04-17 人加智能机器人技术(北京)有限公司 基于主动式双目立体视觉的测量方法及rgbd相机系统
CN108245385A (zh) * 2018-01-16 2018-07-06 曹醒龙 一种帮助视障人士出行的装置
CN108805937A (zh) * 2018-05-29 2018-11-13 浙江大学 一种单相机偏振信息预测方法
CN110533709A (zh) * 2018-05-23 2019-12-03 杭州海康威视数字技术股份有限公司 深度图像获取方法、装置及系统、图像采集设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050275718A1 (en) * 2004-06-11 2005-12-15 Oriental Institute Of Technology And Far Eastern Memorial Hospital Apparatus and method for identifying surrounding environment by means of image processing and for outputting the results
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
US20130250078A1 (en) * 2012-03-26 2013-09-26 Technology Dynamics Inc. Visual aid
CN103383776A (zh) * 2013-07-14 2013-11-06 浙江大学 一种基于分段匹配和贝叶斯估计的递进式立体匹配算法
CN104287946A (zh) * 2014-10-24 2015-01-21 中国科学院计算技术研究所 盲人避障提示装置及方法
CN104546390A (zh) * 2015-01-26 2015-04-29 上海交通大学 盲道和障碍识别系统及识别方法
CN104639923A (zh) * 2015-02-04 2015-05-20 华为技术有限公司 一种对图像数据进行处理的方法、装置和终端
CN104702933A (zh) * 2013-11-12 2015-06-10 Lg电子株式会社 数字装置及其处理三维图像的方法
CN204481940U (zh) * 2015-04-07 2015-07-15 北京市商汤科技开发有限公司 双目摄像头拍照移动终端
CN104937928A (zh) * 2012-11-23 2015-09-23 Lg电子株式会社 Rgb-ir传感器、和通过使用该rgb-ir传感器获得3d图像的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050275718A1 (en) * 2004-06-11 2005-12-15 Oriental Institute Of Technology And Far Eastern Memorial Hospital Apparatus and method for identifying surrounding environment by means of image processing and for outputting the results
US20130250078A1 (en) * 2012-03-26 2013-09-26 Technology Dynamics Inc. Visual aid
CN104937928A (zh) * 2012-11-23 2015-09-23 Lg电子株式会社 Rgb-ir传感器、和通过使用该rgb-ir传感器获得3d图像的方法和装置
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
CN103383776A (zh) * 2013-07-14 2013-11-06 浙江大学 一种基于分段匹配和贝叶斯估计的递进式立体匹配算法
CN104702933A (zh) * 2013-11-12 2015-06-10 Lg电子株式会社 数字装置及其处理三维图像的方法
CN104287946A (zh) * 2014-10-24 2015-01-21 中国科学院计算技术研究所 盲人避障提示装置及方法
CN104546390A (zh) * 2015-01-26 2015-04-29 上海交通大学 盲道和障碍识别系统及识别方法
CN104639923A (zh) * 2015-02-04 2015-05-20 华为技术有限公司 一种对图像数据进行处理的方法、装置和终端
CN204481940U (zh) * 2015-04-07 2015-07-15 北京市商汤科技开发有限公司 双目摄像头拍照移动终端

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106214437A (zh) * 2016-07-22 2016-12-14 杭州视氪科技有限公司 一种智能盲人辅助眼镜
CN106214437B (zh) * 2016-07-22 2018-05-29 杭州视氪科技有限公司 一种智能盲人辅助眼镜
CN106597690A (zh) * 2016-11-23 2017-04-26 杭州视氪科技有限公司 一种基于rgb‑d相机和立体声的视障人士通路预知眼镜
CN106597690B (zh) * 2016-11-23 2019-02-12 杭州视氪科技有限公司 一种基于rgb-d相机和立体声的视障人士通路预知眼镜
CN107223046A (zh) * 2016-12-07 2017-09-29 深圳前海达闼云端智能科技有限公司 智能导盲方法和装置
US10945888B2 (en) 2016-12-07 2021-03-16 Cloudminds (Shenzhen) Robotics Systems Co., Ltd. Intelligent blind guide method and apparatus
CN107917701A (zh) * 2017-12-28 2018-04-17 人加智能机器人技术(北京)有限公司 基于主动式双目立体视觉的测量方法及rgbd相机系统
CN108245385A (zh) * 2018-01-16 2018-07-06 曹醒龙 一种帮助视障人士出行的装置
CN110533709A (zh) * 2018-05-23 2019-12-03 杭州海康威视数字技术股份有限公司 深度图像获取方法、装置及系统、图像采集设备
CN108805937A (zh) * 2018-05-29 2018-11-13 浙江大学 一种单相机偏振信息预测方法
CN108805937B (zh) * 2018-05-29 2021-12-17 浙江大学 一种单相机偏振信息预测方法

Also Published As

Publication number Publication date
CN105686936B (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN105686936A (zh) 一种基于rgb-ir相机的声音编码交互系统
CN105701811A (zh) 一种基于rgb-ir相机的声音编码交互方法
CN106203390B (zh) 一种智能盲人辅助系统
CN108245385B (zh) 一种帮助视障人士出行的装置
US7598976B2 (en) Method and apparatus for a multisensor imaging and scene interpretation system to aid the visually impaired
CN107341789B (zh) 一种基于rgb-d相机和立体声的视障人士通路预知系统和方法
CN104287946B (zh) 盲人避障提示装置及方法
CN107050774A (zh) 一种基于动作采集的健身动作纠错系统及方法
CN204744865U (zh) 基于听觉的为视觉障碍人士传达周围环境信息的装置
CN107392965A (zh) 一种基于深度学习和双目立体视觉相结合的测距方法
Dunai et al. Sensory navigation device for blind people
CN106597690A (zh) 一种基于rgb‑d相机和立体声的视障人士通路预知眼镜
CN106265004A (zh) 多传感器智能盲人指路方法与装置
CN106846350A (zh) 一种基于rgb‑d相机和立体声的视障人士障碍物预警系统及方法
CN106214437A (zh) 一种智能盲人辅助眼镜
CN106821692A (zh) 一种基于rgb‑d相机和立体声的视障人士楼梯检测系统及方法
CN106651873B (zh) 一种基于rgb-d相机和立体声的视障人士斑马线检测眼镜
CN109444912A (zh) 一种基于协同控制与深度学习的驾驶环境感知系统及方法
CN105761235A (zh) 一种将视觉信息转换成听觉信息的视觉辅助方法
Wang et al. An environmental perception and navigational assistance system for visually impaired persons based on semantic stixels and sound interaction
CN107242964A (zh) 基于深度学习的导盲系统及工作方法
Kaur et al. A scene perception system for visually impaired based on object detection and classification using multi-modal DCNN
WO2016131793A1 (en) Method of transforming visual data into acoustic signals and aid device for visually impaired or blind persons
CN107049717B (zh) 一种基于rgb-d相机和立体声的视障人士斑马线检测系统及方法
CN112932910A (zh) 一种穿戴式智能感知导盲系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant