CN105701811B

CN105701811B - 一种基于rgb‐ir相机的声音编码交互方法

Info

Publication number: CN105701811B
Application number: CN201610018446.6A
Authority: CN
Inventors: 杨恺伦; 汪凯巍; 胡伟健; 吴阳阳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-01-12
Filing date: 2016-01-12
Publication date: 2018-05-22
Anticipated expiration: 2036-01-12
Also published as: CN105701811A

Abstract

本发明以辅助视觉障碍人士对外界场景的理解为目的，提供一种基于RGB‐IR相机的声音编码交互方法，该方法通过实时获取两台RGB‐IR相机的RGB彩色图像和IR红外图像，在传统双目视觉的基础上结合红外激光笔，实时获得三维深度信息，再将三维图像转化为声音编码，通过耳机传输给使用者，使视觉障碍人士可以通过听觉感受到场景中的物体分布和方位。

Description

一种基于RGB‐IR相机的声音编码交互方法

技术领域

本发明属于三维场景检测、双目视觉、视觉障碍人群辅助技术、声音编码技术、人机交互领域。本发明涉及一种利用RGB‐IR相机采集视频图像，转化为声音编码的交互方法。

背景技术

视觉是人类最重要的感觉，人类有60％‐80％的信息来自视觉。视觉在人类的所有感觉中占据支配地位，是思维的一种最基本的工具。损失正常视觉的视觉障碍人士，对于形状、色彩、运动的理解都很困难，因此他们的生活在起居、出行等方面都受到巨大的影响。

对于缺损视觉感知的视觉障碍人群，简单的盲杖只能提供单一的辅助功能，探测距离有限，无法提供充分的辅助。导盲犬和仿生眼可为视觉缺损的人群提供帮助，但导盲犬的训练和养护费用普通家庭难以承担；仿生眼的植入需要进行手术，造价昂贵，且只能针对视网膜色素变性或老年性黄斑变性导致失明的人群。

传统电子式的视障辅助工具主要包括超声波辅助技术、激光测距辅助、双目视觉辅助技术、主动光深度相机辅助技术。

基于超声波和激光测距的辅助技术的测距范围有限，只能实现单点测距，探测的三维信息有限，只具有报警功能，并且容易误判、漏判。

基于传统双目视觉的辅助技术可以提供范围更大的三维信息，但也存在一些不足。传统双目视觉的三维信息获取的核心技术在于对两幅RGB图像进行图像匹配，局部匹配的方法只能获得纹理显著、特征明显处的深度，因此只能获取稀疏的三维信息，不充分的深度信息容易造成三维探测时的误检测和漏检测，使得后续辅助算法并不鲁棒和可靠；全局匹配的方法可以获得深度稠密但并不完全精确的三维图像，匹配算法复杂，计算量大，算法难以实时化，容易造成辅助时的延时。

基于主动光深度相机的辅助技术可以实时的获取稠密、精确的深度图像，但在室外受日光影响不能正常工作，使得辅助技术只能局限于室内。并且主动光的深度相机存在最远距离，超过最远距离的路况无法探测。

传统视觉障碍人士辅助技术的人机交互方式主要有语音提示、触觉震动的方法。语音提示通常播报障碍物的距离和方向，由于语音提示需要时间，会产生延时，造成事故。触觉震动通常以震动腰带或者震动背心为实现硬件，以震动来提示障碍物的方位，震动装置虽然可以免除延时的问题，但给视觉障碍人士带来负担，不同人的穿戴感受有差别。

最近RGB‐IR的CCD/CMOS芯片和声音编码技术的发展，为视觉障碍人群的辅助技术提供了新思路。RGB‐IR相机可同时获得一副RGB彩色图像和IR红外图像。采用两个RGB‐IR相机，和一支红外激光笔，在双目立体视觉的基础上，可获取实时、可靠、全面的深度图像。结合RGB彩色信息、IR红外信息和深度三维信息，可以对整个视场的场景进行充分的识别和解析。视觉障碍人士可以利用红外激光笔，对感兴趣区域的深度加以确认，增加了视觉障碍人士和视觉辅助装置的交互，提高了使用体验。利用声音编码技术的交互方式可为视觉障碍人士提供及时、快速、完整的场景信息，能够将充足的深度信息转化为声音编码传递给使用者，信息损失少，可以很好满足视觉障碍人士对辅助工具的要求。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于RGB‐IR相机的声音编码交互方法。

本发明的目的是通过以下技术方案实现的：一种基于RGB‐IR相机的声音编码交互方法，所述方法在声音编码交互系统上实现，所述系统包括两个RGB‐IR相机、深度获取模块、声音编码模块、声音输出模块；两个RGB‐IR相机分别与深度获取模块相连，深度获取模块通过声音编码模块与声音输出模块相连；所述两个RGB‐IR相机光轴方向平行，竖直高度一致，水平间距为B(如图1所示)；声音编码交互方法包括以下步骤：

(1)两个RGB‐IR相机均采集RGB彩色视频流和IR红外视频流，获得两幅 RGB彩色视频流和两幅IR红外视频流；

(2)深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流，对两幅 RGB彩色视频流进行双目立体匹配，即可获取初始的稀疏深度图。对两幅IR红外视频流进行特征点匹配(特征点匹配为本领域公知常识)，即可获取这些区域特征点的置信度高的精确深度图。

(3)利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始稀的疏深度图中进行扩展，可获取更为稠密、精确的深度图像。

(4)根据RGB‐IR相机的内参数，将步骤3获得的深度图像进行三维转换，使之与RGB‐IR相机的三维坐标一致，获得三维点云；

(5)将步骤4获得的三维点云的立方区域进行分块，获得N个长方体区块，使得与RGB‐IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。

(6)从点云分块结果最上一层开始，对每层中的各个长方体区块进行扫描。计算每个长方体区块的平均坐标根据这一层中各个长方体区块的平均坐标同时输出各个立体声模拟信号，其中，立体声模拟信号的声场水平距离通过表示；立体声模拟信号的频率与成线性关系；

(7)声音输出模块根据立体声模拟信号，依次输出每一层声音信号，完成交互。

进一步地，所述步骤(2)中，对两幅RGB彩色视频流进行双目立体匹配，获取初始的稀疏深度图的方法如下：

a、构造一个窗口，类似于卷积核；

b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I，获得窗口覆盖区域内的所有像素点(u,v)；

c、用窗口覆盖另一幅RGB彩色视频流中的一个区域II，筛选出窗口覆盖区域的像素点(u',v')，使得该区域的SAD值最小；所述SAD值通过以下方式计算：

SAD(u,v)＝Sum{|I(u,v)-II(u',v')|}，Sum表示该窗口块中的所有灰度绝对值差的累积。

d、计算各个对应点的视差d＝|u'-u|，由深度计算公式，可得该点的深度为 z＝f×B/d，即该点到相机主平面的距离，其中f为焦距，B为两相机的水平间距。

e、对整幅图像进行一次循环遍历，计算每一像素点的视差值d和深度z，即可获知当前的初始深度图。

进一步地，所述步骤(3)中，利用精确深度图，配合IR红外视频流和RGB 彩色视频流，在初始稀的疏深度图中进行扩展，可获取更为稠密、精确的深度图像。具体为：

a、以最小的圆形框，框住两幅IR红外视频流的特征点区域；

b、对圆形框的区域进行遍历，计算一个非特征点上下左右四个方向到最近的三个的特征点的距离，以这三个特征点的深度对该非特征点的深度进行加权插值。插值的权值与它们之间的颜色与距离差别有关系。插值的权值为

其中(x-x₀)²+(y-y₀)²为该非特征点到一个特征点的距离平方，对应的 (r-r₀)²+(g-g₀)²+(b-b₀)²为该非特征点与一个特征点的颜色分量的差别的平方，σ_d与σ_c分别为距离项和颜色项的权值；

c、对超过搜索距离h的点，则跳出，不对该点进行深度修正；

d、对圆形框的区域遍历执行b、c两步后，对深度图像进行一次斑点滤波，完成当前场景区域的深度扩展，即获得更为稠密、精确的深度图像。

进一步地，所述步骤4中的三维点云通过以下方法得到：

首先对两个RGB‐IR相机进行相机标定，获得相机的内参数，包括在x，y两个轴上的焦距f_x，f_y和相机的光圈中心c_x，c_y。

像素点(u,v)在其中一个相机获得的深度图像中的深度为z，则可由

x＝(u-c_x)×z/f_x

y＝(v-c_y)×z/f_y

求得该像素点在该相机坐标系下的三维坐标(x,y,z)。结合该相机采集的彩色图像，可得该像素的点云坐标(x,y,z,r,g,b)。

然后对整幅深度图像进行一次循环遍历，便可得到当前场景的三维点云。

进一步地，所述步骤2中，对两幅IR红外视频流进行特征点匹配的方法如下：

a.对两幅IR红外视频流分别提取图像特征关键点(如尺度不变特征点)，提取训练图像描述符；

b.创建快速最近邻逼近搜索的描述符匹配对象；

c.通过快速最近邻逼近搜索，对两幅IR红外视频流中的特征关键点进行匹配；

d.计算两幅IR红外视频流中的每一对特征关键点的匹配距离L；

e.在匹配好的特征关键点中，剔除匹配距离L超出阈值L0的错误匹配点；

f.完成两幅红外图像的特征点匹配。

本发明的有益效果在于：

a、速度快：由于不需要采用全局匹配算法获取稠密的深度信息，只需要进行一次简单的局部块匹配先获取一张稀疏的初始深度图，再在红外激光笔的帮助下，将深度信息延拓，获取更稠密、准确的深度图。

b、深度准确：采用红外激光笔，使用者用红外激光笔在场景中进行涂画，可RGB‐IR相机的中的IR红外分量部分捕捉到使用者感兴趣的区域，通过特征点匹配即可计算出感兴趣区域的精确深度。利用彩色图像，将感兴趣区域的精确深度进行延展，可获得相比传统双目视觉更精确的深度图像。

c、算法容易实现：由于不需要根据深度图进行障碍物和地面检测，而是直接将深度图转化为三维点云，进而通过声音编码传递给使用者。因此无需进行复杂、稳健的障碍物、地面检测算法的设计，相当于直接让使用者听到丰富的场景信息。

整个方法中只有一个简单的块匹配算法，一个深度扩展算法和一个声音编码方法，易于实现。

d、使用者可以和设备进行交互：使用者可以利用红外激光笔，对自己感兴趣区域进行选择，从而增加该区域深度信息的置信度。而传统的辅助设备，使用者得到的是整个视场的处理结果，没有自己选择特定区域的可能。

e、信息损失少：本方法直接将获取的深度信息转化为声音编码传送给使用者，让使用者自己通过声音来理解场景和判别路况，信息损失少。而传统辅助方法先通过障碍物或地面的检测算法，再将识别结果通过声音提示或震动传递给使用者，往往浪费了很多信息。

f、成本低：本方法只需两个常规的RGB‐IR相机和一只没有安全隐患的常规红外激光笔，和一台便携的支持RGB‐IR相机的处理器即可。硬件系统的各个部分可以实现通用化和自主组合，因此成本低廉。

g、使用感受逐渐提升：使用者在使用本方法所述的交互方式一段时间后，对不同场景对应的声音会逐渐形成记忆，听到一种声音就要能对应到一种特殊场景。这些储存的知识帮助使用者在此后交互的时候形成条件反射的效果，因此使用者对音频的反应加快，从而可以提高音频的播放速度，进而在交互的相同的时间内可以获取更多的信息，提升使用感受。

附图说明

图1两个RGB‐IR相机及其位置关系示意图；

图2流程图；

图3模块连接示意图；

图4点云分块图。

- 具体实施方式

本发明以辅助视觉障碍人士对外界场景的理解为目的，通过实时获取两台 RGB‐IR相机的RGB彩色图像和IR红外图像，在传统双目视觉的基础上结合红外激光笔，实时获得三维深度信息，再将三维图像转化为声音编码，通过耳机传输给使用者，使视觉障碍人士可以通过听觉感受到场景中的物体分布和方位。具体包括以下步骤：

1.视觉障碍人士使用一支红外激光笔，对环境中的感兴趣区域进行涂画，给三维环境中增加红外特征点(如图3所示)。

2.两个RGB‐IR相机均采集RGB彩色视频流和IR红外视频流，获得两幅RGB彩色视频流和两幅IR红外视频流。

3.深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流，对两幅RGB 彩色视频流进行双目立体匹配，即可获取初始的稀疏深度图。具体为：

a、构造一个窗口，类似于卷积核；

c、用窗口覆盖另一幅RGB彩色视频流中的一个区域II，筛选出窗口覆盖区域的像素点(u',v')，使得该区域的SAD值最小；所述SAD值通过以下方式计算： SAD(u,v)＝Sum{|I(u,v)-II(u',v')|}，Sum表示该窗口块中的所有灰度绝对值差的累积。

4.深度获取模块对两幅IR红外视频流进行特征点匹配，即可获取这些区域特征点的置信度高的精确深度图，(特征点匹配为本领域公知常识，可参见快速最近邻逼近搜索函数库，http://www.cs.ubc.ca/research/flann/，SIFT特征”Object recognition fromlocal scale‐invariant features”。)，具体如下：

对两幅IR红外视频流进行特征点匹配的方法如下：

b.创建快速最近邻逼近搜索的描述符匹配对象；

e.在匹配好的特征关键点中，剔除匹配距离L超出阈值L0的错误匹配点；其中，L0一般是最小匹配距离Lmin的5‐10倍

f.完成两幅红外图像的特征点匹配。

5.深度获取模块利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始稀的疏深度图中进行扩展，可获取更为稠密、精确的深度图像。具体为：

a、以最小的圆形框，框住两幅IR红外视频流的特征点区域；

c、对超过搜索距离h(一般为5‐20像素)的点，则跳出，不对该点进行深度修正；

6.根据RGB‐IR相机的内参数，将步骤5获得的深度图像进行三维转换，使之与RGB‐IR相机的三维坐标一致，获得三维点云，具体为：

x＝(u-c_x)×z/f_x

y＝(v-c_y)×z/f_y

对整幅深度图像进行一次循环遍历，便可得到当前场景的三维点云。

7.将步骤6获得的三维点云的立方区域进行分块，获得N个长方体区块，使得与RGB‐IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。

8.从点云分块结果最上一层开始，对每层中的各个长方体区块进行扫描。计算每个长方体区块的平均坐标根据这一层中各个长方体区块的平均坐标同时输出各个立体声模拟信号，其中，立体声模拟信号的声场水平距离通过表示；立体声模拟信号的频率与成线性关系；

9.声音输出模块根据立体声模拟信号，依次输出每一层声音信号。

10.耳机将声音信号传输给视觉障碍人士，视觉障碍人士根据声音信号认知三维环境，完成一次交互。

Claims

1.一种基于RGB-IR相机的声音编码交互方法，其特征在于，所述方法在声音编码交互系统上实现，所述系统包括两个RGB-IR相机、深度获取模块、声音编码模块、声音输出模块；两个RGB-IR相机分别与深度获取模块相连，深度获取模块通过声音编码模块与声音输出模块相连；所述两个RGB-IR相机光轴方向平行，竖直高度一致，水平间距为B；声音编码交互方法包括以下步骤：

(1)两个RGB-IR相机均采集RGB彩色视频流和IR红外视频流，获得两幅RGB彩色视频流和两幅IR红外视频流；

(2)深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流，对两幅RGB彩色视频流进行双目立体匹配，即可获取初始的稀疏深度图；对两幅IR红外视频流进行特征点匹配，即可获取这些区域特征点的置信度高的精确深度图；

(3)利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始的稀疏深度图中进行扩展，可获取更为稠密、精确的深度图像；

(4)根据RGB-IR相机的内参数，将步骤( 3) 获得的深度图像进行三维转换，使之与RGB-IR相机的三维坐标一致，获得三维点云；

(5)将步骤( 4) 获得的三维点云的立方区域进行分块，获得N个长方体区块，使得与RGB-IR相机光轴垂直的面分成N个长方形区域；

(6)从点云分块结果最上一层开始，对每层中的各个长方体区块进行扫描；计算每个长方体区块的平均坐标根据这一层中各个长方体区块的平均坐标同时输出各个立体声模拟信号，其中，立体声模拟信号的声场水平距离通过表示；立体声模拟信号的频率与成线性关系；

2.根据权利要求1所述的方法，其特征在于，所述步骤(2)中，对两幅RGB彩色视频流进行双目立体匹配，获取初始的稀疏深度图的方法如下：

a、构造一个窗口，类似于卷积核；

SAD(u,v)＝Sum{|I(u,v)-II(u',v')|}，Sum表示该窗口块中的所有灰度绝对值差的累积；

d、计算各个对应点的视差d＝|u'-u|，由深度计算公式，可得该点的深度为z＝f×B/d，即该点到相机主平面的距离，其中f为焦距，B为两相机的水平间距；

e、对整幅图像进行一次循环遍历，计算每一像素点的视差值d和深度z，即可获知当前的初始的稀疏深度图。

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)中，利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始的稀疏深度图中进行扩展，可获取更为稠密、精确的深度图像；具体为：

a、以最小的圆形框，框住两幅IR红外视频流的特征点区域；

b、对圆形框的区域进行遍历，计算一个非特征点上下左右四个方向到最近的三个的特征点的距离，以这三个特征点的深度对该非特征点的深度进行加权插值；插值的权值与它们之间的颜色与距离差别有关系；插值的权值为

其中(x-x₀)²+(y-y₀)²为该非特征点到一个特征点的距离平方，对应的(r-r₀)²+(g-g₀)²+(b-b₀)²为该非特征点与一个特征点的颜色分量的差别的平方，σ_d与σ_c分别为距离项和颜色项的权值；

4.根据权利要求1所述的方法，其特征在于，所述步骤- ( 4) 中的三维点云通过以下方法得到：

首先对两个RGB-IR相机进行相机标定，获得相机的内参数，包括在x，y两个轴上的焦距f_x，f_y和相机的光圈中心c_x，c_y；

x＝(u-c_x)×z/f_x

y＝(v-c_y)×z/f_y

求得该像素点在该相机坐标系下的三维坐标(x,y,z)；结合该相机采集的彩色图像，可得该像素的点云坐标(x,y,z,r,g,b)；

5.根据权利要求1所述的方法，其特征在于，所述步骤( 2) 中，对两幅IR红外视频流进行特征点匹配的方法如下：

a.对两幅IR红外视频流分别提取图像特征关键点，提取训练图像描述符；

b.创建快速最近邻逼近搜索的描述符匹配对象；

f.完成两幅红外图像的特征点匹配。