CN111031468A

CN111031468A - 一种基于个体化hrtf立体声的视觉辅助方法与设备

Info

Publication number: CN111031468A
Application number: CN201911103656.5A
Authority: CN
Inventors: 解梅; 张志强; 王方杰; 王源巍
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-17
Anticipated expiration: 2039-11-13
Also published as: CN111031468B

Abstract

本发明提供一种基于个体化HRTF立体声的视觉辅助方法，利用惯性测量单元、深度摄像头与彩色摄像头进行环境数据采集，利用小型计算机对数据进行处理得到所识别物体的类型、方向与距离，最后将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效，可以用于头戴式游戏，也可以对视觉障碍人士进行方向指引的视觉辅助。相比现有的视觉辅助设备，本发明环境适用性强，便携性好，物体位置追踪连续性好，空间音效准确性高。相比复杂的语音方位描述，本发明直接将描述物体类型的简短单声道语音信号转化为具有空间感的立体声信号，在用户的听觉中生成直观的声源位置，用户无需学习复杂的语音位置描述规则，容易理解。

Description

一种基于个体化HRTF立体声的视觉辅助方法与设备

技术领域

本发明涉及三维环境感知技术以及空间音效技术，特别涉及头相关传递函数HRTF体声的视觉辅助技术。

背景技术

双目摄像头的视觉辅助设备主要运用双目视觉技术，使用可见光或红外波段对环境进行成像。双目视觉技术依赖于环境中纹理的复杂程度，对于简单场景，或场景有积水或镜面干扰时会失效。双目视觉技术的原理要求双摄像头在设备上安装时存在最小距离限制，且以高刷新率进行识别时其计算能力需求对于现有的便携式视觉辅助设备的供电、散热与电池容量要求高，不利于设备的防水密封与小型化、轻量化设计。

传统的电子式视觉辅助设备完全依赖摄像头对物体进行识别，在物体因距离过近、短暂受到其他物体的干扰或因用户运动而离开摄像头视野时立即失去对物体的跟踪能力。

使用语音提示与用户进行交互的视觉辅助设备，通常播报物体的方位、距离与类型，需要消耗大量时间，传递的信息量少，不能随用户发生的运动及时修正该播报内容，造成延迟且存在事故风险。而使用不同音色与音量进行播报的交互方式不够直观，用户需要进行学习与适应，且能够表达的方位有限。

头相关传递函数(Head Related Transfer Function，HRTF)是一种立体空间声音定位的处理技术，用于描述声波从声源到双耳的传输过程，是声音向我们传来时，对应于我们头部的相位与频率响应。

发明内容

本发明所要解决的技术问题是，提供一种通过环境数据采集将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效的视觉辅助方法与设备。

本发明为解决上述技术问题所采用的技术方案是，一种基于个体化HRTF立体声的视觉辅助方法，包括以下步骤：

1)采集数据接收步骤：实时接收彩色摄像头输入的彩色图像、深度摄像头输入的深度图像以及惯性测量单元输入的加速度和姿态角读数；

2)彩色图像的处理步骤：利用已训练完成的神经网络对彩色图像进行物体检测，识别出当前物体类型与得到物体所在的矩形边框，之后将该矩形边框的尺寸与已存储的该物体类型对应尺寸的参考值进行比对，计算得到物体到设备的粗略距离d_RGB；当前物体类型为利用神经网络对彩色图像进行物体检测时输出的识别概率最高的物体类型；所述备选物体类型为识别概率较当前物体类型低的其它物体类型；

3)深度图像处理步骤：计算物体在深度图像中的位置，再根据深度图像中该位置的深度信息作为物体到设备的准确距离d_TOF；

4)对物体类型的再次判断：判断准确距离与粗略距离之间的差值是否大于预设值，如是，进入步骤5)进行备选物体类型判断，否则，将当前物体类型作为确定的物体类型并用(∠x,∠y,d_TOF)作为物体的初始相对位置，将确定的物体类型存入物体信息队列；其中，∠x,∠y为物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y；

5)备选物体类型判断步骤：在备选物体类型中选择其准确距离与粗略距离差值小于等于预设值的物体类型作为确定的物体类型并将确定的物体类型存入物体信息队列，如没有备选物体类型或者没有备选物体类型的准确距离与粗略距离差值小于等于预设值，则认为物体类型识别失败；

6)绝对位置坐标生成步骤：根据姿态角读数中偏航角∠IMU_yaw和俯仰角∠IMU_pitch分别生成物体在X轴和Y轴上的绝对方向∠x_abs和∠y_abs，∠x_abs＝∠x+∠IMU_yaw，∠y_abs＝∠y+∠IMU_pitch，用(∠x_abs,∠y_abs,d_TOF)作为物体的绝对位置坐标P_obj-abs,并将绝对位置坐标P_obj-abs存入物体信息队列；

7)相对位置的更新步骤：当已经在物体信息队列中的物体再次被识别到时，直接使用(∠x,∠y,d_TOF)作为进行更新的相对位置P_obj，并根据新的测量结果对物体信息队列存放的绝对位置进行修正，而在图像处理的帧间或该物体脱离彩色或深度摄像头工作范围的设定时间长度内，通过利用来自惯性测量单元的加速度和姿态角得到用户位置改变信息P_move，从而计算物体当前的空间位置P_obj-now＝(P_obj-abs-P_move),再将物体当前的空间位置P_obj-now根据当前的偏航角∠IMU_yaw和俯仰角∠IMU_pitch进行旋转得到更新的相对位置P_obj；

8)虚拟声源的生成步骤：将更新的相对位置P_obj根据存储的个体化头相关传递函数HRTF配置进行映射得虚拟声源位置P′_obj，将虚拟声源位置P′_obj以及物体类型作为虚拟声源信息通过立体声耳机接口输出。

将上述方法通过一个小型计算机实施，从而提供一种基于个体化HRTF立体声的视觉辅助设备，包括彩色摄像头、深度摄像头、惯性测量单元、支架和带有立体声耳机接口的小型计算机，彩色摄像头、深度摄像头、惯性测量单元与带有立体声耳机接口的小型计算机均固定在支架上；彩色摄像头和深度摄像头的两个光轴相互平行，且安装于支架的前端；彩色摄像头、深度摄像头和惯性测量单元分别与小型计算机相连；小型计算机存储有训练完成的用于物体检测的神经网络、各类物体对应尺寸的参考值、个体化头相关传递函数HRTF配置信息；

彩色摄像头采集彩色图像输出至小型计算机；深度摄像头采集深度图像输出至小型计算机；惯性测量单元用于采集加速度和姿态角读数输出至小型计算机。

本发明利用惯性测量单元、深度摄像头与彩色摄像头进行环境数据采集，利用小型计算机对数据进行处理得到所识别物体的类型、方向与距离，最后将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效，可以用于头戴式游戏，也可以对视觉障碍人士进行方向指引的视觉辅助。

本发明的有益效果是，相比现有的视觉辅助设备：

1.环境适用性强。由于使用的3D-TOF摄像头通过红外波段激光光源获取场景信息，该方法不存在双目视觉技术对场景中可见光波段的纹理复杂程度的要求，在简单、复杂场景均可使用，其结果也不受到环境光干扰，在白天和夜间均可使用。

2.便携性好。由于结合3D-TOF与RGB摄像头对物体进行测距，该方法不存在双目视觉技术的双摄像头最小安装间距限制与同时处理两路高清视频信号的计算性能要求，设备内部结构紧凑，体积相比双目视觉技术的方案小，计算能力、散热、电力供应需求降低，提高了设备的使用时长。

3.物体位置追踪连续性。由于使用惯性测量单元对用户的运动进行测量，在物体因用户运动处于摄像头所识别范围外，如在用户侧面或背面、被其他物体短暂遮挡、或在物体因观测角度原因暂时无法被识别到时，继续提供对物体的位置指示，用户无需时刻保持摄像头对准需要追踪的物体。

4.易理解性。相比复杂的语音方位描述，本发明直接将描述物体类型的简短单声道语音信号转化为具有空间感的立体声信号，物体的位置指示直接附加在物体类型描述的音频信号上，并直接在用户的听觉中生成直观的声源位置，用户无需学习复杂的语音位置描述规则。

5.运动反馈的即时性。在播放过程中该虚拟声源位置也会随着惯性测量单元获得的运动数据进行每秒大于100次的实时修正，用户不会因运动或转向而得到不及时的或错误的方向指示。

6.空间音效准确性。使用基于HRTF的个体化立体声信号，HRTF立体声相比传统的抵达时间延迟(ITD)立体声考虑了头部与耳部的物理结构对声音频域的细微影响，个体化的HRTF配置则为每一个用户建立虚拟声源位置映射，将虚拟声源位置在生成立体声信号前进行调整，以抵消因头部与耳部的个体差异产生的误差，进一步提高空间音效的指向准确性，因此能为视觉障碍用户提供准确的全向位置指示。

附图说明

图1为实施例视觉辅助设备的结构示意图；

图2为实施例视觉辅助设备的硬件连接示意图；

图3为实施例视觉辅助设备的软硬件模块协同方式示意图。

具体实施方式

如图1、图2所示，一种基于RGB与3D-TOF摄像头、惯性测量单元与个体化HRTF立体声的视觉辅助设备，所述设备包含一个RGB摄像头、一个3D-TOF摄像头、一个惯性测量单元、一个USB集线器、一个支架、一个带有立体声耳机接口的小型计算机、一个电池模块。所述一个3D-TOF摄像头、一个RGB摄像头、一个惯性测量单元、一个USB集线器均固定于支架上，其中，RGB摄像头与3D-TOF摄像头的两个光轴相互平行，并安装于支架的前端；3D-TOF摄像头、RGB摄像头与惯性测量单元通过USB集线器与小型计算机相连，电池模块与小型计算机相连。3D-TOF摄像头通过VCSEL光源完成测距，获得图像的深度信息。

如图3所示，小型计算机中内置的神经网络模型对RGB摄像头的彩色图像进行物体检测，获得物体类型与其在图像上的矩形边框。该矩形边框的尺寸被用于与对应类型物体在RGB图像上在不同距离下得到的参考尺寸进行对比，得到其粗略距离，随后进一步对比其与由3D-TOF摄像头得到的深度图像上对应位置的精确距离，以调整识别到的物体类型；该矩形边框的中心位置被转换为物体的方向向量，根据深度图像在该方向上的距离得到相对位置，再比对惯性测量单元的读数得到物体的绝对位置，随后将其存入一个物体信息缓存队列。物体信息缓存队列中的绝对位置先根据惯性测量单元的运动追踪数据转换为相对位置，并经过用户的个体化HRTF配置进行映射修正，得到生成HRTF立体声信号所需虚拟声源坐标，在图像处理的帧间或物体处于摄像头工作范围之外时由惯性测量单元继续对物体提供虚拟声源位置修正，最终将描述物体类型的单声道音频在频域与该虚拟声源位置对应的HRTF相乘，得到具有空间感的立体声指示信号，并输出到小型计算机的立体声接口，为视觉障碍用户提供准确的即时全向位置指示。

上述设备通过以下方法实现对视觉障碍人士进行物体的类型与位置指示：

(1)通过小型计算机内置的神经网络模型对RGB摄像头传入的彩色图像进行目标检测，分析得到主要的物体类型信息与其在彩色图像上的矩形边框坐标(x₁,y₁),(x₂,y₂)，其矩形边框中心为

(2)根据RGB摄像头的视场角∠X_FOV与∠Y_FOV以及分辨率x_max,y_max获得物体的相对摄像头光轴的方向，其X轴偏移角度为

Y轴偏移角度为

(3)根据目标检测得到的矩形边框在图像上的半径

随后将r_RGB与内置数据库中对应物体类型在不同标准距离下在彩色图像上的大小依次比对并进行线性插值，获得物体粗略距离d_RGB。

(4)根据X轴与Y轴的偏移角度∠x,∠y，以及3D-TOF摄像头视场角∠X′_FOV与∠Y′_FOV以及分辨率x′_max,y′_max，得到该物体在深度图像上对应的位置

并根据该位置上的深度信息得到根据深度图像的物体距离d_TOF，当d_TOF与d_RGB的值相差过大时，将识别到的物体类型替换为神经网输出结果中可能性较低的其他选项并重新计算d_RGB，直到d_TOF与d_RGB的差值低于设定的阈值，或在d_TOF与d_RGB的差值无法通过调整识别到的物体类型降低至阈值以下时忽略该识别到的物体。

(5)将该物体对应的相对设备光轴的方向偏移∠x,∠y与物体的距离d_TOF得到物体相对设备的位置空间坐标P_obj。

(6)将该物体对应的相对设备光轴的方向偏移∠x,∠y与惯性测量单元的姿态角读数∠IMU_yaw，∠IMU_pitch相加，得到物体的绝对方向∠x_abs＝∠x+∠IMU_yaw，∠y_abs＝∠y+∠IMU_pitch，再根据物体的距离d_TOF得到物体的绝对位置空间坐标P_obj-abs并存入物体信息队列。在图像处理的帧间，或该物体脱离RGB或3D-TOF摄像头工作范围，如距离过近、被其他物体短暂遮挡或设备转动较大角度时，在一定时间内通过惯性测量单元对加速度和设备姿态角进行测量，通过用户位置改变P_move得到物体当前的空间位置P_obj-now＝(P_obj-abs-P_move),再将P_obj-now根据当前的设备姿态角∠IMU_yaw、∠IMU_pitch进行旋转得到新的物体相对位置P_obj。

(7)将物体相对位置P_obj根据设备初始化时设定的个体化HRTF配置进行映射，得到HRTF立体声所需的虚拟声源位置P′_obj。

(8)将描述该物体类型的单声道音频信号载入缓冲区，并与P′_obj所对应的HRTF在频域上相乘得到具有空间感的立体声信号，输出到小型计算机的立体声耳机接口，为用户提供连续的物体类型与位置指示。

Claims

1.一种基于个体化HRTF立体声的视觉辅助设备，其特征在于，包括彩色摄像头、深度摄像头、惯性测量单元、支架和带有立体声耳机接口的小型计算机，彩色摄像头、深度摄像头、惯性测量单元与带有立体声耳机接口的小型计算机均固定在支架上；彩色摄像头和深度摄像头的两个光轴相互平行，且安装于支架的前端；彩色摄像头、深度摄像头和惯性测量单元分别与小型计算机相连；小型计算机存储有训练完成的用于物体检测的神经网络、各类物体对应尺寸的参考值、个体化头相关传递函数HRTF配置信息；

彩色摄像头用于采集彩色图像输出至小型计算机；

深度摄像头用于采集深度图像输出至小型计算机；

惯性测量单元用于采集加速度和姿态角读数输出至小型计算机；

小型计算机用于进行以下处理：

对彩色图像的处理：利用神经网络对彩色图像进行物体检测，识别出当前物体类型与得到物体所在的矩形边框，之后将该矩形边框的尺寸与已存储的该物体类型对应尺寸的参考值进行比对，计算得到物体到设备的粗略距离d_RGB；当前物体类型为利用神经网络对彩色图像进行物体检测时输出的识别概率最高的物体类型；所述备选物体类型为识别概率较当前物体类型低的其它物体类型；

对深度图像的处理：计算物体在深度图像中的位置，再根据深度图像中该位置的深度信息作为物体到设备的准确距离d_TOF；

对物体类型的再次判断：判断准确距离与粗略距离之间的差值是否大于预设值，如是，进行备选物体类型判断，否则，将当前物体类型作为确定的物体类型并用(∠x,∠y,d_TOF)作为物体的初始相对位置，将确定的物体类型存入物体信息队列；其中，∠x,∠y为物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y；

对备选物体类型判断：当准确距离与粗略距离之间的差值大于预设值时，在备选物体类型中选择其准确距离与粗略距离差值小于等于预设值的物体类型作为确定的物体类型并将确定的物体类型存入物体信息队列，如没有备选物体类型或者没有备选物体类型的准确距离与粗略距离差值小于等于预设值，则认为物体类型识别失败；

绝对位置坐标生成：根据姿态角读数中偏航角∠IMU_yaw和俯仰角∠IMU_pitch分别生成物体在X轴和Y轴上的绝对方向∠x_abs和∠y_abs，∠x_abs＝∠x+∠IMU_yaw，∠y_abs＝∠y+∠IMU_pitch，用(∠x_abs,∠y_abs,d_TOF)作为物体的绝对位置坐标P_obj-abs,并将绝对位置坐标P_obj-abs存入物体信息队列；

相对位置的坐标生成：当已经在物体信息队列中的物体再次被识别到时，直接使用(∠x,∠y,d_TOF)作为进行更新的相对位置P_obj，并根据新的测量结果对物体信息队列存放的绝对位置进行修正，而在图像处理的帧间或该物体脱离彩色或深度摄像头工作范围的设定时间长度内，通过利用来自惯性测量单元的加速度和姿态角得到用户位置改变信息P_move，从而计算物体当前的空间位置P_obj-_now＝(P_obj-_abs-P_move),再将物体当前的空间位置P_obj-_now根据当前的偏航角∠IMU_yaw和俯仰角∠IMU_pitch进行旋转得到更新的相对位置P_obj；

虚拟声源的生成：一方面将确定的物体类型的单声道音频信号载入，另一个方面将更新的相对位置P_obj根据存储的个体化头相关传递函数HRTF配置进行映射得虚拟声源位置P′_obj；再将确定的物体类型的单声道音频信号与P′_obj所对应的个体化HRTF频域信号相乘，得到具有空间感的立体声信号，最后将立体声信号输出到小型计算机的立体声耳机接口。

2.如权利要求1所述设备，其特征在于，小型计算机根据彩色摄像头的X轴与Y轴的视场角以及分辨率获得物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y：

其中，

物体所在的矩形边框的中心位置，x_max,y_max为彩色摄像头的分辨率，∠X_FOV,∠Y_FOV分别为彩色摄像头的X轴与Y轴的视场角。

3.如权利要求1所述设备，其特征在于，小型计算机将矩形边框的尺寸与已存储的物体类型对应尺寸的参考值进行比对，计算得到物体到设备的粗略距离d_RGB的具体方式是：计算矩形边框在图像上的半径

其中(x₂,y₂)为矩形边框的一个边角坐标，随后将r_RGB与内置数据库中对应物体类型在不同标准距离下在彩色图像上的大小依次比对并进行线性插值，从而获得物体粗略距离d_RGB。

4.如权利要求1所述设备，其特征在于，小型计算机计算物体在深度图像中的位置(x_TOF,y_TOF)的具体方法是：

其中，∠X′_FOV与∠Y′_FOV为深度摄像头的X轴与Y轴的视场角，x′_max,y′_max，为深度摄像头的分辨率。

5.如权利要求1所述设备，其特征在于，所述色彩摄像头为RGB摄像头，所述深度摄像头为3D-TOF摄像头。

6.如权利要求1所述设备，其特征在于，还包括电池模块，电池模块与与小型计算机相连；

彩色摄像头、深度摄像头和惯性测量单元通过USB集线器与小型计算机相连。

7.一种基于个体化HRTF立体声的视觉辅助方法，其特征在于，包括以下步骤：

7)相对位置坐标生成步骤：当已经在物体信息队列中的物体再次被识别到时，直接使用(∠x,∠y,d_TOF)作为进行更新的相对位置P_obj，并根据新的测量结果对物体信息队列存放的绝对位置进行修正，而在图像处理的帧间或该物体脱离彩色或深度摄像头工作范围的设定时间长度内，通过利用来自惯性测量单元的加速度和姿态角得到用户位置改变信息P_move，从而计算物体当前的空间位置P_obj-_now＝(P_obj-_abs-P_move),再将物体当前的空间位置P_obj-_now根据当前的偏航角∠IMU_yaw和俯仰角∠IMU_pitch进行旋转得到更新的相对位置P_obj；

8)虚拟声源的生成步骤：一方面将确定的物体类型的单声道音频信号载入，另一个方面将更新的相对位置P_obj根据存储的个体化头相关传递函数HRTF配置进行映射得虚拟声源位置P′_obj；再将确定的物体类型的单声道音频信号与P′_obj所对应的个体化HRTF频域信号相乘，得到具有空间感的立体声信号，最后将立体声信号输出到小型计算机的立体声耳机接口。

8.如权利要求7所述方法，其特征在于，根据彩色摄像头的X轴与Y轴的视场角以及分辨率获得物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y：

其中，

9.如权利要求7所述方法，其特征在于，计算得到物体到设备的粗略距离d_RGB的具体方式是：计算矩形边框在图像上的半径

10.如权利要求7所述方法，其特征在于，计算物体在深度图像中的位置(x_TOF,y_TOF)的具体方法是：