CN109831631A - 一种基于视觉注意特性的视-听觉转换导盲方法 - Google Patents

一种基于视觉注意特性的视-听觉转换导盲方法 Download PDF

Info

Publication number
CN109831631A
CN109831631A CN201910006967.3A CN201910006967A CN109831631A CN 109831631 A CN109831631 A CN 109831631A CN 201910006967 A CN201910006967 A CN 201910006967A CN 109831631 A CN109831631 A CN 109831631A
Authority
CN
China
Prior art keywords
image
converted
view
foreground object
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910006967.3A
Other languages
English (en)
Inventor
张军
王凯炼
宁更新
冯义志
余华
季飞
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910006967.3A priority Critical patent/CN109831631A/zh
Publication of CN109831631A publication Critical patent/CN109831631A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种基于视觉注意特性的视‑听觉转换导盲方法,该方法利用人类对动静态物体的视觉注意特性对视频图像进行简化,并根据其重要性分别采用精度不同的听觉显示技术进行播放,可以在避免信息过载的同时,为使用者提供更多的环境信息。本发明在对视频图像简化的同时,还对行进路线上非注意区域的障碍物和运动物体进行检测,可以更好地保证使用者安全。本发明基于人类视觉的感知特性来处理视‑听觉转换,比现有技术更符合视觉的使用习惯,使用起来更方便和自然。

Description

一种基于视觉注意特性的视-听觉转换导盲方法
技术领域
本发明涉及信号处理技术领域,具体涉及一种基于视觉注意特性的视-听觉转换导盲方法。
背景技术
人类获取的信息有80%来自视觉,视觉损伤将给人们的生活带来极大的不便。由于视觉信息的缺失,视力障碍者无法正常感知周围环境,自由行走受到阻碍,难以生活自理,给生存、生活、学习、就业、社交等方面带来巨大的困难,严重影响了其家庭的生活质量。据统计,90%左右的视觉障碍者为低收入人群。随着视力障碍者数量的不断增长,对可以引导盲人自主行走、感受周围环境信息且价格低廉的辅助工具的需求也越来越迫切。
安全行走是盲人最迫切需要解决的问题,目前常见的导盲产品主要有白手杖(White Cane)、导盲犬、电子行走辅助装置(Electronic Travel Aids,ETA)等。白手杖上没有安装任何电子辅助设备,价格低廉,是最常用的一种导盲产品,但白手杖能给盲人提供的信息非常的有限,性能价值偏低,危险系数高,难以满足视觉障碍患者的实际需要。导盲犬在发达国家中较早得到推广和应用,但我国2006年开始才出现第一批导盲犬,且因为导盲犬的使用存在着训练周期和适应期过长、成本高昂、饲养出行不便及其他诸多不可控因素,所以目前还难以在我国广泛使用。与白手杖和导盲犬相比,电子行走辅助装置具有提供信息量大、功能多、价格适中、使用方便等诸多优点,是一种更适合大规模推广的导盲方案,因此受到越来越多研究者的关注,在实际中也有着广泛的应用前景。
目前电子行走辅助装置主要可以分为智能导盲手杖、智能引导式穿戴、移动式多功能引导机器人等几种,通常采用超声、红外、激光、视频、多传感器输入等方式采集周围环境的信息,并将这些信息转换为触觉或听觉反馈给使用者。其中,由于视频输入具有信息量丰富、易于检测平面标识等优点,而听觉输出具有多维、全向及并行输出的特性,适合表示多维数据,因此成为目前导盲系统采用的主要方式之一。目前导盲系统中的视-听觉转换技术大致可以分为两类,一类是基于像素映射的低层视觉处理方法,即将采集到的灰度图像、RGB图像或深度图像的像素直接映射为音频信号,这种方法实现较简单,可以表达丰富的信息,但会使输出音频包含过多细节信息,导致使用者出现信息过载的现象。另一类是基于计算机视觉的高层视觉处理方法,即将检测到的行走路径、障碍物或其他结果通过语音或非语音音频传递给使用者,这种方法可以在一定程度上减少信息过载的发生,但只能提供路径方向和障碍物位置等信息,缺少进一步的环境描述。
由于听觉和视觉感知的机理不同,实际中很难采用声音完全反映出视频图像中的各种细节信息,需要对视频图像进行简化才能避免信息过载。人类使用视觉器官感知周围环境时,人眼对信息的处理不是均衡的,一方面会对具有高分辨率的视网膜中央凹区感应的图像关注度更高,另一方面会对移动的物体等更加敏感,因此在导盲系统中如果能够模仿视觉注意机理,保留视频输入中使用者关注的信息,弱化不受注意的信息,可以避免听觉输出时的信息过载现象,并且更接近人类视觉的使用习惯。田亚男等在2014年电子学报上发表的文章“基于注意模型的视觉替代方法”中提出了一种基于注意模型的图像简化和音频映射方法,但该方法只使用了静态图像的注意模型,在实际使用中仍存在着较大的局限。
发明内容
本发明的目的是针对现有视-听觉转换中基于像素映射的低层视觉处理方法容易信息过载,基于计算机视觉的高层视觉处理方法不能提供更丰富的环境信息的不足,提供了一种基于视觉注意特性的视-听觉转换导盲方法,该方法利用人类的视觉注意特性对视频图像进行简化,并根据景物的重要性分别采用精度不同的听觉显示技术进行播放,可以在保证使用者安全的前提下,更精细地表示视觉注意的物体,为使用者提供更丰富的环境信息。
本发明的目的可以通过采取如下技术方案达到:
一种基于视觉注意特性的视-听觉转换导盲方法,所述的视-听觉转换导盲方法包括下列步骤:
S1、从输入视频流中采集RGB彩色图像和深度图像,并基于RGBD图像,对前景物体和背景物体进行划分,其中,RGBD图像为RGB彩色图像和深度图像;
S2、设置RGBD图像中的注视区域,标注出注视区域所覆盖的前景物体,并将其转换为第一音频信号;
S3、根据采集的视频信号,将当前时间的RGBD图像与其前后数帧的RGBD图像作对比,检测并标注出RGBD图像中平均深度值最小的M个运动前景物体,然后将被标注的运动前景物体转换为第二音频信号,其中M为预设的常数;
S4、从RGBD图像的非注视区域中提取前景物体,在提取的前景物体中标注出平均深度值最小的N个前景物体,然后将被标注的前景物体转换为第三音频信号,其中N为预设的常数;
S5、将得到的第一音频信号、第二音频信号、第三音频信号按预设顺序对使用者播放。
进一步地,所述的步骤S1中,采用标记分水岭对RGBD图像进行前景物体和背景物体进行划分,具体过程如下:
S1.1、基于深度图像计算深度梯度图像和法向量梯度图像,基于RGB彩色图像计算彩色梯度图像;
S1.2、对上述深度梯度图像、法向量梯度图像和彩色梯度图像的每幅图像进行处理,提取图像中所有极小值的深度,删除深度小于预先指定阈值的极小值点,只保留深度大于预先指定阈值的极小值点;
S1.3、将步骤S1.2所得的三幅图像进行与操作,得到标记图像;
S1.4、利用标记图像对彩色梯度图像进行修正,使彩色梯度图像只在标记处具有极小值,不在标记处的像素点不具有极小值;
S1.5、在修正后的彩色梯度图像上进行分水岭分割;
S1.6、根据深度图像判断步骤S1.5分割结果中物体遮挡关系,将被遮挡物体作为背景物体,未被遮挡的物体作为前景物体。
进一步地,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1A、将前景物体中每个像素点的坐标映射为声场的来波方向,深度值映射为声音强度,来波方向采用以下公式计算:
其中φ和θ分别为来波方向的仰角和方向角,x和y为像素点对应的图像坐标,x0和y0分别为来波方向的仰角和方向角为0时对应的图像坐标,Θ和Ξ分别为摄像头视场仰角和方向角变化范围的大小。深度值采用下式映射为声音强度
Nf=10Alog10(4π(dmax-d)2+1) (3)
其中Nf为映射后的声音强度,dmax为摄像头所能识别最大深度值,d为像素点的深度值,A为预设的增益;
S2.2A、计算每个像素点所对应的来波方向的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,用头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号;
S2.3A、按预设的顺序逐点计算上述前景物体的像素对应的双声道音频信号,直至所有像素计算完毕。
进一步地,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1B、预设所使用的几何图形集合,每个几何图形设定其对应的激励音频;
S2.2B、将前景物体的轮廓用几何图形集合中几何图形的组合进行近似;
S2.3B、按预设的顺序选择组成上述前景物体的一个几何图形,将其中心的图像坐标转换为声场的来波方向,平均深度映射为播放的重复频率,面积大小映射为声音的强度;
S2.4B、计算步骤S2.3B中几何图形中心对应的来波方向的头部传输函数,将其对应的激励音频放大至其对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号;
S2.5B、若S2.2B中得到的所有几何图形均已转换为音频信号,则转换结束,否则转步骤S2.3B。
进一步地,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1C、提取上述前景物体的边缘;
S2.2C、选取一个前景物体边缘中的一个像素点作为起点;
S2.3C、将上述像素点的图像坐标转换为声场的来波方向,深度值转换为声音强度;
S2.4C、计算上述像素点所对应的来波方向的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,用头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号;
S2.5C、按顺时针或逆时针顺序选择上述边缘的下一像素点,若该点为起点,则此前景物体的边缘转换完毕,否则转步骤S2.3C。
进一步地,所述的步骤S3中被标注的运动前景物体采用以下方法转换为音频信号:
S3.1、计算运动前景物体中心坐标的运动轨迹;
S3.2、将运动轨迹起点的坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度;
S3.3、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号;
S3.4、若当前点为上述运动轨迹的终点,则转换结束,否则选取下一轨迹点,并将其坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度,转步骤S3.3。
进一步地,所述的步骤S4中任一非注视区域的前景物体采用以下方法转换为音频信号:
S4.1、将上述非注视区域中前景物体的中心坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度;
S4.2、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号。
非注视区域有多个前景物体,每个前景物体采用相同的步骤处理。
进一步地,所述的几何图形集合包括矩形、椭圆形、梯形和三角形。
进一步地,所述的步骤S2.2B具体如下:
将几何图形集合中的图形单独或组合后与前景物体进行拟合,以拟合误差最小为目标函数,采用动态规划求解出最佳图形组合。
进一步地,所述的将运动轨迹起点的深度值映射为播放的重复频率的过程如下:
预先设置某一区间深度值对应的播放重复频率,得到深度值与播放重复频率的分段映射表,根据上述分段映射表查找运动轨迹点深度对应的播放重复频率。
本发明相对于现有技术具有如下的优点及效果:
1、本发明利用人类对动静态物体的视觉注意特性对视频图像进行简化,并根据其重要性分别采用精度不同的听觉显示技术进行播放,可以在避免信息过载的同时,为使用者提供更多的环境信息。
2、本发明在对视频图像简化的同时,还对行进路线上非注意区域的障碍物和运动物体进行检测,可以更好地保证使用者安全。
3、本发明基于人类视觉的感知特性来处理视-听觉转换,比现有技术更符合视觉的使用习惯,使用起来更方便和自然。
附图说明
图1是本发明实施例一的硬件结构框图;
图2是本发明实施例一中基于视觉注意特性的视-听觉转换导盲方法的主流程图;
图3是本发明实施例一中注视区域所覆盖的前景物体转换为音频信号的流程图;
图4是本发明实施例一中运动物体转换为音频的流程图;
图5是本发明实施例一中非注视区域的前景物体转换为音频的流程图;
图6是本发明实施例二中注视区域所覆盖的前景物体转换为音频信号的流程图;
图7是本发明实施例三中注视区域所覆盖的前景物体转换为音频信号的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例中的硬件结构如图1所示,由视频采集模块、视-音频转换模块、音频输出模块共同构成,上述三个模块顺次连接,视频采集模块用于采集视频信号,采用华硕Xtion Pro体感摄像头来获取所需的RGB彩色图像和深度图像;视-音频转换模块用于完成从视频信号中提取RGB彩色图像和深度图像、将RGB彩色图像和深度图像映射为音频信号的功能,采用友善之臂ARM9mini2440作为主控平台,通过USB与Xtion Pro摄像头连接,使用相应的驱动和接口来获取信息并进行处理;音频播放模块用于播放视-音频转换模块合成的音频,采用双声道耳机来实现。
本实施例基于上述硬件结构,公开了一种基于视觉注意特性的视-听觉转换导盲方法,其流程如图2所示,具体包含以下步骤:
S1、从输入视频流中采集RGB彩色图像和深度图像,并基于RGBD图像,对前景物体和背景物体进行划分,其中,RGBD图像为RGB彩色图像和深度图像。
本实施例中,采用华硕的产品Xtion Pro采集使用者所处环境的RGBD图像(即为RGB彩色图像和深度图像),两种图像具有相同的宽度和高度,并采用基于RGBD的标记分水岭算法对RGB彩色图像和深度图像进行分割,提取前景物体,具体包含以下步骤:
S1.1、基于深度图像计算得到深度梯度图像和法向量梯度图像,基于RGB彩色图像计算得到彩色梯度图像。
S1.2、对上述深度梯度图像、法向量梯度图像和彩色梯度图像的每幅图像进行处理,提取图像中所有极小值的深度,删除深度小于预先指定阈值的极小值点,只保留深度大于预先指定阈值的极小值点。
S1.3、将步骤S1.2所得的三幅图像进行与操作,得到标记图像。
S1.4、利用标记图像对彩色梯度图像进行修正,使彩色梯度图像只在标记处具有极小值,不在标记处的像素点不具有极小值。
S1.5、在修正后的彩色梯度图像上进行分水岭分割。
S1.6、根据深度图像判断步骤S1.5分割结果中物体遮挡关系,将被遮挡物体作为背景物体,未被遮挡的物体作为前景物体。
S2、设置RGBD图像中的注视区域,标注出注视区域所覆盖的前景物体,并将其转换为第一音频信号。
本实施例中,注视区域设置为图像坐标为(0.25W,0.25H),(0.75W,0.25H),(0.25W,0.75H),(0.75W,0.75H)的四个点所围成的矩形区域,其中W和H分别为RGB彩色图像的宽和高。将步骤S1中提取的前景物体在RGBD图像中的位置与注视区域比较,标注出注视区域所覆盖的前景物体。
本实施例中,注视区域所覆盖的任一前景物体采用以下步骤转换为音频,其流程如图3所示:
S2.1A、将上述前景物体中每个像素点的坐标映射为声场的来波方向,深度值映射为声音强度。本实施例中,来波方向采用以下公式计算:
其中φ和θ分别为来波方向的仰角和方向角,x和y为像素点对应的图像坐标,x0和y0分别为来波方向的仰角和方向角为0时对应的图像坐标,Θ和Ξ分别为摄像头视场仰角和方向角变化范围的大小。深度值采用下式映射为声音强度
Nf=10Alog10(4π(dmax-d)2+1) (3)
其中Nf为映射后的声音强度,dmax为摄像头所能识别最大深度值,d为像素点的深度值,A为预设的增益。
S2.2A、计算每个像素点所对应的来波方向的头部传输函数。将预设的激励音频放大至像素点对应的声音强度,用上述头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号。
本实施例中,头部传输函数采用CIPIC HRTF数据库进行计算,将步骤S2.1A中得到的来波方向映射为CIPIC HRTF数据库中方位角和仰角最接近的声源点,查表得到该声源点对应的双声道头部传输函数冲激响应。然后将预设的激励音频放大至Nf,并与上述双声道头部传输函数冲激响应进行卷积,最后截取预设时长的卷积结果得到的双声道音频信号。
S2.3A、按预设的顺序逐点计算上述前景物体的像素对应的双声道音频信号,直至所有像素计算完毕。
本实施例中,输出的预设顺序按照y轴坐标从高到低、x轴坐标从左到右的顺序逐点计算上述前景物体的像素对应的双声道音频信号。
S3、根据采集的视频信号,将当前时间的RGBD图像与其前后数帧的RGBD图像作对比,检测并标注出RGBD图像中平均深度值最小的M个运动前景物体,然后将被标注的运动前景物体转换为第二音频信号,其中M为预设的常数。
本实施例中,M设置为3,根据当前时间的前后数帧的RGBD图像,采用卡尔曼滤波检测并跟踪平均深度值最小的3个以内运动物体,并将其转换为音频。对于上述任一运动物体,上述实施例采用以下方法转换为音频,流程如图4所示:
S3.1、计算运动前景物体中心坐标的运动轨迹。本实施例中,采用每帧深度图像中运动前景物体的质心作为运动物体中心坐标,多帧深度图像中求得的上述运动物体质心构成上述运动物体的运动轨迹。
S3.2、将运动轨迹起点的坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度。
本实施例中,预先设置某一区间深度值对应的播放重复频率,得到深度值与播放重复频率的分段映射表,根据上述分段映射表查找上述运动轨迹点深度对应的播放重复频率。声场的来波方向采用式(1)和式(2)计算,声音强度采用下式计算:
Nmov=N0S/(WH) (4)
其中Nmov为上述轨迹点对应的声音强度,N0为预设的常数,S为运动物体的面积,W和H分别为RGBD图像的宽度和高度。
S3.3、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号。
S3.4、若当前点为上述运动轨迹的终点,则转换结束。否则选取下一轨迹点,并将其坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度,转步骤S3.3。
S4、从RGBD图像的非注视区域中提取前景物体,在提取的前景物体中标注出平均深度值最小的N个前景物体,然后将被标注的前景物体转换为第三音频信号,其中N为预设的常数。
本实施例中,N设置为5,选取平均深度值最小的5个非注视区域前景物体,并对上述任一前景物体,采用以下方法转换为音频,流程如图5所示:
S4.1、将非注视区域中前景物体的中心坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度。本实施例中,预先设置某一区间深度值对应的播放重复频率,得到深度值与播放重复频率的分段映射表,根据上述分段映射表查找上述运动轨迹点深度对应的播放重复频率。声场的来波方向采用式(1)和式(2)计算,声音强度采用式(4)计算。
S4.2、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号。
本实施例中,按上述重复频率计算激励音频的长度,例如输出音频的预设时长为0.5秒,上述重复频率为10,则激励音频长度设置为0.05秒,并复制10次得到0.5秒的音频。上述头部传输函数采用CIPIC HRTF数据库进行计算,将步骤S4.1中得到的来波方向映射为CIPIC HRTF数据库中方位角和仰角最接近的声源点,查表得到该声源点对应的双声道头部传输函数冲激响应。将按重复频率复制后的激励音频与头部传输函数的冲激响应进行卷积并截取0.5秒的输出,得到预设时长的双声道音频信号。
S5、将得到的第一音频信号、第二音频信号、第三音频信号按预设顺序对使用者播放。
本实施例中,若上述步骤S3中检测到前景运动物体接近使用者的速度超过预设值时,优先实时播放其对应的第二音频信号,否则则按照深度从小到大和注视区域前景物体、运动物体、非注视区域前景物体的优先顺序播放对应的音频信号。
实施例二
本实施例中,步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号,流程如图6所示:
S2.1B、预设所使用的几何图形集合,每个几何图形设定其对应的激励音频。
本实施例中,所述的几何图形集合包括矩形、椭圆形、梯形和三角形四类几何图形。
S2.2B、将前景物体的轮廓用上述几何图形的组合来近似。
本实施例中,将几何图形集合中的图形单独或组合后与前景物体进行拟合,以拟合误差最小为目标函数,采用动态规划求解出最佳图形组合。
S2.3B、按预设的顺序选择组成上述前景物体的一个几何图形,将其中心的图像坐标转换为声场的来波方向,平均深度映射为播放的重复频率,面积大小映射为声音的强度。
本实施例中,预先设置某一区间深度值对应的播放重复频率,得到深度值与播放重复频率的分段映射表,根据上述分段映射表查找上述运动轨迹点深度对应的播放重复频率。声场的来波方向采用式(1)和式(2)计算,声音强度采用式(4)计算。
S2.4B、计算步骤S2.3B中几何图形中心对应的来波方向的头部传输函数,将其对应的激励音频放大至其对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号。
本实施例中,按上述重复频率计算激励音频的长度,例如输出音频的预设时长为0.5秒,上述重复频率为10,则激励音频长度设置为0.05秒,并复制10次得到0.5秒的音频。上述头部传输函数采用CIPIC HRTF数据库进行计算,将步骤S2.3B中得到的几何图形中心对应的来波方向映射为CIPIC HRTF数据库中方位角和仰角最接近的声源点,查表得到该声源点对应的双声道头部传输函数冲激响应。。将按重复频率复制后的激励音频与头部传输函数的冲激响应进行卷积并截取0.5秒的输出,得到预设时长的双声道音频信号。
S2.5B、若步骤S2.2B中得到的所有几何图形均已转换为音频信号,则转换结束,否则转步骤S2.3B。
实施例三
本实施例中,步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号,流程如图7所示:
S2.1C、提取注视区域所覆盖前景物体的边缘。
本实施例中,采用Sobel算子提取前景物体的边缘。
S2.2C、选取上述其中一个物体边缘中的一个像素点作为起点。
S2.3C、将上述像素点的图像坐标转换为声场的来波方向,深度值转换为声音强度。
本实施例中,来波方向采用式(1)和式(2)计算。深度值采用式(3)映射为声音强度。
S2.4C、计算上述像素点所对应的来波方向的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,用上述头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号。
本实施例中,头部传输函数采用CIPIC HRTF数据库进行计算,将步骤S2.3C中得到的来波方向映射为CIPIC HRTF数据库中方位角和仰角最接近的声源点,查表得到该声源点对应的双声道头部传输函数冲激响应。然后将预设的激励音频放大至Nf,并与上述双声道头部传输函数冲激响应进行卷积,最后截取预设时长的卷积结果得到的双声道音频信号。
S2.5C、按顺时针或逆时针顺序选择上述边缘的下一像素点,若该点为起点,则此前景物体的边缘转换完毕,否则转步骤S2.3C。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的视-听觉转换导盲方法包括下列步骤:
S1、从输入视频流中采集RGB彩色图像和深度图像,并基于RGBD图像,对前景物体和背景物体进行划分,其中,RGBD图像为RGB彩色图像和深度图像;
S2、设置RGBD图像中的注视区域,标注出注视区域所覆盖的前景物体,并将其转换为第一音频信号;
S3、根据采集的视频信号,将当前时间的RGBD图像与其前后数帧的RGBD图像作对比,检测并标注出RGBD图像中平均深度值最小的M个运动前景物体,然后将被标注的运动前景物体转换为第二音频信号,其中M为预设的常数;
S4、从RGBD图像的非注视区域中提取前景物体,在提取的前景物体中标注出平均深度值最小的N个前景物体,然后将被标注的前景物体转换为第三音频信号,其中N为预设的常数;
S5、将得到的第一音频信号、第二音频信号、第三音频信号按预设顺序对使用者播放。
2.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S1过程如下:
S1.1、基于深度图像计算深度梯度图像和法向量梯度图像,基于RGB彩色图像计算彩色梯度图像;
S1.2、对上述深度梯度图像、法向量梯度图像和彩色梯度图像的每幅图像进行处理,提取图像中所有极小值的深度,删除深度小于预先指定阈值的极小值点,只保留深度大于预先指定阈值的极小值点;
S1.3、将步骤S1.2所得的三幅图像进行与操作,得到标记图像;
S1.4、利用标记图像对彩色梯度图像进行修正,使彩色梯度图像只在标记处具有极小值,不在标记处的像素点不具有极小值;
S1.5、在修正后的彩色梯度图像上进行分水岭分割;
S1.6、根据深度图像判断步骤S1.5分割结果中物体遮挡关系,将被遮挡物体作为背景物体,未被遮挡的物体作为前景物体。
3.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1A、将前景物体中每个像素点的坐标映射为声场的来波方向,深度值映射为声音强度,来波方向采用以下公式计算:
其中φ和θ分别为来波方向的仰角和方向角,x和y为像素点对应的图像坐标,x0和y0分别为来波方向的仰角和方向角为0时对应的图像坐标,Θ和Ξ分别为摄像头视场仰角和方向角变化范围的大小,深度值采用下式映射为声音强度
Nf=10Alog10(4π(dmax-d)2+1) (3)
其中Nf为映射后的声音强度,dmax为摄像头所能识别最大深度值,d为像素点的深度值,A为预设的增益;
S2.2A、计算每个像素点所对应的来波方向的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,用头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号;
S2.3A、按预设的顺序逐点计算上述前景物体的像素对应的双声道音频信号,直至所有像素计算完毕。
4.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1B、预设所使用的几何图形集合,每个几何图形设定其对应的激励音频;
S2.2B、将前景物体的轮廓用几何图形集合中几何图形的组合进行近似;
S2.3B、按预设的顺序选择组成上述前景物体的一个几何图形,将其中心的图像坐标转换为声场的来波方向,平均深度映射为播放的重复频率,面积大小映射为声音的强度;
S2.4B、计算步骤S2.3B中几何图形中心对应的来波方向的头部传输函数,将其对应的激励音频放大至其对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号;
S2.5B、若S2.2B中得到的所有几何图形均已转换为音频信号,则转换结束,否则转步骤S2.3B。
5.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S2中注视区域所覆盖的任一前景物体采用以下方法转换为音频信号:
S2.1C、提取上述前景物体的边缘;
S2.2C、选取一个前景物体边缘中的一个像素点作为起点;
S2.3C、将上述像素点的图像坐标转换为声场的来波方向,深度值转换为声音强度;
S2.4C、计算上述像素点所对应的来波方向的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,用头部传输函数对其进行滤波,从而得到预设时长的双声道音频信号;
S2.5C、按顺时针或逆时针顺序选择上述边缘的下一像素点,若该点为起点,则此前景物体的边缘转换完毕,否则转步骤S2.3C。
6.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S3中被标注的运动前景物体采用以下方法转换为音频信号:
S3.1、计算运动前景物体中心坐标的运动轨迹;
S3.2、将运动轨迹起点的坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度;
S3.3、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号;
S3.4、若当前点为上述运动轨迹的终点,则转换结束,否则选取下一轨迹点,并将其坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度,转步骤S3.3。
7.根据权利要求1所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S4中任一非注视区域的前景物体采用以下方法转换为音频信号:
S4.1、将上述非注视区域中前景物体的中心坐标转换为声场的来波方向,深度值映射为播放的重复频率,运动物体的面积大小映射为声音强度;
S4.2、计算上述来波方向对应的头部传输函数,将预设的激励音频放大至像素点对应的声音强度,并按其对应的重复频率进行复制,最后用上述头部传输函数对放大复制后的激励音频进行滤波,得到预设时长的双声道音频信号。
8.根据权利要求4所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的几何图形集合包括矩形、椭圆形、梯形和三角形。
9.根据权利要求4所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的步骤S2.2B具体如下:
将几何图形集合中的图形单独或组合后与前景物体进行拟合,以拟合误差最小为目标函数,采用动态规划求解出最佳图形组合。
10.根据权利要求6或7所述的一种基于视觉注意特性的视-听觉转换导盲方法,其特征在于,所述的将运动轨迹起点的深度值映射为播放的重复频率的过程如下:
预先设置某一区间深度值对应的播放重复频率,得到深度值与播放重复频率的分段映射表,根据上述分段映射表查找运动轨迹点深度对应的播放重复频率。
CN201910006967.3A 2019-01-04 2019-01-04 一种基于视觉注意特性的视-听觉转换导盲方法 Pending CN109831631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910006967.3A CN109831631A (zh) 2019-01-04 2019-01-04 一种基于视觉注意特性的视-听觉转换导盲方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910006967.3A CN109831631A (zh) 2019-01-04 2019-01-04 一种基于视觉注意特性的视-听觉转换导盲方法

Publications (1)

Publication Number Publication Date
CN109831631A true CN109831631A (zh) 2019-05-31

Family

ID=66859990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910006967.3A Pending CN109831631A (zh) 2019-01-04 2019-01-04 一种基于视觉注意特性的视-听觉转换导盲方法

Country Status (1)

Country Link
CN (1) CN109831631A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101461A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN113196390A (zh) * 2021-03-09 2021-07-30 曹庆恒 一种基于听觉的感知系统及其使用方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130222561A1 (en) * 2012-02-03 2013-08-29 National Taipei University Of Technology Guide System Having Function of Real-Time Voice Response for the Visually Impaired and Method Thereof
CN106871906A (zh) * 2017-03-03 2017-06-20 西南大学 一种盲人导航方法、装置及终端设备
CN107888973A (zh) * 2017-11-24 2018-04-06 华南理工大学 一种脑电控制的视频输入听觉显示导盲装置及方法
CN108169927A (zh) * 2017-12-05 2018-06-15 北京控制与电子技术研究所 一种基于双目立体视觉的导盲眼镜
CN108711425A (zh) * 2018-05-03 2018-10-26 华南理工大学 一种基于语音控制的视频输入听觉显示导盲装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130222561A1 (en) * 2012-02-03 2013-08-29 National Taipei University Of Technology Guide System Having Function of Real-Time Voice Response for the Visually Impaired and Method Thereof
CN106871906A (zh) * 2017-03-03 2017-06-20 西南大学 一种盲人导航方法、装置及终端设备
CN107888973A (zh) * 2017-11-24 2018-04-06 华南理工大学 一种脑电控制的视频输入听觉显示导盲装置及方法
CN108169927A (zh) * 2017-12-05 2018-06-15 北京控制与电子技术研究所 一种基于双目立体视觉的导盲眼镜
CN108711425A (zh) * 2018-05-03 2018-10-26 华南理工大学 一种基于语音控制的视频输入听觉显示导盲装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田亚男 等: "《基于注意模型的视觉替代方法》", 《电子学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101461A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN112101461B (zh) * 2020-09-16 2022-02-25 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
CN113196390A (zh) * 2021-03-09 2021-07-30 曹庆恒 一种基于听觉的感知系统及其使用方法
WO2022188022A1 (zh) * 2021-03-09 2022-09-15 曹庆恒 一种基于听觉的感知系统及其使用方法
CN113196390B (zh) * 2021-03-09 2024-04-05 曹庆恒 一种基于听觉的感知系统及其使用方法

Similar Documents

Publication Publication Date Title
JP6599436B2 (ja) ユーザ選択可能な新規ビューを生成するためのシステムおよび方法
CN106774856B (zh) 基于唇语的交互方法以及交互装置
CN108245384B (zh) 基于增强学习的双目视觉导盲仪
CN106599853B (zh) 远程教学过程中进行形体姿态纠正的方法及其设备
US20130136304A1 (en) Apparatus and method for controlling presentation of information toward human object
CN107888973B (zh) 一种脑电控制的视频输入听觉显示导盲装置及方法
CN108519676A (zh) 一种头戴式助视装置
CN105686936B (zh) 一种基于rgb‐ir相机的声音编码交互系统
CN105578044A (zh) 一种全景位自适应老师图像分析方法
CN109831631A (zh) 一种基于视觉注意特性的视-听觉转换导盲方法
CN106504751A (zh) 自适应唇语交互方法以及交互装置
US11048326B2 (en) Information processing system, information processing method, and program
CN102081918A (zh) 一种视频图像显示控制方法及视频图像显示器
CN103257707B (zh) 利用视线跟踪技术和常规鼠标控制设备的三维漫游方法
CN111047511A (zh) 一种图像处理方法及电子设备
CN101853286A (zh) 视频缩略图智能选取方法
WO2022188022A1 (zh) 一种基于听觉的感知系统及其使用方法
CN109192267A (zh) 运动陪伴虚拟机器人
CN107242964A (zh) 基于深度学习的导盲系统及工作方法
CN106055092A (zh) 一种实现互动投影的方法及系统
CN204462541U (zh) 一种可实现增强现实的智能眼镜
CN110825216A (zh) 一种驾驶员驾驶时人机交互的方法和系统
WO2022267653A1 (zh) 图像处理方法、电子设备及计算机可读存储介质
CN105701811A (zh) 一种基于rgb-ir相机的声音编码交互方法
CN102799855A (zh) 基于视频流的人手定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190531

WD01 Invention patent application deemed withdrawn after publication