CN101040810A

CN101040810A - 基于物体辨识的盲人生活辅助装置

Info

Publication number: CN101040810A
Application number: CN 200710039632
Authority: CN
Inventors: 朱湘君; 谢青; 闫静; 杜嘉; 童善保; 朱贻盛; 邱意弘
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2007-04-19
Filing date: 2007-04-19
Publication date: 2007-09-26
Anticipated expiration: 2027-04-19
Also published as: CN100542507C

Abstract

一种基于物体辨识的盲人生活辅助装置，其中：物体信息缓冲单元存储环境中已检测出的每一个物体的种类信息、图像中的位置坐标，相对盲人的三维位置信息、特征信息和注意力等级；物体检测单元检测图像传感器的探测区域内是否有可以被检测的物体，比对检测到的物体是否是已有记录的物体，并将新检测到的物体在图像中的位置坐标和物体的类别信息存入物体信息缓冲单元，并给予最高的注意力等级；物体测距单元测量物体信息缓冲单元中每一个物体相对于盲人的三维位置信息；感觉替代单元将物体信息缓冲单元中的物体按盲人的要求转换为声音信号或触觉信号，使盲人能感知环境中物体的存在。本发明提高了盲人认知环境的效率。

Description

基于物体辨识的盲人生活辅助装置

技术领域

本发明涉及一种信息技术领域的盲人生活辅助装置，特别是一种基于物体辨识的盲人生活辅助装置。

背景技术

随着计算机视觉、模式识别技术和多媒体技术的发展，人们开始尝试用信息化的电子装置辅助盲人的生活。在盲人生活辅助领域，一般采用听觉或触觉来代替视觉给盲人传递信息(即术语所称的“感觉替代”)。但是由于人类的信息获取极大依赖于视觉，人类80％以上的信息是通过视觉渠道获取的，而听觉和触觉传递信息量很少，因此如何用声音或触觉合适地表示环境图像中的信息，使盲人及时得到环境中最重要的信息成为一个日益重要的问题。针对感觉替代中的环境表示问题，典型的方法有基于像素对应的环境表示方法和基于物体辨识的环境表示方法两种。基于像素对应的环境表示方法将环境图像中每个像素的物理特征转化为声音后叠加。这样的环境表示方法并不能使盲人理解环境中物体的种类。基于物体辨识的环境表示方法将环境图像中的多种物体一一识别出来，以物体为单位将环境信息通过声音告知盲人，使盲人真正理解环境中物体的意义。基于物体辨识的环境表示方法非常适用于帮助盲人取物的情况，因为盲人必须知道周围的物体中是否有他需要的物体，才能伸手取物。

经对现有技术文献的检索发现，中国专利申请号02143161.2，该专利公开的盲人步行用辅助装置，虽然主要面向障碍物的识别，但在其实施方式中描述了利用一个物体识别元件来识别来自双目(多目)摄像头的图像中的物体的构思。通过该装置，盲人能够知道周围环境中障碍物的信息，甚至知道障碍物的种类，因此具有较大的实用价值。但是其主要问题在于：第一，当环境中存在多种物体时，盲人将听到环境中所有物体同时发出的声音，使盲人很难分辨得到单个物体的声音。第二，如果在实践中使盲人听到的声音有一定的前后间隔以使盲人能有时间听清每个声音，则表示整个环境中的多个物体所用的时间将延长，这无疑降低了盲人获得环境信息的速度。第三，当盲人位置的变化或是环境中物体的移动，环境图像中出现了新的物体，但在上述发明中，由于各个物体识别后表示的方法是一致的，所以新识别出的物体很难与已经被识别出来的物体区别开。最后，当上述发明的物体检测单元在环境图像中检测多个同类物体时出现假阴性错误时，盲人可能会将环境中已被识别出来的物体视为同一个物体，造成原有物体已经移动的假象。

现有技术的困难在于，虽然有办法得到环境中物体的种类和位置，但由于听觉的传递信息的量远小于视觉，必须考虑如何用表示效率较高的方式告知盲人能够知道周围环境中障碍物的信息。要提高盲人理解环境的效率，一种方法是引入注意力机制，将每次新检测的物体突出表示，将已被检测到的物体弱化表示，使盲人对已被感知的物体能做到“熟视无睹”，而将注意力专注在新被感知的物体上。因此，结合了注意力的物体辨识的盲人生活辅助装置能提高盲人认知环境的效率，方便盲人生活。

发明内容

本发明针对现有技术的不足与缺陷，提供一种基于物体辨识的盲人生活辅助装置，使盲人通过该装置能够在得到环境中每个物体的种类和位置的同时，专注于环境图像中新近出现的物体，更有效率地了解环境。

本发明是通过以下技术方案实现的。本发明包括：物体信息缓冲单元、物体检测单元、物体测距单元和感觉替代单元。物体检测单元的输入端连接到物体信息缓冲单元，其输出端连接到物体信息缓冲单元；物体测距单元的输入端连接到物体信息缓冲单元，其输出端连接到物体信息缓冲单元；感觉替代单元的输入端连接到物体信息缓冲单元。

物体信息缓冲单元中不但存储通常具备的有已经被检测到的每个物体的种类信息、在图像中的位置坐标、相对盲人的三维位置信息，还存储有物体在图像中区域的灰度图像和色调直方图等物体的特征信息。物体的灰度图像和物体的色调直方图等物体特征信息是为了在以后得到的图像中与新检测到的物体比较而存储的。

物体检测单元负责检测环境图像中的物体，根据环境中的物体添加、更新物体信息缓冲单元中的内容。

物体检测单元能够得到环境图像，利用多物体分类器检测到环境图像内是否有可以被检测到的物体。在检测完一帧图像之后，物体检测单元能够根据检测到的物体与已被检测到的物体之间的相似性程度判断检测到的物体是否与物体信息缓冲单元中已有的物体是同一物体，如果检测到的物体满足相似性判据，则认为两者是同一物体，于是更新物体信息缓冲单元中的已被检测到的物体在图像中的位置坐标和物体特征信息，并降低该物体的注意力等级。

以上操作的效果类似于不断跟踪已有的物体的最新位置。

当图像中检测到的物体与物体信息单元中的任何物体都不满足相似性判据时，该物体在图像中的位置坐标、物体的类别信息和物体的特征信息将被存入物体信息缓冲单元并被赋予最高的注意力等级，表示这是最新近检测到的环境中的物体。在以后的图像中，物体检测单元将不断跟踪该物体的最新位置。

如果物体检测单元多次检测均没有再次检测到的某个物体，该物体的信息将在物体信息缓冲单元中被删除。这样，物体信息缓冲单元中的物体信息是被持续更新的。如果一个物体在一段时间内没有被检测到，则认为该物体不存在于图像传感器的探测范围中，因此不能被感觉替代部分通过声音或触觉信号表示出来。

如果没有新物体被检测到，而没有物体处于最高注意力等级时，则认为盲人在搜索已知的环境，物体检测单元能够给予处于盲人正前方的物体最高的注意力等级，方便盲人拿取该物体。

物体测距单元负责根据物体信息缓冲单元中的物体在图像中的位置坐标得到并更新物体相对盲人的三维位置信息。

感觉替代单元负责根据物体信息缓冲单元中的物体信息发出与物体的类别和物体相对盲人的三维位置相适应的声音，使盲人理解各个物体的种类和位置。在本发明中，物体信息缓冲单元中的信息被用来合成三维虚拟立体声，通过立体声的双耳定位作用使盲人清楚地得到物体的位置。而且物体与声音之间是很自然的一一对应的关系，不同的声音使盲人清楚地感知物体的类别。

感觉替代单元根据物体的注意力等级来决定如何表示物体。如果物体是新近检测到的物体，该物体将被优先以与较低注意力级别的物体相异的方式告知盲人以方便盲人及时感知最需要关注的物体的位置。如果物体是已经被多次检测到的物体，则物体对应的声强降低，发声优先次序下降，表示该物体不是新近检测到的，不必占用盲人更多的注意力分辨它。

当环境中没有新被检测到的物体时，装置认为盲人在一个所有物体都已知的环境中，因此当物体处于盲人正前方并且处于伸手范围之内时，该物体被赋予最高注意力级别。该物体被优先以与较低注意力级别的物体相异的方式告知盲人，使盲人尽快知道处于可被取用范围内的物体的种类和位置。

与现有技术相比，本发明的有益效果在于：

首先，本发明提高了盲人感知环境的效率。在一个多物体的环境中，由于多个声音依次发出时，盲人必须用心辨别每个声音对应的物体。使用本发明后，盲人听到的第一个声音就代表了环境中最需要关注的物体，而以后听到的物体都是已被检测到的物体，盲人可以不用关注。一般表示一个物体所用的语音(汉语中的一个双音节名词)所占用时间在0.5-0.8s左右，这意味着盲人可以在以上时间内得到环境中重要物体(新观察到的物体)的信息。而在一个三个物体的场景中，盲人要用上1.5-2.4s时间用心听完每个物体的声音才能得到环境中重要物体的信息。

其次，由于本发明不断地跟踪已被检测到的物体的位置，在每一帧环境图像中，即使每个物体没有被检测出来，由于该物体的记录始终存在，该物体仍然可以发声。这样做可以避免多物体检测器容易出现的假阴性错误。同时由于物体检测单元多次检测均没有再次检测到的某个物体，该物体的信息将在物体信息缓冲单元中被删除，这避免了装置出现假阳性错误，因为假阳性错误必须连续多次出现才能导致错误的发声。

附图说明

图1为本发明实施例的结构框图

图2为本发明实施例的外观图

图3为本发明实施例使用过程中的例子图

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1和图2所示，本实施例结合注意力排序和基于物体辨识的盲人生活辅助装置(以下简称装置)包括物体信息缓冲单元2、物体检测单元3、物体测距单元4、感觉替代单元5，与上述单元配合的还有配置在盲人头上的双目摄像头1和立体声耳机6。双目摄像头1是物体检测单元3和物体测距单元4共用的部件，既将双目视觉图像中的参考图像(一般是右侧图像)提供物体检测单元用于检测的环境图像，又将双目视觉图像提供给物体测距单元。这样做的好处是物体的检测和测距都在双目视觉图像的参考图像中进行，简化了图像处理过程。本装置正常工作时，被固定在盲人的头顶。

物体检测单元得到双目摄像头的参考图像，并且利用多物体分类器检查其中是否存在特定种类的物体。在检测完一帧图像之后，物体检测单元能够根据检测到的物体与已被检测到的物体之间的相似性程度判断检测到的物体是否与物体信息缓冲单元中已有的物体是同一物体。相似性判据由一组布尔判断组成，构成布尔判断的有：检测到的物体是否和已有物体属于同一类型物体，检测到的物体是否和已有物体的距离小于设定的阈值，检测到的物体和已有物体在色调直方图中的最大象素数目的色调值是否相同，检测到的物体与已有物体的相关卷积是否大于设定的阈值，检测到的物体与已有物体的SAD(象素深度差绝对值之和)是否小于设定的阈值。当检测到的物体与已有物体满足以上布尔判断时，则认为两者是同一物体，于是更新物体信息缓冲单元中的已被检测到的物体在图像中的位置坐标和物体特征信息，并降低该物体的注意力等级。当图像中检测到的物体与物体信息单元中的任何物体都不满足相似性判据时，该物体在图像中的位置坐标、物体的类别信息和物体的特征信息将被存入物体信息缓冲单元并被赋予最高的注意力等级，表示这是最新近检测到的环境中的物体。在以后的图像中，物体检测单元将不断跟踪该物体的最新位置。

如果检测到的物体与物体缓冲单元中所有的物体记录都不符合相似性判据时，该检测到的物体被认为是环境中新出现、需要被关注的物体，于是新检测到的物体的种类信息、物体在图像中的位置坐标，物体的特征信息将被作为检测到的物体的信息写入物体信息缓冲单元。同时该物体被赋予最高的注意力级别以保证此物体将优先于其它物体传达给盲人。

同时物体测距单元将双目摄像头中得到双目图像转化为参考图像的视差图像，视差图像的每一象素记录了参考图像对应坐标象素的视差值。当物体检测单元在参考图像中的检测工作完成后，物体测距单元根据存放在物体信息缓冲单元的每个物体在参考图像中的二维坐标，得到每个物体的视差，从而将每个物体相对立体摄像头的三维位置求出。

图3为本发明实施例使用过程中的例子图，本实施例的感觉替代单元在表示盲人周围环境中有两类不同的物体：属于球(SA)类的A1、A2和属于杯子(SB)类的B1的例子图。本例中，当盲人的头部自左向右移动时，物体检测单元检测到环境中依次出现新物体A2、B1、A1，并且由物体测距单元测得物体A1、A2、B1到相对盲人的三维位置信息。环境中最优先的物体依次演变为A2，B1，A1，而且最优先出现的物体的声强被加大，频率被升高以引起盲人注意，这样盲人能很方便知道前方出现了那些物体，物体是不是他需要的。

当盲人搜索完环境之后，决定取用一个SA类物体。此时由于没有物体被新检测到，装置将盲人正前方的物体A1的注意力级别设为最高，方便盲人判断A1的方位，拿取A1。如果盲人决定取用一个SB类物体，只需转动头部，当盲人正对着B1时，B1的注意力级别被设为最高，盲人能够立刻知道到物体B1的位置在正前方，伸手可得之。

图中整个场景的声音信号是由场景中的每个物体都转化的成的声音叠加形成的。采用如下策略合成声音：

式中，x_i(i＝(0，1，2…m))表示经过注意力排序的的物体信息缓冲单元内多个物体的信息，x₀具有最高的注意力级别。x_i包括物体的类型信息和相对盲人的物体的三维位置信息，可以由一个四元组<物体类型，到盲人水平的方位角，到盲人的竖直方位角，到盲人的距离>表示。c(x_i)是由物体信息xi中的物体类型信息所确定的虚拟立体声源序列，使不同类型的物体分配不同的声音加以区别。c(x_i)可以是与物体对应的语音，例如用语音“杯子”提示有水杯的存在，也可以是能够表示物体特征的声音，例如，利用喇叭或发动机的声音代表汽车。h(x_i)是由x_i中的水平方位角，竖直方位角，距离信息所确定的信号处理过程，表示的是造成立体声效果，使声源的心理感受位置与xi中物体的位置信息(水平方位角，竖直方位角，距离)相一致所需要的信号处理过程。通常可以利用特定位置的HRTF(头部相关传递函数)和虚拟立体声源卷积的形式达到此目的。每个声源经过位置变换之后成为具有立体声效果的声音序列，这时必须加以延时Δt在50ms到1s之间，使每个物体所对应的声音在不同时刻发出的同时留给盲人足够的时间分辨声音的音高和方位。最后得到表示整个场景的双声道声音序列P就是各个物体的声音加入立体声效果后延时的叠加。盲人听到由声音信号序列P得到的声音就能知晓场景中有两个SA类物体A1、A2和一个SB类物体B1，这些物体的位置“听上去”分别在A1、A2、B所在的位置上。而且物体与声音之间是很自然的一一对应的关系，不同的声音使盲人清楚地感知物体的类别。

Claims

1、一种基于物体辨识的盲人生活辅助装置，包括：物体信息缓冲单元、物体检测单元、物体测距单元和感觉替代单元，其特征在于：物体检测单元的输入端连接到物体信息缓冲单元，其输出端连接到物体信息缓冲单元；物体测距单元的输入端连接到物体信息缓冲单元，其输出端连接到物体信息缓冲单元；感觉替代单元的输入端连接到物体信息缓冲单元；

所述物体信息缓冲单元存储环境中已检测出的每一个物体的种类信息、图像中的位置坐标以及相对盲人的三维位置信息、特征信息和注意力等级；

所述物体检测单元检测图像传感器的探测区域内是否有可以被检测的物体，并结合物体信息缓冲单元中的内容更新物体信息缓冲单元内的内容；

所述物体测距单元测量物体信息缓冲单元中每一个物体相对于盲人的三维位置信息；

所述感觉替代单元将物体信息缓冲单元中的物体按盲人的要求转换为声音信号或触觉信号，使盲人能感知环境中物体的存在。

2、如权利要求1所述的基于物体辨识的盲人生活辅助装置，其特征是，所述物体检测单元能够判断最新检测到的物体是否是物体信息缓冲单元中已有记录的物体，并更新的物体信息缓冲单元中的已有记录的物体在图像中的位置坐标，降低物体的注意力等级。

3、如权利要求2所述的基于物体辨识的盲人生活辅助装置，其特征是，所述物体检测单元能够将最新检测到并且在物体信息缓冲单元中没有对应记录的物体的类别信息、物体在图像中的位置坐标和物体的特征信息存入物体信息缓冲单元，并给予最高的注意力等级。

4、如权利要求3所述的基于物体辨识的盲人生活辅助装置，其特征是，当没有物体处于最高注意力等级时，物体检测单元能够给予处于盲人正前方的物体最高的注意力等级，方便盲人拿取该物体。

5、如权利要求1至4中任意一条所述的基于物体辨识的盲人生活辅助装置，其特征是，如果物体检测单元多次检测均没有再次检测到的某个物体，该物体的所有信息将在物体信息缓冲单元中被删除。

6、如权利要求1所述的基于物体辨识的盲人生活辅助装置，其特征是，所述物体测距单元能够根据物体信息缓冲单元中的物体在图像中的位置坐标得到并更新物体相对盲人的三维位置信息。

7、如权利要求1所述的基于物体辨识的盲人生活辅助装置，其特征是，所述感觉替代单元能够根据物体信息缓冲单元中的物体信息发出与物体的类别和物体相对盲人的三维位置相适应的声音或触觉信号，使盲人理解各个物体的种类和位置。

8、如权利要求1或7所述的基于物体辨识的盲人生活辅助装置，其特征是，所述感觉替代单元能够根据物体信息缓冲单元中物体的注意力等级将注意力等级较高的物体优先于其它物体告知盲人。

9、如权利要求8所述的基于物体辨识的盲人生活辅助装置，其特征是，注意力等级较高的物体对应的声音或触觉信号与注意力等级较低的物体对应的声音或触觉信号相比具有差异。