CN107708624A

CN107708624A - 允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统

Info

Publication number: CN107708624A
Application number: CN201680034434.0A
Authority: CN
Inventors: A·克萨达·埃尔瓦斯
Original assignee: Intelligent Eyes Ltd Co
Current assignee: Intelligent Eyes Ltd Co
Priority date: 2015-06-12
Filing date: 2016-06-10
Publication date: 2018-02-16
Anticipated expiration: 2036-06-10
Also published as: ES2780725T3; MX2017015146A; IL255624B; JP6771548B2; EP3308759A1; AU2016275789B2; AR104959A1; EP3308759A4; WO2016198721A1; EP3308759B1; AU2016275789A1; RU2719025C2; US20180177640A1; CA2986652A1; KR102615844B1; RU2017144052A3; BR112017026545B1; US11185445B2; DK3308759T3; ES2597155B1

Abstract

本发明涉及一种允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统，包括：两个摄像头(3i、3d)，其彼此分开并且配置成同时捕捉环境图像；用于产生声音和/或触觉输出信号的产生装置(4i、4d)。有利地，还包括处理装置(2)，其连接至所述摄像头(3i、3d)且连接至用于产生声音和/或触觉信号的产生装置(4i、4d)。该处理装置配置成将实时捕捉的图像合成且处理与至少一个垂直带相关联的信息，垂直带具有与合成图像中的要素的深度相关的信息，处理装置(2)还配置成：将垂直带分成一个或多个区域；在每个区域中根据区域的深度和区域的高度限定声音或触觉信号；以及基于垂直带的每个区域中的声音或触觉信号限定声音或触觉输出信号。

Description

允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统

技术领域

本发明涉及一种针对受任何限制或残疾困扰的人士的辅助装置。特别地，本发明涉及一种主要用于盲人或视障人士的辅助系统。

背景技术

患有视觉障碍的人士通常依靠诸如手杖和导盲犬之类的基本辅助手段来四处行走或识别其所处环境。尽管已经研发出了使用更高科技水平的系统，但这些系统通常是侵入性的并且难以操作。此外，这些系统通常因其用途而过于昂贵，不能成为超出专用意义上的一般物品。

这些系统现在通常测量到一个点的距离，例如通过使用激光器测量到一个点的距离，从而在有物体挡路时提供声音通知。这样的系统既不能提供这种场景的容量分析，也不能针对与位置、尺寸或几何形状(弯曲、边缘、相对于水平线的位置)相关的细微变化做出响应。另外，通过测量到多个点的距离进行的场景分析需要高的计算能力，而这通常难以实施于实时使用和/或用于便携式装置中。

在这种情况下，现有技术中还已知分析环境图像的装置，所述装置配置成解释所述图像并且将其映射为针对装置使用者的声音，使得能够获得作为所述图像一部分的物体的距离的基于声音的表示，因而集成了三维投影从而有助于在使用者路上可能有障碍物时进行指向并通知。然而，就计算需求而言，所述装置还是低效的，所述装置实际上表现为低响应速率，并且计算缺陷形成了对使用者来说不精确和不胜任的使用体验。基于完全映射出图像的这类装置的示例为专利文献ES 2133078A1和US2009/122161A1。

作为这些装置的替代方案，专利文献ES2517765A1提出了这样一种装置，该装置配置成提供声音库并且将获得的图像的每个点与所述声音库的至少一个声音相关联，从而形成编码声音的映射并且表示出捕捉到的三维空间中的平面。提及的装置还适于顺序地再现限定在映射中的每个点的声音，所述声音与用水平线表示的空间相关联，以能够更容易地补偿来源于使用者不当放置装置的误差，例如在基于眼镜的实施方式中，不佳的水平度会导致到使用者的距离的计算有缺陷。

尽管提及的替代方案允许纠正由本领域的早期装置引起的一些缺陷，然而替代方案仍具有来源于需要的计算资源的重要限制，因为尽管配置成表示由图像获得的水平声音形式，其深度的处理仍通过以与上述系统方式类似的方式整体分析所述图像完成。因此，所有已知装置需要大量的计算资源，这极大限制了这些装置的输出和能力。另外，这些装置通常需要使用倾斜仪/重力仪，这使得装置变得更复杂，而不能完全解决深度计算精度的问题。

因此，存在对帮助视障人士的高效系统的需求，所述系统能够通过容易理解的声音或触觉信号提供对环境的易理解的描述，并且同时展现出更低的计算消耗量和计算资源消耗量。

发明内容

本发明主要应用于患有视力问题的人士。然而，本发明可以应用于视觉无法使用或需要替代的导引系统的其他类型的场景和情况下。

通过解释存在于使用人周围的物体和障碍物——解释内容通过信号、优选为声音或触觉信号传输(例如，通过触感传输振动)来描述环境，对人的帮助变得更容易。所述信号是基于立体图像处理成获得各区域的表示而产生的：最强的色彩强度对应于最远的区域而具有较低色彩强度的其他区域与邻近区域相关联。

因此，本发明的一个目的涉及一种允许盲人通过声音或触觉了解周围环境的便携式系统，其包括：

-两个摄像头，这两个摄像头彼此分开，用于同时捕捉环境图像；

-处理装置，该处理装置将实时图像合成并且确立具有与合成图像中的要素的深度有关的信息的至少一个垂直带，其中，所述处理装置还将垂直带分为多个区域：在每个区域中根据图像的深度和高度限定声音或触觉信号；基于垂直带的每个区域中的声音或触觉信号限定声音或触觉输出信号；

-用于再现声音或触觉输出信号的再现装置。

在本发明的优选实施方式中，垂直带位于合成图像的中心部分并且使用者在移动时扫描环境。本发明的这种操作模式在下文中将被称为“扫描模式”。

对通过摄像头获得的图像的仅一个垂直带的处理，一方面允许将深度的分析限制于关注区域，这对使用者来说是最佳的(因为关注区域对应于聚焦点的中心点)，从而避免周围区域提供不想关注的信息。通过这种优化，系统的计算需求会大幅减少，而不会负面影响获取到的信息。这是由于下述事实：垂直线将与深度相关的信息压缩成水平，因为这是与使用者定位障碍物最相关的。因而，对应于周侧视野的信息通过使用者在运动期间将头部朝向两侧自然运动而产生，而这使分析的垂直线移位并且允许在不需要连续处理由摄像头获得的完整图像的情况下获得其余信息。对应所有水平的深度，轻度的水平头部运动允许自然覆盖使用者前部区域(通过垂直线分析的形式覆盖)。通过这种技术优化，与现有技术的替代技术方案相比，预计节省了约90％的计算需求。另外，处理垂直线与处理摄像头捕捉的整个图像相比防止了存在因附近的外围物体——现在更靠近使用者但并不直接阻挡使用者的道路——产生的声音污染。从这个意义上说，该系统的使用与盲人通过手杖操作扫描或探测的模式共存有许多相似之处，从而允许人们更快地学习如何操作该系统。

在本发明的另一优选实施方式中，在合成图像中的中心垂直带的每一侧上建立了多个侧垂直带，并且左侧或右侧声音或触觉信号分别由每个左侧带和每个右侧带的区域限定；使用者能够不需要移动而进行环境扫描。本发明的这种操作模式在下文中将被称为“完全场景模式”。在所述模式中，处理单元适于提供多个侧垂直带的同时分析，使得摄像头得到的整个图像的分割区域被水平地处理。与扫描模式相比，完全场景模式需要更高的计算需求，但该模式提供了关于系统使用者的周围两侧区域的更多信息。然而，多个垂直线减小了处理空间使得如同扫描模式一样，与现有技术已知解决方案相比，在处理时间和资源消耗上有了相当大的改进。

在本发明的另一优选实施方式中，处理装置的操作模式可以由使用者启用和停用，使得多个侧垂直带的同时分析可以与单个垂直带的分析相交替。因此，根据使用者的位置，所述使用者可以使用扫描操作模式(即，通过处理中心垂直线的深度)和完全场景模式(通过多个垂直带)，扫描操作模式将在大多数日常使用情景下是有效的，完全场景模式必要地提供关于周围侧向区域的附加信息。

在本发明的优选实施方式中，再现装置将左侧声音或触觉信号和右侧声音或触觉信号合成以立体感觉的形式再现。

在本发明的优选实施方式中，处理装置根据垂直带中的区域的高度限定声音或触觉信号的声音或触觉强度。

在本发明的优选实施方式中，处理装置根据区域的深度限定声音或触觉信号的频率。

在本发明的优选实施方式中，区域的深度根据环境图像的深度图上的灰度级别确定。

在本发明的优选实施方式中，区域包括至少一个像素。

在本发明的优选实施方式中，系统包括使用者携带的支承结构件，再现装置和两个摄像头可以定位在该支承结构件上。

在本发明的基于触觉信号的优选实施方式中，所述信号基于电活性聚合物(EAP)或由其形状响应于电压而改变的弹性体制成的膜而产生。替代性地，信号可以通过小型振动发生电机的方式机械地产生。

在本发明的基于声音信号的优选实施方式中，所述声音信号的频率由100Hz到18000Hz之间的范围选出。

在本发明的优选实施方式中，再现装置是耳蜗耳机。有利地，不使用耳朵并且信号通过骨头接收。这意味着使用者可以同时说话而不会与产生的声音信号发生干扰，或者反之亦然。

在本发明的优选实施方式中，支承结构件由至少眼镜、头带、颈部支承件、胸部支承件、肩部支承件或手持装置中选出。

在本发明的优选实施方式中，产生的声音信号是非语音的以防止使用者被不断的语音信息轰炸，而不断的语音信息在长时间使用之后会变得讨人厌和恼人的。此外，非语音信息更容易识别并且能够在执行其他任务的同时被处理。因此，本发明可以在不产生由言语造成的语言障碍的情况下使用。

附图说明

图1示出了本发明的一个实施方式的简化框图。

图2示出了本发明分析的环面的像素化图像。

图3示出了图2的环面的像素化和处理后的图像。

图4示出了伴随本发明的系统的方法的简化流程图。

图5示出了本发明的基于眼镜的实施方式。

具体实施方式

为了更清楚起见，结合附图以非限制的方式描述本发明的实施方式并且描述集中在声音或触觉信号上。

图1示出了本发明的系统的主要元件的示意图。所述示意图示出了如何通过一对立体摄像头(3i、3d)捕获图像。这一对立体摄像头(3i、3d)优选地位于脸部两侧和使用者的眼睛的高度处以能够更容易地通过头部运动聚焦在关注的区域上。摄像头(3i、3d)优选地平行对准。

摄像头(3i、3d)的实际电路对捕获的图像执行预处理以提供稳定的图像，从而防止几何上或色彩上的伪影和像差。传感器的电路实时同步提供一对图像。

因此，该视频流传输至处理单元(2)。处理单元(2)优选为执行用于将图像转换为声音/振动的算法的特定硬件设计。已经设想用线缆(6)使摄像头(3i、3d)与处理单元(2)相通信。然而，在其他更复杂的实施方式中可以构想为无线传输。

处理单元(2)将立体图像转换成灰度级深度图，而在此之前则产生视差图(没有关于灰度的信息)。

深度图被理解为灰度图像，被称为印刷黑(process black)的颜色指的是最远处(根据所使用的灰度)并且纯白色指的是最近处(根据所使用的灰度)。其余的灰度指中间距离。然而，在本发明的其他实施方式中，能够反向对比并且将最深的颜色对应于最近的距离，或使用预先确立的与热成像图示相类似的色彩标度。

视差图被理解为由一对立体图叠加经受数学处理获得的最终图像。双眼视差图在一个图中表示为两个立体图之间的像素差。借助于应用数学视差算法，通过已知摄像头与摄像头校准文件之间的距离，像素差可以适配实际距离。摄像头距所摄图像的每个部分的距离(像素大小)已知为该过程的结果。灰度用于表示这样的距离。

这然后转换成深度图。在应用灰度距离/水平的数学处理之后，得到深度图。

基于产生的深度图，应用了开发用于该目的的转换算法，该算法是高度优化的算法，并且因此，该算法需要更少的计算资源，这允许与深度相关的特定数据以比已知系统中更有效的方式转换成声音。

其结果是借助于开始的一对立体图像，实现了非语音的立体声音信号，该立体声音信号通过耳蜗耳机或骨传导(4i、4d)传输至使用者。因此限定了以对使用者来说直观的方式将视觉信息可靠地转变成声觉信息的视听语言。

图2示出了环面的低分辨率深度图的示例。深度图的每个像素具有与摄像头捕捉的像素位置相对应的相关坐标(X，Y)。此外，每个像素具有提供与深度相关的信息——即，到与所述像素相关的区域定位所在处的距离——的相关灰度(G)。

图3以简化的方式图示了根据图的灰度分为三个区域的中心垂直带或列。区域“A”是黑色，区域“B”是白色，并且区域“C”是灰色。因此，三个不同强度的值与每个区域相关联(区域“A”为静音，区域“B”为最大音量，并且区域“C”为中间的声音强度)。必须理解的是通常限定了更多范围的灰度并且因此限定了相关的声音强度。声音信号通过将与每个区域的像素相对应的各个信号组合而形成。

通过使用来自深度图的信息，建立了具有与此时环境相关的信息的矩阵或表格。该信息必须基于下面考虑转换成声音：

-视差图利用每对立体画面执行：考虑到图像的像素差并且使用来自摄像头的数据(FOV，瞳孔间距离，特定校准)，能够建立三角测量，因此像素能够与实际世界中的距离相关联。通过该信息，图像被处理成提供深度图。这是物体的概述和灰度图像，表示其体积和实际距离。因此，这提供了包含关于场景的空间信息的单个合成图像。

-扫描操作模式的示例参见图3。为了分析图像，必须像摇头一样使头部从左移动至右方。因此中心光标(红色)将完全扫描环形。在立体声全景图的中心将听到产生的声音(因为其将总是视线的中心)。通过这样的扫描，限定了物体的水平尺寸(脖子的运动将作为参考)并且竖向尺寸将通过频率范围提供。

-完全场景模式将使用图2进行分析。在这种情况下，不一定需要使用者移动颈部来了解在其前方到底是什么。环面的右侧部分将在立体声全景图的右侧发出声音。中心和左侧部分将以类似的方式发出声音。立体声全景图的光圈的大小将指示环面的水平尺寸。竖向尺寸将由频率范围表示，如扫描模式中那样。

-图像与立体声的对应关系如下：根据场景图像，声音信号对应于其分析的区域。图像的左侧区域将在左立体声全景图中发出声音。右侧区域将在右立体声全景图中发出声音。因此，中心区域将在立体声全景图的中心(即，左50％+右50％)发出声音。

-频率指示高度因子的频率范围具有100Hz至18000Hz的分成等段的值。选择该范围是因为该范围宽度足够示出声音细节并且对普通人来说足够窄从而能够无任何问题地覆盖他们(人类的听觉范围从20Hz至20000Hz)。基础频率(100Hz)与显示器上的第一底行的像素相关联。最高频率(18000Hz)与顶行的像素相关联。其余频段片段分配在基础频率与最高频率之间。如果图像具有128像素的高度，每行对应于一个区段。如果分辨率改变，区段将以与高度成比例的方式分配。该方法用于具有低计算能力的系统。如果有可用的实时产生声音合成的原始算力存在，频率范围将通过高度上的像素数划分并且每个频率区段将无需插值或求平均而分配至每个像素。

-空间距离相对于使用者的因子(z轴)与算法产生的音量因子相关联，使得黑色像素将不再具有可感知的音量(即，负无穷)并且白色像素将具有最大音量(0dB)。这种尺度将是柔性的并且适用于不同测量范围(40cm、2m、6m)的使用。

-每个像素的声音的音长与像素在显示器上的“存在”直接成比例。如果像素始终白色，声音将不断重复。

-中心列的分析仅用于扫描模式。理论上，可以使用具有1像素的宽度的中心列。然而，为了调低声音并且防止伪影，将根据深度图分辨率(取决于计算能力)，将对三个甚至五个中心列的像素值进行平均。

音量强度与像素(I)的灰度值相关联。因此，具有值0.0.0(RGB模式)的像素与遥远区域相对应并且相关的强度为静音(l＝0)。具有值为255.255.255的像素与非常近的区域相对应并且信号的音量为最大值(l＝0dB)。因此，每个像素能够被视为用于形成声音组成的“声音单元”。频率声音优选范围为从100Hz至18000Hz。

根据操作模式，像素的位置X可以有两种解释。

-扫描模式：仅那些与中心列中的像素对应的信号将发出声音。当使用者移动头部就像摇头说不时进行场景扫描。这与用手杖扫描类似。

-完整场景模式：与场景相关联的几列像素将同时发出声音。在这种模式下扫描不是必须的。图像被全部表示出来(或“发出声音”)。例如，越往右的像素在立体声全景图中发出声音越大。对于中心和左侧区域同样如此。

完全场景模式需要高计算能力，由此根据处理单元(2)的性能，可以不需要图像中的所有列全部发声，而是可以优化为使用五列，即，中心、45°、-45°、80°、-80°。根据处理能力可以使用更多列。

像素的位置Y(物体的高度)将限定其在频率方面如何发声：使用带通滤波器(或产生的正弦波频率、或具有特定频率范围的预先计算样本为根据装置的计算能力的替代方案)，因此高区域的像素将声音高亢并且低区域的像素将声音低沉。每个像素覆盖的声谱将通过其具有的像素数量来限定。

示例：本示例用于说明声音如何从深度图中产生的。假设已经选择扫描模式并且已经获得如图3中所示的深度图，在深度图中，大略地仅区分三个级别的灰度。因此，在中央列中，存在(从底部到顶部)10个黑色像素、12个白色像素、2个黑色像素、8个灰色像素和15个黑色像素。假设建立了色彩标度，0dB分配为白色，-30dB分配为灰色而负无穷分配为黑色。

实时信号强度是所有信号的模拟混合。

使用者应基于高度上的像素的位置而注意不同的频率。在较低高度处的像素是较低音的，而在较高高度处的像素是较高音的。该列产生的声音可以分成具有高声音强度的低音调部分(区域B)和具有中间声音强度的有更高音调频率的部分(区域C)。该信号产生了左右两个声道(并且分别在耳机(4i、4d)中重现)。

当使用者通过转动头部改变摄像头的位置时，深度图将改变，并且因此相关的声音信号将改变。

图4示出了在扫描模式中执行的一些重要步骤的流程图。第一图像捕捉步骤(P1)使用摄像头(3i、3d)，处理步骤(P2)用于产生深度图，分配步骤(P3)用于将频率和声音强度与深度图的中心列中的每个像素或像素组相关联，产生步骤(P4)用于产生与中心列相对应的结果声音信号。

图5示出了本发明在眼镜1中实施的实施方式。然而，本发明可以在其他类型用作支承件的产品中实施。例如，本发明可以实施在帽子、头带、颈部支承件、胸部支承件、肩部支承件或手持装置中。眼镜的优势在于带眼镜很舒适并且一方面允许将耳机(4i、4d)放置在期望位置中并且另一方面允许将摄像头(3i、3d)精确聚焦在关注的区域上。处理单元(2)设计成由使用者放在口袋或腰带上携带。在未来，尺寸的减小是为了将其与眼镜集成在一起的目的而设计的。因为眼镜和处理单元的分开，线缆(6)将摄像头(3i、3d)捕捉的信息传递至处理单元(2)。此外，一旦信息处理完，处理单元(2)将对应的声音信号传输至耳机(4i、4d)。

信息量和声音细节允许精确地识别形状和空间，这到目前为止还是闻所未闻的。在用盲人进行的测试中，已经证明在短期训练后，本发明允许因相关的声音而辨认出特定形状。例如，桌子上的瓶子、眼镜和盘子具有允许彼此区分的特定声音。

允许不使用耳道的耳蜗耳机优选地用于传输声音。这改善了使用者的舒适性，从而极大减小了听觉疲劳并且对于长的使用期间是更健康的。

与处理单元(2)相关的接口在一个实施方式中设计成具有距离为40cm、2m和6m的范围选择按钮来分别确定分析距离，例如近、中间还是远，或由使用者通过适于这种效果的接口限定。当按钮被按下时，将以循环的方式选择距离。范围选择通常用于将范围适配到不同的场景和情况下，例如，40cm用于将物体放置在桌上；2m用于在房子周围走走；而6m用于过马路。

在本发明的另一优选实施方式中，该系统包括连接(例如，通过Wi-Fi、蓝牙或其他类似的技术)至处理单元(2)的无线数据传输装置，其中，所述传输装置通过无线连接和/或可穿戴式装置连接至外部设备。

在一个实施方式设想到与处理单元(2)相关的接口具有分析模式按钮。模式之间的选择是循环的。

扫描模式：仅分析图像的中心区域。使用者将以循环的方式从左到右转动头部，扫描场景类似于用手杖进行的扫描。声音是单声道的。

完全场景模式：对整个图像执行分析。声音是立体的。因此，使用者可以在整个视场同时感知形状和空间。例如，在左侧(左侧立体声全景图)感知到柱子，在中心(中心立体声全景图)感知到低的桌子，并且右侧(右侧立体声全景图)的路径是清空的。这种探寻模式在声音方面是更复杂的，因为这种模式提供了比扫描模式更多的信息。尽管需要一定量的训练，但这种模式是容易掌控的。

Claims

1.一种允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统，包括

-两个摄像头(3i、3d)，所述两个摄像头彼此分开并且配置成同时捕捉环境图像；

-用于产生声音和/或触觉输出信号的产生装置(4i、4d)；

其特征在于，包括：

-处理装置(2)，所述处理装置(2)连接至所述摄像头(3i、3d)并且连接至用于产生声音和/或触觉信号的所述产生装置(4i、4d)，所述处理装置(2)配置成将实时捕捉的图像合成并且处理与至少一个垂直带相关联的信息，所述垂直带具有与合成图像中的要素的深度相关的信息，所述处理装置(2)还配置成：将所述垂直带分成一个或多个区域；在每个区域中根据区域的深度和区域的高度限定声音或触觉信号；以及基于所述垂直带的每个区域中的所述声音或触觉信号限定声音或触觉输出信号。

2.根据前一权利要求所述的系统，其中，所述垂直带为所述合成图像的中心带。

3.根据前一权利要求所述的系统，其中，所述处理装置(2)配置成处理在所述合成图像中中心带每侧上的多个侧垂直带，并且其特征在于，左侧信号和右侧信号分别由每个左侧带和每个右侧带的区域限定。

4.根据前一权利要求所述的系统，其中，所述处理装置(2)适于提供所述多个侧垂直带的同时分析，使得分割区域能够在由所述摄像头(3i、3d)捕获的整个图像上水平地处理。

5.根据前一权利要求所述的系统，其中，所述处理装置(2)的操作模式能够由使用者配置，使得使用者能够启用和停用同时分析所述多个侧垂直带的模式和分析单个垂直带的模式。

6.根据前述权利要求中的任一项所述的系统，其中，所述产生装置(4i、4d)将左侧声音或触觉信号和右侧声音或触觉信号合成以立体感觉的形式操作，并且/或者其中，所产生的声音是单声道的，两种模式能够由使用者进行选择。

7.根据前述权利要求中的任一项所述的系统，其中，所述处理装置(2)根据区域的深度限定声音或触觉信号的强度。

8.根据前一权利要求所述的系统，其中，所述处理装置(2)根据所述垂直带中的区域的高度限定声音或触觉信号的频率。

9.根据前一权利要求所述的系统，其中，所述处理装置(2)配置成在环境图像的深度图上根据灰度色彩编码或通过色彩梯度确定区域的深度。

10.根据前述权利要求中的任一项所述的系统，包括由使用者携带的支承结构件(1)，并且所述支承结构件(1)配置成座置所述再现装置(4i、4d)和所述两个摄像头(3i、3d)。

11.根据前述权利要求中的任一项所述的系统，其中，所述触觉信号是由振动产生的信号。

12.根据前述权利要求中的任一项所述的系统，其中，所述声音信号的频率由100Hz至18000Hz之间的范围选出。

13.根据前述权利要求中的任一项所述的系统，其中，所述产生装置(4i、4d)包括骨传导耳机。

14.根据前述权利要求中的任一项所述的系统，其中，所述支承结构件(1)至少选自：

眼镜；

头带；

颈部支承件；

胸部支承件；

肩部支承件；

手部支承件。

15.根据前述权利要求中的任一项所述的系统，包括连接至所述处理单元(2)的无线数据传输装置，其中，所述传输装置连接至具有无线连接的外部设备，和/或可穿戴式装置。