CN113934296B

CN113934296B - 一种基于视觉感知的盲人家电使用交互式辅助系统

Info

Publication number: CN113934296B
Application number: CN202111180666.6A
Authority: CN
Inventors: 梁玮; 赵文轩
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-05-10
Anticipated expiration: 2041-10-11
Also published as: CN113934296A

Abstract

本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，根据最短状态序列生成各子状态对应的音频指令序列后，用户在音频指令的引导下进行动作，每一次动作都会得到系统的反馈，大大提高了家电操作的正确性和效率；同时，本发明还通过检测家电当前状态是否达成当前期望状态来决定是否可以进入下一状态，若出现用户操作失误，系统会重新生成音频指令序列来纠正用户，从而保证了整个方法的鲁棒性；由此可见，本发明不但减轻了用户的记忆负担，还可以辅助用户来完成日常生活中家电使用的任务，为盲人操作提供家电全过程视觉监督。

Description

一种基于视觉感知的盲人家电使用交互式辅助系统

技术领域

本发明属于人机交互领域，尤其涉及一种基于视觉感知的盲人家电使用交互式辅助系统。

背景技术

随着家用电器产品的快速更新，家电的使用越来越复杂，包含大量的功能开关，操作逻辑复杂，在给用户带来了更多方便的同时，也增加了操作难度。

对于盲人来说，家电使用障碍主要来自三个方面。首先，考虑到外观设计，大多数电器缺乏适当的触觉反馈，盲人很难准确定位操作区域。位置不准确可能导致所需的任务失败。其次，设备使用的任务可能包含几个步骤，在操作中，用户需要获得当前状态反馈，了解设备当前状态，以便用户能够计划下一步操作。然而，目前家电提供的反馈通常是视觉信息，盲人无法获取。第三，在处理复杂任务时，例如，使用具有多种模式的按钮的菜单设置来使用新设备，用户可能需要检查说明书，然后将说明信息转换为具体操作。在这种情况下，盲人必须向他人寻求帮助，这妨碍了他们尝试一些有用但复杂的功能。

一种常用的解决方案是在按钮区域上制作具有触觉反馈的标记。通过触觉反馈，盲人可以找到操作设备的相应响应区域。除了触觉反馈外，某些家电还具有声音反馈，可以提示用户是否按下按钮。但是，在某些情况下，在使用中仍然存在挑战。例如，在使用全新的设备时，如果没有其他人的帮助，用户由于缺乏布局信息而无法了解基本操作，更不用说粘贴标记了。

此外，由于缺乏程序反馈，盲人往往避免进行包含多个步骤的复杂任务以减少操作失误。虽然现在已有一些方法可以帮助盲人访问电器上的显示器或控制面板，但它们只能让盲人知道设备的面板布局或当前显示屏上显示的内容，而整个使用设备进行任务的过程中缺少指导。抽象指令和具体操作之间的差距增加了记忆负担，增加了操作失败的风险。

由此可见，目前的辅助盲人使用家电的方法只考虑了让用户知道设备的面板布局，或者当前显示屏上的内容，并不能辅助盲人用户使用家电来完成某项任务。比如辅助盲人使用微波炉加热某样食物。当遇到处理复杂任务的情况时，例如，如果使用具有多种预置菜单按钮的新设备，用户可能需要检查说明书，然后将说明书上的指导信息转换为具体操作。在这种情况下，盲人必须向他人寻求帮助，这妨碍了他们尝试一些有用但复杂的功能。

发明内容

为解决上述问题，本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，能够使盲人用户操作家电时更加精准，提高操作效率，为盲人操作提供家电全过程的视觉监督。

一种基于视觉感知的盲人家电使用交互式辅助系统，包括定位模块与处理模块；

所述处理模块接收用户发出的用于为家电指定待执行任务的语音信号后，根据语音信号生成一个完成待执行任务时家电所对应的最短状态序列；

对于最短状态序列中的每一个子状态，所述定位模块用于实时获取用户手部和家电之间的相对位置，再由处理模块根据所述相对位置生成用于指导用户手部进行动作的音频指令序列，其中，音频指令序列包括区域引导指令和状态切换指令，用户手部在区域引导指令的指导下每进行一次动作，定位模块便获取一次用户手部和家电之间的当前相对位置；处理模块判断所述当前相对位置与当前区域引导指令执行完毕后的期望相对位置是否相同，若为是，则执行下一条区域引导指令，若为否，则处理模块根据所述当前相对位置重新生成音频指令序列，直至用户手部移动至实现当前子状态的最终操作区域；

当用户手部移动至所述最终操作区域后，处理模块发出当前音频指令序列中的状态切换指令指导用户完成使家电变为当前子状态的指定动作，然后定位模块获取家电当前状态，处理模块根据家电当前状态与状态切换指令执行完毕后的家电期望状态是否相同来判断状态切换指令是否被正确执行，若为是，则开始下一个子状态的操作，直至完成指定任务，否则处理模块重新生成音频指令序列指导用户手部进行动作，直至家电变为当前子状态。

进一步地，所述处理模块中预设有建模了家电操作和家电状态之间映射关系的任务模型，且不同的任务种类对应不同的任务模型，处理模块接收到待执行任务的语音信号后，判断待执行任务的所属种类，再从待执行任务对应的任务模型中搜索出取一条能够完成待执行任务的最短状态序列。

进一步地，当家电为微波炉时，任务种类包括食材放置任务、加热任务以及菜单选择任务，其中，当待执行任务为加热任务或者菜单选择任务时，家电的当前状态为微波炉屏幕上所显示的字符状态，若定位模块获取的微波炉屏幕当前显示字符与屏幕期望显示字符不同，则表示状态切换指令未被正确执行，若定位模块获取的微波炉屏幕当前显示字符与屏幕期望显示字符相同，则表示状态切换指令已被正确执行。

进一步地，当家电为微波炉且待执行任务为加热任务或者菜单选择任务时，状态切换指令对应的最终操作区域为执行状态切换指令所需要的微波炉按钮所在的区域，且该区域的面积大于微波炉按钮的面积。

进一步地，定位模块通过计算机视觉的方法对用户手部食指或者拇指的指尖关节进行跟踪，以得到用户手部的位置信息，并通过图像识别技术获取家电在当前场景下的坐标，进而得到用户手部和家电之间的相对位置。

进一步地，家电的现实世界位置处设置有锚点和声源，用于标记家电在世界坐标系中的位置；用户通过语音指定待使用的家电，则控制模块控制待使用的家电对应的声源发声向用户提供待使用的家电的所在方位，并通过自定位技术在场景中获得用户当前位置以及锚点位置之间的关系，以引导用户移动至待使用的家电周围。

进一步地，所述定位模块为单目或者双目摄像头，则在用户通过语音为家电指定待执行任务前，用户佩戴单目或者双目摄像头进入室内场景，摄像头采用同步定位与地图构建技术对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算摄像头当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

进一步地，所述定位模块包括光学摄像机和激光传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与激光传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和激光传感器获得的点云数据进行匹配和融合来对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算激光传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

进一步地，所述定位模块包括光学摄像机和惯性传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与惯性传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和惯性传感器获得的传感器位姿与加速度数据进行融合来对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算惯性传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

进一步地，所述定位模块包括布置在室内场景的两个以上的红外摄像头以及设置于用户和家电上的红外反光点，通过捕捉各红外反光点反射回各红外摄像机的图像来确定用户手部和家电之间的相对位置。

有益效果：

1、本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，根据最短状态序列生成各子状态对应的音频指令序列后，用户在音频指令的引导下进行动作，每一次动作都会得到系统的反馈，大大提高了家电操作的正确性和效率；同时，本发明还通过检测家电当前状态是否达成当前期望状态来决定是否可以进入下一状态，若出现用户操作失误，系统会重新生成音频指令序列来纠正用户，从而保证了整个方法的鲁棒性；由此可见，本发明不但减轻了用户的记忆负担，还可以辅助用户来完成日常生活中家电使用的任务，为盲人操作提供家电全过程视觉监督。

2、本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，基于状态机的原理，采用预先设置的状态模型快速获取家电待执行任务对应的最短状态序列，有利于提高盲人用户家电操作的效率，实现全过程视觉监督。

3、本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，通过计算机视觉的方法，获取手部位置信息，并通过图像识别技术获取家电在场景下的坐标来计算手部和按钮的相对位置，并通过空间音频来指导用户手到正确的按键位置，能够使用户操作家电时更加精准，可以更直接地指导用户摸到自己想要的按键，提高操作的效率。

4、本发明提供一种基于视觉感知的盲人家电使用交互式辅助系统，定位模块可以由光学摄像机、激光传感器、惯性传感器或者红外摄像头等相关组合来实现，能够提高家电所在的室内场景的地图构建精度以及用户与家电之间相对位置的准确性，从而能够使盲人用户操作家电时更加精准。

附图说明

图1为本发明提供的一种基于视觉感知的盲人家电使用交互式辅助系统的框图；

图2为本发明提供的盲人使用家电的交互辅助方法流程图；

图3(a)为本发明提供的加热任务对应的状态模型示意图；

图3(b)为本发明提供的菜单选择任务对应的状态模型示意图；

图4(a)为本发明提供的用户手指在微波炉上的投影示意图；

图4(b)为本发明提供的按钮引导示意图；

图5为本发明提供的微波炉显示器上的字符分割示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

如图1所示，一种基于视觉感知的盲人家电使用交互式辅助系统，包括定位模块与处理模块；

所述处理模块接收用户发出的用于为家电指定待执行任务的语音信号后，根据语音信号生成一个完成待执行任务时家电所对应的最短状态序列。

需要说明的是，处理模块中预设有建模了家电操作和家电状态之间映射关系的任务模型，且不同的任务种类对应不同的任务模型，处理模块接收到待执行任务的语音信号后，判断待执行任务的所属种类，再从待执行任务对应的任务模型中搜索出取一条能够完成待执行任务的最短状态序列。

此外，用户发出的用于为家电指定待执行任务的语音信号前，通常默认用户已经移动至待使用的家电周围，因此，为了使用户顺利移动至家电的附近，本发明在家电的现实世界位置处设置有锚点和声源，用于标记家电在世界坐标系中的位置；因此，当用户通过语音指定待使用的家电时，控制模块控制待使用的家电对应的声源发声向用户提供待使用的家电的所在方位，并通过自定位技术在场景中获得用户当前位置以及锚点位置之间的关系，以引导用户移动至待使用的家电周围。

对于最短状态序列中的每一个子状态，所述定位模块用于实时获取用户手部和家电之间的相对位置，再由处理模块根据所述相对位置生成用于指导用户手部进行动作的音频指令序列，其中，音频指令序列包括区域引导指令和状态切换指令，用户手部在区域引导指令的指导下每进行一次动作，定位模块便获取一次用户手部和家电之间的当前相对位置；处理模块判断所述当前相对位置与当前区域引导指令执行完毕后的期望相对位置是否相同，若为是，则执行下一条区域引导指令，若为否，则处理模块根据所述当前相对位置重新生成音频指令序列，直至用户手部移动至实现当前子状态的最终操作区域。

进一步地，定位模块通过计算机视觉的方法对用户手部食指或者拇指的指尖关节进行跟踪，以得到用户手部的位置信息，并通过图像识别技术获取家电在当前场景下的坐标，进而得到用户手部和家电之间的相对位置。具体的，下面给出定位模块获取用户手部和家电之间的相对位置的四种实现方式。

第一种：定位模块为单目或者双目摄像头，则在用户通过语音为家电指定待执行任务前，用户佩戴单目或者双目摄像头进入室内场景，摄像头采用同步定位与地图构建技术(SLAM)对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算摄像头当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

第二种：定位模块包括光学摄像机和激光传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与激光传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和激光传感器获得的点云数据进行匹配和融合来对室内场景进行高精度建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算激光传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

第三种：定位模块包括光学摄像机和惯性传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与惯性传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和惯性传感器获得的传感器位姿与加速度数据进行融合来对室内场景进行建图操作，具体的，以惯性传感器的位姿和加速度数据作为约束条件，约束建图中的优化过程，以获得更高精度的建图结果，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算惯性传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

第四种：定位模块包括布置在室内场景的两个以上的红外摄像头以及设置于用户和家电上的红外反光点，通过捕捉各红外反光点反射回各红外摄像机的图像来确定用户手部和家电之间的相对位置。

由此可见，本发明通过计算机视觉的方法，获取手部位置信息，计算家电在场景下的坐标来计算手部和按钮的相对位置，并通过空间音频来指导用户手到正确的按键位置，使得用户操作家电时更加精准。现有的技术只是会告诉用户当前手的位置是什么按键，该按键并不一定是用户想要使用的按键，与之相比，本发明可以更直接地指导用户摸到自己想要的按键，提高操作的效率。

其次，本发明将家电说明书上的按键操作抽象成状态模型，当用户想进行某项任务的操作时，直接用语音指令即可调用，相当于将说明书数字化，并根据数字说明书来指导用户来操作。状态模型生成一条最短状态序列后，通过检测家电当前状态，如显示屏上的内容来判断是否达成当前期望状态，从而确定是否可以进入下一状态，若出现用户操作失误，系统会通过重新寻找音频指令序列来获得纠正，从而保证了整个方法的鲁棒性。现有的技术并没有存储菜单的功能，也无法指导用户来操作家电完成任务。本发明不但减轻了用户的记忆负担，还可以辅助用户来完成日常生活中家电使用的任务。

实施例二

下面以家电为微波炉为例，对本发明提供的一种基于视觉感知的盲人家电使用交互式辅助系统进行详细说明。

当家电为微波炉时，任务种类包括食材放置任务、加热任务以及菜单选择任务，则以加热任务为例，如图2所示，首先，根据给定任务生成一系列指令，生成的指令用深灰色表示出来；本发明通过实时监控用户的手部位置和微波炉的显示屏，以交互式提供详细的指导，包括图1中的操作指导和状态评估，黑色方框(时间：5分钟)表示正在进行中的步骤；指导通过听觉反馈提供给用户，例如“向上”、“向下”等。本发明主要由两个核心部分组成：指令生成和交互式指导。

指令生成阶段：本发明采用状态模型，实际为状态机为每一类任务建模所有可能的步骤及步骤间的转换条件，一类任务对应一个状态模型。

如图3(a)和图3(b)所示，定义了微波炉的两类任务，即加热任务和菜单选择任务，方框中的内容是中间状态，箭头上的是状态转换条件，圆圈代表开始结束状态。用户可以使用语音命令指定具体的任务，例如，说出用80％火力加热，处理模块将在加热任务的状态模型中搜索能够完成这一任务的一条最短路径作为最短状态序列，该最短状态序列中的每一个状态均为完成80％火力加热任务时微波炉出现的中间状态，该路径上的中间状态对应一条音频指令序列，用户按照音频指令序列进行动作，即可使微波炉变为各中间状态，最终完成加热任务。

交互式指导阶段：通过获取用户手部姿态和实时监控家电的显示屏状态，给用户当前操作的语音指导，其中，交互式指导主要分为操作指导和状态评估两部分。

操作指导：对于操作设备的用户，整个过程通常包括两个阶段：走到设备的前(定位引导)并找到合适的按钮来操作(按钮引导)。

定位引导：本发明可以任意选取上述四种定位模块的其中一种来实现定位引导，也可以直接使用HoloLens头盔提前扫描用户所在场景，获取场景的几何结构。然后，位置锚点和声源被放置在家电在现实世界中的位置，以标记其在世界坐标系中的位置。通过自定位技术，可以在场景中获得用户当前位置以及锚点位置之间的关系。如果用户想要知道微波炉的位置，可以通过声音定位来获取位置。此外，定位引导还有另外一个作用，当用户在操作设备时，如果头部位置出现偏差，可能会导致定位模块中的摄像机视野漂移，本发明会通过定位引导技术，提醒用户进行相应的调整。操作过程中的大多数变化是由于用户头部的旋转而发生的，因此本发明是计算用户头部方向和锚点的法线方向之间的角度来实现定位引导。其中，如果角度超过预设范围20°，系统会给出右转或左转的反馈。

按钮引导：按钮引导是通过用户的当前操作手的位置和音频指令序列中预期的位置偏差引导用户不断靠近按钮位置。其中，按钮位置通过图像标记技术获得。当定位模块中的摄像头捕捉到与预定义标记匹配的图像时，例如微波炉前表面的图像，就会返回其空间位置。在操作过程中，本发明计算用户手部与实际要操作的按钮之间的空间差异。此类空间信息被转换为声音反馈，并用于引导用户接近按钮。相对位置的计算如图4(a)所示。手的位置，例如食指的顶部关节，垂直投影在微波面板表面上(浅灰色圆圈)。要操作的按钮位于黑色矩形内。为了更好的可视化，本发明稍微调整了比例。然后在这个面上，得到相对位置的上下左右，将其反向用作引导，用方向性声音表示。例如，如图4(b)左上图，手指在所需按钮的左上角，系统将在右侧发出语音“向下”作为反馈引导用户的手向右下方。

需要说明的是，本发明在判断用户手指是否已经到达要操作的按钮处时，设置了一个虚拟区域，该虚拟区域与要操作的按钮重合且其面积大于要操作的按钮面积，如图4(a)中的黑色和白色矩形。当用户的手接触虚拟区域时，则认为用户手指已经接触到要操作的按钮，表示当前按钮引导完成。可选的，在按钮中心周围使用一个宽度为0.5cm的正方形作为虚拟区域。本发明会通过语音提醒用户按下按钮，如图4(b)的右下方所示。

状态评估：对于微波炉，每按一次按钮，屏幕上就会显示相应的状态，如当前火力等级、加热时间等。最常见的显示信息是字符。例如，如果用户按下取消按钮，屏幕将显示字符零。由于在大多数情况下，字符被用作用户的反馈，代表运行状态，本发明设计了一种算法来识别显示的字符，从而评估设备的当前状态。本发明将识别出的字符与生成指令中的期望状态进行比较，得到以下操作，使当前状态更接近最终目标。状态评估过程包括3个步骤：分割、识别和评估。

分割：将捕获的图像分割成子图像；每个子图像只包含一个显示字符。图像由摄像头以固定时间间隔捕获。本发明根据经验将时间间隔设置为200ms。捕获的图像通过图像处理方法进行预处理，例如边缘检测以获得数字区域，闭合操作将闭合的离散区域融合为连通区域，为每个连通区域计算边界矩形。图5显示了分割结果。

识别：预测子图像的标签。分割的区域由HoG特征表示，然后传递给经过训练的分类器以预测标签。分类器由现成的SVM算法实现，该算法在标记数据集上训练，包含数字0到9的图像。由于应用环境在室内，在用户操作过程中方向、尺度、光照变化较小，进行识别，预测准确率高达99％。

评估：将识别出的字符(代表当前状态)与所需字符(代表所需状态)进行比较。如果两个数字匹配，则用户将根据生成的指令进行下一步操作，例如设置时间，指导也会相应地进入下一步。在两个数字不匹配的情况下，会给予用户更正反馈，例如，再按一次，通过基于任务状态机寻找从当前状态到最终状态的最短路径来获得纠正。

由此可见，本发明提供了一种更便捷、能够具有感知性、具有更好用户体验的增强现实场景下的对盲人使用家电进行辅助的系统，具体为：针对用户想要使用的某个家电，首先为家电可执行的任务种类设计对应的任务模型，各任务模型建模了家电操作和状态之间的关系，例如，按一次分钟键将设定一分钟定时。根据用户的具体任务，如用微波炉加热牛奶5分钟，从任务模型中生成完成该任务的一个最短状态序列。在用户使用家电过程中，再将最短状态序列转化为用户可操作的音频指令序列来辅助用户进行动作，即根据用户的实时状态(如操作的手指的位置)，家电的状态(当前屏幕显示)，当前的指令(指令序列中对应的位置)，计算用户当前应该采取的操作(例如，左移手指、按键等)，该动作由提供语音引导，引导用户逐一完成生成的音频指令序列，进而完成预期任务。可选的，在用户操作过程中，可以佩戴微软增强现实头盔Hololens，通过头盔的摄像头获取视觉信息，提供语音反馈，实现实时计算。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，包括定位模块与处理模块；

2.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，所述处理模块中预设有建模了家电操作和家电状态之间映射关系的任务模型，且不同的任务种类对应不同的任务模型，处理模块接收到待执行任务的语音信号后，判断待执行任务的所属种类，再从待执行任务对应的任务模型中搜索出取一条能够完成待执行任务的最短状态序列。

3.如权利要求2所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，当家电为微波炉时，任务种类包括食材放置任务、加热任务以及菜单选择任务，其中，当待执行任务为加热任务或者菜单选择任务时，家电的当前状态为微波炉屏幕上所显示的字符状态，若定位模块获取的微波炉屏幕当前显示字符与屏幕期望显示字符不同，则表示状态切换指令未被正确执行，若定位模块获取的微波炉屏幕当前显示字符与屏幕期望显示字符相同，则表示状态切换指令已被正确执行。

4.如权利要求2所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，当家电为微波炉且待执行任务为加热任务或者菜单选择任务时，状态切换指令对应的最终操作区域为执行状态切换指令所需要的微波炉按钮所在的区域，且该区域的面积大于微波炉按钮的面积。

5.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，定位模块通过计算机视觉的方法对用户手部食指或者拇指的指尖关节进行跟踪，以得到用户手部的位置信息，并通过图像识别技术获取家电在当前场景下的坐标，进而得到用户手部和家电之间的相对位置。

6.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，家电的现实世界位置处设置有锚点和声源，用于标记家电在世界坐标系中的位置；用户通过语音指定待使用的家电，则控制模块控制待使用的家电对应的声源发声向用户提供待使用的家电的所在方位，并通过自定位技术在场景中获得用户当前位置以及锚点位置之间的关系，以引导用户移动至待使用的家电周围。

7.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，所述定位模块为单目或者双目摄像头，则在用户通过语音为家电指定待执行任务前，用户佩戴单目或者双目摄像头进入室内场景，摄像头采用同步定位与地图构建技术对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算摄像头当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

8.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，所述定位模块包括光学摄像机和激光传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与激光传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和激光传感器获得的点云数据进行匹配和融合来对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算激光传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

9.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，所述定位模块包括光学摄像机和惯性传感器，且光学摄像机为单目或者双目摄像头；在用户通过语音为家电指定待执行任务前，用户佩戴光学摄像机与惯性传感器进入室内场景，基于同步定位与地图构建技术，将光学摄像机获得的图像和惯性传感器获得的传感器位姿与加速度数据进行融合来对室内场景进行建图操作，得到用户所在室内场景的几何结构；当摄像头再次进入室内场景时，通过与建图操作过程中获得的视觉特征点进行匹配，计算惯性传感器当前位姿，从而获得用户手部和家电之间的相对位置，生成音频指令序列。

10.如权利要求1所述的一种基于视觉感知的盲人家电使用交互式辅助系统，其特征在于，所述定位模块包括布置在室内场景的两个以上的红外摄像头以及设置于用户和家电上的红外反光点，通过捕捉各红外反光点反射回各红外摄像机的图像来确定用户手部和家电之间的相对位置。