CN109003303A

CN109003303A - 基于语音和空间物体识别及定位的设备控制方法及装置

Info

Publication number: CN109003303A
Application number: CN201810619354.2A
Authority: CN
Inventors: 刘孟红; 邵小宁
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-12-14
Anticipated expiration: 2038-06-15
Also published as: CN109003303B

Abstract

本发明公开了基于语音和空间物体识别及定位的设备控制方法及装置，该方法包含步骤：利用室内机器人的摄像头采集2D图像和深度图像、估计机器人的运动及空间3D地图、采集室内设备样本构成设备模型训练数据库并训练设备检测模型、估计设备标识及其在空间中的质心坐标组成设备分布数据库、将设备信息显示给用户，接收和存储用户确认的设备标识及设备区域位置、接收用户的设备控制语音指令，解析设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令。本发明实现了灵活的配置机器人巡逻的区域、巡逻的顺序、巡逻的时间段和巡逻的周期，且机器人还可以根据2D或3D区域的位置和大小，寻找最佳巡逻地点使机器人巡逻更高效。

Description

基于语音和空间物体识别及定位的设备控制方法及装置

技术领域

本发明涉及室内机器人技术领域，特别涉及基于语音和空间物体识别及定位的设备控制方法及装置。

背景技术

随着机器人相关技术的快速发展，人们对机器人的需求越来越高，特别是希望能够通过简单的语音交互方式即实现机器人快速准确的识别、定位、控制家电设备，这会成为机器人进入家庭的一种基本诉求，比如：用户对机器人说“机器人，去卧室把空调打开”这类语音指令。

家电设备的种类越来越多，包括位于天花板的灯具、位于电视墙的电视、位于墙面的空调挂机、位于地面的空调柜机、位于地面的冰箱等，这些家电设备位于三维空间中，且分布分散。而机器人识别物体是通过自身摄像头结合图像识别方式进行的，摄像头的高度及视野范围，对识别三维空间的物体的效果是息息相关的。

现有技术中没有针对家庭环境下的各种家电设备通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位的技术方案。

同时，机器人通过通用的视觉SLAM技术能够一定程度上识别出三维空间信息，但却不能有效地识别出局部三维空间的现实语义，包括主卧、次卧、书房、客厅、餐厅等。

而通过算法得出的识别结果，通常不是百分之百准确的，如何有效地通过语音方式帮助机器人确认设备的设备标识及设备区域位置，特别是针对老年人，是需要详细设计的，这会带来用户体验的提升。

综上所述，现有技术没有针对家庭环境下的各种家电设备通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位，也没有提供简单便捷的语音交互方式帮助机器人快速准确的识别、语义定位、控制家电设备，使得用户使用机器人的学习成本较高，用户体检不好。

发明内容

本发明的目的是克服上述背景技术中不足，提供基于语音和空间物体识别及定位的设备控制方法及装置，可实现机器人在家庭环境下的各种家电设备通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位，同时还可实现提供简单快捷的语音交互方式帮助机器人快速准确的识别、语义定位、控制家电设备的技术效果，可有效提升用户的使用体验。

为了达到上述的技术效果，本发明采取以下技术方案：

基于语音和空间物体识别及定位的设备控制方法，用于控制室内机器人识别与定位室内设备，包含以下步骤：

步骤1：利用室内机器人的摄像头采集2D图像和深度图像；

步骤2：根据所述2D图像和深度图像，估计机器人的运动及空间3D地图；

步骤3：采集室内设备样本构成设备模型训练数据库，并训练设备检测模型；这里的室内设备样本、设备模型训练数据库、设备检测模型是针对通用室内环境的，一般机器人出厂前已经配置好，机器人进入某个家庭环境后，就能直接使用；

步骤4：由所述空间3D地图获取采样帧数据库，根据设备检测模型，估计设备标识及其在空间中的质心坐标，组成设备分布数据库；

步骤5：将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置；

步骤6：接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令.

进一步地，所述步骤2中估计机器人的运动及空间3D地图时具体包含以下步骤：

2.1基于ORB特征的视觉里程计：获取ORB特征、根据适用的场景采用对应算法进行特征匹配、根据匹配好的点估计摄像头的运动；

ORB特征在保持特征子具有旋转、尺度不变性的同时，速度方面提升也很明显，可以满足实时性要求很高的即时定位与地图构建SLAM，具体在获取ORB特征分为两个步骤：

-FAST角点提取：找出图像中的“角点”，只需比较像素亮度的大小；

-BRIEF描述子：对前一步提取出特征点的周围图像区域进行描述；

在获取到ORB特征后，根据适用的场景，考虑采用相应的算法进行特征匹配，以确定当前看到的路标与之前看到的路标之间的对应关系，再根据匹配好的点估计相机的运动；如果采用RGB-D相机，根据像素的深度数据测量情况，自适应的混合使用PnP和ICP优化；

2.2基于位姿图的后端优化：构建一个只有轨迹的位姿图优化，位姿节点的之间的边由两个关键帧之间通过特征匹配之后得到的摄像头的运动估计来给定初始值；

前端视觉里程计能给出一个段时间内的轨迹和地图，但由于不可避免的误差累积，这个地图在长时间内是不准确的，本申请的技术方案中在视觉里程计的基础上构建了一个尺度、规模更大的优化问题，以实现长时间内的最优轨迹和地图，为了保证计算效率，本申请的技术方案采用基于位姿图的后端优化，其思路是：构建一个只有轨迹的图优化，位姿节点的之间的边，由两个关键帧之间通过特征匹配之后得到的运动估计来给定初始值；

2.3基于词袋模型的回环检测：基于关键帧和词袋模型，通过相似度计算进行回环检测，估计机器人的运动；

前端提供特征点的提取和轨迹、地图的初值，后端负责对所有这些数据进行优化，如果仅考虑相邻时间上的关联，那么之前产生的误差将不可避免地累积到下一个时刻，使得整个SLAM会出现累积误差，长期估计的结果将不可靠，即无法构建全局一致的轨迹和地图；

为了解决上述技术问题，本申请的技术方案中引入回环检测，回环检测的关键是如何有效检测出摄像头经过同一个地方这件事，即如何计算图像间的相似性；

为提升回环检测的效率，通过关键帧的选取机制进行优化，其中，如果关键帧选的太近，将导致两个关键帧之间的相似度过高，相比之下不容易检测出历史数据的回环，因此，本申请的技术方案中选取较为稀疏的关键帧，且彼此之间不太相同，又能覆盖整个环境；

基于关键帧和词袋模型，就可以通过相似度计算进行回环检测，为预防引发感知偏差问题，作为优选，回环检测通常还需要包括验证步骤

2.4稠密建图：使用三角网格、面片进行建图估计物体表面，或构建占据网格地图、八叉树地图进行导航。

进一步地，所述步骤2.1中对ORB特征进行特征匹配时的算法包含暴力匹配算法、快速近似近邻算法。

进一步地，所述步骤2.2中对位姿图优化可采用高斯牛顿法或列文伯格-马夸尔特方法求解或采用因子图进行位姿图优化

进一步地，所述步骤4具体包含以下步骤：

4.1空间地图采样：根据构建的空间地图，制定采样路径与采样间隔并记录采样所对应的相机位姿，构成采样帧数据库；

4.2基于YOLOv3目标检测算法的目标检测与识别，训练多类目标的YOLOv3目标检测模型，并通过对采样帧数据库中的每帧样本进行YOLOv3目标检测算法的目标检测与识别，得到每帧样本中的设备位置；

4.3构建设备分布数据库，根据YOLOv3目标检测算法的目标检测与识别得到所有采样帧中设备的位置与其对应的相机位姿，计算设备的三维空间坐标，并根据设备的包围盒对不同采样帧中的同一设备进行合并，由此得到该设备的质心坐标；

4.4由不同设备的标识、包围盒和质心坐标共同构成设备分布数据库。

进一步地，所述设备的标识为设备名称。

进一步地，所述步骤5具体包含以下步骤：

5.1将待确认设备的设备包围盒及设备采样帧展示给用户，并语音播报该设备的识别结果，请求用户确认或修改；

5.2接收用户通过语音方式确认或修改的设备识别结果；

5.3语音请求用户确认或修改设备区域位置；

5.4接收用户通过语音方式确认或修改的设备区域位置。

进一步地，所述步骤6中控制机器人移动到所述设备区域位置并执行设备控制指令时具体包含以下步骤：

第一步：根据设备质心坐标、设备允许的控制方式计算机器人应到的最佳位置或最佳位置区域；

其中，当设备仅支持红外码控制时，要求机器人所处的位置与设备的位置视距无遮挡，并且距离在红外码控制范围之内，而当设备仅支持语音控制时，要求机器人与设备间的距离在语音控制范围之内，且其他设备控制方式类似，在具体实现时，具体的参数阈值可根据情况调整；

第二步：机器人移动到所述最佳位置或最佳位置区域；

第三步：机器人通过WiFi或蓝牙或红外码或语音方式控制设备执行所述设备控制指令。

同时，本发明还公开了一种基于语音和空间物体识别及定位设备并控制设备的机器人，包含以下模块：

摄像头模块，用于采集2D图像和深度图像；

3D地图构建与定位模块，用于根据摄像头模块得到的2D图像和深度图像，估计机器人的运动及空间3D地图；

设备检测模型生成模块，用于采集室内设备样本，构成设备模型训练数据库，并训练设备检测模型；

设备分布数据库生成模块，用于由所述空间3D地图获取采样帧数据库，根据设备检测模型，估计设备标识及其在空间中的质心坐标，组成设备分布数据库；

设备信息维护模块，用于将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置；

设备控制模块，用于接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令。

本发明与现有技术相比，具有以下的有益效果：

本发明的基于语音和空间物体识别及定位的设备控制方法及装置，在机器人根据摄像头估计机器人的运动及空间3D地图的基础上，通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位，可快速识别及定位家电设备，并提供了简单便捷的语音交互方式帮助机器人快速准确的识别、语义定位、控制家电设备，降低了机器人的使用学习成本，提升了用户体验

附图说明

图1是本发明的基于语音和空间物体识别及定位的设备控制方法的流程示意图。

图2是本发明的基于语音和空间物体识别及定位设备并控制设备的机器人的示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

如图1所示，一种基于语音和空间物体识别及定位的设备控制方法，主要用于控制室内机器人识别与定位室内设备，具体包括以下步骤：需要说明的是，本实施例中的各步骤没有严格的先后之分，在具体实现可以根据情况进行调整。

步骤1，利用摄像头采集2D图像和深度图像。

步骤2，根据所述2D图像和深度图像，估计机器人的运动及空间3D地图。

其中，估计机器人的运动及空间3D地图的方法步骤具体包括：

1)基于ORB特征的视觉里程计：

ORB特征在保持特征子具有旋转、尺度不变性的同时，速度方面提升也很明显，可以满足实时性要求很高的SLAM。本实施例中提取ORB特征时两个步骤：

-FAST角点提取：找出图像中的“角点”，只需比较像素亮度的大小。

-BRIEF描述子：对前一步提取出特征点的周围图像区域进行描述。

在获取到ORB特征后，根据适用的场景，考虑采用暴力匹配、快速近似近邻等算法进行特征匹配，以确定当前看到的路标与之前看到的路标之间的对应关系。然后再根据匹配好的点估计相机的运动。如果采用RGB-D相机，根据像素的深度数据测量情况，自适应的混合使用PnP和ICP优化。

2)基于位姿图的后端优化：前端视觉里程计能给出一个段时间内的轨迹和地图，但由于不可避免的误差累积，这个地图在长时间内是不准确的。所以在本实施例中在视觉里程计的基础上还构建了一个尺度、规模更大的优化问题，以考虑长时间内的最优轨迹和地图。

为保证计算效率，本实施例中采用基于位姿图的后端优化，其思路是：构建一个只有轨迹的图优化，位姿节点的之间的边，由两个关键帧之间通过特征匹配之后得到的运动估计来给定初始值。

其中，位姿图优化可采用高斯牛顿法、列文伯格-马夸尔特方法等求解，也可考虑采用因子图进行位姿图优化。

3)基于词袋模型的回环检测：前端提供特征点的提取和轨迹、地图的初值，后端负责对所有这些数据进行优化，然后如果像VO那样仅考虑相邻时间上的关联，那么之前产生的误差将不可避免地累积到下一个时刻，使得整个SLAM会出现累积误差，长期估计的结果将不可靠，或者说，无法构建全局一致的轨迹和地图。

因此本实施例中引入回环检测，回环检测的关键是如何有效检测出相机经过同一个地方这件事，即如何计算图像间的相似性。

词袋，目的是用“图像上有哪几个特征”来描述一幅图像，归纳为单词，并由许多单词组成字典。而字典生成问题类似聚类问题。为提升回环检测的效率，本实施例中通过关键帧的选取机制进行优化。如果关键帧选的太近，将导致两个关键帧之间的相似度过高，相比之下不容易检测出历史数据的回环，本实施例中关键帧的选取机制为最好是稀疏的，彼此之间不太相同，又能覆盖整个环境。

基于关键帧和词袋模型，就可以通过相似度计算进行回环检测，且为了预防引发感知偏差问题，回环检测通常还需要包括验证步骤。

4)稠密建图：使用三角网格(Mesh)、面片(Surfel)进行建图估计物体表面，或构建占据网格地图、八叉树地图进行导航。

步骤3，采集室内设备样本，构成设备模型训练数据库，并训练设备检测模型。这里的室内设备样本、设备模型训练数据库、设备检测模型是针对通用室内环境的，一般机器人出厂前已经配置好，机器人进入某个家庭环境后，就能直接使用。

步骤4，由所述空间3D地图获取采样帧数据库，根据设备检测模型，估计设备标识及其在空间中的质心坐标，组成设备分布数据库。

具体方法步骤包括：

1)空间地图采样，根据构建的空间地图，制定采样路径与采样间隔并记录采样所对应的相机位姿，构成采样帧数据库。

2)基于YOLOv3的目标检测与识别，训练多类目标的YOLOv3检测模型，通过对采样帧数据库中的每帧样本进行目标检测与识别，得到每帧样本中的设备位置。

3)构建设备分布数据库，根据YOLOv3得到所有采样帧中设备的位置与其对应的相机位姿，计算设备的三维空间坐标，并根据设备包围盒对不同采样帧中的同一设备进行合并，由此得到该设备的质心坐标。不同设备的标识、包围盒和质心坐标共同构成设备分布数据库。

上述三个步骤的详细说明如下：

1)空间地图采样。

通过SLAM技术构建得到室内的三维空间地图，得到地图后需要根据地图制定一条样本采集路径，避免样本无序坐标混乱，便于设备的快速检测与定位。

首先根据地图生成室内的墙壁框架模型，该模型为简化了的室内空间地图，不包含各种家具。路径的制定根据深度摄像头的深度测量范围来定，假设深度摄像头的测量范围为4m，则样本采集时，摄像头距离简化模型的墙壁需保持在4m以内，且为了保证采集视野范围，距离不能过小。

本实施例的技术方案中在采集时，除了采集正对墙壁的样本外，还需要在对应地点采集不同视角的样本，还需采集不同仰视角的样本，仰视角度样本采集间隔为30°，采集范围为0-90°，按样本采集路径，每移动0.5m采集一组样本。

在采集样本的同时还需要记录下每帧样本所对应的相机位姿。所有采集的样本构成采样帧数据库，且该数据库需尽量涵盖室内所有的内容。

2)基于YOLOv3的目标检测与识别。

在训练目标检测模型之前，需要准备训练样本库。根据使用场景的特点，指定待检测的目标类别，如空调、电视、洗衣机、灯具等，根据指定的目标类别进行训练样本的采集与整理，并针对机器人的相机视角进行训练样本的补充，这些样本组成设备模型训练数据库。

由该数据库训练得到多目标检测与识别的YOLOv3模型，该模型能够同时检测一副图像中不同种类的目标，并得到该目标在图像中的位置信息。使用该模型对采样帧数据库进行处理，检测每一帧中的待检测目标位置，并去除无待检测设备的采样帧。

3)构建设备分布数据库。

当指定室内空间的检测目标为家电设备时，可构建该空间的设备分布数据库。根据YOLOv3模型检测采样帧数据库得到每个采样帧中的待检测目标位置和该帧对应的深度数据，可以计算得到待检测目标的质心坐标。质心坐标为检测到的目标外接框内的空间点的三维坐标均值。用该质心坐标和包围盒坐标代表该目标的位置。

在前面的步骤中得到了设备在对应采样帧中的位置，该位置并不是设备在该空间的世界坐标，可通过采样帧对应的相机位姿将采样帧的坐标转换为空间世界坐标，由此同样得到设备的空间世界坐标。由于同一设备在相邻采样帧中有同时出现的可能，对设备的空间世界坐标需要进行合并。

当两个设备的包围盒有交集，则将两个包围盒的合并为一个，这两个设备为同一设备，并更新质心坐标。通过上述步骤，可以得到不同设备在空间世界坐标系中的分布情况，且每个设备对应一个质心坐标。不同设备的标识、包围盒和质心坐标共同构成设备分布数据库。

步骤5，将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置。

这里的设备区域位置是现实语义级别的，机器人很难准确的识别，为方便用户在后续的步骤中通过语音方式控制机器人去某个地方控制某个设备，比如，用户对机器人说“机器人，去卧室把空调打开”这类语音指令，需要对三维空间中的每个设备设置现实语义级别的设备区域位置，比如设备区域位置为客厅、餐厅、主卧、次卧1、次卧2、书房等。

其中，设备标识可以为设备名称，比如：空调、冰箱、电视等。

具体的，通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置的具体步骤包括：

1)将待确认设备的设备包围盒及设备采样帧展示给用户，并语音播报该设

备的识别结果，请求用户确认或修改；

2)接收用户通过语音方式确认或修改的设备识别结果；

3)语音请求用户确认或修改设备区域位置；

4)接收用户通过语音方式确认或修改的设备区域位置。

本实施例中具体的语音交互示例如下：

机器人发出以下语音内容：主人您好，发现一个设备，初步判断为“空调”，请查看设备图片及周边环境，如判断准确，请回复“判断准确”，否则，请回复“需要修改”；

用户判定后确定该设备为空调故用户回复：判断准确；

收到用户回复后机器人再次发出以下语音内容：请设置设备区域位置；

用户根据查看到的周边环境判定该空调为主卧的空调故用户回复：主卧。

则在收到用户的回复后机器人即在内部存储系统中保存了该空调的使用位置，以便下次用户发出“打开或关闭主卧空调”的命令时可以准确的操作。

这样，通过简单的交互流程设计，用户使用机器人的学习成本降低，并帮助机器人确认设备标识及设备语义位置。

步骤6，接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令。

其中，控制机器人移动到所述设备区域位置并执行设备控制指令的方法步骤具体包括：

1)根据设备质心坐标、设备允许的控制方式计算机器人应到的最佳位置或最佳位置区域。

具体的，当设备仅支持红外码控制时，要求机器人所处的位置与设备的位置视距无遮挡，并且距离在红外码控制范围之内。

当设备仅支持语音控制时，要求机器人与设备间的距离在语音控制范围之内。

且其他设备控制方式类似，在具体实现时，具体的参数阈值可根据情况调整。

2)机器人移动到所述最佳位置或最佳位置区域；

3)机器人通过WiFi或蓝牙或红外码或语音方式控制设备执行所述设备控制指令。

因此，本实施例的基于语音和空间物体识别及定位的设备控制方法，在机器人根据摄像头估计机器人的运动及空间3D地图的基础上，实现了通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位，快速识别及定位家电设备，并提供简单便捷的语音交互方式帮助机器人快速准确的识别、语义定位、控制家电设备，降低了机器人的使用学习成本，提升了用户体验。

实施例二

如图2所示，一种基于区域地图标识进行巡逻的机器人设备，具体包括以下模块：

用于采集2D图像和深度图像的摄像头模块、用于根据摄像头模块得到的2D图像和深度图像，估计机器人的运动及空间3D地图的3D地图构建与定位模块、用于采集室内设备样本，构成设备模型训练数据库，并训练设备检测模型的设备检测模型生成模块，用于由所述空间3D地图获取采样帧数据库，根据设备检测模型，估计设备标识及其在空间中的质心坐标，组成设备分布数据库的设备分布数据库生成模块，用于将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置的设备信息维护模块、用于接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令的设备控制模块。

其中，摄像头模块与3D地图构建与定位模块相连，设备分布数据库生成模块分别与3D地图构建与定位模块、设备检测模型生成模块、设备信息维护模块相连，设备控制模块与设备信息维护模块相连。

工作时，先由摄像头模块采集2D图像和深度图像，然后由3D地图构建与定位模块根据摄像头模块得到的2D图像和深度图像，估计机器人的运动及空间3D地图，然后再由设备检测模型生成模块采集室内设备样本，构成设备模型训练数据库，并训练设备检测模型，然后由设备分布数据库生成模块根据空间3D地图获取采样帧数据库，根据设备检测模型，估计设备标识及其在空间中的质心坐标，组成设备分布数据库，再由设备信息维护模块将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置，最后由设备控制模块接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令。

具体的，在3D地图构建与定位模块估计机器人的运动及空间3D地图时具体包括基于ORB特征的视觉里程计、基于位姿图的后端优化、基于词袋模型的回环检测和稠密建图的操作步骤。

设备分布数据库生成模块在组成设备分布数据库时的具体操作步骤为：

空间地图采样，根据构建的空间地图，制定采样路径与采样间隔并记录采样所对应的相机位姿，构成采样帧数据库；

基于YOLOv3的目标检测与识别，训练多类目标的YOLOv3检测模型，通过对采样帧数据库中的每帧样本进行目标检测与识别，得到每帧样本中的设备位置；

构建设备分布数据库，根据YOLOv3得到所有采样帧中设备的位置与其对应的相机位姿，计算设备的三维空间坐标，并根据设备包围盒对不同采样帧中的同一设备进行合并，由此得到该设备的质心坐标，其中，不同设备的标识、包围盒和质心坐标共同构成设备分布数据库。

设备信息维护模块将所述设备分布数据库中的设备信息显示给用户，并通过语音交互的方式接收和存储用户确认的设备标识及设备区域位置时具体包括以下操作：将待确认设备的设备包围盒及设备采样帧展示给用户，并语音播报该设备的识别结果，请求用户确认或修改；接收用户通过语音方式确认或修改的设备识别结果；语音请求用户确认或修改设备区域位置；接收用户通过语音方式确认或修改的设备区域位置。

设备控制模块在控制机器人移动到所述设备区域位置并执行设备控制指令时，具体包括以下操作步骤：

据设备质心坐标、设备允许的控制方式计算机器人应到的最佳位置或最佳位置区域；机器人移动到所述最佳位置或最佳位置区域；机器人通过WiFi或蓝牙或红外码或语音方式控制设备执行所述设备控制指令。

上述部分操作的具体内容及实施方法与实施例一中相同，故不再赘述。需要说明的是，本实施例中的各模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可以拆分成多个模块(或单元)。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

因此，本实施例的基于语音和空间物体识别及定位设备并控制设备的机器人，在机器人根据摄像头估计机器人的运动及空间3D地图的基础上，实现了通过图像识别结合常用空间位置的方式系统地进行训练、建模、识别和定位，快速识别及定位家电设备，并提供简单便捷的语音交互方式帮助机器人快速准确的识别、语义定位、控制家电设备，降低了机器人的使用学习成本，提升了用户体验。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.基于语音和空间物体识别及定位的设备控制方法，用于控制室内机器人识别与定位室内设备，其特征在于，包含以下步骤：

步骤1：利用室内机器人的摄像头采集2D图像和深度图像；

步骤3：采集室内设备样本构成设备模型训练数据库，并训练设备检测模型；

步骤6：接收用户的设备控制语音指令，解析出设备标识及设备区域位置，控制机器人移动到所述设备区域位置并执行设备控制指令。

2.根据权利要求1所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤2中估计机器人的运动及空间3D地图时具体包含以下步骤：

3.根据权利要求2所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤2.1中对ORB特征进行特征匹配时的算法包含暴力匹配算法、快速近似近邻算法。

4.根据权利要求2所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤2.2中对位姿图优化可采用高斯牛顿法或列文伯格-马夸尔特方法求解或采用因子图进行位姿图优化。

5.根据权利要求1所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤4具体包含以下步骤：

6.根据权利要求5所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述设备的标识为设备名称。

7.根据权利要求1所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤5具体包含以下步骤：

5.2接收用户通过语音方式确认或修改的设备识别结果；

5.3语音请求用户确认或修改设备区域位置；

5.4接收用户通过语音方式确认或修改的设备区域位置。

8.根据权利要求1所述的基于语音和空间物体识别及定位的设备控制方法，其特征在于，所述步骤6中控制机器人移动到所述设备区域位置并执行设备控制指令时具体包含以下步骤：

第二步：机器人移动到所述最佳位置或最佳位置区域；

9.基于语音和空间物体识别及定位设备并控制设备的机器人，其特征在于，包含以下模块：

摄像头模块，用于采集2D图像和深度图像；