CN104598138B

CN104598138B - 电子地图控制方法及装置

Info

Publication number: CN104598138B
Application number: CN201410816905.6A
Authority: CN
Inventors: 唐敏; 陈斌德; 季四维; 王晓鹏
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-10-17
Anticipated expiration: 2034-12-24
Also published as: CN104598138A

Abstract

本申请提出电子地图控制方法及装置。方法包括：设备接收用户输入的地图控制语音指令，识别该语音指令；设备采集用户的脸部视频流，在该脸部视频流中对用户的眼球进行运动跟踪，根据对用户眼球的运动跟踪结果，计算用户眼球在地图上的注视区域或者用户需要的地图移动距离；设备将识别出的用户的地图控制语音指令与计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令。本申请实现了对电子地图的自动控制。

Description

电子地图控制方法及装置

技术领域

本申请涉及电子地图技术领域，尤其涉及电子地图控制方法及装置。

背景技术

目前，在设备上操作电子地图的方法主要有：用鼠标或者键盘灯外设来操作地图；用手指在触摸屏上控制地图，根据单个手指或者多个手指在触摸屏上的上下左右移动及其它组合动作来控制电子地图的移动及放大缩小。

现有方案均间接或者直接使用手去操作，对于腾不开手来的人或者对于双手残疾的人士，操作地图变得十分困难。

发明内容

本申请提供电子地图控制方法及装置，以实现对电子地图的自动控制。

本申请的技术方案是这样实现的：

一种电子地图控制方法，该方法包括：

设备接收用户输入的地图控制语音指令，识别该语音指令；

设备采集用户的脸部视频流，在该脸部视频流中对用户的眼球进行运动跟踪，根据对用户眼球的运动跟踪结果，计算用户眼球在地图上的注视区域或者用户需要的地图移动距离；

设备将识别出的用户的地图控制语音指令与计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令。

一种电子地图控制装置，该装置包括：

语音指令识别模块：接收用户输入的地图控制语音指令，识别该语音指令，将识别结果发给机器指令合并模块；

运动跟踪模块：采集用户的脸部视频流，在该脸部视频流中对用户的眼球进行运动跟踪；根据对用户眼球的运动跟踪结果，计算用户眼球在地图上的注视区域或者用户需要的地图移动距离，将计算结果发送给机器指令合并模块；

机器指令合并模块：将语音指令识别模块识别出的用户的地图控制语音指令与运动跟踪模块计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令。

可见，本申请中，只需通过语音和对用户眼球的运动跟踪，就可实现对电子地图的控制。

附图说明

图1为本申请一实施例提供的电子地图控制方法流程图；

图2为本申请实施例提供的采集用户的地图控制语音指令的语音特征集的方法流程图；

图3为本申请实施例提供的识别用户输入的地图控制语音指令的方法流程图；

图4为本申请实施例提供的设备计算用户眼球在地图上的注视区域或者用户需要的地图移动距离的方法流程图；

图5为本申请实施例提供的设备计算每一帧视频数据中用户眼球视线在屏幕上的投影坐标的示意图；

图6-1为本申请实施例提供的用户发出上移或下移的指令后，用户眼球在垂直方向的两个区域之间往返运动的示意图；

图6-2给出了本申请实施例提供的用户发出左移或右移的指令后，用户眼球在水平方向的两个区域之间往返运动的示意图；

图7为本申请实施例提供的电子地图控制装置的组成示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本申请的技术方案进行详细说明。

图1为本申请一实施例提供的电子地图控制方法流程图，其具体步骤如下：

步骤101：设备接收用户输入的地图控制语音指令，识别该语音指令。

步骤102：设备采集用户的脸部视频流，在该脸部视频流中对用户的眼球进行运动跟踪。

步骤103：设备根据对用户眼球的运动跟踪结果，计算用户眼球在地图上的注视区域或者用户需要的地图移动距离。

步骤104：设备将识别出的用户的地图控制语音指令与计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令。

步骤105：设备根据该地图控制机器指令对地图进行控制操作。

在具体实现时，对于上述步骤101，设备要识别用户输入的地图控制语音指令，必须首先采集用户的不同地图控制语音指令对应的语音特征集，此后，当用户真正输入地图控制语音指令对地图进行控制时，再将用户输入的语音指令与语音特征集进行匹配，以确定用户输入的指令具体属于哪种指令。

图2为本申请实施例提供的采集用户的地图控制语音指令的语音特征集的方法流程图，其具体步骤如下：

步骤201：设备预先采集用户输入的所有种类的地图控制语音指令样本。

地图控制语音指令通常包括两大类：缩放和移动。具体包括：放大、缩小、上移、下移、左移、右移六种。

设备需要针对每一种地图控制语音指令对用户进行语音样本采集。例如：设备需要采集用户输入的六种语音样本：“放大”、“缩小”、“上移”、“下移”、“左移”、“右移”。

在实际应用中，设备的麦克风采集到的用户原始语音信号为模拟信号，麦克风需要先将语音信号转换为数字信号。

步骤202：设备采用预设的特征提取方法，分别对采集的每一种地图控制语音指令样本进行特征提取，得到每一种地图控制语音指令对应的语音特征模板。

地图控制语音指令是特定的、唯一的词组，例如为：特定的、唯一的二字词组，如：“放大”、“缩小”、“上移”、“下移”、“左移”、“右移”等，因此，本步骤202中采用的特征提取方法可以是：线性预测系数算法、或者线性倒谱系数算法、或者Mel频率倒谱系数算法等。

由于用户输入的原始语音信号通常是非平稳的，而且含有部分冗余信息，因此，为了增强有效信息，去除冗余信息。优选地，本步骤202中，设备在进行特征提取前，先对地图控制语音指令样本进行预处理，预处理方法包括但不限于：端点检测、预加重、分帧、加窗等。

步骤203：设备保存每一种地图控制语音指令对应的语音特征模板，其中，每一种地图控制语音指令具有唯一的标识。

例如：可为每一种地图控制语音指令分配唯一的编号。如：为“放大”、“缩小”、“上移”、“下移”、“左移”、“右移”分别分配编号01、02、03、04、05、06，则对应的语音特征模板分别以该编号标示

当采集到所有种类的地图控制语音指令的特征集后，就可以对用户输入的地图控制语音指令进行识别了。

图3为本申请实施例提供的识别用户输入的地图控制语音指令的方法流程图，具体步骤如下：

步骤301：设备接收用户输入的地图控制语音指令，采用预设的特征提取方法，提取该语音指令的特征集。

与步骤201相同，本步骤301中，设备的麦克风要将用户输入的地图控制语音指令由模拟信号转换为数字信号。

本步骤301中，采用的特征提取方法与步骤202相同。

需要说明的是，若步骤202中，设备在进行特征提取前，先对地图控制语音指令样本进行了预处理，则本步骤301中，设备在提取特征前，要对用户输入的地图控制语音指令进行与步骤202相同的预处理方法。

步骤302：设备将提取的特征集与步骤203中保存的每一种地图控制语音指令的语音特征模板一一匹配，并计算匹配度。

步骤303：设备将匹配度最高的语音特征模板对应的地图控制语音指令作为最终确认的用户语音指令。

优选地，可预先设置一个匹配阈值，本步骤303中，首先计算最高匹配高是否大于匹配阈值，若是，则将匹配度最高的语音特征模板对应的地图控制语音指令作为最终确认的用户语音指令；否则，结束本次流程。

图4为本申请实施例提供的设备计算用户眼球在地图上的注视区域或者用户需要的地图移动距离的方法流程图，具体步骤如下：。

步骤401：设备通过摄像头采集用户脸部视频流。

步骤402：设备在脸部视频流中追踪用户眼球。

优选地，步骤402中，设备在脸部视频流中追踪用户眼球之前，可先对用户脸部视频流进行预处理，以去除视频流中的噪点，使得人脸和眼球更加突出。

实质上，步骤402中，设备就是要从每一帧视频数据中识别出眼球在人脸中的位置，识别方法包括但不限于：Haar-like特征检测算法、LK光流法等。

步骤403：设备根据用户眼球的运动轨迹，计算每一帧视频数据中用户眼球视线在屏幕上的投影坐标。

本步骤中的计算方法包括但不限于：基于Gaussian Processes的视线预测。

本步骤的示意图见图5。

步骤404：设备根据每一帧视频数据中用户眼球视线在屏幕上的投影坐标，确定每一帧视频数据中用户眼球在地图中的停留区域。

可预先将地图划分为M(M为整数且M>1)个大小相等的区域。

步骤405：设备找出用户眼球停留最多的区域，判断用户眼球停留在该区域的帧数与采集的用户脸部视频流的总帧数的比值是否大于预设第一阈值，若是，执行步骤406；否则，执行步骤407。

预设第一阈值可根据经验确定。

步骤406：设备确定用户眼球停留最多的区域为用户眼球注视的区域，若用户输入的语音指令为缩放指令，则将用户眼球注视的区域和用户输入的缩放指令合并生成地图控制机器指令，转至步骤409。

本步骤中，在得到用户眼球注视的区域后，若发现用户输入的语音指令为移动指令，则确定合并失败，结束本次流程。

步骤407：设备找出用户眼球往返次数最多的两个区域，判断用户眼球在该两区域之间的往返次数是否大于预设第二阈值，若是，执行步骤408；否则，结束本流程。

预设第二阈值可根据经验确定。

步骤408：设备计算用户眼球在该两区域之间的视线移动速度，从而计算出用户需要的地图移动距离，若用户输入的语音指令为移动指令，则将用户需要的地图移动距离和用户输入的移动指令合并生成地图控制机器指令。

本步骤中，在得到用户需要的地图移动距离后，若发现用户输入的语音指令为缩放指令，则确定合并失败，结束本次流程。

地图移动距离与用户视线移动的速度正相关，具体可用如下公式表示：

地图移动距离＝K*视线移动速度

其中，K为常量。

图6-1给出了用户发出上移或下移的指令后，用户眼球在垂直方向的两个区域之间往返运动的示意图，图6-2给出了用户发出左移或右移的指令后，用户眼球在水平方向的两个区域之间往返运动的示意图。

步骤408：设备根据该地图控制机器指令对地图进行控制操作。

具体地，若用户输入了缩放指令(如：放大、缩小)，且步骤406中设备得到了用户眼球在地图上的注视区域，则生成的地图控制机器指令指示以用户眼球在地图上的注视区域为中心进行放大或缩小。

若设备识别出的用户的地图控制语音指令为移动指令(如：上移、下移、左移、右移)，且步骤408中设备计算出了用户需要的地图移动距离，则生成的地图控制机器指令指示以屏幕中心点为起始点，按照用户需要的移动方向将地图移动用户需要的地图移动距离。

图7为本申请实施例提供的电子地图控制装置的组成示意图，其主要包括：语音指令识别模块、运动跟踪模块和机器指令合并模块，其中：

指令识别模块：接收用户输入的地图控制语音指令，识别该语音指令，将识别结果发给机器指令合并模块。

运动跟踪模块：采集用户的脸部视频流，在该脸部视频流中对用户的眼球进行运动跟踪；根据对用户眼球的运动跟踪结果，计算用户眼球在地图上的注视区域或者用户需要的地图移动距离，将计算结果发送给机器指令合并模块。

语音指令识别模块进一步用于，预先采集用户输入的所有种类的地图控制语音指令样本；采用预设的特征提取方法，分别对采集的每一种地图控制语音指令样本进行特征提取，得到并保存每一种地图控制语音指令对应的语音特征模板；

语音指令识别模块识别该语音指令包括：采用预设的特征提取方法，提取该用户输入的地图控制语音指令的特征集，将提取的特征集与保存的每一种地图控制语音指令对应的语音特征模板一一匹配，将匹配度最高的语音特征模板对应的地图控制语音指令作为最终确认的用户语音指令。

运动跟踪模块在该脸部视频流中对用户的眼球进行运动跟踪包括：根据用户眼球的运动轨迹，计算每一帧视频数据中用户眼球视线在屏幕上的投影坐标，根据每一帧视频数据中用户眼球视线在屏幕上的投影坐标，确定每一帧视频数据中用户眼球在地图中的停留区域。

运动跟踪模块计算用户眼球在地图上的注视区域或者用户需要的地图移动距离包括：根据确定的每一帧视频数据中用户眼球在地图中的停留区域，找出用户眼球停留最多的区域，若用户眼球停留在该区域的帧数与设备采集的脸部视频流的总帧数的比值大于预设第一阈值，则将用户眼球停留最多的区域作为用户眼球在地图上的注视区域；否则，在确定的用户眼球在地图中停留的所有区域中，找出用户眼球往返次数最多的两个区域，判断用户眼球在该两区域之间的往返次数是否大于预设第二阈值，若大于，根据用户眼球在该两区域之间的视线移动速度计算出用户需要的地图移动距离。

机器指令合并模块得到地图控制机器指令包括：

若语音指令识别模块发来的识别结果为缩放指令，且运动跟踪模块发来的计算结果为用户眼球在地图上的注视区域，则地图控制机器指令指示以用户眼球在地图上的注视区域为中心进行缩放；若语音指令识别模块发来的识别结果为移动指令，，且运动跟踪模块发来的计算结果为用户需要的地图移动距离，则地图控制机器指令指示以屏幕中心点为起始点，按照用户需要的移动方向将地图移动用户需要的地图移动距离。

本申请实施例中的设备只要具备显示器、麦克风、摄像头和存储模块即可。

本申请的有益技术效果如下：

本申请克服了必须使用双手控制电子地图的问题，使用语音识别以及眼球运动追踪的方法来解放双手，使得那些腾不开手的人(如正在开车的人)以及双手残疾的人士可以正常使用、控制地图。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种电子地图控制方法，其特征在于，该方法包括：

设备接收用户输入的地图控制语音指令，识别该语音指令；

设备将识别出的用户的地图控制语音指令与计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令；

所述设备计算用户眼球在地图上的注视区域或者用户需要的地图移动距离包括：

设备根据确定的每一帧视频数据中用户眼球在地图中的停留区域，找出用户眼球停留最多的区域，若用户眼球停留在该区域的帧数与设备采集的脸部视频流的总帧数的比值大于预设第一阈值，则将用户眼球停留最多的区域作为用户眼球在地图上的注视区域；否则，在确定的用户眼球在地图中停留的所有区域中，找出用户眼球往返次数最多的两个区域，判断用户眼球在该两区域之间的往返次数是否大于预设第二阈值，若大于，根据用户眼球在该两区域之间的视线移动速度计算出用户需要的地图移动距离。

2.根据权利要求1所述的方法，其特征在于，所述设备识别该语音指令之前进一步包括：

设备预先采集用户输入的所有种类的地图控制语音指令样本；

设备采用预设的特征提取方法，分别对采集的每一种地图控制语音指令样本进行特征提取，得到并保存每一种地图控制语音指令对应的语音特征模板；

所述设备识别该语音指令包括：

设备采用预设的特征提取方法，提取该用户输入的地图控制语音指令的特征集，将提取的特征集与保存的每一种地图控制语音指令对应的语音特征模板一一匹配，将匹配度最高的语音特征模板对应的地图控制语音指令作为最终确认的用户语音指令。

3.根据权利要求1所述的方法，其特征在于，所述设备在该脸部视频流中对用户的眼球进行运动跟踪包括：

设备根据用户眼球的运动轨迹，计算每一帧视频数据中用户眼球视线在屏幕上的投影坐标，根据每一帧视频数据中用户眼球视线在屏幕上的投影坐标，确定每一帧视频数据中用户眼球在地图中的停留区域。

4.根据权利要求1至3任一所述的方法，其特征在于，所述得到地图控制机器指令包括：

若识别出用户的地图控制语音指令为缩放指令且计算出用户眼球在地图上的注视区域，则地图控制机器指令指示以用户眼球在地图上的注视区域为中心进行缩放；

若识别出用户的地图控制语音指令为移动指令，且计算出用户需要的地图移动距离，则地图控制机器指令指示以屏幕中心点为起始点，按照用户需要的移动方向将地图移动用户需要的地图移动距离。

5.一种电子地图控制装置，其特征在于，该装置包括：

机器指令合并模块：将语音指令识别模块识别出的用户的地图控制语音指令与运动跟踪模块计算出的用户眼球在地图上的注视区域或者用户需要的地图移动距离进行合并，得到地图控制机器指令；

所述运动跟踪模块计算用户眼球在地图上的注视区域或者用户需要的地图移动距离包括：

根据确定的每一帧视频数据中用户眼球在地图中的停留区域，找出用户眼球停留最多的区域，若用户眼球停留在该区域的帧数与设备采集的脸部视频流的总帧数的比值大于预设第一阈值，则将用户眼球停留最多的区域作为用户眼球在地图上的注视区域；否则，在确定的用户眼球在地图中停留的所有区域中，找出用户眼球往返次数最多的两个区域，判断用户眼球在该两区域之间的往返次数是否大于预设第二阈值，若大于，根据用户眼球在该两区域之间的视线移动速度计算出用户需要的地图移动距离。

6.根据权利要求5所述的装置，其特征在于，所述语音指令识别模块进一步用于，

预先采集用户输入的所有种类的地图控制语音指令样本；采用预设的特征提取方法，分别对采集的每一种地图控制语音指令样本进行特征提取，得到并保存每一种地图控制语音指令对应的语音特征模板；

所述语音指令识别模块识别该语音指令包括：

采用预设的特征提取方法，提取该用户输入的地图控制语音指令的特征集，将提取的特征集与保存的每一种地图控制语音指令对应的语音特征模板一一匹配，将匹配度最高的语音特征模板对应的地图控制语音指令作为最终确认的用户语音指令。

7.根据权利要求5所述的装置，其特征在于，所述运动跟踪模块在该脸部视频流中对用户的眼球进行运动跟踪包括：

根据用户眼球的运动轨迹，计算每一帧视频数据中用户眼球视线在屏幕上的投影坐标，根据每一帧视频数据中用户眼球视线在屏幕上的投影坐标，确定每一帧视频数据中用户眼球在地图中的停留区域。

8.根据权利要求5至7任一所述的装置，其特征在于，所述机器指令合并模块得到地图控制机器指令包括：

若语音指令识别模块发来的识别结果为缩放指令，且运动跟踪模块发来的计算结果为用户眼球在地图上的注视区域，则地图控制机器指令指示以用户眼球在地图上的注视区域为中心进行缩放；若语音指令识别模块发来的识别结果为移动指令，且运动跟踪模块发来的计算结果为用户需要的地图移动距离，则地图控制机器指令指示以屏幕中心点为起始点，按照用户需要的移动方向将地图移动用户需要的地图移动距离。