CN107548483A

CN107548483A - 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆

Info

Publication number: CN107548483A
Application number: CN201680025565.2A
Authority: CN
Inventors: A.本-哈马杜
Original assignee: Valeo Comfort and Driving Assistance SAS
Current assignee: Valeo Comfort and Driving Assistance SAS
Priority date: 2015-03-27
Filing date: 2016-03-25
Publication date: 2018-01-05
Anticipated expiration: 2036-03-25
Also published as: FR3034215B1; WO2016156678A1; US20180203506A1; FR3034215A1; CN107548483B; US10627898B2; EP3274809A1

Abstract

本发明涉及一种用于用户控制一装置的方法。根据本发明，上述方法包括以下步骤：通过分析由图像传感器(111)获得的且包含用户(100)脸部的至少一部分的至少一个图像来辨识位于用户(100)的观察方向上的装置；确定口头指令；将与确定的口头指令相关联的命令传输至辨识出的装置。本发明还涉及一种控制装置(110)，在该控制装置中，能够实施这样的方法，以及涉及一种系统(110、121、122)，和包括这样的装置(110)的机动车辆(130)。

Description

控制方法、控制装置、系统以及包括这样的控制装置的机动车辆

技术领域

本发明大体涉及人机交互接口的领域，所述人机交互接口允许用户与电装置或电子装置无接触地相互作用。

本发明更特别地涉及一种控制方法、控制装置、系统、以及包括这样的控制装置的机动车辆。

其特别有利地应用在设置有附属装置的机动车辆中，所述附属装置诸如收音机、GPS定位系统、或移动电话，机动车辆的驾驶员在驾驶机动车辆时可能要控制所述附属装置。

背景技术

越来越多的附属电子装置设置在机动车辆中，用于辅助使用机动车辆或使其更加舒适，例如定位装置和GPS导航辅助设备、用于对车辆乘客舱进行空气调节的装置、用于电车窗打开和关闭的装置、用于查看和检测障碍物的装置、或收音机。

这样的装置通常由车辆的驾驶员经由按钮或触摸屏控制。为此，驾驶员使用他们的至少一只手，这使他们从驾驶车辆本身分心，且意味着他们的仅一只手可用于操纵。

在该背景下，无接触控制装置，允许用户控制附属装置而不必为此使用他们的一只手，因此是特别有利的。这样的无接触控制装置可例如基于自动语音识别系统，由于所述自动语音识别系统，驾驶员给出的用于控制附属装置的口头指令被辨识。

由文献US 8442820已知一种接口，其使得可以无接触地控制存在于机动车辆中的附属装置。由用户给出的用于控制这样的装置的口头指令由接口通过自动语音识别的方法辨识。这样的口头指令可还通过读取用户的嘴唇而被确定，即，通过分析当他们念出这样的指令时获取的他们的嘴唇的图像。接口然后组合由这两种方法中的每一种辨识出的两个指令，将优先级赋予由语音识别辨识出的指令，以便产生意图控制这样的附属装置的指令。

发明内容

在该背景下，本发明提供一种用于通过用户控制一装置的方法，包括以下步骤：

通过分析由图像传感器获取的包括用户的脸部的至少一部分的至少一个图像，辨识位于所述用户的注视方向上的装置，

确定口头指令，

将与确定的口头指令相关联的命令传输至辨识出的装置。

在这样的方法中，用户因此在不使用其一只手(用于控制装置)的情况下控制一装置，从而具有其所带来的上述优势。

此外，在该方法中，由于位于用户的注视方向上的装置的在前辨识，与所确定的口头指令相关联的命令被传输至其意图用于的装置。当要控制的特定多个装置存在于用户的环境中时，该布置是特别有利的。特别地，口头指令，诸如“开始”或“关闭”，可对这些装置中的多个是共用的，那么重要的是，将所确定的口头指令明确地传输至其意图用于的装置。

更一般地，结合从用户的注视方向得到的信息与口头给出的指令使得可以更可靠且更精确地控制装置，这是由于不同来源但针对相同目的的多个控制信息项因此被结合。

本发明还提供，所述口头指令通过分析在辨识所述装置之后获取的且针对预定时间段获取的数据而被确定。

搜索用户给出的口头指令仅在用户已经看着要被控制的具体装置之后开始，且仅持续预定时间段。选择这样的时间间隔有利地减少识别口头指令中的错误，否则所述错误可能更频发的发生，例如在机动车辆的驾驶员和乘客之间发生对话期间。

根据本发明的方法的其他非限制性和有利特征如下：

-所述口头指令通过分析包括由所述图像传感器获取的、包括用户的面部的至少一部分的图像而被确定；由于这样的方法，不能说话的、或具有陈述话语困难的用户可控制这样的装置，而不必为此使用他们的一只手；

-所述口头指令通过分析声音信号而被确定；和

所述口头指令通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较而被确定。

使得可以辨识口头指令的参考数据可因此被选择为对应于与要被控制的装置具体相关联的口头指令，所述装置是之前已经被辨识出的装置。该布置使得可以更可靠和有效的辨识口头指令，这是由于其因此最优地适于可被用户控制的每一个装置。

可还提供一种方法，其中用户的眼部的位置和取向在对包括用户的脸部的至少一部分的至少一个图像的所述分析期间被确定，且其中，根据所述位置和所述取向进一步辨识位于用户的注视方向上的装置。

本发明还提供一种控制装置，包括图像传感器和分析模块，所述分析模块设计为：

确定口头指令，和

将与确定的口头指令相关联的命令传输至辨识出的装置。

还提供了一种控制装置，在所述控制装置中，图像传感器是对可见区的辐射和红外区的辐射敏感的摄像机。在这样的装置中，分析模块设计为通过对由红外区的图像传感器获取的包括用户脸部的至少一部分的至少一个图像和由可见区的图像传感器同时获取的包括用户脸部的至少一部分的至少一个图像的结合分析来辨识位于用户的注视方向上的装置。如进一步解释的，在可见区获取的图像和在红外区获取的图像的结合使用有助于位于用户的注视方向上的装置的辨识。

根据本发明的装置的其他非限制性和有利特征如下：

所述分析模块设计为重复对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析、直到已经辨识出位于所述用户(100)的注视方向上的装置；

所述分析模块设计为通过对包括用户的脸部的至少一部分的至少一个图像的所述分析来确定所述用户的眼部的位置和取向，且还设计为根据所述位置和所述取向来辨识位于所述用户的注视方向上的装置；

所述分析模块设计为在辨识出所述装置之后且针对预定时间段获取数据，且设计为通过分析所述获取的数据来确定所述口头指令；

所述分析模块设计为通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像而确定所述口头指令；

所述分析模块设计为通过分析声音信号来确定所述口头指令；

所述分析模块设计为通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较来确定所述口头指令；和

所述分析模块设计为通过结合分析声音信号的结果与分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像的结果来确定所述口头指令。

还提供了一种系统，包括图像传感器、分析模块、第一装置和第二装置，其中，所述分析模块设计为：

通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像来确定是否第一装置或是否第二装置位于所述用户的注视方向上，

通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像而确定口头指令，和

将与所确定的口头指令相关联的命令传输至位于所述用户的注视方向上的所述装置。

本发明还提供了一种机动车辆，设置有如上所述的控制装置。

附图说明

通过非限制性实施例给出的以下描述连通附图将说明本发明的内容以及可如何实现其。

在附图中：

图1示意性地示出了其中可实施根据本发明的方法的装置，该装置在该例子中嵌入在机动车辆中。

图2示意性地示出了这种方法的主要步骤，以及

图3示意性地、更具体地示出了这些步骤中的一个。

具体实施方式

图1示意性地示出了机动车辆130和用户100，该用户100这里是机动车辆130的驾驶员。除了驾驶机动车辆130之外，该用户可能要控制一个或多个附属装置，例如：

-第一装置121，诸如使用GPS(“全球定位系统”)信号的定位装置121，和

-第二装置122，诸如收音机。

在其他实施例中，用户可能要控制更多数量的附属装置，所述附属装置可例如包括用于控制机动车辆130的前灯的控制装置、或控制机动车辆130的车窗的打开和关闭的装置。

图像传感器111，诸如摄像机，布置为面对用户100的脸部，如图1中所示的。图像传感器111设计为并布置为使得用户的脸部被完全包括在图像传感器111的视场中。这里可有利的是使用“多模式”图像传感器111，即，对可见区以及，例如，红外区中的辐射二者均敏感。实际上，如随后描述的，这里提供的方法的步骤中的一个包括精确指出用户的脸部在所获取的图像内的位置。取自红外区中的附加图像所提供的信息有助于该精确指出，特别是由于用户的身体(特别是处于他们的脸部部的水平处)具有比其周围环境更高的温度，且因此在取自红外区的图像中明显。由于在红外区中获取的图像，用户可还根据以下描述的方法来控制所述装置121和122，即使在夜晚或在光对于在可见区获取的图像太低而不可用的情况下。

由图像传感器111获取的图像以视频流v的形式被传输至分析模块113。

声音信号传感器112，例如麦克风，靠近图像传感器111布置，面向用户100。其传递表示其测量的声音信号的电信号。模拟数字转换器116将电信号s转换为数字形式。由此产生的音频流“a”被传输至分析模块113。

分析模块113包括处理器114，诸如微处理器，以及包括记忆存储模块115，诸如可重写非易失性存储器。分析模块113处理音频流“a”和视频流v，用于根据以下在图2和3的描述中详细阐释的方法在这些流中辨识意图控制之前提到的装置中的一个的口头指令。如果辨识出这样的指令，其被传输至装置121或122中的一个，如下面所解释的。

根据本发明的方法，诸如以下描述的，可在控制装置110中被实施，所述控制装置100包括分析模块113、图像传感器111、声音信号传感器112、和与其相关联的模拟数字转换器116。

图2示意性地示出了这种方法的主要步骤。

在所述主要步骤期间，图像传感器111持续地拍摄用户100的脸部。在步骤ED1至ED4的过程中，分析模块113分析相应的视频流v，用于检测用户的眼部是否看向装置121或122中的一个。

在步骤ED1中，在从该视频流v提取的图像IM中首先辨识用户的脸部。该图像的分析使得可以确定用户的脸部的位置或取向，这通过一组几何参数pv被精确指出。这些参数pv可例如与精确指出所述脸部在图像IM中的特征点的位置的坐标对应。这样的特征点可例如与用户的下巴或眉毛、或鼻孔的界限对应。它们可还与用户的脸部适合的多面体的顶点对应。参数pv使得可以三维地精确指出用户的脸部。

精确指出用户的脸部的三维特性可例如通过优化之前记录在记忆存储模块115中的用户的脸部三维模型和二维图像IM的匹配而获得。

该三维模型可例如包括表示用户的脸部的刚性部分的几何特征的数据，诸如精确指出眉弓、鼻子、或太阳穴的点的坐标。

为了比较这样的三维模型与二位图像IM，处理器114可，例如，针对三维模型的给定取向和位置，通过二维图像IM中的投影来计算这种特征点的位置。用户的脸部的位置和取向则通过搜索三维模型的位置和取向而确定，所述三维模块优化由三维模型产生的特征点的位置和在图像IM中辨识出的相同特征点的位置的匹配。

在下一步骤ED2中，通过分析所述图像IM，获得表示用户眼部的位置和取向的数据ori。使得可以精确指出用户的脸部的数据pv可用在步骤ED2的过程中，以从图像IM提取与用户的眼对应的区域。

由用户的眼的图像主要占据的减小尺寸的图像由此被获得，随后被分析，以确定每一个用户眼球的位置和取向。用户眼球相对于他们的脸部的取向可例如从该眼球的瞳孔的中心相对于用户的眼睑在图像IM中的位置得出。

分析图像(所述图像的尺寸已经主要通过选择用户的眼部所占据的区域而减小)减少该处理所需的计算时间。后者的可靠性被进一步改进，这是由于，在这种主要由用户眼部的图像占据的图像的分析中，分析模块不会混淆例如用户眼部的瞳孔与他们的鼻孔的中心。

在下一步骤ED3中，分析模块113确定用户的眼部是否转向装置121或122中的一个的方向。为此，可以精确指出用户的脸部的数据pv可与表示他们的眼部的位置和取向的数据ori结合，以确定用户的眼部朝向哪些空间点转动。

还已知被每一个所述装置占据的空间中的区域(对应的数据仓被存储在记忆存储模块115中)，其最终使得可以确定用户的眼部是否转向装置121或122中的一个或另一个。

在上述实施例中，所使用的图像分析技术是静态的，因为视频流v的图像IM独立于该流的其他图像被分析。用于确定用户的眼部是否朝向装置121或122中的一个转动的另一可能性是实施多个图像的序列的动态分析。

在这种分析的过程中，从一个图像至另一个图像发生的改变使得可以检测与用户注视的方向的改变相关联的用户眼部的运动或脸部的运动。这样的运动可，例如，通过跟踪脸部的特征点的位置(诸如下巴的尖端)、眉毛的末端、或瞳孔的中心在这样的图像序列中的演变而被检测到。分析模块113可然后分析与所述运动相关联的用户注视方向的这种变化，以确定他们是否正在看着装置121或122中的一个。在图1中所示的情况下，分析模块113可例如确定，当检测到驾驶员的眼部至它们右侧的显著运动时，驾驶员已经将他们的注视朝向装置122转动。

在步骤ED1至ED3中实施的图像分析的结果通过指定给变量rd的值总结。该值指示装置121或122中的一个是否已经成为用户注视的目标，且如果是，指示已经成为目标是哪个装置(且因此被用户选择，如下所解释的)。例如，如果用户的眼部没有朝向任何附属装置转动，则值0将被指定给变量rd，如果用户的眼部朝向GPS定位装置转动，则值1将被指定给变量rd，如果用户的眼部朝向收音器122转动，则值2将将指定给变量rd。

如果前一分析指示在步骤ED3结束时装置121或122都尚未被选择(即，如果在步骤ED4的过程中确定rd＝0)，过程通过再次根据步骤ED1、ED2、然后ED3分析下一图像、或图像序列、视频流v而继续。

因此，只要装置121或122都尚未被选择(通过用户100的注视在装置121、122的方向取向来选择)，跟踪用户注视的过程就继续。

另一方面，当分析模块113在步骤ED3之后实行的步骤ED4的过程中确定用户已经看着这些装置中的一个时，过程通过步骤EIC继续。

在步骤EIC的过程中：

-音频流“a”被分析模块113获取并处理，以在其中检测与口头指令对应的声音序列，所述口头指令意图控制在步骤ED3结束时辨识出的(以及由变量rd的值指定的)装置，和

-视频流v被分析模块113同时获取并处理，以在用户100的嘴唇的图像流中视觉地检测与这样的指令对应的序列。

在步骤EIC中，音频和视频流针对有限的(预定的)时间段被获取。该时间段可至几秒；其例如小于10s。这些流的分析可被持续的实施(在它们被获取时)。

分析模块113最后结合上述两个分析(音频和视频)的结果，以确定用户100是否已经给出意图控制在步骤ED3结束时辨识出的装置的指令，以及涉及哪个指令co。

该指令co在步骤EC中被转换为命令cmd，其适于控制在步骤ED3中辨识出的装置。命令cmd随后被分析模块113传输至所述装置。所述装置可随后执行该命令cmd。例如，如果在步骤ED3中辨识出的装置是收音机122，且如果确定的指令co是指令“启动”，则如果收音机122之前关闭或处于待命状态，其可在接收到命令cmd时打开。所述装置接收到的命令cmd可被处理并在执行所述命令前被所述装置转变，以例如将所述命令与经由例如设置在所述装置上的触摸屏直接接收的命令合并。

在这里描述的例子中，如上所述的，在音频和视频流中搜索口头指令(步骤EIC)因此仅当用户已经看着装置121或122中的一个且时间有限时开始。选择这样的时间间隔有利地减少识别口头指令中的错误，所述错误否则可更频发地发生，例如在机动车辆130的驾驶员100和乘客之间发生对话期间。

在图3中更具体地示意性地示出了在上述步骤EIC的过程中实施的操作。

在步骤EIC期间实施的音频流“a”的分析以步骤EA1开始，所述步骤EA1使得可以测试该流是否可使用。例如当该流的声级非常低时，或当其主要包含干扰时，使用其是无意义的。音频流“a”的处理则在该阶段停止，且变量pca指示其中没有指令辨识出。另一方面，如果音频流“a”的特征指示其是可使用的，则音频流的处理通过滤波步骤(步骤EA2)继续，滤波步骤使得可以减少干扰在流“a”中的贡献。该过滤可例如通过威纳滤波器(Wienerfilter)实施，或包括优先考虑确定频率范围的线性滤波。

从该滤波得到的音频流af在步骤EA3中被处理，以产生表示其内容的数据da，下文称为描述符。分析模块可通过识别音频流af中的音素来产生这样的描述符，即，通过检测音素的存在，通过确定涉及哪个音素，通过精确指出音素在音频流af中的位置，和通过为其分配声音强度。

由此提取的描述符da的组随后在步骤EIA中与参考音频描述符dar比较。参考音频描述符dar可包括一列音素序列，每一序列的音素(例如，序列/启动/)对应于意图控制装置121或122中的一个的口头指令(该指令这里是指令“启动”)。描述符da和dar的比较使得可以辨识在音频流“a”中的这样的口头指令。

步骤EIA的结果通过指示口头指令是否已经在音频流“a”中被辨识出的数据ca总结，如果是，则其指示所涉及的指令，且其可还指示与该指令的辨识相关联的可靠性水平。

处理器114可访问的描述符dr的集合存储在记忆存储模块115中。该集合包含音频描述符和视频描述符，它们对应于意图控制存在于车辆中的各附属装置(例如，之前提到的那些)的口头指令。在步骤ESD中，处理器从这些描述符dr(音频描述符dar和视频描述符dvr)中进行选择，音频描述符dar和视频描述符dvr二者均对应于与在之前的步骤ED3中辨别出的装置具体相关联的指令。

将从音频流“a”提取的音频描述符da同与之前辨识出的装置具体相关联的参考描述符dar进行比较在此使得口头指令的辨识可靠且有效，这是由于其最优地适于可被用户控制的每一个装置。

与上述音频流“a”的分析并行的，分析模块113处理视频流v，以从用户的嘴唇辨识用户给出的指令，如下所解释的。

该处理以步骤EL1开始，在步骤EL1的过程中，描述用户嘴唇的几何特征的三维表示ib从视频流v获得。

为了获得这样的表示，分析模块首先执行用户的脸部的三维精确指出，因为视频流v的图像的分析与步骤ED1中执行的类似。该精确指出对于在步骤EIC中获取的视频流中所包括的全部图像均实施。

用户脸部在图像传感器111的视野中的三维精确指出特别地使得可以精确指出用户嘴唇的位置，且因此可以然后将每一个图像与绕其三维定位的直平行六面体相关联。该直平行六面体的每一个顶点在所述(二维)图像中的位置则通过投影确定，其使得可以界定被用户嘴唇主要占据的具有减小尺寸的所述图像的区域(缩略图)。由此提取的减小尺寸的图像然后被分析，以产生三维表示的集合ib，其描述其间已经获取到视频流的任何时间段的用户嘴唇的几何特征。

这样的三维表示可通过与上述用于获得用户脸部的三维表示的过程类似的过程获得。使用减小尺寸的图像减少该处理所需的计算时间。后者的可靠性由此被进一步改进，这是由于，在主要由用户嘴唇的图像占据的这样的图像的分析中，分析模块不会混淆用户的嘴唇的特征点与例如用户的太阳穴的点。

在下一步骤EL2中，表示用户嘴唇的形状和运动的描述符从步骤EL1中产生的三维表示ib提取。

这些描述符被提取以表示在音素的发音期间通常被嘴唇采用的几个特征，或表示在与音素序列的发音对应的几何特征的时间演化。这样的描述符的提取过程还设计为有效地区分两个音素或两个不同音素序列。

由此提取的描述符汇编为描述符向量vdv的形式。在步骤EL3中，包含在描述符向量中的数据被联系起来且置成归一化形式，以产生归一化音频描述符dvn，所述归一化音频描述符的格式适于与参考音频描述符dvr进行比较。

在步骤EIV中，归一化音频描述符参考音频描述符进行比较，以最终辨识音频流v中的、用户给出的口头指令。如上所述，参考音频描述符dvr之前从描述符dr中选择，并对应于与之前在步骤ED3中辨识出的装置具体相关联的指令。

就像对于音频流“a”的分析，将从流v提取的视频描述符dvn同与之前辨识出的装置具体相关联的参考描述符dvr进行比较在此使得口头指令的辨识可靠且有效，这是由于其最优地适于可被用户控制的每一个装置。

步骤EIV的结果通过指示口头指令是否已经在视频流v中被辨识出的数据cv总结，如果是，则其指示所涉及的指令，且其可还指示与该指令的辨识相关联的可靠性水平。

在步骤EF中，分析模块113最后结合上述两个分析(音频和视频)的结果，以确定用户100是否已经给出意图控制在步骤ED3结束时辨识出的装置的口头指令，以及涉及哪个指令。

当通过分析音频流“a”辨识出的口头指令等于通过分析视频流v辨识出的口头指令时，采用该口头指令作为用于控制在步骤ED3结束时辨识出的装置的口头指令，如下所述的。

当通过分析音频流“a”辨识出的口头指令不同于通过分析视频流v辨识出的口头指令时，最终采用的适龄可根据与这些辨识中的每一个相关联的可靠性水平被选择。

当指令co最终在步骤EF结束被确定时，其随后被传输至在步骤ED3结束时辨识出的装置。

Claims

1.一种用于通过用户(100)控制一装置的方法，其特征在于，所述方法包括以下步骤：

通过分析由图像传感器(111)获取的包括用户(100)的脸部的至少一部分的至少一个图像，辨识位于所述用户(100)的注视方向上的装置；

确定口头指令；

将与确定的口头指令相关联的命令传输至辨识出的装置。

2.如权利要求1所述的方法，其中，所述口头指令通过分析在辨识所述装置之后获取的且针对预定时间段获取的数据而被确定。

3.如权利要求1或2所述的方法，其中，所述口头指令通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而被确定。

4.如权利要求1至3中任一项所述的方法，其中，所述口头指令通过分析声音信号而被确定。

5.如权利要求1至4中任一项所述的方法，其中，所述口头指令通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较而被确定。

6.如权利要求1至5中任一项所述的方法，其中，用户(100)的眼部的位置和取向在对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析期间被确定，且其中，根据所述位置和所述取向进一步辨识位于用户(100)的注视方向上的装置。

7.一种控制装置(110)，包括图像传感器(111)、和分析模块(113)，其特征在于：

所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的且包括用户(100)的脸部的至少一部分的至少一个图像，辨识位于所述用户(100)的注视方向上的装置，

所述分析模块(113)设计为确定口头指令，以及

所述分析模块(113)设计为将与所确定的口头指令相关联的命令传输至辨识出的装置。

8.如权利要求7所述的控制装置，其中，所述分析模块(113)设计为重复对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析、直到已经辨识出位于所述用户(100)的注视方向上的装置。

9.如权利要求7或8所述的控制装置(110)，其中，所述分析模块(113)设计为通过对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析来确定所述用户(100)的眼部的位置和取向，且还设计为根据所述位置和所述取向来辨识位于所述用户(100)的注视方向上的装置。

10.如权利要求7至9中任一项所述的控制装置(110)，其中，所述分析模块(113)设计为在辨识出所述装置之后且针对预定时间段获取数据，且设计为通过分析所述获取的数据来确定所述口头指令。

11.如权利要求7至10中任一项所述的控制装置(110)，其中，所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而确定所述口头指令。

12.如权利要求7至11中任一项所述的控制装置(110)，其中，所述分析模块(113)设计为通过分析声音信号来确定所述口头指令。

13.如权利要求7至12中任一项所述的控制装置(110)，其中，所述分析模块(113)设计为通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较来确定所述口头指令。

14.如权利要求12或13从属于权利要求11时所述的控制装置(110)，其中，所述分析模块(113)设计为通过结合分析声音信号的结果与分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像的结果来确定所述口头指令。

15.一种系统，包括图像传感器(111)、分析模块(113)、第一装置(121)和第二装置(122)，其特征在于：

所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像来确定第一装置(121)或第二装置(122)是否位于所述用户(100)的注视方向上，

所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而确定所述口头指令，和

所述分析模块(113)设计为将与所确定的口头指令相关联的命令传输至位于所述用户(100)的注视方向上的所述装置。

16.一种机动车辆(130)，设置有根据权利要求7至14中任一项所述的控制装置(110)。