CN107548483A - 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆 - Google Patents

控制方法、控制装置、系统以及包括这样的控制装置的机动车辆 Download PDF

Info

Publication number
CN107548483A
CN107548483A CN201680025565.2A CN201680025565A CN107548483A CN 107548483 A CN107548483 A CN 107548483A CN 201680025565 A CN201680025565 A CN 201680025565A CN 107548483 A CN107548483 A CN 107548483A
Authority
CN
China
Prior art keywords
user
spoken command
image
analysis module
designed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680025565.2A
Other languages
English (en)
Other versions
CN107548483B (zh
Inventor
A.本-哈马杜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Valeo Comfort and Driving Assistance SAS
Original Assignee
Valeo Comfort and Driving Assistance SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Valeo Comfort and Driving Assistance SAS filed Critical Valeo Comfort and Driving Assistance SAS
Publication of CN107548483A publication Critical patent/CN107548483A/zh
Application granted granted Critical
Publication of CN107548483B publication Critical patent/CN107548483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/20Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
    • B60K35/21Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using visual output, e.g. blinking lights or matrix displays
    • B60K35/211Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using visual output, e.g. blinking lights or matrix displays producing three-dimensional [3D] effects, e.g. stereoscopic images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/149Instrument input by detecting viewing direction not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明涉及一种用于用户控制一装置的方法。根据本发明,上述方法包括以下步骤:通过分析由图像传感器(111)获得的且包含用户(100)脸部的至少一部分的至少一个图像来辨识位于用户(100)的观察方向上的装置;确定口头指令;将与确定的口头指令相关联的命令传输至辨识出的装置。本发明还涉及一种控制装置(110),在该控制装置中,能够实施这样的方法,以及涉及一种系统(110、121、122),和包括这样的装置(110)的机动车辆(130)。

Description

控制方法、控制装置、系统以及包括这样的控制装置的机动 车辆
技术领域
本发明大体涉及人机交互接口的领域,所述人机交互接口允许用户与电装置或电子装置无接触地相互作用。
本发明更特别地涉及一种控制方法、控制装置、系统、以及包括这样的控制装置的机动车辆。
其特别有利地应用在设置有附属装置的机动车辆中,所述附属装置诸如收音机、GPS定位系统、或移动电话,机动车辆的驾驶员在驾驶机动车辆时可能要控制所述附属装置。
背景技术
越来越多的附属电子装置设置在机动车辆中,用于辅助使用机动车辆或使其更加舒适,例如定位装置和GPS导航辅助设备、用于对车辆乘客舱进行空气调节的装置、用于电车窗打开和关闭的装置、用于查看和检测障碍物的装置、或收音机。
这样的装置通常由车辆的驾驶员经由按钮或触摸屏控制。为此,驾驶员使用他们的至少一只手,这使他们从驾驶车辆本身分心,且意味着他们的仅一只手可用于操纵。
在该背景下,无接触控制装置,允许用户控制附属装置而不必为此使用他们的一只手,因此是特别有利的。这样的无接触控制装置可例如基于自动语音识别系统,由于所述自动语音识别系统,驾驶员给出的用于控制附属装置的口头指令被辨识。
由文献US 8442820已知一种接口,其使得可以无接触地控制存在于机动车辆中的附属装置。由用户给出的用于控制这样的装置的口头指令由接口通过自动语音识别的方法辨识。这样的口头指令可还通过读取用户的嘴唇而被确定,即,通过分析当他们念出这样的指令时获取的他们的嘴唇的图像。接口然后组合由这两种方法中的每一种辨识出的两个指令,将优先级赋予由语音识别辨识出的指令,以便产生意图控制这样的附属装置的指令。
发明内容
在该背景下,本发明提供一种用于通过用户控制一装置的方法,包括以下步骤:
通过分析由图像传感器获取的包括用户的脸部的至少一部分的至少一个图像,辨识位于所述用户的注视方向上的装置,
确定口头指令,
将与确定的口头指令相关联的命令传输至辨识出的装置。
在这样的方法中,用户因此在不使用其一只手(用于控制装置)的情况下控制一装置,从而具有其所带来的上述优势。
此外,在该方法中,由于位于用户的注视方向上的装置的在前辨识,与所确定的口头指令相关联的命令被传输至其意图用于的装置。当要控制的特定多个装置存在于用户的环境中时,该布置是特别有利的。特别地,口头指令,诸如“开始”或“关闭”,可对这些装置中的多个是共用的,那么重要的是,将所确定的口头指令明确地传输至其意图用于的装置。
更一般地,结合从用户的注视方向得到的信息与口头给出的指令使得可以更可靠且更精确地控制装置,这是由于不同来源但针对相同目的的多个控制信息项因此被结合。
本发明还提供,所述口头指令通过分析在辨识所述装置之后获取的且针对预定时间段获取的数据而被确定。
搜索用户给出的口头指令仅在用户已经看着要被控制的具体装置之后开始,且仅持续预定时间段。选择这样的时间间隔有利地减少识别口头指令中的错误,否则所述错误可能更频发的发生,例如在机动车辆的驾驶员和乘客之间发生对话期间。
根据本发明的方法的其他非限制性和有利特征如下:
-所述口头指令通过分析包括由所述图像传感器获取的、包括用户的面部的至少一部分的图像而被确定;由于这样的方法,不能说话的、或具有陈述话语困难的用户可控制这样的装置,而不必为此使用他们的一只手;
-所述口头指令通过分析声音信号而被确定;和
所述口头指令通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较而被确定。
使得可以辨识口头指令的参考数据可因此被选择为对应于与要被控制的装置具体相关联的口头指令,所述装置是之前已经被辨识出的装置。该布置使得可以更可靠和有效的辨识口头指令,这是由于其因此最优地适于可被用户控制的每一个装置。
可还提供一种方法,其中用户的眼部的位置和取向在对包括用户的脸部的至少一部分的至少一个图像的所述分析期间被确定,且其中,根据所述位置和所述取向进一步辨识位于用户的注视方向上的装置。
本发明还提供一种控制装置,包括图像传感器和分析模块,所述分析模块设计为:
通过分析由图像传感器获取的包括用户的脸部的至少一部分的至少一个图像,辨识位于所述用户的注视方向上的装置,
确定口头指令,和
将与确定的口头指令相关联的命令传输至辨识出的装置。
还提供了一种控制装置,在所述控制装置中,图像传感器是对可见区的辐射和红外区的辐射敏感的摄像机。在这样的装置中,分析模块设计为通过对由红外区的图像传感器获取的包括用户脸部的至少一部分的至少一个图像和由可见区的图像传感器同时获取的包括用户脸部的至少一部分的至少一个图像的结合分析来辨识位于用户的注视方向上的装置。如进一步解释的,在可见区获取的图像和在红外区获取的图像的结合使用有助于位于用户的注视方向上的装置的辨识。
根据本发明的装置的其他非限制性和有利特征如下:
所述分析模块设计为重复对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析、直到已经辨识出位于所述用户(100)的注视方向上的装置;
所述分析模块设计为通过对包括用户的脸部的至少一部分的至少一个图像的所述分析来确定所述用户的眼部的位置和取向,且还设计为根据所述位置和所述取向来辨识位于所述用户的注视方向上的装置;
所述分析模块设计为在辨识出所述装置之后且针对预定时间段获取数据,且设计为通过分析所述获取的数据来确定所述口头指令;
所述分析模块设计为通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像而确定所述口头指令;
所述分析模块设计为通过分析声音信号来确定所述口头指令;
所述分析模块设计为通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较来确定所述口头指令;和
所述分析模块设计为通过结合分析声音信号的结果与分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像的结果来确定所述口头指令。
还提供了一种系统,包括图像传感器、分析模块、第一装置和第二装置,其中,所述分析模块设计为:
通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像来确定是否第一装置或是否第二装置位于所述用户的注视方向上,
通过分析由所述图像传感器获取的、包括用户的面部的至少一部分的图像而确定口头指令,和
将与所确定的口头指令相关联的命令传输至位于所述用户的注视方向上的所述装置。
本发明还提供了一种机动车辆,设置有如上所述的控制装置。
附图说明
通过非限制性实施例给出的以下描述连通附图将说明本发明的内容以及可如何实现其。
在附图中:
图1示意性地示出了其中可实施根据本发明的方法的装置,该装置在该例子中嵌入在机动车辆中。
图2示意性地示出了这种方法的主要步骤,以及
图3示意性地、更具体地示出了这些步骤中的一个。
具体实施方式
图1示意性地示出了机动车辆130和用户100,该用户100这里是机动车辆130的驾驶员。除了驾驶机动车辆130之外,该用户可能要控制一个或多个附属装置,例如:
-第一装置121,诸如使用GPS(“全球定位系统”)信号的定位装置121,和
-第二装置122,诸如收音机。
在其他实施例中,用户可能要控制更多数量的附属装置,所述附属装置可例如包括用于控制机动车辆130的前灯的控制装置、或控制机动车辆130的车窗的打开和关闭的装置。
图像传感器111,诸如摄像机,布置为面对用户100的脸部,如图1中所示的。图像传感器111设计为并布置为使得用户的脸部被完全包括在图像传感器111的视场中。这里可有利的是使用“多模式”图像传感器111,即,对可见区以及,例如,红外区中的辐射二者均敏感。实际上,如随后描述的,这里提供的方法的步骤中的一个包括精确指出用户的脸部在所获取的图像内的位置。取自红外区中的附加图像所提供的信息有助于该精确指出,特别是由于用户的身体(特别是处于他们的脸部部的水平处)具有比其周围环境更高的温度,且因此在取自红外区的图像中明显。由于在红外区中获取的图像,用户可还根据以下描述的方法来控制所述装置121和122,即使在夜晚或在光对于在可见区获取的图像太低而不可用的情况下。
由图像传感器111获取的图像以视频流v的形式被传输至分析模块113。
声音信号传感器112,例如麦克风,靠近图像传感器111布置,面向用户100。其传递表示其测量的声音信号的电信号。模拟数字转换器116将电信号s转换为数字形式。由此产生的音频流“a”被传输至分析模块113。
分析模块113包括处理器114,诸如微处理器,以及包括记忆存储模块115,诸如可重写非易失性存储器。分析模块113处理音频流“a”和视频流v,用于根据以下在图2和3的描述中详细阐释的方法在这些流中辨识意图控制之前提到的装置中的一个的口头指令。如果辨识出这样的指令,其被传输至装置121或122中的一个,如下面所解释的。
根据本发明的方法,诸如以下描述的,可在控制装置110中被实施,所述控制装置100包括分析模块113、图像传感器111、声音信号传感器112、和与其相关联的模拟数字转换器116。
图2示意性地示出了这种方法的主要步骤。
在所述主要步骤期间,图像传感器111持续地拍摄用户100的脸部。在步骤ED1至ED4的过程中,分析模块113分析相应的视频流v,用于检测用户的眼部是否看向装置121或122中的一个。
在步骤ED1中,在从该视频流v提取的图像IM中首先辨识用户的脸部。该图像的分析使得可以确定用户的脸部的位置或取向,这通过一组几何参数pv被精确指出。这些参数pv可例如与精确指出所述脸部在图像IM中的特征点的位置的坐标对应。这样的特征点可例如与用户的下巴或眉毛、或鼻孔的界限对应。它们可还与用户的脸部适合的多面体的顶点对应。参数pv使得可以三维地精确指出用户的脸部。
精确指出用户的脸部的三维特性可例如通过优化之前记录在记忆存储模块115中的用户的脸部三维模型和二维图像IM的匹配而获得。
该三维模型可例如包括表示用户的脸部的刚性部分的几何特征的数据,诸如精确指出眉弓、鼻子、或太阳穴的点的坐标。
为了比较这样的三维模型与二位图像IM,处理器114可,例如,针对三维模型的给定取向和位置,通过二维图像IM中的投影来计算这种特征点的位置。用户的脸部的位置和取向则通过搜索三维模型的位置和取向而确定,所述三维模块优化由三维模型产生的特征点的位置和在图像IM中辨识出的相同特征点的位置的匹配。
在下一步骤ED2中,通过分析所述图像IM,获得表示用户眼部的位置和取向的数据ori。使得可以精确指出用户的脸部的数据pv可用在步骤ED2的过程中,以从图像IM提取与用户的眼对应的区域。
由用户的眼的图像主要占据的减小尺寸的图像由此被获得,随后被分析,以确定每一个用户眼球的位置和取向。用户眼球相对于他们的脸部的取向可例如从该眼球的瞳孔的中心相对于用户的眼睑在图像IM中的位置得出。
分析图像(所述图像的尺寸已经主要通过选择用户的眼部所占据的区域而减小)减少该处理所需的计算时间。后者的可靠性被进一步改进,这是由于,在这种主要由用户眼部的图像占据的图像的分析中,分析模块不会混淆例如用户眼部的瞳孔与他们的鼻孔的中心。
在下一步骤ED3中,分析模块113确定用户的眼部是否转向装置121或122中的一个的方向。为此,可以精确指出用户的脸部的数据pv可与表示他们的眼部的位置和取向的数据ori结合,以确定用户的眼部朝向哪些空间点转动。
还已知被每一个所述装置占据的空间中的区域(对应的数据仓被存储在记忆存储模块115中),其最终使得可以确定用户的眼部是否转向装置121或122中的一个或另一个。
在上述实施例中,所使用的图像分析技术是静态的,因为视频流v的图像IM独立于该流的其他图像被分析。用于确定用户的眼部是否朝向装置121或122中的一个转动的另一可能性是实施多个图像的序列的动态分析。
在这种分析的过程中,从一个图像至另一个图像发生的改变使得可以检测与用户注视的方向的改变相关联的用户眼部的运动或脸部的运动。这样的运动可,例如,通过跟踪脸部的特征点的位置(诸如下巴的尖端)、眉毛的末端、或瞳孔的中心在这样的图像序列中的演变而被检测到。分析模块113可然后分析与所述运动相关联的用户注视方向的这种变化,以确定他们是否正在看着装置121或122中的一个。在图1中所示的情况下,分析模块113可例如确定,当检测到驾驶员的眼部至它们右侧的显著运动时,驾驶员已经将他们的注视朝向装置122转动。
在步骤ED1至ED3中实施的图像分析的结果通过指定给变量rd的值总结。该值指示装置121或122中的一个是否已经成为用户注视的目标,且如果是,指示已经成为目标是哪个装置(且因此被用户选择,如下所解释的)。例如,如果用户的眼部没有朝向任何附属装置转动,则值0将被指定给变量rd,如果用户的眼部朝向GPS定位装置转动,则值1将被指定给变量rd,如果用户的眼部朝向收音器122转动,则值2将将指定给变量rd。
如果前一分析指示在步骤ED3结束时装置121或122都尚未被选择(即,如果在步骤ED4的过程中确定rd=0),过程通过再次根据步骤ED1、ED2、然后ED3分析下一图像、或图像序列、视频流v而继续。
因此,只要装置121或122都尚未被选择(通过用户100的注视在装置121、122的方向取向来选择),跟踪用户注视的过程就继续。
另一方面,当分析模块113在步骤ED3之后实行的步骤ED4的过程中确定用户已经看着这些装置中的一个时,过程通过步骤EIC继续。
在步骤EIC的过程中:
-音频流“a”被分析模块113获取并处理,以在其中检测与口头指令对应的声音序列,所述口头指令意图控制在步骤ED3结束时辨识出的(以及由变量rd的值指定的)装置,和
-视频流v被分析模块113同时获取并处理,以在用户100的嘴唇的图像流中视觉地检测与这样的指令对应的序列。
在步骤EIC中,音频和视频流针对有限的(预定的)时间段被获取。该时间段可至几秒;其例如小于10s。这些流的分析可被持续的实施(在它们被获取时)。
分析模块113最后结合上述两个分析(音频和视频)的结果,以确定用户100是否已经给出意图控制在步骤ED3结束时辨识出的装置的指令,以及涉及哪个指令co。
该指令co在步骤EC中被转换为命令cmd,其适于控制在步骤ED3中辨识出的装置。命令cmd随后被分析模块113传输至所述装置。所述装置可随后执行该命令cmd。例如,如果在步骤ED3中辨识出的装置是收音机122,且如果确定的指令co是指令“启动”,则如果收音机122之前关闭或处于待命状态,其可在接收到命令cmd时打开。所述装置接收到的命令cmd可被处理并在执行所述命令前被所述装置转变,以例如将所述命令与经由例如设置在所述装置上的触摸屏直接接收的命令合并。
在这里描述的例子中,如上所述的,在音频和视频流中搜索口头指令(步骤EIC)因此仅当用户已经看着装置121或122中的一个且时间有限时开始。选择这样的时间间隔有利地减少识别口头指令中的错误,所述错误否则可更频发地发生,例如在机动车辆130的驾驶员100和乘客之间发生对话期间。
在图3中更具体地示意性地示出了在上述步骤EIC的过程中实施的操作。
在步骤EIC期间实施的音频流“a”的分析以步骤EA1开始,所述步骤EA1使得可以测试该流是否可使用。例如当该流的声级非常低时,或当其主要包含干扰时,使用其是无意义的。音频流“a”的处理则在该阶段停止,且变量pca指示其中没有指令辨识出。另一方面,如果音频流“a”的特征指示其是可使用的,则音频流的处理通过滤波步骤(步骤EA2)继续,滤波步骤使得可以减少干扰在流“a”中的贡献。该过滤可例如通过威纳滤波器(Wienerfilter)实施,或包括优先考虑确定频率范围的线性滤波。
从该滤波得到的音频流af在步骤EA3中被处理,以产生表示其内容的数据da,下文称为描述符。分析模块可通过识别音频流af中的音素来产生这样的描述符,即,通过检测音素的存在,通过确定涉及哪个音素,通过精确指出音素在音频流af中的位置,和通过为其分配声音强度。
由此提取的描述符da的组随后在步骤EIA中与参考音频描述符dar比较。参考音频描述符dar可包括一列音素序列,每一序列的音素(例如,序列/启动/)对应于意图控制装置121或122中的一个的口头指令(该指令这里是指令“启动”)。描述符da和dar的比较使得可以辨识在音频流“a”中的这样的口头指令。
步骤EIA的结果通过指示口头指令是否已经在音频流“a”中被辨识出的数据ca总结,如果是,则其指示所涉及的指令,且其可还指示与该指令的辨识相关联的可靠性水平。
处理器114可访问的描述符dr的集合存储在记忆存储模块115中。该集合包含音频描述符和视频描述符,它们对应于意图控制存在于车辆中的各附属装置(例如,之前提到的那些)的口头指令。在步骤ESD中,处理器从这些描述符dr(音频描述符dar和视频描述符dvr)中进行选择,音频描述符dar和视频描述符dvr二者均对应于与在之前的步骤ED3中辨别出的装置具体相关联的指令。
将从音频流“a”提取的音频描述符da同与之前辨识出的装置具体相关联的参考描述符dar进行比较在此使得口头指令的辨识可靠且有效,这是由于其最优地适于可被用户控制的每一个装置。
与上述音频流“a”的分析并行的,分析模块113处理视频流v,以从用户的嘴唇辨识用户给出的指令,如下所解释的。
该处理以步骤EL1开始,在步骤EL1的过程中,描述用户嘴唇的几何特征的三维表示ib从视频流v获得。
为了获得这样的表示,分析模块首先执行用户的脸部的三维精确指出,因为视频流v的图像的分析与步骤ED1中执行的类似。该精确指出对于在步骤EIC中获取的视频流中所包括的全部图像均实施。
用户脸部在图像传感器111的视野中的三维精确指出特别地使得可以精确指出用户嘴唇的位置,且因此可以然后将每一个图像与绕其三维定位的直平行六面体相关联。该直平行六面体的每一个顶点在所述(二维)图像中的位置则通过投影确定,其使得可以界定被用户嘴唇主要占据的具有减小尺寸的所述图像的区域(缩略图)。由此提取的减小尺寸的图像然后被分析,以产生三维表示的集合ib,其描述其间已经获取到视频流的任何时间段的用户嘴唇的几何特征。
这样的三维表示可通过与上述用于获得用户脸部的三维表示的过程类似的过程获得。使用减小尺寸的图像减少该处理所需的计算时间。后者的可靠性由此被进一步改进,这是由于,在主要由用户嘴唇的图像占据的这样的图像的分析中,分析模块不会混淆用户的嘴唇的特征点与例如用户的太阳穴的点。
在下一步骤EL2中,表示用户嘴唇的形状和运动的描述符从步骤EL1中产生的三维表示ib提取。
这些描述符被提取以表示在音素的发音期间通常被嘴唇采用的几个特征,或表示在与音素序列的发音对应的几何特征的时间演化。这样的描述符的提取过程还设计为有效地区分两个音素或两个不同音素序列。
由此提取的描述符汇编为描述符向量vdv的形式。在步骤EL3中,包含在描述符向量中的数据被联系起来且置成归一化形式,以产生归一化音频描述符dvn,所述归一化音频描述符的格式适于与参考音频描述符dvr进行比较。
在步骤EIV中,归一化音频描述符参考音频描述符进行比较,以最终辨识音频流v中的、用户给出的口头指令。如上所述,参考音频描述符dvr之前从描述符dr中选择,并对应于与之前在步骤ED3中辨识出的装置具体相关联的指令。
就像对于音频流“a”的分析,将从流v提取的视频描述符dvn同与之前辨识出的装置具体相关联的参考描述符dvr进行比较在此使得口头指令的辨识可靠且有效,这是由于其最优地适于可被用户控制的每一个装置。
步骤EIV的结果通过指示口头指令是否已经在视频流v中被辨识出的数据cv总结,如果是,则其指示所涉及的指令,且其可还指示与该指令的辨识相关联的可靠性水平。
在步骤EF中,分析模块113最后结合上述两个分析(音频和视频)的结果,以确定用户100是否已经给出意图控制在步骤ED3结束时辨识出的装置的口头指令,以及涉及哪个指令。
当通过分析音频流“a”辨识出的口头指令等于通过分析视频流v辨识出的口头指令时,采用该口头指令作为用于控制在步骤ED3结束时辨识出的装置的口头指令,如下所述的。
当通过分析音频流“a”辨识出的口头指令不同于通过分析视频流v辨识出的口头指令时,最终采用的适龄可根据与这些辨识中的每一个相关联的可靠性水平被选择。
当指令co最终在步骤EF结束被确定时,其随后被传输至在步骤ED3结束时辨识出的装置。

Claims (16)

1.一种用于通过用户(100)控制一装置的方法,其特征在于,所述方法包括以下步骤:
通过分析由图像传感器(111)获取的包括用户(100)的脸部的至少一部分的至少一个图像,辨识位于所述用户(100)的注视方向上的装置;
确定口头指令;
将与确定的口头指令相关联的命令传输至辨识出的装置。
2.如权利要求1所述的方法,其中,所述口头指令通过分析在辨识所述装置之后获取的且针对预定时间段获取的数据而被确定。
3.如权利要求1或2所述的方法,其中,所述口头指令通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而被确定。
4.如权利要求1至3中任一项所述的方法,其中,所述口头指令通过分析声音信号而被确定。
5.如权利要求1至4中任一项所述的方法,其中,所述口头指令通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较而被确定。
6.如权利要求1至5中任一项所述的方法,其中,用户(100)的眼部的位置和取向在对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析期间被确定,且其中,根据所述位置和所述取向进一步辨识位于用户(100)的注视方向上的装置。
7.一种控制装置(110),包括图像传感器(111)、和分析模块(113),其特征在于:
所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的且包括用户(100)的脸部的至少一部分的至少一个图像,辨识位于所述用户(100)的注视方向上的装置,
所述分析模块(113)设计为确定口头指令,以及
所述分析模块(113)设计为将与所确定的口头指令相关联的命令传输至辨识出的装置。
8.如权利要求7所述的控制装置,其中,所述分析模块(113)设计为重复对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析、直到已经辨识出位于所述用户(100)的注视方向上的装置。
9.如权利要求7或8所述的控制装置(110),其中,所述分析模块(113)设计为通过对包括用户(100)的脸部的至少一部分的至少一个图像的所述分析来确定所述用户(100)的眼部的位置和取向,且还设计为根据所述位置和所述取向来辨识位于所述用户(100)的注视方向上的装置。
10.如权利要求7至9中任一项所述的控制装置(110),其中,所述分析模块(113)设计为在辨识出所述装置之后且针对预定时间段获取数据,且设计为通过分析所述获取的数据来确定所述口头指令。
11.如权利要求7至10中任一项所述的控制装置(110),其中,所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而确定所述口头指令。
12.如权利要求7至11中任一项所述的控制装置(110),其中,所述分析模块(113)设计为通过分析声音信号来确定所述口头指令。
13.如权利要求7至12中任一项所述的控制装置(110),其中,所述分析模块(113)设计为通过将所获取的数据与根据之前辨识出的装置选择的参考数据进行比较来确定所述口头指令。
14.如权利要求12或13从属于权利要求11时所述的控制装置(110),其中,所述分析模块(113)设计为通过结合分析声音信号的结果与分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像的结果来确定所述口头指令。
15.一种系统,包括图像传感器(111)、分析模块(113)、第一装置(121)和第二装置(122),其特征在于:
所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像来确定第一装置(121)或第二装置(122)是否位于所述用户(100)的注视方向上,
所述分析模块(113)设计为通过分析由所述图像传感器(111)获取的、包括用户(100)的面部的至少一部分的图像而确定所述口头指令,和
所述分析模块(113)设计为将与所确定的口头指令相关联的命令传输至位于所述用户(100)的注视方向上的所述装置。
16.一种机动车辆(130),设置有根据权利要求7至14中任一项所述的控制装置(110)。
CN201680025565.2A 2015-03-27 2016-03-25 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆 Active CN107548483B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1552618 2015-03-27
FR1552618A FR3034215B1 (fr) 2015-03-27 2015-03-27 Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
PCT/FR2016/000059 WO2016156678A1 (fr) 2015-03-27 2016-03-25 Procédé de commande, dispositif de commande, système et véhicule automobile comprenant un tel dispositif de commande

Publications (2)

Publication Number Publication Date
CN107548483A true CN107548483A (zh) 2018-01-05
CN107548483B CN107548483B (zh) 2021-06-08

Family

ID=53496762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680025565.2A Active CN107548483B (zh) 2015-03-27 2016-03-25 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆

Country Status (5)

Country Link
US (1) US10627898B2 (zh)
EP (1) EP3274809A1 (zh)
CN (1) CN107548483B (zh)
FR (1) FR3034215B1 (zh)
WO (1) WO2016156678A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
US11830289B2 (en) 2017-12-11 2023-11-28 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3729421A1 (en) * 2017-12-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Gaze-initiated voice control

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025637A1 (en) * 2000-09-20 2002-03-28 International Business Machines Corporation Eye gaze for contextual speech recognition
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN101035463A (zh) * 2004-09-13 2007-09-12 拜奥科格尼塞夫公司 用于生成个体警戒水平指征的方法以及装置
CN101090482A (zh) * 2006-06-13 2007-12-19 唐琎 一种基于图象处理和信息融合技术的驾驶员疲劳监测系统及方法
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
CN101313576A (zh) * 2005-11-17 2008-11-26 爱信精机株式会社 车辆周边显示装置
CN101441513A (zh) * 2008-11-26 2009-05-27 北京科技大学 一种利用视觉进行非接触式人机交互的系统
CN101995731A (zh) * 2010-07-30 2011-03-30 西安理工大学 一种基于液晶的直视型防眩光成像仪及防眩光成像方法
US20120133754A1 (en) * 2010-11-26 2012-05-31 Dongguk University Industry-Academic Cooperation Foundation Gaze tracking system and method for controlling internet protocol tv at a distance
US20120169582A1 (en) * 2011-01-05 2012-07-05 Visteon Global Technologies System ready switch for eye tracking human machine interaction control system
CN102799262A (zh) * 2011-04-08 2012-11-28 索尼电脑娱乐公司 用于确定输入语音的相关性的装置和方法
CN104094192A (zh) * 2012-04-27 2014-10-08 惠普发展公司,有限责任合伙企业 来自用户的音频输入
EP2806335A1 (en) * 2013-05-23 2014-11-26 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
CN104200192A (zh) * 2013-01-18 2014-12-10 通用汽车环球科技运作有限责任公司 驾驶员注视检测系统
CN104253944A (zh) * 2014-09-11 2014-12-31 陈飞 基于目光连接的声音命令下达装置和方法
US20150015671A1 (en) * 2009-11-16 2015-01-15 Broadcom Corporation Method and system for adaptive viewport for a mobile device based on viewing angle

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI384383B (zh) * 2009-03-02 2013-02-01 Univ Nat Central 視線察覺裝置及其方法
KR101092820B1 (ko) 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US9223415B1 (en) * 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US20140247210A1 (en) * 2013-03-01 2014-09-04 Tobii Technology Ab Zonal gaze driven interaction
US10048749B2 (en) * 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025637A1 (en) * 2000-09-20 2002-03-28 International Business Machines Corporation Eye gaze for contextual speech recognition
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN101035463A (zh) * 2004-09-13 2007-09-12 拜奥科格尼塞夫公司 用于生成个体警戒水平指征的方法以及装置
CN101313576A (zh) * 2005-11-17 2008-11-26 爱信精机株式会社 车辆周边显示装置
CN101090482A (zh) * 2006-06-13 2007-12-19 唐琎 一种基于图象处理和信息融合技术的驾驶员疲劳监测系统及方法
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
CN101441513A (zh) * 2008-11-26 2009-05-27 北京科技大学 一种利用视觉进行非接触式人机交互的系统
US20150015671A1 (en) * 2009-11-16 2015-01-15 Broadcom Corporation Method and system for adaptive viewport for a mobile device based on viewing angle
CN101995731A (zh) * 2010-07-30 2011-03-30 西安理工大学 一种基于液晶的直视型防眩光成像仪及防眩光成像方法
US20120133754A1 (en) * 2010-11-26 2012-05-31 Dongguk University Industry-Academic Cooperation Foundation Gaze tracking system and method for controlling internet protocol tv at a distance
US20120169582A1 (en) * 2011-01-05 2012-07-05 Visteon Global Technologies System ready switch for eye tracking human machine interaction control system
CN102799262A (zh) * 2011-04-08 2012-11-28 索尼电脑娱乐公司 用于确定输入语音的相关性的装置和方法
CN104094192A (zh) * 2012-04-27 2014-10-08 惠普发展公司,有限责任合伙企业 来自用户的音频输入
CN104200192A (zh) * 2013-01-18 2014-12-10 通用汽车环球科技运作有限责任公司 驾驶员注视检测系统
EP2806335A1 (en) * 2013-05-23 2014-11-26 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
CN104253944A (zh) * 2014-09-11 2014-12-31 陈飞 基于目光连接的声音命令下达装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM, MY,YANG, S,KIM, D: "Head-mounted binocular gaze detection for selective visual recognition systems", 《SENSORS AND ACTUATORS A-PHYSICAL》 *
李小军,施铁军,丛颜: "关于安全驾驶中驾驶人员的视线方向的检测分析", 《科技创业家》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11830289B2 (en) 2017-12-11 2023-11-28 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端

Also Published As

Publication number Publication date
FR3034215B1 (fr) 2018-06-15
WO2016156678A1 (fr) 2016-10-06
US20180203506A1 (en) 2018-07-19
FR3034215A1 (fr) 2016-09-30
CN107548483B (zh) 2021-06-08
US10627898B2 (en) 2020-04-21
EP3274809A1 (fr) 2018-01-31

Similar Documents

Publication Publication Date Title
JP6725733B2 (ja) 固体撮像装置および電子機器
CN104011735B (zh) 基于车辆的对乘员音频和可视输入的确定
CN105512632B (zh) 活体检测方法及装置
US11676424B2 (en) Iris or other body part identification on a computing device
KR101603017B1 (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
JP4311190B2 (ja) 車載機器用インターフェース
US8983235B2 (en) Pupil detection device and pupil detection method
KR101250619B1 (ko) 가상 사용자 인터페이스를 이용한 증강현실 시스템 및 그 방법
CN108292364A (zh) 在全向视频中的跟踪感兴趣对象
JP2017007652A (ja) 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
JP7386792B2 (ja) 電子機器及び固体撮像装置
JP2008087140A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
CN107548483A (zh) 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆
CN102707801A (zh) 车载识别控制系统及其控制方法
EP3381180B1 (en) Photographing device and method of controlling the same
CN108089695B (zh) 一种控制可移动设备的方法和装置
US9355641B2 (en) Monitoring device using selective attention model and method for monitoring same
US20200151472A1 (en) External depiction of photographs of a vehicle interior in vr goggles
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
KR20030037692A (ko) 손 지시 인식을 이용한 원격제어 시스템 및 방법
US20180047169A1 (en) Method and apparatus for extracting object for sticker image
CN113723147A (zh) 虹膜人脸多模态活体检测和识别方法、装置、介质及设备
CN110288016A (zh) 一种多模态意图融合方法及应用
KR101561817B1 (ko) 얼굴과 손 인식을 이용한 생체 인증 장치 및 방법
US20210185223A1 (en) Method and camera for photographic recording of an ear

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant