CN104620257A - 基于深度的语境识别 - Google Patents

基于深度的语境识别 Download PDF

Info

Publication number
CN104620257A
CN104620257A CN201380030981.8A CN201380030981A CN104620257A CN 104620257 A CN104620257 A CN 104620257A CN 201380030981 A CN201380030981 A CN 201380030981A CN 104620257 A CN104620257 A CN 104620257A
Authority
CN
China
Prior art keywords
user
gesture
speech
order
depth camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380030981.8A
Other languages
English (en)
Other versions
CN104620257B (zh
Inventor
T·E·多克尔
J·霍尔梅斯
J·克拉斯特
S·山本
P·瓦格赫菲纳扎里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Edge 3 Technologies LLC
Original Assignee
Honda Motor Co Ltd
Edge 3 Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Edge 3 Technologies LLC filed Critical Honda Motor Co Ltd
Publication of CN104620257A publication Critical patent/CN104620257A/zh
Application granted granted Critical
Publication of CN104620257B publication Critical patent/CN104620257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/08Cursor circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Image Analysis (AREA)

Abstract

一种基于从深度相机所检测的用户动作,用于选择或修剪与语音识别关联的适用言语命令的方法或系统。根据用户的手或手臂的深度,确定言语命令的语境并选择与所确定的语境对应的言语命令。然后使用所选择的言语命令对音频信号执行语音识别。通过使用一组合适的言语命令,语音识别的准确性得到提高。

Description

基于深度的语境识别
技术领域
本发明涉及使用姿势或手势信息识别语音命令以提高语音识别的准确性。
背景技术
车辆的驾驶员或乘客通常用手指或手使用开关、屏幕、键盘或其它输入机构来操作车辆中的各种设备。这样的输入机构可以用于操作例如导航系统、娱乐系统、空调系统或电话系统。有时,必须要对输入机构执行一系列复杂的操作来向设备发出期望的命令。然而对于驾驶员来说,将双手保持在方向盘上并且仅用短暂的时间通过手间歇地操作这些输入设备是更为可取的。根据操作的复杂性,在驾驶员能够执行期望的操作之前可能需要多次尝试来操作输入设备。
因此,使用较少的利用驾驶员的双手的操作模式是有利的。一种这样的操作模式是语音识别。语音识别是将声音信号转化成语音元素(例如,音素、词语以及句子)的处理过程。语音识别已经应用在从电话操作到车辆操作的各种领域。在语音识别系统中,由输入设备(例如,传声器)采集音频信号并将其转化成数字信号,然后使用一种或多种算法将其处理成包含在音频信号中的输出语音元素。根据应用领域,识别出的语音元素可以是语音识别的最终结果或者是用于进一步处理的中间信息。
在车辆中使用语音识别的问题之一是,类似的或者相同的言语命令可以用于不同的设备。类似的或相同的言语命令的共用导致言语命令中的歧义。例如,诸如“定位XYZ”的命令可表示在导航的情况下特定兴趣点(POI)的定位,而相同的命令还可表示娱乐系统中音轨的识别。如果用户的命令的语境没有被正确地识别,用户意图之外的操作可被车辆中的设备执行。
由于歧义性的言语命令所造成的无意操作以及随后的补救措施所花费的时间会损害用户体验并且导致用户恢复人工操作。
发明内容
本发明的实施例提供基于用户的姿势或手势识别言语命令的系统或方法。通过表示用户的姿势或手势的手势信息选择有可能被用户定为目标用于操作的多个设备中的一个或多个设备。根据所接收的手势信息选择与被用户定为目标的一个或多个设备关联的多个言语命令。使用选择的多个言语命令处理音频信号以确定用于操作所述一个或多个设备的设备命令。
在本发明的一种实施例中,深度相机用于拍摄至少一个深度影像。各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素。处理所述至少一个深度影像以确定用户的姿势或手势。根据所识别的姿势或手势生成手势信息。
在一种实施例中,用户的所述至少部分包括用户的手或前臂。
在一种实施例中,深度相机安装在带有覆盖用户的视野的车辆中的头顶控制台中。
在一种实施例中,所述多个设备包括车辆中的至少导航系统以及娱乐系统。
在一种实施例中,手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外。响应于表示手或前臂定位在所述距离之内的手势信息选择第一组言语命令。响应于表示手或前臂定位在所述距离之外的手势信息选择第二组言语命令。
在一种实施例中,第一组言语命令与在车辆中执行导航操作相关联。第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
说明书中描述的特征和优点不是包括一切的,并且特别地,许多额外的特征和优点对于查看了附图、说明书以及权利要求书的本领域技术人员来说将是显而易见的。此外,应当注意的是,本说明书中使用的语言主要选择用于可读性和指导的目的,而不是选择用来描绘或限制发明主题。
附图说明
通过结合附图考虑下面的详细描述可以容易地理解本发明的教导。
图1A为根据一种实施例的装备有命令处理系统的车辆的侧视图。
图1B为根据一种实施例的图1A的车辆的俯视图。
图2为根据一种实施例的命令处理系统的框图。
图3为根据一种实施例的语音识别模块的框图。
图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。
图5为根据一种实施例的基于由相机拍摄的深度影像执行语音识别的方法的流程图。
具体实施方式
现在参考附图描述优选实施例,附图中相似的附图标记表示完全相同或功能上相似的元素。
说明书中提到的“一种实施例”或“实施例”表示结合所述实施例描述的特定的特征、结构或特性包括在至少一种实施例中。在说明书中多处出现的短语“在一种实施例中”不一定都指的是相同的实施例。
下面的详细描述的某些部分以计算机存储器内数据位的操作的算法和符号表示的形式给出。这些算法描述和表示是由数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域的其他技术人员的方法。在这里,算法通常被看作是导致期望的结果的自洽的步骤(指令)序列。所述步骤是需要物理量的物理处理的那些步骤。尽管不是必须的,但这些量通常采取能够被存储、传送、组合、比较以及以其它方式处理的电信号、磁信号或光信号的形式。主要是出于通用的原因,有时将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。此外,有时将需要物理量的物理操作的步骤的某些安排称为模块设备或编码设备也是方便的,而且不失一般性。
然而,所有这些和类似的术语都与合适的物理量相关联,并且仅仅是应用于这些量的方便的标号。除非以下讨论中明显地另有特别声明,否则应当理解的是,在整个说明书中,利用诸如“处理”或“计算(computing)”或“计算(calculating)”或“确定”或“显示”或“确定”等术语的讨论是指计算机系统或类似的电子计算设备对在计算机系统存储器或寄存器或其它这种信息存储、传输或显示设备内表示为物理(电子)量的数据进行操纵和变换的动作和过程。
实施例的某些方面包括本文中以算法形式描述的处理步骤和指令。应该注意的是,处理步骤和指令可体现在软件、固件或硬件中,并且当体现在软件中时,其可以被下载以驻留在由各种操作系统所使用的不同的平台上并从所述不同的平台进行操作。
实施例还可涉及用于执行本发明的操作的装置。此装置可以是为需要的目的具体构造的,或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的一般用途的计算机。这样的计算机程序可储存在计算机可读存储介质中,例如但不限于包括软盘、光盘、只读光盘存储器(CD-ROMs)、磁光盘、只读存储器(ROMs)、随机存取存储器(RAMs)、电可编程只读存储器(EPROMs)、电可擦除只读存储器(EEPROMs)、磁卡或光卡、专用集成电路(ASICs)或适合于存储电子指令并且每个都连接至计算机系统总线的任何类型的介质的任何类型的盘。此外,说明书中涉及的计算机可包括单处理器或者可以是设计用来提高计算能力的使用多个处理器的架构。
本文所述的算法和显示并不固有地涉及任何特定的计算机或其它装置。各种通用系统也可与根据本文的教导的程序一起使用,或者其可便于构造更专用的装置来执行所需的方法步骤。用于各种这样的系统的所需结构将从以下描述中显而易见。此外,实施例并不参照任何特定的编程语言来描述。可以理解的是,各种编程语言可用于实现本文所述的教导,并且下面所提供的对于特定语言的任何引用是用于实现和最佳模式的公开。
此外,说明书中使用的语言主要是出于可读性和指导的目的选择的,而不是选择用来描述或限制发明主题。因此,本发明旨在作为所附权利要求书所述的范围的说明而非限制。
实施例涉及基于由深度相机所检测的用户动作或手势选择或修剪与语音识别关联的适用言语命令。根据用户的手或前臂相对于深度相机的深度,确定言语命令的语境并选择与所确定的语境对应的一个或多个命令词典。然后使用所选择的命令词典对音频信号执行语音识别。通过根据语境使用命令词典,语音识别的准确性得到提高。
本文所使用的术语“用户”包括车辆的驾驶员以及乘客。用户可以是试图控制车辆中一个或多个设备的任何人。
本文所使用的“姿势”是指用户的身体部分的形态。姿势可以是例如用户的手和前臂相对于其它身体部分或参考点(例如,相机)的指示关系。
本文所使用的“手势”是指随时间的进程改变的用户的身体部分的一系列配置。手势例如可包括指向某一方向的一系列手臂和手的运动。
本文所使用的“设备命令”是指用于操作或控制设备的指令。设备命令可由设备接收并解释以执行某一操作或一组操作。
本文所使用的“导航操作”是指用于使用计算设备(例如,车载远程信息处理设备)来识别、定位、选择或获取用于驾驶至目的地的信息的由用户做出的操作。例如,导航操作可包括提供用户输入以选择地址或兴趣点,和选择由于提供用户输入而显示的地址或兴趣点。
配备有言语命令系统的车辆概述
图1A和1B示出根据一种实施例配备有命令处理系统的车辆100。命令处理系统除了其它组件之外可包括中央处理单元120和头顶控制台单元110。命令处理系统可连接至车辆100的其它组件(例如,导航系统和娱乐系统)以执行各种操作。命令处理系统根据用户的动作或手势识别言语命令,如下面参照图3和图4详细描述的。
中央处理单元120处理音频信号以检测包括在音频信号中的用户言语命令。中央处理单元120连接至诸如驾驶舱系统(例如,导航系统、娱乐系统、空调控制系统以及诊断系统)的其它组件。中央处理单元120根据从用户接收的言语命令控制这些设备。中央处理单元120可以是单机设备或者可以是较大系统(例如,远程信息处理系统)的一部分。下面参照图2对中央处理单元120进行了详细描述。
中央处理单元120可放置在车辆100内的任何位置。如图1A和1B所示的,中央处理单元120可定位在车辆100的中央控制台处。可替代地,中央处理单元120可安装在车辆100的仪表板内。另外,中央处理单元120也可安装在车辆的顶棚上。
头顶控制台单元110定位在车辆内部的顶棚处并且包括传感器(例如,传声器和相机)以拍摄用户的深度影像并检测音频信号,如下面参照图2详细描述的。头顶控制台单元110可包括诸如车库开门器的各种其它组件。头顶控制台单元110的传感器与中央处理单元120通信以提供用于检测用户言语命令的信号。
头顶控制台单元110的传感器与中央处理单元120之间的通信可由现在使用的或将来开发的任何有线或无线通信媒介建立。
示例性命令处理系统
图2为根据一种实施例的示出命令处理系统200的框图。命令处理系统200除了其它组件之外可包括处理器210、输出接口214、输入接口218、存储器240以及连接这些组件的总线。命令处理系统200还可包括深度相机222和传声器260。深度相机222和传声器260经由信道220、262连接至输入接口218。尽管图2中没有示出,但是命令处理系统200可包括多于一个的深度相机或传声器。
处理器210执行储存在存储器240中的指令并处理经由输入接口218接收的传感器数据。尽管图2中只示出了单个处理器210,但是可使用多于一个的处理器以提高命令处理系统200的处理能力。
输出接口214是用来通过通信信道将包括设备命令的数据发送至诸如导航系统、娱乐系统、空调系统以及诊断系统的其它设备的硬件、软件、固件或者其结合。为了发送数据,输出接口214可格式化和调节信号以遵守预先确定的通信协议。
输入接口218是用来从头顶控制台单元110接收传感器信号的硬件、软件、固件或其结合。传感器信号包括经由信道220接收的深度影像和经由信道262接收的音频信号。输入接口218可缓冲接收的传感器信号并在将传感器信号经由总线268转发至处理器210或存储器240之前对传感器信号执行预处理。
深度相机222拍摄驾驶员的深度影像并将深度影像经由信道220发送至输入接口218。深度相机222可体现为飞行时间(TOF)相机、立体视觉相机或产生深度影像(包括到相机视野内物体的不同点的距离信息)的其它类型的相机。立体视觉相机使用两个镜头以从不同的位置拍摄影像。然后处理所拍摄的影像以产生深度影像。在一种实施例中,深度相机222产生的灰度影像的每个像素表示从深度相机222到与像素对应的物体(例如,驾驶员)的点的距离。
参照图1A,深度相机222安装在头顶控制台单元110上并且具有俯瞰车辆100的驾驶员的视野116。通过将深度相机222安装在头顶控制台单元110上,深度相机222有利地具有车辆100的驾驶员和中央控制台的无阻挡视野。另外,驾驶员的手或手臂相对于深度相机222的深度提供驾驶员意图操作的指示,如下面参照手势识别模块252详细描述的。
传声器260感应声波并将声波转换成模拟电信号。传声器260包括用于将模拟电信号转换成数字信号的模数(A/D)转换器。将转换后的数字信号经由信道262发送至输入接口218。可替代地,A/D转换器可包括在输入接口218中。在这种情况下,传声器260将模拟电信号经由信道262发送至输入接口218,用于转换成数字信号以及进一步的处理。
存储器240储存将由处理器210执行的指令以及与指令关联的其它数据。存储器240可以是易失存储器、非易失存储器或其结合。存储器240除了其它软件模块之外可储存命令格式模块244、手势识别模块252以及语音识别模块256。存储器240可包括诸如操作系统的其它软件模块,为简洁起见本文省略了对其的描述。
手势识别模块252根据由深度相机222拍摄的深度影像检测驾驶员的手势或动作。在一种实施例中,手势识别模块252检测手或前臂的位置和/或动作以确定言语命令的语境。在一种实施例中,手势识别模块252确定驾驶员的手或前臂相对于深度相机222的位置。如果驾驶员的手或前臂较接近于深度相机222(即,从深度相机222到手或前臂的距离低于阈值),例如,驾驶员可能做出与导航操作相关联的动作或手势(例如,手指指向窗外侧的方向)。相反地,如果驾驶员的手或前臂远离深度相机222(即,从深度相机222到手或前臂的距离在阈值处或高于阈值),驾驶员可能做出与中央控制台中通常提供的其它控制功能相关联的动作或手势(例如,操作娱乐系统和空调控制系统)。
手势识别模块252可使用计算算法,其类聚深度影像中的像素组并随时间的进展追踪这些组的位置以确定驾驶员的动作或手势。可以根据像素的二维距离的接近度和像素的深度差别将像素类聚成组。手势识别模块252还可储存人体模型并将像素组映射到储存的模型以精确地检测和追踪手和/或前臂的位置。
在一种实施例中,手势识别模块252还可以较高分辨率检测驾驶员手的位置以确定与驾驶员的操作关联的设备。如果车辆的中央控制台具有位于中央控制台的中间处的用于操作娱乐系统的开关或旋钮以及位于两侧的用于空调控制系统的开关,围绕中央控制台的中间的驾驶员手的位置表示驾驶员正在操作娱乐系统。如果相比于中央控制台的中间部分,驾驶员的手更接近于中央控制台的侧部,则驾驶员更可能在操作空调控制系统。因此,命令处理系统200可在驾驶员发出言语命令的时候使用手的特定位置上的手势信息以确定与言语命令相关联的设备。
语音识别模块256确定由驾驶员发出的言语命令。为了确定言语命令,语音识别模块256从手势识别模块252接收关于驾驶员的手势的手势信息,如下面参照图3详细描述的。
命令格式模块244将在语音识别模块256处检测的言语命令转化成用于操作安装在车辆100中的设备的设备命令。安装在车辆100中的各个设备可要求以不同的格式来提供命令。因此,命令格式模块244将命令转化成各个设备可以处理的格式。此外,如果发出的言语命令不清楚、模棱两可或不充分,命令格式模块244可从驾驶员请求进一步的信息。这样的对于进一步信息的请求可以通过扬声器进行。命令格式244也可结合来自手势识别模块252的信息以生成设备命令,如下面参照图4详细描述的。
命令格式模块244、手势识别模块252以及语音识别模块256不需要储存在相同的存储器240中。例如,手势识别模块252可储存在头顶控制台单元中的存储器中,而语音识别模块256和命令格式模块244可储存在中央控制台单元中的存储器中。另外,这些模块中的一个或多个可以体现为专用硬件组件。
语音识别模块的示例性架构
图3为根据一种实施例的示出语音识别模块256的组件的框图。语音识别模块256除了其它组件之外可包括手势识别接口312、命令提取模块316以及命令词典320。语音识别模块256还可包括其它模块,例如包含由用户先前发出的言语命令清单的历史管理模块。
手势识别接口312使语音识别模块256能够与手势识别模块252通信。在一种实施例中,经由手势识别接口312从手势识别模块252接收的手势信息表示驾驶员的手或前臂的位置。
命令词典320包括与车辆100的各种设备关联的命令。命令词典320包括从320A至320N的多个词典,各个都与车辆100的设备或系统相关联。例如,词典320A储存与导航系统的操作关联的命令,词典320B储存与娱乐系统的操作关联的命令,词典320C储存与空调控制系统关联的命令。
命令提取模块316根据手势数据和储存在所选择的命令词典320中的命令提取包含在音频信号中的言语命令。在接收到手势信息之后,命令提取模块316根据如手势信息所表示的用户的手或前臂的位置选择一个或多个词典。如果手势数据表示用户的手或前臂处于某一姿势,选择与驾驶员的手或前臂附近的设备关联的词典用于命令提取。例如,如果用户的手在自娱乐系统的某一距离内,选择与娱乐系统关联的词典(例如,词典320B)用于命令提取。
相反地,如果在发出言语命令的时候驾驶员的手或前臂远离这些设备并且上升超过某一水平(即,升起超过仪表板),命令提取模块316确定言语命令与导航系统关联。因此,命令提取模块316选择并使用与导航操作相关联的词典(例如,词典310A)以执行语音识别。
在一种实施例中,由命令提取模块316识别的言语命令与手势信息结合以在命令格式模块244处生成导航命令。手势信息可表示例如驾驶员的手指的定向,如下面参照图4详细描述的。
命令提取模块316可使用多于一个的词典以提取言语命令。如果用户的手围绕中央控制台定位,可以选择与可在中央控制台处操作的任何设备(例如,娱乐系统或空调控制系统)相关联的词典。
在一种实施例中,命令提取模块316根据用户的手或前臂的位置向命令分配概率权重。命令提取模块316使用统计模型根据以序列出现的音素计算说出的言语命令的概率。统计模型在驾驶员意图的最可能的命令的确定中可包括考虑了手或前臂的位置的参数。
图3的语音识别模块256仅仅是说明性的。可以对语音识别模块256做出各种改型。例如,命令词典320可以将多个命令中的每个映射到一个或多个设备,而不是具有多个词典。
使用手势和言语命令的示例性检测兴趣点
通过使用手势和语音命令的结合,用户可以方便地识别兴趣点或目的地。当指向兴趣点或目的地时,用户可发出要求导航系统识别和/或设置兴趣点的命令。命令格式模块244可结合从言语识别的命令和从手势信息提取的参数以生成导航命令。
图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。在图4中,驾驶员希望导航至建筑410或者想要识别建筑410的名字或地址。驾驶员在将手指指向建筑410的同时说明言语命令“识别那栋建筑”。由于各种误差,手势识别模块252可检测驾驶员将手指指向O-A方向(以虚线示出)。
作为回应,语音识别模块256从手势识别模块252接收表示用户的手臂和前臂抬起的手势信息。语音识别模块256确定言语命令与导航系统关联(因为手和前臂抬起)并使用与导航系统关联的词典以识别言语命令。语音识别模块256向命令格式模块244发送识别出的言语命令。
命令格式模块244接收言语命令,分析言语命令并确定短语“那栋建筑”需要进一步说明。命令格式模块244分析手势信息并使用表示用户手指的定向(由线O-A表示)的手势信息中的参数以生成请求导航系统识别线O-A的方向中的任何兴趣点的设备命令。例如,参数可以是相对于车辆100的前方方向的角度θ。
导航系统接收设备命令,并建立由O-B-C-O表示的搜索锥。搜索锥具有表示搜索半径(例如,10英里)的高度R并具有锥角2α。锥角2α可以增加以扩展搜索或者以允许增加的容错性。导航系统在由考虑了车辆运动的车辆速度和方向的搜索锥识别的搜索区域内执行搜索。在一种实施例中,向较接近车辆的兴趣点赋予优先级。在一种实施例中,导航系统向用户呈现在搜索区域内发现的兴趣点清单。然后用户可从搜索到的清单指出兴趣点并要求进一步的动作(例如,导航至兴趣点或者电话呼叫兴趣点)。
根据手势数据识别言语命令的示例性方法
图5为根据一种实施例的说明基于驾驶员的动作或手势识别言语命令的方法的流程图。命令处理系统200使用深度相机222生成506深度影像。使用所生成的深度影像,命令处理系统200生成510用户的手势信息。手势信息除其它之外可表示用户的手或前臂相对于深度相机222的位置。
根据手势信息,命令处理系统200选择514用于识别言语命令的一个或多个词典。各个词典可包括用于车辆100中的某一系统或设备的命令。
命令处理系统200根据在传声器260处接收的声音信号还生成表示驾驶员所说话语的数字音频信号。
在选择适用的一个或多个词典后,命令处理系统200使用所选择的一个或多个词典对生成的音频信号执行518语音识别。在说出言语命令的时候,通过根据表示用户的姿势或手势的手势信息限定或修剪适用的言语命令,语音识别的准确性可以得到提高。
在生成言语命令之后,命令处理系统200通过将言语命令转化成设备命令生成522与言语命令对应的设备命令。如需要,命令处理系统200可增加、修改或请求信息用于生成设备命令。
如图5中说明的过程及其序列仅是说明性的。可以对过程和/或序列做出各种修改。例如,可执行518语音识别以生成一组候选言语命令。接着,可根据驾驶员手势的确定510从候选言语命令组选择最终的言语命令。此外,可以并行执行一个或多个过程。例如,在深度相机222处生成506深度影像可与生成516音频信号并行执行。
可替代实施例
在一种或多种实施例中,使用一个或多个相机以提高手势检测的准确性。相机也可拍摄彩色影像。彩色影像可检测代表驾驶员手的皮肤色调。通过关联彩色影像与深度影像,手或前臂的位置可以检测得更加准确。此外,可以在车辆100中棚顶或别处的不同位置定位两个或更多个相机以补足或替代在一个深度相机处所拍摄的深度影像。
在一种或多种实施例中,命令处理系统200的一个或多个组件可以通过与安装在车辆100中的命令处理系统200通信的远程服务器体现。例如,语音识别模块256可体现在与安装在车辆100中的命令处理系统200无线通信的远程服务器中。
在一种或多种实施例中,命令处理系统200用于除了车辆的运输装置中。命令处理系统200可用于例如飞机或摩托车中。
尽管上面描述了几种实施例,但是可以在本发明的范围内做出各种修改。因此,本发明的公开内容是要说明而非限制所附权利要求书所述的本发明的范围。

Claims (21)

1.一种识别言语命令的计算机执行方法,其包括:
通过放置在车辆中的深度相机拍摄至少一个深度影像,各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素;
根据所拍摄的深度影像识别用户的姿势或手势;以及
根据所识别的姿势或手势生成手势信息;
根据手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备;
选择与被确定为目标的一个或多个设备相关联的多个言语命令;
在用户做出姿势或手势的时候接收包括用户的话语的音频信号;以及
通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。
2.根据权利要求1所述的方法,其中,用户的所述至少部分包括用户的手或前臂。
3.根据权利要求1所述的方法,其中,深度相机安装在车辆中的头顶控制台中,深度相机俯瞰用户。
4.根据权利要求1所述的方法,其中,多个设备包括车辆中的至少导航系统和娱乐系统。
5.根据权利要求1所述的方法,其中,手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外,并且其中,响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令,并且其中,响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。
6.根据权利要求5所述的方法,其中,第一组言语命令与在车辆中执行导航操作相关联。
7.根据权利要求6所述的方法,其中,第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。
8.根据权利要求6所述的方法,其中,第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
9.一种用于识别言语命令的命令处理系统,其包括:
深度相机,其放置在车辆中并且能够通过深度相机拍摄至少一个深度影像,各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素;以及
手势识别模块,其结合至深度相机,手势识别模块能够根据所拍摄的深度影像识别用户的姿势或手势并且根据所识别的姿势或手势生成手势信息;
手势识别接口,其能够根据所识别的姿势或手势生成手势信息;以及
命令提取模块,其能够:
根据所接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备;
选择与被确定作为目标的一个或多个设备相关联的多个言语命令;
在用户做出姿势或手势的时候接收包括用户的话语的音频信号;以及
通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。
10.根据权利要求9所述的命令处理系统,其中,用户的所述至少部分包括用户的手或前臂。
11.根据权利要求9所述的命令处理系统,其中,深度相机安装在车辆中的头顶控制台中俯瞰用户。
12.根据权利要求11所述的命令处理系统,其中,深度相机包括立体视觉相机,其输送所拍摄的影像用于处理成至少一个深度影像。
13.根据权利要求9所述的命令处理系统,其中,所述多个设备包括车辆中的至少导航系统和娱乐系统。
14.根据权利要求9所述的命令处理系统,其中,手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外,并且其中,命令提取模块响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令,并且响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。
15.根据权利要求14所述的命令处理系统,其中,第一组言语命令与在车辆中执行导航操作相关联。
16.根据权利要求14所述的命令处理系统,其中,第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。
17.根据权利要求16所述的命令处理系统,其中,第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
18.一种用于识别言语命令的永久性计算机可读存储介质,当执行时,构造用来存储指令的计算机可读存储介质使处理器:
通过放置在车辆中的深度相机拍摄至少一个深度影像,各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素;
根据所拍摄的深度影像识别用户的姿势或手势;
根据所识别的姿势或手势生成手势信息;
根据接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备;
选择与被确定为目标的一个或多个设备相关联的多个言语命令;
在用户做出姿势或手势的时候接收包括用户的话语的音频信号;以及
通过使用所选择的多个言语命令对音频信号执行语音识
别来确定用于操作一个或多个设备的设备命令。
19.根据权利要求18所述的计算机可读存储介质,其中,用户的所述至少部分包括用户的手或前臂。
20.根据权利要求18所述的计算机可读存储介质,其中,深度相机安装在车辆中的头顶控制台中俯瞰用户。
21.根据权利要求18所述的计算机可读存储介质,其中,所述多个设备包括车辆中的至少导航系统和娱乐系统。
CN201380030981.8A 2012-06-15 2013-04-15 基于深度的语境识别 Active CN104620257B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/524,351 US9092394B2 (en) 2012-06-15 2012-06-15 Depth based context identification
US13/524,351 2012-06-15
PCT/US2013/036654 WO2013188002A1 (en) 2012-06-15 2013-04-15 Depth based context identification

Publications (2)

Publication Number Publication Date
CN104620257A true CN104620257A (zh) 2015-05-13
CN104620257B CN104620257B (zh) 2017-12-12

Family

ID=49756700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380030981.8A Active CN104620257B (zh) 2012-06-15 2013-04-15 基于深度的语境识别

Country Status (7)

Country Link
US (1) US9092394B2 (zh)
EP (1) EP2862125B1 (zh)
JP (1) JP6010692B2 (zh)
KR (1) KR102061925B1 (zh)
CN (1) CN104620257B (zh)
IL (1) IL236089A (zh)
WO (1) WO2013188002A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957521A (zh) * 2016-02-29 2016-09-21 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及系统
CN106373568A (zh) * 2016-08-30 2017-02-01 深圳市元征科技股份有限公司 智能车载单元控制方法和装置
CN109074819A (zh) * 2016-04-29 2018-12-21 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
US10706844B2 (en) 2015-05-22 2020-07-07 Sony Corporation Information processing system and information processing method for speech recognition

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013101066A1 (en) * 2011-12-29 2013-07-04 Intel Corporation Direct grammar access
DE102012013503B4 (de) * 2012-07-06 2014-10-09 Audi Ag Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens
US9323342B2 (en) * 2012-10-22 2016-04-26 Sony Corporation User interface with location mapping
US20140122086A1 (en) * 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging
US20140310277A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Suspending user profile modification based on user context
US20140379346A1 (en) * 2013-06-21 2014-12-25 Google Inc. Video analysis based language model adaptation
WO2015026834A1 (en) * 2013-08-19 2015-02-26 Nant Holdings Ip, Llc Camera-to-camera interactions, systems and methods
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
JP2015153324A (ja) * 2014-02-18 2015-08-24 株式会社Nttドコモ 情報検索装置、情報検索方法及び情報検索プログラム
CN106030697B (zh) * 2014-02-26 2019-10-25 三菱电机株式会社 车载控制装置及车载控制方法
US10466657B2 (en) 2014-04-03 2019-11-05 Honda Motor Co., Ltd. Systems and methods for global adaptation of an implicit gesture control system
WO2015153835A1 (en) * 2014-04-03 2015-10-08 Honda Motor Co., Ltd Systems and methods for the detection of implicit gestures
US10409382B2 (en) 2014-04-03 2019-09-10 Honda Motor Co., Ltd. Smart tutorial for gesture control system
US9342797B2 (en) 2014-04-03 2016-05-17 Honda Motor Co., Ltd. Systems and methods for the detection of implicit gestures
CN106537489B (zh) * 2014-07-22 2020-01-17 三菱电机株式会社 用于识别包括单词序列的语音的方法和系统
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
CN105741312B (zh) * 2014-12-09 2018-04-27 株式会社理光 目标对象跟踪方法和设备
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
US10692126B2 (en) 2015-11-17 2020-06-23 Nio Usa, Inc. Network-based system for selling and servicing cars
US20170176207A1 (en) * 2015-12-17 2017-06-22 Jaguar Land Rover Limited In vehicle system and method for providing information regarding points of interest
US10166995B2 (en) * 2016-01-08 2019-01-01 Ford Global Technologies, Llc System and method for feature activation via gesture recognition and voice command
EP3444808A4 (en) * 2016-04-11 2019-05-01 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US20180012197A1 (en) 2016-07-07 2018-01-11 NextEv USA, Inc. Battery exchange licensing program based on state of charge of battery pack
US9928734B2 (en) 2016-08-02 2018-03-27 Nio Usa, Inc. Vehicle-to-pedestrian communication systems
US10241584B2 (en) * 2016-09-28 2019-03-26 Lenovo (Singapore) Pte. Ltd. Gesture detection
WO2018061743A1 (ja) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 ウェアラブル端末
US11024160B2 (en) 2016-11-07 2021-06-01 Nio Usa, Inc. Feedback performance control and tracking
US10708547B2 (en) 2016-11-11 2020-07-07 Nio Usa, Inc. Using vehicle sensor data to monitor environmental and geologic conditions
US10694357B2 (en) 2016-11-11 2020-06-23 Nio Usa, Inc. Using vehicle sensor data to monitor pedestrian health
US10410064B2 (en) 2016-11-11 2019-09-10 Nio Usa, Inc. System for tracking and identifying vehicles and pedestrians
US10699305B2 (en) 2016-11-21 2020-06-30 Nio Usa, Inc. Smart refill assistant for electric vehicles
US10249104B2 (en) 2016-12-06 2019-04-02 Nio Usa, Inc. Lease observation and event recording
US10074223B2 (en) 2017-01-13 2018-09-11 Nio Usa, Inc. Secured vehicle for user use only
US10031521B1 (en) 2017-01-16 2018-07-24 Nio Usa, Inc. Method and system for using weather information in operation of autonomous vehicles
US10471829B2 (en) 2017-01-16 2019-11-12 Nio Usa, Inc. Self-destruct zone and autonomous vehicle navigation
US9984572B1 (en) 2017-01-16 2018-05-29 Nio Usa, Inc. Method and system for sharing parking space availability among autonomous vehicles
US10464530B2 (en) 2017-01-17 2019-11-05 Nio Usa, Inc. Voice biometric pre-purchase enrollment for autonomous vehicles
US10286915B2 (en) 2017-01-17 2019-05-14 Nio Usa, Inc. Machine learning for personalized driving
US10897469B2 (en) 2017-02-02 2021-01-19 Nio Usa, Inc. System and method for firewalls between vehicle networks
US10234302B2 (en) 2017-06-27 2019-03-19 Nio Usa, Inc. Adaptive route and motion planning based on learned external and internal vehicle environment
US10369974B2 (en) 2017-07-14 2019-08-06 Nio Usa, Inc. Control and coordination of driverless fuel replenishment for autonomous vehicles
US10710633B2 (en) 2017-07-14 2020-07-14 Nio Usa, Inc. Control of complex parking maneuvers and autonomous fuel replenishment of driverless vehicles
US10837790B2 (en) 2017-08-01 2020-11-17 Nio Usa, Inc. Productive and accident-free driving modes for a vehicle
US10635109B2 (en) 2017-10-17 2020-04-28 Nio Usa, Inc. Vehicle path-planner monitor and controller
US10935978B2 (en) 2017-10-30 2021-03-02 Nio Usa, Inc. Vehicle self-localization using particle filters and visual odometry
US10606274B2 (en) 2017-10-30 2020-03-31 Nio Usa, Inc. Visual place recognition based self-localization for autonomous vehicles
US10717412B2 (en) 2017-11-13 2020-07-21 Nio Usa, Inc. System and method for controlling a vehicle using secondary access methods
JP2019128374A (ja) * 2018-01-22 2019-08-01 トヨタ自動車株式会社 情報処理装置、及び情報処理方法
JP2019191946A (ja) * 2018-04-25 2019-10-31 パイオニア株式会社 情報処理装置
US10872604B2 (en) 2018-05-17 2020-12-22 Qualcomm Incorporated User experience evaluation
US10369966B1 (en) 2018-05-23 2019-08-06 Nio Usa, Inc. Controlling access to a vehicle using wireless access devices
KR102653009B1 (ko) 2018-10-11 2024-04-01 에스케이하이닉스 주식회사 스토리지 디바이스 쿨링 시스템 및 이를 포함하는 스마트 자동차
WO2021029457A1 (ko) * 2019-08-13 2021-02-18 엘지전자 주식회사 사용자에게 정보를 제공하는 인공 지능 서버 및 그 방법
CN110730115B (zh) * 2019-09-11 2021-11-09 北京小米移动软件有限公司 语音控制方法及装置、终端、存储介质
US11873000B2 (en) 2020-02-18 2024-01-16 Toyota Motor North America, Inc. Gesture detection for transport control
DE102021129535A1 (de) * 2021-11-12 2023-05-17 Ford Global Technologies, Llc System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug
DE102022103066A1 (de) 2022-02-09 2023-08-10 Cariad Se Verfahren zum Bereitstellen einer geografisch verorteten elektronischen Erinnerungsnotiz in einem Kraftfahrzeug

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050134117A1 (en) * 2003-12-17 2005-06-23 Takafumi Ito Interface for car-mounted devices
US20070057781A1 (en) * 1999-12-15 2007-03-15 Automotive Technologies International, Inc. Vehicular Heads-Up Display System
US20100057781A1 (en) * 2008-08-27 2010-03-04 Alpine Electronics, Inc. Media identification system and method
EP2219097A1 (en) * 2009-02-13 2010-08-18 Ecole Polytechnique Federale De Lausanne (Epfl) Man-machine interface method executed by an interactive device
CN102306051A (zh) * 2010-06-18 2012-01-04 微软公司 复合姿势-语音命令

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131437A (ja) 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6624833B1 (en) 2000-04-17 2003-09-23 Lucent Technologies Inc. Gesture-based input interface system with shadow detection
US6804396B2 (en) 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
KR100575906B1 (ko) * 2002-10-25 2006-05-02 미츠비시 후소 트럭 앤드 버스 코포레이션 핸드 패턴 스위치 장치
JP4230999B2 (ja) 2002-11-05 2009-02-25 ディズニー エンタープライゼス インコーポレイテッド ビデオ作動インタラクティブ環境
US7665041B2 (en) 2003-03-25 2010-02-16 Microsoft Corporation Architecture for controlling a computer using hand gestures
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
CN1816792A (zh) 2003-07-02 2006-08-09 新世代株式会社 信息处理装置、信息处理系统、操作物、信息处理方法、信息处理程序以及游戏系统
DE60318430T2 (de) * 2003-08-14 2009-01-02 Harman Becker Automotive Systems Gmbh Computergestütztes System und Verfahren zur Informationsausgabe an einen Fahrer eines Fahrzeuges
US7295904B2 (en) * 2004-08-31 2007-11-13 International Business Machines Corporation Touch gesture based interface for motor vehicle
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007237785A (ja) * 2006-03-06 2007-09-20 National Univ Corp Shizuoka Univ 車載用情報提示システム
JP2008045962A (ja) * 2006-08-14 2008-02-28 Nissan Motor Co Ltd 車両用のナビゲーション装置
JP2008145676A (ja) * 2006-12-08 2008-06-26 Denso Corp 音声認識装置及び車両ナビゲーション装置
JP2009025715A (ja) * 2007-07-23 2009-02-05 Xanavi Informatics Corp 車載装置および音声認識方法
US8321219B2 (en) 2007-10-05 2012-11-27 Sensory, Inc. Systems and methods of performing speech recognition using gestures
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
JP4609527B2 (ja) 2008-06-03 2011-01-12 株式会社デンソー 自動車用情報提供システム
KR101652535B1 (ko) 2008-06-18 2016-08-30 오블롱 인더스트리즈, 인크 차량 인터페이스를 위한 제스처 기반 제어 시스템
WO2010006087A1 (en) * 2008-07-08 2010-01-14 David Seaberg Process for providing and editing instructions, data, data structures, and algorithms in a computer system
US20100274480A1 (en) * 2009-04-27 2010-10-28 Gm Global Technology Operations, Inc. Gesture actuated point of interest information systems and methods
US9377857B2 (en) 2009-05-01 2016-06-28 Microsoft Technology Licensing, Llc Show body position
US9047256B2 (en) * 2009-12-30 2015-06-02 Iheartmedia Management Services, Inc. System and method for monitoring audience in response to signage
US8836638B2 (en) * 2010-09-25 2014-09-16 Hewlett-Packard Development Company, L.P. Silent speech based command to a computing device
US8817087B2 (en) 2010-11-01 2014-08-26 Robert Bosch Gmbh Robust video-based handwriting and gesture recognition for in-car applications
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070057781A1 (en) * 1999-12-15 2007-03-15 Automotive Technologies International, Inc. Vehicular Heads-Up Display System
US20050134117A1 (en) * 2003-12-17 2005-06-23 Takafumi Ito Interface for car-mounted devices
US20100057781A1 (en) * 2008-08-27 2010-03-04 Alpine Electronics, Inc. Media identification system and method
EP2219097A1 (en) * 2009-02-13 2010-08-18 Ecole Polytechnique Federale De Lausanne (Epfl) Man-machine interface method executed by an interactive device
CN102306051A (zh) * 2010-06-18 2012-01-04 微软公司 复合姿势-语音命令

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706844B2 (en) 2015-05-22 2020-07-07 Sony Corporation Information processing system and information processing method for speech recognition
CN105957521A (zh) * 2016-02-29 2016-09-21 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及系统
CN109074819A (zh) * 2016-04-29 2018-12-21 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
CN109074819B (zh) * 2016-04-29 2023-05-16 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
CN106373568A (zh) * 2016-08-30 2017-02-01 深圳市元征科技股份有限公司 智能车载单元控制方法和装置

Also Published As

Publication number Publication date
EP2862125B1 (en) 2017-02-22
CN104620257B (zh) 2017-12-12
EP2862125A1 (en) 2015-04-22
JP6010692B2 (ja) 2016-10-19
EP2862125A4 (en) 2016-01-13
IL236089A (en) 2016-02-29
KR102061925B1 (ko) 2020-01-02
US20130339027A1 (en) 2013-12-19
US9092394B2 (en) 2015-07-28
KR20150044874A (ko) 2015-04-27
JP2015526753A (ja) 2015-09-10
WO2013188002A1 (en) 2013-12-19
IL236089A0 (en) 2015-02-01

Similar Documents

Publication Publication Date Title
CN104620257A (zh) 基于深度的语境识别
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN102023703B (zh) 组合唇读与语音识别的多模式界面系统
US9679557B2 (en) Computer-implemented method for automatic training of a dialogue system, and dialogue system for generating semantic annotations
US11495214B2 (en) Artificial intelligence device for providing voice recognition service and method of operating the same
US11302311B2 (en) Artificial intelligence apparatus for recognizing speech of user using personalized language model and method for the same
CN113302664A (zh) 运载工具的多模态用户接口
EP2518447A1 (en) System and method for fixing user input mistakes in an in-vehicle electronic device
US20130155237A1 (en) Interacting with a mobile device within a vehicle using gestures
US20200043478A1 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
US10950233B2 (en) Dialogue system, vehicle having the same and dialogue processing method
CN1692406A (zh) 车载控制装置
US11607801B2 (en) Artificial intelligence robot for managing movement of object using artificial intelligence and method of operating the same
US11810575B2 (en) Artificial intelligence robot for providing voice recognition function and method of operating the same
US20200218488A1 (en) Multimodal input processing for vehicle computer
US20200118560A1 (en) Dialogue system, vehicle having the same and dialogue processing method
US20220293095A1 (en) Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same
CN109346074A (zh) 一种语音处理方法及系统
KR20210044475A (ko) 대명사가 가리키는 객체 판단 방법 및 장치
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
US20210401255A1 (en) Artificial intelligence robot and method of operating the same
US11423877B2 (en) Robot for providing guidance service using artificial intelligence and method of operating the same
US20190377489A1 (en) Artificial intelligence device for providing voice recognition service and method of operating the same
CN114758653A (zh) 对话系统、具有对话系统的车辆以及控制对话系统的方法
KR102371513B1 (ko) 대화 시스템 및 대화 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant