CN110770693A - 手势操作装置及手势操作方法 - Google Patents

手势操作装置及手势操作方法 Download PDF

Info

Publication number
CN110770693A
CN110770693A CN201780092131.9A CN201780092131A CN110770693A CN 110770693 A CN110770693 A CN 110770693A CN 201780092131 A CN201780092131 A CN 201780092131A CN 110770693 A CN110770693 A CN 110770693A
Authority
CN
China
Prior art keywords
gesture
recognition result
control unit
acquisition unit
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780092131.9A
Other languages
English (en)
Inventor
竹里尚嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Corp
Original Assignee
Mitsubishi Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Corp filed Critical Mitsubishi Corp
Publication of CN110770693A publication Critical patent/CN110770693A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

手势识别结果获取部(2a)从手势识别装置(11)获取表示所识别出的手势的手势识别结果。语音识别结果获取部(2b)从语音识别装置(13)获取对发话语音进行语音识别且表示与发话意图相对应的功能信息的语音识别结果。控制部(2d)使用从手势识别结果获取部(2a)获取到的手势识别结果、以及从语音识别结果获取部(2b)获取到的语音识别结果,将手势与功能信息对应起来登记在存储部(2c)中。

Description

手势操作装置及手势操作方法
技术领域
本发明涉及输出功能信息的手势操作装置,上述功能信息表示分配给所识别出的手势的功能。
背景技术
近年来,用于通过手势来操作各种设备的手势操作装置正开始普及。手势操作装置识别用户的手势,并将表示分配给所识别出的手势的功能的功能信息输出给执行该功能的设备。若使用这样的手势操作装置,则用户例如可以通过使手从左向右移动,从而播放音频设备正在播放中的曲子的下一首曲子。手势操作装置中,如上述那样登记有手势与所执行的功能之间的对应关系。用户有时想要根据自己的喜好重新登记手势与所执行的功能之间的对应关系。
例如在专利文献1中记载了一种移动终端装置,其包括:触摸面板,该触摸面板具有多个片断区域;图案存储单元,该图案存储单元将功能与由触摸面板的相邻的多个片段区域所构成的登记图案对应起来进行存储;以及图案识别单元,该图案识别单元将用户连续接触的多个片段区域作为输入图案来识别,上述移动终端装置将根据用户的操作输入而选择的功能和与登记图案不一致的输入图案对应起来进行存储。
现有技术文献
专利文献
专利文献1
日本专利第5767106号公报
发明内容
发明所要解决的技术问题
上述专利文献1的移动终端装置中,用户需要通过使用了触摸面板等的手动操作来选择想要与新的登记图案对应起来进行存储的功能。因此,在不清楚通过手动操作来选择该功能的顺序的情况等下,登记作业将花费时间和精力。
本发明是为了解决上述问题而完成的,其目的在于获得一种手势操作装置,与通过手动操作来登记的情况相比,能以较少的时间和精力来登记手势与表示通过该手势来执行的功能的功能信息之间的对应关系。
解决技术问题所采用的技术方案
本发明所涉及的手势操作装置输出表示分配给所识别出的手势的功能的功能信息,其特征在于,包括:手势识别结果获取部,该手势识别结果获取部获取表示所识别出的手势的手势识别结果;语音识别结果获取部,该语音识别结果获取部获取对发话语音进行语音识别且表示与发话意图相对应的功能信息的语音识别结果;以及控制部,该控制部将由手势识别结果获取部获取到的手势识别结果所示的手势、与由语音识别结果获取部获取到的语音识别结果所示的功能信息对应起来进行登记。
发明效果
根据本发明,将由手势识别结果获取部获取到的手势识别结果所示的手势、与由语音识别结果获取部所获取到的语音识别结果所示的功能信息对应起来进行登记,由此,与通过手动操作来登记的情况相比,能以较少的时间和精力来登记手势与功能信息之间的对应关系。
附图说明
图1是示出实施方式1所涉及的手势操作装置及其周边的结构的框图。
图2是示出手势与功能信息之间的对应关系的一个示例的图。
图3A和图3B是示出实施方式1所涉及的手势操作装置的硬件结构例的图。
图4A和图4B是示出执行状态下的手势操作装置的动作的流程图。
图5是示出登记状态下的手势操作装置的动作的流程图。
图6是示出手势与功能信息之间的对应关系的一个示例的图。
图7是示出实施方式1所涉及的手势操作装置的变形例的框图。
图8是示出实施方式2所涉及的手势操作装置及其周边的结构的框图。
具体实施方式
以下,为了对本发明进行更加详细的说明,根据附图对用于实施本发明的方式进行说明。
实施方式1﹒
图1是示出实施方式1所涉及的手势操作装置2及其周边的结构的框图。手势操作装置2内置于HMI(Human Machine Interface:人机接口)单元1。实施方式1中,以HMI单元1搭载于车辆的情况为例进行说明。
HMI单元1具有控制空调17等车载设备的功能、导航功能及音频功能等。
具体而言,HMI单元1获取由语音识别装置13得到的乘客的发话语音的识别结果即语音识别结果、由手势识别装置11得到的乘客的手势的识别结果即手势识别结果、以及指示输入部14输出的操作信号等。然后,HMI单元1执行与所获取到的语音识别结果、手势识别结果和操作信号相对应的处理。例如,HMI单元1对空调17输出指示空调的开始的指示信号等、对车载设备输出指示信号。此外,例如,HMI单元1对显示装置15输出指示显示图像的指示信号。此外,例如,HMI单元1对扬声器16输出指示输出语音的指示信号。
另外,“乘客”指搭乘于搭载有HMI单元1的车辆的人员。“乘客”也指手势操作装置2等的用户。此外,“乘客的手势”指乘客在该车辆内作出的手势,“乘客的发话语音”指乘客在该车辆内发话的语音。
接着,对手势操作装置2的概要进行说明。
手势操作装置2中,作为动作状态,具有执行状态以及登记状态这2个不同的动作状态。执行状态是进行如下控制的状态:执行与乘客的手势相对应的功能。登记状态是进行如下控制的状态:对乘客的手势分配功能。实施方式1中,默认的动作状态为执行状态,乘客操作指示输入部14来指示切换动作状态,由此,动作状态从执行状态向登记状态切换。
在动作状态为执行状态的情况下,手势操作装置2从手势识别装置11获取乘客的手势的识别结果即手势识别结果,并进行控制,以执行分配给该手势的功能。
另一方面,在动作状态为登记状态的情况下,手势操作装置2除了从手势识别装置11获取乘客的手势的识别结果即手势识别结果,还从语音识别装置13获取乘客的发话语音的识别结果即语音识别结果。然后,手势操作装置2对该手势分配基于语音识别结果的功能。即,在动作状态为登记状态的情况下,手势操作装置2将乘客通过发话对手势操作装置2传达的意图作为乘客的手势的操作意图来登记。
在手势操作装置2处于登记状态时,乘客作出手势,并进行传达该手势的操作意图的发话,由此,能使手势操作装置2对该手势分配功能。因此,与乘客操作指示输入部14来选择并登记想要分配给手势的功能的情况相比,能以较少的时间和精力来进行登记。此外,乘客能按照自己的喜好自由地决定分配给手势的功能,因此,能直观地利用基于手势的设备操作。
接着,对图1所示的各结构进行详细说明。
手势识别装置11从对车辆内进行拍摄的红外线摄像头等、即拍摄装置10获取拍摄图像。手势识别装置11分析该拍摄图像,识别乘客的手势,生成表示该手势的手势识别结果并输出至手势操作装置2。作为手势识别装置11设为识别的对象的手势,可以预先确定1种以上的手势,并设手势识别装置11具有该预先确定的手势的信息。因此,手势识别装置11所识别的乘客的手势是在预先确定的手势中、已被确定出是哪一种手势的手势,这点对于手势识别结果所示的手势也相同。另外,利用拍摄图像的分析来进行的手势的识别是公知技术,因此省略说明。
语音识别装置13从设置在车辆内的麦克风12获取乘客的发话语音。语音识别装置13以该发话语音为对象进行语音识别处理,生成语音识别结果并输出至手势操作装置2。语音识别结果至少表示与乘客的发话意图对应的功能信息。功能信息是表示由HMI单元1和空调17等执行的功能的信息。除此以外,语音识别结果也可以表示将乘客的发话语音直接文本化后得到的信息等。另外,根据发话语音识别发话意图、并确定乘客希望执行的功能是公知技术,因此省略说明。
指示输入部14接收乘客的手动操作,并将对应于该手动操作的操作信号输出至HMI控制部3。指示输入部14可以是按钮等硬件按键,也可以是触摸面板等软件按键。此外,指示输入部14可以与方向盘等一体设置,也可以是单个装置。
HMI控制部3根据指示输入部14输出的操作信号或手势操作装置2输出的功能信息,对空调17等车载设备、或后述的导航控制部6和音频控制部7等输出指示信号。此外,HMI控制部3将导航控制部6输出的图像信息输出至后述的显示控制部4。此外,HMI控制部3将导航控制部6或音频控制部7输出的语音信息输出至后述的语音输出控制部5。
显示控制部4对显示装置15输出指示信号,以使其显示HMI控制部3所输出的图像信息所示的图像。显示装置15例如是HUD(Head Up Display:平视显示器)或CID(CenterInformation Display:中心信息显示器)。
语音输出控制部5对扬声器16输出指示信号,以使其输出HMI控制部3所输出的语音信息所示的语音。
导航控制部6进行与HMI控制部3所输出的指示信号相对应的公知的导航处理。例如,导航控制部6使用地图数据来进行设施搜索或地址搜索等各种搜索。此外,对于乘客使用指示输入部14所设定的目的地,导航控制部6计算到该目的地为止的路径。导航控制部6将处理结果作为图像信息或语音信息来生成,并输出至HMI控制部3。
音频控制部7进行与HMI控制部3所输出的指示信号相对应的语音处理。例如,音频控制部7进行未图示的存储部中所存储的乐曲的播放处理来生成语音信息,并输出至HMI控制部3。此外,音频控制部7对收音机广播波进行处理来生成收音机的语音信息,并输出至HMI控制部3。
手势操作装置2具有手势识别结果获取部2a、语音识别结果获取部2b、存储部2c和控制部2d。
手势识别结果获取部2a从手势识别装置11获取表示所识别出的手势的手势识别结果。手势识别结果获取部2a将所获取到的手势识别结果输出至控制部2d。
语音识别结果获取部2b从语音识别装置13获取对发话语音进行语音识别且表示与发话意图相对应的功能信息的语音识别结果。语音识别结果获取部2b将所获取到的语音识别结果输出至控制部2d。
存储部2c将在手势识别装置11中成为识别对象的手势、与表示由该手势执行的功能的功能信息对应起来进行存储。例如,如图2所示,将启动空调17的“空调打开”这一功能信息与“使左手从右向左移动”这一手势相对应。另外,作为初始设定,将某些功能信息预先与在手势识别装置11中成为识别对象的各手势相对应。
控制部2d中,作为动作状态,具有执行状态和登记状态这2个不同的动作状态。
在动作状态为执行状态的情况下,控制部2d使针对从手势识别结果获取部2a获取到的手势识别结果的处理、与针对从语音识别结果获取部2b获取到的语音识别结果的处理彼此独立地进行。
具体而言,在从手势识别结果获取部2a获取到手势识别结果的情况下,控制部2d参照存储部2c,将与该手势识别结果所示的手势相对应的功能信息输出至HMI控制部3。另一方面,在从语音识别结果获取部2b获取到语音识别结果的情况下,控制部2d将该语音识别结果所示的功能信息输出至HMI控制部3。
此外,在动作状态为登记状态的情况下,控制部2d使用从手势识别结果获取部2a获取到的手势识别结果、与从语音识别结果获取部2b获取到的语音识别结果,将手势与功能信息对应起来登记在存储部2c中。另外,在该登记处理时,在某些功能信息已经与各手势相对应的情况下,进行覆盖登记。
具体而言,在动作状态切换为登记状态的情况下,控制部2d尝试获取手势识别结果和语音识别结果,直到完成手势识别结果和语音识别结果两者的获取、或经过后述的可登记时间。然后,在获取到手势识别结果和语音识别结果两者的情况下,控制部2d将手势识别结果所示的手势、与语音识别结果所示的功能信息对应起来登记在存储部2c中。之后,控制部2d将动作状态向执行状态切换。
在控制部2d中,预先设定有乘客能登记手势与功能信息之间的对应关系的时间即可登记时间。控制部2d在动作状态从执行状态切换为登记状态后经过了可登记时间的情况下,放弃所获取到的手势识别结果或语音识别结果,并将动作状态从登记状态向执行状态切换。另外,可登记时间可以设为能由乘客进行变更。
实施方式1中,设控制部2d的默认的动作状态为执行状态。若乘客操作指示输入部14来指示将动作状态从执行状态向登记状态切换,则表示该指示的操作信号经由HMI控制部3输出至控制部2d,控制部2d的动作状态向登记状态切换。
接着,使用图3A和图3B对手势操作装置2的硬件结构例进行说明。
手势操作装置2的存储部2c由像后述的存储器102那样的各种存储装置构成。
手势操作装置2的手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各功能由处理电路实现。该处理电路可以是专用的硬件,也可以是执行存储器中所存储的程序的CPU(Central Processing Unit:中央处理单元)。CPU也被称为中央处理装置、处理装置、运算装置、微处理器、微机、处理器或DSP(Digital Signal Processor:数字信号处理器)。
图3A是示出用专用的硬件即处理电路101来实现手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能的情况下的硬件结构例的图。处理电路101例如相当于单一电路、复合电路、程序化的处理器、并联程序化处理器、ASIC(ApplicationSpecific Integrated Circuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)或它们的组合。手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能可以组合单独的处理电路101来实现,也可以用1个处理电路101来实现各部分的功能。
图3B是示出由执行存储于存储器102的程序的CPU103来实现手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能时的硬件结构例的图。该情况下,手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能由软件、固件、或者软件和固件的组合来实现。软件及固件以程序的形式来表述,并储存于存储器102。CPU103通过读取并执行存储于存储器102的程序,从而实现手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能。即,手势操作装置2具有用于存储程序等的存储器102,该程序最终执行后述的图4A、图4B和图5的流程图所示的步骤ST1~ST28。此外,也可以说这些程序是使计算机执行手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的步骤或方法的程序。这里,存储器102例如相当于RAM(Random AccessMemory:随机存取存储器)、ROM(Read Only Memory:只读存储器)、闪存、EPROM(ErasableProgrammable ROM:可擦可编程只读存储器)、或EEPROM(Electrically ErasableProgrammable ROM:电可擦可编程只读存储器)等非易失性或易失性的半导体存储器、或磁盘、软盘、光盘、压缩光盘、迷你光盘或DVD(Digital Versatile Disc:数字通用光盘)等盘状的记录介质等。
另外,对于手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能,可以用专用的硬件来实现一部分,并用软件或固件来实现一部分。例如,对于手势识别结果获取部2a和语音识别结果获取部2b,可以用作为专用硬件的处理电路来实现其功能,对于控制部2d,可以由处理电路读取存储在存储器中的程序并执行来实现其功能。
由此,处理电路可以通过硬件、软件、固件或它们的组合,来实现上述手势识别结果获取部2a、语音识别结果获取部2b和控制部2d的各部分的功能。
另外,对于HMI控制部3、显示控制部4、语音输出控制部5、导航控制部6、音频控制部7、手势识别装置11和语音识别装置13,也与手势操作装置2同样地,能由图3A所示的处理电路101或图3B所示的存储器102和CPU103来实现。
接着,使用图4A、图4B和图5所示的流程图来说明如上述那样构成的手势操作装置2的动作。首先,使用图4A和图4B所示的流程图来说明控制部2d的动作状态为执行状态的情况下的动作。
图4A的流程图示出如下情况下的动作:乘客发话,语音识别结果获取部2b获取语音识别结果并输出至控制部2d。
控制部2d获取语音识别结果获取部2b所输出的语音识别结果(步骤ST1)。
接着,控制部2d将所获取到的语音识别结果所示的功能信息输出至HMI控制部3(步骤ST2)。
例如,若乘客说“打开空调”,则语音识别装置13将表示“空调打开”这一功能信息的语音识别结果输出至手势操作装置2。接着,语音识别结果获取部2b获取该语音识别结果并输出至控制部2d。控制部2d将该语音识别结果所示的功能信息输出至HMI控制部3。HMI控制部3根据控制部2d所输出的功能信息“空调打开”,对空调17输出指示启动的指示信号。空调17接收该指示信号,并开始启动。
图4B的流程图示出如下情况下的动作:乘客作出手势,手势识别结果获取部2a获取手势识别结果并输出至控制部2d。
控制部2d获取手势识别结果获取部2a所输出的手势识别结果(步骤ST11)。
接着,控制部2d参照存储部2c,获取与该手势识别结果所示的手势相对应的功能信息(步骤ST12)。
接着,控制部2d将所获取到的功能信息输出至HMI控制部3(步骤ST13)。
例如,若乘客使左手从右向左移动,则手势识别装置11将表示“使左手从右向左移动”这一手势的手势识别结果输出至手势识别结果获取部2a。接着,手势识别结果获取部2a将所获取到的手势识别结果输出至控制部2d。控制部2d参照存储部2c,获取与该手势识别结果所示的手势“使左手从右向左移动”相对应的功能信息。在图2的示例的情况下,控制部2d获取“空调打开”。控制部2d将所获取到的功能信息输出至HMI控制部3。HMI控制部3根据控制部2d所输出的功能信息“空调打开”,对空调17输出指示启动的指示信号。空调17接收该指示信号,并开始启动。
图5的流程图示出控制部2d的动作状态为登记状态的情况下的动作。即,图5中示出了如下情况下的动作:根据来自乘客的指示,控制部2d的动作状态从执行状态切换为了登记状态。
首先,控制部2d对登记等待时间进行初始化,并开始测量登记等待时间(步骤ST21)。登记等待时间是指从控制部2d的动作状态从执行状态切换为登记状态时起的经过时间。
接着,控制部2d判定登记等待时间是否在可登记时间以下(步骤ST22)。
在登记等待时间超过可登记时间的情况下(步骤ST22;否),控制部2d将动作状态从登记状态切换为执行状态,并结束登记状态下的处理。
另一方面,在登记等待时间在可登记时间以下的情况下(步骤ST22;是),控制部2d并行获取语音识别结果和手势识别结果。
具体而言,控制部2d判定是否已获取到语音识别结果(步骤ST23)。在未获取到语音识别结果的情况下(步骤ST23;否),控制部2d尝试获取来自语音识别结果获取部2b的语音识别结果(步骤ST24),之后转移至步骤ST27的处理。
另一方面,在获取到语音识别结果的情况下(步骤ST23;是),控制部2d转移至步骤ST27的处理。
与步骤ST23、ST24的处理并行地,控制部2d判定是否已获取到手势识别结果(步骤ST25)。在未获取到手势识别结果的情况下(步骤ST25;否),控制部2d尝试获取来自手势识别结果获取部2a的手势识别结果(步骤ST26),之后转移至步骤ST27的处理。
另一方面,在获取到手势识别结果的情况下(步骤ST25;是),控制部2d转移至步骤ST27的处理。
接着,控制部2d判定是否已获取到语音识别结果和手势识别结果两者(步骤ST27)。在语音识别结果和手势识别结果中存在未获取到的识别结果的情况下(步骤ST27;否),控制部2d返回步骤ST22的处理。
另一方面,在已获取到语音识别结果和手势识别结果两者的情况下(步骤ST27;是),控制部2d将语音识别结果所示的功能信息与手势识别结果所示的手势对应起来登记在存储部2c中(步骤ST28)。
步骤ST28之后,与在步骤ST22中判定为登记等待时间超过了可登记时间的情况(步骤ST22;否)同样地,控制部2d将动作状态从登记状态切换为执行状态,并结束登记状态下的处理。
这里,以如下情况为例进行说明:乘客想要以能够通过“使左手从右向左移动”这一手势来启动收音机的方式来进行登记。
在将控制部2d的动作状态从执行状态切换为登记状态后,乘客在可登记时间内使左手从右向左移动,并说出“想听收音机”。
语音识别装置13将“想听收音机”这一发话语音作为对象来进行语音识别处理。然后,语音识别装置13将与乘客的发话意图即“启动收音机”相对应的功能信息、即表示“收音机打开”的语音识别结果输出至语音识别结果获取部2b。控制部2d经由语音识别结果获取部2b获取该语音识别结果(步骤ST23、ST24)。
此外,手势识别装置11分析从拍摄装置10获取到的拍摄图像,并将表示“使左手从右向左移动”这一手势的手势识别结果输出至手势识别结果获取部2a。控制部2d经由手势识别结果获取部2a获取该手势识别结果(步骤ST25、ST26)。
然后,例如,如图2所示,控制部2d将登记在存储部2c中的“使左手从右向左移动”这一手势所对应的功能信息从“空调打开”这一功能信息覆盖为“收音机打开”来登记。图6中示出登记在存储部2c中的覆盖后的手势与功能信息之间的对应关系。之后,控制部2d将动作状态从登记状态切换为执行状态,并结束登记状态下的处理。
由此,以后乘客可以通过使左手从右向左移动来启动收音机。
如上所述,实施方式1所涉及的手势操作装置2将手势识别结果所示的手势、与语音识别结果所示的功能信息即乘客的发话意图对应起来登记。
乘客能通过与手动操作不同的方式、即发话,来将手势的操作意图传达给手势操作装置2、即登记与手势对应的功能信息。因此,与通过手动操作将手势的操作意图传达给手势操作2的情况相比,乘客能以较少的时间和精力来进行登记。
此外,乘客能根据自己的喜好来决定手势与功能信息之间的对应关系,因此,能直观地利用基于手势的设备操作。
此外,通过使用从语音识别装置13获取到的语音识别结果的实施方式1所涉及的手势操作装置2,乘客能将复杂的意图作为手势的操作意图传达给手势操作装置2,并能将该复杂的意图即功能信息与该手势对应起来进行登记。
例如,乘客将手势操作装置2的动作状态切换成登记状态,在可登记时间内作出“使左手从右向左移动”这一手势,并说出“生成邮件“现在回家””,由此,乘客能通过1次发话将“显示邮件生成画面”这一功能和“在邮件文本中输入“现在回家””这多个功能与该手势对应起来进行登记。
即使乘客知道利用手动操作来生成邮件的方法,为了显示邮件生成画面,也需要进行多个手动操作,并在此基础上对邮件文本输入文字,因此,较花费时间和精力。与此相对,实施方式1所涉及的手势操作装置2使用从语音识别装置13获取到的语音识别结果,因此,乘客能利用1次发话对1个手势登记多个功能。由此,与利用手动操作来生成现在回家这一邮件的情况相比,用户仅通过直观的手势操作就能生成该邮件,邮件生成所花费的时间和精力较少。
另外,手势操作装置2除了将功能信息与乘客的手势对应起来登记,还自动对与该手势成对的手势登记与该功能信息成对的功能信息。
该情况下,存储部2c中预先存储有与在手势识别装置11中成为识别对象的每个手势成对的手势,以使得控制部2d能进行参照。此外,存储部2c中也预先存储有与每个功能信息成对的功能信息。
然后,在与所获取到的手势识别结果所示的第1手势相对应地将所获取到的语音识别结果所示的第1功能信息登记在存储部2c中时,控制部2d确定与第1手势成对的第2功能信息、以及与第1手势成对的第2手势。
接着,控制部2d用所确定出的第2功能信息覆盖在存储部2c中与第2手势相对应的功能信息来进行登记。
例如,在乘客将“收音机打开”这一功能信息与“使左手从右向左移动”这一手势对应起来登记的情况下,控制部2d自动将与该功能信息成对的“收音机关闭”这一功能信息和与该手势成对的“使左手从左向右移动”这一手势对应起来登记。
此外,上述内容中,设为即使手势操作装置2的动作状态为执行状态,也能从语音识别装置13获取语音识别结果。此时,HMI控制部3经由手势操作装置2获取功能信息。然而,也可以设为在手势操作装置2的动作状态为执行状态下,不从语音识别装置13获取语音识别结果。该情况下,HMI控制部3直接从语音识别装置13获取语音识别结果,并识别该语音识别结果所示的功能信息即可。另外,图1中,省略了HMI控制部3直接从语音识别装置13获取语音识别结果的情况下所需的连接线的记载。
具体而言,在动作状态为执行状态的情况下,控制部2d指示语音识别结果获取部2b不从语音识别装置13获取语音识别结果。此外,HMI控制部3进行自身的控制切换,以使得直接从语音识别装置13获取语音识别结果。然后,在动作状态切换为登记状态的情况下,控制部2d指示语音识别结果获取部2b直接从语音识别装置13获取语音识别结果。此外,HMI控制部3进行自身的控制切换,以使得经由手势操作装置2获取功能信息。
此外,上述手势操作装置2中设有可登记时间,若在该时间内,则即使手势与发话在不同的时刻进行,也能将手势与功能信息对应起来进行登记。然而,也可以设为仅在手势与发话大致同时进行的情况下,将手势与功能信息对应起来进行登记。此外,在设有可登记时间的情况下,可以对手势和发话的顺序设置规则,也可以与手势和发话的顺序无关。
此外,在动作状态为登记状态的情况下,控制部2进行控制,以使得在显示装置15中显示手势识别装置11所能识别的手势的种类。具有而言,预先将手势识别装置11所能识别的手势的图像信息存储于存储部2c,并在动作状态切换为登记状态时,由控制部2d将该图像信息输出至HMI控制部3。
由此,即使乘客不清楚登记中所能使用的手势,也无需查阅手册等,便利性较好。
此外,手势与功能信息的对应关系也可以针对每个个人来登记。该情况下,例如,手势识别装置11或语音识别装置13起到作为对个人进行认证的个人认证装置的功能。手势识别装置11能使用从拍摄装置10获取到的拍摄图像,并通过脸部认证等来对个人进行认证。此外,语音识别装置13能使用从麦克风12获取到的发话语音,并通过声纹认证等来对个人进行认证。个人认证装置将表示所认证出的个人的认证结果输出至手势操作装置2。
手势操作装置2如图7所示,具有获取认证结果的认证结果获取部2e,认证结果获取部2e将获取到的认证结果输出至控制部2d。
在登记状态下获取到手势识别结果和语音识别结果的情况下,控制部2d使用认证结果,针对每个个人将该手势识别结果所示的手势与该语音识别结果所示的功能信息对应起来进行登记。由此,例如,“使左手从右向左移动”这一手势所对应的功能信息在用户A的情况下成为“收音机打开”,在用户B的情况下成为“空调打开”。
然后,在执行状态下获取到手势识别结果的情况下,控制部2d以认证结果所示的个人为对象,来确定与该手势识别结果所示的手势相对应的功能信息。由此,例如,在用户A作出“使左手从右向左移动”这一手势的情况下,收音机启动,在用户B作出相同手势的情况下,空调启动。
由此,通过针对每个个人来登记手势与功能信息之间的对应关系,从而便利性得以提高。
此外,对如下情况进行了说明:上述手势操作装置2搭载于车辆、且为了操作车辆内的设备而使用手势操作装置2。然而,手势操作装置2并不限于操作车辆内的设备而使用,也可以用于操作各种设备而使用。例如,也可以为了在住宅内利用手势来操作电气产品而使用手势操作装置2。该情况下的手势操作装置2等的用户并不局限于车辆的乘客。
实施方式2﹒
实施方式2中,对在拍摄装置10的拍摄范围内有可能存在多个人物的情况下的方式进行说明。该情况下,手势操作装置2在登记状态下以发话了的人物的手势为对象进行处理。即,例如,在车辆内位于副驾驶座的乘客考虑想要将手势与功能信息对应起来登记,并进行了发话,该情况下,手势操作装置2将位于副驾驶座的乘客的手势使用在登记的处理中。由此,可防止如下情况:在位于副驾驶座的乘客作出手势前位于驾驶座的乘客作出了手势等,从而导致进行与位于副驾驶座的乘客的意图不同的登记。
图8是示出实施方式2所涉及的手势操作装置2及其周边结构的框图。实施方式2中,也以手势操作装置2搭载于车辆的情况为例进行说明。另外,对具有与实施方式1中已说明的结构相同或相当的功能的结构标注相同的符号,并适当省略或简化其说明。
拍摄装置10例如是设置于仪表盘的中央部分、并具有包含驾驶座和副驾驶座以作为拍摄范围的视角的摄像头。拍摄装置10除了将所生成的拍摄图像输出至手势识别装置11以外,还将其输出至发话者确定装置18。
手势识别装置11分析从拍摄装置10获取到的拍摄图像,并识别位于驾驶座的乘客的手势和位于副驾驶座的乘客的手势。然后,手势识别装置11生成表示所识别出的手势、与作出该手势的人物之间的对应关系的手势识别结果,并将其输出至手势操作装置2。
发话者确定装置18分析从拍摄装置10获取到的拍摄图像,来确定是位于驾驶座的乘客发话、还是位于副驾驶座的乘客发话。使用了拍摄图像的发话者的确定方法可以使用基于嘴巴的开闭动作来确定的方法等公知的技术,省略说明。发话者确定装置18生成表示所确定出的发话者的确定结果,并输出至手势操作装置2。
确定结果获取部2f从发话者确定装置18获取确定结果,并输出至控制部2d。
另外,发话者确定装置18及确定结果获取部2f可以用图3A所示的处理电路101、或图3B所示的存储器102和CPU103来实现。
发话者的确定根据控制部2d的指示来进行。即,若在登记状态下从语音识别结果获取部2b获取语音识别结果,则控制部2d对确定结果获取部2f发出指示,以从发话者确定装置18获取确定结果。于是,确定结果获取部2f对发话者确定装置18指示输出确定结果。
发话者确定装置18使用未图示的存储部来保持相当于过去设定时间的拍摄图像,并接收来自确定结果获取部2f的指示,来确定发话者。
若从确定结果获取部2f获取确定结果,则控制部2d使用该确定结果和从手势识别结果获取部2a获取到的手势识别结果,来识别发话者的手势。然后,控制部2d将发话者的手势、与从语音识别结果获取部2b获取到的语音识别结果所示的功能信息对应起来登记在存储部2c中。例如,在确定结果表示位于驾驶座的乘客为发话者的情况下,控制部2d将手势识别结果所示的位于驾驶座的乘客的手势、与语音识别结果所示的功能信息对应起来登记在储存部2c中。
由此,控制部2d使用手势识别结果和确定结果,来将发话者的手势与语音识别结果获取部2b所获取到的语音识别结果所示的功能信息恰当地对应起来进行登记。
如上所述,即使在识别出多个人的手势的情况下,实施方式2所涉及的手势操作装置2也能将发话者的手势与语音识别结果所示的功能信息对应起来进行登记。因此,实施方式2所涉及的手势操作装置2具有与实施方式1同样的效果,并且对于发话者来说,能防止登记不想要的手势。
另外,上述内容中,将拍摄装置10的拍摄范围设为包含驾驶座和副驾驶座来进行了说明,但也可以是还包含后座那样的更广的范围。
另外,本发明申请可以在其发明的范围内对各实施方式进行自由组合,或对各实施方式的任意构成要素进行变形、或省略各实施方式中的任意的构成要素。
工业上的实用性
如上所述,与通过手动操作来登记的情况相比,本发明所涉及的手势操作装置能以较少的时间和精力来登记手势与功能信息之间的对应关系,因此,例如适合作为搭载于车辆、并用于操作车辆内的设备的装置来使用。
标号说明
1 HMI单元,
2 手势操作装置,
2a 手势识别结果获取部,
2b 语音识别结果获取部,
2c 存储部,
2d 控制部,
2e 认证结果获取部,
2f 确定结果获取部,
3 HMI控制部,
4 显示控制部,
5 语音输出控制部,
6 导航控制部,
7 音频控制部,
10 拍摄装置,
11 手势识别装置,
12 麦克风,
13 语音识别装置,
14 指示输入部,
15 显示装置,
16 扬声器,
17 空调,
18 发话者确定装置,
101 处理电路,
102 存储器,
103 CPU。

Claims (7)

1.一种手势操作装置,输出表示分配给所识别出的手势的功能的功能信息,其特征在于,包括:
手势识别结果获取部,该手势识别结果获取部获取表示所识别出的手势的手势识别结果;
语音识别结果获取部,该语音识别结果获取部获取对发话语音进行语音识别且表示与发话意图相对应的功能信息的语音识别结果;以及
控制部,该控制部将由所述手势识别结果获取部获取到的手势识别结果所示的手势、与由所述语音识别结果获取部获取到的语音识别结果所示的功能信息对应起来进行登记。
2.如权利要求1所述的手势操作装置,其特征在于,
作为动作状态,所述控制部具有登记状态和执行状态,
在动作状态为登记状态的情况下,所述控制部将所述手势识别结果获取部所获取到的手势识别结果所示的手势、与所述语音识别结果获取部所获取到的语音识别结果所示的功能信息对应起来进行登记,在动作状态为执行状态的情况下,所述控制部输出与所述手势识别结果获取部所获取到的手势识别结果所示的手势相对应的功能信息。
3.如权利要求1所述的手势操作装置,其特征在于,
若将第1手势与第1功能信息对应起来进行登记,则所述控制部将与该第1功能信息成对的第2功能信息和与该第1手势成对的第2手势对应起来进行登记。
4.如权利要求2所述的手势操作装置,其特征在于,
所述控制部将在动作状态成为登记状态后在可登记时间内由所述手势识别结果获取部获取到手势识别结果所示的手势、与动作状态成为登记状态后在所述可登记时间内由所述语音识别结果获取部获取到的语音识别结果所示的功能信息对应起来进行登记。
5.如权利要求1所述的手势操作装置,其特征在于,
具备认证结果获取部,该认证结果获取部获取表示所认证出的个人的认证结果,
所述控制部使用所述认证结果获取部所获取到的认证结果,针对每个个人,将由所述手势识别结果获取部获取到的手势识别结果所示的手势、与由所述语音识别结果获取部获取到的语音识别结果所示的功能信息对应起来进行登记。
6.如权利要求1所述的手势操作装置,其特征在于,
具备确定结果获取部,该确定结果获取部获取表示所确定出的发话者的确定结果,
所述手势识别结果获取部获取表示所识别出的手势与作出该手势的人物之间的对应关系的手势识别结果,
所述控制部使用该手势识别结果和所述确定结果获取部所获取到的确定结果,将发话者的手势与由所述语音识别结果获取部获取到的语音识别结果所示的功能信息对应起来进行登记。
7.一种手势操作方法,是输出表示分配给所识别出的手势的功能的功能信息的手势操作装置的手势操作方法,其特征在于,包括:
手势识别结果获取步骤,在该手势识别结果获取步骤中,手势识别结果获取部获取表示所识别出的手势的手势识别结果;
语音识别结果获取步骤,在该语音识别结果获取步骤中,语音识别结果获取部获取对发话语音进行语音识别且表示与发话意图相对应的功能信息的语音识别结果;以及
控制步骤,在该控制步骤中,控制部将利用所述手势识别结果获取步骤获取到的手势识别结果所示的手势、与利用所述语音识别结果获取步骤获取到的语音识别结果所示的功能信息对应起来进行登记。
CN201780092131.9A 2017-06-21 2017-06-21 手势操作装置及手势操作方法 Withdrawn CN110770693A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/022847 WO2018235191A1 (ja) 2017-06-21 2017-06-21 ジェスチャ操作装置及びジェスチャ操作方法

Publications (1)

Publication Number Publication Date
CN110770693A true CN110770693A (zh) 2020-02-07

Family

ID=64736972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780092131.9A Withdrawn CN110770693A (zh) 2017-06-21 2017-06-21 手势操作装置及手势操作方法

Country Status (5)

Country Link
US (1) US20200201442A1 (zh)
JP (1) JP6584731B2 (zh)
CN (1) CN110770693A (zh)
DE (1) DE112017007546T5 (zh)
WO (1) WO2018235191A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467604A (zh) * 2020-05-28 2021-10-01 海信集团有限公司 一种数据交互方法以及相关设备
WO2023169123A1 (zh) * 2022-03-11 2023-09-14 深圳地平线机器人科技有限公司 设备控制方法和装置、电子设备和介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11010179B2 (en) 2018-04-20 2021-05-18 Facebook, Inc. Aggregating semantic information for improved understanding of users
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11314976B2 (en) 2019-03-15 2022-04-26 Lg Electronics Inc. Vehicle control device
JP7254345B2 (ja) * 2019-08-26 2023-04-10 株式会社Agama-X 情報処理装置及びプログラム
JP2021060655A (ja) * 2019-10-03 2021-04-15 株式会社リクルート 順番管理システム、順番管理端末、およびプログラム
US20230056993A1 (en) * 2020-02-28 2023-02-23 Nec Corporation Authentication terminal, entrance/exit management system, entrance/exit management method, and program
KR102472956B1 (ko) * 2020-08-25 2022-12-01 네이버 주식회사 사용자 인증 방법 및 시스템

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233452A (ja) * 2002-02-13 2003-08-22 Ricoh Co Ltd ジェスチャコマンド入力装置
US20050210417A1 (en) * 2004-03-23 2005-09-22 Marvit David L User definable gestures for motion controlled handheld devices
CN102067067A (zh) * 2008-06-24 2011-05-18 韩国电子通信研究院 参考姿势数据的注册方法、移动终端的驱动方法及其移动终端
US20110246952A1 (en) * 2010-03-31 2011-10-06 Hon Hai Precision Industry Co., Ltd. Electronic device capable of defining touch gestures and method thereof
US20110314427A1 (en) * 2010-06-18 2011-12-22 Samsung Electronics Co., Ltd. Personalization using custom gestures
US20130227418A1 (en) * 2012-02-27 2013-08-29 Marco De Sa Customizable gestures for mobile devices
CN103294190A (zh) * 2012-02-06 2013-09-11 福特全球技术公司 通过手势识别与车辆控制交互的识别系统
US20140304665A1 (en) * 2013-04-05 2014-10-09 Leap Motion, Inc. Customized gesture interpretation
US20160170710A1 (en) * 2014-12-12 2016-06-16 Samsung Electronics Co., Ltd. Method and apparatus for processing voice input

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2993872B2 (ja) * 1995-10-16 1999-12-27 株式会社エイ・ティ・アール音声翻訳通信研究所 マルチモーダル情報統合解析装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
JP3837505B2 (ja) * 2002-05-20 2006-10-25 独立行政法人産業技術総合研究所 ジェスチャ認識による制御装置のジェスチャの登録方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233452A (ja) * 2002-02-13 2003-08-22 Ricoh Co Ltd ジェスチャコマンド入力装置
US20050210417A1 (en) * 2004-03-23 2005-09-22 Marvit David L User definable gestures for motion controlled handheld devices
CN102067067A (zh) * 2008-06-24 2011-05-18 韩国电子通信研究院 参考姿势数据的注册方法、移动终端的驱动方法及其移动终端
US20110246952A1 (en) * 2010-03-31 2011-10-06 Hon Hai Precision Industry Co., Ltd. Electronic device capable of defining touch gestures and method thereof
US20110314427A1 (en) * 2010-06-18 2011-12-22 Samsung Electronics Co., Ltd. Personalization using custom gestures
CN103294190A (zh) * 2012-02-06 2013-09-11 福特全球技术公司 通过手势识别与车辆控制交互的识别系统
US20130227418A1 (en) * 2012-02-27 2013-08-29 Marco De Sa Customizable gestures for mobile devices
US20140304665A1 (en) * 2013-04-05 2014-10-09 Leap Motion, Inc. Customized gesture interpretation
US20160170710A1 (en) * 2014-12-12 2016-06-16 Samsung Electronics Co., Ltd. Method and apparatus for processing voice input

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467604A (zh) * 2020-05-28 2021-10-01 海信集团有限公司 一种数据交互方法以及相关设备
WO2023169123A1 (zh) * 2022-03-11 2023-09-14 深圳地平线机器人科技有限公司 设备控制方法和装置、电子设备和介质

Also Published As

Publication number Publication date
JP6584731B2 (ja) 2019-10-02
US20200201442A1 (en) 2020-06-25
JPWO2018235191A1 (ja) 2019-11-07
DE112017007546T5 (de) 2020-02-20
WO2018235191A1 (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6584731B2 (ja) ジェスチャ操作装置及びジェスチャ操作方法
US7702130B2 (en) User interface apparatus using hand gesture recognition and method thereof
CN110166896B (zh) 语音提供方法、语音提供系统和服务器
US20090055178A1 (en) System and method of controlling personalized settings in a vehicle
JP7166780B2 (ja) 車両制御装置、車両制御方法及びプログラム
CN110402584B (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
US11551679B2 (en) Multimodal dialog in a motor vehicle
JP2017090612A (ja) 音声認識制御システム
KR20200057516A (ko) 음성명령 처리 시스템 및 방법
JP2017090613A (ja) 音声認識制御システム
CN113486760A (zh) 对象说话检测方法及装置、电子设备和存储介质
JP2017090614A (ja) 音声認識制御システム
JP2024505968A (ja) 乗員発話検出方法及び装置、電子機器並びに記憶媒体
JP2016133378A (ja) カーナビゲーション装置
JP6385624B2 (ja) 車載情報処理装置、車載装置および車載情報処理方法
JP7003268B2 (ja) 車載情報装置および携帯端末との連携方法
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP2001296891A (ja) 音声認識方法および装置
WO2022137534A1 (ja) 車載用音声認識装置及び車載用音声認識方法
JP2000276187A (ja) 音声認識方法及び音声認識装置
JP2004301875A (ja) 音声認識装置
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
WO2019175960A1 (ja) 音声処理装置および音声処理方法
WO2024070080A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111801249A (zh) 操作限制控制装置以及操作限制控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200207

WW01 Invention patent application withdrawn after publication