JP6584731B2

JP6584731B2 - ジェスチャ操作装置及びジェスチャ操作方法

Info

Publication number: JP6584731B2
Application number: JP2019524773A
Authority: JP
Inventors: 尚嘉竹裏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2019-10-02
Anticipated expiration: 2037-06-21
Also published as: CN110770693A; US20200201442A1; DE112017007546T5; WO2018235191A1; JPWO2018235191A1

Description

この発明は、認識されたジェスチャに割り当てられた機能を示す機能情報を出力するジェスチャ操作装置に関するものである。

近年、ジェスチャによって種々の機器を操作するためのジェスチャ操作装置が普及し始めている。ジェスチャ操作装置は、ユーザのジェスチャを認識し、認識されたジェスチャに割り当てられた機能を示す機能情報を、当該機能を実行する機器に出力する。このようなジェスチャ操作装置を用いると、例えば、ユーザが手を左から右に移動させることで、オーディオ機器で再生中の曲の次の曲が再生される。ジェスチャ操作装置には、このように、ジェスチャと実行される機能との対応付けが登録されている。ユーザは、自分の好みに合わせ、ジェスチャと実行される機能との対応付けを新たに登録したい場合がある。
例えば特許文献１には、複数のセグメント領域を有するタッチパネルと、タッチパネルの隣接する複数のセグメント領域からなる登録パターンに機能を対応付けて記憶するパターン記憶手段と、ユーザが連続的に接触した複数のセグメント領域を入力パターンとして認識するパターン認識手段とを備え、登録パターンと一致しない入力パターンに、ユーザの操作入力に応じて選択された機能を対応付けて記憶する携帯端末装置が記載されている。

特許第５７６７１０６号公報

上記特許文献１の携帯端末装置では、ユーザは、新たな登録パターンと対応付けて記憶させたい機能を、タッチパネル等を用いた手動操作によって選択する必要がある。このため、手動操作によって当該機能を選択する手順が分からない場合等、登録作業に手間及び時間が掛かってしまっていた。

この発明は、上記のような課題を解決するためになされたもので、ジェスチャと当該ジェスチャによって実行される機能を示す機能情報との対応付けを、手動操作によって登録する場合に比べて少ない手間及び時間で登録することができるジェスチャ操作装置を得ることを目的とする。

この発明に係るジェスチャ操作装置は、認識されたジェスチャに割り当てられた機能を示す機能情報を出力するものであって、認識されたジェスチャが示されたジェスチャ認識結果を取得するジェスチャ認識結果取得部と、発話音声が音声認識されて発話意図に対応する機能情報が示された音声認識結果を取得する音声認識結果取得部と、ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録する制御部とを備えることを特徴とするものである。

この発明によれば、ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録することにより、ジェスチャと機能情報との対応付けを、手動操作によって登録する場合に比べて少ない手間及び時間で登録することができる。

実施の形態１に係るジェスチャ操作装置及びその周辺の構成を示すブロック図である。ジェスチャと機能情報との対応付けの一例を示す図である。図３Ａ及び図３Ｂは、実施の形態１に係るジェスチャ操作装置のハードウェア構成例を示す図である。図４Ａ及び図４Ｂは、実行状態におけるジェスチャ操作装置の動作を示すフローチャートである。登録状態におけるジェスチャ操作装置の動作を示すフローチャートである。ジェスチャと機能情報との対応付けの一例を示す図である。実施の形態１に係るジェスチャ操作装置の変形例を示すブロック図である。実施の形態２に係るジェスチャ操作装置及びその周辺の構成を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係るジェスチャ操作装置２及びその周辺の構成を示すブロック図である。ジェスチャ操作装置２は、ＨＭＩ（ＨｕｍａｎＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ）ユニット１に内蔵されている。実施の形態１では、ＨＭＩユニット１が車両に搭載されている場合を例に説明する。

ＨＭＩユニット１は、エアコン１７等の車載機器を制御する機能、ナビゲーション機能、及び、オーディオ機能等を有する。
具体的には、ＨＭＩユニット１は、音声認識装置１３による搭乗者の発話音声の認識結果である音声認識結果、ジェスチャ認識装置１１による搭乗者のジェスチャの認識結果であるジェスチャ認識結果、及び、指示入力部１４が出力する操作信号等を取得する。そして、ＨＭＩユニット１は、取得した音声認識結果、ジェスチャ認識結果及び操作信号に応じた処理を実行する。例えば、ＨＭＩユニット１は、エアコン１７に対して空調の開始を指示する指示信号を出力するなど、車載機器に対して指示信号を出力する。また、例えば、ＨＭＩユニット１は、表示装置１５に対して、画像の表示を指示する指示信号を出力する。また、例えば、ＨＭＩユニット１は、スピーカ１６に対して、音声の出力を指示する指示信号を出力する。
なお、「搭乗者」とは、ＨＭＩユニット１が搭載された車両に搭乗している者である。「搭乗者」は、ジェスチャ操作装置２等のユーザでもある。また、「搭乗者のジェスチャ」とは、搭乗者が当該車両内で行ったジェスチャであり、「搭乗者の発話音声」とは、搭乗者が当該車両内で発話した音声である。

次に、ジェスチャ操作装置２の概要について説明する。
ジェスチャ操作装置２は、動作状態として実行状態と登録状態という２つの異なる動作状態を有している。実行状態は、搭乗者のジェスチャに応じた機能を実行する制御が行われる状態である。登録状態は、搭乗者のジェスチャに対して機能を割り当てる制御が行われる状態である。実施の形態１では、デフォルトの動作状態は実行状態であり、搭乗者が指示入力部１４を操作して動作状態の切替を指示することで、実行状態から登録状態へと動作状態が切替わる。

動作状態が実行状態である場合、ジェスチャ操作装置２は、ジェスチャ認識装置１１から搭乗者のジェスチャの認識結果であるジェスチャ認識結果を取得し、当該ジェスチャに割り当てられている機能が実行されるよう制御する。

一方、動作状態が登録状態である場合、ジェスチャ操作装置２は、ジェスチャ認識装置１１から搭乗者のジェスチャの認識結果であるジェスチャ認識結果を取得することに加えて、音声認識装置１３から搭乗者の発話音声の認識結果である音声認識結果を取得する。そして、ジェスチャ操作装置２は、当該ジェスチャに音声認識結果に基づいた機能を割り当てる。すなわち、動作状態が登録状態である場合、ジェスチャ操作装置２は、搭乗者が発話によってジェスチャ操作装置２に対して伝えた意図を、搭乗者のジェスチャの操作意図として登録する。

搭乗者は、ジェスチャ操作装置２が登録状態のときに、ジェスチャを行うとともに、当該ジェスチャの操作意図を伝える発話を行うことによって、ジェスチャ操作装置２に、当該ジェスチャに対する機能の割り当てを行わせることができる。このため、搭乗者がジェスチャに割り当てたい機能を指示入力部１４を操作して選択し登録する場合に比べて、少ない手間及び時間での登録が可能となる。また、搭乗者は、ジェスチャに割り当てる機能を自分の好みで自由に決めることができるので、ジェスチャによる機器操作を直感的に利用することができるようになる。

次に、図１に示す各構成について詳細に説明する。
ジェスチャ認識装置１１は、車両内を撮像する赤外線カメラ等である撮像装置１０から、撮像画像を取得する。ジェスチャ認識装置１１は、当該撮像画像を解析して、搭乗者のジェスチャを認識し、当該ジェスチャが示されたジェスチャ認識結果を作成してジェスチャ操作装置２へ出力する。ジェスチャ認識装置１１が認識の対象とするジェスチャとしては、１種類以上のジェスチャが予め定められており、ジェスチャ認識装置１１は、当該予め定められたジェスチャの情報を有しているものとする。したがって、ジェスチャ認識装置１１が認識する搭乗者のジェスチャは、予め定められたジェスチャのうち、いずれの種類のジェスチャであるかが特定されたジェスチャであり、この点は、ジェスチャ認識結果が示すジェスチャについても同様である。なお、撮像画像の解析によるジェスチャの認識は、公知の技術であるので、説明を省略する。

音声認識装置１３は、車両内に設けられたマイク１２から、搭乗者の発話音声を取得する。音声認識装置１３は、当該発話音声を対象として音声認識処理を行い、音声認識結果を作成してジェスチャ操作装置２へ出力する。音声認識結果には、少なくとも搭乗者の発話意図に対応する機能情報が示されている。機能情報とは、ＨＭＩユニット１及びエアコン１７等により実行される機能を示す情報である。音声認識結果には、他にも、搭乗者の発話音声をそのままテキスト化した情報等が示されていてもよい。なお、発話音声から発話意図を認識し、搭乗者が実行を望む機能を特定することは、公知の技術であるので、説明を省略する。

指示入力部１４は、搭乗者の手動操作を受け付け、当該手動操作に対応する操作信号をＨＭＩ制御部３へ出力する。指示入力部１４は、ボタン等のハードウェアキーであってもよいし、タッチパネル等のソフトウェアキーであってもよい。また、指示入力部１４は、ハンドル等に一体的に設置されていてもよいし、装置として単体のものであってもよい。

ＨＭＩ制御部３は、指示入力部１４が出力した操作信号又はジェスチャ操作装置２が出力した機能情報に応じて、エアコン１７等の車載機器、又は、後述のナビゲーション制御部６及びオーディオ制御部７等に対して指示信号を出力する。また、ＨＭＩ制御部３は、ナビゲーション制御部６が出力した画像情報を後述の表示制御部４へ出力する。また、ＨＭＩ制御部３は、ナビゲーション制御部６又はオーディオ制御部７が出力した音声情報を後述の音声出力制御部５へ出力する。

表示制御部４は、表示装置１５に対して、ＨＭＩ制御部３が出力した画像情報が示す画像を表示するよう指示信号を出力する。表示装置１５は、例えば、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）又はＣＩＤ（ＣｅｎｔｅｒＩｎｆｏｒｍａｔｉｏｎＤｉｓｐｌａｙ）である。

音声出力制御部５は、スピーカ１６に対して、ＨＭＩ制御部３が出力した音声情報が示す音声を出力するよう指示信号を出力する。

ナビゲーション制御部６は、ＨＭＩ制御部３が出力した指示信号に応じた周知のナビゲーション処理を行う。例えば、ナビゲーション制御部６は、地図データを用いて施設検索又は住所検索等の種々の検索を行う。また、ナビゲーション制御部６は、搭乗者が指示入力部１４を用いて設定した目的地について、当該目的地までの経路を計算する。ナビゲーション制御部６は、処理結果を画像情報又は音声情報として作成し、ＨＭＩ制御部３へ出力する。

オーディオ制御部７は、ＨＭＩ制御部３が出力した指示信号に応じた音声処理を行う。例えば、オーディオ制御部７は、不図示の記憶部に記憶された楽曲の再生処理を行って音声情報を作成し、ＨＭＩ制御部３へ出力する。また、オーディオ制御部７は、ラジオ放送波を処理してラジオの音声情報を作成し、ＨＭＩ制御部３へ出力する。

ジェスチャ操作装置２は、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ、記憶部２ｃ及び制御部２ｄを有する。
ジェスチャ認識結果取得部２ａは、ジェスチャ認識装置１１から、認識されたジェスチャが示されたジェスチャ認識結果を取得する。ジェスチャ認識結果取得部２ａは、取得したジェスチャ認識結果を制御部２ｄへ出力する。

音声認識結果取得部２ｂは、音声認識装置１３から、発話音声が音声認識されて発話意図に対応する機能情報が示された音声認識結果を取得する。音声認識結果取得部２ｂは、取得した音声認識結果を制御部２ｄへ出力する。

記憶部２ｃは、ジェスチャ認識装置１１において認識対象となっているジェスチャと、当該ジェスチャにより実行される機能を示す機能情報とを、対応付けて記憶している。例えば、図２に示すように、「左手を右から左へ移動」というジェスチャに、エアコン１７を起動する「エアコンＯＮ」という機能情報が対応付けられている。なお、ジェスチャ認識装置１１において認識対象となっている各ジェスチャには、初期設定として、予め何らかの機能情報が対応付けられている。

制御部２ｄは、動作状態として実行状態と登録状態という２つの異なる動作状態を有している。
制御部２ｄは、動作状態が実行状態である場合、ジェスチャ認識結果取得部２ａから取得したジェスチャ認識結果に対する処理と、音声認識結果取得部２ｂから取得した音声認識結果に対する処理とを、互いに独立して行う。

具体的には、制御部２ｄは、ジェスチャ認識結果取得部２ａからジェスチャ認識結果を取得した場合、記憶部２ｃを参照して当該ジェスチャ認識結果に示されるジェスチャに対応付けられた機能情報を、ＨＭＩ制御部３へ出力する。一方、制御部２ｄは、音声認識結果取得部２ｂから音声認識結果を取得した場合、当該音声認識結果に示される機能情報をＨＭＩ制御部３へ出力する。

また、制御部２ｄは、動作状態が登録状態である場合、ジェスチャ認識結果取得部２ａから取得したジェスチャ認識結果と、音声認識結果取得部２ｂから取得した音声認識結果とを用いて、ジェスチャと機能情報とを対応付けて記憶部２ｃに登録する。なお、この登録処理の際に、既に各ジェスチャに予め何らかの機能情報が対応付けられていた場合は、上書きでの登録が行われる。

具体的には、制御部２ｄは、動作状態が登録状態に切替わった場合、ジェスチャ認識結果及び音声認識結果の両方の取得を完了するか、または、後述の登録可能時間が経過するまで、ジェスチャ認識結果及び音声認識結果の取得を試みる。そして、制御部２ｄは、ジェスチャ認識結果及び音声認識結果の両方を取得した場合、ジェスチャ認識結果に示されるジェスチャと、音声認識結果に示される機能情報とを対応付けて記憶部２ｃに登録する。その後、制御部２ｄは、動作状態が実行状態へ切替わる。

制御部２ｄにおいては、搭乗者がジェスチャと機能情報との対応付けを登録できる時間である登録可能時間が、予め設定されている。制御部２ｄは、動作状態が実行状態から登録状態へ切替わってから登録可能時間が経過した場合、取得したジェスチャ認識結果又は音声認識結果を破棄して、動作状態を登録状態から実行状態へ切替える。なお、登録可能時間は、搭乗者による変更が可能なものとされていてもよい。
実施の形態１では、制御部２ｄのデフォルトの動作状態は実行状態であるとする。搭乗者が、指示入力部１４を操作して実行状態から登録状態へと動作状態の切替を指示すると、当該指示を示す操作信号がＨＭＩ制御部３を介して制御部２ｄへ出力され、制御部２ｄの動作状態が登録状態へと切替わる。

次に、ジェスチャ操作装置２のハードウェア構成例について、図３Ａ及び図３Ｂを用いて説明する。
ジェスチャ操作装置２の記憶部２ｃは、後述のメモリ１０２のような、各種の記憶装置で構成される。
ジェスチャ操作装置２のジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各機能は、処理回路により実現される。当該処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。ＣＰＵは、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）とも呼ばれる。

図３Ａは、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能を、専用のハードウェアである処理回路１０１で実現した場合のハードウェア構成例を示す図である。処理回路１０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、若しくはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はこれらを組み合わせたものが該当する。ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能を別個の処理回路１０１を組み合わせて実現してもよいし、各部の機能を１つの処理回路１０１で実現してもよい。

図３Ｂは、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能を、メモリ１０２に格納されるプログラムを実行するＣＰＵ１０３で実現した場合のハードウェア構成例を示す図である。この場合、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組合せにより実現される。ソフトウェア及びファームウェアはプログラムとして記述され、メモリ１０２に格納される。ＣＰＵ１０３は、メモリ１０２に格納されたプログラムを読み出して実行することにより、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能を実現する。すなわち、ジェスチャ操作装置２は、後述する図４Ａ、図４Ｂ及び図５のフローチャートで示すステップＳＴ１〜ＳＴ２８が結果的に実行されることになるプログラム等を格納するためのメモリ１０２を有する。また、これらのプログラムは、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の手順又は方法をコンピュータに実行させるものであるとも言える。ここで、メモリ１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、若しくはＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）等の、不揮発性若しくは揮発性の半導体メモリ、又は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、若しくはＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のディスク状の記録媒体等が該当する。

なお、ジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。例えば、ジェスチャ認識結果取得部２ａ及び音声認識結果取得部２ｂについては専用のハードウェアとしての処理回路でその機能を実現し、制御部２ｄについては処理回路がメモリに格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組合せによって、上記のジェスチャ認識結果取得部２ａ、音声認識結果取得部２ｂ及び制御部２ｄの各部の機能を実現することができる。

なお、ＨＭＩ制御部３、表示制御部４、音声出力制御部５、ナビゲーション制御部６、オーディオ制御部７、ジェスチャ認識装置１１及び音声認識装置１３についても、ジェスチャ操作装置２と同様に、図３Ａに示す処理回路１０１、又は、図３Ｂに示すメモリ１０２及びＣＰＵ１０３で実現することができる。

次に、上記のように構成されたジェスチャ操作装置２の動作について、図４Ａ、図４Ｂ及び図５に示すフローチャートを用いて説明する。まず、制御部２ｄの動作状態が実行状態である場合の動作を、図４Ａ及び図４Ｂに示すフローチャートを用いて説明する。

図４Ａのフローチャートは、搭乗者が発話し、音声認識結果取得部２ｂが音声認識結果を取得して制御部２ｄへ出力した場合の動作を示すものである。
制御部２ｄは、音声認識結果取得部２ｂが出力した音声認識結果を取得する（ステップＳＴ１）。
続いて、制御部２ｄは、取得した音声認識結果に示される機能情報をＨＭＩ制御部３へ出力する（ステップＳＴ２）。

例えば、搭乗者が「エアコンをつけて」と発話すると、音声認識装置１３が「エアコンＯＮ」という機能情報を示す音声認識結果を、ジェスチャ操作装置２へ出力する。続いて、音声認識結果取得部２ｂは、当該音声認識結果を取得し制御部２ｄへ出力する。制御部２ｄは、当該音声認識結果に示される機能情報をＨＭＩ制御部３へ出力する。ＨＭＩ制御部３は、制御部２ｄが出力した機能情報「エアコンＯＮ」に応じて、エアコン１７に対して起動を指示する指示信号を出力する。当該指示信号を受けて、エアコン１７は起動を始める。

図４Ｂのフローチャートは、搭乗者がジェスチャを行い、ジェスチャ認識結果取得部２ａがジェスチャ認識結果を取得して制御部２ｄへ出力した場合の動作を示すものである。
制御部２ｄは、ジェスチャ認識結果取得部２ａが出力したジェスチャ認識結果を取得する（ステップＳＴ１１）。
続いて、制御部２ｄは、記憶部２ｃを参照して当該ジェスチャ認識結果に示されるジェスチャに対応付けられた機能情報を取得する（ステップＳＴ１２）。
続いて、制御部２ｄは、取得した機能情報をＨＭＩ制御部３へ出力する（ステップＳＴ１３）。

例えば、搭乗者が左手を右から左へ移動させると、ジェスチャ認識装置１１が「左手を右から左へ移動」というジェスチャが示されたジェスチャ認識結果を、ジェスチャ認識結果取得部２ａへ出力する。続いて、ジェスチャ認識結果取得部２ａは、取得したジェスチャ認識結果を制御部２ｄへ出力する。制御部２ｄは、記憶部２ｃを参照して、当該ジェスチャ認識結果に示されるジェスチャ「左手を右から左へ移動」に対応付けられている機能情報を取得する。図２の例であれば、制御部２ｄは、「エアコンＯＮ」を取得する。制御部２ｄは、取得した機能情報をＨＭＩ制御部３へ出力する。ＨＭＩ制御部３は、制御部２ｄが出力した機能情報「エアコンＯＮ」に応じて、エアコン１７に対して起動を指示する指示信号を出力する。当該指示信号を受けて、エアコン１７は起動を始める。

図５のフローチャートは、制御部２ｄの動作状態が登録状態である場合の動作を示すものである。すなわち、図５では、搭乗者からの指示により制御部２ｄの動作状態が実行状態から登録状態へと切替えられた場合の動作が示されている。

まず、制御部２ｄは、登録待ち時間を初期化して、登録待ち時間の計測を開始する（ステップＳＴ２１）。登録待ち時間とは、制御部２ｄの動作状態が実行状態から登録状態へと切替わったときからの経過時間のことである。

続いて、制御部２ｄは、登録待ち時間が登録可能時間以下であるかを判定する（ステップＳＴ２２）。
登録待ち時間が登録可能時間を超えている場合（ステップＳＴ２２；ＮＯ）、制御部２ｄは、動作状態を登録状態から実行状態へと切替えて、登録状態での処理を終了する。

一方、登録待ち時間が登録可能時間以下である場合（ステップＳＴ２２；ＹＥＳ）、制御部２ｄは、音声認識結果及びジェスチャ認識結果の取得を並列して行う。
具体的には、制御部２ｄは、音声認識結果を取得済みであるかを判定する（ステップＳＴ２３）。制御部２ｄは、音声認識結果を取得していない場合（ステップＳＴ２３；ＮＯ）、音声認識結果取得部２ｂからの音声認識結果の取得を試みて（ステップＳＴ２４）、その後にステップＳＴ２７の処理へ移る。
一方、制御部２ｄは、音声認識結果を取得している場合（ステップＳＴ２３；ＹＥＳ）、ステップＳＴ２７の処理へ移る。

ステップＳＴ２３，ＳＴ２４の処理と並列して、制御部２ｄは、ジェスチャ認識結果を取得済みであるかを判定する（ステップＳＴ２５）。制御部２ｄは、ジェスチャ認識結果を取得していない場合（ステップＳＴ２５；ＮＯ）、ジェスチャ認識結果取得部２ａからのジェスチャ認識結果の取得を試みて（ステップＳＴ２６）、その後にステップＳＴ２７の処理へ移る。
一方、制御部２ｄは、ジェスチャ認識結果を取得している場合（ステップＳＴ２５；ＹＥＳ）、ステップＳＴ２７の処理へ移る。

続いて、制御部２ｄは、音声認識結果及びジェスチャ認識結果の両方を取得済みであるかを判定する（ステップＳＴ２７）。制御部２ｄは、音声認識結果及びジェスチャ認識結果のうち取得していない認識結果がある場合（ステップＳＴ２７；ＮＯ）、ステップＳＴ２２の処理へ戻る。
一方、制御部２ｄは、音声認識結果及びジェスチャ認識結果の両方を取得済みの場合（ステップＳＴ２７；ＹＥＳ）、音声認識結果に示される機能情報とジェスチャ認識結果に示されるジェスチャとを対応付けて記憶部２ｃに登録する（ステップＳＴ２８）。

ステップＳＴ２８の後、制御部２ｄは、ステップＳＴ２２で登録待ち時間が登録可能時間を超えていると判定された場合（ステップＳＴ２２；ＮＯ）と同様に、動作状態を登録状態から実行状態へと切替えて、登録状態での処理を終了する。

ここで、搭乗者が「左手を右から左へ移動」というジェスチャによってラジオを起動することが可能なように登録を行いたいと考えた場合を例に説明する。
搭乗者は、制御部２ｄの動作状態を実行状態から登録状態へと切替えた後、登録可能時間内に、左手を右から左へ移動させるとともに、「ラジオを聴きたい」と発話する。

音声認識装置１３は、「ラジオを聴きたい」という発話音声を対象として音声認識処理を行う。そして、音声認識装置１３は、搭乗者の発話意図である「ラジオを起動」に対応する機能情報である「ラジオＯＮ」が示された音声認識結果を、音声認識結果取得部２ｂへ出力する。制御部２ｄは、当該音声認識結果を音声認識結果取得部２ｂを介して取得する（ステップＳＴ２３，ＳＴ２４）。

また、ジェスチャ認識装置１１は、撮像装置１０から取得した撮像画像を解析し、「左手を右から左へ移動」というジェスチャが示されたジェスチャ認識結果を、ジェスチャ認識結果取得部２ａへ出力する。制御部２ｄは、当該ジェスチャ認識結果をジェスチャ認識結果取得部２ａを介して取得する（ステップＳＴ２５，ＳＴ２６）。

そして、制御部２ｄは、例えば図２に示すように記憶部２ｃに登録されている「左手を右から左へ移動」というジェスチャに対応する機能情報を、「エアコンＯＮ」という機能情報から「ラジオＯＮ」という機能情報に上書きして登録する。記憶部２ｃに登録されている上書き後のジェスチャと機能情報との対応付けを、図６に示す。その後、制御部２ｄは、動作状態を登録状態から実行状態へと切替えて、登録状態での処理を終了する。
これにより、以後、搭乗者は、左手を右から左へ移動させることにより、ラジオを起動させることができるようになる。

以上のように、実施の形態１に係るジェスチャ操作装置２は、ジェスチャ認識結果に示されるジェスチャと、音声認識結果に示される機能情報、すなわち搭乗者の発話意図とを対応付けて登録する。
搭乗者は、手動操作とは異なる手段である発話によって、ジェスチャの操作意図をジェスチャ操作装置２に伝えること、すなわちジェスチャに対応する機能情報を登録することができる。したがって、搭乗者は、手動操作によってジェスチャの操作意図をジェスチャ操作装置２に伝える場合に比べて少ない手間及び時間での登録が可能となる。
また、搭乗者は、自分の好みでジェスチャと機能情報との対応付けを決めることができるので、ジェスチャによる機器操作を直感的に利用することができるようになる。

また、音声認識装置１３から取得した音声認識結果を用いる実施の形態１に係るジェスチャ操作装置２によって、搭乗者は、複雑な意図をジェスチャの操作意図としてジェスチャ操作装置２に伝えて、当該ジェスチャに当該複雑な意図すなわち機能情報を対応付けて登録することができる。

例えば、搭乗者がジェスチャ操作装置２の動作状態を登録状態に切替えて、登録可能時間内に「左手を右から左へ移動」というジェスチャを行うとともに、「メールを作成“今から帰る”」と発話することによって、搭乗者は、当該ジェスチャに対して、「メール作成画面を表示する」という機能と「メール本文に“今から帰る”と入力する」という複数の機能を１回の発話で対応付けて登録することができる。

搭乗者は、手動操作によるメールの作成方法を知っていたとしても、メール作成画面を表示するために複数の手動操作を行った上で、メール本文に文字を入力する必要があるので、手間及び時間が掛かる。これに対し、実施の形態１に係るジェスチャ操作装置２は、音声認識装置１３から取得した音声認識結果を用いるようにしているので、搭乗者は、１つのジェスチャに対して１回の発話で複数の機能を登録することができる。これにより、手動操作によって今から帰るというメールを作成する場合に比べて、ユーザは、直感的なジェスチャ操作だけで当該メールを作成できるので、メールの作成に掛かる手間及び時間が少なくなる。

なお、ジェスチャ操作装置２は、搭乗者のジェスチャに機能情報を対応付けて登録することに加え、当該ジェスチャと対になるジェスチャに、当該機能情報と対になる機能情報を自動的に登録するようにしてもよい。
この場合、制御部２ｄが参照可能なように、記憶部２ｃには、ジェスチャ認識装置１１において認識対象となっているジェスチャごとに対となるジェスチャが予め記憶されている。また、記憶部２ｃには、機能情報ごとに対となる機能情報についても予め記憶されている。

そして、制御部２ｄは、取得したジェスチャ認識結果に示される第１ジェスチャに対応付けて、取得した音声認識結果に示される第１機能情報を記憶部２ｃに登録する際、第１ジェスチャと対になる第２機能情報、及び、第１ジェスチャと対になる第２ジェスチャを特定する。
続いて、制御部２ｄは、記憶部２ｃにおいて第２ジェスチャに対応付けられている機能情報を、特定した第２機能情報で上書きして登録する。

例えば、搭乗者によって「左手を右から左に移動」というジェスチャに「ラジオＯＮ」という機能情報が対応付けて登録された場合、制御部２ｄは、当該ジェスチャと対になる「左手を左から右に移動」というジェスチャに当該機能情報と対になる「ラジオＯＦＦ」という機能情報を自動的に対応付けて登録する。

また、上記では、ジェスチャ操作装置２は、動作状態が実行状態であっても、音声認識装置１３から音声認識結果を取得するものとした。このとき、ＨＭＩ制御部３は、ジェスチャ操作装置２を介して機能情報を取得する。しかしながら、ジェスチャ操作装置２は、動作状態が実行状態である場合、音声認識装置１３から音声認識結果を取得しないようにしてもよい。この場合、ＨＭＩ制御部３は、音声認識装置１３から直接に音声認識結果を取得して、当該音声認識結果に示される機能情報を認識するようにすればよい。なお、図１では、ＨＭＩ制御部３が、音声認識装置１３から直接に音声認識結果を取得する場合に必要な接続線の記載は省略している。
具体的には、制御部２ｄは、動作状態が実行状態である場合、音声認識結果取得部２ｂに対して、音声認識装置１３から音声認識結果を取得しないよう指示する。また、ＨＭＩ制御部３は、音声認識装置１３から直接に音声認識結果を取得するように自身の制御の切り替えを行う。そして、制御部２ｄは、動作状態が登録状態へと切替わった場合に、音声認識結果取得部２ｂに対して、音声認識装置１３から音声認識結果を取得するよう指示する。また、ＨＭＩ制御部３は、ジェスチャ操作装置２を介して機能情報を取得するように自身の制御の切り替えを行う。

また、上記のジェスチャ操作装置２では、登録可能時間が設けられ、当該時間内であれば、ジェスチャと発話が異なるタイミングで行われても、ジェスチャと機能情報とが対応付けられて登録がなされるものとした。しかしながら、ジェスチャと発話がほぼ同時に行われた場合に限って、ジェスチャと機能情報とが対応付けられて登録がなされるようにしてもよい。また、登録可能時間が設けられている場合、ジェスチャと発話の順序に決まりが設けられていてもよいし、ジェスチャと発話の順序は問われないようにしてもよい。

また、ジェスチャ操作装置２は、動作状態が登録状態の場合、表示装置１５にジェスチャ認識装置１１が認識可能なジェスチャの種類が表示されるように制御してもよい。具体的には、ジェスチャ認識装置１１が認識可能なジェスチャの画像情報を記憶部２ｃに記憶しておき、動作状態が登録状態に切替わったとき、制御部２ｄが当該画像情報をＨＭＩ制御部３へ出力するようにする。
このようにすると、搭乗者は、登録に使えるジェスチャについて分からなくてもマニュアル等を調べる必要が無くなり、利便性がよい。

また、ジェスチャと機能情報との対応付けは、個人ごとに登録されるようにしてもよい。この場合、例えば、ジェスチャ認識装置１１又は音声認識装置１３が、個人を認証する個人認証装置として機能する。ジェスチャ認識装置１１は、撮像装置１０から取得した撮像画像を用いて、顔認証等により個人を認証することができる。また、音声認識装置１３は、マイク１２から取得した発話音声を用いて、声紋認証等により個人を認証することができる。個人認証装置は、認証した個人を示した認証結果をジェスチャ操作装置２へ出力する。
ジェスチャ操作装置２は、図７に示すように、認証結果を取得する認証結果取得部２ｅを有し、認証結果取得部２ｅは、取得した認証結果を制御部２ｄへ出力する。

制御部２ｄは、登録状態においてジェスチャ認識結果と音声認識結果とを取得した場合、認証結果を用いて、個人ごとに、当該ジェスチャ認識結果に示されるジェスチャと当該音声認識結果に示される機能情報とを対応付けて登録する。これにより、例えば、「左手を右から左に移動」というジェスチャに対応付けられた機能情報が、ユーザＡの場合は「ラジオＯＮ」、ユーザＢの場合は「エアコンＯＮ」というようになる。
そして、制御部２ｄは、実行状態においてジェスチャ認識結果を取得した場合、認証結果に示される個人を対象に、当該ジェスチャ認識結果に示されるジェスチャに対応付けられた機能情報を特定する。これにより、例えば、ユーザＡが「左手を右から左に移動」というジェスチャを行った場合、ラジオが起動し、ユーザＢが同じジェスチャを行った場合、エアコンが起動することになる。
このように、個人ごとにジェスチャと機能情報との対応付けが登録されることで、利便性が向上する。

また、上記のジェスチャ操作装置２は車両に搭載されており、車両内の機器を操作するためにジェスチャ操作装置２が使われるものとして説明した。しかしながら、ジェスチャ操作装置２は、車両内の機器に限らず、様々な機器を操作するためのものとして使うことができる。例えば、住宅内で電化製品をジェスチャで操作するために、ジェスチャ操作装置２が使われてもよい。この場合のジェスチャ操作装置２等のユーザは、車両の搭乗者に限られない。

実施の形態２．
実施の形態２では、撮像装置１０の撮像範囲に複数の人物が存在し得る場合の形態について説明する。この場合、ジェスチャ操作装置２は、登録状態において、発話した人物のジェスチャを対象に処理を行う。つまり、例えば車両内において、助手席にいる搭乗者が、ジェスチャと機能情報とを対応付けて登録したいと考え発話をした場合、ジェスチャ操作装置２は、助手席にいる搭乗者のジェスチャを登録の処理に用いる。これにより、助手席にいる搭乗者がジェスチャを行う前に運転席にいる搭乗者がジェスチャをしてしまうなどして、助手席にいる搭乗者が意図したものとは異なる登録が行われてしまうことを防ぐ。

図８は、実施の形態２に係るジェスチャ操作装置２及びその周辺の構成を示すブロック図である。実施の形態２でも、ジェスチャ操作装置２が車両に搭載されている場合を例に説明する。また、実施の形態１で既に説明した構成と同一又は相当する機能を有する構成については、同一の符号を付し、適宜その説明を省略又は簡略化する。

撮像装置１０は、例えばダッシュボードの中央部分に設置され、運転席及び助手席を撮像範囲として含む画角のカメラである。撮像装置１０は、作成した撮像画像をジェスチャ認識装置１１に出力するのに加え、発話者特定装置１８へも出力する。

ジェスチャ認識装置１１は、撮像装置１０から取得した撮像画像を解析して、運転席にいる搭乗者のジェスチャ及び助手席にいる搭乗者のジェスチャを認識する。そして、ジェスチャ認識装置１１は、認識したジェスチャと、当該ジェスチャを行った人物との対応が示されたジェスチャ認識結果を作成して、ジェスチャ操作装置２へ出力する。

発話者特定装置１８は、撮像装置１０から取得した撮像画像を解析して、運転席にいる搭乗者と助手席にいる搭乗者のどちらが発話したかを特定する。撮像画像を用いた発話者の特定方法は、口の開閉の動きに基づいて特定する方法など、公知の技術を用いればよく、説明を省略する。発話者特定装置１８は、特定された発話者が示された特定結果を作成して、ジェスチャ操作装置２へ出力する。
特定結果取得部２ｆは、発話者特定装置１８から特定結果を取得し、制御部２ｄへ出力する。
なお、発話者特定装置１８及び特定結果取得部２ｆは、図３Ａに示す処理回路１０１、又は、図３Ｂに示すメモリ１０２及びＣＰＵ１０３で実現することができる。

発話者の特定は、制御部２ｄの指示によって行われる。つまり、制御部２ｄは、登録状態において、音声認識結果取得部２ｂから音声認識結果を取得すると、特定結果取得部２ｆに対して発話者特定装置１８から特定結果を取得するよう指示する。すると、特定結果取得部２ｆは、発話者特定装置１８に対して特定結果の出力を指示する。
発話者特定装置１８は、過去設定時間分の撮像画像を不図示の記憶部を用いて保持しており、特定結果取得部２ｆからの指示を受けて、発話者を特定する。

制御部２ｄは、特定結果取得部２ｆから特定結果を取得すると、当該特定結果とジェスチャ認識結果取得部２ａから取得したジェスチャ認識結果とを用いて、発話者のジェスチャを認識する。そして、制御部２ｄは、発話者のジェスチャと、音声認識結果取得部２ｂから取得した音声認識結果に示される機能情報とを対応付けて記憶部２ｃに登録する。例えば、特定結果が運転席にいる搭乗者を発話者として示している場合、制御部２ｄは、ジェスチャ認識結果に示される運転席にいる搭乗者のジェスチャと、音声認識結果に示される機能情報とを対応付けて記憶部２ｃに登録する。
このように、制御部２ｄは、ジェスチャ認識結果と特定結果とを用いることで、音声認識結果取得部２ｂにより取得された音声認識結果に示される機能情報に対して、発話者のジェスチャを適切に対応付けて登録する。

以上のように、実施の形態２に係るジェスチャ操作装置２は、複数人のジェスチャが認識される場合でも、発話者のジェスチャを、音声認識結果に示される機能情報と対応付けて登録する。したがって、実施の形態２に係るジェスチャ操作装置２は、実施の形態１と同様の効果を有するとともに、発話者にとって意図せぬジェスチャが登録されてしまうのを防ぐことができる。

なお、上記では、撮像装置１０の撮像範囲が、運転席及び助手席を含むものとして説明したが、更に後部座席も含むような、より広範囲のものであってもよい。

また、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態においての任意の構成要素の省略が可能である。

以上のように、この発明に係るジェスチャ操作装置は、ジェスチャと機能情報との対応付けを、手動操作によって登録する場合に比べて少ない手間及び時間で登録することができるので、例えば車両に搭載して、車両内の機器を操作するための装置として用いるのに適している。

１ＨＭＩユニット、２ジェスチャ操作装置、２ａジェスチャ認識結果取得部、２ｂ音声認識結果取得部、２ｃ記憶部、２ｄ制御部、２ｅ認証結果取得部、２ｆ特定結果取得部、３ＨＭＩ制御部、４表示制御部、５音声出力制御部、６ナビゲーション制御部、７オーディオ制御部、１０撮像装置、１１ジェスチャ認識装置、１２マイク、１３音声認識装置、１４指示入力部、１５表示装置、１６スピーカ、１７エアコン、１８発話者特定装置、１０１処理回路、１０２メモリ、１０３ＣＰＵ。

Claims

認識されたジェスチャに割り当てられた機能を示す機能情報を出力するジェスチャ操作装置であって、
認識されたジェスチャが示されたジェスチャ認識結果を取得するジェスチャ認識結果取得部と、
発話音声が音声認識されて発話意図に対応する機能情報が示された音声認識結果を取得する音声認識結果取得部と、
前記ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、前記音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録する制御部とを備えることを特徴とするジェスチャ操作装置。
前記制御部は、動作状態として登録状態と実行状態とを有し、
前記制御部は、動作状態が登録状態である場合は、前記ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、前記音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録し、動作状態が実行状態である場合は、前記ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャに対応付けられた機能情報を出力することを特徴とする請求項１記載のジェスチャ操作装置。
前記制御部は、第１ジェスチャと第１機能情報とを対応付けて登録すると、当該第１機能情報と対になる第２機能情報を、当該第１ジェスチャと対になる第２ジェスチャと対応付けて登録することを特徴とする請求項１記載のジェスチャ操作装置。
前記制御部は、動作状態が登録状態になってから登録可能時間内に前記ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、動作状態が登録状態になってから前記登録可能時間内に前記音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録することを特徴とする請求項２記載のジェスチャ操作装置。
認証された個人が示された認証結果を取得する認証結果取得部を備え、
前記制御部は、前記認証結果取得部により取得された認証結果を用いて、個人ごとに、前記ジェスチャ認識結果取得部により取得されたジェスチャ認識結果に示されるジェスチャと、前記音声認識結果取得部により取得された音声認識結果に示される機能情報とを対応付けて登録することを特徴とする請求項１記載のジェスチャ操作装置。
特定された発話者が示された特定結果を取得する特定結果取得部を備え、
前記ジェスチャ認識結果取得部は、認識されたジェスチャと当該ジェスチャを行った人物との対応が示されたジェスチャ認識結果を取得し、
前記制御部は、当該ジェスチャ認識結果と前記特定結果取得部により取得された特定結果とを用いて、前記音声認識結果取得部により取得された音声認識結果に示される機能情報に対して、発話者のジェスチャを対応付けて登録することを特徴とする請求項１記載のジェスチャ操作装置。
認識されたジェスチャに割り当てられた機能を示す機能情報を出力するジェスチャ操作装置のジェスチャ操作方法であって、
ジェスチャ認識結果取得部が、認識されたジェスチャが示されたジェスチャ認識結果を取得するジェスチャ認識結果取得ステップと、
音声認識結果取得部が、発話音声が音声認識されて発話意図に対応する機能情報が示された音声認識結果を取得する音声認識結果取得ステップと、
制御部が、前記ジェスチャ認識結果取得ステップにより取得されたジェスチャ認識結果に示されるジェスチャと、前記音声認識結果取得ステップにより取得された音声認識結果に示される機能情報とを対応付けて登録する制御ステップとを備えることを特徴とするジェスチャ操作方法。