JP2011257943A

JP2011257943A - ジェスチャ操作入力装置

Info

Publication number: JP2011257943A
Application number: JP2010131250A
Authority: JP
Inventors: Hiroshi Uchiike; 寛内池
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-06-08
Filing date: 2010-06-08
Publication date: 2011-12-22

Abstract

【課題】音声やジェスチャを用いて操作が可能な機器において、日常会話や動作との区別のために、どちらか一方の入力を他方のトリガとして用いる場合に、ユーザがそれぞれの入力を行うタイミングを気にすること無く実行できるようにする。
【解決手段】発話開始のトリガにジェスチャを用いる場合、音声は録音・再生部５にて録音しておき、トリガジェスチャが認識されたら音声抽出部６からその旨を録音・再生部５に対して通知し、通知を受けた録音再生部５がトリガジェスチャ以前にさかのぼって音声を再生する。
【選択図】図１

Description

本発明は複数の入力手段を認識して処理するジェスチャ操作入力装置に関する。

ユーザの発話（音声）により機器の動作を制御する音声認識技術においては、ユーザの発話（音声）が単なる日常会話なのか、それとも機器に対する命令なのかを区別することが重要となる。日常会話との区別のために、例えばユーザがあらかじめ定められた特定の動きをした場合のみ音声認識を開始する技術が提案されている（特許文献１）。

また、ユーザのジェスチャにより機器の動作を制御するジェスチャ認識技術においても、ユーザの動作が単なる日常の仕草なのか、それとも機器に対する命令なのかを区別することが重要となる。単なる仕草との区別のために、例えばユーザがあらかじめ定められた特定の発話を行った場合のみジェスチャ認識を開始する技術も提案されている（特許文献２）。

特開２００９−６９２０２号公報特開２００３−３９３６５号公報

上記どちらの技術も、命令を伝達する入力手段に対して、日常会話や日常動作との区別のために、「これから命令を行う」ことを示すトリガとなる第二の入力手段を設けている。しかしながら第二の入力手段からトリガとなる発話やジェスチャが入力されたと認識され、第一の入力手段の入力を受け付けられるようになるには時間がかかる。ユーザがこの時間差を考慮せずに第二の入力と第一の入力を立て続けに行った場合、機器が第一の入力の先頭部分を取りこぼし、命令が正しく実行されない可能性があった。

また、第二の入力により第一の入力が受け付け可能になったことを画面表示などの手段でユーザに知らせる構成の場合、ユーザはこの表示が行われるまで第一の入力手段による命令動作を行わないように待たなければならないため、煩わしさがあった。

上記目的を達成するために、本発明のジェスチャ操作入力装置は、ジェスチャ及び音声による操作入力が可能なジェスチャ操作入力装置であって、ユーザによるジェスチャを撮影するカメラと、前記カメラで撮影されたジェスチャの種別を認識するジェスチャ認識部と、音声を取得するマイクと、前記マイクで取得した音声を周期的に録音し、再生することが可能な録音再生部と、前記録音再生部によって再生された音声の種別を認識する音声認識部と、前記認識部によって認識されたユーザのジェスチャの種類が、操作のための発話を行うことを示すジェスチャである場合、前記ジェスチャ認識部が前記ジェスチャの種別の認識を完了する前のタイミングから前記録音再生部で録音されていた音声を再生するよう前記録音再生部に指示する音声抽出部と、を有する。

以上説明したように、本発明によれば、ユーザが第一の入力と第二の入力の実行タイミングを意識すること無く実行でき、かつ日常動作あるいは会話と命令との区別を確実なものとすることができるので、利便性が向上する。

実施例１のブロック図実施例１の処理フロー実施例１のタイミングチャート実施例２のブロック図実施例２の処理フロー実施例２のタイミングチャート

以下、添付図面を参照して、本発明の実施例を説明する。

図１は本発明の実施の一形態を示したブロック図である。各ブロックはジェスチャ操作入力装置内部に設けられている。なお、ジェスチャ操作入力装置は、単体の装置であってもよいし、操作対象となる機器、例えばテレビに内蔵されていてもよい。カメラ１はユーザのジェスチャを撮影するためのカメラである。画像処理部２はカメラ１で撮影された画像の特徴量などを算出する。

ジェスチャ認識部３は算出された特徴量などからユーザが行った動作が、後述する「これから発話（命令）を行う」という意味を持った動作とマッチするかどうかを判断する。マイク４はユーザの発話（音声）を取得するためのものである。録音再生部５はマイク４から入力されたユーザの発話（音声）を録音し、再生する。

音声抽出部６はジェスチャ認識部３によって、後述する「これから発話（命令）を行う」という意味を持った種類の動作をユーザが行ったことを検出して、録音された音声の先頭を抽出するブロックである。音声認識部７は録音・再生部５にて再生された音声を受け取って特徴量を算出し、命令として登録されている発話群との特徴量の比較を行い、どのような命令が発話されたかを判定するブロックである。この発話群も音声認識部７内に蓄積されている。

次に本実施例の動作について図２（フローチャート）及び図３（タイミングチャート）に示したチャートを用いて説明する。

まず、ユーザが「これから発話（命令）を行う」という意味をもったジェスチャを行う（Ｓ１１、Ｔ１１）。ユーザのジェスチャをカメラ１で撮影し、撮影された画像の特徴量が画像処理部２で算出される。ジェスチャ認識部３においてあらかじめ記憶されている画像の特徴量と比較され、ユーザが正しくジェスチャを行っていた場合にはトリガジェスチャとして認識される（Ｓ１３）。特徴量とは、ユーザの体の部位が動いた距離や角度などが挙げられる。

このジェスチャはあらかじめ機器内に定められていても良いし、ユーザが好きなジェスチャを登録できても良い。ユーザがジェスチャを登録するには、あらかじめ所望の動作をカメラ１で撮影し、画像処理部２にてその動作の特徴量を算出し、ジェスチャ認識部３に記憶しておく必要がある。

ジェスチャが完了（Ｓ１２、Ｔ１２）してから、トリガジェスチャとして認識される（Ｓ１３、Ｔ１３）までには時間がかかる。これは画像の特徴量などの比較に時間がかかるためである。ユーザとしてはジェスチャを終えたらすぐに発話を開始（Ｓ２１、Ｔ１４）してしまう可能性が高いため、ジェスチャ認識を終えてから音声認識を開始したのでは、発話の先頭部分が失われてしまう可能性がある。そこでユーザの発話は録音・再生部５にて常に録音しておく。この録音方式としては、決められたサイズの記録領域に繰り返して録音する、ループ録音が考えられる。

ジェスチャ認識部３にてトリガジェスチャが行われたことを確認したら、音声抽出部６に対してその旨を通知する。通知を受け取った音声抽出部６は、録音・再生部５に録音されているユーザの発話を、トリガジェスチャ直前の発話開始時にさかのぼって再生するため、録音・再生部５に記録されている発話のチェックを開始する（Ｔ１５）。発話開始の検出は、トリガジェスチャを検出してからさかのぼって録音されている発話のチェックを行い、最初に検出される音量レベルが大きく下がったところを検出する方法などが考えられる。

発話開始時が検出できたら、録音・再生部５に対して音声抽出部６から再生指示を行い、発話が再生される（Ｓ３１）。

再生された音声は音声認識部７に送られ、音声認識部７にて特徴量の算出及び命令として登録されている発話群との特徴量の比較が行われ、命令として認識される（Ｓ３３）。音声の特徴量とは、音声をデジタル変換した際のパターンなどが挙げられる。

本発明では音声認識の方法そのものについては特に問わないが、例えば特開２０００−３３８９９５号公報に示されている方法などが利用できる。

図４は本発明の実施のもう一つの形態を示したブロック図である。録画・再生部８はカメラ１から入力されたユーザのジェスチャを録画・再生するブロックである。ジェスチャ抽出部９は、音声認識部７でユーザが、後述する「これからジェスチャ（命令）を行う」という意味をもった発話を行ったことを検出したことを受けて、録画されたジェスチャの先頭を抽出するブロックである。

次に本実施例の動作について図５（フローチャート）及び図６（タイミングチャート）に示したチャートを用いて説明する。

まず、ユーザが「これからジェスチャ（命令）を行う」という意味をもった発話を行う（Ｓ４１、Ｔ２１）。これをマイク４で取得し、取得された音声は音声認識部７において解析され、ユーザが正しく発話を行っていた場合にはトリガ発話として認識される（Ｓ４３、Ｔ２３）。

この音声はあらかじめ機器内に定められていても良いし、ユーザが好きな音声を登録できても良い。ユーザが音声を登録するには、あらかじめ所望の音声をマイク４で取得し、音声認識部７に記憶しておく必要がある。

発話が完了（Ｓ４２、Ｔ２２）してから、トリガ発話として認識される（Ｓ４３、Ｔ２３）までには時間がかかる。ユーザとしては発話を終えたらすぐにジェスチャを開始（Ｓ５１、Ｔ２４）してしまう可能性が高いため、発話認識を終えてからジェスチャ認識を開始したのでは、ジェスチャの先頭部分が失われてしまう可能性がある。

そこでユーザのジェスチャは録画・再生部８にて常に録画しておく。この録画方式としては、決められたサイズの記録領域に繰り返して録画する、ループ録画が考えられる。音声認識部７にてトリガ発話が行われたことを確認したら、ジェスチャ抽出部９に対してその旨を通知する。通知を受け取ったジェスチャ抽出部９は、録画・再生部８に録画されているユーザのジェスチャを、トリガ発話直前のジェスチャ開始時にさかのぼって再生するために、録画・再生部８に記録されているジェスチャのチェックを開始する（Ｔ２５）。

ジェスチャ開始の検出は、トリガ発話を検出してからさかのぼって録画されているジェスチャのチェックを行い、最初に検出されるユーザの動作の変化量が大きく下がったところを検出する方法などが考えられる。再生された映像は画像処理部２に送られ特徴量の算出が行われた後ジェスチャ認識部３に送られ、命令として登録されているジェスチャ群との特徴量の比較が行われ、命令として認識される（Ｓ６３）。

本発明ではジェスチャ認識の方法そのものについては問わないが、例えば特開平１０−３１５５１号公報に示されているような方法が利用できる。

以上、音声とジェスチャを組み合わせた場合の実施例について二つ述べたが、二つの入力手段の組み合わせは必ずしも音声とジェスチャでなくても構わない。

Claims

ジェスチャ及び音声による操作入力が可能なジェスチャ操作入力装置であって、
ユーザによるジェスチャを撮影するカメラと、
前記カメラで撮影されたジェスチャの種別を認識するジェスチャ認識部と、
音声を取得するマイクと、
前記マイクで取得した音声を周期的に録音し、再生することが可能な録音再生部と、
前記録音再生部によって再生された音声の種別を認識する音声認識部と、
前記認識部によって認識されたユーザのジェスチャの種類が、操作のための発話を行うことを示すジェスチャである場合、前記ジェスチャ認識部が前記ジェスチャの種別の認識を完了する前のタイミングから前記録音再生部で録音されていた音声を再生するよう前記録音再生部に指示する音声抽出部と、
を有することを特徴とするジェスチャ操作入力装置。