JP2015175983A

JP2015175983A - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP2015175983A
Application number: JP2014052360A
Authority: JP
Inventors: 佐藤　俊介; Shunsuke Sato; 俊介佐藤; 深田　俊明; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2015-10-05

Abstract

【課題】装置の利便性の低下を防ぎつつ、音声認識精度を向上させることを目的とする。
【解決手段】撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と、登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、始点及び終点のうち少なくとも一方が区間決定手段により決定された抽出区間の標本音声を登録コマンドとして記憶手段に登録する登録手段と、登録コマンドに基づいて、集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段とを有する。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法及びプログラムに関する。

従来、カメラ等の撮像装置において、装置から離れた位置でシャッター操作が可能な装置が既に実用化されている。このような装置においては、赤外線リモコンから送信される赤外線や、操作者による発話の音声をシャッターコマンドとして受け付けるものが知られている。
音声を用いた技術としては、シャッターコマンドとして利用する音声を予め登録しておき、登録音声との比較によりシャッターコマンドとしての音声を認識する技術が知られている。さらに、特許文献１には、シャッターコマンドの音声認識の際に、シャッターコマンドの発声タイミングを通知するためにジェスチャを利用する技術が開示されている。

特開２００７−１４２９５７号公報

しかしながら、シャッター操作にリモコンを用いることとした場合には、撮影者は、リモコンを携帯する必要があり、面倒であり、また紛失の可能性もある。
また、シャッター操作に音声を用いることとした場合には、音声登録時と実際のシャッターコマンドの発話時の周辺雑音の環境が著しく異なる可能性がある。さらに、登録音声は、撮影装置に内蔵されたマイク近くで発声されるのに対し、実際のシャッターコマンドは、撮影装置から離れた位置で発声される。このため、距離の違いに起因し、音声の歪みや反響等の効果に差が生じることがあり、誤認識の可能性が高くなる。
さらに、ジェスチャ検出を契機に音声認識を開始することとした場合には、撮影直前に被写体となっている撮影者がジェスチャを行う必要があり、不便である。

本発明はこのような問題点に鑑みなされたもので、装置の利便性の低下を防ぎつつ、音声認識精度を向上させることを目的とする。

そこで、本発明は、音声認識装置であって、撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、前記始点及び前記終点のうち少なくとも一方が前記区間決定手段により決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録手段と、前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段とを有する。

本発明によれば、装置の利便性の低下を防ぎつつ、音声認識精度を向上させることができる。

カメラ装置を示す図である。カメラ装置の外観図である。音声シャッターモードにおける処理を示すフローチャートである。音声認識処理を示すフローチャートである。標本音声登録処理を示すフローチャートである。音声認識処理を示すフローチャートである。第２の実施形態にかかる音声登録処理を示すフローチャートである。第３の実施形態にかかる音声登録処理を示すフローチャートである。第４の実施形態にかかる音声登録処理を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。

（第１の実施形態）
図１は、音声認識装置及び撮像装置の一例としてのカメラ装置を示す図である。カメラ装置は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ１０４と、操作部１０５と、表示部１０６と、写真撮像部１０７と、ジェスチャ撮像部１０８と、集音部１０９と、スピーカ１１０とを有している。
ＣＰＵ１０１は、カメラ装置の全体を総括的に制御する。ＲＯＭ１０２は、制御プログラム等を記憶する。ＲＡＭ１０３は、ＣＰＵ１０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１０４は、画像データや各種プログラム等を記憶する。操作部１０５は、ユーザによる各種操作を受け付ける。表示部１０６は、各種情報を表示する。
なお、後述するカメラ装置の機能や処理は、ＣＰＵ１０１がＲＯＭ１０２又はＨＤＤ１０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

写真撮像部１０７は、シャッター、レンズ、ミラー、感光素子、これらを駆動するモーター等を有している。写真撮像部１０７は、ＣＰＵ１０１の制御の下、写真の撮像や、絞りの変更等を行う。ジェスチャ撮像部１０８は、写真撮像部１０７と同様に、レンズ、感光素子等を有している。ジェスチャ撮像部１０８は、ジェスチャ認識のための動画像を撮像して、画像データの系列に変換する。
集音部１０９は、複数のマイクロホン、Ａ／Ｄコンバータ等を有している。集音部１０９は、カメラ装置外部の音声を集音し、音声データに変換する。集音部１０９はまた、複数のマイクロホンからの音声信号の位相差に基づいて、音源の方向を測定する。集音部１０９はさらに、特定の方向からの音を強調することができる。スピーカ１１０は、音声を出力する。

図２は、カメラ装置の外観図である。カメラ前面２１０には、写真撮像部１０７のレンズ２０１及びシャッターボタン２０２が設けられている。カメラ前面２１０にはまた、ジェスチャ撮像部１０８のレンズ２０３が設けられている。なお、他の例としては、写真撮像部１０７及びジェスチャ撮像部１０８のレンズは、共通であってもよい。さらに、写真撮像部１０７及びジェスチャ撮像部１０８のミラー等の内部構成も、共通であってもよい。
カメラ前面２１０には、マイクロホンアレイを構成すべく、集音部１０９の複数のマイクロホン２０４ａ〜２０４ｃが配置されている。カメラ前面２１０にはまた、発光ダイオード（ＬＥＤ）２０５ａ，２０５ｂが設けられている。ＬＥＤ２０５ａ，２０５ｂは、適宜点灯又は消灯することにより、カメラ装置の状態等をユーザに通知する。例えば、ＬＥＤ２０５ａは、後述する音声登録の状態の開始時に点灯し、終了時に消灯する。また、ＬＥＤ２０５ｂは、音声登録のエラーが発生した際に点灯する。

カメラ裏面２２０には、表示部１０６及び操作部１０５が設けられている。ユーザは、表示部１０６の表示内容に従って操作部１０５を操作することにより、動作モードの切り替えを行う。ここで、動作モードとしては、音声シャッターモードと、通常シャッターモードとがある。ここで、音声シャッターモードとは、シャッターコマンドの音声認識により、撮像を開始するモードである。通常シャッターモードとは、シャッターボタン２０２の押下により、撮像を開始するモードである。
カメラ装置は、動作モードを切り替えるための構成として、不図示の電気回路や操作部１０５としてのスイッチを有している。なお、スイッチは、接点式の開閉器に限らず、例えばタッチパネルに表示される仮想的なスイッチでもよい。このように、スイッチは、ユーザからのモード切替指示を受け付け可能なものであればよく、そのための具体的な構成は、実施形態に限定されるものではない。カメラの底部には、カメラ装置を三脚などの架台に設置するためのネジ穴２０９が設けられている。

次に、音声シャッターモードにおけるユーザの操作手順の概略を説明する。ユーザはまず音声シャッターモードに設定し、自身が被写体としての撮影が行われる撮影位置（カメラ装置の前）に移動する。なお、このときの撮影位置と撮影時の実際の位置とを一致させるのは、音声認識における音源位置を一致させるためのものであり、両者は音声認識精度が低下しない程度に一致すればよく、厳密に一致する必要はない。
撮影位置において、ユーザは、シャッターコマンドとして登録する登録コマンドを実際に発声する。これに対応し、カメラ装置は、登録コマンドの標本音声の登録を行う。なお、音声登録に先立ち、ユーザは、登録ジェスチャを行うこととする。これにより、カメラ装置は、登録対象となるシャッターコマンドの発声開始タイミングを特定することができる。ここで、登録ジェスチャは、事前に定義された一連の動作である。本実施形態においては、右手を左右に振る動作を登録ジェスチャとする。
なお、登録ジェスチャは、実施形態に限定されるものではない。他の例としては、登録ジェスチャは、足や首を動かす動作でも良く、目を瞑る、所定の数の指を立てるなどの動作でも良い。登録ジェスチャは、人間に限らず、物体の動作でもよく、例えば白黒の縞模様を示す二本の棒が、離れた状態から平行に合わさる動きを登録ジェスチャとしてもよい。

そして、ユーザは、登録コマンドとしてのシャッターコマンドの標本音声の登録後、実際のシャッタータイミングにおいて、シャッターコマンドを発声する。これに対応し、カメラ装置は、発声内容の音声認識を行い、シャッターコマンドが特定されると、撮像を行う。
このように、本実施形態にかかるカメラ装置は、ジェスチャを併用することにより、適切な発話内容を登録コマンドとして登録することができる。さらに、カメラ装置は、実際にシャッターコマンドが発声される環境において、発声された音声を登録コマンドとして登録する。したがって、カメラ装置は、標本音声との比較により、高精度に音声認識を行うことができる。なお、音声シャッターモードにおいて、ユーザは、上述の撮影手順の途中で処理を中断し、通常シャッターモードに切り替えることもできる。

図３は、カメラ装置による、音声シャッターモードにおける処理を示すフローチャートである。Ｓ３０１において、カメラ装置のＣＰＵ１０１は、ユーザによる操作部１０５の操作に応じて、動作モードを通常シャッターモードから音声シャッターモードに切り替える。次に、Ｓ３０２において、ＣＰＵ１０１は、集音部１０９に集音を指示する。これに対応し、集音部１０９は、ＣＰＵ１０１の制御の下、周辺の雑音を集音する。そして、ＣＰＵ１０１は、集音部１０９により得られた雑音をＲＡＭ１０３に記録する。なお、ＣＰＵ１０１は、Ｓ３０３において、登録ジェスチャが認識されるまで雑音の収録を継続する。なお、他の例としては、ＣＰＵ１０１は、例えば５秒など一定期間雑音の収録を継続することとしてもよい。
次に、Ｓ３０３において、ＣＰＵ１０１は、ジェスチャ認識を用いた音声登録を行う。なお、Ｓ３０３の処理については、後に詳述する。次に、Ｓ３０４において、ＣＰＵ１０１は、Ｓ３０３において、登録コマンドとしてのシャッターコマンドの標本音声の登録が正しく行われたか否かを確認する。具体的には、ＣＰＵ１０１は、ＲＡＭ１０３に格納されているエラーフラグの値を参照することにより、エラーの有無、すなわち登録が正しく行われたか否かを確認する。

ＣＰＵ１０１は、音声登録時にエラーが発生した場合には（Ｓ３０４でＹｅｓ）、ＲＡＭ１０３に格納されている雑音、標本音声及び撮影画像等、音声登録に利用される情報を削除する。そして、ＣＰＵ１０１は、処理をＳ３０２へ進め、再び音声登録処理を行う。ＣＰＵ１０１は、音声登録時にエラーが発生しなかった場合には（Ｓ３０４でＮｏ）、音声登録処理を終了し、処理をＳ３０５へ進める。すなわち、ＣＰＵ１０１は、音声登録処理を終了し、シャッターコマンドの音声認識処理を開始する。
Ｓ３０５において、ＣＰＵ１０１は、ユーザによる発話を、ＲＡＭ１０３に格納されている標本音声や、予め定義されたキャンセルコマンド等の音声と比較して、音声認識を行う。Ｓ３０６において、ＣＰＵ１０１は、音声認識による認識結果がキャンセルコマンドである場合には（Ｓ３０６でＹｅｓ）、処理をＳ３０２へ進める。ＣＰＵ１０１は、認識結果がキャンセルコマンドでない場合には（Ｓ３０６でＮｏ）、処理をＳ３０７へ進める。

Ｓ３０７において、ＣＰＵ１０１は、認識結果に対応するコマンドを発行し、コマンドに応じた処理を行う。ここで、ＣＰＵ１０１は、シャッターコマンドの標本音声に対応する認識結果が得られた場合には、シャッターコマンドを発行する。そして、ＣＰＵ１０１は、写真撮像部１０７に対し撮像開始を指示する。これに対応し、写真撮像部１０７は、撮像指示に従い、写真撮像を開始する。ここで、Ｓ３０７の処理は、撮像制御処理の一例である。
次に、Ｓ３０８において、ＣＰＵ１０１は、音声シャッターモードの終了指示を操作部１０５を介して受け付けたか否かを確認する。ＣＰＵ１０１は、終了指示を受け付けた場合には（Ｓ３０８でＹｅｓ）、動作モードを通常シャッターモードに切り替えた後、処理をＳ３０９へ進める。Ｓ３０９においては、ＣＰＵ１０１は、音声登録、音声認識に利用された、ＲＡＭ１０３に格納されているデータを破棄し、音声シャッターモードにおける処理を終了する。ＣＰＵ１０１は、終了指示を受け付けていない場合には（Ｓ３０８でＮｏ）、処理をＳ３０５へ進める。

図４は、音声登録処理（Ｓ３０３）における詳細な処理を示すフローチャートである。Ｓ４０１において、ＣＰＵ１０１は、ジェスチャ撮像部１０８に対し撮像を指示する。これに対応し、ジェスチャ撮像部１０８は、動画像の撮像を開始する。そして、ＣＰＵ１０１は、ジェスチャ撮像部１０８により得られた動画像を時刻情報に対応付けてＲＡＭ１０３に記録していく。なお、動画像の撮像及び記録は、Ｓ４０８の処理が終了するまで継続する。
次に、Ｓ４０２において、ＣＰＵ１０１は、Ｓ４０１の処理によりＲＡＭ１０３に動画像を構成するフレームが格納されると、格納されたフレームを処理対象の対象フレームとし、対象フレームにおいて、人間の顔を認識する。具体的には、ＣＰＵ１０１は、例えばＲＯＭ１０２等に予め登録された、目や鼻の統計的特徴モデルに対するパターンマッチングにより、人間の顔の認識を行うものとする。そして、ＣＰＵ１０１は、認識した人間の顔を数える。

次に、Ｓ４０３において、ＣＰＵ１０１は、Ｓ４０２において得られた人間の顔の数と、対象フレームの直前のフレームにおいて得られた人物の顔の数とを比較する。ＣＰＵ１０１は、顔の数が増加した場合には（Ｓ４０３でＹｅｓ）、撮影者が被写体となるべく、カメラ装置の設置位置から撮影位置への移動が完了したと考えられるため、処理を４０４へ進める。ＣＰＵ１０１は、顔の数が増加していない場合には（Ｓ４０３でＮｏ）、Ｓ４０２において算出された人間の顔の数をＲＡＭ１０３に格納して、処理をＳ４０２へ進める。
Ｓ４０２において、動画像の１番目のフレームが処理対象となる場合には、直前のフレームは存在しない。そこで、この場合は、ＣＰＵ１０１は、Ｓ４０３の処理を行うことなく、算出した人間の顔の数をＲＡＭ１０３に格納して、処理をＳ４０２へ進める。

なお、他の例としては、Ｓ４０３において、人間の顔の数が減少した場合には、ＣＰＵ１０１は、エラーとして、処理を終了してもよい。
また、上記処理において、時系列に沿って、人間の顔の数が一旦減少した後に増加したとする。この場合、本実施形態においては、ＣＰＵ１０１は、増加時点で顔の数が増加したと判断するが、他の例としては、減少前の顔の数を基準とし、この基準値から増加した時点で、顔の数が増加したと判断してもよい。例えば、顔の数が５から３に減少し、その後４に増加したとする。この場合、本実施形態においては、４に増加した時点で顔の数が増加したと判断されるが、他の例においては、６に増加して初めて、顔の数が増加したと判断されることになる。
また、ＣＰＵ１０１は、顔を数える際に、鮮明でない顔や、正面を向いていない顔、また画角の隅に現れる顔などを数から除外するようにしてもよい。また、ＣＰＵ１０１は、時系列に顔の画像を追跡し、大きく移動した顔をカウントから除外してもよい。これにより、偶発的に通りかかる通行人を除外することができる。

次に、Ｓ４０４において、ＣＰＵ１０１は、対象フレームと、その直前フレームの差分画像を作成する。そして、ＣＰＵ１０１は、差分画像において、顔が特定された領域を基に、予めＲＯＭ１０２等に格納されている人体の統計的特徴のモデルに対するパターンマッチングにより、人物の右腕と右手を検出する。そして、ＣＰＵ１０１は、検出した右腕と右手の位置情報と、対象フレームに対応する時刻情報をＲＡＭ１０３に記憶する。具体的には、ＣＰＵ１０１は、右腕は手首を始点、肘を終点とする線分として近似し、右手は一方の径が右腕の線分を延長した直線と重なる楕円として近似する。そして、ＣＰＵ１０１は、右腕の始点、終点、右手の楕円の長径、短径、及び中心を位置情報として記憶する。なお、対象フレームにおいて、複数の人物が検出されている場合には、ＣＰＵ１０１は、顔領域の面積が最も大きい顔を処理対象とし、対応する人物の右腕と右手の位置情報を記憶する。
なお、Ｓ４０４の処理時も、動画像の収録は継続している。そして、Ｓ４０４において、ＣＰＵ１０１は、対象フレーム以降のフレームがＲＡＭ１０３に格納される度に、差分画像を作成し、右腕と右手を検出し、これらの位置情報をＲＡＭ１０３に格納する処理を継続する。

次に、Ｓ４０５において、ＣＰＵ１０１は、ジェスチャ認識を行う。具体的には、ＣＰＵ１０１は、Ｓ４０４において得られた時系列順の複数の位置情報を、登録ジェスチャのＨＭＭと照合することにより、登録ジェスチャが行われたか否かを判断する。ここで、ＨＭＭは、登録ジェスチャ、すなわち右手を振る動きで予め学習することにより得られたモデルである。ここで、Ｓ４０５の処理は、ジェスチャ認識処理の一例である。
次に、Ｓ４０６において、ＣＰＵ１０１は、登録ジェスチャが検出されたか否かを確認する。具体的には、ＣＰＵ１０１は、時系列順の複数の位置情報と登録ジェスチャのＨＭＭとの尤度を算出し、尤度と閾値とを比較する。そして、ＣＰＵ１０１は、尤度が閾値以上である場合に、登録ジェスチャが検出されたと判断する。
ＣＰＵ１０１は、登録ジェスチャが検出された場合には（Ｓ４０６でＹｅｓ）、画像の撮影及び記録を終了し、処理をＳ４０７へ進める。ＣＰＵ１０１は、登録ジェスチャが検出されなかった場合には（Ｓ４０６でＮｏ）、処理をＳ４０４へ進める。すなわち、ＣＰＵ１０１は、登録ジェスチャが検出されるまで、Ｓ４０４〜Ｓ４０６の処理を繰り返すが、Ｓ４０６の後、Ｓ４０４の処理を実行するタイミング、すなわち繰り返し処理の間隔は、任意である。

次に、Ｓ４０７において、ＣＰＵ１０１は、登録ジェスチャの認識結果に基づいて、登録コマンドとしての音声の抽出区間の始点を決定する。ここで、抽出区間とは、集音部１０９により得られた音声のうち、登録コマンドに相当する区間である。具体的には、ＣＰＵ１０１は、右手の位置情報から、右手の加速度の絶対値が閾値（例えば１０ｃｍ毎秒毎秒）以上である区間をジェスチャの区間であるとし、その始点を、抽出区間の始点として決定する。ここで、Ｓ４０７の処理は、区間決定処理の一例である。
なお、ＣＰＵ１０１は、登録ジェスチャが行われたタイミングに基づいて、抽出区間の始点を決定すればよく、そのための具体的な処理は、実施形態に限定されるものではない。他の例としては、ＣＰＵ１０１は、ジェスチャ区間の終点、始点と終点の平均の時点、もしくは右手の加速度が最大となった時点のいずれかを抽出区間の始点としてもよい。

次に、Ｓ４０８において、ＣＰＵ１０１は、ジェスチャが行われたジェスチャ方向を特定する。具体的には、ＣＰＵ１０１は、ＨＭＭと照合された複数の位置情報における、右手の位置の平均値をジェスチャ方向としてＲＡＭ１０３に格納する。ここで、Ｓ４０８の処理は、ジェスチャ方向特定処理の一例である。
次に、Ｓ４０９において、ＣＰＵ１０１は、音声登録の状態が開始したことをユーザに通知すべく、ＬＥＤ２０５ａに点灯を指示する。これに対応し、ＬＥＤ２０５ａが発光する。ユーザは、ＬＥＤ２０５ａが発光したのを確認することにより、登録すべきシャッターコマンドの発声タイミングであることを認識することができる。そして、ＬＥＤ２０５ａの点灯後、ユーザは、登録コマンドとしてのシャッターコマンドを発声する。

次に、Ｓ４１０において、ＣＰＵ１０１は、集音部１０９に対し、ジェスチャ方向の音を強調して集音することを指示する。これに対し、集音部１０９は、ジェスチャ方向の音を強調し、集音する。ＣＰＵ１０１は、抽出区間の始点以降の音声を登録コマンドの標本音声としてＲＡＭ１０３への記録を開始する。なお、登録コマンドの集音及び標本音声の記録は、Ｓ４１５の処理時まで継続して実行される。次に、Ｓ４１１において、ＣＰＵ１０１は、登録コマンドの標本音声の音源方向を特定し、これをＲＡＭ１０３に記録する。ここで、Ｓ４１１の処理は、音源方向特定処理の一例である。
次に、Ｓ４１２において、ＣＰＵ１０１は、標本音声に対し、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行い、人間の声を検出する。ＣＰＵ１０１は、ＶＡＤに、音声及び非音声の隠れマルコフモデル（ＨＭＭ）を用いる。そして、ＣＰＵ１０１は、それぞれの尤度を比較して音声のＨＭＭにおける尤度が高ければ音声と判断する方法を用いる。なお、ＶＡＤの方法はこれに限るものではなく、例えば音声信号のエネルギーが特定の閾値を越えたものを人間の声と判断してもよい。ここで、Ｓ４１２の処理は、検出処理の一例である。

次に、Ｓ４１３において、ＣＰＵ１０１は、人間の声の検出結果に基づいて、人間による発声が終了したか否かを確認する。ＣＰＵ１０１は、人間による発声が終了した場合には（Ｓ４１３でＹｅｓ）、処理をＳ４１４へ進める。Ｓ４１４において、ＣＰＵ１０１は、人間による発声が終了したタイミングを登録コマンドとしての音声の抽出区間の終点として決定する。ここで、Ｓ４１４の処理は、区間決定処理の一例である。次に、Ｓ４１５において、ＣＰＵ１０１は、終点において、登録コマンドの標本音声の記録を終了する。
一方、Ｓ４１３において、ＣＰＵ１０１は、人間による発声が終了していない場合には（Ｓ４１３でＮｏ）、処理をＳ４１１へ進め、登録コマンドの標本音声の記録と、音源方向の記録を継続する。なお、Ｓ４１１〜Ｓ４１３の繰り返し処理において、Ｓ４１３の後、再度Ｓ４１１の処理を実行するタイミング、すなわち、繰り返し処理の間隔は、任意である。
以上のように、ＣＰＵ１０１は、抽出区間を定め、抽出区間において得られた音声データを標本音声としてＲＡＭ１０３に記録し、さらに、抽出区間において得られた音源方向の系列をＲＡＭ１０３に記録する。

次に、Ｓ４１６において、ＣＰＵ１０１は、集音部１０９に対し、雑音データの収集を指示する。これに対し、集音部１０９は、一定期間雑音データを集音する。集音部１０９は、例えば１秒間の雑音データを得る。なお、雑音データの長さは、固定値であってもよく、また他の例としては、標本音声の長さの１０分の１等動的に決定される値であってもよい。次に、Ｓ４１７において、ＣＰＵ１０１は、登録コマンドの標本音声の音声辞書等への登録を行う。以上で、ジェスチャ認識を用いた音声登録処理（Ｓ３０２）が終了する。ここで、Ｓ４１７の処理は、登録処理の一例である。

図５は、カメラ装置による、標本音声登録処理（Ｓ４１７）における詳細な処理を示すフローチャートである。Ｓ５０１において、ＣＰＵ１０１は、得られた登録音声の標本音声、すなわちＲＡＭ１０３に記録されている標本音声の長さと長さ閾値とを比較する。ここで、長さ閾値は、予めＲＯＭ１０２等に設定されているものとする。長さ閾値は、例えば０．３秒とする。ＣＰＵ１０１は、得られた標本音声の長さが長さ閾値以上である場合には（Ｓ５０１でＹｅｓ）、処理をＳ５０２へ進める。ＣＰＵ１０１は、得られた標本音声の長さが閾値未満である場合には（Ｓ５０１でＮｏ）、処理をＳ５１１へ進める。
Ｓ５１１において、ＣＰＵ１０１は、登録エラーのフラグを立てる。次に、Ｓ５１２において、ＣＰＵ１０１は、登録エラーをユーザに通知し、標本音声登録処理を終了する。具体的には、ＣＰＵ１０１は、ＬＥＤ２０５ｂを点灯する。他の例としては、ＣＰＵ１０１は、「エラーが発生しました」等の音声をスピーカ１１０から出力してもよい。

Ｓ５０２において、ＣＰＵ１０１は、標本音声の音源方向の系列を分析して、音源方向のぶれの程度（ぶれ量）を算出する。具体的には、ＣＰＵ１０１は、音源方向の系列における標準偏差をぶれ量として算出する。次に、Ｓ５０３において、ＣＰＵ１０１は、ぶれ量とぶれ閾値とを比較する。ここで、ぶれ閾値は、予めＲＯＭ１０２等に設定されているものとする。ぶれ閾値は、例えば立体角にして１／３２πステラジアンである。
ＣＰＵ１０１は、ぶれ量がぶれ閾値未満である場合（Ｓ５０３でＹｅｓ）、処理をＳ５０４へ進める。一方で、ＣＰＵ１０１は、ぶれ量がぶれ閾値以上である場合（Ｓ５０３でＮｏ）、処理をＳ５１１へ進める。このように、ＣＰＵ１０１は、標本音声の発声時の発話者の移動が多い場合には、登録エラーと判断するものとする。

Ｓ５０４において、ＣＰＵ１０１は、音源方向とジェスチャ方向の方向差分を算出する。次に、Ｓ５０５において、ＣＰＵ１０１は、方向差分と、方向差分閾値とを比較する。ここで、差分閾値は、予めＲＯＭ１０２等に設定されているものとする。差分閾値は、例えば１／３２πステラジアンである。なお、方向差分閾値は、固定値でなくてもよく、他の例としては、ＣＰＵ１０１は、画角や被写体までの距離に応じて動的に方向差分閾値を決定してもよい。
ＣＰＵ１０１は、方向差分が方向差分閾値未満である場合（Ｓ５０５でＹｅｓ）、処理をＳ５０６へ進める。一方で、ＣＰＵ１０１は、方向差分が方向差分閾値以上である場合（Ｓ５０５でＮｏ）、処理をＳ５１１へ進める。このように、ＣＰＵ１０１は、音源方向とジェスチャ方向の差が大きい場合には、登録エラーと判断するものとする。

次に、Ｓ５０６において、ＣＰＵ１０１は、Ｓ３０２において記録された雑音と、Ｓ４１５において記録された雑音の差分（雑音差分）を算出する。次に、Ｓ５０７において、ＣＰＵ１０１は、雑音差分と雑音差分閾値とを比較する。ＣＰＵ１０１は、雑音差分が雑音差分閾値未満の場合には（Ｓ５０７でＹｅｓ）、処理をＳ５０８へ進める。ＣＰＵ１０１は、雑音差分が雑音差分閾値以上の場合には（Ｓ５０７でＮｏ）、処理をＳ５１１へ進める。なお、ＣＰＵ１０１は、スペクトル間の距離や音量レベルの差を用いて雑音の比較を行う。
Ｓ５０８において、ＣＰＵ１０１は、登録コマンドの標本音声の音声辞書をＲＡＭ１０３に登録する。音声辞書は、標本音声の特徴を示す情報のレコードである。レコードの数は、特に限定されるものではないが、Ｓ６０６において参照される閾値と同じ個数以上であることが好ましい。ＣＰＵ１０１は、具体的には、登録コマンドの標本音声をメル周波数ケプストラム係数（ＭＦＣＣ）の系列に変換して、音声辞書のレコードとして追加する。なお、音声辞書に登録されるレコードは、ＭＦＣＣ系列に限らず、標本音声の音波波形そのもの、ＭＦＣＣから算出される隠れマルコフモデル（ＨＭＭ）等の統計的モデル、音素タイプライタによって標本音声から求められた音素系列であってもよい。

次に、Ｓ５０９において、ＣＰＵ１０１は、登録コマンドの標本音声から、音響モデルを生成する。そして、ＣＰＵ１０１は、例えば「フラッシュ」等の非登録コマンド音響モデルと区別すべく、生成した音響モデルを登録コマンド音響モデルとしてＲＡＭ１０３に登録する。次に、Ｓ５１０において、ＣＰＵ１０１は、音声登録の状態が終了したことをユーザに通知すべく、ＬＥＤ２０５ａを消灯し、登録された標本音声をスピーカ１１０から再生出力する。以上で、標本音声登録処理（Ｓ４１６）が終了する。
ユーザは、再生された標本音声を実際に聞くことにより、所望の音声が登録コマンド（シャッターコマンド）として登録されたことを確認することができる。なお、標本音声の再生は、カメラ装置本体から行うことに限らず、カメラ装置は、遠隔の操作者が装着する無線イヤホン等に出力してもよい。

図６は、図３を参照しつつ説明した音声認識処理（Ｓ３０５）における詳細な処理を示すフローチャートである。なお、前提として、カメラ装置は、Ｓ５０９で登録された登録コマンドの標本音声の音声辞書と、登録コマンド音響モデルに加えて、例えば「フラッシュ」等シャッターコマンド以外の単語を認識するための非登録コマンド音響モデルを予め記憶している。非登録コマンド音響モデルは、ＨＭＭによって構成され、不特定話者の音声の学習によって作られる。なお、非登録コマンド音響モデルは、例えばユーザの声を事前に学習するなどして、ユーザの声に話者適応したものでもよい。
非登録コマンド音響モデルの認識対象の単語は、登録キャンセルコマンドに割り当てられた単語を１つ含む。ここでは「キャンセル」とする。なお、複数の単語を登録キャンセルコマンドに割り当ててもよい。また、非登録コマンド音響モデルは、認識対象の単語以外を認識するガベージモデルを有する。ガベージが認識された場合は、どの認識対象の単語にも当てはまらなかったことを意味する。

図６のＳ６０１において、ＣＰＵ１０１は、集音部１０９に対しＳ４１１において特定した音源方向の音を強調して集音するよう指示する。これに対応し、集音部１０９は、集音を開始する。そして、ＣＰＵ１０１は、集音部１０９により得られた音声の記録を開始する。次に、Ｓ６０２において、ＣＰＵ１０１は、集音部１０９により得られた音声に対しＶＡＤを行い、人間の声を検出する。そして、ＣＰＵ１０１は、検出結果に基づいて、人間による発話が開始したか否かを判断する。
ＣＰＵ１０１は、人間による発話が開始した場合には（Ｓ６０２でＹｅｓ）、処理をＳ６０３へ進める。ＣＰＵ１０１は、人間による発声が開始していない場合には（Ｓ６０２でＮｏ）、処理をＳ６０２へ進める。すなわち、ＣＰＵ１０１は、人間による発声が開始していない場合には、人間による発声が開始するまで待機する。なお、人間の声を検出する処理は、実施形態に限定されるものではない。

Ｓ６０３において、ＣＰＵ１０１は、集音部１０９により得られた音声を、音声認識の対象のコマンド音声としてＲＡＭ１０３に記録する。次に、Ｓ６０４において、ＣＰＵ１０１は、人間による発声が終了したか否かを確認する。ＣＰＵ１０１は、人間による発声が終了した場合には（Ｓ６０４でＹｅｓ）、コマンド音声の記録を終了し、集音部１０９に対し集音の終了を指示した後、処理をＳ６０５へ進める。ＣＰＵ１０１は、人間による発声が終了していない場合には（Ｓ６０４でＮｏ）、処理をＳ６０３へ進め、コマンド音声の記録を継続する。
Ｓ６０５において、ＣＰＵ１０１は、コマンド音声の長さと長さ閾値とを比較する。ここで、長さ閾値は、例えばＲＯＭ１０２等に予め設定されているものとする。長さ閾値は、例えば０．３秒とする。他の例としては、ＣＰＵ１０１は、長さ閾値の値を動的に決定してもよい。ＣＰＵ１０１は、コマンド音声の長さが閾値以上である場合には（Ｓ６０５でＹｅｓ）、処理をＳ６０６へ進める。ＣＰＵ１０１は、コマンド音声の長さが閾値未満である場合には（Ｓ６０５でＮｏ）、処理をＳ６０１へ進める。このように、ＣＰＵ１０１は、コマンド音声が短すぎる場合には、このコマンド音声を棄却する。

Ｓ６０６において、ＣＰＵ１０１は、音声認識が行われた認識回数を特定する。具体的には、ＣＰＵ１０１は、図３に示す処理が開始してから、Ｓ３０５の処理に進んだ回数を音声認識が行われた認識回数として特定する。そして、ＣＰＵ１０１は、認識回数と回数閾値とを比較する。ここで、回数閾値は、ＲＯＭ１０２に予め格納されているものとする。回数閾値は、例えば５回とする。
ＣＰＵ１０１は、認識回数が回数閾値未満の場合には（Ｓ６０６でＮｏ）、処理をＳ６０７へ進める。ＣＰＵ１０１は、認識回数が回数閾値以上の場合には（Ｓ６０６でＹｅｓ）、処理をＳ６１０へ進める。

Ｓ６０７において、ＣＰＵ１０１は、コマンド音声を音声辞書に含まれる各標本音声と比較する。ＣＰＵ１０１は、コマンド音声がいずれかの標本音声に近いと判断した場合には（Ｓ６０７でＹｅｓ）、処理をＳ６０８へ進める。ＣＰＵ１０１は、コマンド音声がいずれの標本音声にも近くないと判断した場合には（Ｓ６０７でＮｏ）、処理をＳ６１０へ進める。
具体的には、ＣＰＵ１０１は、コマンド音声をＭＦＣＣに変換し、音声辞書の各標本音声のＭＦＣＣと動的時間伸縮法によって距離を求める。そして、ＣＰＵ１０１は、いずれかの標本音声との距離が所定の閾値未満であれば、標本音声に近いと判断する。ここで、閾値は一定値でもよいが、標本音声に近いと判断される確率が音声辞書の標本音声の数に大きく依存しないように、標本音声の数が多いほど閾値を小さくするようにしてもよい。例えば標本音声数が１の場合の閾値に対して、標本音声数の逆数のＤ乗根（ＤはＭＦＣＣの次元数）倍とする方法が考えられる。

なお、音声辞書がＭＦＣＣの代わりに音素系列を格納している場合は、ＣＰＵ１０１は、コマンド音声を音素タイプライタによって音素列に変換する。そして、ＣＰＵ１０１は、コマンド音声の音素列と音声辞書の音素系列とを比較して、いずれかと一致すれば標本音声に近いと判断する。なおＣＰＵ１０１は、正確に一致しなくとも、例えばいずれかの標本音声の音素列とのレーベンシュタイン距離が所定の値、例えば２以下であれば標本音声に近いと判断してもよい。
Ｓ６０８において、ＣＰＵ１０１は、コマンド音声を新たに音声辞書に追加する。次に、Ｓ６０９において、コマンド音声による学習により、登録コマンド音響モデルを更新する。以上で、音声認識処理（Ｓ３０５）が終了する。ここで、Ｓ６０８の処理は、音響モデル生成処理の一例である。

一方、Ｓ６１０において、ＣＰＵ１０１は、コマンド音声を、登録コマンド音響モデル及び非登録コマンド音響モデルと照合して、ガベージを含む各単語についてスコアを求める。そして、ＣＰＵ１０１は、最も高いスコアを得た単語をコマンド音声に対する認識結果として特定する。
Ｓ６１１において、ＣＰＵ１０１は、認識結果がガベージか否かを確認する。ＣＰＵ１０１は、認識結果がガベージである場合には（Ｓ６１１でＹｅｓ）、処理をＳ６０１へ進める。ＣＰＵ１０１は、認識結果がガベージでない場合には（Ｓ６１１でＮｏ）、処理をＳ６１２へ進める。
Ｓ６１２において、ＣＰＵ１０１は、認識結果が登録コマンド（シャッターコマンド）か否かを確認する。ＣＰＵ１０１は、認識結果が登録コマンドである場合には（Ｓ６１２でＹｅｓ）、処理をＳ６０９へ進める。ＣＰＵ１０１は、認識結果が登録コマンドでない場合には（Ｓ６１２でＮｏ）、音声認識処理（Ｓ３０５）を終了する。以上のように、Ｓ６０９を経由して音声認識処理（Ｓ３０５）を終了した場合には、登録コマンドが認識結果として得られる。

以上のように、本実施形態にかかるカメラ装置は、撮影時と同様の環境において登録された登録コマンドを用いて、コマンド音声を認識し、撮影を開始することができる。
また、カメラ装置は、登録コマンドとして認識されたコマンド音声を用いて、登録コマンド音響モデルを更新し、登録コマンド音響モデルに利用されるコマンド音声の数が閾値以上となった場合に、登録コマンド音響モデルを用いた音声認識を行う。これにより、より精度よく音声認識を行うことができる。また、カメラ装置は、標本音声に近いコマンド音声に加えて、事前に定義した非登録コマンドの単語も、標本音声と区別して認識することが出来る。

（第２の実施形態）
第２の実施形態にかかるカメラ装置は、登録コマンドとしての音声の抽出区間の始点だけでなく終点も登録ジェスチャにより決定する。以下、第２の実施形態にかかるカメラ装置について、第１の実施形態にかかるカメラ装置と異なる点について説明する。図７は、第２の実施形態にかかるカメラ装置による、音声登録処理（Ｓ３０３）における詳細な処理を示すフローチャートである。なお、図７中、図４に示す処理と同一の処理には、同一番号を付している。
Ｓ４０３において、ＣＰＵ１０１は、顔の数が増加した場合（Ｓ４０３でＹｅｓ）、処理をＳ７０１へ進める。Ｓ７０１において、ＣＰＵ１０１は、集音部１０９に対し、集音を指示する。これに対応し、集音部１０９は、集音を開始する。そして、ＣＰＵ１０１は、得られた音声のＲＡＭ１０３への記録を開始する。なお、音声の記録は、後述するＳ７０４の処理時まで継続して実行される。

次に、ＣＰＵ１０１は、処理をＳ４０９へ進め、音声登録の状態が開始したことをユーザに通知すべく、ＬＥＤ２０５ａに点灯を指示する。ユーザは、ＬＥＤ２０５ａの点灯を確認した後、登録ジェスチャを開始し、登録ジェスチャを行いながら、登録コマンドを発声し、登録コマンドの発声の終了とともに、登録ジェスチャも停止することとする。
そして、ＣＰＵ１０１は、処理をＳ４０４へ進める。そして、ＣＰＵ１０１は、Ｓ４０４〜Ｓ４０６の処理を行う。ＣＰＵ１０１は、登録ジェスチャを検出した場合には（Ｓ４０６でＹｅｓ）、処理をＳ７０２へ進める。Ｓ７０２において、ＣＰＵ１０１は、検出された登録ジェスチャのタイミングに基づいて抽出区間の始点及び終点を決定する。具体的には、登録ジェスチャが認識された開始タイミング及び終了タイミングをそれぞれ抽出区間の始点及び終点として決定する。

次に、Ｓ４０８において、ＣＰＵ１０１は、ジェスチャ方向を特定し、処理をＳ７０３へ進める。Ｓ７０３において、ＣＰＵ１０１は、音声の記録を終了する。次に、Ｓ７０４において、ＣＰＵ１０１は、抽出区間の音声を登録コマンドとして、その標本音声を抽出する。次に、Ｓ７０５において、ＣＰＵ１０１は、抽出区間の終点から一定時間前までの標本音声の音源方向を特定し、これをＲＡＭ１０３に記録し、処理をＳ４１６へ進める。ここで、一定時間は、例えば０．２秒間とする。
以上のように、本実施形態のカメラ装置は、１つの登録ジェスチャの開始タイミング及び終了タイミングをそれぞれ抽出区間の始点及び終点として決定する。なお、第２の実施形態にかかるカメラ装置のこれ以外の構成及び処理は、第１の実施形態にかかるカメラ装置の構成及び処理と同様である。

（第３の実施形態）
第３の実施形態にかかるカメラ装置は、登録コマンドとしての音声の抽出区間の始点及び終点をそれぞれ別に認識された登録ジェスチャにより決定する。以下、第３の実施形態にかかるカメラ装置について、他の実施形態にかかるカメラ装置と異なる点について説明する。図８は、第３の実施形態にかかるカメラ装置による、音声登録処理（Ｓ３０３）における詳細な処理を示すフローチャートである。なお、図８中、図４、図７に示す処理と同一の処理には、同一番号を付している。
ＣＰＵ１０１は、Ｓ４０６において登録ジェスチャを検出すると（Ｓ４０６でＹｅｓ）、処理をＳ４０７へ進め、第１の実施形態と同様に、登録ジェスチャの認識結果に基づいて、抽出区間の始点を決定し、処理をＳ８０２へ進める。なお、Ｓ８０２〜Ｓ８０５の処理は、Ｓ４０４〜Ｓ４０６の処理と同様である。そして、ＣＰＵ１０１は、登録ジェスチャが検出された場合には（Ｓ８０４でＹｅｓ）、処理をＳ８０５へ進める。Ｓ８０５において、ＣＰＵ１０１は、Ｓ８０４において検出された登録ジェスチャの認識結果に基づいて、抽出区間の終点を決定し、処理をＳ４０８へ進める。

なお、ＣＰＵ１０１は、登録ジェスチャが行われたタイミングに基づいて、抽出区間の終点を決定すればよく、そのための具体的な処理は、始点と同様に、実施形態に限定されるものではない。
以上のように、本実施形態のカメラ装置は、１つの登録ジェスチャの認識結果に基づいて、抽出区間の始点を決定し、その後さらに認識された別の登録ジェスチャの認識結果に基づいて、抽出区間の終点を決定する。なお、第３の実施形態にかかるカメラ装置のこれ以外の構成及び処理は、他の実施形態にかかるカメラ装置の構成及び処理と同様である。

第３の実施形態にかかるカメラ装置の変更例について説明する。本実施形態においては、抽出区間の始点及び終点を決定するための認識対象となる登録ジェスチャは同一のものであったが、これに限定されるものではない。例えば、始点を決定するための登録ジェスチャと終点を決定するための登録ジェスチャとは異なる種類のジェスチャであってもよい。例えば、カメラ装置は、右手を振るジェスチャに基づいて、始点を決定し、胸の前で拍手をするジェスチャに基づいて、終点を決定してもよい。

（第４の実施形態）
第４の実施形態にかかるカメラ装置は、人間による発声の検出結果に基づいて、抽出区間の始点を決定し、登録ジェスチャの認識結果に基づいて、抽出区間の終点を決定する。以下、第４の実施形態にかかるカメラ装置について、他の実施形態にかかるカメラ装置と異なる点について説明する。図９は、第４の実施形態にかかるカメラ装置による、音声登録処理（Ｓ３０３）における詳細な処理を示すフローチャートである。なお、図９中、図４、図７、図８に示す処理と同一の処理には、同一番号を付している。
Ｓ４０３において、ＣＰＵ１０１は、顔の数が増加した場合（Ｓ４０３でＹｅｓ）、処理をＳ４０９へ進める。Ｓ４０９において、ＣＰＵ１０１は、音声登録の状態が開始したことをユーザに通知すべく、ＬＥＤ２０５ａに点灯を指示する。これに対応し、ＬＥＤ２０５ａが点灯する。ユーザは、ＬＥＤ２０５ａが発行したのを確認することにより、登録コマンドの発声タイミングであることを認識することができる。そして、ＬＥＤ２０５ａの点灯後、ユーザは、登録コマンドとしてのシャッターコマンドを発声する。本実施形態においては、ユーザは、さらに登録コマンドの発声後、登録ジェスチャを行う。

次に、Ｓ９０１において、ＣＰＵ１０１は、集音部１０９に対し、集音を指示する。これに対応し、集音部１０９は、集音を開始する。そして、ＣＰＵ１０１は、得られた音声のＲＡＭ１０３への記録を開始する。次に、Ｓ４１２において、ＣＰＵ１０１は、人間の声を検出し、Ｓ９０２において、人間による発声が開始したか否かを確認する。ＣＰＵ１０１は、人間による発声が開始した場合には（Ｓ９０２でＹｅｓ）、処理をＳ９０３へ進める。ＣＰＵ１０１は、人間による発声が開始していない場合には（Ｓ９０２でＮｏ）、処理をＳ４１２へ進める。
Ｓ９０３において、ＣＰＵ１０１は、人間による発話の開始タイミングを、抽出区間の始点として決定する。以下、Ｓ８０２〜Ｓ４１７までの処理は、第３の実施形態にかかる対応する処理と同様である。すなわち、ＣＰＵ１０１は、抽出区間の終点については、登録ジェスチャの認識結果に基づいて決定する。
以上のように、本実施形態のカメラ装置は、人間による発声の検出結果に基づいて、抽出区間の始点を決定し、登録ジェスチャの認識結果に基づいて、抽出区間の終点を決定する。なお、第４の実施形態にかかるカメラ装置のこれ以外の構成及び処理は、他の実施形態にかかるカメラ装置の構成及び処理と同様である。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、装置の利便性の低下を防ぎつつ、音声認識精度を向上させることができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０１ＣＰＵ、１０２ＲＯＭ、１０３ＲＡＭ、１０４ＨＤＤ、１０５操作部、１０６表示部、１０７写真撮像部、１０８ジェスチャ撮像部、１０９集音部、１１０スピーカ

Claims

撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、
前記始点及び前記終点のうち少なくとも一方が前記区間決定手段により決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録手段と、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段と
を有する音声認識装置。
前記区間決定手段は、前記登録ジェスチャが認識された開始タイミング及び終了タイミングをそれぞれ前記抽出区間の前記始点及び前記終点として決定する請求項１に記載の音声認識装置。
前記集音手段が集音した音声から人間の声を検出する検出手段を更に有し、
前記区間決定手段は、人間の声の検出結果に基づいて、前記抽出区間の始点及び終点のうち少なくとも一方を決定する請求項１に記載の音声認識装置。
前記区間決定手段は、前記登録ジェスチャが認識されたタイミングに基づいて、前記抽出区間の始点を決定し、前記人間の声の検出結果に基づいて、前記抽出区間の終点を決定する請求項３に記載の音声認識装置。
前記区間決定手段は、前記人間の声の検出結果に基づいて、前記抽出区間の始点を決定し、前記登録ジェスチャが認識されたタイミングに基づいて、前記抽出区間の終点を決定する請求項３に記載の音声認識装置。
前記区間決定手段は、前記登録ジェスチャが認識された第１のタイミングと、前記第１のタイミングの後、前記登録ジェスチャが認識された第２のタイミングとをそれぞれ前記抽出区間の始点及び終点として決定する請求項１に記載の音声認識装置。
前記登録ジェスチャが行われたジェスチャ方向を特定するジェスチャ方向特定手段と、
前記抽出区間において集音された音声の音源方向を特定する音源方向特定手段と
をさらに有し、
前記登録手段は、前記音源方向と前記ジェスチャ方向の差が閾値未満の場合に、前記抽出区間の前記標本音声を前記登録コマンドとして登録する請求項１乃至６何れか１項に記載の音声認識装置。
前記登録コマンドが認識された前記コマンド音声に基づいて、音響モデルを生成する音響モデル生成手段をさらに有し、
前記音声認識手段は、前記音響モデルの生成に利用された前記コマンド音声の数が閾値以上である場合に、前記音響モデルに基づいて、前記音声認識を行う請求項１乃至７何れか１項に記載の音声認識装置。
前記音声認識手段は、前記音響モデルの生成に利用された前記コマンド音声の数が閾値未満である場合に、前記コマンド音声の音素列に基づいて、前記音声認識を行う請求項８に記載の音声認識装置。
撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、
前記始点及び前記終点のうち少なくとも一方が前記区間決定手段により決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録手段と、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段と、
前記音声認識の結果、前記登録コマンドが特定された場合に、撮像開始を指示する撮像制御手段と
を有する撮像装置。
音声認識装置が実行する音声認識方法であって、
撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識ステップと、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定ステップと、
前記始点及び前記終点のうち少なくとも一方が前記区間決定ステップにおいて決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録ステップと、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識ステップと
を含む音声認識方法。
撮像装置が実行する撮像制御方法であって、
撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識ステップと、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定ステップと、
前記始点及び前記終点のうち少なくとも一方が前記区間決定ステップにおいて決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録ステップと、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識ステップと、
前記音声認識の結果、前記登録コマンドが特定された場合に、撮像を開始する撮像制御ステップと
を含む撮像制御方法。
コンピュータを、
撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、
前記始点及び前記終点のうち少なくとも一方が前記区間決定手段により決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録手段と、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段と
して機能させるためのプログラム。
コンピュータを、
撮像手段によって撮像された画像から、登録ジェスチャを認識するジェスチャ認識手段と、
前記登録ジェスチャが認識されたタイミングに基づいて、集音手段が集音した音声のうち、登録コマンドとして抽出する音声の抽出区間の始点及び終点のうち少なくとも一方を決定する区間決定手段と、
前記始点及び前記終点のうち少なくとも一方が前記区間決定手段により決定された前記抽出区間の標本音声を前記登録コマンドとして記憶手段に登録する登録手段と、
前記登録コマンドに基づいて、前記集音手段が集音した音声認識の対象のコマンド音声の音声認識を行う音声認識手段と、
前記音声認識の結果、前記登録コマンドが特定された場合に、撮像を開始する撮像制御手段と
して機能させるためのプログラム。