JP6504808B2

JP6504808B2 - 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体

Info

Publication number: JP6504808B2
Application number: JP2014259197A
Authority: JP
Inventors: 金子　和恵; 和恵金子
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2019-04-24
Anticipated expiration: 2034-12-22
Also published as: US20160182800A1; JP2016119615A; US9706100B2

Description

本発明は、静止画や動画の撮影が可能な撮像装置に関し、特に、撮像装置の操作のためのユーザインタフェースに関する。

操作者の音声をユーザインタフェースに用いたビデオカメラやスチルカメラ等の撮像装置がある。このような撮像装置は、操作者の音声に対して音声認識を行い、認識結果に対応する処理を行う音声コマンド機能を備える。音声コマンド機能を使用する場合、操作者の発声位置から撮像装置の集音装置（マイク）までの距離は、音声認識の結果に影響を与える。発声位置からマイクまでの距離は、近いほど背景雑音の影響が小さく、遠くなるにつれて背景雑音の影響が大きくなる。

特許文献１は、発声位置からマイクまでの距離に応じて、マイクや音声認識のモデル、パラメータを最適に設定し、音声入力により処理を実行する撮像装置を開示する。この撮像装置は、操作者が撮像装置のファインダを覗いているか、或いは背面に設けられるディスプレイを見ているかにより、発声位置からマイクまでの距離を判断する。撮像装置は、発声位置からマイクまでの距離に応じて、マイクや音声認識のモデル、パラメータを最適に設定することで、背景雑音の影響を抑制する。

特開２０１０−１３０４８７号公報

特許文献１の撮像装置は、操作者が撮像装置の背後から撮像装置を操作することが前提となっている。そのために操作者は、音声コマンドの発声のタイミングを撮像装置に設けられるボタン等の押下により、直接、撮像装置に指示する。「音声コマンド」は、所定の処理に対応づけられた音声である。撮像装置は、音声コマンドの音声認識を行って、対応する処理を実行する。

近年、操作者が撮像装置により自身を撮影する、いわゆる「自分撮り」の需要が増加している。自分撮りでは、操作者が撮像装置を持った手を伸ばして自身の顔等を撮影する場合が多い。この他に、撮像装置を設置して、その前で操作者が被写体となってパフォーマンスを行う場面を撮影する場合もある。

撮像装置を設置してその前で操作者が被写体となる場合、操作者は撮像装置に手が届かない位置にいることが多い。また、操作者が撮像装置を直接操作しないで撮影開始の指示を行いたい場面も想定される。これらの場合、音声コマンドの発声のタイミングを撮像装置に直接指示できないために、操作者は、予め撮像装置の音声コマンド機能を有効にしておく必要がある。しかし、操作者が音声コマンド機能を有効にして撮影される位置に移動する間に、撮像装置が誤認識により撮影を開始する可能性がある。また、撮影中に操作者が撮像装置に向かって話す内容を撮像装置が音声コマンドに誤認識して撮影を終了する可能性がある。

本発明は、上記の問題を解決するために、音声コマンドの誤認識の可能性を低減させた撮像装置を提供することを主たる課題とする。

上記課題を解決する本発明の撮像装置は、撮影機構により被写体を撮像して画像を生成する撮像手段と、集音手段を介して入力される音声を受け付ける受付手段と、前記画像を表示面に表示する表示制御手段と、前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段と、前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段と、前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段と、前記画像に含まれる顔画像を検出する顔検出手段と、を備えており、前記第２判定手段は、前記顔検出手段が顔画像を検出すると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする。

本発明によれば、自分撮りモードが設定された場合に、音声コマンド機能を有効にする条件が満たされるか否かに応じて音声コマンド機能が有効又は無効に設定される。そのために、音声コマンドの誤認識の可能性が低減する。

（ａ）、（ｂ）は撮像装置の外観図。撮像装置のハードウェア構成図。撮像装置の機能ブロック図。音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。ディスプレイの表示例示図。（ａ）、（ｂ）は音声コマンドに応じた処理の説明図。（ａ）〜（ｄ）は音声コマンド機能を状態に応じて切り替える場合の例示図。音声コマンド機能を有効にする処理を表すフローチャート。音声コマンド機能を有効にする処理を表すフローチャート。音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。（ａ）、（ｂ）は撮像装置の機能ブロック図。（ａ）、（ｂ）は音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。（ａ）〜（ｄ）は撮像装置の説明図。（ａ）、（ｂ）は撮像装置の機能ブロック図。（ａ）、（ｂ）は音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。（ａ）〜（ｄ）は背面マイクを音声コマンドの集音用のマイクに割り当てた場合の例示図。撮像装置の機能ブロック図。音声コマンド機能が有効か否かの判定を行う処理を表すフローチャート。（ａ）は音声コマンドを長くした例を表す図、（ｂ）は許容度の説明図。

以下、図面を参照して実施形態を詳細に説明する。ただし、本実施形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
［構成］
図１は、本実施形態の撮像装置の外観図である。図１（ａ）は、撮像装置の前面図であり、図１（ｂ）は、撮像装置の背面図である。撮像装置１は、本体とレンズとを備えたいわゆるカメラ形状であるが、撮像機能を有するものであれば形状はこれに限らない。例えば、撮像装置１には、スマートフォンや携帯電話、カメラ付きパーソナルコンピュータ等の撮影機能及び集音機能を有する装置を用いることができる。撮像装置１は、静止画及び動画の撮影が可能であり、且つ所定の処理に対応づけられた音声コマンドを認識し、その認識結果に応じて処理を実行する音声コマンド機能を備える。

撮像装置１は、前面にレンズ１０、シャッタボタン１１、音声処理操作ボタン１２、及び前面マイク１４ａを備える。撮像装置１は、背面にスピーカ１３、背面マイク１４ｂ、設定ボタン１５、及びディスプレイ１６を備える。

レンズ１０は、被写体に向けられる光学系であり、被写体からの光を撮像装置１内の不図示の撮像素子に集光する。シャッタボタン１１は、撮影の開始を指示するための操作ボタンである。操作者は、シャッタボタン１１により撮像装置１に撮影の開始の指示を入力する。音声処理操作ボタン１２は、音声コマンド機能を有効にするための操作ボタンである。操作者は、音声処理操作ボタン１２により撮像装置１に音声コマンド機能を有効にする指示を入力する。スピーカ１３は、音声出力装置であり、撮像装置１により動画を再生する場合等に音を出力する。スピーカ１３は、図１に示す例では、背面に配置されたものとしたが、ディスプレイ１６を視認するユーザに指向するように、前面、あるいは両面に配置されてもよい。

前面マイク１４ａ及び背面マイク１４ｂは、集音装置であり、撮像装置１による動画撮影時の集音を行う。また、前面マイク１４ａ及び背面マイク１４ｂは、音声コマンド機能が有効であるときに、操作者の音声入力に用いられる。なお、前面マイク１４ａ及び背面マイク１４ｂは、分けて説明する必要がない場合に「マイク１４」として説明する。
設定ボタン１５は、各種機能や撮影条件等を設定するための操作ボタンである。操作者は、設定ボタン１５により撮像装置１に各種の設定を行う。ディスプレイ１６は、例えば液晶ディスプレイであり、ファインダとして機能する他に、各種機能の設定時の設定画面表示、撮影した静止画像や動画像の再生表示等を行う。ディスプレイ１６は、表示面に透明のタッチパッドが設けられてタッチパネルとしても機能する。

図２は、撮像装置１のハードウェア構成図である。撮像装置１は、ＣＰＵ（Central Processing unit）２０、ＲＡＭ（Random Access Memory）２１、及びＲＯＭ（Read Only Memory）２２により、動作が制御される。ＣＰＵ２０は、ＲＯＭ２２からコンピュータプログラムを読み込み、ＲＡＭ２１を作業領域として実行することで、撮像装置１を構成する各部の動作を制御する。撮像装置１は、ＣＰＵ２０、ＲＡＭ２１、ＲＯＭ２２、スピーカ１３、マイク１４、ディスプレイ１６の他に、操作部２３、ストレージ２４、撮影機構２５及び通信部２６を備える。各構成要素は、バスＢを介して相互にデータの送受信が可能である。

操作部２３は、シャッタボタン１１、音声処理操作ボタン１２、設定ボタン１５、タッチパネルから操作者の操作に応じた指示を受け付ける。操作部２３は、受け付けた指示をＣＰＵ２０に入力する。ＣＰＵ２０は、操作部２３からの指示に応じた処理を実行する。ストレージ２４は、外部記憶装置であり、撮像装置１に装着される。ストレージ２４は、撮影した静止画像や動画像を格納する。撮影機構２５は、レンズ１０や撮像素子により構成され、ＣＰＵ２０の制御により撮影を行う。通信部２６は、例えば無線通信による撮像装置１と他の外部装置との通信制御を行う。操作装置１は、通信部２６により、例えば撮影した静止画像や動画像の外部装置への出力等を行う。

図３は、撮像装置１の機能を表す機能ブロック図である。図３は、音声コマンド機能について表しており、撮像装置１で実現可能な他の機能については省略している。ＣＰＵ２０は、コンピュータプログラムを実行することで、撮像装置１の各機能を実現する。撮像装置１は、音声入力部１０１、操作入力部１０２、撮影制御部１０３、表示制御部１０４、音声コマンド判定部１０５、音声コマンド認識部１０６、実行部１０７、動作モード判定部１０８、及び記録部１０９として機能する。

音声入力部１０１は、マイク１４及びＣＰＵ２０により実現され、マイク１４で集音した音声を受け付ける。音声入力部１０１は、動画撮影時の音声や音声コマンド用の音声（音声コマンド）を集音する。上記の通り、音声コマンドは、所定の処理に対応づけられた音声である。音声入力部１０１で集音された音声コマンドが音声認識されることで、対応する処理が実行される。
操作入力部１０２は、ＣＰＵ２０及び操作部２３により実現され、操作部２３により受け付ける操作者の指示をＣＰＵ２０に入力する。

撮影制御部１０３は、ＣＰＵ２０により実現され、撮影機構２５の動作を制御して静止画像及び動画像の撮影を行う。
表示制御部１０４は、ＣＰＵ２０及びディスプレイ１６により実現され、ディスプレイ１６に画像を表示する。表示する画像には、撮影した画像の再生画像や、撮像装置１の操作、設定のための設定画面等がある。

音声コマンド判定部１０５は、ＣＰＵ２０により実現され、音声コマンド機能を有効にする条件が満たされているか否かにより、音声コマンド機能を有効にするか否かを判定する。音声コマンド認識部１０６は、ＣＰＵ２０により実現され、音声コマンド機能が有効であるときに、音声入力部１０１で集音される音声の音声認識処理を行い、音声コマンドを抽出する。実行部１０７は、ＣＰＵ２０により実現され、操作入力部１０２から入力される指示や音声コマンドによる入力に応じた処理を実行する。動作モード判定部１０８は、ＣＰＵ２０により実現され、撮像装置１の動作モードの判定を行う。本実施形態では、動作モード判定部１０８は、撮像装置１が、操作者が自身を撮影するための動作モードである「自分撮りモード」であるか否かの判定を行う。記録部１０９は、ＣＰＵ２０及びストレージ２４により実現され、ＣＰＵ２０により、撮影した静止画像や動画像が格納される。

図４は、撮像装置１による音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。操作者は、操作部２３の操作により撮像装置１を自分撮りモードに設定することができる。例えば、操作者は、設定ボタン１５やタッチパネルを操作することで、撮像装置１を自分撮りモードに設定するための指示を入力する。ＣＰＵ２０は、この指示に応じて自分撮りモードを設定する。図５は、タッチパネルを用いて自分撮りモードを設定する場合のディスプレイ１６の表示例示図である。操作者は、ディスプレイ１６に表示されたプルダウンメニュー３０１により、自分撮りモードを有効にするか否かを選択することができる。また、既に音声コマンド機能が有効になっている場合、操作者は、後述する音声コマンドによる設定により、撮像装置１を自分撮りモードに設定することができる。自分撮りモードの設定状態は、例えばＲＡＭ２１にフラグとして記憶される。

撮像装置１は、音声コマンド機能を有効にするか否かの処理を開始すると、動作モード判定部１０８により、自分撮りモードが設定されているか否かを判定する（Ｓ２０１）。動作モード判定部１０８は、例えばＲＡＭ２１のフラグを確認することで自分撮りモードの設定状態を判定することができる。

自分撮りモードが設定されていない場合（Ｓ２０２：N）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。自分撮りモードが設定されている場合（Ｓ２０２：Y）、音声コマンド判定部１０５は、音声コマンド機能を有効にする条件が満たされているか否かを判定する（Ｓ２０３）。本実施形態では一例として、音声コマンド判定部１０５は、例えば自分撮りモードの設定状態が切り替えられてから一定時間経過することで、音声コマンド機能を有効にする条件が満たされたと判定する。この場合の具体的な処理は後述する。音声コマンド機能を有効にする条件が満たされている場合（Ｓ２０４：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。音声コマンド機能を有効にする条件が満たされていない場合（Ｓ２０４：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。音声コマンド機能が有効か否かは、例えばＲＡＭ２１にフラグとして記憶される。なお、音声コマンド機能を有効にする条件は、経過時間の長さの条件に限らない。例えば、被写体が予め設定された所定の動きをしたことが検出されたことを条件としたり、あるいは音声コマンドではない所定の音声が検出されたことを条件としたり、撮像される空間中に所定の物体の出現と消失が検出されたことを条件としてもよい。

以上のようにして、撮像装置１は、音声コマンド機能が有効か否かの判定を行う。この処理は、常時或いは一定時間間隔で繰り返し行われる。また、自分撮りモードの設定が切り替えられた時点でこの処理が行われ、自分撮りモードが設定されている間、ステップＳ２０３以降の処理が繰り返し行われてもよい。これにより撮像装置１は、音声コマンドの誤認識による処理を抑制することができる。

音声コマンド機能が有効になることで、撮像装置１は、音声コマンドに応じた処理を実行する。図６は、音声コマンドに応じた処理の説明図である。図６（ａ）は、音声コマンドに応じた処理を表すフローチャートである。

音声コマンドによる処理の場合、まず、ＣＰＵ２０は、音声コマンド機能が有効であるか否かを判定する（Ｓ４０１）。音声コマンド機能が無効である場合（Ｓ４０１：N）、ＣＰＵ２０は処理を終了する。音声コマンド機能が有効である場合（Ｓ４０１：Y）、ＣＰＵ２０は操作者によるマイク１４に向かっての発声を待機する。

操作者がマイク１４に向かって発声すると、音声入力部１０１は、マイク１４により集音した操作者の音声をＣＰＵ２０に入力する（Ｓ４０２）。なお、撮影時には、常時、マイク１４が音声を集音しており、この音声がＣＰＵ２０に入力される。音声コマンド認識部１０６は、入力された音声に対して音声認識処理を行う（Ｓ４０３）。音声コマンド認識部１０６は、音声認識処理により、入力された音声が音声コマンドであるか否かを判定する。図６（ｂ）は、音声コマンドの例示図である。撮像装置１は、このような音声コマンドの一覧を、例えばテーブルとしてＲＡＭ２１に記憶する。音声コマンド認識部１０６は、この一覧を参照して、入力された音声が音声コマンドであるか否かを判定する。

入力された音声が音声コマンドではないと判定された場合（Ｓ４０４：N）、ＣＰＵ２０は、ステップＳ４０１以降の処理を繰り返す。入力された音声が音声コマンドであると判定された場合（Ｓ４０４：Y）、実行部１０７は、当該音声コマンドに対応づけられた処理を実行する（Ｓ４０５）。音声コマンドに対応づけられた処理の実行が終了すると、ＣＰＵ２０は、ステップＳ４０１以降の処理を繰り返す。

動画の撮影が可能な撮像装置１は、動作モードに撮影モードと再生モードとを備える。図６（ｂ）を参照すると、音声コマンドには、各動作モードを切り替える切替コマンドと、各動作モードにおける操作コマンドとがある。切替コマンドには、「撮影モード」及び「再生モード」がある。操作者がマイク１４に向かって「撮影モード」又は「再生モード」と発声することで、音声コマンドが入力される。音声コマンド認識部１０６は、音声認識処理を行い、「撮影モード」又は「再生モード」が入力されたことを認識する。実行部１０７は、認識結果に基づいて、撮像装置１の動作モードを切り替える。

撮像モードには、自分撮りモードのオン／オフを切り替える音声コマンド（「自分撮りモードオン」及び「自分撮りモードオフ」）が設けられる。操作者がマイク１４に向かって「自分撮りモードオン」又は「自分撮りモードオフ」と発声することで、音声コマンドが入力される。音声コマンド認識部１０６は、音声認識処理を行い、「自分撮りモードオン」又は「自分撮りモードオフ」が入力されたことを認識する。実行部１０７は、認識結果に基づいて、撮像装置１の自分撮りモードを切り替える。

なお、図４の音声コマンド機能が有効か否かの判定を行う処理では、再生モードにおける判定方法を明示していない。再生モードの場合には、撮影モードにおける自分撮りモードが設定されていないときと同様の判断になる。

自分撮りモードが設定されていないときに、常時、音声コマンド機能を有効にすると、操作者以外の被写体を撮影する際の会話や、撮像装置１による映像再生時の音声が音声コマンドとして誤認識される可能性がある。そのために、自分撮りモードが設定されていないときであっても音声コマンド機能を無効にするようにしてもよい。このような場合に操作者は、例えば、音声処理操作ボタン１２の操作により音声コマンド機能の有効／無効を切り替える。音声処理操作ボタン１２は、例えば、押下されている間の音声コマンド機能を有効にするものの他、押下後の一定時間だけ音声コマンド機能を有効になるものであってもよい。

図７は、音声コマンド機能を撮像装置１の状態に応じて切り替える場合の例示図である。図７（ａ）は、操作者が撮像装置１を保持して自分以外の被写体を撮影する状態を表す。図７（ｂ）は、図７（ａ）のときの撮像装置１の背面の例示図である。ディスプレイ１６には撮影中の被写体が表示される。図７（ｃ）は、操作者が撮像装置１を自分の方に向けて撮影する状態を表す。図７（ｄ）は、図７（ｃ）ときの撮像装置１の背面の例示図である。ディスプレイ１６には撮影中の操作者が被写体として表示される。

図７（ａ）、図７（ｂ）は、操作者が撮像装置１を手元で操作可能である。そのために操作者は、音声処理操作ボタン１２を押下して、撮像装置１の音声コマンド機能を有効にすることができる。操作者は、被写体にレンズ１０を向けることで、ディスプレイ１６により撮影内容を確認しながら撮影することができる。音声処理操作ボタン１２が押下されることで音声コマンド機能を有効にすることができるため、撮像装置１は、音声コマンドの誤認識による処理を抑制することができる。

図７（ｃ）、図７（ｄ）では操作者と撮像装置１とが離れて位置するために、操作者は撮像装置１を触れることができない。そのために操作者は音声処理操作ボタン１２を押下することができない。この場合、音声コマンド機能が有効であれば、撮像装置１は、操作者が自分撮りモードを設定してから所定の時間が経過するまで音声コマンド機能を無効にし、所定の時間が経過すると音声コマンド機能を有効にする。例えば、図７（ｃ）のように操作者が撮影される位置まで移動する必要がある場合、音声コマンド機能が自分撮りモードの設定から所定時間経過後に有効になることで、撮像装置１は、移動中の音声コマンドの誤認識による処理を抑制することができる。

図８は、図７（ａ）、（ｂ）のように、音声処理操作ボタン１２を用いて音声コマンド機能を有効にする処理を表すフローチャートである。図４の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。

動作モード判定部１０８の判定の結果、撮像装置１に自分撮りモードが設定されていない場合（Ｓ２０２：N）、ＣＰＵ２０は、操作入力部１０２から音声処理操作ボタン１２が押下されたことを表す指示が入力されるか否かを判定する（Ｓ５０１）。ＣＰＵ２０は、指示の入力が有る場合に、音声処理操作ボタン１２が押下されたことを認識することができる。音声処理操作ボタン１２が押下されれば（Ｓ５０２：Y）、ＣＰＵ２０は、音声コマンド機能を有効にする。音声処理操作ボタン１２が押下されなければ（Ｓ５０２：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ５０３）。

なお、音声コマンド機能が既に有効である場合、ＣＰＵ２０は、音声処理操作ボタン１２の押下を所定の時間が経過するまで待機する。所定の時間が経過するまでに音声処理操作ボタン１２が押下されれば、ＣＰＵ２０は、音声コマンド機能を引き続き有効にして処理を終了する（Ｓ５０２：Y、Ｓ２０６）。所定の時間が経過するまでに音声処理操作ボタン１２が押下されなければ、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ５０２：N、Ｓ５０３）。

以上の処理により、音声処理操作ボタン１２が操作された場合にだけ音声コマンド機能を有効にすることができる。そのために図７（ａ）の状態であっても、撮像装置１は音声コマンドの誤認識による処理を抑制することができる。

図９は、自分撮りモードに設定を切り替えて所定時間が経過したことを条件として、音声コマンド機能を有効にする処理を表すフローチャートである。図４のＳ２０３の処理中に、ステップＳ８０２〜Ｓ８０３の処理されることを表す。この処理は、例えば、図７（ｃ）、（ｄ）のように、被写体である操作者自身が撮像装置１から離れて撮像する場合に特に有効であり、従来はセルフタイマーを用いた撮影で行われることが多かった処理である。しかしながらセルフタイマー撮影では、設定された時間内に何らかの事情が生じて操作者が移動しきれなかった場合や、時間を数え間違えた場合に、何度も撮り直す必要が生じるなど、煩わしい場合があった。本実施形態の場合、操作者が、撮像装置１を自分撮りモードに設定した後に、撮影される位置に移動する間は、音声コマンドの誤認識による処理を抑制するために、音声コマンドを無効にする。そして、所定の時間が経過した後に、音声コマンドの入力を待機することで、移動にかかる妥当な時間が経過した後、操作者が立ち位置やポーズを調整した任意のタイミングで撮影を指示し、所望とする写真を撮り易い環境を提供することができる。

動作モード判定部１０８は、操作者が操作部２３を操作して自分撮りモードの設定の切り替えを行ったか否かを判定する（Ｓ８０１）。自分撮りモードの設定が切り替わっている場合、動作モード判定部１０８は、自分撮りモードに設定されたか否かを判定する（Ｓ２０２）。自分撮りモードが設定されていなければ（Ｓ２０２：N）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。図７（ａ）のように、操作者が自分以外の被写体を撮影する場合は、この処理になる。

自分撮りモードが設定されていれば（Ｓ２０２：Y）、ＣＰＵ２０は、自分撮りモードの設定の確認が最初であったかを判定する（Ｓ８０２）。最初の確認である場合（Ｓ８０２：Y）、ＣＰＵ２０は、自分撮りモードが設定された時間を計測するタイマを起動する（Ｓ８０３）。タイマを起動したＣＰＵ２０は、音声コマンド機能を無効にして（Ｓ２０５）、動作モード判定部１０８により自分撮りモードが設定されたか否かを判定するステップＳ２０２以降の処理を繰り返す。

最初の確認ではない場合（Ｓ８０２：N）、ＣＰＵ２０は、タイマを確認して自分撮りモードが設定されてから所定時間が経過したか否かを判定する（Ｓ８０４）。所定時間が経過した場合（Ｓ８０４：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。所定時間が経過していない場合（Ｓ８０４：N）、ＣＰＵ２０は、音声コマンド機能を無効にして（Ｓ２０５）、動作モード判定部１０８により自分撮りモードが設定されたか否かを判定するステップＳ２０２以降の処理を繰り返す。

以上の処理により、自分撮りモードが設定されてから所定の時間が経過した後に音声コマンド機能を有効にすることができる。そのために図７（ｃ）の状態であっても、撮像装置１は音声コマンドの誤認識による処理を抑制することができる。なお、自分撮りモードが設定されてからの所定時間は、例えば操作部２３により、操作者が決定するようにしてもよい。

なお、撮像装置１における音声コマンド機能は、操作者の意志でＯＮ／ＯＦＦの切り替えができるものであってよい。音声コマンド機能自体がＯＦＦに設定されている場合は、自分撮りモードが設定されているか否かによらず、すべての操作における音声コマンド機能を無効にする。このように、操作者に一切の音声コマンド機能の停止を選択させることで、音声コマンドの利用に好適ではない環境においても撮像装置１を利用しやすくすることができる。音声コマンドの利用に好適ではない環境とは、雑音が多く音声認識が困難な環境や、逆に音を立てることが憚られるような場合を含む。図１０は、この場合の音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。図４の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。

ＣＰＵ２０は、音声コマンド機能の使用可否を判定する（Ｓ７０１）。音声コマンド機能の使用可否は、操作者が操作部２３を操作することで指示することができる。指示の有無により、ＣＰＵ２０は、音声コマンド機能の使用可否を判定することができる。音声コマンド機能が使用可である場合（Ｓ７０２：Y）、ＣＰＵ２０は、ステップＳ２０１以降の処理を行う。音声コマンド機能が使用不可である場合（Ｓ７０２：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ７０３）。

以上の処理により、撮像装置１は、操作者の指示に基づいて音声コマンド機能を無効にすることができる。そのために、撮像装置１は音声コマンドの誤認識による処理を抑制することができる。

［第２実施形態］
第２実施形態では、第１実施形態の自分撮りモードが設定されているか否かの判定を操作者の顔認証により行うことで音声コマンド機能の設定を行う。そのために撮像装置１は、顔認証機能を有する。撮像装置１のハードウェア構成は、第１実施形態と同様であるので説明を省略する。図１１（ａ）は、第２実施形態の撮像装置２の機能ブロック図である。図３に示す第１実施形態の撮像装置１と同じ機能には、同じ符号を付している。同じ機能の説明は省略する。

第２実施形態の撮像装置２は、第１実施形態の撮像装置１に顔認証部９０１及び顔データ記憶部９０２を備えた構成となる。顔認証部９０１は、既知の顔認証アルゴリズムを用いた顔認証処理を行う。顔認証の対象となる顔画像は、撮影機構２５で撮影している画像に含まれる顔画像である。顔データ記憶部９０２は、当該撮像装置２の操作者（例えば撮像装置２の所有者）の顔画像のデータ（顔データ）を記憶する。顔データは、予め撮像装置２に記憶される。撮像装置２は、そのための書き換え可能な不揮発性メモリを備える。顔データ記憶部９０２は、この書き換え可能な不揮発性メモリにより構成される。

図１２（ａ）は、顔認証技術を用いた音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。

撮像装置２は、音声コマンド機能の判定処理を開始すると、まず、顔認証部９０１により、撮影機構２５がその時点で撮影している画像に基づいて顔認証処理を行う（Ｓ１００１）。顔認証部９０１は、撮影機構２５が撮影している画像から顔画像を抽出して、顔データ記憶部９０２に記憶される顔データと比較することで、顔認証処理を行う。顔認証の結果、抽出した顔画像が操作者の顔画像である場合（Ｓ１００２：Y）、ＣＰＵ２０は、操作者が被写体であるために、撮像装置２に自分撮りモードが設定されていると判定する。操作者が被写体となっている場合、音声コマンド判定部１０５は、自分撮りモードが設定されており、なおかつ既に音声コマンド機能を有効にする条件が満たされていると判定する。言いかえれば、自分撮りモードに移行すべきか否かの判定と、音声コマンド機能を有効にすべきかの判定が、操作者の顔の検出により一度に判定される。これは、自分撮りモードが設定された時点で、既に被写体となるべき操作者が撮影可能な位置に存在するため、操作者が移動して撮影可能となるという条件が満たされるのを待つ必要がない、あるいは待つ処理は既に終了した、とみなせることを意味している。そのためにＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。

顔認証の結果、抽出した顔画像が操作者の顔画像ではない場合、或いは撮影した画像から顔画像が抽出できない場合（Ｓ１００２：N）、ＣＰＵ２０は、撮像装置２に自分撮りモードが設定されていないと判定する。この場合、音声コマンド機能を有効にすると、例えば図７（ｃ）のように操作者が撮像装置２から離れた位置に移動する間に、音声コマンドの誤認識による処理の可能性がある。そのために、操作者は、操作者以外の被写体を撮影する場合には、音声処理操作ボタン１２を操作することで音声コマンド機能を有効にするタイミングを指定する。自分撮りで撮像装置２から離れた位置に移動する場合には、操作者の顔が認識されたときに、音声コマンド機能が有効になる。
ＣＰＵ２０は、操作入力部１０２から音声処理操作ボタン１２が押下されたことを表す指示が入力されるか否かを判定する（Ｓ５０１）。音声処理操作ボタン１２が押下される場合（Ｓ５０２：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。音声処理操作ボタン１２が押下されない場合（Ｓ５０２：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ５０３）。

以上のように操作者の顔認証技術を用いて音声コマンド機能の設定を行うことで、撮像装置２は音声コマンドの誤認識による処理を抑制することができる。

［第３実施形態］
撮像装置には、背面に設けられるディスプレイ１６を撮像装置の前面側に向けることが可能な構成のものがある。また、スマートフォンのように撮影機構２５を２カ所に備えた装置を撮像装置として用いることも可能である。これらの構成の撮像装置は、操作者がディスプレイ１６により自身の姿を確認しながら自分撮りを行うことができるために、撮影を失敗する可能性が低い。

図１３は、自分撮りの際に操作者が自身の姿を確認することが可能な撮像装置の説明図である。図１３（ａ）は、ディスプレイ１６の向きを変更可能な撮像装置３の例示図である。図１３（ｂ）は、撮像装置３を用いて自分撮りを行うときの様子を表す。図１３（ｃ）は、撮影機構２５を本体のディスプレイ１６が設けられる面（前面）及びその反対の面（背面）の２カ所に備える撮像装置４の例示図である。図１３（ｄ）は、撮像装置４を用いて自分撮りを行うときの様子を表す。自分撮りを行う際には、操作者の顔がディスプレイ１６に表示される。

撮像装置３、４では、いずれも自分撮りを行うときに撮影機構２５（レンズ１０）とディスプレイ１６とが同じ方向を向くことになる。そのために、撮像装置３、４は、撮影機構２５の向き及びディスプレイ１６の向きを確認することで、自分撮りモードが設定されているか否かを判定することができる。図１１（ｂ）は、そのための撮像装置の機能ブロック図である。図１１（ｂ）では、撮像装置３の機能ブロックを示すが、撮像装置４についても同様の機能ブロックとなる。図３に示す第１実施形態の撮像装置１と同じ機能には、同じ符号を付している。同じ機能の説明は省略する。なお、撮像装置３、４のハードウェア構成は第１実施形態と同様であるので説明を省略する。

撮像装置３は、第１実施形態の撮像装置１に顔検出部１２０１及び撮影・表示方向検出部１２０２を備えた構成となる。顔検出部１２０１は、既知の顔画像検出アルゴリズムにより、撮影機構２５で撮影している画像から顔画像を検出する。撮影・表示方向検出部１２０２は、撮影機構２５（レンズ１０）とディスプレイ１６とが同じ方向を向いているか否かを検出する。
図１３（ｂ）の撮像装置３は、ディスプレイ１６の可動部に可動状態を検知するセンサやスイッチ等の可動検知部品を設ける。可動検知部品の状態に応じて、撮影・表示方向検出部１２０２は、撮影機構２５（レンズ１０）とディスプレイ１６とが同じ方向を向いているか否かを検出する。図１３（ｄ）の撮像装置４は、本体の前面及び背面のそれぞれに撮影機構２５を備える。撮影・表示方向検出部１２０２は、実際に撮影を行っている撮影機構２５（レンズ１０）が設けられる面に応じて、撮影機構２５（レンズ１０）とディスプレイ１６とが同じ方向を向いているか否かを検出する。また、撮影機構２５（レンズ１０）及びディスプレイ１６にそれぞれ重力センサを設けておき、その計測結果に応じて、撮影・表示方向検出部１２０２は、撮影機構２５（レンズ１０）とディスプレイ１６とが同じ方向を向いているか否かを検出してもよい。

図１２（ｂ）は、撮影機構２５（レンズ１０）及びディスプレイ１６の向きに応じて音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。この処理では、撮像装置３が、撮影機構２５とディスプレイ１６とが同じ向きか否かにより自分撮りモードが設定されているか否かを判定する。また、撮像装置３は、顔検出の結果に応じて音声コマンド機能の設定を判定する。

撮像装置３は、音声コマンド機能の判定処理を開始すると、まず、撮影・表示方向検出部１２０２により撮影機構２５とディスプレイ１６とが同じ方向を向いているか否かを検出する（Ｓ１３０１）。撮影機構２５とディスプレイ１６とが同じ方向を向いているか否かの判断は、撮影機構２５の撮影範囲に操作者が入るか否かにより行ってもよい。

撮影機構２５とディスプレイ１６とが同じ方向を向いていない場合（Ｓ１３０２：N）、動作モード判定部１０８は、自分撮りモードが設定されていないと判定する。この場合、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。

撮影機構２５とディスプレイ１６とが同じ方向を向いている場合（Ｓ１３０２：Y）、動作モード判定部１０８は、自分撮りモードが設定されていると判定する。この場合、顔検出部１２０１は、その時点で撮影機構２５が撮影している画像から顔画像の検出を行う（Ｓ１３０３）。顔検出部１２０１が顔画像を検出する場合（Ｓ１３０４：Y）、音声コマンド判定部１０５は、音声コマンド機能を有効にする条件が満たされていると判定して、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。顔検出部１２０１が顔画像を検出しない場合（Ｓ１３０４：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。なお、顔検出部１２０１は、被写体の顔が正面を向いた状態で検出できる場合のみ顔画像を検出してもよい。

以上のような処理では、例えば操作者が操作部２３により自分撮りモードを設定した後に、ステップＳ１３０１以降の処理を行うことで、被写体の顔が撮影されるまで音声コマンド機能を無効にすることができる。これにより自分撮りモードの設定から操作者が撮影範囲に入るまでの間の音声コマンドの誤認識による処理を抑制することができる。

なお、単なる顔画像の検出ではなく、検出した顔画像が操作者の顔画像である場合に、音声コマンド機能を有効にする構成であってもよい。図１４（ａ）は、顔認証を行う場合の撮像装置５の機能ブロック図である。撮像装置５の機能ブロックは、図１１（ｂ）の撮像装置３の顔検出部１２０１を、図１１（ａ）の撮像装置２の顔認証部９０１及び顔データ記憶部９０２に置き換えた構成である。各構成の説明は省略する。

図１５（ａ）は、撮像装置５による音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。図１２（ｂ）の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。

撮影機構２５とディスプレイ１６とが同じ方向を向いている場合（Ｓ１３０２：Y）、動作モード判定部１０８は、自分撮りモードが設定されていると判定する。この場合、顔認証部９０１は、撮影機構２５が撮影している画像から顔画像を抽出して、顔データ記憶部９０２に記憶される顔データと比較することで顔認証処理を行う（Ｓ１５０１）。顔認証処理の結果、抽出した顔画像が操作者の顔画像であれば（Ｓ１５０２：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。顔認証処理の結果、操作者の顔画像が認証されなければ（Ｓ１５０２：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。

顔認証を行うことで、単に顔検出を行う場合よりも確実に音声コマンド機能を有効にするタイミングを限定することができる。これにより自分撮りモードの設定から操作者が撮影範囲に入るまでの間の音声コマンドの誤認識による処理を抑制することができる。

［第４実施形態］
音声コマンド機能を有効にするか否かの判定は、操作者の声により行うことも可能である。図１４（ｂ）は操作者の声を用いて音声コマンド機能の判定を行うための撮像装置６の機能ブロック図である。撮像装置６の機能ブロックは、図１１（ｂ）の撮像装置３の顔検出部１２０１を、音声認証部１６０１及び声データ記憶部１６０２に置き換えた構成である。

音声認証部１６０１は、既知の音声認識アルゴリズムを用いた音声認証処理により、話者の認証を行う。話者認証の対象となる音は、マイク１４で集音される。声データ記憶部１６０２は、当該撮像装置６の操作者（例えば撮像装置６の所有者）の声のデータ（音声データ）を記憶する。音声データは、予め撮像装置６に記憶される。撮像装置６は、そのための書き換え可能な不揮発性メモリを備える。声データ記憶部１６０２は、この書き換え可能な不揮発性メモリにより構成される。

図１５（ｂ）は、音声認識技術を用いた音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。図１２（ｂ）の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。

撮影機構２５とディスプレイ１６とが同じ方向を向いている場合（Ｓ１３０２：Y）、動作モード判定部１０８は、自分撮りモードが設定されていると判定する。この場合、音声認証部１６０１は、マイク１４で集音される音と声データ記憶部１６０２に記憶される音声データとを比較することで、話者認証処理を行う（Ｓ１７０１）。話者認証処理の結果、集音した音が操作者の音声であれば（Ｓ１７０２：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。話者認証の結果、入力される音が操作者の音声でなければ（Ｓ１７０２：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。

話者認証処理は、顔認証処理よりも確実な操作者の認証を行うことが可能である。そのために、撮像装置６は、音声コマンド機能を有効にするタイミングを確実に限定することができる。これにより自分撮りモードの設定から操作者が撮影範囲に入るまでの間の音声コマンドの誤認識による処理を抑制することができる。
なお、顔認証、話者認証の他に、被写体の手の動きを検出するジェスチャ検出技術や、被写体の姿勢を検出する姿勢検出技術を用いて、音声コマンド機能が有効か否かの判定を行うようにしてもよい。

［第５実施形態］
音声コマンド機能が有効になった後に、音声コマンド機能を有効にする条件（図４のステップＳ２０３参照）が満たされているか否かの状況が遷移する場合がある。音声コマンド機能が有効になる条件が満たされなくなっても、所定時間だけ音声コマンド機能を有効にする方が、操作者の使い勝手がよい場合がある。例えば、操作者の顔が認証されているときに音声コマンド機能が有効になる場合（図１５（ａ）参照）、操作者が顔認証後に撮像装置から顔を隠すことがある。操作者が撮像装置に背を向けたり、ボード等で顔を隠す場合である。この場合、操作者は音声コマンド機能を使用できなくなる。そのために第５実施形態では、音声コマンド機能が有効になる条件が満たされなくなっても、一定時間だけ音声コマンド機能を有効にする。第５実施形態では、第１実施形態の撮像装置１を用いて処理を行う。

図１６は、第５実施形態の音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。第１実施形態の図４の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。図１６の処理は繰り返し行われており、音声コマンド機能は、その都度、有効又は無効に設定される。

音声コマンド機能を有効にする条件が満たされていなければ（Ｓ２０４：N）、ＣＰＵ２０は、ステップＳ２０２の自分撮りモードの判定後に音声コマンド機能が有効であったか否かを判定する（Ｓ１８０１）。自分撮りモードの設定後に、すぐに音声コマンド機能が一定時間有効になることを防止するためである。

音声コマンド機能が一度も有効になっていなければ（Ｓ１８０１：N）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。音声コマンド機能が一度でも有効になっていれば（Ｓ１８０１：Y）、ＣＰＵ２０は、連続して音声コマンド機能が無効と判定されているか否かを判定する（Ｓ１８０２）。直前の音声コマンド機能の判定結果が有効であれば（Ｓ１８０２：N）、ＣＰＵ２０は、音声コマンド機能が無効にされた時間を計測するタイマを起動して処理を終了する（Ｓ１８０３）。
直前の音声コマンド機能の判定結果が無効であれば（Ｓ１８０２：Y）、ＣＰＵ２０は、タイマを確認して、音声コマンド機能が無効にされてから所定時間が経過したかを判定する（Ｓ１８０４）。所定時間経過した場合（Ｓ１８０４：Y）、ＣＰＵ２０は、音声コマンド機能を無効にして処理を終了する（Ｓ２０５）。所定時間経過していない場合（Ｓ１８０４：N）、ＣＰＵ２０は、音声コマンド機能を変更せずに処理を終了する。

以上のように、音声コマンド機能が一旦有効になった後に音声コマンド機能を有効にする条件が満たされなくなっても、所定時間だけ音声コマンド機能を有効にすることができる。これにより、音声コマンドの誤認識による処理を防止しつつ、操作者の使い勝手を向上することができる。

音声コマンド機能の有効の判定を顔検出に基づいて行う場合（図１２（ｂ）参照）、例えば通行人の顔が一瞬検出されるだけで音声コマンド機能が有効な状態が継続されることがある。これは、音声コマンドの誤認識による処理の可能性を高めることになる。そのために、音声コマンド機能を有効な状態が所定時間継続する場合に音声コマンド機能を有効にするようにしてもよい。

図１７は、このような場合の音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。第１実施形態の図４の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。図１７の処理は繰り返し行われており、音声コマンド機能は、その都度、有効又は無効に設定される。

音声コマンド機能を有効にする条件が満たされていれば（Ｓ２０４：Y）、ＣＰＵ２０は、連続してこの条件が満たされているか否かの判定を行う（Ｓ１９０１）。連続して音声コマンド機能の条件が満たされていなければ（Ｓ１９０１：N）、ＣＰＵ２０は、音声コマンド機能を有効にする条件が満たされた時間を計測するタイマを起動して処理を終了する（Ｓ１９０２）。
連続して音声コマンド機能の条件が満たされていれば（Ｓ１９０１：Y）、ＣＰＵ２０は、タイマを確認して、音声コマンド機能を有効にする条件が満たされてから所定時間が経過したか否かを判定する（Ｓ１９０３）。所定時間経過した場合（Ｓ１９０３：Y）、ＣＰＵ２０は、音声コマンド機能を有効にして処理を終了する（Ｓ２０６）。一定時間経過していない場合（Ｓ１９０３：N）、ＣＰＵ２０は、音声コマンド機能を変更せずに処理を終了する。

なお、音声コマンド機能が一旦有効になった後に音声コマンド機能を有効にする条件が満たされなくなっても、音声コマンド機能を一定時間有効にする図１６の処理を組み合わせて用いてもよい。
以上のように、音声コマンド機能を有効な状態が所定時間継続する場合に音声コマンド機能を有効にすることで、音声コマンドの誤認識による処理の可能性を従来よりも低下させることができる。

［第６実施形態］
図１のようにマイク１４が前面マイク１４ａ、背面マイク１４ｂの２つ設けられる場合、一方を動画撮影用のマイク、他方を音声コマンド機能の集音用のマイクに割り当ててもよい。図１８は、ディスプレイ１６の表示面と同じ面に設けられる背面マイク１４ｂを音声コマンドの集音用のマイクに割り当てた場合の例示図である。

図１８（ａ）は、操作者が撮像装置７を自分の方に向けて撮影する状態を表す。図１８（ｂ）は、図１８（ａ）ときの撮像装置７の背面の例示図である。ディスプレイ１６には撮影中の操作者が被写体として表示される。ディスプレイ１６の近傍に音声コマンドの集音用のマイクに割り当てられた背面マイク１４ｂが設けられる。ディスプレイ１６が操作者に向けられるために、背面マイク１４ｂも操作者に向けられる。また、動画撮影用のマイクに割り当てられた前面マイク１４ａが、被写体である操作者に向けて設けられる。

図１８（ｃ）は、操作者が撮像装置７を保持して自分以外の被写体を撮影する状態を表す。図１８（ｄ）は、図１８（ｃ）のときの撮像装置７の背面の例示図である。ディスプレイ１６には撮影中の被写体が表示される。ディスプレイ１６の近傍に音声コマンドの集音用のマイクに割り当てられた背面マイク１４ｂが設けられる。ディスプレイ１６が操作者に向けられるために、背面マイク１４ｂも操作者に向けられる。また、動画撮影用のマイクに割り当てられた図示しない前面マイク１４ａが、被写体に向けて設けられる。

このように音声コマンドの集音用のマイク（背面マイク１４ｂ）は操作者に向けられ、動画撮影用のマイク（前面マイク１４ａ）は被写体に向けられる。なお、音声コマンド機能用の集音用のマイク（背面マイク１４ｂ）は背景の音をなるべく拾わない単指向性とし、動画撮影用のマイク（前面マイク１４ａ）は全体の音を拾う全指向性と被写体方向の音だけ拾う単指向性の切り替えのできるものにしてもよい。

図１９は、この場合の撮像装置７の機能ブロック図である。撮像装置７の機能ブロックは、図３の撮像装置１の音声入力部１０１を、コマンド音声入力部２１０１及び動画音声入力部２１０２に置き換えた構成である。他の機能は、同じであり、同じ符号を付している。同じ機能の説明は省略する。
コマンド音声入力部２１０１は、音声コマンド機能が有効になっているときにマイク１４が集音する音声を音声コマンドとして受け付ける。動画音声入力部２１０２は、動画撮影時にマイク１４が集音する音声を記録用の音声として受け付ける。

図２０は、撮像装置７による音声コマンド機能が有効か否かの判定を行う処理を表すフローチャートである。第１実施形態の図４の処理と同様の処理には同じステップ番号を付してある。同様の処理については説明を省略する。

ＣＰＵ２０は、音声コマンド機能を無効にするとコマンド音声入力部２１０１の機能を無効にする（Ｓ２２０１）。ＣＰＵ２０は、コマンド音声入力部２１０１の機能の無効化により、音声コマンドの集音用として割り当てられたマイクを無効にしてもよい。ＣＰＵ２０は、音声コマンド機能を有効にすると、コマンド音声入力部２１０１の機能を有効にする（Ｓ２２０２）。ＣＰＵ２０は、コマンド音声入力部２１０１の機能の有効化により、音声コマンドの集音用として割り当てられたマイクを有効にする。

以上のように撮像装置７は、音声コマンド機能が無効の場合には音声コマンドを集音するための部品及び機能を無効にするために、音声コマンドの誤認識による処理の可能性を従来よりも低下させることができる。

［第７実施形態］
自分撮りモードが設定され且つ音声コマンド機能が有効になっている場合、操作者が遠距離から発話すると、背景音とのＳＮ比が大きくなることが想定される。また、自分撮りモードでは操作者が撮像装置に向けて発話することが多く、撮像装置が音声コマンドを誤認識する可能性が高くなる。そこで、自分撮りモードが設定されている場合に、撮像装置は、他の動作モード時の音声コマンドとは異なる音声コマンドとして、誤認識の可能性を低減する。例えば、自分撮りモードの場合の音声コマンドを他の動作モード時の音声コマンドよりも長くして、間違いにくくする。図２１（ａ）は、音声コマンドを長くした例を表す。図２１（ａ）では、キーワード「カメラ」が他の動作モード時の音声コマンドの前に追加される。

例えば、撮像装置１は、自分撮りモードが設定されているとき用の音声コマンドのテーブルと、設定されていないとき用の音声コマンドのテーブルとをＲＡＭ２１に記憶する。各テーブルは、音声コマンド毎に対応づけられた処理の関係を表す。
音声コマンド認識部１０６は、自分撮りモードが設定されているときと、設定されていないときとで、異なるテーブルを用いて音声認識処理を行うことになる。実行部１０７は、音声認識の結果に応じて、音声コマンドに対応づけられた処理を実行する。

また、誤認識により実行される処理が操作者に与える影響に応じて、誤認識の許容度を設定してもよい。影響の少ない処理の音声コマンドほど、誤認識の許容度が高く設定される。例えば「撮影開始」を意味する音声コマンドは、誤認識されても取り消せばよく、影響が少ない。しかし「撮影終了」を意味するコマンドは、誤認識されると操作者が意図しないタイミングで撮影が終了する可能性があるため、それまでの撮影内容を初めから撮り直す等しなくてはならず影響が大きい。そのために影響の大きい音声コマンドほど許容度を低く設定して、音声コマンドとして認識されにくくする。

図２１（ｂ）は、許容度の説明図である。音声コマンド毎に許容度が設定される。図２１（ｂ）では許容度が「高」、「中」、「低」として表されるが、これは数値で表される。例えば、撮像装置１は、音声コマンド毎に対応づけられた処理及び誤認識の許容度を含むテーブルをＲＡＭ２１に記憶する。
撮像装置１は、音声コマンド認識部１０６により音声認識により認識結果として生成する尤度情報を用いて、認識結果の１位と２位との尤度差を算出する。尤度差は数値で表される。実行部１０７は、尤度差が許容度の数値以上であれば、認識した音声コマンドに対応づけられた処理を実行する。実行部１０７は、尤度差が許容度の数値以上でなければ、認識した音声コマンドに対応づけられた処理を実行しない。許容度の高いものは尤度差が小さく、許容度の低いものは尤度差が大きくなる。

このように自分撮りモード用の音声コマンドを用意することで、音声コマンドの誤認識による処理の可能性を低減する。また、音声コマンドに許容度を設定することで、誤認識の場合であっても、操作者への影響を少なくすることができる。

以上の第１実施形態〜第７実施形態は、適宜組み合わせてもよい。

［その他の実施形態］
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵ、ＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

撮影機構により被写体を撮像して画像を生成する撮像手段と、
集音手段を介して入力される音声を受け付ける受付手段と、
前記画像を表示面に表示する表示制御手段と、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段と、
前記画像に含まれる顔画像を検出する顔検出手段と、を備えており、
前記第２判定手段は、前記顔検出手段が顔画像を検出すると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
撮像装置。
撮影機構により被写体を撮像して画像を生成する撮像手段と、
集音手段を介して入力される音声を受け付ける受付手段と、
前記画像を表示面に表示する表示制御手段と、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段と、
操作者の顔画像を記憶する顔データ記憶手段と、
前記画像に含まれる顔画像と前記顔データ記憶手段に記憶された前記操作者の顔画像とにより顔認証を行う顔認証手段と、を備え、
前記第２判定手段は、前記顔認証手段により前記操作者の顔が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
撮像装置。
撮影機構により被写体を撮像して画像を生成する撮像手段と、
集音手段を介して入力される音声を受け付ける受付手段と、
前記画像を表示面に表示する表示制御手段と、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段と、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段と、
操作者の音声を記憶する声データ記憶手段と、
前記集音手段で集音した音と前記声データ記憶手段に記憶された前記操作者の音声とにより話者認証を行う音声認証手段と、を備え、
前記第２判定手段は、前記音声認証手段により前記操作者の音声が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
撮像装置。
前記撮像装置は、前記表示面が前記撮影機構と同方向あるいは反対方向を向くように可動することを特徴とする、
請求項１〜３のいずれか１項に記載の撮像装置。
前記撮像装置は、前記表示面が設けられる面及びその反対の面の２カ所に前記撮影機構が備えられることを特徴とする、
請求項１〜３のいずれか１項に記載の撮像装置。
前記コマンド制御手段は、前記音声コマンド機能を有効にした後に、前記第２判定手段が前記音声コマンド機能を有効にする条件が満たされていないと判定する状態が所定時間継続すると、前記音声コマンド機能を無効にすることを特徴とする、
請求項１〜５のいずれか１項に記載の撮像装置。
前記コマンド制御手段は、前記第２判定手段が所定時間継続して前記音声コマンド機能を有効にする条件が満たされていると判定すると、前記音声コマンド機能を有効にすることを特徴とする、
請求項１〜６のいずれか１項に記載の撮像装置。
前記集音手段は、音声コマンド機能用の第１の集音手段及び撮影用の第２の集音手段であり、
前記コマンド制御手段は、前記音声コマンド機能を有効にすると前記第１の集音手段を有効にし、前記音声コマンド機能を無効にすると前記第１の集音手段を無効にすることを特徴とする、
請求項１〜７のいずれか１項に記載の撮像装置。
前記第１判定手段は、前記撮影機構と前記表示面とが同方向を向く設定である場合、前記撮像装置の動作モードが、操作者が前記撮影機構により自身を撮影するための動作モードである自分撮りモードに設定されていると判定することを特徴とする、
請求項１〜８のいずれか１項に記載の撮像装置。
前記自分撮りモードが設定されているときの、音声と該音声に対応づけられた処理との関係を表す第１のテーブルと、前記自分撮りモードが設定されていないときの、音声と該音声に対応づけられた処理との関係を表す第２のテーブルとを用意しておき、
前記自分撮りモードの設定状態に応じて、前記第１のテーブル又は前記第２のテーブルを用いて、音声に応じた処理を実行する実行手段を備えることを特徴とする、
請求項９に記載の撮像装置。
前記第１のテーブルと前記第２のテーブルとは、前記第１のテーブルの方が、同じ処理について対応づけられる音声が長いことを特徴とする、
請求項１０に記載の撮像装置。
前記集音手段によって集音された音声に対する音声認識処理に基づいて、前記所定の処理に対応づけられた音声の入力を認識する認識手段と、
音声毎に対応づけられた処理及び数値で表される誤認識の許容度を含むテーブルを用意しておき、
前記音声認識処理により生成される数値で表される尤度情報が前記許容度の数値以上であれば、認識した音声に対応づけられた処理を実行し、前記尤度情報が前記許容度の数値以上でなければ、認識した音声に対応づけられた処理を実行しない実行手段を備えることを特徴とする、
請求項１〜１１のいずれか１項に記載の撮像装置。
撮影機構により被写体を撮像して画像を生成する撮像手段と、集音手段を介して入力される音声を受け付ける受付手段と、前記画像を表示面に表示する表示制御手段と、を備えた装置により実行される方法であって、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定し、
前記撮影機構と前記表示面とが反対方向を向く設定であると判定した場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とし、
前記撮影機構と前記表示面とが同方向を向く設定であると判定した場合に、前記画像に含まれる顔画像を検出すると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
音声コマンド機能の設定方法。
撮影機構により被写体を撮像して画像を生成する撮像手段と、集音手段を介して入力される音声を受け付ける受付手段と、前記画像を表示面に表示する表示制御手段と、操作者の顔画像を記憶する顔データ記憶手段と、を備えた装置により実行される方法であって、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定し、
前記画像に含まれる顔画像と前記顔データ記憶手段に記憶された前記操作者の顔画像とにより顔認証を行い、
前記撮影機構と前記表示面とが反対方向を向く設定であると判定した場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とし、
前記撮影機構と前記表示面とが同方向を向く設定であると判定した場合に、前記操作者の顔が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
音声コマンド機能の設定方法。
撮影機構により被写体を撮像して画像を生成する撮像手段と、集音手段を介して入力される音声を受け付ける受付手段と、前記画像を表示面に表示する表示制御手段と、操作者の音声を記憶する声データ記憶手段と、を備えた装置により実行される方法であって、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定し、
前記集音手段で集音した音と前記声データ記憶手段に記憶された前記操作者の音声とにより話者認証を行い、
前記撮影機構と前記表示面とが反対方向を向く設定であると判定した場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とし、
前記撮影機構と前記表示面とが同方向を向く設定であると判定した場合に、前記操作者の音声が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定することを特徴とする、
音声コマンド機能の設定方法。
撮影機構及び集音手段を備えたコンピュータを、
前記撮影機構により被写体を撮像して画像を生成する撮像手段、
前記集音手段を介して入力される音声を受け付ける受付手段、
前記画像を表示面に表示する表示制御手段、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段、
前記画像に含まれる顔画像を検出する顔検出手段、として機能させ、
前記第２判定手段に、前記顔検出手段が顔画像を検出すると、前記音声コマンド機能を有効にする条件が満たされたと判定させる、
コンピュータプログラム。
撮影機構及び集音手段を備えたコンピュータを、
前記撮影機構により被写体を撮像して画像を生成する撮像手段、
前記集音手段を介して入力される音声を受け付ける受付手段、
前記画像を表示面に表示する表示制御手段、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段、
操作者の顔画像を記憶する顔データ記憶手段、
前記画像に含まれる顔画像と前記顔データ記憶手段に記憶された前記操作者の顔画像とにより顔認証を行う顔認証手段、として機能させ、
前記第２判定手段に、前記顔認証手段により前記操作者の顔が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定させる、
コンピュータプログラム。
撮影機構及び集音手段を備えたコンピュータを、
前記撮影機構により被写体を撮像して画像を生成する撮像手段、
前記集音手段を介して入力される音声を受け付ける受付手段、
前記画像を表示面に表示する表示制御手段、
前記撮影機構と前記表示面とが反対方向を向く設定であるか、または同方向を向く設定であるかを判定する第１判定手段、
前記第１判定手段により、前記撮影機構と前記表示面とが反対方向を向く設定であると判定された場合に、所定の処理に対応づけられた音声の入力に応じて当該処理を実行する音声コマンド機能を有効とするコマンド制御手段、
前記第１判定手段により、前記撮影機構と前記表示面とが同方向を向く設定であると判定された場合に、前記音声コマンド機能を有効にする条件が満たされたか否かを判定する第２判定手段、
操作者の音声を記憶する声データ記憶手段、
前記集音手段で集音した音と前記声データ記憶手段に記憶された前記操作者の音声とにより話者認証を行う音声認証手段、として機能させ、
前記第２判定手段に、前記音声認証手段により前記操作者の音声が認証されると、前記音声コマンド機能を有効にする条件が満たされたと判定させる、
コンピュータプログラム。
請求項１６、１７、又は１８記載のコンピュータプログラムを格納したコンピュータが読み取り可能な記憶媒体。