JP2019186630A

JP2019186630A - 撮像装置及びその制御方法及びプログラム

Info

Publication number: JP2019186630A
Application number: JP2018071918A
Authority: JP
Inventors: 祐介鳥海; Yusuke Chokai; 規久夫風間; Kikuo Kazama; 田中　伸彦; Nobuhiko Tanaka; 伸彦田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2019-10-24
Also published as: US20190306401A1; CN110351476A; US11265477B2; CN110351476B; US20200304718A1; US10715736B2

Abstract

【課題】音声ではなく、ユーザは撮像装置を叩く操作を行うことで、その叩く位置に応じた方向に撮像方向を向けることを可能にする。【解決手段】撮像方向が可変の撮像部を有する撮像装置であって、音源方向を特定するための複数のマイクで構成される音声入力部と、音声入力部で入力した音声データが示す音声コマンドを認識する認識部と、音声入力部から入力した音声データに基づき、音源の方向を検出する音方向検出部と、認識した音声コマンドに基づく撮像にかかる処理を行う制御部とを有する。また、撮像装置の筐体への接触による振動を検出する振動検出部を有する。そして、制御部は、振動検出部により予め設定された強度の振動を検出した場合には、接触により発生した音の方向を音方向検出部で検出させることで筐体への接触の位置を求め、当該接触の位置から特定される方向に撮像部の撮像方向を設定する。【選択図】図１

Description

本発明は、撮像装置及びその制御方法及びプログラムに関するものである。

カメラ等の撮像装置による静止画・動画撮影では、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整し、画像を撮影するのが一般的である。このような撮像装置には、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。

一方、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが存在する（特許文献１）。ライフログカメラは、ストラップ等でユーザの身体に装着された状態で用いられ、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録するものである。ライフログカメラによる撮影は、ユーザがシャッターを切るなどの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影を行うため、普段撮影しないような不意な瞬間を映像として残すことができる。

特表２０１６−５３６８６８号公報

ライフログカメラの撮影被写体の検出方法の一つとして音方向検知による探索が知られている。ライフログカメラに供えられた集音部等に入力される音声情報から音声の到来方向を検知することで、画角外に存在する被写体を検出することが可能となる。

また、ライフログカメラの制御方法の一つとして音声認識によるカメラ制御が知られている。ある特定の単語をある特定の制御に関連付けることで、釦やＵＩの操作なく操作者の音声で撮影開始の指示などを制御することが可能となる。

しかしながら、ライフログカメラがユーザの身体に装着された状態では、音声による撮影開始の指示を行っても、取り付け部位によっては装着者の位置関係が不正確に認識され、意図した方向の撮影が行えないという問題が起きやすい。

本発明は上述した課題に鑑みてなされたものであり、撮像装置をユーザにとって望む方向に向かうように設定可能にする技術を提供しようとするものである。

この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、
撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御手段は、
前記振動検出手段により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出手段で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定することを特徴とする。

第１の発明によれば、音声ではなく、ユーザは撮像装置を叩く操作を行うことで、その叩く位置に応じた方向に撮像方向を向けることが可能になる。

第２の発明によれば、予め設定された音声コマンドを発声して撮像装置の設置する位置を決めることで、ユーザにとっての前方となる方向を設定できるようになる。

また、第３の発明によれば、予め設定された音声コマンドを発声し、望む方向を顔を向ける操作を行うだけで、特定の音声コマンドを発しした際に撮像する方向を登録することができる。

実施形態に係る撮像装置のブロック図。実施形態に係る音声入力部と音声信号処理部の詳細ブロック図。実施形態に係る撮像装置の外観図と使用例を示す図。実施形態に係る撮像装置のパン動作とチルト動作を示す図。、実施形態における中央制御部の処理手順を示すフローチャート。図５Ｂにおける音声コマンド処理の詳細を示すフローチャート。実施形態における音声コマンドの意味と音声コマンドとの関係を示す図。実施形態における起動時から動作撮影開始コマンドに至るまでのタイミングチャート。実施形態に係る音方向検知法を説明するための図。撮像装置の真上に音源が存在する場合の検出法を説明するための図。第１の実施形態における設置位置の検出処理を示すフローチャート。第１の実施形態における前方判定処理を示すフローチャート。第１の実施形態における前方判定の処理を説明するための図。第１の実施形態における前方判定の処理を説明するための図。第１の実施形態における前方判定の処理を説明するための図。第２の実施形態における前方判定と設置位置の判定処理を示すフローチャート。第２の実施形態における、撮像装置を首掛けしている際の前方範囲を示す図。第２の実施形態における、撮像装置を肩掛けしている際の前方範囲を示す図。第３の実施形態における撮影方向の登録処理を説明するための図。第３の実施形態における撮影方向の登録処理を示すフローチャート。

以下図面に従って本発明に係る実施形態を詳細に説明する。

［第１の実施形態］
図１は、第１の実施形態に係る撮像装置１のブロック構成図である。撮像装置１は、光学レンズユニットを含み、撮像する撮像方向（光軸方向）が可変の可動撮像部１００、及び、可動撮像部１００の駆動制御および、撮像装置全体を制御する中央制御部（ＣＰＵ）を含む支持部２００で構成される。

なお、支持部２００は、圧電素子を含む複数の振動体１１〜１３が可動撮像部１００の面に対し接触するように設けられている。これらの振動体１１〜１３の振動の制御により、可動撮像部１００がパン、チルト動作を行うことになる。なお、パン、チルト動作はサーボモータ等で実現しても構わない。

可動撮像部１００は、レンズ部１０１、撮像部１０２、レンズアクチュエータ制御部１０３、及び、音声入力部１０４を有する。

レンズ部１０１は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部１０２は、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子を含み、レンズ部１０１により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部１０３は、モータドライバＩＣを含み、レンズ部１０１のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部２００内の中央制御部２０１より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部１０４はマイクロフォン（以降マイク）を含む音声入力部であり複数のマイク（実施形態では４つ）で構成されており、音声信号を電気信号にさらにデジタル信号（音声データ）に変換して出力する。

一方、支持部２００は、撮像装置１の全体の制御を行うための中央制御部２０１を有する。この中央制御部２０１は、ＣＰＵと、ＣＰＵが実行するプログラムを格納したＲＯＭ、及び、ＣＰＵのワークエリアとして使用されるＲＡＭで構成される。また、支持部２００は、撮像信号処理部２０２、映像信号処理部２０３、音声信号処理部２０４、操作部２０５、記憶部２０６、表示部２０７を有する。更に、支持部２００は、入出力端子部２０８、音声再生部２０９、電源部２１０、電源制御部２１１、位置検出部２１２、回動制御部２１３、無線通信部２１４、並びに、先に説明した振動体１１〜１３を有する。

撮像信号処理部２０２は、可動撮像部１００の撮像部１０２から出力された電気信号を映像信号へ変換する。映像信号処理部２０３は、撮像信号処理部２０２から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体（顔）を検出する被写体検出処理も含まれる。

音声信号処理部２０４は、音声入力部１０４からのデジタル信号に対して音声処理を行う。音声入力部１０４が電気アナログ出力であれば、音声信号処理部２０４において、電気アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部１０４を含めた音声信号処理部２０４の詳細については図２を用いて後述する。

操作部２０５は、撮像装置１とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部２０６は、撮影により得られた映像情報などの種々のデータを記憶する。表示部２０７は、ＬＣＤなどのディスプレイを備え、映像信号処理部２０３から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部２０７は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部２０８は、外部装置との間で通信信号および映像信号を入出力する。音声再生部２０９はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部２１０は、撮像装置の全体（各要素）の駆動に必要な電力供給源であり、実施形態では充電可能なバッテリであるものとする。

電源制御部２１１は、撮像装置１の状態に応じて、上記の各構成要素への電源部２１０からの電力の供給／遮断を制御するものである。撮像装置１の状態によっては、不使用の要素が存在する。電源制御部２１１は、中央制御部２０１の制御下で、撮像装置１の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給／遮断については、後述する説明から明らかにする。

位置検出部２１２はジャイロ、加速度センサ、ＧＰＳといった撮像装置１の動きを検出する。この位置検出部２１２は、撮像装置１がユーザに身に着ける場合にも対処するためである。回動制御部２１３は、中央制御部２０１からの指示に従って振動体１１〜１３を駆動する信号を生成し、出力する。振動体１１〜１３は圧電素子で構成され、回動制御部２１３から印加される駆動信号に応じて振動する。振動体１１〜１３は、回動駆動部（パン・チルト駆動部）を構成する。この結果、可動撮像部１００は、中央制御部２０１が指示した方向に、パン動作、チルト動作することになる。

無線部２１４はＷｉｆｉやＢＬＥなどの無線規格に準拠して画僧データ等のデータ送信を行う。

次に、実施形態における音声入力部１０４および音声信号処理部２０４の構成と、音方向検出処理を図２を参照して説明する。同図は、音声入力部１０４および音声信号処理部２０４の構成と、音声信号処理２０４、中央制御部２０１及び電源制御部２１１の接続関係を示している。

音声入力部１０４は、４つの無指向性のマイク（マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄ）で構成される。各マイクはＡ／Ｄコンバータを内蔵しており、予め設定されたサンプリングレート（コマンド検出、方向検出処理：１６ＫＨｚ、動画録音：４８Ｋｈｚ）で音声をサンプリングし、内蔵のＡ／Ｄコンバータによりサンプリングした音声信号をデジタルの音声データとして出力する。なお、実施形態では音声入力部１０４は４つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部２０４内に、対応するＡ／Ｄコンバータが設ければ良い。また、実施形態におけるマイクの数は４つとするが、３つ以上であれば良い。

マイク１０４ａは、撮像装置１の電源がＯＮの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄは、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象となっており、撮像装置１の電源がＯＮとなった初期状態では、電力は遮断されている。

音声信号処理部２０４は、音圧レベル検出部２０４１、音声用メモリ２０４２、音声コマンド認識部２０４３、音方向検出部２０４４、動画用音声処理部２０４５、及び、コマンドメモリ２０４６で構成される。

音圧レベル検出部２０４１は、マイク１０４ａからの音声データが表す出力レベルが予め設定された閾値以上となったとき、音声検出を表す信号を電源制御部２１１及び音声用メモリ２０４２に供給する。

電源制御部２１１は、音圧レベル検出部２０４１から音声検出を表す信号を受信した場合、音声コマンド認識部２０４３への電力供給を行う。

音声用メモリ２０４３は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、この音声用メモリ２０４３は、マイク１０４ａからの音声データを一時的に記憶するバッファメモリである。この音声用メモリ２０４３は、少なくとも、最長の音声コマンドを比較的ゆっくり発声した場合の全サンプリングデータを記憶可能な容量を有する。マイク１０４ａによるサンプリングレートが１６ＫＨｚであり、１サンプリングにつき２バイト（１６ビット）の音声データを出力し、最長の音声コマンドが仮に５秒であった場合、音声用メモリ２０４３は、約１６０Ｋバイト（≒５×１６×１０００×２）の容量を有する。また、音声用メモリ２０４３は、マイク１０４ａからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ２０４３は、直近の所定期間（上記例では約５秒）の音声データが保持されることになる。また、音声用メモリ２０４３は、音圧レベル検出部２０４１から音声検出を示す信号を受信したことをトリガにして、マイク１０４ａからの音声データをサンプリングデータ領域に格納していく。

コマンドメモリ２０４６は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶保持（登録）されている。詳細は後述するが、コマンドメモリ２０４６に格納される音声コマンドの種類は例えば図８に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報が格納されている。

音声コマンド認識部２０４３は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。なお、音声認識そのものは周知であるので、ここでの説明は省略する。この音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照し、音声用メモリ２０４２に格納された音声データの認識処理を行う。そして、音声コマンド認識部２０４３は、マイク１０４ａにより集音した音声データが、音声コマンドであるか否か、並びに、いずれの登録音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部２０４３は、コマンドメモリ２０４６に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報、並びに、音声用メモリ２０４３内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス（或いはタイミング）を中央制御部２０１に供給する。

音方向検出部２０４４は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部２０４４は、内部にバッファメモリ２０４４ａを有し、検出した音源方向を表す情報をバッファメモリ２０４４ａに格納する。なお、音方向検出部２０４４による音方向検出処理を行う周期（例えば１６Ｋｈｚ）は、マイク１０４ａのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ２０４４ａは、音声用メモリ２０４２に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。

動画用音声処理部２０４５は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。動画用音声処理部２０４５は、４つのマイクのうち、マイク１０３ａとマイク１０４ｂの２つの音声データをステレオ音声データとして入力し、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ＡＬＣ（ＡｕｔｏＬｅｖｅｌＣｏｎｔｒｏｌ）、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、実施形態ではマイク１０４ａはステレオマイクのＬチャネル用マイク、マイク１０４ｂはＲチャネル用マイクとして機能する。

なお、図２では、音声入力部１０４の各マイクと音声信号処理部２０４に含まれる各ブロックとの接続は消費電力や回路構成を考慮し、４つのマイクにおける必要最低限で表している。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部２０４に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク１０４ａを基準のマイクとして接続しているが、どのマイクを基準としも構わない。

図３（ａ）乃至（ｅ）を参照して、撮像装置１の外観図および使用例を説明する。同図（ａ）は、実施形態に係る撮像装置１の外観の上面及び正面図を示している。撮像装置１の可動撮像部１００は、略半球体形であり、水平を０度したとき、−２０度から垂直方向を示す９０度の範囲の切欠き窓を有し、図示矢印Ａが示す水平面にて３６０度に亘って回動可能な第１の筐体１５０を有する。また、可動撮像部１００は、この切欠き窓に沿って図示の矢印Ｂが示す水平から垂直の範囲内で、レンズ部１０１及び撮像部１０２と一緒に回動可能な第２の筐体１５１を有する。ここで、第１の筐体１５０の矢印Ａの回動動作はパン動作、第２の筐体１５１の矢印Ｂの回動動作はチルト動作に対応し、これらは振動体１１〜１３の駆動によって実現している。なお、実施形態における撮像装置のチルト可能な範囲は、上記の通り、-２０度から＋９０度の範囲であるものとする。

マイク１０４ａ、１０４ｂは、第１の筐体１５０の切欠き窓を挟む前面側の位置に配置されている。また、マイク１０４ｃ、１０４ｄは、第１の筐体１５０の後方側に設けられている。図示からもわかるように、第２筐体１５２を固定にした状態で、第１筐体１５０を矢印Ａに沿ってどの方向にパン動作させたとしても、レンズ部１０１及び撮像部１０２に対する、マイク１０４ａ、１０４ｂの相対的な位置は変わらない。つまり、撮像部１０２の撮像方向に対して左側にマイク１０４ａが常に位置し、右側にマイク１０４ｂが常に位置することになる。それ故、撮像部１０２による撮像して得た画像が表す空間と、マイク１０４ａ，１０４ｂによる取得した音場は一定の関係を維持できることになる。

なお、実施形態における４つのマイク１０４ａ、１０４ｂ、１０４ｃ、１０３ｄは、撮像装置１の上面から見て、図３（ａ）に示すように長方形の各頂点の位置に配置されている。また、これら４つのマイクは、図３（ａ）における１つの水平面上に位置するものとするが、多少のずれがあっても構わない。

マイク１０４ａとマイク１０４ｂとの距離は、マイク１０４ａとマイク１０４ｃとの距離よりも大きい。なお、隣合うマイク間の距離は、１０ｍｍ〜３０ｍｍ程度が望ましい。また、実施形態ではマイクの数を４としているが、直線上に並ばないという条件を満たせば、マイクの数は３以上であれば構わない。また、図３（ａ）のマイク１０４ａ乃至１０４ｄの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約によって適宜変更しても構わない。

図３（ｂ）乃至（ｅ）は、実施形態における撮像装置１の利用形態を示している。図３（ｂ）は、机などの固定物に撮像装置１に載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とするものである。図３（ｃ）は、撮像装置１を、撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とするものである。図３（ｄ）は、撮像装置１を撮影者の肩に固定した使用例であり、図示の場合は、撮影者の周囲の前後、及び、右側の撮影を目的とするものである。そして、図３（ｅ）は、撮像装置１をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置（高所や手が届かない位置）に撮像装置１を移動させることで、撮影を行うことを目的とするものである。

図４（ａ）乃至（ｃ）を用いて、本実施形態の撮像装置１のパン、チルトの動作を更に詳しく説明する。ここでは図３（ｂ）のように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。

図４（ａ）はレンズ部１０１が水平を向いている状態を示している。図４（ａ）を初期状態とし、第１筐体１５０を、上方向から見て反時計回りに９０度パン動作させると、図４（ｂ）のようになる。一方、図４（ａ）の初期状態から、第２筐体１５１の９０度チルト動作をおこなうと、図４（ｃ）の様になる。第１筐体１５０、第２筐体１５１の回動は、先に説明したように、回動制御部２１３により駆動される振動体１１〜１３による振動にて実現している。

次に、実施形態における撮像装置１の中央制御部２０１の処理手順を図５Ａ，５Ｂのフローチャートに従って説明する。同図に係る処理は、撮像装置１のメイン電源がＯＮ、もしくはリセットされた場合の中央制御部２０１の処理を示している。

中央制御部２０１は、ステップＳ１０１にて、撮像装置１の初期化処理を行う。この初期化処理にて、中央制御部２０１は、現在の可動撮像部１００の撮像部１０２の撮像方向における、水平面内の方向成分をパン動作の基準角度（０度）として決定する。

これ以降、可動撮像部１００のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部２０４４が検出する音源方向のうちの水平面の成分も、上記基準角度に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部２０４４は、撮像装置１の真上の方向（パン動作の回転軸の軸方向）に音源があるか否かの判定も行う。

なお、この段階で、音声用メモリ２０４２、音方向検出部２０４４、動画用音声処理部２０４５、並び、マイク１０４ｂ乃至１０４への電力は遮断されている。

初期化処理を終えると中央制御部２０１は、ステップＳ１０２にて、電源制御部２１１を制御して、音圧レベル検出部２０４１、マイク１０４ａへの電力の供給を開始する。この結果、音圧レベル検出部２０４１は、マイク１０４ａでサンプリングされた音声データに基づく音圧検出処理を実行し、予め設定された閾値を超える音圧レベルの音声データを検出したときにその旨を中央制御部に通知することになる。なお、この閾値は、例えば６０dB SPL（Sound Pressure Level）とするが、撮像装置１が環境等に応じて変更しても良いし、必要な周波数帯域だけに絞るようにしても良い。

中央制御部２０１は、ステップＳ１０３にて、音圧レベル検出部２０４１による閾値を超える音圧を表す音声データが検出されるのを待つ。閾値を超える音圧の音声データが検出されると、ステップＳ１０４にて、音声メモリ２０４２はマイク１０４ａからの音声データの受信、格納処理を開始する。

また、ステップＳ１０５にて、中央制御部２０１は、電源制御部２１１を制御し、音声コマンド認識部２０４３への電力供給を開始する。この結果、音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照した音声用メモリ２０４２に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部２０４３は、音声用メモリ２０４２に格納された音声データの認識処理を行い、コマンドメモリ２０４６内のいずれかの音声コマンドと一致すると認識した場合、その認識された音声コマンドを特定する情報と、音声用メモリ２０４３内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス（或いはタイミング）情報とを含む情報を中央制御部２０１に通知することになる。

ステップＳ１０６にて、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１０８に進め、音声コマンド認識部２０４３を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部２０１は、音声コマンド認識部２０４３による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部２０４３が音声コマンドを認識しなかった場合、中央制御部２０１は処理をステップＳ１０９に進める。このステップＳ１０９にて、中央制御部２０１は、電源制御部２１１を制御して音声コマンド認識部２０４３への電力を遮断する。そして、中央制御部２０１は、処理をステップＳ１０３に戻す。

一方、中央制御部２０１が、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップＳ１０７に進める。このステップＳ１０７にて、中央制御部２０１は、認識された音声コマンドが、図８に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部２０１は処理をステップＳ１０８に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部２０１は処理をステップＳ１０７からステップＳ１１０に進める。

ステップＳ１１０にて、中央制御部２０１は、電源制御部２１１を制御し、音方向検出部２０４４、マイク１０４ｂ乃至１０４ｄへの電力供給を開始する。この結果、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの同時刻の音声データに基づく、音源方向の検出処理を開始することになる。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部２０４４は、検出した音方向を示す音方向情報を、内部のバッファメモリ２０４４ａに格納していく。このとき、音方向検出部２０４４は、音方向情報を決定に利用した音声データのタイミングが、音声メモリ２０４２に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ２０４４ａに格納する。典型的には、バッファメモリ２０４４ａに格納するのは、音方向と、音声メモリ２０４２内の音声データのアドレスとすれば良い。なお、音方向情報には、水平面における、先に説明した基準角度に対する音源の方向との差を表す角度とする。また、詳細は後述するが、音源が撮像装置１の真上に位置する場合には、真上方向にあることを示す情報が音方向情報にセットされるものとする。

ステップＳ１１１にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、及び、レンズアクチュエータ制御部１０３への電力供給を開始する。この結果、可動撮像部１００は、撮像装置としての機能し始めることになる。

次に、ステップＳ１５１にて、中央制御部２０１は、音声コマンド認識部２０４３から、新たな音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１５２に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。詳細は図６のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等がジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。

ステップＳ１５３にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部２０１は処理をステップＳ１５４に進める。このステップＳ１５４にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、レンズアクチュエータ１０３への電力を遮断する。そして、中央制御部２０１は、ステップＳ１５５にて、電源制御部２１１を制御し、音方向検出部２０４４への電力も遮断し、処理をステップＳ１０６に戻す。

さて、中央制御部２０１が音声コマンド認識部２０４３から新たな音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部２０４３は、処理をステップＳ１５１からステップＳ１５６に進める。

実施形態における中央制御部２０１は、認識した音声コマンドに応じたジョブを実行するに先立って、音声コマンドの発生した人物を、可動撮像部１００の撮像部１０２の視野内に入れる処理を行う。そして、撮像部１０２の視野内に人物が入っている状態で、認識した音声コマンドに基づくジョブを実行する。

上記を実現するため、中央制御部２０１は、ステップＳ１５６にて、音声コマンド認識部２０４３で認識された音声コマンドに同期する音方向情報を、音方向検出部２０４４のバッファメモリ２０４４ａから取得する。音声コマンド認識部２０４３は、先に説明したように、音声コマンドを認識したとき、音声用メモリ２０４２内の音声コマンドを表す先頭と終端を表す２つのアドレスを中央制御部２０１に通知する。そこで、中央制御部２０１は、この２つのアドレスが示す期間内で検出した音方向情報をバッファメモリ２０４４ａから取得する。２つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部２０１はその中の時間的に最も後の音方向情報をバッファメモリ２０４４ａから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物の現在の位置を表している蓋然性が高いからである。

ステップＳ１５７にて、中央制御部２０１は、取得した音情報が表す音源の方向が、撮像装置の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの判定についての詳細は項後述する。

音源が撮像装置１の真上の方向にある場合、中央制御部２０１は処理をステップＳ１５８に進める。このステップＳ１５８にて、中央制御部２０１は、回動制御部２１３を制御し、レンズ部１０１及び撮像部１０２の撮像方向を図４（ｃ）に示す真上方向になるように、可動撮像部１００の第２筐体１５１を回動させる。撮像部１０２の撮像方向が真上方向になった場合、中央制御部２０１は、ステップＳ１５９にて、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（人物の顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在する場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。なお、このステップＳ１６４の詳細は図６を用いて後述する。

ステップＳ１５７にて、中央制御部２０１が、音情報が示す方向が真上以外の方向であると判定した場合、処理をステップＳ１６０に進める。このステップＳ１６０にて、中央制御部２０１は、回動制御部２１３を制御して、可動撮像部１００のパン動作を行い、現在の撮像部１０２の水平面の角度を、音情報が示す水平面の角度に一致させる。そして、ステップＳ１６１にて、中央制御部２０１は、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１６２に進め、回動制御部２１３を制御して、目標とするチルト角に向かって予め設定された角度だけ可動撮像部１００のチルト動作を行う。そして、ステップＳ１６３にて、中央制御部２０１は、撮像部１０２の撮像方向のチルト角が、チルト動作の上限（実施形態では水平方向に対して９０度）に到達したか否かを判定する。否の場合には、中央制御部２０１は処理をステップＳ１６１に戻す。こうして、中央制御部２０１は、チルト動作を行いながら、像信号処理部２０３からの撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定していく。そして、撮像部１０２の撮像方向のチルト角がチルトの上限に到達してもオブジェクトが検出されない場合、中央制御部２０１は処理をステップＳ１６３からステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在した場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。

次に、図６のフローチャート、並びに、図７に示す音声コマンドテーブルに基づいて、ステップＳ１６４の処理の詳細を説明する。図７の音声コマンドテーブルに示される“Hi, Camera"等の音声コマンドに対応する音声パターンデータはコマンドメモリ２０４６に格納されるものである。なお、図７には音声コマンドとして代表的な数例示しているが、この数に特に制限はない。また、以下の説明における音声コマンドは、図５ＢのステップＳ１５１のタイミングで検出された音声コマンドである点に注意されたい。

まず、ステップＳ２０１にて、中央制御部２０１は、音声コマンドが、起動コマンドであるか否かを判定する。

この起動コマンドは、撮像装置１に対し、撮像可能な状態に遷移させる音声コマンドである。この起動コマンドは、図５ＡのステップＳ１０７で判定されるコマンドであり、撮像に係るジョブではない。よって、中央制御部２０１は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップＳ１５１に戻す。

ステップＳ２０２にて、中央制御部２０１は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部２０１は、認識した音声コマンドが停止コマンドである場合には、処理をステップＳ２１１に進める。ステップＳ２１１にて、中央制御部２０１は、電源制御部２１１を制御し、既に起動している撮像部１０２、音方向検出部２０４４、音声コマンド認識部２０４３、動画用音声処理部２０４５、マイク１０４ｂ乃至１０４ｄ等への電力を遮断し、これらを停止する。そして、中央制御部２０１は、処理を起動時のステップＳ１０３に戻す。

ステップＳ２０３にて、中央制御部２０１は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置１に対して１枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部２０１は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップＳ２１２に進める。ステップＳ２１２にて、中央制御部２０１は、撮像部１０２で撮像した１枚の静止画像データを例えばＪＰＥＧファイルとして、記憶部２０６に格納する。なお、この静止画撮影コマンドのジョブが、１枚の静止画撮影記録により完結するので、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとはならない。

ステップＳ２０４にて、中央制御部２０１は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置１に対して動画像の撮像と記録を要求するコマンドである。中央制御部２０１は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップＳ２１３に進める。このステップＳ２１３にて、中央制御部２０１は、撮像部１０２による動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。実施形態では、撮像した動画像は記憶部２０６に格納されるものとするが、外部入出力端子部２０８を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップＳ１５２で判定する対象のジョブとなる。

ステップＳ２０５にて、中央制御部２０１は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

ステップＳ２０６にて、中央制御部２０１は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置１に対して、撮像部１０２の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部２０１は、音声コマンドが追尾コマンドであると判定した場合、処理をステップＳ２１４に進める。そして、ステップＳ２１４にて、中央制御部２０１は、映像信号処理部２０３で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部２１３の制御を開始する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。この結果、可動撮像部１００がパン動作、或いはチルト動作を行い、移動するユーザを追尾することになる。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部２０１はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。

ステップＳ２０７にて、中央制御部２０１は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

ステップＳ２０８にて、中央制御部２０１は、音声コマンドが自動動画撮影コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが自動動画撮影コマンドであると判定した場合、処理をステップＳ２１７に進める。このステップＳ２１７にて、中央制御部２０１は、撮像部１０２による動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。この自動動画撮影コマンドと、先に説明した動画撮影コマンドとの違いは、この自動動画撮影コマンドのジョブが開始された場合、これ以降は、発声がある度に、その発声の音源の方向にレンズ部１０１の撮像方向を向けつつ動画像を撮影、記録を行う点である。例えば、複数の話者が存在するミーティングの環境下で、発言があるたびにその発言者をレンズ部１０１の画角内に収めるために、パン動作、チルト動作を行いながら、動画像を記録する。なお、この場合、自由な発言が許すことになるので、一旦、この自動動画撮影コマンドのジョブを終了させる音声コマンドはない。このジョブの終了は、操作部２０５に設けられた所定のスイッチ操作によって終了するものとする。また、このジョブを実行中、中央制御部２０１は、音声コマンド認識部２０４３は停止させる。そして、中央制御部２０１は、音圧レベル検出部２０４１により、閾値を超える音圧レベルを検出したタイミングでの、音方向検出部２０４４が検出した音方向情報を参照して、可動撮像部１０４のパン動作、チルト動作を行うことになる。

ステップＳ２０９にて、中央制御部２０１は、音声コマンドが間欠前方撮影コマンドであるか否かを判定する。例えば、“前方を撮影して”といった音声コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが間欠前方撮影コマンドであると判定した場合、処理をステップＳ２１７に進める。このステップＳ２１７にて、中央制御部２０１は、撮像装置１の装着者の前方を予め設定された時間間隔で静止画を撮影するジョブを実行中、前方の撮影を間欠的に継続することになるので、そのジョブを終了させるコマンドはない。このジョブの終了は、操作部２０５に設けられた所定のスイッチ操作によって終了するものとする。また、ステップＳ２１７における処理に移行する際には、撮像装置１は装着者の前方を判定した上で、そのジョブを実行する。その前方判定処理についての詳細は後述する。

なお、図６には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在の倍率を増加させる。また、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在の倍率を減少させる。なお、レンズ部１０１が既にテレ端、或いは、ワイド端にあるとき、それを超えた拡大率、縮小率は設定できないので、このような音声コマンドがあった場合、中央制御部２０１はその音声コマンドを無視する。

以上であるが、上記以外の音声コマンドについては、ステップＳ２０７以降で実行されるが、ここでの説明は省略する。

ここで、実施形態における撮像装置１におけるメイン電源ＯＮからの処理のシーケンスの一例を図８に示すタイミングチャートに従って説明する。

撮像装置１のメイン電源がＯＮになると、音圧レベル検出部２０４１はマイク１０４ａからの音声データの音圧レベルの検出処理を開始する。タイミングＴ６０１にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部２０４１が閾値以上の音圧を検出する。そして、これがトリガになって、タイミングＴ６０２にて、音声用メモリ２０４２がマイク１０４ａからの音声データの格納を開始し、音声コマンド認識部２０４３が音声コマンドの認識を開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングＴ６０３にて、音声コマンド認識部２０４３がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。

中央制御部２０１は、この起動コマンドが認識されたことをトリガにして、タイミングＴ６０３にて音方向検出部２０４４に電力供給を開始する。また、中央制御部２０１は、タイミングＴ６０４にて撮像部１０２への電力供給も開始する。

ユーザは、タイミングＴ６０６にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングＴ６０７から順に音声用メモリ２０４２に格納されていく。そして、タイミングＴ６０８にて、音声コマンド認識部２０４３が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部２０４３は、音声用メモリ２０４２内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部２０１に通知する。中央制御部２０１は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部２０１は、音方向検出部２０４４のバッファ２０４４ａ内の、有効範囲内から、最新の音方向情報を抽出し、タイミングＴ６０９にて、その抽出した情報に基づいて、駆動制御部２１３を制御して、可動撮像部１００のパン動作、チルト動作を開始する。

可動撮像部１００のパン動作、チルト動作中に、タイミングＴ６１２にて、撮像部１０２で撮像画像に被写体（オブジェクト；顔）を検出したとする。中央制御部２０１はパン動作、チルト動作を停止する（タイミングＴ６１３）。また、タイミングＴ６１４にて、中央制御部２０１は、動画用音声処理部２０４５に電力を供給して、マイク１０４ａ、及び、１０４ｂによるステレオ音声の収音状態にする。そして、中央制御部２０１は、タイミングＴ６１５にて、音声付動画像の撮像と記録を開始する。

次に、実施形態における音方向検出部２０４４による音源方向の検出処理を説明する。この処理は、図５ＡのステップＳ１１０以降、周期的に、且つ、継続的に行われるものである。

まず、図９（ａ）を用いて、マイク１０４ａとマイク１０４ｂの２つのマイクを用いた簡易の音方向検知を説明する。同図は、マイク１０４ａとマイク１０４ｂが平面上（仮想平面上）に配置されているとする。マイク１０４ａとマイク１０４ｂの距離をｄ［ａ‐ｂ］と表す。距離ｄ［ａ‐ｂ］に対して、撮像装置１と音源間の距離は十分に大きいと仮定する。この場合、マイク１０４ａとマイク１０４ｂの音声を比較することによって、両者間の音声の遅延時間を特定することができる。

到達遅延時間に音速（空気中は３４０ｍ／ｓ）を乗じることで、距離ｌ［ａ‐ｂ］を特定することができる。その結果、次式で音源方向角度θ［ａ‐ｂ］を特定することができる。
θ［ａ‐ｂ］＝ａｃｏｓ（ｌ［ａ‐ｂ］／ｄ［ａ‐ｂ］）
しかしながら、２つのマイクで求めた音方向は、求めた音源方向とθ［ａ‐ｂ］’との区別ができない。つまり、２つの方向のいずれであるのかまでは特定できないことになる。

そこで、実施形態における音源の方向の検出方法を以下、図９（ｂ）、（ｃ）を用いて説明する。具体的には、２つのマイクで推定できる音源方向は２つあるので、それら２つの方向を仮方向として扱う。そして、更なる２つのマイクで音源の方向を求め、仮方向を２つ求める。そして、これらに共通している方向が、求める音源の方向として決定する。なお、図９（ｂ）、（ｃ）の上方向を可動撮像部１００の撮像方向とする。可動撮像部１００の撮像方向は、レンズ１０１の光軸方向（主軸方向）とも言い換えられる。

図９（ｂ）は３つのマイクで行う方式である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３で示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ部１０１の撮像方向となる。

図９（ａ）で説明したように、マイク１０４ａ、マイク１０４ｂより、距離ｄ［ａ‐ｂ］は既知であり、音声データより距離ｌ［ａ‐ｂ］を特定することができれば、θ［ａ‐ｂ］を特定できる。さらにマイク１０４ａ、マイク１０４ｃ間の距離ｄ［ａ‐ｃ］も既知であるので、音声データより距離ｌ［ａ‐ｃ］も特定することができ、θ［ａ‐ｃ］を特定できる。θ［ａ‐ｂ］及びθ［ａ‐ｃ］が算出できれば、マイク１０４ａ，１０４ｂ、１０４ｃの配置と同一２次元平面上（仮想平面上）における、それらに共通な方角が、正確な音声発生方向として決定できる。

図９（ｃ）を用いて、４つのマイクで音源方向を決定する方法を説明する。図３に示すマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄの配置により、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ１０１の撮像方向（光軸方向）となる。マイク４つを利用する場合、対角線上に位置するマイク１０４ａと１０４ｄのペアと、マイク１０ｂとマイク１０４ｃのペアの２つのペアを用いると精度よく音源方向を算出できる。

マイク１０４ａ、マイク１０４ｄ間の距離ｄ［ａ‐ｄ］は既知であるので、音声データから距離ｌ［ａ‐ｄ］を特定できるので、θ［ａ‐ｄ］も特定できる。

更にマイク１０４ｂ、マイク１０４ｃ間の距離ｄ［ｂ‐ｃ］も既知であるので、音声データより距離ｌ［ｂ‐ｃ］を特定できるので、θ［ｂ‐ｃ］を特定できる。

よって、θ［ａ‐ｄ］及びθ［ｂ‐ｃ］がわかれば、マイクの配置と同一２次元平面上では正確な音声発生方向を検知することが可能である。

さらに、θ［ａ‐ｂ］、θ［ｃ‐ｄ］と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。

以上のよう処理を行うため、マイク１０４ａとマイク１０４ｂとマイク１０４ｃおよびマイク１０４ｄは図３のように長方形の４つの頂点に配置した。なお、マイクの数が３つであっても、それらが直線状に並ばないのであれば、必ずしも４つである必要はない。

上記の方法のデメリットとして、同一２次元平面上の音方向しか検知しかできない。そのため、音源が撮像装置１の真上に位置する場合には、その方向を検出できず、不定となってしまう。そこで、次に、音方向検出部２０４４における、音源の存在する方向として真上であるか否かの判定原理を図１０を参照して説明する。

図１０（ａ）は３つのマイクで行う方式である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３(ａ）で示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並び方向に直交する方向がレンズ１０１の撮像方向（光軸方向）である。マイク１０４ａ、マイク１０４ｂの並び方向とは、マイク１０４ａの中心点とマイク１０４ｂの中心点とを結ぶ直線の方向である。

音声入力部１０４の配置されている平面に対して、垂直に交わる直線状、すなわち上方向から音声が入ってきたときについて記載する。

ここで、撮像装置１の真上に音源が位置する場合、その音源からマイク１０４ａとマイク１０４ｂは等距離にあると見なせる。つまり、音源からこれら２つのマイク１０４ａと１０４ｂに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｂを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

さらに、マイク１０４ａとマイク１０４ｃも同様に音源からは等距離にあると見なせるので、やはり音源からこれら２つのマイク１０４ａと１０４ｃに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

つまり、マイク１０４ａとマイク１０４ｂで検出した音の時間差の絶対値をΔＴ１とし、マイク１０４ａとマイク１０４ｃで検出した音の時間差の絶対値をΔＴ２とし、予め設定された十分に小さい閾値εとの関係が次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ１＜ε かつ ΔＴ２＜ε
図１０（ｂ）を参照し、４つのマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄを用いた、撮像装置１の真上に位置する音源の検出法を説明する。図３（ａ）に示すように、マイク１０４ａ、マイク１０４ｄのペアと、マイク１０４ｂとマイク１０ｃのペアについて考察する。

撮像装置１の真上に音源が存在する場合、その音源からマイク１０４ａとマイク１０４ｄは等距離になるので、これらマイク１０４ａとマイク１０４ｄで検出する音の時間差の絶対値ΔＴ３はゼロか、非常に小さい値となる。つまり、マイク１０４ａとマイク１０４ｄを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。

さらに、マイク１０４ｂとマイク１０４ｃも、音源からは等距離になるため、これらマイク１０４ｂとマイク１０４ｃで検出する音の時間差の絶対値ΔＴ４もゼロか、非常に小さい値となる。つまり、マイク１０４ｂとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。故に、次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ３＜ε 且つ ΔＴ４＜ε
以上のように、３つ以上のマイクのうちの２つのペアについて、音の到達時間差の絶対値を求め、それら２つの絶対値が共に十分に小さい閾値以下となった場合に、音源の存在方向を真上であると決定できる。なお、２つのペアを決めるとき、それら２つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでも良い。

以上、第１の実施形態を説明した。上記実施形態によれば、音方向検出部２０４４が順に検出しつつある音方向情報のうち、音声コマンド認識部２０４３が認識した音声コマンドの元になった音声データの先頭と終端で示される期間の音方向情報が示す方向に音声コマンドを発した被写体が存在するとして判定する。この結果、音声コマンドを発声した人物（の顔）以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。

更に、上記実施形態で説明したように、マイク１０４ａ乃至１０４ｄ、音声信号処理部２０４を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部２０１の制御の元で電力供給が行われるので、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。

次に、上記実施形態の説明を踏まえ、具体的な利用形態を説明する。図３（ｂ）乃至（ｅ）に示すように、実施形態における撮像装置１の利用形態は様々である。

ここで、例えば、図３（ｂ）の様に、ユーザの首にぶら下げる場合について考察する。この場合、レンズ部１０１の撮像方向（光軸方向）がユーザの体方向に向くと、意味の無い画像を撮像してしまうのは容易に理解できよう。それ故、レンズ部１０１の撮像方向（光軸方向）は、ユーザにとって常に前方に向かうことが望ましい。この場合、図３（ａ）に示すように、４つのマイクのうち、マイク１０４ｃ、１９４ｄがユーザの体に触れる可能性が高い。つまり、このマイク１０４ｃ、１０９４ｄが、ユーザの衣類とのこすれ音を集音する可能性が高くなり、４つのマイクでの音方向検出部２０４４による音方向検出の際の支障を来す。そこで、本実施形態では、撮像装置１をユーザの首にぶら下げる利用形態の場合、中央制御部２０１は、マイク１０４ｃ、１０４ｄへの電力を遮断すると共に、音方向検出部２０４４に対し、マイク１０４ａ、１０４ｂの２つのみを用いた音方向検出を行うよう指示する。この場合、図９（ａ）を参照して説明した、２つのマイクのみでの音源方向を求めると音源方向が２つ検出されてしまうという問題は無い。なぜなら、音源方向は、少なくともユーザの前方の範囲内にあると見なして良いからである。つまり、音方向検出部２０４４は、マイク１０４ａ、１０４ｂの２つのみを用い、且つ、計算上は２つの音方向を検出するものの、前方にある１つを有効な音源方向として検出する。なお、ユーザの体の有る方向の検出は、例えば首にぶら下げられていると判定した後、３６０度（一周）のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度（例えば１８０度）の範囲をユーザの存在する方向として決定すればよい。また、中央制御部２０１は、決定した方向を記憶部２０６に基準方向として保存する。

次に、図３（ｄ）の様に、ユーザの肩に装着する場合についても考察する。この場合、４つのマイクのうち、いずれか１つがユーザの頭に近い位置になり、ユーザの頭、或いは衣類に接する可能性が高くなる。そこで、この場合には、４つのマイクのうち、ユーザの頭に近い１つを音方向検出の際に不使用(電源ＯＦＦ）とし、残り３つで音源方向を検出する。一旦、ユーザの肩に撮像装置１を装着（固定）した場合、ユーザの動きとは無関係に、撮像装置１とってのユーザの頭の相対方向は変化しない。そこで、中央制御部２０１は、この方向をユーザの頭の方向として記憶部２０６に記憶する。そして、中央制御部２０１は、４つのマイクのうち、記憶した方向とレンズ部１０１の撮像方向（光軸方向）に基づき、ユーザの頭に近い側の１つのマイクを方向検出に不使用（電力を遮断）とし、且つ、音方向検出部２０４４には残りの３つマイクを用いて方向検出を行うように設定する。なお、ユーザの頭の有る方向の検出は、例えば肩に装着されていると判定した後、３６０度のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度（例えば９０度）の範囲をユーザの存在する方向として決定すればよい。また、中央制御部２０１は、測距した距離の最短となる方向（ユーザの頭の方向）は記憶部２０６に基準方向として保存する。

そして、図３（ｂ）、（ｅ）の利用形態の場合、音方向検出部２０４４は４つのマイクを用いた音方向検出を行えば良い。

ここで、図３（ｂ）乃至（ｅ）のいずれの利用形態とするかは、ユーザが支持部２００の操作部２０５から設定する。ただし、ユーザが操作部２０５により、オート検出モードを設定した場合、中央制御部２０１による利用形態の自動検出を行う。以下、オート検出モードが設定されている場合の中央制御部２０１の自動検出の処理を説明する。

実施形態における、位置検出部２１２はジャイロセンサ、加速度センサ、ＧＰＳセンサといった撮像装置１の動きを検出する構成を有することは既に説明した。そこで、撮像装置１のメイン電源がＯＮになり、図５ＡのステップＳ１０１の初期化処理後は、基本的に図３（ｂ）の状態、すなわち、撮像装置１は固定状態にあるとして、音方向検出部２０４４が音方向検出を行う。

一方、図５ＡのステップＳ１０１の初期化処理後に、ユーザが撮像装置１を持ってその利用形態を決める操作を行うと、当然、位置検出部２１２の加速度センサやジャイロ等のセンサにより閾値以上の変化を検出することになる。また、ユーザがこの操作を行うタイミングは、撮像装置１のメイン電源の投入した初期段階のタイミングとなるであろう。そこで、位置検出部２１２は、初期化処理後の予め設定された期間内にセンサのうちの１つでも閾値以上の変化を検出した場合、ユーザによる撮像装置１の設置操作を行っていると推定し、中央制御部２０１に割り込み信号を発する。

図１１に示すフローチャートは、この割り込み処理（撮像装置１の設置位置の検出処理）を示している。以下、同図を参照して、中央制御部２０１の処理を説明する。

まず、ステップＳ１１０１にて、位置検出部２１２が有する各センサが出力してくるデータを、予め設定された期間分、記憶部２０６に保存を行う。この保存する期間は、ユーザが利用形態に係る操作を完了するまでに十分な時間が望ましい（例えば１分）。

この保存期間を終えると以下に説明するように、中央制御部２０１は、保存したデータに基づく、撮像装置１の設置位置判定を行い、音方向検出部２０４４による音方向検出法を決定する。なお、以下の説明にて、ｘ、ｙ軸が表す平面は、撮像装置１にとっての水平面を表し、ｚ軸は撮像装置１のパン動作の回転軸の軸方向を表すものとして説明する。

ユーザは、撮像装置１を肩に装着する場合、ｘ，ｙ，ｚ軸のいずれかの方向への移動量が図３（ｂ）、（ｃ）、（ｅ）と比較し、かなり大きくなる傾向がある。それ故、中央制御部２０１は、ステップＳ１１０２にて、保存されたｘ、ｙ、ｚ軸それぞれの加速度のいずれかが予め設定された閾値を超えるか否かを判定する。閾値を超える角速度があった場合、中央制御部２０１は、撮像装置１がユーザの肩に装着されたものと推定し、ステップＳ１１０３にて、ユーザの頭部に近い１つのマイクを除く、残り３つのマイクによる音方向検出法（又はルール）に従って音源方向の検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

ステップＳ１１０２にて、ｘ、ｙ、ｚ軸のいずれの方向の加速度も閾値以下であった場合、中央制御部２０１は処理をステップＳ１１０４に進める。

首にぶら下げる場合、肩載せに比べ、ｘ、ｙ、ｚ、方向への移動量が小さくなる傾向がある。且つ、撮像装置１を首にかける為には、図３（ｃ）に示す通り、上下をひっくり返す動作が必要になる。このため、首にかける動作を行う場合は、ある特定軸の角速度が大きくなる傾向がある。また、ｚ軸回りの回転は少ない。

そこで、ステップＳ１１０４にて、中央制御部２０１は、ｘ、ｙ、ｚ軸に沿った角速度の検出と閾値比較を行う。具体的には、ｚ軸に対する角速度（ヨー）が予め設定された閾値以下であり、且つ、ｘ軸、或いはｙ軸に対する角速度（ロール、ピッチ）が予め設定された閾値以上であるか判定を行う。

この条件を満たす場合、中央制御部２０１は、撮像装置１はユーザの首にぶら下げられているものと推定する。そして、中央制御部２０１は、４つのマイクのうち、マイク１０４ａ，１０４ｂの２つのマイクのみを用い、且つ、マイク１０４ｃ，１０４ｄとは逆方向が音源の存在位置であるものと見なす音方向検出法にしたがった音源方向検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

一方、ステップＳ１１０４にて、ヨー方向の角速度が閾値以上である、又は、ロールまたはピッチの角速度が閾値以下であると判定された場合、中央制御部２０１がステップ１１０６にて、撮像装置１が、ユーザの手で適当な位置に固定されたものと見なす。それ故、中央制御部２０１は、ステップＳ１１０６にて、４つのマイクを用いた音方向検出法に従って音源方向の検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

固定状態は、肩載せ、首かけに見られるような移動がほとんど発生しない。このためいずれにも該当しない場合は、固定と判定できる。

なお、ユーザが撮像装置の位置決め作業を終えた場合、操作部２０５からのその旨の指示入力を行うことで、その作業終了を中央制御部２０１に通知するようにしても良い。また、設置位置の設定は、無線部２１４を経由し、ＰＣや携帯端末から該設定を行ってもよい。

次に、実施形態における間欠前方撮影モード（図６のステップＳ２１６）に移行する前段階で行われる前方判定処理を図１２のフローチャートに従って説明する。本処理は、図１１で説明した、撮像装置１の設置位置の検出処理の後に行われるものでもある。

間欠前方撮影モードに移行した場合、これ以降は検出する音源の方向とは無関係に、中央制御部２０１は、撮像装置１を装着している装着者にとっての前方の静止画を例えば１０秒間隔で撮影していく。このためには、中央制御部２０１は、可動撮像部１００の撮像方向（光軸方向）を装着者の前方が示す方向と一致させるため、装着者にとっての「前方」が示す方向を判定しなければならない。そこで、実施形態の撮像装置１を装着しているユーザ（装着者）は、ユーザにとっての前方を示す方向に対応する、撮像装置１上の位置を叩く操作と、所定の音声を発生することを行う。撮像装置１の中央制御部２０１は、かかる叩く操作による振動とのその音、及び、音声に基づき、ユーザにとって前方の方向を判定し、その方向に可動撮像部１００の撮像方向（光軸方向）を一致させる処理を行う。係る処理が中央制御部２０１が行う前方判定処理である。

なお、ここでは、間欠前方撮影モードに移行する場合を例示したが、装着者にとっての前方の静止画を１回だけ撮影する静止画前方撮影モード、装着者にとっての前方の動画を撮影する動画前方撮影モードに移行する場合も同様の処理を行ってもよい。例えば、“前方を静止画撮影して”、“前方を間欠撮影して”、“前方を動画撮影して”といった音声コマンドを判別できるようにしてもよい。

まず、ステップＳ１２０１にて、中央制御部２０１は、撮像装置１の振動検知が行われる。ここでは、撮像装置１の筐体を軽く叩くことで発生する微小な変位を位置検出部２１１が検知し、入力レベル（振動強度）があらかじめ設定された閾値範囲内であれば、撮像装置１を叩いた振動、すなわち叩き操作による振動であると判定する。なお、ここでは位置検出部２１１が振動を検出するものとしているが、別途振動検出用のセンサを用意し、それを用いて検出するようにしても良い。

ステップＳ１２０１の処理と並行して、ステップＳ１２０２にて、中央制御部２０１は、撮像装置１の筐体を叩いたときに発生する叩き音の発生方向の検出処理を行う。具体的には、音圧レベル検出部２０４１による叩いた際の音のレベルが閾値以上であり、その際の音を音方向検出部２０４４により検出する。叩き音は、撮像装置１の表面を想定しているので、マイク１０４ａ〜１０４ｄとの距離は非常に近い。そこで、実施形態では、マイク１０４ａに対する音方向を検出するものとする。

そして、ステップＳ１２０３にて、中央制御部２０１は、ステップＳ１２０１における叩き操作有りと判定し、且つ、ステップＳ１２０２による叩き操作による音の発生方向が検出されたとき、その音方向をθ１として、内部メモリ或いは記憶部２０６に記録する。

続いて、ステップＳ１２０４、Ｓ１２０５にて、中央制御部２０１は、予め設定された特定のキーワードの発声検出を音声コマンド認識部２０４３に行わせ、そのキーワードの発声源方向の検出を音方向検出部２０４４により行わせる。そして、ステップＳ１２０６にて、中央制御部２０１は、特定のキーワードが検出され、且つ、その際に検出した音方向をθ２として、内部メモリ或いは記憶部２０６に記録する。

ステップＳ１２０７にて、中央制御部２０１は、前述のθ１、θ２が予め設定された条件を満たすか否かを判定する。そして、条件を満たしていると判定した場合、ステップＳ１２０８にて、装着者の前方を示す方向を導出する。そして、ステップＳ１２０９にて、中央制御部２０１は、導出した方向に、可動撮像部１００の撮像方向（光軸方向）を導出した方向になるように回動制御部２１３を制御する。

例えば、撮像装置１が首かけの場合に、叩き音の発生した方向θ１と音声認識した方向θ２が正対していると導出されたとき、中央制御部２０１は、撮像装置１の筐体の中心と、叩き音の発生した方向θ１と撮像装置１の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。

また、撮像装置１が肩載せの場合に、叩き音の発生した方向θ１と音声認識した方向θ２が９０°ずれていると導出されたときは、中央制御部２０１は、撮像装置１の筐体の中心と、叩き音の発生した方向θ１と撮像装置１の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。

また、撮像装置１が固定の場合に、叩き音の発生した方向θ１と音声認識した方向θ２が同じ方向であると導出されたときは、中央制御部２０１は、撮像装置１の筐体の中心と、叩き音の発生した方向θ１と撮像装置１の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。

なお、上記のいずれの条件も満たされない場合、撮像装置１の設定位置判定に誤りがある、もしくは、叩く位置に誤りがあるものとし、中央制御部２０１は設置位置の設定処理や叩く操作を行わせても良い。

図１３Ａ乃至１３Ｃは、各取り付け部位における撮影開始位置検知の処理を説明した概念図である。

図１３Ａを参照して、図３（ｃ）のように撮像装置１を首かけした場合の前方判定を説明する。

まず、図１３Ａ（ａ）に示すように、中央制御部２０１はマイク１０４ａによる叩き音方向θ１を検出すると、その叩き音方向θ１を基点とする撮像装置１の筐体の表面を示す半円形の方向範囲１１０１を設定する。そして、中央制御部２０１は、マイク１０４ａから方向θ１に向かう線分と方向範囲１１０１との交点位置を叩き位置１１０４として推定する。そして、中央制御部２０１は、図１３Ａ（ｂ）にて、方向範囲１１０１と正対する方向範囲１１０２から特定キーワードの検出方向θ２が検出された場合、図１３Ａ（ｃ）に示す様に、撮像装置１の中心１１００と、推定した叩き位置１１０４とを結ぶ方向１１０３を、装着者の前方を示す方向であると判定する。

次に図１３Ｂを参照して、図３（ｄ）のように撮像装置１を肩載せの場合の前方判定を説明する。

図１３Ｂ（ａ）に示すように、中央制御部２０１はマイク１０４ａによる叩き音方向θ１を検出すると、その叩き音方向θ１を基点とする撮像装置１の筐体の表面を示す半円形の方向範囲１１０１を設定する。そして、中央制御部２０１は、マイク１０４ａから方向θ１に向かう線分と方向範囲１１０１との交点位置を叩き位置１１０４として推定する。そして、中央制御部２０１は、図１３Ｂ（ｂ）に示すように、方向範囲１１０１と正対する方向範囲１１０２から特定キーワードの検出方向θ２が検出された場合、図１３Ｂ（ｃ）に示すように、撮像装置１の中心１１００と、推定した叩き位置１１０４とを結ぶ方向１１０３を、装着者の前方を示す方向であると判定する。

次に図１３Ｃを参照して、図３（ｂ）のように固定の場合の前方判定を説明する。

図１３Ｃ（ａ）に示すように、中央制御部２０１はマイク１０４ａによる叩き音方向θ１を検出すると、その叩き音方向θ１を基点とする撮像装置１の筐体の表面を示す半円形の方向範囲１１０１を設定する。そして、中央制御部２０１は、マイク１０４ａから特定メッセージの検出方向θ２が方向範囲１１０１と同じ方向範囲１２０１内にあるとき、図１３Ｃ（ｃ）に示すように、撮像装置１の中心１１００と、推定した叩き位置１１０４とを結ぶ方向１１０３を、装着者の前方を示す方向であると判定する。

以上説明したように、実施形態によれば、ユーザにとって望む方向に撮像装置１の撮像方向を向けることが可能となる。なお、上記実施形態では、間欠前方撮影を示す音声コマンドを発声する例を説明したが、前方固定を行わせるコマンドを発声した場合に上記の図１２の処理を行い、その上で静止画撮影コマンドや動画像撮影コマンドを発声した場合、その方向を維持したまま静止画や動画像を撮影記録を行うようにしても良い。また、元の音声発生源の在る方向に可動撮像部１００の撮像方向を向けるモードに復帰する特別な音声コマンドを設けるようにしても良いし、そのモードに復帰するためのスイッチを用意しても良い。また、音声による起動コマンドを認識して起動するのではなく、位置検出部２１１が振動検知したことに応じて撮像装置１がスタンバイ状態から起動状態に移行して、図１２のＳ１２０１以降の処理を行うようにしてもよい。

［第２の実施形態］
上記第１の実施形態では、ユーザの前方判定を、間欠前方撮影を行う音声コマンドを発声することで行ったが、撮像装置１の電源投入初期時に、撮像装置１の設置位置の判定とユーザ（撮像装置の装着者）の前方判定を同時に行うようにしても良い。この結果、間欠前方撮影を指示する音声コマンドを発声した場合には、直ちに中央制御部２０１は撮像装置１の撮像方向を、初期時に設定した前方に向かうように制御し、間欠撮影を開始できるようになる。

装置構成は第１の実施形態と同じであるものとし、以下では、異なる点について説明する。

図１４は、本第２の実施形態における中央制御部２０１の処理を示すフローチャートである。同図は、図５ＡのステップＳ１１１の直後からの処理（起動コマンドを認識した場合）を示している。故に、ステップＳ１４０１以前については第１の実施形態を参照されたい。

ステップＳ１４０１にて、中央制御部２０１は、撮像装置１が撮影者の身に着けられているかどうかの判断を行う。撮像装置１はジャイロや加速度センサといった撮像装置１の動きを検出する位置検出部２１２を有している。ジャイロや、加速度センサの出力値があらかじめ決められた値よりも大きければ、撮像装置１が撮影者の身に着けられている状態であると判断し、ステップＳ１４０３に移行する。またジャイロや、加速度センサの出力値があらかじめ決められた値よりも小さければ、撮像装置１が撮影者の身に着けられておらず、撮影者以外のどこかに設置されている状態であると判断し、処理をステップＳ１４１１に移行する。

ステップＳ１４１１に移行した場合、中央制御部２０１は撮像装置１が固定状態であると判断し、前方の方向を特に規定しない。

ステップＳ１４０３に処理が進んだ場合、中央制御部２０１は、可動撮像部１００を３６０°水平方向に回転（パン）させて、撮像装置１の周囲３６０°の撮影画像を得て、ステップＳ１４０４に移行する。この時、可動撮像部１００の合焦距離を３０ｃｍ程度に固定して周囲３６０°の画像を得ると、多くの場合３０ｃｍより近い撮影者の体に対してピントが合わない。このため、コントラストが低い画像が容易に得られ、コントラストが高くなる撮影可能範囲と、コントラストが低くなる撮影不可能範囲の判別が容易になる。中央制御部２０１は、例えば、コントラストが予め定められた閾値以上の撮影可能範囲と、閾値未満の撮影不可能範囲の判別を行う。ただし、中央制御部２０１は、ピントが合う撮影可能範囲と、ピントが合わない撮影不可能範囲の判別を行ってもよい。例えば、中央制御部２０１は、可動撮像部１００からオートフォーカス制御の結果を示す情報として、ピントが被写体に合ったか否かを示す情報や、ピントがあった合焦位置を示す情報等を取得して、ピント状態を判別してもよい。

撮影可能範囲と撮影不可能範囲の判別については、上記で説明したコントラストでの判別だけではなく、位相差ＡＦ（Auto Focus）センサを利用しても良い。位相差ＡＦセンサは、レンズから入った光を２つに分けて専用のセンサに導き、結像した２つの画像の間隔からピントの方向と量を判断することができる。被写体までの距離がわかるため、例えば被写体が３０ｃｍより遠くにいる領域を撮影可能範囲、被写体が３０ｃｍよりも近くにいる領域を撮影不か領域として判別することができる。以上のように、コントラスト方式、位相差ＡＦ方式に限らず、撮影可能範囲と撮影不可能範囲が判別できればどのような方法でも良く、特に方式は限定しない。

ステップＳ１４０４において、中央制御部２０１は、ステップＳ１４０３３で水平方向に３６０°撮影した画像を分析して、撮影可能範囲の検出を行ない、ステップＳ１４０５に移行する。

ステップＳ１４０５にて、中央制御部２０１は、撮像装置１が首掛け状態かどうかの判断を行う。

図１５は、撮影者が撮像装置１を首から提げて身に着けている状態（首掛け）の模式図である。撮影者１５０１が撮像装置１を首掛け状態でぶら下げているとき、第１の撮影可能範囲１５０２は約１８０°、撮影者１５０１が撮像装置１を起動するときに発した声の方向は、撮像装置１から見てほぼ真上である。撮像装置１から見て、ほぼ真上からの音はマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄそれぞれのマイクに同時に到達するため位相差による音方向検知を行っても音方向の情報は「無し」と判断される。

このようにして、第１の撮影可能範囲１５０２が約１８０°かつ音方向検知結果が無しである場合には、中央制御部２０１は、撮影者１００１が撮像装置１を首掛け状態で身に着けていると判定する。本第２の実施形態における中央制御部２０１は、撮影可能範囲１５０２が１８０°±４５°である場合に首掛け状態で身に着けていると判定し、ステップＳ１４０６に処理を移行する。

ステップＳ１４０６にて、中央制御部２０１は、撮影可能範囲と音方向情報から前方方向を規定する。ステップＳ１４０５で、撮影可能範囲１５０２が１８０°±４５°かつ音方向検知結果が「無し」との情報を得ていた場合、撮影可能範囲１５０２の中央が撮影者１００１の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部２０６に格納する。

ステップＳ１４０７にて、中央制御部２０１は、撮像装置１が右肩乗せ状態かどうかの判断を行う。

図１６（ａ）は、撮影者が撮像装置を右肩乗せで身に着けている状態の模式図である。撮影者１５０１が撮像装置１を右肩乗せ状態で身に着けているとき、撮影可能範囲１６０１ａは約３１５°となる。そして、撮影者１５０１が撮像装置１を起動するときに発した声の方向は、撮影不可能範囲１６０１ｂの中央の位置から時計回りに所定量以上にずれた方向にある。

このようにして、撮影可能範囲１６０１ａが約３１５°かつ、音方向検知結果が撮影不可能範囲１６０１ｂの中央より時計回りにずれた方向になるとき、中央制御部２０１が、撮影者１００１が撮像装置１を右肩乗せ状態で身に着けていると判定する。本第２の実施形態においては、撮影可能範囲１６０１ａが３１５°±４５°である場合に右肩乗せ状態で身に着けていると判定し、ステップＳ１６０８に移行する。

ステップＳ１６０８にて、中央制御部２０１は、撮影不可能範囲と音方向情報から正面を規定する。ステップＳ１６０７にて、撮影可能範囲１６０１が３１５°との情報を得ていた場合、残りの４５°が撮影不可能領域となる。図１６（ａ）より、撮影不可能領域が撮影者１００１の頭部であると考えると、撮影不可能領域の中央から時計回りに９０°の方向が撮影者１００１の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部２０６に格納する。

ステップＳ１４０９にて、中央制御部２０１は、撮像装置１が左肩乗せ状態かどうかの判断を行う。

図１６（ｂ）は、撮影者が撮像装置を左肩乗せで身に着けている状態の模式図である。撮影者１５０１が撮像装置１を左肩乗せ状態で身に着けているとき、撮影可能範囲１６０１ａは約３１５°、撮影者１５０１が撮像装置１を起動するときに発した声の方向は、撮像不可能範囲１６０１ｂの中央より反時計回りにずれた方向になるとき、中央制御部２０１が、撮影者１００１が撮像装置１を左肩乗せ状態で身に着けていると判定する。本第２の実施形態においては、撮影可能範囲１６０１ａが３１５°±４５°であり、音方向が撮像不可能範囲１６０１ｂの中央から反時計回りにずれた方向になるとき、右肩乗せ状態で身に着けていると判定し、ステップＳ１６０８に移行する。

ステップＳ１６１０にて、中央制御部２０１は、撮影不可能範囲と音方向情報から正面を規定する。ステップＳ１４０９にて撮影可能範囲１６０１ａが３１５°との情報を得ていた場合、残りの４５°が撮影不可能領域となる。図１６（ｂ）より、撮影不可能領域が撮影者１００１の頭部であると考えると、撮影不可能領域の中央位置から反時計回りに９０°の方向が撮影者１００１の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部２０６に格納する。

以上の結果、本第２の実施形態によれば、音声による起動コマンドを発声しつつ、撮像装置の位置決め操作を行うだけで、撮像装置の設置位置、並びに、ユーザにとっての前方方向を決定できることになる。従って、間欠前方撮影を指示する音声コマンドを認識した場合には、中央制御部２０１は可動撮像部１００の撮像方向を直ちにその方向に一致するように制御し、撮像に備えることが可能になる。

なお、ステップＳ１４１１に処理が進んだ場合、或いは、ステップＳ１４０９にて左肩乗せと判定できなかった場合、前方方向が未定の状態で各種音声コマンドに応じた処理を行うことになる。それ故、ユーザが、「前方」が示す方向が必要な音声コマンドを発声し、且つ、前方が未定であった場合（記憶部２０６に前方を示す方向を示す情報が格納されていない場合）には、第１の実施形態で説明した図１２の処理を実行しても良い。

［第３の実施形態］
先に説明した第１の実施形態では、撮像装置１の撮像方向（光軸方向）をユーザの望む方向（第１の実施形態では前方）に向けるため、そのユーザは撮像装置１の、その望む方向を示す位置を叩く操作を行った。つまり、ユーザは自身以外の方向に撮像装置１を向けるためには、撮像装置１に手が届く範囲内に居る必要がある。本第３の実施形態では、撮像方向を指示するユーザと撮像装置１との距離が、手が届く距離よりも隔てている場合にも行えるようにする例を、図１７、図１８を参照して説明する。なお、装置構成は第１の実施形態と同じであるものとし、その説明は省略する。

図１７は、本第３の実施形態における撮像装置の撮像方向の設定方法を示す図である。

図１７（ａ）において、ユーザ１７０１は、撮影方向設定であることを示す音声コマンドを発声する。撮像装置１の中央制御部２０１は、図１７（ｂ）に示すように、この音声コマンドの認識、及び、音方向（発声源方向）の検出処理を行う。

さて、中央制御部２０１は、撮影方向設定であることを示す音声コマンドの認識、及び、音方向（発声源方向）の検出処理を行うと、図１７（ｃ）に示すように、中央制御部２０１は回動制御部２１３を制御し、可動撮像部１００の撮像方向（光軸方向）を検出した音方向と一致させ、ユーザ１７０１を検出する。

撮像した画像からユーザ１７０１の存在を確認すると、中央制御部２０１は、次にユーザ１７０１の顔の向いてる方向を検出し、その検出した方向を示す情報を記憶部２０６に登録（記憶保持）する。ここで言う顔の向きとは、ユーザ１７０１が見ている方向を表す情報であり、顔の各部位の位置関係から導出される顔全体の角度である。あるいは、目頭と虹彩などの眼球周辺部位の位置関係から導出される視線の方向を顔の向きとする構成でもよい。顔の向きは、操作者が見ている方向を表す情報であればよいため、様々な導出方法を適用可能である。

例えば、図１７（ｄ）の場合、ユーザ１７０１の顔は前方１７０２を向いていたので、中央制御部２０１は、前方１７０２と平行な方向１７０３を記憶部２０６に登録する。また、図１７（ｅ）に示すように、ユーザ１７０１の顔を向きが斜め左前方１７０４を向いていた場合、中央制御部２０１は、斜め左前方１７０４と平行な方向１７０５を記憶部２０６に登録する。

以降、登録した方向の撮像を行う音声コマンド（例えば登録方向での間欠撮影を行わせる音声コマンド）が、音声コマンド認識部２０４３が認識したとする。この場合、中央制御部２０１は、その音声コマンドの音源方向に可動撮像部１００の撮像方向を向けるのではなく、登録した方向に可動撮像部１００の撮像方向を向けて撮影記録を行う。これを利用すると、既に説明した間欠前方撮影を行うことが可能になるだけでなく、ユーザの望む方向の間欠撮影や動画像の撮影記録も可能になる。

なお、登録した方向を削除する音声コマンドを容易しても良いし、再度、撮影方向設定であることを示す音声コマンドが認識された場合には、従前に記憶された方向を示す情報は上書きされるものとする。

次に、図１８のフローチャートに従って、本第３の実施形態における撮影方向設定処理を説明する。図１８に示す処理は、図６におけるステップＳＳ２０９がＮｏと判定された直後の処理であると理解されたい。

ステップＳ１８０１にて、中央制御部２０１は、音声コマンド認識部２０４３が認識した音声コマンドが、撮影方向設定コマンドであるか否かを判定する。撮影方向設定コマンドであると判定した場合、中央制御部２０１は、処理をステップＳ１８０２に進める。このステップＳ１８０２にて、中央制御部２０１は、その音声コマンドの発声源（ユーザ）の方向を音方向検出部２０４４から取得する。そして、ステップＳ１８０３にて、中央制御部２０１は、回動制御部２１３を制御し、可動撮像部１００の撮像方向を、取得した音方向に一致させるためにパン動作を行わせる。ステップＳ１８０４にて、中央制御部２０１は、被写体を検出したか否かを判定する。否の場合、中央制御部２０１は、ステップＳ１８０８、Ｓ１８０９，Ｓ１８０４のループにて、被写体が検出される、もしくは、チルト角の上限に到達する、のいずれかを満たすまでチルト角を所定値ずつ変化させる処理を行う。

被写体が検出された場合、中央制御部２０１は、処理をステップＳ１８０４からステップＳ１８０５に進める。このステップＳ１８０５にて、中央制御部２０１は、撮像画像を解析し、被写体の顔の向きを検出する処理を行う。そして、ステップＳ１８０６にて、中央制御部２０１は、検出した被写体の顔の向きを記憶部２０６に登録し、処理をステップＳ１５１（図５Ｂ）に戻す。

以上説明したように本第３の実施形態によれば、非接触状態で、ユーザの望む方向を撮像装置１に登録し、その登録した方向での撮像を行わせることが可能になる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で様々の変形および変更が可能である。また、本発明の実施例においては、撮像装置としてデジタルカメラを一例として挙げているが、ビデオカメラやスマートフォン等の撮影手段、通信手段を有する各種の装置に本発明を適用することが可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１…撮像装置、１００…可動撮像部、１０１…レンズ部、１０２…撮像部、１０３…レンズアクチュエータ制御部、１０４…音声入力部、１０４ａ乃至１０４ｄ…マイク、２０１…中央制御部、２０４…音声信号処理部、２１１…電源制御部、２０４１…音圧レベル検出部、２０４２…音声用メモリ、２０４３…音声コマンド認識部、２０４４…音方向検出部、２０４５…動画像音声処理部、２０４６…コマンドメモリ

Claims

撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御手段は、
前記振動検出手段により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出手段で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定する
ことを特徴とする撮像装置。
前記制御手段は、前記振動検出手段による振動を検出したことで、前記撮像手段の撮像方向を設定した後、静止画又は動画を撮像する処理を行うことを特徴とする請求項１に記載の撮像装置。
前記制御手段は、前記接触の位置と、前記音方向検出手段が検出した音源の方向とから特定される方向に前記撮像手段の撮像方向を設定することを特徴とする請求項１または２に記載の撮像装置。
前記制御手段は、前記接触の位置と、前記音方向検出手段が検出した音源の方向とから、予め設定された複数の設置位置の中のいずれの設置位置になるかを判定することを特徴とする請求項１乃至３のいずれか１項に記載の撮像装置。
前記特定される方向は、前記撮像装置の装着者の前方方向であることを特徴とする請求項１乃至４のいずれか１項に記載の撮像装置。
撮像方向が可変の撮像手段を有する撮像装置であって、
マイクから入力した音声データに基づき、音声コマンドを認識する認識手段と、
認識した音声コマンドに従って、所定の方向の映像を前記撮像手段で撮像する制御手段とを有し、
前記制御手段は、予め設定された音声コマンドを前記認識手段により認識した場合、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像から、前記所定の方向を決定する
ことを特徴とする撮像装置。
前記制御手段は、前記予め設定された音声コマンドを前記認識手段により認識した際に、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像に基づき、予め設定された複数の設置位置の中のいずれの設置位置になるかを判定することを特徴とする請求項６に記載の撮像装置。
前記設置位置は、人の肩、人の首に対する吊るし、固定物への設置が含まれることを特徴とする請求項７に記載の撮像装置。
前記制御手段は、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像のそれぞれのコントラストに基づいて、前記所定の方向を決定することを特徴とする請求項６乃至８のいずれか１項に記載の撮像装置。
前記所定の方向は、前記撮像装置の装着者の前方方向であることを特徴とする請求項６乃至９のいずれか１項に記載の撮像装置。
撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
前記撮像手段の撮像方向を、前記音方向検出手段が検出した音源の方向となるように制御し、認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
前記制御手段は、
前記認識手段で予め設定された第１の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記音方向検出手段が検出した音源の方向となるように制御して得た人物の顔が向く方向を判定し、該判定した方向を、第２の音声コマンドが認識した際の撮像する方向として記憶保持し、
前記第２の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記記憶保持した方向になるように制御し、撮像を行う
ことを特徴とする撮像装置。
撮像方向が可変の撮像手段と、音源方向を特定するための複数のマイクで構成される音声入力手段とを有する撮像装置の制御方法であって、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識工程と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出工程と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御工程とを有し、
前記撮像装置は、更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御工程は、
前記振動検出工程により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出工程で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定する
ことを特徴とする撮像装置の制御方法。
撮像方向が可変の撮像手段を有する撮像装置の制御方法であって、
マイクから入力した音声データに基づき、音声コマンドを認識する認識工程と、
認識した音声コマンドに従って、所定の方向の映像を前記撮像手段で撮像する制御工程とを有し、
前記制御工程は、予め設定された音声コマンドを前記認識工程により認識した場合、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像から、前記所定の方向を決定する
ことを特徴とする撮像装置の制御方法。
撮像方向が可変の撮像手段と、音源方向を特定するための複数のマイクで構成される音声入力手段とを有する撮像装置の制御方法であって、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識工程と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出工程と、
前記撮像手段の撮像方向を、前記音方向検出工程で検出した音源の方向となるように制御し、認識した音声コマンドに基づく撮像にかかる処理を行う制御工程とを有し、
前記制御工程は、
前記認識工程で予め設定された第１の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記音方向検出工程で検出した音源の方向となるように制御して得た人物の顔が向く方向を判定し、該判定した方向を、第２の音声コマンドが認識した際の撮像する方向として記憶保持し、
前記第２の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記記憶保持した方向になるように制御し、撮像を行う
ことを特徴とする撮像装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項１２乃至１４のいずれか１項に記載の撮像装置の制御方法が有する各工程を実行させるためのプログラム。