JP2021141505A

JP2021141505A - 撮像装置、制御方法、およびプログラム

Info

Publication number: JP2021141505A
Application number: JP2020039195A
Authority: JP
Inventors: 悠貴辻本; Yuki Tsujimoto; 拓人鈴木; Takuto Suzuki; 健一郎笹井; Kenichiro Sasai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2021-09-16
Anticipated expiration: 2040-03-06
Also published as: JP7451235B2

Abstract

【課題】ユーザの前方の方向を撮影するようにする。【解決手段】撮像部を有する撮像手段と、前記撮像部を駆動する駆動手段と、複数のマイクを有する音声入力手段と、を有する撮像装置であって、前記音声入力手段から入力された音声データに基づき、風雑音を検出する風雑音検出手段と、前記風雑音検出手段によって検出された風雑音から前記撮像装置の進行方向を検出する進行方向検出手段と、前記進行方向検出手段によって検出された前記撮像装置の進行方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する制御手段とを有することを特徴とする。【選択図】図１３

Description

本発明は、音声入力手段を有する撮像装置に関する。

継続的または断続的に自動で撮影を行う装置が存在する。特許文献１では、ユーザの活動を自動的および継続的に取り込むライフログ装置が開示されている。

特表２０１６−５３６８６８号公報

しかしながら、ユーザが撮影したいユーザの活動の中にはユーザの前方を撮影したい場合が存在する。特許文献１ではこのようなユーザの前方を撮影することができないという課題があった。

そこで本発明は、ユーザの前方の方向を撮影可能にすることを目的とする。

この課題を解決するため、本発明の撮像装置は撮像部を有する撮像手段と、前記撮像部を駆動する駆動手段と、複数のマイクを有する音声入力手段と、を有する撮像装置であって、前記音声入力手段から入力された音声データに基づき、風雑音を検出する風雑音検出手段と、前記風雑音検出手段によって検出された風雑音から前記撮像装置の進行方向を検出する進行方向検出手段と、前記進行方向検出手段によって検出された前記撮像装置の進行方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する制御手段とを有することを特徴とする。

本発明によれば、ユーザは前方の方向を撮影することができる。

第１の実施形態における撮像装置のブロック図の一例である。第１の実施形態における音声入力部および音声信号処理部のブロック図の一例である。（ａ）第１の実施形態における撮像装置の外観図の一例である。（ｂ）第１の実施形態における撮像装置が机に載置される場合における利用形態の一例を示す図である。（ｃ）第１の実施形態における撮像装置が撮影者の首にぶら下げられる場合における利用形態の一例を示す図である。（ｄ）第１の実施形態における撮像装置が撮影者の肩に固定される場合における利用形態の一例を示す図である。（ｅ）第１の実施形態における撮像装置がユーザの持つ棒の端に固定される場合における利用形態の一例を示す図である。第１の実施形態における撮像装置のパン動作およびチルト動作の一例を示す図である。第１の実施形態における撮像装置の動作の一例を示すフローチャートである。第１の実施形態における撮像装置の動作の一例を示すフローチャートである。第１の実施形態における撮像装置の音声コマンド処理の一連の処理の一例を示すフローチャートである。第１の実施形態における音声コマンドの意味と音声コマンドとの関係の一例を示す図である。第１の実施形態における撮像装置の起動から動作撮影開始するまでのタイミングチャートの一例である。（ａ）第１の実施形態における撮像装置が２つのマイクを用いて音源の方向を検出する処理方法の一例を示す図である。（ｂ）第１の実施形態における撮像装置が３つのマイクを用いて音源の方向を検出する処理方法の一例を示す図である。（ｃ）第１の実施形態における撮像装置が４つのマイクを用いて音源の方向を検出する処理方法の一例を示す図である。（ａ）第１の実施形態における撮像装置が３つのマイクを用いて真上方向の音源を検出する処理方法の一例を示す図である。（ｂ）第１の実施形態における撮像装置が４つのマイクを用いて真上方向の音源を検出する処理方法の一例を示す図である。第１の実施形態における撮像装置の利用形態の検出処理を示すフローチャート。（ａ）第１の実施形態におけるユーザの進行方向を検出する際に用いられる進行方向検出部のブロック図の一例である。（ｂ）第１の実施形態における風雑音検出部１９０１のブロック図の一例である。（ａ）第１の実施形態における撮像装置が移動している状態の一例を示す図である。（ｂ）第１の実施形態における撮像装置が移動している状態における風雑音検出部から出力された風雑音レベルの一例である。（ｃ）第１の実施形態における撮像装置が停止している状態の一例を示す図である。（ｄ）第１の実施形態における撮像装置が停止している状態における風雑音検出部から出力された風雑音レベルの一例である。

以下、添付図面を用いて本発明の実施形態を詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施形態を適宜組み合せることも可能である。

［第一の実施形態］
＜撮像装置１の構成＞
図１は、第一の実施形態における撮像装置１のブロック構成図の一例である。撮像装置１は、光学レンズユニットおよび撮像部等を有する可動撮像部１００と、可動撮像部１００の撮像方向（光軸方向）の制御および撮像装置１の全体を制御するＣＰＵ等を有する支持部２００とで構成される。

また、支持部２００は、圧電素子を含む複数の振動体１１〜１３を有する。振動体１１〜１３は可動撮像部１００の面に対し接触するように支持部２００に設けられている。支持部２００の中央制御部２０１が振動体１１〜１３の振動を制御することにより、可動撮像部１００はパン動作、チルト動作を行うことができる。なお、圧電素子はサーボモータ等のモータでもよい。この場合、支持部２００の中央制御部は例えばサーボモータを制御することで可動撮像部１００のパン動作、チルト動作を行う。

まず、本実施形態における撮像装置１の可動撮像部１００の構成について説明する。

レンズ部１０１は、光学レンズユニットと絞り・ズーム・フォーカスなど制御する撮像光学系で構成される。

撮像部１０２は、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子を含み、レンズ部１０１により結像された光学像を光電変換して電気信号を出力する。

レンズアクチュエータ制御部１０３は、モータドライバＩＣを含み、レンズ部１０１のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部２００の中央制御部２０１から受信したレンズアクチュエータ制御部１０３に対する駆動指示に基づいて駆動される。

音声入力部１０４はマイクロフォン（以降マイク）を含む音声入力部である。音声入力部１０４は音声を電気信号に変換し、さらに電気信号をデジタル信号（音声データ）に変換して後述の支持部２００の音声信号処理部２０４へ出力する。本実施形態では音声入力部１０４は４つのマイクを有する。なお、音声入力部１０４は本実施形態では４つのマイクを有するが、３つ以上のマイクを有すればよい。

次に、本実施形態における撮像装置１の支持部２００の構成について説明する。

中央制御部２０１は、撮像装置１の全体の制御を行う。中央制御部２０１はＣＰＵと、ＣＰＵが実行するプログラムを格納したＲＯＭ、および、ＣＰＵのワークエリアとして使用されるＲＡＭで構成される。

撮像信号処理部２０２は、可動撮像部１００の撮像部１０２から出力された電気信号を映像信号へ変換する。

映像信号処理部２０３は、撮像信号処理部２０２から出力された映像信号に対して画像処理を実行する。この画像処理は例えば画像のトリミング処理、画像の回転処理等による電子防振処理、および被写体の顔等を検出する被写体検出処理である。

音声信号処理部２０４は、音声入力部１０４から入力されたデジタル信号に対して音声処理を行う。音声入力部１０４がアナログ信号を出力するマイクであれば、音声信号処理部２０４において、アナログ信号からデジタル信号に変換してもよい。なお、音声入力部１０４を含めた音声信号処理部２０４の詳細な構成については図２を用いて後述する。

操作部２０５は、撮像装置１に対する指示をユーザから受け付けるためのユーザインタフェース（ＵＩ）である。操作部２０５は例えばユーザが撮像装置１の電源のオン／オフを指示するための電源スイッチや、撮影を指示するためのレリーズスイッチ等の各種スイッチ、ボタン等で構成される。

記録部２０６は、映像信号処理部２０３から出力された画像データや動画（映像）データ等の種々のデータを記録する。記録部２０６は例えばＳＤカード、ＣＦカード、およびＸＱＤ（登録商標）カード等である。記録部２０６は、撮像装置１に着脱可能なよう構成してもよいし、撮像装置１に内蔵されていてもよい。すなわち、撮像装置１は少なくとも記録部２０６にアクセスする手段を有していればよい。

表示部２０７は、撮影の際のスルー画像の表示、映像信号処理部２０３から出力された画像データの表示、対話的な操作のための文字表示などを行う。表示部２０７は例えば液晶ディスプレイやＬＥＤディスプレイ等である。表示部２０７は必ずしも撮像装置１に内蔵されていなくてもよく、撮像装置１に外部接続される構成であってもよい。すなわち、撮像装置１は内部または外部の表示部２０７と接続することができ、表示部２０７の表示を制御する表示制御機能を少なくとも有していればよい。

外部入出力端子部２０８は、外部装置と有線接続するためのインターフェースである。本実施形態の撮像装置１は、外部入出力端子部２０８を介して、外部装置とデータのやりとりを行うことができる。例えば、画像データや音声データを、外部入出力端子部２０８を介して外部装置に送信することができる。本実施形態の外部装置は、例えば外部サーバ、スマートフォン、およびＰＣ等の通信装置である。

音声再生部２０９はスピーカを含み、音声データを電気信号に変換し、音声を再生することができる。

電源部２１０は、撮像装置の全体（各要素）の駆動等に必要な電源である。電源部２１０は例えば、リチウムイオン電池やアルカリマンガン乾電池等の電源である。

電源制御部２１１は、撮像装置１の各構成要素への電源部２１０からの電力の供給の制御を行う。電源制御部２１１は、中央制御部２０１および音声信号処理部２０４に制御され、撮像装置１の各構成要素への電力の供給を適宜遮断し、電力消費量を抑制することができる。

位置検出部２１２はジャイロ、加速度センサ、ＧＰＳ等で構成され、撮像装置１の動きを検出する。

回動制御部２１３は、中央制御部２０１からの指示に従って振動体１１〜１３を駆動する信号を生成し、振動体１１〜１３へ出力する。振動体１１〜１３は圧電素子等で構成され、回動制御部２１３から印加される駆動信号に応じて振動する。中央制御部２０１は振動体１１〜１３を振動させることで、可動撮像部１００のパン動作およびチルト動作を行う。

無線通信部２１４は外部装置と無線接続するためのインターフェースである。本実施形態の撮像装置１は、無線通信部２１４を介して、無線通信によって外部装置とデータのやりとりを行うことができる。なお、本実施形態では、無線通信部２１４は外部装置とＩＥＥＥ８０２．１１の規格に従った、いわゆる無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）で通信するためのインターフェースを含む。なお、通信方式は無線ＬＡＮに限定されるものではなく、例えば４Ｇ、ＬＴＥ、および５Ｇなどの公衆無線通信方式、およびＢｌｕｅｔｏｏｔｈ（登録商標）等の無線通信方式を含む。

＜音声入力部および音声信号処理部の構成＞
次に、本実施形態における音声入力部１０４および音声信号処理部２０４の構成の一例を図２を用いて説明する。図２は、音声入力部１０４および音声信号処理部２０４の構成の一例に加えて、音声信号処理部２０４、中央制御部２０１および電源制御部２１１と音声信号処理部２０４との接続関係の一例も示す。

まず音声入力部１０４の構成について説明する。音声入力部１０４は、４つの無指向性のマイク（マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄ）で構成される。各マイクはＡ／Ｄコンバータを内蔵しており、所定のサンプリングレートで音声を収音し、内蔵のＡ／Ｄコンバータにより収音した音声信号をデジタルの音声データとして出力する。例えば所定のサンプリングレートは後述のコマンド検出、および後述の音方向検出処理では１６ｋＨｚ、動画撮影処理では４８ｋＨｚである。なお、本実施形態では音声入力部１０４は４つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部２０４が、それぞれのマイクに対応するＡ／Ｄコンバータを有する。また、本実施形態におけるマイクの数は４つとして説明するが、マイクの数は３つ以上であればよい。なお、マイクはすべてが同一直線上にあることはない。

また、マイク１０４ａは、撮像装置１の電源がオンである状態では、常に電力が供給される。一方、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄは、撮像装置１の電源がオンとなった直後の初期状態では、電力を供給されていない。中央制御部２０１は撮像装置１の動作に応じて電源制御部２１１を制御し、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄに対して電力を供給する。

次に音声信号処理部２０４について説明する。音声信号処理部２０４は、音圧レベル検出部２０４１、音声用メモリ２０４２、音声コマンド認識部２０４３、音方向検出部２０４４、動画用音声処理部２０４５、および、コマンドメモリ２０４６で構成される。

音圧レベル検出部２０４１は、マイク１０４ａから出力された音声データの音圧レベルが所定の閾値を超えた場合、音声を検出したことを示す信号を電源制御部２１１および音声用メモリ２０４２へ出力する。電源制御部２１１は、音声を検出したことを示す信号を音圧レベル検出部２０４１から入力された場合、音声コマンド認識部２０４３へ電力を供給する。

音声用メモリ２０４２は、マイク１０４ａから出力された音声データを一時的に記録するバッファメモリである。音声用メモリ２０４２の容量は、例えばマイク１０４ａが１６ｋＨｚのサンプリングレートであり、１サンプリングにつき２バイトの音声データを出力し、最長の音声コマンドが５秒である場合、音声用メモリ２０４２は、少なくとも１６０キロバイトである。また、音声用メモリ２０４２の容量がマイク１０４ａからの音声データで満たされた場合、古い音声データから新たな音声データで上書きされる。この結果、音声用メモリ２０４２は、直近の所定期間（上記例では約５秒）の音声データが記録される。また、音声用メモリ２０４２は、音圧レベル検出部２０４１から音声を検出したことを示す信号を受信したことをトリガに、マイク１０４ａからの音声データが格納されていく。

コマンドメモリ２０４６は不揮発性のメモリで構成され、撮像装置１が認識可能な音声コマンドの情報が記録（登録）されている。詳細は後述するが、コマンドメモリ２０４６に格納される音声コマンドの種類は例えば図８に示されるように、「起動コマンド」をはじめとして、複数種類の音声コマンドの情報がコマンドメモリ２０４６に記録されている。

音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照し、音声用メモリ２０４２に格納された音声データの音声認識処理を行う。なお、音声認識処理は周知技術であるので、ここでの説明は省略する。音声コマンド認識部２０４３は、マイク１０４ａによって収音された音声データが、音声コマンドであるか否か、並びに、コマンドメモリ２０４６に記録されている音声コマンドに一致するか否かを判定する。そして、音声コマンド認識部２０４３は、コマンドメモリ２０４６に記録されているいずれかの音声コマンドに一致する音声データを検出した場合、次のように処理を実行する。音声コマンド認識部２０４３は、その音声コマンドを示す情報、および音声用メモリ２０４２におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部２０１に出力する。なお、音声コマンド認識部２０４３は、音声コマンドを受け付けたタイミングや時刻等を中央制御部２０１に出力してもよい。

音方向検出部２０４４は、音声入力部１０４の４つのマイクからの音声データに基づき、周期的にマイクに収音された音声の音源の方向の検出処理を行う。音方向検出部２０４４は、内部にバッファメモリ２０４４ａを有し、検出した音源方向を表す情報をバッファメモリ２０４４ａに格納する。なお、音方向検出部２０４４による音方向検出処理を行う周期（例えば１６ｋＨｚ）は、マイク１０４ａのサンプリング周期に対して十分に長くてもよい。ただし、このバッファメモリ２０４４ａは、少なくとも音声用メモリ２０４２に記録可能な音声データの期間と同じ期間分の音方向情報を記録できる容量を有する。

動画用音声処理部２０４５は、音声入力部１０４のマイクのうち、マイク１０４ａおよびマイク１０４ｂから入力された音声データに対して音声処理を行う。詳細は後述するが、本実施形態では、動画用音声処理部２０４５は、マイク１０４ａをステレオマイクのＬチャネル用マイク、およびマイク１０４ｂをＲチャネル用マイクとして音声データを処理する。動画用音声処理部２０４５は、音声データに対し、各種フィルタ処理、ウィンドカット、ステレオ感強調、ノイズ低減、ＡＬＣ（ＡｕｔｏＬｅｖｅｌＣｏｎｔｒｏｌ）、圧縮処理等の動画音声用の音声処理を行う。

話者識別用音声処理部２０４７はマイク１０４ａ、およびマイク１０４ｂから入力された音声データから、話者であるユーザを識別する。例えば事前に記録部２０６に記録されたユーザの声の周波数特性（いわゆる声紋）を用いて、話者識別用音声処理部２０４７はマイク１０４ａ、およびマイク１０４ｂから入力された音声データの周波数特性からどのユーザが発声したかを識別する。このとき、話者識別用音声処理部２０４７はマイク１０４ａまたはマイク１０４ｂのどちらか一方から入力された音声データのみで識別してもよい。また話者識別用音声処理部２０４７は周波数特性以外にも音声の抑揚やリズム等の特徴を用いて、ユーザを識別してもよい。

なお、音声信号処理部２０４に含まれる各構成要素は音声入力部１０４の各マイクと接続してもよい。音声信号処理部２０４に含まれる各構成要素は接続中のマイクから入力された音声データを利用し、それぞれ上記処理を実行してもよい。また、本実施形態ではマイク１０４ａを基準のマイクとしているが、他のマイクを基準としてもよい。

＜撮像装置の外観図および利用形態＞
図３（ａ）〜（ｅ）を参照して、撮像装置１の外観図の一例および利用形態の一例を説明する。まず図３（ａ）について説明する。

図３（ａ）は、本実施形態における撮像装置１の外観の上面および正面図を示している。撮像装置１の可動撮像部１００は、略半球体形であり、底面と平行な面を水平面とする。可動撮像部１００はこの水平面において図示の矢印Ａが示す方向に３６０度にわたって回動可能な第一の筐体１５０を有する。また、この水平面を０度したとき、可動撮像部１００は−２０度から９０度の垂直方向までの範囲に切欠き窓を有する。可動撮像部１００は、この切欠き窓に沿って図示の矢印Ｂが示す水平から垂直の範囲内で、レンズ部１０１および撮像部１０２と一緒に回動可能な第二の筐体１５１を有する。ここで、第一の筐体１５０の矢印Ａの回動動作はパン動作、第二の筐体１５１の矢印Ｂの回動動作はチルト動作に対応する。このパン動作およびチルト動作は振動体１１〜１３の駆動によって実現される。なお、本実施形態における撮像装置のチルト可能な範囲は、上記の通り、−２０度から＋９０度の範囲であるものとする。

ここでマイク１０４ａ、１０４ｂは、第一の筐体１５０の切欠き窓を挟むように前面側の位置に配置されている。また、マイク１０４ｃ、１０４ｄは、第一の筐体１５０の後方側に設けられている。図３（ａ）に示すように、第二の筐体１５１を固定にした状態で、第一の筐体１５０を矢印Ａの示す方向に沿ってどの方向にパン動作させたとしても、レンズ部１０１および撮像部１０２に対する、マイク１０４ａ、１０４ｂの相対的な位置は変わらない。つまり、撮像部１０２の撮像方向に対して左側にマイク１０４ａが常に位置し、右側にマイク１０４ｂが常に位置する。それ故、撮像部１０２によって撮像された画像が表す空間と、マイク１０４ａからの入力およびマイク１０４ｂからの入力によって計算した音場と、は相関性がある。また、本実施形態ではマイク１０４ａおよびマイク１０４ｂは撮像部１０２の撮像方向に対して対称に配置されるので、マイク１０４ａからの入力はステレオマイクのＬチャネルに相当し、マイク１０４ｂからの入力はステレオマイクのＲチャネルに相当する。

なお、本実施形態において、マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄは、撮像装置１の上面から見て、図３（ａ）に示すように長方形の各頂点の位置に配置されている。これは後述の音方向検出部２０４４による音源の方向の計算を簡易にするためである。また、これら４つのマイクは、図３（ａ）における水平面と平行な面に位置するものとするが、これら４つのマイクの位置に多少のずれがあってもよい。本実施形態では、１つのマイクがその他３つのマイクから構成される面から４５°程度以内であれば、その配置がずれていてもかまわない。

また、本実施形態において、マイク１０４ａとマイク１０４ｂとの間の距離は、マイク１０４ａとマイク１０４ｃとの距離よりも大きい。この隣りあうマイク間の距離は、１０ｍｍ〜３０ｍｍ程度が望ましい。なお、図３（ａ）に示されるマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄの配置は一例であって、これらの配置は、メカ的制約やデザイン制約等の理由によって適宜変更してもよい。

次に図３（ｂ）〜（ｅ）について説明する。図３（ｂ）〜（ｅ）は、それぞれ本実施形態における撮像装置１の利用形態を示している。図３（ｂ）は、撮像装置１が机などに載置される場合であり、撮影者自身やその周囲の被写体の撮影を目的とした利用形態の一例を示す図である。図３（ｃ）は、撮像装置１が撮影者の首にぶら下げられる場合であり、主に、撮影者の前方の撮影を目的とした利用形態の一例を示す図である。図３（ｄ）は、撮像装置１が撮影者の肩に固定される場合であり、撮影者の周囲の前後、および撮影者の右側の撮影を目的とした利用形態の一例を示す図である。図３（ｅ）は、撮像装置１がユーザの持つ棒の端に固定される場合であり、ユーザが高所や手が届かない位置等の所望の撮影位置に撮像装置１を移動させて撮影することを目的とした利用形態の一例を示す図である。

＜撮像装置のパン動作およびチルト動作＞
ここで図４（ａ）〜（ｃ）を用いて、本実施形態の撮像装置１のパン動作、およびチルト動作を更に詳しく説明する。ここでは図３（ｂ）に示す利用形態について説明するが、そのほかの利用形態においても同様に撮像装置１は動作する。

図４（ａ）はレンズ部１０１の撮像方向が水平面に平行な方向を向いている状態を示している。図４（ａ）に示す撮像装置１の撮像方向を初期状態とする。第一の筐体１５０を、筐体の上面から見て反時計回りに初期状態から９０度パン動作させると、撮像装置１の状態は図４（ｂ）に示すようになる。また、第二の筐体１５１を初期状態から筐体の上面方向に９０度チルト動作させると、図４（ｃ）に示すようになる。

＜撮像装置の動作＞
次に、本実施形態における撮像装置１の動作について図５Ａおよび図５Ｂを用いて説明する。図５Ａおよび図５Ｂは本実施形態における撮像装置１の動作を示すフローチャートである。図５Ａおよび図５Ｂにおける処理は、撮像装置１のメイン電源がオンされたことをトリガに開始される。先に図５Ａのフローチャートについて説明する。

ステップＳ１０１において、中央制御部２０１は、撮像装置１の初期化処理を行う。この初期化処理では、中央制御部２０１は、可動撮像部１００の撮像部１０２の現在の撮像方向における、水平面に平行な方向をパン動作の基準角度（０度）として決定する。

これ以降、本実施形態では、可動撮像部１００の撮像方向のうち、水平面に平行な方向の角度は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部２０４４が検出する音源方向のうちの水平面に平行な方向の角度も、この基準角度からの相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部２０４４は、撮像装置１の真上の方向（パン動作の回転軸の軸方向）に音源があるか否かを判定する。

なお、本ステップにおいて、音声用メモリ２０４２、音方向検出部２０４４、動画用音声処理部２０４５、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄへの電力は供給されていない。

ステップＳ１０２において、中央制御部２０１は、電源制御部２１１を制御して、音圧レベル検出部２０４１、マイク１０４ａへの電力の供給を開始する。電力を供給されたことにより、マイク１０４ａは音声の収音を開始する。また、電力を供給されたことにより、音圧レベル検出部２０４１は、マイク１０４ａから入力された音声データに基づいて、この音声データに変換される前の音声の音圧レベルの検出処理を開始する。音圧レベル検出部２０４１は、この音声が所定の閾値を超える音圧レベルであると判定した場合、音声が所定の閾値を超える音圧レベルであることを示す情報を中央制御部２０１に出力する。なお、この閾値は、例えば６０ｄＢＳＰＬ（ＳｏｕｎｄＰｒｅｓｓｕｒｅＬｅｖｅｌ）である。ただし、この閾値は撮像装置１が環境等に応じて任意に変更してもよいし、必要な周波数帯域だけに絞るようにしてもよい。

ステップＳ１０３において、中央制御部２０１は、閾値を超える音圧レベルである音声が検出されたか否かを判定する。本実施形態では中央制御部２０１は、音圧レベル検出部２０４１から音声が所定の閾値を超える音圧レベルであることを示す情報が入力されるまで待機する。閾値を超える音圧レベルである音声が検出されたと判定した場合、処理はステップＳ１０４に進む。

ステップＳ１０４において、中央制御部２０１は音声用メモリ２０４２にマイク１０４ａからの音声データのバッファリング（格納処理）を開始する。

ステップＳ１０５において、中央制御部２０１は、電源制御部２１１を制御し、音声コマンド認識部２０４３への電力の供給を開始する。電力を供給されたことにより、音声コマンド認識部２０４３は、音声用メモリ２０４２に格納されていく音声データの認識処理を開始する。本実施形態では、音声コマンド認識部２０４３は、音声用メモリ２０４２に格納された音声データがコマンドメモリ２０４６内のいずれかの音声コマンドと一致すると判定した場合、次のように処理を実行する。音声コマンド認識部２０４３は、その音声コマンドを示す情報、および音声用メモリ２０４２におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部２０１に出力する。

ステップＳ１０６において、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を入力されたか否かを判定する。音声コマンドが認識されたことを示す情報は例えば、ある音声コマンドを示す情報、および音声用メモリ２０４２におけるその音声コマンドの音声データの先頭と終端のアドレスである。中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されたと判定した場合、処理はステップＳ１０７に進む。中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合、処理はステップＳ１０８に進む。

ステップＳ１０７において、中央制御部２０１は、認識された音声コマンドが、後述する図８に示される起動コマンドに対応するか否かを判定する。認識された音声コマンドが起動コマンド以外のコマンドであると中央制御部２０１が判定した場合、処理はステップＳ１０８に進む。認識された音声コマンドが起動コマンドであると中央制御部２０１が判定した場合、処理はステップＳ１１０に進む。まず、認識された音声コマンドが起動コマンド以外のコマンドであると中央制御部２０１が判定した場合について説明する。

ステップＳ１０８において、中央制御部２０１は音声コマンド認識部２０４３を起動させてから経過した時間が、所定の閾値を超えたか否かを判定する。経過時間が所定の閾値以内であると中央制御部２０１が判定した場合、処理はステップＳ１０６に戻る。経過時間が所定の閾値を超えたと中央制御部２０１が判定した場合、処理はステップＳ１０９に進む。

ステップＳ１０９において、中央制御部２０１は、電源制御部２１１を制御して音声コマンド認識部２０４３への電力の供給を遮断する。そして、処理はステップＳ１０３に戻る。

次に、ステップＳ１０７において、認識された音声コマンドが起動コマンドであると中央制御部２０１が判定した場合について説明する。

ステップＳ１１０において、中央制御部２０１は、電源制御部２１１を制御し、音方向検出部２０４４、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄへ電力の供給を開始する。電力を供給されたことにより、音方向検出部２０４４は、マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄからの同時刻の音声データに基づいて、音源の方向の検出処理を開始する。本実施形態において、音源の方向の検出処理は、所定の周期で行われる。この所定の周期は例えば１６ｋＨｚである。そして、音方向検出部２０４４は音源の方向を検出した場合、検出した音源の方向を示す音方向情報を、バッファメモリ２０４４ａに格納していく。この音方向情報は、例えば基準角度に対する音源の方向の角度である。このとき、音方向検出部２０４４は、その音方向情報に対応する音声データと、音声用メモリ２０４２に格納された音声データとを関連付けるように、バッファメモリ２０４４ａに格納する。例えば音方向検出部２０４４は、音源の方向と、その音源から生成された音声データの音声用メモリ２０４２内におけるアドレスとをバッファメモリ２０４４ａに格納する。また、詳細は後述するが、音方向検出部２０４４は、音源の方向が撮像装置１の真上に位置すると判定した場合、真上方向にあることを示す情報を音方向情報としてバッファメモリ２０４４ａに格納する。

ステップＳ１１１において、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、およびレンズアクチュエータ制御部１０３へ電力の供給を開始する。これにより、可動撮像部１００は、撮像可能な状態になる。

次に、図５Ｂのフローチャートについて説明する。

ステップＳ１５１において、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を入力されたか否かを判定する。音声コマンドが認識されたことを示す情報は例えば、ある音声コマンドを示す情報、および音声用メモリ２０４２におけるその音声コマンドの音声データの先頭と終端のアドレスである。中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されたと判定した場合、処理はステップＳ１５６に進む。中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合、処理はステップＳ１５２に進む。先に中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合について説明する。

ステップＳ１５２において、中央制御部２０１は、現在、実行中のジョブがあるか否かを判定する。実行中のジョブは例えば動画撮影や被写体の追尾処理等である。これらのジョブについての詳細は図６を用いて後述する。中央制御部２０１が実行中のジョブがあると判定した場合、処理はステップＳ１５１に戻る。中央制御部２０１が実行中のジョブがないと判定した場合、処理はステップＳ１５２に進む。

ステップＳ１５３において、中央制御部２０１は最後に音声コマンドを認識してから経過した時間が所定の閾値を超えるか否かを判定する。中央制御部２０１が最後に音声コマンドを認識してから経過した時間が所定の閾値以下であると判定した場合、処理はステップＳ１５１に戻る。中央制御部２０１が最後に音声コマンドを認識してから経過した時間が所定の閾値を超えると判定した場合、処理はステップＳ１５４に進む。

ステップＳ１５４において、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、およびレンズアクチュエータ制御部１０３への電力の供給を遮断する。

ステップＳ１５５において、中央制御部２０１は、電源制御部２１１を制御し、音方向検出部２０４４への電力の供給を遮断する。本ステップの処理の後、処理はステップＳ１０６に戻る。

次に、中央制御部２０１が音声コマンドが認識されたことを示す情報を入力されたと判定した場合について説明する。本実施形態における中央制御部２０１は、認識した音声コマンドに応じたジョブを実行することに先立って、音声コマンドの音源の方向にいる人物を可動撮像部１００の撮像部１０２の画角内に入れるよう処理を行う。そして、中央制御部２０１は撮像部１０２の画角内に人物が入っている状態において、認識した音声コマンドに応じたジョブを実行する。

ステップＳ１５６において、中央制御部２０１は、音声コマンド認識部２０４３において認識された音声コマンドに対応する音声データと関連付けられている音方向情報を、音方向検出部２０４４のバッファメモリ２０４４ａから取得する。例えば、音声コマンド認識部２０４３は、音声コマンドを認識した場合、音声用メモリ２０４２におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部２０１に出力する。そして中央制御部２０１は、この２つのアドレスと、バッファメモリ２０４４ａに格納されている音声データのアドレスとに基づいて、音声コマンドに対応する音声データと関連付けられている音方向情報をバッファメモリ２０４４ａから取得する。なお、音声コマンドに対応する音声データに関連付けられている音方向情報が複数存在する場合も存在する。この場合、中央制御部２０１はその複数の音方向情報の中から最後に記録された音方向情報をバッファメモリ２０４４ａから取得する。これは、最後に記録された音方向情報がその音声コマンドを発声した人物の現在の方向に最も近いと考えられるからである。

ステップＳ１５７において、中央制御部２０１は、ステップＳ１５６において取得した音方向情報が示す音源の方向が、撮像装置１の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの詳細な判定方法については後述する。中央制御部２０１が音源が撮像装置１の真上の方向にあると判定した場合、処理はステップＳ１５８に進む。中央制御部２０１が音減の方向が真上以外の方向であると判定した場合、処理はステップＳ１６０に進む。まず中央制御部２０１が音源が撮像装置１の真上の方向にあると判定した場合について説明する。

ステップＳ１５８において、中央制御部２０１は、回動制御部２１３を制御し、レンズ部１０１および撮像部１０２の撮像方向が真上方向になるように、可動撮像部１００の第二の筐体１５１を回動させる。例えば、中央制御部２０１は図４（ｃ）に示すように第二の筐体１５１を回動させる。

ステップＳ１５９において、中央制御部２０１は、映像信号処理部２０３から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。このオブジェクトは例えば人物の顔や動物の顔等である。中央制御部２０１が画像データに音源であるオブジェクトが存在しないと判定した場合、処理はステップＳ１５１に戻る。中央制御部２０１が画像データに音源であるオブジェクトが存在すると判定した場合、処理はステップＳ１６４に進む。ステップＳ１６４において、中央制御部２０１は認識した音声コマンドに応じたジョブを実行する。なお、このステップＳ１６４における詳細な処理は図６を用いて後述する。

次に中央制御部２０１が音源が撮像装置１の真上の方向以外にあると判定した場合について説明する。

ステップＳ１６０において、中央制御部２０１は、回動制御部２１３を制御して、可動撮像部１００をパン動作させ、撮像部１０２の水平面における角度を、音方向情報が示す水平面における角度に向ける。ここでの角度とは、基準角度に対する角度である。

ステップＳ１６１において、中央制御部２０１は映像信号処理部２０３から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。このオブジェクトは例えば人物の顔や動物の顔等である。中央制御部２０１が画像データに音源であるオブジェクトが存在しないと判定した場合、処理はステップＳ１６２に進む。中央制御部２０１が画像データに音源であるオブジェクトが存在すると判定した場合、処理はステップＳ１６４に進む。ステップＳ１６４では、中央制御部２０１は認識した音声コマンドに応じたジョブを実行する。

ステップＳ１６２において、中央制御部２０１は、回動制御部２１３を制御して、可動撮像部１００を真上方向に向かってチルト動作させる。

ステップＳ１６３において、中央制御部２０１は、撮像部１０２の撮像方向のチルトの向きの角度が、チルト動作の上限に到達したか否かを判定する。本実施形態ではこのチルト動作の上限は水平方向に対して９０度、すなわち、水平面に垂直な方向である。中央制御部２０１が撮像部１０２の撮像方向のチルトの向きの角度が、チルト動作の上限に到達していないと判定した場合、処理はステップＳ１６１に戻る。このように、中央制御部２０１は、可動撮像部１００をチルト動作させながら、映像信号処理部２０３から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。また、中央制御部が撮像部１０２の撮像方向のチルトの向きの角度がチルト動作の上限に到達したと判定した場合、処理はステップＳ１５１に戻る。

＜撮像装置の音声コマンド処理＞
図６および図７を用いて、図５ＢのステップＳ１６４の詳細な処理について説明する。図６は図５ＢのステップＳ１６４における音声コマンド処理の一連の処理の一例を示すフローチャートである。図７はコマンドメモリ２０４６に格納される音声コマンドのテーブルの一例である。このテーブルには“Ｈｉ，Ｃａｍｅｒａ”等の音声コマンドに対応する音声パターンのデータが記録されている。ここで、図７には本実施形態における音声コマンドの一例が示されている。なお音声コマンドは図７に記載されているものに限られない。ここで、以下の図６のフローチャートの説明における音声コマンドは、図５ＢのステップＳ１５１において検出された音声コマンドである。

ステップＳ２０１において、中央制御部２０１は音声コマンドが起動コマンドであるか否かを判定する。起動コマンドは、撮像装置１を撮像可能な状態に遷移させるための音声コマンドである。この起動コマンドは、図５ＡのステップＳ１０７において中央制御部２０１が判定するコマンドであり、撮像に関連するジョブを実行させるためのコマンドではない。したがって、中央制御部２０１は、認識した音声コマンドが起動コマンドである場合、起動コマンドに応じたジョブを実行せず、処理を図５ＢのステップＳ１５１に戻す。中央制御部２０１が音声コマンドが起動コマンドではないと判定した場合、処理はステップＳ２０２に進む。

ステップＳ２０２において、中央制御部２０１は音声コマンドが停止コマンドであるか否かを判定する。停止コマンドは、撮像装置１を撮像可能な状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。中央制御部２０１は、認識した音声コマンドが停止コマンドであると判定した場合、処理をステップＳ２１１に進める。ステップＳ２１１において、中央制御部２０１は電源制御部２１１を制御し、撮像部１０２、音方向検出部２０４４、音声コマンド認識部２０４３、動画用音声処理部２０４５、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄへの電力の供給を遮断する。そして、中央制御部２０１は、処理を図５ＡのステップＳ１０３に戻す。中央制御部２０１が音声コマンドが停止コマンドであると判定した場合、処理はステップＳ２０３に進む。

ステップＳ２０３において、中央制御部２０１は音声コマンドが静止画撮影コマンドであるか否かを判定する。静止画撮影コマンドは、ユーザが撮像装置１に対して１枚の静止画を撮像し記録するジョブを実行するよう要求するコマンドである。中央制御部２０１は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップＳ２１２に進める。ステップＳ２１２において、中央制御部２０１は、撮像部１０２によって撮像した１枚の静止画像データを記録部２０６に記録する。この静止画像データは例えばＪＰＥＧファイルやＰＮＧファイルである。なお、静止画撮影コマンドによって実行されるジョブは、中央制御部２０１が１枚の静止画撮影を撮像し記録することで完結するため、先に説明した図５ＢのステップＳ１５２において中央制御部２０１が判定する対象であるジョブとはならない。中央制御部２０１が音声コマンドが静止画撮影コマンドではないと判定した場合、処理はステップＳ２０４に進む。

ステップＳ２０４において、中央制御部２０１は音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、ユーザが撮像装置１に対して動画を撮像し記録するジョブを実行するよう要求するコマンドである。中央制御部２０１は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップＳ２１３に進める。ステップＳ２１３において、中央制御部２０１は、撮像部１０２を用いて動画の撮像および記録を開始し、処理をステップＳ１５１に戻す。本実施形態では、中央制御部２０１は撮像した動画を記録部２０６に記録する。なお、中央制御部２０１は撮像した動画を無線通信部２１４を介してネットワーク上のファイルサーバに送信し、記録してもよい。動画撮影コマンドは、動画の撮像および記録をユーザが停止させるまで実行し続けるジョブを実行させるコマンドである。そのため、動画撮影コマンドによって実行されるジョブは、図５ＢのステップＳ１５２において中央制御部２０１が判定する対象のジョブである。中央制御部２０１が音声コマンドが動画撮影コマンドではないと判定した場合、処理はステップＳ２０５に進む。

ステップＳ２０５において、中央制御部２０１は音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが動画撮影終了コマンドであると判定した場合、処理をステップＳ２１４に進める。ステップＳ２１４において、中央制御部２０１は、動画の撮像および記録中である場合、動画の撮像および記録するジョブを終了する。なお、動画の撮像および記録するジョブを実行していない場合、中央制御部２０１は本ステップの処理をスキップする。ステップＳ２１４の処理の後、中央制御部２０１は処理をステップＳ１５１に戻す。中央制御部２０１が音声コマンドが動画撮影終了コマンドではないと判定した場合、処理はステップＳ２０６に進む。

ステップＳ２０６において、中央制御部２０１は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、ユーザが撮像装置１に対して、撮像部１０２の撮像方向をオブジェクトがいる方向に追尾するように、可動撮像部１００を回動させるジョブを実行することを要求するコマンドである。中央制御部２０１は、音声コマンドが追尾コマンドであると判定した場合、処理をステップＳ２１５に進める。ステップＳ２１４において、中央制御部２０１は、映像信号処理部２０３で得られた映像データの中心にあたる位置にオブジェクトを配置し続けるように、回動制御部２１３の制御を開始する。ステップＳ２１５の処理の後、中央制御部２０１は処理をステップＳ１５１に戻す。中央制御部２０１が音声コマンドが追尾コマンドではないと判定した場合、処理はステップＳ２０７に進む。

ここでステップＳ２１５の処理以降、中央制御部２０１によって可動撮像部１００がパン動作およびチルト動作を行い、ユーザを撮像部１０２の画角内に収まるように回動する。ただし、中央制御部２０１はオブジェクトを追尾するように可動撮像部１００を制御するが、撮像した画像データや映像データを記録しない。ユーザは画像データや映像データを記録したい場合、それぞれ静止画撮影コマンドや動画撮影コマンドによって中央制御部２０１に指示する。また、追尾コマンドはオブジェクトの追尾をユーザが停止させるまで実行し続けるジョブを実行させるコマンドである。そのため追尾コマンドによって実行されるジョブは、図５ＢのステップＳ１５２において中央制御部２０１が判定する対象のジョブである。

ステップＳ２０７において、中央制御部２０１は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが追尾終了コマンドであると判定した場合、処理をステップＳ２１６に進める。中央制御部２０１は、オブジェクトを追尾中である場合、オブジェクトを追尾するジョブを終了する。なお、オブジェクトを追尾するジョブを実行していない場合、中央制御部２０１は本ステップの処理をスキップする。ステップＳ２１６の処理の後、中央制御部２０１は処理をステップＳ１５１に戻す。中央制御部２０１が音声コマンドが追尾終了コマンドではないと判定した場合、処理はステップＳ２０８に進む。

ステップＳ２０８において、中央制御部２０１は、音声コマンドが自動撮影コマンドであるか否かを判定する。自動撮影コマンドは、所定の音量以上の音声を検出するごとに、その音声の音源の方向にレンズ部１０１の撮像方向を向け、静止画像および動画を撮像し記録するジョブを実行するよう要求するコマンドである。例えば、中央制御部２０１はこのジョブを実行中である場合、複数の話者が存在するミーティングにおいて、誰かの発言がある度にその発言者を撮像部１０２の画角内に収めるようにパン動作およびチルト動作を行いながら、動画を撮像し記録する。また例えば、中央制御部２０１は、複数の人物が存在するパーティ会場において、笑顔や笑い声を検出したことに応じて笑顔の人物や笑い声を発している人物の静止画像を撮像し記録する。中央制御部２０１は、音声コマンドが自動撮影コマンドであると判定した場合、処理をステップＳ２１７に進める。

ステップＳ２１７において、中央制御部２０１は、撮像部１０２によって動画の撮像および記録を開始する。ステップＳ２１７の処理の後、中央制御部２０１は処理をステップＳ１５１に戻す。なお、中央制御部２０１は自動撮影コマンドのジョブを実行中している場合、このジョブを終了させる音声コマンドを受け付けない。本実施形態では、操作部２０５に設けられた所定のスイッチをユーザに操作されたことに応じて、中央制御部２０１はこのジョブを終了する。また、このジョブを実行中、中央制御部２０１は、音声コマンド認識部２０４３を停止させる。そして中央制御部２０１は、音圧レベル検出部２０４１により所定の閾値を超える音圧レベルを検出した場合、音方向検出部２０４４が検出した音方向情報を参照して、その音源の方向に撮像方向が向くように可動撮像部１００をパン動作およびチルト動作させる。中央制御部２０１が音声コマンドが自動撮影コマンドではないと判定した場合、処理は他の音声コマンドの認識処理を実行する。

ステップＳ２０９において、中央制御部２０１は音声コマンドが間欠前方撮影コマンドであるか否かを判定する。例えば、“前方を撮影して”や“Ｈｉ，Ｃａｍｅｒａ．前方を撮影して”といった音声コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが間欠前方撮影コマンドであると判定した場合、処理をステップＳ２１８に進める。

ステップＳ２１８において、中央制御部２０１は撮像装置１の装着者の前方を所定の時間間隔で静止画を撮影する。例えば中央制御部２０１は装着者の前方を１分ごとに撮影する。なお、中央制御部２０１は間欠前方撮影コマンドのジョブを実行中している場合、このジョブを終了させる音声コマンドを受け付けない。本実施形態では、操作部２０５に設けられた所定のスイッチをユーザに操作されたことに応じて、中央制御部２０１はこのジョブを終了する。また、ステップＳ２１８における処理を実行する場合、撮像装置１は装着者の前方を判定する処理を実行する。その装着者の前方を判定する処理についての詳細は後述する。

以上、撮像装置１の音声コマンド処理について説明した。上記以外の音声コマンドは、ステップＳ２０８より後に実行されるが、ここでの説明は省略する。

なお、図６には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、所定の値だけ、ズーム倍率を増加させる。また、認識した音声コマンドが縮小コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、所定の値だけ、現在のズーム倍率を減少させる。なお、レンズ部１０１が既においてレ端、或いは、ワイド端にある場合、それを超えてズーム倍率を拡大、或いは、縮小することはできない。そのため、レンズ部１０１が既においてレ端、或いは、ワイド端にある場合、中央制御部２０１はレンズ部１０１のテレ端、或いは、ワイド端を超えるような音声コマンドを無視する。

＜撮像装置のタイミングチャート＞
ここで、本実施形態における撮像装置１におけるメイン電源がオンされてから動画撮影開始するまでの処理の一例を図８に示すタイミングチャートを用いて説明する。

撮像装置１のメイン電源がオンになったことに応じて、音圧レベル検出部２０４１はマイク１０４ａからの音声データの音圧レベルの検出処理を開始する。タイミングＴ６０１において、ユーザは、起動コマンド“Ｈｉ，Ｃａｍｅｒａ”の発声を開始したとする。このユーザの発声を受けて、音圧レベル検出部２０４１は所定の閾値を超える音圧を検出する。音圧レベル検出部２０４１が所定の閾値を超える音圧を検出したことをトリガに、タイミングＴ６０２において、音声用メモリ２０４２はマイク１０４ａからの音声データの格納を開始し、音声コマンド認識部２０４３は音声コマンドの認識を開始する。タイミングＴ６０３において、ユーザが起動コマンド“Ｈｉ，Ｃａｍｅｒａ”の発声を終えた場合、音声コマンド認識部２０４３がその音声コマンドを認識し、その認識した音声コマンドが起動コマンドであることを検出する。

中央制御部２０１は、音声コマンド認識部２０４３によって起動コマンドが認識されたことに応じて、タイミングＴ６０４において音方向検出部２０４４に電力の供給を開始する。また、中央制御部２０１は、音声コマンド認識部２０４３によって起動コマンドが認識されたことに応じて、タイミングＴ６０５において撮像部１０２への電力の供給を開始する。

ユーザは、タイミングＴ６０６において、例えば“Ｓｔａｒｔｍｏｖｉｅ”の発声を開始したとする。本実施形態において、“Ｓｔａｒｔｍｏｖｉｅ”は動画撮影開始コマンドである。この場合、ユーザの声から生成された音声データは、タイミングＴ６０７から順に音声用メモリ２０４２に格納されていく。そして、タイミングＴ６０８において、ユーザが起動コマンド“Ｓｔａｒｔｍｏｖｉｅ”の発声を終えた場合、音声コマンド認識部２０４３は、ユーザの声から生成された音声データを動画撮影開始コマンドを示す音声コマンドとして認識する。音声コマンド認識部２０４３は、音声用メモリ２０４２内の“Ｓｔａｒｔｍｏｖｉｅ”を示す音声データの先頭と終端のアドレスと、音声コマンドの認識結果を中央制御部２０１に出力する。中央制御部２０１は、音声コマンド認識部２０４３から入力されたアドレスと音方向検出部２０４４に格納されている音声データのアドレスとに基づいて、音声コマンドに対応する音声データと関連付けられている音方向情報を音方向検出部２０４４から取得する。中央制御部２０１はその音方向情報のうち、最後に記録された音方向情報を取得し、タイミングＴ６０９において、その取得した情報に基づいて、回動制御部２１３を制御して、可動撮像部１００のパン動作およびチルト動作を開始する。

タイミングＴ６１２において、可動撮像部１００のパン動作およびチルト動作中に、撮像信号処理部２０２は撮像部１０２によって生成された画像データからオブジェクトを検出する。撮像信号処理部２０２がオブジェクトを検出した場合、タイミングＴ６１３において、中央制御部２０１はパン動作、チルト動作を停止する。また、タイミングＴ６１４において、中央制御部２０１は、動画用音声処理部２０４５に電力を供給して、マイク１０４ａ、および、マイク１０４ｂによってステレオ音声を収音可能な状態にする。そして、中央制御部２０１は、タイミングＴ６１５において、ステレオ音声の収音、動画の撮像、およびそれらの記録を開始する。

＜音源の方向の検出処理＞
次に、本実施形態における音方向検出部２０４４による音源方向の検出処理を説明する。本実施形態では、この検出処理は、図５ＡのステップＳ１１０以降、周期的に、且つ、継続的に行われる。

まず、図９（ａ）を用いて、マイク１０４ａとマイク１０４ｂの２つのマイクを用いた音方向検出部２０４４による簡易的な音源方向の検出処理を説明する。図９（ａ）では、マイク１０４ａおよびマイク１０４ｂは水平面上（パン動作の回転軸に垂直な平面上）に配置されている。ここでマイク１０４ａとマイク１０４ｂとの距離をｄ［ａ‐ｂ］と表す。なお、距離ｄ［ａ‐ｂ］に対して、撮像装置１と音源との距離は十分に大きいとする。この場合、マイク１０４ａが音声を収音したタイミングとマイク１０４ｂが音声を収音したタイミングを比較することによって、音方向検出部２０４４はマイク１０４ａおよびマイク１０４ｂの間の音声の到達時間の遅延を計算することができる。例えば音方向検出部２０４４は、到達時間の遅延時間に音速（例えば空気中では約３４０ｍ／ｓ）を乗じることで、図９（ａ）に示す距離Ｉ［ａ‐ｂ］を計算することができる。そして、音方向検出部２０４４は次式によって撮像方向に対する音源の方向の角度θ［ａ‐ｂ］を計算することができる。

θ［ａ‐ｂ］＝ａｃｏｓ（Ｉ［ａ‐ｂ］／ｄ［ａ‐ｂ］）
しかし、図９（ａ）に示すように２つのマイクのみで求めた場合、角度θ［ａ‐ｂ］だけではなくθ［ａ‐ｂ］’も同時に計算されてしまう。すなわち、音方向検出部２０４４は音源の方向が、角度θ［ａ‐ｂ］の方向、または角度θ［ａ‐ｂ］’の方向のどちらであるかを判定できない。

そこで、本実施形態では、図９（ｂ）、（ｃ）に示すように音方向検出部２０４４は音源の方向を検出する。具体的には、マイク１０４ａおよびマイク１０４ｂから計算した２つの音源の方向に加えて、更に他のマイクを用いて別の音源の方向を２つ求める。そして、これら２つの音源の方向に互いに共通している方向を、音方向検出部２０４４は実際に音源がある方向として決定する。なお、図９（ｂ），（ｃ）では紙面の上方向を可動撮像部１００の撮像方向とする。可動撮像部１００の撮像方向は、レンズ部１０１の光軸方向（主軸方向）、および撮像部１０２の撮像方向、とも言い換えることができる。

まず図９（ｂ）を用いて、音方向検出部２０４４が３つのマイクによって音源の方向を検出する方式について説明する。本実施形態では、音方向検出部２０４４はマイク１０４ａ、マイク１０４ｂ、およびマイク１０４ｃを用いる例について説明する。撮像装置１のマイクの配置が図３（ａ）で示したような配置である場合、可動撮像部１００の撮像方向はマイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向である。

図９（ａ）で説明したように、音方向検出部２０４４はマイク１０４ａ、およびマイク１０４ｂを用いてθ［ａ‐ｂ］を計算できる。さらにマイク１０４ａとマイク１０４ｃとの間の距離ｄ［ａ‐ｃ］、およびマイク１０４ａが音声を収音したタイミングとマイク１０４ｃが音声を収音したタイミングとから、音方向検出部２０４４は距離Ｉ［ａ‐ｃ］、および角度θ［ａ‐ｃ］を計算できる。ここで、音方向検出部２０４４は図９（ａ）を用いて説明した方法と同様にして距離Ｉ［ａ‐ｃ］、および角度θ［ａ‐ｃ］を計算する。角度θ［ａ‐ｂ］および角度θ［ａ‐ｃ］より、音方向検出部２０４４はマイク１０４ａ，マイク１０４ｂ、およびマイク１０４ｃが配置される平面と同一平面上（パン動作の回転軸に垂直な平面上）における、音源の方向を検出できる。

次に図９（ｃ）を用いて、音方向検出部２０４４が４つのマイクによって音源の方向を検出する方式について説明する。本実施形態では、音方向検出部２０４４はマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄを用いる例について説明する。撮像装置１のマイクの配置が図３（ａ）で示したような配置である場合、可動撮像部１００の撮像方向はマイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向である。マイク１０４ａ、マイク１０４ｂの並ぶ方向とは、マイク１０４ａの中心点とマイク１０４ｂの中心点とを結ぶ直線の方向である。本実施形態では音方向検出部２０４４は対角線上に位置するマイク１０４ａとマイク１０４ｄのペアと、マイク１０４ｂとマイク１０４ｃのペアと、の２つのペアを用いる。

マイク１０４ａとマイク１０４ｄと間の距離ｄ［ａ‐ｄ］、およびマイク１０４ａが音声を収音したタイミングとマイク１０４ｄが音声を収音したタイミングとから、音方向検出部２０４４は距離Ｉ［ａ‐ｄ］、および角度θ［ａ‐ｄ］を計算できる。

同様にして、マイク１０４ｂ、マイク１０４ｃ間の距離ｄ［ｂ‐ｃ］、およびマイク１０４ｂが音声を収音したタイミングとマイク１０４ｃが音声を収音したタイミングとから、音方向検出部２０４４は距離Ｉ［ｂ‐ｃ］、および角度θ［ｂ‐ｃ］を計算できる。

角度θ［ａ‐ｄ］および角度θ［ｂ‐ｃ］より、音方向検出部２０４４はマイク１０４ａ，マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄが配置される平面と同一平面上（パン動作の回転軸に垂直な平面上）における、音源の方向を検出できる。

さらに、音方向検出部２０４４は角度θ［ａ‐ｂ］や角度θ［ｃ‐ｄ］をさらに計算し、音源の方向検出に用いることで、検出する音源の方向の精度をさらに高めることができる。

以上、本実施形態における音方向検出部２０４４による音源方向の検出処理について説明した。マイク１０４ａとマイク１０４ｂとマイク１０４ｃおよびマイク１０４ｄは図３のように長方形の４つの頂点に配置した。

一方、上記の方法では、音方向検出部２０４４は４つのマイクが配置される平面と同一の平面上の音源の方向しか検出できない。そのため、音源が撮像装置１の真上に位置する場合、音方向検出部２０４４はその方向を検出できない。そこで、音方向検出部２０４４が真上にある音源の方向を検出する方法を図１０（ａ）、（ｂ）を用いて説明する。

図１０（ａ）は音方向検出部２０４４が３つのマイクを用いて真上にある音源の方向を検出する方法の一例を説明するための図である。本実施形態では音方向検出部２０４４はマイク１０４ａ、マイク１０４ｂ、およびマイク１０４ｃを用いる。撮像装置１のマイクの配置が図３（ａ）で示したような配置である場合、可動撮像部１００の撮像方向はマイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向である。マイク１０４ａ、マイク１０４ｂの並ぶ方向とは、マイク１０４ａの中心点とマイク１０４ｂの中心点とを結ぶ直線の方向である。

撮像装置１の真上に音源が位置する場合、その音源からのマイク１０４ａとマイク１０４ｂとの距離はそれぞれ等距離であると見なせる。つまり、マイク１０４ａと１０４ｂとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部２０４４はマイク１０４ａとマイク１０４ｂを結ぶ線分の垂直二等分線上に音源があると判定できる。さらに同様に、音源からのマイク１０４ａとマイク１０４ｃとの距離はそれぞれ等距離であると見なせる。つまり、マイク１０４ａと１０４ｃとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部２０４４はマイク１０４ａとマイク１０４ｃを結ぶ線分の垂直二等分線上に音源があると判定できる。

ここで例えば、マイク１０４ａとマイク１０４ｂとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔＴ１とし、マイク１０４ａとマイク１０４ｃとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔＴ２とする。そして時間差がないとみなせる時間として十分に小さい値である閾値εと、ΔＴ１およびΔＴ２との関係が次の条件を満たす場合、音方向検出部２０４４は音源が撮像装置１の真上に位置すると判定できる。

条件：ΔＴ１＜ε かつ ΔＴ２＜ε
図１０（ｂ）は音方向検出部２０４４が４つのマイクを用いて真上にある音源の方向を検出する方法の一例を説明するための図である。本実施形態では、音方向検出部２０４４はマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、およびマイク１０４ｄを用いる。本実施形態では音方向検出部２０４４は対角線上に位置するマイク１０４ａとマイク１０４ｄのペアと、マイク１０４ｂとマイク１０４ｃのペアと、の２つのペアを用いる。

撮像装置１の真上に音源が存在する場合、その音源からのマイク１０４ａとマイク１０４ｄとの距離はそれぞれ等距離であると見なせる。つまり、マイク１０４ａと１０４ｄとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部２０４４はマイク１０４ａとマイク１０４ｄを結ぶ線分の垂直二等分線上に音源があると判定できる。さらに同様に、音源からのマイク１０４ｂとマイク１０４ｃとの距離はそれぞれ等距離であると見なせる。つまり、マイク１０４ｂと１０４ｃとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部２０４４はマイク１０４ｂとマイク１０４ｃを結ぶ線分の垂直二等分線上に音源があると判定できる。

ここで例えば、マイク１０４ａとマイク１０４ｄとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔＴ３とし、マイク１０４ｂとマイク１０４ｃとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔＴ４とする。そして閾値εと、ΔＴ３およびΔＴ４との関係が次の条件を満たす場合、音方向検出部２０４４は音源が撮像装置１の真上に位置すると判定できる。

条件：ΔＴ３＜ε かつ ΔＴ４＜ε
以上のように、３つ以上のマイクのうちの２つのペアについて、音源からの音の到達時間の時間差の絶対値をそれぞれ計算し、２つの時間差の絶対値がそれぞれ十分に小さい閾値未満なった場合、音方向検出部２０４４は音源の方向を真上であると判定できる。なお、この２つのペアは、それら２つのペアの向きが互いに非平行であれば、どのような組み合わせでもよい。

このように、中央制御部２０１は音方向検出部２０４４が検出した音方向情報と、音声コマンド認識部２０４３が認識した音声コマンドの音声データの先頭と終端のアドレスと、から音声コマンドを発した人物の方向を判定する。これにより、撮像装置１が音声コマンドを発声した人物（の顔）以外を誤って被写体と判定することを抑制できる。

また、マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄ、および音声信号処理部２０４を構成する各要素は、それぞれが利用されることに応じて中央制御部２０１の制御の元で電力供給が行われる。これにより、各要素が撮像装置１が起動したことに応じて電力供給される場合と比較して、撮像装置１の電力消費量を抑制できる。

＜撮像装置の利用形態＞
次に、図３（ｂ）〜（ｅ）を用いて撮像装置１の具体的な利用形態の一例を説明する。

まず、例えば図３（ｂ）に示すように、撮像装置１がユーザの首にぶら下げられる場合について説明する。この場合、レンズ部１０１の撮像方向（光軸方向）がユーザの体がある方向に向いて撮影すると、撮像装置１はユーザの体を撮影してしまう。撮像装置１を首にぶら下げているユーザは自身の向いている方向を撮影することを意図していると考えられるため、このように撮影された画像はよい画像とはみなされない可能性が高い。したがって、レンズ部１０１の撮像方向（光軸方向）は、ユーザの前方（ユーザの体がある方向とは逆方向）に向くことが望ましい。

撮像装置１の撮像方向がユーザの前方を向く場合、例えば図３（ａ）に示すように、マイク１０４ｃ、およびマイク１０４ｄが配置されている方向の撮像装置１の筐体部分がユーザの体に触れる可能性が高い。つまり、マイク１０４ｃ、およびマイク１０４ｄが、撮像装置１の筐体とユーザの衣類とのこすれ音を収音するおそれがある。この場合、撮像装置１はこのこすれ音のせいにより、４つのマイクによって音源の方向を検出することが難しくなる。そこで、図３（ａ）に示すような場合、すなわち撮像装置１がユーザの首にぶら下げられる利用形態の場合、音方向検出部２０４４は、マイク１０４ａ、マイク１０４ｂの２つのみによって音方向を検出する。また、この場合、中央制御部２０１は、マイク１０４ｃ、およびマイク１０４ｄへの電力の供給を遮断してもよい。

なお、この場合では、図９（ａ）を用いて説明した、２つのマイクによって音源の方向を求めると音源方向が２つ検出されてしまうという問題は解決できる。なぜなら、音源の方向は、少なくともユーザの前方の範囲内にあると見なして良いからである。つまり、音方向検出部２０４４は、マイク１０４ａ、およびマイク１０４ｂの２つを用いて音源の方向を計算し、検出した２つの音源の方向のうちユーザの前方にある１つを音源の方向として検出する。

なお、撮像装置１はユーザの体がある方向を例えば次のように決定する。撮像装置１は例えば首にぶら下げられていると判定した後、３６０度（一周）のパン動作を行い、レンズ部１０１によって測距した距離の最短となる方向を中心とする所定の角度（例えば１８０度）の範囲をユーザの体がある方向として決定する。また、中央制御部２０１は、この決定した方向を記録部２０６に記録する。

次に、例えば図３（ｄ）に示すように、撮像装置１がユーザの肩に装着される場合について説明する。この場合、撮像装置１の４つのマイクのうち、いずれか１つが配置されている撮像装置１の筐体部分がユーザの頭に近い位置になり、その筐体部分がユーザの頭や衣類に接する可能性が高くなる。したがって、この場合、撮像装置１は、４つのマイクのうち、ユーザの頭に近い１つのマイクを音方向検出処理において使用せず、他の３つのマイクを用いて音方向検出処理を実行する。

また、ユーザは自身の肩に撮像装置１を装着（固定）した場合、ユーザの動きとは無関係に、撮像装置１とユーザの頭との相対的な位置は変化しない。そのため、中央制御部２０１は、この方向をユーザの体のある（ユーザの頭）の方向として記録部２０６に記録する。そして、中央制御部２０１は、４つのマイクのうち、記録した方向とレンズ部１０１の撮像方向（光軸方向）に基づき、ユーザの頭に最も近い１つのマイクを音源の方向の検出に使用しない。すなわち、音方向検出部２０４４は残りの３つマイクを用いて方向検出を行うように設定される。なお、ユーザの頭の方向の検出は、例えばユーザの肩に装着されていると判定した後、３６０度のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度（例えば９０度）の範囲をユーザの存在する方向として決定する。また、中央制御部２０１は、ユーザの頭の方向を記録部２０６に記録する。

最後に、図３（ｂ）、（ｅ）に示すような利用形態の場合では、音方向検出部２０４４は４つのマイクを用いた音方向検出を行う。

＜撮像装置の利用形態の自動検出＞
本実施形態では、ユーザが撮像装置１を図３（ｂ）〜（ｅ）のいずれかの利用形態とするかは、支持部２００の操作部２０５を操作して設定する。また、中央制御部２０１が利用形態を自動で検出する機能（オート検出モード）を有してもよい。このオート検出モードが設定されている場合における中央制御部２０１の処理を説明する。

前述したように、位置検出部２１２はジャイロセンサ、加速度センサ、およびＧＰＳセンサ等の撮像装置１の動きを検出する構成を有する。本実施形態のオート検出モードでは、中央制御部２０１は位置検出部２１２を用いて撮像装置１の利用形態を検出する。例えば、図５ＡのステップＳ１０１の初期化処理後に、ユーザが撮像装置１を持ってその利用形態を決める操作を行った場合、位置検出部２１２の加速度センサやジャイロ等のセンサにより閾値以上の変化を検出する可能性が高い。そこで、中央制御部２０１は、初期化処理後の予め設定された期間内に位置検出部２１２によって撮像装置１の利用形態の変化を検出した場合、ユーザによる撮像装置１の設置操作を行っていると判定し、割り込み処理を開始する。なお、中央制御部２０１は、初期設定では、撮像装置１は図３（ｂ）に示すような利用形態、すなわち、撮像装置１は固定状態にあると判定する。

図１１を用いてこの割り込み処理（撮像装置１の設置位置の検出処理）を説明する。図１１は、撮像装置１の設置位置の検出処理のフローチャートの一例である。本処理は、中央制御部２０１が位置検出部２１２によって撮像装置１の利用形態の変化を検出した場合に開始される。

ステップＳ１１０１において、中央制御部２０１は位置検出部２１２から入力されたセンサの測定値を、予め設定された期間分、記録部２０６に記録する。この期間は、ユーザが利用形態の変更に係る操作を完了するまでに十分な時間が望ましい（例えば１分）。

この期間を終えると以下に説明するように、中央制御部２０１は、記録したデータに基づいて、撮像装置１の利用形態を判定し、音方向検出部２０４４による音源の方向の検出方法を決定する。なお、以下の説明では、ｘ軸およびｙ軸が表す平面は、撮像装置１にとっての水平面を表し、ｚ軸は撮像装置１のパン動作の回転軸の軸方向を表すものとして説明する。

ユーザは、撮像装置１を肩に装着する場合、図３（ｂ）、（ｃ）、および（ｅ）に示すような利用形態に変化する場合と比べて、ｘ軸，ｙ軸，およびｚ軸のいずれかの方向への移動量が大きい傾向がある。したがって、ステップＳ１１０２において、中央制御部２０１は、ｘ軸、ｙ軸、およびｚ軸のそれぞれの加速度のいずれかが予め設定された閾値を超えるか否かを判定する。これらの加速度はステップＳ１１０１において記録された測定値に基づく。予め設定された閾値を超える加速度があった場合、中央制御部２０１は、撮像装置１がユーザの肩に装着されたと判定し、ステップＳ１１０３において、ユーザの頭に最も近い１つのマイクを除く３つのマイクによって音源方向の検出を行うと決定する。この場合、中央制御部２０１は３つのマイクで音源方向を検出するよう、音方向検出部２０４４を設定する。

また、ステップＳ１１０２において、ｘ軸、ｙ軸、およびｚ軸のいずれの方向の加速度も予め設定された閾値以下であった場合、中央制御部２０１は処理をステップＳ１１０４に進める。

ここでユーザが撮像装置１を首にぶら下げる場合、肩に装着する場合と比べて、ｘ軸、ｙ軸、およびｚ軸方向への移動量が小さい。また、撮像装置１を首にぶら下げる場合、図３（ｃ）に示すように、ユーザは撮像装置１の上下をひっくり返す。このため、ユーザが撮像装置１を首にかける動作を行う場合、ｘ軸またはｙ軸回りの角速度は大きい。また、ｚ軸回りの撮像装置１の角速度は小さい。

そこで、ステップＳ１１０４において、中央制御部２０１は、ｘ軸、ｙ軸、およびｚ軸回りの角速度の検出および角速度を閾値の比較を行う。例えば、ｚ軸回りの角速度（本実施形態ではヨーという）が予め設定された閾値より小さく、且つ、ｘ軸またはｙ軸に対する角速度（本実施形態では、それぞれロール、ピッチという）が予め設定された閾値より大きいか判定する。

ヨーがあらかじめ設定された閾値より小さく、且つ、ロールまたはピッチが予め設定された閾値より大きい場合、中央制御部２０１は、撮像装置１はユーザの首にぶら下げられていると判定する。そして、中央制御部２０１は、４つのマイクのうち、ユーザの前方にあるマイク１０４ａ，およびマイク１０４ｂの２つのマイクを用いて音源の方向を検出するよう音方向検出部２０４４に設定する。

一方、ステップＳ１１０４において、ヨーが予め設定された閾値以上である場合、又は、ロールまたはピッチが予め設定された閾値より小さいと判定された場合、中央制御部２０１は、撮像装置１が、固定されたと判定する。撮像装置１が固定された状態は、例えば肩に装着された場合や、首にぶら下げられた場合のような移動がほとんど発生しないため、上記のいずれにも該当しない場合は、中央制御部２０１は撮像装置１が固定されたと判定する。この場合、中央制御部２０１は、ステップＳ１１０６において、４つのマイクを用いて音源方向の検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

以上、撮像装置１の設置位置の検出処理について説明した。

なお、中央制御部２０１は、初期化処理後の予め設定された期間内に位置検出部２１２によって撮像装置１の利用形態の変化を検出したことをトリガに、本処理を開始したが、このトリガは他のトリガでもよい。例えば、ユーザから操作部２０５によって撮像装置１の設置を終えたことを示す操作をされたことをトリガに、中央制御部２０１は本処理を開始する。また、撮像装置１の設置を終えたことを示す操作は、ＰＣや携帯端末等から無線通信部２１４を介して受信してもよい。

＜撮像装置の前方判定処理＞
次に、本実施形態における間欠前方撮影（例えば、図６のステップＳ２１８の処理）に移行する前に行われるユーザの前方方向を判定する処理の一例について説明する。本処理は、少なくとも図１１を用いて説明した、撮像装置１の利用形態の検出処理の後に行われる。

中央制御部２０１は、間欠前方撮影では、音源の方向とは無関係に、撮像装置１を装着している装着者にとっての前方の静止画を所定の間隔（例えば１０秒間隔）で撮影する。このためには、中央制御部２０１は、装着者にとっての「前方」である方向を判定し、可動撮像部１００の撮像方向（光軸方向）を装着者の前方に向ける必要がある。

本実施形態では、装着者の前方は装着者の進行方向であるとして説明する。例えばユーザが像装置１を首にぶら下げる場合（図３（ｃ））、肩に装着する場合（図３（ｄ））、および自転車等の移動体に装着する場合等において、ユーザ（装着者）が前方に移動することを想定する。このような場合において、撮像装置１はマイクから入力される風による雑音（以下、風雑音という）からユーザの進行方向を検出することで、装着者であるユーザの前方である方向を検出する。

本実施形態におけるユーザの進行方向の検出処理は、図５Ｂステップ１５６の処理において実行される。このユーザの進行方向の検出処理について、図１２（ａ），（ｂ）および図１３（ａ）〜（ｄ）を用いて説明する。

図１２（ａ）は本実施形態における、ユーザの進行方向を検出する際に用いられる進行方向検出部２０４４ｂのブロック図の一例である。進行方向検出部は音方向検知部２０４４に含まれる。

進行方向検出部２０４４ｂには４つのマイク（マイク１０４ａ〜マイク１０４ｄ）から信号が入力される。進行方向検出部２０４４ｂは複数のマイクから入力される風雑音から進行方向を検出し、中央制御部２０１に進行方向を出力する。中央制御部２０１は、進行方向検出部２０４４ｂから入力された進行方向に基づいて回動制御部２１３を制御し、撮像方向を進行方向へ向ける。

図１２（ａ）に示すように、本実施形態の進行方向検出部２０４４ｂは風雑音検出部２０４４ｂ１および風雑音比較部２０４４ｂ２で構成される。

風雑音検出部２０４４ｂ１は、４つの風雑音検出部で構成される。マイク１０４ａとマイク１０４ｂとから風雑音を検出する風雑音検出部ａｂ、マイク１０４ｂとマイク１０４ｄとから風雑音を検出する風雑音検出部ｂｄ、マイク１０４ｄとマイク１０４ｃとから風雑音を検出する風雑音検出部ｄｃ、およびマイク１０４ｃとマイク１０４ａとから風雑音を検出する風雑音検出部ｃａである。これらの風雑音検出部の動作については、図１２（ｂ）を用いて後述する。なお、それぞれの風雑音検出部の動作は共通である。

風雑音比較部２０４４ｂ２は風雑音検出部２０４４ｂ１から入力された複数の風雑音レベルを元に、ユーザの進行方向を特定する。本実施形態では、風雑音比較部２０４４ｂ２は風雑音が大きい方向を進行方向とみなす。

図１２（ｂ）は図１２（ａ）における風雑音を検出する処理の一例を説明するための風雑音検出部１９０１のブロック図の一例である。本実施形態では風雑音検出部２０４４ｂ１の中にある４つの風雑音検出部はどれも風雑音検出部１９０１と同様の構成を有する。図１２（ｂ）では、風雑音検出部１９０１に入力される２つの信号をそれぞれ信号１、信号２として説明する。すなわち、例えば、風雑音検出部ａｂにおける信号１はマイク１０４ａから入力される信号、および信号２はマイク１０４ｂから入力される信号である。

加算部１９０２は信号１と信号２を加算した信号３を出力する。

減算部１９０３は信号１と信号２を減算した信号４を出力する。

ＬＰＦ１９０４では信号３および信号４のそれぞれに対して高い周波数帯域の信号の振幅を低減するローパスフィルタ（ＬＰＦ）をかける。すなわちＬＰＦ１９０４は、信号３に対してＬＰＦをかけたＬＰＦ（３）と、信号４に対してＬＰＦをかけたＬＰＦ（４）とをそれぞれ出力する。風雑音は低い周波数帯域の振幅が大きい特徴があるため、本実施形態では、例えばＬＰＦ１９０４は１００Ｈｚ程度をカットオフとする４段のＬＰＦを有する。

ＡＢＳ１９０５はＬＰＦ（３）およびＬＰＦ（４）に対して、それぞれの信号の振幅を計算するとともに、それぞれに対して積分を行うことで平準化する。すなわち、ＡＢＳ１９０５はＬＰＦ（３）を平準化したＡＢＳ（３）と、ＬＰＦ（４）を平準化したＡＢＳ（４）とをそれぞれ出力する。

比較判定部１９０６はＡＢＳ（３）とＡＢＳ（４）とを比較する。比較判定部１９０６は、ＡＢＳ（３）とＡＢＳ（４）とを比較した結果を風雑音比較部２０４４ｂ２に出力する。本実施形態では、比較判定部１９０６はＡＢＳ（４）÷ＡＢＳ（３）の値が所定の値より大きい場合、風雑音が大きいと判定し、大きい値を出力する。なお、この場合、信号１および信号２の相関性が少ない。また、比較判定部１９０６はＡＢＳ（４）÷ＡＢＳ（３）の値が所定の値以下である場合、風雑音が小さいと判定し、小さい値を出力する。なお、この場合、信号１および信号２の相関性が大きい。

本実施形態では、比較判定部１９０６は、ＡＢＳ（４）÷ＡＢＳ（３）の値に基づいて、１１段階（０〜１０の整数値）で風雑音の大きさ（以下、風雑音レベルという）を出力する。

図１３（ａ）〜（ｄ）は本実施形態でのユーザの進行方向と風雑音レベルとの関係を説明するための図である。

図１３（ａ）は、マイク１０４ａとマイク１０４ｃとが配置されている方向（以降、進行方向ＡＣという）に撮像装置１が移動している状態の一例を示す図である。

一般的に、ユーザはある程度の速度で移動している場合、移動する方向に逆らうように風を受ける。すなわち、例えば図１３（ａ）に示すように、進行方向ＡＣにユーザ（および撮像装置１）が移動している場合、撮像装置１は進行方向ＡＣに対する方向から風を受ける。この進行方向に対する方向を風方向という。この場合、撮像装置１のマイクに風圧による振動が発生する。この振動が風雑音として撮像装置１に入力される。

図１３（ｂ）は図１３（ａ）の状態における風雑音検出部２０４４ｂ１から出力された風雑音レベルの一例を示す。この風雑音に基づいて風雑音比較部２０４４ｂ２がユーザの進行方向を判定する方法の一例を説明する。

撮像装置１が進行方向ＡＣへ移動している場合、マイク１０４ａおよびマイク１０４ｃから入力される音声データを用いる風雑音検出部ｃａから出力される風雑音レベルが一番大きくなる。一方、進行方向ＡＣと逆側に配置されるマイク１０４ｂおよびマイク１０４ｄから入力される音声データを用いる風雑音検出部ｂｄから出力される風雑音レベルが一番小さくなる。風雑音比較部２０４４ｂ２は、これらの風雑音レベルに基づいて撮像装置１の進行方向が進行方向ＡＣであることを示すデータを中央制御部２０１へ出力する。中央制御部２０１は撮像装置１の撮像方向が進行方向ＡＣとなるように回動制御部２１３を制御する。

図１３（ｃ）は撮像装置１が停止した状態（図１３（ｃ）では進行方向０と記載）の一例を示す図を示す図である。撮像装置１が停止した場合、どのマイクも自然に吹く風以外の風圧を受けない。すなわち、撮像装置１は移動によって発生する風の影響を受けない。なお、本実施形態では、自然に吹く風の風圧は十分弱いものとし、マイク１０４ａ〜マイク１０４ｄにはほとんど検出されないものとする。

図１３（ｄ）は図１３（ｃ）に示す状態における風雑音検出部２０４４ｂ１から出力された風雑音レベルの一例を示す。この風雑音に基づいて風雑音比較部２０４４ｂ２がユーザの進行方向を判定する方法の一例を説明する。

この場合、撮像装置１は停止している状態であるため、すべての風雑音検出部から出力される風雑音レベルが小さい値（例えば、本実施形態では０および１）になる。すべての風雑音レベルが小さいため風雑音比較部２０４４ｂ２は、撮像装置１が移動を停止していることを示すデータを中央制御部２０１へ出力する。この場合、中央制御部２０１は、撮像装置１の撮像方向を変化させない。なお、例えば、中央制御部２０１は、撮像装置１が停止する前に移動していた進行方向のデータを有する場合、その進行方向に撮像方向が向くように、回動制御部２１３を制御してもよい。

以上説明したように本実施形態によれば、撮像装置１は、風雑音を用いることでユーザの進行方向を撮影することが可能になる。

なお、ここでは、間欠前方撮影モードに移行する場合を例示したが、装着者にとっての前方の静止画を１回だけ撮影するモード、および装着者にとっての前方の動画を撮影するモード等に移行する場合も同様の処理を行ってもよい。この場合、例えば、音声コマンド認識部２０４３は“前方を静止画撮影して”、“前方を動画撮影して”という音声コマンドを認識できる。

なお、撮像装置１の利用形態によっては音方向検出処理に利用されないマイクがある。中央制御部２０１は、音方向検出処理と同様に、前方判定処理においても、音方向検出処理に利用しないマイクを用いない。この場合、進行方向検出部２０４４ｂはそのマイクから入力される音声データを利用しない。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で様々の変形および変更が可能である。また、本発明の実施例においては、撮像装置としてデジタルカメラを一例として挙げているが、ビデオカメラやスマートフォン等の撮影手段、音声入力手段を有する各種の装置に本発明を適用することが可能である。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

撮像部を有する撮像手段と、
前記撮像部を駆動する駆動手段と、
複数のマイクを有する音声入力手段と、を有する撮像装置であって、
前記音声入力手段から入力された音声データに基づき、風雑音を検出する風雑音検出手段と、
前記風雑音検出手段によって検出された風雑音から前記撮像装置の進行方向を検出する進行方向検出手段と、
前記進行方向検出手段によって検出された前記撮像装置の進行方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する制御手段と
を有することを特徴とする撮像装置。
前記制御手段は、前記撮像装置の進行方向に前記撮像手段の撮像方向を向ける場合、前記撮像装置を装着しているユーザの存在する方向には前記撮像手段の撮像方向を向けない
ことを特徴とする請求項１に記載の撮像装置。
測距手段をさらに有し、
前記撮像装置を装着しているユーザの存在する方向は、前記測距手段によって測距した距離が最も短くなる方向を含む所定の範囲である
ことを特徴とする請求項２に記載の撮像装置。
前記風雑音検出手段は、前記所定の範囲の方向にあるマイクから入力された音声データからは風雑音を検出しないことを特徴とする請求項３に記載の撮像装置。
前記音声入力手段から入力された音声データが示す音声コマンドを認識する認識手段と、
前記認識手段によって認識された音声コマンドに基づいて、前記撮像手段による撮像処理を実行する手段と
を有することを特徴とする請求項１から４のいずれか１項に記載の撮像装置。
前記撮像装置の動きを検出する位置検出手段をさらに有し、
前記制御手段は、前記位置検出手段によって検出された前記撮像装置の動きに基づいて、前記撮像装置の位置を検出する
ことを特徴とする請求項１から５のいずれか１項に記載の撮像装置。
前記位置検出手段は、前記撮像装置の角速度に基づいて前記撮像装置の動きを検出することを特徴とする請求項６に記載の撮像装置。
前記複数のマイクのうち、いずれか２つのマイクの組み合わせによる風雑音レベルを検出するレベル検出手段を有し、
前記進行方向検出手段は、前記レベル検出手段によって検出された風雑音レベルから前記撮像装置の進行方向を判定することを特徴とする請求項１から７のいずれか１項に記載の撮像装置。
前記風雑音検出手段は、前記音声入力手段から入力された２つの音声データの低い周波数帯域の信号の相関性が少ない場合、風雑音が大きいと判定することを特徴とする請求項１から８のいずれか１項に記載の撮像装置。
前記風雑音検出手段は、前記音声入力手段から入力された音声データの低い周波数帯域を用いて風雑音を検出することを特徴とする請求項１から９のいずれか１項に記載の撮像装置。
撮像部を有する撮像手段と、
前記撮像部を駆動する駆動手段と、
複数のマイクを有する音声入力手段とを有する撮像装置の制御方法であって、
前記音声入力手段から入力された音声データに基づき、風雑音を検出する風雑音検出ステップと、
前記風雑音検出ステップにおいて検出された風雑音から前記撮像装置の進行方向を検出する進行方向検出ステップと、
前記進行方向検出ステップにおいて検出された前記撮像装置の進行方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する制御ステップと
を有することを特徴とする制御方法。
コンピュータを請求項１から１０のいずれか１項に記載の撮像装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。