以下、添付図面を用いて本発明の実施形態を詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施形態を適宜組み合せることも可能である。
[第一の実施形態]
<撮像装置1の構成>
図1は、第一の実施形態における撮像装置1のブロック構成図の一例である。撮像装置1は、光学レンズユニットおよび撮像部等を有する可動撮像部100と、可動撮像部100の撮像方向(光軸方向)の制御および撮像装置1の全体を制御するCPU等を有する支持部200とで構成される。
また、支持部200は、圧電素子を含む複数の振動体11〜13を有する。振動体11〜13は可動撮像部100の面に対し接触するように支持部200に設けられている。支持部200の中央制御部201が振動体11〜13の振動を制御することにより、可動撮像部100はパン動作、チルト動作を行うことができる。なお、圧電素子はサーボモータ等のモータでもよい。この場合、支持部200の中央制御部は例えばサーボモータを制御することで可動撮像部100のパン動作、チルト動作を行う。
まず、本実施形態における撮像装置1の可動撮像部100の構成について説明する。
レンズ部101は、光学レンズユニットと絞り・ズーム・フォーカスなど制御する撮像光学系で構成される。
撮像部102は、CMOSセンサやCCDセンサなどの撮像素子を含み、レンズ部101により結像された光学像を光電変換して電気信号を出力する。
レンズアクチュエータ制御部103は、モータドライバICを含み、レンズ部101のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部200の中央制御部201から受信したレンズアクチュエータ制御部103に対する駆動指示に基づいて駆動される。
音声入力部104はマイクロフォン(以降マイク)を含む音声入力部である。音声入力部104は音声を電気信号に変換し、さらに電気信号をデジタル信号(音声データ)に変換して後述の支持部200の音声信号処理部204へ出力する。本実施形態では音声入力部104は4つのマイクを有する。なお、音声入力部104は本実施形態では4つのマイクを有するが、3つ以上のマイクを有すればよい。
次に、本実施形態における撮像装置1の支持部200の構成について説明する。
中央制御部201は、撮像装置1の全体の制御を行う。中央制御部201はCPUと、CPUが実行するプログラムを格納したROM、および、CPUのワークエリアとして使用されるRAMで構成される。
撮像信号処理部202は、可動撮像部100の撮像部102から出力された電気信号を映像信号へ変換する。
映像信号処理部203は、撮像信号処理部202から出力された映像信号に対して画像処理を実行する。この画像処理は例えば画像のトリミング処理、画像の回転処理等による電子防振処理、および被写体の顔等を検出する被写体検出処理である。
音声信号処理部204は、音声入力部104から入力されたデジタル信号に対して音声処理を行う。音声入力部104がアナログ信号を出力するマイクであれば、音声信号処理部204において、アナログ信号からデジタル信号に変換してもよい。なお、音声入力部104を含めた音声信号処理部204の詳細な構成については図2を用いて後述する。
操作部205は、撮像装置1に対する指示をユーザから受け付けるためのユーザインタフェース(UI)である。操作部205は例えばユーザが撮像装置1の電源のオン/オフを指示するための電源スイッチや、撮影を指示するためのレリーズスイッチ等の各種スイッチ、ボタン等で構成される。
記録部206は、映像信号処理部203から出力された画像データや動画(映像)データ等の種々のデータを記録する。記録部206は例えばSDカード、CFカード、およびXQD(登録商標)カード等である。記録部206は、撮像装置1に着脱可能なよう構成してもよいし、撮像装置1に内蔵されていてもよい。すなわち、撮像装置1は少なくとも記録部206にアクセスする手段を有していればよい。
表示部207は、撮影の際のスルー画像の表示、映像信号処理部203から出力された画像データの表示、対話的な操作のための文字表示などを行う。表示部207は例えば液晶ディスプレイやLEDディスプレイ等である。表示部207は必ずしも撮像装置1に内蔵されていなくてもよく、撮像装置1に外部接続される構成であってもよい。すなわち、撮像装置1は内部または外部の表示部207と接続することができ、表示部207の表示を制御する表示制御機能を少なくとも有していればよい。
外部入出力端子部208は、外部装置と有線接続するためのインターフェースである。本実施形態の撮像装置1は、外部入出力端子部208を介して、外部装置とデータのやりとりを行うことができる。例えば、画像データや音声データを、外部入出力端子部208を介して外部装置に送信することができる。本実施形態の外部装置は、例えば外部サーバ、スマートフォン、およびPC等の通信装置である。
音声再生部209はスピーカを含み、音声データを電気信号に変換し、音声を再生することができる。
電源部210は、撮像装置の全体(各要素)の駆動等に必要な電源である。電源部210は例えば、リチウムイオン電池やアルカリマンガン乾電池等の電源である。
電源制御部211は、撮像装置1の各構成要素への電源部210からの電力の供給の制御を行う。電源制御部211は、中央制御部201および音声信号処理部204に制御され、撮像装置1の各構成要素への電力の供給を適宜遮断し、電力消費量を抑制することができる。
位置検出部212はジャイロ、加速度センサ、GPS等で構成され、撮像装置1の動きを検出する。
回動制御部213は、中央制御部201からの指示に従って振動体11〜13を駆動する信号を生成し、振動体11〜13へ出力する。振動体11〜13は圧電素子等で構成され、回動制御部213から印加される駆動信号に応じて振動する。中央制御部201は振動体11〜13を振動させることで、可動撮像部100のパン動作およびチルト動作を行う。
無線通信部214は外部装置と無線接続するためのインターフェースである。本実施形態の撮像装置1は、無線通信部214を介して、無線通信によって外部装置とデータのやりとりを行うことができる。なお、本実施形態では、無線通信部214は外部装置とIEEE802.11の規格に従った、いわゆる無線LAN(Local Area Network)で通信するためのインターフェースを含む。なお、通信方式は無線LANに限定されるものではなく、例えば4G、LTE、および5Gなどの公衆無線通信方式、およびBluetooth(登録商標)等の無線通信方式を含む。
<音声入力部および音声信号処理部の構成>
次に、本実施形態における音声入力部104および音声信号処理部204の構成の一例を図2を用いて説明する。図2は、音声入力部104および音声信号処理部204の構成の一例に加えて、音声信号処理部204、中央制御部201および電源制御部211と音声信号処理部204との接続関係の一例も示す。
まず音声入力部104の構成について説明する。音声入力部104は、4つの無指向性のマイク(マイク104a、マイク104b、マイク104c、マイク104d)で構成される。各マイクはA/Dコンバータを内蔵しており、所定のサンプリングレートで音声を収音し、内蔵のA/Dコンバータにより収音した音声信号をデジタルの音声データとして出力する。例えば所定のサンプリングレートは後述のコマンド検出、および後述の音方向検出処理では16kHz、動画撮影処理では48kHzである。なお、本実施形態では音声入力部104は4つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部204が、それぞれのマイクに対応するA/Dコンバータを有する。また、本実施形態におけるマイクの数は4つとして説明するが、マイクの数は3つ以上であればよい。なお、マイクはすべてが同一直線上にあることはない。
また、マイク104aは、撮像装置1の電源がオンである状態では、常に電力が供給される。一方、マイク104b、マイク104c、およびマイク104dは、撮像装置1の電源がオンとなった直後の初期状態では、電力を供給されていない。中央制御部201は撮像装置1の動作に応じて電源制御部211を制御し、マイク104b、マイク104c、およびマイク104dに対して電力を供給する。
次に音声信号処理部204について説明する。音声信号処理部204は、音圧レベル検出部2041、音声用メモリ2042、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045、および、コマンドメモリ2046で構成される。
音圧レベル検出部2041は、マイク104aから出力された音声データの音圧レベルが所定の閾値を超えた場合、音声を検出したことを示す信号を電源制御部211および音声用メモリ2042へ出力する。電源制御部211は、音声を検出したことを示す信号を音圧レベル検出部2041から入力された場合、音声コマンド認識部2043へ電力を供給する。
音声用メモリ2042は、マイク104aから出力された音声データを一時的に記録するバッファメモリである。音声用メモリ2042の容量は、例えばマイク104aが16kHzのサンプリングレートであり、1サンプリングにつき2バイトの音声データを出力し、最長の音声コマンドが5秒である場合、音声用メモリ2042は、少なくとも160キロバイトである。また、音声用メモリ2042の容量がマイク104aからの音声データで満たされた場合、古い音声データから新たな音声データで上書きされる。この結果、音声用メモリ2042は、直近の所定期間(上記例では約5秒)の音声データが記録される。また、音声用メモリ2042は、音圧レベル検出部2041から音声を検出したことを示す信号を受信したことをトリガに、マイク104aからの音声データが格納されていく。
コマンドメモリ2046は不揮発性のメモリで構成され、撮像装置1が認識可能な音声コマンドの情報が記録(登録)されている。詳細は後述するが、コマンドメモリ2046に格納される音声コマンドの種類は例えば図8に示されるように、「起動コマンド」をはじめとして、複数種類の音声コマンドの情報がコマンドメモリ2046に記録されている。
音声コマンド認識部2043は、コマンドメモリ2046を参照し、音声用メモリ2042に格納された音声データの音声認識処理を行う。なお、音声認識処理は周知技術であるので、ここでの説明は省略する。音声コマンド認識部2043は、マイク104aによって収音された音声データが、音声コマンドであるか否か、並びに、コマンドメモリ2046に記録されている音声コマンドに一致するか否かを判定する。そして、音声コマンド認識部2043は、コマンドメモリ2046に記録されているいずれかの音声コマンドに一致する音声データを検出した場合、次のように処理を実行する。音声コマンド認識部2043は、その音声コマンドを示す情報、および音声用メモリ2042におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部201に出力する。なお、音声コマンド認識部2043は、音声コマンドを受け付けたタイミングや時刻等を中央制御部201に出力してもよい。
音方向検出部2044は、音声入力部104の4つのマイクからの音声データに基づき、周期的にマイクに収音された音声の音源の方向の検出処理を行う。音方向検出部2044は、内部にバッファメモリ2044aを有し、検出した音源方向を表す情報をバッファメモリ2044aに格納する。なお、音方向検出部2044による音方向検出処理を行う周期(例えば16kHz)は、マイク104aのサンプリング周期に対して十分に長くてもよい。ただし、このバッファメモリ2044aは、少なくとも音声用メモリ2042に記録可能な音声データの期間と同じ期間分の音方向情報を記録できる容量を有する。
動画用音声処理部2045は、音声入力部104のマイクのうち、マイク104aおよびマイク104bから入力された音声データに対して音声処理を行う。詳細は後述するが、本実施形態では、動画用音声処理部2045は、マイク104aをステレオマイクのLチャネル用マイク、およびマイク104bをRチャネル用マイクとして音声データを処理する。動画用音声処理部2045は、音声データに対し、各種フィルタ処理、ウィンドカット、ステレオ感強調、ノイズ低減、ALC(Auto Level Control)、圧縮処理等の動画音声用の音声処理を行う。
話者識別用音声処理部2047はマイク104a、およびマイク104bから入力された音声データから、話者であるユーザを識別する。例えば事前に記録部206に記録されたユーザの声の周波数特性(いわゆる声紋)を用いて、話者識別用音声処理部2047はマイク104a、およびマイク104bから入力された音声データの周波数特性からどのユーザが発声したかを識別する。このとき、話者識別用音声処理部2047はマイク104aまたはマイク104bのどちらか一方から入力された音声データのみで識別してもよい。また話者識別用音声処理部2047は周波数特性以外にも音声の抑揚やリズム等の特徴を用いて、ユーザを識別してもよい。
なお、音声信号処理部204に含まれる各構成要素は音声入力部104の各マイクと接続してもよい。音声信号処理部204に含まれる各構成要素は接続中のマイクから入力された音声データを利用し、それぞれ上記処理を実行してもよい。また、本実施形態ではマイク104aを基準のマイクとしているが、他のマイクを基準としてもよい。
<撮像装置の外観図および利用形態>
図3(a)〜(e)を参照して、撮像装置1の外観図の一例および利用形態の一例を説明する。まず図3(a)について説明する。
図3(a)は、本実施形態における撮像装置1の外観の上面および正面図を示している。撮像装置1の可動撮像部100は、略半球体形であり、底面と平行な面を水平面とする。可動撮像部100はこの水平面において図示の矢印Aが示す方向に360度にわたって回動可能な第一の筐体150を有する。また、この水平面を0度したとき、可動撮像部100は−20度から90度の垂直方向までの範囲に切欠き窓を有する。可動撮像部100は、この切欠き窓に沿って図示の矢印Bが示す水平から垂直の範囲内で、レンズ部101および撮像部102と一緒に回動可能な第二の筐体151を有する。ここで、第一の筐体150の矢印Aの回動動作はパン動作、第二の筐体151の矢印Bの回動動作はチルト動作に対応する。このパン動作およびチルト動作は振動体11〜13の駆動によって実現される。なお、本実施形態における撮像装置のチルト可能な範囲は、上記の通り、−20度から+90度の範囲であるものとする。
ここでマイク104a、104bは、第一の筐体150の切欠き窓を挟むように前面側の位置に配置されている。また、マイク104c、104dは、第一の筐体150の後方側に設けられている。図3(a)に示すように、第二の筐体151を固定にした状態で、第一の筐体150を矢印Aの示す方向に沿ってどの方向にパン動作させたとしても、レンズ部101および撮像部102に対する、マイク104a、104bの相対的な位置は変わらない。つまり、撮像部102の撮像方向に対して左側にマイク104aが常に位置し、右側にマイク104bが常に位置する。それ故、撮像部102によって撮像された画像が表す空間と、マイク104aからの入力およびマイク104bからの入力によって計算した音場と、は相関性がある。また、本実施形態ではマイク104aおよびマイク104bは撮像部102の撮像方向に対して対称に配置されるので、マイク104aからの入力はステレオマイクのLチャネルに相当し、マイク104bからの入力はステレオマイクのRチャネルに相当する。
なお、本実施形態において、マイク104a、マイク104b、マイク104c、およびマイク104dは、撮像装置1の上面から見て、図3(a)に示すように長方形の各頂点の位置に配置されている。これは後述の音方向検出部2044による音源の方向の計算を簡易にするためである。また、これら4つのマイクは、図3(a)における水平面と平行な面に位置するものとするが、これら4つのマイクの位置に多少のずれがあってもよい。本実施形態では、1つのマイクがその他3つのマイクから構成される面から45°程度以内であれば、その配置がずれていてもかまわない。
また、本実施形態において、マイク104aとマイク104bとの間の距離は、マイク104aとマイク104cとの距離よりも大きい。この隣りあうマイク間の距離は、10mm〜30mm程度が望ましい。なお、図3(a)に示されるマイク104a、マイク104b、マイク104c、およびマイク104dの配置は一例であって、これらの配置は、メカ的制約やデザイン制約等の理由によって適宜変更してもよい。
次に図3(b)〜(e)について説明する。図3(b)〜(e)は、それぞれ本実施形態における撮像装置1の利用形態を示している。図3(b)は、撮像装置1が机などに載置される場合であり、撮影者自身やその周囲の被写体の撮影を目的とした利用形態の一例を示す図である。図3(c)は、撮像装置1が撮影者の首にぶら下げられる場合であり、主に、撮影者の前方の撮影を目的とした利用形態の一例を示す図である。図3(d)は、撮像装置1が撮影者の肩に固定される場合であり、撮影者の周囲の前後、および撮影者の右側の撮影を目的とした利用形態の一例を示す図である。図3(e)は、撮像装置1がユーザの持つ棒の端に固定される場合であり、ユーザが高所や手が届かない位置等の所望の撮影位置に撮像装置1を移動させて撮影することを目的とした利用形態の一例を示す図である。
<撮像装置のパン動作およびチルト動作>
ここで図4(a)〜(c)を用いて、本実施形態の撮像装置1のパン動作、およびチルト動作を更に詳しく説明する。ここでは図3(b)に示す利用形態について説明するが、そのほかの利用形態においても同様に撮像装置1は動作する。
図4(a)はレンズ部101の撮像方向が水平面に平行な方向を向いている状態を示している。図4(a)に示す撮像装置1の撮像方向を初期状態とする。第一の筐体150を、筐体の上面から見て反時計回りに初期状態から90度パン動作させると、撮像装置1の状態は図4(b)に示すようになる。また、第二の筐体151を初期状態から筐体の上面方向に90度チルト動作させると、図4(c)に示すようになる。
<撮像装置の動作>
次に、本実施形態における撮像装置1の動作について図5Aおよび図5Bを用いて説明する。図5Aおよび図5Bは本実施形態における撮像装置1の動作を示すフローチャートである。図5Aおよび図5Bにおける処理は、撮像装置1のメイン電源がオンされたことをトリガに開始される。先に図5Aのフローチャートについて説明する。
ステップS101において、中央制御部201は、撮像装置1の初期化処理を行う。この初期化処理では、中央制御部201は、可動撮像部100の撮像部102の現在の撮像方向における、水平面に平行な方向をパン動作の基準角度(0度)として決定する。
これ以降、本実施形態では、可動撮像部100の撮像方向のうち、水平面に平行な方向の角度は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部2044が検出する音源方向のうちの水平面に平行な方向の角度も、この基準角度からの相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部2044は、撮像装置1の真上の方向(パン動作の回転軸の軸方向)に音源があるか否かを判定する。
なお、本ステップにおいて、音声用メモリ2042、音方向検出部2044、動画用音声処理部2045、マイク104b、マイク104c、およびマイク104dへの電力は供給されていない。
ステップS102において、中央制御部201は、電源制御部211を制御して、音圧レベル検出部2041、マイク104aへの電力の供給を開始する。電力を供給されたことにより、マイク104aは音声の収音を開始する。また、電力を供給されたことにより、音圧レベル検出部2041は、マイク104aから入力された音声データに基づいて、この音声データに変換される前の音声の音圧レベルの検出処理を開始する。音圧レベル検出部2041は、この音声が所定の閾値を超える音圧レベルであると判定した場合、音声が所定の閾値を超える音圧レベルであることを示す情報を中央制御部201に出力する。なお、この閾値は、例えば60dB SPL(Sound Pressure Level)である。ただし、この閾値は撮像装置1が環境等に応じて任意に変更してもよいし、必要な周波数帯域だけに絞るようにしてもよい。
ステップS103において、中央制御部201は、閾値を超える音圧レベルである音声が検出されたか否かを判定する。本実施形態では中央制御部201は、音圧レベル検出部2041から音声が所定の閾値を超える音圧レベルであることを示す情報が入力されるまで待機する。閾値を超える音圧レベルである音声が検出されたと判定した場合、処理はステップS104に進む。
ステップS104において、中央制御部201は音声用メモリ2042にマイク104aからの音声データのバッファリング(格納処理)を開始する。
ステップS105において、中央制御部201は、電源制御部211を制御し、音声コマンド認識部2043への電力の供給を開始する。電力を供給されたことにより、音声コマンド認識部2043は、音声用メモリ2042に格納されていく音声データの認識処理を開始する。本実施形態では、音声コマンド認識部2043は、音声用メモリ2042に格納された音声データがコマンドメモリ2046内のいずれかの音声コマンドと一致すると判定した場合、次のように処理を実行する。音声コマンド認識部2043は、その音声コマンドを示す情報、および音声用メモリ2042におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部201に出力する。
ステップS106において、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を入力されたか否かを判定する。音声コマンドが認識されたことを示す情報は例えば、ある音声コマンドを示す情報、および音声用メモリ2042におけるその音声コマンドの音声データの先頭と終端のアドレスである。中央制御部201が音声コマンドが認識されたことを示す情報を入力されたと判定した場合、処理はステップS107に進む。中央制御部201が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合、処理はステップS108に進む。
ステップS107において、中央制御部201は、認識された音声コマンドが、後述する図8に示される起動コマンドに対応するか否かを判定する。認識された音声コマンドが起動コマンド以外のコマンドであると中央制御部201が判定した場合、処理はステップS108に進む。認識された音声コマンドが起動コマンドであると中央制御部201が判定した場合、処理はステップS110に進む。まず、認識された音声コマンドが起動コマンド以外のコマンドであると中央制御部201が判定した場合について説明する。
ステップS108において、中央制御部201は音声コマンド認識部2043を起動させてから経過した時間が、所定の閾値を超えたか否かを判定する。経過時間が所定の閾値以内であると中央制御部201が判定した場合、処理はステップS106に戻る。経過時間が所定の閾値を超えたと中央制御部201が判定した場合、処理はステップS109に進む。
ステップS109において、中央制御部201は、電源制御部211を制御して音声コマンド認識部2043への電力の供給を遮断する。そして、処理はステップS103に戻る。
次に、ステップS107において、認識された音声コマンドが起動コマンドであると中央制御部201が判定した場合について説明する。
ステップS110において、中央制御部201は、電源制御部211を制御し、音方向検出部2044、マイク104b、マイク104c、およびマイク104dへ電力の供給を開始する。電力を供給されたことにより、音方向検出部2044は、マイク104a、マイク104b、マイク104c、およびマイク104dからの同時刻の音声データに基づいて、音源の方向の検出処理を開始する。本実施形態において、音源の方向の検出処理は、所定の周期で行われる。この所定の周期は例えば16kHzである。そして、音方向検出部2044は音源の方向を検出した場合、検出した音源の方向を示す音方向情報を、バッファメモリ2044aに格納していく。この音方向情報は、例えば基準角度に対する音源の方向の角度である。このとき、音方向検出部2044は、その音方向情報に対応する音声データと、音声用メモリ2042に格納された音声データとを関連付けるように、バッファメモリ2044aに格納する。例えば音方向検出部2044は、音源の方向と、その音源から生成された音声データの音声用メモリ2042内におけるアドレスとをバッファメモリ2044aに格納する。また、詳細は後述するが、音方向検出部2044は、音源の方向が撮像装置1の真上に位置すると判定した場合、真上方向にあることを示す情報を音方向情報としてバッファメモリ2044aに格納する。
ステップS111において、中央制御部201は、電源制御部211を制御し、撮像部102、およびレンズアクチュエータ制御部103へ電力の供給を開始する。これにより、可動撮像部100は、撮像可能な状態になる。
次に、図5Bのフローチャートについて説明する。
ステップS151において、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を入力されたか否かを判定する。音声コマンドが認識されたことを示す情報は例えば、ある音声コマンドを示す情報、および音声用メモリ2042におけるその音声コマンドの音声データの先頭と終端のアドレスである。中央制御部201が音声コマンドが認識されたことを示す情報を入力されたと判定した場合、処理はステップS156に進む。中央制御部201が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合、処理はステップS152に進む。先に中央制御部201が音声コマンドが認識されたことを示す情報を入力されていないと判定した場合について説明する。
ステップS152において、中央制御部201は、現在、実行中のジョブがあるか否かを判定する。実行中のジョブは例えば動画撮影や被写体の追尾処理等である。これらのジョブについての詳細は図6を用いて後述する。中央制御部201が実行中のジョブがあると判定した場合、処理はステップS151に戻る。中央制御部201が実行中のジョブがないと判定した場合、処理はステップS152に進む。
ステップS153において、中央制御部201は最後に音声コマンドを認識してから経過した時間が所定の閾値を超えるか否かを判定する。中央制御部201が最後に音声コマンドを認識してから経過した時間が所定の閾値以下であると判定した場合、処理はステップS151に戻る。中央制御部201が最後に音声コマンドを認識してから経過した時間が所定の閾値を超えると判定した場合、処理はステップS154に進む。
ステップS154において、中央制御部201は、電源制御部211を制御し、撮像部102、およびレンズアクチュエータ制御部103への電力の供給を遮断する。
ステップS155において、中央制御部201は、電源制御部211を制御し、音方向検出部2044への電力の供給を遮断する。本ステップの処理の後、処理はステップS106に戻る。
次に、中央制御部201が音声コマンドが認識されたことを示す情報を入力されたと判定した場合について説明する。本実施形態における中央制御部201は、認識した音声コマンドに応じたジョブを実行することに先立って、音声コマンドの音源の方向にいる人物を可動撮像部100の撮像部102の画角内に入れるよう処理を行う。そして、中央制御部201は撮像部102の画角内に人物が入っている状態において、認識した音声コマンドに応じたジョブを実行する。
ステップS156において、中央制御部201は、音声コマンド認識部2043において認識された音声コマンドに対応する音声データと関連付けられている音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。例えば、音声コマンド認識部2043は、音声コマンドを認識した場合、音声用メモリ2042におけるその音声コマンドの音声データの先頭と終端のアドレスを中央制御部201に出力する。そして中央制御部201は、この2つのアドレスと、バッファメモリ2044aに格納されている音声データのアドレスとに基づいて、音声コマンドに対応する音声データと関連付けられている音方向情報をバッファメモリ2044aから取得する。なお、音声コマンドに対応する音声データに関連付けられている音方向情報が複数存在する場合も存在する。この場合、中央制御部201はその複数の音方向情報の中から最後に記録された音方向情報をバッファメモリ2044aから取得する。これは、最後に記録された音方向情報がその音声コマンドを発声した人物の現在の方向に最も近いと考えられるからである。
ステップS157において、中央制御部201は、ステップS156において取得した音方向情報が示す音源の方向が、撮像装置1の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの詳細な判定方法については後述する。中央制御部201が音源が撮像装置1の真上の方向にあると判定した場合、処理はステップS158に進む。中央制御部201が音減の方向が真上以外の方向であると判定した場合、処理はステップS160に進む。まず中央制御部201が音源が撮像装置1の真上の方向にあると判定した場合について説明する。
ステップS158において、中央制御部201は、回動制御部213を制御し、レンズ部101および撮像部102の撮像方向が真上方向になるように、可動撮像部100の第二の筐体151を回動させる。例えば、中央制御部201は図4(c)に示すように第二の筐体151を回動させる。
ステップS159において、中央制御部201は、映像信号処理部203から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。このオブジェクトは例えば人物の顔や動物の顔等である。中央制御部201が画像データに音源であるオブジェクトが存在しないと判定した場合、処理はステップS151に戻る。中央制御部201が画像データに音源であるオブジェクトが存在すると判定した場合、処理はステップS164に進む。ステップS164において、中央制御部201は認識した音声コマンドに応じたジョブを実行する。なお、このステップS164における詳細な処理は図6を用いて後述する。
次に中央制御部201が音源が撮像装置1の真上の方向以外にあると判定した場合について説明する。
ステップS160において、中央制御部201は、回動制御部213を制御して、可動撮像部100をパン動作させ、撮像部102の水平面における角度を、音方向情報が示す水平面における角度に向ける。ここでの角度とは、基準角度に対する角度である。
ステップS161において、中央制御部201は映像信号処理部203から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。このオブジェクトは例えば人物の顔や動物の顔等である。中央制御部201が画像データに音源であるオブジェクトが存在しないと判定した場合、処理はステップS162に進む。中央制御部201が画像データに音源であるオブジェクトが存在すると判定した場合、処理はステップS164に進む。ステップS164では、中央制御部201は認識した音声コマンドに応じたジョブを実行する。
ステップS162において、中央制御部201は、回動制御部213を制御して、可動撮像部100を真上方向に向かってチルト動作させる。
ステップS163において、中央制御部201は、撮像部102の撮像方向のチルトの向きの角度が、チルト動作の上限に到達したか否かを判定する。本実施形態ではこのチルト動作の上限は水平方向に対して90度、すなわち、水平面に垂直な方向である。中央制御部201が撮像部102の撮像方向のチルトの向きの角度が、チルト動作の上限に到達していないと判定した場合、処理はステップS161に戻る。このように、中央制御部201は、可動撮像部100をチルト動作させながら、映像信号処理部203から入力された画像データに音源であるオブジェクトが存在するか否かを判定する。また、中央制御部が撮像部102の撮像方向のチルトの向きの角度がチルト動作の上限に到達したと判定した場合、処理はステップS151に戻る。
<撮像装置の音声コマンド処理>
図6および図7を用いて、図5BのステップS164の詳細な処理について説明する。図6は図5BのステップS164における音声コマンド処理の一連の処理の一例を示すフローチャートである。図7はコマンドメモリ2046に格納される音声コマンドのテーブルの一例である。このテーブルには“Hi,Camera”等の音声コマンドに対応する音声パターンのデータが記録されている。ここで、図7には本実施形態における音声コマンドの一例が示されている。なお音声コマンドは図7に記載されているものに限られない。ここで、以下の図6のフローチャートの説明における音声コマンドは、図5BのステップS151において検出された音声コマンドである。
ステップS201において、中央制御部201は音声コマンドが起動コマンドであるか否かを判定する。起動コマンドは、撮像装置1を撮像可能な状態に遷移させるための音声コマンドである。この起動コマンドは、図5AのステップS107において中央制御部201が判定するコマンドであり、撮像に関連するジョブを実行させるためのコマンドではない。したがって、中央制御部201は、認識した音声コマンドが起動コマンドである場合、起動コマンドに応じたジョブを実行せず、処理を図5BのステップS151に戻す。中央制御部201が音声コマンドが起動コマンドではないと判定した場合、処理はステップS202に進む。
ステップS202において、中央制御部201は音声コマンドが停止コマンドであるか否かを判定する。停止コマンドは、撮像装置1を撮像可能な状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。中央制御部201は、認識した音声コマンドが停止コマンドであると判定した場合、処理をステップS211に進める。ステップS211において、中央制御部201は電源制御部211を制御し、撮像部102、音方向検出部2044、音声コマンド認識部2043、動画用音声処理部2045、マイク104b、マイク104c、およびマイク104dへの電力の供給を遮断する。そして、中央制御部201は、処理を図5AのステップS103に戻す。中央制御部201が音声コマンドが停止コマンドであると判定した場合、処理はステップS203に進む。
ステップS203において、中央制御部201は音声コマンドが静止画撮影コマンドであるか否かを判定する。静止画撮影コマンドは、ユーザが撮像装置1に対して1枚の静止画を撮像し記録するジョブを実行するよう要求するコマンドである。中央制御部201は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップS212に進める。ステップS212において、中央制御部201は、撮像部102によって撮像した1枚の静止画像データを記録部206に記録する。この静止画像データは例えばJPEGファイルやPNGファイルである。なお、静止画撮影コマンドによって実行されるジョブは、中央制御部201が1枚の静止画撮影を撮像し記録することで完結するため、先に説明した図5BのステップS152において中央制御部201が判定する対象であるジョブとはならない。中央制御部201が音声コマンドが静止画撮影コマンドではないと判定した場合、処理はステップS204に進む。
ステップS204において、中央制御部201は音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、ユーザが撮像装置1に対して動画を撮像し記録するジョブを実行するよう要求するコマンドである。中央制御部201は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップS213に進める。ステップS213において、中央制御部201は、撮像部102を用いて動画の撮像および記録を開始し、処理をステップS151に戻す。本実施形態では、中央制御部201は撮像した動画を記録部206に記録する。なお、中央制御部201は撮像した動画を無線通信部214を介してネットワーク上のファイルサーバに送信し、記録してもよい。動画撮影コマンドは、動画の撮像および記録をユーザが停止させるまで実行し続けるジョブを実行させるコマンドである。そのため、動画撮影コマンドによって実行されるジョブは、図5BのステップS152において中央制御部201が判定する対象のジョブである。中央制御部201が音声コマンドが動画撮影コマンドではないと判定した場合、処理はステップS205に進む。
ステップS205において、中央制御部201は音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが動画撮影終了コマンドであると判定した場合、処理をステップS214に進める。ステップS214において、中央制御部201は、動画の撮像および記録中である場合、動画の撮像および記録するジョブを終了する。なお、動画の撮像および記録するジョブを実行していない場合、中央制御部201は本ステップの処理をスキップする。ステップS214の処理の後、中央制御部201は処理をステップS151に戻す。中央制御部201が音声コマンドが動画撮影終了コマンドではないと判定した場合、処理はステップS206に進む。
ステップS206において、中央制御部201は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、ユーザが撮像装置1に対して、撮像部102の撮像方向をオブジェクトがいる方向に追尾するように、可動撮像部100を回動させるジョブを実行することを要求するコマンドである。中央制御部201は、音声コマンドが追尾コマンドであると判定した場合、処理をステップS215に進める。ステップS214において、中央制御部201は、映像信号処理部203で得られた映像データの中心にあたる位置にオブジェクトを配置し続けるように、回動制御部213の制御を開始する。ステップS215の処理の後、中央制御部201は処理をステップS151に戻す。中央制御部201が音声コマンドが追尾コマンドではないと判定した場合、処理はステップS207に進む。
ここでステップS215の処理以降、中央制御部201によって可動撮像部100がパン動作およびチルト動作を行い、ユーザを撮像部102の画角内に収まるように回動する。ただし、中央制御部201はオブジェクトを追尾するように可動撮像部100を制御するが、撮像した画像データや映像データを記録しない。ユーザは画像データや映像データを記録したい場合、それぞれ静止画撮影コマンドや動画撮影コマンドによって中央制御部201に指示する。また、追尾コマンドはオブジェクトの追尾をユーザが停止させるまで実行し続けるジョブを実行させるコマンドである。そのため追尾コマンドによって実行されるジョブは、図5BのステップS152において中央制御部201が判定する対象のジョブである。
ステップS207において、中央制御部201は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが追尾終了コマンドであると判定した場合、処理をステップS216に進める。中央制御部201は、オブジェクトを追尾中である場合、オブジェクトを追尾するジョブを終了する。なお、オブジェクトを追尾するジョブを実行していない場合、中央制御部201は本ステップの処理をスキップする。ステップS216の処理の後、中央制御部201は処理をステップS151に戻す。中央制御部201が音声コマンドが追尾終了コマンドではないと判定した場合、処理はステップS208に進む。
ステップS208において、中央制御部201は、音声コマンドが自動撮影コマンドであるか否かを判定する。自動撮影コマンドは、所定の音量以上の音声を検出するごとに、その音声の音源の方向にレンズ部101の撮像方向を向け、静止画像および動画を撮像し記録するジョブを実行するよう要求するコマンドである。例えば、中央制御部201はこのジョブを実行中である場合、複数の話者が存在するミーティングにおいて、誰かの発言がある度にその発言者を撮像部102の画角内に収めるようにパン動作およびチルト動作を行いながら、動画を撮像し記録する。また例えば、中央制御部201は、複数の人物が存在するパーティ会場において、笑顔や笑い声を検出したことに応じて笑顔の人物や笑い声を発している人物の静止画像を撮像し記録する。中央制御部201は、音声コマンドが自動撮影コマンドであると判定した場合、処理をステップS217に進める。
ステップS217において、中央制御部201は、撮像部102によって動画の撮像および記録を開始する。ステップS217の処理の後、中央制御部201は処理をステップS151に戻す。なお、中央制御部201は自動撮影コマンドのジョブを実行中している場合、このジョブを終了させる音声コマンドを受け付けない。本実施形態では、操作部205に設けられた所定のスイッチをユーザに操作されたことに応じて、中央制御部201はこのジョブを終了する。また、このジョブを実行中、中央制御部201は、音声コマンド認識部2043を停止させる。そして中央制御部201は、音圧レベル検出部2041により所定の閾値を超える音圧レベルを検出した場合、音方向検出部2044が検出した音方向情報を参照して、その音源の方向に撮像方向が向くように可動撮像部100をパン動作およびチルト動作させる。中央制御部201が音声コマンドが自動撮影コマンドではないと判定した場合、処理は他の音声コマンドの認識処理を実行する。
ステップS209において、中央制御部201は音声コマンドが間欠前方撮影コマンドであるか否かを判定する。例えば、“前方を撮影して”や“Hi,Camera.前方を撮影して”といった音声コマンドであるか否かを判定する。中央制御部201は、音声コマンドが間欠前方撮影コマンドであると判定した場合、処理をステップS218に進める。
ステップS218において、中央制御部201は撮像装置1の装着者の前方を所定の時間間隔で静止画を撮影する。例えば中央制御部201は装着者の前方を1分ごとに撮影する。なお、中央制御部201は間欠前方撮影コマンドのジョブを実行中している場合、このジョブを終了させる音声コマンドを受け付けない。本実施形態では、操作部205に設けられた所定のスイッチをユーザに操作されたことに応じて、中央制御部201はこのジョブを終了する。また、ステップS218における処理を実行する場合、撮像装置1は装着者の前方を判定する処理を実行する。その装着者の前方を判定する処理についての詳細は後述する。
以上、撮像装置1の音声コマンド処理について説明した。上記以外の音声コマンドは、ステップS208より後に実行されるが、ここでの説明は省略する。
なお、図6には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、所定の値だけ、ズーム倍率を増加させる。また、認識した音声コマンドが縮小コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、所定の値だけ、現在のズーム倍率を減少させる。なお、レンズ部101が既においてレ端、或いは、ワイド端にある場合、それを超えてズーム倍率を拡大、或いは、縮小することはできない。そのため、レンズ部101が既においてレ端、或いは、ワイド端にある場合、中央制御部201はレンズ部101のテレ端、或いは、ワイド端を超えるような音声コマンドを無視する。
<撮像装置のタイミングチャート>
ここで、本実施形態における撮像装置1におけるメイン電源がオンされてから動画撮影開始するまでの処理の一例を図8に示すタイミングチャートを用いて説明する。
撮像装置1のメイン電源がオンになったことに応じて、音圧レベル検出部2041はマイク104aからの音声データの音圧レベルの検出処理を開始する。タイミングT601において、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。このユーザの発声を受けて、音圧レベル検出部2041は所定の閾値を超える音圧を検出する。音圧レベル検出部2041が所定の閾値を超える音圧を検出したことをトリガに、タイミングT602において、音声用メモリ2042はマイク104aからの音声データの格納を開始し、音声コマンド認識部2043は音声コマンドの認識を開始する。タイミングT603において、ユーザが起動コマンド“Hi,Camera”の発声を終えた場合、音声コマンド認識部2043がその音声コマンドを認識し、その認識した音声コマンドが起動コマンドであることを検出する。
中央制御部201は、音声コマンド認識部2043によって起動コマンドが認識されたことに応じて、タイミングT604において音方向検出部2044に電力の供給を開始する。また、中央制御部201は、音声コマンド認識部2043によって起動コマンドが認識されたことに応じて、タイミングT605において撮像部102への電力の供給を開始する。
ユーザは、タイミングT606において、例えば“Start movie”の発声を開始したとする。本実施形態において、“Start movie”は動画撮影開始コマンドである。この場合、ユーザの声から生成された音声データは、タイミングT607から順に音声用メモリ2042に格納されていく。そして、タイミングT608において、ユーザが起動コマンド“Start movie”の発声を終えた場合、音声コマンド認識部2043は、ユーザの声から生成された音声データを動画撮影開始コマンドを示す音声コマンドとして認識する。音声コマンド認識部2043は、音声用メモリ2042内の“Start movie”を示す音声データの先頭と終端のアドレスと、音声コマンドの認識結果を中央制御部201に出力する。中央制御部201は、音声コマンド認識部2043から入力されたアドレスと音方向検出部2044に格納されている音声データのアドレスとに基づいて、音声コマンドに対応する音声データと関連付けられている音方向情報を音方向検出部2044から取得する。中央制御部201はその音方向情報のうち、最後に記録された音方向情報を取得し、タイミングT609において、その取得した情報に基づいて、回動制御部213を制御して、可動撮像部100のパン動作およびチルト動作を開始する。
タイミングT612において、可動撮像部100のパン動作およびチルト動作中に、撮像信号処理部202は撮像部102によって生成された画像データからオブジェクトを検出する。撮像信号処理部202がオブジェクトを検出した場合、タイミングT613において、中央制御部201はパン動作、チルト動作を停止する。また、タイミングT614において、中央制御部201は、動画用音声処理部2045に電力を供給して、マイク104a、および、マイク104bによってステレオ音声を収音可能な状態にする。そして、中央制御部201は、タイミングT615において、ステレオ音声の収音、動画の撮像、およびそれらの記録を開始する。
<音源の方向の検出処理>
次に、本実施形態における音方向検出部2044による音源方向の検出処理を説明する。本実施形態では、この検出処理は、図5AのステップS110以降、周期的に、且つ、継続的に行われる。
まず、図9(a)を用いて、マイク104aとマイク104bの2つのマイクを用いた音方向検出部2044による簡易的な音源方向の検出処理を説明する。図9(a)では、マイク104aおよびマイク104bは水平面上(パン動作の回転軸に垂直な平面上)に配置されている。ここでマイク104aとマイク104bとの距離をd[a‐b]と表す。なお、距離d[a‐b]に対して、撮像装置1と音源との距離は十分に大きいとする。この場合、マイク104aが音声を収音したタイミングとマイク104bが音声を収音したタイミングを比較することによって、音方向検出部2044はマイク104aおよびマイク104bの間の音声の到達時間の遅延を計算することができる。例えば音方向検出部2044は、到達時間の遅延時間に音速(例えば空気中では約340m/s)を乗じることで、図9(a)に示す距離I[a‐b]を計算することができる。そして、音方向検出部2044は次式によって撮像方向に対する音源の方向の角度θ[a‐b]を計算することができる。
θ[a‐b]=acos(I[a‐b]/d[a‐b])
しかし、図9(a)に示すように2つのマイクのみで求めた場合、角度θ[a‐b]だけではなくθ[a‐b]’も同時に計算されてしまう。すなわち、音方向検出部2044は音源の方向が、角度θ[a‐b]の方向、または角度θ[a‐b]’の方向のどちらであるかを判定できない。
そこで、本実施形態では、図9(b)、(c)に示すように音方向検出部2044は音源の方向を検出する。具体的には、マイク104aおよびマイク104bから計算した2つの音源の方向に加えて、更に他のマイクを用いて別の音源の方向を2つ求める。そして、これら2つの音源の方向に互いに共通している方向を、音方向検出部2044は実際に音源がある方向として決定する。なお、図9(b),(c)では紙面の上方向を可動撮像部100の撮像方向とする。可動撮像部100の撮像方向は、レンズ部101の光軸方向(主軸方向)、および撮像部102の撮像方向、とも言い換えることができる。
まず図9(b)を用いて、音方向検出部2044が3つのマイクによって音源の方向を検出する方式について説明する。本実施形態では、音方向検出部2044はマイク104a、マイク104b、およびマイク104cを用いる例について説明する。撮像装置1のマイクの配置が図3(a)で示したような配置である場合、可動撮像部100の撮像方向はマイク104a、マイク104bの並ぶ方向に直交する方向である。
図9(a)で説明したように、音方向検出部2044はマイク104a、およびマイク104bを用いてθ[a‐b]を計算できる。さらにマイク104aとマイク104cとの間の距離d[a‐c]、およびマイク104aが音声を収音したタイミングとマイク104cが音声を収音したタイミングとから、音方向検出部2044は距離I[a‐c]、および角度θ[a‐c]を計算できる。ここで、音方向検出部2044は図9(a)を用いて説明した方法と同様にして距離I[a‐c]、および角度θ[a‐c]を計算する。角度θ[a‐b]および角度θ[a‐c]より、音方向検出部2044はマイク104a,マイク104b、およびマイク104cが配置される平面と同一平面上(パン動作の回転軸に垂直な平面上)における、音源の方向を検出できる。
次に図9(c)を用いて、音方向検出部2044が4つのマイクによって音源の方向を検出する方式について説明する。本実施形態では、音方向検出部2044はマイク104a、マイク104b、マイク104c、およびマイク104dを用いる例について説明する。撮像装置1のマイクの配置が図3(a)で示したような配置である場合、可動撮像部100の撮像方向はマイク104a、マイク104bの並ぶ方向に直交する方向である。マイク104a、マイク104bの並ぶ方向とは、マイク104aの中心点とマイク104bの中心点とを結ぶ直線の方向である。本実施形態では音方向検出部2044は対角線上に位置するマイク104aとマイク104dのペアと、マイク104bとマイク104cのペアと、の2つのペアを用いる。
マイク104aとマイク104dと間の距離d[a‐d]、およびマイク104aが音声を収音したタイミングとマイク104dが音声を収音したタイミングとから、音方向検出部2044は距離I[a‐d]、および角度θ[a‐d]を計算できる。
同様にして、マイク104b、マイク104c間の距離d[b‐c]、およびマイク104bが音声を収音したタイミングとマイク104cが音声を収音したタイミングとから、音方向検出部2044は距離I[b‐c]、および角度θ[b‐c]を計算できる。
角度θ[a‐d]および角度θ[b‐c]より、音方向検出部2044はマイク104a,マイク104b、マイク104c、およびマイク104dが配置される平面と同一平面上(パン動作の回転軸に垂直な平面上)における、音源の方向を検出できる。
さらに、音方向検出部2044は角度θ[a‐b]や角度θ[c‐d]をさらに計算し、音源の方向検出に用いることで、検出する音源の方向の精度をさらに高めることができる。
以上、本実施形態における音方向検出部2044による音源方向の検出処理について説明した。マイク104aとマイク104bとマイク104cおよびマイク104dは図3のように長方形の4つの頂点に配置した。
一方、上記の方法では、音方向検出部2044は4つのマイクが配置される平面と同一の平面上の音源の方向しか検出できない。そのため、音源が撮像装置1の真上に位置する場合、音方向検出部2044はその方向を検出できない。そこで、音方向検出部2044が真上にある音源の方向を検出する方法を図10(a)、(b)を用いて説明する。
図10(a)は音方向検出部2044が3つのマイクを用いて真上にある音源の方向を検出する方法の一例を説明するための図である。本実施形態では音方向検出部2044はマイク104a、マイク104b、およびマイク104cを用いる。撮像装置1のマイクの配置が図3(a)で示したような配置である場合、可動撮像部100の撮像方向はマイク104a、マイク104bの並ぶ方向に直交する方向である。マイク104a、マイク104bの並ぶ方向とは、マイク104aの中心点とマイク104bの中心点とを結ぶ直線の方向である。
撮像装置1の真上に音源が位置する場合、その音源からのマイク104aとマイク104bとの距離はそれぞれ等距離であると見なせる。つまり、マイク104aと104bとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部2044はマイク104aとマイク104bを結ぶ線分の垂直二等分線上に音源があると判定できる。さらに同様に、音源からのマイク104aとマイク104cとの距離はそれぞれ等距離であると見なせる。つまり、マイク104aと104cとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部2044はマイク104aとマイク104cを結ぶ線分の垂直二等分線上に音源があると判定できる。
ここで例えば、マイク104aとマイク104bとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔT1とし、マイク104aとマイク104cとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔT2とする。そして時間差がないとみなせる時間として十分に小さい値である閾値εと、ΔT1およびΔT2との関係が次の条件を満たす場合、音方向検出部2044は音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT1<ε かつ ΔT2<ε
図10(b)は音方向検出部2044が4つのマイクを用いて真上にある音源の方向を検出する方法の一例を説明するための図である。本実施形態では、音方向検出部2044はマイク104a、マイク104b、マイク104c、およびマイク104dを用いる。本実施形態では音方向検出部2044は対角線上に位置するマイク104aとマイク104dのペアと、マイク104bとマイク104cのペアと、の2つのペアを用いる。
撮像装置1の真上に音源が存在する場合、その音源からのマイク104aとマイク104dとの距離はそれぞれ等距離であると見なせる。つまり、マイク104aと104dとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部2044はマイク104aとマイク104dを結ぶ線分の垂直二等分線上に音源があると判定できる。さらに同様に、音源からのマイク104bとマイク104cとの距離はそれぞれ等距離であると見なせる。つまり、マイク104bと104cとに音源からの音はそれぞれ時間差なく到達する。そのため、音方向検出部2044はマイク104bとマイク104cを結ぶ線分の垂直二等分線上に音源があると判定できる。
ここで例えば、マイク104aとマイク104dとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔT3とし、マイク104bとマイク104cとでそれぞれ検出した音源からの音の到達した時間の差の絶対値をΔT4とする。そして閾値εと、ΔT3およびΔT4との関係が次の条件を満たす場合、音方向検出部2044は音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT3<ε かつ ΔT4<ε
以上のように、3つ以上のマイクのうちの2つのペアについて、音源からの音の到達時間の時間差の絶対値をそれぞれ計算し、2つの時間差の絶対値がそれぞれ十分に小さい閾値未満なった場合、音方向検出部2044は音源の方向を真上であると判定できる。なお、この2つのペアは、それら2つのペアの向きが互いに非平行であれば、どのような組み合わせでもよい。
このように、中央制御部201は音方向検出部2044が検出した音方向情報と、音声コマンド認識部2043が認識した音声コマンドの音声データの先頭と終端のアドレスと、から音声コマンドを発した人物の方向を判定する。これにより、撮像装置1が音声コマンドを発声した人物(の顔)以外を誤って被写体と判定することを抑制できる。
また、マイク104a、マイク104b、マイク104c、マイク104d、および音声信号処理部204を構成する各要素は、それぞれが利用されることに応じて中央制御部201の制御の元で電力供給が行われる。これにより、各要素が撮像装置1が起動したことに応じて電力供給される場合と比較して、撮像装置1の電力消費量を抑制できる。
<撮像装置の利用形態>
次に、図3(b)〜(e)を用いて撮像装置1の具体的な利用形態の一例を説明する。
まず、例えば図3(b)に示すように、撮像装置1がユーザの首にぶら下げられる場合について説明する。この場合、レンズ部101の撮像方向(光軸方向)がユーザの体がある方向に向いて撮影すると、撮像装置1はユーザの体を撮影してしまう。撮像装置1を首にぶら下げているユーザは自身の向いている方向を撮影することを意図していると考えられるため、このように撮影された画像はよい画像とはみなされない可能性が高い。したがって、レンズ部101の撮像方向(光軸方向)は、ユーザの前方(ユーザの体がある方向とは逆方向)に向くことが望ましい。
撮像装置1の撮像方向がユーザの前方を向く場合、例えば図3(a)に示すように、マイク104c、およびマイク104dが配置されている方向の撮像装置1の筐体部分がユーザの体に触れる可能性が高い。つまり、マイク104c、およびマイク104dが、撮像装置1の筐体とユーザの衣類とのこすれ音を収音するおそれがある。この場合、撮像装置1はこのこすれ音のせいにより、4つのマイクによって音源の方向を検出することが難しくなる。そこで、図3(a)に示すような場合、すなわち撮像装置1がユーザの首にぶら下げられる利用形態の場合、音方向検出部2044は、マイク104a、マイク104bの2つのみによって音方向を検出する。また、この場合、中央制御部201は、マイク104c、およびマイク104dへの電力の供給を遮断してもよい。
なお、この場合では、図9(a)を用いて説明した、2つのマイクによって音源の方向を求めると音源方向が2つ検出されてしまうという問題は解決できる。なぜなら、音源の方向は、少なくともユーザの前方の範囲内にあると見なして良いからである。つまり、音方向検出部2044は、マイク104a、およびマイク104bの2つを用いて音源の方向を計算し、検出した2つの音源の方向のうちユーザの前方にある1つを音源の方向として検出する。
なお、撮像装置1はユーザの体がある方向を例えば次のように決定する。撮像装置1は例えば首にぶら下げられていると判定した後、360度(一周)のパン動作を行い、レンズ部101によって測距した距離の最短となる方向を中心とする所定の角度(例えば180度)の範囲をユーザの体がある方向として決定する。また、中央制御部201は、この決定した方向を記録部206に記録する。
次に、例えば図3(d)に示すように、撮像装置1がユーザの肩に装着される場合について説明する。この場合、撮像装置1の4つのマイクのうち、いずれか1つが配置されている撮像装置1の筐体部分がユーザの頭に近い位置になり、その筐体部分がユーザの頭や衣類に接する可能性が高くなる。したがって、この場合、撮像装置1は、4つのマイクのうち、ユーザの頭に近い1つのマイクを音方向検出処理において使用せず、他の3つのマイクを用いて音方向検出処理を実行する。
また、ユーザは自身の肩に撮像装置1を装着(固定)した場合、ユーザの動きとは無関係に、撮像装置1とユーザの頭との相対的な位置は変化しない。そのため、中央制御部201は、この方向をユーザの体のある(ユーザの頭)の方向として記録部206に記録する。そして、中央制御部201は、4つのマイクのうち、記録した方向とレンズ部101の撮像方向(光軸方向)に基づき、ユーザの頭に最も近い1つのマイクを音源の方向の検出に使用しない。すなわち、音方向検出部2044は残りの3つマイクを用いて方向検出を行うように設定される。なお、ユーザの頭の方向の検出は、例えばユーザの肩に装着されていると判定した後、360度のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度(例えば90度)の範囲をユーザの存在する方向として決定する。また、中央制御部201は、ユーザの頭の方向を記録部206に記録する。
最後に、図3(b)、(e)に示すような利用形態の場合では、音方向検出部2044は4つのマイクを用いた音方向検出を行う。
<撮像装置の利用形態の自動検出>
本実施形態では、ユーザが撮像装置1を図3(b)〜(e)のいずれかの利用形態とするかは、支持部200の操作部205を操作して設定する。また、中央制御部201が利用形態を自動で検出する機能(オート検出モード)を有してもよい。このオート検出モードが設定されている場合における中央制御部201の処理を説明する。
前述したように、位置検出部212はジャイロセンサ、加速度センサ、およびGPSセンサ等の撮像装置1の動きを検出する構成を有する。本実施形態のオート検出モードでは、中央制御部201は位置検出部212を用いて撮像装置1の利用形態を検出する。例えば、図5AのステップS101の初期化処理後に、ユーザが撮像装置1を持ってその利用形態を決める操作を行った場合、位置検出部212の加速度センサやジャイロ等のセンサにより閾値以上の変化を検出する可能性が高い。そこで、中央制御部201は、初期化処理後の予め設定された期間内に位置検出部212によって撮像装置1の利用形態の変化を検出した場合、ユーザによる撮像装置1の設置操作を行っていると判定し、割り込み処理を開始する。なお、中央制御部201は、初期設定では、撮像装置1は図3(b)に示すような利用形態、すなわち、撮像装置1は固定状態にあると判定する。
図11を用いてこの割り込み処理(撮像装置1の設置位置の検出処理)を説明する。図11は、撮像装置1の設置位置の検出処理のフローチャートの一例である。本処理は、中央制御部201が位置検出部212によって撮像装置1の利用形態の変化を検出した場合に開始される。
ステップS1101において、中央制御部201は位置検出部212から入力されたセンサの測定値を、予め設定された期間分、記録部206に記録する。この期間は、ユーザが利用形態の変更に係る操作を完了するまでに十分な時間が望ましい(例えば1分)。
この期間を終えると以下に説明するように、中央制御部201は、記録したデータに基づいて、撮像装置1の利用形態を判定し、音方向検出部2044による音源の方向の検出方法を決定する。なお、以下の説明では、x軸およびy軸が表す平面は、撮像装置1にとっての水平面を表し、z軸は撮像装置1のパン動作の回転軸の軸方向を表すものとして説明する。
ユーザは、撮像装置1を肩に装着する場合、図3(b)、(c)、および(e)に示すような利用形態に変化する場合と比べて、x軸,y軸,およびz軸のいずれかの方向への移動量が大きい傾向がある。したがって、ステップS1102において、中央制御部201は、x軸、y軸、およびz軸のそれぞれの加速度のいずれかが予め設定された閾値を超えるか否かを判定する。これらの加速度はステップS1101において記録された測定値に基づく。予め設定された閾値を超える加速度があった場合、中央制御部201は、撮像装置1がユーザの肩に装着されたと判定し、ステップS1103において、ユーザの頭に最も近い1つのマイクを除く3つのマイクによって音源方向の検出を行うと決定する。この場合、中央制御部201は3つのマイクで音源方向を検出するよう、音方向検出部2044を設定する。
また、ステップS1102において、x軸、y軸、およびz軸のいずれの方向の加速度も予め設定された閾値以下であった場合、中央制御部201は処理をステップS1104に進める。
ここでユーザが撮像装置1を首にぶら下げる場合、肩に装着する場合と比べて、x軸、y軸、およびz軸方向への移動量が小さい。また、撮像装置1を首にぶら下げる場合、図3(c)に示すように、ユーザは撮像装置1の上下をひっくり返す。このため、ユーザが撮像装置1を首にかける動作を行う場合、x軸またはy軸回りの角速度は大きい。また、z軸回りの撮像装置1の角速度は小さい。
そこで、ステップS1104において、中央制御部201は、x軸、y軸、およびz軸回りの角速度の検出および角速度を閾値の比較を行う。例えば、z軸回りの角速度(本実施形態ではヨーという)が予め設定された閾値より小さく、且つ、x軸またはy軸に対する角速度(本実施形態では、それぞれロール、ピッチという)が予め設定された閾値より大きいか判定する。
ヨーがあらかじめ設定された閾値より小さく、且つ、ロールまたはピッチが予め設定された閾値より大きい場合、中央制御部201は、撮像装置1はユーザの首にぶら下げられていると判定する。そして、中央制御部201は、4つのマイクのうち、ユーザの前方にあるマイク104a,およびマイク104bの2つのマイクを用いて音源の方向を検出するよう音方向検出部2044に設定する。
一方、ステップS1104において、ヨーが予め設定された閾値以上である場合、又は、ロールまたはピッチが予め設定された閾値より小さいと判定された場合、中央制御部201は、撮像装置1が、固定されたと判定する。撮像装置1が固定された状態は、例えば肩に装着された場合や、首にぶら下げられた場合のような移動がほとんど発生しないため、上記のいずれにも該当しない場合は、中央制御部201は撮像装置1が固定されたと判定する。この場合、中央制御部201は、ステップS1106において、4つのマイクを用いて音源方向の検出を行うよう、音方向検出部2044に設定し、本処理を終える。
以上、撮像装置1の設置位置の検出処理について説明した。
なお、中央制御部201は、初期化処理後の予め設定された期間内に位置検出部212によって撮像装置1の利用形態の変化を検出したことをトリガに、本処理を開始したが、このトリガは他のトリガでもよい。例えば、ユーザから操作部205によって撮像装置1の設置を終えたことを示す操作をされたことをトリガに、中央制御部201は本処理を開始する。また、撮像装置1の設置を終えたことを示す操作は、PCや携帯端末等から無線通信部214を介して受信してもよい。
<撮像装置の前方判定処理>
次に、本実施形態における間欠前方撮影(例えば、図6のステップS218の処理)に移行する前に行われるユーザの前方方向を判定する処理の一例について説明する。本処理は、少なくとも図11を用いて説明した、撮像装置1の利用形態の検出処理の後に行われる。
中央制御部201は、間欠前方撮影では、音源の方向とは無関係に、撮像装置1を装着している装着者にとっての前方の静止画を所定の間隔(例えば10秒間隔)で撮影する。このためには、中央制御部201は、装着者にとっての「前方」である方向を判定し、可動撮像部100の撮像方向(光軸方向)を装着者の前方に向ける必要がある。
本実施形態では、装着者の前方は装着者の進行方向であるとして説明する。例えばユーザが像装置1を首にぶら下げる場合(図3(c))、肩に装着する場合(図3(d))、および自転車等の移動体に装着する場合等において、ユーザ(装着者)が前方に移動することを想定する。このような場合において、撮像装置1はマイクから入力される風による雑音(以下、風雑音という)からユーザの進行方向を検出することで、装着者であるユーザの前方である方向を検出する。
本実施形態におけるユーザの進行方向の検出処理は、図5Bステップ156の処理において実行される。このユーザの進行方向の検出処理について、図12(a),(b)および図13(a)〜(d)を用いて説明する。
図12(a)は本実施形態における、ユーザの進行方向を検出する際に用いられる進行方向検出部2044bのブロック図の一例である。進行方向検出部は音方向検知部2044に含まれる。
進行方向検出部2044bには4つのマイク(マイク104a〜マイク104d)から信号が入力される。進行方向検出部2044bは複数のマイクから入力される風雑音から進行方向を検出し、中央制御部201に進行方向を出力する。中央制御部201は、進行方向検出部2044bから入力された進行方向に基づいて回動制御部213を制御し、撮像方向を進行方向へ向ける。
図12(a)に示すように、本実施形態の進行方向検出部2044bは風雑音検出部2044b1および風雑音比較部2044b2で構成される。
風雑音検出部2044b1は、4つの風雑音検出部で構成される。マイク104aとマイク104bとから風雑音を検出する風雑音検出部ab、マイク104bとマイク104dとから風雑音を検出する風雑音検出部bd、マイク104dとマイク104cとから風雑音を検出する風雑音検出部dc、およびマイク104cとマイク104aとから風雑音を検出する風雑音検出部caである。これらの風雑音検出部の動作については、図12(b)を用いて後述する。なお、それぞれの風雑音検出部の動作は共通である。
風雑音比較部2044b2は風雑音検出部2044b1から入力された複数の風雑音レベルを元に、ユーザの進行方向を特定する。本実施形態では、風雑音比較部2044b2は風雑音が大きい方向を進行方向とみなす。
図12(b)は図12(a)における風雑音を検出する処理の一例を説明するための風雑音検出部1901のブロック図の一例である。本実施形態では風雑音検出部2044b1の中にある4つの風雑音検出部はどれも風雑音検出部1901と同様の構成を有する。図12(b)では、風雑音検出部1901に入力される2つの信号をそれぞれ信号1、信号2として説明する。すなわち、例えば、風雑音検出部abにおける信号1はマイク104aから入力される信号、および信号2はマイク104bから入力される信号である。
加算部1902は信号1と信号2を加算した信号3を出力する。
減算部1903は信号1と信号2を減算した信号4を出力する。
LPF1904では信号3および信号4のそれぞれに対して高い周波数帯域の信号の振幅を低減するローパスフィルタ(LPF)をかける。すなわちLPF1904は、信号3に対してLPFをかけたLPF(3)と、信号4に対してLPFをかけたLPF(4)とをそれぞれ出力する。風雑音は低い周波数帯域の振幅が大きい特徴があるため、本実施形態では、例えばLPF1904は100Hz程度をカットオフとする4段のLPFを有する。
ABS1905はLPF(3)およびLPF(4)に対して、それぞれの信号の振幅を計算するとともに、それぞれに対して積分を行うことで平準化する。すなわち、ABS1905はLPF(3)を平準化したABS(3)と、LPF(4)を平準化したABS(4)とをそれぞれ出力する。
比較判定部1906はABS(3)とABS(4)とを比較する。比較判定部1906は、ABS(3)とABS(4)とを比較した結果を風雑音比較部2044b2に出力する。本実施形態では、比較判定部1906はABS(4)÷ABS(3)の値が所定の値より大きい場合、風雑音が大きいと判定し、大きい値を出力する。なお、この場合、信号1および信号2の相関性が少ない。また、比較判定部1906はABS(4)÷ABS(3)の値が所定の値以下である場合、風雑音が小さいと判定し、小さい値を出力する。なお、この場合、信号1および信号2の相関性が大きい。
本実施形態では、比較判定部1906は、ABS(4)÷ABS(3)の値に基づいて、11段階(0〜10の整数値)で風雑音の大きさ(以下、風雑音レベルという)を出力する。
図13(a)〜(d)は本実施形態でのユーザの進行方向と風雑音レベルとの関係を説明するための図である。
図13(a)は、マイク104aとマイク104cとが配置されている方向(以降、進行方向ACという)に撮像装置1が移動している状態の一例を示す図である。
一般的に、ユーザはある程度の速度で移動している場合、移動する方向に逆らうように風を受ける。すなわち、例えば図13(a)に示すように、進行方向ACにユーザ(および撮像装置1)が移動している場合、撮像装置1は進行方向ACに対する方向から風を受ける。この進行方向に対する方向を風方向という。この場合、撮像装置1のマイクに風圧による振動が発生する。この振動が風雑音として撮像装置1に入力される。
図13(b)は図13(a)の状態における風雑音検出部2044b1から出力された風雑音レベルの一例を示す。この風雑音に基づいて風雑音比較部2044b2がユーザの進行方向を判定する方法の一例を説明する。
撮像装置1が進行方向ACへ移動している場合、マイク104aおよびマイク104cから入力される音声データを用いる風雑音検出部caから出力される風雑音レベルが一番大きくなる。一方、進行方向ACと逆側に配置されるマイク104bおよびマイク104dから入力される音声データを用いる風雑音検出部bdから出力される風雑音レベルが一番小さくなる。風雑音比較部2044b2は、これらの風雑音レベルに基づいて撮像装置1の進行方向が進行方向ACであることを示すデータを中央制御部201へ出力する。中央制御部201は撮像装置1の撮像方向が進行方向ACとなるように回動制御部213を制御する。
図13(c)は撮像装置1が停止した状態(図13(c)では進行方向0と記載)の一例を示す図を示す図である。撮像装置1が停止した場合、どのマイクも自然に吹く風以外の風圧を受けない。すなわち、撮像装置1は移動によって発生する風の影響を受けない。なお、本実施形態では、自然に吹く風の風圧は十分弱いものとし、マイク104a〜マイク104dにはほとんど検出されないものとする。
図13(d)は図13(c)に示す状態における風雑音検出部2044b1から出力された風雑音レベルの一例を示す。この風雑音に基づいて風雑音比較部2044b2がユーザの進行方向を判定する方法の一例を説明する。
この場合、撮像装置1は停止している状態であるため、すべての風雑音検出部から出力される風雑音レベルが小さい値(例えば、本実施形態では0および1)になる。すべての風雑音レベルが小さいため風雑音比較部2044b2は、撮像装置1が移動を停止していることを示すデータを中央制御部201へ出力する。この場合、中央制御部201は、撮像装置1の撮像方向を変化させない。なお、例えば、中央制御部201は、撮像装置1が停止する前に移動していた進行方向のデータを有する場合、その進行方向に撮像方向が向くように、回動制御部213を制御してもよい。
以上説明したように本実施形態によれば、撮像装置1は、風雑音を用いることでユーザの進行方向を撮影することが可能になる。
なお、ここでは、間欠前方撮影モードに移行する場合を例示したが、装着者にとっての前方の静止画を1回だけ撮影するモード、および装着者にとっての前方の動画を撮影するモード等に移行する場合も同様の処理を行ってもよい。この場合、例えば、音声コマンド認識部2043は“前方を静止画撮影して”、“前方を動画撮影して”という音声コマンドを認識できる。
なお、撮像装置1の利用形態によっては音方向検出処理に利用されないマイクがある。中央制御部201は、音方向検出処理と同様に、前方判定処理においても、音方向検出処理に利用しないマイクを用いない。この場合、進行方向検出部2044bはそのマイクから入力される音声データを利用しない。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で様々の変形および変更が可能である。また、本発明の実施例においては、撮像装置としてデジタルカメラを一例として挙げているが、ビデオカメラやスマートフォン等の撮影手段、音声入力手段を有する各種の装置に本発明を適用することが可能である。
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。