JP2013172313A

JP2013172313A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2013172313A
Application number: JP2012035145A
Authority: JP
Inventors: Keiichi Nitta; 啓一新田
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2012-02-21
Filing date: 2012-02-21
Publication date: 2013-09-02

Abstract

【課題】過去に得られた音声情報を元に新たに得られる画像内の被写体の認識動作を効率的に行う。
【解決手段】被写界に含まれる発音体が発する音声情報を取得する集音部と、発音体の種類及び発音体が発する音声情報が発音体毎に関連付けられた辞書情報と集音部により取得された音声情報とから、被写界内における発音体の有無を特定する特定部と、を備えたことを特徴とする。
【選択図】図２

Description

本発明は、画像に含まれる被写体を認識する情報処理装置及び情報処理プログラムに関する。

撮像時に取得される画像に含まれる物体を認識する技術は一般物体認識と呼ばれている。この一般物体認識は、例えばヒストグラム解析の結果や空間周波数特性など、画像を解析することで得られる特徴量から、画像に含まれる被写体を認識している（非特許文献１参照）。また、撮像時に得られる音声の伝播方向を特定することで、被写体の位置を推定する技術も提案されている（特許文献１参照）。

特開平１１−１８１９８号公報

「一般物体認識の現状と今後」柳井啓司情報処理学会論文誌：コンピュータビジョンとイメージメディアＶｏｌ．４８Ｎｏ．ＳＩＧ１６（ＣＶＩＭ）Ｎｏｖ．２００７

しかしながら、一般物体認識においては、過去に得られた被写体の特徴量と、新たに得られた画像から得られた特徴量とを比較することを前提にしており、画像の取得時に得られる音声の特徴量を利用することを意図していない。一方、撮像時に音声を取得する手法では、被写体の位置を推定するものの、画像に含まれる被写体は、テンプレートマッチングや特徴量抽出などの技術を用いて行われることから、過去に得られた音声の特徴量を用いて画像に含まれる被写体を特定するものではない。

本発明は、過去に得られた音声情報を元に新たに得られる画像内の被写体の認識動作を効率的に行うことができる情報処理装置及び情報処理プログラムを提供することを目的とする。

上述した課題を解決するために、本発明の情報処理装置は、被写界に含まれる発音体が発する音声情報を取得する集音部と、前記発音体の種類及び該発音体が発する音声情報が前記発音体毎に関連付けられた辞書情報と前記集音部により取得された音声情報とから、前記被写界内における前記発音体の有無を特定する特定部と、を備えたことを特徴とする。

また、前記辞書情報は、前記音声情報の他に、前記発音体の画像情報が前記発音体毎に関連付けられており、前記特定部は、前記音声情報の他に、前記発音体の画像情報を用いて、前記被写界内における前記発音体の有無を特定することを特徴とする。

また、前記特定部は、前記辞書情報に含まれる音声情報と前記集音部により取得された音声情報とを用いて前記発音体の被写界内の存在領域を特定した後、特定された領域を解析することで得られる情報と前記辞書情報に含まれる前記発音体の画像情報とから前記被写界に含まれる発音体を特定することを特徴とする。

また、前記発音体の画像情報は、撮像により得られた前記発音体の画像データからなることを特徴とする。

また、前記発音体までの距離を取得する測距部と、前記測距部により取得された前記発音体までの距離に基づいて、前記集音部の感度を変更する集音制御部と、を備えたことを特徴とする。

また、前記集音部における集音領域を走査する集音走査部を備え、前記特定部は、前記集音領域を移動したときに前記集音部により得られる音声情報に基づいて、前記発音体の有無を特定することを特徴とする。

この場合、前記集音走査部は、前記集音部における集音領域を前記特定部により特定される前記発音体の領域を含むように走査することを特徴とする。

また、前記集音走査部による前記集音部の集音領域の走査範囲は、撮像時の撮像範囲よりも大きく設定されており、前記特定部により特定される前記発音体の前記被写界内の存在領域が、前記撮像範囲内にあるか否かを判定する第１の判定部を備えていることを特徴とする。

さらに、前記第１の判定部により前記発音体の前記被写界内の存在領域が前記撮像範囲内であると判定されたときに、前記被写界の撮像を実行する撮像制御部を備えていることを特徴とする。

また、前記撮像制御部は、前記特定部により特定される前記発音体の前記被写界内の存在領域が前記撮像範囲外から前記撮像範囲内に移動したときに前記被写界の撮像を開始させ、前記発音体の前記被写界内の存在領域が前記撮像範囲内から前記撮像範囲外に移動したときに前記被写界の撮像を終了させることを特徴とする。

また、前記集音部により得られる音声情報の出力値と前記発音体の領域の移動軌跡とから、前記発音体が他の物体に隠れているか否かを判定する第２の判定部を備え、前記第２の判定部により前記発音体が他の物体に隠れていると判定された期間において取得された画像は、他の画像に対して識別可能に記録されることを特徴とする。

また、前記被写界の撮像が屋外の撮像であるか否かを判定する第３の判定部と、前記第３の判定部による判定結果に基づいて、前記音声情報を取得する処理、及び前記発音体を特定する処理を実行させる処理制御部と、をさらに備えていることを特徴とする。

また、前記被写界の撮像を行う撮像部を備え、前記特定部は、前記撮像部による撮像時に、前記集音部により得られる音声情報を用いて前記発音体の前記被写界内の存在領域を特定することを特徴とする。

この場合、前記撮像部による撮像時に、前記集音部の指向性を広くして音声情報を取得し、取得された音声情報と前記撮像部により得られた画像とを関連付けて記録することを特徴とする。

また、前記撮像部により得られる撮像画像に対して、前記発音体の移動方向に基づいた画像処理を行う画像処理部を、さらに備えていることを特徴とする。

また、本発明の情報処理プログラムは、被写界に含まれる発音体が発する音声情報を取得する音声取得工程と、前記発音体の種類及び音声情報が該発音体毎に関連付けられた辞書情報と、前記集音部により取得された音声情報とから、前記被写界内における前記発音体の有無を特定する特定工程と、を、コンピュータに実行させることが可能なものである。

本発明によれば、過去に得られた音声情報を元に新たに得られる画像内の被写体の認識動作を効率的に行うことができる。

本発明の情報処理装置の一例を示す撮像装置の電気的構成を示すブロック図である。撮像時の処理の流れを示すフローチャートである。音声を発する被写体が撮像範囲内に位置したときに撮像処理を実行する場合の流れを示すフローチャートである。集音領域を走査する範囲と、撮像領域との関係を示す図である。移動する被写体の位置と、被写体が発する音声の出力レベルとの関係を示す図である。

以下、本発明の情報処理装置の例として撮像装置を取り上げて説明する。図１に示すように、撮像装置１０は、撮像光学系１５と、撮像素子１６と、レンズ駆動回路１７と、撮像素子駆動回路１８と、Ａ／Ｄ変換器１９と、画像メモリ２０と、画像処理回路２１と、圧縮／伸長回路２２と、記録用Ｉ／Ｆ２３と、表示制御回路２５と、モニタ２６と、振れ検出センサ２７と、測距センサ２８と、集音部３１と、Ａ／Ｄ変換器３２と、集音処理回路３３と、集音制御回路３４と、音声メモリ３５と、ＣＰＵ３９と、内蔵メモリ４０と、レリーズボタン４１と、操作部４２とから構成される。

なお、Ａ／Ｄ変換部１９、画像メモリ２０、画像処理回路２１、圧縮／伸長回路２２、記録用Ｉ／Ｆ２３、表示制御回路２５、振れ検出センサ２７、測距センサ２８、集音処理回路３３、音声メモリ３５、ＣＰＵ３９及び内蔵メモリ４０は、バス４３を介して電気的に接続される。

この撮像装置１０は、記録用Ｉ／Ｆ２３を介して記憶媒体４４を装着させることが可能である。この記憶媒体４４としては、例えばメモリカード、小型ハードディスク、ＤＶＤなどの光ディスクなどの他に、例えば外付け用のハードディスクなど、撮像装置１０の外部に設けられるものであってもよい。

撮像光学系１５は、複数のレンズから構成され、撮像素子１６の撮像面上に被写体像を結像させる。この撮像光学系１５は、不図示のフォーカスレンズとズームレンズとを含む。フォーカスレンズはレンズ駆動回路１７により光軸（Ｌ）方向に進退駆動されることで、撮像光学系１５におけるフォーカス調節が行われる。また、ズームレンズもレンズ駆動回路１７により光軸（Ｌ）方向に進退駆動されることで、撮像光学系１５のズーム調節が行われる。このレンズ駆動回路１７は、ＣＰＵ３９から出力されるレンズ駆動指令に応じてレンズ駆動信号を発生し、発生したレンズ駆動信号で不図示のレンズ駆動機構を駆動することにより、撮像光学系１５の各レンズを移動させる。

この撮像光学系１５は、さらに振れ検出センサ２７の出力に基づいて、複数のレンズのうちの所定のレンズを、不図示の駆動機構を用いて、撮像光学系１５の光軸（Ｌ）に対して垂直方向に駆動することにより、撮像素子１６上に結像される被写体の位置をシフトさせる、所謂振れ補正を行うことができる。なお、上記のような複数のレンズのうちの所定のレンズを、撮像光学系１５の光軸（Ｌ）に対して垂直方向に駆動する構成にかえて、可変頂角プリズムを用いて、撮像素子１６上に結像される被写体の位置をシフトさせる構成としてもよい。また、上記のような複数のレンズのうちの所定のレンズを撮像光学系１５の光軸（Ｌ）に対して垂直方向に駆動する構成にかえて、撮像素子１６を撮像光学系１５の光軸（Ｌ）に垂直な面内で駆動する構成としてもよい。

撮像素子１６は、静止画像の単写撮像とともに、静止画像の連続撮像、および動画像の撮像が可能である。撮像素子１６は、例えばＣＣＤ撮像素子あるいはＣＭＯＳ型撮像素子などによって構成される。撮像素子駆動回路１８は、ＣＰＵ３９から出力される指令に応じて所定タイミングの駆動信号を発生し、発生した駆動信号を撮像素子１６へ供給する。撮像素子１６は、供給された駆動信号によって電荷蓄積（撮像）や蓄積電荷の読み出しが制御される。ＣＰＵ３９は、被写体の測光データを用いて被写界の明るさの情報を求め、この明るさの情報に基づいて撮像素子１６の電荷蓄積時間、撮像光学系１５における絞り、および撮像素子１６より出力される画像信号の増幅度などを決定する。なお、被写界の明るさの情報は、撮像素子１６から出力される信号から求める構成であっても、不図示の測光センサより出力される信号から求める構成であってもよい。この撮像素子１６から読み出された画像信号は、Ａ／Ｄ変換部１９にて、アナログの画像信号からデジタルの画像信号に変換された後、画像メモリ２０に書き込まれる。

画像処理回路２１は、ＣＰＵ３９からの指令に応じて、入力される画像信号に対して、色補間、ホワイトバランス、ガンマ変換等の画像処理を施す。この画像処理後の画像信号が画像データとなる。この画像処理回路２１は、モニタ２６に再生画像を表示させるために必要な解像度変換（画素数変換）処理を画像データに施し、解像度変換処理後の画像データを表示制御回路２５へ出力する。なお、電子ズーム処理を行う際にも、画像処理回路２１は画像データに対して解像度（画素数）変換処理を施す。

圧縮／伸長回路２２は、ＣＰＵ３９からの指令に応じて、画像処理回路２１から入力される画像データに対して所定の形式で圧縮処理を施す。なお、操作部４２で画像データの非圧縮での記録が指示された場合、圧縮／伸長回路２２は圧縮処理を行わない。

また、この撮像装置１０においては、記憶媒体４４に記録されている画像データによる再生画像をモニタ２６に表示することが可能に構成されている。この場合、圧縮／伸長回路２２は、ＣＰＵ３９からの指令に応じて記憶媒体４４に記録されている画像データを読み出し、読み出したデータに対して復号化処理を施した上で復号化後のデータを画像処理回路２１へ出力する。画像処理回路２１は、圧縮／伸長回路２２により復号化されたデータに対して解像度変換処理を施し、表示制御回路２５へ出力することにより、再生画像がモニタ２６に表示される。なお、記憶媒体４４に記録されている非圧縮の画像データが読み出された場合には、圧縮処理の逆処理である復号化処理は行われない。なお、圧縮／伸長回路２２は、可逆圧縮（いわゆるロスレス符号化）を行うことも可能な構成となっている。

表示制御回路２５は、ＣＰＵ３９からの指令に応じて、画像処理回路２１から入力される画像データに所定の信号処理を施してモニタ２６へ出力する。表示制御回路２５は、さらに、上記画像データに撮影メニュー、カーソルなどのオーバーレイ画像データを重畳する処理を行う。これにより、オーバーレイ画像が重畳された被写体画像がモニタ２６に表示される。なお、モニタ２６としては、ＬＣＤやＥＬディスプレイ、或いはＣＲＴディスプレイなどが挙げられる。

振れ検出センサ２７は、例えば角速度センサ、ジヤイロセンサ等で構成される。この振れ検出センサ２７、撮像装置１０の筐体の内部に設けられ、筐体の振れや姿勢の変化を検出する。例えばレリーズボタン４１の操作に基づいて、撮像装置１０の筐体に振れが発生したときに、振れ検出センサ２７は撮像装置１０の筐体に発生する振れを検知する。そして、振れ検出センサ２７は、振れ量データをＣＰＵ３９に出力する。ＣＰＵ３９は、不図示の駆動機構を用いて、筐体の振れに伴う撮像素子１６の撮像面上に結像される被写体像の移動が打ち消されるように、撮像光学系１５を構成する複数のレンズのうちの所定のレンズを移動させる。これによって、所謂振れ補正が実現される。なお、上記の振れ補正は、スルー画像の撮像動作中、静止画像、動画像の撮像動作中に実行される。

測距センサ２８は、レリーズボタン４１の操作に基づいて、被写体までの距離に応じた検出信号を出力する。この測距センサ２８からの検出信号は、ＣＰＵ３９に入力される。この測距センサ２８からの検出信号に基づいて、ＣＰＵ３９は、被写体までの距離（以下、被写体距離）を算出する。

集音部３１は、複数のマイクロホンから構成される。これら複数のマイクロホンは、撮像装置１０の前面に例えば離間して配置される。なお、本実施形態では、３つのマイクロホン３１ａ，３１ｂ，３１ｃから集音部３１が構成される場合について説明する。なお、これらマイクロホン３１ａ，３１ｂ，３１ｃとして、例えば単一指向性のマイクロホンがそれぞれ用いられる。集音部３１のマイクロホン３１ａ，３１ｂ，３１ｃから出力される音声信号は、ノイズ除去及び増幅された後、Ａ／Ｄ変換部３２に入力される。Ａ／Ｄ変換部３２は、複数のマイクロホンのそれぞれに対応して設けられる（図中符号３２ａ、３２ｂ、３２ｃ）。これらＡ／Ｄ変換部３２ａ，３２ｂ，３２ｃは、マイクロホン３１ａ，３１ｂ，３１ｃから出力された音声信号をデジタル変換し、集音処理回路３３に出力する。

集音処理回路３３は、遅延回路４５ａ，４５ｂ，４５ｃ、増幅回路４６，加算回路４７から構成される。遅延回路４５ａ，４５ｂ，４５ｃは、マイクロホン３１ａ，３１ｂ，３１ｃのそれぞれに対応して設けられる。これら遅延回路４５ａ，４５ｂ，４５ｃは、集音処理回路３３に入力される音声信号を遅延処理する。各遅延回路４５ａ，４５ｂ，４５ｃから出力される音声信号は、増幅回路４６に入力される。増幅回路４６は、遅延処理された音声信号を増幅する。なお、この増幅回路４６による音声信号の増幅度は、被写体距離に応じて決定される。この増幅回路４６により増幅された各音声信号は加算回路４７により加算される。これにより、特定方向の音声を強調した音声データが生成される。この音声データは、音声メモリ３５に格納される。この音声メモリ３５に格納された音声データは不図示の音声符号／復号回路により圧縮される。ＣＰＵ３９は、圧縮された音声データと圧縮された画像データとを含む音声付き画像ファイルとして記憶媒体４４に記録する。

集音制御回路３４は、集音部３１による集音領域の走査を実行するときに、例えば画像サイズ、焦点距離、集音部３１の各マイクロホンにおける集音領域の大きさなどに基づいて、各マイクロホンにより取得される音声信号に対する遅延時間を設定する。また、集音制御回路３４は、撮像範囲内に音声を発する被写体が含まれる場合に、音声を発する被写体の位置（撮像光学系１５の主点と音声を発する被写体とを結ぶ直線が光軸Ｌとなす角度θ）に基づいた遅延時間を設定する。これら設定された遅延時間に基づいて、集音制御回路３４は、各遅延回路４５ａ，４５ｂ，４５ｃを遅延制御する。また、この集音制御回路３４は、測距センサ２７からの検出信号に基づく被写体距離に基づいて、増幅回路４６における増幅度を設定する。

レリーズボタン４１や操作部４２は、その操作時に、操作内容に応じた操作信号をＣＰＵ３９へ出力する。ＣＰＵ３９は、レリーズボタン４１の押下操作に基づくレリーズ操作信号が入力されると、撮像素子１６から読み出される画像信号の中で、撮像画面内にあらかじめ設定されているフォーカス検出領域に対応する信号を用いて公知のコントラスト方式のＡＦ（オートフォーカス）動作を行う。

具体的には、画像処理回路２１によって画像処理された画像データのうち、フォーカス検出領域に対応するデータについての高周波数成分の積算値（いわゆる焦点評価値）を最大にするように、レンズ駆動指令（フォーカス調節信号）をレンズ駆動回路１７へ送る。焦点評価値を最大にするフォーカスレンズの位置は、撮像素子１６によって撮像される被写体像のエッジのぼけをなくし、画像のコントラストを最大にする（尖鋭度を高める）合焦位置である。なお、上記コントラスト方式のＡＦ動作に変えて、公知の瞳分割方式による位相差ＡＦ動作を行うように構成してもよい。

操作部４２はズーム操作部を備えている。ＣＰＵ３９は、ズーム操作に基づくズーム操作信号が操作部４２から入力されると、上述したレンズ駆動指令を発生し、レンズ駆動回路１７にズームレンズを進退駆動させる。これにより、撮像素子１６の撮像面上に結像される被写体像が拡大もしくは縮小し、光学的にズーム調節される。

ＣＰＵ３９は、さらに、ズーム操作に基づくズーム操作信号が操作部４２から入力されると画像処理回路２１へ指令を出力し、画像データに対する解像度変換処理の変換比率を操作信号に応じて変化させる。これにより、モニタ２６に表示される画像が拡大もしくは縮小し、電気的にズーム調節される（電子ズーム）。解像度変換比率は電子ズーム倍率に対応している。画像処理回路２１が電子ズーム倍率を高める方向に解像度変換比率を変える場合、再生画像の一部が拡大されてモニタ２６に表示される（拡大率が上がる反面、再生画像の表示範囲は狭くなる）。反対に、画像処理回路２１が電子ズーム倍率を低くする方向に解像度変換比率を変える場合、モニタ２６に表示される再生画像の拡大率が下がる反面、再生画像の表示範囲は広くなる。

内蔵メモリ４１は、ＣＰＵ３９によって実行される制御プログラムや該制御プログラムを実行したときに使用されるデータなどが記憶される。この内蔵メモリ４１には、上述したプログラムやデータの他に、辞書データ５１が格納される。この辞書データ５１は、被写体の種類、被写体の画像情報、被写体の音声情報がそれぞれ被写体の種類毎に対応付けられたデータからなる。なお、被写体の種類とは、被写体を分類したときの総称や被写体の呼称などが挙げられる。また、被写体の画像情報としては、例えば被写体の画像データの他に、被写体の輪郭情報、輝度分布情報、色分布情報、空間周波数情報、テクスチャ情報のいずれかが挙げられる。さらに、被写体の音声情報としては、被写体が発する音声の情報であり、被写体が発する音声データの他に、各周波数における強度情報などが挙げられる。この音声データは、被写体が音声を発する所定期間の間に得られる音声のデータである。具体的には、被写体が救急車であれば、音声データは救急車が発する警報音を所定期間録音したデータとなる。ＣＰＵ３９は、被写体認識が実行されたときに得られる音声情報、画像情報、被写体の種類を関連付けた後、これら情報を辞書データ５１に追加する。この動作により、辞書データを更新していく。つまり、この辞書データ５１は、撮像装置１０を用いて撮影を行った場合に得られる過去のデータを蓄積することで生成されるデータである。

次に、撮像時の処理について図２のフローチャートに基づいて説明する。なお、図２のフローチャートは、撮像装置が撮影待機状態となることを契機にして実行される。

ステップＳ１０１は、レリーズボタンの半押し操作があるか否かを判定する処理である。撮影者によりレリーズボタン４１が半押し操作されると、該半押し操作に基づく操作信号（以下、半押し操作信号）がＣＰＵ３９に入力される。このステップＳ１０１において、ＣＰＵ３９は、半押し操作信号が入力されたか否かを判定する。半押し操作信号が入力された場合、ＣＰＵ３９は、ステップＳ１０１の判定処理をＹｅｓとし、ステップＳ１０２に進む。半押し操作信号が入力されない場合には、ＣＰＵ３９は、ステップＳ１０１の判定処理をＮｏとし、半押し操作信号が入力されたと判定される（ステップＳ１０１の判定処理がＹｅｓとなる）まで、このステップＳ１０１の判定処理を繰り返す。

ステップＳ１０２は、スルー画像の撮像処理である。ステップＳ１０１により、半押し操作信号が入力されたと判定されていることから、ＣＰＵ３９は上述したＡＦ動作を伴ったスルー画像の撮像処理を実行する。以下、スルー画像の撮像処理について記載する。

ＣＰＵ３９は、撮像素子駆動回路１８へ指示を送り、スルー画像の撮像動作を実行するための駆動信号を出力させる。撮像素子１６は、スルー画像の撮像動作のための駆動信号を受けて、例えば、３０フレーム／秒の高フレームレートで蓄積電荷を連続的に出力する。スルー画像用の露出条件は測光データに基づいて決定される。画像処理回路２１は、入力された信号に上述した信号処理を施すとともに、撮像素子１６上において近傍に位置する同色画素（単板カラーの撮像素子の場合）の信号を加算し、静止画像の撮影時に比べて低解像度（低画素数）の映像信号を生成する。なお、この他に、間引き読み出しすることで、低解像度の映像信号（スルー画像データ）を生成してもよい。

画像処理回路２１は、解像度変換処理を施した映像信号を表示制御回路２５へ出力することにより、スルー画像がモニタ２６に表示される。これにより、撮影者は、これから本撮影しようとする被写界の状態をモニタ２６の画面で観察することができる。すなわち、スルー画像の撮像処理においては、撮像動作と表示動作が並行して行われる。なお、モニタ２６に表示されるスルー画像は、構図、又はフォーカスなどの撮影状態を確認する際に用いられる。

ステップＳ１０３は、屋外であるか否かを判定する処理である。ＣＰＵ３９は、ステップＳ１０２にて生成されるスルー画像を用いて、撮像範囲の上部の領域における明るさと、撮像範囲の下部の領域における明るさとを比較する。なお、各領域における明るさとしては、それぞれの領域の輝度値の平均値を求めればよい。例えば撮影範囲の上部の領域の明るさが、撮像範囲の下部の領域における明るさよりも明るい場合には、屋外であると判定する。この場合には、ステップＳ１０３の判定処理はＹｅｓとなり、ステップＳ１０４に進む。一方、撮影範囲の上部の領域の明るさが、撮像範囲の下部の領域における明るさよりも暗い場合には、屋内であると判定する。この場合には、ステップＳ１１４に進む。なお、ステップＳ１１４は別処理であり、この別処理では、例えば一般的な撮影モードに基づいた処理が実行される。

ステップＳ１０４は、集音領域の走査及び音声を発する領域の有無を特定する処理である。ＣＰＵ３９は、集音制御回路３４に、集音領域を走査する旨の指令を出力する。この指令に合わせて、ＣＰＵ３９は、焦点距離、集音部３１の各マイクロホン３１ａ，３１ｂ，３１ｃにおける集音領域の大きさの情報を集音制御回路３４に出力する。集音制御回路３４は、これら情報に基づいて、各マイクロホン３１ａ，３１ｂ，３１ｃにより取得される音声信号に対する遅延時間を、集音領域の走査を開始してからの経過時間毎に設定する。そして、集音制御回路３４は、設定した遅延時間に基づいて、遅延回路４５ａ，４５ｂ，４５ｃにおける遅延制御を実行する。

上述したように、マイクロホン３１ａ，３１ｂ，３１ｃは、撮像装置１０の筐体前面に離間して配置される。したがって、光軸Ｌから所定の角度θをもった方向からの音源から発生した音声は、各マイクロホン３１ａ，３１ｂ，３１ｃに到達するまでの距離（伝搬距離）に差が生じ、この距離差によって、各マイクロホン３１ａ，３１ｂ，３１ｃに到達する時間の差ΔＴが発生する。

マイクロホン３１ａを基準とした場合、マイクロホン３１ａと、マイクロホン３１ａに対して距離Ｄだけ離間して筐体に配置されるマイクロホン３１ｂとの伝搬距離差をＡとすると、伝搬距離差Ａ＝Ｄ×ｓｉｎθとなり、音速をＶとすると、
ΔＴ＝Ａ／Ｖ＝（Ｄ×ｓｉｎθ）／Ｖ
となる。すなわち、遅延回路４５ａ，４５ｂの遅延量を調整し、この遅延量の差がΔＴとなるように調整すると、遅延回路４５ａ，４５ｂの出力は、位相のそろった音声データとなる。遅延回路４５ｃについても、同様の遅延量の調整を行うことにより、加算回路４７の出力で最大レベルの音声データが得られる。ここで、加算回路４７の出力で最大レベルの音声データを得るための、遅延回路４５ａ，４５ｂ，４５ｃの遅延量は、上述した角度θによって決定される。すなわち、この遅延量を適宜に変更することで、角度θを適宜変更した際の最大レベルの音声データを取得することができる。

これにより、集音部３１による集音領域が走査される。この走査に合わせて、各マイクロホン３１ａ，３１ｂ，３１ｃにて取得される音声信号が遅延回路４５ａ，４５ｂ，４５ｃにより遅延処理される。この遅延処理の後、各音声信号は、増幅回路４６により増幅され、加算回路４７により加算される。

例えば加算回路４７により加算された後の音声データの出力レベルは、被写体が発する音声の伝播方向と、撮像光学系１５の主点と被写体とを結ぶ直線とが一致している場合に最大となる。ＣＰＵ３９は、音声データの出力レベルが最大となるときの遅延回路４５ａ，４５ｂ，４５ｃの遅延時間を特定する。そして、ＣＰＵ３９は、特定された遅延時間と集音領域の大きさ（加算回路４７の出力で出力音声レベルが所定値以上となる、角度θの範囲）とにより、音声を発する領域を特定する。

なお、上述した集音領域の走査に変えて、複数のマイクロホンが出力した音圧レベルの差から、音声を発する被写体の存在位置を推定する構成としてもよい。また、撮像光学系の撮影倍率が望遠側に設定されている場合には、音圧レベルの差から音声を発する被写体の存在位置を推定し、撮像光学系１５の撮影倍率が広角側に設定されている場合には、音声データの位相差を用いて音声を発する被写体の位置を推定する構成としてもよい。この位相差は、複数のマイクロホンの出力データ同士の相関を求めることで算出することができる。

ここで、音声を発する領域は、音声を発する被写体の存在領域である。以下、この音声を発する領域を、被写体の存在領域と称して説明する。このステップＳ１０４にて被写体の存在領域が特定された場合には、被写体の存在領域の位置情報（アドレスデータ）、或いは、集音領域を走査した際に、加算回路４７の出力レベルが所定値以上となる撮像光学系１５の光軸Ｌと、撮像光学系１５の主点と被写体の存在領域とを結ぶ直線とのなす角度の範囲を示す情報とを内蔵メモリ４０に格納する。また、このときに得られた音声データを音声メモリ３５に格納する。

ステップＳ１０５は、被写体の存在領域が集音領域内にあるか否かを判定する処理である。ステップＳ１０４の処理が実行されたときに、加算回路４６から出力される音声データの出力レベルが所定値以上となる遅延時間が特定されている場合には、ＣＰＵ３９はステップＳ１０５の判定処理をＹｅｓとし、ステップＳ１０６に進む。一方、加算回路４６から出力される音声データの出力レベルが最大となる遅延時間が特定できない場合には、ＣＰＵ３９はステップＳ１０５の判定処理をＮｏとし、ステップＳ１１１に進む。

ステップＳ１０６は、音声の特徴量を算出する処理である。ＣＰＵ３９は、音声メモリ３５に格納された音声データを読み出し、音声データを解析する。この音声データの解析により、周波数帯域毎の強度情報が音声の特徴量として算出される。

ステップＳ１０７は、音声の特徴量と辞書データ５１とに基づいて被写体の種類を絞り込む処理である。ＣＰＵ３９は内蔵メモリ４０の辞書データ５１を読み出す。そして、ＣＰＵ３９は、ステップＳ１０６にて取得された音声の特徴量と一致、類似する音声の特徴量を辞書データ５１に記憶された音声情報から特定する。この特定により、音声の特徴量と一致、又は類似する被写体の種類が絞り込むことができる。

ステップＳ１０８は、被写体の存在領域における画像の特徴量を算出する処理である。ＣＰＵ３９は画像処理回路２１に動作指令を出す。この動作指令を受けて、画像処理回路２１は、スルー画像から、特定された領域の位置情報に基づくデータを読み出し、該領域における画像の特徴量を算出する。なお、このステップＳ１０８の処理を実行することで、被写体の輪郭情報、輝度分布情報、色分布情報、空間周波数情報、テクスチャ情報が、画像の特徴量として算出される。

ステップＳ１０９は、被写体を特定する処理である。ステップＳ１０８にて、特定された領域における画像の特徴量が求められている。ＣＰＵ３９は、辞書データ５１を参照することで、音声の特徴量によって予め絞り込まれた被写体の種類の中から、得られた画像の特徴量が辞書データ５１として記憶された画像の特徴量に対して所定範囲内となる被写体を、特定された領域に含まれる被写体として特定する。

ステップＳ１１０は、音声の特徴量、画像の特徴量及び被写体の種類を関連付けて記録する処理である。ＣＰＵ３９は、ステップＳ１０６で取得された音声の特徴量、ステップＳ１０８で取得された画像の特徴量、及びステップＳ１０９により特定された被写体の種類を関連付けて、内蔵メモリ４０の辞書データ５１に格納する。これにより、辞書データ５１が更新される。

ここで、ステップＳ１０７において、ステップＳ１０６で抽出された音声の特徴量が、辞書データ５１に記憶されている音声情報と一致、或いは類似していない場合には、ステップＳ１０６で抽出された音声情報の特徴量と、ステップＳ１０８で算出された画像の特徴量とが、新たな被写体として互いに関連付けられて、内蔵メモリ４０の辞書データ５１に格納する構成とすることもできる。さらに、画像の特徴量、或いは音声情報を用いて認識された被写体の種類の情報を、上記情報に関連付けて、辞書データ５１に格納することも可能である。

ステップＳ１１１は、レリーズボタンの全押し操作があるか否かを判定する処理である。撮影者によりレリーズボタン４１が全押し操作されると、該全押し操作に基づく操作信号（以下、全押し操作信号）がＣＰＵ３９に入力される。このステップＳ１１１において、ＣＰＵ３９は、全押し操作信号が入力されたか否かを判定する。全押し操作信号が入力された場合、ＣＰＵ３９は、ステップＳ１１１の判定処理をＹｅｓとし、ステップＳ１１２に進む。全押し操作信号が入力されない場合には、ＣＰＵ３９は、ステップＳ１１１の判定処理をＮｏとし、ステップＳ１０４に戻る。つまり、この場合には、レリーズボタン４１の全押し操作が行われるまで、ステップＳ１０４〜ステップＳ１１０の処理が繰り返し実行される。

ステップＳ１１２は、静止画像の撮像処理である。ＣＰＵ３９は、レリーズボタン４１からの全押し操作信号を検出すると、撮像素子駆動回路１８へ指示を送り、静止画像の撮像動作を実行するための駆動信号を出力させる。撮像素子１６は、静止画像の撮像動作のための駆動信号を受けて、露出演算結果に基づく電荷蓄積を行って蓄積電荷を出力する。静止画像の撮像動作時の露出条件は、例えば直近に取得されたスルー画像の信号値から得られる被写界の明るさ情報に基づいて決定される。画像処理回路２１は入力された信号に上述した信号処理を施し、スルー画像の撮影時に比べて高解像度（高画素数）の画像データを生成する。画像処理回路２１により解像度変換処理を施した画像データは表示制御回路２５へ出力される。これにより、静止画像がモニタ２６に表示される。

ここで、上述した信号処理の際に、画像処理回路２１は、被写体の移動方向に基づいてブラーを付加する処理を静止画像データに対して施すことも可能である。なお、ブラーを付加する処理としては、例えば被写体の移動方向にＬＰＦ（ローパスフィルタ）処理を施すことが挙げられる。

この撮像処理に合わせ、ＣＰＵ３９は、集音制御回路３４に遅延指令を出力する。これを受けて、集音制御回路３４は、集音部３１における集音領域を広くして（集音部３１の指向性を広くして）音声信号を取得する。集音部３１の指向性を広くする手法としては、例えば特開２０１１−１１９７９２号公報に記載された手法など、公知の手法を用いることができる。

ステップＳ１１３は、音声情報、静止画像、被写体の種類、被写体の位置を関連付けて記録する処理である。圧縮／伸長回路２２は、静止画像データを圧縮処理する。ＣＰＵ３９は、静止画像と、音声情報、被写体の種類、被写体の位置とを関連付けて、記憶媒体４４に記録する。なお、操作部４２の操作によって記憶媒体４４への非圧縮状態での記録が指示されている場合には、圧縮／伸長回路２２での圧縮処理は行われず、記憶媒体４４への記録が行われる。また、記憶媒体４４への記録動作を行う際の操作部４２の操作により圧縮率を変更可能な構成としてもよい。

これによれば、取得される音声信号に基づいて撮像範囲内で音声を発する被写体の種類を絞り込むことができ、その後、領域の画像特徴量から被写体を特定することができることから、被写体認識を高精度に行うことができる。また、この被写体認識の際に用いられる辞書データ５１は、過去の撮影時に得られる音声情報や画像情報をまとめたものであることから、この辞書データ５１を更新できれば、被写体認識に係る処理を高精度に実行することが可能となる。

上述した実施形態では、音声を発する被写体が撮像範囲内に位置している場合を例に取り上げているが、音声を発する被写体は、必ずしも撮像範囲内に位置しているとは限らない。以下、音声を発する被写体が撮像範囲内に位置したときに、撮像処理を実行する場合について、図３のフローチャートに基づいて説明する。

ステップＳ２０１は、レリーズボタン４１の半押し操作があるか否かを判定する処理である。なお、このステップＳ２０１の処理は、ステップＳ１０１と同一の処理である。このステップＳ２０１の判定処理で、レリーズボタン４１の半押し操作がある場合には、ＣＰＵ３９は、ステップＳ２０２に進む。一方、レリーズボタン４１の半押し操作がない場合には、ＣＰＵ３９により半押し操作信号が入力されたと判定される（ステップＳ２０１の判定処理がＹｅｓとなる）まで、このステップＳ２０１の判定処理を繰り返す。

ステップＳ２０２は、スルー画像の撮像処理である。このステップＳ２０２の処理は、ステップＳ１０２と同一の処理である。

ステップＳ２０３は、屋外であるか否かを判定する処理である。このステップＳ２０３の判定処理は、ステップＳ１０３と同一の処理である。ステップＳ２０３の判定処理がＹｅｓとなる場合には、ステップＳ２０４に進む。一方、ステップＳ２０３の判定処理がＮｏとなる場合には、別処理に進む。なお、この場合の別処理としては、一般的な撮像処理が挙げられる。

ステップＳ２０４は、集音領域を走査及び被写体の存在領域の有無を特定する処理である。このステップＳ２０４の処理は、ステップＳ１０４と同一の処理である。この場合、撮像範囲より狭い集音指向性を有する集音領域の走査は、撮像範囲よりも大きく、且つ撮像範囲を含む所定の範囲（図４参照）に対して実行される。

ステップＳ２０５は、集音領域を走査した結果、発音する被写体の存在領域があるか否かを判定する処理である。このステップＳ２０５の処理は、ステップＳ１０５と同一の処理である。例えば被写体の存在領域があれば、ステップＳ２０５の判定処理がＹｅｓとなり、ステップＳ２０６に進む。一方、被写体の存在領域がない場合には、ステップＳ２０５の判定処理がＮｏとなり、ステップＳ２０４に戻る。

ステップＳ２０６は、発音する被写体の存在領域が撮像範囲内であるか否かを判定する処理である。ＣＰＵ３９は、画像サイズ（画角）と被写体の存在領域の位置とに基づいて、被写体の存在領域が撮像範囲内にあるか否かを判定する。被写体の存在領域が撮像範囲内にあれば、このステップＳ２０６の判定処理がＹｅｓとなり、ステップＳ２０７に進む。一方、ステップＳ２０４により特定された被写体の存在領域が撮像範囲外であれば、このステップＳ２０６の判定処理がＮｏとなり、ステップＳ２１２に進む。つまり、図４に示すように、音声を発する被写体がＡの位置にある場合には、特定される被写体の領域は、撮像範囲外となることから、この場合には、ステップＳ２０６の処理はＮｏとなり、音声を発する被写体がＡ’の位置にあるときには、被写体は撮像範囲内であることから、ステップＳ２０６の処理はＹｅｓとなる。

ステップＳ２０７は、音声の特徴量を算出する処理である。このステップＳ２０７の処理は、ステップＳ１０６と同一の処理である。

ステップＳ２０８は、音声の特徴量と辞書データから被写体の種類を絞り込む処理である。このステップＳ２０８の処理は、ステップＳ１０７と同一の処理である。

ステップＳ２０９は、被写体の存在領域における画像の特徴量を算出する処理である。このステップＳ２０９の処理は、ステップＳ１０８と同一の処理である。

ステップＳ２１０は、被写体を特定する処理である。このステップＳ２１０の処理はステップＳ１０９と同一の処理である。

ステップＳ２１１は、音声の特徴量、画像の特徴量及び被写体の種類を関連付けて記録する処理である。このステップＳ２１１の処理は、ステップＳ１１０と同一の処理であるこの処理が行われると、ステップＳ２１３に進む。

上述したステップＳ２０６の判定処理でＮｏとなる場合には、ステップＳ２１２に進む。

ステップＳ２１２は、被写体の存在領域が撮像範囲外である旨を警告する処理である。このステップＳ２１２の処理が実行されると、ステップＳ２０４に戻り、ステップＳ２０４からステップＳ２０６の処理が実行される。つまり、被写体の存在領域が撮像範囲外である場合には、その旨を警告する処理が繰り返し実行される。

ステップＳ２１３は、被写体が撮像範囲の所定位置にあるか否かを判定する処理である。被写体の位置は、ステップＳ２０４の処理が実行されることで特定されている。この被写体の位置が、例えば３分割点、撮像範囲の中央など、撮像範囲の所定位置にある場合には、ＣＰＵは、ステップＳ２１３の判定処理をＹｅｓとする。この場合、ステップＳ２１４に進む。一方、被写体の位置が上述した位置にない場合には、ＣＰＵはステップＳ２１３の判定処理をＮｏとする。この場合ステップＳ２０４に戻る。

ステップＳ２１４は、静止画像の撮像処理である。このステップＳ２１５の処理は、ステップＳ１１２の処理と同一である。

ステップＳ２１５は、静止画像に対する画像処理である。この画像処理としては、被写体が含まれる領域に対して、移動方向に基づくＬＰＦ処理を実行する。なお、この被写体が含まれる領域は、例えばグラフカット法などを用いて抽出される。このＬＰＦ処理により、静止画像の被写体が含まれる領域に対してブラー効果を付加することができる。なお、このＬＰＦ処理は、静止画像のうち、被写体が含まれる領域だけでなく、静止画像全体に対して施してもよい。

ステップＳ２１６は、音声情報、静止画像、被写体の種類及び被写体の位置を関連付けて記録する処理である。このステップＳ２１５の処理は、ステップＳ１１３の処理と同一である。

この実施形態では、音声を発する被写体の存在領域が撮像範囲内であるか否かを判定しているが、この他に、スルー画像を取得している際に、或いは、静止画像を取得する際に被写体の位置が撮像範囲から外れてしまったか否か（フレームアウトしてしまったか否か）を、音声データを用いて判定するようにしてもよい。

また、ステップＳ２１０で特定された被写体について、当該領域の画像データをもとに追尾動作を行い、当該領域の撮影画面内の位置をもとに、遅延回路４５ａ，４５ｂ，４５ｃの遅延量を設定し、特定された被写体が発する音声が大きいレベルが得られるようにする構成としてもよい。さらには、集音領域の追尾を行う構成とすれば、より一層高精度の被写体追尾を行うことができる。なお、このような動作は、スルー画像の撮影中に限らず、動画撮影を行う場合にも適用することができる。

上述した実施形態を動画像の取得時に適用した場合には、音声を発する被写体の存在領域が撮像範囲に入った（フレームインした）ときに撮像処理を開始し、音声を発する被写体の存在領域が撮像範囲から外れた（フレームアウトした）ときに、撮像処理を終了することも可能である。

また、動画撮影、或いは連写撮影を行っているときに、撮像範囲内を移動する被写体が他の物体に隠れてしまう（オクルージョンが発生してしまう）場合がある。図５に示すように、動画撮影時に被写体が位置Ｐ１，位置Ｐ２・・・・位置Ｐ８の順で移動した後、他の物体の陰に隠れてしまうと、音声データの出力レベルは位置Ｐ８を境にして低下する。その後、被写体が位置Ｐ９で他の物体の陰から現れた場合には、被写体が位置Ｐ９にあるときに得られる音声データの出力レベルは、被写体が位置Ｐ１〜位置Ｐ８にあるときに取得された音声データの出力レベルと同一レベルとなる。この場合、位置Ｐ８〜位置Ｐ９の間に得られるフレーム画像はオクルージョンが発生しているフレーム画像であることから、位置Ｐ８〜位置Ｐ９の間に得られるフレーム画像に対して、例えば削除候補のフレーム画像である旨を示す情報を付加しておくなど、他のフレーム画像と識別できるように記憶する。

上述した実施形態では、３つのマイクロホンにより集音部を構成しているが、これに限定される必要はなく、二次元状に複数のマイクロホンを配置する構成であってもよい。また、集音部を１つの指向性の制限されたマイクロホンとし、このマイクロホンをＸ方向及びＹ方向に揺動させることで、集音領域を走査させる構成としてもよい。

上述した実施形態では、被写体距離に関係なく得られる音声データに基づいた被写体の有無の特定を行っているが、これに限定される必要はなく、被写体距離が予め設定された閾値以下となる場合にのみ、被写体の有無を特定する処理を実行するようにしてもよい。このような被写体距離情報は、例えば撮像装置１０のオートフォーカス動作によって取得することができる。

上述した実施形態では、被写体の存在領域における画像の特徴量を求め、辞書データとして記憶されている画像の特徴量から被写体を特定しているが、これに限定される必要はなく、被写体の存在領域に対する画像データを作成し、該画像データと、辞書データの画像情報として記憶されている被写体の画像データとから、被写体を特定することも可能である。

上述した実施形態では、情報取得装置として、撮像装置を例に取り上げているが、これに限定される必要はなく、例えば取得された動画像に対して被写体認識処理を行う画像処理装置や画像認識装置などであってもよい。
また、この他に、図２のフローチャートに示す処理、又は図３のフローチャートに示す処理をコンピュータに実行させることが可能な情報処理プログラムであってもよい。この
場合、この情報処理プログラムは、メモリカード、光学ディスク、磁気ディスクなどのコンピュータ読み取り可能な記憶媒体に記憶されていることが好ましい。

１０…撮像装置、１５…撮像光学系、１６…撮像素子、２０…画像メモリ、２１…画像処理回路、２７…振れ検出センサ、３１…集音部、３１ａ，３１ｂ，３１ｃ…マイクロホン、３２…Ａ／Ｄ変換部、３３…集音処理回路、３４…集音制御回路、３５…音声メモリ、３９…ＣＰＵ、４５ａ，４５ｂ，４５ｃ…遅延回路、４６…増幅回路、４７…加算回路

Claims

被写界に含まれる発音体が発する音声情報を取得する集音部と、
前記発音体の種類及び該発音体が発する音声情報が前記発音体毎に関連付けられた辞書情報と前記集音部により取得された音声情報とから、前記被写界内における前記発音体の有無を特定する特定部と、
を備えたことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記辞書情報は、前記音声情報の他に、前記発音体の画像情報が前記発音体毎に関連付けられており、
前記特定部は、前記音声情報の他に、前記発音体の画像情報を用いて、前記被写界内における前記発音体の有無を特定することを特徴とする情報処理装置。
請求項２に記載の情報処理装置において、
前記特定部は、前記辞書情報に含まれる音声情報と前記集音部により取得された音声情報とを用いて前記発音体の被写界内の存在領域を特定した後、特定された領域を解析することで得られる情報と前記辞書情報に含まれる前記発音体の画像情報とから前記被写界に含まれる発音体を特定することを特徴とする情報処理装置。
請求項２又は請求項３に記載の情報処理装置において、
前記発音体の画像情報は、撮像により得られた前記発音体の画像データからなることを特徴とする情報処理装置。
請求項１から請求項４のいずれか１項に記載の情報処理装置において、
前記発音体までの距離を取得する測距部と、
前記測距部により取得された前記発音体までの距離に基づいて、前記集音部の感度を変更する集音制御部と、を備えたことを特徴とする情報処理装置。
請求項１から請求項５のいずれか１項に記載の情報処理装置において、
前記集音部における集音領域を走査する集音走査部を備え、
前記特定部は、前記集音領域を移動したときに前記集音部により得られる音声情報に基づいて、前記発音体の有無を特定することを特徴とする情報処理装置。
請求項６に記載の情報処理装置において、
前記集音走査部は、前記集音部における集音領域を前記特定部により特定される前記発音体の領域を含むように走査することを特徴とする情報処理装置。
請求項６又は請求項７に記載の情報処理装置において、
前記集音走査部による前記集音部の集音領域の走査範囲は、撮像時の撮像範囲よりも大きく設定されており、
前記特定部により特定される前記発音体の前記被写界内の存在領域が、前記撮像範囲内にあるか否かを判定する第１の判定部を備えていることを特徴とする情報処理装置。
請求項８に記載の情報処理装置において、
前記第１の判定部により前記発音体の前記被写界内の存在領域が前記撮像範囲内であると判定されたときに、前記被写界の撮像を実行する撮像制御部を備えていることを特徴とする情報処理装置。
請求項９に記載の情報処理装置において、
前記撮像制御部は、前記特定部により特定される前記発音体の前記被写界内の存在領域が前記撮像範囲外から前記撮像範囲内に移動したときに前記被写界の撮像を開始させ、前記発音体の前記被写界内の存在領域が前記撮像範囲内から前記撮像範囲外に移動したときに前記被写界の撮像を終了させることを特徴とする情報処理装置。
請求項１０に記載の情報処理装置において、
前記集音部により得られる音声情報の出力値と前記発音体の領域の移動軌跡とから、前記発音体が他の物体に隠れているか否かを判定する第２の判定部を備え、
前記第２の判定部により前記発音体が他の物体に隠れていると判定された期間に撮像された画像は、他の画像に対して識別可能に記録されることを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記被写界の撮像が屋外の撮像であるか否かを判定する第３の判定部と、
前記第３の判定部による判定結果に基づいて、前記音声情報を取得する処理、及び前記発音体を特定する処理を実行させる処理制御部と、をさらに備えていることを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記被写界の撮像を行う撮像部を備え、
前記特定部は、前記撮像部による撮像時に、前記集音部により得られる音声情報を用いて前記発音体の前記被写界内の存在領域を特定することを特徴とする情報処理装置。
請求項１３に記載の情報処理装置において、
前記撮像部による撮像時に、前記集音部の指向性を広くして音声情報を取得し、取得された音声情報と前記撮像部により得られた画像とを関連付けて記録することを特徴とする情報処理装置。
請求項１３又は請求項１４に記載の情報処理装置において、
前記撮像部により得られる撮像画像に対して、前記発音体の移動方向に基づいた画像処理を行う画像処理部を、さらに備えていることを特徴とする情報処理装置。
被写界に含まれる発音体が発する音声情報を取得する音声取得工程と、
前記発音体の種類及び音声情報が該発音体毎に関連付けられた辞書情報と、前記集音部により取得された音声情報とから、前記被写界内における前記発音体の有無を特定する特定工程と、
を、コンピュータに実行させることが可能な情報処理プログラム。