JP2009239349A

JP2009239349A - 撮影装置

Info

Publication number: JP2009239349A
Application number: JP2008079148A
Authority: JP
Inventors: Toshiaki Tsuchido; 利昭土戸
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-03-25
Filing date: 2008-03-25
Publication date: 2009-10-15

Abstract

【課題】撮影装置において、特定の被写体の音声を分別して録音することのできる技術を提供する。
【解決手段】撮影装置１には、複数のマイクロホン１５が列状に配置されている。撮影装置１の制御部１１は、マイクロホン１５のそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を複数推定する。また、制御部１１は、推定した音源方向のそれぞれからの音声を表す音声データを、照合用データ記憶領域１２１に記憶された照合用データと照合し、その一致度に応じて特定の被写体の方向を特定する。また、制御部１１は、マイクロホン１５毎の音声データを解析し、解析結果に応じて、被写体の方向の遷移を検出し、検出した方向からの音声を表す音声データを生成する。
【選択図】図１

Description

本発明は、撮影や録音を行う技術に関する。

静止画や動画を撮影するデジタルカメラ等の撮影装置においては、撮影時に音声を録音できるようにしたものが提案されている。例えば特許文献１に記載の技術においては、外部マイクから送信される音声情報を受信し、受信した音声情報を撮影者のイヤホンに出力することによって、被写体の音声情報を撮影者がモニタできるようになっている。更に、受信した音声情報をデジタルデータに変換して保存するようになっており、これにより、従来のデジタルカメラ等の録音及び撮影機能付電子機器に内蔵されたマイクでは録音できなかったような離れた距離にある被写体の音声も録音でき、更には、写真の撮影と同時に、写真撮影時とその前後に被写体で収音した音声の録音をもおこなえるようになっている。
特開２００５−２９５５０２号公報

ところで、撮影を行う際には、複数の人物や動物等が被写体として映像に含まれることがある。このような場合に、特定の被写体の音声（例えば、自分の子供声や、自分の好きな鳥の鳴き声、等）のみを抽出して録音したい場合がある。このような場合であっても、従来の撮影装置では、被写体の声や鳴き声以外の周囲の雑音や騒音も録音されてしまうことが多かった。また、特許文献１に記載の技術では、写真撮影時に特定の被写体の音声を録音することができるものの、外部マイクなどの付属機器が必要であり、装置の構成が複雑になってしまうという問題があった。

本発明は上述した背景の下になされたものであり、撮影時に音声を録音する撮影装置において、特定の被写体の音声を分別して録音することのできる技術を提供することを目的とする。

上記課題を解決するために、本発明の好適な態様である撮影装置は、撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を１又は複数推定する推定手段と、前記推定手段により推定された音源の方向のうちの少なくともいずれか一つを特定する特定手段と、前記マイクロホン毎の音声データを解析し、解析結果に応じて前記特定手段により特定された音源の方向の遷移を検出する検出手段と、前記複数のマイクロホンのそれぞれで収音された音声を表す音声データから、前記検出手段により検出される方向に対応した特定方向音声データを生成する特定方向音声データ生成手段と、前記特定方向音声データ生成手段により生成された特定方向音声データを、前記撮影手段から出力される映像データに対応付けて出力する出力手段とを具備することを特徴とする。

上述の態様において、前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定してもよい。
また、前記推定手段は、独立成分分析を用いて音源の方向を推定してもよい。
また、前記特定方向音声データ生成手段は、前記検出手段により検出される方向からの音圧が高くなるようにミキシングして特定方向音声データを生成してもよい。
また、前記特定方向音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで特定方向音声データを生成してもよい。
また、上述の態様において、前記検出手段は、前記推定手段により算出された音圧の分布における音圧のピークの遷移を検出してもよい。

また、上述の態様において、音声を照合するための照合用データを記憶する照合用データ記憶手段と、前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段とを具備し、前記特定手段は、前記方向別音声データ生成手段により生成された方向別音声データを、前記照合用データ記憶手段に記憶された照合用データと照合し、両者の一致度に基づいて前記音源の方向を特定してもよい。

上述の態様において、前記複数のマイクロホン毎の音声データを、前記特定手段により特定された方向からの音声の音圧が高くなるようにミキシングして、照合用データを生成する照合用データ生成手段と、前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段とを具備し、前記検出手段は、前記方向別音声データ生成手段により生成された方向別音声データのそれぞれを前記記憶手段に記憶された照合用データと照合し、その一致度に基づいて前記音源の方向の遷移を検出してもよい。
また、上述の態様において、前記特定手段は、操作手段から出力される信号に応じて前記音源の方向を特定してもよい。

本発明によれば、撮影時に音声を録音する撮影装置において、特定の被写体の音声を分別して録音することができる。

以下、図面を参照して、本発明の実施形態について説明する。
＜Ａ：構成＞
図１は、この発明の一実施形態である撮影装置１のハードウェア構成の一例を示すブロック図であり、図２は撮影装置１の外観の一例を示す斜視図である。撮影装置１は、静止画や動画を撮影する機能を備えた装置であり、例えばデジタルカメラである。図１において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バスＢＵＳを介して撮影装置１の各部を制御する。記憶部１２は、制御部１１によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、液晶パネル等を備え、制御部１１による制御の下に各種の画像を表示する。操作部１４は、撮影装置１の利用者による操作に応じた信号を制御部１１に出力する。操作部１４は、十字キー（図示略）や、録音を開始・終了させるための録音ボタンＢ１、静止画像の撮影及び動画像の撮影を開始・終了させるための撮影ボタンＢ２等の各種のボタンを備えており、撮影装置１の利用者は、これらのボタンを押下することで、静止画像の撮影や動画像の撮影等の各種の操作を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置１に設けられた切替スイッチ（図示略）によって切り替えられるようになっている。撮影部１８は、撮影用レンズ１８ａ等を備え、撮影し、撮影した映像を表す映像データを出力する。撮影部１８は、撮影用レンズ１８ａを前後に移動させることによって撮影範囲を変更可能である。撮影装置１の利用者は、操作部１４の十字キー等を用いて撮影部１８の撮影範囲を設定できるようになっており、撮影部１８は、操作部１４からの信号に応じて、撮影用レンズ１８ａを移動させて撮影範囲を設定する。なお、本実施形態に係る映像データは静止画像を表すデータや動画像を表すデータを含む。

マイクロホンアレイＭＡは、複数のマイクロホン１５１，１５２，…，１５ｎ（ｎは２以上の自然数）が列状に配置されて構成されている。図２に示すように、撮影装置１の前面（撮影用レンズ１８ａが設けられている面と同じ面）に、複数のマイクロホン１５１，１５２，…，１５ｎが列状に配置されており、これら複数のマイクロホン１５１，１５２，…１５ｎは、撮影部１８が撮影する撮影範囲内の音声を収音することができる。なお、これら複数のマイクロホン１５１，１５２，…，１５ｎは指向性マイクロホンであることが望ましい。以下の説明では、マイクロホン１５１，１５２，…，１５ｎを各々区別する必要がない場合には、これらを「マイクロホン１５」と称して説明する。マイクロホン１５は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部１６は、マイクロホン１５が出力するアナログ信号をＡ／Ｄ変換してデジタルデータを生成する。また、音声処理部１６は、制御部１１の制御の下、デジタル形式の音声データをＤ／Ａ変換してアナログ信号を生成し、生成したアナログ信号をスピーカ１７に出力する。スピーカ１７は、音声処理部１６から供給されるアナログ信号に応じた強度で放音する放音手段である。

なお、この実施形態では、マイクロホン１５とスピーカ１７とが撮影装置１に含まれている場合について説明するが、音声処理部１６に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン１５から音声処理部１６へ入力される音声信号及び音声処理部１６からスピーカ１７へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部１６にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１３、操作部１４、撮影部１８についても同様であり、撮影装置１に内蔵される形式であってもよく、外付けされる形式であってもよい。

記憶部１２は、図示のように、照合用データ記憶領域１２１と、動画データ記憶領域１２２とを有している。照合用データ記憶領域１２１には、予め録音された特定の人物の音声の特徴（周波数特性等）を表す照合用データが記憶されている。この照合用データは、制御部１１が後述する照合処理を行う際に、照合用のデータとして用いられる。動画データ記憶領域１２２には、撮影部１８から出力される映像データとマイクアレイＭＡが収音した音声を表す音声データとを含む動画データが記憶される。操作部１４の撮影ボタンＢ２が撮影者によって操作されることにより撮影が行われると、制御部１１は、撮影部１８から出力される映像データとマイクアレイＭＡが収音した音声を表す音声データとを含む動画データをこの動画データ記憶領域１２２に記憶する。

＜Ｂ：動作＞
＜Ｂ−１：照合用データ登録動作＞
次に、この実施形態の動作について説明する。まず、撮影装置１の利用者は、操作部１４を操作して、照合用データを登録するための操作を行う。撮影者が録音ボタンＢ１を押下して録音を開始すると、操作部１４は、操作された内容に応じた操作信号を出力し、制御部１１は、操作部１４から供給される信号に応じて、音声処理部１６を制御して録音を開始する。利用者の音声はマイクロホン１５で収音されて音声信号に変換され、音声処理部１６へ出力される。音声処理部１６は、マイクロホン１５から出力される音声信号をデジタルデータ（以下「音声データ」という）に変換する。制御部１１は、音声処理部１６から出力される音声データに所定のフィルタリング処理等を施して、音声データから音声の特徴を表す特徴データを生成し、生成した特徴データを照合用データとして照合用データ記憶領域１２１に記憶する。利用者が録音ボタンＢ１を押下して録音を終了させる操作を行うと、制御部１１は、操作部１４から供給される信号に応じて録音を終了する。

＜Ｂ−２：撮影動作＞
次に、撮影装置１が行う撮影動作について説明する。ここでは、動画像を撮影する場合の動作について説明する。撮影者は、撮影したい被写体の方向に撮影用レンズ１８ａを向けて撮影準備を行い、操作部１４の撮影ボタンＢ２を押下することによって撮影を開始する。図３は、撮影装置１が行う撮影処理の流れを示すフローチャートである。撮影装置１の制御部１１は、撮影ボタンＢ２が押下されたことを検知するまで待機し（ステップＳ１；ＮＯ）、撮影ボタンＢ２が押下されたことを検知すると（ステップＳ１；ＹＥＳ）、動画像の撮影を開始する（ステップＳ２）。マイクロホン１５は収音した音声を音声信号に変換し、音声処理部１６へ出力する。音声処理部１６は、マイクロホン１５から出力される音声信号を音声データに変換する。制御部１１は、複数のマイクロホン１５のそれぞれに対応する音声データをミキシングして、全体の音声を表す全体音声データを生成し、生成した全体音声データと、撮影部１８から出力される映像データとをあわせて動画データとして動画データ記憶領域１２２に記憶する。

また、制御部１１は、ステップＳ２の撮影処理とリアルタイムで以下のステップＳ３〜Ｓ１０に示す処理を行って、特定の被写体の音声を表す特定方向音声データを生成する。まず、制御部１１は、マイクロホン１５毎の音声データを解析し、解析結果に応じて音源の方向（以下「音源方向」）を複数推定する（ステップＳ３）。この動作例では、制御部１１は、複数のマイクロホン１５のそれぞれから出力された音声信号の音圧を検出し、検出したマイクロホン１５毎の音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を音源の方向として推定する。この推定処理の具体的な内容の一例について、図４を参照しつつ以下に説明する。

図４は、制御部１１が算出する音圧の分布の一例を示す図である。図において、横軸はマイクアレイＭＡの中心位置に対する角度を示し、縦軸は音圧を示す。或る音源で発生した音波が複数のマイクロホン１５のそれぞれに到達するまでの時間は、撮影装置１からみた音源の方向（角度）によってそれぞれ異なる。この原理を利用して、この動作例では、所定単位量の角度毎に、角度に応じた遅延時間をマイクロホン１５毎に予め設定しておき、制御部１１は、マイクロホン１５毎の音声データを各マイクロホン１５に応じた遅延時間だけそれぞれ遅延させ、遅延させたマイクロホン１５毎の音声データをミキシングして、各角度に対応する音圧を算出する。次いで、制御部１１は、算出した角度毎の音圧（すなわち音圧の分布）においてピークが表れる角度を１又は複数検出し、検出した角度を音源の方向とする。図４に示す例においては、制御部１１は、音圧のピークが表れる角度θ１、θ２、θ３を音源方向として推定する。

次いで、制御部１１は、推定した音源方向のうちの少なくともいずれか一つを、特定の被写体がいる方向（以下、「特定方向」という）として特定する。この動作例では、制御部１１は、まず、マイクロホン１５毎の音声データを、ステップＳ３において推定された方向からの音声の音圧が高くなるようにミキシングして、方向毎の方向別音声データを生成する（ステップＳ４）。次いで、制御部１１は、生成した方向別音声データに所定のフィルタ処理等を施して音声の特徴を表す特徴データを生成し、生成した特徴データを、照合用音声データ記憶領域１２１に記憶された照合用データと照合し、その一致度が最も高い方向を特定方向として特定する（ステップＳ５）。

特定方向を特定すると、次いで、制御部１１は、マイクロホン１５毎の音声データを、特定方向からの音声の音圧が高くなるようにミキシングすることによって、特定方向からの音声を表す音声データを生成する（ステップＳ６）。このミキシング処理は、上述の音源方向推定処理と同様に、制御部１１が、マイクロホン１５毎の音声データを、特定方向の角度に応じたそれぞれの遅延時間だけ遅延させてミキシングすればよい。以下、説明の便宜上、ステップＳ６にてのミキシングされて生成された音声データを「特定方向音声データ」という。なお、ステップＳ４で生成された方向別音声データの内、特定方向に最も近い方向の方向別音声データを選択して特定方向音声データとしてもよい。制御部１１は、生成した特定方向音声データを、撮影部１８から出力された撮影データと生成した全体音声データとに関連付けて、動画データ記憶領域１２２に出力する（ステップＳ７）。

制御部１１は、撮影を終了するか否かを判定し（ステップＳ８）、判定結果が肯定的である場合には（ステップＳ８；ＹＥＳ）、撮影を終了する（ステップＳ９）。一方、判定結果が否定的である場合には（ステップＳ８；ＮＯ）、制御部１１は撮影を継続して行う。

また、制御部１１は、撮影中において、マイクロホン１５毎の音声データを解析し、解析結果に応じて、特定方向の遷移を検出する（ステップＳ１０）。この動作例では、制御部１１は、マイクロホン１５毎の音声データの音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を、所定単位時間（例えば、１０ｍｓ、等）毎に検出する。そして、制御部１１は、音圧のピークの遷移を検出し、検出結果に応じて特定方向の遷移を検出する。特定方向の遷移の検出の態様としては、例えば、制御部１１は、音圧のピークを検出し、検出したピークの角度と前回に検出したピークの角度との差分が予め定められた閾値以下である場合に、前回のピーク位置の音源が移動したと判断する。具体的には、例えば、図４に示す例において、角度θ２が特定方向として特定されている場合において、図４に示す状態の所定単位時間経過後に、音圧分布が、図５に示すものに遷移したとする。このとき、図５に示す角度θ２１と図４に示す角度θ２との差分が予め定められた閾値以下である場合には、制御部１１は、図４に示す時刻において角度θ２の方向にあった音源が角度θ２１の方向に移動したと判断し、角度θ２１を特定方向として検出する。

このように、制御部１１は、所定単位時間毎に音圧のピークを検出し、検出したピークの方向と特定方向との差分に応じて特定方向の移動を検出する。制御部１１は、撮影している期間にわたってこの移動の検出を逐次行い、検出結果に応じてマイクロホン１５毎の遅延時間を逐次変更しながらミキシングを行って特定方向音声データを生成する。これにより、特定の被写体が移動した場合や撮影者が撮影範囲を変更した場合（例えば、ズーム変更する等）であっても、特定の被写体の方向を追尾して特定方向音声データを生成することができる。

以上のようにして、撮影装置１は、撮影範囲内の映像の映像データを生成するとともに、撮影範囲内の全体の音声を表す全体音声データを生成し、更に、特定の被写体の音声のみを分別した特定方向音声データを生成し、これらのデータを含む動画データを動画データ記憶領域１２２に記憶する。

＜Ｂ−３：再生動作＞
次に、撮影装置１が行う再生動作について説明する。利用者が操作部１４を操作するによって動画の再生を指示する旨の操作が行われると、操作部１４は、操作された内容に応じた操作信号を出力し、制御部１１は、操作部１４から供給される信号に応じて、動画データ記憶領域１２２に記憶された映像データを表示部１３に出力して、映像データの表す映像を表示部１３に表示させる。

このとき、利用者は、動画像の再生に同期させて全体音声データを再生するか特定方向音声データを再生するかを、操作部１４の所定のスイッチ（図示略）で切り替えることができる。利用者が操作部１４を操作することによって音声出力を切り替えると、操作部１４は、操作された内容に応じた操作信号を出力し、制御部１１は、操作部１４から供給される信号に応じて、再生する音声データを全体音声データと特定方向音声データを切り替える。具体的には、全体の音声を作成する旨が選択された場合には、制御部１１は、動画データ記憶領域１２２から全体音声データを読み出して、表示部１３に出力する映像データに同期させてスピーカ１７から音として出力させる。一方、特定の被写体の音声のみを再生する旨が選択された場合には、制御部１１は、動画像データ記憶領域１２２から特定方向音声データを読み出して、表示部１３に出力する映像データに同期させてスピーカ１７から音として出力させる。

＜Ｃ：実施形態の効果＞
以上説明したように本実施形態によれば、制御部１１が、被写体（音源）の方向を推定し、推定した音源方向から撮影者が所望する音源方向を特定し、特定した方向からの音声を分別して録音する。これにより、撮影者は、或る特定の被写体（例えば、自分の家族、自分の好きな鳥、等）を分別して録音することができ、これにより、全体の音声再生と、特定の被写体の音声再生とがいずれも可能となる。

また、本実施形態によれば、制御部１１が、音源の方向の遷移を検出するから、これにより、撮影者は、撮影したい被写体が移動した場合であっても、その移動を追跡しつつ、所望する被写体の音声を分別して録音することができる。

また、本実施形態によれば、マイクロホン１５毎の音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を、音源の方向として特定する。このように音圧の分布によって音源の位置を推定するから、複雑な処理を行うことなく音源の方向を特定することができる。また、音源方向の推定処理に要する処理時間を短くすることができる。

また、本実施形態によれば、所定単位角度毎に方向別音声データを生成し、生成した各方向別音声データを照合用データ記憶領域１２１に記憶された照合用データと照合し、その一致度に基づいて方向を特定する。すなわち、撮影装置１に所望する被写体の音声を登録しておくだけで、撮影装置１が登録された被写体の音声のみを分別して録音するから、撮影者は、複雑な操作を行う必要がなく、撮影を行うだけで、所望する被写体の音声を分別して録音することができる。

＜Ｄ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）音源方向の推定は、独立成分分析（Independent Component Analysis）を用いてもよい。独立成分分析は、複数の信号源からの各信号が空間内で混合されて複数のセンサに到来し、これらセンサで観測された到来信号から、各源信号の到来方向の推定や各源信号を分離することを、その源信号の混合系の情報を知らずに行うものであり、例えば特許３８８１３６７（特許文献２）の背景技術に記載されている。また、特許文献２に記載されている信号源の到来方向を求める技術を用いても良い。

（２）方向別音声データまたは特定方向音声データの生成方法は、上述の実施形態に記載された方法に限らず、前述の独立成分分析を用いてマイクロホン１５の音声データから音源に対応する音声データを推定することで求めてもよい。また、特許文献２に記載されている技術を用いても良い。

（３）上述の実施形態では、制御部１１は、音圧の分布における音圧のピークが表れる方向の遷移を検出することによって、被写体の移動を検出したが、これに代えて、制御部１１が、所定単位量の方向毎に、各方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成し、生成した方向別音声データのそれぞれを記憶された照合用データと照合し、その一致度に基づいて被写体（音源）の方向の遷移を検出するようにしてもよい。このとき、照合用データとしては、上述の実施形態の照合データ記憶領域１２１に記憶した照合用データと同様のものを用いてもよい。すなわち、音声データにフィルタリング処理を施して音声の特徴を抽出した特徴データを照合用データとして用い、制御部１１が、方向毎の音声データにフィルタリング処理を施して音声の特徴を抽出し、抽出した特徴を表す特徴データと照合用データとを照合し、一致度に基づいて特定の被写体の方向の遷移を検出してもよい。

（４）上述の実施形態では、制御部１１が、音源方向毎の音声データを、照合用データ記憶領域１２１に記憶された照合用データと照合し、その一致度に基づいて特定方向を特定するようにした。これに代えて、撮影者が表示部１３に表示された被写体の位置を視認して録音したい被写体の方向を操作部１４を操作して入力するようにしてもよい。具体的には、例えば、制御部１１が、図３のステップＳ３に示した音源方向推定処理を終えた後に、音源方向推定処理によって推定された音源方向を表示部１３に表示することによって撮影者に報知し、撮影者が、表示部１３に表示された音源方向のいずれかを操作部１４を用いて選択するようにしてもよい。この場合は、制御部１１は、推定した音源方向のうち、撮影者によって選択された音源方向を特定方向として特定する。

このように、制御部１１が、音源方向毎の音声データを解析することによって複数の音源方向から特定方向を特定するようにしてもよく、また、操作部１４からの操作信号に応じて特定方向を特定するようにしてもよく、要は、制御部１１が、推定した音源方向のうちの少なくともいずれか一つを特定するようにすればよい。
また、上述の実施形態では、制御部１１は、一つの特定方向を特定したが、特定方向を複数特定するようにしてもよい。

また、特定方向の特定方法として、例えば、撮影者が任意の方向を選択できるようにしてもよい。この場合は、撮影者は、操作部１４を用いて収音したい方向を指定する操作を行い、制御部１１が、操作部１４からの信号に応じて、指定された方向を特定方向として、その方向からの音声を表す特定音声データを生成するようにしてもよい。具体的には、例えば、周囲の騒音が大きいために被写体の方向でピークが検出され得ないような場合においては、撮影者が収音したい方向を指定することで、撮影装置１がより好適に特定方向音声データを生成することができる。

また、撮影者が収音したい方向を指定するモードと、上述の実施形態で示したような撮影装置１が特定方向を自動的に検出するモードとを、撮影者が操作部１４を用いて選択できるようにしてもよい。この場合は、制御部１１は、操作部１４からの操作信号に応じて、選択されたモードに応じて特定方向の特定処理や特定方向音声データ生成処理等を行う。

（５）上述の実施形態では、図２に示すような、複数のマイクロホン１５が列状に配置されて構成されたマイクアレイＭＡを備える撮影装置１について説明したが、これに限らず、図６に示すように、複数のマイクロホン１５が面状に配置されて構成されたマイクアレイを備える構成としてもよい。この場合は、撮影装置１Ａは、音源の角度として、ｘ軸方向（図６参照）の角度だけでなく、ｚ軸方向（図６参照）の角度も特定することができるから、音源の方向を２次元で推定することができ、より詳細な方向を推定することができる。
また、上述の実施形態におけるマイクロホン１５は、小型のシリコンマイクを用いるようにしてもよい。

（６）上述の実施形態では、動画データを記憶する記憶手段としてハードディスク装置等の記憶部１２を用いたが、動画データを記憶する記憶手段はハードディスク装置に限らず、例えば、メモリカード、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ等の記録媒体であってもよく、要は、制御部１１が、動画データを、コンピュータが読取可能な記録媒体に記録するようにすればよい。また、制御部１１が動画データを通信ネットワークを介して所定のサーバ装置に出力するようにしてもよい。

（７）上述の実施形態では、撮影装置１が、上記実施形態に係る全ての処理を実行するようになっていた。これに対し、通信ネットワークや通信Ｉ／Ｆ等で接続された２以上の装置で上記実施形態に係る処理を分担して実行するようにし、それら複数の装置を備えるシステムが同実施形態の撮影装置１を実現するようにしてもよい。具体的には、例えば、デジタルカメラとコンピュータ装置とがＵＳＢ等の通信Ｉ／Ｆを介して接続されたシステムとして構成されていてもよい。

（８）上述の実施形態では、撮影装置１の制御部１１は、音圧分布を算出してピーク値が表れる角度を音源方向として推定した。音源方向の推定方法はこれに限らず、例えば、所定単位量の角度毎に音圧を検出し、検出した音圧が予め定められた閾値以上となる角度を音源方向として検出するようにしてもよく、要は、制御部１１が、マイクロホン１５から出力される音声データの音圧を所定単位量の角度毎に検出し、検出した角度毎の音圧から音源方向を推定するようにすればよい。

また、上述の実施形態では、音声データの音圧に基づいて音源方向を推定したが、これに限らず、方向毎の音声データの周波数特性を検出し、検出した周波数特性に基づいて音源方向を推定してもよい。
このように、音源方向は、音声データの音圧に基づいて検出してもよく、また、周波数に基づいて検出するようにしてもよく、要は、制御部１１が、マイクロホン１５から出力される音声データを音声解析し、解析結果に応じて音源方向を推定するものであればよい。

また、制御部１１が撮影部１８から出力される映像データを画像解析して人物抽出（又は顔抽出）処理を行い、抽出した人物（又は顔）の位置に対応する方向を音源方向として推定するようにしてもよい。また、上述の音声解析とこの画像解析とを併用して音源方向を推定するようにしてもよい。このように音声解析結果に加えて画像解析結果を用いることで、音源推定処理の精度を高くすることができる。

（９）上述の実施形態では、制御部１１は、音源方向からの音声を表す音声データの特徴を表す特徴データと、照合用データ記憶領域１２１に記憶された照合用データとを照合し、その一致度に基づいて特定方向を特定するようにしたが、特定方向の特定方法はこれに限らず、例えば、特定の被写体の画像を表すデータを照合用データとして照合用データ記憶領域１２１に予め記憶しておき、制御部１１が、撮影部１８から出力される映像データを画像解析し、解析結果に応じて人物抽出（又は顔抽出）処理を行い、抽出した人物（又は顔）の画像データと照合用データ記憶領域１２１に記憶された照合用データとを照合して、その一致度に基づいて特定方向を特定するようにしてもよい。

また、上述の実施形態では、制御部１１が、マイクロホン１５で収音した音声を表す音声データにフィルタリング処理等を施して音声の特徴を表す特徴データを生成し、生成した特徴データを照合用データとして用いたが、これに限らず、マイクロホン１５で収音した音声を表す音声データをそのまま照合用データとして用いてもよい。

（１０）上述の実施形態では、制御部１１が、録画中にリアルタイムで音声解析を行って特定方向の特定処理や特定方向音声データの生成処理等を行うようにしたが、マイクロホン１５毎の音声データを一旦記憶部１２に記憶させ、動画データを再生するときに、制御部１１が特定方向の特定処理や特定方向音声データの生成処理等を行うようにしてもよい。

（１１）上述の実施形態では、本発明に係る撮影装置をデジタルカメラに適用した例について説明したが、本発明に係る撮影装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯通信端末、コンピュータゲーム機等であってもよく
本発明に係る撮影装置は様々な装置に適用可能である。

（１２）上述の実施形態における撮影装置１の制御部１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置１にダウンロードさせることも可能である。

撮影装置のハードウェア構成の一例を示すブロック図である。撮影装置の外観の一例を示す斜視図である。撮影装置が行う撮影処理の流れを示すフローチャートである。制御部が算出する音圧分布の一例を示す図である。制御部が算出する音圧分布の一例を示す図である。撮影装置の外観の一例を示す斜視図である。

符号の説明

１…撮影装置、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロホン、１６…音声処理部、１７…スピーカ、１８…撮影部、１２１…照合用データ記憶領域、１２２…動画データ記憶領域。

Claims

撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、
列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、
前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を１又は複数推定する推定手段と、
前記推定手段により推定された音源の方向のうちの少なくともいずれか一つを特定する特定手段と、
前記マイクロホン毎の音声データを解析し、解析結果に応じて前記特定手段により特定された音源の方向の遷移を検出する検出手段と、
前記複数のマイクロホンのそれぞれで収音された音声を表す音声データから、前記検出手段により検出される方向に対応した特定方向音声データを生成する特定方向音声データ生成手段と、
前記特定方向音声データ生成手段により生成された特定方向音声データを、前記撮影手段から出力される映像データに対応付けて出力する出力手段と
を具備することを特徴とする撮影装置。
前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定する
ことを特徴とする請求項１に記載の撮影装置。
前記推定手段は、独立成分分析を用いて音源の方向を推定することを特徴とする請求項１に記載の撮影装置。
前記特定方向音声データ生成手段は、前記検出手段により検出される方向からの音圧が高くなるようにミキシングして特定方向音声データを生成することを特徴とする請求項１に記載の撮影装置。
前記特定方向音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで特定方向音声データを生成することを特徴とする請求項１に記載の撮影装置。
前記検出手段は、前記推定手段により算出された音圧の分布における音圧のピークの遷移を検出する
ことを特徴とする請求項５に記載の撮影装置。
音声を照合するための照合用データを記憶する照合用データ記憶手段と、
前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段と
を具備し、
前記特定手段は、前記方向別音声データ生成手段により生成された方向別音声データを、前記照合用データ記憶手段に記憶された照合用データと照合し、両者の一致度に基づいて前記音源の方向を特定する
ことを特徴とする請求項１乃至６のいずれか１項に記載の撮影装置。
前記複数のマイクロホン毎の音声データを、前記特定手段により特定された方向からの音声の音圧が高くなるようにミキシングして、照合用データを生成する照合用データ生成手段と、
前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段と
を具備し、
前記検出手段は、前記方向別音声データ生成手段により生成された方向別音声データのそれぞれを前記記憶手段に記憶された照合用データと照合し、その一致度に基づいて前記音源の方向の遷移を検出する
ことを特徴とする請求項１乃至５のいずれか１項に記載の撮影装置。
前記特定手段は、操作手段から出力される信号に応じて前記音源の方向を特定する
ことを特徴とする請求項１乃至５のいずれか１項に記載の撮影装置。