JP2009239349A - 撮影装置 - Google Patents

撮影装置 Download PDF

Info

Publication number
JP2009239349A
JP2009239349A JP2008079148A JP2008079148A JP2009239349A JP 2009239349 A JP2009239349 A JP 2009239349A JP 2008079148 A JP2008079148 A JP 2008079148A JP 2008079148 A JP2008079148 A JP 2008079148A JP 2009239349 A JP2009239349 A JP 2009239349A
Authority
JP
Japan
Prior art keywords
sound
data
specific
unit
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008079148A
Other languages
English (en)
Inventor
Toshiaki Tsuchido
利昭 土戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008079148A priority Critical patent/JP2009239349A/ja
Publication of JP2009239349A publication Critical patent/JP2009239349A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】撮影装置において、特定の被写体の音声を分別して録音することのできる技術を提供する。
【解決手段】撮影装置1には、複数のマイクロホン15が列状に配置されている。撮影装置1の制御部11は、マイクロホン15のそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を複数推定する。また、制御部11は、推定した音源方向のそれぞれからの音声を表す音声データを、照合用データ記憶領域121に記憶された照合用データと照合し、その一致度に応じて特定の被写体の方向を特定する。また、制御部11は、マイクロホン15毎の音声データを解析し、解析結果に応じて、被写体の方向の遷移を検出し、検出した方向からの音声を表す音声データを生成する。
【選択図】図1

Description

本発明は、撮影や録音を行う技術に関する。
静止画や動画を撮影するデジタルカメラ等の撮影装置においては、撮影時に音声を録音できるようにしたものが提案されている。例えば特許文献1に記載の技術においては、外部マイクから送信される音声情報を受信し、受信した音声情報を撮影者のイヤホンに出力することによって、被写体の音声情報を撮影者がモニタできるようになっている。更に、受信した音声情報をデジタルデータに変換して保存するようになっており、これにより、従来のデジタルカメラ等の録音及び撮影機能付電子機器に内蔵されたマイクでは録音できなかったような離れた距離にある被写体の音声も録音でき、更には、写真の撮影と同時に、写真撮影時とその前後に被写体で収音した音声の録音をもおこなえるようになっている。
特開2005−295502号公報
ところで、撮影を行う際には、複数の人物や動物等が被写体として映像に含まれることがある。このような場合に、特定の被写体の音声(例えば、自分の子供声や、自分の好きな鳥の鳴き声、等)のみを抽出して録音したい場合がある。このような場合であっても、従来の撮影装置では、被写体の声や鳴き声以外の周囲の雑音や騒音も録音されてしまうことが多かった。また、特許文献1に記載の技術では、写真撮影時に特定の被写体の音声を録音することができるものの、外部マイクなどの付属機器が必要であり、装置の構成が複雑になってしまうという問題があった。
本発明は上述した背景の下になされたものであり、撮影時に音声を録音する撮影装置において、特定の被写体の音声を分別して録音することのできる技術を提供することを目的とする。
上記課題を解決するために、本発明の好適な態様である撮影装置は、撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を1又は複数推定する推定手段と、前記推定手段により推定された音源の方向のうちの少なくともいずれか一つを特定する特定手段と、前記マイクロホン毎の音声データを解析し、解析結果に応じて前記特定手段により特定された音源の方向の遷移を検出する検出手段と、前記複数のマイクロホンのそれぞれで収音された音声を表す音声データから、前記検出手段により検出される方向に対応した特定方向音声データを生成する特定方向音声データ生成手段と、前記特定方向音声データ生成手段により生成された特定方向音声データを、前記撮影手段から出力される映像データに対応付けて出力する出力手段とを具備することを特徴とする。
上述の態様において、前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定してもよい。
また、前記推定手段は、独立成分分析を用いて音源の方向を推定してもよい。
また、前記特定方向音声データ生成手段は、前記検出手段により検出される方向からの音圧が高くなるようにミキシングして特定方向音声データを生成してもよい。
また、前記特定方向音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで特定方向音声データを生成してもよい。
また、上述の態様において、前記検出手段は、前記推定手段により算出された音圧の分布における音圧のピークの遷移を検出してもよい。
また、上述の態様において、音声を照合するための照合用データを記憶する照合用データ記憶手段と、前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段とを具備し、前記特定手段は、前記方向別音声データ生成手段により生成された方向別音声データを、前記照合用データ記憶手段に記憶された照合用データと照合し、両者の一致度に基づいて前記音源の方向を特定してもよい。
上述の態様において、前記複数のマイクロホン毎の音声データを、前記特定手段により特定された方向からの音声の音圧が高くなるようにミキシングして、照合用データを生成する照合用データ生成手段と、前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段とを具備し、前記検出手段は、前記方向別音声データ生成手段により生成された方向別音声データのそれぞれを前記記憶手段に記憶された照合用データと照合し、その一致度に基づいて前記音源の方向の遷移を検出してもよい。
また、上述の態様において、前記特定手段は、操作手段から出力される信号に応じて前記音源の方向を特定してもよい。
本発明によれば、撮影時に音声を録音する撮影装置において、特定の被写体の音声を分別して録音することができる。
以下、図面を参照して、本発明の実施形態について説明する。
<A:構成>
図1は、この発明の一実施形態である撮影装置1のハードウェア構成の一例を示すブロック図であり、図2は撮影装置1の外観の一例を示す斜視図である。撮影装置1は、静止画や動画を撮影する機能を備えた装置であり、例えばデジタルカメラである。図1において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介して撮影装置1の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネル等を備え、制御部11による制御の下に各種の画像を表示する。操作部14は、撮影装置1の利用者による操作に応じた信号を制御部11に出力する。操作部14は、十字キー(図示略)や、録音を開始・終了させるための録音ボタンB1、静止画像の撮影及び動画像の撮影を開始・終了させるための撮影ボタンB2等の各種のボタンを備えており、撮影装置1の利用者は、これらのボタンを押下することで、静止画像の撮影や動画像の撮影等の各種の操作を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置1に設けられた切替スイッチ(図示略)によって切り替えられるようになっている。撮影部18は、撮影用レンズ18a等を備え、撮影し、撮影した映像を表す映像データを出力する。撮影部18は、撮影用レンズ18aを前後に移動させることによって撮影範囲を変更可能である。撮影装置1の利用者は、操作部14の十字キー等を用いて撮影部18の撮影範囲を設定できるようになっており、撮影部18は、操作部14からの信号に応じて、撮影用レンズ18aを移動させて撮影範囲を設定する。なお、本実施形態に係る映像データは静止画像を表すデータや動画像を表すデータを含む。
マイクロホンアレイMAは、複数のマイクロホン151,152,…,15n(nは2以上の自然数)が列状に配置されて構成されている。図2に示すように、撮影装置1の前面(撮影用レンズ18aが設けられている面と同じ面)に、複数のマイクロホン151,152,…,15nが列状に配置されており、これら複数のマイクロホン151,152,…15nは、撮影部18が撮影する撮影範囲内の音声を収音することができる。なお、これら複数のマイクロホン151,152,…,15nは指向性マイクロホンであることが望ましい。以下の説明では、マイクロホン151,152,…,15nを各々区別する必要がない場合には、これらを「マイクロホン15」と称して説明する。マイクロホン15は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部16は、マイクロホン15が出力するアナログ信号をA/D変換してデジタルデータを生成する。また、音声処理部16は、制御部11の制御の下、デジタル形式の音声データをD/A変換してアナログ信号を生成し、生成したアナログ信号をスピーカ17に出力する。スピーカ17は、音声処理部16から供給されるアナログ信号に応じた強度で放音する放音手段である。
なお、この実施形態では、マイクロホン15とスピーカ17とが撮影装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。表示部13、操作部14、撮影部18についても同様であり、撮影装置1に内蔵される形式であってもよく、外付けされる形式であってもよい。
記憶部12は、図示のように、照合用データ記憶領域121と、動画データ記憶領域122とを有している。照合用データ記憶領域121には、予め録音された特定の人物の音声の特徴(周波数特性等)を表す照合用データが記憶されている。この照合用データは、制御部11が後述する照合処理を行う際に、照合用のデータとして用いられる。動画データ記憶領域122には、撮影部18から出力される映像データとマイクアレイMAが収音した音声を表す音声データとを含む動画データが記憶される。操作部14の撮影ボタンB2が撮影者によって操作されることにより撮影が行われると、制御部11は、撮影部18から出力される映像データとマイクアレイMAが収音した音声を表す音声データとを含む動画データをこの動画データ記憶領域122に記憶する。
<B:動作>
<B−1:照合用データ登録動作>
次に、この実施形態の動作について説明する。まず、撮影装置1の利用者は、操作部14を操作して、照合用データを登録するための操作を行う。撮影者が録音ボタンB1を押下して録音を開始すると、操作部14は、操作された内容に応じた操作信号を出力し、制御部11は、操作部14から供給される信号に応じて、音声処理部16を制御して録音を開始する。利用者の音声はマイクロホン15で収音されて音声信号に変換され、音声処理部16へ出力される。音声処理部16は、マイクロホン15から出力される音声信号をデジタルデータ(以下「音声データ」という)に変換する。制御部11は、音声処理部16から出力される音声データに所定のフィルタリング処理等を施して、音声データから音声の特徴を表す特徴データを生成し、生成した特徴データを照合用データとして照合用データ記憶領域121に記憶する。利用者が録音ボタンB1を押下して録音を終了させる操作を行うと、制御部11は、操作部14から供給される信号に応じて録音を終了する。
<B−2:撮影動作>
次に、撮影装置1が行う撮影動作について説明する。ここでは、動画像を撮影する場合の動作について説明する。撮影者は、撮影したい被写体の方向に撮影用レンズ18aを向けて撮影準備を行い、操作部14の撮影ボタンB2を押下することによって撮影を開始する。図3は、撮影装置1が行う撮影処理の流れを示すフローチャートである。撮影装置1の制御部11は、撮影ボタンB2が押下されたことを検知するまで待機し(ステップS1;NO)、撮影ボタンB2が押下されたことを検知すると(ステップS1;YES)、動画像の撮影を開始する(ステップS2)。マイクロホン15は収音した音声を音声信号に変換し、音声処理部16へ出力する。音声処理部16は、マイクロホン15から出力される音声信号を音声データに変換する。制御部11は、複数のマイクロホン15のそれぞれに対応する音声データをミキシングして、全体の音声を表す全体音声データを生成し、生成した全体音声データと、撮影部18から出力される映像データとをあわせて動画データとして動画データ記憶領域122に記憶する。
また、制御部11は、ステップS2の撮影処理とリアルタイムで以下のステップS3〜S10に示す処理を行って、特定の被写体の音声を表す特定方向音声データを生成する。まず、制御部11は、マイクロホン15毎の音声データを解析し、解析結果に応じて音源の方向(以下「音源方向」)を複数推定する(ステップS3)。この動作例では、制御部11は、複数のマイクロホン15のそれぞれから出力された音声信号の音圧を検出し、検出したマイクロホン15毎の音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を音源の方向として推定する。この推定処理の具体的な内容の一例について、図4を参照しつつ以下に説明する。
図4は、制御部11が算出する音圧の分布の一例を示す図である。図において、横軸はマイクアレイMAの中心位置に対する角度を示し、縦軸は音圧を示す。或る音源で発生した音波が複数のマイクロホン15のそれぞれに到達するまでの時間は、撮影装置1からみた音源の方向(角度)によってそれぞれ異なる。この原理を利用して、この動作例では、所定単位量の角度毎に、角度に応じた遅延時間をマイクロホン15毎に予め設定しておき、制御部11は、マイクロホン15毎の音声データを各マイクロホン15に応じた遅延時間だけそれぞれ遅延させ、遅延させたマイクロホン15毎の音声データをミキシングして、各角度に対応する音圧を算出する。次いで、制御部11は、算出した角度毎の音圧(すなわち音圧の分布)においてピークが表れる角度を1又は複数検出し、検出した角度を音源の方向とする。図4に示す例においては、制御部11は、音圧のピークが表れる角度θ1、θ2、θ3を音源方向として推定する。
次いで、制御部11は、推定した音源方向のうちの少なくともいずれか一つを、特定の被写体がいる方向(以下、「特定方向」という)として特定する。この動作例では、制御部11は、まず、マイクロホン15毎の音声データを、ステップS3において推定された方向からの音声の音圧が高くなるようにミキシングして、方向毎の方向別音声データを生成する(ステップS4)。次いで、制御部11は、生成した方向別音声データに所定のフィルタ処理等を施して音声の特徴を表す特徴データを生成し、生成した特徴データを、照合用音声データ記憶領域121に記憶された照合用データと照合し、その一致度が最も高い方向を特定方向として特定する(ステップS5)。
特定方向を特定すると、次いで、制御部11は、マイクロホン15毎の音声データを、特定方向からの音声の音圧が高くなるようにミキシングすることによって、特定方向からの音声を表す音声データを生成する(ステップS6)。このミキシング処理は、上述の音源方向推定処理と同様に、制御部11が、マイクロホン15毎の音声データを、特定方向の角度に応じたそれぞれの遅延時間だけ遅延させてミキシングすればよい。以下、説明の便宜上、ステップS6にてのミキシングされて生成された音声データを「特定方向音声データ」という。なお、ステップS4で生成された方向別音声データの内、特定方向に最も近い方向の方向別音声データを選択して特定方向音声データとしてもよい。制御部11は、生成した特定方向音声データを、撮影部18から出力された撮影データと生成した全体音声データとに関連付けて、動画データ記憶領域122に出力する(ステップS7)。
制御部11は、撮影を終了するか否かを判定し(ステップS8)、判定結果が肯定的である場合には(ステップS8;YES)、撮影を終了する(ステップS9)。一方、判定結果が否定的である場合には(ステップS8;NO)、制御部11は撮影を継続して行う。
また、制御部11は、撮影中において、マイクロホン15毎の音声データを解析し、解析結果に応じて、特定方向の遷移を検出する(ステップS10)。この動作例では、制御部11は、マイクロホン15毎の音声データの音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を、所定単位時間(例えば、10ms、等)毎に検出する。そして、制御部11は、音圧のピークの遷移を検出し、検出結果に応じて特定方向の遷移を検出する。特定方向の遷移の検出の態様としては、例えば、制御部11は、音圧のピークを検出し、検出したピークの角度と前回に検出したピークの角度との差分が予め定められた閾値以下である場合に、前回のピーク位置の音源が移動したと判断する。具体的には、例えば、図4に示す例において、角度θ2が特定方向として特定されている場合において、図4に示す状態の所定単位時間経過後に、音圧分布が、図5に示すものに遷移したとする。このとき、図5に示す角度θ21と図4に示す角度θ2との差分が予め定められた閾値以下である場合には、制御部11は、図4に示す時刻において角度θ2の方向にあった音源が角度θ21の方向に移動したと判断し、角度θ21を特定方向として検出する。
このように、制御部11は、所定単位時間毎に音圧のピークを検出し、検出したピークの方向と特定方向との差分に応じて特定方向の移動を検出する。制御部11は、撮影している期間にわたってこの移動の検出を逐次行い、検出結果に応じてマイクロホン15毎の遅延時間を逐次変更しながらミキシングを行って特定方向音声データを生成する。これにより、特定の被写体が移動した場合や撮影者が撮影範囲を変更した場合(例えば、ズーム変更する等)であっても、特定の被写体の方向を追尾して特定方向音声データを生成することができる。
以上のようにして、撮影装置1は、撮影範囲内の映像の映像データを生成するとともに、撮影範囲内の全体の音声を表す全体音声データを生成し、更に、特定の被写体の音声のみを分別した特定方向音声データを生成し、これらのデータを含む動画データを動画データ記憶領域122に記憶する。
<B−3:再生動作>
次に、撮影装置1が行う再生動作について説明する。利用者が操作部14を操作するによって動画の再生を指示する旨の操作が行われると、操作部14は、操作された内容に応じた操作信号を出力し、制御部11は、操作部14から供給される信号に応じて、動画データ記憶領域122に記憶された映像データを表示部13に出力して、映像データの表す映像を表示部13に表示させる。
このとき、利用者は、動画像の再生に同期させて全体音声データを再生するか特定方向音声データを再生するかを、操作部14の所定のスイッチ(図示略)で切り替えることができる。利用者が操作部14を操作することによって音声出力を切り替えると、操作部14は、操作された内容に応じた操作信号を出力し、制御部11は、操作部14から供給される信号に応じて、再生する音声データを全体音声データと特定方向音声データを切り替える。具体的には、全体の音声を作成する旨が選択された場合には、制御部11は、動画データ記憶領域122から全体音声データを読み出して、表示部13に出力する映像データに同期させてスピーカ17から音として出力させる。一方、特定の被写体の音声のみを再生する旨が選択された場合には、制御部11は、動画像データ記憶領域122から特定方向音声データを読み出して、表示部13に出力する映像データに同期させてスピーカ17から音として出力させる。
<C:実施形態の効果>
以上説明したように本実施形態によれば、制御部11が、被写体(音源)の方向を推定し、推定した音源方向から撮影者が所望する音源方向を特定し、特定した方向からの音声を分別して録音する。これにより、撮影者は、或る特定の被写体(例えば、自分の家族、自分の好きな鳥、等)を分別して録音することができ、これにより、全体の音声再生と、特定の被写体の音声再生とがいずれも可能となる。
また、本実施形態によれば、制御部11が、音源の方向の遷移を検出するから、これにより、撮影者は、撮影したい被写体が移動した場合であっても、その移動を追跡しつつ、所望する被写体の音声を分別して録音することができる。
また、本実施形態によれば、マイクロホン15毎の音圧の相関に基づいて、方向に対する音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を、音源の方向として特定する。このように音圧の分布によって音源の位置を推定するから、複雑な処理を行うことなく音源の方向を特定することができる。また、音源方向の推定処理に要する処理時間を短くすることができる。
また、本実施形態によれば、所定単位角度毎に方向別音声データを生成し、生成した各方向別音声データを照合用データ記憶領域121に記憶された照合用データと照合し、その一致度に基づいて方向を特定する。すなわち、撮影装置1に所望する被写体の音声を登録しておくだけで、撮影装置1が登録された被写体の音声のみを分別して録音するから、撮影者は、複雑な操作を行う必要がなく、撮影を行うだけで、所望する被写体の音声を分別して録音することができる。
<D:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)音源方向の推定は、独立成分分析(Independent Component Analysis)を用いてもよい。独立成分分析は、複数の信号源からの各信号が空間内で混合されて複数のセンサに到来し、これらセンサで観測された到来信号から、各源信号の到来方向の推定や各源信号を分離することを、その源信号の混合系の情報を知らずに行うものであり、例えば特許3881367(特許文献2)の背景技術に記載されている。また、特許文献2に記載されている信号源の到来方向を求める技術を用いても良い。
(2)方向別音声データまたは特定方向音声データの生成方法は、上述の実施形態に記載された方法に限らず、前述の独立成分分析を用いてマイクロホン15の音声データから音源に対応する音声データを推定することで求めてもよい。また、特許文献2に記載されている技術を用いても良い。
(3)上述の実施形態では、制御部11は、音圧の分布における音圧のピークが表れる方向の遷移を検出することによって、被写体の移動を検出したが、これに代えて、制御部11が、所定単位量の方向毎に、各方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成し、生成した方向別音声データのそれぞれを記憶された照合用データと照合し、その一致度に基づいて被写体(音源)の方向の遷移を検出するようにしてもよい。このとき、照合用データとしては、上述の実施形態の照合データ記憶領域121に記憶した照合用データと同様のものを用いてもよい。すなわち、音声データにフィルタリング処理を施して音声の特徴を抽出した特徴データを照合用データとして用い、制御部11が、方向毎の音声データにフィルタリング処理を施して音声の特徴を抽出し、抽出した特徴を表す特徴データと照合用データとを照合し、一致度に基づいて特定の被写体の方向の遷移を検出してもよい。
(4)上述の実施形態では、制御部11が、音源方向毎の音声データを、照合用データ記憶領域121に記憶された照合用データと照合し、その一致度に基づいて特定方向を特定するようにした。これに代えて、撮影者が表示部13に表示された被写体の位置を視認して録音したい被写体の方向を操作部14を操作して入力するようにしてもよい。具体的には、例えば、制御部11が、図3のステップS3に示した音源方向推定処理を終えた後に、音源方向推定処理によって推定された音源方向を表示部13に表示することによって撮影者に報知し、撮影者が、表示部13に表示された音源方向のいずれかを操作部14を用いて選択するようにしてもよい。この場合は、制御部11は、推定した音源方向のうち、撮影者によって選択された音源方向を特定方向として特定する。
このように、制御部11が、音源方向毎の音声データを解析することによって複数の音源方向から特定方向を特定するようにしてもよく、また、操作部14からの操作信号に応じて特定方向を特定するようにしてもよく、要は、制御部11が、推定した音源方向のうちの少なくともいずれか一つを特定するようにすればよい。
また、上述の実施形態では、制御部11は、一つの特定方向を特定したが、特定方向を複数特定するようにしてもよい。
また、特定方向の特定方法として、例えば、撮影者が任意の方向を選択できるようにしてもよい。この場合は、撮影者は、操作部14を用いて収音したい方向を指定する操作を行い、制御部11が、操作部14からの信号に応じて、指定された方向を特定方向として、その方向からの音声を表す特定音声データを生成するようにしてもよい。具体的には、例えば、周囲の騒音が大きいために被写体の方向でピークが検出され得ないような場合においては、撮影者が収音したい方向を指定することで、撮影装置1がより好適に特定方向音声データを生成することができる。
また、撮影者が収音したい方向を指定するモードと、上述の実施形態で示したような撮影装置1が特定方向を自動的に検出するモードとを、撮影者が操作部14を用いて選択できるようにしてもよい。この場合は、制御部11は、操作部14からの操作信号に応じて、選択されたモードに応じて特定方向の特定処理や特定方向音声データ生成処理等を行う。
(5)上述の実施形態では、図2に示すような、複数のマイクロホン15が列状に配置されて構成されたマイクアレイMAを備える撮影装置1について説明したが、これに限らず、図6に示すように、複数のマイクロホン15が面状に配置されて構成されたマイクアレイを備える構成としてもよい。この場合は、撮影装置1Aは、音源の角度として、x軸方向(図6参照)の角度だけでなく、z軸方向(図6参照)の角度も特定することができるから、音源の方向を2次元で推定することができ、より詳細な方向を推定することができる。
また、上述の実施形態におけるマイクロホン15は、小型のシリコンマイクを用いるようにしてもよい。
(6)上述の実施形態では、動画データを記憶する記憶手段としてハードディスク装置等の記憶部12を用いたが、動画データを記憶する記憶手段はハードディスク装置に限らず、例えば、メモリカード、CD−R、CD−R/W等の記録媒体であってもよく、要は、制御部11が、動画データを、コンピュータが読取可能な記録媒体に記録するようにすればよい。また、制御部11が動画データを通信ネットワークを介して所定のサーバ装置に出力するようにしてもよい。
(7)上述の実施形態では、撮影装置1が、上記実施形態に係る全ての処理を実行するようになっていた。これに対し、通信ネットワークや通信I/F等で接続された2以上の装置で上記実施形態に係る処理を分担して実行するようにし、それら複数の装置を備えるシステムが同実施形態の撮影装置1を実現するようにしてもよい。具体的には、例えば、デジタルカメラとコンピュータ装置とがUSB等の通信I/Fを介して接続されたシステムとして構成されていてもよい。
(8)上述の実施形態では、撮影装置1の制御部11は、音圧分布を算出してピーク値が表れる角度を音源方向として推定した。音源方向の推定方法はこれに限らず、例えば、所定単位量の角度毎に音圧を検出し、検出した音圧が予め定められた閾値以上となる角度を音源方向として検出するようにしてもよく、要は、制御部11が、マイクロホン15から出力される音声データの音圧を所定単位量の角度毎に検出し、検出した角度毎の音圧から音源方向を推定するようにすればよい。
また、上述の実施形態では、音声データの音圧に基づいて音源方向を推定したが、これに限らず、方向毎の音声データの周波数特性を検出し、検出した周波数特性に基づいて音源方向を推定してもよい。
このように、音源方向は、音声データの音圧に基づいて検出してもよく、また、周波数に基づいて検出するようにしてもよく、要は、制御部11が、マイクロホン15から出力される音声データを音声解析し、解析結果に応じて音源方向を推定するものであればよい。
また、制御部11が撮影部18から出力される映像データを画像解析して人物抽出(又は顔抽出)処理を行い、抽出した人物(又は顔)の位置に対応する方向を音源方向として推定するようにしてもよい。また、上述の音声解析とこの画像解析とを併用して音源方向を推定するようにしてもよい。このように音声解析結果に加えて画像解析結果を用いることで、音源推定処理の精度を高くすることができる。
(9)上述の実施形態では、制御部11は、音源方向からの音声を表す音声データの特徴を表す特徴データと、照合用データ記憶領域121に記憶された照合用データとを照合し、その一致度に基づいて特定方向を特定するようにしたが、特定方向の特定方法はこれに限らず、例えば、特定の被写体の画像を表すデータを照合用データとして照合用データ記憶領域121に予め記憶しておき、制御部11が、撮影部18から出力される映像データを画像解析し、解析結果に応じて人物抽出(又は顔抽出)処理を行い、抽出した人物(又は顔)の画像データと照合用データ記憶領域121に記憶された照合用データとを照合して、その一致度に基づいて特定方向を特定するようにしてもよい。
また、上述の実施形態では、制御部11が、マイクロホン15で収音した音声を表す音声データにフィルタリング処理等を施して音声の特徴を表す特徴データを生成し、生成した特徴データを照合用データとして用いたが、これに限らず、マイクロホン15で収音した音声を表す音声データをそのまま照合用データとして用いてもよい。
(10)上述の実施形態では、制御部11が、録画中にリアルタイムで音声解析を行って特定方向の特定処理や特定方向音声データの生成処理等を行うようにしたが、マイクロホン15毎の音声データを一旦記憶部12に記憶させ、動画データを再生するときに、制御部11が特定方向の特定処理や特定方向音声データの生成処理等を行うようにしてもよい。
(11)上述の実施形態では、本発明に係る撮影装置をデジタルカメラに適用した例について説明したが、本発明に係る撮影装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯通信端末、コンピュータゲーム機等であってもよく
本発明に係る撮影装置は様々な装置に適用可能である。
(12)上述の実施形態における撮影装置1の制御部11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどのコンピュータが読取可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置1にダウンロードさせることも可能である。
撮影装置のハードウェア構成の一例を示すブロック図である。 撮影装置の外観の一例を示す斜視図である。 撮影装置が行う撮影処理の流れを示すフローチャートである。 制御部が算出する音圧分布の一例を示す図である。 制御部が算出する音圧分布の一例を示す図である。 撮影装置の外観の一例を示す斜視図である。
符号の説明
1…撮影装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロホン、16…音声処理部、17…スピーカ、18…撮影部、121…照合用データ記憶領域、122…動画データ記憶領域。

Claims (9)

  1. 撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、
    列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、
    前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を1又は複数推定する推定手段と、
    前記推定手段により推定された音源の方向のうちの少なくともいずれか一つを特定する特定手段と、
    前記マイクロホン毎の音声データを解析し、解析結果に応じて前記特定手段により特定された音源の方向の遷移を検出する検出手段と、
    前記複数のマイクロホンのそれぞれで収音された音声を表す音声データから、前記検出手段により検出される方向に対応した特定方向音声データを生成する特定方向音声データ生成手段と、
    前記特定方向音声データ生成手段により生成された特定方向音声データを、前記撮影手段から出力される映像データに対応付けて出力する出力手段と
    を具備することを特徴とする撮影装置。
  2. 前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定する
    ことを特徴とする請求項1に記載の撮影装置。
  3. 前記推定手段は、独立成分分析を用いて音源の方向を推定することを特徴とする請求項1に記載の撮影装置。
  4. 前記特定方向音声データ生成手段は、前記検出手段により検出される方向からの音圧が高くなるようにミキシングして特定方向音声データを生成することを特徴とする請求項1に記載の撮影装置。
  5. 前記特定方向音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで特定方向音声データを生成することを特徴とする請求項1に記載の撮影装置。
  6. 前記検出手段は、前記推定手段により算出された音圧の分布における音圧のピークの遷移を検出する
    ことを特徴とする請求項5に記載の撮影装置。
  7. 音声を照合するための照合用データを記憶する照合用データ記憶手段と、
    前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段と
    を具備し、
    前記特定手段は、前記方向別音声データ生成手段により生成された方向別音声データを、前記照合用データ記憶手段に記憶された照合用データと照合し、両者の一致度に基づいて前記音源の方向を特定する
    ことを特徴とする請求項1乃至6のいずれか1項に記載の撮影装置。
  8. 前記複数のマイクロホン毎の音声データを、前記特定手段により特定された方向からの音声の音圧が高くなるようにミキシングして、照合用データを生成する照合用データ生成手段と、
    前記マイクロホン毎の音声データを、前記推定手段により推定された方向のそれぞれについて、該方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する方向別音声データ生成手段と
    を具備し、
    前記検出手段は、前記方向別音声データ生成手段により生成された方向別音声データのそれぞれを前記記憶手段に記憶された照合用データと照合し、その一致度に基づいて前記音源の方向の遷移を検出する
    ことを特徴とする請求項1乃至5のいずれか1項に記載の撮影装置。
  9. 前記特定手段は、操作手段から出力される信号に応じて前記音源の方向を特定する
    ことを特徴とする請求項1乃至5のいずれか1項に記載の撮影装置。
JP2008079148A 2008-03-25 2008-03-25 撮影装置 Pending JP2009239349A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008079148A JP2009239349A (ja) 2008-03-25 2008-03-25 撮影装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008079148A JP2009239349A (ja) 2008-03-25 2008-03-25 撮影装置

Publications (1)

Publication Number Publication Date
JP2009239349A true JP2009239349A (ja) 2009-10-15

Family

ID=41252839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008079148A Pending JP2009239349A (ja) 2008-03-25 2008-03-25 撮影装置

Country Status (1)

Country Link
JP (1) JP2009239349A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075680A (zh) * 2009-11-20 2011-05-25 索尼公司 图像处理设备、图像处理方法和程序
JP2015072415A (ja) * 2013-10-04 2015-04-16 セイコーエプソン株式会社 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2016122094A (ja) * 2014-12-25 2016-07-07 ティアック株式会社 無線lan機能を備えた録音装置及び録音システム
JP2019046482A (ja) * 2018-10-09 2019-03-22 日本電信電話株式会社 音声映像追跡装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075680A (zh) * 2009-11-20 2011-05-25 索尼公司 图像处理设备、图像处理方法和程序
CN102075680B (zh) * 2009-11-20 2014-06-04 索尼公司 图像处理设备、图像处理方法和程序
JP2015072415A (ja) * 2013-10-04 2015-04-16 セイコーエプソン株式会社 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2016122094A (ja) * 2014-12-25 2016-07-07 ティアック株式会社 無線lan機能を備えた録音装置及び録音システム
JP2019046482A (ja) * 2018-10-09 2019-03-22 日本電信電話株式会社 音声映像追跡装置

Similar Documents

Publication Publication Date Title
JP4760892B2 (ja) 表示制御装置、表示制御方法及びプログラム
US8643746B2 (en) Video summary including a particular person
US8665345B2 (en) Video summary including a feature of interest
EP1347455A2 (en) Contents recording/playback apparatus and contents edit method
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
JP2013106298A (ja) 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP2009060394A (ja) 撮像装置、画像検出装置及びプログラム
JP4924442B2 (ja) 再生装置およびその制御方法並びにプログラム
JP4941895B2 (ja) 音データ付き画像記録装置及びプログラム
KR20070102404A (ko) 화상 표시 제어 장치, 그 제어 방법 및 그 제어 프로그램
JP2009239348A (ja) 撮影装置
JP2009239349A (ja) 撮影装置
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP2009239346A (ja) 撮影装置
WO2007142237A1 (ja) 画像再生システム、デジタルカメラ、および画像再生装置
JP2009177480A (ja) 撮影装置
JP2010148132A (ja) 撮像装置、画像検出装置及びプログラム
JP2010200079A (ja) 撮影制御装置
KR20150109254A (ko) 셀프 타이머 촬영을 행하는 촬상 장치, 촬상 방법 및 기록 매체
JP5310682B2 (ja) カラオケ装置
CN112584225A (zh) 视频录制处理方法、视频播放控制方法及电子设备
JP6635093B2 (ja) 画像記録装置、画像記録方法及びプログラム
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP5762168B2 (ja) 撮像装置及び再生装置
JP2010171849A (ja) 画像再生装置および電子カメラ