JP2009239348A - 撮影装置 - Google Patents

撮影装置 Download PDF

Info

Publication number
JP2009239348A
JP2009239348A JP2008079132A JP2008079132A JP2009239348A JP 2009239348 A JP2009239348 A JP 2009239348A JP 2008079132 A JP2008079132 A JP 2008079132A JP 2008079132 A JP2008079132 A JP 2008079132A JP 2009239348 A JP2009239348 A JP 2009239348A
Authority
JP
Japan
Prior art keywords
data
sound
video
voice
photographing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008079132A
Other languages
English (en)
Inventor
Masakazu Kato
正和 加藤
Tetsuo Nishimoto
哲夫 西元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008079132A priority Critical patent/JP2009239348A/ja
Publication of JP2009239348A publication Critical patent/JP2009239348A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Indication In Cameras, And Counting Of Exposures (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】撮影時に音声を録音する撮影装置において、録音された音声が、映像に含まれるどの被写体が発した音声であるかを利用者が特定し易くすることのできる技術を提供する。
【解決手段】撮影装置1には、複数のマイクロホン15が列状に配置されている。撮影装置1の制御部11は、マイクロホン15のそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を推定する。また、制御部11は、マイクロホン15毎の音声データを、推定した音源方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成する。制御部11は、推定した音源方向に基づいて、画像内における音源の位置を特定し、特定した位置を示す位置データを生成する。制御部11は、生成した方向別音声データと位置データとを、撮影部18から出力された映像データに対応付けて映像コンテンツ記憶領域123に記憶する。
【選択図】図1

Description

本発明は、撮影や録音を行う技術に関する。
静止画や動画を撮影するデジタルカメラ等の撮影装置においては、撮影時に音声を録音できるようにしたものが提案されている。例えば特許文献1に記載の技術においては、外部マイクから送信される音声情報を受信し、受信した音声情報を撮影者のイヤホンに出力することによって、被写体の音声情報を撮影者がモニタできるようになっている。更に、受信した音声情報をデジタルデータに変換して保存するようになっており、これにより、従来のデジタルカメラ等の録音及び撮影機能付電子機器に内蔵されたマイクでは録音できなかったような離れた距離にある被写体の音声も録音でき、更には、写真の撮影と同時に、写真撮影時とその前後に被写体で収音した音声の録音をも行えるようになっている。
特開2005−295502号公報
ところで、撮影を行う際には、複数の人物や動物等が被写体として映像に含まれることがある。特許文献1に記載の技術では、写真撮影時に音声の録音を行うことができるものの、撮影した写真や録音した音声を確認する場合に、映像に含まれる複数の被写体のうちのどの被写体が発した音声であるかを把握することは困難であった。具体的には、例えば複数の人物を含めて記念撮影した場合に、それら複数の人物のうちのいずれか一人の声が録音されたとしても、録音された音声を聞いただけではどの人物の声であるかを特定することが困難な場合があった。また、例えば、撮影時に撮影者が想定していた被写体とは別の第三者が写真に写ってしまう場合があり、このような場合にも、録音された音声を聞いただけでは発話者を特定できない場合があった。これは人物の撮影に限らず、鳥などの動物を被写体として撮影した場合も同様である。
本発明は上述した背景の下になされたものであり、撮影時に音声を録音する際に、録音された音声が、映像に含まれるどの被写体が発した音声であるかを利用者が特定し易くすることのできる技術を提供することを目的とする。
上記課題を解決するために、本発明の好適な態様である撮影装置は、撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を1又は複数推定する推定手段と、前記撮影手段から出力される映像データの表す映像内における位置であって前記推定手段により推定された方向に対応する位置を特定する位置特定手段と、前記マイクロホン毎の音声データから、前記推定手段によって推定された方向に対応した方向別音声データを生成する方向別音声データ生成手段と、前記方向別音声データ生成手段により生成された方向別音声データと前記位置特定手段により特定された位置を示す位置データとを、前記撮影手段から出力される映像データに対応付けて所定の記憶手段に記憶する記憶制御手段とを具備することを特徴とする。
上述の態様において、前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定してもよい。
上述の態様において、前記推定手段は、独立成分分析を用いて音源の方向を推定してもよい。
また、前記方向別音声データ生成手段は、前記推定手段によって推定された方向からの音圧が高くなるようにミキシングして方向別音声データを生成してもよい。
また、前記方向別音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで方向別音声データを生成してもよい。
また、上述の態様において、前記記憶手段に記憶された映像データの表す映像を表示装置に表示させる表示制御手段と、操作手段から供給される信号に応じて、前記表示制御手段により表示された映像内における位置を指定する位置指定手段と、前記位置指定手段により指定された位置に対応する方向別音声データを前記記憶手段から読み出し、読み出した方向別音声データを放音手段に出力する出力手段とを具備してもよい。
また、上述の態様において、前記記憶手段に記憶された方向別音声データを音声解析して文字データを生成する文字データ生成手段と、前記文字データ生成手段により生成された文字データを前記方向別音声データに対応付けて前記記憶手段に記憶する文字データ記憶制御手段とを具備してもよい。
また、上述の態様において、前記記憶手段に記憶された方向別音声データを音声解析して文字データを生成する文字データ生成手段と、前記文字データ生成手段により生成された文字データを前記方向別音声データに対応付けて前記記憶手段に記憶する文字データ記憶制御手段とを具備し、前記表示制御手段は、前記記憶手段に記憶された映像データの表す映像を前記表示装置に表示させるとともに、前記記憶手段に記憶された文字データを、該映像内の位置であって該文字データに対応する方向別音声データに応じた位置に表示させてもよい。
また、上述の態様において、前記記憶手段に記憶された方向別音声データを音声解析して、解析結果に応じて該方向別音声データを表す画像データを生成する画像データ生成手段と、前記画像データ生成手段により生成された画像データを前記方向別音声データに対応付けて前記記憶手段に記憶する画像データ記憶制御手段とを具備してもよい。
本発明によれば、撮影時に音声を録音する際に、録音された音声が、映像に含まれるどの被写体が発した音声であるかを利用者が特定し易くすることができる。
以下、図面を参照して、本発明の実施形態について説明する。
<A:構成>
図1は、この発明の一実施形態である撮影装置1のハードウェア構成の一例を示すブロック図であり、図2は撮影装置1の外観の一例を示す斜視図である。撮影装置1は、静止画や動画を撮影する機能を備えた装置であり、例えばデジタルカメラである。図1において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスを介して撮影装置1の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネル等を備え、制御部11による制御の下に各種の画像を表示する。操作部14は、撮影装置1の利用者による操作に応じた信号を制御部11に出力する。操作部14は、十字キー(図示略)や、録音を開始・終了させるための録音ボタンB1、静止画像の撮影及び動画像の撮影を開始・終了させるための撮影ボタンB2等の各種のボタンを備えており、撮影装置1の利用者は、これらのボタンを押下することで、静止画像の撮影や録音等を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置1に設けられた切替スイッチ(図示略)によって切り替えられるようになっている。撮影部18は、撮影用レンズ18a等を備え、撮影し、撮影した映像を表す映像データを出力する。撮影部18は、撮影用レンズ18aを前後に移動させることによって撮影範囲を変更可能である。撮影装置1の利用者は、操作部14の十字キー等を用いて撮影部18の撮影範囲を設定できるようになっており、撮影部18は、操作部14からの信号に応じて、撮影用レンズ18aを移動させて撮影範囲を設定する。なお、本実施形態に係る映像データは、静止画像を表すデータや動画像を表すデータを含む。
マイクロホンアレイMAは、複数のマイクロホン151,152,…,15n(nは2以上の自然数)が列状に配置されて構成されている。図2に示すように、撮影装置1の前面(撮影用レンズ18aが設けられている面と同じ面)に、複数のマイクロホン151,152,…,15nが列状に配置されており、これら複数のマイクロホン151,152,…,15nは、撮影部18が撮影する撮影範囲内の音声を収音することができる。なお、これら複数のマイクロホン151,152,…,15nは指向性マイクロホンであることが望ましい。以下の説明では、マイクロホン151,152,…15nを各々区別する必要がない場合には、これらを「マイクロホン15」と称して説明する。マイクロホン15は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部16は、マイクロホン15が出力するアナログ信号をA/D変換してデジタルデータを生成する。また、音声処理部16は、制御部11の制御の下、デジタル形式の音声データをD/A変換してアナログ信号を生成し、生成した音声信号をスピーカ17に出力する。スピーカ17は、音声処理部16から供給されるアナログ信号に応じた強度で放音する放音手段である。
なお、この実施形態では、マイクロホン15とスピーカ17とが撮影装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。表示部13、操作部14、撮影部18についても同様であり、撮影装置1に内蔵される形式であってもよく、外付けされる形式であってもよい。
記憶部12は、図示のように、映像データ記憶領域121と、音声データ記憶領域122と、映像コンテンツ記憶領域123と、変換関数記憶領域124とを有している。映像データ記憶領域121には、撮影部18から出力される映像データが一時的に記憶される。操作部14の撮影ボタンB2が撮影者により押下されることによって撮影が行われると、制御部11は、撮影部18から出力される映像データをこの映像データ記憶領域121に一時的に記憶する。音声データ記憶領域122には、各マイクロホン15のそれぞれで収音された音声を表す音声データが一時的に記憶される。
映像コンテンツ記憶領域123には、映像を表す映像データと、方向毎の音声を表す方向別音声データと、映像データの示す映像内における座標を示す位置データとが対応付けられて構成されたデータ(以下「映像コンテンツ」という)が複数記憶される。
ここで、映像コンテンツのデータの内容について、図3を参照しつつ説明する。図3は、映像コンテンツの内容の一例を示す図である。図示のように、映像コンテンツは、「コンテンツID」と「映像データ」と「位置データ」と「音声データ」との各項目が互いに関連付けられて構成される。これらの項目のうち、「コンテンツID」の項目には、映像コンテンツを識別する識別情報が記憶される。「映像データ」の項目には、撮影部18によって撮影された映像を示す映像データが記憶される。「位置データ」の項目には、映像データの表す映像内における位置を示す位置データが記憶される。この位置データは、制御部11が後述する位置特定処理を行うことによって生成される。「音声データ」の項目には、マイクアレイMAによって収音された音声であって位置データに対応する方向からの音声を表す音声データ(以下「方向別音声データ」という)が記憶される。撮影が行われると、制御部11は、撮影された映像を表す映像データ、収音された音声であって特定方向からの音声を表す方向別音声データ及び位置を示す位置データを関連付けて、映像コンテンツとして映像コンテンツ記憶領域123に記憶する。また、映像コンテンツの再生が指示された際には、制御部11は、映像コンテンツ記憶領域123から映像コンテンツを読み出し、読み出した映像コンテンツに含まれる映像データを表示部13に出力したり音声データをスピーカ17に出力したりすることにより、映像や音声の再生を行う。
変換関数記憶領域124には、制御部11が後述する位置特定処理を行う際に用いられる変換関数が記憶されている。この変換関数は、音源の方向と画像中における音源の位置との対応関係を示す関数であり、制御部11は、この関数を用いて音源の方向を画像中における位置(座標)に変換する。
<B:動作>
<B−1:撮影動作>
次に、この実施形態の動作について説明する。ここでは、静止画像の撮影と撮影の前後の期間にわたって録音を行う動作について説明する。なお、静止画像のみの撮影動作や動画像の撮影動作については、従来の撮影装置の動作と同様であり、ここではその説明を省略する。まず、撮影者は、撮影したい被写体の方向に撮影用レンズ18aを向けて撮影準備を行い、操作部14の録音ボタンB1を押下することによって録音を開始する。図4は、撮影装置1が行う処理の流れを示すフローチャートである。撮影装置1の制御部11は、録音ボタンB1が押下されるまで待機し(ステップS1;NO)、録音ボタンB1が押下されると(ステップS1;YES)、操作部14は操作された内容に応じた操作信号を出力し、制御部11は、操作部14から供給される信号に応じて、録音を開始する(ステップS2)。マイクロホン15は収音した音声を音声信号に変換し、音声処理部16へ出力する。音声処理部16は、マイクロホン15から出力される音声信号をデジタルデータ(以下「音声データ」という)に変換する。変換された音声データは音声データ記憶領域122に順次記憶されていく。
制御部11は、撮影ボタンB2が押下されるまで待機し(ステップS3;NO)、撮影者によって撮影ボタンB2が押下されると(ステップS3;YES)、操作部14は操作された内容に応じた操作信号を出力し、制御部11は、操作部14から供給される信号に応じて、静止画像を撮影する(ステップS4)。撮影部18から出力される映像データは、映像データ記憶領域121に記憶される。
次いで、制御部11は、録音を終了するか否かを判定する(ステップS5)。この判定は、撮影者によって録音ボタンB1が押下されたか否かによって判定され、録音ボタンB1が押下されたときに録音を終了すると判定される。録音を継続すると判定した場合には(ステップS5;NO)、制御部11は、録音処理を継続して行う(ステップS3,S4)。一方、録音を終了すると判定した場合には(ステップS5;YES)、制御部11は録音を終了し(ステップS6)、ステップS7以降の処理に進んで音声データと映像データとの対応付けを行う。
ステップS7において、制御部11は、複数のマイクロホン15のそれぞれから出力された音声データを解析し、解析結果に応じて音源の方向(以下「音源方向」)を推定するとともに、推定した音源方向からの音声を表す方向別音声データを生成する(ステップS7)。ここでは、制御部11は、複数のマイクロホン15のそれぞれから出力された音声データの音圧を検出し、検出したマイクロホン15毎の音圧の相関に基づいて、撮影部18の撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を音源の方向として推定する。この推定処理の具体的な内容の一例について、図5を参照しつつ以下に説明する。
図5は、制御部11が算出する音圧の分布の一例を示す図である。図において、横軸はマイクアレイMAの正面方向に対する角度を示し、縦軸は音圧を示す。或る音源で発生した音波が複数のマイクロホン15のそれぞれに到達するまでの時間は、撮影装置1からみた音源の方向(角度)によって異なる。この原理を利用して、この実施形態では、所定単位量の角度毎に、角度に応じた遅延時間をマイクロホン15毎に予め設定しておき、制御部11は、マイクロホン15毎の音声データを各マイクロホン15に応じた遅延時間だけそれぞれ遅延させ、遅延させたマイクロホン15毎の音声データをミキシングして、各角度の音圧を算出する。制御部11は、算出した角度毎の音圧(すなわち音圧の分布)においてピークが表れる角度を1又は複数検出し、検出した角度を音源の方向とする。図5に示す例においては、制御部11は、音圧のピークが表れる角度θ1、θ2、θ3を音源方向として推定する。
また、制御部11は、推定した音源方向からの音声を表す方向別音声データを音声データ記憶領域122に記憶する。この方向別音声データとしては、制御部11が生成した角度毎の音声データのうちの音源方向に対応する音声データをそのまま方向別音声データとして用いるようにしてもよく、また、音源方向の推定処理を終えた後に、制御部11が、マイクロホン15毎の音声データを、音源方向からの音声の音圧が高くなるようにミキシングして方向別音声データを生成するようにしてもよい。このミキシング処理も、上述の音源方向推定処理と同様に、制御部11が、マイクロホン15毎の音声データを、角度に応じたそれぞれの遅延時間だけ遅延させてミキシングすればよい。
図4の説明に戻る。ステップS7の処理を終えると、制御部11は、映像データ記憶領域121に記憶さえた映像データ、すなわち撮影部18から出力された映像データの表す映像内における位置であって推定された音源方向に対応する位置を特定し、特定した位置を示す位置データを生成する(ステップS8)。この特定方法は、ここでは、制御部11は、変換関数記憶領域124に記憶された変換関数を用いて方向を位置(座標)に変換する。なお、位置の特定方法はこれに限らず、例えば、角度と位置との対応関係を示すテーブルを記憶部12に予め記憶させておき、このテーブルを参照して位置を特定するようにしてもよい。
次いで、制御部11は、撮影部18から出力された映像データと、ステップS7で生成した方向別音声データと、ステップS8で生成した位置データとを関連付けた映像コンテンツを映像コンテンツ記憶領域123に記憶する(ステップS9)。
<B−2:再生動作>
次いで、撮影装置1が行う再生動作について、図6を参照しつつ説明する。図6は、撮影装置1が行う再生動作の流れの一例を示すフローチャートである。撮影装置1の制御部11は、利用者によって画像の表示を指示する旨の操作が行われるまで待機し(ステップS11;NO)、利用者によって画像の表示を指示する旨の操作が行われたことを検知すると(ステップS11;YES)、操作部14から供給される信号に応じて、映像コンテンツ記憶領域123に記憶された映像コンテンツに含まれる映像データを読み出し、読み出した映像データを表示部13に出力して、映像データの表す映像を表示部13に表示させる(ステップS12)。
図7は、ステップS12において表示部13に表示される画面の一例を示す図である。図7に示す例においては、人物A1,A2,A3の3つの被写体が含まれた画像が表示される。また、制御部11は、利用者が位置を指定するためのポインタP1を表示部13に表示させる。利用者は操作部14の十字キー等を用いてこのポインタP1を画面上で移動させることができる。制御部11は、操作部14からの信号に応じたポインタP1を画面上で移動させる。なお、この実施形態では、位置を指定するためにポインタP1を用いるが、位置の指定方法はこれに限らず、例えば、制御部11が、映像コンテンツに含まれる位置データの示す位置にそれぞれアイコンを表示するようにし、利用者が表示されたアイコンのいずれかを選択することによって位置を指定するようにしてもよく、要は、制御部11が、表示部13に表示された画像内の位置(座標)を指定するものであればどのようなものであってもよい。
図6の説明に戻る。制御部11は、位置が指定されたか否かを判定する(ステップS13)。操作者は、操作部14の十字キー等を用いてポインタP1を移動させる操作を行い、制御部11は、操作部14からの信号に応じてポインタP1を移動させる。ここで、ポインタP1が利用者の所望する位置に移動すると、操作者は、所定のキーを押下する等して音声の再生を指示するための操作を行う。制御部11は、操作部14からの信号に応じて、音声の再生が指示されたか否かを判定する。
位置が指定されると(ステップS13;YES)、制御部11は、指定された位置に対応する方向別音声データを映像コンテンツ記憶領域123から読み出し、読み出した方向別音声データの表す音声をスピーカ17から放音させる(ステップS14)。すなわち、制御部11は、読み出した方向別音声データを音声処理部16に供給し、音声処理部16は、供給された方向別音声データをD/A変換してスピーカ17から音として出力させる。これにより、スピーカ17からは、ポインタP1の位置(すなわち利用者が指定した位置)に対応する方向からの音声、すなわち、ポインタP1の位置に写った被写体が発した音声が放音される。ステップS13において位置が指定されていない場合には(ステップS13;NO)、制御部11は、ステップS14の処理を行わずにステップS15の処理に進む。ステップS15においては、制御部11は、表示を終了するか否かを判定し、終了しない場合には(ステップS15;NO)、ステップS12の処理に戻る。一方、終了する場合には(ステップS15;YES)、そのまま処理を終える。
ステップS14の処理において、映像コンテンツに含まれる位置データの示す位置(以下「音源位置」という)と、ステップS13において指定された位置(以下「指定位置」という)とが一致しない場合には、制御部11は、例えば、指定位置との距離が予め定められた閾値以下である音源位置を選択し、選択した音源位置に対応する方向別音声データを読み出して出力してもよく、また、例えば、指定位置との距離が最小である音源位置を選択し、選択した音源位置に対応する方向別音声データを読み出して出力してもよい。このように、出力する方向別音声データの選択方法は撮影装置1の設計等に応じて適宜変更可能であり、要は、制御部11が、所定のアルゴリズムを用いて指定位置に対応する方向別音声データを選択し、選択した方向別音声データを出力するようにすればよい。
<C:実施形態の効果>
以上説明したように本実施形態によれば、撮影時の前後の期間にわたって音声を録音する際に、音源の方向を検出し、検出した方向に応じた画像内の位置を示す位置データを映像データに対応付けて記憶する。そして、再生時には、表示した画像中の指定された位置に対応する方向別音声データを再生する。これにより、利用者は、再生される音声が、画像中のどの位置から発せられた音声であるかを把握することができるから、これにより、利用者は、再生される音声が、画像に含まれるどの被写体が発した音声であるかを特定し易くなる。具体的には、例えば、1枚の写真に複数の人物が収まっている場合において、それぞれの人物の話し声が録音された場合でも、利用者は、それぞれの音声が発せられた位置を把握することができるから、これにより、録音された音声がどの人物の音声であるかを特定することができる。また、人物に限らず、例えば、複数の鳥が写された写真において、複数の鳥の鳴き声が録音された場合であっても、利用者は、それぞれの音声の発音位置を把握することができるから、これにより、それぞれの鳴き声がどの鳥のものであるかを特定することができる。
また、本実施形態によれば、マイクロホン15毎の音圧の相関に基づいて撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を音源の方向として推定するから、これにより、複雑な処理を行うことなく音源の方向を特定することができる。
<D:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)音源方向の推定は、独立成分分析(Independent Component Analysis)を用いてもよい。独立成分分析は、複数の信号源からの各信号が空間内で混合されて複数のセンサに到来し、これらセンサで観測された到来信号から、各源信号の到来方向の推定や各源信号を分離することを、その源信号の混合系の情報を知らずに行うものであり、例えば特許3881367(特許文献2)の背景技術に記載されている。また、特許文献2に記載されている信号源の到来方向を求める技術を用いても良い。
(2)方向別音声データの生成方法は、上述の実施形態に記載された方法に限らず、前述の独立成分分析を用いてマイクロホン15の音声データから音源に対応する音声データを推定することで求めてもよい。また、特許文献2に記載されている技術を用いても良い。
(3)上述の実施形態において、制御部11が、映像コンテンツに含まれる方向別音声データを音声解析して文字コードを生成し、映像コンテンツに付加するようにしてもよい。この態様においては、映像コンテンツは、「コンテンツID」と「映像データ」と「方向別音声データ」と「文字データ」とが互いに関連付けて構成される。これらの項目のうち、「コンテンツID」、「映像データ」及び「方向別音声データ」は上述の実施形態で示した項目と同様であり、ここではその説明を省略する。「文字データ」の項目には、方向別音声データに対応する文字データが格納される。制御部11は、「方向別音声データ」の項目に格納された方向別音声データの一部又は全部を音声解析し、解析結果に応じて音声に含まれる各音素を示す文字コードを生成する。この生成処理は、方向別音声データの全部を音声解析して文字コードを生成するようにしてもよく、また、方向別音声データの一部(例えば、冒頭の10秒分、等)を音声解析して解析結果に応じて文字コードを生成するようにしてもよい。制御部11は、生成した文字データを方向別音声データ及び位置データの少なくともいずれか一方に関連付けて記憶部12に記憶する。
上述の場合において、制御部11が、映像データの表す映像を表示部13に表示する際に、図8に示すように、映像データの表す画像のうちの、位置データの示す位置に対応する位置に、文字コードの表す文字画像A11,A12,A13をそれぞれ表示してもよい。図8に示す例においては、制御部11は、各方向別音声データに対応する位置データの示す位置に、それぞれの方向別音声データに対応する文字コードの示す文字画像を表示させる。利用者は、表示される文字画像を確認することで、どの被写体がどのような音声を発したかを直感的に把握することができる。
(4)また、上述の実施形態において、制御部11が、方向別音声データを音声解析し、解析結果に応じて音声を表す2次元バーコード等の画像データを生成し、映像コンテンツに付加するようにしてもよい。この場合に、制御部11は、映像データの表す映像を表示部13に表示する際に、図9に示すように、映像データの表す画像のうちの、位置データの示す位置に対応する位置に、画像データの表す画像を表示するようにしてもよい。図9に示す例においては、制御部11は、各方向別音声データに対応する位置データの示す位置に、それぞれの方向別音声データに対応する2次元バーコードA21,A22,A23を表示させる。利用者は、バーコードリーダ機能を備える読取装置を用いて、表示された2次元バーコードA21,A22,A23を読み取る操作を行い、読取装置は、読み取ったコードに応じた音声や画像を出力する。利用者は、読取装置から出力される音声や画像を確認することで、どの被写体がどの音声を発したかを容易に把握することができる。
(5)上述の実施形態では、図2に示すような、複数のマイクロホン15が列状に配置されて構成されたマイクアレイMAを備える撮影装置1について説明したが、これに限らず、図10に示すように、複数のマイクロホン15が2次元に配置されて構成されたマイクアレイを備える撮影装置1Aを用いてもよい。この場合は、撮影装置1Aは、音源の角度として、x軸方向(図10参照)における角度だけでなく、y軸方向(図10参照)における角度も特定することができるから、音源の方向を二次元で推定することができ、より詳細に推定することができる。
また、上述の実施形態におけるマイクロホン15は、小型のシリコンマイクを用いるようにしてもよい。
(6)上述の実施形態では、映像コンテンツを記憶する記憶手段としてハードディスク装置等の記憶部12を用いたが、映像コンテンツを記憶する記憶手段はハードディスク装置に限らず、例えば、メモリカード、CD−R、CD−R/W等の記録媒体であってもよく、要は、制御部11が、生成した映像コンテンツを、コンピュータが読取可能な記録媒体に記録するようにすればよい。
(7)上述の実施形態では、撮影装置1が撮影処理と表示処理との両方の処理を実行するようになっていた。これに対し、通信ネットワークや通信インターフェイス(I/F)等で接続された2以上の装置で上記処理を分担して実行するようにし、それら複数の装置を備えるシステムが同実施形態の撮影装置1を実現するようにしてもよい。具体的には、例えば、図11に示すような、デジタルカメラ2とコンピュータ装置3とが、USB等の通信I/Fを介して接続されたシステムとして構成されていてもよい。図11において、デジタルカメラ2は、図4に示した撮影処理を行って映像コンテンツを生成し、生成した映像コンテンツを所定の記録媒体に記録する。コンピュータ装置3は、例えばパーソナルコンピュータであり、コンピュータ装置3の記憶部には、上述の図6で示した処理を実行するためのコンピュータプログラムが予め記憶されている。コンピュータ装置3の制御部は、記憶部に記憶されたコンピュータプログラムを実行することによって、デジタルカメラ2が生成した映像コンテンツを通信I/Fを介して受信し、受信した映像コンテンツに応じて、図6に示した画像の表示処理や録音された音声の再生処理を行う。
(8)上述の実施形態では、制御部11は、マイクロホン15によって収音された音声を音声解析して音源方向を推定し、推定した音源方向に対応する位置を音源位置として特定した。これに加えて、制御部11が、映像データを画像解析し、解析結果に応じて人物抽出(又は顔抽出)を行い、抽出した人物(又は顔)の位置を用いて音源位置を示す位置データを生成するようにしてもよい。具体的には、例えば、制御部11が、映像データを画像解析して顔画像抽出を行い、抽出した顔画像の領域に、音声解析によって特定された音源位置(座標)が含まれる場合には、その顔画像領域を示す領域データを、位置データとして映像コンテンツに含めるようにしてもよい。この場合には、図7に示すような画像を表示した場合に、利用者が、操作部14を操作して、表示された画像中の顔画像領域のいずれかを指定すれば、その顔画像領域の位置に応じた方向別音声データの表す音声が放音される。このように音声解析結果に加えて画像解析結果を用いて音源位置を特定することによって、音源位置特定処理の精度を高くすることができる。
(9)上述の実施形態では、撮影装置1は、静止画像の撮影時の前後の期間にわたって録音したが、これに限らず、例えば、録音を終えた後に静止画像の撮影を行うようにしてもよく、また、静止画像の撮影を行った後に録音してもよい。
また、上述の実施形態では、利用者が操作部14の録音ボタンB1を押下することによって録音の開始と終了とを行ったが、これに限らず、例えば、収音した音声を表す音声データを所定時間長(例えば、10秒等)ずつ常にバッファリングしておき、撮影ボタンが押下されたときに、バッファリングしておいた音声データと撮影ボタン押下後の所定時間長(例えば、10秒等)分の音声データを映像データに対応付けて記憶するようにしてもよい。また、他の例としては、例えば、撮影ボタンが押下されたときから収音している音声のレベル(音圧)を検出し、音圧が予め定められた閾値以上になったときから録音を開始し、無音区間(音圧が予め定められた閾値未満の区間)が所定時間以上となったときに録音を終了するようにしてもよい。このように、映像データに対応付ける音声の録音の開始タイミングと終了タイミングとは撮影装置1の設計等に応じて適宜変更可能であり、要するに、撮影ボタンが押下された前及び後の少なくともいずれか一方の期間にわたって収音された音声を表す音声データを、撮影された映像データに対応付けるようにすればよい。
また、上述の実施形態では、音声データを一旦記憶部に記憶させた後、音声解析を行うようにしたが、これに限らず、収音しながらリアルタイムで音声解析を行うようにしてもよい。
(10)上述の実施形態では、撮影装置1の制御部11は、音圧分布を算出してピーク値が表れる角度を音源方向として推定した。音源方向の推定方法はこれに限らず、例えば、角度毎の音圧を検出し、検出した音圧が予め定められた閾値以上となる角度を音源方向として検出するようにしてもよく、要は、制御部11が、マイクロホン15から出力される音声データの音圧を角度毎に検出し、検出した角度毎の音圧から音源方向を推定するようにすればよい。
(11)また、上述の実施形態では、音声データの音圧に基づいて音源方向を推定したが、これに限らず、方向毎の音声データの周波数特性を検出し、検出した周波数特性に基づいて音源方向を推定するようにしてもよい。
このように、音源方向は、音声データの音圧に基づいて検出してもよく、また、周波数に基づいて検出するようにしてもよく、要は、制御部11が、マイクロホン15から出力される音声データを解析し、解析結果に応じて音源方向を推定するものであればよい。
(12)上述の実施形態では、映像データを表示部13に出力するようにしたが、映像データの出力先はこれに限らず、例えば、印刷出力する印刷装置に映像データを出力するようにし、印刷装置に印刷出力させるようにしてもよい。この場合は、例えば、図8に示すような文字画像を含む画像を印刷出力すれば、利用者は、どの人物がどのような音声を発したのかを直感的に把握することができる。また、例えば、図9に示すような2次元バーコードを含む画像を印刷出力すれば、利用者は、読取装置を用いて2次元バーコードを読み取って音声を確認することができる。
(13)上述の実施形態において、制御部11は、変換関数記憶領域124に記憶された変換関数を用いて、音源方向を画像における音源位置に変換した。この変換関数は、例えば、撮影範囲に含まれる角度の最大値と音源の角度との比に応じて画像における音源位置を算出するものであってもよい。この場合の具体例について図12を参照しつつ以下に説明する。図12に示すように、撮影装置1の正面方向を基準とした撮影範囲Tの一端の角度θaと音源Pの角度θ1との比は、弧laと弧l1との比に等しく、また、撮影装置1の正面から撮影範囲Tの一端までの距離xaと音源Pまでの距離x1との比は、弧laと弧l1との比に近似するといえる。これを利用して、制御部11が、角度θaと角度θ1との比を用いて、距離xaから距離x1を算出してもよい。図12に示す例において、角度θaは、撮影装置1の記憶部12の所定の記憶領域に予め記憶しておくようにしてもよく、また、制御部11が、フォーカス制御内容等に応じて撮影時に随時角度θaを算出するようにしてもよい。
また、制御部11が、画像内における音源位置を特定する際に、音源方向に加えて、撮影装置1から音源までの距離を用いて、位置を特定するようにしてもよい。この場合は、例えば、撮影装置1が、フォーカス制御内容等に応じて音源までの距離を検出し、検出した音源の方向と距離とに基づいて画像内の音源位置を推定してもよい。
(14)上述の実施形態では、本発明に係る撮影装置をデジタルカメラに適用した例について説明したが、本発明に係る撮影装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯電話端末、コンピュータゲーム機等であってもよく、本発明に係る撮影装置は様々な装置に適用可能である。
(15)上述の実施形態における撮影装置1の制御部11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどのコンピュータが読み取り可能な記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置1にダウンロードさせることも可能である。
撮影装置のハードウェア構成の一例を示すブロック図である。 撮影装置の外観の一例を示す斜視図である。 映像コンテンツの内容の一例を示す図である。 撮影装置が行う撮影処理の流れを示すフローチャートである。 制御部が算出する音圧分布の一例を示す図である。 撮影装置が行う再生処理の流れを示すフローチャートである。 表示部に表示される画面の一例を示す図である。 表示部に表示される画面の一例を示す図である。 表示部に表示される画面の一例を示す図である。 撮影装置の外観の一例を示す斜視図である。 システムの構成の一例を示すブロック図である。 変換関数の内容の一例を示す図である。
符号の説明
1…撮影装置、2…デジタルカメラ、3…コンピュータ装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロホン、16…音声処理部、17…スピーカ、18…撮影部、121…映像データ記憶領域、122…音声データ記憶領域、123…映像コンテンツ記憶領域、124…変換関数記憶領域。

Claims (9)

  1. 撮影範囲が設定され、該撮影範囲内の映像を表す映像データを出力する撮影手段と、
    列状に配置され、前記撮影範囲内の音声をマイクロホン毎に収音し、音声データとして出力する複数のマイクロホンと、
    前記複数のマイクロホンのそれぞれで収音された音声を表す音声データを解析し、解析結果に応じて音源の方向を1又は複数推定する推定手段と、
    前記撮影手段から出力される映像データの表す映像内における位置であって前記推定手段により推定された方向に対応する位置を特定する位置特定手段と、
    前記マイクロホン毎の音声データから、前記推定手段によって推定された方向に対応した方向別音声データを生成する方向別音声データ生成手段と、
    前記方向別音声データ生成手段により生成された方向別音声データと前記位置特定手段により特定された位置を示す位置データとを、前記撮影手段から出力される映像データに対応付けて所定の記憶手段に記憶する記憶制御手段と
    を具備することを特徴とする撮影装置。
  2. 前記推定手段は、前記マイクロホン毎の音声データの相関に基づいて前記撮影範囲内における音圧の分布を算出し、算出した分布において音圧のピークが表れる方向を前記音源の方向として推定する
    ことを特徴とする請求項1に記載の撮影装置。
  3. 前記推定手段は、独立成分分析を用いて音源の方向を推定することを特徴とする請求項1に記載の撮影装置。
  4. 前記方向別音声データ生成手段は、前記推定手段によって推定された方向からの音圧が高くなるようにミキシングして方向別音声データを生成することを特徴とする請求項1に記載の撮影装置。
  5. 前記方向別音声データ生成手段は、独立成分分析を用いて前記音声データから音源に対応する音声データを推定することで方向別音声データを生成することを特徴とする請求項1に記載の撮影装置。
  6. 前記記憶手段に記憶された映像データの表す映像を表示装置に表示させる表示制御手段と、
    操作手段から供給される信号に応じて、前記表示制御手段により表示された映像内における位置を指定する位置指定手段と、
    前記位置指定手段により指定された位置に対応する方向別音声データを前記記憶手段から読み出し、読み出した方向別音声データを放音手段に出力する出力手段と
    を具備することを特徴とする請求項1乃至5のいずれか1項に記載の撮影装置。
  7. 前記記憶手段に記憶された方向別音声データを音声解析して文字データを生成する文字データ生成手段と、
    前記文字データ生成手段により生成された文字データを前記方向別音声データに対応付けて前記記憶手段に記憶する文字データ記憶制御手段と
    を具備することを特徴とする請求項1乃至6のいずれか1項に記載の撮影装置。
  8. 前記記憶手段に記憶された方向別音声データを音声解析して文字データを生成する文字データ生成手段と、
    前記文字データ生成手段により生成された文字データを前記方向別音声データに対応付けて前記記憶手段に記憶する文字データ記憶制御手段と
    を具備し、
    前記表示制御手段は、前記記憶手段に記憶された映像データの表す映像を前記表示装置に表示させるとともに、前記記憶手段に記憶された文字データを、該映像内の位置であって該文字データに対応する方向別音声データに応じた位置に表示させる
    ことを特徴とする請求項6に記載の撮影装置。
  9. 前記記憶手段に記憶された方向別音声データを音声解析して、解析結果に応じて該方向別音声データを表す画像データを生成する画像データ生成手段と、
    前記画像データ生成手段により生成された画像データを前記方向別音声データに対応付けて前記記憶手段に記憶する画像データ記憶制御手段と
    を具備することを特徴とする請求項1乃至6のいずれか1項に記載の撮影装置。
JP2008079132A 2008-03-25 2008-03-25 撮影装置 Pending JP2009239348A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008079132A JP2009239348A (ja) 2008-03-25 2008-03-25 撮影装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008079132A JP2009239348A (ja) 2008-03-25 2008-03-25 撮影装置

Publications (1)

Publication Number Publication Date
JP2009239348A true JP2009239348A (ja) 2009-10-15

Family

ID=41252838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008079132A Pending JP2009239348A (ja) 2008-03-25 2008-03-25 撮影装置

Country Status (1)

Country Link
JP (1) JP2009239348A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
KR20150137724A (ko) * 2014-05-30 2015-12-09 엘지전자 주식회사 이동 단말기 및 그 제어방법
WO2016185668A1 (ja) * 2015-05-18 2016-11-24 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
JP2017126888A (ja) * 2016-01-14 2017-07-20 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
US8990078B2 (en) 2011-12-12 2015-03-24 Honda Motor Co., Ltd. Information presentation device associated with sound source separation
KR20150137724A (ko) * 2014-05-30 2015-12-09 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR101633339B1 (ko) * 2014-05-30 2016-06-27 엘지전자 주식회사 이동 단말기 및 그 제어방법
WO2016185668A1 (ja) * 2015-05-18 2016-11-24 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
US20180158446A1 (en) * 2015-05-18 2018-06-07 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and sound output control method
US10497356B2 (en) 2015-05-18 2019-12-03 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and sound output control method
JP2017126888A (ja) * 2016-01-14 2017-07-20 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Similar Documents

Publication Publication Date Title
KR102650850B1 (ko) 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
US8384794B2 (en) Image sensing device and camera
JP5040734B2 (ja) 画像処理装置、画像記録方法およびプログラム
JP2013106298A (ja) 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
RU2500081C2 (ru) Устройство обработки информации, способ обработки информации и носитель записи, на котором сохранена компьютерная программа
EP1347455A2 (en) Contents recording/playback apparatus and contents edit method
JP2009239348A (ja) 撮影装置
JP2009141555A (ja) 音声入力機能付き撮像装置及びその音声記録方法
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP2009171176A (ja) 再生装置およびその制御方法並びにプログラム
JP2009239346A (ja) 撮影装置
JP2010148132A (ja) 撮像装置、画像検出装置及びプログラム
JP2009177480A (ja) 撮影装置
JP2012151544A (ja) 撮像装置及びプログラム
JP2009239349A (ja) 撮影装置
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
JP2010200079A (ja) 撮影制御装置
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2020057901A (ja) 情報処理装置、及びその制御方法、プログラム
KR20150109254A (ko) 셀프 타이머 촬영을 행하는 촬상 장치, 촬상 방법 및 기록 매체
JP5550114B2 (ja) 撮像装置
JP2011119936A (ja) 撮影装置及び再生方法
JP6635093B2 (ja) 画像記録装置、画像記録方法及びプログラム
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP2005175839A (ja) 画像表示装置、画像表示方法、プログラムおよび記憶媒体