JP7428763B2

JP7428763B2 - 情報取得システム

Info

Publication number: JP7428763B2
Application number: JP2022140107A
Authority: JP
Inventors: 貴大中代; 修野中
Original assignee: Ｏｍデジタルソリューションズ株式会社
Priority date: 2018-10-29
Filing date: 2022-09-02
Publication date: 2024-02-06
Anticipated expiration: 2038-10-29
Also published as: JP2022184863A; JP7219049B2; JP2020072311A

Description

本発明は、撮像装置及び収音装置から映像及び音声を取得する情報取得システムに関する。

近年、デジタルカメラなどの撮影機能付き携帯機器（撮影機器）は、静止画のみならず、動画撮影機能を有するものが多い。撮影機器は、周囲の音声を収音する内蔵マイクロホンを備えており、動画撮影に際して、映像及び音声を含むＡＶデータを記録可能なものもある。

更に、撮影機器においては、外部マイクロホンを取り付け可能な端子を有するものもあり、動画撮影によって得た映像と外部マイクロホンによって取得された音声とを記録可能な装置も商品化されている。例えば、撮影機器から離間した位置に外部マイクロホンを配置可能な場合には、外部マイクロホンをその収音対象である被写体の近傍に配置しておくことで、Ｓ／Ｎの良好な音声を外部マイクロホンから取得することも可能である。

特開２００５－１５１４７１号公報

しかしながら、例えば、野鳥の撮影をする場合等においては、撮影機器を携帯するユーザは被写体から比較的離れた位置であって被写体を良好に撮影できる位置に移動することができる一方、被写体近傍に配置した外部マイクロホンの移動は制限されることがあり、撮影機器によって取得した映像にふさわしい音声を外部マイクロホンによって取得することができるとは限らない。

なお、特許文献１においては、複数のマイクやカメラを用いたＴＶ会議システムにおいて、発言者の選択を正確に行うものが知られている。しかしながら、このシステムは、声紋登録された会議参加者を認証する声紋認証部や話者を最適に撮影するようにテレビカメラ装置を制御する撮像調整部等を有しており、装置規模が大きい。

本発明は、内蔵収音部が取得した音声の特徴に基づいて、外部収音装置からの音声の選択又は調整を行うことで、撮影機器によって撮影された画像とその画像に対応した好ましい音声とを取得することができる情報取得システムを提供することを目的とする。

本発明の一態様による情報取得システムは、被写体の映像を取得する撮像装置と、周囲音声を取得する外部収音装置と、前記外部収音装置が取得した音声を前記撮像装置が撮像した映像に同期させて再生する再生装置とが別体に構成された情報取得システムであって、前記撮像装置は、映像取得時の周囲音声を第１音声として収音する内蔵収音部と、前記映像及び前記第１音声をファイル化して映像ファイル及び第１音声ファイルを得る制御部と、前記第１音声から音像定位に関する特徴を抽出する特徴抽出部とを具備し、前記外部収音装置は、周囲音声を第２音声として収音する感度分布が異なる複数の収音部と、前記第２音声をファイル化して第２音声ファイルを得る制御部と、前記第２音声を前記撮像装置が抽出した前記音像定位に関する特徴に合致する音像定位の特徴を有する音声に調整する音声取得部とを具備し、前記再生装置は、前記撮像装置及び前記外部収音装置から前記映像ファイル、前記第１音声ファイル、及び、前記第２音声ファイルを取得し、前記第１音声に前記第２音声を同期させることによって、前記撮像装置が撮像して得た被写体の映像に前記第２音声を同期させる同期再生部を具備する。

本発明によれば、内蔵収音部が取得した音声の特徴に基づいて、外部収音装置からの音声の選択又は調整を行うことで、撮影機器によって撮影された画像とその画像に対応した音声とを取得することができるという効果を有する。

本発明の第１の実施の形態に係る情報取得装置を示すブロック図。カメラ１０及び外部収音装置２０の外観の一例を示す説明図。撮影の様子を説明するための説明図。撮影の様子を説明するための説明図。撮影時におけるカメラ１０と外部収音装置２０との被写体との位置関係を示す説明図。カメラ１０の動作を説明するためのフローチャート。外部収音装置２０の動作を説明するためのフローチャート。本発明の第２の実施の形態に係る情報取得装置を示すブロック図。カメラ５０の動作を説明するためのフローチャート。本発明の第３の実施の形態に係る情報取得装置を示すブロック図。カメラ６０及びレコーダ７０の外観を説明するための説明図。ＳＴ収音部１３から被写体までの角度とＳＴ収音部７２から被写体までの角度との相違を説明するための説明図。カメラ６０の動作を説明するためのフローチャート。レコーダ７０の動作を説明するためのフローチャート。再生装置８０の動作を説明するためのフローチャート。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る情報取得装置を示すブロック図である。また、図２はカメラ１０及び外部収音装置２０の外観の一例を示す説明図である。本実施の形態は移動自在で内蔵収音装置を備えて被写体の動画撮影が可能な撮像装置を採用すると共に、複数の方向に対してそれぞれ所定の指向特性にて収音可能な外部収音装置を採用し、内蔵収音装置及び外部収音装置によって収音した音声の特徴の比較に基づいて外部収音装置からの音声の選択又は調整を行うことにより、撮像装置において取得する映像とその映像にふさわしい音声とを取得することを可能にするものである。なお、本実施の形態において、映像にふさわしい音声とは、主被写体が発生する音声が例えばなるべく高いＳ／Ｎで含まれる音声のことである。

本実施の形態における情報取得装置は、撮像装置内に構成してもよく、外部収音装置内に構成してもよく、撮像装置及び外部収音装置内に分散して構成してもよく、更に、これらの装置とは独立した装置として構成してもよい。なお、図１では、情報取得装置を撮像装置及び外部収音装置内に分散して構成する例を示している。

先ず、図２を参照して撮像装置であるカメラ１０及び外部収音装置２０の外観について説明する。

図２に示すカメラ１０は図１の各回路が収納された筐体１０ａと後述する光学系１２ａが収納される鏡筒１２ｂとを有する。筐体１０ａの上面には、後述する操作部１５を構成するシャッタボタン１５ａが設けられている。

また、図２に示す外部収音装置２０は、図１の各回路が収納された筐体２０ａを有している。筐体２０ａは、円筒形状に構成されて、周面から後述するマルチ収音部２２を構成する複数のマイクロホン２２ａの収音部が周囲に向けて突出して設けられている。例えば、１２個のマイクロホン２２ａが、筐体２０ａ側面の法線方向に３０度毎に配置される。ここでのマルチ収音部は、収音時の収音できる音の分布の方向が異なる複数のマイクを表示しているが、そのマイクの数は複数あればよく、また、一体ではなく、複数の装置を組み合わせて構成してもよい。

図１において、撮像装置を構成するカメラ１０には制御部１１が設けられている。制御部１１は、ＣＰＵやＦＰＧＡ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。

カメラ１０は、撮像部１２及びＳＴ収音部１３を備えている。撮像部１２は、光学系１２ａ及び図示しない撮像素子を有している。光学系１２ａは、ズームやフォーカシングのための図示しないレンズや絞り等を備えている。光学系１２ａは、これらのレンズを駆動する図示しないズーム（変倍）機構、ピント及び絞り機構を備えている。撮像素子は、ＣＣＤやＣＭＯＳセンサ等によって構成されており、光学系１２ａによって被写体光学像が撮像素子の撮像面に導かれるようになっている。撮像素子は、被写体光学像を光電変換して被写体の撮像画像（撮像信号）を取得する。

制御部１１に構成された撮影制御部１１ａは、光学系１２ａのズーム機構、ピント機構及び絞り機構を駆動制御して、ズーム、絞り及びピントを調節することができるようになっている。ピント、画角情報部１１ｃは、光学系１２ａからズーム、絞り及びピントに関する情報を取得して撮影制御部１１ａに出力するようになっている。このフィードバックによって、撮影制御部１１ａはズーム、絞り及びピントを所望の設定値に設定することができるようになっている。撮像部１２は、撮影制御部１１ａに制御されて撮像を行い、撮像画像（動画像及び静止画像）の撮像信号を制御部１１に出力する。

制御部１１には収音制御及び処理部１１ｅが構成されており、収音制御及び処理部１１ｅは、ＳＴ収音部１３を制御する。内蔵収音装置としてのＳＴ収音部１３は、ステレオマイクロホン等により構成されており、収音制御及び処理部１１ｅに制御されて、カメラ１０の周囲の音声を収音して音声信号を取得し、取得した音声（以下、内部音声又は第１音声ともいう）を制御部１１に出力することができるようになっている。なお、ＳＴ収音部１３は、カメラ１０の撮影方向、即ち、光学系１２ａの光軸方向に感度のピークを有するものとする。

カメラ１０には操作部１５が設けられている。操作部１５は、レリーズボタン、ファンクションボタン、撮影モード設定、パラメータ操作等の各種スイッチ、ダイヤル、リング部材等（図示省略）を含み、ユーザ操作に基づく操作信号を制御部１１に出力する。制御部１１は、操作部１５からの操作信号に基づいて、各部を制御するようになっている。

制御部１１は、撮像部１２からの撮像画像（動画像及び静止画像）を取込む。制御部１１の画像処理部１１ｂは、取込んだ撮像画像に対して、所定の信号処理、例えば、色調整処理、マトリックス変換処理、ノイズ除去処理、その他各種の信号処理を行う。

カメラ１０には表示部１６が設けられており、表示部１６は、例えば、ＬＣＤ（液晶表示装置）等の表示画面を有している。この表示画面は例えばカメラ１０の筐体背面等に設けられる。制御部１１は、画像処理部１１ｂによって信号処理された撮像画像を表示部１６に表示させるようになっている。また、制御部１１は、カメラ１０の各種メニュー表示や警告表示等を表示部１６に表示させることもできるようになっている。

カメラ１０には通信部１８ａ，１８ｂが設けられている。通信部１８ａ，１８ｂは、制御部１１に制御されて、外部収音装置２０との間で情報を送受することができるようになっている。通信部１８ａは、例えば、ブルートゥース（登録商標）等の近距離無線による通信が可能であり、通信部１８ｂは、例えば、Ｗｉ－Ｆｉ（登録商標）等の無線ＬＡＮによる通信が可能である。なお、通信部１８ａ，１８ｂは、ブルートゥース（登録商標）やＷｉ－Ｆｉ（登録商標）に限らず、各種通信方式での通信を採用することが可能である。制御部１１は、通信部１８ａ又は１８ｂを介して、外部収音装置２０から音声信号を受信することができる。

カメラ１０には、記録部１７が設けられている。記録部１７は、所定の記録媒体によって構成されて、制御部１１から与えられた情報を記録すると共に、記録されている情報を制御部１１に出力することができる。記録部１７としては、例えばカードインターフェースを採用することができ、記録部１７はメモリカード等の記録媒体に画像データを記録可能である。

本実施の形態においては、記録部１７は、収音画像音声記録部１７ａ、連携情報部１７ｂ及び外部音声記録部１７ｃを有している。制御部１１は、信号処理後の撮像画像を圧縮処理し、圧縮後の画像を記録部１７に与えて記録させることができる。この画像は収音画像音声記録部１７ａに記録される。カメラ１０には時計部１９が設けられており、制御部１１は、時計部１９からの時間情報を用いて、撮像部１２によって取得した動画像とＳＴ収音部１３によって取得した音声とを関連付けて収音画像音声記録部１７ａに記録することができる。

連携情報部１７ｂには、外部収音装置２０との間の通信に関する情報が記録されており、制御部１１は、連携情報部１７ｂから読み出した情報に基づいて通信部１８ａ，１８ｂを制御することで、外部収音装置２０との間で通信により情報の授受が可能である。制御部１１は、外部収音装置２０との通信の結果、外部収音装置２０から音声信号を受信することができる。制御部１１は、受信した音声を外部音声（第３音声ともいう）として外部音声記録部１７ｃに与えて記録することができるようになっている。

本実施の形態においては、制御部１１には音声取得部１１ｆが構成されている。音声取得部１１ｆは、外部音声として取得すべき音声を指定するするために、特徴抽出部１１ｇを有している。特徴抽出部１１ｇはＳＴ収音部１３によって取得された内部音声の音声特徴を抽出する。音声取得部１１ｆは、外部音声として取得すべき音声を指定するための情報として、特徴抽出部１１ｇが取得した音声特徴を、通信部１８ａ又は１８ｂを介して外部収音装置２０に送信するようになっている。なお、音声特徴としては、例えば、周波数範囲や周波数の変化の状態、強弱（音声振幅）の変化の状態等を分析等して判定すればよく、特徴抽出部１１ｇは、これらの状態を公知の各種判定方法を採用して抽出してもよい。

また、これらを総合的に判定するために、機械学習で得られた推論エンジンを使って入力された音声から特定の音成分を抽出する方法も考えられる。これには、特定の時間幅の音の情報と、そこから抽出した音声を正解データとして特定の量の教師データを作成し、これらが弁別できるような機械学習を行えばよい。さらに、同期して取得した画像の変化と合わせて解析するような方法もある。

外部収音装置２０には、制御部２１が設けられている。制御部２１は、ＣＰＵ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。外部収音装置２０は、通信部２６ａ，２６ｂを有している。通信部２６ａ，２６ｂは、制御部２１に制御されて、カメラ１０との間で情報を送受することができるようになっている。通信部２６ａは、例えば、ブルートゥース（登録商標）等の近距離無線による通信が可能であり、通信部２６ｂは、例えば、Ｗｉ－Ｆｉ（登録商標）等の無線ＬＡＮによる通信が可能である。なお、通信部２６ａ，２６ｂは、ブルートゥース（登録商標）やＷｉ－Ｆｉ（登録商標）に限らず、各種通信方式での通信を採用することが可能である。制御部２１は、通信部２６ａ又は２６ｂを介して、カメラ１０から音声特徴の情報を受信すると共に、カメラ１０に対して音声信号を送信することができる。

外部収音装置２０にはマルチ収音部２２が設けられており、マルチ収音部２２は、例えば図示しない複数のマイクロホンにより構成されており、各マイクロホンは相互に異なる方向に所定の指向特性（感度分布）を有するように配置されている。即ち、マルチ収音部２２は、相互に異なる方向に感度のピークを有する複数のマイクロホンによって収音した複数の音声（以下、外部収音音声又は第２音声ともいう）を取得するようになっている。制御部２１には、収音制御部２１ａが構成されており、収音制御部２１ａは、マルチ収音部２２の収音を制御することができるようになっている。

外部収音装置２０には操作部２３が設けられている。操作部２３は、録音モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部２１に出力する。制御部２１は、操作部２３からの操作信号に基づいて、各部を制御するようになっている。また、制御部２１は、通信部２６ａ，２６ｂを介してカメラ１０の制御部１１から制御情報が与えられた場合には、この制御情報に基づいて各部を制御するようになっていてもよい。この場合には、カメラ１０の制御部１１によって、外部収音装置２０における録音制御が可能である。

外部収音装置２０には、記録部２５が設けられている。記録部２５は、所定の記録媒体によって構成されて、制御部２１から与えられた情報を記録すると共に、記録されている情報を制御部２１に出力することができる。記録部２５としては、例えばカードインターフェースを採用することができ、記録部２５はメモリカード等の記録媒体に画像データを記録可能である。

記録部２５は、音声記録部２５ａ及び連携情報部２５ｂを有している。制御部２１は、信号処理後の外部収音音声を音声記録部２５ａに与えて記録させることができる。外部収音装置２０には時計部２４が設けられており、制御部２１は、時計部２４からの時間情報を用いて、マルチ収音部２２によって取得した外部収音音声に時間情報を付加して音声記録部２５ａに記録することができる。

本実施の形態においては、カメラ１０に対して送信すべき第３音声を判定するために、音声取得部２１ｂが設けられている。音声取得部２１ｂは、特徴抽出部２１ｃを有している。特徴抽出部２１ｃは、特徴抽出部１１ｇと同様の構成であり、マルチ収音部２２によって取得された複数の外部収音音声（第２音声）の音声特徴をそれぞれ抽出する。音声取得部２１ｂは、カメラ１０から通信部２６ａ又は２６ｂを介して、外部音声（第３音声）として送信すべき音声を指定するための情報、即ち、カメラ１０において取得された内部音声（第１音声）の音声特徴の情報が与えられる。音声取得部２１ｂは、カメラ１０から受信した音声特徴と特徴抽出部２１ｃによって抽出した各外部収音音声の音声特徴とをそれぞれ比較することで、外部音声として出力すべき外部収音音声を選択する。

例えば、音声取得部２１ｂは、内部音声の音声特徴との類似度が最も高い音声特徴を有する外部収音音声を選択し、選択した外部収音音声を時間情報と共に外部音声（第３音声）として通信部２６ａ又は２６ｂを介してカメラ１０に送信するようになっている。また、音声取得部２１ｂは、類似度が所定の閾値よりも高い音声特徴を有する外部収音音声が複数存在する場合には、これらの外部収音音声のうち最もＳ／Ｎが高い外部収音音声を外部音声として選択するようになっていてもよい。

なお、音声取得部２１ｂはマルチ収音部２２から収音した複数の音声信号を個別にゲイン調整したり、所定の割合で合成したりする音声処理を行うことができるようになっていてもよく、音声取得部２１ｂは、１つ以上の外部収音音声を選択し、選択した外部収音音声に対する調整を行って、外部音声（第３音声）を取得するようになっていてもよい。なお、外部音声としてステレオ音声を取得するようになっていてもよい。

カメラ１０の制御部１１には同期処理部１１ｈが構成されている。同期処理部１１ｈは、音声取得部１１ｆが取得した外部音声と撮像部１２が取得した被写体の映像とを同期させて外部音声記録部１７ｃに記録するようになっている。例えば、同期処理部１１ｈは、撮像部１２によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとるようになっていてもよい。

このように基準となる信号（カメラ内蔵の内部音声記録部による）があることによって、外部からの情報の同期など関連付けはシステム構成として単純化が可能となる。これは、撮像と音声取得が同じ装置内の時計信号で管理されて記録されているからで、カメラ内ですでに同期が取れているものを正しい状況として参照したり、この基準をもとに対象物が離れている分の音速分の遅れを解消したりといった操作が簡単にできるということである。

次に、このように構成された実施の形態の動作について図３から図７を参照して説明する。図３及び図４は撮影の様子を説明するための説明図であり、図５は撮影時におけるカメラ１０と外部収音装置２０との被写体との位置関係を示す説明図である。また、図６はカメラ１０の動作を説明するためのフローチャートであり、図７は外部収音装置２０の動作を説明するためのフローチャートである。

図３及び図４の例ではカメラ１０は、筐体１０ａの背面に表示部１６の表示画面１６ａが設けられている。ユーザは、例えば、筐体１０ａを手で把持して、表示画面１６ａを見ながら被写体である鳥４１を視野範囲に捉えた状態で、シャッタボタン１５ａを押下操作することで撮影を行う。なお、図３及び図４ではカメラ１０の撮影範囲を枠で囲って示している。

図３の例では、鳥４１は樹木３１ａの枝に留まっており、図４の例では、鳥４１は樹木３１ａの隣の樹木３１ｂの枝に留まっている。樹木３１ａ，３１ｂとカメラ１０との間の地面には草３２が生えている。樹木３１ａ，３１ｂに比較的近い位置に外部収音装置２０が配設されている。例えば、野鳥を撮影する場合には、野鳥が留まりやすいであろう樹木の近くに、事前に外部収音装置２０を設置しておくことが考えられる。一方、カメラ１０を携帯するユーザは、野鳥が逃げ出さないように、また、障害物を避けるために、比較的野鳥から離れた位置で撮影を行う。

従って、鳥４１の鳴き声を収音するものとすると、カメラ１０に内蔵されているＳＴ収音部１３による収音音声（第１音声）よりも、マルチ収音部２２の各マイクロホン２２ａによる外部収音音声（第２音声）の方が良好なＳ／Ｎが得られるものと考えられる。なお、映像については、望遠レンズ等を採用することで被写体から比較的離れた位置からも十分に高画質の画像を取得することができるが、音声については、被写体からの距離が大きくなるとノイズが増加し、対象物の音声の収音品質が劣化してしまう。このため、対象物により近い位置のマイクロホンにより収音を行った方が、ノイズの少ない音声を取得することが可能である。

カメラ１０の制御部１１は、電源が投入されると、図６のステップＳ１において、撮像モードが指示されたか否かを判定する。撮影モードが指示されていない場合には、制御部１１は、指定されたモード、例えば、外部収音装置２０との連携のための設定や送受信を行う連携モードや記録画像の再生を行う再生モードに移行する。

撮像モードが指示されると、制御部１１は、次のステップＳ２において、外部収音装置との連携が指定されているか否かを判定する。制御部１１は、連携が指定されていない場合には、処理をステップＳ６に移行して、記録開始操作が行われたか否か又は記録中であるか否かを判定する。連携が指定されている場合には、制御部１１は、ステップＳ３において、ユーザ操作による実際の撮像及び録音に先立って、外部音声を指定するための撮像、録音を行う。

制御部１１の特徴抽出部１１ｇは、次のステップＳ４において、ＳＴ収音部１３からの内部音声（第１音声）の音声特徴を抽出し、抽出した音声特徴を通信部１８ａ，１８ｂを介して外部収音装置２０に送信して（ステップＳ５）、処理をステップＳ６に進める。なお、ＳＴ収音部１３は撮影方向にピーク感度を有しており、ＳＴ収音部１３により取得された内部音声は、被写体である鳥４１の鳴き声の音声特徴を有するものと考えられる。

一方、外部収音装置２０の制御部２１は、電源が投入されると、図７のステップＳ２１において、カメラ１０との連携が設定されている否かを判定する。連携が設定されていない場合には、制御部２１は、処理をステップＳ２５に移行して収音が指示されているか否かを判定する。なお、制御部２１は、カメラ１０から記録開始を示す情報が送信されることで、収音を指示されたものと判定するようになっていてもよい。収音が指示されていない場合には、制御部２１は処理をステップＳ３１に移行して、その他の処理、例えば、連携のための設定や送受信を行う連携モード、記録されている音声を再生する再生モード等を実行する。なお、連携モードにおいて、カメラ１０の特徴抽出部１１ｇが取得した音声特徴が通信部２６ａ，２６ｂによって受信されて、記録部２５に記録されるようになっている。

連携が設定されている場合には、制御部２１は、カメラ１０に送信する外部音声（第３音声）を決定するために、処理をステップＳ２１からステップＳ２２に移行して、マルチ収音部２２の全てのマイクロホンでの収音を行う。制御部２１は、ステップＳ２３において、マルチ収音部２２の全てのマイクロホンからの外部収音音声（第２音声）を取得すると、特徴抽出部２１ｃによって音声特徴を抽出する。音声取得部２１ｂは、各外部収音音声（第２音声）の音声特徴と、記録部２５から読み出した内部音声（第１音声）の音声特徴との比較を行う。

音声取得部２１ｂは、音声特徴の比較により、外部収音音声を取得するマルチ収音部２２の全てのマイクロホンのうち外部音声として出力する音声を収音するマイクロホンを決定する（ステップＳ２４）。例えば、音声取得部２１ｂは、第１音声と各第２音声との音声特徴の類似度を算出し、類似度が所定の閾値よりも大きい音声特徴を有する第２音声であって、Ｓ／Ｎが最も大きい第２音声を収音したマイクロホンを選択し、選択したマイクロホンを外部音声の収音用のマイクロホンに決定する。

このＳ／Ｎ比判定は、どれが信号（Ｓ）で、どれがノイズ（Ｎ）であるかの判定が必要な場合があるが、これは、前述のような特徴判定の技術を使ってもよく、撮影対象物の画像の情報とその対象物が発する音声の関係から推測できるようにしてもよい。例えば、鳥のさえずりや人の声などは口やのどの動きと相関があるので、画像から色や陰影や形状によって特徴部を検出してその変化のパターンと音声の変化のパターンが一致するものを信号（Ｓ）として選んでもよい。この場合、その他の成分をノイズ（Ｎ）とする。また、画像から撮影者が興味を持って狙っている対象物が何であるかがわかるので（音は広がりやすいので狙いにくいが画像は光で直進してくるので狙いが明瞭）、対象物の画像特徴（形状や色の分布や動きの特徴）を、画像辞書などを使って判定し、人なら人の声の特徴に合致した音声成分を抽出し信号（S）とし、それ以外のものはノイズ（N）とするような技術的解決方法もある。鳥を検出すれば鳥の声、猫を検出したら猫の声、楽器を検出したらその楽器特有の音声が、その時得られた音声のうち、どの成分であるかは、画像と関連する音声の特徴を一覧にした辞書やデータベース、あるいは機械学習によって得られた推論モデルを用意する事によって簡単に判別が可能である。これらは記録部や演算部で構成できる。また、単に風の音や空調や雑踏のように特定の周波数や特定の変化パターンを選んでノイズ（Ｎ）と判定し、それ以外の特徴を持つ音成分を信号（Ｓ）として選んでもよい。また、水の流れと鳥の声とどちらも重要な場合もあるが、このような場合は、このどちらもきれいに採る工夫をしてもよい。複数の音声が重要である場合の判定は、機械学習によって得られた推論モデルを利用してもよい。この場合、機械学習時の教師データに複数の音成分が選ばれるようなアノテーションを行えばよい。また、マルチ収音部のマイク決定は一つのマイクのみを選ぶのではなく、複数のマイクを選んでもよい。また、複数のマイクの収音結果を使って、一つのマイクの音声を加工してもよい。ステレオ効果を重視する場合は、左右の音声ごとに同様のマイク選択をしてもよく、複数のマイクで得られた音声を自然なステレオ感になるように、内蔵マイクや画面内の対象物位置などの情報によって音声処理してもよい。

図５は図３及び図４の例におけるカメラ１０とマルチ収音部２２と被写体（鳥４１）との位置関係を示している。図５ではカメラ１０からマルチ収音部２２までの距離は約Ｄｍであり、カメラ１０から被写体である鳥４１までの距離は約Ｄ０ｍである。図５は、外部収音装置２０のマイクロホン２２ａとして相互に３０度間隔で順次配置された１２個のマイクロホンＭ１～Ｍ１２により構成された例を示しており、破線にてマイクロホンＭ２，Ｍ７，Ｍ１１の感度ピーク方向を示し、実線によってマイクロホンＭ１の感度ピーク方向ＤＭ１及びマイクロホンＭ１２の感度ピーク方向ＤＭ２を示している。

マイクロホンＭ１の感度ピーク方向ＤＭ１は、図３における鳥４１に向かう方向に一致しており、マイクロホンＭ１２の感度ピーク方向ＤＭ２は、図４における鳥４１に向かう方向に一致している。従って、図３の例では、マイクロホンＭ１による外部収音音声の音声特徴が内部音声の音声特徴に最も類似すると考えられ、また、図４の例では、マイクロホンＭ１２による外部収音音声の音声特徴が内部音声の音声特徴に最も類似すると考えられる。

しかし、鳥４１以外に音を発生する音源が存在しない場合等においては、複数のマイクロホンの外部収音音声の音声特徴と内部音声の音声特徴との類似度が所定の閾値よりも大きい略同様の値になることが考えられる。この場合でも、各マイクロホンの感度分布方向が異なることからピーク感度方向は異なり、マイクロホンＭ１～Ｍ１２によって鳥４１の鳴き声を収音する場合において、最も高いＳ／Ｎが得られるマイクロホンは、図３の場合にはマイクロホンＭ１であるものと考えられ、図４の場合にはマイクロホンＭ１２であるものと考えられる。これにより、図３の例ではマイクロホンＭ１が外部音声収音用のマイクロホンとして決定され、図４の例ではマイクロホンＭ１２が外部音声収音用のマイクロホンとして決定される。

マルチ収音部２２は、収音が指示されている場合には、ステップＳ２５からステップＳ２６に処理を移行して、収音を行う。制御部２１は、カメラ１０との連携が指定されているか否かを判定し、連携が指定されている場合には、ステップＳ２４において選択されたマイクロホンからの音声を第３音声としてカメラ１０に送信する（ステップＳ２８）。制御部２１は、ステップＳ２９において収音の終了を判定しており、終了操作が行われるまでステップＳ２６からＳ２９の処理を繰り返す。収音終了が判定されると、記録されている音声をファイル化して処理をステップＳ２１に戻す。

一方、ユーザがカメラ１０の操作部１５を操作して、被写体の撮像を開始するものとする。制御部１１は、ステップＳ６において記録開始が指示されたことを判定すると、撮像部１２を制御して被写体を撮像させると共に、ＳＴ収音部１３を制御して周囲音声を収音する（ステップＳ７）。制御部１１は、記録部１７の収音画像音声記録部１７ａへの撮像画像及び収音音声の記録を開始する。

制御部１１は、ステップＳ８において、外部収音装置２０との連携が行われているか否かを判定する。連携が行われていない場合には、制御部１１は、ステップＳ１２において撮影終了操作が行われたか否かを判定する。一方、連携が行われている場合には、制御部１１は、ステップＳ９において、外部収音装置２０から送信されている外部音声を受信し、ステップＳ１０において、内部音声を取得する。制御部１１の同期処理部１１ｈは、受信した外部音声を内部音声と比較することによって、外部音声を撮像部１２から得られた映像に同期させて、外部音声記録部１７ｃに記録して（ステップＳ１１）、ステップＳ１２に処理を移行する。

制御部１１は、ステップＳ１２において撮影終了操作が行われたか否かを判定し、撮影終了操作が行われるまでステップＳ１，Ｓ２，Ｓ６～Ｓ１１を繰り返す。撮影終了操作が行われると、制御部１１は、記録されている画像及び音声をファイル化して（ステップＳ１３）、処理をステップＳ１に戻す。

なお、図６及び図７では、カメラ１０における撮像及び内部音声の収音と同時に、外部収音装置２０から外部音声を受信して、映像と外部音声とを同期させながら記録を行う例を説明したが、外部収音装置２０において外部音声を記録しファイル化された外部音声を撮像後にカメラ１０に送信することで、映像と外部音声とを同期させた状態で記録するようになっていてもよい。

このように本実施の形態においては、複数の方向に対してそれぞれ所定の指向特性にて収音可能な外部収音装置を採用し、内蔵収音装置及び外部収音装置によって収音した音声の特徴の比較に基づいて外部収音装置からの音声の選択又は調整を行うことにより、撮像装置において取得する映像とその映像にふさわしい音声とを取得しており、撮像装置において取得した映像にふさわしい音声を映像と同期させて記録することが可能である。これにより、撮像後の編集作業によって映像とその映像に適した音声とを合成するという極めて煩雑な作業を行うことなく、自動的に最適な音声が合成された映像を得ることができる。

なお、上述したように、情報取得装置は、カメラ１０と外部収音装置２０のいずれに構成してもよく、例えば、カメラ１０のみに構成してもよい。この場合には、外部収音装置２０としては、ピーク感度方向が異なる複数のマイクロホンと各マイクロホンが収音した音声をカメラ１０に転送する通信部のみを備えた一般的なマイクロホン装置を採用することができる。

（第２の実施の形態）
図８は本発明の第２の実施の形態に係る情報取得装置を示すブロック図である。図８において図１と同一の構成要素には同一符号を付して説明を省略する。第１の実施の形態においては、内蔵収音装置であるＳＴ収音部１３が取得した音声から被写体が発する音声の音声特徴を抽出できることを前提にして、外部収音装置を被写体近傍に配置することで被写体が発するＳ／Ｎの良い外部音声を取得することを可能にした。しかし、ＳＴ収音部１３と被写体とは比較的距離が離れていることから、ＳＴ収音部１３の収音音声によって被写体が発する音声特徴を確実に抽出できないことが考えられる。そこで、本実施の形態においては、画像特徴及び音声特徴を記録したデータベースを利用することで、被写体が発生する音声特徴を確実に抽出することを可能にするものである。本実施の形態においては、カメラ５０は、画像特徴抽出部１４及び画像音声（データベース）ＤＢ部１７ｄを付加した点が図１のカメラ１０と異なる。

図８において、画像特徴抽出部１４は、プロセッサ等により構成されて、撮像部１２が撮像して取得した画像の画像特徴を抽出して制御部１１に出力するようになっている。記録部１７には画像音声データベース（ＤＢ）部１７ｄが設けられている。画像音声ＤＢ部１７ｄには、各種対象物の画像特徴及び各種対象物の音声特徴、即ち環境音の音声特徴の情報が記憶されている。

音声取得部１１ｆは、画像特徴抽出部１４によって抽出された画像特徴と画像音声ＤＢ部１７ｄに記憶されている画像特徴との比較によって、撮像部１２によって撮像されている主被写体の種類を判定する。音声取得部１１ｆは、判定した主被写体が発生する音声特徴を画像音声ＤＢ部１７ｄから読み出し、特徴抽出部１１ｇが取得した内部音声の音声特徴との比較によって、外部収音装置２０に指示すべき音声特徴の情報を生成するようになっている。

例えば、主被写体が鳥である場合には、音声取得部１１ｆは、画像音声ＤＢ部１７ｄの画像特徴から鳥の種類を判定し、判定した種類の鳥の鳴き声の音声特徴を画像音声ＤＢ部１７ｄから読み出す。音声取得部１１ｆは、読み出した音声特徴を利用して、収音された内部音声から雑音成分を除去して、外部収音装置２０に指定する音声特徴の情報を生成する。

また、例えば、主被写体が楽器である場合には、音声取得部１１ｆは、画像音声ＤＢ部１７ｄの画像特徴から楽器の種類を判定し、判定した種類の楽器の音の音声特徴を画像音声ＤＢ部１７ｄから読み出す。音声取得部１１ｆは、読み出した音声特徴を利用して、収音された内部音声から雑音成分を除去して、外部収音装置２０に指定する音声特徴の情報を生成する。同様にして、音声取得部１１ｆは、例えば大勢の人の中から、希望する人の声の音声特徴を抽出することも可能である。

なお、図８では画像特徴抽出部１４によって抽出した画像特徴に基づいて対象物を判定する例を説明したが、ユーザの入力操作によって、抽出すべき音の種類を指定するようになっていてもよい。

次に、このように構成された実施の形態の動作について、図９のフローチャートを参照して説明する。図９はカメラ５０の動作を説明するためのフローチャートである。図９において図６と同一の手順には同一符号を付して説明を省略する。図９のフローは、ステップＳ４に代えてステップＳ４１を採用した点が図６と異なる。

ステップＳ４１においては、音声取得部１１ｆは、画像音声ＤＢ部１７ｄを利用して音声特徴を抽出する。例えば、図３及び図４の例では、草３２が風に吹かれることで、「ざわざわ」という音が生じ、この音が、被写体である鳥４１の鳴き声よりも大きな音でＳＴ収音部１３に収音されることがある。そこで、音声取得部１１ｆは、画像特徴抽出部１４によって抽出された画像特徴に基づいて、画像音声ＤＢ部１７ｄに格納されている情報から主被写体を特定し、特定した主被写体についての音声特徴を画像音声ＤＢ部１７ｄから読み出す。音声取得部１１ｆは、読み出した音声特徴と、収音された内部音声の音声特徴とに基づいて、ノイズ成分を判定し、主被写体から発する音声の音声特徴を抽出する。音声取得部１１ｆは、抽出した音声特徴の情報を通信部１８ａ，１８ｂを介して外部収音装置２０に送信する。

他の作用は、第１の実施の形態と同様である。

このように本実施の形態においても、第１の実施の形態と同様の効果を得ることができる。更に、本実施の形態においては、外部音声の選択のための情報として、内部音声の音声特徴だけでなく画像特徴の情報を利用しており、内部音声に対象となる主被写体が発する音以外の音が含まれる場合でも、確実に主被写体が発する音に基づく音声特徴を抽出して、外部音声の選択に用いることができる。

なお、上記各実施の形態においては、１つのマイクロホンによって収音される音声を外部音声としてカメラ１０において記録する例を説明したが、外部音声としては複数の音声、例えばステレオ音声を選択して記録するようになっていてもよい。

（第３の実施の形態）
図１０は本発明の第３の実施の形態に係る情報取得装置を示すブロック図である。図１０において図１と同一の構成要素には同一符号を付して説明を省略する。また、図１１はカメラ６０及びレコーダ７０の外観の一例を示す説明図である。

上述したように、外部収音装置は、例えば被写体近傍に固定的に配置され、カメラはユーザに携帯されて被写体から比較的離れた位置に移動自在に配置される。このため、カメラと外部収音装置とは被写体に対する距離や方向が異なる場合があり、カメラによって取得する映像にふさわしい音声が外部収音装置によって取得できるとは限らない場合がある。例えば、鳥が画面内で右から左に移動した場合でも、外部音声によって鳥の移動を感じられない場合もある。そこで、本実施の形態においては、映像にふさわしい音声として、映像中の主被写体の画像中の位置と主被写体が発する音声の音像定位とがなるべく一致する音声であって、主被写体が発生する音声が例えばなるべく高いＳ／Ｎで含まれるステレオ音声を取得するようになっている。

本実施の形態においても情報取得装置は、撮像装置内に構成してもよく、外部収音装置内に構成してもよく、撮像装置及び外部収音装置内に分散して構成してもよく、更に、これらの装置とは独立した装置内に構成してもよい。なお、図１０では、情報取得装置を、カメラ６０、外部収音装置を構成するレコーダ７０及び再生装置８０に分散して構成する例を示している。

先ず、図１１を参照して撮像装置であるカメラ６０及び外部収音装置であるレコーダ７０の外観について説明する。

図１１に示すカメラ６０は図１０の各回路が収納された筐体１０ａと光学系１２ａが収納される鏡筒１２ｂとを有する。筐体１０ａの上面には、操作部１５を構成するシャッタボタン１５ａが設けられている。

また、図１１に示すレコーダ７０は、図１の各回路が収納された筐体７０ａを有している。筐体７０ａは、立方体形状に構成されて、端部に後述するＳＴ収音部７２を構成する２つのマイクロホン７２Ｒ，７２Ｌの収音部が突出して設けられている。

図１０において、撮像装置を構成するカメラ６０は、記録部１７に代えて記録部６１を採用すると共に画像特徴抽出部１４を付加した点が図１のカメラ１０と異なる。画像特徴抽出部１４は、プロセッサ等により構成されて、撮像部１２が撮像して取得した画像の画像特徴を抽出して制御部１１に出力するようになっている。例えば、画像特徴抽出部１４は、主被写体の画面上の位置やサイズの情報等を画像特徴として抽出することができる。

記録部６１は、制御部１１から与えられた撮像画像及び収音されたステレオの内部音声を記録する。記録部６１には連携情報部６１ａが設けられている。連携情報部６１ａには、レコーダ７０及び再生装置８０との間の通信に関する情報が記録されており、制御部１１は、連携情報部１７ｂから読み出した情報に基づいて通信部１８ａ，１８ｂを制御することで、レコーダ７０及び再生装置８０との間で通信により情報の授受が可能である。制御部１１は、レコーダ７０に対して内部音声（第１音声）の音声特徴の情報を送信すると共に、再生装置８０に対して撮像して得た映像及び内部音声を送信することができるようになっている。なお、制御部１１は、内部音声の音声特徴の情報と同時に画像特徴抽出部１４が抽出した画像特徴の情報をレコーダ７０に送信することもできるようになっている。

レコーダ７０は、マルチ収音部２２、制御部２１及び記録部２５に夫々代えて、ＳＴ収音部７２、制御部７１及び記録部７３を採用した点が図１の外部収音装置２０と異なる。ＳＴ収音部７２は、２つのマイクロホン７２Ｒ，７２Ｌを有している。マイクロホン７２Ｒ，７２Ｌは、例えば、相互に同一の特性を有しており、感度ピーク方向が相互に所定の角度異なる方向に向くように配設されている。

制御部７１には収音制御部７１ａ及び音声取得部７１ｂが構成されており、収音制御部７１ａは、ＳＴ収音部７２の収音を制御するようになっている。音声取得部７１ｂは、ＳＴ収音部７２のマイクロホン７２Ｒ，７２Ｌが収音した外部収音音声をステレオ音声として取得することができるようになっている。制御部７１は、ＳＴ収音部７２によって収音されたステレオ音声である外部収音音声を記録部７３に与えて記録するようになっている。

記録部７３には連携情報部７３ａが設けられている。連携情報部７３ａは、カメラ６０及び再生装置８０との間の通信に関する情報が記録されており、制御部７１は、連携情報部７３ａから読み出した情報に基づいて通信部２６ａ，２６ｂを制御することで、カメラ６０及び再生装置８０との間で通信により情報の授受が可能である。制御部７１は、カメラ６０から内部音声（第１音声）の音声特徴の情報を受信すると共に、再生装置８０に対して外部音声を送信することができるようになっている。

本実施の形態においては、音声取得部７１ｂは、受信した内部音声の音声特徴に基づいて、収音した２つの外部収音音声を調整して外部音声を取得することができるようになっている。例えば、音声取得部７１ｂは、内部音声の音声特徴に基づいて、収音した２つの外部収音音声の位相及びレベルを個別に調整したステレオ音声を外部音声として取得するようになっていてもよい。

例えば、カメラ６０において、画面中央に被写体が位置する状態で内部音声の収音を行うと、ＳＴ収音部１３によって取得されたステレオ音声である２つの内部音声の位相及びレベルは略同一であると考えられる。これに対し、被写体とマイクロホン７２Ｒ，７２Ｌとの位置及び向きの関係によっては、マイクロホン７２Ｒ，７２Ｌによって収音される被写体の音声の位相及びレベルは相互に異なることが考えられる。そこで、マイクロホン７２Ｒ，７２Ｌによって収音された外部収音音声の位相及びレベルを調整することで、位相及びレベルを一致させたステレオ音声を外部音声として取得することができる。

また、音声取得部７１ｂは、ＳＴ収音部１３から被写体までの距離とＳＴ収音部７２から被写体までの距離とに基づいて、調整量を変化させてもよい。図１２はＳＴ収音部１３から被写体までの角度とＳＴ収音部７２から被写体までの角度との相違を説明するための説明図である。図１２の例はカメラ６０の光軸上にレコーダ７０が配置された例を示している。図１２に示すように、被写体がカメラ６０の光軸からＸ１だけずれた位置に位置する場合には、被写体までの距離が比較的長いカメラ６０（ＳＴ収音部１３）については光軸からの角度がθ１であるのに対し、被写体までの距離が比較的短いレコーダ７０（ＳＴ収音部７２）については光軸からの角度がθ１よりも大きいθ２となる。そこで、カメラ６０とレコーダ７０の被写体までの距離に応じて、外部収音音声の調整量を変更することで、より映像にふさわしい外部音声を取得することができる。

また、音声取得部７１ｂは、画像特徴の情報を用いて、２つの外部収音音声の位相及びレベルを個別に調整するようになっていてもよい。例えば、画像特徴の情報によって被写体が画面端部に位置することが示された場合には、画像特徴に基づいて外部収音音声の位相及びレベルを相互に異ならせることで、画面上における被写体の位置に対応して、撮影者にとっての被写体が発する音の定位と外部音声によって得られる音像定位とを略一致させることが可能である。なお、音声取得部７１ｂは、位相及びレベルに限らず、２つの外部収音音声に対して周波数領域における調整等を行ってもよい。

音声取得部７１ｂは、取得した外部音声を再生装置８０に送信する。なお、音声取得部７１ｂは、位相及びレベルが調整されたステレオ音声を外部音声として再生装置８０に送信してもよく、位相及びレベルの調整前のステレオ音声と調整値とを外部音声の情報として再生装置８０に送信してもよい。

再生装置８０は、コンピュータや、スマートフォンやタブレット端末等によって構成されていてもよい。再生装置８０には、制御部８１が構成されている。制御部８１は、ＣＰＵやＦＰＧＡ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で機能の一部又は全部を実現するものであってもよい。

再生装置８０には、操作部８３が設けられている。操作部８３は、再生モード設定、パラメータ操作等のための図示しない各種スイッチ、ダイヤル、リング部材等を含み、ユーザ操作に基づく操作信号を制御部８１に出力する。制御部８１は、操作部８３からの操作信号に基づいて、各部を制御するようになっている。通信部８２は、制御部８１に制御されて、カメラ６０及びレコーダ７０との間で通信を行って情報を授受することができるようになっている。制御部８１は、通信部８２を介して、カメラ６０からの映像及び内部音声を受信すると共に、レコーダ７０からの外部音声を受信する。

制御部８１には、同期再生部８１ａが設けられており、同期再生部８１ａは、受信した内部音声、外部音声及び映像を同期させることができる。例えば、同期再生部８１ａは、撮像部１２によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとるようになっていてもよい。

再生装置８０には再生部８４及び記録部８５が設けられている。記録部８５は、制御部８１から受信された内部音声、外部音声及び映像が与えられて、これらを同期させて記録するようになっている。再生部８４は、図示しない表示部及びスピーカを備えており、制御部８１に制御されて、同期再生部８１ａによって同期がとられた外部音声及び映像を再生出力することができる。

次に、このように構成された実施の形態の動作について図１３から図１５を参照して説明する。図１３はカメラ６０の動作を説明するためのフローチャートであり、図１４はレコーダ７０の動作を説明するためのフローチャートであり、図１５は再生装置８０の動作を説明するためのフローチャートである。

いま、上述した図３及び図４の例においてカメラ１０及び外部収音装置２０をそれぞれカメラ６０及びレコーダ７０に置き換えた例を想定する。即ち、樹木３１ａ，３１ｂに比較的近い位置にレコーダ７０を配設し、カメラ６０を携帯するユーザは、鳥４１が逃げ出さないように、また、障害物を避けるために、比較的鳥４１から離れた位置で撮影を行う。

従って、この場合においても、鳥４１の鳴き声を収音するものとすると、カメラ６０に内蔵されているＳＴ収音部１３による収音音声（第１音声）よりも、レコーダ７０のＳＴ収音部７２の各マイクロホン７２Ｒ，７２Ｌによる外部収音音声（第２音声）の方が良好なＳ／Ｎが得られるものと考えられる。

カメラ６０の制御部１１は、電源が投入されると、図１３のステップＳ４１において、撮像モードが指示されたか否かを判定する。撮影モードが指示されていない場合には、制御部１１は、指定されたモード、例えば、レコーダ７０及び再生装置８０との連携のための設定や送受信を行う連携モードや記録画像の再生を行う再生モードに移行する。

撮像モードが指示されると、制御部１１は、次のステップＳ４２において、動画の撮影、ＳＴ収音部１３による収音を開始し、動画及びステレオ音声である内部音声の記録部６１への記録を開始する。なお、終了操作が行われると、制御部１１は、録画、録音を終了して、記録部６１の映像及び内部音声をファイル化する。

制御部１１は、ステップＳ４３において、レコーダ７０との連携が指定されているか否かを判定する。制御部１１は、連携が指定されていない場合には、処理をステップＳ４１に戻し、連携が指定されている場合には、処理をステップＳ４４に移行する。

制御部１１の特徴抽出部１１ｇは、次のステップＳ４４において、ＳＴ収音部１３からのステレオ音声である内部音声（第１音声）の音声特徴を抽出し、抽出した音声特徴からノイズを除去した後、通信部１８ａ，１８ｂを介してレコーダ７０に送信する（ステップＳ４５）。

また、画像特徴抽出部１４は、撮像画像から音声に対応する画像即ち主被写体を判定し（ステップＳ４６）、画像特徴を抽出してレコーダ７０に送信して（ステップＳ４７）、処理をステップＳ４１に戻す。なお、ステップＳ４６，Ｓ４７の処理は、レコーダ７０において外部収音音声の調整に画像特徴の情報を用いない場合には、省略することができる。

一方、レコーダ７０の制御部７１は、電源が投入されると、図１４のステップＳ５１において、録音モードが指定されているか否かを判定する。制御部７１は、録音モードが指定されていない場合には、再生モード等の指定されている他のモードを実行する。録音モードが指定されると、制御部７１は、次のステップＳ５２において、ＳＴ収音部７２による収音を開始し、ステレオ音声である外部収音音声の記録部７３への記録を開始する。

制御部７１は、ステップＳ５３において、カメラ６０との連携が設定されている否かを判定する。連携が設定されていない場合には、制御部７１は、処理をステップＳ５６に移行して通常の録音を行う。即ち、ＳＴ収音部７２によって取得されたステレオ音声である外部収音音声がそのまま記録部７３に記録される。

カメラ６０との連携が設定されている場合には、制御部７１は、ステップＳ５３からＳ５４に移行して、カメラ６０からの内部音声の音声特徴や画像特徴を取得する。制御部７１は、内部音声の音声特徴を時間情報を用いて、外部収音音声と共に記録部７３に記録する（ステップＳ５５）。なお、上述したように、音声取得部７１ｂによって、内部音声の音声特徴や画像特徴を用いて、ＳＴ収音部７２からの外部収音音声の位相やレベルを調整し、調整後に得た外部音声を記録部７３に記録するようになっていてもよい。

本実施の形態においては、カメラ６０によって取得された映像とレコーダ７０によって取得される外部音声とは、再生装置８０によって同期再生されるようになっている。ユーザが操作部８３を操作して動画再生を指示するものとする。制御部８１は、図１５のステップＳ６１において動画再生が指定されたか否かを判定しており、動画再生が指定されると、処理をステップＳ６１に移行する。なお、動画再生が指定されない場合には、制御部８１は、指定されている他のモードを実行する。

ステップＳ６２において、制御部８１は、通信部８２を介して、カメラ６０から映像及び内部音声を取得し、レコーダ７０から外部音声を取得する。なお、制御部８１は、外部音声として外部収音音声及び調整値を受信する場合もある。同期再生部８１ａは、ステップＳ６３において、受信した内部音声、外部音声及び映像を同期させる。即ち、同期再生部８１ａは、撮像部１２によって取得された映像信号と同時に収音された音声信号の波形と外部音声の波形とを比較することで、被写体の映像と外部音声との同期をとり、同期した映像及び外部音声を再生部８４に出力する。

再生部８４に供給される外部音声は、外部収音音声が内部音声の音声特徴や画像特徴によって調整されたものであり、映像中の主被写体の位置に応じた音像定位を有する。こうして、再生部８４の表示画面に表示される映像にふさわしい音声が再生部８４のスピーカから出力される。

このように本実施の形態においては、撮像装置と外部収音装置と被写体との位置関係に拘わらず、映像にふさわしい音声を同期させて出力することが可能である。

上記実施の形態においては、撮像のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラでもよく、さらに、携帯電話やスマートフォンなど携帯情報端末（ＰＤＡ：Personal Digital Assist）等に内蔵されるカメラでも勿論構わない。

本発明は、上記各実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。

なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。

なお、実施例中で、「部」（セクションやユニット）として記載した部分は、専用の回路や、複数の汎用の回路を組み合わせて構成してもよく、必要に応じて、予めプログラムされたソフトウェアに従って動作を行うマイコン、ＣＰＵなどのプロセッサ、あるいはＦＰＧＡなどシーケンサを組み合わせて構成されてもよい。また、その制御の一部または全部を外部の装置が引き受けるような設計も可能で、この場合、有線や無線の通信回路が介在する。通信は、ブルートゥース（登録商標）やＷｉＦｉ、電話回線などで行えばよく、ＵＳＢなどで行っても良い。専用の回路、汎用の回路や制御部を一体としてＡＳＩＣとして構成してもよい。

１０…カメラ、１１…制御部、１１ａ…撮影制御部、１１ｂ…画像処理部、１１ｃ…ピント、画角情報部、１１ｅ…収音制御及び処理部、１１ｆ…音声取得部、１１ｇ…特徴抽出部、１１ｈ…同期処理部、１２…撮像部、１２ａ…光学系、１３…ＳＴ収音部、１４…画像特徴抽出部、１５…操作部、１６…表示部、１７…記録部、１７ａ…収音画像音声記録部、１７ｂ…連携情報部、１７ｃ…外部音声記録部、１７ｄ…画像音声ＤＢ部、１８ａ，１８ｂ，２６ａ，２６ｂ…通信部、２０…外部収音装置、２１…制御部、２１ａ…収音制御部、２１ｂ…音声取得部、２１ｃ…特徴抽出部、２２…マルチ収音部、２５…記録部、２５ａ…音声情報部、２５ｂ…連携情報部、２５ｃ…音声情報部。

Claims

被写体の映像を取得する撮像装置と、周囲音声を取得する外部収音装置と、前記外部収音装置が取得した音声を前記撮像装置が撮像した映像に同期させて再生する再生装置とが別体に構成された情報取得システムであって、
前記撮像装置は、映像取得時の周囲音声を第１音声として収音する内蔵収音部と、前記映像及び前記第１音声をファイル化して映像ファイル及び第１音声ファイルを得る制御部と、前記第１音声から音像定位に関する特徴を抽出する特徴抽出部とを具備し、
前記外部収音装置は、周囲音声を第２音声として収音する感度分布が異なる複数の収音部と、前記第２音声をファイル化して第２音声ファイルを得る制御部と、前記第２音声を前記撮像装置が抽出した前記音像定位に関する特徴に合致する音像定位の特徴を有する音声に調整する音声取得部とを具備し、
前記再生装置は、前記撮像装置及び前記外部収音装置から前記映像ファイル、前記第１音声ファイル、及び、前記第２音声ファイルを取得し、前記第１音声に前記第２音声を同期させることによって、前記撮像装置が撮像して得た被写体の映像に前記第２音声を同期させる同期再生部を具備する、
ことを特徴とする情報取得システム。
前記撮像装置は、前記被写体の画像特徴を抽出する画像特徴抽出部をさらに含み、
前記外部収音装置の前記音声取得部は、前記第２音声を、前記第１音声から抽出した前記音像定位に関する特徴と前記画像特徴とに基づいて求めた音像定位に関する特徴に合致する音像定位の特徴を有する音声に調整することを特徴とする請求項１に記載の情報取得システム。