JP2023078689A

JP2023078689A - 音情報収録装置、音情報収録再生システム及び音情報収録方法

Info

Publication number: JP2023078689A
Application number: JP2021191939A
Authority: JP
Inventors: 安軌伊藤; Yasuki Ito; 静二 ▲高▼野; Seiji Takano; 佑亮井手; Yusuke Ide; 裕輔詫摩; Yusuke Takuma; 宏和春日井; Hirokazu Kasugai
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-06-07

Abstract

【課題】人の手動操作を介さずに、オブジェクトの発生する音を、その音を収音したときの収録空間に対応付けて収録する音情報収録装置を提供する。【解決手段】音情報収録装置１００は、収録空間Ｓ１に配置されて、オブジェクト９０の発した音を収音するピンマイク１０と、収録空間Ｓ１におけるオブジェクト９０の位置を、予め設定された収録基準位置ＳＰ１に対する相対的な音源位置として特定する音源位置特定部３０と、ピンマイク１０により収音されたオブジェクト９０の発した音と音源位置特定部３０で特定した音源位置とを対応付けた空間音情報を生成する空間音情報生成部５０と、を備える。【選択図】図１

Description

本発明は、音情報収録装置、音情報収録再生システム及び音情報収録方法に関する。

従来、例えばテレビ番組の収録では、収録現場をカメラで撮影するとともに、出演者ごとにピンマイクを装着して、各出演者の音声を個別に収音することが行われている。これにより、各出演者の音声を明瞭に記録することができ、そのテレビ番組の視聴者に、出演者の音声を明瞭に聴取させることができる。

また、近年は、個人が、自分で撮影した動画を、ネットワークを通じて広く公開することが可能になっている。そして、そのような動画の撮影の場面においても、カメラが一体に備えている内蔵マイクで収音するのではなく、ピンマイク等の別体の外部マイクを用いて、出演者や楽器等のオブジェクトが発生した音を個別に収音することが行われている。

さらに、カメラで撮影した映像における各オブジェクトの位置に、オブジェクトに対応したマイクで収音した音を割り当てるレンダリングを行って、視聴者に、収録時の臨場感を与えることも行われている。

しかし、このレンダリングは、人が手動で行うため非常に手間が掛かり、特に、オブジェクトが移動する映像に対して手動でレンダリングを行うのは困難である。さらに、収録から再生までの時間差がほとんどない状況（ライブ配信等）には対応することができない。

そこで、映像の情報に基づいて、音の発生源であるオブジェクトの位置を検出する技術が提案されている（例えば、特許文献１参照）。

特許文献１に記載された技術は、外部マイクで収音したオブジェクトの発生する音を、人の手動の操作を介さずに、音源の位置と対応付けるものではない。

特開２０００－２９５７００号公報

本発明の第１は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定する音源位置特定部と、前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置特定部で特定した前記音源位置とを対応付けた空間音情報を生成する空間音情報生成部と、を備えた音情報収録装置である。

本発明の第２は、本発明に係る音情報収録装置と、前記音情報収録装置によって収録された前記空間音情報に基づいて、前記オブジェクトの発した音を再生空間に再生する音情報再生装置と、を備えた音情報収録再生システムであって、前記音情報再生装置は、前記空間音情報を、前記オブジェクトの発した音と前記音源位置とに分離する音位置分離部と、前記再生空間に配置された、音を再生する音再生部と、前記再生空間における、前記音再生部により再生される音を聴く位置として設定された再生基準位置に、前記収録空間における前記収録基準位置を対応させ、前記収録空間における前記音源位置を前記再生空間に仮想的に対応づけた仮想音源位置を設定する仮想音源位置設定部と、前記仮想音源位置から、前記オブジェクトの発生した音が再生されるように、前記再生部により再生される音を調整する再生音調整部と、を備えた音情報収録再生システムである。

本発明の第３は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定し、前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置とを対応付けた空間音情報を生成する、音情報収録方法である。

本発明に係る音情報収録装置の一実施形態を示すブロック図である。本発明に係る音情報収録再生システムの一実施形態を示すブロック図である。収録空間における、ピンマイクを付けた複数のオブジェクト及びカメラの配置の一例を示した模式図である。音情報収録装置の処理の流れを示すフロチャートである。音情報収録装置の別例の処理の流れを示すフロチャートである。再生空間における、再生基準位置、オブジェクトの位置（仮想音源位置）及び再生部の位置（再生位置）の配置の一例を示した模式図である。音情報再生装置の処理の流れを示すフロチャートである。図３に示した実施形態の配置において、カメラが空間音声マイクを備え、各ピンマイクがＧＮＳＳ信号等を出力できないものである変形例２の配置例を示す模式図である。図３に示した実施形態の配置において、各オブジェクトがピンマイクを備えず、カメラよりも各オブジェクトに近い位置に、１つの空間音声マイクが配置されて、各ピンマイクに代えてこの空間音声マイクが、全てのオブジェクトがそれぞれ発した音を収音する変形例５の配置例を示す模式図である。図３に示した実施形態の配置において、各オブジェクトがピンマイクを備えず、変形例２と同様にカメラが空間音声マイクを備えるとともに、変形例５と同様にカメラよりも各オブジェクトに近い位置に、１つの空間音声マイクが配置されて、各ピンマイクに代えてこれらの空間音声マイクが、全てのオブジェクトがそれぞれ発した音を収音する変形例６の配置例を示す模式図である。図３に示した実施形態の配置において、各ピンマイクがＧＮＳＳ信号を外部に送信する送受信チップを備える代わりに、ビーコン信号を出力するビーコンを備え、音源位置特定部が、収録空間に分布して配置された複数の受信部を備えた変形例１１の配置例の模式図である。カメラの筐体にピンマイクが着脱可能に直接取り付けられた状態を示す、カメラを正面から見た模式図である。カメラの筐体に、取り付け部材を介して、ピンマイクが着脱可能に直接取り付けられた状態を示す、カメラを正面から見た模式図である。２つのピンマイクが、互いに平行に、前方を向いた姿勢でカメラに取り付けられた状態を模式的に示す、カメラの上方から見た平面図である。２つのピンマイクが、互いに平行に、後方を向いた姿勢でカメラに取り付けられた状態を模式的に示す、カメラの上方から見た平面図である。２つのピンマイクが、互いに平行に、一方は前方を向いた姿勢で、他方は後方を向いた姿勢でカメラに取り付けられた状態を模式的に示す、カメラの上方から見た平面図である。２つのピンマイクが、カメラの左右方向に互いに離れた状態で、それぞれ前方の、左右方向の中心に向けた姿勢でカメラに取り付けられた状態を模式的に示す、カメラの上方から見た平面図である。２つのピンマイクが、カメラの左右方向に互いに離れた状態で、それぞれ前方の、左右方向の外側に向けた姿勢でカメラに取り付けられた状態を模式的に示す、カメラの上方から見た平面図である。４つのピンマイクが取付部材に取り付けられて単一の空間音声マイクを構成した例を示す模式図である。カメラに着脱可能のピンマイク１６の詳細の構成を示す模式図である。

以下、本発明に係る音情報収録装置、音情報収録再生システム及び音情報収録方法の実施形態について、図面を用いて説明する。

図１は、本発明に係る音情報収録装置の一実施形態を示すブロック図、図２は、本発明に係る音情報収録再生システムの一実施形態を示すブロック図である。図２に示した音情報収録再生システムにおける音情報収録装置は、図１に示した音情報収録装置である。

＜音情報収録装置＞
本実施形態の音情報収録装置１００は、所定の収録空間Ｓ１において音源が発した音を、その音源の位置と対応づけて、収録空間Ｓ１を撮影した映像とともに収録するものである。また、映像は収録空間Ｓ１を可視的に表したものであるため、収録空間Ｓ１における音源の位置は、映像における音源の位置に対応付けられたものとなる。

本実施形態の音情報収録再生システム３００は、音情報収録装置１００と、音情報再生装置２００と、を備えたシステムである。音情報収録再生システム３００は、音情報収録装置１００によって収録空間Ｓ１における音源の位置（音源位置）と対応づけられた音を、所定の再生空間Ｓ２の位置（再生位置）に展開して、映像とともに再生することで、再生空間Ｓ２において再生した映像における音源位置から音が発生しているように、臨場感のある音を再生させる。

音情報収録装置１００は、図１に示すように、音源位置特定部３０と、音場対応調整部４０と、空間音情報生成部５０と、を備えている。

図３は、収録空間Ｓ１における、ピンマイク１０を付けた複数のオブジェクト９０及びカメラ２０の配置の一例を示した模式図である。本実施形態においては、図３に示すように、収録空間Ｓ１の互いに異なる位置に複数のオブジェクト９０（オブジェクト９１，９２，９３，…）が存在している。各オブジェクト９０は、人や楽器等であり、音を発する。

ピンマイク１０（ピンマイク１１，１２，１３，…）は、マイクの一例であり、オブジェクト９０が発した音を収音する。ピンマイク１０は、カメラ２０が一体に備えた内蔵マイクとは異なり、カメラ２０とは別体の外部マイクである。

ピンマイク１０は、オブジェクト９０ごとに設けられている。すなわち、オブジェクト９１にピンマイク１１が設けられ、別のオブジェクト９２に別のピンマイク１２が設けられ、さらに別のオブジェクト９３に別のピンマイク１３が設けられ、というように、各オブジェクト９０に１つのピンマイク１０が対応付けられている。

本実施形態においては、各ピンマイク１０はオブジェクト９０に設けられているため、収録空間Ｓ１における各オブジェクト９０の位置と、対応するピンマイク１０の位置とは一致し、ピンマイク１０は収録空間Ｓ１に配置されている。オブジェクト９０の位置、対応するピンマイク１０の位置は、本発明におけるオブイジェクトの位置に関する情報の一例である。

なお、オブジェクト９０が音を発する音源であるため、収録空間Ｓ１における各音源位置は、対応するピンマイク１０の位置と一致する。ただし、オブジェクト９０が例えば人であり、ピンマイク１０がオブジェクト９０の口元から離れて、例えば胸元に装着されている場合は、音源位置であるオブジェクト９０の口の位置とピンマイク１０の位置とは、厳密には一致しない。

したがって、一律に、ピンマイク１０の位置を音源位置として取り扱うと、本来の音源位置（オブジェクト９０である人の口元の位置）とは、ずれた位置（ピンマイク１０の位置（人の胸元の位置））を音源位置として特定することになる。

ここで、ピンマイク１０の装着された位置（人の胸元の位置）と人の口元の位置とは、オブジェクト９０ごとに一定の位置関係にある。そこで、音源位置特定部３０は、オブジェクト９０ごとの上述した一定の位置関係を補正値として、予め測定して記憶し、又はカメラ２０により撮影された画像に基づいて算出して記憶しておく。

そして、音源位置特定部３０が、音源位置を特定する際に、記憶された補正値と検出されたピンマイク１０の位置とに基づいて、音源位置を特定すればよい。これにより、ピンマイク１０の位置がオブジェクト９０の音源位置からずれている場合も、精度よく音源位置を特定することができる。

実際には、各ピンマイク１０は、オブジェクト９０が発する声(音)が大きかったり又はオブジェクト９０同士が近接していたりして、意図せずに、ピンマイク１０が設けられているオブジェクト９０の発する音の他に、他のオブジェクト９０等から発せられた音（他のピンマイク１０に対応したオブジェクト９０が発した音だけでなく、ピンマイク１０に対応していない外部の環境音やその他の音を含む）も収音することがあるが、本実施形態においては、各ピンマイク１０はそのピンマイク１０が設けられているオブジェクト９０の発する音だけを収音するものとして説明する。

なお、ピンマイク１０が設けられているオブジェクト９０の発する音の他に、他のオブジェクト９０等から発せられた音も収音した場合については、特定のピンマイク１０に混入した音の成分は、ピンマイク１０同士の位置情報とそれぞれのピンマイク１０で収録している音声データから計算処理で差し引くことができる。これにより、各ピンマイク１０に対応したオブジェクト９０の音だけを正しく分離して収録することができる。

カメラ２０は、収録空間Ｓ１の、収録基準位置ＳＰ１に配置されている。実際は、後述する音源位置特定部３０が、カメラ２０の配置された位置を収録基準位置ＳＰ１に設定する。収録基準位置ＳＰ１の絶対位置は、ＧＰＳ等のＧＮＳＳ（Global Navigation Satellite System：衛星測位システム）の測位衛星から、地上での現在位置を取得し得る信号（以下、ＧＮＳＳ信号という）を受信することで、音源位置特定部３０に記憶されている。

カメラ２０は、例えば、カメラ２０を中心とした全方位を撮影することができる、いわゆる３６０度カメラ（全天球カメラ又は全方位カメラ）と称されるものである。したがって、収録基準位置ＳＰ１に配置されたカメラ２０は、収録基準位置ＳＰ１を中心とした上下、左右、前後の全方位、すなわち、複数のオブジェクト９０も含めて収録空間Ｓ１の全体の映像を撮影する。

音源位置特定部３０は、収録空間Ｓ１における各オブジェクト９０の位置を、カメラ２０の配置された収録基準位置ＳＰ１に対する音源位置として特定する。

具体的には、例えば、各ピンマイク１１，１２，１３，…が、送受信チップを備えている。送受信チップは、ＧＮＳＳ信号を受信して、ピンマイク１１，１２，１３，…を識別する識別信号とともに、受信したＧＮＳＳ信号に基づいてピンマイク１１，１２，１３，…の位置を特定する信号を、音源位置特定部３０に送信する。

音源位置特定部３０は、これら各ピンマイク１１，１２，１３，…の送受信チップから送信された識別信号とピンマイク１１，１２，１３，…の位置を特定する信号とを受信して、各ピンマイク１１，１２，１３，…の、地上における絶対位置を特定する。

そして、音源位置特定部３０は、各ピンマイク１１，１２，１３，…の絶対位置と収録基準位置ＳＰ１の絶対位置とに基づいて、各音源位置を、収録基準位置ＳＰ１に対する相対的な位置として特定する。

なお、音源位置特定部３０による音源位置を特定する構成は、上述した構成に限定されず、他の構成によって音源位置を特定するものであってもよく、そのような、音源位置を特定する他の構成の例については、変形例として後述する。

空間音情報生成部５０は、各ピンマイク１１，１２，１３，…により収音されたオブジェクト９１，９２，９３，…の発した音と、音源位置特定部３０で特定した音源位置と、を対応付けて、音に音位置が対応づけられた空間音情報を生成する。空間音情報は、例えば音のデータに、音源位置がメタデータとして付加された形式であってもよいし、又はその他の形式で、音のデータと音源位置のデータとが対応付けられたものであってもよい。

また、音源位置特定部３０は、カメラ２０により撮影された収録空間Ｓ１の映像と音源位置とを対応づける。具体的には、カメラ２０は収録空間Ｓ１を撮影しているため、カメラ２０によって撮影された映像における各位置（映像内の各座標位置）は、収録空間Ｓ１の各位置と対応付いている。

つまり、カメラ２０によって撮影された映像における個々の部位と、実際の収録空間Ｓ１に存在している個々の部位との対応関係を予め求めておく（キャリブレーションする）ことにより、映像における座標系と現実の収録空間Ｓ１における座標系とを対応付けることができる。

ここで、映像におけるオブジェクト９０は基本的に平面の情報であるのに対して、収録空間Ｓ１に実在しているオブジェクト９０は３次元の立体物であるため、上記「映像における部位」は、収録空間Ｓ１に実在しているオブジェクト９０に紐づけされた（対応づけられた）ものを意味する。

また。上述したキャリブレーションとしては、カメラ２０によって撮影された映像を持ちることなく実施することもできる。すなわち、例えば、カメラ２０の画角に関する情報及びカメラ２０の位置や向き（例えば正面方向等）と収録空間Ｓ１における座標系とを対応づけておくことにより、撮影された映像における座標系と収録空間Ｓ１における座標系とを対応づけることができ、キャリブレーションを行うことができる。

このように、音源位置特定部３０はカメラ２０によって撮影された映像と収録空間Ｓ１との対応付けにより、カメラ２０によって撮影された映像に、音源位置を対応付けることができる。

音源位置特定部３０により、映像における特定のオブジェクト９１が写っている位置と音源位置とが対応付けられ、空間音情報生成部５０によって、その音源位置とそのオブジェクト９１が発した音とを対応付けられるため、空間音情報生成部５０は、映像におけるオブジェクト９１の位置に、オブジェクト９１の発した音を対応付ける。この場合、空間音情報生成部５０は、上述した音と、映像を含む位置とが対応付けられた空間音情報を生成する。

このように生成された空間音情報は、収音された各音について収録基準位置ＳＰ１に対する音源位置が対応付いているため、各音について、収録基準位置ＳＰ１からの距離や方向（向き）を特定することができる。

音場対応調整部４０は、収録空間Ｓ１の音場の音響特性を再現するために、各ピンマイク１１，１２，…で収音された、オブジェクト９１，９２，…の発生した音に対して、予め設定された音場における音響特性に応じた種々の調整を行うものである。

具体的には、収録空間Ｓ１は、例えば、狭い閉じた空間、広い閉じた空間、若しくは野外のように閉じていない空間等の音場であるか、又は音が反射する障害物（人や、楽器やその他の物体）が多数配置された空間、障害物が少ない空間、若しくは障害物が全く存在しない空間等の音場であるか、などの音場の違いがある。そして、各音場で発せられた音は、その音場に対応した音響特性を以て、収録基準位置ＳＰ１に届く。

音場対応調整部４０は、収録空間Ｓ１の音場の音響特性として予め設定された音響特性に対応して、空間音情報を構成する各音に対して、反射音や残響等のリバーブや、音圧、音の周波数等を調整する。

例えば、収録空間Ｓ１が狭い閉じた空間の場合、収録基準位置ＳＰ１からの距離が遠い位置の音については、収録基準位置ＳＰ１に到達するまでの間に、収録空間Ｓ１を仕切る壁に複数回反射したり、また収録基準位置ＳＰ１からの距離が遠いため、収録基準位置ＳＰ１に到達したときには、音圧が小さくなっている等の調整が行われる。

また、音場対応調整部４０は、オブジェクト９０の発した音とは別の、ピンマイク１０以外のマイク（例えば、カメラ２０が備えている内蔵マイクや、変形例で説明する空間音声マイク等）で収音した暗騒音等の環境音を、上述した各音に付加する。

音場対応調整部４０における音響特性の設定は、収録空間Ｓ１において音を収録するより前に予め行われていて、音場対応調整部４０は、設定された音響特性に応じた、収音された音に対する調整を、空間音情報の生成が行われた直後に時間差なく行い、調整が行われた空間音情報を空間音情報生成部５０に出力する。

なお、音場対応調整部４０における音響特性の設定は、上述したように予め設定されているものでなくてもよい。具体的には、音場対応調整部４０は、例えば、カメラ２０が撮影した映像に基づいて、収録空間Ｓ１の情報を取得して、その取得した収録空間Ｓ１の情報に基づいて、音響特性を自動的に設定してもよい。音響特性を自動的に設定する場合は、収録空間Ｓ１の情報と予め設定された種々の音響特性とを対応付けて記憶し、取得した収録空間Ｓ１の情報に対応付けて記憶された音響特性を選択すればよい。

カメラ２０で撮影した映像から取得する収録空間Ｓ１の情報としては、収録空間Ｓ１が広いか又は狭いかの判別や、その広さの程度や、障害物の有無や、その障害物の位置、大きさなどである。

また、音場対応調整部４０は、カメラ２０の内蔵マイクで収音した音に基づいて、音響特性を設定してもよい。この場合、カメラ２０の内蔵マイクで収音した音を音情報収録装置１００に送り、音場対応調整部４０は、例えば、カメラ２０の内蔵マイクで収音した音に基づいて、収録空間Ｓ１での反響成分（反響とは音の繰り返しであり、同一音が減衰しながら繰り返されている成分である）を解析して、反響の調整とリバーブ効果の強弱を決定するなどの音響特性の設定を行うことができる。カメラ２０の内蔵マイクで収音した音は、一旦保持しておいて、映像の撮影及びピンマイク１０による収音の後に、カメラ２０から音情報収録装置１００に、保持した内蔵マイクによる音を送ってもよい。

なお、カメラ２０による映像に基づいた音響特性の設定では、壁等の吸音性能を映像のみから判定するのは難しく、また、カメラ２０の内蔵マイクに基づいた音響特性の設定では、カメラ２０の画角外の空間に配置された壁等による反射の影響も反映される可能性があるため、カメラ２０による映像と、カメラ２０の内蔵マイクで収音された音との両方に基づいて、音響特性を設定するのが好ましい。

また、音場対応調整部４０は、ピンマイク１１，１２，１３の位置情報に基づいて、音の伝達関数の調整を行うこともできる。具体的には、音場対応調整部４０は、ピンマイク１１，１２，１３に対応した音源が人である場合、その音源である人の顔の向きに応じて音の伝達関数を変更したり、ピンマイク１１，１２，１３とカメラ２０との間に障害物がある場合は、音の伝達関数を変更したり、ピンマイク１１，１２，１３とカメラ２０との距離に応じて音の伝達関数を変更したりすることができる。

空間音情報生成部５０は、音場対応調整部４０により、音響特性に応じた調整が行われた後の空間音情報を、外部に出力する。空間音情報生成部５０により外部に出力された空間音情報は、外部の記録装置により記録メディアに記録して一旦保管してもよいし、音情報収録再生システム３００を構成する音情報再生装置２００にストリーミングにより出力して、再生空間Ｓ２において再生してもよい。

＜作用＞
図４は、音情報収録装置１００の処理の流れを示すフロチャートである。音情報収録装置１００の処理の流れは、本発明に係る音情報収録方法の一実施形態である。本実施形態の音情報収録装置１００の処理を、図４のフロチャートを用いて説明する。

音情報収録装置１００は、収録を開始すると、収録空間Ｓ１に配置された各ピンマイク１１，１２，１３，…により、対応するオブジェクト９１，９２，９３，…の発した音の収音を開始する（Ｔ１）。この収音と同時に、カメラ２０が収録空間Ｓ１の映像の撮影を開始する（Ｔ１）。さらに、この収音及び撮影と同時に、音源位置特定部３０により、収録空間Ｓ１における各オブジェクト９１，９２，９３，…位置（音源位置）を特定する（Ｔ１）。

次いで、空間音情報生成部５０により、各ピンマイク１１，１２，１３，…で収音された音、カメラ２０で撮影された映像及び音源位置特定部３０で収録空間Ｓ１における収録基準位置ＳＰ１に対する音源位置として特定されたオブジェクト９１，９２，９３，…の位置が対応付けられ（Ｔ２）、音に、位置、映像が対応付けられた空間音情報が生成される。

生成された空間音情報に対して、音場対応調整部４０が、予め設定された音場に応じた調整を行う（Ｔ３）。そして、音場に応じて音が調整された空間音情報が、空間音情報生成部５０から出力される（Ｔ４）。

収録が終了する（Ｔ５においてＹＥＳ）までは、Ｔ１～Ｔ４の処理が継続し、収録が終了すると、カメラ２０による映像の撮影、ピンマイク１１，１２，１３，…による音の収音、及び音源位置の特定の各処理が終了する。

以上のように、本実施形態の音情報収録装置１００によれば、収録空間Ｓ１において、カメラ２０の内蔵マイクではない外部マイクの一例であるピンマイク１０で収音したオブジェクト９０の発生する音が、人の手動の操作を介さずに自動的に、音源の位置及び映像と対応付けられる。したがって、編集者等が、収録された映像を見て、映像におけるオブジェクト９０の位置に、オブジェクトの発した音を、手動で割り付ける必要が無い。

したがって、音情報収録装置１００によれば、音を音源位置に手動で割り付ける作業が不要となり、音源の位置を割り付ける作業に要る労力を軽減することができる。

また、音情報収録装置１００によれば、空間音情報生成部５０が、収録空間Ｓ１で収音した音に、その収音から時間差なくリアルタイムに、音源位置及び映像を対応付けた空間音情報を生成するため、音の収音から時間差なく外部に空間音情報を出力することができる。

したがって、音情報収録装置１００によれば、音を一旦保存してから出力するだけでなく、いわゆるライブ配信のように、収音から時間差なくで出力することができ、視聴者は、その出力された空間音情報を受信してストリーミング再生することもできる。

なお、音情報収録装置１００は、カメラ２０が撮影した映像及びピンマイク１０が収音した音をリアルタイムに取得するだけでなく、カメラ２０が撮影した一定期間の映像はカメラ２０が一旦保持し、ピンマイク１０が収音した一定期間の音はピンマイク１０が一旦保持し、一定期間が経過した後に、カメラ２０が保持した映像及びピンマイク１０が保持した音を、取得するようにしてもよい。この場合、収音した音をリアルタイムの再生（ストリーミング再生）に使用することはできないが、音源位置及び映像を対応付けた空間音情報を生成することはできる点は、上述した場合と変わりはなく、収録後の再生に供することができる。

また、音情報収録装置１００は、収音から時間差なく空間音情報を自動的に生成するため、収音している期間中に音源であるオブジェクト９０が移動しても、オブジェクト９０の移動による音源位置の変化に対応した空間音情報を出力することができる。

なお、オブジェクト９０が移動する場合とは反対にカメラ２０の基準位置が移動する場合やカメラ２０の向きが変化する場合も、映像における座標系において音源位置が相対的に移動することになるが、この場合にも、音情報収録装置１００は、映像における座標系と収録空間Ｓ１における座標系との対応関係に基づいて、上述と同様に、音源位置の相対的な移動に対応した空間音情報を出力することができる。

また、音情報収録装置１００によって生成された空間音情報は、音場の音響特性に応じた調整がされているため、音を収音した収録空間Ｓ１での音場の臨場感も付加されたものとすることができる。

なお、音場対応調整部４０による、空間音情報に対する、音場の音響特性に応じた調整は、音を収音した実際の収録空間Ｓ１の音場の音響特性に応じた調整に限定されない。すなわち、音場対応調整部４０は、音を収音した実際の収録空間Ｓ１の音場とは別の音場の音響特性に応じて、空間音情報を調整してもよい。

例えば野外の収録空間Ｓ１で収音された空間音情報に対して、音場対応調整部４０は、屋内のホールで音場の音響特性に対応した調整を行うことができる。

このように、音場対応調整部４０が、音を実際に収音した収録空間Ｓ１の音場とは異なる音場の音響特性に応じて、空間音情報を調整することにより、音響特性が意図的に異ならせて音の空間音情報を生成し、出力することができる。

なお、音情報収録装置１００は、上述したライブ配信のように音の収音から時間差なく空間音情報を外部に出力するのではなく、空間音情報を一旦保存し、収音が終了した後に外部に出力してもよい。

図５は、音情報収録装置１００の別例の処理の流れを示すフロチャートである。音情報収録装置１００の別例の処理の流れも、本発明に係る音情報収録方法の一実施形態である。図５に示した別例の処理では、音情報収録装置１００は、音場対応調整部４０による空間音情報の調整を、収音から時間差なく行う必要がない。

音情報収録装置１００は、図５に示すように、収録を開始すると、収録空間Ｓ１に配置された各ピンマイク１１，１２，１３，…により、対応するオブジェクト９１，９２，９３，…の発した音の収音を開始し（Ｔ１）、カメラ２０が収録空間Ｓ１の映像の撮影を開始し（Ｔ１）、収録空間Ｓ１における各オブジェクト９１，９２，９３，…位置（音源位置）を特定する（Ｔ１）。

次いで、空間音情報生成部５０により、収録空間Ｓ１における収録基準位置ＳＰ１に対する音源位置として特定されたオブジェクト９１，９２，９３，…の位置が、各オブジェクトの発した音に対応付けられ（Ｔ２）、空間音情報が生成される。

収録が終了する（Ｔ１１においてＹＥＳ）までは、上述したＴ１，Ｔ２の処理が継続し、収録が終了すると、カメラ２０による映像の撮影、ピンマイク１１，１２，１３，…による音の収音、及び音源位置の特定の各処理が終了する。

そして、この空間音情報に対して、音場対応調整部４０が、予め設定された音場に応じた調整を行って（Ｔ１２）、音場に応じた調整の行われた空間音情報が、空間音情報生成部５０から出力される（Ｔ１３）。

このように、ライブ配信ではない場合、すなわち収音から時間差のない出力でない場合は、音情報収録装置１００の音場対応調整部４０が空間音情報に対する調整を行うのではなく、音情報収録装置１００は、音場の音響特性に対応した調整を行う前の空間音情報を外部に出力して、その出力された空間音情報に対して、音情報収録装置１００の外部に設けられた、音場対応調整部４０と同様の機能を有する装置（音場対応調整装置）等により、調整を行ってもよい。

なお、上述した音情報収録装置１００の作用は、本発明に係る音情報収録方法の一実施形態であるが、本発明に係る音情報収録方法は、上述した音情報収録装置１００を使用したものに限定されない。

すなわち、本発明に係る音情報収録方法は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、収録空間に配置されて、オブジェクトの発した音を収音するマイクにより収音されたオブジェクトの発した音とオブジェクトの位置に関する情報で特定された音源位置とを対応付けた空間音情報を生成するものであればよい。

＜音情報収録再生システム＞
次に、音情報収録再生システム３００について説明する。音情報収録再生システム３００は、図２に示すように、上述した音情報収録装置１００と、音情報再生装置２００と、を備えたシステムである。音情報収録装置１００は、上述した構成で上述した作用により、収録空間Ｓ１で音、映像、位置を収録して空間音情報を生成し、空間音情報を出力する。

図６は、再生空間Ｓ２における、再生基準位置ＳＰ２、仮想的なオブジェクト９１，９２，９３の位置（仮想音源位置）及び音再生部２３１，２３２，２３３の位置（再生位置）の配置の一例を示した模式図である。

音情報再生装置２００は、この音情報収録装置１００によって生成された空間音情報を取得し、この空間音情報を、視聴者が視聴する所定の再生空間Ｓ２に展開して再生する。つまり、音情報収録再生システム３００は、収録空間Ｓ１で収録した音、映像、位置を収録して、この収録した音、映像を、視聴者の再生空間Ｓ２に展開して再生するものである。

再生空間Ｓ２は、図６に示すように、視聴者が空間音情報の音や映像を再生して視聴する空間であり、視聴者が、再生される音及び映像を視聴する位置として、再生基準位置ＳＰ２が設定されている。

音情報再生装置２００は、図２に示すように、音位置分離部２１０と、再生部２２０と、仮想音源位置設定部２５０と、再生音調整部２６０と、を備えている。

音位置分離部２１０は、取得した空間音情報を、各オブジェクト９０の発した音と収録空間Ｓ１における音源位置及び映像とに分離する。

再生部２２０は、音再生部２３０と、映像再生部２４０と、を備えている。音再生部２３０は、音を再生するものであり、例えばスピーカーや、ヘッドフォンや、イヤフォンなどである。音再生部２３０は１つ以上設けられていて、本実施形態においては、３つ以上設けられているものとする。

音再生部２３０における１つとは、例えば、音再生部２３０がスピーカーの場合、１個のスピーカを意味する。したがって、３つの音再生部２３０は、３個のスピーカである。また、ヘッドフォンは、通常、左右の耳に対応して２つの発音部（ドライバーユニット）を備えているが、音再生部２３０がヘッドフォンの場合、音再生部２３０の１つは、発音部の１つに対応する。したがって、音再生部２３０としてヘッドフォンを適用した場合、音再生部２３０は２つである。

これら３つ以上の音再生部２３０（個々の音再生部２３０を、以下、音再生部２３１，２３２，２３３，…ということもある。）は、再生空間Ｓ２における互いに異なる位置に配置されている。なお、音再生部２３１，２３２，２３３，…の数や配置は、視聴者が音及び映像を視聴する環境によって異なる。

なお、音再生部２３０が２つ以上であれば、２つ以上の音再生部２３０からそれぞれ発生された音同士の干渉をを利用して立体音響を生成することができるが、音再生部２３０が１つであっても、音源位置に対応して、再生される音の音量を変化させたり再生される音の周波数特性を変化させたりすることで、疑似的な立体音響を生成することもできる。したがって、音再生部２３０は１つ以上備えていればよい。

再生空間Ｓ２において、再生基準位置ＳＰ２に対する各音再生部２３１，２３２，２３３，…の配置されている位置を再生位置とする。各音再生部２３１，２３２，２３３，…再生位置は、再生音調整部２６０に記憶されている。

映像再生部２４０は、映像を再生するものであり、例えば再生される映像を表示するモニタや、プロジェクタ及びスクリーンなどである。映像再生部２４０も、再生空間Ｓ２の所定の位置に配置されている。この映像再生部２４０の配置される位置は、収録基準位置ＳＰ１でカメラ２０で撮影された映像を、再生空間Ｓ２の映像再生部２４０で再生したときに、再生基準位置ＳＰ２にいる視聴者が再生空間Ｓ２で再生された映像に対応する位置が、収録空間Ｓ１における位置と一致するように、収録空間Ｓ１の映像と再生空間Ｓ２の映像との位置関係を一致させる配置に設定されている。

仮想音源位置設定部２５０は、音再生部２３０によって再生される音を聴く再生基準位置ＳＰ２に、収録空間Ｓ１における収録基準位置ＳＰ１を対応させ、収録空間Ｓ１における音源位置を再生空間Ｓ２に仮想的に対応づけた仮想音源位置を設定する。

つまり、現実の再生空間Ｓ２には、音を再生する音再生部２３０は配置されているが、音源（オブジェクト９１，９２，９３，…）は存在しない。そして、収録空間Ｓ１において音源が配置されていた音源位置は、再生空間Ｓ２において音再生部２３１，２３２，２３３，…が配置されている再生位置と同じとは限らない。上述した仮想音源位置は、収録空間Ｓ１における音源位置を、再生空間Ｓ２に配置したと仮定したときの音源位置である。

なお、再生空間Ｓ２における仮想音源位置に再生位置を一致させるように、音再生部２３０を配置してもよい。この場合、後述する再生音調整部２６０による再生音の調整を省略することができる。

再生音調整部２６０は、収録空間Ｓ１において収音された各オブジェクト９１，９２，９３，…の発した音が、仮想音源位置設定部２５０により設定された仮想音源位置からあたかも聴こえるように、各音再生部２３１，２３２，２３３，…により再生される音を調整する。

前述したように、仮想音源位置と再生位置とは、一致するとは限らず、むしろ、再生空間Ｓ２の環境は視聴者ごとに異なるため、通常は、仮想音源位置と再生位置とは一致しない。

そこで、再生音調整部２６０は、再生基準位置ＳＰ２にいる視聴者に、再生位置に実際に配置されている音再生部２３０から再生された音が、仮想音源位置で発生した音として聴こえるように、音の遅延等の音響特性を調整する。

つまり、再生音調整部２６０は、１つの仮想音源位置と、各音再生部２３０が配置されている再生位置と、再生基準位置ＳＰ２と、に基づいて、仮想音源位置で発生したと想定され各再生位置に配置された音再生部２３０から出力される音について、距離に応じた音圧の調整、遅延時間の調整、周波数の調整等を行って、その調整された音を、各音再生部２３０に出力し、各音再生部２３０がその調整された音を出力（再生）する。

具体的には、再生音調整部２６０は、距離が近いほど音圧を大きく、距離が遠いほど音圧を小さくするように音圧を調整し、距離が近いほど遅延時間を短く、距離が遠いほど遅延時間を長くするように遅延時間を調整し、距離が近いほど音の高周波成分の減衰程度を抑制し、距離が遠いほど音の高周波成分の減衰程度を大きくするように周波数の調整を行う。

再生音調整部２６０による音の調整内容は、視聴者が選択できるようにしてもよい。すなわち、再生音調整部２６０は、視聴者の選択により、音源分離再生として音を再生したり、バイノーラル再生として音を再生したりすることもできる。

そこで、視聴者が、音再生部２３０の具体的態様に合わせて、再生方法として、音源分離再生又はバイノーラル再生を選択する再生方法選択部を設け、視聴者が再生方法選択部によって選択した再生方法に対応した内容で、再生音調整部２６０が音の調整を行うようにしてもよい。

なお、音再生部２３０がスピーカーの場合は、そのスピーカーが向いている向きに応じて、音の調整内容を変えるようにしてもよい。

また、本実施形態において収録空間Ｓ１の映像を撮影するカメラ２０は、収録空間Ｓ１の全範囲を収録することができる、いわゆる３６０度カメラであるため、空間音情報として対応付けられた映像には、収録空間Ｓ１の全範囲が写っている。

したがって、映像再生部２４０がその映像を再生するに際しては、視聴者が、その映像のうち特定の方位を正面に見るように選択して再生することができる。また、映像再生部２４０がその映像を再生するに際しては、視聴者が、特定の方位の映像部分を切り取って拡大する表示にする（ズームアップする）ことで、近付いて見たような映像にしたり、これとは反対に、縮小する表示にする（ズームアウト（パン）する）ことで、遠ざかって見たような映像にすることもできる。

この場合、音情報再生装置２００に、調整受付部２７０と調整部２８０とを設ければよい。調整受付部２７０は、視聴者が視聴しようとする向きの変更操作や、ズームアップ・ズームアウトの調整操作の入力を受け付ける。調整部２８０は、調整受付部２７０が受け付けた調整操作の内容に応じて、再生基準位置ＳＰ２に収録基準位置ＳＰ１を対応させた状態で、再生空間Ｓ２と収録空間Ｓ１との対応関係を調整する。そして、仮想音源位置設定部２５０は、調整部２８０により調整された後の再生空間Ｓ２と収録空間Ｓ１との対応関係にしたがって、仮想音源位置を設定すればよい。

そして、このように、視聴者が、映像再生部２４０で再生される映像の向きを変える操作を選択したり、拡大・縮小の操作を選択したときは、その操作に対応して、仮想音源位置設定部２５０が、再生空間Ｓ２と収録空間Ｓ１との対応関係を変化させることで、仮想音源位置を調整すればよい。

なお、上述した映像に対する操作に応じた仮想音源位置の調整は、カメラ２０が３６０度カメラ等、魚眼レンズなどの広角の光学系を備えたカメラに限定されず、３６０度カメラ等以外の通常のカメラも適用することができる。

ここで、通常のカメラとしては、レンズを交換することができないレンズ固定式のカメラであってもよいし、レンズが脱着式で交換することができるレンズ交換式のデジタルカメラであってもよい。

＜作用＞
図７は、音情報再生装置２００の処理の流れを示すフロチャートである。上述した音情報再生装置２００の処理を、図７に示したフロチャートを用いて説明する。

まず、音位置分離部２１０は、音情報収録装置１００から出力された空間音情報を取得して（Ｔ２１）、取得した空間音情報を、各オブジェクト９０の発生した音と収録空間Ｓ１における音源位置及び映像とに分離する（Ｔ２２）。

次いで、仮想音源位置設定部２５０が、再生空間Ｓ２の再生基準位置ＳＰ２に収録空間Ｓ１における収録基準位置ＳＰ１を対応させたうえで、音位置分離部２１０で分離された収録空間Ｓ１における音源位置を、再生空間Ｓ２に対応させ、その対応した音源位置を仮想音源位置として設定する（Ｔ２３）。

次いで、再生音調整部２６０が、音位置分離部２１０で分離された、収録空間Ｓ１において収音された各オブジェクト９１，９２，９３，…の発した音を、仮想音源位置からあたかも聴こえるように調整し（Ｔ２４）、調整後の音を各音再生部２３０に出力する。

音再生部２３０が、再生音調整部２６０から出力された調整後の音を出力（再生）し、映像再生部２４０が、音位置分離部２１０で分離された、収録空間Ｓ１において撮影された映像を表示（再生）し（Ｔ２５）、処理を終了する。

以上のように、本実施形態の音情報再生装置２００によれば、音情報収録装置１００で生成された空間音情報を取得して、音情報収録装置１００が収録空間Ｓ１の各音源位置において収音された音を、映像とも対応付けて、再生空間Ｓ２の各再生位置に配置された音再生部２３０及び映像再生部２４０を用いて、仮想音源位置で発せられたように、再生することができる。

したがって、視聴者は、収録空間Ｓ１の各音源位置において発せられた音を、再生空間Ｓ２の対応した位置（仮想音源位置）でそれぞれ発した音として聴くことができ、収録空間Ｓ１で収録された音を、収録空間Ｓ１の音場の臨場感を伴って聴くことができる。

また、この音情報再生装置２００によれば、取得した空間音情報を分離して得られる音が、音情報収録装置１００によって、収録空間Ｓ１の音場、又はその他の編集者が設定した音場、に応じた音響特性で調整されているため、視聴者は、視聴者自身が音響特性を調整することなく、音情報収録装置１００によって調整された音響特性の音をそのまま視聴することができる。

＜音源位置を特定する他の例（変形例）＞
上述した実施形態の音情報収録装置１００における音源位置特定部３０による音源位置の特定は、各ピンマイク１０がＧＮＳＳ信号を受信することで、各ピンマイク１０自体の位置を特定し得る信号を出力することで行われるが、本発明における外部マイクの位置の特定は、上記実施形態の形態に限定されず、以下の変形例で説明する種々の態様を適用することができる。

（変形例１）
変形例１は、図３に示した実施形態の配置において、各ピンマイク１０が、ピンマイク１０の位置を特定し得る信号（ＧＮＳＳ信号等）を出力できないものである構成の音情報収録装置１００である。つまり、ピンマイク１０の位置をピンマイク１０自体が出力しない例である。

カメラ２０が撮影した映像は、収録空間Ｓ１の各座標位置と対応付けられている。変形例１は、音源位置特定部３０が、カメラ２０によって撮影された映像に基づいて、画像処理により、映像中のオブジェクト９１，９２，９３又はピンマイク１１，１２，１３を検出する。

画像処理は、ピンマイク１０については、形状、色等の特徴的形態を認識することで行い、オブジェクト９０については、人の場合は顔（口等）や人体の形状等の特徴的形態を認識することで行い、楽器の場合は形状や色などの特徴的形態に基づいて認識することができる。

したがって、音源位置特定部３０は、映像中で検出されたオブジェクト９１，９２，９３又はピンマイク１１，１２，１３の、映像における座標位置を検出することで、各オブジェクト９１，９２，９３の、収録空間Ｓ１における位置、すなわち各音源位置を特定することができる。

なお、カメラ２０からオブジェクト９０までの距離は、例えば、カメラ２０による撮影情報（センササイズ、焦点距離）とオブジェクト９０ごとの標準サイズ情報と撮影された画像（映像）に写ったオブジェクト９０のサイズとに基づいて求めることができる。

なお、映像を画像処理して音源位置を特定する処理では、オブジェクト９０の口の動きを認識することで、いずれのオブジェクト９１，９２，９３が音源であるかを特定することもできる。

また、オブジェクト９０又はピンマイク１０を画像処理により検出する際に、オブジェクト９０やピンマイク１０の特徴的形態に基づいて検出するのではなく、例えば、オブジェクト９０又はピンマイク１０に、肉眼では不可視の赤外光を発する発光部を設け、カメラ２０の撮像センサやカメラに設けられた赤外光受光部によって、その赤外光を検出することで、音源位置特定部３０がオブジェクト９０やピンマイク１０の位置を特定するようにしてもよい。以下に説明する、画像処理を行う変形例においても同様に、赤外光を用いた音源位置の特定処理を適用することができる。

（変形例２）
図８は、図３に示した実施形態の配置において、カメラ２０が空間音声マイク２１を備え、各ピンマイク１０が、ピンマイク１０の位置を特定し得る信号（ＧＮＳＳ信号等）を出力できないものである変形例２の配置例である。図８に示した変形例２において、空間音声マイク２１は、音場を記録することができるマイクであり、指向性を変更したり、収音する音の方向を検出したりすることができるマイクである。音場の一例として、いわゆる５．１ｃｈなどのマルチサラウンドフォーマットアンビソニックス（Ambisonics）などがあげられる。

変形例２における音源位置特定部３０は、空間音声マイク２１により、空間音声マイク２１（カメラ２０）に対する各オブジェクト９１，９２，９３の方向を検出することができる。

また、音源位置特定部３０は、空間音声マイク２１が収音した、各オブジェクト９１，９２，９３が発した音と、各ピンマイク１１，１２，１３が収音した、各オブジェクト９１，９２，９３が発した音と、の収音のタイミング差（位相差）に基づいて、空間音声マイク２１から各ピンマイク１１，１２，１３までの距離を検出することができる。

したがって、上述した方向と距離との特定によって、音源位置特定部３０は、収録空間Ｓ１における、各ピンマイク１１，１２，１３の位置すなわち各オブジェクト９１，９２，９３の位置を特定することができる。

なお、空間音声マイク２１は、各ピンマイク１１，１２，１３が収音するオブジェクト９１，９２，９３の発した音以外の、収録空間Ｓ１に存在する暗騒音等の環境音も収録することができる。つまり、空間音声マイクが収音した、環境音が混在した音から、各ピンマイク１１，１２，１３で収音したオブジェクト９１，９２，９３の発した音を除去する信号処理により、環境音だけを抽出することができる。

このようにして得られた環境音は、音場対応調整部４０による、空間音情報における音に対する調整の際に、音響特性として加えることで、臨場感を一層高めた音を得ることができる。

また、空間音情報生成部５０が、空間音声マイク２１で収音したオブジェクト９１，９２，９３の発した音と、各ピンマイク１１，１２，１３が収音したオブジェクト９１，９２，９３の発した音との対応関係に基づいて、各ピンマイク１１，１２，１３が収音した音に混在した、他のオブジェクト９１，９２，９３の発した音を特定して、各ピンマイク１１，１２，１３が収音した音から、混在した他のオブジェクト９１，９２，９３の発した音を除去して、各オブジェクト９１，９２，９３の発した音を、空間音情報として音源位置に対応付けることができる。

（変形例３）
変形例３は、変形例２と同じ構成であるが、音源位置特定部３０による音源位置の特定の処理が変形例２と異なる。すなわち、変形例３の音源位置特定部３０は、変形例２と同様に、空間音声マイク２１により、空間音声マイク２１（カメラ２０）に対する各オブジェクト９１，９２，９３の方向を検出することができる。

また、音源位置特定部３０は、変形例１と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３又はピンマイク１１，１２，１３を画像処理により検出することで、オブジェクト９１，９２，９３又はピンマイク１１，１２，１３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３又は各ピンマイク１１，１２，１３までの距離を検出することができる。

なお、空間音声マイク２１と各ピンマイク１１，１２，１３とによって抽出された環境音を、空間音情報の音に付加することができる点は、変形例２と同じである。

（変形例４）
変形例２は、変形例３と同じ構成であるが、音源位置特定部３０による音源位置の特定の処理が変形例３と異なる。すなわち、変形例３の音源位置特定部３０は、変形例１と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３又はピンマイク１１，１２，１３を画像処理により検出することで、オブジェクト９１，９２，９３又はピンマイク１１，１２，１３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３の方向を検出することができる。

また、音源位置特定部３０は、変形例２と同様に、空間音声マイク２１が収音した、各オブジェクト９１，９２，９３が発した音と、各ピンマイク１１，１２，１３が収音した、各オブジェクト９１，９２，９３が発した音と、の収音のタイミング差（位相差）に基づいて、空間音声マイク２１から各ピンマイク１１，１２，１３までの距離を検出することができる。

なお、空間音声マイク２１と各ピンマイク１１，１２，１３とによって抽出された環境音を、空間音情報の音に付加することができる点は、変形例２，３と同じである。

また、この変形例４における空間音声マイク２１は、空間音声マイク２１と各ピンマイク１１，１２，１３との距離を検出する手段として用いられていて、空間音声マイク２１から各ピンマイク１１，１２，１３の方向を検出する手段として用いられていない。

このように、距離を検出する手段として用いられるもの、又は、ピンマイクの音と内蔵マイクの音との相関を取得する手段として用いられるものは、各ピンマイク１１，１２，１３の方向等、収音する音の方向を検出することができる空間音声マイク２１である必要はない。

したがって、本変形例４及び以下に説明する他の変形例においても、空間音声マイク２１が、距離を検出する手段として用いられるもの、又は、ピンマイクの音と内蔵マイクの音との相関を取得する手段として用いられるものは、空間音声マイクに代えて、通常のピンマイクや他のモノラルのマイクを適用することもできる。

（変形例５）
図９は、各オブジェクト９０がピンマイク１０を備えず、カメラ２０よりも各オブジェクト９０に近い位置に、１つの空間音声マイク１１０が配置されて、各ピンマイク１０に代えてこの空間音声マイク１１０が、全てのオブジェクト９１，９２，９３がそれぞれ発した音を収音する、上記実施形態の音情報収録装置１００の変形例５を示す模式図である。

変形例５において、空間音声マイク１１０は、変形例２～４における空間音声マイク２１と同様に、収音する音の方向を特定することができるマイクである。空間音声マイク１１０は、上述した実施形態１におけるピンマイク１０と同様に、空間音声マイク１１０自体の位置を特定し得るＧＮＳＳ信号を受信して、音源位置特定部３０にそのＧＮＳＳ信号を出力することで、音源位置特定部３０により、空間音声マイク１１０の位置を特定できるようになっている。

変形例５の音源位置特定部３０は、変形例１と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３を画像処理により検出することで、オブジェクト９１，９２，９３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３の方向及び距離を検出することができる。

また、音源位置特定部３０は、前述したように空間音声マイク１１０から送信されたＧＮＳＳ信号に基づいて、空間音声マイク１１０の位置を特定し、カメラ２０から空間音声マイク１１０の方向を検出することができる。

空間音声マイク１１０は、収音した音の発生方向を特定することができるため、空間音声マイク１１０が検出した、空間音声マイク１１０を基準とする音の方向と、カメラ２０を基準とした各オブジェクト９１，９２，９３の向きと空間音声マイク１１０の向きとに基づいて、空間音声マイク１１０が収音した音を発したオブジェクト９１，９２，９３を特定することができる。したがって、空間音情報生成部５０において、各オブジェクト９１，９２，９３の位置と、各オブジェクト９１，９２，９３の発した音とを対応づけることが可能となる。

（変形例６）
図１０は、図３に示した実施形態の配置において、各オブジェクト９０がピンマイク１０を備えず、変形例２と同様にカメラ２０が空間音声マイク２１を備えるとともに、変形例５と同様にカメラ２０よりも各オブジェクト９０に近い位置に、１つの空間音声マイク１１０が配置されて、各ピンマイク１０に代えてこれらの空間音声マイク２１，１１０が、全てのオブジェクト９１，９２，９３がそれぞれ発した音を収音する変形例６の配置例を示す模式図である。

変形例６の音源位置特定部３０は、いずれか一方の空間音声マイク２１又は空間音声マイク１１０によって収音された、各オブジェクト９１，９２，９３が発した音の、当該空間音声マイク２１又は空間音声マイク１１０に対する方向を検出する。

また、音源位置特定部３０は、前述したように空間音声マイク１１０から送信されたＧＮＳＳ信号に基づいて、空間音声マイク１１０の位置を特定する。

また、音源位置特定部３０は、空間音声マイク２１が収音した、各オブジェクト９１，９２，９３が発した音と、空間音声マイク１１０が収音した、各オブジェクト９１，９２，９３が発した音と、の収音のタイミング差（位相差）に基づいて、空間音声マイク２１から各オブジェクト９１，９２，９３までの距離を検出する。

したがって、一方の空間音声マイク２１又は空間音声マイク１１０からの各オブジェクト９１，９２，９３の方向と、空間音声マイク２１から各オブジェクト９１，９２，９３までの距離との特定によって、音源位置特定部３０は、収録空間Ｓ１における、各オブジェクト９１，９２，９３の位置を特定することができる。

また、空間音声マイク１１０は、収音した音の発生方向を特定することができるため、空間音声マイク１１０が検出した、空間音声マイク１１０を基準とする音の方向と、各オブジェクト９１，９２，９３の位置とに基づいて、空間音声マイク１１０が収音した音を発したオブジェクト９１，９２，９３を特定することができる。したがって、空間音情報生成部５０において、各オブジェクト９１，９２，９３の位置と、各オブジェクト９１，９２，９３の発した音とを対応づけることが可能となる。

なお、空間音声マイク２１で収音された音から、空間音声マイク１１０で収音された各オブジェクト９１，９２，９３が発した音を除去することで、変形例２～４と同様に環境音を抽出することができる。

（変形例７）
変形例７は、変形例６と同じ構成であるが、音源位置特定部３０による音源位置の特定の処理が変形例６と異なる。

変形例７の音源位置特定部３０は、変形例５と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３を画像処理により検出することで、オブジェクト９１，９２，９３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３の方向及び距離を検出することができる。

空間音声マイク１１０は、収音した音の発生方向を特定することができるため、空間音声マイク１１０が検出した、空間音声マイク１１０を基準とする音の方向と、カメラ２０を基準とした各オブジェクト９１，９２，９３の向きと距離とに基づいて、空間音声マイク１１０が収音した音を発したオブジェクト９１，９２，９３を特定することができる。

なお、空間音声マイク２１で収音された音から、空間音声マイク１１０で収音された各オブジェクト９１，９２，９３が発した音を除去することで、変形例６と同様に環境音を抽出することができる。

（変形例８）
変形例８は、変形例６，７と同じ構成であるが、音源位置特定部３０による音源位置の特定の処理が変形例６，７と異なる。

変形例８の音源位置特定部３０は、変形例７と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３を画像処理により検出することで、オブジェクト９１，９２，９３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３の方向を検出することができる。

したがって、カメラ２０の映像に基づいて検出されたカメラ２０から各オブジェクト９１，９２，９３の方向と、２つの空間音声マイク２１，１１０によって検出された空間音声マイク２１から各オブジェクト９１，９２，９３までの距離とに基づいて、音源位置特定部３０は、収録空間Ｓ１における、各オブジェクト９１，９２，９３の位置を特定することができる。

なお、空間音声マイク２１で収音された音から、空間音声マイク１１０で収音された各オブジェクト９１，９２，９３が発した音を除去することで、変形例６，７と同様に環境音を抽出することができる。

（変形例９）
変形例９は、変形例６～８と同じ構成であるが、音源位置特定部３０による音源位置の特定の処理が変形例６～８と異なる。空間音声マイク１１０は、空間音声マイク１１０自体の位置を特定する信号を出力しないものであり、したがって、音源位置特定部３０は、空間音声マイク１１０の位置を、空間音声マイク１１０自体から特定することはできない。

変形例９の音源位置特定部３０は、変形例７，８と同様に、カメラ２０によって撮影された映像に基づいて、映像中のオブジェクト９１，９２，９３を画像処理により検出することで、オブジェクト９１，９２，９３の、映像における座標位置を検出し、カメラ２０から各オブジェクト９１，９２，９３の方向及び距離を検出することができる。

また、音源位置特定部３０は、空間音声マイク２１が収音した、各オブジェクト９１，９２，９３が発した音と、空間音声マイク１１０が収音した、各オブジェクト９１，９２，９３が発した音と、の収音のタイミング差（位相差）、及び上述のカメラ２０の映像によって検出された各オブジェクト９１，９２，９３の位置に基づいて、空間音声マイク１１０の位置を特定する。

以上の検出結果に基づいて、音源位置特定部３０は、収録空間Ｓ１における、各オブジェクト９１，９２，９３の位置及び空間音声マイク１１０の位置を特定することができる。

また、位置が特定された空間音声マイク１１０は、収音した音の発生方向を特定することができるため、空間音声マイク１１０が検出した、空間音声マイク１１０を基準とする音の方向と、各オブジェクト９１，９２，９３の位置とに基づいて、空間音声マイク１１０が収音した音を発したオブジェクト９１，９２，９３を特定することができる。したがって、空間音情報生成部５０において、各オブジェクト９１，９２，９３の位置と、各オブジェクト９１，９２，９３の発した音とを対応づけることが可能となる。

（変形例１０）
図１１は、図３に示した実施形態の配置において、各ピンマイク１０が、各ピンマイク１０の識別信号とともにＧＮＳＳ信号を外部に送信する送受信チップを備える代わりに、識別信号とともにＢＬＥ（Bluetooth Low Energy（登録商標））を用いたBeacon信号（以下、ビーコン信号という）を出力するビーコン１１ａ，１２ａ，１３ａを備え、音源位置特定部３０が、収録空間Ｓ１に分布して配置された複数（例えば３個）の受信部３１，３２，３３を備えた変形例１１の配置例の模式図である。

受信部３１，３２，３３は収録空間Ｓ１に固定されていて、その固定された位置は、音源位置特定部３０により予め記憶されている。

変形例１０は、ピンマイク１１，１２，１３のビーコン１１ａ，１２ａ，１３ａが識別信号とともにビーコン信号を出力する。受信部３１，３２，３３は、各ビーコン１１ａ，１２ａ，１３ａが出力したビーコン信号を受信する。

ここで、例えば、ピンマイク１１のビーコン１１ａが出力したビーコン信号を、３つの受信部３１，３２，３３がそれぞれ受信したとき、音源位置特定部３０は、各受信部３１，３２，３３が受信したビーコン信号の強弱に応じて、受信部３１，３２，３３に対するビーコン１１ａの相対的な位置を特定することができる。

音源位置特定部３０は、ビーコン信号に含まれる識別信号によって、いずれのビーコン１１ａ，１２ａ，１３ａから出力されたビーコン信号であるかを特定することができるため、各ピンマイク１１，１２，１３の位置を特定することができ、音源位置を特定することができる。

なお、ＢＬＥを用いたビーコン信号を出力するビーコンに代えて、超音波を出力する超音波発信器をピンマイクが備えた構成とし、受信部が超音波を受信することで、各ピンマイクの位置を特定するものとしてもよい。同様に、超音波を用いた個性によっても、上記変形例１０と同様に、音源位置を特定することができる。

また、上述した変形例１０は、各ピンマイクにビーコンを備えたものとし、複数の受信部により各ビーコンの位置を特定するものであるが、ビーコンに代えて、タグ、タイル又はピース等の情報交換デバイスをピンマイクに備えたものとしてもよい。この情報交換デバイスは、特定の物に固定し、取り付けし又は備える等して、近くに存在する他の通信デバイスとの間で、例えばブルートゥース（Bluetooth）信号（ブルートゥース及びBluetoothはいずれも登録商標）で、１対１で情報を交換（通信）することにより、その特定の物の位置を特定し得るデバイスである。

この構成の場合、受信部を複数備える必要が無く、１つの通信デバイスにより、複数の情報交換デバイスの位置、すなわち複数のピンマイクの位置を特定することができる。

なお、本例においても、各ピンマイクは、オブジェクトが発する声(音)が大きかったり又はオブジェクト同士が近接していたりして、意図せずに、ピンマイクが設けられているオブジェクトの発する音の他に、他のオブジェクト等から発せられた音（他のピンマイクに対応したオブジェクトが発した音だけでなく、ピンマイクに対応していない外部の環境音やその他の音を含む）も収音することが起こり得る。

この場合、特定のピンマイクに混入した音の成分は、ピンマイク同士の位置情報とそれぞれのピンマイクで収録している音声データから計算処理で差し引くことができる。これにより、各ピンマイクに対応したオブジェクトの音だけを正しく分離して収録することができる。

上述した実施形態及び各変形例において、ピンマイク１１，１２，１３等に、カメラを設けた構成としてもよい。このように、各ピンマイク１１，１２，１３にカメラを設けた構成により、このようにピンマイクが複数あるときに、ピンマイクにどちらからどの音（どの音源で発生した音）が収音されたのかを、カメラで写された映像に基づいて特定することができる。

なお、ピンマイクとしては、指向性マイクに限定されず、無指向性マイクにも上記と同様に適用することができる。

図１２は、カメラ２０の筐体２０ａにピンマイク１６，１７が着脱可能に直接取り付けられた状態を示す、カメラ２０を正面から見た模式図、図１３は、カメラ２０の筐体２０ａに、取付部材１５を介して、ピンマイク１６，１７，１８，１９が着脱可能に直接取り付けられた状態を示す、カメラ２０を正面から見た模式図である。

上述した実施形態及び各変形例において、図１２に示すように、カメラ２０に着脱可能のピンマイク１６，１７を設けた構成としてもよい。ピンマイク１６，１７をカメラ２０に取り付けた状態では、カメラ２０の周囲の環境音をピンマイク１６，１７によって収音することができ、一方、ピンマイク１６，１７をカメラ２０から取り外した状態では、各ピンマイク１６，１７をオブジェクトに取り付けて、ピンマイク１１，１２と同様にオブジェクトベースのマイクとして取り扱うことができる。

ピンマイク１６，１７のカメラ２０への取り付けは、図１２に示すように、カメラ２０の筐体２０ａにピンマイク１６，１７を直接固定する構造であってもよいし、図１３に示すように、取付部材１５を介して、カメラ２０の筐体に複数のピンマイク１６，１７（図では、２つのピンマイク１８，１９をさらに追加している）を取り付ける構造であってもよい。

なお、図１３に示す、ピンマイク１６，１７，１８，１９を取付部材１５に取り付け、この取付部材１５をカメラ２０に取り付ける構造の方が、ピンマイク１６，１７，１８，１９を取り付けるための複数の取付部をカメラ２０の筐体２０ａに形成する必要が無いため、複数の取付部を設けることによってカメラ２０が大型化するのを回避することができ、好ましい。

図１４Ａは、２つのピンマイク１６，１７が、互いに平行に、前方を向いた姿勢でカメラ２０に取り付けられた状態を模式的に示す、カメラ２０の上方から見た平面図、図１４Ｂは、２つのピンマイク１６，１７が、互いに平行に、後方を向いた姿勢でカメラ２０に取り付けられた状態を模式的に示す、カメラ２０の上方から見た平面図、図１４Ｃは、２つのピンマイク１６，１７が、互いに平行に、一方は前方を向いた姿勢で、他方は後方を向いた姿勢でカメラ２０に取り付けられた状態を模式的に示す、カメラ２０の上方から見た平面図である。

また、図１４Ｄは、２つのピンマイク１６，１７が、カメラ２０の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の中心に向けた姿勢でカメラ２０に取り付けられた状態を模式的に示す、カメラ２０の上方から見た平面図、図１４Ｅは、２つのピンマイク１６，１７が、カメラ２０の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の外側に向けた姿勢でカメラ２０に取り付けられた状態を模式的に示す、カメラ２０の上方から見た平面図である。

また、図１４Ｆは、４つのピンマイク１６，１７，１８，１９が取付部材１５に取り付けられて単一の空間音声マイク２１を構成した例を示す模式図である。

カメラ２０に取り付けた状態のピンマイク１６，１７は、例えば、図１４Ａに示すように、カメラ２０の左右方向に互いに離れた状態で、両方のピンマイク１６，１７を平行な姿勢で、かつ前方に向けた（矢印で示す）配置としてもよい。

また、例えば、図１４Ｂに示すように、ピンマイク１６，１７をカメラ２０の左右方向に互いに離れた状態で、両方のピンマイク１６，１７を平行な姿勢で、かつ後方に向けた（矢印で示す）配置としてもよい。

また、例えば、図１４Ｃに示すように、ピンマイク１６，１７をカメラ２０の左右方向に互いに離れた状態で、一方のピンマイク１６を前方に向け（矢印で示す）、他方のピンマイク１７を後方に向けた（矢印で示す）配置としてもよい。

また、例えば、図１４Ｄに示すように、ピンマイク１６，１７をカメラ２０の左右方向に・BR>ンいに離れた状態で、それぞれ前方の、左右方向の中心に向けた（矢印で示す）配置としてもよい。

また、例えば、図１４Ｅに示すように、ピンマイク１６，１７をカメラ２０の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の外側に向けた（矢印で示す）配置としてもよい。

また、例えば、図１３に示した取付部材１５を、図１４Ｆに示すように、４つのピンマイク１６，１７，１８，１９をそれぞれ互いに異なる向きに配置して、一体の空間音声マイク２１とみなせる構造としてもよい。

そして、ピンマイク１６，１７，１８，１９がカメラ２０に取り付けられている状態では、単一の空間音声マイク２１として機能し、ピンマイク１６，１７，１８，１９がカメラ２０から取り外された状態では、４つのピンマイク１６，１７，１８，１９に分割されて、それぞれ対応するオブジェクトに装着されたオブジェクトベースのマイクとして機能するように、ピンマイク１６，１７，１８，１９の動作の制御を切り替えるようにすればよい。

つまり、各ピンマイク１１，１２，１３，１４がカメラ２０に取り付けられた状態においては、ピンマイク１１，１２，１３，１４は、それぞれ別の方向に指向性を有する空間音声マイクとして機能し、ピンマイク１１，１２．１３，１４で収音した音の情報はカメラ２０の位置と対応付けられる。

一方、各ピンマイク１６，１７，１８，１９がカメラ２０から取り外されて、オブジェクト９１，９２，９３，９４に装着された状態では、上述した実施形態で説明したように、ピンマイク１６，１７，１８，１９は、オブジェクトベースで収音するマイクとして機能させることができ、ピンマイク１６，１７．１８，１９で収音した音の情報は装着された各オブジェクト９１，９２，９３，９４の位置と対応付けられる。

各ピンマイク１６，１７，１８，１９を、オブジェクトベースで収音するマイクとして機能させた場合、カメラ２０に取り付けられている取り付けられている指向性マイクとして機能させた場合よりも、オブジェクト９１，９２，９３、９４で発せられた音を、より鮮明に収音することができる。また、収録空間へのレンダリングも容易にすることができる。

（ピンマイクの詳細の構成）
図１５はカメラ２０に着脱可能のピンマイク１６の詳細の構成を示す模式図である。上述したカメラ２０に着脱可能のピンマイク１６は、例えば図１５に示すように、マイク１６ａと、音声エンジン１６ｂと、アンテナ１６ｃと、無線機能部１６ｄと、電源１６ｅと、電源機能部１６ｆと、切替スイッチ（ＳＷ）１６ｇと、クリップ検出部１６ｈと、筐体１６ｉと、カメラ取付部１６ｊと、クリップ１６ｋと、を備えている。

マイク１６ａは、音を収音する部分である。音声エンジン１６ｂは、マイク１６ａで収音したアナログの音を、データとしての音情報に変換する変換部である。アンテナ１６ｃは、データを無線で外部と送受信する空中線である。無線機能部１６ｄは、音情報をアンテナ１６ｃを通じた無線で外部に送信するための信号を生成する部分である。

なお、ピンマイク１６がカメラ２０に取り付けられているときは、後述する電源機能部１６ｆの制御により、音情報をアンテナ１６ｃを通じて無線によって外部に送信しないで、音情報を、カメラ取付部１１ｊを介してカメラ２０に出力し、カメラ２０側で音情報を送信する。

電源１６ｅは、ピンマイク１６の各部を動作させるのに必要とさせる電力を発生する部分であり、例えば電池である。電池は一次電池であってもよいし、二次電池であってもよい。電源機能部１６ｆは、電源１６ｅ又はカメラ３２０の内蔵する電源で発生した電力を、ピンマイク１６の各部に供給する制御を行ったり、ピンマイク１６のその他の動作の制御を行ったりする。

筐体１６ｉは、上述したマイク１６ａと音声エンジン１６ｂとアンテナ１６ｃと無線機能部１６ｄと電源１６ｅと電源機能部１６ｆと後述する切替ＳＷ１６ｇとクリップ検出部１６ｈとを内部に収容し、また、後述するカメラ取付部１６ｊとクリップ１６ｋとを外部に備えたケースである。

カメラ取付部１６ｊは、ピンマイク１６を、カメラ２０の、例えばアクセサリシューに着脱可能に取り付ける部分である。カメラ取付部１６ｊは、筐体１６ｉに対して、屈曲した姿勢（図１５における実線で記載の姿勢）と、一直線上に伸ばされた姿勢（図１５における二点鎖線で記載に姿勢）とに姿勢を変化する。

そして、ピンマイク１６がカメラ２０に取り付けられた状態では屈曲した姿勢に切り替えることで、マイク１６ａをカメラ２０に近い配置とする。一方、ピンマイク１６がカメラ２０から取り外された状態では伸ばされた姿勢に切り替えて、オブジェクト９１に装着し易い状態で使用される。

カメラ取付部１６ｊが筐体１６ｉに対して屈曲した姿勢と伸ばされた姿勢との切り替えに対応して、切替ＳＷ１６ｇの出力が切り替えられる。つまり、カメラ取付部１６ｊが筐体１６ｉに対して屈曲した姿勢に切り替えられているときは、切替ＳＷ１６ｇは屈曲した姿勢に対応した信号を出力し、カメラ取付部１６ｊが筐体１６ｉに対して伸ばされた姿勢に切り替えられているときは、切替ＳＷ１６ｇは伸ばされた姿勢に対応した、屈曲した姿勢に対応した信号とは異なる信号を出力する。

したがって、切替ＳＷ１６ｇの出力に基づいて、ピンマイク１６がカメラ２０に取り付けられている状態であるか、又はカメラ２０から取り外されている状態であるかの別を、電源機能部１６ｆが検知することができる。

クリップ１６ｋは、ピンマイク１６がカメラ２０から取り外された状態で、オブジェクト９１に装着するための部材である。したがって、クリップ１６ｋは、ピンマイク１６がカメラ２０に取り付けられている状態では使用されない。また、ピンマイク１６がカメラ２０から取り外されている状態であっても、ピンマイク１１がオブジェクト９１に装着されていないこともある。この場合は、クリップ１６ｋは使用されない。

クリップ１６ｋが使用されているか又は使用されていないかに対応して、クリップ検出部１６ｈの出力が切り替えられる。つまり、ピンマイク１６がカメラ２０から取り外されてオブジェクト９１にクリップ１６ｋで装着されている場合、クリップ検出部１６ｈは、クリップ１６ｋの使用を検出した信号を出力する。

一方、ピンマイク１６がカメラ２０に取り付けられている場合又はカメラ２０から取り外されているがオブジェクト９１にクリップ１６ｋで装着されていない場合、クリップ検出部１６ｈは、クリップ１６ｋの使用を検出した信号を出力しない。

したがって、クリップ検出部１１ｈの出力に基づいて、ピンマイク１６がクリップ１６ｋによりオブジェクト９１に装着されている状態であるか、又はピンマイク１６がオブジェクト９１に装着されていない状態であるかの別を、電源機能部１６ｆが検知することができる。

電源機能部１６ｆは、切替ＳＷ１６ｇの出力に応じて、マイク１６ａ、音声エンジン１６ｂ、アンテナ１６ｃ、無線機能部１６ｄ、切替ＳＷ１６ｇ及びクリップ検出部１６ｈに供給する電力を、ピンマイク１６に内蔵されている電源１６ｅとするか又はカメラ２０に内蔵されている電源（図示省略）とするかを切り替える。

具体的には、切替ＳＷ１６ｇの出力が、ピンマイク１６がカメラ２０に取り付けられている状態に対応したものであるときは、電源機能部１６ｆは、カメラ２０に内蔵されている電源に切り替えて、このカメラに内蔵された電源の電力を、接続されたカメラ取付部１６ｊを介して、マイク１６ａ、音声エンジン１６ｂ、アンテナ１６ｃ、無線機能部１６ｄ、切替ＳＷ１６ｇ及びクリップ検出部１６ｈに供給する。

一方、切替ＳＷ１６ｇの出力が、ピンマイク１６がカメラ２０から取り外されている状態に対応したものであるときは、電源機能部１６ｆは、ピンマイク１６に内蔵されている電源１６ｅに切り替えて、この電源１６ｅの電力を、マイク１６ａ、音声エンジン１６ｂ、アンテナ１６ｃ、無線機能部１６ｄ、切替ＳＷ１６ｇ及びクリップ検出部１６ｈに供給する。

このようにピンマイク１６がカメラ２０に取り付けられているか否かに対応して、ピンマイク１６を動作させる電力の供給元を、適切に切り替えることができる。

なお、切替ＳＷ１６ｇの出力が、ピンマイク１６がカメラ２０に取り付けられている状態に対応したものであるときは、電源機能部１６ｆは、カメラ２０に内蔵されている電源に切り替えることに加えて、カメラ２０の電源の電力を、ピンマイク１６が内蔵する電源１６ｅにも供給して、その電力により電源１６ｅを充電するようにしてもよい。

また、電源機能部１６ｆは、、切替ＳＷ１６ｇの出力に応じて、音情報をアンテナ１６ｃを通じて無線によって外部に送信するか、又は音情報をカメラ２０側で外部に送信するかの切り替えも制御する。

また、切替ＳＷ１６ｇの出力が、ピンマイク１６がカメラ２０に取り付けられている状態に対応したものであるとき、又はクリップ検出部１６ｈの出力が、ピンマイク１１がクリップ１６ｋによりオブジェクト９１に装着されている状態に対応したものであるとき、電源機能部１６ｆは、マイク１６ａの収音を有効（マイク１６ａに電力を供給した状態）とする。

一方、切替ＳＷ１６ｇの出力が、ピンマイク１６がカメラ２０から取り外されている状態に対応したものであるときで、かつクリップ検出部１６ｈの出力が、ピンマイク１６がオブジェクト９１に装着されていない状態に対応したものであるとき、電源機能部１６ｆは、マイク１６ａの収音を無効（マイク１６ａに電力を供給しない状態）とする。

したがって、ピンマイク１６がカメラ２０から取り外されている状態で、オブジェクト９１に装着されていないときは、マイク１６ａによって、電源１６ｅの電力が無駄に消費されるのを防止することができる。

なお、切替ＳＷ１６ｇは、筐体１６ｉに対してカメラ取付部１６ｊが屈曲している状態であるか又は伸びた状態であるかに応じて出力が変化するのに加えて、屈曲している角度に応じて、出力を変化させてもよい。これにより、カメラ取付部１１ｊに対する筐体１１ｉの角度すなわち、カメラ２０に対するマイク１６ａの上下向き（水平面に対する上下方向の角度）を、電源機能部１６ｆが検知することができる。

また、切替ＳＷ１６ｇは、カメラ取付部１６ｊの軸を中心とした回転角度に応じて、出力を変化させてもよい。これにより、カメラ２０に対するマイク１６ａの左右向き（鉛直軸回りの、カメラ２０の正面に対する角度）を、電源機能部１６ｆが検知することができる。

上述したピンマイク１６についての説明は、他のピンマイク１７，１８，１９についても同様に適用することができる。

カメラ２０から取り外されて、オブジェクト９１，９２，９３等にクリップでそれぞれ装着された状態では、上述した実施形態で説明したように、オブジェクトベースで収音するマイクとして機能する。

各ピンマイク１６，１７，１８，１９は、オブジェクトベースで収音するマイクとして機能するときは、各ピンマイク１６，１７，１８，１９自身の位置情報を取得するＧＮＳＳ信号等を受信する位置情報取得部と、取得した位置情報をカメラ２０等の外部に送信するための送信部と、これら位置情報取得部及び送信部を駆動するための電源と、を備えた構成とすればよい。

一方、各ピンマイク１６，１７，１８がカメラ２０に装着された状態においては、収音した音の情報を、その装着された部分を通じて有線でカメラ２０に送信し、カメラ２０が取得したカメラ２０の位置情報を、ピンマイク１６，１７，１８、１９の各位置情報としても用いる。そして、ピンマイク１６，１７，１８，１９で収音した音の情報及び位置情報を、カメラ２０で撮影された映像とともに、収録することができる。

なお、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、カメラが接続されている場合であっても、必ずしも有線でカメラと通信する必要はない。すなわち、カメラが接続されている構成において、マイクの設定が変わるにしても、マイクで収音した音の情報は、無線でカメラに送信するものであってもよい。

＜本発明の他の態様＞
上述した実施形態や変形例の音情報収録装置１００は、収録空間Ｓ１において発生した音をマイクで収音するとともに、収録空間Ｓ１の映像をカメラで撮影して、収音した音と、音源位置と、映像と、を対応付けた空間音情報を生成するものである。

しかし、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、空間音情報として映像を対応付けたものに限定されない。すなわち、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、収録空間Ｓ１において発生した音をマイクで収音して、収音した音と、音源位置と、を対応付けた空間音情報を生成するものであればよい。この場合、上述した実施形態の音情報収録装置１００は、収録空間Ｓ１を撮影するカメラ２０を備えない構成とすればよい。

なお、カメラ２０を備えない構成の音情報収録装置及び音情報収録再生システムでは、音源位置特定部３０が、カメラ２０の配置された位置である収録基準位置ＳＰ１を特定することができない。そこで、この場合は、音源位置特定部３０が、収録空間Ｓ１内に収録基準位置ＳＰ１を任意に設定し、各ピンマイク１０の位置、各オブジェクト９０の位置、空間音声マイク２１，１１０の位置を、その任意に設定した収録基準位置ＳＰ１に対する相対的な位置として特定すればよい。

音源位置特定部３０が収録基準位置ＳＰ１を設定するに際しては、収録空間Ｓ１内において収録基準位置ＳＰ１として設定しようとする位置に、位置を特定するための発信機等を配置して、音源位置特定部３０がその発信機の位置を検出することで、位置を特定してもよい。

また、カメラ２０を備えない構成の音情報収録装置及び音情報収録再生システムでは、カメラ２０で撮影した映像を画像処理して、音源位置を特定する処理を行うことはできない。したがって、この場合、音源位置特定部３０は、音源位置を、映像を画像処理して特定する処理とは異なる処理によって特定する処理を適用すればよい。

映像を画像処理して特定する処理とは異なる音源位置の特定処理としては、上述したように、例えば、各ピンマイク１０がＧＮＳＳ信号を受信して音源位置特定部３０にその信号を送信して、各ピンマイク１０の位置（音源位置）を特定する処理や、各ピンマイク１０や各オブジェクト９０に装着された発信機が発信した電波や超音波等の信号を、収録空間Ｓ１に分布して配置された複数のアンテナによって受信し、音源位置特定部３０が、アンテナ間での受信した信号の位相乃至振幅の差異に基づいて、各発信機の位置すなわち各オブジェクトの位置（音源位置）を特定する処理などを適用することができる。

音情報収録装置１００が収録空間Ｓ１の映像を収録しないものである場合、生成された空間音情報には映像が対応付けられていないため、音情報収録再生システム３００の音情報再生装置２００の音位置分離部２１０は、空間音情報を、音と音源位置とに分離するものであればよい。また、再生部２２０は、音再生部２３０を備えるが、映像再生部２４０を備えなくてもよい。そして、音情報再生装置２００は、再生空間Ｓ２に音を再生するが、収録空間Ｓ１の映像を再生することはない。

ただし、この場合であっても、音情報再生装置２００は映像再生部２４０を備えてもよく、音情報収録装置１００によって音を収録したときに撮影された収録空間Ｓ１の映像ではなく、別のタイミングで撮影された収録空間Ｓ１の映像や、収録空間Ｓ１とは別の映像を、映像再生部２４０で再生することを排除するものではない。

上述した実施形態の音情報収録装置１００は、音場対応調整部４０を備えているが、本発明に係る音情報収録装置及び音情報収録再生システムは、必ずしも、収音した音に対して、収録空間Ｓ１の音場等の音響特性に応じた調整を行う必要はなく、したがって、音場対応調整部を備えない構成であってもよい。

１０，１１～１３ピンマイク
２０カメラ
３０音源位置特定部
４０音場対応調整部
５０空間音情報生成部
９０，９１～９３オブジェクト
１００音情報収録装置
Ｓ１収録空間
Ｓ２再生空間
ＳＰ１収録基準位置
ＳＰ２再生基準位置

Claims

収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定する音源位置特定部と、
前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置特定部で特定した前記音源位置とを対応付けた空間音情報を生成する空間音情報生成部と、を備えた音情報収録装置。
空間音情報生成部は、前記収録基準位置に配置されたカメラにより撮影された映像と前音源位置とを対応づける請求項１に記載の音情報収録装置。
前記マイクは、ＧＮＳＳ信号を受信し、前記マイクを識別する識別信号とともに、受信した前記ＧＮＳＳ信号に基づいて前記マイクの位置を特定する信号を出力し、
前記音源位置特定部は、前記マイクから送信された識別信号と前記マイクの位置を特定する信号とに基づいて、前記音源位置を特定する請求項１又は２に記載の音情報収録装置。
前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて、前記音源位置を特定する請求項２に記載の音情報収録装置。
前記マイクを２つ以上備え、そのうち少なくとも１つが、収音する音の向きを検出することができる空間音声マイクであり、
前記音源位置特定部は、２つの前記マイクにの収音のタイミング差にに基づいて求められた前記収録基準位置から前記オブジェクト若しくは前記マイクまでの距離と、前記空間音声マイクにより収音された音の方向と、に基づいて、前記音源位置を特定する請求項１又は２に記載の音情報収録装置。
前記マイクが、収音する音の向きを検出することができる空間音声マイクであり、
前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの距離と、前記空間音声マイクにより収音された音の方向と、に基づいて、前記音源位置を特定する請求項２に記載の音情報収録装置。
前記マイクを２つ以上備え、
前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの方向と、２つの前記マイクにより収音された音の収音のタイミング差に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの距離と、に基づいて、前記音源位置を特定する請求項２に記載の音情報収録装置。
前記音源位置特定部は、前記マイクにそれぞれ備えられたビーコンから出力されるビーコン信号を受信する複数の受信部を備え、
前記音源位置特定部は、複数の前記受信部で受信された前記ビーコン信号に基づいて、前記音源位置を特定する請求項１又は２に記載の音情報収録装置。
前記マイクにより収音された前記オブジェクトの発した音に対して、予め設定された音場における音響特性に応じた調整を行う音場対応調整部を備え、
前記空間音情報生成部は、前記音場対応調整部で調整された後の、前記オブジェクトの発生した音を、前記空間音情報として生成する請求項１から８のうちいずれか１項に記載の音情報収録装置。
請求項１から９のうちいずれか１項に記載の音情報収録装置と、前記音情報収録装置によって収録された前記空間音情報に基づいて、前記オブジェクトの発した音を再生空間に再生する音情報再生装置と、を備えた音情報収録再生システムであって、
前記音情報再生装置は、前記空間音情報を、前記オブジェクトの発した音と前記音源位置とに分離する音位置分離部と、
前記再生空間に配置された、音を再生する音再生部と、
前記再生空間における、前記音再生部により再生される音を聴く位置として設定された再生基準位置に、前記収録空間における前記収録基準位置を対応させ、前記収録空間における前記音源位置を前記再生空間に仮想的に対応づけた仮想音源位置を設定する仮想音源位置設定部と、
前記仮想音源位置から、前記オブジェクトの発生した音が再生されるように、前記再生部により再生される音を調整する再生音調整部と、を備えた音情報収録再生システム。
前記音情報生成装置が、前記収録基準位置に配置されて、前記オブジェクトを含む前記収録空間の映像を撮影するカメラを備え、
前記音情報再生装置が、前記カメラで撮影された前記映像を前記再生空間に再生する映像再生部を備え、
前記音位置分離部は、前記空間音情報を、前記オブジェクトの発生した音と前記音源位置と前記映像とに分離するものであり、
前記仮想音源位置設定部は、前記音再生部により再生される音及び前記映像を視聴する位置として設定された前記再生基準位置に、前記収録空間における前記収録基準位置を対応させ、
前記再生音調整部は、前記仮想音源位置設定部によって前記映像における前記仮想音源位置から、前記オブジェクトの発生した音が聴こえるように、前記再生部から再生される音を調整する、請求項１０に記載の音情報収録再生システム。
前記音情報再生装置は、前記再生空間と前記収録空間との対応関係を調整する入力を受け付ける調整受付部と、前記調整受付部に受け付けた入力にしたがって、前記再生空間と前記収録空間との対応関係を、前記再生基準位置に前記収録基準位置を対応させた状態で調整する調整部と、を備え、
前記仮想音源位置設定部は、前記調整部により調整された後の、前記再生空間と前記収録空間との対応関係にしたがって、前記仮想音源位置を設定する請求項１０又は１１に記載の音情報収録再生システム。
収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、
前記オブジェクトの位置に関する情報に基づいて音源位置を特定し、
前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置とを対応付けた空間音情報を生成する、音情報収録方法。