JP2023078689A - 音情報収録装置、音情報収録再生システム及び音情報収録方法 - Google Patents
音情報収録装置、音情報収録再生システム及び音情報収録方法 Download PDFInfo
- Publication number
- JP2023078689A JP2023078689A JP2021191939A JP2021191939A JP2023078689A JP 2023078689 A JP2023078689 A JP 2023078689A JP 2021191939 A JP2021191939 A JP 2021191939A JP 2021191939 A JP2021191939 A JP 2021191939A JP 2023078689 A JP2023078689 A JP 2023078689A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- microphone
- recording
- unit
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
【課題】人の手動操作を介さずに、オブジェクトの発生する音を、その音を収音したときの収録空間に対応付けて収録する音情報収録装置を提供する。【解決手段】音情報収録装置100は、収録空間S1に配置されて、オブジェクト90の発した音を収音するピンマイク10と、収録空間S1におけるオブジェクト90の位置を、予め設定された収録基準位置SP1に対する相対的な音源位置として特定する音源位置特定部30と、ピンマイク10により収音されたオブジェクト90の発した音と音源位置特定部30で特定した音源位置とを対応付けた空間音情報を生成する空間音情報生成部50と、を備える。【選択図】図1
Description
本発明は、音情報収録装置、音情報収録再生システム及び音情報収録方法に関する。
従来、例えばテレビ番組の収録では、収録現場をカメラで撮影するとともに、出演者ごとにピンマイクを装着して、各出演者の音声を個別に収音することが行われている。これにより、各出演者の音声を明瞭に記録することができ、そのテレビ番組の視聴者に、出演者の音声を明瞭に聴取させることができる。
また、近年は、個人が、自分で撮影した動画を、ネットワークを通じて広く公開することが可能になっている。そして、そのような動画の撮影の場面においても、カメラが一体に備えている内蔵マイクで収音するのではなく、ピンマイク等の別体の外部マイクを用いて、出演者や楽器等のオブジェクトが発生した音を個別に収音することが行われている。
さらに、カメラで撮影した映像における各オブジェクトの位置に、オブジェクトに対応したマイクで収音した音を割り当てるレンダリングを行って、視聴者に、収録時の臨場感を与えることも行われている。
しかし、このレンダリングは、人が手動で行うため非常に手間が掛かり、特に、オブジェクトが移動する映像に対して手動でレンダリングを行うのは困難である。さらに、収録から再生までの時間差がほとんどない状況(ライブ配信等)には対応することができない。
そこで、映像の情報に基づいて、音の発生源であるオブジェクトの位置を検出する技術が提案されている(例えば、特許文献1参照)。
特許文献1に記載された技術は、外部マイクで収音したオブジェクトの発生する音を、人の手動の操作を介さずに、音源の位置と対応付けるものではない。
本発明の第1は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定する音源位置特定部と、前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置特定部で特定した前記音源位置とを対応付けた空間音情報を生成する空間音情報生成部と、を備えた音情報収録装置である。
本発明の第2は、本発明に係る音情報収録装置と、前記音情報収録装置によって収録された前記空間音情報に基づいて、前記オブジェクトの発した音を再生空間に再生する音情報再生装置と、を備えた音情報収録再生システムであって、前記音情報再生装置は、前記空間音情報を、前記オブジェクトの発した音と前記音源位置とに分離する音位置分離部と、前記再生空間に配置された、音を再生する音再生部と、前記再生空間における、前記音再生部により再生される音を聴く位置として設定された再生基準位置に、前記収録空間における前記収録基準位置を対応させ、前記収録空間における前記音源位置を前記再生空間に仮想的に対応づけた仮想音源位置を設定する仮想音源位置設定部と、前記仮想音源位置から、前記オブジェクトの発生した音が再生されるように、前記再生部により再生される音を調整する再生音調整部と、を備えた音情報収録再生システムである。
本発明の第3は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定し、前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置とを対応付けた空間音情報を生成する、音情報収録方法である。
以下、本発明に係る音情報収録装置、音情報収録再生システム及び音情報収録方法の実施形態について、図面を用いて説明する。
図1は、本発明に係る音情報収録装置の一実施形態を示すブロック図、図2は、本発明に係る音情報収録再生システムの一実施形態を示すブロック図である。図2に示した音情報収録再生システムにおける音情報収録装置は、図1に示した音情報収録装置である。
<音情報収録装置>
本実施形態の音情報収録装置100は、所定の収録空間S1において音源が発した音を、その音源の位置と対応づけて、収録空間S1を撮影した映像とともに収録するものである。また、映像は収録空間S1を可視的に表したものであるため、収録空間S1における音源の位置は、映像における音源の位置に対応付けられたものとなる。
本実施形態の音情報収録装置100は、所定の収録空間S1において音源が発した音を、その音源の位置と対応づけて、収録空間S1を撮影した映像とともに収録するものである。また、映像は収録空間S1を可視的に表したものであるため、収録空間S1における音源の位置は、映像における音源の位置に対応付けられたものとなる。
本実施形態の音情報収録再生システム300は、音情報収録装置100と、音情報再生装置200と、を備えたシステムである。音情報収録再生システム300は、音情報収録装置100によって収録空間S1における音源の位置(音源位置)と対応づけられた音を、所定の再生空間S2の位置(再生位置)に展開して、映像とともに再生することで、再生空間S2において再生した映像における音源位置から音が発生しているように、臨場感のある音を再生させる。
音情報収録装置100は、図1に示すように、音源位置特定部30と、音場対応調整部40と、空間音情報生成部50と、を備えている。
図3は、収録空間S1における、ピンマイク10を付けた複数のオブジェクト90及びカメラ20の配置の一例を示した模式図である。本実施形態においては、図3に示すように、収録空間S1の互いに異なる位置に複数のオブジェクト90(オブジェクト91,92,93,…)が存在している。各オブジェクト90は、人や楽器等であり、音を発する。
ピンマイク10(ピンマイク11,12,13,…)は、マイクの一例であり、オブジェクト90が発した音を収音する。ピンマイク10は、カメラ20が一体に備えた内蔵マイクとは異なり、カメラ20とは別体の外部マイクである。
ピンマイク10は、オブジェクト90ごとに設けられている。すなわち、オブジェクト91にピンマイク11が設けられ、別のオブジェクト92に別のピンマイク12が設けられ、さらに別のオブジェクト93に別のピンマイク13が設けられ、というように、各オブジェクト90に1つのピンマイク10が対応付けられている。
本実施形態においては、各ピンマイク10はオブジェクト90に設けられているため、収録空間S1における各オブジェクト90の位置と、対応するピンマイク10の位置とは一致し、ピンマイク10は収録空間S1に配置されている。オブジェクト90の位置、対応するピンマイク10の位置は、本発明におけるオブイジェクトの位置に関する情報の一例である。
なお、オブジェクト90が音を発する音源であるため、収録空間S1における各音源位置は、対応するピンマイク10の位置と一致する。ただし、オブジェクト90が例えば人であり、ピンマイク10がオブジェクト90の口元から離れて、例えば胸元に装着されている場合は、音源位置であるオブジェクト90の口の位置とピンマイク10の位置とは、厳密には一致しない。
したがって、一律に、ピンマイク10の位置を音源位置として取り扱うと、本来の音源位置(オブジェクト90である人の口元の位置)とは、ずれた位置(ピンマイク10の位置(人の胸元の位置))を音源位置として特定することになる。
ここで、ピンマイク10の装着された位置(人の胸元の位置)と人の口元の位置とは、オブジェクト90ごとに一定の位置関係にある。そこで、音源位置特定部30は、オブジェクト90ごとの上述した一定の位置関係を補正値として、予め測定して記憶し、又はカメラ20により撮影された画像に基づいて算出して記憶しておく。
そして、音源位置特定部30が、音源位置を特定する際に、記憶された補正値と検出されたピンマイク10の位置とに基づいて、音源位置を特定すればよい。これにより、ピンマイク10の位置がオブジェクト90の音源位置からずれている場合も、精度よく音源位置を特定することができる。
実際には、各ピンマイク10は、オブジェクト90が発する声(音)が大きかったり又はオブジェクト90同士が近接していたりして、意図せずに、ピンマイク10が設けられているオブジェクト90の発する音の他に、他のオブジェクト90等から発せられた音(他のピンマイク10に対応したオブジェクト90が発した音だけでなく、ピンマイク10に対応していない外部の環境音やその他の音を含む)も収音することがあるが、本実施形態においては、各ピンマイク10はそのピンマイク10が設けられているオブジェクト90の発する音だけを収音するものとして説明する。
なお、ピンマイク10が設けられているオブジェクト90の発する音の他に、他のオブジェクト90等から発せられた音も収音した場合については、特定のピンマイク10に混入した音の成分は、ピンマイク10同士の位置情報とそれぞれのピンマイク10で収録している音声データから計算処理で差し引くことができる。これにより、各ピンマイク10に対応したオブジェクト90の音だけを正しく分離して収録することができる。
カメラ20は、収録空間S1の、収録基準位置SP1に配置されている。実際は、後述する音源位置特定部30が、カメラ20の配置された位置を収録基準位置SP1に設定する。収録基準位置SP1の絶対位置は、GPS等のGNSS(Global Navigation Satellite System:衛星測位システム)の測位衛星から、地上での現在位置を取得し得る信号(以下、GNSS信号という)を受信することで、音源位置特定部30に記憶されている。
カメラ20は、例えば、カメラ20を中心とした全方位を撮影することができる、いわゆる360度カメラ(全天球カメラ又は全方位カメラ)と称されるものである。したがって、収録基準位置SP1に配置されたカメラ20は、収録基準位置SP1を中心とした上下、左右、前後の全方位、すなわち、複数のオブジェクト90も含めて収録空間S1の全体の映像を撮影する。
音源位置特定部30は、収録空間S1における各オブジェクト90の位置を、カメラ20の配置された収録基準位置SP1に対する音源位置として特定する。
具体的には、例えば、各ピンマイク11,12,13,…が、送受信チップを備えている。送受信チップは、GNSS信号を受信して、ピンマイク11,12,13,…を識別する識別信号とともに、受信したGNSS信号に基づいてピンマイク11,12,13,…の位置を特定する信号を、音源位置特定部30に送信する。
音源位置特定部30は、これら各ピンマイク11,12,13,…の送受信チップから送信された識別信号とピンマイク11,12,13,…の位置を特定する信号とを受信して、各ピンマイク11,12,13,…の、地上における絶対位置を特定する。
そして、音源位置特定部30は、各ピンマイク11,12,13,…の絶対位置と収録基準位置SP1の絶対位置とに基づいて、各音源位置を、収録基準位置SP1に対する相対的な位置として特定する。
なお、音源位置特定部30による音源位置を特定する構成は、上述した構成に限定されず、他の構成によって音源位置を特定するものであってもよく、そのような、音源位置を特定する他の構成の例については、変形例として後述する。
空間音情報生成部50は、各ピンマイク11,12,13,…により収音されたオブジェクト91,92,93,…の発した音と、音源位置特定部30で特定した音源位置と、を対応付けて、音に音位置が対応づけられた空間音情報を生成する。空間音情報は、例えば音のデータに、音源位置がメタデータとして付加された形式であってもよいし、又はその他の形式で、音のデータと音源位置のデータとが対応付けられたものであってもよい。
また、音源位置特定部30は、カメラ20により撮影された収録空間S1の映像と音源位置とを対応づける。具体的には、カメラ20は収録空間S1を撮影しているため、カメラ20によって撮影された映像における各位置(映像内の各座標位置)は、収録空間S1の各位置と対応付いている。
つまり、カメラ20によって撮影された映像における個々の部位と、実際の収録空間S1に存在している個々の部位との対応関係を予め求めておく(キャリブレーションする)ことにより、映像における座標系と現実の収録空間S1における座標系とを対応付けることができる。
ここで、映像におけるオブジェクト90は基本的に平面の情報であるのに対して、収録空間S1に実在しているオブジェクト90は3次元の立体物であるため、上記「映像における部位」は、収録空間S1に実在しているオブジェクト90に紐づけされた(対応づけられた)ものを意味する。
また。上述したキャリブレーションとしては、カメラ20によって撮影された映像を持ちることなく実施することもできる。すなわち、例えば、カメラ20の画角に関する情報及びカメラ20の位置や向き(例えば正面方向等)と収録空間S1における座標系とを対応づけておくことにより、撮影された映像における座標系と収録空間S1における座標系とを対応づけることができ、キャリブレーションを行うことができる。
このように、音源位置特定部30はカメラ20によって撮影された映像と収録空間S1との対応付けにより、カメラ20によって撮影された映像に、音源位置を対応付けることができる。
音源位置特定部30により、映像における特定のオブジェクト91が写っている位置と音源位置とが対応付けられ、空間音情報生成部50によって、その音源位置とそのオブジェクト91が発した音とを対応付けられるため、空間音情報生成部50は、映像におけるオブジェクト91の位置に、オブジェクト91の発した音を対応付ける。この場合、空間音情報生成部50は、上述した音と、映像を含む位置とが対応付けられた空間音情報を生成する。
このように生成された空間音情報は、収音された各音について収録基準位置SP1に対する音源位置が対応付いているため、各音について、収録基準位置SP1からの距離や方向(向き)を特定することができる。
音場対応調整部40は、収録空間S1の音場の音響特性を再現するために、各ピンマイク11,12,…で収音された、オブジェクト91,92,…の発生した音に対して、予め設定された音場における音響特性に応じた種々の調整を行うものである。
具体的には、収録空間S1は、例えば、狭い閉じた空間、広い閉じた空間、若しくは野外のように閉じていない空間等の音場であるか、又は音が反射する障害物(人や、楽器やその他の物体)が多数配置された空間、障害物が少ない空間、若しくは障害物が全く存在しない空間等の音場であるか、などの音場の違いがある。そして、各音場で発せられた音は、その音場に対応した音響特性を以て、収録基準位置SP1に届く。
音場対応調整部40は、収録空間S1の音場の音響特性として予め設定された音響特性に対応して、空間音情報を構成する各音に対して、反射音や残響等のリバーブや、音圧、音の周波数等を調整する。
例えば、収録空間S1が狭い閉じた空間の場合、収録基準位置SP1からの距離が遠い位置の音については、収録基準位置SP1に到達するまでの間に、収録空間S1を仕切る壁に複数回反射したり、また収録基準位置SP1からの距離が遠いため、収録基準位置SP1に到達したときには、音圧が小さくなっている等の調整が行われる。
また、音場対応調整部40は、オブジェクト90の発した音とは別の、ピンマイク10以外のマイク(例えば、カメラ20が備えている内蔵マイクや、変形例で説明する空間音声マイク等)で収音した暗騒音等の環境音を、上述した各音に付加する。
音場対応調整部40における音響特性の設定は、収録空間S1において音を収録するより前に予め行われていて、音場対応調整部40は、設定された音響特性に応じた、収音された音に対する調整を、空間音情報の生成が行われた直後に時間差なく行い、調整が行われた空間音情報を空間音情報生成部50に出力する。
なお、音場対応調整部40における音響特性の設定は、上述したように予め設定されているものでなくてもよい。具体的には、音場対応調整部40は、例えば、カメラ20が撮影した映像に基づいて、収録空間S1の情報を取得して、その取得した収録空間S1の情報に基づいて、音響特性を自動的に設定してもよい。音響特性を自動的に設定する場合は、収録空間S1の情報と予め設定された種々の音響特性とを対応付けて記憶し、取得した収録空間S1の情報に対応付けて記憶された音響特性を選択すればよい。
カメラ20で撮影した映像から取得する収録空間S1の情報としては、収録空間S1が広いか又は狭いかの判別や、その広さの程度や、障害物の有無や、その障害物の位置、大きさなどである。
また、音場対応調整部40は、カメラ20の内蔵マイクで収音した音に基づいて、音響特性を設定してもよい。この場合、カメラ20の内蔵マイクで収音した音を音情報収録装置100に送り、音場対応調整部40は、例えば、カメラ20の内蔵マイクで収音した音に基づいて、収録空間S1での反響成分(反響とは音の繰り返しであり、同一音が減衰しながら繰り返されている成分である)を解析して、反響の調整とリバーブ効果の強弱を決定するなどの音響特性の設定を行うことができる。カメラ20の内蔵マイクで収音した音は、一旦保持しておいて、映像の撮影及びピンマイク10による収音の後に、カメラ20から音情報収録装置100に、保持した内蔵マイクによる音を送ってもよい。
なお、カメラ20による映像に基づいた音響特性の設定では、壁等の吸音性能を映像のみから判定するのは難しく、また、カメラ20の内蔵マイクに基づいた音響特性の設定では、カメラ20の画角外の空間に配置された壁等による反射の影響も反映される可能性があるため、カメラ20による映像と、カメラ20の内蔵マイクで収音された音との両方に基づいて、音響特性を設定するのが好ましい。
また、音場対応調整部40は、ピンマイク11,12,13の位置情報に基づいて、音の伝達関数の調整を行うこともできる。具体的には、音場対応調整部40は、ピンマイク11,12,13に対応した音源が人である場合、その音源である人の顔の向きに応じて音の伝達関数を変更したり、ピンマイク11,12,13とカメラ20との間に障害物がある場合は、音の伝達関数を変更したり、ピンマイク11,12,13とカメラ20との距離に応じて音の伝達関数を変更したりすることができる。
空間音情報生成部50は、音場対応調整部40により、音響特性に応じた調整が行われた後の空間音情報を、外部に出力する。空間音情報生成部50により外部に出力された空間音情報は、外部の記録装置により記録メディアに記録して一旦保管してもよいし、音情報収録再生システム300を構成する音情報再生装置200にストリーミングにより出力して、再生空間S2において再生してもよい。
<作用>
図4は、音情報収録装置100の処理の流れを示すフロチャートである。音情報収録装置100の処理の流れは、本発明に係る音情報収録方法の一実施形態である。本実施形態の音情報収録装置100の処理を、図4のフロチャートを用いて説明する。
図4は、音情報収録装置100の処理の流れを示すフロチャートである。音情報収録装置100の処理の流れは、本発明に係る音情報収録方法の一実施形態である。本実施形態の音情報収録装置100の処理を、図4のフロチャートを用いて説明する。
音情報収録装置100は、収録を開始すると、収録空間S1に配置された各ピンマイク11,12,13,…により、対応するオブジェクト91,92,93,…の発した音の収音を開始する(T1)。この収音と同時に、カメラ20が収録空間S1の映像の撮影を開始する(T1)。さらに、この収音及び撮影と同時に、音源位置特定部30により、収録空間S1における各オブジェクト91,92,93,…位置(音源位置)を特定する(T1)。
次いで、空間音情報生成部50により、各ピンマイク11,12,13,…で収音された音、カメラ20で撮影された映像及び音源位置特定部30で収録空間S1における収録基準位置SP1に対する音源位置として特定されたオブジェクト91,92,93,…の位置が対応付けられ(T2)、音に、位置、映像が対応付けられた空間音情報が生成される。
生成された空間音情報に対して、音場対応調整部40が、予め設定された音場に応じた調整を行う(T3)。そして、音場に応じて音が調整された空間音情報が、空間音情報生成部50から出力される(T4)。
収録が終了する(T5においてYES)までは、T1~T4の処理が継続し、収録が終了すると、カメラ20による映像の撮影、ピンマイク11,12,13,…による音の収音、及び音源位置の特定の各処理が終了する。
以上のように、本実施形態の音情報収録装置100によれば、収録空間S1において、カメラ20の内蔵マイクではない外部マイクの一例であるピンマイク10で収音したオブジェクト90の発生する音が、人の手動の操作を介さずに自動的に、音源の位置及び映像と対応付けられる。したがって、編集者等が、収録された映像を見て、映像におけるオブジェクト90の位置に、オブジェクトの発した音を、手動で割り付ける必要が無い。
したがって、音情報収録装置100によれば、音を音源位置に手動で割り付ける作業が不要となり、音源の位置を割り付ける作業に要る労力を軽減することができる。
また、音情報収録装置100によれば、空間音情報生成部50が、収録空間S1で収音した音に、その収音から時間差なくリアルタイムに、音源位置及び映像を対応付けた空間音情報を生成するため、音の収音から時間差なく外部に空間音情報を出力することができる。
したがって、音情報収録装置100によれば、音を一旦保存してから出力するだけでなく、いわゆるライブ配信のように、収音から時間差なくで出力することができ、視聴者は、その出力された空間音情報を受信してストリーミング再生することもできる。
なお、音情報収録装置100は、カメラ20が撮影した映像及びピンマイク10が収音した音をリアルタイムに取得するだけでなく、カメラ20が撮影した一定期間の映像はカメラ20が一旦保持し、ピンマイク10が収音した一定期間の音はピンマイク10が一旦保持し、一定期間が経過した後に、カメラ20が保持した映像及びピンマイク10が保持した音を、取得するようにしてもよい。この場合、収音した音をリアルタイムの再生(ストリーミング再生)に使用することはできないが、音源位置及び映像を対応付けた空間音情報を生成することはできる点は、上述した場合と変わりはなく、収録後の再生に供することができる。
また、音情報収録装置100は、収音から時間差なく空間音情報を自動的に生成するため、収音している期間中に音源であるオブジェクト90が移動しても、オブジェクト90の移動による音源位置の変化に対応した空間音情報を出力することができる。
なお、オブジェクト90が移動する場合とは反対にカメラ20の基準位置が移動する場合やカメラ20の向きが変化する場合も、映像における座標系において音源位置が相対的に移動することになるが、この場合にも、音情報収録装置100は、映像における座標系と収録空間S1における座標系との対応関係に基づいて、上述と同様に、音源位置の相対的な移動に対応した空間音情報を出力することができる。
また、音情報収録装置100によって生成された空間音情報は、音場の音響特性に応じた調整がされているため、音を収音した収録空間S1での音場の臨場感も付加されたものとすることができる。
なお、音場対応調整部40による、空間音情報に対する、音場の音響特性に応じた調整は、音を収音した実際の収録空間S1の音場の音響特性に応じた調整に限定されない。すなわち、音場対応調整部40は、音を収音した実際の収録空間S1の音場とは別の音場の音響特性に応じて、空間音情報を調整してもよい。
例えば野外の収録空間S1で収音された空間音情報に対して、音場対応調整部40は、屋内のホールで音場の音響特性に対応した調整を行うことができる。
このように、音場対応調整部40が、音を実際に収音した収録空間S1の音場とは異なる音場の音響特性に応じて、空間音情報を調整することにより、音響特性が意図的に異ならせて音の空間音情報を生成し、出力することができる。
なお、音情報収録装置100は、上述したライブ配信のように音の収音から時間差なく空間音情報を外部に出力するのではなく、空間音情報を一旦保存し、収音が終了した後に外部に出力してもよい。
図5は、音情報収録装置100の別例の処理の流れを示すフロチャートである。音情報収録装置100の別例の処理の流れも、本発明に係る音情報収録方法の一実施形態である。図5に示した別例の処理では、音情報収録装置100は、音場対応調整部40による空間音情報の調整を、収音から時間差なく行う必要がない。
音情報収録装置100は、図5に示すように、収録を開始すると、収録空間S1に配置された各ピンマイク11,12,13,…により、対応するオブジェクト91,92,93,…の発した音の収音を開始し(T1)、カメラ20が収録空間S1の映像の撮影を開始し(T1)、収録空間S1における各オブジェクト91,92,93,…位置(音源位置)を特定する(T1)。
次いで、空間音情報生成部50により、収録空間S1における収録基準位置SP1に対する音源位置として特定されたオブジェクト91,92,93,…の位置が、各オブジェクトの発した音に対応付けられ(T2)、空間音情報が生成される。
収録が終了する(T11においてYES)までは、上述したT1,T2の処理が継続し、収録が終了すると、カメラ20による映像の撮影、ピンマイク11,12,13,…による音の収音、及び音源位置の特定の各処理が終了する。
そして、この空間音情報に対して、音場対応調整部40が、予め設定された音場に応じた調整を行って(T12)、音場に応じた調整の行われた空間音情報が、空間音情報生成部50から出力される(T13)。
このように、ライブ配信ではない場合、すなわち収音から時間差のない出力でない場合は、音情報収録装置100の音場対応調整部40が空間音情報に対する調整を行うのではなく、音情報収録装置100は、音場の音響特性に対応した調整を行う前の空間音情報を外部に出力して、その出力された空間音情報に対して、音情報収録装置100の外部に設けられた、音場対応調整部40と同様の機能を有する装置(音場対応調整装置)等により、調整を行ってもよい。
なお、上述した音情報収録装置100の作用は、本発明に係る音情報収録方法の一実施形態であるが、本発明に係る音情報収録方法は、上述した音情報収録装置100を使用したものに限定されない。
すなわち、本発明に係る音情報収録方法は、収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、収録空間に配置されて、オブジェクトの発した音を収音するマイクにより収音されたオブジェクトの発した音とオブジェクトの位置に関する情報で特定された音源位置とを対応付けた空間音情報を生成するものであればよい。
<音情報収録再生システム>
次に、音情報収録再生システム300について説明する。音情報収録再生システム300は、図2に示すように、上述した音情報収録装置100と、音情報再生装置200と、を備えたシステムである。音情報収録装置100は、上述した構成で上述した作用により、収録空間S1で音、映像、位置を収録して空間音情報を生成し、空間音情報を出力する。
次に、音情報収録再生システム300について説明する。音情報収録再生システム300は、図2に示すように、上述した音情報収録装置100と、音情報再生装置200と、を備えたシステムである。音情報収録装置100は、上述した構成で上述した作用により、収録空間S1で音、映像、位置を収録して空間音情報を生成し、空間音情報を出力する。
図6は、再生空間S2における、再生基準位置SP2、仮想的なオブジェクト91,92,93の位置(仮想音源位置)及び音再生部231,232,233の位置(再生位置)の配置の一例を示した模式図である。
音情報再生装置200は、この音情報収録装置100によって生成された空間音情報を取得し、この空間音情報を、視聴者が視聴する所定の再生空間S2に展開して再生する。つまり、音情報収録再生システム300は、収録空間S1で収録した音、映像、位置を収録して、この収録した音、映像を、視聴者の再生空間S2に展開して再生するものである。
再生空間S2は、図6に示すように、視聴者が空間音情報の音や映像を再生して視聴する空間であり、視聴者が、再生される音及び映像を視聴する位置として、再生基準位置SP2が設定されている。
音情報再生装置200は、図2に示すように、音位置分離部210と、再生部220と、仮想音源位置設定部250と、再生音調整部260と、を備えている。
音位置分離部210は、取得した空間音情報を、各オブジェクト90の発した音と収録空間S1における音源位置及び映像とに分離する。
再生部220は、音再生部230と、映像再生部240と、を備えている。音再生部230は、音を再生するものであり、例えばスピーカーや、ヘッドフォンや、イヤフォンなどである。音再生部230は1つ以上設けられていて、本実施形態においては、3つ以上設けられているものとする。
音再生部230における1つとは、例えば、音再生部230がスピーカーの場合、1個のスピーカを意味する。したがって、3つの音再生部230は、3個のスピーカである。また、ヘッドフォンは、通常、左右の耳に対応して2つの発音部(ドライバーユニット)を備えているが、音再生部230がヘッドフォンの場合、音再生部230の1つは、発音部の1つに対応する。したがって、音再生部230としてヘッドフォンを適用した場合、音再生部230は2つである。
これら3つ以上の音再生部230(個々の音再生部230を、以下、音再生部231,232,233,…ということもある。)は、再生空間S2における互いに異なる位置に配置されている。なお、音再生部231,232,233,…の数や配置は、視聴者が音及び映像を視聴する環境によって異なる。
なお、音再生部230が2つ以上であれば、2つ以上の音再生部230からそれぞれ発生された音同士の干渉をを利用して立体音響を生成することができるが、音再生部230が1つであっても、音源位置に対応して、再生される音の音量を変化させたり再生される音の周波数特性を変化させたりすることで、疑似的な立体音響を生成することもできる。したがって、音再生部230は1つ以上備えていればよい。
再生空間S2において、再生基準位置SP2に対する各音再生部231,232,233,…の配置されている位置を再生位置とする。各音再生部231,232,233,…再生位置は、再生音調整部260に記憶されている。
映像再生部240は、映像を再生するものであり、例えば再生される映像を表示するモニタや、プロジェクタ及びスクリーンなどである。映像再生部240も、再生空間S2の所定の位置に配置されている。この映像再生部240の配置される位置は、収録基準位置SP1でカメラ20で撮影された映像を、再生空間S2の映像再生部240で再生したときに、再生基準位置SP2にいる視聴者が再生空間S2で再生された映像に対応する位置が、収録空間S1における位置と一致するように、収録空間S1の映像と再生空間S2の映像との位置関係を一致させる配置に設定されている。
仮想音源位置設定部250は、音再生部230によって再生される音を聴く再生基準位置SP2に、収録空間S1における収録基準位置SP1を対応させ、収録空間S1における音源位置を再生空間S2に仮想的に対応づけた仮想音源位置を設定する。
つまり、現実の再生空間S2には、音を再生する音再生部230は配置されているが、音源(オブジェクト91,92,93,…)は存在しない。そして、収録空間S1において音源が配置されていた音源位置は、再生空間S2において音再生部231,232,233,…が配置されている再生位置と同じとは限らない。上述した仮想音源位置は、収録空間S1における音源位置を、再生空間S2に配置したと仮定したときの音源位置である。
なお、再生空間S2における仮想音源位置に再生位置を一致させるように、音再生部230を配置してもよい。この場合、後述する再生音調整部260による再生音の調整を省略することができる。
再生音調整部260は、収録空間S1において収音された各オブジェクト91,92,93,…の発した音が、仮想音源位置設定部250により設定された仮想音源位置からあたかも聴こえるように、各音再生部231,232,233,…により再生される音を調整する。
前述したように、仮想音源位置と再生位置とは、一致するとは限らず、むしろ、再生空間S2の環境は視聴者ごとに異なるため、通常は、仮想音源位置と再生位置とは一致しない。
そこで、再生音調整部260は、再生基準位置SP2にいる視聴者に、再生位置に実際に配置されている音再生部230から再生された音が、仮想音源位置で発生した音として聴こえるように、音の遅延等の音響特性を調整する。
つまり、再生音調整部260は、1つの仮想音源位置と、各音再生部230が配置されている再生位置と、再生基準位置SP2と、に基づいて、仮想音源位置で発生したと想定され各再生位置に配置された音再生部230から出力される音について、距離に応じた音圧の調整、遅延時間の調整、周波数の調整等を行って、その調整された音を、各音再生部230に出力し、各音再生部230がその調整された音を出力(再生)する。
具体的には、再生音調整部260は、距離が近いほど音圧を大きく、距離が遠いほど音圧を小さくするように音圧を調整し、距離が近いほど遅延時間を短く、距離が遠いほど遅延時間を長くするように遅延時間を調整し、距離が近いほど音の高周波成分の減衰程度を抑制し、距離が遠いほど音の高周波成分の減衰程度を大きくするように周波数の調整を行う。
再生音調整部260による音の調整内容は、視聴者が選択できるようにしてもよい。すなわち、再生音調整部260は、視聴者の選択により、音源分離再生として音を再生したり、バイノーラル再生として音を再生したりすることもできる。
そこで、視聴者が、音再生部230の具体的態様に合わせて、再生方法として、音源分離再生又はバイノーラル再生を選択する再生方法選択部を設け、視聴者が再生方法選択部によって選択した再生方法に対応した内容で、再生音調整部260が音の調整を行うようにしてもよい。
なお、音再生部230がスピーカーの場合は、そのスピーカーが向いている向きに応じて、音の調整内容を変えるようにしてもよい。
また、本実施形態において収録空間S1の映像を撮影するカメラ20は、収録空間S1の全範囲を収録することができる、いわゆる360度カメラであるため、空間音情報として対応付けられた映像には、収録空間S1の全範囲が写っている。
したがって、映像再生部240がその映像を再生するに際しては、視聴者が、その映像のうち特定の方位を正面に見るように選択して再生することができる。また、映像再生部240がその映像を再生するに際しては、視聴者が、特定の方位の映像部分を切り取って拡大する表示にする(ズームアップする)ことで、近付いて見たような映像にしたり、これとは反対に、縮小する表示にする(ズームアウト(パン)する)ことで、遠ざかって見たような映像にすることもできる。
この場合、音情報再生装置200に、調整受付部270と調整部280とを設ければよい。調整受付部270は、視聴者が視聴しようとする向きの変更操作や、ズームアップ・ズームアウトの調整操作の入力を受け付ける。調整部280は、調整受付部270が受け付けた調整操作の内容に応じて、再生基準位置SP2に収録基準位置SP1を対応させた状態で、再生空間S2と収録空間S1との対応関係を調整する。そして、仮想音源位置設定部250は、調整部280により調整された後の再生空間S2と収録空間S1との対応関係にしたがって、仮想音源位置を設定すればよい。
そして、このように、視聴者が、映像再生部240で再生される映像の向きを変える操作を選択したり、拡大・縮小の操作を選択したときは、その操作に対応して、仮想音源位置設定部250が、再生空間S2と収録空間S1との対応関係を変化させることで、仮想音源位置を調整すればよい。
なお、上述した映像に対する操作に応じた仮想音源位置の調整は、カメラ20が360度カメラ等、魚眼レンズなどの広角の光学系を備えたカメラに限定されず、360度カメラ等以外の通常のカメラも適用することができる。
ここで、通常のカメラとしては、レンズを交換することができないレンズ固定式のカメラであってもよいし、レンズが脱着式で交換することができるレンズ交換式のデジタルカメラであってもよい。
<作用>
図7は、音情報再生装置200の処理の流れを示すフロチャートである。上述した音情報再生装置200の処理を、図7に示したフロチャートを用いて説明する。
図7は、音情報再生装置200の処理の流れを示すフロチャートである。上述した音情報再生装置200の処理を、図7に示したフロチャートを用いて説明する。
まず、音位置分離部210は、音情報収録装置100から出力された空間音情報を取得して(T21)、取得した空間音情報を、各オブジェクト90の発生した音と収録空間S1における音源位置及び映像とに分離する(T22)。
次いで、仮想音源位置設定部250が、再生空間S2の再生基準位置SP2に収録空間S1における収録基準位置SP1を対応させたうえで、音位置分離部210で分離された収録空間S1における音源位置を、再生空間S2に対応させ、その対応した音源位置を仮想音源位置として設定する(T23)。
次いで、再生音調整部260が、音位置分離部210で分離された、収録空間S1において収音された各オブジェクト91,92,93,…の発した音を、仮想音源位置からあたかも聴こえるように調整し(T24)、調整後の音を各音再生部230に出力する。
音再生部230が、再生音調整部260から出力された調整後の音を出力(再生)し、映像再生部240が、音位置分離部210で分離された、収録空間S1において撮影された映像を表示(再生)し(T25)、処理を終了する。
以上のように、本実施形態の音情報再生装置200によれば、音情報収録装置100で生成された空間音情報を取得して、音情報収録装置100が収録空間S1の各音源位置において収音された音を、映像とも対応付けて、再生空間S2の各再生位置に配置された音再生部230及び映像再生部240を用いて、仮想音源位置で発せられたように、再生することができる。
したがって、視聴者は、収録空間S1の各音源位置において発せられた音を、再生空間S2の対応した位置(仮想音源位置)でそれぞれ発した音として聴くことができ、収録空間S1で収録された音を、収録空間S1の音場の臨場感を伴って聴くことができる。
また、この音情報再生装置200によれば、取得した空間音情報を分離して得られる音が、音情報収録装置100によって、収録空間S1の音場、又はその他の編集者が設定した音場、に応じた音響特性で調整されているため、視聴者は、視聴者自身が音響特性を調整することなく、音情報収録装置100によって調整された音響特性の音をそのまま視聴することができる。
<音源位置を特定する他の例(変形例)>
上述した実施形態の音情報収録装置100における音源位置特定部30による音源位置の特定は、各ピンマイク10がGNSS信号を受信することで、各ピンマイク10自体の位置を特定し得る信号を出力することで行われるが、本発明における外部マイクの位置の特定は、上記実施形態の形態に限定されず、以下の変形例で説明する種々の態様を適用することができる。
上述した実施形態の音情報収録装置100における音源位置特定部30による音源位置の特定は、各ピンマイク10がGNSS信号を受信することで、各ピンマイク10自体の位置を特定し得る信号を出力することで行われるが、本発明における外部マイクの位置の特定は、上記実施形態の形態に限定されず、以下の変形例で説明する種々の態様を適用することができる。
(変形例1)
変形例1は、図3に示した実施形態の配置において、各ピンマイク10が、ピンマイク10の位置を特定し得る信号(GNSS信号等)を出力できないものである構成の音情報収録装置100である。つまり、ピンマイク10の位置をピンマイク10自体が出力しない例である。
変形例1は、図3に示した実施形態の配置において、各ピンマイク10が、ピンマイク10の位置を特定し得る信号(GNSS信号等)を出力できないものである構成の音情報収録装置100である。つまり、ピンマイク10の位置をピンマイク10自体が出力しない例である。
カメラ20が撮影した映像は、収録空間S1の各座標位置と対応付けられている。変形例1は、音源位置特定部30が、カメラ20によって撮影された映像に基づいて、画像処理により、映像中のオブジェクト91,92,93又はピンマイク11,12,13を検出する。
画像処理は、ピンマイク10については、形状、色等の特徴的形態を認識することで行い、オブジェクト90については、人の場合は顔(口等)や人体の形状等の特徴的形態を認識することで行い、楽器の場合は形状や色などの特徴的形態に基づいて認識することができる。
したがって、音源位置特定部30は、映像中で検出されたオブジェクト91,92,93又はピンマイク11,12,13の、映像における座標位置を検出することで、各オブジェクト91,92,93の、収録空間S1における位置、すなわち各音源位置を特定することができる。
なお、カメラ20からオブジェクト90までの距離は、例えば、カメラ20による撮影情報(センササイズ、焦点距離)とオブジェクト90ごとの標準サイズ情報と撮影された画像(映像)に写ったオブジェクト90のサイズとに基づいて求めることができる。
なお、映像を画像処理して音源位置を特定する処理では、オブジェクト90の口の動きを認識することで、いずれのオブジェクト91,92,93が音源であるかを特定することもできる。
また、オブジェクト90又はピンマイク10を画像処理により検出する際に、オブジェクト90やピンマイク10の特徴的形態に基づいて検出するのではなく、例えば、オブジェクト90又はピンマイク10に、肉眼では不可視の赤外光を発する発光部を設け、カメラ20の撮像センサやカメラに設けられた赤外光受光部によって、その赤外光を検出することで、音源位置特定部30がオブジェクト90やピンマイク10の位置を特定するようにしてもよい。以下に説明する、画像処理を行う変形例においても同様に、赤外光を用いた音源位置の特定処理を適用することができる。
(変形例2)
図8は、図3に示した実施形態の配置において、カメラ20が空間音声マイク21を備え、各ピンマイク10が、ピンマイク10の位置を特定し得る信号(GNSS信号等)を出力できないものである変形例2の配置例である。図8に示した変形例2において、空間音声マイク21は、音場を記録することができるマイクであり、指向性を変更したり、収音する音の方向を検出したりすることができるマイクである。音場の一例として、いわゆる5.1chなどのマルチサラウンドフォーマットアンビソニックス(Ambisonics)などがあげられる。
図8は、図3に示した実施形態の配置において、カメラ20が空間音声マイク21を備え、各ピンマイク10が、ピンマイク10の位置を特定し得る信号(GNSS信号等)を出力できないものである変形例2の配置例である。図8に示した変形例2において、空間音声マイク21は、音場を記録することができるマイクであり、指向性を変更したり、収音する音の方向を検出したりすることができるマイクである。音場の一例として、いわゆる5.1chなどのマルチサラウンドフォーマットアンビソニックス(Ambisonics)などがあげられる。
変形例2における音源位置特定部30は、空間音声マイク21により、空間音声マイク21(カメラ20)に対する各オブジェクト91,92,93の方向を検出することができる。
また、音源位置特定部30は、空間音声マイク21が収音した、各オブジェクト91,92,93が発した音と、各ピンマイク11,12,13が収音した、各オブジェクト91,92,93が発した音と、の収音のタイミング差(位相差)に基づいて、空間音声マイク21から各ピンマイク11,12,13までの距離を検出することができる。
したがって、上述した方向と距離との特定によって、音源位置特定部30は、収録空間S1における、各ピンマイク11,12,13の位置すなわち各オブジェクト91,92,93の位置を特定することができる。
なお、空間音声マイク21は、各ピンマイク11,12,13が収音するオブジェクト91,92,93の発した音以外の、収録空間S1に存在する暗騒音等の環境音も収録することができる。つまり、空間音声マイクが収音した、環境音が混在した音から、各ピンマイク11,12,13で収音したオブジェクト91,92,93の発した音を除去する信号処理により、環境音だけを抽出することができる。
このようにして得られた環境音は、音場対応調整部40による、空間音情報における音に対する調整の際に、音響特性として加えることで、臨場感を一層高めた音を得ることができる。
また、空間音情報生成部50が、空間音声マイク21で収音したオブジェクト91,92,93の発した音と、各ピンマイク11,12,13が収音したオブジェクト91,92,93の発した音との対応関係に基づいて、各ピンマイク11,12,13が収音した音に混在した、他のオブジェクト91,92,93の発した音を特定して、各ピンマイク11,12,13が収音した音から、混在した他のオブジェクト91,92,93の発した音を除去して、各オブジェクト91,92,93の発した音を、空間音情報として音源位置に対応付けることができる。
(変形例3)
変形例3は、変形例2と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例2と異なる。すなわち、変形例3の音源位置特定部30は、変形例2と同様に、空間音声マイク21により、空間音声マイク21(カメラ20)に対する各オブジェクト91,92,93の方向を検出することができる。
変形例3は、変形例2と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例2と異なる。すなわち、変形例3の音源位置特定部30は、変形例2と同様に、空間音声マイク21により、空間音声マイク21(カメラ20)に対する各オブジェクト91,92,93の方向を検出することができる。
また、音源位置特定部30は、変形例1と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93又はピンマイク11,12,13を画像処理により検出することで、オブジェクト91,92,93又はピンマイク11,12,13の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93又は各ピンマイク11,12,13までの距離を検出することができる。
したがって、上述した方向と距離との特定によって、音源位置特定部30は、収録空間S1における、各ピンマイク11,12,13の位置すなわち各オブジェクト91,92,93の位置を特定することができる。
なお、空間音声マイク21と各ピンマイク11,12,13とによって抽出された環境音を、空間音情報の音に付加することができる点は、変形例2と同じである。
(変形例4)
変形例2は、変形例3と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例3と異なる。すなわち、変形例3の音源位置特定部30は、変形例1と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93又はピンマイク11,12,13を画像処理により検出することで、オブジェクト91,92,93又はピンマイク11,12,13の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向を検出することができる。
変形例2は、変形例3と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例3と異なる。すなわち、変形例3の音源位置特定部30は、変形例1と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93又はピンマイク11,12,13を画像処理により検出することで、オブジェクト91,92,93又はピンマイク11,12,13の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向を検出することができる。
また、音源位置特定部30は、変形例2と同様に、空間音声マイク21が収音した、各オブジェクト91,92,93が発した音と、各ピンマイク11,12,13が収音した、各オブジェクト91,92,93が発した音と、の収音のタイミング差(位相差)に基づいて、空間音声マイク21から各ピンマイク11,12,13までの距離を検出することができる。
したがって、上述した方向と距離との特定によって、音源位置特定部30は、収録空間S1における、各ピンマイク11,12,13の位置すなわち各オブジェクト91,92,93の位置を特定することができる。
なお、空間音声マイク21と各ピンマイク11,12,13とによって抽出された環境音を、空間音情報の音に付加することができる点は、変形例2,3と同じである。
また、この変形例4における空間音声マイク21は、空間音声マイク21と各ピンマイク11,12,13との距離を検出する手段として用いられていて、空間音声マイク21から各ピンマイク11,12,13の方向を検出する手段として用いられていない。
このように、距離を検出する手段として用いられるもの、又は、ピンマイクの音と内蔵マイクの音との相関を取得する手段として用いられるものは、各ピンマイク11,12,13の方向等、収音する音の方向を検出することができる空間音声マイク21である必要はない。
したがって、本変形例4及び以下に説明する他の変形例においても、空間音声マイク21が、距離を検出する手段として用いられるもの、又は、ピンマイクの音と内蔵マイクの音との相関を取得する手段として用いられるものは、空間音声マイクに代えて、通常のピンマイクや他のモノラルのマイクを適用することもできる。
(変形例5)
図9は、各オブジェクト90がピンマイク10を備えず、カメラ20よりも各オブジェクト90に近い位置に、1つの空間音声マイク110が配置されて、各ピンマイク10に代えてこの空間音声マイク110が、全てのオブジェクト91,92,93がそれぞれ発した音を収音する、上記実施形態の音情報収録装置100の変形例5を示す模式図である。
図9は、各オブジェクト90がピンマイク10を備えず、カメラ20よりも各オブジェクト90に近い位置に、1つの空間音声マイク110が配置されて、各ピンマイク10に代えてこの空間音声マイク110が、全てのオブジェクト91,92,93がそれぞれ発した音を収音する、上記実施形態の音情報収録装置100の変形例5を示す模式図である。
変形例5において、空間音声マイク110は、変形例2~4における空間音声マイク21と同様に、収音する音の方向を特定することができるマイクである。空間音声マイク110は、上述した実施形態1におけるピンマイク10と同様に、空間音声マイク110自体の位置を特定し得るGNSS信号を受信して、音源位置特定部30にそのGNSS信号を出力することで、音源位置特定部30により、空間音声マイク110の位置を特定できるようになっている。
変形例5の音源位置特定部30は、変形例1と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93を画像処理により検出することで、オブジェクト91,92,93の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向及び距離を検出することができる。
また、音源位置特定部30は、前述したように空間音声マイク110から送信されたGNSS信号に基づいて、空間音声マイク110の位置を特定し、カメラ20から空間音声マイク110の方向を検出することができる。
空間音声マイク110は、収音した音の発生方向を特定することができるため、空間音声マイク110が検出した、空間音声マイク110を基準とする音の方向と、カメラ20を基準とした各オブジェクト91,92,93の向きと空間音声マイク110の向きとに基づいて、空間音声マイク110が収音した音を発したオブジェクト91,92,93を特定することができる。したがって、空間音情報生成部50において、各オブジェクト91,92,93の位置と、各オブジェクト91,92,93の発した音とを対応づけることが可能となる。
(変形例6)
図10は、図3に示した実施形態の配置において、各オブジェクト90がピンマイク10を備えず、変形例2と同様にカメラ20が空間音声マイク21を備えるとともに、変形例5と同様にカメラ20よりも各オブジェクト90に近い位置に、1つの空間音声マイク110が配置されて、各ピンマイク10に代えてこれらの空間音声マイク21,110が、全てのオブジェクト91,92,93がそれぞれ発した音を収音する変形例6の配置例を示す模式図である。
図10は、図3に示した実施形態の配置において、各オブジェクト90がピンマイク10を備えず、変形例2と同様にカメラ20が空間音声マイク21を備えるとともに、変形例5と同様にカメラ20よりも各オブジェクト90に近い位置に、1つの空間音声マイク110が配置されて、各ピンマイク10に代えてこれらの空間音声マイク21,110が、全てのオブジェクト91,92,93がそれぞれ発した音を収音する変形例6の配置例を示す模式図である。
変形例6の音源位置特定部30は、いずれか一方の空間音声マイク21又は空間音声マイク110によって収音された、各オブジェクト91,92,93が発した音の、当該空間音声マイク21又は空間音声マイク110に対する方向を検出する。
また、音源位置特定部30は、前述したように空間音声マイク110から送信されたGNSS信号に基づいて、空間音声マイク110の位置を特定する。
また、音源位置特定部30は、空間音声マイク21が収音した、各オブジェクト91,92,93が発した音と、空間音声マイク110が収音した、各オブジェクト91,92,93が発した音と、の収音のタイミング差(位相差)に基づいて、空間音声マイク21から各オブジェクト91,92,93までの距離を検出する。
したがって、一方の空間音声マイク21又は空間音声マイク110からの各オブジェクト91,92,93の方向と、空間音声マイク21から各オブジェクト91,92,93までの距離との特定によって、音源位置特定部30は、収録空間S1における、各オブジェクト91,92,93の位置を特定することができる。
また、空間音声マイク110は、収音した音の発生方向を特定することができるため、空間音声マイク110が検出した、空間音声マイク110を基準とする音の方向と、各オブジェクト91,92,93の位置とに基づいて、空間音声マイク110が収音した音を発したオブジェクト91,92,93を特定することができる。したがって、空間音情報生成部50において、各オブジェクト91,92,93の位置と、各オブジェクト91,92,93の発した音とを対応づけることが可能となる。
なお、空間音声マイク21で収音された音から、空間音声マイク110で収音された各オブジェクト91,92,93が発した音を除去することで、変形例2~4と同様に環境音を抽出することができる。
(変形例7)
変形例7は、変形例6と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6と異なる。
変形例7は、変形例6と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6と異なる。
変形例7の音源位置特定部30は、変形例5と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93を画像処理により検出することで、オブジェクト91,92,93の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向及び距離を検出することができる。
また、音源位置特定部30は、前述したように空間音声マイク110から送信されたGNSS信号に基づいて、空間音声マイク110の位置を特定する。
空間音声マイク110は、収音した音の発生方向を特定することができるため、空間音声マイク110が検出した、空間音声マイク110を基準とする音の方向と、カメラ20を基準とした各オブジェクト91,92,93の向きと距離とに基づいて、空間音声マイク110が収音した音を発したオブジェクト91,92,93を特定することができる。
なお、空間音声マイク21で収音された音から、空間音声マイク110で収音された各オブジェクト91,92,93が発した音を除去することで、変形例6と同様に環境音を抽出することができる。
(変形例8)
変形例8は、変形例6,7と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6,7と異なる。
変形例8は、変形例6,7と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6,7と異なる。
変形例8の音源位置特定部30は、変形例7と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93を画像処理により検出することで、オブジェクト91,92,93の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向を検出することができる。
また、音源位置特定部30は、前述したように空間音声マイク110から送信されたGNSS信号に基づいて、空間音声マイク110の位置を特定する。
また、音源位置特定部30は、空間音声マイク21が収音した、各オブジェクト91,92,93が発した音と、空間音声マイク110が収音した、各オブジェクト91,92,93が発した音と、の収音のタイミング差(位相差)に基づいて、空間音声マイク21から各オブジェクト91,92,93までの距離を検出する。
したがって、カメラ20の映像に基づいて検出されたカメラ20から各オブジェクト91,92,93の方向と、2つの空間音声マイク21,110によって検出された空間音声マイク21から各オブジェクト91,92,93までの距離とに基づいて、音源位置特定部30は、収録空間S1における、各オブジェクト91,92,93の位置を特定することができる。
また、空間音声マイク110は、収音した音の発生方向を特定することができるため、空間音声マイク110が検出した、空間音声マイク110を基準とする音の方向と、各オブジェクト91,92,93の位置とに基づいて、空間音声マイク110が収音した音を発したオブジェクト91,92,93を特定することができる。したがって、空間音情報生成部50において、各オブジェクト91,92,93の位置と、各オブジェクト91,92,93の発した音とを対応づけることが可能となる。
なお、空間音声マイク21で収音された音から、空間音声マイク110で収音された各オブジェクト91,92,93が発した音を除去することで、変形例6,7と同様に環境音を抽出することができる。
(変形例9)
変形例9は、変形例6~8と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6~8と異なる。空間音声マイク110は、空間音声マイク110自体の位置を特定する信号を出力しないものであり、したがって、音源位置特定部30は、空間音声マイク110の位置を、空間音声マイク110自体から特定することはできない。
変形例9は、変形例6~8と同じ構成であるが、音源位置特定部30による音源位置の特定の処理が変形例6~8と異なる。空間音声マイク110は、空間音声マイク110自体の位置を特定する信号を出力しないものであり、したがって、音源位置特定部30は、空間音声マイク110の位置を、空間音声マイク110自体から特定することはできない。
変形例9の音源位置特定部30は、変形例7,8と同様に、カメラ20によって撮影された映像に基づいて、映像中のオブジェクト91,92,93を画像処理により検出することで、オブジェクト91,92,93の、映像における座標位置を検出し、カメラ20から各オブジェクト91,92,93の方向及び距離を検出することができる。
また、音源位置特定部30は、空間音声マイク21が収音した、各オブジェクト91,92,93が発した音と、空間音声マイク110が収音した、各オブジェクト91,92,93が発した音と、の収音のタイミング差(位相差)、及び上述のカメラ20の映像によって検出された各オブジェクト91,92,93の位置に基づいて、空間音声マイク110の位置を特定する。
以上の検出結果に基づいて、音源位置特定部30は、収録空間S1における、各オブジェクト91,92,93の位置及び空間音声マイク110の位置を特定することができる。
また、位置が特定された空間音声マイク110は、収音した音の発生方向を特定することができるため、空間音声マイク110が検出した、空間音声マイク110を基準とする音の方向と、各オブジェクト91,92,93の位置とに基づいて、空間音声マイク110が収音した音を発したオブジェクト91,92,93を特定することができる。したがって、空間音情報生成部50において、各オブジェクト91,92,93の位置と、各オブジェクト91,92,93の発した音とを対応づけることが可能となる。
なお、空間音声マイク21で収音された音から、空間音声マイク110で収音された各オブジェクト91,92,93が発した音を除去することで、変形例6,7と同様に環境音を抽出することができる。
(変形例10)
図11は、図3に示した実施形態の配置において、各ピンマイク10が、各ピンマイク10の識別信号とともにGNSS信号を外部に送信する送受信チップを備える代わりに、識別信号とともにBLE(Bluetooth Low Energy(登録商標))を用いたBeacon信号(以下、ビーコン信号という)を出力するビーコン11a,12a,13aを備え、音源位置特定部30が、収録空間S1に分布して配置された複数(例えば3個)の受信部31,32,33を備えた変形例11の配置例の模式図である。
図11は、図3に示した実施形態の配置において、各ピンマイク10が、各ピンマイク10の識別信号とともにGNSS信号を外部に送信する送受信チップを備える代わりに、識別信号とともにBLE(Bluetooth Low Energy(登録商標))を用いたBeacon信号(以下、ビーコン信号という)を出力するビーコン11a,12a,13aを備え、音源位置特定部30が、収録空間S1に分布して配置された複数(例えば3個)の受信部31,32,33を備えた変形例11の配置例の模式図である。
受信部31,32,33は収録空間S1に固定されていて、その固定された位置は、音源位置特定部30により予め記憶されている。
変形例10は、ピンマイク11,12,13のビーコン11a,12a,13aが識別信号とともにビーコン信号を出力する。受信部31,32,33は、各ビーコン11a,12a,13aが出力したビーコン信号を受信する。
ここで、例えば、ピンマイク11のビーコン11aが出力したビーコン信号を、3つの受信部31,32,33がそれぞれ受信したとき、音源位置特定部30は、各受信部31,32,33が受信したビーコン信号の強弱に応じて、受信部31,32,33に対するビーコン11aの相対的な位置を特定することができる。
音源位置特定部30は、ビーコン信号に含まれる識別信号によって、いずれのビーコン11a,12a,13aから出力されたビーコン信号であるかを特定することができるため、各ピンマイク11,12,13の位置を特定することができ、音源位置を特定することができる。
なお、BLEを用いたビーコン信号を出力するビーコンに代えて、超音波を出力する超音波発信器をピンマイクが備えた構成とし、受信部が超音波を受信することで、各ピンマイクの位置を特定するものとしてもよい。同様に、超音波を用いた個性によっても、上記変形例10と同様に、音源位置を特定することができる。
また、上述した変形例10は、各ピンマイクにビーコンを備えたものとし、複数の受信部により各ビーコンの位置を特定するものであるが、ビーコンに代えて、タグ、タイル又はピース等の情報交換デバイスをピンマイクに備えたものとしてもよい。この情報交換デバイスは、特定の物に固定し、取り付けし又は備える等して、近くに存在する他の通信デバイスとの間で、例えばブルートゥース(Bluetooth)信号(ブルートゥース及びBluetoothはいずれも登録商標)で、1対1で情報を交換(通信)することにより、その特定の物の位置を特定し得るデバイスである。
この構成の場合、受信部を複数備える必要が無く、1つの通信デバイスにより、複数の情報交換デバイスの位置、すなわち複数のピンマイクの位置を特定することができる。
なお、本例においても、各ピンマイクは、オブジェクトが発する声(音)が大きかったり又はオブジェクト同士が近接していたりして、意図せずに、ピンマイクが設けられているオブジェクトの発する音の他に、他のオブジェクト等から発せられた音(他のピンマイクに対応したオブジェクトが発した音だけでなく、ピンマイクに対応していない外部の環境音やその他の音を含む)も収音することが起こり得る。
この場合、特定のピンマイクに混入した音の成分は、ピンマイク同士の位置情報とそれぞれのピンマイクで収録している音声データから計算処理で差し引くことができる。これにより、各ピンマイクに対応したオブジェクトの音だけを正しく分離して収録することができる。
上述した実施形態及び各変形例において、ピンマイク11,12,13等に、カメラを設けた構成としてもよい。このように、各ピンマイク11,12,13にカメラを設けた構成により、このようにピンマイクが複数あるときに、ピンマイクにどちらからどの音(どの音源で発生した音)が収音されたのかを、カメラで写された映像に基づいて特定することができる。
なお、ピンマイクとしては、指向性マイクに限定されず、無指向性マイクにも上記と同様に適用することができる。
図12は、カメラ20の筐体20aにピンマイク16,17が着脱可能に直接取り付けられた状態を示す、カメラ20を正面から見た模式図、図13は、カメラ20の筐体20aに、取付部材15を介して、ピンマイク16,17,18,19が着脱可能に直接取り付けられた状態を示す、カメラ20を正面から見た模式図である。
上述した実施形態及び各変形例において、図12に示すように、カメラ20に着脱可能のピンマイク16,17を設けた構成としてもよい。ピンマイク16,17をカメラ20に取り付けた状態では、カメラ20の周囲の環境音をピンマイク16,17によって収音することができ、一方、ピンマイク16,17をカメラ20から取り外した状態では、各ピンマイク16,17をオブジェクトに取り付けて、ピンマイク11,12と同様にオブジェクトベースのマイクとして取り扱うことができる。
ピンマイク16,17のカメラ20への取り付けは、図12に示すように、カメラ20の筐体20aにピンマイク16,17を直接固定する構造であってもよいし、図13に示すように、取付部材15を介して、カメラ20の筐体に複数のピンマイク16,17(図では、2つのピンマイク18,19をさらに追加している)を取り付ける構造であってもよい。
なお、図13に示す、ピンマイク16,17,18,19を取付部材15に取り付け、この取付部材15をカメラ20に取り付ける構造の方が、ピンマイク16,17,18,19を取り付けるための複数の取付部をカメラ20の筐体20aに形成する必要が無いため、複数の取付部を設けることによってカメラ20が大型化するのを回避することができ、好ましい。
図14Aは、2つのピンマイク16,17が、互いに平行に、前方を向いた姿勢でカメラ20に取り付けられた状態を模式的に示す、カメラ20の上方から見た平面図、図14Bは、2つのピンマイク16,17が、互いに平行に、後方を向いた姿勢でカメラ20に取り付けられた状態を模式的に示す、カメラ20の上方から見た平面図、図14Cは、2つのピンマイク16,17が、互いに平行に、一方は前方を向いた姿勢で、他方は後方を向いた姿勢でカメラ20に取り付けられた状態を模式的に示す、カメラ20の上方から見た平面図である。
また、図14Dは、2つのピンマイク16,17が、カメラ20の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の中心に向けた姿勢でカメラ20に取り付けられた状態を模式的に示す、カメラ20の上方から見た平面図、図14Eは、2つのピンマイク16,17が、カメラ20の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の外側に向けた姿勢でカメラ20に取り付けられた状態を模式的に示す、カメラ20の上方から見た平面図である。
また、図14Fは、4つのピンマイク16,17,18,19が取付部材15に取り付けられて単一の空間音声マイク21を構成した例を示す模式図である。
カメラ20に取り付けた状態のピンマイク16,17は、例えば、図14Aに示すように、カメラ20の左右方向に互いに離れた状態で、両方のピンマイク16,17を平行な姿勢で、かつ前方に向けた(矢印で示す)配置としてもよい。
また、例えば、図14Bに示すように、ピンマイク16,17をカメラ20の左右方向に互いに離れた状態で、両方のピンマイク16,17を平行な姿勢で、かつ後方に向けた(矢印で示す)配置としてもよい。
また、例えば、図14Cに示すように、ピンマイク16,17をカメラ20の左右方向に互いに離れた状態で、一方のピンマイク16を前方に向け(矢印で示す)、他方のピンマイク17を後方に向けた(矢印で示す)配置としてもよい。
また、例えば、図14Dに示すように、ピンマイク16,17をカメラ20の左右方向に・BR>ンいに離れた状態で、それぞれ前方の、左右方向の中心に向けた(矢印で示す)配置としてもよい。
また、例えば、図14Eに示すように、ピンマイク16,17をカメラ20の左右方向に互いに離れた状態で、それぞれ前方の、左右方向の外側に向けた(矢印で示す)配置としてもよい。
また、例えば、図13に示した取付部材15を、図14Fに示すように、4つのピンマイク16,17,18,19をそれぞれ互いに異なる向きに配置して、一体の空間音声マイク21とみなせる構造としてもよい。
そして、ピンマイク16,17,18,19がカメラ20に取り付けられている状態では、単一の空間音声マイク21として機能し、ピンマイク16,17,18,19がカメラ20から取り外された状態では、4つのピンマイク16,17,18,19に分割されて、それぞれ対応するオブジェクトに装着されたオブジェクトベースのマイクとして機能するように、ピンマイク16,17,18,19の動作の制御を切り替えるようにすればよい。
つまり、各ピンマイク11,12,13,14がカメラ20に取り付けられた状態においては、ピンマイク11,12,13,14は、それぞれ別の方向に指向性を有する空間音声マイクとして機能し、ピンマイク11,12.13,14で収音した音の情報はカメラ20の位置と対応付けられる。
一方、各ピンマイク16,17,18,19がカメラ20から取り外されて、オブジェクト91,92,93,94に装着された状態では、上述した実施形態で説明したように、ピンマイク16,17,18,19は、オブジェクトベースで収音するマイクとして機能させることができ、ピンマイク16,17.18,19で収音した音の情報は装着された各オブジェクト91,92,93,94の位置と対応付けられる。
各ピンマイク16,17,18,19を、オブジェクトベースで収音するマイクとして機能させた場合、カメラ20に取り付けられている取り付けられている指向性マイクとして機能させた場合よりも、オブジェクト91,92,93、94で発せられた音を、より鮮明に収音することができる。また、収録空間へのレンダリングも容易にすることができる。
(ピンマイクの詳細の構成)
図15はカメラ20に着脱可能のピンマイク16の詳細の構成を示す模式図である。上述したカメラ20に着脱可能のピンマイク16は、例えば図15に示すように、マイク16aと、音声エンジン16bと、アンテナ16cと、無線機能部16dと、電源16eと、電源機能部16fと、切替スイッチ(SW)16gと、クリップ検出部16hと、筐体16iと、カメラ取付部16jと、クリップ16kと、を備えている。
図15はカメラ20に着脱可能のピンマイク16の詳細の構成を示す模式図である。上述したカメラ20に着脱可能のピンマイク16は、例えば図15に示すように、マイク16aと、音声エンジン16bと、アンテナ16cと、無線機能部16dと、電源16eと、電源機能部16fと、切替スイッチ(SW)16gと、クリップ検出部16hと、筐体16iと、カメラ取付部16jと、クリップ16kと、を備えている。
マイク16aは、音を収音する部分である。音声エンジン16bは、マイク16aで収音したアナログの音を、データとしての音情報に変換する変換部である。アンテナ16cは、データを無線で外部と送受信する空中線である。無線機能部16dは、音情報をアンテナ16cを通じた無線で外部に送信するための信号を生成する部分である。
なお、ピンマイク16がカメラ20に取り付けられているときは、後述する電源機能部16fの制御により、音情報をアンテナ16cを通じて無線によって外部に送信しないで、音情報を、カメラ取付部11jを介してカメラ20に出力し、カメラ20側で音情報を送信する。
電源16eは、ピンマイク16の各部を動作させるのに必要とさせる電力を発生する部分であり、例えば電池である。電池は一次電池であってもよいし、二次電池であってもよい。電源機能部16fは、電源16e又はカメラ320の内蔵する電源で発生した電力を、ピンマイク16の各部に供給する制御を行ったり、ピンマイク16のその他の動作の制御を行ったりする。
筐体16iは、上述したマイク16aと音声エンジン16bとアンテナ16cと無線機能部16dと電源16eと電源機能部16fと後述する切替SW16gとクリップ検出部16hとを内部に収容し、また、後述するカメラ取付部16jとクリップ16kとを外部に備えたケースである。
カメラ取付部16jは、ピンマイク16を、カメラ20の、例えばアクセサリシューに着脱可能に取り付ける部分である。カメラ取付部16jは、筐体16iに対して、屈曲した姿勢(図15における実線で記載の姿勢)と、一直線上に伸ばされた姿勢(図15における二点鎖線で記載に姿勢)とに姿勢を変化する。
そして、ピンマイク16がカメラ20に取り付けられた状態では屈曲した姿勢に切り替えることで、マイク16aをカメラ20に近い配置とする。一方、ピンマイク16がカメラ20から取り外された状態では伸ばされた姿勢に切り替えて、オブジェクト91に装着し易い状態で使用される。
カメラ取付部16jが筐体16iに対して屈曲した姿勢と伸ばされた姿勢との切り替えに対応して、切替SW16gの出力が切り替えられる。つまり、カメラ取付部16jが筐体16iに対して屈曲した姿勢に切り替えられているときは、切替SW16gは屈曲した姿勢に対応した信号を出力し、カメラ取付部16jが筐体16iに対して伸ばされた姿勢に切り替えられているときは、切替SW16gは伸ばされた姿勢に対応した、屈曲した姿勢に対応した信号とは異なる信号を出力する。
したがって、切替SW16gの出力に基づいて、ピンマイク16がカメラ20に取り付けられている状態であるか、又はカメラ20から取り外されている状態であるかの別を、電源機能部16fが検知することができる。
クリップ16kは、ピンマイク16がカメラ20から取り外された状態で、オブジェクト91に装着するための部材である。したがって、クリップ16kは、ピンマイク16がカメラ20に取り付けられている状態では使用されない。また、ピンマイク16がカメラ20から取り外されている状態であっても、ピンマイク11がオブジェクト91に装着されていないこともある。この場合は、クリップ16kは使用されない。
クリップ16kが使用されているか又は使用されていないかに対応して、クリップ検出部16hの出力が切り替えられる。つまり、ピンマイク16がカメラ20から取り外されてオブジェクト91にクリップ16kで装着されている場合、クリップ検出部16hは、クリップ16kの使用を検出した信号を出力する。
一方、ピンマイク16がカメラ20に取り付けられている場合又はカメラ20から取り外されているがオブジェクト91にクリップ16kで装着されていない場合、クリップ検出部16hは、クリップ16kの使用を検出した信号を出力しない。
したがって、クリップ検出部11hの出力に基づいて、ピンマイク16がクリップ16kによりオブジェクト91に装着されている状態であるか、又はピンマイク16がオブジェクト91に装着されていない状態であるかの別を、電源機能部16fが検知することができる。
電源機能部16fは、切替SW16gの出力に応じて、マイク16a、音声エンジン16b、アンテナ16c、無線機能部16d、切替SW16g及びクリップ検出部16hに供給する電力を、ピンマイク16に内蔵されている電源16eとするか又はカメラ20に内蔵されている電源(図示省略)とするかを切り替える。
具体的には、切替SW16gの出力が、ピンマイク16がカメラ20に取り付けられている状態に対応したものであるときは、電源機能部16fは、カメラ20に内蔵されている電源に切り替えて、このカメラに内蔵された電源の電力を、接続されたカメラ取付部16jを介して、マイク16a、音声エンジン16b、アンテナ16c、無線機能部16d、切替SW16g及びクリップ検出部16hに供給する。
一方、切替SW16gの出力が、ピンマイク16がカメラ20から取り外されている状態に対応したものであるときは、電源機能部16fは、ピンマイク16に内蔵されている電源16eに切り替えて、この電源16eの電力を、マイク16a、音声エンジン16b、アンテナ16c、無線機能部16d、切替SW16g及びクリップ検出部16hに供給する。
このようにピンマイク16がカメラ20に取り付けられているか否かに対応して、ピンマイク16を動作させる電力の供給元を、適切に切り替えることができる。
なお、切替SW16gの出力が、ピンマイク16がカメラ20に取り付けられている状態に対応したものであるときは、電源機能部16fは、カメラ20に内蔵されている電源に切り替えることに加えて、カメラ20の電源の電力を、ピンマイク16が内蔵する電源16eにも供給して、その電力により電源16eを充電するようにしてもよい。
また、電源機能部16fは、、切替SW16gの出力に応じて、音情報をアンテナ16cを通じて無線によって外部に送信するか、又は音情報をカメラ20側で外部に送信するかの切り替えも制御する。
また、切替SW16gの出力が、ピンマイク16がカメラ20に取り付けられている状態に対応したものであるとき、又はクリップ検出部16hの出力が、ピンマイク11がクリップ16kによりオブジェクト91に装着されている状態に対応したものであるとき、電源機能部16fは、マイク16aの収音を有効(マイク16aに電力を供給した状態)とする。
一方、切替SW16gの出力が、ピンマイク16がカメラ20から取り外されている状態に対応したものであるときで、かつクリップ検出部16hの出力が、ピンマイク16がオブジェクト91に装着されていない状態に対応したものであるとき、電源機能部16fは、マイク16aの収音を無効(マイク16aに電力を供給しない状態)とする。
したがって、ピンマイク16がカメラ20から取り外されている状態で、オブジェクト91に装着されていないときは、マイク16aによって、電源16eの電力が無駄に消費されるのを防止することができる。
なお、切替SW16gは、筐体16iに対してカメラ取付部16jが屈曲している状態であるか又は伸びた状態であるかに応じて出力が変化するのに加えて、屈曲している角度に応じて、出力を変化させてもよい。これにより、カメラ取付部11jに対する筐体11iの角度すなわち、カメラ20に対するマイク16aの上下向き(水平面に対する上下方向の角度)を、電源機能部16fが検知することができる。
また、切替SW16gは、カメラ取付部16jの軸を中心とした回転角度に応じて、出力を変化させてもよい。これにより、カメラ20に対するマイク16aの左右向き(鉛直軸回りの、カメラ20の正面に対する角度)を、電源機能部16fが検知することができる。
上述したピンマイク16についての説明は、他のピンマイク17,18,19についても同様に適用することができる。
カメラ20から取り外されて、オブジェクト91,92,93等にクリップでそれぞれ装着された状態では、上述した実施形態で説明したように、オブジェクトベースで収音するマイクとして機能する。
各ピンマイク16,17,18,19は、オブジェクトベースで収音するマイクとして機能するときは、各ピンマイク16,17,18,19自身の位置情報を取得するGNSS信号等を受信する位置情報取得部と、取得した位置情報をカメラ20等の外部に送信するための送信部と、これら位置情報取得部及び送信部を駆動するための電源と、を備えた構成とすればよい。
一方、各ピンマイク16,17,18がカメラ20に装着された状態においては、収音した音の情報を、その装着された部分を通じて有線でカメラ20に送信し、カメラ20が取得したカメラ20の位置情報を、ピンマイク16,17,18、19の各位置情報としても用いる。そして、ピンマイク16,17,18,19で収音した音の情報及び位置情報を、カメラ20で撮影された映像とともに、収録することができる。
なお、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、カメラが接続されている場合であっても、必ずしも有線でカメラと通信する必要はない。すなわち、カメラが接続されている構成において、マイクの設定が変わるにしても、マイクで収音した音の情報は、無線でカメラに送信するものであってもよい。
<本発明の他の態様>
上述した実施形態や変形例の音情報収録装置100は、収録空間S1において発生した音をマイクで収音するとともに、収録空間S1の映像をカメラで撮影して、収音した音と、音源位置と、映像と、を対応付けた空間音情報を生成するものである。
上述した実施形態や変形例の音情報収録装置100は、収録空間S1において発生した音をマイクで収音するとともに、収録空間S1の映像をカメラで撮影して、収音した音と、音源位置と、映像と、を対応付けた空間音情報を生成するものである。
しかし、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、空間音情報として映像を対応付けたものに限定されない。すなわち、本発明に係る音情報収録装置及び音情報収録再生システムにおける音情報収録装置は、収録空間S1において発生した音をマイクで収音して、収音した音と、音源位置と、を対応付けた空間音情報を生成するものであればよい。この場合、上述した実施形態の音情報収録装置100は、収録空間S1を撮影するカメラ20を備えない構成とすればよい。
なお、カメラ20を備えない構成の音情報収録装置及び音情報収録再生システムでは、音源位置特定部30が、カメラ20の配置された位置である収録基準位置SP1を特定することができない。そこで、この場合は、音源位置特定部30が、収録空間S1内に収録基準位置SP1を任意に設定し、各ピンマイク10の位置、各オブジェクト90の位置、空間音声マイク21,110の位置を、その任意に設定した収録基準位置SP1に対する相対的な位置として特定すればよい。
音源位置特定部30が収録基準位置SP1を設定するに際しては、収録空間S1内において収録基準位置SP1として設定しようとする位置に、位置を特定するための発信機等を配置して、音源位置特定部30がその発信機の位置を検出することで、位置を特定してもよい。
また、カメラ20を備えない構成の音情報収録装置及び音情報収録再生システムでは、カメラ20で撮影した映像を画像処理して、音源位置を特定する処理を行うことはできない。したがって、この場合、音源位置特定部30は、音源位置を、映像を画像処理して特定する処理とは異なる処理によって特定する処理を適用すればよい。
映像を画像処理して特定する処理とは異なる音源位置の特定処理としては、上述したように、例えば、各ピンマイク10がGNSS信号を受信して音源位置特定部30にその信号を送信して、各ピンマイク10の位置(音源位置)を特定する処理や、各ピンマイク10や各オブジェクト90に装着された発信機が発信した電波や超音波等の信号を、収録空間S1に分布して配置された複数のアンテナによって受信し、音源位置特定部30が、アンテナ間での受信した信号の位相乃至振幅の差異に基づいて、各発信機の位置すなわち各オブジェクトの位置(音源位置)を特定する処理などを適用することができる。
音情報収録装置100が収録空間S1の映像を収録しないものである場合、生成された空間音情報には映像が対応付けられていないため、音情報収録再生システム300の音情報再生装置200の音位置分離部210は、空間音情報を、音と音源位置とに分離するものであればよい。また、再生部220は、音再生部230を備えるが、映像再生部240を備えなくてもよい。そして、音情報再生装置200は、再生空間S2に音を再生するが、収録空間S1の映像を再生することはない。
ただし、この場合であっても、音情報再生装置200は映像再生部240を備えてもよく、音情報収録装置100によって音を収録したときに撮影された収録空間S1の映像ではなく、別のタイミングで撮影された収録空間S1の映像や、収録空間S1とは別の映像を、映像再生部240で再生することを排除するものではない。
上述した実施形態の音情報収録装置100は、音場対応調整部40を備えているが、本発明に係る音情報収録装置及び音情報収録再生システムは、必ずしも、収音した音に対して、収録空間S1の音場等の音響特性に応じた調整を行う必要はなく、したがって、音場対応調整部を備えない構成であってもよい。
10,11~13 ピンマイク
20 カメラ
30 音源位置特定部
40 音場対応調整部
50 空間音情報生成部
90,91~93 オブジェクト
100 音情報収録装置
S1 収録空間
S2 再生空間
SP1 収録基準位置
SP2 再生基準位置
20 カメラ
30 音源位置特定部
40 音場対応調整部
50 空間音情報生成部
90,91~93 オブジェクト
100 音情報収録装置
S1 収録空間
S2 再生空間
SP1 収録基準位置
SP2 再生基準位置
Claims (13)
- 収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、前記オブジェクトの位置に関する情報に基づいて音源位置を特定する音源位置特定部と、
前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置特定部で特定した前記音源位置とを対応付けた空間音情報を生成する空間音情報生成部と、を備えた音情報収録装置。 - 空間音情報生成部は、前記収録基準位置に配置されたカメラにより撮影された映像と前音源位置とを対応づける請求項1に記載の音情報収録装置。
- 前記マイクは、GNSS信号を受信し、前記マイクを識別する識別信号とともに、受信した前記GNSS信号に基づいて前記マイクの位置を特定する信号を出力し、
前記音源位置特定部は、前記マイクから送信された識別信号と前記マイクの位置を特定する信号とに基づいて、前記音源位置を特定する請求項1又は2に記載の音情報収録装置。 - 前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて、前記音源位置を特定する請求項2に記載の音情報収録装置。
- 前記マイクを2つ以上備え、そのうち少なくとも1つが、収音する音の向きを検出することができる空間音声マイクであり、
前記音源位置特定部は、2つの前記マイクにの収音のタイミング差にに基づいて求められた前記収録基準位置から前記オブジェクト若しくは前記マイクまでの距離と、前記空間音声マイクにより収音された音の方向と、に基づいて、前記音源位置を特定する請求項1又は2に記載の音情報収録装置。 - 前記マイクが、収音する音の向きを検出することができる空間音声マイクであり、
前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの距離と、前記空間音声マイクにより収音された音の方向と、に基づいて、前記音源位置を特定する請求項2に記載の音情報収録装置。 - 前記マイクを2つ以上備え、
前記音源位置特定部は、前記カメラで撮影された前記収録空間の映像における前記オブジェクト及び前記マイクのうち少なくとも一方の特徴的形態、並びに前記オブジェクト及び前記マイクのうち少なくとも一方に設けられた発光部が発光した光、の少なくとも一方に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの方向と、2つの前記マイクにより収音された音の収音のタイミング差に基づいて求められた前記収録基準位置から前記オブジェクト及び前記マイクのうち少なくとも一方までの距離と、に基づいて、前記音源位置を特定する請求項2に記載の音情報収録装置。 - 前記音源位置特定部は、前記マイクにそれぞれ備えられたビーコンから出力されるビーコン信号を受信する複数の受信部を備え、
前記音源位置特定部は、複数の前記受信部で受信された前記ビーコン信号に基づいて、前記音源位置を特定する請求項1又は2に記載の音情報収録装置。 - 前記マイクにより収音された前記オブジェクトの発した音に対して、予め設定された音場における音響特性に応じた調整を行う音場対応調整部を備え、
前記空間音情報生成部は、前記音場対応調整部で調整された後の、前記オブジェクトの発生した音を、前記空間音情報として生成する請求項1から8のうちいずれか1項に記載の音情報収録装置。 - 請求項1から9のうちいずれか1項に記載の音情報収録装置と、前記音情報収録装置によって収録された前記空間音情報に基づいて、前記オブジェクトの発した音を再生空間に再生する音情報再生装置と、を備えた音情報収録再生システムであって、
前記音情報再生装置は、前記空間音情報を、前記オブジェクトの発した音と前記音源位置とに分離する音位置分離部と、
前記再生空間に配置された、音を再生する音再生部と、
前記再生空間における、前記音再生部により再生される音を聴く位置として設定された再生基準位置に、前記収録空間における前記収録基準位置を対応させ、前記収録空間における前記音源位置を前記再生空間に仮想的に対応づけた仮想音源位置を設定する仮想音源位置設定部と、
前記仮想音源位置から、前記オブジェクトの発生した音が再生されるように、前記再生部により再生される音を調整する再生音調整部と、を備えた音情報収録再生システム。 - 前記音情報生成装置が、前記収録基準位置に配置されて、前記オブジェクトを含む前記収録空間の映像を撮影するカメラを備え、
前記音情報再生装置が、前記カメラで撮影された前記映像を前記再生空間に再生する映像再生部を備え、
前記音位置分離部は、前記空間音情報を、前記オブジェクトの発生した音と前記音源位置と前記映像とに分離するものであり、
前記仮想音源位置設定部は、前記音再生部により再生される音及び前記映像を視聴する位置として設定された前記再生基準位置に、前記収録空間における前記収録基準位置を対応させ、
前記再生音調整部は、前記仮想音源位置設定部によって前記映像における前記仮想音源位置から、前記オブジェクトの発生した音が聴こえるように、前記再生部から再生される音を調整する、請求項10に記載の音情報収録再生システム。 - 前記音情報再生装置は、前記再生空間と前記収録空間との対応関係を調整する入力を受け付ける調整受付部と、前記調整受付部に受け付けた入力にしたがって、前記再生空間と前記収録空間との対応関係を、前記再生基準位置に前記収録基準位置を対応させた状態で調整する調整部と、を備え、
前記仮想音源位置設定部は、前記調整部により調整された後の、前記再生空間と前記収録空間との対応関係にしたがって、前記仮想音源位置を設定する請求項10又は11に記載の音情報収録再生システム。 - 収録空間における予め設定された収録基準位置に対する相対的なオブジェクトの位置に関する情報を取得し、
前記オブジェクトの位置に関する情報に基づいて音源位置を特定し、
前記収録空間に配置されて、前記オブジェクトの発した音を収音するマイクにより収音された前記オブジェクトの発した音と前記音源位置とを対応付けた空間音情報を生成する、音情報収録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021191939A JP2023078689A (ja) | 2021-11-26 | 2021-11-26 | 音情報収録装置、音情報収録再生システム及び音情報収録方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021191939A JP2023078689A (ja) | 2021-11-26 | 2021-11-26 | 音情報収録装置、音情報収録再生システム及び音情報収録方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023078689A true JP2023078689A (ja) | 2023-06-07 |
Family
ID=86646257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191939A Pending JP2023078689A (ja) | 2021-11-26 | 2021-11-26 | 音情報収録装置、音情報収録再生システム及び音情報収録方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023078689A (ja) |
-
2021
- 2021-11-26 JP JP2021191939A patent/JP2023078689A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110249640B (zh) | 用于虚拟现实(vr)、增强现实(ar)和混合现实(mr)系统的分布式音频捕获技术 | |
US10397722B2 (en) | Distributed audio capture and mixing | |
US9706292B2 (en) | Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images | |
KR100878457B1 (ko) | 음상정위 장치 | |
US20090052703A1 (en) | System and Method Tracking the Position of a Listener and Transmitting Binaural Audio Data to the Listener | |
KR20060107328A (ko) | 촬상 장치, 음성 기록 장치 및 음성 기록 방법 | |
CN101185368A (zh) | 用于声换能器的组件、系统以及方法 | |
CN101208989A (zh) | 用于声信号的装置、系统以及方法 | |
JP6410769B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JP7070910B2 (ja) | テレビ会議システム | |
Maempel et al. | The virtual concert hall: a research tool for the experimental investigation of audiovisual room perception | |
WO2020026548A1 (ja) | 情報処理装置及び情報処理方法、並びに音響システム | |
JP2023078689A (ja) | 音情報収録装置、音情報収録再生システム及び音情報収録方法 | |
JP3282202B2 (ja) | 収録装置、再生装置、収録方法および再生方法、および、信号処理装置 | |
KR101747800B1 (ko) | 입체음향 생성 장치 및 이를 이용한 입체 컨텐츠 생성 시스템 | |
JP6274244B2 (ja) | 収音再生装置、収音再生プログラム、収音装置及び再生装置 | |
WO2021095563A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP6664456B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
KR20120016928A (ko) | 촬영 시스템 | |
JP4518729B2 (ja) | 画像音響提示システムと方法並びにコンピュータ読み取り可能な記録媒体と画像音響提示プログラム | |
JP6600186B2 (ja) | 情報処理装置、制御方法およびプログラム | |
JP3104348B2 (ja) | 収録装置、再生装置、収録方法および再生方法、および、信号処理装置 | |
CN113556665B (zh) | 用于虚拟现实(vr)、增强现实(ar)和混合现实(mr)系统的分布式音频捕获技术 | |
JP3104349B2 (ja) | 収録装置、再生装置、収録方法および再生方法、および、信号処理装置 | |
CN114945977A (zh) | 现场数据传送方法、现场数据传送系统、其传送装置、现场数据播放装置及其播放方法 |