JP2018191127A - 信号生成装置、信号生成方法およびプログラム - Google Patents
信号生成装置、信号生成方法およびプログラム Download PDFInfo
- Publication number
- JP2018191127A JP2018191127A JP2017091812A JP2017091812A JP2018191127A JP 2018191127 A JP2018191127 A JP 2018191127A JP 2017091812 A JP2017091812 A JP 2017091812A JP 2017091812 A JP2017091812 A JP 2017091812A JP 2018191127 A JP2018191127 A JP 2018191127A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- sound source
- listening point
- virtual listening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 仮想聴取点に対応する音響信号として、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供する。
【解決手段】 信号生成装置100は、指定された仮想聴取点の位置情報を取得する。そして信号生成装置100は、複数のマイクロホン20の少なくとも何れかにより収音される音源のうち特定の音源を、仮想聴取点の位置と音源の位置とに基づいて決定する。また信号生成装置100は、複数のマイクロホン20による収音に基づく収音信号から抽出される音源信号であって当該特定の音源に対応する音源信号と、収音信号に基づく当該特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成する。さらに信号生成装置100は、生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号を生成する。
【選択図】 図3
【解決手段】 信号生成装置100は、指定された仮想聴取点の位置情報を取得する。そして信号生成装置100は、複数のマイクロホン20の少なくとも何れかにより収音される音源のうち特定の音源を、仮想聴取点の位置と音源の位置とに基づいて決定する。また信号生成装置100は、複数のマイクロホン20による収音に基づく収音信号から抽出される音源信号であって当該特定の音源に対応する音源信号と、収音信号に基づく当該特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成する。さらに信号生成装置100は、生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号を生成する。
【選択図】 図3
Description
本発明は、仮想的な聴取点に対応する音響信号を生成する技術に関する。
近年、異なる位置に設置された複数のマイクにより収音を行い、当該収音により得られた複数の収音信号を用いて仮想的な聴取点(仮想聴取点)に対応する音響信号を生成する技術が提案されている。このようにして生成される音響信号を再生することで、設置されたマイクの位置に限らない仮想聴取点における聞こえ方を再現できる。例えば、競技場においてスポーツの試合の際に収音された収音信号を用いて、競技場内の任意の位置において試合中に聞こえたはずの音を再現することが可能となり、試合の撮影画像と合わせて再生することで従来よりも高い臨場感を視聴者に与えることができる。
特許文献1には、競技場に設置された複数のマイクにより収音された音声に、それらのマイクと指定された仮想聴取点との位置関係に基づくミキシング処理を行うことで、仮想聴取点に対応するサラウンド音声を提供することが記載されている。
仮想聴取点に対して所定の位置にある音源の音がより明瞭となるように音響信号を生成すれば、ユーザーにより高い臨場感を与えることができる。例えば、仮想聴取点の近傍に位置する音源の音や、仮想聴取点に応じた方向に位置する音源の音などがより明瞭になることで、ユーザーはより高い臨場感を得ることができる。
本発明は上記の課題に鑑みてなされたものであり、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することを目的とする。
上記の課題を解決するため、本発明に係る信号処理装置は、例えば以下の構成を有する。すなわち、指定された仮想聴取点の位置情報を取得する取得手段と、複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得手段により取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定手段と、前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定手段により決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成手段とを有する。
本発明によれば、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
[システム構成]
図1は本実施形態における信号処理システム200の構成例を示すブロック図である。信号処理システム200は、マイクロホン20、操作部5、信号生成装置100、音響再生部11、ステレオ再生スピーカーセット12、マルチチャンネル音響再生スピーカーセット13、ヘッドフォン14、通信部15及び出力部17を有する。
図1は本実施形態における信号処理システム200の構成例を示すブロック図である。信号処理システム200は、マイクロホン20、操作部5、信号生成装置100、音響再生部11、ステレオ再生スピーカーセット12、マルチチャンネル音響再生スピーカーセット13、ヘッドフォン14、通信部15及び出力部17を有する。
本実施形態において複数のマイクロホン20は、収音対象の領域に設定された複数の収音点にそれぞれ設置され、収音を行う。図18は、収音点の設定の例を模式的に示す。図18は収音対象の領域である競技場を俯瞰した様子を表しており、観客席102、トラック103、及びフィールド104に収音点101が複数設定されている。本実施形態では、図18に示すように、収音点101が競技場内にまんべんなく設定されるものとする。ただしこれに限らず、マイクロホン20の設置の容易性や各領域の重要度などに応じて収音点101の配置が偏っていてもよい。また、収音対象の領域は競技場に限らず、例えばライブステージなどであってもよい。マイクロホン20の収音に基づく収音信号は信号生成装置100に入力される。なお、入力される収音信号はマイクロホン20の数に対応する数のチャンネルを有している。
操作部5は、仮想的な聴取点(仮想聴取点)を指定する操作者による操作を受け付けて、信号生成装置100に仮想聴取点の指定に関する入力を行う。操作部5は、例えばジョイスティック、ゲームパッド、タッチパネル、キーボード、及びマウスなどの入力デバイスで構成される。本実施形態では仮想聴取点の位置(聴取位置)と仮想聴取点における聴取の方向(聴取方向)とが指定されるものとするが、聴取方向は指定されなくてもよい。
信号処理システム200により収音信号に基づいて生成される音響信号は、操作部5を介して指定された仮想聴取点を基準として音像が定位するような音響信号となる。すなわち仮想聴取点は、複数のマイクロホン20による収音に基づく収音信号を合成して音響信号を生成する際の基準位置及び基準方向を表す。具体的には、信号処理システム200により生成される音響信号は、指定された聴取位置に指定された聴取方向で置かれた仮想的なマイクアレイ(仮想マイク)による収音に基づく音響信号を表す。ただし、生成される音響信号は、仮想マイクによる収音信号を忠実に再現したものに限らず、仮想マイクによる収音信号に種々の加工を施したような音響信号であってもよい。なお、本実施形態では全方向の音を収音する仮想マイクを想定した音響信号が生成されるものとするが、聴取方向に応じた指向性を有する仮想マイクを想定した音響信号が生成されてもよい。
信号生成装置100は、マイクロホン20から入力された収音信号と操作部5から入力された仮想聴取点の指定とに基づいて、仮想聴取点に対応する音響信号を生成する。信号生成装置100により生成された音響信号は音響再生部11に入力され、各種の音響再生環境に応じた形式の再生用の信号にレンダリングされる。そしてレンダリングされた信号は、各種の音響再生環境や通信部15、及び出力部17へ出力される。音響再生部11、通信部15及び出力部17は、例えばAVアンプなどの機器により実現される。
本実施形態における音響再生環境は、ステレオ再生スピーカーセット12、マルチチャンネル音響再生スピーカーセット13、及びヘッドフォン14である。ステレオ再生スピーカーセット12は、音響再生部11によりレンダリングされたステレオ音響信号を音に変換して出力する。マルチチャンネル音響再生スピーカーセット13は、音響再生部11によりレンダリングされたマルチチャンネル音響信号を音に変換して出力する。なお、これらのスピーカーセットは、同一平面上に配置されていてもよいし、それぞれのスピーカーで高さを変えて立体的に配置されていてもよい。また、スピーカーの数も2つや5つに限定されるものではない。ヘッドフォン14は、音響再生部11がレンダリングしたヘッドフォン信号を音に変換して出力する。
信号生成装置100により生成された仮想聴取点に対応する音響信号がこれら各種の音響再生環境により再生されることで、再生された音を聴くユーザーは、マイクロホン20の設置位置に限定されない仮想聴取点における聞こえ方を体験することができる。すなわちユーザーは、指定された聴取位置において指定された聴取方向を向いている場合に聞こえる音を模した音を聴くことができる。なお、操作部5を操作して仮想聴取点を指定する操作者と再生された音を聴くユーザーは同一であってもよいし、別々であってもよい。また、仮想聴取点の指定方法は上記に限定されない。すなわち、信号生成装置100により生成される仮想聴取点に対応する音響信号には、任意に指定された聴取点に対応する音響信号だけでなく、複数の候補の中から指定された聴取点に対応する音響信号や、自動で指定された聴取点に対応する音響信号も含まれる。
また、収音対象領域を撮影した撮影画像と指定された仮想視点とに基づく仮想視点画像を、音響再生環境における音の再生に合わせて再生することで、視聴するユーザーにより高い臨場感を与えることができる。このような場合には、例えば、信号生成装置100は操作部5を用いて操作者により指定された仮想視点の情報を取得し、仮想視点に対応するように仮想聴取点を設定してもよい。
通信部15は、音響再生部11がレンダリングした再生信号を、通信網16を介して信号処理システム200の外部へ送信する通信機器である。通信網16は、例えばインターネットや公衆回線網などである。出力部17は、音響再生部11がレンダリングした再生信号を、外部端子に接続された外部機器へ出力する。
次に、信号生成装置100のより詳細な構成について説明する。信号生成装置100は、収音信号入力部1(以降、入力部1)、音源抽出部2、再生音源決定部3(以降、音源決定部3)、及び音響信号合成部4(以降、合成部4)を有する。信号生成装置100はさらに、聴取点決定部6、再生音源範囲決定部7(以降、範囲決定部7)、及び周囲音信号生成部8(以降、周囲音生成部8)を有する。
入力部1は、複数のマイクロホン20による収音に基づく収音信号に対して増幅やノイズ除去などの処理を行い、当該処理により得られた信号を音源抽出部2及び周囲音生成部8に送出する。音源抽出部2は、各収音点の座標と収音信号のチャンネル番号とが対応付けられた収音点座標データ10を取得する。本実施形態では収音点座標データ10は信号生成装置100のROM22やRAM23により構成される記憶部に予め格納されているものとするが、これに限らず、信号生成装置100の外部から取得されてもよい。そして音源抽出部2は、収音点座標データ10に基づいて収音信号を解析することで、音源が発する音に対応する音源信号を収音信号から抽出し、且つ当該音源の位置を特定する。
音源決定部3は、音源抽出部2によって特定された音源の位置と指定された仮想聴取点とに基づいて、音源信号が再生されるべき特定の音源(再生音源)を決定する。合成部4は、音源信号と周囲音信号とを合成して音響再生部11に出力する。聴取点決定部6は、操作部5からの入力に基づいて、音響信号の生成に係る聴取位置と聴取方向を決定する。範囲決定部7は、音源決定部3によって決定された再生音源の位置と仮想聴取点とに基づいて、再生音源を含む範囲を決定する。
周囲音生成部8は、範囲決定部7により決定された範囲に含まれない収音点に対応するチャンネルの収音信号に基づいて、仮想聴取点に対してそれぞれ異なる方向に位置する複数の領域に対応する複数の周囲音信号を生成する。そして周囲音生成部8は、各周囲音信号を対応する方向に関する周囲音方向情報とともに合成部4へ出力する。生成すべき周囲音信号の方向は、信号生成装置100の記憶部に予め格納された周囲音方向データ9により決まる。なお、周囲音方向データ9は信号生成装置100の外部から取得されてもよい。本実施形態においては、各周囲音信号の方向が等方性を持つように周囲音方向データ9が設定されている。例えば、仮想聴取点を中心とする正多面体の各面に対する垂直方向が周囲音信号に対応する方向となる。ただしこれに限らず、5.1chや22.2chなどの既定のチャンネルフォーマットに応じた方向を周囲音信号に対応する方向としてもよい。
以上、信号処理システム200の構成例について説明した。なお、信号生成装置100の構成要素は以上で説明したものに限らない。例えば、操作部5と音響再生部11の少なくとも何れかの機能を信号生成装置100が有していてもよいし、入力部1が信号生成装置100とは別個の装置として構成されていてもよい。
[ハードウェア構成]
続いて、信号生成装置100のハードウェア構成について、図2を用いて説明する。信号生成装置100は、CPU21、ROM22、RAM23、補助記憶装置24、通信I/F25、及びバス26を有する。CPU21は、ROM22やRAM23に格納されているコンピュータプログラムやデータを用いて信号生成装置100の全体を制御する。ROM22は、変更を必要としないプログラムやパラメータを格納する。RAM23は、補助記憶装置24から供給されるプログラムやデータ、及び通信I/F25を介して外部から供給されるデータなどを一時記憶する。補助記憶装置24は、例えばハードディスクドライブ等で構成され、種々のコンテンツデータを記憶する。
続いて、信号生成装置100のハードウェア構成について、図2を用いて説明する。信号生成装置100は、CPU21、ROM22、RAM23、補助記憶装置24、通信I/F25、及びバス26を有する。CPU21は、ROM22やRAM23に格納されているコンピュータプログラムやデータを用いて信号生成装置100の全体を制御する。ROM22は、変更を必要としないプログラムやパラメータを格納する。RAM23は、補助記憶装置24から供給されるプログラムやデータ、及び通信I/F25を介して外部から供給されるデータなどを一時記憶する。補助記憶装置24は、例えばハードディスクドライブ等で構成され、種々のコンテンツデータを記憶する。
通信I/F25は、マイクロホン20や音響再生部11などの外部の装置との通信に用いられる。例えば、信号生成装置100が外部の装置と有線で接続される場合には、LANケーブル等が通信I/F25に接続される。なお、信号生成装置100が外部の装置と無線通信する機能を有する場合、通信I/F25はアンテナを備える。バス26は、信号生成装置100の各部を繋いで情報を伝達する。
[動作フロー]
次に図3を用いて、信号処理システム200による処理の流れについて説明する。図3に示す処理は、仮想聴取点に対応する音響信号の生成を開始するための操作を信号生成装置100が受け付けたタイミングで開始される。生成開始のための操作は、例えば、競技場における収音の対象となる試合の開始に応じて行われる。なお、音響信号の生成はリアルタイムで行われるものに限らず、例えば試合中に収音された収音信号に基づいて、試合の終了後に音響信号の生成が開始されてもよい。また、図3に示す処理の開始タイミングは上記タイミングに限定されない。
次に図3を用いて、信号処理システム200による処理の流れについて説明する。図3に示す処理は、仮想聴取点に対応する音響信号の生成を開始するための操作を信号生成装置100が受け付けたタイミングで開始される。生成開始のための操作は、例えば、競技場における収音の対象となる試合の開始に応じて行われる。なお、音響信号の生成はリアルタイムで行われるものに限らず、例えば試合中に収音された収音信号に基づいて、試合の終了後に音響信号の生成が開始されてもよい。また、図3に示す処理の開始タイミングは上記タイミングに限定されない。
図3に示す処理のうち、信号生成装置100が実行する処理であるS101からS107の処理は、CPU21がROM22に格納されたプログラムをRAM23に展開して実行することで実現される。なお、これらの処理の少なくとも一部を、CPU21とは異なる専用のハードウェアにより実現してもよい。
S101において、入力部1は、複数のマイクロホン20により収音された収音信号に対し、増幅やノイズ除去処理を行う。本実施形態では、収音信号の全てのチャンネルに対して同じ増幅値が適用されるものとする。ただし、各チャンネルに対して個別に増幅値が設定されてもよい。処理が行われた複数チャンネルの収音信号は音源抽出部2と周囲音生成部8に出力される。
S102において、聴取点決定部6は、操作者による操作部5に対する指示操作によって生成される入力信号に基づいて、操作者により指定された仮想聴取点の位置(聴取位置)および聴取方向を決定する。この決定により聴取点決定部6は、聴取位置を示す聴取位置情報と、聴取方向を示す方向情報とを取得する。本実施形態における聴取位置情報は、水平面上の東西方向にX軸、南北方向にY軸、鉛直方向にZ軸を各々直交するようにとり、それぞれ東方向、北方向、上方向を正の向きとし、フィールド上の南西角を原点とした場合の三次元座標で表現される。また方向情報は、X軸の正方向、つまり水平面上の東方向を0度とし、水平面上での角度θ(−180°<θ≦180°)と水平面に対する俯角φ(−90°≦φ≦90°)で表される。決定された聴取位置及び聴取方向は、音源決定部3、範囲決定部7、及び周囲音生成部8に出力される。なお、聴取点決定部6は、聴取位置情報と方向情報とを操作部5とは異なる外部の装置から取得してもよい。
なお、本実施形態では聴取点位置や音源の位置が三次元座標で表現される場合を中心に説明するが、これに限らない。例えば、競技場における各選手の高さは大きく異ならないため、音源の位置がフィールド面における二次元座標で表現されてもよい。また、聴取位置も、フィールド面に投影された二次元座標で表現されてもよい。
S103において、音源抽出部2は、S101で処理された複数チャンネルの収音信号を利用して音源抽出処理を行う。この抽出処理により、複数のマイクロホン20の少なくとも何れかによる収音の対象となる複数の音源の位置が特定されるとともに、各音源に対応する音源信号が抽出される。収音対象の領域が競技場の内部である場合、例えば、抽出対象となる音源はフィールド上の選手である。収音信号には、選手が発する音に加え、観客の歓声などが含まれるが、音源抽出部2は観客の歓声などの音を抽出しなくてもよい。S103の処理の詳細については図5を用いて後述する。抽出された音源信号と音源の位置は、図4に示すようなデータ構造を有する音源情報としてまとめて音源決定部3へ出力される。なお、音源抽出部2により複数の音源が抽出された場合には、複数の音源情報が出力される。
図4に示すように、音源情報は、音源ID、音源信号、音源座標、聴取点(仮想聴取点)からの距離、及び聴取点(仮想聴取点)から見た方向、によって構成される。このうち、音源IDは、音源情報を識別するための識別情報であり、例えば各音源情報に対して個別の番号が割り振られる。また、音源座標は、前述した聴取位置と同じ座標系における座標値で表される。聴取点からの距離には、後述する処理において計算される仮想聴取点と音源との距離が格納される。聴取点から見た方向には、後述する処理において計算される仮想聴取点に対する音源の方向が格納される。本実施形態において、聴取点から見た方向は、聴取方向を基準として水平角θと俯角φで表現される。
S104において、音源決定部3は、S103で抽出された音源情報のうち、再生用の信号をレンダリングする際に使用される音源情報を、指定された仮想聴取点と各音源との位置関係に基づいて決定する。すなわち、音源決定部3は、収音対象となる複数の音源に含まれる特定の再生音源を、聴取点決定部6により取得される聴取位置情報が表す聴取位置と、音源抽出部2により特定された音源の位置とに基づいて決定する。S104の処理の詳細は、図7を用いて後述する。
S105において、範囲決定部7は、S105において決定された音源情報を用いて、再生音源を含む範囲を再生音源範囲として決定する。この処理の詳細は、図8を用いて後述する。S106において、周囲音生成部8は、再生音源範囲の外部の領域に対応する周囲音信号を含む周囲音情報を生成する。本実施形態では、再生音源範囲の外部の領域が複数の周囲領域に分割され、分割された複数の周囲領域に対応する複数の周囲音情報が生成される。この処理の詳細は、図9を用いて後述する。
S107では、合成部4が、S104で決定された音源情報のリストと、S106で生成された周囲音情報のリストをマージする。本実施形態ではこの処理を音響信号の合成処理と呼ぶ。この処理の詳細は図11を用いて後述する。合成された音響信号、すなわちマージされた音源情報と周囲音情報のリストは、音響再生部11に出力される。音響再生部11により出力される音響信号は、操作者により指定された仮想聴取点に対応する音響信号となっている。
なお、詳細については後述するが、本実施形態では音源信号と周囲音信号との生成方法が異なる。すなわち、音源決定部3により決定される特定の再生音源に対応する音源信号と、収音信号に基づく当該再生音源に対応しない周囲音信号とが、それぞれ異なる信号処理によって生成される。そして生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号が生成される。例えば、仮想聴取点の近傍に位置する音源を再生音源とする場合に、再生音源の音を際立たせ、周囲音をぼかす処理を行うことにより、仮想聴取点の近傍に位置する音源の音がより明瞭となるような聞こえ方を実現可能な音響信号を提供することができる。
S108において、音響再生部11は、S107で合成された音響信号を、各種の音響再生環境に応じたフォーマットにレンダリングする。この処理の詳細は図12を用いて後述する。S109において、音響再生部11は、S108におけるレンダリングにより生成された再生用の信号の出力先を判定する。出力先が音響再生機器の場合は、S110へ進む。出力先が通信網の場合は、S111へ進む。出力先が外部機器の場合は、S112へ進む。
S110において、音響再生部11は、S108におけるレンダリングにより生成された再生用の信号を、各種の音響再生環境に出力する。すなわち、ステレオ再生スピーカーセット12、マルチチャンネル音響再生スピーカーセット13、及びヘッドフォン14の少なくとも何れかに再生用の信号が出力され、再生環境において信号が音に変換され再生される。S110の処理が終わると、S113へ進む。S111において、通信部15は、音響再生部11から出力された再生用の信号を、通信網16を介して外部へ送信する。S111の処理が終わると、S113へ進む。S112において、出力部17は、音響再生部11から出力された再生用の信号を、出力用の規定フォーマットに変換して、外部端子に接続された外部機器に出力する。S112の処理が終わると、S113へ進む。
S113において、信号生成装置100は、音響信号の生成処理を終了するかどうか判定する。判定の結果、処理を継続する場合はS101に戻り、そうでなければ図3の処理を終了する。なお、音響信号の生成処理を終了すると判定される場合とは、例えば、処理を終了する操作が信号生成装置100に対して行われた場合や、マイクロホン20からの収音信号の入力が停止された場合などである。
図3に示す処理の結果、各種の再生環境において音が再生されることにより、図17に示すような仮想的な音場が実現される。図17は、信号処理システム200により実現される再生音場を平面上で表現したイメージ図である。仮想聴取点を中心とする再生音源範囲の内部に複数の音源が存在し、再生音源範囲の外部に分割された複数の周囲領域が存在する。再生環境において再生された音を聴くユーザーは、仮想聴取点において各音源の音や周囲領域の音を聴いているかのような体験ができる。特に、再生音源範囲の内部の音源により発生する音は方向が明瞭な音となり、周囲領域で発生する周囲音は方向が明瞭でない包み込むような音となるような再生音場が実現される。
[処理の詳細]
続いて、図3を用いて説明した各処理の詳細について説明する。図5は、図3のS103における音源抽出処理の詳細について説明するためのフローチャートである。本フローを構成する各処理は、全て音源抽出部2により実行される。
続いて、図3を用いて説明した各処理の詳細について説明する。図5は、図3のS103における音源抽出処理の詳細について説明するためのフローチャートである。本フローを構成する各処理は、全て音源抽出部2により実行される。
S201では、RAM23に格納される音源抽出に関わる内部変数やデータの初期化が行われる。S202では、複数のマイクロホン20を、収音点の位置に基づいて予め定められた複数のグループ(サブアレイ)に分類。このようにすることによって、後の音源抽出処理に係る負荷を分散させることができる。S203からS206の処理は、S202で分類されたサブアレイ毎に行われ、全サブアレイに対する処理が終了するまでループ処理される。
S204では、サブアレイを構成するマイクロホン20に対応する収音点の座標に基づき、各サブアレイの重心座標が計算される。本実施形態において各マイクロホン20は同一の構成であり、収音点群の座標値の平均値を座標軸ごとに計算することにより重心座標が計算される。ただし、例えばサブアレイを構成する複数のマイクロホン20が異なる構成である場合などには、収音点ごとに重みづけをして重心座標を計算してもよい。
次に、S205では、各サブアレイに含まれる収音点の座標と、対応するチャンネルの収音信号を用いて、サブアレイの近傍に存在する音源の方向が検知される。音源の方向の検知には、例えば公知の手法である遅延時間推定法やMUSIC法などの音源定位アルゴリズムを使用することができる。なお、この際、検知可能な音源すべての方向が検知されてもよいし、周波数や音量などに所定の特徴を有する音源の方向だけが検知されてもよい。
さらに、S204で計算されたサブアレイの重心座標と検知された音源の方向との組が、図6(a)に示すようなデータ構造を有する音源方向リストに格納される。単一のサブアレイの近傍で複数の音源方向が検知された場合には、アレイ重心座標が同一で音源方向が異なる複数のエントリが格納される。S206では、すべてのサブアレイに対する処理が終了していれば、ループ処理を終了しS207へ進む。そうでなければS203に戻る。
S207では、S206までの処理で生成された音源方向リストが参照され、音源方向リストに含まれる或るエントリのサブアレイ重心座標から対応する音源方向に伸ばした直線が、リスト中の他のエントリにおける直線と交わる座標が計算される。この座標が、音源の位置を示す音源座標として、図6(b)に示すようなデータ構造を有する音源座標リストに格納される。なお、音源方向の検知には誤差が生じうるため、複数のエントリの直線が一定の距離、例えば1m以内に近づいた場合、これらの直線が交わったものとみなし、直線間の距離が最も短くなった点を音源座標としてもよい。音源方向リストに格納されたすべてのエントリ同士の組み合わせについてS207の処理が行われると、S208へ進む。
S208からS213までの処理は、S207で作成された音源座標リストに格納された音源座標ごとに実行され、すべての音源座標に対する処理が終了するまでループ処理が行われる。まず、S209では、処理対象となる音源座標の近傍の収音点に対応するマイクロホン20が規定数、例えば4つ選択され、音源抽出用のためのグループ(音源抽出用アレイ)が構成される。次に、S210では、S209で構成された音源抽出用アレイに対応するチャンネルの収音信号を用いて、音源座標に位置する音源が発した音に対応する音源信号を抽出する。この抽出処理には、例えば音源座標に指向性を向けた遅延和ビームフォーミング処理などの公知の技術を使用することができる。
次に、S211では、抽出された音源信号のピーク音圧が予め定められた閾値以上かどうかを判定する。ピーク音圧が閾値以上の場合は、S212において新規の音源IDを有する音源情報が作成され、S210で抽出された音源信号と対応する音源座標とが格納される。ピーク音圧が閾値未満の場合は、対象の音源信号の音源情報は作成されず、S213へ処理が進む。この閾値については、例えば信号生成装置100の操作者が予め設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。このように、再生用の信号への影響が小さい音源信号の処理を省略することにより、信号生成装置100の処理負荷を低減できる。S213では、音源座標リストに格納される全ての音源座標に対する処理が終了していれば、ループ処理を終了しS214へ進む。そうでなければS208へ戻る。
S214では、仮想聴取点と各収音点との距離に基づいて、各収音点に対応するチャンネルの収音信号に対して遅延及び/又は音圧の補正を行い、全チャンネルの収音信号を加算することにより、仮想聴取点に対応する合成音信号を生成する。この処理によって生成された合成音信号は、S104における再生音源を決定する処理において使用される。次に、S215では、S212において作成された全ての音源情報を、S214で生成された合成音信号とともに音源決定部3へ出力する。以上によりS103の音源抽出処理が終了する。
図7は、図3のS104における再生音源の決定処理の詳細について説明するためのフローチャートである。なお、本フローにおける各処理は全て音源決定部3によって行われる。S301では、RAM23に格納されている再生音源リストを初期化して空にする。再生音源リストは、S103における音源抽出処理の対象の音源のうち再生音源として決定される特定の音源の情報を格納するリストである。
S302からS309までの処理は、収音の対象となる複数の音源に含まれる各音源に対応する音の大きさ、及び指定された聴取位置と各音源の位置との距離に基づいて、再生音源を決定する処理である。これらの処理は、音源抽出部2により出力された各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。
まず、S303では、音源情報に含まれる音源座標、すなわち音源の位置情報が取得され、仮想聴取点と音源との距離が計算される。計算された距離は、聴取点からの距離として音源情報に格納される。次に、S304では、S303で計算された距離に基づき、音源情報に格納されている音源信号に対して減衰補正処理及び/又は遅延補正処理が行われる。すなわち、聴取位置と音源の位置との距離に応じて信号の音量及び/又は遅延を調整する処理が行われる。これにより、仮想聴取点において聞こえる音源の音をよりリアルに再現できる。なお、音源信号に対して行われる信号処理の内容はこれに限らない。例えば、仮想聴取点の聴取方向に存在する音源の音源信号を強調するなど、聴取方向に対する音源の方向に応じた補正処理が行われてもよい。また、聴取位置情報と音源の位置情報とに基づくその他の信号処理が行われてもよい。
次に、S305では、音源抽出部2から出力された合成音信号から、S304で補正処理された音源信号を減算することにより、残差信号を生成する。次に、S306では、S305で生成された残差信号と、S304で補正された音源信号の時間平均音圧が算出され、S307においてこの二つの音圧が比較される。なお、音源抽出部2により音源信号が複数抽出されている場合には、抽出された音源信号すべてが合成音信号から減算された結果を残差信号としてもよい。
S307における比較の結果、音源信号の音圧が残差信号の音圧以上である場合は、S308へ進み、対象の音源情報を再生音源リストに登録する。音源信号の音圧が残差信号の音圧未満である場合、S309に進み、対象の音源情報に対する処理が終了する。つまり、この音源情報は再生音源リストに登録されない。
このようにすることによって、仮想聴取点において周りの音よりも大きく聞こえる音の音源に関する音源情報のみが再生音源リストに登録され、音圧が低く周りの音に紛れ込んでしまう音の音源に関する音源情報は再生音源リストから除外される。したがって、再生用の信号の生成に用いる音源情報を主要なもののみに減らすことができ、信号生成装置100や音響再生部11の処理負荷を低減できる。ただし、再生音源の決定方法はこれに限らず、仮想聴取点の位置と音源の位置とに基づいて再生音源が決定されればよい。例えば、単に仮想聴取点と音源との距離のみに基づいて再生音源が決定されてもよい。また例えば、仮想聴取点から見て聴取方向に位置する音源については、他の方向に位置する音源よりも遠くの音源まで再生音源として決定するなど、聴取方向に基づいて再生音源を決定してもよい。さらに、仮想聴取点と音源との距離の計算を行わずに再生音源を決定してもよい。
S309では、全ての音源情報に対する処理が終了していれば、ループ処理が終了し310へ進む。そうでなければS302へ戻る。S310では、S309までの処理によって作成された再生音源リストが合成部4と範囲決定部7へ出力される。以上によりS104における再生音源の決定処理が終了する。
図8は、図3のS105における再生音源範囲の決定処理の詳細について説明するためのフローチャートである。なお、本フローの処理は全て範囲決定部7によって行われる。まず、S401では、音源決定部3から出力された再生音源リスト中の全ての音源情報における聴取点からの距離と聴取点から見た方向を計算し、音源情報に格納する。
S402では、音源決定部3から出力された再生音源リストに含まれる音源情報のうち、仮想聴取点からの距離が最も大きい音源を特定する。次に、S403では、S402で特定された音源の音源信号を抽出する際に使用された音源抽出用アレイが再構成される。S404では、音源抽出用アレイを構成するマイクロホン20に対応する収音点のうち、仮想聴取点から最も遠いものが特定される。
次に、S405では、再生音源として決定された特定の音源と仮想聴取点とを含む範囲が再生音源範囲として設定される。具体的には、仮想聴取点を中心として、S404で特定された収音点までの距離を半径とする略球形状の範囲が再生音源範囲として設定される。そしてこの半径が音源範囲距離として周囲音生成部8に出力される。なお、音源の位置が二次元座標で表現される場合には、仮想聴取点を中心とする略円形状の範囲としてもよい。再生音源範囲の形状が略球形状や略円形状なのは、音の減衰や遅延が距離に応じて決まるためである。ただし、再生音源範囲は、多面体や多角形などその他の形状でもよい。また、再生音源範囲は対称な形状に限らず、例えば聴取方向の長さが他の方向の長さよりも長い形状であってもよい。以上により、S105における再生音源範囲の決定処理が終了する。
以上のようにして設定された再生音源範囲の外に位置する収音点に対応するチャンネルの収音信号を用いて、続くS106における周囲音信号の生成処理が行われる。すなわち、本実施形態において周囲音信号は、設定された再生音源範囲の外に位置するマイクロホン20による収音に基づく信号を用いて生成される。このように、再生音源として決定された音源の音が多く届く収音点を、周囲音信号の生成処理の対象から除外することで、再生音源の音源信号と区別された周囲音信号を生成することができる。
図9は、図3のS106における周囲音信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローの処理は全て周囲音生成部8によって行われる。S501では、RAM23に格納されている周囲音信号の生成に関わる変数や構造体などの初期化を行う。初期化の際に、予め定められた周囲音方向に関する周囲音方向データ9がRAM23に格納される。
ここで、本実施形態における周囲音方向について説明する。本実施形態では、仮想聴取点の周囲の三次元空間のうち上述した再生音源範囲の外部の領域が、予め定められた数の複数の周囲領域に分割され、各周囲領域に対して一つの周囲音信号が生成される。これらの周囲音信号は、再生された音を聴くユーザーの周囲全体を取り巻く音として、音源信号とは区別してレンダリングされる。周囲音方向とは、これらの周囲音信号に対応する周囲領域それぞれの、仮想聴取点から見た方向を表す。
S502からS508までの処理は、周囲音生成部8に入力される各チャンネルの収音信号に対して実行され、すべてのチャンネルの収音信号に対する処理が終了するまでループ処理が行われる。まず、S503では、対象となるチャンネルの収音信号に対応する収音点の座標が収音点座標データ10に基づいて取得される。次に、S504では、S503で取得された収音点の座標と、聴取点決定部6により決定された仮想聴取点の座標とを用いて、仮想聴取点から見た各収音点の方向と、仮想聴取点と収音点との距離が計算される。
次に、S505では、S504で得られた収音点と仮想聴取点との距離が、範囲決定部7から出力された音源範囲距離と比較される。収音点と仮想聴取点との距離が音源範囲距離より大きい場合は、S506へ処理が進む。一方、音源範囲距離より小さい場合は、S508へ進み、対象のチャンネルの収音信号に対する処理を終える。
S506では、S504で得られた収音点と仮想聴取点との距離に基づいて、対象の収音信号に対して減衰補正処理及び/又は遅延補正処理が行われる。次に、S507では、S504で得られた仮想聴取点から見た収音点の方向に位置する周囲領域の周囲音方向が特定され、図10に示すようなデータ構造を有する周囲音方向情報の収音点リストに対象の収音点のチャンネル番号が追加される。
本実施形態では、各周囲音方向に関連する情報が、周囲音方向情報にまとめて取り扱われる。以下、周囲音方向情報について説明する。図10に示すように、周囲音方向情報は、方向ID、聴取点(仮想聴取点)基準の方向範囲、集約点座標、及び収音点リストによって構成される。このうち、方向IDは周囲音方向情報を識別するための識別情報である。聴取点基準の方向範囲は、聴取方向を基準として、周囲音方向に対応する周囲領域の範囲を、水平角θと俯角φで表した情報である。集約点座標は、この周囲領域に対応する周囲音信号をレンダリングする際の基準となる座標であり、仮想聴取点からの距離Rと、水平角θ、及び俯角φで表される。収音点リストには、周囲音信号を生成する際に用いられる複数の収音信号のチャンネル番号が格納される。なお、方向IDと聴取点基準の方向範囲には、S501における初期化時に周囲音方向データ9に応じた値が格納される。S508では、全てのチャンネルの収音信号に対する処理が終了していれば、ループ処理が終了してS509へ進む。そうでなければS502へ戻る。
S509からS514までの処理は、RAM23に格納されている各周囲音方向情報に対して実行され、すべての周囲音方向情報に対する処理が終了するまでループ処理が行われる。まず、S510では、対象とする周囲音方向情報の集約点座標が決定される。具体的には、聴取点基準の方向範囲におけるθとφの範囲の各々の中央値と、音源範囲距離とにより、集約点座標が表される。すなわち本実施形態において、各周囲音方向の周囲音は、仮想聴取点から音源範囲距離だけ離れた点に集約される。
次に、S511では、対象の周囲音方向情報内の収音点リストに含まれているチャンネルの収音信号を全て加算平均した信号が、周囲音信号として生成される。すなわち周囲音信号は、複数のマイクロホン20による収音に基づく複数の信号の加算平均を算出する処理により生成される信号である。そのため、特定された音源の位置に基づいて収音信号から抽出された音源信号と比較して、指向性の程度が低い信号となる。その結果、再生時には抽出対象の音源の音が周囲音と区別されやすく明瞭に聞こえることとなる。
S512では、S511で生成された周囲音信号に対して音像をぼかす処理が行われる。これは、音源の音と周囲音とで再生時の聴こえ方がより異なるようにするための処理である。周囲音に対応する音像がぼけることにより、抽出された音源の音像がより明瞭になる。これにより、収音対象の場面の仮想聴取点における雰囲気を再現することができ、再生された音を聴くユーザーにより高い臨場感を与えることができる。この処理の詳細は図11を用いて後述する。
次に、S513では、周囲音に関する情報として、図4を用いて説明した音源情報が新規作成される。この音源情報には、S512における処理が行われた周囲音信号が音源信号として格納され、集約点座標が音源座標として格納される。作成された周囲音に関する音源情報は、RAM23内に格納されている周囲音情報リストに追加される。つまり、1つの周囲音方向情報に対して、1つの音源情報が生成され、周囲音情報リストに格納される。S514では、全ての周囲音方向情報に対する処理が終了していれば、ループ処理が終了してS515に進む。そうでなければ、S509へ戻る。S515では、作成された周囲音情報リストが合成部4に出力される。以上によりS106における周囲音信号の生成処理が終了する。
図11は、図9のS509における音像ぼかし処理の詳細について説明するためのフローチャートである。まず、S601では、RAM23に格納されている高域減衰処理フラグがONであるかどうかが判定される。フラグがONであれば、S602に進み、そうでない場合はS603へ進む。S602では、S511で生成された周囲音信号に対して高域減衰処理が行われる。高域減衰処理とは、信号の周波数成分のうち所定の周波数より高い周波数に対応する成分を減衰させる処理である。この所定の周波数は、信号生成装置100の操作者があらかじめ設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。
広域減衰処理の具体的な方法としては、種々の公知の方法を用いることができる。例えば、FIR(Finite Impulse Response)フィルタにより高域のスペクトルを抑制し所望するスペクトルエンベロープにする方法が知られている。また例えば、IIR(Infinite Impulse Response)フィルタにより或る周波数以上の帯域を抑制する方法が知られている。
次に、S603では、RAM23に格納されている波形ピーク抑制フラグがONであるかどうかが判定される。フラグがONであれば、S604に進み、そうでなければS512における音像ぼかし処理が終了する。S604では、それ以前のステップで生成及び処理された周囲音信号に対して、ピーク抑制処理が行われる。ピーク抑制処理とは、信号の時間波形におけるピークを抑制させる処理である。例えば公知の手法である、時間波形に対して移動平均フィルタを適用する方法や、コンプレス処理を行う方法などがある。S604の処理が終わると、S512における音像ぼかし処理が終了する。
なお、上述した減衰処理フラグや波形ピーク抑制フラグは、例えば信号生成装置100の操作者による指示に応じて予め設定される。このように、音像ぼかし処理の内容や音像ぼかし処理を行うか否かを操作者の指示に基づいて決定することで、再生時の周囲音の聞こえ方をユーザーの好みなどに応じて変更する事が可能になる。ただし、上記のフラグの設定方法はこれに限らず、収音対象の場所や場面などに応じて自動で設定されてもよい。また、音像ぼかし処理の内容も上記に限定されない。
図12は、図3のS107における音響信号の合成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理は全て合成部4によって行われる。S701では、S104における再生音源の決定処理において生成された再生音源リストと、S106における周囲音信号の生成処理において生成された周囲音情報リストとがマージされた音源情報リストが作成される。音源情報リストには、再生音源として特定された音源に対応する音源信号、周囲音信号、音源の位置に関する情報、及び周囲音の位置に関する情報が含まれる。なお、音源情報リストに含まれる音源信号と周囲音信号は、指定された聴取位置に基づく処理によって生成されており、仮想聴取点に対応する音響信号となっている。S702では、作成された音源情報リストが音響再生部11に出力される。以上によりS108における音響信号の合成処理が終了する。
図13は、図3のS108における再生信号の生成処理の詳細化について説明するためのフローチャートである。なお、本フローにおける処理は全て音響再生部11によって実行される。S801では、音響再生部11が有する出力バッファが初期化される。出力バッファは、音響再生部11により生成される再生用の信号の出力チャンネル毎のバッファになっており、各チャンネルの信号を蓄積する。
S802では、生成すべき再生用の信号のフォーマットが判定される。ステレオに対応するフォーマットである場合は、S803へ進む。サラウンドに対応するフォーマットである場合は、S804へ進む。ヘッドフォンに対応するフォーマットである場合は、S805へ進む。
S803では、S107で作成された音源情報リストを用いてステレオ再生信号が生成される。この処理の詳細は図14を用いて後述する。S803の処理が終わると、生成されたステレオ再生信号はステレオ再生スピーカーセット12へ出力され、S108における再生信号の生成処理が終了する。
S804では、S107で作成された音源情報リストを用いてサラウンド再生信号が生成される。この処理の詳細は図15を用いて後述する。S804の処理が終わると、生成されたサラウンド再生信号はマルチチャンネル音響再生スピーカーセット13に出力され、S108における再生信号の生成処理が終了する。
S805では、S107で作成された音源情報リストを用いてヘッドフォン再生信号が生成される。この処理の詳細は図16を用いて後述する。S805の処理が終わると、生成されたヘッドフォン再生信号はヘッドフォン14へ出力され、S108における再生信号の生成処理が終了する。
以上のように、再生音響生成11は、合成部4により生成された音響信号を再生環境に応じた形式に変換し、変換された音響信号を再生用の信号として出力する。なお、図13では、何れか一つの再生フォーマットの再生信号が生成される場合のフローが示されているが、これに限らず、複数のフォーマットに対応する複数の再生信号が生成されてもよい。そして生成された1以上の再生信号は、上述した各再生環境に出力されてもよいし、通信部15や出力部17に出力されてもよい。
図14は、図13のS803におけるステレオ再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部11によって実行される。S901からS910までの処理は、S107で作成された音源情報リストに格納されている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。
S902では、処理対象の音源情報の聴取点から見た方向を表すθが、−180°から180°の範囲内かどうか、つまり、対象の音源が仮想聴取点から見て真横から前方の範囲に位置するかどうかが判定される。この処理の結果、範囲内にない場合、つまり、音源が仮想聴取点の後方にある場合はS903へ処理が進む。そうでない場合、つまり、前方にある場合は、S907へ処理が進む。
音源が後方にある場合、まず、S903で、聴取点から見た方向が正方向か負方向かが判定される。負方向の場合は、S904へ進む。正方向の場合は、S905へ進む。S904では、聴取点から見た方向に180°を加えることで符号が反転される。一方、S905では、聴取点から見た方向から180°を減じることで符号が反転される。S904とS905の処理により、仮想聴取点を中心とする円の後ろ半分を前に折り返すようにして、後方の方向を前方の方向に変換することができる。これらの処理が終わると、S906へ進む。
S906では、−90°から90°の範囲の聴取点から見た方向に対するステレオパンニング計算が行われ、得られたLRチャンネルの振幅分配率に従って対象となっている音源信号がLRチャンネルに分配される。標準のステレオ再生環境ではユーザーに対して±30°の位置に左右のスピーカーが配置されるため、±90°の間の範囲にある聴取点から見た方向を、±30°の間の範囲に線形投射することにより、ステレオパンニング計算が行われる。本実施形態では、このパンニング計算は、聴取点から見た方向をθとして、サイン則を用いて以下のように行われる。
(数1)
wL=(sin30°−sin(θ*30/90))/2sin30°=1/2−sin(θ/3)
wR=(sin30°+sin(θ*30/90))/2sin30°=1/2+sin(θ/3)
ただし、wLは左チャンネルに対する振幅分配率、wRは右チャンネルに対する振幅分配率である。
(数1)
wL=(sin30°−sin(θ*30/90))/2sin30°=1/2−sin(θ/3)
wR=(sin30°+sin(θ*30/90))/2sin30°=1/2+sin(θ/3)
ただし、wLは左チャンネルに対する振幅分配率、wRは右チャンネルに対する振幅分配率である。
次に、S907では、S906で生成されたステレオ信号に対して、LチャンネルとRチャンネルの位相をずらす無相関化処理を行う。この無相関化処理は、後方音源が前方音源のように明瞭に定位しないようにするための処理である。無相関化処理の具体的な方法としては、公知の方法を用いることができる。この処理により、後方音源の音が前方音源の音と違って聴こえるように音の再生を行うことができる。処理が終わると、S909へ進む。一方、S902において音源が前方であると判定された場合は、S908においてS906と同様のステレオパンニング計算が行われ、S909へ進む。
S909では、S907とS908で生成されたステレオ信号が、各チャンネルの出力バッファに各々蓄積される。S910では、音源情報リストに含まれている全ての音源情報の処理が終了していれば、ループ処理が終了し、S803におけるステレオ再生信号の生成処理が終了する。そうでなければ、S901へ戻る。
図15は、図13のS804におけるサラウンド再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部11によって実行される。S1001からS1007までの処理は、S107で作成された音源情報リストに含まれている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。
S1002では、対象の音源情報の聴取点から見た方向が既定のチャンネル配置方向かどうかを判定する。例えば、再生環境が5.1チャンネルサラウンド再生環境だとすると、既定のチャンネル配置方向は0°、±30°、±110°〜130°になる。本実施形態では、±110°〜130°のうち±120°が採用されるものとする。対象の音源情報の聴取点から見た方向がこれらの既定の方向に該当する場合は、チャンネル配置方向であると判定され、S1006へ処理が進む。そうでない場合は、S1003へ処理が進む。
S1003では、聴取点から見た方向の左右にある二つのチャンネルが選択される。例えば、聴取点から見た方向が50°であるとすると、30°のRチャンネルと、120°のSRチャンネルが選択される。
次に、S1004では、S1003で選択されたチャンネル間で振幅パンニング計算が行われ、二つのチャンネルに音源信号が分配される。本実施形態ではサイン則を用いて振幅パンニング計算が行われる。上述の例で説明すると、RとSRの間の中心方向は75°であり、中心方向と各チャンネルの方向との間の開きは45°となる。また、聴取点から見た方向の50°は、チャンネル間の中心方向を基準とすると50°−75°=−25°となる。Rチャンネル及びSRチャンネルそれぞれへの分配率wR及びwSRはサイン則よりそれぞれ次式で求められる。
(数2)
wR=(sin45°−sin(−25°))/2sin45°≒0.649
wSR=(sin45°+sin(−25°))/2sin45°≒0.351
次に、S1005では、S1004で分配された各チャンネルの信号が、チャンネル毎に出力バッファに蓄積する。一方、S1002において音源の方向がチャンネル配置方向であると判定された場合は、S1006において、対応するチャンネルの出力バッファに音源信号がそのまま蓄積される。S1007では、音源情報リストに含まれる全ての音源情報に対する処理が終了していれば、ループ処理が終了し、S1008へ進む。そうでなければS1001へ戻る。
(数2)
wR=(sin45°−sin(−25°))/2sin45°≒0.649
wSR=(sin45°+sin(−25°))/2sin45°≒0.351
次に、S1005では、S1004で分配された各チャンネルの信号が、チャンネル毎に出力バッファに蓄積する。一方、S1002において音源の方向がチャンネル配置方向であると判定された場合は、S1006において、対応するチャンネルの出力バッファに音源信号がそのまま蓄積される。S1007では、音源情報リストに含まれる全ての音源情報に対する処理が終了していれば、ループ処理が終了し、S1008へ進む。そうでなければS1001へ戻る。
S1008では、各チャンネルの出力バッファに蓄積されている音響信号に対して、ローパスフィルタ(LPF)が掛けられ加算されることにより、LFE(Low Frequency Element)信号が生成される。LFE信号は低域信号であり、例えば80Hz以下の信号がローパスフィルタで取り出される。この信号は、マルチチャンネル音響再生スピーカーセット13に含まれるサブウーファーによって再生される。生成されたLFE信号は、LFEチャンネル用の出力バッファに蓄積される。S1008の処理が終わると、S804におけるサラウンド再生信号の生成処理が終了する。
図16は、図13のS805におけるヘッドフォン再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部11によって実行される。S1101からS1104までの処理は、音源情報リストに含まれている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。
S1102では、音源情報の聴取点から見た方向に対応する頭部インパルス応答(HRIR:Head Related Impulse Response)が音源信号に畳み込まれることにより、ユーザーの両耳で再生される信号が生成される。HRIRは、音源方向によって変化する人間の頭部や耳介による音の回り込みを測定して、両耳に対応するインパルス応答としたものである。音源信号に対してHRIRを畳み込む事により生成された信号をヘッドフォン14で再生することにより、音源情報に応じた方向に音源が定位する立体音響をユーザーに提供することができる。なお、本実施形態では、方向毎のHRIRを格納したデータベースを音響再生部11が保持しており、入力された音源情報に応じて両耳分のHRIRを読み出される。
次に、S1103では、S1102で生成された両耳分の信号が、LチャンネルとRチャンネルの出力チャンネル毎に出力バッファに蓄積される。S1104では、音源情報リストに含まれる全ての音源情報に対する処理が終了していれば、ループ処理が終了し、S805におけるヘッドフォン再生信号の生成処理が終了する。そうでなければ、S1101へ戻る。
[変形例]
以上で説明した実施形態においては、図7を用いて説明したように、音源信号と残差信号との平均音圧を比較することで、再生対象となる特定の再生音源が決定されるものとした。ただし、再生音源の決定方法はこれに限らない。例えば、人間の聴覚特性を考慮した聴覚マスキングの計算によって再生音源が決定されてもよい。以下ではこの場合の決定方法について説明する。
以上で説明した実施形態においては、図7を用いて説明したように、音源信号と残差信号との平均音圧を比較することで、再生対象となる特定の再生音源が決定されるものとした。ただし、再生音源の決定方法はこれに限らない。例えば、人間の聴覚特性を考慮した聴覚マスキングの計算によって再生音源が決定されてもよい。以下ではこの場合の決定方法について説明する。
図7のS306において、残差信号と音源信号の平均音圧が計算される代わりに、S305で生成された残差信号と音源情報に含まれる音源信号とを用いて、音源信号の聴覚マスキングの計算が行われる。具体的には、音源信号と残差信号それぞれに対して、人間の耳の周波数分解能に従って決められた分割周波数帯域毎のエネルギーが算出される。さらにこの算出結果に基づいて、音源信号が残差信号に聴感上でマスキングされる度合いが、人間の耳の帯域毎の聴感感度を考慮して計算される。このような聴覚マスキング計算の具体的な方法としては、公知の方法を用いることができる。
次に、S307において、残差信号と音源信号の平均音圧が比較される代わりに、S306における聴覚マスキングの計算結果に基づいて、音源信号が残差信号にマスクされるかどうかが判定される。この判定の結果、マスクされる場合はS309へ進み、対象の音源信号に対する処理が終了する。そうでない場合、つまり、仮想聴取点において音源信号に対応する音が一部でも聴こえると判定された場合は、S308に進み、対象の音源情報が再生音源リストに登録される。
以上のように、残差信号にマスクされない音源信号のみを再生音源としてもよい。これにより、仮想聴取点において聴こえる音源の音源信号のみが、再生用の信号を生成する際にレンダリングされることとなり、仮想聴取点に対応する音場を再現しつつ、信号処理システム200の処理負荷を削減することができる。なお、S1207における判定は、音源信号がマスクされるか否かの判定ではなく、マスキングの度合いが予め定められた度合い以上であるか否かの判定であってもよい。
また、以上で説明した実施形態においては、図9を用いて説明したように、周囲領域に含まれる複数の収音点に対応する複数チャンネルの収音信号を加算平均することによって、周囲音信号が生成されるものとした。ただし、周囲音信号の生成方法はこれに限らない。例えば、指向性を有するように周囲音信号を生成してもよい。以下ではこの場合の周囲音信号の生成方法について説明する。
図9のS511において、複数チャンネルの収音信号の加算平均が計算される代わりに、収音点リストに含まれる複数の収音点に対応する複数チャンネルの収音信号を用いて、仮想聴取点に対する集約点の方向に指向性を有する信号が生成される。具体的には、複数チャンネルの収音信号に対して、遅延和処理やビームフォーミング処理などのアレイ信号処理が実行されることにより、指向性を有する信号が生成される。このようなアレイ信号処理の具体的な方法としては、公知の方法を用いることができる。そして、生成された指向性を有する信号に対して、仮想聴取点と集約点との距離に基づく減衰補正処理及び/又は遅延処理が行われることにより、周囲音信号が生成される。
このような処理により、仮想聴取点に対してそれぞれ異なる方向に位置する複数の周囲領域に対応する複数の周囲音信号であって、それぞれ異なる方向の指向性を有する複数の周囲音信号が生成される。具体的には、仮想聴取点から外側に向けた指向性マイクにより各周囲領域の音を収音した場合に得られるような周囲音信号が生成される。これにより、周囲音に含まれる音のうち仮想聴取点に向けられた音を強調させることができ、より臨場感のある音場を再現することが可能となる。
なお、周囲音信号を生成する場合には、上述のように当該周囲音信号に対応する周囲領域内の収音点に対応するチャンネルの収音信号だけを用いてもよいし、他の周囲領域内の収音点に対応するチャンネルの収音信号を用いてもよい。例えば、対象の周囲領域に隣接する周囲領域内の収音点に対応するチャンネルの収音信号を用いてもよい。また例えば、再生音源範囲の外部に位置するすべての収音点に対応するチャンネルの収音信号を用いてもよい。このようにすることで、例えば仮想聴取点が収音対象領域の端に位置する場合のように、収音点が含まれない周囲領域が存在する場合でも、仮想聴取点を包み込むような周囲音の再生が可能となる。
なお、本実施形態では周囲音信号は音源の位置に依存せずに生成される場合について説明したが、これに限らない。例えば、音源抽出部2により収音信号から抽出された音源信号のうち、音源決定部3により再生音源として決定された特定の音源とは異なる音源に対応する音源信号が、周囲音信号として処理されてもよい。具体的には、仮想聴取点からの距離が閾値未満である音源に対応する音源信号が再生音源の音源信号として処理され、仮想聴取点からの距離が閾値以上である音源に対応する音源信号が周囲音信号として処理されてもよい。この閾値については、例えば信号生成装置100の操作者が予め設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。
そして、仮想聴取点からの距離が近い音源の音源信号には音像をぼかす処理が行われず、仮想聴取点からの距離が遠い音源の音源信号には音像をぼかす処理が行われてもよい。また、仮想聴取点からの距離が遠い音源の音源信号には音像を明瞭にする処理が行われず、仮想聴取点からの距離が近い音源の音源信号には音像を明瞭にする処理が行われてもよい。このような方法によっても、仮想聴取点の近傍に位置する音源の音がより明瞭となるような聞こえ方を実現できる。
また、本実施形態では生成された再生音源の音源信号と周囲音信号とを音響再生部11が同様の方法でレンダリングする場合について説明したが、これに限らない。例えばレンダリングにおいて、音源信号については上述したように再生環境に応じたパンニングなどの処理が行われ、周囲音信号については再生環境に依らない汎用的な処理が行われてもよい。
また、本実施形態では再生音源の音源信号と周囲音信号とで異なる2通りの信号処理を行うことにより再生用の音響信号を生成する場合を中心に説明したが、用いる信号処理は2通りに限らない。例えば、音源決定部3により決定された再生音源の中でも仮想聴取点に比較的近い音源と遠い音源とで異なる信号処理が適用されてもよいし、仮想聴取点と音源との距離が大きくなるにつれて徐々に音像のぼかし方が大きくなるように信号処理が行われてもよい。
以上説明したように、本実施形態に係る信号生成装置100は、指定された仮想聴取点の位置情報を取得する。そして信号生成装置100は、複数のマイクロホン20の少なくとも何れかにより収音される音源のうち特定の音源を、取得された位置情報が表す仮想聴取点の位置と音源の位置とに基づいて決定する。また信号生成装置100は、複数のマイクロホン20による収音に基づく収音信号から抽出される音源信号であって当該特定の音源に対応する音源信号と、収音信号に基づく当該特定の音源に対応しない周囲音信号とを、それぞれ異なる信号処理によって生成する。具体的には、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理が行われる。さらに信号生成装置100は、生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号を生成する。
このような構成に依れば、仮想聴取点に対応する音響信号として、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することができる。例えば、仮想聴取点の近傍に位置する音源の音や、仮想聴取点に応じた方向に位置する音源の音などが明瞭になることで、ユーザーはより高い臨場感を得ることができる。特に、音源の位置情報を用いて音源信号を生成することにより、仮想聴取点に対する音源の位置が正確に反映された仮想的な音場を実現することができる。また、仮想聴取点に対してそれぞれ異なる方向に位置する複数の周囲領域に対応する周囲音信号を生成することにより、仮想聴取点の位置に依らず周囲音がユーザーの周囲を包み込むような音場を実現することができる。
なお、本実施形態では仮想聴取点に対して所定の位置にある音源を再生音源として決定する場合について説明したが、位置関係に依らずに特定の音源を再生音源として決定してもよい。例えば、収音対象の競技において特定の選手を再生音源として決定し、その選手が発する音が他の音よりも明瞭になるように信号処理が行われてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。
5 操作部
20 マイクロホン
100 信号生成装置
200 信号処理システム
20 マイクロホン
100 信号生成装置
200 信号処理システム
Claims (18)
- 指定された仮想聴取点の位置情報を取得する取得手段と、
複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得手段により取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定手段と、
前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定手段により決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成手段とを有することを特徴とする信号生成装置。 - 前記決定手段は、音源に対応する音の大きさ、及び、前記仮想聴取点の位置と音源の位置との距離に基づいて、前記特定の音源を決定することを特徴とする請求項1に記載の信号生成装置。
- 前記決定手段により決定される特定の音源の位置情報を取得する第2取得手段を有し、
前記生成手段は、前記取得手段により取得される前記仮想聴取点の位置情報と前記第2取得手段により取得される前記特定の音源の位置情報とに基づく信号処理によって前記音源信号を生成することを特徴とする請求項1又は2に記載の信号生成装置。 - 前記生成手段による前記音源信号を生成するための信号処理は、前記仮想聴取点の位置と前記特定の音源の位置とに応じて信号の音量及び/又は遅延を調整する処理を含むことを特徴とする請求項1乃至3の何れか1項に記載の信号生成装置。
- 前記決定手段により決定される特定の音源と前記仮想聴取点とを含む範囲を設定する設定手段を有し、
前記生成手段は、前記複数のマイクのうち前記設定手段により設定される範囲の外に位置するマイクによる収音に基づく信号を用いて前記周囲音信号を生成することを特徴とする請求項1乃至4の何れか1項に記載の信号生成装置。 - 前記設定手段により設定される範囲は、前記仮想聴取点を中心とする略球形状または略円形状の範囲であることを特徴とする請求項5に記載の信号生成装置。
- 前記生成手段により生成される周囲音信号は、前記収音信号から抽出される信号であって、且つ、前記決定手段により決定される前記特定の音源とは異なる音源に対応する信号であることを特徴とする請求項1乃至6の何れか1項に記載の信号生成装置。
- 前記生成手段は、複数のマイクによる収音に基づく複数の信号の加算平均を算出する処理によって前記周囲音信号を生成することを特徴とする請求項1乃至5の何れか1項に記載の信号生成装置。
- 前記生成手段は、前記仮想聴取点に対してそれぞれ異なる方向に位置する複数の領域に対応する複数の周囲音信号であって、それぞれ異なる方向の指向性を有する複数の周囲音信号を生成することを特徴とする請求項1乃至8の何れか1項に記載の信号生成装置。
- 前記生成手段による前記周囲音信号を生成するための信号処理は、前記周囲音信号に対応する音像をぼかす処理を含むことを特徴とする請求項1乃至9の何れか1項に記載の信号生成装置。
- 前記生成手段による前記周囲音信号を生成するための信号処理は、信号の周波数成分のうち所定の周波数より高い周波数に対応する成分を減衰させる処理を含むことを特徴とする請求項1乃至10の何れか1項に記載の信号生成装置。
- 前記生成手段による前記周囲音信号を生成するための信号処理は、信号の時間波形におけるピークを抑制させる処理を含むことを特徴とする請求項1乃至11の何れか1項に記載の信号生成装置。
- 前記生成手段により生成された音響信号を再生環境に応じた形式に変換する変換手段と、
前記変換手段により変換された音響信号を出力する出力手段とを有することを特徴とする請求項1乃至12の何れか1項に記載の信号生成装置。 - 指定された仮想聴取点の位置情報を取得する取得手段と、
前記取得手段により取得される位置情報が表す前記仮想聴取点の位置からの距離が第1の距離である特定の音源の音が、前記仮想聴取点の位置からの距離が前記第1の距離より大きい第2の距離である別の音源の音よりも明瞭になるように、前記仮想聴取点に対応する音響信号を生成する生成手段とを有することを特徴とする信号生成装置。 - 指定された仮想聴取点の位置情報を取得する取得工程と、
複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得工程において取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定工程と、
前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定工程において決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、それぞれ異なる信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成工程とを有することを特徴とする信号生成方法。 - 前記決定工程において決定される特定の音源の位置情報を取得する第2取得工程を有し、
前記生成工程においては、前記取得工程において取得される前記仮想聴取点の位置情報と前記第2取得工程において取得される前記特定の音源の位置情報とに基づく信号処理によって前記音源信号が生成されることを特徴とする請求項15に記載の信号生成方法。 - 前記生成工程における前記周囲音信号を生成するための信号処理は、前記周囲音信号に対応する音像をぼかす処理を含むことを特徴とする請求項15又は16に記載の信号生成方法。
- コンピュータを、請求項1乃至14の何れか1項に記載の信号生成装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017091812A JP2018191127A (ja) | 2017-05-02 | 2017-05-02 | 信号生成装置、信号生成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017091812A JP2018191127A (ja) | 2017-05-02 | 2017-05-02 | 信号生成装置、信号生成方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018191127A true JP2018191127A (ja) | 2018-11-29 |
Family
ID=64479129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017091812A Pending JP2018191127A (ja) | 2017-05-02 | 2017-05-02 | 信号生成装置、信号生成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018191127A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020167471A (ja) * | 2019-03-28 | 2020-10-08 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2022113394A1 (ja) * | 2020-11-27 | 2022-06-02 | ヤマハ株式会社 | ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法 |
JP7457525B2 (ja) | 2020-02-21 | 2024-03-28 | 日本放送協会 | 受信装置、コンテンツ伝送システム、及びプログラム |
-
2017
- 2017-05-02 JP JP2017091812A patent/JP2018191127A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020167471A (ja) * | 2019-03-28 | 2020-10-08 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7321736B2 (ja) | 2019-03-28 | 2023-08-07 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7457525B2 (ja) | 2020-02-21 | 2024-03-28 | 日本放送協会 | 受信装置、コンテンツ伝送システム、及びプログラム |
WO2022113394A1 (ja) * | 2020-11-27 | 2022-06-02 | ヤマハ株式会社 | ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6149818B2 (ja) | 収音再生システム、収音再生装置、収音再生方法、収音再生プログラム、収音システム及び再生システム | |
US10021507B2 (en) | Arrangement and method for reproducing audio data of an acoustic scene | |
JP4633870B2 (ja) | オーディオ信号処理方法 | |
JP5813082B2 (ja) | モノラル信号を立体音響化するための装置及び方法 | |
KR20200018537A (ko) | 빔형성 라우드스피커 어레이를 위한 공간적 오디오 렌더링 | |
KR20170106063A (ko) | 오디오 신호 처리 방법 및 장치 | |
CN109314832B (zh) | 音频信号处理方法和设备 | |
US20150189455A1 (en) | Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields | |
JP6246922B2 (ja) | 音響信号処理方法 | |
JP2007266967A (ja) | 音像定位装置およびマルチチャンネルオーディオ再生装置 | |
JP2008543143A (ja) | 音響変換器のアセンブリ、システムおよび方法 | |
CN101208989A (zh) | 用于声信号的装置、系统以及方法 | |
JP2019506058A (ja) | 没入型オーディオ再生のための信号合成 | |
US10848890B2 (en) | Binaural audio signal processing method and apparatus for determining rendering method according to position of listener and object | |
CN109891503A (zh) | 声学场景回放方法和装置 | |
CN113170271A (zh) | 用于处理立体声信号的方法和装置 | |
US20190289418A1 (en) | Method and apparatus for reproducing audio signal based on movement of user in virtual space | |
JP2018191127A (ja) | 信号生成装置、信号生成方法およびプログラム | |
JP5754595B2 (ja) | トランスオーラルシステム | |
JP6410769B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
US10440495B2 (en) | Virtual localization of sound | |
JP7146404B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
JP7321736B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6664456B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JP6274244B2 (ja) | 収音再生装置、収音再生プログラム、収音装置及び再生装置 |