JP2018191127A

JP2018191127A - 信号生成装置、信号生成方法およびプログラム

Info

Publication number: JP2018191127A
Application number: JP2017091812A
Authority: JP
Inventors: 船越　正伸; Masanobu Funakoshi; 正伸船越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2018-11-29

Abstract

【課題】仮想聴取点に対応する音響信号として、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供する。
【解決手段】信号生成装置１００は、指定された仮想聴取点の位置情報を取得する。そして信号生成装置１００は、複数のマイクロホン２０の少なくとも何れかにより収音される音源のうち特定の音源を、仮想聴取点の位置と音源の位置とに基づいて決定する。また信号生成装置１００は、複数のマイクロホン２０による収音に基づく収音信号から抽出される音源信号であって当該特定の音源に対応する音源信号と、収音信号に基づく当該特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成する。さらに信号生成装置１００は、生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号を生成する。
【選択図】図３

Description

本発明は、仮想的な聴取点に対応する音響信号を生成する技術に関する。

近年、異なる位置に設置された複数のマイクにより収音を行い、当該収音により得られた複数の収音信号を用いて仮想的な聴取点（仮想聴取点）に対応する音響信号を生成する技術が提案されている。このようにして生成される音響信号を再生することで、設置されたマイクの位置に限らない仮想聴取点における聞こえ方を再現できる。例えば、競技場においてスポーツの試合の際に収音された収音信号を用いて、競技場内の任意の位置において試合中に聞こえたはずの音を再現することが可能となり、試合の撮影画像と合わせて再生することで従来よりも高い臨場感を視聴者に与えることができる。

特許文献１には、競技場に設置された複数のマイクにより収音された音声に、それらのマイクと指定された仮想聴取点との位置関係に基づくミキシング処理を行うことで、仮想聴取点に対応するサラウンド音声を提供することが記載されている。

特開２００５−２２３７７１号公報

仮想聴取点に対して所定の位置にある音源の音がより明瞭となるように音響信号を生成すれば、ユーザーにより高い臨場感を与えることができる。例えば、仮想聴取点の近傍に位置する音源の音や、仮想聴取点に応じた方向に位置する音源の音などがより明瞭になることで、ユーザーはより高い臨場感を得ることができる。

本発明は上記の課題に鑑みてなされたものであり、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することを目的とする。

上記の課題を解決するため、本発明に係る信号処理装置は、例えば以下の構成を有する。すなわち、指定された仮想聴取点の位置情報を取得する取得手段と、複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得手段により取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定手段と、前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定手段により決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成手段とを有する。

本発明によれば、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することができる。

本実施形態における信号処理システム２００の構成について説明するための図である。本実施形態における信号生成装置１００のハードウェア構成について説明するための図である。本実施形態における信号処理システム２００の処理について説明するためのフローチャートである。本実施形態における音源情報のデータ構造について説明するための図である。本実施形態における信号生成装置１００による音源の抽出に係る処理について説明するためのフローチャートである。本実施形態における音源方向リストと音源座標リストのデータ構造について説明するための図である。本実施形態における信号生成装置１００による再生音源の決定に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００による音源範囲の決定に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００による周囲音の生成に係る処理について説明するためのフローチャートである。本実施形態における周囲音情報のデータ構造について説明するための図である。本実施形態における信号生成装置１００による音像ぼかし処理について説明するためのフローチャートである。本実施形態における信号生成装置１００による音響信号の合成に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００による再生信号の生成に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００によるステレオ再生信号の生成に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００によるサラウンド再生信号の生成に係る処理について説明するためのフローチャートである。本実施形態における信号生成装置１００によるヘッドフォン再生信号の生成に係る処理について説明するためのフローチャートである。本実施形態における信号処理システム２００により実現される再生音場について説明するための図である。本実施形態における収音点について説明するための図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

［システム構成］
図１は本実施形態における信号処理システム２００の構成例を示すブロック図である。信号処理システム２００は、マイクロホン２０、操作部５、信号生成装置１００、音響再生部１１、ステレオ再生スピーカーセット１２、マルチチャンネル音響再生スピーカーセット１３、ヘッドフォン１４、通信部１５及び出力部１７を有する。

本実施形態において複数のマイクロホン２０は、収音対象の領域に設定された複数の収音点にそれぞれ設置され、収音を行う。図１８は、収音点の設定の例を模式的に示す。図１８は収音対象の領域である競技場を俯瞰した様子を表しており、観客席１０２、トラック１０３、及びフィールド１０４に収音点１０１が複数設定されている。本実施形態では、図１８に示すように、収音点１０１が競技場内にまんべんなく設定されるものとする。ただしこれに限らず、マイクロホン２０の設置の容易性や各領域の重要度などに応じて収音点１０１の配置が偏っていてもよい。また、収音対象の領域は競技場に限らず、例えばライブステージなどであってもよい。マイクロホン２０の収音に基づく収音信号は信号生成装置１００に入力される。なお、入力される収音信号はマイクロホン２０の数に対応する数のチャンネルを有している。

操作部５は、仮想的な聴取点（仮想聴取点）を指定する操作者による操作を受け付けて、信号生成装置１００に仮想聴取点の指定に関する入力を行う。操作部５は、例えばジョイスティック、ゲームパッド、タッチパネル、キーボード、及びマウスなどの入力デバイスで構成される。本実施形態では仮想聴取点の位置（聴取位置）と仮想聴取点における聴取の方向（聴取方向）とが指定されるものとするが、聴取方向は指定されなくてもよい。

信号処理システム２００により収音信号に基づいて生成される音響信号は、操作部５を介して指定された仮想聴取点を基準として音像が定位するような音響信号となる。すなわち仮想聴取点は、複数のマイクロホン２０による収音に基づく収音信号を合成して音響信号を生成する際の基準位置及び基準方向を表す。具体的には、信号処理システム２００により生成される音響信号は、指定された聴取位置に指定された聴取方向で置かれた仮想的なマイクアレイ（仮想マイク）による収音に基づく音響信号を表す。ただし、生成される音響信号は、仮想マイクによる収音信号を忠実に再現したものに限らず、仮想マイクによる収音信号に種々の加工を施したような音響信号であってもよい。なお、本実施形態では全方向の音を収音する仮想マイクを想定した音響信号が生成されるものとするが、聴取方向に応じた指向性を有する仮想マイクを想定した音響信号が生成されてもよい。

信号生成装置１００は、マイクロホン２０から入力された収音信号と操作部５から入力された仮想聴取点の指定とに基づいて、仮想聴取点に対応する音響信号を生成する。信号生成装置１００により生成された音響信号は音響再生部１１に入力され、各種の音響再生環境に応じた形式の再生用の信号にレンダリングされる。そしてレンダリングされた信号は、各種の音響再生環境や通信部１５、及び出力部１７へ出力される。音響再生部１１、通信部１５及び出力部１７は、例えばＡＶアンプなどの機器により実現される。

本実施形態における音響再生環境は、ステレオ再生スピーカーセット１２、マルチチャンネル音響再生スピーカーセット１３、及びヘッドフォン１４である。ステレオ再生スピーカーセット１２は、音響再生部１１によりレンダリングされたステレオ音響信号を音に変換して出力する。マルチチャンネル音響再生スピーカーセット１３は、音響再生部１１によりレンダリングされたマルチチャンネル音響信号を音に変換して出力する。なお、これらのスピーカーセットは、同一平面上に配置されていてもよいし、それぞれのスピーカーで高さを変えて立体的に配置されていてもよい。また、スピーカーの数も２つや５つに限定されるものではない。ヘッドフォン１４は、音響再生部１１がレンダリングしたヘッドフォン信号を音に変換して出力する。

信号生成装置１００により生成された仮想聴取点に対応する音響信号がこれら各種の音響再生環境により再生されることで、再生された音を聴くユーザーは、マイクロホン２０の設置位置に限定されない仮想聴取点における聞こえ方を体験することができる。すなわちユーザーは、指定された聴取位置において指定された聴取方向を向いている場合に聞こえる音を模した音を聴くことができる。なお、操作部５を操作して仮想聴取点を指定する操作者と再生された音を聴くユーザーは同一であってもよいし、別々であってもよい。また、仮想聴取点の指定方法は上記に限定されない。すなわち、信号生成装置１００により生成される仮想聴取点に対応する音響信号には、任意に指定された聴取点に対応する音響信号だけでなく、複数の候補の中から指定された聴取点に対応する音響信号や、自動で指定された聴取点に対応する音響信号も含まれる。

また、収音対象領域を撮影した撮影画像と指定された仮想視点とに基づく仮想視点画像を、音響再生環境における音の再生に合わせて再生することで、視聴するユーザーにより高い臨場感を与えることができる。このような場合には、例えば、信号生成装置１００は操作部５を用いて操作者により指定された仮想視点の情報を取得し、仮想視点に対応するように仮想聴取点を設定してもよい。

通信部１５は、音響再生部１１がレンダリングした再生信号を、通信網１６を介して信号処理システム２００の外部へ送信する通信機器である。通信網１６は、例えばインターネットや公衆回線網などである。出力部１７は、音響再生部１１がレンダリングした再生信号を、外部端子に接続された外部機器へ出力する。

次に、信号生成装置１００のより詳細な構成について説明する。信号生成装置１００は、収音信号入力部１（以降、入力部１）、音源抽出部２、再生音源決定部３（以降、音源決定部３）、及び音響信号合成部４（以降、合成部４）を有する。信号生成装置１００はさらに、聴取点決定部６、再生音源範囲決定部７（以降、範囲決定部７）、及び周囲音信号生成部８（以降、周囲音生成部８）を有する。

入力部１は、複数のマイクロホン２０による収音に基づく収音信号に対して増幅やノイズ除去などの処理を行い、当該処理により得られた信号を音源抽出部２及び周囲音生成部８に送出する。音源抽出部２は、各収音点の座標と収音信号のチャンネル番号とが対応付けられた収音点座標データ１０を取得する。本実施形態では収音点座標データ１０は信号生成装置１００のＲＯＭ２２やＲＡＭ２３により構成される記憶部に予め格納されているものとするが、これに限らず、信号生成装置１００の外部から取得されてもよい。そして音源抽出部２は、収音点座標データ１０に基づいて収音信号を解析することで、音源が発する音に対応する音源信号を収音信号から抽出し、且つ当該音源の位置を特定する。

音源決定部３は、音源抽出部２によって特定された音源の位置と指定された仮想聴取点とに基づいて、音源信号が再生されるべき特定の音源（再生音源）を決定する。合成部４は、音源信号と周囲音信号とを合成して音響再生部１１に出力する。聴取点決定部６は、操作部５からの入力に基づいて、音響信号の生成に係る聴取位置と聴取方向を決定する。範囲決定部７は、音源決定部３によって決定された再生音源の位置と仮想聴取点とに基づいて、再生音源を含む範囲を決定する。

周囲音生成部８は、範囲決定部７により決定された範囲に含まれない収音点に対応するチャンネルの収音信号に基づいて、仮想聴取点に対してそれぞれ異なる方向に位置する複数の領域に対応する複数の周囲音信号を生成する。そして周囲音生成部８は、各周囲音信号を対応する方向に関する周囲音方向情報とともに合成部４へ出力する。生成すべき周囲音信号の方向は、信号生成装置１００の記憶部に予め格納された周囲音方向データ９により決まる。なお、周囲音方向データ９は信号生成装置１００の外部から取得されてもよい。本実施形態においては、各周囲音信号の方向が等方性を持つように周囲音方向データ９が設定されている。例えば、仮想聴取点を中心とする正多面体の各面に対する垂直方向が周囲音信号に対応する方向となる。ただしこれに限らず、５．１ｃｈや２２．２ｃｈなどの既定のチャンネルフォーマットに応じた方向を周囲音信号に対応する方向としてもよい。

以上、信号処理システム２００の構成例について説明した。なお、信号生成装置１００の構成要素は以上で説明したものに限らない。例えば、操作部５と音響再生部１１の少なくとも何れかの機能を信号生成装置１００が有していてもよいし、入力部１が信号生成装置１００とは別個の装置として構成されていてもよい。

［ハードウェア構成］
続いて、信号生成装置１００のハードウェア構成について、図２を用いて説明する。信号生成装置１００は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、補助記憶装置２４、通信Ｉ／Ｆ２５、及びバス２６を有する。ＣＰＵ２１は、ＲＯＭ２２やＲＡＭ２３に格納されているコンピュータプログラムやデータを用いて信号生成装置１００の全体を制御する。ＲＯＭ２２は、変更を必要としないプログラムやパラメータを格納する。ＲＡＭ２３は、補助記憶装置２４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ２５を介して外部から供給されるデータなどを一時記憶する。補助記憶装置２４は、例えばハードディスクドライブ等で構成され、種々のコンテンツデータを記憶する。

通信Ｉ／Ｆ２５は、マイクロホン２０や音響再生部１１などの外部の装置との通信に用いられる。例えば、信号生成装置１００が外部の装置と有線で接続される場合には、ＬＡＮケーブル等が通信Ｉ／Ｆ２５に接続される。なお、信号生成装置１００が外部の装置と無線通信する機能を有する場合、通信Ｉ／Ｆ２５はアンテナを備える。バス２６は、信号生成装置１００の各部を繋いで情報を伝達する。

［動作フロー］
次に図３を用いて、信号処理システム２００による処理の流れについて説明する。図３に示す処理は、仮想聴取点に対応する音響信号の生成を開始するための操作を信号生成装置１００が受け付けたタイミングで開始される。生成開始のための操作は、例えば、競技場における収音の対象となる試合の開始に応じて行われる。なお、音響信号の生成はリアルタイムで行われるものに限らず、例えば試合中に収音された収音信号に基づいて、試合の終了後に音響信号の生成が開始されてもよい。また、図３に示す処理の開始タイミングは上記タイミングに限定されない。

図３に示す処理のうち、信号生成装置１００が実行する処理であるＳ１０１からＳ１０７の処理は、ＣＰＵ２１がＲＯＭ２２に格納されたプログラムをＲＡＭ２３に展開して実行することで実現される。なお、これらの処理の少なくとも一部を、ＣＰＵ２１とは異なる専用のハードウェアにより実現してもよい。

Ｓ１０１において、入力部１は、複数のマイクロホン２０により収音された収音信号に対し、増幅やノイズ除去処理を行う。本実施形態では、収音信号の全てのチャンネルに対して同じ増幅値が適用されるものとする。ただし、各チャンネルに対して個別に増幅値が設定されてもよい。処理が行われた複数チャンネルの収音信号は音源抽出部２と周囲音生成部８に出力される。

Ｓ１０２において、聴取点決定部６は、操作者による操作部５に対する指示操作によって生成される入力信号に基づいて、操作者により指定された仮想聴取点の位置（聴取位置）および聴取方向を決定する。この決定により聴取点決定部６は、聴取位置を示す聴取位置情報と、聴取方向を示す方向情報とを取得する。本実施形態における聴取位置情報は、水平面上の東西方向にＸ軸、南北方向にＹ軸、鉛直方向にＺ軸を各々直交するようにとり、それぞれ東方向、北方向、上方向を正の向きとし、フィールド上の南西角を原点とした場合の三次元座標で表現される。また方向情報は、Ｘ軸の正方向、つまり水平面上の東方向を０度とし、水平面上での角度θ（−１８０°＜θ≦１８０°）と水平面に対する俯角φ（−９０°≦φ≦９０°）で表される。決定された聴取位置及び聴取方向は、音源決定部３、範囲決定部７、及び周囲音生成部８に出力される。なお、聴取点決定部６は、聴取位置情報と方向情報とを操作部５とは異なる外部の装置から取得してもよい。

なお、本実施形態では聴取点位置や音源の位置が三次元座標で表現される場合を中心に説明するが、これに限らない。例えば、競技場における各選手の高さは大きく異ならないため、音源の位置がフィールド面における二次元座標で表現されてもよい。また、聴取位置も、フィールド面に投影された二次元座標で表現されてもよい。

Ｓ１０３において、音源抽出部２は、Ｓ１０１で処理された複数チャンネルの収音信号を利用して音源抽出処理を行う。この抽出処理により、複数のマイクロホン２０の少なくとも何れかによる収音の対象となる複数の音源の位置が特定されるとともに、各音源に対応する音源信号が抽出される。収音対象の領域が競技場の内部である場合、例えば、抽出対象となる音源はフィールド上の選手である。収音信号には、選手が発する音に加え、観客の歓声などが含まれるが、音源抽出部２は観客の歓声などの音を抽出しなくてもよい。Ｓ１０３の処理の詳細については図５を用いて後述する。抽出された音源信号と音源の位置は、図４に示すようなデータ構造を有する音源情報としてまとめて音源決定部３へ出力される。なお、音源抽出部２により複数の音源が抽出された場合には、複数の音源情報が出力される。

図４に示すように、音源情報は、音源ＩＤ、音源信号、音源座標、聴取点（仮想聴取点）からの距離、及び聴取点（仮想聴取点）から見た方向、によって構成される。このうち、音源ＩＤは、音源情報を識別するための識別情報であり、例えば各音源情報に対して個別の番号が割り振られる。また、音源座標は、前述した聴取位置と同じ座標系における座標値で表される。聴取点からの距離には、後述する処理において計算される仮想聴取点と音源との距離が格納される。聴取点から見た方向には、後述する処理において計算される仮想聴取点に対する音源の方向が格納される。本実施形態において、聴取点から見た方向は、聴取方向を基準として水平角θと俯角φで表現される。

Ｓ１０４において、音源決定部３は、Ｓ１０３で抽出された音源情報のうち、再生用の信号をレンダリングする際に使用される音源情報を、指定された仮想聴取点と各音源との位置関係に基づいて決定する。すなわち、音源決定部３は、収音対象となる複数の音源に含まれる特定の再生音源を、聴取点決定部６により取得される聴取位置情報が表す聴取位置と、音源抽出部２により特定された音源の位置とに基づいて決定する。Ｓ１０４の処理の詳細は、図７を用いて後述する。

Ｓ１０５において、範囲決定部７は、Ｓ１０５において決定された音源情報を用いて、再生音源を含む範囲を再生音源範囲として決定する。この処理の詳細は、図８を用いて後述する。Ｓ１０６において、周囲音生成部８は、再生音源範囲の外部の領域に対応する周囲音信号を含む周囲音情報を生成する。本実施形態では、再生音源範囲の外部の領域が複数の周囲領域に分割され、分割された複数の周囲領域に対応する複数の周囲音情報が生成される。この処理の詳細は、図９を用いて後述する。

Ｓ１０７では、合成部４が、Ｓ１０４で決定された音源情報のリストと、Ｓ１０６で生成された周囲音情報のリストをマージする。本実施形態ではこの処理を音響信号の合成処理と呼ぶ。この処理の詳細は図１１を用いて後述する。合成された音響信号、すなわちマージされた音源情報と周囲音情報のリストは、音響再生部１１に出力される。音響再生部１１により出力される音響信号は、操作者により指定された仮想聴取点に対応する音響信号となっている。

なお、詳細については後述するが、本実施形態では音源信号と周囲音信号との生成方法が異なる。すなわち、音源決定部３により決定される特定の再生音源に対応する音源信号と、収音信号に基づく当該再生音源に対応しない周囲音信号とが、それぞれ異なる信号処理によって生成される。そして生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号が生成される。例えば、仮想聴取点の近傍に位置する音源を再生音源とする場合に、再生音源の音を際立たせ、周囲音をぼかす処理を行うことにより、仮想聴取点の近傍に位置する音源の音がより明瞭となるような聞こえ方を実現可能な音響信号を提供することができる。

Ｓ１０８において、音響再生部１１は、Ｓ１０７で合成された音響信号を、各種の音響再生環境に応じたフォーマットにレンダリングする。この処理の詳細は図１２を用いて後述する。Ｓ１０９において、音響再生部１１は、Ｓ１０８におけるレンダリングにより生成された再生用の信号の出力先を判定する。出力先が音響再生機器の場合は、Ｓ１１０へ進む。出力先が通信網の場合は、Ｓ１１１へ進む。出力先が外部機器の場合は、Ｓ１１２へ進む。

Ｓ１１０において、音響再生部１１は、Ｓ１０８におけるレンダリングにより生成された再生用の信号を、各種の音響再生環境に出力する。すなわち、ステレオ再生スピーカーセット１２、マルチチャンネル音響再生スピーカーセット１３、及びヘッドフォン１４の少なくとも何れかに再生用の信号が出力され、再生環境において信号が音に変換され再生される。Ｓ１１０の処理が終わると、Ｓ１１３へ進む。Ｓ１１１において、通信部１５は、音響再生部１１から出力された再生用の信号を、通信網１６を介して外部へ送信する。Ｓ１１１の処理が終わると、Ｓ１１３へ進む。Ｓ１１２において、出力部１７は、音響再生部１１から出力された再生用の信号を、出力用の規定フォーマットに変換して、外部端子に接続された外部機器に出力する。Ｓ１１２の処理が終わると、Ｓ１１３へ進む。

Ｓ１１３において、信号生成装置１００は、音響信号の生成処理を終了するかどうか判定する。判定の結果、処理を継続する場合はＳ１０１に戻り、そうでなければ図３の処理を終了する。なお、音響信号の生成処理を終了すると判定される場合とは、例えば、処理を終了する操作が信号生成装置１００に対して行われた場合や、マイクロホン２０からの収音信号の入力が停止された場合などである。

図３に示す処理の結果、各種の再生環境において音が再生されることにより、図１７に示すような仮想的な音場が実現される。図１７は、信号処理システム２００により実現される再生音場を平面上で表現したイメージ図である。仮想聴取点を中心とする再生音源範囲の内部に複数の音源が存在し、再生音源範囲の外部に分割された複数の周囲領域が存在する。再生環境において再生された音を聴くユーザーは、仮想聴取点において各音源の音や周囲領域の音を聴いているかのような体験ができる。特に、再生音源範囲の内部の音源により発生する音は方向が明瞭な音となり、周囲領域で発生する周囲音は方向が明瞭でない包み込むような音となるような再生音場が実現される。

［処理の詳細］
続いて、図３を用いて説明した各処理の詳細について説明する。図５は、図３のＳ１０３における音源抽出処理の詳細について説明するためのフローチャートである。本フローを構成する各処理は、全て音源抽出部２により実行される。

Ｓ２０１では、ＲＡＭ２３に格納される音源抽出に関わる内部変数やデータの初期化が行われる。Ｓ２０２では、複数のマイクロホン２０を、収音点の位置に基づいて予め定められた複数のグループ（サブアレイ）に分類。このようにすることによって、後の音源抽出処理に係る負荷を分散させることができる。Ｓ２０３からＳ２０６の処理は、Ｓ２０２で分類されたサブアレイ毎に行われ、全サブアレイに対する処理が終了するまでループ処理される。

Ｓ２０４では、サブアレイを構成するマイクロホン２０に対応する収音点の座標に基づき、各サブアレイの重心座標が計算される。本実施形態において各マイクロホン２０は同一の構成であり、収音点群の座標値の平均値を座標軸ごとに計算することにより重心座標が計算される。ただし、例えばサブアレイを構成する複数のマイクロホン２０が異なる構成である場合などには、収音点ごとに重みづけをして重心座標を計算してもよい。

次に、Ｓ２０５では、各サブアレイに含まれる収音点の座標と、対応するチャンネルの収音信号を用いて、サブアレイの近傍に存在する音源の方向が検知される。音源の方向の検知には、例えば公知の手法である遅延時間推定法やＭＵＳＩＣ法などの音源定位アルゴリズムを使用することができる。なお、この際、検知可能な音源すべての方向が検知されてもよいし、周波数や音量などに所定の特徴を有する音源の方向だけが検知されてもよい。

さらに、Ｓ２０４で計算されたサブアレイの重心座標と検知された音源の方向との組が、図６（ａ）に示すようなデータ構造を有する音源方向リストに格納される。単一のサブアレイの近傍で複数の音源方向が検知された場合には、アレイ重心座標が同一で音源方向が異なる複数のエントリが格納される。Ｓ２０６では、すべてのサブアレイに対する処理が終了していれば、ループ処理を終了しＳ２０７へ進む。そうでなければＳ２０３に戻る。

Ｓ２０７では、Ｓ２０６までの処理で生成された音源方向リストが参照され、音源方向リストに含まれる或るエントリのサブアレイ重心座標から対応する音源方向に伸ばした直線が、リスト中の他のエントリにおける直線と交わる座標が計算される。この座標が、音源の位置を示す音源座標として、図６（ｂ）に示すようなデータ構造を有する音源座標リストに格納される。なお、音源方向の検知には誤差が生じうるため、複数のエントリの直線が一定の距離、例えば１ｍ以内に近づいた場合、これらの直線が交わったものとみなし、直線間の距離が最も短くなった点を音源座標としてもよい。音源方向リストに格納されたすべてのエントリ同士の組み合わせについてＳ２０７の処理が行われると、Ｓ２０８へ進む。

Ｓ２０８からＳ２１３までの処理は、Ｓ２０７で作成された音源座標リストに格納された音源座標ごとに実行され、すべての音源座標に対する処理が終了するまでループ処理が行われる。まず、Ｓ２０９では、処理対象となる音源座標の近傍の収音点に対応するマイクロホン２０が規定数、例えば４つ選択され、音源抽出用のためのグループ（音源抽出用アレイ）が構成される。次に、Ｓ２１０では、Ｓ２０９で構成された音源抽出用アレイに対応するチャンネルの収音信号を用いて、音源座標に位置する音源が発した音に対応する音源信号を抽出する。この抽出処理には、例えば音源座標に指向性を向けた遅延和ビームフォーミング処理などの公知の技術を使用することができる。

次に、Ｓ２１１では、抽出された音源信号のピーク音圧が予め定められた閾値以上かどうかを判定する。ピーク音圧が閾値以上の場合は、Ｓ２１２において新規の音源ＩＤを有する音源情報が作成され、Ｓ２１０で抽出された音源信号と対応する音源座標とが格納される。ピーク音圧が閾値未満の場合は、対象の音源信号の音源情報は作成されず、Ｓ２１３へ処理が進む。この閾値については、例えば信号生成装置１００の操作者が予め設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。このように、再生用の信号への影響が小さい音源信号の処理を省略することにより、信号生成装置１００の処理負荷を低減できる。Ｓ２１３では、音源座標リストに格納される全ての音源座標に対する処理が終了していれば、ループ処理を終了しＳ２１４へ進む。そうでなければＳ２０８へ戻る。

Ｓ２１４では、仮想聴取点と各収音点との距離に基づいて、各収音点に対応するチャンネルの収音信号に対して遅延及び／又は音圧の補正を行い、全チャンネルの収音信号を加算することにより、仮想聴取点に対応する合成音信号を生成する。この処理によって生成された合成音信号は、Ｓ１０４における再生音源を決定する処理において使用される。次に、Ｓ２１５では、Ｓ２１２において作成された全ての音源情報を、Ｓ２１４で生成された合成音信号とともに音源決定部３へ出力する。以上によりＳ１０３の音源抽出処理が終了する。

図７は、図３のＳ１０４における再生音源の決定処理の詳細について説明するためのフローチャートである。なお、本フローにおける各処理は全て音源決定部３によって行われる。Ｓ３０１では、ＲＡＭ２３に格納されている再生音源リストを初期化して空にする。再生音源リストは、Ｓ１０３における音源抽出処理の対象の音源のうち再生音源として決定される特定の音源の情報を格納するリストである。

Ｓ３０２からＳ３０９までの処理は、収音の対象となる複数の音源に含まれる各音源に対応する音の大きさ、及び指定された聴取位置と各音源の位置との距離に基づいて、再生音源を決定する処理である。これらの処理は、音源抽出部２により出力された各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。

まず、Ｓ３０３では、音源情報に含まれる音源座標、すなわち音源の位置情報が取得され、仮想聴取点と音源との距離が計算される。計算された距離は、聴取点からの距離として音源情報に格納される。次に、Ｓ３０４では、Ｓ３０３で計算された距離に基づき、音源情報に格納されている音源信号に対して減衰補正処理及び／又は遅延補正処理が行われる。すなわち、聴取位置と音源の位置との距離に応じて信号の音量及び／又は遅延を調整する処理が行われる。これにより、仮想聴取点において聞こえる音源の音をよりリアルに再現できる。なお、音源信号に対して行われる信号処理の内容はこれに限らない。例えば、仮想聴取点の聴取方向に存在する音源の音源信号を強調するなど、聴取方向に対する音源の方向に応じた補正処理が行われてもよい。また、聴取位置情報と音源の位置情報とに基づくその他の信号処理が行われてもよい。

次に、Ｓ３０５では、音源抽出部２から出力された合成音信号から、Ｓ３０４で補正処理された音源信号を減算することにより、残差信号を生成する。次に、Ｓ３０６では、Ｓ３０５で生成された残差信号と、Ｓ３０４で補正された音源信号の時間平均音圧が算出され、Ｓ３０７においてこの二つの音圧が比較される。なお、音源抽出部２により音源信号が複数抽出されている場合には、抽出された音源信号すべてが合成音信号から減算された結果を残差信号としてもよい。

Ｓ３０７における比較の結果、音源信号の音圧が残差信号の音圧以上である場合は、Ｓ３０８へ進み、対象の音源情報を再生音源リストに登録する。音源信号の音圧が残差信号の音圧未満である場合、Ｓ３０９に進み、対象の音源情報に対する処理が終了する。つまり、この音源情報は再生音源リストに登録されない。

このようにすることによって、仮想聴取点において周りの音よりも大きく聞こえる音の音源に関する音源情報のみが再生音源リストに登録され、音圧が低く周りの音に紛れ込んでしまう音の音源に関する音源情報は再生音源リストから除外される。したがって、再生用の信号の生成に用いる音源情報を主要なもののみに減らすことができ、信号生成装置１００や音響再生部１１の処理負荷を低減できる。ただし、再生音源の決定方法はこれに限らず、仮想聴取点の位置と音源の位置とに基づいて再生音源が決定されればよい。例えば、単に仮想聴取点と音源との距離のみに基づいて再生音源が決定されてもよい。また例えば、仮想聴取点から見て聴取方向に位置する音源については、他の方向に位置する音源よりも遠くの音源まで再生音源として決定するなど、聴取方向に基づいて再生音源を決定してもよい。さらに、仮想聴取点と音源との距離の計算を行わずに再生音源を決定してもよい。

Ｓ３０９では、全ての音源情報に対する処理が終了していれば、ループ処理が終了し３１０へ進む。そうでなければＳ３０２へ戻る。Ｓ３１０では、Ｓ３０９までの処理によって作成された再生音源リストが合成部４と範囲決定部７へ出力される。以上によりＳ１０４における再生音源の決定処理が終了する。

図８は、図３のＳ１０５における再生音源範囲の決定処理の詳細について説明するためのフローチャートである。なお、本フローの処理は全て範囲決定部７によって行われる。まず、Ｓ４０１では、音源決定部３から出力された再生音源リスト中の全ての音源情報における聴取点からの距離と聴取点から見た方向を計算し、音源情報に格納する。

Ｓ４０２では、音源決定部３から出力された再生音源リストに含まれる音源情報のうち、仮想聴取点からの距離が最も大きい音源を特定する。次に、Ｓ４０３では、Ｓ４０２で特定された音源の音源信号を抽出する際に使用された音源抽出用アレイが再構成される。Ｓ４０４では、音源抽出用アレイを構成するマイクロホン２０に対応する収音点のうち、仮想聴取点から最も遠いものが特定される。

次に、Ｓ４０５では、再生音源として決定された特定の音源と仮想聴取点とを含む範囲が再生音源範囲として設定される。具体的には、仮想聴取点を中心として、Ｓ４０４で特定された収音点までの距離を半径とする略球形状の範囲が再生音源範囲として設定される。そしてこの半径が音源範囲距離として周囲音生成部８に出力される。なお、音源の位置が二次元座標で表現される場合には、仮想聴取点を中心とする略円形状の範囲としてもよい。再生音源範囲の形状が略球形状や略円形状なのは、音の減衰や遅延が距離に応じて決まるためである。ただし、再生音源範囲は、多面体や多角形などその他の形状でもよい。また、再生音源範囲は対称な形状に限らず、例えば聴取方向の長さが他の方向の長さよりも長い形状であってもよい。以上により、Ｓ１０５における再生音源範囲の決定処理が終了する。

以上のようにして設定された再生音源範囲の外に位置する収音点に対応するチャンネルの収音信号を用いて、続くＳ１０６における周囲音信号の生成処理が行われる。すなわち、本実施形態において周囲音信号は、設定された再生音源範囲の外に位置するマイクロホン２０による収音に基づく信号を用いて生成される。このように、再生音源として決定された音源の音が多く届く収音点を、周囲音信号の生成処理の対象から除外することで、再生音源の音源信号と区別された周囲音信号を生成することができる。

図９は、図３のＳ１０６における周囲音信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローの処理は全て周囲音生成部８によって行われる。Ｓ５０１では、ＲＡＭ２３に格納されている周囲音信号の生成に関わる変数や構造体などの初期化を行う。初期化の際に、予め定められた周囲音方向に関する周囲音方向データ９がＲＡＭ２３に格納される。

ここで、本実施形態における周囲音方向について説明する。本実施形態では、仮想聴取点の周囲の三次元空間のうち上述した再生音源範囲の外部の領域が、予め定められた数の複数の周囲領域に分割され、各周囲領域に対して一つの周囲音信号が生成される。これらの周囲音信号は、再生された音を聴くユーザーの周囲全体を取り巻く音として、音源信号とは区別してレンダリングされる。周囲音方向とは、これらの周囲音信号に対応する周囲領域それぞれの、仮想聴取点から見た方向を表す。

Ｓ５０２からＳ５０８までの処理は、周囲音生成部８に入力される各チャンネルの収音信号に対して実行され、すべてのチャンネルの収音信号に対する処理が終了するまでループ処理が行われる。まず、Ｓ５０３では、対象となるチャンネルの収音信号に対応する収音点の座標が収音点座標データ１０に基づいて取得される。次に、Ｓ５０４では、Ｓ５０３で取得された収音点の座標と、聴取点決定部６により決定された仮想聴取点の座標とを用いて、仮想聴取点から見た各収音点の方向と、仮想聴取点と収音点との距離が計算される。

次に、Ｓ５０５では、Ｓ５０４で得られた収音点と仮想聴取点との距離が、範囲決定部７から出力された音源範囲距離と比較される。収音点と仮想聴取点との距離が音源範囲距離より大きい場合は、Ｓ５０６へ処理が進む。一方、音源範囲距離より小さい場合は、Ｓ５０８へ進み、対象のチャンネルの収音信号に対する処理を終える。

Ｓ５０６では、Ｓ５０４で得られた収音点と仮想聴取点との距離に基づいて、対象の収音信号に対して減衰補正処理及び／又は遅延補正処理が行われる。次に、Ｓ５０７では、Ｓ５０４で得られた仮想聴取点から見た収音点の方向に位置する周囲領域の周囲音方向が特定され、図１０に示すようなデータ構造を有する周囲音方向情報の収音点リストに対象の収音点のチャンネル番号が追加される。

本実施形態では、各周囲音方向に関連する情報が、周囲音方向情報にまとめて取り扱われる。以下、周囲音方向情報について説明する。図１０に示すように、周囲音方向情報は、方向ＩＤ、聴取点（仮想聴取点）基準の方向範囲、集約点座標、及び収音点リストによって構成される。このうち、方向ＩＤは周囲音方向情報を識別するための識別情報である。聴取点基準の方向範囲は、聴取方向を基準として、周囲音方向に対応する周囲領域の範囲を、水平角θと俯角φで表した情報である。集約点座標は、この周囲領域に対応する周囲音信号をレンダリングする際の基準となる座標であり、仮想聴取点からの距離Ｒと、水平角θ、及び俯角φで表される。収音点リストには、周囲音信号を生成する際に用いられる複数の収音信号のチャンネル番号が格納される。なお、方向ＩＤと聴取点基準の方向範囲には、Ｓ５０１における初期化時に周囲音方向データ９に応じた値が格納される。Ｓ５０８では、全てのチャンネルの収音信号に対する処理が終了していれば、ループ処理が終了してＳ５０９へ進む。そうでなければＳ５０２へ戻る。

Ｓ５０９からＳ５１４までの処理は、ＲＡＭ２３に格納されている各周囲音方向情報に対して実行され、すべての周囲音方向情報に対する処理が終了するまでループ処理が行われる。まず、Ｓ５１０では、対象とする周囲音方向情報の集約点座標が決定される。具体的には、聴取点基準の方向範囲におけるθとφの範囲の各々の中央値と、音源範囲距離とにより、集約点座標が表される。すなわち本実施形態において、各周囲音方向の周囲音は、仮想聴取点から音源範囲距離だけ離れた点に集約される。

次に、Ｓ５１１では、対象の周囲音方向情報内の収音点リストに含まれているチャンネルの収音信号を全て加算平均した信号が、周囲音信号として生成される。すなわち周囲音信号は、複数のマイクロホン２０による収音に基づく複数の信号の加算平均を算出する処理により生成される信号である。そのため、特定された音源の位置に基づいて収音信号から抽出された音源信号と比較して、指向性の程度が低い信号となる。その結果、再生時には抽出対象の音源の音が周囲音と区別されやすく明瞭に聞こえることとなる。

Ｓ５１２では、Ｓ５１１で生成された周囲音信号に対して音像をぼかす処理が行われる。これは、音源の音と周囲音とで再生時の聴こえ方がより異なるようにするための処理である。周囲音に対応する音像がぼけることにより、抽出された音源の音像がより明瞭になる。これにより、収音対象の場面の仮想聴取点における雰囲気を再現することができ、再生された音を聴くユーザーにより高い臨場感を与えることができる。この処理の詳細は図１１を用いて後述する。

次に、Ｓ５１３では、周囲音に関する情報として、図４を用いて説明した音源情報が新規作成される。この音源情報には、Ｓ５１２における処理が行われた周囲音信号が音源信号として格納され、集約点座標が音源座標として格納される。作成された周囲音に関する音源情報は、ＲＡＭ２３内に格納されている周囲音情報リストに追加される。つまり、１つの周囲音方向情報に対して、１つの音源情報が生成され、周囲音情報リストに格納される。Ｓ５１４では、全ての周囲音方向情報に対する処理が終了していれば、ループ処理が終了してＳ５１５に進む。そうでなければ、Ｓ５０９へ戻る。Ｓ５１５では、作成された周囲音情報リストが合成部４に出力される。以上によりＳ１０６における周囲音信号の生成処理が終了する。

図１１は、図９のＳ５０９における音像ぼかし処理の詳細について説明するためのフローチャートである。まず、Ｓ６０１では、ＲＡＭ２３に格納されている高域減衰処理フラグがＯＮであるかどうかが判定される。フラグがＯＮであれば、Ｓ６０２に進み、そうでない場合はＳ６０３へ進む。Ｓ６０２では、Ｓ５１１で生成された周囲音信号に対して高域減衰処理が行われる。高域減衰処理とは、信号の周波数成分のうち所定の周波数より高い周波数に対応する成分を減衰させる処理である。この所定の周波数は、信号生成装置１００の操作者があらかじめ設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。

広域減衰処理の具体的な方法としては、種々の公知の方法を用いることができる。例えば、ＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタにより高域のスペクトルを抑制し所望するスペクトルエンベロープにする方法が知られている。また例えば、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタにより或る周波数以上の帯域を抑制する方法が知られている。

次に、Ｓ６０３では、ＲＡＭ２３に格納されている波形ピーク抑制フラグがＯＮであるかどうかが判定される。フラグがＯＮであれば、Ｓ６０４に進み、そうでなければＳ５１２における音像ぼかし処理が終了する。Ｓ６０４では、それ以前のステップで生成及び処理された周囲音信号に対して、ピーク抑制処理が行われる。ピーク抑制処理とは、信号の時間波形におけるピークを抑制させる処理である。例えば公知の手法である、時間波形に対して移動平均フィルタを適用する方法や、コンプレス処理を行う方法などがある。Ｓ６０４の処理が終わると、Ｓ５１２における音像ぼかし処理が終了する。

なお、上述した減衰処理フラグや波形ピーク抑制フラグは、例えば信号生成装置１００の操作者による指示に応じて予め設定される。このように、音像ぼかし処理の内容や音像ぼかし処理を行うか否かを操作者の指示に基づいて決定することで、再生時の周囲音の聞こえ方をユーザーの好みなどに応じて変更する事が可能になる。ただし、上記のフラグの設定方法はこれに限らず、収音対象の場所や場面などに応じて自動で設定されてもよい。また、音像ぼかし処理の内容も上記に限定されない。

図１２は、図３のＳ１０７における音響信号の合成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理は全て合成部４によって行われる。Ｓ７０１では、Ｓ１０４における再生音源の決定処理において生成された再生音源リストと、Ｓ１０６における周囲音信号の生成処理において生成された周囲音情報リストとがマージされた音源情報リストが作成される。音源情報リストには、再生音源として特定された音源に対応する音源信号、周囲音信号、音源の位置に関する情報、及び周囲音の位置に関する情報が含まれる。なお、音源情報リストに含まれる音源信号と周囲音信号は、指定された聴取位置に基づく処理によって生成されており、仮想聴取点に対応する音響信号となっている。Ｓ７０２では、作成された音源情報リストが音響再生部１１に出力される。以上によりＳ１０８における音響信号の合成処理が終了する。

図１３は、図３のＳ１０８における再生信号の生成処理の詳細化について説明するためのフローチャートである。なお、本フローにおける処理は全て音響再生部１１によって実行される。Ｓ８０１では、音響再生部１１が有する出力バッファが初期化される。出力バッファは、音響再生部１１により生成される再生用の信号の出力チャンネル毎のバッファになっており、各チャンネルの信号を蓄積する。

Ｓ８０２では、生成すべき再生用の信号のフォーマットが判定される。ステレオに対応するフォーマットである場合は、Ｓ８０３へ進む。サラウンドに対応するフォーマットである場合は、Ｓ８０４へ進む。ヘッドフォンに対応するフォーマットである場合は、Ｓ８０５へ進む。

Ｓ８０３では、Ｓ１０７で作成された音源情報リストを用いてステレオ再生信号が生成される。この処理の詳細は図１４を用いて後述する。Ｓ８０３の処理が終わると、生成されたステレオ再生信号はステレオ再生スピーカーセット１２へ出力され、Ｓ１０８における再生信号の生成処理が終了する。

Ｓ８０４では、Ｓ１０７で作成された音源情報リストを用いてサラウンド再生信号が生成される。この処理の詳細は図１５を用いて後述する。Ｓ８０４の処理が終わると、生成されたサラウンド再生信号はマルチチャンネル音響再生スピーカーセット１３に出力され、Ｓ１０８における再生信号の生成処理が終了する。

Ｓ８０５では、Ｓ１０７で作成された音源情報リストを用いてヘッドフォン再生信号が生成される。この処理の詳細は図１６を用いて後述する。Ｓ８０５の処理が終わると、生成されたヘッドフォン再生信号はヘッドフォン１４へ出力され、Ｓ１０８における再生信号の生成処理が終了する。

以上のように、再生音響生成１１は、合成部４により生成された音響信号を再生環境に応じた形式に変換し、変換された音響信号を再生用の信号として出力する。なお、図１３では、何れか一つの再生フォーマットの再生信号が生成される場合のフローが示されているが、これに限らず、複数のフォーマットに対応する複数の再生信号が生成されてもよい。そして生成された１以上の再生信号は、上述した各再生環境に出力されてもよいし、通信部１５や出力部１７に出力されてもよい。

図１４は、図１３のＳ８０３におけるステレオ再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部１１によって実行される。Ｓ９０１からＳ９１０までの処理は、Ｓ１０７で作成された音源情報リストに格納されている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。

Ｓ９０２では、処理対象の音源情報の聴取点から見た方向を表すθが、−１８０°から１８０°の範囲内かどうか、つまり、対象の音源が仮想聴取点から見て真横から前方の範囲に位置するかどうかが判定される。この処理の結果、範囲内にない場合、つまり、音源が仮想聴取点の後方にある場合はＳ９０３へ処理が進む。そうでない場合、つまり、前方にある場合は、Ｓ９０７へ処理が進む。

音源が後方にある場合、まず、Ｓ９０３で、聴取点から見た方向が正方向か負方向かが判定される。負方向の場合は、Ｓ９０４へ進む。正方向の場合は、Ｓ９０５へ進む。Ｓ９０４では、聴取点から見た方向に１８０°を加えることで符号が反転される。一方、Ｓ９０５では、聴取点から見た方向から１８０°を減じることで符号が反転される。Ｓ９０４とＳ９０５の処理により、仮想聴取点を中心とする円の後ろ半分を前に折り返すようにして、後方の方向を前方の方向に変換することができる。これらの処理が終わると、Ｓ９０６へ進む。

Ｓ９０６では、−９０°から９０°の範囲の聴取点から見た方向に対するステレオパンニング計算が行われ、得られたＬＲチャンネルの振幅分配率に従って対象となっている音源信号がＬＲチャンネルに分配される。標準のステレオ再生環境ではユーザーに対して±３０°の位置に左右のスピーカーが配置されるため、±９０°の間の範囲にある聴取点から見た方向を、±３０°の間の範囲に線形投射することにより、ステレオパンニング計算が行われる。本実施形態では、このパンニング計算は、聴取点から見た方向をθとして、サイン則を用いて以下のように行われる。
（数１）
ｗＬ＝（ｓｉｎ３０°−ｓｉｎ（θ＊３０／９０））／２ｓｉｎ３０°＝１／２−ｓｉｎ（θ／３）
ｗＲ＝（ｓｉｎ３０°＋ｓｉｎ（θ＊３０／９０））／２ｓｉｎ３０°＝１／２＋ｓｉｎ（θ／３）
ただし、ｗＬは左チャンネルに対する振幅分配率、ｗＲは右チャンネルに対する振幅分配率である。

次に、Ｓ９０７では、Ｓ９０６で生成されたステレオ信号に対して、ＬチャンネルとＲチャンネルの位相をずらす無相関化処理を行う。この無相関化処理は、後方音源が前方音源のように明瞭に定位しないようにするための処理である。無相関化処理の具体的な方法としては、公知の方法を用いることができる。この処理により、後方音源の音が前方音源の音と違って聴こえるように音の再生を行うことができる。処理が終わると、Ｓ９０９へ進む。一方、Ｓ９０２において音源が前方であると判定された場合は、Ｓ９０８においてＳ９０６と同様のステレオパンニング計算が行われ、Ｓ９０９へ進む。

Ｓ９０９では、Ｓ９０７とＳ９０８で生成されたステレオ信号が、各チャンネルの出力バッファに各々蓄積される。Ｓ９１０では、音源情報リストに含まれている全ての音源情報の処理が終了していれば、ループ処理が終了し、Ｓ８０３におけるステレオ再生信号の生成処理が終了する。そうでなければ、Ｓ９０１へ戻る。

図１５は、図１３のＳ８０４におけるサラウンド再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部１１によって実行される。Ｓ１００１からＳ１００７までの処理は、Ｓ１０７で作成された音源情報リストに含まれている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。

Ｓ１００２では、対象の音源情報の聴取点から見た方向が既定のチャンネル配置方向かどうかを判定する。例えば、再生環境が５．１チャンネルサラウンド再生環境だとすると、既定のチャンネル配置方向は０°、±３０°、±１１０°〜１３０°になる。本実施形態では、±１１０°〜１３０°のうち±１２０°が採用されるものとする。対象の音源情報の聴取点から見た方向がこれらの既定の方向に該当する場合は、チャンネル配置方向であると判定され、Ｓ１００６へ処理が進む。そうでない場合は、Ｓ１００３へ処理が進む。

Ｓ１００３では、聴取点から見た方向の左右にある二つのチャンネルが選択される。例えば、聴取点から見た方向が５０°であるとすると、３０°のＲチャンネルと、１２０°のＳＲチャンネルが選択される。

次に、Ｓ１００４では、Ｓ１００３で選択されたチャンネル間で振幅パンニング計算が行われ、二つのチャンネルに音源信号が分配される。本実施形態ではサイン則を用いて振幅パンニング計算が行われる。上述の例で説明すると、ＲとＳＲの間の中心方向は７５°であり、中心方向と各チャンネルの方向との間の開きは４５°となる。また、聴取点から見た方向の５０°は、チャンネル間の中心方向を基準とすると５０°−７５°＝−２５°となる。Ｒチャンネル及びＳＲチャンネルそれぞれへの分配率ｗＲ及びｗＳＲはサイン則よりそれぞれ次式で求められる。
（数２）
ｗＲ＝（ｓｉｎ４５°−ｓｉｎ（−２５°））／２ｓｉｎ４５°≒０．６４９
ｗＳＲ＝（ｓｉｎ４５°＋ｓｉｎ（−２５°））／２ｓｉｎ４５°≒０．３５１
次に、Ｓ１００５では、Ｓ１００４で分配された各チャンネルの信号が、チャンネル毎に出力バッファに蓄積する。一方、Ｓ１００２において音源の方向がチャンネル配置方向であると判定された場合は、Ｓ１００６において、対応するチャンネルの出力バッファに音源信号がそのまま蓄積される。Ｓ１００７では、音源情報リストに含まれる全ての音源情報に対する処理が終了していれば、ループ処理が終了し、Ｓ１００８へ進む。そうでなければＳ１００１へ戻る。

Ｓ１００８では、各チャンネルの出力バッファに蓄積されている音響信号に対して、ローパスフィルタ（ＬＰＦ）が掛けられ加算されることにより、ＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｌｅｍｅｎｔ）信号が生成される。ＬＦＥ信号は低域信号であり、例えば８０Ｈｚ以下の信号がローパスフィルタで取り出される。この信号は、マルチチャンネル音響再生スピーカーセット１３に含まれるサブウーファーによって再生される。生成されたＬＦＥ信号は、ＬＦＥチャンネル用の出力バッファに蓄積される。Ｓ１００８の処理が終わると、Ｓ８０４におけるサラウンド再生信号の生成処理が終了する。

図１６は、図１３のＳ８０５におけるヘッドフォン再生信号の生成処理の詳細について説明するためのフローチャートである。なお、本フローにおける処理も全て音響再生部１１によって実行される。Ｓ１１０１からＳ１１０４までの処理は、音源情報リストに含まれている各音源情報に対して実行され、すべての音源情報に対する処理が終了するまでループ処理が行われる。

Ｓ１１０２では、音源情報の聴取点から見た方向に対応する頭部インパルス応答（ＨＲＩＲ：ＨｅａｄＲｅｌａｔｅｄＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）が音源信号に畳み込まれることにより、ユーザーの両耳で再生される信号が生成される。ＨＲＩＲは、音源方向によって変化する人間の頭部や耳介による音の回り込みを測定して、両耳に対応するインパルス応答としたものである。音源信号に対してＨＲＩＲを畳み込む事により生成された信号をヘッドフォン１４で再生することにより、音源情報に応じた方向に音源が定位する立体音響をユーザーに提供することができる。なお、本実施形態では、方向毎のＨＲＩＲを格納したデータベースを音響再生部１１が保持しており、入力された音源情報に応じて両耳分のＨＲＩＲを読み出される。

次に、Ｓ１１０３では、Ｓ１１０２で生成された両耳分の信号が、ＬチャンネルとＲチャンネルの出力チャンネル毎に出力バッファに蓄積される。Ｓ１１０４では、音源情報リストに含まれる全ての音源情報に対する処理が終了していれば、ループ処理が終了し、Ｓ８０５におけるヘッドフォン再生信号の生成処理が終了する。そうでなければ、Ｓ１１０１へ戻る。

［変形例］
以上で説明した実施形態においては、図７を用いて説明したように、音源信号と残差信号との平均音圧を比較することで、再生対象となる特定の再生音源が決定されるものとした。ただし、再生音源の決定方法はこれに限らない。例えば、人間の聴覚特性を考慮した聴覚マスキングの計算によって再生音源が決定されてもよい。以下ではこの場合の決定方法について説明する。

図７のＳ３０６において、残差信号と音源信号の平均音圧が計算される代わりに、Ｓ３０５で生成された残差信号と音源情報に含まれる音源信号とを用いて、音源信号の聴覚マスキングの計算が行われる。具体的には、音源信号と残差信号それぞれに対して、人間の耳の周波数分解能に従って決められた分割周波数帯域毎のエネルギーが算出される。さらにこの算出結果に基づいて、音源信号が残差信号に聴感上でマスキングされる度合いが、人間の耳の帯域毎の聴感感度を考慮して計算される。このような聴覚マスキング計算の具体的な方法としては、公知の方法を用いることができる。

次に、Ｓ３０７において、残差信号と音源信号の平均音圧が比較される代わりに、Ｓ３０６における聴覚マスキングの計算結果に基づいて、音源信号が残差信号にマスクされるかどうかが判定される。この判定の結果、マスクされる場合はＳ３０９へ進み、対象の音源信号に対する処理が終了する。そうでない場合、つまり、仮想聴取点において音源信号に対応する音が一部でも聴こえると判定された場合は、Ｓ３０８に進み、対象の音源情報が再生音源リストに登録される。

以上のように、残差信号にマスクされない音源信号のみを再生音源としてもよい。これにより、仮想聴取点において聴こえる音源の音源信号のみが、再生用の信号を生成する際にレンダリングされることとなり、仮想聴取点に対応する音場を再現しつつ、信号処理システム２００の処理負荷を削減することができる。なお、Ｓ１２０７における判定は、音源信号がマスクされるか否かの判定ではなく、マスキングの度合いが予め定められた度合い以上であるか否かの判定であってもよい。

また、以上で説明した実施形態においては、図９を用いて説明したように、周囲領域に含まれる複数の収音点に対応する複数チャンネルの収音信号を加算平均することによって、周囲音信号が生成されるものとした。ただし、周囲音信号の生成方法はこれに限らない。例えば、指向性を有するように周囲音信号を生成してもよい。以下ではこの場合の周囲音信号の生成方法について説明する。

図９のＳ５１１において、複数チャンネルの収音信号の加算平均が計算される代わりに、収音点リストに含まれる複数の収音点に対応する複数チャンネルの収音信号を用いて、仮想聴取点に対する集約点の方向に指向性を有する信号が生成される。具体的には、複数チャンネルの収音信号に対して、遅延和処理やビームフォーミング処理などのアレイ信号処理が実行されることにより、指向性を有する信号が生成される。このようなアレイ信号処理の具体的な方法としては、公知の方法を用いることができる。そして、生成された指向性を有する信号に対して、仮想聴取点と集約点との距離に基づく減衰補正処理及び／又は遅延処理が行われることにより、周囲音信号が生成される。

このような処理により、仮想聴取点に対してそれぞれ異なる方向に位置する複数の周囲領域に対応する複数の周囲音信号であって、それぞれ異なる方向の指向性を有する複数の周囲音信号が生成される。具体的には、仮想聴取点から外側に向けた指向性マイクにより各周囲領域の音を収音した場合に得られるような周囲音信号が生成される。これにより、周囲音に含まれる音のうち仮想聴取点に向けられた音を強調させることができ、より臨場感のある音場を再現することが可能となる。

なお、周囲音信号を生成する場合には、上述のように当該周囲音信号に対応する周囲領域内の収音点に対応するチャンネルの収音信号だけを用いてもよいし、他の周囲領域内の収音点に対応するチャンネルの収音信号を用いてもよい。例えば、対象の周囲領域に隣接する周囲領域内の収音点に対応するチャンネルの収音信号を用いてもよい。また例えば、再生音源範囲の外部に位置するすべての収音点に対応するチャンネルの収音信号を用いてもよい。このようにすることで、例えば仮想聴取点が収音対象領域の端に位置する場合のように、収音点が含まれない周囲領域が存在する場合でも、仮想聴取点を包み込むような周囲音の再生が可能となる。

なお、本実施形態では周囲音信号は音源の位置に依存せずに生成される場合について説明したが、これに限らない。例えば、音源抽出部２により収音信号から抽出された音源信号のうち、音源決定部３により再生音源として決定された特定の音源とは異なる音源に対応する音源信号が、周囲音信号として処理されてもよい。具体的には、仮想聴取点からの距離が閾値未満である音源に対応する音源信号が再生音源の音源信号として処理され、仮想聴取点からの距離が閾値以上である音源に対応する音源信号が周囲音信号として処理されてもよい。この閾値については、例えば信号生成装置１００の操作者が予め設定してもよいし、収音対象の場所や場面などに応じて自動で設定されてもよい。

そして、仮想聴取点からの距離が近い音源の音源信号には音像をぼかす処理が行われず、仮想聴取点からの距離が遠い音源の音源信号には音像をぼかす処理が行われてもよい。また、仮想聴取点からの距離が遠い音源の音源信号には音像を明瞭にする処理が行われず、仮想聴取点からの距離が近い音源の音源信号には音像を明瞭にする処理が行われてもよい。このような方法によっても、仮想聴取点の近傍に位置する音源の音がより明瞭となるような聞こえ方を実現できる。

また、本実施形態では生成された再生音源の音源信号と周囲音信号とを音響再生部１１が同様の方法でレンダリングする場合について説明したが、これに限らない。例えばレンダリングにおいて、音源信号については上述したように再生環境に応じたパンニングなどの処理が行われ、周囲音信号については再生環境に依らない汎用的な処理が行われてもよい。

また、本実施形態では再生音源の音源信号と周囲音信号とで異なる２通りの信号処理を行うことにより再生用の音響信号を生成する場合を中心に説明したが、用いる信号処理は２通りに限らない。例えば、音源決定部３により決定された再生音源の中でも仮想聴取点に比較的近い音源と遠い音源とで異なる信号処理が適用されてもよいし、仮想聴取点と音源との距離が大きくなるにつれて徐々に音像のぼかし方が大きくなるように信号処理が行われてもよい。

以上説明したように、本実施形態に係る信号生成装置１００は、指定された仮想聴取点の位置情報を取得する。そして信号生成装置１００は、複数のマイクロホン２０の少なくとも何れかにより収音される音源のうち特定の音源を、取得された位置情報が表す仮想聴取点の位置と音源の位置とに基づいて決定する。また信号生成装置１００は、複数のマイクロホン２０による収音に基づく収音信号から抽出される音源信号であって当該特定の音源に対応する音源信号と、収音信号に基づく当該特定の音源に対応しない周囲音信号とを、それぞれ異なる信号処理によって生成する。具体的には、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理が行われる。さらに信号生成装置１００は、生成された音源信号と周囲音信号とに基づいて、仮想聴取点に対応する音響信号を生成する。

このような構成に依れば、仮想聴取点に対応する音響信号として、仮想聴取点に対して所定の位置にある音源の音がより明瞭な音響信号を提供することができる。例えば、仮想聴取点の近傍に位置する音源の音や、仮想聴取点に応じた方向に位置する音源の音などが明瞭になることで、ユーザーはより高い臨場感を得ることができる。特に、音源の位置情報を用いて音源信号を生成することにより、仮想聴取点に対する音源の位置が正確に反映された仮想的な音場を実現することができる。また、仮想聴取点に対してそれぞれ異なる方向に位置する複数の周囲領域に対応する周囲音信号を生成することにより、仮想聴取点の位置に依らず周囲音がユーザーの周囲を包み込むような音場を実現することができる。

なお、本実施形態では仮想聴取点に対して所定の位置にある音源を再生音源として決定する場合について説明したが、位置関係に依らずに特定の音源を再生音源として決定してもよい。例えば、収音対象の競技において特定の選手を再生音源として決定し、その選手が発する音が他の音よりも明瞭になるように信号処理が行われてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ等）によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。

５操作部
２０マイクロホン
１００信号生成装置
２００信号処理システム

Claims

指定された仮想聴取点の位置情報を取得する取得手段と、
複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得手段により取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定手段と、
前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定手段により決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、前記特定の音源に対応する音が前記特定の音源に対応しない音よりも明瞭になるような信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成手段とを有することを特徴とする信号生成装置。
前記決定手段は、音源に対応する音の大きさ、及び、前記仮想聴取点の位置と音源の位置との距離に基づいて、前記特定の音源を決定することを特徴とする請求項１に記載の信号生成装置。
前記決定手段により決定される特定の音源の位置情報を取得する第２取得手段を有し、
前記生成手段は、前記取得手段により取得される前記仮想聴取点の位置情報と前記第２取得手段により取得される前記特定の音源の位置情報とに基づく信号処理によって前記音源信号を生成することを特徴とする請求項１又は２に記載の信号生成装置。
前記生成手段による前記音源信号を生成するための信号処理は、前記仮想聴取点の位置と前記特定の音源の位置とに応じて信号の音量及び／又は遅延を調整する処理を含むことを特徴とする請求項１乃至３の何れか１項に記載の信号生成装置。
前記決定手段により決定される特定の音源と前記仮想聴取点とを含む範囲を設定する設定手段を有し、
前記生成手段は、前記複数のマイクのうち前記設定手段により設定される範囲の外に位置するマイクによる収音に基づく信号を用いて前記周囲音信号を生成することを特徴とする請求項１乃至４の何れか１項に記載の信号生成装置。
前記設定手段により設定される範囲は、前記仮想聴取点を中心とする略球形状または略円形状の範囲であることを特徴とする請求項５に記載の信号生成装置。
前記生成手段により生成される周囲音信号は、前記収音信号から抽出される信号であって、且つ、前記決定手段により決定される前記特定の音源とは異なる音源に対応する信号であることを特徴とする請求項１乃至６の何れか１項に記載の信号生成装置。
前記生成手段は、複数のマイクによる収音に基づく複数の信号の加算平均を算出する処理によって前記周囲音信号を生成することを特徴とする請求項１乃至５の何れか１項に記載の信号生成装置。
前記生成手段は、前記仮想聴取点に対してそれぞれ異なる方向に位置する複数の領域に対応する複数の周囲音信号であって、それぞれ異なる方向の指向性を有する複数の周囲音信号を生成することを特徴とする請求項１乃至８の何れか１項に記載の信号生成装置。
前記生成手段による前記周囲音信号を生成するための信号処理は、前記周囲音信号に対応する音像をぼかす処理を含むことを特徴とする請求項１乃至９の何れか１項に記載の信号生成装置。
前記生成手段による前記周囲音信号を生成するための信号処理は、信号の周波数成分のうち所定の周波数より高い周波数に対応する成分を減衰させる処理を含むことを特徴とする請求項１乃至１０の何れか１項に記載の信号生成装置。
前記生成手段による前記周囲音信号を生成するための信号処理は、信号の時間波形におけるピークを抑制させる処理を含むことを特徴とする請求項１乃至１１の何れか１項に記載の信号生成装置。
前記生成手段により生成された音響信号を再生環境に応じた形式に変換する変換手段と、
前記変換手段により変換された音響信号を出力する出力手段とを有することを特徴とする請求項１乃至１２の何れか１項に記載の信号生成装置。
指定された仮想聴取点の位置情報を取得する取得手段と、
前記取得手段により取得される位置情報が表す前記仮想聴取点の位置からの距離が第１の距離である特定の音源の音が、前記仮想聴取点の位置からの距離が前記第１の距離より大きい第２の距離である別の音源の音よりも明瞭になるように、前記仮想聴取点に対応する音響信号を生成する生成手段とを有することを特徴とする信号生成装置。
指定された仮想聴取点の位置情報を取得する取得工程と、
複数のマイクの少なくとも何れかにより収音される音の音源のうち特定の音源を、前記取得工程において取得される位置情報が表す前記仮想聴取点の位置と音源の位置とに基づいて決定する決定工程と、
前記複数のマイクによる収音に基づく収音信号から抽出される音源信号であって前記決定工程において決定される特定の音源に対応する音源信号と、前記収音信号に基づく前記特定の音源に対応しない周囲音信号とを、それぞれ異なる信号処理によって生成することにより、前記仮想聴取点に対応する音響信号を生成する生成工程とを有することを特徴とする信号生成方法。
前記決定工程において決定される特定の音源の位置情報を取得する第２取得工程を有し、
前記生成工程においては、前記取得工程において取得される前記仮想聴取点の位置情報と前記第２取得工程において取得される前記特定の音源の位置情報とに基づく信号処理によって前記音源信号が生成されることを特徴とする請求項１５に記載の信号生成方法。
前記生成工程における前記周囲音信号を生成するための信号処理は、前記周囲音信号に対応する音像をぼかす処理を含むことを特徴とする請求項１５又は１６に記載の信号生成方法。
コンピュータを、請求項１乃至１４の何れか１項に記載の信号生成装置の各手段として機能させるためのプログラム。