JP2011182135A

JP2011182135A - 三次元音場再現システム

Info

Publication number: JP2011182135A
Application number: JP2010043335A
Authority: JP
Inventors: Shiro Ise; 史郎伊勢; Takashi Chudo; 敬司中堂; Satoru Nakamura; 哲中村; Seigo Enomoto; 成悟榎本
Original assignee: Kyoto University; National Institute of Information and Communications Technology
Current assignee: Kyoto University; National Institute of Information and Communications Technology
Priority date: 2010-02-26
Filing date: 2010-02-26
Publication date: 2011-09-15

Abstract

【課題】境界音場制御の原理を用いたBoSC再生システムにおいて、できるだけ再現音場の質を低下させることなく、スピーカ数を減らすことのできる方法を提供する。
【解決手段】境界音場制御(BoSC)理論に基づき構成された、聴者の頭部を囲う複数のスピーカから成る三次元音場再現システムにおいて、a)所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、b)グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、c)基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、d)前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する。この方法により、一般のA/Dコンバータを用いて簡単に構成することのできる24ch二次音源システムを決定した。
【選択図】図３

Description

本発明は、原音場を物理的に忠実に記録・再現することのできる三次元音場再現システムである境界音場制御(Boundary Surface Control: BoSC)再生システムの音源配置の最適化技術に関する。

近年、5.1chサラウンドシステムなどの一般家庭への普及により、臨場感のある音による仮想空間を手軽に体験することが可能になった。しかし、より高度なヴァーチャル・リアリティの実現には、広い空間の音場をあるがままに記録し、再現することができる音場再現技術が必要不可欠である。

本願発明者は、境界音場制御(BoSC)の原理を用いることにより、原音場を物理的に忠実に記録・再現することのできる三次元音場再現システムとして没入型聴覚ディスプレイシステム(BoSC再生システム)を開発した。

BoSCの原理によれば、その領域を囲む境界面上の音圧と音圧勾配を制御することにより、３次元音場内の任意の領域内の音圧を制御することができる。ここで制御を厳密に行うためには、境界面における音圧・音圧勾配制御点を波長よりも十分短く離散化しておく必要がある。上記BoSC再生システムは、コンパクト化を目的として、境界面を聴者の頭部周辺とし、その内部での忠実な音場再現を目的としたものであり、64ch(チャンネル)の収音・再生が可能となっている(非特許文献１)。

BoSC再生システムは、システムの利用者(聴者)の頭部周辺の領域において音場を再現する4層の架台から成る楕円形のドーム部と、該ドーム部を支える4本の柱部で構成される。楕円形のドーム部の各層には合計62個のフルレンジスピーカが配置され、柱部には各2個のサブウーファースピーカが配置されている。境界面を構成するマイクロホンアレーはC80フラーレンを基に設計された構造を持ち、70個のマイクロホンより構成される。

特開2008-118559号公報

伊勢史郎,「キルヒホッフ−ヘルムホルツ積分方程式と逆システム理論に基づく音場制御の原理」,音響誌, Vol. 53(1997), pp. 706-713 岡田耕介, 川口孝幸, 榎本成悟, 伊勢史郎,「コンパクトな没入型聴覚ディスプレイの試作と評価」,日本音響学会誌,第62巻(2006)第1号, pp. 32-41

上記BoSC再生システムは、境界面を聴者の頭部周辺とするものの、全体としては1.5帖(約2.5m²)の簡易防音室に62.8chのスピーカアレイを実装した、比較的大規模なものになっている。

本発明が解決しようとする課題は、BoSC再生システムにおいて、できるだけ再現音場の質を低下させることなく、スピーカ数を減らすことのできる方法、及び、そのような方法を用いた結果作製されたBoSC再生システムを提供することである。

本発明者は、実用化の鍵となるBoSC再生システムの簡素化・可搬化を目指し、音源数を減らすことによる音場再現への物理的影響及び心理的影響を調べた。その中で、グラムシュミット(Gram-Schmidt)の直交化法を応用した制御音源配置の最適化手法とその変法により、BoSC再生システムに用いる二次音源の設置数とその配置を検討し、再現精度及び音源定位実験により評価を行うことにより、本発明を想到するに至った。

すなわち、上記課題を解決するために成された本発明は、境界音場制御理論に基づき構成された、聴者の頭部を囲う複数のスピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことを特徴とする。

また、本発明に係る三次元音場再現システムは、境界音場制御理論に基づき構成された、聴者の頭部を囲う複数のスピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことにより選択されたスピーカから成ることを特徴とする。

BoSC理論によると、原音場で収音された境界面上の音圧と粒子速度を再現音場においてそれぞれ等しくなるように二次音源から信号を出力すれば、図１の左の原音場内の領域V内の音場が右の再現音場内の領域V'に忠実に再現される。

BoSC理論では、原理的に非常に多数のマイクロホンとスピーカを必要とするが、頭部伝達関数(Head-Related Transfer Function: HRTF)の個人差の問題や受聴者の身体動作との矛盾といった問題もなく、音源の近似や境界の形状の制約もないという特長を持つ。

本発明に係る三次元音場再現システムでは、このBoSC理論に基づくシステムの基本的特長をほとんど損なうことなく、スピーカの数を減らすことができる。従って、家庭内等で使用することのできる小規模システムでありながら、BoSC理論に沿った高忠実度の音場再生システムを構築することができる。

特に、一般家庭への普及を考えた場合、スピーカ(二次音源)の数の減少は、スピーカ自体のコストに加え、各chの信号処理のための機器、特にA/Dコンバータやアンプのコストを考慮することが重要である。その観点から、本発明に係る方法により、広く用いられている24ch音響機器を用いることのできる24chスピーカシステムを実現することにより、BoSC再生システムの一般への普及に大きな弾みがつくものと考えられる。

BoSC理論による音場再生の原理を示す説明図であり、左側が原音場、右側が再現音場。本発明の一つの実施形態であるBoSC音場再現システムの外観図であり、(a)が録音システム、(b)が再生システム。総体法(Overall Selection)及び逐次法(Interative Selection)により選択された24ch配置及び40ch配置の二次音源配置図。各方法、chにおいて選択された音源配置における正確度(Accuracy)の計算機シミュレーション結果を示すグラフ。各方法、chにおいて選択された二次音源配置における、周波数による伝達関数行列の条件数の変化のグラフ。各方法、chにおいて選択された音源配置における、被検者を用いた定位試験結果を示すグラフ。定位試験の結果を、正答率、前後誤判定を取り除いた正答率、前後誤判定率、回答誤差のRMS値、前後誤判定を取り除いた回答誤差のRMS値のそれぞれの標本平均で表したグラフ。定位試験の結果を、基準音と同じ評価音を正確に判断できた確率を正答率として、各音源(Content)ごとに正答率の標本平均を求めた結果のグラフ。定位試験の結果を差度(difference grade)で表したグラフ。

以下、本発明の実施形態を詳細に説明する。

1. はじめに
本発明の一つの実施形態であるBoSC音場再現システムは、図２(a)に示すような録音システムと、図２(b)に示すような再生システムから成る。図２(a)の録音システムは、音響空間を囲む仮想的な境界面を構成するマイクロホンアレイから成り、三次元音場をできるかぎり均一に収録すること、組立時や設置時の構造的な安定性とを考慮して、C80フラーレン(Fullerene)の構造を基に、底部の10個の頂点を切り取った70個の頂点を持つ、直径約46cmの球形に近い構造とした。各頂点の位置にはそれぞれ1個の無指向性マイクロホン(DPA4060-BM)を設置している。図２(b)の再生システムはマイクロホンと同数の70個のスピーカユニットから成り、その基台は、約1.2m×1.6m×2.0mの防音ボックス内に設けられた木製の4層の架台からなる楕円形のドーム部と、ドーム部を支える木製の4本の柱部から構成される。4層の各架台には上からそれぞれ6個、16個、24個、16個のフルレンジユニット(Fostex FE83E)が設置され、4本の柱部には低域を補うためのサブウーファーユニット(Fostex FW108N)が各2個ずつ設置されている。またドーム部の各架台と柱部の内部は空洞になっており、架台自体が密閉型エンクロージャの役割を果たす。また受聴者の耳の高さは,フルレンジスピーカの数が最大となる3層目の架台の高さを想定している。

この再生システムにおける音場再生のためには、70個のスピーカアンプ及びオーディオインタフェース、再生用コンピュータとソフトウェアからなる大がかりな装置が必要であり、そのままでは一般家庭への普及には障害となる。一般家庭への普及も視野にいれた実用化には、システムのサイズ、形状、及びコストなどが課題となる。

このサイズ・形状に起因する導入への煩わしさやシステムの導入・維持にかかるコストは、音場再現に用いる二次音源数を減らし、その配置を単純化することで大幅に削減できる。そこで、音場再現に用いる二次音源数及びその配置について検討し、二次音源の減数及び配置の単純化によりBoSC音場再現システムの導入を容易にすることを目指し、BoSC音場再現システムに用いる二次音源配置の定量的評価法を検討した。

以下の説明では、まず、音場再現に用いる二次音源をグラムシュミットの直交化を用いて最適化する手法について述べ、この手法により選択された二次音源配置による音場再現への物理的影響及び心理的影響を計算機シミュレーションと主観評価実験により調べた結果について述べる。

2. 三次元音場再現システムの基礎
BoSC音場再現システムでは、収録に用いられるマイクロホンアレイとスピーカアレイのサイズ及び形状が異なるため、スピーカアレイから制御点までの伝達関数の逆フィルタ群を収録信号に畳み込んで出力することで、制御点において収録点と同じ音圧を再現する。

ここから、二次音源数M、制御点数Nの多チャンネル−多点制御逆システム(以下逆システム)を周波数領域で設計する手法について述べる。ここで、逆システムとはM×N個の逆フィルタ群の総称である。
二次音源iから制御点jまでの伝達関数をGji(ω)、入力信号をXj(ω)、観測信号をYj(ω)とすると、これらの関係は
Y(ω)=G(ω)H(ω)X(ω)
と表すことができる。ただしi(=1、2、…、M)は二次音源番号、j(=1、2、…、N)は制御点番号、ωは周波数であり、H(ω)は逆システムである。このとき、
Y(ω)=X(ω)
とするためには、I_NをN次の単位行列として、
G(ω)H(ω)=I_N (1)
を満たす安定な逆システムH(ω)が必要である。
二次音源数をM、制御点数をNとすると、M<Nのとき、以下のように最小二乗解を計算することで、実際の解をG(ω)部分空間に射影した近似的な解を計算することができる。
H(ω)=(G^T(ω)G(ω))^-1G^T(ω) (2)
G^T(ω)はG(ω)の複素共役転置行列である。

また本発明では単純正則化法により、逆フィルタの不安定性の緩和を行った。単純正則化法による逆フィルタの計算式を式(3)に示す。
H^reg(ω)={G^T(ω)G(ω)+β(ω)IN}^-1G^T(ω) (3)
ここで、H^reg(ω)は目的の逆システムを表す。また、βは正則化パラメータと呼ばれ、各計算周波数ごとに最適化する必要がある。

3. 二次音源配置の最適化
3.1 グラムシュミットの直交化法を応用した音源配置最適化アルゴリズム
グラムシュミットの直交化法を応用した音源配置選択アルゴリズムについて、総体法と逐次法について述べる。

3.1.1 基本となる最適化アルゴリズム
まず、どちらの手法においても基本となる、Gram-Schmidtの直交化法を応用した音源配置選択アルゴリズムについて述べる。空間にN_cヶ所の音源配置候補がある場合、この空間に何個の音源をどう配置して原音場を再現するかを考える。各音源配置候補の伝達インピーダンスベクトルz_iを
z_i=[z_1i…z_Mi]^T (4)
とする。z_ji(i=1、2、…、N_c、j=1、2、…、M)はi番目のスピーカからj番目の制御点までの伝達インピーダンスであり、Mはセンサ数を、^Tは共役転置を表す。また、N_c個の音源候補に対する伝達インピーダンスベクトルの集合を
τ={z₁、…、z_Nc} (5)
とする。

まず、第1ステップとして、第1個目の音源を任意に選択する。このステップで、未使用の音源候補の部分集合をτ₁とする。初期状態では、τ₁=τである。この音源候補の集合τ₁の中から、任意のz_i∈τ₁を選び、このベクトルに対応する音源を第1番目の音源とし、そのベクトルをz^₁とする。また、第1番目の音源に対する正規直交ベクトルv₁は
v₁=z^₁/|z^₁| (6)
とする。

続いて、第2ステップ以下第nステップにおける音源の選択法について述べる。第n−1ステップまでの過程で、すでにn−1個の音源が選択されており、これらの音源に対応する正規直交ベクトルも求まっているものとする。この正規直交ベクトルの集合ν(n−1)を
ν(n−1)=v₁、…、v_n−1 (7)
とする。一つ前のステップである第n−1ステップにおいて未使用である伝達インピーダンスベクトルの集合をτ_n−1とすると、第nステップではτ_n−1の要素のうち、これまで決定された正規直交ベクトルと直交する成分が一番大きいベクトルを選択する。集合τ_n−1中の任意のベクトルz_iの正規直交ベクトルv_j∈ν(n−1)上への射影p_jは、
p_j=(v_j ^Hz_i)v_j (8)
と表される。これを用いて、複数の正規直交ベクトル{v₁、…、v_n−1}によって張られる平面へのz_iの射影pは、次式のように書ける。
p=Σ[j=1〜n-1]p_j (9)
以上より、ベクトルz_iの成分のうち、この平面に直交する成分rは、
r=z_i−p (10)
となる。第nステップでは、rのノルムが最大となるよう第n番目のベクトルz^_nを決定する。すなわち、
z^_n=arg max[z_i∈τ_n−1]J(z_i) (11)
ここで最大化される評価関数J(z_i)は、次式で定義される。
J(z_i)=|r| (12)
また、第n番目の正規直交ベクトルv_nは次式により定義される。
v_n=r/|r| (13)
最大化された評価関数は、次式のように書くものとする。
J^_n=J(z^_n) (14)

この過程を逐次繰り返すことにより、各ステップで最も線形独立性の高いベクトルを持つ音源が一つずつ選択されていく。
各ステップにおいて採用された音源に対する評価関数J^_nは伝達インピーダンスベクトルの線形独立性を示す尺度である。そして、採用される音源が増えるに従い、線形独立性は減少する、つまりJ^_nは減少する。そこで、このJ^_nにあらかじめ閾値J^_thrを設けておき、ステップ数の増加に伴いJ^_nが減少して、この閾値J^_thrを下回った時点で音源選択を止め、この時点で選択されていた音源を制御に必要な音源とする。

3.1.2 BoSC音場再現システムへの適用
前節で述べたアルゴリズムは基本的なものであり、BoSC音場再現システムへ実装する場合はこれを拡張して考える必要がある。
総体法ではスピーカ選択のためのパラメータとして、式(15)によるJ^_avgを用いる。
J^_avg=(1/K)(a₁|rω₁|+…+a_K|rω_K|) (15)
ただし、ω₁、…、ω_Kはそれぞれ制御対象とする離散周波数を、a₁、…、a_Kはω₁、…、ω_Kに対する重み係数を表す。本発明ではa₁=…=a_K=1とした。すなわち、式(11)は式(16)となる。
z^_n=arg max[z_i∈τn^₁]J_avg(z_i) (16)
また、スピーカ選択を終了するパラメータとしては、式(17)で表されるJ^_minを用いる。
J^_min=min(a₁|rω₁|、…、a_K|rω_K|) (17)
すなわち、J^_min<J^_thrとなったときにスピーカ選択を終了する。

対して、今回比較対象とする逐次法では、制御対象とする離散周波数の低いものから前節で述べられたアルゴリズムを適用してスピーカを選択していく。まずは制御対象とする最低離散周波数であるω₁において基本アルゴリズムを適用し、J^_n<J^_thrを満たすスピーカを二次音源として選択する。次のステップでは、前ステップで選択されたスピーカは既に選択されているものとして、ω₂においてJ^_n<J^_thrを満たすスピーカを選択する。こうしてω_Kを対象とするステップまでスピーカ選択を実行する。

ここで問題となるのは、閾値J^_thrの設定である。この閾値はシステムのダイナミックレンジを考慮して決定する必要がある。本発明では、両手法において同じ二次音源数で比較をするために閾値を調整した。

3.2 二次音源配置の選択
上で述べたアルゴリズムにより、音場再現に用いる二次音源数及びその配置を検討した。本発明では、真正面に位置するスピーカを初期選択音源とし、制御対象とする離散周波数はオクターブ刻みで80.5120Hzとした。本発明で用いる二次音源配置は総体法及び逐次法により選択された24ch配置、40ch配置の、計4配置とした。

このようにして選択された二次音源配置を図３に示す。この図は音場再現システムの俯瞰図で、図の下方向が被験者にとって正面方向を表している。また、白丸が音場再現システムに設置されている全スピーカを、二重丸が初期選択スピーカを、黒丸が選択されたスピーカを表している。

図３右側上下の40chシステムでは、総体法と逐次法で大きく変わるところはなく、二次音源（スピーカ）は次のような配置となっている。すなわち、境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 前記楕円形ドーム部の第1層の6個と、
b) 第1層の下部にある第2層の16個と、
c) 第2層の下部である第3層及び第4層の40個のうち聴者の正面の1個、背面の1個及び左右の16個と
の計40個のスピーカから成る。

また、図３左側上下の24chシステムでも、総体法と逐次法で大きく変わるところはなく、二次音源（スピーカ）は次のような配置となっている。すなわち、境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 前記楕円形ドーム部の第1層の6個と、
b) 第1層の下部にある第2層の16個のうち左右各3個のそれぞれ、及び前後5個又は6個の計11個又は12個と、
c) 第2層の下部である第3層及び第4層のうち聴者の正面の1個、及び左右の6個又は5個の計7個又は6個と
の計24個のスピーカから成る。

4. 音場再現への影響の定量的評価
4.1 物理的影響の評価
前章で選択された各々の二次音源配置による音場再現への物理的な影響を評価するため、物理的指標として、式(18)による正確度を定義して、計算機シミュレーションでこれを求め、評価を行った。
Accuracy=log₁₀(Σ|P_p(ω)|²/Σ|P_p(ω)−P_r(ω)|²) (18)
ただし、P_p(ω)は原音場の音圧、P_r(ω)は再現音場の音圧を表す。各二次音源配置におけるAccuracyの計算結果を図４に示す。計算対象周波数は20Hz刻みで20.20kHzまでとし、計算点はマイクロホンアレイの中心点、また実音源は正面方向にあるものとして求めた。

選択された二次音源数ごとに見ると低域での再現精度の差に顕著な差が見られるが、総体法と逐次法の間ではあまり差は見られない。

また、行列の縦ベクトルの線形独立性を示す指標として、「条件数」(Cond)が知られている[例えば、武者利光,岡本良夫,「逆問題とその解き方」, p. 145,オーム社,1992]。行列Aの条件数Cond(A)は式(19)で求められる。
Cond(A)=μ_max(A)/μ_min(A) (19)
ただし、μ_max、μ_minはそれぞれ行列Aの最大特異値及び最小特異値を表す。条件数は、逆システム設計時に収録した伝達関数に含まれる雑音信号の拡大倍率と捉えることができ、条件数が大きいほどその逆システムでは雑音信号が拡大されて再生されるおそれがある。つまり、条件数が大きいほど不安定である、といえる。

選択された二次音源配置による伝達関数行列を比較するため、制御対象となる離散周波数ごとに各二次音源配置における伝達関数行列の条件数を求めた。結果を図５に示す。選択される二次音源数が多いほど、条件数が大きいことがわかる。どちらの手法においても、グラムシュミットの直交化によって線形独立性の高いスピーカから二次音源として選択されるため、選択された二次音源数が多くなるにつれて線形独立性は低下するためである。

また、総体法と逐次法とを比較すると、総体法のほうが条件数は小さく、またその差は選択された二次音源数が少ないほど顕著である。よって、選択された二次音源数が少ないほど、両手法による差は大きくなると考えられる。
さらに、図４と図５を見比べると、Accuracyと条件数が良い対応を示していることがわかる。

4.2 心理的影響の評価
前章で選択された各々の二次音源配置による音場再現への心理的影響について評価を行うため、20歳代の聴力が正常な男女12名(男性8名、女性4名)を対象として、定位実験及び聴感実験を行った。

4.2.1 定位実験
音源として3秒間のピンクノイズを各二次音源配置に対応する逆システムで畳み込んだものを用い、水平面360度方向からの音を15度刻みで提示して、回答させた。提示順序は、ラテン方格を用いた実験計画法[秋田剛,「実験研究におけるサンプルサイズ−実験計画法と分散分析の適用−」,日本建築学会「建築空間における感覚・知覚心理シンポジウム(第７回)被験者は何人必要か？心理実験・調査研究におけるサンプリング」資料,別1-別4, 2009]に従い、順序効果を打ち消すよう無作為化を行い、また被験者1名につき本試験を2回ずつ行うことで、本試験を計24回行った。

被験者全員の結果をまとめたものを図６に示す。横軸は提示角度を、縦軸は被験者の回答角度を表し、図中の円の面積は回答した回数を表し、円が実線上にある場合は正解を、点線上にある場合は前後誤判定を表している。
左と右とを間違えるような大きな間違いは無いことが見てわかる。

定位実験の結果から、各二次音源配置ごとに正答率、前後誤判定率、回答誤差のRMS値を算出した。回答誤差のRMS値は、前後誤判定に大きく左右される(例えば、真正面と真後ろを誤認すると、その回答誤差は180度にもなる)。そのため、前後誤判定を取り除いた回答誤差のRMS値についても算出した。また、前後誤判定は個人差が大きいパラメータであることが知られているので、正答率についても前後誤判定を取り除いたものを算出した。

これらについて有意水準を0.05として統計解析を行った。統計解析の手順としては、はじめに等分散性を検定するためにバートレット(Bartlett)検定を行う。ここで各水準の母分散に有意差がなければ分散分析を、有意差があればフリードマン(Friedman)検定により、母平均の差の検定を行う。

バートレット検定の結果、等分散性が仮定できたので、パラメトリック検定により母平均の差の検定を行った。本発明では、定位能力には個人差があるとの見解のもと、反復測定による一要因分散分析を行った。

有意水準0.05においては、どの値においても、比較した5群の母平均に有意な差は見られなかった。このことから、比較した二次音源数(24ch、40ch)まで二次音源数を減らしても、定位精度には大きな影響を与えないということがわかった。

つぎに、正答率、前後誤判定を取り除いた正答率、前後誤判定率、回答誤差のRMS値、前後誤判定を取り除いた回答誤差のRMS値それぞれの標本平均を図７に示す。エラーバーは95%信頼区間を表す。標本平均で比較すると、正答率は、40ch再現では24ch再現に比べて改善され、62ch再現とほぼ同じ水準となっている。また選択手法で比較すると、逐次法のほうがわずかではあるが良い結果が得られた。ただし先に述べたように、有意差は見られなかった。

回答誤差のRMS値については62ch再現における値が大きく、また総体法で比較すると24ch再現よりも40ch再現のほうが大きい値をとっており、これらは推測される結果と異なる。しかし、前後誤判定を取り除いた差の二乗平均平方根(RMS of Difference(FBC))を見ると、その差はほとんど無くなっていることがわかる。このことから左のグラフ(RMS of Difference)に見られる差は前後誤判定率の差の寄与が大きいと推測できる。

そこで、二次音源配置と被験者を要因として前後誤判定率の二要因分散分析を行ったところ、二次音源配置間では有意差は見られなかったが、被験者間では有意差が見られた。このことから、前後誤判定率に見られるわずかな差は、二次音源配置に起因するものではなく、個人差によるものであると言える。

4.2.2 聴感実験
聴感実験は、ITU-RBS.1116[ITU-R Recommendation BS.1116, "Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems", Geneva 1994](以下ITU勧告)を参考に、隠れ基準付き三刺激二重盲検法に基づいて行った。隠れ基準付き三刺激二重盲検法では、基準音(Ref.)に対する、評価音(A, B)の違いを評価する。ITU勧告では、評価音AとBのうち、基準音と同一であると感じた方に5.0、もう一方に劣化の度合いによって評点するとされているが、本実験では、基準音と同一と感じた方を回答した上で、他方を評価させた。評点の基準としてはITU勧告の評価基準を用いた。実験に用いる音源としては、音楽、音声、環境音の3種類、各15秒程度を抽出して用いた。これらに各二次音源配置に対応する逆システムを畳み込み、再生用の信号を作成した。

基準音と同じ評価音を正確に判断できた確率を正答率として、各音源ごとに正答率の標本平均を求めた。結果を図８に示す。二次音源数で比較すると、40ch再現の場合に比べて24ch再現のほうが音の違いを認知しやすく、正答率が高くなっている。特に、音楽を用いた場合の24ch再現における正答率は95%以上と著しく高い。

また、音源で比較しても違いが見られる。音楽、音声では24ch再現の場合と40ch再現の場合とで顕著な差が見られるが、環境音ではほとんど差が見られない。

次に、評価音の点数から隠れ基準音の点数を引いた値を評価音の差度(X_i)として、音源ごとに被験者間で式(20)を用いて点数の正規化を行った。X~_si、S_siは被験者の1試験(Session)ごとの平均値と標準偏差、X~_s、S_sは音源ごとの全被験者の平均値と標準偏差である。
Z_i=((X_i−X~_si)/S_si)S_s+X~_s (20)

24回の実験結果を図９に示す。図の縦軸は各音源、二次音源配置に対して得られた差度を正規化した点数の平均値である。エラーバーは95%信頼区間を示す。いずれの項目においても、40ch再現では標本平均が−1.0以上であり、基準音である62ch再現との違いはあまり気にならない程度であると言える。

この結果について統計的な分析を行うために、以下の手順で検定を行った。まず、分散分析を行うには、要因内の水準間で等分散性を示す必要がある。本分析においてはバートレット検定によって等分散性を確認した。等分散性が仮定できる場合には、分散分析により母平均を、有意差が見られた場合にはフリードマン検定によって母集団の中央値を比較する。バートレット検定の結果、音源を要因とした水準間の分散には有意水準α=0.05において有意差が見られた。そこで、音源ごとに二次音源配置選択アルゴリズムと二次音源数を要因とした群間でそれぞれ等分散性を検定したところ、等分散性が仮定できた。そこで、アルゴリズムと二次音源数を要因とし、二要因とも対応あり・繰り返しありの二要因分散分析を行った。その結果、二次音源数の主効果には有意差があり、選択アルゴリズムの主効果と二次音源数とアルゴリズムの交互作用には有意差がないことが分かった。また、40ch再現の標本平均を比較すると有意差はないものの、音楽と音声では逐次法よりも総体法の方が良く、環境音では逐次法の方が僅かに良かった。

評価音について評点をつける際に、音のどの部分に違いを感じたか、またはどのような違いを感じたかを併せて自由に記述させた。その結果、「高音域の音が足りない、こもって聞こえる」などの高音域への影響を示唆する回答、「上方向からの音が減る」、「鳥の鳴き声が異なる、音の聞こえてくる方向が変わる」などの上下方向の定位への影響を及ぼす回答が得られた。しかし、二次音源配置の違いを明確にするような回答は得られなかった。また、音楽については、「音声や環境音よりも違いを見つけやすかった」との感想を多く得た。これは、コンテンツ間での正答率の差や差度の値がより小さいこととも一致し、音源の種類によって評価の感度が変わることを示している。

5. 結論
本発明では、BoSC音場再現システムにおける二次音源配置について、グラムシュミットの直交化を応用した制御音源配置の最適化手法とその変法を用いて4通りの音源配置を選択し、二次音源配置の違いが再現音場にどのような物理的影響及び心理的影響を与えるかを計算機シミュレーション及び主観評価実験によって調べた。

物理的影響については、式(18)により定義した正確度、及び式(19)により定義される条件数を計算機シミュレーションにより求め、考察した。その結果、正確度及び条件数では、特に低域で、二次音源数の違いが顕著にあらわれた。しかし、今回用いた2つの選択手法、総体法と逐次法には顕著な差は見られなかった。また、周波数ごとに見たときの正確度と条件数はよく対応していることがわかった。

心理的影響については、定位実験と聴感実験を行った。
定位実験では正答率・前後誤判定率・回答誤差のRMS値によって音場再現への心理的影響を評価した。分散分析の結果、これらの値には有意差は見られなかったが、標本平均で正答率を62ch再現の場合と比較すると、40ch再現ではその差はほとんどないが、24ch再現では低かった。また、回答誤差のRMS値では62ch再現における値が大きかったが、これは前後誤判定率の差によるものであると考えられる。総体法と逐次法による音源配置には差はほとんど見られなかった。

聴感実験では、隠れ基準つき三刺激二重盲検法により音場再現への心理的影響を評価した。実験の結果より、聴感上には特に24ch再現の場合において劣化が感じられることが分かった。総体法と逐次法による音源配置にはほとんど差は見られなかった。さらに、自由記述回答の結果について考察したところ、高音域の再現性や再現音場の上下方向の定位への影響が示唆された。

結論としては、正確度と条件数から調べた物理的影響についてはその差は大きかった。しかし、主観評価実験によって調べた心理的影響の観点から述べると、定位精度への影響よりは聴感上の影響の方が大きく、40chまでは二次音源を減らしても音場再現への影響は少ないと言えることがわかった。ただし、高音域の再現性や再現音場の上下方向の定位・拡がりへの影響が示唆された。また、二次音源配置の最適化手法として比較した総体法と逐次法については、どちらの手法がより適しているかということについては決定できなかった。

Claims

境界音場制御理論に基づき構成された、聴者の頭部を囲う複数のスピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことを特徴とする三次元音場再現システムの音源配置最適化法。
グラムシュミット直交化評価値を計算する際、複数の制御対象周波数を全て評価関数に含めておくことを特徴とする請求項１に記載の三次元音場再現システムの音源配置最適化法。
グラムシュミット直交化評価値を計算する際、評価関数に含まれる複数の制御対象周波のそれぞれに重み付け係数を付与することを特徴とする請求項２に記載の三次元音場再現システムの音源配置最適化法。
グラムシュミット直交化評価値を計算する際、複数の制御対象周波数を低い周波数から順に評価関数に含め、各周波数において前記選択を行うことを特徴とする請求項１に記載の三次元音場再現システムの音源配置最適化法。
境界音場制御理論に基づき構成された、聴者の頭部を囲う複数のスピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことにより選択されたスピーカから成ることを特徴とする三次元音場再現システム。
境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことにより選択された40個のスピーカから成ることを特徴とする三次元音場再現システム。
境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 所定の基準スピーカと各評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
b) グラムシュミット直交化評価値の高い順に評価対象スピーカを選択し、
c) 基準スピーカと選択された評価対象スピーカから成るサブシステムと未選択評価対象スピーカの間のグラムシュミット直交化評価値を計算し、
d) 前記b)及びc)のステップを繰り返し、該グラムシュミット直交化評価値が所定の閾値を下回った時点で選択を停止する
ことにより選択された24個のスピーカから成ることを特徴とする三次元音場再現システム。
境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 前記楕円形ドーム部の第1層の6個と、
b) 第1層の下部にある第2層の16個と、
c) 第2層の下部である第3層及び第4層の40個のうち聴者の正面の1個、背面の1個及び左右の16個と
の計40個のスピーカから成ることを特徴とする三次元音場再現システム。
境界音場制御理論に基づき構成された、楕円形のドーム部に配置されたフルレンジスピーカと該ドーム部を支える4本の柱部に配置されたサブウーファースピーカから成る三次元音場再現システムにおいて、
a) 前記楕円形ドーム部の第1層の6個と、
b) 第1層の下部にある第2層の16個のうち左右各3個のそれぞれ、及び前後5個又は6個の計11個又は12個と、
c) 第2層の下部である第3層及び第4層のうち聴者の正面の1個、及び左右の6個又は5個の計7個又は6個と
の計24個のスピーカから成ることを特徴とする三次元音場再現システム。