JP2008066872A

JP2008066872A - 音空間再合成提示システム

Info

Publication number: JP2008066872A
Application number: JP2006240553A
Authority: JP
Inventors: Yoichi Suzuki; 陽一鈴木; Shuichi Sakamoto; 修一坂本; Satoru Hongo; 哲本郷
Original assignee: Tohoku University NUC; Institute of National Colleges of Technologies Japan
Current assignee: Tohoku University NUC; Institute of National Colleges of Technologies Japan
Priority date: 2006-09-05
Filing date: 2006-09-05
Publication date: 2008-03-21
Anticipated expiration: 2026-09-05
Also published as: JP4956722B2

Abstract

【課題】
遠隔地などの他の場所で音空間の精密な再生を聴取者の頭部運動に追随して行えるようにする音空間再合成提示システムを提供する。
【解決手段】
多数のマイクロホンを取り付けた頭部モデル11を用いて音響信号を収音する信号収音手段10と、信号収音手段10とは離れた地点にいる聴取者の頭部の動きを検知するセンサー31と、前記音響信号を基にして聴取者の頭部位置および聴取者固有の特性に応じた信号処理を行う信号合成手段20と、信号合成手段20で信号処理された音響信号を前記聴取者が受聴できるようにヘッドホン32などの音声出力装置へ出力する信号再生手段30とを備えることにより、聴取者固有の頭部伝達関数を実現することが可能となり、複数の聴取者へ高臨場感の音空間の再現を提供することが可能になる。
【選択図】図１

Description

本発明は、遠隔地などの他の場所で音空間の精密な再生を聴取者の頭部運動に追随して行うシステムを構築する技術に関するものである。

近年、ただ単に音を再生するのではなく、5.1 チャネルサラウンドシステム等により音源の位置や場の広がり感などの音空間をも再現することに関心が集まっている。音空間を再現することができれば、自宅にいながら劇場やスタジアムにいるような臨場感を味わうことができる。

われわれ人間は、左右２つの耳を用いて音を聞き取ることにより音源の位置を知覚する。顔や肩、耳介による反射、回折により、同じ音を発する音源であっても音源の位置が変化すると両耳に入力される音の周波数特性、両耳間レベル差（Interaural Level Difference: ILD）や両耳間位相差（Interaural Phase Difference: IPD）が変化し、これらを手がかりに人間は音源の位置を判断することができる。これらの手がかりは顔や肩、耳介の寸法や形状により変化するため、人それぞれで異なる。つまり真の音空間の情報を他所にいる聴取者に伝えるためにはただ単に２つの受音点を用いて音を収録し、それをそのまま伝えるのではなく、収録した音に対し聴取者それぞれに適した処理をかけて提示しなければならない。これらの手がかりを伝達特性として表した関数を頭部伝達関数（Head-Related Transfer Function:HRTF）と呼ぶ。

非特許文献１では、テレヘッド（Tele Head）と呼ばれる聴取者そっくりの形状をした可動式ダミーヘッドを収音対象とする音空間に置き、遠隔地にいる聴取者の頭部の動きに合わせ、音空間の再生を行った。しかしこの方法ではダミーヘッドの頭部に運動を行わせるため、サーボモータやプーリーによる騒音が収録音に加わってしまう。また聴取者一人一人にそっくりのダミーヘッドを作成しなければならず、装置が大掛かりなものになってしまうという欠点がある。一方、非特許文献２では、球体の円周上へ等間隔にマイクロホンを配置し、その球体を用いて収音を行う方法を提案した。この方法では、聴取者の各耳の位置に最も近い１個ないし２個のマイクロホンの入力を用いて収音を行う。しかし、このシステムは信号の再現度を聴取者のHRTF ではなく剛球のHRTFを用いて評価し構築しているため、人間が提示された音を聴いた場合において音像の位置の再現度が良くなる保証がないという問題点がある。

I. Toshima et al., "A streerable dummy head that tracks three-dimensional head movement: TeleHead," Acoust. Sci. & Tech 24, 5, pp.327-329 (2003) V. Ralph Algazi et al., "Motion-Tracked Binaural Sound," J. Audio Eng. Soc., Vol. 52, No. 11, pp.1142-1153 (2004 Nov.)

上記で述べたように、非特許文献１では、ダミーヘッドの頭部に運動を行わせることにより、サーボモータやプーリーによる騒音が収録音に加わってしまうため、音空間の精密な再生ができなくなること、および聴取者一人一人にそっくりのダミーヘッドを作成しなければならず、装置が大掛かりなものになってしまうという問題点がある。また非特許文献２では、信号の再現度を聴取者のHRTF ではなく剛球のHRTFを用いて評価し構築しているため、人間が提示された音を聴いた場合において音像の位置の再現度が良くなる保証がないという問題点がある。

本発明は、上記問題を解決するため、多数のマイクロホンを取り付けた頭部モデルを収音に用いて聴取者が正面を向いた方向に合わせマイクロホンに入力された信号の加算方法を変化させ、聴取者のHRTF に合うように信号処理を行うことで、頭部モデルを固定したままで聴取者の聴感に合致した音を提示し、遠隔地における音空間の精密な再生を頭部運動に追随して行えるようにするシステムを提供することを目的とする。

上記目的を達成するため、請求項１に記載の音空間再合成提示システムは、聴取者の頭部運動に追随して音空間の精密な再生を提示するシステムであって、多数のマイクロホンを取り付けた頭部モデルを用いて音響信号を収音する信号収音手段と、前記信号収音手段とは離れた地点にいる聴取者の頭部の動きを検知するセンサーと、前記音響信号を基にして聴取者の頭部位置および聴取者固有の特性に応じた信号処理を行う信号合成手段と、前記信号合成手段で信号処理された音響信号を前記聴取者が受聴できるように音声出力装置へ出力する信号再生手段とを備えたことを特徴とする。ここで音声出力装置には、ヘッドホンやイヤホンマイク、ならびに補聴器などで用いられている骨伝導イヤホンマイクなどがある。

請求項２に記載の音空間再合成提示システムは、前記頭部モデルが、周の長さが最も長い額部および耳介部などを備えた頭部、ならびに胴体部から構成され、水平面上において対称となるような軸対称型の形状であるとともに、音響信号を収音するためのマイクロホンが複数取り付けられていることを特徴とする。

請求項３に記載の音空間再合成提示システムは、前記信号合成手段が、前記頭部モデルに取り付けた全てのマイクロホンで収音した音響信号をマイクロホン位置による音響的特性の変化を示す伝達関数として導出する導出手段と、該伝達関数と前記センサーで取得した聴取者の頭部位置の情報とに基づき、聴取者の頭部位置および聴取者固有の特性に応じた２チャンネルの音響信号を合成する変換手段とを備えたことを特徴とする。

請求項４に記載の音空間再合成提示システムは、前記導出手段が、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として時計回り方向に音源のある水平角をθ とし、そのθを変数として、前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(θ) (i = 1〜n、n はマイクロホン数)を導出することを特徴とする。

請求項５に記載の音空間再合成提示システムは、前記導出手段が、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として音源のある仰角をφとし、そのφ を変数として前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(φ) またはH_f,_i(θ,φ) ( i = 1〜n、n はマイクロホン数)を導出することを特徴とする。

請求項６に記載の音空間再合成提示システムは、前記変換手段が、ある周波数f において前記センサーで取得した聴取者の頭部位置の情報に基づいた適切な重み係数z_f,_i ( i = 1〜n、n はマイクロホン数)を用いて、前記導出手段で導出した伝達関数を重み付けし、重み付けした後の伝達関数を演算処理することにより聴取者の左右の頭部伝達関数を合成することを特徴とする。

請求項７に記載の音空間再合成提示システムは、前記重み係数z_f,_i が、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の水平角が0°〜360°の範囲に対応した重み係数として予め導出されることを特徴とする。ここで重み係数の算出方法として、例えばLevenberg-Marquardt 法などを用いる。

請求項８に記載の音空間再合成提示システムは、前記重み係数z_f,_i は、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の仰角が -90°〜90°の範囲に対応した重み係数として予め導出されることを特徴とする。したがって重み係数z_f,_i は、水平角と仰角の組合せに対応した重み係数として導出される場合もある。また、ここで重み係数の算出方法として、例えばLevenberg-Marquardt 法などを用いる。

請求項９に記載の音空間再合成提示システムは、前記重み係数z_f,_i が、聴取者固有の音の回折や反射の性質などの特性に応じて聴取者ごとに導出されることを特徴とする。

請求項１に係る発明によれば、ある環境の音空間で多数のマイクロホンを取り付けた頭部モデルを用いて音響信号を収音して各個人に合わせた信号処理を行うことで、遠隔地などの他の場所で前記音空間を複数の人間が同時に聴取することが可能となり、バーチャルリアリティシステムの構築を容易にすることが可能になる。また音源の位置や場の広がり感などの音空間をも再現することで、聴取者は例えば自宅にいながら劇場やスタジアムにいるような臨場感を味わうことができるようになる。
また非特許文献１のダミーヘッドを用いた先行技術と比較して、聴取者一人一人のダミーヘッドを作成する必要がなくなり、システム構成が簡素化されること、およびダミーヘッドの頭部に運動を行わせるためのサーボモータやプーリーによる騒音が収録音に加わってしまうことがなくなり、静音化が図れる効果がある。

請求項２に係る発明によれば、多数のマイクロホンを取り付けて収音を行う頭部モデルには、頭部のみではなく胴体部なども備えることで、音響信号の反射や回折も考慮に入れて音源の位置を知覚することが可能となり、聴取者がどの方向から音が到来しているのか正確に判断できるようになる。また頭部モデルを水平面上において対称となるような軸対称型の形状とすることで、より少ないデータ数で聴取者の頭部位置が様々な角度を変えることに対応できるようになる。

請求項３に係る発明によれば、頭部モデルに取り付けた全てのマイクロホンで収音した音響信号を伝達関数として導出し、該伝達関数を聴取者の頭部位置および聴取者固有の特性に応じた音響信号に合成することで、聴取者の頭部伝達関数を実現することが可能となり、複数の聴取者へ高臨場感の音空間の再現を提供することが可能になる。

請求項４または請求項５に係る発明によれば、頭部モデルのもつマイクロホン位置における伝達関数を音源位置に対する水平角や仰角を変数として導出することで、音源方向を正確に把握できるようになり、聴取者の頭部伝達関数を合成することが可能になる。

請求項６に係る発明によれば、聴取者の頭部位置の情報に基づいた適切な重み係数z_f,_iを用いて、伝達関数を重み付けし演算処理することで、聴取者が異なっても各個人の頭部伝達関数を実現することが可能となり、複数の聴取者へ高臨場感の音空間の再現を提供することが可能になる。

請求項７または請求項８に係る発明によれば、前記重み係数z_f,_iについて、聴取者の頭部位置が様々な角度を変えることに対応して、様々な角度（水平角や仰角）ごとに予め導出しておくことで、聴取者の頭部伝達関数の計算時間を短縮することが可能となり、遠隔地の聴取者へ高臨場感の音空間を再現する際の遅延時間を低減することができる。

請求項９に係る発明によれば、前記重み係数z_f,_iについて、聴取者固有の音の回折や反射の性質などの特性に応じて聴取者ごとに導出することで、聴取者が異なっても各個人の頭部伝達関数を実現することが可能となり、複数の聴取者へ同時に高臨場感の音空間の再現を提供することが可能になる。

次に、本発明の実施の形態に係る音空間再合成提示システムについて図面に基づいて説明する。なお、この実施の形態により本発明が限定されるものではない。

図１は、本発明の実施の形態に係る音空間再合成提示システムの構成を示す図である。図１に示すように、音空間再合成提示システムは、聴取者の頭部運動に追随して音空間の精密な再生を提示するシステムであって、多数のマイクロホンを取り付けた頭部モデル11を用いて音響信号を収音する信号収音手段10と、信号収音手段10とは離れた地点にいる聴取者の頭部の動きを検知するセンサー31と、前記音響信号を基にして聴取者の頭部位置および聴取者固有の特性に応じた信号処理を行う信号合成手段20と、信号合成手段20で信号処理された音響信号を前記聴取者が受聴できるようにヘッドホン32などの音声出力装置へ出力する信号再生手段30とを備えている。

本システムでは、多数のマイクロホンを持った頭部モデルにより収音を行い、各マイクロホンに入力された音をもとに聴取者がどの方向から音が到来しているのか正確に判断できるように信号処理し聴取者に提示する。例えば図１に示すように頭部モデル11を劇場に設置しておき、多数のマイクロホンの入力を適切に信号処理し他所にいる聴取者に提示することより、聴取者はあたかも劇場にいるかのような臨場感のある音を聴取することができる。以降、この多数のマイクロホンを持った頭部モデルをSENZI（Symmetrical object with ENchased ZIllion microphones）と呼ぶ。

収音を行うためのSENZI の頭部、胴体部分の製作にあたっては、高研社製ダミーヘッドのSAMRAI の頭部最上部、額（周の長さが最も長い所）、首、胴の寸法をもとにしている。頭部のみではなく、胴体部分の反射や回折も音源の位置を知覚するために重要な役割を果たすため胴体部分も作成している。また、対称性をもたせることでより少ないデータ数で聴取者の頭部の角度の変化に対応できるようにするため、水平面上においてどこから見ても対称となるような軸対称な形状とする。さらに、SAMRAI の耳介を真後ろから見た形状をもとに耳介部分の製作も行い、頭部の前後左右４方向に取り付ける。頭部、耳介部分および肩は、例えば発泡スチロールを使用するとともに、胴の部分は、例えばポリウレタンを使用して作成することが可能である。図２にSENZIの寸法、図３にSENZIの全体像を示す。

また信号合成手段20は、頭部モデル11に取り付けた全てのマイクロホンで収音した音響信号をマイクロホン位置による音響的特性の変化を示す伝達関数として導出する導出手段と、該伝達関数とセンサー31で取得した聴取者の頭部位置の情報とに基づき、聴取者の頭部位置および聴取者固有の特性に応じた２チャンネルの音響信号を合成する変換手段と備えている。すなわち、SENZI を用いて収音を行い音空間を再現する場合、SENZIの頭部および胴体の形状が聴取者のものと異なるため、収音した音声をそのまま提示しても音の回折や反射の性質が異なってしまい、聴取者に正確な音像を与えることはできない。よって、SENZI に取り付けたマイクロホンの位置における伝達関数を何らかの方法で聴取者のものへ変換する必要がある。非特許文献３では、ニューラルネットワークを用いて伝達関数の変換を行っているが、本発明ではより計算を簡易にするため、SENZI の多数のマイクロホンで収音を行いそれらの信号に適切な係数を用いて重み付けをし、加算して提示することにより聴取者本人が音源の位置を正確に認識できる信号を合成する。つまり、多数マイクロホンの位置における伝達関数を重み加算することにより、聴取者のHRTF を合成するものである。

前記導出手段では、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として時計回り方向に音源のある水平角をθ とし、そのθを変数として、前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(θ) ( i = 1〜n、n はマイクロホン数)を導出する。ここで周波数f については、例えば標本化周波数48 kHz で8192 ポイントの周波数解析を行った場合、48k/8192 = 5.86Hzの間隔で伝達関数H_f,_i(θ)が得られる。

また前記導出手段では、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として音源のある仰角をφとし、そのφ を変数として前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(φ) またはH_f,_i(θ,φ) ( i = 1〜n、n はマイクロホン数)を導出する場合もある。

前記変換手段では、ある周波数f においてセンサー31で取得した聴取者の頭部位置の情報に基づいた適切な重み係数z_f,_i( i = 1〜n、n はマイクロホン数)を用いて、前記導出手段で導出した伝達関数を重み付けし、重み付けした後の伝達関数を演算処理することにより聴取者の左右の頭部伝達関数を合成する。ここで聴取者の左右の頭部伝達関数は、例えば(1)式で算出される。ある周波数f において正面を0°とし、そこを基準として時計回り方向に音源のある水平角をθ とする。そのθを変数として、SENZI のもつマイクロホン位置における伝達関数H_f,_i(θ) (i = 1〜n、n はマイクロホン数)を用いて所望のHRTF_f,_listener(θ)が算出される。z_f,_i は重み係数で複素数である。

なお(1)式における重み係数z_f,_i を全てのθ において、残差ε(θ) ができるだけ小さくなるように求めている。
また(1)式では、伝達関数H_f,_i(θ)を用いて聴取者の頭部伝達関数HRTF_f,_listener(θ)を合成する例を示したが、伝達関数としてH_f,_i(φ) またはH_f,_i(θ,φ)を用いて聴取者の頭部伝達関数HRTF_f,_listener(φ) またはHRTF_f,_listener(θ,φ)を合成することもできる。

重み係数z_f,_iは、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の水平角が0°〜360°の範囲に対応した重み係数として予め導出されるものである。ここで重み係数の導出方法として、例えばLevenberg-Marquardt 法などを用いる。

また重み係数z_f,_i は、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の仰角が -90°〜90°の範囲に対応した重み係数として予め導出される場合もある。さらに重み係数z_f,_i は、水平角と仰角の組合せに対応した重み係数として導出される場合もある。また、ここで重み係数の算出方法として、例えばLevenberg-Marquardt 法などを用いる。

図10に、ある周波数fにおける重み係数z_f,_iの導出例を示す。この例では、聴取者の頭部位置の水平角α を5°刻みで予め導出したものである。例えば、聴取者の頭部位置の角度αが15°にあるときには、重み係数z_{f ,i} (α = 15)を用いて伝達関数H_f,_i(θ)を重み付けし加算することにより聴取者の頭部伝達関数を合成する。

また伝達関数H_f,_i(θ)は、例えばマイクロホンで収音した音響信号をFFT(Fast Fourier Transform)により周波数領域のデータに変換することにより、ILDやIPDの情報として複素数で表したものとなるため、重み係数z_f,_iも複素数で表すものとする。

さらに重み係数z_f,_iは、音の回折や反射の性質などの特性が聴取者ごと異なることから、聴取者の特性に応じて聴取者ごとに導出することとする。

したがって重み係数z_f,_iは、図10の導出例で示したものを (周波数解析のポイント数)×(聴取者の数)の数量分を予め用意しておく必要がある。これにより、センサーで取得した聴取者の頭部位置の情報に基づいて聴取者の頭部運動に追随した頭部伝達関数を合成することが可能となるとともに、複数の聴取者へ同時に高臨場感の音空間の再現を提供することが可能になる。

次にHRTF測定方法について説明する。図４は、本発明の音空間再合成提示システムで用いるSENZIにおいて使用したマイクロホンの位置を示す。

SENZI のマイクロホンへの入力信号を聴取者のHRTFに合うように信号処理するためには、全てのマイクロホンの位置において、頭部や胴による音響的特性の変化を表す伝達関数を知っておかなければならない。SENZI の様々な場所へマイクロホンを取り付け、各マイクロホン位置における伝達関数を測定した。いずれの位置でも無響室内で音源方向を水平角は5 度間隔で0°から355°まで、仰角は10 度間隔に -80°から90°まで測定を行った。測定に使用した音信号は標本化周波数4848 kHz で8192 ポイントのOATSP 信号(非特許文献４)である。また、合成対象のHRTF として精密ダミーヘッドのSAMRAIのHRTF も測定した。測定耳の外耳道にマイクロホンを取り付けた耳型を埋め込む外耳道ブロック法を用いて、SENZI の伝達関数を測定するときと同様の条件で測定を行った。

測定された仰角0°の場合の伝達関数を先に述べた(1)式を用い、SAMRAI の右耳の仰角0°のHRTF を目的HRTFとして合成した。その際、重み係数z_f,_i の絶対値|z_f,_i| をその位置の伝達関数の重要度を示す指標として用い、この値が小さい伝達関数を除外した。この手法を繰り返し、最終的に図４に示す位置の伝達関数を合成に使用することとした。図４では1 方向のみを示しているが、前後左右4 方向とも対称にこのマイクロホン配置となっている。よって使用したマイクロホンの数は14 × 4 の56 個である。

HRTF 合成の際に使用されたマイクロホン位置の伝達関数はHRTF 合成の上で重要な特性を持っており、それに対し使用されなかったマイクロホン位置の伝達関数はさほど重要な特性を持っていないということになる。各マイクロホン位置における伝達関数は大きく分けて２つのグループに分けられた。１つは音源がマイクロホンに対して頭部によって影にならない角度において、頭部や耳介の反射によるディップやピークがみられるものであり、もう1 つは、この角度において目立ったディップやピークがみられないものである。２つのグループとも、使用された伝達関数とそうでない伝達関数両方でみられた。このことから、ディップやピークの大きさにかかわらず、目的とするHRTF のディップやピークの位置に合致する伝達関数が使用されると考えられる。

図５に使用されたマイクロホン位置（図４のa の位置）の伝達関数、図６に使用されなかった肩の位置に設置したマイクロホンにおける伝達関数の例を示す。さらに図７に目的とするHRTF を示す。グラフの縦軸は正面から音源方向への水平角を表しており、前方を0°とし時計回りへ一周した角度を示している。横軸は周波数を示しており、明度は振幅の大きさを示している。図５、図６両方とも90°付近にマイクロホンがある場合のグラフであり、音源が頭部によって影にならない角度は0°から180°あたりとなる。どちらの場合も0°から180°において音の反射によるディップが見られる。しかし、図７の合成対象とするHRTF と比較すると、図６の伝達関数には周期的なディップが密に現れており、類似点が少ないことがわかる。それに対して図５の伝達関数では、シンプルな２つのディップがあり特に図７の0°から50°で10,000 Hz 以上にあるディップの位置に類似点を見いだせる。

次にHRTF合成結果について説明する。図７に56 個の伝達関数から合成されたHRTF の特性を示す。図７と図８を見比べるとほとんど差異がみられないように思われる。差を詳細に検討するため、合成されたHRTFと目的HRTF との残差を図９に示す。この残差ε(f, θ) は以下の式から求められる。 HRTF_SAMRAI(f, θ) は合成対象のSAMRAI のHRTF，HRTF_synthesized(f, θ) は合成されたHRTF を表す。

図９を見ると5000 Hz までの低周波数域では、ほとんど残差がないことがわかる。これは図７で示されているSAMRAIのHRTF の5000 Hz 以下におけるディップやピークの位置が図５に示されるSENZI の伝達関数のディップやピークの位置と似通っているためと考えられる。さらに、0°から180°あたりでは12,000 Hz 以下の領域で残差が小さくなっている。この理由としては、SENZI の伝達関数において、頭部や耳介部分への音の反射によるディップがちょうどこのあたりに出現しており、これらのディップがHRTF 合成時にあてはまるような働きをしたと考えられる。270°付近の残差が大きいのは、それぞれの伝達関数や目的とするHRTFでこの角度付近において音の回り込み経路の違いにより局所的に深いディップが存在しており、それらの位置がそれぞれ異なっているため細かく合成できなかったからであると考えられる。

以上から、聴取者が正確に音源の方向を認識できる音を提示することを可能にするため、各マイクロホンの位置における伝達関数を適切に重み付け加算することで人間のHRTF を合成することを試みた結果、ある程度正確な合成が可能であることが示された。

T. Sugano et al., "Design of microphone array for sound field recording using neural network," ACTIVE ’95, pp.1233-1240 (1995 Jul.) Y. Suzuki et al., "An optimum computer-generated pulse signal suitable for the measurement of very long impulse responses," J. Acoust. Soc. Am. Vol.97, pp.1119-1123 (1995)

本発明の音空間再合成提示システムの構成を示す図である。本発明の音空間再合成提示システムで用いる頭部モデル(SENZI)の寸法を示す図である。本発明の音空間再合成提示システムで用いる頭部モデル(SENZI)の全体像を示す図である。本発明の音空間再合成提示システムで用いる頭部モデル(SENZI)において使用したマイクロホンの位置を示す図である。本発明の音空間再合成提示システムにおいて信号合成に使用されたSENZIの伝達関数の例を示す図である。本発明の音空間再合成提示システムにおいて信号合成に使用されなかったSENZIの伝達関数の例を示す図である。本発明の音空間再合成提示システムにおいてSAMRAIのHRTFを示す図である。本発明の音空間再合成提示システムにおいて56個の伝達関数から合成されたHRTFの特性を示す図である。本発明の音空間再合成提示システムにおいて合成HRTFとSAMRAIのHRTFとの残差を示す図である。本発明の音空間再合成提示システムにおいて、聴取者固有の頭部伝達関数を算出するために、ある周波数fにおける重み係数z_f,_iの導出例を示す図である。

符号の説明

１０信号収音手段
１１頭部モデル
２０信号合成手段
３０信号再生手段
３１センサー
３２ヘッドホン

Claims

聴取者の頭部運動に追随して音空間の精密な再生を提示するシステムであって、多数のマイクロホンを取り付けた頭部モデルを用いて音響信号を収音する信号収音手段と、前記信号収音手段とは離れた地点にいる聴取者の頭部の動きを検知するセンサーと、前記音響信号を基にして聴取者の頭部位置および聴取者固有の特性に応じた信号処理を行う信号合成手段と、前記信号合成手段で信号処理された音響信号を前記聴取者が受聴できるように音声出力装置へ出力する信号再生手段とを備えたことを特徴とする音空間再合成提示システム。
前記頭部モデルは、周の長さが最も長い額部および耳介部などを備えた頭部、ならびに胴体部から構成され、水平面上において対称となるような軸対称型の形状であるとともに、音響信号を収音するためのマイクロホンが複数取り付けられていることを特徴とする請求項１に記載の音空間再合成提示システム。
前記信号合成手段は、前記頭部モデルに取り付けた全てのマイクロホンで収音した音響信号をマイクロホン位置による音響的特性の変化を示す伝達関数として導出する導出手段と、該伝達関数と前記センサーで取得した聴取者の頭部位置の情報とに基づき、聴取者の頭部位置および聴取者固有の特性に応じた２チャンネルの音響信号を合成する変換手段とを備えたことを特徴とする請求項１に記載の音空間再合成提示システム。
前記導出手段は、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として時計回り方向に音源のある水平角θ とし、そのθを変数として前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(θ) ( i = 1〜n、n はマイクロホン数)を導出することを特徴とする請求項３に記載の音空間再合成提示システム。
前記導出手段は、ある周波数f において前記頭部モデルの正面を0°とし、そこを基準として音源のある仰角をφとし、そのφ を変数として前記頭部モデルのもつマイクロホン位置における伝達関数H_f,_i(φ) またはH_f,_i(θ,φ) ( i = 1〜n、n はマイクロホン数)を導出することを特徴とする請求項３乃至請求項４に記載の音空間再合成提示システム。
前記変換手段は、ある周波数f において前記センサーで取得した聴取者の頭部位置の情報に基づいた適切な重み係数z_f,_i ( i = 1〜n、n はマイクロホン数)を用いて、前記導出手段で導出した伝達関数を重み付けし、重み付けした後の伝達関数を演算処理することにより聴取者の左右の頭部伝達関数を合成することを特徴とする請求項３に記載の音空間再合成提示システム。
前記重み係数z_f,_i は、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の水平角が0°〜360°の範囲に対応した重み係数として予め導出されることを特徴とする請求項６に記載の音空間再合成提示システム。
前記重み係数z_f,_i は、聴取者固有の頭部伝達関数を算出するために、ある周波数f においてｎ個のマイクロホン位置に対応した重み係数として予め導出されるものであり、聴取者の頭部位置が様々な角度を変えることに対応して、聴取者の頭部位置の仰角が -90°〜90°の範囲に対応した重み係数として予め導出されることを特徴とする請求項６乃至請求項７に記載の音空間再合成提示システム。
前記重み係数z_f,_i は、聴取者固有の音の回折や反射の性質などの特性に応じて聴取者ごとに導出されることを特徴とする請求項６乃至請求項８に記載の音空間再合成提示システム。