JP7206027B2

JP7206027B2 - 頭部伝達関数学習装置および頭部伝達関数推論装置

Info

Publication number: JP7206027B2
Application number: JP2019071103A
Authority: JP
Inventors: 哲朗矢部; 康博川崎
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2023-01-17
Anticipated expiration: 2039-04-03
Also published as: JP2020170938A

Description

本発明は、機械学習によって頭部伝達関数モデルを作成する頭部伝達関数学習装置とこの頭部伝達関数モデルを用いて各個人に対応する頭部伝達関数を推定する頭部伝達関数推論装置に関する。

従来から、頭部伝達関数（ＨＲＴＦ）を用いて、ヘッドホンから出力するバイノーラル信号を生成するようにした「モデル化によってＨＲＴＦを個別化するための方法および装置」が知られている（例えば、特許文献１参照。）。この方法によると、空間の全ての方向の、全ての個人についての複数のＨＲＴＦを含むデータベースの知識取得を使用してモデルを構築することができる。また、このモデルは、一連の測定、さらには任意に固定された方向のＨＲＴＦの大まかな測定から空間の全ての方向についてＨＲＴＦを計算することができる人工ニューロンのネットワーク（ニューラルネットワーク）に基づくものである。さらに、任意に固定された方向の個人のＨＲＴＦの大まかな測定は、任意の特定の個人についてだけ行われ、上記のモデルが測定に適用され、空間内の個人のＨＲＴＦを取得することが可能となる。

特表２００８－５２７８２１号公報

ところで、上述した特許文献１に開示された方法および装置では、特定の個人について大まかな測定を行うだけで、全ての個人についての複数のＨＲＴＦを含むデータベースの知識取得を使用してモデルを構築することができる、となっているが、少なくとも何人かの個人についての測定が必要であって、ＨＲＴＦのデータを取得するための負担が大きいという問題があった。また、測定対象となる個人の数や音源の設置箇所の数が少ないため、ニューラルネットワークを用いた学習によって得られるＨＲＴＦモデルの精度が低いという問題があった。

本発明は、このような点に鑑みて創作されたものであり、その目的は、各個人についてのデータ収集が不要であって負担軽減が可能であり、ＨＲＴＦモデルの精度を上げることができる頭部伝達関数学習装置および頭部伝達関数推論装置を提供することにある。

上述した課題を解決するために、本発明の頭部伝達関数学習装置は、耳介形状に対応する複数の耳介形状パラメータのそれぞれに対応する複数の可変部位を有し、これら複数の可変部位の配置および／または大きさを変更することで複数の耳介形状パラメータのそれぞれの値の変更が可能な測定モデルと、音源座標パラメータによって音源位置が特定される音源と、測定モデルにおいて耳穴に相当する位置に配置されたマイクロホンと、音源から出力される測定音に対応してマイクロホンで検出した検出音に基づいて耳介形状パラメータと音源座標パラメータの組み合わせに対応する頭部伝達関数を測定する頭部伝達関数測定手段と、耳介形状パラメータおよび音源座標パラメータと、これらに対応して測定された頭部伝達関数とを教師データとして用いて機械学習を行って頭部伝達関数モデルを作成する頭部伝達関数モデル作成手段とを備えている。

測定モデルを用いることで受聴者（個人）についてのデータ収集をなくすることができるため、データ収集に際しての受聴者の負担軽減が可能となる。また、測定モデルの可変部位の配置や大きさを変更することで各受聴者の耳介形状を再現することにより、頭部伝達関数モデルの精度を上げることができる。

また、上述した頭部伝達関数測定手段は、耳介形状パラメータと音源座標パラメータの組み合わせの内容が変更されたときに、この変更後の内容に対応する頭部伝達関数を測定することが望ましい。これにより、多くの受聴者を想定した頭部伝達関数モデルの作成が可能となる。

また、上述した音源座標パラメータは、測定モデルからの距離ｒと２種類の角度θ、φによって示される極座標によって特定される音源位置に対応しており、測定モデルを回転させることにより、角度θ、φの少なくとも一方を変更することが望ましい。これにより、測定モデルを回転させることで、音源位置の変更が不要になるため、音源座標パラメータの値を変更しながら頭部伝達関数を繰り返し測定する際の手間を軽減でき、これに伴って一連の頭部伝達関数測定に要する時間の短縮が可能になる。

また、上述した測定モデルは、外耳道に相当する穴と、耳介において音が反射する反射壁と、耳介において外耳道への音の進入を妨げる塞ぐ壁とを有することが望ましい。特に、上述した測定モデルは、径が変更可能な穴や、穴からの距離と高さが変更可能な反射壁や、傾きと穴に接する高さが変更可能な塞ぐ壁を有することが望ましい。このような測定モデルを用いることにより、多くの受聴者の耳介形状に対応する耳介形状パラメータを再現することが可能になり、機械学習の精度を高めることができる。

また、本発明の頭部伝達関数推論装置は、受聴者の頭部を撮像するカメラと、カメラによって撮像された画像に基づいて受聴者の耳介形状を特定し、この特定内容に基づいて耳介形状パラメータの各値を決定するパラメータ値決定手段と、上述した頭部伝達関数モデルを用いて、パラメータ値決定手段によって決定された値に対応する、特定の受聴者固有の頭部伝達関数を推定する頭部伝達関数推定手段とを備えることが望ましい。これにより、受聴者（個人）固有の耳介形状を容易かつ短時間で判別し、この受聴者に対応する正確な頭部伝達関数モデルを特定し、この受聴者に対応する頭部伝達関数を推定することが可能となる。

また、上述したカメラは、車両に搭載されたドライバーモニタリングシステム用のカメラが用いられることが望ましい。これにより、車載のオーディオ装置やその他の装置に本発明を適用する際に、装置本体以外の外付け部品が不要になって、部品コストの低減や設置に要する手間の軽減が可能となる。

一実施形態の車載装置の全体構成を示す図である。ＨＲＴＦの推論を行うためのＨＲＴＦの教師あり機械学習の説明図である。学習用の教師データの測定方法を示す図である。耳の外観形状を示す図である。ＨＲＴＦモデルを生成するＨＲＴＦモデル作成装置の構成図である。バイノーラル信号生成装置によるバイノーラル信号生成の説明図である。トランスオーラル再生装置によるトランスオーラル再生の説明図である。視聴環境の伝達関数を測定する場合の説明図である。音響シミュレーションにより伝達関数を計算する場合の説明図である。

以下、本発明を適用した一実施形態の車載装置について、図面を参照しながら説明する。

図１は、一実施形態の車載装置の全体構成を示す図である。図１に示すように、本実施形態の車載装置１は、ＨＲＴＦ推論装置１００、バイノーラル信号生成装置２００、トランスオーラル再生装置３００、スピーカ４１０、４１２を含んで構成されている。

本実施形態では、高さ方向も加えて立体的（３Ｄ）に音像を定位させる「３Ｄサウンド」をＨＲＴＦ（頭部伝達関数）を用いて実現している。

ＨＲＴＦを用いた３Ｄサウンドに関しては、例えば論文「石井要次、他２名、「耳介形状と頭部伝達関数のなぞ」、日本音響学会誌、2015年、第71巻、3号(2015)、p.127-135」に記載がある。

この記載などによると、耳介形状とＨＲＴＦとの関係が明らかになって、受聴者毎に個人差が大きい耳介形状を特定することができれば、上記の３Ｄサウンドを実現することができる。

ＨＲＴＦ推論装置１００は、ＨＲＴＦ推論部１１０、カメラ１２０、１２２、パラメータ値決定部１３０を含んで構成されている。パラメータ値決定部１３０がパラメータ値決定手段に、ＨＲＴＦ推論部１１０が頭部伝達関数推定手段にそれぞれ対応する。

ＨＲＴＦ推論部１１０は、音源の座標を示す音源座標パラメータと、受聴者（例えば、車両の運転者）の耳介形状を示す耳介形状パラメータとが指定されたときに、教師あり機械学習によって作成されたＨＲＴＦモデル１００Ａ（右耳用のＨＲＴＦ１００Ａ（Ｒ）と左耳用のＨＲＴＦ１００Ａ（Ｌ））を用いて、この受聴者の右耳および左耳のそれぞれに対応する固有のＨＲＴＦを推定する。

一方のカメラ１２０は、受聴者の右耳が含まれるように頭部を撮像する。また、他方のカメラ１２２は、受聴者の左耳が含まれるように頭部を撮像する。これらのカメラ１２０、１２２は、受聴者の耳介形状が判別可能な状態で左右の耳介を撮像する必要がある。また、これらのカメラ１２０、１２２は、ＨＲＴＦ推論装置１００のためだけに用意してもよいが、車両の運転者を撮像して安全運転等を支援するためのドライバーモニタリングシステム（Driver Monitoring System：DMS）に用いられるカメラ（例えば、２台）が備わっている場合には、このカメラをカメラ１２０、１２２として用いるようにしてもよい。

パラメータ値決定部１３０は、カメラ１２０、１２２によって撮像された受聴者の耳介形状を特定し、この特定内容に基づいて耳介形状パラメータを決定する。この決定した耳介形状パラメータは、ＨＲＴＦ推論部１１０に入力される。

バイノーラル信号生成装置２００は、モノラルの音声信号が入力され、この音声信号とＨＲＴＦ推論装置１００によって推定された受聴者固有のＨＲＴＦとの畳込み積分により、左耳用のバイノーラル信号と右耳用のバイノーラル信号を生成する。

トランスオーラル再生装置３００は、バイノーラル信号生成装置２００によって生成される左右のバイノーラル信号に基づいて、左右のスピーカ４１０、４１２のそれぞれから車室内４００に出力するための左右のトランスオーラル信号を生成する。

本実施形態の車載装置１はこのような概略的な構成を有しており、次に、それぞれの詳細について説明する。

（１）ＨＲＴＦの推定
図２は、ＨＲＴＦの推論を行うためのＨＲＴＦの教師あり機械学習の説明図である。

ＨＲＴＦの推論を行うために、左耳と右耳のそれぞれに対応するＨＲＴＦモデル１００Ａをあらかじめ用意する必要がある。また、これらのＨＲＴＦモデル１００Ａは、教師あり機械学習を用いて作成される。

本実施形態では、音源座標パラメータＳと耳介形状パラメータＰを導入する。例えば、音源座標パラメータＳは、モノラル音源の位置を極座標（ｒ,θ，φ）で表したものである（次元数＝３、ｒは音源までの距離、θは方位角、φは仰角）。また、耳介形状パラメータＰとして、耳介形状の特徴を示すＮ個の値ｐ₁、ｐ₂、ｐ₃、・・・、ｐ_Nを用いる（次元数＝Ｎ）。

これらのパラメータＰ、Ｓのサンプル値を教師あり機械学習における「入力変数」とする。また、これらのパラメータＰ、Ｓの複数の組み合わせのそれぞれに対応して測定された左耳用と右耳用のそれぞれのＨＲＴＦ実測値を教師あり機械学習における「出力変数」とする。ＨＲＴＦ実測値の次元数は、時間領域で表現する場合には時間のサンプリング数、周波数領域で表現する場合には周波数のサンプリング数となるが、他の表現形式を用いるようにしてもよい。

上記のＨＲＴＦモデル１００Ａは、パラメータＰ、Ｓが与えられたときに得られるであろうＨＲＴＦを機械学習によってモデル化したものである。このＨＲＴＦモデル１００Ａを用いることにより、学習用のデータセット（パラメータＰ、Ｓ）に含まれないパラメータの未知の組み合わせが与えられた場合であっても、この与えられたパラメータに対応するＨＲＴＦ１００Ａを生成（推定）することが可能となる。

教師あり機械学習の実現方法としては、例えば、回帰分析、サポートベクターマシン、ニューラルネットワーク、などの手法を用いることができる。

図３は、学習用の教師データの測定方法を示す図である。一般には、実際に人の耳にマイクロホンを装着し、音源となるスピーカの位置を移動させてＨＲＴＦを測定することを、人を変えて繰り返すことにより、教師あり機械学習によってＨＲＴＦモデルを生成することができる。しかし、このように実際に人を使ってＨＲＴＦを測定しようとするとそのための時間が長くなり、しかも、耳介形状が異なる多くの人について同様の測定を行わなければならないことを考えると、このような方法による機械学習は実質的には不可能といえる。

そこで、本実施形態では、実際の人の耳ではなく、簡易化された測定モデル（図３（Ａ））を作成し、音源としてのスピーカを固定し、測定モデルの角度を変更することにより、測定を行う。これにより、音源座標パラメータＳ（ｒ,θ，φ）について、音源までの距離ｒが一定となる条件で、測定モデルを回転させることで、角度θと角度φを変更しながらＨＲＴＦの測定が可能となる。この測定を、距離ｒを変更しながら繰り返すことにより、一組の耳介形状パラメータＰについて、広範囲のパラメータＳに対応するＨＲＴＦの測定が終了する。以後、耳介形状パラメータＰを変更しながら、同様の測定を繰り返すことにより、ＨＲＴＦモデルを生成することができる。

上述した論文によると、ＨＲＴＦのノッチとピークが各々の耳介形状、角度で異なることに関して、「耳甲介腔と耳道入口で生じる定常波が原因である」ことがわかっている。図４は、耳の外観形状を示す図である。

図３（Ａ）に示した測定モデルには、反射壁Ｗ１、塞ぐ壁Ｗ２、穴Ｈが備わっている。反射壁Ｗ１は、耳介において音が反射する対輪（ｇ）と耳甲介舟（ｃ）に相当するものであり、測定モデルでは、穴Ｈからの距離と高さが変えられるようになっている。塞ぐ壁Ｗ２は、耳介において外耳道（ｅ）への音の進入を妨げる耳珠（ｈ）に相当するものであり、穴Ｈに接する高さが変えられるとともに、矢印ａ方向に倒す（傾斜させる）ことができるようになっている。これらの反射壁Ｗ１と塞ぐ壁Ｗ２でつくる空間が耳甲介腔（ｄ）に相当する。穴Ｈは、外耳道（ｅ）に相当する部分であり、穴の半径を変更することができる。この穴Ｈには、音源から出力されてこの測定モデルに到達した測定音を集音するマイクロホンＭが配置される。

このような測定モデルにおいて、耳介形状パラメータＰとして以下に示す３つの値ｐ₁、ｐ₂、ｐ₃を用いるものとする。

ｐ₁：穴Ｈから反射壁Ｗ１までの距離
ｐ₂：穴Ｈから塞ぐ壁Ｗ２までの距離
ｐ₃：塞ぐ壁Ｗ２によって穴Ｈを塞いでいる割合（音源から穴Ｈに進入する音を防ぐ割合）。

上述したように、受聴者の耳にマイクロホンＭを装着し、音源としてのスピーカＳＰの位置を移動させながら収集音の周波数特性やインパルス応答を測定することにより、この受聴者に対応するＨＲＴＦを測定することができるが、スピーカＳＰの位置を広範囲にわたって移動させながら多くの位置での測定を繰り返す必要があることから、このような測定はほとんど困難である。そこで、本実施形態では、上述した測定用モデルを導入している。具体的には、ＨＲＴＦ測定の対象となる受聴者を想定し、その右耳と左耳のそれぞれに対応するように２つの測定モデルを配置するとともに、それらの測定モデルの中心ｏから距離ｒ、角度θ、φの位置に音源としてのスピーカＳＰを配置することで（図３（Ｂ））、一組の音源座標パラメータＳと耳介形状パラメータＰを特定し、対応するＨＲＴＦを測定することができる。

ところで、スピーカＳＰの位置を広範囲にわたって移動させようとすると、その移動の設備が必要になって設備が大型化してしまう。本実実施形態では、このような設備の大型化を回避するために、左右の測定モデルの中心ｏからの距離が一定の音源については、スピーカの位置を移動させるのではなく、スピーカＳＰの位置を固定し、測定モデルを回転させている。例えば、図３（Ｃ）は想定している受聴者を上部から見た状態を示しており、中心ｏを中心にして測定モデルを水平面内で回転させる。図３（Ｄ）は想定している受聴者を前方から見た状態を示しており、中心ｏを中心にして鉛直面内で回転させる。図３（Ｅ）は想定している受聴者を横方向から見た状態を示しており、２つの測定モデルをそれらを穴Ｈの中心軸回りで回転させる。このような回転操作を組み合わせることにより、測定モデルの周囲の同一半径ｒの球面に沿って音源としてのスピーカＳＰを移動させた場合と同様の相対的な位置関係を実現することができる。

距離ｒを変えながら同様の測定を繰り返すことにより、受聴者の周りで広範囲にわたって音源の位置を変えた場合と同等のＨＲＴＦの測定結果を得ることができる。また、耳介形状パラメータＰについても同様であり、耳介形状パラメータＰとしての３つの値ｐ₁、ｐ₂、ｐ₃のそれぞれを所定の範囲で変えながら同様の測定を繰り返すことにより、様々な耳介形状を有する多くの受聴者を考慮したＨＲＴＦの測定結果を得ることができる。このようにして、教師あり機械学習によってＨＲＴＦモデル１００Ａ（右耳用のＨＲＴＦモデル１００Ａ（Ｒ）と左耳用のＨＲＴＦモデル１００Ａ（Ｌ））が生成される。なお、このＨＲＴＦモデル１００Ａの生成は、専用の測定室（例えば、無響室）で行われる。

図５は、ＨＲＴＦモデルを生成するＨＲＴＦモデル作成装置の構成図である。図５に示すＨＲＴＦモデル作成装置１５０は、ＨＲＴＦ測定部１５２とＨＲＴＦモデル作成部１５４を含んで構成されている。なお、ＨＲＴＦ測定部１５２とＨＲＴＦモデル作成部１５４は、右耳用と左耳用が別々に備わっており、図５ではその一方のみ（例えば右耳用）が示されている。ＨＲＴＦモデル作成装置が頭部伝達関数学習装置に、ＨＲＴＦ測定部１５２が頭部伝達関数測定手段に、ＨＲＴＦモデル作成部１５４が頭部伝達関数モデル作成手段にそれぞれ対応する。

ＨＲＴＦ測定部１５２は、音源としてのスピーカＳＰから出力される測定音に対応して、測定モデル（図３）に含まれるマイクロホンＭで検出した検出音に基づいて、その時点で指定された音源座標パラメータＳと耳介形状パラメータＰの組み合わせに対応するＨＲＴＦを測定する。このＨＲＴＦの測定は、音源座標パラメータＳと耳介形状パラメータＰの各値を変更した多くの組み合わせについて実施される。

ＨＲＴＦモデル作成部１５４は、音源座標パラメータＳと耳介形状パラメータＰの多くの組み合わせと、各組み合わせに対応して測定されたＨＲＴＦ測定値とを教師データセットとして教師あり機械学習を行うことにより、ＨＲＴＦモデル１００Ａを作成する。

上述したＨＲＴＦ推論装置１００は、このようにして予め作成された右耳用のＨＲＴＦモデル１００Ａ（Ｒ）と左耳用のＨＲＴＦモデル１００Ａ（Ｌ）を有しており、実際の再生対象となる音源に対応する音源座標パラメータＳと、受聴者（図１に示す例では車両の運転者）に対応する右耳の耳介形状パラメータＰと左耳の耳介形状パラメータＰとが特定されたときに、ＨＲＴＦモデル１００Ａ（Ｒ）、１００Ａ（Ｌ）に基づいて、この受聴者に対応する右耳用のＨＲＴＦ（Ｒ）と左耳用のＨＲＴＦ（Ｌ）を推定する。

（２）バイノーラル信号の生成
図６は、バイノーラル信号生成装置２００によるバイノーラル信号生成の説明図である。バイノーラル信号生成装置２００は、畳込み積分フィルタ２１０Ｒと畳込み積分フィルタ２１０Ｌを含んで構成されている。一方の畳込み積分フィルタ２１０Ｒは、音源の音声信号（モノラル）が入力され、この音声信号とＨＲＴＦ推論装置１００によって生成された右耳用のＨＲＴＦ（Ｒ）の畳込み積分を行うことにより、右耳用のバイノーラル信号Ｂ（Ｒ）を生成する。他方の畳込み積分フィルタ２１０Ｌは、音源の音声信号（モノラル）が入力され、この音声信号とＨＲＴＦ推論装置１００によって生成された左耳用のＨＲＴＦ（Ｌ）の畳込み積分を行うことにより、左耳用のバイノーラル信号Ｂ（Ｌ）を生成する。

（３）トランスオーラル再生
図７は、トランスオーラル再生装置３００によるトランスオーラル再生の説明図である。トランスオーラル再生装置３００は、トランスオーラル信号生成部３１０と音声再生部３４０を含んで構成されている。

トランスオーラル信号生成部３１０は、バイノーラル信号生成装置２００によって生成されたバイノーラル信号Ｂ（Ｒ）、Ｂ（Ｌ）に基づいて、左右のスピーカ４１０、４１２のそれぞれに対応する２種類のトランスオーラル信号Ｔ（Ｒ）、Ｔ（Ｌ）を生成する。このために、トランスオーラル信号生成部３１０は、２つの逆フィルタ３２０Ｒ、３２０Ｌと、２つのフィルタ制御部３３０Ｒ、３３０Ｌとを含んで構成されている。

一方のフィルタ制御部３３０Ｒは、車室内４００における右側のスピーカ４１０から受聴者の右耳までの音響空間の伝達関数Ｅ（Ｒ）で表される特性を打ち消すように一方の逆フィルタ３２０Ｒの特性を制御する。逆フィルタ３２０Ｒは、バイノーラル信号生成装置２００によって生成されたバイノーラル信号Ｂ（Ｒ）が入力され、伝達関数Ｅ（Ｒ）の音響空間による影響を排除したトランスオーラル信号Ｔ（Ｒ）を出力する。このトランスオーラル信号Ｔ（Ｒ）は、音声再生部３４０内のＤＡＣ・アンプ３５０Ｒを通すことで、アナログ信号への変換および増幅が行われ、右側のスピーカ４１０から出力される。

他方のフィルタ制御部３３０Ｌは、車室内４００における左側のスピーカ４１２から受聴者の左耳までの音響空間の伝達関数Ｅ（Ｌ）で表される特性を打ち消すように他方の逆フィルタ３２０Ｌの特性を制御する。逆フィルタ３２０Ｌは、バイノーラル信号生成装置２００によって生成されたバイノーラル信号Ｂ（Ｌ）が入力され、伝達関数Ｅ（Ｌ）の音響空間による影響を排除したトランスオーラル信号Ｔ（Ｌ）を出力する。このトランスオーラル信号Ｔ（Ｌ）は、音声再生部３４０内のＤＡＣ・アンプ３５０Ｌを通すことで、アナログ信号への変換および増幅が行われ、左側のスピーカ４１２から出力される。

ところで、上述した２種類の伝達関数Ｅ（Ｒ）、（Ｌ）は、事前に測定等によって取得し、逆フィルタを設計しておく必要がある。例えば、（１）伝達関数測定用のマイクロホン付きダミーヘッドを視聴環境（車室内４００）に設置して伝達関数を測定し、この伝達関数に基づいて逆フィルタを設計する、（２）視聴環境の三次元形状や音響特性をモデル化し、音響シミュレーションにより伝達関数を計算し、この伝達関数に基づいて逆フィルタを設計する、などの方法が考えられる。

図８は、視聴環境の伝達関数を測定する場合の説明図である。図８に示す構成の中で、視聴環境としての車室内４００、スピーカ４１０、４１２、音声再生部３４０は、図１や図７に含まれるものがそのまま用いられる。

ダミーヘッド５００Ａは、一般的な受聴者の頭部形状を模したものであり、受聴者の頭部を想定した位置に配置されている。また、このダミーヘッド５００Ａには、右耳に対応する位置にマイクロホン５１０が、左耳に対応する位置にマイクロホン５１２が取り付けられている。

伝達関数測定器５２０は、車室内４００の伝達関数を測定するためのものであり、テスト信号生成部５３０Ｒ、５３０Ｌ、伝達関数測定部５４０Ｒ、５４０Ｌを備えている。

一方のテスト信号生成部５３０Ｒは、右側のスピーカ４１０からダミーヘッド５００Ａの右耳までの音響空間の伝達関数Ｅ（Ｒ）を測定するためのテスト信号を生成する。このテスト信号は、音声再生部３４０内のＤＡＣ・アンプ３５０Ｒを通すことで、アナログ信号への変換および増幅が行われ、右側のスピーカ４１０から出力される。伝達関数測定部５４０Ｒは、ダミーヘッド５００Ａの右耳の位置に取り付けられたマイクロホン５１０によって集音されたテスト音声に基づいて伝達関数Ｅ（Ｒ）を測定する。

他方のテスト信号生成部５３０Ｌは、左側のスピーカ４１２からダミーヘッド５００Ａの左耳までの音響空間の伝達関数Ｅ（Ｌ）を測定するためのテスト信号を生成する。このテスト信号は、音声再生部３４０内のＤＡＣ・アンプ３５０Ｌを通すことで、アナログ信号への変換および増幅が行われ、左側のスピーカ４１２から出力される。伝達関数測定部５４０Ｌは、ダミーヘッド５００Ａの左耳の位置に取り付けられたマイクロホン５１２によって集音されたテスト音声に基づいて伝達関数Ｅ（Ｌ）を測定する。

図９は、音響シミュレーションにより伝達関数を計算する場合の説明図である。図９において、音響シミュレータ６００は、座席等の構成要素を含む車室内４００の視聴環境を再現するように構築された三次元仮想モデル６１０を有している。音響シミュレータ６００は、この三次元仮想モデル６１０を用いて、実際の右側のスピーカ４１０に対応する仮想的なスピーカ４１０Ａから受聴者の右耳を想定した測定ポイント４２０Ａまでの伝達関数Ｅ（Ｒ）を音響シミュレーションによって算出する。また、音響シミュレータ６００は、この三次元仮想モデル６１０を用いて、実際の左側のスピーカ４１２に対応する仮想的なスピーカ４１２Ａから受聴者の左耳を想定した測定ポイント４２２Ａまでの伝達関数Ｅ（Ｌ）を音響シミュレーションによって算出する。

このように、本実施形態のＨＲＴＦモデル作成装置１５０では、図３に示した測定モデルを用いることで受聴者（個人）についてのデータ収集をなくすることができるため、データ収集に際しての受聴者の負担軽減が可能となる。また、測定モデルの可変部位の配置や大きさを変更することで各受聴者の耳介形状を再現することにより、ＨＲＴＦモデルの精度を上げることができる。

また、耳介形状パラメータと音源座標パラメータの組み合わせの内容が変更されたときに、この変更後の内容に対応する頭部伝達関数を測定することにより、多くの受聴者を想定したＨＲＴＦモデルの作成が可能となる。

また、音源座標パラメータは、測定モデルからの距離ｒと２種類の角度θ、φによって示される極座標によって特定される音源位置に対応しており、測定モデルを回転させることにより、角度θ、φの少なくとも一方を相対的に変更している。このように、測定モデルを回転させることで、音源位置の角度方向に沿った変更が不要になるため、音源座標パラメータの値を変更しながらＨＲＴＦを繰り返し測定する際の手間を軽減でき、これに伴って一連のＨＲＴＦ測定に要する時間の短縮が可能になる。

また、本実施形態で用いた測定モデルは、外耳道に相当する穴Ｈと、耳介において音が反射する反射壁Ｗ１と、耳介において外耳道への音の進入を妨げる塞ぐ壁Ｗ２とを有している。また、この測定モデルでは、穴Ｈは径が変更可能で、反射壁Ｗ１は穴Ｈからの距離と高さが変更可能で、塞ぐ壁Ｗ２は傾きと穴Ｈに接する高さが変更可能となっている。このような測定モデルを用いることにより、多くの受聴者の耳介形状に対応する耳介形状パラメータを再現することが可能になり、機械学習の精度を高めることができる。

また、本実施形態のＨＲＴＦ推論装置１００では、カメラ１２０、１２２によって撮像された画像に基づいて受聴者の耳介形状を特定し、この特定内容に基づいて耳介形状パラメータＰの各値を決定している。これにより、受聴者（個人）固有の耳介形状を容易かつ短時間で判別し、この受聴者に対応する正確なＨＲＴＦモデルを特定し、この受聴者に対応するＨＲＴＦを推定することが可能となる。

また、カメラ１２０、１２２として、車両に搭載されたドライバーモニタリングシステム用のカメラを用いることにより、車載のオーディオ装置やその他の装置に本発明を適用する際に、装置本体以外の外付け部品が不要になって、部品コストの低減や設置に要する手間の軽減が可能となる。

なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、図３に示した穴Ｈと反射壁Ｗ１と塞ぐ壁Ｗ２とを有する測定モデルを用いてＨＲＴＦモデルの作成を行ったが、これらの可変部位は適宜追加や変更してもよい。これらの可変部位をカメラで撮像して得られた画像に基づいて耳介形状パラメータＰを決定できればよい。また、耳介形状パラメータＰ（ｐ₁、ｐ₂、ｐ₃）の数や内容を変更するようにしてもよい。

また、上述した実施形態では、車載装置１に本発明を適用したが、車室内４００以外の環境において受聴者が音声を聴取する場合にも本発明を適用することができる。

上述したように、本発明によれば、測定モデルを用いることで受聴者（個人）についてのデータ収集をなくすることができるため、データ収集に際しての受聴者の負担軽減が可能となる。また、測定モデルの可変部位の配置や大きさを変更することで各受聴者の耳介形状を再現することにより、頭部伝達関数モデルの精度を上げることができる。

１車載装置
１００ＨＲＴＦ推論装置
１１０ＨＲＴＦ推論部
１２０、１２２カメラ
１３０パラメータ値決定部
１５０ＨＲＴＦモデル作成装置
１５２ＨＲＴＦ測定部
１５４ＨＲＴＦモデル作成部
２００バイノーラル信号生成装置
３００トランスオーラル再生装置
４１０、４１２スピーカ
４００車室内

Claims

耳介形状に対応する複数の耳介形状パラメータのそれぞれに対応する複数の可変部位を有し、これら複数の可変部位の配置および／または大きさを変更することで前記複数の耳介形状パラメータのそれぞれの値の変更が可能な測定モデルと、
音源座標パラメータによって音源位置が特定される音源と、
前記測定モデルにおいて耳穴に相当する位置に配置されたマイクロホンと、
前記音源から出力される測定音に対応して前記マイクロホンで検出した検出音に基づいて前記耳介形状パラメータと前記音源座標パラメータの組み合わせに対応する頭部伝達関数を測定する頭部伝達関数測定手段と、
前記耳介形状パラメータおよび前記音源座標パラメータと、これらに対応して測定された前記頭部伝達関数とを教師データとして用いて機械学習を行って頭部伝達関数モデルを作成する頭部伝達関数モデル作成手段と、
を備えることを特徴とする頭部伝達関数学習装置。
前記頭部伝達関数測定手段は、前記耳介形状パラメータと前記音源座標パラメータの組み合わせの内容が変更されたときに、この変更後の内容に対応する前記頭部伝達関数を測定することを特徴とする請求項１に記載の頭部伝達関数学習装置。
前記音源座標パラメータは、前記測定モデルからの距離ｒと２種類の角度θ、φによって示される極座標によって特定される音源位置に対応しており、前記測定モデルを回転させることにより、前記角度θ、φの少なくとも一方を変更することを特徴とする請求項１または２に記載の頭部伝達関数学習装置。
前記測定モデルは、外耳道に相当する穴と、耳介において音が反射する反射壁と、耳介において外耳道への音の進入を妨げる塞ぐ壁とを有することを特徴とする請求項１～３のいずれか一項に記載の頭部伝達関数学習装置。
前記測定モデルは、径が変更可能な前記穴を有することを特徴とする請求項４に記載の頭部伝達関数学習装置。
前記測定モデルは、前記穴からの距離と高さが変更可能な前記反射壁を有することを特徴とする請求項４または５に記載の頭部伝達関数学習装置。
前記測定モデルは、傾きと前記穴に接する高さが変更可能な前記塞ぐ壁を有することを特徴とする請求項４～６のいずれか一項に記載の頭部伝達関数学習装置。
受聴者の頭部を撮像するカメラと、
前記カメラによって撮像された画像に基づいて受聴者の耳介形状を特定し、この特定内容に基づいて前記耳介形状パラメータの各値を決定するパラメータ値決定手段と、
請求項１～７のいずれか一項に記載された前記頭部伝達関数モデルを用いて、前記パラメータ値決定手段によって決定された値に対応する、特定の受聴者固有の頭部伝達関数を推定する頭部伝達関数推定手段と、
を備えることを特徴とする頭部伝達関数推論装置。
前記カメラは、車両に搭載されたドライバーモニタリングシステム用のカメラが用いられることを特徴とする請求項８に記載の頭部伝達関数推論装置。