JP2021022843A

JP2021022843A - 頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラム

Info

Publication number: JP2021022843A
Application number: JP2019138608A
Authority: JP
Inventors: 石井　卓也; Takuya Ishii; 卓也石井; 萌音勇; Mone Isami; 慶太丹野; Keita Tanno
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-02-18
Anticipated expiration: 2039-07-29
Also published as: JP7358010B2

Abstract

【課題】個々の受聴者の耳介形状に適合した頭部伝達関数（ＨＲＴＦ）をより簡便に得ることができる「頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラム」を提供する。【解決手段】耳介形状を表すデプス画像と、耳介形状に関して垂直方向の角度を変えて実測されたＨＲＴＦデータとをデータセットとして機械学習することによりＨＲＴＦ推定モデルを生成し、受聴者の耳介形状を表すデプス画像を学習済みのＨＲＴＦ推定モデルに入力することによって受聴者のＨＲＴＦ（耳介の位置を基準とした垂直方向の角度に対する周波数特性を示すＨＲＴＦの周波数スペクトラム画像）を推定するようにすることにより、受聴者の耳介形状を表すデプス画像さえ取得すれば、頭部伝達関数を実測しなくても、その受聴者に適合したＨＲＴＦを推定することができるようにする。【選択図】図３

Description

本発明は、頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラムに関し、特に、耳介形状に依存して異なる頭部伝達関数を推定するためのシステムに用いて好適なものである。

ある音源に対して人間が知覚する音の空間的な像を「音像」という。また、音像の空間位置を知覚することを「音像定位」という。音像定位を適切に制御することにより、より臨場感ある立体音響を再現できることが知られている。一般に、スピーカ等の音源から出力された音は、人間の頭部や耳介の影響を受けて両耳の鼓膜に到達する。そのため、精度の高い音像定位を実現するには、頭部伝達関数（Head Related Transfer Function：ＨＲＴＦ）を用いて立体音響を再現することが重要とされている。

頭部伝達関数（ＨＲＴＦ）とは、音源から受聴者の耳までの伝達特性を表す関数であり、受聴者の頭部形状や耳介形状といった身体特徴量に依存することが知られている。したがって、受聴者ごとにＨＲＴＦを測定すれば、個々の受聴者にとって精度の高い音像定位を実現することが可能である。しかしながら、全ての受聴者のＨＲＴＦを測定することは、膨大な時間と無響室などの設備が必要であり、現実的ではない。これに対し、測定した耳介形状からＨＲＴＦを推定する技術が知られている（例えば、特許文献１参照）。

特許文献１に記載の情報処理装置は、ユーザに適したＨＲＴＦを簡便に生成して良好な音像定位を実現ことを目的としたものである。当該情報処理装置は、ダミーヘッドや特定の人物の頭部を用いて測定された、複数方向夫々に対応するＨＲＴＦのデータセットを記憶したデータベースを備え、当該データベースに蓄積された既存のＨＲＴＦを補正することにより、ユーザに良好な音像定位感を与えるＨＲＴＦを生成する。

具体的には、ユーザの耳介角度とダミーヘッドの耳介角度とを取得するとともに、ユーザの頭部に対する指定方向を入力し、入力された指定方向を、ユーザの耳介角度とダミーヘッドの耳介角度との差分に基づいて補正する。そして、補正後の指定方向に対応するＨＲＴＦをデータベースから取得し、これを音響信号のフィルタ演算部に出力する。補正された指定方向に対応するＨＲＴＦがデータベースに存在しない場合は、最近傍のデータを対応するＨＲＴＦとして取得し、これをフィルタ演算部に出力する。

特開２０１７−１４３４６８号公報

日本音響学会誌71巻3号 pp.127-135 「耳介形状と頭部伝達関数のなぞ」

しかしながら、上記特許文献１に記載された技術では、基本的には、耳介角度に基づいて補正した頭部の指定方向に対応する既存のＨＲＴＦをデータベースから取得して利用しているだけなので、データベースに記憶されているデータセット以上にＨＲＴＦの精度を上げることができない。特に、指定方向に対応するＨＲＴＦがデータベースにない場合は、単に最近傍のデータを対応するＨＲＴＦとして取得しているだけなので、受聴者の耳介形状に適合したＨＲＴＦとは言い難い。個々の受聴者の耳介形状に適合したＨＲＴＦを得るためには、データベースに蓄積するデータセットの数を多くする必要がある。しかし、そのためには、多数の人物および多数のダミーヘッドを用いてメジャー等により手作業で耳介形状を計測する必要があり、膨大な手間と時間を要するという問題があった。

また、非特許文献１に記載されているように、ＨＲＴＦは、耳介角度だけでなく、耳介全体の大きさ、耳介各部位の大きさや凸凹の形状などにも依存することが知られている。非特許文献１には、図８（非特許文献１の図−７を引用）に示す９箇所の耳介形状を比較すると各部位において個人差があり、それに応じて最適なＨＲＴＦが変わることが記載されている。しかしながら、上記特許文献１に記載された技術では、耳介角度のみに基づいた補正を行っているため、ＨＲＴＦの精度を上げるのに十分とは言えない。ＨＲＴＦの精度を上げるために、メジャー等により手動で耳介形状を計測してもよいが、計測に膨大な手間と時間を要するという問題があった。また、得られる情報が計測した箇所の情報のみに限られてしまうため、ＨＲＴＦの精度を上げるのにこれで十分とは言えない。

本発明は、このような問題を解決するために成されたものであり、個々の受聴者の耳介形状に適合した頭部伝達関数（ＨＲＴＦ）をより簡便に得ることができるようにすることを目的とする。

上記した課題を解決するために、本発明では、耳介形状を表す耳介形状関連データと、耳介形状に関して実測された頭部伝達関数を表すＨＲＴＦデータとから成る複数のデータセットを学習用データとして機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に受聴者の頭部伝達関数を出力するためのＨＲＴＦ推定モデルを生成するようにしている。ここで、学習用データとして入力されるＨＲＴＦデータは、耳介の位置を基準とした垂直方向の角度に対するピーク周波数およびノッチ周波数のパターンを示す周波数スペクトラムの画像データであり、当該学習用データを用いて生成されるＨＲＴＦ推定モデルは、頭部伝達関数を表す周波数スペクトラムの画像データを出力するものである。

上記のように構成した本発明によれば、耳介形状と、当該耳介形状に関して実測された頭部伝達関数（ＨＲＴＦ）とから成る複数の組み合わせをもとに機械学習により適切なＨＲＴＦ推定モデルが生成される。このため、受聴者の耳介形状を表す耳介形状関連データを、学習済みのＨＲＴＦ推定モデルに推定用データとして入力することにより、受聴者の頭部伝達関数を推定することができる。

これにより、受聴者の耳介形状を表す耳介形状関連データさえ取得すれば、頭部伝達関数を実測しなくても、また耳介形状とＨＲＴＦとの対応付けを大量に記憶したデータベースをあらかじめ用意しなくても、受聴者に適合した頭部伝達関数を推定することができる。しかも、ＨＲＴＦ推定モデルにより推定される頭部伝達関数は、耳介の位置を基準とした垂直方向の角度に対するピーク周波数およびノッチ周波数のパターンを示す周波数スペクトラムとして表されているので、耳介に対して音源が存在する方向である垂直方向の角度に応じた頭部伝達関数を簡便に得ることができる。これにより、本発明によれば、個々の受聴者の耳介形状に適合した頭部伝達関数をより簡便に得ることができる。

本実施形態による頭部伝達関数の推定モデル生成装置の機能構成例を示すブロック図である。本実施形態のＨＲＴＦデータ生成部によるＨＲＴＦデータの生成内容を模式的に示す図である。本実施形態の推定モデル生成部が生成するＨＲＴＦ推定モデルとその生成内容を模式的に示した図である。本実施形態によるＨＲＴＦ推定モデルの逆畳み込みニューラルネットワークによる処理内容を模式的に示す図である。本実施形態による頭部伝達関数の推定装置の機能構成例を示すブロック図である。本実施形態のＨＲＴＦ推定部による処理内容を模式的に示す図である。本実施形態の推定装置により推定された頭部伝達関数を適用する音響装置の畳み込み演算部を模式的に示す図である。耳介形状の計測箇所の例を示す図である。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による頭部伝達関数の推定モデル生成装置（以下、単に推定モデル生成装置１００という）の機能構成例を示すブロック図である。図１に示すように、本実施形態の推定モデル生成装置１００は、機能構成として、学習用データ入力部１１および推定モデル生成部１２を備えている。

上記学習用データ入力部１１および推定モデル生成部１２は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記学習用データ入力部１１および推定モデル生成部１２は、実際にはコンピュータのＣＰＵまたはＧＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶された頭部伝達関数の推定用プログラムが動作することによって実現される。

学習用データ入力部１１は、耳介形状を表す耳介形状関連データと、耳介形状に関して実測された頭部伝達関数（ＨＲＴＦ）を表すＨＲＴＦデータとをデータセットとして、複数のデータセットを学習用データとして入力する。ここで、耳介形状関連データは、耳介形状関連データ生成部１０１により生成される。また、ＨＲＴＦデータは、ＨＲＴＦデータ生成部１０２により生成される。複数のデータセットは、複数人の被験者の耳介から生成される。

耳介形状関連データ生成部１０１は、例えばデプスセンサ（距離センサ、３Ｄセンサともいう）であり、被験者の耳介形状の深度を測定することにより、２次元のデプス画像を生成する。２次元のデプス画像とは、センサから耳介の各点までの距離（深度）をそれぞれ色や濃淡などの違いで表した画像データであり、耳介の形状に応じた深度がドット単位で表されたものである。デプスセンサは、例えば２台のカメラにより耳介を撮影した２つの画像間の視差を計算して距離を検出するものを用いることが可能である。なお、デプスセンサの方式はこれに限定されるものではなく、これ以外の方式のデプスセンサを用いてもよい。

また、耳介形状関連データ生成部１０１は、デプスセンサに限定されない。例えば、３Ｄスキャナで耳介をスキャンして２次元のデプス画像を生成するようにしてもよい。また、デプスセンサの代わりに単眼カメラを複数使用し、複数の単眼カメラにより撮影した画像間の視差を計算して距離を検出するシステムや、１つの単眼カメラにより複数アングルで撮影した画像から距離を検出するシステムとしてもよい。あるいは、１つの単眼カメラを使って撮影した画像に対して畳み込みニューラルネットワークを用いた深度推定アルゴリズム（例えば、深度推定できるように学習したＣＮＮ−ＤｅｐｔｈやＤＮＮに基づく推定モデル）を使用して各画素の深度を検出するシステムを用いてもよい。

ＨＲＴＦデータ生成部１０２は、無響室内で耳介のインパルス応答を計測し、その計測結果を高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）等の周波数変換手段を用いて周波数領域の情報として表すことにより、頭部伝達関数を表す周波数スペクトラムを生成する。例えば、被験者の耳介を３Ｄスキャナでスキャンし、そのスキャンデータを用いて３次元の耳型を３Ｄプリンタで印刷する。そして、こうして形成した３次元の耳型をダミーヘッドに装着し、耳型に対して所定位置に設置したスピーカから放音してインパルス応答を計測する。なお、被験者本人に耳栓型のマイクを付けてもらってインパルス応答を計測するようにしてもよい。

ここで、インパルス応答の計測は、耳介に対して正面方向だけでなく、耳介の位置を基準として水平方向および垂直方向にそれぞれ角度を変えて（例えば、５度刻み）計測する。耳介に対する正面方向とは、例えば、被験者の顔を真横から見たときの方向を水平方向の基準とし、耳介の中心位置の高さを垂直方向の基準とした場合において、水平方向および垂直方向が共に基準の方向を向いている状態をいう。なお、正面方向は任意に定義することが可能であり、上記の定義は一例に過ぎない。

図２は、ＨＲＴＦデータ生成部１０２によるＨＲＴＦデータの生成内容を模式的に示す図である。図２（ａ）に示すように、ＨＲＴＦデータ生成部１０２は、上述のように計測したインパルス応答のうち、残響効果を含まない前半部分ＦＨを切り出し、これを周波数変換して頭部伝達関数の周波数スペクトラムを生成する。ＨＲＴＦデータ生成部１０２は、耳介の正面方向から水平方向（方位角）および垂直方向（仰角および俯角の少なくとも一方）にそれぞれ角度を変えて複数のインパルス応答を計測し、それぞれを周波数変換する。

さらに、ＨＲＴＦデータ生成部１０２は、複数のインパルス応答から変換した複数の周波数スペクトラムを用いて、図２（ｂ）に示すように、垂直方向の角度に対する周波数特性（ピーク周波数およびノッチ周波数を含む）のパターンを示す周波数スペクトラムの画像データを水平方向の角度ごとに生成する。図２（ｂ）は、水平方向の角度をある角度に固定し、垂直方向の角度を変えて測定した複数のインパルス応答から生成した１つの周波数スペクトラムの画像データを示している。ＨＲＴＦデータ生成部１０２は、このような周波数スペクトラムの画像データを水平方向の角度を変えてそれぞれ生成し、これを１つのＨＲＴＦデータとする。ＨＲＴＦデータ生成部１０２は、このＨＲＴＦデータを複数の被験者の耳介についてそれぞれ生成する。

推定モデル生成装置１００の学習用データ入力部１１は、以上のようにして複数人の被験者の耳介から耳介形状関連データ生成部１０１により生成された複数の耳介形状関連データ（以下、デプス画像として説明する）と、複数人の被験者の耳介からＨＲＴＦデータ生成部１０２により生成された複数のＨＲＴＦデータ（以下、図２（ｂ）のような周波数スペクトラム画像として説明する）とを複数組のデータセットとして入力する。なお、図１では、耳介形状関連データ生成部１０１およびＨＲＴＦデータ生成部１０２が共に推定モデル生成装置１００に接続された構成として図示しているが、このような接続関係で構成することは必須ではない。

例えば、耳介形状関連データ生成部１０１（デプスセンサ等）により生成されたデプス画像を記憶媒体に記憶し、当該記憶媒体を推定モデル生成装置１００に接続することにより、学習用データ入力部１１が記憶媒体からデプス画像を入力するようにしてもよい。この場合の記憶媒体は、リムーバル記憶媒体としてもよいし、ＬＡＮ（Local Area Network）またはインターネット等の通信ネットワークに接続されたサーバが備える外部ストレージ装置としてもよい。

また、ＨＲＴＦデータ生成部１０２をパーソナルコンピュータにより実装し、当該パーソナルコンピュータで生成した周波数スペクトラム画像を記憶媒体に記憶して、当該記憶媒体を推定モデル生成装置１００に接続することにより、学習用データ入力部１１が記憶媒体から周波数スペクトラム画像を入力するようにしてもよい。この場合の記憶媒体は、リムーバル記憶媒体としてもよいし、ＬＡＮまたはインターネット等の通信ネットワークに接続されたサーバが備える外部ストレージ装置としてもよい。

推定モデル生成部１２は、学習用データ入力部１１により入力された学習用データを用いて機械学習処理を行うことにより、受聴者に関するデプス画像が入力された際に受聴者の頭部伝達関数（周波数スペクトラム画像）を出力するためのＨＲＴＦ推定モデルを生成する。受聴者とは、自分の耳介形状に合わせた頭部伝達関数を測定して音像定位を行い、頭部伝達関数に合わせたパラメータを音響装置に設定したいと考えているユーザである。

図３は、推定モデル生成部１２が生成するＨＲＴＦ推定モデルとその生成内容を模式的に示した図である。図３に示すように、ＨＲＴＦ推定モデル３０は、デプス画像から耳介形状の特徴量を抽出するための畳み込みニューラルネットワーク（以下、畳み込みＮＮ３１と記す）と、当該畳み込みＮＮ３１により抽出された特徴量をもとに頭部伝達関数を表す周波数スペクトラム画像を推定するための逆畳み込みニューラルネットワーク（以下、逆畳み込みＮＮ３２と記す）とにより構成される。

畳み込みＮＮ３１は複数の畳み込み層を有し、それぞれの畳み込み層において、画像上に設定したフィルタと呼ばれる小領域（ｍ画素×ｎ画素のエリア）の各画素値に対して所定の演算を行うことによって特徴量を抽出する。このフィルタ処理を、小領域をスライドさせながら繰り返すことにより、小領域ごとに特徴量を抽出する。第１の畳み込み層では、耳介形状関連データ生成部１０１により生成されたデプス画像を、当該デプス画像よりサイズの小さい第１の特徴量画像に圧縮する。第２の畳み込み層では、第１の畳み込み層で生成された第１の特徴量画像を、当該第１の特徴量画像よりサイズの小さい第２の特徴量画像に圧縮する。畳み込みＮＮ３１は、このような処理を複数階層にわたって繰り返すことにより、ダウンサンプリングされた所定サイズの特徴量画像を生成する。

図４は、逆畳み込みＮＮ３２による処理内容を模式的に示す図である。逆畳み込みＮＮ３２による処理は、いわゆるＧＡＮ（Generative Adversarial Network：敵対的生成ネットワーク）として知られた学習アルゴリズムを応用したものである。図４に示すように、逆畳み込みＮＮ３２は、機能構成として、画像生成部４１および評価値算出部４２を備えている。画像生成部４１は、ＧＡＮにおいて一般的に生成器（generator）と呼ばれるものに相当する。一方、評価値算出部４２は、ＧＡＮにおいて一般的に識別器（discriminator）と呼ばれるものに相当する。

画像生成部４１は複数の逆畳み込み層を有し、所定の画像生成アルゴリズムに従って、それぞれの逆畳み込み層において特徴量画像の画素値をアップサンプリングすることにより、画像を復元していく。ただし、画像生成部４１は、特徴量画像から元のデプス画像を復元するのではなく、ＨＲＴＦデータ生成部１０２により生成された周波数スペクトラム画像に近い画像（以下、復元画像という）を復元するように動作する。

評価値算出部４２は、画像生成部４１により生成された復元画像を入力するとともに、ＨＲＴＦデータ生成部１０２により生成された周波数スペクトラム画像を正解画像（教師データ）として入力する。そして、所定の識別アルゴリズムに従って、入力された復元画像が正解画像であるか否かを識別し、その識別結果に応じた評価値を画像生成部４１に出力する。例えば、正解画像であると識別された場合は“１”、正解画像ではないと識別された場合は“０”の評価値を画像生成部４１に出力する。

逆畳み込みＮＮ３２では、復元画像を入力として評価値算出部４２により算出される評価値が“１”となるように画像生成部４１の画像生成アルゴリズムを改変する。画像生成アルゴリズムを改変するとは、画像生成処理ロジックの変更や、その画像生成処理ロジックにおいて用いる関数やパラメータの変更、画像生成処理ロジックにおいて用いるライブラリの変更などの少なくとも１つを含む。

また、逆畳み込みＮＮ３２では、復元画像を入力として評価値算出部４２により算出される評価値が“０”となり、正解画像を入力として評価値算出部４２により算出される評価値が“１”となるように評価値算出部４２の識別アルゴリズムを改変する。識別アルゴリズムを改変するとは、入力された復元画像が正解画像か否かを識別する際の識別処理ロジックの変更や、その識別処理ロジックにおいて用いる関数やパラメータの変更、識別処理ロジックにおいて用いるライブラリの変更などの少なくとも１つを含む。

ここで、復元画像を入力として評価値算出部４２により算出される評価値が“０”となり、正解画像を入力として評価値算出部４２により算出される評価値が“１”となるように識別アルゴリズムを改変するというのは、識別器に相当する評価値算出部４２が、入力される復元画像が正解画像なのかそうでないのかを識別する能力を高めるように学習することを意味する。この識別能力が高まっていけば、評価値算出部４２は、正解画像とわずかに異なる画像であっても、それが正解画像ではないと識別することができるようになる。

一方、復元画像を入力として評価値算出部４２により算出される評価値が“１”となるように画像生成部４１の画像生成アルゴリズムを改変するというのは、画像生成部４１が、評価値算出部４２が正解画像かどうかを識別できないような復元画像を生成する能力を高めるように学習することを意味する。この生成能力が高まっていけば、画像生成部４１は、正解画像と殆ど相違のない周波数スペクトラム画像を生成することができるようになる。

実際には、画像生成部４１による学習と、評価値算出部４２による学習とを交互に繰り返す。このように、画像生成部４１（generator）は、正解画像にできるだけ近く評価値算出部４２を騙せるような復元画像を生成し、評価値算出部４２（discriminator）は、画像生成部４１が正解画像に似せようとして生成した復元画像と正解画像とをできるだけ見分けられるように学習する。これにより、学習が進むと、画像生成部４１は、ＨＲＴＦデータ生成部１０２により生成された周波数スペクトラム画像（正解画像）と殆ど見分けがつかない復元画像を生成することができるようになる。

図３に示すように、ＨＲＴＦ推定モデル３０は水平方向の角度ごとに存在し、推定モデル生成部１２は、水平方向の角度ごとに存在する複数のＨＲＴＦ推定モデル３０ごとに機械学習処理を行う。具体的には、教師データとして提示する周波数スペクトラム画像の水平方向の角度に応じて、ＨＲＴＦ推定モデル３０を適宜切り替えて学習を行う。そして、学習されたＨＲＴＦ推定モデル３０を推定モデル記憶部１０３に記憶させる。推定モデル記憶部１０３は、リムーバル記憶媒体であってもよいし、ＬＡＮまたはインターネット等の通信ネットワークを介して接続されたサーバが備える外部ストレージ装置であってもよい。

図５は、本実施形態による頭部伝達関数の推定装置（以下、単に推定装置２００という）の機能構成例を示すブロック図である。本実施形態の推定装置２００は、図１に示した推定モデル生成装置１００により生成されたＨＲＴＦ推定モデルを用いて、受聴者に適合した頭部伝達関数の周波数スペクトラム画像を推定するものである。

図５に示すように、本実施形態の推定装置２００は、機能構成として、推定用データ入力部２１およびＨＲＴＦ推定部２２を備えている。推定用データ入力部２１およびＨＲＴＦ推定部２２は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、推定用データ入力部２１およびＨＲＴＦ推定部２２は、実際にはコンピュータのＣＰＵまたはＧＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶された頭部伝達関数の推定用プログラムが動作することによって実現される。

推定用データ入力部２１は、受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する。推定用データ入力部２１が入力する耳介形状関連データは、学習用データ入力部１１が入力する耳介形状関連データと同様であり、受聴者について耳介形状関連データ生成部１０１により生成される耳介のデプス画像である。

ＨＲＴＦ推定部２２は、図６に示すように、推定用データ入力部２１により入力された受聴者の耳介のデプス画像を、推定モデル生成装置１００により生成されたＨＲＴＦ推定モデル３０（推定モデル記憶部１０３に記憶された学習済みのＨＲＴＦ推定モデル３０）に入力することにより、受聴者の頭部伝達関数を表す周波数スペクトラム画像を推定する。ＨＲＴＦ推定モデル３０の学習が十分に進んでいれば、ＨＲＴＦ推定モデル３０による推定によって個人特性を考慮したＨＲＴＦが得られるため、個々の受聴者について無響室等でＨＲＴＦを実測する必要はない。

なお、以上のように推定したＨＲＴＦを用いて音像を定位する場合は、任意の定位させたい角度（耳介から音源が存在する水平方向の角度および垂直方向の角度）に対応するＨＲＴＦを選択し、当該選択したＨＲＴＦの周波数特性を実現する音響パラメータｈ₀，ｈ₁，・・・，ｈ_n-1を音響装置の畳み込み演算部（参考として模式的な構成を図７に示す）に設定すればよい。このとき、必要に応じて残響効果を付加するための音響パラメータを追加設定してもよい。このようにすることで、耳介から所望の角度の方向に音源が存在するように音像を適切に定位した状態で音を再生することができる。すなわち、個人最適化した頭部伝達関数を再生時の音声に畳み込むことにより、イヤホン、ヘッドホン、または２台のスピーカのみで高臨場感の音空間を再現することが可能になる。

以上詳しく説明したように、本実施形態では、複数の被験者の耳介形状を表す耳介形状関連データ（デプス画像）と、複数の被験者の耳介形状に関して実測された頭部伝達関数を表すＨＲＴＦデータ（耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データ）とから成る複数のデータセットを学習用データとして機械学習処理を行うことにより、デプス画像を入力としてＨＲＴＦの周波数スペクトラム画像を出力とするＨＲＴＦ推定モデルを生成するようにしている。そして、受聴者の耳介形状を表す耳介形状関連データ（デプス画像）を学習済みのＨＲＴＦ推定モデルに入力することにより、受聴者の頭部伝達関数を表す周波数スペクトラム画像を推定するようにしている。

このように構成した本実施形態によれば、耳介形状と、当該耳介形状に関して実測されたＨＲＴＦとから成る複数の組み合わせをもとに機械学習により適切なＨＲＴＦ推定モデルが生成され、生成されたＨＲＴＦ推定モデルを用いて、受聴者の耳介形状を表すデプス画像から受聴者の頭部伝達関数が推定される。このため、受聴者の耳介形状を表すデプス画像さえ取得すれば、頭部伝達関数を実測しなくても、また耳介形状とＨＲＴＦとの対応付けを大量に記憶したデータベースをあらかじめ用意しなくても、その受聴者に適合した頭部伝達関数を推定することができる。

デプス画像は、センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであり、耳介の形状に応じた深度がドット単位で表されたものである。このため、デプス画像は、メジャー等により手動で耳介形状を計測する場合のように、耳介の限定された箇所について計測された限定された情報ではなく、耳介全体の大きさ、耳介の各部位の大きさや凸凹の形状などの情報を網羅的に含んでいる。本実施形態によれば、このような耳介形状の情報を含んだデプス画像をデプスセンサにより簡単に得て、これを用いて頭部伝達関数を推定することができるため、耳介形状の特徴量を損なわずに、精度よく頭部伝達関数の推定を行うことができる。

しかも、ＨＲＴＦ推定モデルにより推定される頭部伝達関数は、耳介の位置を基準とした垂直方向の角度に対する周波数特性（ピーク周波数およびノッチ周波数を含む）のパターンを示す周波数スペクトラム画像として表されているので、耳介に対して音源が存在する方向である垂直方向の角度に応じた頭部伝達関数を簡便に得ることができる。

また、本実施形態では、垂直方向の角度に対する周波数特性を表した周波数スペクトラム画像を水平方向の角度ごとに生成して学習用データとし、水平方向の角度ごとに存在する複数のＨＲＴＦ推定モデルごとに機械学習処理を行うようにし、水平方向の角度ごとに学習したＨＲＴＦ推定モデルを用いて受聴者の頭部伝達関数の周波数スペクトラム画像を推定するようにしている。これにより、耳介に対して音源が存在する方向として、垂直方向の角度に加えて水平方向の角度に応じた頭部伝達関数を簡便に得ることができる。

なお、上記実施形態では、垂直方向の角度に対する周波数特性を示す周波数スペクトラム画像を水平方向の角度ごとに用いる例について説明したが、本発明はこれに限定されない。例えば、より簡便なモデルとして、水平方向については基準の角度（正面方向の角度）に固定し、垂直方向の角度のみを変えた１つの周波数スペクトラム画像を用いるようにしてもよい。

また、上記実施形態では、耳介形状関連データとしてデプス画像を用いる例について説明したが、本発明はこれに限定されない。例えば、単眼カメラを使って撮影した耳介の２Ｄ画像（耳の輪郭形状）を耳介形状関連データとして用いるようにしてもよい。

なお、上記実施形態では、図１に示す推定モデル生成装置１００と図５に示す推定装置２００とを別装置として構成する例について説明したが、本発明はこれに限定されない。例えば、ＨＲＴＦ推定モデルを生成する機能とＨＲＴＦを推定する機能とを備えた１つの装置として構成するようにしてもよい。

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１１学習用データ入力部
１２推定モデル生成部
２１推定用データ入力部
２２ＨＲＴＦ推定部
１００推定モデル生成装置
１０１耳介形状関連データ生成部
１０２ＨＲＴＦデータ生成部
２００推定装置

Claims

耳介形状を表す耳介形状関連データと、上記耳介形状に関して実測された頭部伝達関数を表すＨＲＴＦデータとをデータセットとして、複数のデータセットを学習用データとして入力する学習用データ入力部と、
上記学習用データ入力部により入力された上記学習用データを用いて機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に上記受聴者の頭部伝達関数を出力するためのＨＲＴＦ推定モデルを生成する推定モデル生成部とを備え、
上記学習用データ入力部により入力される上記ＨＲＴＦデータは、耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データであり、
上記ＨＲＴＦ推定モデルは、上記耳介形状関連データを入力とし、上記頭部伝達関数を表す上記周波数スペクトラムの画像データを出力とするものであることを特徴とする頭部伝達関数の推定モデル生成装置。
上記ＨＲＴＦ推定モデルは、上記耳介形状関連データから上記耳介形状の特徴量を抽出するための畳み込みニューラルネットワークと、当該畳み込みニューラルネットワークにより抽出された特徴量をもとに上記頭部伝達関数を表す上記周波数スペクトラムの画像データを推定するための逆畳み込みニューラルネットワークとにより構成されることを特徴とする請求項１に記載の頭部伝達関数の推定モデル生成装置。
上記学習用データ入力部により入力される上記ＨＲＴＦデータは、上記耳介の位置を基準として水平方向および垂直方向にそれぞれ角度を変えて計測した複数のインパルス応答のデータを用いて、上記垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データを上記水平方向の角度ごとに生成したものであり、
上記ＨＲＴＦ推定モデルは、上記水平方向の角度ごとに存在し、
上記推定モデル生成部は、上記水平方向の角度ごとに存在する複数の上記ＨＲＴＦ推定モデルごとに上記機械学習処理を行うことを特徴とする請求項１または２に記載の頭部伝達関数の推定モデル生成装置。
上記学習用データ入力部により入力される上記耳介形状関連データは、センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであることを特徴とする請求項１〜３の何れか１項に記載の頭部伝達関数の推定モデル生成装置。
受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する推定用データ入力部と、
上記推定用データ入力部により入力された耳介形状関連データを、請求項１〜４の何れか１項に記載の推定モデル生成装置により生成された上記ＨＲＴＦ推定モデルに入力することにより、上記受聴者の頭部伝達関数を表す周波数スペクトラムの画像データを推定するＨＲＴＦ推定部とを備えたことを特徴とする頭部伝達関数の推定装置。
耳介形状を表す耳介形状関連データと、上記耳介形状に関して実測された頭部伝達関数を表すＨＲＴＦデータとをデータセットとして、複数のデータセットを学習用データとして入力する学習用データ入力手段、および
上記学習用データ入力手段により入力された上記学習用データを用いて機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に上記受聴者の頭部伝達関数を出力するためのＨＲＴＦ推定モデルを生成する推定モデル生成部手段
として推定モデル生成装置のコンピュータを機能させ、
上記学習用データ入力手段により入力される上記ＨＲＴＦデータは、耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データであり、
上記ＨＲＴＦ推定モデルは、上記耳介形状関連データを入力とし、上記頭部伝達関数を表す上記周波数スペクトラムの画像データを出力とするものであることを特徴とする頭部伝達関数の推定用プログラム。
受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する推定用データ入力手段、および
上記推定用データ入力手段により入力された耳介形状関連データを、請求項１〜４の何れか１項に記載の推定モデル生成装置により生成された上記ＨＲＴＦ推定モデルに入力することにより、上記受聴者の頭部伝達関数を表す周波数スペクトラムの画像データを推定するＨＲＴＦ推定手段
として推定装置のコンピュータを機能させるための頭部伝達関数の推定用プログラム。