JP6596896B2

JP6596896B2 - 頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、音声再生装置

Info

Publication number: JP6596896B2
Application number: JP2015081483A
Authority: JP
Inventors: 優美藤井
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2019-10-30
Anticipated expiration: 2035-04-13
Also published as: US20180048959A1; WO2016167007A1; US10142733B2; JP2016201723A

Description

本発明は、ユーザ自身の頭部伝達関数と近い頭部伝達関数を選択することができる頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、ユーザ自身の頭部伝達関数と近い頭部伝達関数を用いて音声信号を再生することができる音声再生装置に関する。

ヘッドホン（イヤホン）によって音声信号を再生して聴くと、音声が頭の中で鳴っているように感じる頭内定位という現象が起こりやすい。ダミーヘッドや他人の頭部による頭部伝達関数を用いて、音声が頭の外で鳴っているように頭外定位させる技術を用いれば、頭内定位の現象を低減させることができる。

特開２０１３−１６８９２４号公報特表２０１３−５２４７１１号公報

頭部伝達関数は、頭部や耳介の形状によって特性が異なる。よって、ヘッドホンを装着して音声を聴くユーザ自身の頭部伝達関数を用いて音声を頭外定位させることが望ましい。しかしながら、自分自身の頭部伝達関数を日常生活の中で測定することは容易ではない。

本発明は、自分自身の頭部伝達関数に近似する頭部伝達関数を容易に選択することができる頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラムを提供することを目的とする。また、本発明は、自分自身の頭部伝達関数に近似する頭部伝達関数を用いて音声信号を再生することができる音声再生装置を提供することを目的とする。

本発明は、ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得する測定部と、前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出する特徴量抽出部と、前記特徴量抽出部によって抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する特性選択部とを備える頭部伝達関数選択装置を提供する。

本発明は、ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させ、ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得し、前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出し、抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する頭部伝達関数選択方法を提供する。

本発明は、コンピュータに、ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得するステップと、前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出するステップと、抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択するステップとを実行させる頭部伝達関数選択プログラムを提供する。

本発明は、ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得する測定部と、前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出する特徴量抽出部と、前記特徴量抽出部によって抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する特性選択部と、音声データに、前記特性選択部によって選択された頭部伝達関数を畳み込み演算して、前記音声データを再生する再生部とを備える音声再生装置を提供する。

本発明の頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラムによれば、自分自身の頭部伝達関数に近似する頭部伝達関数を容易に選択することができ、自分自身の特性に近い定位効果を容易に実現できる。本発明の音声再生装置によれば、自分自身の頭部伝達関数に近似する頭部伝達関数を用いて音声信号を再生することができる。

一実施形態の頭部伝達関数選択装置及び音声再生装置を示すブロック図である。ユーザの頭部インパルス応答を測定する第１測定例を示すフローチャートである。携帯端末を水平方向の角度０°、仰角０°である顔の正面に位置させた状態を示す模式図である。携帯端末を仰角０°の位置から３０°，６０°に移動させる状態を示す模式図である。第１測定例による測定パターンを示す図である。無響室において測定信号の音声をスピーカより出力させて、水平方向の角度０°で仰角を変化させたときの頭部伝達関数を示す特性図である。ユーザの頭部インパルス応答を測定する第２測定例を示すフローチャートである。携帯端末を水平方向の角度−３０°の位置から０°，３０°に移動させる状態を示す模式図である。第２測定例による測定パターンを示す図である。ユーザの頭部インパルス応答を測定する第３測定例を示すフローチャートである。第３測定例による測定パターンを示す図である。第１〜第４測定例をまとめた図である。

以下、一実施形態の頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、音声再生装置について、添付図面を参照して説明する。

＜頭部伝達関数選択装置及び音声再生装置の全体構成＞
まず、図１を用いて、一実施形態の頭部伝達関数選択装置及び音声再生装置の全体構成を説明する。

図１において、汎用の携帯端末１００は、頭部伝達関数選択装置及び音声再生装置として機能する。携帯端末１００は、一例として、スマートフォン等の携帯電話であってもよい。

携帯端末１００は、カメラ１と、加速度センサ２と、角速度センサ３とを備える。カメラ１と、加速度センサ２と、角速度センサ３とは、例えばＣＰＵによって構成される制御部４に接続されている。制御部４は、測定部４１と、特徴量抽出部４２と、特性選択部４３と、再生部４４とを有する。

カメラ１が被写体を撮影した撮影信号は測定部４１に入力され、測定部４１より表示部１０に供給されて表示される。ユーザが、図示していない操作部によって所定の操作をしたら、カメラ１は被写体を撮影して撮影信号を生成すればよい。

加速度センサ２が検出した加速度検出信号と、角速度センサ３が検出した携帯端末１００の傾きや角度を示す角速度検出信号は測定部４１に入力される。加速度センサ２及び角速度センサ３は、携帯端末１００の電源が投入されている状態で常時動作していてもよい。

測定部４１は、ユーザの頭部インパルス応答（ＨＲＩＲ）を測定するための所定の測定信号であるデジタル音声データを発生させることができる。ユーザが操作部によって所定の操作をしたら、測定部４１はデジタル音声データをＤ／Ａ変換器５に供給する。

Ｄ／Ａ変換器５はデジタル音声データをアナログ音声信号に変換して、スピーカ６に供給する。スピーカ６は、携帯端末１００に内蔵されているスピーカでよい。スピーカ６として、外付けのスピーカを用いてもよい。スピーカ６はモノラルスピーカであってもよく、ステレオスピーカであってもよい。

音声信号出力端子７には、ヘッドホン４０が取り付けられることがある。ヘッドホン４０の使い方については後述する。

マイクロホン接続端子８には、マイクロホン２０が接続されている。マイクロホン２０は、ユーザの耳介に装着できるイヤホン型のマイクロホンであることが好ましい。マイクロホン２０は、モノラルのマイクロホンであってもよく、ステレオのマイクロホンであってもよい。本実施形態においては、マイクロホン２０は、モノラルのマイクロホンであるとする。

後述するようにして、ユーザが携帯端末１００を自分の顔の前方に位置させた状態でスピーカ６より音声を出力させたとき、マイクロホン２０は音声を収音する。マイクロホン２０より出力されたアナログ音声信号は、マイクロホン接続端子８を介してＡ／Ｄ変換器９に入力される。Ａ／Ｄ変換器９は、アナログ音声信号をデジタル音声データに変換して、測定部４１に供給する。

測定部４１に入力されるデジタル音声データは、ユーザの頭部や耳介の形状によって異なるユーザ自身のＨＲＩＲを示す。

測定部４１は、携帯端末１００を後述する複数の位置に位置させたときのＨＲＩＲを取得して、記憶部１１に一時的に記憶させる。記憶部１１に記憶されたＨＲＩＲは、特徴量抽出部４２に入力される。

特徴量抽出部４２は、入力されたＨＲＩＲをフーリエ変換して頭部伝達関数（ＨＲＴＦ）を生成する。測定部４１がＨＲＩＲをＨＲＴＦに変換して、記憶部１１に記憶させてもよい。

特徴量抽出部４２は、ユーザのＨＲＴＦが有する特徴量を取得する。特徴量の詳細については後述する。特徴量抽出部４２が抽出した特徴量は、特性選択部４３に入力される。

外部のサーバ３０には、多数の人のそれぞれのＨＲＴＦと、後述するＨＲＴＦの特徴量とを対応付けたデータベース３０１が記憶されている。特性選択部４３は、通信部１２を介してサーバ３０にアクセスし、データベース３０１より、特徴量抽出部４２が抽出した特徴量に最も近似する特徴量を有するＨＲＴＦを選択する。

選択されたＨＲＴＦは、通信部１２を介して特性選択部４３に入力される。選択されたＨＲＴＦは、ユーザ自身のＨＲＴＦとほぼ同等のＨＲＴＦである。特性選択部４３は、ＨＲＴＦを再生部４４に供給する。

携帯端末１００が予めデータベース３０１を内蔵していてもよい。携帯端末１００がサーバ３０にアクセスしてデータベース３０１のデータを読み出し、記憶部１１または図示していない他の記憶部にデータベース３０１と同様のデータを記憶させもよい。

再生部４４には、音声信号入力端子１３を介して、外部より、携帯端末１００によって再生すべきデジタル音声データが入力される。再生部４４に、携帯端末１００に内蔵された記憶部に記憶されたデジタル音声データが入力されてもよい。外部よりアナログ音声信号が入力される場合には、Ａ／Ｄ変換器９または他のＡ／Ｄ変換器によってデジタル音声データに変換して再生部４４に供給すればよい。

再生部４４は、デジタル音声データにＨＲＴＦを畳み込み演算するフィルタ４４１を有する。フィルタ４４１は、入力されたデジタル音声データに特性選択部４３によって選択されたＨＲＴＦを畳み込み演算して、Ｄ／Ａ変換器５に供給する。Ｄ／Ａ変換器５は、再生部４４より供給されたデジタル音声データをアナログ音声信号に変換する。

Ｄ／Ａ変換器５より出力されたアナログ音声信号は、音声信号出力端子７を介してヘッドホン４０に供給される。ヘッドホン４０は、オーバヘッド型、インナイヤ型、カナル型等の任意のヘッドホンである。ヘッドホンには、イヤホンと称されているものも含まれる。ヘッドホン４０とマイクロホン２０とが一体的に構成されていてもよい。

ユーザは、ヘッドホン４０を頭部または耳介に装着して、音声信号出力端子７より出力されたアナログ音声信号による音声を聴く。フィルタ４４１によってユーザ自身のＨＲＴＦとほぼ同等のＨＲＴＦが畳み込まれていることから、ユーザは、自分自身に適した状態で頭外定位した音声を聴くことができる。

また、ユーザは、左右の音声が後述する所定の角度方向から鳴っているような状態で音声を聴くことができる。

次に、ユーザのＨＲＩＲを測定するための具体的な測定例を順に説明する。

＜第１測定例＞
図２に示すフローチャートを用いて、第１測定例を説明する。図２に示すフローチャートまたは後述するフローチャートは、ユーザによる動作を示すステップと、携帯端末１００で実行される処理を示すステップとを含む。

図２において、ユーザは、ステップＳ１１にて、マイクロホン２０を一方の耳に装着し、携帯端末１００の仰角γを０°とし、水平方向の角度θとして０°の方向に位置させる。

具体的には、図３に示すように、ユーザは例えば左耳５０Ｌにマイクロホン２０を装着し、携帯端末１００を頭部５０（顔）の正面に位置させる。携帯端末１００が顔の正面である状態を、水平方向の角度θが０°であるとする。

また、携帯端末１００が所望の位置に正しく位置していることを確認するために、カメラ１で撮影した映像や、加速度センサ２、角速度センサ３を用いて、顔の位置が正面となるように、位置補正を行ってもよい。

図４に示すように、携帯端末１００を頭部５０の中心を中心として垂直方向に円弧状に移動させたときの垂直方向の角度を仰角γとする。ユーザが携帯端末１００を左耳５０Ｌまたは右耳５０Ｒの高さに位置させた状態を、仰角γが０°であるとする。

図３及び図４に実線で示す携帯端末１００の位置が、ステップＳ１１による携帯端末１００の設定位置である。

ユーザは、ステップＳ１３にて、上述した測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００の仰角γを０°の位置から、３０°，６０°の位置へと移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

測定部４１には、カメラ１が被写体を撮影した撮影信号、加速度センサ２からの加速度検出信号、角速度センサ３からの角速度検出信号が入力される。よって、測定部４１は、携帯端末１００が、０°，３０°，６０°のそれぞれの仰角γに位置した時点でのＨＲＩＲを取得すればよい。

ユーザは、仰角γを厳密に気にする必要はなく、仰角γが０°から６０°の範囲を含むように、携帯端末１００を垂直方向に移動させればよい。このとき、カメラ１で撮影した映像と加速度センサ２、角速度センサ３の情報から、測定時の携帯端末１００を移動させる軌道から外れたことを検出した場合、正しい軌道を表示部１０に表示するなどの処理を行い、軌道を修正可能としてもよい。

次に、ユーザは、ステップＳ１４にて、マイクロホン２０をもう一方の耳に装着し、携帯端末１００の仰角γを０°とし、水平方向の角度θとして０°の方向に位置させる。

ユーザは、ステップＳ１６にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００の仰角γを０°の位置から、３０°，６０°の位置へと移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

第１測定例による測定パターンは、図５に示す測定パターンＭＰ１である。なお、仰角γの０°，３０°，６０°は単なる例であり、他の角度でもよいし、仰角γの数は３つに限定されるものではない。仰角γの数は２つ以上とするのがよい。

特徴量抽出部４２は、ステップＳ１７にて、ＨＲＩＲの特徴量を抽出する。特徴量抽出部４２は、一例として、次のようにＨＲＩＲの特徴量を抽出すればよい。

図６において、実線で示す特性は、水平方向の角度θを０°、仰角γを０°として、無響室で、測定信号の音声をスピーカ６より出力させたときに測定したＨＲＴＦを示している。一点鎖線で示す特性は、水平方向の角度θを０°、仰角γを１０°として、無響室で、測定信号の音声をスピーカ６より出力させたときに測定したＨＲＴＦを示している。

図６に示すようなＨＲＴＦは、個人の頭部形状や耳の形状により特性が異なる。マサチューセッツ工科大学や名古屋大学の板倉研究室らは、全方向における入射角度を測定したＨＲＴＦのデータベースをインターネットで公開している。

図６は、東北大学電子通信研究所先端音情報システム研究室(http://www.ais.riec.tohoku.ac.jp/lab/db-hrtf/index-j.html)らが公開している、無響室で測定したＨＲＴＦについて、ある特定の被験者における水平方向０°、仰角方向０°〜３０°の測定データを取得し、図式化したものである。

破線で示す特性は、水平方向の角度θを０°、仰角γを２０°として、無響室で、測定信号の音声をスピーカ６より出力させたときに測定したＨＲＴＦを示している。二点鎖線で示す特性は、水平方向の角度θを０°、仰角γを３０°として、無響室で、測定信号の音声をスピーカ６より出力させたときに測定したＨＲＴＦを示している。

図６に示すように、周波数１０ｋＨｚ〜２０ｋＨｚの局所的なピークＰ２の周波数は、仰角γが０°〜３０°でほぼ同一である。ここでは図示していない仰角γが３０°〜６０°でも同様に、ピークＰ２の周波数はほぼ同一となる。

前述のデータベースを参照し、本発明者による他の被験者の測定データを検証し図式したところ、同一被験者においては、仰角γが０°から３０°において、ピークＰ２の周波数は同一またはほぼ同一であるが、異なる被験者においては発生するピークＰ２は異なる周波数となることを確認した。このため、特徴量抽出部４２は、ピークＰ２の周波数をユーザそれぞれのＨＲＴＦの特徴量の１つして抽出する。

特徴量抽出部４２は、ピークＰ２の周波数に加えて、仰角γに応じたピークＰ２の振幅増減の変化量をＨＲＴＦの特徴量として抽出してもよい。

図５に示す測定パターンＭＰ１によって測定したＨＲＴＦの特徴量を特徴量１と称することとする。データベース３０１には、多数の人のそれぞれのＨＲＴＦと少なくとも特徴量１とが対応付けられている。

図２に戻り、特性選択部４３は、ステップＳ１８にて、データベース３０１より、特徴量抽出部４２が抽出した特徴量１に最も近似する特徴量を有するＨＲＴＦを選択し、ＨＲＴＦを再生部４４に設定して処理を終了させる。

ＨＲＴＦは、一例として、左右の音声を仰角γで水平方向の角度±θ°の方向に定位させるＨＲＴＦ（θ，０），ＨＲＴＦ（−θ，０）なるデータである。角度θ°は例えば３０°である。

＜第２測定例＞
図７に示すフローチャートを用いて、第２測定例を説明する。図７において、ユーザは、ステップＳ２１にて、マイクロホン２０を一方の耳に装着し、携帯端末１００の仰角γを０°とし、水平方向の所定の位置に位置させる。

具体的には、図８に示すように、ユーザは例えば左耳５０Ｌにマイクロホン２０を装着し、携帯端末１００を頭部５０（顔）の正面に対して例えば左側に位置させる。第２測定例においても、第１速定例と同様に、携帯端末１００が所望の位置に正しく位置していることを確認するために、カメラ１で撮影した映像や、加速度センサ２、角速度センサ３を用いて、顔の位置が正面となるように、位置補正を行ってもよい。

ユーザは、ステップＳ２２にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を頭部５０の中心を中心として、図８に二点鎖線で示すように水平方向に円弧状に移動させる。このとき、測定部４１は、水平方向の角度θとして−３０°，３０のＨＲＩＲを取得する。

ここでも、測定部４１には、カメラ１が被写体を撮影した撮影信号、加速度センサ２からの加速度検出信号、角速度センサ３からの角速度検出信号が入力される。よって、測定部４１は、携帯端末１００が、−３０°，３０それぞれの水平方向の角度θに位置した時点でのＨＲＩＲを取得すればよい。

ユーザは、水平方向の角度θを厳密に気にする必要はなく、水平方向の角度θが−３０°から３０°の範囲を含むように、携帯端末１００を水平方向に移動させればよい。

次に、ユーザは、ステップＳ２３にて、測定信号の音声をスピーカ６より出力させた状態で、水平方向の角度θを０°とし、携帯端末１００の仰角γを０°の位置から、３０°，６０°の位置へと移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

引き続き、ユーザは、ステップＳ２４にて、マイクロホン２０をもう一方の耳に装着し、ステップＳ２１と同様に、携帯端末１００の仰角γを０°とし、水平方向の所定の位置に位置させる。

ユーザは、ステップＳ２５にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を頭部５０の中心を中心として水平方向に円弧状に移動させる。このとき、測定部４１は、水平方向の角度θとして−３０°，３０のＨＲＩＲを取得する。

次に、ユーザは、ステップＳ２６にて、測定信号の音声をスピーカ６より出力させた状態で、水平方向の角度θを０°とし、携帯端末１００の仰角γを０°の位置から、３０°，６０°の位置へと移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

第２測定例においても、第１測定例と同様に、カメラ１で撮影した映像と加速度センサ２、角速度センサ３の情報から、測定時の携帯端末１００を移動させる軌道から外れたことを検出した場合、正しい軌道を表示部１０に表示するなどの処理を行い、軌道を修正可能としてもよい。

第２測定例による測定パターンは、図９に示す測定パターンＭＰ１及びＭＰ２である。図７では、測定パターンＭＰ２による測定の次に測定パターンＭＰ１による測定としたが、順番は逆でもよい。

同様に、仰角γの０°，３０°，６０°は単なる例であり、他の角度でもよいし、仰角γの数は３つに限定されるものではない。仰角γの数は２つ以上とするのがよい。水平方向の角度θは−３０°と３０°に限定されない。

特徴量抽出部４２は、ステップＳ２７にて、ＨＲＴＦの特徴量を抽出する。特徴量抽出部４２は、一例として、次のようにＨＲＩＲの特徴量を抽出すればよい。

図９に示す測定パターンＭＰ２における水平方向の角度θが−３０°のときのピークＰ２の周波数を特徴量４と称し、３０°のときのピークＰ２の周波数を特徴量５と称することとする。データベース３０１には、多数の人のそれぞれのＨＲＴＦと少なくとも特徴量１，４，５とが対応付けられている。

特徴量４，５には、図６における４ｋＨｚ近傍のピークＰ１の周波数を特徴量として加えてもよい。人それぞれでピークＰ１の周波数も異なることから、ピークＰ１の周波数をユーザそれぞれのＨＲＴＦの特徴量の１つとすることができる。ピークＰ１の振幅値をＨＲＩＲの特徴量として加えてもよい。

図７に戻り、特性選択部４３は、ステップＳ２８にて、データベース３０１より、特徴量抽出部４２が抽出した特徴量１，４，５に最も近似する特徴量を有するＨＲＴＦを選択し、ＨＲＴＦを再生部４４に設定して処理を終了させる。

ＨＲＴＦの具体的なデータは第１測定例と同様であり、一例として、左右の音声を仰角γで水平方向の角度±θ°の方向に定位させるＨＲＴＦ（θ，０），ＨＲＴＦ（−θ，０）なるデータである。角度θ°は例えば３０°である。

＜第３測定例＞
図１０に示すフローチャートを用いて、第３測定例を説明する。図１０において、ユーザは、ステップS301にて、マイクロホン２０を一方の耳に装着し、携帯端末１００の仰角γを０°とし、水平方向の角度θとして−３０°に位置させる。

図８に実線で示す携帯端末１００の位置が、ステップS301による携帯端末１００の設定位置である。第３測定例においても、第１速定例または第２測定例と同様に、携帯端末１００が所望の位置に正しく位置していることを確認するために、カメラ１で撮影した映像や、加速度センサ２、角速度センサ３を用いて、顔の位置が正面となるように、位置補正を行ってもよい。

ユーザは、ステップS302にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を仰角方向に移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

次に、ユーザは、ステップS303にて、携帯端末１００の仰角γを０°とし、水平方向の角度θとして３０°に位置させる。

ユーザは、ステップS304にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を仰角方向に移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

引き続き、ユーザは、ステップS305にて、マイクロホン２０をもう一方の耳に装着し、ステップS301と同様に、携帯端末１００の仰角γを０°とし、水平方向の角度θとして−３０°に位置させる。

ユーザは、ステップS306にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を仰角方向に移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

次に、ユーザは、ステップS307にて、携帯端末１００の仰角γを０°とし、水平方向の角度θとして３０°に位置させる。

ユーザは、ステップS308にて、測定信号の音声をスピーカ６より出力させた状態で、携帯端末１００を仰角方向に移動させる。このとき、測定部４１は、仰角γとして０°，３０°，６０°のＨＲＩＲを取得する。

第３測定例においても、第１測定例または第２測定例と同様に、カメラ１で撮影した映像と加速度センサ２、角速度センサ３の情報から、測定時の携帯端末１００を移動させる軌道から外れたことを検出した場合、正しい軌道を表示部１０に表示するなどの処理を行い、軌道を修正可能としてもよい。

第３測定例による測定パターンは、図１１に示す測定パターンＭＰ３及びＭＰ４である。図１０では、測定パターンＭＰ３による測定の次に測定パターンＭＰ４による測定としたが、順番は逆でもよい。

特徴量抽出部４２は、ステップS309にて、ＨＲＴＦの特徴量を抽出する。特徴量抽出部４２は、一例として、次のようにＨＲＩＲの特徴量を抽出すればよい。

図１１に示す測定パターンＭＰ３における水平方向の角度θが−３０°で仰角γを０°，３０°，６０°としたときのピークＰ２の周波数を特徴量２と称することとする。図１１に示す測定パターンＭＰ４における水平方向の角度θが３０°で仰角γを０°，３０°，６０°としたときのピークＰ２の周波数を特徴量３と称することとする。

データベース３０１には、多数の人のそれぞれのＨＲＴＦと少なくとも特徴量２，３とが対応付けられている。

図１０に戻り、特性選択部４３は、ステップS310にて、データベース３０１より、特徴量抽出部４２が抽出した特徴量２，３に最も近似する特徴量を有するＨＲＴＦを選択し、ＨＲＴＦを再生部４４に設定して処理を終了させる。

なお、特性選択部４３は、必ずしも、ＨＲＴＦ（θ，０），ＨＲＴＦ（−θ，０）のデータとして、データベース３０１に対で記憶されているデータを選択する必要はない。対で記憶されている、あるＨＲＴＦ（θ，０），ＨＲＴＦ（−θ，０）のうちのＨＲＴＦ（θ，０）と、別のＨＲＴＦ（θ，０），ＨＲＴＦ（−θ，０）のうちのＨＲＴＦ（−θ，０）とを組み合わせてもよい。

第３測定例では、図１１に示す測定パターンＭＰ３による特徴量２と、測定パターンＭＰ４による特徴量３とを用いたが、これに第２測定例における特徴量４，５を加えてもよい。

＜第４測定例＞
ユーザが以上説明した測定パターンＭＰ１〜ＭＰ４の全てを測定する第４測定例を行ってもよい。この場合、データベース３０１には、多数の人のそれぞれのＨＲＴＦと特徴量１〜５とが対応付けられている。

特性選択部４３は、データベース３０１より、特徴量抽出部４２が抽出した特徴量１〜５に最も近似する特徴量を有するＨＲＴＦを選択し、ＨＲＴＦを再生部４４に設定する。

以上説明した第１〜第４測定例をまとめると図１２となる。図１２に示すように、第１測定例では、ＨＲＴＦを選択するために、水平方向の角度θを０°、仰角γを０°，３０°，６０°とした測定パターンＭＰ１による特徴量１が用いられる。

第２測定例では、ＨＲＴＦを選択するために、水平方向の角度θを０°、仰角γを０°，３０°，６０°とした測定パターンＭＰ１による特徴量１と、水平方向の角度θを−３０°，３０°、仰角γを０°とした測定パターンＭＰ２による特徴量４，５とが用いられる。

第３測定例では、ＨＲＴＦを選択するために、水平方向の角度θを−３０°、仰角γを０°，３０°，６０°とした測定パターンＭＰ３による特徴量２と、水平方向の角度θを３０°、仰角γを０°，３０°，６０°とした測定パターンＭＰ４による特徴量３とが用いられる。

第４測定例では、ＨＲＴＦを選択するために、測定パターンＭＰ１〜ＭＰ４による特徴量１〜５が用いられる。

測定パターンが多い方が特徴量を抽出しやすい。よって、第１測定例よりも第２，第３測定例の方が好ましく、第４測定例が最も好ましい。但し、測定パターンが多くなるほど測定が煩雑となる。

以上説明したように、本実施形態の頭部伝達関数選択装置は、測定部４１と、特徴量抽出部４２と、特性選択部４３とを備える。

測定部４１は、スピーカ６から測定信号としての所定の音声を発生させた状態で、ユーザの耳に装着したマイクロホン２０によって収音した音声信号に基づいて、ユーザの頭部インパルス応答を取得する。

特徴量抽出部４２は、頭部インパルス応答に対応する周波数特性の特徴量を抽出する。特性選択部４３は、特徴量抽出部４２によって抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベース３０１からいずれかの頭部伝達関数を選択する。

スピーカ６（携帯端末１００）をユーザの顔の正面に位置させた状態を、水平方向の角度θが０°、仰角γが０°であるとする。測定部４１は、スピーカ６を、角度θが０°または正もしくは負の所定の角度θに位置させた状態で、スピーカ６を、垂直方向に円弧状に移動させて仰角γとして複数の角度に位置させたときの複数の頭部インパルス応答を取得するのがよい。

特徴量抽出部４２は、複数の頭部インパルス応答に対応する周波数特性に基づいて特徴量を抽出するのがよい。

測定部４１は、さらに、スピーカ６を、仰角γを０°として、角度θが正及び負の所定の角度θに位置させたときの複数の頭部インパルス応答を取得してもよい。

本実施形態の頭部伝達関数選択方法は、スピーカ６によって測定信号としての所定の音声を発生させ、所定の音声をユーザの耳に装着したマイクロホン２０によって収音した音声信号に基づいて、ユーザの頭部インパルス応答を取得する。

そして、本実施形態の頭部伝達関数選択方法は、頭部インパルス応答に対応する周波数特性の特徴量を抽出し、抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する。

本実施形態の頭部伝達関数選択装置及び頭部伝達関数選択方法によれば、自分自身の頭部伝達関数に近似する頭部伝達関数を容易に選択することができる。

測定部４１と、特徴量抽出部４２と、特性選択部４３の部分を、コンピュータプログラム（頭部伝達関数選択プログラム）で構成することも可能である。再生部４４の部分も、コンピュータプログラムで構成してもよい。

本実施形態の頭部伝達関数選択プログラムは、コンピュータに、スピーカ６から測定信号としての所定の音声を発生させた状態で、ユーザの耳に装着したマイクロホン２０によって収音した音声信号に基づいて、ユーザの頭部インパルス応答を取得するステップを実行させる。

本実施形態の頭部伝達関数選択プログラムは、コンピュータに、頭部インパルス応答に対応する周波数特性の特徴量を抽出するステップを実行させる。

本実施形態の頭部伝達関数選択プログラムは、コンピュータに、抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベース３０１からいずれかの頭部伝達関数を選択するステップを実行させる。

本実施形態の頭部伝達関数選択プログラムによれば、自分自身の頭部伝達関数に近似する頭部伝達関数を容易に選択することができ、自分自身の特性に近い定位効果を容易に実現できる。

本実施形態の音声再生装置は、本実施形態の頭部伝達関数選択装置と、音声データに、特性選択部４３によって選択された頭部伝達関数を畳み込み演算して、音声データを再生する再生部４４とを備える。よって、本実施形態の音声再生装置によれば、自分自身の頭部伝達関数に近似する頭部伝達関数を用いて音声信号を再生することができる。

本発明は以上説明した本実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。本実施形態の頭部伝達関数選択装置を構成するに際し、ハードウェアとソフトウェアとの使い分けは任意である。

６スピーカ
２０マイクロホン
３０サーバ
４１測定部
４２特徴量抽出部
４３特性選択部
４４再生部
３０１データベース
４４１フィルタ

Claims

ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得する測定部と、
前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部によって抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する特性選択部と、
を備える頭部伝達関数選択装置。
前記測定部は、前記スピーカを前記ユーザの顔の正面に位置させた状態を、水平方向の角度θが０°、仰角γが０°であるとしたとき、前記スピーカを、角度θが０°または正もしくは負の所定の角度θに位置させた状態で、前記スピーカを、垂直方向に円弧状に移動させて仰角γとして複数の角度に位置させたときの複数の頭部インパルス応答を取得し、
前記特徴量抽出部は、前記複数の頭部インパルス応答に対応する周波数特性に基づいて特徴量を抽出する
請求項１に記載の頭部伝達関数選択装置。
前記測定部は、さらに、前記スピーカを、仰角γを０°として、角度θが正及び負の所定の角度θに位置させたときの複数の頭部インパルス応答を取得する請求項２に記載の頭部伝達関数選択装置。
ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させ、
ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得し、
前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出し、
抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する
頭部伝達関数選択方法。
コンピュータに、
ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得するステップと、
前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出するステップと、
抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択するステップと、
を実行させる頭部伝達関数選択プログラム。
ユーザの顔の前方に位置させたスピーカから測定信号としての所定の音声を発生させた状態で、前記スピーカを垂直方向に円弧状に移動させて仰角として複数の角度に位置させたとき、前記ユーザの耳に装着したマイクロホンによって前記所定の音声を収音した音声信号に基づいて、前記複数の角度の位置における前記ユーザの複数の頭部インパルス応答を取得する測定部と、
前記複数の頭部インパルス応答それぞれに対応する複数の周波数特性において特定の周波数の範囲に発生する局所的なピークの周波数を前記ユーザの頭部伝達関数の特徴量として抽出する特徴量抽出部と、
前記特徴量抽出部によって抽出された特徴量に基づいて、複数の人それぞれの頭部伝達関数と頭部伝達関数の特徴量とを対応付けたデータベースからいずれかの頭部伝達関数を選択する特性選択部と、
音声データに、前記特性選択部によって選択された頭部伝達関数を畳み込み演算して、前記音声データを再生する再生部と、
を備える音声再生装置。