JP5292345B2

JP5292345B2 - 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置

Info

Publication number: JP5292345B2
Application number: JP2010070498A
Authority: JP
Inventors: 健本間; 健司永松; 亮太鴨志田; 雄介藤田; 康成大淵; 幸一藤本
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2013-09-18
Anticipated expiration: 2030-03-25
Also published as: JP2011205389A

Description

本発明は、ハンズフリー電話装置などの音響再生装置に関し、特に音質自動調整機能を備えた音響再生装置に関する。

自動車内において、手で携帯電話を持たずとも電話ができるハンズフリー電話装置が市販されている。ハンズフリー電話装置の音質は、出荷前に開発メーカが設計して出荷する場合がほとんどである。電話の音質については、ユーザによって聞きやすい音質が異なる。そのため、ユーザが最適と感じる音質調整を行えることが望ましい。これを実現するには、ハンズフリー電話装置の出力音に対して、ユーザ自身がイコライザなどの設定をできるように設計すれば実現できる。

しかし、同一のユーザが同一のハンズフリー電話装置を使用する場合においても、その場面や環境に応じて、車内における音質が変化する。そのため、常に最適な音質を保つためには、ユーザ自身がその都度設定を変更する必要があり、操作の手間がかかる。また、運転中は路面との摩擦音、エンジンの駆動音、エアコンの音などにより、頻繁にその音響環境が変化するため、その都度ユーザ自身が操作を行って調整をすることは困難である。
また、自家用車を持たず、カーシェアリングやカーレンタルなどのサービスを利用して、同一ユーザがさまざまな自動車に乗る機会が今後増えていくと考えられる。その場合において、車種やハンズフリー電話装置が変更するたびに、その音質設定を行うことは手間がかかる。

特許文献1には、携帯電話において使用する補聴器に関する技術が開示されている。この文献によれば、使用者の携帯電話機器の特定、使用者が会話する騒音環境を判断し、そこから、使用者にとって最適な補聴のためのフィルタを決定する方法が開示されている。

特開２００２−２２３５００号公報

特許文献1で開示される技術では、携帯電話のような手持ちの電話が想定されており、ハンズフリー電話のような、スピーカ、マイクとユーザの間に距離がある場合については考慮されていなかった。また、ユーザの好みの音響環境を調べる方法は、開示されていない。

本発明は、ハンズフリー電話装置などの音響再生装置において、ユーザ（受話者）にとって最適な音質による音再生を、利用の度に、周囲の環境などが変化しても、自動的に実施できるようにすることを目的とする。

本発明では、ハンズフリー電話装置などの音響再生装置において、ユーザ（受話者）が聞きやすい送話者からの送話音声の音響特性(送話音声特徴）を保存しておき、実際に音声を再生する際には、選択した送話音声の音響特性とスピーカから受話者までの音響伝達関数に基づいて、ユーザが聞きやすい音声となるような音質調整を行う。さらに、ユーザが普段電話によって会話する際の送話者からの送話音声より、ユーザに聞きやすい送話音声の音響特性を自動的に学習し、この情報を音響再生装置の音質調整に利用する。

本発明の音響再生装置は、1ないし複数の送話音声の音響特性を保存する送話音声特徴保存部と、送話者または送話者の属性を特定する送話者特定部と、前記送話音声特徴保存部に保存されている送話音声の音響特性から、前記送話者特定部で特定された送話者の情報に基づき、送話音声の音響特性を選択し取得する送話音声特徴選択部と、送話音声を再生するスピーカから受話者の位置までの1ないし複数の伝達関数を保存する伝達関数保存部と、前記伝達関数保存部に保存されている伝達関数から、少なくとも受話者の位置情報を含む情報に基づき、伝達関数を選択し取得する伝達関数選択部と、前記送話音声特徴選択部が選択した送話音声の音響特性と、前記伝達関数選択部が選択した伝達関数に基づき、受話者の位置における再生音の音響特性が、前記送話音声特徴選択部が選択した送話音声の音響特性に近くなるフィルタを作成するフィルタ作成部と、前記フィルタ作成部が作成したフィルタに基づいたフィルタ処理を再生音に行うフィルタ処理部とを備えることを特徴とするものである。

また、本発明の音響再生装置は、更に学習手段を備え、該学習手段は、送話音声の音質調整を行う送話音声調整部と、前記送話音声調整部で音質調整された送話音声の音響特性を解析する送話音声解析部と、前記送話音声解析部が出力した送話音声の音響特性を保存する音声特徴保存部と、前記送話音声解析部の出力に基づき、送話音声の音響特性を学習し、学習結果を前記音声特徴保存部に保存する音声特徴学習部とを備え、前記学習手段の音声特徴保存部の送話音声の音響特性を、前記送話音声特徴保存部の送話音声の音響特性として用いることを特徴とするものである。

本発明により、ハンズフリー電話などの音響再生装置を使用するユーザにとって、最適な音質による音再生を、少ない手間で実施することができる。

本発明の実施例１のハンズフリー電話装置の全体構成を示す図である。本発明の実施例１のフィルタ設計部の構成を示す図である。本発明の実施例１の送話音声特徴選択部の処理のフローチャートである。本発明の実施例１の車両伝達関数選定部の処理のフローチャートである。本発明の実施例１の車内音響環境推定部の処理のフローチャートである。本発明の実施例１のフィルタ作成部の処理のフローチャートである。本発明の実施例１のデータを説明する図である。本発明の実施例２の学習手段の全体構成を示す図である。本発明の実施例２の送話音声特徴学習部の構成を示す図である。本発明の実施例２の判定部の処理のフローチャートである。本発明の実施例２の音声特徴学習部の処理のフローチャートである。

以下、車両におけるハンズフリー電話装置を例として、本発明の実施の形態を添付図面に基づいて説明する。なお、本発明における「受話者」、「送話者」、「送話音声」、「受話音声」の用語を、ハンズフリー電話装置を例に説明すると、「受話者」とはハンズフリー電話装置のユーザをいい、「送話者」とは電話の相手方であって受話者に送話する者をいう。そして、「送話音声」とは送話者が発話してユーザである受話者が受ける音声をいい、「受話音声」とはユーザである受話者が発話して送話者に送る音声をいう。

実施例1として、音質の自動調整機能を備えるハンズフリー電話装置を説明する。

［全体構成］
図1は、本発明における音質の調整機能をもつハンズフリー電話装置の全体構成を示す図である。電話回線網110は、一般の固定電話や携帯電話が接続し互いに電話ができる一般的な回線網である。携帯電話120は、ハンズフリー電話に使用する携帯電話である。

ハンズフリー電話装置125は、本発明で開示する音質調整機能を持つハンズフリー電話を行うためのシステムである。
制御部130は、ハンズフリー電話装置に一般に備わる制御を行う。具体的には、携帯電話120との通信の処理、送話音声・受話音声の制御、各種モジュールの制御である。また、携帯電話とインターネットとの接続装置をもち、サーバとの情報の授受を行えるようにしてもよい。制御部130において行われる携帯電話120とハンズフリー電話装置125との通信には、現在市販されている装置に備わっているものを使用することができる。すなわち、有線で接続してもよいし、Bluetooth規格により規定される方法で無線で通信しても良い。
スピーカ190は、ユーザに対して送話音を聞かせるために、音を再生する。
マイク180は、ユーザが発話する音声を採取する。

送話音声調整部134は、ハンズフリー電話のユーザ（受話者）に聞かせる音（送話音）の音質調整を行なう。具体的には、周波数帯域ごとの音圧レベルを変更するイコライジング処理などが行われる。
受話音声調整部132は、ハンズフリー電話のユーザが発話した音声（受話音）の音質調整を行う。これには、周波数帯域ごとのイコライジングのほかに、走行騒音を低減するノイズキャンセリング処理などが含まれる。
イコライジングの手法としては、FIRフィルタ、 IIRフィルタといったディジタルフィルタを用いる方法、FFT分析に基づく方法が知られている。また、ノイズキャンセリングの手法としては、スペクトルサブトラクション法やMMSE STSA法が知られている。これらの方法は、公知であるので、説明は省略する。

エコーキャンセル部140は、マイク180がスピーカ190から再生される音を集音することによって起こるエコーを消去する処理を行う。この方法には、公知の文献の以下の方法を使用することができる。
F.K. Soong、 A.M. Peterson:``Fast least-squares (LS) in the voice echo cancellation application、" Proc. ICASSP、 pp.1398-1403、 1982
フィルタ設計部160は、ユーザに聞かせる音声に対して音質調整を行なうための周波数帯域ごとの増幅率を決定する。この処理については、後ほど説明する。
フィルタ処理部170は、フィルタ設計部160において設計された各周波数帯域の増幅率に基づいて、送話音声調整部134が出力した送話音に対する信号処理を行う。この処理については、後ほど説明する。
車両情報取得部150は、車両における情報を取得する。この説明は後に行う。

［フィルタ設計部］
図2は、フィルタ設計部160の詳細を示した図である。

送話音声解析部240は、送話音声調整部134が出力した音声に対して、周波数-パワー特性を計算する。
本実施例では、周波数-パワー特性の計算がいくつかの方法で行われる。周波数領域におけるパワーの計算方法は、いくつかの方法が知られており、そういった公知の方法を使用することができる。
本実施例では、FFTを使った方法を用いる。第1に、入力された音声波形から、一定時間長の音声を切り出す。この時間長はフレーム長と呼ばれ、10ms程度の値がよく用いられる。第2に、切り出した音声に対して、Hanning窓またはHamming窓といったサイドローブを抑制する時間窓を掛ける。第3に、時間窓を掛けた波形に対して、FFT演算を行う。これにより、時間領域の波形は、周波数領域における実部と虚部の値に変換される。最後に、FFT演算に得られたそれぞれの値に対して大きさの2乗値を求める。これにより、各時刻における周波数-パワー特性を得ることができる。この処理を、規定のフレーム間隔（ここでは、フレーム長の1/4とする）において、逐次繰り返す。
なお、このFFTによる方法の代替としては、フレームごとの音声波形に対してLPC分析を行うことにより、周波数スペクトル包絡を求める方法を用いることができる。

また、周波数-パワー特性における周波数軸の間隔に関して説明する。単純にFFTをした場合には、サンプリング周期の逆数の周波数の分解能で周波数パワー特性が得られる。しかし、本実施例では、ヒトの聴覚上最適に聴取される音声への変換を目指すため、聴覚を考慮した周波数帯域ごとにパワーを求めることとする。こういった周波数帯域の定義としては、critical band filterやbark band filterなどが知られている。こういった公知の周波数帯域の定義にのっとり、FFT演算により求めたパワーを、所定の重み付けの後に和を取ることにより、各周波数帯域におけるパワーとして使用する。

［送話音声特徴の取得］
送話者特定部210、送話音声特徴選択部211では、送話者が誰であるかを特定し、さらに、その送話者に対応する音声特徴を取得する。この流れを、図２と図３のフローチャートに従って説明する。
図３のフローチャートは、電話の着信があった際に開始される。また、着信のたびに1度行うことにより終了する処理である。

ステップ310では、送話者特定部210により、電話をかけている送話者が誰であるかを特定する。この方法としては、電話において一般的に用いられる発信者の電話番号通知機能に基づいて、携帯電話に備わっている電話帳を参照した方法を用いることができる。また、後述する送話音声特徴保存部212には、さまざまな音声の特徴が保存されている。よって、その情報を用いた話者認識を行ってもよい。話者認識の方法としては、音声の長時間スペクトルによる認識方法や、ケプストラムの動的特徴に基づく認識方法が知られており、以下の文献に詳しく記載されている。
古井貞煕：「音声情報処理」、森北出版、1998
これらの方法では、送話音声調整部134が出力した送話音に対して、送話音声解析部240において周波数領域における分析を行って特徴量を算出し、これと送話音声特徴保存部212に保存されている各話者の音声特徴量との距離を計算することにより実装することができる。
また、送話者特定部210は、送話者の属性に関する情報のみを出力しても良い。たとえば、男性であるか女性であるか、年齢が何歳程度であるかといった、話者のいずれかの属性を示す情報を出力することが挙げられる。以降では、こういった送話者の属性のみを特定した場合においても、送話者の特定での実施と同様に行えるため、送話者が特定される場合についてのみ説明する。

ステップ320では、ステップ310において送話者（または送話者の属性）が特定できたかによって分岐を行う。特定された場合には、ステップ330へ進む。
ステップ330では、送話音声特徴選択部211において、ステップ320で特定された送話者（または送話者の属性）に従い、送話者の音声特徴を検索する。検索する対象は、送話音声特徴保存部212に保存されているデータである。

送話音声特徴保存部212の説明を行う。送話音声特徴保存部212には、送話者ごとのユーザにとって聞きやすい送話音声の特徴を保存する。送話者ごとのユーザにとって聞きやすい送話音声の特徴は、別途特定されたものであり、その方法はどのようなものでもよい。本実施形態では、後ほど、ユーザの普段の電話での会話から、送話者ごとのユーザにとって聞きやすい送話音声の特徴を学習する方法を説明する。
送話音声特徴保存部212での保存の形態については、図７の(A)において説明する。

送話音声の特徴としては、特定した送話者の、各周波数帯域における、会話音声での下限音圧レベル、上限音圧レベル、平均音圧レベルのうち、1つないし複数を記憶するものとする。ここで書いた下限音圧レベル、上限音圧レベル、平均音圧レベルは、のちほどフィルタ作成部250において使われる。なお、ここで書く音圧レベルとは、音圧に変換される値であればどのような形態でもよく、インテンシティ、パワーでもよい。また、値の保持形態は、対数値でも線形値でも良いが、便宜上、デシベルを単位とする対数値として説明をする。
下限音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる最小の音圧レベルであり、ユーザにとって聞きやすい音とするために補償しなければならない最下限の音圧レベルとして参照される。
上限音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる最大の音圧レベルであり、ユーザにとって聞いていて不快にならない音圧レベルの上限値として参照される。
平均音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる平均での音圧レベルであり、ユーザにとって聞きやすい音声である場合における平均の音圧レベルとして参照される。

送話音声特徴は、上限音圧レベル、下限音圧レベル、平均音圧レベルの形式に限らず、別の形式で保持しておくことでも良い。たとえば、各周波数帯域の音圧レベルの変動を任意の確率分布関数（たとえば、正規分布やベータ分布など）にあてはめ、その分布関数のパラメタとして記録しておいても良い。正規分布を仮定した場合には、パラメタとしては、平均値と分散を記憶しておく。そして、さきほど直接に記憶していた上限音圧レベル、下限音圧レベルの代替として、分布関数から、平均値から単位標準偏差だけ離れた値（例．-3σ、 +3σの値）を、それぞれ上限音圧レベル、下限音圧レベルとして使用する。また、平均音圧レベルは、分布関数の平均値または期待値をそのまま利用することができる。

ステップ330における送話音声特徴選択部211の処理では、送話者特定部210が特定した送話者情報に基づき、送話音声特徴保存部212から適する送話音声特徴を検索する。
また、送話音声特徴保存部212の情報をつかわなくとも、同形式の情報を制御部130を通じて、携帯電話に保存されている送話音声特徴を利用する、サーバからダウンロードした送話音声を利用することでもよい。この場合、ステップ330では、送話音声特徴選択部211は、制御部130を通じて送話者の情報を要求する。

ステップ340では、検索対象となった送話音声特徴が存在したか否かを判定する。存在しないと判定するケースとしては、送話音声特徴部212に、電話をかけてきたがユーザに対する送話音声特徴が保存されていない場合が挙げられる。また、後述する学習手段と組み合わせて使用する場合には、送話者の音声特徴が送話音声特徴部212に保存はされているものの、その量が少ない場合が挙げられる。すなわち、送話音声特徴として蓄積されているデータ量が小さい場合には、そこから算出される送話音声特徴の信頼性が低いと判断し、検索対象となった送話音声特徴が存在しないと判断する。存在した場合には、ステップ350へ進む。存在しないと判断された場合には、ステップ355へ進む。

ステップ350では、送話音声特徴選択部211において、検索対象となった送話音声特徴を取得する。ここでは、ステップ330において送話音声特徴保存部212を検索できたならば、送話音声特徴保存部212より検索された送話音声特徴を取得する。また、制御部130を通じサーバまたは携帯電話へ検索要求したのであれば、サーバまたは携帯電話から送話音声特徴が転送された送話音声特徴を取得する。また、サーバまたは携帯電話から転送されたデータは、送話音声特徴保存部212に随時蓄積し、再度利用する際には送話音声特徴保存部212からデータを得る方法でもよい。
また、ステップ350で取得された送話音声特徴は、ステップ357において、フィルタ作成部250へ送られる。

また、ステップ320において送話者が特定できなかった場合、ステップ340において検索対象の送話音声が検索できなかった場合には、ステップ355へ進む。ステップ355では、どのような場合においても選ぶことができるデフォルトの送話音声特徴を取得する。このデフォルトの送話音声特徴も、送話音声特徴保存部212、または、サーバや携帯電話に保存されているものとする。
このデフォルトの送話音声特徴は、どのような人が発話したとしても、ユーザが聞きやすいと感じる周波数と音圧レベルの関係であることが望ましい。そのようなものとして、聴力検査で測定されるオージオグラムに基づく値を使う方法が考えられる。すなわち、聴力検査における各周波数音に対する聴覚閾値を下限音圧レベルに対応させ、不快閾値を上限音圧レベルに対応させる。なお、このデフォルトの特性は、送話者の声質が考慮されていないため、真の聞きやすい音声とは若干異なるが、ユーザの聞きやすい音の周波数特性を考慮した特性を持っておくことによって、最低限の音質に補償するものである。
ステップ355で取得された送話音声特徴は、ステップ357において、フィルタ作成部250へ送られる。
以上により、送話者特定部210、送話音声特徴選択部211の処理は終了する。

［車両情報の取得］
車両情報特定部220、車両伝達関数選定部221では、ユーザが車両内においてハンズフリー電話の音声を聞く環境における、スピーカからユーザ(受話者）の頭部までの伝達関数を得る。この処理を、図４のフローチャートによって説明する。
図４のフローチャートは、電話の着信があった際に開始される。また、原則、着信のたびに1度行うことにより終了する処理であるが、通話中に過度な車両情報の変更があった場合には、その都度更新してもよい。

ステップ460では、車両情報特定部220の処理によって、車両の情報を特定する。この処理の説明のために、車両情報取得部150、車両伝達関数保存部222の説明を行う。
車両情報取得部150では、車内におけるさまざまな情報を感知する。この情報の種類は、特定のものに限定されないが、以下の情報が挙げられる。まず、温度、湿度を感知する。また、同乗者が乗っている位置を特定するため、各座席のシートの圧力の情報や、車内に設置したカメラの情報を取得する。また、ユーザの頭部位置を特定するために、シートのヘッドレストの高さ情報、シートの前後位置情報、角度情報を取得する。

車両伝達関数保存部222には、車両におけるさまざまな位置の、さまざまな条件下における、スピーカからの音響伝達関数を保存する（これを、車両伝達関数と呼ぶ）。車両伝達関数は、公知のインパルス応答測定法を使用して測定することができる。また、車両伝達関数を求める対象となる位置としては、ユーザがハンズフリー電話を使用する際の頭部の位置に関して、想定される複数の位置において測定をしておく。その他の条件としては、温度、湿度、同乗者の位置といった条件が変化した場合において、車両伝達関数を測定しておく。
図７の(B)に、車両伝達関数保存部222に保存されている車両伝達関数の1つの例を示す。車両伝達関数は、周波数と各周波数帯域における音エネルギの伝達率（ゲイン）との関係で保存しておく。車両伝達関数は、同一の条件であっても、さまざまな外部の要因により変動するため、最大、最小、平均のそれぞれのゲインのいずれか1つ以上を保存しておくものとする。あるいは、確率分布関数のパラメタという形で、各周波数帯域のゲインの変動範囲を保存しておくという形態でも良い。

ステップ460における車両情報特定部220の処理では、車両情報取得部150から取得された車両取得情報に従って、車両伝達関数を選定するための条件を特定する。具体的には、温度、湿度、同乗者位置、ユーザの頭部位置などである。ユーザの頭部位置を推定するためには、前述のシートの情報だけではなく、あらかじめ記憶しておいたユーザの身体形状の情報を利用し、シート位置とユーザの身体寸法情報から計算する方法でも良い。ユーザの身体形状を保存する方法としては、運転免許証にある外部記憶装置に格納しておく方法、または、サーバや携帯電話に保存しておき、運転しているユーザが特定されしだい、身体形状の情報をこれらの機器より得る方法などを利用できる。

ステップ470では、車両伝達関数選定部221の処理により、ステップ460で特定された条件に基づき、車両伝達関数保存部222から、条件にもっとも適合する車両伝達関数を検索する。
なお、検索対象となる車両伝達関数は、車両伝達関数保存部222に保存されていなくとも、その都度、制御部130を介してサーバや携帯電話に検索要求を出す方法でもよい。または、車両伝達関数保存部222に存在しないときにだけ制御部130を介してサーバや携帯電話に検索要求を出す様式でもよい。サーバに車両伝達関数を蓄積する形態をとれば、自動車の出荷前に、あらかじめすべてのパタンの伝達特性を取らずとも、ユーザの需要や販売台数に応じて、随時サーバに追加しておくことも可能となる。

ステップ475では、検索対象となった車両伝達特性が検索できたか否かを判定する。検索できないケースとしては、特定された車両情報に一致する条件での車両伝達関数が存在しなかった場合や、一部の条件が一致しているが、所定の方法により計算される条件間の距離が大きかった場合が挙げられる。もし検索ができた場合には、ステップ480へ進む。検索できなかった場合には、ステップ485へ進む。

ステップ480では、車両伝達関数選定部221の処理により、ステップ470で検索された車両伝達関数を取得する。この取得においては、ステップ470で車両伝達関数保存部222を検索対象とした場合には、車両伝達関数保存部222より取得する。また、サーバや携帯電話に検索要求を出した場合には、サーバや携帯電話から転送された車両伝達関数を使用する。また、サーバや携帯電話から転送を行った際には、この情報を車両伝達関数保存部222に蓄積していき、再度同一の条件の要求があった際には、車両伝達関数保存部222から読み込めるようにしてもよい。
さらに、ステップ480で取得された車両伝達関数は、ステップ490の処理により、フィルタ作成部へ送られる。

ステップ485では、ステップ475において車両伝達関数が検索できなかった場合に、デフォルトとなる車両伝達関数を取得する。このデフォルトの車両伝達関数も、車両伝達関数保存部222、または、サーバや携帯電話に保存されているものとする。このデフォルトの車両伝達関数は、ユーザの平均的な頭部位置に対する、スピーカからの音響伝達関数である。よって、1箇所で測定した伝達特性や、単純にボリュームの減衰量だけを記述した伝達関数などを使用することができる。
さらに、ステップ485で取得された車両伝達関数は、ステップ490の処理により、フィルタ作成部へ送られる。
以上により、車両情報特定部220、車両伝達関数選定部221の処理は終了する。

［車内音響環境の取得］
車内音響環境推定部230では、ユーザが運転中に聞いている電話の会話音とは異なる騒音（エンジンノイズ、ロードノイズ、音楽音、同乗者の会話音など）を推定する。この処理を、図５のフローチャートによって説明する。
図５のフローチャートは、電話の着信があった際に開始される。また、電話の通話中に繰り返し行う。これにより、騒音を逐次推定するものである。なお、この繰り返しの時間間隔も、先に説明したとおり、FFT演算に使われるフレーム長の1/4を仮定する。

ステップ510では、電話の通話が継続しているか否かを判定する。この処理は、携帯電話120、制御部130によって行われる。通話が継続していない場合には、処理を終了する。

ステップ515では、ユーザが何か音声を発しているか否かを判定する。これは、マイク180から取り込んだ音に対して、信号処理を行うことにより判定を行う。この処理を行う理由は、車内の騒音を推定する際において、会話中の音声をもとに騒音を推定すると、その推定精度に悪影響が出るためである。この音声発話の検出としては、公知の音声レベルによる方法、GMM(Gaussian mixture model)による音声と非音声との判別手法を取ることができる。GMMに基づく方法では、通常の電話をしていないときの騒音を常に録音しておき、このときの騒音を学習することでもよい。
この判定により、ユーザが発話していないと判定された場合には、ステップ510へ戻る。ユーザが発話していると判定された場合には、ステップ520へ移る。

ステップ520では、マイクからの音声に対して、周波数解析を行い、周波数-パワー特性を算出する。この方法は、さきに説明したFFTによる方法を行うことができる。また、ステップ515における発話の判定においてGMMを用いた方法を使う場合には、すでに周波数-パワー特性や、それに類する特性が計算されているので、その情報を用いても良い。

ステップ525では、ステップ520で求められた周波数-パワー特性に所定の計算を行い、周波数-パワー特性の更新を行う。この所定の計算の目的は、現時点における運転中の騒音の状況を推定することである。そのための計算方法にはいくつかの方法が考えられる。第1に、運転中に過去に採取された周波数-パワー特性と、現時点で採取された周波数-パワー特性の平均値を算出することが考えられる。こうすることにより、過去の騒音状況も加味した信頼できる値を採取することができる。また、急に路面状況が変化した場合に関しては、現時点で採取された周波数-パワー特性の瞬時値を使用することでもよい。

ステップ530では、ステップ525で得られたマイク音の周波数特性、車両情報取得部150から出力された1つないし複数の情報に基づいて、騒音データ保存部235に保存されているユーザの頭部位置における騒音の周波数特性を検索する。

騒音データ保存部235について説明する。これは、さまざまな走行環境下、さまざまな車両条件下における、ユーザの頭部位置における騒音の周波数特性を保存したものである。条件としては、車両伝達関数保存部222と同様に、車内の温度、湿度、同乗者の位置などが使用できる。また、自動車の速度情報、エンジンの回転数情報を用いることができる。
さらに、この騒音データの検索においては、ステップ525でもとめられた騒音の周波数-パワー特性を検索条件に入れることを想定する。ステップ525でもとめられた騒音の周波数-パワー特性も、すでに騒音の特性を表している。しかし、マイクで収集される騒音の周波数特性と、ユーザが実際に聞く周波数特性は異なると考えられる。よって、ユーザが聞く音に近い騒音特性を推定できることが望ましい。よって、マイクから取られる騒音と、ユーザの頭部位置における騒音との関連をあらかじめとっておき、検索することによって、高精度なユーザ頭部位置における騒音特性を取ることができる。

ステップ540では、ステップ530の検索の結果、騒音特性を検索できたかを判断する。ここで検索できないケースとして考えられるのは、特定された車両情報やマイクの騒音特性に一致する条件での騒音特性が、騒音データ保存部235に存在しなかった場合が挙げられる。
検索結果が存在した場合には、ステップ550へ進む。存在しなかった場合には、ステップ560へ進む。

ステップ550では、ステップ530で検索された騒音特性を取得する。さらに、ステップ570において、取得した騒音特性をフィルタ作成部へ送る。

ステップ560では、ステップ530で騒音特性が検索できなかった場合における、デフォルトの騒音特性を取得する。デフォルトの騒音特性としては、ステップ525でもとめられたマイク180で採取された騒音の周波数-パワー特性をそのまま用いてもよい。または、定数を掛けることにより、騒音の大きさを補正したのち、使用することでもよい。そして、ステップ570において、得られた騒音特性をフィルタ作成部へ送る。

以上の車内音響環境推定部230の動作を、通話中繰り返すものとする。よって、フィルタ作成部に出力される騒音特性も、その都度更新される。

［フィルタの作成］
フィルタ作成部250は、以上の各部が算出した情報に基づき、ユーザにとって送話音を聞きやすい音に加工するフィルタを作成する。フィルタ作成部250における処理の流れを、図６のフローチャートに従って説明する。
なお、フィルタ作成部250の処理は、通話の継続中は繰り返し行われるものである。なお、この繰り返しの時間間隔も、先に説明したとおり、FFT演算に使われるフレーム長の1/4を仮定する。

ステップ610においては、電話による通話が継続中であるか否かを判断する。通話が終了した場合には、処理を終了する。通話が継続している場合には、ステップ620へ移る。

ステップ620では、送話者が発話しているか否かを判断する。これは、送話者が会話しているときにのみ音質調整のフィルタを処理するためにこの処理が行われる。この発話か否かの判定を行う方法としては、先ほど説明した、公知の音声レベルによる方法や、GMMに基づく方法を取ることができる。
もし、発話でないと判定された場合には、ステップ610へ戻る。発話であると判定された場合には、ステップ630へ移る。

ステップ630では、送話音声特徴選択部211が出力した送話音声特徴を読み込む。これは、フィルタ作成部250において、ユーザが聞く送話音の周波数特性として目標値として使用される。

ステップ635では、送話音声特徴である周波数特性に対して、車両伝達関数選定部221が出力した車両伝達関数の逆関数との積を計算する。
車両伝達特性の逆関数の例を図７の(C)に示す。この逆関数は、図７の(B)に示す車両伝達関数のゲインに対して、ゲインの逆数を計算することによって計算される。なお、ゲインをdB単位で表す場合には、元の対数ゲインに対する負の値として計算される。また、最大ゲイン、最小ゲイン、平均ゲインといった複数の値が定義されている場合には、それらの値のすべてに対して、逆関数をもとめる。また、車両伝達関数が確率分布として記録されている場合には、その分布が保存される形で、ゲインを逆数を取った分布のパラメタを求める。この逆関数は、スピーカから音を再生する場合において、ユーザの頭部において車室内の音響特性の影響をキャンセルした、周波数特性が平坦な音声を再生するための周波数特性として使用される。

図７の(D)には、送話音声特徴である周波数特性の例図７ (A)と、車両伝達関数の逆関数図７（C)とを掛けた周波数特性を示す。なお、周波数特性の積とは、デシベル単位の軸上では、これらの値の和として計算できる。図７（D)では、送話音声特徴図７（A)の下限音圧レベルに対して、図７（C)の最大ゲインに対応する特性、最小ゲインに対する特性のそれぞれを掛けた特性を求めている（それぞれ図７（D)では、a、 bで示す）。また、送話音声特徴図７（A)の上限音圧レベルに対して、図７（C)の最大ゲインに対応する特性、最小ゲインに対する特性のそれぞれを掛けた特性も求めている（それぞれ図７（D)では、c、 dで示す）。

ステップ640では、車内音響環境推定部230から、ユーザの頭部位置における騒音の周波数特性を取得する。

ステップ645では、ステップ640で取得された騒音の周波数特性に対して、車両伝達関数の逆関数を掛ける。この処理の例を図７の(E)に示す。この図の例では、ステップ640で取得された騒音の周波数特性に対して、車両伝達関数の逆関数図７ (C)のうち、平均ゲインに対応する逆関数との積を計算した場合を示している。図7(E)において、ｅは、車内音響環境推定部が出力した騒音特性に対して車両伝達特性の逆関数との積を取った騒音特性を表し、ｆは、車内音響環境推定部が出力した騒音特性を表す。
この逆関数との積の計算によって、ユーザが聞く騒音特性に相当する騒音をスピーカで再生するには、どのような周波数特性としたらよいかが分かる。このデータは、ユーザが実際に聞く送話音において、騒音の影響がどの程度あるかを評価するために使われる。

ステップ650では、ステップ635で算出した音声特徴とステップ645で算出した騒音特性から、目標とする周波数帯域ごとの音圧レベルの範囲を定める。
この処理の具体例を図７の(D)で示す。図７(D)では、ステップ635で算出した音声特徴(a、b、c、d)、ステップ645で算出した騒音特性(e)が記載されている。
まず、ユーザが聞きやすい音圧レベルは、送話音声特徴図７ (A)の周波数特性が、ユーザの頭部位置における音において再現されることである。これを達成するためには、スピーカからは、図７ (D)の下限音圧レベルから上限音圧レベルまでの音圧の範囲において再生されれば良い。なぜならば、図７ (D)の下限音圧レベル、上限音圧レベルは、送話音声特徴に対して車室内の周波数伝達特性の逆関数が掛けられているため、この周波数特性においてスピーカから再生されれば、車室の音響伝達特性を経てユーザの頭部において音声が再生されるため、送話音声特徴図７ (A)の周波数特性において再生されるためである。
しかしながら、車両伝達関数にはさまざまな理由により変動が発生する。そのため、たとえば図７ (D)のdの曲線に沿って音を再生した場合では、もし車両伝達関数のゲインが変動範囲内のうち大きなゲインを持っていた場合には、ユーザが聞いた音声は、普段聞いている音圧よりも大きくなる。このため、ユーザにとって不快となる恐れがある。一方、図７ (D)のaの曲線に沿って音を再生した場合では、車両伝達関数のゲインが変動範囲内のうち小さなゲインであった場合には、ユーザが聞く音は過度に小さくなる恐れがある。
こういった副作用を抑えるため、ここでは、車両伝達関数の予測される変動範囲内において、ユーザにとって聞きやすい送話音声特徴に収まる音圧の範囲を考える。すなわち、図７ (D)における、bからcまでの範囲に収めることにする。
なお、車両伝達関数や、送話音声特徴の周波数-パワー特性が確率分布関数の形式で定義されている場合には、図７ (D)の分布も確率分布関数によって計算することができる。この計算には、確率変数がデシベル単位で定義される場合には、2つの確率分布の和を取ることに相当するため、図７ (D)の各周波数帯域における音圧の変動範囲を表す確率分布関数のパラメタを得ることは公知の計算方法によって可能である。このようにして得た確率分布より、ユーザが聞きづらいほど音圧が小さくなる場合、不快となるほど音圧が大きくなる場合の確率を所定の閾値以下に収まる音圧の変動範囲が計算できる。

つぎに、騒音による影響を考慮する。図７ (D)のeに示した騒音特性を見ると、高周波数帯域（たとえば、周波数f2）ではスピーカの会話音の再生音圧範囲より低い音圧であるが、低周波数帯域（たとえば、周波数f1）では、一部、騒音の音圧が、会話音の再生の音圧範囲に入っている帯域がある。よって、この帯域では、bからcの範囲の音圧で再生音を再生した場合、ユーザが聞く音では、会話音よりも騒音のほうが大きくなることがある。この場合、ユーザは会話音の聞き取りがしづらくなる。聴覚心理学では、この現象をマスキング現象と呼ぶ。マスキング現象は、ある音のラウドネス（主観的に感じる音の大きさ）が、同帯域のノイズが存在する場合には、ノイズが存在しない場合よりも小さく感じられる現象である。

ノイズによるマスキング現象におけるラウドネスの低下の大きさは、以下の文献に記載されている。
J.P.A. Lochner、 J.F. Burger: ``Form of the loudness function in the presence of masking noise、" Journal of the Acoustical Society of America、 vol.33、 no.12、 pp.1705-1707、 1961
この文献によれば、ノイズが存在する環境下での目的音のラウドネスψは、以下の式で表される。
ψ= k ( Iⁿ - I₀ ⁿ)
ただし、k，nは定数である。また、Iは目的音の音インテンシティ、I₀はノイズの音インテンシティである。
この式による会話音のラウドネスを計算すると、会話音声の音圧レベルが騒音の音圧レベルよりも十分に大きければ、ラウドネスの減少は無視できるほど少ない。一方、会話音声の音圧レベルが騒音の音圧レベルと近い値である場合には、会話音のラウドネスの減少が顕著となる。よって、会話音声の音圧レベルが騒音の音圧レベルと近い場合において、会話音声をより大きく増幅する補償を行うことで、会話音の聞き取りを行うことができる。よって、この基準に基づいて再生音圧の範囲を決定させる。具体的には、図７(D)のeよりラウドネス減少が起こらない程度に大きい音圧を下限とし、cを上限とする範囲を採用する。
なお、騒音特性については、これまで平均値のみを用いる場合を説明したが、送話音声特徴の周波数-パワー特性と同様、騒音の最大値、最小値や、確率分布関数による変動範囲を利用できる場合がある。こういった場合に関しては、上記で述べた送話音声特性のさまざまな形態における対処方法と同様に、マスキングの影響を計算することができる。

ステップ655では、送話音声解析部240において周波数解析された送話音の周波数-パワー特性を取得する。この周波数-パワー特性は、以下の2通りの使われ方をする。
(1) 会話音の瞬時の特性
(2) 現在の通話が開始してからの現在までの送話者の会話音の統計的な特性
(1)については、先に説明したフレーム単位のFFT演算の結果から得た周波数-パワー特性を直接利用する。(2)は、現在会話されている音声における、各周波数帯域での上限音圧レベル、下限音圧レベルを判定するために得る統計量である。この方法としては、周波数-パワー特性の各時刻の値から、最大となった音圧レベルを上限値とし、最小となった音圧レベルを下限値として使用する方法でもよい。また、過去の会話音の音圧レベルの瞬時値を蓄積し、確率分布関数におけるパラメタを演算し、このパラメタから、音圧の下限、上限を求める方法でもよい。

これらの音圧の上限値、下限値は、ステップ660におけるフィルタの増幅率を決定する際に、入力となる音声のダイナミックレンジがどの程度であるかを把握するために使用する。
なお、送話者が通話している際の音声は、過去の会話において蓄積されている送話音声特徴保存部212に保存されている情報を利用することも可能である。もし、現在通話している音声が、送話音声特徴保存部212を再現するものであれば、送話音声解析部240による解析は不要であり、送話音声特徴保存部212に保存されている情報をそのまま用いることができる。しかし、現在会話している送話者の音声特性と過去に蓄積されている送話者の音声特性とは、かならずしも一致しない。その理由としては、送話者の体調の相違、送話者が現在いる環境の相違、会話している相手が運転中であることによる発話様態の変化などが挙げられる。また、送話音声特徴部212に保存されている音声特徴は、後ほど説明する学習装置において、受話者が普段の固定電話や携帯電話の会話から学習することもありうる。よって、ユーザが通常使用している機器に特有のイコライジングや、ユーザがその機器において普段設定している音質設定の影響を含んだ音声となっている。しかしながら、ハンズフリー通話システムにおいては、ユーザが普段使用している携帯電話を使っているとしても、携帯電話で設定されているイコライジングがハンズフリー電話システムにおいて利用不可能な場合がある。また、ハンズフリー電話システムでは、固有のイコライジングや音質調整を行なっていることが一般的である。また、ユーザが普段利用しない携帯電話を利用し、ハンズフリー電話での会話を行うこともある。こういった、ハンズフリー電話で再生される音が、送話音声特徴部212に入っている特徴とは異なる場合も多い。よって、送話音声解析部240を使い、現在会話している音声を逐一解析するものとする。
送話音声解析部240が解析した音声の周波数特性の例を図7の(F)に示す。

ステップ660では、送話音声の音圧が、目標音圧に収まるようになる、各周波数帯域における増幅率を計算する。
この処理の第1に、現時点の会話における送話音声の音圧（入力音圧と呼ぶ）の変動範囲と、650で算出した目標とする再生音声の音圧（出力音圧と呼ぶ）の変動範囲の間の変換式を計算する。
図7の(G),(H)には、それぞれ、周波数f2、 f1における、入力音圧と出力音圧の関係を示す。

まず、周波数f2における関係について説明する。周波数f2における、現在会話中の音声における下限音圧i2min、上限音圧i2maxを、図7 (F)から得る。つぎに、目標とする下限音圧o2min、上限音圧o2maxを、図7 (D)より得る。つぎに、これらの範囲内で、入力音圧が出力音圧に変換される変換式を、dB単位の音圧の1次関数によって求める（これを変換関数と呼ぶ）。変換関数は、図7 (G)に太線によって描かれている。聴覚心理学では、ラウドネスの大きさは、音圧インテンシティまたは音圧エネルギのべき関数で近似できることが知られている。よって、デシベル軸上における一次関数を変換関数として出力音圧に変換することにより、ラウドネスの大小関係を保ったまま、増幅した音を出力することができる。次に、変換関数から、送話音声解析部から得られた入力音圧の瞬時値に対して、出力となる音圧の瞬時値を得る。最後に、出力音圧の瞬時値を入力音圧の瞬時値によって割った値を求め、この値を、周波数帯域f2における増幅率として算出する。なお、入力音圧と出力音圧の両方をデシベル単位で表した場合には、入力音圧レベルから出力音圧レベルを減算した値として算出できる。

次に、周波数f1における関係について説明する。周波数f1における、現在会話中の音声における下限音圧i1min、上限音圧i1maxを、図7 (F)から得る。つぎに、目標とする下限音圧o1min、上限音圧o1maxを、図7 (D)より得る。つぎに、これらの範囲内で、入力音圧が出力音圧に変換される変換式を求める。周波数f1では、騒音の影響によりマスキングが発生する。よって、変換式は、一次関数ではなく、図7 (H)に示すような、曲線状の変換関数とする。この変換関数は、入力音圧が小さい場合においてもある程度大きな出力音圧となるようにしており、マスキングの影響を避けるものである。この変換式に基づき、入力音圧の瞬時値に対する出力音圧の瞬時値を求める。最後に、この入力音圧と出力音圧より、周波数帯域f1における増幅率を算出する。
以上の処理を、処理の単位となる各周波数帯域において行い、各周波数帯域における増幅率を算出する。
なお、ここでは、入力音圧、出力音圧の上限値、下限値のあいだの対応を使い、増幅率を計算する方法を説明した。しかし、別の方法を用いることも可能である。たとえば、入力音圧と出力音圧の平均値と上限値の対応関係から、変換関数を求め、増幅率を計算してもよい。

ステップ665では、ステップ660で求められた各周波数帯域の増幅率に対して、平滑化処理を行い、増幅率を再計算する。この平滑化の処理の目的は、(1) 帯域間の増幅率の差を抑えること、(2) 時刻間の増幅率の差を抑えること、の2つの目的がある。
(1)の帯域間の増幅率の差を抑える目的で行う処理としては、ステップ660で求められた各周波数帯域の増幅率からスプライン関数を求め、周波数の変化に対して連続的に変化する増幅率を採用する方法がある。冒頭でも述べたとおり、周波数-パワー特性を計算する際の周波数帯域は、critical bandなどのいくつかの周波数帯域に分割して、それぞれの帯域ごとに求める方法を仮定している。よって、この帯域ごとに求められた増幅率をそのまま適用すると、帯域が変わるとこで急激に増幅率が変化してしまう。そこで、各帯域の増幅率からスプライン関数を求め、そのスプライン関数により、各周波数帯域の中心周波数以外における増幅率を計算する。これにより、周波数による増幅率の変化が平滑化される。
(2)の時刻間の増幅率を抑える目的としては、ステップ660で得られた増幅率の瞬時値を用いずに、過去数フレームにおける増幅率の平均値を使用する方法がある。これらの平滑化の方法は、以下の文献に記載されている方法を使用することができる。
F. Asano、 Y. Suzuki、 T. Sone、 S. Kakehata、 M. Satake、 K. Ohyama、 T. Kobayashi 、 T. Takasaka: ``A digital hearing aid that compensates loudness for sensorineural impaired listeners、" Proc. of ICASSP91、 pp.3625-3628、 1991
ステップ670では、ステップ665で計算された各周波数帯域の増幅率をフィルタ処理部170へ送る。
以上のフィルタ作成部250の処理を、通話中繰り返す。

［フィルタ処理部］
次に、フィルタ処理部170の処理について説明を行う。フィルタ処理部170は、フィルタ作成部250が出力した各周波数帯域の増幅率に基づき、送話音声の再生音の調整を行う。

本発明では、この処理において、公知のFFT演算による方法を前提として説明する。
第1に、送話音をフレーム長だけ切り出す。フレーム長と呼ばれ、10ms程度の値がよく用いられる。切り出した音声に対して、窓かけを行う。なお、音声の切り出しは、1/4フレーム長の時間間隔において行われることを想定する。
第2に、分析対象音声に対してFFTを行う。これにより、時間領域の波形は、周波数領域における実部と虚部の値に変換される。
第3に、FFTで出力された各周波数領域の値に対して、フィルタ設計部160が出力した各帯域ごとの増幅率を掛ける。
第4に、第3の処理によって得られた周波数領域にける各値に対して、逆フーリエ変換を行い、時間領域に戻す。
第5に、第4の処理によって得られた波形を出力する。第1の処理における送話音の切り出しは、1/4フレーム長の時間間隔において行われるため、異なるフレームでも同一時刻となるサンプル値が存在するため、そのような値は加算をして出力する。この方法は、重複加算法（overlap add法）として知られている。
以上の処理により、送話音に対してフィルタ設計部160が出力した各周波数帯域における増幅率に基づいて振幅を増減した音声を、スピーカ190より出力する。

［まとめ］
スピーカ190から再生された音声は、以上の処理より、ユーザの頭部位置で聞いた場合においては、ユーザが普段聞いている、送話者に対応した周波数特性に変換されて聞こえる。また、騒音がある場合においては、その騒音による聞き取りへの悪影響が抑えられるような音質調整も行なわれている。よって、ユーザにとって聞きやすい音において、ハンズフリー電話の音声を再生することができる。

［運転席以外における利用］
なお、本実施例では、ユーザは運転席において電話を行う仮定において説明した。しかし、ユーザが後部座席や助手席など、他の座席において使用する場合もある。一般に、ハンズフリー電話は、運転者が電話をするための装置として開発されている。しかし、考えられる状況として、車両内にいる複数の人が、電話の向こうにいる人と交互に会話をすることも考えられる。
このような場合おいても、現在会話している人に対する音質調整を行うことができる。この方法を実施するには、車内音響環境推定部230、車両伝達関数選定部221の処理を行う前に、会話をしている人が車内においてどこにいるかをあらかじめ知っておくことが必要である。このためには、スイッチなどの操作により明示的に会話者の位置を機器に指定する方法、車内に設置したカメラによる画像情報から会話者の位置を特定する方法、車内に設置した1ないし複数のマイクロフォンから所定の信号処理により会話者を特定する方法などを用いることができる。
また、会話をする人が異なれば、好む送話音声特徴が異なる。よって、送話音声特徴保存部には、複数の送話音声特徴を聴取者ごとに異なる領域に保存するものとする。実際に音質の補正を行う際には、会話者（すなわち聴取者）が誰であるかを検知したのち、会話者に対応した送話音質特性を読み込んで音質補正を行う。会話者の特定には、スイッチなどの操作により明示的に会話者が誰であるかを機器に指示する方法、車内に設置したカメラによる画像情報から会話者の顔画像を認識する方法、車内に設置したマイクの音から、現在会話中であるものが誰であるかを話者認識によって特定する方法、などが実施できる。

つぎに、実施例２として、送話音声特徴保存部212に保存される送話音声特徴の構築方法に関して、送話音声を学習する構成について説明する。

［全体構成］
図８に、送話音声を学習する際のシステム構成を示す。送話音声の学習は、ユーザが一般的に使用する携帯電話、固定電話などにおいて、ユーザが普段会話している際の送話者の音声の特徴（送話音声の音響特性）を学習する。また、ハンズフリー電話装置における通話においても学習を行うことができる。
電話回線網810は、一般の固定電話や携帯電話が接続し互いに電話ができる一般的な回線網である。
携帯電話820は、電話回線網810と学習手段830との通信を行う。この携帯電話は、学習手段がハンズフリー電話装置に備わっている場合にのみ必要となる部品である。固定電話、携帯電話において学習を行う際には、電話回線網810と学習手段830にある制御部840が直接通信を行う構成で実施できるため、携帯電話820は不要となる。ハンズフリー電話装置において学習を行う場合では、携帯電話820と制御部840との通信は、有線または無線（Bluetooth規格）により実施される。

学習手段830は、送話音声を学習するための各部品を収めた装置である。この学習手段は、携帯電話、固定電話、ハンズフリー電話装置のいずれかに備わっているものとする。また、実施例では、このいずれに備わっている場合でも実施できる方法として説明を行う。

制御部840は、学習手段830の制御を行う。また、学習手段830が備わっている機器の種類（固定電話、携帯電話、ハンズフリー電話装置）に従い、その機器の制御を行う。よって、電話機能に必要となる、送話音声・受話音声の制御、各種モジュールの制御を行う。本実施例では、送話音声の学習において必要となる動作だけを説明する。

操作入力部860は、ユーザの操作を入力する。この操作としては、学習手段830が固定電話、携帯電話に備わっている場合においては、電話のボタン押しの動作を受け付けることが考えられる。また、学習手段830がハンズフリー電話装置に備わっている場合には、ハンズフリー電話装置に備わっているボタン、ハンズフリー電話装置が備わっているカーナビゲーション、カーオーディオ、自動車コクピットのボタン、ダイヤル、リモコンなどの操作を受け付けることが挙げられる。

車両情報取得部870は、ユーザが車両内にいる場合に、その車両に関する情報を取得する。

送話音声調整部842は、ユーザに聞かせる音（送話音）の音質調整を行なう。具体的には、周波数帯域ごとの音圧レベルを変更するイコライジング処理などが行われる。
また、固定電話、携帯電話、ハンズフリー電話において、ユーザが特段の音質調整を行う場合においても、この送話音声調整部842によって行うことができる。たとえば、ユーザが高周波数帯域が小さい音を好む場合、送話音声調整部842において高周波数帯域の増幅率を下げたイコライジングを設定することができる。
また、ユーザにとって聞きやすいイコライザ設定が、送話者（送話音を発話している人）ごとに異なる場合には、送話者ごとに異なるイコライジング設定を送話音声調整部842にて施す。具体的には、別途設定した送話者ごとのイコライジング設定を送話音声調整部842の記憶に保持しておく。実際の通話においては、送話者の電話番号などの情報から送話者を特定し、特定された送話者に結びついたイコライジング設定を送話音声調整部842で使用する。
この送話音声調整部842における音質調整は、ユーザの聴力に損失がある場合にも、各周波数帯域の音の増幅を行うことにより、補聴装置として使用することができる。

送話音声調整部842の役割をまとめると、元々の送話音を、ユーザが電話を通常使用する場面におけるユーザにとって聞きやすい送話音となるように音質調整を行う。送話音声調整部842が行う送話音の音質調整は、上記で説明したように、ユーザ個人の聞きやすさ（すなわち聴覚特性）に特化した音質調整や、送話者の送話音特性に特化した音質調整が含まれる。すなわち、送話音声調整部842が行う音質調整には、ユーザにカスタマイズされた詳細な音質調整が含まれる。

送話音声調整部842の出力音声は、送話音声特徴学習部850に送られる。送話音声特徴学習部850の動作は後ほど説明するが、簡潔に説明すると、送話音声調整部842が出力した音声を元に、送話者ごとの音声特徴を学習する。よって、送話音声特徴学習部850には、
送話音声調整部842によって調整されたユーザにとって聞きやすい音声の特徴が送話者ごとに保存されていく。
この学習した結果である音声特徴は、ハンズフリー電話装置125の送話音声特徴保存部212に保存され、すでに説明したハンズフリー電話装置125の音質の自動調整において、ユーザの耳介位置における音響特性の目標値として使用される。
よって、ハンズフリー電話装置125は、ユーザの耳介位置における送話音が、ユーザ情報や送話者情報によって特定された聞きやすい音質となるように、音質調整を行うことができる。

受話音声調整部844は、ユーザが発話した音声（受話音）の音質調整を行う。これには、周波数帯域ごとのイコライジングがある。また、ハンズフリー電話装置である場合には、走行騒音を低減するノイズキャンセリング処理などが含まれる。

マイク882、スピーカ880は、それぞれ、ユーザが使用している電話器（固定電話、携帯電話、ハンズフリー電話装置）において、会話に使われるマイクとスピーカである。

エコーキャンセル部884は、マイク882がスピーカ880から再生される音を集音することによって起こるエコーを消去する処理を行う。この方法には、前述の公知の文献の方法を使用することができる。

［送話音声特徴学習部の構成］
送話音声特徴学習部850は、ユーザの電話に通話をしてきた送話者の音声の特徴を学習する。図９に、送話音声特徴学習部850の構成をより詳細に説明した図を示す。

送話音声解析部910は、送話音声調整部842より送られてきた送話音に対して周波数分析を行う。ここでは、先に説明しているフレーム長の波形に対するFFT解析により、周波数-パワー特性を求めるものとする。また、この処理を、規定のフレーム間隔（ここでは、フレーム長の1/4とする）において、逐次繰り返す。

受話音声解析部930は、エコーキャンセル部884より送られた受話音に対して、周波数解析を行う。この方法は送話音声解析部910と同様である。

判定部920は、送話音声解析部910において周波数解析した送話音に対して、学習すべきか否かを、各時刻において判定する。この処理の流れを、図１０のフローチャートに従って説明する。

［判定部の処理の流れ］
ステップ1010では、通話が継続しているかを判断し、通話が終了していれば処理を終了する。
ステップ1020では、学習のモードによる分岐を行う。ここでは、制御部840を介して得られた操作入力部860の入力に従って分岐を行う。第1に、送話音声の学習を行わないとユーザが明示的に指定している場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して出力する。また、ユーザが強制的に学習するように指示している場合には、ステップ1090へ進み、学習を実行するように音声特徴学習部940に対して出力する。また、自動学習モードの場合には、送話音、受話音の情報に基づいて学習を行うか否かを判断する。そのため、ステップ1030へ移る。

ステップ1030では、送話音声解析部より出力された送話音の周波数-パワー特性を取得する。
ステップ1040では、ステップ1030で取得した送話音の周波数-パワー特性に基づき、送話音の騒音レベルを判断する。騒音レベルとは、送話音に含まれる電話での会話音とは異なる音の大きさのことである。この騒音レベルが大きい環境では、送話者はうるさい場所から電話を掛けていることが推察される。そのような環境から得られた送話音は、ユーザにとっても聞きづらい音であると考えられる。よって、このような音は学習対象から除外するために判定を行う。この判定の方法としてはさまざまな方法によって実装が可能であるが、たとえば、送話音の周波数-パワー特性を長時間で平均し、その全体のパワーの大きさが一定閾値を越える場合に騒音大と判定する方法や、GMMモデルを用いた音声非音声判別方法を用いることができる。
判定の結果、騒音レベルが閾値以上であった場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して指示する。騒音レベルが閾値未満であった場合は、ステップ1050へ進む。

ステップ1050では、受話音声解析部より出力された受話音の周波数-パワー特性を取得する。
ステップ1060では、ステップ1050で取得した受話音の周波数-パワー特性に基づき、受話音の騒音レベルを判断する。これは、ユーザが騒音が大きな環境において会話している場合には、ユーザにとって会話がしづらい状況であると判定されるため、学習対象からはずすことを目的としている。
この判定方法は、ステップ1040における送話音声の騒音判定と同様の方法が使用できる。判定の結果、騒音レベルが閾値以上であった場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して出力する。騒音レベルが閾値未満であった場合は、ステップ1080へ進む。
ステップ1080では、学習を実行するように音声特徴学習部940に対して指示する。

ステップ1070，1080，1090が終了した後には、ステップ1010へ戻り、処理を繰り返すものとする。なお、この処理の間隔は、送話音声解析部、受話音声解析部におけるフレーム間隔において行うものとする。

また、図１０のフローチャートには図示しないが、音声特徴学習部940に学習を指示するかしないかの判断は、他の情報を用いても行うことができる。具体的には、ユーザが車両内におり、ハンズフリー電話装置に備わっている学習装置830を使用している場合において、車両情報取得部870から得た情報より、自動車が停車中か走行中であるかを判定し、停車中の場合にのみ学習実行を指示する。こうすることにより、ユーザがより会話に集中しやすく、かつ騒音も少ない環境における会話音を学習対象とすることができる。

［音声特徴学習部の処理の流れ］
つぎに、送話音声特徴学習部850における、音声特徴学習部940の動作を、図１１のフローチャートに従って説明する。

ステップ1102では、送話者を特定する。この特定の方法にはさまざまな方法があるが、第1に、制御部840の情報による着信電話番号の情報を使うことができる。また、送話者が誰であるか分からなくとも、その属性だけでも判別し、その属性を送話者情報として使用することも可能である。たとえば、送話音声解析部910の情報より、男性・女性のいずれかの声であるかを判定することも可能である。また、音声特徴保存部950に保存されているすでに採取された送話者と音声特徴のデータより、話者認識を行っても良い。

ステップ1104では、送話者に対応する送話音声特徴が、音声特徴保存部950に保存されているかを検索する。なお、ステップ1102で述べたとおり、送話者は、男性・女性といった属性だけを特定する場合においては、音声特徴保存部950において、ステップ1102で判定された送話者属性に対応するデータが保存されているかを判定する。もしデータが存在すれば、ステップ1110へ進む。もしデータが存在しなければ、ステップ1106へ進む。

ステップ1106では、音声特徴保存部950において、新規の送話者に対する音声特徴情報を作成する。なお、ここで情報を作成した段階では、この新規の送話者の音声特徴はまだ蓄積されていない。

ステップ1110からステップ1160の処理は、通話中に繰り返し行われる。この繰り返す時間の間隔は、本装置の音声解析における周期であるフレーム間隔と同一のものと仮定する。
ステップ1110では、電話の通話が継続しているか否かを判定する。通話が継続していない場合には、処理を終了する。

ステップ1120では、判定部が出力した情報を参照し、学習実行が指示されているかを判定する。学習実行が指示されている場合には、ステップ1130へ進む。指示されていない場合には、ステップ1110へ戻り、処理を繰り返す。

ステップ1130では、送話音声解析部から出力される周波数-パワー特性を得る。

ステップ1140では、送話者の音声が発話中であるかを判定する。この音声発話の検出としては、公知の音声レベルによる方法や、GMMに基づく音声非音声判別の方法を使うことができる。

ステップ1150では、送話解析部から出力された周波数-パワー特性を、音声特徴保存部950に保存する。この処理によって、送話音の音声-周波数特性は、各時刻の値が逐次、音声特徴保存部950に追加されていく。

ステップ1160では、音声特徴保存部950に蓄積されている送話音声の各時刻の周波数-パワー特性から、各周波数帯域における音圧レベルの分布を求める。この分布は、送話音声においてユーザが聞く範囲の音圧の変動範囲を把握するための情報として利用する。この分布の形式としては、いくつかの形式が考えられる。1つは、各時刻における音圧から、平均値、最大値、最小値を算出する方法である。2つには、過去の音圧の時系列データから、確率分布関数（たとえば、正規分布、ベータ分布など）へフィッティングさせる計算を行い、確率分布関数の各パラメタを推定する方法がある。いずれの方法の実装でもよい。
以上の処理を、通話が終了するまで繰り返すものとする。

なお、上述の実施例では、送話者の特定を処理の最初に行う方法とした。しかし、送話者の特定を話者認識により行う場合には、十分な音声の量がないと認識が難しい場合がある。そのような場合には、通話中の送話者の音声特徴は一時記憶として記録しておき、通話中に送話者が特定されたならば、通話中または通話終了後に、一時記憶に蓄積した音声特徴を音声特徴保存部950に保存する方法でもよい。

［送話音声特徴の利用方法］
音声特徴保存部950に保存されている送話音声特徴には、送話音声調整部842の働きにより、ユーザの聞きやすさを考慮した補正、送話者ごとの聞きやすさを考慮した補正が施された後の送話音声の音圧変動範囲が保存されている。よって、音声特徴保存部950に保存されている送話音声の音圧変動範囲は、ユーザにとって聞きやすい音声の特性として参照できる。ここでは、音声特徴保存部950に保存されている送話音声の音圧変動範囲を、ハンズフリー電話装置125の音質の自動調整において説明した、送話音声特徴保存部212において使用する。

学習手段830にある音声特徴保存部950にある送話音声特徴を、ハンズフリー電話装置125の送話音声特徴保存部212に転送する方法について説明する。
第1の方法として、携帯電話を経由する方法がある。この方法では、携帯電話に備わっているメモリに音声特徴保存部950の情報を転送する。つぎに、この携帯電話を介して、ハンズフリー電話装置125において電話をする。この際に、送話音声特徴保存部212に転送する。
第2の方法として、インターネットなどのネットワーク経由による方法が考えられる。ここでは、学習手段830または学習手段830が備わっている固定電話・携帯電話・ハンズフリー電話装置がデータ通信機能を持つことを想定する。これにより、所定のサーバに対して音声特徴保存部950にある送話音声特徴をアップロードする。ハンズフリー電話装置125においては、サーバに対して送話音声特徴の要求を出し、ダウンロードを行う。
第3の方法として、フラッシュメモリやICチップなどの外部記憶装置による転送がある。この方法では、学習手段830が外部記憶装置とのデータ通信機能を持つことを想定する。これにより、フラッシュメモリやICチップなどに音声特徴保存部950の送話音声特徴を書き込む。さらに、ハンズフリー電話装置125においても、外部記憶装置とのデータ通信機能を有することを想定し、送話音声特徴を転送する。または、運転免許証に埋め込まれているICや、自動車のキーに埋め込まれている記憶領域に対して書き込みをおこない、これを、自動車の機器を通じて、ハンズフリー電話装置125に転送する方法をとってもよい。

［使用する音声特徴の選別］
なお、ハンズフリー電話装置125の動作の説明においても記述したが、送話音声特徴は、一般に、長い時間の音声から学習したほうが、信頼性が高い音声特徴であると考えられる。よって、ハンズフリー電話装置125では、送話音声特徴の学習の時間に応じて、送話音声特徴を使用するか否かを判断する実施例を説明した。この実施を可能とするために、学習手段830の音声特徴学習部940においても、音声特徴を保存するだけでなく、その特徴の算出に使われた音声の時間長（フレーム数）を記録するものとする。

［ハンズフリー電話における学習］
また、学習手段は、固定電話、携帯電話、ハンズフリー電話など、異なる環境における学習が可能である。よって、学習された音声特徴を利用してハンズフリー電話装置125において音質調整を行なう際には、学習された場面が近いほうがより音質がふさわしくなると考えられる。よって、ハンズフリー電話使用時における学習データが十分な量だけ存在する際には、固定電話・携帯電話で学習された送話音声特徴ではなく、ハンズフリー電話で学習された送話音声特徴を使用することが好ましい。

一方、ハンズフリー電話において学習された送話音声特徴は、車両の伝達関数の影響を受けた音声をユーザが聴取している条件において学習されている。よって、この送話音声特徴を音質調整に利用する際には、学習時の車両伝達特性の影響を考慮する必要がある。この方法としては、2つが挙げられる。第1は、学習時にユーザが乗っている車両での車両伝達関数をあらかじめ算出しておき、この特性をキャンセルした上で、学習を行う方法である。第2には、ハンズフリー電話装置125において音声を再生する際に、すでに車両伝達関数を加味した音声となっていることから、図6のステップ635の処理を省略して進める方法である。この方法は、ユーザが学習時に乗っていた車両の伝達関数と、ユーザが音質補正を行いつつ電話を行う車両の伝達特性とが同一であるとみなしている。実際には、伝達特性は異なるが、自動車の車室の一般的特性は反映される。

［まとめ］
以上、ユーザが普段、電話で会話している状況において、送話音声特徴を学習することにより、普段の聞きやすいと感じる音声の特徴を自動的に学習することができる。また、これをハンズフリー電話装置において利用することにより、自動車の運転における会話でも良い音質を提供することができる。

以上、ハンズフリー電話における実施の形態を説明したが、ハンズフリー電話装置に限らず、本発明で開示する技術は、オーディオの再生など、音響再生装置一般において利用することが可能である。また、自動車等の車両に限らず、一般の部屋などにおいても利用することができる。

本発明で開示する技術を音声調整部に適用すれば、受話者が聞く音質を快適にすることができる。

１１０…電話回線網、１２０…携帯電話、１２５…ハンズフリー電話装置、１３０…制御部、１３２…受話音声調整部、１３４…送話音声調整部、１４０…エコーキャンセル部、１５０…車両情報取得部、１６０…フィルタ設計部、１７０…フィルタ処理部、１８０…マイク、１９０…スピーカ、
２１０…送話者特定部、２１１…送話音声特徴選択部、２１２…送話音声特徴保存部、２２０…車両情報特定部、２２１…車両伝達関数選定部、２２２…車両伝達関数保存部、２３０…車内音響環境推定部、２３５…騒音データ保存部、２４０…送話音声解析部、２５０…フィルタ作成部、
８１０…電話回線網、８２０…携帯電話、８３０…学習手段、８４０…制御部、８４２…送話音声調整部、８４４…受話音声調整部、８５０…送話音声特徴学習部、８６０…操作入力部、８７０…車両情報取得部、８８０…スピーカ、８８２…マイク、８８４…エコーキャンセル部、
９１０…送話音声解析部、９２０…判定部、９３０…受話音声解析部、９４０…音声特徴学習部、９５０…音声特徴保存部。

Claims

1ないし複数の送話音声の音響特性を保存する送話音声特徴保存部と、
送話者または送話者の属性を特定する送話者特定部と、
前記送話音声特徴保存部に保存されている送話音声の音響特性から、前記送話者特定部で特定された送話者の情報に基づき、送話音声の音響特性を選択し取得する送話音声特徴選択部と、
送話音声を再生するスピーカから受話者の位置までの1ないし複数の伝達関数を保存する伝達関数保存部と、
前記伝達関数保存部に保存されている伝達関数から、少なくとも受話者の位置情報を含む情報に基づき、伝達関数を選択し取得する伝達関数選択部と、
前記送話音声特徴選択部が選択した送話音声の音響特性と、前記伝達関数選択部が選択した伝達関数に基づき、受話者の位置における再生音の音響特性が、前記送話音声特徴選択部が選択した送話音声の音響特性に近くなるフィルタを作成するフィルタ作成部と、
前記フィルタ作成部が作成したフィルタに基づいたフィルタ処理を再生音に行うフィルタ処理部と
を備えることを特徴とする音響再生装置。

請求項1に記載の音響再生装置において、
前記送話音声特徴保存部には、送話者の属性ごとに保存されている複数の送話音声の音響特性を有し、
前記送話音声特徴選択部は、送話者の属性を特定する前記送話者特定部の出力に基づいて、前記送話音声特徴保存部に保存されている送話音声の音響特性から、送話音声の音響特性を選択し取得することを特徴とする音響再生装置。

請求項１に記載の音響再生装置において、
前記送話音声特徴保存部に保存されている送話音声の音響特性は、周波数帯域ごとの音声の音圧に基づいた値により保存されていることを特徴とする音響再生装置。

請求項３に記載の音響再生装置において、
前記送話音声特徴保存部に保存されている送話音声の音響特性における、周波数帯域ごとの音声の音圧に基づいた値は、音圧と発生確率との関係を記録した確率分布であることを特徴とする音響再生装置。

請求項３に記載の音響再生装置において、
前記送話音声特徴保存部に保存されている送話音声の音響特性における、周波数帯域ごとの音声の音圧に基づいた値は、音圧の平均値、音圧の下限値、音圧の上限値のうちの1つないし複数であることを特徴とする音響再生装置。

請求項１に記載の音響再生装置において、
更に、受話者の位置における音響特性を推定する音響環境推定部を設け、
前記フィルタ作成部は、音響環境推定部から出力される音響特性に基づいて、作成するフィルタを変更することを特徴とする音響再生装置。

請求項6に記載の音響再生装置において、
前記音響環境推定部は、受話者の位置における騒音の音響特性を予測するものであり、
前記フィルタ作成部は、受話者の位置における再生音の周波数特性が、前記送話音声特徴選択部が選択した送話音声の音響特性の分布内に収まること、または、非再生音によるラウドネスのマスキングの再生音に対する影響が少ないことの内の1ないし複数の基準に基づいてフィルタを作成することを特徴とする音響再生装置。

請求項１に記載の音響再生装置において、
更に、受話者が使用する車両の情報を取得する車両情報取得部を備え、
前記伝達関数保存部には、車両の様々な位置や条件に結びついた1つないし複数の伝達関数が保存されており、
前記伝達関数選択部は、前記車両情報取得部の出力に基づいて伝達関数を選択することを特徴とする音響再生装置。

請求項１に記載の音響再生装置において、
前記伝達関数保存部に保存されている伝達関数は、その変動範囲の情報を付帯して保存されていることを特徴とする音響再生装置。

請求項１に記載の音響再生装置において、更に学習手段を備え、
該学習手段は、
送話音声の音質調整を行う送話音声調整部と、
前記送話音声調整部で音質調整された送話音声の音響特性を解析する送話音声解析部と、
前記送話音声解析部が出力した送話音声の音響特性を保存する音声特徴保存部と、
前記送話音声解析部の出力に基づき、送話音声の音響特性を学習し、学習結果を前記音声特徴保存部に保存する音声特徴学習部とを備え、
前記学習手段の音声特徴保存部に保存された送話音声の音響特性を、前記送話音声特徴保存部の送話音声の音響特性として用いることを特徴とする音響再生装置。

請求項１０に記載の音響再生装置において、
前記音声特徴保存部には、送話者の属性ごとに複数の送話音声の音響特性が保存されており、
前記音声特徴学習部は、送話者の属性を特定する送話者特定部の出力に基づいて送話者の属性を特定し、
前記音声特徴保存部に、特定された属性情報と学習結果とを対応づけた形式で保存することを特徴とする音響再生装置。

請求項１０に記載の音響再生装置において、
前記学習手段が、更に、送話音の音響特性を学習可能か不可能かを判定する判定部を備えることを特徴とする音響再生装置。

請求項１２に記載の音響再生装置において、
前記判定部は、送話音または受話音のうち1つないし複数を解析した結果、非会話音ではないと判定されたときに、学習可能と判定することを特徴とする音響再生装置。

請求項１２に記載の音響再生装置において、
前記学習手段が、更に、ユーザの操作を受け付ける操作入力部を備え、
前記判定部は、前記操作入力部の出力に応じて、学習可能と判定することを特徴とする音響再生装置。

請求項１２に記載の音響再生装置において、
受話者が使用する車両の情報を取得する車両情報取得部を備え、
前記判定部は、前記車両情報取得部の出力に基づいて、学習可能と判定することを特徴とする音響再生装置。

請求項１０に記載の音響再生装置において、
前記送話音声解析部は、送話音声の周波数帯域ごとの音圧に基づく値を計算して音響特徴量として出力することを特徴とする音響再生装置。

請求項１６に記載の音響再生装置において、
前記音声特徴学習部は、前記送話音声解析部が出力した周波数帯域ごとの音圧に基づく値を受け、周波数帯域ごとの音圧の発生確率分布を計算し、これを前記音声特徴保存部に保存することを特徴とする音響再生装置。

請求項１６に記載の音響再生装置において、
前記音声特徴学習部は、前記送話音声解析部が出力した周波数帯域ごとの音圧に基づく値を受け、周波数帯域ごとの音圧より、音圧の平均値、音圧の下限値、音圧の上限値のうち1つないし複数を計算し、これを送話音声特徴保存部に保存することを特徴とする音響再生装置。

請求項1に記載の音響再生装置において、
前記送話音声特徴保存部には、受話者に応じて異なる送話音声の音響特性が保存されており、
前記送話音声特徴選択部は、受話者の属性を特定する受話者特定部の出力に基づいて、前記送話音声特徴保存部に保存されている送話音声の音響特性から、送話音声の音響特性を選択し取得することを特徴とする音響再生装置。

請求項１乃至１９の何れか一つに記載の音響再生装置を組み込んだハンズフリー電話装置。