JP5292345B2 - 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 - Google Patents
音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 Download PDFInfo
- Publication number
- JP5292345B2 JP5292345B2 JP2010070498A JP2010070498A JP5292345B2 JP 5292345 B2 JP5292345 B2 JP 5292345B2 JP 2010070498 A JP2010070498 A JP 2010070498A JP 2010070498 A JP2010070498 A JP 2010070498A JP 5292345 B2 JP5292345 B2 JP 5292345B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- voice
- transmitted
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、自家用車を持たず、カーシェアリングやカーレンタルなどのサービスを利用して、同一ユーザがさまざまな自動車に乗る機会が今後増えていくと考えられる。その場合において、車種やハンズフリー電話装置が変更するたびに、その音質設定を行うことは手間がかかる。
図1は、本発明における音質の調整機能をもつハンズフリー電話装置の全体構成を示す図である。電話回線網110は、一般の固定電話や携帯電話が接続し互いに電話ができる一般的な回線網である。携帯電話120は、ハンズフリー電話に使用する携帯電話である。
制御部130は、ハンズフリー電話装置に一般に備わる制御を行う。具体的には、携帯電話120との通信の処理、送話音声・受話音声の制御、各種モジュールの制御である。また、携帯電話とインターネットとの接続装置をもち、サーバとの情報の授受を行えるようにしてもよい。制御部130において行われる携帯電話120とハンズフリー電話装置125との通信には、現在市販されている装置に備わっているものを使用することができる。すなわち、有線で接続してもよいし、Bluetooth規格により規定される方法で無線で通信しても良い。
スピーカ190は、ユーザに対して送話音を聞かせるために、音を再生する。
マイク180は、ユーザが発話する音声を採取する。
受話音声調整部132は、ハンズフリー電話のユーザが発話した音声(受話音)の音質調整を行う。これには、周波数帯域ごとのイコライジングのほかに、走行騒音を低減するノイズキャンセリング処理などが含まれる。
イコライジングの手法としては、FIRフィルタ、 IIRフィルタといったディジタルフィルタを用いる方法、FFT分析に基づく方法が知られている。また、ノイズキャンセリングの手法としては、スペクトルサブトラクション法やMMSE STSA法が知られている。これらの方法は、公知であるので、説明は省略する。
F.K. Soong、 A.M. Peterson:``Fast least-squares (LS) in the voice echo cancellation application、" Proc. ICASSP、 pp.1398-1403、 1982
フィルタ設計部160は、ユーザに聞かせる音声に対して音質調整を行なうための周波数帯域ごとの増幅率を決定する。この処理については、後ほど説明する。
フィルタ処理部170は、フィルタ設計部160において設計された各周波数帯域の増幅率に基づいて、送話音声調整部134が出力した送話音に対する信号処理を行う。この処理については、後ほど説明する。
車両情報取得部150は、車両における情報を取得する。この説明は後に行う。
図2は、フィルタ設計部160の詳細を示した図である。
本実施例では、周波数-パワー特性の計算がいくつかの方法で行われる。周波数領域におけるパワーの計算方法は、いくつかの方法が知られており、そういった公知の方法を使用することができる。
本実施例では、FFTを使った方法を用いる。第1に、入力された音声波形から、一定時間長の音声を切り出す。この時間長はフレーム長と呼ばれ、10ms程度の値がよく用いられる。第2に、切り出した音声に対して、Hanning窓またはHamming窓といったサイドローブを抑制する時間窓を掛ける。第3に、時間窓を掛けた波形に対して、FFT演算を行う。これにより、時間領域の波形は、周波数領域における実部と虚部の値に変換される。最後に、FFT演算に得られたそれぞれの値に対して大きさの2乗値を求める。これにより、各時刻における周波数-パワー特性を得ることができる。この処理を、規定のフレーム間隔(ここでは、フレーム長の1/4とする)において、逐次繰り返す。
なお、このFFTによる方法の代替としては、フレームごとの音声波形に対してLPC分析を行うことにより、周波数スペクトル包絡を求める方法を用いることができる。
送話者特定部210、送話音声特徴選択部211では、送話者が誰であるかを特定し、さらに、その送話者に対応する音声特徴を取得する。この流れを、図2と図3のフローチャートに従って説明する。
図3のフローチャートは、電話の着信があった際に開始される。また、着信のたびに1度行うことにより終了する処理である。
古井貞煕:「音声情報処理」、森北出版、1998
これらの方法では、送話音声調整部134が出力した送話音に対して、送話音声解析部240において周波数領域における分析を行って特徴量を算出し、これと送話音声特徴保存部212に保存されている各話者の音声特徴量との距離を計算することにより実装することができる。
また、送話者特定部210は、送話者の属性に関する情報のみを出力しても良い。たとえば、男性であるか女性であるか、年齢が何歳程度であるかといった、話者のいずれかの属性を示す情報を出力することが挙げられる。以降では、こういった送話者の属性のみを特定した場合においても、送話者の特定での実施と同様に行えるため、送話者が特定される場合についてのみ説明する。
ステップ330では、送話音声特徴選択部211において、ステップ320で特定された送話者(または送話者の属性)に従い、送話者の音声特徴を検索する。検索する対象は、送話音声特徴保存部212に保存されているデータである。
送話音声特徴保存部212での保存の形態については、図7の(A)において説明する。
下限音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる最小の音圧レベルであり、ユーザにとって聞きやすい音とするために補償しなければならない最下限の音圧レベルとして参照される。
上限音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる最大の音圧レベルであり、ユーザにとって聞いていて不快にならない音圧レベルの上限値として参照される。
平均音圧レベルは、送話者の会話音声をユーザが電話で聞く際に起こりうる平均での音圧レベルであり、ユーザにとって聞きやすい音声である場合における平均の音圧レベルとして参照される。
また、送話音声特徴保存部212の情報をつかわなくとも、同形式の情報を制御部130を通じて、携帯電話に保存されている送話音声特徴を利用する、サーバからダウンロードした送話音声を利用することでもよい。この場合、ステップ330では、送話音声特徴選択部211は、制御部130を通じて送話者の情報を要求する。
また、ステップ350で取得された送話音声特徴は、ステップ357において、フィルタ作成部250へ送られる。
このデフォルトの送話音声特徴は、どのような人が発話したとしても、ユーザが聞きやすいと感じる周波数と音圧レベルの関係であることが望ましい。そのようなものとして、聴力検査で測定されるオージオグラムに基づく値を使う方法が考えられる。すなわち、聴力検査における各周波数音に対する聴覚閾値を下限音圧レベルに対応させ、不快閾値を上限音圧レベルに対応させる。なお、このデフォルトの特性は、送話者の声質が考慮されていないため、真の聞きやすい音声とは若干異なるが、ユーザの聞きやすい音の周波数特性を考慮した特性を持っておくことによって、最低限の音質に補償するものである。
ステップ355で取得された送話音声特徴は、ステップ357において、フィルタ作成部250へ送られる。
以上により、送話者特定部210、送話音声特徴選択部211の処理は終了する。
車両情報特定部220、車両伝達関数選定部221では、ユーザが車両内においてハンズフリー電話の音声を聞く環境における、スピーカからユーザ(受話者)の頭部までの伝達関数を得る。この処理を、図4のフローチャートによって説明する。
図4のフローチャートは、電話の着信があった際に開始される。また、原則、着信のたびに1度行うことにより終了する処理であるが、通話中に過度な車両情報の変更があった場合には、その都度更新してもよい。
車両情報取得部150では、車内におけるさまざまな情報を感知する。この情報の種類は、特定のものに限定されないが、以下の情報が挙げられる。まず、温度、湿度を感知する。また、同乗者が乗っている位置を特定するため、各座席のシートの圧力の情報や、車内に設置したカメラの情報を取得する。また、ユーザの頭部位置を特定するために、シートのヘッドレストの高さ情報、シートの前後位置情報、角度情報を取得する。
図7の(B)に、車両伝達関数保存部222に保存されている車両伝達関数の1つの例を示す。車両伝達関数は、周波数と各周波数帯域における音エネルギの伝達率(ゲイン)との関係で保存しておく。車両伝達関数は、同一の条件であっても、さまざまな外部の要因により変動するため、最大、最小、平均のそれぞれのゲインのいずれか1つ以上を保存しておくものとする。あるいは、確率分布関数のパラメタという形で、各周波数帯域のゲインの変動範囲を保存しておくという形態でも良い。
なお、検索対象となる車両伝達関数は、車両伝達関数保存部222に保存されていなくとも、その都度、制御部130を介してサーバや携帯電話に検索要求を出す方法でもよい。または、車両伝達関数保存部222に存在しないときにだけ制御部130を介してサーバや携帯電話に検索要求を出す様式でもよい。サーバに車両伝達関数を蓄積する形態をとれば、自動車の出荷前に、あらかじめすべてのパタンの伝達特性を取らずとも、ユーザの需要や販売台数に応じて、随時サーバに追加しておくことも可能となる。
さらに、ステップ480で取得された車両伝達関数は、ステップ490の処理により、フィルタ作成部へ送られる。
さらに、ステップ485で取得された車両伝達関数は、ステップ490の処理により、フィルタ作成部へ送られる。
以上により、車両情報特定部220、車両伝達関数選定部221の処理は終了する。
車内音響環境推定部230では、ユーザが運転中に聞いている電話の会話音とは異なる騒音(エンジンノイズ、ロードノイズ、音楽音、同乗者の会話音など)を推定する。この処理を、図5のフローチャートによって説明する。
図5のフローチャートは、電話の着信があった際に開始される。また、電話の通話中に繰り返し行う。これにより、騒音を逐次推定するものである。なお、この繰り返しの時間間隔も、先に説明したとおり、FFT演算に使われるフレーム長の1/4を仮定する。
この判定により、ユーザが発話していないと判定された場合には、ステップ510へ戻る。ユーザが発話していると判定された場合には、ステップ520へ移る。
さらに、この騒音データの検索においては、ステップ525でもとめられた騒音の周波数-パワー特性を検索条件に入れることを想定する。ステップ525でもとめられた騒音の周波数-パワー特性も、すでに騒音の特性を表している。しかし、マイクで収集される騒音の周波数特性と、ユーザが実際に聞く周波数特性は異なると考えられる。よって、ユーザが聞く音に近い騒音特性を推定できることが望ましい。よって、マイクから取られる騒音と、ユーザの頭部位置における騒音との関連をあらかじめとっておき、検索することによって、高精度なユーザ頭部位置における騒音特性を取ることができる。
検索結果が存在した場合には、ステップ550へ進む。存在しなかった場合には、ステップ560へ進む。
フィルタ作成部250は、以上の各部が算出した情報に基づき、ユーザにとって送話音を聞きやすい音に加工するフィルタを作成する。フィルタ作成部250における処理の流れを、図6のフローチャートに従って説明する。
なお、フィルタ作成部250の処理は、通話の継続中は繰り返し行われるものである。なお、この繰り返しの時間間隔も、先に説明したとおり、FFT演算に使われるフレーム長の1/4を仮定する。
もし、発話でないと判定された場合には、ステップ610へ戻る。発話であると判定された場合には、ステップ630へ移る。
車両伝達特性の逆関数の例を図7の(C)に示す。この逆関数は、図7の(B)に示す車両伝達関数のゲインに対して、ゲインの逆数を計算することによって計算される。なお、ゲインをdB単位で表す場合には、元の対数ゲインに対する負の値として計算される。また、最大ゲイン、最小ゲイン、平均ゲインといった複数の値が定義されている場合には、それらの値のすべてに対して、逆関数をもとめる。また、車両伝達関数が確率分布として記録されている場合には、その分布が保存される形で、ゲインを逆数を取った分布のパラメタを求める。この逆関数は、スピーカから音を再生する場合において、ユーザの頭部において車室内の音響特性の影響をキャンセルした、周波数特性が平坦な音声を再生するための周波数特性として使用される。
この逆関数との積の計算によって、ユーザが聞く騒音特性に相当する騒音をスピーカで再生するには、どのような周波数特性としたらよいかが分かる。このデータは、ユーザが実際に聞く送話音において、騒音の影響がどの程度あるかを評価するために使われる。
この処理の具体例を図7の(D)で示す。図7(D)では、ステップ635で算出した音声特徴(a、b、c、d)、ステップ645で算出した騒音特性(e)が記載されている。
まず、ユーザが聞きやすい音圧レベルは、送話音声特徴図7 (A)の周波数特性が、ユーザの頭部位置における音において再現されることである。これを達成するためには、スピーカからは、図7 (D)の下限音圧レベルから上限音圧レベルまでの音圧の範囲において再生されれば良い。なぜならば、図7 (D)の下限音圧レベル、上限音圧レベルは、送話音声特徴に対して車室内の周波数伝達特性の逆関数が掛けられているため、この周波数特性においてスピーカから再生されれば、車室の音響伝達特性を経てユーザの頭部において音声が再生されるため、送話音声特徴図7 (A)の周波数特性において再生されるためである。
しかしながら、車両伝達関数にはさまざまな理由により変動が発生する。そのため、たとえば図7 (D)のdの曲線に沿って音を再生した場合では、もし車両伝達関数のゲインが変動範囲内のうち大きなゲインを持っていた場合には、ユーザが聞いた音声は、普段聞いている音圧よりも大きくなる。このため、ユーザにとって不快となる恐れがある。一方、図7 (D)のaの曲線に沿って音を再生した場合では、車両伝達関数のゲインが変動範囲内のうち小さなゲインであった場合には、ユーザが聞く音は過度に小さくなる恐れがある。
こういった副作用を抑えるため、ここでは、車両伝達関数の予測される変動範囲内において、ユーザにとって聞きやすい送話音声特徴に収まる音圧の範囲を考える。すなわち、図7 (D)における、bからcまでの範囲に収めることにする。
なお、車両伝達関数や、送話音声特徴の周波数-パワー特性が確率分布関数の形式で定義されている場合には、図7 (D)の分布も確率分布関数によって計算することができる。この計算には、確率変数がデシベル単位で定義される場合には、2つの確率分布の和を取ることに相当するため、図7 (D)の各周波数帯域における音圧の変動範囲を表す確率分布関数のパラメタを得ることは公知の計算方法によって可能である。このようにして得た確率分布より、ユーザが聞きづらいほど音圧が小さくなる場合、不快となるほど音圧が大きくなる場合の確率を所定の閾値以下に収まる音圧の変動範囲が計算できる。
J.P.A. Lochner、 J.F. Burger: ``Form of the loudness function in the presence of masking noise、" Journal of the Acoustical Society of America、 vol.33、 no.12、 pp.1705-1707、 1961
この文献によれば、ノイズが存在する環境下での目的音のラウドネスψは、以下の式で表される。
ψ= k ( In - I0 n)
ただし、k,nは定数である。また、Iは目的音の音インテンシティ、I0はノイズの音インテンシティである。
この式による会話音のラウドネスを計算すると、会話音声の音圧レベルが騒音の音圧レベルよりも十分に大きければ、ラウドネスの減少は無視できるほど少ない。一方、会話音声の音圧レベルが騒音の音圧レベルと近い値である場合には、会話音のラウドネスの減少が顕著となる。よって、会話音声の音圧レベルが騒音の音圧レベルと近い場合において、会話音声をより大きく増幅する補償を行うことで、会話音の聞き取りを行うことができる。よって、この基準に基づいて再生音圧の範囲を決定させる。具体的には、図7(D)のeよりラウドネス減少が起こらない程度に大きい音圧を下限とし、cを上限とする範囲を採用する。
なお、騒音特性については、これまで平均値のみを用いる場合を説明したが、送話音声特徴の周波数-パワー特性と同様、騒音の最大値、最小値や、確率分布関数による変動範囲を利用できる場合がある。こういった場合に関しては、上記で述べた送話音声特性のさまざまな形態における対処方法と同様に、マスキングの影響を計算することができる。
(1) 会話音の瞬時の特性
(2) 現在の通話が開始してからの現在までの送話者の会話音の統計的な特性
(1)については、先に説明したフレーム単位のFFT演算の結果から得た周波数-パワー特性を直接利用する。(2)は、現在会話されている音声における、各周波数帯域での上限音圧レベル、下限音圧レベルを判定するために得る統計量である。この方法としては、周波数-パワー特性の各時刻の値から、最大となった音圧レベルを上限値とし、最小となった音圧レベルを下限値として使用する方法でもよい。また、過去の会話音の音圧レベルの瞬時値を蓄積し、確率分布関数におけるパラメタを演算し、このパラメタから、音圧の下限、上限を求める方法でもよい。
なお、送話者が通話している際の音声は、過去の会話において蓄積されている送話音声特徴保存部212に保存されている情報を利用することも可能である。もし、現在通話している音声が、送話音声特徴保存部212を再現するものであれば、送話音声解析部240による解析は不要であり、送話音声特徴保存部212に保存されている情報をそのまま用いることができる。しかし、現在会話している送話者の音声特性と過去に蓄積されている送話者の音声特性とは、かならずしも一致しない。その理由としては、送話者の体調の相違、送話者が現在いる環境の相違、会話している相手が運転中であることによる発話様態の変化などが挙げられる。また、送話音声特徴部212に保存されている音声特徴は、後ほど説明する学習装置において、受話者が普段の固定電話や携帯電話の会話から学習することもありうる。よって、ユーザが通常使用している機器に特有のイコライジングや、ユーザがその機器において普段設定している音質設定の影響を含んだ音声となっている。しかしながら、ハンズフリー通話システムにおいては、ユーザが普段使用している携帯電話を使っているとしても、携帯電話で設定されているイコライジングがハンズフリー電話システムにおいて利用不可能な場合がある。また、ハンズフリー電話システムでは、固有のイコライジングや音質調整を行なっていることが一般的である。また、ユーザが普段利用しない携帯電話を利用し、ハンズフリー電話での会話を行うこともある。こういった、ハンズフリー電話で再生される音が、送話音声特徴部212に入っている特徴とは異なる場合も多い。よって、送話音声解析部240を使い、現在会話している音声を逐一解析するものとする。
送話音声解析部240が解析した音声の周波数特性の例を図7の(F)に示す。
この処理の第1に、現時点の会話における送話音声の音圧(入力音圧と呼ぶ)の変動範囲と、650で算出した目標とする再生音声の音圧(出力音圧と呼ぶ)の変動範囲の間の変換式を計算する。
図7の(G),(H)には、それぞれ、周波数f2、 f1における、入力音圧と出力音圧の関係を示す。
以上の処理を、処理の単位となる各周波数帯域において行い、各周波数帯域における増幅率を算出する。
なお、ここでは、入力音圧、出力音圧の上限値、下限値のあいだの対応を使い、増幅率を計算する方法を説明した。しかし、別の方法を用いることも可能である。たとえば、入力音圧と出力音圧の平均値と上限値の対応関係から、変換関数を求め、増幅率を計算してもよい。
(1)の帯域間の増幅率の差を抑える目的で行う処理としては、ステップ660で求められた各周波数帯域の増幅率からスプライン関数を求め、周波数の変化に対して連続的に変化する増幅率を採用する方法がある。冒頭でも述べたとおり、周波数-パワー特性を計算する際の周波数帯域は、critical bandなどのいくつかの周波数帯域に分割して、それぞれの帯域ごとに求める方法を仮定している。よって、この帯域ごとに求められた増幅率をそのまま適用すると、帯域が変わるとこで急激に増幅率が変化してしまう。そこで、各帯域の増幅率からスプライン関数を求め、そのスプライン関数により、各周波数帯域の中心周波数以外における増幅率を計算する。これにより、周波数による増幅率の変化が平滑化される。
(2)の時刻間の増幅率を抑える目的としては、ステップ660で得られた増幅率の瞬時値を用いずに、過去数フレームにおける増幅率の平均値を使用する方法がある。これらの平滑化の方法は、以下の文献に記載されている方法を使用することができる。
F. Asano、 Y. Suzuki、 T. Sone、 S. Kakehata、 M. Satake、 K. Ohyama、 T. Kobayashi 、 T. Takasaka: ``A digital hearing aid that compensates loudness for sensorineural impaired listeners、" Proc. of ICASSP91、 pp.3625-3628、 1991
ステップ670では、ステップ665で計算された各周波数帯域の増幅率をフィルタ処理部170へ送る。
以上のフィルタ作成部250の処理を、通話中繰り返す。
次に、フィルタ処理部170の処理について説明を行う。フィルタ処理部170は、フィルタ作成部250が出力した各周波数帯域の増幅率に基づき、送話音声の再生音の調整を行う。
第1に、送話音をフレーム長だけ切り出す。フレーム長と呼ばれ、10ms程度の値がよく用いられる。切り出した音声に対して、窓かけを行う。なお、音声の切り出しは、1/4フレーム長の時間間隔において行われることを想定する。
第2に、分析対象音声に対してFFTを行う。これにより、時間領域の波形は、周波数領域における実部と虚部の値に変換される。
第3に、FFTで出力された各周波数領域の値に対して、フィルタ設計部160が出力した各帯域ごとの増幅率を掛ける。
第4に、第3の処理によって得られた周波数領域にける各値に対して、逆フーリエ変換を行い、時間領域に戻す。
第5に、第4の処理によって得られた波形を出力する。第1の処理における送話音の切り出しは、1/4フレーム長の時間間隔において行われるため、異なるフレームでも同一時刻となるサンプル値が存在するため、そのような値は加算をして出力する。この方法は、重複加算法(overlap add法)として知られている。
以上の処理により、送話音に対してフィルタ設計部160が出力した各周波数帯域における増幅率に基づいて振幅を増減した音声を、スピーカ190より出力する。
スピーカ190から再生された音声は、以上の処理より、ユーザの頭部位置で聞いた場合においては、ユーザが普段聞いている、送話者に対応した周波数特性に変換されて聞こえる。また、騒音がある場合においては、その騒音による聞き取りへの悪影響が抑えられるような音質調整も行なわれている。よって、ユーザにとって聞きやすい音において、ハンズフリー電話の音声を再生することができる。
なお、本実施例では、ユーザは運転席において電話を行う仮定において説明した。しかし、ユーザが後部座席や助手席など、他の座席において使用する場合もある。一般に、ハンズフリー電話は、運転者が電話をするための装置として開発されている。しかし、考えられる状況として、車両内にいる複数の人が、電話の向こうにいる人と交互に会話をすることも考えられる。
このような場合おいても、現在会話している人に対する音質調整を行うことができる。この方法を実施するには、車内音響環境推定部230、車両伝達関数選定部221の処理を行う前に、会話をしている人が車内においてどこにいるかをあらかじめ知っておくことが必要である。このためには、スイッチなどの操作により明示的に会話者の位置を機器に指定する方法、車内に設置したカメラによる画像情報から会話者の位置を特定する方法、車内に設置した1ないし複数のマイクロフォンから所定の信号処理により会話者を特定する方法などを用いることができる。
また、会話をする人が異なれば、好む送話音声特徴が異なる。よって、送話音声特徴保存部には、複数の送話音声特徴を聴取者ごとに異なる領域に保存するものとする。実際に音質の補正を行う際には、会話者(すなわち聴取者)が誰であるかを検知したのち、会話者に対応した送話音質特性を読み込んで音質補正を行う。会話者の特定には、スイッチなどの操作により明示的に会話者が誰であるかを機器に指示する方法、車内に設置したカメラによる画像情報から会話者の顔画像を認識する方法、車内に設置したマイクの音から、現在会話中であるものが誰であるかを話者認識によって特定する方法、などが実施できる。
図8に、送話音声を学習する際のシステム構成を示す。送話音声の学習は、ユーザが一般的に使用する携帯電話、固定電話などにおいて、ユーザが普段会話している際の送話者の音声の特徴(送話音声の音響特性)を学習する。また、ハンズフリー電話装置における通話においても学習を行うことができる。
電話回線網810は、一般の固定電話や携帯電話が接続し互いに電話ができる一般的な回線網である。
携帯電話820は、電話回線網810と学習手段830との通信を行う。この携帯電話は、学習手段がハンズフリー電話装置に備わっている場合にのみ必要となる部品である。固定電話、携帯電話において学習を行う際には、電話回線網810と学習手段830にある制御部840が直接通信を行う構成で実施できるため、携帯電話820は不要となる。ハンズフリー電話装置において学習を行う場合では、携帯電話820と制御部840との通信は、有線または無線(Bluetooth規格)により実施される。
また、固定電話、携帯電話、ハンズフリー電話において、ユーザが特段の音質調整を行う場合においても、この送話音声調整部842によって行うことができる。たとえば、ユーザが高周波数帯域が小さい音を好む場合、送話音声調整部842において高周波数帯域の増幅率を下げたイコライジングを設定することができる。
また、ユーザにとって聞きやすいイコライザ設定が、送話者(送話音を発話している人)ごとに異なる場合には、送話者ごとに異なるイコライジング設定を送話音声調整部842にて施す。具体的には、別途設定した送話者ごとのイコライジング設定を送話音声調整部842の記憶に保持しておく。実際の通話においては、送話者の電話番号などの情報から送話者を特定し、特定された送話者に結びついたイコライジング設定を送話音声調整部842で使用する。
この送話音声調整部842における音質調整は、ユーザの聴力に損失がある場合にも、各周波数帯域の音の増幅を行うことにより、補聴装置として使用することができる。
送話音声調整部842によって調整されたユーザにとって聞きやすい音声の特徴が送話者ごとに保存されていく。
この学習した結果である音声特徴は、ハンズフリー電話装置125の送話音声特徴保存部212に保存され、すでに説明したハンズフリー電話装置125の音質の自動調整において、ユーザの耳介位置における音響特性の目標値として使用される。
よって、ハンズフリー電話装置125は、ユーザの耳介位置における送話音が、ユーザ情報や送話者情報によって特定された聞きやすい音質となるように、音質調整を行うことができる。
送話音声特徴学習部850は、ユーザの電話に通話をしてきた送話者の音声の特徴を学習する。図9に、送話音声特徴学習部850の構成をより詳細に説明した図を示す。
ステップ1010では、通話が継続しているかを判断し、通話が終了していれば処理を終了する。
ステップ1020では、学習のモードによる分岐を行う。ここでは、制御部840を介して得られた操作入力部860の入力に従って分岐を行う。第1に、送話音声の学習を行わないとユーザが明示的に指定している場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して出力する。また、ユーザが強制的に学習するように指示している場合には、ステップ1090へ進み、学習を実行するように音声特徴学習部940に対して出力する。また、自動学習モードの場合には、送話音、受話音の情報に基づいて学習を行うか否かを判断する。そのため、ステップ1030へ移る。
ステップ1040では、ステップ1030で取得した送話音の周波数-パワー特性に基づき、送話音の騒音レベルを判断する。騒音レベルとは、送話音に含まれる電話での会話音とは異なる音の大きさのことである。この騒音レベルが大きい環境では、送話者はうるさい場所から電話を掛けていることが推察される。そのような環境から得られた送話音は、ユーザにとっても聞きづらい音であると考えられる。よって、このような音は学習対象から除外するために判定を行う。この判定の方法としてはさまざまな方法によって実装が可能であるが、たとえば、送話音の周波数-パワー特性を長時間で平均し、その全体のパワーの大きさが一定閾値を越える場合に騒音大と判定する方法や、GMMモデルを用いた音声非音声判別方法を用いることができる。
判定の結果、騒音レベルが閾値以上であった場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して指示する。騒音レベルが閾値未満であった場合は、ステップ1050へ進む。
ステップ1060では、ステップ1050で取得した受話音の周波数-パワー特性に基づき、受話音の騒音レベルを判断する。これは、ユーザが騒音が大きな環境において会話している場合には、ユーザにとって会話がしづらい状況であると判定されるため、学習対象からはずすことを目的としている。
この判定方法は、ステップ1040における送話音声の騒音判定と同様の方法が使用できる。判定の結果、騒音レベルが閾値以上であった場合には、ステップ1070へ進み、学習停止を音声特徴学習部940に対して出力する。騒音レベルが閾値未満であった場合は、ステップ1080へ進む。
ステップ1080では、学習を実行するように音声特徴学習部940に対して指示する。
つぎに、送話音声特徴学習部850における、音声特徴学習部940の動作を、図11のフローチャートに従って説明する。
ステップ1110では、電話の通話が継続しているか否かを判定する。通話が継続していない場合には、処理を終了する。
以上の処理を、通話が終了するまで繰り返すものとする。
音声特徴保存部950に保存されている送話音声特徴には、送話音声調整部842の働きにより、ユーザの聞きやすさを考慮した補正、送話者ごとの聞きやすさを考慮した補正が施された後の送話音声の音圧変動範囲が保存されている。よって、音声特徴保存部950に保存されている送話音声の音圧変動範囲は、ユーザにとって聞きやすい音声の特性として参照できる。ここでは、音声特徴保存部950に保存されている送話音声の音圧変動範囲を、ハンズフリー電話装置125の音質の自動調整において説明した、送話音声特徴保存部212において使用する。
第1の方法として、携帯電話を経由する方法がある。この方法では、携帯電話に備わっているメモリに音声特徴保存部950の情報を転送する。つぎに、この携帯電話を介して、ハンズフリー電話装置125において電話をする。この際に、送話音声特徴保存部212に転送する。
第2の方法として、インターネットなどのネットワーク経由による方法が考えられる。ここでは、学習手段830または学習手段830が備わっている固定電話・携帯電話・ハンズフリー電話装置がデータ通信機能を持つことを想定する。これにより、所定のサーバに対して音声特徴保存部950にある送話音声特徴をアップロードする。ハンズフリー電話装置125においては、サーバに対して送話音声特徴の要求を出し、ダウンロードを行う。
第3の方法として、フラッシュメモリやICチップなどの外部記憶装置による転送がある。この方法では、学習手段830が外部記憶装置とのデータ通信機能を持つことを想定する。これにより、フラッシュメモリやICチップなどに音声特徴保存部950の送話音声特徴を書き込む。さらに、ハンズフリー電話装置125においても、外部記憶装置とのデータ通信機能を有することを想定し、送話音声特徴を転送する。または、運転免許証に埋め込まれているICや、自動車のキーに埋め込まれている記憶領域に対して書き込みをおこない、これを、自動車の機器を通じて、ハンズフリー電話装置125に転送する方法をとってもよい。
なお、ハンズフリー電話装置125の動作の説明においても記述したが、送話音声特徴は、一般に、長い時間の音声から学習したほうが、信頼性が高い音声特徴であると考えられる。よって、ハンズフリー電話装置125では、送話音声特徴の学習の時間に応じて、送話音声特徴を使用するか否かを判断する実施例を説明した。この実施を可能とするために、学習手段830の音声特徴学習部940においても、音声特徴を保存するだけでなく、その特徴の算出に使われた音声の時間長(フレーム数)を記録するものとする。
また、学習手段は、固定電話、携帯電話、ハンズフリー電話など、異なる環境における学習が可能である。よって、学習された音声特徴を利用してハンズフリー電話装置125において音質調整を行なう際には、学習された場面が近いほうがより音質がふさわしくなると考えられる。よって、ハンズフリー電話使用時における学習データが十分な量だけ存在する際には、固定電話・携帯電話で学習された送話音声特徴ではなく、ハンズフリー電話で学習された送話音声特徴を使用することが好ましい。
以上、ユーザが普段、電話で会話している状況において、送話音声特徴を学習することにより、普段の聞きやすいと感じる音声の特徴を自動的に学習することができる。また、これをハンズフリー電話装置において利用することにより、自動車の運転における会話でも良い音質を提供することができる。
210…送話者特定部、211…送話音声特徴選択部、212…送話音声特徴保存部、220…車両情報特定部、221…車両伝達関数選定部、222…車両伝達関数保存部、230…車内音響環境推定部、235…騒音データ保存部、240…送話音声解析部、250…フィルタ作成部、
810…電話回線網、820…携帯電話、830…学習手段、840…制御部、842…送話音声調整部、844…受話音声調整部、850…送話音声特徴学習部、860…操作入力部、870…車両情報取得部、880…スピーカ、882…マイク、884…エコーキャンセル部、
910…送話音声解析部、920…判定部、930…受話音声解析部、940…音声特徴学習部、950…音声特徴保存部。
Claims (20)
送話者または送話者の属性を特定する送話者特定部と、
前記送話音声特徴保存部に保存されている送話音声の音響特性から、前記送話者特定部で特定された送話者の情報に基づき、送話音声の音響特性を選択し取得する送話音声特徴選択部と、
送話音声を再生するスピーカから受話者の位置までの1ないし複数の伝達関数を保存する伝達関数保存部と、
前記伝達関数保存部に保存されている伝達関数から、少なくとも受話者の位置情報を含む情報に基づき、伝達関数を選択し取得する伝達関数選択部と、
前記送話音声特徴選択部が選択した送話音声の音響特性と、前記伝達関数選択部が選択した伝達関数に基づき、受話者の位置における再生音の音響特性が、前記送話音声特徴選択部が選択した送話音声の音響特性に近くなるフィルタを作成するフィルタ作成部と、
前記フィルタ作成部が作成したフィルタに基づいたフィルタ処理を再生音に行うフィルタ処理部と
を備えることを特徴とする音響再生装置。
前記送話音声特徴保存部には、送話者の属性ごとに保存されている複数の送話音声の音響特性を有し、
前記送話音声特徴選択部は、送話者の属性を特定する前記送話者特定部の出力に基づいて、前記送話音声特徴保存部に保存されている送話音声の音響特性から、送話音声の音響特性を選択し取得することを特徴とする音響再生装置。
前記送話音声特徴保存部に保存されている送話音声の音響特性は、周波数帯域ごとの音声の音圧に基づいた値により保存されていることを特徴とする音響再生装置。
前記送話音声特徴保存部に保存されている送話音声の音響特性における、周波数帯域ごとの音声の音圧に基づいた値は、音圧と発生確率との関係を記録した確率分布であることを特徴とする音響再生装置。
前記送話音声特徴保存部に保存されている送話音声の音響特性における、周波数帯域ごとの音声の音圧に基づいた値は、音圧の平均値、音圧の下限値、音圧の上限値のうちの1つないし複数であることを特徴とする音響再生装置。
更に、受話者の位置における音響特性を推定する音響環境推定部を設け、
前記フィルタ作成部は、音響環境推定部から出力される音響特性に基づいて、作成するフィルタを変更することを特徴とする音響再生装置。
前記音響環境推定部は、受話者の位置における騒音の音響特性を予測するものであり、
前記フィルタ作成部は、受話者の位置における再生音の周波数特性が、前記送話音声特徴選択部が選択した送話音声の音響特性の分布内に収まること、または、非再生音によるラウドネスのマスキングの再生音に対する影響が少ないことの内の1ないし複数の基準に基づいてフィルタを作成することを特徴とする音響再生装置。
更に、受話者が使用する車両の情報を取得する車両情報取得部を備え、
前記伝達関数保存部には、車両の様々な位置や条件に結びついた1つないし複数の伝達関数が保存されており、
前記伝達関数選択部は、前記車両情報取得部の出力に基づいて伝達関数を選択することを特徴とする音響再生装置。
前記伝達関数保存部に保存されている伝達関数は、その変動範囲の情報を付帯して保存されていることを特徴とする音響再生装置。
該学習手段は、
送話音声の音質調整を行う送話音声調整部と、
前記送話音声調整部で音質調整された送話音声の音響特性を解析する送話音声解析部と、
前記送話音声解析部が出力した送話音声の音響特性を保存する音声特徴保存部と、
前記送話音声解析部の出力に基づき、送話音声の音響特性を学習し、学習結果を前記音声特徴保存部に保存する音声特徴学習部とを備え、
前記学習手段の音声特徴保存部に保存された送話音声の音響特性を、前記送話音声特徴保存部の送話音声の音響特性として用いることを特徴とする音響再生装置。
前記音声特徴保存部には、送話者の属性ごとに複数の送話音声の音響特性が保存されており、
前記音声特徴学習部は、送話者の属性を特定する送話者特定部の出力に基づいて送話者の属性を特定し、
前記音声特徴保存部に、特定された属性情報と学習結果とを対応づけた形式で保存することを特徴とする音響再生装置。
前記学習手段が、更に、送話音の音響特性を学習可能か不可能かを判定する判定部を備えることを特徴とする音響再生装置。
前記判定部は、送話音または受話音のうち1つないし複数を解析した結果、非会話音ではないと判定されたときに、学習可能と判定することを特徴とする音響再生装置。
前記学習手段が、更に、ユーザの操作を受け付ける操作入力部を備え、
前記判定部は、前記操作入力部の出力に応じて、学習可能と判定することを特徴とする音響再生装置。
受話者が使用する車両の情報を取得する車両情報取得部を備え、
前記判定部は、前記車両情報取得部の出力に基づいて、学習可能と判定することを特徴とする音響再生装置。
前記送話音声解析部は、送話音声の周波数帯域ごとの音圧に基づく値を計算して音響特徴量として出力することを特徴とする音響再生装置。
前記音声特徴学習部は、前記送話音声解析部が出力した周波数帯域ごとの音圧に基づく値を受け、周波数帯域ごとの音圧の発生確率分布を計算し、これを前記音声特徴保存部に保存することを特徴とする音響再生装置。
前記音声特徴学習部は、前記送話音声解析部が出力した周波数帯域ごとの音圧に基づく値を受け、周波数帯域ごとの音圧より、音圧の平均値、音圧の下限値、音圧の上限値のうち1つないし複数を計算し、これを送話音声特徴保存部に保存することを特徴とする音響再生装置。
前記送話音声特徴保存部には、受話者に応じて異なる送話音声の音響特性が保存されており、
前記送話音声特徴選択部は、受話者の属性を特定する受話者特定部の出力に基づいて、前記送話音声特徴保存部に保存されている送話音声の音響特性から、送話音声の音響特性を選択し取得することを特徴とする音響再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010070498A JP5292345B2 (ja) | 2010-03-25 | 2010-03-25 | 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010070498A JP5292345B2 (ja) | 2010-03-25 | 2010-03-25 | 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011205389A JP2011205389A (ja) | 2011-10-13 |
JP5292345B2 true JP5292345B2 (ja) | 2013-09-18 |
Family
ID=44881551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010070498A Expired - Fee Related JP5292345B2 (ja) | 2010-03-25 | 2010-03-25 | 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5292345B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5623961B2 (ja) | 2011-03-30 | 2014-11-12 | クラリオン株式会社 | 音声通話装置及び車載装置 |
US20150039300A1 (en) * | 2012-03-14 | 2015-02-05 | Panasonic Corporation | Vehicle-mounted communication device |
US20150049877A1 (en) * | 2012-03-28 | 2015-02-19 | Pioneer Corporation | Acoustic device, output sound management device, terminal device, and output sound control method |
KR101716467B1 (ko) * | 2015-09-17 | 2017-03-15 | 주식회사 원캐스트 | 외부 환경을 고려한 오디오 조절 방법 및 오디오 장치 |
JP2018037745A (ja) * | 2016-08-29 | 2018-03-08 | シャープ株式会社 | 電話機 |
US11586410B2 (en) | 2017-09-21 | 2023-02-21 | Sony Corporation | Information processing device, information processing terminal, information processing method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000174897A (ja) * | 1998-12-08 | 2000-06-23 | Kenwood Corp | 電話機 |
JP2001086200A (ja) * | 1999-09-09 | 2001-03-30 | Matsushita Electric Ind Co Ltd | 携帯電話装置および受話信号の周波数特性変更設定方法 |
JP3555870B2 (ja) * | 2000-10-24 | 2004-08-18 | 埼玉日本電気株式会社 | 携帯電話無線機の受信音声補正システム及び方法 |
JP2009049620A (ja) * | 2007-08-17 | 2009-03-05 | Mitsubishi Electric Corp | 携帯電話装置 |
-
2010
- 2010-03-25 JP JP2010070498A patent/JP5292345B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011205389A (ja) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11710473B2 (en) | Method and device for acute sound detection and reproduction | |
JP6266849B1 (ja) | 共有された音響空間における強められた会話のコミュニケーションに関するフィードバックキャンセレーション | |
CN106664473B (zh) | 信息处理装置、信息处理方法和程序 | |
US8705753B2 (en) | System for processing sound signals in a vehicle multimedia system | |
JP5292345B2 (ja) | 音質自動調整機能を備える音響再生装置、およびそれを組み込んだハンズフリー電話装置 | |
CN112767963B (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
CN110853664B (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
CN110896509A (zh) | 耳机佩戴状态确定方法、电子设备控制方法及电子设备 | |
AU2011200494A1 (en) | A speech intelligibility predictor and applications thereof | |
US20080228473A1 (en) | Method and apparatus for adjusting hearing intelligibility in mobile phones | |
CN101552823B (zh) | 音量管理系统及方法 | |
US10547956B2 (en) | Method of operating a hearing aid, and hearing aid | |
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
JP2000163100A (ja) | 有用な信号をフィルタリングし、これを周囲雑音が存在するときに回復するためのオ―ディオ処理装置、受信器、及びフィルタリング方法 | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
WO2019131159A1 (ja) | 制御処理装置および制御処理方法、並びにプログラム | |
US20060184361A1 (en) | Method and apparatus for reducing an interference noise signal fraction in a microphone signal | |
EP3830823B1 (en) | Forced gap insertion for pervasive listening | |
JP6168451B2 (ja) | 音量調整装置、音量調整方法及び音量調整システム | |
US10917717B2 (en) | Multi-channel microphone signal gain equalization based on evaluation of cross talk components | |
JP4929899B2 (ja) | 音声入出力装置及びプログラム | |
JPH07111527A (ja) | 音声の加工方法およびそれを用いた装置 | |
Schmidt et al. | Evaluation of in-car communication systems | |
US11615801B1 (en) | System and method of enhancing intelligibility of audio playback | |
EP4149120A1 (en) | Method, hearing system, and computer program for improving a listening experience of a user wearing a hearing device, and computer-readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5292345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |