JP4219898B2

JP4219898B2 - 音声強調装置

Info

Publication number: JP4219898B2
Application number: JP2004547997A
Authority: JP
Inventors: 政直鈴木; 正清田中; 恭士大田; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2009-02-04
Anticipated expiration: 2022-10-31
Also published as: EP1557827A4; EP1557827A1; US7152032B2; CN1669074A; EP1557827B1; JPWO2004040555A1; EP1557827B8; CN100369111C; US20050165608A1; WO2004040555A1

Description

発明の背景

本発明は、周囲の背景雑音がある環境において、携帯電話等における受話音声を聞きやすくする音声強調装置に関する。

近年、携帯電話が普及し、様々な場所で使われている。携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。このため、周囲の雑音によって携帯電話の受話音声が聞き取りにくくなるという問題がある。
雑音環境下での受話音声を聞きやすくする最も簡単な方法は、雑音レベルに応じて受話音量を大きくすることである。ところが、受話音量を大きくし過ぎると、携帯電話のスピーカへの入力が過大になり音声が歪んでしまい、かえって音質が劣化する場合がある。また、受話音量を大きくすると聴取者（ユーザ）の聴覚への負担が大きくなり健康上好ましくないという問題もある。
一般に、周囲雑音が大きくなると音声の明瞭度が不足して聞き取りにくくなる。そこで、音声の高域成分を一定の割合で増幅することにより明瞭度を改善する方法が考えられる。ところが、この方法では音声の高域成分だけでなく、受話音声に含まれる雑音（送話側の雑音）成分も同時に強調してしまうため音質が劣化するという問題がある。
ここで、一般に音声の周波数スペクトルには、ピークが存在し、これをホルマントと呼んでいる。図１に音声の周波数スペクトルの例を示す。図１はスペクトルに３つのピーク（ホルマント）が存在する場合を示している。周波数の低い方から順に第１ホルマント、第２ホルマント、第３ホルマントと呼び、各ホルマントのピーク周波数ｆｐ（１），ｆｐ（２），ｆｐ（３）をホルマント周波数と呼ぶ。
一般に、音声のスペクトルは周波数が高くなるにつれて振幅（電力）が小さくなる性質がある。更に、音声の明瞭度はホルマントと密接な関係があり、高次の（第２、第３の）ホルマントを強調することにより音声の明瞭度を改善できることが知られている。
図２にスペクトル強調の例を示す。図２（ａ）の実線及び図２（ｂ）の点線は強調する前の音声スペクトルを表す。また、図２（ｂ）の実線は強調後の音声スペクトルを表す。図２（ｂ）では、高次ホルマントの振幅を大きくすることによりスペクトル全体の傾きが平坦になっており、これにより音声全体の明瞭度を改善することできる。
かかる高次のホルマントを強調することにより明瞭度を改善する方法として、帯域分割フィルタを用いる方法（日本特許出願公開平４−３２８７９８号公報）が知られている。この帯域フィルタを用いる方法では、帯域分割フィルタにより音声を複数の周波数帯域に分割し、各周波数帯域を個別に増幅・減衰させる方法である。ところが、この方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がないため、ホルマント以外の成分をも強調してしまい、逆に明瞭度が劣化する恐れがある。
さらに、上記の帯域フィルタを用いる従来方法における問題点を解決する方法として、音声スペクトルの凸部と凹部を増幅・減衰する方法（日本特許出願公開２０００−１１７５７３号公報）がある。図３にこの従来技術のブロック図を示す。この方法では、入力音声のスペクトルをスペクトル推定部１００により求め、求めたスペクトルから凸部帯域（山）と凹部帯域（谷）決定部１０１により、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率（又は減衰率）を算出する。
次に、フィルタ構成部１０２により前記増幅率（又は減衰率）を実現する係数をフィルタ部１０３に与え、入力音声を前記フィルタ部１０３に入力することによりスペクトル強調を実現する。
つまり、帯域フィルタを用いる従来方法では、音声スペクトルの山と谷を個別に増幅・減衰することにより音声強調を実現している。
上記の従来技術において、音量を大きくする方法では、音量を大きくするとスピーカへの入力が過大となり再生音が歪む場合がある。また、受話音量を大きくすると、聴取者（ユーザ）の聴覚への負担が増し健康上好ましくない。
また、高域強調フィルタを用いる従来方法において、単なる高域強調では、音声以外の雑音の高域が強調されるため雑音感が増すため、必ずしも明瞭度の改善には結びつかない。
さらに、帯域分割フィルタを用いる従来方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない。したがって、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合がある。また、入力音声を音源特性と声道特性に分離せずに増幅するため、音源特性の歪が大きくなるという問題がある。
図４に音声の生成モデルを示す。音声の生成過程は、音源（声帯）１１０で発生された音源信号が調音系（声道）１１１に入力され、声道１１１において声道特性が付加された後、最終的に唇１１２から音声波形となって出力される（「音声の高能率符号化」、６９頁〜７１頁、中田和男著、森北出版参照）。
ここで、音源特性と声道特性は全く異なった特性であるが、上記の帯域分割フィルタを用いる従来技術では音声を音源特性と声道特性とに分離せずに音声を直接増幅する。このため、音源特性の歪みが大きくなり雑音感が増し明瞭度が劣化するという問題がある。図５、図６に例を示す。図５は強調処理をする前の入力音声スペクトルである。また、図６は帯域分割フィルタを用いる方法で図５の入力音声を強調処理した時のスペクトルである。図６において、２ｋＨｚ以上の高域成分についてはスペクトルの概形を保ちつつ振幅が増幅されている。ところが、５００Ｈｚ〜２ｋＨｚの部分（図６中、丸で囲った部分）については、強調前の図５のスペクトルと大きく異なり、音源特性が崩れていることが判る。
このように、帯域分割フィルタを用いる従来方法では、音源特性の歪が大きくなり音質が劣化する恐れがある。
また、上記のスペクトルの凸部・凹部を増幅する方法においては、次のような問題点が存在する。
第１に上記の帯域分割フィルタを用いる従来方法と同様に、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するため、音源特性の歪みが大きくなり雑音感が増し、明瞭度が劣化するという問題がある。
第２に、音声信号（入力信号）から求めたＬＰＣ（線形予測係数）スペクトル又はＦＦＴ（周波数フーリエ変換）スペトルに対して直接ホルマント強調を行う。このため、入力音声をフレーム毎に処理する場合には、フレーム間で強調の度合い（増幅率・減衰率）が変化する。したがって、フレーム間での増幅率・減衰率が急激に変化すると、スペクトルの変動により雑音感が増すという問題がある。
かかる現象を鳥瞰スペクトル図で説明する。図７に入力音声（強調前）のスペクトルを示す。また、図８にフレーム単位でスペクトルを強調した時の音声スペクトルを示す。特に、図７及び図８は、時間的に連続するフレームの音声スペクトルを並べて表示したものである。図７、図８より、高次ホルマントが強調されていることがわかる。ただし、図８の０．９５秒前後および１．０３秒前後において、強調後のスペクトルに不連続性が生じている。すなわち、図７の強調前スペクトルではホルマント周波数は滑らかに変化しているが、図８ではホルマントが不連続に変化している。このホルマントの不連続性は、実際に処理音声を聞いた時には雑音感として感知される。
第３に、上記の第２の問題点である、不連続性の問題を解決する方法として、フレーム長を大きくする方法が考えられる。フレーム長を長くすると時間的に変動の少ない平均的なスペクトル特性が得られる。ところが、フレーム長を長くすると遅延時間が大きくなるという問題がある。携帯電話などの通信用途では、遅延時間はできるだけ小さくする必要がある。したがって、通信用途ではフレーム長を大きくする方法は望ましくない。
発明の概要
本発明の目的は、以上のような従来の技術における問題点に鑑みて考案されたものであり、音声の明瞭度を高めて聞き易くする音声強調方法及びこれを適用するに音声強調装置を提供することにある。
かかる本発明の目的を達成する音声強調装置は、第１の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第２の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第１のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第３の態様として、現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、前記係数により構成される逆フィルタと、前記線形予測係数から周波数スペクトルを求める第１のスペクトル算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から平均フィルタ係数を算出する第１のフィルタ係数算出部と、前記平均フィルタ係数から平均周波数スペクトルを求める第２のスペクトル算出部と、前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記第１のスペクトル算出部で算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第４の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第１のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタと、残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第５の態様として、入力音声信号の一部の周波数帯域を強調する強調フィルタと、前記強調フィルタにより強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第６の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成部と、前記信号合成手段合成信号の一部の周波数帯域を強調するフィルタとを有することを特徴とする。
本発明の更なる特徴は、以下に図面に従い説明される発明の実施の形態例から更に明らかになる。

図１は、音声の周波数スペクトルの例を示す図である。
図２は、強調前及び強調後の音声の周波数スペクトルの例を示す図である。
図３は、日本特許出願公開２０００−１１７５７３号公報に記載の従来技術のブロック図を示す。
図４は、音声の生成モデルを示す図である。
図５は、入力音声のスペクトルの例を示す図である。
図６は、フレーム単位で強調した時のスペクトルの例を示す図である。
図７は、入力音声（強調前）のスペクトルを示す図である。
図８は、フレーム単位でスペクトルを強調した時の音声スペクトルを示す図である。
図９は、本発明の原理図を示す図である。
図１０は、本発明の第１の実施例構成ブロックを示す図である。
図１１は、図１０の実施例における増幅率算出部６の処理を示すフロー図である。
図１２は、図１０の実施例におけるホルマントＦ（ｋ）の振幅を基準電力Ｐｏｗ＿ｒｅｆに合わせるときの様子を示す図である。
図１３は、ホルマント間の周波数における増幅率β（ｌ）を補間曲線Ｒ（ｋ，ｌ）により求めることを説明する図である。
図１４は、本発明の第２の実施例構成ブロックを示す図である。
図１５は、本発明の第３の実施例構成ブロックを示す図である。
図１６は、本発明の第４の実施例構成ブロックを示す図である。
図１７は、本発明の第５の実施例構成ブロックを示す図である。
図１８は、本発明の第６の実施例構成ブロックを示す図である。
図１９は、本発明により強調されたスペクトルを示す図である。
図２０は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する原理構成図である。
図２１は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する別の原理構成図である。
図２２は、図２０の原理図に従う本発明の実施例構成ブロックを示す図である。

以下、図面に従い本発明の実施例を説明する。
図９は、本発明の原理を示す図であり、本発明は、分離部２０により入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成部２１で合成して出力することを特徴とする。図９における処理を以下に説明する。
時間軸領域において、所定のサンプリング周波数でサンプリングされた振幅値を有する入力音声信号ｘ（ｎ），（０＜ｎ＜Ｎ），ここで、Ｎはフレーム長であり、かかる入力音声信号ｘ（ｎ）から分離部２０の平均スペクトル算出部１により平均スペクトルｓｐ_１（ｌ），（０＜ｌ＜Ｎ_Ｆ）を算出する。
このために、線形予測回路である平均スペクトル算出部１において、先ず現フレームの自己相関関数を算出する。次に、前記現フレームの自己相関関数と過去フレームの自己相関関数との加重平均により平均自己相関を求める。この前記平均自己相関から平均スペクトルｓｐ_１（ｌ），（０＜ｌ＜Ｎ_Ｆ）を求める。また、Ｎ_Ｆはスペクトルのデータ点数であり、Ｎ＜Ｎ_Ｆとする。尚、ｓｐ_１（ｌ）を現フレームの入力音声から算出されるＬＰＣスペクトル又はＦＦＴスペクトルと、過去の入力音声から算出されるＬＰＣスペクトル又はＦＦＴスペクトルとの加重平均として算出してもよい。
次に、スペクトルｓｐ_１（ｌ）を分離部２０内の第１のフィルタ係数算出部２に入力して逆フィルタ係数α_１（ｉ），（１＜ｉ＜ｐ_１）を求める。ここで、ｐ_１は逆フィルタ３のフィルタ次数である。
入力音声ｘ（ｎ）を前記求められた逆フィルタ係数α_１（ｉ）で構成される分離部２０内の逆フィルタ３に入力して残差信号ｒ（ｎ），（０＜ｎ＜Ｎ）を求める。これにより入力音声を音源特性である残差信号ｒ（ｎ）と、声道特性であるスペクトルｓｐ_１（ｌ）とに分離することができる。
残差信号ｒ（ｎ）は、ピッチ強調部４に入力され、そこでピッチ周期性が強調された残差信号ｓ（ｎ）が求められる。
一方、特徴抽出部としてのホルマント推定部５に声道特性であるスペクトルｓｐ_１（ｌ）を入力し、ホルマント周波数ｆｐ（ｋ），（１＜ｋ＜ｋ_ｍａｘ）およびホルマント振幅ａｍｐ（ｋ），（１＜ｋ＜ｋ_ｍａｘ）を推定する。ここで、ｋ_ｍａｘは推定するホルマントの個数である。ｋ_ｍａｘの値は任意であるが、サンプリング周波数が８ｋＨｚの音声に対してはｋ_ｍａｘ＝４又は５とすることができる。
ついで、スペクトルｓｐ_１（ｌ）とホルマント周波数ｆｐ（ｋ）およびホルマント振幅ａｍｐ（ｋ）を増幅率算出部６に入力し、スペクトルｓｐ_１（ｌ）のに対する増幅率β（ｌ）を算出する。
スペクトルｓｐ_１（ｌ）と増幅率β（ｌ）をスペクトル強調部７へ入力し、強調されたスペクトルｓｐ_２（ｌ）を求める。この強調されたスペクトルｓｐ_２（ｌ）を、合成部２１を構成する合成フィルタ９の係数を求める第２のフィルタ係数算出部８へ入力して合成フィルタ係数α_２（ｉ），（１＜ｉ＜ｐ_２）を求める。ここで、ｐ_２は合成フィルタ９のフィルタ次数である。
上記のピッチ強調部４によるピッチ強調後の残差信号ｓ（ｎ）を合成フィルタ係数α_２（ｉ）により構成される合成フィルタ９へ入力し、出力音声ｙ（ｎ），（０＜ｎ＜Ｎ）を求める。これにより、強調処理された音源特性と声道特性が合成される。
上記に説明した通り、本発明では入力音声を音源特性（残差信号）と声道特性（スペクトル包絡）とに分離するため、それぞれの特性に適した強調処理を行うことができる。すなわち、音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマントを強調することにより音声の明瞭度を改善できる。
また、声道特性として音声の長時間特性を用いることにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。特に、現フレームの入力信号から算出した自己相関と、過去フレームの入力信号から算出した自己相関関数との加重平均を用いることにより、遅延時間を増加させることなく時間変動の少ない平均的なスペクトル特性を得ることができる。このため、スペクトル強調に用いる増幅率の急激な変化が抑えられ、音声強調による雑音感を抑えることができる。
次に、図９に示した本発明の原理を適用する実施例について、以下に説明する。
図１０は、本発明に従う第１の実施例構成のブロック図である。
図において、図９の原理図との比較において、ピッチ強調部４が省略されている。
更に、分離部２０の実施例構成として、分離部２０内の平均スペクトル算出部１をフィルタ係数算出部２の前後に分割し、フィルタ係数算出部２の前段で、現フレームの入力音声信号ｘ（ｎ），（０＜ｎ＜Ｎ）を自己相関算出部１０に入力し、そこで現フレームの自己相関関数ａｃ（ｍ）（ｉ），（０＜ｉ＜ｐ_１）を式（１）により求める。ここで、Ｎはフレーム長である。また、ｍは現フレームのフレーム番号であり、ｐ_１は後述する逆フィルタ３の次数である。

更に、分離部２０において、バッファ部１１から直前のＬフレームにおける自己相関関数ａｃ（ｍ−ｊ）（ｉ），（１＜ｊ＜Ｌ，０＜ｉ＜ｐ_１）が出力される。次に自己相関算出部１０で求めた現フレームの自己相関関数ａｃ（ｍ）（ｉ）と前記バッファ部１１からの過去の自己相関とから、平均自己相関算出部１２により平均自己相関ａｃ_ＡＶＥ（ｉ）を求める。
ここで、平均自己相関ａｃ_ＡＶＥ（ｉ）の求め方は任意であるが、例えば式（２）の加重平均を用いることができる。ここで、ｗ_ｊは重み係数である。

ここで、バッファ部１１の状態更新を次のように行う。まず、バッファ部１１内に格納されている過去の自己相関関数の中で時間的に最も古いａｃ（ｍ−Ｌ）（ｉ）を廃棄する。次に、現フレームで算出したａｃ（ｍ）（ｉ）をバッファ部１１に格納する。
更に、分離部２０において、平均自己相関算出部１２により求めた平均自己相関ａｃ_ＡＶＥ（ｉ）からレビンソン・アルゴリズム等の公知の方法により第１のフィルタ係数算出部２において、逆フィルタ係数α_１（ｉ），（１＜ｉ＜ｐ_１）を求める。
入力音声ｘ（ｎ）は、フィルタ係数α_１（ｉ）で構成される逆フィルタ３に入力して音源特性として残差信号ｒ（ｎ），（０＜ｎ＜Ｎ）を（３）式により求める。

一方、分離部２０において、フィルタ係数算出部２の後段に置かれるスペクトル算出部１−２において、フィルタ係数算出部２で求められた係数α_１（ｉ）を下記の（４）式によりフーリエ変換して声道特性としてＬＰＣスペクトルｓｐ_１（ｌ）を求める。

ここで、Ｎ_Ｆはスペクトルのデータ点数である。サンプリング周波数をＦ_ｓとすると、ＬＰＣスペクトルｓｐ_１（ｌ）の周波数分解能はＦ_ｓ／Ｎ_Ｆとなる。変数ｌはスペクトルのインデックスであり離散周波数を表す。ｌを周波数［Ｈｚ］に換算するとｉｎｔ［ｌ・Ｆ_ｓ／Ｎ_Ｆ］［Ｈｚ］となる。また、ｉｎｔ［ｘ］は変数ｘを整数化することを意味する（以下の説明においても同様である）。
上記の通り、分離部２０により入力音声を音源信号（残差信号ｒ（ｎ），（０＜ｎ＜Ｎ））と声道特性（ＬＰＣスペクトルｓｐ_１（ｌ））とに分離することができる。
ついで、図９において説明したように、特徴抽出部の一例としてホルマント推定部５にスペクトルｓｐ_１（ｌ）を入力し、ホルマント周波数ｆｐ（ｋ），（１＜ｋ＜ｋ_ｍａｘ）およびホルマント振幅ａｍｐ（ｋ），（１＜ｋ＜ｋ_ｍａｘ）を推定する。ここで、ｋ_ｍａｘは推定するホルマントの個数である。ｋ_ｍａｘの値は任意であるが、サンプリング周波数が８ｋＨｚの音声に対してはｋ_ｍａｘ＝４又は５とすることができる。
ホルマント推定の方法としては、逆フィルタ係数α_１（ｉ）を係数とする高次方程式の根から求める方法や、周波数スペクトルのピークからホルマントを推定するピークピッキング法などの公知の方法を用いることができる。ホルマント周波数の低い方から順にｆｐ（１），ｆｐ（２），Ｋ，ｆｐ（ｋ_ｍａｘ）とする。尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。
更に、ホルマント推定部５において、ホルマント周波数ｆｐ（ｋ）を離散ホルマント周波数ｆｐｌ（ｋ）＝ｉｎｔ［ｆｐ（ｋ）・Ｎ_Ｆ／Ｆ_ｓ］に変換する。また、スペクトルｓｐ_１（ｆｐｌ（ｋ））をホルマント振幅ａｍｐ（ｋ）とする。
かかるスペクトルｓｐ_１（ｌ）と離散ホルマント周波数ｆｐｌ（ｋ）およびホルマント振幅ａｍｐ（ｋ）を増幅率算出部６に入力し、スペクトルｓｐ_１（ｌ）に対する増幅率β（ｌ）を算出する。
増幅率算出部６の処理は、図１１の処理フローに示すように基準電力の算出（処理工程Ｐ１）、ホルマント増幅率の算出（処理工程Ｐ２）、及び増幅率の補間（処理工程Ｐ３）の順に処理を行う。以下、各処理について順に説明する。
処理工程Ｐ１：スペクトルｓｐ_１（ｌ）から基準電力Ｐｏｗ＿ｒｅｆを算出する。算出方法は任意であるが、例えば、全周波数帯域の平均電力や低域周波数の平均電力を基準電力として用いることができる。全周波数帯域の平均電力を基準電力として用いる場合、Ｐｏｗ＿ｒｅｆは次式（５）で表される。

処理工程Ｐ２：ホルマントＦ（ｋ）の振幅を基準電力Ｐｏｗ＿ｒｅｆに合わせるための増幅率Ｇ（ｋ）を次式（６）により求める。

図１２にホルマントＦ（ｋ）の振幅を基準電力Ｐｏｗ＿ｒｅｆに合わせるときの様子が示されている。更に、図１２において、ホルマント間の周波数における増幅率β（ｌ）を補間曲線Ｒ（ｋ，ｌ）により求める。補間曲線Ｒ（ｋ，ｌ）の形状は任意であるが、例えば一次関数や二次関数などを用いることができる。図１３に補間曲線Ｒ（ｋ，ｌ）として、二次曲線を用いた場合の例を示す。補間曲線Ｒ（ｋ，ｌ）を式（７）のように定義する。ここで、ａ，ｂ，ｃは補間曲線の形状を決定するパラメータである。

図１３に示すように、かかる補間曲線において隣り合うホルマントＦ（ｋ）とＦ（ｋ＋１）の間に増幅率の極小点を設定する。ここで、極小点の設定方法は任意であるが、例えば周波数（ｆｐｌ（ｋ）＋ｆｐｌ（ｋ＋１））／２を極小点とし、その時の増幅率をγ・Ｇ（ｋ）と設定することができる。ここで、γは定数であり、０＜γ＜１とする。
補間曲線Ｒ（ｋ，ｌ）がホルマントＦ（ｋ）とＦ（ｋ＋１）及び極小点を通ると仮定すると式（８），（９），（１０）が成り立つ。

式（８），（９），（１０）を連立方程式として解くとパラメータａ，ｂ，ｃが求められ、補間曲線Ｒ（ｋ，ｌ）が決定される。ついで、補間曲線Ｒ（ｋ，ｌ）に基づいてＦ（ｋ）とＦ（ｋ＋１）の間のスペクトルに対する増幅率β（ｌ）を求める。
更に、上記の隣接のホルマント間の補間曲線Ｒ（ｋ，ｌ）を求めることと、隣接のホルマント間のスペクトルに対する増幅率β（ｌ）を求める処理を全てのホルマントに対して行う。
尚、図１２において、第１ホルマントＦ（１）よりも低い周波数については、第１ホルマントに対する増幅率Ｇ（１）を用いる。また、最高次のホルマントよりも高い周波数については、最高次のホルマントに対する増幅率Ｇ（ｋ_ｍａｘ）を用いる。以上をまとめると式（１１）のようになる。

図１０に戻り説明すると、スペクトルｓｐ_１（ｌ）と増幅率β（ｌ）をスペクトル強調部７へ入力し、強調されたスペクトルｓｐ_２（ｌ）を式（１２）により求める。

ついで、強調されたスペクトルｓｐ_２（ｌ）を第２のフィルタ係数算出部８へ入力する。第２のフィルタ係数算出部８では、強調されたスペクトルｓｐ_２（ｌ）の逆フーリエ変換から自己相関関数ａｃ_２（ｉ）を求め、ａｃ_２（ｉ）からレビンソン・アルゴリズム等の公知の方法により合成フィルタ係数α_２（ｉ），（１＜ｉ＜ｐ_２）を求める。ここで、ｐ_２は合成フィルタ次数である。
更に、逆フィルタ３の出力である残差信号ｒ（ｎ）を係数α_２（ｉ）により構成される合成フィルタ９へ入力し、式（１３）に示すように出力音声ｙ（ｎ），（０＜ｎ＜Ｎ）を求める。

以上説明の通り、図１０の実施例では入力音声を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、図１０の実施の形態例ではピッチ強調部４が省略されているが、図９に示す原理図に従い、ピッチ強調部４を逆フィルタ３の出力側に配置して、残差信号ｒ（ｎ）に対し、ピッチ強調処理を行うことも可能である。
尚、本実施例ではスペクトルｓｐ_１（ｌ）に対する増幅率を１スペクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。
図１４に本発明の第２の実施例の構成ブロック図を示す。本実施例は、現フレームの入力音声から求めたＬＰＣ係数を逆フィルタの係数とする点が、図１０に示した第１の実施例と異なり、その他は第１の実施例と同じである。
一般に、現フレームの入力信号ｘ（ｎ）から残差信号ｒ（ｎ）を求める場合には、第１の実施例のように平均的な周波数特性を持ったＬＰＣ係数を使用する場合よりも、現フレームの入力信号から求めたＬＰＣ係数を逆フィルタ３の係数として用いた方が予測利得は高く、声道特性と音源特性を精度良く分離できる。
そこで、第２の実施例では、現フレームの入力音声をＬＰＣ分析部１３により、ＬＰＣ分析し、得られたＬＰＣ係数α_１（ｉ），（１＜ｉ＜ｐ_１）を逆フィルタ３の係数として用いる。
ＬＰＣ係数α_１（ｉ）から第２のスペクトル算出部１−２Ｂによりスペクトルｓｐ_１（ｌ）を求める。スペクトルｓｐ_１（ｌ）の算出方法は第１の実施例の式（４）と同じである。
次に第１のスペクトル算出部１−２Ａにより平均スペクトルを求め、この平均スペクトルからホルマント推定部５において、ホルマント周波数ｆｐ（ｋ）及びホルマント振幅ａｍｐ（ｋ）を求める。
次に、先の実施例と同様であり、スペクトルｓｐ_１（ｌ）とホルマント周波数ｆｐ（ｋ）及びホルマント振幅ａｍｐ（ｋ）から増幅率算出部６により増幅率β（ｌ）を求め、この増幅率を元にスペクトル強調部７で、スペクトル強調を行い強調されたスペクトルｓｐ_２（ｌ）を求める。強調されたスペクトルｓｐ_２（ｌ）から合成フィルタ９に設定される合成フィルタ係数α_２（ｉ）を求め、残差信号ｒ（ｎ）をこの合成フィルタ９に入力して出力音声ｙ（ｎ）が得られる。
以上第２の実施例について説明した通り、本実施例においても先の実施例の構成と同様に、現フレームの声道特性と音源特性を精度よく分離し、平均スペクトルに基づいて声道特性を滑らかに強調処理することにより明瞭度を改善することができる。
次に、図１５により本発明の第３の実施例を説明する。第３の実施例では、自動利得制御部（ＡＧＣ部）１４を設け、合成フィルタ９の合成出力ｙ（ｎ）の振幅を制御する点が第１の実施例と異なり、その他の構成は第１の実施例と同じである。
入力音声信号ｘ（ｎ）と最終的な出力音声信号ｚ（ｎ）の電力比が１となるようにＡＧＣ部１４により利得の調整を行う。ＡＧＣ部１４として任意の方法が可能であるが、例えば以下のような方法を用いることができる。
まず、入力音声信号ｘ（ｎ）と合成出力ｙ（ｎ）から式（１４）により振幅比ｇ_０を求める。ここで、Ｎはフレーム長である。

次式（１５）により利得制御値Ｇａｉｎ（ｎ）を求める。ここで、λは定数である。

最終的な出力音声信号ｚ（ｎ）は次式（１６）により求められる。

以上説明の通り、本実施例においても入力音声ｘ（ｎ）を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。
また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないように利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
図１６は、本発明の第４の実施例のブロック図を示す。本実施例は、図９の原理図に従い、逆フィルタ３の出力である残差信号ｒ（ｎ）に対してピッチ強調処理をする点が第１の実施例とは異なり、その他の構成は第１の実施例と同じである。
ピッチ強調フィルタ４によるピッチ強調の方法は任意であるが、例えばピッチ係数算出部４−１を設け、以下のような方法を用いることができる。
まず、現フレームの残差信号の自己相関ｒｓｃｏｒ（ｉ）を式（１７）により求め、自己相関ｒｓｃｏｒ（ｉ）が最大となるピッチラグＴを求める。ここで、Ｌａｇ_ｍｉｎ及びＬａｇ_ｍａｘはそれぞれ、ピッチラグの下限と上限である。

次に、ピッチラグＴの近傍における残差信号ｒｓｃｏｒ（Ｔ−１），ｒｓｃｏｒ（Ｔ），ｒｓｃｏｒ（Ｔ＋１）から自己相関法によりピッチ予測係数ｐｃ（ｉ），（ｉ＝−１，０，１）を求める。ピッチ予測係数の算出方法は、レビンソン・アルゴリズムなどの公知の方法で求めることができる。
次に、逆フィルタ出力ｒ（ｎ）をピッチ強調フィルタ４に入力し、ピッチ周期性が強調された音声ｙ（ｎ）を求める。ピッチ強調フィルタ４として式（１８）の伝達関数で表されるフィルタを用いることができる。ここで、ｇ_ｐは重み係数である。

尚、ピッチ強調フィルタ４としてここではＩＩＲフィルタを用いたが、ＦＩＲフィルタなどの任意のフィルタを用いることができる。
以上説明の通り、第４の実施例によればピッチ強調フィルタ４を付加することにより残差信号に含まれるピッチ周期成分を強調することができ、第１の実施例に比べて音声の明瞭度を更に改善することができる。
図１７に本発明の第５の実施例の構成ブロック図を示す。前フレームの増幅率を保持しておく第２のバッファ部１５を備えている点が第１の実施例と異なり、その他は第１の実施例と同じである。
本実施例では、スペクトル算出部１−２のからスペクトルｓｐ_１（ｌ）とホルマント周波数ｆｐ（ｋ）および振幅ａｍｐ（ｋ）から増幅率算出部６において仮の増幅率β_ｐｓｕ（ｌ）を求める。
仮の増幅率β_ｐｓｕ（ｌ）の算出方法は、第１の実施例における増幅率β（ｌ）の算出方法と同じである。次に、仮の増幅率β_ｐｓｕ（ｌ）とバッファ部１５から出力される前フレーム増幅率β＿ｏｌｄ（ｌ）から現フレームの増幅率β（ｌ）を求める。ここで、前フレーム増幅率β＿ｏｌｄ（ｌ）は前フレームにおいて算出された最終的な増幅率である。
増幅率β（ｌ）を求める手順は以下の通りである。
（１）仮増幅率β_ｐｓｕ（ｌ）と前フレーム増幅率β＿ｏｌｄ（ｌ）との差分
Δ_β＝β_ｐｓｕ（ｌ）−β＿ｏｌｄ（ｌ）を算出する。
（２）差分Δ_βがあらかじめ定められた閾値Δ_ＴＨよりも大きい場合は、
β（ｌ）＝β＿ｏｌｄ（ｌ）＋Δ_ＴＨとする。
（３）差分Δ_βが閾値Δ_ＴＨよりも小さい場合は、β（ｌ）＝β_ｐｓｕ（ｌ）とする。
（４）最終的に求められたβ（ｌ）をバッファ部１５へ入力し、前フレーム増幅率
β＿ｏｌｄ（ｌ）を更新する。
第５の実施例において、前フレーム増幅率β＿ｏｌｄ（ｌ）を参照して増幅率β（ｌ）を求める部分以外は第１の実施例と同じであるので、第５の実施例動作についての更なる説明を省略する。
以上説明した通り、本実施例ではスペクトル強調に使用する増幅率を求める際に、前フレームにおける増幅率を選択的に用いることにより、フレーム間で増幅率が急激に変化しないようにすることにより、スペクトル強調による雑音感の増加を抑えつつ明瞭度を改善することができる。
図１８に本発明の第６の実施例の構成ブロック図を示す。本実施例は、先の第１及び第３乃至第５の実施例を組み合わせた場合の構成を示している。重複する部分は他の実施例と同じであるので、説明を省略する。
図１９は、上記の実施例により強調された音声スペクトルを示す図である。図１９のスペクトルを、図７に示す強調前の入力音声スペクトルと、図８に示すフレーム単位で強調したスペクトルを比較すると本発明の効果が明瞭である。
すなわち、高次ホルマントが強調された図８において、０．９５秒前後および１．０３秒前後において、強調後のスペクトルに不連続性が生じているが、図１９に示す音声スペクトルでは、ピーク変動が抑えられ、その不連続性が改善されていることが分かる。これによりホルマントの不連続性による、実際に処理音声を聞いた時の雑音感は生じないものとなる。
ここで、図９の本発明の原理図に基づく、先の第１〜第６の各実施例により、入力音声を音源特性と声道特性とに分離し、声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。
しかし、上記各実施例に共通して、次のような問題が未だ生じる場合がある。すなわち、上記各実施例において、音声のスペクトルを強調する場合、フレーム間で増幅率が大きく変動すると雑音感が増すという問題がある。一方、雑音感を抑えるために増幅率の変動を小さくなるように制御すると、スペクトル強調の度合いが不十分となり、明瞭度の改善が十分でないという問題がある。
従って、本発明は更にかかる不都合を解消する場合、本発明により図２０，図２１の原理構成が適用される。図２０、図２１に示す原理構成は、動的フィルタＩと固定フィルタＩＩの２段構成としている点に特徴を有する。
更に、図２０の構成では動的フィルタＩの後に固定フィルタＩＩを置く場合の原理図を示しているが、図２１の構成のように固定フィルタＩＩを動的フィルタＩの前段に置いてもよい。ただし、図２１の構成の場合には、入力音声を分析することにより動的フィルタＩで使用するパラメータを算出する。
動的フィルタＩは、先に説明した図９に示す原理に従う構成を用いるものである。図２０、図２１では、図９に示す原理構成の概略を示している。すなわち、動的フィルタＩは、入力音声を音源特性と、声道特性に分離する分離機能部２０、声道特性からホルマント特徴を抽出する特徴抽出機能部５、特徴抽出機能部５から得られるホルマント特徴に基づき増幅率を算出する増幅率算出機能部６、算出された増幅率に対応して声道特性のスペクトルを強調するスペクトル機能部７及び、音源特性とスペクトル強調された声道特性を合成する合成機能部２１を有している。
固定フィルタＩＩは、所定範囲の周波数幅において、一定の通過帯域を有するフィルタ特性を有している。固定フィルタＩＩで強調する周波数帯域は任意であるが、例えば２ｋＨｚ以上の高域周波数帯域や１ｋＨｚ〜３ｋＨｚの中間帯域成分を強調する帯域強調フィルタを用いることができる。
固定フィルタＩＩにより一部の周波数帯域を増幅し、動的フィルタＩによりホルマントを強調する。固定フィルタＩＩの増幅率は固定であるため、フレーム間における増幅率の変動はない。このような構成にすることにより、動的フィルタＩによる過度の強調を防ぎ、かつ明瞭度を改善することができる。
図２２は、図２０の原理図に基づく本発明の更なる実施例構成のブロック図である。この実施例は、動的フィルタＩとして、先に説明した第３の実施例構成を用いている。従って、その再度の詳細説明は省略する。
この実施例では動的フィルタＩにより入力音声を音源特性と声道特性とに分離し、声道特性のみを強調する。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないようにＡＧＣ部１４により利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
更に、固定フィルタＩＩにより一部の周波数帯域を一定の割合で増幅することにより、雑音感が少なく、明瞭度の高い音声を得ることができる。

以上図面に従い説明した通り、本発明により声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。
また、声道特性を強調する際に、平均スペクトルに基づいて強調することにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。
かかる点から本発明は、携帯電話における好ましい音声通話を可能できるので、更なる携帯電話の普及に寄与することが可能である。
なお、本発明を上記実施例に従い説明したが、かかる実施例は本発明の理解のためのものであり、本発明の保護の範囲は、これら実施例に限定されるものではない。すなわち、請求項に記載の要件と均等の範囲にある場合も、本発明の保護の範囲に含まれるものである。

Claims

入力音声信号を音源特性と声道特性とに分離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報とから前記声道特性を修正する声道特性修正部と、
前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
前記信号分離部は、前記音声信号の現フレームから自己相関を求める自己相関算出部と、前記現フレームの自己相関と前記音声信号の過去のフレームから求めた自己相関との加重平均を求める平均化処理部と、前記自己相関の加重平均から逆フィルタ係数を算出する逆フィルタ係数算出部と、前記逆フィルタ係数から平均的な声道特性を算出する声道特性算出手段とを有し、
前記声道特性修正部は、前記平均的な声道特性からホルマント周波数とホルマント振幅とを求め、前記ホルマント周波数及び前記ホルマント振幅に基づいて、前記ホルマント振幅を変化させることで前記平均的な声道特性を強調し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。
入力音声信号を音源特性と声道特性とに分離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、
前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、
前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
前記信号分離部は、前記音声信号の現フレームから自己相関を求める自己相関算出部と、前記現フレームの自己相関と前記音声信号の過去のフレームから求めた自己相関との加重平均を求める平均化処理部と、前記加重平均から逆フィルタ係数を算出する逆フィルタ係数算出部とを有し、
前記特徴抽出部は、前記逆フィルタ係数から平均的な声道特性としてパワースペクトルを算出し、前記パワースペクトルからホルマント周波数とホルマント振幅とを求めるホルマント抽出手段を有し、
前記修正声道特性算出部は、前記ホルマント周波数と前記ホルマント振幅とに基づいて前記ホルマント振幅の増幅率を計算する増幅率算出手段を有し、
前記声道特性修正部は、前記増幅率に基づいて前記ホルマント振幅を増幅することで前記平均的な声道特性を強調し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。
請求項１又は、２において、
前記声道特性修正部は、前記ホルマント振幅の平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。
請求項２において、
前記声道特性修正部は、現フレームにおける仮増幅率を求める計算部を有し、
前フレームの増幅率と現フレームの仮増幅率との差分を求め、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とすることを特徴とする音声強調装置。
現フレームの入力音声から自己相関関数を求める自己相関算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィルタ係数を算出する第１のフィルタ係数算出部と、
前記逆フィルタ係数により構成される逆フィルタと、
前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
前記増幅率に基づいて前記算出された周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタを有し、
前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、
前記係数により構成される逆フィルタと、
前記線形予測係数から周波数スペクトルを求める第１のスペクトル算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から平均フィルタ係数を算出する第１のフィルタ係数算出部と、
前記平均フィルタ係数から平均周波数スペクトルを求める第２のスペクトル算出部と、
前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、
前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
前記増幅率に基づいて前記第１のスペクトル算出部で算出された周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタを有し、
前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
請求項５において、前記増幅率算出部は、
スペクトル算出部で前記逆フィルタ係数から算出された周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分を算出する差分算出部と、
前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有することを特徴とする音声強調装置。
現フレームの入力音声から自己相関関数を求める自己相関算出部と、
前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィルタ係数を算出する第１のフィルタ係数算出部と、
前記逆フィルタ係数により構成される逆フィルタと、
前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、
前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、
前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させて、強調された周波数スペクトルを求めるスペクトル強調部と、
前記強調された周波数スペクトルから合成フィルタ係数を算出する第２のフィルタ係数算出部と、
前記合成フィルタ係数から構成される合成フィルタと、
残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、
前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、
前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。