JP2005331783A

JP2005331783A - 音声強調装置，音声強調方法および通信端末

Info

Publication number: JP2005331783A
Application number: JP2004151099A
Authority: JP
Inventors: Takehiro Nakai; 丈裕中井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-05-20
Filing date: 2004-05-20
Publication date: 2005-12-02

Abstract

【課題】音声強調装置において、受話音声の明瞭度を改善し、入力音声に雑音が含まれる場合においても音声品質の劣化および雑音感の増加を抑圧する。
【解決手段】入力音声信号の音声を強調する音声強調装置１であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部６と、音声品質推定部６にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調との処理を変更する音声強調処理部１０とをそなえて構成する。
【選択図】図２

Description

本発明は、例えば携帯電話（携帯端末）の受話音声，コンピュータ端末等の受信音声の聞き取りやすさ（聞きやすさ）を向上させる音声強調技術に用いて好適な、音声強調装置，音声強調方法および通信端末に関する。

携帯電話は、様々な場所で使用できるため、周囲の環境が静かな場所のみならず、騒音レベルの大きい駅のホーム，工場等で使用され、スピーカ（レシーバ）の音声（受話音声）が聞き取り難くなることがある。これに対して、大きなサイズのスピーカを携帯電話に搭載し受話音量を大きくすればよいが、携帯電話は小型化が必要であってスピーカのサイズは小型でなければならず、スピーカは十分な音量を出力できない。これに加えて、小型スピーカは、音量を大きくするにつれて音の歪みが大きくなる。従って、小型スピーカの音量を大きくすることは、常に、聞き取りやすさを向上させるとは限らない。

このため、音声の聞きやすさを向上させるための音声強調技術が用いられることがある。一般に、音声強調とは、音声波スペクトル（音声の周波数スペクトル）の所定帯域におけるスペクトル振幅を増幅して音声の明瞭度を向上させることであり、また、所定の周波数帯域パワーを増幅するとともに、増幅帯域と異なる帯域のスペクトル振幅を減衰させることが併用される。これらの増幅，減衰の対象となる帯域は、それぞれ、声道特性のホルマント，アンチホルマントと呼ばれる。

声道特性について図１４を参照して説明すると、この図１４に示す音声生成モデル７９は、声帯波（声帯振動）をモデル化した音源８０と、音声波を生成する声道（声帯から唇までの空間）をモデル化した調音系８１と、調音系８１にて生成された音声波を放射する唇８２とからなる。ここで、音源８０が、一定周期（ピッチ周期）を有する声帯波を出力すると、調音系８１は、肺からの空気を声道の形状（例えば声道の太さ）に共振させて母音を生成し、また、声道の形状を変化させて「あ」、「い」、「ae」、「u」等の異なる母音を調音し音声波を生成する。そして、唇８２は、この音声波を空間に放射する（例えば非特許文献１参照）。

これにより、音声波について線形予測分析によるシステム関数の逆関数に基づくフィルタリングが行なわれると、音声波のスペクトル包絡線の特性が分離されて音源８０のほぼ一様なスペクトルが得られる。この音声波から線形予測可能な部分の除去により分離されたものは残差信号（音源信号）と呼ばれ、この残差信号の自己相関を算出することにより、音源８０のピッチ周期が得られる。

また、音声強調については、従来から、種々の技術が提案されている（例えば特許文献１〜６）。
特許文献１記載の音声信号処理装置は、雑音を含む混合信号について帯域分割し、帯域分割したチャンネル毎の信号について音声帯域部分を検出し、検出した音声帯域情報に基づいて雑音帯域を算出し、算出した雑音帯域を減衰させる制御信号に従い選択した帯域信号のみ減衰させ、減衰した信号を帯域合成するものである。そして、上記の音声帯域を検出する音声帯域検出手段は、帯域分割された信号についてのケプストラム分析結果に基づきピーク検出するピーク検出手段と、ケプストラム分析結果に基づきホルマント分析するホルマント分析手段と、ホルマント情報およびピークを利用して音声帯域を検出する音声帯域検出回路とを有する。また、音声帯域検出手段は、入力された雑音を含む混合信号から音声のピッチ周波数を検出するピッチ周波数検出手段をも有する。これにより、雑音を含む音声信号のＳ／Ｎ比（信号［Signal］対雑音［Noise］比）を向上できる。

また、特許文献２記載の音声信号の雑音低減方法は、入力音声信号に基づいて算出されたＳ／Ｎ比および音声存在確率に基づいて音声成分を算出するためのフィルタを適応的に制御することにより雑音抑圧を行ない、また、音声存在確率の算出は入力信号のスペクトルから推定雑音スペクトルを減算したものを用いる。これにより、入力音声信号に応じて実際の入力のＳ／Ｎ比に最適化した抑圧ファクタに調整が行なわれ、副作用的な歪を発生させずに十分に雑音を除去できる。

そして、特許文献３記載の音声信号処理装置は、入力音声信号から抽出した第１ホルマント成分と第２ホルマント成分とを、第１ホルマント成分および第２ホルマント成分の検出周波数等に基づいて強調，減衰等の処理を行ない、処理された各帯域の信号を合成するものである。これにより、音声信号の強調又は雑音の除去の場合に、音声を歪ませずに良好な処理ができる。

さらに、特許文献４記載の音声強調装置は、入力信号の周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰させ、周波数分割スペクトルに基づいて多くの雑音のピークを取り除き、第２コムフィルタと周波数分割スペクトルとから推定した音声ピッチで第１コムフィルタに含まれる音声ピッチ調波構造を修正し、修正された第１コムフィルタを用いて周波数分割スペクトルの雑音を抑圧し、雑音を抑圧した周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成するようになっている。これにより、雑音のピークを取り除いたコムフィルタを用いて音声信号のピッチ情報を取得し、コムフィルタの音声ピッチを補うことにより、音声の歪みが少なくかつ雑音を十分に除去できる。

そして、特許文献５記載の音声処理装置において、音声非音声識別部が音声スペクトル信号と雑音ベースの値との差に基づいて音声成分を含む有音部分又は音声成分を含まない雑音のみの無音部分を判定する。コムフィルタ生成部は各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成し、減衰係数計算部はコムフィルタに周波数特性に基づいた減衰係数を乗算して各周波数成分毎に入力信号の減衰係数を設定し各周波数成分の減衰係数を乗算部に出力する。乗算部は音声スペクトルに減衰係数を周波数成分単位で乗算し、周波数合成部は乗算の結果得られた周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。これにより、音声の歪みが少なくかつ雑音を十分に除去できる。

また、特許文献６記載の音声スペクトル強調装置は、ホルマント周波数を含む帯域とアンチホルマント周波数を含む帯域を決定し、帯域毎に増幅率を個別に決定して、ホルマントを強調するものであり、入力音声信号から得られたＬＰＣスペクトル（ＬＰＣを用いて計算したスペクトル）又はＦＦＴ（Fast Fourier Transformation）スペクトル（高速フーリエ変換を用いて計算した信号のパワースペクトル）に対して直接ホルマントを強調するようになっている。
特許第２９７９７１４号公報特許第３４８４７５７号公報特開平６−２８９８９７号公報特開２００３−２８０６９６号公報特開２００２−１４９２００号公報特開２００１−１１７５７３号公報「音声の高能率符号化」，６９−７１ページ，中田和男著，森北出版

しかしながら、特許文献１〜５記載の音声信号処理装置等は、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するので、音源特性の歪みが大きくなり、雑音感が増加し明瞭度が劣化するという課題がある。また、特許文献１〜５記載の音声強調方法は、相互に全く関係がない音源特性と声道特性との２種類の特性が分離されずに音声強調されるので、音源特性の歪みが拡大し、雑音感が増加し明瞭度が劣化することがある。

さらに、特許文献６記載の音声スペクトル強調装置は、入力音声が雑音を含む場合、雑音成分がホルマント又はピッチ成分として現れることがあり、声道特性修正部による雑音成分の強調と、残差信号調整部による雑音成分の強調処理とが、音声の聞き取りやすさの低下を引き起こすという課題がある。
また、特許文献６記載の音声スペクトル強調方法は、帯域毎に増幅率を個別に決定する。従って、入力音声信号を符号化した入力音声データをフレーム毎に処理する場合に、フレーム間において増幅率又は減衰率が変化（又は変動）すると、スペクトルが急激に変化し不連続となる。このスペクトルの急激な変化は、ユーザに雑音感として認識させる。さらに、スペクトルの不連続性を改善する方法は、例えばフレーム長を大きくすればよい。この半面、フレーム長を長くすることは、音声処理および音声データの伝送について、遅延時間が大きくなるので、通信用途の観点からは、フレーム長を大きくせずにスペクトルの急激な変化を防止する必要がある。

本発明は、このような課題に鑑み創案されたもので、残差信号と声道特性との個々の特性に合致した音声強調を可能とし、受話音声の明瞭度を改善し、さらに、入力音声に雑音が含まれる場合においても音声品質の劣化および雑音感の増加を抑圧できる、音声強調装置，音声強調方法および通信端末を提供することを目的とする。

このため、本発明の音声強調装置は、入力音声信号の音声を強調する音声強調装置であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴としている（請求項１）。

また、音声強調処理部は、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、音声品質推定部にて推定された音声品質推定値に基づいて、信号抽出分離部にて分離された残差信号を強調し強調残差信号を出力する残差信号調整部と、音声品質推定部にて推定された音声品質推定値に基づいて、信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、残差信号調整部から出力された強調残差信号と、声道特性調整部から出力された調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されてもよい（請求項２）。

さらに、本発明の音声強調装置は、入力音声信号の音声を強調する音声強調装置であって、入力音声信号が音声又は雑音を判定する音声／雑音判定部と、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、音声／雑音判定部からの判定結果に基づいて、声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、雑音時声道特性推定部にて推定された雑音時声道特性に基づいて、信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する第２声道特性調整部と、信号抽出分離部にて分離された残差信号と、第２声道特性調整部から出力された調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴としている（請求項３）。

そして、本発明の音声強調方法は、入力音声信号の音声を強調する音声強調方法であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離ステップと、音声品質推定ステップにて推定された音声品質推定値に基づいて、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号の少なくとも一方を調整する調整ステップと、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号と、調整ステップにて調整された声道特性又は残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴としている（請求項４）。

また、本発明の通信端末は、音声信号を含む情報データを受信処理して音声信号を抽出する受信部と、受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、音声強調装置が、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴としている（請求項５）。

本発明の音声強調装置によれば、音声品質としてのＳ／Ｎ比が大きいときは強調の度合いを大きくし、より一層聞き取りやすい音声を得られる。また、Ｓ／Ｎ比推定値が小さいときは強調の度合いを小さくし、雑音強調を防止できる。
さらに、本発明の音声強調装置によれば、例えば雑音がホルマントとして選ばれる可能性がなくなり、ピッチゲインが適切に調整されるため、雑音成分の強調を防止できる。

そして、本発明の音声強調装置によれば、雑音時声道特性推定部が、声道特性調整部の動作に、推定した雑音時声道特性を使用するので、過度な雑音強調を防止できる。
また、本発明の音声強調方法によれば、声道特性と音源特性とを同時に調整しても、スペクトル歪の発生を抑制でき、また、明瞭度の改善が得られる。
さらに、本発明の通信端末によれば、例えばホルマント周波数とアンチホルマント周波数とにかかわらず、雑音感の増加を防止できる。さらに、スペクトル調整された出力音声と入力音声との各振幅を適切にできる。

以下、図面を参照して本発明の実施の形態を説明する。
（Ａ）本発明の第１実施形態の説明
図１は本発明が適用される携帯電話（本発明の通信端末）の概略的なブロック図である。この図１に示す携帯電話１５は、音声信号を含む無線信号を基地局１６との間において無線通信するものであって、マイク１５ａ，送話部１５ｂ，コーダ１５ｃ，データ処理部１５ｄからなる送信処理部（１５ａ，１５ｂ，１５ｃ，１５ｄ）と、無線送受信部１５ｅ，アンテナ１５ｊからなる無線信号処理部（１５ｅ，１５ｊ）と、データ処理部１５ｄ，デコーダ１５ｆ，受話部１５ｇ，スピーカ１５ｈからなる受信処理部（１５ｄ，１５ｆ，１５ｇ，１５ｈ）と、送話部１５ｂ，受話部１５ｇ等の携帯電話１５内の各モジュールを制御する主制御部１５ｉとをそなえて構成されている。また、本音声強調装置１は、受話部１５ｇに設けられている。

ここで、送話部１５ｂは、音声を取得するマイク１５ａからのアナログ音声信号をディジタル音声信号に変換して出力するものであり、コーダ１５ｃは、送話部１５ｂからのディジタル音声信号をディジタル圧縮されたディジタルコードに変換し符号化出力するものであり、データ処理部１５ｄは送信データおよび受信データを処理するものであり、無線送受信部１５ｅはコーダ１５ｃからのディジタルコードを無線信号に変換するとともに基地局１６から受信した無線信号をディジタル音声データに変換してデータ処理部１５ｄに入力するものである。

そして、デコーダ１５ｆはデータ処理部１５ｄからの圧縮されたディジタルコードをディジタル音声信号に変換出力するものである。受話部１５ｇはデコーダ１５ｆから出力されたディジタル音声信号について音声強調し音声強調処理されたアナログ音声信号を出力するものである。また、スピーカ１５ｈは受話部１５ｇからのアナログ音声信号を増幅し受話音声を出力するものである。

なお、基地局１６は、複数の携帯電話１５と無線通信するとともに、図示を省略する公衆網側に接続された基地局制御装置との間において情報データを通信するものである。
（１）音声強調装置１の概略的な構成
次に、音声強調装置１の概略的な構成について説明する。
図２は本発明の第１実施形態に係る音声強調装置１の原理ブロック図である。この図２に示す音声強調装置１は、入力音声信号の音声を強調するものであって、Ｓ／Ｎ比推定部（音声品質推定部）６と、音声強調処理部１０とをそなえて構成されている。

ここで、Ｓ／Ｎ比推定部６は、入力音声信号のＳ／Ｎ比（音声品質）を推定しＳ／Ｎ比推定値（推定Ｓ／Ｎ比：音声品質推定値）を出力するものであり、Ｓ／Ｎ比を音声品質推定値として出力するようになっている。また、Ｓ／Ｎ比は、残差信号調整部３とホルマント／アンチホルマント調整部４とに各々入力される。
図３は本発明の第１実施形態に係るＳ／Ｎ比推定部６のブロック図である。この図３に示すＳ／Ｎ比推定部６は、音声／雑音判定部６ａと、フレームパワー算出部（パワー算出部）６ｂと、音声レベル算出部６ｃと、雑音レベル算出部６ｄと、Ｓ／Ｎ比推定値算出部（音声品質推定値算出部）６ｅと、メモリ（保持部）６ｆとをそなえて構成されている。

ここで、音声／雑音判定部６ａは、入力音声信号から、Ｇ．７２９ＡｎｎｅｘＢのアルゴリズムを用いて１フレーム（８０サンプル分）に１回、音声又は雑音の判定結果を出力するものである。この判定結果は、各フレームが音声区間又は雑音区間のいずれかであることを表すほかに、各フレームの８０サンプルが音声データ又は雑音データのいずれかであることを表す。なお、雑音とは背景雑音又は周囲雑音を表す。

フレームパワー算出部６ｂは、１フレームに１回、入力音声信号の２乗和を入力サンプルで除算し、ｄＢ（デシベル）に換算したものをフレームパワーとして、音声レベル算出部６ｃ，雑音レベル算出部６ｄのそれぞれに入力するものである。ここで、入力音声信号サンプルの振幅をｉｎｐｕｔ（ｉ）（ｉは０〜７９の自然数を表す）とすると、フレームパワーｆｒａｍｅ＿ｐｏｗは、式（１）により表される。

さらに、音声レベル算出部６ｃは、音声／雑音判定部６ａの判定結果が音声のときに動作し、後述する式（８）を用いて音声レベルを算出し、また、判定結果が雑音のときは、後述する式（９）を用いて雑音レベル（背景雑音レベル又は周囲雑音レベル）を算出する。また、メモリ６ｆは、各種のデータを保持するものであり、Ｓ／Ｎ比推定値とホルマントゲインとを対応付けて保持し（後述する図８参照）、また、式（８），式（９）の計算に要する係数（過去の寄与率を決定するための係数）をも保持する。

Ｓ／Ｎ比推定値算出部６ｅは、音声レベルＶｏｉｃｅ＿ａｖｅと、雑音レベルＮｏｉｓｅ＿ａｖｅとを入力され、式（２）によりＳ／Ｎ比推定値を算出する。

そして、Ｓ／Ｎ比推定値（又はＳ／Ｎ比推定値に対応するホルマントゲイン）が、ホルマント／アンチホルマント調整部４および残差信号調整部３のそれぞれに対して入力されるのである。
従って、Ｓ／Ｎ比推定部６は、入力音声信号が音声又は雑音を判定する音声／雑音判定部６ａと、音声／雑音判定部６ａにて判定された入力音声信号のパワーを算出するフレームパワー算出部６ｂと、音声／雑音判定部６ａの判定結果に基づいて音声レベル又は雑音レベルを出力する音声レベル／雑音レベル出力部（６ｃ，６ｄ）と、音声レベル／雑音レベル出力部（６ｃ，６ｄ）から出力された音声レベルと雑音レベルとに基づいてＳ／Ｎ比推定値を算出するＳ／Ｎ比推定値算出部６ｅとをそなえて構成されている。

このように、Ｓ／Ｎ比推定部６が、音声強調処理部１０の前段に設けられ、音声強調処理部１０に入力される入力音声信号と同一の入力音声信号を用いてＳ／Ｎ比を推定し、音声強調処理動作が変更される。
次に、音声強調処理部１０は、Ｓ／Ｎ比推定部６にて出力されたＳ／Ｎ比推定値に基づいて、入力音声信号の声道特性の調整（強調および減衰）と入力音声信号の残差信号（強調残差信号）の強調との処理を変更するものであって、信号抽出分離部２と、ホルマント／アンチホルマント調整部（ホルマントおよびアンチホルマント調整部：声道特性調整部）４と、残差信号調整部３と、信号合成部（合成部又は合成フィルタ）５とをそなえて構成されている。

この信号抽出分離部２は、入力音声信号から声道特性の抽出と残差信号の分離とを行なうものである。この声道特性についてさらに詳述する。
図１５（ａ）は声道特性の一例を示す図である。この図１５（ａ）に示す声道特性は、例えば３点のピーク点（極大点）はそれぞれ声道特性の共振点に対応し、第１ホルマント，第２ホルマント，第３ホルマントと呼ばれる。一方、各ホルマント間の極小点はアンチホルマントと呼ばれる。

また、信号抽出分離部２は、入力音声信号（入力音声信号サンプル）ｘ（ｎ）（０≦ｎ＜Ｎ）について、例えば線形予測分析して得られるＬＰＣ係数（線形予測符号化係数）により定まる帯域フィルタリングを行なうことにより、音声波から線形予測可能な部分を除去し、残差信号（音源信号）を分離する。なお、ｎは自然数であり、また、Ｎはフレーム長（区間長）を表し、Ｇ．７２９ＡｎｎｅｘＢによって例えば８０に設定されている。

そして、信号抽出分離部２は、逐次入力される入力音声信号ｘ（ｎ）を８０サンプル毎に区切り、８０個の入力音声信号サンプルｘ（０）〜ｘ（７９）を処理単位の１フレームとして帯域フィルタリングする。これにより、例えば８０個のディジタル化された入力音声信号サンプルｘ（０），ｘ（１），ｘ（２），…，ｘ（７７），ｘ（７８），ｘ（７９）が、それぞれ、信号抽出分離部２に逐次入力されて時系列に処理される。

次に、ホルマント／アンチホルマント調整部４は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、信号抽出分離部２にて抽出された声道特性を調整し調整声道特性を出力するものである。
図１５（ｂ）はホルマント強調の原理を説明するための図である。ホルマント／アンチホルマント調整部４は、この図１５（ｂ）に示すホルマントの電力を上げる処理（ホルマント周波数を中心とする高次ホルマントの電力に正のゲインを与える処理）と、アンチホルマントの電力を下げる（アンチホルマント周波数を中心とする負のゲインを与える処理）とを行なう。ここで、破線はホルマント強調する前の声道特性を表し、実線はホルマント強調した後の声道特性を表す。強調前のホルマント特性は、周波数の増加につれて電力が減少し、概して右肩下がりである。そして、ホルマント／アンチホルマント調整部４が、ホルマント特性の各ピーク値がほぼ同一になるようにフラット処理を行ない、音声の明瞭さが増大し、雑音環境下における聞き取りやすさが向上する。また、アンチホルマントの電力を下げることにより、アンチホルマント周波数の付近に存在していた雑音成分（雑音電力）が抑圧され、音声の聞き取りやすさが向上する。

また、残差信号調整部３は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、信号抽出分離部２にて分離された残差信号を強調し強調残差信号を出力するものであり、Ｓ／Ｎ比推定値に応じて動作を変更するようになっている。具体的には、残差信号調整部３は、ピッチ調整部として機能し、残差信号のピッチを強調して強調残差信号を出力する。

図１６（ａ）はピッチ強調前の残差信号を説明するための図である。残差信号調整部３は、以下の式（３）の伝達関数Ｐ（ｚ）で表される特性を有するピッチ強調フィルタを残差信号について使用する。ここで、Ｔはピッチ周期であり、ｒ_pitは残差信号から求めたＴ次の残差自己相関値であり、ｇ_pは重み付け係数であり、・は乗算を表す。

図１６（ｂ）は図１６（ａ）に示す残差信号に対してピッチ強調フィルタを使用した場合の信号波形の一例を示す図である。この図１６（ｂ）に示す信号波形は、パルスないしスパイク状の部分の振幅が増幅されている。これにより音声のピッチが強調され、音声の聞き取りやすさが向上する。また、音声強調方法は、入力音声が雑音を含まない場合は良好に動作する。このピッチ強調により、ピッチ強調フィルタの係数が得られ、所望の周波数およびレベルを適切に調整できる。

次に、信号合成部５は、残差信号調整部３から出力された強調残差信号と、ホルマント／アンチホルマント調整部４から出力された調整声道特性とを合成し合成信号を出力するものである。
これにより、本発明の第１実施形態に係る音声強調方法によれば、Ｓ／Ｎ比推定部６が、入力音声信号のＳ／Ｎ比を推定しＳ／Ｎ比推定値を出力し（音声品質推定ステップ）、入力音声信号から声道特性の抽出と残差信号の分離とを行ない（信号抽出分離ステップ）、音声品質推定ステップにて推定されたＳ／Ｎ比推定値に基づいて、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号を調整し（調整ステップ）、そして、信号合成部５が、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号と、調整ステップにて調整された声道特性又は残差信号とを合成し合成信号を出力する（合成ステップ）。これにより、音声の個々の特性に応じて強調できる。

以下、図４等を参照して音声強調処理部１０の詳細について説明する。
図４は本発明の第１実施形態に係る音声強調処理部１０のブロック図であり、図２に示す原理ブロックを詳細に表示したものである。
（２）信号抽出分離部２
この図４に示す信号抽出分離部２は、平均スペクトル算出部１２と、逆フィルタ２ａと、第１逆フィルタ係数算出部（逆フィルタ係数算出部１）２ｂと、平均自己相関算出部２ｃとをそなえて構成されている。

この平均スペクトル算出部１２は、入力音声信号ｘ（ｎ）について算出された平均自己相関値から、レビンソンアルゴリズム等の公知の方法により、逆フィルタ係数α₁（ｉ）を計算し、平均スペクトルｓｐ₁（ｌ）を式（４）により算出して出力するものである。ここで、１≦ｉ≦ｐ₂であり、ｐ₂は合成フィルタ次数を表す。

ここで、変数ｌ（Ｌ：el）は、スペクトルのデータ点数であって離散周波数を表す。なお、ｌについては、Ｎ_Fをスペクトル点数で表すと０≦ｌ＜Ｎ_Fの整数である。また、以下、α₁（ｉ）は特に断らない限り、α₁と表す。
また、第１逆フィルタ係数算出部２ｂは、上述したフィルタ係数α₁を出力するものである。そして、逆フィルタ２ａは、複数段のフリップフロップ（図示省略）が接続されたＩＩＲ（Infinite Impulse Response）フィルタであって、第１逆フィルタ係数算出部２ｂから入力された複数のフィルタ係数を各フリップフロップに設定し所望の帯域通過特性が与えられる。この逆フィルタ２ａに入力される入力音声信号ｘ（ｎ）は、音源の周波数特性と調音系の周波数特性とが一体化された音声波形特性を有し、この一体化された入力音声信号ｘ（ｎ）が逆フィルタ２ａのフィルタリングにより、音声波形から線形予測可能な部分が除去されて音源信号が抽出される。すなわち、音源信号は、フィルタリング後に残された残差信号に相当する。

さらに、平均自己相関算出部２ｃは、現フレームの自己相関関数と、バッファ（図示省略）に保持された例えばＬ個の過去フレームの自己相関関数との（Ｌ＋１）個の自己相関関数について加重平均した平均自己相関関数を出力するものである。

これにより、入力音声信号ｘ（ｎ）は、逆フィルタ２ａに入力される一方、平均スペクトル算出部１２に入力されて平均スペクトルｓｐ₁（ｌ）が算出され、この算出された平均スペクトルｓｐ₁（ｌ）は、ホルマント／アンチホルマント調整部４に入力され、スペクトル強調部４ｃにおいてさらに算出されたスペクトルが強調される。そして、逆フィルタ２ａは、残差信号ｒ（ｎ）を出力し、また、平均スペクトル算出部１２からの平均スペクトルｓｐ₁（ｌ）は、ホルマント／アンチホルマント強調部４にも入力される。

これにより、入力音声信号ｘ（ｎ）は、平均スペクトルｓｐ₁（ｌ）を抽出するとともに、残差信号ｒ（ｎ）を分離する。また、各フィルタ係数が適応的に設定されるので、雑音環境下において適切な音声強調が可能となる。
（３）ピッチ調整部（残差信号調整部）３
図４に示す残差信号調整部３は、信号抽出分離部２にて分離された残差信号ｒ（ｎ）のピッチを、Ｓ／Ｎ比推定部６から入力されたＳ／Ｎ比推定値に基づいて、強調させるようになっている。具体的には、残差信号調整部３は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値が小さい場合は残差信号調整部３の強調処理を弱めるとともに、Ｓ／Ｎ比推定値が大きい場合は残差信号調整部３の強調処理を強める。このピッチ調整により、ピッチ調整フィルタの係数が得られ、残差信号ｒ（ｎ）を適切に強調して強調残差信号ｓ（ｎ）を出力できる。

さらに、残差信号調整部３は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値が小さい場合は残差信号調整部３の調整動作を停止するとともに、Ｓ／Ｎ比推定値が大きい場合は残差信号調整部３の調整動作を作動させるようにもなっており、これにより、やはり、残差信号ｒ（ｎ）を適切に強調できる。
このように、音声強調処理部１０は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、残差信号調整部３の処理を変更している。

（４）ホルマント／アンチホルマント調整部（声道特性調整部）４
（４−１）ホルマント／アンチホルマント調整部４の機能
次に、ホルマント／アンチホルマント調整部４は、平均スペクトルｓｐ₁（ｌ）からホルマントおよびアンチホルマントを推定する機能と、その推定されたホルマントおよびアンチホルマントのそれぞれの振幅を増幅又は減衰させる機能とを有し、ホルマント／アンチホルマント推定部４ａと、スペクトル強調部４ｃと、第２フィルタ係数算出部４ｄと、増幅率算出部４ｂとをそなえて構成されている。

ここで、ホルマント／アンチホルマント推定部４ａは、信号抽出分離部２にて抽出された声道特性のホルマントとアンチホルマントとのそれぞれについての物理的特性（ホルマント周波数ｆｐ（ｋ），アンチホルマント周波数ｆｖ（ｋ），ホルマント周波数振幅ａｍｐｐ（ｋ）およびアンチホルマント周波数振幅ａｍｐｖ（ｋ）等）を推定するものである。ここで、ｋは自然数（例えば１〜４）を表す。

そして、スペクトル強調部４ｃは、信号抽出分離部２からの平均スペクトルｓｐ₁（ｌ）を、以下に述べる増幅率算出部４ｂにて算出される増幅率β（ｌ）で増幅しその増幅スペクトルｓｐ₂（ｌ）を出力するものである。また、第２フィルタ係数算出部４ｄは、スペクトル強調部４ｃからの増幅スペクトルｓｐ₂（ｌ）に基づいて、合成フィルタ５のフィルタ係数α₂（ｉ）を算出するものである。以下、α₂（ｉ）は特に断らない限り、α₂と表す。

増幅率算出部４ｂは、増幅率β（ｌ）を算出し、スペクトル強調部４ｃに対して増幅率β（ｌ）を入力するものである。具体的には、増幅率算出部４ｂは、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値が小さい場合はホルマント／アンチホルマント調整部４の強調を弱めるとともに、Ｓ／Ｎ比推定値が大きい場合はホルマント／アンチホルマント調整部４の強調を強める。さらに、増幅率算出部４ｂは、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値が小さい場合はホルマント／アンチホルマント調整部４の調整動作を停止するとともに、Ｓ／Ｎ比推定値が大きい場合はホルマント／アンチホルマント調整部４の調整動作を作動させるようになっている。

（４−２）増幅率算出部４ｂの構成
以下、図５を参照して増幅率算出部４ｂの構成について説明し、ホルマント／アンチホルマント調整部４における増幅率β（ｌ）の２種類の算出方法について説明する。
図５は本発明の第１実施形態に係る増幅率算出部４ｂのブロック図である。この図５に示す増幅率算出部４ｂは、基準電力算出部１１１，ホルマント増幅率算出部１１２，補間関数算出部１１３，極小点決定部１１７，増幅率算出部１１４をそなえて構成されている。

ここで、基準電力算出部１１１は、入力される平均スペクトルｓｐ₁（ｌ）から基準電力Ｐｏｗ＿ｒｅｆを算出し算出した基準電力Ｐｏｗ＿ｒｅｆをホルマント増幅率算出部１１２に入力するものである。基準電力Ｐｏｗ＿ｒｅｆは、例えば全周波数帯域の平均電力又は低域周波数帯域における平均電力を用いることができ、式（５）により表される。

図６は本発明の第１実施形態に係るスペクトル強調処理を説明するための図である。ホルマント増幅率算出部１１２は、この図６に示す声道特性の第１ホルマントＦ（１）〜第４ホルマントＦ（４）の振幅ａｍｐｖ（１），ａｍｐｖ（２），ａｍｐｖ（３），ａｍｐｖ（４）を、基準電力Ｐｏｗ＿ｒｅｆに一致させるために、第１ホルマント増幅率Ｇ（１）〜第４ホルマント増幅率Ｇ（４）を、それぞれ、式（６）を用いて計算する。ここで、ａｍｐ（ｋ）は増幅率を表し、ｋは自然数（例えば１〜４）を表し、０≦ｎ＜Ｎ_pである。

次に、図８に示す特性グラフを用いて、ホルマント増幅率算出部１１２は、ホルマント増幅率算出部１１２ｂに入力されたＳ／Ｎ比に対応するホルマントゲインを取得する。ホルマント増幅率算出部１１２は、取得したホルマントゲインとＧ（ｋ）値とを比較し、Ｇ（ｋ）が、ホルマントゲインよりも大きい場合は、Ｇ（ｋ）を取得したホルマントゲインに置き替える。すなわち、Ｇ（ｋ）が更新されるのである。

極小点決定部１１７は、隣接する２個のホルマント間における増幅率の極小点を決定し、決定した極小点の増幅率を補間関数算出部１１３に入力するものである。また、補間関数算出部１１３は、隣接する２個のホルマント間における増幅率を、極小周波数における増幅率以上、かつ極大周波数における増幅率以下の値をとる補間曲線（例えば極大周波数を通りかつ極小周波数において極小値をとる二次曲線）を用いて補間するものである。

そして、増幅率算出部１１４は、補間曲線に基づいて、隣接する２個のホルマント間における周波数についての増幅率β（ｌ）を算出するものである。
これにより、図５に示すホルマント増幅率算出部１１２において計算されたホルマント増幅率は、補間関数算出部１１３と極小点決定部１１７とに入力される。極小点決定部１１７にて計算された極小点座標は、補間関数算出部１１３に入力され、この補間関数算出部１１３において、補間関数が計算され、この補間関数は、増幅率算出部１１４に入力され、増幅率β（ｌ）が出力される。この計算により得られた増幅率β（ｌ）は、図４に示すスペクトル強調部４ｃに入力される。

また、図４に示すホルマント／アンチホルマント推定部４ａは、平均スペクトル算出部１２から出力された平均スペクトルｓｐ₁（ｌ）についてホルマントとアンチホルマントとの双方を推定する。これらのホルマントとアンチホルマントとは、ともに、スペクトル強調部４ｃにおいて、増幅率算出部４ｂからの増幅率β（ｌ）を用いて強調された増幅スペクトルｓｐ₂（ｌ）が出力される。そして、第２フィルタ係数算出部４ｄは、この増幅スペクトルｓｐ₂（ｌ）に基づき、以下に述べる合成フィルタ５のフィルタ係数α₂を算出して合成フィルタ５に入力する。

これにより、声道特性のホルマントを増幅して強調するとともに声道特性のアンチホルマントを減衰させた強調声道特性が出力され、ホルマントとアンチホルマントとの振幅差を示すコントラストが強調される。
このように、ホルマント／アンチホルマント調整部４は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、処理又は動作を変更している。

（５）合成フィルタ（信号合成部）５
図４に示す合成フィルタ５は、残差信号調整部３からの強調残差信号ｓ（ｎ）と、第２フィルタ係数算出部４ｄからのフィルタ係数α₂とを合成して、出力音声信号ｙ（ｎ）を出力するものである。この合成フィルタ５の機能は、フィルタ係数を保持する複数のフリップフロップ（図示省略）を設けたＩＩＲフィルタにより実現される。なお、レビンソンアルゴリズム等の公知方法により、フィルタ係数α₂（ｉ）が算出される。

（６）Ｓ／Ｎ比推定部６
次に、入力音声信号のＳ／Ｎ比の推定，動作および音声強調方法について詳述する。
Ｓ／Ｎ比推定部６は、入力音声信号サンプルを一定区間に区切って得た８０個の入力音声信号サンプルｘ（０）〜ｘ（７９）を１フレーム単位とし、また、各フレームの入力音声信号サンプルが音声データ又は雑音データのいずれかであるかを判定する。換言すれば、Ｓ／Ｎ比推定部６は、各フレームのサンプルデータが音声データ又は雑音データである場合、それぞれ、そのフレームを音声区間又は雑音区間と判定する。

この音声／雑音判定後の処理についてさらに詳述する。
図７は本発明の第１実施形態に係るＳ／Ｎ比推定部６の動作を説明するためのフローチャートである。最初に、Ｓ／Ｎ比推定部６は、音声／雑音判定を行ない（ステップＡ１）、そのフレームが音声データか雑音データかを判定する（ステップＡ２）。
次に、Ｓ／Ｎ比推定部６は、そのフレームを音声データと判定すると、ＹＥＳルートを通り音声レベルを更新する（ステップＡ３）。ここで、過去の音声レベルの平均をＶｏｉｃｅ＿ａｖｅ＿ｏｌｄとし、現在のフレームパワーｆｒａｍｅ＿ｐｏｗを用いて、Ｓ／Ｎ比推定部６は、そのフレームにおける音声レベルＶｏｉｃｅ＿ａｖｅを、式（７）により算出して決定する。ここで、ｃｏｅｆ１は過去の寄与率を決定するための係数であり、＊は乗算を表す。

また、ステップＡ２において、Ｓ／Ｎ比推定部６が、そのフレームを雑音データと判定すると、ＮＯルートを通り、式（８）により雑音レベルを算出して決定する（ステップＡ４）。ｃｏｅｆ２は過去の寄与率を決定するための係数である。

なお、式（７），式（８）のｃｏｅｆ１，ｃｏｅｆ２の値は、各々、例えば０．９５である。
そして、Ｓ／Ｎ比推定部６は、音声レベル又は雑音レベルを更新すると（ステップＡ３又はステップＡ４）、ステップＡ５において、そのフレームのＳ／Ｎ比推定値Ｓ／Ｎを式（９）により計算し、Ｓ／Ｎ比を更新する。

これにより、Ｓ／Ｎ比推定部６は、Ｓ／Ｎ比推定値を計算により推定し、ホルマント／アンチホルマント調整部４（図２，図４等）に与えるパラメータとしてのホルマントゲインを以下の図８に示す特性（グラフ）を用いて決定する。
図８は本発明の第１実施形態に係るＳ／Ｎ比推定値［ｄＢ］とホルマントゲイン［ｄＢ］との関係を示す図である。この図８に示すＳ／Ｎ比推定値−ホルマントゲイン特性において、Ｓ／Ｎ比推定値が４０ｄＢ以上の場合、ホルマントゲインの最大値は２０ｄＢとなる。そして、Ｓ／Ｎ比推定値が４０ｄＢよりも小さくなるにつれて、ホルマントゲインが小さくなり、Ｓ／Ｎ比推定値が０ｄＢ以下の範囲においては、ホルマントゲインが０、つまり、ホルマント強調が行なわれないようになっている。具体的には、以下に示す式（１０）のホルマントゲインＧ（ｋ）を、上記ホルマントゲインの最大値に制限する。

これにより、Ｓ／Ｎ比推定値が大きいときはホルマントゲインが大きくなり、結果として音声強調の度合いが強まる。また、Ｓ／Ｎ比推定値が小さいときはホルマントゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音レベルの強調を防止できる。
次に、Ｓ／Ｎ比推定値を用いて、ピッチ強調部３を調整する場合は、以下に示す式（１１）と同様に、ＮＲの代わりにＳ／Ｎ比推定部６で算出したＳ／Ｎ比推定値を使用するようにすればよい。

このように、Ｓ／Ｎ比推定値が大きいときほどピッチゲインが大きくなり、結果として、音声強調の度合いが強まる。また、Ｓ／Ｎ比推定値が小さいときはピッチゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音成分の強調を防止できる。
次に、雑音レベル比ＮＲ（＝Ｎ_L／Ｎ_L0）は、ホルマント／アンチホルマント調整部４に入力される。ホルマント／アンチホルマント調整部４は、Ｓ／Ｎ比推定値を用いて、比ＮＲの値に応じて式（１２）によりピッチ強調フィルタの特性を変化させる。

ここで、ｇ_pは、ピッチ強調フィルタの伝達関数の重み付け係数である。この重み付け係数ｇ_pが、雑音レベル比ＮＲを考慮した重み付け係数ｇ_p′に修正され、この修正された重み付け係数ｇ_p′が式（１１）の重み付け係数ｇ_p′に代わって用いられる。この比ＮＲの代わりにＳ／Ｎ比推定部６が算出したＳ／Ｎ比推定値を用いる。
これにより、Ｓ／Ｎ比推定値が大きいときほどピッチゲインが大きくなり、結果として音声強調の度合いが強まる。また、Ｓ／Ｎ比推定値が小さいときはピッチゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音の強調が防止される。

また、本発明と、Ｓ／Ｎ比推定部６が設けられていない音声強調装置とを比較すると、Ｓ／Ｎ比推定部６が設けられていない音声強調装置は、入力音声信号と異なる別のマイクから入力した信号の雑音レベル比ＮＲを使用する。これに対して、本発明は、Ｓ／Ｎ比推定部６で算出したＳ／Ｎ比推定値を使用する。従って、本発明によれば、音声強調装置１に入力される音声信号に雑音が含まれる場合においても、不快な雑音が増幅されず、音声の聞き取りやすさの低下を防止できる。換言すれば、従来の技術は、雑音レベルの過度の増幅を防止するために、強調の度合いの抑制を要し、これに加えて、スピーカの物理的なサイズに制限があったが、本発明によれば十分に強調の度合いを大きくすることが可能となる。

また、音声強調装置１は、音声強調処理部１０の前段にＳ／Ｎ比推定部６を設け、Ｓ／Ｎ比に応じて音声強調の度合いを調整し、そして、入力音声信号ｘ（ｎ）から残差信号と声道特性とに分離し、分離した残差信号と声道特性とをそれぞれ強調するので、明瞭な音声が得られる。さらに、ホルマントとアンチホルマントとの振幅差が強調されるので、雑音感が除去される。

さらに、本発明と特許文献１（特許第２９７９７１４号公報）記載の発明についての構成の相違点については、特許文献１記載の音声信号処理装置は、フーリエ変換等を用いて入力音声を直接的に帯域分割する。本発明は入力音声信号が、信号抽出分離部にて声道特性と残差信号とに分離される。
次に、本発明と特許文献１記載の発明との効果の相違点については、特許文献１記載の音声信号処理装置は、Ｓ／Ｎ比を改善するものである。一方、本発明はＳ／Ｎ比の改善の効果に加えて、ホルマントの形状を変更することにより雑音環境下においても聞き取りやすい音声を出力でき、さらに、入力音声に雑音が含まれる場合においても、雑音の増幅により聞き取りやすさの劣化が防止される。

従って、携帯電話１５（図１）は、空港等の雑音環境下においても、受話音声の品質は劣化せず、受話音声の聞きにくさが改善される。
また、音声強調装置１は、コンピュータ端末に適用することもできる。
（７）変形例の説明
なお、残差信号調整部３とホルマント／アンチホルマント調整部４とのうちの一方だけが動作するようにもできる。

図９は本発明の第１実施形態の第１変形例に係る音声強調装置１のブロック図であり、この図９に示す音声強調装置１の残差信号調整部３だけが動作状態にされている。そして、残差信号調整部３は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、信号抽出分離部２にて分離された残差信号を強調し強調残差信号を出力するようになっている。そして、信号合成部５は、信号抽出分離部２にて抽出された声道特性と、残差信号調整部３から出力された強調残差信号とを合成し合成信号を出力する。

また、図１０は本発明の第１実施形態の第２変形例に係る音声強調装置１のブロック図である。この図１０に示す音声強調装置１のホルマント／アンチホルマント調整部４が動作状態にされており、ホルマント／アンチホルマント調整部４は、Ｓ／Ｎ比推定部６にて推定されたＳ／Ｎ比推定値に基づいて、信号抽出分離部２にて抽出された声道特性を調整し調整声道特性を出力し、信号合成部５は、信号抽出分離部２にて分離された残差信号と、ホルマント／アンチホルマント調整部４から出力された調整声道特性とを合成し合成信号を出力する。

このように、Ｓ／Ｎ比推定部６で推定したＳ／Ｎ比推定値により、残差信号調整部３又はホルマント／アンチホルマント調整部４の動作が変更され、明瞭な音声が得られる。
（Ｂ）本発明の第２実施形態の説明
第２実施形態においては、ホルマント／アンチホルマント調整部４が、雑音時の声道特性を用いて動作するようにしている。

なお、第２実施形態における音声強調装置も、少なくとも受信部を含む携帯電話１５（図１参照），コンピュータ端末等に用いられる。
図１１は本発明の第２実施形態に係る音声強調装置のブロック図である。この図１１に示す音声強調装置１ａは、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部２と、入力音声信号が音声又は雑音を判定する音声／雑音判定部６ａと、音声／雑音判定部６ａからの判定結果に基づいて、声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部８と、雑音時声道特性推定部８にて推定された雑音時声道特性に基づいて、信号抽出分離部２にて抽出された声道特性を調整し調整声道特性を出力するホルマント／アンチホルマント調整部（第２声道特性調整部）４と、信号抽出分離部２にて分離された残差信号と、ホルマント／アンチホルマント調整部４から出力された調整声道特性とを合成し合成信号を出力する信号合成部５とをそなえて構成されている。

以下、雑音時の声道特性を更新する方法について詳述する。
この図１１に示す音声／雑音判定部６ａの判定結果が雑音のとき、雑音時声道特性推定部８は、信号抽出分離部２から得られた声道特性のスペクトルｓｐ（ｌ）（ｌはスペクトルビン番号を表す）と、前フレームで計算した声道特性の雑音スペクトルｓｐ＿ｎｏｉｓｅ＿ｏｌｄ（ｌ）とに対し、それぞれ、式（１３）の演算を行ない、現フレームの雑音スペクトルｓｐ＿ｎｏｉｓｅ（ｌ）を計算する。

ここで、αは忘却係数を表す。なお、音声判定されたフレームについては、式（１４）に示すように、過去の雑音スペクトルを更新せずにそのまま使用する。

そして、雑音時声道特性推定部８は、計算により得た雑音スペクトルｓｐ＿ｎｏｉｓｅ（ｌ）に一定値をとるパラメータ（ホルマント選択度合い調整パラメータ）を加算した値と、声道特性のスペクトルｓｐ（ｌ）とを比較し、雑音スペクトルにパラメータγを加算した値が声道特性のスペクトルよりも大きい場合（ｓｐ＿ｎｏｉｓｅ（ｌ）＋γ＞ｓｐ（ｌ））、スペクトルビン番号ｌをホルマントとして選択しないようにする。このパラメータγは、ホルマントとして選択されなくなる度合いを制御するための一定値であって、このパラメータγを大きく設定することよりホルマントとして選択されにくくなる。そして、雑音時声道特性推定部８は、以上の処理をスペクトルビンの数だけ繰り返すようにしている。

従って、本発明の第２実施形態に係る音声強調方法によれば、音声／雑音判定部６ａが、入力音声信号について音声区間又は雑音区間を判定し（音声区間／雑音区間判定ステップ）、音声区間／雑音区間判定ステップにて判定された音声区間又は雑音区間におけるフレームの音声レベル又は雑音レベルを更新し（更新ステップ）、更新ステップにて更新されたフレームのＳ／Ｎ比を計算し（計算ステップ）、そして、計算ステップにて計算されたＳ／Ｎ比に基づいて、音声区間／雑音区間判定ステップにて判定された入力音声信号について音声を調整するので（音声調整ステップ）、音声の個々の特性に応じて強調できる。

図１２は本発明の第２実施形態に係るＳ／Ｎ比推定部６の動作を説明するためのフローチャートである。Ｓ／Ｎ比推定部６は、音声／雑音判定を行ない（ステップＢ１）、そのフレームが音声データか否かを判定する（ステップＢ２）。
次に、Ｓ／Ｎ比推定部６は、そのフレームを雑音と判定すると、ＹＥＳルートを通り、声道特性の残差スペクトルを更新する（ステップＢ３）。また、ステップＢ２において、Ｓ／Ｎ比推定部６が、そのフレームを音声と判定すると、ＮＯルートを通り、過去の雑音スペクトルを更新せずにそのまま使用する。

このように、雑音時声道特性推定部が、ホルマント／アンチホルマント調整部の動作に、推定した雑音時声道特性を使用するので、周波数軸上で雑音と重なるホルマントの強調が回避され、結果として、雑音成分の強調を防止できる。
（Ｃ）本発明の第３実施形態の説明
第３実施形態においては、ホルマント／アンチホルマント調整部が、声道特性のＳ／Ｎ比を用いて動作するようにしている。なお、第３実施形態における音声強調装置も、少なくとも受信部を含む携帯電話１５（図１参照），コンピュータ端末等に用いられる。

図１３は本発明の第３実施形態に係る音声強調装置のブロック図である。この図１３に示す音声強調装置１ｂは、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部２と、入力音声信号が音声又は雑音を判定する音声／雑音判定部６ａと、音声／雑音判定部６ａからの判定結果に基づいて、信号抽出分離部２にて抽出された声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性Ｓ／Ｎ比推定部（声道特性音声対雑音比推定部）９と、声道特性Ｓ／Ｎ比推定部９にて推定された比に基づいて、信号抽出分離部２にて抽出された声道特性を調整し調整声道特性を出力するホルマント／アンチホルマント調整部（第３声道特性調整部）４と、ホルマント／アンチホルマント４から出力された調整声道特性と、信号抽出分離部２にて分離された残差信号とを合成し合成信号を出力する信号合成部５とをそなえて構成されている。

第３実施形態における音声強調装置１ｂと音声強調装置１ａ（第２実施形態）との違いは、雑音時声道特性推定部８を声道特性Ｓ／Ｎ比推定部９に変更した点である。なお、このＳ／Ｎ比推定は、第１実施形態における全パワーについてのＳ／Ｎ比と異なり、スペクトルビン毎にＳ／Ｎ比を計算するようになっている。
声道特性Ｓ／Ｎ比推定方法を以下に示す。

音声／雑音判定部６ａの判定結果が雑音のとき、声道特性Ｓ／Ｎ比推定部９は、第２実施形態と同様に、現フレームの雑音スペクトルｓｐ＿ｎｏｉｓｅ（ｌ）を計算する（式（１２）参照）。
次に、音声／雑音判定部６ａの判定結果が音声のとき、声道特性Ｓ／Ｎ比推定部９は、信号抽出分離部２にて得られた声道特性のスペクトルｓｐ（ｌ）(ｌはスペクトルビン番号を表す)と、前フレームで計算した声道特性の音声スペクトルｓｐ＿ｎｏｉｓｅ＿ｏｌｄ（ｌ）とに対し、式（１５）に示す演算を行ない、現フレームの音声スペクトルｓｐ＿ｖｏｉｃｅ（ｌ）を計算する。

ここで、βは忘却係数を表す。なお、雑音判定されたフレームについては、声道特性Ｓ／Ｎ比推定部９は、式（１６）に示すように過去の音声スペクトルをそのまま使用し、音声スペクトルを更新しない。

そして、声道特性Ｓ／Ｎ比推定部９は、ｓｐ＿ｖｏｉｃｅ（ｌ）およびｓｐ＿ｎｏｉｓｅ（ｌ）から、スペクトルビン毎のＳ／Ｎ比の値Ｓ／Ｎ（ｌ）を式（１７）に示すように計算する。

声道特性Ｓ／Ｎ比推定部９は、このスペクトルビン毎のＳ／Ｎ比の値Ｓ／Ｎ（ｌ）と、ホルマントゲイン特性（図８参照）とに基づいて、スペクトルビン毎のホルマントゲイン上限値を計算する。
次に、声道特性Ｓ／Ｎ比推定部９は、ホルマント位置のスペクトルビン番号ｌと、ホルマントゲインとを計算し、このホルマントゲインと、ホルマント位置のスペクトルビン番号に対応するホルマントゲイン上限値とを比較し、ホルマントゲイン上限値の方が小さい場合、ホルマントゲインをそのホルマントゲイン上限値に制限する。

このように、音声強調装置１ｂは、声道特性Ｓ／Ｎ比推定部９を設け、ホルマント／アンチホルマント調整部４の動作に推定した声道特性Ｓ／Ｎ比を使用するので、周波数軸上で雑音レベルに応じたホルマント強調が可能となり、この結果、雑音成分の強調を防止できる。
（Ｄ）その他
本発明は上述した実施態様およびその変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。

上記の音声品質は、Ｓ／Ｎ比を用いるほかに、ＢＥＲ（Bit Error Rate：ビット誤り率），ＦＥＲ（Frame Error Rate:フレーム誤り率）を用いることができる。さらに、送受信データに誤り訂正ビットを設け、復号後の誤り訂正個数を用いて音声品質を図ることができる。
（Ｅ）付記
（付記１）入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、音声強調装置。

（付記２）該音声品質推定部が、
信号対雑音比を該音声品質推定値として出力するように構成されたことを特徴とする、付記１記載の音声強調装置。
（付記３）該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
該信号抽出分離部にて抽出された該声道特性と、該残差信号調整部から出力された該強調残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記１又は付記２記載の音声強調装置。

（付記４）該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記１又は付記２記載の音声強調装置。

（付記５）該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
該残差信号調整部から出力された該強調残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記１又は付記２記載の音声強調装置。

（付記６）該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値に基づいて、該残差信号調整部と該声道特性調整部との各処理を変更するように構成されたことを特徴とする、付記１〜付記５のいずれか一に記載の音声強調装置。
（付記７）該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値が小さい場合は該残差信号調整部と該声道特性調整部との各強調処理を弱めるとともに、該音声品質推定値の値が大きい場合は該残差信号調整部と該声道特性調整部との各強調処理を強めるように構成されたことを特徴とする、付記６記載の音声強調装置。

（付記８）該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値が小さい場合は該残差信号調整部と該声道特性調整部との各調整動作を停止するとともに、該音声品質推定値の値が大きい場合は該残差信号調整部と該声道特性調整部との各調整動作を作動させるように構成されたことを特徴とする、付記６の音声強調装置。

（付記９）入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声／雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第２声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該第２声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。

（付記１０）入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該信号抽出分離部にて抽出された該声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性音声対雑音比推定部と、
該声道特性音声対雑音比推定部にて推定された該比に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第２声道特性調整部と、
該第２声道特性調整部から出力された該調整声道特性と、該信号抽出分離部にて分離された該残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。

（付記１１）音声品質推定部が、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該音声／雑音判定部にて判定された該入力音声信号のパワーを算出するパワー算出部と、
該音声／雑音判定部の判定結果に基づいて音声レベル又は雑音レベルを出力する音声レベル／雑音レベル出力部と、
該音声レベル／雑音レベル出力部から出力された該音声レベルと雑音レベルとに基づいて音声品質推定値を算出する音声品質推定値算出部とをそなえて構成されたことを特徴とする、付記１〜付記８のいずれか一に記載の音声強調装置。

（付記１２）入力音声信号の音声を強調する音声強調方法であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離ステップと、
該音声品質推定ステップにて推定された該音声品質推定値に基づいて、該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号の少なくとも一方を調整する調整ステップと、
該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号と、該調整ステップにて調整された該声道特性又は該残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴とする、音声強調方法。

（付記１３）入力音声信号の音声を強調する音声強調方法であって、
該入力音声信号について音声区間又は雑音区間を判定する音声区間／雑音区間判定ステップと、
該音声区間／雑音区間判定ステップにて判定された該音声区間又は該雑音区間における該フレームの音声レベル又は雑音レベルを更新する更新ステップと、
該更新ステップにて更新された該フレームの該音声品質を計算する計算ステップと、
該計算ステップにて計算された該音声品質に基づいて、該音声区間／雑音区間判定ステップにて判定された該入力音声信号について音声を調整する音声調整ステップとをそなえたことを特徴とする、音声強調方法。

（付記１４）音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、通信端末。

（付記１５）音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声／雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第２声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該第２声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、通信端末。

（付記１６）音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声／雑音判定部からの判定結果に基づいて、該信号抽出分離部にて抽出された該声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性音声対雑音比推定部と、
該声道特性音声対雑音比推定部にて推定された該比に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第３声道特性調整部と、
該第３声道特性調整部から出力された該調整声道特性と、該信号抽出分離部にて分離された該残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、通信端末。

本発明の音声強調装置，音声強調方法および通信端末によれば、声道特性として音声の長時間特性を用いる方法、又は前フレームから増幅率に急激な変化を生じないように制限するので、短時間における急激なスペクトル変化に起因する雑音感を抑制でき、良好な音声強調を得られ、携帯電話の受話音声の聞きやすさが向上する。

本発明が適用される通信端末の概略的なブロック図である。本発明の第１実施形態に係る音声強調装置の原理ブロック図である。本発明の第１実施形態に係るＳ／Ｎ比推定部のブロック図である。本発明の第１実施形態に係る音声強調処理部のブロック図である。本発明の第１実施形態に係る増幅率算出部のブロック図である。本発明の第１実施形態に係るスペクトル強調処理を説明するための図である。本発明の第１実施形態に係るＳ／Ｎ比推定部の動作を説明するためのフローチャートである。本発明の第１実施形態に係るＳ／Ｎ比推定値とホルマントゲインとの関係を示す図である。本発明の第１実施形態の第１変形例に係る音声強調装置のブロック図である。本発明の第１実施形態の第２変形例に係る音声強調装置のブロック図である。本発明の第２実施形態に係る音声強調装置のブロック図である。本発明の第２実施形態に係るＳ／Ｎ比推定部の動作を説明するためのフローチャートである。本発明の第３実施形態に係る音声強調装置のブロック図である。音声の生成モデルを示す図である。（ａ）は声道特性の一例を示す図であり、（ｂ）はホルマント強調の原理を説明するための図である。（ａ）はピッチ強調前の残差信号を説明するための図であり、（ｂ）は残差信号に対してピッチ強調フィルタを使用した場合の信号波形の一例を示す図である。

符号の説明

１，１ａ，１ｂ音声強調装置
２信号抽出分離部（信号抽出分離部）
２ａ逆フィルタ
２ｂ第１逆フィルタ係数算出部
３残差信号調整部（ピッチ調整部）
４ホルマント／アンチホルマント調整部（声道特性調整部，第２声道特性調整部，第３声道特性調整部）
４ａホルマント／アンチホルマント推定部（推定部）
４ｂ増幅率算出部
４ｃスペクトル強調部
４ｄ第２フィルタ係数算出部
５信号合成部
６Ｓ／Ｎ比推定部
６ａ音声／雑音判定部
６ｂフレームパワー算出部（パワー算出部）
６ｃ音声レベル算出部
６ｄ雑音レベル算出部
６ｅＳ／Ｎ比推定値算出部（音声品質推定値算出部）
６ｆメモリ
８雑音時声道特性推定部
９声道特性Ｓ／Ｎ比推定部（声道特性音声品質推定部）
１０音声強調処理部
１５携帯電話（通信端末）
１５ａマイク
１５ｂ送話部
１５ｃコーダ
１５ｄデータ処理部
１５ｅ無線送受信部
１５ｆデコーダ
１５ｇ受話部
１５ｈスピーカ
１５ｉ主制御部
１６基地局
１１１基準電力算出部
１１２ホルマント増幅率算出部
１１３補間関数算出部
１１４増幅率算出部
１１５増幅率修正部
１１６雑音レベル比算出部
１１７極小点決定部

Claims

入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、音声強調装置。
該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
該残差信号調整部から出力された該強調残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、請求項１記載の音声強調装置。
入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号が音声又は雑音を判定する音声／雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声／雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第２声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該第２声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。
入力音声信号の音声を強調する音声強調方法であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離ステップと、
該音声品質推定ステップにて推定された該音声品質推定値に基づいて、該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号の少なくとも一方を調整する調整ステップと、
該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号と、該調整ステップにて調整された該声道特性又は該残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴とする、音声強調方法。
音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、通信端末。