JP2005331783A - 音声強調装置,音声強調方法および通信端末 - Google Patents

音声強調装置,音声強調方法および通信端末 Download PDF

Info

Publication number
JP2005331783A
JP2005331783A JP2004151099A JP2004151099A JP2005331783A JP 2005331783 A JP2005331783 A JP 2005331783A JP 2004151099 A JP2004151099 A JP 2004151099A JP 2004151099 A JP2004151099 A JP 2004151099A JP 2005331783 A JP2005331783 A JP 2005331783A
Authority
JP
Japan
Prior art keywords
signal
speech
unit
voice
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004151099A
Other languages
English (en)
Inventor
Takehiro Nakai
丈裕 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004151099A priority Critical patent/JP2005331783A/ja
Publication of JP2005331783A publication Critical patent/JP2005331783A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 音声強調装置において、受話音声の明瞭度を改善し、入力音声に雑音が含まれる場合においても音声品質の劣化および雑音感の増加を抑圧する。
【解決手段】 入力音声信号の音声を強調する音声強調装置1であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部6と、音声品質推定部6にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調との処理を変更する音声強調処理部10とをそなえて構成する。
【選択図】 図2

Description

本発明は、例えば携帯電話(携帯端末)の受話音声,コンピュータ端末等の受信音声の聞き取りやすさ(聞きやすさ)を向上させる音声強調技術に用いて好適な、音声強調装置,音声強調方法および通信端末に関する。
携帯電話は、様々な場所で使用できるため、周囲の環境が静かな場所のみならず、騒音レベルの大きい駅のホーム,工場等で使用され、スピーカ(レシーバ)の音声(受話音声)が聞き取り難くなることがある。これに対して、大きなサイズのスピーカを携帯電話に搭載し受話音量を大きくすればよいが、携帯電話は小型化が必要であってスピーカのサイズは小型でなければならず、スピーカは十分な音量を出力できない。これに加えて、小型スピーカは、音量を大きくするにつれて音の歪みが大きくなる。従って、小型スピーカの音量を大きくすることは、常に、聞き取りやすさを向上させるとは限らない。
このため、音声の聞きやすさを向上させるための音声強調技術が用いられることがある。一般に、音声強調とは、音声波スペクトル(音声の周波数スペクトル)の所定帯域におけるスペクトル振幅を増幅して音声の明瞭度を向上させることであり、また、所定の周波数帯域パワーを増幅するとともに、増幅帯域と異なる帯域のスペクトル振幅を減衰させることが併用される。これらの増幅,減衰の対象となる帯域は、それぞれ、声道特性のホルマント,アンチホルマントと呼ばれる。
声道特性について図14を参照して説明すると、この図14に示す音声生成モデル79は、声帯波(声帯振動)をモデル化した音源80と、音声波を生成する声道(声帯から唇までの空間)をモデル化した調音系81と、調音系81にて生成された音声波を放射する唇82とからなる。ここで、音源80が、一定周期(ピッチ周期)を有する声帯波を出力すると、調音系81は、肺からの空気を声道の形状(例えば声道の太さ)に共振させて母音を生成し、また、声道の形状を変化させて「あ」、「い」、「ae」、「u」等の異なる母音を調音し音声波を生成する。そして、唇82は、この音声波を空間に放射する(例えば非特許文献1参照)。
これにより、音声波について線形予測分析によるシステム関数の逆関数に基づくフィルタリングが行なわれると、音声波のスペクトル包絡線の特性が分離されて音源80のほぼ一様なスペクトルが得られる。この音声波から線形予測可能な部分の除去により分離されたものは残差信号(音源信号)と呼ばれ、この残差信号の自己相関を算出することにより、音源80のピッチ周期が得られる。
また、音声強調については、従来から、種々の技術が提案されている(例えば特許文献1〜6)。
特許文献1記載の音声信号処理装置は、雑音を含む混合信号について帯域分割し、帯域分割したチャンネル毎の信号について音声帯域部分を検出し、検出した音声帯域情報に基づいて雑音帯域を算出し、算出した雑音帯域を減衰させる制御信号に従い選択した帯域信号のみ減衰させ、減衰した信号を帯域合成するものである。そして、上記の音声帯域を検出する音声帯域検出手段は、帯域分割された信号についてのケプストラム分析結果に基づきピーク検出するピーク検出手段と、ケプストラム分析結果に基づきホルマント分析するホルマント分析手段と、ホルマント情報およびピークを利用して音声帯域を検出する音声帯域検出回路とを有する。また、音声帯域検出手段は、入力された雑音を含む混合信号から音声のピッチ周波数を検出するピッチ周波数検出手段をも有する。これにより、雑音を含む音声信号のS/N比(信号[Signal]対雑音[Noise]比)を向上できる。
また、特許文献2記載の音声信号の雑音低減方法は、入力音声信号に基づいて算出されたS/N比および音声存在確率に基づいて音声成分を算出するためのフィルタを適応的に制御することにより雑音抑圧を行ない、また、音声存在確率の算出は入力信号のスペクトルから推定雑音スペクトルを減算したものを用いる。これにより、入力音声信号に応じて実際の入力のS/N比に最適化した抑圧ファクタに調整が行なわれ、副作用的な歪を発生させずに十分に雑音を除去できる。
そして、特許文献3記載の音声信号処理装置は、入力音声信号から抽出した第1ホルマント成分と第2ホルマント成分とを、第1ホルマント成分および第2ホルマント成分の検出周波数等に基づいて強調,減衰等の処理を行ない、処理された各帯域の信号を合成するものである。これにより、音声信号の強調又は雑音の除去の場合に、音声を歪ませずに良好な処理ができる。
さらに、特許文献4記載の音声強調装置は、入力信号の周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰させ、周波数分割スペクトルに基づいて多くの雑音のピークを取り除き、第2コムフィルタと周波数分割スペクトルとから推定した音声ピッチで第1コムフィルタに含まれる音声ピッチ調波構造を修正し、修正された第1コムフィルタを用いて周波数分割スペクトルの雑音を抑圧し、雑音を抑圧した周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成するようになっている。これにより、雑音のピークを取り除いたコムフィルタを用いて音声信号のピッチ情報を取得し、コムフィルタの音声ピッチを補うことにより、音声の歪みが少なくかつ雑音を十分に除去できる。
そして、特許文献5記載の音声処理装置において、音声非音声識別部が音声スペクトル信号と雑音ベースの値との差に基づいて音声成分を含む有音部分又は音声成分を含まない雑音のみの無音部分を判定する。コムフィルタ生成部は各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成し、減衰係数計算部はコムフィルタに周波数特性に基づいた減衰係数を乗算して各周波数成分毎に入力信号の減衰係数を設定し各周波数成分の減衰係数を乗算部に出力する。乗算部は音声スペクトルに減衰係数を周波数成分単位で乗算し、周波数合成部は乗算の結果得られた周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。これにより、音声の歪みが少なくかつ雑音を十分に除去できる。
また、特許文献6記載の音声スペクトル強調装置は、ホルマント周波数を含む帯域とアンチホルマント周波数を含む帯域を決定し、帯域毎に増幅率を個別に決定して、ホルマントを強調するものであり、入力音声信号から得られたLPCスペクトル(LPCを用いて計算したスペクトル)又はFFT(Fast Fourier Transformation)スペクトル(高速フーリエ変換を用いて計算した信号のパワースペクトル)に対して直接ホルマントを強調するようになっている。
特許第2979714号公報 特許第3484757号公報 特開平6−289897号公報 特開2003−280696号公報 特開2002−149200号公報 特開2001−117573号公報 「音声の高能率符号化」,69−71ページ,中田和男著,森北出版
しかしながら、特許文献1〜5記載の音声信号処理装置等は、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するので、音源特性の歪みが大きくなり、雑音感が増加し明瞭度が劣化するという課題がある。また、特許文献1〜5記載の音声強調方法は、相互に全く関係がない音源特性と声道特性との2種類の特性が分離されずに音声強調されるので、音源特性の歪みが拡大し、雑音感が増加し明瞭度が劣化することがある。
さらに、特許文献6記載の音声スペクトル強調装置は、入力音声が雑音を含む場合、雑音成分がホルマント又はピッチ成分として現れることがあり、声道特性修正部による雑音成分の強調と、残差信号調整部による雑音成分の強調処理とが、音声の聞き取りやすさの低下を引き起こすという課題がある。
また、特許文献6記載の音声スペクトル強調方法は、帯域毎に増幅率を個別に決定する。従って、入力音声信号を符号化した入力音声データをフレーム毎に処理する場合に、フレーム間において増幅率又は減衰率が変化(又は変動)すると、スペクトルが急激に変化し不連続となる。このスペクトルの急激な変化は、ユーザに雑音感として認識させる。さらに、スペクトルの不連続性を改善する方法は、例えばフレーム長を大きくすればよい。この半面、フレーム長を長くすることは、音声処理および音声データの伝送について、遅延時間が大きくなるので、通信用途の観点からは、フレーム長を大きくせずにスペクトルの急激な変化を防止する必要がある。
本発明は、このような課題に鑑み創案されたもので、残差信号と声道特性との個々の特性に合致した音声強調を可能とし、受話音声の明瞭度を改善し、さらに、入力音声に雑音が含まれる場合においても音声品質の劣化および雑音感の増加を抑圧できる、音声強調装置,音声強調方法および通信端末を提供することを目的とする。
このため、本発明の音声強調装置は、入力音声信号の音声を強調する音声強調装置であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴としている(請求項1)。
また、音声強調処理部は、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、音声品質推定部にて推定された音声品質推定値に基づいて、信号抽出分離部にて分離された残差信号を強調し強調残差信号を出力する残差信号調整部と、音声品質推定部にて推定された音声品質推定値に基づいて、信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、残差信号調整部から出力された強調残差信号と、声道特性調整部から出力された調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されてもよい(請求項2)。
さらに、本発明の音声強調装置は、入力音声信号の音声を強調する音声強調装置であって、入力音声信号が音声又は雑音を判定する音声/雑音判定部と、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、音声/雑音判定部からの判定結果に基づいて、声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、雑音時声道特性推定部にて推定された雑音時声道特性に基づいて、信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する第2声道特性調整部と、信号抽出分離部にて分離された残差信号と、第2声道特性調整部から出力された調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴としている(請求項3)。
そして、本発明の音声強調方法は、入力音声信号の音声を強調する音声強調方法であって、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離ステップと、音声品質推定ステップにて推定された音声品質推定値に基づいて、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号の少なくとも一方を調整する調整ステップと、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号と、調整ステップにて調整された声道特性又は残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴としている(請求項4)。
また、本発明の通信端末は、音声信号を含む情報データを受信処理して音声信号を抽出する受信部と、受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、音声強調装置が、入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整と入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴としている(請求項5)。
本発明の音声強調装置によれば、音声品質としてのS/N比が大きいときは強調の度合いを大きくし、より一層聞き取りやすい音声を得られる。また、S/N比推定値が小さいときは強調の度合いを小さくし、雑音強調を防止できる。
さらに、本発明の音声強調装置によれば、例えば雑音がホルマントとして選ばれる可能性がなくなり、ピッチゲインが適切に調整されるため、雑音成分の強調を防止できる。
そして、本発明の音声強調装置によれば、雑音時声道特性推定部が、声道特性調整部の動作に、推定した雑音時声道特性を使用するので、過度な雑音強調を防止できる。
また、本発明の音声強調方法によれば、声道特性と音源特性とを同時に調整しても、スペクトル歪の発生を抑制でき、また、明瞭度の改善が得られる。
さらに、本発明の通信端末によれば、例えばホルマント周波数とアンチホルマント周波数とにかかわらず、雑音感の増加を防止できる。さらに、スペクトル調整された出力音声と入力音声との各振幅を適切にできる。
以下、図面を参照して本発明の実施の形態を説明する。
(A)本発明の第1実施形態の説明
図1は本発明が適用される携帯電話(本発明の通信端末)の概略的なブロック図である。この図1に示す携帯電話15は、音声信号を含む無線信号を基地局16との間において無線通信するものであって、マイク15a,送話部15b,コーダ15c,データ処理部15dからなる送信処理部(15a,15b,15c,15d)と、無線送受信部15e,アンテナ15jからなる無線信号処理部(15e,15j)と、データ処理部15d,デコーダ15f,受話部15g,スピーカ15hからなる受信処理部(15d,15f,15g,15h)と、送話部15b,受話部15g等の携帯電話15内の各モジュールを制御する主制御部15iとをそなえて構成されている。また、本音声強調装置1は、受話部15gに設けられている。
ここで、送話部15bは、音声を取得するマイク15aからのアナログ音声信号をディジタル音声信号に変換して出力するものであり、コーダ15cは、送話部15bからのディジタル音声信号をディジタル圧縮されたディジタルコードに変換し符号化出力するものであり、データ処理部15dは送信データおよび受信データを処理するものであり、無線送受信部15eはコーダ15cからのディジタルコードを無線信号に変換するとともに基地局16から受信した無線信号をディジタル音声データに変換してデータ処理部15dに入力するものである。
そして、デコーダ15fはデータ処理部15dからの圧縮されたディジタルコードをディジタル音声信号に変換出力するものである。受話部15gはデコーダ15fから出力されたディジタル音声信号について音声強調し音声強調処理されたアナログ音声信号を出力するものである。また、スピーカ15hは受話部15gからのアナログ音声信号を増幅し受話音声を出力するものである。
なお、基地局16は、複数の携帯電話15と無線通信するとともに、図示を省略する公衆網側に接続された基地局制御装置との間において情報データを通信するものである。
(1)音声強調装置1の概略的な構成
次に、音声強調装置1の概略的な構成について説明する。
図2は本発明の第1実施形態に係る音声強調装置1の原理ブロック図である。この図2に示す音声強調装置1は、入力音声信号の音声を強調するものであって、S/N比推定部(音声品質推定部)6と、音声強調処理部10とをそなえて構成されている。
ここで、S/N比推定部6は、入力音声信号のS/N比(音声品質)を推定しS/N比推定値(推定S/N比:音声品質推定値)を出力するものであり、S/N比を音声品質推定値として出力するようになっている。また、S/N比は、残差信号調整部3とホルマント/アンチホルマント調整部4とに各々入力される。
図3は本発明の第1実施形態に係るS/N比推定部6のブロック図である。この図3に示すS/N比推定部6は、音声/雑音判定部6aと、フレームパワー算出部(パワー算出部)6bと、音声レベル算出部6cと、雑音レベル算出部6dと、S/N比推定値算出部(音声品質推定値算出部)6eと、メモリ(保持部)6fとをそなえて構成されている。
ここで、音声/雑音判定部6aは、入力音声信号から、G.729 AnnexBのアルゴリズムを用いて1フレーム(80サンプル分)に1回、音声又は雑音の判定結果を出力するものである。この判定結果は、各フレームが音声区間又は雑音区間のいずれかであることを表すほかに、各フレームの80サンプルが音声データ又は雑音データのいずれかであることを表す。なお、雑音とは背景雑音又は周囲雑音を表す。
フレームパワー算出部6bは、1フレームに1回、入力音声信号の2乗和を入力サンプルで除算し、dB(デシベル)に換算したものをフレームパワーとして、音声レベル算出部6c,雑音レベル算出部6dのそれぞれに入力するものである。ここで、入力音声信号サンプルの振幅をinput(i)(iは0〜79の自然数を表す)とすると、フレームパワーframe_powは、式(1)により表される。
Figure 2005331783
さらに、音声レベル算出部6cは、音声/雑音判定部6aの判定結果が音声のときに動作し、後述する式(8)を用いて音声レベルを算出し、また、判定結果が雑音のときは、後述する式(9)を用いて雑音レベル(背景雑音レベル又は周囲雑音レベル)を算出する。また、メモリ6fは、各種のデータを保持するものであり、S/N比推定値とホルマントゲインとを対応付けて保持し(後述する図8参照)、また、式(8),式(9)の計算に要する係数(過去の寄与率を決定するための係数)をも保持する。
S/N比推定値算出部6eは、音声レベルVoice_aveと、雑音レベルNoise_aveとを入力され、式(2)によりS/N比推定値を算出する。
Figure 2005331783
そして、S/N比推定値(又はS/N比推定値に対応するホルマントゲイン)が、ホルマント/アンチホルマント調整部4および残差信号調整部3のそれぞれに対して入力されるのである。
従って、S/N比推定部6は、入力音声信号が音声又は雑音を判定する音声/雑音判定部6aと、音声/雑音判定部6aにて判定された入力音声信号のパワーを算出するフレームパワー算出部6bと、音声/雑音判定部6aの判定結果に基づいて音声レベル又は雑音レベルを出力する音声レベル/雑音レベル出力部(6c,6d)と、音声レベル/雑音レベル出力部(6c,6d)から出力された音声レベルと雑音レベルとに基づいてS/N比推定値を算出するS/N比推定値算出部6eとをそなえて構成されている。
このように、S/N比推定部6が、音声強調処理部10の前段に設けられ、音声強調処理部10に入力される入力音声信号と同一の入力音声信号を用いてS/N比を推定し、音声強調処理動作が変更される。
次に、音声強調処理部10は、S/N比推定部6にて出力されたS/N比推定値に基づいて、入力音声信号の声道特性の調整(強調および減衰)と入力音声信号の残差信号(強調残差信号)の強調との処理を変更するものであって、信号抽出分離部2と、ホルマント/アンチホルマント調整部(ホルマントおよびアンチホルマント調整部:声道特性調整部)4と、残差信号調整部3と、信号合成部(合成部又は合成フィルタ)5とをそなえて構成されている。
この信号抽出分離部2は、入力音声信号から声道特性の抽出と残差信号の分離とを行なうものである。この声道特性についてさらに詳述する。
図15(a)は声道特性の一例を示す図である。この図15(a)に示す声道特性は、例えば3点のピーク点(極大点)はそれぞれ声道特性の共振点に対応し、第1ホルマント,第2ホルマント,第3ホルマントと呼ばれる。一方、各ホルマント間の極小点はアンチホルマントと呼ばれる。
また、信号抽出分離部2は、入力音声信号(入力音声信号サンプル)x(n)(0≦n<N)について、例えば線形予測分析して得られるLPC係数(線形予測符号化係数)により定まる帯域フィルタリングを行なうことにより、音声波から線形予測可能な部分を除去し、残差信号(音源信号)を分離する。なお、nは自然数であり、また、Nはフレーム長(区間長)を表し、G.729 AnnexBによって例えば80に設定されている。
そして、信号抽出分離部2は、逐次入力される入力音声信号x(n)を80サンプル毎に区切り、80個の入力音声信号サンプルx(0)〜x(79)を処理単位の1フレームとして帯域フィルタリングする。これにより、例えば80個のディジタル化された入力音声信号サンプルx(0),x(1),x(2),…,x(77),x(78),x(79)が、それぞれ、信号抽出分離部2に逐次入力されて時系列に処理される。
次に、ホルマント/アンチホルマント調整部4は、S/N比推定部6にて推定されたS/N比推定値に基づいて、信号抽出分離部2にて抽出された声道特性を調整し調整声道特性を出力するものである。
図15(b)はホルマント強調の原理を説明するための図である。ホルマント/アンチホルマント調整部4は、この図15(b)に示すホルマントの電力を上げる処理(ホルマント周波数を中心とする高次ホルマントの電力に正のゲインを与える処理)と、アンチホルマントの電力を下げる(アンチホルマント周波数を中心とする負のゲインを与える処理)とを行なう。ここで、破線はホルマント強調する前の声道特性を表し、実線はホルマント強調した後の声道特性を表す。強調前のホルマント特性は、周波数の増加につれて電力が減少し、概して右肩下がりである。そして、ホルマント/アンチホルマント調整部4が、ホルマント特性の各ピーク値がほぼ同一になるようにフラット処理を行ない、音声の明瞭さが増大し、雑音環境下における聞き取りやすさが向上する。また、アンチホルマントの電力を下げることにより、アンチホルマント周波数の付近に存在していた雑音成分(雑音電力)が抑圧され、音声の聞き取りやすさが向上する。
また、残差信号調整部3は、S/N比推定部6にて推定されたS/N比推定値に基づいて、信号抽出分離部2にて分離された残差信号を強調し強調残差信号を出力するものであり、S/N比推定値に応じて動作を変更するようになっている。具体的には、残差信号調整部3は、ピッチ調整部として機能し、残差信号のピッチを強調して強調残差信号を出力する。
図16(a)はピッチ強調前の残差信号を説明するための図である。残差信号調整部3は、以下の式(3)の伝達関数P(z)で表される特性を有するピッチ強調フィルタを残差信号について使用する。ここで、Tはピッチ周期であり、rpitは残差信号から求めたT次の残差自己相関値であり、gpは重み付け係数であり、・は乗算を表す。
Figure 2005331783
図16(b)は図16(a)に示す残差信号に対してピッチ強調フィルタを使用した場合の信号波形の一例を示す図である。この図16(b)に示す信号波形は、パルスないしスパイク状の部分の振幅が増幅されている。これにより音声のピッチが強調され、音声の聞き取りやすさが向上する。また、音声強調方法は、入力音声が雑音を含まない場合は良好に動作する。このピッチ強調により、ピッチ強調フィルタの係数が得られ、所望の周波数およびレベルを適切に調整できる。
次に、信号合成部5は、残差信号調整部3から出力された強調残差信号と、ホルマント/アンチホルマント調整部4から出力された調整声道特性とを合成し合成信号を出力するものである。
これにより、本発明の第1実施形態に係る音声強調方法によれば、S/N比推定部6が、入力音声信号のS/N比を推定しS/N比推定値を出力し(音声品質推定ステップ)、入力音声信号から声道特性の抽出と残差信号の分離とを行ない(信号抽出分離ステップ)、音声品質推定ステップにて推定されたS/N比推定値に基づいて、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号を調整し(調整ステップ)、そして、信号合成部5が、信号抽出分離ステップにて抽出された声道特性又は分離された残差信号と、調整ステップにて調整された声道特性又は残差信号とを合成し合成信号を出力する(合成ステップ)。これにより、音声の個々の特性に応じて強調できる。
以下、図4等を参照して音声強調処理部10の詳細について説明する。
図4は本発明の第1実施形態に係る音声強調処理部10のブロック図であり、図2に示す原理ブロックを詳細に表示したものである。
(2)信号抽出分離部2
この図4に示す信号抽出分離部2は、平均スペクトル算出部12と、逆フィルタ2aと、第1逆フィルタ係数算出部(逆フィルタ係数算出部1)2bと、平均自己相関算出部2cとをそなえて構成されている。
この平均スペクトル算出部12は、入力音声信号x(n)について算出された平均自己相関値から、レビンソンアルゴリズム等の公知の方法により、逆フィルタ係数α1(i)を計算し、平均スペクトルsp1(l)を式(4)により算出して出力するものである。ここで、1≦i≦p2であり、p2は合成フィルタ次数を表す。
Figure 2005331783
ここで、変数l(L:el)は、スペクトルのデータ点数であって離散周波数を表す。なお、lについては、NFをスペクトル点数で表すと0≦l<NFの整数である。また、以下、α1(i)は特に断らない限り、α1と表す。
また、第1逆フィルタ係数算出部2bは、上述したフィルタ係数α1を出力するものである。そして、逆フィルタ2aは、複数段のフリップフロップ(図示省略)が接続されたIIR(Infinite Impulse Response)フィルタであって、第1逆フィルタ係数算出部2bから入力された複数のフィルタ係数を各フリップフロップに設定し所望の帯域通過特性が与えられる。この逆フィルタ2aに入力される入力音声信号x(n)は、音源の周波数特性と調音系の周波数特性とが一体化された音声波形特性を有し、この一体化された入力音声信号x(n)が逆フィルタ2aのフィルタリングにより、音声波形から線形予測可能な部分が除去されて音源信号が抽出される。すなわち、音源信号は、フィルタリング後に残された残差信号に相当する。
さらに、平均自己相関算出部2cは、現フレームの自己相関関数と、バッファ(図示省略)に保持された例えばL個の過去フレームの自己相関関数との(L+1)個の自己相関関数について加重平均した平均自己相関関数を出力するものである。

これにより、入力音声信号x(n)は、逆フィルタ2aに入力される一方、平均スペクトル算出部12に入力されて平均スペクトルsp1(l)が算出され、この算出された平均スペクトルsp1(l)は、ホルマント/アンチホルマント調整部4に入力され、スペクトル強調部4cにおいてさらに算出されたスペクトルが強調される。そして、逆フィルタ2aは、残差信号r(n)を出力し、また、平均スペクトル算出部12からの平均スペクトルsp1(l)は、ホルマント/アンチホルマント強調部4にも入力される。
これにより、入力音声信号x(n)は、平均スペクトルsp1(l)を抽出するとともに、残差信号r(n)を分離する。また、各フィルタ係数が適応的に設定されるので、雑音環境下において適切な音声強調が可能となる。
(3)ピッチ調整部(残差信号調整部)3
図4に示す残差信号調整部3は、信号抽出分離部2にて分離された残差信号r(n)のピッチを、S/N比推定部6から入力されたS/N比推定値に基づいて、強調させるようになっている。具体的には、残差信号調整部3は、S/N比推定部6にて推定されたS/N比推定値が小さい場合は残差信号調整部3の強調処理を弱めるとともに、S/N比推定値が大きい場合は残差信号調整部3の強調処理を強める。このピッチ調整により、ピッチ調整フィルタの係数が得られ、残差信号r(n)を適切に強調して強調残差信号s(n)を出力できる。
さらに、残差信号調整部3は、S/N比推定部6にて推定されたS/N比推定値が小さい場合は残差信号調整部3の調整動作を停止するとともに、S/N比推定値が大きい場合は残差信号調整部3の調整動作を作動させるようにもなっており、これにより、やはり、残差信号r(n)を適切に強調できる。
このように、音声強調処理部10は、S/N比推定部6にて推定されたS/N比推定値に基づいて、残差信号調整部3の処理を変更している。
(4)ホルマント/アンチホルマント調整部(声道特性調整部)4
(4−1)ホルマント/アンチホルマント調整部4の機能
次に、ホルマント/アンチホルマント調整部4は、平均スペクトルsp1(l)からホルマントおよびアンチホルマントを推定する機能と、その推定されたホルマントおよびアンチホルマントのそれぞれの振幅を増幅又は減衰させる機能とを有し、ホルマント/アンチホルマント推定部4aと、スペクトル強調部4cと、第2フィルタ係数算出部4dと、増幅率算出部4bとをそなえて構成されている。
ここで、ホルマント/アンチホルマント推定部4aは、信号抽出分離部2にて抽出された声道特性のホルマントとアンチホルマントとのそれぞれについての物理的特性(ホルマント周波数fp(k),アンチホルマント周波数fv(k),ホルマント周波数振幅ampp(k)およびアンチホルマント周波数振幅ampv(k)等)を推定するものである。ここで、kは自然数(例えば1〜4)を表す。
そして、スペクトル強調部4cは、信号抽出分離部2からの平均スペクトルsp1(l)を、以下に述べる増幅率算出部4bにて算出される増幅率β(l)で増幅しその増幅スペクトルsp2(l)を出力するものである。また、第2フィルタ係数算出部4dは、スペクトル強調部4cからの増幅スペクトルsp2(l)に基づいて、合成フィルタ5のフィルタ係数α2(i)を算出するものである。以下、α2(i)は特に断らない限り、α2と表す。
増幅率算出部4bは、増幅率β(l)を算出し、スペクトル強調部4cに対して増幅率β(l)を入力するものである。具体的には、増幅率算出部4bは、S/N比推定部6にて推定されたS/N比推定値が小さい場合はホルマント/アンチホルマント調整部4の強調を弱めるとともに、S/N比推定値が大きい場合はホルマント/アンチホルマント調整部4の強調を強める。さらに、増幅率算出部4bは、S/N比推定部6にて推定されたS/N比推定値が小さい場合はホルマント/アンチホルマント調整部4の調整動作を停止するとともに、S/N比推定値が大きい場合はホルマント/アンチホルマント調整部4の調整動作を作動させるようになっている。
(4−2)増幅率算出部4bの構成
以下、図5を参照して増幅率算出部4bの構成について説明し、ホルマント/アンチホルマント調整部4における増幅率β(l)の2種類の算出方法について説明する。
図5は本発明の第1実施形態に係る増幅率算出部4bのブロック図である。この図5に示す増幅率算出部4bは、基準電力算出部111,ホルマント増幅率算出部112,補間関数算出部113,極小点決定部117,増幅率算出部114をそなえて構成されている。
ここで、基準電力算出部111は、入力される平均スペクトルsp1(l)から基準電力Pow_refを算出し算出した基準電力Pow_refをホルマント増幅率算出部112に入力するものである。基準電力Pow_refは、例えば全周波数帯域の平均電力又は低域周波数帯域における平均電力を用いることができ、式(5)により表される。
Figure 2005331783
図6は本発明の第1実施形態に係るスペクトル強調処理を説明するための図である。ホルマント増幅率算出部112は、この図6に示す声道特性の第1ホルマントF(1)〜第4ホルマントF(4)の振幅ampv(1),ampv(2),ampv(3),ampv(4)を、基準電力Pow_refに一致させるために、第1ホルマント増幅率G(1)〜第4ホルマント増幅率G(4)を、それぞれ、式(6)を用いて計算する。ここで、amp(k)は増幅率を表し、kは自然数(例えば1〜4)を表し、0≦n<Npである。
Figure 2005331783
次に、図8に示す特性グラフを用いて、ホルマント増幅率算出部112は、ホルマント増幅率算出部112bに入力されたS/N比に対応するホルマントゲインを取得する。ホルマント増幅率算出部112は、取得したホルマントゲインとG(k)値とを比較し、G(k)が、ホルマントゲインよりも大きい場合は、G(k)を取得したホルマントゲインに置き替える。すなわち、G(k)が更新されるのである。
極小点決定部117は、隣接する2個のホルマント間における増幅率の極小点を決定し、決定した極小点の増幅率を補間関数算出部113に入力するものである。また、補間関数算出部113は、隣接する2個のホルマント間における増幅率を、極小周波数における増幅率以上、かつ極大周波数における増幅率以下の値をとる補間曲線(例えば極大周波数を通りかつ極小周波数において極小値をとる二次曲線)を用いて補間するものである。
そして、増幅率算出部114は、補間曲線に基づいて、隣接する2個のホルマント間における周波数についての増幅率β(l)を算出するものである。
これにより、図5に示すホルマント増幅率算出部112において計算されたホルマント増幅率は、補間関数算出部113と極小点決定部117とに入力される。極小点決定部117にて計算された極小点座標は、補間関数算出部113に入力され、この補間関数算出部113において、補間関数が計算され、この補間関数は、増幅率算出部114に入力され、増幅率β(l)が出力される。 この計算により得られた増幅率β(l)は、図4に示すスペクトル強調部4cに入力される。
また、図4に示すホルマント/アンチホルマント推定部4aは、平均スペクトル算出部12から出力された平均スペクトルsp1(l)についてホルマントとアンチホルマントとの双方を推定する。これらのホルマントとアンチホルマントとは、ともに、スペクトル強調部4cにおいて、増幅率算出部4bからの増幅率β(l)を用いて強調された増幅スペクトルsp2(l)が出力される。そして、第2フィルタ係数算出部4dは、この増幅スペクトルsp2(l)に基づき、以下に述べる合成フィルタ5のフィルタ係数α2を算出して合成フィルタ5に入力する。
これにより、声道特性のホルマントを増幅して強調するとともに声道特性のアンチホルマントを減衰させた強調声道特性が出力され、ホルマントとアンチホルマントとの振幅差を示すコントラストが強調される。
このように、ホルマント/アンチホルマント調整部4は、S/N比推定部6にて推定されたS/N比推定値に基づいて、処理又は動作を変更している。
(5)合成フィルタ(信号合成部)5
図4に示す合成フィルタ5は、残差信号調整部3からの強調残差信号s(n)と、第2フィルタ係数算出部4dからのフィルタ係数α2とを合成して、出力音声信号y(n)を出力するものである。この合成フィルタ5の機能は、フィルタ係数を保持する複数のフリップフロップ(図示省略)を設けたIIRフィルタにより実現される。なお、レビンソンアルゴリズム等の公知方法により、フィルタ係数α2(i)が算出される。
(6)S/N比推定部6
次に、入力音声信号のS/N比の推定,動作および音声強調方法について詳述する。
S/N比推定部6は、入力音声信号サンプルを一定区間に区切って得た80個の入力音声信号サンプルx(0)〜x(79)を1フレーム単位とし、また、各フレームの入力音声信号サンプルが音声データ又は雑音データのいずれかであるかを判定する。換言すれば、S/N比推定部6は、各フレームのサンプルデータが音声データ又は雑音データである場合、それぞれ、そのフレームを音声区間又は雑音区間と判定する。
この音声/雑音判定後の処理についてさらに詳述する。
図7は本発明の第1実施形態に係るS/N比推定部6の動作を説明するためのフローチャートである。最初に、S/N比推定部6は、音声/雑音判定を行ない(ステップA1)、そのフレームが音声データか雑音データかを判定する(ステップA2)。
次に、S/N比推定部6は、そのフレームを音声データと判定すると、YESルートを通り音声レベルを更新する(ステップA3)。ここで、過去の音声レベルの平均をVoice_ave_oldとし、現在のフレームパワーframe_powを用いて、S/N比推定部6は、そのフレームにおける音声レベルVoice_aveを、式(7)により算出して決定する。ここで、coef1は過去の寄与率を決定するための係数であり、*は乗算を表す。
Figure 2005331783
また、ステップA2において、S/N比推定部6が、そのフレームを雑音データと判定すると、NOルートを通り、式(8)により雑音レベルを算出して決定する(ステップA4)。coef2は過去の寄与率を決定するための係数である。
Figure 2005331783
なお、式(7),式(8)のcoef1,coef2の値は、各々、例えば0.95である。
そして、S/N比推定部6は、音声レベル又は雑音レベルを更新すると(ステップA3又はステップA4)、ステップA5において、そのフレームのS/N比推定値S/Nを式(9)により計算し、S/N比を更新する。
Figure 2005331783
これにより、S/N比推定部6は、S/N比推定値を計算により推定し、ホルマント/アンチホルマント調整部4(図2,図4等)に与えるパラメータとしてのホルマントゲインを以下の図8に示す特性(グラフ)を用いて決定する。
図8は本発明の第1実施形態に係るS/N比推定値[dB]とホルマントゲイン[dB]との関係を示す図である。この図8に示すS/N比推定値−ホルマントゲイン特性において、S/N比推定値が40dB以上の場合、ホルマントゲインの最大値は20dBとなる。そして、S/N比推定値が40dBよりも小さくなるにつれて、ホルマントゲインが小さくなり、S/N比推定値が0dB以下の範囲においては、ホルマントゲインが0、つまり、ホルマント強調が行なわれないようになっている。具体的には、以下に示す式(10)のホルマントゲインG(k)を、上記ホルマントゲインの最大値に制限する。
Figure 2005331783
これにより、S/N比推定値が大きいときはホルマントゲインが大きくなり、結果として音声強調の度合いが強まる。また、S/N比推定値が小さいときはホルマントゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音レベルの強調を防止できる。
次に、S/N比推定値を用いて、ピッチ強調部3を調整する場合は、以下に示す式(11)と同様に、NRの代わりにS/N比推定部6で算出したS/N比推定値を使用するようにすればよい。
Figure 2005331783
このように、S/N比推定値が大きいときほどピッチゲインが大きくなり、結果として、音声強調の度合いが強まる。また、S/N比推定値が小さいときはピッチゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音成分の強調を防止できる。
次に、雑音レベル比NR(=NL/NL0)は、ホルマント/アンチホルマント調整部4に入力される。ホルマント/アンチホルマント調整部4は、S/N比推定値を用いて、比NRの値に応じて式(12)によりピッチ強調フィルタの特性を変化させる。
Figure 2005331783
ここで、gpは、ピッチ強調フィルタの伝達関数の重み付け係数である。この重み付け係数gpが、雑音レベル比NRを考慮した重み付け係数gp′に修正され、この修正された重み付け係数gp′が式(11)の重み付け係数gp′に代わって用いられる。この比NRの代わりにS/N比推定部6が算出したS/N比推定値を用いる。
これにより、S/N比推定値が大きいときほどピッチゲインが大きくなり、結果として音声強調の度合いが強まる。また、S/N比推定値が小さいときはピッチゲインが小さくなり、結果として音声強調の度合いが弱まり、雑音の強調が防止される。
また、本発明と、S/N比推定部6が設けられていない音声強調装置とを比較すると、S/N比推定部6が設けられていない音声強調装置は、入力音声信号と異なる別のマイクから入力した信号の雑音レベル比NRを使用する。これに対して、本発明は、S/N比推定部6で算出したS/N比推定値を使用する。従って、本発明によれば、音声強調装置1に入力される音声信号に雑音が含まれる場合においても、不快な雑音が増幅されず、音声の聞き取りやすさの低下を防止できる。換言すれば、従来の技術は、雑音レベルの過度の増幅を防止するために、強調の度合いの抑制を要し、これに加えて、スピーカの物理的なサイズに制限があったが、本発明によれば十分に強調の度合いを大きくすることが可能となる。
また、音声強調装置1は、音声強調処理部10の前段にS/N比推定部6を設け、S/N比に応じて音声強調の度合いを調整し、そして、入力音声信号x(n)から残差信号と声道特性とに分離し、分離した残差信号と声道特性とをそれぞれ強調するので、明瞭な音声が得られる。さらに、ホルマントとアンチホルマントとの振幅差が強調されるので、雑音感が除去される。
さらに、本発明と特許文献1(特許第2979714号公報)記載の発明についての構成の相違点については、特許文献1記載の音声信号処理装置は、フーリエ変換等を用いて入力音声を直接的に帯域分割する。本発明は入力音声信号が、信号抽出分離部にて声道特性と残差信号とに分離される。
次に、本発明と特許文献1記載の発明との効果の相違点については、特許文献1記載の音声信号処理装置は、S/N比を改善するものである。一方、本発明はS/N比の改善の効果に加えて、ホルマントの形状を変更することにより雑音環境下においても聞き取りやすい音声を出力でき、さらに、入力音声に雑音が含まれる場合においても、雑音の増幅により聞き取りやすさの劣化が防止される。
従って、携帯電話15(図1)は、空港等の雑音環境下においても、受話音声の品質は劣化せず、受話音声の聞きにくさが改善される。
また、音声強調装置1は、コンピュータ端末に適用することもできる。
(7)変形例の説明
なお、残差信号調整部3とホルマント/アンチホルマント調整部4とのうちの一方だけが動作するようにもできる。
図9は本発明の第1実施形態の第1変形例に係る音声強調装置1のブロック図であり、この図9に示す音声強調装置1の残差信号調整部3だけが動作状態にされている。そして、残差信号調整部3は、S/N比推定部6にて推定されたS/N比推定値に基づいて、信号抽出分離部2にて分離された残差信号を強調し強調残差信号を出力するようになっている。そして、信号合成部5は、信号抽出分離部2にて抽出された声道特性と、残差信号調整部3から出力された強調残差信号とを合成し合成信号を出力する。
また、図10は本発明の第1実施形態の第2変形例に係る音声強調装置1のブロック図である。この図10に示す音声強調装置1のホルマント/アンチホルマント調整部4が動作状態にされており、ホルマント/アンチホルマント調整部4は、S/N比推定部6にて推定されたS/N比推定値に基づいて、信号抽出分離部2にて抽出された声道特性を調整し調整声道特性を出力し、信号合成部5は、信号抽出分離部2にて分離された残差信号と、ホルマント/アンチホルマント調整部4から出力された調整声道特性とを合成し合成信号を出力する。
このように、S/N比推定部6で推定したS/N比推定値により、残差信号調整部3又はホルマント/アンチホルマント調整部4の動作が変更され、明瞭な音声が得られる。
(B)本発明の第2実施形態の説明
第2実施形態においては、ホルマント/アンチホルマント調整部4が、雑音時の声道特性を用いて動作するようにしている。
なお、第2実施形態における音声強調装置も、少なくとも受信部を含む携帯電話15(図1参照),コンピュータ端末等に用いられる。
図11は本発明の第2実施形態に係る音声強調装置のブロック図である。この図11に示す音声強調装置1aは、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部2と、入力音声信号が音声又は雑音を判定する音声/雑音判定部6aと、音声/雑音判定部6aからの判定結果に基づいて、声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部8と、雑音時声道特性推定部8にて推定された雑音時声道特性に基づいて、信号抽出分離部2にて抽出された声道特性を調整し調整声道特性を出力するホルマント/アンチホルマント調整部(第2声道特性調整部)4と、信号抽出分離部2にて分離された残差信号と、ホルマント/アンチホルマント調整部4から出力された調整声道特性とを合成し合成信号を出力する信号合成部5とをそなえて構成されている。
以下、雑音時の声道特性を更新する方法について詳述する。
この図11に示す音声/雑音判定部6aの判定結果が雑音のとき、雑音時声道特性推定部8は、信号抽出分離部2から得られた声道特性のスペクトルsp(l)(lはスペクトルビン番号を表す)と、前フレームで計算した声道特性の雑音スペクトルsp_noise_old(l)とに対し、それぞれ、式(13)の演算を行ない、現フレームの雑音スペクトルsp_noise(l)を計算する。
Figure 2005331783
ここで、αは忘却係数を表す。なお、音声判定されたフレームについては、式(14)に示すように、過去の雑音スペクトルを更新せずにそのまま使用する。
Figure 2005331783
そして、雑音時声道特性推定部8は、計算により得た雑音スペクトルsp_noise(l)に一定値をとるパラメータ(ホルマント選択度合い調整パラメータ)を加算した値と、声道特性のスペクトルsp(l)とを比較し、雑音スペクトルにパラメータγを加算した値が声道特性のスペクトルよりも大きい場合(sp_noise(l)+γ>sp(l))、スペクトルビン番号lをホルマントとして選択しないようにする。このパラメータγは、ホルマントとして選択されなくなる度合いを制御するための一定値であって、このパラメータγを大きく設定することよりホルマントとして選択されにくくなる。そして、雑音時声道特性推定部8は、以上の処理をスペクトルビンの数だけ繰り返すようにしている。
従って、本発明の第2実施形態に係る音声強調方法によれば、音声/雑音判定部6aが、入力音声信号について音声区間又は雑音区間を判定し(音声区間/雑音区間判定ステップ)、音声区間/雑音区間判定ステップにて判定された音声区間又は雑音区間におけるフレームの音声レベル又は雑音レベルを更新し(更新ステップ)、更新ステップにて更新されたフレームのS/N比を計算し(計算ステップ)、そして、計算ステップにて計算されたS/N比に基づいて、音声区間/雑音区間判定ステップにて判定された入力音声信号について音声を調整するので(音声調整ステップ)、音声の個々の特性に応じて強調できる。
図12は本発明の第2実施形態に係るS/N比推定部6の動作を説明するためのフローチャートである。S/N比推定部6は、音声/雑音判定を行ない(ステップB1)、そのフレームが音声データか否かを判定する(ステップB2)。
次に、S/N比推定部6は、そのフレームを雑音と判定すると、YESルートを通り、声道特性の残差スペクトルを更新する(ステップB3)。また、ステップB 2において、S/N比推定部6が、そのフレームを音声と判定すると、NOルートを通り、過去の雑音スペクトルを更新せずにそのまま使用する。
このように、雑音時声道特性推定部が、ホルマント/アンチホルマント調整部の動作に、推定した雑音時声道特性を使用するので、周波数軸上で雑音と重なるホルマントの強調が回避され、結果として、雑音成分の強調を防止できる。
(C)本発明の第3実施形態の説明
第3実施形態においては、ホルマント/アンチホルマント調整部が、声道特性のS/N比を用いて動作するようにしている。なお、第3実施形態における音声強調装置も、少なくとも受信部を含む携帯電話15(図1参照),コンピュータ端末等に用いられる。
図13は本発明の第3実施形態に係る音声強調装置のブロック図である。この図13に示す音声強調装置1bは、入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部2と、入力音声信号が音声又は雑音を判定する音声/雑音判定部6aと、音声/雑音判定部6aからの判定結果に基づいて、信号抽出分離部2にて抽出された声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性S/N比推定部(声道特性音声対雑音比推定部)9と、声道特性S/N比推定部9にて推定された比に基づいて、信号抽出分離部2にて抽出された声道特性を調整し調整声道特性を出力するホルマント/アンチホルマント調整部(第3声道特性調整部)4と、ホルマント/アンチホルマント4から出力された調整声道特性と、信号抽出分離部2にて分離された残差信号とを合成し合成信号を出力する信号合成部5とをそなえて構成されている。
第3実施形態における音声強調装置1bと音声強調装置1a(第2実施形態)との違いは、雑音時声道特性推定部8を声道特性S/N比推定部9に変更した点である。なお、このS/N比推定は、第1実施形態における全パワーについてのS/N比と異なり、スペクトルビン毎にS/N比を計算するようになっている。
声道特性S/N比推定方法を以下に示す。
音声/雑音判定部6aの判定結果が雑音のとき、声道特性S/N比推定部9は、第2実施形態と同様に、現フレームの雑音スペクトルsp_noise(l)を計算する(式(12)参照)。
次に、音声/雑音判定部6aの判定結果が音声のとき、声道特性S/N比推定部9は、信号抽出分離部2にて得られた声道特性のスペクトルsp(l)(lはスペクトルビン番号を表す)と、前フレームで計算した声道特性の音声スペクトルsp_noise_old(l)とに対し、式(15)に示す演算を行ない、現フレームの音声スペクトルsp_voice(l)を計算する。
Figure 2005331783
ここで、βは忘却係数を表す。なお、雑音判定されたフレームについては、声道特性S/N比推定部9は、式(16)に示すように過去の音声スペクトルをそのまま使用し、音声スペクトルを更新しない。
Figure 2005331783
そして、声道特性S/N比推定部9は、sp_voice(l)およびsp_noise(l)から、スペクトルビン毎のS/N比の値S/N(l)を式(17)に示すように計算する。
Figure 2005331783
声道特性S/N比推定部9は、このスペクトルビン毎のS/N比の値S/N(l)と、ホルマントゲイン特性(図8参照)とに基づいて、スペクトルビン毎のホルマントゲイン上限値を計算する。
次に、声道特性S/N比推定部9は、ホルマント位置のスペクトルビン番号lと、ホルマントゲインとを計算し、このホルマントゲインと、ホルマント位置のスペクトルビン番号に対応するホルマントゲイン上限値とを比較し、ホルマントゲイン上限値の方が小さい場合、ホルマントゲインをそのホルマントゲイン上限値に制限する。
このように、音声強調装置1bは、声道特性S/N比推定部9を設け、ホルマント/アンチホルマント調整部4の動作に推定した声道特性S/N比を使用するので、周波数軸上で雑音レベルに応じたホルマント強調が可能となり、この結果、雑音成分の強調を防止できる。
(D)その他
本発明は上述した実施態様およびその変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
上記の音声品質は、S/N比を用いるほかに、BER(Bit Error Rate:ビット誤り率),FER(Frame Error Rate:フレーム誤り率)を用いることができる。さらに、送受信データに誤り訂正ビットを設け、復号後の誤り訂正個数を用いて音声品質を図ることができる。
(E)付記
(付記1) 入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、音声強調装置。
(付記2) 該音声品質推定部が、
信号対雑音比を該音声品質推定値として出力するように構成されたことを特徴とする、付記1記載の音声強調装置。
(付記3) 該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
該信号抽出分離部にて抽出された該声道特性と、該残差信号調整部から出力された該強調残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記1又は付記2記載の音声強調装置。
(付記4) 該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記1又は付記2記載の音声強調装置。
(付記5) 該音声強調処理部が、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
該残差信号調整部から出力された該強調残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、付記1又は付記2記載の音声強調装置。
(付記6) 該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値に基づいて、該残差信号調整部と該声道特性調整部との各処理を変更するように構成されたことを特徴とする、付記1〜付記5のいずれか一に記載の音声強調装置。
(付記7) 該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値が小さい場合は該残差信号調整部と該声道特性調整部との各強調処理を弱めるとともに、該音声品質推定値の値が大きい場合は該残差信号調整部と該声道特性調整部との各強調処理を強めるように構成されたことを特徴とする、付記6記載の音声強調装置。
(付記8) 該音声強調処理部が、
該音声品質推定部にて推定された該音声品質推定値の値が小さい場合は該残差信号調整部と該声道特性調整部との各調整動作を停止するとともに、該音声品質推定値の値が大きい場合は該残差信号調整部と該声道特性調整部との各調整動作を作動させるように構成されたことを特徴とする、付記6の音声強調装置。
(付記9) 入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声/雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第2声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該第2声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。
(付記10) 入力音声信号の音声を強調する音声強調装置であって、
該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該信号抽出分離部にて抽出された該声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性音声対雑音比推定部と、
該声道特性音声対雑音比推定部にて推定された該比に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第2声道特性調整部と、
該第2声道特性調整部から出力された該調整声道特性と、該信号抽出分離部にて分離された該残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。
(付記11) 音声品質推定部が、
該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
該音声/雑音判定部にて判定された該入力音声信号のパワーを算出するパワー算出部と、
該音声/雑音判定部の判定結果に基づいて音声レベル又は雑音レベルを出力する音声レベル/雑音レベル出力部と、
該音声レベル/雑音レベル出力部から出力された該音声レベルと雑音レベルとに基づいて音声品質推定値を算出する音声品質推定値算出部とをそなえて構成されたことを特徴とする、付記1〜付記8のいずれか一に記載の音声強調装置。
(付記12) 入力音声信号の音声を強調する音声強調方法であって、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、
該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離ステップと、
該音声品質推定ステップにて推定された該音声品質推定値に基づいて、該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号の少なくとも一方を調整する調整ステップと、
該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号と、該調整ステップにて調整された該声道特性又は該残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴とする、音声強調方法。
(付記13) 入力音声信号の音声を強調する音声強調方法であって、
該入力音声信号について音声区間又は雑音区間を判定する音声区間/雑音区間判定ステップと、
該音声区間/雑音区間判定ステップにて判定された該音声区間又は該雑音区間における該フレームの音声レベル又は雑音レベルを更新する更新ステップと、
該更新ステップにて更新された該フレームの該音声品質を計算する計算ステップと、
該計算ステップにて計算された該音声品質に基づいて、該音声区間/雑音区間判定ステップにて判定された該入力音声信号について音声を調整する音声調整ステップとをそなえたことを特徴とする、音声強調方法。
(付記14) 音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、通信端末。
(付記15) 音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声/雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第2声道特性調整部と、
該信号抽出分離部にて分離された該残差信号と、該第2声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、通信端末。
(付記16) 音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
該音声強調装置が、
該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
該音声/雑音判定部からの判定結果に基づいて、該信号抽出分離部にて抽出された該声道特性について、音声区間における特性と雑音区間における特性との比を推定する声道特性音声対雑音比推定部と、
該声道特性音声対雑音比推定部にて推定された該比に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第3声道特性調整部と、
該第3声道特性調整部から出力された該調整声道特性と、該信号抽出分離部にて分離された該残差信号とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、通信端末。
本発明の音声強調装置,音声強調方法および通信端末によれば、声道特性として音声の長時間特性を用いる方法、又は前フレームから増幅率に急激な変化を生じないように制限するので、短時間における急激なスペクトル変化に起因する雑音感を抑制でき、良好な音声強調を得られ、携帯電話の受話音声の聞きやすさが向上する。
本発明が適用される通信端末の概略的なブロック図である。 本発明の第1実施形態に係る音声強調装置の原理ブロック図である。 本発明の第1実施形態に係るS/N比推定部のブロック図である。 本発明の第1実施形態に係る音声強調処理部のブロック図である。 本発明の第1実施形態に係る増幅率算出部のブロック図である。 本発明の第1実施形態に係るスペクトル強調処理を説明するための図である。 本発明の第1実施形態に係るS/N比推定部の動作を説明するためのフローチャートである。 本発明の第1実施形態に係るS/N比推定値とホルマントゲインとの関係を示す図である。 本発明の第1実施形態の第1変形例に係る音声強調装置のブロック図である。 本発明の第1実施形態の第2変形例に係る音声強調装置のブロック図である。 本発明の第2実施形態に係る音声強調装置のブロック図である。 本発明の第2実施形態に係るS/N比推定部の動作を説明するためのフローチャートである。 本発明の第3実施形態に係る音声強調装置のブロック図である。 音声の生成モデルを示す図である。 (a)は声道特性の一例を示す図であり、(b)はホルマント強調の原理を説明するための図である。 (a)はピッチ強調前の残差信号を説明するための図であり、(b)は残差信号に対してピッチ強調フィルタを使用した場合の信号波形の一例を示す図である。
符号の説明
1,1a,1b 音声強調装置
2 信号抽出分離部(信号抽出分離部)
2a 逆フィルタ
2b 第1逆フィルタ係数算出部
3 残差信号調整部(ピッチ調整部)
4 ホルマント/アンチホルマント調整部(声道特性調整部,第2声道特性調整部,第3声道特性調整部)
4a ホルマント/アンチホルマント推定部(推定部)
4b 増幅率算出部
4c スペクトル強調部
4d 第2フィルタ係数算出部
5 信号合成部
6 S/N比推定部
6a 音声/雑音判定部
6b フレームパワー算出部(パワー算出部)
6c 音声レベル算出部
6d 雑音レベル算出部
6e S/N比推定値算出部(音声品質推定値算出部)
6f メモリ
8 雑音時声道特性推定部
9 声道特性S/N比推定部(声道特性音声品質推定部)
10 音声強調処理部
15 携帯電話(通信端末)
15a マイク
15b 送話部
15c コーダ
15d データ処理部
15e 無線送受信部
15f デコーダ
15g 受話部
15h スピーカ
15i 主制御部
16 基地局
111 基準電力算出部
112 ホルマント増幅率算出部
113 補間関数算出部
114 増幅率算出部
115 増幅率修正部
116 雑音レベル比算出部
117 極小点決定部

Claims (5)

  1. 入力音声信号の音声を強調する音声強調装置であって、
    該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
    該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、音声強調装置。
  2. 該音声強調処理部が、
    該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離部と、
    該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて分離された該残差信号を強調し強調残差信号を出力する残差信号調整部と、
    該音声品質推定部にて推定された該音声品質推定値に基づいて、該信号抽出分離部にて抽出された声道特性を調整し調整声道特性を出力する声道特性調整部と、
    該残差信号調整部から出力された該強調残差信号と、該声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、請求項1記載の音声強調装置。
  3. 入力音声信号の音声を強調する音声強調装置であって、
    該入力音声信号が音声又は雑音を判定する音声/雑音判定部と、
    該入力音声信号から声道特性の抽出と残差信号の分離とを行なう信号抽出分離部と、
    該音声/雑音判定部からの判定結果に基づいて、該声道特性の雑音時における雑音時声道特性を推定する雑音時声道特性推定部と、
    該雑音時声道特性推定部にて推定された該雑音時声道特性に基づいて、該信号抽出分離部にて抽出された該声道特性を調整し調整声道特性を出力する第2声道特性調整部と、
    該信号抽出分離部にて分離された該残差信号と、該第2声道特性調整部から出力された該調整声道特性とを合成し合成信号を出力する合成部とをそなえて構成されたことを特徴とする、音声強調装置。
  4. 入力音声信号の音声を強調する音声強調方法であって、
    該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定ステップと、
    該入力音声信号から該声道特性の抽出と該残差信号の分離とを行なう信号抽出分離ステップと、
    該音声品質推定ステップにて推定された該音声品質推定値に基づいて、該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号の少なくとも一方を調整する調整ステップと、
    該信号抽出分離ステップにて抽出された該声道特性又は分離された該残差信号と、該調整ステップにて調整された該声道特性又は該残差信号とを合成し合成信号を出力する合成ステップとをそなえたことを特徴とする、音声強調方法。
  5. 音声信号を含む情報データを受信処理して該音声信号を抽出する受信部と、
    該受信部からの入力音声信号の音声を強調する音声強調装置とをそなえ、
    該音声強調装置が、
    該入力音声信号の音声品質を推定し音声品質推定値を出力する音声品質推定部と、
    該音声品質推定部にて出力された該音声品質推定値に基づいて、該入力音声信号の声道特性の調整と該入力音声信号の残差信号の強調とのうちの少なくとも一方の処理を変更する音声強調処理部とをそなえて構成されたことを特徴とする、通信端末。
JP2004151099A 2004-05-20 2004-05-20 音声強調装置,音声強調方法および通信端末 Withdrawn JP2005331783A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004151099A JP2005331783A (ja) 2004-05-20 2004-05-20 音声強調装置,音声強調方法および通信端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004151099A JP2005331783A (ja) 2004-05-20 2004-05-20 音声強調装置,音声強調方法および通信端末

Publications (1)

Publication Number Publication Date
JP2005331783A true JP2005331783A (ja) 2005-12-02

Family

ID=35486483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004151099A Withdrawn JP2005331783A (ja) 2004-05-20 2004-05-20 音声強調装置,音声強調方法および通信端末

Country Status (1)

Country Link
JP (1) JP2005331783A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145940A (ja) * 2006-12-13 2008-06-26 Yamaha Corp 音声評価装置及び音声評価方法
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
KR101010852B1 (ko) * 2007-07-11 2011-01-26 야마하 가부시키가이샤 음성 프로세서 및 통신 단말 장치
JP2011133522A (ja) * 2009-12-22 2011-07-07 Oki Electric Industry Co Ltd 背景雑音レベル推定装置、方法及びプログラム
CN113823319A (zh) * 2015-06-17 2021-12-21 汇顶科技(香港)有限公司 改进的语音可懂度

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008145940A (ja) * 2006-12-13 2008-06-26 Yamaha Corp 音声評価装置及び音声評価方法
JP4595934B2 (ja) * 2006-12-13 2010-12-08 ヤマハ株式会社 音声評価装置及び音声評価方法
KR101010852B1 (ko) * 2007-07-11 2011-01-26 야마하 가부시키가이샤 음성 프로세서 및 통신 단말 장치
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
JP2011133522A (ja) * 2009-12-22 2011-07-07 Oki Electric Industry Co Ltd 背景雑音レベル推定装置、方法及びプログラム
CN113823319A (zh) * 2015-06-17 2021-12-21 汇顶科技(香港)有限公司 改进的语音可懂度
CN113823319B (zh) * 2015-06-17 2024-01-19 汇顶科技(香港)有限公司 改进的语音可懂度

Similar Documents

Publication Publication Date Title
CN100369111C (zh) 话音增强装置
JP4836720B2 (ja) ノイズサプレス装置
JP3963850B2 (ja) 音声区間検出装置
JP4968147B2 (ja) 通信端末、通信端末の音声出力調整方法
JP4018571B2 (ja) 音声強調装置
JP5127754B2 (ja) 信号処理装置
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
JP4649546B2 (ja) 補聴器
JPH09204196A (ja) 雑音抑圧器及び移動局並びに雑音抑圧方法
JP2007522706A (ja) オーディオ信号処理システム
JP2000347688A (ja) 雑音抑圧装置
US20110054889A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
JP6073456B2 (ja) 音声強調装置
US20140244245A1 (en) Method for soundproofing an audio signal by an algorithm with a variable spectral gain and a dynamically modulatable hardness
US20050187762A1 (en) Speech decoder, speech decoding method, program and storage media
EP1242992B1 (en) A noise suppressor
JP2000122695A (ja) 後置フィルタ
JP2008309955A (ja) ノイズサプレス装置
JP2005331783A (ja) 音声強調装置,音声強調方法および通信端末
JP4227421B2 (ja) 音声強調装置および携帯端末
JP2006113515A (ja) ノイズサプレス装置、ノイズサプレス方法及び移動通信端末装置
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
KR100746680B1 (ko) 음성 강조 장치
JP4269364B2 (ja) 信号処理方法及び装置、並びに帯域幅拡張方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070807