JP4112027B2

JP4112027B2 - 再生成位相情報を用いた音声合成

Info

Publication number: JP4112027B2
Application number: JP03403096A
Authority: JP
Inventors: ダニエル・ウエイン・グリフィン; ジョン・シー・ハードウィック
Original assignee: Digital Voice Systems Inc
Current assignee: Digital Voice Systems Inc
Priority date: 1995-02-22
Filing date: 1996-02-21
Publication date: 2008-07-02
Anticipated expiration: 2016-02-21
Also published as: CN1136537C; AU704847B2; CA2169822C; CN1140871A; JP2008009439A; KR100388388B1; TW293118B; US5701390A; JPH08272398A; KR960032298A; AU4448196A; CA2169822A1

Description

【０００１】
【発明の属する技術分野】
本発明は、低から中レートの効率的な符号化（エンコード）および復号化（デコード）を促進する音声を表現する方法に関するものである。
【０００２】
【従来の技術】
最近の刊行物には、Ｊ．Ｌ．フラナガン(J.L.Flanagan)による、位相ボコーダ−周波数−基礎音声解析−合成システムについて論じている「音声解析(Speech Analysys)」、「合成と知覚(Synthesis and Perception)」、スプリンガーフェアラグ(SpringerVerlag)、1972,pp.378386；ジャヤント（Jayant et al.）等による、一般的な音声符号化について論じている「波形のデジタル符号化（Digital Coding of Waveforms）」、プレンティス−ホール（PrenticeHall）、1984；正弦波処理方法（sinusoidal prosessing method）について開示している米国特許番号４，８８５，７９０号公報；正弦波符号化法（sinusoidal coding method）について開示している米国特許番号５，０５４，０７２号公報；アルメイダ（Almeida et al.）等による、調和モデル化およびコーダ（Harmonic modelling and Coder）について開示している「有声音声の非静的モデル化（Nonstationary Modelling of Voiced Speech）」、IEEE TASSP,Vol.ASSP31,No.3 June 1983,pp664677;アルメイダ（Almeida et al.）等による、多項式音声合成方法（Polynomial voiced synthesis method）について開示している「可変周波数合成：改善された調和符号化法（VariableFrequency Synthesis:An Improved Harmonic Coding Scheme）」、IEEE Proc. ICASSP 84、pp27.5.127.5.4；クァティエリ（Quatieri et al.）等による、正弦波表現に基づいた解析合成技術（analysissynthesis technique based on a sinusodial representation）について開示している「正弦波表現に基づいた音声変換（Speech taransformations Based on a Sinusodial Representation）」、IEEE TASSP,Vol,ASSP34,No.6,Dec.1986,pp.14491986；マクオーレイ等による、正弦波変換音声コーダ（the sinusoidal transform speech coder）について開示している「音声の正弦波表現に基づいた中間レート符号化（Midrate Coding Based on a Sinusodial Representation of speech）」、Proc.ICASSP 85,pp.945948, Tampa, FL.,March 2629,1985；グリフィンによる、マルチバンド励起（ＭＢＥ）音声モデルおよび8000bpsＭＢＥ音声コーダについて開示している「マルチバンド励起ボコーダ（Multiband Excitation Vocoder）」,Ph.D.Thesis,M.I.T, 1987；ハードウィック（Hardwick）による、4800bpsマルチバンド励起音声コーダについて開示している「4.8kbpsマルチバンド励起コーダ」,SM. Thesis, M.I.T, May 1988;米国電気通信工業会（ＴＩＡ）による、ＡＰＣＯプロジェクト２５標準に対する7.2kbpsＩＭＢＥ音声コーダについて開示している「ＡＰＣＯプロジェクト２５ボコーダ記述（Apco Project 25 Vocoder Description）」,Version 1.3, July 15,1993,IS102BABA;ＭＢＥのランダム位相合成（ＭＢＥ random quantaization）について開示している米国特許番号５，０８１，６８１号公報；ＭＢＥチャネルエラー緩和法およびフォーマット増大法について開示している米国特許番号５，２４７，５７９号公報；ＭＢＥ量子化とエラー緩和法について開示している米国特許番号５，２２６，０８４号公報がある。これらの出版物の内容は、本明細書において参照されている。（ＩＭＢＥはデジタルボイスシステム社（Digital Voice Systems, Inc.）の商標である。）
【０００３】
音声の符号化（以下、エンコードと称す。）および復号化（以下、デコードと称す。）の問題点は、多くの用途を有し、このために広範囲に研究されてきた。多くの場合、音声の品質すなわち明瞭さを損なうことなく音声信号を表現するのに必要なデータレートを減少させることが要求される。この問題は、一般に「音声圧縮（speech compression）」と言われているが、音声コーダあるいはボコーダにより解決される。
【０００４】
音声コーダは一般的に２つの部分の処理として見られる。第１部分は、一般的にエンコーダと言われている、Ａ／Ｄ変換器を介してマイクロホンの出力を通過させることにより生成されるもののような音声のデジタル表現で始まり、圧縮されたビットストリームを出力する。第２部分は、一般的にデコーダと言われている、圧縮されたビットストリームを、Ｄ／Ａ変換器およびスピーカを介して再生するために適した音声のデジタル表現に変換する。多くの利用において、エンコーダおよびデコーダは物理的に分離されており、ビットストリームは通信チャネルを介して、それらの間を伝送される。
【０００５】
音声コーダの重要なパラメータは、それが達成する圧縮の量であり、それはそのビットレートを介して測定される。達成された現実の圧縮ビットレートは、一般的に所望の忠実さ（すなわち、音声の品質）および音声のタイプの関数である。異なるタイプの音声コーダが、高レート（８kbps以上）、中レート（３〜８kbps）、低レート（３kbps以下）で動作するように設計されてきた。最近、中レートの音声コーダは、広範囲の移動通信の利用（セルラ電話、衛星電話、地上移動ラジオ、飛行機電話等）において、強い関心が持たれてきた主題である。これらの利用は、代表的に高い品質の音声と、聴覚雑音やチャネル雑音（ビットエラー）により引き起こされる物（artifacts）に対する堅固さとを必要とする。
移動通信に対する高い適性が示されてきた音声コーダの１つのクラスは、基本的な音声のモデルに基づいている。このクラスからの例は、線形な予想ボコーダ、準同型ボコーダ（homomorphic vocoder）、正弦波変換ボコーダ、マルチバンド励起音声コーダおよびチャネルボコーダを含む。これらのボコーダにおいて、音声は、短いセグメント（代表的には１０−４０ｍｓ）に分割され、また各セグメントは１組のパラメータにより特徴づけられる。これらのパラメータは代表的に、各音声セグメントのピッチ、発声状態およびスペクトルの包絡線を含む少数の基礎的要素を表す。モデルを基礎とした音声コーダは、これらのパラメータのそれぞれに対する周知のいくつかの表現の１つを利用することができる。例えば、ピッチは、ピッチ期間、基本周波数あるいはＣＥＬＰコーダにおいてのように長い期間の予想遅延として表現されれもよい。同様に、発声状態は、１つかあるいはそれ以上の、有声／無声の決定、発声可能性の測定を介して、あるいは確率的なエネルギーに対する期間の割合により表現される。スペクトルの包絡線は、全極フィルタ応答（ＬＰＣ）によりしばしば表現されるが、１組の調波の振幅あるいは他のスペクトル測定により同等に特徴づけられてもよい。通常は、少数パラメータのみが音声セグメントを表現するために必要であるが、モデルを基礎とした音声コーダは代表的には、中から低レートで動作することができる。しかしながら、モデルを基礎としたシステムの品質は、基礎モデルの正確さに依存する。それ故、これらの音声コーダが高い音声品質を達成するためには、高い正確さを有するモデルが使用されなければならない。
【０００６】
良質な音声を提供し、中から低ビットレートでよく動作する前述してきた１つの音声モデルは、グリフィンとリムにより開発されたマルチバンド励起（ＭＢＥ）音声モデルである。このモデルは、より自然に聞こえる音声を生成可能とし、音響背景雑音の存在に対しより堅固にする、柔軟な音声構造を使用している。これらの特性により、ＭＢＥ音声モデルが商業的な移動通信の用途において採用されてきた。
【０００７】
ＭＢＥ音声モデルは、基本周波数、１組のバイナリの有声／無声（Ｖ／ＵＶ）決定および１組の調波の振幅を使用して、音声のセグメントを表す。より古典的なモデルに対するＭＢＥモデルの初期の利点は、発声表現の中にある。ＭＢＥモデルは、セグメント毎に古典的な単一のＶ／ＵＶを１組の決定に一般化し、それぞれは特定の周波数バンド内の発声状態を表現する。この音声モデルにおける柔軟性の追加により、ＭＢＥモデルは、摩擦音のような混合された音声によりよく適応する。さらに、この追加の柔軟性により、背景の音響雑音により汚れた音声をより正確に表現する。多方面にわたる試験により、この一般化が改善された有声音の品質と正確さを結果として生ずることが示された。
【０００８】
音声コーダに基づいたＭＢＥのエンコーダは、各音声セグメントに対する１組のモデルパラメータを評価する。ＭＢＥモデルパラメータは、相互のピッチ期間である基本周波数と、発声状態を特徴づける１組のＶ／ＵＶ決定と、スペクトルの包絡線を特徴づける１組のスペクトル振幅（強度）とからなる。かつて、ＭＢＥモデルパラメータが各セグメントに対して評価されてきた、それらは、エンコーダで量子化され、１フレームのビットが生成される。それから、これらのビットは、任意にエラー訂正／検出コード（ＥＣＣ）により保護され、次に結果ビットストリームは対応するデコーダに転送される。デコーダは、受信ビットストリームを個々のフレームに変換し、選択的エラー制御デコードを実行し、ビットエラー補正および／または検出を行う。次に結果ビットは、それからデコーダが、オリジナルを認識できるほどに近い音声信号を合成するＭＢＥモデルパラメータを再構築するために使用される。実践において、デコーダは、分離された有声および無声の成分を合成し、２つの成分を追加し、最終的な出力を生成する。
【０００９】
【発明が解決しようとする課題】
ＭＢＥに基づいたシステムにおいて、スペクトルの振幅は、評価された基本周波数の各調波でのスペクトルの包絡線を表現するために用いられる。代表的には、各調波は、対応する調波を含む周波数バンドが有声であると断定するか、無声であると断定するかに依存して、有声かあるいは無声かに分類される。エンコーダは、各調波の周波数に対するスペクトル振幅を評価し、ＭＢＥはシステムの従来技術において、異なる振幅評価装置が、有声に分類されるか無声に分類されるかに依存して使用される。デコーダで、有声および無声の調波が再度認識され、分離された有声および無声成分は、異なる手順を用いて合成される。無声成分は、ホワイトノイズ信号をフィルタするために、重みつき重ね合わせ付加法（a weighted overlapadd method）を用いて合成される。フィルタは、有声と断定される全周波数領域をゼロにセットし、さもなければ、無声と分類されたスペクトル振幅を調和する。有声成分は、有声に分類された各調波に割り当てられたオシレータにより、同調させたオシレータバンクを用いて合成される。瞬間の振幅、周波数および位相が補間され、隣接するセグメントで対応するパラメータを調和する。高機能を提供するためにＭＢＥに基づいた音声コーダが示されてきたが、音声品質において劣化を引き出すという複数の問題が認識されてきた。リスニング試験により、周波数領域において、合成された信号の大きさと位相の両方が、高い音声品質と正確さを得るために慎重に制御されなければならないことが立証された。スペクトル強度における加工物（artifacts）は広範囲の効果を有し得るが、中から低ビットレートでの１つの一般的な問題は、消音品質の導入および／または、音声の知覚される鼻音性の増大である。これらの問題は、たいてい、強度の再構築における重大な量子化エラー（少なすぎるビットにより引き起こされる）の結果である。音声フォルマントに対応するスペクトル強度を増大する音声フォルマント増大法は、残りのスペクトル強度を減衰しながら、これらの問題を解決しようとするために採用されてきた。これらの方法は、知覚される品質をある点まで改善するが、やがては、それらが導くひずみが非常に大きくなり、品質が悪化し始める。
【００１０】
性能は、デコーダが有声音声成分の位相を再生成しなければならないという事実により引き起こされる位相加工物の導入により、しばしば、さらに低減される。低から中データレートにおいては、エンコーダとデコーダの間で任意の位相情報を転送するのに十分なビットでない。結果として、エンコーダは、実際の信号位相を無視し、デコーダは、自然に聞こえる音声を生成するための方法において、人工的に有声位相を再生成しなければならない。
【００１１】
広範囲の実験は、再生成された位相が知覚品質において重大な効果を有することを示した。位相を再生成する初期の方法は、初期位相のいくつかの組からの単純な統合された調波の周波数を含んでいた。この処理は、有声成分がセグメントの境界で連続であったということを立証した。しかしながら、高品質音声を生ずる初期位相の１組を選択することは、問題のあることがわかった。もし、初期位相をゼロに設定すれば、生ずる音声は、「ぶんぶんいう音」と判断され、もし、初期位相がでたらめに決められたら、音声は「反響音」と判断される。聞き取り試験は、有声成分が音声を支配する場合は、でたらめさはより少ないのが好ましく、無声成分が音声を支配する場合は、位相のでたらめさがより多いのが好ましいことを示した。結果として単純な有声率が、この方法で位相のでたらめさの量を制御するために計算された。有声であることに従属したランダム位相は、多くの用途に対し適していることが示されたが、聞き取り試験は、まだ有声の成分位相に対するいくつかの品質の問題を追従した。試験は、音声の品質が、ランダム位相の利用をやめ、その代わりに個々に各調波の周波数で、実際の音声により近くなるように位相を制御することにより、大幅に改善され得たことを立証した。
【００１２】
そこで、本発明は、この事実に基づき、低から中レートの効率的な符号化（エンコード）および復号化（デコード）を促進する、音声を表現する方法または装置を提供することを目的とする。
【００１３】
【課題を解決するための手段】
本発明に係る音声合成方法は、音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と発声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する方法であって、前記合成デジタル音声信号のデコードおよび合成する方法は、前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供するステップと、前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定するステップと、前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定するステップと、前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成するステップと、少なくとも１つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成するステップと、有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成するステップとからなる。
【００１４】
本発明に係る音声合成装置は、音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と音声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する装置であって、前記合成デジタル音声信号のデコードおよび合成する前記装置は、前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供する手段と、前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定する手段と、前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定する手段と、前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成する手段と、少なくとも１つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成する手段と、有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成する手段とからなる。
【００１５】
好ましくは、前記方法または前記装置において、それから合成音声信号が合成される前記デジタルビットは、スペクトル包絡線情報と発声情報を表すビットと、基本周波数情報を表すビットとからなる。
【００１６】
好ましくは、前記方法または前記装置において、前記スペクトル包絡線情報は、複数の前記音声信号の基本周波数の調波でのスペクトル強度を表す情報からなる。
【００１７】
好ましくは、前記方法または前記装置において、前記スペクトル強度は、周波数バンドが有声であるか無声であるかに依存せず、スペクトル包絡線を表す。
【００１８】
好ましくは、前記方法または前記装置において、前記再生成されたスペクトル位相情報は、それが関係した複数の調波の付近でのスペクトル包絡線の形状から決定される。
【００１９】
好ましくは、前記方法または前記装置において、前記再生成されたスペクトル位相情報は、端検出カーネルを前記スペクトル包絡線の表現に適用することにより決定される。
【００２０】
好ましくは、前記方法または前記装置において、前記端検出カーネルが適用される前記スペクトル包絡線の表現は、圧縮される。
【００２１】
好ましくは、前記方法または前記装置において、前記合成音声信号の無声音声成分は、でたらめな雑音信号に対するフィルタ応答から決定される。
【００２２】
好ましくは、前記方法または前記装置において、前記有声音声成分は、前記基本周波数と再生成されたスペクトル位相情報から決定される特性を持った正弦波発信器のバンクを使用することにより、少なくとも部分的に決定される。
【００２３】
第１態様において、本発明は、音声合成において有声成分を再生成する改善された方法を備える。位相は、有声成分のスペクトルの包絡線から評価される（例えば、有声成分の近くのスペクトルの包絡線の形状から）。デコーダは、スペクトルの包絡線および複数のフレームのそれぞれに対する発声情報を再構築し、また発声情報は、特定のフレームに対する周波数バンドが有声か無声であるかを決定するために使用される。音声成分は、再生成スペクトル位相情報を使用して有声周波数バンドに対して合成される。無声周波数バンドに対する成分は、例えば、ランダム雑音信号に対するフィルタ応答からの他の技術を用いて生成される。ここで、フィルタは、無声周波数バンドにおいて近似的なスペクトル包絡線、および有声周波数バンドにおいて近似的にゼロの大きさを有している。
【００２４】
好ましくは、合成音声信号を合成するデジタルビットは、基本周波数情報を表現するビットを含み、またスペクトルの包絡線情報は、複数の基本周波数の調波でのスペクトルの大きさからなる。発声情報は、各周波数バンド（およびバンド内の各高調波）を、有声か無声か分類するために使用され、また有声バンド内の調波に対して、個々の位相は、調波の周波数周辺に位置するスペクトルの包絡線（スペクトル強度により表わされるスペクトル形状）の関数として再生成される。
【００２５】
好ましくは、スペクトル強度は、周波数バンドが有声か無声かどうかには依存せず、スペクトルの包絡線を表す。再生成スペクトル位相情報は、スペクトルの包絡線の表現に対する端検出カーネルを用いることにより決定され、また端検出カーネルが用いられているスペクトルの包絡線の表現は圧縮される。音声成分は、正弦波発振器のバンクを使用して、少なくとも部分的に決定される。ここで、発振器の特性は、基本周波数および再生成されたスペクトル位相情報から決定される。
【００２６】
本発明は、従来技術に関するpeaktorms値の点から実際の音声に近似的により近く合成音声を生成し、それにより改善されたダイナミックレンジを生ずる。さらに、合成音声は、より自然に知覚され、より少ないひずみに関係した位相を示す。
【００２７】
本発明の他の特徴および利点は、以下の実施の形態および請求の範囲の記述により明らかになるであろう。
【００２８】
【発明の実施の形態】
以下に、本発明の実施の形態の詳細な説明を行う。
【００２９】
実施の形態１．
本発明の好ましい実施の形態が、新しいＭＢＥに基づいた音声コーダにおいて説明されている。このシステムは、移動衛星、セルラ電話、地上移動ラジオ（ＳＭＲ、ＰＭＲ）等のような移動通信の用途を含む広範囲の環境に対し応用できる。この新しい音声コーダは、標準ＭＢＥ音声モデルと、モデルパラメータとこれらのパラメータから音声を合成するための新規の解析／合成手順とを結合する。新しい方法は、音声品質を改善し、エンコードに必要なビットレートを低くし、音声信号を転送する。本発明は、この特定のＭＢＥに基づく音声コーダにおいて説明されているが、ここで開示された技術と方法は、当業者によれば本発明の真意と範囲から離れることなしに、すぐに他のシステムや技術に対しても利用できる。
【００３０】
新しいＭＢＥに基づく音声コーダにおいて、８ｋＨｚでサンプリングされたデジタル音声信号は、ハミングウインドウ（Hamming window）のような短いウインドウ関数（２０−４０ｍｓ）によるデジタル音声信号を多重化することにより、最初に重なったセグメントに分割される。フレームは、代表的に２０ｍｓ毎に計算され、各フレームに対しては、基本周波数と発声決定が計算される。新しいＭＢＥに基づく音声コーダにおいて、これらのパラメータは、発明の名称が「励起パラメータの評価」である審査中の米国特許出願、０８／２２２，２２９号および０８／３７１，７４３号に記述されている新しい改善された方法に従って計算される。または、基本周波数と発声決定が、「APCO Project25 Vocoder」と名付けられたＴＩＡ暫定標準IS102BABAに記述されているように計算される。両方の場合において、少数の発声決定（代表的には、１２かそれ以下）が、各フレーム内で異なる周波数バンドの発声状態をモデル化するために使用される。例えば、３．６ｋｂｐｓ音声コーダにおいて、代表的には、８個の有声／無声決定（以下、Ｖ／ＵＶ決定と称す。）が、０から４ｋＨｚの間で８つの異なる周波数バンドに対する発声状態を表すために使用される。
【００３１】
ｓ(ｎ)は、不連続な音声信号を表すとし、ｉ番目のフレームに対する音声スペクトル、Ｓ_w(ω，ｉ・Ｓ)は、以下の式に従い計算される。
【数１】

ここで、ω(ｎ)はウィンドウ関数であり、Ｓはフレームサイズであり、代表的には２０ｍｓである（８ｋＨｚで１６０サンプル）。ｉ番目のフレームに対する評価された基本周波数および発声決定は、それぞれ１≦ｋ≦Ｋに対してω₀(ｉ・ｓ)とｖ_k(ｉ・ｓ)として表わされる。ここでＫは、Ｖ／ＵＶ決定（代表的にはＫ＝８）の合計数である。表記上の簡単化から、フレームインデックスｉ・ｓは、現状のフレームを参照するときに省略でき、ここで、Ｓ_w(ω)、ω₀およびｖ_kは、それぞれ、現状のスペクトル、基本周波数、および発声決定を示している。
【００３２】
ＭＢＥシステムにおいて、スペクトルの包絡線は、代表的には、音声スペクトルＳ_w(ω)から評価される１組のスペクトル振幅として表される。スペクトル振幅は、代表的には、各調波周波数（すなわち、ω＝ω₀l、l＝0,1,...）で計算される。従来技術のＭＢＥシステムにはないが、本発明は、発声状態に依存しないこれらのスペクトル振幅を評価する新しい方法を備える。これは、不連続性がなくなるために、よりなめらかなスペクトル振幅の組を生じ、またそれは、音声遷移が生じた時はいつでも、従来技術のＭＢＥにおて正常に存在する。本発明は、局所スペクトルエネルギーの正確な表現を提供するさらなる利点を備え、それらにより知覚される音の大きさを保存する。さらに、発明は、局所スペクトルエネルギーを保存し、高効率高速フーリエ変換（ＦＦＴ）により、正常に採用された周波数サンプリング点の効果を補償する。これはまた、スペクトル振幅のなめらかな組を達成するのに貢献する。なめらかさは、量子化効率を増加させ、チャネルエラーの緩和と同様に、よりよきフォルマントを増大（すなわち、前段フィルタリング）させるということから、全体の性能に対して重要である。
【００３３】
スペクトルの大きさのなめらかな組を計算するために、有声と無声音声の特性を考慮する必要がある。有声音声に対して、スペクトルエネルギー（すなわち、｜Ｓ_w（ω）｜²）は、調波周波数付近に集中し、無声音声に対して、スペクトルエネルギーは、より一様に分配される。従来技術のＭＢＥシステムにおいて、無声スペクトル強度が、各対応する調波周波数付近に集中した周波数間隔（代表的には、予想された基本周波数に等しい）に対する、平均のスペクトルエネルギーとして計算される。反対に、従来技術のＭＢＥシステムにおいて、有声スペクトル強度は、同じ周波数間隔において、全スペクトルエネルギーのいくつかの端数（たいてい、１）に等しくなるよう設定される。平均エネルギーと全エネルギーは、大きく異なるため、特に周波数間隔が広い（すなわち、大きな基本周波数）場合は、発声状態間で遷移する調波を連続させる時はいつでも、不連続性が、しばしばスペクトルの大きさにおいて導かれる（すなわち、有声から無声、あるいは無声から有声に）。
【００３４】
従来技術のＭＢＥシステムに見られる前記の問題を解決することができる１つのスペクトル強度の表現は、対応する間隔内の平均のスペクトルエネルギーあるいは全スペクトルエネルギーとしての各スペクトル強度を表すことである。これらの両解決策は、発声遷移での不連続性を除去し、高速フーリエ変換（ＦＦＴ）あるいは不連続フーリエ変換（ＤＦＴ）のようなスペクトル変換が結合された時、他の変化を導くであろう。実際には、ＦＦＴは、ＦＦＴの長さＮ（代表的には、２のべき乗）で決定される単一のサンプリング点上で、Ｓ_w(ω)を評価するために使用される。例えば、Ｎ点のＦＦＴは、次式で示されるように、０から２π間のＮ周波数サンプルを生ずる。
【数２】

好ましい実施の形態において、スペクトルは、Ｎ＝２５６でＦＦＴを使用することにより計算され、ω(ｎ)は代表的には、表１に示された２５５点の対称なウインドウ関数に等しく設定される。
【００３５】
その複雑さの低さから、スペクトルを計算するためにＦＦＴを使用することが望まれる。しかしながら、結果として生ずるサンプリング間隔２π／Ｎは、一般的には、多重化された基本周波数の逆数にならない。結果として、任意の２つの連続した調波周波数間のＦＦＴサンプルの数は、調波間では一定にならない。もし、平均スペクトルエネルギが調波の大きさを表すために使用された場合、集中したスペクトル分布を有する有声の調波は、各平均値の計算に用いられるＦＦＴサンプル数が変化することによる調波間の変動を経験する。同様に、もし全スペクトルエネルギーが、調波の大きさを表すために使用された場合、より一様なスペクトル分布を有する無声の調波は、全エネルギーが計算されるＦＦＴサンプル数が変化することによる調波間の変動を経験する。両方の場合において、ＦＦＴから利用できる少数の周波数サンプルは、特に基本周波数が小さい時に、スペクトル強度の急激な変動を導く。
【００３６】
本発明は、全スペクトル強度に対して、発声変移の不連続性を除去するため、補償された全エネルギー法を用いる。本発明の補償された方法は、また、変動に関係したＦＦＴが、有声または無声の大きさのどちらかをひずませることを防止する。特に、本発明は、次式に従って計算されるＭ_l（０≦l≦Ｌ）により示される現行のフレームに対するスペクトル強度の組を計算する。
【数３】

この式から、各スペクトル強度はスペクトルエネルギー｜Ｓ_w(ｍ)²｜の重みづけられた合計として計算される、そこでは、重みづけ関数は、各特定のスペクトル強度に対して調波周波数により、オフセットとなる。重みづけ関数Ｇ（ω）は、調波周波数ｌω₀と、２πｍ／Ｎで起こるＦＦＴ周波数サンプルとの間のオフセットを補償するために決定される。この関数は、各フレームが変化し、以下のように評価された基本周波数を反映する。
【数４】

このスペクトル強度表現の１つの変化する特性は、有声と無声の両調波に対する局所的なスペクトルエネルギー｜Ｓ_w(ｍ)²｜に基づいているということである。スペクトルエネルギーは、それが音声信号の位相により影響されることなしに相対的な周波数の中身と音の大きさの情報を運ぶため、一般的に人間が音声を知覚する方法に近い近似であると考えられている。新しい強度の表現が発声状態に依存しないため、表現において、有声と無声領域間の遷移による、あるいは有声と無声エネルギの混合による、変動あるいは不連続性がない。重み関数Ｇ(ω)は、さらに、ＦＦＴサンプリング点による任意の変動を除去する。これは、評価された基本周波数の調波間で測定されたエネルギーを、なめらかになるように補間することにより達成される。式（４）に開示された重みづけ関数のさらなる利点は、音声における全エネルギーがスペクトル強度の中に保存されるということである。これは、スペクトル強度の組において、全エネルギーに対する以下の式を確かめることにより、より明確になる。
【数５】

この式は、０≦ｍ≦Ｌω₀Ｎ／(２π)の間隔で、Ｇ(２πｍ／Ｎ−ｌω₀)の総和を１と等しいことにすることにより、単純化することができる。これは、スペクトル強度におけるエネルギーが音声スペクトルにおけるエネルギーに等しいために、音声の全エネルギーがこの間隔で保存されることを意味する。式（５）の分母が、式（１）に従ってＳ_w(ｍ)を計算する時に用いられるウインドウ関数ω(ｎ)を単純に補償することに注意すべきである。もう１つの重要な点は、表現のバンド幅がＬω₀の積に依存することである。実際において、望まれるバンド幅は、たいてい、πで表現されるナイキスト周波数のいくつかの関数になる。結果として、スペクトル強度の合計数Ｌは、現行フレームに対する予想された基本周波数の基礎礎周波数に反比例し、代表的には次式で表現される。
Ｌ＝απ／ω₀ （６）
ここで、０≦α＜１である。８ｋＨｚのサンプリングレートを用いた３．６ｋｂｐｓシステムは、バンド幅が３７００Ｈｚになるα＝０．９２５で設計される。
【００３７】
前述した以外の重み関数は、式（３）においてもまた用いられる。事実、もし、式（５）における総計Ｇ(ω)がいくつかの効果的なバンド幅に対する定数（代表的には１）に近似的に等しい場合、全パワーが保持される。式（４）で与えられる重み関数は、サンプリング点により導かれる任意の変化をなめらかにするＦＦＴサンプリング間隔(２π／Ｎ)に対する線形補間を用いる。別の方法として、２次のあるいは他の補間法を、本発明の範囲から離脱することなしに、Ｇ(ω)内に組み込むことも可能である。
【００３８】
本発明は、ＭＢＥ音声モデルの２値的なＶ／ＵＶ決定の点から記述されているが、本発明は、発声情報に対する代わりの表現を用いたシステムにもまた利用できる。例えば、正弦波コーダにおける普及している１つの表現は、カットオフ周波数によって発声情報を表すことである。そこでは、スペクトルは、このカットオフ周波数より下では有声で、それより上では無声であると考えられている。
【００３９】
本発明は、ＦＦＴサンプリング点により引き起こされる発声の変移と変化の不連続性を阻止することにより、大きさの表現のなめらかさを改善する。なめらかさの増加が、少数ビットによるスペクトル強度の正確な量子化を促進するということは、情報理論によりよく知られている。３．６ｋｂｐｓのシステムにおいて、７２ビットが、各２０ｍｓフレームに対するモデルパラメータを量子化するために用いられる。７ビットが基本周波数を量子化するために用いられ、８ビットが８つの異なる周波数バンド（それぞれ、近似的に５００Ｈｚ）におけるＶ／ＵＶ決定をコード化するために用いられる。フレーム当たりの残りの５７ビットが、各フレームに対するスペクトル強度を量子化するために用いられる。異なるブロックの不連続余弦波変換（DCT:Discrete Cosine Transform）法は、スペクトル強度の対数に対し適用される。本発明において、なめらかさを増加することにより、より多くの信号パワーを緩やかに変化するＤＣＴ成分をまとめる。フレーム当たりの利用可能ビット数に対するより低いスペクトルのひずみを与えるこの効果を説明するためにビット割り当てと量子化ステップサイズが調整される。移動通信での利用において、移動チャネルに対する伝送の前のビットストリームに対するさらなる余剰を含むことが、しばしば望まれる。この余剰は、代表的には、ビットエラーが伝送する間に導かれるビットエラーが訂正および／または検出されるような方法で、ビットストリームに対してさらなる余剰を追加するエラー訂正および／またはコード検出により生成される。例えば、４．８ｋｂｐｓ移動衛星での利用において、１．２ｋｂｐｓの余剰データが３．６ｋｂｐｓの音声データに追加される。１つの[２４，１２]のゴレイコード（Golay Code）と３つの[１５，１１]のハミングコード（Hamming Code）の組み合わせが、各フレームに追加される２４の余剰ビットを生成するために使用される。たたみこみ（convolutional）、ＢＣＨ、リード−ソロモン（ReedSolomon）等のような他の多くのエラー訂正コードもまた、エラーの強固さを変化させ仮想的に任意のチャネルの状態に対応させるために用いることができる。
【００４０】
受信機において、デコーダは、送信されてきたビットストリームを受信し、各フレームに対してモデルパラメータ（基本周波数、Ｖ／ＵＶ決定およびスペクトル強度）を再構築する。実際において、受信したビットストリームが、チャネル内の雑音によるビットエラーを含んでも良い。結果として、エラーにおいて、Ｖ／ＵＶビットが、有声強度が無声として、すなわち逆に解釈されながら、デコードされてもよい。本発明は、強度それ自身を発声状態に依存しないため、これらの音声エラーからの知覚されたひずみを減少する。本発明の他の利点は、受信機でのフォルマント増大時に生ずる。実験により、もし、フォルマントのピークでのスペクトル強度がフォルマントの谷でのスペクトル強度に関連して増加するならば、知覚される品質が増加することが示された。この処理は、量子化時に導かれるフォルマントの広がりのいくつかを逆転する傾向にある。その時、音声は、より「ばりばり」するように聞こえ、反響音はより少なくなる。実際には、スペクトル強度は、それらが局所的な平均値より大きい場合に増加し、局所的な平均値より小さい場合には減少する。望ましくないが、スペクトル強度の不連続性は、見せかけの増加あるいは減少を導きながら、フォルマントとして現れ得る。本発明の改善されたなめらかさは、改善されたフォルマントの増大を導き、見せかけの変化を減少するこの問題を解決する。
【００４１】
以前のＭＢＥシステムのように、新しいエンコーダに基づくＭＢＥは、任意のスペクトル位相情報の評価あるいは伝送を行わない。結果として、新しいデコーダに基づくＭＢＥは、有声音声合成の間、全有声調波に対する合成位相を再生成しなけらばならない。発明は、実際の音声に、より近似させる位相生成法に依存した新しい強度を備え、音声品質を全体を改善する。有声の成分においてでたらめな位相を使用する従来技術は、スペクトル包絡線の局所的ななめらかさの測定により、置き換えられる。このことは、スペクトル位相が極とゼロ位置に依存する線形システム理論により正当化される。実際には、以下の形式の端検出計算は、現行フレームに対するデコードされたスペクトル強度に適用される。
【数６】

ここで、パラメータＢ_lは圧縮されたスペクトル強度を表し、ｈ(ｍ)は適当にスケールされた端検出カーネルである。この方程式の出力は、有声の調波間の位相関係を決定する再生成された位相値の組φ_lである。これらの値は、発声状態にかかわらず、全ての調波に対して定義されていることに注意すべきである。しかしながら、ＭＢＥに基づくシステムにおいて、有声の合成手順はこれらの位相値を使用し、無声合成手順はそれらを無視する。実際には、再生成された位相値は、以下により詳細に説明するように（式（２０）参照）、次のフレームを合成する間に使用されてもよいため、全調波に対して計算され、格納される。
【００４２】
圧縮された強度パラメータＢlは、一般的に、ダイナミックレンジを減少するために、スペクトル強度Ｍ_lを圧伸関数（a compamding function）に渡すことにより計算される。さらに、外挿法が実行され、強度表現の端（すなわち、ｌ≦０およびl＞Ｌ）を越えたさらなるスペクトル値を生成する。スペクトル強度Ｍ_l（すなわち、その音の大きさすなわちボリューム）の任意の全体のスケーリングを付加的なオフセットＢ_lに変換するという理由から、１つの特別な適当な圧縮関数は対数である。式（７）のｈ(ｍ)がゼロ平均と仮定すると、このオフセットは、無視され、再生成された位相値φ_lは、スケーリングに依存しない。実際にlog₂は、デジタル計算機において簡単に計算できるため、使用されてきた。このことは、Ｂ_lに対する次式を導く。
【数７】

ｌ＞Ｌの時のＢ_lの外挿値は、表現されたバンド幅より高い調波の周波数でのなめらかさを強調するために設計される。γ＝０．７２の値が、３．６ｋｂｐｓシステムで使用されてきたが、一般的に、高い周波数成分が低周波数成分ほど全体の音声に対して貢献していないために、この値が臨界であるとは考えられていない。聞き取り試験は、ｌ≦０の時、Ｂ_lの値が、知覚品質において、重大な効果を持ち得ることを示した。ｌ＝０での値は、電話通信のような多くの応用においてＤＣ応答がないために、小さい値に設定された。さらに聞き取り試験は、正あるいは負の極端のどちらに対しても、Ｂ₀＝０が好ましいことを示した。対称な応答Ｂ_l＝Ｂ_lの利用は、聞き取り試験に基づくのと同様にシステム理論にも基づいていた。
【００４３】
適当な端検出カーネルｈ(ｍ)の選択は、全体の品質に対して重要となる。形状とスケーリングの双方とも、音声合成において使用される位相変数φ_lに影響する。しかしながら、広範囲の可能なカーネルがうまく採用された。一般的に、よく設計されたカーネルを導くいくつかの束縛が見出されてきた。特に、ｍ＞０でｈ(ｍ)≧０の時、およびｈ(ｍ)＝−ｈ(−ｍ)の時、関数は、不連続性を極限するために、よりよく適性化される。さらにスケーリングの独立性に対するゼロ平均カーネルを得るために、強制的にｈ(０)＝０とすることは有益である。もう１つの望ましい特性は、ｈ(ｍ)の絶対値が、スペクトル強度の局所的な変化に焦点を合わせるために、｜ｍ｜の増加と共に減衰すべきことである。これは、ｍに反比例するｈ(ｍ)を作成することにより可能である。これらの全束縛を満たす（多くの中の）１つの方程式は、式（９）で示される。
【数８】

本発明の好ましい実施の形態はλ＝０．４４で式（９）を用いる。この値により、わずかな複雑さで良質音声の音声を生成されることが見出され、合成音声は、オリジナル音声に近いピーク／ｒｍｓエネルギー率（a peaktorms energy ratio）を有することが見出された。λの別の値で行われた試験は、好ましい値からの小さな変化がほとんど等価な性能を生ずることを示した。カーネル長Ｄは、なめらかさの量に対する複雑さがトレードオフされるように調整される。より長いＤの値は、一般的に聞き手に好まれる、しかしながら、Ｄ＝１９の値は、本質的により長い長さと等価であることが見出され、またこれにより、Ｄ＝１９が新しい３．６ｋｂｐｓシステムにおいて使用される。
【００４４】
式（７）の形式は、全ての再生成された各フレームに対する位相変数がＦＦＴおよび逆ＦＦＴ操作を介して計算され得る。処理装置に依存して、ＦＦＴの実行は、大きなＤおよびＬに対する直接計算よりもより大きな計算効率を導くことができる。
【００４５】
再生成された位相変数の計算は、発声状態に依存しない発明の新しいスペクトル強度の表現により、大きく促進される。前述のように、式（７）を介して適用されたカーネルは、端あるいは他のスペクトル包絡線の変動を強調する。これは、スペクトル位相が、極とゼロ位置を介して、スペクトル強度の変化に関連づけられる線形システムの位相関係を近似するためになされる。この特性を利用するために、位相再生成手順は、スペクトル強度が正確に音声のスペクトルの包絡線を表現するということを仮定しなければならない。これは、従来技術よりもよりなめらかなスペクトル強度の組を生成するということから、本発明の新しいスペクトル強度表現により促進される。発声変移により引き起こされる不連続性と変動の除去、およびＦＦＴサンプリング点は、スペクトル包絡線における真の変化のより正確な評価を与える。結果として、位相再生成が増大され、全体の音声品質が改善される。
【００４６】
かつて、上記手順に従い、再生成位相変数φ_lが計算され、式（１０）に示されるように別々の正弦波成分の総和として、有声合成処理が有声音声Ｓ_v(ｎ)を合成する。有声合成法は、簡単な順番に割り当てられた調波に基づき、現行フレームのｌ番目のスペクトル振幅と、前のフレームのｌ番目のスペクトル振幅とをペアにする。この処理において、調波の数、基本周波数、Ｖ／ＵＶ決定および現行フレームのスペクトル振幅は、Ｌ(０)、ω₀(０)、ｖ_k(０)およびＭ_l(０)としてそれぞれ表記され、一方で、前のフレームに対して、同じパラメータが、Ｌ(−Ｓ)、ω₀(−Ｓ)、ｖ_k(−Ｓ)およびＭ_l(−Ｓ)として表記される。Ｓの値は、新しい３．６ｋｂｐｓシステムにおいて２０ｍｓ（１６０サンプル）であるフレーム長に等しい。
【数９】

【００４７】
有声成分Ｓ_v,_l(ｎ)は、ｌ番面の調波のペアからの有声音声に対する貢献を表す。実際には、有声の成分は緩やかに変化する正弦波として設計される。その時、音声成分の振幅と位相は、現合成間隔の端（すなわち、ｎ＝−Ｓおよびｎ＝０）で、前のおよび現行フレームからのモデルパラメータを近似するために調整され、−Ｓ＜ｎ＜０の間隔の間は、これらのパラメータ間で補間する。
【００４８】
パラメータの数が、連続したフレーム間で異なっても良いという事実に適応するため、合成法は、許されるバンド幅を越えた全調波が次式に示すようにゼロに等しくなることを仮定する。
Ｍ_l(０)＝０ｌ＞Ｌ(０) の時（１１）
Ｍ_l(−Ｓ)＝０ｌ＞Ｌ(−Ｓ)の時（１２）
さらに、通常のバンド幅の外側のこれらのスペクトル振幅は、無声として分類される。これらの仮定は、現行フレームのスペクトル振幅の数が前のフレームのスペクトル振幅の数に等しくない場合（すなわち、Ｌ(０)≠Ｌ(−Ｓ)）に必要となる。
【００４９】
振幅と位相関数は、各調波対に対して別々に計算される。特に、発声状態および基本周波数の相対的な変化は、現合成間隔の間の各調波に対して使用される４つの可能な関数を決定する。第１の可能な場合は、前のおよび現行音声フレームの両方に対し、ｌ番目の調波が無声として分類された時に生ずる。その場合において、次式で示されるような間隔で有声成分がゼロに等しく設定される。
ｓ_v,_l(ｎ)＝０ −Ｓ＜ｎ≦０の時（１３）
この場合において、ｌ番目の調波付近の音声エネルギーは、全体的に無声であり、無声合成手順は、全体の貢献を合成するために責任がある。
【００５０】
代わりに、もしｌ番目の調波が現行フレームに対し無声として分類され、前のフレームに対し有声として分類された時は、Ｓ_v,_l(ｎ)は次式で与えられる、

この場合、この範囲のスペクトルのエネルギーは、有声合成法から無声合成法へ、合成間隔上を移行する。
【００５１】
同様に、もしｌ番目の調波が現行フレームに対し有声として分類され、前のフレームに対し無声として分類された時は、Ｓ_v,_l(ｎ)は次式で与えられる、

この場合、この範囲のスペクトルのエネルギーは、無声合成法から有声合成法へ移行する。
【００５２】
あるいは、もし、ｌ番目の調波が現行および前の両フレームに対し有声として分類された時、およびｌ≧８または｜ω₀(０)−ω₀(−Ｓ)｜≧０．１ω₀(０)の時は、Ｓ_v,_l(ｎ)は、次式で与えられる。ここで、変数ｎは−Ｓ＜ｎ≦０の範囲に限定される。
ｓ_v,_l(ｎ)＝ω_s(ｎ＋ｓ)Ｍ_l(−Ｓ)cos[ω₀(−Ｓ)(ｎ＋ｓ)ｌ
＋θ_l(−Ｓ)]＋ω_s(ｎ)Ｍ_l(０)cos[ω₀(０)ｎｌ＋θ_l(０)] （１６）
調波が、両フレームにおいて有声であると分類された事実は、局所的なスペクトルエネルギーが有声のままである状況に対応し、また完全に有声成分内で合成される。この場合は、調波の周波数において、比較的大きな変化に対応することから、重なり追加アプローチ（a overlapadd approach）が前のおよび現行フレームからの貢献を結合するために使用される。式（１４）、（１５）、（１６）で使用される位相変数θ_l(−Ｓ)およびθ_l(０)は、ｎ＝−Ｓおよびｎ＝０で式（２０）において記述された連続した位相関数θ_l(ｎ)を評価することにより決定される。
【００５３】
最終の合成規則は、ｌ番目のスペクトル振幅が現および前の両フレームに対して有声である場合、または、ｌ＜８または｜ω₀(０)−ω₀(−Ｓ)｜＜０．１ω₀(０)の場合に使用される。前者の場合、局所的なスペクトルエネルギーが全体的に有声である時のみ生ずる。しかしながら、この場合、前のおよび現行フレーム間の周波数の差は、合成間隔上の正弦波位相において、連続した遷移ができるように十分に小さい。この場合、有声成分は、次式に従って計算される。
ｓ_v,_l(ｎ)＝ａ_l(ｎ)cos[θ_l(ｎ)] −Ｓ＜ｎ≦０の時（１７）
ここで、振幅関数ａ_l(ｎ)は、式（１８）によって計算され、位相関数θ_l(ｎ)は、式（１９）および式（２０）で記述されるタイプの低次の多項式である。

前述の位相更新処理は、現行および前の両フレーム（すなわち、φ_l(０)およびφ_l(−Ｓ)）に対する本発明の再生成された位相値を使用し、ｌ番目の調波に対する位相関数を制御する。これは、線形な位相項を介して合成境界の端での位相の連続性を確実にし、さもなければ所望の差異生成位相に合致する、式（１９）で表される２番目の位相多項式を介して実行される。さらに、この位相多項式の変化率は、間隔終端での適当な調波の周波数に、近似的に等しい。
【００５４】
式（１４）、（１５）、（１６）および（１８）で用いられた合成ウインドウω_s(ｎ)は、代表的には、現行のおよび前のフレームにおけるモデルパラメータ間で補間するように設計される。これは、以下の重ね合わせ付加方程式が現行の合成間隔全体に対し満足される時に促進される。
ω_s(ｎ)+ω_s(ｎ＋ｓ)＝１ −Ｓ＜ｎ≦０の時（２１）
新しい３．６ｋｂｐｓシステムにおいて有益であると見出され、上記束縛に合致する、１つの合成ウインドウは、次式で定義される。
【数１０】

２０ｍｓのフレームサイズ（Ｓ＝１６０）に対して、β＝５０の値が代表的に使用される。式（２２）にある合成ウインドウは、本質的に線形補間を使用することと等価である。
【００５５】
式（１０）を介した合成された有声音声成分および前述の手順は、さらに無声成分に追加され、合成処理を完成させなければならない。無声音声成分u,v(ｎ)は、通常は、有声周波数バンドにおいては、ゼロのフィルタ応答で、無声周波数バンドにおいては、スペクトル強度により決定されるフィルタ応答で、ホワイトノイズ信号をフィルタリングすることにより合成される。実際には、これは、フィルタリングを行うためＦＦＴと逆ＦＦＴを使用する重みづけ重ね合わせ付加手順を介して実行される。この手順はよく知られているため、完全な詳細については、参考文献で調べることができる。
【００５６】
実施の形態２．
図１は、本発明の新しいＭＢＥに基づいた音声エンコーダの図面である。図に示すように、音声エンコーダは、乗算器１１と、基本周波数評価回路１２と、マルチバンドＶ／ＵＶ決定回路１３と、スペクトル強度計算回路１４と、ＦＦＴ（高速フーリエ変換）回路１５と、パラメータ量子化／エンコード回路１６とから構成される。デジタル音声信号Ｓ(ｎ)は、乗算器１１において、スライドしたウインドウ関数ω(ｎ−ｉＳ)でセグメント化される。ここで、Ｓは代表的には２０ｍｓである。Ｓ_w(ｎ)で表記される処理された音声セグメントが、基本周波数評価回路１２、マルチバンドＶ／ＵＶ決定回路１３、スペクトル強度計算回路１４で処理され、基本周波数ω₀、有声／無声決定ｖ_kおよびスペクトル強度Ｍ_lそれぞれが算出される。ＦＦＴ回路１５において、高速フーリエ変換（ＦＦＴ）による音声セグメントのスペクトル領域への変換後に、スペクトル強度計算回路１４で、発声情報と独立してスペクトル強度が計算される。パラメータ量子化／エンコード回路１６において、ＭＢＥのモデルパラメータのフレームは、それから量子化され、デジタルビットストリームにエンコードされる。
【００５７】
図２は、本発明の新しいＭＢＥに基づいた音声デコーダの図面である。図に示すように、音声デコーダは、パラメータデコード／再構築回路２１と、音声バンド決定回路２２と、スペクトル位相再生成回路２３と、無声合成回路２４と、有声合成回路２５と、加算器２６とから構成される。図１で示される対応するエンコーダにより生成されるデジタルビットストリームが、パラメータデコード／再構築回路２１において最初にデコードされ、ＭＢＥのモデルパラメータが、各フレームを再構築するために使用される。音声バンド決定回路２２において、再構築された発声情報Ｖ_kは、Ｋ個の音声バンドを再構築するため、また各調波の周波数を有声あるいは無声として、それが含まれるバンドの発声状態に依存して、分類するために使用される。スペクトル位相φ_lは、有声と分類された全調波の周波数を表し、スペクトル位相再生成回路２３にてスペクトル強度Ｍ_lから生成され、有声合成回路２５にて有声成分Ｓ_v(ｎ)を合成するために使用される。加算器２６にて、有声合成回路２５からの有声成分（無声バンドを表す）が、無声合成回路２４からの無声成分に加えられ、合成音声信号を生成する。
【００５８】
ここで説明した特別な技術に関する種々の代替案や拡張は、本発明の真意と範囲を離脱することなしに使用できる。例えば、３番目の位相多項式は、式（１９）のΔω_lを正しい境界条件を持った２乗項で置き換えても使用できる。さらに、従来技術は、他の変形例と同様に代替のウインドウ関数や補間法も説明する。発明の他の実施の形態は請求の範囲の中に含まれる。
【００５９】
【発明の効果】
本発明によれば、従来技術に関するpeaktorms値の点から実際の音声により近い合成音声を生成し、それにより改善されたダイナミックレンジを生ずる。さらに合成音声は、より自然に知覚される。
【図面の簡単な説明】
【図１】本発明の実施の形態における新しいＭＢＥに基づいた音声エンコーダの構成図。
【図２】本発明の実施の形態における新しいＭＢＥに基づいた音声デコーダの構成図。
【符号の説明】
１１…乗算器、１２…基本周波数評価回路、１３…マルチバンドＵ／ＵＶ決定回路、１４…スペクトル強度計算回路、１５…ＦＦＴ（高速フーリエ変換）回路、１６…パラメータ量子化／エンコード回路、２１…パラメータデコード／再構築回路、２２…音声バンド決定回路、２３…スペクトル位相再生成回路、２４…無声合成回路、２５…有声合成回路、２６…加算器。

Claims

音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と発声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する方法であって、
前記合成デジタル音声信号のデコードおよび合成する方法は、
前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供するステップと、
前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定するステップと、
前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定するステップと、
前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成するステップと、
少なくとも１つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成するステップと、
有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成するステップと
からなることを特徴とする音声合成方法。
音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と音声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する装置であって、
前記合成デジタル音声信号のデコードおよび合成する前記装置は、
前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供する手段と、
前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定する手段と、
前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定する手段と、
前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する言音声語成分を合成する手段と、
少なくとも１つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成する手段と、
有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成する手段と
からなることを特徴とする音声合成装置。
請求項１または請求項２に記載の方法または装置において、それから合成音声信号が合成される前記デジタルビットは、スペクトル包絡線情報と発声情報を表すビットと、基本周波数情報を表すビットとからなることを特徴とする音声合成方法または音声合成装置。
請求項３に記載の方法または装置において、前記スペクトル包絡線情報は、複数の前記音声信号の基本周波数の調波でのスペクトル強度を表す情報からなることを特徴とする音声合成方法または音声合成装置。
請求項４に記載の方法または装置において、前記スペクトル強度は、周波数バンドが有声であるか無声であるかに依存せず、スペクトル包絡線を表すことを特徴とする音声合成方法または音声合成装置。
請求項４に記載の方法または装置において、前記再生成されたスペクトル位相情報は、それが関係した複数の調波の付近でのスペクトル包絡線の形状から決定されることを特徴とする音声合成方法または音声合成装置。
請求項４に記載の方法または装置において、前記再生成されたスペクトル位相情報は、端検出カーネルを前記スペクトル包絡線の表現に適用することにより決定されることを特徴とする音声合成方法または音声合成装置。
請求項７に記載の方法または装置において、前記端検出カーネルが適用される前記スペクトル包絡線の表現は、圧縮されることを特徴とする音声合成方法または音声合成装置。
請求項４に記載の方法または装置において、前記合成音声信号の無声音声成分は、でたらめな雑音信号に対するフィルタ応答から決定されることを特徴とする音声合成方法または音声合成装置。
請求項４に記載の方法または装置において、前記有声音声成分は、前記基本周波数と再生成されたスペクトル位相情報から決定される特性を持った正弦波発信器のバンクを使用することにより、少なくとも部分的に決定されることを特徴とする音声合成方法または音声合成装置。