JPH0644195B2

JPH0644195B2 - エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法

Info

Publication number: JPH0644195B2
Application number: JP59215061A
Authority: JP
Inventors: アール．ドツデイントンジヨージ; イー．パパミチヤリスパノス
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1983-10-13
Filing date: 1984-10-13
Publication date: 1994-06-08
Anticipated expiration: 2009-06-08
Also published as: JPS60107700A; DE3473373D1; EP0140249B1; EP0140249A1

Description

【発明の詳細な説明】［産業上の利用分野］本発明は音声符号化システムに関するものである。

［従来の技術］音声符号化システムには様々の用途があり，マイクロコ
ンピュータネットワークを用いたボイスメールや，マイ
クロコンピュータにより電話線で送受信するボイスメー
ルや，ユーザー自身のプログラムによる合成音声等があ
る。

こうした用途の多くはその必要条件が，合成音声を注意
深く符号化してＲＯＭやディスクに記憶させることので
きる音声合成システム（たとえは「Ｓｐｅａｋ＆Ｓ
ｐｅｌｌ」（商標）など）の場合の必要条件とはまった
く相違する。すなわち，このような用途においては，巧
妙なアルゴリズムをもった高速コンピュータをハンドツ
ィーキングと組み合わせて用いることにより，符号化音
声の最適化を図って良好な明瞭性を得るとともにビット
条件を緩和することが可能である。しかしながら，これ
ら以外の用途の多くの場合は，音声符号化のステップに
そのような恩恵はない。このことはとくにボイスメール
用のマイクロコンピュータネットワークの場合にもっと
も顕著であるが，ユーザーが自分自身の伝言を残した
り，システム診断用のメッージを生成させたり，あるい
は，プログラム動作中の信号を発生させたりしないよう
な用途の場合にも重要な点である。たとえば，ユーザー
が自分自身のソフトウエア中に合成音声を生成させるこ
とができるようなマイクロコンピュータシステムがあれ
ば，個人ユーザーのみならず音声を専門とする技術者の
いないソフトウエアハウス等にとって甚だ便利であろ
う。

［発明が解決しようとする問題点］上記のような使用目的の場合とくに問題となるのはエネ
ルギの変化である。すなわち，話者の音声の強さは通常
のセンテンスの屈折に関するダイナミックレンジが広
く，さらに話者が違えば音量レベルも異り，また，同じ
話者の音声レベルでもその時々によって大幅に異なるも
のである。また，話し方の訓練を受けていない話者の音
量はとくに不規則かつ不用意に変化しがちであるが，そ
れを聞く相手はそのような変化を無視するのが普通であ
る。上記のようにダイナミックレンジが広いということ
は，すなわち，使用する音声符号化方式のダイナミック
レンジも広くなければならないということであり，従っ
て，符号化の分解能を適正なものとするためには使用ビ
ツト数を増大させなければならなくなる。

ところが，もしエネルギ正規化方式を利用することがで
きれば（たとえば，あらゆる音声をほぼ一定のエネルギ
レベルに調節する），これらの問題はいちじるしく改善
される。

エネルギ正規化方式を用いた場合には，さらに，入力し
た音声の明瞭度が向上する。すなわち，オーディオアン
プおよびラウドスピーカから得られるダイナミックレン
ジは人間の耳で容易に感知されるダイナミックレンジよ
りもはるかに低く，事実，スピーカーのダイナミックレ
ンジはマイクロホンのそれよりはずっと低いのが普通で
ある。このことは言い換えれば人間によって完全に明瞭
なダイナミックレンジであっても，スピーカを通した場
合には，たとえば符号化や復号化かを完全に行なったと
しても，わかりにくいものとなることがあるということ
に他ならない。

この明瞭性という問題は忠実度がさして高くはないスピ
ーカやオーディオアンプなどの場合にとくに顕著である
が、コンパクト型の低忠実度スピーカはそのコンパクト
かつ堅牢な構造や経済性などの点で最高級の音声分析合
成装置にほとんど必須のものである。

次に考慮しなければならないのは，多くの高級機種では
合成音声を聴く者が音量制御用のつまみを頻繁に回さな
くてもよいようにしなければならないということであ
る。音量制御が可能な機種では各入力合成音声信号に対
してダイナミックレンジをアナログ的に調節することに
より，スピーカの狭いダイナミックレンジによる狭い窓
をシフトさせることができるが，このような技術はボイ
スメールシステムその他多くの用途には好ましくない。

従来はアナログ自動利得調整により生の信号のエネルギ
正規化を行なっているが，自動利得調整はA/Dコンバー
タへの信号入力に歪みを生じさせる原因となる。すなわ
ち，（たとえば）反射係数を用いて音声データの符号化
を行なう場合，アナログ信号に自動利得調整を用いる
と，演算される反射係数にエラーが算出された反射係数
に生ずる。このエラーの性質自体を分析することは難し
いが，エラーはとにかく発生する。さらに，アナログ自
動利得調整のためにはアナログ回路を使用する必要があ
るが，ディジタル装置に特別のアナログ回路を導入する
ことは必ず当該ディジタルシステムのコスト増につなが
る。また，使用する自動利得調整回路の応答速度が早い
と，連続する異音のエネルギレベルが不適当なものとな
りかねない。一例として「ｓｉｘ」なる単語の場合，そ
の歯擦音「Ｓ」は通常母音「ｉ」よりも低エネルギであ
り，応答時間の早い自動利得調整回路を用いた場合に
は，語頭の「ｓ」が「ｉ」と同等のエネルギレベルに持
ち上げられるという不適切さがあるため，エネルギの正
規化を行なった単語「ｓｉｘ」には極端に歯擦感の強い
音が伴う。他方，応答速度の低い自動利得調整回路を用
いたとしても，実質的な問題はなお残り，無声期間中に
ノイズフロアが信号レベルにまで上昇したり，あるいは
無声期間に引き続いて大きな声が発声された場合にその
制限が不十分となったりする問題が生ずる。

［発明の目的］故に，本発明の目的は，音声信号のエネルギ正規化を行
なうことのできるディジタルシステムを提供することに
ある。

さらに，本発明の目的は，語頭の子音が必要以上に強く
発声されないような音声信号のエネルギ正規化方法を提
供することにある。

本発明の目的は，さらに，話者の発声におけるエネルギ
の変化に対して速やかに応答しうるとともに，その際相
隣る異音の相対的なエネルギレベルが語調により歪みを
生じないようにした音声信号のエネルギ正規化方法を提
供することにある。

エネルギの正規化において問題となるのは，さらに，無
声期間中におけるノイズの存在に起因する問題である。
すなわち，音声信号が現われていない期間中にエネルギ
正規化システムによってノイズフロアが正規のエネルギ
レベルに向って上昇すると，音声の明瞭性が損なわれて
聞く者に不快感を与える場合がある。さらには，無声期
間中ノイズ信号の正規化を行なうなど，帯域の相当部分
が無駄に使用されてしまうということもある。従って，
さらに本発明の目的は，無声期間中に帯域が徒らに使用
されないようにした音声符号化システムを提供すること
にある。

［問題点を解決しようとするための手段］本発明は，上記のようなエネルギ正規化上の問題を，前
向きのエネルギ正規化方式を用いることによりディジタ
ル的に解決しようとするものである。すなわち，分析合
成システムの分析処理時には適応エネルギ正規化パラメ
ータをフレームからフレームへ送り，音声フレームはこ
れをある程度の長時間，たとえば，1/2秒間バッファに
蓄え，しかる後にその時点におけるエネルギ正規化パラ
メータに応じて正規化を行なう。このように，エネルギ
の正規化は各音声フレーム（それぞれの間隔はたとえば
20ミリ秒である）が，ずっと後からの（たとえば25フレ
ーム後からの）エネルギ正規化値に従って正規化される
という点で「前向き」の正規化方式である。なお，この
エネルギ正規化値は立上りが早く，立下りの遅いピーク
トラッキング値を用いて，フレームが入力され次第，そ
のフレームについて算出する。

さらに，本発明の新規な点は，無声フレームの抑制を行
うことにしたことにある。この無声フレームの抑制は２
種類のエネルギ等高線を付加的に用いることにより実行
する。一方のエネルギ等高線は，立上りが遅くかつ立下
りの早い値としてこれを無声フレーム期間中にのみ更新
し，従って該エネルギ等高線の低エンベローブのトラッ
キングを行なう（この結果，周辺ノイスレベルのトラッ
キングが行なわれる）。他方のエネルギ等高線は立上り
が早くかつ立下りの遅いパラメータとし，これは有声フ
レーム期間中にのみ更新し，従って該エネルギ等高線の
高エンベロープのトラッキングを行なう（その結果，平
均音声レベルのトラッキングが行なわれる）。スレショ
ルド値はこれら２つのパラメータのそれぞれの倍数の最
大値，たとえば５×低エンベロープパラメータの値と高
エンベロープの1/5のうち大きい方の値として算出す
る。スレショルド値以上でかつ有声の第１フレームが検
出されないときは，音声はまだ始まっていないものと判
定する。この場合には，システムはバッファされたフレ
ームの間でバックトラッキングを行なって，スレショル
ド値以上のエネルギをもつ直前のフレームをすべて「音
声」フレームであるとしてシステム内に含める。すなわ
ち，入力したパラメータのフレームが無声フレームであ
ると認められら後は，超スレショルド値のフレームが検
出されるまでは後続のフレームはすべてとりあえず無声
フレームであると判定されることになる。この時点で無
声フレーム抑制システムがはたらいて，少なくとも0.4
秒の間隔までのブロークンストリングのサブスレショル
ドエネルギが検出されるまでは無声フレーム抑制システ
ムにより，この超スレショルドエネルギ有声フレームの
直前のフレームの間でバックトラッキングを行なう。こ
のような0.4秒間隔の無声状態が検出された場合には，
バックトラッキングが停止してその0.4秒の無声フレー
ム後でかつ最初の有声超スレショルドエネルギフレーム
のみが有声フレームとして判定される。

音声の終端では有声フレームがスレショルド値Ｔ以下の
エネルギをもっていることが検出された場合に，ウエイ
ティングカウンタが動作を開始する。この場合エネルギ
が再度上記スレショルド値Ｔ以上とならずに待ち時間が
一定の上限値（例えば0.4秒）に達したら発生が中断さ
れたものと判定する。以上のようにして，有声が無声か
を判定することにより，無声フレームの符号化にビツト
が無駄に使われることがなく，また上述のように無声フ
レームの存在によってエネルギトラッキングに歪みを生
ずることがなく，さらに文章中の単語と単語との間に長
い無声期間をおきがちな，特に訓練を受けていない話者
からでも，長い発声語を入力することができるという利
点が得られる。

かくして，本発明，ディジタル音声信号の入力すべく接
続され，この音声信号から各フレームのパラメータがエ
ネルギ値を含む複数の音声パラメータのフレームのシー
ケンスを生成するアナライザと，後続のフレームのエネ
ルギ値に対して前記各音声フレームのエネルギ値を正規
化する手段と，前記各音声フレームの正規化エネルギパ
ラメータを含む前記各音声フレームに対する前記パラメ
ータをデータチャンネルに出力する出力手段とからなる
ことを特徴とする音声符号化システムを提供するもので
ある。

さらに，本発明は，ディジタル音声信号を入力すべく接
続され，この音声信号から各フレームのパラメータがエ
ネルギ値を含む複数の音声パラメータのフレームのシー
ケンスを生成するアナライザと，後続のフレームのエネ
ルギ値に対して前記各音声フレームのエネルギ値を正規
化する手段と，前記各音声フレームの正規化エネルギパ
ラメータを含む前記各音声フレームに対する前記パラメ
ータをデータチャンネルに出力する出力手段と，線型予
測符号化パラメータおよび励起パラメータを含む複数の
音声パラメータのフレームのシーケンスを入力する入力
手段と，前記線型予測符号化パラメータに基いて格子フ
ィルタを構成する手段と，前記励起パラメータに基い
て，前記格子フィルタに対する入力としての励起信号を
発生する手段と，前記格子フィルタの出力をエネルギパ
ラメータに基いて変調して音声信号出力とする手段とか
らなることを特徴とするボイスメールシステムを提供す
るものである。

さらに，本発明は，音声信号を分析してこの音声信号か
ら各フレームのパラメータがエネルギ値を含む複数の音
声パラメータのフレームのシーケンスを生成し，後続フ
レームのエネルギ値に対して前記各音声フレームのエネ
ルギ値を正規化し，前記各音声フレームの正規化エネル
ギパラメータを含む前記各音声フレームに対する前記パ
ラメータをデータチャンネル内に符号化することを特徴
とする音声符号化方法を提供するものである。

さらに，本発明は，音声入力信号を入力すべく接続され
この音，声信号から各フレームが複数のパラメータから
なりかつこれらのパラメータがエネルギ値を含む音声パ
ラメータのフレームのシーケンスを生成するアナライザ
と，これら連続するフレームを符号化するためのエンコ
ーダと，前記符号化手段に接続され前記エンコーダが実
際の音声信号と対応しないフレームのシーケンス符号化
を行なわないようにした無声フレーム抑制手段とからな
り，前記無声フレーム抑制手段は前記フレームの各々の
エネルギ値を第一および第二の適応的に更新されたスレ
ショルド値の関数と比較することを含む複数のステップ
を実行することにより，前記各フレームが無声あるいは
有声であると判定するようにし，この場合前記第一のス
レショルド値はこれを前記連続するフレームのエネルギ
値の高エンベロープの倍数と対応させるとともに，前記
第二のスレショルド値はこれを前記連続するフレームの
更新エネルギ値の低エンベロープの倍数と対応させ，さ
らに前記符号化ディジタル値をデータチャンネルに出力
する出力手段を含むことを特徴とする音声符号化システ
ムを提供するものである。

［実施例］本発明は，新規は音声分析合成装置に関するもので，以
下にその実施例を各種説明するが，何れの場合にもVAX
11/780型のコンピュータをディジタルサウント社製モデ
ル200 A/D,D/Aコンバータと結合することにより，高分
解能，高ビツトレートのディジタル化を行なうことによ
り音声分析合成システムにおける合成処理を行なうよう
にするのが好ましい。この場合，通常のマイクロホンや
ラウンドスピーカ等に適当なアナログ増幅器，たとえ
ば，同じくディジタルサウンド社製モデル240のアナロ
グ増幅器等を用いてこのシステムと協働かせていること
は言うまでもない。

ただし，本発明により新規な技法はとくにマイクロコン
ピュータを主体とするシステムに適用することも可能で
あり，この場合は，上述のようなディジタイザはもとよ
り，VAXによる演算機能も不要である。さらにまた，本
発明装置の実施例の機能を高めるへく，後述するような
内蔵型低性能スピーカおよび付属品としてマイクロホン
を備えたＴＩ社製「プロフェッショナルコンピュータ」
（商標）を用いるのがよい。

本発明装置の一実施例のシステム機構を第５図に示す。
同図において生の音声入力はマイクロホン10に入力され
た後，マイクアンプ12により増幅され，D/Aコンバータ1
4によりディジタイズされる。本発明実施例に用いるD/A
コンバータは高分解能型のもので８KHzのサンプルレー
トで16ビツトの分解能が得られるものである。このよう
な高サンプルレートで入力したデータは，所望のフレー
ムレートで音声パラメータに変換されることとなる。こ
のフレームレートは，本例では，50フレーム／秒とする
が，フレーム周期は10ないし30ミリ秒あるいはそれ以上
としてもよい。

本実施例においては，線型予測コードによる分析法を用
いて音声のコード化を行なうのが，このためには，入力
として一連のサンプル（本例では基本ビツトレートを80
00ビツト／秒とする）を用いて一組の線型予測コード化
パラメータ，たとえば下記のように10種類の反射係数Ｋ
１−Ｋ10およびピッチ，エネルギ等に関係するパラメー
タを得る。

本発明を実施するに当っては，まず可聴音声をシステム
にとって有意の入力に変換する。これは，たとえば，可
聴音声領域のマイクロホンをマイク用プリアンプおよび
A/Dコンバータに接続すること等によって実行する。本
例では，入力流れを8000回／秒のレートでサンプリング
を行なうことによって16ビツトの精度とし，この入力ビ
ツトの流れを任意に「フレーム」に分割するが，本例に
おいては，これらフレームの各々にはサンプルが160個
含まれているものとする。この場合，フレーム間の間隔
は20ミリ秒となるが，各フレームのＬＰＣ（線型予測コ
ード）パラメータは計算上240個（30ミリ秒）以上の範
囲となる。

本発明の一実施例においては，各音声入力フレームにお
ける一連のサンプルを一組の逆フィルタ係数ａｋに変換
する。この逆フィルタ係数はよく知られた係数で，たと
えば「Linear Prediction A Tutoril Review」（マクハ
ウル，IEEE Proceedings,第63巻。561頁，1975年）にそ
の定義がある。この逆フィルタ係数ａｋは，線型予測モ
デルの場合の予測係数となるもので，この予測係数によ
り時系列信号Ｓｋが入力ｕｋと，当該時系列における過
去側Ｓk-nの線型組合せとの和としてモデル化される。
すなわち各入力フレームには多数のサンプル点が含まれ，どの入
力フレーム内のサンプル点もそれ自体１個の時系列であ
ると考えることができる。本発明の一実施例においては
実際にサンプルフレームに対するフィルタ係数を得るの
に次のような手法を用いる。すなわち，まず時系列自己
相関値Ｒｉを次のようにして算出する。

ここに総和は入力フレーム内に含まれる全サンプル領域
にわたってとるものとする。本例では，１１個の自己相
関値（Ｒ０−Ｒ10）を算出する。逆フィルタ係数は反復
法を用いて次のようにして求める。

Ｅ０＝Ｒ(0)……(3) また１≦ｊ≦ｉ−１のとき ai⁽ⁱ⁾＝ｋｉ ai⁽ⁱ⁾＝ai^(i-1)＋ｋｉ ai^(i-1)……(5) Ｅｉ＝（１−ｋｉ_２）Ｅｉ−１……(6) 上記各式はｉ＝1,2,……Ｐ（Ｐはモデルのシーケンスで，ここではＰ＝10）。かく
て，最後の反復手順によりａｋの値が求まる。

上記の例は，ダービンの反復法を用いてサンプルフレー
ムについてのａｋ値を求めるものであるが，ルルー・グ
ゲン法を用いてもよい。この場合は，正規化エラーエネ
ルギＥ（すなわち入力フレームの自己残留エネルギな
ど）を生成させてアルゴリズムの直接的な副産成分とす
る。ルルー・グゲン法のアルゴリズムによればさらに反
射係数ｋｉ（偏相関係数ともいう）が生成される。

この反射係数ｋｉはきわめて安定なパラメータで，符号
化エラー（量子化雑音）が少ない。

上記ルルー・グゲン法については，たとえば，「IEEE T
ransactions on Acoustic Speech and Signal Processi
ng」（257頁，1977年６月）にその記載があり，そのア
ルゴリズムは反復法で次のように表わされる。

ｋｈ＝-e^(h)h+1／eo^(h)……(7) eo^(h+1)＝eo^(h)(1-k²h)……(8) ei^(h+i)＝ei^(h)+kh-eh^(h)+1-i……(9) このようなアルゴリズムにより，フィルタ係数ａｋの代
りに中間インパルス応答見積りｅｋを用いて反射係数ｋ
ｉを算出することができる。

一方，線型予測符号化モデルは，それ自体周知のもの
で，たとえば「Digital Processing of Speech Signal
s」（ラビナーおよびシェーファー，1978年），「Linea
r Predictive coding of Speech」（アーケルおよびグ
レイ，1976年）その他に記載がある。これについて注意
を要することは，伝達される励起コードはエネルギやピ
ッチのみならず残留信号にかかわる付加的な情報をも含
むということであり，たとえば，ピッチの整数倍で，10
00Hzに略々等しい残留信号の帯域幅を符号化して励起信
号とする。このような方式については，たとえば米国特
許出願第484,720号（1983年４月１３日出願）に記載が
ある。ただし，励起情報の符号化は上記方式をいろいろ
に変更して行なってもよい。同様に，ＬＰＣパラメータ
もいろいろな方法で符号化することができ，たとえば，
線型予測の係数の等量定式化には各種の方法があること
が知られている。この場合の線型予測係数はＬＰＣフィ
ルタ係数ａｋとして，反射係数Ｒｉとして、自己相関関
係Ｒｉとして、あるいは，その他間ルルー・グゲン法に
より得られるインパルス応答見積りパラメータＥ(i)等
のパラメータ群として表わされる。なお，ＬＰＣモデル
のシーケンスは必ずしも上述のように10である必要はな
く，８，12，14その他とすることもできることはいうま
でもない。

また，本発明による装置は，必ずしもＬＰＣ音声符号化
モデルと組み合わせて用いる必要はまったくない。すな
わち，本発明は音声フレームの各シーケンスのエネルギ
のみを該シーケンスのエネルギおよび発声についてのみ
変更するエネルギ正規化方法を提供するもので，従っ
て，本発明は関数変換技術やホルマントの符号化技術等
を含む各種の音声符号化方式を用いたシステムのエネル
ギ正規化技術に適用しうるものである。

かくて，あるエネルギ値を含むデータベクトルを各々有
する音声フレームのシーケンスに個々の入力サンプルを
変換した後は，本発明は当該データベクトルのエネルギ
値にかかわるものとなる。本例においては符号化された
パラメータは反射係数Ｋ１−Ｋ10，エネルギおよびピッ
チである。（ピッチに関するパラメータは無声フレーム
の符号化をピッチ＝０としているため，発声決定パラメ
ータも含む。）本発明によるシステムの動作はこの時点でスタートす
る。すなわち，各々がエネルギパラメータおよびモデル
化パラメータを含む符号化フレームのシーケンスを音声
分析セクションの生の出力として生成させる。この段階
ではエネルギパラメータのコード化分解能は，通信ない
し記憶チャンネル40で実際に伝送される符号化情報にお
ける場合よりもはるかに高い。本発明により一連のフレ
ームの正規化を行ない，無声フレームのコード化を抑制
する方法を第１図ないし第４図のエネルギ線図に示す。
ここに示した例は，音声分析セクションに生の出力とし
て受けたフレームの１シーケンス内における一連のフレ
ームｉにみられるエネルギ値Ｅ(i)の例を示すものであ
る。

次にエネルギ正規化値（ENORM）の適応パラメータENORM
(i)をほぼ第１図に示す方法で生成させる。この場合，
初期パラメータENORM(0)としてはたとえばENORM(0)＝10
0とし，引き続く各フレームにつき次のようにして更新
する。

すなわち，Ｅ(i)がENORM(i-1)より大であるときはENORM
(i)を α Ｅ(i)＋（１−α）ENORM（ｉ−１）に等しくなるように定め，それ以上の場合にはENORM(i)
を β Ｅ(i)＋（１−β）ENORM（ｉ−１）となるように定める。ここに，αは１に近い値で立上り
の速い時定数（好ましくは0.1秒とする）を与え，βは
０に近い値で立下りの遅い時定数（好ましくは４秒程度
とする）を与える定数である。なお，これらαおよびβ
についてはVAX11/780に用いられるソフトウエア中にそ
れぞれα−upおよびα−downとして示している。かく
て，適応パラメータENORMによりエンベロープトラッキ
ング手段が得られ，これによりフレームｉのシーケンス
のピークエネルギのトラッキングを行なうことができる
ものである。

このような適応ピークトラッキングパラメータENORM(i)
を用いて各フレームのエネルギの正規化を行なうが，こ
れは直接には行なわない。すなわち，各フレームｉはい
ったん前向きに正規化されたエネルギENORM*(i)でこれ
を割ることによってその正規化を行なう。ここに，ENOR
M*(i)は，遅延フレーム数が通常1/2秒（0.1ないし２秒
としてもよく，あるいはこの範囲外としてもよい）と等
価となるように選定したフレーム数をｄとしたとき，EN
ORM*(i)がENORM(i+d)と等しくなるように定める。かく
て，各フレームのエネルギＥ(i)を，正規化エネルギENO
RM*(i)で割ることによりその正規化を行なう。すなわ
ち，E*(i)はE*(i)/ENORM*(i)に等しくなるように設定さ
れる。このためには，遅延量ｄに相当する音声フレーム
数をバッファして，その際，バッファ中にロードされた
最後のフレームに対するENORMの値から，該バッファ中
の最先のフレーム，すなわち現にそのバッファから取り
出し中のフレームに対するENORM*の値を得る。

このようなエネルギ正規化における遅延を導入すること
により，初期の低エネルギ期間のエネルギをその直後の
高エネルギ期間に対して正規化させて，語頭の子音の相
対エネルギが歪むのを避けることができる。すなわち，
音声の無声フレームは通常，有声フレームよりもエネル
ギ値がはるかに低く，このためたとえばシックス（si
x）という語の最初の異音「ｓ」は母音「ｉ」のエネル
ギレベルに対して正規化される必要があり，もし仮に異
音「Ｓ」をそれ自体のエネルギレベルについて正規化す
れば，そのエネルギは不当に高くなって，最初の子音
「ｓ」がきわめてオーバーエンファシスされることにな
る。

また，立下りの時定数（パラメータβに相当する）がき
わめて長いため，単語の終りにおけるエネルギの正規化
が引き続く無声フレームのほぼゼロのエネルギ値により
歪むことはない。（さらに無声フレーム抑制方式を用い
た場合には該フレームの抑制によりENORMが甚だしく立
下るのが防止される。）すなわち，最後の無声子音に対
しては，βに相当する時定数が長いということは，単語
の終りから1/2秒後の無声フレームのエネルギ正規化値E
NORMが，最後の無声子音の直前の有声音韻により支配さ
れるということにほかならない。上記のようにすること
により，最後の無声子音が次の有声フレームに対して正
規化され，そのエネルギが不当に高くなることはない。

上記のような過程を経て，各音声フレームｉに対して正
規化エネルギＥ*(i)が得られるが，本例においてはさら
に無声期間を抑制する手段を講ずる。このためには，第
５図に示すように無声状態の検出を行なうことにより，
特定のフレームが符号化されるのを選択的に防止する。
符号化されたフレームは選択されたモデルにおける残り
の音声パラメータ（本例ではピッチＰおよび反射係数ｋ
１−ｋ10）とともに，正規化エネルギＥ*(i)により符号
化される。

本発明によればさらに，無声状態の検出は２個の包絡パ
ラメータELOWおよびEHIGHをキャリーさせることにより
行なう。これらパラメータは何れもある初期値（たとえ
ば100）から出発して各フレームｉのエネルギＥ(i)およ
び当該フレームの有声あるいは無声状態に応じて更新さ
れる。

該フレームが無声フレームの場合は，小さい方のパラメ
ータELOWのみが次のようにして更新される。

すなわち，Ｅ(i)がELOWより大きいときはELOWをΥ・E
(i)+(1-Υ）ELOWに等しくとり，またELOWよりも小さい
かまたは等しいときおはδ・E(i)+(1-δ）ELOWに等しく
とる。ただし，Υは立上りの遅い時定数（通常は１秒）
に，δは立下りの速い時定数（通常は１秒）にそれぞれ
対応する。

かくして，ELOWはＥ(i)のエネルギ等高線の低エンベロ
ープのトラッキングを行なう。上記Υ，δをここではそ
れぞれALOWUP,ALOWDNと略記するととする。

他方，フレームｉが有声フレームの場合にはEHIGHのみ
が次のようにして更新される。

すなわち，Ｅ(i)がEHIGHよりも大きいときはそのEHIGH
をεＥ(i)+(1−ε）EHIGHに等しくとり，小さいかまた
は等しいときはξ・〔E(i)+(1−ξ）〕EHIGHに等しくと
る。ただしεは立上りの速い時定数（通常は0.1秒）
に，ξは立下りの遅い時定数（通常は１秒）にそれぞれ
対応する。

かくて，EHIGHは前記エネルギ等高線の高エンベロープ
のトラッキングを行なう。第３図に上記パラメータELO
W,EHIGHを示す。なお，パラメータEHIGHは初期の一連の
無声フレーム期間中に更新されることはなく，パラメー
タELOWは次の一連の有声フレーム期間中は温存される。

次に上記パラメータELOWおよびEHIGHを用いて２個のス
レショルドパラメータTLOWおよびTHIGHを生成する。こ
れらシュレショルドパラメータTLOW，THIGHは次のよう
に定義される。すなわち TLOW＝PL×ELOW THIGH＝PH×EHIGH ただしPL，PHはスケーリング因子であり，たとえばPL＝
５，PH＝0.2とする。スレショルド値ＴはTLOWおよびTHI
GHの最大値として与えられる。

このようなスレショルド値Ｔに基いて，あるフレームの
有声，無声を次のようにして判断する。

すなわち，現フレームが無声フレームである場合には，
有声の超スレショルドエネルギ（すなわち有声）エネル
ギが検出されない限り，引き続くフレームがすべて無声
フレームであること，とりあえず仮定する。これらの仮
想無声フレームはその後実際には無声フレームではない
と認定される可能性があるため，いったんバッファ（少
なくとも１秒分のデータを含むものがよい）に格納す
る。しかして，あるフレームのフレームエネルギＥ(i)
がスレショルド値Ｔより大きくかつ該フレームが有声フ
レームであると判定された場合に限り，有声フレームを
検出する。すなわち，無声の超スレショルドエネルギフ
レームはそれ自体では音声が開始されたと判定するのに
充分ではないが，いったん有声の高エネルギフレームが
検知されると，バッファ内に先行フレームが再検定され
てＴ値以上のエネルギをもつ直前の無声フレームがすべ
て有声フレームであると判定される。かくて，ここに例
として用いた「ｓｉｘ」なる単語の場合には，子音
「ｓ」の無声超スレショルドエネルギフレームによって
音声信号が開始されたとの判断を促すが，「ｉ」中の有
声超スレショルドエネルギフレームが検出された場合に
は，直前のフレームを再検定してＴ値以上のエネルギを
もつ「ｓ」の対応フレームをも「音声」フレームである
として呈示する。

他方，現フレームが「音声」フレーム（有声フレーム）
である場合には単語の終り（すなわち符号化を要しない
「無声」フレームの始点）を以下のように検出する。す
なわち，ある有声フレームのエネルギＥ(i)がＴ値より
小さいときはウエーティングカウンタをスタートさせ，
エネルギＥ(i)がＴ値以上に増大することなく待ち時間
がある上限（たとえば0.4秒）に達した場合には，音声
が終了したと判定してＴ値以上のエネルギＥ(i)をもっ
ていた最後のフレームの後のフレームを無声フレームと
考える。従ってこれらフレームの符号化は行なわれな
い。

本発明装置におけるエネルギ正規化および無声フレーム
の抑制はいずれも音声発生決定に依存するもので，この
音声発生決定は，相関距離法を用いてピッチの決定と発
生の決定を同時に行なうダイナミックプログラミング法
により実行するのが好ましい。このようなシステムの例
としては，米国特許出願第484,718号（1983年４月１３
日出願）にその記載があるが，このシステムは低エネル
ギフレームを無声フレームに分類する傾向がある点で都
合がよい。

次に，ビツトレートを最小として実際に符号化を行なう
手順について述べる。本実施例においては，５ビットを
用いて各フレームのエネルギを符号化し，３ビツトを計
10個の反射係数の各々にあて，さらに５ビツトをピッチ
にあてる。ただし，このようなビツトレートはデルタ符
号化方式の多数あるバリエーションのひとつを用いてさ
らに圧縮することができる。このデルタ符号化方式は一
連のフレームを通してパラメータ値のシーケンスに生成
多項式を適合させ，ついで，単純な線型デルタ符号化方
式その他を用いて当該多項式の係数のみの符号化を行な
う方式である。

本発明のさらに好ましい実施例においては，上述のよう
な分析システムを音声合成能力と組み合わせることによ
り，ボイスメールステーションすなわち，ユーザー自身
の話声による伝言等を伝えるステーションを実現するこ
とができる。このような組み合せシステムはきわめて僅
かなハードウエアを追加するだけで実現しうるもので，
前述のような分析セクションの符号化出力を適当なデー
タチャンネルに結合する。このデータチャンネルとして
は，たとえば，RS-232 UARTチップを接続したワイヤと
か，モデムによりアクセスする電話線とか，単にメモリ
ボードまたはメモリチップ等に接続したローカルデータ
バスとか，その他どのような形式のデータチャンネルを
用いてもよい。また，このようなデータチャンネルへの
接続は，容易かつ好便にこれを双方向型とすることがで
き，これにより，通信用チャンネルから受け取ったり，
あるいは，メモリから呼び出したりすることができるの
は当然である。このようなチャンネルから受け取ったデ
ータはエネルギ値を含む複数の音声パラメータを包含す
るものである。

ＬＰＣモデル化方式を用いた本実施例においては，デー
タチャンネルから入力した符号化データは励起情報のほ
かに各音声フレームに対するＬＰＣフィルタパラメータ
を含んでいる。本例の場合は，各音声フレームのデータ
ベクトルはピッチおよびエネルギの他に10個の反射係数
があり，これらの反射係数により時制順格子フィルタを
構成し，励起パラメータから励起信号を生成してこの格
子フィルタに入力する。たとえば，該励起パラメータが
ピッチとエネルギである場合には，ピッチ期間に等しい
間隔のパルスを有声フレーム期間中（すなわち，ピッチ
の符号化値が非ゼロである期間中）に励起関数として入
力させ，またピッチがゼロに等しく符号化されたとき
（すなわち無声フレーム期間中）には有声フレーム期間
中に疑似ランダムノイズを励起関数として入力させる。
いずれの場合にも，エネルギパラメータを用いて励起関
数における冪を決定することができる。前記格子フィル
タの出力はＬＰＣモデル化合成信号で，この信号は完全
にトランススペアレントではないが，その明瞭度は通常
きわめて良好である。ついで，この出力信号はD/A変換
されてそのアナログ出力がオーディオアンプに入力し，
ラウドスピーカなりヘッドホンなりを駆動することにな
る。

本発明装置のさらに好ましい実施例においては，上述の
ようなボイスメールシステムをマイクロコンピュータを
ベースとするシステムとし構成する。この場合には内蔵
音声ボードつきのＴＩ社製「プロフェッショナルコンピ
ュータ」（商標）をボイスメール用の端末機として使用
するのがよい。この場合のハードウエア構成について
は，テキサスインスツルチメンツプロフェッショナ
ルコンピュータ（商標）のものを用いてある。なお，こ
の構成は8088機をベースとするシステムにTMS 320数字
プロセッサチップを実装した特別のボードを加えてなる
ものである。このTMS 320により得られる高速倍数は信
号処理機能を行なう上できわめて便利である。また入出
力には８ビツトμ法則コーデック（コーダ／デコーダ）
の場合と同様，音声ボードに一対のオーディオアンプが
設けてある。このように構成した実施例は，コンバータ
について僅かな相異があるほかは，前述したVAXを用い
た実施例と同等の機能をもつものである。前記８ビツト
コーデックは，μ法則の変換を行なうもので，これは非
線型ではあるがすぐれたダイナミックレンジをもつもの
である。コーデックチップからの８ビットμ法則出力
は，ルックアップ表を用いて13ビツトの線型出力に変換
され，同様に音声合成動作においても前記格子フィルタ
のはたらきにより線型出力は同じルックアップ表を用い
て８ビットワードに予備変換され，この８ビットワード
により適宜コーデックのアナログ出力信号を得る。な
お，上記のようにマイクロコンピュータをベースとした
実施例の場合にも，内蔵スピーカやマイクロホン用ジャ
ックを備えるものである。

本発明を実施するにあたっては，さらに，上述のような
マイクロコンピュータをベースとするボイスメールステ
ーションを多数用いることによりマイクロコンピュータ
をベースとするボイスメールシステムを構成することが
できる。このようなシステムにおいては，各マイクロコ
ンピュータを通常のＬＡＮプロトコルを用いてローカル
エリアネットワーク中で相互接続したり，あるいはPBX
tilidsを用いて相互接続したりすることができる。この
場合に用いられる複数のマイクロコンピュータに基くボ
イスメールシステムに適用した実施例の特徴は，わずか
に伝送のメカニズムが，ASCIIデータのみならず二値デ
ータをも通過させることができるという点である。上述
のようなボイスメールシステムにおける音声分析合成能
力を有するマイクロコンピュータステーション間におけ
るように，ボイスメールシステムの機能は単にファイル
をまっすぐ前へ伝送するという機能のみであり，復合化
された音声データを表すファイルは，あるステーション
で分析処理により生成されて他のステーションでファイ
ルとして伝送され，ついでこの第二のステーションで合
成処理によりアナログデータに変換される。

［発明の効果］本発明による音声符号化システムは，上記のように，デ
ィジタル音声信号を入力すべく接続され，この音声信号
から各フレームのパラメータがエネルギ値を含む複数の
音声パラメータのフレームのシーケンスを生成するアナ
ライザと，後続フレームのエネルギ値に対して前記各音
声フレームのエネルギ値を正規化する手段と，前記各音
声フレームの正規化エネルギパラメータを含む前記各音
声フレームに対する前記パラメータをデータチャンネル
に出力する出力手段とからなることを特徴とするもの
で，とくに音声フレームのエネルギを正規化することに
より，本発明には，語頭の子音が必要以上に強く発声さ
れず，また話者の発声におけるエネルギの変化に対して
速やかに応答しうるとともに，その際相隣る異音の相対
的なエネルギレベルが語調により歪みを生じないように
しうるという効果がある。

さらにまた，無声フレームの抑制を行なうことによっ
て，発声エネルギの正規化に起因する問題を効果的に解
決することが可能となる。すなわち，音声信号が現れて
いない期間のフレームを抑制することにより，エネルギ
正規化によってノイズフロアが正規のエネルギレベルに
向かって上昇するのを防止するとともに，無声期間中に
ノイズ信号の正規化が行なわれて帯域の相当部分が無駄
に使用されてしまうことがないという効果がある。

かくて本発明によるシステムの主たる特徴は音声分析合
成システムの分析部の特徴にあるが，これらの特徴は分
析部にとどまらず、システム全体に影響を与えるもの
で，その伝送ビツトあたりの明瞭な音声情報のスループ
ットが向上するとともに，合成部で合成された音声の知
覚特性が改善される等システムレベルでの改良を行なう
ことができる。とくに，マイクロコンピュータネットワ
ークを用いたボイスメールシステムに適用した場合には
チヤンネルの負荷を最小限にとどめることができるとい
う効果がある。

【図面の簡単な説明】

第１図は適応的に正規化したエネルギレベルENORMを一
連の音声フレームの連続するエネルギレベルから取り出
すようにした本発明の特徴のひとつを示す図，第２図は
正規化処理に前向きのエネルギ正規化曲線ENORMを用い
るようにした本発明の他の特徴を示す図，第３図は無声
フレームンの抑制を行なう場合に，一連の入力フレーム
のエネルギ値に対して高エンベロープ曲線および低エン
ベロープ曲線を連続的に保持するようにした本発明のさ
らに他の特徴を示す図，第４図はスレショルド曲線Ｔを
導くのに第３図のEHIGHおよびELOW曲線を用いるように
した本発明のさらに他の特徴を示す図，第５図は本発明
を実施した場合の構成図である。

Claims

【特許請求の範囲】

【請求項１】ディジタル音声信号を入力すべく接続さ
れ、この音声信号から各フレームのパラメータがエネル
ギ値を含む複数の音声パラメータのフレームのシーケン
スを生成するアナライザと、後続フレームのエネルギ値
に対して前記各音声フレームのエネルギ値を正規化する
手段と、前記各音声フレームの正規化エネルギパラメー
タを含む前記各音声フレームに対する前記パラメータを
データチャンネルに出力する出力手段とからなることを
特徴とする音声符号化システム。
【請求項２】前記各音声フレームのエネルギ値を主とし
て各フレームよりも少なくとも0.1秒遅いフレームのエ
ネルギ値に対して正規化するようにしてなる特許請求の
範囲第１項に記載の音声符号化システム。
【請求項３】前記各音声フレームのエネルギ値を前記後
続フレームのピークトラッキングパラメータに対して正
規化し、このピークトラッキングパラメータを前記フレ
ームのエネルギのシーケンスの高エンベロープとほぼ対
応させてなる特許請求の範囲第１項に記載の音声符号化
システム。
【請求項４】前記各音声フレームの音声パラメータによ
り前記各フレームの有声または無声状態を示すようにし
てなる特許請求の範囲第１項に記載の音声符号化システ
ム。
【請求項５】ディジタル音声信号を入力すべく接続さ
れ、この音声信号から各フレームのパラメータがエネル
ギ値を含む複数の音声パラメータのフレームのシーケン
スを生成するアナライザと、後続フレームのエネルギ値
に対して前記各音声フレームのエネルギ値を正規化する
手段と、前記各音声フレームの正規化エネルギパラメー
タを含む前記各音声フレームに対する前記パラメータを
データチャンネルに出力する出力手段と、線形予測符号
化パラメータおよび励起パラメータを含む複数の音声パ
ラメータのフレームのシーケンスを入力する入力手段
と、前記線形予測符号化パラメータに基いて格子フィル
タを構成する手段と、前記励起パラメータに基いて、前
記格子フィルタに対する入力としての励起信号を発生す
る手段と、フィルタの出力をエネルギパラメータに基い
て変調して音声信号出力とする手段とからなることを特
徴とするボイスメールシステム。
【請求項６】前記各音声フレームのエネルギ値を主とし
て各フレームよりも少なくとも0.1秒遅いフレームのエ
ネルギ値に対して正規化するようにしてなる特許請求の
範囲第５項に記載のボイスメールシステム。
【請求項７】前記各音声フレームのエネルギ値を前記後
続フレームのピークトラッキングパラメータに対して正
規化し、このピークトラッキングパラメータを前記フレ
ームのエネルギ値のシーケンスの高エンベロープとほぼ
対応させてなる特許請求の範囲第５項または第６項に記
載のボイスメールシステム。
【請求項８】前記各音声フレームの音声パラメータより
前記各フレームの有声または無声状態を示すようにして
なる特許請求の範囲第５項に記載のボイスメールシステ
ム。
【請求項９】前記パラメータはさらに前記各音声フレー
ムのピッチ情報を含み、前記アナライザにより各フレー
ムのピッチと発声の両者を判定することにより、ピッチ
と発声の判定が相隣るフレーム間で可能な限り円滑に変
化するようにしてなる特許請求の範囲第８項に記載のボ
イスメールシステム。
【請求項１０】音声信号を分析してこの音声信号から各
フレームのパラメータがエネルギ値を含む複数の音声パ
ラメータのフレームのシーケンスを生成し、後続フレー
ムのエネルギ値に対して前記各音声フレームのエネルギ
値を正規化し、前記各音声フレームの正規化エネルギパ
ラメータを含む前記各音声フレームに対する前記パラメ
ータをデータチャンネル内に符号化することを特徴とす
る音声符号化方法。
【請求項１１】前記各音声フレームのエネルギ値を各フ
レームよりも少なくとも0.1秒遅いフレームのエネルギ
値のみに対して正規化するようにしてなる特許請求の範
囲第１０項に記載の音声符号化方法。
【請求項１２】前記各音声フレームのエネルギ値を前記
後続フレームのピークトラッキングパラメータに対して
正規化し、このピークトラッキングパラメータを前記フ
レームのエネルギ値のシーケンスの高エンベロープとほ
ぼ対応させてなる特許請求の範囲第１０項または第１１
項に記載の音声符号化方法。
【請求項１３】音声入力信号を入力すべく接続され、こ
の音声信号から各フレームが複数のパラメータからな
り、かつ、これらのパラメータがエネルギ値を含む音声
パラメータのフレームのシーケンスを生成するアナライ
ザと、これら連続するフレームを符号化するためのエン
コーダと、前記符号化手段に接続され前記エンコーダが
実際の音声信号と対応しないフレームのシーケンスの符
号化を行なわないようにした無声フレーム抑制手段とか
らなり、前記無声フレーム抑制手段は前記フレームの各
々のエネルギ値を第一および第二の適応的に更新された
スレショルド値の関数と比較することを含む複数のステ
ップを実行することにより、前記各フレームが無声ある
いは音声であると判定するようにし、この場合前記第一
のスレショルド値はこれを前記連続するフレームのエネ
ルギ値の高エンベロープの倍数と対応させるとともに、
前記第二のスレショルド値はこれを前記連続するフレー
ムの更新エネルギ値の低エンベロープの倍数と対応さ
せ、さらに前記符号化ディジタル値をデータチャンネル
に出力する出力手段を含むことを特徴とする音声符号化
システム。
【請求項１４】前記アナライザにより前記各音声につい
ての発声の決定を行ない、また前記無声フレーム抑制手
段により前記第一のスレショルド値を前記フレームのう
ち発声されたフレームの期間中のみこれを更新し、さら
にまた前記第二のスレショルド値を前記フレームのうち
発声されないフレームの期間中のみこれを更新するよう
にしてなる特許請求の範囲第１３項に記載の音声符号化
システム。
【請求項１５】前記無声フレーム抑制手段がいったん無
声フレームを判定したときは有声超スレショルド値が検
出されるまではその後有声フレームの判定を行なわず、
この場合、前記有声超スレショルドエネルギフレームお
よびこれに先行し、かつ少なくともそれぞれが前記スレ
ショルドレベル以下のエネルギをもつフレームの所定の
フレーム数だけ前記有声超スレショルドエネルギフレー
ムから分離されていないすべての無声超スレショルドエ
ネルギ音声フレームを有声フレームであると判定するよ
うにしてなる特許請求の範囲第１３項に記載の音声符号
化システム。
【請求項１６】前記無声フレーム抑制手段がいったん有
声フレームを判定したときは、一連のサブスレショルド
エネルギフレームが所定の時間間隔にわたって判定され
たときにのみ、有声フレームの判定を行なうようにして
なる特許請求の範囲第１３項に記載の音声符号化システ
ム。
【請求項１７】前記無声フレーム抑制手段がいったん有
声フレームを判定したときは、前記一連のサブスレショ
ルドエネルギフレームが有声スレショルドエネルギフレ
ームの後、前記所定の時間間隔にわたって検出されたと
きにのみ、有声フレームの判定を行なうようにしてなる
特許請求の範囲第１３項に記載の音声符号化システム。
【請求項１８】ディジタル音声信号を入力すべく接続さ
れ、この音声信号から各フレームのパラメータがエネル
ギ値を含む音声パラメータのフレームのシーケンスを生
成するアナライザと、後続フレームのエネルギ値に対し
て前記各音声フレームのエネルギ値を正規化する手段
と、前記符号化手段に接続され前記エンコーダが実際の
音声信号と対応しないフレームのシーケンスの符号化を
行なわないようにした無声フレーム抑制手段とからな
り、前記無声フレーム抑制手段は前記フレームの各々の
エネルギ値を第一および第二の適応的に更新されたスレ
ショルド値の関数と比較することを含む複数のステップ
を実行することにより、前記各フレームが無声あるいは
有声であると判定するようにし、この場合前記第一のス
レショルド値はこれを前記連続するフレームのエネルギ
値の高エンベロープの倍数と対応させるとともに、前記
第二のスレショルド値はこれを前記連続するフレームの
更新エネルギ値の低エンベロープの倍数と対応させ、さ
らに前記符号化ディジタル値をデータチャンネルに出力
する出力手段を含むことを特徴とする音声符号化システ
ム。
【請求項１９】前記無声フレーム抑制手段がいったん有
声フレームを判定したときは、前記一連のサブスレショ
ルドエネルギフレームが有声スレショルドエネルギフレ
ームの後、前記所定の時間間隔にわたって検出されたと
きにのみ、有声フレームの判定を行なうようにしてなる
特許請求の範囲第１８項に記載の音声符号化システム。
【請求項２０】前記アナライザにより前記各音声につい
ての発声の決定を行ない、また前記無声フレーム抑制手
段により前記第一のスレショルド値を前記フレームのう
ち発声されたフレームの期間中のみこれを更新し、さら
にまた前記第二のスレショルド値を前記フレームのうち
発声されないフレームの期間中のみこれを更新するよう
にしてなる特許請求の範囲第１８項に記載の音声符号化
システム。
【請求項２１】前記無声フレーム抑制手段がいったん無
声フレームを判定したときは有声超スレショルド値が検
出させるまではその後有声フレームの判定を行なわず、
この場合、前記有声超スレショルドエネルギフレームお
よびこれに先行し、かつ少なくともそれぞれが前記スレ
ショルドレベル以下のエネルギをもつフレームの所定の
フレーム数だけ前記有声超スレショルドエネルギフレー
ムから分離されていないすべての無声超スレショルドエ
ネルギ音声フレームを有声フレームであると判定するよ
うにしてなる特許請求の範囲第１８項に記載の音声符号
化システム。
【請求項２２】前記無声フレーム抑制手段がいったん有
声フレームを判定したときは、一連のサブスレショルド
エネルギフレームが所定の時間間隔にわたって判定され
たときのみ、有声フレームの判定を行なうようにしてな
る特許請求の範囲第１７項に記載の音声符号化システ
ム。
【請求項２３】前記所定の時間間隔を0.2秒ないし0.8秒
としてなる特許請求の範囲第２１項または第２２項に記
載の音声符号化システム。
【請求項２４】前記各音声フレームのエネルギ値を主と
して各フレームよりも少なくとも0.1秒遅いフレームの
エネルギ値に対して正規化するようにしてなる特許請求
の範囲第１８項に記載の音声符号化システム。
【請求項２５】前記各音声フレームのエネルギ値を前記
後続フレームのピークトラッキングパラメータに対して
正規化し、このピークトラッキングパラメータを前記フ
レームのエネルギ値のシーケンスの高エンベロープとほ
ぼ対応させてなる特許請求の範囲第１８項に記載の音声
符号化システム。
【請求項２６】ディジタル音声信号を入力すべく接続さ
れ、この音声信号から各フレームのパラメータがエネル
ギ値を含む音声パラメータのフレームのシーケンスを生
成するアナライザと、後続フレームのエネルギ値に対し
て前記各音声フレームのエネルギ値を正規化する手段
と、前記符号化手段に接続され前記エンコーダが実際の
音声信号と対応しないフレームのシーケンスの符号化を
行なわないようにした無声フレーム抑制手段とからな
り、前記無声フレーム抑制手段は前記フレームの各々の
エネルギ値を第一および第二の適応的に更新されたスレ
ショルド値の関数と比較することを含む複数のステップ
を実行することにより前記各フレームが無声あるいは有
声であると判定するようにし、この場合前記第一のスレ
ショルド値はこれを前記連続するフレームのエネルギ値
の高エンベロープの倍数と対応させるとともに、前記第
二のスレショルド値はこれを前記引き続くフレームの更
新エネルギ値の低エンベロープの倍数と対応させ、さら
に前記符号化ディジタル値をデータチャンネルに出力す
る出力手段と、線形予測符号化パラメータおよび励起パ
ラメータを含む複数の音声パラメータのフレームのシー
ケンスを入力する入力手段と、前記線形予測符号化パラ
メータに基いて格子フィルタを構成する手段と、前記励
起パラメータの基いて、前記格子フィルタに対する入力
としての励起信号を発生する手段と、前記格子フィルタ
の出力をエネルギパラメータに基いて変調して音声信号
出力とする手段とを含むことを特徴とするボイスメール
システム。
【請求項２７】前記各音声フレームのエネルギ値を主と
して各フレームよりも少なくとも0.1秒遅いフレームの
エネルギ値に対して正規化するようにしてなる特許請求
の範囲第２６項に記載のボイスメールシステム。
【請求項２８】前記各音声フレームのエネルギ値を前記
後続フレームのピークトラッキングパラメータに対して
正規化し、このピークトラッキングパラメータを前記フ
レームのエネルギ値のシーケンスの高エンベロープとほ
ぼ対応させてなる特許請求の範囲第２６項、または第２
７項に記載のボイスメールシステム。