JP2738533B2

JP2738533B2 - マルチレベル・フィルタ励起を用いる音声合成

Info

Publication number: JP2738533B2
Application number: JP61504055A
Authority: JP
Inventors: パノスプレザス，デミトリオス; リントムソン，ディヴィッド
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1985-08-28
Filing date: 1986-07-24
Publication date: 1998-04-08
Anticipated expiration: 2013-04-08
Also published as: EP0235180A1; KR880700388A; US4890328A; CA1258316A; JPS63500681A; WO1987001500A1; KR970001167B1; EP0235180B1

Description

【発明の詳細な説明】技術分野本発明は圧縮して記憶または伝送し、その後に合成す
るための人間の音声信号のディジタル符号化に係り、特
に人間の音声の再生物を発生するべく合成フィルタを励
起する合成器中で使用される信号の型の関する。発明の背景音声を低ビット速度で記憶しまたは伝送するために音
声を表わすのに要求される１秒当りのビット数を最小化
するように人間の音声をディジタル化し、次いで符号化
する方法が知られている。アナログ音声サンプルは通常
幅が20ミリ秒のオーダの離散的な時間長を有するセグメ
ント即ちフレームに分割される。サンプリングは典型例
では8kHzの速度で実行され、各サンプルはマルチビット
のディジタル数値に符号化される。相続く符号化された
サンプルは更に人間の声道をモデル化する適当なフィル
タの係数／パラメータを決定する線形予測符号器（LP
C）で処理される。フィルタのパラメータは予め定めら
れた数の以前のサンプル値の重み付けられた和に基づい
て各信号サンプルの現在の値を推定するのに使用するこ
とが出来る。フィルタのパラメータは声道の伝達関数の
フォルマント構造をモデル化する。音声信号は解析的に
は励起信号とフォルマント伝達関数より成るものと見做
される。励起成分は喉頭より生じ、フォルマント成分は
声道の残りの部分に対し励起成分を作用させることによ
り生じる。励起成分は更に声帯により空気流に分与され
た基本周波数が存在するか否かに依存して有声または無
声に分類される。声帯により空気流に分与された基本周
波数が存在する場合には、励起成分は有声と分類され
る。励起が無声であると、励起成分は従来技術にあって
は単に白色雑音と分類される。音声を低ビット速度で伝
送するべく符号化するためには、音声のセグメントに対
するLPC係数を決定し、音声を再生する復号回路にこれ
らの係数を転送する必要がある。更に、励起成分を決定
し、この成分を復号回路、即ち合成器に転送する必要が
ある。合成器で使用される励起を決定する１つの方法として
米国特許第4,472,832号中で述べられているマルチパル
ス励起モデルがある。この方法では各フレームに対して
パルスの数を決定し、該パルスはフォルマント・フィル
タを励起するべく合成器によって使用される。これらパ
ルスは前出の特許で述べられている合成による分析法に
よって決定される。このマルチ・パルス励起モデルは9.
6kbsのビット速度では良好に動作するがより低いビット
速度では音声合成の品質は劣化し始める。更に、音声の
有声領域期間中、合成された音声は多少粗くなり、元の
音声と異って来る。マルチ・パルス励起モデルの他の問
題点はパルスの計算は多数の複雑な数学的操作を必要と
するため各フレームに対しパルスを決定するのに多大の
計算を必要とすることである。 LPC合成音声に対する励起を決定するのに使用される
他の方法は音声領域期間中に喉頭によって発生されるピ
ッチ、即ち基本周波数を決定することである。合成器は
ピッチを受信すると相応する周波数を発生してフォルマ
ント・フィルタを励起する。音声が無声であると考えら
れる期間中、その事実が合成器に伝送され、合成器は白
色雑音を使用してフォルマント・フィルタを励起する。
この方法の問題点は白色雑音励起は破裂性子音、有声と
無声の音声フレーム系列の変位点および無声であると誤
って判定された有声フレームに対しては不十分な励起で
あることである。この問題点の結果、合成された音声は
元の音声と同じ音には聞えないことになる。前述のことより、音声の有声および無声領域の両方を
正確にモデル化出来、無声および有声フレーム系列の間
の転移領域を適正に取扱い、かつ破裂性子音も再生する
ような励起モデルの必要性が存在する。発明の概要前述の問題点は本発明に従い図示の実施例により解決
された。この実施例では声道をモデル化するフィルタを
励起するのに使用する励起として音声の有声セグメント
期間中は基本周波数を使用し、音声の雑音セグメント期
間中は白色雑音励起を使用し、有声でも無声でもないセ
グメント期間中は経済的に効率的な方法で計算されたパ
ルスを使用している。励起モデルは整流された残差信号
の平均振幅に関する音声サンプルの残差信号の分散と関
連した閾値に基づいていつ雑音またはパルス励起を使用
するかを決定する。図示の実施例は人間の音声に応動して音声をディジタ
ル化および量子化して複数個の音声フレームにするサン
プルおよび量子化回路を含んでいる。パラメータ・ユニ
ットは各々の音声フレームに対する声道を定義する音声
パラメータの組を計算するのに使用され、他のユニット
はフレームの内どれが有声であり、どれが無声であるか
を指示するのに使用される。各フレームに対し、ピッチ
検出ユニットはフレームの各々に対するピッチを決定
し、他の励起ユニットは複数個の他の型の励起情報を発
生する。チャネル符号器／組合せユニットは有声と指示
されたフレームに応動してピッチ情報を音声パラメータ
の組と組合わせて伝送し、無声と指示されたフレームに
応動して他の型の励起情報の１つを音声パラメータの組
と組合わせて伝送する。他の励起ユニットはパルス型励起を発生するかあるい
は雑音型励起を合成器で使用すべきことを指示する。パ
ルス型励起は各フレームに対する音声サンプルから残差
サンプルを計算し、これら残差サンプルから最大パルス
の部分集合を決定することにより発生される。このパル
スの部分集合は励起の１つの型としてチャネル符号器に
より伝送されるパルス型励起を表わす。本システムは各フレームに対し残差サンプルの分散お
よび整流された残差サンプルの平均振幅を計算すること
により雑音型励起を使用するのか、あるいはパルス型励
起を使用するのかを選択する。次に残差の分散と整流さ
れた残差の平均振幅の二乗の比較が行なわれる。分散と
平均振幅の二乗の比較の結果、予め定められた閾値より
大である場合にはパルス型励起情報を選択すべきことが
指示される。また、音声パラメータの組はフレームの各々に対し線
形予測符号化パラメータの組を計算することにより得ら
れる。更に、各フレームに対するピッチは複数個の同一
のピッチ検出器により発生される。この場合各々のピッ
チ検出器は各フレームに対する音声サンプルの個々の予
め定められた部分に応動して個々のピッチ値を推定す
る。選定ユニットは各々のピッチ検出器からの個々の推
定されたピッチ値に応動して各々のフレームに対する最
終のピッチ値を決定する。図示の実施例は各フレームに対する伝送された励起情
報および音声パラメータを受信するユニットを有する合
成器サブシステムを含んでいる。合成器サブシステムは
ピッチ情報を含んでいる各フレームに応動してピッチ情
報を使用して該フレームに対する音声パラメータに基づ
いて合成フィルタを励起する。励起情報がパルス型励起
であると、音声パラメータと共に伝送されたパルスは合
成フィルタを励起するのに使用される。雑音型励起が指
示されると、雑音発生器は雑音型励起を発生して合成フ
ィルタを駆動する合成サブシステム内において使用され
る。先に詳述した機能はプログラム・インストラクション
の組を実行するディジタル信号プロセッサによって実行
され得る。この場合プログラム・インストラクションの
組は更にディジタル信号プロセッサの実行を制御するイ
ンストラクションの部分集合およびグループに細分割さ
れている。図示の方法はアナログ音声をディジタル・サンプルの
フレームに変換する量子化装置およびディジタイザを有
するシステム中で機能し、該方法は各々が予め定められ
た数のディジタル・サンプルを有する複数個の音声フレ
ームを記憶し、各フレームに対する声道を定義する音声
パラメータの組を計算し、各フレームを有声または無声
と指示し、各フレームに対しピッチ型励起情報を発生
し、各フレームに対し複数個の他の型の励起情報を発生
し、フレームが有声と指示されたときはピッチ励起情報
を音声パラメータと組合せ、フレームが無声であると指
示されたときは音声パラメータを他の励起の型の１つと
組合わせるステップを実行する。また、他の型の励起情報を発生するステップは、ディ
ジタル音声サンプルから各フレームに対する残差サンプ
ルを計算し、残差サンプルからパルス型励起情報である
パルスを決定するステップを実行することによりパルス
型励起情報を発生することを含んでいる。更に、パルス
は、残差サンプルから最大振幅を有する各フレームに対
する残差サンプル内のパルスの部分集合の位置を定める
ことにより決定される。組合わせを行うステップは各フレームに対する残差サ
ンプルの分散および整流された残差サンプルの平均振幅
を計算し、計算された分散と計算された平均振幅の二乗
を比較し、比較の結果、予め定められた閾値より大であ
るとパルス型励起を選択することにより他の型の励起の
１つを選択することを含んでいる。図面の簡単な説明第１図は本発明に従う音声分析器のブロック図；第２図は本発明に従う音声合成器のブロック図；第３図は有声音声を模写する情報を含むパケットを示
す図；第４図は雑音励起を使用する無声音声を模写する情報
を含むパケットを示す図；第５図はパルス励起を使用する無声音声を模写する情
報を含むパケットを示す図；第６図は第１図のピッチ検出器109のブロック図；第７図は音声フレームの候補サンプルの図式表現図；第８図は第１図のピッチ選出器111のブロック図；第９図は第１および２図のディジタル信号プロセッサ
の使用法を示す図；第10〜14図は第１図の分析回路を実現する第９図のデ
ィジタル信号プロセッサの実行を制御するプログラムの
フローチャート；第15〜17図は第２図の合成器を実現する第９図のディ
ジタル信号プロセッサの実行を制御するプログラムのフ
ローチャートである。詳細な説明第１および２図は本発明の焦点である音声分析器およ
び音声合成器を夫々示す図である。第１図の音声分析器
は導線113を介して受信されたアナログ音声信号に応動
してこれらの信号を低ビット速度で符号化してチャネル
140を介して第２図の合成器200に伝送する。チャネル14
0は通信伝送路であっても良いし、後の時点において合
成された音声を要求する種々の応用用途に対して音声合
成を提供し得るような記憶装置であってもよい。そのよ
うな応用用途の１例としてディジタル計算機からの音声
出力がある。第１図に示す分析器はブロック100、112お
よび101を使用してアナログ音声情報をディジタル化
し、量子化する。ブロック102は量子化され、ディジタ
ル化されたサンプルに応動して、人間の声道をモデル化
する線形予測符号化（LPC）係数を発生する。これらの
係数の形成は米国特許第3,740,476号中で述べられてい
る装置または当業者にあって周知の任意の他の装置に従
って実行される。チャネル符号器129を除く第１図の残
りの素子はLPCフィルタ係数によって定義されたモデル
を励起する第２図の合成器200で使用される励起信号を
決定するのに使用される。チャネル符号器129はLPC係数
および励起を規定する情報に応動してこの情報を第３〜
５図に示すようにパケットの形態で合成器200に伝送す
る。第３〜５図はパケットの形態で伝送される情報を示
しているが、当業者にあってはこの情報をメモリ中に記
憶して合成器が後で使用出来るようにすること、あるい
はこの情報を合成器に並列に伝送し得ることは明らかで
ある。LPC係数および励起成分の伝送はフレーム毎に実
行される。ここで１フレームは160サンプルより成る。
励起成分は喉頭により音声に付与された基本周波数を規
定するピッチ、合成器が白色雑音発生器を使用するとい
う指示、あるいはピッチ検出器109および／または110に
よって決定された残差サンプルの組であって良い。どの型の励起を伝送するかの決定は以下に示すような
仕方でブロック111、125および126によって実行され
る。ピッチ検出器109および110はブロック102からの残
差信号ｅ（ｎ）に応動してピッチ選出器111に対し信号
が有声であるか無声であるかを指示し；ブロック107お
よび108はディジタル化された音声サンプルｘ（ｎ）に
応動して、これら信号が有声であるか無声であるかを決
定する。ピッチ選出器111はフレームが有声であるか無
声であるかの最終決定を行う。ピッチ選出器111がフレ
ームは有声であると決定すると、この事実を指示する信
号が信号路131を介してチャネル符号器129に伝送され
る。チャネル符号器129はこの指示に応動して第３図に
示すパケットを形成する。このパケットはLPC係数、フ
レームは有声であるとの指示、ピッチ選出器111からの
ピッチ情報、利得計算器136からの利得情報、および有
声系列の最初のフレームがピッチ選出器111から信号路1
32を介して処理されている場合には第１のパルスの位置
を含んでいる。ピッチ選出器111がフレームは無声であると決定する
と、該ピッチ選出器111はこのことを知らせるために信
号路131を介して素子126およびチャネル符号器129に信
号を伝送する。第１図の分析器は合成器が白色雑音を使
用するという指示を送信すべきか否か、あるいはピッチ
検出器109または110によって決定されたパルスを合成器
に送信すべきか否かを決定しなければならない。後者の
決定は次のようにして実行される。即ちおよびとするときなる条件が満されると、合成器における励起は白色雑音
となる。上記の条件が満されない場合には、パルス励起
が合成器200に伝送される。式（１）は次のように書き
直される：この式において、Ｎはフレーム当りのサンプル数である
160であり、Ｔは約1.8なる値を有している。式（２）の
右辺は第１図のブロック120〜122によって計算され、左
辺はブロック123および124によって計算される。比較器
125は乗算器122および124の出力に応動して式（２）を
評価する。比較器125からのこの評価値は信号路133を介
してチャネル符号器129および判定回路126に送信され
る。比較器125が乗算器124の出力は乗算器122の出力よ
り小さいか等しいことを指示すると比較器125は合成器
において白色雑音励起が使用されるべきことを指示する
信号を信号路133を介して送信する。チャネル符号器129
はこの信号に応動して第４図に示すパケットを形成す
る。このパケットは無声フレームを指示する“0"にセッ
トされたV/vビットと、白色雑音励起を使用すべきこと
を指示する“0"にセットされたパルス状ビットと、利得
ブロック136からの利得と、ブロック102からのLPC係数
とを有している。比較器125は乗算器124の出力が乗算器122の出力より
大であると決定すると、比較器125は励起にパルスを使
用すべきことを指示する信号を信号路133を介して送信
する。現在のフレームに対し、この信号に応動して判定
回路126はピッチ検出器109および110からすべての候補
パルスを送信すべきなのか、またはこれらパルスの１つ
の組のみを送信すべきなのかを決定する。両方のピッチ
検出器からの候補パルスの総数が７以下であると、判定
回路126は信号路138を介してチャネル符号器129に“1"
を送信する。チャネル符号器129は比較器125からの信号
および判定回路126からの“1"に応動して信号路134およ
び135を介して伝送されるすべての候補パルスをすべて
使用して第５図に示すパケットを形成する。ピッチ検出
器109および110からの最大パルスの総数が７より大であ
ると、判定回路126は信号路138を介してチャネル符号器
129に“0"を送信し、信号路139を介してチャネル符号器
129に該チャネル符号器が信号路134または135上のパル
スを利用しようとしているかを指示する。この決定はど
のピッチ検出器が現在のフレームに対して最大のパルス
を有しているかに基づいて行なわれる。ピッチ検出器10
9が最大のパルスを発生すると、判定回路126は“1"をチ
ャネル符号器129に送信する。しかしピッチ検出器110が
最大のパルスを発生すると、判定回路126は“0"をチャ
ネル符号器129に送信する。チャネル符号器129は信号路
138を介して受信された“0"および信号路139を介して受
信された信号に応動して信号路133または134から指示さ
れたパルスの組を選択し、第５図に示すパケットを形成
する。このパケットは無声フレームであることを指示す
る“0"にセットされたV/vビット、パルス励起が使用さ
れることを指示する“1"にセットされたパルス・ビッ
ト、パルスの位置と振幅およびLPC係数を有している。第２図に示す合成器200はチャネル140を介して受信さ
れた声道モデルおよび励起情報に応動して第１図の分析
器によって符号化された元のアナログ音声を再生する。
合成器200は以下のように機能する。第３図に示すよう
に有声情報パケットを受信すると、チャネル復号器201
はLPC係数を信号路216を介して合成フィルタ207に転送
し、ピッチ情報を信号路212を介して、電力レベルを信
号路211を介してピッチ発生器202に転送する。更に、そ
れが有声系列の最初の有声フレームであると、チャネル
復号器は第１のパルスの開始位置を信号路213を介して
ピッチ発生器202に送信する。V/vビットが有声フレーム
を指示する“1"に等しいと、チャネル復号器はセレクタ
206にピッチ発生器202の出力を選択させ、このピッチ発
生器202からの情報を信号路217を介して合成フィルタ20
7に加える。ピッチ発生器202は信号路211〜213を介して
受信された情報に応動して実際の音声の期間中に喉頭に
より発生された基本周波数を再生する。合成フィルタ20
7は声道モデルを規定するLPC係数およびピッチ発生器20
2から受信された励起に応動して音声を表わすディジタ
ル・サンプルを発生する。ディジタル・アナログ変換器
208はフィルタ207によって発生されたこれらディジタル
・サンプルに応動して導線218上に音声のアナログ表現
を発生させる。チャネル復号器201は第４図に示すような雑音励起を
有する無声パケットを受信し、チャネル復号器201は受
信路214を介して信号を送信し、セレクタ205に白色雑音
発生器203の出力を選択させ、チャネル復号器201は信号
路214を介して信号を送信し、セレクタ206にセレクタ20
5の出力を選択させる。更に、チャネル復号器201は電力
ファクタを白色雑音発生器203に送信する。合成フィル
タ207は信号路216を介してチャネル復号器201から受信
されたLPC係数およびセレクタ205および206を介して受
信された白色雑音発生器203の出力に応動して音声のデ
ィジタル・サンプルを発生する。チャネル復号器201がチャネル140から第５図に示すよ
うなパルス励起を有する無声フレームを受信すると、該
復号器201は信号路210を介してパルス発生器204に最大
パルスの振幅に対するパルスの位置と相対振幅を送信
し、信号路211を介して最大パルスの振幅を送信する。
更に、チャネル復号器201はセレクタ205および206を信
号路214および215を夫々介してパルス発生器204の出力
を選択させ、その出力を合成フィルタ207に転送させ
る。次に合成フィルタ207およびディジタル・アナログ
変換器208は音声を再生する。変換器208はその出力に独
立した低域フィルタを有している。更にチャネル復号器
201は信号路216を介してLPC係数を米国特許第3,740,476
号で述べられているかまたは当業者にあっては周知の合
成フィルタ207に送信する。次に第１図に示すピッチ検出サブシステム150によっ
て実行されるピッチ検出機能について更に詳細に考察す
る。クリッパ103〜106は信号路115および116上の到来す
るｘおよびｅなるディジタル化された信号を正に向う波
形および負に向う波形に変換する。これらの信号を形成
する目的は混合波形は明らかな周期性を示さないかも知
れないのに対し、クリップされた信号は明らかな周期性
を示し得ることによる。従って周期性の検出がより容易
となる。クリッパ103および105はｘおよびｅ信号を夫々
正に向う信号に変換し、クリッパ104および106はｘおよ
びｅ信号を夫々負に向う信号に変換する。ピッチ検出器107および110は各々それ自身の個々の入
力信号に応動して到来信号の周期性を決定する。ピッチ
検出器の出力はこれら信号を受信した２フレーム後に得
られる。ここで各フレームはこの例では160のサンプル
点から成っていることに注意されたい。ピッチ選出器11
1は４つのピッチ検出器の出力に応動して最終ピッチを
決定する。ピッチ検出器111の出力は信号路114を介して
伝送される。第６図はピッチ検出器109のブロック図である。他の
ピッチ検出器も類似の設計である。最大値位置検出器
（ロケータ）601は各フレームのディジタル化された信
号に応動して周期性の検査を実行するパルスを検出す
る。最大値ロケータ601の出力は２組の数値である。即
ち候補サンプルである最大振幅を表わす数値Miと、これ
ら振幅のフレーム内の位置を表わす数値Diとである。こ
れら２組の数値はまたピッチ選出器111が現在のフレー
ムは無声であると決定すると、励起パルスとして使用す
るべく遅延回路145に転送される。距離検出器602はこれ
ら２組の数値に応動して周期的を候補パルスの部分集合
を決定する。この部分集合は距離検出器602のこのフレ
ームに対する周期性に関する決定を表わす。距離検出器
602の出力はピッチ追尾装置603に転送される。ピッチ追
尾装置603の目的はディジタル化された進行の相続くフ
レーム間のピッチ検出器のピッチに関する決定を制約す
ることである。この機能を実行するために、ピッチ追尾
装置603は以前の２つのフレームに対して決定されたピ
ッチを使用する。次に最大値ロケータ601によって実行される動作につ
いて詳細に考察する。最大値ロケータ601はまずフレー
ムからのサンプルの中でそのフレーム中の大局的最大振
幅M₀とその位置D₀を同定する。周期性チェックのために
選択された他の点は以下のすべての条件を満さねばなら
ない。まず第１にパルスは局部最大値を有するものでな
ければならない。即ち取り出される次のパルスは既に取
り出されるかあるいは除去されたすべてのパルスを除く
フレーム中の最大振幅を有するものでなければならな
い。何故ならばピッチ・パルスは通常フレーム中の他の
サンプルより大きな振幅を有していると仮定しているの
でこの条件が適用される。第２に選択されたパルスの振
幅は大局的最大値のあるパーセントより大きいか等しく
なければならない。即ちｇを閾値振幅パーセント（例え
ば25％）としてMi＞gM₀でなければならない。第３に、
パルスは既に位置が同定されたすべてのパルスから少く
とも18サンプルは離れていなければならない。この条件
は人間の音声で生じる最大のピッチは約444Hzであり、
これを8kHzのサンプル速度でサンプルすると18サンプル
になるという仮定に基づいている。距離検出器602は再帰的動作をし、フレームの大局的
最大値M₀から最も近隣の候補パルスへの距離を考察する
ことにより開始する。この距離は候補距離dcと呼ばれ、
次式で与えられる。 dc＝|D₀−Di| ここでDiは最も近隣の候補パルスのフレーム内の位置
である。フレーム中のこのようなパルスの部分集合がこ
の距離から息継ぎ間隔Ｂを加減したものだけ隔っていた
ならば、この候補距離は棄却され、新らしい候補距離を
用いて次の近隣候補パルスに対して再び同様な操作が開
始される。Ｂは４から７の間の値を有している。この新
らしい候補距離は次に隣接するパルスと大局的最大値パ
ルスの距離である。ピッチ検出器602が距離dc±Ｂだけ隔った候補パルス
の部分集合を一度決定すると、内挿振幅テストが適用さ
れる。内挿振幅テストM₀と次に隣接する候補パルスの各
々の間の線形内挿を実行し、M₀に直接隣接する候補パル
スの振幅がこれら内挿値の少くともｑ％であることを要
求する。内挿振幅閾値ｑ％は75％である。第７図に示す
候補パルスによって示される例を考察する。dcが正当な
候補距離であるためには次式が成立しなければならな
い。ここで、 dc＝|D₀−D₁|＞18 であり、前述の如く次式が成立する。 Mi＞gM₀ ｉ＝1,2,3,4,5 ピッチ追尾装置603は距離検出器602の出力に応動して
ピッチの周波数と関連するピッチ距離推定値を評価す
る。ここでピッチ距離はピッチの周期を表わしているこ
とに注意されたい。ピッチ追尾装置603の機能は、必要
な場合には４つのテストを実行することによってピッチ
検出器から受信された距離ピッチ距離推定値を修正する
ことによってフレーム間でピッチ距離の推定値が矛盾を
生じないように制約を加えることである。ここで４つの
テストとは音声セグメント・スタートアップ・テスト、
最大息継ぎおよびピッチ倍化テスト、制限テストおよび
急激変更テストである。これらのテストの内の第１のテ
ストである音声セグメント・スタートアップ・テストは
有声領域の開始時点におけるピッチ距離の無矛盾性を保
証するために実行される。このテストは有声領域の開始
とのみ関係しているので、このテストは現在のフレーム
は０でないピッチ周期を有しているものと仮定してい
る。この仮定は先行するフレームおよび現在のフレーム
が有声領域中の第１および第２の音声フレームであると
いうことに等しい。ピッチ距離の推定値がＴ（ｉ）（こ
こでｉは距離検出器602からの現在のピッチ距離の推定
値を表わす）であるとすると、ピッチ検出器603は（各
検出器を通ると２フレーム分の遅延を与えるので）Ｔ^＊
（ｉ−２）を出力する。テストはＴ（ｉ−３）およびＴ
（ｉ−２）が０であるかまたはＴ（ｉ−２）が０でなく
てＴ（ｉ−３）およびＴ（ｉ−４）が０であるときのみ
（これはフレームｉ−２およびｉ−１が有声領域中の夫
々第１および第２の有声フレームであることを意味す
る）実行される。音声セグメント・スタートアップ・テ
ストは２つの無矛盾性テストを実行する。即ち一方は第
１の有声フレームＴ（ｉ−２）に対するテストであり、
他方は第２の有声フレームＴ（ｉ−１）に対するテスト
である。これら２つのテストは相続くフレーム期間中に
実行される。音声セグメント・テストの目的は、有声領
域が実際には開始されていないときに有声領域の開始を
定義する確率を減少させることである。音声領域に対す
る他の無矛盾性テストが最大息継ぎおよびピッチ倍化テ
ストにおいて実行され、そこではただ１つの無矛盾性条
件が要求されるので前記２つのテストは重要な意味を有
している。第１の無矛盾性テストはＴ（ｉ−２）中の右
の候補サンプルとＴ（ｉ−１）およびＴ（ｉ−２）中の
最も左の候補サンプルの距離がピッチ閾値Ｂ＋２内にあ
ることを保証するために実行される。第１の無矛盾性テストに合格すると、次のフレーム期
間中に第２の無矛盾性テストが実行され、第１の無矛盾
性テストが確認した結果と同じ結果がフレーム系列を右
に１つシフトしても得られることが確認される。第２の
無矛盾性テストに合格しないと、Ｔ（ｉ−１）は０にセ
ットされ、（Ｔ（ｉ−２）が０にセットされていなかっ
たとすると）フレームｉ−１は第２の有声フレームとは
なり得ないことを表わす。しかし、両方の無矛盾性テス
トに合格すると、フレームｉ−２およびｉ−１は有声領
域の開始を定義する。Ｔ（ｉ−１）が０にセットされ、
Ｔ（ｉ−２）は０でないと決定され、Ｔ（ｉ−３）は０
であると（これはフレームｉ−２が２つの無声フレーム
の間の有声フレームであることを指示する）、急激変化
テストがこの状況を認知するが、この特殊なテストにつ
いては後述する。最大息継ぎおよびピッチ倍化テストは有声領域中の２
つの隣接した有声フレームにわたるピッチの無矛盾性を
保証する。従ってこのテストはＴ（ｉ−３）、Ｔ（ｉ−
２）およびＴ（ｉ−１）が０でないときにのみ実行され
る。最大息継ぎおよびピッチ倍化テストはまた距離検出
器602によって生じたピッチ倍化誤差をチェックし、補
正する。チェックのピッチ倍化部はＴ（ｉ−２）および
Ｔ（ｉ−１）が無矛盾であるかどうか、またはＴ（ｉ−
２）がＴ（ｉ−１）の２倍と無矛盾（これはピッチ倍化
誤りを意味する）であるかどうかをチェックする。この
テストはまず、Ａが10なる値を有するものとして |T（ｉ−２）−Ｔ（ｉ−１）｜Ａなる式によって実行されるテストの最大息継ぎ部の条件
を満すかどうかをチェックする。前式が満されると、Ｔ
（ｉ−１）はピッチ距離の良好な推定値であり、修正す
る必要はない。しかし、テストの最大息継ぎ部の条件を
満さないと、テストのピッチ倍化部の条件を満すかどう
かを決定するテストを実行しなければならない。テスト
の第１の部分は、Ｔ（ｉ−３）を０でないものとすると
き、なる式で定義されるピッチ閾値内にＴ（ｉ−２）とＴ
（ｉ−１）の２倍の差があるかどうかをチェックする。
この条件が満されると、Ｔ（ｉ−１）はＴ（ｉ−２）に
セットされる。この条件が満されないと、Ｔ（ｉ−１）
は０にセットされる。このテストの第２の部分はＴ（ｉ
−３）が０に等しい場合に実行される。 |T（ｉ−２）−2T（ｉ−１）｜および |T（ｉ−１）−Ｔ（ｉ）｜＞ＡであるとＴ（ｉ−１）＝Ｔ（ｉ−２）である。この条件が満されないとＴ（ｉ−１）は０にセ
ットされる。Ｔ（ｉ−１）に対して実行される制限テストは計算さ
れたピッチが50Hz〜400Hzという人間の音声の範囲内に
あることを保証する。計算されたピッチがこの範囲内に
入らない場合には、Ｔ（ｉ−１）は０にセットされ、フ
レームｉ−１は計算されたピッチを有する有声フレーム
ではあり得ないことを指示する。急激変化テストは前述の３つのテストが実行された後
に実行され、その目的は他のテストが無声領域の中間に
ある有声フレームあるいは有声領域の中間にある無声フ
レームと判定したと決定することである。人間は通常こ
のような音声フレーム系列を発生し得ないから、急激変
化テストは有声−無声−有声あるいは無声−有声−無声
なる系列を除去することによって有声または無声区間は
少なくとも２フレーム長を有することを保証する。急激
変化テストは各々が前述の２つの系列を検出するよう設
計された２つの別個の手順より成る。ピッチ追尾装置60
3が前述と４つのテストを一度実行すると、該装置603は
第１図のピッチ・フィルタ111にＴ^＊（ｉ−２）を出力
する。ピッチ追尾装置603は距離検出器602から次に受信
されるピッチ距離に対する計算を実行するために他のピ
ッチ距離を保持する。第８図は第１図のピッチ・フィルタ111を更に詳細に
示している。ピッチ値推定器801はピッチ検出器107〜11
0の出力に応動して２フレーム前のピッチの初期推定値
Ｐ（ｉ−２）を形成し、ピッチ値追尾装置802はピッチ
値推定器801の出力に応動して３フレーム前の最終ピッ
チ値Ｐ（ｉ−３）をフレームの進行に応じて矛盾がない
に制約する。ピッチ値の決定および送出に加えて、ピッ
チ・フィルタ111はV/u信号と有声領域の開始点における
最初のパルスの位置を発生し、送出する。次にピッチ値推定器801が実行する機能について更に
詳細に考察する。一般に、ピッチ値推定器801によって
受信された４つのピッチ距離の推定値がすべて非０（こ
れは有声フレームを指示）であると、最大および最小の
推定値は棄却され、Ｐ（ｉ−２）は残りの２つの推定値
の算術平均にセットされる。同様に、ピッチ距離の推定
値の内の３つが非０であると、最大および最小の推定値
が棄却され、ピッチ値推定器801はＰ（ｉ−２）を残り
の非０の推定値に等しくセットする。推定値の内２つだ
けが非０であると、ピッチ値推定器801は２つの差がピ
ッチの閾値Ａ内にあるときのみ２つのピッチ距離の推定
値の算術平均に等しくセットする。２つの値の差がピッ
チの閾値Ａ内にない場合には、ピッチ値推定器801はＰ
（ｉ−２）を０に等しくセットする。この決定は、幾つ
かの個々の検出器は誤ってある周期性を検出したが、フ
レームｉ−２は無声であることを指示している。４つの
ピッチ距離推定値の内１つだけが非０であると、ピッチ
値推定器801はＰ（ｉ−２）をその非０の値に等しくセ
ットする。この場合、このピッチ距離の推定値の妥当性
をチェックして以前のピッチの推定値と矛盾がないよう
にするのがピッチ値追尾装置802の役目である。ピッチ
距離の推定値がすべて０に等しいと、ピッチ値推定器80
1はＰ（ｉ−２）を０に等しくセットする。次にピッチ値追尾装置802について詳細に考察する。
ピッチ値追尾装置802はピッチ値推定器801の出力に応動
して３フレーム前のピッチ値の推定値Ｐ^＊（ｉ−３）を
発生するが、この推定はＰ（ｉ−２）およびＰ（ｉ−
４）に基づいて行なわれる。ピッチ値Ｐ^＊（ｉ−３）は
フレームからフレームへの変化に応じて矛盾が生じない
ように選ばれる。最初にチェックされることは有声−無声−有声、無声
−有声−無声、あるいは有声−有声−無声なる形を有す
るフレームの系列である。Ｐ（ｉ−４）およびＰ（ｉ−
２）が非０で、Ｐ（ｉ−３）が０であることによって示
される第１の系列が生じると、最終ピッチ値Ｐ^＊（ｉ−
３）はピッチ値追尾装置802によってＰ（ｉ−４）およ
びＰ（ｉ−２）の算術平均に等しくセットされる。第２
の系列が生起すると、最終ピッチ値Ｐ^＊（ｉ−３）は０
にセットされる。第３の系列に関しては、ピッチ値追尾
装置はＰ（ｉ−３）およびＰ（ｉ−４）の差がピッチの
閾値Ａ以内であるときＰ（ｉ−４）およびＰ（ｉ−３）
が非０であり、Ｐ（ｉ−２）が０であることに応動して
Ｐ^＊（ｉ−３）をＰ（ｉ−３）およびＰ（ｉ−４）の算
術平均にセットする。即ちピッチ値追尾装置802は |P（ｉ−４）−Ｐ（ｉ−３）｜Ａなることに応動して次の操作を実行する。Ｐ（ｉ−３）およびＰ（ｉ−４）が前述の条件を満さ
ない（即ち、両者の差がピッチ閾値Ａ内にない）とピッ
チ値追尾装置802が決定すると、該ピッチ値追尾装置802
はＰ^＊（ｉ−３）をＰ（ｉ−４）の値に等しくセットす
る。前述の操作に加えて、ピッチ値追尾装置802はまたあ
る型の有声−有声−有声フレーム系列に対してピッチ値
の推定値を平滑する操作を実行する。この平滑化操作が
実行される３つの型のフレーム系列が生起する。第１の
系列は次の条件が成立するときである。 |P（ｉ−４）−Ｐ（ｉ−２）｜Ａおよび |P（ｉ−４）−Ｐ（ｉ−３）｜＞Ａこの条件が成立すると、ピッチ値追尾装置802はとセットすることにより平滑化操作を実行する。第２の条件の組は次の関係が成立するときである。 |P（ｉ−４）−Ｐ（ｉ−２）｜＞Ａおよび |P（ｉ−４）−Ｐ（ｉ−３）｜Ａこの第２の条件の組が成立すると、ピッチ値追尾装置
802は次のようにセットする。第３（最後）の条件の組は次式で定義される。 |P（ｉ−４）−Ｐ（ｉ−２）｜＞Ａおよび |P（ｉ−４）−Ｐ（ｉ−３）｜＞Ａこの最後の条件が成立すると、ピッチ値追尾装置802
は次のようにセットする。Ｐ^＊（ｉ−３）＝Ｐ（ｉ−４）第９図はディジタル信号プロセッサを用いて実現した
第１および２図の分析器および合成器の実施例である。
第１および第２図に示す機能を実現するため、第10およ
び15図にフローチャートとして示すプログラムが第９図
のPROM901中に記憶されている。第９図の分析器／合成
器の組合せはチャネル906を介して類似のユニットに接
続されており、音声会話はこれら２つの分析器／合成器
ユニットを用いて通信される。RAM902は第１図に示す各
々のピッチ検出器に対する個々のパラメータの記憶を含
む種々の型の情報を記憶するのに使用される。ピッチ検
出器はPROM901中に記憶されたプログラムの命令を用い
て実現される。第９図の分析器／合成器はアナログ・デ
ィジタル変換器904を用いて到来音声をディジタル化
し、ディジタル・アナログ変換器905を用いてチャネル9
06を介して受信されたディジタル信号のアナログ表現を
出力する。第10図はディジタル信号プロセッサ903によって実行
する第１図のLPC符号器およびフィルタ102のソフトウェ
ア的実現法を示している。第10図のフローチャートとし
て示すプログラムはブロック1001〜1012を実行すること
によりバーグ（Burg）のアルゴリズムを表現している。
このアルゴリズムは各フレームに対するLPC係数および
残差ｅ（ｎ）を計算する。残差ｅ（ｎ）が決定された
後、各フレームに対する電力がブロック1013、1014およ
び1015によって残差サンプルから計算される。次に、第１図のピッチ検出器107〜110は第11図のブロ
ック1101によって実現される。ブロック1101は各々が第
９図のRAM902中に別個の記憶パラメータを有するプログ
ラム命令の共通の組を使用することによって正および負
の音声サンプルならびに正および負の残差サンプルに対
してピッチ検出が実行される。残差サンプルに対し、ピ
ッチ検出期間中に決定された候補パルスは後でパルス励
起として使用するために保存される。ピッチ検出が実行
された後、第１図のピッチ選出器111の機能はブロック1
102および1103によって実現される。V/uビットはブロッ
ク1102によりセットされる。後者のビットは判定ブロッ
ク1104により検定される。V/uビットが“1"にセットさ
れていて音声フレームが有声フレームであることを指示
すると、第14図のブロック1401〜1404および1406および
1407が実行される。ブロック1401および1042はピッチお
よび電力情報をチャネル符号器に夫々送信する。判定ブ
ロック1403はその有声フレームが一連の有声フレーム中
の最初のフレームであるかどうかを決定する。最初のフ
レームであると、ブロック1404はチャネル符号器に第１
のピッチ・パルスの位置を送信する。この情報は合成器
がピッチ情報を適正に使用するのに使われる。次に、ブ
ロック1406および1407はLPC係数k_iをチャネル符号器に
送出する。次にチャネル符号器は周知の技法を用いたバ
イト形態でチャネルを介して合成器に受信した情報を送
信する。 V/uビットが“0"にセットされていると、判定ブロッ
ク1104は制御をブロック1105〜1201に切換える。このブ
ロック1105〜1201は式（２）の左辺および右辺を決定す
るのに必要な計算を実行する。これらの計算が実行され
ると、パルス励起を用いるか雑音励起を用いるかに関す
る決定が式（２）の最終ステップを実現する判定ブロッ
ク1202により実行される。雑音励起を使用すべきとの決
定がなされると、制御は第12図のブロック1203および第
14図のブロック1405〜1407にわたされる。これらのブロ
ックは合成器が雑音励起を使用するためにチャネル符号
器に対する情報を準備し転送する。パルス励起を使用するとの判定がなされると、判定ブ
ロック1202は制御を第12図のブロック1204および1205に
わたす。ブロック1204を実行すると“1"がチャネル符号
器に送信され、パルス励起を実行すべきことを指示し、
ブロック1205を実行すると最大候補パルスの振幅がチャ
ネル符号器に送信される。最大候補パルスは第11図のブ
ロック1101によって実現されたピッチ検出器により決定
される。この情報がチャネル符号器に転送された後、第
13図の判定ブロック1301が実行される。判定ブロック13
01の目的は第11図のブロック1101によって見出された候
補パルスの内どれを合成器に転送すべきかを決定するこ
とである。残差ピッチ検出器によって見出された候補パ
ルスの総数が７以下であると、すべての候補パルスが転
送される。見出された候補パルスの数が７より大である
と、最大振幅の候補パルスを有していたピッチ検出器か
らの候補パルスがチャネルに転送される。パルスの総数
が７より大であると、最大振幅の候補パルスが負または
正の残差サンプルのいずれのサンプル中に存在していた
かを決定する判定ブロック1302が実行される。最大パル
ス振幅が負の残差サンプル中に存在するならば、ブロッ
ク1303および1304が実行され、候補パルスが負の残差サ
ンプルからチャネル符号器に転送される。最大振幅候補
パルスが正の残差サンプル中に存在するという決定が判
定ブロック1302によって行なわれると、ブロック1309お
よび1310が実行され、候補パルスが正の残差サンプルか
らチャネル符号器に送信される。ブロック1304により転
送された情報は各候補パルスの振幅と位置である。振幅
情報はブロック1205によりチャネル符号器に転送された
最大振幅の候補パルスの振幅に対する相対振幅である。負および正の残差サンプル中の候補パルスの総数が７
以下であると判定ブロック1301により決定されると、ブ
ロック1305、1306、1307および1308が実行され、正およ
び負の残差サンプルに対するすべての候補パルスがチャ
ネル符号器に転送される。前述の動作が実行された後、ブロック1311が実行さ
れ、チャネル符号器に対しすべてのパルスが伝送された
ことを指示する。ブロック1311の実行後、第14図のブロ
ック1406および1407が実行され、LPC係数がチャネル符
号器に転送される。ピッチ、雑音またはパルス励起情報
がLPC係数および電力情報と共にチャネル符号器に転送
されると、次のフレームに対して同様な操作が繰返され
る。第２図の合成器を実現する第９図のディジタル信号プ
ロセッサ903のプログラムが第15,16および17図に示され
ている。第15図のフローチャート中に示されているプロ
グラム・ステップは合成フィルタ207を実現するプログ
ラム命令を駆動するのに使用される励起の型を決定す
る。第15図に示すプログラム・ステップはフレームの型
を決定し、ある種のパラメータを読み出す。ブロック15
01はまずチャネル復号器からV/vビットを得、第２図の
セレクタを実現する判定ブロック1502はV/uビットが夫
々有声または無声音声情報を指示する“1"または“0"の
いずれであるかを決定する。有声情報であると指示され
ると、ブロック1503および1504が実行され、チャネル復
号器からピッチおよび電力情報が得られる。この情報を
得た後、判定ブロック1505の実行によってこれが有声領
域の最初のフレームであるか否かを決定するチェックが
行なわれる。有声領域の最初のフレームである場合に
は、ブロック1506が実行され、有声フレーム内の最初の
ピッチ・パルスの位置が得られる。情報が無声であると決定されると、ブロック1507が実
行される。このブロックはチャネル復号器からパルス・
ビットを得る。パルス・ビットが“1"であるか“0"であ
るかに基づいて判定を行うブロック1508はパルス励起ま
たは雑音励起を夫々使用するプログラム命令を実行し、
第２図のセレクタ205の役割を実行する。パルス・ビッ
トが“0"で雑音励起を指示する場合、電力はブロック15
12によってチャネル復号器から得られる。パルス・ビッ
トが“1"でパルス励起を指示する場合、ブロック1509〜
1511が実行され、パルス励起に使用される候補パルスの
最初のパルス位置が得られる。第１のフレーム型パルスが決定されると、第16および
17図のフローチャート中に示すプログラム・ステップが
実行される。ブロック1603〜1610は励起に使用されるパ
ルスを決定し、ブロック1701〜1707は合成フィルタを実
現している。判定ブロック1603は音声のフレームが完全
に合成された時点を決定する。判定ブロック1604は再び
フレームが有声であるか無声であるかを決定する。有声
フレームであると、ブロック1610が実行され、ピッチ励
起のための次のパルスが決定され、合成フィルタのプロ
グラムされた命令はその後に実行される。フレームが無声であると、判定ブロック1605が実行さ
れ、雑音励起とパルス励起のいずれを使用するかが決定
される。雑音励起が使用される場合には、判定ブロック
1606が使用され、合成フィルタのプログラムされた命令
によって使用されるパルスが得られる。パルス励起が使
用される場合には、ブロック1607〜1609が実行され、使
用される適正なパルス励起パルスが決定される。合成フィルタは周知のLPC合成技法を使用してブロッ
ク1701〜1707により実現される。音声のフレーム全体が
合成された後、第16〜17図に示すプログラムされた命令
は音声の次のフレームに対して繰返される。前述の実施例は本発明の原理を単に例示するものであ
り、当業者にあっては本発明の精神および範囲を逸脱す
ることなく他の装置を考案し得ることを理解されたい。

フロントページの続き (72)発明者トムソン，ディヴィッドリンアメリカ合衆国 60555 イリノイズ, ウォーレヴィル，バーチウッドドライヴ３エス126 (56)参考文献特開昭56−147200（ＪＰ，Ａ) 特開昭58−12000（ＪＰ，Ａ) 特開昭57−6898（ＪＰ，Ａ) 特開昭60−87400（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】１．人間の音声を分析及び合成する処理システムであっ
て、各々が予め定められた数の該音声の瞬時振幅の等間隔サ
ンプルを有する複数個の音声フレームを記憶する手段
（112、101）と、各々の音声フレームについて声道を規定する音声パラメ
ータ信号の集合を計算する手段（102）と、該音声フレームの各々についてその音声フレームが有声
であるか無声であるかを決定する手段（111）と、有声であると決定された該音声フレームの各々について
ピッチ型励起情報を発生する手段（107−110）と、無声であると決定された該音声フレームの各々について
パルス型励起情報を生成する手段（109、110）と、有声であると決定された該音声フレームの各々に応答し
て該ピッチ型励起情報と該音声パラメータ信号の集合を
結合する手段（129）とを含み、該結合する手段は、更に無声であると決定された該音声
フレームの各々に応答して該パルス型励起情報もしくは
雑音型励起情報のうちのいずれか１つを選択する手段
（120−125）及びその選択された１つを該音声パラメー
タ信号の集合と結合する手段（129）を含むものであ
り、そして該処理システムは、更に有声であると決定された該音声フレームの各々について
該ピッチ型励起情報及び該音声パラメータ信号の集合を
含む該結合された励起情報を通信するとともに、無声で
あると決定された該音声フレームの各々について該パル
ス型励起情報もしくは該雑音型励起情報のうちの選択さ
れた１つ及び該音声パラメータ信号の集合を含む該結合
された励起情報を通信する手段（129）を含むことを特
徴とする音声の分析・合成処理システム。２．請求の範囲第１項に記載のシステムにおいて、該パルス型励起情報を生成する手段が、該複数の音声フ
レームのうちの無声であると決定された各フレームにつ
いて該音声サンプルからパルスを決定する手段を含むこ
とを特徴とする音声の分析・合成処理システム。３．請求の範囲第２項に記載のシステムにおいて、該パルスを決定する手段が該複数の音声フレームのうち
の無声であると決定された各フレームについて該音声サ
ンプルから残差サンプルを計算する手段、及び該複数の
音声フレームのうちの無声であると決定された各フレー
ムについて最大の振幅を有する該残差サンプルのパルス
の部分集合を配置する手段を含むことを特徴とする音声
の分析・合成処理システム。４．請求の範囲第３項に記載のシステムにおいて、該パルス型励起情報もしくは雑音型励起情報のうちのい
ずれか１つを選択する手段が、該複数の音声フレームの
うちの無声であると決定された各フレームについて残差
サンプルの分散を計算する手段、該残差サンプルを整流する手段、整流された残差サンプルの平均振幅を計算する手段、該複数の音声フレームのうちの無声であると決定された
各フレームにおける該整流された残差サンプルの平均振
幅の２乗を計算する手段、該複数の音声フレームのうちの無声であると決定された
各フレームについて残差の計算された分散を整流された
残差の平均振幅の計算された２乗と比較する手段、及び比較結果が予め定められたしきい値よりも大きいとされ
た際に該パルス型励起情報を選択すべきことを指定する
手段を含むことを特徴とする音声の分析・合成処理シス
テム。５．請求の範囲第３項に記載のシステムにおいて、該パルス型励起情報もしくは雑音型励起情報のうちのい
ずれか１つを選択する手段が、該フレームの各々の各残
差サンプルを２乗する手段、該フレームの各々に対しての２乗残差サンプルのすべて
の総和をとる手段、該フレームの各々についての該２乗された残差サンプル
の総和をとることによりフレーム中の該予め定められた
数のサンプルを乗算してある値を発生する手段、該フレームの各々における該残差サンプルの各々に対す
る絶対値を得る手段、該フレームの各々についての絶対値の残差サンプルのす
べての総和をとる手段、該フレームの各々についての総和された絶対値の残差サ
ンプルを２乗して別の値を発生する手段、該ある値を該フレームの各々についての該別の値と比較
する手段、及び該比較の結果予め定められたしきい値よ
りも大きいとされた際に該パルス型励起情報を選択すべ
きことを指定する手段とを含むことを特徴とする音声の
分析・合成処理システム。６．請求の範囲第５項に記載のシステムにおいて、該音声パラメータ信号の集合を計算する手段が該フレームの各々について線形予測符号化された情報の
集合を計算する手段を含むことを特徴とする音声の分析
・合成処理システム。７．請求の範囲第６項に記載のシステムにおいて、該ピッチ型励起情報を発生する手段がその各々が該フレ
ームの各々の該音声サンプルの個々の予め定められた部
分を利用するものである複数の同一の手段であって、該
フレームの各々について個々のピッチ値を推定するため
の複数の同一の手段、及び該推定された個々のピッチ値の各々を推定する該推定手
段の各々に応動して該フレームの各々について最終ピッ
チを決定する手段を含むことを特徴とする音声の分析・
合成処理システム。８．請求の範囲第７項に記載のシステムにおいて、該最終のピッチ値を決定する手段が、各々が該フレームの各々について該推定手段の個々の１
つから受信された該推定された個々のピッチ値から該最
終のピッチを計算する手段、及び該フレームの各々についての計算された最終値が該フレ
ームの該各々に対して該フレームの以前のものから計算
されたピッチ値と一致するように該ピッチ値を制約する
手段を含むことを特徴とする音声の分析・合成処理シス
テム。９．請求の範囲第５項に記載のシステムにおいて、更に該フレームの各々についての該結合された励起情報及び
音声パラメータ信号の集合の通信されてきたものを受信
する手段、該ピッチ励起情報が通信されてきた際に、該音声パラメータ信号の集合と該励起情報とを使用して
各フレーム音声を合成する手段を含み、該合成する手段が更に、該音声パラメータ信号の集合と
該パルス型励起情報又は雑音型励起情報の１つを使用す
るものであって、該パルス型励起情報又は雑音型励起情
報の該１つが通信された際、該励起情報のうちの該１つ
のものを利用して各フレーム音声を合成するものである
ことを特徴とする音声の分析・合成処理システム。１０．請求の範囲第９項に記載のシステムにおいて、該合成する手段が、更に該パルス型励起情報又は雑音型励起情報が通信されてき
た際に無声型の信号を発生する手段、該パルス型励起情報が通信されてきた際にパルス型の信
号を発生する手段、該無声型の信号の存在及び該パルス型の信号の不存在に
応動して雑音型励起信号を発生する手段、及び該パルス型信号に応動して該パルス型励起情報を選択す
る手段を含むことを特徴とする音声の分析・合成処理シ
ステム。