JPH02203398A

JPH02203398A - スピーチ処理、合成と解析方法及びその装置

Info

Publication number: JPH02203398A
Application number: JP1087179A
Authority: JP
Inventors: David L Thomson; デビッド・エル・トムソン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1988-04-08
Filing date: 1989-04-07
Publication date: 1990-08-13
Also published as: US5179626A; EP0337636A3; CA1336456C; EP0337636A2; DE68916831D1; EP0337636B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声処理に関する。

（従来の技術）シヌソイド（ｓｉｎｕｓｏｌｄ）の和を用いて合成を行
う高調波モデルを用いて正確なスピーチ表現を実証した
。解析器によってスピーチを複数のオーバラップフレー
ム（ｏｖｅｒｌａｐｐｉｎｇ　ｆｒａｍｅｓ）に区切り
、各ウィンドをハミングウィンドウ（ＨａｌＩｉｌｏｇ
　ｗｉｎｄａｙ）　Ｌ、レベル／位相スペクトル（ｍａ
ｇｎ１ｔｕｄｅ／ｐｈａｓｅ　５ｐｅｃｔｒｕ１１）を
構築し、個々のシヌソイドの位置をチエツクする。続い
てシヌソイドの正確な。

位相１周波数を合成器へ送り、合成器によって合成スピ
ーチを生成する。非量子化高調波スピーチコーディング
システムにおいては、得られたスピーチの質は、はとん
どの人が合成スピーチからオリジナルスピーチを識別で
きるないという点で、はぼ透過である。この方式を低ビ
ツト速度で適用することは、最高８０個の高調波を必要
とするために困難である。（ここで言うシヌソイドとは
高調波を言うが、必ずしも高調波に関するものであると
は限らない）−船釣には、ピッチ（ｐｉｔｃｈ）とボイ
シング（ｖｏｌｃｌｎｇ）を導入するか又は、特定の又
はすべての位相情報を落す（ｄｒｏｐ）ことによって９
゜６キロビツト／秒以下のビット速度を確保する。

そうすれば量と堅牢度（ｒｏｂｕｓｔｎｅｓｓ）が非量
子化スピーチと異なる合成スピーチが得られる。

１つの先行技術としての高調波スピーチコーディングシ
ステムがＲ，Ｊ、ＭｃＡｕｌａｙ／Ｔ、Ｆ、Ｑｕａｔｉ
ｅｒｉ著″Ｍｕｌｔｉｒａｔｅ　５ｉｎｕｓｏｌｄａｌ
　ｔｒａｎｓｆｏｒｍ　ｃｏｄｉｎｇ　ａｔｒａｔｅｓ
　ｆｒｏ１１２．４　ｋｂｐｓ　ｔｏ　８　ｋｂｐｓ　
　（２，４〜８ｋｂｐｓマルチ速度正弦波変、換コーデ
ィング）Ｐｒｏｃ、　ＩＥＥＥ　Ｉｎｔ、　Ｃｏｎｆ’
、Ａｃｏｕｓｔ、、５ｐｅｅｃｈ、　ａｎｄ　Ｓｉｇｎ
ａｌ　Ｐｒｏｃ、、ｖｏｌ、３．Ｉ）ｐ、１８４５−１
８４８．Ａｐｒｉｌ　１９８７に紹介されている。ピッ
チ検知器を用いて、基本ピッチを決定し、この決定され
たピッチとその倍数で、スピーチスペクトルを線スペク
トルとしてモデル化する。この決定されたピッチの値は
解析器から合成器に伝送され、そこで、基本周波数と倍
数でシヌソイドの和として、スピーチを再構成する。

このようにして達成された音声の質には限界がある。そ
れは、大部分の入力音声のエネルギは線スペクトルの線
間に存在し、非音声スピーチには別のアプローチが要求
されるからである。

（発明が解決しようとする課題）上記の従来技術の問題点は、公知の音声コーディングシ
ステムで達成できる音声の質の低さである。この従来の
システムは、入力音声を少ない基本周波数と倍数でもっ
て、線スペクトルとして、モデル化するだけである。

人力音声レベルスペクトルを解析器で比較的小さなパラ
メータセットで、線レベルスペクトルではなく、連続レ
ベルスペクトルとして、モデル化する高調波スピーチコ
ーディングシステムでスピーチの質を向上させる本発明
の原理によって前記の開発ニーズを満し、技術の進歩を
図ることができる。

（課題を解決するための手段及び作用）解析器ではなく
合成器によって、多数のシヌソイドのレベル、周波数、
位相を決定し、このシヌソイドを加えて、高質の音声を
生成する。解析器からシヌソイドを明確に定義する情報
を受信するのではなく、合成器が、少数のパラメータセ
ットを受信し、これらのパラメータセットを利用して、
スペクトルを決定し、合成器によって、合成用のシヌソ
イドを決定する。

高調波スピーチコーディングシステムの解析器において
、本発明の方法に従って、まずスピーチからレベルスペ
クトルを求めることによってスピーチを処理する。パラ
メータセットを計算し、この決定されたレベルスペクト
ルを連続レベルスペクトスルとして、モデリーングし、
このパラメータセットがスピーチ合成用に通信するのに
用いられる。

高調波スピーチコーディングシステムの合成器において
、スピーチは、本発明の方法に従って、パラメータセッ
トを受信し、このパラメータセットからスペクトルを求
めることによって、スピーチを合成する。このスペクト
ルを用いて、複数のシヌソイドを決定し、少なくとも１
つのシヌソイドの正弦波周波数は、スペクトルの振幅値
に基づいて決定される。その後、スピーチはシヌソイド
の和として合成される。

上記の高調波スピーチコーディングシステムの解析器に
おいて、レベルスペクトルは４！の関数の和としてモデ
ル化される。この４個の関数は、先行スピーチフレーム
の推定レベルスペクトル、第１周期パルス列のレベルス
ペクトル、第２周期パルス列のレベルスペクトル、コー
ドブックから選択されたベクトルである。パラメータセ
ットは計算されて、最少平均二乗誤差基準にしたがって
、レベルスペクトルをモデル化する。位相スペクトルも
、スピーチから決定されて、位相スペクトルは、推定位
相とコードブックから選択されたベクトルの２個の関数
の和として位相スペクトルをモデル化する第２のパラメ
ータセットを計算するのに使用される。推定位相は、全
極解析法、極−零解析法、先行スピーチフレームからの
位相予測を実行し、誤差基準にしたがって、最適推定を
選択することにより、決定される。解析器は、位相推定
に使用されるレベルスペクトルから複数のシヌソイドを
求め（決定し）、シヌソイドの振幅と周波数及び、フレ
ームのピッチ比率を考慮にいれたマツチング基準を用い
て、現在のスピーチフレームのシヌソイドと先行及び後
続のスピーチフレームのシヌソイドとマツチングさせる
。

上記の高調波スピーチコーディングシステムの解析器に
おいては、受信したパラメータに基づいて、推定レベル
スペクトルと推定位相スペクトルを共に求める。複数の
シヌソイドは、推定レベルスペクトルから、その中にピ
ークを求めるプロセス、このピークに関係す−るスペク
トル成分を減算するプロセス、上記プロセスを推定レベ
ルスペクトルが全周波数に対して限界値以下になるまで
繰り返すプロセスを実行することにより、決定される。

スペクトル成分はここで定義される広いレベルスペクト
ルウィンドウを含んでいる。現在のスピーチフレームの
シヌソイドと先行及び後続のスピーチフレームのシヌソ
イドとは、解析器で使用されるのと同一のマツチング基
準を用いてマツチングさせられる。このシヌソイドは、
推定レベルスペクトルから決定された正弦波振幅と周波
数と、推定位相スペクトルから決定された正弦波位相と
を有している。音声は、これらのシヌソイドを加算する
ことにより合成され、マツチングされたシヌソイド間で
内挿が行われ、マツチングされなかったシヌソイドは、
一定周波数で残留する。

（実施例）本発明の高調波スピーチコーディングシステムにおいて
は、個々の高調波を送るのではなく、複合スペクトル（
ｃｏｍｐｌｅｘ　５ｐｅｃｔｒｕａ＋）全体を一括して
送る。この方式の１つの利点としては、解析器ではなく
合成器がシヌソイドの周波数を加金せて合成スピーチを
生成するため、各高調波の周波数を送る必要がない。高
調波は、スペクトルから直接求められるから、基本ピッ
チ（ｆｕｎｄａｍｅｎｔａｌ　ｐｉｔｃｈ）に高調波と
して関係づける必要はない。　連続スピーチスペクトル
を低ビツト速度で送るためには、少数のパラメータで記
述することができる一組の連続関数でスペクトルを特定
しなければならない。関数は、入力スピーチの高速フー
リエ変換（Ｆ　Ｆ　Ｔ　　ｆａｓｔ　Ｆｏｕｒｉｅｒ　
ｔｒａｎｓｆｏｒｍ　）によって計算するレベル／位相
スペクトルに整合している。これは、特殊冗長性を利用
することができるために実スペクトルと仮想スペクトル
を整合させるよりも容易である。−例として、スペクト
ルは１つのフレームから次のフレームにかけて比較的不
変であり、位相は周波数に比例して大きくなるから、振
幅と位相は部分的に先行フレームから予測することがで
きる。

レベルと位相を表現する他の有益な関数は極／零モデル
（ｐｏｌｅ−ｚｅｒｏ　ｍｑｄｅｌ）である。理想パル
スに対する極／零フィルタのレスポンスとして音声をモ
デリングし、フィルタパラメータからレベルと位相を導
出する。モデル推定量（ｍｏｄｅｌ　ｅｓｔｌｍａｔｅ
）に残っているエラーをベクトル量子化する。

−組の関数でスペクトルを整合させた後、モデルノ、イ
ラメータを合成器・へ送り、そこでスペクトルを再構築
する。ピッチとボイシング（ｖｏｔｅｉｎｇ）に基づく
方法と違って、この方式はパラメータ推定誤差（ｐａｒ
ａｍｅｔｅｒ　ｅｓｔｉｍａｔｌｏｎ　ｅｒｒｏｒ）の
影響を受けない。　本発明の１つの代表的実施態様とし
てのシステムのスピーチコーディングプロセスは次の通
りである。

解析：１、　極と零で複合スペクトルエンベロープ（ｃｏｍｐ
ｌｅｘ　５ｐｅｃｔｒａｌ　ｅｎｖｅｌｏｐｅ）をモデ
リングする。

２、　複合スペクトルエンベロープからレベルスペクト
ルエンベローブを求める。

３、　　レベルスペクトルの微細ピッチストラクチ＋　
（ｆｌｎｅ　ｐｉｔｃｈ　５ｔｒｕｃｔｕｒｅ）をモデ
リングする。

４、　残留エラーをベクトル量子化する。

５、　位相スペクトルをモデリングする２つの方法を評
価する：ａ、極／零モデルから位相を導出す。

ｂ、先行フレームから位相を予測する。

６、　ステップ５において最良方法を選び、残留エラー
（ｒｅｓｉｄｕａｌ　ｅｒｒｏｒ）をベクトル量子化す
る。

７、　　モデルパラメータを送る。

合成１、レベルスペクトルと位相スペクトルを再構築する。

２、レベルスペクトルから正弦周波数を求める。

３、シヌソイドの和としてスピーチを生成する。

レベルスペクトルモデリングできるだけ数の少ないパラメータでスペクトルレベル（
ｓｐｅｃｔｒａｔ　ｍａｇｎｉｔｕｄｅ）を表現するた
めには、スペクトルの冗長性を活用する。レベルスペク
トルは、スペクトルの全体形状を設定するエンベロープ
と、微細ストラクチ＋　（ｆ’ｉｎｅ　５ｔｒｕｃｔｕ
ｒｅ）を付与する略周期成分（ａｐｐｒｏｘｉｍａｔｅ
ｌｙ　　ｐｅｒｉｏｄｉｃ　ｃｏｒａｐｏｎｅｎｔｓ）
とで構成されている。全極（ａｌｌ−ｐｏｌｅ　ｍｏｄ
ｅｌ）又は極／零モデルのレベルレスポンス（ｍａｇｎ
ｉｔｕｄｅ　ｒｅｓｐｏｎｓｅ）で滑らかなレベルスペ
クトルエンベローブを表現する。非理想的状態の時に周
期性は明白に存在しているが、しばしば堅牢性が欠ける
時に、ピッチ検出器（ｐｉｔｃｈ　ｄｅｔｅｃｔ。

「）が微細ストラフチャを表現できる。数多くのスピー
チ特性に対してレベルスペクトルにぴったりフィツトす
る１つのパラメータ関数を見付は出すことは困難である
。複数の関数の加重和　（ｖｅｉｇｈｔｅｄ　５ｕＩ１
１）から１つの信頼し得る推定値を構築することができ
る。特に有効であることが確認された関数は、先行フレ
ームの推定レベルスペクトルと、２つの周期パルス例の
レベルスペクトルと、コードブックから選択したベクト
ルの４っである。

パルス例とコードワード（ｃｏｄｅｖｏｒｄ）をレベル
エンベロープによって時間領域でハミングウィンドし、
周波数領域で重みづけし、スペクトルの全体形状を保持
する。周知の平均二乗誤差（ＭＳＥｍｅａｎ　５ｑｕａ
ｒｅｄ　ｅｒｒｏｒ）法によって最適重みを見出す。

各パルス列の最適周波数と最適コードベクトルは同時に
選択せず、−度に１つの周波数を見出し、続いてコード
ワードを選択する。ｍ個の関数ｄｔ（ω）、１≦ｉ≦ｍ
と、それに対するｍ個の重みα１．。がある場合は、レ
ベルスペクトル　ＩＦ　（ω）Ｉの推定値は次式で与え
られる：ＩＦ（ω）１＝Σ帆ｍｄｉ（ω）、　　　　　　−（１
）戸ｌレベルスペクトルは線スペクトルではなく連続スペクト
ルとしてモデリングする。重みは、次式を最小にするも
のを選ぶ。

ここでＦ（ω）はスピーチスペクトルであり、ω　はサ
ンプリング周波数であり、ｍは含まれている関数の数で
ある。

第１パルス例の周波数」よ、可能周波数レンジ（４０乃
至４（ｌＧＨｚ　）を試験し、ｍ−２で（２）式を最小
にするものを選ぶ。各候補周波数についてα　　の最適
値を計算する。ｍ−３で同じブロモ１、ｍスを繰返し、第２周波数を見出す。非音声スピーチ（ｕ
ｎｖｏｉｃｅｄ　５ｐｅｅｃｈの場合のようにレベルス
ペクトルが周期ストラクチ＋　（ｐｅｒｉｏｄｌｃ　５
ｔｒｕｃｔｕｒｅ）を持っていない時は、パルス列の中
の１つが時々低周波数を持っており、ウィンドウィング
の効果で関連スペクトルが比較的スムーズになる。

コードベクトルはｍ＝４で（２）式を最小にするコード
ブックエントリであり、サーチング（ｓｅａｒｃｈｉｎ
ｇ）によって見出す。本発明のシステムにおいては、ラ
ンダム周波数とランダム振幅を有する１６個のシヌソイ
ドのＦＦＴによってコードワードを構築する。

位相モデリング良好なスピーチクォリティを確保するためには正弦波ス
ピーチ合成器において位相を正しく表現することが重要
である。レベルスペクトルと違って、位相スペクトルは
高調波で整合させるだけで良い。従って解析器と合成器
の両方において高調波を求める。本発明の実施態様にお
いては２つの位相推定法を用いる。２つの方法を各スピ
ーチフレームについて評価し、エラーが小さい方の方法
を採用する。第１の方法はパラメータ法であり、ピッチ
パルスの位置とスペクトルエンベロープとからを位相を
導き出す。第２の方法は、位相が連続していることを前
提とし、先行フレームの位相から位相を予測する。

最小位相を前提としてレベルスペクトルから位相を導出
す高調波位相モデルを作った。声楽位相関数（ｖｏｃａ
ｌ　ｔｒａｃｔ　ｐｈａｓｅ　ｆｕｎｃｔｉｏｎ）φｋ
を全極モデルから直接導き出すこともできる。周波数が
ω、の高調波の実位相θ、とφ、との関係は次式％式％ここで１０はピッチパルスの立上り（ｏｎｓｅｔ）の時
間位置であり、λは整数であり、ε、は推定誤差（ｅｓ
ｔｉＩＩｌａｔｉｏｎ　ｅｒｒｏｒ）即ち位相残留誤差
（ｐｈａｓｅ　　ｒｅｓｉｄｕａｌ）である６＋ εにの分散（ｙＢｒｉａｎｃｅ）は、全極モデルに代え
て匪／零モデルを用いることによってほぼ完全に抑制す
ることができる。声門パルス（ｇｌｏｔｔａｌｐｕｌｓ
ｅ）の形状が理想パルスから隔たっている時には、零に
よって鼻音（ｎａｓａｌ）とスピーチを表現することが
できる。複合スペクトル誤差を最小にする方法によれば
、ｐ個の極とｑ個の零とで構成されるフィルタＨ（ωｋ
）を係数ａ１、ｂｉで指定する：最適フィルタは総二乗スペクトル誤差を最小にする：Ｈ（ωｋ）はスペクトルエンベロープのみをモデリング
する故、ω、１≦に≦にはレベルスペクトルのピークに
相当する。この式の閉解（ｃｏｏｓａｄ　ｆ’ｏｒｉ　
５ｏｌｕｔｉｏｎ）は知られていない故、反復法を用い
る。一定範囲の値１０を試し、Ｅ、を最小にする値を選
ぶことによってパルスの位置を認識する。Ｈ（ωｋ）が
最小パルスであることは強制されない。極／零フィルタ
が正確な°位相スペクトルを出すが、レベルスペクトル
に誤差を生じる場合がある。このような場合の最も簡単
な解決方法としては全極フィルタに切替える。

Ｍ２の位相推定法は、周波数がフレームからフレームに
かけて直線的に変化し、位相が連続していることを前提
とする。この２つの条件が満されれば、先行フレームか
ら位相を予測することができる。高周波の位相の推定増
分はｔｗｋである（ωえは高調波の平均周波数であり、
ｔはフレームとフレームとの間の時間である）。この方
法は、先行フレームの正確な推定値が得られ、高調波が
フレームとフレームとの間で正確に整合している場合に
有効である。誤差を最小にする方法によって位相を推定
した後、ε、残留位相（ｐｈａｓｅ　ｒｅｓｉｄｕａｌ
）が残る。残留位相１え、εｋを０個のコードワードか
ら成るコードブックから選んだランダムベクトルマ　　
　１≦Ｃ≦Ｃで置換することによっｃ、にゝてコーディングすることができる。コードワード選択は
、最小平均二乗誤差（ＭＳＥ）を与えるコードワードを
見出すための徹底サーチング（ｅｘｈａｕｓｔｉｖｅ　
　５ｅａｒｃｈ）である。周波数と振幅Ａｋは同じであ
るが、位相が角度Ｖｋだけ隔たっている２λ つのシヌソイドのＭＳＥはＡＫ　［１−ｃｏｓ（ｖｋ）
］である。コードワードは次式を最小にするものを選ぶ
。

この基準（ｃ、ｒｉｔｅｒｌｏｎ）によってまた、パラ
メータ推定法を用いるか、位相予測推定法を用いるかを
判断することができる。

特定のスペクトル内の残留位相は相関関係がなく、正規
分布になる性質がある故、ホワイトガウスノイズシーケ
ンスからコードワードを構築する。

換算係数は非直線性の故に必ずしも最適ではないが、コ
ードワードに換算係数を掛けて誤差を最小にする。

高調波整合フレームとフレームの間で高調波が正しく整合している
ことは位相を予測するうえで特に重要な条件である。フ
レームとフレームとの間の基本ピッチ変化と、サイドロ
ーブとウィンドウの減算（Ｓｌｄｅｌｏｂｅｓ　ａｎｄ
　ｗｉｎｄｏｗ　５ｕｂｔｒａｃｔｉｏｎ）に起因する
疑似低レベル高調波（ｆ’ａｌｓｅ　ｌｏｗ−ｌｅｖｅ
ｌ　ｈａｒｍｏｎｉｅｓ）によって整合が複雑化する。

エネルギー基準（ｅｎｅｒｇｙ　ｃｒｉｔｅｒｉｏｎ）
を導入することによって真高調波を疑似高調波から弁別
することができる。フレームｍのに番目の高調波の振幅
をＡｋ（ｍ）とする。

エネルギー正規化振幅比またはその逆数が一定の上限を越えれば、４ｍ）　　Ａ
（、ｍ−１）　　は同じ同一高調波に対応せず、整合し
ない。実験によっ−で求めた最適上限は約４であるが、
厳密に４とする必要はない。

ピッチの変化は、専攻フレームに対する各フレームのピ
ッチの比γを推定することによって考慮することができ
る。周波数がωＫ（ｍ）の高調派は、調節ずみ周波数差 ω戸ゝ−γωｆｒｒｉ−１）　１　　　　・・・（８）
が小さければ、周波数ωｒ−１）　　の高調波に近いと
考えることができる。（８）式によれば接近しており、
（７）式に従えば振幅が同じである隣接フレーム内の高
調波を整合する。正しい整合が分っていれば、振幅で重
みづけした先行フレームのピッチに対する各高調波のピ
ッチの平均比からγを推定することができる。

γの値は未知であるが、γを最初に１とし、高調波を反
復整合させ、安定値になるまでγを更新することによっ
て近似することができる。この方式は、ピッチが急変化
し疑似高調波が存在する時に信頼性がある。

合成パラメータ法の特徴としては、各シヌソイドの周波数を
合成器によってレベルスペクトルから求めることができ
、転送する必要がない。スピーチをウィンドウィングす
れば高調波のスペクトル拡張（ｓｐｅｃｔｒａｌ　ｓｐ
ｒｅａｄｌｎｇ）を生じる故、スペクトルのピークの位
置を確認することによって周波数を推定する。大低の音
声スピーチ（ｖｏｌｃｅｄ　５ｐｅｅｃｈ）に対して　
は単純なピークピッキングアルゴリスム（ｐｅａｋ　ｐ
ｌｃｋｉｎｇ　ａｌｇｏｒｉｔｈｍ）で十分対応できる
が１非音声スピーチ（ｕｎｖｏｉｃｅｄ　５ｐｅｅｃｈ
　）の場合は不自然な音質になる。それは、非音声スピ
ーチにおいてはスペクトルの領域内のピーク数かスペク
トルエネルギーではなくスペクトルの平滑度に関係づけ
られるからである。

ピーク数（ｃｏｎｃｅｎｔｒａｔｌｏｎ　ｏｆ　ｐｅａ
ｋｓ）は、見出した各高調波の寄与を減算することによ
って、スペクトル領域の下の部分に対応させることがで
きる。まず最大ベークを高調波と仮定するハミングウィ
ンドウのレベルスペクトルをスピーチのレベルスペクト
ルから減算する。レベルスペクトルがすべての周波数に
おいて一定の限界値を下回るまでこのプロセスを繰返す
。

ＦＦＴ解による周波数推定誤差によって、ピークの真の
位置の一方の側しか測定されない場合は、スペクトルの
一部がウィンドウ減算（ｗｌｎｄｏｗ　ｓｕｂｔｒａｅ
ｔｉｏｎ）の後他方の側に残り、スプリアス高調波（ｓ
ｐｕｒｉｏｕｓ　ｈａｒｍｏｎｌｃ）になる。ＦＦＴ解
内のこの周波数誤差（ａｒｔｌｆａｃｔｓ　ｏｆ’　ｆ
ｒｅｑｕｅｎｃｙ　ｅｒｒｏｒｓ）は、変更ウィンドウ
変換（ｍｏｄｅｌｅｄ　ｖｉｎｄｏｖ　ｔｒａｎｓｒｏ
ｒｍ）Ｗ’１−ｍａｘ　　（Ｗ　　　、　Ｗ　　、　Ｗ
　　　）を用ｉ−ｔ　　　ｔ　　　Ｄｉいることによって排除することができる（Ｗ、は時間ウ
ィンドウ（ｔｉｍｅ　ｗｉｎｄｏｗ）のＦＦＴを表すシ
ーケンスである）。Ｗ゛１はここでは広いレベルスペク
トルウィンドウ（ｗｉｄｅ　ｍａｇｎｉｔｕｄｅ　ｓｐ
ｅｃｔｒｕｍｗｉｎｄｏｗ）と言う。ＦＦＴが大きけれ
ばＷ’１はＷｌに近付く。

この実施態様におけるフレーム境界の不連続を防止する
ために、後続フレームと先行フレームに各々半分オーバ
ラップする二乗余弦関数（ｒａｌｓｅｄｃｏｓｉｎｅ　
ｒｕｎｃｔｌｏｎ）によって各フレームをウィンドウィ
ング（ウィンドウ）する。互いに整合している隣接フレ
ーム内の高調波ペア（ｈａｒｍｏｎｉｃｓ　ｐａｉｒ）
の周波数を直線内挿（ｌｉｎｅａｒ　Ｉｎｔｅｒｐｏｌ
ａｔｌｏｎ）すれば、ペアの和が連続シヌソイドになる
。非整合高調波の周波数は不変である。

［詳細な説明］本発明の１つの代表的実施態様としてのスピーチ処理シ
ステムのブロックダイヤグラムを第１図に示す。Ａ／Ｄ
へ変換器１１０が乗入アナログスピーチ信号をデジタル
スピーチサンプルに変換し、このデジタルスピーチサン
プルをスピーチ解析器１２０が処理する。解析器１２０
で得た一連のパラメータをチャンネルエンコーダ１３０
へ送ってエンコーディング。チャンネルデコーダ１５０
がチャンネルデコーダ１３０からチャンネル１４０を介
して量子化パラメータを受け、これをデコーディングし
、デコーディングしたパラ、メータをスピーチ合成器１
６０へ送る。合成器１６０がパラメータを処理して、デ
ジタル合成スピーチを生成し、Ｄ／Ａ変換器１７０がこ
のディジタル合成スピーチを処理し、乗入アナログスピ
ーチ信号を再生する。

以下の解説を理解するための一連の計算式（１０）乃至
（２６）を表１．２．３に示す。

ＡＢＬＥ１ＡＢｕ２ＴＡＪ３ＬＥ３スピーチ合成器１２０の詳細を第２図に示す。変換器１
１０がデジタルスピーチサンプルをオーバラップフレー
ムにしてウィンドウ器２０１へ送り、ウィンドウ器２０
１が各フレームをハミングウィンドウして一連のスピー
チサンプルＳ、を生成する。

フレーミング（ｆｒａｍｉｎｇ）並びにウィンドウィン
グの方法は当業者にとって周知である。スペクトル生成
器２０３がスピーチサンプルｓ１をＦＦＴを実行し、レ
ベルスペクトルＩＦ　（ω）１　と位相スペクトルθ（
ω）を生成する。スペクトル生成器２０３が実行するＦ
ＦＴは一次元フーリエ変換である。

スペクトル生成器２０３力を生成するレベルスペクトル
ＩＦ（ω）１　は内挿スペクトルであり、各スピーチフ
レームにおいてスピーチサンプル　Ｓ、の数よりも周波
数サンプルの数の方が多い。内挿スペクトルは、スピー
チサンプルを時間領域を零埋込み（ｚｅｒｏ　ｐａｄｄ
ｉｎｇ）するか又は、未内挿スペクトルの隣接周波数サ
ンプルを内挿することによって求めることができる。全
極解析器２１０が（１１）式で与えられる全極モデルに
対して標準直線予測コーディング（ＬＰＣＩｆｎｅａｒ
ｐｒｅｄｉｃｔｌｖｅｃｏｄｌｎｇ）を用いて、ウィン
ドウィングずみスピーチサンプルＳ、を処理してパラメ
ータａ、を生成し、（２２）。

（２３）式を逐次評価し、Ｅ　を最小にするピッチパル
ス位置ｔ。の値を出す。（１１）式のパラメータｐは全
極モデルの極数である。（２２）、　　（２３）、　（
１１）式においで用いる周波数ωには、ピーク検出器２
０９によってレベルスペクトル１Ｆ（ω）のピークを検
出するだけで求める周波数ω′、である。解析器２１０
がａ、、ｔｏの値を、パラメータｂｉに対する零値（極
／零解析の零に相当する）と共に選択器２１２へ送る。

全極解析器２０６はまず、レベルスペクトルＦ（ω）と
位相スペクトルθ（ω）から複合スペクトルＩＦ（０月
を求め、続いて直線法と複合スペクトルＦ（ω）を用い
てパラメータａ　ｉ　＋ｂ１．ｔｏを計算し、（５）式
で与えられるＥ、を最小にする（Ｉ（（ωｋ）は（４）
式で与えられる）。

（４）式のパラメータｐ、ｚは各々極／零モデルの極数
１例数である。（４）　（５）式、において用いる周波
数ωには、ピーク検出器２０９が求める周波数ω　ｋで
ある。解析器２０６はａ、、ｂ、、ｔｏの値を選択器２
１２へ送る。選択器２１２は、全極解析結果と極／零解
析結果を評価し、（１２）式で与えられる平均二乗誤差
を最少にするパラメータを選択する。量子化器２１７は
、選択器２１２が選択したパラメータに対して周知の量
子化法を用いて量子化ハラス９　ａ　、、ｂ　＝　’＋
　　ｔ　Ｏの値を求め、チャンネルエンコーダ１３０が
エンコーディングし、チャンネル１４０を介して送る。

レベル量子化器２２１は、量子化パラメータｉ、。

ｂ工、レベルスペクトルＩＦ（ω）１並びにコードンＱ
ｂ４−　Ｃ１２，ａ　−（Ｚａ、４．　（１４，４−ｆ
　１．　ｆ　２を生成する。レベル量子化器２２１の詳
細を第４図に示す。総和器４２１が、時限器４２３が生
成する先行フレームの推定レベルスペクトル、パルス列
変換生成器（ｐｕｌｓｅ　ｔｒａｉｎ　ｔｒａｎｓｆｏ
ｒｍ　ｇｅｎｅｒａｔｏｒ）４０３゜４０５が生成する
２つの周期パルス列のレベルスペクトル、並びにコード
ブック２３０がら選択したべクトルｖｄ、にの加重和と
して推定レベルスペクトル　Ｆ（ω）　を生成する。パ
ルス列とベクトル（コードワード）を時間領域でハミン
グウィンドウィングし、スペクトル逓倍器（ｓｐｅｃｔ
ｒａｌ　ｍｕｌｔｉｐｌｉｅｒ）４０７　、４０９　、
４１１を介して、生成器４０１が量子化パラメータａ１
、ｂｌから生成するレベルスペクトルエンベローブを用
いて重みづけする。

生成した関数ｄ　（ω）、ｄ２　（ω）、ｄ３　（ω）
■ 、ｄ４　（ω）、を更に各々逓倍器４１３　、４１５　
、４１７　、４１９で重みづけする。重みα１．４　’
　　２．４α３，４．α４，４並びに２つの周期パルス
列の周波数ｆｌ、ｆ２は、最適化器（ｏｐｔｉａ＋１ｚ
ｅｒ）４２７によって（２）式を最小にする値を選択す
る。

シヌソイド検出器（ｓｉｎｕｓｏｉｄ　ｆｉｎｄｅｒ）
２２４　（第２図）が、推定レベルスペクトルＩＦ（ω
）１　を解析することによって、一連のシヌソイドの振
幅Ａｋと周波数ω、を求める。シヌソイド検出器２２４
はまず、　１？（ω）１　のピークを検出し、続いてピ
ークと同じ振幅と周波数の広いレベルスペクトルウィン
ドウを構築する。広いレベルスペクトルウィンドウは、
ここでは変更ウィンドウ変換（ｔｎｏｄｎｌｅｄ　ｗｉ
ｎｄｏｗ　ｔｒａｎｓｆ’ｏｒｍ）とも言う。シヌソイ
ド検出器２２４は続いて、広いレベルスペクトルウィン
ドウであるスペクトル成分を推定レベルスペクトルＩＦ
　＜ω）１　がら減算する。シヌソイド検出器２２４は
、推定レベルスペクトル＋？（ω）Ｉがすべての周波数
において一定の限界値を下回るまで次のピークで同じプ
ロセスを繰返す。シヌソイド検出器２２４は続いて高調
波に換算係数を掛け、高調波の総エネルギーを、計算器
２０ｇが（１ｏ）式にしたがってスピーチサンプルｓ１
がら計算するエネルギーｎｒｇに等しく丈る。続いてシ
ヌソイド整合器（ｓｉｎｕｓｏｉｄ　ｗａｔｃｈｅｒ）
２２７が、（７）　、　（ａ）　、　　（９）式に従っ
て整合された現在フレームのシヌソイドと先行シヌソイ
ドを結付けるアレイＢＡＣＫを生成する。シヌソイド整
合器２２７はまた、周知のフレーム格納法（ｆ’ｒａＩ
Ｉｌｅ　ｓｔｏｒａｇｅ　ｔｅｃｈｎｌｑｕｅ）を用い
て、同じように整合させた現在フレームのシヌソイドと
後続シヌソイドを結付けるアレイＬＩＮＫを生成する。

パラメータ位相推定器２３５が、数量子化パラメータａ
ｉｓ　ｂｔ−、ｔｏを用いて、（２２）式に従って推定
位相スペクトルθ。（ω）を生成する。位相予測器２３
３が、周波数を直線的に内挿することを前提として先行
フレームから位相スペクトルθ１（ω）を予測する。選
択器２３７が、（２３）式で与えられる加重位相誤差を
最小にする推定位相スペクトルθ（ω）を選択する（Ａ
ｋは各シヌソイドの振幅であり、θ（ω、）は実位相で
あり、　θ（ω、）は推定位相である）。パラメータ法
を選んだ場合は、パラメータ（位相法）をゼロにセット
し、予測法を選んだ場合はパラメータ（位相法）を１に
セットする。総和器２４７、逓倍器２４５、最適化器２
４０から成るシステムによって、選んだ位相推定法を用
いた後、残る誤差をベクトル量子化する。ベクトル量子
化プロセスとしては、θ（ωｋ）とθ（ω、）の差であ
る残留位相を、徹底サーチングによってコードブック２
４３から選択したランダムベクトル’ｃ、にと置換し、
（２４）式で与えられる平均二乗誤差を最小にするコー
ドワードを求める。選択されたベクトルへの指数１１と
換算係数γ。がかくして決定される。総和器２４９が最
終位相スペクトルを生成する。時限器２５１が最終位を
目スペクトルを１フレ一ム分だけ遅らせ、位相予測器２
５１へ送る。

スピーチ合成器１６０の詳細を第３図に示す。受けた指
数１２を用いて、コードブック３０８がらベクトルｖｄ
、ｋを求める。レベルスペクトル推定器３１０がベクト
ルｖｄ、にと、受けたパラメータａ１．４’　　　２．
４　　３，４　　４．４’　　”　　””ａ　ｉ　ｓ　
ｂ　ｔを用いて、（１）式に従って推定レベルスペクト
ル１？（ω）ｉ、を計算する。推定器３１０（第５図）
のコンポーネント５０１　、５０３　、５０５　。

５０７　、５０９　、５１１　、５１３　、５１５　、
５１７　、５１９　。

５２１　、５２３は、レベル量子化器２２１（第４図）
の対応コンポーネント４０１　、４０３　、４０５　、
４０７　、４０９　。

４１１　、４１３　、４１５　、　４１７　、４１９　
、４２１　、　４２３と同じ機能を実行する。合成器１
８Ｇシヌソイド検出器３１２（第３図）とシヌソイド整
合器３１４は、解析器１２０のシヌソイド検出器２２４
（第２図）とシヌソイド整合器２２７と同じ機能を実行
し、一連のシヌソイドの周波数ωにと、現在フレームの
シヌソイドと先行フレームのシヌソイドを結付けるアレ
イＢＡＣＫ、並びに現在フレームのシヌソイドと後続フ
レームのシヌソイドを結付けるアレイＬＩＮＫを生成す
る。スピーチ合成器１６０が生成するシヌソイドは予め
設定した周波数は持っていない。同周波数は、チャンネ
ル１４０を介して受けるパラメータによって決まり、推
定レベルスペクトルｌＦ（ω）■の振幅値に基づいて計
算する。シヌソイド周波数は不等間隔である。

パラメータ位相推定器３１９は、受けたパラメータａｓ
　、ｂｔ　、ｊＯｓシヌソイド検出器３１２が生成した
シヌソイドの周波数ω　　（並びに解析器ｋ　ゝ２１０（第２図）と解析器２０６に関連した上述したと
おりに実行する）全極解析又は極／零解析を用で、推定
位相スペクトルθ。（ω）を生成する。

受けたパラメータｂ１がすべてゼロである場合は、全極
解析を行い、しからざる場合は極／零解析を行う。位相
予測器３１７（第３図）は、位相予測器２３３（第２図
）と同じようにアレイＬＩＮＫＳＢＡＣＫから推定位相
スペクトルθ１　（ω）を生成する。受けたパラメータ
（位相法）の値に応じて推定器３１９又は予測器３１７
が推定位相スペクトルを生成する。

位相法がゼロである場合は推定器３１９が生成した推定
位相スペクトルを選択器３２１を介して総和器３２７へ
送る。位相法が１である場合は、予測器３１７が生成し
た推定位相スペクトルを総和器３２７へ送る。選択した
位相スペクトルを、受けたパラメータγ　と、受けた指
数■１によって設定されるコードブック３２３のベクト
ルマ。、にとの積と加え合せ、位相法の値に處して（２
５）式又は（２Ｂ）式で与えられる最終位相スペクトル
を求める。時限器３３５が最終位相スペクトルを１フレ
一ム分だけ遅らせて位相予測器３１７へ送る。シヌソイ
ド和生成器３２９が、長さがＷ（フレーム長さ）、周波
数がω　（１≦に≦Ｋ）、振幅がＡ、位相がθにのＫ個
のシヌソイドを構築する。互いに整合している隣接フレ
ームのシヌソイドベアは周波数が直線内挿されており、
従って同シヌソイドベアの和は連続シヌソイドである。

非整合シヌソイドの周波数は不変である。生成器３２９
が構築したシヌソイドを加え合せ、ウィンドウィング（
ウィンドウ）器３３１が二乗余弦ウィンドウでシヌソイ
ド和をウィンドウィングし、オーバラップ／加算器（ｏ
ｖｅｒｌａｐ／ａｄｄｅｒ）３３３が隣接フレームをオ
ーバラップさせ、加え合せる。続いてＤ／Ａ変換器１７
０がデジタルサンプルをアナログ合成スピーチに変換す
る。

スピーチ解析器１２０（第１図）とチャンネルエンコー
ダ１３０の機能を実行する本発明の１実施態様としての
スピーチ解析プログラムのフローチャートを第６図に示
す。本実施例においてはフレーム中心間隔りは１６０の
サンプルであり、フレーム長さＷは３２０サンプルであ
り、ＦＦＴＫサンプル数Ｆは１０２４サンプルである。

解析に用いる極数Ｐは８であり、零敗Ｚは３である。ア
ナログスピーチは８０００サンプル／秒の速度でサンプ
リングする。ブロック８００乃至８０４で構成されてい
るＴＩＭＥ２ＰＯＬルーチン６０１（第８図）によって
ブロック６００（第６図）で受けるデジタルスピーチサ
ンプルを処理する。

ブロック８０２において（１０）式を用いてウィンドウ
正規化エネルギー（ｖｉｎｄｏｖ−ｎｏｒｍａｌｉｚｅ
ｄ　ｅｎｅｒｇｙ）を計算する。続いてプロセスはルー
チン６０１（第６図）から、ブロック９００乃至９０４
で構成されているＡＲＭＡルーチンＢ０２（第９図）に
進む。ブロック９０２において（５）式でＥ　を計算す
る（Ｈ（ω、）は（４）式で与えられる）。ブロック９
０３において、全極解析に対して（１１〉式を用いる。

ブロック９０４において（１２）式で平均二乗誤差を計
算する。続いてプロセスはルーチン６０２（第６図）か
ら、ブロック１０００乃至１０１７で構成されているＱ
ＭＡＧルーチン６０３（第１０図）へ進む。、ブロック
１００４において（１３）、（１４）式でｆｌを計算す
る。ブロック１００５において（１５）式でＥｌを計算
する。ブロック１００９において（１６）、（１７）式
でｆ２を計算する。ブロック１０１０において（１８）
式でＥ２を計算する。ブロック１０１４において（１９
）式でＥ３を計算する。ブロック１０１７において（２
０）式を用いて推定レベルスペクトルＦ（ω）　を構築
する。続いてプロセスはルーチン６０３（第６図）から
、ブフック１１００乃至１０１５で構成されている）Ｉ
ＡＣ２ＬＩ　ＮＥルーチン８０４（第１１゛図）へ進む
。続いてプロセスルーチン６０４　　（Ｍ６図）から、
ブロック１２００　　乃至１２０４で構成されているＬ
ＩＮＫＬＩＮＥルーチン６０５（第１２図）へ進み、先
行フレームと現在フレーム、並びに現在フレームと後続
フレームのシヌソイド整合を行う。第１２図のルーチン
はフレームｍとフレーム（ｍ−１）のンヌソイドを整合
させる。ブロック１２０３において、（７）式で与えら
れる比が０．２５以下または４．０以上あればペアのエ
ネルギーは同一ではない。ブロック１２０４において（
２１）式でピッチ比ρを計算する。続いてプロセスは、
ルーチン６０５（第６図）から、ブロック１３００乃至
１３０７で構成されているＣ０ＮＴルーチン６０６（第
１３図）へ進む。ブロック１３０１において、（２２）
式を評価することによって推定を行う。ブロック１３０
３において（２３）式で加重位相誤差を求める（ＡＫは
各シヌソイドの振幅であり、θ（ω　）は実位相であり
、　？（ω、）は推定に位相である）。ブロック１３０５において（２４）式で
平均二乗誤差を求める。ブロック　１３０７において、
パラメータ（位相法）がゼロであれば、（２５）式によ
って構築を行い、位相法が１であれば（２６）式によっ
て構築を行う。（２６）式において、フレーム中心時間
間隔ｔはＬ／８０００で与えられる。続いてプロセスは
ルーチン６０６（第６図）からＥＮＣルーチン６０７へ
進み、パラメータをエンコーディングする。

チャンネルデコーダ１５０（第１図）とスピーチ合成器
１６０の機能を実行する本発明の１つの代表的実施態様
としてのスピーチ合成プログラムのフローチャートを第
７図に示す。ブロック７００（第７図）で受けたパラメ
ータをＤＥＣルーチン７０１でデコーディングする。続
いてプロセスはルーチン７０１からＱＭＡＧルーチン７
０２へ進み、（１）式に従って量子化スペクトルｉｐ（
ω）１を構築する。続いてプロセスはルーチン７２０か
らＭＡＧ２ＬＩＮＥルーチン７０３へ進む（ＭＡＧ２Ｌ
ＩＮＥルーチン７０３は、エネルギーを再換算係数倍（
ｒｅｓｃａｌｅ）　シないこと以外はＭＡＧ２ＬＩＮＥ
ルーチン６０４（第６図）と同じである。続いてプロセ
スはルーチン７０３（第７図）からＬＩＮＫＬＩＮＥル
ーチン７０４（第６図のＬＩＮＫ　ＬＩＮＥルーチン６
０５と同じ）へ進む。続いてプロセスはルーチン７０４
（第７図）からＣ０ＮＴルーチン７０５へ進む（ＣＯＮ
Ｔルーチン７０５は、位相法の直に応じて１つだけの位
相推定法を実行し、パラメータ推定に関しては、受けた
パラメータｂ、の値に応じて全極解析又は極／零解析の
みを実行すること以外は第６図のＣＤＮＴルーチン６０
６と同じである）。続いてプロセスはルーチン７０５（
第７図）から、ブロック　１４００乃至１４０４て構成
されるＳＹＭＰＬＯＴルーチン７０６（第１４図）へ進
む。

高調波スピーチコーディングを行う本発明の別の実施態
様としてのスピーチ解析プログラム、スピーチ合成プロ
グラムのフローチャートを第１５図、第１．６図に示す
。第１５図のフローチャートにおいて、ブロック１５０
１で入力スピーチの処理プロセスを開始し、−例として
ＦＦＴを行うことによってレベルスペクトルのピークを
見出だすスペクトル解析を行い、複数のシヌソイドにつ
いてＡ１、ω１１θ１を求める。ブロック１５０２にお
いて、−例として入力スピーチの直線予測コーディング
（Ｌ　Ｐ　Ｃ１ｉｎｅａｒ　ｐｒｅｄｌｃｔｌｖｅ　ｃ
ｏｄｉｎｇ）解１斤によってパラメータセット１を計算
し、推定値　Ａ、を求める。ブロック１５０３において
、ＡＩと　Ａ１との間の誤差を誤差基準（ｅｒｒｏｒ　
ｃｒｉｔｅｒｉｏｎ）に従ってベクトル量子化し、コー
ドブックにおけるベクトルを設定する指数ＩＡと、換算
係数αＡを求める。ブロック１５０４において、−例と
して、入力スピーチのピッチ検出によって得られる１つ
の基本周波数と、複数の整数倍基本周波数を用いてパラ
メータセット２を計算し、推定値ω１を求める。

ブロック１５０５において、ωｔとωｌとの間の誤差を
誤差基準に従ってベクトル量子化し、コードブックにお
けるベクトルを設定する指数Ｉωと、換算係数αωを求
める。ブロック１５０６において、−例として、先述の
パラメータ解析又は位相予測によってパラメータセット
３を計算し、推定値θ。

を求める。ブロック１５０７において、θＩとθｉと０
間の誤差を誤差基準に従ってベクトル量子化し、コード
ブックにおけるベクトルを設定する指数１θと、換算係
数αθを求める。これらのバラメータセット、指数並び
に換算係数をブロック１５０８においてエンコーディン
グする。（パラメータセット１，２．３は一般的には離
散セット（ｄｉｓｊｏｌｎｔｓｅｔ）ではない）。

本発明の別の実施態様としてのスピーチ合成プログラム
のフローチャートを第１６図に示す。ブロック１６０１
において受けたパラメータの処理プロセスを開始し、パ
ラメータセット１を用いて推定値Ａ１を求める。ブロッ
ク１６０２において、指数Ｉ八によって設定されるベク
トルをコードブックから求め、換算計数αＡを掛け、Ａ
１に加え合せてＡ１を求める。ブロック１６０３におい
て、パラメータセット２を用いて推定値ω１を求める。

ブロック１８０４において、指数■ωによって設定され
るベクトルをコードブックから求め、換算計数αωを掛
け、ω　に加え合せてωＩを求める。プロワり１６０５
において、パラメータセット３を用いて推定値θ１を求
める。ブロック１６０６において、指数Ｉθによって設
定されるベクトルをコードブックから求め、換算係数α
θを掛け、θ１に加え合せてθ１を求める。ブロック１
６０７において、Ａ１、ω１、θ１によって設定される
シヌソイドの和としての合成スピーチを生成する。

［発明の効果コ本願の発明によれば、スピーチクォリティを向上させた
高質の合成スピーチが生成できる高調波スピーチコーデ
ィングシステムを提供することができる。

【図面の簡単な説明】

第１図は、本発明の１つの代表的実施態様としての高調
波スピーチコーディングシステムのブロックダイヤグラ
ム、第２図は、第１図のシステムのスピーチ解析器のブロッ
クダイヤグラム、第３図は、第１図のシステムのスピーチ合成器のブロッ
クダイヤグラム、第４図は、第２図の解析器のレベル数量子化器（ＬＩａ
ｇｎｌｔｕｄｅ　ｑｕａｎｔｉｚｅｒ）のブロックダイ
ヤグラム〜第５図は、第３図の合成器のレベルスペクト
ル推定器、第６図、第７図は、本発明の１つの代表的実施態様とし
てのスピーチ解析プログラム、スピーチ合成プログラム
のフローチャート、第８図乃至第１３図は、第６図のスピーチ解析プログラ
ムのルーチンの詳細フローチャート、第１４図は、第７
図のスピーチ合成プログラムのルーチンの詳細フローチ
ャート、第１５図、第１６図は、本発明の別の実施態様としての
スピーチ解析プログラム、スピーチ合成プログラムのフ
ローチャートである。出願人：アメリカン　テレフォン　アンド図面の；浄書
（内容に変更なし）ｆ；／＋３ＦＩＧ、Ｇ図面の浄書（内容に変更なし）ＦＩＧ。ＦＩＧ。図面の浄書（内容に変更なし）ＦＩ（３゜図面の浄書（内容に変更なし）９／１３図面の浄書（内容に変更なし）ＦＩＧ。ＦＩＯ。図面の浄書（内容に変更なし）ＦＩＧ。図面の浄書（内容に変更なし）Ｉ！／＋３図面の浄書（内容に変更なし）ＦＩ（３，１５゛スピー千ＭＦＴＶ’ロ２°゛ラヘＦＩＧ、　　１６スし・−号心乃ｎｔりｂへ手続補正書（方式）％式％発明の名称スピーチ処理、合成と解析方法及びその装置３゜補正をする者事件との関係アメリカン　テレフォン

Claims

【特許請求の範囲】

（１）高調波スピーチコーディングシステムにおいて、スピーチからレベルスペクトルを決定するプロセス、連続レベルスペクトルとして、このレベルスペクトルを
モデリングするパラメータセットを計算するプロセス、このパラメータセットをスピーチ合成用に通信するプロ
セス、からなることを特徴とするスピーチ処理方法。
（２）スピーチはスピーチフレームを含み、決定プロセ
スは、ある現在スピーチフレームからレベルスペクトル
を決定するステップを含み、計算プロセスは、複数の関
数の和を含む連続レベルスペクトルとして、このレベル
スペクトルをモデリングするパラメータセットを計算す
るステップを含み、この関数の１つは先行前記フレームのレベルスペクトル
の１つであることを特徴とする請求項１記載の方法。
（３）連続レベルスペクトルは、複数の関数の和を含む
ことを特徴とする請求項１記載の方法。
（４）前記関数の少なくとも１つは、周期パルス列のレ
ベルスペクトルであることを特徴とする請求項３記載の
方法。
（５）ある前記関数は、第１周期パルス列のレベルスペ
クトルで、別の前記関数は、第２周期パルス列のレベル
スペクトルであることを特徴とする請求項３記載の方法
。
（６）前記関数の少なくとも１つは、コードブックから
選択されたベクトルであることを特徴とする請求項３記
載の方法。
（７）計算プロセスは、連続レベルスペクトルを決定さ
れたレベルスペクトルに、最少平均二乗誤差基準に基づ
いて合わせるよう、パラメータセットを計算するステッ
プを含むことを特徴とする請求項１記載の方法。
（８）スピーチから位相スペクトルを決定するプロセス
、この位相スペクトルをモデリングする第２パラメータセ
ットを計算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（９）計算プロセスは、複数の関数の和として、この位
相スペクトルをモデリングする第２パラメータセットを
計算するステップを含むことを特徴とする請求項８記載
の方法。
（１０）前記関数のすくなくとも１つは、コードブック
から選択されたベクトルであることを特徴とする請求項
９記載の方法。
（１１）計算プロセスは、この位相スペクトルをモデリ
ングするため、極−零解析法を用いて、第２パラメータ
セットを計算するステップを含むことを特徴とする請求
項８記載の方法。
（１２）計算プロセスは、この位相スペクトルをモデリ
ングするため、全極解析法を用いて、第２パラメータセ
ットを計算するステップを含むことを特徴とする請求項
８記載の方法。
（１３）計算プロセスは、この位相スペクトルをモデリングするため、極−零解析
法を用いるステップ、この位相スペクトルをモデリングするため、全極解析法
を用いるステップ、極−零解析法、全極解析法のいずれかを選択するステッ
プ、前記ステップで選択された解析法に基づいて、第２パラ
メータセットを決定するステップ、を含むことを特徴と
する請求項８記載の方法。
（１４）スピーチはスピーチフレームを含み、現在のス
ピーチフレームの１つから位相スペクトルを決定するプ
ロセス、現在のスピーチフレーム以外の少なくともあるフレーム
からの予測により、この位相スペクトルをモデリングす
る第２パラメータセットを計算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（１５）スピーチはスピーチフレームを含み、決定プロ
セスは、ある現在スピーチフレームからレベルスペクトルを決定
するステップと、現在スピーチフレーム以外のフレームの１つから別のレ
ベルスペクトルを決定するステップとを含み、本方法はあるレベルスペクトルから複数のシヌソイドを決定する
プロセス、別のレベルスペクトルから別の複数のシヌソイドを決定
するプロセス、正弦波周波数に基づいて、ある複数のシヌソイドと別の
複数のシヌソイドとをマッチングさせるプロセス、現在のスピーチフレームから位相スペクトルを決定する
プロセス、前記マッチングプロセスに基づく予測により、この位相
スペクトルをモデリングする第２パラメータセットを計
算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（１６）スピーチはスピーチフレームを含み、決定プロ
セスは、ある現在スピーチフレームからレベルスペクトルを決定
するステップと、現在スピーチフレーム以外のフレームの１つから別のレ
ベルスペクトルを決定するステップとを含み、本方法は、あるレベルスペクトルから複数のシヌソイドを決定する
プロセス、別のレベルスペクトルから別の複数のシヌソイドを決定
するプロセス、正弦波周波数と振幅に基づいて、ある複数のシヌソイド
と別の複数のシヌソイドとをマッチングさせるプロセス
、現在のスピーチフレームから位相スペクトルを決定する
プロセス、前記マッチングプロセスに基づく予測により、この位相
スペクトルをモデリングする第２パラメータセットを計
算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（１７）スピーチはスピーチフレームを含み、決定プロ
セスは、ある現在スピーチフレームからレベルスペクトルを決定
するステップと、現在スピーチフレーム以外のフレームから別のレベルス
ペクトルを決定するステップとを含み、本方法は、あるレベルスペクトルから複数のシヌソイドを決定する
プロセス、別のレベルスペクトルから別の複数のシヌソイドを決定
するプロセス、現在スピーチフレームのピッチと現在スピーチフレーム
以外のフレームのピッチとの比率を決定するプロセス、正弦波周波数と前記プロセスで決定された比率に基づい
て、ある複数のシヌソイドと別の複数のシヌソイドとを
マッチングさせるプロセス、現在のスピーチフレームか
ら位相スペクトルを決定するプロセス、前記マッチングプロセスに基づく予測により、この位相
スペクトルをモデリングする第２パラメータセットを計
算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（１８）スピーチはスピーチフレームを含み、決定プロ
セスは、ある現在スピーチフレームからレベルスペクトルを決定
するステップと、現在スピーチフレーム以外のフレームから別のレベルス
ペクトルを決定するステップとを含み、本方法は、あるレベルスペクトルから複数のシヌソイドを決定する
プロセス、別のレベルスペクトルから別の複数のシヌソイドを決定
するプロセス、現在スピーチフレームのピッチと現在スピーチフレーム
以外のフレームのピッチとの比率を決定するプロセス、正弦波周波数と振幅と前記プロセスで決定された比率に
基づいて、ある複数のシヌソイドと別の複数のシヌソイ
ドとをマッチングさせるプロセス、現在のスピーチフレ
ームから位相スペクトルを決定するプロセス、前記マッチングプロセスに基づく予測により、この位相
スペクトルをモデリングする第２パラメータセットを計
算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（１９）スピーチはスピーチフレームを含み、現在スピ
ーチフレームから位相スペクトルを決定するプロセス、現在スピーチフレームのパラメータ解析法により推定第
１位相を獲得するプロセス、現在スピーチフレーム以外の少なくともあるフレームか
らの予測により推定第２位相を獲得するプロセス、推定第１位相と推定第２位相とのいずれかを選択するプ
ロセス、前記プロセスで選択された位相に関係し、位相スペクト
ルをモデリングする第２パラメータセットを決定するプ
ロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（２０）スピーチはスピーチフレームを含み、レベルス
ペクトルから複数のシヌソイドを決定するプロセス、現在スピーチフレームから位相スペクトルを決定するプ
ロセスと、現在スピーチフレームのパラメータ解析法により推定第
１位相を獲得するプロセス、現在スピーチフレーム以外の少なくともあるフレームか
らの予測により推定第２位相を獲得するプロセス、シヌソイドの周波数における誤差基準に基づいて、推定
第１位相と推定第２位相とのいずれかを選択するプロセ
ス、前記プロセスで選択された位相に関係し、位相スペクト
ルをモデリングする第２パラメータセットを決定するプ
ロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（２１）レベルスペクトルから複数のシヌソイドを決定
するプロセス、スピーチから位相スペクトルを決定するプロセス、シヌ
ソイドの周波数でこの位相スペクトルをモデリングする
第２パラメータセットを計算するプロセス、この第２パラメータセットをスピーチ合成用に通信する
プロセス、を更に含むことを特徴とする請求項１記載の方法。
（２２）高調波スピーチコーディングシステムにおいて
、パラメータセットを受信するプロセス、このパラメータからスペクトルを決定するプロセス、このスペクトルから複数のシヌソイドを決定するプロセ
ス、前記シヌソイドの少なくともある正弦波周波数は前記ス
ペクトル振幅値に基づいて決定され、前記シヌソイドの
和として音声を合成することを特徴とするスピーチ合成
方法。
（２３）スピーチはスピーチフレームを含み、スペクト
ル決定プロセスは、少なくともその１つは先行フレームの推定レベルスペク
トルである複数の関数の和として、現在のスピーチフレ
ーム用に推定レベルスペクトルを決定するステップを含
むことを特徴とする請求項２２記載の方法。
（２４）スペクトル決定プロセスは、複数の関数の和として、推定レベルスペクトルを決定す
るステップを含むことを特徴とする請求項２２記載の方
法。
（２５）前記関数の少なくとも１つは、受信パラメータ
により決定される周波数を有する周期パルス列のレベル
スペクトルであることを特徴とする請求項２４記載の方
法。
（２６）ある前記関数は、第１周期パルス列のレベルス
ペクトルで、別の前記関数は、第２周期パルス列のレベルスペクトル
で、第１と第２周期パルス列の周波数は、受信パラメータセ
ットにより決定されることを特徴とする請求項２４記載
の方法。
（２７）前記関数の少なくとも１つは、コードブックか
らの、受信パラメータセットにより決定される指数によ
り識別されるベクトルであることを特徴とする請求項２
４記載の方法。
（２８）スペクトル決定プロセスは、複数の関数の和として、推定位相スペクトルを決定する
ステップを含むことを特徴とする請求項２２記載の方法
。
（２９）前記関数の少なくとも１つは、コードブックか
らの、受信パラメータセットにより決定される指数によ
り識別されるベクトルであることを特徴とする請求項２
８記載の方法。
（３０）スペクトル決定プロセスは、極−零モデルと受信パラメータセットを用いて、推定位
相スペクトルを決定するステップを含むことを特徴とす
る請求項２２記載の方法。
（３１）スペクトル決定プロセスは、全極モデルと受信パラメータセットを用いて、推定位相
スペクトルを決定するステップを含むことを特徴とする
請求項２２記載の方法。
（３２）受信プロセスは、現在のスピーチフレーム用のパラメータセットを受信す
るステップを、スペクトル決定プロセスは、このパラメータセットのある第１値に応答して、パラメ
ータ法モデルとパラメータセットを用いて、現在のスピ
ーチフレーム用の推定位相スペクトルを決定するステッ
プと、このパラメータセットのある第２値に応答して、現在の
スピーチフレーム以外のスピーチフレームに基づく予測
モデルを用いて、現在のスピーチフレーム用の推定位相
スペクトルを決定するステップとを、含むことを特徴とする請求項２２記載の方法。
（３３）スペクトル決定プロセスは、推定レベルスペクトルを決定するステップを、シヌソシ
ド決定プロセスは、推定レベルスペクトルにピークを見出だすステップと、推定レベルスペクトルから前記ピークに関連するスペク
トル成分を減算するステップと、前記見出しステップと減算ステップとを、推定レベルス
ペクトルが全周波数に対して限界値以下になるまでくり
かえすステップとを、含むことを特徴とする請求項２２記載の方法。
（３４）スペクトル成分は広いレベルスペクトルウィン
ドウを含むことを特徴とする請求項３３記載の方法。
（３５）スペクトル決定プロセスは、推定レベルスペクトルを決定するステップと、推定レベ
ルスペクトルを決定するステップとを、シヌソシド決定
プロセスは、推定レベルスペクトルに基づいて、各シヌソイドの正弦
波周波数と振幅を決定するステップと、推定位相スペク
トルに基づいて、各シヌソイドの正弦波位相を決定する
ステップとを、含むことを特徴とする請求項２２記載の方法。
（３６）受信プロセスは、あるスピーチフレーム用のあるパラメータセットと別の
スピーチフレーム用の別のパラメータセットとを受信す
るステップを、スペクトル決定プロセスは、あるパラメータセットからあるスペクトルを、別のパラ
メータセットから別のスペクトルを決定するステップを
、シヌソイド決定プロセスは、あるスペクトルからある複数のシヌソイドを、別のスペ
クトルから別の複数のシヌソイドを決定するステップを
含み、本方法は、正弦波周波数に基づいて、ある複数のシヌソ
イドと、別の複数のシヌソイドとをマッチングさせるプ
ロセスを更に含み、合成プロセスは、マッチングしたある複数のシヌソイド
と、別の複数のシヌソイドとを内挿するステップを含むことを特徴とする請求項２２記載の方法。
（３７）受信プロセスは、あるスピーチフレーム用のあるパラメータセットと別の
スピーチフレーム用の別のパラメータセットとを受信す
るステップを、スペクトル決定プロセスは、あるパラメータセットからあるスペクトルを、別のパラ
メータセットから別のスペクトルを決定するステップを
、シヌソイド決定プロセスは、あるスペクトルからある複数のシヌソイドを、別のスペ
クトルから別の複数のシヌソイドを決定するステップを
含み、本方法は、正弦波周波数と振幅に基づいて、ある複数の
シヌソイドと、別の複数のシヌソイドとをマッチングさ
せるプロセスを更に含み、合成プロセスは、マッチングしたある複数のシヌソイド
と、別の複数のシヌソイドとを内挿するステップを含むことを特徴とする請求項２２記載の方法。
（３８）受信プロセスは、あるスピーチフレーム用のあるパラメータセットと別の
スピーチフレーム用の別のパラメータセットとを受信す
るステップを、スペクトル決定プロセスは、あるパラメータセットからあるスペクトルを、別のパラ
メータセットから別のスペクトルを決定するステップを
、シヌソイド決定プロセスは、あるスペクトルからある複数のシヌソイドを、別のスペ
クトルから別の複数のシヌソイドを決定するステップを
含み、本方法は、あるスピーチフレームのピッチと別のスピーチフレーム
のピッチとの比率を決定するプロセスと、正弦波周波数
と前記プロセスにより決定された比率に基づいて、ある
複数のシヌソイドと、別の複数のシヌソイドとをマッチ
ングさせるプロセスとを更に含み、合成プロセスは、マッチングしたある複数のシヌソイド
と、別の複数のシヌソイドとを内挿するステップを含むことを特徴とする請求項２２記載の方法。
（３９）受信プロセスは、あるスピーチフレーム用のあるパラメータセットと別の
スピーチフレーム用の別のパラメータセットとを受信す
るステップを、スペクトル決定プロセスは、あるパラメータセットからあるスペクトルを、別のパラ
メータセットから別のスペクトルを決定するステップを
、シヌソイド決定プロセスは、あるスペクトルからある複数のシヌソイドを、別のスペ
クトルから別の複数のシヌソイドを決定するステップを
含み、本方法は、あるスピーチフレームのピッチと別のスピーチフレーム
のピッチとの比率を決定するプロセスと、正弦波周波数
と振幅と前記プロセスにより決定された比率に基づいて
、ある複数のシヌソイドと、別の複数のシヌソイドとを
マッチングさせるプロセスとを更に含み、合成プロセスは、マッチングしたある複数のシヌソイド
と、別の複数のシヌソイドとを内挿するステップを含むことを特徴とする請求項２２記載の方法。
（４０）高調波スピーチコーディングシステムにおいて
、スピーチからレベルスペクトルを決定するプロセス、連続レベルスペクトルとして、このレベルスペクトルを
モデリングするパラメータセットを計算するプロセス、このパラメータセットからスペクトルを決定するプロセ
ス、このスペクトルから複数のシヌソイドを決定するプロセ
ス、このシヌソイドの和としてスピーチを合成するプロセス
、からなることを特徴とするスピーチ処理方法。
（４１）高調波スピーチコーディングシステムにおいて
、スピーチに応答して、レベルスペクトルを決定する手段
、前記決定手段に応答して、連続レベルスペクトルとして
、このレベルスペクトルをモデリングするパラメータセ
ットを計算する手段、スピーチ合成用に、前記パラメータセットを通信する手
段、とからなることを特徴とするスピーチ解析装置。
（４２）高調波スピーチコーディングシステムにおいて
、パラメータセットの受信に応答して、スペクトルを決定
する手段、このスペクトルとから、複数のシヌソイドを決定する手
段、前記シヌソイドの少なくとも１つの正弦波周波数は前記
スペクトルの振幅値に基づいて決定され、前記シヌソイ
ドの和として、スピーチを合成する手段、とからなることを特徴とするスピーチ合成装置。