JPS63502302A

JPS63502302A - 外部のボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置

Info

Publication number: JPS63502302A
Application number: JP87500654A
Authority: JP
Inventors: ボース・デビッド　エドワード; ジャーソン・アイラ　アラン; ヴィルムーア・リチャード　ジョセフ; リンズレイ・ブレット　ルイス
Original assignee: モトロ−ラ・インコ−ポレ−テッド
Priority date: 1986-01-03
Filing date: 1986-12-22
Publication date: 1988-09-01
Anticipated expiration: 2016-10-15
Also published as: WO1987004293A1; EP0255524A1; HK40396A; JP3219093B2; US5133010A; EP0255524B1; EP0255524A4; DE3688749D1; KR950007859B1; DE3688749T2; CA1324833C

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】ボイリングまたはピッチ情報を使用することなく音声を合成する方法および装置発明の背景本発明は一般的に音声合成に係り、とくに、外部生成ボイリングまたはピッチ情報を使用することなく作動するチャネル・バンク音声シンセサイザに関する。

音声シンセサイザーネットワークは、一般的にディジタル・データを取り込み、このデータを人間の声を表わす音響的音声信号に変換する。この音響特徴データがら音声を合成するための種々の手法がこの技術分野において知られている。たとえば、パルス・コード変調、線形予測符号化、デルタ変調、チャネル・バンク・シンセサイザ、およびフォーマット・シンセサイザは周知の合成手法である。

個々のタイプのシンセサイザ技術は、一般的には、特定の合成を応用する際のサイズ、コスト、信頼性、および声の品位についての必要条件を比較することによって選択される。

現在の音声合成システムのそれ以上の発達は、合成システムの複雑性と記憶域の必要量とが用語範囲のサイズに伴って劇的に増大すると言う潜在的問題によって妨げられている。その上、一般的なシンセサイザによって話されるワードはしばしば忠実度が低く、理解し難いものである。それにもかかわらず、用語範囲と声の理解性との間の兼ね合いは、多くのユーザの特徴に対する大規模用語範囲によって決められがちであった。この決定結果が通常の場合、合成音声の耳ざわりなロボット的“ブンブン”声の発生を招いている。

近年、不自然に響く合成音声の問題を解決するためにいくつかのアプローチが試みられている。明らかに、逆の兼ね合い・・・すなわち、音声合成システムの複雑性を犠牲にして声の品位を最大化すること・・・もありうる。この技術分野においては、無限の記憶装置源から音声を合成する高データ・レートのディジタル・コンピュータが、はとんど声の品位を劣化させることなく無限の用語範囲の理想状態を生成可能であることが知られている。しかしながら、このような装置は最も近代的な応用に対しては余りにも嵩張り過ぎ、極度に複雑で、そして全く手が出せない程高価なものである。

ピッチ励振チャネル・バンク・シンセサイザは、低データ・レートにおいて音声合成のための簡単な低価格手段としてしばしば使用されている。標準チャネル・バンク・シンセサイザは、多くの利得制御バンドパスフィルタ、およびボイスド（ｖｏｔｅｅｄ）励起（バズ）のためのピッチ・パルスφジャネレータとアンボイスド（ｕｎｖｏｉｃｅｄ）励起（ヒス）のためのノイズ・ジェネレータとから成っているスペクトル的に平坦な励起源で構成されている。このチャネル・バンク・シンセサイザは、（人間の声のパラメータから導出された）外部的に生成された音響エネルギー測定値を個々のフィルタの利得を調整するために利用している。この励起源は、（予め記憶された、または外部源から供給された）既知のボイスド／アンボイスド制御信号と既知のピッチ・パルス・レートとによって制御されている。

チャネル・ボコーダに対する見直された関心によって、低データ・レートの合成音声の品位改善のための広範囲・多様の提案が出されている。ＩＥＥＥ　Ｔｒａｎｓａｃｔｌｏｎｓ　ｏｎ　Ａｕｄｉ。

ａｎｄ　Ｅｌｅｃｔｒｏａｃｏｕｓｔｉｃｓ　（音声および電気音響に関するＩＥＥＥ議事録）　Ｖｏｌ、ＡＵ−１８，Ｎｏ、　ｌ　（１９６８年３月）の第８１１〜７２頁に“Ａｎ　Ａｐｐｒｏｘｉｍａｔｉｏｎ　ｔｏ　Ｖｏｉｃｅ　Ａｐｅｒｉｏｄｌｃｉｔｙ　（音声非周期性に対する近似値）”と題する論文で、フキムラ（Ｆｕｋｉｍｕｒａ）氏は機械的に“ブンブン２性の少ない合成音を作成するための“部分的デボイシング（ｄｅｖｏｔｅｉｎｇ　）”・・・高い周波数範囲のボイスド励起をランダム・ノイズ（ｒａｎｄｏｍ　ｎｏｉｓｅ）で部分的に置換えること・・・と呼ばれる手法について記述している。これに対して、Ｃｏｕｌｔｅｒ氏の米国特許第３．９０３．６６６号は、ピッチ・パルス源をボコーダ・シンセサイザの最下位チャネルに常時接続することによってチャネル・ボコーダ′の性能を改善すること趣旨としている。これに代って、ＩＥＥ　Ｐｒｏｃｅｅｄｉｎｇ　（ＩＥＥ議事録）Ｖｏｌ。

１２７、Ｐａｒｔ　Ｐ、　Ｎａ　１　（１９８０年２月）の第５３〜６０頁に“ Ｔｈｅ　ＪＳＲＵ　Ｃｈａｎｎｅｌ　Ｖｏｃｏｄｅｒ　（ＪＳＲＵチャネル・ボコーダ）１と題するＪ、Ｎ、Ｈｏｌｍｅｓ氏の論文は、ボイスド／アンボイスド決定に応答して高次チャネル・フィルタの帯域幅を変化させることによってボイスド音の“バジー（ｂｕｚｚｙ）’特性を減少せしめる手法を記述している。

ＬＰＧボコーダの周辺状況における“ブンブン性°問題に１２日）の第　１６３〜１８Ｂ頁に“Ａ　Ｍｌｘｅｄ−ｓｏｕｒｃｅ　Ｍｏｄｅｌ　ｆｏｒＳｐｅｅｃｈ　Ｃｏｍｐｒｅｓｓｉｏｎ　ａｎｄ　５ｙｎｔｈｅｓｉｓ　（音声の圧縮および合成に対する混合源モデル）″と題するＪ、Ｍ、１ｋｈｏｕｌ　。

Ｒ，Ｖｉｓｗａｎａｔｈａｎ、Ｒ，５ｅｈｖａｒｔｚ、およびＡ、Ｗ、Ｆ、Ｈｕｇｇｌｎｓの論文は、周波数選択の方法でボイス（パルス）とアンボイスド（ノイズ）励起とを混合することによってボイシング度を変化せしめることを可能ならしめる励起源モデルについて１１日）の第４０１〜４０４頁に“Ｏｎ　Ｒｅｄｕｃｉｎｇ　ｔｈｅ　Ｂｕｚｚ　１ｎＬＰＣ５ｙｎｔｈｅｓｉｓ　（ＬＰＣ合成におけるバズの軽減について）＃と題するり、ＲａｂｉｎｅｒおよびＣ，ＭｃＧｏｎｅｇａ１両氏の論文がある。

Ｓａｍｂυｒ氏外は、励起源のパルス幅°をボイスド励起時にピッチ周期に比例せしめるように変化させることによるバズ性の軽減について報告している。さらに他のアプローチとしては、励起信号の振幅を（はぼ０値から一定値に、そしてまたＯに戻るように）変調するＶｏｇｔｅｎ氏外の米国特許第４．３７４，３０２号がある。

これらの上記従来技術の手法はすべて、ボイシングおよびピッチ費パラメータを変更することによって低データ・レート音声シンセサイザの声の品位を改善する方向に指向されている。正常の状況下では、このボイシングおよびピッチ情報は容易にアクセス可能である。しかしながら、ボイシングまたはピッチ・パラメータが利用できない音声合成の応用に対しては周知の従来手法はいずれも奏功していない。たとえば、合成音声認識テンプレートの本応用においては、ボイシングおよびピッチ・パラメータは音声認識に必要ないので記憶されていない。したがって、認識テンプレートから音声合成を達成するためには、合成は予め記憶されているボイシングまたはピッチ情報を使用することな〈実施されなければならない。

音声合成の技術分野で熟練度の高いほとんどの技術者は、外部的にアクセス可能なボイシングおよびピッチ情報を使用することなく生成されたいかなるコンピュータ生成の声も極度にロボット調で非常に不愉快なものであろうと予測するものと信じられている。これに反して、本発明はボイシングまたはピッチが供給できない応用の場合に自然に響く音声を合成する方法および装置について教えるものである。

したがって、本発明の一般的な目的は、ボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置を提供することである。

本発明のさらに特殊な目的は、予め記憶されたボイシングまたはピッチ情報を含まない音声認識テンプレートから音声を合成する方法および装置を提供することである。

本発明の他の目的は、記憶域必要量を軽減し、かつ十分な用語範囲を使用している音声合成装置の柔軟性を増大させることである。

本発明の排他的ではないが特殊な応用としては、予め記憶されたボイシングまたはピッチ情報を必要とせず音声認識テンプレートから音声を合成するハンドフリ一式車両無線電話制御およびダイアリング・システムに対する応用がある。

したがって、本発明は、外部ボイシングまたはピッチ情報を使用することなく、外部生成音響的特徴情報から音声を再編成する音声シンセサイザを提供するものである。本発明の音声シンセサイザは、ピッチ・パルス・レートを変える手法による“分割ボイシングの手法を使用している。

この音声シンセサイザは：ランダム・ノイズ（ヒス）を表わす第１の励起信号と、所定のレートの周期的パルス（バズ）を表わす第２の励起信号とを生成する手段；第１の所定グループの音響的特徴チャネル利得値に応答して第１の励起信号（ヒス）を振幅変調するとともに、第２の所定グループのチャネル利得値に応答して第２の励起信号（バズ）を振幅変調し、これによって対応する第１および第２のグループのチャネル出力を生成する手段；これらの第１および第２のグループのチャネル出力をバンドパス濾波して対応する第１および第２のグループの濾波チャネル出力を生成する手段；および第１および第２のグループの濾波されたチャネル出力の各々を組み合せて再編成音声信号を形成する手段；を具備している。

本発明を説明するための実施例においては、第１の低い周波数グループのチャネル利得値と第２の高い周波数グループのチャネル利得値とを有する１４チヤネルのバンク・シンセサイザを用意している。両グループのチャネル利得値は先ずローパス濾波され、チャネル利得が平滑にされる。

次に、第１の低い周波数グループの濾波されたチャネル利得値は、周期的ピッチ・パルス源によって励起された第１のグループの振幅変調器を制御する。第２の高い周波のグループの濾波チャネル利得値は、ノイズ源によって励起された第２のグループの振幅変調器に印加される。両グループの変調励起信号・・・低い周波数（バズ）グループおよび高い周波数（ヒス）グループの変調励起信号・・・は、音声チャネルを再編成するためバンドパス濾波される。すべてのバンドパスフィルタ出力はつぎに組、み合され、再編成合成音声信号を形成する。さらに、ピッチ・パルス源はピッチ・パルス・レートがワード長にわたって減少するようにピッチ・パルス周期を変化させる。分割ボイシングと可変ピッチ・パルス・レートとの組合せは、自然に響く音声が外部ボイシングまたはピッチ情報を使用することなく生成されることを可能ならしめる。

図面の簡単な説明本発明に基づく他の目的、特徴、および利点は、添付図面に関連した以下の説明によって一層明らかになるであろう。なお、図面中の類似エレメントは同一の番号で示しである。

第１図は、本発明により音声認識テンプレートから音声を合成する手法を図示した全体的ブロック図、第２図は、本発明による音声認識および音声合成を使用したユーザ会話型制御システムを有する音声通信装置のブロック図、第３図は、バンズ・フリー音声認識／音声合成制御システムを有するラジオ・トランシーバを図説した本発明による好ましい実施例の詳細ブロック図、第４ａ図は、第３図のデータ整理器（３２２）の詳細ブロック図、第４ｂ図は、第４ａ図のエネルギー正規化ブロック　４１０によって行なわれる一連のステップを示すフローチャート、第４ｃ図は、第４ａ図の区分化／圧縮ブロック　４２０の特有のハードウェア構成の詳細ブロック図、第５ａ図は、本発明によるクラスタを形成するためフレームに区分化された話されたワードのグラフ表現、第５ｂ図は、本発明による、ある特別のワード・テンプレートに対して形成されつつある出力クラスタを例示する図、第５ｃ図は、本発明による任意の部分クラスタ・パスの可能な形成を示す表、第５ｄおよび５８図は、第４ａ図の区分化／圧縮ブロック　４２０によって行なわれるデータ整理処理の基本的実施を図説するフローチャート１、第５ｆ図は、先に決定されたクラスタからのデータ整理ワード・テンプレートの形成を示している、第５ｅ図のトレースバックおよび出力クラスタ・ブロック　５８２の詳細フローチャート、第５ｇ図は、部分的トレースバックに応用可能な、本発明による、２４個のフレームに対するクラスタリングパスを図説するトレースバック・ポインタ表、第５ｈ図は、フレーム接続トリーの形で図説されている第５ｇ図のトレースバック・ポインタ表のグラフ表現、第５１図は、フレーム接続トリー内の共通フレームにトレーシング・バックすることによって３個のクラスタが出力完了した後のフレーム接続トリーを示す第５ｈ図のグラフ表現、第６ａおよび６ｂ図は、第４ａ図の差分符号化ブロック４３０によって行なわれる一連のステップを示すフローチャート、第６ｃ図は、第３図のテンプレート記憶装置１６０の１個のフレームの特別のデータ形式を示す汎用化記憶域割当て図、第７ａ図は、本発明による、各々の平均フレームがワード・モデル内の状態によって表わされている複数平均フレームにクラスタされているフレームのグラフ表現、第７ｂ図は、第３図の認識プロセッサ１２０のテンプレート記憶装置１６０との関係を図説するこのプロセッサ１２０の詳細ブロック図、第７ｃ図は、本発明によるワード解読に必要な一連のステップのある実施例を図説するフローチャート、第７ｄおよび７ｅ図は、本発明による状態解読に必要なステップの一実施例を図説するフローチャート、第８ａ図は、第３図のデータ伸長器ブロック　３４６の詳細ブロック図、第８ｂ図は、第８ａ図の差分解読ブロック　８０２によって行なわれる一連のステップを示すフローチャート、ＭＢｃ図は、第８ａ図のエネルギー正規化解除ブロック　８０４によって行なわれる一連のステップを示すフローチャート、第８ｄ図は、第８ａ図のフレーム繰返しブロック　８０Ｂによって行なわれる一連のステップを示すフローチャート、第９ａ図は、第３図のチャネル・バンク音声シンセサイザ３４０の詳細ブロック図、第９ｂ図は、第９ａ図のモジュレータ／バンドパス・フィルタ構成９８０の他の実施例、第９ｃ図は、第９ａ図のピッチ・パルス源９２０の好ましい実施例の詳細ブロック図、そして第９ｄ図は、第９ａおよび９０図の種々の波形を図説したグラフ表現である。

さて添付図面を参照する。第１図は、本発明のユーザ会話型制御システム　１００の全体的ブロック図である。電子装置１５０は、音声認識／音声合成制御システムの結合を十分に保証する複雑などのような電子装置をも含むことができる。

この好ましい実施例においては、電子装置１５０は移動式無線電話機のような音声通信装置を表わしている。

ユーザの話した入力音声はマイクロフォン１０５に印加されるが、このマイクロフォン１０５は電気入力音声信号を制御システムに供給する音響カップラとして働いている。音響プロセッサ１１０は、入力音声信号に基づいて音響的特徴の抽出を行なう。ユーザが話した各々の入力ワードの振幅／周波数パラメータとして定義されたワードの特徴は、これによって音声認識プロセッサ１２０とトレーニング・プロセッサ１７０とに供給される。この音響プロセッサ１１０はさらに、入力音声信号を音声認識制御システムにインタフェースするためのアナログ・ディジタル変換器のような信号調整装置を含むことができる。音響プロセッサ１１０については、第３図に関係してさらに詳しく後述する。

トレーニング・プロセッサ１７０は、音響プロセッサ１１０からのこのワード特徴情報を操作して、テンプレート記憶装置１６０に記憶されるべきワード認識テンプレートを生成する。トレーニング手順の間、入力ワード特徴はそれらの終点を位置指定することによって個々のワードに配列される。トレーニング手順がワード特徴コンシステンシ（ｃｏｎ−ｓｉｓｔｅｎｃｙ）に対して複数のトレーニング発声を収容するように設計されている場合は、その複数の発声は平均化されて単一のワードψテンプレートを形成することができる。

さらに、大部分の音声認識システムは、１つのテンプレートとして記憶されるために音声情報のすべてを必要としないので、ある種類のデータ整理はしばしばトレーニング・プロセッサ１７０で行なわれることがありテンプレート記憶装置の必要量を軽減している。こ゛れらのワード・テンプレートはテンプレート記憶装置１６０に記憶され、音声合成プロセッサ１４０はもとより音声認識プロセッサ１２０の使用に供されている。本発明の好ましい実施例に使用されている的確なトレーニング手順が、第２図に説明しである。

認識モードにおいては、音声認識プロセッサ１２０は音響プロセッサ１１０によって供給されたワード特゛徴情報を、テンプレート記憶装置１６０によって供給されたワード認識テンプレートと比較する。ユーザの話した入力音声から引き出された現在ワード特徴情報の音響特徴がテンプレート記憶装置から引き出されたある特別の予め記憶されているワード・テンプレートに十分にマツチした場合は、認識プロセッサ１２０は認識されたこの特別のワードを表わす装置制御データを装置コントローラ　１３０に供給する。適切な音声認識装置についてのさらに詳しい説明およびこの実施例がデータ整理をトレーニング手順に取り入れる方法については、第３図から第５図に付随する説明に記述しである。

装置コントローラ１３０は、全制御システムの電子装置１５０に対するインタフェースをとっている。この装置コントローラ　１３０は、認識プロセッサ　１２０から構成される装置制御データを個々の電子装置による使用に適合できる制御信号に変換する。これらの制御信号は、装置がユーザによって命令されたとおりの特定の作動機能を行なうことを可能ならしめる。（この装置コントローラ　１３０はさらに、第１図に示しである他のエレメントに関係する付加的な監視、機能を実施することができる。）この技術分野で周知なものであるとともに本発明と併用するのに適格な装置コントローラの例は、マイクロコンピュータである。

ハードウェア具現の細部に関しては、第３図を参照されたい。

装置コントローラ　１３０はさらに、電子装置１５０の作動状態を表わす装置ステータス・データをも供給する。このデータは、テンプレート記憶装置１６０からのワード認識テンプレートと共に音声合成プロセッサ１４０に印加される。この音声合成プロセッサ１４０はステータス・データを利用して、いずれのワード認識テンプレートがユーザが認識可能な返答音声に合成されるかを決定する。音声合成プロセッサ１４０はステータス・データによって制御される内部返答記憶装置をさらに含み“録音済み（ｃａｎｎｅｄ）“の返答ワードをユーザに対して提供することができる。いずれの場合も、音声返答信号がスピーカ　１４５を通して出力されると、ユーザは電子装置の作動状態（ｏｐｅｒａｔｉｎｇ　５ｔａｔｕｓ）を通知される。

上述のとおり、第１図は本発明が電子装置の作動パラメータ（ｏｐｅｒａｔｉｎｇ　ｐａｒａｍｅｔｅｒｓ）を制御するために音声認識を利用するユーザ会話型制御システムを提供する方法と、装置の作動状態を表わす返答音声をユーザに対して発生させるために音声認識テンプレートを利用する方法を説明している。

第２図は、たとえば二方向無線システム、電話システム、相互通信システム等のようないかなる無線または地上通信線利用音声通信システムの一部をも構成する音声通信装置に対するユーザ会話型制御システムの応用についての一層詳細な説明を提供している。音響プロセッサ１１０、認識プロセッサ１２０、テンプレート記憶装置１６０、および装置コントローラ　１３０は、第１図の対応するブロックと構造および動作の上で同一である。しかしながら、制御システム２００の図は音声通信装置２１０の内部構造を説明している。

音声通信ターミナル２２５は、たとえば、電話機ターミナルまたは通信コンソールのような音声通信装置２１０の主要電子回路を表わしている。本実施例においては、マイクロフォン２０５とスピーカ　２４５とは音声通信装置それ自体に内蔵されている。このマイクロフォン／スピーカ装置の典型的な例は、電話機のハンドセットであろう。音声通信ターミナル２２５は、音声通信装置の作動ステータス情報を装置コントローラ　１３０にインタフェースする。この作動ステータス情報は、ターミナル自体の機能ステータス・データ（たとえば、チャネル・データ、サービス情報、作動モード・メツセージ等）、音声認識制御システムのユーザ・フィードバック情報（たとえば、ディレクトリの内容、ワード認識検証、作動モード・ステータス等）を具備することも可能であり、または通信リンクに関するシステム・ステータス・データ（たとえば、ロス・オブ・ライン、システム・ビジー、無効アクセス・コード等）を含むことも可能である。

トレーニング・モードまたは認識モードのいずれにおいても、ユーザの話した入力音声の特徴は音響プロセッサ１１０によって抽出される。スイッチ２１５の位置“Ａ”によって第２図に表わされているトレーニング・モードにおいては、ワード特徴情報はトレーニング・プロセッサ１７０のワード平均化器２２０に印加される。前述のとおり、システムが複数の発声を共に平均化して単一のワード・テンプレートを形成するように設計されている場合は、平均化処理はワード平均化器２２０によって行なわれる。ワード平均化処理を使用することによって、トレーニング・プロセッサは同一ワードの２つ以上の発声間の微小変化を考慮に入れることが可能になり、これによって一層信頼できるワード・テンプレートを生成することができる。多くのワード平均化手法を用いることが可能である。たとえば、一つの方法としてはすべてのトレーニング発声のうちの同様のワード特徴のみを組み合せてそのワード・テンプレートに対する“最良２の特徴のセットを生成することが挙げられる。

他の手法としてはすべてのトレーニング発声を単に比較していずれの発声が“最良°のテンプレートを生じるがを決定することであろう。さらに他のワード平均化手法としては、Ｊｏｕｒｎａｌ　ｏｆ　ｔｈ：ｅ　Ａｃｏｕｓｔｉｃ　５ｏｃ１ｅｔｙ　ｏｆ’　ＡｍｅｒｉｃａのＶｏｌ。

８８　（１９８０年１１月）の　１．２７１〜１．２７６頁にＬ−Ｒ，Ｒａｂｌｎｅｒおよ　びＪ、　Ｇ、　Ｗｌｌｐｏｎが記述した°’Ａ　Ｓｉｍｐｌｉｒｉｅｄ　ＲｏｂｕｓｔＴｒａｌｎｉｎｇ　Ｐｒｏｃｅｄｕｒｅ　ｒｏｒ　５ｐｅａｋｅｒ　Ｔｒａｉｎｅｄ、ｌ５ｏｌａｔｅｄＷｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｓｙｓｔｅｍｓ　（スピーカ・トレーンド・アイソレーティッド・ワード認識システム用の簡略・強靭なトレーニング手順）”と称するものがある。

データ整理器２３０は、ワード平均化器の存否に従って、ワード平均化器２２０からの平均化ワード・データに基づいて、または音響プロセッサ１１０から直接供給されるワード特徴信号に基づいて、データ整理を行なう。いずれの場合も、整理処理はこの“原始”ワード特徴データを区分化することと、各々の区分内のデータを組み合せることとから成っている。テンプレートに対する記憶域必要量は、“整理”ワード特徴データを生成するための区分化データの差分符号化（ｄｊｆ’ｆ’ｅｒｅｎｔｊａｌ　ｅｎｃｏｄｉｎｇ）によってさらに削減される。

本発明のこの特殊データ整理手法は、第４および５図に関連して十分に説明されている。要約すると、データ整理器２３０は原始ワード・データを圧縮して、テンプレート記憶域必要量を最小化するとともに音声認識計算時間、を削減するものである。

トレーニング・プロセッサ１７０によって供給された整理ワード特徴データは、テンプレート記憶装置１８０にワード認識テンプレートとして記憶される。スイッチ２１５の位置“Ｂ″によって示されている認識モードにおいては、認識プロセッサ１２０は入力ワード特徴信号をワード認識テンプレートと比較する。有効コマンド・ワードが認識されると、認識プロセッサ１２０は装置コントローラ　１３０に命令して対応する音声通信装置制御機能が音声通信ターミナル２２５によって実行されることを可能ならしめる。このターミナル２２５は、ターミナル・ステータス・データの形で装置コントローラ　１３０に作動ステータス情報を送り返すことによって装置コントローラ　１３０に応答する。このデータは、ユーザに現在の装置の作動ステータスを通告するための適切な音声返答信号を合成する目的で、制御システムによる使用が可能である。このイベントのシーケンスは、次の例を参照することによって一層明確に理解されるであろう。

合成プロセッサ１４０は、音声シンセサイザ２４０、データ伸長器２５０、および返答記憶装置２６０によって構成されている。この構成の合成プロセッサは、（テンプレート記憶装置１６０に記憶されている）ユーザ生成用語から“テンプレート′応答を発生することはもとより（返答記憶装置２６０に記憶されている）予め記憶された用語から“録音済み″の返答をユーザに対して発生する能力を有している。

音声シンセサイザ２４０および返答記憶装置２６０は第３図に関連してさらに説明を加え、そしてデータ伸長器２５０は第８ａ図に関する記述に十分に詳しく説明しである。共同して、合成プロセッサ１４０のブロックはスピーカ　２４５に対する音声返答信号を発生する。従って、第２図は音声認識および音声合成の両方に単一のテンプレート記憶装置を使用する手法を説明している。

記憶された電話番号ディレクトリから音声制御ダイヤリングを使用する“自動化（ｓｍａｒｔ）　”電話ターミナルの簡略化例をここで用いて、第２図の制御システムの作用を説明することにする。最初は、トレーニングされていないスピーカ依存音声認識システムは、コマンド・ワードを認識することができない。従って、おそらく特殊のコードを電話機キーバッドに入力することによって、ユーザは装置を手動で刺激（ｐｒｏｍｐｔ）　してトレーニング手順を開始させなければならない。装置コントローラ　１３０は、スイッチ２１５をトレーニング・モード（位置“Ａ”）に入るように指示する。装置コントローラ　１３０はつぎに音声シンセサイザ２４０に対して、返答記憶装置２６０から得られた“録音済み ”の返答である事前に定義された句ＴＲＡＩＮＩＮＧ　ＶＯＣＡＢＵＬＡＲＹ　０ＮＥ（トレーニング用語１）に返答するように命令する。ユーザはつぎに、５ＴＯＲＥ　（記憶）またはＲＥＣＡＬＬ　（再呼出し）のようなコマンド・ワードをマイクロフォン２０５に対して発声することによってコマンド・ワード用語を確立し始める。

この発声の特徴は、先ず音響プロセッサ１１０によって抽出され、つぎにワード平均化器２２０またはデータ整理器２３０のいずれかに印加される。同一ワードの複数の発声を受け入れるように特殊のｉ声認識システムが設計されている場合は、ワード平均化器２２０は特にそのワードを最もよく表わしている１組の平均化ワード特徴を生成する。システムがワード平均化能力を有していない場合は、（複数の発声の平均化されたワード特徴ではなく）単一の発声ワード特徴がデータ整理器２３０に印加される。このデータ整理処理は、不必要すなわち重複した特徴データを除去し、残りのデータを圧縮し、かつ“整理“ワード認識テンプレートをテンプレート記憶装置１６０に提供する。数字の認識のためシステムをトレーニングするため同様な手順が続く。

コマンド・ワード用語によってシステムがトレーニングに入ると、ユーザは電話ディレクトリの名前および番号を入力することによってトレーニング手順を続けなければならない。この作業を完成させるため、ユーザは以前にトレーニングされているコマンド・ワードＥＮＴＥＲ（入力）を発声する。この発生が有効なユーザ・コマンドとして認識されると、装置コントローラ　１３０は音声シンセサイザ２４０に、返答メモリ　２６０に記憶された“録音済み”の句ＤＩＧＩＴＳＰＬＥＡＳＥ　？　（数字をどうぞ？）によって返答するように命令する。適切な電話番号数字（たとえば、５５５−１２３４）を入力すると、ユーザはＴＥＲ旧ＮＡＴＥ　（終り）と発声し、システムはＮＡＭＥ　ＰＬＥＡＳＥ　（お名前をどうぞ？）と返答して対応するディレクトリの名前（たとえば、ＳＭＩＴＨ（スミス））のユーザ入力を促す。このユーザ会話型処理は、電話番号ディレクトリが適切な電話名および数字で完全に埋まるまで続く。

電話をかける場合は、ユーザはコマンド・ワードＲＥＣＡＬＬ（再呼出し）を単に発声する。この発声が認識プロセッサ１２０によって有効なユーザ・コマンドとして認識されると、装置コントローラ　１３０は音声シンセサイザ２４０に返答記憶装置２６０によって供給された合成情報によって口頭の返答ＮＡＭＥ　？　（名前は？）を発生するように指示する。ユーザはここで、ダイヤルしようとする電話番号に対応するディレクトリ・インデックス内の名前（たとえば、ＪＯＮＥＳ　（ジョンズ））を話すことによって応答する。このワードは、もしそれがテンプレート記憶装置１６０に記憶されている所定の名前インデックスに一致すれば、有効なディレクトリ人力と認識されるであろう。有効であれば、装置コントローラ　１３０はデータ伸長器２５０に対してテンプレート記憶装置１８０から適切な整理ワード認識テンプレートを取得するとともに合成のためのデータ伸長処理を行なうように指示する。データ伸長器２５０は、整理ワード特徴データを“アンバック°するとともに了解可能な返答ワードのための正しいエネルギー輪郭を復元する。この伸長ワード・テンプレート・データはつぎに、音声シンセサイザ２４０に供給される。テンプレート・データと返答記憶装置のデータとの両者を使用して、音声シンセサイザ２４０は（データ伸長器２５０を通してテンプレート記憶装置１８０から）句ＪＯＮＥＳ・・・（返答記憶装置２６０から）　ＦＩＶＥ−ＦＩＶＢ−ＦＩＶＥ、　５ＩＸ−８ＥＶＥＮ−ＥＩＧＨＴ−ＮＩＮＥ　（５−５−５，ｆｌｉ−７−８−９）を生成する。

ユーザはつぎにコマンド・ワード５ＥＮＤ　（送れ）を話す。

このワードは、制御システムによって認識されると、装置コントローラ　１３０に対して電話番号ダイヤリング情報を音声通信ターミナル２２５に送るように命令するものである。

このターミナル２２５は、適切な通信リンクを経由してこのダイヤリング情報を出力する。電話接続が確立すると、音声通信ターミナル２２５はマイクロフォン２０５からのマイクロフォン音声を適切な送信路に、そして適切な受信音声路からの受信音声をスピーカ　２４５にインタフェースする。正しい電話接続が確立されない場合は、ターミナル・コントローラ　２２５は適切な通信リンク・ステータス情報を装置コントローラ　１３０に提供する。従って、装置コントローラ１３０は音声シンセサイザ２４０に対して、返答ワードＳＹＳＴＥＭＢＵＳＹ　（システム話中）のような、供給されたステータス情報に対応する適切な返答ワードを発生するように命令する。このような方法で、ユーザは通信リンクの状態について通告され、そしてユーザ会話型音声制御ディレクトリ・ダイヤリングが達成される。

上記の作用説明は、本発明に基づく音声認識テンプレートから音声を合成する単なる１つの応用に過ぎないものである。この新規な手法は、たとえば、通信コンソール、二方向無線等の音声通信装置に対して、数多くの応用が考えられるものである。本実施例においては、本発明の制御システムは移動無線電話機に使用されている。

音声認識および音声合成は車両操縦手がその両眼を道路に集中することを可能ならしめるが、従来のハンドセットまたは手持ちマイクロフォンは操縦手が舵輪（ハンドル）に両手を掛けることや正しい手動（または自動）変速を実行することを不能にするものである。この理由から、本実施例の制御システムは音声通信装置のハンズフリー制御を提供するためスピーカフォンを内蔵している。このスピーカフォンは、送／受音声切換機能および受信／返答音声多重化機能を行なうものである。

ここで第３図を参照すると、制御システム３００は第２図の対応績ブロックと同一の音響プロセッサ・ブロック　１１０、トレーニング・プロセッサ・ブロック　１７０、認識プロセッサ・ブロック　１２０、テンプレート記憶装置ブロック　１６０、装置コントローラ・ブロック　１３０、および合成プロセッサ・ブロック　１４０を使用している。しかしながら、マイクロフォン３０２とスピーカ　３７５とは音声通信ターミナルの一体化部分ではない。その代りに、マイクロフォン３０２からの入力音声信号はスピーカフォン３６０を経由して無線電話機３５０に導かれる。同様に、スビーカフォン３６０は制御システムからの合成音声と通信リンクからの受信音声との多重化の制御をも行なっている。このスピーカフォンの切換／多重化構成のさらに詳しい解析については後述することにする。ここで、音声通信ターミナルを、無線周波数（ＲＦ）チャネルを経由して適切な通信リンクを提供するための送信機および受信機を有する無線電話機として、第３図によっで説明する。この無線ブロックの詳細については後述する。

一般的にユーザの口からやや遠いところに（たとえば、車両の日よけ板上に）離れて装着されているマイクロフォン３０２は、ユーザの音声を制御システム３００に音響的に結合する。この音声信号は入力音声信号３０５を生じるため、前置増幅器３０４によって通常の場合増幅される。この音声入力は音響プロセッサ１１０に直接印加され、そして切換えられたマイクロフォン音声ライン３１５を介して無線電話機３５０に印加される前にスビーカフォン３６０によって切換えられる。

前述のとおり、音響プロセッサ１１０はユーザの話した入力音声の特徴を抽出し、ワード特徴情報をトレーニング・プロセッサ１７０と認識プロセッサ１２０との両者に供給する。

この音響プロセッサ１１０は先ず、アナログ拳ディジタル（Ａ／Ｄ）コンバータ　３１０によってアナログ入力音声をディジタル形式に変換する。このディジタル・データは、特徴抽出機能をディジタル的に行なう特徴抽出器３１２に印加される。ブロック　３１２ではいかなる特徴抽出方法でも使用可能であるが、本実施例は特殊の形の“チャネル・バンク“特徴抽出を使用している。このチャネル・バンクの処理方法によると、音声入力信号周波数スペクトルはバンドパスフィルタのバンクによって複数の個々のスペクトル帯域に分割され、そして各々の帯域に存在するエネルギー量の評価に基づいて適切なワード特徴データが生成される。このＮｏ、５　（１９８３年５月〜６月）　１．３１１〜１．３３５頁にＢ、　Ａ。

ＤａｕｔｒｌｃｈＳＬ、　Ｒ，Ｒａｂｉｎｅｒ　ｓおよびＴ、　Ｂ、　Ｍａｒｔｉｎによる“Ｔｈｅ　Ｅｆ’ｆ’ｅｃｔｓ　ｏｆ’　５ｅｌｅｃｔｅｄ　ＳＩｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｉ−ｑｕｅｓ　ｏｎ　ｔｈｅ　Ｐｅｒｆ’ｏｒｍａｎｃｅ　ｏｆ’　ａ　Ｐｌｌｔｅｒ　Ｂａｎｋ　Ｂａ５ｅｄ　ｌ５ｏ−Ｉａｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｚｅｒ　（選択信号処理手法の、アイソレーテッドワード認識器に基づくフィルタ・バンクの性能に及ぼす影響）＃と題する論文に説明されている。適切なディジタル・フィルタ・アルゴリズムは、Ｌ、　Ｒ，ＲａｂｉｎｅｒおよびＢ、　ＧｏｌｄによるＴｈｅｏｒｙ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ＤｉｇｉｔａｌＳｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（ディジタル信号処理の原理と応用）（Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ、　Ｅｎｇｌｅｗｏｏｄ　Ｃ１１ｆｆｓ、　Ｎ、Ｊ、、　１９７５）の第４章に説明されている。

トレーニング・プロセッサ１７０は、このワード特徴データを使用してテンプレート記憶装置１６０に記憶されるべきワード認識テンプレートを生成する。先ず、エンドポイント検出器３１８はユーザのワードの適切な始端および終端位置を探し出す。これらの両エンドポイントは、入力ワード特徴データの時変全エネルギーの評価に基づいている。この種類のエンドポイント検出器は、Ｂｅ１ｌ　ＳｙｓｔｅｍＴｅｃｈｎｉｃａｌ　Ｊｏｕｒｎａｌ　（ペルーシステム拳テクニカル・ジャーナル）　（７）ＶＯｌ、５４．　ＮＯ，２（１９７５年２月）　（７）　２９７〜３１５頁の“Ａｎ　ＡｌｇＯｒｌｔｈｆｆｉ　ｆｏｒ　Ｄｅｔｅｒｌ！Ｉｎｉｎｇ　ｔｈｅ　Ｅｎｄｐｏｌｎｔｓ　ｏｒＩｓｏｌａｔｅｄ　Ｕｔｔｅｒａｎｃｅｓ　（分離した発声のエンドポイントを決定するアルゴリズム）′ と題するｌ、　Ｒ，ｌ？ａｂＩｎｅｒおよびＭ、　Ｒ，Ｓａｍｂｕｒの論文に説明されている。

ワード平均化器３２０は、ユーザによって話された同一ワードの数個の発声を組み合せて−１層正確なテンプレートを生成する。第２図において前述したように、いかなる適切なワード平均化スキームをも使用することが可能であり、またはワード平均化機能を全く省略することも可能である。

データ整理器３２２は、ワード平均化器３２０からの“原始。

ワード特徴データを使用し、整理ワード認識テンプレートとしてテンプレート記憶装置１６０に記憶するための“整理“ワード特徴データを生成する。データ整理処理は、エネルギー・データを正規化し、ワード特徴データを区分化し、さらに各々の区分内のデータを組み合せることより基本的に成っている。組合せ区分が生成された後、記憶域必要量はフィルタ・データの差分符号化によってさらに削減される。データ整理器３２２の実際の正規化、区分化および差分符号化のステップについては、第４および５図に関連して詳しく説明しである。テンプレート記憶装置１６０の整理データ形式を示す全記憶域割当て図については、第６Ｃ図を参照されたい。

エンドポイント検出器３１８、ワード平均化器３２０、およびデータ整理器３２２は、トレーニング・プロセッサ１７０を構成している。トレーニング・モードにおいては、装置コントローラ　１３０からのトレーニング制御信号３２５は、これら３つのブロックに対して、テンプレート記憶装置１６０に記憶するための新しいワード・テンプレートを生成するように命令する。しかし、認識モードにおいては、この機能は音声認識時には必要でないので、トレーニング制御信号３２５はこれらのブロックに対して新しいワード・テンプレートの生成処理を一時中止するように指示する。従って、トレーニング・プロセッサ１７０はトレーニング・モードにおいてのみ使用される。

テンプレート記憶装置１６０は、認識プロセッサ１２０において入力音声と突き合せられるべきワード認識テンプレートを記憶する。このテンプレート記憶装置１８０は、任意のアドレス構成で形成することができる標準ランダムアクセス記憶装置（ＲＡＭ）で一般的に成っている。音声認識システムに使用可能な汎用ＲＡＭとしては、東芝５５１３５８Ｋ　Ｘ８スタティックＲＡＭがある。しかしながら、システムがオフになった場合にワード・テンプレートが保持されるよう１こ、不揮発性ＲＡＭを使用することが好ましい。本実施例にお０ては、ＥＥＦＲＯＭ　（電気的消去可能・プログラム可能読出し専用記憶装置）がテンプレート記憶装置１６０として機能して０る。

テンプレート記憶装置１６０に記憶されているワード認識テンプレートは、音声認識プロセッサ１２０および音声合成プロセッサ１４０に供給される。認識モードにおいては、認識プロセッサ１２０はこれらの予め記憶されたワード・テンプレートを音響プロセッサ１１０より供給された入力ワード特徴と比較する。本実施例においては、この認識プロセッサ　１２０は２個の異なるブロック・・・すなわちテンプレート・デコーダ３２８と音声認識器３２６とから構成されていると考えることができる。テンプレート・デコーダ３２８は、音声認識器３２６がその比較機能を実行できるように、テンプレート記憶装置より供給された整理特徴データを翻訳する。

簡単に言うと、テンプレート・デコーダ３２８はテンプレート記憶装置から整理データを得る効果的な“ニブル−モード・アクセス手法″を実施し、かつ音声認識器３２６が情報を利用できるように整理データについて差分デコーディングを行なう。テンプレート・デコーダ３２８については、第７ｂに関する説明に詳しく述べである。

上述のことから、データ整理器３２２を使用して特徴データをテンプレート記憶装置１６０に記憶するための整理データの形式に圧縮する手法と、整理ワード・テンプレート情報をデコードするためにテンプレート・デコーダ３２８を使用することとは、本発明がテンプレート記憶域必要量を軽減することを可能ならしめている。

実際の音声認識比較処理を行なう音声認識器３２６は、数種の音声認識アルゴリズムの１つを使用することができる。

本実施例の認識アルゴリズムは、近連続音声認識、グイナミック・タイム・ワーピング、工゛ネルギー正規化、およびチェビシェフのディスタンス−メトリック（Ｃｈｅｂｙｓｈｅｖｄｉｓｔａｎｃｅ　ｍｅｔｒｉｃ）を取り入れてテンプレートとの突合せ（一致）を決定している。詳しい説明については、第７ａ図３〜５月、Ｖｏｌ、２．８９９〜９０２頁に”Ａｎ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識に関するアルゴリズム）”と題してＪ、　Ｓ、’　ＢｒＩｄｌｅ、　Ｍ、　Ｄ、　Ｂｒｏｗｎ　。

およびＲ，Ｍ、　ＣｈａＩＩｌｂｅｒｌａｉｎが記述しているような従来技術の認識アルゴリズムも使用可能である。

本実施例においては、８ビツトのマイクロコンピュータが音声認識器３２６の機能を果している。その上、第３図の数個の他の制御システム・ブロックがＣ０ＤＥＣ／ＦＩＬＴＥＲ（符復号器／フィルタ）およびＤＳＰ　（ディジタル信号プロセッサ）の助けをかりて同一マイクロコンピュータによって部分的に使用されている。本発明に使用可能な音声認識器３２６用“Ａ　Ｒｅａｌ−Ｔｉｍｅ　Ｈａｒｄｗａｒｅ　Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　ＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍ　（リアルタイム・ハードウェア連続音声認識システム２と題してＪ、　Ｐｅｃｋｈａｍ、　Ｊ、　Ｇｒｅｅｎ、　Ｊ、　Ｃａｎｎｉｎｇ、およ、びＰ、　５ｔｅｖｅｎｓが記述した論文に記載されているとともに、関連事項もこの論文に収録されている。従って、本発明はいかなる特定のハードウェアまたはいかなる特定の種類の音声認識にも限定されるものではない。さらに詳しく言えば、本発明は分離または連続ワード認識の使用と、ソフトウェアに基礎を置〈実施またはハードウェアに基礎を置〈実施の使用とを意図している。

制御ユニット　３３４およびディレクトリ記憶装置３３２から成る装置コントローラ　１３０は、音声認識プロセッサ１２０および音声合成プロセッサ１４０を２方向インタフエース・バスによって無線電話機３５０にインタフェースする役割を果している。制御ユニット　３３４は一般的には、ラジオ・ロジック　３５２からのデータを制御システムの他のブロックにインタフェースする能力を有する制御マイクロプロセッサである。この制御ユニット　３３４は、制御ヘッドのアンロッキング、電話呼出しの設定、電話呼出しの終了等のような無線電話機３５０の運用制御をも行なう。無線機に対する個々のハードウェア・インタフェース構造に依存して制御ユニット　３３４は、ＤＴＭＦダイヤリング、インタフェース・バスの多重化、および制御機能意志決定のような特殊制御機能を実施するための他のサブ・ブロックを取り入れることができる。その上、制御ユニット　３３４のデータ・インタフェース機能はラジオ・ロジック　３５２の現存ハードウェア内に組み込むことができる。従って、ハードウェア特殊制御プログラムが、無線機のタイプごとにまたは電子装置への適用の種類ごとに通常の場合用意されている。

ディレクトリ記憶装置３３２、すなわち、ＥＥＦＲＯＭは複数の電話番号を記憶し、これによってディレクトリ・ダイヤリングを可能ならしめている。記憶される電話番号ディレクトリ情報は電話番号を入力するトレーニング処理の量制御ユニット　３３４からディレクトリ記憶装置３３２に送出され、一方、このディレクトリ情報は有効なディレクトリ・ダイヤリング・コマンドの認識に応答して制御ユニット　３３４に供給される。使用されている個々の装置によって、ディレクトリ記憶装置３３２を電話装置自体に組み込むことが一層経済的でありうる。

しかしながら一般的には、コントローラ・ブロック　１３０は電話ディレクトリ記憶機能、電話番号ダイヤリング機能、および無線運用制御機能を実行する。

コントローラ・ブロック　１３０はさらに、無線電話機の作動ステータスを表わす異なる種類のステータス情報を音声合成プロセッサ１４０に供給する。このステータス情報は、ディレクトリ記憶装置３３２に記憶された電話番号（“５５５ −１２３４”等）、テンプレート記憶装置１６０に記憶されたディレクトリ名前（“スミス“、“ジョンズ等）、ディレクトリ−ステータス情報（“ディレクトリ・フル”、“名前は”等）、音声認識ステータス情報（“レディ°、“ユーザの番号は”等）、または無線電話機ステータス情報（“コール・ドロップド”、 “システム・ビジー°等）のような情報を含むことができる。従って、コントローラ・ブロック　１３０はユーザ会話型音声認識／音声合成制御システムの核心をなすものである。

音声合成プロセッサ・ブロック　１４０は、音声返答機能を果している。テンプレート記憶装置１６０に記憶されているワード認識テンプレートは、テンプレートからの音声合成を必要とする時にはいつでもデータ伸長器３４６に供給される。前述のとおり、データ伸長器３４６はテンプレート記憶装置１８０からの整理ワード特徴データを“アンバック０して、チャネル・バンク音声シンセサイザ３４０に対して°テンプレート”音声応答データを提供する。データ伸長器３４Ｂの詳しい説明事項については、第８ａ図以降を参照されたい。

システム拳コントローラが“録音済み”の返答ワードが要求されていると判断した場合は、返答記憶装置３４４は音声返答データをチャネル・バンク音声シンセサイザ３４０に供給する。この返答記憶装置３４４は一般的にＲＯＭまたはＥＦＲＯＭで構成されている。本実施例においては、Ｉｎｔｅｌ（インテル）　ＴＤ２７２５６　ＥＰＲＯＭが返答記憶装置３４４として使用されている。

“録音済み°または“テンプレート″音声返答データのいずれかを使用して、チャネル・バンク音声シンセサイザ３４０はこれらの返答ワードを合成するとともに、これらのワードをディジタル・アナログ（’Ｄ／Ａ）コンバータ　３４２に対して出力する。この音声返答はこの後ユーザに対して送られる。本実施例においては、チャネル・バンク音声シンセサイザ３４０は、１４チヤネルのボコーダの音声合成部分である。このようなボコーダの一例が、ＩＥＥ　ＰＲＯＣ，、Ｖｏｌ。

１２７、　ｐｔ、　Ｆ、　ｎｏ、１　（１９８０年２月）の５３〜６０頁に“Ｔｈｅ　ＪＳＲＵＣｈａｎｎｅｌ　Ｖｏｃｏｄｅｒ　（ＪＳＲＵチャネル・ボコーダ）″と題するＪ、　Ｎ、　Ｈｏ１ｉｅｓの論文に記載されている。チャネル・バンク・シンセサイザに供給される情報は通常の場合、入力音声をボイス化（ｖｏｔｅｅｄ）するかまたは非ボイス化（ｕｎｖｏｉｃｅｄ）するか、もしあればピッチ・レート、および１４個のフィルタの各々の利得を含んでいる。しかしながら、この技術分野の熟練者にとって明らかであるように、いかなる種類の音声シンセサイザでも基本的音声合成機能を果すために使用することができる。チャンネル・バンク音声シンセサイザ３４０の詳細な構成が、第９ａ図以降に関して詳細に記述しである。

上述のとおり、本発明は音声認識テンプレートからの音、声合成を行なって音声通信装置に対するユーザ会話型制御システムを提供する方法を教えるものである。本実施例においては、音声通信装置は細分化（ｅｅｌ　Ｉｕｌａｒ）移動無線電話機のようなラジオ・トランシーバである。しかしながら、ハンズフリ一式ユーザ会話型動作を保証するいかなる音声通信装置も使用可能である。たとえば、ハンズフリー制御を必要とするいかなる単向ラジオ・トランシーバも本発明の改良制御システムを利用することができる。

つぎに第３図の無線電話機ブロック　３５０を見ると、ラジオ・ロジック　３５２は実際の無線運用制御機能を果している。

とくに、このロジックは周波数シンセサイザ３５６に対してチャネル情報を送信機３５３および受信機３５７に供給するように指示を与える。この周波数シンセサイザ３５６の機能は、水晶制御チャネル発信器によっても行なうことができる。

送受切換器３５４は、送信機３５３および受信機３５７をアンテナ３５９を通して無線周波数（ＲＦ）チャネルにインタフェースする。単向ラジオ・トランシーバの場合は、送受切換器３５４の機能はＲＦスイッチによって行なうことができる。代表的無線電話機回路構成の一層詳しい説明については、“ＤＹＮＡ　Ｔ、Ａ、Ｃ，Ｃｅ１ｌｕｌａｒ　Ｍｏｂｉｌｅ　Ｔｅ１ｅｐｈｏｎｅ　（ＤＹＮＡ、　Ｔ、　Ａ。

Ｃ９細分化移動電話機）“と題するＭｏｔｏｒｏｌａ　ＩｎｓｔｒｕｃｔｉｏｎＭａｎｕａｌ　（モトローラ◆インストラクションーマニュアル）８８Ｐ８１０６８Ｅ４０を参照されたい。

本出願においてＶＳＰ　（車両スピーカフォン）とも命名されているスピーカフォン３６０は、ユーザの話した音声を制御システムと無線電話送信機音声に、合成音声返答信号をユーザに、そして無線電話機からの受信音声をユーザに、ハンズフリ一式で音響結合する手段を提供する。前述のとおり、前置増幅器３０４はマイクロフォン３０２によって供給された音声信号を増幅し、音響プロセッサ１１０に対する入力音声信号３０５を生成する。この入力音声信号３０５はｖｓＰ送信音声スイッチ３６２にも印加されるが、このスイッチ３６２は入力信号３０５を送信音声３１５を介して無線送信機３５３に導く。この■ＳＰ送信スイッチ３６２は、ｖＳＰ信号検出器３６４によって制御される。この信号検出器３６４は、入力信号３０５の振幅を受信音声３５５９振幅と比較して■ｓＰ切換え機能を果している。

移動無線機のユーザの送話中、信号検出器３６４は検出器出力３８１を通して正の制御信号を供給して送信音声スイッチ３６２を閉じ、かつ検出器出力３６３を通して負の制御信号を供給して受信音声スイッチ３６８を開く。これと反対に、地上通信線相手方の送話中は、信号検出器３６４は逆の極性の信号を供給して受信音声スイッチ３６８を閉じる傍ら、送信音声スイッチ３６２を開く。受信音声スイッチが閉じている間は、無線電話機受信機３５７からの受信機音声３５５は受信音声スイッチ３６８を通して、切換えられた受信音声出力３６７によってマルチプレクサ３７０に向って経路を取る。ある種の通信システムにおいては、音声スイッチ３６２および３６８を、信号検出器からの制御信号に応答して、大きさが等しいが反対の減衰をもたらす可変利得装置と置換する方が有利であるかも知れない。マルチプレクサ３７０は、制御ユニット　３３４からの多重信号３３５に応答してボイス返答音声３４５と切換えられた受信音声３６７とのいずれかに切換える。制御ユニットがステータス情報を音声シンセサイザに送出すると、マルチプレクサ信号３３５はマルチプレクサ３７０に対してボイス返答音声をスピーカに導くように指示する。■ＳＰ音声３６５は通常の場合、スピーカ３７５に印加される前に音声増幅器３７２によって増幅される。本文に記載されている車両スビーカフォンの実施例は、本発明に適用可能な多くの可能性ある構成の１つに過ぎないこと留意されたい。

要約すると、第３図はユーザが話したコマンドに基づいて無線電話機のオペレーティング・パラメータを制御するためのハンズフリ一式ユーザ会話型音声認識制御システムを有する無線電話機を説明するものである。このコントロールシステムは、音声認識テンプレート記憶装置または“録音済み″応答返答記憶装置からの音声合成によってユーザに対して可聴のフィードバックを提供する。車両スビーカフォンは、ユーザが話した入力音声の制御システムおよび無線機送信機への、制御システムからの音声返答信号のユーザへの、そして受信機音声のユーザへの、ハンズフリ一式音響結合を提供する。認識テンプレートからの音声合成を実施することによって、無線電話機の音声認識制御システムの性能および融通性を著しく向上させる。

２、データ整理およびテンプレート記憶装置第４ａ図は、データ整理器３２２の拡大ブロック図を示したものである。前述のとおり、データ整理ブロック　３２２はワ−ド平均化器３２０からの原始ワード特徴データを使用し、テンプレート記憶装置１６０に記憶する整理ワード特徴データを生成する。このデータ整理機能は３つのステップによって行なわれる、すなわち、（１）エネルギー正規化ブロック　４１０はチャネル・エネルギーの平均値を減じることによってチャネル・エネルギーに対する記憶値の範囲（レンジ）を縮小し、（２）区分化／圧縮ブロック４２０はワード特徴データを区分化するとともに類似フレームを音響的に組み合せて“クラスラダを形成し、そして（３）差分符号化ブロック　４３０は、実際のチャネル・エネルギー・データではなく、記憶のため隣接チャネル間の差を生成し、記憶装置の必要量をさらに軽減する。これらの３つの処理がすべて行なわれると、各フレームに対する整理データ形式は第６ｃ図に示すように僅か９バイト内に記憶される。要するに、データ整理器３２２は原始ワード・データを整理データ形式へと“バック゛し、記憶装置の必要量を最小限度にする。

第４ｂ図のフローチャートは、前図のエネルギー正規化ブロック　４１０によって行なわれる一連のステップを示している。ブロック　４４０でスタートすると、ブロック　４４１は以後の計算に使用される変数を初期化する。フレーム・カラン）ＰＣは、データ整理されるべきワードの第１フレームに対応するように１に初期化される。チャネル合計ＣＴは、チャネル・バンク特徴抽出器３１２のチャネルに一致するチャネルの合計数に初期化される。本実施例においては、１４チヤンネルの特徴抽出器が使用されている。

次に、フレーム合計ＦＴがブロック　４４２で計算される。このフレーム合計ＦＴは、テンプレート記憶装置に記憶されるべきワードについてのフレームの合計数である。このフレードの音響的特徴が１０ミリ秒ごとに（ディジタル的に）サンプルされるものとする。各々の１０ミリ秒の時間区分をフレームと称する。従って５００ミリ秒のワードは５０フレームから成っていることになる。この理由によって、ＦＴは５ｏに等しい。

ブロック　４４３は、このワードのすべてのフレームの処理が完了したか否かを試験する。現在のフレーム・カウントＦＣがフレーム合計ＦＴより大であれば、このワードのフレームで未正規化のものはないことになり、このワードに対するエネルギー正規化処理はブロック　４４４で終了する。しかし、ＦＣがＦＴよりも大でない場合は、エネルギー正規化処理は次のワード・フレームについて継続する。５０フレームのワードの上記の例によって続けてゆくと、このワードの各フレームはブロック　４４５から４５２までの間にエネルギー正規化され、フレーム・カウントＦＣはブロック４５３においてインクレメントされ、そしてＦＣはブロック　４４３において試験される。このワードの５０番目のフレームのエネルギー正規化が完了した後、ＦＣはブロック　４５３において５１にインクレメントされることになる。フレーム・カウントＦＣの５１がフレーム合計ＦＴの５０と比較されると、ブロック　４４３はブロック　４４４においてエネルギー正規化処理を終了することになる。

実際のエネルギー正規化手順は、テンプレート記憶装置内に記憶されている値の範囲を減少させるため、各々の個々のチャネルから、チャネル全体の平均値を減することによって成し遂げられる。ブロック　４４５において、平均フレーム・エネルギー（ＡＶＧＥＮＧ）は下記の式によって計算される・　ｉ　−ＣＴＡＶＧＥＮＧ　−ΣＣ）Ｉ（Ｄ／ｃｒ上式において、ＣＨ（ｉ）は個々のチャネル・エネルギー、モしてＣＴはチャネルの合計数に等しい。本実施例においては、エネルギーは対数的エネルギーとして記憶され、かつエネルギー正規化処理は各々のチャネルの対数的エネルギーから平均の対数的エネルギーを実際には減じることに留意されたい。

平均フレーム・エネルギーＡＶＧＥＮＧはブロック　４４Ｂにおいて出力され、各々のフレームに対するチャネル・データの末尾位置に記憶される（第６Ｃ図のバイト９参照）。４ビツト内に平均フレーム・エネルギーを効果的に記憶するため、ＡＶＧＥＮＧは全テンプレートのピーク・エネルギー値に正規化され、そして３ｄＢステツプに量子化される。ピーク・エネルギーが値１５（４ビツト最大）を割り当てられると、テンプレート内の合計エネルギーの変化は１６ステツプｘ３ｄＢ／ステップ−４８ｄＢとなる。好ましい実施例においては、この平均エネルギー正規化／量子化は区分化／圧縮処理（ブロック　４２０）時の高精度計算を可能ならしめるためチャネル１４の差分符号化（第６ａ図）の後に行なわれる。

ブロック　４４７は、チャネル・カウントＣＣを１に設定する。

ブロック　４４８は、チャネル・カウンタＣＣによってアドレスされたチャネル・エネルギーをアキュムレータに読み込む。

ブロック　４４９は、ブロック　４４８において読み込まれたチャネル・エネルギーからブロック　４４５において計算された平均エネルギーを減じる。このステップは正規化チャネル・エネルギー・データを生成し、このデータはブロック　４５０において（区分化／圧縮ブロック　４２０に）出力される。ブロック　４５１はチャネル・カウンタをインクレメントし、そしてブロック　４５２はすべてのチャネルが正規化されたか否かを確かめる。新しいチャネル・カウントがチャネル合計より大でない場合は、処理は次のチャネル・エネルギーが読まれるブロック　４４８に戻る。しかし、フレームのすべてのチャネルが正規化完了していれば、フレームψカウントはブロック　４５３においてインクレメントされ、データの次のフレームを取得する。すべてのフレームが正規化されると、データ整理器３２２のエネルギー正規化処理はブロック４４４で終了する。

第４ｃ図は、データ整理器のプロ°ツク　４２０の実施状態を示すブロック図である。入力特徴データは、初期フレーム記憶装置すなわちブロック　５０２のフレーム内に記憶される。

この記憶に用いる記憶装置はＲＡＭであることが好ましい。

区分化コントローラすなわちブロック　５０４は、クラスタ処理の対象になるべきフレームの制御および指定を行なう。

Ｍｏｔｏｒｏｌａ　（モトローラ）タイプ６８０５マイクロプロセツサのような多くのマイクロプロセッサがこの目的のため使用可能である。

本発明は、入力フレームに関連するひずみ測度を先ず計算して平均化前にフレーム間の類似性を決定することによって入力フレームが平均化について考慮されることを必要とする。この計算は、ブロック　５０４で使用しているマイクロプロセッサと類似または同一のマイクロプロセッサで行なうことが好ましい。この計算の詳細について以下に説明する。

組合せるべきフレームが決定すると、フレーム平均化器すなわちブロック　５０８はそれらのフレームを１つの代表平均フレームに組み合せる。この場合も、ブロック　５０４の場合と同様なタイプの処理手段を使用して平均化のため指定されたフレームを組み合せることができる。

データを効果的に整理するため、結果のワード・テンプレートは認識処理が劣化する点にまで変形しない範囲でなるべく少ないテンプレート記憶装置を占有するべきである。

換言すると、ワード・テンプレートを表わす情報の量は最小化されると同時に認識の正確度を最大化しなければならない。この両極端は矛盾することであるが、各々のクラスタに対して最小ひずみレベルが許容されるならば、ワード・テンプレート・データを最小化することができる。

第５ａ図は、ある与えられたひずみレベルに対し、フレームをクラスタ処理する方法を説明しているものである。音声はフレーム５１０にグループ化された特徴データとして描かれている。５個の中央フレーム　５１０はクラスタ　５１２を形成している。このクラスタ５１２は、代表平均フレーム５１４に組み合されている。この平均フレーム　５１４は、システムに使用されている固有のタイプの特徴データに従って多くの周知の平均化方法で生成することができる。クラスタが許容のひずみレベルを満たしているか否かを判断するために、従来技術のひずみ試験を使用することができる。しかしながら、平均フレーム５１４は類似性の測度を得るためクラスタ　５１２内のフレーム５１０の各々と比較されることが好ましい。平均フレーム　５１４とクラスタ　５１２内の各フレーム５１０との間のディスタンスは、ディスタンスＤｉ−Ｄ５で示しである。これらのディスタンスのうちの１つが許容ひずみレベルすなわちスレッショルド・ディスタンスを越えている場合は、クラスタ　５１２は結果としてのワード・テンプレートとしては認められない。このスレッショルド・ディスタンスを超過していない場合は、クラスタ　５１２は平均フレーム　５１４として表わされている可能クラスタとして認められる。

有効クラスタを決定するこの手法は、ピークひずみ測定と呼ばれている。本実施例は２種類のピークひずみ判定基準すなわちピーク・エネ・ルギーひずみおよびピーク・スペクトルひずみを使用している。数学的には、これは次のような式で表わされる。

Ｄ　＝ｍａｘ　［０１，Ｄ２．　Ｄ３．　Ｄ４．　Ｄ５］、ここにＤｉ−０５は上述のとおり各々のディスタンスを表わす。

これらのひずみ測度は、平均フレームへと組合されるべきフレームを規制する局部制約条件として使用されている。

Ｄがエネルギーまたはスペクトルひずみのいずれかに対して所定のひずみスレッショルドを超過した場合は、このクラスタは排除される。すべてのクラスタに対して同一の制約条件を維持することによって、結果としてのワード・テンプレートの相関的な品位を実現できる。

このクラスタ処理手法は、ワード・テンプレートを表わすデータを最適条件で整理するためのダイナミック・プログラミングとともに使用されている。ダイナミック・プログラミングの原理は、数学的に次の式で表わすことができる。

ＹＯ−０、およびＹｊ＝ｍｉｎ　［Ｙｉ＋Ｃ１ｊ１．　（すべてのｉ　ニ対して）ここに、Ｙｊはノード０からノードｊまでの最小コスト・パス（ｌｅａｓｔ　ｃｏｓｔ　ｐａｔｈ）のコスト、Ｃ１ｊはノードｉからノードｊに移る際に受けるコストである。

この整数値ｉおよびｊは可能なノード数にわたっている。

この原理を本発明によるワード・テンプレートの整理に適用するため、いくつかの仮定を設ける。これらの仮定は、テンプレート内の情報は時間的に等しく間隔どりされた一連のフレーム（ａ　５ｅｒｉｅｓ　ｏｆ　ｆｒａｍｅ　）の形であること、フレームを平均フレームへと組み合せる適切な方法が存在すること、平均フレームを原フレームと比較する有意義なひずみ測度が存在すること、およびフレームは隣接フレームとのみ組み合されることである。

本発明の主要目的は、所定のひずみスレッショルドを超過するクラスタが全熱存在しないと言う規制条件に従って、テンプレートを表わす最小組のクラスタを見出す４とである。

下記の定義が、ダイナミック・プログラミングの原理の本発明に基づくデータ整理への適用を可能ならしめる。

Ｙｊは最初のｊフレームに対するクラスタの組合せであり、ＹＯは、この点においてはクラスタが存在しないことを意味するナル・バス（ｎｕｌｌ’　ｐａｔｈ）であり、そしてフレームｉ＋ｌからｊのクラスタがひずみ判定基準を満足すればＣＩｊ−１であり、さもなければＣ１ｊ−無限大であること。

このクラスタ処理方法は、ワード・テンプレートの最初のフレームでスタートする最適クラスタ・バスを生成する。

テンプレート内の各フレームにおいて割当てられたクラスタ・バスは、これらのクラスタ・バスは全ワードに対するクラスタ処理を完全に定義しないので、部分バスと呼ばれる。この方法は、　°フレーム０゛に関連するナル・バスを初期化すること、すなわちＹＯ−０にすることで開始する。

このことは、ゼロ・フレームのテンプレートはそれに関連する０個のクラスタを有することを示している。各バスの相対品位を示すために、合計パスひずみが各々のバスに割り当てられる。いかなる合計ひずみ測度でも使用可能であるが、ここに述べる実施例の場合は現在のバスを定義するすべてのクラスタからのピーク・スペクトルひずみの最大値を使用している。従って、ナル・バスすなわちＹＯはゼロ合計パスひずみＴＰＯを割り当てられる。

最初の部分パスすなわちクラスタの組合せを見出すために、部分バスＹ１は次のように定義されている。

Ｙｌ　（フレーム１における部分バス＞　−ｙｏ＋ｃｏ、ｉ上式は、１個のフレームの許容クラスタはナル・バスＹＯを取す、かつフレーム１までのすべてのフレームを付加することによって形成できることを表わしている。このため、平均フレームは実際のフレームに等しいことから、部分バスＹｌに対する合計コストは１クラスタであり、そして合計バスひずみはゼロである。

第２の部分バスＹ２の形成には、２つの可能性を考慮する必要がある。この可能性は下記のとねりである。

Ｙ２−　ｎ＋ｉｎ　［ＹＯ＋　Ｃｏ、２　；Ｙｌ＋　Ｃ１，２］　。

第１の可能性は、フレーム１および２が１つのクラスタに組み合されたナル・バスＹ（ｌである。第２の可能性は、クラスタとしての第１のフレームすなわち部分バスＹｌに第２のクラスタとしての第２のフレームを加えたものである。

この第１の可能性は１個のクラスタのコストを有し、また第２の可能性は２個のクラスタのコストを有している。

整理を最適化する目的は最も少ないクラスタを得ることであるので、第１の可能性が好ましい。第１の可能性に対する合計コストは１クラスタである。そのＴＰＤは、各フレームと２個のフレームの平均との間のピークひずみに等しい。

第１の可能性が所定のスレッショルド値を超過する局部ひずみを有している場合は、第２の可能性が選択される。

部分バスＹ３を形成するためには、下記の３つの可能性が存在する。

Ｙ３−１ｎ　［ＹＯ＋　Ｃｏ、３　；Ｙ１＋Ｃ１，３；Ｙ２＋０２．３］　。

部分バスＹ３の形成は、部分バスＹ２の形成時にいずれのバスが選択されたかと言うことに依存している。部分バスＹ２は最適に形成されたものであるので、はじめの２つの可能性のうちの１つは考慮しない。従って、部分バスＹ２において選択されなかったバスは部分バスＹ３に関して考慮する必要がない。莫大な数のフレームに対してこの手法を実行すると、絶対に最適なものとならないであろうバスを探索することなく大域的最適化解法が実現される。従って、データ整理に要する計算時間が実質的に削減される。

第５ｂ図は、４フレームのワード・テンプレートにおける最適部分パスを形成する一例を図説している。ＹｌからＹ４までの各々の部分バスは、別個の列で示しである。クラスタ処理のために考慮されるべきフレームは、アングラインが施しである。ＹＯ＋Ｃ［＋、１と定義しである第１の部分バスは、ただ１つの選択５２０を有している。゛単一フレームがそれ自体によってクラスタされる。

部分バスＹ２に関しては、最適形成は最初の２個のフレームを有する１つのクラスタ、選択５２２を含んでいる。この例では、局部ひずみスレッショルドを超過していると仮定すると、第２の選択５２４を取ることになる。これらの２個の組合せフレーム５２２の上のＸ印は、これらの２個のフレームを組み合せても見込みのある平均フレームとして考慮されないことを示している。以後、これを無効化選択と呼ぶことにする。フレーム２までの最適クラスタ形成は、各々が１個のフレーム５２４を有する２個のクラスタで構成されている。

部分バスＹ３については、３組の選択がある。第１の選択５２６は最も望ましいものであるが、部分バスＹ２の最初の２個のフレーム５２２を組み合せるとスレッショルドを超過することから、これは一般的に排除されるであろう。これは常時真実であるとは限らないので留意されたい。実際の最適化アルゴリズムは、部分バスＹ２の選択５２２が無効であるということのみでこの組合せを直ちに排除することはしないであろう。ひずみスレッショルドを既に超過しているクラスタに付加フレームを算入することは、副次的に局部ひずみを減少せしめる。しかし、このことはまれなことである。本例においては、このような算入は考慮していない。

無効組合せの大規模組合せも無効になるであろう。選択５３０は、選択５２２が排除されることによって無効になる。

従って、Ｘ印が第１および第３の選択５２６および５３０の上に付してあり、その各々の無効化を表示している。このため、第３の部分バスＹ３はただ２つの選択すなわち第２の５２８および第４の５３２を有している。この第２の選択５２８が一層最適（クラスタがより少ない）であり、本例においては、局部ひずみスレッショルドを超過していないものとする。従って、第４の選択５３２は最適でないことから無効化される。この無効化は第４の選択５３２の上のＸｘ印によって示されている。フレーム３までの最適クラスタ形成は、２つのクラスタ　５２８から成っている。第１のクラスタは第１のフレームのみを含んでいる。第２のクラスタはフレーム２および３を含んでいる。

第４の部分バスＹ４は、４つの選択対象の概念の組を有している。Ｘ印は、選択５３４．５３８．５４２、および５４８が第２の部分バスＹ２から無効になった選択５２２の結果として無効であることを示している。この結果、単に選択５３６．５４０．５４４、および５４Ｂのみを考慮すればよいことになる。

Ｙ３までの最適クラスタ化は５３２ではなく５２８であるため、選択５４６は非最適選択となることが分るので、これはＸｘ印で示されているように無効になる。残りの３つの選択のうち選択５３６は代表クラスタの数を最小限にするので、この選択５３６を次に選択する。本例においては、選択５３６は局部ひずみスレッショルドを超過しないものとする。従って、全ワード・テンプレートに対する最適クラスタ形成は２個のクラスタのみで構成される。第１のクラスタは第１のフレームのみを含んでいる。第２のクラスタはフレーム２からフレ゛−ム４までを含んでいる。部分バスＹ４は最適に整理されたワード・テンプレートを表わしている。数学的には、この最適部分バスは、Ｙｌ十〇１．４と定義される。

上記のバス形成手順は、各々の部分バスに対するクラスタ形成を選択的に配列することによって改善することができる。フレームは部分バスの最後のフレームからその部分バスの最初のフレームに向かってクラスタ化が可能である。

たとえば、部分バスＹＩＯの形成に際しては、クラスタ化の、配列順序は：　Ｙ９＋Ｃ９，１０、Ｙ８＋Ｃ８，１０、Ｙ７＋Ｃ７，１０、等である。フレーム１０て構成されるクラスタが先ず考慮される。

このクラスタを定義する情報は保存され、フレーム９が加えられてクラスタＣ８，１０となる。クラスタ化フレーム９および１０が局部ひずみスレッショルドを超過する場合は、クラスタＣ９，１０を定義する情報は部分バスＹ９に付加される付加クラスタと考えられない。クラスタ化フレーム９および１０が局部ひずみスレッショルドを超過しない場合は、クラスタＣ８，１０が考慮される。スレッショルドを超過するまでフレームがクラスタに加えられ、スレッショルド超過時点でＹＩＯにおける部分バスの探索は完了する。次に、°最適部分バス、すなわち最も少ないクラスタを有するバスがＹＩＯに対するすべての前の部分バスから選択される。このクラスタ化の選択順序は、可能性のあるクラスタ組合せの試験を限定し、これによって計算時間を削減する。

一般に、任意の部分バスＹｊにおいて、最大ｊクラスタ組合せが試験される。第５Ｃ図はこのようなバスに対する選択順序づけを図説している。最適部分パスは数学的に次のように定義される。

Ｙｊ＝　ｌｌ１ｉｎ　［Ｙｊ−１＋　Ｃｊ−１，ｊ　；−；　Ｙｌ＋　Ｃ１，ｊ　；ＹＯ＋ＣＯ，ｊコ　。

上式において、ｍｉｎはひずみ判定基準を満足するクラスタ・バス内の最小クラスタ数である。第５ｃ図の水平軸上にマーりが付してあり、各々のフレームを示している。縦に示しである列は、部分バスＹｊに対するクラスタ形成可能性である。最下段のかっこの組すなわちクラスタ可能性Ｎａ、　１は、第１の可能性あるクラスタ形成を決定する。この形成は、それ自体でクラスタされる単一フレームｊと、最適部分パスＹｊ−１とを含んでいる。低コストのバスが存在するか否かを判断するため、可能性Ｎｏ、　２が試験される。部分バスＹｊ−２がフレームｊ−２までは最適であるので、フレームｊとｊ−１とのクラスタ化がフレームｊまでの他の形成の存否を決定する。ひずみスレッショルドを超過するまで、フレームｊは付加隣接フレームによってクラスタされる。ひずみスレッショルドを超過すると、部分バスＹｊに対する探索は完了し、そして最も少ないクラスタを有するバスがＹｊとして取られる。

このような方法でクラスタ化を順序づけることによって、フレームｊに直接隣接しているフレームのみのクラスタ化を強制する。他の利点は、無効化選択をクラスタされるべきフレームの決定の際に使用しないことである。このため、いかなる単一部分バスに対しても、最小数のフレームがクラスタ化のために試験され、そして部分バスごとに１つのクラスタ化を定義する情報のみが記憶装置に記憶される。

各々の部分バスを定義する情報は、次の３つの）くラメータを含んでいる。

（１）総計バス−コスト、すなわち、そのノくス内のクラスタ数。

（２）形成された直前のバスを示すトレースノ＜・ツク・ポインタ（ｔｒａｃｅ −ｂａｃｋ　ｐｏｉｎｔｅｒ）　ｏたとえば、部分バスＹ６が（Ｙ３十〇３．６）と定義された場合、Ｙ６におけるトレースバック・ポインタは部分バスＹ３を指す。

（３）バスの総合ひずみを反映する、現在のノくスに対する全バスひずみ（ＴＰＤ）。

このトレースバック・ポインタは、そのノくス内のクラスタを定義する。

全パスひずみは、バスの品位を反映している。これは、各々が等しい最小コスト（クラスタ数）を有している２つの可能性あるバス形成のいずれが最も望ましいものであるかを決定するために使用される。

次の例はこれらのパラメータの応用について説明している。

部分バスＹ８に関して次の組合せが存在するものとする。

Ｙ８−　Ｙ３＋　Ｃ３，８または　Ｙ５＋Ｃ５，８部分パスＹ３および部分バスＹ５のコストが相等しく、かつクラスタＣ３，８およびＣ５，８が共に局部ひずみ制約条件を満たすものとする。

所望の最適形成は最小のＴＰＤを有するものである。

ピークひずみ試験を使用して、部分バスＹ８に対する最過形成は次のように決定され“る。

１ｎ　［ｍａｘ［Ｙ３　；クラスタ　４−８のピークひずみ］；ＴＰＤｍａｘ［Ｙ５　；クラスタ　６−８のピークひずみ］］。

ＰＤいずれの形成が最小ＴＰＤを有しているかによって、トレースバック拳ポインタはＹ３かＹ５のいずれかに設定される。

ここで第５ｄ図を見ると、この図はｊフレーム列に対する部分パスの形成に関するフローチャートを示している。このフローチャートは４個のフレームを有する、すなわちＮ−４の場合のワード・テンプレートに関するものである。

結果としてのデータ整理テンプレートは、Ｙｊ−Ｙ１＋　Ｃ１，４である第５ｂ図による例と同一である。

ナル・パス、すなわち部分バスＹＯは、コスト、トレースバック・ポインタおよびＴＰＯとともに初期化される（ブロック　５５０）。各々の部分バスはＴＰＤ　、コストおよびＴＢＰに対する各自の組の値を有していることに留意されたい。フレーム・ポインタｊは１に初期化され、第１の部分バスＹｌを示す（ブロック　５５２）。第５ｅ図のフローチャートの第２の部分に続き、第２のフレーム・ポインタには０に初期化される（ブロック　５５４）。第２のフレーム・ポインタは、その部分バスのクラスタ処理にどの程度さかのぼってクラスタを考慮するかを指定するために使用される。従って、クラスタ処理のために考慮されるべきフレームはに＋１からｊまでが指定される。

これらのフレームは平均化され（ブロック　５５６）　、そしてクラスタひずみが生成される（ブロック　５５８）。部分バスの第１のクラスタが形成されつつあるか否かを判断するため試験が行なわれる（ブロック　５６２）。この時点において、第１の部分バスが形成中である。従って、必要なパラメータを設定することによって、クラスタは記憶装置内に定義される（ブロック　５６４）。これは第１の部分バスの第１のクラスタであるので、トレースバック・ポインタ（ＴＢＰ）はナル・ワードに、コストは１に設定され、そしてＴＰＤは０のままである。

フレームｊで終結するパスに対するコストは、“ｊで終結するパスのコスト（パスｊのクラスタの数）”プラス“加えられる新しいクラスタの１“として設定される。大規模クラスタ形成に対する試験は、ブロック　５６６に示しである第２のフレーム・ポインタｋをデクレメントすることによって開始する。この時点において、ｋは−１にデクレメントされるので、無効フレーム・クラスタを防止するための試験が行なわれる（ブロック　５６８）。ブロック　５６８において実施した試験からの肯定の結果は、すべての部分バスの形成が完了しそして最適性の試験が完了したことを示すものである。第１の部分バスは、数学的にＹｌ−ＹＯ＋　Ｃ０，１と定義される。このパスは第１のフレームを含む１個のクラスタで構成されている。ブロック　５７０に示す試験は、すべてのフレームがクラスタ化されたか否かを判断する。クラスタ化されるフレームがまだ３個ある。次の部分バスは、第１のフレーム・ポインタｊをインクレメントすることによって初期化される（ブロック　５７２）。第２のフレーム・ポインタはｊの前の１フレームに初期化される（ブロック５５４）。従って、ｊはフレーム２を指し、ｋはフレーム１を指す。

フレーム２はブロック　５５６において単独に平均される。

ブロック　５６２において行なわれる試験で、ｊかに＋１に等しいことを決定し、流れは第１の部分バスＹ２を定義するためのブロック　５６４に進む。ポインタには、次のクラスタを考慮するためブロック　５６６においてデクレメントされる。

フレーム１および２は平均されてＹＯ＋００．２を形成しくブロック　５５Ｇ）　、そしてひずみ測度が生成される（ブロック５５８）。これは形成される第１のパスではないので（ブロック　５［１２）　、流れはブロック　５６０に進む。ひずみ測度はスレッショルドと比較される（ブロック　５６０）。本例においては、フレーム１と２とを組み合せるとスレッショルドを超過する。従って、以前に保存された部分バス、すなわちＹ１十〇１．２が部分バスＹ２として保存されているが、そのままフローチャートはブロック　５８０に分岐する。

このブロック　５８０に示したステップは、いずれかの付加フレームが既にスレッショルドを超過しているこれらのフレームと共にクラスタ化されるべきであるか否かを判断するための試験を行なうものである。一般的には、はとんどのデータの性質に起因して、この時点で付加フレームを加えることはさらにひずみスレッショルドの超過を招く結果となるものである。しかしながら、生成されたひずみ測度のスレッショルド超過が約２０％を越えない場合は、ひずみスレッショルドを超過することなく付加フレームがクラスタ化可能であることが分かつている。さらにクラスタ化を望む場合は、第２のフレーム・ポインタが新しいクラスタを指定するためにデクレメントされる（ブロック　５６Ｂ）。。

さもなければ、すべてのフレームがクラスタ化されたか否かを示す試験が実施される（ブロック　５７０）。

次の部分バスは、ｊを３に等しく設定して初期化される（ブロック　５７２）。

第２のフレーム・ポインタは２に初期化される。フレーム３は単独に平均化され（ブロック５５Ｇ）　、そしてひずみ測度が生成される（ブロック　５５８）。

これはＹ３に対して形成された第１のパスであるので、この新しいパスは定義されかつ記憶装置に保存される（ブロック　５６４）。第２のフレーム・ポインタはデクレメントされ（ブロック　５８Ｂ）　、大規模クラスタを指定する。この大規模クラスタは、フレーム２および３で構成されている。

これらのフレームは平均化され（ブロック　５５Ｂ）　、ひずみが生成される（ブロック　５５８）。これは形成される第１のパスではないので（ブロック　５８２）　、流れはブロック５６０に進む。この例では、スレッショルドを超過しない（ブロック　５６０）。このパスＹｌ＋Ｃ１，ｌは２個のクラスタを有し、３個のクラスタを有するバスＹ２＋０２．３よりもさらに最適のものであるので、バスＹ１＋Ｃ１，３は以前に保存されたバスＹ２＋Ｃ２，３に部分バスＹ３として取って代わる。ｋが０にデクレメントされると、大規模クラスタが指定される（ブロック　５６６）。

７Ｌ／−ム１〜３は平均化され（ブロック　５５Ｂ）　、別のひずみ測度が生成される（ブロック　５５８）。この例では、スレッショルドを超過する（ブロック　５６０）。付加フレームがクラスタ化されることはなく（ブロック　５８０）　、すべてのフレームがクラスタ化されたか否かを判断するため試験が再び行なわれる（ブロック　５７０）。フレーム４が未だクラスタ化されていないので、ｊが次の部分バスＹ４のためにインクレメントされる。第２のフレーム・ポインタはフレーム３に設定され、そしてクラスタ化処理が繰り返される。

フレーム４は単独に平均化される（ブロック　５５６）。再び、これは形成された最初のバスであり（ブロック　５６２）、このバスはＹ４に対して定義される（ブロック　５６４）。この部分バスＹ３十〇３．４は、３個のクラスタのコストを有している。大規模クラスタが指定され（ブロック　５６Ｂ）　、フレーム３および４がクラスタ化される。

フレーム３および４は平均化される（ブロック　５５６）。

本例においては、これらのひずみ測度はスレッショルドを超過しない（ブロック　５６０）。この部分バスＹ２＋　０２．４は３個のクラスタのコストを有している。これは以前のバス（Ｙ３＋Ｃ３，４）と同一のコストを有しているので、流れはブロック　５７４および５７６を通してブロック　５７８に進み、ＴＰＯはいずれのバスが最も小さいひずみを有しているかを判断するため調べられる。

現在のバス（Ｙ２＋　Ｃ２，４）が以前のバス（Ｙ３＋　０３．４）よりも低いＴＰＤを有していれば（ブロック５７８）　、このバスは以前のバスに取って代るであろうしくブロック　５８４）　、さもなければ流れはブロック　５６６に進む。大規模クラスタが指定され（ブロック　５８Ｂ）　、フレーム２〜４がクラスタ化される。

フレーム２〜４は平均化される（ブロック　５５６）。本例においては、これらのひずみ測度はまたもスレッショルドを超過しない。この部分バスＹ１＋Ｃ１，４は２個のクラスタのコストを有している。これは以前のバス以外の部分バスＹ４に代するさらに最適のバスであるので、このバスは以前のバスに代って定義される（ブロック　５６４）。大規模クラスタが指定され（ブロック　５６［ｉ）　、そしてフレーム１〜４がクラスタ化される。

フレーム１〜４を平均化すると、本例においては、ひずみスレッショルドを超過する（ブロック　５６０）。クラスタ化は停止される（ブロック　５８０）。すべてのフレームのクラスタ化が完了したので（ブロック　５７０）　、各々のクラスタを定義している記憶情報はこの４フレームのデータ整理ワード・テンプレートに対する最適バスを定義するが（ブロック　５８２）　、これは数学的にはＹ４−　Ｙ１＋　Ｃ１，４と定義される。

本例は第３図からの最適データ整理ワード・テンプレートの形成を説明している。フローチャートは、下記の順序による各々の部分バスに対するクラスタ化の試験を説明しフレームを示している数字は、各々のクラスタ試験に対してアングラインが付しである。スレッショルドを超過するクラスタは先頭に付した°＊°印によって示されている。

本例においては、１０種類のクラスタ・バスが探索される。

一般に、この手順を使用する場合は、Ｎをワード・テンプレート内のフレーム数とすると、多くて［Ｎ　（Ｎ＋１）］／２個のクラスタ・バスが最適クラスタ形成を探索するために必要である。１５フレームのワード・テンプレートに関しては、すべての可能性ある組合せを試行する探索のための１８，３８４のバスに比して、最大１２０のバスの探索を必要とすることになる。従って、本発明に基づいてこのような手順を使用すると、計算時間の著しい削減が実現される。

第５ｄおよび５ｅ図のブ゛ロック　５５２．５６８．５５４．５６２、および５８０を変更することによって、計算時間をさらに削減することができる。ブロック　５６８は、第２のフレーム−ポインタｋに設定される限界を示している。この例では、ｋはフレームＯにおけるナル・バス、すなわち部分バスＹＯによってのみ制限される。ｋは各クラスタの長さを定義するために使用されるので、クラスタ化されるフレームの数はｋに制約条件を付与することによって制約することができる。すべて゛の与えられたひずみスレッショルドに対して、クラスタ化された場合に、このひずみスレッショルドを超過するひずみを生じさせるクラスタ数が常に存在する筈である。これに対して、ひずみスレッショルドを超過するひずみを絶対に生じない最小クラスタ形成が常に存在する筈である。従って、最大クラスタ・サイズＭＡＸＣ８と最小クラスタ・サイズ旧ＮＣ８とを定義することによって、第２のフレーム・ポインタｋを制約することができる。

旧ＮＣ８はブロック　５．５２．５５４、および５６２に適用することにする。

ブロック　５５２に関しては、ｊは旧ＮＣ３に初期化されることになる。ブロック　５５４に関しては、このステップにおいてｋから１を減するのではなく、旧ＮＣ８が減じられることになる。このことはｋを各々の新しい部分バスに対して、あるフレーム数だけ戻すことになる。この結果、旧ＮＣ８よりも少ないフレームを有するクラスタは平均化されないことになる。旧ＮＣ８を収容するため、ブロック　５６２はｊ−に＋１ではなくｊ−に＋旧ＮＣ８の試験を表わすべきであることに留意されたい。

ＭＡＸＣ３はブロック　５６８に適用されることになる。

限界は０　（ｋ＜０）以前のフレームまたはＭＡＸＣＳ（ｋ　＜　Ｏ−ＭＡＸＣＳ）で指定されたちの以前のフレームになる。

これによって、ＭＡＸＣＳを超過することが分かつているクラスタの試験を避けることができる。

第５ｅ図の方法による場合は、これらの制約条件は数学的に次のように表わすことができる。

ｋ　＞　ｊ　−ＭＡＸＣＳ　および　ｋ〉０；　並びにｋくｊ−旧ＮＣ８および　ｊ　＞ＭＩＮＣ８゜たとえば、部分パスＹ１５に対してＭＡＸＣＳ　−５、および旧ＮＣ３−２とすると、最初のクラスタはフレーム１５および１４で構成され、最後のクラスタはフレーム１５〜１１で構成される。ｊは旧ＮＣ８より大または旧ＮＣ８と等しくなければならないと言う制約条件は、クラスタが最初のＭ　Ｉ　ＮＣＳフレーム内に形成することを防止する。

サイズ旧ＮＣ８におけるクラスタはひずみスレッショルドに対して試験（ブロック　５６０）されないことに注目されたい（ブロック　５６２）。このことは、有効部分パスがすべてＹｊＳｊ＞旧ＮＣ９に対して存在することを保証する。

本発明に基づいてこのような制約条件を使用することによって、探索対象のパス数はＭＡＸＣＳと旧ＮＣ９との間の差に従って削減される。

第５ｒ図は、第５ｅ図のブロック　５８２をさらに詳細に示している。この第５ｆ図は、逆の方向に各クラスタからトレースバック・ポインタ（第５ｅ図のブロック　５６４内のＴＢＰ）を使用することによってデータ整理後の出力クラスタを生成する方法を説明している。２つのフレーム・ポインタＴＢおよびＣＦが初期化される（ブロック　５９０）。ＴＢは最後のフレームのトレースバック・ポインタに初期化される。現在エンド・フレーム・ポインタであるＣＦは、ワード・テンプレートの最終フレームに初期化される。第５ｄおよび５ｅ図からの例においては、ＴＢはフレーム１を、そしてＣＰはフレーム４を指すことになる。フレームＴＢ＋１〜ＣＦは平均化されて、合成ワード・テンプレートに対する出力フレームを形成する（ブロック　５９２）。各々の平均化フレームに対する変数、またはクラスタは組み合されるフレーム数を記憶する。これは“リピート・カウント”と呼ばれ、ＣＦ−ＴＢから計算することができる。第６Ｃ図以下を参照されたい。すべてのクラスタが出力されたか否かを判断するため試験が行なわれる（ブロック　５９４）。出力が完了していない場合は、ＣＦをＴＢに等しく設定しかつＴＢを新しいフレームＣＦのトレースバック・ポインタに設定することによって、次のクラスタが指示される。この手順は、すべてのクラスタが平均化されかつ出力されて合成ワード・テンプレートを形成するまで継続する。

第５ｇ、　５ｈ、および５１図は、トレースバック・ポインタのユニークな応用を説明している。このトレースバック中ポインタは、一般に無限長データと呼ばれている不定数のフレームを有するデータからクラスタを出力するための部分トレースバック・モードにおいて使用される。これは、有限数のフレーム例えば４個を有するワード・テンプレートを使用している第３および５図で説明した例とは異なるものである。

第５ｇ図は連続の２４個のフレームを示しているが、この各々のフレームには部分パスを定義するトレースノ＜・ツク・ポインタが割り当てられている。この例では、旧ＮＣ８は２に、そしてＭＡＸＣＳは５に設定しである。部分トレースノ（・ツクを無限長データに応用するには、入力データの部分を定義するためにクラスタ化されたフレームが連続的に出力されることを必要とする。従って、部分トレースバックのスキームにトレースバック・ポインタを応用することによって、連続データを整理することができる。

第５ｈ図は、フレーム１０で集中し、フレーム２１〜２４で終結するすべての部分パスを図説している。フレーム１〜４．５〜７、および８〜１０は最適クラスタであると判明したものであり、また集中点はフレーム１０であるので、これらのフレームは出力可能である。

第５１図は、フレーム１〜４．５〜７、および８〜１０が出力された後の残りのトリーを示している。第５ｇおよび５ｈ図は、フレーム０におけるナル・ポインタを示している。第５１図の形成の後、フレーム１０の集中点は新しいナル、・ポインタの位置を指定している。この集中点を経てトレース・バックし、かつその点からフレームを出力することによって、無限長データを収容することができる。

一般に、フレームｎとすると、トレースバックを開始すべき点はｎ、ｎ−１、ｎ −２、−・−ｎ　−ＭＡＸＣＳであるが、これはこれらのパスが依然として有効であり、かつさらに入力データと組み合せることが可能であるからである。

第６ａおよび６ｈ図のフローチャートは、第４ａ図の差分符号化ブロック　４３０によって実施される一連のステップを図説している。ブロック　６６０でスタートし、この差分符号死処。

理は、各チャンネルの実際のエネルギー・データの代りに、隣接チャネル間の差を生成して記憶することによって、テンプレート記憶装置の必要量を軽減している。この差分符号化処理は、第４ｂ図において説明したように、フレーム・パイ・フレームのベースで作動している。従って、初期化ブロック　６６１は、フレーム・カウントＰＣを１に、そしてチャネル合計ＣＴを１４に設定している。ブロック　６６２は以前のとおりフレーム合計ＦＴを計算する。ブロック　６６３は、ワードのすべてのフレームが符号化されたか否かを確認するための試験を行なう。すべてのフレームが処理完了していれば、差分符号化はブロック　６６４で終結する。

ブロック　６６５は、チャネル・カウントＣＣを１に等しく設定することによって、実際の差分符号化手順を開始する。

チャネル１のエネルギー正規化データが、ブロック　６６６においてアキュムレータに読み込まれる。ブロック　６６７は、記憶域削減のためチャネル１のデータを１．５ｄＢ段階に量子化する。特徴抽出器３１２からのチャネル・データは、８ビツト／バイトを使用して最初０．３７８ｄＢ／段階として表わされる。１．５ｄＢ増分に量子化される場合は、９６ｄＢのエネルギー範囲（２６Ｘ　１．５ｄＢ）を表わすためには６ビツトしか要しないことになる。最初のチャネルは、隣接チャネルの差を決定するための基準を形成するため、差分符号化されない。

チャネル・データの量子化・制限化値をチャネル差分の計算に使用しないものとすると、著しい量子化エラーがブロック　４３０の差分符号化処理に混入子る可能性がある。このため、内部変数ＲＱＶ　、すなわちチャネル・データの再編成量子化値を差分符号化ループの内部に導入してこのエラーを考慮している。チャネル１は差分符号化されないので、ブロック　６６８は、将来使用のためのチャネルＩ　ＲＱＶを、チャネル１の量子化データの値を単にそれに割り当てることによって、形成する。以下に説明するブロック　６７５は、残りのチャネルのためのＲＱＶを形成する。従って、量子化されたチャネル１のデータはブロック　６６９において（テンプレート記憶装置１６０に）出力される。

チャネル・カウンタはブロック　６７０においてインクレメントされ、そして次のチャネル・データがブロック　６７１においてアキュムレータに読み込まれる。ブロック　６７２は、このチャネルデータのエネルギーを１　、５ｄＢ／ステツプで量子化する。差分符号化は、実際のチャネル値ではなくチャネル間の差を記憶するので、ブロック　６７３は次式に基づいて隣接チャネルの差を決定する。

チャネル（ＣＣ）差分−〇〇　（ＣＯ）データーＣＨ（ＣＣ−１）　ＲＱＶ上記においてＣＨ（ＣＣ−１）　ＲＱＶは、前のループのブロック６７５またはＣＣ −２においてはブロック　６６８において形成された前のチャネルの再編成量子化値である。

ブロック　６７４はこのチャネル差分ビット値を、−８〜＋７最大に制限する。

このビット値を制約するとともにエネルギー値を量子化することによって、隣接チャネル差分の範囲は一１２ｄＢ／＋ｌＯ，５ｄＢになる。異なる応用による異なる量子化値またはビット制限も考えられるが、上記結果は得られた値が本応用について十分なものであることを示している。

その上、制限チャネル差分は４ビツトの符号付き数であるので、１バイトについて２個の値の記憶が可能である。従って、ここで説明した制限および量子化手順は所要データ記憶量を実質的に削減している。

しかしながら、各々の差分の制限および量子化値が次のチャネルの差分形成に使用されないとすると、著しい再編成エラーを招くことになる。ブロック　６７５は、次のチャネル差分を形成する前に量子化および制限化データから各チャネル差分を再編成することによって、このエラーを考慮に入れている。内部変数ＲＱＶは次式によって各チャネルに対して形成される。

チャネル（ＣＣ）　ＲＱＶ　−ＣＨ（ＣＣ−１）　ＲＱＶ　＋Ｃｎ　（ＣＧ）の差分上式において、ＣＨ（ＣＣ−１）　ＲＱＶは前のチャネル差分の再編成量子化値である。従って、差分符号化ループ内にＲＱＶ変数を使用することによって、量子化エラーが後続チャネルに伝搬することを防止する。

ブロック　６７Ｂは、量子化／制限化チャネル差分を、このンプレート記憶装置に出力する（第６Ｃ図参照）。ブロック６７７は、すべてのチャネルが符号化されたか否かを確認するための試験である。チャネルが残っている場合は、手順がブロック　６７０から繰り返される。チャネル参カウントＣＣがチャネル合計ＣＴに等しい場合は、フレーム・カウントＦＣは以前のとおりブロック　６７８においてインクレメントされそしてブロック　６６３において試験される。

以下の計算は、本発明によって達成される整理データ・レートを説明するものである。特徴抽出器３１２は１４個のチャネルの各々に対する８ビツトの対数チャネル・エネルギー値を生成するが、この場合最下位のビットはｄＢの３／８を表わす。従って、データ整理器ブロック　３２２に印加される原始ワード・データの１フレームは、８ビ・ソト／ノ（イトで、１４バイトのデータで構成され、１００フレーム／秒では１１．２００ビット／秒に等しい。

エネルギー正規化および区分化／圧縮手順が実施された後は、１フレームにつき１６バイトのデータを必要とする。

（１４個のチャネルの各々に対して１バイト、平均フレーム・エネルギーＡＶＧＥＮＧに対して１バイト、およびリピート・カウントに対して１バイト）。このように、データ・レートは８ビツト／バイト、１００フレーム／秒において１６バイトのデータとして計算することができ、リピート・カウントについて平均４フレームと仮定すると、３．２００ビット／秒が得られる。

ブロック　４３０の差分符号化処理が完了した後、テンプレート記憶装置１６０の各フレームは第８Ｃ図の整理データ形式に示すようになる。リピート・カウントは、バイト１に記憶される。量子化・エネルギー正規化されたチャネル１のデータは、バイト２に記憶される。バイト３〜９は、２チヤネルの差分が各々のバイトに記憶されるように分割されている。換言すれば、差分符号化されたチャネル２のデータはバイト３の上位ニブルに記憶され、そしてチャネル３のデータは同一バイトの下位ニブルに記憶される。チャネル１４の差分はバイト９の上位ニブルに記憶され、そして平均化フレーム・エネルギーすなわちＡＶＧＥＮＧはバイト９の下位ニブルに記憶される。９バイト／フレームのデータ、８ビツト／バイト、■００フレーム／秒、そして平均リピート・カウントを４とすると、データ・レートは　１．８００ビット／秒となる。

従って、差分符号化ブロック　４３０は１６バイトのデータを９バイトに整理している。リピート・カウント値が２〜１５の間にあれば、このリピート・カウントも４ビツトのニブル内に記憶可能である。すなわち°、このリピート・カウント・データ形式を、記憶装置必要量を８．５バイト／フレームにさらに削減するように再配列することができる。その上、このデータ整理処理は、データ・レートを少なくとも係数６だけ減少させている（１１．２００−１．８００）。この結果、減し、これによって音声認識用語範囲の増大を可能ならしめている。

３６復号化（ｄｅｃｏｄ　ｉｎｇ）アルゴリズム第７ａ図は、第４ａ図のブロック　４２０に関して説明したとおり、３個の平均フレーム７２２に組み合せたフレーム７２０を有する改良形ワード・モデルを示している。各々の平均フレーム７２２は、１つのワード・モデル内のステート（ｓｔａｔｅ）として示しである。各ステートは１つ以上のサブステート（Ｓυｂｓｔａｔｅ）を含んでいる。サブステートの数は、このステートを形成するために組み合されたフレームの数に依存している。各サブステートは、入力フレームと平均フレームとの間の類似点測度すなわちディスタンス・スコア（ｄｉｓｔａｎｃｅ　５ｃｏｒｅｓ）を累積する関連ディスタンス・アキュムレータを有している。この改良形ワード・モデルの実施態様について第７ｂ図で説明する。

この第７ｂ図は、第３図からのブロック　１２０を、テンプレート記憶装置１６０との関係を含み特に詳しく示すために展開拡大したものである。音声認識器３２６は展開拡大されて、認識器制御ブロック　７３０、ワード・モデル・デコーダ７３２、ディスタンスＲＡＭ　７３４　、ディスタンス計算器７３６およびステート・デコーダ７３８を含んでいる。テンプレート・デコーダ３２８とテンプレート記憶装置とに関しては、この音声認識器３２６に続いて説明する。

認識器制御ブロック　７３０は、認識処理を調整するために使用されている。この調整は、（隔離ワード認識に対する）エンドポイントの検出、ワード・モデルの最良累積ディスタンス・スコアの追跡、（連結すなわち連続ワード認識のための）ワードの連結に使用されるリンク・テーブルの維持、特殊認識処理に必要な特殊ディスタンス計算、およびディスタンスＲＡＭ　７３４の初期化を含むものである。認識器制御はさらに、音響プロセッサからのデータの緩衝をも行なう。

入力音声の各々のフレームに対して、認識器はテンプレート記憶装置内のすべての有効ワード・テンプレートを更新する。認識器制御器７３０の特殊必要条件は、Ａｃｏｕｓｔｉｃｓ、　５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（音響、音声、および信号の処理）に関する１９８２年のＩＥＥＥ国際会議の議事録の　８９９〜９０２頁に”Ａｎ　Ａｌｇｏｒｉｔｈｍ　ｆ’ｏｒ　Ｃｏｎｎｅｃｔｅｄ　ＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識のためのアルゴリズム）′と題する論文にＢｒ１ｄｅ　ＳＢｒｏｗｎ　％およびＣｈａｍｂｅｒｌａｉｎが記述している。この認識器制御器ブロックによって使用されている対応制御プロセッサについては、ＡｅＯｕＳｔｉｅＳ。

５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（音響、音声、および信号の処理）に関する１９８２年のＩＥＥＥ国際会議の議事録の８６３〜８６６頁に”Ａ　Ｒｅａｌ−Ｔｉｍｅ　Ｈａｒｄｗａｒｅ　Ｃｏｎｔｉｎｕｏｕｓ　ＳｐｅｅｃｈＲｅｅＯｇｎｌｔｉＯｎ　Ｓｙｓｔｅｍ　（リアルタイムｅ　ハードウェア連続音声認識システム）”と題する論文にＰｅｃｋｈａｍ　５Ｇｒｅｅｎ　。

Ｃａｎｎｉｎｇ　ｓおよび５ｔｅｐｈｅｎｓが言己述している。

ディスタンスＲＡＭ　７３４は、デコード処理に対して最新のすべてのサブステートに関して使用された累積ディスタンスを内容として有している。　１９７７年、Ｃａｒｎｅｇｊｅ−Ｍ−ｅｌ　ｔｏｎＵｎｉｖｅｒｓｉｔｙ　（カーネギ− ・メロン大学）のＣｏｍｐｕｔｅｒＳｃｊｅｎｃｅ　Ｄｅｐｔ、　（コンピュータ科学部）のＰｈ、　Ｄ、　Ｄｉｓｓｅｔ−ｓｙｓｔｅｍ　（バービイ音声認識システム）１にＢ、　Ｌｏｗｅｒｒｅが記述しているようなビーム復号化を使用する場合は、このディスタンスＲＡＭ　７３４は現在有効であるサブステートを識別するためのフラグを含むことになる。前記の“Ａｎ　Ａｌｇｏ−ｒｉｔｈａ　ｆｏｒ　Ｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識のためのアルゴリズム）”に記述されているように連結ワード認識処理を使用する場合は、ディスタンスＲＡＭ　７３４は各々のサブステートに対するリンキング拳ポインタをも含むことになる。

ディスタンス計算器７３６は、現在の入力フレームと処理中のステートとの間のディスタンスを計算する。ディスタンスは通常の場合、音声を表わすためそのシステムが使用している特徴データのタイプに基づいて計算される。帯域ろ（濾）波されたデータはユークリッド（Ｅｕｃｌ　１ｄｅａｎ）またはチェビシェフ（Ｃｈｅｂｙｃｈｅν）のディスタンス計算を使用することができるが、この計算については１９８３年５〜６月のＢｅ１ｌ　Ｓｙｓｔｅｍ　Ｔｅｃｈｎｉｃａｌ　Ｊｏｕｒｎａｌ　（ベル・システム・テクニカルφジャーナル）　ＶｏｌＪ２．　Ｎｏ、５の１．３１１−１．３３１１ｉ頁にＢ、　Ａ、　Ｄａｕｔｒｉｃｈ、　Ｌ、　Ｒ，Ｒａｂｉｎｅｒ　ＳＴ、　Ｂ、　Ｍａｒｔｌｎが“ＴｈｅＥｆｆｅｃｔｓ　ｏｆ　５ｅｌｅｃｔｅｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｉｑｕｅｓ　ｏｎｔｈｅ　Ｐｅｒｒｏｒｍａｎｃｅ　ｏｆ　Ｆｉｌｔｅｒ−Ｂａｎｋ−Ｂａｓｅｄ　ｌ５ｏｌａｔｅｄ　Ｗｏｒｄ’　Ｒｅｃｏｇｎｉｚｅｒ　（選択信号処理手法のフィルタ・バンクに基づくワード認識器の性能に及ぼす影響）”と題して発表した論文に記述しである。ＬＰＧデータは対数尤度比ディスタンス計算（ｌｏｇ−１ｔｋｅｌｉｈｏｏｄ　ｒａＮｏ　ｄｉｓｔａｎｃｅ　ｃａｌｃｕｌａｔｌｏｎ）を使用することができ、この計算については１９７５年２月のＩＥＥＥ　Ｔｒａｎｓ、Ａｃｏｕｓｔｉｃｓ、５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ（音響、音声および信号の処理）　Ｖｏｌ、　ＡＳＳＰ−２３の８７〜７２頁に“旧ｎｉＩＩｌｕｍ　Ｐｒｅｄｉｃｔｉｏｎ　Ｒｅ５ｉｄｕａｌ　Ｐｒ１ｎｃｉｐｌｅ　Ａｐｐｌｉｅｄ　ｔ。

５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　（音声認識に応用される最小予測残留の原理）°と題してＰ、　Ｉｔａｋｕｒａが発表した論文に記述されている。本実施例はチャネル・バンク情報とも呼ばれているる波データを使用しているので、チェビシェフ計算またはユークリッド計算のいずれでも構わない。

ステートデコーダ７３８は、入力フレーム処理時の各々の現在有効ステートについてディスタンスＲＡＭを更新する。

換言すれば、ワード・モデルデコ゛−ダ７３２によって処理された各々のワード・モデルについて、ステートデコーダ７３８はディスタンスＲＡＭ　７３４内の所要累積ディスタンスを更新する。このステートデコーダは、入力フレームとディスタンス計算器７３６によって決定された現在ステートとの間のディスタンス、および、勿論のことであるが、現在ステートを表わすテンプレート記憶装置データをも利用する。

第７ｃ図は、各々の入力フレームを処理するためにワード・モデル・デコーダ７３２が行なう諸ステップをフローチャートの形で示している。１９７７年のカーネギ−・メロン大学の計算機科学部の博士論文＋Ｔｈｅ　Ｈａｒｐｙ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｊ−１１ｏｎ　Ｓｙｓｔｅｌｍ（／’−ビイ音声認識システム）“にＢ、　Ｌｏｗｅｒ「ｅが記述しているビーム復号処理のような切捨て探索手法（ｔｒｕｎｃａｔｅｄ　ｓｅａｒｃｈｉｎｇ　ｔｅｃｈｎｉｑｕｅ）を含み、多数のワード探索手法を復号処理のために使用することができる。切捨て探索手法を実施する場合は、音声認識器制御器７３０がスレッショルド・レベルと最良累積ディスタンスを保持していることが必要であることに留意されたい。

第７ｃ図のブロック　７４０において、認識器制御器（第７ｂ図のブロック　７３０）から３つの変数が抽出される。これらの３つの変数は、ＰＣＡＤ、　ＰＡＤおよびテンプレートＰＴＲである。

このテンプレートＰＴＲは、ワード−モデル・デコーダを正しいワード・テンプレートに向けるために使用される。

ＰＣＡＤは、直前のステートからの累積ディスタンスを表わしている。この累積されたディスタンスは、シーケンス中のワード・モデルの直前のステートから存在しているものである。

ＰＡＤは直前の連続ステートから必ずしも必要ではないが、直前の累積ディスタンスを表わしている。ＰＡＤは、直前のステートが最小ドウエル・タイム０（ゼロ）を有する場合、すなわち直前のステートがともにスキップ可能な場合は、ＰＣＡＤと異なることができる。

隔離ワード認識システムにおいては、ＰＡＤおよびＰＣＡＤは、一般的には認識器制御器によって０（ゼロ）に初期化される。連結または連続ワード認識システムにおいては、ＰＡＤおよびＰＣＡＤの初期値は他のワード・モデルの出力から決定することができる。

第７ｃ図のブロック　７４２において、ステート・デコーダは個々のワード・モデルの第１のステートに対する復号化機能を行なう。このステートを表わすデータは、認識器制御器から供給されたテンプレートＰＴＲによって識別される。

そのワード・モデルのすべてのステートが復号されたか否かを判断するためブロック　７４４で試験が行なわれる復号化が完了していない場合は、更新されたテンプレートＰＴＲを伴って、流れはステート・デコーダ、すなわちブロック７４２に戻る。このワード・モデルのすべてのステートが復号されている場合は、累積ディスタンス、ＰＣＡＤとＰＡＤとがブロック　７４８において認識器制御器に戻される。この時点において、認識器制御器は復号すべき新しいワード・モデルを典型的に指定することになる。すべてのワード・モデルの処理が完了すると、音響プロセッサからの次のデータ・フレームの処理を開始しなければならない。入力の最後のフレームが復号された場合の隔離ワード認識システムについては、各々のワード・モデルに対してワード・モデル・デコーダによって返されたＰＣＡＤは、入力発声をそのワード・モデルに突き合せるための全累積ディスタンスを表わしていることになる。一般的には、最低の全累積ディスタンスを有するワード・モデルが、認識された音声によって表わされたものとして選択されることになる。テンプレートの突合せが決定すると、この情報は制御ユニット　３３４に伝達される。

第７ｄ図は、各々のワード・モデルの各々のステートに対する実際のステート復号化処理を行なうためのフローチャート、すなわち第７Ｃ図のブロック　７４２を拡張拡大したものを示している。累積ディスタンス、すなわちＰＣＡＤおよびＰＡＤはブロック　７５０に伝達される。ブロック　７５０において、ワード・モデル・ステートと入力フレームとのディスタンスが計算され、入力フレーム争ディスタンスを意味するＩＰＤと呼ばれる変数として記憶される。

このステートに対する最大ドウエルは、テンプレート記憶装置から移送される（ブロック　７５１）。この最大ドウエルは、ワード・テンプレートの各々の平均フレームに組み合されるフレーム数から決定され、そしてステート内のサブステート数に等しいものである。実際にこのシステムは、組み合されるフレームの数として、最大ドウエルを定義する。これは、ワード・トレーニング時には特徴抽出器（第３図のブロック　３１０）は入力音声を認識処理時の２倍のレートでサンプルするからである。最大ドウエルを平均化されたフレーム数に等しく設定することによって、認識時に話されるワードがテンプレートによって表わされるワードの時間長の２倍までである場合、話されたワードのワード・モデルとの突合せ（整合）を可能ならしめる。

各々のステートに対する最小ドウエルは、ステートデコード処理時に決定される。ステートの最大ドウエルのみがステート・デコーダ・アルゴリズムに伝達されるので、最小ドウエルは４で除算された最大ドウエルの整数部として計算される（ブロック　７５２）。これによって、認識時に話されるワードがテンプレートによって表わされるワードの時間長の半分である場合、話されたワードのワード・モデルとの突合せを可能ならしめる。

ドウニル拳カウンタ、すなわちサブステート−ポインタｉはブロック　７５４において初期化され、処理中の現在ドウエルφカウントを表示する。各々のドウエル・カウントは、サブステートと呼ばれる。各々のステートに対するサブステートの最大数は、前述のとおり、最大ドウエルに基づいて定義される。この実施例においては、復号化処理を容易ならしめるため、サブステートは逆の順序で処理される。

従って、最大ドウエルはステート内のサブステートの全数として定義されるので、“ｉ′は最初最大ドウエルに等しく設定される。

ブロック　７５Ｂにおいて、一時的累積ディス・タンスＴＡＤは、ＩＦＡＤ（１）と呼ばれているサブステートｉの累積ディスタンスと現在人力フレーム・ディスタンス１ＦＩ）との和に等しい値に設定される。この累積ディスタンスは、前に処理された入力フレームから更新され、かつ第７ｂ図のブロック　７３４のディスタンスＲＡＭに記憶されているものと仮定する。

ＩＦＡＤは、すべてのワード・モデルのすべてのサブステートに対する認識処理の最初の入力フレームに先立ち０に設定される。

サブステート・ポインタはブロック　７５８においてデクレメントされる。このポインタが０に到達しない場合は（ブロック　７６０）　、このサブステートの新しい累積ディスタンスＩＦＡＤ　（１１１）は、前のサブステートに対する累積ディスタンスＩＰＡＤ（ｉ）と現在人力フレーム・ディスタンスＩ−ＦＤとの和に等しい値に設定される（ブロック　７６２）。そうでない場合は、流れは第７ｅ図のブロック　７６８に進む。

ブロック　７６４で試験が行なわれ、このステートが現在サブステートから退出可能であるか否か、すなわちｉ′が最小ドウエルよりも大であるか否かまたは最小ドウエルと等しいか否かを判断する。“ｉ”が最小ドウエルより小になるまで、一時的累積ディスタンスＴＡＤは前のＴＡＤまたはＩＰＡＩ）　（１＋１）のいずれかの最小値に更新される（ブロック７６６）。換言すれば、ＴＡＤは現在ステートを出る最良累積ディスタンスとして定義される。

第７ｅ図のブロック　７６８に続き、最初のサブステートに対する累積ディスタンスは、ＰＡＤであるステートに入る最良累積ディスタンスに設定される。

現在ステートに対する最小ドウエルが０であるか否かを判断するため試験が行なわれる（ブロック　７７０）。最小ドウニル値ゼロは、このワード・テンプレートの復号化においてさらに正確な突合せをもたらすために現在ステートをスキップすることができることを示している。そのステートに対する最小ドウエルがゼロでない場合は、ＰＡＤの一時的累積デイスタンスＴＡＤに等しく設定されるが、これはＴＡＤがこのステートからの最良累積ディスタンスを含んでいることによるものである（ブロック　７７２）。最小ドウエルがゼロである場合は、前のステートの累積ディスタンス出力、ＰＣＡＤ、またはこのステートからの最良累積ディスタンス出力ＴＡＤのいずれかの最小値として設定される（ブロック　７７４）。ＰＡＤは、次のステートに入ることが可能になる最良累積ディスタンスを表わしている。

ブロック　７７６において、前の連続累積ディスタンスＰＣＡＤは現在ステー）　ＴＡＤを出る最良累積ディスタンスに等しく設定される。この変数は、次のステートが最小ドウニル値ゼロを有している場合このステートに対するＰＡＤを完成させるために必要である。２つの隣接ステートが両方ともスキップされることのないように、最小許容最大ドウエルは２であることに注目されたい。

最後に、現在ステートに対するディスタンスＲＡＭポインタが更新されてそのワード・モデル内の次のステートを指す（ブロック　７７８）。このステップは、アルゴリズムを一層効果的にするためにサブステートが終りから始めまで復号化されるので必要なものである。

付録Ａに示した表は、入力フレームが３つのステートＡ１ＢおよびＣを有するワード・モデル（第７ａ図に類似）によって処理される例に適用された第７ｃ、　７ｄおよび７ｅ図のフローチャートを説明するものである。この例では、前の諸フレームはすでに処理済みであるものと仮定している。従って、この表はステートＡＳＢおよびＣの各々のサブステートに対する“旧累積ディスタンス（ＩＰＡＤ）”を示すカラムを含んでいる。

この表の上部に、この例の具現に伴って参照する情報を用意しである。３つのステートは、Ａ、Ｂ、およびＣにそれぞれ対する最大ドウエル３．８および４を有している。

各々のステートに対する最小ドウエルは、それぞれ０．２および１としてテーブルに示しである。これらは、最大ドウエルｌ／４の整数部として、第７ｄ図のブロック　７５２によって計算されていることに留意されたい。この表の上部にはさらに、第７ｄ図のブロック　７５０に基づく各々のステートに対する入力フレームディスタンス（ＩＦＤ）が示しである。

この情報もこの表に示すべきものではあるが、表の短縮化・簡略化のため表から除外しである。適切なブロックのみを表の左側に示しである。

この例は第７ｃ図のブロック　７４０で始まる。前の累積ディスタンスＰＣＡＤおよびＰＡＤ　、並びに復号中のワード・テンプ識器制御器から受け取られる。

従って、この表の第１列に、ステートＡはＰＣＡＤおよびＰＡＤとともに記録されている。

第７ｄ図に移り、ディスタンス（ＩＦＤ）が計算され、最大ドウエルがテンプレート記憶装置から検索され、最小ドウエルが計算され、そしてサブステートＱポインタ“ｉ”が初期化される。最大ドウエル、最小ドウエル、およびＩＦＤ情報は既に表の上部に用意されているので、ポインタの初期化のみが表内に示されることが必要である。第２行目は３、すなわち最後のサブステートに設定されたｉを示し、そして前の累積ディスタンスがディスタンスｌ？ＡＭから検索される。

ブロック　７５６において、一時的累積ディスタンスＴＡＤが計算され、表の第３行目に記録される。

ブロック　７６０で行なわれた試験は表に記録されないが、表の第４行目はすべてのサブステートが処理されていないのでブロック　７６２に移る流れを示している。

表の第４行目は、サブステート・ポインタのデクレメント（ブロック　７５８）および新累積ディスタンスの計算（ブロック　７６２）の両者を示している。従って、記録されるものはｉ−２、対応する旧ＩＦＡＤおよび１４に設定された新累積ディスクンス、すなわち、現在のサブステートに対する前の累積ディスタンスに当該ステートに対する入力フレーム・ディスタンスを加算したものである。

ブロック　７６４で実施された試験の結果は肯定である。表の５行目は、現在ＴＡＤまたはＩＰＡＤ（３）のいずれがの最小値として更新された一時的累積デイスタンスＴＡＤを示している。この場合は、後者であり、ＴＡＤ−１４となる。

流れはブロック　７５８に戻る。ポインタはデクレメントされ、第２のサブステートに対する累積ディスタンスが計算される。これは６行目に示しである。

第１のサブステートは同様に処理され、この時点におけるｉは０に等しいものとして検出され、そして流れはブロック　７６０からブロック　７６８に進む。ブロック　７６８において、ＩＦＡＤは現在ステートへの累積ディスタンスＰＡＤに基づいて第１のサブステートに対して設定される。

ブロック　７７０において、最小ドウエルが０であるか否かについて試験される。０の場合は、現在ステートは最小ドウエル値０によってスキップ可能であるので、流れはブロック　７７４に進みこのブロックでＰＡＤは一時的累積デイスタンスＴＡＤまたは前の累積ディスタンスＰＣＡＤの最小値から決定される。ステートＡに対しては最小ドウエル−〇であるので、ＰＡＤは９　（ＴＡＤ）および５　（ＰＣＡＤ）＋７）最小ドゥエ）Ｉｔ（Ｄうちの５に設定される。ＰＣＡＤはこれに続いてＴＡＤに等しく設定される（ブロック　７７６）。

最後に、第１のステートは、ワード・モデル内の次のステートに更新されたディスタンスＲＡＭポインタによって完全に処理される（ブロック　７７８）。

流れは第７ｃ図のフローチャートに戻ってテンプレート・ポインタを更新し、そして第７ｄ図に戻り（ブロック　７５ｏ）ワード争モデルの次のステートに備える。このステートは、それぞれ５と９であるＰＡＤとＰＣＡＤとが以前のステートがら移って来たものでありかっこのステートに対する最小ドウエルはゼロに等しくなく、ブロック　７６Ｂはすべてのサブステートに対して実行されないことを除き、以前と同様に処理される。従って、ブロック　７７４ではなくブロック　７７２が処理され、る。

ワード・モデルの第３のステートは、第１および第２のステートと同一のラインに沿って処理される。第３のステートの処理完了後、第７ｃ図のフローチャートは認識器制御器のための新しいＰＡＤおよびＰＣＡＤ変数の処理に戻る。

要約すると、ワード争モデルの各ステートは逆の順序で一度に１サブステートだけ更新される。あるステートから次のステートに最適ディスタンスを桁上げするために、２つの変数が使用される。第１の変数ＰＣＡＤは、前の連続ステートから最小累積ディスタンスを桁上げする。第２の変数ＰＡＤは最小累積ディスタンスを現在ステートに桁上げし、（ＰＣＡＤと同じ）前のステートからの最小累積ディスタンス出力かまたは、前のステートが０の最小ドウエルを有している場合は、前のステートからの最小累積ディスタンス出力と第２の前のステートからの最小累積ディスタンス出力とのうちの最小値のいずれかである。処理対象サブステート数を決定するため、最小ドウエルと最大ドウエルとが各ステート内に組み合されているフレームの数に基づいて計算される。

第７ｃ、　７ｄ、および７０図は、各データ整理ワード・テンプレートの最適復号化を可能ならしめるものである。指定されたサブステートを逆の順序で復号することによって、処理時間が最小化される。しかしながら、リアルタイムの処理には各々のワード・テンプレートが迅速にアクセスされなければならないことを必要とするので、データ整理ワード・テンプレートを容易に抽出するための特殊な配置が必要となる。

第７ｂ図のテンプレート・デコーダ３２８は、高速な方法でテンプレート記憶装置１６０から特殊形式化ワード・テンプレートを抽出するために使用されている。各々のフレームは第６Ｃ図の差分形式でテンプレート記憶装置内に記憶されているので、テンプレート・デコーダ３２８はワード中モデル・デコーダ７３２が過度のオーバヘッドを伴うことなく符号化データをアクセスすることを可能ならしめるための特殊アクセス手法を使用している。

このワード・モデル・デコーダ７３２は、テンプレート記憶装置１６０をアドレスして復号対象の適切なテンプレートを指定する。アドレス・バスが両デコーダによって共用されているので、同一情報がテンプレート・デコーダ３２８に供給される。アドレスはテンプレート内の平均フレームを特に指す。各々のフレームは、ワード・モデル内のステートを表わしている。復号化を必要とするステートごとに、アドレスは一般的に変化する。

第６ｃ図の整理データ形式を再び参照すると、ワード・テンプレート・フレームのアドレスが送出されると、テンプレート・デコーダ３２８はニブル・アクセスの方法でバイト３〜９をアクセスする。各々のバイトは８ビツトとして読み取られ、そして分離される。下位４ビツトは符号拡張を伴って一時レジスタに格納される。上位４ビツトは符号拡張を伴って下位４ビツトにシフトされ、別の一時レジスタに格納される。差分バイトの各バイトは、この方法で検索される。リピート・カウントおよびチャネル１のデータは正常の８ビツト・データ・バス・アクセスで検索され、そしてテンプレート・デコーダ３２８内に一時的に格納される。

リピート・カウント（最大ドウエル）は直接的にステート・デコーダに移り、チャネル１のデータと（今説明したように分離されかつ８ビツトに拡張された）チャネル２〜１４の差分データとは、ディスタンス計算器７３６に移る前に、第８ｂ図以降のフローチャートに基づいて差分的に復号される。

４、データ伸長および音声合成第８ａ図によると、第３図のデータ伸長器３４６の詳細ブロック図が示しである。以下に説明するように、データ伸長ブロック　３４６は第３図のデータ整理ブロック　３２２の逆の機能を果している。整理ワード・データは、テンプレート記憶装置１６０から、差分復号ブロック　８０２に印加される。ブロック　８０２で行なわれる復号化機能は、第４ａ図の差分符号化ブロック　４３０で行なわれたものと本質的に逆のアルゴリズムである。簡単に言えば、ブロック　８０２の差分復号化アルゴリズムは、現在のチャネル差分を前のチャネル・データに加算することによって、テンプレート記憶装置１８０内に記憶されている整理ワード特徴データを“アンパック”している。このアルゴリズムについては第８ｂ図のフローチャートで詳述する。

つぎに、エネルギー正規化解除（ｅｎｅｒｇｙ　ｄｅｎｏｒｍａｌｉｚａ−ｔｉｏｎ）ブロック　８０４は、第４ａ図のエネルギー正規化ブロック　４１０において行なったものと逆のアルゴリズムを生じることによって、チャネル・データに対する正しいエネルギー輪郭を回復するものである。この正規化解除手順は、すべてのチャネルの平均エネルギー値をテンプレートに記憶されている各々のエネルギー正規化チャネル値に加算する。

ブロック　８０４のエネルギー正規化解除アルゴリズムについては、第８ｃ図のフローチャートで詳述する。

最後に、フレーム繰返しブロック　８０６は第４ａ図の区分化／圧縮ブロック　４２０によって単一フレームに圧縮されたフレーム数を決定するとともに、適当に補償するためのフレーム繰返し機能を行なう。第８ｄ図のフローチャートが示しているように、このフレーム繰返しブロック　８０６は同一の７　Ｌ／−ム・データ”Ｒ″、回数を出力するが、ここにＲはテンプレート記憶装置１６０から得られた事前記憶リピート・カウントである。従って、テンプレート記憶装置からの整理ワード・データは、音声シンセサイザによって解読可能な“アンパックド”ワード・データを形成するために伸長される。

第８ｂ図のフローチャートは、データ伸長器３４６の差分復号化ブロック　８０２によって行なわれるステップを図説している。スタート舎ブロック　８１０に続いて、ブロック　８１１は以後のステップで使用される変数を初期化する。フレームψカウントＦＣは合成対象のワードの第１フレームに対応するべく１に初期化され、チャネル合計ＣＴはチャネルバンク・シンセサイザ内のチャネルの合計数（本実施例の場合は１４）に初期化される。

つぎに、フレーム合計ＦＴがブロック　８１２において計算される。フレーム合計ＦＴは、テンプレート記憶装置から得られたワード内のフレームの合計数である。ブロック　８１（はこのワードのすべてのフレームが差分的に復号されたか否かを試験する。現フレーム・カウントＦＣがフレーム合計ＦＴより大であれば、そのワードのフレームで復号対象のもの理はブロック　８１４で終結する。しかしながらＦＣがＦＴより大でなければ、差分復号化処理はそのワードの次のフレームに関して続けられる。ブロック　８１３の試験は、すべてのチャネル◆データの終りを表示するためテンプレート記憶装置内に記憶されているデータ・フラグ（標識）をチェックすることによって選択的に行なわれる。

各フレームの実際の差分復号化処理はブロック　８１５で始まる。先ず、チャネル・カウントＣＣはブロック　８１５で１に等しく設定され、テンプレート記憶装置１６０から最初に読み出されるべきチャネル・データを決定する。次に、チャネル１の正規化エネルギーに対応する全バイト・データが、ブロック　８１Ｂにおいてテンプレートから読み出される。チャネル１のデータは差分符号化されていないので、この１つのチャネルのデータは（エネルギー正規化解除ブロック８０４に）ブロック　８１７を経由して直ちに出力される。チャネル−カウンタＣＣはブロック　８１Ｂにおいてインクレメントされ、次のチャネル・データの記憶位置を指す。ブロック８１９はチャネルＣＣに対して差分符号化チャネル・データ（差分）をアキュムレータに読み込む。ブロック　８２０はチャネルＣＣ −１のデータをチャネルＣＣの差分に加算することによって、チャネルＣＣのデータを形成する差分復号化機能を実行している。たとえば、ＣＣ−２であれば、ブロック　８２０の方程式は次のようになる。

チャネル２のデーターチャネル１のデーターチャネル２の差分ブロック　８２１は、以後の処理のために、このチャネルＣＣ″　のデータをエネルギー正規化解除ブロック　８０４に出力する。

ブロック　８２２は、データのフレームの終りを示すことになる、現在チャネル・カウントＣＯがチャネル合計ＣＴに等しいか否かを確認するため試験を行なう。ＣＣがＣＴに等しくない場合は、チャネル・カウントはブロック　８１８で増分され、そして差分復号処理が次のチャネルについて行なわれる。

すべてのチャネルが復号化されると（ＣＣがＣＴに等しくなると）、フレーム・カウントＦＣはブロック　８２３でインクレメントされ、データの終り試験を行なうためブロック　８１３で比較される。すべてのフレームが復号化されると、データ伸長器３４６の差分復号処理はブロック　８１４で終結する。

第８Ｃ図は、エネルギー正規化解除ブロック　８０４が行なう一連のステップを図説している。ブロック　８２５でスタートした後、諸変数の初期化がブロック　８２Ｂで行なわれる。再び、フレーム・カウントＦＣは合成対象のワードの第１フレームに対応するべく１に初期化され、そしてチャネル合計ＣＴはチャネル・バンク・シンセサイザ内のチャネルの合計数（この場合は１４）に初期化される。フレーム合計ＦＴはブロック　８２７で計算され、そしてフレーム・カウントはブロック　８１２および８１３で前に試験されたように、ブロック８２８で試験される。このワードのすべてのフレームが処理されると（ＦＣがＦＴより大）、一連のステップはブロック８２９で終結する。しかしながら、フレームが依然として処理を必要とする場合は（ＰＣがＦＴより大でない）、エネルギー正規化解除機能が実行される。

ブロック　８３０において、平均フレーム・エネルギーＡＶＧＥＮＧがフレームＦＣに対するテンプレートから得られる。

これに続いて、ブロック　８３１はチャネルφカウントＣＣを１に等しく設定する。差分復号化ブロック　８０２（第８ｂ図のブロック　８２０）におけるチャネル差分から形成されたチャネル・データはブロック　８３２において読み出される。このフレームは、エネルギー正規化ブロック　４１０（第４図）における各チャネルから平均エネルギーを減算することによって正規化されているので、このフレームは各チャネルに平均エネルギーを逆加算することによって同様に回復（正規化解除）される。従って、このチャネルは次式に基づいてブロック　８３３において正規化解除される。たとえば、ＣＣ−１であれば、ブロック　８３３の方程式は次のようになる。

チャネル１のエネルギー−チャネル１のデータ士平均エネルギーこの正規化解除されたチャネル・エネルギーは、ブロック　８３４によって（フレーム繰返しブロック　８（Ｈに）出力される。次のチャネルは、ブロック　８３５においてチャネル・カウントをインクレメントしかつすべてのチャネルが正規化解除されたか否かを確認するためブロック　８３６においてチャネル・カウントを試験することによって得られる。すべてのチャネルが未だに処理されていない（ＣＣがＣＴより大でない）場合は、正規化解除手順がブロック　８３２から始まって繰り返される。そのフレームのすべてのチャネルが処理されている（ＣＣがＣＴより大である）場合は、フレーム・カウントがブロック　８３７においてインクレメントされ、そして以前のとおりブロック　８２８において試験される。要約すると、第８Ｃ図はチャネル・エネルギーが平均エネルギーを各チャネルに逆加算することによって正規化解除される方法を図説したものである。

ここで、第８ｄ図を参照すると、第８ａ図のフレーム繰返しブロック　８０６で実施される一連のステップをフローチャートで示している。この場合も、処理はフレーム・カウントＦＣを１、チャネル合計ＣＴを１４にブロック　８４１において先ず初期化することによって、ブロック　８４０でスタートする。ブロック　８４２において、ワード内のフレーム数を表わしているフレーム合計ＦＴが従前のとおり計算される。

前の２つのフローチャートと異なり、個々のチャネル処理が完了しているので、フレームのすべてのチャネル・エネルギーがブロック　８４３において同時に得られる。次に、フレームＰＣのリピート・カウントＲＣがブロック　８４４においてテンプレート・データから読み出される。このリピート中カウントＲＣは、第４図の区分化／圧縮ブロック４２０において実行されたデータ圧縮ア゛ルゴリズムから単一のフレームに組み合されたフレーム数に対応している。換言すれば、このＲＣは各々のフレームの“最大ドウエル°である。このリピート・カウントは、特定フレーム“ＲＣ”回数を出力するために使用される。

ブロック　８４５は、音声シンセサイザに対してフレームＦＣの全チャネル・エネルギーＯＨ（１−１４）　ＥＮＧを出力する。これは“アンパックド”チャネル赤エネルギーーデータが出力された最初の回を表わしている。このリピート・カラン）−ＲＣは次にブロック　８４６において１だけデクレメントされる。たとえば、フレームＦＣが前に組み合されていなかった場合は、ＲＣの記憶値は１に等しい筈であり、ＲＣのデクレメント値はゼロに等しいことになる。ブロック　８４７はこのリピート・カウントを試験する。ＲＣがゼロに等しくない場合は、チャネル・エネルギーの特定フレームはブロック　８４５において再び出力される。ＲＣはブロック　８４６において再びデクレメントされ、ブロック　８４７において再び試験される。

ＲＣがゼロにデクレメントされると、チャネル・データの次のフレームが得られる。このようにして、リピート・カウントＲＣは同一フレームがシンセサイザに出力される回数を表わしている。

次のフレームを得るために、フレーム・カウントＦＣはブロック　８４８においてインクレメントされ、ブロック　８４９において試験される。そのワードのすべてのフレームの処理が完了すると、フレーム繰返しブロック　８０６に対応する一連のステップはブロック　８５０で終結する。さらにフレームの処理を要する場合は、フレーム繰返し機能はブロック８４３から継続される。

前述のとおり、データ伸長ブロック　３４６は、データ整理ブロック　３２２によって“バック”された記憶テンプレート・データを“アンバック”する逆の機能を本質的に実施するものである。ブロック　８０２．８０４、および８０６の別個の機能が、第８ｂ、　８ｃ、および８ｄのフローチャートで図説したワードバイワード・ベースではなく、フレームバイフレーム・ベースで実施可能であることに注目されたい。いずれの場合も、これはデータ整理手法と整理テンプレート形式手法とデータ伸長手法との組合せであり、本発明の低データ・レートにおける音声認識テンプレートから了解可能音声の合成を可能ならしめるものである。

第３図の説明のとおり、データ伸長ブロック　３４Ｂによって供給された“テンプレート“ワード音声（ボイス）返答データと返答記憶装置３４４から供給された“録音済み゛ワ−ド音声（ボイス）返答データとの両者がチャネル・バンク音声シンセサイザ３４０に印加される。この音声シンセサイザ３４０は、制御ユニット　３３４からのコマンド信号に応答して、これらのデータ源の１つを選択する。両データ源３４４および３４６は、合成すべきワードに対応する予め記憶された音響特徴情報を含んでいる。

この音響特徴情報は、特徴抽出器３１２の帯域幅に対応する指定の周波数帯域幅内の音響エネルギーを各々７（表わしている複数のチャネル利得値（チャネル・エネルギー）で構成されている。しかしながら、ボイシング（ｖｏｉｃｉｎｇ）またはピッチ情報のような他の音声合成パラメータを記憶するための用意は整理テンプレート記憶装置形式には何もない。これは、ボイシングやピッチ情報は通常の場合音声認識プロセッサ１２０に設けられていないことによるものである。

従って、この情報はテンプレート記憶装置の必要量の軽減に基本的に含まれていないのが普通である。個々のハードウェア構成に基づいて、返答記憶装置３４４はボイシングおよびピッチ情報を提供することもしないこともできる。

以下のチャンネル・バンク・シンセサイザの説明は、ボイシングおよびピッチ情報はいずれの記憶装置にも記憶されていないものと仮定している。従って、チャネル・バンク音声シンセサイザ３４０はボイシングおよびピッチ情報を欠いているデータ源からワードを合成しなければならない。

本発明の一つの重要な特徴は、この問題に直接対処していることである。

第９ａ図は、Ｎ個のチャネルを有するチャネル・バンク音声シンセサイザ３４０の詳細なブロック図を示している。チャネル・データ人力９１２および９１４は、返答記憶装置３４４およびデータ伸長器３４６のチャネル・データ出力をそれぞれ表わしている。従って、スイッチ・アレイ　９１０は装置制御ユニット３３４によって供給された“データ源決定″を表わしている。たとえば、“録音済み ”ワードが合成されるべき場合は、返答記憶装置３４４がらのチャネル・データ人力９１２がチャネル利得値９１５として選択される。テンプレート・ワードが合成されるべき場合は、データ伸長器３４６からのチャネル・データ人力９１４が選択される。いずれの場合も、チャネル利得値９１５はローパスフィルタ　９４０に経路付けされる。

このローパスフィルタ　９４０は、フレームツウフレーム（ｆｒａＩＩｌｅ−ｔｏ−ｆｒａｍｅ）チャネル利得変化の段階不連続性を変調器への供給前に平滑するように機能する。これらの利得平滑フィルタは、２次パターウォース（Ｂａｔｔｅｒｖｏｒｔｈ）　ｏ　−バスフィルタとして一般的に構成されている。本実施例においては、このローパスフィルタ　９４０は約２８Ｈｚの一３ｄＢのカットオフ周波数を有している。

平滑化チャネル利得値９４５は次にチャネル利得変調器９５０に印加される。この変調器は、個別のチャネル利得値に応答して励起信号の利得を調整する役割を果している。

本実施例においては、変調器９５０は２つの所定のグループ、すなわち、第１の励起信号入力を有する第１の所定のグループ（１番〜Ｍ番）と、第２の励起信号入力を有する第２の変調器グループ（Ｍ＋１番〜Ｎ番）とに分割されている。

第９ａ図から理解できるように、第１の励起信号９２５はピッチ・パルス源９２０から出力され、第２の励起信号９３５はノイズ源９３０から出力される。これらの励起源については以下の図でさらに詳しく説明する。

音声シンセサイザ３４０は、本発明による“分割°ボイシング（ｓｐｌｉｔ　ｖｏｊｃｉｎｇ）″と呼ばれる手法を使用している。この手法は、音声シンセサイザが外部ボイシング情報を使用することなくチャネル利得値９１５のごとき外部発生音響特徴情報から音声を復元することを可能ならしめるものである。この好ましい実施例は、ピッチ・パルス源（ボイスド励起）とノイズ源（アンボイスド励起）とを区別して変調器への単一ボイスド／アンボイスド励起信号を発生させるボイシング・スイッチ（ｖｏｌｃｊｎｇ　５ｗ１ｔｃｈ）を使用していない。

対照的に、本発明はチャネル利得値から生成された音響特徴情報を２つの所定グループに“分割（ｓｐｌｉｔ）”している。低い周波数チャネルに通常対応する第１の所定グループは、ボイスド励起信号９２５を変調する。高い周波数チャネルに通常対応するチャネル利得値の第２の所定グループは、アンボイスド励起信号９３５を変調する。共に、低い周波数および高い周波数チャネル利得値は個々に帯域ろ（濾）波されかつ組み合されて高品位音声信号を発生する。

１４チヤネルのシンセサイザ（Ｎ　−１４）に対する“９１５分割”　（Ｍ−９）が音声の質の改善にすぐれた結果をもたらすことが判明している。しかしながら、ボイスド／アンボイスド・チャネル“分割”は個々のシンセサイザの応用において音声の品位特性を最大化するために変化させることが可能であることは、この技術分野の熟練者にとって明らかなことである。

変調器１〜Ｎは、ある特定のチャネルの音響特徴情報に応答して、適当な励起信号を振幅変調するように作動する。

換言すれば、チャネルＭに対するピッチ・パルス（バズ）またノイズ（ヒス）励起信号は、このチャネルＭに対するチャネル利得値によって乗じられる。変調器９５０によって行なわれる振幅変調は、ディジタル信号処理（ＤＳＰ）手法を使用するソフトウェアで容易に実行可能である。同様に、変調器９５０はこの技術分野で周知のアナログ線形乗算器によって実施可能である。

変調励起信号９５５の両グループ（１〜Ｍ１およびＭ＋１〜Ｎ）は、次にバンドパスフィルタ　９６０に印加されてＮ個の音声チャネルを復元する。前述のとおり、本実施例は周波数範囲２５０Ｈｚ〜３，４００Ｈｚをカバーする１４チヤネルを使用している。その上、好ましい実施例はＤＳＰ手法を使用してバンドパスフィルタ　９６０の機能をソフトウェアでディジタａｎｄ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｒＤｌｇｌｔａｌ　Ｓｌ’ｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（ディジタル信号処理の理論と応用）　（Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ、　Ｅｎｇｌｅ− ｖｏｏｄ　Ｃ１１ｆｆｓ、　Ｎ、　Ｊ、、　１９７５年）と題するり、　Ｒ，ＲａｂｉｎｅｒおよびＢ、　Ｇｏｌｄの論文の第６章に記述されている。

濾波されたチャネル出力９６５は、合計回路９７０において組み合される。ここでも、チャネル・コンバイナ（ｃｈａｎｎｅｌｃｏｍｂｉｎｅｒ）の機能は、ＤＳＰ手法を使用してゲットウェア的に、または合計回路を使用してハードウェア的に実施することが可能で、Ｎ個のチャネルを単一の復元音声信号９７５に組み合せることができる。

変調器／バンドパスフィルタ構成部９８０の代替実施例が第９ｂ図に示しである。この図は、この構成部が先ず励起信号９３５（または９２５）をバンドパスフィルタ　９６０に印加し、次に変調器９５０においてチャネル利得値９４５で濾波励起信号を振幅変調することで機能的に等価であることを図説している。この代替構成部９８０°は、チャネルを復元する機能が依然として達成されているので、等価チャネル出力９６５を生成する。

ノイズ源９３０は、４ヒス″と呼ばれるアンボイスド励起信号９３５を発生する。このノイズ源出力は一般的に、第９ｄ図の波形９３５に示すとおりの一定平均電力の一連のランダムな振幅パルスである。これに対し、ピッチ・パルス源９２０は、“バズ°と呼ばれる一定平均電力のボイスド励起ピッチ・パルスのパルス列を発生する。一般的なピッチ・パルス源は、外部ピッチ周期ｒｏによって決定されるピッチ・パルス・レートを有している。所望のシンセサイザ音声信号の音響解析から決定されたこのピッチ周期情報は、通常使用ボコーダのチャネル利得情報とともに伝送されるが、またはボイスド／アンボイスド決定およびチャネル利得情報とともに“録音済み”ワード記憶装置に記憶されるであろう。しかしながら前述のとおり、この好ましい実施例の整理テンプレート記憶装置形式は、これらの音声シンセサイザ・パラメータのすべてが音声認識に必要でないので、これらをすべて記憶するようになっていない。従って、本発明の他の特徴は事前記憶のピッチ情報を要することなく高品位合成音声信号を提供することを指向している。

この好ましい実施例のピッチ・パルス源９２０は、第９ｃ図にさらに詳しく説明しである。ピッチ・パルス・レートが合成されたワードの長さにわたって減少するようにピッチ・パルス周期を変えることによって、合成音声品位の著しい改善が達成可能であることが判明している。従って、励起信号９．２５は、一定平均電力および事前可変レートのピッチパルスからむしろ構成される。この可変レートは、合成対象ワードの長さの関数として、がっ実験的に決定される定ピツチ・レート変化の関数として決定される。本実施例においては、このピッチ・パルス・レートはワードの長さにわたりフレームバイフレーム・ベースで直線的に減少する。しかしながら、他の応用においては、異なる音声音特性を生成するために異なる可変レートが所望されることもある。

第９ｃ図によると、ピッチ・パルス源９２０は、ピッチ・レート制御ユニット　９４０、ピッチ・レート・ジェネレータ９４２、およびピッチ・パルス・ジェネレータ　９４４で構成されている。ピッチ・レート制御ユニット　９４０は、ピッチ周期が変化する可変レートを決定する。本実施例においては、ピッチ・レートはピッチ・スタート・コンスタントから初期化されたピッチ・チェンジ・コンスタントから決定され、ピッチ周期情報９２２を提供する。このピッチ・レート制御ユニット　９４０の機能は、プログラム可能ランプ・ジェネレータによってハードウェア的に、またはマイクロコンピュータを制御することによってソフトウェア的に実施することができる。この制御ユニット　９４０の作動については、次の図に関連して十分詳しく説明する。

ピッチ・レート・ジェネレータ　９４２は、このピッチ周期情報を利用して規則正しい間隔でピッチ・レート信号９２３を発生している。この信号はインパルス、立上りエツジ、または他のタイプのピッチ・パルス周期を伝達する信号であり得る。このピッチ・レート・ジェネレータ　９４２は、ピッチ周期情報９２２に等しいパルス列を供給するタイマ、カウンタ、またはクリスタル・クロック発振器で構わない。

本実施例においても、ピッチ・レート・ジェネレータ９４２の機能はソフトウェア的に実施される。

ピッチ・レート信号９２３は、ピッチ・パルス励起信号９２５に対する所望の波形を生成するためピッチ・パルス・ジェネレータ　９４４によって使用される。

このピッチやパルス・ジェネレータ　９４４は、ハードウェア波形成形回路、すなわちピッチ・レート信号９２３でクロックされる単ショット、または、本実施例の場合のように、所望の波形情報を有するＲＯＭ参照テーブル（ＲＯＭ　１ｏｏｋ−ｕｐ　ｔａｂｌｅ）であってもよい。励起信号９２５は、インパルス、チャーブ（周波数掃引正弦波）または他の広帯域波形の波形を示すであろう。

従って、このパルスの性質は所望される特殊の励起信号に依存することになる。

励起信号９２５は一定平・均電力のものでなければならないので、ピッチ・パルス・ジェネレータ　９４４もまた、振幅制御信号としてピッチ・レート信号９２３またはピッチ周期９２２を利用している。ピッチ・パルスの振幅はピッチ周期の平方根に比例する係数によって定められ、一定平均電力を得る。この場合も、各パルスの実際の振幅は、所望の励起信号の性質に依存する。

第９Ｃ図のピッチ・パルス源９２０に適用した場合の第９ｄ図の以下の記述は、可変ピッチ・パルス・レートを生成するため本実施例において行なう一連のステップを説明している。第１に、合成されるべき特定のワードに対するワード長ＷＬがテンプレート記憶装置から読み出される。このワード長は、合成されるべきワードのフレームの合計数である。

本実施例においては、ＷＬはワード・テンプレートのすべてのフレームに対するすべてのリピート・カウントの合計である。第２に、ピッチ・スタート・コンスタントＰＳＣとピッチ・チェンジ・コンスタントＦＣＣとは、シンセサイザ・コントローラ内の所定の記憶位置から読み出される。第３に、ワード分割（ｗｏｒｄ　ｄｉｖｉｓｉｏｎ）の数は、ワード長ＷＬをピによって計算される。このワード分割ＶＤは同一ピッチ値を有する連続フレームの数を示している。たとえば、波形９２１はワード長３フレーム、ピッチ・スタート・コンスタント５９、およびピッチ・チェンジ・コンスタント３を図説している。従って、この簡単な例においては、ワード分割はワード長（３）をピッチやチェンジ・コンスタント（３）で除算することによって計算され、ピッチ・チェンジ間のフレームの数を１に等しく設定する。ＷＬ−２４およびＦＣＣ−４である場合はさらに繁雑な例となり、ワード分割は６個のフレームごとに発生することになる。

ピッチ・スタート・コンスタント５９は、ピッチ・パルス間のサンプル回数の数を表わしている。たとえば、８　Ｋ）Ｉｚのサンプリング・レートにおいては、ピッチ・パルスの間に５９のサンプル回数（各々その持続時間は１２５マイクロ秒）が存在することになる。従って、ピッチ周期は５９Ｘ　１２５マイクロ秒− ７，３７５ミリ秒、すなわち　１３５．６Ｈ２となる。各々のワード分割の後、ピッチ・スタート−コンスタントは、ピッチ・レートがワードの長さにわたって減少するように、１だけインクレメントされる（すなわち、６０−　１３３．３Ｈｚ。

６１−　１３１．ＬＨｚ）。ワード長が長すぎた場合、すなわちピッチ・チェンジ・コンスタントが短すぎた場合は、数個の連続フレームが同一ピッチ値を有することになる。このピッチ周期情報は、波形９２２によって第９ｄ図に表わされている。

この波形９２２が示すように、このピッチ周期情報は電圧レベルを変化させることによってハードウェア感覚的に、または異なるピンチ周期値によってソフトウェア的に表わすことができる。

ピッチ周期情報９２２がピッチ・レート・ジェネレータ９４２に印加されると、ピンチ・レート信号波形Ｈ３が生成される。この波形９２３は、ピッチ・レートが可変ピッチ周期によって決定されたレートで減少しつつあることを、簡単な方法で示している。ピッチ・レート信号９２３がピッチ・パルス・ジェネレータ　９４４に印加されると、励起波形９２５が生成される。この波形９２５は、一定の平均電力を有する波形９２３の単なる波形成形変化である。ノイズ源９３０（ヒス）の出力を表わしている波形９３５は、周期的ボイスド励起信号とランダムアンボイスド励起信号との間の差を示している。

上述のとおり、本発明はボイシングまたはピッチ情報を必要とすることなく音声を合成する方法および装置を提供するものである。本発明の音声シンセサイザは、“分割ボイシングの手法およびピッチ・パルス・レートがワードの長さにわたって減少するようにピッチ・パルス周期を変化させる方法を使用している。いずれかの手法を単独で使用することが可能であるが、分割ボイシングと可変ピッチ・パルス・レートとを組合せることによって、外部ボイシングまたはピッチ情報を必要とすることなく自然に響く音声を生成することができる。

本発明の特定の実施例を示して説明したが、この技術分野における熟練によってさらに変更および改善を、施すことが可能であろう。本明細書に開示されかつ請求の範囲に記載された原理に基づくこれらの変更等はすべて本発明の範囲にはいるものである。

ロロΦ　−の−一？ Φ　−一（＋＞〜−ｏりＩ＋）へ−〇）Ｎ Σ ５７０が３ｊへ（紋才〒Ｊλ器３１２力δ ゝ−レモヂル・デコー　’＋ｊ’・　リフローＭ国際調査報告

Claims

【特許請求の範囲】

１．外部ボイシングまたはピッチ情報を使用することなく、複数の変更信号から成る外部音響的特徴情報から再編成音声信号を生成する音声シンセサイザにおいて、外部ボイシングまたはピッチ情報を使用することなく第１および第２の励起信号を生成する手段、および第１の所定グループの前記変更信号に応答して前記第１の励起信号の作動パラメータを変更するとともに、第２の所定グループの前記変更信号に応答して前記第２の励起信号の作動パラメータを変更し、これによって対応する第１および第２のグループの変更出力を生じる手段を具備することを特徴とする音声シンセサイザ。
２．外部ボイシング情報を使用することなく外部音響的特徴情報から再編成音響ワードを生成するチャネル・バンク音声シンセサイザにおいて、前記音響的特徴情報は各々のチャネル利得値が１つの指定された周波数帯域幅内の音響エネルギーを表わす複数のチャネル利得値から成るとともにピッチ情報をさらに含み、前記音声シンセサイザは外部ボイシング情報を使用することなく、前記ピッチ情報によって決定されるレートの周期パルスを表わす第１の励起信号と、ランダム・ノイズを表わす第２の励起信号とを生成する手段、第１の所定グループの前記複数のチャネル利得値に応答して前記第１の励起信号を振幅変調するとともに、第２の所定グループの前記複数のチャネル利得値に応答して前記第２の励起信号を振幅変調し、これによって対応する第１および第２のグループのチャネル出力を生じる手段、前記第１および第２のグループのチャネル出力を濾波して複数の濾波チャネル出力を生じる手段、および前記複数の濾波チャネル出力を組み合せて前記再編成音声ワードを形成する手段を具備することを特徴とするチャネル・バンク音声シンセサイザ。
３．前記第１の所定グループのチャネル利得値は、高い周波数チャネルを表わす前記第２の所定グループのチャネル利得値に相関する低い周波数チャネルを表わす請求の範囲２に記載の音声シンセサイザ。
４．外部ピッチ情報を使用することなく外部音響的特徴情報から再編成音声ワードを生成するチャネル・バンク音声シンセサイザにおいて、前記音響的特徴情報は各々のチャンネル利得値が１つの指定された周波数帯域幅内の音響エネルギーを表わす複数のチャネル利得値から成るとともにボイシング情報をさらに含み、前記音声シンセサイザは外部ピッチ情報を使用することなく前記ボイシング情報に応答して、ボイスド音に対しては所定の可変レートの周期的パルスを表わし、そしてアンボイスド音に対してはランダム・ノイズを表わす、少なくとも１つの励起信号を生成する手段、前記複数のチャネル利得値に応答して前記励起信号を振幅変調し、これによって対応する複数のチャネル出力を生じる手段、前記複数のチャネル出力を濾波し、複数の濾波チャネル出力を生じる手段、および前記複数の濾波チャネル出力の各々を組み合せて、前記再編成音声ワードを形成する手段を具備することを特徴とするチャネル・バンク音声シンセサイザ。
５．前記所定の可変レートは、合成対象のワードの長さにわたって直線的にフレーム・パイ・フレームに減少する請求の範囲４に記載の音声シンセサイザ。
６．外部ボイシングまたはピッチ情報を使用することなく外部音響的特徴情報から再編成音声ワードを生成するチャネル・バンク音声シンセサイザにおいて、前記音響的特徴情報は各々のチャネル利得値が１つの指定された周波数帯域幅内の音響エネルギーを表わす複数のチャネル利得値から成り、前記音声シンセサイザは外部ボイシングまたはピッチ情報を使用することなく、所定の可変レートの周期的パルスを表わす第１の励起信号と、ランダム・ノイズを表わす第２の励起信号とを生成する手段、第１の所定グループの前記複数のチャネル利得値に応答して前記第１の励起信号を振幅変調するとともに、第２の所定グループの前記複数のチャネル利得値に応答して前記第２の励起信号を振幅変調し、これによって対応する第１および第２のグループのチャネル出力を生じる手段、前記第１および第２のグループのチャネル出力をバンドパス濾波し、複数の濾波チャネル出力を生じる手段、および前記複数の濾波チャネル出力の各々を組み合ぜて、前記再編成音声ワードを形成する手段を具備することを特徴とするチャネル・バンク音声シンセサイザ。
７．前記第１の所定グループのチャネル利得値が、高い周波数チャネルを表わす前記第２の所定グループのチャネル利得値に相関する低い周波数チャネルを表わす請求の範囲６に記載の音声シンセサイザ。
８．前記所定の可変レートは、合成対象のワードの長さにわたって直線的にフレーム・バイ・フレームに減少する請求の範囲６に記載の音声シンセサイザ。
９．外部ボイシングまたはピッチ情報を使用することなく外部音響的特徴情報から音声信号を合成する方法において、前記音響的特徴情報は複数の変更信号から成り、この音声合成方法は外部ボイシングまたはピッチ情報を使用することなく第１および第２の励起信号を生成する生成のステップ、第１の所定グループの前記変更信号に応答して前記第１の励起信号の作動パラメータを変更するとともに、第２の所定グループの前記変更信号に応答して前記第２の励起信号の作動パラメータを変更し、これによって対応する第１および第２グループの変更出力を生じる変更のステップ、前記第１および第２グループの変更出力を濾波して複数の濾波出力を生じる濾波のステップ、および前記複数の濾波出力の各々を組み合せて前記合成音声信号を形成する組合せのステップを具備することを特徴とする方法。
１０．外部ボイシングまたはピッチ情報を使用することなく外部音響的特徴情報から音声ワードを合成する方法において、前記音響的特徴情報は各々のチャネル利得値が１つの指定された周波数帯域幅内の音響エネルギーを表わす複数のチャネル利得値から成り、この音声合成方法は外部ボイシングまたはピッチ情報を使用することなく、所定の可変レートの周期的パルスを表わす第１の励起信号と、ランダム・ノイズを表わす第２の励起信号とを生成する生成のステップ、第１の所定グループの前記複数のチャネル利得値に応答して前記第１の励起信号を振幅変調するとともに、第２の所定グループの前記複数のチャネル利得値に応答して前記第２の励起信号を振幅変調し、これによって対応する第１および第２グループのチャネル出力を生じる振幅変調のステップ、前記第１および第２グループのチャネル出力をバンドパス濾波して複数の濾波チャンネル出力を生じるバンドパス濾波のステップ、および前記複数の濾波チャネル出力の各々を組み合せて前記音声ワードを形成する組合せのステップを具備することを特徴とする方法。