JP2607561B2

JP2607561B2 - スピーチ同期アニメーション

Info

Publication number: JP2607561B2
Application number: JP62298840A
Authority: JP
Inventors: エロン・ギャスパー
Original assignee: エロン・ギャスパー
Priority date: 1986-11-26
Filing date: 1987-11-26
Publication date: 1997-05-07
Anticipated expiration: 2012-05-07
Also published as: CA1282954C; GB2198871A; GB2198871B; US4884972A; GB8727073D0; JPS63225875A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、一般的にはコンピュータにより生成された
映像と音響との同期を利用した教育方法に関し、より特
定するならば人物又はアニメ（動画）化されたキャラク
タの動作に対応する身体の画像及び音響を構成要素へと
分解し、この構成要素を当該人物又はアニメ化されたキ
ャラクタであって異なる、関連性のない動作を行ってい
るものへと再度組み立てる方法及び装置に関するもので
ある。

〔従来の技術〕

予め記録された映像及び音響の時間的に同期されたシ
ーケンスを利用して、映像的な娯楽又は教育用の道具を
提供することは、従来の技術において周知である。この
ような従来技術は、「トーキー」の開発から今日の視聴
者との会話形映画に至るまでの映画及び娯楽産業の歴史
を辿ることによって、最も良く例証されるであろう。

19世紀の終わり頃に、スクリーン上に１秒に20から30
コマを投影して動作の効果を与えるように予め記録され
た連続的なコマからなる、最初の実用的な映画が開発さ
れた。予め記録された音響のシーケンス即ち音声トラッ
クを動画と同期させるための技術は、1920年代に開発さ
れた。1930年代には、手描きの漫画アニメーションを生
成するためのアニメーション技術が開発されたが、この
アニメーションは予め記録された音声トラックを伴うよ
うに同期された唇の動きを有するアニメ化された人物を
含むものであった。コンピュータの出現と共に、人間の
スピーチを合成する電子的装置及びスピーチ認識システ
ムなどをも含めて、コンピュータにより生成される映像
とスピーチの発展へと向けてますます多くの努力が払わ
れてきている。

1970年９月21日付けのIBM研究リポートRC3052の「KAR
MA:ストーリーボードアニメーション用システム」と題
するグレーサー氏（F.Gracer）及びブラスゲン氏（M.W.
Blasgen）により著された論文には、始めと終わりのコ
マの間にある中間のコマを自動的に作り出す、会話形の
コンピュータグラフィックスプログラムが開示されてい
る。中間のコマは、線形補間技法を使用することにより
計算され、次いでプロッタ上に生成される。「唇の動き
のコンピュータアニメーションのための方法」と題する
1972年３月のIBA技術発表報告第14巻に記載の論文の503
9及び3040頁において、バグリー氏（J.D.Bagley）及び
グレーサー氏（F.Grecer）は、コンピュータアニメーシ
ョンシステムにおいて使用するための、コンピュータ生
成された唇のアニメーションのための技術を開示してい
る。即ちスピーチ処理システムが、ある字体の辞書的な
表示を音素のストリングへと変換し、これを対応する生
のスピーチの入力ストリームとマッチさせて、タイミン
グデータを生成する。各々のスピーチ音について映像デ
ータがあるとすれば、上記したようなコンピュータアニ
メーションシステムは、一つの可視画像から次のものへ
の滑らかな遷移をもたらすための中間コマを生成して、
円滑なアニメーションを作り出す。そして最後にタイミ
ングデータが使用されて、音素のストリングを可視画像
と相関させ、正確に計時され映像的に相関されたスピー
チ事象のシーケンスを作り出すのである。

映画及び娯楽産業における最近の発展は、ビデオ・ア
ーケード・ゲーム及びブランチング・ムービーによって
例示される如き視聴者の活発な参画に関連している。米
国特許第4,305,131;4,333,152;4,445,187及び4,569,026
号は、ブランチング・ムービーをもたらすリモコン操作
のビデオディスク装置に関しているが、そこにおいては
視聴者は、映画の筋やビデオゲームのストーリーに対し
て能動的に影響を及ぼすことができる。ベスト氏（Robe
rt M.Best）に対して1986年２月４日に付与された「口
答えするテレビ映画」と題する米国特許第4,569,026号
は、ビデオゲーム娯楽システムを開示しているが、それ
によれば一人又はそれ以上の視聴者がビデオゲームのス
トーリー又は映画の筋に対して言葉により又は手動操作
により影響を及ぼすことができ、ゲーム又は映画中のキ
ャラクタとシミュレートされた双方向の音声による会話
を行うことができる。このシステムは通常のテレビ受像
機と連結された専用のマイクロコンピュータと、自動ト
ラック検索及び追跡手段を有するランダムアクセス・ビ
デオディスク読み取り装置とを含んでいる。また、各々
がマイクロフォン及び映像ディスプレーを有している一
つまたはそれ以上のハンドヘルド入力装置が、マイクロ
コンピュータへと連結されている。マイクロコンピュー
タはビデオディスクからの情報の検索を制御し、入力装
置を介して言葉又は手動の何れかにより行われる視聴者
のコマンド入力を処理して、テレビ受像機に表示される
音響及び映像データを提供する。ゲーム中において頻繁
にある分岐点において、予め定められた選択及び応答の
リストが視聴者に提示される。視聴者は言葉又は手動の
何れかにより、或いはこれらの組み合わせにより、象徴
的なコード語を用いることにより応答できる。視聴者の
選択に応じて、マイクロプロセッサは予め記録された映
像及び音響のシーケンスを処理し、演技及び会話の中か
ら選択された場面又は筋を示すことになる。

「グラフィックス・インタフェース'84」の「ソフト
マシン：品のあるインタフェース」と題する論文におい
て、ルイス氏（John Lewis）及びパーセル氏（Patrick
Purcell）は、ユーザ及び電子的に会話可能なパートナ
ーとの間で話された会話をシミュレートするシステムを
開示している。アニメ化された人間類似のものがスピー
チ・シンセサイザにより「話」し、スピーチ認識装置に
より「聞」くのである。スピーチ・シンセサイザの音響
出力は、スピーカ及び別個のリアルタイムなフォーマッ
ト追跡スピーチ処理コンピュータへと同時に連結されて
いて分析され、唇の動きの同期並びに限定された表情及
び頭部の動きのためのタイミングデータを与える。予め
記録された可視画像のセットであって、唇、目及び頭の
位置を描いているものが適当に順序付けられて、アニメ
化された人間類似のものが「話」し又は「聞」くように
なっている。スピーチ認識装置の出力は予め記録された
パターンに対して、一致が見出されるまでマッチングさ
れる。ひとたび一致が見出されたならば、予め記録され
た幾つかの応答の内の一つがアニメ化された人間類似の
ものによって話されるか、或いは実行される。

〔発明の解決しようとする問題点〕

バグリー氏等及びルイス氏等は両者とも、どの可視画
像又はイメージがユーザに対して示されるべきかを決定
するためのリアルタイムなデータを提供するよう音響信
号を分析する、別個のフォーマット追跡スピーチ処理コ
ンピュータを必要としている。この付加的なコンピュー
タを必要とすることは、コストを増加させると共にシス
テムの複雑さを増し、エラーの新たなソースを導入する
ことになる。

〔問題点を解決するための手段〕

本発明は、物質界における周知のパラダイムをシミュ
レートし、音声合成技術及び独特のアニメーション方法
を採用した映像アニメーション技術を利用することによ
り、読み書き、発音及び他の文語技能を教える教育シス
テムを提供するものである。本発明は基本的には語学能
力を教えることを意図するものであるが、汎用の教育用
具としても、またビデオゲームや映画にも、或いは広告
や通信の如き商業的な用途においても使用されうる装置
及び方法を提供するものである。リアルタイムやランダ
ムアクセス音響／影響シンセサイザ（RAVE）を関連する
専用の音響／映像モデル化言語（RAVEL）と共に使用す
ることにより、実在の又は想像上の人々、アニメ化され
たキャラクタ又は場面を表す合成されたアクタ（行為を
行うもの）（「合成アクタ（synactor）」ということが
ある）がシミュレートされうるようになり、またそれ迄
に行われた事象について予め連続的に格納された記録と
は異なる動作を、スピーチをも含めて行うようにプログ
ラムされ得る。

上記のことを達成するために、通信パターン−音響及
び該音響に関連する実在する実物またはアニメ化された
キャラクタの可視画像−が入力され、構成要素へと分解
されて、断片的な画像及び音響が生成される。或いは、
又はこれと共に、音響を提供するために周知のスピーチ
合成方法が採用される。この通信特性のセットは次い
で、特定の人又はアニメ化されたたキャラクタの動作及
び音声のデジタルモデルを画定するために使用される。
特定の人又はアニメ化されたキャラクタを表す合成アク
タは、RAVELプログラムによって画定される。このプロ
グラムは、当該人又はアニメ化されたキャラクタの言語
パターンの映像及び音響が統合されたリアルタイムな表
示を生成するように、映像及び音響特性を動的にアクセ
スし組み合わせるためのコード化された命令を包含して
いる。合成アクタは次いで動作を行うことができ、単語
又は文を読み取り又は話すことができるが、これらは合
成アクタがモデル化した人又はキャラクタについて予め
記録された動作ではない。このような技術を用いること
により、有名な人物又は他のキャラクタ、ある人の家族
又は友人或いはその人自身を描写するように合成アクタ
を定義することができる。

好ましい実施例においては、教育システムにおいて、
アニメ化され唇の動きが合わせられた話をするキャラク
タ（又は顔）を画定するために、RAVELが使用される。
ユーザは、ドミノ状の綴り換え用タイルとして知覚され
るものの幾つかの例を有する視聴用スクリーン又は他の
視覚的表示装置を示される。これらのタイルの各々に
は、文字又は音標文字（音を生み出す文字のセット）が
記入されており、スクリーンの上側及び左側下部に、ト
レーと呼ばれる矩形の囲いの中に配列されている。合成
アクタの身体の中で話をする頭部又は他の部分がスクリ
ーンの左手上部の角に表示され、他方上部及び左側にタ
イルにより枠取りされたスクリーンの大部分は、ユーザ
がタイルを使用して単語又は他の形状を構成する活動用
の領域として残して置かれる。

ユーザがあるタイルを選択すると、話をする頭部は選
択された文字又は音標文字に対応する適当な音を発音す
る。この選択されたタイルは次いで、単語の始まりとな
るか又は既存の文字ストリングに付加されるように、ス
クリーンの活動領域上に配置される。そして話をする頭
部は、それによる文字又は音標文字の組み合わせを発音
する。このようにしてユーザは、音声学的な単語又は実
際の単語を、さらには文をもスクリーン上に組み立てる
ことができる。文字のシーケンスは次いで、仮にその文
字の組み合わせが無意味であるとしても、発音される。
活動領域における単語又は複数の単語の発音は、単語の
左から右へと移動するハイライティング（輝度を上げる
こと）の波と同期して進められ、かくして左から右へと
読み取る方法論を強化することができる（英語の場
合）。単語中の各々の文字は、組み合わせ音の中でその
文字が相応する部分が聴覚的に示される際にハイライテ
ィングされる。単語はまた、相応する文字又は複数の文
字をハイライティングしている間に「サウンド・アウ
ト」（単語の各構成音を連続して別々に示すこと：切分
された即ち混合されていないスピーチ）されることもで
きる。単語中の特定の文字により生成される音に影響す
る文脈中の文字もまた、ハイライティングにより示され
うる。話をする頭部は、人のスピーチに存在する音響的
及び視覚的な要素をもたらすために、同期された動く唇
の他にも、他の頭や身体の動きを提供するものである。

ユーザがシステムと会話する基本的な手段は、ライト
ペンやマウスの如き指示デバイスを使用すること、或い
はタッチスクリーンについては指先を使用することであ
る。マウスを使用することにより、ユーザはタイルを選
択し、選択したタイルをタイルトレーから拾い上げて活
動領域へと引き出す。タイルは影及び／又は他の視覚的
なサインを有する三次元の対象物として知覚され、活動
領域の辺りにおいて、及びスクリーンの上部及び左側に
あるタイルトレーに行及び列に配列された電子的スタッ
クのあちこちへと移動可能である。

話をする頭部の図形の機能は、唇の動き及び他の身振
りと同期された合成スピーチの認識を強化することを含
んでいる。話をする頭部はまた、命令を行ったりゲーム
を学んだりするための冷たくて機械的なタイルスクリー
ンのレイアウトを、より魅力的で感情に訴えるように温
かみを持たせるものでもある。またこれは、口でもって
音を形成するデモンストレーションをすることによっ
て、その模倣を奨励するものでもある。さらに、話をす
る頭部は学習プログラムについての「進行係」又は「シ
ミュレートされた先生」としての役割を果たすこともで
き、当該プログラムの使用を説明したり実演したり、或
いはユーザが長い間何もしない場合には割り込みをかけ
て目を覚まさせ、ある種の動作を示したり、説明した
り、指示やコメントをすることによってユーザを激励す
る。話をする頭部は、聴覚障害者に対して読唇術及び手
話その他の通信方法を教えるために、手をも含むことが
できる。手旗信号やダンス表記を実演するために、身体
全体を含むようにすることも可能である。ゲーム、複数
の語学の学習プログラム、或いは他の用途については、
スクリーン上に一つ以上の話をする頭部を表示すること
ができる。

本システムは、教育者又はインストラクターが特定の
教授方法についてタイルのセットを作り出したり修正し
たりするようにでき、また生徒の進歩を追跡し、評価
し、インストラクターに通知する能力を与えるようにし
て始動させることができる。本システムは、ある種のユ
ーザの動作によってトリガされた場合に、対象物又は単
語を表示したりアニメ化するようにプログラムされ得
る。これは例えばユーザが「KAT」という単語を組み立
てた場合に、「CAT」という単語及び／又は猫（cat）の
絵を表示するものである。本システムの別の作動モード
は、その語彙に対して単語及び映像を加え（或いは変化
させる）たり、外国語による命令については二つ又はそ
れ以上の別々の語彙を同時に表示する能力が含まれてい
る。スクラブル（Scrabble）の如く複数のプレーヤーが
競合する単語のゲームもまた、本システムにプログラム
することができる。本システムは、漸次難しくなる複数
のレベルの命令をもたらすようにプログラムすることも
できる。このようにして、ユーザは最初には僅かな数の
文字しか取り扱うことができないが、該ユーザが「シミ
ュレートされた先生」からの命令に従ったり又は模倣し
たりすることにより馴染んだことを実証するにつれて、
プログラムはより難しい文字や単語を付加するようにな
る。

〔実施例〕

さて第１図を参照すると、本発明の好ましい実施例の
一つにおいて、専用マイクロコンピュータは、プログラ
ム制御されたマイクロプロセッサ10（この目的のために
はモトローラ社のMC68000が好適である）と、ランダム
アクセスメモリ（RAM）20と、読み出し専用メモリ（RO
M）11と、ディスクドライブ13と、ビデオ及びオーディ
オ入力装置７及び９と、キーボード15又は他の入力装置
17の如きユーザ入力デバイスと、ビデオディスプレー19
及びオーディオ出力装置25の如き出力デバイスからなっ
ている。RAM20は四つのブロックに分割されており、こ
れらはマイルロプロセッサ10及び種々の入出力装置によ
り共有されている。ビデオ出力装置19は、通常のテレビ
受像機又はパソコン用のCRTの如き、どのようなビデオ
出力装置であってもよい。ビデオ出力装置19及びビデオ
発生器18の回路は、マイクロプロセッサ10と、メモリマ
ップされた映像を格納しアクセスするための共有のディ
スプレーRAMバッファ領域22によって制御されている。
ビデオ発生器の回路はまた、マイクロプロセッサ10に対
して60ヘルツのタイミング信号割り込みを提供してい
る。

オーディオRAMバッファ領域23をマイクロプロセッサ1
0と共有しているのは、オーディオ出力装置25を駆動し
ているオーディオ発生回路26である。オーディオ出力装
置25は、スピーカ又は聴覚障害者へと伝達するためのバ
イブレータの如き他の形式のオーディオトランスジュー
サである。

ディスクコントローラ12はディスクRAM21をマイクロ
プロセッサ10と共有しており、読み取り及び最適には書
き込みを行うために、フロッピイディスクドライブ13の
如き適当な持久型の大容量記憶媒体を提供するものであ
る。ディスクドライブ13は、特別のオペレーティングプ
ログラムや用途のための別のRAM領域をもたらす。ホス
トマシンが充分なROMを有している場合には、ディスク
記憶装置は必要ない。

キーボード15及び他の入力装置17のための入力コント
ローラ16はマイクロプロセッサ10に連結されており、デ
ィスクRAM21をディスクコントローラ12と共有してい
る。この役割は、サイナーテック（Synertek）社のSY65
22万能インタフェースアダプタ（Versatile Interface
Adaptor）によって果たされる。入力コントローラ16は
また、種々のコントローラ及び他のマイクロプロセッサ
サポート回路（図示せず）におけるある種のタスクを統
合するものでもある。ユーザとの最大限の会話が可能で
あることから、マイスやライトペンの如き指示入力装置
17が好ましい入力装置である。この好ましい実施例にお
いてはキーボード15は選択的な入力装置であるが、他の
実施例においては指示装置として機能し、又はインスト
ラクターやプログラマーによって使用されて、教授プロ
グラムを生成したり修正したり、或いはシステムの他の
調節可能なパラメータを設定するようにされる。ジョイ
スティック、指先（タッチスクリーンの場合）又は目の
動きのセンサーなどの、他の指示及び制御入力装置もま
た好適である。

RAM24はマイクロプロセッサ10の作業メモリである。
このRAM24はシステム及び応用プログラムと、並びにマ
イクロプロセッサ10により使用される他の情報を含んで
いる。マイクロプロセッサ10はまたROM11をアクセスす
るが、これはシステムの永久的な読み出し専用メモリで
ある。ROM11はマイクロプロセッサ10のオペレーティン
グシステムによって要求される演算ルーチン及びサブル
ーチン、例えばディスク及び他の装置の入出力、グラフ
ィックスの基礎及びリアルタイムなタスク管理その他を
容易にするためのルーチンを含むものである。これらの
ルーチンはRAM24及びディスクにおける拡張及びパッチ
によって、付加的に支持される。

コントローラ５は、ザイログ社のZ8530 SCCチップの
如き直列通信コントローラである。映像（ビデオ）及び
音響（オーディオ）のデジタル化されたサンプルは、話
をする頭部及び合成されたスピーチの特性を与えるよう
な仕方で、システム内に入力される。デジタイザ８は、
ビデオ及びオーディオ入力７及び９のそれぞれに連結さ
れた、オーディオデジタイザ及びビデオデジタイザから
なっている。標準的なマイクロフォン、ビデオカメラ及
びVCRが、入力装置として機能する。しかしこれらの入
力装置は選択的である。なぜならデジタル化されたビデ
オ及びオーディオサンプルは、キーボード15又はディス
クドライブによってシステムに入力されうるし、或いは
ROM11内に存在しうるからである。

ここで第2a図−第2q図をも参照すると、一連の連続的
な表示スクリーン27が示されている。これは第１図に示
されたユーザからマイクロコンピュータシステムへの入
力に応じて、例として「CAT」という単語を形成する過
程を図示したものである。表示スクリーン27はビデオ出
力装置19によって利用されており、ユーザに対して、ド
ミノ状の綴り換えタイルとして知覚されるグラフィック
画像を示している。これらのタイルの各々には、文字又
は音標文字（音を生み出す文字のセット）が、或いは言
語又は音についての他の何等かの視覚的な記号表記が記
入されている。スクリーン27の上部に沿っている電子的
トレー28には、26個の標準的な英文字が記入された二列
のタイル29が配置されている。スクリーン27の左側に沿
っている第二の電子的トレー30には、普通に現れる音標
文字が記入されているタイル29の列が配列されている。
タイル29は、個別の電子的スタック31に電子的にスタッ
クされている。タイル29がそのトレー31から持ち上げら
れてスクリーン27上の別の位置へと移動されると、トレ
ーにおいて同一のタイルが電子的スタック31から「ポッ
プアップ」して、各々のスタック31において常にタイル
29が利用可能であるようにされている。トレー28及び30
は平坦な矩形の輪郭で示されているが、より手の込んだ
グラフィック画像であることもでき、或いは三次元の遠
近図法により示されることもできる。トレー28及び30
は、スクリーン27の左上方の角に矩形の領域32を残すよ
うに配置されている。スクリーンの右側及び底部によっ
て境界付けられたスクリーン27の大部分は、活動領域
（playing field）34として残して置かれる。

さて今度は第2a図−第2q図を全般的に参照してみる
と、マウス又は他の入力装置17（第１図で示された如き
を使用することにより、タイル29は選択されて移動さ
れ、或いは活動領域34上において取り扱われる。ユーザ
はタイル29をそのスタック31から選択し、それを活動領
域上へと移動させるか、又は同様にして既に活動領域34
に存在しているタイル29を処理することができる。タイ
ル29を活動領域34から除去するためには、ユーザはタイ
ル29をそのトレー28,30へと戻すように移動し、そこで
タイルを落とす。そのタイルは当該トレー上を帆走する
ように見え、該トレーの適当な電子的スタックの一番上
に落ち着く。もしもタイル29がトレー28又は30に落とさ
れても、当該トレーが落としたタイルと一致するタイル
を含んでいない場合には、そのタイルはスクリーン27の
端部まで移動即ち「走り去」り、そして消滅する。同様
に、ユーザは単にタイル29を合成アクタの表示領域32へ
と移動させて落とすことにより処理することができる。
その場合、タイルはスクリーンの端部から消え失せる。

スクリーンの左手上部の領域32は、アニメ化された人
物又は動物その他の合成アクタ（第２図においてはアニ
メ化された腕白小僧のような人物36が使用されている）
によって占有されている。一般には、頭部及び肩のみが
表示されていて、話をする頭部（talking head）36を形
成している。音が生成される場合には、唇38及び顔の同
期した動きがもたらされる。頭部36又は目42だけでも、
タイルの動きを追うように動くことができ、またユーザ
とのシミュレートされた目による触れ合いを行うため
に、適当な時に瞬きをしたりウインクをしたり、或いは
動いたりできる。第2r図に示されているように、聴覚障
害者と意志疎通を図り、或いは教授を行うための手話の
使用を容易にするために、手48又は身振りをも表示する
ことができる。頭部36及び手48は一緒に配置する（第2r
図に示されているように）こともでき、またスクリーン
上で異なる位置を占めることもできる。例えば頭部36は
左手上部の角32に、そして手48は活動領域34の右手下部
の角に配置するものである。本システムはまた、スクリ
ーン上でユーザが頭部36又は合成アクタをタイル29が移
動されるのと同様にして移動させるのを可能ならしめて
いる。

ユーザは、マウスの如き入力装置17を用いて支持する
ことなどによって特定のタイル29を選択することによ
り、本システムと会話する。第2a図において、ユーザは
「Ｃ」というタイルを選択した。この「Ｃ」というタイ
ルはハイライト（輝度が上げられている）されており、
話をする頭部36は文字「Ｃ」が単独で話された場合に生
成される「KAH」という音（「クー（kuh）」というよう
に聞こえる）を発音しているものとして示される。マウ
スを使用することにより、「Ｃ」タイルは拾い上げら
れ、活動領域34へと移動される。タイル29がスクリーン
27の上部（又は左側）の位置から離れるように移動され
ると、同一のもう一つのタイルがその下の「電子的スタ
ック」から「ポップアップ」して、使用のために利用可
能とされる。タイルが活動領域34上へと移動されて解放
されると、該タイルは第2b図に示されるようにして活動
領域34の表面に落ち着く。

第2c図から第2g図において、ユーザは文字「Ａ」が記
入されている第二のタイルを選択し、それを活動領域34
へと移動させる。タイル「Ａ」がタイル「Ｃ」に隣接す
る活動領域で解放されると、タイル「Ａ」はタイル
「Ｃ」に引きつけられ、これに向けて移動され、くっつ
き、これと融合されて、単語「CA」が記入されている一
つのタイル46を形成する。この単語「CA」の音は、タイ
ル46の文字がハイライティングされ、またタイル46がハ
イライトされるのと同期して、話をする頭部36によりサ
ウンド・アウト即ち切分して発音され、ついで一連に発
音される。同様にして、第2h図から第2k図において、
「Ｔ」という文字が記入されたタイルが選択され、活動
領域34上に配置されて、「CAT」という単語が記入され
ている一つのタイル46を形成するようになる。「CAT」
というこの単語は次いで、個々の文字がハイライトされ
る際に、話をする頭部36によってサウンド・アウトされ
る。

第21図を見てみると、話をする頭部36は文字「Ｃ」を
発音しているところであり、この文字「Ｃ」がハイライ
トされている。次の文字である「Ａ」には下線が引かれ
ているが、これは単語「CAT」における当該文字の位置
（即ち「Ｃ」に続く位置）が、「CAT」という単語を作
っている文字の組み合わせにおいて「Ｃ」の音に影響す
るということを示している。（例えば単語「CAT」にお
いては、「Ｃ」は軟音（「Ｓ」のような）ではなく、硬
音（「Ｋ」のような）を有する。）短い間隔の後に、或
いはユーザがコマンドを入れた場合に、話をする頭部36
は文字「Ａ」（この例においては、短い「ア（ａ）」と
いう音）を発音する。この場合には、文字「Ａ」はハイ
ライトされ、「Ｃ」及び「Ｔ」の両方の文字には下線が
引かれて、先行する「Ｃ」及び後続の「Ｔ」が両方と
も、単語「CAT」における「Ａ」の音に影響することを
示す（第2m図に示す如く）。同様にして短い間隔の後
に、話をする頭部36は「Ｔ」の音を発音し、その際
「Ｔ」はハイライトされる。この例においては、文字
「Ｃ」及び「Ａ」は文字「Ｔ」の音に何も影響を及ぼさ
ず、従って下線は引かれていない（第2n図に示す如
く）。

第2o図から第2q図を参照すると、次の段階が「CAT」
を滑らかに、連続的に発音することであることが示され
ている。各々の文字は順番に、その音が最も顕著である
部分の発音の際にハイライトされる。連続的な又は混成
されたスピーチの際には、音素の音は幾つかの要素によ
って、特に調音の随伴（coarticulation）によって重な
り合う。全体的な効果は、どのようにして文字及びそれ
らの音が組み合わせられて単語が生成されるのかをユー
ザに説明することである。以上に記載された方法は、語
学及びスピーチ技術に関する従来の教授方法に対し、意
義深い改良をもたらすものである。

第2r図に示されているように、話をする頭部36は手48
又は身体の他の部分を含むことができ、これにより聴覚
障害者に対して視覚的な教授を行ったり、或いは活動領
域34に表示されている何かについて、付加的な映像的サ
インを提供するものである。

次に第３図を参照すると、主なデータの流れ、並びに
スピーチ及び関連する同期した映像アニメーションを提
供するために必要とされる処理及び事象を示している、
機能的ブロックダイヤグラムが示されている。リアルタ
イムなランダムアクセス音響／映像シンセサイザ（RAV
E）において生ずる処理及び事象の全体の概略は次の如
くである。アプリケーションコントローラ44は、直列通
信コントローラ５からのデジタル化されたテキストを翻
訳するように、或いは特定の合成アクタの音響的及び映
像的特徴を含むRAVELプログラムをコンパイラ33を介し
て読み込み又はコンパイルするように、マイクロプロセ
ッサ10（第１図に示されている）を呼び出す。ユーザ入
力35に応答して、アプリケーションコントローラ44はタ
イルコントローラ37を付勢して、所望によりナレータ装
置統合器39のエンコーダ／デコーダ41を使用して、RAVE
に何かを言うように命ずることが必要になる時点まで、
タイル29とユーザとの会話を制御する。アプリケーショ
ンコントローラ44は次いで、マイクロプロセッサ10を呼
び出して、RAVEの音声及びアニメーション処理を開始さ
せる。

RAVEにおける処理の流れは、二つの段階へと分解され
る。リアルタイム段階と非リアルタイム段階である。マ
イクロプロセッサ及び現実の世界の両方における時間及
び他の制約に適合するように、処理のできる限り多くの
部分は、タイル29及び合成アクタ36（第２図に示された
如き）による実際のスピーチ及びアニメーションが開始
される以前に完了される。このことは、ユーザ入力35に
よって開始されるコマンドを完了するために現れなけれ
ばならない、リアルタイム処理の各々のためのスクリプ
トを発生することによって、RAVE内において達成され
る。

文字のストリング又は単語を発音するように命令され
た場合、RAVEの心臓部であるマイクロプロセッサ10は、
ナレータ装置統合器39及びエンコーダ／デコーダ41を使
用して、該文字ストリング又は単語を翻訳し、特定の合
成アクタの声を発する特定のナレータ装置（オーディオ
プロセッサ）43のために、音響スクリプトを発生する。
特定の合成アクタの特徴を具備しているRAVELプログラ
ムから、及び合成アクタの動作コントローラ49若しくは
アプリケーションコントローラ44又はタイルコントロー
ラ37から導出される別の情報を使用することにより、マ
イクロプロセッサ10は正音声（orthophonetic）アニメ
ーションプロセッサ51及び合成アクタアニメーションプ
ロセッサ53のそれぞれについて、正音声スクリプト及び
合成アクタスクリプトを書き込む。これらのアニメーシ
ョンプロセッサは、ハードウェア及びファームウェアに
おいて実施することができ、或いはパラメータ的に含ま
れることもでき、さらにはマイクロプロセッサ10が内部
的なコンパイルプロセスを介してこれらを実行時に生成
することもできる。内部的なコンパイルはRAVEのリアル
タイム段階をスピードアップさせるが、非リアルタイム
段階を遅速させ、より多くのRAMを必要とすることもあ
る。

上述のスクリプトの生成が完了すると、マイクロプロ
セッサ10はリアルタイム統合器55へと制御を渡す。この
リアルタイム統合器55は、プロセッサ43,51,53の各々の
適当な時期に起動し、個々のスクリプトにおける各事象
が適当な時期に実行されることを保証するものである。
典型的には、このリアルタイム統合器55による各プロセ
ッサの起動処理は、リアルタイム統合器55が、オーディ
オプロセッサ43の事象に基づいて、或いはビデオコント
ローラ61からのタイミング割り込みを用いて、正音声プ
ロセッサ51及び合成アクタプロセッサ53中の事象にきっ
かけを与えることからなる。

第2a図から第2q図及び第３図に示された処理をさらに
明瞭にするために、「CAT」という単語について発音を
しまたタイル46を表示するための例示的な過程（第2a図
から第2q図に図示された如き）を辿ることにする。予備
的な段階として、コンパイラ33が音声学的記述ソースフ
ァイルを含有しているRAVELプログラムをコンパイル
し、マイクロプロセッサ10がアニメーションのために必
要とする合成アクタの声及び行動特性のデータ構造をRA
M20に格納している。

メモリ領域を確保するために、データ構造の内の幾ら
かは、第４図に示されているようにカウント−オフ・テ
ーブル（count−off table）からなっている。標準的な
探索テーブル（look−up table）においては、各々のア
ドレス、当該アドレスに格納されるデータの長さとは無
関係に、同じ量のメモリバイトを提供している。カウン
ト−オフ・テーブル401では、データのシーケンスは、
各々のデータシーケンスの終端に特有のマーカー403を
伴って、直列の形式で格納される。検索処理では、毎回
同じ数のバイトを検索するのではなく、特有のマーカー
403を検索して、当該特有のマーカー403が見出されたな
らばインデックス405を増加させることが行われる。一
致が見出された場合には、その時点におけるインデック
ス405が、当該データシーケンスについての固有の識別
子となる。

データ構造がひとたびコンパイルされ格納されたなら
ば、タイルコントローラ37或いはアプリケーションコン
トローラ44が、マイクロプロセッサ10を付勢する。タイ
ルコントローラ37は、スクリーン27上に表示されるタイ
ル29の各々に関連するデータを追跡する。つまりそこに
は何枚のタイル29があり、またそれらのスクリーン27上
における位置はどうか、といったことである。タイルコ
ントローラ37はまた、新しいタイルを発生し、タイルを
配置し、タイルを一緒に融合させ、ユーザ入力に応じて
スクリーン上でタイルを移動させ（走り去らせ）る。タ
イルコントローラ37は、８ビットのASCII符号又は他の
標準的な表示によって識別される正字法の（orthograph
ic）文字キャラクタの各々に対応する図形パラメータ又
はビットマップイメージを有している、フォントファイ
ルをアクセスする。タイルは周知の方法及び回路によっ
て発生され制御されるものであり、これについては以下
で詳細に説明される。

タイル「CA」及びタイル「Ｔ」の融合の結果、タイル
コントローラ37によって形成される例示的なタイル「CA
T」（第2q図に示された如き）のテキストである「CAT」
は、ナレータ装置統合器39におけるエンコーダ／デコー
ダへと連結される。このナレータ装置は、音声的にエン
コードされたキャラクタストリングが供給された場合
に、スピーチを実際に発生するものである。RAVEのこの
好ましい実施例においては、ナレータ装置はオーディオ
プロセッサ43と、スピーチシンセサイザ45と、オーディ
オ出力装置47とからなっている。合成アクタの各々は、
その声をもたらす特定のナレータ装置と、及びテキスト
から音声への翻訳規則のセットと組み合わせられてい
る。多数の言語を含む応用例においては、各々の言語に
ついて異なる規則のセットが、殆ど総ての場合に必要で
ある。特定のナレータ装置を幾つかの合成アクタによっ
て共有することも可能である。

特定のナレータ装置の音声コードは、例えば文、単
語、音節、逆音節（リジブル（lisible））、音素その
他の多くの方法でもって、スピーチの区分を指定するこ
とができる。音素とは、言語或いは方言などにおいて、
一つの発声（utterance）を他の発声から語義的に区別
する役割を有する、スピーチの最小単位である。強勢、
調子、速度などのスピーチの他の特質もまたコード化さ
れうる。普遍性をもたらすために、ある合成アクタのた
めのナレータ装置のスピーチ区分の特定のセットにおけ
る各々のコード、及びその他のコードは、音コード（ph
ocode）と呼ばれるRAVEコードによって識別される。ナ
レータ装置統合器39中のエンコーダ／デコーダ41は、特
定の合成アクタに関連付けされた声についての対応する
音コードへと特定のキャラクタストリングの音声エンコ
ード処理を行うようにマッピングを行うものである。

エンコーダ／デコーダ41は、テキストから音声への翻
訳器40へとキャラクタストリング「CAT」を送出する。
この翻訳器はRAM20から適当なデータ構造を取り出し
て、キャラクタストリング「CAT」を音声的な表示であ
る「KAET」へと変換させるが、この表示はその時使用さ
れている特定のナレータ装置（声）に依存するものであ
る。

テキストから音声への翻訳器40はまた、RAM20に格納
されているデータ構造を使用して、正音声的に対応する
記録（orthophonetic correspondence record;OCREC）
を発生する。このOCRECは、正字法による文字（タイル
上の文字）をアニメ化して当該文字とそれらの音との対
応を示すために、マイクロプロセッサ10によって必要と
される情報を含んでいる。この例として「CAT」を挙げ
ると、OCRECは「Ｃ」が音「Ｋ」と関連しており、
「Ａ」が音「AE」（短いａ）と関連しており、「Ｔ」が
音「Ｔ」と関連していることを示すという因果関係を特
定するのである。OCRECを発生するためのエンコーディ
ングプロセスは、第９図及び第10図においてより詳細に
示される。

OCREC及び音声的ストリング「KAET」はエンコーダ／
デコーダ41へと戻され、そこにおいて音声的ストリング
はその構成要素である音声コード（使用される特定のナ
レータ装置のための）へと分割され、その音コード表示
へと、即ちこの場合には「49 19 57」に終端子ゼロが続
いたものへとマップされる。「CAT」を表しているこの
音コードストリングは、「CAT」についてのOCRECと共に
タイルコントローラ37へと戻される。このように音声的
ストリングが戻される前に音コード化されていることか
ら、タイルコントローラ37及びアプリケーションコント
ローラ44は、スピーチを生成するために使用される特定
のナレータ装置によるエンコード化方法とは無関係なも
のとなっている。タイルコントローラ37はこの情報を、
該当するタイル又はタイルのセットと関連する音を発音
することが必要とされるようになるまで格納する。タイ
ルコントローラ37は次いで、音コード化されたストリン
グ、OCREC、及びフォント、大きさ、字面（例えばボー
ルドやイタリック）、色、間隔及びスクリーンの位置座
標などを含むテキスト表示の正字法的特性を特定する付
加的な情報を、マイクロプロセッサ10へと送出する。

マイクロプロセッサ10は、この例においては音コード
化されたストリングに対応する合成アクタのデータ構造
について、RAM20をアクセスする。このデータ構造に
は、その合成アクタの音響映像モデルのために音コード
の各々についてRAVELソースコードにおいてプログラム
されている、画像シーケンス及び文脈に依存した操作が
含まれる。これには、切分されたスピーチのためのデー
タ−単語を「サウンド・アウト」するために使用される
音−が含まれるが、しかし単語中の各々の文字の名称を
言うため又は手信号をもって綴り出すための手話の指の
位置を表示するために必要とされるデータは含まれな
い。これらの機能は、言語の正字法に関連しタイルコン
トローラ37によってアクセスされる構造によってアドレ
スされるものである。

マイクロプロセッサ10は音コード化されたストリング
をナレータ装置統合器39へと通すが、そこにおいてはエ
ンコーダ／デコーダ41が音コードのストリングをデコー
ドし、それを音声的コードである「KAET」へとマップし
戻し、これをマイクロプロセッサ10へと返す。この「KA
ET」という表示はRAVE内でのみ使用され、アプリケーシ
ョンコントローラ44及びタイルコントローラ37は、キャ
ラクタストリングストリング「CAT」及び／又はナレー
タ装置統合器39によって生成された音コードのストリン
グを使用する。

例えば合成アクタがユーザに向き直ったりウインクや
瞬きをするなどの、実際のスピーチと関連のない合成ア
クタの動作は、合成アクタ動作コントローラ49によって
制御され、スピーチ区分と同様に画像のシーケンスをも
って実行され、そして各々の演技即ち動作特性には、固
有のコード化された表示が与えられている。人の外的及
び内的感覚が、ある種の事象やその組み合わせが動作特
性をトリガする場所であるその人の脳と通信するのと同
じようにして、アプリケーションコントローラ44及びマ
イクロプロセッサ10は、合成アクタに関連する情報を動
作コントローラ49へと連絡し、何が進行中であるのかを
描写する。動作コントローラ49は、RAVELソースプログ
ラムによりコンパイルされたデータ構造についてRAM20
をアクセスし、人格をシミュレートして各々の合成アク
タに対して独自の性格を与える。

マイクロプロセッサ10はこの情報を使用して、合成ア
クタ、正音声及び音響の生（原形）のスクリプトを生成
し、音響スクリプト発生器42、正音声アニメーションス
クリプト発生器52及び合成アクタアニメーションスクリ
プト発生器54に命令して、生のスクリプトを処理して最
終的なスクリプトを生成するようにする。これには、各
々のスクリプトの終わりにリセット位置を挿入するこ
と、中間物（RAVELにより特定され及び／又は自動的に
発生された、遷移の可視画像）を発生することその他が
含まれている。

一旦最終的なスクリプトが発生された場合には、これ
らのスクリプトは実行される。即ちリアルタイム統合器
55によってリアルタイムに統合されて、音響をもたら
し、ユーザ入力によって要求される、時間的に同期され
た関連する映像を表示するのである。

リアルタイム統合器55は、オーディオプロセッサ43及
びアニメーションプロセッサとして機能する正音声プロ
セッサ51及び合成アクタプロセッサ53を統合する。統合
処理は、マイクロプロセッサ10の割り込み構造及び特定
のナレータ装置の特性の関数である。好ましい実施例に
おいては、正音声プロセッサ51及び合成アクタプロセッ
サ53は、ビデオ発生器18（第１図に示されている）から
の垂直フライバックトリガ信号によって60分の１秒毎に
トリガされる、割り込みタスクとして取り扱われる。オ
ーディオプロセッサ43及びアニメーションプロセッサと
して機能する正音声プロセッサ51及び合成アクタプロセ
ッサ53は適当な時に付勢され、ナレータ装置が喋り始め
た場合には、正音声プロセッサ51及び合成アクタプロセ
ッサ53がビデオコントローラ61に合図をして、当該スピ
ーチに対応する正音声及び合成アクタの画像をスクリー
ン63上に表示するようにする。正音声プロセッサ51及び
合成アクタプロセッサ53が垂直フライバックトリガ割り
込み信号に応答してアニメーションスクリプトを実行す
る間に、オーディオプロセッサ43はそれ自体のサブルー
チンでもって音響スクリプトの実行を継続し、またスピ
ーチ区分の生成及び混成のタイミングを図る。音響とア
ニメーションとの間の同期は正確でないかもしれない
が、それは人が受け入れるのに充分なくらい近似したも
のである。

別の方法として、若しくは上記した同期技術との組み
合わせにおいて、リアルタイム統合器55へとリアルタイ
ムな帰還をもたらすオーディオプロセッサ43を使用し
て、オーディオプロセッサ43が速度を設定してより正確
な同期を維持するようにすることもできる。次いで音響
事象のカウンタが主事象カウンタ（図示せず）をトリガ
して、これが正音声プロセッサ51及び合成アクタプロセ
ッサ53をそれぞれのスクリプトに応じてトリガするよう
にし、映像が音響より先行しないことを保証して、それ
により音響と映像との間でのリアルタイムな同期を保証
するようにできる。

さて第５図を参照すると、合成アクタのモデルテーブ
ルが示されている。RAVELソースプログラムから多くの
内部データ構造がコンパイルされてRAM20に格納され、
これにより、機能を実行するために充分なデータを有す
るRAVEが提供される。動的に割り当てられた合成アクタ
モデルテーブルは、これらのデータ構造についての基礎
であり、一つ又はそれ以上の合成アクタモデルテーブル
記録510を含んでいる。これらの記録は、定義された合
成アクタモデルの各々について、一つ宛存在する。

合成アクタモデルテーブル記録510の各々における第
一のフィールドは、所有者領域501である。このフィー
ルドは合成アクタモデル番号（RAVELソースにおいて定
義されている如き）を含んでいるか、又はこの項目が空
である（テーブル管理のため）ことを示すための特別の
コードを含んでいる。次のフィールドであるリーダ503
は、当該モデルについての読出テーブルを示す（即ち読
出テーブルが位置するアドレスを特定）。読出テーブル
は、特定のコードが定義されているヘッダと、これに続
き連接された形式で圧縮されて格納されている規則とか
らなっている。次のフィールドである音コード505は、
このモデル用の音テーブルに対するポインタを特定して
いる。この音テーブルはルックアップテーブルであり、
合成アクタモデルのナレータ装置の特性を、そのスピー
チセグメントコードその他のコードで定義している。各
々のコードは、音テーブルにおける独自の記録に加え、
指定されていない音コード０のための充填記録を有して
いる。この記録における最初の領域は、当該特定のナレ
ータ装置コードにおけるビット数を特定している。これ
に続く領域は、ナレータ装置の当該コードを定義するの
に使用されるビットを列挙したものであり、そして最後
に終端子０が存在する。合成アクタモデルテーブルにお
ける次の項目は、音コードカウント507であり、これは
音テーブルにおける記録の数を示す。

合成アクタモデルテーブルの次のフィールドは切分50
9であり、単語をサウンド・アウトするために必要な音
を記載している切分テーブルを指示している。これは、
各音コード毎に一つの切分を含むと共に音コード０のた
めの充填記録を含むカウント−オフ・テーブルである。
このカウント−オフ・テーブルは、各々の切分ストリン
グの後の専用の区切り文字により境界付けられている。
合成アクタモデルテーブルにおける次のフィールドは切
分カウント511であり、切分テーブルが何バイトを使用
しているのかを特定している。この切分カウント511
は、モデルが放棄された場合にテーブルを再度割り当て
るために、合成アクタモデルテーブルの管理ルーチンに
とって必要とされる。合成アクタモデルテーブルの次の
フィールドであるシーケンス513はシーケンステーブル
を指示する。これはカウント−オフ・テーブルであり、
音コードによりカウント・オフされ、音コード０のため
の充填項目を有し、専用コードによって分離されてい
る。項目の各々は、RAVELソースファイルにおいて当該
音コードについて与えられた位置及びタイミングの値を
特定することになる。シーケンステーブルにおける項目
の各々は、０又はそれ以上の個数の値の対からなってい
る。カウント−オフ・テーブルにおける、長さ０の「空
の」項目は、連接された別々のコードによって示され
る。値の対の各々における最初の値は位置番号であり、
これはスクリーンの画像に対するポインタ又は当該位置
についての他の合成アクタアニメーションブロック（SA
BLOCK）のデータを見出すために、位置テーブルを検索
するものである。第二の値は、スクリーン上に表示する
時間である（事象を待つために、必要があればより長い
時間にわたって表示することができる）。合成アクタモ
デルテーブルにおける次のフィールドは、シーケンスカ
ウント515であり、シーケンステーブルにおけるビット
数を特定している。

合成アクタモデルテーブルの次のフィールドである中
間物（betweens）517は、中間物テーブルに対するポイ
ンタである。これは中間記録と呼ばれる記録の線形リス
トである。中間物とは、二つの画像の間における遷移を
滑らかにするために表示される中間の画像である。中間
物の各々は、四つの関連する値を有している。即ち第一
の位置番号と、第二の位置番号と、これら二つの位置の
間に挿入すべき位置番号と、当該中間物のための時間フ
ィールド、又は合成アクタのアニメーションスクリプト
における以前の時間を半分（また以前の時間が一サイク
ル又はそれ以下である場合には０）に省略することを示
す０である。このテーブルは索引が形成されないもので
あり、逐次走査のみ行われる。合成アクタモデルテーブ
ルにおける次のフィールドは、中間物カウント519であ
り、これは中間物のテーブルにおける記録の数を特定し
ている。次の二つのフィールドである幅521及び高さ523
は、スクリーン上において合成アクタの画像がどの位の
大きさであるのかを特定する。次のフィールドであるモ
デルフラグ525は、合成アクタのアニメーションの特別
のモードを示すために使用される。

次のフィールドは位置ポインタ527であり、当該合成
アクタモデルに関する位置テーブルを指すものである。
位置テーブルは、他のテーブルからの位置番号により索
引付けされ、ポインタをSABLOCKへと渡す。位置テーブ
ルにおける最初の項目は使用されない。位置番号０はイ
リーガルである。次の項目である位置番号１は、初期状
態である「静止」位置専用である。さらなる位置番号は
プログラマーによって任意に割り当てられる。

SABLOCKデータは、データに依存したアニメーション
手段である。好ましい実施例においてはSABLOCKは、特
定の位置にある合成アクタのスクリーン画像を生成する
のに必要なデータを含んでいる。ロボット装置の如き他
の実施例においては、SABLOCKはロボットの種々の部分
を動かすためのアクチュエータその他に対するコマンド
を含んでいる。第12図には、例示的な合成アクタアニメ
ーションスクリプト120及びSABLOCK121が示されてい
る。ここより上における他のデータ構造は、アニメーシ
ョン手段とは無関係であった。外界に依存したデータが
特定されるのは、ここのみである。入力の便宜、デバッ
ギング及び冗長の長さのために、合成アクタの画像に加
え、SABLOCK画像の最初の32ラインには、人が読み取り
可能なラベル及び位置番号（ポインタをSABLOCKへと渡
した位置テーブルへの索引と一致するもの）を含めるこ
とができる。

合成アクタモデルテーブルにおける次の値は、音フラ
グ529である。これは音コードによって索引された音コ
ード特性記録のテーブルを指示するものである。記録の
各々には、事象音コードであるすべての音コードを指定
しているビットが含まれている。事象（event）音コー
ドとは、それについてナレータ装置から帰還が利用可能
であるものをいう。記録の各々には、OCRECを生成し及
び解釈しているときにカウントされるOPS（正音声的に
意味のある）音コードである場合に該音コードを指令す
る別のビットと、及び音コードが強勢と組み合わせられ
ているかどうか、従って隣接する音コードのタイミング
に影響するかどうかを指定するビットも存在している。
どの音コードが母音であるかを知ることは、殆ど総ての
言語において分節のために必要であることから、強勢、
韻律その他を割り当てるための音声的変換方法に対する
テキストにおいて使用されている母音を、当該音コード
が表しているかどうかを示すビットも存在している。分
断点（文、句、又はその他のナレータ装置の呼び出しシ
ーケンスのストリングの境界）を示すビットも存在す
る。いつ休止すべきかをナレータ装置に指示する音コー
ドを示すために、休止ビットがある。これに関連する数
値フィールドは、休止サイクルの数を特定する。

合成アクタモデルテーブルにおける最後のフィールド
は、特性531であり、これはRAVELソースコードにおいて
与えられた当該合成アクタモデルについてのナレータ装
置の番号と、ナレータ装置に依存しているデータとを特
定しているブロックに対するポインタである。このブロ
ックは通常、速度、調子、音量、及び特定のナレータ装
置に固有の他の種々の特性を、オーディオプロセッサに
とって都合の良いフォーマットにおいて含んでいる。

さて、第6a図から第6c図をも参照すると、例示的なRA
VELプログラムの断片のリストが示されている。RAVELは
プログラマーに対して、ナレータ装置の特性を特定する
ための一般的な方法を提供し、また二つ以上のナレータ
装置を同時に使用することにも備える。RAVELプログラ
ムは、話をする合成アクタの声及び関連する画像の性
質、並びにそれらが相互にどう関連しているかを特定す
る。RAVELには、どのような言語についても機能するよ
うに設計された、汎用の音声学エンコーディング方法が
含まれている。キャラクタストリング又はテキストを音
声へと翻訳するための規則は技術的に周知であり、1976
年12月の「音響、スピーチ及び信号処理についてのIEEE
（アメリカ電気・、電子工学技術協会）会報」における
エロビッツ氏（Elovitz）等の「テキストを音声に翻訳
するための規則」に公表されている。このエロビッツ氏
等の方法、並びに他の方法が、正音声（orthophoneti
c）アニメーションをも行うように拡張されてきてい
る。

このコードフラグメントにおける最初のステートメン
ト601は、注釈ステートメントである。RAVELはプログラ
ム言語Ｃの規則に従い、始まりが「／＊」で終わりが
「＊／」により区切られた注釈を受け入れる。次のステ
ートメント608であるDEFINE READER ６＼＄は、RAVEL
プログラムに対し、テキストから音声へ（及び正音声
へ）の翻訳方法第６番の定義が後に続くことを示す。こ
れはステートメント622に続く規則603によって特定され
る（これらは生成規則とも呼ばれる）。英語でない他の
言語については、他のインジケータが必要とされること
もある（図示せず）。

ステートメント608におけるドル符号（＄）の前の逆
スラッシュは、これらの規則の各々における音声的な置
換ストリングの終わりを区切るのに使用されるキャラク
タである。ドル符号は、規則中において、スペース即ち
空白のキャラクタ及びストリングの開始又は終わりを表
すために使用されるキャラクタである（このことは構文
解析を容易にし、また他のナレータ装置ドライバにより
使用される音声コードについての適合可能性を保証す
る）。

次のステートメント622であるMETHOD＝ENGLISHNAL
は、テキストから音声への翻訳器において使用されるべ
き方法を特定している。読み易くするために挿入される
別の注釈ステートメントの後に規則ステートメント603
が開始される。だがここに示された規則は単に例示とし
てのものである。英語についての規則の完全な集合は、
数百ものステートメント及び例外にまで及びものであ
る。各例外は、独自の規則ステートメントとそれに伴う
慣習的な正音声規則によって定義される。このプログラ
ムにおける例外の例は、単語「ONE」についての規則605
である。英語の綴りの不規則性についてのこの例は、＄
〔ONE〕＄＝WAHN＼という規則により翻訳される。＄
は、この語が単語それ自体として現れた場合にのみ一致
を保証する（規則の完全な集合中には、単語中に存在す
る「ONE」を別扱いするための規則が後に存在する）。
関連する正音声規則のためのコード化情報は、各々のラ
インのテキスト翻訳用規則の次にある。最初の正音声規
則607は、「1:（３３２）」である。１は特殊効果
コードであり、アニメーションは指定せず、その代わり
OCRECにおける呼び出しプログラムへと特別の情報を渡
すことを専門に行う。括弧の中の最初の二つの数字は、
アニメーション実行の場合に、幾つのテキストキャラク
タをそれに関連する幾つのOPS音コードへと変換すべき
かをそれぞれ示す。三番目の数字はOCRECと共に戻され
るパラメータであり、これが例外の単語であることを示
すものである。特殊効果コード１の他に、第二の正音声
規則609は、効果３が生成されるべきことを示し、また
単語のどの部分についてもまた単語全体についても、３
つの文字全部が表示されるべきことを示す。この規則か
らは他にはどのような効果も発生されない。このこと
は、いかなる論理形態においても単語「ONE」はその文
字に一致する音へと分解することができないこと、「ON
E」は「WAHN」でしかないことをユーザに示すという決
定を反映している。プログラマーによっては、異なった
仕方で分割する可能性があり、ONEの「Ｏ」の部分は音
「Ｗ」及び「AH」を生成し「Ｎ」が音「Ｎ」を生成し、
「Ｅ」は黙音であることを示すような効果規則を書き込
むこともできる。RAVELソースコードの正音声規則は、
これらの決定を行う権限をプログラマーに付与してお
り、またこれらを低レベルプログラミングで組み込むの
ではなく、他のホストマシンへと転送可能なようにして
いる。

規則の集合中の最後の規則610は、〔＄〕＝＄＼であ
り、これはスペースキャラクタを無変更の音声翻訳器へ
渡すために使用される。文字ごとではなく、単語ごとの
正音声アニメーションが行われているならば、単語間の
間隔を知らせるために、ここで正音声効果コード１を使
用することができる。最後の逆スラッシュは、このテキ
ストから音声への翻訳規則セクションを終了させるもの
である。

MODEL ６という次のステートメント611は、モデル第
６番によって使用される音声学及び画像シーケンスの定
義が後に続くということを、RAVELコンパイラへと示
す。次のステートメント612であるUSE NARRATOR ６
は、当該モデルについてどのナレータ装置を使用すべき
かを特定する。次のステートメント613であるUSE READ
ER ６は、このモデルのナレータ装置について、どのテ
キスト−音声翻訳器を使用するかを特定する。このモデ
ルによって使用される音声コードの定義は、ステートメ
ント613に続いている。数字の各々は、当該数字に先行
する音節に置かれる強勢を示す音声エンコードキャラク
タである。強勢というものは基本的には、音節の母音を
伸ばすこと（英語の場合）であるから、これらの数字は
強勢に先立つタイミング番号及びキーワードと関連して
いる。“＃"614は、コンパイラに対し、当該コードを含
む単語をサウンド・アウトする場合に、当該コードにつ
いて、切分されたスピーチの形式として何を使用するか
を教えている。この場合、切分されたスピーチの生成に
は強勢の値は使用されないので、“＃”はこのナレータ
装置についてはヌルストリングである。

幾つかの句読点マーク615の定義の後に、RAVELソース
コードは使用される母音及び子音の音コード617を定義
している。母音の音コードは、単語「cot」における短
い「ｏ」の音である“AA"619で始まっている。これにつ
いての切分されたスピーチの形式は、同じである。“A
A"619は母音（VOWEL）として示されており、またEVENT
音コードとしても示されている。これは、ナレータ装置
が、この発音を開始した場合に、音響スクリプトプロセ
ッサ43がこれを検出することができること、および、非
同期アニメーションをトリガするようリアルタイム統合
器55に通知することを示すためである。“AA"619はま
た、OPS即ち正音声的に意味のある音コードとしても示
されている。

“AA"619音コードにおける次の二つの数字621は、こ
の音が、この言語プログラムセグメントの最後にあるEN
DMODELステートメント623（第6c図に示されている）中
に示す画像ファイルからの位置番号２の10サイクル分と
関係付けられるべきことを示している。画像及び関連す
るタイミングは、言語の音コードにおける音セグメント
と幾つでも関係付けることができる。例えば二重母音
「AW」625（「オウ（OW）」のように発音される）は、
総ての二重母音と同様に、人間の言語における特徴的な
方法で一緒に発音される二つの音からなっている。これ
は二つの画像を生成するように定義されている。即ち画
像６を５サイクル分と、更に、画像48を５サイクル分で
ある。

次のステートメント627は、子音を定義するものであ
り、この場合、それらに関する切分ストリングは、音声
エンコードストリングとは同一にはならない。これは、
音声エンコードストリングが切分スピーチモードの際に
母音の一部と共にサウンド・アウトされるためである。
例えば「Ｂ」626は、単に「ビー」と発音されるのでは
なく、「BAX（バハ（buh）等）」と発音される。切分さ
れたスピーチ音に対する別の方法を文字「Ｇ」629につ
いて示す。この場合、先行する下線符号が、ファイル
（ファイル名はGAX）から読み出したデジタル音を表
し、そのデジタル音を顔及び正音声と同期させてあたか
も「GAX」と言っているように見せるように、RAVELに通
知する。音素「Ｋ」631及び「Ｓ」633はEVENTでないも
のとして定義されているが、これは本明細書での例示の
ために過ぎない。

音の生成と関連付けされていない合成アクタの幾つか
の反射動作635が定義されている。これらについての切
分ストリング「SS＃」634は、単なる充填物であり、各
ステートメントで組み合わせられている二つのキャラク
タストリング＊＊、＊１、＊２、＊７は単に、適当な時
期に動作コントローラ49によって惹起される合成アクタ
の反射動作を示す、他では使用しない音声エンコードで
ある。セミコロン636は、この音声学による定義を終了
させるものである。SPECPARAMSステートメント637は、
標準的なスクリーン領域及び画像に関する機能を示すも
のである。

INBETWEENステートメント639の各々は、組み合わせら
れた四つの数値を有している。最初の二つは、どの位置
の間に画像が挿入されるべきかを特定する。三番目は、
どの画像を挿入するかを特定する。四番目のパラメータ
は、当該中間の画像をスクリーン上に表示する時間の長
さを特定している。表示時間の値が０の場合には、合成
アクタのスクリプト発生器54は、先行する画像の時間の
半分を自動的に使用する（先行する時間が２サイクル以
下でない限り。２サイクル以下の場合には中間物は挿入
されない）。ある中間物について許された表示時間は、
先行する画像について許された表示時間から、常に減算
される。例えば最初の中間物ステートメント638は、合
成アクタのスクリプト発生器54に対し、33番の画像がス
クリーン上に表示されこれに５番の画像が直ぐに続いた
場合にはいつでも、番号65の画像がこれら二つの画像の
間に３サイクルの長さにわたって挿入されるということ
を特定している。この場合、33番の画像について許され
る表示時間は、65番の中間物画像のための表示時間を提
供するために、３サイクル減少される。

中間物ステートメント638においては、33という値
は、音コード「Ｔ」に関する音についての合成アクタの
唇及び舌の位置に対応している。５というのは、音コー
ド「AO」により示される母音についてのものである。
（これは「TALK」という単語における「ａ」の音であ
る。）画像番号65は、これら二つの位置の中間となるよ
うにして、合成アクタの口及び顔を表示する。例えばス
テートメント640では、33と２の間の位置において、65
番は、「Ｔ」と別の母音即ち「COT」という単語の「A
A」という音との間に挿入されるものとしても定義され
る。このことは、当該画像を繰り返して使用することを
可能ならしめる。なぜなら、「Ｔ」と「AA」との間、及
び「Ｔ」と「AO」との間に表示される唇の位置は、殆ど
同じだからである。

中間物は、ステートメント641におけるようにネスト
されることもできる。そこでは74番という画像が、画像
33と71との間に挿入されるべきものとして定義されてい
る。画像71が33と最初に近しくなるのは、それが先のス
テートメント642において33と１の間に中間物として挿
入された場合である。このネスティングはどのような深
さとすることもでき、この方法論はRAVELのプログラマ
ーが最小限の数の格納された画像を使用して、顔の位置
（又は音声に関する他の画像）のモデルを定義すること
を可能ならしめる。

最後のステートメントであるENDMODEL623は、合成ア
クタのスピーチパターン及び画像についてのこの特定の
モデルが完成したことをRAVELに対して特定し、またこ
のモデルが関連する画像が見出されるファイル名を特定
する。最後に一つのコロン643が、プログラムの終わり
を示す。

さて第7a図及び第7b図を参照すると、人の言語におけ
る正字法又はタイル29に関して用いられる他の記号の集
合を特定するステートメントを示す例示的なプログラム
リストが提示されている。更に、その各コードは、タイ
ル29（第2a図から第2r図において示された如き）がどの
ようにしてスクリーン27上に配置されるのか、またタイ
ル29はどのように他のタイルと相互作用し、マウス又は
他の入力装置によるユーザの操作にどう応答するのかを
特定するものであり、またタイル29上に記入されている
文字または他の記号と関連付けされるべき音響名を特定
している。

最初のステートメント701であるSPEAKER ６は、この
プログラムにおいて文字の名称及び切分された音を表現
するのに使用される、特定のナレータ装置を識別するも
のである。次のステートメント703はLETTER NAMESであ
り、タイルコントローラ37に対し、文字の名称及びタイ
ル29に記入された他の記号の名称の発音を特定する記述
がその後に続くことを示している。

マージンステートメント705はタイルコントローラ37
に対し、タイル29の端部と、そのタイル29上に示される
文字その他の記号との間に残す間隔を特定する。フォン
トステートメント707はタイルコントローラ37に対し、
フォント（図示せず）を参照することにより、文字又は
記号をどのように見えるものにするかを特定する。引き
つけ領域（MAGNET RANGE）709は、タイルが相互に引き
つけ合うためにはタイルがどの位相互に近接しているこ
とが必要かを特定する。スクイッシュ要素（SQUISH FAC
TOR）711は、タイル相互の融合の際にタイル29の動きの
アニメーションを滑らかにするために使用される、経験
的に導き出された値である。走去速度（SCOOT SPEED）7
13は、タイル29がそれぞれの方向へと向けてどの位速く
移動するかを特定している。ギャップ715は、タイルの
位置を特定していない場合に省略値としてタイル29相互
間に残す間隔を特定している。トレーステートメント71
7は、トレーの名称及び当該トレーが描かれるべきスク
リーン27上での位置を特定している。

タイル29の各々は、１組のステートメント719で特定
される、各々のタイル29について、タイルコントローラ
37は、そのタイルがどのトレーにあるか、また上、左、
下、右という順番で、タイルの位置（「に（at）」とい
うキーワードの後に）について知らされる。この例で
は、上部は位置30に、左の座標は35にあり、最初の０は
タイルコントローラ37が当該タイルに与えられたマージ
ン及びフォントの大きさに基づき下部座標を割り当てる
ことを示す。二番目の０はタイルの右手の端部について
のものであり、タイルコントローラ37がそのマージン及
びフォント情報を使用して当該タイルがどの位の幅であ
るべきかを決定すべきことを示す。

次のライン721は、文字「Ａ」（又は特定のフォント
において「Ａ」のためのキャラクタコードに割り当てら
れたものなら何でも良い。プログラム言語Ｃの規則で
は、逆スラッシュの「エスケープ」コードに数値が続い
たものは、タイプ不可能なキャラクタコードを示すため
に代わりに使用される）を当該特定のタイル上に示すこ
とを命じており、また次のライン723は、「AE」（短い
「ａ」）という音がこの記号に関係付けられていること
を示している。キーワード「WORDALSO」724は、タイル
コントローラ37に対し、このタイルと同じに綴られる英
単語（この場合は一文字の不定冠詞「ａ」）であって、
通常モードで関連付けされた音声シーケンスを示す同タ
イルとは異なる発音をすることが必要なものが他に存在
するということを知らせる（それ以外の場合には、トレ
ータイルの単語としての解釈及び発音を試行することは
なく、当該トレータイルと同じテキストを持つ自由なタ
イルが、そのトレータイルの発音シーケンスを使用する
ことになる）。「PRESS」ステートメント725は、そのタ
イルを選択するためにはキーボード上のどのキーが押さ
れることが必要であるのかを識別する。タイルの色及び
形を特定するステートメントも使用することができる。

ステートメント726に続く「Ｃ」タイルステートメン
ト727は、硬音「Ｃ」（「Ｋ」の音）の音についてのデ
ジタル化シーケンスを特定する。これはキャラクタスト
リング中の先頭にある下線キャラクタ729によってナレ
ータ装置へと指示される。これは、この特定のナレータ
装置に対して、「この音声ストリングを合成するのでは
なく、この音声ストリングについて関連する合成アクタ
の唇の動きを表示し、「カー（KAH）」という名称の音
ファイルを使用せよ」ということを特定する。軟らかい
「Ｃ」（「Ｓ」の音）ではなく硬い音を「Ｃ」の通常の
音として示すということは、プログラマーが決定するこ
とである。「カー又はスー（KAH OHR SS）」というデジ
タル化即ち合成されたシーケンス（両方の音及び単語
「又は（or）」を示すもの）もまた使用されてきた。

タイルコントローラ37は、文字を記入したシミュレー
トされたタイル又は他の対象物を管理し操作するための
一般化されたシステムである。タイルの作動のすべては
タイルコントローラ37を介して制御されるため、タイル
コントローラ37はアプリケーションコントローラ44及び
RAVEから独立している。各々のタイル29と関連付けされ
ているものは、当該タイルに記入された文字又は記号を
表しているテキストストリング及びそのテキストストリ
ングをエンコードしたものである。これらのデータ構造
はタイル記録という名称を持ち、RAM20内のタイルテー
ブルに格納されている。

さて第８図を参照すると、タイル記録801が示されて
いる。タイルテーブル800は、固定長のタイル記録801の
線形リストである。タイルテーブル800の長さを限度な
しに延長するために、動的割り当て（及び複写）を使用
することができる。各々のタイル記録801についてのフ
ィールド内容の殆どは、通常は第７図に示された如きソ
ースコードによって定義される。

クラス803は、タイルのクラスを特定する。タイルの
クラスは四つ存在している。空白については、タイルテ
ーブル800は「空き（empty）」という特別のクラスコー
ドで空きを示す。固定タイル（タイルのウェル（well）
即ちスタックとして機能するもの）は、スクリーン上の
特定の位置に存在する（編集モードを除く。編集モード
では、ユーザは固定タイルを移動でき、固定タイルにつ
いて新たな構成を記憶させることができる）。浮動タイ
ルは、活動領域の上方を引き回されるタイルであり、自
由タイルは活動領域上に落とされてさらに移動すること
のできるタイルである。四つ目のクラスは目に見えない
ものであり、プログラミングの一助として使用されう
る。

モデル805は、当該タイルについて、どのモデルの声
及び関連する合成アクタのアニメーションが使用される
べきかを特定する。

位置807は、タイルの左上部の角がスクリーン上の何
処に位置すべきかを特定する。

テキスト809は、標準的なキャラクタストリングを表
現するもの等の正字法のキャラクタストリングデータ、
及び使用に適当なフォントを含む記録のアドレスを特定
している。

対象物811は、対象物の抽象的な表現（特定のオペレ
ーティングシステム環境で入手可能な場合）に対するア
ドレスを特定している。

押下キー813は、特定のタイルをキーボードから選択
するために押す必要があるキーボードのキーのリストを
含んでいる。

音コード815は、テキストストリングについての発音
を表す音コードストリングのポインタを特定している。

フラグ817は、タイルの種々の一時的な属性を格納す
るためにタイルコントローラによって使用される。フラ
グ817はまた、ある文字が一文字の単語である例外的な
場合（又はより一般的には、トレータイルに記入された
記号ストリングが自由タイル上では単語として発音され
る場合）を示す「WONE」フラグをも含んでいる。

色819は、テキストの色、背景の色、及び影を出す効
果並びに所望の美術的効果をも含めて、タイルの色の特
性を特定している。

形状821は、例えば母音及び子音等の、種々のクラス
の文字を識別するために、タイルの形状を一つ以上設け
る等、選択的な特性を指定することができるものであ
る。

OCREC823は、テキストストリングの部分と音コード化
されたストリングの部分との間の対応関係、及びそれら
がどうアニメ化されるかを特定する情報を与える、正字
法的に対応する記録を指定している。

残りのフィールドは、将来的な拡張のために保存され
た予備である。

次に第９図及び第10図を参照すると、第二の例として
「KNIGHT AX（騎士の斧）」が、音声ストリング「NAYT
AEKS（ナイト・アクス）」へと翻訳されており、また
音声翻訳規則及び正音声規則を使用した、関連するOCRE
C即ち正音声的に対応する記録の構造が示されている。R
AVELプログラムの例示的なリスト（第6a図から第6c図に
示した如き）は前述した通りである。この例では、効果
６（文字の上部のドット）が、どの１文字又は文字の組
み合わせが発音されているのかをディスプレイに示す
（強調表示する）ために使用され、効果３（下線）が、
関連する文字の重要な組み合わせを示すために使用され
る。

テーブル900は、コーディングの説明をも含めてこの
例で使用される規則901（第6a図ないし第6c図のRAVELプ
ログラムから取ったもの）を列挙したものである。規則
901は、プログラマーが読み書きするのに簡単な形態の
キャラクタストリングとされている。各々の音声規則90
3は、ａ〔ｂ〕ｃ＝ｄという形態を有する。その意味
は、「ａ」によって先行され「ｃ」が後に続く場合、キ
ャラクタストリングｂは「ｄ」と発音されるということ
である。この「ｄ」は音素のストリング又はここにおけ
る規則が書き込まれている特定のナレータ装置に特有の
他のスピーチセグメントコードからなっている。「ｂ」
は翻訳されるべきテキストフラグメントである。「ａ」
及び「ｃ」はマッチングが行われるべきパターンであ
る。これらは「ｂ」と同様に文字テキストストリングか
らなることもできるが、ストリングのクラスを示す特別
の記号とすることもできる。翻訳ルーチンはソーステキ
スト「KNIGHT AX」902を逐次走査する。走査されるソ
ーステキスト中の各キャラクタ毎に、翻訳ルーチンは、
左辺のストリング（前後関係「ａ」及び「ｃ」を含む）
がカレント位置のソーステキストに一致する規則を見出
すまで、ソースコード中に与えられに規則全体を検索す
る。次いで翻訳ルーチンは、当該規則におけるイコール
符号の右辺に音声コードを出力するが、それは逆スラッ
シュまで含むものではない。逆スラッシュは、処理の進
行中に音声コードを付加して音声翻訳ストリング「NAYT
AEKS」904へとするものである。翻訳ルーチンは、一
致したソースストリーム中の括弧付きのキャラクタをス
キップして、逆スラッシュに続く正音声規則905を適用
する。

規則の正音声部分905は、コンマによって分離され、
セミコロンによって終端された、何個かの効果指定子
（effect designator）906からなる。各効果指定子906
は、効果番号と、それに続くコロンと、その後の任意の
個数の括弧付き数字のリスト908とからなる。各リスト9
08は少なくとも二つの数字を含み、その最初のものは、
正字法テキスト入力ストリームからのキャラクタが幾つ
翻訳されたかを示し、二番目の数字は、それらキャラク
タが幾つの正音声的に意味のある（OPS）音コードへと
翻訳されたかを示すものである。テーブル910は、規則9
01の正音声部分905によって生成されるアニメーション9
12、及び規則901の音声部分903により割り当てられる音
声的音響914を示している。

OCREC907は、第10図に示されるように正音声規則905
から構成されている。これは記録０によって終端される
リストであって、ソースストリングに適用された正音声
規則905において特定された効果906の各々について、効
果コード909及び関連するリストアドレスベクトル911を
含んでいる。この例907において、効果コード909は正音
声規則905において使用された効果番号906と同一であ
る。アドレスベクトル911は、括弧付きのコード908の線
形リスト913を指すものである。このリスト913は、当該
効果のために集められ及び／又はテキストから音声への
翻訳器により生成され、二つの「０」916（禁止された
又は意味のない値の集合）によって終端される。

リスト913中の各記録915は少なくとも二つの値を含ん
でおり、その最初のものは正字法によるキャラクタの個
数を、そして第二のものはそれらがマップされた正音声
的に意味のある音コード（OPS音コード）の個数を特定
している。OPS音コードは、（第６図で示したように）R
AVELソースコードのナレータ装置特性区域中で示され
る。また、OPS音コードは、翻訳規則により網羅されて
いないアルゴリズムに従ってテキスト−音声翻訳器によ
り挿入された可能性のある、当該特定のナレータ装置に
関する強勢及びその他の音声コードモデルを、排除する
のに使用される。正音声規則の効果パラメータ908（括
弧内の数値）を各々の適当なリスト913の終わりまで出
力した後、ルーチンはソースストリームの走査を再び開
始する。

場合により、効果は、アニメーションの発生点となる
ソースストリング中のオフセットを特定する第三の値を
必要とすることがある。これによい、記号集合の組み合
わせモードでのアニメーションが可能となり、このモー
ドでは、キャラクタは、そのキャラクタが配列された順
序とは異なる順序で音響を発生させることができる。文
脈（即ち先行又は後続の文字）を強調し或る１文字が当
該単語中で特別な音を有するようにする発声教授モード
（第21図−第2n図参照）その他のモードを達成するため
には、二つの付加的な数値（図示せず）が必要となる。
これは、適当な音韻を指定するために検索しなければな
らない１文字（又は文字の組み合わせ）の前後の距離を
追跡するようにテキスト−音声翻訳器の方法を修正する
ことにより達成される。英語のように綴りが難しい言語
では、これらのタリーから特定の規則（通常は例外的な
場合について）を免除するために別個の効果コードを使
用することもできる。

他の効果は、記号中の重複要素（例えば東洋の表意文
字言語など）を特定するために、また当該効果の特定モ
ード（下線の幅、その他）を示すため、或いは当該規則
に関連する合成アクタによる注釈（例えば「この母音は
黙音「ｅ」のために長い」といったような）を特定する
ために、更に数値を必要とする。

コード化正音声規則における便宜及び正確さのため
に、テキスト音声翻訳器は、関連する音声規則から推論
可能な値についてデフォルトの正音声規則を生成するよ
うにプログラムすることができるものである。

ここで「KNIGHT AX」という例を参照すれば、例示的
なRAVELプログラムにおいて、テキストストリング「KNI
GHT AX」の始まりと一致する最初の規則919は、規則
〔＄〕KN＝Ｎ＼である（ここで、＄は空白文字又はテキ
ストストリングの始まりを示すものである）。この規則
は、単語の始まりにおいて「Ｎ」の前に黙音である
「Ｋ」を見出し、これに対して突き合わせを行うように
設計されている。この規則が最初に見出されるが、これ
は、規則が逐次走査され、この規則よりも下にある「通
常のＫ」の規則は検索されないからである。一致が見出
されると、音声翻訳コード「Ｎ」が出力される。これと
関連する正音声規則905は、効果番号906及びこれに組み
合わせられた効果値908を含んでいる。最初の数値
「３」は、効果３を指示している。OCREC907を構築する
ために、効果３の指定子909及び関連するリストアドレ
ス911が設定され、次いで、「3:」の後の括弧内に包含
される数値コード「２１４」を複写することにより
効果３のリスト913の初期項目の入力が行われる。閉じ
括弧に続くコンマは、別の効果906が続くことを示して
いる。同様に、次の効果である効果６について、その効
果６の指定子909及び関連するリストアドレス911が設定
される。「６」に続く二組の括弧付きコード「１０」
及び「１１」を複写することにより、初期項目が効果
６のリスト921に入力される。「１０」923は、最初の
文字キャラクタ「Ｋ」が０個のOPS音コードにマップさ
れたことを示す。「１１」925は、２番目の文字キャ
ラクタ「Ｎ」が１個のOPS音コードにマップされたこと
を示す。これにより、最初の規則919の適用が完了す
る。

次いで、ソーステキストストリングの残りである「IG
HT AX」と一致する規則を検索する。この文字ストリン
グについて規則テーブル中で最初に一致するものは、
「IGH」規則927である。この規則を適用することによ
り、「AY」（長い「アイ（ｉ）」の音）というコードが
音声翻訳に付加されて音声ストリング「NAY（ナイ）」
が作成される。「3:」906に続く括弧内の「３１
４」908が、構築中の効果３のリスト913に加えられ、正
字法のソーステキストストリングの３つのキャラクタが
一つのOPS音声音コードにマップされたということが示
される。効果３のリストにおける「４」917,929は、下
線の幅が４画素分であることを示すコードである。

「6:」906に続く次の二つの数値の対908は、構築中の
効果６のリスト921に付加される。即ち、これらの数値
「１１」及び「２０」は、効果６（発音時の文字上
の点）が、欄931,933で説明しテーブル910の行935で図
示するように、最初のキャラクタ「Ｉ」で実行され後続
の二つのキャラクタ「GH」では実行されないことを示し
ている。二つのキャラクタ「GH」は「黙音」文字である
ので、これらはどのような音声翻訳にもマップされるこ
とはない。

次に一致が取られるべき規則は、「Ｔ」の規則であ
り、これも同様にテーブル900に図示するようにOCRECが
完成するまで行われる。「Ｘ」の規則937は、一文字938
が二つの音コード939を生成する例を提供するものであ
る、という点に留意されたい。ソーステキストストリン
グが使い尽くされると、OCRECの効果リスト913,921は、
それぞれ０の対916,918により終端される。OCRECのリス
ト913,921は、最終的に、正音声スクリプトを生成する
ために使用される。

さて第11図をも参照すると、正音声スクリプト101が
示されている。この正音声スクリプトは、RAVELプログ
ラムの規則を使用してテキスト−音声翻訳器40（第３図
に示した）によって構築されたOCRECから発生されてい
る。

効果１及び特別の情報をフラグするために残して置か
れた他のものを除き、効果リスト913及び921の各々につ
いて、通常は一つの正音声スクリプト101が発生され
る。OCREC907における他の効果リスト又は効果リストの
セットの各々は、マイクロプロセッサ10が正音声スクリ
プト発生器52を使用してスクリプトを発生するようにさ
せる。正音声スクリプト101は、基本的には合成アクタ
スクリプト120（第12図に示されている）と同じであ
り、アドレス／時間の対102,103に加えて負のアドレス
値105（正音声スクリプト101においては（負）として示
されている）によりフラグされ事象番号を特定している
事象待ち記録104とからなっている。この例において
は、「Ｋ」及び「Ｓ」の音についての音コードは、事象
音コード（第６図に示された如き）でないものとしてフ
ラグされている。

正音声スクリプト101においては、アドレス102は正音
声アニメーションブロック（OABLOCK）106を指定してお
り、このOABLOCKの正確な内容は、効果の詳細（正音声
アニメーションプロセッサ51が何であるかをも含めて）
及びそのスクリプト発生器52の性質に依存している（情
報の幾らかは、OABLOCKパラメータ値として渡されるの
ではなく、非リアルタイム段階においてコンパイルされ
ているであろう）。この例、つまり「KNIGHT AX」にお
いては、「Ｋ」及び「Ｓ」の両者にとって正音声ディス
プレーは同一であり、これら両者については一つのOABL
OCK110しか発生されない。なぜならこれらは一つの文字
「Ｘ」の音声翻訳によって発生されたものだからであ
る。「Ｋ」及び「Ｓ」についての表示時間は合計され、
OABLOCKは合計期間107である11サイクルに渡って表示さ
れる。正音声スクリプトにおける最後のOABLOCK108は１
サイクルの表示時間109を有し、スクリーンを初期のア
ニメーションのない表示状態（即ちハイライトされた文
字がない）へと戻す。OABLOCK及び正音声スクリプト発
生器52は、テキスト、正字法による画像のスクリーン上
での位置、及びテキストを完全に特定するために必要と
される他のテキスト描写パラメータを含む情報であっ
て、アプリケーションコントローラ31、タイルコントロ
ーラ37又は動作コントローラ49などからマイクロプロセ
ッサ10へと渡された情報に基づき、マイクロプロセッサ
10によって選択されまた生成されたものである。かくし
てマイクロプロセッサ10は、正字法キャラクタの各々の
高さ、幅及び位置を特定することができ、そしてこのデ
ータを利用して非リアルタイム段階においてOABLOCKを
発生することができる。

OABLOCK115は、正音声効果（及び合成アクタの効果）
の多くのものについて適当なOABLOCKのフォーマットの
例を、標準的なメモリマップされた映像表示システムを
伴って提供している。OABLOCK115は、効果を表示すべき
スクリーンアドレス116と、表示領域の高さ117及び幅11
8と、及びスクリーン画像それ自体を特定するためのデ
ータ119とを含んでいる。

さて第12図を参照すると、合成アクタスクリプト120
の例が示されている。合成アクタスクリプト120は正音
声スクリプト101と同じフォーマットを有しているが、
その生成方法は異なる。図示の合成アクタスクリプト12
0は、以前に説明した「CAT」の例についてのスクリプト
である。表示期間122及びSABLOCKのアドレス124を含ん
でいる第一の記録部分123は、音声コード化「Ｋ」のた
めのものである。そこでは「事象記録待ち」125は先行
していない。なぜなら「Ｋ」は事象（EVENT）音コード
（第６図に示された如き）としては定義されていないか
らである。SABLOCK121はOABLOCK115と同様のフォーマッ
トを有しているが、スクリーン画像データ131が合成ア
クタの位置を描写するようになっている。このスクリー
ン画像データ131は、デジタル化されたビットマップの
形態を取ることができる。正音声スクリプト101と同様
に、最後の記録127は、静止している合成アクタの画像
を含んでいるSABLOCK129のアドレスを含んでいる。

【図面の簡単な説明】

第１図は、本発明の原理に従い、コンピュータにより発
生された可視画像をリアルタイムに同期されコンピュー
タにより発生されたスピーチと共に表示するシステムの
ブロックタイヤグラムであり；第2a図から第2q図は、第１図のシステムに従い「CAT」
という単語の形成を実演しまたスクリーンのレイアウト
を示す、ディスプレースクリーンの表示のシーケンスで
あり；第2r図は、手話でもって教授又は意志疎通するために、
第2a図から第2q図のスクリーンレイアウトの特徴と共に
アニメ化された手の使用を示す表示であり；第３図は、第１図に示されたシステムにおける主なデー
タの流れ及び処理を示す、詳細な機能ブロックダイヤグ
ラムであり；第４図は、カウント−オフ・テーブルの構造を示すダイ
ヤグラムであり；第５図は、合成アクタモデルのテーブル記録を示すダイ
ヤグラムであり；第６図は、第6a図から第6c図の関係を示している説明図
であり；第6a図から第6c図は、第１図のシステムにおいて使用さ
れた音声および正音声規則を含んでいるRAVELプログラ
ムの例示的なリストを提供している表であり；第７図は、第7a図と第7b図の関係を示している説明図で
あり；第7a図と第7b図は、第2a図から第2r図に示された如きタ
イルの正字法的マッピングのための規則を特定している
コードの例示的なリストを提供している表であり；第８図は、タイルテーブル及び関連するタイル記録の図
式的表示であり；第９図は、キャラクタストリングを翻訳するためのテキ
スト翻訳規則の使用を示す図式的表示であり；第10図は、正音声的に対応する記録を示す図式的表示で
あり；第11図は、第10図に示された正音声的に対応する記録に
対応する正音声スクリプトを示す図式的表示であり；及
び第12図は、合成アクタスクリプトを示す図式的表示であ
る。５……コントローラ、７……ビデオ入力装置８……デジタイザ、９……オーディオ入力装置 10……マイクロプロセッサ、11……ROM 12……ディスクコントローラ 13……ディスクドライブ 15……キーボード、16……入力コントローラ 17……入力装置、18……ビデオ発生器 19……ビデオ出力装置、20……RAM 21……ディスクRAM 22……ディスプレーRAMバッファ 23……オーディオRAMバッファ 24……RAM、25……オーディオ出力装置 26……オーディオ発生器、27……ディスプレー 28,30……トレー、29……タイル 31……スタック、32……合成アクタ表示領域 34……活動領域、36……話をする頭部 37……タイルコントローラ、38……唇 39……ナレータ装置統合器、40……翻訳器 41……エンコーダ／デコーダ 43……オーディオプロセッサ 44……アプリケーションコントローラ 45……スピーチシンセサイザ 49……動作コントローラ 51……正音声プロセッサ 53……合成アクタプロセッサ 55……リアルタイム統合器 61……ビデオコントローラ

Claims

(57)【特許請求の範囲】

【請求項１】互いに同期された音響的特徴及び映像的特
徴を有するランダムにアクセス可能な対象物を生成して
表示する装置であって：プログラム制御されたマイクロプロセッサと；前記マイクロプロセッサから出力されたコマンド信号に
応じて音響のエンコード要素及び対象物の成分のエンコ
ード要素を表す信号を生成する、前記マイクロプロセッ
サに接続された統合手段であって、前記音響のエンコー
ド要素及び前記対象物の成分のエンコード要素を表す前
記信号が前記マイクロプロセッサに出力される、前記統
合手段と；前記統合手段から出力された前記音響のエンコード要素
を表す前記信号に関する音響スクリプトに応じて音響信
号を生成する、前記マイクロプロセッサ及び前記統合手
段に接続された音響生成手段と；前記音響信号に関する音響を送出する、前記音響生成手
段に接続された音響送出手段と；前記統合手段から出力された前記対象物の成分のエンコ
ード要素を表す前記信号に関する少なくとも１つのスク
リプトに応じてアニメ化された前記対象物の視覚画像信
号を生成する、前記マイクロプロセッサに接続されたビ
デオ生成手段と；前記視覚画像信号に関する視覚画像を表示する、前記ビ
デオ生成手段に接続された表示手段と；前記アニメ化された対象物の視覚画像を前記音響と同期
させる、前記マイクロプロセッサと前記ビデオ生成手段
と前記音響生成手段とに接続された同期手段とからなることを特徴とする、前記装置。
【請求項２】前記統合手段が、前記音響のエンコード要
素に関連する信号のセットを、該信号のセットの音声表
示へと翻訳し、及び、前記音響のエンコード要素に対応
する正音声特徴を表すコード化されたビットストリング
へと翻訳する翻訳手段を含む、請求項１記載の装置。
【請求項３】前記音響のエンコード要素を表すデータを
格納し、前記音響のエンコード要素と関連する挙動特性
を表すデータを格納し、及び、前記対象物の成分のエン
コード要素の視覚画像を表すデータを格納するランダム
アクセスメモリ手段をさらに含み、前記マイクロプロセ
ッサが前記各データにアクセスして該データを前記ビデ
オ生成手段に提供して前記音響のエンコード要素と関連
する挙動特性を有する擬人的対象物を生成する、請求項
１記載の装置。
【請求項４】互いに同期された音響的特徴及び映像的特
徴を有しランダムにアクセス可能なアニメ化された対象
物を生成して表示する方法であって：音響のエンコード要素及び対象物の成分のエンコード要
素を表す第一の信号のセットを生成する段階と；前記第一の信号のセットに応じて前記成分からなるアニ
メ化された対象物の画像を表す第二の信号のセットを生
成する段階と；前記第一の信号のセットに応じて前記第一の信号のセッ
トにより表された前記音響の要素を発音する音声を電子
的に合成する段階と；前記第二の信号のセットによって表された前記アニメ化
された対象物の画像の映像出力を生成して前記アニメ化
された対象物の画像を前記合成された音響の要素と同期
させて表示する段階とからなることを特徴とする、前記方法。
【請求項５】互いに同期された音響的特徴及び映像的特
徴を有しランダムにアクセス可能なアニメ化された対象
物を生成して表示する方法であって：各々がスピーチ音と関連する複数の図形記号の少なくと
も一つがそれぞれ記入された複数の第一のアニメ化され
た画像をスクリーン上に表示する段階と；入力信号を受信し、該入力信号に応じて前記第一のアニ
メ化された画像の少なくとも一つを選択する段階と；前記第一のアニメ化された画像の前記選択された一つに
記入された前記記号と関連するスピーチ音を発生する音
声を電子的に生成する段階と；及び顔の造作を有して話をする頭部を含み、前記入力信号に
応じて前記関連するスピーチ音による話をシミュレート
した頭部及び顔の造作の動きを含む身体の動きをアニメ
化したシーケンスである第二のアニメ化された画像を前
記音声と同期させて前記スクリーン上に表示する段階とからなることを特徴とする、前記方法。
【請求項６】入力信号を受信し前記第一のアニメ化され
た画像の少なくとも一つを選択する前記段階が、前記選
択された第一のアニメ化された画像の強調表示を行って
該選択された第一のアニメ化された画像を区別し強調す
る段階を含む、請求項５記載の方法。
【請求項７】前記選択された第一のアニメ化された画像
の強調表示を行う前記段階は、前記音声の生成と同時に
そこに記入された前記記号を強勢することを含む、請求
項６記載の方法。
【請求項８】前記選択された第一のアニメ化された画像
を前記スクリーン上の第一の位置から第二の位置へと移
動する段階と；少なくとも一つの追加の入力信号に応じて少なくとも一
つの追加の第一のアニメ化された画像を選択し、該選択
された追加の第一のアニメ化された画像を前記第二の位
置に隣接する第三の位置へと移動し前記記号の組み合わ
せを形成する段階を含む、請求項５記載の方法。
【請求項９】第一のアニメ化された画像の各々の選択と
同時に、該選択された第一のアニメ化された画像の各々
の強調表示を行う段階と；選択された追加の第一のアニメ化された画像の各々をそ
れが前記第三の位置に移動された場合に前記第二の位置
の前記第一のアニメ化された画像と組み合わせることに
より、前記第二の位置において一つの最初にアニメ化さ
れた画像を形成し、該一つの最初にアニメ化された画像
は選択された第一のアニメ化された画像の各々に記入さ
れた記号を有する段階と；前記一つの最初にアニメ化された画像に記入された記号
の各々のシーケンスにおいて関連する音声を発音する段
階と；及び関連する音声の発音と同時に各々の記号を強勢する段階
とをさらに含む、請求項８記載の方法。
【請求項１０】前記スクリーン上に第二のアニメ化され
た画像を表示する前記段階が、アニメ化された手を含ん
で前記第二のアニメ化された画像を表示して前記第一の
アニメ化された画像の前記選択された一つに記入された
記号に関連するスピーチ音を表す手話の手記号を形成す
ることを含む、請求項５記載の方法。
【請求項１１】アニメ化された正字法の対象物を、該ア
ニメ化された正字法の対象物と関連する互いに同期され
た音響的特徴及び映像的特徴を有する少なくとも一つの
アニメ化されたキャラクタと組み合わせて生成するシス
テムであって：プログラム制御されたマイクロプロセッサと；該マイクロプロセッサに接続され、該マイクロプロセッ
サからのコマンド信号に応じて、音響スクリプトと正音
声スクリプトと合成アクタスクリプトとを提供するため
の音響のエンコード要素及び規則を表す信号を生成す
る、統合手段であって、その信号が前記マイクロプロセ
ッサに提供されて音響スクリプトと正音声スクリプトと
合成アクタスクリプトとが生成される、前記統合手段
と；前記マイクロプロセッサに接続され、前記正音声スクリ
プトに応じて前記アニメ化された正字法の対象物を表す
第一のエンコードモデルを生成する正音声処理手段と；前記マイクロプロセッサに接続され、前記合成アクタス
クリプトに応じて前記アニメ化されたキャラクタを表す
第二のエンコードモデルを生成する合成アクタ処理手段
と；前記マイクロプロセッサに接続され、前記音響スクリプ
トに応じて音響信号を生成する音響処理手段と；前記音響処理手段に接続され、前記音響信号に関連する
音響をその音響信号に応じて生成する音響送出手段と；前記正音声処理手段及び前記合成アクタ処理手段に接続
され、前記アニメ化された正字法の対象物と前記アニメ
化されたキャラクタとを表す前記第一のエンコードモデ
ルと前記第二のエンコードモデルとより視覚画像の表示
を行う表示手段と；前記視覚画像の表示と前記音響の送出とを同期させる同
期手段とからなることを特徴とする、前記システム。