JP4037455B2

JP4037455B2 - 画像合成

Info

Publication number: JP4037455B2
Application number: JP53413797A
Authority: JP
Inventors: ブリーン、アンドリュー・ポール; ボウアーズ、エマ・ジェーン
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-03-26
Filing date: 1997-03-24
Publication date: 2008-01-23
Anticipated expiration: 2017-03-24
Also published as: EP0890168A1; AU2167097A; JP2000507377A; EP0890168B1; WO1997036288A1; CN1214784A; KR20000005183A; DE69715175D1; CA2249016A1; DE69715175T2; CA2249016C

Description

この発明は、例えば合成言語を伴う動く画像の合成に関する。
この発明によると、話された言葉と整合がとれていて、可視アーティキュレーション（articulation）を備えた顔の動画を表わす信号を生成する方法が提供されており、その構成は：
発話の継続している部分に対応する音声学上の表示（発音表記）のシーケンスを受領することと；
第１の類型の各発音表記に対して口の形を識別することと；
第１の類型の発音表記から第２の類型の発音表記への各遷移と、第２の類型の発音表記から第１の類型の発音表記への各遷移と、第２の類型の発音表記から第２の類型の発音表記への各遷移とに対して口の形を識別することと；
識別された形を含んでいる画像フレームのシーケンスを生成することとを含んでいる。
第１と第２の類型はそれぞれ母音と子音であってもよい。したがって、この発明の好ましい実施態様は話されたことばと整合がとれていて可視アーティキュレーションを備えた顔の動画を表わす信号を生成する方法であって、その構成は：
発話の継続するファニーム、即ち音素に対応する初音表記のシーケンスを受領することと；
各母音フォニームに対する口の形を識別することと；
母音フォニームから子音フォニームへの各遷移と、子音フォニームから母音フォニームへの各遷移と、子音フォニームから子音フォニームへの各遷移とに対して口の形を識別することと；
識別された形を含む画像フレームのシーケンスを生成することとを含んでいる。
子音と母音フォニーム間の各遷移に対して口の形を識別することは母音フォニームと子音フォニームとの関数として実行され、また２つの子音間の各遷移に対して口の形を識別することは２つの子音フォニームの第１のものと、それに続くか先方する直近の母音フォニームの関数として実行されてよい。代って、２つの子音間の各遷移に対する口の形の識別は２つの子音フォニームの第１のものとそれを直近で続く母音フォニームか、それがないときには先行する母音フォニームの関数として実行されてよい。
好ましいのは、各遷移に対する識別はこういった遷移と関係して上で特定したフォニームだけの関数として実行されることである。代って、識別は同じ単語内の少くとも１つの他のフォニームの関数として実行することもできる。
好ましいやり方では、各識別された口の形に対して、その形を特定する指令と、中間の指令でその各々が前と後との指令によって特定される形の中間の形を特定する指令を生成してもよいようにする。
この発明の別な特徴では、話された言葉と整合する可視アーティキュレーションをもつ顔の動画を表わす信号を生成するための装置が用意されており、その構成は：
動作時に発話の継続する部分に対応する発音表記のシーケンスを受領し、それに応答して
第１の類型の各発音表記に対して口の形を識別し、また
第１の類型の発音表記から第２の類型の発音表記への各遷移と、第２の類型の発音表記から第１の類型の発音表記への各遷移と、及び第２の類型の発音表記から第２の類型の発音表記への各遷移とに対して口の形を識別するようにされた手段と；
該識別された形を含む画像フレームのシーケンスを生成するための手段とを含んでいる。
この発明の実施態様を、例を用いて、添付の図面を参照して記述して行く。
図１は、実施態様の要素を示す機能ブロック図である。
図２は、ヒトの頭部の画像を合成する際に使われる針金枠‘ワイヤフレーム’の平面図、正面図、及び側面図を示す。
図３は、ヒトの頭部の画像の口の部分を合成する際に使われる‘ワイヤフレーム’の同様な図である。
図４は、‘affluence’（アフルーエンス）と言うときのヒトの頭を表わすために画像のシーケンスを合成するときに最大の母音の口の形が生ずる場所を示す。
図５は、同じ単語‘affluence’で最大の母音から子音（及びその逆）の遷移の口の形が生ずる場所を示す。
図６は、同じ単語‘affluence’のアーティキュレーションで残っている口の形を示す。
図７は、同じ単語‘affluence’のアーティキュレーションで口の形の間の遷移を示す。
図８は、画像合成ユニットのための指令信号に発音信号をほん訳するためのユニットの部品を模式的に示す構成図である。
図９は、実施態様の装置の動作を示す流れ図である。
図１０は、二重母音と破擦音を成分要素フォニームに変換するプロセスを示す流れ図である。
図１１Ａないし１１Ｄは入力フォニームファイルに基いて中間出力ファイルを作るためのプロセスを示す。
図１２は、中間出力ファイルに基づいて最大の口の形の本質とタイミングとを特定するファイルを作るためのプロセスを示す。
図１３Ａと１３Ｂとは最大の口の形と中間の口の形との両方を特定するファイルを作るためのプロセスを示す。
図１の装置は、話されることになる単語を、テキストの形で受領し、対応する言語をオーディオ信号の形で生成し、かつ顔の動画の表示のための対応するビデオ信号を生成し、同じ言語と対応している口のアーティキュレーションをもった顔（例えばヒトの顔であったり漫画であったりする）とするような機能を有している。ここでの記述にあたっては、口のアーティキュレーションとしばしば言うがこのアーティキュレーション（特定の発音をする際に含まれる全体としての発声器官の調節や動きを指す：articulation）は唇、口の内部（ときとして歯と舌とを含めて）、あご、及びその周辺の動きも含んでいると理解されたい。例えば全体としての頭部の動きや回転、眉の動きといった他の動きもまた、結果として得られる画像を一層リアルなものとするために含まれていてよい。
記憶されているテキストファイルもしくは他の所望のファイルからのテキストが、入力１でいずれかの便利な規格表示（例えばＡＳＣ１１コード）に従った文字コードの形態で受領される。これは通常構成の言語合成器によって受領されるが、ここでは二つの別な部品、すなわち、テキストから発音表記への変換器２は通常の綴り字を発音表記、例えばフォニームのリストと各々の継続時間に変えるものとして、また言語合成器だけのもの３はこのリストをオーディオ周波数波形に変えるものとして示されている。いずれのフォニーム組も使用できるが、ここでの記述の目的ではイギリスのＲＰ−ＳＡＭＰＡ組の使用をして、場合には次の表１に記したイギリス英語（British English）の３８の個別フォニームを識別すると仮定している。

音声合成器は通常のものであり、ここではもっと記述することをしない。
フォニームリストはほん訳ユニット４で受領され、それについては以下でもっと詳細に記述する。このユニット４は、フォニームリストから、一連の指令信号を生成し、顔に必要とされる口のアーティキュレーションを特定して、フォニームリストに対応したやり方でそれが動くようにし、それによって合成器３により生成された言語信号と対応する動きとなるようにする。
これらの指令信号は画像合成ユニット５によって受領される。このユニットは単一ビデオフレームもしくは所望の顔の静止画のビットマップ画像をその中に記憶していて、この顔を示す連続したビデオ信号を、動きを伴って生成するように働く。はっきりしていることはこのビデオ信号が希望するどの規格のものでもよく、ここでは毎秒２５フレームをもつシステム１（System 1）信号を仮定している。動きは三次元ワイヤフレームモデルの助けをかりて生成される。典型的なこの種のモデルは図２に示されており、口の部分については図３で拡大して示されている。三次元空間内には多数の点（頂点）があり、またこれら頂点を結ぶ直線がファセット（facet）呼ばれる三角形の領域を定義している。実際の装置では、記憶されたデータの組としてモデルが存在し、言い換えると、各頂点に対して頂点番号とそのｘ，ｙ，ｚ座標とがあり、また各ファセットに対してファセット番号とそのファセットの隅を形成する３つの頂点の番号とがデータとして記憶されている。初期化段階では、ユニット５はこの基準モデルの各ファセットとビットマップ画像の対応する領域との間の写像を判断する。変更されたモデルを繰返し定義することによって動きが作り出され、変更されたモデルでは１又は複数の頂点が基準モデル内で占有していた位置から別な位置に行っていると想定する。ユニット５はそこで新しい二次元のビットマップ画像を生成する必要がある。これをするのは、変更したモデルのいずれかのファセットすなわち基準モデルに対して動いた１又は複数の頂点を識別することにより、このようなファセットの各々に対して、補間プロセスを採用し、このプロセスではもとのビットマップの三角形領域がマッピングによって移動もしくはひずむかあるいは両方をして新しいビットマップ画像内で三角形領域を占有し、このマッピングによって変更したモデルのファセットに対応がとれる。このような新しいビットマップが出力信号の各フレーム（すなわち毎４０ミリ秒）に対して生成される。画像合成ユニット５の動作と実施についてももっと詳しいことについては、W.J.Welsh, S.Searby and J.B.Waite“Model Based Image Coding”, Brit.Telecom.Tech.J.vol8, No.3, July 1990を参照とする。
画像合成ユニット５を駆動するために必要とされる指令は、原理上、４０ミリ秒毎に、基準モデルとは違う位置の各頂点の番号を、その新しい座標と一緒にユニット５に送れることになっている。しかしながら関心のある動作速度では、ユニット５は動作ユニットの記憶された組を含んでおり、その各々はデータエントリィが次の構成のものとなっている：
−動作ユニット番号（例えば０ないし２５５）（１バイト）
−この動作ユニットで影響される頂点の番号
−このような各頂点に対して：
その頂点の番号（２バイト）
基準モデル内のその位置からのｘ座標変位（２バイト）
基準モデル内のその位置からのｙ座標変位（２バイト）
基準モデル内のその位置からのｚ座標変位（２バイト）
（もしその方がよければ、無論前のフレームに対するｘ，ｙ，ｚのシフトが使える）。
そこで各指令は単に動作ユニット番号に、この動作ユニットによって特定される動きの量を変えるためのスケーリング因子（例えば０ないし２５５）を追随させたもので構成されてもよいし；あるいはもし望むのであればいくつかを含んでもよい（試作段階では最大５が可能であった）。ユニット５は指令を受領すると、動作ユニットを一覧対照し、記憶している座標シフト（適切にスケールが作られているものとする）を特定の頂点に対して使用する。もし指令が２つの動作ユニットを含み、その両方が特定の頂点の変位を特定するのであれば、この変位は２つの変位の単なるベクトル和である。
ほん訳ユニット４の動作についてここで見ることとし、visemeという概念を導入することが便利である。話された単語がフォニームと呼ばれる要素単位（elemental unit）で構成されると見ることができるのと全く同じに視覚言語（visual speech）もビゼーム（viseme(s)：phonemeを音から視覚visionに置きかえた用語）で構成されていると見ることができる。すなわち、視覚言語の最小単位であり、目視可能なアーティキュラトリイ（調音）ユニットの最小認識単位である。基本的には、ビゼームは口の形であり、ほん訳ユニットの課題は、どんなビゼームが要求されているかと、それらがいつ発生するかという時刻とを判断して、４０ミリ秒間隔で指令を発生し、さらに、必要とされる間隔で必要とされるビゼームを生成し、間に入るフレームのために適当な中間形状を生成することである。
ほん訳ユニットの動作に重要なのは、フォニームとビゼームとの間に１対１の対応が存在しないという考え方である。まず、なにがしかのフォニームは視覚的に類似し、ときには区別が不能である。たとえば、子音/ｐ/と/ｂ/とは視覚的には同一であり、発生の程度が違うだけで、発生器官のアーティキュレーションは同じである。したがって、フォニームは群形成をすることができ、同じ群のフォニームではビゼーム生成に関する限りは同一と考えられる。いろいろな群形成が可能で、典型的な群形成を以下の表２に示す。

（注：二重母音がないが、処理前に構成要素母音に分割されるためである）
第２に、母音の音と口の形との間の関連性を定義することは可能であるが、子音についてはそうはならず、子音では口の形が近くのフォニームに依存して変り、とくに母音のフォニームの近くで変る。この実施態様では口の形は母音と、子音とフォニームとの組合せとの両方に関連性がある。子音を含む遷移にはかなりの数が存在する。しかし、第１の簡略化が可能であり、子音から子音への遷移が後続の母音（もしくはポーズの前の単語の終りでは先行する母音）による大きな影響を受けていることを観察することによってされ、２つのうちの第２の子音は若干の効果はあるが、全くぼんやりしたものでなく、無視できるものである。この実施態様は各子音から子音の遷移に子音−母音もしくは母音−子音の組合せを関連づけることによりこの利点を採用している。こうして、システムによって処理される必要がある口の形の数を少く保っている。
例を用いてこの実施態様の動作を示すために、もしテキストから発音表記へ変換するユニット２が単語‘affluence’を表わす信号を受けたとすると、このユニットはフォニームリスト/＃：/ /｛/ /ｆ/ /ｌ/ /ｕ/ /＠/ /ｎ/ /ｓ/ /＃：/をほん訳ユニット４に出力することになる。このフォニームリストを受領するとほん訳ユニット４はフォニームリストを処理するように動作して一連の指令信号を出力する。出力指令信号は図４ないし７に示されていて、その各々はまた入力フォニームリストの内容を、すなわちフォニーム自体とその継続期間をサンプルで（この例ではサンプルレートは８ｋＨｚである）示している。
まず、この出力には３つの指令信号でこの単語内の母音に対応するものが含まれている。これらが図４に示されていて、下側の図は母音/｛/，/ｕ/及び/＠/が識別され、各々はその母音に割当てられたビゼームが判断されたことを示すバー（棒）でしるしをつけられていて、母音の中点で生じるようにとられている。
出力はさらに母音−子音と子音−母音遷移と関連する口の形を特定する指令信号を含んでいる。これが図５に示されていて、ここではバーは母音−子音もしくは子音−母音の境界における口の形を示している。これは子音−子音遷移を残している。前に述べたように、この遷移１は主として第１の子音とそれに続く子音とによって特徴づけられるものとして見られている。したがって、/ｆ/から/ｌ/への遷移が図６で表わされていて、子音−母音組合せ、/ｆ/から/ｕ/、に対する口の形となっている。/ｎ/から/ｓ/への遷移は次に続く母音がなく、それ故に使われる口の形は/＠/から/ｓ/の母音−子音組合せに、すなわち先行する母音の使用、に対応したものである。先行と後続の無音（静寂期間/＃：/は無論、閉じた口をもつ（すなわち、基準ワイヤフレームモデルの）顔で表わされる。
図６でバーでしるしをした時刻の瞬間には（あるいはこれらの瞬間の一番近い４０ミリ秒期間では、ほん訳ユニット４は画像合成ユニット５に対して問題となっている口の形に適したスケーリング因子と動作ユニットとを特定する指令を送る。これらの瞬間の間の４０ミリ秒では、２つの口の形の中間の口の形を特定する指令を送る必要がある。例えば、｛ｆとマークを付けた瞬間とｆｕとマークを付けた瞬間との間では２つの動作ユニットを特定する指令を送り、それがそれぞれ母音−子音組合せ、/｛/から/ｆ/へと、子音−母音組合せ、/ｆ/から/ｕ/へ、とに対応しており、縮小したスケーリング因子には無関係であり，それよって２つの形の間で滑らかな遷移が得られるようにする。したがって、２つの瞬間の間の途中の点ｘ％では、組合せ、/｛/から/ｆ/、のための動作ユニットにはスケール因子としてそのスケール因子の（１−ｘ／１００）倍が｛ｆ点で送られ、それと一緒に組合せ/ｆ/から/ｕ/のための動作ユニットにはスケール因子としてそのスケール因子のｘ／１００倍がｆｕ点で送られる。図７はこのプロセスを図式的に示している。中間コマンド信号を作るという目的には無音フォニームと関連の口の形は無音フォニームの中心が到達する前の後続の口の形によっては影響されていないことが分かる。
上記表２の１１の群については７つの子音群があり、また３つの母音群と１つのいわゆる“両方の”群とがあった。この“両方の”群には母音フォニームと子音フォニームとが含まれている。したがって、無音を含む遷移を無視すると、必要とされる母音と、母音−子音及び子音−母音組合せのすべては母音群と、母音群−子音群及び子音群−母音群の組合せで次の表３に示すものによって表わすことができる。

これら６８の母音群と群の組合せの若干のものは同じ口の形に対応している；さらに若干の口の形は他のものと似ており、主としてプロポーションに違いがある。換言すれば同じ動作ユニットにより作ることができるが、違ったスケーリング因子を備えている。（後述するところであるが、）動作ユニットの判断の間に、６８の母音群と群の組合せとは１１の動作ユニットと適当なスケーリング因子で表わされることが見付かった。表４はこれらを記述したもので、動作ユニットについての記述と、スケーリング因子とともに増大する特徴についての記述と、この動作ユニットによって表わすことができる母音群と群の組合せとのリストも添えてある。与えられた母音群と群の組合せに対応するそれぞれの口の形を作るのに使われることになるスケーリング因子も示されている。
当業者であれば、多数の動作ユニットを定義してもよいことが分ると思うが、その場合、母音群と群の組合せとは動作ユニットの間でもっと精細に分けられることになる。

ほん訳ユニット４は適当にプログラムされた処理ユニットという手段で実現され、これが図８ではプロセッサ１０、プログラムメモリ１１、及び多数のメモリでルックアップ表を含むもので構成されている。とくにここには二重母音表１２、フォニーム群表１３、及び動作ユニット表１４を含んでいる。明りょうにするためにこれらが別に示してはあるが、無論、単一のメモリが実際にはプログラムとルックアップ表とを含むことができる。メモリ１１内に記憶されているプログラムの動作を図９ないし１３に示す流れ図を参照してこれから詳細に説明して行く。
図９の流れ図は全体としての装置の動作を簡単に示しており、図１０ないし１３によって表わされるアルゴリズムがそこで発生するようなコンテキストを設定している。このアルゴリズムはプログラムメモリ１１内に記憶されていて、動作ユニットファイル（動作ユニットとスケーリング因子とを含む）を生成するように実行でき、このファイルは画像合成ユニット５に送られることになる指令信号に対する基礎を形成している。したがって、段階１００の初期化に続いて、言語合成器のテキストから発音表記へのユニット２によって受領されたテキストメッセージは段階１０４でフォニームファイルを作る。このファイルの受領がほん訳ユニット４で認識されると（段階１０６、Text-To-Speech）、ほん訳が行なわれ（段階１０８）てフォニームリストが動作ユニットファイルとされる（段階１１０で作られる）。これが画像合成ユニット５へ（段階１１２で）送られる指令信号に対する基礎を形成し、同時にフォニールファイルが合成器３に送られる。もし望めば無音（静寂）の間に（段階１１４）もしくは言語の間に（段階１１６）、追加の動作ユニットがランダムな（もしくは他の）頭部の動きを作るようにすることができる。
段階１０８の動作は図１０に示した流れ図によって示されたプログラム段階を用いて二重母音と破擦音の拡張をすることで始まる。このプログラムはフォニームファイルの各要素を順に読み（段階１２０）、２つの文字によってそのフォニームが表されているかどうかを判断する（段階１２２）。もしそうであれば、このプログラムはプロセッサが要素をその構成要素文字に分けて、それらの文字によって表わされる２つのフォニームで要素を置換える。各々の継続期間は分けられた二重母音又は破擦音フォニームの継続期間の半分に設定される。フォニーム出力のリスト内のフォニームの数を測定する可変の（noofphoneme：フォニームの数を意味する）は１だけ増分される（段階１２６）。そうでなければ、この要素はフォーニムリストに加えられる（段階１２８）。
二重母音表１２の助けを得て/ａＩ/，/ａＵ/，及び/ｅＩ/のような二重母音をフォニーム対/｛/＋/Ｉ/，/｛/＋/Ｕ/，及び/Ｅ/＋/Ｉ/にそれぞれ変換することが例示のプログラム段階で実行可能なことが分ると思う。同様に、このプログラムは破擦音/ｄＺ/と/ｔＳ/とを２つのフォニームに分けるように実行できる。
次に要素毎に図１０に示したプロセスで作られたフォニームリストの検査が続く（図１１Ａ−１１Ｄ）。最初の無音フォニームの後の各要素に対して、フォニームの組合せもしくは母音と関係する時間間隔とが中間の出力フィル内に記録される。したがって、各エントリィはフォニーム組合せもしくは母音で前の口の形の瞬間と現在の口の形の瞬間との間で作られることになるものを時間間隔と一緒に識別する（すなわち、この時間間隔は図６のバーの間の距離に対応している）。以下に別段の記述をするほかは、各エントリィの後にプログラムは判断段階１８０に戻って、フォニームリストの最終要素に到達しているかどうかを判断する。もしそうであれば、フォニームリストの検査は終る。もし到達していなければ、プログラムは現在の要素の分類段階１３０に戻る。
フォニームリストを検査するために、各要素に対してその要素が母音であるか、子音であるか、または無音であるかが判断される（図１１Ａ−段階１３０）。
現在の要素分類段階１３０で母音が見付かるとすると、図１１Ｂに示した段階が実行される。先ず、フォニームリストの中で前のフォニームが無音か、子音か、母音かを見付ける（段階１４０）。前のフォニームが無音フォニームであると、そのときは母音の口の形の前の時間間隔が母音継続期間の半分と無音継続期間の半分との和に設定される（段階１４１）。無音から母音への遷移がそこで計算された時間間隔と一緒に中間出力ファイルに入れられる（段階１４２）。もし前のフォニームが母音フォニームであると、そのときは母音の口の形の間の時間間隔は現在の母音の継続期間の半分と前の母音の継続期間の半分との和に設定される（段階１４３）。再び、母音自体（例えば/＠/）と関連する時間間隔がそこで中間出力ファイルに入れられる（段階１４４）。もし前のフォニームが子音フォニームであると、そのときは前のフォニームの前のフォニームが無音かどうかが判断される（段階１４５）。そのときは、前の口の形からの時間間隔が現在の母音の継続時間の半分に設定され（段階１４６）、その母音が計算された時間間隔と一緒に中間出力ファイルに入れられる（段階１４７）。もしそうでなければそのときは、前の口の形からの時間間隔は子音の継続時間に設定され（段階１４８）、子音から母音への組合せ（例えば/ｌ/から/ｕ/）と関連の時間間隔とが中間出力ファイルに入れられる（段階１４９）。この点で、プログラムは判断段階１８０に戻らずに、遷移ファイル内に別のエントリィが行なわれるようにされ（段階１４６，１４７）、このエントリィには現在の母音と母音自体（例えば/ｕ/）の継続時間の半分に等しい時間間隔を含んでいる。
図１１Ｂの段階のもつ１つの効果は現在の母音に対応する口の形が母音フォニームの中央と一致することを確かにすることである。
現在のフォニーム分類段階（１３０）で無音が見付かるときは、図１１Ｃの段階が実行される。先ず、フォニームリスト内の前のフォニームが無音か、子音か母音かが見付けられる（段階１５０）。もし前のフォニームが無音であると、そのときは誤りが表示される（段階１５１）。もし無音の前に母音があれば、そのときは前の口の形からの時間間隔が母音の継続期間の半分と無音の継続期間の半分との和に設定され（段階１５２）、母音から無音への遷移が中間出力ファイル内に時間間隔と一緒に記録される（段階１５３）。もし前のフォニームが子音であれば、そのときは最後の口の形からの時間間隔が子音の継続期間と現在の無音の継続期間の半分とに設定される（段階１５４）。この場合、母音−子音組合せから母音への遷移（例えば/＠ｓ/から/＃：１/）と関連の時間間隔とが中間出力ファイルに入力される（段階１５５）。
もし段階１３０で子音が見付かると、図１１Ｄに示した段階が実行される。まず前のフォニームが母音、無音、もしくは子音として分類される（段階１６０）。もし母音であれば、そのときは時間間隔が母音の継続時間の半分に設定され（段階１６１）、母音−子音の組合せ（例えば/｛/から/ｆ/）は時間間隔と一緒に中間出力ファイル内に記録される（段階１６２）。前のフォニームが子音であれば、そのときはプログラムが母音フォニームについてフォニームリストの前方探査を行なう（段階１６３）。もし子音−母音組合せ（前の子音と後の母音の組合せ）（例えば/ｔ/から/ｕ/へ）と関連の時間間隔（前の子音の継続期間に等しい）が中間出力ファイル内に入れられる（段階１６４，１６５）。前方探査で母音が見付からなければ（段階１６３）、そのときはプログラムはプロセッサに母音の後方探査をさせる（段階１６６）。もしこの探査が成功すれば、そのときは母音−子音組合せ（初期の母音と現在の子音のもので、例えば/＠/から/ｓ/へ）が関連する時間間隔（前の子音の継続期間に等しい）と一緒に記録される（段階１６７，１６８）。もし、前方探査も後方探査もともに母音を見付けないと、誤り表示が生ずる（段階１６９）。現在の子音に直近の先行フォニームが無音であるとして見付かると、そのときは母音に対する前方探査が行なわれる（段階１７０）；もし母音が見付かると、現在の子音と先行する無音の継続期間の半分との和に等しい時間間隔が無音から子音−母音組合せへの遷移と一緒に中間出力ファイル内に記録される（段階１７１，１７２）。もし母音が何も単語内で見付からないときは誤りが表示される（段階１７３）。
図１２では、母音とフォニームの組合せで中間出力ファイル内にあるものがルックアップ表１３にアクセスして母音群とフォニーム群の組合せに変換される。原理的にはこの内容は上述の表２内に設定されたようなものであり、したがって、各母音もしくはフォニームの組合せが群番号に変る。しかし、各群を群番号で表わすのではなく、その群の１つの指定されたフォニームによって表わすのがもっと便利であることが見付かっている。例えば、フォニーム/ｐ/，/ｂ/，及び/ｍ/は全部が/ｐ/に変えられる。これをするためには、プロセッサは図１２に示したプログラムによって制御される。中間出力ファイル内の各要素に対して、要素の類型が次の１つであると判断がされる（段階１９０）：母音（段階１９２が実行される）；母音／子音組合せ（段階１９４が実行される）；母音／無音遷移（段階１９６が実行される）；あるいは組合せから無音への遷移（段階１９８が実行される）。段階（１９２，１９４，１９６，１９８）は各構成要素母音もしくは子音を、群を表わすために選ばれた母音または子音に変換することができる。このプロセスは群／群組合せリストに戻るが、今では上述のように、最大６８の異なる母音群と子音群の組合せを含んでいる。
図１３Ａと１３Ｂでは、結果として得られる群リストが動作ユニットルックアップ表１４を用いて動作ユニットファイルに変換され、群／群組合せリスト内の各要素を表わす動作ユニットを見付けるようにする。（ルックアップ表１４の内容は上記表３のコラム３，１及び４内に設定されているものであるか、あるいはもし好ましい選択肢であれば、コラム３内の代表的なフォニームを伴うものとする。）この動作ユニットファイルはそこで４０ミリ秒間隔で生成される指令信号のシーケンスを発生するために使用される。
もっと詳しく述べると、変換プロセスは群リストから第１の要素をフェッチすることで始まり（段階２００）、その後動作ユニットルックアップ表はその要素に関連する動作ユニットとスケーリング因子とを決める（段階２０１）。次に第１の要素に関連する時間間隔内で完全な４０ミリ秒期間の数を計算する（段階２０２）。初期動作ユニットのスケーリング因子が次に期間の数で除算されて増分値を与えるようにする（段階２０３）。このプロセスは次に命令のループ（段階２０４）に入り、各４０ミリ秒期間に対する指令信号を作る。指令信号内のスケーリング因子は命令のループが実行される度毎に（ゼロから）計算された増分だけ増加される。
群リスト内の次の要素がそこでフェッチされ（図１３Ｂの段階２０５）、対応する動作ユニットとスケーリング因子とが動作ユニットルックアップ表１４を用いて見付けられる（段階２０６）。段階２０２のように、群リストの要素に関連する時間間隔内の４０ミリ秒期間全体の数が見付けられる（段階２０７）。前のように、現在の要素に関連する動作ユニットのスケーリング因子が計算された期間の数で除算されて増分値が求められる（段階２０８）。群リスト内の前の要素のスケーリング因子が同じ数で除算されて減分値が求められる（段階２０９）。このプロセスは次に命令のループに入って、出力すべき指令信号を計算する。これには前の要素との関係で作られた動作ユニットと群リスト内の現在の要素に関連する動作ユニットとの重みづけした組合せを含んでいる。前の動作ユニットに与えられる重みづけは各４０ミリ秒期間に対する減分値だけスケーリング因子を減分することにより減らされ、現在の動作ユニットに与えられる重みづけは各４０ミリ秒期間に対する増分値だけ（ゼロから）スケーリング因子を増すことにより増加される。このようにして、指令信号出力は１つの口の形から次へと段階的な遷移して行く。
同じような動作（段階２０６ないし２１０）が群リスト内の後続の各要素に適用され、最終要素に到達するまで進む。
指令信号が動作ユニットファイルに基づいて生成されて、４０ミリ秒間隔で画像合成ユニット５に送られて、頭部の画像を生成できるようにし、頭部にはテキストから言語への合成器の出力に対応しているアーティキュレーションを備えるようにする。
これまでの議論から、ビゼームあるいはある母音に対して選ばれた口の形は、その母音に先んじて選ばれたものであること、母音−子音（もしくはその逆）の組合せに選ばれた口の形はその組合せに対して先行して割当てられたものであること、また子音−子音遷移のために選ばれた口の形は同じ文脈（コンテキスト）内の子音の第１のものに先行して割当てられたものであること−言い換えると、この例では同じ次に来る母音（あるいはデフォルトであるか、先行している母音）をもつものであることが気付くと思う。もし望むのであれば、必要とされる動作ユニットの数を増すという負担を伴うけれども、口の形の選定はもっと文脈に依存するようにしてもよい。例えば、子音−母音遷移に対する口の形を選ぶのに、子音とその次の母音とだけ依存するのではなく、前の母音にも依存するように（すなわち母音−子音−母音の組合せに依存するように）選択してもよいことになろう。子音−子音遷移に対する選択は第１の子音と後続及び先行の両母音（もしあれば）に依存するようにできるし、または実際に２つの子音と２つの母音に依存するようにできる。
これまでには、動作ユニットが画像合成ユニット５内でどのように生成されるかについて余り触れるところがなかった。試作品ではこれが達成されており、必要とされる６８の母音群と母音群／子音群組合せの全部を含んだ人間の話した単語をビデオ記録し、かつフレームグラバ（獲得手段）を用いてこの記録の静止画フレームを表示して、これらのフレームで母音に対応するものと、子音／母音組合せに対応するものとを人手によって識別できるようにした。一度これらのフレームが（ビットマップ形式で）識別されてしまうと、次はこれらのフレームを表わす基準ワイヤフレームモデルからの変位を判断する必要があった。これは一致プログラムを用いて行われ、このプログラムはワイヤフレームモデルを与えられたビットマップ画像に一致させるのに必要な変形を計算するものである。

Claims

話された言葉と整合がとれた可視アーティキュレーションを持つ顔の動画を表わす信号を生成する装置であって、
発話の連続している音素に対応する発音表記のシーケンスを受け取る手段と、
動作中音素遷移と予め定義した口の形との間の写像を含んでいるルックアップ表を記憶するように配置されたメモリ手段と、
動作中、
（i）各母音音素についてルックアップ表から口の形を検索し、
（ii）母音音素から子音音素への各遷移についてルックアップ表から口の形を検索し、
（iii）子音音素から母音音素への各遷移についてルックアップ表から口の形を検索し、
（iv）子音音素から子音音素への各遷移についてルックアップ表から口の形を検索し、そして識別された形を含む画像フレームのシーケンスを生成し、
（v）検索された口の形を示す検索された口形信号を生成し、
（vi）検索された口形信号間の補間手順によって、中間の識別された口の形である口形を示す補間された口形信号を生成するように配置されたプロセッサ手段とを含む装置。
子音音素から子音音素への各遷移が、子音-母音の組合せまたは母音-子音の組合せに関連するように、ルックアップ表が関連を含む請求項１記載の装置。
補間手順が直線補間手順である請求項１または２記載の装置。
ルックアップ表が複数の異なる音素の組合せと共通の口の形との間の写像を含んでいる請求項１乃至３のいずれか１項記載の装置。