JP2589478B2

JP2589478B2 - 画像合成装置

Info

Publication number: JP2589478B2
Application number: JP61271687A
Authority: JP
Inventors: ウィリアム・ジョン・ウェルシュ; ブライアン・アラン・フェン; ポール・チャレナー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1985-11-14
Filing date: 1986-11-14
Publication date: 1997-03-12
Anticipated expiration: 2012-03-12
Also published as: ES2029230T3; ATE72083T1; DE3683609D1; EP0225729A1; HK128696A; GB8528143D0; GR3004011T3; US4841575A; JPS62120179A; JP2753599B2; EP0225729B1; CA1263187A; JPH08237655A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は動画の伝送および合成に利用する。特に、人
間の顔の画像の符号化および表示に関する。

〔概要〕

本発明は、人間の顔の画像を処理する装置において、動きのある口の部分を他の部分と別に処理し、実質的
に動きのない顔の画像に口の画像を重ね合わせることに
より、伝送時のデータ量を削減し、画像合成を簡単化するも
のである。

〔従来の技術〕

動画を伝送するためには、データ量が多いため高速の
伝送速度が必要となる。このため、一般の電話回線を利
用して動画を伝送することはできなかった。

〔問題点を解決するための手段〕

電話回線を利用する画像伝送では、実質的に顔の部分
だけを伝送する応用が多い。本発明は、これを利用し
て、顔のなかの動きの多い口の部分に着目して顔の動画
を伝送する装置を提供することを目的とする。

さらに、本発明は、簡単な構成で話者の顔を合成する
画像合成装置を提供することを目的とする。

〔問題点を解決するための手段〕

本発明の第一の発明は音声信号の合成と共に画像を合
成する画像合成装置であり、顔の画像を蓄える顔記憶手
段と、この顔の画像の口の領域に挿入する異なる口の形
状のデータを蓄える口記憶手段と、入力情報に応答して
発話すべき音声を決定する音声合成手段と、この入力情
報に対応して口記憶手段の読出し番地を設定する番地設
定手段と、顔記憶手段から読み出した顔の画像と口記憶
手段から読み出した口画像とを重ね合わせる手段とを含
むことを特徴とする。

音声合成手段は、入力情報を処理して音声信号内に口
の形状の変化を示すフラグ符号を挿入する手段を含み、
番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成であることが望ましい。

本発明の第二の発明は入力音声に対応して画像を合成
する画像合成装置であり、顔の画像を蓄える顔記憶手段
と、この顔の画像の口の領域に挿入する異なる口の形状
のデータを蓄える口記憶手段と、入力音声信号の周波数
を分析する分析手段と、この分析手段の出力したスペク
トルパラメータのシーケンスに対応して口記憶手段の読
出し番地を設定する番地設定手段と、顔記憶手段から読
み出した顔の画像と口記憶手段から読み出した口画像と
を重ね合わせる手段とを含むことを特徴とする。

〔作用〕

顔および口の画像をあらかじめ記憶させておき、入力
情報に対応して発話すべき音声を合成するとともに、そ
れに合わせた口画像を顔の画像に重ね合わせる。これに
より、非常に少ない量のデータを入力するだけで、実質
的に動きのある人間の顔および音声を合成することがで
きる。

〔実施例〕第１図は本発明実施例画像伝送装置のブロック構成図
を示す。

送信機１は、撮像装置等の映像信号源から話者の顔の
映像信号を受け取り、音声とともに伝送路２を介して受
信機３に送出する。受信機３は、受信した話者の顔の画
像をCRT表示装置等の画像表示装置に表示する。

この実施例を修正して、伝送路２をビデオ・テープレ
コーダまたは半導体メモリ等に置き換えることにより、
画像を記憶することもできる。

第２図は話者の顔を示し、第３図は話者の口の形状の
例を示す。

送信機１は動きのある話者の顔５を受信機３に送信す
る。通常の発話では、破線で囲まれた領域、すなわち口
の領域６に比べて、顔の大部分の動きは少ない。したが
って、顔５に関する一つの画像と口の形状の変化とを送
信することにより、送信情報量を削減することができ
る。さらに、現実的には、発話中の口の形状の変化を比
較的少ない典型的な形状で表現することができる。した
がって、口の形状の符号表を発生して受信機３に送信し
ておけば、口の形状に関して送信すべき情報は、その口
の形状を識別するための符号語シーケンスだけでよい。

この装置は知識ベース装置と呼ばれる装置の一種であ
り、受信機３では、「学習」の後に話者の顔５と口の形
状との組み合わせを「知る」ことができる。受信機３
は、「学習」段階で、顔の画像をフレームメモリに記憶
し、一連の口の形状の組を「口」メモリに記憶する。フ
レームメモリを連続的に読みだすことにより出力映像信
号が得られる。送信機１からの信号伝送段階では、受信
した符号語に対応する口画像を「口」メモリから読み出
し、これを画像メモリの所定の領域に重ね書きする。

必然的に送信機１の動作は複雑になり、学習段階に、（１）最初のフレームを蓄え、適当な符号化（例えば一
般的な冗長性リダクション技術を用いた符号化）を行っ
て受信機３に送信し、（２）蓄えた画像を分析して、（ａ）話者の頭（頭が移
動しても将来のフレームにおける頭を追跡するため）、
および（ｂ）口、すなわち第２図の領域６で定義した部
分を識別し、領域６の座標（および大きさが固定されて
いない場合にはその大きさ）を受信機３に送信し、（３）連続するフレームを分析して口を追跡することに
より領域６の現在位置を設定し、最初の画像およびすべ
ての以前に選択された画像と比較して、選択された一連
の口画像の組を構築し、この口画像の組を送信機１に記
憶するとともに受信機３に送信するトレーニングシーケンスを必要とする。

伝送段階には、（４）連続するフレームを（上述の（３）のように）分
析して領域６の位置を識別し、（５）現在のフレームの領域６の内容を記憶している一
連の口画像と比較し、最も近いものを識別してこれに対
応する符号語を送信する必要がある。

フレーム速度を25〔フレーム／秒〕と仮定し、「符号
表」に24種の口の形状（５ビット符号）を登録すると仮
定すると、伝送段階で必要なデータ速度は125〔ビット
／秒〕である。

この実施例装置により得られる受信画像は、一般的に
は満足できるものであったが、（ａ）頭が固定されて表示され、（ｂ）目が変化しない（特に、話者がまばたきをしな
い）ために少し不自然さが残った。頭の位置が固定されるこ
とについては、受信機３においてランダムな頭の動きを
導入することにより、または送信機１で頭の位置を追跡
して適当な成分を受信機３に送信することより軽減でき
る。目についても口と同様の原理を用いて送信すること
ができ、この場合には「符号表」がはるかに小さくてす
む。顎および顔の輪郭についても同様である。

以上の実施例における送信機１の処理について説明す
る。以下では、映像信号源からの映像信号が解像度128
×128画素のモノクローム画像であり、頭と肩との画像
であると仮定する。このような画像を処理するうえで、
顔の特徴の認識およびそれらの顔上の位置指定が最初に
問題となる。また、頭の向きの決定、口の形の変化およ
び目の移動の問題がある。ここでは、ナガオ著、「画像
認識およびデータ構造」、グラフィック・ラングエジ、
ネイク・アンド・ローゼンバーグ刊、1972年（M.Nagao,
「Picture Recognition and Data Structure」,Graphic
Languages,ed Nake and Rosenfield,1972）に提案され
た方法を用いる。

ナガオの方法では、エッジ検出により画像の二値表現
を行う。この二値表現された画像をウインドウを下に移
動して分析し、ウインドウの縦の列毎にエッジ画素を加
算する。ウンイドウの出力が一連の数列となり、その最
も大きい数が大きな縦方向のエッジを示す。この方法に
より、頭頂部、頭の側部、目、鼻、口の初期状態の特徴
を識別することができる。

このアルゴリズムを顎の輪郭が決定されるまで続け、
再び顔に戻り、鼻、目、顔の側部の位置をより正確に識
別する。アルゴリズム内には帰還プロセスが設けられ、
エラーを検出したときに調査を繰り返すことができる。
このようにして、連続した速度で顔の各部を識別でき
る。

本実施例では、ナガオのアルゴリズムを利用し、目、
口として識別された特徴の周囲に固定された大きさの長
方形を描く。この詳細について以下に説明する。

第４図は顔の輪郭を識別するためのウインドウを示
す。

同一の解像度で二値画像を得ることのできるしきい値
で元画像のラプラシアン演算を行う。エッジ画素が黒、
他の画素が白として得られる。

これにより得られた二値画像の最上行に、128画素×
８行のウインドウを配置する。各コラムの黒画素を加算
し、この結果を128×32要素の配列（第一の配列）の第
一行として蓄える。単位時間毎に４行ずつウインドウを
下げ、同じ処理を繰り返す。32個所のウインドウ位置で
同じ処理を繰り返し、128×32要素の配列を満たす。

頭の側部の位置を決定するため、画像の上部から上記
配列の行の処理を行う。鉛直方向に強いエッジがある場
合には、配列内に大きな値が記憶されている。

画像の左側から最初の位置のエッジを記録し、同時に
右側についても記録する。これらの点の間の距離（頭の
幅）を測定し、この距離が所定の値以上のとき、目を示
す二つの点を調べる。

第５図は目の動きを調べるための一次元マスクを示
す。

このマスクは、鼻に対応する空隙で分離された目に対
応して、二つのスロット（第５図の斜線部）が設けられ
ている。スロットの幅およびその距離は、測定された頭
の幅に比例した値に選択する。このマスクを頭の領域で
行に沿って移動させる。スロット内に含まれる配列内の
値を加算し、この結果から鼻のスロット内の値を差し引
く。最終的な結果は目の位置を感度よく検出することが
できる。

行方向で最大値があるときには、この最大値をマスク
の位置と共に記録する。次に、マスクを次の行に移動し
て同じ処理を繰り返す。

一連の最大値からその中の最大値を検出する。この最
大値が目の鉛直方向の位置を示すと考える。この最大値
を見つけたときに、マスクの水平位置から顔の中心点を
推定できる。

第６図は口の位置を決定するためのウインドウを示
す。第６図には上記マスクの最大値が得られる位置を合
わせて示す。

二値画像に対して、目の下の位置から画像の下まで続
くような、15画素幅のウインドウを顔の中央部に設定す
る。ウインドウの各行の黒画素を加算し、その値を一次
元配列（第二の配列）に蓄える。

第７図はこの第二の配列の度数分布を示す。この度数
分布には、鼻の下部、口および下唇の下の陰が明確なピ
ークと現れる。これらのピークの分布を用いて口の位置
を決定することができる。

領域６の位置を上で定義したように顔の中心および口
の中心（第７図の第35行）に設定する。この解像度で
は、領域６の大きさは高さ24画素、幅40画素が適当であ
る。

次の段階では、最初のフレームにおいて識別した口の
位置（領域６の位置）と、学習（および送信）段階の位
置とが矛盾しないようにする。すなわち、口を常に領域
６の中心に配置する。連続するフレームの各々に対して
ナガオのアルゴリズムで順番に処理すると、フレームが
変わるときに口の領域の登録に非常多くのエラーが発生
することがわかった。

この問題を解決するには、このアルゴリズムを最初の
フレームだけに適用し、フレーム毎に口を追跡する。こ
れは、第一フレームにおける口の位置をテンプレートと
して用い、連続する各フレームで上述の二値画像と相関
をとる。次のフレームの同じ相対位置で口の位置を調
べ、局部最大値を検出するまで時間当たり１画素ずつマ
スクを移動させる。

この方法を正しい口を用いたシーケンスを得るために
使用し、顔の残りの部分については最初のフレームを複
写する。この処理を行ったシーケンスを実行したとこ
ろ、ジッタが少し生じたが、エラーは約１画素だけであ
り、補助画素を挿入する必要がなく、従来の方法に比べ
て優れている。

第８図および第９図に口の領域の典型的な二値画像を
示す。第８図は開いた状態の口を示し、第９図は閉じた
状態の口を示す。

全シーケンスに生じる可能性のある口の形状のうち典
型的な一連の形状の組だけをルックアップテーブルに蓄
える。このためには、口の形状を認識し、前に生じた形
状と同じか否かを識別する必要がある。この認識の後
に、新しい口の形状をテーブル内に蓄える。

テーブルのデータ量を制限するため、前に発生した口
との差の類似性について、量子化プロセスを基本とする
必要がある。

これを実現する方法について以下に説明するが、ここ
では、二値画像ではなくグレイスケールで処理を実行す
る例を説明する。

最初のフレームから、口画像をルックアップテーブル
の第一の内容として蓄える。トレーニングシーケンス中
の各フレームには、その口画像について、（ａ）各画素の値をテーブル内の内容から差し引くこと
により比較し、口の領域にわたってこれらの差の絶対値
を加算し、（ｂ）和をしきい値と比較し、しきい値を越えていると
きには口画像を新しい内容としてテーブルに入力する処理を行う。

本実施例における差の絶対値の和を求める方法は、動
きに対して非常に敏感であるが、例えば二つの同一な画
像が１画素だけずれた場合には、和の値が非常に小さ
く、二つの画像を同一とみなすことができる。画像全体
に比較して小さい動きに対しては、和の値が小さくなる
ことから無視することができ、小容量のルックアップテ
ーブルでも損失なしに口の形状を蓄えることができる。
このためには、各フレーム毎に、そのフレームの口画像
について、現在の位置、左に１画素移動した位置および
右に１画素移動した位置の三つの位置でそれぞれ符号表
の各内容と比較し、それぞれ最小の和を検出する。この
とき、この最小値をｘ方向（横方向）の移動距離ととも
に記録する。この処理をｘ方向だけでなくｙ方向（上下
方向）についても行うことが望ましいが、移動方向は多
くの場合ｘ方向であることが知られており、ｙ方向につ
いては必ずしも必要はない。

もし、必要なテーブル容量が大きい場合、またはトレ
ーニングシーケンス中に必要な容量がテーブルの大きさ
より実質的に少ない場合には、必要な速度を達成できな
いような過剰な遅延を防止する。

テーブルを構築した後に送信を開始し、上述の（ａ）
の項目で説明したように、連続する口画像をそれぞれ記
憶されているテーブルの内容と比較し、和が最も小さく
なるものを識別するための符号語を送信する。

これを実行するための計算量は大きいが、他の調べ方
により計算量を削減することもできる。最も簡単な方法
しては、ルックアップテーブルに登録されているすべて
の口の形状に対して和が最小となるものを検出するので
はなく、和がしきい値より小さい最初のものを使用す
る。この方法により確かに速くはなるが、テーブルを走
査する順番が固定されている場合には、痙攣的な動きが
多くなり、画像に障害が生じる傾向がある。したがっ
て、この場合にはテーブルの走査順を変化させる必要が
ある。このためには、符号表からの量が多くなり障害を
うける傾向がある。したがって、テーブルを走査する順
番を変化させる必要がある。符号表から口が現れる順番
を記録することが望ましい。例えば、前のフレームにお
いてテーブル内の口「０」を使用したときには、現在の
口のために、口「０」の後に最も頻繁に発生する内容、
例えば口「５」から走査を開始する。現在のフレームと
口「５」との差の絶対値の和がしきい値より小さい場合
には、この口「５」を現在のフレームを表示するために
使用する。しきい値より大きい場合には、符号表の口
「０」の後に口「５」の次に発生する可能性のある口を
調べ、以下同様に繰り返す。最終的に口を選んだとき、
口を選択した記録を現在の情報に更新する。

さらに、記憶されている一連の口の形状よりも和が小
さくなる口画像を記録し、動的な更新プロセスを開始さ
せ、付加的な口画像をテーブルに付け加えるとともに、
画像送信時に受信機に送信することもできる。多くの場
合、「新しい」口を発生したフレームでこの口を使用で
きるほど正確な情報を送信する必要はなく、後になって
同じ形状が発生したときに使用できれば十分である。

設定値を十分に小さくしないと、シーケンス中に新し
い口が次々にルックアップテーブルに記録されるので、
注意が必要である。これは、明らかに意味のある結果を
生成するためには副次的な標本化画像でしかないが、符
号表の大きさを処理するシーケンスの長さに比例させて
増大させる必要がある。

設定値は試行錯誤により得られる。このしきい値を自
動的に選択できる場合、または全体的に分配できる場合
に、この試行錯誤が必要である。フレーム間の差の絶対
値の和は常に測定することが可能であり、ルックアップ
テーブルはマトリクス空間を表現する。ルックアップテ
ーブル内の各々の口が多次元マトリクス空間に存在する
と考えることができ、シーケンス内の各フレームは符号
表の口のひとつの周囲のクラスタに配置される。最適な
一連の口の組をみつけるためには、リンデ・ブゾ・グレ
イ（Lnde-Buzo-Gray）のような種々のアルゴリズムを使
用できる。これらのアルゴリズムは、シーケンス中の一
連のフレームをトレーニングに使用し、エラーを最小に
して最適の組をみつけるために長い検査を行う。このた
めに、最適の組より速くみつけることのできるような、
副次的に最適な「代表的」口の組をみつけることが望ま
しい。これを実行するために、使用する口の数を特定
し、トレーニングシーケンスから必要な数の口を選択す
る。トレーニングと同じアルゴリズムで送信中にルック
アップテーブルを更新することもできるが、テーブル内
の口の総数を一定に保つことが望ましい。

口の選択は基本的に以下の規則により行う。すなわ
ち、現在のフレームとテーブル内の口の一つとの間の最
小差異（ここで「差異」とはマトリクス空間内での差異
である）が、その口とテーブル内の他のすべての口との
間の最小差異より大きい場合に、現在の口をテーブルに
追加する。小さい場合には、その口は、単に、テーブル
内の最も近い口により表現される。画像送信時にテーブ
ル内に新しい口を追加したときには、以下の規則により
テーブルから一つの口を除去する。ルックアップテーブ
ル内の互いに近い二つの口をみつけ、その一方、望まし
くは新しい口に近い方を除去する。

新しい口をテーブルに入力したときに、符号表内の口
はこの新しい口の後に現れたことがなく、これらの口の
順序に関する過去の履歴は存在しない。シーケンスの次
のフレームのときには、ルックアップテーブルを順番に
走査し、新しい内容については最後に調べることにして
もよい。しかし、特に新しい口が作られた後には、同じ
口の形状が集中して発生する傾向があり、この新しい内
容が最も選択される傾向がある。このため、新しい口を
最初に走査するように順番を調節することが望ましい。

上述の送信機１を標準電話リンクを用いた画像電話に
使用することもできる。ただし、学習を行うために受信
機３側では瞬時に画像を得ることはできない。顔の非デ
ィジタル伝送を仮定した場合には、15秒程度の初期遅延
の後に動画の送信が始まり、実時間で表示される。

顔の向きが正面位置と異なりその向きの差異が大きい
場合には、固定された口を重ねてもよい。また、頷きや
首を横に振るような顔の一般的な動きを示すためには、
異なる多数の角度方向の顔を表示可能にする。ランダム
な動きの場合には、一般的な動きになるまで頭を動かさ
ない。

この場合には、顔の異なる向きに関する情報を送信
し、受信機３で蓄える必要がある。すべての異なる顔の
位置に対して完全なデータの組を送信する場合には、過
剰なチャネル数および記憶容量を必要とする。

第10図はこの問題を解決する方法を示す。

前面における顔の外観は、面Ｐへの投影（x₁〜x₅）で
表現される。頭を一方向にわずかに回転させたときに
は、観測者に対して、その外観が面Ｐ′への投影（x₁′
〜x₅′）で表現される。顔への照明が等方的なら、（x₁
〜x₅）の二次元変換が（x₁′〜x₅′）の良好な近似とな
る。

頭の側面では重要な差異が生じ、新しい領域が現れる
かまたは隠れ、鼻の部分でも同様のことが起きる。した
がって、少しの差異の組とともに頭の向きの変化を与え
る符号を送信することにより、頭全体を再構成すること
ができる。それぞれの頭の位置の差を記憶し、将来、同
じ位置であることを認識したときにはそれを用いる。

第11図は二次元変換による擬回転を生成する方法を示
す。

鼻が左から右に変位Ｓだけ移動するような、鉛直軸を
中心とした一方向の回転の効果をシミュレートするため
に、（１）左の点（x₁-x₁′）は移動せず、（２）線（x₂-x₂′）上の点をS/2だけ右に変位させ
（x₁、x₁′、x₂、x₂′の領域を引き伸ばし）、（３）線（x₃-x₃′）上の点をＳだけ右に変位させ
（x₂、x₂′、x₃、x₃′の領域を引き伸ばし）、（４）線（x₄-x₄′）上の点をＳだけ右に変位させ
（x₃、x₃′、x₄、x₄′の領域を右に移動し）、（５）線（x₅-x₅′）上の点をS/2だけ右に変位させ
（x₃、x₃′、x₄、x₄′の領域を縮め）、（６）線（x₆-x₆′）上の右の点は移動しない（x₃、
x₃′、x₄、x₄′の領域を縮める）。

このような二次元画像変換を標準のテレビ会議用装置
で使用することもできる。このような装置では、対象の
人間を認識し、動きのない前景および背景の物体から分
離する。前景および背景については、移動する対象に隠
れるか否かによる異なる階層レベルでメモリに記憶して
おく。爪先のような比較的動きの少ない体の部分は、腕
や頭のように比較的高速に変化する部分とは異なるレベ
ルで記憶する。この装置の動作原理は、種々の区画化さ
れた部分の移動を識別するため、送信終了を必要とし、
これに対応して移動ベクトルを送信する必要がある。こ
れにより受信機は、次のフレームの各部を予想する。予
想値と実際の絵との差を標準動き補償装置に送信する。

この装置は、（１）対象が隠れた場合および再び現れた場合にデータ
を再び送信する必要がなく、（２）爪先などのように比較的変化のない部分に対し
て、置き換えおよび画像面の回転等の少しの画像変換お
よび寸法の変化を用いて非常に良好に予測することがで
き、予想値と実際の値との差は小さく、（３）これより速く動く対象についても予想値と実際の
値との差が大きくはなるが、まだ良好な予測が可能であ
り、（４）場面の重要な特徴については重要でない部分とは
物に取り扱うことができ（例えば速く動く腕より顔に重
点をおく）ことができ、画像の大きな劣化なしに高いデータ圧縮を
実現できる。

次に、音声合成を含む話者の動画の合成について説明
する。二つのタイプの音声合成、すなわち、（ａ）限定語彙合成、（ｂ）異音（allophone）合成を考える。限定語彙合成は、限定された語に対して、完
全な語のディジタル化した表現を記憶し、これらの語を
手動、コンピュータまたは他の入力装置の制御により受
け取って再生する。記憶方法としては、PCMまたはフォ
ルマント・パラメータとして記憶する方法を用いるが、
画像合成には影響しない。異音合成は、発生された音を
表現する符号を供給することによりどのような語でも合
成でき、これらの符号は入力テキスト（音声装置のテキ
スト）から直接に発生させる。

どちらの場合でも顔の合成には二段階の処理を行う。
すなわち、上述したような学習段階と、合成された音声
に対応する口の符号語を発生する合成段階である。最初
に限定語彙合成を利用する場合について説明すると、音
声語彙としては、通常はその言語を母国語としている話
者の発生を記録して用い、同じ話者の顔を使用すること
が便利である。他の顔が必要な場合、または現在の装置
に映像サービスを付加する場合には、発話された語彙を
繰り返し、それに沿って代わりの話者が話してもよい。
どちらの方法でも処理は同一である。学習段階は上述し
たと同様であり、装置は、必要な顔のフレームおよび口
のルックアップテーブルを獲得する。しかし、それぞれ
の語に対応する口位置の符号語のシーケンスを記録する
必要があり、このシーケンスを別のテーブル（口符号テ
ーブル）に記憶する必要がある。この処理は実時間で実
行する必要はなく、それぞれの語に対する口のシーケン
スを最適にすることがてきる。

合成段階では、合成装置に供給された入力符号を、音
声データとして受け取り音声再生装置または合成装置に
送り出すだけでなく、口の符号語を受け取りこれらを音
声に同期して受信機に送る。この受信機は、第１図を参
照して説明したと同様の、動画を再構成する装置であ
る。受信機機能を局部的に実行させ、局部的な表示装置
または標準映像信号を前方に送信するために使用するこ
ともできる。

異音合成の場合にも、実際の顔が必要であり、上述の
学習段階を実行して顔画像および口画像のテーブルを作
り出す。ここで、個々の音素（すなわち語の部分）に口
の位置を関連させる必要があり、音声合成による発生と
同時に、顔の持主が、音声合成装置が生成できるそれぞ
れの音素の少なくとも一例を含む一節を発声する必要が
ある。発生された符号語は、口ルックアップテーブルに
入力される。このルックアップテーブルの各内容が一つ
の音素に対応する。多くの内容は一以上の符号語を含
む。ある場合には、与えられた音素に対応する口の形状
が、前のまたは後の音素に依存して変化し、これも考慮
する必要がある。音声および映像データを受け取ると、
上述した方法と同様にして「語全体」を合成することが
できる。

「合成音声」の実施例において、顔のフレーム口画像
のテーブルおよび口の形状の符号語は、上述した遠隔の
受信機に送信してそこで動画を再生する装置と同様であ
るが、ある状況、例えば映像表示装置が音声合成コンピ
ュータの出力に接続されている場合には、表示装置をロ
ーカルで使用し、受信機をテーブルおよび符号発生装置
として使用することもできる。また、合成画像を局部的
に発生し、一般的な映像信号を遠隔のモニタ装置に送信
することもできる。

同期の問題について説明する。

テキスト音声合成は、（ａ）テキスト入力を音素表現に変換し、（ｂ）音素をより低位の音素表現に変換し、（ｃ）低位の音素をホルマント・パラメータに変換す
る、典型的なパラメータ更新周期は10msである。

段階を含む。

この処理はかなりの遅延を含み、特に、変換が内容に
依存する（例えば特性の文字の音がそれに続く音の影響
を受ける）ので、変換段階に固有の遅延が発生する。し
たがって、合成プロセスは、合成された唇の動きが音声
に同期するように、配列およびタイミングを注意深く考
慮する必要がある。

映像合成に音声合成装置からの入力データとして音声
表現を使用し、その下位レベルの音声合成プロセスが予
想される遅延を含む場合には、映像合成に対応して遅延
を導入することにより、単純にタイミングを合わせるこ
とができる。

音声表現内にフラグを挿入することもできる。これに
より、音素から口の位置を発生するために、ルックアッ
プテーブルを使用するかわりに（または付加して）、元
のテキストに口の形状を設定するためのデータを付加す
ることができる。どちらの方法でも、フラグが正確な瞬
間を示し、低位の音素レベルに落とした音声表現で、口
の形状の変化を保持することができる。音声合成装置
は、低位の音素符号の列を生成し、これをフォルマント
・パラメータに変換し、フォルマント合成装置に送出す
る。符号が列を作るので、その前のテキストを発話して
とき、対応する口の形状の変化と同期して、各フラグを
画像合成装置に送る。

実時間の音声入力に対応して動画を発生する実施例に
ついて説明する。

この場合には、顔を提供する代理話者が必要であり、
口画像テーブルを作るための学習段階をあらかじめ行う
必要がある。口画像テーブルを作り出すことは、入力音
声を分析するために使用する方法に依存する。一例とし
て、周波数を分析してスペクトル・パラメータのシーケ
ンスを生成し、符号テーブルと共にそれに関連するパラ
メータおよび口画像を供給する。

第12図にこのような画像合成装置のブロック構成図を
示す。

母音音素毎に異なる映像を表示する。聴覚的な音素に
関する映像を映像素（viseme）と呼ぶ（バーガー、「ス
ピーチリーディング：プリンシプル・アンド・メソッ
ド」、バルチモア：ナショナル・エジケーショナル・プ
レス、1972年刊第73頁ないし第107頁（K.W.Berger、「S
peechreading:Principles and Methods」、Baltimore:N
ational Educational Press、1972、pp73-107）参
照）。しかし、子音の多くは同じ映像表現となり、子音
映像素の最も一般的には12に分類される。これは、装置
が同じ分類の現象を取り違えても、視覚的なエラーは生
じないことを意味する。母音に比べて子音で発生する音
声エネルギが少ないので、音声認識装置による子音間の
区別はさらに困難である。したがって、このような装置
では、子音映像素に対して、多数のなかの一つの子音音
素の分布が偶然に対応する。

音声を分析するため、全音声域に対応する14ないし15
チャネルのフィルタ群10を用いる。漏洩積算計11を用い
て各チャネルの音声エネルギを積算し、標本化回路12に
より映像フレーム速度（40ms毎）で標本化して出力す
る。トレーニングシーケンスの間に全ての音素を発生
し、フィルタ群10で音声を分析する必要がある。個々の
発生音声は、標本の各組にわたってエネルギのしきい値
を調べることにより識別できる。標本値を一連のメモリ
13に蓄え、この後に未知の音声信号が到来したときに
は、上述の方法と同様にして音素を認識する。フィルタ
群10を使用してこの処理を行い、同じ標本化速度で未知
の音声を分析することができる。対応する要素の差の自
乗を加算することにより、未知の音声標本を各テンプレ
ートと比較する。最も差の小さいものが最も一致したも
のである。したがって、装置は、最も音素が一致したも
のに対応する符号を出力する。無音声を示す特別の符号
も必要である。

トレーニングシーケンスに一連の音素を発生する一方
で、口領域の絵の動作シーケンスを捕らえることが必要
である。各音素の発生を指摘することにより、シーケン
ス中の対応するフレームを特定し、そのフレームの一部
を使用して口の符号表を作成する。動作時には、ルック
アップテーブルを使用して、音声分析装置により生成さ
れた符号から適当な口符号をみつける。無声状態を示す
符号のときには、口の形状をほぼ閉じたものにする。合
成シーケンスでは、映像速度で、顔の上に適当な口を重
ねる。

合成音声の場合と同様に、受信機をローカルまたはリ
モートで動作させることができる。リモートで使用する
場合には、付加的な修正として、送信機に蓄えた口画像
テーブルに、通常に送信機に送信する以上の多数の内容
を記憶させる。これにより、一般的にはまれにしか発生
しないが、ある種の音声ではしばしば発生する口の形
状、例えばある方言でのみ発生する音声に対応する形状
をテーブル内に記憶させておくことができる。このよう
な音声に対するスペクトル・パラメータの認識は、上述
したような動的な更新プロセスを行い、関連する口の形
状を受信機で得ることができるようにする。

第13図は以上の実施例で用いるに適した受信機の一例
のブロック構成図である。

入力信号は復号器101に供給され、この復号器101から
フレームメモリに、学習段階の間に受信した静止画フレ
ームを入力する。この一方で、口メモリ102は、必要な
数（例えば25）の口の形状を記憶する。読出し論理回路
103はフレームメモリ100の内容を繰り返し読み出し、同
期パルスを付加して映像モニタ装置104に供給する。伝
送段階には、受信した符号語を制御部105に供給し、制
御部105は、書込み制御部106を制御し、フレームメモリ
100の適切な領域に口メモリ102の対応する内容を重ね書
きする。明らかに、見ている人が知覚できないように高
速で重ね書きを行う必要がある。更新する領域を小さい
ブロックに分割し、ランダムまたはシーケンシャルでは
ないあらかじめ定めた順番で重ね書きを行うことより、
低速でも見ている人が知覚できないように更新すること
ができる。また、フレームメモリがウインドウを含む構
成の場合には、更新する画像をあらかじめ入力してお
き、適当な移動を作りだすように切り替えることができ
る。場合によっては、ウインドウのxy移動で簡単に処理
することができる。

〔発明の効果〕

以上説明したように、本発明の画像合成装置は、少な
いデータ量で音声と動きのある人間の顔の画像とを合成
することができる。

【図面の簡単な説明】

第１図は本発明実施例画像伝送装置のブロック構成図。第２図は話者の顔を示す図。第３図は話者の口の形状の例を示す図。第４図は顔の輪郭を識別するためのウインドウを示す
図。第５図は目の動きを調べるための一次元マスクを示す
図。第６図は口の位置を決定するためのウインドウを示す
図。第７図は第二の配列の度数分布を示す図。第８図は開いた状態の口の二値画像を示す図。第９図は閉じた状態の口の二値画像を示す図。第10図は顔の回転を補正する方法を示す図。第11図は二次元変換による擬回転を生成する方法を示す
図。第12図は画像合成装置のブロック構成図。第13図は受信機の一例のブロック構成図。１……送信機、２……伝送路、３……受信器、10……フ
ィルタ群、11……漏洩積算計、12……標本化回路、13…
…メモリ、100……フレームメモリ、101……復号器、10
2……口メモリ、103……読出し論理回路、104……映像
モニタ装置、105……制御部、106……書込み制御部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ポール・チャレナー英国アイピー６０アールゼッド・サフォーク・イプスウィッチ・ヘンレイ・フリーマンアベニュー10番地

Claims

(57)【特許請求の範囲】

【請求項１】顔の画像を蓄える顔記憶手段と、この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、入力情報に応答して発話すべき音声を決定する音声合成
手段と、この入力情報に対応して上記口記憶手段の読出し番地を
設定する番地設定手段と、上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段とを含む画像合成装置。
【請求項２】音声合成手段は、入力情報を処理して音声
信号内に口の形状の変化を示すフラグ符号を挿入する手
段を含み、番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成である特許請求の範囲第（１）項に記載の画像合成装置。
【請求項３】顔の画像を蓄える顔記憶手段と、この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、入力音声信号の周波数を分析する分析手段と、この分析手段の出力したスペクトルパラメータのシーケ
ンスに対応して上記口記憶手段の読出し番地を設定する
番地設定手段と、上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段とを含む画像合成装置。