JP2589478B2 - 画像合成装置 - Google Patents
画像合成装置Info
- Publication number
- JP2589478B2 JP2589478B2 JP61271687A JP27168786A JP2589478B2 JP 2589478 B2 JP2589478 B2 JP 2589478B2 JP 61271687 A JP61271687 A JP 61271687A JP 27168786 A JP27168786 A JP 27168786A JP 2589478 B2 JP2589478 B2 JP 2589478B2
- Authority
- JP
- Japan
- Prior art keywords
- mouth
- image
- face
- storage means
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 22
- 238000003786 synthesis reaction Methods 0.000 title claims description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 29
- 210000003128 head Anatomy 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 15
- 230000033001 locomotion Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000004424 eye movement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 210000003371 toe Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002920 convulsive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Collating Specific Patterns (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は動画の伝送および合成に利用する。特に、人
間の顔の画像の符号化および表示に関する。
間の顔の画像の符号化および表示に関する。
本発明は、人間の顔の画像を処理する装置において、 動きのある口の部分を他の部分と別に処理し、実質的
に動きのない顔の画像に口の画像を重ね合わせることに
より、 伝送時のデータ量を削減し、画像合成を簡単化するも
のである。
に動きのない顔の画像に口の画像を重ね合わせることに
より、 伝送時のデータ量を削減し、画像合成を簡単化するも
のである。
動画を伝送するためには、データ量が多いため高速の
伝送速度が必要となる。このため、一般の電話回線を利
用して動画を伝送することはできなかった。
伝送速度が必要となる。このため、一般の電話回線を利
用して動画を伝送することはできなかった。
電話回線を利用する画像伝送では、実質的に顔の部分
だけを伝送する応用が多い。本発明は、これを利用し
て、顔のなかの動きの多い口の部分に着目して顔の動画
を伝送する装置を提供することを目的とする。
だけを伝送する応用が多い。本発明は、これを利用し
て、顔のなかの動きの多い口の部分に着目して顔の動画
を伝送する装置を提供することを目的とする。
さらに、本発明は、簡単な構成で話者の顔を合成する
画像合成装置を提供することを目的とする。
画像合成装置を提供することを目的とする。
本発明の第一の発明は音声信号の合成と共に画像を合
成する画像合成装置であり、顔の画像を蓄える顔記憶手
段と、この顔の画像の口の領域に挿入する異なる口の形
状のデータを蓄える口記憶手段と、入力情報に応答して
発話すべき音声を決定する音声合成手段と、この入力情
報に対応して口記憶手段の読出し番地を設定する番地設
定手段と、顔記憶手段から読み出した顔の画像と口記憶
手段から読み出した口画像とを重ね合わせる手段とを含
むことを特徴とする。
成する画像合成装置であり、顔の画像を蓄える顔記憶手
段と、この顔の画像の口の領域に挿入する異なる口の形
状のデータを蓄える口記憶手段と、入力情報に応答して
発話すべき音声を決定する音声合成手段と、この入力情
報に対応して口記憶手段の読出し番地を設定する番地設
定手段と、顔記憶手段から読み出した顔の画像と口記憶
手段から読み出した口画像とを重ね合わせる手段とを含
むことを特徴とする。
音声合成手段は、入力情報を処理して音声信号内に口
の形状の変化を示すフラグ符号を挿入する手段を含み、
番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成であることが望ましい。
の形状の変化を示すフラグ符号を挿入する手段を含み、
番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成であることが望ましい。
本発明の第二の発明は入力音声に対応して画像を合成
する画像合成装置であり、顔の画像を蓄える顔記憶手段
と、この顔の画像の口の領域に挿入する異なる口の形状
のデータを蓄える口記憶手段と、入力音声信号の周波数
を分析する分析手段と、この分析手段の出力したスペク
トルパラメータのシーケンスに対応して口記憶手段の読
出し番地を設定する番地設定手段と、顔記憶手段から読
み出した顔の画像と口記憶手段から読み出した口画像と
を重ね合わせる手段とを含むことを特徴とする。
する画像合成装置であり、顔の画像を蓄える顔記憶手段
と、この顔の画像の口の領域に挿入する異なる口の形状
のデータを蓄える口記憶手段と、入力音声信号の周波数
を分析する分析手段と、この分析手段の出力したスペク
トルパラメータのシーケンスに対応して口記憶手段の読
出し番地を設定する番地設定手段と、顔記憶手段から読
み出した顔の画像と口記憶手段から読み出した口画像と
を重ね合わせる手段とを含むことを特徴とする。
顔および口の画像をあらかじめ記憶させておき、入力
情報に対応して発話すべき音声を合成するとともに、そ
れに合わせた口画像を顔の画像に重ね合わせる。これに
より、非常に少ない量のデータを入力するだけで、実質
的に動きのある人間の顔および音声を合成することがで
きる。
情報に対応して発話すべき音声を合成するとともに、そ
れに合わせた口画像を顔の画像に重ね合わせる。これに
より、非常に少ない量のデータを入力するだけで、実質
的に動きのある人間の顔および音声を合成することがで
きる。
〔実施例〕 第1図は本発明実施例画像伝送装置のブロック構成図
を示す。
を示す。
送信機1は、撮像装置等の映像信号源から話者の顔の
映像信号を受け取り、音声とともに伝送路2を介して受
信機3に送出する。受信機3は、受信した話者の顔の画
像をCRT表示装置等の画像表示装置に表示する。
映像信号を受け取り、音声とともに伝送路2を介して受
信機3に送出する。受信機3は、受信した話者の顔の画
像をCRT表示装置等の画像表示装置に表示する。
この実施例を修正して、伝送路2をビデオ・テープレ
コーダまたは半導体メモリ等に置き換えることにより、
画像を記憶することもできる。
コーダまたは半導体メモリ等に置き換えることにより、
画像を記憶することもできる。
第2図は話者の顔を示し、第3図は話者の口の形状の
例を示す。
例を示す。
送信機1は動きのある話者の顔5を受信機3に送信す
る。通常の発話では、破線で囲まれた領域、すなわち口
の領域6に比べて、顔の大部分の動きは少ない。したが
って、顔5に関する一つの画像と口の形状の変化とを送
信することにより、送信情報量を削減することができ
る。さらに、現実的には、発話中の口の形状の変化を比
較的少ない典型的な形状で表現することができる。した
がって、口の形状の符号表を発生して受信機3に送信し
ておけば、口の形状に関して送信すべき情報は、その口
の形状を識別するための符号語シーケンスだけでよい。
る。通常の発話では、破線で囲まれた領域、すなわち口
の領域6に比べて、顔の大部分の動きは少ない。したが
って、顔5に関する一つの画像と口の形状の変化とを送
信することにより、送信情報量を削減することができ
る。さらに、現実的には、発話中の口の形状の変化を比
較的少ない典型的な形状で表現することができる。した
がって、口の形状の符号表を発生して受信機3に送信し
ておけば、口の形状に関して送信すべき情報は、その口
の形状を識別するための符号語シーケンスだけでよい。
この装置は知識ベース装置と呼ばれる装置の一種であ
り、受信機3では、「学習」の後に話者の顔5と口の形
状との組み合わせを「知る」ことができる。受信機3
は、「学習」段階で、顔の画像をフレームメモリに記憶
し、一連の口の形状の組を「口」メモリに記憶する。フ
レームメモリを連続的に読みだすことにより出力映像信
号が得られる。送信機1からの信号伝送段階では、受信
した符号語に対応する口画像を「口」メモリから読み出
し、これを画像メモリの所定の領域に重ね書きする。
り、受信機3では、「学習」の後に話者の顔5と口の形
状との組み合わせを「知る」ことができる。受信機3
は、「学習」段階で、顔の画像をフレームメモリに記憶
し、一連の口の形状の組を「口」メモリに記憶する。フ
レームメモリを連続的に読みだすことにより出力映像信
号が得られる。送信機1からの信号伝送段階では、受信
した符号語に対応する口画像を「口」メモリから読み出
し、これを画像メモリの所定の領域に重ね書きする。
必然的に送信機1の動作は複雑になり、学習段階に、 (1)最初のフレームを蓄え、適当な符号化(例えば一
般的な冗長性リダクション技術を用いた符号化)を行っ
て受信機3に送信し、 (2)蓄えた画像を分析して、(a)話者の頭(頭が移
動しても将来のフレームにおける頭を追跡するため)、
および(b)口、すなわち第2図の領域6で定義した部
分を識別し、領域6の座標(および大きさが固定されて
いない場合にはその大きさ)を受信機3に送信し、 (3)連続するフレームを分析して口を追跡することに
より領域6の現在位置を設定し、最初の画像およびすべ
ての以前に選択された画像と比較して、選択された一連
の口画像の組を構築し、この口画像の組を送信機1に記
憶するとともに受信機3に送信する トレーニングシーケンスを必要とする。
般的な冗長性リダクション技術を用いた符号化)を行っ
て受信機3に送信し、 (2)蓄えた画像を分析して、(a)話者の頭(頭が移
動しても将来のフレームにおける頭を追跡するため)、
および(b)口、すなわち第2図の領域6で定義した部
分を識別し、領域6の座標(および大きさが固定されて
いない場合にはその大きさ)を受信機3に送信し、 (3)連続するフレームを分析して口を追跡することに
より領域6の現在位置を設定し、最初の画像およびすべ
ての以前に選択された画像と比較して、選択された一連
の口画像の組を構築し、この口画像の組を送信機1に記
憶するとともに受信機3に送信する トレーニングシーケンスを必要とする。
伝送段階には、 (4)連続するフレームを(上述の(3)のように)分
析して領域6の位置を識別し、 (5)現在のフレームの領域6の内容を記憶している一
連の口画像と比較し、最も近いものを識別してこれに対
応する符号語を送信する必要がある。
析して領域6の位置を識別し、 (5)現在のフレームの領域6の内容を記憶している一
連の口画像と比較し、最も近いものを識別してこれに対
応する符号語を送信する必要がある。
フレーム速度を25〔フレーム/秒〕と仮定し、「符号
表」に24種の口の形状(5ビット符号)を登録すると仮
定すると、伝送段階で必要なデータ速度は125〔ビット
/秒〕である。
表」に24種の口の形状(5ビット符号)を登録すると仮
定すると、伝送段階で必要なデータ速度は125〔ビット
/秒〕である。
この実施例装置により得られる受信画像は、一般的に
は満足できるものであったが、 (a)頭が固定されて表示され、 (b)目が変化しない(特に、話者がまばたきをしな
い) ために少し不自然さが残った。頭の位置が固定されるこ
とについては、受信機3においてランダムな頭の動きを
導入することにより、または送信機1で頭の位置を追跡
して適当な成分を受信機3に送信することより軽減でき
る。目についても口と同様の原理を用いて送信すること
ができ、この場合には「符号表」がはるかに小さくてす
む。顎および顔の輪郭についても同様である。
は満足できるものであったが、 (a)頭が固定されて表示され、 (b)目が変化しない(特に、話者がまばたきをしな
い) ために少し不自然さが残った。頭の位置が固定されるこ
とについては、受信機3においてランダムな頭の動きを
導入することにより、または送信機1で頭の位置を追跡
して適当な成分を受信機3に送信することより軽減でき
る。目についても口と同様の原理を用いて送信すること
ができ、この場合には「符号表」がはるかに小さくてす
む。顎および顔の輪郭についても同様である。
以上の実施例における送信機1の処理について説明す
る。以下では、映像信号源からの映像信号が解像度128
×128画素のモノクローム画像であり、頭と肩との画像
であると仮定する。このような画像を処理するうえで、
顔の特徴の認識およびそれらの顔上の位置指定が最初に
問題となる。また、頭の向きの決定、口の形の変化およ
び目の移動の問題がある。ここでは、ナガオ著、「画像
認識およびデータ構造」、グラフィック・ラングエジ、
ネイク・アンド・ローゼンバーグ刊、1972年(M.Nagao,
「Picture Recognition and Data Structure」,Graphic
Languages,ed Nake and Rosenfield,1972)に提案され
た方法を用いる。
る。以下では、映像信号源からの映像信号が解像度128
×128画素のモノクローム画像であり、頭と肩との画像
であると仮定する。このような画像を処理するうえで、
顔の特徴の認識およびそれらの顔上の位置指定が最初に
問題となる。また、頭の向きの決定、口の形の変化およ
び目の移動の問題がある。ここでは、ナガオ著、「画像
認識およびデータ構造」、グラフィック・ラングエジ、
ネイク・アンド・ローゼンバーグ刊、1972年(M.Nagao,
「Picture Recognition and Data Structure」,Graphic
Languages,ed Nake and Rosenfield,1972)に提案され
た方法を用いる。
ナガオの方法では、エッジ検出により画像の二値表現
を行う。この二値表現された画像をウインドウを下に移
動して分析し、ウインドウの縦の列毎にエッジ画素を加
算する。ウンイドウの出力が一連の数列となり、その最
も大きい数が大きな縦方向のエッジを示す。この方法に
より、頭頂部、頭の側部、目、鼻、口の初期状態の特徴
を識別することができる。
を行う。この二値表現された画像をウインドウを下に移
動して分析し、ウインドウの縦の列毎にエッジ画素を加
算する。ウンイドウの出力が一連の数列となり、その最
も大きい数が大きな縦方向のエッジを示す。この方法に
より、頭頂部、頭の側部、目、鼻、口の初期状態の特徴
を識別することができる。
このアルゴリズムを顎の輪郭が決定されるまで続け、
再び顔に戻り、鼻、目、顔の側部の位置をより正確に識
別する。アルゴリズム内には帰還プロセスが設けられ、
エラーを検出したときに調査を繰り返すことができる。
このようにして、連続した速度で顔の各部を識別でき
る。
再び顔に戻り、鼻、目、顔の側部の位置をより正確に識
別する。アルゴリズム内には帰還プロセスが設けられ、
エラーを検出したときに調査を繰り返すことができる。
このようにして、連続した速度で顔の各部を識別でき
る。
本実施例では、ナガオのアルゴリズムを利用し、目、
口として識別された特徴の周囲に固定された大きさの長
方形を描く。この詳細について以下に説明する。
口として識別された特徴の周囲に固定された大きさの長
方形を描く。この詳細について以下に説明する。
第4図は顔の輪郭を識別するためのウインドウを示
す。
す。
同一の解像度で二値画像を得ることのできるしきい値
で元画像のラプラシアン演算を行う。エッジ画素が黒、
他の画素が白として得られる。
で元画像のラプラシアン演算を行う。エッジ画素が黒、
他の画素が白として得られる。
これにより得られた二値画像の最上行に、128画素×
8行のウインドウを配置する。各コラムの黒画素を加算
し、この結果を128×32要素の配列(第一の配列)の第
一行として蓄える。単位時間毎に4行ずつウインドウを
下げ、同じ処理を繰り返す。32個所のウインドウ位置で
同じ処理を繰り返し、128×32要素の配列を満たす。
8行のウインドウを配置する。各コラムの黒画素を加算
し、この結果を128×32要素の配列(第一の配列)の第
一行として蓄える。単位時間毎に4行ずつウインドウを
下げ、同じ処理を繰り返す。32個所のウインドウ位置で
同じ処理を繰り返し、128×32要素の配列を満たす。
頭の側部の位置を決定するため、画像の上部から上記
配列の行の処理を行う。鉛直方向に強いエッジがある場
合には、配列内に大きな値が記憶されている。
配列の行の処理を行う。鉛直方向に強いエッジがある場
合には、配列内に大きな値が記憶されている。
画像の左側から最初の位置のエッジを記録し、同時に
右側についても記録する。これらの点の間の距離(頭の
幅)を測定し、この距離が所定の値以上のとき、目を示
す二つの点を調べる。
右側についても記録する。これらの点の間の距離(頭の
幅)を測定し、この距離が所定の値以上のとき、目を示
す二つの点を調べる。
第5図は目の動きを調べるための一次元マスクを示
す。
す。
このマスクは、鼻に対応する空隙で分離された目に対
応して、二つのスロット(第5図の斜線部)が設けられ
ている。スロットの幅およびその距離は、測定された頭
の幅に比例した値に選択する。このマスクを頭の領域で
行に沿って移動させる。スロット内に含まれる配列内の
値を加算し、この結果から鼻のスロット内の値を差し引
く。最終的な結果は目の位置を感度よく検出することが
できる。
応して、二つのスロット(第5図の斜線部)が設けられ
ている。スロットの幅およびその距離は、測定された頭
の幅に比例した値に選択する。このマスクを頭の領域で
行に沿って移動させる。スロット内に含まれる配列内の
値を加算し、この結果から鼻のスロット内の値を差し引
く。最終的な結果は目の位置を感度よく検出することが
できる。
行方向で最大値があるときには、この最大値をマスク
の位置と共に記録する。次に、マスクを次の行に移動し
て同じ処理を繰り返す。
の位置と共に記録する。次に、マスクを次の行に移動し
て同じ処理を繰り返す。
一連の最大値からその中の最大値を検出する。この最
大値が目の鉛直方向の位置を示すと考える。この最大値
を見つけたときに、マスクの水平位置から顔の中心点を
推定できる。
大値が目の鉛直方向の位置を示すと考える。この最大値
を見つけたときに、マスクの水平位置から顔の中心点を
推定できる。
第6図は口の位置を決定するためのウインドウを示
す。第6図には上記マスクの最大値が得られる位置を合
わせて示す。
す。第6図には上記マスクの最大値が得られる位置を合
わせて示す。
二値画像に対して、目の下の位置から画像の下まで続
くような、15画素幅のウインドウを顔の中央部に設定す
る。ウインドウの各行の黒画素を加算し、その値を一次
元配列(第二の配列)に蓄える。
くような、15画素幅のウインドウを顔の中央部に設定す
る。ウインドウの各行の黒画素を加算し、その値を一次
元配列(第二の配列)に蓄える。
第7図はこの第二の配列の度数分布を示す。この度数
分布には、鼻の下部、口および下唇の下の陰が明確なピ
ークと現れる。これらのピークの分布を用いて口の位置
を決定することができる。
分布には、鼻の下部、口および下唇の下の陰が明確なピ
ークと現れる。これらのピークの分布を用いて口の位置
を決定することができる。
領域6の位置を上で定義したように顔の中心および口
の中心(第7図の第35行)に設定する。この解像度で
は、領域6の大きさは高さ24画素、幅40画素が適当であ
る。
の中心(第7図の第35行)に設定する。この解像度で
は、領域6の大きさは高さ24画素、幅40画素が適当であ
る。
次の段階では、最初のフレームにおいて識別した口の
位置(領域6の位置)と、学習(および送信)段階の位
置とが矛盾しないようにする。すなわち、口を常に領域
6の中心に配置する。連続するフレームの各々に対して
ナガオのアルゴリズムで順番に処理すると、フレームが
変わるときに口の領域の登録に非常多くのエラーが発生
することがわかった。
位置(領域6の位置)と、学習(および送信)段階の位
置とが矛盾しないようにする。すなわち、口を常に領域
6の中心に配置する。連続するフレームの各々に対して
ナガオのアルゴリズムで順番に処理すると、フレームが
変わるときに口の領域の登録に非常多くのエラーが発生
することがわかった。
この問題を解決するには、このアルゴリズムを最初の
フレームだけに適用し、フレーム毎に口を追跡する。こ
れは、第一フレームにおける口の位置をテンプレートと
して用い、連続する各フレームで上述の二値画像と相関
をとる。次のフレームの同じ相対位置で口の位置を調
べ、局部最大値を検出するまで時間当たり1画素ずつマ
スクを移動させる。
フレームだけに適用し、フレーム毎に口を追跡する。こ
れは、第一フレームにおける口の位置をテンプレートと
して用い、連続する各フレームで上述の二値画像と相関
をとる。次のフレームの同じ相対位置で口の位置を調
べ、局部最大値を検出するまで時間当たり1画素ずつマ
スクを移動させる。
この方法を正しい口を用いたシーケンスを得るために
使用し、顔の残りの部分については最初のフレームを複
写する。この処理を行ったシーケンスを実行したとこ
ろ、ジッタが少し生じたが、エラーは約1画素だけであ
り、補助画素を挿入する必要がなく、従来の方法に比べ
て優れている。
使用し、顔の残りの部分については最初のフレームを複
写する。この処理を行ったシーケンスを実行したとこ
ろ、ジッタが少し生じたが、エラーは約1画素だけであ
り、補助画素を挿入する必要がなく、従来の方法に比べ
て優れている。
第8図および第9図に口の領域の典型的な二値画像を
示す。第8図は開いた状態の口を示し、第9図は閉じた
状態の口を示す。
示す。第8図は開いた状態の口を示し、第9図は閉じた
状態の口を示す。
全シーケンスに生じる可能性のある口の形状のうち典
型的な一連の形状の組だけをルックアップテーブルに蓄
える。このためには、口の形状を認識し、前に生じた形
状と同じか否かを識別する必要がある。この認識の後
に、新しい口の形状をテーブル内に蓄える。
型的な一連の形状の組だけをルックアップテーブルに蓄
える。このためには、口の形状を認識し、前に生じた形
状と同じか否かを識別する必要がある。この認識の後
に、新しい口の形状をテーブル内に蓄える。
テーブルのデータ量を制限するため、前に発生した口
との差の類似性について、量子化プロセスを基本とする
必要がある。
との差の類似性について、量子化プロセスを基本とする
必要がある。
これを実現する方法について以下に説明するが、ここ
では、二値画像ではなくグレイスケールで処理を実行す
る例を説明する。
では、二値画像ではなくグレイスケールで処理を実行す
る例を説明する。
最初のフレームから、口画像をルックアップテーブル
の第一の内容として蓄える。トレーニングシーケンス中
の各フレームには、その口画像について、 (a)各画素の値をテーブル内の内容から差し引くこと
により比較し、口の領域にわたってこれらの差の絶対値
を加算し、 (b)和をしきい値と比較し、しきい値を越えていると
きには口画像を新しい内容としてテーブルに入力する 処理を行う。
の第一の内容として蓄える。トレーニングシーケンス中
の各フレームには、その口画像について、 (a)各画素の値をテーブル内の内容から差し引くこと
により比較し、口の領域にわたってこれらの差の絶対値
を加算し、 (b)和をしきい値と比較し、しきい値を越えていると
きには口画像を新しい内容としてテーブルに入力する 処理を行う。
本実施例における差の絶対値の和を求める方法は、動
きに対して非常に敏感であるが、例えば二つの同一な画
像が1画素だけずれた場合には、和の値が非常に小さ
く、二つの画像を同一とみなすことができる。画像全体
に比較して小さい動きに対しては、和の値が小さくなる
ことから無視することができ、小容量のルックアップテ
ーブルでも損失なしに口の形状を蓄えることができる。
このためには、各フレーム毎に、そのフレームの口画像
について、現在の位置、左に1画素移動した位置および
右に1画素移動した位置の三つの位置でそれぞれ符号表
の各内容と比較し、それぞれ最小の和を検出する。この
とき、この最小値をx方向(横方向)の移動距離ととも
に記録する。この処理をx方向だけでなくy方向(上下
方向)についても行うことが望ましいが、移動方向は多
くの場合x方向であることが知られており、y方向につ
いては必ずしも必要はない。
きに対して非常に敏感であるが、例えば二つの同一な画
像が1画素だけずれた場合には、和の値が非常に小さ
く、二つの画像を同一とみなすことができる。画像全体
に比較して小さい動きに対しては、和の値が小さくなる
ことから無視することができ、小容量のルックアップテ
ーブルでも損失なしに口の形状を蓄えることができる。
このためには、各フレーム毎に、そのフレームの口画像
について、現在の位置、左に1画素移動した位置および
右に1画素移動した位置の三つの位置でそれぞれ符号表
の各内容と比較し、それぞれ最小の和を検出する。この
とき、この最小値をx方向(横方向)の移動距離ととも
に記録する。この処理をx方向だけでなくy方向(上下
方向)についても行うことが望ましいが、移動方向は多
くの場合x方向であることが知られており、y方向につ
いては必ずしも必要はない。
もし、必要なテーブル容量が大きい場合、またはトレ
ーニングシーケンス中に必要な容量がテーブルの大きさ
より実質的に少ない場合には、必要な速度を達成できな
いような過剰な遅延を防止する。
ーニングシーケンス中に必要な容量がテーブルの大きさ
より実質的に少ない場合には、必要な速度を達成できな
いような過剰な遅延を防止する。
テーブルを構築した後に送信を開始し、上述の(a)
の項目で説明したように、連続する口画像をそれぞれ記
憶されているテーブルの内容と比較し、和が最も小さく
なるものを識別するための符号語を送信する。
の項目で説明したように、連続する口画像をそれぞれ記
憶されているテーブルの内容と比較し、和が最も小さく
なるものを識別するための符号語を送信する。
これを実行するための計算量は大きいが、他の調べ方
により計算量を削減することもできる。最も簡単な方法
しては、ルックアップテーブルに登録されているすべて
の口の形状に対して和が最小となるものを検出するので
はなく、和がしきい値より小さい最初のものを使用す
る。この方法により確かに速くはなるが、テーブルを走
査する順番が固定されている場合には、痙攣的な動きが
多くなり、画像に障害が生じる傾向がある。したがっ
て、この場合にはテーブルの走査順を変化させる必要が
ある。このためには、符号表からの量が多くなり障害を
うける傾向がある。したがって、テーブルを走査する順
番を変化させる必要がある。符号表から口が現れる順番
を記録することが望ましい。例えば、前のフレームにお
いてテーブル内の口「0」を使用したときには、現在の
口のために、口「0」の後に最も頻繁に発生する内容、
例えば口「5」から走査を開始する。現在のフレームと
口「5」との差の絶対値の和がしきい値より小さい場合
には、この口「5」を現在のフレームを表示するために
使用する。しきい値より大きい場合には、符号表の口
「0」の後に口「5」の次に発生する可能性のある口を
調べ、以下同様に繰り返す。最終的に口を選んだとき、
口を選択した記録を現在の情報に更新する。
により計算量を削減することもできる。最も簡単な方法
しては、ルックアップテーブルに登録されているすべて
の口の形状に対して和が最小となるものを検出するので
はなく、和がしきい値より小さい最初のものを使用す
る。この方法により確かに速くはなるが、テーブルを走
査する順番が固定されている場合には、痙攣的な動きが
多くなり、画像に障害が生じる傾向がある。したがっ
て、この場合にはテーブルの走査順を変化させる必要が
ある。このためには、符号表からの量が多くなり障害を
うける傾向がある。したがって、テーブルを走査する順
番を変化させる必要がある。符号表から口が現れる順番
を記録することが望ましい。例えば、前のフレームにお
いてテーブル内の口「0」を使用したときには、現在の
口のために、口「0」の後に最も頻繁に発生する内容、
例えば口「5」から走査を開始する。現在のフレームと
口「5」との差の絶対値の和がしきい値より小さい場合
には、この口「5」を現在のフレームを表示するために
使用する。しきい値より大きい場合には、符号表の口
「0」の後に口「5」の次に発生する可能性のある口を
調べ、以下同様に繰り返す。最終的に口を選んだとき、
口を選択した記録を現在の情報に更新する。
さらに、記憶されている一連の口の形状よりも和が小
さくなる口画像を記録し、動的な更新プロセスを開始さ
せ、付加的な口画像をテーブルに付け加えるとともに、
画像送信時に受信機に送信することもできる。多くの場
合、「新しい」口を発生したフレームでこの口を使用で
きるほど正確な情報を送信する必要はなく、後になって
同じ形状が発生したときに使用できれば十分である。
さくなる口画像を記録し、動的な更新プロセスを開始さ
せ、付加的な口画像をテーブルに付け加えるとともに、
画像送信時に受信機に送信することもできる。多くの場
合、「新しい」口を発生したフレームでこの口を使用で
きるほど正確な情報を送信する必要はなく、後になって
同じ形状が発生したときに使用できれば十分である。
設定値を十分に小さくしないと、シーケンス中に新し
い口が次々にルックアップテーブルに記録されるので、
注意が必要である。これは、明らかに意味のある結果を
生成するためには副次的な標本化画像でしかないが、符
号表の大きさを処理するシーケンスの長さに比例させて
増大させる必要がある。
い口が次々にルックアップテーブルに記録されるので、
注意が必要である。これは、明らかに意味のある結果を
生成するためには副次的な標本化画像でしかないが、符
号表の大きさを処理するシーケンスの長さに比例させて
増大させる必要がある。
設定値は試行錯誤により得られる。このしきい値を自
動的に選択できる場合、または全体的に分配できる場合
に、この試行錯誤が必要である。フレーム間の差の絶対
値の和は常に測定することが可能であり、ルックアップ
テーブルはマトリクス空間を表現する。ルックアップテ
ーブル内の各々の口が多次元マトリクス空間に存在する
と考えることができ、シーケンス内の各フレームは符号
表の口のひとつの周囲のクラスタに配置される。最適な
一連の口の組をみつけるためには、リンデ・ブゾ・グレ
イ(Lnde-Buzo-Gray)のような種々のアルゴリズムを使
用できる。これらのアルゴリズムは、シーケンス中の一
連のフレームをトレーニングに使用し、エラーを最小に
して最適の組をみつけるために長い検査を行う。このた
めに、最適の組より速くみつけることのできるような、
副次的に最適な「代表的」口の組をみつけることが望ま
しい。これを実行するために、使用する口の数を特定
し、トレーニングシーケンスから必要な数の口を選択す
る。トレーニングと同じアルゴリズムで送信中にルック
アップテーブルを更新することもできるが、テーブル内
の口の総数を一定に保つことが望ましい。
動的に選択できる場合、または全体的に分配できる場合
に、この試行錯誤が必要である。フレーム間の差の絶対
値の和は常に測定することが可能であり、ルックアップ
テーブルはマトリクス空間を表現する。ルックアップテ
ーブル内の各々の口が多次元マトリクス空間に存在する
と考えることができ、シーケンス内の各フレームは符号
表の口のひとつの周囲のクラスタに配置される。最適な
一連の口の組をみつけるためには、リンデ・ブゾ・グレ
イ(Lnde-Buzo-Gray)のような種々のアルゴリズムを使
用できる。これらのアルゴリズムは、シーケンス中の一
連のフレームをトレーニングに使用し、エラーを最小に
して最適の組をみつけるために長い検査を行う。このた
めに、最適の組より速くみつけることのできるような、
副次的に最適な「代表的」口の組をみつけることが望ま
しい。これを実行するために、使用する口の数を特定
し、トレーニングシーケンスから必要な数の口を選択す
る。トレーニングと同じアルゴリズムで送信中にルック
アップテーブルを更新することもできるが、テーブル内
の口の総数を一定に保つことが望ましい。
口の選択は基本的に以下の規則により行う。すなわ
ち、現在のフレームとテーブル内の口の一つとの間の最
小差異(ここで「差異」とはマトリクス空間内での差異
である)が、その口とテーブル内の他のすべての口との
間の最小差異より大きい場合に、現在の口をテーブルに
追加する。小さい場合には、その口は、単に、テーブル
内の最も近い口により表現される。画像送信時にテーブ
ル内に新しい口を追加したときには、以下の規則により
テーブルから一つの口を除去する。ルックアップテーブ
ル内の互いに近い二つの口をみつけ、その一方、望まし
くは新しい口に近い方を除去する。
ち、現在のフレームとテーブル内の口の一つとの間の最
小差異(ここで「差異」とはマトリクス空間内での差異
である)が、その口とテーブル内の他のすべての口との
間の最小差異より大きい場合に、現在の口をテーブルに
追加する。小さい場合には、その口は、単に、テーブル
内の最も近い口により表現される。画像送信時にテーブ
ル内に新しい口を追加したときには、以下の規則により
テーブルから一つの口を除去する。ルックアップテーブ
ル内の互いに近い二つの口をみつけ、その一方、望まし
くは新しい口に近い方を除去する。
新しい口をテーブルに入力したときに、符号表内の口
はこの新しい口の後に現れたことがなく、これらの口の
順序に関する過去の履歴は存在しない。シーケンスの次
のフレームのときには、ルックアップテーブルを順番に
走査し、新しい内容については最後に調べることにして
もよい。しかし、特に新しい口が作られた後には、同じ
口の形状が集中して発生する傾向があり、この新しい内
容が最も選択される傾向がある。このため、新しい口を
最初に走査するように順番を調節することが望ましい。
はこの新しい口の後に現れたことがなく、これらの口の
順序に関する過去の履歴は存在しない。シーケンスの次
のフレームのときには、ルックアップテーブルを順番に
走査し、新しい内容については最後に調べることにして
もよい。しかし、特に新しい口が作られた後には、同じ
口の形状が集中して発生する傾向があり、この新しい内
容が最も選択される傾向がある。このため、新しい口を
最初に走査するように順番を調節することが望ましい。
上述の送信機1を標準電話リンクを用いた画像電話に
使用することもできる。ただし、学習を行うために受信
機3側では瞬時に画像を得ることはできない。顔の非デ
ィジタル伝送を仮定した場合には、15秒程度の初期遅延
の後に動画の送信が始まり、実時間で表示される。
使用することもできる。ただし、学習を行うために受信
機3側では瞬時に画像を得ることはできない。顔の非デ
ィジタル伝送を仮定した場合には、15秒程度の初期遅延
の後に動画の送信が始まり、実時間で表示される。
顔の向きが正面位置と異なりその向きの差異が大きい
場合には、固定された口を重ねてもよい。また、頷きや
首を横に振るような顔の一般的な動きを示すためには、
異なる多数の角度方向の顔を表示可能にする。ランダム
な動きの場合には、一般的な動きになるまで頭を動かさ
ない。
場合には、固定された口を重ねてもよい。また、頷きや
首を横に振るような顔の一般的な動きを示すためには、
異なる多数の角度方向の顔を表示可能にする。ランダム
な動きの場合には、一般的な動きになるまで頭を動かさ
ない。
この場合には、顔の異なる向きに関する情報を送信
し、受信機3で蓄える必要がある。すべての異なる顔の
位置に対して完全なデータの組を送信する場合には、過
剰なチャネル数および記憶容量を必要とする。
し、受信機3で蓄える必要がある。すべての異なる顔の
位置に対して完全なデータの組を送信する場合には、過
剰なチャネル数および記憶容量を必要とする。
第10図はこの問題を解決する方法を示す。
前面における顔の外観は、面Pへの投影(x1〜x5)で
表現される。頭を一方向にわずかに回転させたときに
は、観測者に対して、その外観が面P′への投影(x1′
〜x5′)で表現される。顔への照明が等方的なら、(x1
〜x5)の二次元変換が(x1′〜x5′)の良好な近似とな
る。
表現される。頭を一方向にわずかに回転させたときに
は、観測者に対して、その外観が面P′への投影(x1′
〜x5′)で表現される。顔への照明が等方的なら、(x1
〜x5)の二次元変換が(x1′〜x5′)の良好な近似とな
る。
頭の側面では重要な差異が生じ、新しい領域が現れる
かまたは隠れ、鼻の部分でも同様のことが起きる。した
がって、少しの差異の組とともに頭の向きの変化を与え
る符号を送信することにより、頭全体を再構成すること
ができる。それぞれの頭の位置の差を記憶し、将来、同
じ位置であることを認識したときにはそれを用いる。
かまたは隠れ、鼻の部分でも同様のことが起きる。した
がって、少しの差異の組とともに頭の向きの変化を与え
る符号を送信することにより、頭全体を再構成すること
ができる。それぞれの頭の位置の差を記憶し、将来、同
じ位置であることを認識したときにはそれを用いる。
第11図は二次元変換による擬回転を生成する方法を示
す。
す。
鼻が左から右に変位Sだけ移動するような、鉛直軸を
中心とした一方向の回転の効果をシミュレートするため
に、 (1)左の点(x1-x1′)は移動せず、 (2)線(x2-x2′)上の点をS/2だけ右に変位させ
(x1、x1′、x2、x2′の領域を引き伸ばし)、 (3)線(x3-x3′)上の点をSだけ右に変位させ
(x2、x2′、x3、x3′の領域を引き伸ばし)、 (4)線(x4-x4′)上の点をSだけ右に変位させ
(x3、x3′、x4、x4′の領域を右に移動し)、 (5)線(x5-x5′)上の点をS/2だけ右に変位させ
(x3、x3′、x4、x4′の領域を縮め)、 (6)線(x6-x6′)上の右の点は移動しない(x3、
x3′、x4、x4′の領域を縮める)。
中心とした一方向の回転の効果をシミュレートするため
に、 (1)左の点(x1-x1′)は移動せず、 (2)線(x2-x2′)上の点をS/2だけ右に変位させ
(x1、x1′、x2、x2′の領域を引き伸ばし)、 (3)線(x3-x3′)上の点をSだけ右に変位させ
(x2、x2′、x3、x3′の領域を引き伸ばし)、 (4)線(x4-x4′)上の点をSだけ右に変位させ
(x3、x3′、x4、x4′の領域を右に移動し)、 (5)線(x5-x5′)上の点をS/2だけ右に変位させ
(x3、x3′、x4、x4′の領域を縮め)、 (6)線(x6-x6′)上の右の点は移動しない(x3、
x3′、x4、x4′の領域を縮める)。
このような二次元画像変換を標準のテレビ会議用装置
で使用することもできる。このような装置では、対象の
人間を認識し、動きのない前景および背景の物体から分
離する。前景および背景については、移動する対象に隠
れるか否かによる異なる階層レベルでメモリに記憶して
おく。爪先のような比較的動きの少ない体の部分は、腕
や頭のように比較的高速に変化する部分とは異なるレベ
ルで記憶する。この装置の動作原理は、種々の区画化さ
れた部分の移動を識別するため、送信終了を必要とし、
これに対応して移動ベクトルを送信する必要がある。こ
れにより受信機は、次のフレームの各部を予想する。予
想値と実際の絵との差を標準動き補償装置に送信する。
で使用することもできる。このような装置では、対象の
人間を認識し、動きのない前景および背景の物体から分
離する。前景および背景については、移動する対象に隠
れるか否かによる異なる階層レベルでメモリに記憶して
おく。爪先のような比較的動きの少ない体の部分は、腕
や頭のように比較的高速に変化する部分とは異なるレベ
ルで記憶する。この装置の動作原理は、種々の区画化さ
れた部分の移動を識別するため、送信終了を必要とし、
これに対応して移動ベクトルを送信する必要がある。こ
れにより受信機は、次のフレームの各部を予想する。予
想値と実際の絵との差を標準動き補償装置に送信する。
この装置は、 (1)対象が隠れた場合および再び現れた場合にデータ
を再び送信する必要がなく、 (2)爪先などのように比較的変化のない部分に対し
て、置き換えおよび画像面の回転等の少しの画像変換お
よび寸法の変化を用いて非常に良好に予測することがで
き、予想値と実際の値との差は小さく、 (3)これより速く動く対象についても予想値と実際の
値との差が大きくはなるが、まだ良好な予測が可能であ
り、 (4)場面の重要な特徴については重要でない部分とは
物に取り扱うことができ(例えば速く動く腕より顔に重
点をおく) ことができ、画像の大きな劣化なしに高いデータ圧縮を
実現できる。
を再び送信する必要がなく、 (2)爪先などのように比較的変化のない部分に対し
て、置き換えおよび画像面の回転等の少しの画像変換お
よび寸法の変化を用いて非常に良好に予測することがで
き、予想値と実際の値との差は小さく、 (3)これより速く動く対象についても予想値と実際の
値との差が大きくはなるが、まだ良好な予測が可能であ
り、 (4)場面の重要な特徴については重要でない部分とは
物に取り扱うことができ(例えば速く動く腕より顔に重
点をおく) ことができ、画像の大きな劣化なしに高いデータ圧縮を
実現できる。
次に、音声合成を含む話者の動画の合成について説明
する。二つのタイプの音声合成、すなわち、 (a)限定語彙合成、 (b)異音(allophone)合成 を考える。限定語彙合成は、限定された語に対して、完
全な語のディジタル化した表現を記憶し、これらの語を
手動、コンピュータまたは他の入力装置の制御により受
け取って再生する。記憶方法としては、PCMまたはフォ
ルマント・パラメータとして記憶する方法を用いるが、
画像合成には影響しない。異音合成は、発生された音を
表現する符号を供給することによりどのような語でも合
成でき、これらの符号は入力テキスト(音声装置のテキ
スト)から直接に発生させる。
する。二つのタイプの音声合成、すなわち、 (a)限定語彙合成、 (b)異音(allophone)合成 を考える。限定語彙合成は、限定された語に対して、完
全な語のディジタル化した表現を記憶し、これらの語を
手動、コンピュータまたは他の入力装置の制御により受
け取って再生する。記憶方法としては、PCMまたはフォ
ルマント・パラメータとして記憶する方法を用いるが、
画像合成には影響しない。異音合成は、発生された音を
表現する符号を供給することによりどのような語でも合
成でき、これらの符号は入力テキスト(音声装置のテキ
スト)から直接に発生させる。
どちらの場合でも顔の合成には二段階の処理を行う。
すなわち、上述したような学習段階と、合成された音声
に対応する口の符号語を発生する合成段階である。最初
に限定語彙合成を利用する場合について説明すると、音
声語彙としては、通常はその言語を母国語としている話
者の発生を記録して用い、同じ話者の顔を使用すること
が便利である。他の顔が必要な場合、または現在の装置
に映像サービスを付加する場合には、発話された語彙を
繰り返し、それに沿って代わりの話者が話してもよい。
どちらの方法でも処理は同一である。学習段階は上述し
たと同様であり、装置は、必要な顔のフレームおよび口
のルックアップテーブルを獲得する。しかし、それぞれ
の語に対応する口位置の符号語のシーケンスを記録する
必要があり、このシーケンスを別のテーブル(口符号テ
ーブル)に記憶する必要がある。この処理は実時間で実
行する必要はなく、それぞれの語に対する口のシーケン
スを最適にすることがてきる。
すなわち、上述したような学習段階と、合成された音声
に対応する口の符号語を発生する合成段階である。最初
に限定語彙合成を利用する場合について説明すると、音
声語彙としては、通常はその言語を母国語としている話
者の発生を記録して用い、同じ話者の顔を使用すること
が便利である。他の顔が必要な場合、または現在の装置
に映像サービスを付加する場合には、発話された語彙を
繰り返し、それに沿って代わりの話者が話してもよい。
どちらの方法でも処理は同一である。学習段階は上述し
たと同様であり、装置は、必要な顔のフレームおよび口
のルックアップテーブルを獲得する。しかし、それぞれ
の語に対応する口位置の符号語のシーケンスを記録する
必要があり、このシーケンスを別のテーブル(口符号テ
ーブル)に記憶する必要がある。この処理は実時間で実
行する必要はなく、それぞれの語に対する口のシーケン
スを最適にすることがてきる。
合成段階では、合成装置に供給された入力符号を、音
声データとして受け取り音声再生装置または合成装置に
送り出すだけでなく、口の符号語を受け取りこれらを音
声に同期して受信機に送る。この受信機は、第1図を参
照して説明したと同様の、動画を再構成する装置であ
る。受信機機能を局部的に実行させ、局部的な表示装置
または標準映像信号を前方に送信するために使用するこ
ともできる。
声データとして受け取り音声再生装置または合成装置に
送り出すだけでなく、口の符号語を受け取りこれらを音
声に同期して受信機に送る。この受信機は、第1図を参
照して説明したと同様の、動画を再構成する装置であ
る。受信機機能を局部的に実行させ、局部的な表示装置
または標準映像信号を前方に送信するために使用するこ
ともできる。
異音合成の場合にも、実際の顔が必要であり、上述の
学習段階を実行して顔画像および口画像のテーブルを作
り出す。ここで、個々の音素(すなわち語の部分)に口
の位置を関連させる必要があり、音声合成による発生と
同時に、顔の持主が、音声合成装置が生成できるそれぞ
れの音素の少なくとも一例を含む一節を発声する必要が
ある。発生された符号語は、口ルックアップテーブルに
入力される。このルックアップテーブルの各内容が一つ
の音素に対応する。多くの内容は一以上の符号語を含
む。ある場合には、与えられた音素に対応する口の形状
が、前のまたは後の音素に依存して変化し、これも考慮
する必要がある。音声および映像データを受け取ると、
上述した方法と同様にして「語全体」を合成することが
できる。
学習段階を実行して顔画像および口画像のテーブルを作
り出す。ここで、個々の音素(すなわち語の部分)に口
の位置を関連させる必要があり、音声合成による発生と
同時に、顔の持主が、音声合成装置が生成できるそれぞ
れの音素の少なくとも一例を含む一節を発声する必要が
ある。発生された符号語は、口ルックアップテーブルに
入力される。このルックアップテーブルの各内容が一つ
の音素に対応する。多くの内容は一以上の符号語を含
む。ある場合には、与えられた音素に対応する口の形状
が、前のまたは後の音素に依存して変化し、これも考慮
する必要がある。音声および映像データを受け取ると、
上述した方法と同様にして「語全体」を合成することが
できる。
「合成音声」の実施例において、顔のフレーム口画像
のテーブルおよび口の形状の符号語は、上述した遠隔の
受信機に送信してそこで動画を再生する装置と同様であ
るが、ある状況、例えば映像表示装置が音声合成コンピ
ュータの出力に接続されている場合には、表示装置をロ
ーカルで使用し、受信機をテーブルおよび符号発生装置
として使用することもできる。また、合成画像を局部的
に発生し、一般的な映像信号を遠隔のモニタ装置に送信
することもできる。
のテーブルおよび口の形状の符号語は、上述した遠隔の
受信機に送信してそこで動画を再生する装置と同様であ
るが、ある状況、例えば映像表示装置が音声合成コンピ
ュータの出力に接続されている場合には、表示装置をロ
ーカルで使用し、受信機をテーブルおよび符号発生装置
として使用することもできる。また、合成画像を局部的
に発生し、一般的な映像信号を遠隔のモニタ装置に送信
することもできる。
同期の問題について説明する。
テキスト音声合成は、 (a)テキスト入力を音素表現に変換し、 (b)音素をより低位の音素表現に変換し、 (c)低位の音素をホルマント・パラメータに変換す
る、典型的なパラメータ更新周期は10msである。
る、典型的なパラメータ更新周期は10msである。
段階を含む。
この処理はかなりの遅延を含み、特に、変換が内容に
依存する(例えば特性の文字の音がそれに続く音の影響
を受ける)ので、変換段階に固有の遅延が発生する。し
たがって、合成プロセスは、合成された唇の動きが音声
に同期するように、配列およびタイミングを注意深く考
慮する必要がある。
依存する(例えば特性の文字の音がそれに続く音の影響
を受ける)ので、変換段階に固有の遅延が発生する。し
たがって、合成プロセスは、合成された唇の動きが音声
に同期するように、配列およびタイミングを注意深く考
慮する必要がある。
映像合成に音声合成装置からの入力データとして音声
表現を使用し、その下位レベルの音声合成プロセスが予
想される遅延を含む場合には、映像合成に対応して遅延
を導入することにより、単純にタイミングを合わせるこ
とができる。
表現を使用し、その下位レベルの音声合成プロセスが予
想される遅延を含む場合には、映像合成に対応して遅延
を導入することにより、単純にタイミングを合わせるこ
とができる。
音声表現内にフラグを挿入することもできる。これに
より、音素から口の位置を発生するために、ルックアッ
プテーブルを使用するかわりに(または付加して)、元
のテキストに口の形状を設定するためのデータを付加す
ることができる。どちらの方法でも、フラグが正確な瞬
間を示し、低位の音素レベルに落とした音声表現で、口
の形状の変化を保持することができる。音声合成装置
は、低位の音素符号の列を生成し、これをフォルマント
・パラメータに変換し、フォルマント合成装置に送出す
る。符号が列を作るので、その前のテキストを発話して
とき、対応する口の形状の変化と同期して、各フラグを
画像合成装置に送る。
より、音素から口の位置を発生するために、ルックアッ
プテーブルを使用するかわりに(または付加して)、元
のテキストに口の形状を設定するためのデータを付加す
ることができる。どちらの方法でも、フラグが正確な瞬
間を示し、低位の音素レベルに落とした音声表現で、口
の形状の変化を保持することができる。音声合成装置
は、低位の音素符号の列を生成し、これをフォルマント
・パラメータに変換し、フォルマント合成装置に送出す
る。符号が列を作るので、その前のテキストを発話して
とき、対応する口の形状の変化と同期して、各フラグを
画像合成装置に送る。
実時間の音声入力に対応して動画を発生する実施例に
ついて説明する。
ついて説明する。
この場合には、顔を提供する代理話者が必要であり、
口画像テーブルを作るための学習段階をあらかじめ行う
必要がある。口画像テーブルを作り出すことは、入力音
声を分析するために使用する方法に依存する。一例とし
て、周波数を分析してスペクトル・パラメータのシーケ
ンスを生成し、符号テーブルと共にそれに関連するパラ
メータおよび口画像を供給する。
口画像テーブルを作るための学習段階をあらかじめ行う
必要がある。口画像テーブルを作り出すことは、入力音
声を分析するために使用する方法に依存する。一例とし
て、周波数を分析してスペクトル・パラメータのシーケ
ンスを生成し、符号テーブルと共にそれに関連するパラ
メータおよび口画像を供給する。
第12図にこのような画像合成装置のブロック構成図を
示す。
示す。
母音音素毎に異なる映像を表示する。聴覚的な音素に
関する映像を映像素(viseme)と呼ぶ(バーガー、「ス
ピーチリーディング:プリンシプル・アンド・メソッ
ド」、バルチモア:ナショナル・エジケーショナル・プ
レス、1972年刊第73頁ないし第107頁(K.W.Berger、「S
peechreading:Principles and Methods」、Baltimore:N
ational Educational Press、1972、pp73-107)参
照)。しかし、子音の多くは同じ映像表現となり、子音
映像素の最も一般的には12に分類される。これは、装置
が同じ分類の現象を取り違えても、視覚的なエラーは生
じないことを意味する。母音に比べて子音で発生する音
声エネルギが少ないので、音声認識装置による子音間の
区別はさらに困難である。したがって、このような装置
では、子音映像素に対して、多数のなかの一つの子音音
素の分布が偶然に対応する。
関する映像を映像素(viseme)と呼ぶ(バーガー、「ス
ピーチリーディング:プリンシプル・アンド・メソッ
ド」、バルチモア:ナショナル・エジケーショナル・プ
レス、1972年刊第73頁ないし第107頁(K.W.Berger、「S
peechreading:Principles and Methods」、Baltimore:N
ational Educational Press、1972、pp73-107)参
照)。しかし、子音の多くは同じ映像表現となり、子音
映像素の最も一般的には12に分類される。これは、装置
が同じ分類の現象を取り違えても、視覚的なエラーは生
じないことを意味する。母音に比べて子音で発生する音
声エネルギが少ないので、音声認識装置による子音間の
区別はさらに困難である。したがって、このような装置
では、子音映像素に対して、多数のなかの一つの子音音
素の分布が偶然に対応する。
音声を分析するため、全音声域に対応する14ないし15
チャネルのフィルタ群10を用いる。漏洩積算計11を用い
て各チャネルの音声エネルギを積算し、標本化回路12に
より映像フレーム速度(40ms毎)で標本化して出力す
る。トレーニングシーケンスの間に全ての音素を発生
し、フィルタ群10で音声を分析する必要がある。個々の
発生音声は、標本の各組にわたってエネルギのしきい値
を調べることにより識別できる。標本値を一連のメモリ
13に蓄え、この後に未知の音声信号が到来したときに
は、上述の方法と同様にして音素を認識する。フィルタ
群10を使用してこの処理を行い、同じ標本化速度で未知
の音声を分析することができる。対応する要素の差の自
乗を加算することにより、未知の音声標本を各テンプレ
ートと比較する。最も差の小さいものが最も一致したも
のである。したがって、装置は、最も音素が一致したも
のに対応する符号を出力する。無音声を示す特別の符号
も必要である。
チャネルのフィルタ群10を用いる。漏洩積算計11を用い
て各チャネルの音声エネルギを積算し、標本化回路12に
より映像フレーム速度(40ms毎)で標本化して出力す
る。トレーニングシーケンスの間に全ての音素を発生
し、フィルタ群10で音声を分析する必要がある。個々の
発生音声は、標本の各組にわたってエネルギのしきい値
を調べることにより識別できる。標本値を一連のメモリ
13に蓄え、この後に未知の音声信号が到来したときに
は、上述の方法と同様にして音素を認識する。フィルタ
群10を使用してこの処理を行い、同じ標本化速度で未知
の音声を分析することができる。対応する要素の差の自
乗を加算することにより、未知の音声標本を各テンプレ
ートと比較する。最も差の小さいものが最も一致したも
のである。したがって、装置は、最も音素が一致したも
のに対応する符号を出力する。無音声を示す特別の符号
も必要である。
トレーニングシーケンスに一連の音素を発生する一方
で、口領域の絵の動作シーケンスを捕らえることが必要
である。各音素の発生を指摘することにより、シーケン
ス中の対応するフレームを特定し、そのフレームの一部
を使用して口の符号表を作成する。動作時には、ルック
アップテーブルを使用して、音声分析装置により生成さ
れた符号から適当な口符号をみつける。無声状態を示す
符号のときには、口の形状をほぼ閉じたものにする。合
成シーケンスでは、映像速度で、顔の上に適当な口を重
ねる。
で、口領域の絵の動作シーケンスを捕らえることが必要
である。各音素の発生を指摘することにより、シーケン
ス中の対応するフレームを特定し、そのフレームの一部
を使用して口の符号表を作成する。動作時には、ルック
アップテーブルを使用して、音声分析装置により生成さ
れた符号から適当な口符号をみつける。無声状態を示す
符号のときには、口の形状をほぼ閉じたものにする。合
成シーケンスでは、映像速度で、顔の上に適当な口を重
ねる。
合成音声の場合と同様に、受信機をローカルまたはリ
モートで動作させることができる。リモートで使用する
場合には、付加的な修正として、送信機に蓄えた口画像
テーブルに、通常に送信機に送信する以上の多数の内容
を記憶させる。これにより、一般的にはまれにしか発生
しないが、ある種の音声ではしばしば発生する口の形
状、例えばある方言でのみ発生する音声に対応する形状
をテーブル内に記憶させておくことができる。このよう
な音声に対するスペクトル・パラメータの認識は、上述
したような動的な更新プロセスを行い、関連する口の形
状を受信機で得ることができるようにする。
モートで動作させることができる。リモートで使用する
場合には、付加的な修正として、送信機に蓄えた口画像
テーブルに、通常に送信機に送信する以上の多数の内容
を記憶させる。これにより、一般的にはまれにしか発生
しないが、ある種の音声ではしばしば発生する口の形
状、例えばある方言でのみ発生する音声に対応する形状
をテーブル内に記憶させておくことができる。このよう
な音声に対するスペクトル・パラメータの認識は、上述
したような動的な更新プロセスを行い、関連する口の形
状を受信機で得ることができるようにする。
第13図は以上の実施例で用いるに適した受信機の一例
のブロック構成図である。
のブロック構成図である。
入力信号は復号器101に供給され、この復号器101から
フレームメモリに、学習段階の間に受信した静止画フレ
ームを入力する。この一方で、口メモリ102は、必要な
数(例えば25)の口の形状を記憶する。読出し論理回路
103はフレームメモリ100の内容を繰り返し読み出し、同
期パルスを付加して映像モニタ装置104に供給する。伝
送段階には、受信した符号語を制御部105に供給し、制
御部105は、書込み制御部106を制御し、フレームメモリ
100の適切な領域に口メモリ102の対応する内容を重ね書
きする。明らかに、見ている人が知覚できないように高
速で重ね書きを行う必要がある。更新する領域を小さい
ブロックに分割し、ランダムまたはシーケンシャルでは
ないあらかじめ定めた順番で重ね書きを行うことより、
低速でも見ている人が知覚できないように更新すること
ができる。また、フレームメモリがウインドウを含む構
成の場合には、更新する画像をあらかじめ入力してお
き、適当な移動を作りだすように切り替えることができ
る。場合によっては、ウインドウのxy移動で簡単に処理
することができる。
フレームメモリに、学習段階の間に受信した静止画フレ
ームを入力する。この一方で、口メモリ102は、必要な
数(例えば25)の口の形状を記憶する。読出し論理回路
103はフレームメモリ100の内容を繰り返し読み出し、同
期パルスを付加して映像モニタ装置104に供給する。伝
送段階には、受信した符号語を制御部105に供給し、制
御部105は、書込み制御部106を制御し、フレームメモリ
100の適切な領域に口メモリ102の対応する内容を重ね書
きする。明らかに、見ている人が知覚できないように高
速で重ね書きを行う必要がある。更新する領域を小さい
ブロックに分割し、ランダムまたはシーケンシャルでは
ないあらかじめ定めた順番で重ね書きを行うことより、
低速でも見ている人が知覚できないように更新すること
ができる。また、フレームメモリがウインドウを含む構
成の場合には、更新する画像をあらかじめ入力してお
き、適当な移動を作りだすように切り替えることができ
る。場合によっては、ウインドウのxy移動で簡単に処理
することができる。
以上説明したように、本発明の画像合成装置は、少な
いデータ量で音声と動きのある人間の顔の画像とを合成
することができる。
いデータ量で音声と動きのある人間の顔の画像とを合成
することができる。
第1図は本発明実施例画像伝送装置のブロック構成図。 第2図は話者の顔を示す図。 第3図は話者の口の形状の例を示す図。 第4図は顔の輪郭を識別するためのウインドウを示す
図。 第5図は目の動きを調べるための一次元マスクを示す
図。 第6図は口の位置を決定するためのウインドウを示す
図。 第7図は第二の配列の度数分布を示す図。 第8図は開いた状態の口の二値画像を示す図。 第9図は閉じた状態の口の二値画像を示す図。 第10図は顔の回転を補正する方法を示す図。 第11図は二次元変換による擬回転を生成する方法を示す
図。 第12図は画像合成装置のブロック構成図。 第13図は受信機の一例のブロック構成図。 1……送信機、2……伝送路、3……受信器、10……フ
ィルタ群、11……漏洩積算計、12……標本化回路、13…
…メモリ、100……フレームメモリ、101……復号器、10
2……口メモリ、103……読出し論理回路、104……映像
モニタ装置、105……制御部、106……書込み制御部。
図。 第5図は目の動きを調べるための一次元マスクを示す
図。 第6図は口の位置を決定するためのウインドウを示す
図。 第7図は第二の配列の度数分布を示す図。 第8図は開いた状態の口の二値画像を示す図。 第9図は閉じた状態の口の二値画像を示す図。 第10図は顔の回転を補正する方法を示す図。 第11図は二次元変換による擬回転を生成する方法を示す
図。 第12図は画像合成装置のブロック構成図。 第13図は受信機の一例のブロック構成図。 1……送信機、2……伝送路、3……受信器、10……フ
ィルタ群、11……漏洩積算計、12……標本化回路、13…
…メモリ、100……フレームメモリ、101……復号器、10
2……口メモリ、103……読出し論理回路、104……映像
モニタ装置、105……制御部、106……書込み制御部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ポール・チャレナー 英国アイピー6 0アールゼッド・サフ ォーク・イプスウィッチ・ヘンレイ・フ リーマンアベニュー10番地
Claims (3)
- 【請求項1】顔の画像を蓄える顔記憶手段と、 この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、 入力情報に応答して発話すべき音声を決定する音声合成
手段と、 この入力情報に対応して上記口記憶手段の読出し番地を
設定する番地設定手段と、 上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段と を含む画像合成装置。 - 【請求項2】音声合成手段は、入力情報を処理して音声
信号内に口の形状の変化を示すフラグ符号を挿入する手
段を含み、 番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成である 特許請求の範囲第(1)項に記載の画像合成装置。 - 【請求項3】顔の画像を蓄える顔記憶手段と、 この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、 入力音声信号の周波数を分析する分析手段と、 この分析手段の出力したスペクトルパラメータのシーケ
ンスに対応して上記口記憶手段の読出し番地を設定する
番地設定手段と、 上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段と を含む画像合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8528143 | 1985-11-14 | ||
GB858528143A GB8528143D0 (en) | 1985-11-14 | 1985-11-14 | Image encoding & synthesis |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7309935A Division JP2753599B2 (ja) | 1985-11-14 | 1995-11-01 | 画像符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62120179A JPS62120179A (ja) | 1987-06-01 |
JP2589478B2 true JP2589478B2 (ja) | 1997-03-12 |
Family
ID=10588258
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61271687A Expired - Lifetime JP2589478B2 (ja) | 1985-11-14 | 1986-11-14 | 画像合成装置 |
JP7309935A Expired - Lifetime JP2753599B2 (ja) | 1985-11-14 | 1995-11-01 | 画像符号化装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7309935A Expired - Lifetime JP2753599B2 (ja) | 1985-11-14 | 1995-11-01 | 画像符号化装置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US4841575A (ja) |
EP (1) | EP0225729B1 (ja) |
JP (2) | JP2589478B2 (ja) |
AT (1) | ATE72083T1 (ja) |
CA (1) | CA1263187A (ja) |
DE (1) | DE3683609D1 (ja) |
ES (1) | ES2029230T3 (ja) |
GB (1) | GB8528143D0 (ja) |
GR (1) | GR3004011T3 (ja) |
HK (1) | HK128696A (ja) |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8710737D0 (en) * | 1987-05-06 | 1987-06-10 | British Telecomm | Video image encoding |
US5136659A (en) * | 1987-06-30 | 1992-08-04 | Kokusai Denshin Denwa Kabushiki Kaisha | Intelligent coding system for picture signal |
JP2828977B2 (ja) * | 1987-09-22 | 1998-11-25 | 株式会社東芝 | 動画像符号化装置 |
JP2644789B2 (ja) * | 1987-12-18 | 1997-08-25 | 富士通株式会社 | 画像伝送方式 |
JP2678210B2 (ja) * | 1988-01-25 | 1997-11-17 | 日本電信電話株式会社 | 動画像符号化方式 |
JPH01190187A (ja) * | 1988-01-26 | 1989-07-31 | Fujitsu Ltd | 画像伝送方式 |
JPH01190188A (ja) * | 1988-01-26 | 1989-07-31 | Fujitsu Ltd | 画像伝送方式 |
GB8817705D0 (en) * | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
JP2518683B2 (ja) * | 1989-03-08 | 1996-07-24 | 国際電信電話株式会社 | 画像合成方法及びその装置 |
JP2879824B2 (ja) * | 1989-05-11 | 1999-04-05 | 三菱電機株式会社 | 画像信号の符号化器及び復号化器 |
JPH0357081A (ja) * | 1989-07-26 | 1991-03-12 | Canon Inc | 画像処理装置 |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
DE69131350T2 (de) * | 1990-07-17 | 1999-12-30 | British Telecommunications P.L.C., London | Verfahren und vorrichtung zur bildverarbeitung |
DE4028191A1 (de) * | 1990-09-05 | 1992-03-12 | Philips Patentverwaltung | Schaltungsanordnung zum erkennen eines menschlichen gesichtes |
GB9019829D0 (en) * | 1990-09-11 | 1990-10-24 | British Telecomm | Speech analysis and image synthesis |
US5171930A (en) * | 1990-09-26 | 1992-12-15 | Synchro Voice Inc. | Electroglottograph-driven controller for a MIDI-compatible electronic music synthesizer device |
JPH04142192A (ja) * | 1990-10-03 | 1992-05-15 | Graphics Commun Technol:Kk | 画像信号符号化装置 |
US5613056A (en) * | 1991-02-19 | 1997-03-18 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
US5698155A (en) * | 1991-05-31 | 1997-12-16 | Gs Technologies, Inc. | Method for the manufacture of pharmaceutical cellulose capsules |
JPH0546743A (ja) * | 1991-08-09 | 1993-02-26 | Matsushita Electric Ind Co Ltd | 個人識別装置 |
DE4141575C2 (de) * | 1991-12-17 | 1999-01-21 | Juergen Dr Ing Schlechter | Verfahren und Schaltungsanordnung zur quasidialoggesteuerten Darstellung eines TV-Programms |
USRE47908E1 (en) | 1991-12-23 | 2020-03-17 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US7242988B1 (en) | 1991-12-23 | 2007-07-10 | Linda Irene Hoffberg | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5875108A (en) * | 1991-12-23 | 1999-02-23 | Hoffberg; Steven M. | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6850252B1 (en) | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
USRE48056E1 (en) | 1991-12-23 | 2020-06-16 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
USRE46310E1 (en) | 1991-12-23 | 2017-02-14 | Blanding Hovenweep, Llc | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6418424B1 (en) | 1991-12-23 | 2002-07-09 | Steven M. Hoffberg | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US6081750A (en) * | 1991-12-23 | 2000-06-27 | Hoffberg; Steven Mark | Ergonomic man-machine interface incorporating adaptive pattern recognition based control system |
US5903454A (en) | 1991-12-23 | 1999-05-11 | Hoffberg; Linda Irene | Human-factored interface corporating adaptive pattern recognition based controller apparatus |
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
FR2689994A1 (fr) * | 1992-04-14 | 1993-10-15 | Philips Electronique Lab | Dispositif de codage d'images avec rafraîchissement des données à coder. |
FR2690031A1 (fr) * | 1992-04-14 | 1993-10-15 | Philips Electronique Lab | Dispositif de segmentation d'images. |
US5420638A (en) * | 1992-04-14 | 1995-05-30 | U.S. Philips Corporation | Subassembly for coding images with refresh correction of the data to be coded, and subassembly for decording signals representing these images and previously coded by means of a subassembly of the former kind |
US5323470A (en) * | 1992-05-08 | 1994-06-21 | Atsushi Kara | Method and apparatus for automatically tracking an object |
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US5537662A (en) * | 1992-05-29 | 1996-07-16 | Casio Computer Co., Ltd. | Electronic montage composing apparatus |
US5375195A (en) * | 1992-06-29 | 1994-12-20 | Johnston; Victor S. | Method and apparatus for generating composites of human faces |
EP0648400A1 (en) * | 1992-06-29 | 1995-04-19 | BRITISH TELECOMMUNICATIONS public limited company | Coding and decoding video signals |
US5542037A (en) * | 1992-08-24 | 1996-07-30 | Casio Computer Co., Ltd. | Image displaying apparatus wherein selected stored image data is combined and the combined image data is displayed |
JP3252381B2 (ja) * | 1992-09-08 | 2002-02-04 | ソニー株式会社 | パターン認識装置 |
JPH06168314A (ja) * | 1992-11-30 | 1994-06-14 | Matsushita Electric Ind Co Ltd | 娯楽装置 |
US5687280A (en) * | 1992-11-02 | 1997-11-11 | Matsushita Electric Industrial Co., Ltd. | Speech input device including display of spatial displacement of lip position relative to predetermined position |
JPH06187410A (ja) * | 1992-12-21 | 1994-07-08 | Casio Comput Co Ltd | 似顔絵作成装置 |
JP3334230B2 (ja) * | 1993-03-18 | 2002-10-15 | カシオ計算機株式会社 | モンタージュ画像表示制御装置およびモンタージュ画像表示制御方法 |
GB9308952D0 (en) * | 1993-04-30 | 1993-06-16 | Philips Electronics Uk Ltd | Tracking objects in video sequences |
EP1130922B1 (en) * | 1993-07-12 | 2008-09-24 | Sony Corporation | Processing digital video data |
KR100292138B1 (ko) * | 1993-07-12 | 2002-06-20 | 이데이 노부유끼 | 디지탈비디오신호용송신기및수신기 |
JP3716866B2 (ja) * | 1993-07-12 | 2005-11-16 | ソニー株式会社 | デジタル画像信号の伝送装置及び受信装置 |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
DE4435272C2 (de) * | 1993-10-01 | 1997-09-04 | Ricoh Kk | Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung |
US5623587A (en) * | 1993-10-15 | 1997-04-22 | Kideo Productions, Inc. | Method and apparatus for producing an electronic image |
US7859551B2 (en) * | 1993-10-15 | 2010-12-28 | Bulman Richard L | Object customization and presentation system |
US5466918A (en) * | 1993-10-29 | 1995-11-14 | Eastman Kodak Company | Method and apparatus for image compression, storage, and retrieval on magnetic transaction cards |
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
DE4413788C1 (de) * | 1994-03-15 | 1995-10-12 | Fraunhofer Ges Forschung | Personenidentifikation mit Bewegungsinformation |
ATE182707T1 (de) * | 1994-03-15 | 1999-08-15 | Fraunhofer Ges Forschung | Personenidentifikation mit bewegungsinformation |
US6330023B1 (en) | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
US5512939A (en) * | 1994-04-06 | 1996-04-30 | At&T Corp. | Low bit rate audio-visual communication system having integrated perceptual speech and video coding |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
US5625704A (en) * | 1994-11-10 | 1997-04-29 | Ricoh Corporation | Speaker recognition using spatiotemporal cues |
WO1996027983A1 (en) | 1995-03-07 | 1996-09-12 | Interval Research Corporation | System and method for selective recording of information |
US5572261A (en) * | 1995-06-07 | 1996-11-05 | Cooper; J. Carl | Automatic audio to video timing measurement device and method |
US5812787A (en) * | 1995-06-30 | 1998-09-22 | Intel Corporation | Video coding scheme with foreground/background separation |
DE19609052A1 (de) * | 1996-03-08 | 1997-09-18 | Bernd Dr Med Kamppeter | Technische Vorrichtung zum Erzeugen von Tonsignalen (Sprache) aus beliebig großen und verschieden weit entfernten Schriftzeichen und Formen |
US5880788A (en) * | 1996-03-25 | 1999-03-09 | Interval Research Corporation | Automated synchronization of video image sequences to new soundtracks |
US6205253B1 (en) | 1996-08-19 | 2001-03-20 | Harris Corporation | Method and apparatus for transmitting and utilizing analog encoded information |
JPH1091795A (ja) * | 1996-09-12 | 1998-04-10 | Toshiba Corp | 移動物体検出装置及び移動物体検出方法 |
US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
US6263507B1 (en) | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
KR100236974B1 (ko) | 1996-12-13 | 2000-02-01 | 정선종 | 동화상과 텍스트/음성변환기 간의 동기화 시스템 |
SE519679C2 (sv) * | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
KR100240637B1 (ko) * | 1997-05-08 | 2000-01-15 | 정선종 | 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치 |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
EP0893923A1 (en) * | 1997-07-23 | 1999-01-27 | Texas Instruments France | Video communication system |
US6567779B1 (en) | 1997-08-05 | 2003-05-20 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US7366670B1 (en) * | 1997-08-05 | 2008-04-29 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US7392190B1 (en) | 1997-11-07 | 2008-06-24 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US7117155B2 (en) * | 1999-09-07 | 2006-10-03 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
JPH11219446A (ja) * | 1998-02-03 | 1999-08-10 | Matsushita Electric Ind Co Ltd | 映像音響再生システム |
IT1314671B1 (it) * | 1998-10-07 | 2002-12-31 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio. |
DE19901881A1 (de) | 1999-01-19 | 2000-07-27 | Dcs Dialog Communication Syste | Verfahren und System zur Fälschungssicherung bei biometrischer Personenerkennung |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
JP3062080U (ja) * | 1999-02-24 | 1999-09-28 | 嘉朗 秋山 | 画面付き電話装置 |
US7630897B2 (en) * | 1999-09-07 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | Coarticulation method for audio-visual text-to-speech synthesis |
US7155735B1 (en) | 1999-10-08 | 2006-12-26 | Vulcan Patents Llc | System and method for the broadcast dissemination of time-ordered data |
JP2001188910A (ja) * | 1999-10-22 | 2001-07-10 | Toshiba Corp | 画像の輪郭抽出方法、画像からの物体抽出方法およびこの物体抽出方法を用いた画像伝送システム |
US6757682B1 (en) * | 2000-01-28 | 2004-06-29 | Interval Research Corporation | Alerting users to items of current interest |
US7392287B2 (en) * | 2001-03-27 | 2008-06-24 | Hemisphere Ii Investment Lp | Method and apparatus for sharing information using a handheld device |
EP1250005A1 (en) * | 2001-04-12 | 2002-10-16 | BRITISH TELECOMMUNICATIONS public limited company | Video communication with feedback of the caller's position relative to the camera |
DE10127558A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese |
US20030058932A1 (en) * | 2001-09-24 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Viseme based video coding |
US6919892B1 (en) * | 2002-08-14 | 2005-07-19 | Avaworks, Incorporated | Photo realistic talking head creation system and method |
US7027054B1 (en) * | 2002-08-14 | 2006-04-11 | Avaworks, Incorporated | Do-it-yourself photo realistic talking head creation system and method |
DE10310023A1 (de) * | 2003-02-28 | 2004-09-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium |
US7142250B1 (en) * | 2003-04-05 | 2006-11-28 | Apple Computer, Inc. | Method and apparatus for synchronizing audio and video streams |
US20080317264A1 (en) * | 2005-12-21 | 2008-12-25 | Jordan Wynnychuk | Device and Method for Capturing Vocal Sound and Mouth Region Images |
EP2030171A1 (en) * | 2006-04-10 | 2009-03-04 | Avaworks Incorporated | Do-it-yourself photo realistic talking head creation system and method |
US20110311144A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
CN103493097B (zh) * | 2011-04-15 | 2015-09-16 | 爱信精机株式会社 | 眼睑检测装置、眼睑检测方法 |
US20230068798A1 (en) * | 2021-09-02 | 2023-03-02 | Amazon Technologies, Inc. | Active speaker detection using image data |
WO2024073803A1 (en) * | 2022-10-05 | 2024-04-11 | Tepy Pty Ltd | Soundless speech recognition method, system and device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3662374A (en) * | 1970-07-13 | 1972-05-09 | Computer Image Corp | Automatic generation of a mouth display and animation of the mouth in response to sound |
US4104625A (en) * | 1977-01-12 | 1978-08-01 | Atari, Inc. | Apparatus for providing facial image animation |
JPS6234880U (ja) * | 1985-08-20 | 1987-02-28 |
-
1985
- 1985-11-14 GB GB858528143A patent/GB8528143D0/en active Pending
-
1986
- 1986-11-10 EP EP86308732A patent/EP0225729B1/en not_active Expired
- 1986-11-10 AT AT86308732T patent/ATE72083T1/de not_active IP Right Cessation
- 1986-11-10 DE DE8686308732T patent/DE3683609D1/de not_active Expired - Lifetime
- 1986-11-10 ES ES198686308732T patent/ES2029230T3/es not_active Expired - Lifetime
- 1986-11-14 US US06/930,473 patent/US4841575A/en not_active Expired - Lifetime
- 1986-11-14 CA CA000523012A patent/CA1263187A/en not_active Expired
- 1986-11-14 JP JP61271687A patent/JP2589478B2/ja not_active Expired - Lifetime
-
1992
- 1992-03-11 GR GR920400400T patent/GR3004011T3/el unknown
-
1995
- 1995-11-01 JP JP7309935A patent/JP2753599B2/ja not_active Expired - Lifetime
-
1996
- 1996-07-18 HK HK128696A patent/HK128696A/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE3683609D1 (de) | 1992-03-05 |
ES2029230T3 (es) | 1992-08-01 |
GR3004011T3 (ja) | 1993-03-31 |
ATE72083T1 (de) | 1992-02-15 |
JPH08237655A (ja) | 1996-09-13 |
US4841575A (en) | 1989-06-20 |
GB8528143D0 (en) | 1985-12-18 |
JPS62120179A (ja) | 1987-06-01 |
EP0225729A1 (en) | 1987-06-16 |
EP0225729B1 (en) | 1992-01-22 |
HK128696A (en) | 1996-07-26 |
CA1263187A (en) | 1989-11-21 |
JP2753599B2 (ja) | 1998-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2589478B2 (ja) | 画像合成装置 | |
CN113192161B (zh) | 一种虚拟人形象视频生成方法、系统、装置及存储介质 | |
US11211060B2 (en) | Using machine-learning models to determine movements of a mouth corresponding to live speech | |
CN110866968A (zh) | 基于神经网络生成虚拟人物视频的方法及相关设备 | |
US6925438B2 (en) | Method and apparatus for providing an animated display with translated speech | |
US5657426A (en) | Method and apparatus for producing audio-visual synthetic speech | |
US7136818B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US7844467B1 (en) | System and method of providing conversational visual prosody for talking heads | |
EP0860811A2 (en) | Automated speech alignment for image synthesis | |
US6014625A (en) | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model | |
CN114144790A (zh) | 具有三维骨架正则化和表示性身体姿势的个性化语音到视频 | |
KR20020022504A (ko) | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 | |
EP0674315A1 (en) | Audio visual dubbing system and method | |
JPH089372A (ja) | 受信ビデオ信号のフレーム伝送速度を高める装置 | |
WO1997036288A1 (en) | Image synthesis | |
JP2795084B2 (ja) | 口形状画像合成方法及び装置 | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
EP0056507B1 (en) | Apparatus and method for creating visual images of lip movements | |
Heisler et al. | Making an android robot head talk | |
JP4801251B2 (ja) | 映像/音声ずれ補正方法及び装置 | |
US11935323B2 (en) | Imaging device and imaging method using feature compensation | |
US20230245644A1 (en) | End-to-end modular speech synthesis systems and methods | |
Kuriakose et al. | Dip Into: A Novel Method for Visual Speech Recognition using Deep Learning | |
Brooke et al. | Making talking heads and speechreading with computers | |
WO2023126975A1 (en) | Device for synchronization of features of digital objects with audio contents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |