JP4087935B2 - 唇動きパラメータ発生装置 - Google Patents

唇動きパラメータ発生装置 Download PDF

Info

Publication number
JP4087935B2
JP4087935B2 JP34757997A JP34757997A JP4087935B2 JP 4087935 B2 JP4087935 B2 JP 4087935B2 JP 34757997 A JP34757997 A JP 34757997A JP 34757997 A JP34757997 A JP 34757997A JP 4087935 B2 JP4087935 B2 JP 4087935B2
Authority
JP
Japan
Prior art keywords
lip
model
dimensional
image
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34757997A
Other languages
English (en)
Other versions
JPH10247254A (ja
Inventor
敏燮 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WiniaDaewoo Co Ltd
Original Assignee
Daewoo Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1019960078100A external-priority patent/KR100220598B1/ko
Priority claimed from KR1019960078101A external-priority patent/KR100220699B1/ko
Application filed by Daewoo Electronics Co Ltd filed Critical Daewoo Electronics Co Ltd
Publication of JPH10247254A publication Critical patent/JPH10247254A/ja
Application granted granted Critical
Publication of JP4087935B2 publication Critical patent/JP4087935B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、顔面表現情報を符号化する装置に関し、特に、3次元モデルベース符号化システムにおける唇動きパラメータを発生する唇動きパラメータ発生装置に関する。
【0002】
【従来の技術】
通常、テレビ電話、電子会議及び高精細度テレビジョンシステムのようなディジタルビデオシステムにおいて、映像フレーム信号内の映像ライン信号が「画素」と呼ばれる一連のディジタルデータからなっているため、各映像フレーム信号を表現するのには大量のディジタルデータが必要である。
【0003】
しかしながら、通常の伝送チャネル上の利用可能な周波数帯域幅は制限されているので、そのチャネルを通じて大量のディジタルデータを伝送するためには、特に、人間の形状をチャネルを通じて伝送するテレビ電話及び電子会議のような低ビットレートの映像信号符号化器の場合、様々なデータ圧縮技法を用いて伝送すべきデータの量を圧縮するか減らさなければならない。
【0004】
映像符号化システムにおいては、通常、連続的に変化する画素から構成される映像が伝送される。しかし、3次元モデルベース符号化システムにおいては、特定の動きパラメータが映像から取出されて、受信端に伝送される。受信端においては、映像(例えば、顔面映像)を再構成するためには、伝送された動きパラメータが、以前に受信端に伝送された人の基本的な顔面の形状及び頭に対する一般的な3次元モデルのようなデータと組み合せられる。
【0005】
テレビ電話及び電子会議システムにおいて、ビデオ映像は、主に、頭及び肩の画面(即ち、人間の上体)から構成される。さらに、視聴者が最も感心を持つ対象物は人間の顔であるだろうから、視聴者は、特に、人間が映像画面内で話している場合に、背景画面または他の詳細なものに対して動いている部分(即ち、唇、顎及び頭等)を有する人間の口元に注目するはずである。従って、顔面形状に対する一般的な情報のみが伝送される場合、デジタルデータの量が非常に減少され得る。
【0006】
3次元モデルベース符号化システムにおいて、口の形状、特に、唇の形状は、顔面の重要な視覚情報を有する。人間のメッセージ及び感情は、唇の形状によって良く伝達され得る。
【0007】
図1を参照すると、デジタル映像を符号化する従来の唇動きパラメータ発生装置100の概略的なブロック図が示されている。
【0008】
唇映像取出部101は、顔面の映像のようなデジタル入力信号から予め定められた特徴部分(例えば、口元)に対応する画素の信号を取出して、各特徴信号を、位置情報検出部105及び形状情報検出部120に、各々、供給する。
【0009】
位置情報検出部105は、特徴部分を構成する個人的要素の実際位置(例えば、上部及び下部の唇)を探索して、位置情報表示部125に供給する。
【0010】
位置情報表示部125は、実際位置を絶対座標に変換する。
【0011】
形状情報検出部120は、特徴部分の構成要素の形状を分析し、構成要素の終端点及び中心点の適切な特徴点を検出して、これを形状情報表示部130に伝送する。
【0012】
形状情報表示部130は、特徴点の座標を検出し、口の大きさと、口の映像などの形状を表す相関値とを表す2つの終端点の間の長さの出力パラメータを計算する。
【0013】
しかし、個々の人間は異なる唇の形状を有するので、新たな映像が入力される場合、上記装置は適切に動作しない。従って、3次元唇モデルが個々人の実際唇映像に最適に近似化されるように変換する必要がある。
【0014】
【発明が解決しようとする課題】
従って、本発明の主な目的は、3次元モデルベース符号化システムにおける個々人の唇動きパラメータを効率的に発生し得る唇動きパラメータ発生装置を提供することにある。
【0015】
【課題を解決するための手段】
上記の目的を達成するために、本発明によれば、次元のモデルベース符号化システムにおける音声信号及び映像信号を用いて、人の唇の映像である実唇映像と2次元の変換唇モデルとの間の距離である唇動きパラメータを発生する唇動きパラメータ発生装置であって、前記実唇映像は連続して変化する映像であり、前記唇動きパラメータ発生装置が、前記人の音声信号から音節を認識して、認識音節及び選択信号を発生する音節認識手段と、前記映像信号から前記人の実唇映像を取出す実際唇映像取出手段と、無表情で黙っている人の正顔面を表す基本的な顔面映像、前記人の基本的な唇の位置、及び一般的な3次元唇モデルを用いて、前記人に対する特徴的な3次元唇モデルを発生する3次元唇モデル発生手段と、前記特徴的な3次元唇モデルを特徴的な2次元唇モデルに変換し、前記特徴的な2次元唇モデルと前記実唇映像とを比較して、回転角度を計算して、回転された2次元唇モデル及び前記回転角度を発生する変換手段と、前記音節に基づいて前記回転された2次元唇モデルを再構成して、再構成2次元唇モデルを発生する再構成手段と、前記唇動きパラメータ、前記音声信号及び前記回転角度を復号化器に伝送する伝送手段とを有することを特徴とする唇動きパラメータ発生装置が提供される。
【0016】
【発明の実施の形態】
以下、本発明の好適実施例について図面を参照しながらより詳しく説明する。
【0017】
図2を参照すると、本発明による唇動きパラメータを発生する唇動きパラメータ発生装置200のブロック図が示されている。ここで、唇動きパラメータは、実唇映像と変換された2次元唇モデルとの間の差分を表し、実唇映像は、連続的に変化するスクリーン上にディスプレーされる人間の唇の映像である。
【0018】
最初、一旦通信チャネルが接続されると、基本的な顔面映像発生部40及び基本唇位置発生部45から、人間の基本的な顔面映像及び基本唇の位置が、人間の全体的な顔面の映像を再構成するために、受信端の復号化器にただ一度伝送される。ここで、基本的な顔面映像は、無表情で黙っている人の正顔面である。
【0019】
その後、音声信号が、マイクロホン(図示せず)からラインL10を介してA/D変換器10及びMUX75に各々入力され、映像信号は、カメラ(図示せず)から映像分割部20に供給される。
【0020】
A/D変換器10は、音声信号をデジタル化音声信号に変換して、それを音声認識部15に伝達する。同時に、映像分割部20は、映像の光分布を用いた従来の分割方法を用いて、本発明の好適実施例による予め定められた特徴部分の例である実唇映像のエッジを取出し、ラインL20を介して、唇の境界を表す輪郭線及び輪郭線の内部情報を、回転角度計算部60及び唇動き計算部70に、各々、供給する。
【0021】
然る後、音声認識部15は、本特許出願と出願人を同じくする米国特許出願番号第5,675,705号明細書に「SPECTROGRAM−FEATURE−BASED SPEECH SYLLABLE AND WORD RECOGNITION USING SYLLABLE LANGUAGE DICTIONARY」との名称で開示されているように、従来の音声認識方法を用いて、デジタル音声信号から音節を取出して、その音節を音声認識部30に供給する。さらに、音声認識部15は、時間軸及び周波数軸に沿って音節のエネルギー量が人が話していることを表す予め定められた閾値より大きくなった場合は、第1選択信号をスイッチ65に、そのエネルギー量が人が感情を表現することを表す予め定められた閾値以下になった場合は、第2選択信号を、スイッチ65に、各々、供給する(米国特許出願番号第5,675,705号、参照)。
【0022】
音声認識部30は、上記引用特許に開示されたように、従来の音声認識方法を用いて、音声認識部15から入力された音節を認識し、その音節を唇再構成部35に供給する。
【0023】
一方、基本的な顔面映像発生部40及び基本唇位置発生部45は、基本的な顔面映像及び基本的な顔面の唇の位置情報を基本的唇整合部55に、各々、供給する。その後、頭に対する一般的な3次元モデルを有する3次元モデル発生部50が、3次元モデルの唇領域を基本的唇整合部55に供給する。ここで、唇動きパラメータ発生装置200に対する3次元唇モデルは、図3Aに示した複数の多角形と接続される網形状におけるワイヤーフレームの3次元コンピュータグラフィックとして格納される。
【0024】
基本的唇整合部55は、後述する方法を用いて、3次元モデルの唇を人間の基本的な唇に整合させ、その整合結果を個々人に対応する特徴的な3次元唇モデルとして回転角度計算部60に供給する。
【0025】
図3A及び図3Bは、3次元唇モデル200を個人の基本唇映像300に整合させるためのプロセスである。最初、図3Aに示したように、3次元唇モデル200の輪郭線上に位置した各点(例えば、3次元唇モデルの左端点及び右端点)21、23)、3次元唇モデルの上部領域内の両尖頭点(41、43)、及び3次元唇モデルの中心領域を長手方向に横切る3つの点(31、35、37)のうち、最も明確な特徴点が、最優先順位を有する特徴点として選択される。しかる後、図3Bに示したように、3次元唇モデル200と基本唇映像300との間の最も類似な領域を、各特徴点に対して、正規探索範囲内で探索し、その特徴点を基本唇映像300の輪郭線上に移動させる。続いて、3次元唇モデルの輪郭線が、移動された特徴点に基づいて再構成される。残余の特徴点に対して、再構成3次元唇モデルの輪郭線上の点と基本唇の近似領域の点との間の距離が、予め定められた閾値より大きい場合、上記方法が反復的に行われる。
【0026】
回転角度計算部60は、基本的唇整合部55からの特徴的な3次元唇モデルを特徴的な2次元唇モデルに変換し、従来の方法(例えば、アフィン変換方法)を用いて、映像分割部20から入力された実唇映像を特徴的な2次元唇モデルと比較することによって回転角度を計算し、その回転角度をMUX75に供給する。その後、回転角度によって回転された2次元唇モデルを、唇再構成部35及びスイッチ65に、各々、供給する。
【0027】
唇再構成部35は、音声認識部30にて認識音節に基づいて規則的な比率で、回転角度計算部60からの回転された2次元唇モデルの形状を、拡大するか縮小させ、その結果を再構成2次元唇モデルとしてスイッチ65に供給する。
【0028】
図4は、音声認識部30にて認識された基本的音声音節による複数の代表的な唇表現パターンである。ここで、基本的音声音節は、人間音声システムによって7つの可能な領域から求められる。例えば、「a」音が音声認識部30で認識される場合は、回転された2次元唇モデルが、唇再構成部35の左右方向より上下方向に拡張する。人の話している場合は、2次元唇モデルが、認識音節を用いて実唇映像に近接されて、符号化過程におけるデータの量を非常に減少させることができる。図4において、閉鎖音節は子音で終了される音節を意味する。
【0029】
スイッチ65は、音声認識部15から入力される第1選択信号に応じて、唇再構成部35からの再構成2次元唇モデル、または音声認識部15から入力される第2選択信号に応じて、回転角度計算部60からの回転された2次元唇モデルのうちの何れか1つを選択して、選択した2次元唇モデルを唇動き計算部70に供給する。
【0030】
唇動き計算部70は、図5に示した次のパラメータ(即ち、2次元唇モデルの両終端点の右左動きパラメータ)(L1、L2)、2次元唇モデルの中心領域内の最上位点及び最下位点の上下動きパラメータ(L3、L4)、2次元唇モデルの中心領域内の最上位点及び最下位点の前後方動きパラメータ(L5、L6)、2次元唇モデルの終端点の上下動きパラメータ(L7、L8))に対して、人が話している場合に対応する実唇映像及び再構成2次元唇モデルとの間の動きの量、または人が感情を表現する場合に対応する実唇映像と回転された2次元唇モデルとの間の動きの量を計算して、その動きの量を動きパラメータとして、MUX75に供給する。唇動きパラメータは、予め定められた計算範囲(例えば、−1より1まで)内で選択され、中間値「0」は、2次元唇モデルに対応する実唇映像を意味する。
【0031】
MUX75は、唇動きパラメータ、音声信号、及び回転角度を多重化して、それを受信端の復号化器に伝送する。
【0032】
受信端の復号化器は、受信端の第1段において、その自体の3次元唇モデルと伝送された基本的な顔面映像の写しとを組合せて、基本的な顔面に対する3次元唇モデルの写しを発生する。続いて、3次元唇モデルが2次元唇モデルに変換される。然る後、伝送データストリームにおいて、回転角度及び音声信号によって、2次元唇モデルが唇動きパラメータ発生装置200における回転角度計算部60及び唇再構成部35と同様な方法にて回転され再構成される。最後、唇動きパラメータが、2次元唇モデルに加算されて、実際顔面の映像の写しを構成する。
【0033】
上記において、本発明の好適な実施の形態について説明したが、本発明の請求範囲を逸脱することなく、当業者は種々の改変をなし得るであろう。
【0034】
【発明の効果】
従って、本発明によれば、3次元モデルベース符号化システムにおける個々人の唇動きパラメータを効率的に発生することができる。
【図面の簡単な説明】
【図1】デジタル映像を符号化するための従来の唇動きパラメータ発生装置のブロック図。
【図2】本発明による個々人の唇動きパラメータ発生装置のブロック図。
【図3】A及びBよりなり、 A及びBは、各々、本発明によって個々人の基本唇映像の3次元唇モデルへの整合を説明するための模式図。
【図4】本発明の音節による複数の唇パターンを示す模式図。
【図5】本発明による複数の唇動きパラメータを示す模式図。
【符号の説明】
10 A/D変換器
15 音声認識部
20 映像分割部
30 音声認識部
35 唇再構成部
40 基本的顔面映像発生部
45 基本的唇位置発生部
50 3次元モデル発生部
55 基本的唇整合部
60 回転角度計算部
65 スイッチ
70 唇動き計算部
75 マルチプレクサ(MUX)
100 唇動きパラメータ発生装置
101 唇映像取出部
105 位置情報検出部
120 形状情報検出部
125 位置情報表示部
130 形状情報表示部
200 唇動きパラメータ発生装置
300 基本唇映像

Claims (10)

  1. 3次元のモデルベース符号化システムにおける音声信号及び映像信号を用いて、人の唇の映像である実唇映像と2次元の変換唇モデルとの間の距離である唇動きパラメータを発生する唇動きパラメータ発生装置であって、
    前記実唇映像は連続して変化する映像であり、
    前記唇動きパラメータ発生装置が、
    前記人の音声信号から音節を認識して、認識音節及び選択信号を発生する音節認識手段と、
    前記映像信号から前記人の実唇映像を取出す実際唇映像取出手段と、
    無表情で黙っている人の正顔面を表す基本的な顔面映像、前記人の基本的な唇の位置、及び一般的な3次元唇モデルを用いて、前記人に対する特徴的な3次元唇モデルを発生する3次元唇モデル発生手段と、
    前記特徴的な3次元唇モデルを特徴的な2次元唇モデルに変換し、前記特徴的な2次元唇モデルと前記実唇映像とを比較して、回転角度を計算して、回転された2次元唇モデル及び前記回転角度を発生する変換手段と、
    前記音節に基づいて前記回転された2次元唇モデルを再構成して、再構成2次元唇モデルを発生する再構成手段と、
    前記唇動きパラメータ、前記音声信号及び前記回転角度を復号化器に伝送する伝送手段とを有することを特徴とする唇動きパラメータ発生装置。
  2. 前記音節認識手段が、
    前記音声信号をデジタル音声信号に変換する音声信号変換手段と、
    前記デジタル音声信号から音節を認識する音声認識手段と、
    時間軸及び周波数軸に沿って前記認識音節のエネルギーの量が、予め定められた閾値より大きくなる場合、第1選択信号を、前記認識音節のエネルギーの量が予め定められた閾値以下の場合、第2選択信号を、各々、発生する選択信号発生手段とを有することを特徴とする請求項1に記載の唇動きパラメータ発生装置。
  3. 前記実際唇映像取出手段が、分割方法を用いることを特徴とする請求項2に記載の唇動きパラメータ発生装置。
  4. 前記3次元唇モデル発生手段が、
    前記3次元唇モデルの輪郭線上で複数の特徴点を選択して、各特徴点に優先順位を割当てる特徴点選択手段と、
    正規探索範囲内で、前記3次元唇モデルと、前記人の基本的な唇の位置及び前記基本的な顔面映像から得られる前記基本的な顔面映像のなかの唇映像である基本的な唇映像との間の最も類似な領域を探索して、前記各特徴点を前記基本的な唇映像の輪郭線上に移動させる特徴点移動手段と、
    前記移動された特徴点に基づいて、前記3次元唇モデルの輪郭線を再構成する輪郭線再構成手段と、
    再構成された前記3次元唇モデルの点と、前記基本的な唇映像の最も類似な領域の点との間の距離が、予め定められた閾値より大きい場合、残余の特徴点に対して、前記特徴点移動手段、及び前記輪郭線再構成手段を反復的に適用する反復手段とを有することを特徴とする請求項3に記載の唇動きパラメータ発生装置。
  5. 前記特徴点が、
    前記3次元唇モデルの左端点及び右端点と、
    前記3次元唇モデルの上部領域における尖頭点と、
    前記3次元唇モデルの前記輪郭線上に位置する点のうちの前記3次元唇モデルの中心領域を長手方向で横切る点とを有することを特徴とする請求項4に記載の唇動きパラメータ発生装置。
  6. 前記再構成2次元唇モデルが、7つの基本的音声音節に基づいて再構成されることを特徴とする請求項5に記載の唇動きパラメータ発生装置。
  7. 前記回転角度が、アフィン変換技法を用いて計算されることを特徴とする請求項6に記載の唇動きパラメータ発生装置。
  8. 前記伝送手段が、
    予め定められた計算範囲内で、前記実唇映像と、前記3次元唇モデル発生手段からの前記第1選択信号に応じる前記再構成2次元唇モデル、及び前記3次元唇モデル発生手段からの前記第2選択信号に応じる前記回転された2次元唇モデルのうちのいずれか一つと、の間の動きの量を計算して、前記唇動きパラメータを発生する動き量計算手段と、
    前記唇動きパラメータ、前記音声信号及び前記回転角度を多重化する多重化手段とを有することを特徴とする請求項7に記載の唇動きパラメータ発生装置。
  9. 前記唇動きパラメータが、
    前記2次元唇モデルの左端点及び右端点共の上下動きパラメータ及び左右動きパラメータと、
    前記2次元唇モデルの中央領域における最上位点及び最下位点の上下動きパラメータ及び前後方動きパラメータとを有することを特徴とする請求項8に記載の唇動きパラメータ発生装置。
  10. 前記予め定められた計算範囲が、−1より1までであることを特徴とする請求項9に記載の唇動きパラメータ発生装置。
JP34757997A 1996-12-30 1997-12-17 唇動きパラメータ発生装置 Expired - Fee Related JP4087935B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1996-78101 1996-12-30
KR1996-78100 1996-12-30
KR1019960078100A KR100220598B1 (ko) 1996-12-30 1996-12-30 3차원 모델 기반 코딩 시스템의 입술 변형 변수 추출 장치
KR1019960078101A KR100220699B1 (ko) 1996-12-30 1996-12-30 3 차원 모델 기반 코딩 시스템의 입술 형태 정보 추출 장치

Publications (2)

Publication Number Publication Date
JPH10247254A JPH10247254A (ja) 1998-09-14
JP4087935B2 true JP4087935B2 (ja) 2008-05-21

Family

ID=26632427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34757997A Expired - Fee Related JP4087935B2 (ja) 1996-12-30 1997-12-17 唇動きパラメータ発生装置

Country Status (4)

Country Link
US (1) US6014625A (ja)
JP (1) JP4087935B2 (ja)
CN (1) CN1167276C (ja)
GB (1) GB2320838B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039046A (zh) * 2017-03-21 2017-08-11 河南理工大学 一种基于特征融合的语音声效模式检测方法
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
KR19990039650A (ko) * 1997-11-13 1999-06-05 전주범 입술 애니메이션을 위한 텍스쳐 맵핑 방법
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
US7257528B1 (en) 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6975988B1 (en) 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
US9400921B2 (en) * 2001-05-09 2016-07-26 Intel Corporation Method and system using a data-driven model for monocular face tracking
US20020198716A1 (en) * 2001-06-25 2002-12-26 Kurt Zimmerman System and method of improved communication
WO2003021788A2 (en) * 2001-08-30 2003-03-13 America Online Incorporated Component-based, adaptive stroke-order system
JP3762750B2 (ja) * 2003-01-07 2006-04-05 コナミ株式会社 画像表示制御プログラム
CN1967657B (zh) * 2005-11-18 2011-06-08 成都索贝数码科技股份有限公司 节目制作中的说话人声音自动跟踪变调系统和方法
WO2007071025A1 (en) * 2005-12-21 2007-06-28 Jimmy Proximity Inc. Device and method for capturing vocal sound and mouth region images
CN100403338C (zh) * 2006-09-14 2008-07-16 浙江大学 一种基于视频流的人脸表情幻想方法
KR101760345B1 (ko) * 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
CN102271241A (zh) * 2011-09-02 2011-12-07 北京邮电大学 一种基于面部表情/动作识别的图像通信方法及系统
JP5902632B2 (ja) 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US20160205406A1 (en) * 2013-09-30 2016-07-14 Coolpad Software Tech (Shenzhen) Co., Ltd Image encoding and decoding method and system and terminal
CN104935860A (zh) * 2014-03-18 2015-09-23 北京三星通信技术研究有限公司 视频通话实现方法及装置
CN107679449B (zh) * 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN109949390B (zh) * 2017-12-21 2022-09-09 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
GB2283636B (en) * 1992-06-29 1996-04-24 British Telecomm Coding and decoding video signals
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
CA2162199A1 (en) * 1994-11-07 1996-05-08 Homer H. Chen Acoustic-assisted image processing
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039046A (zh) * 2017-03-21 2017-08-11 河南理工大学 一种基于特征融合的语音声效模式检测方法
CN107039046B (zh) * 2017-03-21 2020-03-10 河南理工大学 一种基于特征融合的语音声效模式检测方法
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Also Published As

Publication number Publication date
CN1167276C (zh) 2004-09-15
GB9725873D0 (en) 1998-02-04
JPH10247254A (ja) 1998-09-14
GB2320838A (en) 1998-07-01
CN1189059A (zh) 1998-07-29
GB2320838B (en) 2001-05-16
US6014625A (en) 2000-01-11

Similar Documents

Publication Publication Date Title
JP4087935B2 (ja) 唇動きパラメータ発生装置
US6330023B1 (en) Video signal processing systems and methods utilizing automated speech analysis
Pearson Developments in model-based video coding
Chen et al. Audio-visual integration in multimodal communication
US7433490B2 (en) System and method for real time lip synchronization
WO1998053438A1 (en) Segmentation and sign language synthesis
JPH05153581A (ja) 顔画像符号化方式
Zhou et al. An image-based visual speech animation system
CN112785671B (zh) 虚假人脸动画合成方法
Boubekker Bandwidth Reduction for the Transmission of Sign Language Over Telephone Lines
Rao et al. Audio-to-visual conversion for multimedia communication
EP0710929A2 (en) Acoustic-assisted image processing
Kumar et al. Robust one shot audio to video generation
KR100229538B1 (ko) 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치
Wang et al. Speech Driven Talking Head Generation via Attentional Landmarks Based Representation.
JPH0714208B2 (ja) 動画像伝送方式
WO2001029767A2 (en) System and method for three-dimensional modeling
Morishima et al. Speech-to-image media conversion based on VQ and neural network
Lavagetto et al. Lip motion modeling and speech driven estimation
Chen Technologies for building networked collaborative environments
Bailly et al. Talking faces for MPEG-4 compliant scalable face-to-face telecommunication
Lavagetto et al. Synthetic and hybrid imaging in the HUMANOID and VIDAS projects
CN117319628A (zh) 一种支持户外led屏的实时互动裸眼3d虚拟场景系统
Bailly et al. Hearing by eyes thanks to the “labiophone”: exchanging speech movements
Lin et al. A low bit-rate web-enabled synthetic head with speech-driven facial animation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees