JP4087935B2

JP4087935B2 - 唇動きパラメータ発生装置

Info

Publication number: JP4087935B2
Application number: JP34757997A
Authority: JP
Inventors: 敏燮李
Original assignee: Daewoo Electronics Co Ltd
Current assignee: WiniaDaewoo Co Ltd
Priority date: 1996-12-30
Filing date: 1997-12-17
Publication date: 2008-05-21
Anticipated expiration: 2017-12-17
Also published as: CN1167276C; GB9725873D0; JPH10247254A; GB2320838A; CN1189059A; GB2320838B; US6014625A

Description

【０００１】
【発明の属する技術分野】
本発明は、顔面表現情報を符号化する装置に関し、特に、３次元モデルベース符号化システムにおける唇動きパラメータを発生する唇動きパラメータ発生装置に関する。
【０００２】
【従来の技術】
通常、テレビ電話、電子会議及び高精細度テレビジョンシステムのようなディジタルビデオシステムにおいて、映像フレーム信号内の映像ライン信号が「画素」と呼ばれる一連のディジタルデータからなっているため、各映像フレーム信号を表現するのには大量のディジタルデータが必要である。
【０００３】
しかしながら、通常の伝送チャネル上の利用可能な周波数帯域幅は制限されているので、そのチャネルを通じて大量のディジタルデータを伝送するためには、特に、人間の形状をチャネルを通じて伝送するテレビ電話及び電子会議のような低ビットレートの映像信号符号化器の場合、様々なデータ圧縮技法を用いて伝送すべきデータの量を圧縮するか減らさなければならない。
【０００４】
映像符号化システムにおいては、通常、連続的に変化する画素から構成される映像が伝送される。しかし、３次元モデルベース符号化システムにおいては、特定の動きパラメータが映像から取出されて、受信端に伝送される。受信端においては、映像（例えば、顔面映像）を再構成するためには、伝送された動きパラメータが、以前に受信端に伝送された人の基本的な顔面の形状及び頭に対する一般的な３次元モデルのようなデータと組み合せられる。
【０００５】
テレビ電話及び電子会議システムにおいて、ビデオ映像は、主に、頭及び肩の画面（即ち、人間の上体）から構成される。さらに、視聴者が最も感心を持つ対象物は人間の顔であるだろうから、視聴者は、特に、人間が映像画面内で話している場合に、背景画面または他の詳細なものに対して動いている部分(即ち、唇、顎及び頭等)を有する人間の口元に注目するはずである。従って、顔面形状に対する一般的な情報のみが伝送される場合、デジタルデータの量が非常に減少され得る。
【０００６】
３次元モデルベース符号化システムにおいて、口の形状、特に、唇の形状は、顔面の重要な視覚情報を有する。人間のメッセージ及び感情は、唇の形状によって良く伝達され得る。
【０００７】
図１を参照すると、デジタル映像を符号化する従来の唇動きパラメータ発生装置１００の概略的なブロック図が示されている。
【０００８】
唇映像取出部１０１は、顔面の映像のようなデジタル入力信号から予め定められた特徴部分（例えば、口元）に対応する画素の信号を取出して、各特徴信号を、位置情報検出部１０５及び形状情報検出部１２０に、各々、供給する。
【０００９】
位置情報検出部１０５は、特徴部分を構成する個人的要素の実際位置（例えば、上部及び下部の唇）を探索して、位置情報表示部１２５に供給する。
【００１０】
位置情報表示部１２５は、実際位置を絶対座標に変換する。
【００１１】
形状情報検出部１２０は、特徴部分の構成要素の形状を分析し、構成要素の終端点及び中心点の適切な特徴点を検出して、これを形状情報表示部１３０に伝送する。
【００１２】
形状情報表示部１３０は、特徴点の座標を検出し、口の大きさと、口の映像などの形状を表す相関値とを表す２つの終端点の間の長さの出力パラメータを計算する。
【００１３】
しかし、個々の人間は異なる唇の形状を有するので、新たな映像が入力される場合、上記装置は適切に動作しない。従って、３次元唇モデルが個々人の実際唇映像に最適に近似化されるように変換する必要がある。
【００１４】
【発明が解決しようとする課題】
従って、本発明の主な目的は、３次元モデルベース符号化システムにおける個々人の唇動きパラメータを効率的に発生し得る唇動きパラメータ発生装置を提供することにある。
【００１５】
【課題を解決するための手段】
上記の目的を達成するために、本発明によれば、３次元のモデルベース符号化システムにおける音声信号及び映像信号を用いて、人の唇の映像である実唇映像と２次元の変換唇モデルとの間の距離である唇動きパラメータを発生する唇動きパラメータ発生装置であって、前記実唇映像は連続して変化する映像であり、前記唇動きパラメータ発生装置が、前記人の音声信号から音節を認識して、認識音節及び選択信号を発生する音節認識手段と、前記映像信号から前記人の実唇映像を取出す実際唇映像取出手段と、無表情で黙っている人の正顔面を表す基本的な顔面映像、前記人の基本的な唇の位置、及び一般的な３次元唇モデルを用いて、前記人に対する特徴的な３次元唇モデルを発生する３次元唇モデル発生手段と、前記特徴的な３次元唇モデルを特徴的な２次元唇モデルに変換し、前記特徴的な２次元唇モデルと前記実唇映像とを比較して、回転角度を計算して、回転された２次元唇モデル及び前記回転角度を発生する変換手段と、前記音節に基づいて前記回転された２次元唇モデルを再構成して、再構成２次元唇モデルを発生する再構成手段と、前記唇動きパラメータ、前記音声信号及び前記回転角度を復号化器に伝送する伝送手段とを有することを特徴とする唇動きパラメータ発生装置が提供される。
【００１６】
【発明の実施の形態】
以下、本発明の好適実施例について図面を参照しながらより詳しく説明する。
【００１７】
図２を参照すると、本発明による唇動きパラメータを発生する唇動きパラメータ発生装置２００のブロック図が示されている。ここで、唇動きパラメータは、実唇映像と変換された２次元唇モデルとの間の差分を表し、実唇映像は、連続的に変化するスクリーン上にディスプレーされる人間の唇の映像である。
【００１８】
最初、一旦通信チャネルが接続されると、基本的な顔面映像発生部４０及び基本唇位置発生部４５から、人間の基本的な顔面映像及び基本唇の位置が、人間の全体的な顔面の映像を再構成するために、受信端の復号化器にただ一度伝送される。ここで、基本的な顔面映像は、無表情で黙っている人の正顔面である。
【００１９】
その後、音声信号が、マイクロホン(図示せず)からラインＬ１０を介してＡ／Ｄ変換器１０及びＭＵＸ７５に各々入力され、映像信号は、カメラ（図示せず）から映像分割部２０に供給される。
【００２０】
Ａ／Ｄ変換器１０は、音声信号をデジタル化音声信号に変換して、それを音声認識部１５に伝達する。同時に、映像分割部２０は、映像の光分布を用いた従来の分割方法を用いて、本発明の好適実施例による予め定められた特徴部分の例である実唇映像のエッジを取出し、ラインＬ２０を介して、唇の境界を表す輪郭線及び輪郭線の内部情報を、回転角度計算部６０及び唇動き計算部７０に、各々、供給する。
【００２１】
然る後、音声認識部１５は、本特許出願と出願人を同じくする米国特許出願番号第5，675，705号明細書に「SPECTROGRAM−FEATURE−BASED SPEECH SYLLABLE AND WORD RECOGNITION USING SYLLABLE LANGUAGE DICTIONARY」との名称で開示されているように、従来の音声認識方法を用いて、デジタル音声信号から音節を取出して、その音節を音声認識部30に供給する。さらに、音声認識部15は、時間軸及び周波数軸に沿って音節のエネルギー量が人が話していることを表す予め定められた閾値より大きくなった場合は、第１選択信号をスイッチ６５に、そのエネルギー量が人が感情を表現することを表す予め定められた閾値以下になった場合は、第２選択信号を、スイッチ６５に、各々、供給する（米国特許出願番号第5，675，705号、参照）。
【００２２】
音声認識部３０は、上記引用特許に開示されたように、従来の音声認識方法を用いて、音声認識部１５から入力された音節を認識し、その音節を唇再構成部３５に供給する。
【００２３】
一方、基本的な顔面映像発生部４０及び基本唇位置発生部４５は、基本的な顔面映像及び基本的な顔面の唇の位置情報を基本的唇整合部５５に、各々、供給する。その後、頭に対する一般的な３次元モデルを有する３次元モデル発生部５０が、３次元モデルの唇領域を基本的唇整合部５５に供給する。ここで、唇動きパラメータ発生装置２００に対する３次元唇モデルは、図３Ａに示した複数の多角形と接続される網形状におけるワイヤーフレームの３次元コンピュータグラフィックとして格納される。
【００２４】
基本的唇整合部５５は、後述する方法を用いて、３次元モデルの唇を人間の基本的な唇に整合させ、その整合結果を個々人に対応する特徴的な３次元唇モデルとして回転角度計算部６０に供給する。
【００２５】
図３Ａ及び図３Ｂは、３次元唇モデル２００を個人の基本唇映像３００に整合させるためのプロセスである。最初、図３Ａに示したように、３次元唇モデル２００の輪郭線上に位置した各点（例えば、３次元唇モデルの左端点及び右端点）２１、２３)、３次元唇モデルの上部領域内の両尖頭点（４１、４３）、及び３次元唇モデルの中心領域を長手方向に横切る３つの点（３１、３５、３７）のうち、最も明確な特徴点が、最優先順位を有する特徴点として選択される。しかる後、図３Ｂに示したように、３次元唇モデル２００と基本唇映像３００との間の最も類似な領域を、各特徴点に対して、正規探索範囲内で探索し、その特徴点を基本唇映像３００の輪郭線上に移動させる。続いて、３次元唇モデルの輪郭線が、移動された特徴点に基づいて再構成される。残余の特徴点に対して、再構成３次元唇モデルの輪郭線上の点と基本唇の近似領域の点との間の距離が、予め定められた閾値より大きい場合、上記方法が反復的に行われる。
【００２６】
回転角度計算部６０は、基本的唇整合部５５からの特徴的な３次元唇モデルを特徴的な２次元唇モデルに変換し、従来の方法（例えば、アフィン変換方法）を用いて、映像分割部２０から入力された実唇映像を特徴的な２次元唇モデルと比較することによって回転角度を計算し、その回転角度をＭＵＸ７５に供給する。その後、回転角度によって回転された２次元唇モデルを、唇再構成部３５及びスイッチ６５に、各々、供給する。
【００２７】
唇再構成部３５は、音声認識部３０にて認識音節に基づいて規則的な比率で、回転角度計算部６０からの回転された２次元唇モデルの形状を、拡大するか縮小させ、その結果を再構成２次元唇モデルとしてスイッチ６５に供給する。
【００２８】
図４は、音声認識部３０にて認識された基本的音声音節による複数の代表的な唇表現パターンである。ここで、基本的音声音節は、人間音声システムによって７つの可能な領域から求められる。例えば、「ａ」音が音声認識部３０で認識される場合は、回転された２次元唇モデルが、唇再構成部３５の左右方向より上下方向に拡張する。人の話している場合は、２次元唇モデルが、認識音節を用いて実唇映像に近接されて、符号化過程におけるデータの量を非常に減少させることができる。図４において、閉鎖音節は子音で終了される音節を意味する。
【００２９】
スイッチ６５は、音声認識部１５から入力される第１選択信号に応じて、唇再構成部３５からの再構成２次元唇モデル、または音声認識部１５から入力される第2選択信号に応じて、回転角度計算部６０からの回転された２次元唇モデルのうちの何れか１つを選択して、選択した２次元唇モデルを唇動き計算部７０に供給する。
【００３０】
唇動き計算部７０は、図５に示した次のパラメータ（即ち、２次元唇モデルの両終端点の右左動きパラメータ）（Ｌ１、Ｌ２）、２次元唇モデルの中心領域内の最上位点及び最下位点の上下動きパラメータ（Ｌ３、Ｌ４）、２次元唇モデルの中心領域内の最上位点及び最下位点の前後方動きパラメータ（Ｌ５、Ｌ６）、２次元唇モデルの終端点の上下動きパラメータ（Ｌ７、Ｌ８））に対して、人が話している場合に対応する実唇映像及び再構成２次元唇モデルとの間の動きの量、または人が感情を表現する場合に対応する実唇映像と回転された２次元唇モデルとの間の動きの量を計算して、その動きの量を動きパラメータとして、ＭＵＸ７５に供給する。唇動きパラメータは、予め定められた計算範囲（例えば、−１より１まで）内で選択され、中間値「０」は、２次元唇モデルに対応する実唇映像を意味する。
【００３１】
ＭＵＸ７５は、唇動きパラメータ、音声信号、及び回転角度を多重化して、それを受信端の復号化器に伝送する。
【００３２】
受信端の復号化器は、受信端の第１段において、その自体の３次元唇モデルと伝送された基本的な顔面映像の写しとを組合せて、基本的な顔面に対する３次元唇モデルの写しを発生する。続いて、３次元唇モデルが２次元唇モデルに変換される。然る後、伝送データストリームにおいて、回転角度及び音声信号によって、２次元唇モデルが唇動きパラメータ発生装置２００における回転角度計算部６０及び唇再構成部３５と同様な方法にて回転され再構成される。最後、唇動きパラメータが、２次元唇モデルに加算されて、実際顔面の映像の写しを構成する。
【００３３】
上記において、本発明の好適な実施の形態について説明したが、本発明の請求範囲を逸脱することなく、当業者は種々の改変をなし得るであろう。
【００３４】
【発明の効果】
従って、本発明によれば、３次元モデルベース符号化システムにおける個々人の唇動きパラメータを効率的に発生することができる。
【図面の簡単な説明】
【図１】デジタル映像を符号化するための従来の唇動きパラメータ発生装置のブロック図。
【図２】本発明による個々人の唇動きパラメータ発生装置のブロック図。
【図３】Ａ及びＢよりなり、Ａ及びＢは、各々、本発明によって個々人の基本唇映像の３次元唇モデルへの整合を説明するための模式図。
【図４】本発明の音節による複数の唇パターンを示す模式図。
【図５】本発明による複数の唇動きパラメータを示す模式図。
【符号の説明】
１０Ａ／Ｄ変換器
１５音声認識部
２０映像分割部
３０音声認識部
３５唇再構成部
４０基本的顔面映像発生部
４５基本的唇位置発生部
５０３次元モデル発生部
５５基本的唇整合部
６０回転角度計算部
６５スイッチ
７０唇動き計算部
７５マルチプレクサ（ＭＵＸ）
１００唇動きパラメータ発生装置
１０１唇映像取出部
１０５位置情報検出部
１２０形状情報検出部
１２５位置情報表示部
１３０形状情報表示部
２００唇動きパラメータ発生装置
３００基本唇映像

Claims

３次元のモデルベース符号化システムにおける音声信号及び映像信号を用いて、人の唇の映像である実唇映像と２次元の変換唇モデルとの間の距離である唇動きパラメータを発生する唇動きパラメータ発生装置であって、
前記実唇映像は連続して変化する映像であり、
前記唇動きパラメータ発生装置が、
前記人の音声信号から音節を認識して、認識音節及び選択信号を発生する音節認識手段と、
前記映像信号から前記人の実唇映像を取出す実際唇映像取出手段と、
無表情で黙っている人の正顔面を表す基本的な顔面映像、前記人の基本的な唇の位置、及び一般的な３次元唇モデルを用いて、前記人に対する特徴的な３次元唇モデルを発生する３次元唇モデル発生手段と、
前記特徴的な３次元唇モデルを特徴的な２次元唇モデルに変換し、前記特徴的な２次元唇モデルと前記実唇映像とを比較して、回転角度を計算して、回転された２次元唇モデル及び前記回転角度を発生する変換手段と、
前記音節に基づいて前記回転された２次元唇モデルを再構成して、再構成２次元唇モデルを発生する再構成手段と、
前記唇動きパラメータ、前記音声信号及び前記回転角度を復号化器に伝送する伝送手段とを有することを特徴とする唇動きパラメータ発生装置。
前記音節認識手段が、
前記音声信号をデジタル音声信号に変換する音声信号変換手段と、
前記デジタル音声信号から音節を認識する音声認識手段と、
時間軸及び周波数軸に沿って前記認識音節のエネルギーの量が、予め定められた閾値より大きくなる場合、第１選択信号を、前記認識音節のエネルギーの量が予め定められた閾値以下の場合、第２選択信号を、各々、発生する選択信号発生手段とを有することを特徴とする請求項１に記載の唇動きパラメータ発生装置。
前記実際唇映像取出手段が、分割方法を用いることを特徴とする請求項２に記載の唇動きパラメータ発生装置。
前記３次元唇モデル発生手段が、
前記３次元唇モデルの輪郭線上で複数の特徴点を選択して、各特徴点に優先順位を割当てる特徴点選択手段と、
正規探索範囲内で、前記３次元唇モデルと、前記人の基本的な唇の位置及び前記基本的な顔面映像から得られる前記基本的な顔面映像のなかの唇映像である基本的な唇映像との間の最も類似な領域を探索して、前記各特徴点を前記基本的な唇映像の輪郭線上に移動させる特徴点移動手段と、
前記移動された特徴点に基づいて、前記３次元唇モデルの輪郭線を再構成する輪郭線再構成手段と、
再構成された前記３次元唇モデルの点と、前記基本的な唇映像の最も類似な領域の点との間の距離が、予め定められた閾値より大きい場合、残余の特徴点に対して、前記特徴点移動手段、及び前記輪郭線再構成手段を反復的に適用する反復手段とを有することを特徴とする請求項３に記載の唇動きパラメータ発生装置。
前記特徴点が、
前記３次元唇モデルの左端点及び右端点と、
前記３次元唇モデルの上部領域における尖頭点と、
前記３次元唇モデルの前記輪郭線上に位置する点のうちの前記３次元唇モデルの中心領域を長手方向で横切る点とを有することを特徴とする請求項４に記載の唇動きパラメータ発生装置。
前記再構成２次元唇モデルが、７つの基本的音声音節に基づいて再構成されることを特徴とする請求項５に記載の唇動きパラメータ発生装置。
前記回転角度が、アフィン変換技法を用いて計算されることを特徴とする請求項６に記載の唇動きパラメータ発生装置。
前記伝送手段が、
予め定められた計算範囲内で、前記実唇映像と、前記３次元唇モデル発生手段からの前記第１選択信号に応じる前記再構成２次元唇モデル、及び前記３次元唇モデル発生手段からの前記第２選択信号に応じる前記回転された２次元唇モデルのうちのいずれか一つと、の間の動きの量を計算して、前記唇動きパラメータを発生する動き量計算手段と、
前記唇動きパラメータ、前記音声信号及び前記回転角度を多重化する多重化手段とを有することを特徴とする請求項７に記載の唇動きパラメータ発生装置。
前記唇動きパラメータが、
前記２次元唇モデルの左端点及び右端点共の上下動きパラメータ及び左右動きパラメータと、
前記２次元唇モデルの中央領域における最上位点及び最下位点の上下動きパラメータ及び前後方動きパラメータとを有することを特徴とする請求項８に記載の唇動きパラメータ発生装置。
前記予め定められた計算範囲が、−１より１までであることを特徴とする請求項９に記載の唇動きパラメータ発生装置。