JP2005504490A - Video coding based on visemes - Google Patents

Video coding based on visemes Download PDF

Info

Publication number
JP2005504490A
JP2005504490A JP2003531746A JP2003531746A JP2005504490A JP 2005504490 A JP2005504490 A JP 2005504490A JP 2003531746 A JP2003531746 A JP 2003531746A JP 2003531746 A JP2003531746 A JP 2003531746A JP 2005504490 A JP2005504490 A JP 2005504490A
Authority
JP
Japan
Prior art keywords
frame
viseme
frames
video data
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003531746A
Other languages
Japanese (ja)
Other versions
JP2005504490A5 (en
Inventor
エス シャラパリ,キラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005504490A publication Critical patent/JP2005504490A/en
Publication of JP2005504490A5 publication Critical patent/JP2005504490A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビデオデータのフレームのストリームを処理するビデオ処理システムである。システムは、入力されたビデオデータのフレームが少なくとも1つの所定の口形素に対応するかを判定する口形素織別システムと、少なくとも1つの所定の口形素に対応するフレームを格納する口形素ライブラリと、少なくとも1つの所定の口形素に対応する各フレームを符号化する符号化器とを含む、パッケージングシステムを有し、符号化器は現在フレームを符号化するのに口形素ライブラリ中の予め格納されたフレームを用いる。また、ビデオデータの符号化されたフレームを復号化する復号化器と、復号化されたフレームを格納するフレーム参照ライブラリとを含む受信器システムを更に有し、復号化器は現在の符号化されたフレームを復号化するのにフレーム参照ライブラリからの以前に復号化されたフレームを用い、以前に復号化されたフレームは現在の符号化されたフレームと同じ口形素に属する、受信器システムが提供される。A video processing system for processing a stream of frames of video data. A system for determining whether a frame of input video data corresponds to at least one predetermined viseme; a viseme library storing a frame corresponding to at least one predetermined viseme; A packaging system including an encoder for encoding each frame corresponding to at least one predetermined viseme, the encoder pre-stored in the viseme library to encode the current frame Frame is used. Also included is a receiver system that includes a decoder that decodes the encoded frame of video data and a frame reference library that stores the decoded frame, the decoder being current encoded. Provided by the receiver system using a previously decoded frame from the frame reference library to decode the previously decoded frame, and the previously decoded frame belongs to the same viseme as the current encoded frame Is done.

Description

【0001】
本発明は、ビデオ符号化及び復号化に係り、より特定的にはビデオフレームを符号化する口形素(viseme)に基づくシステム及び方法に関連する。
【0002】
遠隔ビデオ処理用途(例えばテレビ会議、テレビ電話)に対する必要が高まりつつあるため、限られた帯域幅を通じて効率的にビデオデータを送信しうるシステムを提供する必要が重要となった。帯域幅の消費を減少させるための1つの解決策は、圧縮されたビデオ信号を符号化及び復号化しうるビデオ処理システムを用いることである。
【0003】
ビデオ圧縮を行うには、現在、2種類の技術、即ち、波形に基づく圧縮とモデルに基づく圧縮がある。波形に基づく圧縮は、例えば、MPEG及びITU標準(例えば、MPEG−2、MPEG−4、H.263等)によって与えられる比較的成熟した技術を用いるものである。もう一つの方法として、モデルに基づく圧縮は、比較的成熟していない技術である。モデルに基づく圧縮に用いられる典型的なアプローチは、人の顔の3次元モデルを発生し、次に、ビデオデータの新しいフレームの基礎を成す2次元画像を導出することを含む。頭と肩の画像の場合のように、送信されたビデオ画像データの殆どが繰り返しである場合、モデルベースの符号化は、はるかに高い度合いの圧縮を達成しうる。
【0004】
従って、現在のモデルに基づく圧縮技術はテレビ会議及びテレビ電話等の用途に役に立ち、3次元画像を発生し処理することに関する計算上の複雑さは、このようなシステムの実施を困難とし禁止的に高い費用とする傾向がある。従って、3次元画像の処理の計算オーバヘッドを必要とすることなく、モデルに基づくシステムの圧縮レベルを達成しうる符号化システムが必要とされている。
【0005】
本発明は、新規なモデルに基づく符号化システムを提供することにより、上述の問題を扱うだけでなく、他の問題も扱う。特に、入力されたビデオフレームは、フレーム全体のうちの一部のみが実際に符号化されるよう間引きされる。符号化されるフレームは、以前に符号化されたフレームからの及び/又は動的に発生された口形素ライブラリからのフレームからの予測を用いて符号化される。
【0006】
第1の面では、本発明は、ビデオデータのフレームのストリームを処理するビデオ処理システムであって、入力されたビデオデータのフレームが少なくとも1つの所定の口形素に対応するかを判定する口形素織別システムと、少なくとも1つの所定の口形素に対応するフレームを格納する口形素ライブラリと、少なくとも1つの所定の口形素に対応する各フレームを符号化する符号化器とを含む、パッケージングシステムを有し、符号化器は現在フレームを符号化するのに口形素ライブラリ中の予め格納されたフレームを用いるビデオ処理システムを提供する。
【0007】
第2の面では、本発明は、ビデオデータのフレームのストリームを処理する方法であって、入力されたビデオデータの各フレームが少なくとも1つの所定の口形素に対応するかを判定する段階と、口形素ライブラリ中の少なくとも1つの所定の口形素に対応するフレームを格納する段階と、少なくとも1つの所定の口形素に対応する各フレームを符号化する段階とを有し、符号化する段階は、現在フレームを符号化するのに口形素ライブラリ中に以前に格納されたフレームを用いる方法を提供する。
【0008】
第3の面では、本発明は、実行されたときに、ビデオデータのフレームのストリームを処理する、記録可能な媒体上に格納されたプログラムプロダクトであって、入力されたビデオデータのフレームが少なくとも1つの所定の口形素に対応するかを判定するシステムと、少なくとも1つの所定の口形素に対応するフレームを格納する口形素ライブラリと、少なくとも1つの所定の口形素に対応する各フレームを符号化するシステムとを有し、符号化するシステムは、現在フレームを符号化するのに口形素ライブラリ中の以前に格納されたフレームを用いるプログラムプロダクトを提供する。
【0009】
第4の面では、本発明は、少なくとも1つの所定の口形素に関連するフレームを用いて符号化されたビデオデータの符号化されたフレームを復号化する復号化器であって、復号化されたフレームを格納するフレーム参照ライブラリを有し、復号化器は現在の符号化されたフレームを復号化するのにフレーム参照ライブラリ中の以前に格納されたフレームを用い、以前に格納されたフレームは現在の符号化されたフレームと同じ口形素に属し、符号化処理中に除去されたビデオデータのフレームを再構築するモーフィングシステムを有する復号化器を提供する。
【0010】
以下、本発明の望ましい典型的な実施例について、添付の図面を参照して説明する。図中、同様の参照番号は同様の要素を示す。図面を参照するに、図1及び図2は、ビデオ画像を符号化するビデオ処理システムを示す。ここで説明する実施例は主に顔の画像の処理に関する用途に注目するものであるが、本発明は顔の画像の符号化に限られないことが理解されるべきである。図1は、ビデオデータ32及びオーディオデータ33の入力されたフレームから符号化されたビデオデータ50を発生する符号化器14を含む。図2は、図1のビデオパッケージングシステム10によって符号化されたビデオデータ50を復号化し、復号化されたビデオデータ52を発生する復号化器42を含むビデオ受信器システム40を示す。
【0011】
図1のビデオパッケージングシステム10は、口形素(viseme)識別システム12、符号化器14、及び口形素ライブラリ16を用いてビデオデータ32の入力されたフレームを処理する。典型的な用途では、ビデオデータ32の入力されたフレームは、例えば一般的にはテレビ会議システムによって処理される人の顔の多数の画像を含みうる。入力された顔32は、どのフレームが1つ又はそれ以上の所定の口形素に対応するかを決定するよう口形素識別システム12によって検査される。口形素は、特定の音を記述する(例えば、「sh」を発話するのに必要な口の形を作る)のに使用されうる包括的な顔の画像として定義されうる。口形素は、音素(phoneme)又は話される言葉中の音の単位に対して視覚的に同等なものである。
【0012】
どの画像が口形素に対応するかを判定する処理は、音声データ33中の音素を識別する音声セグメント化部18によって行われる。音素が識別されるたびに、対応するビデオ画像は、対応する口形素に属するとしてタグ付けされうる。例えば、オーディオデータ中で音素「sh」が検出されるたびに、対応するビデオフレームは「sh」口形素に属するものとして識別されうる。ビデオフレームにタグ付けする処理は、識別された音素を口形素にマップするマッピングシステム20によって取り扱われる。尚、与えられた姿勢又は表情の明示的な識別は必要ではない。むしろ、既知の口形素に属するビデオフレームが、音素を用いて暗示的に識別され分類される。一定の期間内(例えば1秒間)に対応する発話のない画像を有する、無音口形素を含む任意の数又は種類の口形素が発生されうることが理解されるべきである。
【0013】
フレームが、口形素に属するとして識別されると、フレームは口形素ライブラリ16に格納される。口形素ライブラリ16は、共通の口形素に属するとしてタグ付けされたフレームが複数のモデル集合(例えば、V1,V2,V3,V4)の内の1つの中に一緒に格納されるよう口形素によって物理的又は論理的に配置されうる。最初は、各モデル集合は、フレームのヌル集合を有する。より多くのフレームが処理されるにつれて、各モデル集合は成長する。あまりにも大きいモデル集合を防止するべく、与えられるモデル集合のサイズに対して閾値が設定されてもよい。フレームを廃棄する先入れ先出しシステムは、閾値基準が満たされた後に過剰なフレームを除去するのに使用されうる。
【0014】
入力されたフレームが口形素に対応しない場合、フレーム間引きシステム22は、フレームを間引き又は消去し、即ちゴミ箱34へ送信する。この場合、フレームは、口形素ライブラリ16に格納されておらず、符号化器14によって符号化もされない。しかしながら、任意の間引きされたフレームの位置に関する情報は、符号化されたビデオデータ50中に明示的又は暗示的に組み込まれてもよい。この情報は、以下に説明するように、間引きされたフレームをどこに再構築するかを決定するために受信器によって使用されうる。
【0015】
入力されたフレームが口形素に対応すると想定すると、符号化器14は、例えばブロック毎の予測法を用いて、フレームを符号化し、これは符号化されたビデオデータ50として出力される。符号化器14は、誤り予測システム24、詳細な動き情報25、及びフレーム予測システム26を有する。誤り予測システム24は、例えばMPEG−2標準で与えられるような任意の公知の方法で予測誤りを符号化する。詳細な動き情報25は、受信器40(図2)におけるモーフィングシステム48によって使用されうる副情報として発生されうる。フレーム予測システムは、2つの画像、即ち(1)符号化器14によって発生される動き補償された以前に符号化されたフレームと、(2)検索システム28によって口形素ライブラリ16から検索された画像とからフレームを予測する。特に、口形素ライブラリ16から検索される画像は、符号化されているフレームと同じ口形素を含むモデル集合から検索される。例えば、人の顔が音声「sh」を発話したときの画像をフレームが含む場合、同じ口形素からの以前の画像が選択され検索される。検索システム28は、平均平方により最も近かった画像を検索する。従って、時間的な近さ(即ち近傍のフレーム)に頼るのではなく、本発明では、時間的な近さとは無関係に、任意の以前のフレームに対して最も近く一致するものを選択しうる。非常に似た以前のフレームを見つけることによい、予測誤差は小さく、非常に高い度合いの圧縮が容易に達成されうる。
【0016】
ここで図2を参照するに、復号化器42、参照フレームライブラリ44、バッファ46、及びモーフィングシステム48を含むビデオ受信器システム40が示される。復号化器42は、ビデオパッケージングシステム10と同じ並列技術を用いる符号化されたビデオデータ50の入来フレームを復号化する。特に、符号化されたフレームは、(1)直前の復号化されたフレーム、及び、(2)参照フレームライブラリ44からの画像を用いて復号化される。参照フレームライブラリからの画像は、フレームを符号化するのに使用されたものと同じであり、符号化されたフレーム中に格納された参照データで容易に識別されうる。フレームは、復号化された後、参照フレームライブラリ44中に(将来のフレームを復号化するために)格納されるとともにバッファ46へ転送される。
【0017】
1つ又はそれ以上のフレームが元々間引きされている場合(例えば、バッファ46中に「??」として示される)、モーフィングシステム48は、例えば、符号化されたフレーム53と55の間を補間することにより、間引きされたフレームを再構築するのに使用されうる。このような補間技術は、例えば、ここに参照として組み入れられる、エザット(Ezzat)及びポッジオ(Poggio)著,”Miketalk; A talking facial display based on morphing visemes,” Proc. Computer Animation Conference, 第96−102頁、米国ペンシルバニア州フィラデルフィア、1998年に記載されている。モーフィングシステム48は、符号化器14(図1)によって与えられる詳細な動き情報を用いてもよい。フレームは、再構築された後、符号化されたビデオデータ52の完全な集合として復号化されたフレームとともに出力されうる。
【0018】
ここで説明されるシステム、機能、方法、及びモジュールは、ハードウエア、ソフトウエア、又は、ハードウエアとソフトウエアの組合せとして実現されうる。これらは、任意の種類のコンピュータシステム、又は、上述の方法を実行するのに適合された他の装置によって実現されうる。ハードウエア及びソフトウエアの典型的な組合せは、ロードされ実行されたときに、コンピュータシステムが本願に記載の方法を実行するよう制御するコンピュータプログラムを有する汎用コンピュータシステムでありうる。或いは、本発明の1つ又はそれ以上の機能的なタスクを実行する専用ハードウエアを含む特定用途コンピュータが使用されてもよい。本発明はまた、本願に記載の方法及び機能の実現を可能とする全ての特徴を有し、コンピュータシステムにロードされたときにこれらの方法及び機能を実行することが可能なコンピュータプログラムプロダクトに埋め込まれうる。本願明細書では、コンピュータプログラム、ソフトウエアプログラム、プログラム、プログラムプロダクト、又はソフトウエアは、情報処理能力を有するシステムに、直接的に、又は、(a)或いは(b)のいずれかの後に、特定の機能を実行させることが意図される一組の命令の、任意の言語、コード、又は表記法での任意の表現を意味する。
【0019】
本発明の望ましい実施例の以下の説明は、例示及び説明のために示されたものである。これらは、網羅的なもの、或いは、本発明を開示されたそのものの形に制限するものを意図したものではなく、明らかに、上述の教示から、多くの変更及び変形が可能である。当業者にとって明らかなこのような変更及び変形は、特許請求の範囲に定義される本発明の範囲に含まれることが意図される。
【図面の簡単な説明】
【0020】
【図1】本発明の望ましい実施例による符号化器を有するビデオパッケージングシステムを示す図である。
【図2】本発明の望ましい実施例による復号化器を有するビデオ受信器システムである。
[0001]
The present invention relates to video encoding and decoding, and more particularly to systems and methods based on visemes that encode video frames.
[0002]
As the need for remote video processing applications (e.g., video conferencing, video telephony) is increasing, it has become important to provide a system that can efficiently transmit video data over a limited bandwidth. One solution for reducing bandwidth consumption is to use a video processing system that can encode and decode the compressed video signal.
[0003]
There are currently two techniques for performing video compression: waveform-based compression and model-based compression. Waveform-based compression uses, for example, relatively mature techniques provided by MPEG and ITU standards (eg, MPEG-2, MPEG-4, H.263, etc.). Alternatively, model-based compression is a relatively unmature technology. A typical approach used for model-based compression involves generating a three-dimensional model of a human face and then deriving a two-dimensional image that underlies a new frame of video data. If most of the transmitted video image data is repetitive, as in the case of head and shoulder images, model-based coding can achieve a much higher degree of compression.
[0004]
Thus, compression techniques based on current models are useful for applications such as videoconferencing and videophones, and the computational complexity of generating and processing three-dimensional images makes such systems difficult and prohibitive. Tends to be expensive. Therefore, there is a need for an encoding system that can achieve the compression level of a system based on a model without requiring computational overhead for processing 3D images.
[0005]
The present invention addresses not only the above-mentioned problems but also other problems by providing a novel model-based coding system. In particular, the input video frame is thinned out so that only a part of the entire frame is actually encoded. The frames to be encoded are encoded using predictions from previously encoded frames and / or from frames generated from a dynamically generated viseme library.
[0006]
In a first aspect, the present invention is a video processing system for processing a stream of frames of video data, the viseme determining whether an input frame of video data corresponds to at least one predetermined viseme. A packaging system including a weaving system, a viseme library that stores frames corresponding to at least one predetermined viseme, and an encoder that encodes each frame corresponding to at least one predetermined viseme. The encoder provides a video processing system that uses pre-stored frames in the viseme library to encode the current frame.
[0007]
In a second aspect, the invention is a method of processing a stream of frames of video data, determining whether each frame of input video data corresponds to at least one predetermined viseme; Storing a frame corresponding to at least one predetermined viseme in the viseme library; and encoding each frame corresponding to the at least one predetermined viseme; A method is provided for using a frame previously stored in a viseme library to encode a current frame.
[0008]
In a third aspect, the present invention is a program product stored on a recordable medium that, when executed, processes a stream of frames of video data, wherein the input video data frames are at least A system for determining whether or not one predetermined viseme corresponds, a viseme library storing frames corresponding to at least one predetermined viseme, and encoding each frame corresponding to at least one predetermined viseme The encoding system provides a program product that uses previously stored frames in the viseme library to encode the current frame.
[0009]
In a fourth aspect, the present invention is a decoder for decoding an encoded frame of video data encoded using a frame associated with at least one predetermined viseme, Has a frame reference library for storing the frames, and the decoder uses previously stored frames in the frame reference library to decode the current encoded frame, and the previously stored frames are A decoder is provided having a morphing system that reconstructs frames of video data that belong to the same viseme as the current encoded frame and that were removed during the encoding process.
[0010]
Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings. In the drawings, like reference numerals indicate like elements. Referring to the drawings, FIGS. 1 and 2 show a video processing system for encoding video images. While the embodiments described herein focus primarily on applications relating to facial image processing, it should be understood that the present invention is not limited to facial image coding. FIG. 1 includes an encoder 14 that generates encoded video data 50 from input frames of video data 32 and audio data 33. FIG. 2 illustrates a video receiver system 40 that includes a decoder 42 that decodes the video data 50 encoded by the video packaging system 10 of FIG. 1 and generates decoded video data 52.
[0011]
The video packaging system 10 of FIG. 1 processes an input frame of video data 32 using a viseme identification system 12, an encoder 14, and a viseme library 16. In a typical application, an input frame of video data 32 may include multiple images of a human face, for example, typically processed by a video conference system. The input face 32 is examined by the viseme identification system 12 to determine which frames correspond to one or more predetermined visemes. A viseme can be defined as a generic facial image that can be used to describe a particular sound (eg, to create the shape of the mouth needed to speak “sh”). A viseme is visually equivalent to a phoneme or a unit of sound in a spoken word.
[0012]
The process of determining which image corresponds to a viseme is performed by the audio segmentation unit 18 that identifies a phoneme in the audio data 33. Each time a phoneme is identified, the corresponding video image can be tagged as belonging to the corresponding viseme. For example, each time a phoneme “sh” is detected in the audio data, the corresponding video frame can be identified as belonging to the “sh” viseme. The process of tagging video frames is handled by the mapping system 20 that maps identified phonemes to visemes. Note that explicit identification of a given posture or facial expression is not necessary. Rather, video frames belonging to known visemes are implicitly identified and classified using phonemes. It should be understood that any number or type of visemes can be generated, including silent visemes, that have no speech corresponding to a certain period of time (eg, 1 second).
[0013]
If the frame is identified as belonging to a viseme, the frame is stored in the viseme library 16. The viseme library 16 is based on visemes so that frames tagged as belonging to a common viseme are stored together in one of a plurality of model sets (eg, V1, V2, V3, V4). It can be physically or logically arranged. Initially, each model set has a null set of frames. Each model set grows as more frames are processed. A threshold may be set for a given model set size to prevent model sets that are too large. A first-in first-out system that discards frames can be used to remove excess frames after threshold criteria are met.
[0014]
If the input frame does not correspond to a viseme, the frame thinning system 22 thins or erases the frame, that is, transmits it to the trash can 34. In this case, the frame is not stored in the viseme library 16 and is not encoded by the encoder 14. However, information regarding the position of any decimation frame may be explicitly or implicitly incorporated into the encoded video data 50. This information can be used by the receiver to determine where to reconstruct the decimated frame, as described below.
[0015]
Assuming that the input frame corresponds to a viseme, the encoder 14 encodes the frame using, for example, a block-by-block prediction method, and this is output as encoded video data 50. The encoder 14 includes an error prediction system 24, detailed motion information 25, and a frame prediction system 26. The error prediction system 24 encodes the prediction error in any known manner, for example as given in the MPEG-2 standard. Detailed motion information 25 may be generated as side information that may be used by morphing system 48 at receiver 40 (FIG. 2). The frame prediction system consists of two images: (1) a motion compensated previously encoded frame generated by the encoder 14 and (2) an image retrieved from the viseme library 16 by the retrieval system 28. And predict the frame. In particular, an image retrieved from the viseme library 16 is retrieved from a model set that includes the same viseme as the frame being encoded. For example, if the frame includes an image when a human face utters the voice “sh”, the previous image from the same viseme is selected and searched. The search system 28 searches for an image that is closest to the mean square. Thus, rather than relying on temporal proximity (ie, neighboring frames), the present invention can select the closest match for any previous frame, regardless of temporal proximity. Good for finding very similar previous frames, the prediction error is small and a very high degree of compression can easily be achieved.
[0016]
Referring now to FIG. 2, a video receiver system 40 that includes a decoder 42, a reference frame library 44, a buffer 46, and a morphing system 48 is shown. Decoder 42 decodes incoming frames of encoded video data 50 that use the same parallel technology as video packaging system 10. In particular, the encoded frame is decoded using (1) the immediately preceding decoded frame and (2) an image from the reference frame library 44. The images from the reference frame library are the same as those used to encode the frames and can be easily identified with reference data stored in the encoded frames. After being decoded, the frame is stored in reference frame library 44 (to decode future frames) and transferred to buffer 46.
[0017]
If one or more frames were originally decimated (eg, indicated as “??” in buffer 46), morphing system 48 may interpolate between encoded frames 53 and 55, for example. Can be used to reconstruct the decimation frame. Such interpolation techniques are described, for example, by Ezzat and Poggio, “Miketalk; A tapping facial display based on morphing views,” Proc. Computer Animation Conference, pages 96-102, Philadelphia, PA, USA, 1998. Morphing system 48 may use detailed motion information provided by encoder 14 (FIG. 1). After the frame is reconstructed, it can be output with the decoded frame as a complete set of encoded video data 52.
[0018]
The systems, functions, methods, and modules described herein may be implemented as hardware, software, or a combination of hardware and software. These can be realized by any kind of computer system or other device adapted to carry out the method described above. A typical combination of hardware and software may be a general purpose computer system having a computer program that, when loaded and executed, controls the computer system to perform the methods described herein. Alternatively, special purpose computers may be used that include dedicated hardware that performs one or more functional tasks of the present invention. The present invention also has all the features that enable the implementation of the methods and functions described herein and is embedded in a computer program product capable of performing these methods and functions when loaded into a computer system. Can be. In this specification, a computer program, a software program, a program, a program product, or software is specified directly or after (a) or (b) in a system having information processing capability. Means any representation in any language, code, or notation of a set of instructions intended to perform the functions.
[0019]
The following description of the preferred embodiment of the present invention has been presented for purposes of illustration and description. They are not intended to be exhaustive or to limit the invention to the precise forms disclosed, and obviously many modifications and variations are possible from the above teachings. Such modifications and variations that may be apparent to a person skilled in the art are intended to be included within the scope of this invention as defined by the accompanying claims.
[Brief description of the drawings]
[0020]
FIG. 1 illustrates a video packaging system having an encoder according to a preferred embodiment of the present invention.
FIG. 2 is a video receiver system having a decoder according to a preferred embodiment of the present invention.

Claims (14)

ビデオデータのフレームのストリームを処理するビデオ処理システムであって、
入力されたビデオデータのフレームが少なくとも1つの所定の口形素に対応するかを判定する口形素織別システムと、
前記少なくとも1つの所定の口形素に対応するフレームを格納する口形素ライブラリと、
前記少なくとも1つの所定の口形素に対応する各フレームを符号化する符号化器とを含む、パッケージングシステムを有し、
前記符号化器は現在フレームを符号化するのに前記口形素ライブラリ中の予め格納されたフレームを用いる、
ビデオ処理システム。
A video processing system for processing a stream of frames of video data,
A vise-mesh weaving system that determines whether a frame of input video data corresponds to at least one predetermined viseme;
A viseme library storing frames corresponding to the at least one predetermined viseme;
A packaging system comprising: an encoder that encodes each frame corresponding to the at least one predetermined viseme;
The encoder uses pre-stored frames in the viseme library to encode a current frame;
Video processing system.
前記口形素識別システムは、オーディオデータストリーム中の前記ビデオデータのフレームに関連付けられる音素を識別する音声セグメント化部を含む、請求項1記載のビデオ処理システム。The video processing system of claim 1, wherein the viseme identification system includes an audio segmentation unit that identifies phonemes associated with frames of the video data in an audio data stream. 前記口形素識別システムは、識別された音素を前記少なくとも1つの所定の口形素へマップする、請求項2記載のビデオ処理システム。The video processing system of claim 2, wherein the viseme identification system maps identified phonemes to the at least one predetermined viseme. 前記口形素識別システムは、関連する音素でフレームをタグ付けする、請求項2記載のビデオ処理システム。The video processing system of claim 2, wherein the viseme identification system tags frames with associated phonemes. 前記少なくとも1つの口形素に対応しないフレームを除去するフレーム間引きシステムを更に有する、請求項1記載のビデオ処理システム。The video processing system of claim 1, further comprising a frame skipping system that removes frames that do not correspond to the at least one viseme. ビデオデータの符号化されたフレームを復号化する復号化器と、
復号化されたフレームを格納するフレーム参照ライブラリとを含む受信器システムを更に有し、
前記復号化器は現在の符号化されたフレームを復号化するのに前記フレーム参照ライブラリからの以前に復号化されたフレームを用い、前記以前に復号化されたフレームは前記現在の符号化されたフレームと同じ口形素に属する、請求項5記載のビデオ処理システム。
A decoder for decoding encoded frames of video data;
A receiver system including a frame reference library for storing decoded frames;
The decoder uses a previously decoded frame from the frame reference library to decode a current encoded frame, and the previously decoded frame is the current encoded frame. 6. A video processing system according to claim 5, which belongs to the same viseme as the frame.
前記受信器システムは、前記間引きシステムによって除去されたフレームを再構築するモーフィングシステムを更に有する、請求項6記載のビデオ処理システム。The video processing system of claim 6, wherein the receiver system further comprises a morphing system that reconstructs frames removed by the decimation system. 前記符号化器は、フレームを再構築するのに前記モーフィングシステムによって使用される詳細な動き情報を発生する、請求項7記載のビデオ処理システム。8. The video processing system of claim 7, wherein the encoder generates detailed motion information used by the morphing system to reconstruct a frame. ビデオデータのフレームのストリームを処理する方法であって、
入力されたビデオデータの各フレームが少なくとも1つの所定の口形素に対応するかを判定する段階と、
口形素ライブラリ中の前記少なくとも1つの所定の口形素に対応するフレームを格納する段階と、
前記少なくとも1つの所定の口形素に対応する各フレームを符号化する段階とを有し、
前記符号化する段階は、現在フレームを符号化するのに前記口形素ライブラリ中に以前に格納されたフレームを用いる、方法。
A method of processing a stream of frames of video data,
Determining whether each frame of input video data corresponds to at least one predetermined viseme;
Storing a frame corresponding to the at least one predetermined viseme in the viseme library;
Encoding each frame corresponding to the at least one predetermined viseme,
The method of encoding, wherein a frame previously stored in the viseme library is used to encode a current frame.
ビデオデータの符号化されたフレームを復号化する段階と、
復号化されたフレームを格納するフレーム参照ライブラリを与える段階とを更に有し、
前記復号化する段階は、現在の符号化されたフレームを復号化するのに前記フレーム参照ライブラリからの以前に復号化されたフレームを用い、前記以前に復号化されたフレームは前記現在の符号化されたフレームと同じ口形素に属する、請求項9記載の方法。
Decoding encoded frames of video data;
Providing a frame reference library for storing the decoded frames;
The decoding step uses a previously decoded frame from the frame reference library to decode a current encoded frame, and the previously decoded frame is the current encoding frame. The method according to claim 9, wherein the method belongs to the same viseme as the generated frame.
実行されたときに、ビデオデータのフレームのストリームを処理する、記録可能な媒体上に格納されたプログラムプロダクトであって、
入力されたビデオデータのフレームが少なくとも1つの所定の口形素に対応するかを判定するシステムと、
前記少なくとも1つの所定の口形素に対応するフレームを格納する口形素ライブラリと、
前記少なくとも1つの所定の口形素に対応する各フレームを符号化するシステムとを有し、
前記符号化するシステムは、現在フレームを符号化するのに前記口形素ライブラリ中の以前に格納されたフレームを用いる、プログラムプロダクト。
A program product stored on a recordable medium that, when executed, processes a stream of frames of video data,
A system for determining whether a frame of input video data corresponds to at least one predetermined viseme;
A viseme library storing frames corresponding to the at least one predetermined viseme;
A system for encoding each frame corresponding to the at least one predetermined viseme,
A program product, wherein the encoding system uses previously stored frames in the viseme library to encode a current frame.
前記判定するシステムは、前記ビデオデータのフレームに関連するオーディオデータストリーム中の音素を識別する音声セグメント化部を含む、請求項11記載のプログラムプロダクト。The program product of claim 11, wherein the determining system includes an audio segmentation unit that identifies phonemes in an audio data stream associated with the frame of video data. 前記判定するシステムは、識別された音素を前記少なくとも1つの所定の口形素へマップする、請求項11記載のプログラムプロダクト。The program product of claim 11, wherein the determining system maps the identified phonemes to the at least one predetermined viseme. 少なくとも1つの所定の口形素に関連するフレームを用いて符号化されたビデオデータの符号化されたフレームを復号化する復号化器であって、
復号化されたフレームを格納するフレーム参照ライブラリを有し、前記復号化器は現在の符号化されたフレームを復号化するのに前記フレーム参照ライブラリ中の以前に格納されたフレームを用い、前記以前に格納されたフレームは前記現在の符号化されたフレームと同じ口形素に属し、
符号化処理中に除去されたビデオデータのフレームを再構築するモーフィングシステムを有する、復号化器。
A decoder for decoding an encoded frame of video data encoded using a frame associated with at least one predetermined viseme,
A frame reference library for storing decoded frames, wherein the decoder uses previously stored frames in the frame reference library to decode a current encoded frame, and the previous The frame stored in belongs to the same viseme as the current encoded frame,
A decoder having a morphing system for reconstructing frames of video data removed during the encoding process.
JP2003531746A 2001-09-24 2002-09-06 Video coding based on visemes Withdrawn JP2005504490A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/961,991 US20030058932A1 (en) 2001-09-24 2001-09-24 Viseme based video coding
PCT/IB2002/003661 WO2003028383A1 (en) 2001-09-24 2002-09-06 Viseme based video coding

Publications (2)

Publication Number Publication Date
JP2005504490A true JP2005504490A (en) 2005-02-10
JP2005504490A5 JP2005504490A5 (en) 2006-01-05

Family

ID=25505283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003531746A Withdrawn JP2005504490A (en) 2001-09-24 2002-09-06 Video coding based on visemes

Country Status (6)

Country Link
US (1) US20030058932A1 (en)
EP (1) EP1433332A1 (en)
JP (1) JP2005504490A (en)
KR (1) KR20040037099A (en)
CN (1) CN1279763C (en)
WO (1) WO2003028383A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016519466A (en) * 2013-03-15 2016-06-30 クアルコム,インコーポレイテッド Method for reducing the bit rate required to send video over the network by dropping video frames

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202780A1 (en) * 2002-04-25 2003-10-30 Dumm Matthew Brian Method and system for enhancing the playback of video frames
US20060009978A1 (en) * 2004-07-02 2006-01-12 The Regents Of The University Of Colorado Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US20130141643A1 (en) * 2011-12-06 2013-06-06 Doug Carson & Associates, Inc. Audio-Video Frame Synchronization in a Multimedia Stream
WO2021055208A1 (en) * 2019-09-17 2021-03-25 Lexia Learning Systems Llc System and method for talking avatar

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
JP3628810B2 (en) * 1996-06-28 2005-03-16 三菱電機株式会社 Image encoding device
AU722393B2 (en) * 1996-11-07 2000-08-03 Broderbund Software, Inc. System for adaptive animation compression
JP2001507541A (en) * 1996-12-30 2001-06-05 シャープ株式会社 Sprite-based video coding system
US5818463A (en) * 1997-02-13 1998-10-06 Rockwell Science Center, Inc. Data compression for animated three dimensional objects
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
IT1314671B1 (en) * 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom PROCEDURE AND EQUIPMENT FOR THE ANIMATION OF A SYNTHESIZED HUMAN FACE MODEL DRIVEN BY AN AUDIO SIGNAL.
JP2003503925A (en) * 1999-06-24 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Post-synchronization of information streams
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016519466A (en) * 2013-03-15 2016-06-30 クアルコム,インコーポレイテッド Method for reducing the bit rate required to send video over the network by dropping video frames

Also Published As

Publication number Publication date
EP1433332A1 (en) 2004-06-30
KR20040037099A (en) 2004-05-04
WO2003028383A1 (en) 2003-04-03
CN1279763C (en) 2006-10-11
CN1557100A (en) 2004-12-22
US20030058932A1 (en) 2003-03-27

Similar Documents

Publication Publication Date Title
CN101622876B (en) Systems and methods for providing personal video services
JP5130381B2 (en) Method and apparatus for efficient video processing
JP2009510877A (en) Face annotation in streaming video using face detection
CN108962216B (en) Method, device, equipment and storage medium for processing speaking video
JPH05153581A (en) Face picture coding system
CN112866586A (en) Video synthesis method, device, equipment and storage medium
EP3646609A1 (en) Audio-driven viewport selection
JP7009997B2 (en) Video generation system and video display system
Zhang et al. Davd-net: Deep audio-aided video decompression of talking heads
CN113987269A (en) Digital human video generation method and device, electronic equipment and storage medium
Chen et al. Lip synchronization using speech-assisted video processing
CN115376187A (en) Device and method for detecting speaking object in multi-user-computer interaction scene
Zhang et al. Multi-modality deep restoration of extremely compressed face videos
JP2005504490A (en) Video coding based on visemes
Guo et al. Deep multi-modality soft-decoding of very low bit-rate face videos
RU2236751C2 (en) Methods and devices for compression and recovery of animation path using linear approximations
US9471995B2 (en) Codec engine with inline image processing
US11895308B2 (en) Video encoding and decoding system using contextual video learning
RU2654126C2 (en) Method and device for highly efficient compression of large-volume multimedia information based on the criteria of its value for storing in data storage systems
US20050281336A1 (en) Motion vector reconstruction in an entropy decoder
CN114360491A (en) Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium
JP3158064B2 (en) Video encoding device and video decoding device
JP2795150B2 (en) Moving picture reproducing apparatus and encoding / decoding system
Torres et al. A proposal for high compression of faces in video sequences using adaptive eigenspaces
JP2005504490A5 (en)

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050901

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070726