JPH08205149A - ビデオ信号の符号化方法 - Google Patents

ビデオ信号の符号化方法

Info

Publication number
JPH08205149A
JPH08205149A JP7152807A JP15280795A JPH08205149A JP H08205149 A JPH08205149 A JP H08205149A JP 7152807 A JP7152807 A JP 7152807A JP 15280795 A JP15280795 A JP 15280795A JP H08205149 A JPH08205149 A JP H08205149A
Authority
JP
Japan
Prior art keywords
face
image
model
ellipse
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7152807A
Other languages
English (en)
Inventor
Arnaud Eric Jacquin
エリック ジャックィン アーノード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH08205149A publication Critical patent/JPH08205149A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 低ビットレート伝送のビデオ信号において特
定の領域等の信号の伝送を符号化アーティファクトの影
響のないようにする。 【構成】 顔の輪郭を楕円形としてモデル化して、その
顔の位置のモデルパラメータを複合化装置に転送する。
この顔の位置を特定した情報は第1の技術として、モデ
ルアシストダイナミックビット割り当と称し3次元のサ
ブバンドベースの符号化方法がサブバンド当たり2つの
量子化装置20を具備し、第1の量子化装置は微細量子
化装置24であり、顔の位置のモデル内のデータを符号
化し、他は粗量子化装置26で、顔以外の領域のデータ
を符号化する。かくして、顔の領域内の符号化品質は、
残りの部分の符号化品質より改善される。もう一つの技
術である動き補償符号化方法は、連続的なフレーム内の
検知された顔のモデルの相対位置に基づいて顔の領域内
のピクセルに対し、移動ベクトルを自動的に計算する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ビデオ信号のコーディ
ングに関し、特に低ビットレートでのモデルビデオ通信
に使用されるビデオ信号のコーディングに関する。
【0002】
【従来の技術】効率的な伝送及び/または記憶のための
ビデオ信号の符号化(コーディング)は最近注目を集
め、特にHDTV(高精細テレビジョン)と双方向テレ
ビとvideo-on-demandのような技術に対し注目を集めて
いる。実際ビデオ符号化アルゴリズムは、これら多くの
応用において標準化されている(例、動画エキスパート
グループ標準例えばMPEG−1とMPEG−2)しか
し、これらの応用は一般的に高ビットレートのビデオ信
号の符号化に関連するのものである。
【0003】低ビットレート、例えば電話会議およびテ
レビ電話等に用いられるものについての符号化によるア
ーティファクト(偽信号)が符号化イメージにしばしば
発生する。これらのアーティファクトは各フレームを符
号化するために用いられる少数のビットを有することは
実行されるべき符号化の品質を低下させると言うことに
起因している。一般的にアーティファクトはあらゆる状
況においてイメージの様々な領域に影響を及ぼす傾向が
ある。しかし、視聴覚者は自分に特に興味のある領域に
おいてはこのような符号化アーティファクト(Coding a
rtifacts)により敏感になる傾向がある。一般的にテレ
ビ会議あるいはテレビ電話の分野においては視聴覚者は
注意をスクリーン上の人の顔に向ける傾向があり服やバ
ックグランドには向けない。さらに、符号化イメージに
おける高速動作は符号化アーティファクトをマスクする
として知られているが人間の視覚システムはスクリーン
上の移動対象物、例えば人間の顔等に注意が固定された
り向けられたりする。上記のような理由で、低ビットレ
ートのビデオ電話会議の使用者と電話システムとの間の
通信はよりインテリジェントになる傾向がありそして顔
の特徴が符号化アーティファクトによって傷つけられな
いときには視聴覚者によって心理的に喜ばしいものであ
る。
【0004】
【発明が解決しようとする課題】従って、本発明の目的
は、テレビ電話あるいはテレビ電話会議等において低ビ
ットレートで伝送されるビデオシーケンス、ビデオ信号
において特定の領域(例えば人の顔)等の信号の伝送を
符号化アーティファクトの影響を余り受けないように伝
送するシステムを提供するものである。
【0005】
【課題を解決するための手段】本発明においては、テレ
ビ会議あるいはテレビ電話においては、例えばビデオイ
メージのある領域(例えば人の顔のような所定の対象
物)の符号化品質は、その画面の他の領域の符号化品質
よりもはるかに重要なものであると言う認識に基づいて
本発明は行われたものである。本発明の一実施例によれ
ば、所定の対象物(顔)を含むイメージの領域は所定の
形状(様々な寸法の楕円)をイメージ上に見いだされる
対象物の形状と比較することにより自動的に決定され
る。このようにして所定の対象物は、1つあるいは複数
の形状の組によってモデル化される。良好なマッチング
が発見された場合には、イメージの対象物は所定の対象
物であると見なされる。この所定の対象物を含むと見な
された所定の領域は、その後、例えば、イメージの他の
領域を符号化するのに用いられるものよりも、より高い
質の符号化装置でもって符号化される。
【0006】本発明の一実施例によれば、符号化装置
は、ビデオイメージのシーケンス内の顔の存在を検知
し、その動きを追跡しそしてこの情報を用いて一般的に
は雑なビデオシーケンス内の異なる領域の符号化を区別
する。例えば、この符号化装置は、顔の表情(即ち、顔
を含む領域内にあると決定されたイメージ部分)を正確
に符号化するかその画面の残りの領域はそれほど正確に
は符号化しない。このようにして、この符号化装置はい
わゆるモデルアシスト符号化を実行する。
【0007】本発明の一実施例においては、符号化装置
は自動的に顔の位置を検知するシステムを有しこのシス
テムは顔の輪郭を楕円形としてモデル化して、その顔の
位置のモデルパラメータを複合化装置に転送する。この
顔の位置を特定した情報は少なくとも2つの技術を用い
てさらに展開される。この2つの技術は本発明の他の実
施例により説明する。ある技術は、モデルアシストダイ
ナミックビット割り当と称し3次元のサブバンドベース
の符号化方法がサブバンド当たり2つの量子化装置を具
備することにより強化される。そのうちの一つの量子化
装置は微細量子化装置であり、これを用いて検知された
顔の位置のモデル内のピクセルデータを符号化するもの
であり、もう一方は、粗量子化装置でこれを用いてこの
領域外のピクセルデータを符号化する。かくして、顔の
領域内の符号化品質は、イメージの残りの部分の符号化
品質に比較して改善される。もう一つの技術はモデル符
号化動き補償と称し、この動き補償符号化方法は連続的
なフレーム内の検知された顔のモデルの相対位置に基づ
いて顔の領域内のピクセルに対し、移動ベクトルを自動
的に計算することにより強化される。このモデルアシス
ト動ベクトルを用いると動き情報を複合化装置に高繊細
で伝送する必要がない。その理由は動ベクトルは複合化
装置で再度計算されるからである。
【0008】
【実施例】図9において、図9に示したシステムは3次
元(即ち空間−時間)のサブバンドビデオ符号化技術を
用いている。このような技術は、例えば N.S.Jayant an
dP.Noll 著のDisital Cording of Waveform : Principa
l and Applications to Speach and Video(1984
年)に開示され公知である。様々なサブバンド内でビッ
トの動的な割当を実現するこの3次元のサブバンドビデ
オ符号化技術は、米国特許第5309232号に開示さ
れている。
【0009】この図9に開示されたシステムにおいて
は、ビデオ入力信号はサブバンド解析回路12に供給さ
れ、このサブバンド解析回路12は入力信号をフィルタ
ー処理して複数の個別の空間−時間サブバンド信号に分
ける。この各サブバンド信号は個別に量子化装置20に
より量子化される(符号化される)。このビデオ符号化
に用いられる量子化装置は、前掲の Jayant and Noll
の文献に記載されている。様々な量子化技術を用いるこ
とができるがこれらのこの技術は幾何ベクトル量子化
(米国特許第5136374号)として公知である。こ
の図9のシステムの符号化(即ち量子化)信号はマルチ
プレクサ32よりエントロピー符号化されマルチプレク
サ32が、これらの符号化信号を通信チャンネルで伝送
できるように1個の符号化信号に結合する。サブバンド
解析回路12とエントロピー符号化装置30とマルチプ
レクサ32は従来公知の構成部品である。
【0010】本発明によれば、この個別のサブバンド信
号は対象物検出装置16に与えられる。図9に示した実
施例においては、第1のサブバンド(例えばローパス空
間時間サブバンド)のみが対象物検出装置16に供給さ
れる。この対象物検出装置16は自動的に顔の位置のア
ウトラインを楕円形として幾何学的にモデル化すること
によりイメージ内の顔の位置を符号化されるべきものと
して自動的に決定する。かくして、顔の位置の問題は楕
円形にフィット(適合)する問題となる。
【0011】具体的には、図9のシステムの対象物検出
装置16は、まず連続的なローパス空間時間的サブバン
ドイメージ(複数)を減算することにより得られた2進
の差分イメージを生成する。これは、元のビデオイメー
ジ内に含まれる対象物のエッジを表す低解像度のイメー
ジを生成する。このローパス空間時間サブバンドに対応
するこの2進エッジイメージはその後、走査されイメー
ジ内の対象物のエッジの位置を検出して、イメージとマ
ッチングする楕円の上部の位置を検出する。様々なサイ
ズの楕円、即ち様々な長さとアスペクト比(幅を高さで
割ったもの)が所定の位置に配置され2進のエッジイメ
ージと比較されてベストマッチングを探し出す。このベ
ストマッチングは人間の頭と識別されるようなイメージ
の領域を決定する。ある実施例においてはこの楕円は頭
が傾斜していてもマッチングを改良するために様々な角
度で配置されることもある。
【0012】動的ビット割当装置14が対象物検出装置
16により提供されたイメージの顔の位置の特定する知
識を用いて及び所定のフレームを符号化するのに有効な
ビット数の知識を用いて制御入力(図9のC)を量子化
装置20に提供する。特にこの量子化装置20の一部あ
るいは、全ては様々な量子化レベル能力(例えば高精細
量子化装置と粗量子化装置を具備している)。図9のシ
ステムにおいては、例えば全ての量子化装置にはこれら
の機能が備わっている。これら量子化装置20は、スイ
ッチ22を有しこのスイッチ22は制御入力Cに応答し
て現在符号化されているイメージの一部は(図9のd)
は(Qi)高精細量子化装置24でもって符号化される
べきかあるいは(Qe)粗量子化装置26により符号化
されるべきかを決定する。このようにして高精細量子化
装置24は人間の顔を含む領域に対し用いられるように
領域に対し選択され粗量子化装置26はイメージの顔以
外の部分に対し選択される。結合装置28は高精細量子
化装置24からの信号と粗量子化装置26からの信号を
結合する。(1時に一方のみしか動作していないが)
【0013】図8においてビデオ符号化における動作補
償の主要は従来公知である。例えば、これに対しては、
MPEG−1とMPEG−2のような動画像専用グルー
プ標準に開示されている。この動き補償は例えば、米国
特許第4245248号,第4218704号に開示さ
れている。
【0014】具体的には図8は本発明により顔の位置を
特定する技術により2つの連続するフレームのイメージ
内の顔を含むものとして識別された2つの楕円領域を示
している。領域42(図のCt-1)は、第1フレーム
(即ち時間t−1)のイメージ内の顔を含み領域44
(Ct)は第2フレーム(時間t)のイメージ内に対応
する顔の位置を含む。2次元のアフィン変換τtは楕円
tの長軸と短軸を楕円Ct-1にマッピングすることによ
り規定される。その後、領域44(楕円Ct)内のどの
ような点Pt(i,j)に対する動ベクトルをアフィン
変換τtに基づいて計算するこの計算方法は当業者には
公知のものである。上記の技術は、動き情報が正確に複
合化装置に伝送されることを必ずしも必要としていな
い。各符号化フレームに対する顔の位置の情報が転送さ
れると、この複合化装置はアフィン変換τtを決定し、
それに基づいた各ピクセルに対し動ベクトルを計算す
る。
【0015】図9の量子化装置20は、2つの個別の符
号化装置(即ち高精細量子化装置24と粗量子化装置2
6)を含むように図示されているが、これらの符号化装
置は、構造的に同一で、ただそこに適用される入力され
るパラメータが異なるのみである。本発明の他の実施例
においては、1個の物理的な符号化装置を用いこの符号
化装置に適当なパラメータが所定の領域(例、人間の顔
を含む領域)の符号化が実行されるべきか否かに基づい
て入力される。
【0016】以下、本発明を理論的に説明する。
【0017】モデルベースとモデルアシストのビデオ符
号化一般的なモデルをベースにした符号化システムの原
理を図1に示す。この符号化装置への入力ビデオフレー
ムを解析して、データの形状モデルを構成する。このモ
デルは、データに適合するものか、あるいは、入力イメ
ージを部分から「形状テキスチャ」のモデルにより表さ
れる対象物に獲得するかの何れかである。このモデルの
パラメータは、チャネル状を適宜符号化されてエラー信
号と共に伝送される。このエラー信号はモデルが十分に
適合しないようなイメージの領域内の品質損失を緩和さ
せるために必要なものである。
【0018】この信号は受信端でモデルパラメータと復
号化エラー信号とから再構成される。モデルパラメータ
を伝送するのに必要なビットレートが極めて低いので、
非常に低い符号化レートは非常に特別なシーンに対して
用いられる。しかし、このアプローチは、本来あまり複
雑なものでないために、フレキシビリティに欠けるとこ
ろがあり、このモデルは、通常特別のシーケンス内容と
なるよう加工される。入力ビデオデータが符号化装置に
よりモデル化されるものと、大きく異なるときにはモデ
ルのブレクダウンが発生して、符号化信号に重大な影響
を及ぼす。
【0019】頭と肩の(肩から上)ビデオシーケンスに
対し、偏在するデータモデルに依存せずに、本発明のア
プローチは、データを部分的にモデル化するだけであ
る。すなわち、そのシーン内に存在するものとして認め
られる特別の対象物の位置をモデル化し、そして、この
部分的なモデル化を従来のビデオ符号化システムに組み
込むものである。テレビ電話会議のシーンの符号化は、
非常にそのビットレートを遅くするために、その顔をモ
デル化するものではなく、そのシーン内に存在する人の
顔の位置をモデル化するものである。
【0020】この顔の位置のモデル化は従来のビデオ符
号化装置により与えられる画像の品質を領域を選択的に
行うことにより改良する。この符号化装置には、顔では
ない領域の符号化から得られたビットレートの極一部を
顔の領域の符号化に適用し、それにより、よりシャープ
の顔の特徴のイメージを提供する。ソースコンテントに
関する仮定が十分でないような場合(モデルブレークダ
ウン)は、従来のビデオ符号化装置は効率的な「フォー
ルバック」符号化モデルとして用いられる。我々はこの
アプローチをモデルアシストビデオ符号化と称し、デー
タモデルに大きく依存するようなモデルベースの符号化
とは区別する。我々のアプローチの利点は:i)良好な
フォールバックモードに依存しているので、符号化の品
質に対し、許容可能な低いバンドを保証する、ii)イ
メージの自然さを維持する、iii)既存の復号化装置
とコンパティブルである、iv)モデル適合化の精度の
観点からのその必要要件が少なくなる点である。
【0021】従って、我々は、ビデオデータの特殊のタ
イプ、すなわち、頭と肩のシーケンスと部分モデル、す
なわち、顔の位置のモデルとフォールバックビデオ符号
化(3Dサバンドでをベースにした)にCIFフォーマ
ットにおける輝度信号に対する96kbpsのグローバ
ル符号化レートでもって注目する。しかし、このフレー
ムワークの特性にも関わらず、このコンセプトは極めて
一般的である。他の速度で動作するビデオ符号化につい
ても用いることもできる。また、対象物追跡アルゴリズ
ムは顔以外の対象物が問題になるような異なるアプロー
チにも用いることができる。
【0022】3 モデルアシストのビデオ符号化に対し
て、顔の位置の情報の利用 3.1 顔の位置モデル化 顔の位置を表すために、我々の採用するモデルは楕円形
である。実際の顔のアウトラインは上(髪の毛)と下
(顎)の領域は全く異なるカーブを描いているが、この
楕円はモデルの精度とパラメータの単純性との間の妥協
の産物である。さらに、またこの情報は実際には顔のア
ウトラインを再生するために用いられていないために、
精度が多少落ちても、符号化プロセスの全体の性能には
大きなインパクトには与えない。様々な頭の位置とサイ
ズを用いるために、任意の大きさの楕円とその傾斜を考
慮する。
【0023】任意の楕円は次式により表される:
【数1】 D=b2−acの値が負であることは、必須条件で、他
の値では異なる二次カーブを描く。モデルアシストの動
画保証を利用するために、1つある楕円を他の楕円にマ
ッピングするアフィン変換τを得る必要がある。第1の
楕円内の領域からの点は次式により第2の楕円内の点に
マッピングされる:
【数2】 ここで、τは3×3のマトリックス形態である。次式の
マトリックス計算である
【数3】
【0024】このコンプレクスアフィン変換は移行、回
転、スケーリングに対応する単純な変換を合成すること
により得られる。(数1)により与えられる値に対して
は、その中心は次式で与えられる:
【数4】 そして、その傾斜角は次式により与えられる:
【数5】 (図8参照)。傾斜角がゼロの楕円では、その中心は
(0,0)である。すなわち、次式の形態である:
【数6】 長軸Aと短軸Bのサイズは次式により与えられる:
【数7】
【数8】 r=A/Bの比率は楕円のアスペクト比と称する。上記
の量から任意の楕円を原点を中心とした単位サークルに
マピングする合成変換SoRoTは次式で定義される:
【数9】
【数10】
【数11】
【0025】RとTは(数1)の元の楕円パラメータか
ら直接得られるが、Sは移行され、回転された楕円に対
しては、新たな楕円パラメータ、すなわち、(数6)を
計算する必要がある。これは線形マピングMにより変換
される楕円パラメータを観測することにより得られる:
【数12】 ここで、2つの楕円のε1とε2があると仮定し、それら
の対応する変換をそれぞれT1、R1、S1とT2、R2
2として、楕円ε1をε2にマピングする変換は次式に
表される:
【数13】 この変換を用いて、次の動ベクトルフィールドを生成す
る。
【0026】3.2 顔のアウトラインの手動によるト
レース (数1)による与えられる楕円の内在する形状は多くの
計算のタスクに対して有益である。しかし、双方的にデ
ザインする楕円に対しては、それほど魅力的なものでは
ない。コンピュータグラフィックスとコンピュータCA
Dにおいては、カーブのパラメータ表示はフレキシビリ
ティを維持するために、もっぱら用いられる。このデザ
イン特徴による任意の二次元カーブの表示は、次式によ
り与えられる:
【数14】 ここで、{wii0,1,2はゼロか正の重み係数で、
{Pii0,1,2いわゆるコントロールポリゴンで規定
する面上の点である。この重み係数の直感的な効果とし
ては、各点がカーブの形状に対し、どのような重みを持
っているを決定することである。
【0027】次にこのカーブの形成プロセスを述べる。
ユーザは面上に3個の点、P0、P2、Q(図3)を特定
する。これらの点は生成された楕円上にある。次にこの
ユーザが最後の4番目の点P1を特定すると、このP1
楕円の点P0とP2接線の交差点となる。Q0は点P0、P
1、P2により形成された三角形により、そして、P1
選択する場所として、図3の斜線として示した領域内に
制限される。このP0とP2は楕円上にあるために、式
(14)のw0とw2は、一般性に失うことなく、1にセ
ットされる。式(14)が楕円を表すためには、w1
1以下でなければならない。
【0028】上記の4箇所の点が与えられると、w1
値が計算され、その後、(数14)を複雑な計算を施し
た後、パラメータtを消すことにより、陰解形(1)に
変換する。この陰解形のパラメータは符号化装置に入力
される。図4はビデオシーケンスからの正視がフレーム
内の手動により取された顔のアウトラインと他の対象物
と表す。
【0029】3.3 モデルアシストの3Dサバンドベ
ースビデオ符号化 肩から上の頭と顔のテレビ電話会議の連続クレーム内の
顔の位置に関する情報は、3Dサバンドテレビ会議シス
テムの2つの異なる部分で用いることができる。その1
つは空間−時間ベースバンド内のモデルアシストピクセ
ルベースの動画補償スキールを改良して、これには動ベ
クトルの伝送と条件付き再重点と適合するものである。
第2の要素においては、異なる2つの量子化装置Qi
eを楕円形の顔の外形により決定されたサバンド信号
の2つの領域内で復号化装置の動的ビット割当装置(D
BA)が選択的に利用できる。ここで、Qiは楕円の内
部領域内で用いられ、Qeは外部領域で用いられる。
【0030】3.3.1 動的ビット割当を用いて低ビ
ットレートの3Dサバンドベースにしたディジタルビデ
オの符号化 96kbpsで符号化された輝度信号と128kbps
の速度で機能する3Dサバンドベースのテレビ電話会議
システムの構造上について考察する。CIFフォーマッ
トにおける入力輝度信号は、360×240ピクセルの
イメージからなり、7.5fpsでもって、時間的にサ
ブサンプルされるが、これは別個の方法により、図5に
従って組織化された17個の空間−時間サブバンドに分
解される。図7には様々な人、あるいは人物のサブバン
ドのフレームのサンプル対が示されている。
【0031】ローパス時間(low-pass temporal:LP
T)サブバンドフレームとハイパス時間(high-pass te
mporal:HPT)サブバンドフレームの各対は、グロー
バル符号化レートにより与えられる固定のビット数に割
り当てられる。これらのビットは図6aに示すような符
号化優先リストに基づいて、様々なサブバンドに動的に
割当られる。あるサブバンドのフレーム対に対しては、
動的ビット割当装置(dynamic bit allocator:DB
A)は、まずサブバンドのデータブロックを順序付け
る。このサブバンドデータブロックは、減衰する自乗平
均エネルギーでもって、ブロックのリスト内に前の対か
ら繰り返されることはない。
【0032】この動的ビット割当装置は、様々なサブバ
ンドの信号内容が元の入力シーケンスの特質に応じる
(シーンテキスチャの存在動き内の複数の人への近づ
き、あるいは、複数の人へ遠ざかる)につれて、リスト
内の如何なるポイントでビットが束することがある。ビ
ット割当装置がサブバンドクラスタ内で、ビットが束す
ると、最大の自乗平均エネルギーを有するブロックが符
号化される。最低の自乗平均エネルギーを有する残りの
ブロックは廃棄される。図6aの「フィードバックルー
プ」はサブバンド{S2,S3,S4}のクラスタの符号
化後、ビットが残った場合について、これらのビットは
同サブバンド{S8.1、S8.2,S8.3,S8.4}が2つの
データを介して、2つのパスを有するビット割当になる
ようなサブバンドの特定のクラスタ内のより多くのデー
タを符号化するのに用いられる。
【0033】ピクセルベース、あるいは、ブロックベー
スでサブバンドを符号化するために用いられる様々な量
子化装置が存在する。この量子化方法は表1示されてい
る。この条件付き重点(conditional replenishment:
CR)と低エネルギーのサブバンドデータブロックゼロ
化することを用いると、廃棄されないサブバンド内の各
ピクセル、あるいは、ブロックを特定するような副情報
を生成する。これは:i)前のサブバンドフレーム対内
の同一の空間位置からに再生されるか、ii)符号化さ
れるか、あるいは、iii)ゼロで廃棄されるかによ
る。
【0034】3.3.2 モデルアシストピクセルベー
スの動き考証 サブバンドS1.1の符号化はピクセルベースで行われ、
低速ビットレートで、あるサブバンドから次のサブバン
ドへの正視背景を再生するために、条件付き充填を用い
て行われる。再生されないピクセルは、5−ビットPC
Mで充填され、量子化される。この符号化アルゴリズム
は次式である:
【数15】 ここで、xt(i,j)は時間tにおけるサブバンドS
1.1内のi番目の行とj番目の列内のピクセルpt(i,
j)の値を表す。^xt(i,j)は量子化ピクセル値
で、Q{・}はPCM量子化を表す。スクラしきいTcr
は実験的に決定される。
【0035】連続的なサブバンドフレームの顔の位置の
モデル化が得られることにより、ある種のピクセルベー
スの動き補償が実行でき、これは上記の体型とに適用で
きる。人の頭の方向がある一対のサブバンドフレームか
ら次の一対のサブバンドフレームまであまり大きく変化
しない場合には、顔の特徴の位置は前の対にトレースバ
ックすることができる。
【0036】Ct-1とCtが2つの連続するサブバンドS
1.1内の顔の位置の良好の近似を与える楕円の形状を表
すとする。1つの楕円形状から他の楕円形状の二次元の
アフィンマピングは、楕円の長軸と短軸を他のものにマ
ピングすることにより明白に規定される。τtはこのCt
からCt-1へのマピングを表すものとする。楕円形Ct
の各ピクセルにマピングを適用することにより、ピクセ
ルベースの(アフィン)同フィールドを生成する。そし
て、これは前述した単純な条件付き充填方法を実行す
る。但し、この楕円は実際の顔の輪郭によくフィットす
るものとする。このアイデアを表したものが図8であ
る。この符号化アルゴリズムは次のようになる
【0037】pt(i,j)がCt内にある場合には ・pt(i,j)に対しては、次式から動ベクトル
t (i,j)=[Δi,Δj]Tを計算する:
【数16】 ここでIは単位行列である。 ・次式から^xt(i,j)を計算する:
【数17】 ・あるいは、^xt(i,j)は(数15)で定義され
たものとする。
【0038】この方法の魅力的な点は、モーションフィ
ールドの転送を必要としないことである。その代わり
に、モーションフィールドは、連続的な楕円形の顔の位
置のモデルを他のモデルにマピングするようなアフィン
変換のパラメータに基づいて、復号化装置で再度計算さ
れる。ところが、都合の悪いことにローパス空間−時間
サブバンドにS1.1内で、この方法を用いることにより
ビットをセーブすることは極めて遅く、このサブバンド
を符号化するのに必要なビットレートの5%のオーダー
である。これはこの特定のモーションフィールドは人間
の頭の3Dモーション、あるいは、人間の顔の特徴部分
を変形もさせないで、効率的に捕獲することができない
からである。このダイナミックなビットの割当は、次に
述べるように非常に大きなインパクトがある。
【0039】3.3.3 モデルアシスト動的ビット割
当 手動により得られた顔の位置の情報は、3Dサブバンド
ベースのテレビ電話会議の動的割当アルゴリズムに組み
込まれる。この新たな動的ビット割当装置は、図6bに
示すような若干異なる符号化優先リストと、表2に示さ
れる修正量子化方法に基づいている。サブバンド
{S2,S3,S4}においては、2つのブロックを用い
る。これはそのデータブロックがこれらのサブバンドに
適切に換算された顔の位置の内側か外側かに基づいて行
われる。
【0040】この2つの内の量子化のより細かい項、Q
iは顔の位置の内側に用いられる。斜めサブバンドS4
で、顔の位置の外側のより荒い量子化Qeを用いて、こ
のブロックは単純にゼロにされ、かくして、ビットセー
ブすることができる。これらのビットを用いて、以前に
は一緒に廃棄されたようなハイパス空間サブバンド{S
5,S6}内の間隔的に重要的なデータブロックを符号化
する。この供給されたビットの数は極めて小さく、そし
て、その焦点は符号化シーケンス内の顔の詳細の改良に
のみ向けられるので、{S5,S6}内の換算した顔の位
置内にある高エネルギーブロックのみが符号化される。
【0041】同サブバンドへの「フィードバックルー
プ」は、このデータを符号化した後に影響が現れる。こ
の動的ビット割当をモデルアシストと呼び、ビット割当
装置はサブバンドデータ内の特定の対象物(人間の顔)
の位置の知識に基づいて、2つの量子化装置の間を切り
替える。このモデルアシストのDBAを用いた符号化シ
ステムのブロック図を図1に示す。
【0042】このモデルアシストの動的ビット割当を図
11に示す。同図においでは、左側の副情報イメージ
は、CIF輝度信号の96kbpsのレートで符号化さ
れたものに対し得られ、一方、右側のイメージは、この
セクションで記載した方法を用いて得られる。右側のイ
メージ内においては、2つの量子化装置は2つの色によ
って示されている。そして、サブバンド{S2,S3,S
4}に対しては、より細かい量子化装置は(4−レベル
GVQの4×4ブロック)白で表し、より荒い量子化装
置(3−レベルGVQの4×4ブロック)は灰色で表
す。
【0043】一方、サブバンド{S5,S6}内において
は、より細かい量子化装置(3−レベルGVQの4×4
ブロック)に対しては灰色で、より荒い量子化装置(ゼ
ロ化)に対しては黒で表す。楕円形の顔の位置のモデル
のパラメータを伝送するのに必要な副情報は、0.5k
bps以下で、全体のビットレートの約0.5%で殆ど
無視できる。
【0044】モデルアシストの動的ビット割当を用い
て、符号化したシーケンスの顔の詳細の再生の回路につ
いては図12に示す。左側の符号化イメージは、96k
bpsで符号化された3Dサブバンドから得られたもの
で、右側のイメージは同一のレートでもって符号化さ
れ、モデルアシストのDBAを用いて得られたものであ
る。これによれば、瞼、唇等は右側のイメージのほうが
よりシャープである。これら特定のフレームについて改
良を行うようなサブバンド{S5,S6}内のデータブロ
ックは図11の副情報イメージにトレースバックするこ
とができる。その結果は、符号化ビデオ内でも確認する
ことができる。
【0045】「女性」の絵と「母子」の絵の2つのシー
ケンスにおいては、顔の特徴の部分の鋭さの増加はこれ
から明らかに切り取れる。しかし、「男性」の写真にお
いては、これらのシーケンスの非常に高速の動き内容
は、顔の詳細を改良するのに用いることができる。その
ため、男性の顔は動きは少ない場合、すなわち、図12
の正視画像の場合によりシャープになる。
【0046】4 顔の位置の自動検知とトラキング イメージのシーケンス内で、顔の位置の検知とトラキン
グを行うことは、フレーム間の時間的相関を用いて容易
になる。この章では、シーケンスの内容に関し、最小の
仮定に基づいて、肩から上の写真のシーケンス内で顔の
位置を検知し、トラキングを行うための自動的で、あま
り複雑でないアルゴリズムについて述べる。このアルゴ
リズムは、広い意味ではパターンマーチングアルゴリズ
ムに属する。
【0047】4.1 検知と追跡アルゴリズム このアルゴリズムは、連続するローパス空間−時間サブ
バンドS1.1を減算することによって得られた入力デー
タ二進しきい値化された差分イメージを用いて、顔の位
置の形状の外形を楕円としてモデル化して、検知し追跡
する。このアルゴリズムに対する入力イメージは、45
×30のサイズである。典型的な入力イメージは、図1
1の左側のイメージの下の右側の四分の一の場所に示し
てある。本発明の顔の位置の検知アルゴリズムは、楕円
形状(すなわち、充填された)とデータにより部分的に
下がれた全体の楕円形状の両方を突き止めることによ
り、突き止めるものである。このアルゴリズムは三段階
のステップからなる。
【0048】荒い走査、細かい走査、楕円の適合であ
る。最終ステップは多くの候補者の間で最も近いものを
選択するものである。この三段階における認識と検知の
分解は、小さいな入力イメージサイズと共にアルゴリズ
ムをより低い計算の複雑さのために魅力的にし、そのた
め、多くの候補者の中から精力的に探し出す必要はな
い。これは異なるステップを図13を参照しながら説明
する。
【0049】ステップ1: 荒い走査(Coarse Scannin
g) 入力信号サブバンドS1.1に対応する二進エッジイメー
ジは、サイズB×B(一般的には5×5)のブロックに
区分される。このブロックのサイズはデザインパラメー
タによって変更することができる。各ブロックは少なく
とも1つのピクセルがゼロでないもの含んでいる場合に
はマークされる。その後、このブロックのアレイは左側
から右側に、上部から底部の順に走査され、マークされ
たブロックの連続的なランを検索する。このようなラン
は小さな丸で示され、これは図13aに示す。このよう
な各ランにおいて次のステップを行う。
【0050】ステップ2:細かい走査(Fine Scannin
g) 図13bは図13aのランの2つの丸で囲んだブロック
を表す。このアルゴリズムは左から右、上部から底部へ
再びランのブロック内に含まれるピクセルを走査する。
しかし、このアルゴリズムはピクセルの連続的なランに
対し、ランを問題にしているものではなく、水平方向の
走査によって発見された最初のゼロでないピクセルを問
題にしている。最初と最後のゼロでないピクセルは、水
平方向のゼロでないピクセル(Xstart、Y)、
(Xend、Y)は水平方向の走査領域を表す。
【0051】このアルゴリズムの最初の2つのステップ
は、水平方向端合併フィルタとして機能する。このブロ
ックのサイズは直接合併されたエッジの最大の可能距離
に関連する。大きなブロックサイズによりアルゴリズム
のスピードに良い結果を与えることができる。これらの
2つのステップの目的は、頭の上部の位置の後方を識別
することである。人間を解剖したことにより、頭の動き
は首の結合部の条件のもとで動くことである。従って、
着席している場合には、頭のトップは最も速く動く。そ
して、第2のステップの終了時点では、このアルゴリズ
ムは頭のトップを含む水平方向のセグメントを識別す
る。
【0052】ステップ3:楕円適合/データ減少(Elli
pse Fitting/Data Reduction) この第3のステップにおいては、図13cに示すよう
に、このアルゴリズムは(Xstart、Y)、(Xend
Y)により規定されたラインセグメントを走査する。こ
のセグメントの各点において、様々なサイズの楕円とア
スペクト比が適合するために試される。良好な適合が発
見された場合には、検知された楕円内に含まれるピクセ
ルをゼロアウトする。その後、このアルゴリズムは、ス
テップ1で残されたポイントについて継続される。可能
な楕円内での完全な検索が実行されると、最適な適合が
選択される。
【0053】この検索が様々な長軸のサイズとアスペク
ト比について実行される。ここで「傾斜ゼロ」(θ=
0)の楕円について、考慮する。この制限をかけること
の主な理由は、アスペクト比に対し、検索範囲を拡張す
ることによって、得られる余分な自由度をトレードオフ
することである。
【0054】ある楕円に対し、データを適合できること
は、それぞれ形状とボーダのピクセルである正規化され
た平均的な強度IiとIeとを計算することにより決定さ
れる。その限界条件は顔の輪郭に当てられる。その理由
は、内部の領域は唇や瞼、あるいは、頭の若干の動き等
によって大きく変化する動きによって動きを受けるから
である。楕円の外形はその非パラメータ形状によって規
定されているが、このイメージデータの空間サンプリン
グは、連続的なカーブを実際のイメージピクセルにマピ
ングする必要がある。これは楕円の輪郭について当ては
まることである。この区分されたカーブは次のように決
定される。Iε(@ ,)は楕円ε内、あるいは、その上
の点の組に対するインデクスの関数である。言い替える
と、(数18)になる:
【数18】
【0055】ピクセルは楕円の内側あるいはその上にあ
る場合には、楕円の形状の上にあるように区分されて、
少なくとも1つの(2B+1)×(2B+1)の近傍内
のピクセルではない。すなわち:
【数19】 同様に、ピクセルはそれが楕円の外側にある場合には、
楕円のボーダの上にあるとして識別される。少なくとも
1つの(2B+1)×(2B+1)内の近傍のピクセル
は楕円の内側あるいはその上にある。すなわち:
【数20】
【0056】このパラメータBは、楕円の形状とボーダ
の厚みを規定し、そのデザインパラメータは動かすこと
が可能である。楕円形状と楕円のボーダのピクセルの定
義は与えられると、正規化された平均強度IeとIiは次
のようにして決定される:
【数21】 ここで、p(i,j)はイメージデータで、■Ci■は
iのカーディナリティ個数である。同様に、(数2
2)が得られる:
【数22】 楕円の内部とボーダの「長さ」に関しての正規化が必要
である。上記の定義により、最適にフィトした楕円は、
最大のモデル比を有するものと見なされる:
【数23】上記の表示においては、1/2から2まで変
化し、Ieの小さな値とIiの大きな値とRのより大きな
値でもって、候補の楕円の最適なフィットが与える。外
れた候補を除去するために、楕円は次式を満足させなけ
ればならない:
【数24】ここで、IiminとIemaxは可変のデザインパ
ラメータである。これらを用いることが必要なのは、R
はIiとIeの相対値に最も大きく関係し、その絶対値に
は関係しないからである。
【0057】この適合の条件は、実際のビデオデータで
観測される特定の特性を特徴化する。多くの場合におい
ては、楕円のアークは部分的な除去、あるいは、顔の周
囲の領域の動きに起因して、はっきりと識別可能であ
る。上記のしきい値とRとを用いることにより、このア
ルゴリズムは、このようなアークにロックすることがで
き、そして、非常に人間につな除去された顔の場合にも
良好な結果が得ることができる。
【0058】多数の候補の除去 最後に、上記の3つのステップは、図14に示すように
良好な適合を有する複数の楕円を生成することになる。
もし1つの最終的な楕円のみを選択する必要がある場合
には、残りのものは除去しなければならない。このプロ
セスは確信的なしきい値ΔRminとΔIeとを用いる。最
適の適合した楕円に対し、Rの値が第2の2番目に最適
の楕円に対し、ΔRmin以上高い場合には、最終の楕円
を選択する。そうでない場合には、これらの2つの楕円
の間のボーダの強度がΔIeよりも大きい場合には、最
低のIeを有する楕円を選択する。このボーダの強度の
差がΔIeより小さい場合には、元の最適の候補(最大
のRを有するもの)が選択される。
【0059】
【発明の効果】本発明による自動的顔位置検知アルゴリ
ズムのテストサンプルを図14、図15に示す。図14
は「男性」の写真に対する中間的な結果で、多くの候補
を除去するステップの前のアルゴリズムのステップから
なる。この段階で発見された楕円は、顔の位置の候補を
表すものである。図15はイメージの4つの対を表す。
左側のいイメージは、サブバンドS1.1に対応する二進
のエッジデータで、自動的な顔位置検知アルゴリズムに
よって、最適にフィットした楕円がネズミ色で重ね合わ
せている。これらのイメージは、水平方向と垂直方向の
両方で8倍に拡大されている。右側のイメージは、36
0×240の元のイメージのサイズにまで拡大して、最
適化されたものを表し、元の上にネズミ色で重ね合わせ
たものである。
【0060】本発明のアルゴリズムは、手に持った対象
物で顔が部分的に覆われたような難しい状況でも良く機
能する。「男性」の写真のシーケンスにおいては、その
男性の顔の全面に本が動いているが、そのような動作に
おいて、このアルゴリズムは混乱するものではない。言
い替えると、この楕円形状のマスクは、ジムの顔の外形
に本の外形に規定されるものよりも良くフィトするもの
である。1つのシーンの中に複数の人が存在する場合に
も、このアルゴリズムは、最適となるように人間の顔の
位置を特定することができる。例えば、「母と子供」の
画面の場合には、母親の顔は殆ど完全に検知でき、この
ことは、子供の顔は母親の左により部分的に覆われてい
ると言うことによっても説明できる。
【0061】そして、このことは図15の下半分に示さ
れている。何れの場合においても、一人の人間から他の
人間への焦点がジャンプすることは、一対のフレームか
ら次のフレームへの連続的条件を課することによって取
り除くことができる。
【0062】図16は96kbpsのシーケンスから得
られた正視画である。左側のイメージは、モデルアシス
トを用いないで得られたものであり、右側のそれはモデ
ルアシストの動的ビット割当を用いた場合の顔の特徴部
分を改良した状態が示されている。これは4.1章に記
載された顔位置検知アルゴリズムと3.3.3章に記載
されたDBAによって得られた顔の外形のモデルを用い
たものである。
【0063】ハイパス空間サブバンド{S5,S6}内の
顔領域内のデータブロックの符号化に変換されるビット
のパーセンテージはフレーム毎に異なる。これらのシー
ケンス「男性」写真、「女性」写真、「母子」に対する
符号化装置の動作を解析すると、ビット伝送レートは9
6kbpsの全符号化レートの0%から30%の間で変
化し、これらの3個のシーケンスに対する平均は約10
%である。これは小さいけれども、決して無視できない
値である。顔の輪郭を発見できない場合においては、符
号化装置は非モデルアシストモードに戻る。
【0064】図17は96kbpsで符号化されたシー
ケンスから得られた正視画を表し、このモデルアシスト
動的ビット割当を用いる両方ともモデルアシスト動的ビ
ット割当を用いる符号化装置を用いている。同図におい
ては、ビットの2つの異なる量が顔の部分に伝送され
る。左側のイメージは、顔の領域に対し、全体のビット
レートの10%の平均のビットレートトランスファに対
応するもので、右側のイメージは、15%のトランスフ
ァに対応するものである。
【0065】このトランスファレートが高くなると、顔
の部分と周囲の状況との間のイメージの質の観点からの
区分が非常に簡単となる。10%の平均ビットレートト
ランスファは、全くトランスファされない状況とより高
い(15%)トランスファレートとの間の2つの「極
端」な状況の妥協点でる。
【図面の簡単な説明】
【図1】一般的なモデルベースのビデオ符号化システム
を表すブロック図。
【図2】楕円パラメータを表すグラフ図。
【図3】楕円の相互作用のデザインを表す図。
【図4】女性の写真と男性の写真のシーケンスからフレ
ーム内の顔と他の対象物とを手動によりトレースしたア
ウトライン図。
【図5】ビデオ信号(128kbps符号化に対する1
7サブバンドスキーム)の3Dサブバンド分解を表す図
で、左側はローパス時間サブシーケンス、右側はハイパ
ス時間サブシーケンスを表す図。
【図6】符号化優先リストで、左側はモデルアシストの
ないDBAで、右側はモデルアシストのDBAを表すフ
ローチャート図。
【図7】「女性」と「男性」と「母子」のシーケンスの
サブバンドのフレームを表す一対のサブバンドのフレー
ム。
【図8】楕円形状の顔のアウトライン内におけるピクセ
ルベースの動き補償を表す図。
【図9】モデルアシストの動的ビット割当を有する3D
サブバンドベースのビデオ符号化装置。
【図10】サブバンド量子化から得られた副情報に対す
る添付レートイメージを表す図。
【図11】上の「女性」のビデオシーケンスと下の「男
性」のビデオシーケンスにおいて、96kbpsの符号
化の際に発生する一対のサブバンドの副情報で、左側が
モデルアシストないDBAで、右側はモデルアシストの
あるDBAを用いた図である。
【図12】3D SBCでもって96kbpsにおいて
符号化した「男性」と「女性」のシーケンスの正視画
で、左側がモデルアシストのないDBAで、右側はモデ
ルアシストを用いたDBAである。
【図13】ビデオシーケンスにおける自動顔検知と追跡
を表すアルゴリズムを説明する図で、ステップ1は荒い
走査で、ステップ2は微細走査で、ステップ3は楕円の
適合/データ減少を表す。
【図14】複数の候補を削除する前の「男性」の写真の
自動的に検知された候補の顔の位置。
【図15】「女性」と「男性」と「母子」の自動的に検
知された顔の位置。
【図16】3D SBCでもって96kbpsでもって
符号化された「女性」と「男性」と「母子」のシーケン
スから得られた正視画で、左側がモデルアシストのない
DBAで、右側はモデルアシストのあるDBAで、白色
内の顔の位置のモデルは自動検知トラッキングにより得
られたものである。
【図17】3D SBCでもって96kbpsでもって
符号化された「男性」写真のシーケンスからの正視画
で、それぞれ顔の領域内の異なる量のビットレートトラ
ンスファが行われたモデルアシストのDBAで、平均的
なビットレートトランスファは左側の正視画に対し、右
側の正視画に対し、それぞれ10%と15%である。
【図18】フールバンドのビデオ符号化フレームワーク
内の二進入力データのエッジ抽出と生成。左上がローパ
スフィルタ処理されて、ダウンサンプリングされたイメ
ージで、右上がソーベルオペレータに対する傾斜振幅イ
メージを表し、左下がしきい化された振幅イメージで、
右下がしきい化された振幅イメージである。
【符号の説明】
12 サブバンド解析回路 14 動的ビット割当装置 16 対象物検出装置 20 量子化装置 22 スイッチ 24 高精細量子化装置 26 粗量子化装置 28 結合装置 30 エントロピー符号化装置 32 マルチプレスサ 42,44 領域
【表1】
【表2】
【手続補正書】
【提出日】平成7年11月1日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】一般的なモデルベースのビデオ符号化システム
を表すブロック図。
【図2】楕円パラメータを表すグラフ図。
【図3】楕円の相互作用のデザインを表す図。
【図4】女性の写真と男性の写真のシーケンスからフレ
ーム内の顔と他の対象物とを手動によりトレースしたア
ウトラインを表すディスプレー上に表示した中間調画像
の写真。
【図5】ビデオ信号(128kbps符号化に対する1
7サブバンドスキーム)の3Dサブバンド分解を表す図
で、左側はローパス時間サブシーケンス、右側はハイパ
ス時間サブシーケンスを表す図。
【図6】符号化優先リストで、左側はモデルアシストの
ないDBAで、右側はモデルアシストのDBAを表すフ
ローチャート図。
【図7】「女性」と「男性」と「母子」のシーケンスの
サブバンドのフレームを表す一対のサブバンドのフレー
ムを表すディスプレー上に表示した中間調画像の写真。
【図8】楕円形状の顔のアウトライン内におけるピクセ
ルベースの動き補償を表す図。
【図9】モデルアシストの動的ビット割当を有する3D
サブバンドベースのビデオ符号化装置。
【図10】サブバンド量子化から得られた副情報に対す
る添付レートイメージを表す図。
【図11】上の「女性」のビデオシーケンスと下の「男
性」のビデオシーケンスにおいて、96kbpsの符号
化の際に発生する一対のサブバンドの副情報で、左側が
モデルアシストのないDBAで、右側はモデルアシスト
のあるDBAを表すディスプレー上に表示した中間調画
像の写真。
【図12】3D SBCによって96kbpsにおいて
符号化した「男性」と「女性」のシーケンスの正視画
で、左側がモデルアシストのないDBAで、右側はモデ
ルアシストのあるDBAを表すディスプレー上に表示し
た中間調画像の写真。
【図13】ビデオシーケンスにおける自動顔検知と追跡
を表すアルゴリズムを説明する図で、ステップ1は粗い
走査で、ステップ2は微細走査で、ステップ3は楕円の
適合/データ減少を表す。
【図14】複数の候補を削除する前の「男性」の写真の
自動的に検知された候補の顔の位置を表すディスプレー
上に表示した中間調画像の写真。
【図15】「女性」と「男性」と「母子」の自動的に検
知された顔の位置を表すディスプレー上に表示した中間
調画像の写真。
【図16】3D SBCによって96kbpsで符号化
された「女性」と「男性」と「母子」のシーケンスから
得られた正視画で、左側がモデルアシストのないDBA
で、右側はモデルアシストのあるDBAであり、白色内
の顔の位置のモデルは自動検知トラッキングにより得ら
れたものを表すディスプレー上に表示した中間調画像の
写真。
【図17】3D SBCによって96kbpsで符号化
された「男性」写真のシーケンスからの正視画で、それ
ぞれ顔の領域内の異なる量のビットレートトランスファ
が行われたモデルアシストのDBAで、平均的なビット
レートトランスファは左側の正視画に対し10%で、右
側の正視画に対し15%であるものを表すディスプレー
上に表示した中間調画像の写真。
【図18】フルバンドのビデオ符号化フレームワーク内
の二進入力データのエッジ抽出と生成。左上がローパス
フィルタ処理されて、ダウンサンプリングされたイメー
ジで、右上がソーベルオペレータに対する傾斜振幅イメ
ージを表し、左下がしきい化された振幅イメージで、右
下がしきい化された振幅イメージを表すディスプレー上
に表示した中間調画像の写真。
【符号の説明】 12 サブバンド解析回路 14 動的ビット割当装置 16 対象物検出装置 20 量子化装置 22 スイッチ 24 高精細量子化装置 26 粗量子化装置 28 結合装置 30 エントロピー符号化装置 32 マルチプレクサ 42、44 領域

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ある形状の所定の対象物を含むイメージ
    からなる、少なくとも1つのフレームを含む連続するフ
    レームからなるビデオ信号を符号化する方法において、 (A)所定の対象物の少なくとも一部を含むイメージの
    領域を、所定の形状とイメージ内の所定の対象物の形状
    とを比較することにより、自動的に決定するステップ
    と、 (B)この決定された領域を符号化するステップととか
    らなることを特徴とするビデオ信号の符号化方法。
  2. 【請求項2】 前記決定された領域は、第1の符号化装
    置で符号化され、 (C)前記決定された領域内に含まれないイメージの部
    分を、第2の符号化装置により符号化するスッテプと、 ここで第2の符号化装置は、第1の符号化装置とは異な
    ることを含むことを特徴とする請求項1の方法。
  3. 【請求項3】 前記所定の対象物は、人間の頭を含み、
    各所定の形状は楕円であることを特徴とする請求項1の
    方法。
  4. 【請求項4】 ビデオ信号を動き補償符号化方法によ
    り、符号化する際に用いられる動ベクトルを決定する方
    法において、 前記ビデオ信号は、連続するフレームからなり、前記フ
    レームの第1フレームは所定の対象物を含む第1イメー
    ジを含み、前記所定の対象物は、前記第1イメージ内の
    第1形状を有し、前記フレームの第2フレームは、所定
    の対象物を含む第2イメージを含み、前記所定の対象物
    は前記第2イメージ内の第2形状を含み、 (A)所定の対象物の少なくとも一部を含む第1イメー
    ジの第1領域を、所定の形状と前記第1イメージの所定
    の対象物の第1形状とを比較することにより、自動的に
    決定するスッテプと、 (B)所定の対象物の少なくとも一部を含む第2イメー
    ジの第2領域を、所定の形状と前記第2イメージの所定
    の対象物の第2形状とを比較することにより、自動的に
    決定するスッテプと、 (C)前記第1イメージの第1領域に含まれる場所と、
    第2イメージの第2領域に含まれる場所とを比較して、
    動ベクトルを決定するステップとからなることを特徴と
    する動ベクトルの決定方法。
  5. 【請求項5】 前記所定の対象物は人間の頭を含み、前
    記所定の形状は、楕円形であることを特徴とする請求項
    4の方法。
JP7152807A 1994-05-27 1995-05-29 ビデオ信号の符号化方法 Pending JPH08205149A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25025194A 1994-05-27 1994-05-27
US250251 1994-05-27

Publications (1)

Publication Number Publication Date
JPH08205149A true JPH08205149A (ja) 1996-08-09

Family

ID=22946966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7152807A Pending JPH08205149A (ja) 1994-05-27 1995-05-29 ビデオ信号の符号化方法

Country Status (3)

Country Link
EP (1) EP0684736A3 (ja)
JP (1) JPH08205149A (ja)
CA (1) CA2145914A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6816192B1 (en) 1999-09-20 2004-11-09 Kabushiki Kaisha Toshiba Motion pictures sending apparatus and motion pictures communication apparatus
WO2009122760A1 (ja) * 2008-04-04 2009-10-08 富士フイルム株式会社 画像処理装置、画像処理方法、およびコンピュータ読取可能な媒体
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819004A (en) * 1995-05-08 1998-10-06 Kabushiki Kaisha Toshiba Method and system for a user to manually alter the quality of previously encoded video frames
GB2306830B (en) * 1995-10-30 2000-05-24 Sony Uk Ltd Video data compression
US5745178A (en) * 1996-01-22 1998-04-28 Lucent Technologies Inc. Global rate control for model-assisted coding of low bit rate video
KR100211055B1 (ko) * 1996-10-28 1999-07-15 정선종 내용기반으로 분할된 영상객체들의 스케러블 전송방법
KR20010031548A (ko) 1997-10-28 2001-04-16 칼 하인쯔 호르닝어 디지털화된 영상을 처리하기 위한 방법 및 장치
DE10321498A1 (de) * 2003-05-13 2004-12-02 Siemens Ag Verfahren zum Übertragen von Bilddaten
JP4470434B2 (ja) * 2003-10-06 2010-06-02 富士ゼロックス株式会社 動作識別装置、及び対象物の姿勢識別装置
FR2878396A1 (fr) * 2004-11-19 2006-05-26 France Telecom Procede de codage d'images codees par ondelettes a controle du debit, dispositif de codage et programme d'ordinateur corespondants
GB2425423A (en) * 2005-04-07 2006-10-25 British Broadcasting Corp Variable quantising for compression encoding
CN112883783A (zh) * 2021-01-12 2021-06-01 普联国际有限公司 一种视频浓缩方法、装置、终端设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4218704A (en) 1979-03-16 1980-08-19 Bell Telephone Laboratories, Incorporated Method and apparatus for video signal encoding with motion compensation
US4245248A (en) 1979-04-04 1981-01-13 Bell Telephone Laboratories, Incorporated Motion estimation and encoding of video signals in the transform domain
GB8710737D0 (en) * 1987-05-06 1987-06-10 British Telecomm Video image encoding
JPH0244881A (ja) * 1988-08-05 1990-02-14 Toshiba Corp 動画像符号化方式
EP0330455A3 (en) * 1988-02-22 1990-07-04 Kabushiki Kaisha Toshiba Image encoding apparatus
JPH082107B2 (ja) * 1990-03-02 1996-01-10 国際電信電話株式会社 動画像のハイブリッド符号化方法及びその装置
US5136374A (en) 1990-04-03 1992-08-04 At&T Bell Laboratories Geometric vector quantization
JP3040466B2 (ja) * 1990-07-17 2000-05-15 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 画像処理方法
GB9019538D0 (en) * 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
GB2283636B (en) * 1992-06-29 1996-04-24 British Telecomm Coding and decoding video signals
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6816192B1 (en) 1999-09-20 2004-11-09 Kabushiki Kaisha Toshiba Motion pictures sending apparatus and motion pictures communication apparatus
WO2009122760A1 (ja) * 2008-04-04 2009-10-08 富士フイルム株式会社 画像処理装置、画像処理方法、およびコンピュータ読取可能な媒体
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system

Also Published As

Publication number Publication date
EP0684736A2 (en) 1995-11-29
CA2145914A1 (en) 1995-11-28
EP0684736A3 (en) 1998-02-11

Similar Documents

Publication Publication Date Title
US6757434B2 (en) Region-of-interest tracking method and device for wavelet-based video coding
Eleftheriadis et al. Automatic face location detection and tracking for model-assisted coding of video teleconferencing sequences at low bit-rates
US6456328B1 (en) Object-oriented adaptive prefilter for low bit-rate video systems
US7564465B2 (en) Texture replacement in video sequences and images
US6343141B1 (en) Skin area detection for video image systems
EP0753969A2 (en) Model-assisted video coding
JPH0670301A (ja) 画像セグメント化装置
JP2000513897A (ja) 画像分割およびオブジェクト追跡方法と、対応するシステム
JPH08205149A (ja) ビデオ信号の符号化方法
Stoffels et al. Object‐oriented image analysis for very‐low‐bitrate video‐coding systems using the CNN universal machine
JP2003018602A (ja) 画像データ符号化および復号のための方法および装置
Eleftheriadis et al. Model-assisted coding of video teleconferencing sequences at low bit rates
JPH09172378A (ja) モデルベースの局所量子化を使用する画像処理のための方法および装置
EP0871332A2 (en) Method and apparatus for coding a contour of an object employing temporal correlation thereof
Chen True motion estimation: Theory, application, and the implementation
JPH0338188A (ja) 動画像伝送方式
JPH08307867A (ja) 画像フレームの細分化方法とその装置
Steiger Adaptive video delivery using semantics
Csillag et al. Iterative motion-based segmentation for object-based video coding
Li et al. A hybrid model-based image coding system for very low bit-rate coding
Chu et al. Hybrid object-based/block-based coding in video compression at very low bit-rate
Koufakis et al. Linear combination of face views for low bit rate face video compression
Li et al. Boundary-control vector (BCV) motion field representation and estimation by using a Markov random field model
Garnham Motion compensated video coding
Cascante Coding videophone sequences at a better perceptual quality by using face detection and MPEG coding