JP2002247574A

JP2002247574A - 視覚注意力のモデル化方法

Info

Publication number: JP2002247574A
Application number: JP2002003558A
Authority: JP
Inventors: Wilfried M Osberger; ウィルフリード・エム・オスバーガー
Original assignee: Tektronix Inc
Current assignee: Tektronix Inc
Priority date: 2001-01-17
Filing date: 2002-01-10
Publication date: 2002-08-30
Anticipated expiration: 2022-01-10
Also published as: EP1225769B1; DE60203056D1; CN1203677C; EP1225769A3; EP1225769A2; CN1366422A; US6670963B2; US20020126891A1; DE60203056T2; JP3851171B2

Abstract

(57)【要約】【課題】人間の注意力の特性と目の動きとを用いて、
典型的な娯楽ビデオの自然な場面において、どこに関心
領域があるかを自動的に予測する。【解決手段】ルミナンス及びカラーに応じて現在のフ
レームを複数の領域に適応的にセグメント化し（30）、
複数の空間的特徴（11〜17）によりセグメント化領域を
処理して、複数の空間的インポータンス・マップを生成
する。以前のフレーム及び現在のフレームを処理して
（22）、カメラの動きを補償した時間的インポータンス
・マップを生成する（24）。目の動きの考察から得た重
み付けに応じて空間的インポータンス・マップ及び時間
的インポータンス・マップを組み合わせて（40）、現在
のフレーム用の総合インポータンス・マップを生成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、ビデオ品
質の分析方法に関し、特に、ビデオ信号のイメージ内の
関心領域を自動的に判断する視覚注意力のモデル化方法
に関する。

【０００２】

【従来の技術】適切に同調された初期のビジュアル（視
覚）システムのモデルでは、圧縮された自然なイメージ
における可視歪の場所を正確に予測する。忠実なマップ
から主観的な品質を評価するには、現在の最先端技術の
品質測定により、総ての視覚エラーの単純な加重を求め
る。これは、画像品質の主観的評価の最中に生じるとし
て知られている任意の高レベル係数又は認知係数を考慮
できない。

【０００３】全体的な画像品質に対する歪の影響は、そ
の場面の内容において、その場所により強い影響を受け
るとして知られている。人間の視覚系（Human Visual S
ystem: HVS）の可変分解能特性では、高い鋭敏さ（acui
ty）が網膜の中心窩（視軸上にある網膜の小さい桿状体
のない陥凹で、明瞭な視覚を与える部分）においてのみ
有用であることを示している。なお、この中心窩の直径
は、約２度である。通常の目の動きにより場面の知識を
得て、中心窩の視覚内にある領域を再配置する。初期の
視覚モデルでは、「無限大の中心窩」を仮定しており、
即ち、高い鋭敏な中心窩が総ての領域を観察するとの仮
定の下に場面を処理していた。しかし、目の動きを考察
すると、観察者は、場面の総ての領域を均一に注視して
いないことが判った。その代わり、いくつかの領域は、
人間の視覚注意処理により関心領域（regions of inter
est: ROI）として識別され、観察者は、まだ注視してい
ない他の領域よりはこれらＲＯＩに繰り返し戻る傾向が
ある。これらＲＯＩ内の画像忠実度は、画像全体の品質
に強い影響を与えるとして知られている。

【０００４】自然な場面を観察する際、選択的に且つ相
関的に対象物の目の動きのパターンに人間の注意が向け
られ、目の動きが追従するという知識が、人間の視覚的
注意の計算モデルを開発するための骨組みとなる。かか
る考察により、場面内の画像の動き、ルミナンスのコン
トラスト、カラーのコントラスト、対象物のサイズ、対
象物の形状、人間及び顔、場所に存在する多くの異なる
特徴や、対象物が前景の一部か又は背景の一部かによ
り、人間の注意が影響されることが判った。いくつかの
簡単な視覚注意モデルが文献にて提案されている。これ
らモデルでは、管理されない方法で、場面内のＲＯＩを
検出しようとしている。これらは、一般的に、複雑でな
い静止イメージに用いるように設計されている。これら
モデルは、典型的な娯楽ビデオで注意力を引きつけるモ
デルとして用いるには適さず、多くの欠陥が明らかにな
っている。これら欠点には、注意力を引きつける特徴の
数が限られている点、異なる特徴に異なる重み付けを適
用できない点、セグメント化技術における頑強性が欠如
する点、時間的モデルが存在しない点、注意を引きつけ
る特徴を引き出すのに用いるアルゴリズムが簡単すぎる
点などがある。広範囲の画像内容と深く関連した動作を
検証するモデルが提案されておらず、また、人間の目の
動きとの相関も報告されていなかった。

【０００５】例えば、１９９８年１月２６〜２９日にア
メリカ合衆国合衆国サンホゼで開催されたＳＰＩＥ学会
の論文３２９９の「ヒューマン・ビジョン・アンド・エ
レクトロニック・イメージングＩＩＩ」におけるウィル
フレッド・オスバーガ、アンソニー・ジェイ・マエダー
及びネイル・バーグマン著「知覚に基づいたＭＰＥＧエ
ンコード用量子化技術（A Perceptually Based Quantiz
ation Technique forMPEG Encoding）」に記載されてい
る如く、場面において視覚的に重要な領域をインポータ
ンス・マップ（Importance Map: IM）として自動的に判
断する技術が開示されている。これらインポータンス・
マップは、例えば上述の論文に記載のように、人間の視
覚的な注意力（visual attention：視覚注意力）と、目
の動きとに影響を与えるとして知られている係数（要
因）を組み合わせて生成したマップである。エンコード
する際に、視覚的に重要な領域に対しては細かく量子化
し、視覚的に重要ではない領域に対しては荒く量子化し
ている。その結果、画像品質において、主観的な改善が
なされている。

【０００６】従来技術において、伝統的な再帰分割併合
セグメント化方法を用いて、セグメント化を行ってい
る。セグメント化の後、その結果を５個の空間特徴によ
り処理して、コントラスト、サイズ、形状、場所及び背
景に関する個別の空間インポータンス・マップを生成す
る。また、動きも考慮して、時間的インポータンス・マ
ップを生成する。これら個別のインポータンス・マップ
の各々を二乗して、重要度の高い領域を強調し、等しく
重み付けして、最終的なインポータンス・マップＩＭを
生成する。しかし、この技術では、充分ではなかった。

【０００７】

【発明が解決しようとする課題】人間の注意力の特性と
目の動きとを用いて、典型的な娯楽ビデオの自然な場面
において、どこにＲＯＩ（関心領域）があるかを予測
し、従来技術よりもより一層強力な関心領域自動判断方
法が望まれている。

【０００８】したがって、本発明は、人間の注意力の特
性と目の動きとを用いて、典型的な娯楽ビデオの自然な
場面において、どこにＲＯＩがあるかを自動的に予測で
きる視覚注意力をモデル化（模式化）する方法の提供に
ある。

【０００９】

【課題を解決するための手段】本発明は、複数の空間的
特徴に応じた処理のために、ビデオ・シーケンスの単一
フレーム（現在のフレーム）を複数の領域にセグメント
化して、対応する複数の空間的インポータンス・マップ
を生成し、上記単一フレームを以前のフレームと比較し
て時間的インポータンス・マップを生成し、上記空間的
インポータンス・マップ及び上記時間的インポータンス
・マップを組み合わせて上記単一フレームの総合インポ
ータンス・マップを生成する視覚的注意力のモデル化方
法であって；ルミナンス及びカラーを用いて、上記単一
フレームを複数の領域に適応的にセグメント化する第１
ステップ（３０）と；複数の空間的特徴により上記領域
を処理して、複数の上記空間的インポータンス・マップ
を生成する第２ステップ（１１〜１７）と；上記以前の
フレームに応じて上記単一フレームを処理して、カメラ
の動きを補償した上記時間的インポータンス・マップを
生成する第３ステップ（２２、２４）と；目の動きの考
察から得た重み付けに応じて上記空間的インポータンス
・マップ及び上記時間的インポータンス・マップを組み
合わせて、上記単一フレーム用の上記総合インポータン
ス・マップを生成する第４ステップ（４０）とを具えて
いる。

【００１０】本発明は、視覚注意力のモデルを用いて、
ビデオ画像内の関心のある領域を自動的に識別する方法
を提供するものである。カラー及びルミナンスに基づい
て、現在のフレームを複数領域に適応的にセグメント化
する。カラー及びスキンを含む複数の空間的特徴のアル
ゴリズムにより、各領域を並列処理して、各空間的イン
ポータンス・マップを生成する。複数の空間的インポー
タンス・マップを組み合わせて、全体的空間的インポー
タンス・マップを生成するが、この組み合わせは、目の
動きの考察から得た重み付けに基づいている。現在のフ
レーム及び以前のフレームも処理して、現在のフレーム
用のモーション・ベクトル（motion vector：運動ベク
トル）を生成する。その後、時間的インポータンス・マ
ップに変換する前に、これらモーション・ベクトルをカ
メラの動きに対して補正（修正）する。全体的空間的イ
ンポータンス・マップと、時間的インポータンス・マッ
プとを線形重み付けにより組み合わせて、現在のフレー
ム用の総合インポータンス・マップを生成する。なお、
線形重み付け定数は、目の動きの考察から得たものであ
る。また、インポータンス・マップとは、上述のよう
に、人間の視覚的な注意力と目の動きとに影響を与える
要因を組み合わせて生成したマップである。

【００１１】本発明の目的、利点及び新規な特徴は、添
付図を参照した以下の詳細説明から更に明らかになろ
う。

【００１２】

【発明の実施の形態】本発明で用いるインポータンス・
マップ（ＩＭ）は、領域ベースの（領域を基にした）注
意力モデルに基づいている。注意力に影響を与える多く
の特徴が、サイズ及び形状のようにその領域に固有の性
質であったり、又は、動き、色、コントラスト及びテキ
スチャ（質感）などように場面における全体の対象物に
自然に関連するので、領域ベースの注意力モデルは、多
数の特徴を含むことが容易である。図１は、本発明によ
る視覚注意力のモデル化方法の好適実施例を説明するブ
ロック図である。この視覚注意力のモデル化方法では、
空間的注意力に関してモデル化を行う手段１０と、時間
的注意力に関してモデル化を行う手段２０とを具えてい
る。空間的注意力モデル化手段１０は、ビデオの現在の
フレームを入力として受ける。このイメージは、セグメ
ント化アルゴリズム手段３０により、ルミナンス情報及
びカラー情報の両方を用いて、先ず、複数の均質な領域
にセグメント化される。カラー、コントラスト、サイ
ズ、形状、場所（位置）、背景及びスキンを含む７つの
特徴に対する各領域のインポータンスが、視覚注意力に
影響を与えることが知られている。これら特徴によるイ
メージ処理手段１１〜１７の柔軟な特性により、付加的
な特徴を容易に取り込むことができる。なお、処理手段
１１は、セグメント化された領域をカラーに応じて処理
して、カラーによるインポータンス・マップを生成す
る。また、処理手段１２は、セグメント化された領域を
コントラストに応じて処理して、コントラストによるイ
ンポータンス・マップを生成する。処理手段１３は、セ
グメント化された領域をサイズに応じて処理して、サイ
ズによるインポータンス・マップを生成する。処理手段
１４は、セグメント化された領域を形状に応じて処理し
て、形状によるインポータンス・マップを生成する。処
理手段１５は、セグメント化された領域を場所に応じて
処理して、場所によるインポータンス・マップを生成す
る。処理手段１６は、セグメント化された領域を背景に
応じて処理して、背景によるインポータンス・マップを
生成する。処理手段１７は、セグメント化された領域を
スキンに応じて処理して、スキンによるインポータンス
・マップを生成する。これら特徴は、人間の目の動きに
よる校正に基づいて重み付けされる。なお、人間の目の
動きは、人間の目の動きの実験データを集めて求めてい
る。各特徴の重みを結合アルゴリズム４０に与えて、７
つの特徴に基づいた処理手段１１〜１７の処理結果のイ
ンポータンス・マップを重み付けにより組み合わせて、
現在のフレームの場面用の空間的インポータンス・マッ
プ（ＩＭ）を生成する。

【００１３】空間的注意力のモデル化手段１０と並列に
あり、時間的注意力をモデル化する手段（モーション・
モデル化手段）２０は、現在のフレーム及び以前のフレ
ームをモーション・ベクトル（運動ベクトル）アルゴリ
ズム手段２２に入力する。モーション・ベクトル・アル
ゴリズム手段２２によりモーション・ベクトルを計算す
る。このモーション・ベクトルは、各動きの大きさに基
づいた場面内の各対象物に対するモーション・インポー
タンスのアルゴリズム手段２４により重み付けされる。
結合手段４０は、目の追跡実験から集めたデータを用い
て、手段２０からの運動重み（時間的インポータンス）
を手段１０における空間重み（空間的インポータンス）
と組み合わせて、現在のフレーム用の全体インポータン
ス・マップを生成する。

【００１４】現在のフレームを図２に示し、これに対応
するインポータンス・マップ（ＩＭ）を図３に示す。高
いインポータンスとして識別されたＩＭ範囲は、明るい
色調である。一方、暗い色調の範囲は、注意力を引きつ
けない場面部分である。

【００１５】上述した従来技術に対する改良点は、セグ
メント化の改良、空間コンテキスト（前後関係）特徴の
拡張、空間的及び時間的特徴処理アルゴリズムの改良、
校正アルゴリズム及び組み合わせアルゴリズムの改良で
ある。

【００１６】セグメント化処理３０において、ビデオ・
フレームのクリッピングしたバージョン（クリッピング
したビデオ・フレーム）を入力として用いて、イメージ
の境界が、このモデル化の後での外観に与える影響を避
ける。すなわち、２４個のオーダのピクセルにおいて、
クリッピングによる境界が良好に作用する。関数スプリ
ット（Split）は、カラー情報と共にルミナンス情報を
用いて、分割／併合が生じる時点を決める。例として、
Ｌ^*ｕ^*ｖ^*カラー空間を用いることができる。分割の条
件は、次の通りである。 ((variancelum(R_i)>th_splitlum)&(variancecol(R_i)>th
_splitcol)&(size(R_i)>th_s _ize)) ならば、即ち、領域R_iにおけるルミナンスの分散がしき
い値th_splitlumよりも大きく、且つ、領域R_iにおけるカ
ラーの分散がしきい値th_splitcolよりも大きく、且つ、
領域R_iのサイズがしきい値th_sizeよりも大きければ、４
象限に分割する。すなわち、仮領域を想定し、この仮領
域を階層的に分割している。なお、variancecol(R_i) =
SQRT(variance(R_i(u^*))² + variance(R_i(v^*))²)であ
る。SQRTは、平方根を意味し、variance(R_i(u^*)は、領
域R_iにおけるｕ^*の分散であり、variance(R_i(v^*)は、領
域R_iにおけるｖ^*の分散である。また、しきい値ｔｈの
値は、th_splitlum＝２５０であり、th_splitcol＝１２０
である。

【００１７】付加的な変化が関数マージ（Merge）に対
しても行われる。セグメント化により、ブロック状の形
状を有する大きな領域が生じるという問題を避けるため
に、組み合わせ（マージ）用のしきい値th_mergelumnew
は、パラメータscalefactor_me _rgeを用いてブロック・サ
イズに応じて適応（適宜変化）する。このパラメータsc
alefactor_mergeは、大きな領域を組み合わせる（併合す
る）とき、特に、併合すべき２個の領域が同様なサイズ
のときに、増加する。 th_mergelumnew=scalefactor_merge＊th_mergelumold なお、th_mergelumnewは、新たなマージ用しきい値であ
り、th_mergelumoldは、それまでのマージ用しきい値で
ある。＊は、乗算を意味する。また、 scalefactor_merge = (k_merge＊size_merge + k_reduc +
1)/(size_merge + k_merge+ k_reduc) size_merge = max(k_min＊(1/n)ROOT(size(R1)ⁿ + size(R
2)ⁿ)/size(frame) である。定数パラメータの値は、ｋ_min＝２５６、ｎ＝
０．２５、ｋ_merge＝３、ｋ_reduc＝１０及びth
_mergelumold＝５００である。size(R1)は、領域R1のサ
イズであり、size(R2)は、領域R2のサイズであり、ROOT
は、平方根を意味し、max()は、（）内の最大値を指
す。以下のパラメータを用いる点を除いて、同じ技術を
用い、カラー組み合わせしきい値th_mergecolも変調す
る。 k_mincol＝２５６、n_col＝０．５、k_mergecol＝１．５、
k_reduccol＝０及びth_mer _gecolold＝１２０。

【００１８】従来の組み合わせ関数は、低いテキスチャ
の領域を高いテキスチャの領域に比較して簡単に組み合
わせていた。したがって、２つの領域を組み合わせるか
否かを判断するとき、その領域の平均ルミナンス及びカ
ラーを考慮する。平均カラー及び平均ルミナンスのしき
い値の両方が互いに依存するので、この領域の平均カラ
ー及びルミナンスに応じて適応的に組み合わせしきい値
th_{meanmergelumnew}を次のように計算する。もし、((Δcol < th_Δcol) &(col_max > th_BW))ならば、
即ち、カラーの差（色差）Δcol がしきい値 th_Δcolよ
りも小さく、且つ、カラーの最大値col_maxがしきい値th
_BWよりも大きければ、 th_{meanmergelumnew}=th_{meanmergelumold}+((th_Δcol-Δco
l)/th_Δcol)＊(th_{Δlum_} _max-th_{meanmergelumold}) である。th_{meanmergelumold}は、以前の組み合わせしき
い値であり、th_{Δlum_max}は、ルミナンスの差の最大値
に対するしきい値である。なお、 Δlum = |gl(R1) - gl(R2)| Δcol = SQRT((u^* _R1 - u^* _R2)² + (v^* _R1 - v^* _R2)²) col_max = max(u^* _R1, u^* _R2, v^* _R1, v^* _R2) であり、Δlumは、ルミナンスの差であり、ｇｌ（Ｒ_i）
は、領域Ｒ_iの平均グレイ・レベルである。u^* _Riは、領
域Ｒ_iのｕ^*の値であり、v^* _Riは、領域Ｒ_iのｖ^*の値であ
る。定数の値は、ｔｈ_Δcol＝１４．０、ｔｈ_BW＝７．
０及びｔｈ_{Δlum_m} _ax＝７０．０である。

【００１９】ルミナンスが低い範囲では、カラーがしば
しば非常に高い値を取るので、低いルミナンスの領域に
対する組み合わせしきい値が増加する。これは、図４に
示すように実現される。これら定数の値は、次の通りで
ある。ｔｈ_lolum1＝１０、ｔｈ_lowlum2＝２５、ｔｈ_col
＝１４、及びｔｈ_{col_lowlum}＝４０。

【００２０】したがって、変調された組み合わせ条件
は、次のようになる。もし、 ((var(gl_R12)<th_mergelumnew)且つ(var(col_R12)<th
_mergecolnew)且つ(Δlum<th_m _{eanmergelumnew}) 且つ (Δ
col<th_{meanmergecolnew})) 又は((Δlum<th_lumlow) 且つ
(Δcol<th_collow)ならば、２つの領域を１つに組み合
わせる。そうでなければ、領域を分離させる。なお、va
r(gl_R12)は、領域R1及びR2の平均グレイ・レベルの分散
であり、var(col_R12)は、領域R1及びR2のカラーの分散
である。これら定数の値は、ｔｈ_lumlow＝１２及びｔｈ
_collow＝５である。小さな領域の除去手順を変化させ
て、この手順をイメージ分解能から独立させ、小さな領
域を最も適切な隣接領域と組み合わせる。これは、次の
ようになる。もし、 size(R_i) < (1/k_small)＊size(frame) ならば、Ｒ_iを最も近いＬ^*値を有する隣接領域と組み合
わせる。なお、ｋ_smallは、４０９６に設定できる。siz
e(frame)は、フレームのサイズである。この方法におい
て、セグメント化は、適応であり、より粗となる。

【００２１】インポータンス・マップＩＭのサイズの特
徴は、簡単な２個のしきい値による処理から、４個のし
きい値による処理に変化するので、小さ過ぎる又は大き
過ぎる領域が、小さ過ぎる領域の代わりに、最小化され
る。同様に、他の領域と４カ所で接触する境界を共有す
る領域における最小数のピクセル、又は、尖端エッジと
境界を接する領域内の最小数のピクセルを用いて、フレ
ームのエッジを除去するので、背景（による）特徴が変
化する。また、場所（による）特徴を変化させて、フレ
ームの中央の４分の１を全く考慮せずに、ゾーン（領
域）に応じ、小さな重みを有する中心の周囲における種
々のゾーンを考慮して、この中央から縮小する。

【００２２】元のコントラストにおけるインポータンス
（コントラスト・インポータンス）I'_cont(R_i)は、領域
Ｒ_iと４カ所で接した境界を共有する領域における平均
グレーレベルと、このレベルよりも小さい領域Ｒ_iにお
ける平均グレーレベルとの間の差として定義できる。ま
ず、領域Ｒ_iの平均グレーレベルと、その隣接領域との
比較は、各隣接領域の絶対値に基づいているので、領域
Ｒ_iよりも高い又は低い平均グレーレベルを有する隣接
領域が互いにうち消されることがない。隣接領域がコン
トラストに影響を及ぼす地域は、２個の領域が有する４
個の接した隣接ピクセルの数と乗算された定数に限定さ
れる。これにより、大きな隣接領域と、わずかな隣接ピ
クセルを有する領域とが、コントラスト・インポータン
スに過度の影響を及ぼすことを防ぐ。また、サイズの換
算係数を用いて、大きな領域に対して、コントラスト・
インポータンスI"_cont(R_i)が減らされる。さらに、ウェ
ーバー（Weber）及びドフリース・ローズ（deVries-Ros
e）効果を考慮するために、高いグレースケールの定数
を低いグレースケールの定数に対して減らす。最後に、
そのフレーム内のコントラストの強さに応じて、コント
ラストを適応的な方法により０〜１の範囲に正規化す
る。これを行うことにより、あるコントラストを有する
領域のコントラスト・インポータンスI"'_cont(R_i)は、
非常に高いコントラストの領域を有するフレームにおい
て減され、最高のコントラストが小さいフレームにおい
ては増やされる。

【００２３】上述は、次のようになる。 I'_cont(R_i)=（Σ_j=1-J|gl(R_i)-gl(R_j)|＊min(k_border＊
B_ij,size(R_i))）/Σ_j=1- _Jmin(k_border＊B_ij,size(R_i)) なお、ｊは、Ｒ_iと４カ所で接する境界を共にする領域
１−Ｊである。k_borderは、隣接領域の影響範囲を制限
する定数（例えば、１０に設定される）である。Ｂ
_ijは、Ｒ_iと４カ所で接する境界を共有するＲ_jにおける
ピクセルの数である。また、 I"_cont(R_i) = k_sizescale＊Ｉ'_cont(R_i) である。なお、k_sizescaleが領域のサイズに応じて変化
し、小さな領域では大きくなり、大きな領域では小さく
なる。さらに、 I"'_cont(R_i) = I"_cont(R_i)/max(gl(R_i),th_devries)
^powweber となる。なお、th_devriesは、ドフリース・ローズ領域
のほぼスタートにおけるグレーレベル（５０に設定され
る）であり、powweberは、非線形ウェバーのべき乗
（０．３に設定）である。Ｉ”’に対する正規化のしき
い値を次のように計算する。 th_cont1 = th_base1weber+(min(I"_cont)-th_base1weber)＊th_weight th_cont2 = th_base2weber+(max(I"_cont)-th_base2weber)＊th_weight2high, max(I" _cont >th_base2) 又は = th_base2weber+(max(I"_cont)-th_base2weber)＊th_weight2low, max(I"_cont=th_ba _se2 ) なお、 th_base1weber = th_base1/128^powweber th_base2weber = th_base2/128^powweber th_base1 = 20 th_base2 = 120 th_weight1 = 0.5 th_weight2high = 0.25 th_weight2low = 0.75 である。

【００２４】多くの隣接領域を有する領域において形状
インポータンスを低下させるように形状特徴を変化させ
て、高すぎる形状インポータンスをかかる領域に割り当
てない。また、適応正規化処理を用いて、この形状イン
ポータンスを０〜１の範囲に正規化する。

【００２５】本発明は、カラー特徴を視覚注意力モデル
に付加する。ＲＧＢファイルが入力として受け入れら
れ、Ｌ^*ｕ^*ｖ^*カラー空間に変換される。コントラスト
・インポータンスを計算した方法と類似の方法でカラー
・インポータンスを計算する。これは、実際には、これ
ら２つの特徴が類似した動作を果たすためである。すな
わち、一方が、その背景に対する領域のルミナンス・コ
ントラストを計算し、他方が、その背景に対するカラー
・コントラストを計算する。カラー・インポータンスの
計算は、ｕ^*のカラー・コントラストのインポータンスI
_u*(R_i)及びｖ^*のカラー・コントラストのインポータン
スI_v*(R_i)を別々に計算することが始まる。 I_u*(R_i) =Σ_j=1-J |u^*(R_i)-u^*(R_i)|＊min(k_border＊
B_ij,size(R_j)) / Σ_j=1-J min(k_border＊B_ij,size(R_j)) I_v*(R_i) = Σ_j=1-J |v^*(R_i)-v^*(R_i)|＊min(k_border ＊
B_ij,size(R_j)) / Σ_j=1 _-J min(k_border ＊ B_ij,size(R
_j)) 次に、これら２つのカラー・インポータンスの計算結果
を二乗和の平方根として組み合わせ、換算係数を用いて
大きな領域用に減らす。フレーム内のカラー・インポー
タンスの強さに応じて、適応的な方法にて、カラー・イ
ンポータンスを０〜１の範囲で正規化する。この操作を
行うことにより、あるカラー・インポータンスを有する
領域のカラー・インポータンスは、カラー・コントラス
トが非常に高いフレームにおいては減少され、最高カラ
ー・コントラストが小さいフレームにおいては増加され
る。

【００２６】最後に、スキン特徴を追加して、スキンの
範囲をそのカラーにより検出する。異なる人種において
も、人間のスキン（皮膚）の色は、狭い範囲の値なの
で、この検出が可能となる。他のカラー空間を用いる際
には、色相−飽和−輝度（ＨＳＶ）カラー空間を選択す
る。これは、人間のスキンの色が、ＨＳＶ値の狭い範囲
内に集中的に集まるからである。各ピクセルを個別にテ
ストして、その色がスキンの色とマッチングするかを判
断する。ＨＳＶ値（ｈ_ij、ｓ_ij、ｖ_ij）が次の範囲内に
入るならば、ピクセルｘ_ijをスキンにクラス分けする。
すなわち、もし、((H_min=h_ij=H_max)且つ(S_min=s_ij=
S_max)且つ(V_min=v_ij=V_max))ならば、x_ijは、スキンであ
る。テスト・イメージの大型データベースから、クラス
分けしきい値の最良値が求まる。しきい値の４つは、次
のようになる。［定数］−Ｈ_min＝３５０度、Ｈ_max＝４
０度、Ｓ_min＝０．２、Ｖ_min＝０．３５。他の２つのし
きい値であるＳ_max及びＶ_maxは、図５に示すグラフか
ら、Ｈの変化に応じて求まる。

【００２７】前もって組み合わせるために、空間的特徴
のインポータンス・マップを二乗し、等しく重み付けし
て、最終的な空間的インポータンス・マップＩＭを生成
する。次に、この最終的なインポータンス・マップを換
算して、最高のインポータンスの領域の値を１．０にす
る。高いインポータンスの領域と低いインポータンスの
領域との突然の変化を和らげるために、ブロック処理を
行う。これは、ｎ×ｎブロック内の最大インポータンス
をそのブロック内の各ピクセルに割り当てることを含
む。しかし、異なる特徴の相対的な影響を理解するため
に、目の追跡を考察した。人間が、約５秒間にわたって
多くの異なる静止画を観察し、また、ビデオを数分間に
わたって観察しているとして、一群の人間の目の動きを
記録する。どの特徴が人間の目の動きに最も影響を与え
るかを判断するために、人間の固定行動（fixation）と
各個別の特徴ＩＭとの相関を計算する。これは、最も重
要な特徴に応じて分類された領域における固定行動の割
合を計算することにより行う。この結果により、空間的
特徴の内の３つの特徴である場所（位置）、スキン及び
前景／背景が、固定行動との非常に高い相関を有するこ
とを示す。他の３つの空間的特徴である形状、カラー及
びコントラストは、固定行動に対して低いが依然顕著な
影響を有しており、サイズによる影響は、他の特徴によ
る影響よりも非常に小さい。

【００２８】この実験から得た固定行動の相関を用い
て、本発明においては、次の新たな特徴重み付けI
_spatial(R_i)を行う。 I_spatial(R_i) = Σ_f=1-7(w_f ^poww*I_f(R_f)^powf) なお、ｗ_fは、目の追跡実験からの特徴重み付けであ
る、即ち、場所、前景／背景、スキン、形状、コントラ
スト、カラー、サイズの各々の重み付けは、０．１９
３、０．１７６、０．１７２、０．１３０、０．１２
１、０．１１４、０．０９４である。ｐｏｗ_wは、特徴
重み付けの指数であり、ｗ_fの相対的影響力を制御す
る。例としては、３．０である。ｐｏｗ_fは、インポー
タンス・マップ（ＩＭ）重み付け指数であり、例とし
て、総ての特徴に対して２．０である。次に、前のよう
にブロック処理をした後で、空間ＩＭを換算（スケーリ
ング）して、最高のインポータンスの領域を１．０とす
る。

【００２９】この結果の空間ＩＭは、フレームからフレ
ームにノイズを有するかもしれず、このノイズを減ら
し、ＩＭの時間的整合性を改善するために、時間的平滑
化動作をピクセル・レベルで実施する。（ｔ−ｍ、・・
・ｔ＋ｎ）フレームの時間的ウィンドウを用いることに
より、この時間的ウィンドウから、場所（ｘ、ｙ）にお
ける出力ＩＭにより、場所（ｘ、ｙ）をｋ番目に高いＩ
Ｍとする。ｋ＞１に設定することにより、高いインポー
タンスのスプリアス領域を除去する。例として、ｎ＝ｍ
＝５フレームで、ｋ＝２である。

【００３０】従来は、時間的インポータンス・マップ用
に階層的ブロック・マッチング技法を用いて、各ブロッ
クの運動ベクトルを計算していた。この結果のベクトル
を直接用いて、時間的インポータンスを計算していた。
非常に低い動きと非常に高い動きの領域には低いインポ
ータンスを与える一方、中位の動きの領域に最高のイン
ポータンスを割り当てた。この従来技術には、次のよう
な２つの大きな問題があった。（ｉ）真の対象物の動き
からカメラの動きを区別する方法がなかったので、ビデ
オが撮影されている間に、任意のカメラの動き（パン、
傾き、ズーム、回転）があると、このモデルはうまく機
能しなかった。（ii）インポータンスを特定の動きに割
り当てるときに固定しきい値を用いるが、動きの量が異
なるビデオ場面にわたって大きく変化するので、これら
しきい値は、ビデオ内の動きに適応させる必要がある。

【００３１】図６は、時間的注意力のモデル化手段のブ
ロック図を示す。従来の時間的処理と同様に、階層的ブ
ロック・マッチング処理にて現在及び前のフレームを用
いてモーション・ベクトルを計算する（ブロック６
０）。カメラのモーション（動き）予測アルゴリズム
（ブロック６２）にて、これらモーション・ベクトルを
用いて、カメラのモーションに関する４つのパラメー
タ、即ち、パン、ティルティング（傾き）、ズーム及び
回転を判断する。次に、これらパラメータを用いて、モ
ーション・ベクトルを修正（補償）して、場面における
真の対象物の動きを捕らえる（ブロック６４）。テキス
チャ的に平坦な領域におけるモーション・ベクトルに確
実性がないため、これら領域内における補償されたモー
ション・ベクトルがゼロに設定される。８×８ブロック
内の最小及び最大グレイレベルの差が、４５の如きしき
い値ｔｈ_flatよりも小さければ、この８×８ブロックを
「平坦（flat）」とみなす。最後に、平滑化（スムージ
ング）や、後述の適応しきい値（適応的に変化するしき
い値）による処理などのいくつかのステップ（ブロック
６６）により、補償したモーション・ベクトルを時間的
インポータンス（時間的イメージ）の尺度に変換する。

【００３２】カメラの動きを予測するアルゴリズム（ブ
ロック６２）は、場面のカットや、３：２のプルダウン
（縦横比３：２への変換）や、時間的なサブサンプリン
グによるフレーム落ちなどを原因として生じた時間的動
きにおけるいくつかのジャーキネス（jerkiness:ぎくし
ゃくとした動き）を検出する。これら時間的な不連続性
が生じると、時間的に不連続なフレームからのモーショ
ン（動き）情報よりも、むしろ確実なモーション情報を
利用できる以前のフレームからのモーション情報を用い
る。現在のフレームに時間的な不連続性が検出されれ
ば、１０フレーム以上前に戻ったモーション情報を用い
てもよい。上述の如く、空間的ＩＭに対して実行したの
と同様な方法で、時間的なスムージングを行う。場面カ
ットの一部や、異なるショットの一部であるフレーム
は、時間的ウィンドウ内に含めない。これら領域からの
モーション・ベクトルは確実でないので、低いテキスチ
ャの次の領域に、ゼロの時間的インポータンスを割り当
てる。＋／−１フレームの時間的ウィンドウに対して計
算を行った場合を除いて、「平坦」であるとの判断は、
上述と同じである。最後に、適応しきい値による処理を
行う、即ち、場面における対象物の動きの量に適応させ
て、しきい値を計算する。人間の感受性は、多くの高速
に移動する対象物により邪魔されないので、少ない移動
対象物を有する場面や、遅い動きの対象物を有する場面
は、多くの高速に移動する対象物を有する場面よりも、
しきい値が小さい。カメラの動きを補償したモーション
・ベクトル・マップの９８番目のパーセント点（percen
tile）の如きｍ番目のパーセント点を用いることによ
り、場面における動きの量の予測が得られる。動きは、
度／秒により測定するので、動きの分解能、即ち、ピク
セルの間隔及び視野の距離を知る必要がある。典型的に
は、ピクセル間隔は、０．２５ｍｍであり、視野の距離
は、ＳＤＴＶ視野で画像高さの５倍である。高速移動対
象物が高速パン又はティルティング移動により追跡され
る場面において、対象物の動きは、所定しきい値よりも
大きいので、その時間的インポータンスは、１．０未満
の値に低下するかもしれない。これら生じるのを防止す
るために、特別な場合を作る。最終的なブロック処理
は、空間的ＩＭ用に行ったのと同様に、１６×１６ピク
セル・レベルで行う。時間的ＩＭは、既に８×８ピクセ
ル分解能なので、各２×２ブロック用の最大値を取っ
て、全体として１６×１６ブロック・サイズを得る。

【００３３】空間的インポータンス・マップ（ＩＭ）及
び時間的ＩＭを組み合わせる線形重み付けは、次のよう
になる。Ｉ_total ＝Ｋ_combＩ_spat ＋ (１-Ｋ_comb)Ｉ_temp 空間的ＩＭ及び時間的ＩＭの両方に対して観察者を固定
して比較すると、時間的のみのＩＭの相関に比較して、
空間的のみのＩＭの相関がわずかに高い。したがって、
０．５よりもわずかに大きいｋ_combの値は、０．６の如
き値となる。

【００３４】上述は、空間的ＩＭ及び時間的ＩＭの基本
的な統合に対して行える総てである。しかし、目の追跡
の考察によると、ズーミング、回転又は非常に早い動き
のビデオ場面において、観察者は、注意力を場面の中心
に非常に強く絞る傾向がある。これら場面の中心領域に
更にインポータンスを割り当てるために、次の計算を行
う。 mot_zoomrot = k_z1＊motion_m + k_z2＊zoom + k_z3＊rotat
e + k_z4＊error_camera なお、motion_mは、カメラの動きの補償されたモーショ
ン・ベクトル・マップのｍ番目のパーセント点であり、
zoom及びrotateは、フレームのズームのパラメータ及び
回転パラメータであり、error_cameraは、カメラの動き
の予測アルゴリズムによる出力であり、ｋ_ziは、換算
（スケーリング）定数である。中央のスケーリング定数
k_centralは、１対のしきい値の間のmot_zoomrotの量に応
じて、２つの値の間で調整される。そして、新たなイン
ポータンス・マップI'_totalは、次のようになる。 I'_total = k_centralI_center + (1-k_central)I_total 変数error_cameraが高いと、インポータンス・マップ
（ＩＭ）の精度が低下して、これらの場合における時間
的ＩＭの影響が低下するのに有用かもしれない。これ
は、エラーが増加するに従ってｋ_combの値を増やすこと
により行える。

【００３５】最後に、目の追跡を考察すると、人間及び
顔は、注意力を非常に強く引きつけることが判った。人
間は、一般的には、少なくとも長時間にわたって、完全
に静止していないので、特別な場合を作って、動いてい
るスキン領域でのインポータンスを増加させる。これに
は、次の２つの利点がある。（ｉ）スキンの特性により
スキンであると誤って分類した対象物は、移動しない背
景対象物（砂、乾燥牧草、煉瓦の壁）であることがしば
しばあるので、モーション情報が含まれていても、これ
ら偽の判断を除去できる。（ii）顔は、低いテキスチャ
のいくつかの領域をしばしば含んでおり、これら低いテ
キスチャの領域が低いインポータンスに設定されるの
で、顔の低いテキスチャ範囲を時々見逃すが、しかし、
スキン領域に対する低いテキスチャの拘束を緩めること
により、これら範囲を最早見逃すことがなく、インポー
タンスが高くなる。よって、各ピクセルに対して、もし、(I_skin>th_skinmot1) 且つ(MV_comp>th_skinmot2) ならば、 I_total = 1.0 となる。

【００３６】

【発明の効果】よって、本発明により改良された視覚注
意力モデル化方法によれば、空間的特徴により空間的イ
ンポータンス・マップを生成し、この時間的インポータ
ンス・マップを空間的インポータンス・マップと組み合
わせて、フレームの全体的なインポータンス・マップを
生成する。したがって、適合セグメント化アルゴリズム
を改善できると共に、空間的特徴及び付加的な空間的特
徴に対する適合アルゴリズムも改善できる。さらに、目
の動きの考察に基づいて組み合わせアルゴリズムも改善
でき、より確実で改良された全体的なインポータンス・
マップを生成できる。

【図面の簡単な説明】

【図１】本発明による視覚注意力モデル化方法の好適実
施例を説明するブロック図である。

【図２】現在のフレームのイメージ画像を示す図であ
る。

【図３】本発明により得たイメージ画像に対する総合イ
ンポータンス・マップを示す図である。

【図４】本発明による空間特徴の１つに対するルミナン
スによるしきい値の変化を示すグラフ図である。

【図５】本発明によるスキン空間特徴に対する色相によ
るパラメータ値の変化を示すグラフ図である。

【図６】本発明により時間的インポータンス・マップを
生成するブロック図である。

【符号の説明】

１０空間的注意力モデル化手段１１カラー処理手段１２コントラスト処理手段１３サイズ処理手段１４形状処理手段１５位置処理手段１６背景処理手段１７スキン処理手段２０時間的注意力モデル化手段２２モーション・ベクトル・アルゴリズム２４モーション・インポータンス・アルゴリズム３０セグメント化アルゴリズム４０結合アルゴリズム６０モーション・ベクトルの計算ブロック６２カメラのモーションの予測ブロック６４カメラのモーションの修正ブロック６６平滑化及び適応しきい値ブロック

Claims

【特許請求の範囲】

【請求項１】複数の空間的特徴に応じた処理のため
に、ビデオ・シーケンスの単一フレームを複数の領域に
セグメント化して、対応する複数の空間的インポータン
ス・マップを生成し、上記単一フレームを以前のフレー
ムと比較して時間的インポータンス・マップを生成し、
上記空間的インポータンス・マップ及び上記時間的イン
ポータンス・マップを組み合わせて上記単一フレームの
総合インポータンス・マップを生成する視覚的注意力の
モデル化方法であって、ルミナンス及びカラーを用いて、上記単一フレームを複
数の領域に適応的にセグメント化する第１ステップと、複数の空間的特徴により上記領域を処理して、複数の上
記空間的インポータンス・マップを生成する第２ステッ
プと、上記以前のフレームに応じて上記単一フレームを
処理して、カメラの動きを補償した上記時間的インポー
タンス・マップを生成する第３ステップと、目の動きの
考察から得た重み付けに応じて上記空間的インポータン
ス・マップ及び上記時間的インポータンス・マップを組
み合わせて、上記単一フレーム用の上記総合インポータ
ンス・マップを生成する第４ステップとを具えることを
特徴とする視覚注意力のモデル化方法。
【請求項２】上記第１ステップは、仮領域のルミナンス分散、カラー分散及びサイズに基づ
いて上記フレームを複数領域に階層的に分割し、上記仮領域内の平均ルミナンス及びカラー分散が各適応
しきい値よりも小さく且つ上記仮領域内のルミナンス変
化及びカラー変化が各しきい値よりも小さいか、又は上
記仮領域内のルミナンス及びカラーの変化が各しきい値
よりも小さい場合に、複数の仮領域を組み合わせて上記
領域を形成することを特徴とする請求項１の視覚注意力
のモデル化方法。
【請求項３】上記空間的特徴には、サイズ、背景、場
所、コントラスト、形状及びスキンの１組から選択され
た少なくとも２つを有することを特徴とする請求項１の
視覚注意力のモデル化方法。
【請求項４】上記第４ステップは、目の動きの考察から経験的に求めた重み付けに応じて、
各空間的インポータンス・マップを重み付けして、その
結果の空間的インポータンス・マップを生成し、時間的スムージング・アルゴリズムを用いて、上記結果
の空間的インポータンス・マップをフレームからフレー
ムにわたってスムージングしてノイズを減らすと共に、
時間的整合性を改善して、空間的インポータンス・マッ
プを生成し、上記空間的インポータンス・マップを上記時間的インポ
ータンス・マップと組み合わせて、上記総合インポータ
ンス・マップを生成することを特徴とする請求項１の視
覚注意力のモデル化方法。
【請求項５】上記第３ステップは、階層的ブロック・マッチング・アルゴリズムを用いて、
現在のフレームの各ブロックに対して、モーション・ベ
クトルを計算し、上記モーション・ベクトルからカメラの動きのパラメー
タを判断し、上記カメラの動きのパラメータに基づいて上記モーショ
ン・ベクトルを補償し、上記補償されたモーション・ベクトルを時間的インポー
タンス・マップに変換することを特徴とする請求項１の
視覚注意力のモデル化方法。