JP4705959B2

JP4705959B2 - 画像の顕著性マップを作成する装置及び方法

Info

Publication number: JP4705959B2
Application number: JP2007549906A
Authority: JP
Inventors: ル・ムール，オリヴィエ; トロー，ドミニク; サルモン，フィリップ; バルバ，ドミニク; ル・カレ，パトリック
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2005-01-10
Filing date: 2006-01-10
Publication date: 2011-06-22
Anticipated expiration: 2026-01-10
Also published as: BRPI0606522A2; WO2006072637A1; JP2008527522A; EP1836682B1; BRPI0606522B1; CN101103378A; CN101103378B; US8416992B2; EP1836682A1; US20080304708A1

Description

本発明は、画像の時間顕著性マップを作成する装置及び方法に関する。

人間の情報処理系は、特に視覚系の場合、本質的に限定的であり、我々の認識資源の限界にもかかわらず、視覚環境に含まれる大量の情報に直面しなければならない。にもかかわらず、かつ、逆説的に、人間は、視覚環境を理解することができるため、この課題の解決に成功しているように思われる。

通常、特定の視覚特徴は、知覚する対象の注意資源を何ら必要としないほど視覚系に基本的なものであるものとされている。前述の視覚特徴は、前注意特徴と呼ばれている。

視覚調査のこの原理によれば、人間の注意行動は、前注意処理と注意処理との間で共有される。前述の通り、前注意処理（いわゆるボトムアップ処理）は不随意注意と関係がある。我々の注意は、視界の顕著な部分に容易に誘引される。注意処理（いわゆるトップダウン処理）を検討するに、念頭においている特定の作業に注意が結びついていることが明らかになっている。注意のこの第2の形態は、よって、特定の方向に視線を向ける努力を注意のこの形態が必要とするようなより作為的でかつ強力なものである。

画像において顕著な点を検出することによって、符号化や画像索引化、透かし入れ、ビデオ品質推定などの更なる工程の改良が可能になる。

既知の手法は概ね、非心理視覚特徴に基づいている。前述の手法に対して、本願提案の手法は、早期の視覚特徴の計算などの人間の視覚系（HVS）に完全に基づいていることに依拠している。

本発明は第1の局面において、周波数サブバンドに画像を階層的に分解する工程を備える、画像の顕著性マップを作成する方法を提案する。
本発明によれば、上記方法は、
周波数サブバンドへの分解から算出される現行画像と先行画像との間の移動を、画像の優位な移動、及び現行画像の画素毎の局所移動を推定して推定する工程と、
大局移動及び局所移動の推定から得られる時間顕著性マップを作成する工程とを備える。

好ましい実施例によれば、周波数サブバンドに分解する工程に加えて、上記方法は、向きをベースに分解して知覚的サブバンド分解をもたらす工程を備える。

好ましい実施例によれば、上記方法は、別々の知覚的サブバンドをイントラ・マスキングする工程を備える。

好ましい実施例によれば、上記方法は、
4つのレベルのピラミッドを構成する工程と、
ピラミッドの分解能レベル毎に各画素の局所動きベクトルを算出する工程とを備える。

好ましい実施例によれば、上記方法は、得られたピラミッドの完全な分解能レベルから得られる局所動きベクトルを用いることによって画像の画素毎に画像の優位な移動のパラメトリック・モデルを得る工程を備える。

好ましい実施例によれば、上記方法は、画像の画素毎に相対運動ベクトル（画素の画像の、局所動き推定と優位な動きとの差である）を得る工程を備える。

好ましい実施例によれば、上記方法は、眼の最大随従速度で相対運動ベクトルに重み付けする工程を備える。

好ましい実施例によれば、上記方法は、正規化された時間顕著性マップを得るために画像の相対運動ベクトルのヒストグラムを計算する工程を備える。

好ましい実施例によれば、上記方法は、上記画像の空間顕著性マップを計算する工程と、
上記正規化された時間顕著性マップと上記空間顕著性マップとを融合する工程とを備える。

本発明の他の特性及び利点は、添付図面を利用して例証する本発明の非限定的な実施例の説明を通して存在している。

図1は、白黒画像に適用された、本発明による方法の好ましい実施例の概括的なフローチャートを表す。

アルゴリズムは、3つの主要部分に分かれている。

可視性と呼ばれる第1の部分は、人間の視覚系（HVS）が限定的な感度を有することに基づいている。例えば、HVSは、実際の環境における全信号を良好な精度で知覚することができず、わずかな刺激に無感覚である。この第1の工程の目標は、知覚的分解、コントラスト感度関数（CSF）及びマスキング関数を用いることによって前述の固有の限界を考慮に入れなければならない。

第2の部分は専ら、知覚の概念に関する。知覚は、視聴者にとって有用であり、無関係な情報によってごちゃごちゃしていない描写を外界の画像から生成するプロセスである。
関連情報を選択するために、中心サラウンド(center surround)機構が生物学的証拠によって特に用いられる。

最終の工程は、知覚的グループ化領域の特定の局面に関する。知覚的グループ化は、画像のコンテンツの知識が何らなしで、低レベルの原始的な画像特徴から画像の重要な関係を抽出し、これをグループ化して、意味あるより高レベルの構造を得る人間の視覚能力を表す。本願提案の方法は単に、輪郭統合及びエッジ結合に焦点を当てる。

工程E3、E4は、信号に対して周波数領域において実行される。

工程E1、E6及びE9は、空間領域において行われる。

工程E7及びE8は、周波数領域又は空間領域において行われる。周波数領域において行われる場合、フーリエ変換を工程E7の前に行われなければならず、逆フーリエ変換を工程E9の前に行われなければならない。

工程E1では、輝度成分が対象画像から抽出される。

工程E2では、知覚的サブバンド分解を画像に対して工程E3において施すことができるためにフーリエ変換などの既知の変換を用いることによって、輝度成分を周波数領域に移す。

工程E3では、知覚的分解が輝度成分に対して施される。この分解は、皮質変換の影響を受けており、「The computation of visual bandwidths and their impact in image decomposition and coding, International Conference and Signal Processing Applications and Technology, Santa-Clara, California, pp. 776-770, 1993」において提案されている分解に基づいている。この分解は、人間の眼の可視性閾値に従って行われる。

分解は、種々の心理物理学実験に基づいており、空間放射周波数及び向きにおいて周波数領域を分割することによって得られる。成分Aの知覚的分解は、図３に示すように４つの冠部上に配分された17個の心理視覚サブバンドにつながる。

図3の網掛け部分は、第３の冠部に属しており、15度乃至45度の、30度の角選択性を有するスペクトル・サポートを示す。

空間周波数の4つの領域（冠部）は、IからIVまでのラベルを付している。

I：0乃至1.5サイクル／度の空間周波数、
II：1.5乃至5.7サイクル／度の空間周波数、
III：5.7乃至14.2サイクル／度の空間周波数
IV：14.2乃至28.2サイクル／度の空間周波数
角選択性は、対象周波数領域に依存する。低周波の場合、角選択性は何ら存在しない。

前述の分解の主要特性、及び皮質変換との主たる違いは、2個群でない放射選択性、及び、放射周波数に伴って増加する、向きの選択性である。

結果として生じるサブバンドそれぞれは、空間周波数の範囲及び特定の向きに同調する視覚細胞の個体数に対応する神経画像とみなすことができる。実際に、前述の細胞は、一次視覚皮質（線条皮質又はV1(視覚領域1の略)）に属する。これは、合計約2億の神経単位を有しており、外側膝状体核からその入力を受け取る。細胞の約80パーセントは、視覚刺激の向き及び空間周波数について選択的である。

HVSの周知の特性（コントラスト感度関数（CSF）として知られている）は、画像空間スペクトルに対して施される。施されるCSFは、主に、空間周波数、向き及び視距離に依存する多変量関数である。

生物学的証拠によって、特定のコントラストを上回る刺激に対して視覚細胞が反応することが明らかになった。視覚細胞が反応するコントラスト値は、可視性閾値（この閾値を超えると刺激は可視である）と呼ばれている。この閾値は、数多くのパラメータ（刺激の空間周波数、刺激の向き、視距離等など）によって異なる。このばらつきは、人間の眼の感度（感度は、コントラスト閾値の逆数に等しい）を多変量関数として表すCSFの概念につながる。その結果、CSFによって、特定の刺激について人の眼の感度を評価することが可能になる。

工程E4では、ダリーによって考え出された2D異方性CSFが施される。前述のCSFは、文献「the visible different predictor: an algorithm for the assessment of image fidelity, proceedings of SPIE Human vision, visual processing and digital display III, volume 1666, page 2-15, 1992」に記載されている。

HVS細胞が空間周波数に非常に影響されるので、CSFによって眼の重要な特性のモデル化が可能になる。

図5に、ダリーCSFを示す。

ダリー関数が施されると、次の工程E6を施すことができるために、工程E5で逆フーリエ変換を信号に対して施す。

自然のピクチャの場合、感度は、別の刺激の存在によって変調する（増減させる）ことが可能である。工程E6において行われるように、こうした人間の眼の感度の変調は視覚マスキングと呼ばれる。

マスキング効果を図6a及び6bに例証する。2つのキュー（目標及びマスカ）を考えてみる。ここで、C_T及びC_Mはそれぞれ、マスカの存在下での目標のコントラスト閾値、及びマスカのコントラストである。更に、C_T0は、CSFで（マスキング効果なしで）測定されるコントラスト閾値である。

図6aでは、C_Mが変わる際に３つの領域を規定することが可能である。

C_Mの低い値では、検出閾値は一定のままである。目標の可視性は、マスカによって修正されない。

C_MがC_T0の方向に進むと、マスカは、可視性閾値を低減させることによって目標の検出を容易化する。この現象は、促進効果又は台効果と呼ばれている。

C_Mが増加すると、目標は、マスカによってマスキングされ、そのコントラスト閾値は増加する。

図6bでは、促進領域は抑制されている。

視覚マスキング手法は、正弦波パターンのような単純な信号の検出に基づいている。

心理物理学実験に基づいて視覚マスキングのモデル化を達成するための他の手法がいくつか存在している。例えば、別の手法は、量子化ノイズの検出に関する。

上記好ましい方法が自然のピクチャの固有の複雑度に対して大きな単純化であることは明らかである。しかしながら、数多くのアプリケーション（透かし入れ、ビデオ品質の評価）が、前述の原理を中心に構築されており、複雑度と比較した結果は興味深い。

サブバンド分解の場合、マスキングは集中的に研究されており、3種類のマスキング（チャネル内マスキング、チャネル間マスキング及び成分間マスキング）を規定することにつながった。

チャネル内マスキングは、同じ特徴（周波数及び向き）を有しており、その結果、同じチャネルに属する信号間で生じる。これは、最も重要なマスキング効果である。

チャネル間（インターチャネル）マスキングは、同じ成分の異なるチャネルに属する信号間で生じる。

成分間（インター成分）マスキングは、異なる成分（例えば、成分A、及び１つの色の成分）のチャネル間で生じる。前述の最後の２つの視覚マスキングは、まとめられ、以下では単にインターマスキングと呼ぶ。

無色の成分の場合、「A visual model for Optimizing the Design of Image Processing Algorithms, IEEE international conferences on image processing, pages 16-20, 1994」と題する文献における、ダリーによって考え出されたマスキング関数を、このモデルが台効果を考慮に入れていないことにもかかわらず用いている。このモデルの強みは、大量の実験結果によって最適化されているということである。

可視性閾値のばらつきは、

によって表される。
ここで、R_i,jは、知覚的チャネル分解から生じている心理視覚チャネルである（例えば、図3の網掛け領域はチャネルR_III,2につながる）。値k₁、k₂、s、bは、以下に表す。

k1=0.0153
k2=392.5
以下のテーブルには、対象サブバンドによるs及びbの値を表す。

マスキング工程の出力において信号

を得る。

次いで、工程E7で、正規化の工程によって、主要な重要情報をサブバンドから抽出することが可能になる。工程E7は、図7に詳細に示す。

図7を参照すれば、工程S1では、第1のサブバンド

が選択される。工程S2乃至S4が、17個のサブバンド

毎に行われる。

工程S5乃至S7が、第2の冠部（II）について行われる。

iは空間放射周波数帯を表し、Iは｛I、II、III、IV｝に属する。

jは向きを表し、｛1、2、3、4、5、6｝に属する。

（x,y）は空間座標を表す。

他の実施例では、別々の工程を全てのサブバンドに対して行うことが可能である。

工程S2及びS3は、古典的受容野（CRF）の挙動をモデル化しようとしている。

CRFの概念によって、シーンの網膜像と大局的な知覚との間のリンクを確立することが可能になる。CRFは、（好ましい向き及び周波数を備えた）適切な刺激が視覚細胞から生じている関連した反応を引き起こす視野の特定領域として定義される。その結果、定義上、外側領域（サラウンド(surround)と呼ばれる）における刺激は、細胞を直接活性化することが可能でない。

工程S2及びS3における抑制及び励起はガボール・フィルタ（向き及び周波数に関して高感度である）によって得られる。

ガボール・フィルタは、

として表すことが可能である。

fは、サイクル/度(cy/°)における、コサイン変調の空間周波数であり、
(x_θ,y_θ)は、元の座標(x₀,y₀)の平行移動及びθの回転によって得られる。

Aは振幅を表し、
σ_x及びσ_yはそれぞれ、x軸及びy軸に沿ったガウシアン・エンベロープの幅を表す。

楕円形状を得るために、異なる分散σ_x＜σ_yを採用する。

最後に、工程E2の出力を得る。

工程S3では、抑制は以下の式によって算出される。

最後に、

である。

工程S4では、励起と抑制との間の差が実行される。正の成分は維持され、負の成分は「0」にセットされる。これは、

の演算である。

工程S5では、向き毎に、第2の領域のサブバンド毎に2つの畳み込み積が算出される。

及び

は、２つの半バタフライ・フィルタである。前述のフィルタのプロファイルによって、図9の促進相互作用のモデル化が可能になる。前述のフィルタは、双極／バタフライ・フィルタを用いることによって規定される。

これは、方向項D_θ(x,y)及び近接項（ガウシアン・フィルタ

によってぼやけた円C_rによってもたらされる）を有する。円半径は、2つの視覚角度を有する。視覚角度は画素数を有する。この数は、表示分解能及び観測距離に依存する。

であり、

である。ここで、(x’,y’)^Tは、θ_i,jだけ回転させたベクトル(x,y)^Tである。パラメータαは、双極フィルタの開口角2αを規定する。これは、対象サブバンドの角選択性γに依存する。α=0.4×γを得る。双極フィルタのサイズは、視覚細胞のCRFのサイズの約２倍である。

工程S6では、促進係数を計算する。

ここで、

である。

演算子D（z）は図9で例証する。

促進係数をより容易に施すために、演算子D（z）は、図9に示す部分毎に促進係数が一定であることを確実にする。

工程S7では、促進係数は、工程S4において得られた正規化結果に施される。

図1の工程E8に戻れば、図7の工程S7の後、領域IIについて得られた４つの顕著性マップを合成して、以下の式によって顕著性マップ全体を得る。

α、β、χ、δは、アプリケーション（透かし入れ、符号化等）に依存する加重係数を表す。

他の実施例では、顕著性マップは、領域IIのサブバンドのみならず、17個のサブバンド全部を用いた算出によって得ることが可能である。

図2は、カラー画像に適用された、本発明による方法の好ましい実施例の概括的なフローチャートを表す。

工程T1、T4、T'4、T"4、T5及びT8は、空間領域において行われる。

工程T2、T'2、T"2、T3、T'3、T"3は、周波数領域において行われる。

フーリエ変換が3つの成分に対して、工程T1と、工程T2、T'2、T"2との間で施される。

逆フーリエ変換が、T3、T'3、T"3と、T4、T'4、T"4との間それぞれで施される。

工程T6及びT7は、周波数領域又は空間領域において行うことが可能である。周波数領域において行われる場合、フーリエ変換は、信号に対して工程T5と工程T6との間で行われ、逆フーリエ変換は工程T7と工程T8との間で行われる。

工程T1は、基本的な方向A、Cr1及びCr2によって構成されるクラウスコプフ(Krauskopf)の反対色空間にRGB輝度を変換する工程を備える。

反対色空間へのこの変換は、色情報を無相関化するやり方である。実際に、3本の異なる経路を脳が用いて情報を符号化すると考えられている。1本目は輝度信号(A)を、2本目は赤成分及び緑成分（Cr1）を、3本目は青成分及び黄成分（Cr2）を伝達する。

これらの基本的な方向は、眼の3つのタイプの錐体（L,M,S）から生じる信号と厳密に一致している。

3つの成分RGBそれぞれはまず、x^γ（γ≒2.4）の形式のべき乗法則の非線形性（ガンマの法則と呼ばれる）処理を受ける。この工程は、表示系の伝達関数を考慮に入れるために必要である。HVS色空間への転換の根拠を成すCIE（「国際照明委員会」の仏語の頭字語）XYZ三刺激値が次いで

の等式によって計算される。

錐体（L,M,S）の反応は、

として計算される。

LMS空間から反対色空間を得なければならない。種々の反対色空間がある。これらは、別々の錐体反応を合成するやり方において異なる。実験から、クラウスコプフ(Krauskopf)によって考え出された色空間が、検証されており、

の変換によって表される。

次いで、工程T2で、知覚的分解が輝度成分に施される。工程T2に先行し、工程T1に続いて、輝度成分は、画像に対する知覚的サブバンド分解を工程T2において施すことができるためにフーリエ変換などの既知の変換を用いることによって周波数領域に移される。

前述のように、工程T2の知覚的サブバンド分解は図1の工程E3と同様であり、よって、ここでは説明しない。

図4に示す工程T'2及びT"2の、色の成分Cr2及びCr1の分解に関して、分解は、2つの冠部上に配分された前述の成分毎に5つの心理視覚のサブバンドにつながる。工程T'2、T"2に先行し、工程T1に続いて、クロミナンス成分は、画像に対して知覚的サブバンド分解を工程T'2及びT"2において施すことができるためにフーリエ変換などの既知の変換を用いることによって周波数領域に移される。

空間周波数の2つの領域には、I乃至IIのラベルが付される。

I.0乃至1.5サイクル/度の空間周波数
II.1.5乃至5.7サイクル/度の空間周波数
工程T3、T'3及びT"3では、コントラスト感度関数（CSF）が施される。

工程T3では、図1の工程E4と同じコントラスト感度が、輝度成分に対して施され、よってここでは説明しない。

工程T'3及びT"3では、同じCSFが、2つの色の成分Cr1及びCr2に対して施される。
2つの色の成分に対して、ルカレ（Le Callet）によって考え出された2次元異方性CSFが施される。西暦2001年のナント(Nantes)大学のルカレ氏による文献「criteres objectifs avec references de qualite visuelle de images couleurs」に開示されている。

このCSFは、Cr1成分及びCr2成分それぞれについて、おおよそ5.5サイクル/毎及び4.1サイクル/毎のカットオフ周波数を有する2つの低域通過フィルタを用いている。

異なる視覚モダリティ（無色の成分及び色の成分）から生じている早期の視覚特徴間の直接比較を可能にするために、可視性に関連したサブバンドが重み付けされる。可視性閾値は、刺激がちょうど可視になる特定の点における刺激のコントラストとして定義される。

逆フーリエ変換が、次いで、空間領域においてマスキングを施すことができるために、別々の成分（図2に図示せず）に施される。

次いで、イントラ・マスキングが、工程T'4及びT"4中に色の成分Cr1及びCr2について、かつ、工程T4で、無色の成分について別々のサブバンドに対して施される。この最後の工程は、図1（工程E6）の説明において既に説明している。よって、これは、ここではもう説明しない。

イントラ・チャネル・マスキングは、CSF関数の出力の重み付けとして組み入れられる。マスキングは、刺激間の相互作用を表すので、知覚において非常に重要な現象である。実際に、刺激の可視性閾値は、別の刺激の存在によって影響を受け得る。

マスキングは、同じ知覚チャネルにある刺激間で又は同じサブバンドにある刺激間で最も強い。図1（工程E6）に表すように、ダリーによって考え出されたイントラ・マスキング関数を無色の成分に対して施し、P. Le Callet及びD. Barbaによる文献「Frequency and spatial pooling of visual differences for still image quality assessment, Proc. SPIE Human Vision and Electronic Imaging Conference, San Jose, CA, Vol. 3959, January 2000」に開示されているイントラ・マスキング関数を色の成分に対して施す。

前述のマスキング関数は、Legge及びFoleyによる文献「Contrast Masking in Human Vision, Journal of the Optical Society of America, Vol. 70, No 12, pp. 1458‐1471, December 1980」に開示された非線形トランスデューサを有する。

視覚マスキングは、同じ知覚チャネルにある刺激間（チャネル内マスキング）で最も強い。にもかかわらず、数多くの研究において示されているように、マスキング効果又は台効果をもたらす成分間マスキングと呼ばれているいくつかの相互作用が存在している。心理物理学実験から、色の成分が関係する重要な成分間相互作用が選ばれている。その結果、無色の成分の感度をCr1成分によって増減させることが可能である。無色の成分に対するCr2の影響は、取るに足らないとみなされる。最後に、Cr1はCr2成分の感度を変調することも可能である（逆も同様である）。

次いで工程T5では、色の強化が行われる。

色は、注意を最も強く誘引するものの1つである。本発明では、鮮鋭な色を示しており、全く他の色を有する領域に完全に囲まれた領域の存在が、この領域の境界に対する格別な誘引を示唆しているという特性を示すことによってこの誘引の強さを利用しようとしている。

無色の成分及び色の成分から生じている尺度を集約するという困難な問題を避けるために、色促進には、色の成分の低周波で計算される促進係数を用いることによって無色の構造の顕著性を増大させることが含まれる。

好ましい実施例では、無色のチャネルの組の部分集合のみが強化される。この部分集合は、π/4に等しい角選択性、及び[1.5,5.7]に属する空間放射周波数（サイクル/度で表す）を有する4つのチャネルを含む。前述のチャネルR_i,jでは、iは空間放射周波数を表し、jは向きに関する。本願の例では、jは｛0,π/4,π/2,3π/4｝に等しい。促進係数を計算するために、Cr1及びCr2の低周波の画素毎に、図11に示すように、隣接領域の内容、及び、強化された無色のチャネルの現在の向きに関係するコントラスト値を求める。図11では、コントラスト値は、集合Aの平均値と集合Bの平均値との間の絶対差を計算することによって得られる。集合A及び集合Bは、Cr1又はCr2の低周波に属し、対象の無色のチャネルの好ましい向きに向けられる。

色の強化は、無色のチャネル（輝度チャネル）R_i,j(x,y)に対して等式

によって達成される。ここで、
R’_i,j(x,y)は、強化された無色のサブバンドを表し、
R_i,j(x,y)は、無色のサブバンドを表す。

｜A−B｜_kは、図7に示すように、サブバンドR_i,j(x,y)の好ましい向きにおける色の成分k上の現在点周辺で計算されるコントラスト値を表す。この実施例では、集合A及びBは、向きがπ/4に等しい色の成分kの第1の冠部のサブバンド（低周波サブバンド）に属する。

他の実施例では、全サブバンドを対象とすることが可能である。

工程T6では、中心/サラウンド抑制相互作用が行われる。

この動作にはまず、抑制／励起の工程がある。

2次元のガウシアン差(DoG)を用いて、細胞の非CRF抑制特性をモデル化する。

は、等式

によって表す。ここで、

である（2次元ガウシアン）。

及び

は、中心ガウシアン（CRFの中心）及び抑制ガウシアン（サラウンド）それぞれのx軸及びy軸に沿ったガウシアン・エンベロープの空間範囲に対応する。前述のパラメータは、第2の冠部の放射周波数（放射周波数f∈[1.5,5.7]は、サイクル/度で表す）によって実験的に求められている。最後に、非古典的サラウンド抑制は、等式

によって表す正規化された加重関数

によってモデル化することが可能である。ここで、

である。（x',y'）は、元の座標系を(x₀,y₀)だけ平行移動し、これをθ_i,j（ラジアンで表す）だけ回転させることによって得られる。

であり、

はL₁（ノルム、すなわち絶対値）を表す。

図12は非CRF抑制の構造を示す。

図13は、正規化された加重関数

のプロファイル例を示す。

特定のサブバンド

に対する皮質細胞の反応

は、サブバンド

と、加重関数

との畳み込みによって計算される。

であり、ここでH(z)は、前述のように規定される。

工程T7では、促進相互作用が行われる。

この促進相互作用は通常、輪郭強化又は輪郭統合と呼ばれる。

促進相互作用は、CRFの外側に、好ましい向きの軸に沿って生じる。中心刺激及びサラウンド刺激が等方向であり、互いに整合している場合、これらの種類の相互作用は最大である。すなわち、いくつかの生理的観察によって示されているように、CRF内の刺激及びサラウンド内の刺激を結びつけて輪郭を形成する場合に、細胞の活動が強化される。

早期の視覚前処理における輪郭統合は、２つの半バタフライ・フィルタ

及び

を用いてシミュレートされる。前述のフィルタのプロファイルは、9に示されており、双極／バタフライ・フィルタによって規定される。これは、D_θ（x,y）と、ガウシアン・フィルタ

によってぼやけた円C_rによって生じる近接項とを含む。

であり、ここで

であり、

である。ここで、（x’,y’）^Tは、θ_i,jだけ回転させたベクトル（x,y）^Tである。パラメータαは、双極フィルタの開口角度2αを定め、対象のサブバンドの角選択性γに依存する。α= 0.4×γを得る。双極フィルタのサイズは、視覚細胞のCRFのサイズの約2倍である。

２つの半バタフライ・フィルタ

及び

は、適切なウィンドウを用いることによってバタフライ・フィルタから後に推論される。

向き、サブバンド及び場所毎に、促進係数

を計算する。

であり、

である。

演算子D（z）は図9で例証する。

促進相互作用から生じるサブバンド

は最後に、促進係数

の局所最大値と、空間周波数の同じ範囲に属する全サブバンドに対して計算される促進係数の大局最大値との比に依存する倍数でサブバンド

を重み付けすることによって得られる。

標準のバタフライ形状から、この促進要因は、孤立した直線の顕著性を向上させることが可能になる。η^isoは、この促進相互作用の強度を制御することが可能になる。

工程E8では、顕著性マップは、工程E7において得られる全ての結果として生じるサブバンドを合計することによって得られる。

本発明の他の実施例では、第2の冠部のサブバンドのみならず、サブバンド全てを用いることが可能である。

水平の向き及び垂直の向きに同調させた皮質細胞の数は、ほぼ、他の向きに同調させた細胞の数ほど多いが、重み付けを何ら用いない。HVSのこの特徴は、2D異方性CSFを施すことによって暗黙的にまねている。

図14は、時間顕著性マップ構成の方法の実施例の概括的なフローチャートの好ましい実施例を表す。

上記方法は、移動コントラストを示す画像領域を判定する工程を有する。領域は、
移動バックグラウンド上の固定アイテムである場合、
静的バックグラウンド上の動く物体である場合、
移動コントラストを示している領域とみなすことが可能である。

移動コントラストを示している領域は、人間の眼を誘引する領域である。

知覚的サブバンド分解が、工程a1で、ビデオ系列の画像に対して行われる。この工程は、図1の工程E3に対応する。サブバンドが得られたあと、イントラ・マスキングを、図5（工程T4、T'4、T"4）に示すように前述のサブバンドに対して行う。サブバンドは

として表す。

別々の知覚的サブバンドを得る場合、4レベルのピラミッドを工程a2で構成する。一レベルはL_iと呼ぶ。

L₀は知覚的サブバンド分解の低レベル周波数を表す。

L₁は、L₀と、図3の第2の冠部の4つのサブバンドとの和を表す。

L₂は、L₁と、図3の第3の冠部の6つのサブバンドとの和を表す。

L₃は、L₂と、図3の第4の冠部の6つのサブバンドとの和を表す。

工程a3では、局所階層移動推定は、別々のレベルL_iに基づいて現行画像に対して行われる。

移動推定手段が、画素再帰型の移動推定手段である。移動推定は、現行画像l（t）と先行画像l（t−nT）との間で行われる。

画像L3は、完全な分解能を表す。画像L2は、両方の寸法において2分の1にサブサンプリングされた画像を表す。画像L1は、両方の寸法において4分の1にサブサンプリングされた画像を表し、画像L0は、両方の寸法において16分の1にサブサンプリングされた画像を表す。古典的移動推定手段と比較して、得られるピラミッドは、２個群のピラミッドでない。よって、階層予測手段は、スケール係数によって修正されなければならない。

工程a4では、優位な移動のパラメトリック・モデルが、L3画像から出される移動ベクトルを用いて得られる。「Robust multi resolution estimation of parametric motion models applied to complex scenes」と題する、西暦1994年にIRISAによって刊行された内部刊行物788に開示されたオドベズ（Odobez）及びブーセミー（Bouthemy）のアルゴリズムを用いて、本明細書において説明している。前述の文献は、本願内容に含まれている。

1つの重要な工程は、2次元アフィン・モデルによって表す優位な大局移動を推定する工程を含む。この推定は、先行して推定された速度ベクトル

から求められる。ここでsは画像の画素である。

でパラメータ化されたアフィン移動から生じる、画素sの速度ベクトルは、

によって表す。ここで、

である。

推定アルゴリズムは、残差の和を最小にする、当業者に周知のM推定手段に基づいている。

画素sにおける残差の推定は、

によって表す。

関数ρ()は、ジャーマン・マクルーア（German‐McClure）関数である。ロバストな推定手段によって、ビデオ系列の二次移動に影響されないことが可能になる。

を得るために、以下の工程を行う。

工程1：最小二乗法を用いた推定：推定されたパラメータを第2の工程の初期化に用いる。

工程2：画素毎の重み付け

を算出する。

工程3：パラメータw(s)で重み付けされた最小二乗法

を用いて推定する。

工程4：

が収束するまで工程2に戻る。

ρ()の微分である影響関数は、ψ(e)=e/(1+e²)²に等しい。

図14に戻れば、工程a5で、時間顕著性領域が以下のように判定される。

画素s毎の見かけの優位な速度

及び
局所速度

の知識から、相対運動

を計算することが可能である。

眼は、空間感度が最高である中央窩領域内に保って、変位している関心物体を追跡することができる。この追跡能力は、随従運動として知られている。

モデルによって、平均的な観察者の挙動をシミュレートしようとする空間時間顕著性マップがもたらされなければならないので、眼の追跡能力によって、空間時間CSFも空間速度CSFも用いることが妨げられる。

眼の随従運動は、動いている物体と静止物体でぼけ及びノイズの可視性が等しいので、動いている物体と静止物体で同様な視覚感度につながる。したがって、動いている系列領域全てを視聴者が追跡可能であるという最悪のケースの仮定を考えてみる。更に、空間時間CSFは、低周波数で空間時間的に分離可能でない。

その結果、動いている物体の知覚は、物体が眼によって追跡されているか否かに大きく依存するので、眼の最大随従速度

を導入する。

相対運動の計算は、時間顕著性マップの計算に十分でないことがあり得る。注意を逸らす静止しているものの中で動いている刺激を見つけることが簡単であることは直観的に明らかである。逆に、優位な動きが重要なケースを考えてみなければならない。この場合、注意を逸らす、動いているものの中で、静止している刺激を検出することはより難しいので、相対運動の適切性は低くなる。この課題に対処するために、相対運動の適切性は、相対運動の大局的な量に依存する。ここで関係することは、平均相対運動の評価である。この課題に対処するため、相対運動モジュールのヒストグラムを計算するために、線形量子化が達成される。相対運動の量子化モジュールのメジアン値

は、相対運動の量の良好な推定手段である。この値から、正規化された時間顕著性マップが推論される。

であり、ここで

である。

図15には、空間顕著性マップ構成及び時間顕著性マップ構成を合成する方法の完全な実施例（ビデオ系列における時間的局面及び空間的局面を考慮に入れて、大局顕著性マップを得ることにつながっている）を示す。

この図は図1に基づいており、4つの工程E10乃至E13を追加している。

空間顕著性マップの構成と並行して、時間顕著性マップを、図14で前述したように、工程E10乃至E12において得る。

工程E13では、2つの顕著性マップを融合して最終的な顕著性マップを得る。

融合の課題には、刺激の顕著性がその視覚特徴の顕著性の和より少ないことにもかかわらず、一般化された加重加算関数として対処している。s1及びs2が、2つの別々の視覚特徴から生じている顕著性値であると推定した場合、提示した最終的な顕著性sは

によって計算される。

ここで、加重係数によって和が調節され、最後の項は、強化オフセットと呼ばれる。2つの顕著性値S_temporelle及びS_spatialeが重要である場合に限り、この最後の項は無視できないものでない。

α係数及びβ係数は、アプリケーションによって又はビデオ・コンテンツによって適合させることが可能である。

この実施例では、αは、フレーム差（FD）値

によって評価して、系列の空間時間活動から推論される。

I(s,t)は、時点tでの画素sにおける画像の輝度を表す。

αは図16に表す。

静的系列では、値FDは零である一方、FD値が零でないことは、空間時間活動の徴候である。値FDが本当に重要な場合（特に、系列の切れ目が存在している場合）、このことは、対象ピクチャ間の修正が劇的に重要であることを意味することを特筆する。α係数を求めるために非線形関数を提示する。

大雑把に言えば、3つの別々の挙動を識別することが可能である。

FD<TH₁：系列の一部は、ほとんど静止している。明らかに、空間顕著性マップ（α=0）のみを考えればよい。

TH₁< FD< TH₃：系列の対象部分において多少の時間活動が存在している。係数αは、この活動に伴って線形的に増加する。この実施例では、
α_max=1
α₂=0.65
α₁=0.25
である。

FD > TH₃：空間時間活動は、あまりに重要である。少なくとも2つの合理的な説明が存在する。まず、ビデオにおいて切れ目／場面が存在している。第２に、2つの対象ピクチャには、重要な優位な動き（大局平行移動、大局パニング等）がある。これらの場合、空間顕著性マップを優先するために、α係数をゼロにセットしなければならない。

係数TH1、TH2、TH3は空間的分解能に依存する。

この実施例は、知覚的サブバンド分解に基づく。しかし、本発明は、周波数サブバンド分解に用いることが可能である。知覚的サブバンド分解は、周波数サブバンド分解に、向きベースの分解が続くことに基づく。

この実施例は、画素再帰型移動推定手段にも基づく。他の実施例では、ブロック・マッチング型移動推定手段又は他の何れかの移動推定手段を用いることが可能である。

本実施例は、ビデオに基づく。しかし、ビデオ監視用の固定カメラに適用することも可能である。この場合、大局移動はゼロであり、絶対運動のみが考慮され、相対運動が絶対運動になる。

白黒画像に適用される空間顕著性マップ構成の方法の好ましい実施例を概括的に表すフローチャートである。カラー画像に適用される空間顕著性マップ構成の方法の好ましい実施例を概括的に表すフローチャートである。無色の成分の心理視覚空間周波数分割を表す図である。色の成分の心理視覚空間周波数分割を表す図である。ダリー・コントラスト感度関数を表す図である。視覚マスキングを表す図である。マスキングの非線形モデルを表す図である。好ましい実施例による正規化工程を表すフローチャートである。抑制／励起工程を表す図である。 θ=0の場合の、促進相互作用をモデル化するためのフィルタのプロファイルを表す図である。演算子D（z）を例証した図である。色強化工程を表す図である。 CRF側部の隣接領域によってもたらされる、CRFを表さない状態を表す図である。特定の向き及び放射周波数の場合の、正規化された加重関数のプロファイル例を表す図である。時間顕著性マップ構成の方法の実施例の概括的なフローチャートを表す図である。空間活動及び時間活動に基づいて顕著性マップを構成する方法の実施例の概括的なフローチャートを表す図である。空間時間活動FDによる、係数αのばらつきを表す図である。

Claims

画像の顕著性マップを作成する方法であって、周波数サブバンドに前記画像を階層的に分解する工程を備えている方法において、
周波数サブバンドへの前記分解から算出される、現行画像(I(t))と先行画像(I(t−nT))との間の移動を推定する工程であって、前記画像の優位な移動と局所移動とを前記現行画像の画素毎に推定する工程と、
前記画素の局所動き推定と、前記画像の優位な移動との間の差である相対動きベクトルを前記画像の画素毎に得る工程と、
相対運動ベクトルを眼の最大随従速度によって重み付けする工程と、
正規化された時間顕著性マップを得るために画像の相対運動ベクトルのヒストグラムを計算する工程と
を更に備えることを特徴とする方法。
請求項1記載の方法において、前記周波数サブバンドに分解する工程に加えて知覚的サブバンド分解をもたらす、向きベースで分解する工程を備えることを特徴とする方法。
請求項2記載の方法において、別々の知覚サブバンドをイントラ・マスキングする工程
を備えることを特徴とする方法。
請求項3記載の方法において、
4レベルのピラミッドを構成する工程と、
前記ピラミッドの分解能レベル毎に画素毎の局所動きベクトルを算出する工程とを備えることを特徴とする方法。
請求項4記載の方法において、前記画像の画素毎に前記画像の優位な移動のパラメトリック・モデルを、得られたピラミッドの完全な分解能レベルから得られた局所動きベクトルを用いることによって得る工程を備えることを特徴とする方法。
請求項１乃至５に記載の方法において、前記画像の空間顕著性マップを計算する工程と、前記正規化された時間顕著性マップと前記空間顕著性マップとを融合する工程とを備えることを特徴とする方法。