JP6495254B2 - 視覚的注意モデリングの結果の提示 - Google Patents

視覚的注意モデリングの結果の提示 Download PDF

Info

Publication number
JP6495254B2
JP6495254B2 JP2016519536A JP2016519536A JP6495254B2 JP 6495254 B2 JP6495254 B2 JP 6495254B2 JP 2016519536 A JP2016519536 A JP 2016519536A JP 2016519536 A JP2016519536 A JP 2016519536A JP 6495254 B2 JP6495254 B2 JP 6495254B2
Authority
JP
Japan
Prior art keywords
visual
feature
region
contrast
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016519536A
Other languages
English (en)
Other versions
JP2016530595A (ja
Inventor
ケー.スミス ウィリアム
ケー.スミス ウィリアム
ジェイ.ムーア リチャード
ジェイ.ムーア リチャード
ディー.ジンマー ベンジャミン
ディー.ジンマー ベンジャミン
ジェイ.スタンキビッチ ブライアン
ジェイ.スタンキビッチ ブライアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3M Innovative Properties Co
Original Assignee
3M Innovative Properties Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3M Innovative Properties Co filed Critical 3M Innovative Properties Co
Publication of JP2016530595A publication Critical patent/JP2016530595A/ja
Application granted granted Critical
Publication of JP6495254B2 publication Critical patent/JP6495254B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本開示は、視覚的注意モデリングを視覚的表現に適用すること、及びそのモデリングの結果を提示する方法に関する。
生物学的な視覚システムは、容量が限定されたシステムであり、そこでは、任意の所与の時間で比較的少数のオブジェクトしか処理できない。任意の所与の時間で見え得る多くのオブジェクトが存在するという事実にもかかわらず、これは本当である。人に見えるオブジェクトの配列から、人の視覚システムは、任意の所与の時間で1つの(又は数少ない)オブジェクトに注意を払うか、又はこれを処理するのみである。更に、人々は、オブジェクトを見ながらそれに注意を払うことができ(これは顕在的注意である)、また人々は、その周辺視においてオブジェクトを見ずにそれに注意を払うことができる(これは潜在的注意である)。
何が視覚的注意を引くかを理解することは、心理学、神経科学、及びコンピュータサイエンスにおける研究課題である。この研究は、多くの調査を、ヒトの視覚的注意の挙動、及び視覚的注意の多くの計算モデルの理解を目的とする。これらの計算モデル(視覚的注意モデル、視線予測モデル、注意モデル、又は顕著性モデルと呼ばれることがある)は、所与の視覚刺激(例えば、写真又は場面)で、人がその視覚的注意をどこに配分するかということをシミュレートしようとする。
本開示の少なくともいくつかの実施形態は、プロセッサ及びメモリを有するコンピュータを用いて、場面の領域内の視覚的特徴のインパクトを評価するための方法を特徴とする。本方法は、場面の視覚的表現を受信することと、その場面内の少なくとも1つの選択領域を示す領域選択データを受信することと、プロセッサを使用して、視覚的注意モデルを視覚的表現に適用し、少なくとも1つの選択領域の視覚的目立ち度(visual conspicuity)を決定することと、プロセッサを使用して、少なくとも1つの選択領域と関連付けられている複数の視覚的特徴と関連付けられている特徴関連データを計算することと、視覚的目立ち度及び特徴関連データに基づいて、少なくとも1つの選択領域内の視覚的特徴のうちの少なくとも1つが視覚的目立ち度に及ぼすインパクトを評価することと、を含む。
本開示の少なくともいくつかの実施形態は、視覚的注意モデル(VAM)の結果を提示するためのシステムを特徴とする。このシステムは、場面の視覚的表現、及びその場面内の選択領域を示す領域選択データを受信するように構成された入力モジュールと、視覚的注意モデルを視覚的表現に適用し、選択領域の視覚的目立ち度を決定するように構成されたVAMモジュールと、視覚的目立ち度及び特徴関連データに基づいて、選択領域の視覚的目立ち度に対する視覚的特徴の貢献度を推定するように構成された出力モジュールと、を含む。VAMモジュールは、選択領域の視覚的特徴と関連付けられている特徴関連データを計算するように更に構成される。
添付図面は本明細書の一部に組み込まれ、これを構成するものであって、その説明と共に本明細書の利点及び原則を説明する。図中、
視覚的注意提示システムの一実施形態を示す。 例示的な視覚的注意提示システムの機能モジュール図である。 視覚的注意提示システムの例示的な実施形態の機能フロー図を示す。 特徴インパクトを決定するための一実施形態のフロー図を示す。 確率マップを計算するための一実施形態のフロー図を示す。 視覚的表現の特定領域の特徴スコアを決定するための一実施形態のデータフロー図を示す。 視覚的表現の一例を示す。 インパクト及び他の目立ち度関連データを示す視覚的標識の一例を示す。
典型的に、生物学的な視覚システムが視覚的入力を受信する場合、網膜像表現が形成される。一般的に言えば、視覚的注意は、2段階プロセスとして動作する。初期段階の視覚処理は、例えば色、コントラスト、輝度、動作、向き等のボトムアップ特徴とも称される低レベルの非随意特徴に基づく。その後、空間的バイアス、予備知識、タスク、予測、目標等のトップダウン特徴とも称される随意特徴が、初期段階の視覚処理に影響を及ぼす。生物学的な視覚システムは、ボトムアップ視覚的特徴及びトップダウン影響の両方を複合する情報を処理し、視覚的入力における特定のオブジェクト又は領域に視覚的注意を配分する。
視覚的注意モデル(VAM)は、生物学的な視覚システムにおける神経学的プロセス及び心理学的な効果をシミュレートする。VAMによって消費可能な形態の視覚的入力の視覚的表現は、網膜像表現をシミュレートする。場合によっては、視覚的特徴は、視覚的注意モデルにおいてシミュレートされ得る。VAMは、ヒト観察者が場面又は動画をどのように知覚するかを予測することができる。この予測は、製品が示されるか、又はテキストが現れる領域等の場面のある特定の部分を強調したいコンテンツ開発者にとって特に重要であり得る。しかしながら、視覚的注意モデルは、非常に複雑であり、モデル注意に対する多様な異なる視覚的特徴に依存し、また大部分のコンテンツ作成者は、ヒトの視覚の専門家ではない。コンテンツの改善を促進するために、場面内の特定領域又はオブジェクトがなぜ視覚的注意を(静的又は動的のいずれかで)受信するか、及び特定領域又はオブジェクトによって受信された視覚的注意のレベルを変えるために何が変更され得るかについて、コンテンツ作成者に通知する視覚的注意モデルから追加の情報を提供する必要性がある。いくつかの実施形態において、特定領域に対する視覚的特徴のインパクトを使用し、VAM結果の理解を促進し、所望のVAM結果を達成するために場面を変更する方法に関する情報をユーザーに提供する。例えば、領域Aのエッジのインパクトは80%であるが、領域Aの赤色−緑色コントラストのインパクトは5%である場合、ユーザーは、領域Aに配分される視覚的注意を変更するために、エッジ特徴を変更すべきである。
視覚的特徴は、視覚的注意モデルにおいて表示され得る特徴である。例えば、視覚的特徴は、色、エッジ、輝度、顔、強度、フォント、向き、動作、窩からの距離、コントラスト、テキスト、空間周波数、形状、サイズ、又は同様のもの等の視覚的入力の項目である、ボトムアップ特徴を含む。別の例として、視覚的特徴は、トップダウン随意効果、例えば空間的バイアス、予備知識の影響、タスクに基づいた影響、及び同様のものを含み得る。視覚的特徴の貢献度とも称されるインパクトは、その視覚的特徴が、特定領域又は視覚的表現全体によって受信される全視覚的注意にどのように影響を及ぼすかを説明する。例えば、強いエッジを有しない強烈な単色の赤色で塗りつぶされた画像の領域の場合、赤色−緑色コントラスト特徴のインパクトは高くなり得るが、エッジ特徴のインパクトは低くなり得る。インパクトは、例えば、領域の視覚的目立ち度のパーセンテージ、視覚的特徴による全注意に対する最大潜在的貢献度のパーセンテージ、正規化された数、又は同様のものとして表すことができる。
本開示の実施形態は、一般に、視覚的注意モデルの結果を計算し、提示するためのシステム及び方法を目的とする。いくつかの実施形態は、特定領域の受信された視覚的注意の全レベルに対する特徴の貢献度を提供することを目的とし、この情報は、なぜ視覚的注意が配分されるかをユーザーが理解すること、及びある特定の視覚的目標を達成するために視覚的入力を変更する方法を知ることを促進することができる。いくつかの実施形態は、領域によって受信された注意の全レベルに対する特定領域内の変更の潜在的インパクトを示すフィードバックを提供することを目的とする。
視覚的表現は、画像、動画、画像のメタデータ、動画のメタデータ、又は視覚的注意モデルによって消費可能な他の形式の入力を指す。視覚的表現の例として、場面の一部分の表現、例えば広告板若しくはパッケージに表示されるもの、ウェブサイトに表示する宣伝、又は広告板を含む地平線等の場面全体の表示、棚のパッケージ商品の画像、宣伝を含む完成したウェブサイト、又は周囲環境と一緒にデジタルメニューボードが挙げられる。場面は、コンピュータ又はコンピュータの群によって生成されるデジタル場面、例えばウェブページ、ビデオゲーム、及び同様のものを指し得る。視覚的表現は、静止画像及び動画の標準ファイル形式を含む、特徴の抽出を可能にする任意のファイル形式で記憶され得る。
いくつかの視覚的注意モデルは、場面の異なる部分によって受信された、起こり得るヒト視覚的注意を計算するために多くの特徴に依存する。これらの特徴は、例えば、コントラスト、顔、エッジ、テキスト、動作、空間周波数、向き、形状、又はサイズを含み得るがこれらに限定されない。コントラストは、輝度及び/又は色の差異を指す。エッジは、鮮鋭閾値によって定義され得る。テキストは、エッジの量によって、又は既知の画像処理アルゴリズムによって特定され得る。ヒトの顔は、例えば、顔認識アルゴリズムによって特定され得る。空間周波数は、周波数に基づいた座標系をJPEG圧縮で得られるもの等の視覚的表現に適用することによって、又はフーリエ変換をRGB(赤色−緑色−青色)値をコードする画素に適用することによって決定され得る。視覚的注意モデルは、視覚的表現から抽出され得る他の特徴を組み込むこともでき、測定された結果は、ヒト視覚的注意と相関する。
本開示をより良く理解するために、図1は、視覚的注意提示システム100の一実施形態を示す。このシステムにおいて、視覚的表現105は、観察者が見ることができる場面の表示である。場面は、小売店、屋外場面、若しくは建物、及び同様のもののような自然環境、並びに/又はウェブページ、ビデオゲーム、及び同様のもののようなコンピュータ若しくはコンピュータの群によって作成されるデジタル環境を含むことができる。選択領域110は、対象とする領域及び/又はオブジェクトであり、注意を払われるか、又は注意を払われないよう意図されている。例えば、選択領域110は、デジタル信号、デジタル信号の一部分、人、車両等であり得る。視覚的注意提示システムにおいて、視覚的注意モデリング120(VAM)は、場面の視覚的表現105を受信し、観察者の注意がどのように場面内、及び選択領域110に関して配分されるかを予測し、そのような結果は、VAM結果提示130によって提供される。
いくつかの実施形態において、VAM 120は、視覚的表現105から特徴マップを抽出し、次いでその特徴マップ及び混合モデルに基づいて計算を行い、視覚的表現105に対してどのように視覚的注意が配分されるかを示す視覚的目立ち度を導き出すことができる。VAM 120は、視覚的注意に対する様々な計算モデル(視覚的注意モデル、視線予測モデル、注意モデル、又は顕著性モデルと呼ばれることもある)、例えば、Itti,L.& Koch,C.(2000),A saliency−based search mechanism for overt and covert shifts of visual attention,Vision Research,vol.40,pages 1489〜1506によって記載される視覚的注意モデル、D.Gao,V.Mahadevan and N.Vasconcelos(2008),On the plausibility of the discriminant center−surround hypothesis for visual saliency,Journal of Vision,8(7):13,1〜18によって記載される視覚的注意モデル等を使用することができる。VAM又は視覚的目立ち度と称されるものの結果は、例えば、異なる領域の顕著性、観察者がある特定の領域を見る確率、観察者が画像を通じてその注意を移動させる可能性があるシーケンス、及び同様のもののマップの形式で提供され得る。
図2は、視覚的注意モデルの結果を計算し、提示するためのシステムである、例示的な視覚的注意提示システム200の機能モジュール図である。視覚的注意提示システム200は、図2に示される実施形態において、コンピュータシステム210内にある。コンピュータシステム210は、任意の汎用又は特定用途向けコンピュータ、コンピューティングデバイス、及び/又はクラウドベースのコンピューティングデバイスであり得る。それはスタンドアロン型コンピュータ、又は複数のネットワーク化コンピュータ若しくはデバイスであり得る。更に、コンピュータシステム210は、携帯式コンピュータ、デジタルカメラ、若しくはタブレットPC、又は更には携帯電話を含み得る。コンピュータシステム210は、一実施形態では、オペレーティングシステムを含む様々な機能モジュール(図2には示さず)を有する。かかるオペレーティングシステムは、コンピュータシステムのリソースに対する視覚的注意モデル改善システムのアクセスを促進する。コンピュータシステム210は、1つ以上のプロセッサ及びメモリ、並びに様々な従来の入力/出力インターフェースを有し得る。いくつかの実施形態において、システム200は、入力モジュール220、視覚的注意モデルモジュール230、随意特徴抽出モジュール235、出力モジュール240、随意提示モジュール250、データレポジトリ260、及び通信インターフェース280を含むことができる。
一実施形態において、入力モジュール220は、場面又は場面の一部分の所望の数の視覚的表現を受信又は生成し得る。例えば、環境の少なくとも一部分の視覚的表現は、場面から撮られた1枚以上の写真、又は場面から録画された動画であり得る。別の例として、視覚的表現は、コンピュータ生成画像、一式の画像、又は動画であり得る。別の実施形態において、入力モジュール220は、場面の視覚的表現を記憶するデータレポジトリから所望の数の視覚的表現を選択し得る。特定の一実施形態において、入力モジュール220は、視覚的特徴に関して異なり得る場面又は場面の一部分の視覚的表現を選択又は生成することができる。例えば、入力モジュール220は、2つの店舗設定の写真を選択することができ、各店舗設定は、電子看板表示を有し、一方の店舗における表示コンテンツは、別の店舗における表示コンテンツとは異なる。
視覚的注意モデル(VAM)モジュール230は、任意の視覚的注意モデル又はモデルの組み合わせの任意の実施形態である。VAMモジュール230は、環境の少なくとも一部分の視覚的表現の入力を取り、モデリング出力を生成する。視覚的注意モデルモジュール230は、視覚的注意提示システム200の一部として図2に示されているが、別の実施形態におけるVAMモジュール230は、スタンドアロン型コンピュータプロセスとして、又は更には遠隔コンピュータにおける任意のタイプのコンピュータネットワーク上に提供されるサービスとして動作する。いくつかの実施形態において、VAMモジュール230は、任意の視覚的注意モデル又はモデルの組み合わせを使用して、領域の全注意スコア(例えば、この領域に注意が払われる可能性の程度を表す確率スコア)を生成することができる。場面の選択領域に対するインパクトを決定するための特定の実施形態において、視覚的注意提示システム200は、特徴抽出モジュール235を含むことができ、これは、元の画像又はサイズ変更された画像のあらゆる画素に対して手動又は自動で特定された視覚的特徴の特徴スコアを決定するように構成される。特徴スコアに基づいて、領域の特徴スコアが決定され得る。例えば、領域の強度コントラスト特徴は、その領域の各画素に対するRGB成分の単純総和であり得、総和の標準偏差によってスケーリングされ得る。この例において、領域の強度コントラスト特徴の特徴スコアは、領域の強度特徴の極大値として決定され得る。
出力モジュール240は、視覚的注意結果及び特徴スコアに基づいて、選択領域の視覚的目立ち度に対する視覚的特徴の貢献度を決定するように構成される。上記例において、出力モジュール240は、領域の全視覚的目立ち度及び全ての特定された特徴の特徴スコアの総和を使用してスケール因子を決定し、次いでそのスケール因子によってスケーリングされた強度特徴に対する特徴スコアとして、強度特徴の貢献度を決定することができる。
いくつかの実施形態において、視覚的注意提示システム200は、1つ以上の視覚的特徴の貢献度を示す視覚的標識を生成するように構成された提示モジュール250を含み得る。視覚的標識は、例えば、表、チャート、グラフ、図、数字のリスト等の形式、又はそれらの組み合わせであり得る。視覚的標識は、電子的にアドレス可能な表示上にレンダリングされ得る、及び/又はレポートに含まれ得る。視覚的注意提示システム200の様々なモジュール及び構成要素は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの組み合わせとして実装され得る。場合によっては、視覚的注意提示システム200の様々な構成要素は、1つ以上のコンピューティングデバイスによって実行されるソフトウェア又はファームウェア内で実装され得る。
データレポジトリ260は、視覚的表現、特徴マップ、確率マップ、特徴インパクト、及び視覚的目立ち度を含むがそれらに限定されない、視覚的注意提示システムについての情報及びデータを記憶するために、任意の一時的及び非一時的コンピュータ可読媒体を含み得る。データレポジトリ260は、ランダムアクセスメモリ、単層ファイル、XMLファイル、又は1つ以上のデータベースサーバ若しくはデータセンタ上で実行する1つ以上のデータベース管理システム(DBMS)を含み得る。データベース管理システムは、リレーショナルデータベース管理システム(RDBMS)、階層型データベース管理システム(HDBMS)、多次元データベース管理システム(MDBMS)、オブジェクト指向データベース管理システム(ODBMS若しくはOODBMS)、又はオブジェクトリレーショナルデータベース管理システム(ORDBMS)、及び同様のものであってもよい。データリポジトリ260は、例えば、Microsoft CorporationのSQLサーバなどの、単一のリレーショナルデータベースであり得る。場合によっては、データリポジトリ260は、データ集積化プロセス又はソフトウェアアプリケーションによって、データを交換及び集計することができる、複数のデータベースを含んでもよい。例示的な実施形態では、データリポジトリ260の一部は、クラウドデータセンターでホストされ得る。
通信インターフェース280は、視覚的注意提示システム200の構成要素間に電子通信を提供することができる。通信インターフェース280は、狭域通信インターフェース及び広域通信インターフェースの両方を含むことができる。狭域通信インターフェースは、例えば、ローカルエリアネットワーク(LAN)、Bluetooth規格、IEEE 802規格(例えば、IEEE 802.11)等の既知の通信規格に従うインターフェース、IEEE 802.15.4規格に基づいたもの等のZigBee若しくは類似の仕様、又は他のパブリック若しくは専用無線プロトコルであり得る。広域通信インターフェースは、例えば、広域ネットワーク(WAN)、セルラーネットワークインターフェース、衛星通信インターフェース等であり得る。通信インターフェース280は、イントラネットのようなプライベートコンピュータネットワーク内、又はインターネットのようなパブリックコンピュータネットワーク上のいずれかにあり得る。
図3Aは、視覚的注意提示システムの例示的な実施形態の機能フロー図を示す。最初に、場面の視覚的表現が受信される(工程310A)。視覚的表現は、視覚的注意モデルによる特徴の抽出及び分析を可能にする任意のタイプのファイルであり得る。視覚的表現は、メモリに記憶され、領域の手動選択のために観察者に提示され得るか、又は視覚的表現の領域のアルゴリズム選択を行うために使用される分析ツールに対して利用可能にされ得る。
次いで視覚的表現の領域が選択される(工程320A)。対象とする領域の選択は、ユーザー入力に基づくか、又はアルゴリズム選択によってであり得る。対象とする領域は、様々な特徴の重要性又は潜在的変更のインパクトが計算され、ユーザーに提示される区域である。
ユーザーが視覚的表現の領域を選択する実施形態において、この工程は、視覚的表現をユーザーに提示することと、マウス、トラックボール、又はタッチ画面を含むがそれらに限定されないフィードバックデバイスによる選択を受信することと、を含み得る。ユーザー選択は、様々な方法、例えば、多角形を描くこと、閉鎖領域を描くこと、視覚的表現において使用される特定のアセットをタグ付けすることのうちの1つ以上によって行われ得る。視覚的表現が動画である実施形態において、ユーザーは、ある期間を選択し、次いでその期間に上記のような区域を選択することができる。
いくつかの実施形態において、領域は、アルゴリズム的に選択される。アルゴリズム選択は、視覚的注意モデルによる分析に基づいて行われてもよく、例えば、最高レベルの注意が払われた領域、又はモデルによって予測された視覚的シーケンスにおいて最初に見られる可能性が高い領域を選択する。いくつかの実施形態において、アルゴリズム選択は、テキスト又は顔等の特定の特徴を認識すること、及びそれらの特徴を含む領域を選択することに基づき得る。いくつかの実施形態において、視覚的表現において定義された画像若しくは動画フレーム又は他のオブジェクトの1つ以上の層等の視覚的表現の別個の要素が選択され得、この選択は、視覚的表現内のオブジェクトを説明するメタデータ又は他のタグによって追加で決定され得る。この選択は、特徴スコアが計算され、ユーザーに提供され得る閉鎖領域を作成する。
1つ以上の特徴スコアは、モデルに関連する特徴のそれぞれに対して選択された領域内で計算される(工程330A)。これらの特徴スコアは、各個別の特徴に対して、例えば、各特定の特徴の極大値を見出し、それを領域の全スコアによって決定されるスケーリング因子で割ることによって計算される。各特徴の極大値は、その特徴のピーク値に対する選択領域内の特徴マップを検索することによって、各特徴に対して決定される。スケーリング因子を使用して、特定の特徴の特徴スコアを、領域が見られる全確率に対するその特定の特徴の貢献度の尺度に変換することができる。スケール因子は、特徴関連データ及び/又は視覚的目立ち度データを使用し、線形方程式又は非線形方程式を使用して生成され得る。例示的な実施形態において、スケーリング因子は、選択領域内の各モデル特徴の最大値の総和で割った選択領域内の観察の最大予測確率である。
更に、選択領域の視覚的注意結果は、視覚的注意モデルを視覚的表現に適用することによって計算される(工程340A)。選択領域の視覚的注意結果に対する視覚的特徴のインパクトも、特徴スコア及び視覚的注意結果に基づいて決定される(工程350A)。いくつかの実施形態において、本システムは、視覚的特徴の決定されたインパクトを示す提示をレンダリングする(工程360A)。場合によっては、本システムは、視覚的特徴の決定されたインパクトを示す指標を含むレポートを生成し得る(工程370A)。
いくつかの実施形態において、視覚的注意提示システムは、画像における各画素に対する特徴値を抽出することができる。特徴値は、図5Bの521〜526に示されるように、特徴マップとして表され得る。システムは、例えば、任意の適切なVAMによって作成される顕著性マップを変換することによって、確率ヒートマップ、又は確率マップと称されるものを生成することができる。一例として、視覚的注意提示システムは、次に表1に列挙される疑似コードを使用して、特定領域に対して特定された特徴のインパクトを計算することができる。
視覚的特徴が、強度、エッジ、顔、青色−黄色コントラスト、及び赤色−緑色コントラストである例示的な一実施形態において、視覚的特徴の特徴スコア及びインパクトは、表2に列挙される疑似コードを使用して計算され得る。
特徴スコアは、様々な異なる手段によってユーザーに出力され得る。いくつかの実施形態において、スコアは、スクリーン上にスコアを表示することによってユーザーに提供される。いくつかの実施形態において、スコアは、特徴マップ及び注意を受ける確率の全ヒートマップ、又は視覚的表現を含む、視覚的注意モデルの他の態様及び結果と並んで、時として選択領域の指標と共に提示される。他の実施形態において、このデータは、様々な特徴スコア、選択領域のリポートを含み、また追加として特徴マップ、顕著性マップ、注意の確率のヒートマップ、及び/又は視覚的表現を提示された場合に観察者が目で追う可能性のある視覚的シーケンスを含み得る、ファイルとして出力される。
いくつかの実施形態において、特徴インパクト(すなわち、特徴貢献度)は、図3Bに示されるフロー図を使用して決定され得る。変換320B及び混合330Bが、1つ以上の特徴マップ310Bに適用されて、1つ以上の選択領域に対する特徴インパクト340Bを推定する。異なる計算アプローチが、変換及び混合のために使用され得る。例えば、特徴インパクトは、特徴スコアに、対応する特徴重みを掛けて(すなわち、変換工程)、それらを合計し(すなわち、混合工程)、次に各特徴スコアをこの合計で割ることによって推定され得る。いくつかの実施形態において、混合330Bは、回帰ツリー、回帰ニューラルネットワーク、又は他の予測モデル等の複雑な計算モデルを使用することもできる。特徴インパクトは、特徴スコアを既定値に設定することによって得られたベースラインを使用して更に調整され得る。例えば、ベースラインは、特徴スコアを0に設定することによって計算することができる(例えば、顔特徴を除去して顔特徴スコアを0に設定する)。特徴インパクトは、特徴スコアと類似の様式でユーザーに出力され得る。
図3Cは、確率マップを計算するための例示的な実施形態のフロー図を示す。フロー図中の工程のいくつか、例えば、工程340Cは任意選択的である。最初に、顕著性マップが入力としてシステムに提供される(工程310C)。いくつかの実施形態において、フロー図における各工程の入力及び出力は、二次元浮動小数点画像であり得、各画素は、浮動小数点数として表される。次に、任意選択的に、顕著性マップがある特定のサイズ、例えば、元のマップの4分の1(半分の高さ及び幅)に縮小される(工程315C)。スケーリングは、ぼかしと同じ効果を有し、データの4分の1で計算が実行されるのを許容する。システムは、例えば、画像における全ての画素の合計を計算し、マップ中の各画素をこの値で割ることによって顕著性マップを更に正規化する(工程320C)。これで各画素は、顕著性マップにおける総顕著性のその部分を表す。システムは、マップの合計畳み込みを計算する(工程325C)。例えば、画素のうちの1つに対する畳み込みの出力は、その周りの正方形面積における画素値の合計である。合計は、元の顕著性マップの80×80画素面積に対応する、4分の1サイズのマップにおける約40×40画素の正方形面積を使用して、マップ中のあらゆる画素に対して繰り返される。この例において、80×80画素サイズは、窩の面積をシミュレートするために選択される。各画素に、顕著性を注視の確率に関連させる定数値を掛ける(工程330C)。これで各画素は、周囲面積の顕著性を前提としてそれに注目する確率を表す。
各画素の値は、既定された注視(工程335C)、例えば7回の注視につき少なくとも1回、その画素を注視する(焦点を当てる)確率を返す関数に通される。7は、画像を見る最初の3秒〜5秒に個人が行うであろう注視の数の推定である。例えば、関数は1−(1−p)^7であり得、式中、pは画素値であり、7はその画素を注視する機会の数であり、1はその画像における画素の最大値である。見る時間の幅において、画素は注視を引きつける複数の「試行」又は「機会」を有するため、関数は各画素の値を増加させ得る。画像中の全ての画素の最大値が計算され、各画素は、一定冪数まで高められる(工程340C)。画像中の全ての画素の最大値を再度計算する。前の工程で計算された最大値をこの値で割り、得られた値に画像中の全ての画素を掛ける(工程345C)。これは、工程340C前に画像が有していた最大値を回復する効果を有する。マップは、その元のサイズに拡張され(工程350C)、フロー図の出力である確率マップを産生する(工程355C)。
図4は、視覚的表現の特定領域の特徴スコアを決定するための一実施形態のデータフロー図を示す。視覚的表現400が視覚的注意提示システムに提供される。視覚的表現400は、静止画像、一式の画像、画像のシーケンス、動画等であり得る。視覚的表現400が単一画像でない場合、視覚的表現は、例えば、VAMをそれぞれ視覚的表現における画像のそれぞれに適用し、要約統計量を使用してVAM結果のリストをマージすることによって分析され得る。その視覚的表現400は、視覚的注意モデル402によって分析される。視覚的注意モデル分析における最初の工程は、特徴抽出403である。
抽出された特徴404は、視覚的注意モデル402内の特徴混合モデル405に提供されるとともに、特徴スコア/貢献度計算412に提供され、特徴スコア413を計算する。特徴混合モデル405は、特徴混合パラメータ406、例えば、1つ以上の重み係数、又はより複雑なモデルのパラメータ、例えば、回帰ツリー、回帰ニューラルネットワーク、又は手で調整されるか、若しくは機械学習アルゴリズムによって学習されるかのいずれかである他の予測モデルを使用して、抽出された特徴を複合して顕著性マップ407を生成する。顕著性マップ407は、可能性マップ計算408によって変換され、顕著性スコアをある特定の領域が注意を引く可能性に変換する。その可能性は、提示及び/又はレポート415の一部としてユーザーに提示され得る可能性マップ409として提示される。視覚的表現401から抽出された特徴404及びユーザーにより定義された410及び/又はアルゴリズム的に生成された411対象とする選択領域を使用して、特徴スコア413を計算する。場合によっては、特徴スコア/貢献度計算412は、特徴404及びヒートマップ409を使用して、対象とする選択領域410及び411内の特徴404のそれぞれのスケーリング因子及び極大値を決定して特徴スコア413を決定する。次いでシステムは、特徴スコア413及びヒートマップ409の両方を使用して、特徴貢献度414を決定し得る。次いで特徴貢献度414、特徴スコア413、及び/又はヒートマップ409を使用して、提示及び/又はレポート415を生成することができる。
図5Aは、デジタル場面(すなわち、表示デバイス上に提示されるコンテンツの一片)の視覚的表現500(グレースケールで示されるカラー画像)の一例、及びVAMの例示的結果を示す。選択領域501〜504は、手動選択又はアルゴリズム選択のいずれかによって視覚的注意提示システムに提供される。システムは、視覚的注意モデルを視覚的表現500に適用し、例えば、511〜514として示されるように、視覚的目立ち度の指標を生成する。一例として、領域501は顔であり、観察者の93%は、VAM結果を示すこの領域に注意を払う可能性がある。システムは、特徴スコア及び特徴インパクトと共に、図5Bに示されるように、集合的に視覚的標識として特徴マップも計算し、出力する。一例として、522は青色−黄色コントラスト特徴マップであり、523は強度特徴マップであり、524はエッジ特徴マップであり、525は赤色−緑色特徴マップであり、526は顔特徴マップであり、521はこれらの特徴全てを複合し、混合するヒートマップであり、このヒートマップは、通常、例えば視覚的目立ち度を表す各画素の色を持つカラーマップである。選択領域501〜504の特徴スコア及び特徴インパクトが表530にリストされる(すなわち、2番目の列は、領域501の特徴スコア及び特徴インパクトのデータをリストする)。かかる情報を用いて、ユーザーは目的の変更を行い、所望の視覚的注意結果を達成することができる。例えば、ユーザーが領域504に対する注意配分を変更しようとする場合、ユーザーは、強度コントラストを変更することによるよりも、青色−黄色コントラストを変更することによって、注意配分を変える可能性がより高い。
上記の特定の実施形態は本発明の様々な態様の説明を容易にするように詳細に記載されているため、本発明は、上記の特定の実施例及び実施形態に限定されると見なされるべきではない。むしろ、本発明は、添付の特許請求の範囲及びそれらの均等物によって定義される本発明の趣旨及び範囲に収まる様々な修正、均等の過程、及び代替のデバイスを含む、本発明の全ての態様を包含することが理解されるべきである。

Claims (24)

  1. プロセッサ及びメモリを有するコンピュータが、場面の領域内の視覚的特徴のインパクトを評価するための方法であって、
    前記コンピュータが、場面の視覚的表現を受信することと、
    前記コンピュータが、前記場面内の少なくとも1つの選択領域を示す領域選択データを受信することと、
    前記プロセッサが、視覚的注意モデルを前記視覚的表現に適用し、前記少なくとも1つの選択領域の視覚的目立ち度を決定することと、
    前記プロセッサが、前記少なくとも1つの選択領域と関連付けられている複数の視覚的特徴と関連付けられている特徴関連データを計算することと、
    前記プロセッサが、前記視覚的目立ち度及び前記特徴関連データに基づいて、前記少なくとも1つの選択領域内の前記視覚的特徴のうちの少なくとも1つが前記視覚的目立ち度に及ぼす特徴インパクトを評価することと、を含む、方法。
  2. 前記プロセッサが、前記特徴インパクトを示す視覚的標識をレンダリングすることを更に含む、請求項1に記載の方法。
  3. 前記視覚的標識が、色、数字、及び文字のうちの少なくとも1つを含む、請求項2に記載の方法。
  4. 前記プロセッサが、前記視覚的標識を含むレポートを作成することを更に含む、請求項2に記載の方法。
  5. 前記視覚的特徴が、コントラスト、輝度、色、顔、エッジ、テキスト、動作、空間周波数、向き、形状、サイズ、及びそれらの組み合わせを含む、請求項1に記載の方法。
  6. 前記コントラストが、赤色−緑色コントラスト又は青色−黄色コントラストである、請求項5に記載の方法。
  7. 前記領域選択データが、ユーザー入力に基づく、請求項1に記載の方法。
  8. 前記領域選択データが、コンピューティングデバイスによるアルゴリズム選択に基づく、請求項1に記載の方法。
  9. 前記視覚的表現が、画像、動画、画像のメタデータ、又は動画のメタデータを含む、請求項1に記載の方法。
  10. 前記特徴インパクトが、数値によって表される、請求項1に記載の方法。
  11. 前記特徴インパクトが、パーセンテージによって表される、請求項1に記載の方法。
  12. 前記視覚的目立ち度が、数値、画像、パーセンテージ、又はそれらの組み合わせによって表される、請求項1に記載の方法。
  13. 視覚的注意モデル(VAM)の結果を提示するためのシステムであって、
    場面の視覚的表現、及び前記場面内の選択領域を示す領域選択データを受信するように構成された入力モジュールと、
    視覚的注意モデルを前記視覚的表現に適用し、前記選択領域の視覚的目立ち度を決定するように構成されたVAMモジュールであって、前記選択領域の視覚的特徴と関連付けられている特徴関連データを計算するように更に構成された、VAMモジュールと、
    前記視覚的目立ち度及び前記特徴関連データに基づいて、前記選択領域の前記視覚的目立ち度に対する前記視覚的特徴の貢献度を推定するように構成された出力モジュールと、を含む、システム。
  14. 前記視覚的特徴の前記貢献度を示す視覚的標識を生成するように構成された提示モジュールを更に含む、請求項13に記載のシステム。
  15. 前記視覚的標識が、色、数字、及び文字のうちの少なくとも1つを含む、請求項14に記載のシステム。
  16. 前記VAMモジュールによって、前記視覚的標識を含むレポートを作成することを更に含む、請求項14に記載のシステム。
  17. 前記視覚的特徴が、コントラスト、輝度、色、顔、エッジ、テキスト、動作、空間周波数、向き、形状、サイズ、又はそれらの組み合わせである、請求項13に記載のシステム。
  18. 前記コントラストが、赤色−緑色コントラスト又は青色−黄色コントラストである、請求項17に記載のシステム。
  19. 前記領域選択データが、ユーザー入力に基づく、請求項13に記載のシステム。
  20. 前記領域選択データが、コンピューティングデバイスによるアルゴリズム選択に基づく、請求項13に記載のシステム。
  21. 前記視覚的表現が、画像、動画、画像のメタデータ、又は動画のメタデータを含む、請求項13に記載のシステム。
  22. 前記視覚的特徴の前記貢献度が、数値によって表される、請求項13に記載のシステム。
  23. 前記視覚的特徴の前記貢献度が、パーセンテージによって表される、請求項13に記載のシステム。
  24. 前記視覚的目立ち度が、数値、画像、パーセンテージ、又はそれらの組み合わせによって表される、請求項13に記載のシステム。
JP2016519536A 2013-06-12 2014-06-02 視覚的注意モデリングの結果の提示 Expired - Fee Related JP6495254B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361834271P 2013-06-12 2013-06-12
US61/834,271 2013-06-12
PCT/US2014/040440 WO2014200742A1 (en) 2013-06-12 2014-06-02 Presenting results of visual attention modeling

Publications (2)

Publication Number Publication Date
JP2016530595A JP2016530595A (ja) 2016-09-29
JP6495254B2 true JP6495254B2 (ja) 2019-04-03

Family

ID=52022662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016519536A Expired - Fee Related JP6495254B2 (ja) 2013-06-12 2014-06-02 視覚的注意モデリングの結果の提示

Country Status (4)

Country Link
US (1) US10176396B2 (ja)
EP (2) EP3992921A1 (ja)
JP (1) JP6495254B2 (ja)
WO (1) WO2014200742A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4287139A1 (en) 2022-05-31 2023-12-06 Konica Minolta, Inc. Saliency analysis system, saliency analysis method and program

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960854A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and device for determining a set of modifiable elements in a group of pictures
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20170032280A1 (en) * 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
DE102016210288A1 (de) * 2016-06-10 2017-12-14 Volkswagen Aktiengesellschaft Bedienvorrichtung mit Eyetrackereinheit und Verfahren zum Kalibrieren einer Eyetrackereinheit einer Bedienvorrichtung
JP6798183B2 (ja) * 2016-08-04 2020-12-09 株式会社リコー 画像解析装置、画像解析方法およびプログラム
CN109284749A (zh) 2017-07-19 2019-01-29 微软技术许可有限责任公司 精细化图像识别
CN109658455B (zh) * 2017-10-11 2023-04-18 阿里巴巴集团控股有限公司 图像处理方法和处理设备
CN110688292B (zh) * 2018-07-04 2023-11-24 葛建新 一种基于注意机制的软件测试视觉检测方法
CN109509222B (zh) * 2018-10-26 2020-11-03 北京陌上花科技有限公司 直线类物体的检测方法及装置
US20210264161A1 (en) * 2018-12-28 2021-08-26 Vizit Labs, Inc. Systems and methods for image or video performance heat map generation
CN110287760A (zh) * 2019-03-28 2019-09-27 电子科技大学 一种基于深度学习的人脸五官点遮挡检测方法
CN110781846B (zh) * 2019-10-30 2021-02-09 江苏开放大学(江苏城市职业学院) 一种融合视觉广度特点的视觉注意计算方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6320976B1 (en) 1999-04-01 2001-11-20 Siemens Corporate Research, Inc. Computer-assisted diagnosis method and system for automatically determining diagnostic saliency of digital images
US7130461B2 (en) 2002-12-18 2006-10-31 Xerox Corporation Systems and method for automatically choosing visual characteristics to highlight a target against a background
GB2417808A (en) 2004-09-02 2006-03-08 Hewlett Packard Development Co Document creation system
US8416992B2 (en) * 2005-01-10 2013-04-09 Thomson Licensing Device and method for creating a saliency map of an image
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
US8687844B2 (en) * 2008-06-13 2014-04-01 Raytheon Company Visual detection system for identifying objects within region of interest
US8369652B1 (en) * 2008-06-16 2013-02-05 Hrl Laboratories, Llc Visual attention system for salient regions in imagery
US8442328B2 (en) 2008-10-03 2013-05-14 3M Innovative Properties Company Systems and methods for evaluating robustness of saliency predictions of regions in a scene
WO2010039966A1 (en) * 2008-10-03 2010-04-08 3M Innovative Properties Company Systems and methods for optimizing a scene
US8649606B2 (en) * 2010-02-10 2014-02-11 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
NL2004878C2 (en) * 2010-06-11 2011-12-13 Univ Amsterdam System and method for detecting a person's direction of interest, such as a person's gaze direction.
WO2012006007A2 (en) * 2010-07-07 2012-01-12 3M Innovative Properties Company Systems and methods for improving visual attention models
JP5862071B2 (ja) 2011-06-30 2016-02-16 株式会社ニコン 画像処理装置、撮像装置およびプログラム
AU2011254040B2 (en) * 2011-12-14 2015-03-12 Canon Kabushiki Kaisha Method, apparatus and system for determining a saliency map for an input image
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video
US9298980B1 (en) * 2013-03-07 2016-03-29 Amazon Technologies, Inc. Image preprocessing for character recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4287139A1 (en) 2022-05-31 2023-12-06 Konica Minolta, Inc. Saliency analysis system, saliency analysis method and program

Also Published As

Publication number Publication date
US10176396B2 (en) 2019-01-08
EP3008665A4 (en) 2017-03-08
WO2014200742A1 (en) 2014-12-18
EP3992921A1 (en) 2022-05-04
US20160132749A1 (en) 2016-05-12
JP2016530595A (ja) 2016-09-29
EP3008665A1 (en) 2016-04-20

Similar Documents

Publication Publication Date Title
JP6495254B2 (ja) 視覚的注意モデリングの結果の提示
US8442328B2 (en) Systems and methods for evaluating robustness of saliency predictions of regions in a scene
AU2009298428B2 (en) Systems and methods for optimizing a scene
EP2356631B1 (en) Systems and methods for evaluating robustness
AU2009298438B2 (en) Systems and methods for multi-perspective scene analysis
US10515163B2 (en) Systems and methods for improving visual attention models

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190306

R150 Certificate of patent or registration of utility model

Ref document number: 6495254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees