JP2016530595A

JP2016530595A - 視覚的注意モデリングの結果の提示

Info

Publication number: JP2016530595A
Application number: JP2016519536A
Authority: JP
Inventors: ケー．スミスウィリアム; ジェイ．ムーアリチャード; ディー．ジンマーベンジャミン; ジェイ．スタンキビッチブライアン
Original assignee: 3M Innovative Properties Co
Current assignee: 3M Innovative Properties Co
Priority date: 2013-06-12
Filing date: 2014-06-02
Publication date: 2016-09-29
Anticipated expiration: 2034-06-02
Also published as: US20160132749A1; WO2014200742A1; EP3008665A1; EP3008665A4; US10176396B2; JP6495254B2; EP3992921A1

Abstract

本開示の少なくともいくつかの実施形態は、場面の領域内の視覚的特徴のインパクトを評価するためのシステム及び方法を特徴とする。場面の視覚的表現、及びその場面内の少なくとも１つの選択領域の入力を用いて、システムは、視覚的注意モデルを視覚的表現に適用し、少なくとも１つの選択領域の視覚的目立ち度を決定する。システムは、少なくとも１つの選択領域の複数の特徴と関連付けられている特徴関連データを計算する。視覚的目立ち度及び特徴関連データに基づいて、システムは、少なくとも１つの選択領域内の特徴のうちの少なくとも１つが視覚的目立ち度に及ぼすインパクトを評価する。

Description

本開示は、視覚的注意モデリングを視覚的表現に適用すること、及びそのモデリングの結果を提示する方法に関する。

生物学的な視覚システムは、容量が限定されたシステムであり、そこでは、任意の所与の時間で比較的少数のオブジェクトしか処理できない。任意の所与の時間で見え得る多くのオブジェクトが存在するという事実にもかかわらず、これは本当である。人に見えるオブジェクトの配列から、人の視覚システムは、任意の所与の時間で１つの（又は数少ない）オブジェクトに注意を払うか、又はこれを処理するのみである。更に、人々は、オブジェクトを見ながらそれに注意を払うことができ（これは顕在的注意である）、また人々は、その周辺視においてオブジェクトを見ずにそれに注意を払うことができる（これは潜在的注意である）。

何が視覚的注意を引くかを理解することは、心理学、神経科学、及びコンピュータサイエンスにおける研究課題である。この研究は、多くの調査を、ヒトの視覚的注意の挙動、及び視覚的注意の多くの計算モデルの理解を目的とする。これらの計算モデル（視覚的注意モデル、視線予測モデル、注意モデル、又は顕著性モデルと呼ばれることがある）は、所与の視覚刺激（例えば、写真又は場面）で、人がその視覚的注意をどこに配分するかということをシミュレートしようとする。

本開示の少なくともいくつかの実施形態は、プロセッサ及びメモリを有するコンピュータを用いて、場面の領域内の視覚的特徴のインパクトを評価するための方法を特徴とする。本方法は、場面の視覚的表現を受信することと、その場面内の少なくとも１つの選択領域を示す領域選択データを受信することと、プロセッサを使用して、視覚的注意モデルを視覚的表現に適用し、少なくとも１つの選択領域の視覚的目立ち度（visual conspicuity）を決定することと、プロセッサを使用して、少なくとも１つの選択領域と関連付けられている複数の視覚的特徴と関連付けられている特徴関連データを計算することと、視覚的目立ち度及び特徴関連データに基づいて、少なくとも１つの選択領域内の視覚的特徴のうちの少なくとも１つが視覚的目立ち度に及ぼすインパクトを評価することと、を含む。

本開示の少なくともいくつかの実施形態は、視覚的注意モデル（ＶＡＭ）の結果を提示するためのシステムを特徴とする。このシステムは、場面の視覚的表現、及びその場面内の選択領域を示す領域選択データを受信するように構成された入力モジュールと、視覚的注意モデルを視覚的表現に適用し、選択領域の視覚的目立ち度を決定するように構成されたＶＡＭモジュールと、視覚的目立ち度及び特徴関連データに基づいて、選択領域の視覚的目立ち度に対する視覚的特徴の貢献度を推定するように構成された出力モジュールと、を含む。ＶＡＭモジュールは、選択領域の視覚的特徴と関連付けられている特徴関連データを計算するように更に構成される。

添付図面は本明細書の一部に組み込まれ、これを構成するものであって、その説明と共に本明細書の利点及び原則を説明する。図中、
視覚的注意提示システムの一実施形態を示す。例示的な視覚的注意提示システムの機能モジュール図である。視覚的注意提示システムの例示的な実施形態の機能フロー図を示す。特徴インパクトを決定するための一実施形態のフロー図を示す。確率マップを計算するための一実施形態のフロー図を示す。視覚的表現の特定領域の特徴スコアを決定するための一実施形態のデータフロー図を示す。視覚的表現の一例を示す。インパクト及び他の目立ち度関連データを示す視覚的標識の一例を示す。

典型的に、生物学的な視覚システムが視覚的入力を受信する場合、網膜像表現が形成される。一般的に言えば、視覚的注意は、２段階プロセスとして動作する。初期段階の視覚処理は、例えば色、コントラスト、輝度、動作、向き等のボトムアップ特徴とも称される低レベルの非随意特徴に基づく。その後、空間的バイアス、予備知識、タスク、予測、目標等のトップダウン特徴とも称される随意特徴が、初期段階の視覚処理に影響を及ぼす。生物学的な視覚システムは、ボトムアップ視覚的特徴及びトップダウン影響の両方を複合する情報を処理し、視覚的入力における特定のオブジェクト又は領域に視覚的注意を配分する。

視覚的注意モデル（ＶＡＭ）は、生物学的な視覚システムにおける神経学的プロセス及び心理学的な効果をシミュレートする。ＶＡＭによって消費可能な形態の視覚的入力の視覚的表現は、網膜像表現をシミュレートする。場合によっては、視覚的特徴は、視覚的注意モデルにおいてシミュレートされ得る。ＶＡＭは、ヒト観察者が場面又は動画をどのように知覚するかを予測することができる。この予測は、製品が示されるか、又はテキストが現れる領域等の場面のある特定の部分を強調したいコンテンツ開発者にとって特に重要であり得る。しかしながら、視覚的注意モデルは、非常に複雑であり、モデル注意に対する多様な異なる視覚的特徴に依存し、また大部分のコンテンツ作成者は、ヒトの視覚の専門家ではない。コンテンツの改善を促進するために、場面内の特定領域又はオブジェクトがなぜ視覚的注意を（静的又は動的のいずれかで）受信するか、及び特定領域又はオブジェクトによって受信された視覚的注意のレベルを変えるために何が変更され得るかについて、コンテンツ作成者に通知する視覚的注意モデルから追加の情報を提供する必要性がある。いくつかの実施形態において、特定領域に対する視覚的特徴のインパクトを使用し、ＶＡＭ結果の理解を促進し、所望のＶＡＭ結果を達成するために場面を変更する方法に関する情報をユーザーに提供する。例えば、領域Ａのエッジのインパクトは８０％であるが、領域Ａの赤色−緑色コントラストのインパクトは５％である場合、ユーザーは、領域Ａに配分される視覚的注意を変更するために、エッジ特徴を変更すべきである。

視覚的特徴は、視覚的注意モデルにおいて表示され得る特徴である。例えば、視覚的特徴は、色、エッジ、輝度、顔、強度、フォント、向き、動作、窩からの距離、コントラスト、テキスト、空間周波数、形状、サイズ、又は同様のもの等の視覚的入力の項目である、ボトムアップ特徴を含む。別の例として、視覚的特徴は、トップダウン随意効果、例えば空間的バイアス、予備知識の影響、タスクに基づいた影響、及び同様のものを含み得る。視覚的特徴の貢献度とも称されるインパクトは、その視覚的特徴が、特定領域又は視覚的表現全体によって受信される全視覚的注意にどのように影響を及ぼすかを説明する。例えば、強いエッジを有しない強烈な単色の赤色で塗りつぶされた画像の領域の場合、赤色−緑色コントラスト特徴のインパクトは高くなり得るが、エッジ特徴のインパクトは低くなり得る。インパクトは、例えば、領域の視覚的目立ち度のパーセンテージ、視覚的特徴による全注意に対する最大潜在的貢献度のパーセンテージ、正規化された数、又は同様のものとして表すことができる。

本開示の実施形態は、一般に、視覚的注意モデルの結果を計算し、提示するためのシステム及び方法を目的とする。いくつかの実施形態は、特定領域の受信された視覚的注意の全レベルに対する特徴の貢献度を提供することを目的とし、この情報は、なぜ視覚的注意が配分されるかをユーザーが理解すること、及びある特定の視覚的目標を達成するために視覚的入力を変更する方法を知ることを促進することができる。いくつかの実施形態は、領域によって受信された注意の全レベルに対する特定領域内の変更の潜在的インパクトを示すフィードバックを提供することを目的とする。

視覚的表現は、画像、動画、画像のメタデータ、動画のメタデータ、又は視覚的注意モデルによって消費可能な他の形式の入力を指す。視覚的表現の例として、場面の一部分の表現、例えば広告板若しくはパッケージに表示されるもの、ウェブサイトに表示する宣伝、又は広告板を含む地平線等の場面全体の表示、棚のパッケージ商品の画像、宣伝を含む完成したウェブサイト、又は周囲環境と一緒にデジタルメニューボードが挙げられる。場面は、コンピュータ又はコンピュータの群によって生成されるデジタル場面、例えばウェブページ、ビデオゲーム、及び同様のものを指し得る。視覚的表現は、静止画像及び動画の標準ファイル形式を含む、特徴の抽出を可能にする任意のファイル形式で記憶され得る。

いくつかの視覚的注意モデルは、場面の異なる部分によって受信された、起こり得るヒト視覚的注意を計算するために多くの特徴に依存する。これらの特徴は、例えば、コントラスト、顔、エッジ、テキスト、動作、空間周波数、向き、形状、又はサイズを含み得るがこれらに限定されない。コントラストは、輝度及び／又は色の差異を指す。エッジは、鮮鋭閾値によって定義され得る。テキストは、エッジの量によって、又は既知の画像処理アルゴリズムによって特定され得る。ヒトの顔は、例えば、顔認識アルゴリズムによって特定され得る。空間周波数は、周波数に基づいた座標系をＪＰＥＧ圧縮で得られるもの等の視覚的表現に適用することによって、又はフーリエ変換をＲＧＢ（赤色−緑色−青色）値をコードする画素に適用することによって決定され得る。視覚的注意モデルは、視覚的表現から抽出され得る他の特徴を組み込むこともでき、測定された結果は、ヒト視覚的注意と相関する。

本開示をより良く理解するために、図１は、視覚的注意提示システム１００の一実施形態を示す。このシステムにおいて、視覚的表現１０５は、観察者が見ることができる場面の表示である。場面は、小売店、屋外場面、若しくは建物、及び同様のもののような自然環境、並びに／又はウェブページ、ビデオゲーム、及び同様のもののようなコンピュータ若しくはコンピュータの群によって作成されるデジタル環境を含むことができる。選択領域１１０は、対象とする領域及び／又はオブジェクトであり、注意を払われるか、又は注意を払われないよう意図されている。例えば、選択領域１１０は、デジタル信号、デジタル信号の一部分、人、車両等であり得る。視覚的注意提示システムにおいて、視覚的注意モデリング１２０（ＶＡＭ）は、場面の視覚的表現１０５を受信し、観察者の注意がどのように場面内、及び選択領域１１０に関して配分されるかを予測し、そのような結果は、ＶＡＭ結果提示１３０によって提供される。

いくつかの実施形態において、ＶＡＭ１２０は、視覚的表現１０５から特徴マップを抽出し、次いでその特徴マップ及び混合モデルに基づいて計算を行い、視覚的表現１０５に対してどのように視覚的注意が配分されるかを示す視覚的目立ち度を導き出すことができる。ＶＡＭ１２０は、視覚的注意に対する様々な計算モデル（視覚的注意モデル、視線予測モデル、注意モデル、又は顕著性モデルと呼ばれることもある）、例えば、Ｉｔｔｉ，Ｌ．＆Ｋｏｃｈ，Ｃ．（２０００），Ａｓａｌｉｅｎｃｙ−ｂａｓｅｄｓｅａｒｃｈｍｅｃｈａｎｉｓｍｆｏｒｏｖｅｒｔａｎｄｃｏｖｅｒｔｓｈｉｆｔｓｏｆｖｉｓｕａｌａｔｔｅｎｔｉｏｎ，ＶｉｓｉｏｎＲｅｓｅａｒｃｈ，ｖｏｌ．４０，ｐａｇｅｓ１４８９〜１５０６によって記載される視覚的注意モデル、Ｄ．Ｇａｏ，Ｖ．ＭａｈａｄｅｖａｎａｎｄＮ．Ｖａｓｃｏｎｃｅｌｏｓ（２００８），Ｏｎｔｈｅｐｌａｕｓｉｂｉｌｉｔｙｏｆｔｈｅｄｉｓｃｒｉｍｉｎａｎｔｃｅｎｔｅｒ−ｓｕｒｒｏｕｎｄｈｙｐｏｔｈｅｓｉｓｆｏｒｖｉｓｕａｌｓａｌｉｅｎｃｙ，ＪｏｕｒｎａｌｏｆＶｉｓｉｏｎ，８（７）：１３，１〜１８によって記載される視覚的注意モデル等を使用することができる。ＶＡＭ又は視覚的目立ち度と称されるものの結果は、例えば、異なる領域の顕著性、観察者がある特定の領域を見る確率、観察者が画像を通じてその注意を移動させる可能性があるシーケンス、及び同様のもののマップの形式で提供され得る。

図２は、視覚的注意モデルの結果を計算し、提示するためのシステムである、例示的な視覚的注意提示システム２００の機能モジュール図である。視覚的注意提示システム２００は、図２に示される実施形態において、コンピュータシステム２１０内にある。コンピュータシステム２１０は、任意の汎用又は特定用途向けコンピュータ、コンピューティングデバイス、及び／又はクラウドベースのコンピューティングデバイスであり得る。それはスタンドアロン型コンピュータ、又は複数のネットワーク化コンピュータ若しくはデバイスであり得る。更に、コンピュータシステム２１０は、携帯式コンピュータ、デジタルカメラ、若しくはタブレットＰＣ、又は更には携帯電話を含み得る。コンピュータシステム２１０は、一実施形態では、オペレーティングシステムを含む様々な機能モジュール（図２には示さず）を有する。かかるオペレーティングシステムは、コンピュータシステムのリソースに対する視覚的注意モデル改善システムのアクセスを促進する。コンピュータシステム２１０は、１つ以上のプロセッサ及びメモリ、並びに様々な従来の入力／出力インターフェースを有し得る。いくつかの実施形態において、システム２００は、入力モジュール２２０、視覚的注意モデルモジュール２３０、随意特徴抽出モジュール２３５、出力モジュール２４０、随意提示モジュール２５０、データレポジトリ２６０、及び通信インターフェース２８０を含むことができる。

一実施形態において、入力モジュール２２０は、場面又は場面の一部分の所望の数の視覚的表現を受信又は生成し得る。例えば、環境の少なくとも一部分の視覚的表現は、場面から撮られた１枚以上の写真、又は場面から録画された動画であり得る。別の例として、視覚的表現は、コンピュータ生成画像、一式の画像、又は動画であり得る。別の実施形態において、入力モジュール２２０は、場面の視覚的表現を記憶するデータレポジトリから所望の数の視覚的表現を選択し得る。特定の一実施形態において、入力モジュール２２０は、視覚的特徴に関して異なり得る場面又は場面の一部分の視覚的表現を選択又は生成することができる。例えば、入力モジュール２２０は、２つの店舗設定の写真を選択することができ、各店舗設定は、電子看板表示を有し、一方の店舗における表示コンテンツは、別の店舗における表示コンテンツとは異なる。

視覚的注意モデル（ＶＡＭ）モジュール２３０は、任意の視覚的注意モデル又はモデルの組み合わせの任意の実施形態である。ＶＡＭモジュール２３０は、環境の少なくとも一部分の視覚的表現の入力を取り、モデリング出力を生成する。視覚的注意モデルモジュール２３０は、視覚的注意提示システム２００の一部として図２に示されているが、別の実施形態におけるＶＡＭモジュール２３０は、スタンドアロン型コンピュータプロセスとして、又は更には遠隔コンピュータにおける任意のタイプのコンピュータネットワーク上に提供されるサービスとして動作する。いくつかの実施形態において、ＶＡＭモジュール２３０は、任意の視覚的注意モデル又はモデルの組み合わせを使用して、領域の全注意スコア（例えば、この領域に注意が払われる可能性の程度を表す確率スコア）を生成することができる。場面の選択領域に対するインパクトを決定するための特定の実施形態において、視覚的注意提示システム２００は、特徴抽出モジュール２３５を含むことができ、これは、元の画像又はサイズ変更された画像のあらゆる画素に対して手動又は自動で特定された視覚的特徴の特徴スコアを決定するように構成される。特徴スコアに基づいて、領域の特徴スコアが決定され得る。例えば、領域の強度コントラスト特徴は、その領域の各画素に対するＲＧＢ成分の単純総和であり得、総和の標準偏差によってスケーリングされ得る。この例において、領域の強度コントラスト特徴の特徴スコアは、領域の強度特徴の極大値として決定され得る。

出力モジュール２４０は、視覚的注意結果及び特徴スコアに基づいて、選択領域の視覚的目立ち度に対する視覚的特徴の貢献度を決定するように構成される。上記例において、出力モジュール２４０は、領域の全視覚的目立ち度及び全ての特定された特徴の特徴スコアの総和を使用してスケール因子を決定し、次いでそのスケール因子によってスケーリングされた強度特徴に対する特徴スコアとして、強度特徴の貢献度を決定することができる。

いくつかの実施形態において、視覚的注意提示システム２００は、１つ以上の視覚的特徴の貢献度を示す視覚的標識を生成するように構成された提示モジュール２５０を含み得る。視覚的標識は、例えば、表、チャート、グラフ、図、数字のリスト等の形式、又はそれらの組み合わせであり得る。視覚的標識は、電子的にアドレス可能な表示上にレンダリングされ得る、及び／又はレポートに含まれ得る。視覚的注意提示システム２００の様々なモジュール及び構成要素は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの組み合わせとして実装され得る。場合によっては、視覚的注意提示システム２００の様々な構成要素は、１つ以上のコンピューティングデバイスによって実行されるソフトウェア又はファームウェア内で実装され得る。

データレポジトリ２６０は、視覚的表現、特徴マップ、確率マップ、特徴インパクト、及び視覚的目立ち度を含むがそれらに限定されない、視覚的注意提示システムについての情報及びデータを記憶するために、任意の一時的及び非一時的コンピュータ可読媒体を含み得る。データレポジトリ２６０は、ランダムアクセスメモリ、単層ファイル、ＸＭＬファイル、又は１つ以上のデータベースサーバ若しくはデータセンタ上で実行する１つ以上のデータベース管理システム（ＤＢＭＳ）を含み得る。データベース管理システムは、リレーショナルデータベース管理システム（ＲＤＢＭＳ）、階層型データベース管理システム（ＨＤＢＭＳ）、多次元データベース管理システム（ＭＤＢＭＳ）、オブジェクト指向データベース管理システム（ＯＤＢＭＳ若しくはＯＯＤＢＭＳ）、又はオブジェクトリレーショナルデータベース管理システム（ＯＲＤＢＭＳ）、及び同様のものであってもよい。データリポジトリ２６０は、例えば、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＳＱＬサーバなどの、単一のリレーショナルデータベースであり得る。場合によっては、データリポジトリ２６０は、データ集積化プロセス又はソフトウェアアプリケーションによって、データを交換及び集計することができる、複数のデータベースを含んでもよい。例示的な実施形態では、データリポジトリ２６０の一部は、クラウドデータセンターでホストされ得る。

通信インターフェース２８０は、視覚的注意提示システム２００の構成要素間に電子通信を提供することができる。通信インターフェース２８０は、狭域通信インターフェース及び広域通信インターフェースの両方を含むことができる。狭域通信インターフェースは、例えば、ローカルエリアネットワーク（ＬＡＮ）、Ｂｌｕｅｔｏｏｔｈ規格、ＩＥＥＥ８０２規格（例えば、ＩＥＥＥ８０２．１１）等の既知の通信規格に従うインターフェース、ＩＥＥＥ８０２．１５．４規格に基づいたもの等のＺｉｇＢｅｅ若しくは類似の仕様、又は他のパブリック若しくは専用無線プロトコルであり得る。広域通信インターフェースは、例えば、広域ネットワーク（ＷＡＮ）、セルラーネットワークインターフェース、衛星通信インターフェース等であり得る。通信インターフェース２８０は、イントラネットのようなプライベートコンピュータネットワーク内、又はインターネットのようなパブリックコンピュータネットワーク上のいずれかにあり得る。

図３Ａは、視覚的注意提示システムの例示的な実施形態の機能フロー図を示す。最初に、場面の視覚的表現が受信される（工程３１０Ａ）。視覚的表現は、視覚的注意モデルによる特徴の抽出及び分析を可能にする任意のタイプのファイルであり得る。視覚的表現は、メモリに記憶され、領域の手動選択のために観察者に提示され得るか、又は視覚的表現の領域のアルゴリズム選択を行うために使用される分析ツールに対して利用可能にされ得る。

次いで視覚的表現の領域が選択される（工程３２０Ａ）。対象とする領域の選択は、ユーザー入力に基づくか、又はアルゴリズム選択によってであり得る。対象とする領域は、様々な特徴の重要性又は潜在的変更のインパクトが計算され、ユーザーに提示される区域である。

ユーザーが視覚的表現の領域を選択する実施形態において、この工程は、視覚的表現をユーザーに提示することと、マウス、トラックボール、又はタッチ画面を含むがそれらに限定されないフィードバックデバイスによる選択を受信することと、を含み得る。ユーザー選択は、様々な方法、例えば、多角形を描くこと、閉鎖領域を描くこと、視覚的表現において使用される特定のアセットをタグ付けすることのうちの１つ以上によって行われ得る。視覚的表現が動画である実施形態において、ユーザーは、ある期間を選択し、次いでその期間に上記のような区域を選択することができる。

いくつかの実施形態において、領域は、アルゴリズム的に選択される。アルゴリズム選択は、視覚的注意モデルによる分析に基づいて行われてもよく、例えば、最高レベルの注意が払われた領域、又はモデルによって予測された視覚的シーケンスにおいて最初に見られる可能性が高い領域を選択する。いくつかの実施形態において、アルゴリズム選択は、テキスト又は顔等の特定の特徴を認識すること、及びそれらの特徴を含む領域を選択することに基づき得る。いくつかの実施形態において、視覚的表現において定義された画像若しくは動画フレーム又は他のオブジェクトの１つ以上の層等の視覚的表現の別個の要素が選択され得、この選択は、視覚的表現内のオブジェクトを説明するメタデータ又は他のタグによって追加で決定され得る。この選択は、特徴スコアが計算され、ユーザーに提供され得る閉鎖領域を作成する。

１つ以上の特徴スコアは、モデルに関連する特徴のそれぞれに対して選択された領域内で計算される（工程３３０Ａ）。これらの特徴スコアは、各個別の特徴に対して、例えば、各特定の特徴の極大値を見出し、それを領域の全スコアによって決定されるスケーリング因子で割ることによって計算される。各特徴の極大値は、その特徴のピーク値に対する選択領域内の特徴マップを検索することによって、各特徴に対して決定される。スケーリング因子を使用して、特定の特徴の特徴スコアを、領域が見られる全確率に対するその特定の特徴の貢献度の尺度に変換することができる。スケール因子は、特徴関連データ及び／又は視覚的目立ち度データを使用し、線形方程式又は非線形方程式を使用して生成され得る。例示的な実施形態において、スケーリング因子は、選択領域内の各モデル特徴の最大値の総和で割った選択領域内の観察の最大予測確率である。

更に、選択領域の視覚的注意結果は、視覚的注意モデルを視覚的表現に適用することによって計算される（工程３４０Ａ）。選択領域の視覚的注意結果に対する視覚的特徴のインパクトも、特徴スコア及び視覚的注意結果に基づいて決定される（工程３５０Ａ）。いくつかの実施形態において、本システムは、視覚的特徴の決定されたインパクトを示す提示をレンダリングする（工程３６０Ａ）。場合によっては、本システムは、視覚的特徴の決定されたインパクトを示す指標を含むレポートを生成し得る（工程３７０Ａ）。

いくつかの実施形態において、視覚的注意提示システムは、画像における各画素に対する特徴値を抽出することができる。特徴値は、図５Ｂの５２１〜５２６に示されるように、特徴マップとして表され得る。システムは、例えば、任意の適切なＶＡＭによって作成される顕著性マップを変換することによって、確率ヒートマップ、又は確率マップと称されるものを生成することができる。一例として、視覚的注意提示システムは、次に表１に列挙される疑似コードを使用して、特定領域に対して特定された特徴のインパクトを計算することができる。

視覚的特徴が、強度、エッジ、顔、青色−黄色コントラスト、及び赤色−緑色コントラストである例示的な一実施形態において、視覚的特徴の特徴スコア及びインパクトは、表２に列挙される疑似コードを使用して計算され得る。

特徴スコアは、様々な異なる手段によってユーザーに出力され得る。いくつかの実施形態において、スコアは、スクリーン上にスコアを表示することによってユーザーに提供される。いくつかの実施形態において、スコアは、特徴マップ及び注意を受ける確率の全ヒートマップ、又は視覚的表現を含む、視覚的注意モデルの他の態様及び結果と並んで、時として選択領域の指標と共に提示される。他の実施形態において、このデータは、様々な特徴スコア、選択領域のリポートを含み、また追加として特徴マップ、顕著性マップ、注意の確率のヒートマップ、及び／又は視覚的表現を提示された場合に観察者が目で追う可能性のある視覚的シーケンスを含み得る、ファイルとして出力される。

いくつかの実施形態において、特徴インパクト（すなわち、特徴貢献度）は、図３Ｂに示されるフロー図を使用して決定され得る。変換３２０Ｂ及び混合３３０Ｂが、１つ以上の特徴マップ３１０Ｂに適用されて、１つ以上の選択領域に対する特徴インパクト３４０Ｂを推定する。異なる計算アプローチが、変換及び混合のために使用され得る。例えば、特徴インパクトは、特徴スコアに、対応する特徴重みを掛けて（すなわち、変換工程）、それらを合計し（すなわち、混合工程）、次に各特徴スコアをこの合計で割ることによって推定され得る。いくつかの実施形態において、混合３３０Ｂは、回帰ツリー、回帰ニューラルネットワーク、又は他の予測モデル等の複雑な計算モデルを使用することもできる。特徴インパクトは、特徴スコアを既定値に設定することによって得られたベースラインを使用して更に調整され得る。例えば、ベースラインは、特徴スコアを０に設定することによって計算することができる（例えば、顔特徴を除去して顔特徴スコアを０に設定する）。特徴インパクトは、特徴スコアと類似の様式でユーザーに出力され得る。

図３Ｃは、確率マップを計算するための例示的な実施形態のフロー図を示す。フロー図中の工程のいくつか、例えば、工程３４０Ｃは任意選択的である。最初に、顕著性マップが入力としてシステムに提供される（工程３１０Ｃ）。いくつかの実施形態において、フロー図における各工程の入力及び出力は、二次元浮動小数点画像であり得、各画素は、浮動小数点数として表される。次に、任意選択的に、顕著性マップがある特定のサイズ、例えば、元のマップの４分の１（半分の高さ及び幅）に縮小される（工程３１５Ｃ）。スケーリングは、ぼかしと同じ効果を有し、データの４分の１で計算が実行されるのを許容する。システムは、例えば、画像における全ての画素の合計を計算し、マップ中の各画素をこの値で割ることによって顕著性マップを更に正規化する（工程３２０Ｃ）。これで各画素は、顕著性マップにおける総顕著性のその部分を表す。システムは、マップの合計畳み込みを計算する（工程３２５Ｃ）。例えば、画素のうちの１つに対する畳み込みの出力は、その周りの正方形面積における画素値の合計である。合計は、元の顕著性マップの８０×８０画素面積に対応する、４分の１サイズのマップにおける約４０×４０画素の正方形面積を使用して、マップ中のあらゆる画素に対して繰り返される。この例において、８０×８０画素サイズは、窩の面積をシミュレートするために選択される。各画素に、顕著性を注視の確率に関連させる定数値を掛ける（工程３３０Ｃ）。これで各画素は、周囲面積の顕著性を前提としてそれに注目する確率を表す。

各画素の値は、既定された注視（工程３３５Ｃ）、例えば７回の注視につき少なくとも１回、その画素を注視する（焦点を当てる）確率を返す関数に通される。７は、画像を見る最初の３秒〜５秒に個人が行うであろう注視の数の推定である。例えば、関数は１−（１−ｐ）＾７であり得、式中、ｐは画素値であり、７はその画素を注視する機会の数であり、１はその画像における画素の最大値である。見る時間の幅において、画素は注視を引きつける複数の「試行」又は「機会」を有するため、関数は各画素の値を増加させ得る。画像中の全ての画素の最大値が計算され、各画素は、一定冪数まで高められる（工程３４０Ｃ）。画像中の全ての画素の最大値を再度計算する。前の工程で計算された最大値をこの値で割り、得られた値に画像中の全ての画素を掛ける（工程３４５Ｃ）。これは、工程３４０Ｃ前に画像が有していた最大値を回復する効果を有する。マップは、その元のサイズに拡張され（工程３５０Ｃ）、フロー図の出力である確率マップを産生する（工程３５５Ｃ）。

図４は、視覚的表現の特定領域の特徴スコアを決定するための一実施形態のデータフロー図を示す。視覚的表現４００が視覚的注意提示システムに提供される。視覚的表現４００は、静止画像、一式の画像、画像のシーケンス、動画等であり得る。視覚的表現４００が単一画像でない場合、視覚的表現は、例えば、ＶＡＭをそれぞれ視覚的表現における画像のそれぞれに適用し、要約統計量を使用してＶＡＭ結果のリストをマージすることによって分析され得る。その視覚的表現４００は、視覚的注意モデル４０２によって分析される。視覚的注意モデル分析における最初の工程は、特徴抽出４０３である。

抽出された特徴４０４は、視覚的注意モデル４０２内の特徴混合モデル４０５に提供されるとともに、特徴スコア／貢献度計算４１２に提供され、特徴スコア４１３を計算する。特徴混合モデル４０５は、特徴混合パラメータ４０６、例えば、１つ以上の重み係数、又はより複雑なモデルのパラメータ、例えば、回帰ツリー、回帰ニューラルネットワーク、又は手で調整されるか、若しくは機械学習アルゴリズムによって学習されるかのいずれかである他の予測モデルを使用して、抽出された特徴を複合して顕著性マップ４０７を生成する。顕著性マップ４０７は、可能性マップ計算４０８によって変換され、顕著性スコアをある特定の領域が注意を引く可能性に変換する。その可能性は、提示及び／又はレポート４１５の一部としてユーザーに提示され得る可能性マップ４０９として提示される。視覚的表現４０１から抽出された特徴４０４及びユーザーにより定義された４１０及び／又はアルゴリズム的に生成された４１１対象とする選択領域を使用して、特徴スコア４１３を計算する。場合によっては、特徴スコア／貢献度計算４１２は、特徴４０４及びヒートマップ４０９を使用して、対象とする選択領域４１０及び４１１内の特徴４０４のそれぞれのスケーリング因子及び極大値を決定して特徴スコア４１３を決定する。次いでシステムは、特徴スコア４１３及びヒートマップ４０９の両方を使用して、特徴貢献度４１４を決定し得る。次いで特徴貢献度４１４、特徴スコア４１３、及び／又はヒートマップ４０９を使用して、提示及び／又はレポート４１５を生成することができる。

図５Ａは、デジタル場面（すなわち、表示デバイス上に提示されるコンテンツの一片）の視覚的表現５００（グレースケールで示されるカラー画像）の一例、及びＶＡＭの例示的結果を示す。選択領域５０１〜５０４は、手動選択又はアルゴリズム選択のいずれかによって視覚的注意提示システムに提供される。システムは、視覚的注意モデルを視覚的表現５００に適用し、例えば、５１１〜５１４として示されるように、視覚的目立ち度の指標を生成する。一例として、領域５０１は顔であり、観察者の９３％は、ＶＡＭ結果を示すこの領域に注意を払う可能性がある。システムは、特徴スコア及び特徴インパクトと共に、図５Ｂに示されるように、集合的に視覚的標識として特徴マップも計算し、出力する。一例として、５２２は青色−黄色コントラスト特徴マップであり、５２３は強度特徴マップであり、５２４はエッジ特徴マップであり、５２５は赤色−緑色特徴マップであり、５２６は顔特徴マップであり、５２１はこれらの特徴全てを複合し、混合するヒートマップであり、このヒートマップは、通常、例えば視覚的目立ち度を表す各画素の色を持つカラーマップである。選択領域５０１〜５０４の特徴スコア及び特徴インパクトが表５３０にリストされる（すなわち、２番目の列は、領域５０１の特徴スコア及び特徴インパクトのデータをリストする）。かかる情報を用いて、ユーザーは目的の変更を行い、所望の視覚的注意結果を達成することができる。例えば、ユーザーが領域５０４に対する注意配分を変更しようとする場合、ユーザーは、強度コントラストを変更することによるよりも、青色−黄色コントラストを変更することによって、注意配分を変える可能性がより高い。

上記の特定の実施形態は本発明の様々な態様の説明を容易にするように詳細に記載されているため、本発明は、上記の特定の実施例及び実施形態に限定されると見なされるべきではない。むしろ、本発明は、添付の特許請求の範囲及びそれらの均等物によって定義される本発明の趣旨及び範囲に収まる様々な修正、均等の過程、及び代替のデバイスを含む、本発明の全ての態様を包含することが理解されるべきである。

Claims

プロセッサ及びメモリを有するコンピュータを用いて、場面の領域内の視覚的特徴のインパクトを評価するための方法であって、
場面の視覚的表現を受信することと、
前記場面内の少なくとも１つの選択領域を示す領域選択データを受信することと、
前記プロセッサを使用して、視覚的注意モデルを前記視覚的表現に適用し、前記少なくとも１つの選択領域の視覚的目立ち度を決定することと、
前記プロセッサを使用して、前記少なくとも１つの選択領域と関連付けられている複数の視覚的特徴と関連付けられている特徴関連データを計算することと、
前記視覚的目立ち度及び前記特徴関連データに基づいて、前記少なくとも１つの選択領域内の前記視覚的特徴のうちの少なくとも１つが前記視覚的目立ち度に及ぼす特徴インパクトを評価することと、を含む、方法。
前記プロセッサによって、前記特徴インパクトを示す視覚的標識をレンダリングすることを更に含む、請求項１に記載の方法。
前記視覚的標識が、色、数字、及び文字のうちの少なくとも１つを含む、請求項２に記載の方法。
処理装置によって、前記視覚的標識を含むレポートを作成することを更に含む、請求項２に記載の方法。
前記視覚的特徴が、コントラスト、輝度、色、顔、エッジ、テキスト、動作、空間周波数、向き、形状、サイズ、及びそれらの組み合わせを含む、請求項１に記載の方法。
前記コントラストが、赤色−緑色コントラスト又は青色−黄色コントラストである、請求項５に記載の方法。
前記領域選択データが、ユーザー入力に基づく、請求項１に記載の方法。
前記領域選択データが、コンピューティングデバイスによるアルゴリズム選択に基づく、請求項１に記載の方法。
前記視覚的表現が、画像、動画、画像のメタデータ、又は動画のメタデータを含む、請求項１に記載の方法。
前記特徴インパクトが、数値によって表される、請求項１に記載の方法。
前記特徴インパクトが、パーセンテージによって表される、請求項１に記載の方法。
前記視覚的目立ち度が、数値、画像、パーセンテージ、又はそれらの組み合わせによって表される、請求項１に記載の方法。
視覚的注意モデル（ＶＡＭ）の結果を提示するためのシステムであって、
場面の視覚的表現、及び前記場面内の選択領域を示す領域選択データを受信するように構成された入力モジュールと、
視覚的注意モデルを前記視覚的表現に適用し、前記選択領域の視覚的目立ち度を決定するように構成されたＶＡＭモジュールであって、前記選択領域の視覚的特徴と関連付けられている特徴関連データを計算するように更に構成された、ＶＡＭモジュールと、
前記視覚的目立ち度及び前記特徴関連データに基づいて、前記選択領域の前記視覚的目立ち度に対する前記視覚的特徴の貢献度を推定するように構成された出力モジュールと、を含む、システム。
前記視覚的特徴の前記貢献度を示す視覚的標識を生成するように構成された提示モジュールを更に含む、請求項１３に記載のシステム。
前記視覚的標識が、色、数字、及び文字のうちの少なくとも１つを含む、請求項１４に記載のシステム。
前記処理装置によって、前記視覚的標識を含むレポートを作成することを更に含む、請求項１４に記載のシステム。
前記視覚的特徴が、コントラスト、輝度、色、顔、エッジ、テキスト、動作、空間周波数、向き、形状、サイズ、又はそれらの組み合わせである、請求項１３に記載のシステム。
前記コントラストが、赤色−緑色コントラスト又は青色−黄色コントラストである、請求項１７に記載のシステム。
前記領域選択データが、ユーザー入力に基づく、請求項１３に記載のシステム。
前記領域選択データが、コンピューティングデバイスによるアルゴリズム選択に基づく、請求項１３に記載のシステム。
前記視覚的表現が、画像、動画、画像のメタデータ、又は動画のメタデータを含む、請求項１３に記載のシステム。
前記視覚的特徴の前記貢献度が、数値によって表される、請求項１３に記載のシステム。
前記視覚的特徴の前記貢献度が、パーセンテージによって表される、請求項１３に記載のシステム。
前記視覚的目立ち度が、数値、画像、パーセンテージ、又はそれらの組み合わせによって表される、請求項１３に記載のシステム。