JP2015225669A

JP2015225669A - 注釈表示支援装置及び注釈表示支援方法

Info

Publication number: JP2015225669A
Application number: JP2015106022A
Authority: JP
Inventors: バボン，フレデリツク; Babon Frederic; サルバテイエラ，ホアキンセペーダ; Zepeda Salvatierra Joaquin
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2014-05-28
Filing date: 2015-05-26
Publication date: 2015-12-14
Also published as: EP2950224A1; KR20150137006A; US20150347369A1; TW201546636A; CN105302849A; EP2950239A1

Abstract

【課題】画像分類用トレーニング・セットを容易に準備できるようにユーザを支援する装置及び方法を提供する。
【解決手段】注釈表示支援装置１００は、検索ワードとの関係で第１のグループに含まれる可能性のある画像を表示する表示処理部１４と、表示処理部によって表示される画像のうちで検索ワードとの関係で第２のグループに含まれるべきである画像の選択を受け付ける入力受付部１２と、表示処理部によって表示される画像のうちで第２のグループに属する可能性のある画像を、第２のグループに含まれるべきであるとして選択された画像に基づいて、画像に関連付けられた注釈を付加するために検出する注釈付加部１８と、を備える。
【選択図】図１

Description

本発明は、注釈表示支援装置及び注釈表示支援方法に関する。

各々の画像に「羊」又は「猫」のような所定のビジュアル・コンセプト（視覚的概念）が存在しているか否かを示す画像分類器（classifier）によって画像を分類する技術がある。画像分類器は、上記視覚的概念を含有するポジティブ画像と上記視覚的概念を含有しないネガティブ画像とを含むトレーニング・セットを用いる学習アルゴリズムによって作成される。一般的な学習アルゴリズムとしては、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（サポート・ベクトル・マシン）（ＳＶＭ）アルゴリズムが知られており、そこでは、結果として得られる分類器は、画像の特徴（画像から抽出されるヒストグラムのような高次元ベクトル）の空間において分離超平面（ｓｅｐａｒａｔｉｎｇｈｙｐｅｒ-ｐｌａｎｅ）を規定する線形分類器である。

また、米国特許第７８９０４４３号には、弱分類器を、あるいは、組み合わせ分類器の「フィーチャ（ｆｅａｔｕｒｅ）（特徴）」をトレーニングするための「マルチプル・インスタンス・プルーニング（ｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｐｒｕｎｉｎｇ）」（ＭＩＰ）が開示されている。

しかしながら、各ユーザにとってトレーニング・セットを準備することは難しい。例えば、視覚的概念を表すポジティブ画像とネガティブ画像の大量のセット（集合）を手動で準備するには時間がかかる。したがって、各ユーザが集めることができる視覚的概念の量は限られる。

この問題に取り組むために、１つの技術が提案されており、そこでは、グーグル画像検索（ＧＩＳ）を用いてポジティブ画像を取得し、各々のポジティブ画像についてデスクリプタ（記述子）を算出し、ポジティブ画像の記述子と、予め算出された記述子を有するネガティブ画像のプールとを用いて線形ＳＶＭ分類器をトレーニングして重みベクトルを取得し、その分類器によってデータ・セットをランク付けする（Ｋ. Ｃｈａｔｆｉｅｌｄ、Ａ. Ｚｉｓｓｅｒｍａｎ、“ＶＩＳＯＲ: ＴｏｗａｒｄｓＯｎ-ｔｈｅ-ＦｌｙＬａｒｇｅ-ＳｃａｌｅＯｂｊｅｃｔＣａｔｅｇｏｒｙＲｅｔｒｉｅｖａｌ”、ＡｓｉａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、２０１２）。

しかしながら、ウェブ（ｗｅｂ）の広汎性、及び、一部の単語が曖昧であることに因り、ＧＩＳによって返されるポジティブ・セットは、視覚的概念（検索ワード）を正確に表していないことが時々ある。このため、各ユーザが、更に、視覚的概念を正確に表していない画像をマーキングすることによって、返されたポジティブ画像を手動で訂正する必要がある。したがって、画像分類の結果のクオリティを改善するために、トレーニング・セットを準備することにおける困難性に係る上述の問題を解決する必要がある。

本発明は、上述の問題に鑑みて為されたものであり、画像分類用トレーニング・セットを容易に準備できるようにユーザを支援する技術を提供する。

一実施形態に従えば、注釈表示支援装置であって、検索ワードとの関係で第１のグループに含まれる可能性のある画像を表示する表示処理部と、上記表示処理部によって表示される画像のうち検索ワードとの関係で第２のグループに含まれるべきである画像の選択をユーザから受け付ける入力受付部と、上記表示処理部によって表示される画像であって、上記第２のグループに含まれるべきであるとしてユーザによって選択された画像以外の、上記表示処理部によって表示される画像のうち、第２のグループに属する可能性のある画像を、上記第２のグループに含まれるべきであるとしてユーザによって選択された画像に基づいて、上記画像に注釈を付加するために検出する注釈付加部と、を有し、上記表示処理部が、注釈付加部によって第２のグループに属する可能性があるとして検出された画像についての注釈を表示し、上記注釈が、上記画像が第２のグループに属する可能性があることを示す、注釈表示支援装置が提供される。

別の一実施形態に従えば、注釈表示支援方法であって、検索ワードとの関係で第１のグループに含まれる可能性のある画像を表示する処理と、上記表示する処理において上記表示される画像のうち検索ワードとの関係で第２のグループに含まれるべきである画像の選択をユーザから受け付ける処理と、上記表示する処理において表示される画像であって、上記第２のグループに含まれるべきであるとしてユーザによって選択された画像以外の、上記表示する処理において表示される画像のうち第２のグループに属する可能性のある画像を、上記第２のグループに含まれるべきであるとしてユーザによって選択された画像に基づいて、上記画像に注釈を付加するために検出する処理と、上記検出する処理において第２のグループに属する可能性があるとして検出された画像についての注釈を表示する処理と、を有し、上記注釈が、上記画像が第２のグループに属する可能性があることを示す、注釈表示支援方法が提供される。

尚、上述の構成要素の任意の組み合わせと、本発明における方法、装置、システムなどの間で行われる表現の任意の取り替えとは、本発明の実施形態として法的に有効である。

本発明のその他の目的、特徴及び利点は、添付図面と組み合わせて読まれる以下の詳細な説明から更に明らかになるであろう。

一実施形態の注釈表示支援装置の機能的構造の一例を示すブロック図である。一実施形態の注釈表示支援装置のハードウェア構造の一例を示すブロック図である。一実施形態の表示処理装置によって表示される画面の一例を示す図である。一実施形態の表示処理装置によって表示される画面の別の一例を示す図である。一実施形態の処理工程の一例を示すフローチャートである。

ここでは、実例となる実施形態を参照して、本発明を説明する。当業者であれば、本発明の開示事項を用いて多数の代替実施形態を実現できること、及び、本発明が、例として示されたこれらの実施形態に限定されないことが判るであろう。

尚、図面の説明においては、同一の構成要素には同一の参照番号が与えられており、説明の繰り返しはしない。

図１は、一実施形態の注釈表示支援装置１００の機能的構造の一例を示すブロック図である。

注釈表示支援装置１００は、例えばインターネット等のようなネットワーク４００を介して、例えばグーグル・イメージ・サーチ（ＧｏｏｇｌｅＩｍａｇｅＳｅａｒｃｈ）（ＧＩＳ）等のような画像検索エンジンを備えた外部画像検索システム３００と通信できる。

注釈表示支援装置１００の機能的構造を詳細に説明する前に、注釈表示支援装置１００のハードウェア構造を説明する。

図２は、上記一実施形態の注釈表示支援装置１００のハードウェア構造の一例を示す図である。ここでは、注釈表示支援装置１００が例えばスマートフォン、あるいは、携帯電話などのような携帯端末である例を説明する。

注釈表示支援装置１００には、電力供給システム２５１と、プロセッサ２５３、メモリ・コントローラ２５４及び周辺インタフェース２５５を含むメイン・システム２５２と、記憶部２５６と、外部ポート２５７と、高周波回路２５８と、アンテナ２５９と、音声回路２６０と、スピーカー２６１と、マイクロホン２６２と、センサ２６３と、表示コントローラ２６５、光学センサ・コントローラ２６６及び入力コントローラ２６７を含むＩ／Ｏ（入出力）サブ・システム２６４と、タッチ・パネル表示システム２６８と、光学センサ２６９と、入力部２７０と、が含まれている。詳細には示されていないが、センサ２６３には、近接センサ、全地球位置把握システム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）（ＧＰＳ）回路、加速度計、ジャイロスコープ、磁力計、光度センサなどが含まれていてもよい。

あるいは、注釈表示支援装置１００は、例えばパーソナル・コンピュータなどのような端末装置であってもよい。

図１に戻ると、注釈表示支援装置１００には、入力受付部１２、表示処理部１４、注釈付加部１８、画像取得部１６、及び、画像データ記憶装置２０が含まれている。

入力受付部１２は、注釈表示支援装置１００におけるユーザの種々の入力操作を受け付ける。特に、入力受付部１２は、ユーザから視覚的概念のテキスト指定（以下、「検索ワード」という）を受け付ける。ユーザが、羊に関する画像を取得したい場合、検索ワードは、例えば「羊」であってもよい。

画像取得部１６は、外部検索エンジンを用いて、ユーザによって入力された検索ワードに基づいて、第１のグループに含まれる可能性のある画像を取得する。

画像取得部１６は、検索ワードとの関係で第１のグループに含まれる可能性があり、検索ワードに基づいて外部画像検索システム３００によって検索され発見された画像を取得（ダウンロード）する。この実施形態において、第１のグループとは、検索ワードに対してポジティブ（肯定的）な画像（以下、「検索ワードに対するポジティブ画像」という）のグループである。したがって、厳密に述べると、画像取得部１６は、検索ワードに対してポジティブである可能性のある画像（以下、「検索ワードに対してポジティブの可能性のある画像」という）であり、且つ、検索ワードに基づいて外部画像検索システム３００によって検索され発見された画像を取得（ダウンロード）する。

表示処理部１４は、例えばタッチ・パネル表示システムなどのような表示装置上に種々の情報要素を表示する。具体的には、表示処理部１４は、画像取得部１６によって取得された、検索ワードに対してポジティブの可能性のある画像の一覧を表示する。

入力受付部１２は、ユーザから、表示処理部１４によって表示される画像のうち、検索ワードとの関係で第２のグループに含まれるべき画像の選択を受け付ける。この実施形態において、第２のグループとは、検索ワードに対してネガティブな画像（以下、「検索ワードに対するネガティブ画像」という）のグループである。したがって、厳密に述べると、入力受付部１２は、ユーザから、表示処理部１４によって表示されるポジティブの可能性のある画像のうち、検索ワードに対してネガティブな画像の選択を受け付ける。

例えば、表示処理部１４は、検索ワードに対してポジティブの可能性のある画像を個々のチェック・ボックスとともに表示してもよい。次に、ユーザは、検索ワードなどによって定められた視覚的概念を含まない画像に付随するチェック・ボックスを手動でマークする又はチェックすることによって、検索ワードに対してネガティブな画像を選択してもよい。ユーザがチェック・ボックスをチェックすると、表示処理部１４は、そのチェック・ボックスが付随する画像に、例えば、×印のようなネガティブのアイコンを表示することによって、それが実際にネガティブ画像であることを示してもよい。

注釈付加部１８は、ユーザによって選択されたネガティブ画像に基づいて、表示処理部１４によって表示される残りのポジティブの可能性のある画像のうちで、検索ワードに対してネガティブである可能性のある画像（以下、「検索ワードに対してネガティブの可能性のある画像」という）を検出する。この時、注釈付加部１８は、選択されたネガティブ画像をクエリ画像として使用して、表示処理部１４によって表示される残りのポジティブの可能性のある画像を検索ワードに対してネガティブの可能性のある画像として示唆するか否かを自動的に判定するアルゴリズムを実行してもよい。この時、注釈付加部１８は、類似性に基づく比較、あるいは、分類に基づく比較などを用いてもよい。

類似性に基づく比較が用いられる場合、注釈付加部１８は、表示処理部１４によって表示される残りのポジティブの可能性のある画像の各々を選択されたネガティブ画像と比較する。この比較は、例えば、整合記述子の幾何学的検証に採用されるスケール不変特徴量変換（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）（ＳＩＦＴ）のような局所記述子を用いて、実施してもよい。

分類に基づく比較が用いられる場合、注釈付加部１８は、例えば、選択されたネガティブ画像をネガティブ画像として、残りのポジティブの可能性のある画像をポジティブ画像として、使用して、画像分類器を形成する。

表示処理部１４は、注釈付加部１８によって検出されたネガティブの可能性のある画像上に、その画像が検索ワードに対してネガティブである可能性があることを示す注釈を表示する。その画像がネガティブである可能性があることを示す注釈は、例えばクエスチョン・マークのようなネガティブを示唆するアイコンであってもよい。

このようにして、ユーザは、表示処理部１４によって表示される画像に付随するネガティブを示唆するアイコンを参照することによって、検索ワードに対する別のネガティブ画像を容易に選択できる。入力受付部１２は、ユーザから、検索ワードに対するこのネガティブ画像の選択を受け付ける。

ユーザが検索ワードに対するネガティブ画像を選択すると、その結果が、画像データ記憶装置２０に記憶される。具体的には、画像取得部１６によって取得された各々の画像の画像データと、検索ワードと、それぞれの画像がユーザによって検索ワードに対するネガティブ画像として選択されたか否かを示す情報とが、互いに対応付けられて、画像データ記憶装置２０に記憶される。

更に、画像取得部１６が、外部画像検索システム３００によって検索され発見された、検索ワードに対してポジティブの可能性のある画像を新たに取得すると、注釈付加部１８は、それらの新たに取得されたポジティブの可能性のある画像と、画像データ記憶装置２０に記憶されている画像とを比較してもよい。次に、注釈付加部１８は、画像データ記憶装置２０に記憶されている画像に基づいて、新たに取得された画像のうち、検索ワードに対してネガティブの可能性のある画像を検出してもよい。

図３及び図４は、表示処理部１４によって表示される画面５００の一例を示す図である。

図３において、外部画像検索システム３００によって提供された検索ウェブ・サイトの検索ワード・ボックス５０２に検索ワードの「羊」が入力されたと仮定する。次に、画像取得部１６は、外部画像検索システム３００から、検索ワードの「羊」に対してポジティブの可能性のある複数の画像を取得する。その次に、表示処理部１４は、取得された画像の一覧を表示する。図３には、そのような検索ワードの「羊」に対してポジティブの可能性のある画像が例示されている。

更に、破線５１０内の画像は、ユーザによって、以前、取得され検証された画像と同じものであると仮定する。例えば、画像５０４ａが、以前、ユーザによってチェックされて検索ワードの「羊」に対してネガティブであるとされ、その結果が画像データ記憶装置２０に記憶されたと仮定する。したがって、ネガティブのアイコンである×印５０６ａが、画像５０４ａと共に表示されている。

このような状況下で、ユーザが、検索ワードの「羊」に対してネガティブであると思う画像のうちの１つに、例えば、画像５０４ｂにカーソル５１４を移動すると、ボックス５１２が表示される。あるいは、ボックスが、元から全ての画像にそれぞれ表示されていてもよい。次に、ユーザがボックス５１２をチェックすると、×印５０６ｂが、図４に例示されているように画像５０４ｂと共に表示される。

次に、注釈付加部１８は、ユーザによって選択されたネガティブな画像５０４ａ及び５０４ｂと残りのポジティブの可能性のある画像とに基づいて、残りのポジティブの可能性のある画像のうちで検索ワードの「羊」に対してネガティブの可能性のある画像を検出する。

この場合、例えば、図４に例示されているように、ネガティブを示唆するアイコンであるクエスチョン・マーク５０６ｃ及び５０６ｄが、それぞれ、画像５０４ｃ及び５０４ｄと共に表示される。

この構成により、ユーザは、クエスチョン・マーク５０６ｃ及び５０６ｄを見ることによって、検索ワードの「羊」に対してネガティブの可能性のある画像を容易に確認できる。

図５は、本実施形態の処理工程の一例を示すフローチャートである。

先ず、入力受付部１２が、検索ワードを受け付ける（ステップＳ１０２）。次に、画像取得部１６が、外部画像検索システム３００から、検索ワードに対してポジティブの可能性のある複数の画像を取得する（ステップＳ１０４）。

その後、注釈付加部１８が、取得された画像と、以前取得された画像であって、検索ワードに対してネガティブであると検証又はチェックされ、画像データ記憶装置２０に記憶された画像とを比較する（ステップＳ１０６）。次に、表示処理部１４が、画像取得部１６によって取得された画像を、ネガティブのアイコン（以前の注釈）などと共に、表示する（ステップＳ１０８）。

その後、入力受付部１２が、ユーザから、検索ワードに対するネガティブ画像の選択（手動の注釈）を受け付ける（ステップＳ１１０）。この時、表示処理部１４が、ユーザによってネガティブであると選択された画像に対して、ネガティブのアイコンを表示する。

その後、注釈付加部１８が、ユーザによって、今回及び以前に検索ワードに対してネガティブであると選択された画像と、残りのポジティブの可能性のある画像とに基づいて、検索ワードに対してネガティブの可能性のある画像（ネガティブの候補）を検出する（ステップＳ１１２）。

次に、表示処理部１４が、検索ワードに対してネガティブの可能性があると検出された画像と共に、ネガティブを示唆するアイコンを表示する（ステップＳ１１４）。

その後、注釈処理工程を終了するか否かが決定される（ステップＳ１１６）。注釈処理工程を終了しない場合（ステップＳ１１６でＮＯの場合）、本処理工程は、ステップＳ１０６に戻り、同じステップが繰り返される。注釈処理工程を終了する場合（ステップＳ１１６でＹＥＳの場合）、注釈付加部１８が、画像取得部１６によって取得された各々の画像を、検索ワードと共に、更に、それぞれの画像がユーザによって検索ワードに対するネガティブ画像として選択されたか否かを示す情報と共に、画像データ記憶装置２０に記憶する（ステップＳ１１８）。

あるいは、ステップＳ１１６において、注釈処理工程を終了するか否かを、ユーザによって検索ワードに対するポジティブ画像であると確認された画像の数が目標数に達しているか否かによって、決定してもよい。具体的には、ステップＳ１１６において、検索ワードに対するポジティブ画像であると確認された画像の数が目標数に達すると、注釈処理工程を終了することを決定する。これに対して、ステップＳ１１６において、検索ワードに対するポジティブ画像であると確認された画像の数が目標数に達していない場合、本処理工程は、ステップＳ１０４に戻り、新たな画像がダウンロードされてもよい。

本実施形態に従えば、ユーザが、検索ワードに対してネガティブである画像を選択する度に、検索ワードに対してネガティブの可能性のある画像が検出される。その際、新たなネガティブの可能性のある画像が検出されると、それぞれの画像が検索ワードに対してネガティブの可能性があることを示すネガティブ示唆アイコンのような注釈が表示される。ここで、注釈付加部１８は、検索ワードに対してネガティブの可能性のある画像を検出すると、そのネガティブの可能性のある画像（それぞれネガティブ示唆アイコンが付いた画像）を、デフォルトで、実際にネガティブの画像として、処理してもよい。

したがって、ユーザは、ネガティブ示唆アイコンを見ることによって検索ワードに対してネガティブな画像を速やかに選択できるので、トレーニング・セットを容易に準備できる。

その結果として、オリジナルのオンザフライ（即座）の画像分類システムのポジティブ・セットの注釈がスピード・アップ（加速）され、且つ、より人間工学的になる。未検証画像のうちでネガティブ画像が自動的に示唆されることによって、ポジティブ・セットの注釈付けが速まり、ユーザ・エクスペリエンス（ユーザ体験）がより柔軟になる。

上述の実施形態では、注釈処理工程がポジティブの可能性のある画像のデータ・セットについて実施される一例を説明した。別の一例として、同じ論理とシステムをネガティブの可能性のある画像のデータ・セットについて用いてもよい。これは、第１のグループと第２のグループが、それぞれ、検索ワードに対してネガティブである画像のグループと、検索ワードに対してポジティブである画像のグループとであってもよいことを意味している。

例えば、最も影響力のあるネガティブ画像（分離超平面により近い画像）に手動で注釈を付けることは、有効である。そのような場合、表示処理部１４は、ネガティブの可能性のある画像を表示してもよい。次に、ユーザは、ネガティブの可能性のある画像のうちで検索ワードに対してポジティブである画像を選択してもよい。その後、表示処理部１４は、ユーザによってポジティブであると選択された画像と共に、ポジティブのアイコンを表示してもよい。

次に、注釈付加部１８は、ユーザによって選択されたポジティブ画像と残りのネガティブの可能性のある画像とに基づいて、表示処理部１４によって表示される残りのネガティブの可能性のある画像のうち、ポジティブの可能性のある画像を検出してもよい。次に、表示処理部１４は、ポジティブを示唆するアイコンを、ポジティブの可能性のあるそれぞれの画像と共に、表示してもよい。その結果、ユーザは、ポジティブを示唆するアイコンを見ることによって、検索ワードに対してポジティブである画像を容易に選択できる。

更に、例えばＧＩＳのような外部画像検索システム３００からダウンロードされた画像は重複が多い場合もあるかもしれない。このように重複が多いことに因り、注釈処理工程が不必要に労を要する。したがって、同一の視覚的情報を含む画像は、クラスタ化して（一塊にして）検出し、スタック化（積層化又は積重ね）状態で表示してもよい。このクラスタ化処理は、既に詳しく説明したように類似性に基づく比較によって実施してもよい。このような構成によって、ユーザは、より広範囲の画像に対して、より速やかに、注釈を付けることができる。より大きなトレーニング・セットは、処理結果に重要な良い影響を及ぼすことが知られている。この場合、オプションとして、ユーザは、スタック化画像を拡張して画像クラスタを検証できるようにしてもよい。

注釈表示支援装置１００の個別の構成要素は、ハードウェアとソフトウェアの任意の組み合わせ、その代表例として、任意のコンピュータのＣＰＵと、メモリと、図面に例示された構成要素を具現化するために上記メモリにロードされたプログラムと、例えばハード・ディスクのような上記プログラムを記憶する記憶装置と、ネットワーク接続用インタフェースとの任意の組み合わせによって具現化してもよい。当業者であれば、本実施形態における方法及び装置について、様々な修正、調整及び変更などが可能であることが判るであろう。

本発明は、ここに具体的に開示した実施形態に限定されず、変形実施形態及び修正実施形態などを、本発明の有効範囲から逸脱することなく、実施できる。

Claims

注釈表示支援装置であって、
検索ワードとの関係で第１のグループに含まれる可能性のある画像を表示する表示処理部と、
前記表示処理部によって表示される画像のうち前記検索ワードとの関係で第２のグループに含まれるべきである画像の選択を受け付ける入力受付部と、
前記第２のグループに属する可能性のある画像をその画像に注釈を付加するために検出する注釈付加部であって、前記第２のグループに属する可能性のある画像は、前記第２のグループに含まれるべきであるとして選択された画像以外の、前記表示処理部によって表示される画像から、前記第２のグループに含まれるべきであるとして選択された画像に基づいて検出される、前記注釈付加部と、
を備え、
前記表示処理部が、前記注釈付加部によって前記第２のグループに属する可能性があるとして検出された画像に関連付けられた前記注釈を表示し、前記注釈が、前記画像が前記第２のグループに属する可能性があることを示す、前記注釈表示支援装置。
前記第１のグループ及び前記第２のグループが、それぞれ、前記検索ワードに対してポジティブである画像のグループ、及び、前記検索ワードに対してネガティブである画像のグループであるか、あるいは、前記第１のグループ及び前記第２のグループが、それぞれ、前記検索ワードに対してネガティブである画像のグループ、及び、前記検索ワードに対してポジティブである画像のグループである、請求項１に記載の注釈表示支援装置。
前記第１のグループに含まれる可能性のある画像を、入力された前記検索ワードに基づいて、外部検索エンジンによって、取得する画像取得部を更に備え、
前記表示処理部が、前記画像取得部によって取得された画像を表示する、請求項１に記載の注釈表示支援装置。
前記注釈付加部が、前記表示処理部によって表示される残りの画像のうちで前記第２のグループに属する可能性のある画像を、前記第２のグループに含まれるべきであるとして以前に選択された画像と前記第２のグループに含まれるべきであるとして今回選択された画像とに基づいて、検出する、請求項１に記載の注釈表示支援装置。
前記表示処理部が、クラスタ化処理によって同一の視覚的情報を含む画像として検出された画像をスタック化状態で表示する、請求項１に記載の注釈表示支援装置。
注釈表示支援方法であって、
検索ワードとの関係で第１のグループに含まれる可能性のある画像を表示することと、
前記表示することにおいて表示される画像のうちで前記検索ワードとの関係で第２のグループに含まれるべきである画像の選択を受け付けることと、
前記第２のグループに属する可能性のある画像をその画像に注釈を付加するために検出することであって、前記第２のグループに属する可能性のある画像は、前記第２のグループに含まれるべきであるとして選択された画像以外の、前記表示することによって表示される画像から、前記第２のグループに含まれるべきであるとして選択された画像に基づいて検出される、前記画像に注釈を付加するために検出することと、
前記検出することにおいて前記第２のグループに属する可能性があるとして検出された画像に関連付けられた前記注釈を表示することと、
を有し、前記注釈が、前記画像が前記第２のグループに属する可能性があることを示す、前記注釈表示支援方法。
前記第１のグループ及び前記第２のグループが、それぞれ、前記検索ワードに対してポジティブである画像のグループ、及び、前記検索ワードに対してネガティブである画像のグループであるか、あるいは、前記第１のグループ及び前記第２のグループが、それぞれ、前記検索ワードに対してネガティブである画像のグループ、及び、前記検索ワードに対してポジティブである画像のグループである、請求項６に記載の注釈表示支援方法。