JP7085600B2

JP7085600B2 - 画像間の類似度を利用した類似領域強調方法およびシステム

Info

Publication number: JP7085600B2
Application number: JP2020147716A
Authority: JP
Inventors: 仁植金; 希宰全; 秉秀高; 永俊金; 鍾澤金
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-09-03
Filing date: 2020-09-02
Publication date: 2022-06-16
Anticipated expiration: 2040-09-02
Also published as: JP2021039758A; KR20210027910A; KR102305575B1

Description

以下の説明は、埋め込みベクトル（ｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）を利用して類似の画像を検索する技術に関する。

畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の画像ディスクリプタは、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）、物体検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）、セマンティックセグメンテーション（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）を含んだコンピュータビジョン技術において一般的なディスクリプタとして利用されている。この他にも、画像キャプション（ｉｍａｇｅｃａｐｔｉｏｎｉｎｇ）や画像質問応答（ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）のように、極めて意味のある研究にも利用されている。

ＣＮＮ基盤の画像ディスクリプタを活用する最近の研究では、ローカルディスクリプタマッチング（ｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｍａｔｃｈｉｎｇ）に依存する従来の方法を適用しており、空間検証（ｓｐａｔｉａｌｖｅｒｉｆｉｃａｔｉｏｎ）によって再び順位をつける即刻的なレベル画像検索のために適用されている。

画像検索（ｉｍａｇｅｒｅｔｒｉｅｖａｌ）分野において、ＣＮＮのあとにプーリング（ａｖｅｒａｇｅｐｏｏｌｉｎｇ、ｍａｘｐｏｏｌｉｎｇ、ｇｅｎｅｒａｌｉｚｅｄｍｅａｎｐｏｏｌｉｎｇなど）結果として出た特徴をグローバルディスクリプタ（ｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒ）として使用することができる。また、畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒｓ）のあとに全結合層（ＦＣ層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ））を追加し、ＦＣ層から出た特徴をグローバルディスクリプタとして使用することもできる。ここで、ＦＣ層は、次元の数（ｄｉｍｅｎｓｉｏｎａｌｉｔｙ）を減少させるために使用されるものであり、次元の数を減少する必要がない場合にはＦＣ層は省略することができる。

一例として、特許文献１（登録日２０１８年１１月５日）には、畳み込みニューラルネットワークを利用した映像検索技術が開示されている。

画像検索分野において、深層畳み込みニューラルネットワークを利用して多次元ベクトルである画像埋め込みを生成する。与えられたクエリ画像に対して埋め込まれたクエリ画像と関連して埋め込まれたインデックス画像の類似性に基づいてインデックス画像の順位が決定されるが、このとき、類似性の一般的な選択は、単位長さからなる２つの画像の類似性である。

このような画像埋め込みにより、鳥の種（ＣＵＢ２００データセット）や自動車のモデル（ＣＡＲＳ１９６データセット）を識別することができる。数千個の類似画像のうちから最も類似する画像として同じ種やモデルを探索することを、細部（ｆｉｎｅ－ｇｒａｉｎｅｄ）画像検索作業と呼ぶ。

近年では、ＣＮＮバックボーン（ｂａｃｋｂｏｎｅ）で画像埋め込みを生成する方法や、ネットワークを最適化するための損失関数を利用する方法などを適用している。

類似性学習分野において、グローバルプーリング方法（ｇｌｏｂａｌｐｏｏｌｉｎｇｍｅｔｈｏｄ）によって生成された代表的なグローバルディスクリプタには、畳み込みのサムプーリング（ＳＰｏＣ：ｓｕｍｐｏｏｌｉｎｇｏｆｃｏｎｖｏｌｕｔｉｏｎ）、畳み込みの最大活性化（ＭＡＣ：ｍａｘｉｍｕｍａｃｔｉｖａｔｉｏｎｏｆｃｏｎｖｏｌｕｔｉｏｎ）、一般化平均プーリング（ＧｅＭ：ｇｅｎｅｒａｌｉｚｅｄ－ｍｅａｎｐｏｏｌｉｎｇ）が含まれる。各グローバルディスクリプタはそれぞれ属性が異なるため、その性能はデータセットによって変わる。例えば、画像表現において、ＳＰｏＣはより大きな領域を活性化させる反面、ＭＡＣはより多くの集中領域を活性化させる。能力を高めるために、加重和プーリング（ｗｅｉｇｈｔｅｄｓｕｍｐｏｏｌｉｎｇ）、加重値ＧｅＭ、領域（ｒｅｇｉｏｎａｌ）ＭＡＣ（Ｒ－ＭＡＣ）などのような代表的なグローバルディスクリプタの変形が存在する。

韓国登録特許第１０－１９１７３６９号公報

グローバルプーリング方法によって生成されたグローバルディスクリプタに対して空間的に分布された類似指数を視覚化する方法を提供する。

画像間の類似度を計算するＣＮＮモデルでベクトルを用いて空間情報を復元する類似度マップ（ｓｉｍｉｌａｒｉｔｙｍａｐ）を構成する方法を提供する。

ＣＮＮ特徴またはその組み合わせによって得られた画像間の類似度を利用して類似領域を強調する方法を提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、画像間の類似度を計算する畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルで空間情報を復元する空間類似度マップ（ｓｓｍ：ｓｐａｔｉａｌｓｉｍｉｌａｒｉｔｙｍａｐ）を構成するための空間類似度マップモジュールを含み、前記空間類似度マップモジュールは、前記ＣＮＮモデルで特徴マップをプーリング（ｐｏｏｌｉｎｇ）した状態のベクトルを利用して前記空間類似度マップを構成するものであり、多重プーリング分岐における複数のグローバルディスクリプタ（ｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒ）を連結して（ｃｏｎｃａｔｅｎａｔｅ）学習するモデルを含むことを特徴とする、コンピュータシステムを提供する。

一側面によると、前記空間類似度マップモジュールは、各プーリング分岐に全結合（ＦＣ：ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄ）層を有するネットワークモデルを含んでよい。

他の側面によると、前記空間類似度マップモジュールは、前記ＦＣ層の埋め込みのあとにプーリング結合（ａｇｇｒｅｇａｔｉｏｎ）が含まれる類似度マップを生成した後、各プーリング分岐の類似度マップを平均して前記空間類似度マップを生成してよい。

また他の側面によると、前記空間類似度マップモジュールは、各プーリング分岐の埋め込みの次元が異なる場合、埋め込みそれぞれに加重値を付与してよい。

また他の側面によると、前記少なくとも１つのプロセッサは、前記複数のグローバルディスクリプタに対して空間的に分布された類似指数を視覚化してよい。

また他の側面によると、前記少なくとも１つのプロセッサは、前記空間類似度マップに基づいてクエリ画像を他の画像の埋め込みと比較し、類似指数に寄与した領域（ｓａｌｉｅｎｔｃｕｅ）である核心領域を視覚化する核心領域視覚化モジュールをさらに含んでよい。

さらに他の側面によると、前記少なくとも１つのプロセッサは、前記空間類似度マップモジュールを実現するためのグラフィクス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、および前記核心領域視覚化モジュールを実現するための中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を含んでよい。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、ＣＮＮモデルで取得した特徴マップに基づいてクエリ画像を他の画像と比較し、前記クエリ画像で前記他の画像との類似指数に寄与した領域である核心領域を視覚化する核心領域視覚化モジュールを含む、コンピュータシステムを提供する。

一側面によると、前記核心領域視覚化モジュールは、前記クエリ画像と前記他の画像の間の空間類似度マップで閾値以上の類似度を有する領域を、前記核心領域として抽出してよい。

他の側面によると、前記核心領域視覚化モジュールは、前記クエリ画像に対する検索結果として前記他の画像を提供する場合、前記核心領域を他の領域と区分して前記クエリ画像上に表示してよい。

また他の側面によると、前記核心領域視覚化モジュールは、前記クエリ画像から、物体（ｏｂｊｅｃｔ）が含まれる少なくとも１つの物体領域を分離し、前記物体領域それぞれに対して類似画像を検索して前記類似画像との類似指数に寄与した核心領域を抽出し、前記物体領域別の核心領域を前記クエリ画像上に配置して視覚化してよい。

コンピュータシステムが実行する類似領域強調方法であって、前記コンピュータシステムは、少なくとも１つのプロセッサを含み、当該類似領域強調方法は、前記少なくとも１つのプロセッサが、ＣＮＮモデルによって特徴マップをプーリングした状態のベクトルを利用して空間情報を復元する空間類似度マップを構成する段階、および前記少なくとも１つのプロセッサが、前記空間類似度マップに基づいてクエリ画像を他の画像と比較し、類似指数に寄与した領域である核心領域を視覚化する段階を含む、類似領域強調方法を提供する。

前記類似領域強調方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記類似領域強調方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体を提供する。

本発明の実施形態によると、グローバルプーリング方法によって生成されたグローバルディスクリプタに対して空間的に分布された類似指数を視覚化することができ、ディスクリプタを柔軟な次元のサイズで組み合わせて拡張することができる。

本発明の実施形態によると、画像検索で検索領域を強調するために類似指数を活用することができ、クエリ画像を他の画像の埋め込みと比較し、類似指数に寄与した領域を視覚化することができる。

本発明の実施形態によると、ＣＮＮ特徴またはその組み合わせによって得られた画像間の類似度を利用した類似領域強調アルゴリズムにより、特徴結合（ｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎ）方法であるＳＰｏＣ、ＭＡＣ、ＧｅＭプーリングによって得られた埋め込みすべてに適用可能であり、多様なサイズの埋め込みが組み合わされた場合にも適用可能である。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、画像検索のためのＣＧＤ（ｃｏｍｂｉｎａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒｓ）フレームワークを示した図である。本発明の一実施形態における、画像間の類似度を利用した類似領域強調システムを示したブロック図である。本発明の一実施形態における、空間類似度マップを構成するためのネットワーク構造の例を示した図である。本発明の一実施形態における、空間類似度マップを求めるアルゴリズムを適用することができるＣＮＮ構造の一例を示した図である。本発明の一実施形態における、空間類似度マップを生成するためのアルゴリズムの例を示した図である。本発明の一実施形態における、検索結果が存在する核心領域を抽出して視覚化する過程の一例を説明するための図である。本発明の一実施形態における、類似領域強調システムの性能改善のためのシステム構造の例を示した図である。本発明の一実施形態における、類似領域強調システムの性能改善のためのシステム構造の例を示した図である。本発明の一実施形態における、クエリ画像に含まれる物体別に検索結果が存在する核心領域を抽出して視覚化する過程の例を説明するための図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

本発明の実施形態は、埋め込みベクトルを利用して類似の画像を検索する技術に関し、特に、ＣＮＮ特徴またはその組み合わせによって得られた２つの画像間の類似度を利用し、検索結果が存在する類似領域を強調して視覚化する技術に関する。

図１は、本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。例えば、本発明の実施形態に係る類似領域強調システムが図１のコンピュータシステム１００によって実現されてよい。図１に示すように、コンピュータシステム１００は、類似領域強調方法を実行するための構成要素として、プロセッサ１１０、メモリ１２０、永続的記録装置１３０、バス１４０、入力／出力インタフェース１５０、およびネットワークインタフェース１６０を含んでよい。

プロセッサ１１０は、類似領域強調のための構成要素として、命令語のシーケンスを処理することのできる任意の装置を含んでもよいし、その一部であってもよい。プロセッサ１１０は、例えば、コンピュータプロセッサ、移動装置または他の電子装置内のプロセッサおよび／またはデジタルプロセッサを含んでよい。プロセッサ１１０は、例えば、サーバコンピューティングデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ１１０は、バス１４０を介してメモリ１２０と連結してよい。

メモリ１２０は、コンピュータシステム１００によって使用されるか、これから出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ１２０は、例えば、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）および／またはＤＲＡＭ（ｄｙｎａｍｉｃＲＡＭ）を含んでよい。メモリ１２０は、コンピュータシステム１００の状態情報のような任意の情報を記録することに使用されてよい。メモリ１２０は、例えば、類似領域強調のための命令語を含むコンピュータシステム１００の命令語を記録することに使用されてよい。コンピュータシステム１００は、必要な場合あるいは適切な場合に、１つ以上のプロセッサ１１０を含んでよい。

バス１４０は、コンピュータシステム１００の多様なコンポーネント間の相互作用を可能にする通信基盤の構造を含んでよい。バス１４０は、例えば、コンピュータシステム１００のコンポーネントとの間、例えば、プロセッサ１１０とメモリ１２０との間にデータを運搬してよい。バス１４０は、コンピュータシステム１００のコンポーネント間の無線および／または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでよい。

永続的記録装置１３０は、（例えば、メモリ１２０に比べて）所定の延長された期間にわたってデータを記録するためにコンピュータシステム１００によって使用されるようなメモリ、または他の永続的記録装置のようなコンポーネントを含んでよい。永続的記録装置１３０は、コンピュータシステム１００内のプロセッサ１１０によって使用されるような不揮発性メインメモリを含んでよい。永続的記録装置１３０は、例えば、フラッシュメモリ、ハードディスク、光ディスク、または他のコンピュータ読み取り可能媒体を含んでよい。

入力／出力インタフェース１５０は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力または出力装置に対するインタフェースを含んでよい。構成命令および／または類似領域強調のための入力は、入力／出力インタフェース１５０に受信されてよい。

ネットワークインタフェース１６０は、近距離ネットワーク、またはインターネットのようなネットワークに対する１つ以上のインタフェースを含んでよい。ネットワークインタフェース１６０は、有線または無線接続に対するインタフェースを含んでよい。構成命令および／または類似領域強調のための入力は、ネットワークインタフェース１６０に受信されてよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力インタフェース１５０と連結する入力／出力装置のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ（ｔｒａｎｓｃｅｉｖｅｒ）、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

本発明の実施形態は、ＣＮＮ特徴またはその組み合わせによって得られた２つの画像間の類似度を利用し、検索結果が存在する類似領域を強調して視覚化する技術に関する。

先ず、互いに異なるグローバルディスクリプタを単一モデルによって一度に学習して使用することのできる深層学習モデルフレームワークについて、次のように説明する。

I．画像検索のためのＣＧＤ（ｃｏｍｂｉｎａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒｓ）フレームワーク
エンドツーエンド方式によって訓練することができる間、複数のグローバルディスクリプタを活用してアンサンブル学習のような効果を得る、新たなフレームワークを提案する。本発明に係るフレームワークは、グローバルディスクリプタ、ＣＮＮバックボーン、損失およびデータセットにより、柔軟かつ拡張可能である。さらに、本発明に係るフレームワークは、訓練のためのいくつかの追加の媒介変数を必要とするだけで、追加の戦略や注意機構は必要としない。

アンサンブル学習とは、複数名の学習者を訓練させて成果を引き上げ、訓練された学習者によって組み合わされた結果を得ることで有名な技法であって、過去数十年間にわたり画像検索に広く利用されている。しかし、従来のアンサンブル技法は、モデルの複雑性の増加が演算費用の増加に繋がり、学習者間のダイバーシティを算出するために追加の制御が必要になるという短所を抱えていた。

本発明に係るフレームワークは、ダイバーシティの統制なく、エンドツーエンド方式によって訓練されることができるときにアンサンブル技法のアイディアを活用することができる。

図２は、本発明の一実施形態における、画像検索のためのＣＧＤ（ｃｏｍｂｉｎａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｇｌｏｂａｌｄｅｓｃｒｉｐｔｏｒｓ）フレームワークを示した図である。

本発明に係るＣＧＤフレームワーク２００は、上述したコンピュータシステム１００によって実現されてよく、ディスクリプタ学習のための構成要素としてプロセッサ１１０に含まれてよい。

図２を参照すると、ＣＧＤフレームワーク２００は、ＣＮＮバックボーンネットワーク２０１と、２つのモジュールであるメインモジュール２１０および補助モジュール２２０で構成されてよい。

ここで、メインモジュール２１０は、画像表現（ｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を学習する役割を担うものであって、順位損失（ｒａｎｋｉｎｇｌｏｓｓ）のための複数のグローバルディスクリプタの組み合わせで構成される。また、補助モジュール２２０は、分類損失（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）でＣＮＮを微調整するための役割を担う。

ＣＧＤフレームワーク２００は、エンドツーエンド方式により、メインモジュール２１０からの順位損失と補助モジュール２２０からの分類損失の合計である最終損失として訓練されてよい。

１．ＣＮＮバックボーンネットワーク２０１
ＣＮＮバックボーンネットワーク２０１としては、すべてのＣＮＮモデルが使用可能である。ＣＧＤフレームワーク２００は、ＢＮ－Ｉｎｃｅｐｔｉｏｎ、ＳｈｕｆｆｌｅＮｅｔ－ｖ２、ＲｅｓＮｅｔ、またはこの他の変形モデルなどのようなＣＮＮバックボーンが使用されてよく、例えば、図２に示すように、ＲｅｓＮｅｔ－５０をＣＮＮバックボーンネットワーク２０１として使用してよい。

一例として、ＣＮＮバックボーンネットワーク２０１は、４段階のネットワークを利用してよいが、このとき、最後の特徴マップ（ｆｅａｔｕｒｅｍａｐ）でより多くの情報を保存するために、３段階（ｓｔａｇｅ３）と４段階（ｓｔａｇｅ４）の間のダウンサンプリング動作を放棄することで該当のネットワークを修正してよい。これにより、２２４×２２４の入力サイズに対する１４×１４サイズの特徴マップが提供されるため、グローバルディスクリプタの個別性能が向上するようになる。言い換えれば、グローバルディスクリプタの性能向上のために、ＲｅｓＮｅｔ－５０の３段階（ｓｔａｇｅ３）後から最後の段階（ｓｔａｇｅ４）前までにダウンサンプリングをしないことで、より多くの情報が含まれるようにする。

２．メインモジュール２１０：複数のグローバルディスクリプタ
メインモジュール２１０は、ＣＮＮバックボーンネットワーク２０１の最後の特徴マップから多様な特徴結合（ｆｅａｔｕｒｅａｇｇｒｅｇａｔｉｏｎ）方法によってグローバルディスクリプタを抽出し、ＦＣ層との正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）を経る。

メインモジュール２１０で抽出されたグローバルディスクリプタは、連結され（ｃｏｎｃａｔｅｎａｔｅ）、正規化を経た後、１つの最終グローバルディスクリプタを形成するようになる。このとき、最終グローバルディスクリプタは、順位損失によってインスタンスレベル（ｉｎｓｔａｎｃｅｌｅｖｅｌ）で学習される。ここで、順位損失は、距離学習（ｍｅｔｒｉｃｌｅａｒｎｉｎｇ）のための損失と代替可能であり、代表的にｔｒｉｐｌｅｔ損失が使用されてよい。

より詳しく説明すると、メインモジュール２１０には、最後の畳み込み層で互いに異なるグローバルディスクリプタを用いて各画像表現を出力する複数の分岐（ｂｒａｎｃｈ）が含まれる。一例として、メインモジュール２１０は、ＳＰｏＣ（ｓｕｍｐｏｏｌｉｎｇｏｆｃｏｎｖｏｌｕｔｉｏｎ）、ＭＡＣ（ｍａｘｉｍｕｍａｃｔｉｖａｔｉｏｎｏｆｃｏｎｖｏｌｕｔｉｏｎ）、ＧｅＭ（ｇｅｎｅｒａｌｉｚｅｄ－ｍｅａｎｐｏｏｌｉｎｇ）を含み、各分岐で最も代表的なグローバルディスクリプタの３つの類型を使用する。

メインモジュール２１０に含まれる分岐の個数は増やしたり減らしたりが可能であり、ユーザのニーズに合うように、使用するグローバルディスクリプタを変形および組み合わせもよい。

画像Ｉが与えられたとき、最後の畳み込み層の出力はＣ×Ｈ×Ｗ次元の３Ｄテンソル（ｔｅｎｓｏｒ）ｘとなるが、ここで、Ｃは特徴マップの数である。ｘ_ｃを特徴マップｃ∈｛１．．．Ｃ｝のＨ×Ｗ活性化セットであると仮定する。ネットワーク出力は２Ｄ特徴マップのＣチャネルで構成される。グローバルディスクリプタは、ｘを入力として使用し、プーリングプロセスによる出力としてベクトルｆを生成する。このようなプーリング方法は、数式（１）のように一般化してよい。

ｐ_ｃ＝１のときはＳＰｏＣをｆ^（ｓ）と、ｐ_ｃ→∞のときはＳＰｏＣをｆ^（ｍ）と定義し、残り場合に対してはＧｅＭをｆ^（ｇ）と定義する。ＧｅＭは、実験によって固定されたｐ_ｃパラメータ３を使用してよく、実施形態によっては、パラメータｐ_ｃをユーザが手動で設定してもよいし、あるいはパラメータｐ_ｃ自体を学習することも可能である。

ｉ番目の分岐の出力特徴ベクトル

は、ＦＣ層による次元の減少、およびｌ_２－正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）層による正規化によって生成される。

ｉ∈｛１．．．ｎ｝とするとき、ｎは分岐の数であり、Ｗ^ｉはＦＣ層の加重値であって、グローバルディスクリプタ

は、ａ_ｉ＝ｓのときはＳＰｏＣ、ａ_ｉ＝ｍのときはＭＡＣ、ａ_ｉ＝ｇのときはＧｅＭであってよい。

本発明に係るＣＧＤフレームワーク２００の組み合わせディスクリプタψＣＧＤである最終特徴ベクトルは、多様な分岐の出力特徴ベクトルを連結し、ｌ_２－正規化を順に実行する。

ａ_ｉ∈｛ｓ，ｍ，ｇ｝とするとき、

は連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）である。

このような組み合わせディスクリプタは、すべての類型の順位損失で訓練可能であるが、一例として、ｂａｔｃｈ－ｈａｒｄｔｒｉｐｌｅｔｌｏｓｓを代表的に使用する。

ＣＧＤフレームワーク２００では、多数のグローバルディスクリプタを組み合わせることで２つの長所が得られる。１つ目に、いくつかの追加の媒介変数だけでアンサンブル学習のような効果を発揮する。上述した研究と同じようなアンサンブル学習の効果が得られるようになるが、これをエンドツーエンド方式で訓練させるようにするために、ＣＧＤフレームワーク２００は、単一ＣＮＮバックボーンネットワーク２０１から複数のグローバルディスクリプタを抽出している。２つ目に、ダイバーシティの統制なく、各分岐の出力に対して他の属性を自動で提供する。近年の研究では、学習者間のダイバーシティを奨励するために特別にデザインされた損失を提案しているが、ＣＧＤフレームワーク２００は分岐間のダイバーシティを統制するために特別にデザインされた損失は必要としない。

グローバルディスクリプタに対する多様な組み合わせの性能を実験によって比較して、ディスクリプタの組み合わせを探索してよい。ただし、各データの出力特徴の次元により、性能の差が大きくない場合ある。例えば、ＳＰｏＣ１５３６次元と７６８次元の性能が大きくなければ、ＳＰｏＣ１５３６次元（単一グローバルディスクリプタ）よりもＳＰｏＣ７６８次元＋ＧｅＭ７６８次元（多重グローバルディスクリプタ）の組み合わせを使用する方が、より優れた性能を得ることができる。

３．補助モジュール２２０：分類損失
補助モジュール２２０は、埋め込みのカテゴリカル水準（ｃａｔｅｇｏｒｉｃａｌｌｅｖｅｌ）で学習するために、メインモジュール２１０の１番目のグローバルディスクリプタから出力される画像表現を分類損失に基づいて学習してよい。分類損失による学習時には、性能向上のためにラベル平滑化（ｌａｂｅｌｓｍｏｏｔｈｉｎｇ）と温度スケーリング（ｔｅｍｐｅｒａｔｕｒｅｓｃａｌｉｎｇ）技術を適用してよい。

言い換えれば、補助モジュール２２０は、補助分類損失を利用して、メインモジュール２１０の１番目のグローバルディスクリプタに基づいてＣＮＮバックボーンを微調整する。補助モジュール２２０は、メインモジュール２１０に含まれるグローバルディスクリプタのうちの１番目のグローバルディスクリプタから出る画像表現を分類損失によって学習してよい。これは２段階で構成された接近法に基づき、これはＣＮＮバックボーンを分類損失とともに微調整して畳み込みフィルタを改善した後、ネットワークを微調整してグローバルディスクリプタの性能を改善する。

ＣＧＤフレームワーク２００では、このような処理方式を修正することで、エンドツーエンド訓練のために一度だけの段階を経るようにする。補助分類損失がある訓練は、等級間分離属性のある画像表現を可能にし、順位損失だけに対して使用するよりも、ネットワークが迅速かつ安定するように訓練するようにサポートする。

ソフトマックス交差エントロピー損失（ｓｏｆｔｍａｘｌｏｓｓ）における温度スケーリングとラベル平滑化は、分類損失の訓練に役立つものであり、ソフトマックス損失は数式（４）のように定義される。

ここで、Ｎ、Ｍ、ｙ_ｉはそれぞれ、配置のサイズ、クラスの個数、およびｉ番目の入力のＩＤラベルを意味する。Ｗとｂはそれぞれ、訓練可能な加重値とバイアス（ｂｉａｓ）である。また、ｆは、１番目の分岐のグローバルディスクリプタであるが、ここで、Ｔは基本値（ｄｅｆａｕｌｔｖａｌｕｅ）１の温度パラメータである。

数式（４）で、低温パラメータＴを使用した温度スケーリングは、より困難な例に対してより大きな勾配（ｇｒａｄｉｅｎｔ）を割り当て、クラス内のコンパクトおよびクラス間のスプレッド－アウトの埋め込みに有効に活用される。ラベル平滑化は、モデルを強化し、訓練中のラベルドロップアウトの限界効果を推定し、一般化を改善する。したがって、オーバーフィッティングを防ぎ、より優れた埋め込み方法を学習するために補助分類損失にラベル平滑化と温度スケーリングを追加する。

分類損失の計算のための１番目のグローバルディスクリプタは、各グローバルディスクリプタの性能を考慮した上で決定してよい。一例として、組み合わせに使用しようとするグローバルディスクリプタを単一分岐に使用して学習を進めた後、その中でも優れた性能のグローバルディスクリプタを分類損失計算のための１番目のグローバルディスクリプタとして使用してよい。例えば、ＳＰｏＣ、ＭＡＣ、ＧｅＭそれぞれを学習した結果性能がＧｅＭ＞ＳＰｏＣ＞ＭＡＣであれば、ＧｅＭ＋ＭＡＣの組み合わせがＭＡＣ＋ＧｅＭの組み合わせよりも優れた性能を出す傾向にあるため、これを考慮した上で、分類損失の計算のためのグローバルディスクリプタとしてＧｅＭを使用してよい。

４．フレームワークの構成
ＣＧＤフレームワーク２００は、グローバルディスクリプタ分岐の個数によって拡張されてよく、グローバルディスクリプタの構成によって他の類型のネットワークを許容する。例えば、３つのグローバルディスクリプタ（ＳＰｏＣ、ＭＡＣ、ＧｅＭ）を使用し、補助分類損失に対して単独で最初のグローバルディスクリプタを使用するため、１２個の可能な構成が生成されてよい。

説明の便宜のために、ＳＰｏＣはＳ、ＭＡＣはＭ、ＧｅＭはＧと略称し、表記のうちの最初の文字は補助分類損失に使用される１番目のグローバルディスクリプタを示すことにする。ＣＧＤフレームワーク２００は、１つのＣＮＮバックボーンネットワーク２０１から３つのグローバルディスクリプタＳ、Ｍ、Ｇを抽出してよく、このとき、グローバルディスクリプタＳ、Ｍ、Ｇを基準に１２個の構成（Ｓ、Ｍ、Ｇ、ＳＭ、ＭＳ、ＳＧ、ＧＳ、ＭＧ、ＧＭ、ＳＭＧ、ＭＳＧ、ＧＳＭ）が可能となる。すべてのグローバルディスクリプタが組み合わされて順位損失で学習され、１番目のグローバルディスクリプタだけが分類損失で付加的に学習されてよい。例えば、ＳＭＧの場合、グローバルディスクリプタＳだけが分類損失で付加的に学習され、すべてのＳ、Ｍ、およびＧは組み合わされて（ＳＭ、ＭＳ、ＳＧ、ＧＳ、ＭＧ、ＧＭ、ＳＭＧ、ＭＳＧ、ＧＳＭ）順位損失で学習される。

したがって、複数のグローバルディスクリプタを、アンサンブル学習のために多様なモデルを個別に学習する従来の方法とは異なり、本発明は、１つのモデルをエンドツーエンドによって学習するだけで、アンサンブル学習のような効果を得ることができる。従来の方法は、アンサンブル学習のために個別に製作された損失によってダイバーシティを統制する反面、本方法では、ダイバーシティを統制しなくてもアンサンブル学習のような効果を得ることができる。本発明によると、最終グローバルディスクリプタを画像検索に使用してよく、必要によっては、より小さな次元を使用するために、連結する（ｃｏｎｃａｔｅｎａｔｅ）直前の画像表現を使用してよい。ユーザのニーズによって多様なグローバルディスクリプタの使用が可能であり、グローバルディスクリプタの個数を調節してモデルの拡張および縮小が可能である。

次に、ＣＮＮ特徴またはその組み合わせによって得られた２つの画像間の類似度を利用して検索結果が存在する類似領域を強調する方法およびシステムの具体的な実施形態について説明する。

図３を参照すると、プロセッサ１１０は、類似領域強調方法を実行するための構成要素として、画像間の類似度を計算するＣＮＮモデルでベクトルを利用して空間情報を復元する空間類似度マップ（ｓｓｍ：ｓｐａｔｉａｌｓｉｍｉｌａｒｉｔｙｍａｐ）を構成するための空間類似度マップモジュール（ｓｐａｔｉａｌｓｉｍｉｌａｒｉｔｙｍａｐｍｏｄｕｌｅ）３１０、および空間類似度マップに基づいてクエリ画像３０１を他の画像の埋め込み３０２と比較して、検索結果が存在する画像領域を視覚化する核心領域視覚化モジュール（ｓａｌｉｅｎｔｃｕｅｖｉｓｕａｌｉｚａｔｉｏｎｍｏｄｕｌｅ）３２０を含んでよい。

ＩＩ．空間類似度マップモジュール３１０
一部の研究では、類似性学習のための視覚化方法を提案している。ＲｅｓＮｅｔ５０バックボーンと平均プーリング、およびマックスプーリングにより、次元を追加で減少せずに画像埋め込みを実行することができる。しかし、大きな次元（１０２４または２０４８）が適用されたモデルには容量の効率性の問題によって使用されておらず、視覚化方法は大きな次元のモデルだけに対して言及しているものであるため、実際には、使用されるモデルに視覚化方法を直接適用するのは不適である。

本実施形態では、出力埋め込みが柔軟な次元のサイズの複数プーリング分岐、およびＦＣ層から出るより一般的な画像埋め込みネットワークを提案する。

１．ＳＰｏｃ、Ｍａｘプーリングの視覚化
画像埋め込みは、入力によって画像が与えられるときに画像を表現することのできる多次元のベクトルを返還するものであるが、ここで、多次元のベクトルは、以後の画像検索に使用されてよい。

図４を参照すると、プロセッサ１１０の空間類似度マップモジュール３１０は、ＣＮＮモデルで特徴マップ４０１をプーリングした状態のベクトル４０２を利用して空間類似度マップ４０３を構成してよい。

特に、本発明の実施形態に係る空間類似度マップモジュール３１０は、図２を参照しながら説明したＣＧＤフレームワーク２００を利用して改善されたネットワークモデルを含んでよい。一例として、図５に示すように、特徴マップ４０１をプーリングした状態のベクトル４０２に、図２を参照しながら説明したメインモジュール２１０のＦＣ層以下の構成を追加してよく、より効率的なベクトルを構成する方法によって埋め込みサイズを変更するためのＦＣ層を取り入れた場合にも、画像検索のための類似度マップを構成してよい。言い換えれば、多重プーリング分岐で埋め込みを行い、ＦＣ層のあるネットワークでも類似度マップを得ることができる。

空間類似度マップモジュール３１０に適用可能なＣＧＤフレームワーク２００は一例に過ぎず、これに限定されてはならず、３つのグローバルディスクリプタ（ＳＰｏＣ、ＭＡＣ、ＧｅＭ）、および以後に適用されたＦＣ層、あるいはこれらの組み合わせに対してすべて適用可能である。

空間類似度マップを求めるアルゴリズムを適用することができるＣＮＮ構造の例は、以下の表１のとおりである。

ＳＰｏＣとＭａｘプーリング埋め込みが空間類似度マップを生産する方式を示すために、以下の数式（５）を使用する。比較を容易にするために、作業で類似の表記法を採択する。２つの画像の類似性を測定するための最も一般的な選択は、ｌ２標準化の埋め込みにおけるコサイン類似性である。

ここで、βは、特徴マップで一部プーリング方法によって集計された特徴を意味し、次元のサイズは、特徴マップのチャネル数と等しい。

ＳｐｏＣの場合、埋め込みは、特徴マップに空間的に分布された特徴の平均であり、次元の埋め込みサイズを有する１次元ベクトルとなるであろう。

追加演算の単純な分配法則（ｄｉｓｔｒｉｂｕｔｉｖｅｌａｗ）（数式（６））は、各空間的位置から類似指数の寄与を分解するのに十分である。

ここで、Ｚは、Ｋ^２||β^（ｉ）||||β^（ｊ）||の正規化因子（ｎｏｒｍａｌｉｚｉｎｇｆａｃｔｏｒ）である。同じように、Ｍａｘプーリング集計は、数式（８）のように表現されてよい。

結合方法によって定義した類似指数の寄与度に基づき、互いに異なる位置に対して加重値を有するサロゲートテンソル（ｓｕｒｒｏｇａｔｅｔｅｎｓｏｒ）

について説明する。

は、数式（９）のように表現されてよい。

２．ＦＣ層のあとの埋め込み
図２を参照しながら説明したように、次元を減らすためにＦＣ層を使用する。ＦＣ層のあとの最終埋め込みはγ＝Ｗβ＋ｂとしてよく、Ｗは加重値を、ｂはバイアスを意味する。

例えば、ＳＰｏＣ集計を含んだ空間類似度マップは、数式（１１）のように定義されてよい。

ここで、Ｗは次元（埋め込み次元、特徴マップ次元）のサイズであり、Ｚは正規化因子Ｋ^２||γ^（ｉ）||||γ^（ｊ）||である。Ｍａｘプーリングでソロゲイトを使用するため、ＳＰｏＣもソロゲイトを持つようになる。

ソロゲイトテンソル

を取り入れることにより、より一般化された等式形態を作成することができる。

３．Ｍａｘプーリング
数式（１３）に数式（９）のＭａｘプーリングソロゲイトを適用すれば、ＦＣ層の埋め込みのあとに、Ｍａｘプーリング結合が含まれる類似度マップを得ることができる。

４．ＧｅＭ
ＧｅＭ結合（ａｇｇｒｅｇａｔｉｏｎ）は、数式（１４）のように定義されてよい。

ＧｅＭ結合のソロゲイトテンソルは、数式（１５）のように定義されてよい。

数式（１３）に数式（１５）のＧｅＭソロゲイトを適用すれば、ＦＣ層の埋め込みのあとに、ＧｅＭプーリング結合によって空間類似度マップを得ることができる。

ｐ＝１の場合、ＧｅＭプーリングはＳＰｏＣプーリングと等しい。また、ｐ＝１で、ＧｅＭのソロゲイトテンではＳＰｏＣソロゲイトと等しい。

５．連結するグローバルディスクリプタの視覚化
図６に示したテーブルは、構成例と実行過程を示したアルゴリズムの例示図である。

多数のグローバルディスクリプタの連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）後の最終埋め込みのドット積（ｄｏｔｐｒｏｄｕｃｔ）は、同じ種類のプーリング分岐から埋め込まれた各ドット積の加重合計を意味してよい。各プーリング分岐が同じ次元を採択して連結前にｌ２正規化されたと仮定することで、類似度マップは各プーリング分岐の類似度マップを平均して生成することができる。

各埋め込みの次元が異なる場合、図６のテーブルで３５行目に説明されたように、埋め込みそれぞれに加重値を付与してよい。

したがって、プロセッサ１１０は、入力画像を他の画像の埋め込みと比較するときに、類似指数に寄与した領域を理解するために視覚化を提供することができる。特に、プロセッサ１１０は、３つのグローバルディスクリプタ（ＳＰｏＣ、ＭＡＣ、ＧｅＭ）に対して空間的に分布された類似指数を視覚化することができ、柔軟な次元のサイズで組み合わせて埋め込みを拡張することができる。

上述した類似度マップ生成アルゴリズムは、類似度マップを生成するためのネットワークモデルとして、図２を参照しながら説明したネットワークモデルと図４を参照しながら説明したネットワークモデルとが結合された形態の改善されたモデルはもちろん、ＦＣ層やベクトル連結における逆（ｉｎｖｅｒｓｅ）演算が可能な構造のネットワークモデルであればすべて適用可能である。

ＩＩＩ．核心領域視覚化モジュール３２０
プロセッサ１１０の核心領域視覚化モジュール３２０は、２つの画像間の空間類似度マップに基づいてクエリ画像３０１を他の画像の埋め込み３０２と比較し、検索結果が存在する画像領域を視覚化する役割を担う。

図７を参照すると、核心領域視覚化モジュール３２０は、空間類似度マップモジュール３１０で生成された初期空間類似度マップ７１を受信した後、一定の範囲の定数値に変換することで定数化された空間類似度マップ７２を生成してよい。例えば、初期空間類似度マップ７１が１４×１４の格子形態の構造で構成された場合、負数値を切り捨てて０～２５５範囲の値に変更して定数化された空間類似度マップ７２を生成してよい。

核心領域視覚化モジュール３２０は、定数化された空間類似度マップ７２から閾値（ｔｈｒｅｓｈｏｌｄ）以上の類似度を有する格子を抽出することで、閾値空間類似度マップ７３を生成してよい。例えば、閾値自動選択方式によって定数化された空間類似度マップ７２において、全体類似度の３０％以上の格子を残す方式によって閾値空間類似度マップ７３を生成してよく、この他にも二分探索（ｂｉｎａｒｙｓｅａｒｃｈ）によって閾値空間類似度マップ７３を生成してもよい。

核心領域視覚化モジュール３２０は、閾値空間類似度マップ７３で閾値以上の類似度を有する格子を対象として隣接する格子をグルーピングすることで、クエリ画像３０１でグルーピング領域と対応する核心領域７４を生成してよい。核心領域視覚化モジュール３２０は、閾値以上の類似度をもつ格子を上下左右に隣接する格子と束ねる方式で核心領域７４を生成してよい。例えば、核心領域視覚化モジュール３２０は、コンピュータビジョン基盤の輪郭検出関数（ＯｐｅｎＣＶｆｉｎｄＣｏｎｔｏｕｒｓ）を利用して核心領域７４を検出してよい。

核心領域視覚化モジュール３２０は、クエリ画像３０１に検索結果が存在する画像領域である核心領域７４を表示してよい。このとき、核心領域視覚化モジュール３２０は、各領域の類似度和を基準として核心領域７４を互いに異なるように区分して表示してよいが、例えば、核心領域７４のうちで類似度和が最も大きい領域は赤色で表示し、残りは緑色で表示してよい。

したがって、核心領域視覚化モジュール３２０は、クエリ画像３０１を他の画像の埋め込み３０２と比較し、検索結果として類似指数に寄与した領域（ｓａｌｉｅｎｔｃｕｅ）、すなわち、核心領域７４に対する視覚化を提供することができる。

ＩＶ．システム構造および適用技術
本発明の実施形態は、画像検索と関連する処理速度を向上させるためのシステム構造を含んでよい。

プロセッサ１１０は、コンピュータプロセッサとしてＣＰＵ（中央処理装置）およびＧＰＵ（グラフィック処理装置）を含んでよい。空間類似度マップモジュール３１０と核心領域視覚化モジュール３２０をどのようなプロセッサ（ＣＰＵ、ＧＰＵ）を利用して実現するかにより、性能に差が生じるようになる。

図８を参照すると、クエリ画像３０１を埋め込みする埋め込みモジュールは、ＧＰＵ８１１で実現されてよく、クエリ画像３０１の埋め込み８０１と他の画像の埋め込み３０２に対して空間類似度マップ７１を生成する空間類似度マップモジュール３１０、および空間類似度マップ７１に基づいてクエリ画像３０１で検索結果が存在する核心領域７４を視覚化する核心領域視覚化モジュール３２０は、ＣＰＵ８１２で実現されてよい。

空間類似度マップモジュール３１０と核心領域視覚化モジュール３２０の両方ともＣＰＵ８１２で実現する場合には、ＣＰＵ８１２に瓶首現象が発生して画像の検索速度が低下することがある。

一方、図９を参照すると、クエリ画像３０１を埋め込みする埋め込みモジュールとともに、クエリ画像３０１の埋め込みと他の画像の埋め込み３０２に対して空間類似度マップ７１を生成する空間類似度マップモジュール３１０はＧＰＵ９１１で実現し、空間類似度マップ７１に基づいてクエリ画像３０１で検索結果が存在する核心領域７４を視覚化する核心領域視覚化モジュール３２０はＣＰＵ９１２で実現してよい。

したがって、空間類似度マップモジュール３１０はＧＰＵ９１１を利用して実現し、核心領域視覚化モジュール３２０はＣＰＵ９１２を利用して実現することにより、画像の処理量と処理速度を向上させることができる。

さらに、本発明の実施形態は、クエリ画像に物体が２つ以上ある場合、それぞれの物体ごとに検索結果が存在する核心領域を視覚化してよい。

図１０を参照すると、プロセッサ１１０は、クエリ画像３０１から、物体が含まれる領域（以下、「物体領域」と称する）１００２を分離した後、物体領域１００２それぞれに対して類似画像１００３を検索してよい。このとき、核心領域視覚化モジュール３２０は、物体領域１００２それぞれに対して検索結果が存在する領域、言い換えれば、類似画像１００３との類似指数に寄与した核心領域１００４を抽出した後、物体領域１００２ごとに核心領域１００４をクエリ画像３０１上に配置させて（ｃｏｍｐｏｓｉｔｉｏｎ）最終視覚化を提供してよい。

したがって、本発明の実施形態は、画像をクエリとして画像を検索する場合、検索結果として他の画像を提供するにおいて、クエリ画像のどの領域のために検索結果画像が選定されたか、該当の領域を強調することができる。言い換えれば、クエリ画像のどの部分が検索結果画像と関連するかを判断することにより、ユーザがより直観的に認知可能な視覚化を提供することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３０１：クエリ画像
３０２：画像の埋め込み
３１０：空間類似度マップモジュール
３２０：核心領域視覚化モジュール

Claims

コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
画像間の類似度を計算する畳み込みニューラルネットワーク（ＣＮＮ）モデルで空間情報を復元する空間類似度マップ（ｓｓｍ）を構成するための空間類似度マップモジュール
を含み、
前記空間類似度マップモジュールは、前記ＣＮＮモデルの出力に接続される複数のプーリング分岐を含み、
前記各プーリング分岐は、前記ＣＮＮモデルが出力する特徴マップをプーリングして互いに異なるグローバルディスクリプタを生成するものであり、
前記空間類似度マップモジュールは、
前記各プーリング分岐が出力するグローバルディスクリプタに基づくベクトルを利用して前記空間類似度マップを構成するものであり、前記各プーリング分岐が出力する複数のグローバルディスクリプタを連結した組み合わせディスクリプタに基づき学習するモデルを含み、
各プーリング分岐の埋め込みの次元が異なる場合、埋め込みそれぞれに加重値を付与すること、
を特徴とする、コンピュータシステム。
前記空間類似度マップモジュールは、
各プーリング分岐に全結合（ＦＣ）層を有するネットワークモデルを含むこと、
を特徴とする、請求項１に記載のコンピュータシステム。
前記空間類似度マップモジュールは、
前記ＦＣ層の埋め込みのあとにプーリング結合を行って得られる類似度マップを生成した後、各プーリング分岐の類似度マップを平均して前記空間類似度マップを生成すること、
を特徴とする、請求項２に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記複数のグローバルディスクリプタに対して空間的に分布された類似指数を視覚化すること、
を特徴とする、請求項１に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記空間類似度マップに基づいてクエリ画像を他の画像の埋め込みと比較し、類似指数に寄与した領域である核心領域を視覚化する核心領域視覚化モジュール、
をさらに含む、請求項１に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、前記空間類似度マップモジュールを実現するためのグラフィカル処理ユニット（ＧＰＵ）、および
前記核心領域視覚化モジュールを実現するための中央処理ユニット（ＣＰＵ）を含む、
請求項５に記載のコンピュータシステム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
ＣＮＮモデルで取得した特徴マップに基づいてクエリ画像を他の画像と比較し、前記クエリ画像で前記他の画像との類似指数に寄与した領域である核心領域を視覚化する核心領域視覚化モジュール
を含み、
前記核心領域視覚化モジュールは、
前記クエリ画像から、物体が含まれる少なくとも１つの物体領域を分離し、
前記物体領域それぞれに対して類似画像を検索して前記類似画像との類似指数に寄与した核心領域を抽出し、
前記物体領域別に、核心領域を前記クエリ画像上に配置して視覚化する、
コンピュータシステム。
前記核心領域視覚化モジュールは、
前記クエリ画像と前記他の画像の間の空間類似度マップで閾値以上の類似度を有する領域を、前記核心領域として抽出すること、
を特徴とする、請求項７に記載のコンピュータシステム。
前記核心領域視覚化モジュールは、
前記クエリ画像に対する検索結果として前記他の画像を提供する場合、前記クエリ画像上に前記核心領域を他の領域と区分して表示すること、
を特徴とする、請求項７に記載のコンピュータシステム。
コンピュータシステムが実行する類似領域強調方法であって、
前記コンピュータシステムは、少なくとも１つのプロセッサを含み、
当該類似領域強調方法は、
前記少なくとも１つのプロセッサが、ＣＮＮモデルで特徴マップをプーリングした状態のベクトルを利用して空間情報を復元する空間類似度マップを構成する段階、および
前記少なくとも１つのプロセッサが、前記空間類似度マップに基づいてクエリ画像を他の画像と比較し、類似指数に寄与した領域である核心領域を視覚化する段階、
を含み、
前記視覚化する段階は、
前記クエリ画像から、物体が含まれる少なくとも１つの物体領域を分離する段階、
前記物体領域それぞれに対して類似画像を検索して前記類似画像との類似指数に寄与した核心領域を抽出する段階、および
前記物体領域別に、核心領域を前記クエリ画像上に配置して視覚化する段階
を含む、
類似領域強調方法。
前記ＣＮＮモデルは、多重プーリング分岐における複数のグローバルディスクリプタを連結して学習するモデルであって、各プーリング分岐にＦＣ層を有するネットワークモデルを含み、
前記構成する段階は、
前記ＦＣ層の埋め込みのあとにプーリング結合を行って得られる類似度マップを生成した後、各プーリング分岐の類似度マップを平均して前記空間類似度マップを生成すること、
を特徴とする、請求項１０に記載の類似領域強調方法。
前記視覚化する段階は、
前記クエリ画像と前記他の画像の間の空間類似度マップで閾値以上の類似度を有する領域を、前記核心領域として抽出する段階、
を含む、請求項１０に記載の類似領域強調方法。
前記視覚化する段階は、
前記クエリ画像に対する検索結果として前記他の画像を提供する場合、前記クエリ画像上に前記核心領域を他の領域と区分して表示すること、
を特徴とする、請求項１０に記載の類似領域強調方法。
請求項１０～１３のうちのいずれか一項に記載の類似領域強調方法をコンピュータシステムに実行させる、コンピュータプログラム。
請求項１０～１３のうちのいずれか一項に記載の類似領域強調方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。