JP2018013887A

JP2018013887A - 特徴選択装置、タグ関連領域抽出装置、方法、及びプログラム

Info

Publication number: JP2018013887A
Application number: JP2016141830A
Authority: JP
Inventors: 数藤　恭子; Kyoko Sudo; 恭子数藤; 崇之梅田; Takayuki Umeda; 和彦村崎; Kazuhiko Murazaki; 光太山口; Kota Yamaguchi; 岡谷　貴之; Takayuki Okaya; 貴之岡谷
Original assignee: Tohoku University NUC; Nippon Telegraph and Telephone Corp
Current assignee: Tohoku University NUC; Nippon Telegraph and Telephone Corp
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2018-01-25
Anticipated expiration: 2036-07-19
Also published as: JP6699048B2

Abstract

【課題】画像識別に有効な画像特徴を取得することができる。
【解決手段】画像特徴生成部２４が、ポジティブセット及びネガティブセットに基づいて、画像から得られる複数の画像特徴の各々に対し、ポジティブセットに含まれる画像の各々についての画像特徴の分布を表すヒストグラムと、ネガティブセットに含まれる画像の各々についての画像特徴の分布を表すヒストグラムとを生成する。画像特徴分布比較部２６が、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算する。特徴記述子選択部が、画像特徴分布比較部２６によって計算された距離について上位Ｎ個の画像特徴を選択する。
【選択図】図１

Description

本発明は、特徴選択装置、タグ関連領域抽出装置、方法、及びプログラムに関する。

通信環境の高品質化、撮影機能を備えたデバイス（デジタルカメラ、スマートフォン、タブレット等）の普及、それに伴うＳＮＳ（social networking service）サイトやＥＣ（electronic commerce）サイトなどの発展により、ネットワーク上に流通する画像コンテンツの数は膨大なものとなっている。このような膨大なコンテンツを効率的に整理・検索するために、画像を自動的に解析する技術への要望が高まっている。

解析技術の一つとして、画像に含まれる特定の物体の領域を、予め学習した検出器によって自動的に抽出する技術がある（例えば、非特許文献１，２）。

また、物体らしい画像領域を抽出し、抽出した領域を物体認識用に学習済みのDeep Convolutional Neural Networks（ＤＣＮＮ）へ入力することで、各画像領域に物体が含まれるか否かを判定する技術が知られている（例えば、非特許文献３）。

Felzenszwalb, P., McAllester, D., & Ramanan, D.,(2008, June). "A discriminatively trained, multiscale, deformable part model.", In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on (p.1-8). IEEE. Malisiewicz, T., Gupta, A., & Efros, A. A.,(2011, November). "Ensemble of exemplar-svms for object detection and beyond.", In Computer Vision (ICCV), 2011 IEEE International Conference on (p.89-96). IEEE. Girshick, R. (2015). "Fast r-cnn.", In Proceedings of the IEEE International Conference on Computer Vision (p.1440-1448).

上記非特許文献１や上記非特許文献２に記載されているような検出器を生成するためには、特定の物体を含む画像と、画像内での特定の物体の領域情報とを紐付けた学習データが大量に必要である。

また、非特許文献３に記載されているような物体認識用のＤＣＮＮの学習には、大量の画像データとタグのセットが必要となる。この学習用データは、明示的には画像中の特定の物体領域は要求しないが、基本的には単一の物体が写る画像が用いられており、特定の物体の領域情報が内包された学習データが必要となる。

前述のようにＳＮＳサイトにはユーザがタグを付与して投稿した大量の画像データがあり、またＥＣサイトではコンテンツプロバイダーが例えば色や柄などのタグを付与した衣服の画像データが大量に存在しているが、従来必要とされている学習データ、すなわち、画像とタグに加えて、タグの領域情報が紐付けられたデータを生成するには大変な人手がかかる。

また、画像におけるタグの領域情報を識別するためには、どのような画像特徴が有効であるのかが不明であるという問題がある。

本発明は、上記問題点を解決するために成されたものであり、画像識別に有効な画像特徴を取得することができる特徴選択装置、方法、及びプログラムを提供することを目的とする。

また、画像中のタグと関連する領域を精度よく抽出することができるタグ関連領域抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る映像特徴選択装置は、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記画像特徴を選択する特徴記述子選択部と、を含んで構成されている。

また、本発明に係る特徴選択方法は、画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記画像特徴を選択するステップと、を含んで実行することを特徴とする。

また、本発明の前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記ユニットの出力を選択するようにしてもよい。

また、本発明のタグ関連領域抽出装置は、上記の特徴選択装置と、入力画像に対してマスキングするための大きさが異なるマスクを複数生成するマスク生成部と、前記特徴記述子選択部によって選択された前記ユニットの各々の出力に対し、前記マスク生成部によって生成された複数の前記マスクの各々によってマスキングされた前記入力画像であるマスク画像の各々を、前記ニューラルネットワークへ入力し、前記マスク画像の各々から得られる、前記ユニットの出力の平均を表す画像を、画像特徴記述子として生成する特徴記述子生成部と、前記特徴記述子選択部によって選択された前記ユニットの各々の出力について、前記特徴記述子生成部によって生成された前記画像特徴記述子を正規化した正規化画像特徴記述子を生成する特徴記述子正規化部と、前記画像特徴分布比較部によって前記選択された前記ユニットの各々の出力について得られた前記距離の各々と、前記特徴記述子正規化部によって前記選択された前記ユニットの各々の出力について生成された前記正規化画像特徴記述子の各々とに基づいて、前記正規化画像特徴記述子の各々を、前記距離に応じた重みで足し合わせることにより、前記入力画像の各画素についての、前記タグと前記画素との間の関連度を算出するタグ関連度算出部と、を含んで構成されている。

また、前記タグ関連度算出部は、更に、前記関連度が予め定められた値以上である画像からなる領域を、前記タグと関連する領域として抽出するようにしてもよい。

また、前記ニューラルネットワークにはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いるようにしてもよい。

本発明に係るプログラムは、コンピュータを、上記の特徴選択装置あるいは上記のタグ関連領域抽出装置の各部として機能させるためのプログラムである。

本発明の特徴選択装置、方法、及びプログラムによれば、ポジティブセット及びネガティブセットに基づいて、画像から得られる複数の画像特徴の各々に対し、ポジティブセットの画像の画像特徴の分布を表すヒストグラムと、ネガティブセットの画像の画像特徴の分布を表すヒストグラムとを生成し、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位Ｎ個の画像特徴を画像特徴記述子として選択することにより、画像識別に有効な画像特徴を取得することができる、という効果が得られる。

また、本発明のタグ関連領域抽出装置、方法、及びプログラムによれば、ポジティブセットに含まれる画像の各々及びネガティブセットに含まれる画像の各々をニューラルネットワークへ入力し、ニューラルネットワークの各ユニットの出力に対し、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位Ｎ個のユニットの出力を選択し、入力画像に対してマスキングするための大きさが異なるマスクを複数生成し、選択されたユニットの各々の出力に対し、複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々をニューラルネットワークへ入力し、マスク画像の各々から得られる、ユニットの出力の平均を表す画像を画像特徴記述子として生成し、生成された画像特徴記述子を正規化した正規化画像特徴記述子を生成し、選択されたユニットの各々の出力について得られた距離の各々と、選択されたユニットの各々の出力について生成された正規化画像特徴記述子の各々とに基づいて、正規化画像特徴記述子の各々を距離に応じた重みで足し合わせることにより、入力画像の各画素についての、タグと画素との間の関連度を算出することにより、画像中のタグと関連する領域を精度よく抽出することができる、という効果が得られる。

本発明の実施の形態に係るタグ関連領域抽出装置の構成を示すブロック図である。本発明の実施の形態に係るタグ関連領域抽出装置のタグ関連領域抽出部の一構成例を示す図である。本発明の実施の形態に係るタグ関連領域抽出装置におけるタグ関連領域抽出処理ルーチンを示すフローチャートである。本発明の実施の形態を用いた実験結果の例を示す図である。本発明の実施の形態を用いた実験結果の例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

本発明の実施の形態では、タグの有無による画像特徴の分布の変化および画像の各領域から得られる特徴記述子の違いを用いて、タグと関連の強い領域を画像から抽出する。

具体的には、何らかの局所的な特徴記述子を画像集合に適用し、タグが付与された画像集合から得られる画像特徴の分布と、タグが付与されていない画像集合から得られる画像特徴の分布との間で分布間距離を算出し、最も距離が離れているものから認識容易なタグであるとして選出する。この場合、特徴記述子を多数用意することで、画像特徴の分布間距離の大きいタグと同時に、画像特徴の分布間距離の大きな特徴記述子を得ることができる。これは、視覚的な認識において有用な特徴記述子であると見ることができる。

さらにこれを用いて、タグが付与された画像集合に特徴的な画像特徴記述を得ることができる。こうして得られた特徴記述子と特徴的な画像特徴記述と画像の各領域から得られる特徴記述とを比べることで、タグと関連の強い領域を得ることができる。

以下では、タグが付与された画像集合としてＳＮＳに投稿されたファッションコーディネート画像と関連のタグとのセットを想定する。

＜本発明の実施の形態に係るタグ関連領域抽出装置の構成＞

次に、本発明の実施の形態に係るタグ関連領域抽出装置の構成について説明する。図１に示すように、本発明の実施の形態に係るタグ関連領域抽出装置１００は、ＣＰＵと、ＲＡＭと、後述するタグ関連領域抽出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。このタグ関連領域抽出装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部４０とを備えている。タグ関連領域抽出装置１００は、タグが付与された画像集合からタグに関連する領域を抽出する。

入力部１０は、タグ付き画像集合Ｄを受け付ける。タグは、画像に特定の物体が含まれていることを表す。タグ付き画像集合Ｄには、タグｕ毎に、タグｕが付与された画像の集合であるポジティブセットＤ_ｕ ^＋と、タグｕが付与されていない画像の集合であるネガティブセットＤ_ｕ ⁻とが含まれている。また、入力部１０は、タグｕ毎に、当該タグが付与された入力画像Ｉ（ｘ，ｙ）を受け付ける。

演算部２０は、画像集合データベース２２と、画像特徴生成部２４と、画像特徴分布比較部２６と、特徴記述子選択部２８と、タグ関連領域抽出部３０とを備えている。

画像集合データベース２２には、入力部１０によって受け付けた、各タグｕのポジティブセットＤ_ｕ ^＋とネガティブセットＤ_ｕ ⁻とを含むタグ付き画像集合Ｄが格納される。

画像特徴生成部２４は、タグｕ毎に、画像集合データベース２２に格納されている、ポジティブセットＤ_ｕ ^＋及びネガティブセットＤ_ｕ ⁻と、予め学習されたニューラルネットワークとに基づいて、ポジティブセットＤ_ｕ ^＋及びネガティブセットＤ_ｕ ⁻に含まれる全ての画像に対し、画像特徴を生成する。

具体的には、まず、画像特徴生成部２４は、画像集合データベース２２に格納されたポジティブセットＤ_ｕ ^＋に含まれる画像の各々及びネガティブセットＤ_ｕ ⁻に含まれる画像の各々を、予め学習されたニューラルネットワークへ入力する。

本実施の形態では、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明する。また、予め学習されたニューラルネットワークとして、Convolutional Neural Network（ＣＮＮ）を用いる場合を例に説明する。ＣＮＮは局所的な特徴記述子としてみなすことができる。ＣＮＮは内部に多数のフィルタを保持しており、それぞれのフィルタの出力を異なる特徴記述子として用いることができる。なお、本実施の形態では、ＣＮＮのフィルタは物体認識のための画像データセットなどを用いて事前に学習されたものを用いる。以下では、ＣＮＮの各層において用いられるフィルタをユニットと呼ぶ。

次に、画像特徴生成部２４は、画像から得られる各画像特徴としてのニューラルネットワークの各ユニットｉに対し、ポジティブセットＤ_ｕ ^＋に含まれる画像の各々についての当該ユニットの出力の分布を表すヒストグラムＰ_ｉ ^＋と、ネガティブセットＤ_ｕ ⁻に含まれる画像の各々についての当該ユニットｉの出力の分布を表すヒストグラムＰ_ｉ ⁻とを生成する。

画像特徴分布比較部２６は、タグｕ毎に、複数のユニットｉの各々について、画像特徴生成部２４によって生成されたポジティブセットＤ_ｕ ^＋のヒストグラムＰ_ｉ ^＋とネガティブセットＤ_ｕ ⁻のヒストグラムＰ_ｉ ⁻との間の距離を計算する。

本実施の形態では、ヒストグラムＰ_ｉ ^＋とヒストグラムＰ_ｉ ⁻と間の距離として、カルバック・ライブラー距離（以下、ＫＬ距離と称する）を用いる場合を例に説明する。

画像集合データベース２２に格納されたタグ付き画像集合Ｄから得られる、タグｕに対する、ポジティブセットＤ_ｕ ^＋とネガティブセットＤ_ｕ ⁻との間のＫＬ距離Ｓ_ｉ（ｕ│Ｄ）は、ヒストグラムの各ｂｉｎをｘとして以下のように求められる。なお、ｘは各ユニットから出力される値を表す。

例えば、ｕが視覚的に認識容易でないタグである場合、ポジティブセットＤ_ｕ ^＋の画像特徴の分布はランダムに近くなり、ポジティブセットＤ_ｕ ^＋の画像特徴の分布とネガティブセットＤ_ｕ ⁻の画像特徴の分布との差は小さくなる。一方、ｕが視覚的に認識容易なタグである場合、ポジティブセットＤ_ｕ ^＋の画像特徴の分布とネガティブセットＤ_ｕ ⁻の画像特徴の分布との差が大きくなる。

そのため、例えば「赤」「白」といった色の名前のタグや、「ボーダー」「花柄」といったテクスチャのタグの場合、ＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の値は大きくなる。

そして、画像特徴分布比較部２６は、複数のユニットの各々についての、ＫＬ距離Ｓ_ｉ（ｕ│Ｄ）を出力する。

特徴記述子選択部２８は、タグｕ毎に、画像特徴分布比較部２６によって計算された距離について上位Ｎ個のユニットを画像特徴として選択する。

具体的には、特徴記述子選択部２８は、画像特徴分布比較部２６によって計算されたＫＬ距離Ｓ_ｉ（ｕ│Ｄ）を入力として、ＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の値が大きい方からＮ個のユニットを画像特徴として選択し、選択されたＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の上位Ｎ個のユニットからなる集合をθ_ｕとする。

タグ関連領域抽出部３０は、タグｕ毎に、特徴記述子選択部２８によって選択されたＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の上位Ｎ個のユニットからなる集合θ_ｕに基づいて、当該タグが付与された入力画像から、当該タグと関連する領域を抽出する。タグ関連領域抽出部３０は、マスク生成部３２と、特徴記述子生成部３４と、特徴記述子正規化部３６と、タグ関連度算出部３８とを備えている。

マスク生成部３２は、入力部１０によって受け付けた入力画像Ｉ（ｘ，ｙ）に対してマスキングするための、大きさが異なるマスクを複数生成する。マスクは、データセットの平均画像（マスクをかける画像と同じ解像度）の対応する同じ位置から切り取ったものを用いる。マスクのサイズは、例えば入力画像Ｉ（ｘ，ｙ）の１０分の１、５分の１、３分の１などとする。

特徴記述子生成部３４は、タグｕ毎に、特徴記述子選択部２８によって当該タグｕについて選択されたユニットからなる集合θ_ｕの各ユニットの出力に対し、マスク生成部３２によって生成された複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々を、ニューラルネットワークへ入力する。そして、特徴記述子生成部３４は、当該タグｕについて選択されたユニットからなる集合θ_ｕの各ユニットの出力に対し、マスク画像の各々から得られる、当該ユニットの出力の平均を表す画像を、画像特徴記述子として生成する。

特徴記述子生成部３４では、入力画像Ｉ（ｘ，ｙ）に対し（ｘ，ｙ）で規定されるマスクによって画像の一部領域を隠し、ユニットｉの出力に対して、一部領域が隠された画像から画像特徴記述子Ａ_ｉ（ｘ，ｙ）を生成する。このようなマスクから画像特徴記述子を生成する関数をａ_ｉ（ｘ，ｙ）と定義する。Ａ_ｉ（ｘ，ｙ）は、ｉ番目の特徴記述子（ここではｉ番目のユニットの出力）で、複数のマスクに対応して得られた出力の平均とする。

特徴記述子正規化部３６は、タグｕ毎に、特徴記述子選択部２８によって選択されたユニットからなる集合θ_ｕのユニットｉの各々の出力について、特徴記述子生成部３４によって生成された画像特徴記述子Ａ_ｉ（ｘ，ｙ）を正規化した正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）を生成する。

具体的には、まず、特徴記述子正規化部３６は、各ユニットｉの画像特徴記述子Ａ_ｉ（ｘ，ｙ）の平均画像を算出する。そして、特徴記述子正規化部３６は、ユニットｉの各々について、画像特徴記述子Ａ_ｉ（ｘ，ｙ）を入力し、画像特徴記述子Ａ_ｉ（ｘ，ｙ）と平均画像との差分が最大値をとるときの、当該差分の値が負である場合は画像特徴記述子Ａ_ｉ（ｘ，ｙ）全体に−１を掛ける。そして、特徴記述子正規化部３６は、各ユニットｉの画像特徴記述子Ａ_ｉ（ｘ，ｙ）を、０から１の間の値に正規化したものを正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）とする。

タグ関連度算出部３８は、タグｕ毎に、特徴記述子選択部２８によって選択されたユニットからなる集合θ_ｕのユニットｉの各々の出力について得られたＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の各々と、特徴記述子正規化部３６によって選択されたユニットｉの各々の出力について生成された正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）の各々とに基づいて、正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）の各々を、ＫＬ距離Ｓ_ｉ（ｕ│Ｄ）に応じた重みで足し合わせることにより、入力画像Ｉ（ｘ，ｙ）の各画素についての、タグと画素との間の関連度を算出する。

タグ関連度算出部３８は、入力画像Ｉ（ｘ，ｙ）の各画素についての、タグｕと画素との間の関連度を表すタグ関連領域Ｍ（ｘ，ｙ｜ｕ，Ｉ）を、以下の式（２）により算出する。

ここで、Ｓ_ｉ（ｕ│Ｄ）はタグ付き画像集合Ｄから得られる、タグｕに対する、ポジティブセットＤ_ｕ ^＋のヒストグラムＰ_ｉ ^＋とネガティブセットＤ_ｕ ⁻のヒストグラムＰ_ｉ ⁻との間のＫＬ距離であり、ＺはＳ_ｉ（ｕ│Ｄ）の大きいユニットから順にＮ個のユニットまでのＳ_ｉ（ｕ│Ｄ）を足し合わせたものである。

また、タグ関連度算出部３８は、更に、上記式（２）に従って算出した関連度が予め定められた値以上である画像からなる領域を、タグと関連する領域として抽出してもよい。

＜本発明の実施の形態に係るタグ関連領域抽出装置の作用＞

次に、本発明の実施の形態に係るタグ関連領域抽出装置１００の作用について説明する。入力部１０においてタグ付き画像集合Ｄを受け付けて画像集合データベース２２に格納し、入力画像Ｉ（ｘ，ｙ）が入力されると、タグ関連領域抽出装置１００は、タグｕ毎に、図３に示すタグ関連領域抽出処理ルーチンを実行する。

まず、ステップＳ１００において、画像特徴生成部２４は、画像集合データベース２２に格納されている、ポジティブセットＤ_ｕ ^＋及びネガティブセットＤ_ｕ ⁻を取得する。

次に、ステップＳ１０２において、画像特徴生成部２４は、上記ステップＳ１００で取得したポジティブセットＤ_ｕ ^＋に含まれる画像の各々及びネガティブセットＤ_ｕ ⁻に含まれる画像の各々を、ＣＮＮへ入力する。そして、画像特徴生成部２４は、ＣＮＮの各ユニットｉに対し、ポジティブセットＤ_ｕ ^＋に含まれる画像の各々についての当該ユニットの出力の分布を表すヒストグラムＰ_ｉ ^＋と、ネガティブセットＤ_ｕ ⁻に含まれる画像の各々についての当該ユニットｉの出力の分布を表すヒストグラムＰ_ｉ ⁻とを生成する。

ステップＳ１０４において、画像特徴分布比較部２６は、上記ステップＳ１０２で生成された、複数のユニットの各々についての、ポジティブセットＤ_ｕ ^＋のヒストグラムＰ_ｉ ^＋とネガティブセットＤ_ｕ ⁻のヒストグラムＰ_ｉ ⁻との間の距離を、上記式（１）に従って計算する。

ステップＳ１０６において、特徴記述子選択部２８は、上記ステップＳ１０４で計算された距離について上位Ｎ個のユニットを選択し、ユニットの集合θ_ｕとする。

ステップＳ１０８において、マスク生成部３２は、入力部１０によって受け付けた入力画像Ｉ（ｘ，ｙ）に対してマスキングするための、大きさが異なるマスクを複数生成する。

ステップＳ１１０において、特徴記述子生成部３４は、上記ステップＳ１０６で選択されたユニットからなる集合θ_ｕのユニットｉの各々の出力に対し、上記ステップＳ１０８で生成された複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々を、ニューラルネットワークへ入力する。そして、特徴記述子生成部３４は、ユニットｉの各々の出力に対し、マスク画像の各々から得られる、ユニットｉの出力の平均を表す画像を、画像特徴記述子Ａ_ｉ（ｘ，ｙ）として生成する。

ステップＳ１１２において、特徴記述子正規化部３６は、上記ステップＳ１０６で選択されたユニットからなる集合θ_ｕのユニットｉの各々の出力について、上記ステップＳ１１０で生成された画像特徴記述子Ａ_ｉ（ｘ，ｙ）を正規化した正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）を生成する。

ステップＳ１１４において、タグ関連度算出部３８は、上記ステップＳ１０６で選択されたユニットからなる集合θ_ｕのユニットｉの各々の出力について得られたＫＬ距離Ｓ_ｉ（ｕ│Ｄ）の各々と、選択されたユニットｉの各々の出力について上記ステップＳ１１２で生成された正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）の各々とに基づいて、上記式（２）に従って、正規化画像特徴記述子Ｒ_ｉ（ｘ，ｙ）の各々を、ＫＬ距離Ｓ_ｉ（ｕ│Ｄ）に応じた重みで足し合わせることにより、入力画像Ｉ（ｘ，ｙ）の各画素についての、タグと画素との間の関連度を算出する。

ステップＳ１１６において、出力部４０は、上記ステップＳ１１４で算出された、入力画像Ｉ（ｘ，ｙ）の各画素についての、タグと画素との間の関連度を結果として出力し処理を終了する。

＜実験例＞
図４は、実際の画像に対し、人手でタグ抽出したタグ関連領域と、本発明の実施の形態に係るタグ関連領域抽出装置により得られたタグ関連領域の例である。また、図５は、ヒストグラム間の距離Ｓ_ｉ（ｕ│Ｄ）の大きい方から選択するユニットの数Ｎの値を変えた場合の抽出されたタグ関連領域である。最適なユニットの数Ｎの値はタグにより異なる。ユニットの数Ｎの値が大きくなると計算量は増えるが、より詳細にタグ関連領域が抽出されている。

以上説明したように、本発明の実施の形態に係るタグ関連領域抽出装置によれば、ポジティブセットに含まれる画像の各々及びネガティブセットに含まれる画像の各々をＣＮＮへ入力し、ＣＮＮの各ユニットの出力に対し、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位Ｎ個のユニットの出力を選択し、入力画像に対してマスキングするための大きさが異なるマスクを複数生成し、選択されたユニットの各々の出力に対し、複数のマスクの各々によってマスキングされた入力画像であるマスク画像の各々をＣＮＮへ入力し、マスク画像の各々から得られる、ユニットの出力の平均を表す画像を画像特徴記述子として生成し、生成された画像特徴記述子を正規化した正規化画像特徴記述子を生成し、選択されたユニットの各々の出力について得られた距離の各々と、選択されたユニットの各々の出力について生成された正規化画像特徴記述子の各々とに基づいて、正規化画像特徴記述子の各々を距離に応じた重みで足し合わせることにより、入力画像の各画素についての、タグと画素との間の関連度を算出することにより、画像中のタグと関連する領域を精度よく抽出することができる。

また、本発明の実施の形態によれば、このような領域情報は含まないが、画像と画像に含まれるタグが紐付いたデータから、タグ毎の関連領域を学習することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記の実施の形態は、本発明をタグ関連領域抽出装置に適用した場合を例に説明したが、これに限定されるものではなく、本発明を特徴選択装置に適用してもよい。その場合には、特徴選択装置は、画像特徴生成部２４と、画像特徴分布比較部２６と、特徴記述子選択部２８とを含んで構成される。

この特徴選択装置によれば、ポジティブセット及びネガティブセットに基づいて、画像から得られる複数の画像特徴の各々に対し、ポジティブセットの画像の画像特徴の分布を表すヒストグラムと、ネガティブセットの画像の画像特徴の分布を表すヒストグラムとを生成し、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算し、計算された距離について上位Ｎ個の画像特徴を画像特徴記述子として選択することにより、画像識別に有効な画像特徴を取得することができる。

また、上記の実施の形態は、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明したが、これに限定されるものではなく、他の画像特徴を用いてもよい。

また、上述した実施の形態では、ニューラルネットワークとしてＣＮＮを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。

また、上述した実施の形態では、ヒストグラム間の距離としてカルバック・ライブラー距離を用いる場合を例に説明したがこれに限定されるものではなく、他の距離を用いてもよい。

上述のタグ関連領域抽出装置１００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
２２画像集合データベース
２４画像特徴生成部
２６画像特徴分布比較部
２８特徴記述子選択部
３０タグ関連領域抽出部
３２マスク生成部
３４特徴記述子生成部
３６特徴記述子正規化部
３８タグ関連度算出部
４０出力部
１００タグ関連領域抽出装置

Claims

画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、
前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、
前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記画像特徴を選択する特徴記述子選択部と、
を含む特徴選択装置。
前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、
前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記ユニットの出力を選択する
請求項１に記載の特徴選択装置。
請求項２に記載の特徴選択装置と、
入力画像に対してマスキングするための大きさが異なるマスクを複数生成するマスク生成部と、
前記特徴記述子選択部によって選択された前記ユニットの各々の出力に対し、前記マスク生成部によって生成された複数の前記マスクの各々によってマスキングされた前記入力画像であるマスク画像の各々を、前記ニューラルネットワークへ入力し、前記マスク画像の各々から得られる、前記ユニットの出力の平均を表す画像を、画像特徴記述子として生成する特徴記述子生成部と、
前記特徴記述子選択部によって選択された前記ユニットの各々の出力について、前記特徴記述子生成部によって生成された前記画像特徴記述子を正規化した正規化画像特徴記述子を生成する特徴記述子正規化部と、
前記画像特徴分布比較部によって前記選択された前記ユニットの各々の出力について得られた前記距離の各々と、前記特徴記述子正規化部によって前記選択された前記ユニットの各々の出力について生成された前記正規化画像特徴記述子の各々とに基づいて、前記正規化画像特徴記述子の各々を、前記距離に応じた重みで足し合わせることにより、前記入力画像の各画素についての、前記タグと前記画素との間の関連度を算出するタグ関連度算出部と、
を含むタグ関連領域抽出装置。
前記タグ関連度算出部は、更に、前記関連度が予め定められた値以上である画像からなる領域を、前記タグと関連する領域として抽出する
請求項３に記載のタグ関連領域抽出装置。
前記ニューラルネットワークにはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いる
請求項２に記載の特徴選択装置。
前記ニューラルネットワークにはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いる
請求項３又は請求項４に記載のタグ関連領域抽出装置。
画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、
画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、
特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位Ｎ個の前記画像特徴を選択するステップと、
を含む特徴選択方法。
コンピュータを、請求項１、請求項２、又は請求項５に記載の特徴選択装置、あるいは請求項３、請求項４、又は請求項６に記載のタグ関連領域抽出装置の各部として機能させるためのプログラム。