JP2017027227A - ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム - Google Patents

ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム Download PDF

Info

Publication number
JP2017027227A
JP2017027227A JP2015143269A JP2015143269A JP2017027227A JP 2017027227 A JP2017027227 A JP 2017027227A JP 2015143269 A JP2015143269 A JP 2015143269A JP 2015143269 A JP2015143269 A JP 2015143269A JP 2017027227 A JP2017027227 A JP 2017027227A
Authority
JP
Japan
Prior art keywords
label
learning
image
estimation function
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015143269A
Other languages
English (en)
Inventor
恭子 数藤
Kyoko Sudo
恭子 数藤
和彦 村崎
Kazuhiko Murazaki
和彦 村崎
行信 谷口
Yukinobu Taniguchi
行信 谷口
光太 山口
Kota Yamaguchi
光太 山口
貴之 岡谷
Takayuki Okaya
貴之 岡谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2015143269A priority Critical patent/JP2017027227A/ja
Publication of JP2017027227A publication Critical patent/JP2017027227A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ラベルの推定精度を向上させることができるラベル推定関数を学習する。【解決手段】ベル情報学習部200は、学習データ記憶部20から学習データを読み出し、ラベル間共起性特徴及びラベル別位置存在確率を含むラベル情報を学習して、ラベル情報記憶部203に記憶する。画像特徴抽出部101は、学習データ記憶部20から学習データの内の画像データを読み出し、読み出した画像データに基づいて、学習画像の画像特徴を抽出するための画像特徴抽出フィルタ102を用いて、学習画像の画像特徴を抽出する。ラベル推定関数学習部103は、画像特徴抽出部101により抽出された学習画像の画像特徴と、ラベル情報記憶部203から読み出したラベル情報とに基づいて、ラベルを推定するためのラベル推定関数を学習する。【選択図】図1

Description

本発明は、ラベルを推定するためのラベル推定関数を学習するラベル推定関数学習装置、方法、及びプログラムに関する。
複数の要素の組み合わせから成る被写体の画像から、その中に含まれている要素を推定する方法及び装置が提案されている。ここで、要素は、画像の中の分割可能な領域である。被写体とは、単一または複数の要素を含む、物体やシーンのことである。
要素を推定する従来の方法及び装置では、複数の要素の組み合わせから成る被写体の画像から、その中に含まれている要素を詳細に分類する試みが多く行われている。特に近年、洋服、服飾雑貨、料理等を被写体とする商品画像やSNSに投稿された画像について、各画像がどのようなカテゴリの画像であるかということだけではなく、画像の中にどのような要素を含んでいるかを自動で認識することが様々に試みられている。
非特許文献1では、画像の局所特徴やカラー特徴を用いて、人物の上半身の服装について、ジャケット、ドレス、スーツ等の要素を推定する技術を提案している。
非特許文献2では、髪、顔、トップス、スカートなどの要素ごとに画像を分解することで画像の分割の精度を高めている。
L. Bossard, M. Dantone, C. Leistner, C. Wengert, T. Quack and L. V. Gool, 「Apparel Classification with Style」 ACCV, pp. 1-14 (2012) J. Dong, Q. Chen, W. Xia, Z. Huang and S. Yan, 「A Deformable Mixture Parsing Model with Parselets」 ICCV (2013).
しかし、従来の技術では、画像の中にどのような要素を含んでいるかを精度よく推定することができない。非特許文献1では、上半身の服装について要素を推定するので、上下の服装の組み合わせを考慮して要素を推定していない。また、非特許文献2では、要素の名称であるラベルの整合性は考慮されていない。そのため、上着がスーツのジャケットに似ていると、ボトムスの種類によらずスーツと推定する。また、被写体の人物がスカートと組み合わせトップスを着ている場合でも、スカートとは本来組み合わされないドレスという推定がされるような場合がある。
このように、要素に対して、他の要素との関係で通常考えにくいラベル付けがされている。
本発明は、上記の課題に鑑みてなされたもので、ラベルの推定精度を向上させることができるラベル推定関数を得ることができるラベル推定関数学習装置、方法、及びプログラム、及び、ラベルの推定精度を向上させたラベル推定装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係るラベル推定関数学習装置は、複数の要素を備えた被写体の学習画像の複数の画像データと前記複数の画像データの各々に対応付けられた各要素の名称であるラベルのデータとを含む複数の学習データを記憶する学習データ記憶部と、前記複数の学習データに基づいて、前記複数の学習画像に存在する要素のラベルのラベル別位置存在確率を計算するラベル別位置存在確率学習部と、前記複数の学習データに基づいて、ラベルに対応する要素と他のラベルに対応する要素とが前記学習画像に同時に存在する度合いを表すラベル間共起性特徴を計算するラベル間共起性特徴学習部と、前記複数の画像データに基づいて、前記複数の学習画像の各々の複数の画像特徴を抽出する画像特徴抽出部と、前記複数の学習データ、前記抽出された前記複数の学習画像の各々の複数の画像特徴、前記計算されたラベル別位置存在確率、及び前記計算されたラベル間共起性特徴に基づくラベル間共起性確率に基づいて、前記複数の画像特徴に対応する複数の要素の存在確率を推定するラベル推定関数を学習するラベル推定関数学習部を備えている。
学習データ記憶部は、複数の要素を備えた被写体の学習画像の複数の画像データと前記複数の画像データの各々に対応付けられた各要素の名称であるラベルのデータとを含む複数の学習データを記憶する。
ラベル別位置存在確率学習部は、前記複数の学習データに基づいて、前記複数の学習画像に存在する要素のラベルのラベル別位置存在確率を計算する。ラベル間共起性特徴学習部は、前記複数の学習データに基づいて、ラベルに対応する要素と他のラベルに対応する要素とが前記学習画像に同時に存在する度合いを表すラベル間共起性特徴を計算する。画像特徴抽出部は、前記複数の画像データに基づいて、前記複数の学習画像の各々の複数の画像特徴を抽出する。
ラベル推定関数学習部は、前記複数の学習データ、前記抽出された前記複数の学習画像の各々の複数の画像特徴、前記計算されたラベル別位置存在確率、及び前記計算されたラベル間共起性特徴に基づくラベル間共起性確率に基づいて、前記複数の画像特徴に対応する複数の要素の存在確率を推定するラベル推定関数を学習する。
このように、ラベル別位置存在確率の他にラベル間共起性特徴に基づくラベル間共起性確率に基づいて、複数の画像特徴に対応する複数の要素の存在確率を推定するラベル推定関数を学習するので、ラベルの推定精度を向上させることができるラベル推定関数を得ることができる。
上記の目的を達成するために本発明に係るラベル推定装置は、複数の要素を備えた被写体のクエリ画像の画像データを入力するクエリ画像入力部と、前記画像データに基づいて、前記クエリ画像の画像特徴を抽出する画像特徴抽出部と、前記抽出された画像特徴と、上記ラベル推定関数学習装置により学習されたラベル推定関数とに基づいて、前記クエリ画像の複数の要素の各々のラベルを推定するラベル推定部を備えている。
クエリ画像入力部は、複数の要素を備えた被写体のクエリ画像の画像データを入力する。画像特徴抽出部は、前記画像データに基づいて、前記クエリ画像の画像特徴を抽出する。ラベル推定部は、前記抽出された画像特徴と、上記ラベル推定関数学習装置により学習されたラベル推定関数とに基づいて、前記クエリ画像の複数の要素の各々のラベルを推定する。
このように、ラベルの推定精度を向上させることができるラベル推定関数を用いて、クエリ画像の複数の要素の各々のラベルを推定するので、ラベルの推定精度を向上させることができる。
本発明に係るプログラムは、コンピュータを、上記のラベル推定関数学習装置又はラベル推定装置の各部として機能させるためのプログラムである。
以上説明したように、本発明のラベル推定関数学習装置、方法、及びプログラムによれば、ラベルの推定精度を向上させることができるラベル推定関数を得ることができる、という効果が得られる。
以上説明したように、本発明のラベル装置、方法、及びプログラムによれば、ラベルの推定精度を向上させることができる、という効果が得られる。
本実施の形態のラベル推定関数学習装置10のブロック図である。 ラベル推定関数学習装置10を構成するラベル情報学習部200のブロック図である。 ラベル推定装置30のブロック図である。 ラベル推定関数学習装置10が実行するラベル推定関数学習プログラムを示すフローチャートである。 複数のファッションアイテムを含む人物を被写体とした画像を示す図である。 (A)は、想定しているドメインの1つの画像に出現する可能性のある複数の要素のラベルを縦及び横に並べてマトリクス状に相関係数ci,jを配置して得られたデータテーブルを示す図であり、(B)は、図6(A)に示したデータテーブルにおける相関係数ci,jを、1の場合には白、−1の場合には黒、1に近くなるに従って白に近く、−1に近くなるに従って黒に近くなるように、グレースケールで表現した図である。 (A)は、要素の平均画像を、画素位置を無視して所定の順番に並べた図であり、(B)は、要素の平均画像を囲む矩形(バウンディングボックス)を画素位置に対応して配置した図である。 ラベル推定装置30が実行するラベル推定プログラムを示すフローチャートである。 画像特徴抽出フィルタ102としてCNNのフィルタを用いる場合のラベル推定器学習部100のブロック図である。
以下、図面を参照して、本実施の形態のラベル推定関数学習装置10及びラベル推定装置30の構成を説明する。
図1は、本実施の形態のラベル推定関数学習装置10のブロック図である。図1に示すように、本実施の形態のラベル推定関数学習装置10は、複数の学習データを記憶する学習データ記憶部20を備えている。
ここで、複数の学習データの各々は、所定のドメイン、即ち、例えば、複数の要素としての複数のファッションアイテムを含む人物を撮影して得られた学習画像の画像データを含む。また、複数の学習データの各々は、当該画像データに対応付けられると共に、上記複数の要素の各々の名称である複数のラベル、例えば、サングラス、ドレス、シューズ、バッグ、ネックレス等のデータを含む。
ラベル推定関数学習装置10は、学習データ記憶部20から学習データを読み出し、後述するラベル間共起性特徴及びラベル別位置存在確率を含むラベル情報を学習するラベル情報学習部200を備えている。ラベル推定関数学習装置10は、ラベル情報学習部200により学習されたラベル情報を記憶するラベル情報記憶部203を備えている。
また、ラベル推定関数学習装置10は、ラベルを推定するラベル推定関数を学習するラベル推定器学習部100を備えている。ラベル推定器学習部100は、画像特徴抽出部101を備えている。画像特徴抽出部101は、学習データ記憶部20から複数の学習データの内の各画像データを読み出し、各学習画像の画像特徴を抽出するための画像特徴抽出フィルタ102を用いて、読み出した各画像データについて各学習画像の画像特徴を抽出する。ラベル推定器学習部100は、画像特徴抽出部101により抽出された各学習画像の画像特徴と、ラベル情報記憶部203から読み出したラベル情報とに基づいて、ラベルを推定するためのラベル推定関数を学習するラベル推定関数学習部103を備えている。
更に、ラベル推定関数学習装置10は、ラベル推定器学習部100により学習されたラベル推定関数を記憶するラベル推定関数記憶部104を備えている。
図2は、ラベル推定関数学習装置10を構成するラベル情報学習部200のブロック図である。図2に示すように、ラベル情報学習部200は、学習データ記憶部20から複数の学習データを読み出し、読み出した複数の学習データに基づいてラベル間共起性特徴を学習するラベル間共起性特徴学習部201を備えている。また、ラベル情報学習部200は、学習データ記憶部20から学習データを読み出し、読み出した複数の学習データに基づいてラベル別位置存在確率を学習するラベル別位置存在確率学習部202を備えている。
図2に示すように、ラベル情報記憶部203は、ラベル間共起性特徴学習部201により得られたラベル間共起性特徴を記憶するラベル間共起性特徴記憶領域205を備えている。また、ラベル情報記憶部203は、ラベル別位置存在確率学習部202により得られたラベル別位置存在確率を記憶するラベル別位置存在確率記憶領域206を備えている。
図3は、ラベル推定装置30のブロック図である。図3に示すように、ラベル推定装置30は、クエリ画像を入力するクエリ画像入力部35と、入力されたクエリ画像の中の被写体の要素のラベルを推定するラベル推定装置300とを備えている。
図3に示すように、ラベル推定装置300は、図1に示す画像特徴抽出部101と同様の構成の画像特徴抽出部101を備えている。ラベル推定装置300は、画像特徴抽出部101により抽出された画像特徴と、図1に示すラベル推定関数学習装置10により得られたラベル推定関数とに基づいて、クエリ画像の中の被写体の要素のラベルを推定するラベル推定部301を備えている。
ラベル推定関数学習装置10は、図示しないCPU、ROM、メモリ、ディスプレイ、及び後述するラベル推定関数学習プログラムを記憶する記憶装置などを含んで構成されている。CPUが記憶装置に記憶されたラベル推定関数学習プログラムを実行することで、CPUは、上記各部(200(201、202)、100(101、103))として機能する。ラベル推定装置300は、図示しないCPU、ROM、メモリ、ディスプレイ、及び後述するラベル推定プログラムを記憶する記憶装置などを含んで構成されている。CPUが記憶装置に記憶されたラベル推定プログラムを実行することで、CPUは、上記各部(300(101、301))として機能する。
次に、本実施の形態の作用を説明する。
図4は、ラベル推定関数学習装置10が実行するラベル推定関数学習プログラムを示すフローチャートである。
図4に示すように、ステップ201Sで、ラベル間共起性特徴学習部201(図2参照)は、2つのラベルの要素の組み合わせ毎に、当該組み合わせの一方の要素が画像の中に出現する確率と他方の要素が画像の中に出現する確率との相関係数を、当該組み合わせの各要素が画像に同時に存在する度合いを表すラベル間共起性特徴として学習して、ラベル間共起性特徴をラベル間共起性特徴記憶領域205におけるデータテーブルに記憶する。なお、相関係数としては、例えば、ピアソン相関係数がある。ラベル間共起性特徴は、後述する式4におけるci,jに相当する。
図5は、複数のファッションアイテムを含む人物を被写体とした画像を示す図である。図6(A)は、想定しているドメインの1つの画像に出現する可能性のある複数の要素のラベルを縦及び横に並べてマトリクス状に相関係数ci,jを配置して得られたデータテーブルを示す図である。図6(B)は、図6(A)に示したデータテーブルにおける相関係数ci,jを、1の場合には白、−1の場合には黒、1に近くなるに従って白に近く、−1に近くなるに従って黒に近くなるように、グレースケールで表現した図である。
ラベル間共起性特徴の学習処理(ステップ201S)を更に説明する。ラベル間共起性特徴学習部201(図2参照)は、学習データ記憶部20から複数の学習データを読み出し、読み出した複数の学習データに基づいてラベル間共起性特徴を学習する。具体的には、ラベル間共起性特徴学習部201は、複数の学習データに基づいて、想定しているドメインの画像に出現する可能性のある複数の要素の各ラベルの出現確率を計算する。ラベル間共起性特徴学習部201は、各ラベルと、他の全てのラベルの各々との出現確率のピアソン相関係数を、ラベル間共起性特徴として計算する。ラベル間共起性特徴記憶領域205には、図6(A)に示すように、想定しているドメインの画像に出現する可能性のある複数の要素のラベルを縦及び横に並べてマトリクス状に配置したデータテーブルが設けられている。ラベル間共起性特徴学習部201は、ラベル間共起性特徴(ci,jの値)を、データテーブルの対応する位置に記憶して、データテーブルを完成する。なお、想定しているドメインは、例えば、図5に示すように、複数の要素としての複数のファッションアイテムを含む人物などである。ラベル間共起性特徴(ci,jの値)は、2つのラベルの間に完全な正の相関がある場合の1から負の相関の−1の間の値をとる。図5に示すように複数のファッションアイテムを含む人物を被写体とした画像においては、シャツ、トップス、ドレスといったラベルは、いずれも上半身の領域をカバーしてつけられるラベルであるため、同一の被写体の画像につけられることはほとんどない。同様に、ドレス、パンツ、スカート、ショートパンツなども同一の被写体の画像につけられることはほとんどない。こうした場合に、これらのラベル間の相関係数は−1に近い値となる。例えば、図6(A)に示す縦の列の上から3番目の「shirt」のラベルと、横の行の左から4番目の「top」のラベルとのラベル間共起性特徴は、−0.25となっている。
図4のステップ202Sで、ラベル別位置存在確率学習部202はラベル別位置存在確率を学習する。具体的には、ラベル別位置存在確率学習部202は、学習データ記憶部20から、同じラベルが対応付けられている複数の学習画像の画像データを読み出す。ラベル別位置存在確率学習部202は、複数の学習画像の全てについて画素毎に、要素に該当することを示す画素データの個数をカウントする。各画素のカウント値を、全ての学習画像の個数で割る。以上を全てのラベルについて同様に行う。これにより、ラベル別のラベルに対応する要素の画素位置の存在確率がラベル別位置存在確率として計算される。
ラベル別位置存在確率学習部202は、ラベル別位置存在確率に基づいて、ラベル別の要素の平均画像を作成する。例えば、ある画素位置でのシャツの要素の個数が90個で、全ての学習画像の個数が100個とすると、当該画素位置でのラベル別位置存在確率は、0.9となる。また、別のある画素位置でのシャツの要素の個数が10個の場合には、当該別の画素位置でのラベル別位置存在確率は、0.1となる。ラベル別位置存在確率が1の場合に白、0の場合に黒、1に近くなるに従って白に近く、0に近くなるに従って黒に近くなるように、各要素の平均画像を作成する。図7(A)は、要素の平均画像を、画素位置を無視して所定の順番に並べた図である。図7(A)に示すように、各要素の平均画像は、各要素の形状をぼかした画像となる。
図7(B)は、要素の平均画像を囲む矩形(バウンディングボックス)を画素位置に対応して配置した図である。ラベル別位置存在確率学習部202は、上記平均画像を囲む矩形(バウンディングボックス)を作成し、各要素のバウンディングボックスを画素位置に対応して配置する。図7(B)に示すように、各要素のバウンディングボックスが、当該要素の位置に応じた位置に配置される。例えば、画像に人物の全身が収まるように撮影されているファッション系SNSのファッション画像を複数の学習画像とする場合、帽子、靴、上半身の服装、下半身の服装など、要素ごとに画像内で偏った位置に配置される。
なお、図4のステップ201Sとステップ202Sの処理の順番は、この順番に限らず、ステップ202Sの処理の後にステップ201Sの処理を実行したり、両者を同時に実行したりしてもよい。
図4のステップ101Sで、画像特徴抽出部101は、画像特徴を抽出する。具体的には、画像特徴抽出部101は、学習データ記憶部20から各学習データの内の各画像データを読み出す。画像特徴抽出部101は、各学習画像の画像特徴を抽出するための画像特徴抽出フィルタ102を用いて、読み出した各画像データに基づいて、各学習画像の複数の画像特徴を抽出する。各画像特徴xを変数i(i=1、2、・・・)で識別する。画像特徴群を、X={xi}とする。なお、後述するj(j=1、2、・・・)も画像特徴xを識別する変数である。
画像特徴抽出フィルタ102は、次の画像特徴を抽出する。色特徴、例えば、RGB、Lab、HSV等のカラーヒストグラムである。また、局所特徴、例えば、エッジや輝度勾配を反映するような特徴量、例えば、SIFT(Scale−Invariant Feature Transform)等である。また、CNN(Convolutional Neural Network)のフィルタを用いることができる。図9には、画像特徴抽出フィルタ102としてCNNのフィルタを用いる場合のラベル推定器学習部100のブロック図が示されている。図9に示すように、ラベル推定器学習部100には、複数のラベルに対応する複数の要素を表す複数の画像から、複数のラベルに対応する複数の画像特徴を抽出するためのCNNのフィルタを学習する画像特徴学習部105が設けられる。画像特徴抽出部101は、画像特徴抽出フィルタ102を用いて、学習画像から複数の画像特徴を抽出する。
図4のステップ103Sで、ラベル推定関数学習部103は、画像特徴抽出部101により抽出された学習画像の画像特徴と、ラベル情報記憶部203から読み出したラベル情報とに基づいて、ラベルを推定するラベル推定関数を学習する。ラベル推定関数学習部103は、ラベル推定関数をラベル推定関数記憶部104に記憶する。以下、詳細に説明する。
画像特徴群X={xi}の画像特徴xiに対応するラベルyiのラベル群YをY={yi}とする。なお、yiは、yi={0,1}とする。ラベルyi が画像特徴xiに対応する場合には、yi=1、ラベルyi が画像特徴xiに対応しない場合には、yi=0である。なお、画像特徴xjに対応するラベルをyjとする。
ラベル推定関数学習部103は、画像特徴群Xからラベル群Yの発生確率In(P(Y|X))を推定するラベル推定関数(式1)を学習する。例えば、ラベル推定関数(式1)は、画像特徴群X=(x、x、x、x)からラベル群Y=(y、y、y、y)の発生確率In(P(Y|X))を推定する関数である。ラベル推定関数(式(1))を学習する1つの方法として、Conditional Random Field(CRF)を用いた確率表現の方法を用いることができる。式(1)は、最大周辺化事後確率推定(MAP推定)により、ラベル群Yの発生確率In(P(Y|X))が求められることを表す。ラベル群Yの発生確率In(P(Y|X))は、画像特徴xiに依存する要素のラベルyiのラベル別位置存在確率φ(xi,yi)と、2つのラベルyi、yjが1つの画像に共に出現する確率(ラベル間共起性確率)ψ(yi、yj)とに基づいて求められる。
(数1)
In(P(Y|X))=Σwiφ(xi,yi)+Σwi,j∈Vψ(yi,yj)−InZ (1)
X={xi}
i={0,1}
ここで、iは1つの要素を示し、Vは、要素の集合を示し、wi、wi,jは、モデルパラメータであり、InZは、正規化項である。
式(1)におけるラベル別位置存在確率φ(xi,yi)は、次式(2)に示すように、画像特徴群X={xi}からyi={0,1}を求める関数で表され、式3に示すように、ロジスティック回帰により、a、bを係数とするxの多項式を入力とするシグモイド関数σの出力を用いて計算される。
(数2)
φ(xi,yi)=Inp(yi|xi) (2)
(数3)
p(yi=1|xi)=σ(ai Ti+bi) (3)
また、ψ(yi,yj)は次の通りである。
(数4)
ψ(yi,yj)=In(1/2)(1+ci,j) if yi=yj
ψ(yi,yj)=In(1/2)(1−ci,j) otherwise (4)
式1のφ(xi,yi)とψ(yi,yj)とを統合すると次式(5)が得られる。
(数5)
In(P(Y|X))=wTΨ(X、Y)−InZ (5)
ここで、画像特徴抽出部101が、学習データ記憶部20から読み出したk個の学習データから画像特徴群Xを抽出したとする。
ラベル推定関数学習部103は、k個の学習データから、各画像特徴群Xに対する正しいラベル群Yに対する確率を求める。
ラベル推定関数学習部103は、式(5)において、画像特徴群Xに対する正しいラベル群Yの確率がそれ以外のラベル群に対する確率よりも大きくなるようにモデルパラメータw(wi、wi,j)を、Structural SVM(Support Vector Machine)などを用いて学習する。本実施形態では、当該学習の際には次のデータを用いる。即ち、上記のように求めた画像特徴群Xに対応する正しいラベル群Yに対する確率(式(5)の左辺)を用いる。また、ラベル間共起性確率ψ(yi,yj)として、ラベル間共起性特徴記憶領域205から読み出したラベル間共起性特徴(ci,j)に基づいて数(4)より求めた値を用いる。更に、ラベル別位置存在確率記憶領域206から読み出したラベル別位置存在確率を、φ(xi,yi)として用いる。
ラベル推定関数学習部103は、以上の学習に基づいて生成された式(1)〜式(4)で示される推定モデルをラベル推定関数として、ラベル推定関数記憶部104に記憶する。
図8は、ラベル推定装置30が実行するラベル推定プログラムを示すフローチャートである。
ステップ35Sで、クエリ画像入力部35は、クエリ画像を入力する。ステップ101Sで、画像特徴抽出部101は、対象をクエリ画像とすること以外は、図4のステップ101Sと同様に画像特徴を抽出する。
ステップ301Sで、ラベル推定部301は、ステップ101Sで得られたクエリ画像の画像特徴と、ラベル推定関数学習装置10により得られたラベル推定関数とに基づいて、クエリ画像の中の被写体の要素のラベルを推定する。具体的には、ラベル推定部301は、クエリ画像の画像特徴とラベル推定関数学習装置10により得られたラベル推定関数とに基づいて、式(6)に示すように、最も高い確率のラベル群Y*を、ディスプレイに表示する。
(数6)
*∈argYmaxP(Y|X) (6)
以上説明したように本実施の形態のラベル推定関数学習装置10は、ラベル群Yの発生確率In(P(Y|X))を求めるラベル推定関数を求める。ラベル推定関数は、複数の学習画像から抽出した画像特徴xiに依存する要素のラベルyiのラベル別位置存在確率φ(xi,yi)と、2つのラベルyi、yjが1つの画像に共に出現する確率(ラベル間共起性確率)ψ(yi、yj)とを用いて求めている。よって、画像特徴のみによる場合と比較してラベルの推定精度を向上させたラベル推定関数を求めることができる。
また、ラベル推定装置30は、ラベル推定関数学習装置10により求められたラベル推定関数を用いてクエリ画像の要素のラベルを推定する。よって、画像特徴のみによる場合と比較してラベルの推定精度を向上させることができる。
上記のように本実施形態では、ラベル推定関数を求める。よって、複数の学習画像から抽出された画像特徴以外の画像特徴がクエリ画像から抽出されても、ラベル推定関数を用いてクエリ画像の要素のラベルを推定することができる。
[変形例]
ラベル別位置存在確率学習部202により生成された、ラベル別位置存在確率のバウンディングボックスは、ラベル毎の特徴量領域の絞り込みによる画像特徴の学習の効率的化およびラベル推定関数への組み込みによる高精度化に利用できる。例えば、バウンディングボックス内の画像領域をCNNの入力とし、その中間層の出力を特徴量して、特徴抽出の精度を高めることができる。
また、要素どうしの空間的な配置関係を含めたラベル別位置存在確率を学習し、空間的な情報をもつ共起性特徴としてラベル推定関数に反映させることもできる。例えば、画像特徴xiに位置座標を含めたり、ci,jをiとjの位置座標の関数としたり、ψ(yi,yj)の定義においてiとjの位置関係を含めた条件分岐を行う、などの方法がある。
前述した実施の形態によれば、想定しているドメインは、例えば、図5のように、複数の要素としての複数のファッションアイテムを含む人物であるが、これに限定されない。例えば、他の画像を対象として、料理の素材の推定に適用することができる。具体的には、ラベル間共起性特徴学習部では、例えば、皿の種類や素材の種類のラベルつき学習画像を学習する。これにより、スイーツと野菜は共起性が低い、揚げ物と野菜は共起性が高いといった一緒に用いられやすい素材の相互関係が学習される。また、皿が中央付近にあり、料理素材が更にその中央付近にあるなど、ラベル別位置存在確率も意味のあるデータになりやすいため、これをラベル推定関数に反映させラベル推定を行うことで、より高精度な素材ラベル認識が可能になる。
なお、ラベル推定関数学習装置10及びラベル推定装置30のラベル推定関数学習プログラム及びラベル推定プログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたラベル推定関数学習プログラム及びラベル推定プログラムをコンピュータシステムに読み込ませ、実行することにより、ラベル推定関数学習装置10及びラベル推定装置30に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10 ラベル推定関数学習装置
20 学習データ記憶部
30 ラベル推定装置
35 クエリ画像入力部
100 ラベル推定器学習部
101 画像特徴抽出部
102 画像特徴抽出フィルタ
103 ラベル推定関数学習部
104 ラベル推定関数記憶部
105 画像特徴学習部
200 ラベル情報学習部
201 ラベル間共起性特徴学習部
202 ラベル別位置存在確率学習部
203 ラベル情報記憶部
205 ラベル間共起性特徴記憶領域
206 ラベル別位置存在確率記憶領域
300 ラベル推定器
301 ラベル推定部

Claims (7)

  1. 複数の要素を備えた被写体の学習画像の複数の画像データと前記複数の画像データの各々に対応付けられた各要素の名称であるラベルのデータとを含む複数の学習データを記憶する学習データ記憶部と、
    前記複数の学習データに基づいて、前記複数の学習画像に存在する要素のラベルのラベル別位置存在確率を計算するラベル別位置存在確率学習部と、
    前記複数の学習データに基づいて、ラベルに対応する要素と他のラベルに対応する要素とが前記学習画像に同時に存在する度合いを表すラベル間共起性特徴を計算するラベル間共起性特徴学習部と、
    前記複数の画像データに基づいて、前記複数の学習画像の各々の複数の画像特徴を抽出する画像特徴抽出部と、
    前記複数の学習データ、前記抽出された前記複数の学習画像の各々の複数の画像特徴、前記計算されたラベル別位置存在確率、及び前記計算されたラベル間共起性特徴に基づくラベル間共起性確率に基づいて、前記複数の画像特徴に対応する複数の要素の存在を推定するラベル推定関数を学習するラベル推定関数学習部と、
    を備えたラベル推定関数学習装置。
  2. 前記ラベル推定関数は、前記ラベル別位置存在確率に対する第1のパラメータと、前記ラベル間共起性確率に対する第2のパラメータとを含み、
    前記ラベル推定関数学習部は、前記第1のパラメータ及び前記第2のパラメータを学習する
    請求項1記載のラベル推定関数学習装置。
  3. 複数の要素を備えた被写体のクエリ画像の画像データを入力するクエリ画像入力部と、
    前記画像データに基づいて、前記クエリ画像の画像特徴を抽出する画像特徴抽出部と、
    前記抽出された画像特徴と、請求項1又は請求項2に記載のラベル推定関数学習装置により学習されたラベル推定関数とに基づいて、前記クエリ画像の複数の要素の各々のラベルを推定するラベル推定部と、
    を備えたラベル推定装置。
  4. 複数の要素を備えた被写体の学習画像の複数の画像データと前記複数の画像データの各々に対応付けられた各要素の名称であるラベルのデータとを含む複数の学習データを記憶する学習データ記憶部の前記複数の学習データに基づいて、前記複数の学習画像に存在する要素のラベルのラベル別位置存在確率を計算し、
    前記複数の学習データに基づいて、ラベルに対応する要素と他のラベルに対応する要素とが前記学習画像に同時に存在する度合いを表すラベル間共起性特徴を計算し、
    前記複数の画像データに基づいて、前記複数の学習画像の各々の複数の画像特徴を抽出し、
    前記複数の学習データ、前記抽出された前記複数の学習画像の各々の複数の画像特徴、前記計算されたラベル別位置存在確率、及び前記計算されたラベル間共起性特徴に基づくラベル間共起性確率に基づいて、前記複数の画像特徴に対応する複数の要素の存在を推定するラベル推定関数を学習する
    ことを含むラベル推定関数学習方法。
  5. 前記ラベル推定関数は、前記ラベル別位置存在確率に対する第1のパラメータと、前記ラベル間共起性確率に対する第2のパラメータとを含み、
    前記ラベル推定関数を学習する際は、前記第1のパラメータ及び前記第2のパラメータを学習する
    請求項4に記載のラベル推定関数学習方法。
  6. 複数の要素を備えた被写体のクエリ画像の画像データを入力し、
    前記画像データに基づいて、前記クエリ画像の画像特徴を抽出し、
    前記抽出された画像特徴と、請求項4又は請求項5に記載のラベル推定関数学習方法により学習されたラベル推定関数とに基づいて、前記クエリ画像の複数の要素の各々のラベルを推定する
    ことを含むラベル推定方法。
  7. コンピュータを、請求項1又は請求項2に記載のラベル推定関数学習装置又は請求項3に記載のラベル推定装置の各部として機能させるためのプログラム。
JP2015143269A 2015-07-17 2015-07-17 ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム Pending JP2017027227A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015143269A JP2017027227A (ja) 2015-07-17 2015-07-17 ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015143269A JP2017027227A (ja) 2015-07-17 2015-07-17 ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2017027227A true JP2017027227A (ja) 2017-02-02

Family

ID=57949745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015143269A Pending JP2017027227A (ja) 2015-07-17 2015-07-17 ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2017027227A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164512A (ja) * 2018-03-19 2019-09-26 株式会社東芝 認識装置、車両システム及びプログラム
JP2019220116A (ja) * 2018-06-22 2019-12-26 日立造船株式会社 情報処理装置、判定方法、および対象物判定プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164512A (ja) * 2018-03-19 2019-09-26 株式会社東芝 認識装置、車両システム及びプログラム
JP2019220116A (ja) * 2018-06-22 2019-12-26 日立造船株式会社 情報処理装置、判定方法、および対象物判定プログラム
JP7219023B2 (ja) 2018-06-22 2023-02-07 日立造船株式会社 情報処理装置および対象物判定プログラム

Similar Documents

Publication Publication Date Title
US10964078B2 (en) System, device, and method of virtual dressing utilizing image processing, machine learning, and computer vision
Chen et al. Describing clothing by semantic attributes
Hidayati et al. Learning and recognition of clothing genres from full-body images
Yamaguchi et al. Parsing clothing in fashion photographs
US8983142B1 (en) Programmatic silhouette attribute determination
WO2020119311A1 (zh) 一种神经网络的训练方法及图像匹配方法、装置
US9317778B2 (en) Interactive content generation
JP6825141B2 (ja) 服飾コーディネーションの推薦方法および装置、電子デバイス、記憶媒体
KR101836056B1 (ko) 이미지 특징 데이터 추출 및 사용
US9020250B2 (en) Methods and systems for building a universal dress style learner
US11809985B2 (en) Algorithmic apparel recommendation
US10769524B1 (en) Non-binary gender filter
CN106055710A (zh) 基于视频的商品推荐方法及装置
US11475500B2 (en) Device and method for item recommendation based on visual elements
Manfredi et al. A complete system for garment segmentation and color classification
Zhao et al. Clothing cosegmentation for shopping images with cluttered background
JP2016057940A (ja) 画像処理装置及び画像処理プログラム
JP5691533B2 (ja) 情報処理装置、方法及びプログラム
CN108596646B (zh) 一种融合人脸属性分析的服装搭配推荐方法
JP2017027227A (ja) ラベル推定関数学習装置、方法、ラベル推定装置、方法及びプログラム
US11797601B2 (en) System and method for image processing for identifying trends
Wei et al. Inferring intrinsic correlation between clothing style and wearers’ personality
Cipcigan et al. Feature selection for subject ranking using soft biometric queries
KR102524049B1 (ko) 대상체 특성 정보에 기반한 사용자 코디 추천 장치 및 방법
Kart et al. Web Based Digital Image Processing Tool for Body Shape Detection