JP2018013886A - 認識容易性指標算出装置、方法、及びプログラム - Google Patents

認識容易性指標算出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018013886A
JP2018013886A JP2016141829A JP2016141829A JP2018013886A JP 2018013886 A JP2018013886 A JP 2018013886A JP 2016141829 A JP2016141829 A JP 2016141829A JP 2016141829 A JP2016141829 A JP 2016141829A JP 2018013886 A JP2018013886 A JP 2018013886A
Authority
JP
Japan
Prior art keywords
image
unit
feature descriptor
positive
image feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016141829A
Other languages
English (en)
Other versions
JP6573233B2 (ja
Inventor
数藤 恭子
Kyoko Sudo
恭子 数藤
和彦 村崎
Kazuhiko Murazaki
和彦 村崎
崇之 梅田
Takayuki Umeda
崇之 梅田
光太 山口
Kota Yamaguchi
光太 山口
岡谷 貴之
Takayuki Okaya
貴之 岡谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2016141829A priority Critical patent/JP6573233B2/ja
Publication of JP2018013886A publication Critical patent/JP2018013886A/ja
Application granted granted Critical
Publication of JP6573233B2 publication Critical patent/JP6573233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】認識が容易なタグを特定する。【解決手段】画像特徴生成部240が、画像から得られる複数の画像特徴の各々に対し、ポジティブセットの画像の画像特徴の分布を表すヒストグラムと、ネガティブセットの画像の画像特徴の分布を表すヒストグラムとを生成する。画像特徴分布比較部242が、複数の画像特徴の各々についての、ポジティブセットのヒストグラムとネガティブセットのヒストグラムとの間の距離を計算する。特徴記述子選択部244が、計算された距離について上位N個の画像特徴を画像特徴記述子として選択する。学習部246が、識別器を学習する。信頼度算出部248が、画像特徴記述子を識別器に入力して、高信頼データを取得する。認識容易性評価用識別学習部が、高信頼データに基づいて、識別器を更新し認識容易性評価用識別器として得る。正解率算出部が、認識容易性評価用識別器に基づいて、タグの認識容易性指標を算出する。【選択図】図2

Description

本発明は、認識容易性指標算出装置、方法、及びプログラムに関する。
信頼度の低いタグが付与された大量の画像データの例として、ソーシャルネットワークサービス(SNS)に各ユーザがタグ付きで投稿する画像データ等がある。サービスユーザが自由に付与したタグは非常に多様であり、そうしたタグ付きの画像はコンピュータによる画像認識のための教師データとして有用でありながら、どのようなタグが真に有用かを整理することが課題となる。
例えば、非特許文献1の従来技術では、ウェブから収集したタグ付きの画像データセットから、画像特徴が高い相関をもつ画像のタグ同士は意味的に近いとみなし、それらのタグをもつ画像群を利用してタグ識別器を更新する。
Chen, X., Shrivastava, A., Gupta, A., "Neil: Extracting visual knowledge from web data.", In: ICCV. (Dec 2013) p.1409-1416
上記の非特許文献1の技術では、タグの有無と画像特徴の近さとに着目し、それによって信頼度の低いタグが付けられた大量の画像データの認識を容易にしているが、タグの視覚的な認識容易性の指標を抽出していないため、画像に付与されたタグが有用であるか否かを判別することができず、認識が容易なタグを特定することができない。
本発明は、上記問題点を解決するために成されたものであり、認識が容易なタグを特定することができる認識容易性指標算出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る認識容易性指標算出装置は、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を画像特徴記述子として選択する特徴記述子選択部と、前記ポジティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子、及び前記ネガティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子に基づいて、前記画像特徴記述子から前記画像に前記特定の物体が含まれているか否かを識別するための識別器を学習する学習部と、前記ポジティブセットに含まれる画像から得られる前記画像特徴記述子と、前記ネガティブセットに含まれる画像から得られた前記画像特徴記述子と、前記学習部によって得られた前記識別器とに基づいて、前記ポジティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ポジティブセットの画像に対して前記特定の物体が含まれている度合いを表す第1の信頼度が、予め定められた第1の値以上である前記ポジティブセットの画像を高信頼データとして取得し、前記ネガティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ネガティブセットの画像に対して前記特定の物体が含まれていない度合いを表す第2の信頼度が、予め定められた第2の値以上である前記ネガティブセットの画像を前記高信頼データとして取得する信頼度算出部と、前記信頼度算出部によって得られた前記高信頼データに含まれる画像から得られる複数の前記画像特徴に基づいて、前記学習部によって得られた前記識別器を更新し認識容易性評価用識別器として得る認識容易性評価用識別学習部と、前記ポジティブセットの各画像と、前記ネガティブセットの各画像と、前記認識容易性評価用識別学習部によって得られた前記認識容易性評価用識別器とに基づいて、前記ポジティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていると識別される割合を表す第1の正解率と、前記ネガティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、前記第1の正解率と前記第2の正解率との比を、前記タグの認識容易性指標として算出する正解率算出部と、を含んで構成されている。
本発明に係る認識容易性指標算出方法は、画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を画像特徴記述子として選択するステップと、学習部が、前記ポジティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子、及び前記ネガティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子に基づいて、前記画像特徴記述子から前記画像に前記特定の物体が含まれているか否かを識別するための識別器を学習するステップと、信頼度算出部が、前記ポジティブセットに含まれる画像から得られる前記画像特徴記述子と、前記ネガティブセットに含まれる画像から得られた前記画像特徴記述子と、前記学習部によって得られた前記識別器とに基づいて、前記ポジティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ポジティブセットの画像に対して前記特定の物体が含まれている度合いを表す第1の信頼度が、予め定められた第1の値以上である前記ポジティブセットの画像を高信頼データとして取得し、前記ネガティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ネガティブセットの画像に対して前記特定の物体が含まれていない度合いを表す第2の信頼度が、予め定められた第2の値以上である前記ネガティブセットの画像を前記高信頼データとして取得するステップと、認識容易性評価用識別学習部が、前記信頼度算出部によって得られた前記高信頼データに含まれる画像から得られる複数の前記画像特徴に基づいて、前記学習部によって得られた前記識別器を更新し認識容易性評価用識別器として得るステップと、正解率算出部が、前記ポジティブセットの各画像と、前記ネガティブセットの各画像と、前記認識容易性評価用識別学習部によって得られた前記認識容易性評価用識別器とに基づいて、前記ポジティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていると識別される割合を表す第1の正解率と、前記ネガティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、前記第1の正解率と前記第2の正解率との比を、前記タグの認識容易性指標として算出するステップと、を含んで実行することを特徴とする。
また、本発明の前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記ユニットの出力を画像特徴記述子として選択するようにしてもよい。
また、前記ニューラルネットワークにはCNN(Convolutional Neural Network)を用いるようにしてもよい。
本発明に係るプログラムは、コンピュータを、上記の認識容易性指標算出装置の各部として機能させるためのプログラムである。
本発明の映像パターン学習装置、方法、及びプログラムによれば、画像から得られる複数の画像特徴の各々に対し、ポジティブセットに含まれる画像の各々についての画像特徴の分布を表すヒストグラムと、ネガティブセットに含まれる画像の各々についての画像特徴の分布を表すヒストグラムとの間の距離を計算し、計算された距離について上位N個の画像特徴を画像特徴記述子として選択し、ポジティブセットに含まれる画像から得られる画像特徴記述子、及びネガティブセットに含まれる画像から得られる画像特徴記述子に基づいて、画像に対しタグが表す特定の物体が含まれているか否かを識別するための識別器を学習し、識別器の出力に応じて高信頼データとして取得し、高信頼データに含まれる画像から得られる複数の画像特徴に基づいて、識別器を更新し認識容易性評価用識別器として取得し、ポジティブセットの各画像を認識容易性評価用識別器に入力した場合に、画像に対してタグが表す特定の物体が含まれていると識別される割合を表す第1の正解率と、ネガティブセットの各画像を認識容易性評価用識別器に入力した場合に、画像に対してタグが表す特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、第1の正解率と第2の正解率との比を、タグの認識容易性指標として算出することにより、認識が容易なタグを特定することができる、という効果が得られる。
本発明の実施の形態に係る認識容易性指標算出装置の構成を示すブロック図である。 本発明の実施の形態に係る認識容易性指標算出装置の高信頼データ生成部の一構成例を示す図である。 本発明の実施の形態に係る認識容易性指標算出装置の認識容易性指標算出部の一構成例を示す図である。 本発明の実施の形態に係る認識容易性指標算出装置における認識容易性指標算出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
本発明の実施の形態では、信頼度の低いタグが付与された大量の画像データから、視覚的に認識が容易なタグを選択する技術に関する。具体的には、信頼度の低いタグが付与された大量の画像データに対し、画像データから得られる画像特徴とタグとの関係性に基づいて、視覚的に認識が容易なタグを選択する。
本発明の実施の形態では、タグの有無による画像特徴の分布の変化を用いてタグの認識容易性を評価する。具体的には、何らかの局所的な画像特徴記述子を画像集合に適用し、あるタグが付与された画像集合から得られる画像特徴の分布と、タグが付与されていない画像集合から得られる画像特徴の分布との間の距離を算出し、最も距離が離れているものから認識容易なタグであるとして選出する。
このとき、画像特徴記述子を複数用意することで、分布間の距離の大きいタグと同時に分布間の距離の大きな画像特徴記述子を得ることができる。これは、視覚的な認識において有用な画像特徴記述子であると見ることができる。
<本発明の実施の形態に係る認識容易性指標算出装置の構成>
次に、本発明の実施の形態に係る認識容易性指標算出装置の構成について説明する。図1に示すように、本発明の実施の形態に係る認識容易性指標算出装置100は、CPUと、RAMと、後述する認識容易性指標算出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この認識容易性指標算出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを備えている。
入力部10は、低信頼タグ付き画像集合Dを受け付ける。タグは、画像に特定の物体が含まれていることを表す。低信頼タグ付き画像集合Dには、タグu毎に、タグuが付与された画像の集合であるポジティブセットD と、タグuが付与されていない画像の集合であるネガティブセットD とが含まれている。
本実施の形態では、低信頼タグ付き画像集合Dとして、SNSに投稿されたファッションコーディネート画像と関連するタグとのセットを想定する。本実施の形態で想定するファッションコーディネート画像とタグのセットとを含む画像集合のような低信頼タグ付き画像集合Dでは、信頼度の低いタグ付けがなされている。例えば、ポジティブセットD には、実際にはタグuが含まれていない画像が存在する場合や、ネガティブセットD には、実際にはタグuが含まれる画像が存在する場合があり得る。
演算部20は、画像集合データベース22と、高信頼データ生成部24と、認識容易性指標算出部26とを備えている。
画像集合データベース22は、入力部10によって受け付けた、各タグuのポジティブセットD とネガティブセットD とを含む低信頼タグ付き画像集合Dが格納される。
高信頼データ生成部24は、画像集合データベース22に格納された、ポジティブセットD とネガティブセットD とを入力として高信頼データを生成する。そして、高信頼データ生成部24は、ポジティブセットD とネガティブセットD とから、高信頼データとしてポジティブセットDuC とネガティブセットDuC とを抽出する。高信頼データ生成部24は、図2に示すように、画像特徴生成部240と、画像特徴分布比較部242と、特徴記述子選択部244と、学習部246と、信頼度算出部248とを備えている。
画像特徴生成部240は、タグu毎に、画像集合データベース22に格納されているポジティブセットD 及びネガティブセットD と、予め学習されたニューラルネットワークとに基づいて、ポジティブセットD 及びネガティブセットD に含まれる全ての画像に対し、画像特徴を生成する。
具体的には、まず、画像特徴生成部240は、画像集合データベース22に格納されたポジティブセットD に含まれる画像の各々及びネガティブセットD に含まれる画像の各々を、予め学習されたニューラルネットワークへ入力する。
本実施の形態では、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明する。また、予め学習されたニューラルネットワークとして、Convolutional Neural Network(CNN)を用いる場合を例に説明する。CNNは局所的な画像特徴記述子としてみなすことができる。CNNは内部に多数のフィルタを保持しており、それぞれのフィルタの出力を異なる特徴記述子として用いることができる。なお、本実施の形態では、CNNのフィルタは物体認識のための画像データセットなどを用いて事前に学習されたものを用いる。以下では、CNNの各層において用いられるフィルタをユニットと呼ぶ。
次に、画像特徴生成部240は、画像から得られる各画像特徴としてのニューラルネットワークの各ユニットiの出力に対し、ポジティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP と、ネガティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP とを生成する。
画像特徴分布比較部242は、タグu毎に、複数のユニットiの各々について、画像特徴生成部240によって生成されたポジティブセットD のヒストグラムP とネガティブセットD のヒストグラムP との間の距離を計算する。
本実施の形態では、ヒストグラムP とヒストグラムP と間の距離として、カルバック・ライブラー距離(以下、KL距離と称する)を用いる場合を例に説明する。
画像集合データベース22に格納された低信頼タグ付き画像集合Dから得られる、タグuに対する、ポジティブセットD とネガティブセットD との間のKL距離S(u│D)は、ヒストグラムの各binをxとして以下の式(1)に示すように求められる。なお、xは各ユニットから出力される値を表す。
例えば、uが視覚的に認識容易でないタグである場合、ポジティブセットD の画像特徴の分布はランダムに近くなり、ポジティブセットD の画像特徴の分布とネガティブセットD の画像特徴の分布との差は小さくなる。一方、uが視覚的に認識容易なタグである場合、ポジティブセットD の画像特徴の分布とネガティブセットD の画像特徴の分布との差が大きくなる。
そのため、例えば「赤」「白」といった色の名前のタグや、「ボーダー」「花柄」といったテクスチャのタグの場合、KL距離S(u│D)の値は大きくなる。
そして、画像特徴分布比較部242は、複数のユニットの各々についての、KL距離S(u│D)を出力する。
特徴記述子選択部244は、タグu毎に、画像特徴分布比較部242によって計算された距離について上位N個のユニットの出力を画像特徴記述子として選択する。
具体的には、特徴記述子選択部244は、画像特徴分布比較部242によって計算されたKL距離S(u│D)を入力として、KL距離S(u│D)の値が大きい方からN個のユニットの出力を画像特徴記述子として選択し、選択されたKL距離S(u│D)の上位N個の集合をθとする。
学習部246は、タグu毎に、ポジティブセットD に含まれる画像から得られる、特徴記述子選択部244によって選択された画像特徴記述子、及びネガティブセットD に含まれる画像から得られる、特徴記述子選択部244によって選択された画像特徴記述子に基づいて、画像特徴記述子から、画像に、タグuが表す特定の物体が含まれているか否かを識別するための識別器fを学習する。
具体的には、学習部246は、特徴記述子選択部244で選択された各ユニットの出力y(u│D),i∈θを画像特徴記述子として、ポジティブセットD とネガティブセットD に対し、初期の2クラスの識別器fを生成する。2クラスの識別器fの生成には、例えばナイーブベイズ識別器、ロジスティック回帰、SVM等を用いることができる。
信頼度算出部248は、タグu毎に、ポジティブセットD に含まれる画像から得られる画像特徴記述子と、ネガティブセットD に含まれる画像から得られた画像特徴記述子と、学習部246によって得られた識別器fとに基づいて、高信頼データとしてポジティブセットDuC とネガティブセットDuC とを取得する。
具体的には、信頼度算出部248は、ポジティブセットD 及びネガティブセットD に対し、学習部246によって得られた識別器fを用いた識別を実施し、識別器fの出力値を信頼度として算出する。
例えば、信頼度算出部248は、ポジティブセットD の画像から得られる画像特徴記述子を、学習部246によって得られた識別器fに入力し、ポジティブセットD の画像に対してタグuが表す特定の物体が含まれている度合いを表す第1の信頼度を算出する。
また、信頼度算出部248は、ネガティブセットD の画像から得られる画像特徴記述子を、学習部246によって得られた識別器fに入力し、ネガティブセットD の画像に対してタグuが表す特定の物体が含まれていない度合いを表す第2の信頼度を算出する。
そして、信頼度算出部248は、算出された信頼度の高さに応じて画像を順位づけし、ポジティブセットD とネガティブセットD のうち信頼度が一定以上であるもののみを抽出したセットを、高信頼データのポジティブセットDuC とネガティブセットDuC とする。
具体的には、信頼度算出部248は、第1の信頼度が予め定められた第1の値以上であるポジティブセットD の画像を高信頼データDuC として取得する。また、信頼度算出部248は、第2の信頼度が予め定められた第2の値以上であるネガティブセットD の画像を高信頼データDuC として取得する。
認識容易性指標算出部26は、タグu毎に、高信頼データ生成部24によって出力された高信頼データ(DuC ,DuC )に基づいて、当該タグuについての認識容易性指標Vを算出する。認識容易性指標算出部26は、図3に示すように、認識容易性評価用識別器学習部260と、正解率算出部262とを備えている。
認識容易性評価用識別器学習部260は、タグu毎に、信頼度算出部248によって得られた高信頼データ(DuC ,DuC )と、CNNとに基づいて、高信頼データ(DuC ,DuC )に含まれる画像から得られるCNNの全てのユニットの出力に基づいて、学習部246によって得られた識別器fを更新し認識容易性評価用識別器fとして得る。
具体的には、認識容易性評価用識別器学習部260は、高信頼データのポジティブセットDuC とネガティブセットDuC とを用いて、高信頼データ(DuC ,DuC )をCNNに入力し、CNNの全てのユニットの出力y(u│D)を入力として識別器fを学習させて更新し、認識容易性評価用識別器fとする。
正解率算出部262は、タグu毎に、認識容易性評価用識別器学習部260によって更新された識別器fに、CNNの全てのユニットの出力y(u│D)を入力し、タグuが表す特定の物体の有無を識別して、タグuの認識容易性指標を算出する。
具体的には、正解率算出部262は、ポジティブセットD の各画像と、ネガティブセットD の各画像と、認識容易性評価用識別器学習部260によって得られた認識容易性評価用識別器fとに基づいて、ポジティブセットD の各画像を認識容易性評価用識別器fに入力した場合に、画像に対してタグuが表す特定の物体が含まれていると識別される割合を表す第1の正解率と、ネガティブセットD の各画像を認識容易性評価用識別器fに入力した場合に、画像に対してタグuが表す特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出する。
そして、正解率算出部262は、第1の正解率と第2の正解率との比を、タグの認識容易性指標として算出する。
画像に付与された複数のタグのうちのあるタグの正解率のバランスは、そのタグと見た目の相関が強いかどうかを示すと考えられる。ポジティブセットD とネガティブセットD との正解率が変わらなければ、タグuは見た目との相関は弱く、正解率が大きく変わる場合は、タグuと見た目の相関は強いと考えられる。
そこで、認識容易性評価用識別器fを用いて、ポジティブセットD の正解率とネガティブセットD の正解率との比として、視覚的な認識容易性指標V(u,f)を定義する。このとき、ポジティブセットD とネガティブセットD との数の不均衡の影響を低減するため、それぞれの数が同じになるようにD ,D をリサンプリングしてもよい。
本実施の形態では、認識容易性指標V(u,f)を、認識容易性評価用識別器fを用いたデータD ,D の正解率(accuracy)により以下の式(2)に示すように定義する。
出力部40は、認識容易性評価用識別器学習部260によって得られた、各タグuについての認識容易性指標V(u,f)を結果として出力する。
出力部40により出力された認識容易性指標を用いて、認識容易性指標が高いタグを選択して画像認識器を学習させることで、ノイズが多い学習データセットをそのまま用いて画像認識器を学習するよりも、高精度な画像認識器を構築することが可能である。
<本発明の実施の形態に係る認識容易性指標算出装置の作用>
次に、本発明の実施の形態に係る認識容易性指標算出装置100の作用について説明する。入力部10において低信頼タグ付き画像集合Dを受け付けて画像集合データベース22に格納すると、認識容易性指標算出装置100は、タグu毎に、図4に示す認識容易性指標算出処理ルーチンを実行する。
まず、ステップS100において、画像特徴生成部240は、画像集合データベース22に格納された、ポジティブセットD とネガティブセットD とを取得する。
次に、ステップS102において、画像特徴生成部240は、上記ステップS100で取得したポジティブセットD に含まれる画像の各々及びネガティブセットD に含まれる画像の各々を、CNNへ入力する。そして、画像特徴生成部240は、CNNの各ユニットiの出力に対し、ポジティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP と、ネガティブセットD に含まれる画像の各々についての当該ユニットiの出力の分布を表すヒストグラムP とを生成する。
ステップS104において、画像特徴分布比較部242は、上記ステップS102で生成された、複数のユニットの各々についての、ポジティブセットD のヒストグラムP とネガティブセットD のヒストグラムP との間の距離を、上記式(1)に従って計算する。
ステップS106において、特徴記述子選択部244は、上記ステップS104で計算された距離について上位N個のユニットを画像特徴記述子θとして選択する。
ステップS108において、学習部246は、ポジティブセットD に含まれる画像から得られる、上記ステップS106で選択された画像特徴記述子、及びネガティブセットD に含まれる画像から得られる、上記ステップS106で選択された画像特徴記述子に基づいて、画像特徴記述子から画像に対しタグuが表す特定の物体が含まれているか否かを識別するための識別器fを学習する。
ステップS110において、信頼度算出部248は、ポジティブセットD に含まれる画像から得られる画像特徴記述子と、ネガティブセットD に含まれる画像から得られた画像特徴記述子と、上記ステップS108で得られた識別器fとに基づいて信頼度を算出する。そして、信頼度算出部248は、信頼度が一定以上であるポジティブセットDuC とネガティブセットDuC とを高信頼データとして取得する。
ステップS112において、認識容易性評価用識別器学習部260は、上記ステップS110で得られた高信頼データ(DuC ,DuC )と、CNNとに基づいて、高信頼データ(DuC ,DuC )に含まれる画像から得られる全てのユニットの出力を用いて、上記ステップS108で得られた識別器fを更新し認識容易性評価用識別器fとして得る。
ステップS114において、正解率算出部262は、ポジティブセットD の各画像と、ネガティブセットD の各画像と、上記ステップS112で得られた認識容易性評価用識別器fとに基づいて、上記式(2)に示す、タグuの認識容易性指標V(u,f)を算出する。
ステップS116において、出力部40は、上記ステップS114で得られた、タグuについての認識容易性指標V(u,f)を結果として出力し処理を終了する。
<実験例>
表1は、実際の海外の商品画像のデータセットに、本実施の形態を適用した場合の結果の例である。なお、表1に示す結果は、認識容易性指標V(u,f)が予め設定された閾値よりも大きいタグを「認識容易性が高いタグ」とし、認識容易性指標V(u,f)が予め設定された閾値以下のタグを「認識容易性が低いタグ」としている。
表1に示すように、認識容易性が高いものには色やテクスチャなどの画像と相関が高いと思われるタグが含まれており、認識容易性が低いものには抽象的なタグが含まれている。
以上説明したように、本発明の実施の形態に係る認識容易性指標算出装置によれば、画像から得られるCNNの各ユニットの出力に対し、ポジティブセットに含まれる画像の各々についてのユニットの出力の分布を表すヒストグラムと、ネガティブセットに含まれる画像の各々についてのユニットの出力の分布を表すヒストグラムとの間の距離を計算し、計算された距離について上位N個のユニットを画像特徴記述子として選択し、ポジティブセットに含まれる画像から得られる画像特徴記述子、及びネガティブセットに含まれる画像から得られる画像特徴記述子に基づいて、画像に対しタグが表す特定の物体が含まれているか否かを識別するための識別器を学習し、識別器の出力に応じて高信頼データとして取得し、高信頼データに含まれる画像から得られる全てのユニットの出力に基づいて、識別器を更新し認識容易性評価用識別器として取得し、ポジティブセットの各画像を認識容易性評価用識別器に入力した場合に、画像に対してタグが表す特定の物体が含まれていると識別される割合を表す第1の正解率と、ネガティブセットの各画像を認識容易性評価用識別器に入力した場合に、画像に対してタグが表す特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、第1の正解率と第2の正解率との比を、タグの認識容易性指標として算出することにより、認識が容易なタグを特定することができる。
また、本発明の実施の形態によって、信頼度の低いタグが付与された大量の画像データから視覚的な認識が容易なタグを選び出すことができる。
上述のようにして得られたタグは、画像から自動で認識できる可能性が高く、得られたタグが付与された画像に基づいて画像認識器を学習することで、高精度なタグ認識器を構築できることが期待される。これによって、タグの付与されていない画像に新たにタグを付与する認識システムを構築する際に、多種多様なタグ候補から信頼度が高くなるであろうタグのみを事前に選び出すことで、システム利用者の満足度を高めることができると考えられる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態は、画像から得られる各画像特徴として、予め学習されたニューラルネットワークの各ユニットの出力を用いる場合を例に説明したが、これに限定されるものではなく、他の画像特徴を用いてもよい。
また、上記の実施の形態は、例えば画像検索に用いることができる。タグが付与されたある画像集合から獲得されたタグは、同じドメインの別の画像集合においても有用であると考えられるため、上記の実施の形態によってタグが付与されていない画像集合に対して自動でタグ付けを行うことで、信頼度の高いタグベースの画像検索を実現することができる。
また、上述した実施の形態では、ニューラルネットワークとしてCNNを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。
また、上述した実施の形態では、ヒストグラム間の距離としてカルバック・ライブラー距離を用いる場合を例に説明したがこれに限定されるものではなく、他の距離を用いてもよい。
上述の認識容易性指標算出装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22 画像集合データベース
24 高信頼データ生成部
26 認識容易性指標算出部
40 出力部
100 認識容易性指標算出装置
240 画像特徴生成部
242 画像特徴分布比較部
244 特徴記述子選択部
246 学習部
248 信頼度算出部
260 認識容易性評価用識別器学習部
262 正解率算出部

Claims (5)

  1. 画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成する画像特徴生成部と、
    前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算する画像特徴分布比較部と、
    前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を画像特徴記述子として選択する特徴記述子選択部と、
    前記ポジティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子、及び前記ネガティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子に基づいて、前記画像特徴記述子から前記画像に前記特定の物体が含まれているか否かを識別するための識別器を学習する学習部と、
    前記ポジティブセットに含まれる画像から得られる前記画像特徴記述子と、前記ネガティブセットに含まれる画像から得られた前記画像特徴記述子と、前記学習部によって得られた前記識別器とに基づいて、
    前記ポジティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ポジティブセットの画像に対して前記特定の物体が含まれている度合いを表す第1の信頼度が、予め定められた第1の値以上である前記ポジティブセットの画像を高信頼データとして取得し、
    前記ネガティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ネガティブセットの画像に対して前記特定の物体が含まれていない度合いを表す第2の信頼度が、予め定められた第2の値以上である前記ネガティブセットの画像を前記高信頼データとして取得する信頼度算出部と、
    前記信頼度算出部によって得られた前記高信頼データに含まれる画像から得られる複数の前記画像特徴に基づいて、前記学習部によって得られた前記識別器を更新し認識容易性評価用識別器として得る認識容易性評価用識別学習部と、
    前記ポジティブセットの各画像と、前記ネガティブセットの各画像と、前記認識容易性評価用識別学習部によって得られた前記認識容易性評価用識別器とに基づいて、前記ポジティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていると識別される割合を表す第1の正解率と、前記ネガティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、前記第1の正解率と前記第2の正解率との比を、前記タグの認識容易性指標として算出する正解率算出部と、
    を含む認識容易性指標算出装置。
  2. 前記画像特徴生成部は、前記ポジティブセット及び前記ネガティブセットと、予め学習されたニューラルネットワークとに基づいて、前記ポジティブセットに含まれる画像の各々及び前記ネガティブセットに含まれる画像の各々を前記ニューラルネットワークへ入力し、前記画像から得られる複数の画像特徴の各々としての前記ニューラルネットワークの各ユニットの出力に対し、前記ポジティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記ユニットの出力の分布を表すヒストグラムとを生成し、
    前記特徴記述子選択部は、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記ユニットの出力を画像特徴記述子として選択する
    請求項1に記載の認識容易性指標算出装置。
  3. 前記ニューラルネットワークにはCNN(Convolutional Neural Network)を用いる
    請求項2に記載の認識容易性指標算出装置。
  4. 画像特徴生成部が、画像に含まれる特定の物体を表すタグが付与された画像の集合であるポジティブセット及び前記タグが付与されていない画像の集合であるネガティブセットに基づいて、前記画像から得られる複数の画像特徴の各々に対し、前記ポジティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムと、前記ネガティブセットに含まれる画像の各々についての前記画像特徴の分布を表すヒストグラムとを生成するステップと、
    画像特徴分布比較部が、前記画像特徴生成部によって生成された、複数の前記画像特徴の各々についての、前記ポジティブセットの前記ヒストグラムと前記ネガティブセットの前記ヒストグラムとの間の距離を計算するステップと、
    特徴記述子選択部が、前記画像特徴分布比較部によって計算された前記距離について上位N個の前記画像特徴を画像特徴記述子として選択するステップと、
    学習部が、前記ポジティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子、及び前記ネガティブセットに含まれる画像から得られる、前記特徴記述子選択部によって選択された前記画像特徴記述子に基づいて、前記画像特徴記述子から前記画像に前記特定の物体が含まれているか否かを識別するための識別器を学習するステップと、
    信頼度算出部が、前記ポジティブセットに含まれる画像から得られる前記画像特徴記述子と、前記ネガティブセットに含まれる画像から得られた前記画像特徴記述子と、前記学習部によって得られた前記識別器とに基づいて、
    前記ポジティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ポジティブセットの画像に対して前記特定の物体が含まれている度合いを表す第1の信頼度が、予め定められた第1の値以上である前記ポジティブセットの画像を高信頼データとして取得し、
    前記ネガティブセットの画像から得られる前記画像特徴記述子を前記識別器に入力して、前記ネガティブセットの画像に対して前記特定の物体が含まれていない度合いを表す第2の信頼度が、予め定められた第2の値以上である前記ネガティブセットの画像を前記高信頼データとして取得するステップと、
    認識容易性評価用識別学習部が、前記信頼度算出部によって得られた前記高信頼データに含まれる画像から得られる複数の前記画像特徴に基づいて、前記学習部によって得られた前記識別器を更新し認識容易性評価用識別器として得るステップと、
    正解率算出部が、前記ポジティブセットの各画像と、前記ネガティブセットの各画像と、前記認識容易性評価用識別学習部によって得られた前記認識容易性評価用識別器とに基づいて、前記ポジティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていると識別される割合を表す第1の正解率と、前記ネガティブセットの各画像を前記認識容易性評価用識別器に入力した場合に、前記画像に対して前記特定の物体が含まれていないと識別される割合を表す第2の正解率とを算出し、前記第1の正解率と前記第2の正解率との比を、前記タグの認識容易性指標として算出するステップと、
    を含む認識容易性指標算出方法。
  5. コンピュータを、請求項1〜請求項3の何れか1項に記載の認識容易性指標算出装置の各部として機能させるためのプログラム。
JP2016141829A 2016-07-19 2016-07-19 認識容易性指標算出装置、方法、及びプログラム Active JP6573233B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016141829A JP6573233B2 (ja) 2016-07-19 2016-07-19 認識容易性指標算出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016141829A JP6573233B2 (ja) 2016-07-19 2016-07-19 認識容易性指標算出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018013886A true JP2018013886A (ja) 2018-01-25
JP6573233B2 JP6573233B2 (ja) 2019-09-11

Family

ID=61019498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016141829A Active JP6573233B2 (ja) 2016-07-19 2016-07-19 認識容易性指標算出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6573233B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094622A (ko) * 2019-01-30 2020-08-07 주식회사 스트라드비젼 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치
JP2020126613A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
JP2022024118A (ja) * 2020-12-24 2022-02-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 感知データ検出方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094622A (ko) * 2019-01-30 2020-08-07 주식회사 스트라드비젼 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치
JP2020123330A (ja) * 2019-01-30 2020-08-13 株式会社ストラドビジョン ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
KR102263397B1 (ko) 2019-01-30 2021-06-11 주식회사 스트라드비젼 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치
JP2020126613A (ja) * 2019-01-31 2020-08-20 株式会社ストラドビジョンStradvision,Inc. イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
JP2022024118A (ja) * 2020-12-24 2022-02-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 感知データ検出方法及び装置
US11869247B2 (en) 2020-12-24 2024-01-09 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Perception data detection method and apparatus

Also Published As

Publication number Publication date
JP6573233B2 (ja) 2019-09-11

Similar Documents

Publication Publication Date Title
US11657084B2 (en) Correlating image annotations with foreground features
US10025950B1 (en) Systems and methods for image recognition
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
US20210089827A1 (en) Feature representation device, feature representation method, and program
CN112949710B (zh) 一种图像的聚类方法和装置
JP5214760B2 (ja) 学習装置、方法及びプログラム
CN104537341B (zh) 人脸图片信息获取方法和装置
TW201909112A (zh) 圖像特徵獲取
CN106022317A (zh) 人脸识别方法及装置
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN109919106B (zh) 渐进式目标精细识别与描述方法
CN103824051A (zh) 一种基于局部区域匹配的人脸搜索方法
CN110287313A (zh) 一种风险主体的确定方法及服务器
CN106537387B (zh) 检索/存储与事件相关联的图像
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
JP2010092413A (ja) 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP6573233B2 (ja) 認識容易性指標算出装置、方法、及びプログラム
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN108496185A (zh) 用于对象检测的系统和方法
TW202125323A (zh) 利用人工智慧模組學習臉部辨識的處理方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN112818120A (zh) 习题标注方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190805

R150 Certificate of patent or registration of utility model

Ref document number: 6573233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250