JP6420268B2 - 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム - Google Patents

画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム Download PDF

Info

Publication number
JP6420268B2
JP6420268B2 JP2016031685A JP2016031685A JP6420268B2 JP 6420268 B2 JP6420268 B2 JP 6420268B2 JP 2016031685 A JP2016031685 A JP 2016031685A JP 2016031685 A JP2016031685 A JP 2016031685A JP 6420268 B2 JP6420268 B2 JP 6420268B2
Authority
JP
Japan
Prior art keywords
image
evaluation
learning
expression
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016031685A
Other languages
English (en)
Other versions
JP2017151588A (ja
Inventor
早苗 藤田
早苗 藤田
昭悟 木村
昭悟 木村
正嗣 服部
正嗣 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016031685A priority Critical patent/JP6420268B2/ja
Publication of JP2017151588A publication Critical patent/JP2017151588A/ja
Application granted granted Critical
Publication of JP6420268B2 publication Critical patent/JP6420268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

この発明は、絵本やイラストなどの画像を直感的評価指標に沿った評価を行う画像評価技術に関する。
一般的に、絵本やイラストなどの画像を探す場合、好きな画家やイラストレーターなどの作品から探したり、「優しい絵」や「迫力のある絵」などといった直感的な評価に合致する画像を探すこと、が考えられる。
近年、画像研究の技術分野では、写真の感情極性(ポジティブ、ネガティブ)を推定したり、人物の笑顔度や風景の自然さを推定したり、より抽象的な特徴を推定する研究が盛んに行われている。例えば、非特許文献1には、写真の感情極性を推定する技術が記載されている。
D. Borth, R. Ji, T. Chen, T. Breuel, and S. Chang, "Large-scale visual sentiment ontology and detectors using adjective noun pairs," Proceedings of the 21st ACM international conference on Multimedia, pp. 223-232, 2013.
しかしながら、例えば「優しい」「迫力がある」といった、より人間の直感的な評価に近い画像の特徴推定を目指した場合、学習データの獲得は容易ではない。
この発明の目的は、上述のような点に鑑みて、評価を推定するための学習データを自動的に獲得し、人間の直感的な評価に近い画像評価を行う技術を提供することである。
上記の課題を解決するために、この発明の第一の態様の画像評価学習装置は、複数の画像と各画像に関するレビューとを関連付けて記憶する画像記憶部と、レビューから画像に関する評価表現を抽出する評価表現抽出部と、レビューにおける評価表現の共起関係に基づいて画像の評価表現に対する評価値を得、画像に評価値を付与した学習データを生成する学習データ生成部と、画像から画像特徴量を抽出する画像特徴量抽出部と、画像特徴量と学習データとを用いて、画像特徴量を入力として評価表現との一致度を示すスコアを出力する学習器を生成する学習部と、を含む。
この発明の第二の態様の画像評価装置は、第一の態様の画像評価学習装置により生成された学習器を記憶する学習器記憶部と、入力された画像から画像特徴量を抽出する画像特徴量抽出部と、学習器へ画像特徴量を入力して評価表現との一致度を示すスコアを得る評価部と、を含む。
この発明の第三の態様の画像検索装置は、第二の態様の画像評価装置により得たスコアと各画像を関連付けて記憶する評価結果記憶部と、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して検索語に合致する画像を抽出する検索部と、を含む。
この発明の画像評価技術によれば、評価表現を推定するための学習データを自動的に獲得することができる。また、その学習データを用いて生成した学習器を用いて、人間の直感的な評価に近い画像評価を行うことができる。
図1は、画像評価学習装置の機能構成を例示する図である。 図2は、画像評価学習方法の処理手続きを例示する図である。 図3は、画像評価装置の機能構成を例示する図である。 図4は、画像評価方法の処理手続きを例示する図である。 図5は、画像検索装置の機能構成を例示する図である。 図6は、画像検索方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
第一実施形態は、レビュー付きの画像から評価表現を抽出し、評価表現ごとに画像を入力としてスコアを出力する学習器を生成する画像評価学習装置および方法である。第二実施形態は、画像評価学習装置および方法により生成した学習器を用いて、入力された画像に対するスコアを得る画像評価装置および方法である。第三実施形態は、画像評価装置により得たスコアを用いて入力された検索語に合致する画像を出力する画像検索装置および方法である。
<第一実施形態>
第一実施形態の画像評価学習装置は、図1に示すように、画像記憶部1、評価表現抽出部2、学習データ生成部3、画像特徴量抽出部4、および学習部5を備える。この画像評価学習装置が後述する各ステップの処理を行うことにより第一実施形態の画像評価学習方法が実現される。
画像評価学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像評価学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像評価学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像評価学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像評価学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像評価学習装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
画像記憶部1には、複数の画像と各画像に関するレビューとが関連付けて記憶されている。例えば、画像は絵本の表紙の画像データであり、レビューはその絵本に対して読者が付与した書評などである。各画像に対するレビューは複数であってもよい。絵本の画像データや書評などはインターネット上の通販サイトなどから入手することが可能である。各画像にはその画像を一意に特定するための識別子が付与されているものとする。
以下、図2を参照して、第一実施形態の画像評価学習方法の処理手続きを説明する。
ステップS1において、評価表現抽出部2は、画像記憶部1に記憶されたレビューから画像に関する評価表現を抽出する。抽出された評価表現は画像の識別子とともに学習データ生成部3へ送られる。
評価表現の抽出は、具体的には、以下のように行う。まず、すべてのレビューを形態素解析する。形態素解析では、例えば、UniDic、IPA品詞体系、益岡・田窪体系、JTAGの品詞体系など、汎用的な品詞体系を利用すればよい。ここでは、UniDicによる短単位・長単位によって形態素解析する例を説明する。短単位に一致したのか長単位に一致したのかの区別をせず、とにかく形態素にキーワードが一致したら抽出する方法を取ってもよい。短単位・長単位とは、例えば、「おとうさん」という単語であれば、「おとうさん」全体を1つの単位とみなす場合を長単位とし、「お」を接頭語とみなして「お/とう/さん」のように3つの単位とみなす場合を短単位とする。
次に、短単位が絵に関するキーワードと一致する場合、同一のレビュー中でキーワードと所定の関係にある内容語を長単位の基本形で抽出し、キーワードと組にする。以下、抽出されたキーワードと内容語の組を評価表現と呼ぶ。絵に関するキーワードと一致するか否かの判定は、短単位に所定の決められた単語があるか否かにより判定する。絵に関するキーワードとしては、例えば、「表紙」「絵」「色」「線」「タッチ」「イラスト」「デザイン」「コントラスト」「アート」などを利用することができる。ただし、「絵」「色」に関しては「挿し絵」「色彩」「色合い」など単語の一部にこれらを含む単語も対象としてよい。このとき、「絵本」「色々」「異色」などそのものの意味ではない単語は除いてもよい。所定の関係にある内容語とは、例えば、キーワードと係り受け関係にある内容語や、キーワードの前後数単語(例えば4語)以内に含まれる内容語などとすることができる。ただし、内容を表すキーワードが出現する場合、そのキーワードに関係する内容語は利用しない。例えば、キーワードの前後数単語以内に含まれる内容語を評価表現として利用する場合には、内容を表すキーワード以降の内容語は利用しないものとする。内容を表すキーワードが出現するか否かの判定は、短単位に所定の決められた単語があるか否かにより判定する。内容を表すキーワードとしては、例えば、「ストーリー」「御話」「内容」「文」「文章」「文体」などを利用することができる。具体的には、『色づかい は 少ない けれど、 かわいらしい 絵 だし、 ストーリー は 素敵。』というレビューであれば、内容を表すキーワード「ストーリー」以降に出現する内容語「素敵」は利用しない。
キーワードの前後数単語内に含まれる内容語を抽出する方法とするよりも、係り受け関係にある内容語を抽出する方法とした方が精度良く評価表現を抽出することができる。例えば、「色づかい は 少ない けれど、 かわいらしい 絵 に 素敵 な ストーリー。」というレビューであれば、キーワードの前後4語内に含まれる内容語を抽出する方法とした場合、正しい評価表現である「色づかい=少ない」「絵=かわいらしい」に加えて、「絵=素敵」も抽出されることになる。係り受け関係が正しく取れていれば、「素敵」は内容を表すキーワードである「ストーリー」に係っていることがわかるため、「絵=素敵」は除くことができる。ただし、階層的な係り受け関係が存在する文章など、階層構造の何階層先までが絵に関する評価かの判断が難しかったり、係り受け関係を正しく取るのが難しい文章を対象にする場合や係り受け解析の精度が悪い場合などは、キーワードの前後数単語内に含まれる内容語を抽出する方法が有効である。この場合、キーワードの前後数単語内に含まれる内容語を抽出する方法において、直後に内容を表すキーワードが出現する場合には直前の内容語も利用しない、という制限を設ければ、内容を表すキーワード「ストーリー」の直前の内容語「素敵」は利用しないため、「絵=素敵」は抽出されなくなる。
抽出された内容語の後ろに否定表現が出現する場合、「NOT+」を付与する。否定表現のスコープを解析した上で、否定表現が係る内容語であれば「NOT+」を付与するようにしてもよい。例えば、『色 は 毒々しい し、 かわいらしい 絵 ではない と 思い ました。』というレビューであれば、「色」「絵」をキーワードとして、「色=毒々しい」「絵=NOT+かわいらしい」「絵=思う」の3組が評価表現として抽出されることになる。
なお、評価表現としてすべての内容語を抽出してもよいが、評価分析における評価表現としては形容詞が利用されることが多いため、形容詞のみを抽出してもよい。ただし、形容詞以外でも、組み合わせによっては評価表現として有用な場合もある。例えば、動詞である「押さえる」も「色数を押さえた絵」のような表現であれば、評価表現として有用である。
ステップS2において、学習データ生成部3は、画像の識別子が付与された評価表現を入力とし、レビューにおける評価表現の共起関係に基づいて各画像の評価表現に対する評価値を得、各画像の識別子にその評価値を付与した学習データを生成する。したがって、学習データとは、画像の識別子と評価値の組である。評価値は、離散値、例えば、各画像をクラス分けしたクラス(クラス名など、クラス分けされた画像が分類されたクラスを一意に特定するための情報)などであってもよいし、各画像の評価表現に対する当てはまり度合いを表す連続値であってもよい。共起とは、2つの評価表現が同じ画像に関するレビューの中で同時に現れる関係をいう。生成した学習データは学習部5へ送られる。
学習データの生成は、具体的には、以下のように行う。ここでは、一例として、画像をクラス分けして離散的な評価値を付与する方法を説明する。対象とする評価表現をexpAとし、その否定形をexpBとする。例えば、expAを「絵=細かい」とし、expBを「絵=NOT+細かい」とする。まず、抽出された各評価表現について、expA, expBと共起するかを調べ、評価表現群A, Bに分類する。expAと共起する評価表現はAに分類し、expAと共起しない評価表現はBに分類する。また、expBと共起し、Aに含まれない評価表現はBに分類する。例えば、A={色遣い=細かい, 絵=描き込む, …}、B={表紙=ポップ-pop, タッチ-touch=大胆, …}などとなる。
次に、各画像をClassA, ClassB, ClassO(その他)に分類する。ある画像について絵に関する評価表現がn個あり、そのうちexpAがnexpA個、expBがnexpB個、評価表現群Aと一致する評価表現がnA個、評価表現群Bと一致する評価表現がnB個あるとする。このとき、以下のようにして各クラスに分類する。
・nexpA>0かつnexpB=0の場合、ClassAに分類する。
・nexpA>0かつnexpB>0の場合、以下に従う。
・・nexpA-nexpB>thの場合、ClassAに分類する。
・・nexpB-nexpA>thの場合、ClassBに分類する。
・・その他の場合、ClassOに分類する。
・nexpA=0かつnexpB>0の場合、ClassBに分類する。
・nA=0かつnB>0の場合、ClassBに分類する。
・その他の場合、ClassOに分類する。
ただし、ClassBの数は、ClassAの数Nを上限とする。ClassBの数がNを超える場合、絵に関する評価表現nがより多い画像を優先的に利用し、残りの画像はすべてClassOとする。thは所定の閾値であり、例えば10とする。
対象とする評価表現と共起する評価表現が付与された絵本は、学習データとして利用しない。これは、表現が異なっていても内容が類似している評価表現による影響を避けるためである。上述の例では、対象とする評価表現expAと共起する評価表現群AはClassOに分類されることになる。また、ClassA, ClassBの分類は、反対の特徴で分類することを目指している。例えば、上述の例であれば、ClassAには「絵が細かい」画像が分類され、ClassBには「タッチが大胆」な画像が分類される。これらはいずれもネガティブな表現ではなく、単に評価軸上の遠い位置にあるものとみなすことができる。
ステップS3において、画像特徴量抽出部4は、画像記憶部1に記憶された画像から画像特徴量を抽出する。抽出された画像特徴量は学習部5へ送られる。画像特徴量と特徴数は、例えば表1に示すものを利用することができる。ただし、表1に示す特徴量は一例であってこれに限定されるものではない。
Figure 0006420268
ここで、カラーヒストグラムからは利用されている色・明度・輝度などの情報、統計量からは利用されている色数など、その他の特徴量は画像の複雑さ等を反映するために利用している。
ステップS4において、学習部5は、学習データ生成部3から受け取った学習データと、画像特徴量抽出部4から受け取った画像特徴量とを、画像の識別子を用いて対応付け、これらを学習することで、画像特徴量を入力として評価表現との一致度を示すスコアを出力する学習器を生成する。学習器は対象とする評価表現ごとに個々に生成する。生成した学習器は学習器記憶部6へ記憶される。
学習部5は、例えば、ランキング学習を行う。学習データ生成部3では学習データを2つのクラスに分類したが、目指す評価軸は直感的な評価であり、本来はっきりと2値分類できる性質のものではない。例えば、ClassAとClassBとの間に他のクラスを用意してクラスを詳細化してもよい。他のクラスの学習データは、例えば、評価表現群Aなどを利用することができる。他のクラスはさらに複数段階としてもよい。例えば、以下の3パターンにより各段階の学習データを取得して利用することができる。
パターン1:例えば、集合Aに含まれる各評価表現をexpAとの共起頻度や共起率(出現する回数に対して共起する回数)によって重み付けし、その重みによってクラスA1, …, AM(Mは分割するクラス数)に対応する評価表現を決定し、各評価表現に一致する画像をそのクラスに分類する。
パターン2:例えば、集合Aに含まれる各評価表現に対してexpAとの共起頻度や共起率によって重み付けする。expAの重みを高くし、expBや集合Bの評価表現の重みをマイナスとして、各画像に付与された評価表現ごとの出現頻度と重みの積によってスコアを計算し、そのスコアによってクラスA, A1, …, AM, Bの各クラスに分類する。
パターン3:評価表現自体をクラスタリングし、expAが含まれる評価表現群とその他の評価表現群とに分類する。
学習器には、例えばSVMRANKを利用する。このとき、ClassA(例えば、「絵=細かい」)を評価値2、ClassB(例えば、「絵=NOT+細かい」)を評価値1として、ClassAとClassBの2つのクラスの距離を最大化する問題として解くことで学習を行う。
ランキング学習は一例であって、他の学習器としてもよい。例えば、正解データを学習し、正解か否かを判定する学習器としてもよい。また、例えば、多クラス分類であってもよい。
上記の例では、評価表現すべてについて個別に学習する例を説明した。例えば、「絵が細かい」と「タッチが細かい」とではおそらく同じような意味であろうと推測されるが、そのような評価表現についても別々に学習器を生成することになる。このように、意味が類似すると思われる評価表現については代表的な表現に統合し、統合後の評価表現ごとに学習するように構成してもよい。
学習にあたってレビュー中の各評価表現の出現頻度を特徴量として画像特徴量とともに学習器に与えてもよい。例えば、画像1に関するレビューには「絵=細かい」「絵=きれい」が1回ずつ出現し、画像2に関するレビューには「絵=迫力」「絵=カラフル」が2回ずつ出現するとして、これらの情報を特徴量として、画像特徴量とともに学習器に与える。この特徴量は、レビュー中の評価表現だけを使ってもよいし、レビューの形態素解析結果をすべて使ってもよい。このように構成することにより、評価対象または検索対象とする画像にレビューが付与されていれば、レビュー中の各評価表現を特徴量として使用して評価や検索を行うことができるようになる。評価対象または検索対象とする画像にレビューが付与されていない場合には、画像特徴量のみを使用して評価や検索を行えばよい。
<第二実施形態>
第二実施形態の画像評価装置は、図3に示すように、画像特徴量抽出部4、学習器記憶部6、および評価部7を備える。画像評価装置は、評価表現抽出部2を備えてもよい。この画像評価装置が後述する各ステップの処理を行うことにより第二実施形態の画像評価方法が実現される。
画像評価装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像評価装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像評価装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像評価装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像評価装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像評価装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習器記憶部6は、第一実施形態の画像評価学習装置により生成された学習器を記憶する。ここでは、学習器記憶部6に、事前に設定した各評価表現に対応するすべての学習器が記憶されているものとする。
以下、図4を参照して、第二実施形態の画像評価方法の処理手続きを説明する。
ステップS6において、画像特徴量抽出部4は、入力された画像から画像特徴量を抽出する。抽出された画像特徴量は評価部7へ送られる。抽出する画像特徴量は第一実施形態のステップS3において抽出した画像特徴量と同じものである。
ステップS7において、評価部7は、学習器記憶部6に記憶された学習器を読み出し、各学習器へ画像特徴量を入力し、その学習器に対応する評価表現との一致度を示すスコアを求める。評価に用いる評価表現は予め定めておいた複数の中から利用者が選択する形式としてもよいし、利用者が画像とともに評価したい1つ以上の内容語を入力するものとしてもよい。複数の評価表現それぞれについて評価する場合には、評価表現ごとに対応する学習器を学習器記憶部6から読み出し、各学習器にそれぞれ画像特徴量を入力してスコアを得る。
評価部7は、学習器から得られたスコアを評価結果として出力する。複数の評価表現についてスコアを求めた場合、各評価表現と各スコアとを対応付けた評価結果を出力する。
評価部7は、複数の画像から抽出された画像特徴量を入力として、各画像特徴量をそれぞれ学習器にスコアを得、そのスコアに応じて各画像をランキングした結果を評価結果として出力する構成としてもよい。
画像評価装置へレビュー付きの画像が入力される場合には、レビュー中の語を用いて評価してもよい。この場合には、画像評価装置が評価表現抽出部2を備えるように構成する。ステップS5において、評価表現抽出部2がレビューから評価表現を抽出し、ステップS7において、評価部7が各評価表現の出現頻度を特徴量として画像特徴量とともに学習器へ入力する。この場合、学習器記憶部6には評価表現の出現頻度を用いて学習したものが記憶されているものとする。
<第三実施形態>
第三実施形態の画像検索装置は、図5に示すように、評価結果記憶部8および検索部9を備える。この画像検索装置が後述する各ステップの処理を行うことにより第三実施形態の画像検索方法が実現される。
画像検索装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像検索装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像検索装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像検索装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像検索装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像検索装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
評価結果記憶部8は、第二実施形態の画像評価装置により求めたスコアを評価対象の画像と関連付けて記憶する。複数の評価表現についてスコアを得た場合には、各評価表現に関するスコアそれぞれを画像と関連付けて記憶しておく。
以下、図6を参照して、第三実施形態の画像検索方法の処理手続きを説明する。
ステップS8において、検索部9は、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して、検索語に合致する画像を抽出する。例えば、「絵が細かく色が鮮やかな画像」を検索したい場合には、「絵が細かい」という評価表現に対するスコアが第一の閾値以上であり、「色が鮮やか」という評価表現に対するスコアが第二の閾値以上である画像を評価結果記憶部8に記憶された評価結果から抽出し、出力する。
<実験結果>
絵本のレビューと表紙の画像データを利用して評価実験を行った。絵本に関するレビューと表紙画像をWeb上で収集した結果、レビューを獲得できた絵本が17,521冊、そのうち表紙画像を獲得できた絵本が15,484冊であった。
レビューを獲得できた絵本17,521冊に対して、UniDic短・長単位によって形態素解析し、絵に関するキーワードと一致する短単位と、同一レビュー中の前後4語内に含まれる内容語を、長単位の基本形で抽出した。その結果、絵に関する評価表現を抽出できた絵本は13,579冊(77.5%)であった。
抽出した評価表現が10以上15以下であった絵本から、ランダムに選択した21冊、877レビューを対象に、絵に関する評価表現を人手で抽出し、評価表現抽出精度を検証した。検証結果を表2に示す。
Figure 0006420268
人手で抽出した311個の評価表現のうち、64.0%にあたる199個の評価表現を正しく抽出することができた。評価表現の抽出結果を表3に示す。
Figure 0006420268
否定表現と一緒に出てくる評価表現(NOT+)は非常に少ないことがわかる。NOT+を含む評価表現で最も頻度が高いのは「絵=NOT+可愛い」だが、出現回数は156回(116冊)であり、「絵=可愛い」の出現回数9,486回(3,707冊)と比べると2%にも満たなかった。さらに、否定表現とは全く一緒に出てこない評価表現も多い。例えば、「絵=優しい」は、3,372回(1,644冊)出現しているが、否定表現と一緒には出現しなかった。
抽出された評価表現のうち、のべ出現回数が300回以上の58語を対象として、学習データを獲得した結果、ほとんどの評価表現ではClassBもClassAと同程度獲得できた。
獲得した学習データを用いて10分割交差検定を行った。表4に、ClassBとClassAが同数得られた評価表現(すわなち、ベースラインが50%)について、精度が高かった上位10例を示す。
Figure 0006420268
最も結果が良かったのは「絵=迫力」の68.8%である。
交差検定で精度が50%以上となった34個の評価表現を対象に、ClassOに対して各評価表現に対するランキングを行い、人手によるランキングとの相関係数を調査した。まず、評価者7名に絵本の表紙画像41冊分と形容語30語を提示し、対象絵本の表紙が各形容語にどの程度当てはまるかを5段階評価させた。次に、評価者7名の付与した平均値によって対象絵本をランキングした。このランキング結果と画像評価装置によるランキング結果とを比較した。
表5に、スピアマンの順位相関係数(ρ)で中程度以上の相関があるとされるρ>0.4となった組み合わせを示す。人手評価で提示した形容語と同じ評価表現は少なかったが、例えば「アニメっぽい」に対して「分かる易い」が正の相関を示すなど、異なる評価表現でも相関する語が多くみられた。また、逆の概念になると考えられる「明るい」と「暗い」、「細かい」と「シンプル」、「抽象的」と「象徴的」等は、同じ評価表現に対し逆の相関を示しており、妥当な結果といえる。また、「絵=シンプル-simple」は評価語「シンプル」を含んでおり、相関係数も0.56と比較的高かった。
Figure 0006420268
このように、例えば「迫力がある」かどうかを68.8%の高精度で推定できたり、人手でランキングした結果と多くの語で中程度以上の相関が得られたりするなど、良好な実験結果が得られた。この実験により、この発明の画像評価技術を用いることにより、人間の直感的な評価に近い特徴に沿った画像評価を行うことができることが示された。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 画像記憶部
2 評価表現抽出部
3 学習データ生成部
4 画像特徴量抽出部
5 学習部
6 学習器記憶部
7 評価部
8 評価結果記憶部
9 検索部

Claims (13)

  1. 複数の画像と各画像に関するレビューとを関連付けて記憶する画像記憶部と、
    上記レビューから上記画像に関する評価表現を抽出する評価表現抽出部と、
    上記レビューにおける上記評価表現の共起関係に基づいて上記画像の上記評価表現に対する評価値を得、上記画像に上記評価値を付与した学習データを生成する学習データ生成部と、
    上記画像から画像特徴量を抽出する画像特徴量抽出部と、
    上記画像特徴量と上記学習データとを用いて、画像特徴量を入力として上記評価表現との一致度を示すスコアを出力する学習器を生成する学習部と、
    を含む画像評価学習装置。
  2. 請求項1に記載の画像評価学習装置であって、
    上記評価表現抽出部は、上記レビューを形態素解析した結果に基づいて予め定めたキーワードとそのキーワードと所定の関係にある内容語とを組にして上記評価表現として抽出するものである、
    画像評価学習装置。
  3. 請求項1または2に記載の画像評価学習装置であって、
    上記学習データ生成部は、上記評価表現と他の評価表現との共起関係に基づいて上記他の評価表現を重み付けし、その重みに基づいて上記他の評価表現に関する画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
    画像評価学習装置。
  4. 請求項1または2に記載の画像評価学習装置であって、
    上記学習データ生成部は、上記評価表現と他の評価表現との共起関係に基づいて上記他の評価表現の出現頻度を重み付けした値を求め、その値に基づいて上記他の評価表現に関する画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
    画像評価学習装置。
  5. 請求項1または2に記載の画像評価学習装置であって、
    上記学習データ生成部は、上記評価表現をクラスタリングし、各クラスタに分類された評価表現ごとに各画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
    画像評価学習装置。
  6. 請求項1から5のいずれかに記載の画像評価学習装置であって、
    上記画像特徴量抽出部は、上記画像の色、明度、輝度、または複雑さを反映する指標のいずれか一つ以上を上記画像特徴量として抽出するものである、
    画像評価学習装置。
  7. 請求項1から6のいずれかに記載の画像評価学習装置により生成された学習器を記憶する学習器記憶部と、
    入力された画像から画像特徴量を抽出する画像特徴量抽出部と、
    上記学習器へ上記画像特徴量を入力して評価表現との一致度を示すスコアを得る評価部と、
    を含む画像評価装置。
  8. 請求項7に記載の画像評価装置であって、
    入力された画像と関連付けられたレビューから上記画像に関する評価表現を抽出する評価表現抽出部をさらに含み、
    上記評価部は、抽出された評価表現の出現回数に基づく特徴量を、上記画像特徴量とともに上記学習器へ入力して上記スコアを得るものである、
    画像評価装置。
  9. 請求項7または8に記載の画像評価装置により得たスコアと各画像を関連付けて記憶する評価結果記憶部と、
    入力された検索語に対応する評価表現のスコアを所定の閾値と比較して上記検索語に合致する画像を抽出する検索部と、
    を含む画像検索装置。
  10. 画像記憶部に、複数の画像と各画像に関するレビューとが関連付けて記憶されており、
    評価表現抽出部が、上記レビューから上記画像に関する評価表現を抽出し、
    学習データ生成部が、上記レビューにおける上記評価表現の共起関係に基づいて上記画像の上記評価表現に対する評価値を得、上記画像に上記評価値を付与した学習データを生成し、
    画像特徴量抽出部が、上記画像から画像特徴量を抽出し、
    学習部が、上記画像特徴量と上記学習データとを用いて、画像特徴量を入力として上記評価表現との一致度を示すスコアを出力する学習器を生成する、
    画像評価学習方法。
  11. 学習器記憶部に、請求項10に記載の画像評価学習方法により生成された学習器を記憶されており、
    画像特徴量抽出部が、入力された画像から画像特徴量を抽出し、
    評価部が、上記学習器へ上記画像特徴量を入力して評価表現との一致度を示すスコアを得る、
    画像評価方法。
  12. 評価結果記憶部に、請求項11に記載の画像評価方法により得たスコアと各画像を関連付けて記憶されており、
    検索部が、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して上記検索語に合致する画像を抽出する、
    画像検索方法。
  13. 請求項1から6のいずれかに記載の画像評価学習装置、請求項7または8に記載の画像評価装置、あるいは請求項9に記載の画像検索装置のいずれかとしてコンピュータを機能させるためのプログラム。
JP2016031685A 2016-02-23 2016-02-23 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム Active JP6420268B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016031685A JP6420268B2 (ja) 2016-02-23 2016-02-23 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016031685A JP6420268B2 (ja) 2016-02-23 2016-02-23 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017151588A JP2017151588A (ja) 2017-08-31
JP6420268B2 true JP6420268B2 (ja) 2018-11-07

Family

ID=59739293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016031685A Active JP6420268B2 (ja) 2016-02-23 2016-02-23 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6420268B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019082853A (ja) * 2017-10-30 2019-05-30 日立造船株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN109978812A (zh) * 2017-12-24 2019-07-05 奥林巴斯株式会社 摄像系统、学习装置、摄像装置和学习方法
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110781633A (zh) * 2019-10-30 2020-02-11 广东博智林机器人有限公司 基于深度学习模型的图文设计质量检测方法、装置及系统
CN113486744B (zh) * 2021-06-24 2023-02-14 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092134A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 文書情報解析用コンピュータプログラムならびに文書情報解析装置および方法
JP2009301121A (ja) * 2008-06-10 2009-12-24 Nikon Systems Inc 印象判定処理方法、プログラム、及び、画像印象判定装置
US9129008B1 (en) * 2008-11-10 2015-09-08 Google Inc. Sentiment-based classification of media content

Also Published As

Publication number Publication date
JP2017151588A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
Nie et al. Multimedia answering: enriching text QA with media information
Cappallo et al. New modality: Emoji challenges in prediction, anticipation, and retrieval
Gao et al. Modeling interestingness with deep neural networks
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
US10482146B2 (en) Systems and methods for automatic customization of content filtering
US20230177360A1 (en) Surfacing unique facts for entities
CN111401045B (zh) 一种文本生成方法、装置、存储介质和电子设备
Romeo et al. Neural attention for learning to rank questions in community question answering
CN107506472B (zh) 一种学生浏览网页分类方法
Patel et al. Dynamic lexicon generation for natural scene images
Ozkan et al. A large-scale database of images and captions for automatic face naming
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
Wen et al. Cross-lingual cross-platform rumor verification pivoting on multimedia content
Bleoancă et al. Lsi based mechanism for educational videos retrieval by transcripts processing
Xu et al. Measuring semantic relatedness between flickr images: from a social tag based view
Rahul et al. Social media sentiment analysis for Malayalam
Wijewickrema Impact of an ontology for automatic text classification
He et al. Discovering interdisciplinary research based on neural networks
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Hung et al. Aafndl-an accurate fake information recognition model using deep learning for the vietnamese language
Blooma et al. Clustering Similar Questions In Social Question Answering Services.
Bhargava et al. High-throughput and language-agnostic entity disambiguation and linking on user generated data
Kumar et al. Domain and Intelligence Based Multimedia Question Answering System.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181011

R150 Certificate of patent or registration of utility model

Ref document number: 6420268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150