JP6420268B2

JP6420268B2 - 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム

Info

Publication number: JP6420268B2
Application number: JP2016031685A
Authority: JP
Inventors: 早苗藤田; 昭悟木村; 正嗣服部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2018-11-07
Anticipated expiration: 2036-02-23
Also published as: JP2017151588A

Description

この発明は、絵本やイラストなどの画像を直感的評価指標に沿った評価を行う画像評価技術に関する。

一般的に、絵本やイラストなどの画像を探す場合、好きな画家やイラストレーターなどの作品から探したり、「優しい絵」や「迫力のある絵」などといった直感的な評価に合致する画像を探すこと、が考えられる。

近年、画像研究の技術分野では、写真の感情極性（ポジティブ、ネガティブ）を推定したり、人物の笑顔度や風景の自然さを推定したり、より抽象的な特徴を推定する研究が盛んに行われている。例えば、非特許文献１には、写真の感情極性を推定する技術が記載されている。

D. Borth, R. Ji, T. Chen, T. Breuel, and S. Chang, "Large-scale visual sentiment ontology and detectors using adjective noun pairs," Proceedings of the 21st ACM international conference on Multimedia, pp. 223-232, 2013.

しかしながら、例えば「優しい」「迫力がある」といった、より人間の直感的な評価に近い画像の特徴推定を目指した場合、学習データの獲得は容易ではない。

この発明の目的は、上述のような点に鑑みて、評価を推定するための学習データを自動的に獲得し、人間の直感的な評価に近い画像評価を行う技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の画像評価学習装置は、複数の画像と各画像に関するレビューとを関連付けて記憶する画像記憶部と、レビューから画像に関する評価表現を抽出する評価表現抽出部と、レビューにおける評価表現の共起関係に基づいて画像の評価表現に対する評価値を得、画像に評価値を付与した学習データを生成する学習データ生成部と、画像から画像特徴量を抽出する画像特徴量抽出部と、画像特徴量と学習データとを用いて、画像特徴量を入力として評価表現との一致度を示すスコアを出力する学習器を生成する学習部と、を含む。

この発明の第二の態様の画像評価装置は、第一の態様の画像評価学習装置により生成された学習器を記憶する学習器記憶部と、入力された画像から画像特徴量を抽出する画像特徴量抽出部と、学習器へ画像特徴量を入力して評価表現との一致度を示すスコアを得る評価部と、を含む。

この発明の第三の態様の画像検索装置は、第二の態様の画像評価装置により得たスコアと各画像を関連付けて記憶する評価結果記憶部と、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して検索語に合致する画像を抽出する検索部と、を含む。

この発明の画像評価技術によれば、評価表現を推定するための学習データを自動的に獲得することができる。また、その学習データを用いて生成した学習器を用いて、人間の直感的な評価に近い画像評価を行うことができる。

図１は、画像評価学習装置の機能構成を例示する図である。図２は、画像評価学習方法の処理手続きを例示する図である。図３は、画像評価装置の機能構成を例示する図である。図４は、画像評価方法の処理手続きを例示する図である。図５は、画像検索装置の機能構成を例示する図である。図６は、画像検索方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

第一実施形態は、レビュー付きの画像から評価表現を抽出し、評価表現ごとに画像を入力としてスコアを出力する学習器を生成する画像評価学習装置および方法である。第二実施形態は、画像評価学習装置および方法により生成した学習器を用いて、入力された画像に対するスコアを得る画像評価装置および方法である。第三実施形態は、画像評価装置により得たスコアを用いて入力された検索語に合致する画像を出力する画像検索装置および方法である。

＜第一実施形態＞
第一実施形態の画像評価学習装置は、図１に示すように、画像記憶部１、評価表現抽出部２、学習データ生成部３、画像特徴量抽出部４、および学習部５を備える。この画像評価学習装置が後述する各ステップの処理を行うことにより第一実施形態の画像評価学習方法が実現される。

画像評価学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像評価学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像評価学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像評価学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像評価学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像評価学習装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

画像記憶部１には、複数の画像と各画像に関するレビューとが関連付けて記憶されている。例えば、画像は絵本の表紙の画像データであり、レビューはその絵本に対して読者が付与した書評などである。各画像に対するレビューは複数であってもよい。絵本の画像データや書評などはインターネット上の通販サイトなどから入手することが可能である。各画像にはその画像を一意に特定するための識別子が付与されているものとする。

以下、図２を参照して、第一実施形態の画像評価学習方法の処理手続きを説明する。

ステップＳ１において、評価表現抽出部２は、画像記憶部１に記憶されたレビューから画像に関する評価表現を抽出する。抽出された評価表現は画像の識別子とともに学習データ生成部３へ送られる。

評価表現の抽出は、具体的には、以下のように行う。まず、すべてのレビューを形態素解析する。形態素解析では、例えば、UniDic、IPA品詞体系、益岡・田窪体系、JTAGの品詞体系など、汎用的な品詞体系を利用すればよい。ここでは、UniDicによる短単位・長単位によって形態素解析する例を説明する。短単位に一致したのか長単位に一致したのかの区別をせず、とにかく形態素にキーワードが一致したら抽出する方法を取ってもよい。短単位・長単位とは、例えば、「おとうさん」という単語であれば、「おとうさん」全体を１つの単位とみなす場合を長単位とし、「お」を接頭語とみなして「お／とう／さん」のように３つの単位とみなす場合を短単位とする。

次に、短単位が絵に関するキーワードと一致する場合、同一のレビュー中でキーワードと所定の関係にある内容語を長単位の基本形で抽出し、キーワードと組にする。以下、抽出されたキーワードと内容語の組を評価表現と呼ぶ。絵に関するキーワードと一致するか否かの判定は、短単位に所定の決められた単語があるか否かにより判定する。絵に関するキーワードとしては、例えば、「表紙」「絵」「色」「線」「タッチ」「イラスト」「デザイン」「コントラスト」「アート」などを利用することができる。ただし、「絵」「色」に関しては「挿し絵」「色彩」「色合い」など単語の一部にこれらを含む単語も対象としてよい。このとき、「絵本」「色々」「異色」などそのものの意味ではない単語は除いてもよい。所定の関係にある内容語とは、例えば、キーワードと係り受け関係にある内容語や、キーワードの前後数単語（例えば４語）以内に含まれる内容語などとすることができる。ただし、内容を表すキーワードが出現する場合、そのキーワードに関係する内容語は利用しない。例えば、キーワードの前後数単語以内に含まれる内容語を評価表現として利用する場合には、内容を表すキーワード以降の内容語は利用しないものとする。内容を表すキーワードが出現するか否かの判定は、短単位に所定の決められた単語があるか否かにより判定する。内容を表すキーワードとしては、例えば、「ストーリー」「御話」「内容」「文」「文章」「文体」などを利用することができる。具体的には、『色づかいは少ないけれど、かわいらしい絵だし、ストーリーは素敵。』というレビューであれば、内容を表すキーワード「ストーリー」以降に出現する内容語「素敵」は利用しない。

キーワードの前後数単語内に含まれる内容語を抽出する方法とするよりも、係り受け関係にある内容語を抽出する方法とした方が精度良く評価表現を抽出することができる。例えば、「色づかいは少ないけれど、かわいらしい絵に素敵なストーリー。」というレビューであれば、キーワードの前後４語内に含まれる内容語を抽出する方法とした場合、正しい評価表現である「色づかい＝少ない」「絵＝かわいらしい」に加えて、「絵＝素敵」も抽出されることになる。係り受け関係が正しく取れていれば、「素敵」は内容を表すキーワードである「ストーリー」に係っていることがわかるため、「絵＝素敵」は除くことができる。ただし、階層的な係り受け関係が存在する文章など、階層構造の何階層先までが絵に関する評価かの判断が難しかったり、係り受け関係を正しく取るのが難しい文章を対象にする場合や係り受け解析の精度が悪い場合などは、キーワードの前後数単語内に含まれる内容語を抽出する方法が有効である。この場合、キーワードの前後数単語内に含まれる内容語を抽出する方法において、直後に内容を表すキーワードが出現する場合には直前の内容語も利用しない、という制限を設ければ、内容を表すキーワード「ストーリー」の直前の内容語「素敵」は利用しないため、「絵＝素敵」は抽出されなくなる。

抽出された内容語の後ろに否定表現が出現する場合、「NOT+」を付与する。否定表現のスコープを解析した上で、否定表現が係る内容語であれば「NOT+」を付与するようにしてもよい。例えば、『色は毒々しいし、かわいらしい絵ではないと思いました。』というレビューであれば、「色」「絵」をキーワードとして、「色＝毒々しい」「絵＝NOT+かわいらしい」「絵＝思う」の３組が評価表現として抽出されることになる。

なお、評価表現としてすべての内容語を抽出してもよいが、評価分析における評価表現としては形容詞が利用されることが多いため、形容詞のみを抽出してもよい。ただし、形容詞以外でも、組み合わせによっては評価表現として有用な場合もある。例えば、動詞である「押さえる」も「色数を押さえた絵」のような表現であれば、評価表現として有用である。

ステップＳ２において、学習データ生成部３は、画像の識別子が付与された評価表現を入力とし、レビューにおける評価表現の共起関係に基づいて各画像の評価表現に対する評価値を得、各画像の識別子にその評価値を付与した学習データを生成する。したがって、学習データとは、画像の識別子と評価値の組である。評価値は、離散値、例えば、各画像をクラス分けしたクラス（クラス名など、クラス分けされた画像が分類されたクラスを一意に特定するための情報）などであってもよいし、各画像の評価表現に対する当てはまり度合いを表す連続値であってもよい。共起とは、２つの評価表現が同じ画像に関するレビューの中で同時に現れる関係をいう。生成した学習データは学習部５へ送られる。

学習データの生成は、具体的には、以下のように行う。ここでは、一例として、画像をクラス分けして離散的な評価値を付与する方法を説明する。対象とする評価表現をexpAとし、その否定形をexpBとする。例えば、expAを「絵＝細かい」とし、expBを「絵＝NOT+細かい」とする。まず、抽出された各評価表現について、expA, expBと共起するかを調べ、評価表現群A, Bに分類する。expAと共起する評価表現はAに分類し、expAと共起しない評価表現はBに分類する。また、expBと共起し、Aに含まれない評価表現はBに分類する。例えば、A＝{色遣い＝細かい, 絵＝描き込む, …}、B＝{表紙＝ポップ-pop, タッチ-touch＝大胆, …}などとなる。

次に、各画像をClassA, ClassB, ClassO（その他）に分類する。ある画像について絵に関する評価表現がn個あり、そのうちexpAがn_expA個、expBがn_expB個、評価表現群Aと一致する評価表現がn_A個、評価表現群Bと一致する評価表現がn_B個あるとする。このとき、以下のようにして各クラスに分類する。
・n_expA>0かつn_expB=0の場合、ClassAに分類する。
・n_expA>0かつn_expB>0の場合、以下に従う。
・・n_expA-n_expB>thの場合、ClassAに分類する。
・・n_expB-n_expA>thの場合、ClassBに分類する。
・・その他の場合、ClassOに分類する。
・n_expA=0かつn_expB>0の場合、ClassBに分類する。
・n_A=0かつn_B>0の場合、ClassBに分類する。
・その他の場合、ClassOに分類する。

ただし、ClassBの数は、ClassAの数Nを上限とする。ClassBの数がNを超える場合、絵に関する評価表現nがより多い画像を優先的に利用し、残りの画像はすべてClassOとする。thは所定の閾値であり、例えば10とする。

対象とする評価表現と共起する評価表現が付与された絵本は、学習データとして利用しない。これは、表現が異なっていても内容が類似している評価表現による影響を避けるためである。上述の例では、対象とする評価表現expAと共起する評価表現群AはClassOに分類されることになる。また、ClassA, ClassBの分類は、反対の特徴で分類することを目指している。例えば、上述の例であれば、ClassAには「絵が細かい」画像が分類され、ClassBには「タッチが大胆」な画像が分類される。これらはいずれもネガティブな表現ではなく、単に評価軸上の遠い位置にあるものとみなすことができる。

ステップＳ３において、画像特徴量抽出部４は、画像記憶部１に記憶された画像から画像特徴量を抽出する。抽出された画像特徴量は学習部５へ送られる。画像特徴量と特徴数は、例えば表１に示すものを利用することができる。ただし、表１に示す特徴量は一例であってこれに限定されるものではない。

ここで、カラーヒストグラムからは利用されている色・明度・輝度などの情報、統計量からは利用されている色数など、その他の特徴量は画像の複雑さ等を反映するために利用している。

ステップＳ４において、学習部５は、学習データ生成部３から受け取った学習データと、画像特徴量抽出部４から受け取った画像特徴量とを、画像の識別子を用いて対応付け、これらを学習することで、画像特徴量を入力として評価表現との一致度を示すスコアを出力する学習器を生成する。学習器は対象とする評価表現ごとに個々に生成する。生成した学習器は学習器記憶部６へ記憶される。

学習部５は、例えば、ランキング学習を行う。学習データ生成部３では学習データを２つのクラスに分類したが、目指す評価軸は直感的な評価であり、本来はっきりと２値分類できる性質のものではない。例えば、ClassAとClassBとの間に他のクラスを用意してクラスを詳細化してもよい。他のクラスの学習データは、例えば、評価表現群Aなどを利用することができる。他のクラスはさらに複数段階としてもよい。例えば、以下の３パターンにより各段階の学習データを取得して利用することができる。

パターン１：例えば、集合Aに含まれる各評価表現をexpAとの共起頻度や共起率（出現する回数に対して共起する回数）によって重み付けし、その重みによってクラスA₁, …, A_M（Mは分割するクラス数）に対応する評価表現を決定し、各評価表現に一致する画像をそのクラスに分類する。

パターン２：例えば、集合Aに含まれる各評価表現に対してexpAとの共起頻度や共起率によって重み付けする。expAの重みを高くし、expBや集合Bの評価表現の重みをマイナスとして、各画像に付与された評価表現ごとの出現頻度と重みの積によってスコアを計算し、そのスコアによってクラスA, A₁, …, A_M, Bの各クラスに分類する。

パターン３：評価表現自体をクラスタリングし、expAが含まれる評価表現群とその他の評価表現群とに分類する。

学習器には、例えばSVM^RANKを利用する。このとき、ClassA（例えば、「絵＝細かい」）を評価値２、ClassB（例えば、「絵＝NOT+細かい」）を評価値１として、ClassAとClassBの２つのクラスの距離を最大化する問題として解くことで学習を行う。

ランキング学習は一例であって、他の学習器としてもよい。例えば、正解データを学習し、正解か否かを判定する学習器としてもよい。また、例えば、多クラス分類であってもよい。

上記の例では、評価表現すべてについて個別に学習する例を説明した。例えば、「絵が細かい」と「タッチが細かい」とではおそらく同じような意味であろうと推測されるが、そのような評価表現についても別々に学習器を生成することになる。このように、意味が類似すると思われる評価表現については代表的な表現に統合し、統合後の評価表現ごとに学習するように構成してもよい。

学習にあたってレビュー中の各評価表現の出現頻度を特徴量として画像特徴量とともに学習器に与えてもよい。例えば、画像１に関するレビューには「絵＝細かい」「絵＝きれい」が１回ずつ出現し、画像２に関するレビューには「絵＝迫力」「絵＝カラフル」が２回ずつ出現するとして、これらの情報を特徴量として、画像特徴量とともに学習器に与える。この特徴量は、レビュー中の評価表現だけを使ってもよいし、レビューの形態素解析結果をすべて使ってもよい。このように構成することにより、評価対象または検索対象とする画像にレビューが付与されていれば、レビュー中の各評価表現を特徴量として使用して評価や検索を行うことができるようになる。評価対象または検索対象とする画像にレビューが付与されていない場合には、画像特徴量のみを使用して評価や検索を行えばよい。

＜第二実施形態＞
第二実施形態の画像評価装置は、図３に示すように、画像特徴量抽出部４、学習器記憶部６、および評価部７を備える。画像評価装置は、評価表現抽出部２を備えてもよい。この画像評価装置が後述する各ステップの処理を行うことにより第二実施形態の画像評価方法が実現される。

画像評価装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像評価装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像評価装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像評価装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像評価装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像評価装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習器記憶部６は、第一実施形態の画像評価学習装置により生成された学習器を記憶する。ここでは、学習器記憶部６に、事前に設定した各評価表現に対応するすべての学習器が記憶されているものとする。

以下、図４を参照して、第二実施形態の画像評価方法の処理手続きを説明する。

ステップＳ６において、画像特徴量抽出部４は、入力された画像から画像特徴量を抽出する。抽出された画像特徴量は評価部７へ送られる。抽出する画像特徴量は第一実施形態のステップＳ３において抽出した画像特徴量と同じものである。

ステップＳ７において、評価部７は、学習器記憶部６に記憶された学習器を読み出し、各学習器へ画像特徴量を入力し、その学習器に対応する評価表現との一致度を示すスコアを求める。評価に用いる評価表現は予め定めておいた複数の中から利用者が選択する形式としてもよいし、利用者が画像とともに評価したい１つ以上の内容語を入力するものとしてもよい。複数の評価表現それぞれについて評価する場合には、評価表現ごとに対応する学習器を学習器記憶部６から読み出し、各学習器にそれぞれ画像特徴量を入力してスコアを得る。

評価部７は、学習器から得られたスコアを評価結果として出力する。複数の評価表現についてスコアを求めた場合、各評価表現と各スコアとを対応付けた評価結果を出力する。

評価部７は、複数の画像から抽出された画像特徴量を入力として、各画像特徴量をそれぞれ学習器にスコアを得、そのスコアに応じて各画像をランキングした結果を評価結果として出力する構成としてもよい。

画像評価装置へレビュー付きの画像が入力される場合には、レビュー中の語を用いて評価してもよい。この場合には、画像評価装置が評価表現抽出部２を備えるように構成する。ステップＳ５において、評価表現抽出部２がレビューから評価表現を抽出し、ステップＳ７において、評価部７が各評価表現の出現頻度を特徴量として画像特徴量とともに学習器へ入力する。この場合、学習器記憶部６には評価表現の出現頻度を用いて学習したものが記憶されているものとする。

＜第三実施形態＞
第三実施形態の画像検索装置は、図５に示すように、評価結果記憶部８および検索部９を備える。この画像検索装置が後述する各ステップの処理を行うことにより第三実施形態の画像検索方法が実現される。

画像検索装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。画像検索装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。画像検索装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、画像検索装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。画像検索装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。画像検索装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

評価結果記憶部８は、第二実施形態の画像評価装置により求めたスコアを評価対象の画像と関連付けて記憶する。複数の評価表現についてスコアを得た場合には、各評価表現に関するスコアそれぞれを画像と関連付けて記憶しておく。

以下、図６を参照して、第三実施形態の画像検索方法の処理手続きを説明する。

ステップＳ８において、検索部９は、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して、検索語に合致する画像を抽出する。例えば、「絵が細かく色が鮮やかな画像」を検索したい場合には、「絵が細かい」という評価表現に対するスコアが第一の閾値以上であり、「色が鮮やか」という評価表現に対するスコアが第二の閾値以上である画像を評価結果記憶部８に記憶された評価結果から抽出し、出力する。

＜実験結果＞
絵本のレビューと表紙の画像データを利用して評価実験を行った。絵本に関するレビューと表紙画像をWeb上で収集した結果、レビューを獲得できた絵本が17,521冊、そのうち表紙画像を獲得できた絵本が15,484冊であった。

レビューを獲得できた絵本17,521冊に対して、UniDic短・長単位によって形態素解析し、絵に関するキーワードと一致する短単位と、同一レビュー中の前後４語内に含まれる内容語を、長単位の基本形で抽出した。その結果、絵に関する評価表現を抽出できた絵本は13,579冊（77.5％）であった。

抽出した評価表現が10以上15以下であった絵本から、ランダムに選択した21冊、877レビューを対象に、絵に関する評価表現を人手で抽出し、評価表現抽出精度を検証した。検証結果を表２に示す。

人手で抽出した311個の評価表現のうち、64.0％にあたる199個の評価表現を正しく抽出することができた。評価表現の抽出結果を表３に示す。

否定表現と一緒に出てくる評価表現（NOT+）は非常に少ないことがわかる。NOT+を含む評価表現で最も頻度が高いのは「絵＝NOT+可愛い」だが、出現回数は156回（116冊）であり、「絵＝可愛い」の出現回数9,486回（3,707冊）と比べると2％にも満たなかった。さらに、否定表現とは全く一緒に出てこない評価表現も多い。例えば、「絵＝優しい」は、3,372回（1,644冊）出現しているが、否定表現と一緒には出現しなかった。

抽出された評価表現のうち、のべ出現回数が300回以上の58語を対象として、学習データを獲得した結果、ほとんどの評価表現ではClassBもClassAと同程度獲得できた。

獲得した学習データを用いて10分割交差検定を行った。表４に、ClassBとClassAが同数得られた評価表現（すわなち、ベースラインが50％）について、精度が高かった上位10例を示す。

最も結果が良かったのは「絵＝迫力」の68.8％である。

交差検定で精度が50％以上となった34個の評価表現を対象に、ClassOに対して各評価表現に対するランキングを行い、人手によるランキングとの相関係数を調査した。まず、評価者７名に絵本の表紙画像41冊分と形容語30語を提示し、対象絵本の表紙が各形容語にどの程度当てはまるかを５段階評価させた。次に、評価者７名の付与した平均値によって対象絵本をランキングした。このランキング結果と画像評価装置によるランキング結果とを比較した。

表５に、スピアマンの順位相関係数（ρ）で中程度以上の相関があるとされるρ>0.4となった組み合わせを示す。人手評価で提示した形容語と同じ評価表現は少なかったが、例えば「アニメっぽい」に対して「分かる易い」が正の相関を示すなど、異なる評価表現でも相関する語が多くみられた。また、逆の概念になると考えられる「明るい」と「暗い」、「細かい」と「シンプル」、「抽象的」と「象徴的」等は、同じ評価表現に対し逆の相関を示しており、妥当な結果といえる。また、「絵＝シンプル-simple」は評価語「シンプル」を含んでおり、相関係数も0.56と比較的高かった。

このように、例えば「迫力がある」かどうかを68.8％の高精度で推定できたり、人手でランキングした結果と多くの語で中程度以上の相関が得られたりするなど、良好な実験結果が得られた。この実験により、この発明の画像評価技術を用いることにより、人間の直感的な評価に近い特徴に沿った画像評価を行うことができることが示された。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１画像記憶部
２評価表現抽出部
３学習データ生成部
４画像特徴量抽出部
５学習部
６学習器記憶部
７評価部
８評価結果記憶部
９検索部

Claims

複数の画像と各画像に関するレビューとを関連付けて記憶する画像記憶部と、
上記レビューから上記画像に関する評価表現を抽出する評価表現抽出部と、
上記レビューにおける上記評価表現の共起関係に基づいて上記画像の上記評価表現に対する評価値を得、上記画像に上記評価値を付与した学習データを生成する学習データ生成部と、
上記画像から画像特徴量を抽出する画像特徴量抽出部と、
上記画像特徴量と上記学習データとを用いて、画像特徴量を入力として上記評価表現との一致度を示すスコアを出力する学習器を生成する学習部と、
を含む画像評価学習装置。
請求項１に記載の画像評価学習装置であって、
上記評価表現抽出部は、上記レビューを形態素解析した結果に基づいて予め定めたキーワードとそのキーワードと所定の関係にある内容語とを組にして上記評価表現として抽出するものである、
画像評価学習装置。
請求項１または２に記載の画像評価学習装置であって、
上記学習データ生成部は、上記評価表現と他の評価表現との共起関係に基づいて上記他の評価表現を重み付けし、その重みに基づいて上記他の評価表現に関する画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
画像評価学習装置。
請求項１または２に記載の画像評価学習装置であって、
上記学習データ生成部は、上記評価表現と他の評価表現との共起関係に基づいて上記他の評価表現の出現頻度を重み付けした値を求め、その値に基づいて上記他の評価表現に関する画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
画像評価学習装置。
請求項１または２に記載の画像評価学習装置であって、
上記学習データ生成部は、上記評価表現をクラスタリングし、各クラスタに分類された評価表現ごとに各画像をクラスに分類し、そのクラスを上記評価値として付与するものである、
画像評価学習装置。
請求項１から５のいずれかに記載の画像評価学習装置であって、
上記画像特徴量抽出部は、上記画像の色、明度、輝度、または複雑さを反映する指標のいずれか一つ以上を上記画像特徴量として抽出するものである、
画像評価学習装置。
請求項１から６のいずれかに記載の画像評価学習装置により生成された学習器を記憶する学習器記憶部と、
入力された画像から画像特徴量を抽出する画像特徴量抽出部と、
上記学習器へ上記画像特徴量を入力して評価表現との一致度を示すスコアを得る評価部と、
を含む画像評価装置。
請求項７に記載の画像評価装置であって、
入力された画像と関連付けられたレビューから上記画像に関する評価表現を抽出する評価表現抽出部をさらに含み、
上記評価部は、抽出された評価表現の出現回数に基づく特徴量を、上記画像特徴量とともに上記学習器へ入力して上記スコアを得るものである、
画像評価装置。
請求項７または８に記載の画像評価装置により得たスコアと各画像を関連付けて記憶する評価結果記憶部と、
入力された検索語に対応する評価表現のスコアを所定の閾値と比較して上記検索語に合致する画像を抽出する検索部と、
を含む画像検索装置。
画像記憶部に、複数の画像と各画像に関するレビューとが関連付けて記憶されており、
評価表現抽出部が、上記レビューから上記画像に関する評価表現を抽出し、
学習データ生成部が、上記レビューにおける上記評価表現の共起関係に基づいて上記画像の上記評価表現に対する評価値を得、上記画像に上記評価値を付与した学習データを生成し、
画像特徴量抽出部が、上記画像から画像特徴量を抽出し、
学習部が、上記画像特徴量と上記学習データとを用いて、画像特徴量を入力として上記評価表現との一致度を示すスコアを出力する学習器を生成する、
画像評価学習方法。
学習器記憶部に、請求項１０に記載の画像評価学習方法により生成された学習器を記憶されており、
画像特徴量抽出部が、入力された画像から画像特徴量を抽出し、
評価部が、上記学習器へ上記画像特徴量を入力して評価表現との一致度を示すスコアを得る、
画像評価方法。
評価結果記憶部に、請求項１１に記載の画像評価方法により得たスコアと各画像を関連付けて記憶されており、
検索部が、入力された検索語に対応する評価表現のスコアを所定の閾値と比較して上記検索語に合致する画像を抽出する、
画像検索方法。
請求項１から６のいずれかに記載の画像評価学習装置、請求項７または８に記載の画像評価装置、あるいは請求項９に記載の画像検索装置のいずれかとしてコンピュータを機能させるためのプログラム。