JP2011221794A - 画像選定装置 - Google Patents

画像選定装置 Download PDF

Info

Publication number
JP2011221794A
JP2011221794A JP2010090393A JP2010090393A JP2011221794A JP 2011221794 A JP2011221794 A JP 2011221794A JP 2010090393 A JP2010090393 A JP 2010090393A JP 2010090393 A JP2010090393 A JP 2010090393A JP 2011221794 A JP2011221794 A JP 2011221794A
Authority
JP
Japan
Prior art keywords
image
document
attribute
word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010090393A
Other languages
English (en)
Inventor
Tomoaki Konno
智明 今野
Ryoichi Kawada
亮一 川田
Emi Meido
絵美 明堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010090393A priority Critical patent/JP2011221794A/ja
Publication of JP2011221794A publication Critical patent/JP2011221794A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力文書に適した画像を付与する画像選定装置を提供する。
【解決手段】入力文書よりキーワード抽出部2でキーワードを抽出し、属性判別部3で入力文書の属性を判別する。重み付与部4は単語重みDB5を検索して各キーワードと属性とに対する単語重みを算出する。画像検索部6は単語・画像DB7内の各画像を検索して各キーワードと属性に対応する候補画像の関連度を求め、各候補画像に対して単語重みと関連度とから画像選択スコアを算出し、該スコアに基づいて候補画像の中から入力文書に対して付与すべき画像を選定する。
【選択図】図2

Description

本発明は文章用の画像選定装置に関し、特に文章の内容および属性に基づいて適した画像を自動で選定し、付与する画像選定装置に関する。
ブログユーザ(ブログ著者)がブログ記事を書くときに文書と共に文書に適した画像を付与するケースはよくある。しかし、文書に付与するために、ユーザが自分で膨大な画像群の中から文書に適した画像を手動で選定することは大変な労力を要する。従って、ユーザが望む画像を自動で選択し付与することができれば、ユーザの画像検索・画像付与の手間が軽減される。
またこうした画像の自動選択付与はブログに限らず著者が所定のテーマの下で書いた一般の文書や用意したプレゼンテーション資料などに対しても、例えば見出しに添えるなどして活用することができるため、非常に有用である。
こうした事情に関連する、または部分的に関連する従来技術として、以下の特許文献1〜3および非特許文献1〜4に開示された技術がある。
特許文献1にはブログのような様々なシーンが表現される文書に対して、文書を作成するユーザの嗜好や感性を文書から抽出し、それに合った画像を提供する技術が開示されている。文書と画像の関連情報として、画像に文書から抽出されたキーワードを関連付けて記録しておく。ユーザが入力した新たな文書から、キーワードを抽出し、予め保持しておいたキーワードと抽出されたキーワードの類似度をはかり、類似度の高いものを選択する。
また特許文献1に開示された技術では、ユーザが過去に書いた文書群において、よく用いられる単語をキーワードとして検索する。例えば、「食べる」という単語をよく用いていて、入力文書にも「食べる」が含まれていた場合には、複数のキーワード候補の中から「食べ物」をキーワードとして、画像を検索する。これらによって、ユーザの嗜好や感性に合った所望の画像が得られるとしている。
特許文献2には次のような技術が開示されている。写真などのように複数の物体が含まれている画像に対して、どのような物体が写っているか判別する精度を高める。文書付き画像を分割画像に分割し、その部分画像に対しても、元の文書を付随させる。分割画像同士で類似しているものを分類し、その分類されたカテゴリの中で、頻出する単語を分類の意味内容を示す単語として抽出して、画像の分類(注釈づけ)を行うことを特徴としている。未知画像が入力された場合には、未知画像を未知分割画像に分割し、その未知分割画像と最も類似する分類に対応する単語を利用して、その未知画像の分類(注釈づけ)を行う。
特許文献3には次のような技術が開示されている。ブログなどの著者属性(性別や年代など)の推定のために、視覚情報を用いている。実施例として、ウェブページを画面キャプチャして得られたキャプチャ画像を視覚情報として扱い、その視覚情報をもとに著者の属性を判断している。予め、視覚情報である画像データと属性情報の対応関係をSVMなどを使って学習を行う。この学習したモデルを利用することにより、未知の視覚情報の入力に対して著者の属性を推定することができる。
非特許文献1ではユーザ入力単語から単語の用いられる様々な文脈を反映した画像を選択してユーザに提示するために、写真投稿サイトで複数の単語がタグ付けされた画像から入力単語に関連する画像を選択し、選択画像のタグの単語を用いて画像のクラスタリングを行い、続いて画像特徴によるクラスタリングを行い、得られた各クラスタに対してタグの整合性や所属画像数などに基づく順位付けを行った上で上位複数クラスタの代表画像をユーザに提示する技術が開示されている。
非特許文献2では自然言語テキストからキーフレーズを複数抽出してキーフレーズ毎に対応する画像を選択し、キーフレーズの重要度などを考慮して選択された複数の画像をレイアウトして元の自然言語テキストを表すようにする技術が開示されている。
非特許文献3では日本語ブログテキストに対してその著者を"男性"、"女性"の2つのクラス(または"性別不明"を加えた3つのクラス)に分類する技術が開示されている。性別を推定するための素性として、ブログテキスト中の最頻度の一人称代名詞、各機能語の出現頻度、所定数の形態素(プロフィール欄の情報によって男女識別を与えたブログテキスト学習データ中の形態素で男女それぞれにつきχ二乗値が上位となる所定数の形態素)、を用いる。これらを要素とする特徴ベクトル(例えば一人称代名詞の要素は最頻度のものに"1"を、それ以外には"0"を与え、各機能語の要素は出現頻度の値を与え、形態素の要素は、ブログテキスト中に出現すれば"1"、出現しなければ"0"を与えるなどの特徴ベクトル)の入力空間をSVM(Support Vector Machine)を用いて特徴空間で識別面により分類することで男女の区別を得る。
非特許文献4にはブログ記事の著者の年齢(年代)を推定する技術が開示されている。所定のウィンドウ幅を設定し、該ウィンドウ内に現れるブログ記事中の共起語のうち年代を特定しやすい所定の共起語を素性とし、その利用頻度に基づいて年代の推定量を求める分類器を各素性毎に作る。所定の学習データ(著者年代が付与されたブログ記事群)を用いて各分類器に対する重みづけ(特定の年代において推定値が偏る分類器ほど大きな重みを付与する)を行い、各素性の分類器の推定量に重みを積算してから足し合わせた推定量を最終的な分類器の推定量とする(ブースティング)。未知文書(ブログ記事)の著者年代は該分類器の値を最大とするような引数として出力される。
また画像検索の観点から従来技術を述べる。一般に画像検索には、画像に予め対応付けられたタグと与えられたキーワードに基づく検索方式であるText-Based Image Retrieval(TBIR)と、画像の特徴などコンテンツの内容に基づく検索方式であるContents-Based Image Retrievalがある。
従来のTBIRの代表的なサービスとして,例えば"Google画像検索"が存在する.このような検索エンジンでは,ユーザがキーワードを入力して,検索したい画像を探す.キーワードは,一つでもよいし複数でも構わない.一般に検索対象画像を絞り込むために,よく使われるのは単純なAND検索である.
特開 2008-242515号公報 文書作成支援装置 特開 2000-353173号公報 文書付き画像の分類方法、分類装置および記録媒体 特開 2009-294925号公報 属性推定システムおよび属性推定方法
H. Li, J. Tang, G. Li, T. Chua : Word2Image: Towards Visual Interpretation of Words, Proceedings of the 16th ACM international conference on Multimedia, pp. 813-816 (2008) X. Zhu, A. B. Goldberg, M. Eldawy, C. R. Dyer and B. Strock : A Text-to-Picture Synthesis System for Augmenting Communication, Proceedings of the 22th AAAI conference, pp. 1590-1596 (2007) 池田大介,南野朋之,奥村学:blogの著者の性別推定,言語処理学会 第12回年次大会,C2-3 (2006) 泉雅貴,三浦孝雄:ブースティングに基づくBlog著者年齢推定,第1回データ工学と情報マネジメントに関するフォーラム,A3-5 (2009)
しかしながら上記の従来技術では、単に文書中のキーワードのみから抽出されたような文書の表面的な内容に加えて、文書の著者の属性や、文書内容の属性(文章の表面的内容の前提にある背景事情など)に基づいて文書に適した画像を検索付与することはできない。
すなわち特許文献1に開示された技術では、画像に関連付けられたタグと未知の入力文書から抽出された単語の類似度を求めるとしているが、その類似度の定義は不明である。なお一般の周知技術である単語を用いた画像検索においては、検索質問(1つ以上の単語)を与え、その検索質問が画像に関連付けられているタグにマッチするかどうかで検索が行われるので、これを考慮すると類似度とは単語(単語群)の一致である。したがって、検索質問に用いた単語のうち、1つでもタグに含まれていなければ、その画像は検索候補からはずれてしまい、所望の画像が得られない。また他の類似度を用いたとしても文書内容の属性を考慮できるとは限らない。
さらに、特許文献1では、ユーザの嗜好や感性を反映した画像を提示できるとしている。しかし、画像検索に用いる画像データベースを作成する際に、各ユーザが作成した文書と画像の組み合わせを用いて、検索の際の検索質問にもユーザの書いた文書から抽出したキーワードを使うだけであり、ユーザの嗜好が十分に反映されていない。ユーザの書いた過去の文書において頻出の単語をキーワードとするという手法も、一般的にユーザ属性および文書属性の把握を行うにあたって同一ユーザによる過去の類似文書を必要とするため十分ではない。
また特許文献2では、ある分割画像と単語の類似度を保持しておき、その関連性を利用して、未知の画像に対しての注釈(タグ)づけを行っているが、未知画像に対する単語の付与であり、画像検索ならびに画像付与を目的としていない。
また、非特許文献1および2に開示された技術では単語のみ、または文書中のフレーズのみから対応する画像を検索しているので、ブログ文書などを入力としてブログ文書の著者の属性(好みなど)を反映した画像が選出されるとは限らない。
すなわち非特許文献(1)のシステムは、単語を与えたときに、その単語に合った複数画像に変換するシステムである。ある単語に対する出力画像の多様性などを重視したシステムであるが、文書への画像付与を対象とはしていない。
また、非特許文献(2)のシステムは、文章を与えたときに,複数のキーフレーズを抽出し,そのそれぞれのフレーズに合った画像のレイアウトを考慮して出力するするシステムである。それぞれのフレーズに合った画像が複数出力されるが、文書に適した画像が付与されているとは言えない。
また特許文献3および非特許文献3、4に開示された技術も文書に対して画像を選択する技術ではないため、文書の属性を考慮した画像付与は行えない。
また前述のとおり,一般の画像検索エンジンでは、前述の特許文献1の説明でも述べたように、単純なAND検索では与えたキーワードのいずれか一つでも画像に対応するタグに含まれていなければ、その画像は検索対象から外れ所望の画像を得られない。また、画像検索エンジンの目的は、ある単語(群)にマッチする画像を検索するという意味合いが強く、文書にマッチする画像を検索するという目的には必ずしも一致しておらず、単純な単語の組み合わせによる検索では所望の画像が得られない可能性がある。ユーザがキーワードを能動的に考えて検索を行う必要がある点も問題であると考えられる。
本発明は上記した従来技術の課題を解決し、文書に対して、文書内容に適した画像を精度良く選定する文章用画像選定装置を提供することを目的とする。
上述した従来技術の課題を解決するために、本発明の画像選定装置は、入力文書に適した画像を選定する画像選定装置であって、前記入力文書から該入力文書に含まれる複数のキーワードを含むキーワード情報を抽出するキーワード抽出部と、複数の単語と該複数の単語の各々に対応付けられる単語重みとの情報を格納する単語重みデータベースと、前記キーワード情報を受け取り、前記キーワードを前記格納された単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、前記キーワードの各々に対して検索一致する単語に対応する単語重みを求め、該単語重みを用いて前記キーワードの前記入力文書におけるキーワード重みを算出する重み付与部と、複数の単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する単語との間の関連度を対応付け、該対応付けられた単語、画像および関連度の情報を保存する単語・画像データベースと、前記キーワード情報および前記キーワード重みを受け取り、前記キーワードを前記保存された単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する単語に対応する画像を前記キーワードに対する候補画像として求め、かつ該候補画像と前記検索一致した単語との間の関連度を前記キーワードと前記候補画像との間の画像キーワード関連度として求め、該画像キーワード関連度と前記キーワード重みとを用いて前記候補画像の各々に対して画像選択スコアを計算し、該画像選択スコアに基づいて前記候補画像の中から前記入力文書に適した画像を選定する画像検索部とを備えることを第1の特徴とする。
また、前記入力文書から該入力文書の属性を抽出する属性判別部を備え、前記単語・画像データベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する属性考慮単語との間の関連度を対応付け、該対応づけられた属性考慮単語、画像および関連度の情報を保存し、前記画像検索部は、前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記保存された属性考慮単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する画像を前記候補画像として求め、かつ該候補画像と前記検索一致した属性考慮単語との間の関連度を前記画像キーワード関連度として求めることを第2の特徴とする。
前記単語・画像データベースは学習用文書・画像データベース、学習用文書・画像キーワード抽出部、画像クラスタリング部、学習用文書・画像属性判別部および関連度学習部を含み、前記学習用文書・画像データベースは複数の文書と該文書の各々に対応する複数の画像とを含む所定の学習用画像付き文書を保存し、前記学習用文書・画像キーワード抽出部は前記学習用画像付き文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用画像付き文書と対応づけ、前記画像クラスタリング部は前記学習用画像付き文書に含まれる全画像を画像特徴量に基づいて複数の画像クラスタに分類し、前記学習用文書・画像属性判別部は前記学習用画像付き文書に含まれる各文書の属性を抽出して抽出元の学習用画像付き文書と対応づけ、前記関連度学習部は、前記学習用文書・画像キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用画像付き文書のうち当該キーワードを含む文書に前記対応する画像の数である第1の数を求め、前記画像クラスタの各々に対して該画像クラスタに含まれる画像を含む前記学習用画像付き文書のうち、前記前記学習用文書・画像属性判別部にて抽出された属性が所定の属性の文書でありかつ前記キーワードを含む文書に前記対応する画像の数である第2の数を求め、前記単語・画像データベースにおける前記対応づけられた属性考慮単語、画像および関連度として当該所定の属性と当該キーワード、当該画像クラスタに含まれる各画像および(前記第2の数)÷(前記第1の数)の値を保存することを第3の特徴とする。
また、前記画像クラスタリング部が前記学習用画像付き文書の全体に含まれる全画像をあらかじめ各画像に対応する前記学習用画像付き文書の属性によって分類した上で画像特徴量に基づいて複数の画像クラスタに分類することを第4の特徴とする。
また、前記単語重みデータベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対応づけられる単語重みの情報を格納し、前記重み付与部は前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記格納された属性考慮単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する単語重みを前記キーワード重みとして算出することを第5の特徴とする。
前記単語重みデータベースは学習用文書データベース、学習用文書キーワード抽出部、学習用文書属性判別部および単語重み学習部を含み、前記学習用文書データベースは複数の文書を含む学習用文書を格納し、前記学習用文書キーワード抽出部は前記学習用文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用文書と対応づけ、前記学習用文書属性判別部は前記学習用文書に含まれる各文書の属性を抽出して抽出元の学習用文書と対応づけ、前記単語重み学習部は、前記学習用文書キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用文書のうち当該キーワードを含む文書の数である第3の数を求め、前記学習用文書属性判別部にて抽出された属性が所定の属性でありかつ当該キーワードを含む文書の数である第4の数を求め、前記単語重みデータベースにおける前記対応づけられた属性考慮単語および単語重みとして当該所定の属性と当該キーワードおよび(前記第4の数)÷(前記第3の数)の値を格納することを第6の特徴とする。
また、前記重み付与部が、前記キーワード情報を用いて前記キーワードの前記入力文書における頻度を求め、該頻度と、前記キーワードに対応する前記単語重みと、を用いて前記キーワード重みを算出することを第7の特徴とする。
前記入力文書の入力ユーザが所有する複数の画像を蓄積するユーザ画像データベースを備え、前記画像検索部が前記選定した画像をさらに、当該画像と類似する画像を前記ユーザ画像データベースから選出することにより、当該選出された画像に置き換えることを第8の特徴とする。
前記第1の特徴によれば、入力文書から抽出されたキーワード群と画像の関連度のみを考慮するだけではなく、入力文書中のキーワードの重みも考慮して画像検索を行うことで、入力文書により適した画像検索を行う精度を高めることができる。
前記第2〜7の特徴によればさらに、文書の属性に合った画像を検索する精度を高めることができる。
前記第8の特徴によればさらに、入力文書の入力ユーザに対して、入力文書に適しかつ入力文書に付与して利用可能な画像を提供できるようになる。
本願発明の文章用画像選定装置による処理の流れを概略的に示す図である。 本願発明の文章用画像選定装置の属性を考慮した実施形態における構成を示す図である。 本願発明の文章用画像選定装置の属性を用いない実施形態における構成を示す図である。 ブログ文書から属性情報を抽出するのに用いることができるプロフィール欄の一例を示す図である。 属性を用いない実施形態における単語重みDBのデータ構成例を示す図である。 属性を用いる実施形態における単語重みDBのデータ構成例を示す図である。 単語重みDBが重み算出情報を学習し保存するための構成を示す図である。 単語重みDBの学習用文書DBにおける属性付与後のデータ例を示す図である。 属性を用いない実施形態における単語・重みDBのデータ構成例を示す図である。 属性を用いる実施形態における単語・重みDBのデータ構成例を示す図である。 単語・画像DBが関連度を学習し保存するための構成を示す図である。 単語・画像DBの学習用文書・画像DBに格納された学習用データ構成例を示す図である。 ユーザ画像DBに格納されたデータ構成例を示す図である。 入力文書に対する帰属度の例を示す図である。 単語に対する帰属度の例を示す図である。 出現確率を計算する式(数式40)〜(数式42)における項の意味を模式的に説明する図である。
以下に、図面を参照して本発明の実施形態を詳細に説明する。図1は本発明の処理の流れを概略的に示す図である。(a)に示すようにブログ等の文書(「今日動物園に行って、象を見た。…」)を入力文書とし、該入力文書から(b)に示すようにキーワード(「動物園」、「象」、…)を複数抽出して各キーワードに入力文書中の重みを付与する。
続いて(c)に示すように1つの画像または1つの画像クラスタ(以下(d)(e)でも同様であり「画像」として説明する。)と、画像と単語との関連度とが格納されたデータベースを参照して、データベース内の各画像の入力文書に対する関連度を求める。該関連度は抽出したキーワードに一致する単語に対してデータベース内で対応づけられた画像の関連度として求める。
続いて(d)では、(b)で付与した重みと(c)で求めた各画像の関連度とに基づき、データベースの各画像が入力文書に適した画像であるかを示すスコアを求めて、画像を選出する。(e)では選出結果を入力文書と対応づけるなどして出力する。
次に図1のような処理が行われる本発明の文章用画像選定装置の構成を図2に示す。同図に示すように文章用画像選定装置は、入力部1、キーワード抽出部2、属性判別部3、重み付与部4、単語重みデータベース(単語重みDB)5、画像検索部6、単語・画像データベース(単語・画像DB)7、ユーザ画像データベース(ユーザ画像DB)8および出力部9を備える。
入力部1では、ユーザの書いたブログ文書などの文書が入力される。文書はユーザがPC(パーソナルコンピュータ)等の端末で作成したものを入力してもよいし、ユーザが予め作成してブログサイト等にアップロードされているものを入力してもよい。
キーワード抽出部2では入力文書からキーワードを複数(1つ以上)抽出する。属性判別部3では入力文書から属性情報を抽出する。重み付与部4では抽出されたキーワードおよび属性を検索キーとして用いて単語重みDB5を検索し、各キーワード(キーワードは入力文書から複数抽出される)および属性(属性は入力文書から抽出された1つの属性)に対して入力文書中における重みを付与する。
重み付与部4が上述のような処理を行えるよう、単語重みDB5には(入力文書から抽出されたキーワードが一致する対象を探すための)単語と、その単語の属性情報を考慮した重み(重要度の評価指標)とが対応付けて格納されている。この対応付けは後述するように一般的なデータベースを入力として学習により作成可能である。
画像検索部6ではキーワードおよび入力文書の属性を検索キーとして用いて単語・画像DB7を検索し、単語・画像DB7に格納されている画像の中から検索キーが一致する画像を候補画像として求める。さらに単語・画像DB7より各候補画像の当該検索キーであるキーワードに対する関連度を調べる。該関連度とキーワードの重みとを用いて、各候補画像が入力文書に適した画像であるかの指標となる画像選択スコアを計算し、該スコアに基づいて単語・画像DB7から画像を選択する。
画像検索部6が上述のような処理を行えるよう、単語・画像DB7には属性情報を考慮した単語(該単語の中からキーワードおよび属性が一致する対象を検索する)と画像との複数の組み合わせに対する関連度が保存されている。単語・画像DB7に保存される関連度も後述するように一般的なデータベースを入力として学習により作成可能である。
画像検索部6では補助的な処理(例えば単語・画像DB7から選出した画像が入力文書に添付するなどして2次利用できないような場合の処理)として、単語・画像DB7から選出した画像の類似画像をユーザ画像DB8から検索して代理画像とすることもできる。ユーザ画像DB8にはこうした検索の対象となり、ユーザ(入力文書の著者)が利用可能な画像が格納されている。
出力部9では選択された画像(又は選出された画像に対してユーザ画像DB8から検索した代理画像)を各用途に適した形式(例えばブログ文書であれば入力テキストに添付するなどの形式)で出力する。
なお、属性情報判別部3を利用せず、属性情報を直接には用いない実施形態も可能である。(この実施形態ではキーワード群を介して間接的に属性情報が反映される。)この実施形態における文章用画像選定装置の構成を図3に示す。図3の構成は図2の構成と比べて属性情報判別部3が存在しない点のみが異なる。図3および図2の属性判別部3以外の構成ブロック内・構成ブロック間の処理は、図3の構成では属性情報を直接には利用しない、という点を除いて共通である。また図2の構成において部分的に属性情報を利用しない実施形態も可能である。こうした属性情報の利用/不利用は後述の各部の詳細の説明における該当箇所にて適宜説明する。
なお、図2、図3において構成ブロック間の矢印に付した「文書」、「キーワード」、「属性」などは、各構成ブロック間でやりとりされる代表的な情報の一部を説明のための便宜で記したものであり、その他の情報も適宜利用可能である。特に、ある構成ブロックで抽出された情報はその後段の構成ブロックで必要に応じて常に利用可能である。
次に図2(または図3)の文章用画像選定装置の各部の詳細につき、順次説明する。
[キーワード抽出部2]
キーワード抽出部2では、入力文書から複数(1つ以上)のキーワードを抽出する。抽出には周知の技術である形態素解析などを用いて入力文章中の単語および単語数を自動抽出する。キーワード抽出部2の処理は属性情報の利用の有無によらず同一であるが、属性情報を考慮する場合、属性情報判別部3の前処理として入力文章中のキーワードおよびその数が必要である場合は図2中の点線矢印で示すように、処理結果を属性判別部3に渡してもよい。
なおキーワードという用語は入力文書からキーワード抽出部2で抽出された単語を、単語重みDB5や単語・画像DB7に格納された単語と区別するために用いるものとする。(ただし単語重みDB5や単語・画像DB7に格納される単語を学習文書から抽出する際にもキーワードという語を用いることもある。)
なおまたキーワード抽出部2におけるキーワードに対して、「キーワード」という用語の通常の意味に含まれる重要度に対応するような情報の付与は後述の単語重みDB5においてtfidfなどを用いてなされる。
[属性判別部3]
属性判別部3では、入力文書の属性を判別して抽出する。まず属性の説明を行う。入力文書の属性には、入力文書の著者属性および内容属性が含まれる。著者属性には入力文書著者の性別、年代、居住地、出身地などが含まれ、内容属性には入力文書のジャンル(子育て、料理、学校など)などが含まれる。
また各属性(著者属性および内容属性)は属性要素を含み、該属性要素によってさらに区別されるものとする。例えば、著者属性「性別」は属性要素{「男性」,「女性」}により、著者属性「年代」は属性要素{「10代」,「20代」,「30代」,…}等によりさらに区別される。また例えば内容属性「ジャンル」は属性要素{「子育て」,「料理」,「学校」,…}等によりさらに区別される。
また属性・属性要素は論理積の形で2つ以上組み合わせて入力文書属性を指定することが可能である。例えば属性「性別」(属性要素「男性」、「女性」)と属性「ジャンル」(属性要素「温泉」、「仕事」)とを組み合わせると属性「性別」かつ「ジャンル」(属性要素「男性」かつ「温泉」、「男性」かつ「仕事」、「女性」かつ「温泉」、「女性」かつ「仕事」)が得られる。
また、ある属性に対する属性要素は1つの属性要素に断定せず、各属性要素の割合(帰属度)の形式で算出して用いることができる。入力文書の属性の各属性要素に対する帰属度(入力文書に対する帰属度)の例を図14に示す。図14では性別、年代という属性に対して属性要素の帰属度が、入力文書「俺は今日部活に行った。…」に対し「性別・("男性度=0.9","女性度=0.1")」かつ「年代・("10代=0.2","20代=0.4","30代=0.3","40代=0.1")」という値として、入力文書「彼は私にケーキを買ってきてくれた。…」に対し、「性別・("男性度=0.2","女性度=0.8")」かつ「年代・("10代=0.4","20代=0.3","30代=0.2","40代=0.1")」という値として与えられている。
こうして図14の入力文書に対する帰属度の例では、性別の属性であれば、入力文書「俺は今日部活に行った。…」ではより男性らしく、入力文書「彼は私にケーキを買ってきてくれた。…」ではより女性らしい、という情報が得られる。入力文書に対する帰属度は年代の属性のように断定しづらい場合などに有効である。
帰属度を用いる指定も論理積によって2つ以上組み合わせが可能であり、図14の例では「性別帰属度の各値」かつ「年代帰属度の各値」のように2つの組み合わせとなっている。帰属度を用いない指定と用いる指定とを複数組み合わせることも可能である。なお、1つの属性要素に断定する場合は帰属度を該属性要素以外をゼロに設定する場合とみなすことができる。例えば「性別・男性」は「性別・("男性度=1","女性度=0")」とみなすことができる。
なお、上述の帰属度は属性判別部3が抽出する入力文書に対する(各属性要素の)帰属度であり、これとは別に単語に対する(各属性要素の)帰属度がある。単語に対する帰属度の例を図15に示す。単語に対する帰属度は図15の例に示すように、「飯(めし)」という単語は男性らしさのほうが大きく、「かわいい」という単語は女性らしさのほうが大きいといったことを示すものである。該単語に対する帰属度は後述するように一実施形態においては単語・画像DB7にて求められる。
なお、帰属度(入力文書に対する帰属度および単語に対する帰属度の両方)は、後述の重み付与部4の一実施形態(4−2−2)におけるidf計算や、画像検索部6における画像選択スコアにおける計算の一実施形態としてオプション的に用いるものである。後述の単語重みDB5や単語・画像DB7において属性に基づいて学習文書などを分類する場合には、帰属度(入力文書又は学習文書などに対する帰属度)で表現される属性は、各属性要素のうち帰属度の値が最大のものを選んだ属性に読み替えられて分類処理が行われる。例えば図14の文書例「俺は今日部活に行った。…」の帰属度は、属性{「性別・男」かつ「年代・20代」}に置き換えられて文書の分類が行われる。
なお、各属性および各属性に対応する属性要素(帰属度を用いるか否かも含む)は、属性判別部3が属性を抽出・判別する方式(後述の各実施形態のように所定の方式を予め定めておくものとする)に従って決まる。なおこれらの方式のいずれを用いるかによって後述のようにその方式で用いる学習文書に対する形式も指定される。
抽出方式による違いとしては、例えば(内容)属性「ジャンル」に対する属性要素の1つが「料理」となる属性抽出方式もあれば、(内容)属性が「料理」となり対応する属性要素が{「肉」,「魚」,…}となる属性抽出方式もある。なおまた属性と属性要素はペアで意味を持ち、その抽出方式により定まるため、上述の属性要素「料理」と属性「料理」とは区別される。
[属性判別部3による属性抽出の各実施形態]
上述のような入力文書の属性・属性要素を属性判別部3が抽出する各種の実施形態(3−1)〜(3−5)につき説明する。
(3−1)
ユーザ(入力文書の著者)が明示した属性情報が利用可能な場合には、該情報を用いて属性を判別する(この場合、各属性要素の帰属度を求めることはできない。)。例えば入力文書がブログでありかつブログにプロフィール欄などが付随していて著者の情報(性別、年代、居住地、出身地など)やブログジャンルなどの項目に対して著者が記入しているような場合には、該プロフィール欄などをブログ本文とは別に識別した上で属性情報を自動抽出し、属性を判別する。この場合、各欄の項目が属性で、項目に対して著者が記載した情報が属性要素となる。
ブログのプロフィール欄として、図4に示すように各所定項目(性別、年代など)に対して著者が所定値を選択するようなフォーマットを用意しておけば、(特に後述の単語重みDB5および単語・画像DB7での属性情報抽出に同一実施形態を用いるに際して)複数の入力文書に対して共通の属性・属性要素を抽出できる。またブログ以外の一般の文書であっても同様に、ユーザは入力文書と共に、入力文書に対応付けられた属性情報を入力部1を介して入力し、属性判別部3は該入力文書と共に入力された属性情報から属性を判別してもよい。
またこうしたプロフィール欄を入力文書と対応づけた上で、ブログ文書と区別して用いる機能も属性判別部3は備えているものとする。
(3−2)
ブログ文書(または同類の文書)から著者属性(性別)を抽出する一実施形態として、前述の非特許文献3に開示された技術を用いることができる。この実施形態で且つ属性を帰属度の形式で求める場合には例えば、分類された特徴空間における男女属性それぞれの集合における中心・重心点からの距離、または男女属性を分ける識別面からの距離に基づいて(これら距離の逆数に比例する値とするなどして)帰属度の値を求める。
(3−3)
ブログ文書(または同類の文書)から著者属性(年代)を抽出する一実施形態として、前述の非特許文献4に開示された技術を用いることができる。この実施形態で且つ属性を帰属度の形式で求める場合には、各属性(各年代)に対して分類器の出力した値をそのまま(もしくは適宜規格化するなどして)帰属度として用いる。
(3−4)
画像情報や色情報を含む文書(一部のブログ文書も該当する)から各種の属性を抽出する一実施形態として前述の特許文献3に開示された技術を用いることができる。
(3−5)
入力文書から属性(著者属性および内容属性)を自動抽出(以上(3−1)〜(3−4)と異なり教師なし学習)する一実施形態として、以下に示す非特許文献6に開示されたPLSI (Probabilistic latent semantic indexing) を用いることができる。PLSIでは、学習用文書群を分類する所定数nの隠れ属性Zk(k=1,2,...,n)を想定し、各隠れ属性Zkのもとで文書の生起確率と単語の生起確率は独立であるとし、所定の尤度を最大化する同時確率を求めることで学習用の各文書を各隠れ属性Zkに分類する。そして該学習された分類法によって入力文書の属性を抽出する。
(非特許文献6)Thomas Hofmann : Probabilistic latent semantic indexing, Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 50-57 (1999)
PLSIを用いる実施形態においては、他の実施形態と異なり属性は所定数の隠れ属性Zkとして得られ、例えば男女、年代といったような明示的な形式の属性は得られないが、他の実施形態と同様の効果の分類が行われる。属性の識別は各隠れ属性Zkのインデックスkを用いて行う。
また上述のような各実施形態を複数組み合わせて用いて属性を抽出してもよい。(ただし属性を明示的に参照したい場合には組み合わせ対象からPLSIを除く。)例えば(3−2)を用いて著者性別を、(3−3)を用いて著者年代を抽出して、この2つの処理全体による属性として「(3−2)で抽出した性別」かつ「(3−3)で抽出した年代」とすることができる。また、各属性要素への帰属度を与える形式で属性を抽出した結果を複数用いる場合も、論理積の形で「性別("男性度=0.3","女性度=0.7")」かつ「ジャンル("仕事=0.2","プライベート=0.8")」のように組み合わせることができる。
なお、属性を抽出する方式に従って抽出されうる属性全体を属性集合と呼ぶこととすると、本願発明の文章用画像選定装置内において属性集合は共通である必要がある。後述のように、重み付与部4および画像検索部6が属性情報を利用してそれぞれ単語重みDB5および単語・画像DB7を検索する場合には、検索先の各データベースで属性判別部3で抽出したのと共通の属性・属性要素が利用できる必要がある。
例えば属性判別部3で属性「性別」の判別を行ったが、単語重みDB5に格納された情報の属性が「ジャンル」のみであったとすると、「性別」による検索が行えない。すなわちこの場合、属性判別部3での抽出における属性集合は{「性別・男性」,「性別・女性」}となり、単語重みDB5に格納された情報の属性集合は{「ジャンル・温泉」,「ジャンル・仕事」,…}などとなり、両者は一致しないため検索が行えない。
よって単語重みDB5および単語・画像DB7で用いられる属性集合は属性判別部3での属性抽出方式の属性集合と一致する必要がある。(ただし属性・属性要素が共通であれば、属性要素を帰属度によって表現するか否かは共通でなくとも構わない。)単語重みDB5および単語・画像DB7における属性情報は、属性判別部3と同一の実施形態又は属性判別部3での抽出と同一の属性集合を抽出できる実施形態によって抽出されるものとする。
なおPLSIを用いる場合は画像選定装置内で常に同一の隠れ属性の集合を用いる必要があるので、単語重みDB5および単語・画像DB7(後述の画像対応づけ部分は除く)における属性情報は、属性判別部3と同一の実施形態を用い、かつ用いる学習文書群とPLSIの実施の詳細(利用アルゴリズム)も一致している必要がある。
[重み付与部4および単語重みDB5]
重み付与部4では、キーワード抽出部2で抽出された各キーワードおよび属性判別部3で抽出された属性を検索キーとして用いて単語重みDB5を検索し、入力文書における各キーワードに対して重みを付与する。なおこの検索のように各キーワードと入力文書属性をペアで用いる場合、検索で参照される単語重みDB5の単語および属性のペアを属性考慮単語と呼んでもよいこととする。また、この検索によって各キーワードに対して付与された重みを(単語重みDB5に格納された重み又は重み算出情報と区別して)キーワード重みと呼んでもよいこととする。
単語重みDB5には各キーワード(および入力文書の各属性)に対する重み又は該重みを算出するための情報が格納されている。前述のように重み付与部4・単語重みDB5における処理は(4−1)属性を用いない(考慮しない)実施形態と、(4−2)属性を用いる実施形態とが可能であるので、以下に順に説明する。
(4−1)属性を考慮しない場合
属性を考慮しない実施形態の場合、単語重みDB5には図5に示すような各キーワードの一致対象候補としての各単語に対する、各単語の入力文書における重みの情報又は該重みを算出するための情報が格納されている。
同図(a)に示す例は重みの情報が直接与えられている実施形態の例であり、この場合重み付与部4は該重みの情報を参照してキーワードが一致する単語エントリにおける重みをそのまま用いる。単語重みDB5には、単語「象」に対する重みの値「重み[象]」、単語「キリン」に対する重みの値「重み[キリン]」以下、各単語に対する重みの値が記載されている。このような重みの情報は人間の主観などに基づいて所与の情報を与えておくこともでき、また一般のweb検索エンジンを検索したときのヒット数の値を用いることもできる。該検索はキーワード抽出部で抽出されたキーワードを用いて重み付与部4又は単語重みDB5のいずれかが行うものとする。また該検索は重み付与時にキーワードを受け取ってから行ってもよいし、所定の単語に対して予め検索してヒット数を求めておいてもよい。
また同図(b)に示す例は重みを算出するための情報が単語重みDB5に格納されている実施形態の例であり、ここでは各単語に対して自然言語処理分野などで頻繁に用いられる周知の技術であるtfidf(term frequency inverse document frequency)におけるidfの値が格納されている。該idfは、新聞コーパスやwebページなどから取得した大量の文書が格納された学習用文書データベース(学習用文書DB)を用いて単語重みDB5が学習することで得られ、その値は次式(数式10)で与えられる。
Figure 2011221794
ここでmは学習用文書データベースにおける各単語を、
idfmは単語mのidfの値を、
は学習用文書データベースに含まれる全文書Dの総数を、
|{d|m∈d}|は学習用文書データベースDに属する文書dのうち単語mを含む(m∈d)文書dの総数を表す。
なお、単語重みDB5がidf値を学習する方法については属性を用いる場合において説明する。
重み付与部4はキーワード抽出部2が抽出した各キーワードkxに対してそのtfidfにおけるtfの値を次の(数式11)
Figure 2011221794
を用いて求め(ここで入力文書とは入力部1を介して入力され、各キーワードkxを抽出した文書である)、キーワードkxと一致する単語mを単語重みDB5から検索する。重み付与部4はキーワードkxに対して付与する重みとして、該単語m(=kx)に対するidf値(数式10)とtfとを積算して得られるtfidf値を用いる。なお、キーワードkxに一致する単語mが検索されなかった場合には重みの値として所定値(通常その値は0)を用いる。
(4−2)属性を用いる場合
属性を用いる(考慮する)実施形態の場合、単語重みDB5には図6に示すような各キーワードの一致対象候補としての各単語に対する、各単語の入力文書における重みの情報又は該重みを算出するための情報が格納されている。図6には属性として「属性・属性要素」=「性別・男性」、「性別・女性」の例が示され、(a)は重みの情報、(b)重みを算出するための情報の例である。
重みおよび重みを算出する情報は単語と属性(属性要素による区別を含む)とに基づいて定められ、単語重みDB5に保存されている。同一単語であっても属性(図6の例では性別が男性か女性かの区別)によって重み又は重みを算出する情報が異なる。図6(a)では例えば、同じキーワード「象」であっても属性が男性の場合は重みとして「重み[象(男性)]」、属性が女性の場合は「重み[象(女性)]」のように属性により異なる重みが保存されている。
このように同一キーワードであっても属性によって異なる重み(又は重み算出情報)を与えるため、本願発明において入力文書の属性を反映した処理が行われるという効果がある。
次に図6(b)に示すような単語重みDB5に格納される重み算出情報として、単語および属性に対するidfを用いる場合につき、idfの学習方法、重みの算出方法の順で説明する。まず、idf値を学習し保存するための単語重みDB5の構成を図7に示す。図7に示すように、単語重みDB5は重み算出情報の一実施形態としてのidf値を学習する構成として学習用文書DB51、学習用文書キーワード抽出部52、学習用文書属性判別部54、単語重み学習部55を含む。なお、学習用文書属性判別部52を用いない構成が前述の属性を用いない場合の(数式10)の説明における構成に対応する。
学習用文書DB51には、新聞コーパスやwebページなどから取得した大量の文書が格納されている。これら文書を(後述の学習用画像・単語DB71における「学習用画像付き文書」と区別するために)「学習用文書」と呼んでもよい。
学習用文書キーワード抽出部52は図2、3のキーワード抽出部2と同様の機能を有し、学習用文書DB51に格納された各文書からキーワード(単語)を抽出し、抽出結果を抽出元文書と対応づけて単語重み学習部55へ送る。
学習用文書属性判別部54は、図2の属性判別部3と同様の文書解析機能(前述の実施形態(3−1)〜(3−5)など)を有し学習用文書DB51内の各文書を読み込んで属性を判別し抽出して、学習用文書DB51内の各文書に属性を付与して、その結果を単語重み学習部55へ送る。
こうして各文書に対して属性が与えられた状態の学習用文書DB51内のデータ例を図8に示す。各文書(文書1「旅行先の温泉は気持ちよかった。…」、文書2「昨日帰ってきたのは22時過ぎ。…」、…)に対して3つの属性(性別、年代、ジャンル)が、各属性の属性要素を判別させることによって付与されている。
単語重み学習部55は、学習用文書属性判別部54で判別された属性によって学習用文書DB51の各文書を分類したうえで、分類後の各文書群に対する学習用文書キーワード抽出部52の抽出結果からなる単語群を用いて、各単語の属性を考慮したidf値(属性考慮単語に対するidf値)を次に説明する(数式20)で求め、idf値を単語重みDB5に保存する。なお(数式20)は前述の(数式10)に対応する方式である。
このように属性であらかじめ学習用文書を分類するので、ある属性における各単語のidf値は学習文書のうち同一属性の文書のみを用いて算出される。(属性を考慮しない実施形態では学習文書全体を用いてidfを算出したのでこの点で異なる。)こうして算出するidfによって、同じ単語でも文書属性に応じて異なる重み付け情報が得られるという効果がある。
属性(属性要素)cy (ν)を考慮した各単語mx(x=1,2, ...,NM、ここでNMは学習用文書DB51に含まれる全単語の種類数)のidf値は具体的には次の(数式20)で与えられる。
Figure 2011221794
ここで、属性要素cy (ν)は次の属性集合C
C={C(ν)|ν = 1,2, ..., Nc} (数式21)
に含まれる各属性C(ν)(例えばC(1)=「性別」、C(2)=「年代」、などとなる)の属性要素であって、各属性C(ν)は次のように、
C(ν)={Cy (ν)|y=1,2, ..., Nc (ν)} (数式22)
である。(例えばC1 (1)=「性別・男性」、C2 (1)=「性別・女性」、C1 (2)=「年代・10代」、C2 (2)=「年代・20代」、などとなる。)また(数式20)において、
NDは学習用文書DB51に含まれる全文書の総数、
Figure 2011221794
(数式23)は学習用文書DB51の文書のうち属性要素cy (ν)に属する文書の集合(ND個のうちND[cy (ν)]個が属性要素cy (ν)に属する)(なおND[cy (ν)]の[cy (ν)]部分は(数式23)では各括弧[]を省いた上で添字表記)、
Figure 2011221794
(数式24)は上記(数式23)の単語学習用文書DB51中の属性要素cy (ν)に属する文書集合のうち、単語mxを含む文書数、である。
なお、(数式21)(数式22)の属性C(ν)・属性要素cy (ν)の表記は以降の説明でも共通して用いる。
上述のようにして単語重みDB5に保存されている属性が考慮されたidf値を重み付与部4が参照して各キーワードkxに対して重みを付与する各種実施形態を説明する。
(4−2−1)入力文書属性が帰属度を用いずに与えられている場合
重み付与部4は入力文書の各キーワードkxに対して、一致する単語を単語重みDB5から検索し、その単語の入力文書属性におけるidf値を調べる。(一致単語がなければidf値として所定値、例えば0を用いることとするが、学習用文書DB51は大量の文書が格納されているため一致単語が見つからないケースはまれである。)重み付与部4は該idf値と、前述の(数式11)より求められる各キーワードに対するtfの値とを積算して得られるtfidf値を各キーワードの重みとする。
(4−2−2)入力文書属性が帰属度を用いて与えられている場合
キーワードkxの各属性要素cy (ν)に対して帰属度の値ε[cy (ν)]を与えられているとする。重み付与部4は単語重みDB5を参照してキーワードkx(に一致する単語)のidf値を各属性要素cy (ν)に対して全て調べ、帰属度の値ε[cy (ν)]で各属性要素のidf値を重み付けしてから足し合わせて、属性(属性集合Cの各属性C(ν))が統合的に考慮されたキーワードkxのidf値(idf[kxC])とする(数式30)。
Figure 2011221794
(なお帰属度の値ε[cy (ν)]およびkxのidf値(idf[kxC])の各括弧[]内は(数式30)では各括弧[]を省いた上で添字として表記している。)
例えば、属性がC(1)=「性別・(男性又は女性)」かつC(2)=「ジャンル・(仕事又はプライベート)」であれば、キーワードkxに対する4つの全属性要素C1 (1)=「性別・男性」、C2 (1)=「性別・女性」、C1 (2)=「ジャンル・仕事」およびC2 (2)=「ジャンル・プライベート」の各々のidf値を単語重みDB5から調べ、全4つの各属性要素の帰属度の値ε[cy (ν)](y=1,2:ν=1,2)をidfに掛けてから(数式30)のように足し合わせる。
なお、(数式30)において属性が「統合的に」考慮されているというのは、これにより得られるidfは形式上では図5(b)の形を取り、属性を用いずキーワードのみを用いて重み付与部4から検索可能であるが、その値には(数式30)に示すような属性による重み付けが盛り込まれているという点を指す。
また、(数式30)において別実施形態として、各属性要素のidf値の重みづけの係数は帰属度の値ε[cy (ν)]を用いるのではなく、可変なパラメータとして所定の割合を与えるようにしてもよい。(例えば属性が性別の場合、男性のidfを2割,女性のidfを8割とするなど。)
重み付与部4は各キーワードに対して(数式30)のidf値を検索する。(前述のように属性が統合的に考慮されているためキーワードのみで検索することが可能である。)さらに、重み付与部4は(数式11)より求められる各キーワードに対するtfの値をidfに積算して得られるtfidf値を各キーワードの重みとする。
なおまた、以上説明した(4−1)属性を考慮しない場合および(4−2)属性を用いる場合の各々において、重み付与部4は(数式11)のtfの値を積算せずに、idfの値を各キーワードの重みとする実施形態も可能である。(この場合単語重みDB5に保存されているidfの値は重み算出情報ではなく重み情報とみなすことができる。)
なおまた、以上説明した(4−1)属性を考慮しない場合および(4−2)属性を用いる場合において、tfidfにおけるtfおよびidfの算出には、周知のその他の関数形を用いても構わない。
[画像検索部6および単語・画像DB7]
画像検索部6は(重み付与部4が単語重みDB5を検索するのに用いたのと同様の、入力文書から抽出された)キーワード(複数)および入力文書属性を検索キーとして用いて単語・画像DB7を検索する。単語・画像DB7は該検索に対して、検索キーワードおよび属性に対応する各画像(候補画像)の関連度を画像検索部6に返信する。
なお、この検索のように各キーワードと入力文書属性をペアで用いる場合、検索で参照される単語・画像DB7の単語および属性のペアを属性考慮単語と呼んでもよいこととする。(単語重みDB5での「属性考慮単語」の説明と同様。)
なお、検索キーであるキーワードと属性(検索対象は属性考慮単語となる)とに対して、このような検索の結果返信されてきた各画像の関連度を(単語・重みDB7内にデータベース情報として保存されている状態と区別して)画像キーワード関連度と呼んでもよいこととする。
画像検索部6は関連度および重み付与部4で与えられた重みに基づいて、(単語・画像DB7が関連度を返信してきた)各画像のスコアを求める。画像検索部6は該スコアが高い画像を入力文書に付与すべき画像として決定し、必要に応じてユーザ画像DB8で代替画像との入れ替えを行ったうえで(後述)、出力部8へ送る。なお後述のように、ここで単語・画像DB7内の(および出力部8へ送られる)画像とは、画像クラスタであってもよい。
まず単語・重みDB7内に格納されている単語(キーワードが一致するものを検索する対象としての単語)に対応付けられた各画像(画像クラスタ)と、単語・画像間の関連度とを含むデータ構成について説明する。該データ構成において属性を用いない場合の例を図9に、属性を用いる場合の例を図10に示す。
図9に示すように、属性を用いない実施形態の場合、単語・重みDB7内には各単語(「象」、「キリン」など)に対応する各画像(「象」に対応する画像であれば画像1[象]、画像2[象]、画像3[像]など)が格納されている。さらに、各単語に対応する各画像には単語と画像との関連度(単語が、対応する画像を表すための単語として適切であるか等の指標)が与えられ(「像」に対応する各画像の関連度であれば関連度(画像1[象])、関連度(画像2[象])、関連度(画像3[像])など)、該関連度も単語・重みDB7内に格納されている。
また図10に示すように、属性を用いる実施形態の場合、単語・重みDB7内には各単語(「象」、「キリン」など)および各属性(入力文書属性に一致する属性を検索する対象)(この例では属性が「性別」のみであり属性要素が「男性」又は「女性」)に対応する各画像が格納されている。例えば単語「象」と「性別」属性の属性要素「男性」とに対応する各画像が、画像1[象(男性)]、画像2[象(男性)]、画像3[象(男性)]などとして格納されている。
さらに図10に示すように、各単語と各属性に対応する各画像には関連度(単語および属性が、対応する画像を表すための単語および属性として適切であるか等の指標)が与えられて、単語・画像DB7内に格納されている。例えば単語「象」と「性別」属性の属性要素「男性」とに対応する各画像に対する関連度が、関連度(画像1[象(男性)])、関連度(画像2[象(男性)])、関連度(画像3[象(男性)])などとして格納されている。
このように同一キーワード(単語)であっても属性によって異なる画像を与え、画像に対して関連度が定まるので、本願発明における付与画像の選択対象決定に際して入力文書の属性を反映した処理が行われるという効果がある。
次にこのような関連度を単語・画像DB7が学習する方法と、画像検索部6が単語・画像DB7を検索して関連度を求め、重み付与部4で得た重みと関連度とから画像選択スコアを求めて画像を選択する方法について説明する。なお、属性を用いる場合を基本として説明し、属性を用いない実施形態が可能な場合は別実施形態として該当箇所にて適宜説明する。
また後述の画像検索部6による画像選択スコアの計算にあたって関連度・重みに加えて追加的に用いることができる単語に対する帰属度(前述の図15)を、単語・画像DB7において追加的な処理として算出できるので、これについても説明する。
[関連度の学習]
単語・画像DB7が関連度を学習し保存するための構成を図11に示す。単語・画像DB7は学習用文書・画像DB71、学習用文書・画像キーワード抽出部72、画像クラスタリング部73、学習用文書・画像属性判定部74および関連度学習部75を含む。
学習用文書・画像DB71にはwebページなどにある、画像付きの文書(文書と各文書に対応づけられた1つ以上の画像)が大量に格納されている。これらの文書は(単語重みDB5における学習用の文書である「学習用文書」との区別として)「学習用画像付き文書」と呼んでもよい。学習用文書・画像DB71に格納されたこのようなデータ例(ただし後述の学習用文書・画像属性判定部74にて属性情報を付与した例)を図12に示す。
画像付きの学習用文書には図12に示すように文書ID(文書1、文書2、など)が与えられ、文書本文(例えば文書1の本文は「友達と一緒に象の写真を撮った。…」)と、文書に対応する画像(文書1に対応する画像は画像1(文書1),画像2(文書1),画像3(文書1),…)、さらに図12では各文書に対して文書の属性(性別、年代、ジャンル)・属性要素(性別属性なら「男性」又は「女性」)が後述の学習用文書・画像属性判定部74で付与されている。なお属性を用いない実施形態の場合このような属性欄に対応する情報は学習用文書・画像DB71には含まれない。
学習用文書・画像キーワード抽出部72は図2、3のキーワード抽出部2と同様の機能を有し、学習用文書・画像DB71に格納された各文書からキーワード(単語)を抽出する。学習用文書・画像キーワード抽出部72はさらに、各文書から抽出した単語群と抽出元の文書IDとを対応づけて関連度学習部75へ送る。例えば図12の文書1、文書2からは次のような抽出が行われる。(なお抽出される単語の形式は形態素解析などの実装の詳細に依存する。)
文書1{「友達」、「一緒」、「象」、「写真」、「撮る」、…}
文書2{「卵焼き」、「かき混ぜる」、「卵」、「フライパン」、…}
学習用文書・画像属性判定部74は図2の属性判定部3と同様の機能を有し、属性を用いる実施形態で利用され、学習用文書・画像DB71内の各文書から属性を抽出し、図12に示した例のように文書IDと対応づけて各文書に対して抽出属性を付与する。一実施形態では学習用文書・画像属性判定部74で各文書に付与された属性の情報は図11に示すように画像クラスタリング部73および関連度学習部75に渡される。また別の一実施形態(図11における(a)の部分が省略された形となる)においては属性の情報は関連度学習部75のみに渡される。属性を用いない実施形態では学習用文書・画像属性判定部74は省略してよい。
画像クラスタリング部73は学習用文書・画像DB71に格納された各文書に対応づけられた各画像に対して、画像特徴量を基準にクラスタリングを行う。ここで用いる画像特徴量は、従来技術[以下の非特許文献5]]で用いられているような、周知の色特徴量、輝度特徴量を使ってもよいし、近年、画像認識などの分野でよく用いられるSIFT(Scale Invariant Feature Transform)特徴量を用いてもよい。これらの画像特徴量は、画像全体に対して求めてもよいし、重要領域のみに求めてもよい。さらに、局所的画像特徴量の表現方法として、従来技術のBok(Bag-of-keypoints)を用いてもよい。Bokは、画像から抽出された100から1000個程度の局所特徴量の出現頻度のヒストグラムをひとつの画像の特徴量とするものである。
(非特許文献5)森靖英,高橋裕信,岡隆一:単語群付き画像の分割クラスタリングによる未知画像からの関連単語推定,電子情報通信学会論文誌D,Vol.J84-D2 No4 pp.649-658(2001)
クラスタリング方法については、従来技術(上記の非特許文献5)で用いられているような、ベクトル量子化を用いる手法でもよいし、K-meansクラスタリングのような周知のクラスタリング手法を用いてもよい。また,最短距離法,最遠距離法,群平均法,重心法,Ward法などの周知の階層的なクラスタリング手法を利用してもよい.
クラスタリングを行う一実施形態としては、学習用文書・画像属性判定部74で抽出した属性を用いて、(属性・属性要素で指定される)属性毎に画像を分けた上で、画像をクラスタリングしてもよい(図11(a)を経由する実施形態)。例えば属性が性別で属性要素が男性又は女性ならば、属性情報より男性が作成したと判定される文書に対して付与された画像のみを使って、画像特徴量でクラスタリングする。また女性と判定された文書に対する画像のみに対して別個に、画像特徴量でクラスタリングする。したがって、この場合には、同一クラスタに男性が作成したと判定された文書に付与された画像と女性が作成したと判定された文書に付与された画像とが混在することはない。
またクラスタリングを行う別の一実施形態では、図11(a)を経由せず(上述のような属性毎に画像を前もって分類するということを行わず)に、学習用文書・画像DB71に格納された各文書に対応づけられた画像の全体に対してクラスタリングを行う。
さらにまたクラスタリングの別の一実施形態として、クラスタリングを行わないようにすることも可能である。この実施形態はクラスタリングを行った実施形態で1クラスタに所属する画像が1画像であるような場合とみなすこともできる。
以上のクラスタリングの結果は、各実施形態のいずれの場合であっても画像IDとクラスタIDとの対応付けとして関連度学習部75に渡される。
また以上のようにクラスタリングを行うことで、各クラスタには画像特徴量が類似した画像が集まり、かつ各画像には対応する単語(「単語kxに対応する画像」として後述の(数式40)〜(数式41)において説明する)が元文書毎に複数存在するので、類似特徴の画像が用いられる様々な文書の単語との対応づけ情報を各クラスタに含めることができる。後述のように、このようなクラスタ単位で求められる関連度を用いて画像選択スコアを計算することで、各種の多様な入力文書に対しても適切な画像を選出できるようになるという効果がある。
関連度学習部75は、学習用文書・画像キーワード抽出部72から文書IDに対応づけられたキーワード群(単語群)を、画像クラスタリング部73から文書IDに対応づけられた画像IDと画像IDに対応づけられた画像分類先のクラスタIDを、学習用文書・画像属性判別部74から各文書IDに対応する文書の属性を受け取り、関連度を計算し、画像選択スコアを求めて入力文書に対する付与画像を選定する。
関連度学習部75は、上記のように受け取った各情報を用いて単語kx・属性(属性要素cy (ν))において画像クラスタizの出現確率Pを各実施形態に対して次の(数式40)〜(数式41)のように計算し、該出現確率を単語・属性と画像クラスタとの関連度として定めて、単語・画像DB7に保存する。なお、単語・属性と画像との関連度は、単語・属性と該画像の属する画像クラスタの関連度として与えられ、関連度学習部75が単語・画像DB7に例えば図10のような形式[単語・属性・画像・関連度(=出現確率)のように対応づけた形式]で保存する。また属性を用いない実施形態では図9のような形式[単語・画像・関連度(=出現確率)のように対応づけた形式]で保存する。
(属性を用いない実施形態の場合)
単語kxが与えられたときの画像クラスタizの出現確率P(iz|kx)は次の(数式40)で計算される。
Figure 2011221794
上記の数式40での関連度は,ある単語kxに該当する全画像の個数IF(kx)のうち,画像クラスタizに属する画像の個数IF(iz|kx)の割合である。
ただし、上記の数式40の関連度は、別実施形態として下記の2つの式に置き換えてもよい。分母にどのような値をとるかの違いである(なお、これら値の違いは後述の図16を用いて模式的にも説明する)。これは後述する属性を考慮した場合においても、同様の置換えが可能である。
ただし、このように置き換える場合、単語・画像データベース7に格納される各画像クラスタとの関連度は形式としては(数式40)のような確率の形式ではなく、単純な大きさという意味合いになる。(例えば、ある単語kxに対する関連度を全画像クラスタizで足し合わせても必ずしも1とはならないため、確率ではない。)それに伴い、P(iz|kx)は、数式上の表記も次に示すように確率ではない値であるという意味合いで(iz|kx)を省略してPに置き換えるとする。
Figure 2011221794
すなわち、(数式40)の代わりに上記の式(数式40A)のように、画像クラスタizの中の全画像の個数IF(Kz)のうち、単語kxに該当する画像の個数の割合を関連度に用いてもよい。
Figure 2011221794
また、(数式40)の代わりに上記の式(数式40B)のように、データベースに存在する画像の個数IF(K)個のうち、単語kxに該当し、画像クラスタizに属する画像の個数の割合としてもよい。
(出現確率計算時のみに属性を用いる実施形態[図11の(a)を経由しない実施形態]の場合)
属性cy (ν)における単語kxが与えられた時の画像クラスタizの出現確率P(iz|kx,cy (ν))は次の(数式41)で計算される。
Figure 2011221794
(クラスタリング時と出現確率計算時とで属性を用いる実施形態[図11の(a)を経由する実施形態]の場合)
属性cy (ν)における単語kxが与えられた時の画像クラスタizの出現確率P(iz|kx,cy (ν))は次の(数式42)で計算される。
Figure 2011221794
この(数式42)の実施形態によれば、前述のように画像のクラスタリングがあらかじめ属性によって分類されてから行われるので、本発明の画像選定装置で入力文書に対する画像を選定するにあたって、入力文書と同じ属性の文書に付与されていた画像の中から選定されるという効果がある。
また、以上の(数式41)〜(数式42)において、
IF(kx)は単語kxと対応する画像の総数、
(なお、単語kxに対応する/該当する画像とは、該画像に対応づけられる元の画像付き文書から学習用文書・画像キーワード抽出部72が抽出したキーワード群の中に単語kxに一致するものがある画像のことである。また同様に属性cy (ν)に属する画像とは、該画像に対応づけられる元の画像付き文書の属性がcy (ν)である画像のことである。数式40、40A、40Bにおいても同様である。)
IF(iz|kx)は画像クラスタizに属する画像のうち、単語kxと対応する画像の個数。
IF(iz|kx,cy (ν))は画像クラスタizに属する画像のうち、単語kxと対応しかつ属性cy (ν)に属する画像の個数、
(なお前述のとおり、画像クラスタizは(数式41)では属性cy (ν)とは無関係に画像全てをクラスタリングした結果の1つであるが、(数式42)ではクラスタリングを行う対象画像をあらかじめ属性cy (ν)で分類してからクラスタリングを行った結果の1つである、という違いがある。この違いは出現確率を計算する上で(数式41)と(数式42)の分母の違いにも反映されている。)
IF(kx,cy (ν))は単語kxと対応しかつ属性cy (ν)に属する画像の総数である。
なおまた上述のIF(kx)とIF(iz|kx)との関係などを模式的に図16に示す。図16では全画像を特徴量空間(説明の便宜上2次元空間)における点として"×"又は"●"で表記している。このうち、"×"は単語kxに対応しない(画像に対応する元の文書のキーワード中に単語kxに一致するものがない)画像を、"●"は語kxに対応する画像である。全画像はクラスタリングの結果、全4つの画像クラスタia, ib, ic, iz(図中ではi_a, i_b, i_c, i_zとして表記している)へ分けられ、
IF(kx)=(iaの2個)+(ibの2個)+(icの0個)+(izの5個)=9個
IF(iz|kx)=5個
となる。さらにまた図16は図中の全画像が属性要素cy (ν)に属するものであるとすると、同様にしてIF(kx,cy (ν))とIF(iz|kx,cy (ν))との関係を模式的に示している。
また図16の例では(数式40)、(数式40A)、(数式40B)において、IF(kx)およびIF(iz|kx)は上述と同様であり、
IF(Kz)=(izの"●"全5個+"×"全4個)=9個
IF(K)=(ia, ib, ic, izの全"●"+全"×")=31個
となる。
なおまたクラスタリングを行わない実施形態の場合、画像クラスタizを画像izと読みかえればよい。この場合、画像izとは1画像をIDで表しているものであるので、(数式40)〜(数式41)においてIF(iz|kx)およびIF(iz|kx,cy (ν))の値は0または1である。
[単語に対する帰属度の算出]
後述の画像選択スコア算出において補助的に利用できる情報である単語に対する帰属度を単語・画像DB7にて求めることができる。構成としては図11の構成から画像クラスタリング部73を省いた構成を用い、関連度学習部75で(上述の関連度とはまた別の情報として)帰属度算出結果を受け取る。
学習用文書・画像DB71の各文書(画像は用いない)から学習用文書・画像キーワード抽出部71から各単語kxを抽出する。また各文書に対して学習用文書・画像属性判定部74で属性を付与する。これらの結果より各属性要素cy (ν)に該当する文書数num1(cy (ν))と、単語kxを含みかつ属性要素cy (ν)に該当する文書数num2(kx,cy (ν))を数える。これより単語kxに対する属性Cyの属性要素cy (ν)の帰属度bel(kx,cy (ν))は次(数式45)で求められる。
Figure 2011221794
なお、別実施形態として単語に対する帰属度は単語重みDB5(図7の構成)において上述と同様にして求めることもできる。この場合単語重みDB5において学習用文書DB51、学習用文書キーワード抽出部52、学習用文書属性判別部54および単語重み学習部53がそれぞれ上述の学習用文書・画像DB71、学習用文書・画像キーワード抽出部72、学習用文書・画像属性判定部74および関連度学習部75の役割を担う。
[画像選択スコアの計算]
以上のような単語・画像DB7に保存された関連度(単語、属性、画像クラスタ/画像に対して定まる)と、重み付与部4で付与された重み(単語、属性に対して定まる)とを用いて、画像検索部6が入力文書(単語[キーワード]、属性が抽出される)に対する画像の関連性の強さの指標である画像選択スコアを計算する各実施形態について説明する。
なお関連度は単語・画像DB7に保存された画像クラスタ毎に定まるので、画像選択スコアも単語・画像DB7に保存された各画像クラスタ単位で計算する。(画像単位で計算してもよいが、同一クラスタに属する画像は同じスコアとなる。)なおまた単語・画像DB7でクラスタリングを行わない実施形態の場合、前述と同様に画像検索部6でのスコア計算は単一画像のみ含む画像クラスタ毎に行う実施形態、とみなして画像選択スコアが計算できる。以下に説明する実施形態のそれぞれの別実施形態として画像クラスタは単一画像であってもよい。
(属性を用いない実施形態における画像選択スコア)
ユーザからの入力文書から抽出された各キーワードkxの重みをωk_x(該重みは重み付与部4の説明(4−1)での実施形態より得られる)とし、キーワードkxと画像クラスタizとの関連度を(数式40)のP(iz|kx)として、画像選択スコアSizは次(数式50)で計算される。
Figure 2011221794
ここでK={kx|x={1,2,...,NK}}は入力文書から抽出されたキーワードの集合、NKは入力文書から抽出されたキーワードの個数。(数式50)に示すとおり重みと関連度との積の全キーワードkxに渡る和を求めてキーワード数NKで規格化することで画像選択スコアが得られる。またP(iz|kx)の代わりに(数式40A)、(数式40B)のPを用いてもよい。
なお(数式50)においてもしキーワードkxに一致する単語が単語・画像DB7に格納されていなければP(iz|kx)は所定値(通常その値は0)とする。 (属性を用いる実施形態における画像選択スコア)
(実施形態1)重み付与部4における単語重みに対してのみ属性を用いる場合
ユーザからの入力文書から抽出された各キーワードkxに対する入力文書の各属性要素cy (ν)における重みをα[kxcy (ν)](次に示す数式では[]内は添字として表記)とする。該重みα[kxcy (ν)]は、例えばtfidf値としてなら各キーワードkxと属性要素cy (ν)に対して(数式11)を適用してidf値を、(数式20)を適用してtf値を求めこれらを積算して求められる。
またキーワードkxと画像クラスタizとの関連度(関連度に対しては属性用いず)を(数式40)のP(iz|kx)として、この(実施形態1)における画像選択スコアSizは次(数式51)で計算される。
Figure 2011221794
(数式51)に示すとおりキーワードと属性との関数である重みと、キーワードの関数である関連度との積の、全属性要素cy (ν)と全キーワードkxに渡る和として画像選択スコアが求められる。なお、全属性要素cy (ν)に渡る和のインデックスの取り方については前述の(数式21)、(数式22)の通りであり、以下の各実施形態における画像選択スコアの計算でも同様である。
(実施形態2)重み付与部4における単語重みと、画像検索部6における関連度との両方に対して属性を用いる場合
単語重みを(実施形態1)と同様にα[kxcy (ν)]とし、属性要素cy (ν)におけるキーワードkxの画像クラスタizに対する関連度をP(iz|kx,cy (ν))とする。該関連度は前述の(数式41)、(数式42)のいずれから求めてもよい。(実施形態2)における画像選択スコアSizは次(数式52)で与えられる。
Figure 2011221794
(数式52)では(数式51)と比べて関連度がキーワードのみの関数でなくキーワードと属性の関数となり、同様に全属性要素cy (ν)と全キーワードkxに渡って和を取る。
(実施形態2A)画像検索部6における関連度のみに対して属性を用いる場合
この場合は(数式52)における属性考慮単語重みをα[kxcy (ν)]をωk_x(該重みは(数式51)での説明と同様に重み付与部4の説明(4−1)での実施形態より得られる。)に置き換えた式により画像選択スコアSizが求められる。
さらに、以上の(実施形態1)および(実施形態2)に対してそれぞれ同様な追加的実施形態として、追加的に帰属度を用いる実施形態(実施形態1A)および(実施形態2B)を説明する。帰属度としては(数式45)の単語に対する属性の帰属度bel(kx,cy (ν))と、図14で説明したような文書に対する帰属度γ[cy (ν)]との両方又はいずれか一方を用いることができる。両方を用いる場合、各実施形態の画像選択スコアは次の通りである。なお、単語に対する属性の帰属度bel(kx,cy (ν))をβ[kxcy (ν)]と表記することとし、文書に対する帰属度γ[cy (ν)]と共に式中では[]内を添字で表記することとする。
(実施形態1A)では次の(数式51A)で画像選択スコアSizが求められる。
Figure 2011221794
(実施形態2A)では次の(数式52A)で画像選択スコアSizが求められる。
Figure 2011221794
なお、単語に対する帰属度又は文書に対する帰属度の片方のみを用いる場合は、(数式51A)および(数式52A)において用いない方の帰属度の項を無視する(値を定数1とする)ことで画像選択スコアSizが求められる。
画像検索部6は以上のような各実施形態によって画像選択スコアを求め、該スコアが最大となる画像クラスタの画像を入力文書に付与する画像として決定する。別実施形態では、スコアの上位の方から所定数の画像クラスタの画像を、その順位付け情報と共に入力文書に付与する画像として決定してもよい。決定された画像は次に述べるユーザ画像DB8内の画像との置き換えの必要がなければ、そのまま出力部9へ送られる。
[ユーザ画像DB8と画像検索部6による類似画像置き換え検索]
画像検索部6はまた、単語・画像DB7の中からスコアを求めることによって入力文書に対して付与すると決定した画像が、著作権などによってユーザの入力文書に対して付与して用いるのに適さない場合などは、後述のユーザ画像DB8内の類似画像に置き換えてから出力部9へ送る。
該置き換えを行う判断は、単語・画像DB7に格納された画像に他の文書に付与して利用可能かどうかの情報を含めておき、選択された画像に対して該情報を参照することにより画像検索部6で自動判断してよい。なお単語・画像DB7に格納される画像をあらかじめ別文書に付与して利用可能な画像に限っておけば、こうした置き換えは必要ない。
また入力文書の作成ユーザ自身が所有し、入力文書と関連のある所定数の画像がある場合、ユーザは自身の所望判断により入力文書と共に自身の画像蓄積を付与画像として利用させる命令を入力部1に対して入力し、該命令に従ってユーザ画像DB8内の類似画像との置き換えを行うようにしてもよい。この場合、ユーザ画像DB8内にはユーザの所有する画像を格納することとなる。
このような置き換えを行うにあたっての画像検索部6におけるユーザ画像DB8の類似画像検索機能を説明する。ユーザ画像データベース8に保存されたデータ例を図13に示す。画像検索部6は、単語・画像データベース7から選択された画像の特徴量を算出して、ユーザ画像データベース8にある各ユーザ画像(図13の画像1、画像2など)との類似度を計算する。画像特徴量の算出には前述の画像クラスタリング部73で説明したような各種の従来技術を用いる。類似度算出にあたって、ユーザ画像データベース8における各画像の特徴量も画像検索部6があらかじめ計算しておくものとする。類似度は、従来技術[以下の(非特許文献 7)]を使って、画像1と画像2のそれぞれの画像特徴量の距離としてもよい。距離は、ユークリッド距離でもよいし、各特徴量の相関と分散を考慮したマハラノビス距離でもよいし、あるいは特徴量間のコサイン類似度などでもよい。類似度が高いとされたユーザ画像データベース中のユーザ画像を前記選別された画像と置き換える。ユーザ画像データベースにある画像の特徴量から、選択された画像の類似度を計算してもよい。
このような置き換えによって次のようなことが可能となる。例えば、ユーザが「今日動物園で、象を見た」という日記を書いていて、その日に動物園で撮った"横向きの象"の写真Aを持っていたとする。ユーザの日記の"象"というキーワードから、別の人間が撮った"正面の象"の写真Bが画像検索部6により、選択されたとする。その"正面の象"の写真Bを基に、自分の持っている写真群を検索することで、自動的に自分が撮った"横向きの象"の写真Aを抽出してくることが可能となる。
(非特許文献7)柳井啓司:キーワードと画像特徴を利用したwwwからの画像収集システム,情報処理学会論文誌,Vol.42 No.SIG 10,pp.79-91(2001)
以上、本願発明によれば、ユーザが作成した文書から、文書に適した画像を自動で付与することができる。さらに、ユーザの属性や文書内容の属性を考慮することで、よりユーザの思いを反映した画像を自動で付与することが可能となる。また、付与する画像を、自分が元々持っている画像とすることも可能となる。
また本願発明によれば、ブログ、ホームページ、発表用スライドなどのコンテンツ作成時に、ユーザはテキスト情報のみを与えただけで、所望の画像をコンテンツに付与することができ、そのコンテンツをより魅力的なものにすることができる。さらには、画像だけではなく、動画や音楽といった他のコンテンツに対しても同様の手法を応用できると考えられる。
また、以上説明してきたように本発明は、ブログなどの文書から抽出されたキーワードをキーとして画像の検索(および付与)を行うため、TBIRに関する。本発明においては、文書から抽出された複数のキーワードを利用して画像検索を行う。本発明では,単語と画像的な特徴でまとめられた各画像クラスタとの関連度(画像付き文書から予め求めておく)をデータベースに保持しておく。
この関連度と文書から抽出されたキーワードの重みとの積和に基づき画像が選択されることから、TBIRにおける従来技術におけるような単語単位ではなく、文書全体として最もマッチする画像が付与候補画像として選択される。また、ここでいう画像を特に画像クラスタと考えた場合においては、画像単体では対応付けられていない単語であっても、画像クラスタ中にその単語と対応している他の画像が存在していれば、対応の付いていない画像も検索でヒットする可能性がある。前述の従来技術の単純なAND検索による検索画像のヒットもれの問題を回避するとともに、ユーザがよいキーワードを思いつかない場合でも、本願発明によれば所望の画像を得られる場合がある。
さらには、画像を画像特徴量でクラスタリングを行った上でテキストベースの検索を行うため、意味的に類似しているだけでなく、(色や形状といった)視覚的に画像の内容が類似しているものを検索しやすくなる。本発明であれば、一般の類似画像検索のように、画像をキーとして与えることなく、ユーザはテキストのみで、意味的な特徴と視覚的な特徴を捉えた検索を行うことができる。
2…キーワード抽出部、3…属性判別部、4…重み付与部、5…単語重みデータベース、6…画像検索部、7…単語・画像データベース

Claims (8)

  1. 入力文書に適した画像を選定する画像選定装置であって、
    前記入力文書から該入力文書に含まれる複数のキーワードを含むキーワード情報を抽出するキーワード抽出部と、
    複数の単語と該複数の単語の各々に対応付けられる単語重みとの情報を格納する単語重みデータベースと、
    前記キーワード情報を受け取り、前記キーワードを前記格納された単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、前記キーワードの各々に対して検索一致する単語に対応する単語重みを求め、該単語重みを用いて前記キーワードの前記入力文書におけるキーワード重みを算出する重み付与部と、
    複数の単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する単語との間の関連度を対応付け、該対応付けられた単語、画像および関連度の情報を保存する単語・画像データベースと、
    前記キーワード情報および前記キーワード重みを受け取り、前記キーワードを前記保存された単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する単語に対応する画像を前記キーワードに対する候補画像として求め、かつ該候補画像と前記検索一致した単語との間の関連度を前記キーワードと前記候補画像との間の画像キーワード関連度として求め、該画像キーワード関連度と前記キーワード重みとを用いて前記候補画像の各々に対して画像選択スコアを計算し、該画像選択スコアに基づいて前記候補画像の中から前記入力文書に適した画像を選定する画像検索部とを備えることを特徴とする画像選定装置。
  2. 前記入力文書から該入力文書の属性を抽出する属性判別部を備え、
    前記単語・画像データベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する属性考慮単語との間の関連度を対応付け、該対応づけられた属性考慮単語、画像および関連度の情報を保存し、
    前記画像検索部は、前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記保存された属性考慮単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する画像を前記候補画像として求め、かつ該候補画像と前記検索一致した属性考慮単語との間の関連度を前記画像キーワード関連度として求めることを特徴とする請求項1に記載の画像選定装置。
  3. 前記単語・画像データベースは学習用文書・画像データベース、学習用文書・画像キーワード抽出部、画像クラスタリング部、学習用文書・画像属性判別部および関連度学習部を含み、
    前記学習用文書・画像データベースは複数の文書と該文書の各々に対応する複数の画像とを含む所定の学習用画像付き文書を保存し、
    前記学習用文書・画像キーワード抽出部は前記学習用画像付き文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用画像付き文書と対応づけ、
    前記画像クラスタリング部は前記学習用画像付き文書に含まれる全画像を画像特徴量に基づいて複数の画像クラスタに分類し、
    前記学習用文書・画像属性判別部は前記学習用画像付き文書に含まれる各文書の属性を抽出して抽出元の学習用画像付き文書と対応づけ、
    前記関連度学習部は、前記学習用文書・画像キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用画像付き文書のうち当該キーワードを含む文書に前記対応する画像の数である第1の数を求め、前記画像クラスタの各々に対して該画像クラスタに含まれる画像を含む前記学習用画像付き文書のうち、前記前記学習用文書・画像属性判別部にて抽出された属性が所定の属性の文書でありかつ前記キーワードを含む文書に前記対応する画像の数である第2の数を求め、前記単語・画像データベースにおける前記対応づけられた属性考慮単語、画像および関連度として当該所定の属性と当該キーワード、当該画像クラスタに含まれる各画像および(前記第2の数)÷(前記第1の数)の値を保存することを特徴とする請求項2に記載の画像選定装置。
  4. 前記画像クラスタリング部が前記学習用画像付き文書の全体に含まれる全画像をあらかじめ各画像に対応する前記学習用画像付き文書の属性によって分類した上で画像特徴量に基づいて複数の画像クラスタに分類することを特徴とする請求項3に記載の画像選定装置。
  5. 前記単語重みデータベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対応づけられる単語重みの情報を格納し、
    前記重み付与部は前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記格納された属性考慮単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する単語重みを前記キーワード重みとして算出することを特徴とする請求項2ないし4のいずれかに記載の画像選定装置。
  6. 前記単語重みデータベースは学習用文書データベース、学習用文書キーワード抽出部、学習用文書属性判別部および単語重み学習部を含み、
    前記学習用文書データベースは複数の文書を含む学習用文書を格納し、
    前記学習用文書キーワード抽出部は前記学習用文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用文書と対応づけ、
    前記学習用文書属性判別部は前記学習用文書に含まれる各文書の属性を抽出して抽出元の学習用文書と対応づけ、
    前記単語重み学習部は、前記学習用文書キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用文書のうち当該キーワードを含む文書の数である第3の数を求め、
    前記学習用文書属性判別部にて抽出された属性が所定の属性でありかつ当該キーワードを含む文書の数である第4の数を求め、前記単語重みデータベースにおける前記対応づけられた属性考慮単語および単語重みとして当該所定の属性と当該キーワードおよび(前記第4の数)÷(前記第3の数)の値を格納することを特徴とする請求項5に記載の画像選定装置。
  7. 前記重み付与部が、前記キーワード情報を用いて前記キーワードの前記入力文書における頻度を求め、該頻度と、前記キーワードに対応する前記単語重みと、を用いて前記キーワード重みを算出することを特徴とする請求項1ないし6のいずれかに記載の画像選定装置。
  8. 前記入力文書の入力ユーザが所有する複数の画像を蓄積するユーザ画像データベースを備え、
    前記画像検索部が前記選定した画像をさらに、当該画像と類似する画像を前記ユーザ画像データベースから選出することにより、当該選出された画像に置き換えることを特徴とする請求項1ないし7のいずれかに記載の画像選定装置。
JP2010090393A 2010-04-09 2010-04-09 画像選定装置 Pending JP2011221794A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010090393A JP2011221794A (ja) 2010-04-09 2010-04-09 画像選定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010090393A JP2011221794A (ja) 2010-04-09 2010-04-09 画像選定装置

Publications (1)

Publication Number Publication Date
JP2011221794A true JP2011221794A (ja) 2011-11-04

Family

ID=45038706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010090393A Pending JP2011221794A (ja) 2010-04-09 2010-04-09 画像選定装置

Country Status (1)

Country Link
JP (1) JP2011221794A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016779A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 画像形成装置及びプログラム
JP2014222504A (ja) * 2014-05-24 2014-11-27 洋彰 宮崎 自律型思考パターン生成機
JP2015056185A (ja) * 2014-09-30 2015-03-23 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
US9558166B2 (en) 2012-10-17 2017-01-31 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
JP2018509664A (ja) * 2015-12-31 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
CN108595486A (zh) * 2013-03-28 2018-09-28 富士胶片株式会社 图像检索装置及其动作控制方法、以及图像检索服务器
CN108733779A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 文本配图的方法和装置
KR20190129110A (ko) * 2017-09-12 2019-11-19 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
JP2021117860A (ja) * 2020-01-29 2021-08-10 Kddi株式会社 マルチメディアデータからテキストを推論するプログラム、装置及び方法
JP7212728B1 (ja) 2021-07-20 2023-01-25 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016779A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 画像形成装置及びプログラム
US9558166B2 (en) 2012-10-17 2017-01-31 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
US9824078B2 (en) 2012-10-17 2017-11-21 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
US9910839B1 (en) 2012-10-17 2018-03-06 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
US10503819B2 (en) 2012-10-17 2019-12-10 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
US9990346B1 (en) 2012-10-17 2018-06-05 Samsung Electronics Co., Ltd. Device and method for image search using one or more selected words
CN108595486A (zh) * 2013-03-28 2018-09-28 富士胶片株式会社 图像检索装置及其动作控制方法、以及图像检索服务器
CN108595486B (zh) * 2013-03-28 2022-01-18 富士胶片株式会社 图像检索装置及其动作控制方法、以及图像检索服务器
US11397896B2 (en) 2014-05-24 2022-07-26 Hiroaki Miyazaki Autonomous thinking pattern generator
JP2014222504A (ja) * 2014-05-24 2014-11-27 洋彰 宮崎 自律型思考パターン生成機
JP2015056185A (ja) * 2014-09-30 2015-03-23 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
US10565253B2 (en) 2015-12-31 2020-02-18 Baidu Online Network Technology (Beijing) Co., Ltd. Model generation method, word weighting method, device, apparatus, and computer storage medium
JP2018509664A (ja) * 2015-12-31 2018-04-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
US11699298B2 (en) 2017-09-12 2023-07-11 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
KR102235051B1 (ko) * 2017-09-12 2021-03-31 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
US11087166B2 (en) 2017-09-12 2021-08-10 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN110532571A (zh) * 2017-09-12 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法及相关装置
KR20190129110A (ko) * 2017-09-12 2019-11-19 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN108733779A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 文本配图的方法和装置
CN108733779B (zh) * 2018-05-04 2022-10-04 百度在线网络技术(北京)有限公司 文本配图的方法和装置
JP2021117860A (ja) * 2020-01-29 2021-08-10 Kddi株式会社 マルチメディアデータからテキストを推論するプログラム、装置及び方法
JP7191054B2 (ja) 2020-01-29 2022-12-16 Kddi株式会社 マルチメディアデータからテキストを推論するプログラム、装置及び方法
JP7212728B1 (ja) 2021-07-20 2023-01-25 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2023015933A (ja) * 2021-07-20 2023-02-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP2011221794A (ja) 画像選定装置
Zhao et al. Topical keyphrase extraction from twitter
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
Qian et al. Social image tagging with diverse semantics
Sawant et al. Automatic image semantic interpretation using social action and tagging data
Moxley et al. Video annotation through search and graph reinforcement mining
CA2632156A1 (en) Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
Datta et al. Multimodal retrieval using mutual information based textual query reformulation
Chen et al. ilike: Bridging the semantic gap in vertical image search by integrating text and visual features
Haase Context for semantic metadata
Zhou et al. Automatic image–text alignment for large-scale web image indexing and retrieval
Tekli An overview of cluster-based image search result organization: background, techniques, and ongoing challenges
Saoud et al. Integrating social profile to improve the source selection and the result merging process in distributed information retrieval
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
Clinchant et al. XRCE’s participation to ImagEval
Chen et al. iLike: integrating visual and textual features for vertical search
Ivanov et al. Object-based tag propagation for semi-automatic annotation of images
Lu et al. Browse-to-search: Interactive exploratory search with visual entities
Movshovitz-Attias et al. Discovering subsumption relationships for web-based ontologies
Zaharieva et al. Retrieving Diverse Social Images at MediaEval 2017: Challenges, Dataset and Evaluation.
Plegas et al. Reducing information redundancy in search results
Lam et al. Semantically relevant image retrieval by combining image and linguistic analysis
Zhou et al. Automatic image annotation by using relevant keywords extracted from auxiliary text documents
Gomathy et al. Genre Specific Classification for Information Search and Multimodal Semantic Indexing for Data Retrieval
Katsurai et al. Exploring and visualizing tag relationships in photo sharing websites based on distributional representations