JP2011221794A

JP2011221794A - 画像選定装置

Info

Publication number: JP2011221794A
Application number: JP2010090393A
Authority: JP
Inventors: Tomoaki Konno; 智明今野; Ryoichi Kawada; 亮一川田; Emi Meido; 絵美明堂
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-04-09
Filing date: 2010-04-09
Publication date: 2011-11-04

Abstract

【課題】入力文書に適した画像を付与する画像選定装置を提供する。
【解決手段】入力文書よりキーワード抽出部２でキーワードを抽出し、属性判別部３で入力文書の属性を判別する。重み付与部４は単語重みＤＢ５を検索して各キーワードと属性とに対する単語重みを算出する。画像検索部６は単語・画像ＤＢ７内の各画像を検索して各キーワードと属性に対応する候補画像の関連度を求め、各候補画像に対して単語重みと関連度とから画像選択スコアを算出し、該スコアに基づいて候補画像の中から入力文書に対して付与すべき画像を選定する。
【選択図】図２

Description

本発明は文章用の画像選定装置に関し、特に文章の内容および属性に基づいて適した画像を自動で選定し、付与する画像選定装置に関する。

ブログユーザ（ブログ著者）がブログ記事を書くときに文書と共に文書に適した画像を付与するケースはよくある。しかし、文書に付与するために、ユーザが自分で膨大な画像群の中から文書に適した画像を手動で選定することは大変な労力を要する。従って、ユーザが望む画像を自動で選択し付与することができれば、ユーザの画像検索・画像付与の手間が軽減される。

またこうした画像の自動選択付与はブログに限らず著者が所定のテーマの下で書いた一般の文書や用意したプレゼンテーション資料などに対しても、例えば見出しに添えるなどして活用することができるため、非常に有用である。

こうした事情に関連する、または部分的に関連する従来技術として、以下の特許文献１〜３および非特許文献１〜４に開示された技術がある。

特許文献１にはブログのような様々なシーンが表現される文書に対して、文書を作成するユーザの嗜好や感性を文書から抽出し、それに合った画像を提供する技術が開示されている。文書と画像の関連情報として、画像に文書から抽出されたキーワードを関連付けて記録しておく。ユーザが入力した新たな文書から、キーワードを抽出し、予め保持しておいたキーワードと抽出されたキーワードの類似度をはかり、類似度の高いものを選択する。

また特許文献１に開示された技術では、ユーザが過去に書いた文書群において、よく用いられる単語をキーワードとして検索する。例えば、「食べる」という単語をよく用いていて、入力文書にも「食べる」が含まれていた場合には、複数のキーワード候補の中から「食べ物」をキーワードとして、画像を検索する。これらによって、ユーザの嗜好や感性に合った所望の画像が得られるとしている。

特許文献２には次のような技術が開示されている。写真などのように複数の物体が含まれている画像に対して、どのような物体が写っているか判別する精度を高める。文書付き画像を分割画像に分割し、その部分画像に対しても、元の文書を付随させる。分割画像同士で類似しているものを分類し、その分類されたカテゴリの中で、頻出する単語を分類の意味内容を示す単語として抽出して、画像の分類（注釈づけ）を行うことを特徴としている。未知画像が入力された場合には、未知画像を未知分割画像に分割し、その未知分割画像と最も類似する分類に対応する単語を利用して、その未知画像の分類（注釈づけ）を行う。

特許文献３には次のような技術が開示されている。ブログなどの著者属性（性別や年代など）の推定のために、視覚情報を用いている。実施例として、ウェブページを画面キャプチャして得られたキャプチャ画像を視覚情報として扱い、その視覚情報をもとに著者の属性を判断している。予め、視覚情報である画像データと属性情報の対応関係をSVMなどを使って学習を行う。この学習したモデルを利用することにより、未知の視覚情報の入力に対して著者の属性を推定することができる。

非特許文献１ではユーザ入力単語から単語の用いられる様々な文脈を反映した画像を選択してユーザに提示するために、写真投稿サイトで複数の単語がタグ付けされた画像から入力単語に関連する画像を選択し、選択画像のタグの単語を用いて画像のクラスタリングを行い、続いて画像特徴によるクラスタリングを行い、得られた各クラスタに対してタグの整合性や所属画像数などに基づく順位付けを行った上で上位複数クラスタの代表画像をユーザに提示する技術が開示されている。

非特許文献２では自然言語テキストからキーフレーズを複数抽出してキーフレーズ毎に対応する画像を選択し、キーフレーズの重要度などを考慮して選択された複数の画像をレイアウトして元の自然言語テキストを表すようにする技術が開示されている。

非特許文献３では日本語ブログテキストに対してその著者を"男性"、"女性"の２つのクラス（または"性別不明"を加えた３つのクラス）に分類する技術が開示されている。性別を推定するための素性として、ブログテキスト中の最頻度の一人称代名詞、各機能語の出現頻度、所定数の形態素（プロフィール欄の情報によって男女識別を与えたブログテキスト学習データ中の形態素で男女それぞれにつきχ二乗値が上位となる所定数の形態素）、を用いる。これらを要素とする特徴ベクトル（例えば一人称代名詞の要素は最頻度のものに"１"を、それ以外には"０"を与え、各機能語の要素は出現頻度の値を与え、形態素の要素は、ブログテキスト中に出現すれば"１"、出現しなければ"０"を与えるなどの特徴ベクトル）の入力空間をＳＶＭ（Support Vector Machine）を用いて特徴空間で識別面により分類することで男女の区別を得る。

非特許文献４にはブログ記事の著者の年齢（年代）を推定する技術が開示されている。所定のウィンドウ幅を設定し、該ウィンドウ内に現れるブログ記事中の共起語のうち年代を特定しやすい所定の共起語を素性とし、その利用頻度に基づいて年代の推定量を求める分類器を各素性毎に作る。所定の学習データ（著者年代が付与されたブログ記事群）を用いて各分類器に対する重みづけ（特定の年代において推定値が偏る分類器ほど大きな重みを付与する）を行い、各素性の分類器の推定量に重みを積算してから足し合わせた推定量を最終的な分類器の推定量とする（ブースティング）。未知文書（ブログ記事）の著者年代は該分類器の値を最大とするような引数として出力される。

また画像検索の観点から従来技術を述べる。一般に画像検索には、画像に予め対応付けられたタグと与えられたキーワードに基づく検索方式であるText-Based Image Retrieval(TBIR)と、画像の特徴などコンテンツの内容に基づく検索方式であるContents-Based Image Retrievalがある。

従来のTBIRの代表的なサービスとして，例えば"Google画像検索"が存在する．このような検索エンジンでは，ユーザがキーワードを入力して，検索したい画像を探す．キーワードは，一つでもよいし複数でも構わない．一般に検索対象画像を絞り込むために，よく使われるのは単純なAND検索である．

特開 2008-242515号公報文書作成支援装置特開 2000-353173号公報文書付き画像の分類方法、分類装置および記録媒体特開 2009-294925号公報属性推定システムおよび属性推定方法

H. Li, J. Tang, G. Li, T. Chua : Word2Image: Towards Visual Interpretation of Words, Proceedings of the 16th ACM international conference on Multimedia, pp. 813-816 (2008) X. Zhu, A. B. Goldberg, M. Eldawy, C. R. Dyer and B. Strock : A Text-to-Picture Synthesis System for Augmenting Communication, Proceedings of the 22th AAAI conference, pp. 1590-1596 (2007) 池田大介，南野朋之，奥村学：blogの著者の性別推定，言語処理学会第12回年次大会，C2-3 (2006) 泉雅貴，三浦孝雄：ブースティングに基づくBlog著者年齢推定，第1回データ工学と情報マネジメントに関するフォーラム，A3-5 (2009)

しかしながら上記の従来技術では、単に文書中のキーワードのみから抽出されたような文書の表面的な内容に加えて、文書の著者の属性や、文書内容の属性（文章の表面的内容の前提にある背景事情など）に基づいて文書に適した画像を検索付与することはできない。

すなわち特許文献１に開示された技術では、画像に関連付けられたタグと未知の入力文書から抽出された単語の類似度を求めるとしているが、その類似度の定義は不明である。なお一般の周知技術である単語を用いた画像検索においては、検索質問（1つ以上の単語）を与え、その検索質問が画像に関連付けられているタグにマッチするかどうかで検索が行われるので、これを考慮すると類似度とは単語（単語群）の一致である。したがって、検索質問に用いた単語のうち、1つでもタグに含まれていなければ、その画像は検索候補からはずれてしまい、所望の画像が得られない。また他の類似度を用いたとしても文書内容の属性を考慮できるとは限らない。

さらに、特許文献1では、ユーザの嗜好や感性を反映した画像を提示できるとしている。しかし、画像検索に用いる画像データベースを作成する際に、各ユーザが作成した文書と画像の組み合わせを用いて、検索の際の検索質問にもユーザの書いた文書から抽出したキーワードを使うだけであり、ユーザの嗜好が十分に反映されていない。ユーザの書いた過去の文書において頻出の単語をキーワードとするという手法も、一般的にユーザ属性および文書属性の把握を行うにあたって同一ユーザによる過去の類似文書を必要とするため十分ではない。

また特許文献2では、ある分割画像と単語の類似度を保持しておき、その関連性を利用して、未知の画像に対しての注釈（タグ）づけを行っているが、未知画像に対する単語の付与であり、画像検索ならびに画像付与を目的としていない。

また、非特許文献１および２に開示された技術では単語のみ、または文書中のフレーズのみから対応する画像を検索しているので、ブログ文書などを入力としてブログ文書の著者の属性（好みなど）を反映した画像が選出されるとは限らない。

すなわち非特許文献（1）のシステムは、単語を与えたときに、その単語に合った複数画像に変換するシステムである。ある単語に対する出力画像の多様性などを重視したシステムであるが、文書への画像付与を対象とはしていない。

また、非特許文献（2）のシステムは、文章を与えたときに，複数のキーフレーズを抽出し，そのそれぞれのフレーズに合った画像のレイアウトを考慮して出力するするシステムである。それぞれのフレーズに合った画像が複数出力されるが、文書に適した画像が付与されているとは言えない。

また特許文献３および非特許文献３、４に開示された技術も文書に対して画像を選択する技術ではないため、文書の属性を考慮した画像付与は行えない。

また前述のとおり，一般の画像検索エンジンでは、前述の特許文献1の説明でも述べたように、単純なAND検索では与えたキーワードのいずれか一つでも画像に対応するタグに含まれていなければ、その画像は検索対象から外れ所望の画像を得られない。また、画像検索エンジンの目的は、ある単語（群）にマッチする画像を検索するという意味合いが強く、文書にマッチする画像を検索するという目的には必ずしも一致しておらず、単純な単語の組み合わせによる検索では所望の画像が得られない可能性がある。ユーザがキーワードを能動的に考えて検索を行う必要がある点も問題であると考えられる。

本発明は上記した従来技術の課題を解決し、文書に対して、文書内容に適した画像を精度良く選定する文章用画像選定装置を提供することを目的とする。

上述した従来技術の課題を解決するために、本発明の画像選定装置は、入力文書に適した画像を選定する画像選定装置であって、前記入力文書から該入力文書に含まれる複数のキーワードを含むキーワード情報を抽出するキーワード抽出部と、複数の単語と該複数の単語の各々に対応付けられる単語重みとの情報を格納する単語重みデータベースと、前記キーワード情報を受け取り、前記キーワードを前記格納された単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、前記キーワードの各々に対して検索一致する単語に対応する単語重みを求め、該単語重みを用いて前記キーワードの前記入力文書におけるキーワード重みを算出する重み付与部と、複数の単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する単語との間の関連度を対応付け、該対応付けられた単語、画像および関連度の情報を保存する単語・画像データベースと、前記キーワード情報および前記キーワード重みを受け取り、前記キーワードを前記保存された単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する単語に対応する画像を前記キーワードに対する候補画像として求め、かつ該候補画像と前記検索一致した単語との間の関連度を前記キーワードと前記候補画像との間の画像キーワード関連度として求め、該画像キーワード関連度と前記キーワード重みとを用いて前記候補画像の各々に対して画像選択スコアを計算し、該画像選択スコアに基づいて前記候補画像の中から前記入力文書に適した画像を選定する画像検索部とを備えることを第１の特徴とする。

また、前記入力文書から該入力文書の属性を抽出する属性判別部を備え、前記単語・画像データベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する属性考慮単語との間の関連度を対応付け、該対応づけられた属性考慮単語、画像および関連度の情報を保存し、前記画像検索部は、前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記保存された属性考慮単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する画像を前記候補画像として求め、かつ該候補画像と前記検索一致した属性考慮単語との間の関連度を前記画像キーワード関連度として求めることを第２の特徴とする。

前記単語・画像データベースは学習用文書・画像データベース、学習用文書・画像キーワード抽出部、画像クラスタリング部、学習用文書・画像属性判別部および関連度学習部を含み、前記学習用文書・画像データベースは複数の文書と該文書の各々に対応する複数の画像とを含む所定の学習用画像付き文書を保存し、前記学習用文書・画像キーワード抽出部は前記学習用画像付き文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用画像付き文書と対応づけ、前記画像クラスタリング部は前記学習用画像付き文書に含まれる全画像を画像特徴量に基づいて複数の画像クラスタに分類し、前記学習用文書・画像属性判別部は前記学習用画像付き文書に含まれる各文書の属性を抽出して抽出元の学習用画像付き文書と対応づけ、前記関連度学習部は、前記学習用文書・画像キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用画像付き文書のうち当該キーワードを含む文書に前記対応する画像の数である第１の数を求め、前記画像クラスタの各々に対して該画像クラスタに含まれる画像を含む前記学習用画像付き文書のうち、前記前記学習用文書・画像属性判別部にて抽出された属性が所定の属性の文書でありかつ前記キーワードを含む文書に前記対応する画像の数である第２の数を求め、前記単語・画像データベースにおける前記対応づけられた属性考慮単語、画像および関連度として当該所定の属性と当該キーワード、当該画像クラスタに含まれる各画像および（前記第２の数）÷（前記第１の数）の値を保存することを第３の特徴とする。

また、前記画像クラスタリング部が前記学習用画像付き文書の全体に含まれる全画像をあらかじめ各画像に対応する前記学習用画像付き文書の属性によって分類した上で画像特徴量に基づいて複数の画像クラスタに分類することを第４の特徴とする。

また、前記単語重みデータベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対応づけられる単語重みの情報を格納し、前記重み付与部は前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記格納された属性考慮単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する単語重みを前記キーワード重みとして算出することを第５の特徴とする。

前記単語重みデータベースは学習用文書データベース、学習用文書キーワード抽出部、学習用文書属性判別部および単語重み学習部を含み、前記学習用文書データベースは複数の文書を含む学習用文書を格納し、前記学習用文書キーワード抽出部は前記学習用文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用文書と対応づけ、前記学習用文書属性判別部は前記学習用文書に含まれる各文書の属性を抽出して抽出元の学習用文書と対応づけ、前記単語重み学習部は、前記学習用文書キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用文書のうち当該キーワードを含む文書の数である第３の数を求め、前記学習用文書属性判別部にて抽出された属性が所定の属性でありかつ当該キーワードを含む文書の数である第４の数を求め、前記単語重みデータベースにおける前記対応づけられた属性考慮単語および単語重みとして当該所定の属性と当該キーワードおよび（前記第４の数）÷（前記第３の数）の値を格納することを第６の特徴とする。

また、前記重み付与部が、前記キーワード情報を用いて前記キーワードの前記入力文書における頻度を求め、該頻度と、前記キーワードに対応する前記単語重みと、を用いて前記キーワード重みを算出することを第７の特徴とする。

前記入力文書の入力ユーザが所有する複数の画像を蓄積するユーザ画像データベースを備え、前記画像検索部が前記選定した画像をさらに、当該画像と類似する画像を前記ユーザ画像データベースから選出することにより、当該選出された画像に置き換えることを第８の特徴とする。

前記第１の特徴によれば、入力文書から抽出されたキーワード群と画像の関連度のみを考慮するだけではなく、入力文書中のキーワードの重みも考慮して画像検索を行うことで、入力文書により適した画像検索を行う精度を高めることができる。

前記第２〜７の特徴によればさらに、文書の属性に合った画像を検索する精度を高めることができる。

前記第８の特徴によればさらに、入力文書の入力ユーザに対して、入力文書に適しかつ入力文書に付与して利用可能な画像を提供できるようになる。

本願発明の文章用画像選定装置による処理の流れを概略的に示す図である。本願発明の文章用画像選定装置の属性を考慮した実施形態における構成を示す図である。本願発明の文章用画像選定装置の属性を用いない実施形態における構成を示す図である。ブログ文書から属性情報を抽出するのに用いることができるプロフィール欄の一例を示す図である。属性を用いない実施形態における単語重みＤＢのデータ構成例を示す図である。属性を用いる実施形態における単語重みＤＢのデータ構成例を示す図である。単語重みＤＢが重み算出情報を学習し保存するための構成を示す図である。単語重みＤＢの学習用文書ＤＢにおける属性付与後のデータ例を示す図である。属性を用いない実施形態における単語・重みＤＢのデータ構成例を示す図である。属性を用いる実施形態における単語・重みＤＢのデータ構成例を示す図である。単語・画像ＤＢが関連度を学習し保存するための構成を示す図である。単語・画像ＤＢの学習用文書・画像ＤＢに格納された学習用データ構成例を示す図である。ユーザ画像ＤＢに格納されたデータ構成例を示す図である。入力文書に対する帰属度の例を示す図である。単語に対する帰属度の例を示す図である。出現確率を計算する式（数式４０）〜（数式４２）における項の意味を模式的に説明する図である。

以下に、図面を参照して本発明の実施形態を詳細に説明する。図１は本発明の処理の流れを概略的に示す図である。（ａ）に示すようにブログ等の文書（「今日動物園に行って、象を見た。…」）を入力文書とし、該入力文書から（ｂ）に示すようにキーワード（「動物園」、「象」、…）を複数抽出して各キーワードに入力文書中の重みを付与する。

続いて（ｃ）に示すように１つの画像または１つの画像クラスタ（以下（ｄ）（ｅ）でも同様であり「画像」として説明する。）と、画像と単語との関連度とが格納されたデータベースを参照して、データベース内の各画像の入力文書に対する関連度を求める。該関連度は抽出したキーワードに一致する単語に対してデータベース内で対応づけられた画像の関連度として求める。

続いて（ｄ）では、（ｂ）で付与した重みと（ｃ）で求めた各画像の関連度とに基づき、データベースの各画像が入力文書に適した画像であるかを示すスコアを求めて、画像を選出する。（ｅ）では選出結果を入力文書と対応づけるなどして出力する。

次に図１のような処理が行われる本発明の文章用画像選定装置の構成を図２に示す。同図に示すように文章用画像選定装置は、入力部１、キーワード抽出部２、属性判別部３、重み付与部４、単語重みデータベース（単語重みＤＢ）５、画像検索部６、単語・画像データベース（単語・画像ＤＢ）７、ユーザ画像データベース（ユーザ画像DB）８および出力部９を備える。

入力部１では、ユーザの書いたブログ文書などの文書が入力される。文書はユーザがPC（パーソナルコンピュータ）等の端末で作成したものを入力してもよいし、ユーザが予め作成してブログサイト等にアップロードされているものを入力してもよい。

キーワード抽出部２では入力文書からキーワードを複数（１つ以上）抽出する。属性判別部３では入力文書から属性情報を抽出する。重み付与部４では抽出されたキーワードおよび属性を検索キーとして用いて単語重みＤＢ５を検索し、各キーワード（キーワードは入力文書から複数抽出される）および属性（属性は入力文書から抽出された１つの属性）に対して入力文書中における重みを付与する。

重み付与部４が上述のような処理を行えるよう、単語重みＤＢ５には（入力文書から抽出されたキーワードが一致する対象を探すための）単語と、その単語の属性情報を考慮した重み（重要度の評価指標）とが対応付けて格納されている。この対応付けは後述するように一般的なデータベースを入力として学習により作成可能である。

画像検索部６ではキーワードおよび入力文書の属性を検索キーとして用いて単語・画像ＤＢ７を検索し、単語・画像ＤＢ７に格納されている画像の中から検索キーが一致する画像を候補画像として求める。さらに単語・画像ＤＢ７より各候補画像の当該検索キーであるキーワードに対する関連度を調べる。該関連度とキーワードの重みとを用いて、各候補画像が入力文書に適した画像であるかの指標となる画像選択スコアを計算し、該スコアに基づいて単語・画像ＤＢ７から画像を選択する。

画像検索部６が上述のような処理を行えるよう、単語・画像ＤＢ７には属性情報を考慮した単語（該単語の中からキーワードおよび属性が一致する対象を検索する）と画像との複数の組み合わせに対する関連度が保存されている。単語・画像ＤＢ７に保存される関連度も後述するように一般的なデータベースを入力として学習により作成可能である。

画像検索部６では補助的な処理（例えば単語・画像ＤＢ７から選出した画像が入力文書に添付するなどして２次利用できないような場合の処理）として、単語・画像ＤＢ７から選出した画像の類似画像をユーザ画像ＤＢ８から検索して代理画像とすることもできる。ユーザ画像ＤＢ８にはこうした検索の対象となり、ユーザ（入力文書の著者）が利用可能な画像が格納されている。

出力部９では選択された画像（又は選出された画像に対してユーザ画像ＤＢ８から検索した代理画像）を各用途に適した形式（例えばブログ文書であれば入力テキストに添付するなどの形式）で出力する。

なお、属性情報判別部３を利用せず、属性情報を直接には用いない実施形態も可能である。（この実施形態ではキーワード群を介して間接的に属性情報が反映される。）この実施形態における文章用画像選定装置の構成を図３に示す。図３の構成は図２の構成と比べて属性情報判別部３が存在しない点のみが異なる。図３および図２の属性判別部３以外の構成ブロック内・構成ブロック間の処理は、図３の構成では属性情報を直接には利用しない、という点を除いて共通である。また図２の構成において部分的に属性情報を利用しない実施形態も可能である。こうした属性情報の利用／不利用は後述の各部の詳細の説明における該当箇所にて適宜説明する。

なお、図２、図３において構成ブロック間の矢印に付した「文書」、「キーワード」、「属性」などは、各構成ブロック間でやりとりされる代表的な情報の一部を説明のための便宜で記したものであり、その他の情報も適宜利用可能である。特に、ある構成ブロックで抽出された情報はその後段の構成ブロックで必要に応じて常に利用可能である。

次に図２（または図３）の文章用画像選定装置の各部の詳細につき、順次説明する。
[キーワード抽出部２]
キーワード抽出部２では、入力文書から複数（１つ以上）のキーワードを抽出する。抽出には周知の技術である形態素解析などを用いて入力文章中の単語および単語数を自動抽出する。キーワード抽出部２の処理は属性情報の利用の有無によらず同一であるが、属性情報を考慮する場合、属性情報判別部３の前処理として入力文章中のキーワードおよびその数が必要である場合は図２中の点線矢印で示すように、処理結果を属性判別部３に渡してもよい。

なおキーワードという用語は入力文書からキーワード抽出部２で抽出された単語を、単語重みＤＢ５や単語・画像ＤＢ７に格納された単語と区別するために用いるものとする。（ただし単語重みＤＢ５や単語・画像ＤＢ７に格納される単語を学習文書から抽出する際にもキーワードという語を用いることもある。）

なおまたキーワード抽出部２におけるキーワードに対して、「キーワード」という用語の通常の意味に含まれる重要度に対応するような情報の付与は後述の単語重みDB５においてtfidfなどを用いてなされる。

[属性判別部３]
属性判別部３では、入力文書の属性を判別して抽出する。まず属性の説明を行う。入力文書の属性には、入力文書の著者属性および内容属性が含まれる。著者属性には入力文書著者の性別、年代、居住地、出身地などが含まれ、内容属性には入力文書のジャンル（子育て、料理、学校など）などが含まれる。

また各属性（著者属性および内容属性）は属性要素を含み、該属性要素によってさらに区別されるものとする。例えば、著者属性「性別」は属性要素｛「男性」，「女性」｝により、著者属性「年代」は属性要素｛「１０代」，「２０代」，「３０代」，…｝等によりさらに区別される。また例えば内容属性「ジャンル」は属性要素｛「子育て」，「料理」，「学校」，…｝等によりさらに区別される。

また属性・属性要素は論理積の形で２つ以上組み合わせて入力文書属性を指定することが可能である。例えば属性「性別」（属性要素「男性」、「女性」）と属性「ジャンル」（属性要素「温泉」、「仕事」）とを組み合わせると属性「性別」かつ「ジャンル」（属性要素「男性」かつ「温泉」、「男性」かつ「仕事」、「女性」かつ「温泉」、「女性」かつ「仕事」）が得られる。

また、ある属性に対する属性要素は１つの属性要素に断定せず、各属性要素の割合（帰属度）の形式で算出して用いることができる。入力文書の属性の各属性要素に対する帰属度（入力文書に対する帰属度）の例を図１４に示す。図１４では性別、年代という属性に対して属性要素の帰属度が、入力文書「俺は今日部活に行った。…」に対し「性別・（"男性度＝０．９"，"女性度＝０．１"）」かつ「年代・（"１０代＝０．２"，"２０代＝０．４"，"３０代＝０．３"，"４０代＝０．１"）」という値として、入力文書「彼は私にケーキを買ってきてくれた。…」に対し、「性別・（"男性度＝０．２"，"女性度＝０．８"）」かつ「年代・（"１０代＝０．４"，"２０代＝０．３"，"３０代＝０．２"，"４０代＝０．１"）」という値として与えられている。

こうして図１４の入力文書に対する帰属度の例では、性別の属性であれば、入力文書「俺は今日部活に行った。…」ではより男性らしく、入力文書「彼は私にケーキを買ってきてくれた。…」ではより女性らしい、という情報が得られる。入力文書に対する帰属度は年代の属性のように断定しづらい場合などに有効である。

帰属度を用いる指定も論理積によって２つ以上組み合わせが可能であり、図１４の例では「性別帰属度の各値」かつ「年代帰属度の各値」のように２つの組み合わせとなっている。帰属度を用いない指定と用いる指定とを複数組み合わせることも可能である。なお、１つの属性要素に断定する場合は帰属度を該属性要素以外をゼロに設定する場合とみなすことができる。例えば「性別・男性」は「性別・（"男性度＝１"，"女性度＝０"）」とみなすことができる。

なお、上述の帰属度は属性判別部３が抽出する入力文書に対する（各属性要素の）帰属度であり、これとは別に単語に対する（各属性要素の）帰属度がある。単語に対する帰属度の例を図１５に示す。単語に対する帰属度は図１５の例に示すように、「飯（めし）」という単語は男性らしさのほうが大きく、「かわいい」という単語は女性らしさのほうが大きいといったことを示すものである。該単語に対する帰属度は後述するように一実施形態においては単語・画像ＤＢ７にて求められる。

なお、帰属度（入力文書に対する帰属度および単語に対する帰属度の両方）は、後述の重み付与部４の一実施形態（４−２−２）におけるidf計算や、画像検索部６における画像選択スコアにおける計算の一実施形態としてオプション的に用いるものである。後述の単語重みＤＢ５や単語・画像ＤＢ７において属性に基づいて学習文書などを分類する場合には、帰属度（入力文書又は学習文書などに対する帰属度）で表現される属性は、各属性要素のうち帰属度の値が最大のものを選んだ属性に読み替えられて分類処理が行われる。例えば図１４の文書例「俺は今日部活に行った。…」の帰属度は、属性｛「性別・男」かつ「年代・２０代」｝に置き換えられて文書の分類が行われる。

なお、各属性および各属性に対応する属性要素（帰属度を用いるか否かも含む）は、属性判別部３が属性を抽出・判別する方式（後述の各実施形態のように所定の方式を予め定めておくものとする）に従って決まる。なおこれらの方式のいずれを用いるかによって後述のようにその方式で用いる学習文書に対する形式も指定される。

抽出方式による違いとしては、例えば（内容）属性「ジャンル」に対する属性要素の１つが「料理」となる属性抽出方式もあれば、（内容）属性が「料理」となり対応する属性要素が｛「肉」，「魚」，…｝となる属性抽出方式もある。なおまた属性と属性要素はペアで意味を持ち、その抽出方式により定まるため、上述の属性要素「料理」と属性「料理」とは区別される。

[属性判別部３による属性抽出の各実施形態]
上述のような入力文書の属性・属性要素を属性判別部３が抽出する各種の実施形態（３−１）〜（３−５）につき説明する。

（３−１）
ユーザ（入力文書の著者）が明示した属性情報が利用可能な場合には、該情報を用いて属性を判別する（この場合、各属性要素の帰属度を求めることはできない。）。例えば入力文書がブログでありかつブログにプロフィール欄などが付随していて著者の情報（性別、年代、居住地、出身地など）やブログジャンルなどの項目に対して著者が記入しているような場合には、該プロフィール欄などをブログ本文とは別に識別した上で属性情報を自動抽出し、属性を判別する。この場合、各欄の項目が属性で、項目に対して著者が記載した情報が属性要素となる。

ブログのプロフィール欄として、図４に示すように各所定項目（性別、年代など）に対して著者が所定値を選択するようなフォーマットを用意しておけば、（特に後述の単語重みＤＢ５および単語・画像ＤＢ７での属性情報抽出に同一実施形態を用いるに際して）複数の入力文書に対して共通の属性・属性要素を抽出できる。またブログ以外の一般の文書であっても同様に、ユーザは入力文書と共に、入力文書に対応付けられた属性情報を入力部１を介して入力し、属性判別部３は該入力文書と共に入力された属性情報から属性を判別してもよい。

またこうしたプロフィール欄を入力文書と対応づけた上で、ブログ文書と区別して用いる機能も属性判別部３は備えているものとする。

（３−２）
ブログ文書（または同類の文書）から著者属性（性別）を抽出する一実施形態として、前述の非特許文献３に開示された技術を用いることができる。この実施形態で且つ属性を帰属度の形式で求める場合には例えば、分類された特徴空間における男女属性それぞれの集合における中心・重心点からの距離、または男女属性を分ける識別面からの距離に基づいて（これら距離の逆数に比例する値とするなどして）帰属度の値を求める。

（３−３）
ブログ文書（または同類の文書）から著者属性（年代）を抽出する一実施形態として、前述の非特許文献４に開示された技術を用いることができる。この実施形態で且つ属性を帰属度の形式で求める場合には、各属性（各年代）に対して分類器の出力した値をそのまま（もしくは適宜規格化するなどして）帰属度として用いる。

（３−４）
画像情報や色情報を含む文書（一部のブログ文書も該当する）から各種の属性を抽出する一実施形態として前述の特許文献３に開示された技術を用いることができる。

（３−５）
入力文書から属性（著者属性および内容属性）を自動抽出（以上（３−１）〜（３−４）と異なり教師なし学習）する一実施形態として、以下に示す非特許文献６に開示されたPLSI (Probabilistic latent semantic indexing) を用いることができる。PLSIでは、学習用文書群を分類する所定数nの隠れ属性Z_k(k=1,2,...,n)を想定し、各隠れ属性Z_kのもとで文書の生起確率と単語の生起確率は独立であるとし、所定の尤度を最大化する同時確率を求めることで学習用の各文書を各隠れ属性Z_kに分類する。そして該学習された分類法によって入力文書の属性を抽出する。

（非特許文献６）Thomas Hofmann : Probabilistic latent semantic indexing, Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 50-57 (1999)

PLSIを用いる実施形態においては、他の実施形態と異なり属性は所定数の隠れ属性Z_kとして得られ、例えば男女、年代といったような明示的な形式の属性は得られないが、他の実施形態と同様の効果の分類が行われる。属性の識別は各隠れ属性Z_kのインデックスkを用いて行う。

また上述のような各実施形態を複数組み合わせて用いて属性を抽出してもよい。（ただし属性を明示的に参照したい場合には組み合わせ対象からPLSIを除く。）例えば（３−２）を用いて著者性別を、（３−３）を用いて著者年代を抽出して、この２つの処理全体による属性として「（３−２）で抽出した性別」かつ「（３−３）で抽出した年代」とすることができる。また、各属性要素への帰属度を与える形式で属性を抽出した結果を複数用いる場合も、論理積の形で「性別（"男性度＝0.3"，"女性度＝0.7"）」かつ「ジャンル（"仕事＝0.2"，"プライベート＝0.8"）」のように組み合わせることができる。

なお、属性を抽出する方式に従って抽出されうる属性全体を属性集合と呼ぶこととすると、本願発明の文章用画像選定装置内において属性集合は共通である必要がある。後述のように、重み付与部４および画像検索部６が属性情報を利用してそれぞれ単語重みＤＢ５および単語・画像ＤＢ７を検索する場合には、検索先の各データベースで属性判別部３で抽出したのと共通の属性・属性要素が利用できる必要がある。

例えば属性判別部３で属性「性別」の判別を行ったが、単語重みＤＢ５に格納された情報の属性が「ジャンル」のみであったとすると、「性別」による検索が行えない。すなわちこの場合、属性判別部３での抽出における属性集合は｛「性別・男性」，「性別・女性」｝となり、単語重みＤＢ５に格納された情報の属性集合は｛「ジャンル・温泉」，「ジャンル・仕事」，…｝などとなり、両者は一致しないため検索が行えない。

よって単語重みＤＢ５および単語・画像ＤＢ７で用いられる属性集合は属性判別部３での属性抽出方式の属性集合と一致する必要がある。（ただし属性・属性要素が共通であれば、属性要素を帰属度によって表現するか否かは共通でなくとも構わない。）単語重みＤＢ５および単語・画像ＤＢ７における属性情報は、属性判別部３と同一の実施形態又は属性判別部３での抽出と同一の属性集合を抽出できる実施形態によって抽出されるものとする。

なおPLSIを用いる場合は画像選定装置内で常に同一の隠れ属性の集合を用いる必要があるので、単語重みＤＢ５および単語・画像ＤＢ７（後述の画像対応づけ部分は除く）における属性情報は、属性判別部３と同一の実施形態を用い、かつ用いる学習文書群とPLSIの実施の詳細（利用アルゴリズム）も一致している必要がある。

[重み付与部４および単語重みDB５]
重み付与部４では、キーワード抽出部２で抽出された各キーワードおよび属性判別部３で抽出された属性を検索キーとして用いて単語重みＤＢ５を検索し、入力文書における各キーワードに対して重みを付与する。なおこの検索のように各キーワードと入力文書属性をペアで用いる場合、検索で参照される単語重みＤＢ５の単語および属性のペアを属性考慮単語と呼んでもよいこととする。また、この検索によって各キーワードに対して付与された重みを（単語重みＤＢ５に格納された重み又は重み算出情報と区別して）キーワード重みと呼んでもよいこととする。

単語重みDB５には各キーワード（および入力文書の各属性）に対する重み又は該重みを算出するための情報が格納されている。前述のように重み付与部４・単語重みDB５における処理は（４−１）属性を用いない（考慮しない）実施形態と、（４−２）属性を用いる実施形態とが可能であるので、以下に順に説明する。

（４−１）属性を考慮しない場合
属性を考慮しない実施形態の場合、単語重みＤＢ５には図５に示すような各キーワードの一致対象候補としての各単語に対する、各単語の入力文書における重みの情報又は該重みを算出するための情報が格納されている。

同図（ａ）に示す例は重みの情報が直接与えられている実施形態の例であり、この場合重み付与部４は該重みの情報を参照してキーワードが一致する単語エントリにおける重みをそのまま用いる。単語重みＤＢ５には、単語「象」に対する重みの値「重み［象］」、単語「キリン」に対する重みの値「重み［キリン］」以下、各単語に対する重みの値が記載されている。このような重みの情報は人間の主観などに基づいて所与の情報を与えておくこともでき、また一般のweb検索エンジンを検索したときのヒット数の値を用いることもできる。該検索はキーワード抽出部で抽出されたキーワードを用いて重み付与部４又は単語重みＤＢ５のいずれかが行うものとする。また該検索は重み付与時にキーワードを受け取ってから行ってもよいし、所定の単語に対して予め検索してヒット数を求めておいてもよい。

また同図（ｂ）に示す例は重みを算出するための情報が単語重みＤＢ５に格納されている実施形態の例であり、ここでは各単語に対して自然言語処理分野などで頻繁に用いられる周知の技術であるtfidf(term frequency inverse document frequency)におけるidfの値が格納されている。該idfは、新聞コーパスやwebページなどから取得した大量の文書が格納された学習用文書データベース（学習用文書ＤＢ）を用いて単語重みＤＢ５が学習することで得られ、その値は次式（数式１０）で与えられる。

ここでｍは学習用文書データベースにおける各単語を、
idf_mは単語ｍのidfの値を、
Ｎ_Ｄは学習用文書データベースに含まれる全文書Ｄの総数を、
|{d|m∈d}|は学習用文書データベースＤに属する文書dのうち単語ｍを含む（m∈d）文書dの総数を表す。
なお、単語重みＤＢ５がidf値を学習する方法については属性を用いる場合において説明する。

重み付与部４はキーワード抽出部２が抽出した各キーワードk_xに対してそのtfidfにおけるtfの値を次の（数式１１）

を用いて求め（ここで入力文書とは入力部１を介して入力され、各キーワードk_xを抽出した文書である）、キーワードk_xと一致する単語ｍを単語重みＤＢ５から検索する。重み付与部４はキーワードk_xに対して付与する重みとして、該単語ｍ（=k_x）に対するidf値（数式１０）とtfとを積算して得られるtfidf値を用いる。なお、キーワードk_xに一致する単語ｍが検索されなかった場合には重みの値として所定値（通常その値は０）を用いる。

（４−２）属性を用いる場合
属性を用いる（考慮する）実施形態の場合、単語重みＤＢ５には図６に示すような各キーワードの一致対象候補としての各単語に対する、各単語の入力文書における重みの情報又は該重みを算出するための情報が格納されている。図６には属性として「属性・属性要素」＝「性別・男性」、「性別・女性」の例が示され、（ａ）は重みの情報、（ｂ）重みを算出するための情報の例である。

重みおよび重みを算出する情報は単語と属性（属性要素による区別を含む）とに基づいて定められ、単語重みＤＢ５に保存されている。同一単語であっても属性（図６の例では性別が男性か女性かの区別）によって重み又は重みを算出する情報が異なる。図６（ａ）では例えば、同じキーワード「象」であっても属性が男性の場合は重みとして「重み[象（男性）]」、属性が女性の場合は「重み[象（女性）]」のように属性により異なる重みが保存されている。

このように同一キーワードであっても属性によって異なる重み（又は重み算出情報）を与えるため、本願発明において入力文書の属性を反映した処理が行われるという効果がある。

次に図６（ｂ）に示すような単語重みＤＢ５に格納される重み算出情報として、単語および属性に対するidfを用いる場合につき、idfの学習方法、重みの算出方法の順で説明する。まず、idf値を学習し保存するための単語重みＤＢ５の構成を図７に示す。図７に示すように、単語重みＤＢ５は重み算出情報の一実施形態としてのidf値を学習する構成として学習用文書ＤＢ５１、学習用文書キーワード抽出部５２、学習用文書属性判別部５４、単語重み学習部５５を含む。なお、学習用文書属性判別部５２を用いない構成が前述の属性を用いない場合の（数式１０）の説明における構成に対応する。

学習用文書ＤＢ５１には、新聞コーパスやwebページなどから取得した大量の文書が格納されている。これら文書を（後述の学習用画像・単語ＤＢ７１における「学習用画像付き文書」と区別するために）「学習用文書」と呼んでもよい。

学習用文書キーワード抽出部５２は図２、３のキーワード抽出部２と同様の機能を有し、学習用文書ＤＢ５１に格納された各文書からキーワード（単語）を抽出し、抽出結果を抽出元文書と対応づけて単語重み学習部５５へ送る。

学習用文書属性判別部５４は、図２の属性判別部３と同様の文書解析機能（前述の実施形態（３−１）〜（３−５）など）を有し学習用文書ＤＢ５１内の各文書を読み込んで属性を判別し抽出して、学習用文書ＤＢ５１内の各文書に属性を付与して、その結果を単語重み学習部５５へ送る。

こうして各文書に対して属性が与えられた状態の学習用文書ＤＢ５１内のデータ例を図８に示す。各文書（文書１「旅行先の温泉は気持ちよかった。…」、文書２「昨日帰ってきたのは２２時過ぎ。…」、…）に対して３つの属性（性別、年代、ジャンル）が、各属性の属性要素を判別させることによって付与されている。

単語重み学習部５５は、学習用文書属性判別部５４で判別された属性によって学習用文書ＤＢ５１の各文書を分類したうえで、分類後の各文書群に対する学習用文書キーワード抽出部５２の抽出結果からなる単語群を用いて、各単語の属性を考慮したidf値（属性考慮単語に対するidf値）を次に説明する（数式２０）で求め、idf値を単語重みＤＢ５に保存する。なお（数式２０）は前述の（数式１０）に対応する方式である。

このように属性であらかじめ学習用文書を分類するので、ある属性における各単語のidf値は学習文書のうち同一属性の文書のみを用いて算出される。（属性を考慮しない実施形態では学習文書全体を用いてidfを算出したのでこの点で異なる。）こうして算出するidfによって、同じ単語でも文書属性に応じて異なる重み付け情報が得られるという効果がある。

属性(属性要素)c_y ^(ν)を考慮した各単語m_x(x=1,2, ...,N_M、ここでN_Mは学習用文書ＤＢ５１に含まれる全単語の種類数)のidf値は具体的には次の（数式２０）で与えられる。

ここで、属性要素c_y ^(ν)は次の属性集合C
C={C^(ν)|ν = 1,2, ..., N_c} （数式２１）
に含まれる各属性C^(ν)（例えばC⁽¹⁾=「性別」、C⁽²⁾=「年代」、などとなる）の属性要素であって、各属性C^(ν)は次のように、
C^(ν)={C_y ^(ν)|y=1,2, ..., N_c ^(ν)} （数式２２）
である。（例えばC₁ ⁽¹⁾=「性別・男性」、C₂ ⁽¹⁾=「性別・女性」、C₁ ⁽²⁾=「年代・１０代」、C₂ ⁽²⁾=「年代・２０代」、などとなる。）また（数式２０）において、
N_Dは学習用文書ＤＢ５１に含まれる全文書の総数、

（数式２３）は学習用文書ＤＢ５１の文書のうち属性要素c_y ^(ν)に属する文書の集合（N_D個のうちN_D[c_y ^(ν)]個が属性要素c_y ^(ν)に属する）（なおN_D[c_y ^(ν)]の[c_y ^(ν)]部分は（数式２３）では各括弧[]を省いた上で添字表記）、

（数式２４）は上記（数式２３）の単語学習用文書ＤＢ５１中の属性要素c_y ^(ν)に属する文書集合のうち、単語m_xを含む文書数、である。

なお、（数式２１）（数式２２）の属性C^(ν)・属性要素c_y ^(ν)の表記は以降の説明でも共通して用いる。

上述のようにして単語重みＤＢ５に保存されている属性が考慮されたidf値を重み付与部４が参照して各キーワードk_xに対して重みを付与する各種実施形態を説明する。

（４−２−１）入力文書属性が帰属度を用いずに与えられている場合
重み付与部４は入力文書の各キーワードk_xに対して、一致する単語を単語重みＤＢ５から検索し、その単語の入力文書属性におけるidf値を調べる。（一致単語がなければidf値として所定値、例えば０を用いることとするが、学習用文書ＤＢ５１は大量の文書が格納されているため一致単語が見つからないケースはまれである。）重み付与部４は該idf値と、前述の（数式１１）より求められる各キーワードに対するtfの値とを積算して得られるtfidf値を各キーワードの重みとする。

（４−２−２）入力文書属性が帰属度を用いて与えられている場合
キーワードk_xの各属性要素c_y ^(ν)に対して帰属度の値ε[c_y ^(ν)]を与えられているとする。重み付与部４は単語重みＤＢ５を参照してキーワードk_x（に一致する単語）のidf値を各属性要素c_y ^(ν)に対して全て調べ、帰属度の値ε[c_y ^(ν)]で各属性要素のidf値を重み付けしてから足し合わせて、属性（属性集合Ｃの各属性C^(ν)）が統合的に考慮されたキーワードk_xのidf値（idf[k_xC]）とする（数式３０）。

（なお帰属度の値ε[c_y ^(ν)]およびk_xのidf値（idf[k_xC]）の各括弧[]内は（数式３０）では各括弧[]を省いた上で添字として表記している。）

例えば、属性がC⁽¹⁾＝「性別・（男性又は女性）」かつC⁽²⁾＝「ジャンル・（仕事又はプライベート）」であれば、キーワードk_xに対する４つの全属性要素C₁ ⁽¹⁾＝「性別・男性」、C₂ ⁽¹⁾＝「性別・女性」、C₁ ⁽²⁾＝「ジャンル・仕事」およびC₂ ⁽²⁾＝「ジャンル・プライベート」の各々のidf値を単語重みＤＢ５から調べ、全４つの各属性要素の帰属度の値ε[c_y ^(ν)](y=1,2:ν=1,2)をidfに掛けてから（数式３０）のように足し合わせる。

なお、（数式３０）において属性が「統合的に」考慮されているというのは、これにより得られるidfは形式上では図５（ｂ）の形を取り、属性を用いずキーワードのみを用いて重み付与部４から検索可能であるが、その値には（数式３０）に示すような属性による重み付けが盛り込まれているという点を指す。

また、（数式３０）において別実施形態として、各属性要素のidf値の重みづけの係数は帰属度の値ε[c_y ^(ν)]を用いるのではなく、可変なパラメータとして所定の割合を与えるようにしてもよい。（例えば属性が性別の場合、男性のidfを２割，女性のidfを８割とするなど。）

重み付与部４は各キーワードに対して（数式３０）のidf値を検索する。（前述のように属性が統合的に考慮されているためキーワードのみで検索することが可能である。）さらに、重み付与部４は（数式１１）より求められる各キーワードに対するtfの値をidfに積算して得られるtfidf値を各キーワードの重みとする。

なおまた、以上説明した（４−１）属性を考慮しない場合および（４−２）属性を用いる場合の各々において、重み付与部４は（数式１１）のtfの値を積算せずに、idfの値を各キーワードの重みとする実施形態も可能である。（この場合単語重みＤＢ５に保存されているidfの値は重み算出情報ではなく重み情報とみなすことができる。）

なおまた、以上説明した（４−１）属性を考慮しない場合および（４−２）属性を用いる場合において、tfidfにおけるtfおよびidfの算出には、周知のその他の関数形を用いても構わない。

[画像検索部６および単語・画像ＤＢ７]
画像検索部６は（重み付与部４が単語重みＤＢ５を検索するのに用いたのと同様の、入力文書から抽出された）キーワード（複数）および入力文書属性を検索キーとして用いて単語・画像ＤＢ７を検索する。単語・画像ＤＢ７は該検索に対して、検索キーワードおよび属性に対応する各画像（候補画像）の関連度を画像検索部６に返信する。

なお、この検索のように各キーワードと入力文書属性をペアで用いる場合、検索で参照される単語・画像ＤＢ７の単語および属性のペアを属性考慮単語と呼んでもよいこととする。（単語重みＤＢ５での「属性考慮単語」の説明と同様。）

なお、検索キーであるキーワードと属性（検索対象は属性考慮単語となる）とに対して、このような検索の結果返信されてきた各画像の関連度を（単語・重みＤＢ７内にデータベース情報として保存されている状態と区別して）画像キーワード関連度と呼んでもよいこととする。

画像検索部６は関連度および重み付与部４で与えられた重みに基づいて、（単語・画像ＤＢ７が関連度を返信してきた）各画像のスコアを求める。画像検索部６は該スコアが高い画像を入力文書に付与すべき画像として決定し、必要に応じてユーザ画像ＤＢ８で代替画像との入れ替えを行ったうえで（後述）、出力部８へ送る。なお後述のように、ここで単語・画像ＤＢ７内の（および出力部８へ送られる）画像とは、画像クラスタであってもよい。

まず単語・重みＤＢ７内に格納されている単語（キーワードが一致するものを検索する対象としての単語）に対応付けられた各画像（画像クラスタ）と、単語・画像間の関連度とを含むデータ構成について説明する。該データ構成において属性を用いない場合の例を図９に、属性を用いる場合の例を図１０に示す。

図９に示すように、属性を用いない実施形態の場合、単語・重みＤＢ７内には各単語（「象」、「キリン」など）に対応する各画像（「象」に対応する画像であれば画像１[象]、画像２[象]、画像３[像]など）が格納されている。さらに、各単語に対応する各画像には単語と画像との関連度（単語が、対応する画像を表すための単語として適切であるか等の指標）が与えられ（「像」に対応する各画像の関連度であれば関連度(画像１[象])、関連度(画像２[象])、関連度(画像３[像])など）、該関連度も単語・重みＤＢ７内に格納されている。

また図１０に示すように、属性を用いる実施形態の場合、単語・重みＤＢ７内には各単語（「象」、「キリン」など）および各属性（入力文書属性に一致する属性を検索する対象）（この例では属性が「性別」のみであり属性要素が「男性」又は「女性」）に対応する各画像が格納されている。例えば単語「象」と「性別」属性の属性要素「男性」とに対応する各画像が、画像1[象(男性)]、画像2[象(男性)]、画像3[象(男性)]などとして格納されている。

さらに図１０に示すように、各単語と各属性に対応する各画像には関連度（単語および属性が、対応する画像を表すための単語および属性として適切であるか等の指標）が与えられて、単語・画像ＤＢ７内に格納されている。例えば単語「象」と「性別」属性の属性要素「男性」とに対応する各画像に対する関連度が、関連度(画像1[象(男性)])、関連度(画像2[象(男性)])、関連度(画像3[象(男性)])などとして格納されている。

このように同一キーワード（単語）であっても属性によって異なる画像を与え、画像に対して関連度が定まるので、本願発明における付与画像の選択対象決定に際して入力文書の属性を反映した処理が行われるという効果がある。

次にこのような関連度を単語・画像ＤＢ７が学習する方法と、画像検索部６が単語・画像ＤＢ７を検索して関連度を求め、重み付与部４で得た重みと関連度とから画像選択スコアを求めて画像を選択する方法について説明する。なお、属性を用いる場合を基本として説明し、属性を用いない実施形態が可能な場合は別実施形態として該当箇所にて適宜説明する。

また後述の画像検索部６による画像選択スコアの計算にあたって関連度・重みに加えて追加的に用いることができる単語に対する帰属度（前述の図１５）を、単語・画像ＤＢ７において追加的な処理として算出できるので、これについても説明する。

[関連度の学習]
単語・画像ＤＢ７が関連度を学習し保存するための構成を図１１に示す。単語・画像ＤＢ７は学習用文書・画像ＤＢ７１、学習用文書・画像キーワード抽出部７２、画像クラスタリング部７３、学習用文書・画像属性判定部７４および関連度学習部７５を含む。

学習用文書・画像ＤＢ７１にはwebページなどにある、画像付きの文書（文書と各文書に対応づけられた１つ以上の画像）が大量に格納されている。これらの文書は（単語重みＤＢ５における学習用の文書である「学習用文書」との区別として）「学習用画像付き文書」と呼んでもよい。学習用文書・画像ＤＢ７１に格納されたこのようなデータ例（ただし後述の学習用文書・画像属性判定部７４にて属性情報を付与した例）を図１２に示す。

画像付きの学習用文書には図１２に示すように文書ＩＤ（文書１、文書２、など）が与えられ、文書本文（例えば文書１の本文は「友達と一緒に象の写真を撮った。…」）と、文書に対応する画像（文書１に対応する画像は画像1(文書1)，画像2(文書1)，画像3(文書1)，…）、さらに図１２では各文書に対して文書の属性（性別、年代、ジャンル）・属性要素（性別属性なら「男性」又は「女性」）が後述の学習用文書・画像属性判定部７４で付与されている。なお属性を用いない実施形態の場合このような属性欄に対応する情報は学習用文書・画像ＤＢ７１には含まれない。

学習用文書・画像キーワード抽出部７２は図２、３のキーワード抽出部２と同様の機能を有し、学習用文書・画像ＤＢ７１に格納された各文書からキーワード（単語）を抽出する。学習用文書・画像キーワード抽出部７２はさらに、各文書から抽出した単語群と抽出元の文書ＩＤとを対応づけて関連度学習部７５へ送る。例えば図１２の文書１、文書２からは次のような抽出が行われる。（なお抽出される単語の形式は形態素解析などの実装の詳細に依存する。）
文書１｛「友達」、「一緒」、「象」、「写真」、「撮る」、…｝
文書２｛「卵焼き」、「かき混ぜる」、「卵」、「フライパン」、…｝

学習用文書・画像属性判定部７４は図２の属性判定部３と同様の機能を有し、属性を用いる実施形態で利用され、学習用文書・画像ＤＢ７１内の各文書から属性を抽出し、図１２に示した例のように文書ＩＤと対応づけて各文書に対して抽出属性を付与する。一実施形態では学習用文書・画像属性判定部７４で各文書に付与された属性の情報は図１１に示すように画像クラスタリング部７３および関連度学習部７５に渡される。また別の一実施形態（図１１における（ａ）の部分が省略された形となる）においては属性の情報は関連度学習部７５のみに渡される。属性を用いない実施形態では学習用文書・画像属性判定部７４は省略してよい。

画像クラスタリング部７３は学習用文書・画像ＤＢ７１に格納された各文書に対応づけられた各画像に対して、画像特徴量を基準にクラスタリングを行う。ここで用いる画像特徴量は、従来技術[以下の非特許文献5]]で用いられているような、周知の色特徴量、輝度特徴量を使ってもよいし、近年、画像認識などの分野でよく用いられるSIFT(Scale Invariant Feature Transform)特徴量を用いてもよい。これらの画像特徴量は、画像全体に対して求めてもよいし、重要領域のみに求めてもよい。さらに、局所的画像特徴量の表現方法として、従来技術のBok（Bag-of-keypoints）を用いてもよい。Bokは、画像から抽出された100から1000個程度の局所特徴量の出現頻度のヒストグラムをひとつの画像の特徴量とするものである。

（非特許文献５）森靖英，高橋裕信，岡隆一：単語群付き画像の分割クラスタリングによる未知画像からの関連単語推定，電子情報通信学会論文誌D，Vol.J84-D2 No4 pp.649-658(2001)

クラスタリング方法については、従来技術（上記の非特許文献5）で用いられているような、ベクトル量子化を用いる手法でもよいし、K-meansクラスタリングのような周知のクラスタリング手法を用いてもよい。また，最短距離法，最遠距離法，群平均法，重心法，Ward法などの周知の階層的なクラスタリング手法を利用してもよい．

クラスタリングを行う一実施形態としては、学習用文書・画像属性判定部７４で抽出した属性を用いて、（属性・属性要素で指定される）属性毎に画像を分けた上で、画像をクラスタリングしてもよい（図１１（ａ）を経由する実施形態）。例えば属性が性別で属性要素が男性又は女性ならば、属性情報より男性が作成したと判定される文書に対して付与された画像のみを使って、画像特徴量でクラスタリングする。また女性と判定された文書に対する画像のみに対して別個に、画像特徴量でクラスタリングする。したがって、この場合には、同一クラスタに男性が作成したと判定された文書に付与された画像と女性が作成したと判定された文書に付与された画像とが混在することはない。

またクラスタリングを行う別の一実施形態では、図１１（ａ）を経由せず（上述のような属性毎に画像を前もって分類するということを行わず）に、学習用文書・画像ＤＢ７１に格納された各文書に対応づけられた画像の全体に対してクラスタリングを行う。

さらにまたクラスタリングの別の一実施形態として、クラスタリングを行わないようにすることも可能である。この実施形態はクラスタリングを行った実施形態で１クラスタに所属する画像が１画像であるような場合とみなすこともできる。

以上のクラスタリングの結果は、各実施形態のいずれの場合であっても画像ＩＤとクラスタＩＤとの対応付けとして関連度学習部７５に渡される。

また以上のようにクラスタリングを行うことで、各クラスタには画像特徴量が類似した画像が集まり、かつ各画像には対応する単語（「単語k_xに対応する画像」として後述の（数式４０）〜（数式４１）において説明する）が元文書毎に複数存在するので、類似特徴の画像が用いられる様々な文書の単語との対応づけ情報を各クラスタに含めることができる。後述のように、このようなクラスタ単位で求められる関連度を用いて画像選択スコアを計算することで、各種の多様な入力文書に対しても適切な画像を選出できるようになるという効果がある。

関連度学習部７５は、学習用文書・画像キーワード抽出部７２から文書ＩＤに対応づけられたキーワード群（単語群）を、画像クラスタリング部７３から文書ＩＤに対応づけられた画像ＩＤと画像ＩＤに対応づけられた画像分類先のクラスタＩＤを、学習用文書・画像属性判別部７４から各文書ＩＤに対応する文書の属性を受け取り、関連度を計算し、画像選択スコアを求めて入力文書に対する付与画像を選定する。

関連度学習部７５は、上記のように受け取った各情報を用いて単語k_x・属性（属性要素c_y ^(ν)）において画像クラスタi_zの出現確率Pを各実施形態に対して次の（数式４０）〜（数式４１）のように計算し、該出現確率を単語・属性と画像クラスタとの関連度として定めて、単語・画像ＤＢ７に保存する。なお、単語・属性と画像との関連度は、単語・属性と該画像の属する画像クラスタの関連度として与えられ、関連度学習部７５が単語・画像ＤＢ７に例えば図１０のような形式[単語・属性・画像・関連度（＝出現確率）のように対応づけた形式]で保存する。また属性を用いない実施形態では図９のような形式[単語・画像・関連度（＝出現確率）のように対応づけた形式]で保存する。

（属性を用いない実施形態の場合）
単語k_xが与えられたときの画像クラスタi_zの出現確率P(i_z|k_x)は次の（数式４０）で計算される。

上記の数式４０での関連度は，ある単語k_xに該当する全画像の個数IF(k_x)のうち，画像クラスタi_zに属する画像の個数IF(i_z|k_x)の割合である。

ただし、上記の数式４０の関連度は、別実施形態として下記の２つの式に置き換えてもよい。分母にどのような値をとるかの違いである（なお、これら値の違いは後述の図１６を用いて模式的にも説明する）。これは後述する属性を考慮した場合においても、同様の置換えが可能である。

ただし、このように置き換える場合、単語・画像データベース７に格納される各画像クラスタとの関連度は形式としては(数式４０)のような確率の形式ではなく、単純な大きさという意味合いになる。（例えば、ある単語ｋ_xに対する関連度を全画像クラスタi_zで足し合わせても必ずしも１とはならないため、確率ではない。）それに伴い、P(i_z|k_x)は、数式上の表記も次に示すように確率ではない値であるという意味合いで(i_z|k_x)を省略してPに置き換えるとする。

すなわち、（数式４０）の代わりに上記の式（数式４０A）のように、画像クラスタi_zの中の全画像の個数IF(K_z)のうち、単語ｋ_xに該当する画像の個数の割合を関連度に用いてもよい。

また、（数式４０）の代わりに上記の式（数式４０B）のように、データベースに存在する画像の個数IF(K)個のうち、単語k_xに該当し、画像クラスタi_zに属する画像の個数の割合としてもよい。

（出現確率計算時のみに属性を用いる実施形態[図１１の（ａ）を経由しない実施形態]の場合）
属性c_y ^(ν)における単語k_xが与えられた時の画像クラスタi_zの出現確率P(i_z|k_x,c_y ^(ν))は次の（数式４１）で計算される。

（クラスタリング時と出現確率計算時とで属性を用いる実施形態[図１１の（ａ）を経由する実施形態]の場合）
属性c_y ^(ν)における単語k_xが与えられた時の画像クラスタi_zの出現確率P(i_z|k_x,c_y ^(ν))は次の（数式４２）で計算される。

この（数式４２）の実施形態によれば、前述のように画像のクラスタリングがあらかじめ属性によって分類されてから行われるので、本発明の画像選定装置で入力文書に対する画像を選定するにあたって、入力文書と同じ属性の文書に付与されていた画像の中から選定されるという効果がある。

また、以上の（数式４１）〜（数式４２）において、
IF(k_x)は単語k_xと対応する画像の総数、
（なお、単語k_xに対応する／該当する画像とは、該画像に対応づけられる元の画像付き文書から学習用文書・画像キーワード抽出部７２が抽出したキーワード群の中に単語k_xに一致するものがある画像のことである。また同様に属性c_y ^(ν)に属する画像とは、該画像に対応づけられる元の画像付き文書の属性がc_y ^(ν)である画像のことである。数式４０、４０A、４０Bにおいても同様である。）
IF(i_z|k_x)は画像クラスタi_zに属する画像のうち、単語k_xと対応する画像の個数。

IF(i_z|k_x,c_y ^(ν))は画像クラスタi_zに属する画像のうち、単語k_xと対応しかつ属性c_y ^(ν)に属する画像の個数、
（なお前述のとおり、画像クラスタi_zは（数式４１）では属性c_y ^(ν)とは無関係に画像全てをクラスタリングした結果の１つであるが、（数式４２）ではクラスタリングを行う対象画像をあらかじめ属性c_y ^(ν)で分類してからクラスタリングを行った結果の１つである、という違いがある。この違いは出現確率を計算する上で（数式４１）と（数式４２）の分母の違いにも反映されている。）
IF(k_x,c_y ^(ν))は単語k_xと対応しかつ属性c_y ^(ν)に属する画像の総数である。

なおまた上述のIF(k_x)とIF(i_z|k_x)との関係などを模式的に図１６に示す。図１６では全画像を特徴量空間（説明の便宜上２次元空間）における点として"×"又は"●"で表記している。このうち、"×"は単語k_xに対応しない（画像に対応する元の文書のキーワード中に単語k_xに一致するものがない）画像を、"●"は語k_xに対応する画像である。全画像はクラスタリングの結果、全４つの画像クラスタi_a, i_b, i_c, i_z（図中ではi_a, i_b, i_c, i_zとして表記している）へ分けられ、
IF(k_x)＝(i_aの２個)＋(i_bの２個)＋(i_cの０個)＋(i_zの５個)＝９個
IF(i_z|k_x)＝５個
となる。さらにまた図１６は図中の全画像が属性要素c_y ^(ν)に属するものであるとすると、同様にしてIF(k_x,c_y ^(ν))とIF(i_z|k_x,c_y ^(ν))との関係を模式的に示している。

また図１６の例では（数式４０）、（数式４０A）、（数式４０B）において、IF(k_x)およびIF(i_z|k_x)は上述と同様であり、
IF(K_z)＝(i_zの"●"全５個＋"×"全４個)＝９個
IF(K)＝(i_a, i_b, i_c, i_zの全"●"＋全"×")＝３１個
となる。

なおまたクラスタリングを行わない実施形態の場合、画像クラスタi_zを画像i_zと読みかえればよい。この場合、画像i_zとは１画像をＩＤで表しているものであるので、（数式４０）〜（数式４１）においてIF(i_z|k_x)およびIF(i_z|k_x,c_y ^(ν))の値は０または１である。

[単語に対する帰属度の算出]
後述の画像選択スコア算出において補助的に利用できる情報である単語に対する帰属度を単語・画像ＤＢ７にて求めることができる。構成としては図１１の構成から画像クラスタリング部７３を省いた構成を用い、関連度学習部７５で（上述の関連度とはまた別の情報として）帰属度算出結果を受け取る。

学習用文書・画像ＤＢ７１の各文書（画像は用いない）から学習用文書・画像キーワード抽出部７１から各単語k_xを抽出する。また各文書に対して学習用文書・画像属性判定部７４で属性を付与する。これらの結果より各属性要素c_y ^(ν)に該当する文書数num1(c_y ^(ν))と、単語k_xを含みかつ属性要素c_y ^(ν)に該当する文書数num2(k_x,c_y ^(ν))を数える。これより単語k_xに対する属性C_yの属性要素c_y ^(ν)の帰属度bel(k_x,c_y ^(ν))は次（数式４５）で求められる。

なお、別実施形態として単語に対する帰属度は単語重みＤＢ５（図７の構成）において上述と同様にして求めることもできる。この場合単語重みＤＢ５において学習用文書ＤＢ５１、学習用文書キーワード抽出部５２、学習用文書属性判別部５４および単語重み学習部５３がそれぞれ上述の学習用文書・画像ＤＢ７１、学習用文書・画像キーワード抽出部７２、学習用文書・画像属性判定部７４および関連度学習部７５の役割を担う。

[画像選択スコアの計算]
以上のような単語・画像ＤＢ７に保存された関連度（単語、属性、画像クラスタ／画像に対して定まる）と、重み付与部４で付与された重み（単語、属性に対して定まる）とを用いて、画像検索部６が入力文書（単語[キーワード]、属性が抽出される）に対する画像の関連性の強さの指標である画像選択スコアを計算する各実施形態について説明する。

なお関連度は単語・画像ＤＢ７に保存された画像クラスタ毎に定まるので、画像選択スコアも単語・画像ＤＢ７に保存された各画像クラスタ単位で計算する。（画像単位で計算してもよいが、同一クラスタに属する画像は同じスコアとなる。）なおまた単語・画像ＤＢ７でクラスタリングを行わない実施形態の場合、前述と同様に画像検索部６でのスコア計算は単一画像のみ含む画像クラスタ毎に行う実施形態、とみなして画像選択スコアが計算できる。以下に説明する実施形態のそれぞれの別実施形態として画像クラスタは単一画像であってもよい。

（属性を用いない実施形態における画像選択スコア）
ユーザからの入力文書から抽出された各キーワードk_xの重みをω_{k_x}（該重みは重み付与部４の説明（４−１）での実施形態より得られる）とし、キーワードk_xと画像クラスタi_zとの関連度を（数式４０）のP(i_z|k_x)として、画像選択スコアS_izは次（数式５０）で計算される。

ここでK={k_x|x={1,2,...,N_K}}は入力文書から抽出されたキーワードの集合、N_Kは入力文書から抽出されたキーワードの個数。（数式５０）に示すとおり重みと関連度との積の全キーワードk_xに渡る和を求めてキーワード数N_Kで規格化することで画像選択スコアが得られる。またP(i_z|k_x)の代わりに（数式４０Ａ）、（数式４０Ｂ）のＰを用いてもよい。

なお（数式５０）においてもしキーワードk_xに一致する単語が単語・画像ＤＢ７に格納されていなければP(i_z|k_x)は所定値（通常その値は０）とする。（属性を用いる実施形態における画像選択スコア）
（実施形態１）重み付与部４における単語重みに対してのみ属性を用いる場合
ユーザからの入力文書から抽出された各キーワードk_xに対する入力文書の各属性要素c_y ^(ν)における重みをα[k_xc_y ^(ν)](次に示す数式では[]内は添字として表記)とする。該重みα[k_xc_y ^(ν)]は、例えばtfidf値としてなら各キーワードk_xと属性要素c_y ^(ν)に対して（数式１１）を適用してidf値を、（数式２０）を適用してtf値を求めこれらを積算して求められる。

またキーワードk_xと画像クラスタi_zとの関連度（関連度に対しては属性用いず）を（数式４０）のP(i_z|k_x)として、この（実施形態１）における画像選択スコアS_izは次（数式５１）で計算される。

（数式５１）に示すとおりキーワードと属性との関数である重みと、キーワードの関数である関連度との積の、全属性要素c_y ^(ν)と全キーワードk_xに渡る和として画像選択スコアが求められる。なお、全属性要素c_y ^(ν)に渡る和のインデックスの取り方については前述の（数式２１）、（数式２２）の通りであり、以下の各実施形態における画像選択スコアの計算でも同様である。

（実施形態２）重み付与部４における単語重みと、画像検索部６における関連度との両方に対して属性を用いる場合
単語重みを（実施形態１）と同様にα[k_xc_y ^(ν)]とし、属性要素c_y ^(ν)におけるキーワードk_xの画像クラスタi_zに対する関連度をP(i_z|k_x,c_y ^(ν))とする。該関連度は前述の（数式４１）、（数式４２）のいずれから求めてもよい。（実施形態２）における画像選択スコアS_izは次（数式５２）で与えられる。

（数式５２）では（数式５１）と比べて関連度がキーワードのみの関数でなくキーワードと属性の関数となり、同様に全属性要素c_y ^(ν)と全キーワードk_xに渡って和を取る。

（実施形態２Ａ）画像検索部６における関連度のみに対して属性を用いる場合
この場合は（数式５２）における属性考慮単語重みをα[k_xc_y ^(ν)]をω_{k_x}（該重みは（数式５１）での説明と同様に重み付与部４の説明（４−１）での実施形態より得られる。）に置き換えた式により画像選択スコアS_izが求められる。

さらに、以上の（実施形態１）および（実施形態２）に対してそれぞれ同様な追加的実施形態として、追加的に帰属度を用いる実施形態（実施形態１Ａ）および（実施形態２Ｂ）を説明する。帰属度としては（数式４５）の単語に対する属性の帰属度bel(k_x,c_y ^(ν))と、図１４で説明したような文書に対する帰属度γ[c_y ^(ν)]との両方又はいずれか一方を用いることができる。両方を用いる場合、各実施形態の画像選択スコアは次の通りである。なお、単語に対する属性の帰属度bel(k_x,c_y ^(ν))をβ[k_xc_y ^(ν)]と表記することとし、文書に対する帰属度γ[c_y ^(ν)]と共に式中では[]内を添字で表記することとする。

（実施形態１Ａ）では次の（数式５１Ａ）で画像選択スコアS_izが求められる。

（実施形態２Ａ）では次の（数式５２Ａ）で画像選択スコアS_izが求められる。

なお、単語に対する帰属度又は文書に対する帰属度の片方のみを用いる場合は、（数式５１Ａ）および（数式５２Ａ）において用いない方の帰属度の項を無視する（値を定数１とする）ことで画像選択スコアS_izが求められる。

画像検索部６は以上のような各実施形態によって画像選択スコアを求め、該スコアが最大となる画像クラスタの画像を入力文書に付与する画像として決定する。別実施形態では、スコアの上位の方から所定数の画像クラスタの画像を、その順位付け情報と共に入力文書に付与する画像として決定してもよい。決定された画像は次に述べるユーザ画像ＤＢ８内の画像との置き換えの必要がなければ、そのまま出力部９へ送られる。

[ユーザ画像ＤＢ８と画像検索部６による類似画像置き換え検索]
画像検索部６はまた、単語・画像ＤＢ７の中からスコアを求めることによって入力文書に対して付与すると決定した画像が、著作権などによってユーザの入力文書に対して付与して用いるのに適さない場合などは、後述のユーザ画像ＤＢ８内の類似画像に置き換えてから出力部９へ送る。

該置き換えを行う判断は、単語・画像ＤＢ７に格納された画像に他の文書に付与して利用可能かどうかの情報を含めておき、選択された画像に対して該情報を参照することにより画像検索部６で自動判断してよい。なお単語・画像ＤＢ７に格納される画像をあらかじめ別文書に付与して利用可能な画像に限っておけば、こうした置き換えは必要ない。

また入力文書の作成ユーザ自身が所有し、入力文書と関連のある所定数の画像がある場合、ユーザは自身の所望判断により入力文書と共に自身の画像蓄積を付与画像として利用させる命令を入力部１に対して入力し、該命令に従ってユーザ画像ＤＢ８内の類似画像との置き換えを行うようにしてもよい。この場合、ユーザ画像ＤＢ８内にはユーザの所有する画像を格納することとなる。

このような置き換えを行うにあたっての画像検索部６におけるユーザ画像ＤＢ８の類似画像検索機能を説明する。ユーザ画像データベース８に保存されたデータ例を図１３に示す。画像検索部６は、単語・画像データベース７から選択された画像の特徴量を算出して、ユーザ画像データベース８にある各ユーザ画像（図１３の画像１、画像２など）との類似度を計算する。画像特徴量の算出には前述の画像クラスタリング部７３で説明したような各種の従来技術を用いる。類似度算出にあたって、ユーザ画像データベース８における各画像の特徴量も画像検索部６があらかじめ計算しておくものとする。類似度は、従来技術[以下の（非特許文献 7）]を使って、画像1と画像2のそれぞれの画像特徴量の距離としてもよい。距離は、ユークリッド距離でもよいし、各特徴量の相関と分散を考慮したマハラノビス距離でもよいし、あるいは特徴量間のコサイン類似度などでもよい。類似度が高いとされたユーザ画像データベース中のユーザ画像を前記選別された画像と置き換える。ユーザ画像データベースにある画像の特徴量から、選択された画像の類似度を計算してもよい。

このような置き換えによって次のようなことが可能となる。例えば、ユーザが「今日動物園で、象を見た」という日記を書いていて、その日に動物園で撮った"横向きの象"の写真Aを持っていたとする。ユーザの日記の"象"というキーワードから、別の人間が撮った"正面の象"の写真Bが画像検索部６により、選択されたとする。その"正面の象"の写真Bを基に、自分の持っている写真群を検索することで、自動的に自分が撮った"横向きの象"の写真Aを抽出してくることが可能となる。

（非特許文献７）柳井啓司：キーワードと画像特徴を利用したwwwからの画像収集システム，情報処理学会論文誌，Vol.42 No.SIG 10，pp.79-91(2001)

以上、本願発明によれば、ユーザが作成した文書から、文書に適した画像を自動で付与することができる。さらに、ユーザの属性や文書内容の属性を考慮することで、よりユーザの思いを反映した画像を自動で付与することが可能となる。また、付与する画像を、自分が元々持っている画像とすることも可能となる。

また本願発明によれば、ブログ、ホームページ、発表用スライドなどのコンテンツ作成時に、ユーザはテキスト情報のみを与えただけで、所望の画像をコンテンツに付与することができ、そのコンテンツをより魅力的なものにすることができる。さらには、画像だけではなく、動画や音楽といった他のコンテンツに対しても同様の手法を応用できると考えられる。

また、以上説明してきたように本発明は、ブログなどの文書から抽出されたキーワードをキーとして画像の検索（および付与）を行うため、TBIRに関する。本発明においては、文書から抽出された複数のキーワードを利用して画像検索を行う。本発明では，単語と画像的な特徴でまとめられた各画像クラスタとの関連度（画像付き文書から予め求めておく）をデータベースに保持しておく。

この関連度と文書から抽出されたキーワードの重みとの積和に基づき画像が選択されることから、TBIRにおける従来技術におけるような単語単位ではなく、文書全体として最もマッチする画像が付与候補画像として選択される。また、ここでいう画像を特に画像クラスタと考えた場合においては、画像単体では対応付けられていない単語であっても、画像クラスタ中にその単語と対応している他の画像が存在していれば、対応の付いていない画像も検索でヒットする可能性がある。前述の従来技術の単純なAND検索による検索画像のヒットもれの問題を回避するとともに、ユーザがよいキーワードを思いつかない場合でも、本願発明によれば所望の画像を得られる場合がある。

さらには、画像を画像特徴量でクラスタリングを行った上でテキストベースの検索を行うため、意味的に類似しているだけでなく、（色や形状といった）視覚的に画像の内容が類似しているものを検索しやすくなる。本発明であれば、一般の類似画像検索のように、画像をキーとして与えることなく、ユーザはテキストのみで、意味的な特徴と視覚的な特徴を捉えた検索を行うことができる。

２…キーワード抽出部、３…属性判別部、４…重み付与部、５…単語重みデータベース、６…画像検索部、７…単語・画像データベース

Claims

入力文書に適した画像を選定する画像選定装置であって、
前記入力文書から該入力文書に含まれる複数のキーワードを含むキーワード情報を抽出するキーワード抽出部と、
複数の単語と該複数の単語の各々に対応付けられる単語重みとの情報を格納する単語重みデータベースと、
前記キーワード情報を受け取り、前記キーワードを前記格納された単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、前記キーワードの各々に対して検索一致する単語に対応する単語重みを求め、該単語重みを用いて前記キーワードの前記入力文書におけるキーワード重みを算出する重み付与部と、
複数の単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する単語との間の関連度を対応付け、該対応付けられた単語、画像および関連度の情報を保存する単語・画像データベースと、
前記キーワード情報および前記キーワード重みを受け取り、前記キーワードを前記保存された単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する単語に対応する画像を前記キーワードに対する候補画像として求め、かつ該候補画像と前記検索一致した単語との間の関連度を前記キーワードと前記候補画像との間の画像キーワード関連度として求め、該画像キーワード関連度と前記キーワード重みとを用いて前記候補画像の各々に対して画像選択スコアを計算し、該画像選択スコアに基づいて前記候補画像の中から前記入力文書に適した画像を選定する画像検索部とを備えることを特徴とする画像選定装置。
前記入力文書から該入力文書の属性を抽出する属性判別部を備え、
前記単語・画像データベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対して複数の画像を対応づけ、該複数の画像の各々に対して、画像と該画像に対応する属性考慮単語との間の関連度を対応付け、該対応づけられた属性考慮単語、画像および関連度の情報を保存し、
前記画像検索部は、前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記保存された属性考慮単語に対する検索キーとして用いて前記単語・画像データベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する画像を前記候補画像として求め、かつ該候補画像と前記検索一致した属性考慮単語との間の関連度を前記画像キーワード関連度として求めることを特徴とする請求項１に記載の画像選定装置。
前記単語・画像データベースは学習用文書・画像データベース、学習用文書・画像キーワード抽出部、画像クラスタリング部、学習用文書・画像属性判別部および関連度学習部を含み、
前記学習用文書・画像データベースは複数の文書と該文書の各々に対応する複数の画像とを含む所定の学習用画像付き文書を保存し、
前記学習用文書・画像キーワード抽出部は前記学習用画像付き文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用画像付き文書と対応づけ、
前記画像クラスタリング部は前記学習用画像付き文書に含まれる全画像を画像特徴量に基づいて複数の画像クラスタに分類し、
前記学習用文書・画像属性判別部は前記学習用画像付き文書に含まれる各文書の属性を抽出して抽出元の学習用画像付き文書と対応づけ、
前記関連度学習部は、前記学習用文書・画像キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用画像付き文書のうち当該キーワードを含む文書に前記対応する画像の数である第１の数を求め、前記画像クラスタの各々に対して該画像クラスタに含まれる画像を含む前記学習用画像付き文書のうち、前記前記学習用文書・画像属性判別部にて抽出された属性が所定の属性の文書でありかつ前記キーワードを含む文書に前記対応する画像の数である第２の数を求め、前記単語・画像データベースにおける前記対応づけられた属性考慮単語、画像および関連度として当該所定の属性と当該キーワード、当該画像クラスタに含まれる各画像および（前記第２の数）÷（前記第１の数）の値を保存することを特徴とする請求項２に記載の画像選定装置。
前記画像クラスタリング部が前記学習用画像付き文書の全体に含まれる全画像をあらかじめ各画像に対応する前記学習用画像付き文書の属性によって分類した上で画像特徴量に基づいて複数の画像クラスタに分類することを特徴とする請求項３に記載の画像選定装置。
前記単語重みデータベースは前記複数の単語の各々を複数の属性に対応づけることで複数の属性考慮単語とし、該複数の属性考慮単語の各々に対応づけられる単語重みの情報を格納し、
前記重み付与部は前記抽出された入力文書の属性を受け取り、前記キーワードと前記抽出された入力文書の属性とを前記格納された属性考慮単語に対する検索キーとして用いて前記単語重みデータベースを検索することにより、当該検索キーに一致する属性考慮単語に対応する単語重みを前記キーワード重みとして算出することを特徴とする請求項２ないし４のいずれかに記載の画像選定装置。
前記単語重みデータベースは学習用文書データベース、学習用文書キーワード抽出部、学習用文書属性判別部および単語重み学習部を含み、
前記学習用文書データベースは複数の文書を含む学習用文書を格納し、
前記学習用文書キーワード抽出部は前記学習用文書に含まれる各文書から複数のキーワードを抽出して抽出元の学習用文書と対応づけ、
前記学習用文書属性判別部は前記学習用文書に含まれる各文書の属性を抽出して抽出元の学習用文書と対応づけ、
前記単語重み学習部は、前記学習用文書キーワード抽出部にて抽出されたキーワードの各々に対して前記学習用文書のうち当該キーワードを含む文書の数である第３の数を求め、
前記学習用文書属性判別部にて抽出された属性が所定の属性でありかつ当該キーワードを含む文書の数である第４の数を求め、前記単語重みデータベースにおける前記対応づけられた属性考慮単語および単語重みとして当該所定の属性と当該キーワードおよび（前記第４の数）÷（前記第３の数）の値を格納することを特徴とする請求項５に記載の画像選定装置。
前記重み付与部が、前記キーワード情報を用いて前記キーワードの前記入力文書における頻度を求め、該頻度と、前記キーワードに対応する前記単語重みと、を用いて前記キーワード重みを算出することを特徴とする請求項１ないし６のいずれかに記載の画像選定装置。
前記入力文書の入力ユーザが所有する複数の画像を蓄積するユーザ画像データベースを備え、
前記画像検索部が前記選定した画像をさらに、当該画像と類似する画像を前記ユーザ画像データベースから選出することにより、当該選出された画像に置き換えることを特徴とする請求項１ないし７のいずれかに記載の画像選定装置。