JP5383017B2

JP5383017B2 - Ｗｅｂページに対して適合する画像を提示するシステム

Info

Publication number: JP5383017B2
Application number: JP2007229065A
Authority: JP
Inventors: 圭吾町永; 澄男藤田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-09-04
Filing date: 2007-09-04
Publication date: 2014-01-08
Anticipated expiration: 2027-09-04
Also published as: JP2009064079A

Description

本発明は、画像を提示するシステムに関する。特に、Ｗｅｂページに対して適合する画像を提示するシステムに関する。

従来、Ｗｅｂ上の文書であるＷｅｂページの作成において、Ｗｅｂページの背景画像等は作成者が指定することができる。そこで、Ｗｅｂページの作成者は、画像データベース等に対して、画像に付与されたタグ等を手がかりにした手作業による検索を行い、探し出した画像を指定することにより、Ｗｅｂページを特徴付け、多くの読者を惹きつけることができるような内容としている。

Ｗｅｂページの作成における文書を特徴付ける関連技術として、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）のような構造化文書において、スタイルシートによる情報から表示出力を得る際に、構造的に重要な箇所及びユーザにとって重要なキーワードを、ユーザの色の好みに従って変換し提示する技術が提示されている（特許文献１参照）。
特開２００５−７３０８１号公報

しかしながら、特許文献１の技術では、スタイルシートの指示により行われ、構造化文書において利用できる技術であり、構造化されていない文書では利用できない。また、ユーザの好みは反映されているが、文書が表現する意味内容は反映されていない。

一方、ブログやＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）の日記のような記事は、タイトルと本文で構成されていることが一般的であり、殆ど構造化されていない非構造化の文書である。また、その記事の意味内容を反映した背景画像、挿絵、記事エントリーアイコン等を用いることで、より読者を惹きつける内容にすることが出来ると考えられる。そこで、投稿される記事について、構造化された文書であるか否かに関わらず、記事の意味内容に適合した、背景画像等に使う画像を効率よく検索することが出来るシステムが求められている。

本発明は、入力される文書テキストの意味内容に適合する画像を効率よく出力するシステムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）画像データを抽出し、ユーザに提示する画像提示システムにおいて、前記画像データが表す画像を文章に表現した場合に前記文章の中で意味を持つ最小単位である形態素と前記画像との関連の強さを数値化した意味特徴量データを前記画像データごとに記憶する画像データベースと、前記ユーザが入力したテキストデータを取得するテキスト取得部と、前記テキスト取得部が取得した前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するバグオブワード作成部と、前記意味特徴量データ及び前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算する適合度計算部と、前記適合度計算部の計算結果に基づいて、前記画像データベースの中から前記適合度の高い画像データを抽出する画像データ抽出部と、を備えることを特徴とする画像提示システム。

（１）の構成によれば、画像提示システムにおいて、抽出する画像データを記憶する画像データベースは、画像データが表す画像を文章に表現した場合に文章の中で意味を持つ最小単位である形態素と画像との関連の強さを数値化した意味特徴量データを画像データごとに記憶している。そして、画像提示システムは、ユーザが入力したテキストデータを取得し、そのテキストデータの中の形態素及び形態素の使用回数の集合であるバグオブワードを作成し、画像の意味特徴量データ及び入力したテキストデータのバグオブワード、に基づいて、テキストデータと画像データとの適合度を計算し、適合度の高い画像データを抽出する。

このことにより、画像データベースが、画像ごとに意味特徴量データを記憶し、画像提示システムは、ユーザが入力したテキストデータのバグオブワード及び画像の意味特徴量データに基づいて、テキストデータと画像との適合度を計算し、適合度の高い画像データを抽出するので、入力される文書テキストの意味内容に適合する画像を効率よく出力することができる。

（２）（１）に記載の画像提示システムにおいて、前記画像データベースは、前記画像の雰囲気の特徴度を数値化した雰囲気特徴量データを、前記画像データごとにさらに記憶し、前記画像提示システムは、前記ユーザの情報と共に、前記ユーザの嗜好を数値化した嗜好パラメータを記憶するユーザデータベースをさらに備え、前記適合度計算部は、前記意味特徴量データ及び前記バグオブワード、並びに、前記雰囲気特徴量データ及び前記嗜好パラメータに基づいて、前記テキストデータ及び前記ユーザと前記画像データとの適合度を計算することを特徴とする画像提示システム。

（２）の構成によれば、画像データベースは、画像の雰囲気の特徴度を数値化した雰囲気特徴量データを画像データごとにさらに記憶し、画像提示システムは、テキストデータを入力するユーザの情報を記憶すると共に、ユーザの嗜好を数値化した嗜好パラメータを記憶するユーザデータベースをさらに備える。そして、画像提示システムは、画像の意味特徴量データ及び入力したテキストデータのバグオブワード、並びに、画像の雰囲気特徴量データ及びテキストデータを作成したユーザの嗜好パラメータに基づいて、テキストデータ及びユーザと画像データとの適合度を計算し、適合度の高い画像データを抽出する。

このことにより、画像提示システムは、画像データベースとして、画像ごとに意味特徴量データと、雰囲気特徴量データを記憶し、ユーザデータベースとして、嗜好パラメータを記憶し、ユーザが入力したテキストデータのバグオブワード及び画像の意味特徴量データ、並びに、テキストデータを作成したユーザの嗜好パラメータ及び画像の雰囲気特徴量データに基づいて、画像の適合度を計算し、適合度の高い画像データを抽出するので、入力される文書テキストの意味内容と、ユーザの好みとに適合する画像を効率よく出力することができる。

（３）（２）に記載の画像提示システムにおいて、前記画像の前記意味特徴量データの初期値は、予め手作業により作成し、前記画像の前記雰囲気特徴量データの初期値は、全ユーザの平均値によって与えられ、前記提示された前記画像に対する前記ユーザの選択に応じて、事後確率最大化法により、前記ユーザが選択した画像の前記意味特徴量データ及び前記ユーザの前記嗜好パラメータを更新することを特徴とする画像提示システム。

（３）の構成によれば、画像の意味特徴量データの初期値は、予め手作業により作成し、画像の雰囲気特徴量データの初期値は、全ユーザの平均値によって与えられ、提示された画像に対するユーザの選択に応じて、事後確率最大化法により、ユーザが選択した画像の意味特徴量データ及びユーザの嗜好パラメータを更新するので、適合度の計算結果がより的確になり、さらに適合度の高い画像データを抽出することが可能となる。したがって、入力される文書テキストの意味内容と、ユーザの好みとに適合する画像をさらに効率よく出力することができる。

（４）画像データを抽出し、ユーザに提示する方法において、前記ユーザが入力したテキストデータを取得するステップと、前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するステップと、前記画像データが表す画像を文章に表現した場合に前記文章の中で意味を持つ最小単位である形態素と前記画像との関連の強さを数値化した意味特徴量データ及び前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算するステップと、前記計算の結果に基づいて、前記適合度の高い画像データを抽出するステップと、を含む方法。

（４）の構成によれば、本発明の方法は、ユーザが入力したテキストデータを取得し、テキストデータを解析して得られた形態素及び該形態素がテキストデータの中で使用される回数の集合であるバグオブワードを作成し、画像データが表す画像を文章に表現した場合に文章の中で意味を持つ最小単位である形態素と画像との関連の強さを数値化した意味特徴量データ及び取得したテキストデータのバグオブワードに基づいて、テキストデータと画像データとの適合度を計算し、計算の結果に基づいて、適合度の高い画像データを抽出する。したがって、本発明の方法は、入力される文書テキストの意味内容に適合する画像を効率よく出力することができる。

（５）画像データを抽出し、ユーザに提示するコンピュータ・プログラムにおいて、前記ユーザが入力したテキストデータを取得するステップと、前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するステップと、前記画像データが表す画像を文章に表現した場合に前記文章の中で意味を持つ最小単位である形態素と前記画像との関連の強さを数値化した意味特徴量データ及び前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算するステップと、前記計算の結果に基づいて、前記適合度の高い画像データを抽出するステップと、をコンピュータに実行させるコンピュータ・プログラム。

（５）の構成によれば、本発明のコンピュータ・プログラムは、ユーザが入力したテキストデータを取得し、テキストデータを解析して得られた形態素及び該形態素がテキストデータの中で使用される回数の集合であるバグオブワードを作成し、画像データが表す画像を文章に表現した場合に文章の中で意味を持つ最小単位である形態素と画像との関連の強さを数値化した意味特徴量データ及び取得したテキストデータのバグオブワードに基づいて、テキストデータと画像データとの適合度を計算し、計算の結果に基づいて、適合度の高い画像データを抽出する。したがって、本発明のコンピュータ・プログラムは、コンピュータに、入力される文書テキストの意味内容に適合する画像を効率よく出力させることができる。

本発明によれば、入力される文書テキストの意味内容に適合する画像を効率よく出力するシステムを提供することができる。

以下、本発明の実施形態について図を参照しながら説明する。

［実施例１］
本発明の１つの実施の形態として、画像提示装置１０を例に挙げて説明する。
この画像提示装置１０は、テキスト取得部１１と、バグオブワード作成部１２と、適合度計算部１３と、画像データ抽出部１４と、画像データベース２１と、ユーザデータベース２２とを備えている。そして、ユーザが入力したテキストデータを解析し、バグオブワードを作成し、画像の意味特徴量データ及びバグオブワード、並びに画像の雰囲気特徴量データ及びユーザの嗜好パラメータに基づいて、画像の適合度を計算し、適合度の高い画像データを抽出する。したがって、入力される文書テキストの意味内容と、ユーザの好みとに適合する画像を効率よく出力する。以下、本発明の実施形態について、図に従って説明する。

図１は、本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。

テキスト取得部１１は、ユーザが作成したテキストデータを取得する。

バグオブワード作成部１２は、ユーザが作成したテキストデータについて形態素解析を行い、意味特徴量に対応したバグオブワードｗを作成する。バグオブワードｗは次の様に表すことができる。
ｗ＝｛ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５，・・・｝

適合度計算部１３は、テキストデータ及びユーザと、画像データとの適合度を計算する。画像Ｉがもつ意味特徴量データをＷ_Ｉ、後述する学習過程で得られる雰囲気特徴量データをＥ_Ｉ、対象とするユーザの嗜好を表す嗜好パラメータをｕとすると、画像Ｉの適合度Ｓ_Ｉは、次の式で求めることができる。
Ｓ_Ｉ＝λＦ（Ｗ_Ｉ，ｗ）＋（１−λ）Ｇ（Ｅ_Ｉ，ｕ）

ここで、Ｆ（）及びＧ（）はスコアリング関数で、例えばＦ（）に関しては、類似文検索で通常用いられるようなスコア（ＴＦＩＤＦによる各次元の重み付けをした内積）を用いる。

Ｇ（）は、次のような離散確率分布やガウス分布の組み合わせで表現することができる。すなわち、、嗜好パラメータｕ及び画像の雰囲気特徴量Ｅ_Ｉを、次の様に表す。
ｕ＝｛ｐ_０，ｐ_１，ｐ_２，ｐ_３，μ_４，σ_４，μ_５，σ_５，ｐ_６，ｐ_７，μ_８，σ_８，
ｐ_９，ｐ_１０，ｐ_１１｝
Ｅ_Ｉ＝｛Ｅ_Ｉ，０，Ｅ_Ｉ，１，Ｅ_Ｉ，２，Ｅ_Ｉ，３，Ｅ_Ｉ，４，Ｅ_Ｉ，５，Ｅ_Ｉ，６，Ｅ_Ｉ，７，
Ｅ_Ｉ，８，Ｅ_Ｉ，９，Ｅ_Ｉ，１０，Ｅ_Ｉ，１１｝
そうすると、Ｇ（Ｅ_Ｉ，ｕ）は、次の式で求めることができ、これを対数確率と考えることができる。
Ｇ（Ｅ_Ｉ，ｕ）＝ｌｏｇ｛Ｐ（Ｅ_Ｉ，０，ｐ_０）＊Ｐ（Ｅ_Ｉ，１，ｐ_１）
＊Ｐ（Ｅ_Ｉ，２，ｐ_２）＊Ｐ（Ｅ_Ｉ，３，ｐ_３）
＊Ｎ（Ｅ_Ｉ，４，μ_４，σ_４ ^２）
＊Ｎ（Ｅ_Ｉ，５，μ_５，σ_５ ^２）
＊Ｐ（Ｅ_Ｉ，６，ｐ_６）＊Ｐ（Ｅ_Ｉ，７，ｐ_７）
＊Ｎ（Ｅ_Ｉ，８，ｐ_８）＊Ｐ（Ｅ_Ｉ，９，ｐ_９）
＊Ｐ（Ｅ_Ｉ，１０，ｐ_１０）＊Ｐ（Ｅ_Ｉ，１１，ｐ_１１）｝

上記式でＰ（ｘ，ｐ）は、ｐは二値の特徴量に対して、０ではなく１を選択する確率とする。つまり、Ｐ（ｘ，ｐ）は、次の式で求めることができる。
Ｐ（ｘ，ｐ）＝ｐ＊ｘ＋（１−ｐ）＊（１−ｘ）

また、Ｎ（ｘ，μ，σ^２）は、平均μ、分散σ^２の正規分布であり、次の式で求めることができる。

λは、意味特徴と雰囲気特徴のどちらをより重視するかを決める重み係数である。これは経験的に決定する。以上のような条件で、適合度を計算し、適合度の高い画像を抽出する。

上述の式について、具体的な数値により適合度計算の例を示す。
画像の意味特徴量は語彙に対する重みベクトルで与えられ、その画像を文書にした場合の文書中のキーワードとの関連の強さを表現する。意味特徴量は、初期値を手作業で与えられ、後述する学習によって変化する。
例えば、画像１が、室内の２５メートルの競泳用プールで泳ぐ人を表した画像とする。そうすると、例えば、画像１の意味特徴量であるＷ１は、語彙と重みにより、次の様に表される。
Ｗ_１＝｛プール＝１．２，水泳＝０．５，泳ぎ＝０．５，泳ぐ＝０．５，
２５＝０．３，メートル＝０．３，室内＝０．２，温水＝０．２｝
また、画像２が、桜の下を歩く人を表した画像とする。そうすると、例えば、画像２の意味特徴量であるＷ２は、同様に、次の様に表される。
Ｗ_２＝｛桜＝１．５，花見＝１．１，卒業＝０．３，入学＝０．２，別れ＝０．２，出会い＝０．２，団子＝０．１，散る＝０．１，花びら＝０．１，季節＝０．１｝

画像の雰囲気特徴量は、写真であるか、水彩風であるか、ポップアート風であるか、アニメ風であるか、コントラストの強さ、モノカラーか、画像の製作者がＡであるか、画像の製作者がＢであるか等で表される。その値は、手作業で付与されるか、画像データから直接計算される。これらは二値の特徴の場合と、連続値の特徴の場合がある。例えば、写真であるか否かは、１か０の二値の特徴で、コントラストの強さは０．０〜１．０の連続値の特徴で表される。
例えば、雰囲気特徴量データの例として、インデックスを、次の様にする。
０：写真，１：水彩風，２：ポップアート風，３：アニメ風，４：コントラスト，
５：濃淡，６：カラー，７：人物を含む，８：抽象度，９：製作者Ａ，
１０：製作者Ｂ，１１：製作者Ｃ

そして、例えば、画像１の雰囲気特徴量であるＥ１を次のように表す。
Ｅ_１＝［０，１，０，０，０．３，０．６，１，０，０．１，１，０，０］
同様に、例えば、画像２の雰囲気特徴量であるＥ２を次のように表す。
Ｅ_２＝［１，０，０，０，０．４，０．８，１，０，０．２，０，１，０］

例えば、ユーザが入力したテキストデータが、「久しぶりにプールに行ってきました。泳ぎを忘れてしまったようです。２５メートルが長く感じられました。」であるとする。
この場合の、バグオブワードｗは、形態素と重みにより、次の様に表される。
ｗ＝｛久しぶり＝１，プール＝１，行く＝１，くる＝１，泳ぎ＝１，忘れる＝１，
しまう＝１，２５＝１，メートル＝１，長い＝１，感じる＝１｝
ここで、重みは入力テキストデータの中の出現回数である。

また、ユーザの嗜好パラメータｕは、例えば、次の様な値とする。
ｕ＝｛ｐ_０＝０．１，ｐ_１＝０．３，ｐ_２＝０．５，ｐ_３＝０．１，
μ_４＝０．４，σ_４ ^２＝０．３，μ_５＝０．４，σ_５ ^２＝０．６，
ｐ_６＝０．３，ｐ_７＝０．１，μ_８＝０．６，σ_８ ^２＝０．３，
ｐ_９＝０．３，ｐ_１０＝０．１，ｐ_１１＝０．６｝
そして、意味特徴量と雰囲気特徴量の重み付けは、λ＝０．５とする。

この場合の、上記例の画像１の適合度を求める。
Ｆ（Ｗ_１，ｗ）＝１．２（プール）＋０．５（泳ぎ）＋０．３（メートル）＝２．０
Ｇ（Ｅ_１，ｕ）＝ｌｏｇ｛Ｐ（０，０．１）＊Ｐ（１，０．３）＊Ｐ（０，０．５）
＊Ｐ（０，０．１）＊Ｎ（０．３，０．４，０．３）
＊Ｎ（０．６，０．４，０．６）＊Ｐ（１，０．３）
＊Ｐ（０，０．１）＊Ｎ（０．１，０．６，０．３）
＊Ｐ（１，０．３）＊Ｐ（０，０．１）
＊Ｐ（０，０．６）｝
＝ｌｏｇ｛（１−０．１）＊（０．３）＊（１−０．５）
＊（１−０．１）＊（０．３９）＊（０．３８）
＊（０．３）＊（１−０．１）＊（０．２６）
＊（０．３）＊（１−０．１）＊（１−０．６）｝
＝ｌｏｇ（０．０００１３）
＝−３．９

したがって、適合度Ｓ_１は、次の様に求めることができる。
Ｓ_１＝λＦ（Ｗ_１，ｗ）＋（１−λ）Ｇ（Ｅ_１，ｕ）
＝０．５＊２．０＋（１−０．５）＊（−３．９）
＝−１．０

同様にして、画像２との適合度を求める。
Ｆ（Ｗ_２，ｗ）＝０
Ｇ（Ｅ_２，ｕ）＝ｌｏｇ｛Ｐ（１，０．１）＊Ｐ（０，０．３）＊Ｐ（０，０．５）
＊Ｐ（０，０．１）＊Ｎ（０．４，０．４，０．３）
＊Ｎ（０．８，０．４，０．６）＊Ｐ（１，０．３）
＊Ｐ（０，０．１）＊Ｎ（０．２，０．６，０．３）
＊Ｐ（０，０．３）＊Ｐ（１，０．１）
＊Ｐ（０，０．６）｝
＝ｌｏｇ｛（０．１）＊（１−０．３）＊（１−０．５）
＊（１−０．１）＊（０．４０）＊（０．３５）
＊（０．３）＊（１−０．１）＊（０．３１）
＊（１−０．３）＊（０．１）＊（１−０．６）｝
＝ｌｏｇ（０．００００１０３）
＝−５．０

したがって、適合度Ｓ_２は、次の様に求めることができる。
Ｓ_２＝λＦ（Ｗ_２，ｗ）＋（１−λ）Ｇ（Ｅ_２，ｕ）
＝０．５＊０＋（１−０．５）＊（−５．０）
＝−２．５

画像データ抽出部は、求めた適合度に基づき、適合度の高い画像データを抽出する。
例えば、上述の例によると、画像１との適合度は、−１．０であるのに対し、画像２との適合度は、−２．５であるので、適合度の高い画像１を抽出する。

図２は、本発明のハードウェア構成の一例を示す図である。画像提示装置１０は、制御部１０１を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１０（マルチプロセッサ構成ではＣＰＵ＿Ａ１０１２等複数のＣＰＵが追加されてもよい）、バスライン１００５、通信Ｉ／Ｆ１０４０、メインメモリ１０５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１０６０、ハードディスク１０７０、並びにキーボード及びマウス１１００等の入力手段や表示装置１０２２を備える。

ＢＩＯＳ１０６０は、画像提示装置１０の起動時にＣＰＵ１０１０が実行するブートプログラムや、ハードウェアに依存するプログラム等を格納する。

ハードディスク１０７０は、画像提示装置１０が機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。

表示装置１０２２は、ユーザにデータの入力を受付ける画面を表示したり、画像提示装置１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

ここで、入力手段は、ユーザによる入力の受付けを行うものであり、キーボード及びマウス１１００等により構成する。

また、通信Ｉ／Ｆ１０４０は、画像提示装置１０を専用ネットワーク又は公共ネットワークを介して画像データベース２１、ユーザデータベース２２等と接続できるようにするためのネットワーク・アダプタである。

図３は、本発明の処理内容を示すフローチャートである。

まず、ステップＳ１１において、ＣＰＵ１０１０は、テキストデータを取得する。具体的には、通信Ｉ／Ｆ１０４０を介してテキストデータを受信し、ハードディスク１０７０に記憶する。

次に、ステップＳ１２において、ＣＰＵ１０１０は、テキストデータを解析し、バグオブワードを作成する。具体的には、テキストデータを解析し、形態素を求め、それぞれの出現回数をカウントし、記憶する。

次に、ステップＳ１３において、ＣＰＵ１０１０は、適合度を計算する。具体的には、通信Ｉ／Ｆ１０４０を介して取得した画像の意味特徴量データ及び雰囲気特徴量データと、ユーザデータベースから取得したユーザの嗜好パラメータとから上述の計算を行う。なお、ユーザの嗜好パラメータは、ローカルな記憶手段、例えば、パソコンのハードディスクに記憶しているとしてもよい。

次に、ステップＳ１４において、ＣＰＵ１０１０は、適合度を比較し、前回の適合度よりも高いか否かを判断する。具体的には、記憶した前回の適合度と、今回計算した適合度とを比較する。前回の適合度よりも低いと判断した場合は、ステップＳ１６へ行く。前回の適合度よりも高いと判断した場合、又は初回の場合は、次へ行く。

次に、ステップＳ１５において、ＣＰＵ１０１０は、今回の適合度をメインメモリ１０５０に記憶する。

次に、ステップＳ１６において、ＣＰＵ１０１０は、終了か否かを判断する。具体的には、対象となる画像データの全てについて適合度の計算を行った場合は終了となる。終了と判断した場合には、その後処理を終了する。終了ではないと判断した場合には、次へ行く。

次に、ステップＳ１７において、ＣＰＵ１０１０は、次の画像を取得し、ステップＳ１３へ行き、次の画像の適合度を計算する。

［実施例２］
本発明の１つの実施の形態として、画像提示装置１０において学習機能を有する場合を例に挙げて説明する。

図４は、本発明の機能と、処理するデータとの関連を示す図である。
すなわち、図４は、提示された画像の中からユーザが選択を行うことにより画像の意味情報とユーザの嗜好とを学習し、画像の意味特徴量データ及びユーザの嗜好パラメータを更新することを示している。ユーザが選択した画像に対して正の学習を行い、選択しなかった画像に対して負の学習を行う。
ここで、画像の意味特徴量データの初期値は、その画像を文章に表現したうえで、手作業によって与えられる。ユーザの嗜好パラメータの初期値は、登録されているユーザの平均値によって与えられる。

入力テキスト２０１で取得されたテキストデータが、入力テキストＢＯＷ２０２へ出力される。入力テキストＢＯＷ２０２では、テキストデータのバグオブワードが作成される。雰囲気マッチスコア２０３では、ユーザ嗜好データ２０７から得たユーザ嗜好パラメータと画像２０６の雰囲気特徴量データとに基づいて、雰囲気マッチスコアであるＧ（Ｅ_Ｉ，ｕ）を計算する。意味マッチスコア２０４では、バグオブワードと画像２０６の意味特徴量データとに基づいて、意味マッチスコアであるＦ（Ｗ_Ｉ，ｗ）を計算する。総合スコアでは、雰囲気マッチスコアと意味マッチスコアとに基づいて総合スコアである適合度Ｓ_Ｉを計算する。

ユーザ選択２０８において、ユーザは画像を選択する。ユーザが選択した画像２０８１の、雰囲気特徴量データ及び意味特徴量データと、ユーザ嗜好パラメータと、テキストデータのバグオブワードと、に基づいて雰囲気マッチスコア２０８２と、意味マッチスコア２０８３とが計算される。

そして、ユーザの選択に対する、雰囲気特徴量データ及び意味特徴量データの寄与の強さを雰囲気寄与率２１０及び意味寄与率２１１で計算する。
意味特徴量Ｗ_Ｉ、雰囲気特徴量Ｅ_Ｉの画像が選択されたとき、意味特徴の寄与度ｋは、次の式で表される。
ｋ＝λＦ（Ｗ_Ｉ，ｗ）／｛λＦ（Ｗ_Ｉ，ｗ）＋（１−λ）Ｇ（Ｅ_Ｉ，ｕ）｝
また、雰囲気特徴の寄与度は（１−ｋ）で表される。
（１−ｋ）＝（１−λ）Ｇ（Ｗ_Ｉ，ｗ）
／｛λＦ（Ｗ_Ｉ，ｗ）＋（１−λ）Ｇ（Ｅ_Ｉ，ｕ）｝

次に、更新画像意味特徴量２０９で、画像の元の意味特徴量データＷ_Ｉと、入力テキストデータのバグオブワードｗと、意味寄与率ｋとから、ＭＡＰ（事後確率最大化法）により、次の式で画像の意味特徴量データを更新する。ここで、α_ｉは学習の強さを調整する係数である。

同様に、更新ユーザ嗜好パラメータ２１２で、ユーザの元のユーザ嗜好パラメータｕと、雰囲気寄与率（１−ｋ）とから、ＭＡＰ（事後確率最大化法）により、次の式でユーザのユーザ嗜好パラメータを更新する。ここで、β_ｊ，γ_ｊ及びδ_ｊは学習の強さを調整する係数である。
ｕ＝｛ｐ_０，ｐ_１，ｐ_２，ｐ_３，μ_４，σ_４，μ_５，σ_５，ｐ_６，ｐ_７，μ_８，σ_８，
ｐ_９，ｐ_１０，ｐ_１１｝
ｊ番目の分布が前述のＰ（ｘ，ｐ_ｊ）の場合

ｊ番目の分布が前述のＮ（ｘ，μ_ｊ，σ_ｊ）の場合

図５は、本発明の処理内容を示すフローチャートである。本処理内容では、画像提示装置１０が、適合する画像をユーザに提示し、ユーザが画像を選択することにより画像の適合度に関する、意味特徴量データ及び嗜好パラメータについて学習する。

まず、ステップＳ２１において、ＣＰＵ１０１０は、ブログの記事を取得する。具体的には、通信Ｉ／Ｆ１０４０を介してブログデータを受信し、ハードディスク１０７０に記憶する。

次に、ステップＳ２２において、ＣＰＵ１０１０は、ユーザが画像の選択を行うか否かを判断する。具体的には、例えば、画像を選択するためのチェックボックスがＯＮであるか否かを判断する。ＣＰＵ１０１０は、ＯＮである場合には、ステップＳ２３へ行く。ＯＮでない場合には、ステップＳ２４へ行く。
ここで、画像提示装置１０の学習回数が一定回数未満である場合や、推定精度が充分に高くない場合も、ユーザが画像の選択を行う場合に該当する。

次に、ステップＳ２３において、ＣＰＵ１０１０は、画像選択処理を行う。画像選択処理では、後述するように、画像の適合度を計算し、画像をユーザに提示し、ユーザの選択に応じて画像の適合に関する意味特徴量データ及び嗜好パラメータを更新する。その後、ＣＰＵ１０１０は、ステップＳ２５へ行く。

ステップＳ２４において、ＣＰＵ１０１０は、記事の内容と、ユーザの好みとから適合度を計算し、適合する画像を抽出する。その後、ＣＰＵ１０１０は、ステップＳ２５へ行く。

次に、ステップＳ２５において、ＣＰＵ１０１０は、適合する画像をブログに挿入する。具体的には、ステップＳ２３又はステップＳ２４において選択された画像又は抽出された画像をブログに挿入する。

次に、ステップＳ２６において、ＣＰＵ１０１０は、画像を変更するか否かを判断する。具体的には、ユーザの入力を受付け、変更する旨の信号を受信した場合には、信号に応じて、ステップＳ２７へ行く。変更しない旨の信号を受信した場合には、信号に応じて、処理を終了する。

次に、ステップＳ２７において、ＣＰＵ１０１０は、画像選択処理を行う。その後、ＣＰＵ１０１０は、ステップＳ２８へ行く。

次に、ステップＳ２８において、ＣＰＵ１０１０は、ユーザの選択に応じて、変更した画像をブログに挿入し、処理を終了する。

図６は、図５において呼び出される画像選択処理の処理内容を示すフローチャートである。

まず、ステップＳ３１において、ＣＰＵ１０１０は、記事の内容と、ユーザの好みとから適合する画像を抽出する。

次に、ステップＳ３２において、ＣＰＵ１０１０は、適合する画像の上位候補を提示する。ここで、例えば、ユーザの好みを学習しやすい画像を提示することもできる。

次に、ステップＳ３３において、ＣＰＵ１０１０は、ユーザの選択信号を受信する。具体的には、ユーザが選択した画像に対応する入力信号を受信する。ここで、ユーザにさらにキーワードの入力を促し、入力されたキーワードを含めた適合度を計算し、画像を提示することも可能である。

次に、ステップＳ３４において、ＣＰＵ１０１０は、ユーザの選択した画像に応じて、意味特徴量データ及び嗜好パラメータを更新する。その後、ＣＰＵ１０１０は、呼び出されたステップに戻る。

図７は、入力されたテキストデータに基づいて、適合する画像を抽出し、テキストデータに挿入する例を示す図である。すなわち、テキストデータの入力画面において、ユーザがテキストデータを入力した後に、画像提示装置１０が適合した画像を抽出し、抽出した画像を挿絵として挿入したことを示す図である。

図７には、表示装置１０２２の表示画面３００が示されている。そして、表示画面３００には、画面中のタイトル入力用エリア３０１と、記事入力用エリア３０２とが表示されている。タイトル入力用エリア３０１には、ユーザの入力により、テキストデータとして「Ａ君への手紙」が入力され、記事入力用エリア３０２には、テキストデータとして「先日は楽しかったですね。実に２５年ぶりでしたね。桜も見事でした。また皆で会えるのを楽しみにしています。」が入力されていることを表している。さらに、入力されたテキストデータのバグオブワード及び画像の意味特徴量データ、並びにユーザの嗜好パラメータ及び画像の雰囲気特徴量データとに基づいて、適合度を計算し、適合度の高い画像として花見の画像５１６を画像データベースから抽出し、挿絵として挿入したことを表している。

［変形例］
変形例は、本発明によって提示された画像の中から、ユーザが画像を選択する場合である。画像データを予め階層型クラスタリングの方法によりクラスタリングしておき、クラスタについての意味特徴量データ及び雰囲気特徴量データを設ける。適合度の計算から適合するクラスタを提示し、ユーザによって選択されたクラスタの中から、適合度の計算によって適合する画像を提示する。そして、ユーザが選択した画像をテキストデータに挿入すると共に、クラスタ及び画像の意味特徴量データ及びユーザの嗜好パラメータを更新する。

図８は、入力されたテキストデータに基づいて、適合するクラスタを選択する例を示す図である。すなわち、図８（１）において、ユーザがテキストデータを入力した後に、図８（２）において、画像提示装置１０が適合したクラスタを提示していることを示している。

図８の（１）は、表示装置１０２２の表示画面３００が示されている。そして、表示画面３００には、画面中のタイトル入力用エリア３０１と、記事入力用エリア３０２とが表示されている。タイトル入力用エリア３０１には、ユーザの入力により、テキストデータとして「Ａ君への手紙」が入力され、記事入力用エリア３０２には、テキストデータとして「先日は楽しかったですね。実に２５年ぶりでしたね。桜も見事でした。また皆で会えるのを楽しみにしています。」が入力されていることを表している。

図８の（２）は、表示画面３００の選択エリア３０３を示している。そして、入力されたテキストデータのバグオブワード及びクラスタの意味特徴量データ、並びにユーザの嗜好パラメータ及びクラスタの雰囲気特徴量データとに基づいて、適合度を計算し、適合度の高いクラスタ４１１〜４１４が、選択候補として選択エリア３０３に表示されていることを表している。さらに、桜のクラスタ４１２が選択されたことを選択スイッチ４０１が表している。

図９は、図８において選択されたクラスタの中から、適合する画像を選択する例を示す図である。すなわち、図９（２）において、図８の（２）で選択された桜クラスタ４１２の中から適合する画像５１１〜５１６を表示していることを示し、図９（１）において、ユーザが選択した画像を挿入したことを示している。

図９の（１）は、ユーザがテキストデータを入力した後に、図８（２）で表示された適合するクラスタの中から桜クラスタ４１２を選択し、桜クラスタ４１２の中の適合する画像５１１〜５１６が表示され、表示された画像の中から選択した花見の画像５１６が、テキストデータに挿入されたことを示している。

図９の（２）は、図８（２）で表示された適合するクラスタの中から桜クラスタ４１２が選択された後、桜クラスタ４１２の中の適合する画像５１１〜５１６が表示されていることを示している。そして、その中から花見の画像５１６が選択されたことを選択スイッチ５０１が示している。

図１０は、テキストデータを入力する画面の壁紙等に適合する画像を提示し、ユーザが選択する例を示す図である。この例では、タイトルの入力により、適合する壁紙の画像を提示する場合を示している。

図１０の（１）は、表示装置１０２２の表示画面３００のタイトル入力用エリア３０１と、記事入力用エリア３０２とを示し、タイトル入力用エリア３０１に「手紙」と入力されたことを示している。そして、図１０の（２）において選択された壁紙を背景の壁紙として表示していることを示している。

図１０の（２）は、ユーザがタイトルを入力した後に、画像提示装置１０が、タイトル入力用エリア３０１に入力されたテキストデータに基づき、適合する壁紙用の画像６１１〜６１４を表示し、提示していることを示している。そして、その中から壁紙６１２が選択されたことを選択スイッチ６０１が示している。この例では、タイトルに入力されたテキストデータと、ユーザの嗜好パラメータとから適合する壁紙の画像を抽出しているが、ユーザの嗜好パラメータに基づいて画像を抽出することもできる。同様に、タイトル及び記事に入力されたテキストデータと、ユーザの嗜好パラメータとから適合する壁紙の画像を抽出することもできる。

本実施例によれば、画像データベース２１は、形態素と画像との関連の強さを数値化した意味特徴量データと、画像の雰囲気の特徴度を数値化した雰囲気特徴量データとを画像データごとに記憶する。ユーザデータベース２２は、ユーザの情報と共に、ユーザの嗜好を数値化した嗜好パラメータを記憶する。そして、画像提示装置１０は、ユーザが入力したテキストデータを取得するテキスト取得部１１と、テキスト取得部が取得したテキストデータを解析して得られた形態素及び該形態素がテキストデータの中で使用される回数の集合であるバグオブワードを作成するバグオブワード作成部１２と、意味特徴量データ及びバグオブワード、並びに、雰囲気特徴量データ及び嗜好パラメータに基づいて、テキストデータ及びユーザと画像データとの適合度を計算する適合度計算部１３と、適合度計算部の計算結果に基づいて、画像データベースの中から適合度の高い画像データを抽出する画像データ抽出部１４と、を備える。また、画像の意味特徴量データの初期値を手作業によって与え、ユーザの嗜好パラメータの初期値を、登録されているユーザの平均値によって与えたうえで、計算によって適合する画像を提示し、ユーザに選択させる。そして、ユーザの選択に応じて、画像の意味特徴量データ及びユーザの嗜好パラメータを更新する。したがって、適合度の計算結果がより的確になり、さらに適合度の高い画像データを抽出することが可能となる。したがって、入力される文書テキストの意味内容と、ユーザの好みとに適合する画像をさらに効率よく出力することができる。

なお、変形例では、クラスタの階層を１階層としたが、選択するクラスタの階層は、複数階層としてもよい。例えば、学習回数に応じて、学習回数が少なければ上位のクラスタから表示する。また、学習回数が多ければ下位のクラスタから選択させるようにする。ユーザに関する学習が未熟であり、画像提示が充分には機能しないような場合に、適合する画像を効率よく選択することができ、さらに、学習を促進することができる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

本発明の機能を構成する構成部と、構成部が処理するデータとの関連を示す図である。本発明のハードウェア構成の一例を示す図である。本発明の処理内容を示すフローチャートである。本発明の機能と、処理するデータとの関連を示す図である。本発明の処理内容を示すフローチャートである。図５において呼び出される画像選択処理の処理内容を示すフローチャートである。入力されたテキストデータに基づいて、適合する画像を抽出し、テキストデータに挿入する例を示す図である。入力されたテキストデータに基づいて、適合するクラスタを選択する例を示す図である。図８において選択されたクラスタの中から、適合する画像を選択する例を示す図である。テキストデータを入力する画面の壁紙等に適合する画像を提示し、ユーザが選択する例を示す図である。

符号の説明

１０画像提示装置
１１テキスト取得部
１２バグオブワード作成部
１３適合度計算部
１４画像データ抽出部
２１画像データベース
２２ユーザデータベース
１０１０ＣＰＵ
１０１２ＣＰＵ＿Ａ
１０２２表示装置
１０４０通信Ｉ／Ｆ
１０５０メインメモリ
１０６０ＢＩＯＳ
１０７０ハードディスク
１１００キーボード及びマウス

Claims

画像データごとに、当該画像データが表す画像の内容を文章に表現した場合の当該文章の中で意味を持つ最小単位である形態素と前記画像の内容との関連の強さを数値化した意味特徴量データを記憶する画像データベースと、
ユーザが入力したテキストデータを取得するテキスト取得部と、
前記テキスト取得部が取得した前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するバグオブワード作成部と、
前記意味特徴量データ及び前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算する適合度計算部と、
前記適合度計算部の計算結果に基づいて、前記画像データベースの中から前記適合度の高い画像データを抽出する画像データ抽出部と、
を備えることを特徴とする画像提示システム。
請求項１に記載の画像提示システムにおいて、
前記画像データベースは、前記画像データごとに、前記意味特徴量データと、前記画像の画風及び製作者を二値の値で特定するとともに前記画像の画調を連続値の値で特定することで前記画像の特徴度を数値化した雰囲気特徴データと、を記憶し、
前記画像提示システムは、
ユーザごとに、前記画像の特徴を構成する前記画風、前記製作者及び前記画調のそれぞれに対するユーザの嗜好を数値化した嗜好パラメータを記憶するユーザデータベースをさらに備え、
前記適合度計算部は、前記意味特徴量データと前記バグオブワードとから算出される前記画像データと前記テキストデータとの関連度及び前記画像の特徴ごとに対応する前記雰囲気特徴データと前記嗜好パラメータとから算出される前記画像データに対するユーザの嗜好度に基づいて、前記テキストデータ及び前記ユーザの嗜好と前記画像データとの適合度を計算することを特徴とする画像提示システム。
請求項２に記載の画像提示システムにおいて、
前記画像データ抽出部が抽出した複数の画像データに対する前記ユーザによる画像データの選択を受け付ける選択受付部と、
前記選択受付部が受け付けた前記画像データに対して計算された前記適合度に基づいて、前記ユーザの前記選択に対する前記関連度及び前記嗜好度それぞれの寄与度を算出する寄与度算出部と、
前記寄与度を用いて事後確率最大化法により、前記ユーザが選択した画像データの前記意味特徴量データ及び前記ユーザの前記嗜好パラメータを更新する学習部と、
を備えることを特徴とする画像提示システム。
画像データごとに、当該画像データが表す画像の内容を文章に表現した場合の当該文章の中で意味を持つ最小単位である形態素と前記画像の内容との関連の強さを数値化した意味特徴量データを記憶する画像データベースを備えるコンピュータがプログラムに従い実行する、
ユーザが入力したテキストデータを取得するステップと、
取得した前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するステップと、
前記画像データベースに記憶された前記意味特徴量データ及び作成した前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算するステップと、
前記計算の結果に基づいて、前記画像データベースの中から前記適合度の高い画像データを抽出するステップと、
を含む方法。
画像データごとに、当該画像データが表す画像の内容を文章に表現した場合の当該文章の中で意味を持つ最小単位である形態素と前記画像との関連の内容の強さを数値化した意味特徴量データを記憶する画像データベースを備えるコンピュータに、
ユーザが入力したテキストデータを取得するステップと、
取得した前記テキストデータを解析して得られた形態素及び該形態素が前記テキストデータの中で使用される回数の集合であるバグオブワードを作成するステップと、
前記画像データベースに記憶された前記意味特徴量データ及び作成した前記バグオブワードに基づいて、前記テキストデータと前記画像データとの適合度を計算するステップと、
前記計算の結果に基づいて、前記画像データベースの中から前記適合度の高い画像データを抽出するステップと、
を実行させるコンピュータ・プログラム。