JP4606349B2

JP4606349B2 - 話題画像抽出方法及び装置及びプログラム

Info

Publication number: JP4606349B2
Application number: JP2006061746A
Authority: JP
Inventors: 晴美川島; 吉秀佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-07
Filing date: 2006-03-07
Publication date: 2011-01-05
Anticipated expiration: 2026-03-07
Also published as: JP2007241568A

Description

本発明は、話題画像抽出方法及び装置及びプログラムに係り、ネットワーク上に公開されている最新の文書情報から、多くの人々が記載している話題情報を抽出する際に、話題に適した画像を抽出する話題画像抽出手法に関し、特に文書情報に含まれる話題を代表する語句（話題語）と画像との位置情報から話題に適した画像を抽出することのできる話題画像抽出方法及び装置及びプログラムに関する。

近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された情報が発信され続けている。そのため、ある話題に関する情報を取得したいと思っても、複数の情報源から公開されているＷｅｂページを１つ１つ閲覧するという、大変な労力を必要とする。

従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、単語のベクトルが類似しているテキストをひとまとめにして、特徴的な単語を提示する技術がある（例えば、特許文献１参照）。

上記の技術は、利用者に提示される情報が単語だけであり、単語の集合からどんな話題なのかを利用者が判断する。
特開平−１１−２１３０００号公報

もっと容易に話題を把握できる情報として画像がある。画像は１枚見ただけでどんな話題か簡単にわかる場合がある。Ｗｅｂページは、ＨＴＭＬで記述された文書であり、文書内に画像をリンクすることができる（ＨＴＭＬのタグ要素として画像のＵＲＬを指定することで、Ｗｅｂブラウザ上に画像を表示することができる）。しかし、１つの文書に複数の話題が記載されている場合もあり、類似した文書集合においてリンクしている全ての画像が１つの話題を的確に表現しているとは限らない。

本発明は、上記の点に鑑みなされたもので、同じ話題でまとめられた文書集合から、話題を的確に表す代表画像を取得することが可能な話題画像抽出方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、画像収集手段、画像適合度算出手段、記憶手段を有する話題情報抽出装置において、文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像抽出方法であって、
画像収集手段が、
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップ（ステップ１）と、
画像適合度算出手段が、
話題語位置情報記憶手段に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある１つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップ（ステップ２）と、を行う。

また、本発明（請求項２）は、画像適合度算出ステップ（ステップ２）において、画像適合度算出手段が、
話題語位置情報記憶手段に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める。

また、本発明（請求項３）は、画像収集ステップ（ステップ１）において、画像収集手段が、
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
画像適合度算出ステップ（ステップ２）において、画像適合度算出手段が、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与するステップを行う。

また、本発明（請求項４）は、画像適合度算出ステップ（ステップ２）において、画像適合度算出手段が、
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める。

図２は、本発明の原理構成図である。

本発明（請求項５）は、文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像抽出装置であって、
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段２０４に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段１０３に格納する画像収集手段１０１と、
話題語位置情報記憶手段１０３に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある１つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段２０８に蓄積する画像適合度算出手段１０２と、を有する。

また、本発明（請求項６）は、画像適合度算出手段１０２において、
話題語位置情報記憶手段１０３に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める手段と、を含む。

また、本発明（請求項７）は、画像収集手段１０１において、
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
画像適合度算出手段１０２において、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与する手段、を含む。

また、本発明（請求項８）は、画像適合度算出手段１０２において、
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める手段を含む。

本発明（請求項９）は、請求項５乃至８のいずれか１項に記載の話題画像抽出装置の各手段の機能をコンピュータに実行させる話題画像抽出プログラムである。

上記のように本発明によれば、話題毎にまとめられたＷｅｂ文書のリンク情報に対応する代表画像をＷｅｂ文書中の画像（ＨＴＭＬ文書中にリンクが記載されている画像）から選択することが可能となる。選択された代表画像としての信頼度（画像適合度）については、Ｗｅｂ文書の特徴であるＨＴＭＬ文書中で話題語と近い距離で出現するほど代表画像らしいことを利用することにより、画像そのものを分析する等の処理を行うことなく、簡易な処理で代表画像を選択することが可能となる。

以下、図面と共に本発明の実施の形態を説明する。

本発明は、文書群に含まれる各文書中での各話題語と各画像の位置関係を求め、各画像毎に話題語との距離が近いほど高い値となる画像適合度を求め、画像適合度が最大の画像を代表画像として選択するものである。

［第１の実施の形態］
図３は、本発明の第１の実施の形態における話題情報抽出装置の構成を示す。

同図に示す話題情報抽出装置は、Ｗｅｂページ収集部２０７、文書蓄積部２０１、話題情報抽出部１００、画像蓄積部２０４、話題情報蓄積部２０８から構成される。

ここで、文書蓄積部２０１、画像蓄積部２０４、話題情報蓄積部２０８は、ハードディスク装置等の記憶装置である。

Ｗｅｂページ収集部２０７は、内部に収集先リスト２０５を有し、定期的に収集先リスト２０５に設定された収集先のＵＲＬから、当該ＵＲＬが指すＷｅｂページと、該Ｗｅｂページ内でリンクしているＷｅｂページを収集する。ここで、「Ｗｅｂページ」とは、ＨＴＴＰ経由で入手可能なデータを指し、「Ｗｅｂページ内でリンクしている」とは、ＨＴＭＬで記述されるタグの中でＡタグ及びＩＭＧタグ等のほかのＷｅｂページを指しているポインタのことをいう。

Ｗｅｂページ収集部２０７は、テキスト情報のみを収集し、文書蓄積部２０１に蓄積する。ここで、ＷｅｂページのＵＲＬは文書毎にユニークであるため、文書蓄積部２０１は、ＷｅｂページＵＲＬをキーとして文書を検索できる構成とする。

話題情報抽出部１００は、文書クラスタリング部２０２、文書クラスタ記録部２０６、話題語抽出部２０３、画像収集部１０１、話題語位置情報記録部１０３、話題適合度算出部１０２から構成される。ここで、文書クラスタ記録部２０６、話題語位置情報記録部１０３は、メモリ等の記憶媒体である。

文書クラスタリング部２０２は、文書蓄積部２０１に蓄積された文書全てを文書集合として取得し、文書集合をクラスタリングして、文書集合に含まれる文書を類似文書毎にまとめた文書クラスタを生成する。生成した文書クラスタの情報を、例えば、図４に示すように、文書クラスタを識別するＩＤ（文書クラスタＩＤ２０６１）とそのクラスタに含まれる文書を特定できる情報（例えば、文書のＷｅｂページＵＲＬ２０６２）と対応付けて文書クラスタ記録部２０６に蓄積する。

文書クラスタリングの仕組みについてはどのようなものを用いてもよく、例えば、「岩波文庫“マルチメディア情報学２”「情報組織化」pp.192-193」に開示されているようなクラスタ分類手法を利用することができる。図４において文書クラスタ記録部２０６には、各文書クラスタＩＤ２０６１に対応して複数のＷｅｂページＵＲＬ２０６２が格納されており、これら複数のＷｅｂページは内容が類似しており同一の文書クラスタに属することを示している。話題語２０６３は、文書クラスタリング処理の終了時には空であり、次の話題語抽出部２０３の処理結果を格納する領域である。また、文書クラスタに属する文書の数が多ければ、同じ内容（話題）を扱っている文書数が多いということになり、話題性が高いと考えることができる。

話題語抽出部２０３は、文書クラスタリング部２０２で出力されたクラスタリング結果を取得し、文書クラスタ毎に含まれる文書集合に共通してよく出現する話題性の高い語句を抽出する。話題語の抽出方法としては特定の文書クラスタ内でのみ、よく出現する語句を抽出する方法や、特開２００５−２７６１１５で開示されているように話題語算出時刻の直近に集中して出現する語句を抽出する方法を用いてもよい。本発明においては、どのような話題語抽出手法を用いてもよく、文書クラスタ毎に１以上Ｎ以下（Ｎは１以上の整数）の話題語が抽出されるものとする。抽出した話題語は、文書クラスタ記録部２０６に文書クラスタと対応付けて記録する。図４に示す例においては、文書クラスタＩＤ２０６３に対応付けて、話題性の高い語句を話題語２０６３に最大３件（Ｎ＝３）格納している。

画像収集部１０１は、文書クラスタリング部２０２で出力された文書クラスタ毎に、文書クラスタ記録部２０６を参照して取得したＷｅｂページに含まれる画像（図４のＷｅｂページＵＲＬ２０６２に対応するＨＴＭＬ文書からリンクされている画像）を収集し、画像と話題語との位置情報を抽出し、話題語位置情報記録部１０３に格納する。ここでは、ネットワーク（図示せず）を介して画像を収集するものとする。位置情報は、例えば、画像より前方、後方といったテキスト上の前後関係や、画像をリンクしているタグの開始／終了位置から何文字あるいは何バイト離れているかといった情報を含む。

図５は、本発明の第１の実施の形態における画像収集部の処理フローチャートである。

まず、文書クラスタ記録部２０６から、条件に一致する文書クラスタがあるか調べる。条件は、例えば、「文書クラスタの文書数がＮ以上（Ｎは１以上の整数）」、「文書数の多い上位Ｍ個の文書クラスタ（Ｍは１以上の整数）」といったように、処理対象の文書クラスタを特定する条件とし、予め設定しておくものとする。

条件に合う文書クラスタが存在する場合（ステップ５１、Ｙｅｓ）、文書クラスタ記録部２０６から条件にあった文書クラスタを順次読み出し、文書クラスタに対応したＷｅｂページＵＲＬと話題語を取得する（ステップ５２）。

未処理のＷｅｂページＵＲＬがある場合には（ステップ５３、Ｙｅｓ）、ＷｅｂページＵＲＬをキーとして文書蓄積部２０１からＨＴＭＬ文書を取得する（ステップ５４）。取得したＨＴＭＬ文書に対して、話題語と画像とその位置情報を取得する話題語位置情報取得処理を行い、ステップ５２で取得したＷｅｂページＵＲＬ、話題語と共に当該位置情報を話題語位置情報記憶部１０３に格納し（ステップ５５）、処理対象の文書クラスタ内に含まれる全てのＷｅｂページＵＲＬに対して、ステップ５４、ステップ５５の処理を実行する（ステップ５３の処理に移行する）。なお、ステップ５４では、ＨＴＭＬ文書に含まれる、画像を取得するためのタグ（ＩＭＧタグ）を参照し、画像サイズを取得する。当該画像サイズは、画像を取得するときと、画像適合度を求める際に使用される。

１つの文書クラスタの処理が終了すると（ステップ５３、Ｎｏ）、ステップ５１に移行し、条件に合う文書クラスタがある場合は、ステップ５２〜ステップ５５の処理を行い、条件に合う文書クラスタがなくなると（ステップ５１、Ｎｏ）、処理を終了する。

上記のステップ５５の画像収集部１０１における話題語位置情報取得処理について、図６を用いて詳細に説明する。

図６は、本発明の第１の実施の形態における画像収集部の話題語位置情報取得処理のフローチャートである。

画像収集部１０１における、話題語位置情報取得処理として、１つのＨＭＴＬ文書に対して行う処理であり、ＨＴＭＬ文書が属する文書クラスタの話題語と、ＨＴＭＬ文書内でリンクしている画像との位置情報を取得する。

まず、ＷｅｂページＵＲＬをキーとして文書蓄積部２０１から取得したＨＴＭＬ文書に対し、ＨＴＭＬの解析を行い、画像を取得するために必要なタグ要素（ＩＭＧタグ）があるか調べる。タグは＜＞で囲まれた文字列であり、ＩＭＧタグは“＜ＩＭＧ”で始まり、“＞”までの文字列である（“”は含まない）。タグ要素を取り出すと共に、タグ以外の文字列を形態素解析し、単語に分解する（ステップ６１）。

ＨＴＭＬ文書ではボタンやタイトルなどに画像ファイルが使用されている場合があり、これらの画像ファイルはサイズが小さいという特徴がある。そこで、画像サイズに閾値を定め、一定サイズ以下の画像ファイルについては画像として扱わず（ステップ６２、Ｎｏ）、次のＩＭＧタグの抽出を行う（ステップ７６）。画像サイズは、ＩＭＧタグに属性として指定されている画像の高さ、幅を利用する。

一定サイズ以上の画像ファイルを指し示すＵＲＬ（画像ＵＲＬ）があった場合（ステップ６２、Ｙｅｓ）、画像ファイルを取得して画像蓄積部２０４に格納する（ステップ６３）。この際、画像ＵＲＬが相対パスの場合は、画像へリンクが記載されたＷｅｂページのＵＲＬから、絶対パスに変換し、画像ファイルを取得する。また画像ファイルを取得した時点で一定サイズ以下の画像であった場合は、以降の処理対象とせず（ステップ６２、Ｎｏ）、次のＩＭＧタグ抽出を行う（ステップ７６）。画像蓄積部２０４は、画像ＵＲＬが画像毎にユニークであるため、画像ＵＲＬをキーとして画像ファイルを検索できる構成とする。なお、ここでは、一定サイズ以下の画像を処理対象としなかったが、全ての画像ファイルを蓄積するように構成してもよい（ステップ６３）。

続いて、処理対象の画像ファイルが存在する場合（ステップ６２、Ｙｅｓ）、ＩＭＧタグ要素の“＜”から前方に向かって話題語が存在するか、１単語ずつ調べる（ステップ６４）。

単語が条件を満たせば（１つ前のＩＭＧタグ要素の“＞”か、本文の初めか、前方制限単語数）（ステップ６５、Ｙｅｓ）、ステップ６９に移行し、条件を満たさなければ（ステップ６５、Ｎｏ）、話題語かどうかを調べる（ステップ６６）。話題語は、現在処理対象の文書クラスタの話題語で、前述のステップ５２で文書クラスタ記録部２０６から読み出したものである。

単語が話題語でなければ（ステップ６６、Ｎｏ）、前方単語数を１増やし（ステップ６７）、ステップ６４に移行する。話題語であれば（ステップ６６、Ｙｅｓ）、画像ＵＲＬ、話題語、前方単語数を話題語位置情報記録部１０３に記録する（ステップ６８）。

ステップ６５の条件を満たした場合は（ステップ６５、Ｙｅｓ）、ＩＭＧタグ要素“＞”から後方に１単語ずつ話題語かどうかを調べる（ステップ６９）。単語が本文の終わりであれば（ステップ７０、Ｙｅｓ）、処理を終了し、次の処理対象画像が見つかれば（ステップ７１、Ｙｅｓ），ステップ６３の処理に移行し、後方制限単語数になれば（ステップ７２、Ｙｅｓ），ステップ６１の処理に移行する。それ以外の場合は、話題語かどうか調べ（ステップ７３）、話題語でなければ（ステップ７３、Ｎｏ）、後方単語数を１増やし、話題語であれば画像ＵＲＬ、話題語、後方単語数を話題語位置情報記録部１０３に記録する（ステプ７５）。

文書の終わりまで、画像ファイルの取得及び画像と話題語の位置情報を話題語位置情報記録部１０３に記録する。

以下に、図７のデータ例に基づいて実施の処理の流れを説明する。

まず、ステップ５２において、文書クラスタＣ_１のＷｅｂページＵＲＬと話題語を文書クラスタ記録部２０６から取得する。図４の例から文書クラスタＣ_１の話題語は「松井」、「ヤンキーズ」、「契約」である。

次に、ステップ５４において、画像収集部１０１が、文書クラスタＩＤ“Ｃ１”に基づいて文書クラスタ記録部２０６を参照することにより、ＷｅｂページＵＲＬ
“http://www.aaa.co.jp/sport/top.html”
を取得し、当該ＷｅｂページＵＲＬに基づいて文書蓄積部２０１を検索し、図７（ａ）に示すＨＴＭＬ文書を取得する。ＨＴＭＬ文書に対して、ステップ６１の処理において、画像収集部１０１は、ＩＭＧタグの抽出と形態素解析処理を行う。図７（ｂ）は、ＩＭＧタグと名詞句を１行毎に書き出した処理結果の例である。形態素解析の結果としては、助詞なども含まれるが、次の処理において話題語が存在するかどうかを調べるため、話題語と同じ品詞のみを対象に処理を行うことで処理の高速化を図る。ここでは、名詞句のみを対象に話題語抽出処理を行った場合を仮定し、名詞句のみをステップ６１の処理結果とする。

続いて、画像収集部１０１は、先頭から単語を調べていき、ＩＭＧタグがある場合は、画像サイズを調べる。まず、始めに現れるＩＭＧタグは、
<img src=”/images/logo/aaa.gif’width=”100”height=”20”border=”0”align=”right”>
であり、横１００ピクセル、高さ２０ピクセルであることが分かる。

次に、ステップ６２において、画像収集部１０１は、処理対象の画像サイズであるかどうかを調べる。ここで画像サイズの下限を、横１００ピクセル、高さ１００ピクセルとすると、上記の画像はサイズが小さいため処理対象画像ではないと判断する。続いて、次のＩＭＧタグを抽出する。次のＩＭＧタグは、
<img src=”/picture/20051018/0001.jpg” width=”154”height=”180”>
であり、横１５４ピクセル、高さ１８０ピクセルの画像であるため、処理対象画像と判断する（ステップ６２、Ｙｅｓ）。そこで、画像収集部１０１は、この画像ＵＲＬに基づいてネットワークを介して画像ファイルを取得し、画像蓄積部２０４に蓄積する（ステップ６３）。この際、画像ＵＲＬが相対パスであるため絶対パスに変換して画像の取得を行う。

次に、画像収集部１０１は、このタグ要素から前方の単語を１つずつ読み出し（ステップ６４）、話題語が存在するかどうか調べる（ステップ６５，６６）。ここで処理対象にならなかったＩＭＧタグ要素は除いて単語を読み出す。１つ前の単語は「契約」であり、「契約」は話題語であるため（ステップ６６、Ｙｅｓ）、話題語位置情報記録部１０３に画像ＵＲＬ、話題語（＝契約）、前方単語数（＝１）を記録する（ステップ６８）。前方単語数を１増やし（ステップ６７）、ステップ６４の処理に戻る。

画像収集部１０１は、次の単語「再」を読み出し、話題語かどうかを調べ、話題語でないため（ステップ６６、Ｎｏ）、前方単語数を１増やし（ステップ６７）、ステップ６４の処理に戻る。

続いて画像収集部１０１は、単語「ヤンキーズ」、「松井」は話題語であるため話題語位置情報記録部１０３に記録する。単語「スポーツニュース」の処理が終わると、次の単語はなく、文書の初めであるため（ステップ６５、Ｙｅｓ）、前方の単語を調べる処理を終了し、画像の後方に位置する単語の処理（ステップ６９）に移る。

処理対象のＩＭＧタグ要素の後方の単語を１つずつ読み出し、話題語かどうか調べる（ステップ６９）。１つ目の後方の単語「ニューヨーク」を読み出し（ステップ６９）、話題語でないため（ステップ７３、Ｎｏ）、後方単語数を１増やして、ステップ６９の処理に戻る。次々と単語を処理し、図７の例では以降にＩＭＧタグが存在しないため、文書の終わりか（ステップ７０）、後方制限単語数か（ステップ７２）のどちらかの条件を満たすまで処理を続ける。後方制限単語数を２０とすると、文書の終わりの条件を先に満たすので、文書の終わりで処理を終了する。

処理を終了した時点での話題語位置情報記録部１０３の蓄積例を図８に示す。画像毎に各話題語との位置情報が記録されている。画像ＵＲＬ１０３１は、絶対パスに変換した後の画像ＵＲＬであり、画像毎にユニークである。クラスタＩＤ１０３２は処理した文書が属するクラスタＩＤ、ＷｅｂページＵＲＬ１０３３は処理した文書を特定するＩＤである。また、話題語１０３４は、クラスタＩＤに対応する話題語であり、１つのクラスタＩＤに対し、複数の話題語が記録される。各話題語に対応して、前方単語数１０３５と後方単語数１０３６が記録される。話題語が前方、後方に複数回出現する場合、例えば、カンマで区切って複数列挙する。複数出現した話題語は次の画像適合度算出部１０２において、画像からの距離に応じた重みを付与するために、１つ１つを区別できる構成で記録する。図７（ｂ）のデータ例では、「ヤンキーズ」が後方で２回出現しており、それぞれの後方単語数が７，１６であることがわかる。

画像適合度算出部１０２は、話題語位置情報記録部１０３に記録された情報に基づき、画像毎に適合度を算出する。以下のように、まず、サイズ評価値と距離評価値を求め、これらの評価値から画像の適合度を求めることができ、画像に近い話題語が多いほど、画像サイズが大きいほど、高い値をとる。

ここで、X_ｎは画像（ｎ＝１〜Ｎ），

は、クラスタC_ｐにおける話題語

であり、

は話題語

の前方文字数（ｊ＝１〜ｋ、ｋはクラスタＣ_ｐ内で話題語

に対して記録された前方文字数の総数）、

は、話題語

の後方文字数（ｊ＝１〜ｈ、ｈはクラスタＣ_ｐ内で話題語

に対して記録された後方文字数の総数）である。α、βは、それぞれ定数（０以上１以下）である。

例えば、図８に示す話題語位置情報記録部１０３の蓄積例が、クラスタＣ_１の全データであるとすると、話題語「ヤンキーズ」は、ｈ＝１、ｋ＝２、でｆｎ_１（ヤンキーズ）＝３、ｂｎ_１（ヤンキーズ）＝７，ｂｎ_２（ヤンキーズ）＝１６である。

また、画像を的確に説明するテキスト、例えば画像のタイトルなどは、画像よりも前方にあることから、係数βを大きくすることで前方に話題語を含む画像の適合度を高くすることができる。但し、画像の適合度は複数の話題語との距離を用いる方法だけでなく、画像と最も近い話題語のみを用いて適合度を算出するように構成してもよい。

話題語位置情報記録部１０３に記録された全ての画像の情報に対して、画像適合度の算出を終えると、各文書クラスタに対応して画像ＵＲＬを、話題情報蓄積部２０８に記録する。

図９は、本発明の第１の実施の形態における話題情報蓄積部の構成例を示す。

話題情報蓄積部２０８は、文書クラスタＩＤ２０５１、文書クラスタＩＤに対応した話題語２０５２と、最も適合度の高い画像ＵＲＬである話題画像ＵＲＬ２０５３から構成されている。文書クラスタ毎に対応付ける画像ＵＲＬの数は、図９に示すように、１つでもよいし、適合後の上位Ｎ件（Ｎは１以上の整数）を記録するようにしてもよい。

［第２の実施の形態］
次に、本発明の第２の実施の形態について説明する。本実施の形態における話題情報抽出装置の構成は、図３に示す第１の実施の形態の構成と同様である。

以下に、第１の実施の形態との差分を説明する。

話題語抽出部２０３において、文書クラスタリング部２０２で出力されたクラスタリング結果を取得し、各クラスタにおいて話題性の高い語句を評価値と共に抽出し、文書クラスタ記録部２０６に記録する点が、第１の実施の形態と異なる。

図１０は、本発明の第２の実施の形態における文書クラスタ記録部のデータ例を示す。同図に示すように、文書クラスタ記録部２０６において、文書クラスタＩＤ２０６１は文書クラスタを識別するためのＩＤであり、文書クラスタ毎に複数のＷｅｂページＵＲＬ２０６２が対応付けられ、これらのＷｅｂページＵＲＬに対応したＨＴＭＬ文書から抽出された複数の話題語２０６３は、評価値２０６４と対応付けられて蓄積される。例えば、話題語「松井」は文書クラスタＣ_１から抽出された話題語であり、その評価値は３．５４である。

画像適合度算出部１０２は、話題語位置情報記録部１０３に記録された位置情報と、文書クラスタ記録部２０６に記録された話題語の評価値に基づき、画像毎に適合度を算出する点が異なる。適合度は、例えば以下の式で求めることができ、画像サイズが大きいほど、画像に近い話題語が多いほど、話題語の評価値が高いほど、高い値をとる。

ここで、X_ｎは画像（ｎ＝１〜Ｎ），

は、クラスタC_ｐにおける話題語

であり、

は話題語

の評価値である。

は、話題語

の前方文字数（ｊ＝１〜ｋ、ｋはクラスタＣ_ｐ内で話題語

に対して記録された前方文字数の総数）、

は話題語

の後方文字数（ｊ＝１〜ｈ、ｈはクラスタＣ_ｐ内で話題語

話題語の評価値を画像の適合度算出に用いることで、評価値の高い話題語ほど高い適合度を付与することが可能となる。

また、前方及び後方の制限文字数内に存在する複数の話題語を用いて画像の適合度を算出する方法に限らず、画像に最も近い話題語のみを用いて適合度を算出するように構成してもよい。

また、上記の第１・第２の実施の形態における話題情報抽出装置の構成要素の機能をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、話題毎にまとめられた文書群に対応する画像群から、文書群を代表する画像を抽出するための技術、特に、インターネット等のネットワーク上に公開されている文書情報から話題を抽出する技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の第１の実施の形態における話題情報抽出装置の構成図である。本発明の第１の実施の形態における文書クラスタ記録部のデータ例である。本発明の第１の実施の形態における画像収集部の処理のフローチャートである。本発明の第１の実施の形態における話題語位置情報取得処理のフローチャートである。本発明の第１の実施の形態における話題語位置情報取得処理を説明するためのデータ例である。本発明の第１の実施の形態における話題語位置情報記録部の蓄積例である。本発明の第１の実施の形態における話題情報蓄積部の構成例である。本発明の第２の実施の形態における文書クラスタ記録部のデータ例である。

符号の説明

１００話題情報抽出部
１０１画像収集手段、画像収集部
１０２画像適合度算出手段、画像適合度算出部
１０３話題語位置情報記憶手段、話題語位置情報記憶部
２０１文書蓄積部
２０２文書クラスタリング部
２０３話題語抽出部
２０４画像記憶手段、画像蓄積部
２０５収集先リスト
２０６文書クラスタ記録部
２０７Ｗｅｂページ収集部
２０８話題情報記憶手段、話題情報蓄積部
１０３１画像ＵＲＬ
１０３２文書クラスタＩＤ
１０３３ＷｅｂページＵＲＬ
１０３４話題語
１０３５前方単語数
１０３６後方単語数
２０５１文書クラスタＩＤ
２０５２話題語
２０５３話題画像ＵＲＬ
２０６１文書クラスタＩＤ
２０６２ＷｅｂページＵＲＬ
２０６３話題語
２０６４話題語評価値

Claims

画像収集手段、画像適合度算出手段、記憶手段を有する話題情報抽出装置において、文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像抽出方法であって、
前記画像収集手段が、
前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップと、
前記画像適合度算出手段が、
前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある１つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップと、
を行うことを特徴とする話題画像抽出方法。
前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める、
請求項１記載の話題画像抽出方法。
前記画像収集ステップにおいて、前記画像収集手段が、
前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与するステップを行う
請求項１または２に記載の話題画像抽出方法。
前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める、
請求項１乃至３のいずれか１項に記載の話題画像抽出方法。
文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像抽出装置であって、
前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集手段と、
前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある１つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出手段と、
を有することを特徴とする話題画像抽出装置。
前記画像適合度算出手段は、
前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める手段と、
を含む請求項５記載の話題画像抽出装置。
前記画像収集手段は、
前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
前記画像適合度算出手段は、
画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与する手段、を含む
請求項５または６に記載の話題画像抽出装置。
前記画像適合度算出手段は、
前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める手段を含む、
請求項５乃至７のいずれか１項に記載の話題画像抽出装置。
請求項５乃至８のいずれか１項に記載の話題画像抽出装置の各手段の機能をコンピュータに実行させることを特徴とする話題画像抽出プログラム。