JP2007188427A

JP2007188427A - 話題画像選出方法及び装置及プログラム

Info

Publication number: JP2007188427A
Application number: JP2006007715A
Authority: JP
Inventors: Harumi Kawashima; 晴美川島; Yoshihide Sato; 吉秀佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-01-16
Filing date: 2006-01-16
Publication date: 2007-07-26

Abstract

【課題】同じ話題毎にまとめられた文書集合から、話題を的確に表す代表画像を選出する。
【解決手段】本発明は、文書クラスタ中の各文書がリンクしている画像をクラスタリングすることで類似画像毎にまとめた画像クラスタを複数個生成し、複数の画像クラスタから、画像数が最大の画像クラスタを選択し、選択された画像クラスタに含まれる各画像の信頼度を算出し、画像数が最大の画像クラスタに含まれる信頼度が最大の画像を、文書クラスタを代表する画像として選択し、出力する。
【選択図】図１

Description

本発明は、話題画像選出方法及び装置及プログラムに係り、同一の話題毎にまとめられた、画像をリンクしている文書の集合（文書クラスタ）に対する代表画像を選定するための話題画像を選出する技術に関し、特に、文書クラスタ中の各文書がリンクしている画像を類似画像毎にまとめることで、話題を代表する画像を選出するための話題画像選出方法及び装置及プログラムに関する。

近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された情報が発信され続けている。そのため、ある話題に関する情報を取得したいと思っても、複数の情報源から公開されているＷｅｂページを１つ１つ閲覧するという、大変な労力を必要とする。

従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、単語のベクトルが類似しているテキストを一まとめにする技術がある（例えば、特許文献１参照）。

上記の技術は、利用者に提示される情報が単語だけであり、単語の集合からどんな話題なのかを利用者が判断する。
特開平１１−２１３０００号公報

もっと容易に話題を把握できる情報として画像がある。画像を１枚見ただけでどんな話題か簡単に分かる場合がある。Ｗｅｂページは、ＨＴＭＬで記述された文書であり、文書内に画像をリンクすることができる（ＨＴＭＬのタグ要素として画像のＵＲＬを指定することで、Ｗｅｂブラウザ上に画像を表示することができる）。

しかし、１つの文書に複数の話題が記載されている場合もあり、類似した文書集合がリンクしている全ての画像が１つの話題を的確に表現しているとは限らない。

本発明は、上記の点に鑑みなされたもので、同じ話題毎にまとめられた文書集合から、話題を的確に表す代表画像を選出することが可能な話題画像選出方法及び装置及プログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、同一の話題毎にまとめられた、画像をリンクしている文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像選出方法であって、
画像クラスタリング手段が、
記憶手段内の文書クラスタ中の各文書がリンクしている画像をクラスタリングすることで類似画像毎にまとめた画像クラスタを複数個生成し、記憶手段に格納する画像クラスタリングステップ（ステップ１）と、
画像信頼度付与手段が、
画像クラスタリングステップで生成され、記憶手段に格納された複数の画像クラスタから、画像数が最大の画像クラスタを選択し、選択された画像クラスタに含まれる各画像の信頼度を算出する画像信頼度算出ステップ（ステップ２）と、
集約データ生成手段が、
画像数が最大の画像クラスタに含まれる信頼度が最大の画像を、文書クラスタを代表する画像として選択し、出力する集約データ生成ステップ（ステップ３）と、を行う。

また、本発明（請求項２）は、画像信頼度付与ステップ（ステップ２）において、
任意の方法により、各画像の文書内で出現する画像出現順番と、画像サイズとを取得し、該画像出現順番が早く、画像サイズが大きいほど高い信頼度を付与するステップを含む。

図２は、本発明の原理構成図である。

本発明（請求項４）は、同一の話題毎にまとめられた、画像をリンクしている文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像選出装置１００であって、
文書クラスタ蓄積手段２０の文書クラスタ中の各文書がリンクしている画像をクラスタリングすることで類似画像毎にまとめた画像クラスタを複数個生成し、記憶手段に格納する画像クラスタリング手段１０１と、
画像クラスタリング手段１０１で生成され、記憶手段に格納された複数の画像クラスタから、画像数が最大の画像クラスタを選択し、選択された画像クラスタに含まれる各画像の信頼度を算出する画像信頼度算出手段１０２と、
画像数が最大の画像クラスタに含まれる信頼度が最大の画像を、文書クラスタを代表する画像として選択し、出力する集約データ生成手段１０３と、を有する。

また、本発明（請求項４）は、画像信頼度付与手段１０２において、
任意の方法により、各画像の文書内で出現する画像出現順番と、画像サイズとを取得し、該画像出現順番が早く、画像サイズが大きいほど高い信頼度を付与する手段を含む。

本発明（請求項５）は、コンピュータを、請求項３または４記載の話題画像選出装置として機能させる話題画像選出プログラムである。

上記のように本発明によれば、話題毎にまとめた文書集合に対して、リンクしている画像を画像特徴量に基づいたクラスタリングをすることで、類似画像の多い画像の集合が話題を的確に表しているとして選出することができる。

また、類似画像の多い画像集合の各画像に対して信頼度を付与し、信頼度の高い画像を選出することで、話題を代表する画像を選出することができる。

また、文書内でリンクしている画像の出現順番が早く、画像サイズが大きい画像は、文書の書き手が自信をもって発信している画像であるとして高い信頼度を付与することにより、画像クラスタの中から信頼度の高い画像を代表画像として選出することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における話題画像選出システムの構成を示す。

話題画像選出システムは、Ｗｅｂページ収集部５０、文書蓄積部２１、文書クラスタリング部２２、文書クラスタ蓄積部２０、画像蓄積部３０、インデックス蓄積部４０、話題画像選出装置１００、集約データ蓄積部６０から構成される。同図のシステムにおいて、文書クラスタ蓄積部２０、画像蓄積部３０、インデックス蓄積部４０、集約データ蓄積部６０が話題画像選出装置１００に接続されている。

Ｗｅｂページ収集部５０は、内部に収集先リスト５１を持ち、定期的に収集先リスト５１に設定された収集先のＵＲＬから、当該ＵＲＬが指すＷｅｂページと、該Ｗｅｂページ内でリンクしているＷｅｂページを収集し、テキスト情報を文書蓄積部２１へ、画像を画像蓄積部３０へ、テキスト情報と画像の対応付けをインデックス蓄積部４０へ蓄積する。ここで、「Ｗｅｂページ」とは、ＨＴＴＰ経由で入手可能なデータを指し「Ｗｅｂページ内でリンクしている」とは、ＨＴＭＬで記述されるタグの中で、Ａタグ及びＩＭＧタグ等の、他のＷｅｂページを指しているポインタのことを言う。また、画像は、Ｗｅｂページからリンクしている場合が殆どであり、画像を蓄積する際には、リンク元（画像をリンクしている）のＷｅｂページＵＲＬをインデックス蓄積部４０に記録する。

図４にインデックス蓄積部４０の蓄積例を示す。インデックス蓄積部４０は、画像ＵＲＬ４１，ＷｅｂページＵＲＬ４２、画像出現順番４３、画像サイズ４４を格納する。画像ＵＲＬ４１は、収集した画像ＵＲＬを示し、ＷｅｂページのＵＲＬ４２は、リンク元のＷｅｂページのＵＲＬを示す。画像出現順番４３は、リンク元Ｗｅｂページにおいて、画像へのリンクが出現した順番を示し、画像サイズ４４は、画像がＷｅｂページ内で表示される面積を示す。

図５にＷｅｂページの例を示す。同図（ａ）は、ＨＴＭＬで記載されたＷｅｂページである。＜＞で囲まれたタグ要素が存在する。同図（ｂ）は、タグ要素を除去した後のテキスト情報で、文書蓄積部２１に蓄積されるデータ例になる。

また、同図（ａ）には、以下の２つの画像がＩＭＧタグとして指定されている。

http://blog.aaa.jp/images/bb/cc/0001.jpg
http://blog.aaa.jp/images/bb/cc/0002.jpg
画像出現順番は、「http://blog.aaa.jp/images/bb/cc/0001.jpg」が１、「http://blog.aaa.jp/images/bb/cc/0002.jpg」が２であり、画像サイズは、両方とも120,000である。

図６に、Ｗｅｂページ収集部５０の処理のフローチャートを示す。

Ｗｅｂページ収集部５０は、まず、初めに、収集先リスト５１を読み込み（ステップ１１）、収集先リスト５１から未処理のＵＲＬがあるか調べ（ステップ１２）、ある場合は未処理のＵＲＬを１つ取り出す（ステップ１３）。

続いて、ＵＲＬの指すＷｅｂページのデータをＨＴＴＰ経由でダウンロードして取得する（ステップ１４）。取得したＷｅｂページに対して、ＨＴＭＬの解析を行い、画像を取得するために必要なタグ要素（ＩＭＧタグ）を抽出する。タグは、＜＞で囲まれた文字列であり、“＜img”で始まり、“＞”までの文字列を取り出す（ステップ１５）。タグが存在した場合は（ステップ１６、Ｎｏ）、文字列が、「.JPG」、「.GIF」などの画像を示す文字を含む場合、画像が存在すると判定し（ステップ１７、Ｙｅｓ）、画像を指し示すＵＲＬ（画像ＵＲＬ）から画像を取得して画像蓄積部３０に格納する（ステップ１８）。この際、画像ＵＲＬが相対パスの場合は、画像へのリンクが記載されたＷｅｂページのＵＲＬから、絶対パスに変換し、画像を取得する。また、画像サイズに閾値を定め、一定サイズ以下の画像については画像蓄積部３０に蓄積しないようにする。ここで、画像ＵＲＬは画像毎にユニークであるため、画像蓄積部３０は、画像ＵＲＬをキーとして画像を検索できる構成とする。

続いて、Ｗｅｂページ内での画像出現順番をカウントし、画像サイズを抽出する（ステップ１９）。画像サイズは、ＩＭＧタグに属性として画像の高さ、幅が指定されている場合のみ抽出する。

次に、インデックス格納部４０に、絶対パスの画像ＵＲＬ、画像へのリンクが記載されたＷｅｂページＵＲＬ、画像出現順番、画像サイズを格納する（ステップ２０）。

続いて、ステップ１５に戻り、ＨＴＭＬ解析を行う。ステップ１７において画像が存在しない場合もステップ１５に戻り、ＨＴＭＬの解析を行う。

ＨＴＭＬの解析が終了した場合（ステップ１６、Ｙｅｓ）、文書蓄積部２１にタグを除去したテキスト情報を格納し（ステップ２１）、処理を終了する。

上記の処理をニュースサイトやブログサイトなどの本文以外の記述が多いＷｅｂページに適用する場合、ステップ１４で収集したＷｅｂページから本文部分を抽出し、その後、本文部分に対してステップ１５以降の処理を実施する。ここで、ＷｅｂページＵＲＬは、文書毎にユニークであるため、文書蓄積部２１はＷｅｂページＵＲＬをキーとしてテキスト情報を検索できる構成とする。

文書クラスタリング部２２は、文書蓄積部２１に蓄積された文書のうち、前回クラスタリング処理を行わなかった文書を選択して文書集合として取得する。今回取得した各文書には、クラスタリング処理済みのフラグをセットし、次回のクラスタリング処理を行わないようにする。

取得した文書集合をクラスタリングして、文書集合に含まれる文書を類似文書毎にまとめた文書クラスタを生成し、文書クラスタ蓄積部２０に蓄積する。文書クラスタの情報は、文書クラスタ毎に含まれる文書を一意に特定できるように構成する。例えば、図７に示すように、文書クラスタを識別するＩＤ（文書クラスタＩＤ６１）とそのクラスタに含まれる文書を一意に特定できる文書のＷｅｂページＵＲＬ６２を組としてテーブル化してもよい。

文書クラスタリングの仕組みについてはどのようなものを用いてもよく、例えば、「岩波書店、マルチメディア情報学「情報組織化」pp.192-193」に開示されているようなクラスタ分類手法を利用することができる。図７において文書クラスタ蓄積部２０には、各文書クラスタＩＤ６１に対応して複数のＷｅｂページＵＲＬ６２が格納されており、これらの複数Ｗｅｂページは内容が類似しており、同一の文書クラスタに属することを示している。同一の文書クラスタに属する文書の数が多ければ、同じ内容（話題）を扱っている文書数が多いということになり、話題性が高いと考えることができる。

本発明の要部である話題画像選出装置１００は、画像クラスタリング部１０１、画像信頼度算出部１０２、集約データ生成部１０３から構成される。

画像クラスタリング部１０１は、文書クラスタ蓄積部２０から全ての文書クラスタを取得し、文書クラスタ毎に、Ｗｅｂページに含まれる画像（図７のＷｅｂページＵＲＬに対応するＨＴＭＬ文書からリンクされている画像）を取得し、取得した画像群に対して画像特徴量に基づいたクラスタリングをすることで類似画像毎にまとめた画像クラスタを生成する。

図８は、本発明の一実施の形態における画像クラスタリング部の処理のフローチャートである。

画像クラスタリング部１０１は、まず、文書クラスタ蓄積部２１から全ての文書クラスタを取得し（ステップ３１）、未処理の文書クラスタがある場合に（ステップ３２、Ｙｅｓ）、未処理の文書クラスタを取り出し（ステップ３３）、取り出した文書クラスタに属するＷｅｂページＵＲＬを全て取得する（ステップ３４）。

次に、インデックス蓄積部４０から、取得したＷｅｂページＵＲＬをもつ画像ＵＲＬを全て取得する（ステップ３５）。そして、取得した画像ＵＲＬをキーにして、画像蓄積部３０を検索し、画像を全て取得する（ステップ３６）。

続いて、画像集合をクラスタリングし（ステップ３７）、図９に示すような画像クラスタリング結果をメモリ（図示せず）に格納する（ステップ３８）。

未処理の文書クラスタがなくなるまでステップ３３からステップ３８の処理を行い、全ての文書クラスタを処理し終えたら（ステップ３２、Ｎｏ）、メモリ（図示せず）に格納された画像クラスタリング結果を出力し（ステップ３９）、処理を終了する。

ここで、利用する画像クラスタリングの仕組みについてはどのようなものを用いてもよく、例えば、特開２０００−２５０９４３に開示されているような画像分類方法を利用することができる。

図９において、文書クラスタＩＤ８１は、文書クラスタを識別するためのＩＤであり、図７の文書クラスタＩＤ６１と共通である。画像クラスタＩＤ８２は、画像クラスタを識別するためのＩＤであり、画像ＵＲＬ８３は、画像を一意に特定するための情報である。メモリ（図示せず）には、各文書クラスタＩＤに対応して複数の画像クラスタＩＤが格納されており、これら複数の画像クラスタが１つの文書クラスタに属することを示している。また、１つの画像クラスタに複数の画像ＵＲＬが格納されており、これらの複数画像が同一の画像クラスタに属することを示している。

同一の画像クラスタに属する画像は、画像特徴量が類似しており、クラスタに属する画像の数が多ければ、同じ場所やアングルで撮影した同じ話題についての画像である可能性が高く、話題を代表する画像であると考えることができる。

例えば、「ＡＢＣランドのクリスマスパレード」を話題にした文書クラスタがあった場合、文書クラスタに属する文書のいくつかには、クリスマスパレードに関する画像が存在し、それ以外のキャラクタの写真なども同時に存在している。これらの画像を画像特徴量に基づいてクラスタリングすることにより、クリスマスパレードの画像クラスタと、キャラクタの画像クラスタを分けることが可能となる。また、クリスマスパレードの画像数は多く、類似度も高いため、大きな画像クラスタが形成される。キャラクタの画像は、場所や色などから、いくつかの画像クラスタに分類される。

画像信頼度算出部１０２は、文書クラスタ毎に、文書クラスタに対応する画像クラスタリング部１０１で得られたメモリ（図示せず）の全画像クラスタから、画像数の多い画像クラスタを選び、選択された画像クラスタ中の各画像に信頼度を付与する。画像に付与する信頼度は、Ｗｅｂページ内での画像出現順番が早く（即ち、ＷｅｂページＵＲＬに対応するＨＴＭＬ文書内で画像へのリンク情報が先に出現するほど）、画像サイズが大きいほど高い信頼度をとる。但し、画像に付与する信頼度は、画像クラスタ内の画像から代表画像を選択するために付与するものであるので、画像が信頼できるものであるほど高い値を与えるよう信頼度を求める方法を用いれば、どのような方法を用いてもよい。

図１０は、本発明の一実施の形態における画像信頼度算出部の処理フローチャートである。

同図の例では、画像数の多い上位Ｎ件の画像クラスタに対して、画像クラスタ内の各画像に信頼度を付与している。

まず、画像信頼度算出部１０２は、画像クラスタリング部１０１においてメモリ（図示せず）に格納されている画像クラスタリング結果から、文書クラスタ毎に画像数の多い上位Ｎ件の画像クラスタを取得する（ステップ５１）。

続いて、未処理の文書クラスタがある場合は（ステップ５２、Ｙｅｓ）、文書クラスタを１つ取り出し（ステップ５３）、該文書クラスタに属する画像クラスタの中で未処理の画像クラスタがある場合は（ステップ５４、Ｙｅｓ）、メモリ（図示せず）から未処理の画像クラスタを１つ取り出す（ステップ５５）。

続いて、取り出した画像クラスタに属する画像ＵＲＬを全て抽出し（ステップ５６）、インデックス蓄積部４０から画像ＵＲＬをキーとして各画像の画像出現順番、画像サイズを取得する（ステップ５７）。画像サイズが取得できない場合は、画像蓄積部３０から画像ＵＲＬをキーとして画像を取得し、画像サイズを求めてもよい。

続いて、画像クラスタ内の各画像に対して信頼度を算出する（ステップ５８）。信頼度は、以下の式（１）で算出され、画像出現順番が高く、画像サイズが大きいほど高い値を取る。

ここでは、画像サイズの影響を小さくするため√した値を使用しているが、√せずに、式（２）のように画像サイズを利用してもよい。

ステップ５３で取り出した文書クラスタ内の画像クラスタ全てに対して、順次未処理の画像クラスタを取り出し（ステップ５５）、ステップ５８までの処理を行う。１つの文書クラスタに対する処理が終了すると（ステップ５４、Ｎｏ）、順次、未処理の文書クラスタがあるか調べ（ステップ５２）、未処理の文書クラスタがある場合、ステップ５３以降の処理を行ない、全ての文書クラスタを処理し終えたら（ステップ５２、Ｎｏ）、処理結果をメモリ（図示せず）に出力し（ステップ５９）、終了する。

例えば、ステップ５１において、画像数の最も多い画像クラスタ１つを選択して取得すると、処理結果は、メモリ（図示せず）に出力され、図１１に示すように、文書クラスタ毎に１つの画像クラスタが存在し、画像クラスタに属する各画像に信頼度８４が付与された状態となる（図９と図１１では、同じデータ項目には同じＩＤを付与している）。

集約データ生成部１０３は、文書クラスタ蓄積部２０に蓄積されている文書クラスタリングの結果と、画像信頼度算出部１０２で出力される図１１に示すメモリ（図示せず）の処理結果とを読み込み、各文書クラスタに画像を対応付けた集約データを生成し、集約データ蓄積部６０に蓄積する。

例えば、図１２に、集約データ蓄積部６０から読み出された集約データの表示例を示す。この例では、１つの文書クラスタに対して２つのＷｅｂページ、１つの画像を表示しており、クラスタＡが、文書クラスタの最も大きい（文書数の最も大きい）クラスタを、クラスタＢが２番目に大きい文書クラスタを、クラスタＣが３番目に大きい文書クラスタに対応している。

表示するＷｅｂページの数及び画像の数は設定により変更可能とし、文書クラスタの大きさによって、表示するＷｅｂページ数や画像の数を変更するように構成してもよい。各文書クラスタから表示するＷｅｂページを選ぶ方法としては、文書クラスタ内で頻出する単語を多く含んでいるＷｅｂページを順に選択する方法や、信頼度の高い画像を含むＷｅｂページを順に選択する方法などがある。また、画像を複数表示する場合には、同じ画像クラスタから信頼度の高い順に複数画像を取り出してもよいし、異なる画像クラスタから信頼度の最も高い画像を１つずつ取り出すよう構成してもよい。

このように、集約データ生成部１０３は、文書クラスタ蓄積部２０の情報と、画像信頼度算出部１０２の処理結果から、類似画像が多く信頼度の高い画像を文書クラスタ毎に提示することが可能となる。

上記の話題画像選出装置１００の動作をプログラムとして構築し、話題画像選出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、電子化文書集合から話題を代表する画像を抽出する技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における話題画像選出システムの構成図である。本発明の一実施の形態におけるインデックス蓄積部のデータ構造の例である。本発明の一実施の形態におけるＷｅｂページ収集部の処理を説明する図である。本発明の一実施の形態におけるＷｅｂページ収集部の処理のフローチャートである。本発明の一実施の形態における文書クラスタ蓄積部のデータ例である。本発明の一実施の形態における画像クラスタリング部の処理のフローチャートである。本発明の一実施の形態における画像クラスタリング部の処理結果の例である。本発明の一実施の形態における画像信頼度算出部の処理のフローチャートである。本発明の一実施の形態における画像信頼度算出部の処理結果の例である。本発明の一実施の形態における集約データの表示例である。

符号の説明

２０文書クラスタ蓄積手段、文書クラスタ蓄積部
２１文書蓄積部
２２文書クラスタリング部
３０画像蓄積手段、画像蓄積部
４０インデックス蓄積部
４１画像ＵＲＬ
４２ＷｅｂページＵＲＬ
４３画像出現順番
４４画像サイズ
５０Ｗｅｂページ収集部
５１収集先リスト
６０集約データ蓄積部
６１文書クラスタＩＤ
６２ＷｅｂページＵＲＬ
８１文書クラスタＩＤ
８２画像クラスタＩＤ
８３画像ＵＲＬ
８４信頼度
１００話題画像選出装置
１０１画像クラスタリング手段、画像クラスタリング部
１０２画像信頼度算出手段、画像信頼度算出部
１０３集約データ生成手段、集約データ生成部

Claims

同一の話題毎にまとめられた、画像をリンクしている文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像選出方法であって、
画像クラスタリング手段が、
記憶手段内の前記文書クラスタ中の各文書がリンクしている画像をクラスタリングすることで類似画像毎にまとめた画像クラスタを複数個生成し、記憶手段に格納する画像クラスタリングステップと、
画像信頼度付与手段が、
前記画像クラスタリングステップで生成され、前記記憶手段に格納された複数の画像クラスタから、画像数が最大の画像クラスタを選択し、選択された画像クラスタに含まれる各画像の信頼度を算出する画像信頼度算出ステップと、
集約データ生成手段が、
前記画像数が最大の画像クラスタに含まれる前記信頼度が最大の画像を、前記文書クラスタを代表する画像として選択し、出力する集約データ生成ステップと、
を行うことを特徴とする話題画像選出方法。
前記画像信頼度付与ステップにおいて、
任意の方法により、各画像の文書内で出現する画像出現順番と、画像サイズとを取得し、該画像出現順番が早く、画像サイズが大きいほど高い信頼度を付与するステップを含む請求項１記載の話題画像選出方法。
同一の話題毎にまとめられた、画像をリンクしている文書の集合（以下、文書クラスタと記す）に対する代表画像を選定する話題画像選出装置であって、
記憶手段内の前記文書クラスタ中の各文書がリンクしている画像をクラスタリングすることで類似画像毎にまとめた画像クラスタを複数個生成し、記憶手段に格納する画像クラスタリング手段と、
前記画像クラスタリング手段で生成され、前記記憶手段に格納された複数の画像クラスタから、画像数が最大の画像クラスタを選択し、選択された画像クラスタに含まれる各画像の信頼度を算出する画像信頼度算出手段と、
前記画像数が最大の画像クラスタに含まれる前記信頼度が最大の画像を、前記文書クラスタを代表する画像として選択し、出力する集約データ生成手段と、
を有することを特徴とする話題画像選出装置。
前記画像信頼度付与手段は、
任意の方法により、各画像の文書内で出現する画像出現順番と、画像サイズとを取得し、該画像出現順番が早く、画像サイズが大きいほど高い信頼度を付与する手段を含む請求項３記載の話題画像選出装置。
コンピュータを、
請求項３または４記載の話題画像選出装置として機能させることを特徴とする話題画像選出プログラム。