JP4606349B2 - 話題画像抽出方法及び装置及びプログラム - Google Patents

話題画像抽出方法及び装置及びプログラム Download PDF

Info

Publication number
JP4606349B2
JP4606349B2 JP2006061746A JP2006061746A JP4606349B2 JP 4606349 B2 JP4606349 B2 JP 4606349B2 JP 2006061746 A JP2006061746 A JP 2006061746A JP 2006061746 A JP2006061746 A JP 2006061746A JP 4606349 B2 JP4606349 B2 JP 4606349B2
Authority
JP
Japan
Prior art keywords
image
topic
distance
evaluation value
topic word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006061746A
Other languages
English (en)
Other versions
JP2007241568A (ja
Inventor
晴美 川島
吉秀 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006061746A priority Critical patent/JP4606349B2/ja
Publication of JP2007241568A publication Critical patent/JP2007241568A/ja
Application granted granted Critical
Publication of JP4606349B2 publication Critical patent/JP4606349B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話題画像抽出方法及び装置及びプログラムに係り、ネットワーク上に公開されている最新の文書情報から、多くの人々が記載している話題情報を抽出する際に、話題に適した画像を抽出する話題画像抽出手法に関し、特に文書情報に含まれる話題を代表する語句(話題語)と画像との位置情報から話題に適した画像を抽出することのできる話題画像抽出方法及び装置及びプログラムに関する。
近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された情報が発信され続けている。そのため、ある話題に関する情報を取得したいと思っても、複数の情報源から公開されているWebページを1つ1つ閲覧するという、大変な労力を必要とする。
従来、自然言語処理や情報検索技術分野において、電子化されたテキストをテキスト内で出現する単語のベクトルで表し、単語のベクトルが類似しているテキストをひとまとめにして、特徴的な単語を提示する技術がある(例えば、特許文献1参照)。
上記の技術は、利用者に提示される情報が単語だけであり、単語の集合からどんな話題なのかを利用者が判断する。
特開平−11−213000号公報
もっと容易に話題を把握できる情報として画像がある。画像は1枚見ただけでどんな話題か簡単にわかる場合がある。Webページは、HTMLで記述された文書であり、文書内に画像をリンクすることができる(HTMLのタグ要素として画像のURLを指定することで、Webブラウザ上に画像を表示することができる)。しかし、1つの文書に複数の話題が記載されている場合もあり、類似した文書集合においてリンクしている全ての画像が1つの話題を的確に表現しているとは限らない。
本発明は、上記の点に鑑みなされたもので、同じ話題でまとめられた文書集合から、話題を的確に表す代表画像を取得することが可能な話題画像抽出方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、画像収集手段、画像適合度算出手段、記憶手段を有する話題情報抽出装置において、文書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出方法であって、
画像収集手段が、
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップ(ステップ1)と、
画像適合度算出手段が、
話題語位置情報記憶手段に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップ(ステップ2)と、を行う。

また、本発明(請求項2)は、画像適合度算出ステップ(ステップ2)において、画像適合度算出手段が、
話題語位置情報記憶手段に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める
また、本発明(請求項3)は、画像収集ステップ(ステップ1)において、画像収集手段が、
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
画像適合度算出ステップ(ステップ2)において、画像適合度算出手段が、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与するステップを行う。
また、本発明(請求項)は、画像適合度算出ステップ(ステップ2)において、画像適合度算出手段が、
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める。
図2は、本発明の原理構成図である。
本発明(請求項)は、書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出装置であって、
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段204に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段103に格納する画像収集手段101と、
話題語位置情報記憶手段103に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段208に蓄積する画像適合度算出手段102と、を有する。
また、本発明(請求項)は、画像適合度算出手段102において、
話題語位置情報記憶手段103に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める手段と、を含む。
また、本発明(請求項)は、画像収集手段101において、
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
画像適合度算出手段102において、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与する手段、を含む。
また、本発明(請求項)は、画像適合度算出手段102において、
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める手段を含む。
本発明(請求項)は、請求項5乃至8のいずれか1項に記載の話題画像抽出装置の各手段の機能をコンピュータに実行させる話題画像抽出プログラムである。
上記のように本発明によれば、話題毎にまとめられたWeb文書のリンク情報に対応する代表画像をWeb文書中の画像(HTML文書中にリンクが記載されている画像)から選択することが可能となる。選択された代表画像としての信頼度(画像適合度)については、Web文書の特徴であるHTML文書中で話題語と近い距離で出現するほど代表画像らしいことを利用することにより、画像そのものを分析する等の処理を行うことなく、簡易な処理で代表画像を選択することが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
本発明は、文書群に含まれる各文書中での各話題語と各画像の位置関係を求め、各画像毎に話題語との距離が近いほど高い値となる画像適合度を求め、画像適合度が最大の画像を代表画像として選択するものである。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題情報抽出装置の構成を示す。
同図に示す話題情報抽出装置は、Webページ収集部207、文書蓄積部201、話題情報抽出部100、画像蓄積部204、話題情報蓄積部208から構成される。
ここで、文書蓄積部201、画像蓄積部204、話題情報蓄積部208は、ハードディスク装置等の記憶装置である。
Webページ収集部207は、内部に収集先リスト205を有し、定期的に収集先リスト205に設定された収集先のURLから、当該URLが指すWebページと、該Webページ内でリンクしているWebページを収集する。ここで、「Webページ」とは、HTTP経由で入手可能なデータを指し、「Webページ内でリンクしている」とは、HTMLで記述されるタグの中でAタグ及びIMGタグ等のほかのWebページを指しているポインタのことをいう。
Webページ収集部207は、テキスト情報のみを収集し、文書蓄積部201に蓄積する。ここで、WebページのURLは文書毎にユニークであるため、文書蓄積部201は、WebページURLをキーとして文書を検索できる構成とする。
話題情報抽出部100は、文書クラスタリング部202、文書クラスタ記録部206、話題語抽出部203、画像収集部101、話題語位置情報記録部103、話題適合度算出部102から構成される。ここで、文書クラスタ記録部206、話題語位置情報記録部103は、メモリ等の記憶媒体である。
文書クラスタリング部202は、文書蓄積部201に蓄積された文書全てを文書集合として取得し、文書集合をクラスタリングして、文書集合に含まれる文書を類似文書毎にまとめた文書クラスタを生成する。生成した文書クラスタの情報を、例えば、図4に示すように、文書クラスタを識別するID(文書クラスタID2061)とそのクラスタに含まれる文書を特定できる情報(例えば、文書のWebページURL2062)と対応付けて文書クラスタ記録部206に蓄積する。
文書クラスタリングの仕組みについてはどのようなものを用いてもよく、例えば、「岩波文庫“マルチメディア情報学2”「情報組織化」pp.192-193」に開示されているようなクラスタ分類手法を利用することができる。図4において文書クラスタ記録部206には、各文書クラスタID2061に対応して複数のWebページURL2062が格納されており、これら複数のWebページは内容が類似しており同一の文書クラスタに属することを示している。話題語2063は、文書クラスタリング処理の終了時には空であり、次の話題語抽出部203の処理結果を格納する領域である。また、文書クラスタに属する文書の数が多ければ、同じ内容(話題)を扱っている文書数が多いということになり、話題性が高いと考えることができる。
話題語抽出部203は、文書クラスタリング部202で出力されたクラスタリング結果を取得し、文書クラスタ毎に含まれる文書集合に共通してよく出現する話題性の高い語句を抽出する。話題語の抽出方法としては特定の文書クラスタ内でのみ、よく出現する語句を抽出する方法や、特開2005−276115で開示されているように話題語算出時刻の直近に集中して出現する語句を抽出する方法を用いてもよい。本発明においては、どのような話題語抽出手法を用いてもよく、文書クラスタ毎に1以上N以下(Nは1以上の整数)の話題語が抽出されるものとする。抽出した話題語は、文書クラスタ記録部206に文書クラスタと対応付けて記録する。図4に示す例においては、文書クラスタID2063に対応付けて、話題性の高い語句を話題語2063に最大3件(N=3)格納している。
画像収集部101は、文書クラスタリング部202で出力された文書クラスタ毎に、文書クラスタ記録部206を参照して取得したWebページに含まれる画像(図4のWebページURL2062に対応するHTML文書からリンクされている画像)を収集し、画像と話題語との位置情報を抽出し、話題語位置情報記録部103に格納する。ここでは、ネットワーク(図示せず)を介して画像を収集するものとする。位置情報は、例えば、画像より前方、後方といったテキスト上の前後関係や、画像をリンクしているタグの開始/終了位置から何文字あるいは何バイト離れているかといった情報を含む。
図5は、本発明の第1の実施の形態における画像収集部の処理フローチャートである。
まず、文書クラスタ記録部206から、条件に一致する文書クラスタがあるか調べる。条件は、例えば、「文書クラスタの文書数がN以上(Nは1以上の整数)」、「文書数の多い上位M個の文書クラスタ(Mは1以上の整数)」といったように、処理対象の文書クラスタを特定する条件とし、予め設定しておくものとする。
条件に合う文書クラスタが存在する場合(ステップ51、Yes)、文書クラスタ記録部206から条件にあった文書クラスタを順次読み出し、文書クラスタに対応したWebページURLと話題語を取得する(ステップ52)。
未処理のWebページURLがある場合には(ステップ53、Yes)、WebページURLをキーとして文書蓄積部201からHTML文書を取得する(ステップ54)。取得したHTML文書に対して、話題語と画像とその位置情報を取得する話題語位置情報取得処理を行い、ステップ52で取得したWebページURL、話題語と共に当該位置情報を話題語位置情報記憶部103に格納し(ステップ55)、処理対象の文書クラスタ内に含まれる全てのWebページURLに対して、ステップ54、ステップ55の処理を実行する(ステップ53の処理に移行する)。なお、ステップ54では、HTML文書に含まれる、画像を取得するためのタグ(IMGタグ)を参照し、画像サイズを取得する。当該画像サイズは、画像を取得するときと、画像適合度を求める際に使用される。
1つの文書クラスタの処理が終了すると(ステップ53、No)、ステップ51に移行し、条件に合う文書クラスタがある場合は、ステップ52〜ステップ55の処理を行い、条件に合う文書クラスタがなくなると(ステップ51、No)、処理を終了する。
上記のステップ55の画像収集部101における話題語位置情報取得処理について、図6を用いて詳細に説明する。
図6は、本発明の第1の実施の形態における画像収集部の話題語位置情報取得処理のフローチャートである。
画像収集部101における、話題語位置情報取得処理として、1つのHMTL文書に対して行う処理であり、HTML文書が属する文書クラスタの話題語と、HTML文書内でリンクしている画像との位置情報を取得する。
まず、WebページURLをキーとして文書蓄積部201から取得したHTML文書に対し、HTMLの解析を行い、画像を取得するために必要なタグ要素(IMGタグ)があるか調べる。タグは<>で囲まれた文字列であり、IMGタグは“<IMG”で始まり、“>”までの文字列である(“”は含まない)。タグ要素を取り出すと共に、タグ以外の文字列を形態素解析し、単語に分解する(ステップ61)。
HTML文書ではボタンやタイトルなどに画像ファイルが使用されている場合があり、これらの画像ファイルはサイズが小さいという特徴がある。そこで、画像サイズに閾値を定め、一定サイズ以下の画像ファイルについては画像として扱わず(ステップ62、No)、次のIMGタグの抽出を行う(ステップ76)。画像サイズは、IMGタグに属性として指定されている画像の高さ、幅を利用する。
一定サイズ以上の画像ファイルを指し示すURL(画像URL)があった場合(ステップ62、Yes)、画像ファイルを取得して画像蓄積部204に格納する(ステップ63)。この際、画像URLが相対パスの場合は、画像へリンクが記載されたWebページのURLから、絶対パスに変換し、画像ファイルを取得する。また画像ファイルを取得した時点で一定サイズ以下の画像であった場合は、以降の処理対象とせず(ステップ62、No)、次のIMGタグ抽出を行う(ステップ76)。画像蓄積部204は、画像URLが画像毎にユニークであるため、画像URLをキーとして画像ファイルを検索できる構成とする。なお、ここでは、一定サイズ以下の画像を処理対象としなかったが、全ての画像ファイルを蓄積するように構成してもよい(ステップ63)。
続いて、処理対象の画像ファイルが存在する場合(ステップ62、Yes)、IMGタグ要素の“<”から前方に向かって話題語が存在するか、1単語ずつ調べる(ステップ64)。
単語が条件を満たせば(1つ前のIMGタグ要素の“>”か、本文の初めか、前方制限単語数)(ステップ65、Yes)、ステップ69に移行し、条件を満たさなければ(ステップ65、No)、話題語かどうかを調べる(ステップ66)。話題語は、現在処理対象の文書クラスタの話題語で、前述のステップ52で文書クラスタ記録部206から読み出したものである。
単語が話題語でなければ(ステップ66、No)、前方単語数を1増やし(ステップ67)、ステップ64に移行する。話題語であれば(ステップ66、Yes)、画像URL、話題語、前方単語数を話題語位置情報記録部103に記録する(ステップ68)。
ステップ65の条件を満たした場合は(ステップ65、Yes)、IMGタグ要素“>”から後方に1単語ずつ話題語かどうかを調べる(ステップ69)。単語が本文の終わりであれば(ステップ70、Yes)、処理を終了し、次の処理対象画像が見つかれば(ステップ71、Yes),ステップ63の処理に移行し、後方制限単語数になれば(ステップ72、Yes),ステップ61の処理に移行する。それ以外の場合は、話題語かどうか調べ(ステップ73)、話題語でなければ(ステップ73、No)、後方単語数を1増やし、話題語であれば画像URL、話題語、後方単語数を話題語位置情報記録部103に記録する(ステプ75)。
文書の終わりまで、画像ファイルの取得及び画像と話題語の位置情報を話題語位置情報記録部103に記録する。
以下に、図7のデータ例に基づいて実施の処理の流れを説明する。
まず、ステップ52において、文書クラスタCのWebページURLと話題語を文書クラスタ記録部206から取得する。図4の例から文書クラスタCの話題語は「松井」、「ヤンキーズ」、「契約」である。
次に、ステップ54において、画像収集部101が、文書クラスタID“C1”に基づいて文書クラスタ記録部206を参照することにより、WebページURL
“http://www.aaa.co.jp/sport/top.html”
を取得し、当該WebページURLに基づいて文書蓄積部201を検索し、図7(a)に示すHTML文書を取得する。HTML文書に対して、ステップ61の処理において、画像収集部101は、IMGタグの抽出と形態素解析処理を行う。図7(b)は、IMGタグと名詞句を1行毎に書き出した処理結果の例である。形態素解析の結果としては、助詞なども含まれるが、次の処理において話題語が存在するかどうかを調べるため、話題語と同じ品詞のみを対象に処理を行うことで処理の高速化を図る。ここでは、名詞句のみを対象に話題語抽出処理を行った場合を仮定し、名詞句のみをステップ61の処理結果とする。
続いて、画像収集部101は、先頭から単語を調べていき、IMGタグがある場合は、画像サイズを調べる。まず、始めに現れるIMGタグは、
<img src=”/images/logo/aaa.gif’width=”100”height=”20”border=”0”align=”right”>
であり、横100ピクセル、高さ20ピクセルであることが分かる。
次に、ステップ62において、画像収集部101は、処理対象の画像サイズであるかどうかを調べる。ここで画像サイズの下限を、横100ピクセル、高さ100ピクセルとすると、上記の画像はサイズが小さいため処理対象画像ではないと判断する。続いて、次のIMGタグを抽出する。次のIMGタグは、
<img src=”/picture/20051018/0001.jpg” width=”154”height=”180”>
であり、横154ピクセル、高さ180ピクセルの画像であるため、処理対象画像と判断する(ステップ62、Yes)。そこで、画像収集部101は、この画像URLに基づいてネットワークを介して画像ファイルを取得し、画像蓄積部204に蓄積する(ステップ63)。この際、画像URLが相対パスであるため絶対パスに変換して画像の取得を行う。
次に、画像収集部101は、このタグ要素から前方の単語を1つずつ読み出し(ステップ64)、話題語が存在するかどうか調べる(ステップ65,66)。ここで処理対象にならなかったIMGタグ要素は除いて単語を読み出す。1つ前の単語は「契約」であり、「契約」は話題語であるため(ステップ66、Yes)、話題語位置情報記録部103に画像URL、話題語(=契約)、前方単語数(=1)を記録する(ステップ68)。前方単語数を1増やし(ステップ67)、ステップ64の処理に戻る。
画像収集部101は、次の単語「再」を読み出し、話題語かどうかを調べ、話題語でないため(ステップ66、No)、前方単語数を1増やし(ステップ67)、ステップ64の処理に戻る。
続いて画像収集部101は、単語「ヤンキーズ」、「松井」は話題語であるため話題語位置情報記録部103に記録する。単語「スポーツニュース」の処理が終わると、次の単語はなく、文書の初めであるため(ステップ65、Yes)、前方の単語を調べる処理を終了し、画像の後方に位置する単語の処理(ステップ69)に移る。
処理対象のIMGタグ要素の後方の単語を1つずつ読み出し、話題語かどうか調べる(ステップ69)。1つ目の後方の単語「ニューヨーク」を読み出し(ステップ69)、話題語でないため(ステップ73、No)、後方単語数を1増やして、ステップ69の処理に戻る。次々と単語を処理し、図7の例では以降にIMGタグが存在しないため、文書の終わりか(ステップ70)、後方制限単語数か(ステップ72)のどちらかの条件を満たすまで処理を続ける。後方制限単語数を20とすると、文書の終わりの条件を先に満たすので、文書の終わりで処理を終了する。
処理を終了した時点での話題語位置情報記録部103の蓄積例を図8に示す。画像毎に各話題語との位置情報が記録されている。画像URL1031は、絶対パスに変換した後の画像URLであり、画像毎にユニークである。クラスタID1032は処理した文書が属するクラスタID、WebページURL1033は処理した文書を特定するIDである。また、話題語1034は、クラスタIDに対応する話題語であり、1つのクラスタIDに対し、複数の話題語が記録される。各話題語に対応して、前方単語数1035と後方単語数1036が記録される。話題語が前方、後方に複数回出現する場合、例えば、カンマで区切って複数列挙する。複数出現した話題語は次の画像適合度算出部102において、画像からの距離に応じた重みを付与するために、1つ1つを区別できる構成で記録する。図7(b)のデータ例では、「ヤンキーズ」が後方で2回出現しており、それぞれの後方単語数が7,16であることがわかる。
画像適合度算出部102は、話題語位置情報記録部103に記録された情報に基づき、画像毎に適合度を算出する。以下のように、まず、サイズ評価値と距離評価値を求め、これらの評価値から画像の適合度を求めることができ、画像に近い話題語が多いほど、画像サイズが大きいほど、高い値をとる。
Figure 0004606349
ここで、Xは画像(n=1〜N),
Figure 0004606349
は、クラスタCにおける話題語
Figure 0004606349
であり、
Figure 0004606349
は話題語
Figure 0004606349
の前方文字数(j=1〜k、kはクラスタC内で話題語
Figure 0004606349
に対して記録された前方文字数の総数)、
Figure 0004606349
は、話題語
Figure 0004606349
の後方文字数(j=1〜h、hはクラスタC内で話題語
Figure 0004606349
に対して記録された後方文字数の総数)である。α、βは、それぞれ定数(0以上1以下)である。
例えば、図8に示す話題語位置情報記録部103の蓄積例が、クラスタCの全データであるとすると、話題語「ヤンキーズ」は、h=1、k=2、でfn(ヤンキーズ)=3、bn(ヤンキーズ)=7,bn(ヤンキーズ)=16である。
また、画像を的確に説明するテキスト、例えば画像のタイトルなどは、画像よりも前方にあることから、係数βを大きくすることで前方に話題語を含む画像の適合度を高くすることができる。但し、画像の適合度は複数の話題語との距離を用いる方法だけでなく、画像と最も近い話題語のみを用いて適合度を算出するように構成してもよい。
話題語位置情報記録部103に記録された全ての画像の情報に対して、画像適合度の算出を終えると、各文書クラスタに対応して画像URLを、話題情報蓄積部208に記録する。
図9は、本発明の第1の実施の形態における話題情報蓄積部の構成例を示す。
話題情報蓄積部208は、文書クラスタID2051、文書クラスタIDに対応した話題語2052と、最も適合度の高い画像URLである話題画像URL2053から構成されている。文書クラスタ毎に対応付ける画像URLの数は、図9に示すように、1つでもよいし、適合後の上位N件(Nは1以上の整数)を記録するようにしてもよい。
[第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。本実施の形態における話題情報抽出装置の構成は、図3に示す第1の実施の形態の構成と同様である。
以下に、第1の実施の形態との差分を説明する。
話題語抽出部203において、文書クラスタリング部202で出力されたクラスタリング結果を取得し、各クラスタにおいて話題性の高い語句を評価値と共に抽出し、文書クラスタ記録部206に記録する点が、第1の実施の形態と異なる。
図10は、本発明の第2の実施の形態における文書クラスタ記録部のデータ例を示す。同図に示すように、文書クラスタ記録部206において、文書クラスタID2061は文書クラスタを識別するためのIDであり、文書クラスタ毎に複数のWebページURL2062が対応付けられ、これらのWebページURLに対応したHTML文書から抽出された複数の話題語2063は、評価値2064と対応付けられて蓄積される。例えば、話題語「松井」は文書クラスタCから抽出された話題語であり、その評価値は3.54である。
画像適合度算出部102は、話題語位置情報記録部103に記録された位置情報と、文書クラスタ記録部206に記録された話題語の評価値に基づき、画像毎に適合度を算出する点が異なる。適合度は、例えば以下の式で求めることができ、画像サイズが大きいほど、画像に近い話題語が多いほど、話題語の評価値が高いほど、高い値をとる。
Figure 0004606349
ここで、Xは画像(n=1〜N),
Figure 0004606349
は、クラスタCにおける話題語
Figure 0004606349
であり、
Figure 0004606349
は話題語
Figure 0004606349
の評価値である。
Figure 0004606349
は、話題語
Figure 0004606349
の前方文字数(j=1〜k、kはクラスタC内で話題語
Figure 0004606349
に対して記録された前方文字数の総数)、
Figure 0004606349
は話題語
Figure 0004606349
の後方文字数(j=1〜h、hはクラスタC内で話題語
Figure 0004606349
に対して記録された後方文字数の総数)である。α、βは、それぞれ定数(0以上1以下)である。
話題語の評価値を画像の適合度算出に用いることで、評価値の高い話題語ほど高い適合度を付与することが可能となる。
また、前方及び後方の制限文字数内に存在する複数の話題語を用いて画像の適合度を算出する方法に限らず、画像に最も近い話題語のみを用いて適合度を算出するように構成してもよい。
また、上記の第1・第2の実施の形態における話題情報抽出装置の構成要素の機能をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、話題毎にまとめられた文書群に対応する画像群から、文書群を代表する画像を抽出するための技術、特に、インターネット等のネットワーク上に公開されている文書情報から話題を抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における話題情報抽出装置の構成図である。 本発明の第1の実施の形態における文書クラスタ記録部のデータ例である。 本発明の第1の実施の形態における画像収集部の処理のフローチャートである。 本発明の第1の実施の形態における話題語位置情報取得処理のフローチャートである。 本発明の第1の実施の形態における話題語位置情報取得処理を説明するためのデータ例である。 本発明の第1の実施の形態における話題語位置情報記録部の蓄積例である。 本発明の第1の実施の形態における話題情報蓄積部の構成例である。 本発明の第2の実施の形態における文書クラスタ記録部のデータ例である。
符号の説明
100 話題情報抽出部
101 画像収集手段、画像収集部
102 画像適合度算出手段、画像適合度算出部
103 話題語位置情報記憶手段、話題語位置情報記憶部
201 文書蓄積部
202 文書クラスタリング部
203 話題語抽出部
204 画像記憶手段、画像蓄積部
205 収集先リスト
206 文書クラスタ記録部
207 Webページ収集部
208 話題情報記憶手段、話題情報蓄積部
1031 画像URL
1032 文書クラスタID
1033 WebページURL
1034 話題語
1035 前方単語数
1036 後方単語数
2051 文書クラスタID
2052 話題語
2053 話題画像URL
2061 文書クラスタID
2062 WebページURL
2063 話題語
2064 話題語評価値

Claims (9)

  1. 画像収集手段、画像適合度算出手段、記憶手段を有する話題情報抽出装置において、文書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出方法であって、
    前記画像収集手段が、
    前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップと、
    前記画像適合度算出手段が、
    前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップと、
    を行うことを特徴とする話題画像抽出方法。
  2. 前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
    前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
    前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める、
    請求項1記載の話題画像抽出方法。
  3. 前記画像収集ステップにおいて、前記画像収集手段が、
    前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
    前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
    画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与するステップを行う
    請求項1または2に記載の話題画像抽出方法。
  4. 前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
    前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める、
    請求項1乃至3のいずれか1項に記載の話題画像抽出方法。
  5. 文書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出装置であって、
    前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集手段と、
    前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出手段と、
    を有することを特徴とする話題画像抽出装置。
  6. 前記画像適合度算出手段は、
    前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
    前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める手段と、
    を含む請求項5記載の話題画像抽出装置。
  7. 前記画像収集手段は、
    前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
    前記画像適合度算出手段は、
    画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与する手段、を含む
    請求項5または6に記載の話題画像抽出装置。
  8. 前記画像適合度算出手段は、
    前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める手段を含む、
    請求項5乃至7のいずれか1項に記載の話題画像抽出装置。
  9. 請求項5乃至8のいずれか1項に記載の話題画像抽出装置の各手段の機能をコンピュータに実行させることを特徴とする話題画像抽出プログラム。
JP2006061746A 2006-03-07 2006-03-07 話題画像抽出方法及び装置及びプログラム Expired - Fee Related JP4606349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006061746A JP4606349B2 (ja) 2006-03-07 2006-03-07 話題画像抽出方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006061746A JP4606349B2 (ja) 2006-03-07 2006-03-07 話題画像抽出方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007241568A JP2007241568A (ja) 2007-09-20
JP4606349B2 true JP4606349B2 (ja) 2011-01-05

Family

ID=38587064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006061746A Expired - Fee Related JP4606349B2 (ja) 2006-03-07 2006-03-07 話題画像抽出方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4606349B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049598A (ja) * 2008-08-25 2010-03-04 Naninani.Tv:Kk ウェブサイト作成支援装置及びウェブサイト作成支援プログラム
KR101196935B1 (ko) 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101196989B1 (ko) 2010-07-06 2012-11-02 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
CN111209424B (zh) * 2020-01-10 2023-05-12 北京字节跳动网络技术有限公司 一种图片展示方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0498463A (ja) * 1990-08-13 1992-03-31 Nec Corp 写真検索装置
JPH08287086A (ja) * 1995-04-13 1996-11-01 Nippon Telegr & Teleph Corp <Ntt> 適合度順画像強調表示方法及び装置
JP2001184367A (ja) * 1999-12-27 2001-07-06 Matsushita Electric Ind Co Ltd データ分類用統計情報抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0498463A (ja) * 1990-08-13 1992-03-31 Nec Corp 写真検索装置
JPH08287086A (ja) * 1995-04-13 1996-11-01 Nippon Telegr & Teleph Corp <Ntt> 適合度順画像強調表示方法及び装置
JP2001184367A (ja) * 1999-12-27 2001-07-06 Matsushita Electric Ind Co Ltd データ分類用統計情報抽出装置

Also Published As

Publication number Publication date
JP2007241568A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
US8285713B2 (en) Image search using face detection
CN102053991B (zh) 用于多语言文档检索的方法及系统
US20090319449A1 (en) Providing context for web articles
US20110047161A1 (en) Query/Document Topic Category Transition Analysis System and Method and Query Expansion-Based Information Retrieval System and Method
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
KR100974064B1 (ko) 사용자 맞춤형 정보 제공 시스템 및 그 방법
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
US20050050086A1 (en) Apparatus and method for multimedia object retrieval
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
KR101011726B1 (ko) 스니펫 제공 장치 및 방법
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP4769151B2 (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
JP4606349B2 (ja) 話題画像抽出方法及び装置及びプログラム
KR101178208B1 (ko) 키워드 추출 장치 및 방법
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
CN114238735B (zh) 一种互联网数据智能采集方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees