JP2006120067A - 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents

流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2006120067A
JP2006120067A JP2004309574A JP2004309574A JP2006120067A JP 2006120067 A JP2006120067 A JP 2006120067A JP 2004309574 A JP2004309574 A JP 2004309574A JP 2004309574 A JP2004309574 A JP 2004309574A JP 2006120067 A JP2006120067 A JP 2006120067A
Authority
JP
Japan
Prior art keywords
genre
topic
document
information
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004309574A
Other languages
English (en)
Inventor
Tsutomu Sasaki
努 佐々木
Harumi Kawashima
晴美 川島
Yoshihide Sato
吉秀 佐藤
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004309574A priority Critical patent/JP2006120067A/ja
Publication of JP2006120067A publication Critical patent/JP2006120067A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 最新情報の話題性の大きさなどとする上で、世の中の話題の量をより多く反映して提示することにより、カテゴリ単位で直感的に把握しやすくする。
【解決手段】 本発明は、収集された文書から話題語の抽出処理を行うか否かの判定を行い、抽出処理を行う必要があると判断された場合に、文書から単語を抽出し、単語の出現の度合を分析し、話題を反映する単語を抽出し、話題語として提示する話題語の候補を選択する。また、文書の数をジャンル毎にカウントし、ジャンル毎の文書の流通量を算出し、ジャンル毎の話題度を集計し、ジャンル毎の文書流通量を加えることによりジャンル毎の話題の盛り上がり度を算出し、当該盛り上がり度に応じてジャンル領域の大きさを設定し、表示する。
【選択図】 図1

Description

本発明は、流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、インターネット等のネットワークに接続された1つ以上の情報提供サーバ上で公開されているWeb文書等から最新情報と情報流量を取得し情報表示するための流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。
インターネット等のネットワークで扱われている情報は日々増え続けており、大量にあるため、その中から利用者が必要であったり、興味を抱いている情報を簡単に取り出すことはなかなか難しい状況にある。そのため、利用者が必要としていたり、または、利用者が本来興味を持っている情報であっても、他の大量な情報に埋もれてしまい、情報の利用促進がうまくできていないという問題がある。
さらに、情報発信の量が大きいことで、利用者の興味や関心が大きいことはわかるが、記述内容が判別しにくいため、分野を外的条件から把握できても、記述内容の把握が困難な場合があり、内容把握の処理を行えず、正確に利用者の関心を反映しきれないという問題がある。
この問題を解決するため、従来から実施されている第1の技術として、例えば、インターネット等のネットワーク上に存在する多数のニュースサイトが提供する、最新のニュース記事の見出し文を、記事へのハイパーリンクを張った形で一覧表示する技術がある(例えば、非特許文献1参照)。
また、第2の従来技術として、ネットワーク上に存在する最新の話題情報をジャンル単位で統合して表示する技術がある(例えば、非特許文献2参照)。
また、上記の何れの従来の技術においても、記述内容の把握が困難な場合の対処方法は採られておらず、情報発信量を加味した話題の把握は困難である。
http://www2.baywell.ne.jp/newsindex/ 川島、大橋ら、「Hot Window:最新情報の話題性に着目した情報取得支援システム」、情報処理学会、インタラクション2004論文集、pp.231-232,2004年3月
しかしながら、上記第1の従来技術では、様々な情報を分かり易く表示しているとはいえず、情報の利用促進効果は必ずしも十分とはいえない。
また、上記第2の従来技術では、ユーザが情報をカテゴリ単位での話題性について把握する場合、当該技術における表示方法では直感的にどのジャンルが話題となっているのかを把握することが困難である。
本発明は、上記の点に鑑みなされたもので、クライアント端末上で、利用者に適切に情報を提供するために、情報の流量の大きさという、ネットワーク社会が切り取る世の中の話題動向を、最新情報の話題性の大きさなどとする上で、世の中の話題の量をより多く反映して提示することにより、カテゴリ単位で直感的に把握しやすくするための流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示方法において、
ネットワークに接続される情報提供サーバにおいて、
ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集ステップ(ステップ1)と、
収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定ステップ(ステップ2)と、
情報収集源から収集された文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類ステップ(ステップ3)と、
判定ステップにおいて、話題語の抽出処理を行うと判定された場合に、収集された文書の中から話題を算出する単語を抽出する単語抽出ステップ(ステップ4)と、
収集された文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出ステップウテップ(ステップ5)と、
単語抽出ステップで抽出された単語の話題度を算出する第1の話題度算出ステップ(ステップ6)と、
ジャンル毎に話題度を算出する第2の話題度算出ステップ(ステップ7)と、
第2の話題度算出ステップで算出されたジャンル毎の話題度と文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出ステップ(ステップ8)と、を行い、
ネットワークに接続される情報閲覧端末において、
情報提供サーバに対して、ジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示するステップ(ステップ9)と、を行う。
また、本発明(請求項2)は、文書判定ステップにおいて、
予め登録している情報発信源から収集した情報の性質を判定するステップを行う。
また、本発明(請求項3)は、
前記文書判定ステップにおいて、
文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定するステップを行なう。
図2は、本発明の原理構成図である。
本発明(請求項4)は、情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムであって、
ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集手段202と、
収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定手段204と、
情報収集源から収集された文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類手段205,209と、
文書判定手段204において、話題語の抽出処理を行うと判定された場合に、収集された文書の中から話題を算出する単語を抽出する単語抽出手段206と、
収集された文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出手段207と、
単語抽出手段206で抽出された単語の話題度を算出する第1の話題度算出手段2081と、
ジャンル毎に話題度を算出する第2の話題度算出手段2082と、
第2の話題度算出手段で算出されたジャンル毎の話題度と文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出手段2083と、を有し、ネットワークに接続される情報提供サーバ200と、
情報提供サーバ200に対して、ジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示する表示制御手段310を、有し、ネットワークに接続される情報閲覧端末300と、を有する。
また、本発明(請求項5)は、文書判定手段204において、
予め登録している情報発信源から収集した情報の性質を判定する手段を含む。
また、本発明(請求項6)は、文書判定手段204において、
文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定する手段を含む。
本発明(請求項7)は、情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する、ネットワークに接続される流通量対応情報表示装置であって、
ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集手段と、
収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定手段と、
情報収集源から収集された文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類手段と、
判定手段において、話題語の抽出処理を行うと判定された場合に、収集された文書の中から話題を算出する単語を抽出する単語抽出手段と、
収集された文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出手段と、
単語抽出手段で抽出された単語の話題度を算出する第1の話題度算出手段と、
ジャンル毎に話題度を算出する第2の話題度算出手段と、
第2の話題度算出手段で算出されたジャンル毎の話題度と文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出手段と、
ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示する表示制御手段を、を有する。
本発明(請求項8)は、情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報提供サーバに実行させる流通量対応情報表示プログラムであって、
ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集ステップと、
収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定ステップと、
情報収集源から収集された文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類ステップと、
文書判定ステップにおいて、話題語の抽出処理を行うと判定された場合に、収集された文書の中から話題を算出する単語を抽出する単語抽出ステップと、
収集された文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出ステップと、
単語抽出ステップで抽出された単語の話題度を算出する第1の話題度算出ステップと、
ジャンル毎に話題度を算出する第2の話題度算出ステップと、
第2の話題度算出ステップで算出されたジャンル毎の話題度と文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出ステップと、を情報提供サーバとして利用されるコンピュータに実行させるプログラムである。
また、本発明(請求項9)は、文書判定ステップにおいて、予め登録している情報発信源から収集した情報の性質を判定するステップを含む。
また、本発明(請求項10)は、文書判定ステップにおいて、文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定するステップを含む。
本発明(請求項11)は、情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報閲覧端末に実行させる流通量対応情報表示プログラムであって、
ネットワークに接続される情報提供サーバに対して、該情報提供サーバにおいて求められたジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示するステップを、
情報閲覧端末として利用されるコンピュータに実行させるプログラムである。
また、本発明(請求項12〜13)は、上記の流通量対応情報表示プログラムを格納した記憶媒体である。
上記のように、本発明によれば、ネットワークを介して接続されている予め登録された情報発信源からの情報を定期的に収集することができ、収集された文書から話題語を抽出すべきかを判定することにより、極端に短い文書の集合や、独特の言い回しを行っている文書である場合には、正確な話題語を抽出することが困難であるため、これらの話題語の抽出を省くことができる。
また、情報発信源から収集された情報より得られた文書を処理することにより、文書内容が属するジャンルを予め決められたジャンルに分類することができる。
また、収集された文書から単語を抽出し、単語の出現度合を分析することで話題を反映する単語を抽出することができ、出現度合や出現期間の長短を評価してスコアを与え、話題度を算出し、話題語として提示する話題語の候補としてリストアップできる。
また、収集された文書の数をジャンル毎にカウントすることで、ジャンル毎の文書の流通量を算出することができ、ジャンル毎の話題の大きさを図る指針とすることができる。
また、ジャンル毎の話題度を集計し、さらに、ジャンル毎の文書流通量を加えることにより、ジャンル毎の話題の盛り上がりを算出することができ、ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示することが可能となり、利用者に話題の盛り上がり具合をわかりやすく提示することが可能となる。
また、本発明によれば、予め登録している情報発信源から収集した情報に対して、話題内容を反映する単語を抽出すべき情報であるのかどうかを、情報収集した後に判定することで、上記において収集した情報を、以後の最適な処理を行うために振り分けるための判定処理を行うことが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態におけるシステムの構成を示す。
同図に示すシステムは、Web文書情報を提供するWeb文書提供サーバ100、Web文書情報を収集・分析して話題に関する情報処理を行い、話題と話題量に応じた情報提供を行う情報提供サーバ200、情報提供サーバ200で提供される話題に関する情報を読み取り、表示する情報閲覧端末300、及び、Web文書提供サーバ100、情報提供サーバ200、情報閲覧端末300のぞれぞれを接続するネットワーク400から構成される。
Web文書提供サーバ100は、本実施の形態では、話題語を抽出するWeb文書として、例えば、インターネット上のオンラインニュースサイトが提供するニュース記事といった情報やWeblog及び掲示板などで個人が発信する情報を掲載されると直ちに提供するサーバであり、通常使われているWebサーバにて構成されるものである。
図4は、本発明の一実施の形態における情報提供サーバの構成を示す。
本実施の形態では、情報提供サーバ200は、通信部201、Web文書収集部202、文書記憶部203、Web文書判定部204、Web文書ジャンル分類部205、話題語抽出部206、Web文書カウント部207、話題度算出部208、Web文書ジャンル分類部209、話題語記憶部210、表示情報管理部211から構成される。
通信部201は、ネットワーク400を介してWeb文書提供サーバ100と情報閲覧端末300との間で通信処理を行う。
Web文書収集部202は、Web文書提供サーバ100が公開しているWeb文書の中から一定期間内で更新されたものを一定期間間隔で収集する。このとき、Web文書を収集するWeb文書提供サーバ100は、予め選別してリスト化し、そのリストに従って収集作業を実施する。
Web文書収集部202は、収集してきたWeb文書から、Webページを構築するためのスクリプトなどを取り除き、話題語抽出に必要な文書部分を抜き出して文書記憶部203に送る。
この処理の実現は、文書オブジェクトモデルDOM(Document Object Model)を利用して、Web文書の構造を解析して文書を抽出することで実現できる。特に、ニュースサイトや電子掲示板、個人の日記サイトなど特定のテンプレートにより作成されているページを対象とする場合は、例えば、特開2004−220251号公報に記載されている技術を用いることで実現ができる。
文書記憶部203は、Web文書収集部202から送られてきたWeb文書を蓄積する。また、要求に応じてWeb文書判定部204にWeb文書を提供するデータベースである。
文書記憶部203では、Web文書収集部202で収集した時刻、収集した先のURLの情報も一緒に蓄積する。
Web文書判定部204は、Web文書から話題語の抽出処理を実施すべきかどうかを判断する。Web文書判定部204は、文書記憶部203に記憶されている収集されたWeb文書から、直近の一定期間分のWeb文書を読み出し、読み出したWeb文書の一つ一つに対して、Web文書から話題語の抽出処理を実行すべきかどうかを判断する。ここで、収集したWeb文書に対して、話題語を収集すべきか、すべきでないかの判断が必要になるのは、例えば、特定の掲示板などにおいては利用者からの投稿メッセージが大量であり、特定ジャンルで盛り上がりが伺えるが、極端に短い文書の集合であったり、独特な言い回しを行っている文書であるために正確な話題語抽出が困難な場合があるためである。
Web文書判定部204の実現は、例えば、図5に示すように、Web文書収集部202が収集を行うWeb文書提供サーバ100のリストにおいて、話題情報の抽出処理を実施すべきWeb文書が提供されるサーバまたはページであることを予めチェックを行ってリスト化しておき、そのリストとの照合を行うことで判断処理を実現する方法が考えられる。
または、図6に示すように、対象とするWeb文書の意味が判る文書であれば、有意な文字が用いられているので、有意な文字が文書全体の文字数の割合(K/N:Kは形態素解析された記号個数、Nは形態素解析された単語数)が予め定めた割合(X)以上であるのかの判定を行うと共に、さらに、意味のわかる文書としての長さの最小値(L)を定め、N−Kがその範囲内であるかを判定することにより実現できる。
Web文書ジャンル分類部205及びWeb文書ジャンル分類部209は、Web文書が予め登録されたジャンルのどれに属するかを分類する。Web文書から特徴語抽出処理を行うと判定された場合は、Web文書ジャンル分類部205の処理が実施され、そうでない場合は、Web文書ジャンル分類部209の処理が実施される。両者の差は、ジャンル分類するために判定に用いる場所が異なることにある。
分類方法に関しては、例えば、「上田、斉藤、『多重トピックテキストの確率モデル〜パラメトリック混合モデル…』信学論D-II Vol.J87-D-II No.3 pp.872-883, 2004年3月」に記載されている技術を用いるものとする。ここでは詳細な説明を省略する。
Web文書ジャンル分類部205では、入力されたWeb文書に対し全体に分類のための処理を行い、予め登録されたジャンルのどれに属するのかを判定する。
一方、特徴語抽出処理を行わないWeb文書ジャンル分類部209では、例えば、対象とするWeb文書が掲示板であった場合、Web文書の構成を解釈することにより、記事そのものではなく、サブジェクト部分を取り出し、そのサブジェクト部分に対してジャンル判定を行うことで分類を実現できる。サブジェクト部分の抽出は、前述の特開2004−220251号公報記載の方法による構造を解釈することにより抽出することが可能である。
話題語抽出部206は、形態素解析により各Web文書から単語を抽出し、ジャンルの特徴度として、ジャンルに特徴的かつ出現時期の新しさを表す評価値を算出する。ここでいう『ジャンルに特徴的』とは、そのジャンルに属するWeb文書集合において、その語を含むWeb文書の割合が高く、かつ、その語を含むWeb文書が他のジャンルのWeb文書集合に含まれにくい状況のことをいう。また、『出現時期の新しさ』というのは、作成時期が新しいWeb文書に含まれており、かつ、長期的において出現し続けていないということである。なお、ジャンルに特徴的かつ出現時期の新しさを表す評価値の算出方法については、例えば、ある語句が出現するジャンル数に基づいて決定される出現ジャンル数要素とジャンル別のある一定時間内での出現量に基づいて決定される出現量要素と、から構成されるジャンル関連度を算出する技術などにより実現可能である。
ここで算出された評価値の上位のものが、ジャンルに特徴的で話題性のある単語であり、話題語とする。
Web文書カウント部207は、文書数をカウントして、ジャンル毎に文書数を把握する。
Web文書カウント部207は、Webジャンル分類部205または、209の分類に従って、ジャンル毎にWeb文書の数量をカウントし、記憶する。Web文書カウント部207の実現には、例えば、図7に示すように、処理対象とするWeb文書を、文書の長さなどによらず等しく1文書とカウントする方法が考えられる。また、処理対象とするWeb文書の文書長を評価し、予め定めた最小値と最大値の範囲内と範囲外の部分を文書長を要素として段階的に評価してカウントして実現することも考えられる。この場合、Web文書のカウントは、図8に示すように、文書長が最小値と最大値の範囲内は、最大値で正規化することで、0〜1の間で段階的に数値を与えてカウントし、最大値以降はすべて1としてカウントする方法などで実現することもできる。
話題度算出部208は、話題語抽出部206で算出された話題語の評価値と、Web文書カウント部207でカウントした、直近の一定期間分のジャンル毎のWeb文書数を取得して、ジャンル毎に加えて得られるジャンル毎のWeb文書数によって、ジャンル毎の話題度を算出して話題語情報を生成し、話題語記憶部210に格納する。
例えば、話題度算出部208では、話題語抽出部206で得られた評価値に従って、あるジャンルにおいて表示する話題語をソートし、さらに、Web文書カウント部207から得られるジャンル毎のWeb文書の数量の合計値から、ジャンル毎の話題度を定める。
図9に、話題語記憶部210に格納される話題語情報の例を示す。同図に示すように、話題語記憶部210には、時刻、ジャンル、ジャンルの話題度、話題語、話題語の評価値が格納される。
表示情報管理部211は、情報閲覧端末300の要求に応じて、話題語記憶部210から話題語情報を読み出し、通信部201を介して情報閲覧端末300に話題語情報を送信する。
次に、情報閲覧端末300について説明する。
図10は、本発明の一実施の形態における情報閲覧端末の構成を示す。
情報閲覧端末300は、通信部301、表示情報要求部302、表示情報生成部303、表示部304、表示データ記憶部305、操作部306から構成される。
通信部301は、ネットワーク400を介して情報提供サーバ200との間で通信処理を行う。
表示情報要求部302は、情報閲覧端末300で表示すべき情報更新の要求を、情報閲覧端末300の利用者の指示または、情報閲覧端末300に予め設定されたタイマが一定時間毎に発する指示により、情報提供サーバ200へ表示するデータ取得を要求する。
表示情報生成部303は、情報提供サーバ200から取得した表示情報に従って、表示データを生成する。情報提供サーバ200から取得した話題語情報から、ジャンル毎に表示用の単語を表示する個数と、ジャンル毎の表示面積を算出する。
例えば、ジャンルの話題度が大きい順にジャンル表示面積を変更し、表示すると、利用者は、話題の盛り上がり具合を、直感的に理解できるようになる。図11に話題語表示の例を示す。
また、話題度の大きさに応じてジャンルの表示面積が大きくなるのに対応し、その表示面積に応じ、表示エリア内に収まるようにフォントサイズを大きく変更する方法もある。さらに、表示面積に応じて、表示する話題語の数を増減する方法や、色情報を利用して話題度を表すなどにより、利用者に対してわかりやすい視覚的効果を提供することもできる。
表示部304では、表示情報生成部303によって生成された表示情報を表示する。
表示データ記憶部305は、表示情報生成部303で生成された表示データを一時記憶する。
操作部306は、利用者の情報閲覧端末300に対する操作を入力する。また、利用者が情報閲覧端末300で表示される話題の情報に対する操作を行うものであり、マウスやキーボード等で構成されるものである。
ここで、利用者の操作状態を利用者自身が判断しやすいように、操作した状態を表示上方生成部303に送り、表示部304に反映させる。
ネットワーク400は、電気通信設備により構成され、情報提供サーバ200と情報閲覧端末300とをそれぞれ接続し、その間で上方を伝送する。
次に、情報量対応情報表示システムの動作を説明する。
図12は、本発明の一実施の形態における情報量対応情報表示システムの動作のフローチャートである。
情報提供サーバ200は、Web文書収集部202によって通信部201を介してWeb文書提供サーバ100が公開しているWeb文書の中から一定期間内で更新されたものを一定期間間隔で収集し、文書記憶部203に蓄積する(ステップ101)。
Web文書判定部204は、文書記憶部203に記憶されている収集されたWeb文書から、直近の一定期間分のWeb文書を読み出し、読み出したWeb文書毎に、Web文書から話題情報の抽出処理を実施すべきかどうかを判断する(ステップ102)。
ステップ102でWeb文書からの話題情報抽出処理を実施する場合は、Web文書ジャンル分類部205において、入力されたWeb文書を予め登録されたジャンルのどれに属するのかを判定する(ステップ103)。
話題語抽出部206は、形態素解析により各Web文書から単語を抽出し、ジャンルの特徴度として、ジャンルに特徴的かつ出現時期の新しさを表す評価値を算出し、評価値の上位の者を、ジャンルに特徴的で話題性のある単語である話題語とする(ステップ104)。
一方、ステップ102でWeb文書からの話題情報抽出処理を実施しないと判断された場合は、Web文書ジャンル分類部209では、Web文書の構成を解釈することにより、記事そのもの以外を基にしてジャンル判定を行う(ステップ105)。
次に、Web文書カウント部207は、Web文書ジャンル分類部205の分類または、Web文書ジャンル分類部209に従って、ジャンル毎に文書数をカウントする(ステップ106)。
ステップ105及びステップ107の処理終了後、話題度算出部208は、ステップ105で算出された話題語の評価値と、ステップ104及びステップ107により、それぞれカウントしたジャンル毎のWeb文書数とから、話題度を算出する(ステップ108)。
次に、話題度を算出したデータの時刻と、ジャンル毎にステップ108で算出した話題度、話題語、話題語の特徴度の情報を、表示用データとして話題語記憶部210に記憶する(ステップ108)。
次に、情報閲覧端末300の動作を説明する。
情報閲覧端末300の表示情報要求部302は、通信部301を介して表示用情報を情報提供サーバ200に要求し、取得する(ステップ201)。
表示情報要求部302は、情報提供サーバ200から取得したデータを受け取り、表示データ記憶部305に一旦記憶する(ステップ202)。
表示情報生成部303は、表示データ記憶部305に記憶された、ジャンル毎の表示用の単語と話題度を読み出して表示用情報に加工する(ステップ203)。
ステップ203で生成された表示用情報を表示部304において表示する(ステップ204)。
また、本発明は、上記の図5、図6、図12、図13に示すフローチャートをプログラムとして構築し、情報提供サーバ、情報閲覧端末として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、Web文書等の大量の情報を提供するためのシステムに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態におけるシステムの構成図である。 本発明の一実施の形態における情報提供サーバの構成図である。 本発明の一実施の形態におけるWeb文書判定処理(その1)のフローチャートである。 本発明の一実施の形態におけるWeb文書判定処理(その2)のフローチャートである。 本発明の一実施の形態におけるWeb文書カウント方法を示す図(その1)である。 本発明の一実施の形態におけるWeb文書カウント方法を示す図(その2)である。 本発明の一実施の形態における話題語記憶部の話題語情報の例である。 本発明の一実施の形態における情報閲覧端末の構成図である。 本発明の一実施の形態における話題語表示の例である。 本発明の一実施の形態における流通量対応情報表示システムの動作のフローチャートである。 本発明の一実施の形態における情報閲覧端末の動作のフローチャートである。
符号の説明
100 Web文書提供サーバ
200 情報提供サーバ
201 通信部
202 文書収集手段、Web文書収集部
203 文書記憶部
204 文書判定手段、Web文書判定部
205,209 文書ジャンル分類手段、Web文書ジャンル分類部
206 単語抽出手段、話題語抽出部
207 流通量算出手段、Web文書カウント部
208 話題度算出部
210 記憶手段、話題語記憶部
300 情報閲覧端末
301 通信部
302 表示情報要求部
303 表示情報生成部
304 表示部
305 表示データ記憶部
306 操作部
310 表示制御手段
2081 第1の話題度算出手段
2082 第2の話題度算出手段
2083 ジャンル盛り上がり度算出手段

Claims (13)

  1. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示方法において、
    ネットワークに接続される情報提供サーバにおいて、
    前記ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集ステップと、
    収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定ステップと、
    前記情報収集源から収集された前記文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類ステップと、
    前記判定ステップにおいて、話題語の抽出処理を行うと判定された場合に、収集された前記文書の中から話題を算出する単語を抽出する単語抽出ステップと、
    収集された前記文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出ステップと、
    前記単語抽出ステップで抽出された前記単語の話題度を算出する第1の話題度算出ステップと、
    ジャンル毎に話題度を算出する第2の話題度算出ステップと、
    前記第2の話題度算出ステップで算出されたジャンル毎の話題度と前記文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出ステップと、を行い、
    前記ネットワークに接続される情報閲覧端末において、
    前記情報提供サーバに対して、ジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示するステップと、
    を行うことを特徴とする流通量対応情報表示方法。
  2. 前記文書判定ステップにおいて、
    予め登録している前記情報発信源から収集した情報の性質を判定する情報発信源判定ステップを行う請求項1記載の流通量対応情報表示方法。
  3. 前記文書判定ステップにおいて、
    文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定する請求項1記載の流通量対応情報表示方法。
  4. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムであって、
    前記ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集手段と、
    収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定手段と、
    前記情報収集源から収集された前記文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類手段と、
    前記文書判定手段において、話題語の抽出処理を行うと判定された場合に、収集された前記文書の中から話題を算出する単語を抽出する単語抽出手段と、
    収集された前記文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出手段と、
    前記単語抽出手段で抽出された前記単語の話題度を算出する第1の話題度算出手段と、
    ジャンル毎に話題度を算出する第2の話題度算出手段と、
    前記第2の話題度算出手段で算出されたジャンル毎の話題度と前記文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出手段と、を有し、ネットワークに接続される情報提供サーバと、
    前記情報提供サーバに対して、ジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示する表示制御手段を、有し、前記ネットワークに接続される情報閲覧端末と、
    を有することを特徴とする流通量対応情報表示システム。
  5. 前記文書判定手段は、
    予め登録している前記情報発信源から収集した情報の性質を判定する情報発信源判定手段を含む請求項4記載の流通量対応情報表示システム。
  6. 前記文書判定手段は、
    文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定する手段を含む請求項4記載の流通量対応情報表示システム。
  7. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する、ネットワークに接続される流通量対応情報表示装置であって、
    前記ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集手段と、
    収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定手段と、
    前記情報収集源から収集された前記文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類手段と、
    前記判定手段において、話題語の抽出処理を行うと判定された場合に、収集された前記文書の中から話題を算出する単語を抽出する単語抽出手段と、
    収集された前記文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出手段と、
    前記単語抽出手段で抽出された前記単語の話題度を算出する第1の話題度算出手段と、
    ジャンル毎に話題度を算出する第2の話題度算出手段と、
    前記第2の話題度算出手段で算出されたジャンル毎の話題度と前記文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出手段と、
    前記ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示する表示制御手段を、
    を有することを特徴とする流通量対応情報表示装置。
  8. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報提供サーバに実行させる流通量対応情報表示プログラムであって、
    前記ネットワークを介して接続される予め登録された情報発信源からの文書を定期的に収集する文書収集ステップと、
    収集された文書から話題語の抽出処理を行うか否かの判定を任意の方法を用いて行う文書判定ステップと、
    前記情報収集源から収集された前記文書の内容が属するジャンルを予め決められたジャンルに分類する文書ジャンル分類ステップと、
    前記判定ステップにおいて、話題語の抽出処理を行うと判定された場合に、収集された前記文書の中から話題を算出する単語を抽出する単語抽出ステップと、
    収集された前記文書の数をカウントしてジャンル毎の文書流通量を算出する流通量算出ステップと、
    前記単語抽出ステップで抽出された前記単語の話題度を算出する第1の話題度算出ステップと、
    ジャンル毎に話題度を算出する第2の話題度算出ステップと、
    前記第2の話題度算出ステップで算出されたジャンル毎の話題度と前記文書流通量に基づいて、ジャンル毎の盛り上がり度を算出し、記憶手段に格納するジャンル盛り上がり度算出ステップと、を前記情報提供サーバとして利用されるコンピュータに実行させることを特徴とする流通量対応情報表示プログラム。
  9. 前記文書判定ステップにおいて、
    予め登録している前記情報発信源から収集した情報の性質を判定するステップを含む請求項8記載の流通量対応情報表示プログラム。
  10. 前記文書判定ステップにおいて、
    文書中の有意な文字が所定の割合以上であるか、意味の判る文書としての長さが所定の範囲内であるかに基づいて判定する請求項8記載の流通量対応情報表示プログラム。
  11. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報閲覧端末に実行させる流通量対応情報表示プログラムであって、
    ネットワークに接続される情報提供サーバに対して、該情報提供サーバにおいて求められたジャンル毎の盛り上がり度を要求し、該ジャンル毎の盛り上がり度に応じてジャンル領域の大きさを設定し、表示手段に表示するステップを、
    前記情報閲覧端末として利用されるコンピュータに実行させることを特徴とする流通量対応情報表示プログラム。
  12. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報提供サーバに実行させる流通量対応情報表示プログラムを格納した記憶媒体であって、
    前記請求項9又は、10に記載の流通量対応情報表示プログラムを格納したことを特徴とする流通量対応情報表示プログラムを格納した記憶媒体。
  13. 情報発信源から発信された大量の情報の中から話題を抽出し、話題の度合に応じて表示する流通量対応情報表示システムにおける、情報閲覧端末に実行させる流通量対応情報表示プログラムを格納した記憶媒体であって、
    前記請求項11記載の流通量対応情報表示プログラムを格納したことを特徴とする流通量対応情報表示プログラムを格納した記憶媒体。
JP2004309574A 2004-10-25 2004-10-25 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体 Pending JP2006120067A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004309574A JP2006120067A (ja) 2004-10-25 2004-10-25 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004309574A JP2006120067A (ja) 2004-10-25 2004-10-25 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2006120067A true JP2006120067A (ja) 2006-05-11

Family

ID=36537870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004309574A Pending JP2006120067A (ja) 2004-10-25 2004-10-25 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2006120067A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPWO2015190138A1 (ja) * 2014-06-11 2017-05-25 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323434A (ja) * 2006-06-01 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPWO2015190138A1 (ja) * 2014-06-11 2017-05-25 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
US7860878B2 (en) Prioritizing media assets for publication
US7685091B2 (en) System and method for online information analysis
JP5731250B2 (ja) 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
KR101793240B1 (ko) 사용자 탐색 이벤트의 예측
US9639622B2 (en) Image processing system, image processing method, program, and non-transitory information storage medium
US20090319449A1 (en) Providing context for web articles
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
WO2011019295A1 (en) Objective and subjective ranking of comments
KR20110009198A (ko) 최다 클릭된 다음 객체들을 갖는 검색 결과
KR20100112512A (ko) 검색 장치 및 검색 방법
JP5848199B2 (ja) 影響力予測装置、影響力予測方法、及びプログラム
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP2007256992A (ja) コンテンツ特定方法及び装置
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
CN114846463A (zh) 可重复查询的识别和发布
JP5814089B2 (ja) 情報表示制御装置、情報表示制御方法、及びプログラム
JP2014164576A (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP2005267095A (ja) 情報表示方法及び装置及び情報表示プログラム
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP2006120067A (ja) 流通量対応情報表示方法及びシステム及び装置及びプログラム及びプログラムを格納した記憶媒体
Phoa et al. Modeling the browsing behavior of world wide web users
KR20090084015A (ko) 개인 미디어 컨텐츠 평가 방법 및 시스템