JP4238813B2 - 話題情報提示方法及び装置及びプログラム - Google Patents

話題情報提示方法及び装置及びプログラム Download PDF

Info

Publication number
JP4238813B2
JP4238813B2 JP2004309575A JP2004309575A JP4238813B2 JP 4238813 B2 JP4238813 B2 JP 4238813B2 JP 2004309575 A JP2004309575 A JP 2004309575A JP 2004309575 A JP2004309575 A JP 2004309575A JP 4238813 B2 JP4238813 B2 JP 4238813B2
Authority
JP
Japan
Prior art keywords
topic
category
type
information
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004309575A
Other languages
English (en)
Other versions
JP2006120068A (ja
Inventor
晴美 川島
吉秀 佐藤
努 佐々木
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004309575A priority Critical patent/JP4238813B2/ja
Publication of JP2006120068A publication Critical patent/JP2006120068A/ja
Application granted granted Critical
Publication of JP4238813B2 publication Critical patent/JP4238813B2/ja
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上に公開されている最新の文書情報を収集し、話題を抽出して表示する話題情報提示方法及び装置及びプログラムに係り、特に、文書情報をニュース性の高い情報と人々が関心がある情報との2つのタイプに分けて管理し、それぞれ話題となる語句を自動的に抽出してタイプ毎の話題情報を表示することのできる話題情報提示方法及び装置及びプログラムに関する。
近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書除法が次々と蓄積され続けている。新聞各社のホームページでは、最新のニュース情報が頻繁に公開されており、従来からの掲示板に加えてプログサービス(“プログ”とは、「ウェブ」と「ログ」とによる造語「ウェブログ」を省略した読み方であり、ニュースや事件、趣味などに関し、日記形式で自分の意見を書き込むインターネットのサイトやホームページのことをいう(三省堂「デイリー新語辞典」))を利用して個人が興味のある事柄に対して感想や意見を発信することが容易に行えるようになってきた。そこで、ニュース情報や掲示板、プログなど、次々と発信される情報を数多く収集して解析すれば、最新の話題になっているニュースや出来事を把握することが可能なる。
そこで、ニュース情報を定期的に収集し、ニュース毎にまとめて提供するサービスが開始されている(例えば、非特許文献1参照)。このサービスでは、発信されているニュースを話題単位にまとめ、情報量に応じて配置が行われている。1度にまとめて最新のニュースを見ることができる利点があるが、ニュースに関する人々の関心度合がわからないという問題がある。
ニュースだけでない様々な情報を、話題毎に分類し、その話題に関する文書数を時系列に示す情報潮流提示方法が提案されている(例えば、特許文献1参照)。この情報潮流提示方法では、話題の時間的な変化はわかりやすいが、数多くの話題を1度に表示すると見辛く、今最も盛り上がっている話題が何であるかを直感的に把握し辛いという問題がある。
また、ニュース情報と掲示板やプログといった人々が関心を寄せている情報も全てまとめて扱うために、ニュース性の高い話題なのか、人々の関心が高い話題なのかを把握することができない。
特開平11−175530号公報 http://news.google.co.jp/nwshp?hl=ja&gl=jp
前述のように従来技術では、最新のニュース情報に対して、人々がどの程度関心を寄せているかを知ることができない。また、ニュース情報に限定していない情報潮流提示方法では、話題がニュース情報から抽出されているのか、人々の関心を表した情報から抽出されているのか、または、その両方の情報から抽出されているのかを知ることができない。
また、従来の技術においては、文書数を元に話題の大きさを決定しており、情報量が少ない分野の話題は抽出されにくいという問題がある。
本発明は、上記の点に鑑みなされたもので、文書情報をニュース性の高い情報と人々の関心を表した情報との2つのタイプに分けて管理し、それぞれ話題となる語句を自動的に抽出し、カテゴリ別にどちらかのタイプあるいは両方のタイプで話題になっている情報を提供することができる話題情報提示方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置における、話題情報提示方法であって、
文書収集蓄積手段が、情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積ステップ(ステップ1)と、
カテゴリ話題度算出手段が、各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出ステップ(ステップ2)と、
語句特徴度算出手段が、各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、該語句及び該語句特徴度を第2の記憶手段に格納する語句特徴度算出ステップ(ステップ3)と、
話題語選択手段が、カテゴリ話題度算出ステップで算出されたカテゴリ話題度に応じて決定された語数分だけ、第2の記憶手段に格納されている語句を語句特徴度の高い順に選択する話題語選択ステップと、
表示制御手段が、選択された語句を表示手段に表示する表示制御ステップ(ステップ4)と、を行う。
本発明(請求項2)は、ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置における、話題情報提示方法であって、
文書収集蓄積手段が、情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積ステップと、
カテゴリ話題度算出手段が、各タイプにおいてカテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出ステップと、
語句特徴度算出手段が、各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、タイプ毎の積の2つのタイプ同士の比であるタイプ別割合を算出し、該語句、該語句特徴度及び該タイプ別割合を第2の記憶手段に格納する語句特徴度算出ステップと、
話題語選択手段が、カテゴリ話題度算出ステップで算出されたカテゴリ話題度に応じて決定された語数分だけ、第2の記憶手段に格納されている語句を語句特徴度の高い順に選択する話題語選択ステップと、
表示制御手段が、選択された語句を表示手段に表示する際に、該語句のタイプ割合に応じて色やマークを付る表示制御ステップと、を行う。
また、本発明(請求項3)は、上記の請求項1または、請求項2において、タイプ別カテゴリ話題度は、カテゴリ分類された文書数がカテゴリの平均文書数より多い場合に大きな値をとり、平均文書数より少ない場合に小さな値をとる。
図2は、本発明の原理構成図である。
本発明(請求項)は、ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置であって、
情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積手段10と、
各タイプにおいてカテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出手段21と、
各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、該語句及び該語句特徴度を第2の記憶手段に格納する語句特徴度算出手段22と、
カテゴリ話題度算出手段21で算出されたカテゴリ話題度に応じて決定された語数分だけ、第2の記憶手段に格納されている語句を語句特徴度の高い順に選択する話題語選択手段30と、
選択された語句を表示手段50に表示する表示制御手段40と、を有する。
本発明(請求項5)は、ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置であって、
情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積手段と、
各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出手段と、
各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、タイプ毎の積の2つのタイプ同士の比であるタイプ割合を算出し、該語句、該語句特徴度及び該タイプ割合を第2の記憶手段に格納する語句特徴度算出手段と、
カテゴリ話題度算出手段で算出されたカテゴリ話題度に応じて決定された語数分だけ、第2の記憶手段に格納されている語句を語句特徴度の高い順に選択する話題語選択手段と、
選択された語句を表示手段に表示する際に、該語句のタイプ別割合に応じて色やマークを付与する表示制御手段と、を有する。
また、本発明(請求項)は、上記の請求項または、請求項において、タイプ別カテゴリ話題度は、カテゴリ分類された文書数がカテゴリの平均文書数より多い場合に大きな値をとり、平均文書数より少ない場合に小さな値をとる。
本発明(請求項)は、請求項乃至のいずれか1項に記載の話題情報提示装置を構成する各手段としてコンピュータを機能させるための話題情報提示プログラムである。
上記のように、本発明によれば、情報収集サイトをニュース性が高いサイトと人々の関心事を発信しているサイトとの2タイプに分けて管理し、タイプ毎に情報収集サイトから収集した文書情報から、カテゴリ別に話題度及び語句の特徴度を算出することで、各カテゴリにおいて、どちらかのタイプで話題になっている語句を敏感に抽出することができるようになる。
さらに、語句がタイプ別にどのような割合で話題になっているかを利用者に提示することができ、利用者はニュース性が高い話題なのか、人々が関心がある話題なのかを直感的に把握することができるようになる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における話題情報提示装置の構成を示す。
同図に示す話題情報提供装置は、タイプ別に文書情報を収集し、蓄積しておく情報収集蓄積部10、情報収集蓄積部10から期間を指定して文書情報を取得し、カテゴリ毎に話題語を抽出して蓄積する話題情報抽出部20、カテゴリ毎の話題度に応じて語句を選択する話題語選択部30、選択した語句を表示手段50に表示する表示制御部40から構成される。
情報収集蓄積部10は、情報収集サイトをタイプ別に蓄積しておく収集サイト蓄積部11と、収集サイト蓄積部11に蓄積されているサイトから定期的に新しい文書情報や更新された文書情報を収集する文書情報収集部12と、収集されたタイプ別の文書情報をカテゴリ分類するカテゴリ分類部13、カテゴリ分類されたタイプ別の文書情報を、作成/更新された時刻あるいは収集された時刻と共に蓄積するタイプ別文書情報蓄積部13から構成される。
図4は、本発明の一実施の形態における情報収集蓄積部の処理を説明するための図である。
同図では、収集サイト蓄積部11において、情報収集サイトを2つのタイプ、タイプAとタイプBに分けて管理している例を示す。タイプAがニュース性の高い情報サイトであり、新聞社がニュース情報を発信するサイトや、出版社などが運営する情報発信サイト、企業のホームページなどを記録している(図4(A))。タイプBは、人々の関心が表れるサイトであり、掲示板や日記、プログを記録している(図4(D))。情報収集サイトはURLで管理され、各サイトのトップページに限らず、最新情報が更新されるページを記録するのが望ましい。近年では、サイトの更新情報を、XMLページのRSSフォーマットで公開しているサイトも急増しており、このRRSフォーマットのファイルを取得用サイトとして記録しておくことも可能である。
文書情報収集部12は、タイプ毎に記録された情報収集サイトから文書情報を定期的に取得し、更新された情報や、新しい情報のみを文書ファイルとして蓄積する(図4(B),(E))。この際、取得したサイトの情報としてURLを記録し、情報作成/更新された時刻を文書情報から抽出して記録する。時刻情報を文書情報から抽出する技術としては、「更新」「Update」「Date」などの時刻に関連した文字を頼りに探す方法がある。また、RSSフォーマットの場合は、時刻情報を格納するタグが決められているため、タグから容易に時刻情報を取得することができる。また、時刻情報が取得できない場合は、情報を収集した時刻を時刻情報として記録することができる。
次に、カテゴリ分類部13は、文書情報収集部12において収集されたタイプ別の文書ファイルをカテゴリ分類する。カテゴリ分類する方法は、予め既知のカテゴリに分類する従来技術を用いる。例えば、「多重トピックテキストの確立モデル」電子情報通信学会論文誌 D-II Vol.J87 No3. pp.872-883」を利用することができ、その説明は省略する。カテゴリ分類されたタイプ別の文書ファイル集合は、タイプ別文書情報蓄積部14に蓄積する。蓄積に際しては、文書ファイルのタイプ、時刻情報、カテゴリが容易に識別できる方法が望ましい。例えば、タイプ別、日付別、カテゴリ別にディレクトリを用意し、そのディレクトリ名に文書ファイルを蓄積するように構成してもよい。または、文書ファイルの中にカテゴリを記録することで、カテゴリ別のディレクトリを作成しなくても良いし、文書ファイルの名前に時刻情報やカテゴリ情報を含めることで識別するように構成しても良い。
話題情報抽出部20は、各タイプにおけるカテゴリ毎の文書数を時刻情報と共に蓄積する文書数蓄積部24と、文書数を基にタイプ別カテゴリ話題度を求め、それぞれのタイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出部21と、各文書に含まれる語句の頻度情報を蓄積する語句頻度蓄積部25と、語句の頻度情報を用いてタイプ別語句特徴度を求め、タイプ別カテゴリ話題度とタイプ別語句特徴度から、それぞれのカテゴリにおける語句特徴度と語句特徴度のタイプ別割合を算出する語句特徴度算出部22と、カテゴリ話題度算出部21で算出されたカテゴリ話題度と語句特徴度算出部22で算出された語句特徴度及びタイプ別割合を蓄積する話題語蓄積部23から構成される。
図5は、本発明の一実施の形態における話題情報抽出部の処理フローチャートである。
同図に示す処理は定期的に実施され、処理の実施間隔が話題抽出の間隔になる。例えば、1時間毎に処理を実施したとすると、話題語も1時間おきに抽出される。
まず、カテゴリ話題度算出部21において、タイプ別文書情報蓄積部14から、時刻範囲を設定して、当該時刻範囲の時刻情報を持つ文書ファイルをタイプ毎に取得する(ステップ201)。ここで指定する時刻範囲は、処理が実施される間隔と等しく設定し、処理が1時間おきであれば指定する時刻範囲も1時間とする。また、収集した文書情報からは、できるだけ早く話題を抽出したいので、現在時刻より前の1時間といった直近の期間を指定し、次回指定する期間は今回指定した時刻範囲に連続した1時間とする。
カテゴリ話題度算出部21は、タイプ毎にタイプ別文書情報蓄積部14から取得した情報から、カテゴリ毎に文書ファイル数(以下、「文書数」と記す)を計算し、文書数蓄積部24に記録する(ステップ202)。文書数蓄積部24には、カテゴリ話題度算出部21が処理を実行する間隔毎にカテゴリ毎の文書数が蓄積され、各カテゴリの平均文書数も蓄積されている。平均文書数は、「話題度を算出する単位:TU」の文書数をN個算出し、平均した値である。例えば、図6は、「話題度を算出する単位:TU」を24時間とし(図6:a)、平均を算出する単位の数=7とした場合の図である。文書数は時間帯により変動することが多く、変動の影響を少なくするために少なくとも1日分を「話題を算出する単位:TU」とするのが望ましい。N=7は、この場合、1週間という期間になる(図6:b)。
平均文書数は、24時間に1回算出すればよいので、図6の太い縦線に該当する時刻cにのみ算出を行う(平均文書数の算出は図5のフローチャートに示す処理とは別に24時間間隔で実行し、文書数蓄積部24に蓄積しておくものとする)。
次に、「話題度を算出する期間:TU」分の文書数を文書数記録部24から取得して加算する。図6において、話題度算出処理を開始した時刻をdとすると、24時間分eに該当する期間の文書数を取得し加算する。加算した文書数が、平均文書数に比べて多いか、少ないかを示す値としてタイプ別カテゴリ話題度を算出する(ステップ203)。タイプAのカテゴリCmの話題度TD(A,m)は、式(1)で求めることができる。
TD(A,m)=タイプAの最新の期間TU分の文書総数/D’(A,m) 式(1)
ここで、D’(A,m)は、タイプAのカテゴリCm(m=1〜M)の平均文書数とする。
同様に、タイプBの文書ファイルについても、話題度TD(B,m)(m=1〜M)を以下の式(2)で算出する。
TD(B,m)=タイプBの最新の期間TU分の文書総数/D’(B,m) 式(2)
ここで、D’(B,m)は、タイプBのカテゴリCm(m=1〜M)における平均文書数とする。
各タイプのカテゴリ毎の話題度を算出した後、カテゴリの話題度を算出する(ステップ204)。
カテゴリの話題度TD(m)(m=1〜M)は、式(3)により各タイプの話題度で最大の話題度を設定する。
TD(m)=max(TD(A,m)、TD(B,m)) 式(3)
例えば、カテゴリCkにおいて、タイプAの文書数が平均文書数より少ない文書数(話題度が1より小さい値)であり、タイプBの文書数が平均文書数より多い文書数(話題度が1より大きい)である場合、話題度の大きいタイプBの話題度がカテゴリCkの話題度になり、カテゴリCk内で話題になっている情報があることがわかる。これは、カテゴリ全体(すべてのタイプ)の文書総数が、通常通りの文書総数であっても、タイプ毎に文書数を管理することにより、話題を敏感に検知できることを示している。
カテゴリ話題度算出部21は、算出したタイプ別カテゴリ話題度と、タイプ別文書情報蓄積部14から取得した、カテゴリ分類した文書ファイル(図4(C),(F))の情報を語句特徴度算出部22に渡し、上記の式(3)で求めたカテゴリ全体の話題度を話題語蓄積部23に記録し、処理を終了する。
語句特徴度算出部22は、カテゴリ話題度算出部21から受け取った文書ファイルから、タイプ毎に語句の特徴度(タイプ別語句特徴度)を算出する処理を行う(ステップ205)。タイプ別語句特徴度は、
・評価値1:特定のカテゴリ内でのみ頻繁に出現するほど高い値をとり;
・評価値2:時間的に新しく出現した語句ほど高い値をとる;
ように求める。
まず、文書ファイルそれぞれに対して形態素解析処理を行い、形態素毎の分割を行う。さらに、元の文書中で連続していた名詞を連結して複合名詞を作成し、名詞及び複合名詞(総称して「語句」と呼ぶ)が出現する文書数をカテゴリ毎に求め、時刻情報(ここでは話題情報抽出部20の処理開始時刻)と共に語句頻度蓄積部25に蓄積する。語句頻度蓄積部25には、タイプ別にカテゴリ毎に語句と語句の文書数が蓄積されることになる。
次に、今回の処理において蓄積した語句と文書数を用いて「評価値1」を算出する。タイプA,カテゴリCm(m=1〜M)において、語句w(i=1〜L)がカテゴリCm内に出現する文書数をn(A,Cm,w)、語句wが出現するカテゴリ数をf(A,w)とし、語句wの評価値1:V1(A,Cm,w)を式(4)で求めるものとする。
V1(A,Cm,w)=n(A,Cm,w)*log(M/f(A,w))
式(4)
ここで、log(M/f(A,w))は、語句wが多くのカテゴリに出現するほど小さな値をとるため、カテゴリCmにおいて出現する文書数が多く、且つ他のカテゴリにあまり出現しない語に高い評価値が与えられることになる。
「評価値2」は、時間的に新しく出現した語句ほど高い値を付与する式(5)を用いるものとする。
Figure 0004238813
ここで、tは、話題度抽出処理の開始時刻であり、tは現在の話題語抽出処理時刻から「話題を算出する単位:TU」時間分、過去に遡った時刻とする。図6のfにおいて、破線で表された時刻が、話題語抽出処理の開始時刻であり、現在の処理開始時刻をdとすると、「話題を算出する単位:TU」である24時間前に遡った時刻がtとなる。
“評価値1”の式(4)に時刻情報を追加し、時刻情報をtからt24まで変化させた各時刻において算出した“評価値1”に、“評価値2”を乗算してカテゴリCmにおけるタイプ別語句特徴度を算出する。
タイプAのカテゴリCmにおけるタイプ別語句特徴度は式(6)で表すことができる。
Figure 0004238813
タイプBについても同様に、語句wのタイプ別語句特徴度V(B,Cm,w)を式(7)で求めることができる。
Figure 0004238813
次に、タイプ別語句特徴度に対して、タイプ別カテゴリ話題度を乗算し、タイプを統合したカテゴリにおける語句特徴度を算出する(ステップ206)。
カテゴリCm(m=1〜M)における語句w(i=1〜L)の語句特徴度は、式(1)、(2)の各タイプにおけるカテゴリの話題度を用いて、式(8)で求めることができる。
V(Cm,w)=V(A,Cm,w)*TD(A,m)+V(B,Cm,w)*TD(B,m) 式(8)
上記の式(8)は、カテゴリの話題度が大きいタイプに含まれる語句の話題度を上げる働きをし、両方のタイプの語句特徴度が加算されるため両タイプに含まれる語句の特徴度が高くなることを示している。
語句特徴度算出部22は、算出した語句の話題度と、V(A,Cm, w)*TD(A,m)とV(B,Cm, w)*TD(B,m)の比を算出して、カテゴリ毎に話題語蓄積部23に記録して(ステップ207)、処理を終了する。
図7は、本発明の一実施の形態における話題語蓄積部の蓄積例を示す。
同図に示す話題語蓄積部23に格納される情報は、gが話題語算出処理を開始した時刻、hがカテゴリCの情報であり、カテゴリCの話題度iと、カテゴリCにおいて抽出された各語句の語句特徴度及びタイプ別割合jから構成されている。この例では、語句の特徴度を高い順に並べて格納している。
次に、話題語蓄積部23に蓄積されている情報をカテゴリ毎に表示する処理について図8を用いて説明する。図8は、本発明の一実施の形態における表示制御部の処理フローチャートである。ここでは、利用者から指定されたカテゴリの語句を表示する例を説明する。
話題語選択部30は、話題語蓄積部23から、利用者から指定されたカテゴリ及び語句、語句特徴度、タイプ別割合を取得する(ステップ301)。取得したカテゴリの話題度に応じて、表示する語数、及び表示領域を決定する(ステップ302)。表示語数は表示するユーザインタフェースに依存し、予め話題度の高さに応じて設定する表示語数を決めておく。例えば、図9に示す表示例では、話題度を3段階に分けて管理し、話題度が“高”の場合には、表示語数を“6”に(図9、k)、話題度が“中”の場合には“4”(図9、m)、また話題度が“小”の場合には表示語数を“2”(図9,n)に設定している。
次に、話題度に応じて決定した語句を表示するために必要な領域を決定し、語句を配置して表示する(ステップ303)。
また、タイプ別割合を、語句の横にマークで表示する(図9,o)。図9における、白星のマークの数が、タイプAのニュース性の高さを表し、黒星のマークの数がBの人々の関心の高さを表している。このように語句が、どのようなタイプのサイトから抽出されたかを表示することにより、語句のタイプを直感的に把握することが可能になる。
他の表示例としては、図10に示すようにカテゴリを円形の領域で表示することも可能である。この場合、円の大きさがカテゴリ特徴度の大きさを表し(図10、p)、カテゴリ内で特徴度がトップの語句を大きな文字で表示したり(図10、q)、タイプ別割合に応じて語句の色を変化させたりすることで、特徴度の違いやタイプの違いを表現することができる。
また、上記の話題情報提示装置の情報収集蓄積部10、話題情報抽出部20、話題語選択部30、表示制御部40の動作をプログラムとして構築し、話題情報提示装置として利用されるコンピュータにインストールし、実行させる、または、ネットワークを介して流通させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ネットワーク上のWebサイトで公開されている最新の文書情報から話題を抽出して提示するシステムに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における話題情報提示装置の構成図である。 本発明の一実施の形態における情報収集蓄積部の処理を説明するための図である。 本発明の一実施の形態における話題情報抽出部の処理フローチャートである。 本発明の一実施の形態における話題度算出の単位を説明するための図である。 本発明の一実施の形態における話題語蓄積部の蓄積例である。 本発明の一実施の形態における表示制御部での処理フローチャートである。 本発明の一実施の形態における語句表示例である。 本発明の一実施の形態における別の語句表示例である。
符号の説明
10 文書収集蓄積手段、情報収集蓄積部
11 収集サイト蓄積部
12 文書情報収集部
13 カテゴリ分類部
14 タイプ別文書情報蓄積部
20 話題情報抽出部
21 カテゴリ話題度算出手段、カテゴリ話題度算出部
22 語句特徴度算出手段、語句特徴度算出部
23 話題語蓄積部
24 文書数蓄積部
25 語句頻度蓄積部
30 話題語選択手段、話題語選択部
40 表示制御手段、表示制御部
50 表示手段

Claims (7)

  1. ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置における、話題情報提示方法であって、
    文書収集蓄積手段が、情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積ステップと、
    カテゴリ話題度算出手段が、各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出ステップと、
    語句特徴度算出手段が、各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、前記タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、該語句及び該語句特徴度を第2の記憶手段に格納する語句特徴度算出ステップと、
    話題語選択手段が、前記カテゴリ話題度算出ステップで算出された前記カテゴリ話題度に応じて決定された語数分だけ、前記第2の記憶手段に格納されている語句を前記語句特徴度の高い順に選択する話題語選択ステップと、
    表示制御手段が、前記選択された語句を表示手段に表示する表示制御ステップと、
    を行うことを特徴とする話題情報提示方法。
  2. ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置における、話題情報提示方法であって、
    文書収集蓄積手段が、情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積ステップと、
    カテゴリ話題度算出手段が、各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出ステップと、
    語句特徴度算出手段が、各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、前記タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、前記タイプ毎の積の2つのタイプ同士の比であるタイプ別割合を算出し、該語句、該語句特徴度及び該タイプ別割合を第2の記憶手段に格納する語句特徴度算出ステップと、
    話題語選択手段が、前記カテゴリ話題度算出ステップで算出された前記カテゴリ話題度に応じて決定された語数分だけ、前記第2の記憶手段に格納されている語句を語句特徴度の高い順に選択する話題語選択ステップと、
    表示制御手段が、前記選択された語句を表示手段に表示する際に、該語句のタイプ別割合に応じて色やマークを付与する表示制御ステップと、
    を行うことを特徴とする話題情報提示方法。
  3. 前記タイプ別カテゴリ話題度は、カテゴリ分類された文書数がカテゴリの平均文書数より多い場合に大きな値をとり、平均文書数より少ない場合に小さな値をとる請求項1または、2記載の話題情報提示方法。
  4. ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置であって、
    情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積手段と、
    各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出手段と、
    各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、前記タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、該語句及び該語句特徴度を第2の記憶手段に格納する語句特徴度算出手段と、
    前記カテゴリ話題度算出手段で算出された前記カテゴリ話題度に応じて決定された語数分だけ、前記第2の記憶手段に格納されている語句を前記語句特徴度の高い順に選択する話題語選択手段と、
    選択された語句を表示手段に表示する表示制御手段と、
    を有することを特徴とする話題情報提示装置。
  5. ネットワーク上で公開されている最新の文書情報から話題を抽出して表示する話題情報提示装置であって、
    情報収集サイトを、新聞社、出版社、企業を含む情報発信サイトと、掲示板、日記、ブログを含むサイトの2つのタイプ別に管理し、タイプ別に情報収集サイトから収集した文書情報をカテゴリ分類して第1の記憶手段に蓄積する文書収集蓄積手段と、
    各タイプにおいて、カテゴリ毎に最新の一定期間の文書数と平均文書数とから、文書数が増加傾向にあるほど高い値をとるタイプ別カテゴリ話題度を求め、各カテゴリにおいて、2つのタイプの該タイプ別カテゴリ話題度からカテゴリ話題度を算出するカテゴリ話題度算出手段と、
    各カテゴリにおいて、タイプ毎に文書中の各語句について、該カテゴリ内でのみ頻繁に出現するほど高い値をとり、新しく出現した語句ほど高い値をとるタイプ別語句特徴度を求め、前記タイプ別カテゴリ話題度と該タイプ別語句特徴度とのタイプ毎の積を2つのタイプについて加算してそれぞれのカテゴリにおける語句の語句特徴度を算出し、前記タイプ毎の積の2つのタイプ同士の比であるタイプ割合を算出し、該語句、該語句特徴度及び該タイプ割合を第2の記憶手段に格納する語句特徴度算出手段と、
    前記カテゴリ話題度算出手段で算出された前記カテゴリ話題度に応じて決定された語数分だけ、前記第2の記憶手段に格納されている語句を前記語句特徴度の高い順に選択する話題語選択手段と、
    前記選択された語句を表示手段に表示する際に、該語句のタイプ別割合に応じて色やマークを付与する表示制御手段と、
    を有することを特徴とする話題情報提示装置。
  6. 前記タイプ別カテゴリ話題度は、カテゴリ分類された文書数がカテゴリの平均文書数より多い場合に大きな値をとり、平均文書数より少ない場合に小さな値をとる請求項4または、5記載の話題情報提示装置。
  7. 請求項4乃至6のいずれか1項に記載の話題情報提示装置を構成する各手段としてコンピュータを機能させるための話題情報提示プログラム。
JP2004309575A 2004-10-25 2004-10-25 話題情報提示方法及び装置及びプログラム Active JP4238813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004309575A JP4238813B2 (ja) 2004-10-25 2004-10-25 話題情報提示方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004309575A JP4238813B2 (ja) 2004-10-25 2004-10-25 話題情報提示方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006120068A JP2006120068A (ja) 2006-05-11
JP4238813B2 true JP4238813B2 (ja) 2009-03-18

Family

ID=36537871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004309575A Active JP4238813B2 (ja) 2004-10-25 2004-10-25 話題情報提示方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4238813B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5347334B2 (ja) * 2008-05-29 2013-11-20 富士通株式会社 まとめ上げ作業支援処理方法、装置及びプログラム
JP5801252B2 (ja) * 2012-05-17 2015-10-28 日本電信電話株式会社 イベント抽出装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2006120068A (ja) 2006-05-11

Similar Documents

Publication Publication Date Title
US10650059B2 (en) Enhanced online user-interaction tracking
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
CA2635420C (en) An automated media analysis and document management system
US10650316B2 (en) Issue-manage-style internet public opinion information evaluation management system and method thereof
US9390144B2 (en) Objective and subjective ranking of comments
US8495210B1 (en) Predictive publishing of internet digital content
TW201514845A (zh) 從網頁擷取標題及主體
JP2006331089A (ja) Webページから時系列データを生成する方法及び装置
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US8572118B2 (en) Computer method and apparatus of information management and navigation
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
JP2006309515A (ja) 情報配信方法および情報配信サーバ
JP2010044462A (ja) コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム
JP2016105260A (ja) サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
JP2005267095A (ja) 情報表示方法及び装置及び情報表示プログラム
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
US20120136815A1 (en) Display Device and Display Method
JP4238813B2 (ja) 話題情報提示方法及び装置及びプログラム
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP2006209598A (ja) サイト情報収集システム
JP5089091B2 (ja) コンテンツ収集システム
KR102062832B1 (ko) 웹 기반 논문 큐레이션 서비스 시스템 및 방법
Tse et al. News Values Revisited: A Comparison Between Citizen and Mainstream Media in Hong Kong

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4238813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350