JP2006079412A - イベント情報抽出方法及び装置及びプログラム - Google Patents

イベント情報抽出方法及び装置及びプログラム Download PDF

Info

Publication number
JP2006079412A
JP2006079412A JP2004263725A JP2004263725A JP2006079412A JP 2006079412 A JP2006079412 A JP 2006079412A JP 2004263725 A JP2004263725 A JP 2004263725A JP 2004263725 A JP2004263725 A JP 2004263725A JP 2006079412 A JP2006079412 A JP 2006079412A
Authority
JP
Japan
Prior art keywords
event
information
time
attention
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004263725A
Other languages
English (en)
Other versions
JP4496900B2 (ja
Inventor
Harumi Kawashima
晴美 川島
Yuichiro Sekiguchi
裕一郎 関口
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004263725A priority Critical patent/JP4496900B2/ja
Publication of JP2006079412A publication Critical patent/JP2006079412A/ja
Application granted granted Critical
Publication of JP4496900B2 publication Critical patent/JP4496900B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 特定の時刻に開始される事象に対して事象が開始される以前に、利用者が興味をひく語句を提供する。
【解決手段】 本発明は、イベント名と開催期間を取得し、さらに、イベントに関連する文書を抽出して格納し、抽出した文書から指定した集計期間内の時刻情報を持つ文書を抽出し、イベントの注目度を算出し、注目度の高いイベントを選択し、イベント情報蓄積手段から取得したイベントの開催期間と現在日時の関係に応じて、異なる情報から異なる間隔で語句を抽出し、出力する。語句を抽出する際には、イベント開催前は主催者の案内文のようなイベント開催情報から語句を抽出し、開催中はクチコミ情報などの文書情報から語句を抽出する。
【選択図】 図1

Description

本発明は、イベント情報抽出方法及び装置及びプログラムに係り、特に、季節のイベントやスポーツイベントなど、特定の日時に開始される事象に関する話題を提供する技術において、各種イベントについて記載された文書情報をインターネット等のネットワークに接続された1つ以上の情報提供サーバから取得し、イベントの注目度に応じて話題となる語句を抽出し、提供するためのイベント情報抽出方法及び装置及びプログラムに関する。
近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書情報が次々と蓄積され続けている。特に、掲示板やblogサービスを利用して個人が自分の興味のある事柄に対して感想や意見を発しにすることが容易に行なえるようになってきた。従って、ニュース情報や掲示板、blogなど、次々と発信される情報を数多く収集して解析すれば、最新の話題になっているニュースや出来事を把握することが可能となる。
従来、複数の情報提供サーバから発信された情報を、話題毎のカテゴリで分類し、その話題の時間遷移を提示・検索する情報潮流検索方法が提案されている(例えば、特許文献1参照)。
この情報潮流検索方法では、ある期間において発信された文書集合から類似した文書同士を集め、カテゴリに割り当てるという処理を行っている。そのため、類似する文書が複数発信されてからしかカテゴリが割り当てられないため、話題となる情報が初めて発信されてから時間が経過した後でしか、話題を提示することができない。
また、個人の興味の中には、イベント等の特定の日時に開始される事象も含まれており、大抵は事象を体験した後に、その感想や意見が記述され、発信される。そのため、イベントが終了した後でしか話題を提示することができない。
特開2000−242652号公報
しかしながら、前述のように従来技術では、既にイベントが終了した後でしか話題を提供できず、これから話題になる可能性がある最新のイベント情報をいち早く提供することができない。
本発明は、上記の点に鑑みなされたもので、特定の時刻に開始される事象に対して事象が開始される以前に、利用者が興味をひく語句を提供することが可能なイベント情報抽出方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、 季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出方法において、
イベントの開催日時や概要が記載されたイベント情報集合を蓄積するイベント情報蓄積手段からイベント名と開催期間を取得し(ステップ1)、時刻情報を持つ文書の集合を蓄積する文書情報蓄積手段からイベントに関連する文書を抽出し、イベント別にイベント別文書情報蓄積手段に格納する(ステップ2)イベント別文書抽出ステップと、
抽出した文書から指定した集計期間内の時刻情報を持つ文書を抽出し、イベントの注目度を算出するイベント注目度算出ステップと(ステップ3)、
注目度の高いイベントを選択し、イベント情報蓄積手段から取得したイベントの開催期間と現在日時の関係に応じて、異なる情報から異なる間隔で語句を抽出し、記憶手段に出力する語句抽出ステップ(ステップ4)と、を行なう。
本発明(請求項2)は、イベント注目度算出ステップ(ステップ3)において、
指定した集計期間内に検索要求された検索語から、イベントに関連する検索語の利用人数を集計し、イベントの注目度を算出する。
本発明(請求項3)は、イベント注目度算出ステップ(ステップ3)において、
開催前のイベントについては、過去のイベントの注目度を検索し、検索した過去のイベント注目度を用いてこれから開催されるイベントの注目度を算出する。
本発明(請求項4)は、語句抽出ステップ(ステップ4)において、
イベントが既に開催されている場合は、イベント別にイベント別文書情報蓄積手段の文書集合から語句を抽出し、これから開催されるイベントの場合は、イベント情報蓄積手段のイベント情報集合から語句を抽出する。
図2は、本発明の原理構成図である。
本発明(請求項5)は、季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出装置100であって、
イベントの開催日時や概要が記載されたイベント情報集合を蓄積するイベント情報蓄積手段201からイベント名と開催期間を取得し、時刻情報を持つ文書集合を蓄積する文書情報蓄積手段202からイベントに関連する文書を抽出し、イベント別にイベント別文書情報蓄積手段103に格納するイベント別文書抽出手段101と、
抽出した文書から指定した集計期間内の時刻情報を持つ文書を抽出し、イベントの注目度を算出するイベント注目度算出手段102と、
注目度の高いイベントを選択し、イベント情報蓄積手段201から取得したイベントの開催期間と現在日時の関係に応じて、異なる情報から異なる間隔で語句を抽出し、語句蓄積手段204に出力する語句抽出手段104と、を有する。
本発明(請求項6)は、イベント注目度算出手段102において、
指定した集計期間内に検索要求された検索語から、イベントに関連する検索語の利用人数を集計し、イベントの注目度を算出する手段を含む。
本発明(請求項7)は、イベント注目度算出手段102において、
開催前のイベントについては、過去のイベントの注目度を検索し、検索した過去のイベント注目度を用いてこれから開催されるイベントの注目度を算出する手段を含む。
本発明(請求項8)は、語句抽出手段104において、
イベントが既に開催されている場合は、イベント別にイベント別文書情報蓄積手段103の文書集合から語句を抽出し、これから開催されるイベントの場合は、イベント情報蓄積手段2−1のイベント情報集合から語句を抽出する手段を含む。
本発明(請求項9)は、季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出プログラムであって、
請求項1乃至4記載のイベント情報抽出方法を実現するための処理をコンピュータに実行させるプログラムである。
上記のように、本発明によれば、特定の期間開催されるイベントの注目度を算出し、これから開始されるイベントについては、内容を紹介したイベント情報(例えば、主催者の案内文)の中から語句を抽出することで、イベントが開始される前に話題になる可能性のある情報を提供することができる。
また、イベントが開始されてからは、イベントを見ている人々が発信する文書情報(例えば、クチコミ情報)から話題になっている語句を抽出し、提供することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態におけるイベント情報抽出装置の構成を示す。
同図に示すイベント情報抽出装置100は、イベント情報蓄積部201、文書情報蓄積部202、検索語蓄積部203からの情報を入力とし、語句蓄積部204に抽出した語句を出力する。
イベント情報抽出装置100は、イベント情報抽出部101、イベント注目度算出部102、イベント別文書情報蓄積部103、語句抽出部104、終了イベント蓄積部105から構成される。
イベント情報蓄積部201には、イベント情報が蓄積されている。図4に、イベント情報蓄積部201の例を示す。同図に示すように、イベント情報は、イベント名401、開始日402、終了日403、時刻404、場所405、概要文406などのイベントに関する情報から構成されている。
文書情報蓄積部202には、ホームページやblog、掲示板などのインターネット上で公開されている文書情報から、新しく生成された文書情報や更新された文書情報が収集され、作成日時や更新日時などの時刻情報と共に蓄積されている。これらの文書情報からは、イベントを体験した人々のイベントに対する感想や、イベントの開催状況を紹介したニュース記事などを収集することができる。
検索語蓄積部203には、インターネット上で検索サービスを提供する検索サイトにおいて、利用者により入力された検索語が収集され、検索要求された時刻と共に蓄積されている。検索語は、利用者が関心を持っている情報を探す手掛かりとして入力する語であるから、定期的に検索語を収集し、解析することで、利用者の関心が高かった情報を知ることができる。
イベント注目度算出部102は、定期的にイベント情報蓄積部201からイベント情報を取得し、イベント名別に管理する。イベント情報は短くても開催数日前にイベント情報蓄積部201に登録されると考えられるので、イベント注目度算出部102の処理を1日1回実行したとしても、イベント開催前にイベントの注目度算出することが可能である。
また、イベントが終了するとイベントに関する新しい情報は収集できなくなる(イベントに参加した人々の感想や体験談もイベント終了後数日でなくなる傾向にある)ので、管理するイベントから削除する。
図5に、イベント注目度算出部102で蓄積される情報の例を示す。同図(a)は、イベント別集計結果テーブル500の構成例であり、イベント情報蓄積部201から新しいイベント情報を取得し、イベント毎にイベントを識別するための一意な番号であるイベントID501を付与し、イベント情報を管理している。
イベント名502は、イベントの名称、開始日503はイベントの開始日、終了日504はイベントの終了日であり、時刻505は1日の中でイベントが開催されている開始時刻と終了時刻が記録される。
過去注目度506は、過去に同様のイベントが開催されていた際の注目度であり、新しいイベントをイベント別集計結果テーブル500に追加する際に終了イベント蓄積部105を検索して記録される。
次回語句抽出日時507は、イベントに関連する語句を抽出する間隔を制御するための時刻情報であり、語句抽出部104において語句抽出処理が行なわれる際に次回語句抽出日時が更新される。
集計終了日時508は、イベントが終了した後の日時に設定され、集計終了日時508を過ぎたイベントはイベント別集計結果テーブル500から削除される。
集計値509は、イベントの注目度を算出する際に使用するデータであり、一定期間毎のデータを特定の期間分蓄積することができる。また、集計データ509の値と、過去注目度506の値から同図(b)に示すようなイベント注目度のランキングを生成する。イベント注目度は、あまり短い間隔で算出しても変化がなく、一方、あまり長い間隔で算出すると、注目され始めてから時間が経過してしまうという問題がある。また、新しいイベントが追加されたら、追加されたイベントの注目度を算出する必要がある。そこで、イベント別集計結果テーブルに500に新しいイベントを追加した後で、イベント注目度のランキング生成処理を実行するように構成する。例えば、イベントの追加処理が1日に1回であれば、ランキング生成処理も1日に1回実行する。
イベント情報抽出部101は、イベント注目度算出部102における処理とは独立に実行される。検索語蓄積部201には次々と新しい検索語が蓄積され、文書情報蓄積部202にも同様に次々と収集された新しい文書情報が蓄積されている。イベント情報抽出部101は、検索語蓄積部201と文書情報蓄積部202に蓄積されている情報を定期的に取得し、イベントに関連する情報だけを抽出する。個々での抽出間隔が、利用者に情報を提供する最小の間隔になる。まず、イベント注目度算出部102からイベント名を取得し、検索語蓄積部203から取得した検索語からイベント名に一致する検索語を集計する。また、文書情報蓄積部202から取得した文書情報から、イベント名を含む文書情報をイベント名毎に集計する。そして、検索語から集計した集計値と文書情報から集計した集計値とを加算し、イベント注目度算出部102のイベント別集計結果テーブル500の集計値509欄に記録する。また、イベントに関連した文書情報をイベント毎に整理してイベント別文書情報蓄積部103に記録する。
語句抽出部104は、イベント情報抽出部101の処理終了後、イベント注目度算出部102から注目度の高いイベント名を取得し、注目度の高いイベントが開催前であればイベント情報蓄積部201から概要文を取得し、話題となる語句を抽出して語句蓄積部204に出力する。注目度の高いイベントの開催後は、イベント別文書情報蓄積部103から文書情報を取得し、話題を表す語句を抽出し、語句蓄積部204に出力する。終了したイベントは、数日すると注目度の高いイベントして取得されなくなり、語句の抽出も終了する。
イベント開催前において、イベントに関心のある人々が記載した文書情報があったとしても、イベントの概要文より多くの情報が含まれていることはないため、イベント情報蓄積部201の概要文406から語句の抽出を行なう。また、イベント情報蓄積部201におけるイベント情報は頻繁に更新されることはないため(一旦登録された後は、変更があった場合のみ更新される)、イベント開催前の語句抽出処理は頻繁に行なう必要がない。例えば、1日1回程度で充分だと考えられる。より効率的には、イベント情報蓄積部201において登録及び更新されたイベント情報を識別するための識別情報をイベント毎に付与し、識別情報をチェックすることにより登録及び更新時にのみ語句抽出処理を実行するよう構成してもよい。この場合、語句抽出処理が終了した時点で、前述の識別情報をリセットする必要がある。
イベント開催期間中は、イベントに関心のある人々が、次々と新しい文書情報を公開するので、語句抽出処理の間隔を短くし、最新の情報を次々と利用者に提供可能とする。イベント終了後は、新しい情報が少なくなり、イベント終了後にイベントに関する話題を提供しても利用者が次回の参考にするしかない。そのため、イベント終了後の語句抽出処理はイベント開催期間中に比べ長く設定する。このように、イベント開催中は語句抽出処理を頻繁に実行し、常に最新の話題を提供することが可能であり、イベント開催前と終了後の語句抽出処理は間隔を開けて実行することにより、語句抽出処理の負荷を軽減させることが可能となる。
図6に語句蓄積部204に出力される語句の蓄積例を示す。抽出された語句1004は、イベント名1001、イベントの開始日1002、終了日1003に対応付けられて蓄積される。定期的にイベント情報抽出部101と語句抽出部104の処理を実行することにより、注目度の高いイベントと、そのイベントの話題を表す語句が、次々と出力される。語句蓄積部204には、イベントの開始日1002、終了日1003が記録されているので、今開催中の注目イベントでは何が話題になっているか、あるいは、これからどんな注目イベントが開催されるのか、といった情報提供が可能となる。
図7に、イベント情報抽出装置100の各処理のタイミングを、イベント名「イベントA」を例として図示している。まず、「イベントA」がイベント情報蓄積部201(図4,401)に登録される。登録後イベント注目度算出部102が起動されると、図5のイベント別集計結果テーブル500に「イベントA」を追加し、イベントID「0000101を付与して管理する。図4における「イベントA」の開始日402、終了日403、時刻404を、図5の開始日503、終了日504、時刻505にコピーする。
続いて「イベントA」に対して終了イベント蓄積部105を検索し、過去に同様のイベントが開催され、どの程度の注目度であったかを調べる。終了イベント蓄積部105は、図8に示すように、イベント名1101、開始日1102、終了日1103、過去注目度1104から構成される。イベント名「イベントA」で終了イベント蓄積部105のイベント名を検索する。この際、「イベントA」に年号などが含まれる場合には、年号を除いた文字列で検索を行ない、終了イベント蓄積部105のイベント名1101の欄から文字列を含むイベント名を取得する。検索の結果、複数のイベント名が取得できた場合は、終了日の新しいイベントを選択し、対応する過去注目度1104を取得する。図5のイベント別集計結果テーブル500の例は、「イベントA」の検索結果として、イベントが取得できなかった例であり、過去注目度は空欄とする。また、「イベントC」については過去イベント蓄積部105を検索した結果「イベントX」が取得された例であり、過去注目度「30」を取得し、イベント別集計結果テーブル500の過去注目度506に「30」を記録している。
新しくイベントを追加した際の次回語句抽出日時507の欄は、空のままにしておく。
集計終了日時508は、イベント終了日時の5日後「2004年9月5日 17:00:00」に設定する。集計終了日時を過ぎたイベントは、イベント別集計結果テーブル500から削除される。集計終了日時508は、イベント終了日時に何日かを加算して設定するが、加算する日数は予めイベントに関連する文書数や検索語数の推移を調査することにより決定しておく。加算する日数は、イベントによらず、全て同じ日数に設定してもよいし、イベントのタイプによって人々の関心が消えるスピードが異なる場合を考慮し、イベントのタイプ別に日数を設定してもよい。例えば、花火大会など1日しか行なわれないイベントの場合は、2日程度で人々の関心がなくなる傾向がある。タイプ別に日数を設定する場合は、タイプを決定するためのルール(例えば、イベント名に「花火」を含む)を定め、ルールにマッチするイベントに対して、タイプ毎に決定した日数を設定する。
続いて、イベント注目度算出部102において、イベント注目度のランキングを生成し、イベント注目度テーブル510に記録する。
図9は、本発明の一実施の形態におけるイベント注目度算出部のランキング生成処理の流れを示す図である。
まず、イベント別集計結果テーブル500から全てのイベントID集合を取得し(ステップ101)、イベントID集合からイベントを1つ取り出し(ステップ103)、イベントが開催前かどうか調べる(ステップ104)。開催前であれば(ステップ104、Yes),過去注目度506と現在までの集計値を元にイベント注目度を以下の式により算出する(ステップ105)。
Figure 2006079412
イベントが開催されている場合(ステップ104、No)、集計終了日時508を過ぎているか調べ(ステップ106)、集計終了日時508を過ぎていない場合は(ステップ106、No)、集計値509の現在までの値を全て加算し、イベント開催日から現在日までの日数で除算した値をイベント注目度として算出する(ステップ107)。また、集計終了日時を過ぎている場合は(ステップ106、Yes)、集計終了日時までの集計値を全て加算した値を算出し、終了イベント蓄積部105の過去注目度1104の欄に記録する(ステップ108)。続いて、イベント別集計結果テーブル500からイベントを削除する(ステップ109)。
ステップ101で取得したイベントID集合の全てに対してステップ103〜ステップ109までの条件に一致する処理を実行し、全てのイベントIDに対して処理が終了したら(ステップ102、Yes)、イベントID毎に算出したイベント注目度を注目度の高い順にランクを付け、イベント注目度テーブル510に出力する。この例では、現在のイベント注目度は、1日あたり平均注目数であり、過去注目度は、イベント開催前から終了後までの人々の関心があった期間全体にわたっての注目数である。常に関心が高いイベントについては、1日あたりの平均注目数(=イベント注目度)が略一定になり、イベントが開始された直後にのみ関心が高かったイベントについては、イベント開催期間が長くなるにつれ、1日あたりの平均注目数(=イベント注目度)が低くなる。
イベント情報抽出部101は、常に一定間隔でイベント注目度算出部102からイベント名を取得し、イベントに関連する情報を抽出する。そのため、「イベントA」がイベント注目度算出部102のイベント別集計テーブル500に追加後、イベント情報抽出部101の処理が起動されると、「イベントA」に関連した文書情報が抽出され始める。イベント情報抽出部101は、イベント別集計テーブル500から「イベントA」が削除されるまでの期間、定期的に(例えば1時間間隔)で処理を実行する。イベント情報抽出部101の処理により、イベント別集計テーブル500の集計値509に文書情報と検索語の集計値が1時間おきに記録されていく。また、イベント別文書情報蓄積部103にイベント別に整理された文書情報が蓄積されていく。
イベント情報抽出部101の処理の流れについて図10を用いて説明する。
図10は、本発明の一実施の形態におけるイベント情報抽出部の処理の流れを示す図である。
イベント情報抽出部101は、まず、イベント注目度算出部102から、イベントIDとイベント名を取得する(ステップ201)。次に、検索語蓄積部201から時刻範囲を指定して検索語を取得し(ステップ202)、イベント名と一致する検索語を、イベント名毎に集計する(ステップ203)。ここで指定する時刻範囲は、1時間おきに処理が実行される場合であれば、現在時刻よりも前の1時間とし、次回指定する時刻範囲は、今回指定した時刻範囲に連続した1時間とする。
検索語は、同一利用者が複数回入力することが考えられる。そのため、検索語を入力した利用者を特定する情報(例えば、WebブラウザのCookie情報)により、同一利用者が短い時間間隔で複数回同じキーワードを入力した場合は1回とカウントすることにより、検索語毎の入力人数を集計する。
次に、文書情報蓄積部202からも時刻範囲を指摘して文書情報を取得し(ステップ204)、イベント名を含む文書情報をイベントに関連する文書情報として選び出し、イベント名毎に文書数を集計する。ここで指定する時刻範囲は、ステップ202で指定した時刻範囲と同じ時刻範囲である。イベントに関連した文書情報はイベント毎に整理してイベント別文書情報蓄積部103に記録する(ステップ205)。
イベントに関連する検索語や文書情報を選択する際に、イベント名を使用したが、イベント名に年号や地名(例えば、○○○in Tokyo)が含まれる場合などは、年号や地名を除いた文字列を用いて、関連する検索語や文書情報を選択する。
また、イベント別文書情報蓄積部103の蓄積方法としては、イベントID毎に文書情報を格納する領域を設定し、その領域内に時刻情報との対応が取れるように文書情報に時刻を含むファイル名を付けるなどして蓄積する。
そして、イベントID毎に検索語の集計値と文書情報から集計した文書数集計値とを加算し、イベント注目度算出部102のイベント別集計結果テーブル500の集計値509に記録する(ステップ206)。検索語の集計値は、イベント名で検索要求をした利用者の数であり、イベントに関心をもった人の数と言える。また、文書数の集計値についてもイベントに対する感想や意見を文書にしている点からイベントに関心を持った人の数を表している。つまり、集計データ509には、イベントに関心をもった人の数が期間毎に蓄積されることになる。
語句抽出部104も、イベント情報抽出部101と同様、常に一定間隔(例えば1時間間隔)で処理を実行している。イベント注目度算出部102のイベント注目度テーブル510から注目度の高いイベントIDをN件取得し、イベントの話題を表す語句(話題語)を抽出する。そのため、「イベントA」がイベント注目度テーブル510において注目度の高いイベントN件にリストアップされてから、語句抽出部104の処理が起動されると、「イベントA」に関する話題語が抽出され始める。「イベントA」が注目度の高いイベントN件に選ばれない場合や、集計終了日時が過ぎて、イベント別集計結果テーブル500からイベントが削除された場合は、「イベントA」についての話題語は抽出されない。
語句抽出部104は、実行のたびに注目度の高いN件のイベントに関して話題語を抽出し、語句蓄積部204に出力していく。
語句抽出部104の流れについて図11を用いて説明する。
図11は、本発明の一実施の形態における語句抽出部の流れを示す図である。
語句抽出部104は、イベント情報抽出部101の処理終了後起動される。即ち、イベント情報抽出部101の処理が1時間おきであれば、語句抽出部104の処理も1時間おきに実行される。
まず、イベント注目度算出部102のイベント注目度テーブル510から注目度の高いイベントID511を上位N件取得する(ステップ301)。次に、イベントIDを1つ取り出し、イベント別集計結果テーブル500から注目度の高いイベントIDに該当するイベント名502、開始日503、終了日504、時刻505、次回語句抽出日時507、集計終了日時508を取得する(ステップ303)。次回語句抽出日時が空(登録されたイベントで今回初めて処理される)または、現在日時が既に次回語句抽出日時を過ぎているか調べ(ステップ304)、条件に一致する場合は、次にイベント開催前かどうかを調べる(ステップ305)。イベント開催前であれば、現在の時刻に時間T1を加算して次回語句抽出日時を設定し(ステップ306)、イベント情報蓄積部201から概要文を取得し(ステップ307)、語句を抽出して、イベント名、開始日、終了日、と共に語句蓄積部204に出力する(ステップ308)。ここで加算する時間T1は、イベント開催前であるから、ある程度長い時間で十分であり、例えば1日(24時間)とする。また、イベント開催前であるから、イベントに関心のある人々が記載した文書情報があったとしても、イベントの概要以上の詳細な内容が含まれていることはなく、そのためイベント情報蓄積部201の概要文406からの語句の抽出を行なう。
次に、イベント開催前ではない場合(ステップ305、No)、イベントが開催期間中かどうか調べ(ステップ309)、開催期間中の場合は(ステップ309、Yes)、語句抽出処理の開始時刻に時間T2を加算して次回語句抽出日時を設定する(ステップ310)。イベント開催期間中は、イベントに関心のある人々が記載した文書情報を次々と収集できるので、イベント別文書情報蓄積部103からイベントに関する文書情報集合を取得し(ステップ311)、文書情報集合から語句を抽出してイベント名、開始日、終了日と共に語句蓄積部294に出力する(ステップ312)。ステップ310で加算する時間T2は、イベント開催期間中であるため、短い時間を設定する。ここでは、イベント情報抽出部101の処理間隔に併せて、例えば1時間とする。イベント情報抽出部101の処理間隔より短い時間で実行しても、新しい文書情報がイベント別文書情報蓄積部103に蓄積されていないので、新しい話題語を抽出することができない。即ち、語句の抽出をもっと短い時間で実行したければ、イベント情報抽出部101の処理間隔をもっと短くする必要ある。
次に、イベント開催期間中でない場合(ステップ309、No)は、すでにイベントが終了している場合であり、語句抽出処理の開始時刻に時間T3を加算して次回語句抽出日時を設定する(ステップ313)。この時間T3は、イベントが終了した後であるから、短い時間を設定する必要はなく、例えば、12時間とする。イベントが終了してからも、新しい文書情報が取得できる可能性があるため、イベント終了後もイベント別文書情報蓄積部103から文書情報集合を取得し(ステップ311)、語句の抽出を行なう(ステップ312)。
N件全てのイベントIDについて処理を実行し(ステップ302、Yes)、語句抽出部104の処理を終了する。
以上の実施の形態においては、イベントの注目度の違いによらず、語句の抽出を行なっているが、注目度の高いイベントほど語句の抽出間隔を短くし、より短い間隔で最新情報を提供できるように構成してもよい。
また、スポーツや格闘など、毎回開催されるたびに新しい情報が生まれるようなイベントについては、開催期間中の語句抽出間隔を短く設定することで、最新情報が提供可能となる。反対に、展示会等のイベントそのものの内容にあまり変化のないイベントについては、開催期間中であっても語句抽出間隔を1日1回程度と長く設定しても問題ない。このようにイベントのタイプに応じて語句抽出間隔を変化させるように構成してもよい。
さらに、開催期間中であっても、実際にイベントが行なわれている時刻情報に基づき、イベントが行なわれている時刻を含む特定期間だけ、語句抽出間隔を短く設定するように構成してもよい。
次に、ステップ308における語句抽出方法についてより詳細に説明する。
ステップ308において、語句抽出部104には、ステップ307で取得した、イベント情報蓄積部201から概要文が入力される。まず、概要文に対して形態素解析処理を行い、個々の品詞や句読点などの形態素に分解する。分解した形態素から、名詞、複数の名詞が連続する複合名詞、「小泉政権の支持率」のように連続した語全体で名詞と同じ働きをする名詞句を抽出する。名詞、複合名詞、名詞句などは、話題を表す言葉として動詞や形容詞などに比べ適しているためでる。以下の説明では、名詞、複合名詞、名詞句を総称して語句と呼ぶ。概要文は文の先頭に伝えたい重要な情報が記載される性質を持っているため、抽出した語句に対して先頭に出現するほど高い評価値Aを与える。また、文字数が多いほど正確な情報を伝えることができるため、文字数が多いほど高い評価値Bを与える。評価値AとBから最も評価値の高い語句を抽出する。
図6は、「2004/07/20 21:00」に処理を開始した語句抽出部104が出力したデータ例である。同図のイベント名「イベントC」が、イベント開催前であり、「イベントC」に対応付けられて蓄積されている「大空中ナイアガラ」、「花火業者絶賛」が、ステップ308で抽出された語句の例である。
次に、上記のステップ312における語句の抽出方法についても、より詳細に説明する。ステップ312において、語句抽出部104にはステップ311でイベント別情報蓄積部103から取得した文書情報集合が入力される。文書情報集合のそれぞれの文書内容に対して、形態素解析処理を行い、名詞、複合名詞、名詞句(=語句)を抽出する。全ての文書情報から語句を抽出した後、語句毎に出現する文書数を集計する。ここで、タイトルに含まれる語句は、集計の対象から外す。残った語句の中から、より多くの文書情報に出現していた語句M件を、話題を表す語句として抽出する。図6においては、イベント名「イベントA」が、イベント開催期間中であり、「イベントA」に対応付けられて蓄積されている語句「羽毛恐竜」、「先着1000名」などステップ312で抽出された語句の例である。
なお、上記の実施の形態におけるイベント情報抽出装置100のイベント情報抽出部101、イベント注目度算出部102、語句抽出部104の動作をプログラムとして構築し、イベント情報抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ネットワーク上で、季節のイベントやスポーツイベントなど、特定の日時に開始されるイベントに関する話題を抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における情報提供装置の構成図である。 本発明の一実施の形態におけるイベント情報蓄積部の例を示す図である。 本発明の一実施の形態におけるイベント注目度算出部のデータ例を示す図である。 本発明の一実施の形態における語句蓄積部の蓄積例を示す図である。 本発明の一実施の形態における処理タイミングを示す図である。 本発明の一実施の形態における終了イベント蓄積部の例を示す図である。 本発明の一実施の形態におけるイベント注目度算出部のランキング生成処理の流れを示す図である。 本発明の一実施の形態におけるイベント情報抽出部の処理の流れを示す図である。 本発明の一実施の形態における語句抽出部の処理の流れを示す図である。
符号の説明
100 イベント情報抽出供装置
101 イベント別文書抽出手段、イベント情報抽出部
102 イベント注目度算出手段、イベント注目度算出部
103 イベント別文書情報蓄積手段、イベント別文書情報蓄積部
104 語句抽出手段、語句抽出部
105 終了イベント蓄積部
201 イベント情報蓄積手段、イベント情報蓄積部
202 文書情報蓄積手段、文書情報蓄積部
203 検索語蓄積部
204 語句蓄積手段、語句蓄積部
401 イベント名
402 開始日
403 終了日
404 時刻
405 場所
406 概要
500 イベント別集計結果テーブル
501 イベントID
502 イベント名
503 開始日
504 終了日
505 時刻
506 過去注目度
507 次回語句抽出日時
508 集計終了日時
509 集計値
510 イベント注目度テーブル
511 ランク
512 イベントID
513 注目度
1001 イベント名
1002 開始日
1003 終了日
1004 語句
1101 イベント名
1102 開始日
1103 終了日
1104 過去注目度

Claims (9)

  1. 季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出方法において、
    イベントの開催日時や概要が記載されたイベント情報集合を蓄積するイベント情報蓄積手段からイベント名と開催期間を取得し、時刻情報を持つ文書の集合を蓄積する文書情報蓄積手段からイベントに関連する文書を抽出し、イベント別にイベント別文書情報蓄積手段に格納するイベント別文書抽出ステップと、
    抽出した前記文書から指定した集計期間内の時刻情報を持つ文書を抽出し、イベントの注目度を算出するイベント注目度算出ステップと、
    注目度の高いイベントを選択し、前記イベント情報蓄積手段から取得したイベントの開催期間と現在日時の関係に応じて、異なる情報から異なる間隔で語句を抽出し、記憶手段に出力する語句抽出ステップと、
    を行なうことを特徴とするイベント情報抽出方法。
  2. 前記イベント注目度算出ステップにおいて、
    指定した集計期間内に検索要求された検索語から、イベントに関連する検索語の利用人数を集計し、イベントの注目度を算出する請求項1記載のイベント情報抽出方法。
  3. 前記イベント注目度算出ステップにおいて、
    開催前のイベントについては、過去のイベントの注目度を検索し、検索した過去のイベント注目度を用いてこれから開催されるイベントの注目度を算出する請求項1または、2記載のイベント情報抽出方法。
  4. 前記語句抽出ステップにおいて、
    イベントが既に開催されている場合は、イベント別に前記イベント別文書情報蓄積手段の文書集合から語句を抽出し、これから開催されるイベントの場合は、前記イベント情報蓄積手段のイベント情報集合から語句を抽出する請求項1または、2記載の情報提供方法。
  5. 季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出装置であって、
    イベントの開催日時や概要が記載されたイベント情報集合を蓄積するイベント情報蓄積手段からイベント名と開催期間を取得し、時刻情報を持つ文書集合を蓄積する文書情報蓄積手段からイベントに関連する文書を抽出し、イベント別にイベント別文書情報蓄積手段に格納するイベント別文書抽出手段と、
    抽出した前記文書から指定した集計期間内の時刻情報を持つ文書を抽出し、イベントの注目度を算出するイベント注目度算出手段と、
    注目度の高いイベントを選択し、前記イベント情報蓄積手段から取得したイベントの開催期間と現在日時の関係に応じて、異なる情報から異なる間隔で語句を抽出し、語句蓄積手段に出力する語句抽出手段段と、
    を有することを特徴とするイベント情報抽出装置。
  6. 前記イベント注目度算出手段は、
    指定した集計期間内に検索要求された検索語から、イベントに関連する検索語の利用人数を集計し、イベントの注目度を算出する手段を含む請求項5記載のイベント情報抽出装置。
  7. 前記イベント注目度算出手段は、
    開催前のイベントについては、過去のイベントの注目度を検索し、検索した過去のイベント注目度を用いてこれから開催されるイベントの注目度を算出する手段を含む請求項5または、6記載のイベント情報抽出装置。
  8. 前記語句抽出手段は、
    イベントが既に開催されている場合は、イベント別に前記イベント別文書情報蓄積手段の文書集合から語句を抽出し、これから開催されるイベントの場合は、前記イベント情報蓄積手段のイベント情報集合から語句を抽出する手段を含む請求項5または、6記載の情報提供装置。
  9. 季節やイベントやスポーツイベントなどの、特定の日時に開始されるイベントに関する話題を抽出するイベント情報抽出プログラムであって、
    前記請求項1乃至4記載のイベント情報抽出方法を実現するための処理をコンピュータに実行させることを特徴とするイベント情報抽出プログラム。
JP2004263725A 2004-09-10 2004-09-10 イベント情報抽出装置及びプログラム Expired - Fee Related JP4496900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004263725A JP4496900B2 (ja) 2004-09-10 2004-09-10 イベント情報抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004263725A JP4496900B2 (ja) 2004-09-10 2004-09-10 イベント情報抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006079412A true JP2006079412A (ja) 2006-03-23
JP4496900B2 JP4496900B2 (ja) 2010-07-07

Family

ID=36158805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004263725A Expired - Fee Related JP4496900B2 (ja) 2004-09-10 2004-09-10 イベント情報抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4496900B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117367A (ja) * 2006-10-12 2008-05-22 Yafoo Japan Corp イベントに連動して検索を行う方法、サーバ、及びプログラム
JP2013105502A (ja) * 2012-11-16 2013-05-30 Toshiba Corp 画像処理装置、及び画像処理装置の制御方法
JP2013105326A (ja) * 2011-11-14 2013-05-30 Toshiba Corp 画像処理装置、及び画像処理装置の制御方法
JP2013242618A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> イベント抽出装置及び方法及びプログラム
JP2013242620A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 近隣情報検索装置及び方法及びプログラム
JP2014010513A (ja) * 2012-06-28 2014-01-20 Kddi Corp イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法
JP2014049052A (ja) * 2012-09-04 2014-03-17 Kddi Corp イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法
JP2014510323A (ja) * 2011-01-06 2014-04-24 イーベイ インク. コンピューティングアドバイスファシリティにおける地理的に局在化した推薦
US8972314B2 (en) 2007-11-02 2015-03-03 Ebay Inc. Interestingness recommendations in a computing advice facility
US9037531B2 (en) 2007-11-02 2015-05-19 Ebay Inferring user preferences from an internet based social interactive construct
US11263543B2 (en) 2007-11-02 2022-03-01 Ebay Inc. Node bootstrapping in a social graph

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10154150A (ja) * 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法及びその装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2003271611A (ja) * 2002-03-14 2003-09-26 Fujitsu Ltd 重要度評価プログラム
JP2004185572A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10154150A (ja) * 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法及びその装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2003271611A (ja) * 2002-03-14 2003-09-26 Fujitsu Ltd 重要度評価プログラム
JP2004185572A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> 口コミ情報解析方法及び装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117367A (ja) * 2006-10-12 2008-05-22 Yafoo Japan Corp イベントに連動して検索を行う方法、サーバ、及びプログラム
US9245230B2 (en) 2007-11-02 2016-01-26 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US9349099B2 (en) 2007-11-02 2016-05-24 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US9159034B2 (en) 2007-11-02 2015-10-13 Ebay Inc. Geographically localized recommendations in a computing advice facility
US9245231B2 (en) 2007-11-02 2016-01-26 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US9037531B2 (en) 2007-11-02 2015-05-19 Ebay Inferring user preferences from an internet based social interactive construct
US9754308B2 (en) 2007-11-02 2017-09-05 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US8972314B2 (en) 2007-11-02 2015-03-03 Ebay Inc. Interestingness recommendations in a computing advice facility
US11263543B2 (en) 2007-11-02 2022-03-01 Ebay Inc. Node bootstrapping in a social graph
US9443199B2 (en) 2007-11-02 2016-09-13 Ebay Inc. Interestingness recommendations in a computing advice facility
US9355361B2 (en) 2007-11-02 2016-05-31 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US9251471B2 (en) 2007-11-02 2016-02-02 Ebay Inc. Inferring user preferences from an internet based social interactive construct
JP2014510323A (ja) * 2011-01-06 2014-04-24 イーベイ インク. コンピューティングアドバイスファシリティにおける地理的に局在化した推薦
JP2013105326A (ja) * 2011-11-14 2013-05-30 Toshiba Corp 画像処理装置、及び画像処理装置の制御方法
JP2013242618A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> イベント抽出装置及び方法及びプログラム
JP2013242620A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 近隣情報検索装置及び方法及びプログラム
JP2014010513A (ja) * 2012-06-28 2014-01-20 Kddi Corp イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法
JP2014049052A (ja) * 2012-09-04 2014-03-17 Kddi Corp イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法
JP2013105502A (ja) * 2012-11-16 2013-05-30 Toshiba Corp 画像処理装置、及び画像処理装置の制御方法

Also Published As

Publication number Publication date
JP4496900B2 (ja) 2010-07-07

Similar Documents

Publication Publication Date Title
US9390144B2 (en) Objective and subjective ranking of comments
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
JP4322887B2 (ja) スレッド順位付け装置及び方法
JP5092252B2 (ja) トレンド解析サーバおよびトレンド解析方法
US20070174343A1 (en) Method and system for automatic summarization and digest of celebrity news
US20100125531A1 (en) System and method for the automated filtering of reviews for marketability
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
US8880390B2 (en) Linking newsworthy events to published content
JP2008181186A (ja) クエリーログを利用したキーワードとサイトの関連度を求める方法
US20130066894A1 (en) Information processing system, information processing method, program, and non-transitory information storage medium
JP4496900B2 (ja) イベント情報抽出装置及びプログラム
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5302373B2 (ja) スケジュール管理装置、スケジュール管理方法、およびプログラム
JP2013058076A (ja) 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP2008186431A (ja) 情報検索システム、情報検索装置、情報検索結果出力方法およびプログラム
US20100287136A1 (en) Method and system for the recognition and tracking of entities as they become famous
JP2005182298A (ja) フィルタリングシステム
JP2006059024A (ja) 語句抽出方法及び装置及びプログラム
JP7098122B1 (ja) 記事監視システム、注目情報が記述された記事の監視方法、コンピュータプログラム
JP5346419B2 (ja) ユーザ行動特性情報生成装置、ユーザ行動特性情報生成方法およびプログラム
JP5083627B2 (ja) 少数意見抽出装置
JP2009163399A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2009288964A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees