JP4797069B2

JP4797069B2 - キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法

Info

Publication number: JP4797069B2
Application number: JP2008553929A
Authority: JP
Inventors: 寛治内野; 哲朗 ▲高▼橋; 軍張; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-01-18
Filing date: 2007-01-18
Publication date: 2011-10-19
Anticipated expiration: 2027-01-18
Also published as: WO2008087728A1; CN101583951A; US8316026B2; US20090276424A1; CN101583951B; JPWO2008087728A1

Description

本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法に関するものである。

近年、インターネットが広く普及し、利用者はインターネットに接続されたユーザ端末を利用して、様々な情報をネット上から取得している。例えば、利用者が所定のキーワードに関連する情報をネット上から取得する場合には、検索エンジンを利用することによって取得することができる。

また、利用者は、特定のキーワードを知らなくても、サービス提供者が管理するポータルサイトやブロクなどにアクセスすることによって、サービス提供者が選出したニュース、話題、お勧め情報などの各種情報を取得することもできる。

この他にも情報収集を行う利用者に対応して、ネット上では様々なサービス提供が行われている。例えば、非特許文献１では、利用者に話題のキーワードを提供し、かかるキーワードの検索を促すというサービスが開示されている。このサービスは、所定期間内に検索されたキーワードのランキングを行い、利用者にランキング結果を通知することで、利用者に話題のキーワードを提供することを可能としている。

なお、特許文献１では、利用者の情報検索をより快適なものにするため、検索されたキーワードとキーワードに関連する情報との関連性の度合いによって、キーワードに関連する情報の配置を設定するという技術が公開されている。

ニフティ株式会社 "瞬ワード"、[online]、[平成１８年１２月２５日検索]、インターネット＜http://www.nifty.com/shun/＞特開２００６−３１５７７号公報

しかしながら、上述した従来の技術では、話題となっているトピックを利用者に提供することはできても、どうして提供したトピックが話題となっているのかが不明のままになってしまうという問題があった。

この場合、利用者は、提供されたトピックがどうして話題になっているのかがわからないため、話題の理由がわからないまま検索を行う必要がある。そして、検索した結果、トピックに関連する様々な情報（話題に関係のない情報を含む）にヒットしてしまい、利用者はトピックを利用した検索を快適に行うことができなかった。

すなわち、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することが極めて重要な課題となっている。

本発明は、上記に鑑みてなされたものであって、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理プログラムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手順と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手順と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手順と、をコンピュータに実行させることを特徴とする。

また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手順を更にコンピュータに実行させ、前記バースト値算出手順は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。

また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手順を更にコンピュータに実行させ、前記出力制御手順は、前記分類手順の分類結果を更に前記利用者の端末に出力することを特徴とする。

また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。

また、本発明は、上記発明において、前記出力制御手順は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。

また、本発明は、上記発明において、前記出力制御手順は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。

また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手段と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手段と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手段と、を備えたことを特徴とする。

また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手段を更に備え、前記バースト値算出手段は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。

また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手段を更に備え、前記出力制御手段は、前記分類手段の分類結果を更に前記利用者の端末に出力することを特徴とする。

また、本発明は、上記発明において、前記出力制御手段は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。

また、本発明は、上記発明において、前記出力制御手段は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。

また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理方法であって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出工程と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出工程と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御工程と、を含んだことを特徴とする。

また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行工程を更に含み、前記バースト値算出工程は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。

また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類工程を更に含み、前記出力制御工程は、前記分類工程の分類結果を更に前記利用者の端末に出力することを特徴とする。

また、本発明は、上記発明において、前記出力制御工程は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。

また、本発明は、上記発明において、前記出力制御工程は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。

本発明によれば、キーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値に対応するキーワードのコンテンツ上の特徴を基にしてバースト値を補正した総合バースト値を算出し、この総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連する関連キーワードをコンテンツから抽出し、キーワードと関連キーワードとを対応付けて前記利用者の端末に出力するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。

また、本発明によれば、バースト値が閾値以上となるキーワードに基づいてコンテンツに含まれるテキストの形態素解析を実行し、形態素解析結果から得られるキーワードに対して更にバースト値を算出するので話題となっているキーワードをより正確に抽出することができる。

また、本発明によれば、総合バースト値の時系列推移に基づいて総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類するので、利用者はどのような経緯によって話題のキーワードになったかを容易に理解することができる。

また、本発明によれば、タイトルに含まれている前記キーワードの数、リンクが張られているキーワードの数、修飾されているキーワードの数を含んだキーワードのコンテンツ上の特徴を基にして総合バースト値を補正するので、話題のキーワードをより的確に抽出することができる。

また、本発明によれば、総合バースト値の時系列推移と相関するキーワードを関連キーワードとして抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。

また、本発明によれば、コンテンツのテキスト中で総合バースト値が閾値以上となるキーワードと共に表れるキーワードを関連キーワードとして更に抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができ、キーワードを用いた情報検索をより快適に実行することができる。

以下に、本発明にかかるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

まず、本実施例にかかるキーワード管理システムの特徴を従来技術と比較して説明する。図１は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。図１の左側に示すように、従来技術では、コンテンツにアクセスする場合に利用されるキーワードの利用頻度を基にして話題となっているキーワードを選択し、選択したキーワードを利用頻度の高いものから順にならべ、トピックとして利用者の端末（以下、ユーザ端末）に通知していた（図１の左側参照）。

しかし、従来技術は、単に、話題となっているキーワードを利用頻度に応じて並べているだけなので、利用者は何故各キーワードがトピックになっているかが理解できず、快適に各キーワードを利用した情報検索を行うことができなかった。

一方、本実施例にかかるキーワード管理システムは、利用者がコンテンツにアクセスする場合に利用するキーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値をこのバースト値に対応するキーワードのコンテンツ上の特徴に基づいて補正した総合バースト値を算出する。そして、総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連するキーワード（以下、関連キーワード）をコンテンツから抽出し、キーワードと関連キーワードとを対応付けた情報をトピックとしてユーザ端末に通知することを特徴としている（図１の右側参照）。

このように、本実施例にかかるキーワード管理システムは、話題となっているキーワードと密接に関連する他のキーワードをセットにしたキーワード群をトピックとして利用者に通知しているので、利用者は何故各トピックが話題となっているかを理解することができ、トピックを利用した情報検索を快適に実行することができる。

次に、本実施例にかかるキーワード管理システムの構成について説明する。図２は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。同図に示すように、このキーワード管理システムは、ユーザ端末２０と、各種コンテンツ記憶装置３０と、サーバ４０と、ネット話題集積装置１００とをネットワーク１０で接続して構成される。

ユーザ端末２０は、サーバ４０によって運営されるポータルサイト（検索エンジンを含む）を利用して、各種情報を取得する装置である。なお、ユーザ端末２０が、各種情報を取得する場合には、利用者から入力装置（図示略）を介してキーワードを受け付け、受け付けたキーワードをサーバ４０に出力する。

各種コンテンツ記憶装置３０は、ネットワーク上で送受信される各種コンテンツ（ニュース、ブログ、ＢＢＳ（Bulletin Board System）、株価、天気、占いなどのテキストコンテンツ）を記憶する記憶装置である。なお、各種コンテンツは、そのコンテンツが作成された日時の情報を含んでいるものとする。

サーバ４０は、ポータルサイトを運営すると共に、ユーザ端末２０からキーワードを取得した場合に、取得したキーワードに関連する情報を各種コンテンツ記憶装置３０から検索し、検索した情報をユーザ端末２０に出力する装置である。また、サーバ４０は、ユーザ端末２０から取得したキーワードの履歴を検索ログ情報として記憶装置（図示略）に記憶する。この検索ログ情報は、検索されたキーワード、検索された日時、検索数（同一利用者による重複検索は一回と見なす）、キーワードによって各種情報がヒットした件数の情報を対応付けて記憶しているものとする。

ネット話題集積装置１００は、話題となっているキーワードと関連キーワードとを対応付けてユーザ端末２０に出力する装置である。ここで、ネット話題集積装置１００の構成について説明する。図３は、本実施例にかかるネット話題集積装置１００の構成を示す機能ブロック図である。同図に示すように、このネット話題集積装置１００は、入力部１１０と、出力部１２０と、通信制御ＩＦ部１３０と、入出力制御ＩＦ部１４０と、記憶部１５０と、制御部１６０とを備えて構成される。

このうち、入力部１１０は、各種の情報を入力する入力手段であり、キーボードやマウス、マイクなどによって構成される。なお、後述するモニタ（出力部１２０）も、マウスと協働してポインティングデバイス機能を実現する。

出力部１２０は、各種の情報を出力する出力手段であり、モニタ（若しくはディスプレイ、タッチパネル）やスピーカなどによって構成される。通信制御ＩＦ部１３０は、主に、ユーザ端末２０、各種コンテンツ記憶装置３０、サーバ４０との間における通信を制御する手段である。入出力制御ＩＦ部１４０は、入力部１１０、出力部１２０、通信制御ＩＦ部１３０、記憶部１５０、制御部１６０によるデータの入出力を制御する手段である。

記憶部１５０は、制御部１６０による各種処理に必要なデータおよびプログラムを記憶する記憶手段（格納手段）であり、特に本発明に密接に関連するものとしては、図３に示すように、Ｗｅｂコンテンツデータベース１５０ａと、ニュース・ブログテーブル１５０ｂと、検索語テーブル１５０ｃと、ユーザ辞書テーブル１５０ｄと、形態素解析結果管理テーブル１５０ｅと、Burst算出パラメータテーブル１５０ｆと、総合Burst格納テーブル１５０ｇと、トピックタイプ管理テーブル１５０ｈと、相関キーワードテーブル１５０ｉと、共起キーワードテーブル１５０ｊと、最終結果格納テーブル１５０ｋとを備える。

Ｗｅｂコンテンツデータベース１５０ａは、ネット話題集積装置１００がサーバ４０から取得する検索ログ情報および各種コンテンツ記憶装置３０から取得する各種コンテンツの情報（ニュース、ブログ、ＢＢＳ、株価、天気、占いなどのテキストコンテンツの情報）を記憶するデータベースである。なお、各種コンテンツの情報は、ユニークな文書ソースＩＤ（Identification）と対応付けられて記憶されているものとする。

ニュース・ブログテーブル１５０ｂは、ニュースやブログ（あるいはＢＢＳ）の情報をキーワードおよびニュースおよびブログが発信（あるいは作成）された日時によって分類した（インデックス化した）テーブルである。図４は、ニュース・ブログテーブル１５０ｂのデータ構造の一例を示す図である。同図に示すように、ニュース・ブログテーブル１５０ｂは、キーワード、日時、文書ソースＩＤ、ニュース（ブログ）内容から構成される。このうち、日時は、ニュースまたはブログが発信（あるいは作成）された日時を示す。なお、ここでは、ニュース・ブログテーブル１５０ｂがニュースやブログの情報を記憶する場合を示すが、その他の情報（例えば、ＢＢＳ、そのたコンテンツ）の情報を含めて記憶してもよい。

検索語テーブル１５０ｃは、検索ログ情報に含まれるキーワードの各種情報を記憶するテーブルである。図５は、検索語テーブル１５０ｃのデータ構造の一例を示す図である。同図に示すように、この検索語テーブル１５０ｃは、キーワード、日時、検索数、ヒット件数、平均検索数、Burst値から構成される。

このうち、検索数は、利用者によって該当キーワードが検索された回数を示す。例えば、図５の１段目では、株式会社Ａというキーワードの検索回数が１１１であることが示されている。

ヒット件数は、キーワードを所定の検索エンジンによって検索した場合にヒットする件数を示す。例えば、図５の１段目では、キーワードとなる「株式会社Ａ」のヒット件数が「１２０００００」であることが示されている。

平均検索数は、過去に検索されたキーワードの検索数に基づいて算出される単位時間当たりの平均検索数を示す。例えば、図５の一段目では、キーワードとなる「株式会社Ａ」の平均検索数が「９．０」であることが示されている。

Burst値は、コンテンツに対するアクセス時に利用される（利用者によって検索エンジンなどに入力される）キーワードの単位時間当たりの増加量（時間経過によって変化する検索されるキーワードの微分値）を示す。このBurst値は、後述するBurst算出部１６０ｂによって算出される。

図３の説明に戻ると、ユーザ辞書テーブル１５０ｄは、ニュースおよびブログを形態素解析する場合に用いられる形態素の情報を記憶するテーブルである。図６は、ユーザ辞書テーブル１５０ｄのデータ構造の一例を示す図である。同図に示すように、このユーザ辞書テーブル１５０ｄは、形態素、読み、品詞、その他の情報から構成される。

形態素解析結果管理テーブル１５０ｅは、ニュースやブログから抽出した形態素となるキーワードの各種解析結果を記憶するテーブルである。図７は、形態素解析結果管理テーブル１５０ｅのデータ構造の一例を示す図である。同図に示すように、この形態素解析結果管理テーブル１５０ｅは、キーワード、日時、文書ソースＩＤ、ロケール、タイトル、エンハンス、リンク、コンテンツから構成される。

このうち、文書ソースＩＤは、該当するキーワードが含まれる文書の識別番号を示す。例えば、図７において、「株式会社Ａ」というキーワードを含む文書の識別番号（文書ソースＩＤ）は、「ＣＮ００１、ＣＮ００２、ＣＮ００３」である旨が示されている。

ロケールは、該当キーワードの文書内の位置を示す。例えば、「株式会社Ａ」というキーワードは、文書ソースＩＤ「ＣＮ００１」の文書内において、１番目、１５番目、５０番目に位置していることが示されている。

タイトルは、文書のタイトルに含まれるキーワードの数を示す。例えば、「株式会社Ａ」というキーワードは、文書ソースＩＤ「ＣＮ００１」の文書のタイトルに一つ含まれていることが示されている。

エンハンスは、該当キーワードが文書中で修飾されている数を示す（該当キーワードが文書中でＢｏｌｄなどでエンハンスされている数を示す；例えば、キーワード「株式会社Ａ」がエンハンスされると、「株式会社Ａ」となる）。リンクは、文書中でキーワードがリンクを張られている数を示す。コンテンツは、文書中に含まれるキーワードの数を示す。

Burst算出パラメータテーブル１５０ｆは、形態素解析が行われた結果、ニュースあるいはブログから抽出された各形態素のBurst値に関連する情報を記憶するテーブルである。図８は、Burst算出パラメータテーブル１５０ｆのデータ構造の一例を示す図である。同図に示すように、このBurst算出パラメータテーブル１５０ｆは、キーワード、日時、タイトル、エンハンス、リンク、コンテンツ、平均、Burst値から構成される。

このうち、タイトル、エンハンス、リンク、コンテンツは、図７において説明したタイトル、エンハンス、リンク、コンテンツにそれぞれ対応する。平均およびBurst値は、図５において説明した平均検索数およびBurst値に対応する。なお、図７の平均およびBurst値は、ニュースおよびブログ中のキーワードが対象となっている（図５の平均検索数およびBurst値は、検索ログ情報中のキーワードが対象となっている）。

総合Burst格納テーブル１５０ｇは、各キーワードに対応する総合バースト値を記憶するテーブルである。図９は、総合Burst格納テーブル１５０ｇのデータ構造の一例を示す図である。同図に示すように、この総合Burst格納テーブル１５０ｇは、キーワード、日時、ＳＢ（kwi）、ＣＢ（kwi）、α（kwi）、ＴＢ（kwi）から構成される。

このうち、ＳＢ（kwi）は、検索ログ情報に含まれるキーワードのBurst値を示す。このＳＢ（kwi）は、検索語テーブル１５０ｃに記憶された各情報に基づいて算出される。ＣＢ（kwi）は、ニュースやブログに含まれるキーワードのBurst値を示す。このＣＢ（kwi）は、Burst算出パラメータテーブル１５０ｆに記憶された各情報に基づいて算出される。

α（kwi）は、総合Burst値を算出する場合に利用される係数である。ＴＢ（kwi）は、キーワードに対応する総合Burst値を示す。この総合Burst値は、後述する総合Burst算出部１６０ｅによって算出される。総合Burst格納テーブル１５０ｇは、様々な時点におけるキーワードのＳＢ（kwi）、ＣＢ（kwi）、α（kwi）、ＴＢ（kwi）を記憶しているものとする。

トピックタイプ管理テーブル１５０ｈは、キーワードを予め準備した複数のトピックタイプに分類するテーブルである。図１０は、トピックタイプ管理テーブル１５０ｈのデータ構造の一例を示す図である。同図に示すように、このトピックタイプ管理テーブル１５０ｈは、キーワードと、日付と、トピックタイプとから構成される。

このうち、トピックタイプは、ユーザによって検索されるキーワードの時間的変化の特徴を示す。例えば、トピックタイプが「繰り返し型」の場合には、キーワードの検索数が増加減少を繰り返していることを示す。トピックタイプはこのほかにも、「じわり型」と「突発型」などが存在する。「じわり型」は、キーワードの検索数が時間経過と共になだらかに増加していることを示すものであり、「突発型」は、所定時間内にキーワードの検索数が急激に増加したことを示すものである。

相関キーワードテーブル１５０ｉは、キーワードとこのキーワードに相関するキーワード（相関キーワード）とを対応付けて記憶するテーブルである。図１１は、相関キーワードテーブル１５０ｉのデータ構造の一例を示す図である。同図に示すように、この相関キーワードテーブル１５０ｉは、キーワードと相関キーワードからなり、それぞれ対応付けがなされている。例えば、図１１の１段目では、キーワードとなる株式会社Ａと、相関キーワードとなるサービスＡおよびパソコンＢとが対応付けられている。

共起キーワードテーブル１５０ｊは、キーワードとこのキーワードと共起関係にあるキーワード（文書中でキーワードと共にあらわれるキーワード；以下、共起キーワード）とを対応付けて記憶するテーブルである。図１２は、共起キーワードテーブル１５０ｊのデータ構造の一例を示す図である。同図に示すように、この共起キーワードテーブル１５０ｊは、キーワードと共起キーワードからなり、それぞれ対応付けがなされている。例えば、図１２の１段目では、キーワードとなる株式会社Ａと、共起キーワードとなる研究所および開発とが対応付けられている。

最終結果格納テーブル１５０ｋは、ユーザ端末２０に出力する情報を格納するテーブルである。図１３は、最終結果格納テーブル１５０ｋのデータ構造の一例を示す図である。同図に示すように、この最終結果格納テーブル１５０ｋは、キーワード、日時、ＴＢ（kwi）、ＳＵＢ（kwi）、トピックタイプから構成される。このうち、ＳＵＢ（kwi）は、キーワードと共にユーザ端末２０に出力される相関キーワードあるいは共起キーワードを示す。なお、最終結果格納テーブル１５０ｋは、総合Burst値ＴＢ（kwi）の大きい順にキーワードが記憶される。

図３の説明に戻ると、制御部１６０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する制御手段であり、特に本発明に密接に関連するものとしては、図３に示すように、データ管理部１６０ａ、Burst算出部１６０ｂ、ユーザ辞書登録部１６０ｃ、形態素解析部１６０ｄ、総合Burst算出部１６０ｅ、トピックタイプ判定部１６０ｆ、相関キーワード検出部１６０ｇ、共起キーワード検出部１６０ｈ、出力キーワード判定処理部１６０ｉを備える。

このうちデータ管理部１６０ａは、サーバ４０から検索ログ情報を取得し、Ｗｅｂコンテンツデータベース１５０ａに記憶すると共に、各種コンテンツ記憶装置３０から各種コンテンツの情報を取得してＷｅｂコンテンツデータベース１５０ａに記憶する手段である。なお、データ管理部１６０ａは、発信日時が保証された各種コンテンツを収集する場合は、従来技術（特開２００６−２３６２６２）に開示されている技術を利用すればよい。

また、データ管理部１６０ａは、Ｗｅｂコンテンツデータベース１５０ａに記憶されたニュースおよびブログのインデックス化を行い、ニュース・ブログテーブル１５０ｂを作成する（図４参照）。なお、インデックス化を行う場合にニュース・ブログから選択されるキーワードは、日時及び選択したキーワードによって該当ニュースあるいはブログが一意に特定できるものであれば、どのようなキーワードを選択しても構わない。

更に、データ管理部１６０ａは、Ｗｅｂコンテンツデータベース１５０ａに記憶された検索ログ情報を基にして、検索語テーブル１５０ｃを作成する（図５参照）。検索語テーブルを作成する場合に、データ管理部１６０ａは、検索ログ情報に含まれる過去のキーワードの検索数に基づいて、平均検索数を算出し、算出した平均検索数を検索語テーブル１５０ｃに記憶する。

Burst算出部１６０ｂは、検索語テーブル１５０ｃあるいはBurst算出パラメータテーブル１５０ｆに基づいてBurst値を算出する手段である。まず、Burst算出部１６０ｂが検索語テーブル１５０ｃに基づいてBurst値を算出する場合について説明する。このBurst値は、上述したように、利用者によって検索されるキーワードの単位時間当たりの増加量を示す値である。Burst値はどのように算出しても構わないが、例えば、

によって算出することができる。

ここで、式（１）の各項目について説明する。UU_t(W_i)は、時刻ｔにおけるキーワード（wi）の利用者数を表し、C_t1は、UU_t(W_i)の補正値を示す。式（１）を用いることにより、時刻ｔにおけるBurst値AT_t(W_i)1を算出することができる。なお、式（１）の分母は、検索語テーブルの平均検索数に対応し、式（１）のUU_t(W_i)は、検索語テーブル１５０ｃの検索数に対応する。Burst算出部１６０ｂは、キーワードと対応付けて、Burst値AT_t(W_i)1を検索語テーブル１５０ｃのBurst値フィールドに記憶する。

続いて、Burst算出部１６０ｂが、Burst算出パラメータテーブル１５０ｆに基づいてBurst値を算出する場合について説明する。この場合のBurst値は、例えば、

によって算出することができる。

ここで、式（２）の各項目について説明する。F_t(W_i)は、時刻tに発信されたコンテンツに含まれるキーワードの頻度を表し、C_t2は、F_t(W_i)の補正値を示す。式（２）を用いることにより、時刻ｔにおけるBurst値AT_t(W_i)2を算出することができる。なお、式（２）の分母は、Burst算出パラメータテーブル１５０ｆの平均に対応し、式（２）のF_t(W_i)は、Burst算出パラメータテーブル１５０ｆのコンテンツに対応する。Burst算出部１６０ｂは、キーワードと対応付けて、Burst値AT_t(W_i)2をBurst算出パラメータテーブル１５０ｆのBurst値フィールドに記憶する。

ユーザ辞書登録部１６０ｃは、検索語テーブル１５０ｃに記憶された情報を基にして、Burst値フィールドに記憶されたBurst値が閾値以上となるキーワードを検索し、検索したキーワードをユーザ辞書テーブル１５０ｄ（図６参照）に記憶する手段である。

形態素解析部１６０ｄは、ユーザ辞書テーブル１５０ｄの形態素フィールドに記載された各キーワードを利用して、ニュース・ブログテーブル１５０ｂのニュース（ブログ）内容フィールドに記載されたテキストコンテンツあるいはＷｅｂコンテンツデータベース１５０ａに記憶された情報の形態素解析を実行する手段である。形態素解析部１６０ｄは、形態素解析結果を形態素解析結果管理テーブル１５０ｅに記憶する。

形態素解析部１６０ｄは、ニュース・ブログテーブル１５０ｂのニュース（ブログ）内容フィールドに記載されたテキストコンテンツあるいはＷｅｂコンテンツデータベース１５０ａに記憶された情報に基づき、形態素解析結果から得られる形態素（キーワード）を用いて、タイトルに含まれるキーワードの数、エンハンスされたキーワードの数、キーワードがリンクを張られた数、ニュースおよびブログに含まれるキーワードの数を計数する。

形態素解析部１６０ｄは、計数した数をキーワードと対応付けて形態素解析結果テーブル１５０ｅのタイトルフィールド、エンハンスフィールド、リンクフィールド、コンテンツフィールドに記憶する。また、形態素解析部１６０ｄは、文書ソースＩＤ、ロケールの情報も合わせて形態素解析結果テーブル１５０ｅに記憶する。

更に、形態素解析部１６０ｄは、形態素解析結果からえられる形態素（キーワード）とＷｅｂコンテンツデータベース１５０ａあるいはニュース・ブログテーブル１５０ｂに記憶された情報を基にして、Burst算出パラメータテーブル１５０ｆ（図８参照）を作成する。形態素解析部１６０ｄは、Ｗｅｂコンテンツデータベース１５０ａあるいはニュース・ブログテーブル１５０ｂに記憶された情報に含まれるキーワードの検索数に基づいて、単位時間当たりのキーワードが検索される平均検索数を算出し、算出した平均検索数をBurst算出パラメータテーブル１５０ｆの平均フィールドに記憶する。

総合Burst算出部１６０ｅは、キーワードに対応する総合Burst値を算出する手段である。具体的に、総合Burst算出部１６０ｅの行う処理について説明すると、キーワードに対応する総合Burst値ＴＢ（kwi）は、
TB(kwi)=SB(kwi)×CB(kwi)+α(kwi)
によって算出することができる。ここで、各項目の説明を行うと、ＳＢ（kwi）は、検索語テーブル１５０ｃのBurst値フィールドに記憶された（該当キーワードに対応する）Burst値を示す。また、ＣＢ（kwi）は、Burst算出パラメータテーブル１５０ｆのBurst値フィールドに記憶された（該当キーワードに対応する）Burst値を示す。

α（kwi）は、Burst算出パラメータテーブル１５０ｆのタイトルフィールドに記憶されたキーワードの数を示すＴ（kwi）、エンハンスフィールドに記憶されたキーワードの数を示すＬ（kwi）、リンクフィールドに記憶されたキーワードの数を示すＥ（kwi）によって算出される値であり、具体的には、
α(kwi)=β×(T(kwi)+L(kwi)+E(kwi))
によって算出される。上記式におけるβは、総合Burst値のバランスを取るための係数である。

総合Burst算出部１６０ｅは、算出した総合Burst値（ＴＢ（kwi））をキーワードと対応付けて総合Burst格納テーブル１５０ｇ（図９参照）に記憶する。なお、総合Burst算出部１６０ｅは、Burst算出パラメータテーブル１５０ｆに基づいて、総合Burst格納テーブル１５０ｇの各キーワードに対応するＳＢ（kwi）、ＣＢ（kwi）、α（kwi）の値を予め登録しておく。なお、総合Burst算出部１６０ｅは、ＳＢ（kwi）の値が０の場合には、０の代わりに１を登録する。同様に、総合Burst算出部１６０ｅは、ＣＢ（kwi）の値が０の場合には、０の代わりに１を登録する。

トピックタイプ判定部１６０ｆは、キーワードに対応するトピックタイプ（繰り返し型、じわり型あるいは突発型）を判定し、判定結果をキーワードごとにトピックタイプ管理テーブルに記憶する手段である。具体的に、トピックタイプ判定部１６０ｆは、総合Burst格納テーブル１５０ｇのＴＢ（kwi）フィールドに記憶された総合Burst値が閾値以上となるキーワードを検出する。

そして、トピックタイプ判定部１６０ｆは、検出したキーワードに対応する総合Burst値の過去一定期間における時系列推移を算出し、過去のｔ−１からｔ（ｔにはある日にちの時刻に対応する数値が代入される）までの微分値を複数の時点において算出し、各時点での微分値を基にしてトピックタイプを判定する。なお過去一定期間における総合Burst値の時系列推移は、過去一定期間における総合Burst値と日時との関係から近似式によって特定することができる。

トピックタイプ判定部１６０ｆは、各時点での微分値がプラスマイナスをｎ回以上繰り返している場合には、対応するキーワードのトピックタイプを「繰り返し型」と判定する。また、トピックタイプ判定部１６０ｆは、各時点での微分値が所定期間以上の間にｍ回以上連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「じわり型」と判定する。また、トピックタイプ判定部１６０ｆは、各時点での微分値が所定期間未満の間にｍ回連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「突発型」と判定する。

相関キーワード検出部１６０ｇは、総合Bust値が閾値以上となるキーワードを利用して相関係数が所定値以上となるキーワード群を検出する手段である。具体的に、この相関キーワード検出部１６０ｇは、総合Burst格納テーブル１５０ｇを基にして、総合Burst値ＴＢ（kwi）が閾値Ｔ以上となるキーワードを取り出す。

そして、相関キーワード検出部１６０ｇは、取り出した各キーワードの総合Burst値ＴＢ（kwi）を利用して、相関係数を算出する。相関係数はどのようにして算出しても構わないが、例えば

によって算出することができる。

ここで、式（３）の各項目について説明すると、ｘ_iは、キーワードの総合Burst値ＴＢ（kwi）に対応し、ｙ_iは、相関係数の比較対象となるキーワードの総合Burst値（kwj）に対応する。

相関キーワード検出部１６０ｇは、式（３）を用いてキーワードとの相関係数の所定値以上となるキーワード群を取り出し、取り出したキーワード群を相関キーワードＣＯ（kwi）として相関キーワードテーブルに記憶する。図１１の一段目に記憶された結果から、キーワード「株式会社Ａ」の総合Burst値ＴＢ（kwi）と相関キーワード「サービスＡ」の総合Burst値ＴＢ（kwj）との相関係数が所定値以上であったことがわかる。同様に、キーワード「株式会社Ａ」の総合Burst値ＴＢ（kwi）と相関キーワード「パソコンＢ」の総合Burst値ＴＢ（kwi）との相関係数が所定値以上であったことがわかる。

共起キーワード検出部１６０ｈは、総合Burst値が閾値以上となるキーワードを利用して、かかるキーワードと文書中で共に表れる（共起する）キーワードを共起キーワードとして取り出す手段である。

具体的に、共起キーワード検出部１６０ｈは、総合Burst格納テーブル１５０ｇを基にして、総合Burst値ＴＢ（kwi）が閾値Ｔ以上となるキーワードを取り出す。そして、共起キーワード検出部１６０ｈは、取り出したキーワードと形態素解析結果テーブル１５０ｅとを基にして、かかるキーワードのロケール（文書上の位置）を特定する。

共起キーワード検出部１６０ｈは、特定したロケールと、Ｗｅｂコンテンツデータベース１５０ａあるいはニュース・ブログテーブル１５０ｂとを基にして、ロケール値の前後のｍ語（キーワード）を共起キーワードＲＫ（kwi）として取り出し、取り出した共起キーワードを、対応するキーワードと対応付けて共起キーワードテーブル１５０ｊに記憶する。共起キーワード検出部１６０ｈは、かかる処理を他の文書ソースＩＤに対しても実行する。

なお、共起キーワード検出部１６０ｈは、共起キーワードを共起キーワードテーブル１５０ｊに記憶する場合に、文書上における共起キーワードの頻度の大きい順に記憶する。図１２の１段目に示す例では、共起キーワードが研究所、開発、・・・の順に記憶されているので、キーワード「株式会社Ａ」と共に文書上に表れる頻度は、共起キーワード「研究所」のほうが「開発」よりも大きいこととなる。

出力キーワード判定処理部１６０ｉは、ユーザ端末２０に出力するキーワード群（最終結果格納テーブル１５０ｋに記憶される情報）を作成し、作成したキーワード群をユーザ端末２０に出力する手段である。具体的に、出力キーワード判定処理部１６０ｉは、キーワード（kwi）＆相関キーワードＣＯ（kwi）＆ＲＫ（kwi）＆日時という検索条件によって、ニュース・ブログテーブル１５０ｂを検索する。

出力キーワード判定処理部１６０ｉは、かかる検索条件によってヒットした件数が１以上であった場合には、検索条件に対応するキーワード、日時、総合Burst値ＴＢ（kwi）、ＳＵＢ（kwi）、およびキーワードのトピックタイプを最終結果格納テーブル１５０ｋに記憶する。なお、ＳＵＢ（kwi）には、検索条件に含まれる相関キーワードＣＯ（kwi）および共起キーワードＲＫ（kwi）を記憶する。出力キーワード判定処理部１６０ｉは、トピックタイプ管理テーブル１５０ｈを基にしてキーワードのトピックタイプを最終結果格納テーブルに記憶する。出力キーワード判定処理部１６０ｉは、最終結果格納テーブル１５０ｋに記憶するキーワードを総合Burst値の大きい順に記憶する。

上記した検索結果のヒット数が０であった場合には、頻度の低い相関キーワードＣＯ（kwi）あるいは共起キーワードＲＫ（kwi）を検索条件から除外し、再び、ニュース・ブログテーブル１５０ｂを検索する。出力キーワード判定処理部１６０ｉは、検索結果のヒット数が１以上となるまで、検索条件の再設定（頻度の低い相関キーワードＣＯ（kwi）あるいは共起キーワードＲＫ（kwi）を検索条件から除外する設定）を行い、検索を繰り返す。

なお、出力キーワード判定処理部１６０ｉは、最終結果格納テーブル１５０ｋのトピックタイプフィールドを参照し、突発型のキーワードを取り出す。そして、出力キーワード判定処理部１６０ｊは、取り出したキーワード（kwi）＆ＣＯ（kwi）＆ＲＫ（kwi）という日時を検索条件から除いた新たな検索条件によってニュース・ブログテーブル１５０ｂを検索し、ヒット件数が１よりも大きいか否かを判定する。出力キーワード判定処理部１６０ｉは、ヒット件数が１よりも大きいと判定した場合には、対応するキーワードのトピックタイプ「突発型」を削除する。それ以外の場合には、トピックタイプをそのままにする。

次に、本実施例にかかるネット話題集積装置１００の処理について説明する。図１４は、本実施例にかかるネット話題集積装置１００の処理手順を示すフローチャートである。同図に示すように、ネット話題集積装置１００は、データデータ管理部１６０ａが各種コンテンツ記憶装置３０およびサーバ４０からニュース、ブログ、検索ログの情報を取得し、Ｗｅｂコンテンツデータベース１５０ａに記憶する（ステップＳ１０１）。

データ管理部１６０ａは、Ｗｅｂコンテンツデータベース１５０ａに記憶されたデータのインデックス化を行い、ニュース・ブログテーブル１５０ｂおよび検索語テーブル１５０ｃを作成し（ステップＳ１０２）、Burst算出部１６０ｂが検索語テーブル１５０ｃに含まれるキーワードのBurst値を算出する（ステップＳ１０３）。

続いて、ユーザ辞書登録部１６０ｃは、Burst値が閾値以上となるキーワードをユーザ辞書テーブル１５０ｄに登録し（ステップＳ１０４）、形態素解析部１６０ｄがユーザ辞書テーブル１５０ｄに登録されたデータを基にしてニュース・ブログのテキストコンテンツに対して形態素解析を実行する（ステップＳ１０５）。Burst算出部１６０ｂは、形態素解析を実行した結果得られたキーワードのBurst値を算出し、Burst算出パラメータテーブル１５０ｆに記憶する（ステップＳ１０６）。

そして、形態素解析部１６０ｄは、タイトルに含まれるキーワードの数を計数し（ステップＳ１０７）、キーワードに対してリンクが張られている数を計数し（ステップＳ１０８）、キーワードがＢｏｌｄなどによってエンハンスされている数を計数する（ステップＳ１０９）。

総合Burst算出部１６０ｅは、Burst算出パラメータテーブル１５０ｆを基にして総合Burst値を算出し、総合Burst格納テーブル１５０ｇに記憶する（ステップＳ１１０）。トピックタイプ判定部１６０ｆは、過去の総合Burst値の時系列推移に基づいてトピックタイプを判定し、トピックタイプ管理テーブル１５０ｈに記憶する（ステップＳ１１１）。

続いて、相関キーワード検出部１６０ｇは、過去の総合Burst値の時系列推移と相関の高い（相関係数が閾値以上となる）キーワード群ＣＯを検出し、相関キーワードテーブル１５０ｉに記憶する（ステップＳ１１２）。共起キーワード検出部１６０ｈは、ニュースおよびブログのコンテンツの中で、総合Burst値の高い（閾値以上となる）キーワードと共に表れるキーワード群ＲＫを検出し、共起キーワードテーブル１５０ｊに記憶する（ステップＳ１１３）。

そして、出力キーワード判定処理部１５０ｉが、総合Burst値のランキング（総合Burst値の大きい順）にしたがって、キーワード（kwi）＆相関キーワードＣＯ（kwi）＆共起キーワードＲＫ（kwi）＆日時（Date）の検索条件によってニュース・ブログテーブル１５０ｂを検索し（ステップＳ１１４）、総合Burst値のランキングにしたがって、キーワード（kwi）＋相関キーワードＣＯ（kwi）＋共起キーワードＲＷ（kwi）＋トピックタイプの形式でトピックをユーザ端末２０に出力する（ステップＳ１１５）。

このように、出力キーワード判定処理部が、キーワード（kwi）＋相関キーワードＣＯ（kwi）＋共起キーワードＲＷ（kwi）＋トピックタイプの形式でトピックをユーザ端末２０に出力するので、利用者は話題のトピックを入手できると共に、トピックが話題となっている理由を容易に把握することができる。

上述してきたように、本実施例にかかるキーワード管理システムは、ネット話題集積装置１００がキーワードの単位時間当たりの増加値を示すBurst値を算出し、算出したBurst値とこのBurst値に対応するキーワードのコンテンツ上の特徴（キーワードがタイトルに含まれる数、リンクが張られた数、エンハンスされた数）とを基にして総合Burst値を算出する。そして、ネット話題集積装置１００は、総合Burst値の時系列推移を基にして総合Burst値に対応するキーワードに関連キーワード（相関キーワードおよび共起キーワード）をコンテンツから抽出し、キーワードと関連キーワードとを対応づけた情報をトピックとしてユーザ端末２０に出力するので、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができる。

また、本実施例にかかるネット話題集積装置１００は、トピックの情報にトピックタイプを含ませてユーザ端末に出力するので、利用者はどのような経緯によって話題のトピックになったかを容易に理解することができる。

また、本実施例にかかるネット話題集積装置１００は、形態素解析部１６０ｄがユーザ辞書テーブル１５０ｄに記憶された形態素を利用してニュースやブログの形態素解析を実行するので、未知語などの切り出しをより正確に実行することができる。

ところで、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部あるいは一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図２に示したキーワード管理システムの構成および図３に示したネット話題集積装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部がＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図１５は、図３に示したネット話題集積装置１００を構成するコンピュータのハードウェア構成を示す図である。このコンピュータ５０は、ユーザからのデータの入力を受け付ける入力装置５１、モニタ５２、ＲＡＭ（Random Access Memory）５３、ＲＯＭ（Read Only Memory）５４、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取装置５５、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース５６、ＣＰＵ（Central Processing Unit）５７、および、ＨＤＤ（Hard Disk Drive）５８をバス５９で接続して構成される。

そして、ＨＤＤ５８には、上述したネット話題集積装置１００の機能と同様の機能を発揮する話題キーワード提供プログラム５８ｂが記憶されている。そして、ＣＰＵ５７が話題キーワード提供プログラム５８ｂをＨＤＤ５８から読み出して実行することにより、上述したネット話題集積装置１００の機能部の機能を実現する話題キーワード提供プロセス５７ａが起動される。この話題キーワード提供プロセス５７ａは、図３に示したデータ管理部１６０ａ、Burst算出部１６０ｂ、ユーザ辞書登録部１６０ｃ、形態素解析部１６０ｄ、総合Burst算出部１６０ｅ、トピックタイプ判定部１６０ｆ、相関キーワード検出部１６０ｇ、共起キーワード検出部１６０ｈ、出力キーワード判定処理部１６０ｉに対応する。

また、ＨＤＤ５８には、上述したネット話題集積装置１００の記憶部１５０に記憶されるデータに対応する各種データ５８ａが記憶される。この各種データ５８ａは、図３に示したＷｅｂコンテンツデータベース１５０ａと、ニュース・ブログテーブル１５０ｂと、検索語テーブル１５０ｃと、ユーザ辞書テーブル１５０ｄと、形態素解析結果管理テーブル１５０ｅと、Burst算出パラメータテーブル１５０ｆと、総合Burst格納テーブル１５０ｇと、トピックタイプ管理テーブル１５０ｈと、相関キーワードテーブル１５０ｉと、共起キーワードテーブル１５０ｊと、最終結果格納テーブル１５０ｋに対応する。

ＣＰＵ５７は、各種データ５８ａをＨＤＤ５８に記憶するとともに、各種データ５８ａをＨＤＤ５８から読み出してＲＡＭ５３に格納し、ＲＡＭ５３に格納された各種データ５３ａを利用して話題となっているトピックの情報を関連キーワードと対応付けてユーザ端末２０に出力する。

以上のように、本発明にかかるキーワード管理システムは、利用者の端末にトピックを提供するサービスを行うシステムに有用であり、特に、話題となっているトピックを利用者が快適に検索できるようにトピックを提供する必要がある場合に適している。特に、話題となっているトピックを時系列で整理して利用者が興味のあるトピックに対してトラックバックを行ったり、コメントを付加し同じ嗜好をもつ利用者を集めるようなコミュニティサービスへの適用が考えられる。

図１は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。図２は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。図３は、本実施例にかかるネット話題集積装置の構成を示す機能ブロック図である。図４は、ニュース・ブログテーブルのデータ構造の一例を示す図である。図５は、検索語テーブルのデータ構造の一例を示す図である。図６は、ユーザ辞書テーブルのデータ構造の一例を示す図である。図７は、形態素解析結果管理テーブルのデータ構造の一例を示す図である。図８は、Burst算出パラメータテーブルのデータ構造の一例を示す図である。図９は、総合Burst格納テーブルのデータ構造の一例を示す図である。図１０は、トピックタイプ管理テーブルのデータ構造の一例を示す図である。図１１は、関連キーワードテーブルのデータ構造の一例を示す図である。図１２は、共起キーワードテーブルのデータ構造の一例を示す図である。図１３は、最終結果格納テーブルのデータ構造の一例を示す図である。図１４は、本実施例にかかるネット話題集積装置の処理手順を示すフローチャートである。図１５は、図３に示したネット話題集積装置を構成するコンピュータのハードウェア構成を示す図である。

１０ネットワーク
２０ユーザ端末
３０各種コンテンツ記憶装置
４０サーバ
５０コンピュータ
５１入力装置
５２モニタ
５３ＲＡＭ
５３ａ各種データ
５４ＲＯＭ
５５媒体読取装置
５６ネットワークインターフェース
５７ＣＰＵ
５７ａ話題キーワード提供プロセス
５８ＨＤＤ
５８ａ各種データ
５８ｂ話題キーワード提供プログラム
５９バス
１００ネット話題集積装置
１１０入力部
１２０出力部
１３０通信制御ＩＦ部
１４０入出力制御ＩＦ部
１５０記憶部
１５０ａＷｅｂコンテンツデータベース
１５０ｂニュース・ブログテーブル
１５０ｃ検索語テーブル
１５０ｄユーザ辞書テーブル
１５０ｅ形態素解析結果管理テーブル
１５０ｆ Burst算出パラメータテーブル
１５０ｇ総合Burst格納テーブル
１５０ｈトピックタイプ管理テーブル
１５０ｉ相関キーワードテーブル
１５０ｊ共起キーワードテーブル
１５０ｋ最終結果格納テーブル
１６０制御部
１６０ａデータ管理部
１６０ｂ Burst算出部
１６０ｃユーザ辞書登録部
１６０ｄ形態素解析部
１６０ｅ総合Burst算出部
１６０ｆトピックタイプ判定部
１６０ｇ相関キーワード検出部
１６０ｈ共起キーワード検出部
１６０ｉ出力キーワード判定処理部

Claims

ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキ
ーワードを管理するキーワード管理システムのキーワード管理プログラムであって、
前記キーワードの単位時間当たりの増加値を示す第一バースト値を算出する第一バースト値算出手順と、
前記第一バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手順と、
前記形態素解析を実行した結果から得られるキーワードに対して、当該キーワードの単位時間当たりの増加値を示す第二バースト値を算出し、前記第一バースト値と、前記第二バースト値とを用いて総合バースト値を算出する総合バースト値算出手順と、
前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手順と
をコンピュータに実行させることを特徴とするキーワード管理プログラム。
前記総合バースト値の過去の一定期間における時系列推移を算出し、前記総合バースト値の過去の一定期間における時系列推移の微分値を複数の時点において算出し、前記各時点での微分値に基づいて型を判定して、前記各時点での微分値がプラスマイナスをｎ回以上繰り返している場合には、キーワードの検索数が増加減少を繰り返していることを示す繰り返し型に分類し、前記各時点での微分値が所定期間以上の間にｍ回以上連続して繰り返してプラスとなっている場合には、キーワードの検索数が時間経過と共になだらかに増加していることを示すじわり型に分類し、前記各時点での微分値が所定期間未満の間にｍ回連続してプラスとなっている場合には、所定時間内にキーワードの検索数が急激に増加したことを示す突発型に分類する分類手順を更にコンピュータに実行させ、前記出力制御手順は、前記分類手順の分類結果を更に前記利用者の端末に出力することを特徴とする請求項１に記載のキーワード管理プログラム。
前記コンテンツに含まれるテキストの形態素解析を実行した結果は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数、文章中に含まれる前記キーワードの数、単位時間当たりの前記キーワードの平均検索数を含んでいることを特徴とする請求項１に記載のキーワード管理プログラム。
前記出力制御手順は、前記総合バースト値の時系列推移と相関するキーワードを前記関
連キーワードとして抽出することを特徴とする請求項１〜３のいずれか一つに記載のキーワード管理プログラム。
ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキ
ーワードを管理するキーワード管理システムであって、
前記キーワードの単位時間当たりの増加値を示す第一バースト値を算出する第一バースト値算出手段と、
前記第一バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手段と、
前記形態素解析を実行した結果から得られるキーワードに対して、当該キーワードの単位時間当たりの増加値を示す第二バースト値を算出し、前記第一バースト値と、前記第二バースト値とを用いて総合バースト値を算出する総合バースト値算出手段と、
前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手段と
を備えたことを特徴とするキーワード管理システム。
ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキ
ーワードを管理するキーワード管理システムのキーワード管理方法であって、
前記キーワードの単位時間当たりの増加値を示す第一バースト値を算出する第一バースト値算出工程と、
前記第一バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行工程と、
前記形態素解析を実行した結果から得られるキーワードに対して、当該キーワードの単位時間当たりの増加値を示す第二バースト値を算出し、前記第一バースト値と、前記第二バースト値とを用いて総合バースト値を算出する総合バースト値算出工程と、
前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御工程と
を含んだことを特徴とするキーワード管理方法。